JPH0756594A

JPH0756594A - 不特定話者音声認識装置およびその方法

Info

Publication number: JPH0756594A
Application number: JP6185054A
Authority: JP
Inventors: Hidetaka Miyazawa; 秀毅宮澤
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1993-08-19
Filing date: 1994-08-08
Publication date: 1995-03-03
Also published as: US5457770A

Abstract

(57)【要約】【目的】単語の発声を正確に認識できるようにした。【構成】不特定話者の発声がマイクロフォン１を通じ
て電気信号に変換される。その電気信号はアンプ２で増
幅され、Ａ／Ｄ変換器３でデジタル信号変換される。そ
の信号は窓関数機能発生器４、ＦＴアナライザ５、パワ
ースペクトル６を介して音素認識部７に入力される。音
素認識部７では入力された信号を時系列の多次元離散特
徴ベクトルに変換する。辞書８には単語が音素列の型で
記憶されるとともに、全ての単語に対して音素の表音の
形で表現された基準パターンが登録される。音素認識部
７で認識された音素が辞書８の基準パターンと比較され
とき、その音素の１個はマッチングスコアとして数式で
計算される。そして、最大マッチングスコアが得られる
基準パターンのうちの１個は認識単語出力部１１から出
力される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、高度の音声認識の可
能な（ＮＮ）（神経回路網、Neural Network）および／
またはＤＰマッチング（動的計画法、Dynamic Programm
ing）或いは、ＤＴＷ（時間正規化、Dynamic Time Warp
ing）技術を使用して、不特定話者により発声された分
離音声も認識できる不特定話者音声認識装置およびその
方法に関する。

【０００２】

【従来の技術】日本においては、１９８３年８月発行の
「情報処理」（Information Processing）２４巻８号
（Volume ２４、No.８）に、ナカツリョウヘイ（横須
賀電気通信研究所、Yokosuka Electric Communication
Laboratory）の日本語の論文として、さきに提出された
音声認識技術の実施が報告されている。

【０００３】米国（合衆国）特許第４、６３７、０４５
号は、上記音声認識システムが応用された制御装置の一
つを例示している。

【０００４】

【発明が解決しようとする課題】人間の発声した音声
を、コンピュータ等の情報処理装置に認識させる”音声
認識”において、まず、単語を認識させることが基本と
なる。この単語認識方法にＤＰマッチングと言われる手
段がある。このＤＰマッチングは入力パターンと標準パ
ターンのマッチングを行う方法で、以下このＤＰマッチ
ングについて簡単に説明する。

【０００５】単語認識を行う際、音声波形はある時間間
隔で標本化され、スペクトル等の多次元特徴ベクトルの
時系列に変換されてから取り扱われる。また、同様に認
識の対象となる単語を多次元特徴ベクトルの時系列に変
換しておき、これらを基準パターンとしてコンピュータ
に登録しておく。認識過程において、入力された特徴ベ
クトル時系列と基準パターンの特徴ベクトルの時系列の
類似度を全て基準パターンについて求め、一番類似して
いる基準パターンを認識単語として出力する。しかし、
一般的に入力された特徴ベクトル時系列と基準パターン
の特徴ベクトル時系列を直接そのまま比較することはで
きない。というのは、人間がある文章なり単語なりを発
声する時間の長さは個人差があり、また、同じ人が同じ
言葉を発声しても日により気分により大きく変動するか
らである。しかも、この発声時間の伸縮は一様でなく、
非線形に変動する。ＤＰマッチング法とは、入力された
音声の特徴ベクトル時系列が基準パターンの特徴ベクト
ル時系列と最も良く一致するように動的計画法（ＤＰ）
を用いて時間軸を変換し、その後類似度を求める手段で
ある。

【０００６】また、入力された特徴ベクトル時系列と基
準パターンの時系列を比較して単語認識を行うのではな
く、入力された特徴ベクトル時系列から一旦音素の認識
を行い、その後音素表記された基準パターンと音素認識
結果とをＤＰマッチングすることにより、単語認識を行
う手段もある。音素とは、例えば「赤い（ＡＫＡＩ）」
という単語の「Ａ」、「Ｋ」、「Ａ」、「Ｉ」のことで
ある。音素認識の手段の一つに神経回路網（ニューラル
ネットワーク）を用いた手段がある。これはどの特徴ベ
クトルがどの音素に対応しているかを予めニューラルネ
ットワークに学習させておくことにより、入力された特
徴ベクトルのそれぞれの音素の確からしさ（スコア）を
得る手段である。

【０００７】入力された特徴ベクトル時系列と、基準パ
ターンの特徴ベクトル時系列を用いてＤＰマッチングす
る場合、言うまでもなく、基準パターンの特徴ベクトル
時系列が認識対象単語毎に必要となる。従って、認識対
象単語が変更されたり、増加されたりした場合にその都
度基準パターンを変更したり増加したりしなければなら
ない。また、基準パターンは特徴ベクトル時系列である
ため、これを構築するには実際の音声を集め、基準パタ
ーンとなる特徴ベクトル時系列を作成しなければならず
非常に手間がかかる問題があった。さらに、ニューラル
ネットワークを用いてまず音素認識をし、その音素認識
の結果（一番確からしい音素）と、音素の時系列で記述
されている基準パターンとを用いてＤＰマッチングする
場合も同様な問題点が生じる。この手段は特徴ベクトル
時系列を音素ラベルに置き換えたものと解釈でき、どの
音素がどれくらいの長さでその単語の中に存在している
のかという情報（継続時間情報）を各単語にもたせる必
要がある。認識対象単語を変更する場合、正確な継続時
間情報を得るためには、やはり、実際の音声を集めなけ
ればあらない問題がある。

【０００８】この発明の目的は、ＮＮおよびＤＴＷのよ
うな特殊な技術を使用して単語の発声をさらに正確に認
識することのできるように改良された不特定話者音声認
識装置およびその方法を提供するにある。

【０００９】

【課題を解決するための手段および作用】この発明は、
上記目的を達成するために、（ａ）不特定話者による発
声を電気信号に入力するための音声入力部と、（ｂ）上
記音声入力部から上記電気信号を受信し、上記電気信号
を時系列の多次元離散特徴ベクトルに変換するための特
徴抽出部と、（ｃ）上記時系列の多次元離散特徴ベクト
ルを受け取り、上記各ベクトルをそれにより計算した時
系列の音素識別スコアに変換する音素認識部と、（ｄ）
認識しようとする各単語に対して基準パターンを前もっ
て記憶するように構成され、各基準パターンにはその発
声の単一継続時間の長さを有する少なくとも１個の音素
ラベルを有する辞書と、（ｅ）予め定められたＤＰマッ
チング技術を使用して、上記音素認識部から引き出され
た上記入力した音素識別スコア時系列を上記辞書に記憶
された各基準パターンと比較され、上記識別スコア時系
列に最大マッチングスコアを得る上記１個の基準パター
ンを単語の認識結果とする単語認識部と、（ｆ）上記単
語のうち少なくとも１個の単語認識結果として上記単語
認識部によりコード化した形で出力する認識単語出力部
とを具備するものである。

【００１０】上記の目的を達成するためにさらに、この
発明は、（ａ）不特定話者による発声を電気信号に入力
し、（ｂ）上記電気信号を受信し、上記電気信号を多次
元離散特徴ベクトルの時系列に変換し、（ｃ）上記多次
元離散特徴ベクトルの時系列を受信し、上記ベクトルの
各々を音素識別スコア時系列に変換し、（ｄ）認識しよ
うとする各単語に対し前もって基準パターンを記憶する
ように構成した辞書を具備し、各基準パターンは単一の
継続時間長を有する少なくとも１個の音素ラベルを有
し、（ｅ）前もって定められたＤＰマッチング技術を利
用して上記音素認識部から引き出された上記入力した音
素識別スコアの時系列と上記辞書に記憶された各基準パ
ターンとを比較し、これにより、上記音素識別スコア上
記時系列に最大マッチングスコアを得る上記基準パター
ンにうちの１個が単語認識の結果であり、（ｆ）上記単
語のうちの１個を上記単語認識としてそのコード化した
形で出力するようにしたものである。

【００１１】

【実施例】以下この発明に対する理解を容易にするため
に図面に基づいて説明する。図１はこの発明にかかる音
声認識装置の第１実施態様を示すものである。図１に示
すように、マイクロフォン１は不特定話者の発声を拾っ
て電気信号に変換するために用いられる。アンプ２は、
変換された電気信号を正常な可聴レベルに増幅するため
に用いられる。この発明にかかる第１実施態様におい
て、マイクロフォン１とアンプ２は電話機から構成され
る。

【００１２】Ａ／Ｄ変換器３は、アナログ増幅信号をサ
ンプリングして、対応するデジタル信号に変換するため
に用いられる。窓関数機能発生器４は、デジタルフィル
タの一種であるハニング（Hanning）フィルタのような
窓関数を使用して時系列内の各フレーム信号になる。窓
関数機能発生器４からのフレーム信号は、フーリエ変換
（ＦＴ）アナザイラ５に転送される。

【００１３】ＦＴアナライザ５において、フレーム信号
は、パワースペクトル６に変換される。パワースペクト
ルは、音素認識部７に送られる。辞書８には、認識する
べき単語の音素列が前以て記憶され、以下に述べるよう
な認識が行われる。

【００１４】認識しようとする全ての単語に対して音素
の表音の形で表現された基準パターンが辞書８に登録さ
れる。音素表音の形で表された各基準パターンは各音素
の継続時間の長さ情報（例えば、単語「赤い」は「ＡＡ
ＡＡＡＫＫＫＡＡＡＡＡＡＩＩＩＩ」である）を有する
が、実施例において、全音素に対する全ての継続時間の
長さを、「１」とする（例えば、「赤い」は「ＡＫＡ
Ｉ」なる音素列の形で登録される）。音素認識部７は誤
差逆伝搬型神経回路網により構成される。

【００１５】上記神経回路網の一種として、タカミジ
ュンイチおよびサガヤマシゲキ（ＡＴＲ電話音声研究
所、ATR Interpreting Telephony Research Laboratori
es）著作の「対方式の判別ＴＤＮＮ（Pairwise Discrim
inant TDNN）による音素認識」と題する英文資料に実施
が報告されている。

【００１６】さらに、神経回路網の技術は「神経回路網
技術、the Neural Network Architectures」と題し、１
９９０年のVan Nostrand Reinholdによる版権、Judith
E.Dayhoffによる序文の書籍（その日本における版権
は、日本、東京、アサノ代理店、the Asano Agency,Inc
経由で、ニューヨークのThompson International Publi
shingにより設定された）の第５章により実施報告され
ている。

【００１７】上記音素認識部７において使用される神経
回路網は、図２に示すように、入力した時系列の離散的
特徴ベクトルをそれぞれの音素上の識別スコア時系列に
変換する。なお、図２において、各格子状の黒塗りの長
方形の大小形状は出力値の大きさを表している。横軸の
入力音声と縦軸の基準パターンの音素ラベルとのフレー
ムマトリクス（時間に対応する）は、図３ないし図５に
示すように基準パターンの数に従って準備される。つづ
いて、基準パターンＫのｊ番目の音素Ｐｊの出力値（音
素識別スコア）は、神経回路網から出力したｉフレーム
に対応する格子点（ｉ，ｊ）上にコピーされる。このコ
ピーは、図３ないし図５に示すように、全基準パターン
中の全ての音素の全てのフレーム（入力した発声の開始
から入力した発声の終了まで）に対して実行される。

【００１８】図６において、マッチングスコアｇｋ
（ｉ，ｊ）は、ｉ番目のフレーム入力音素と基準パター
ン音素のｊ番目の音素との間から数式を使用して導かれ
る。その式を次に示す。

【００１９】

【数２】

【００２０】ここで、ａｋ（ｉ，ｊ）は、神経回路網の
基準パターンｋのｊ番目の音素のｉ番目のフレームの出
力値であり、Ｐは、入力音声の極度の収縮を避けるため
のペナルティ常数である。ｇｋ（Ｉ，Ｊ）は、入力音素
のフレーム数がＩで、基準パターンｋの音素数がＪであ
ると仮定するときの基準パターンｋの最大マッチングス
コアを示す。

【００２１】上記のようにして、識別スコアは全ての基
準パターンに対して導かれる。最大マッチングスコアを
与える基準パターンのうちの１個は単語認識の結果とし
て出力ブロック１０に出力される。

【００２２】

【発明の効果】以上述べたように、この発明にかかる不
特定話者音声認識装置およびその方法において、各音素
の継続時間の長さに関する情報を与える必要が生じない
ので、認識しようとする単語の修正および増加が容易に
実行される。さらに、各基準パターン中のフレーム数を
減少させ、これにより、単語の認識速度を向上させるこ
とができる。

【００２３】上述の説明は好ましい実施態様に対して成
されたものであるが、特許請求の範囲に定められるべ
き、この発明の範囲を逸脱することなく各種の変更およ
び修正が可能であることは当業者により充分理解される
ものである。

【図面の簡単な説明】

【図１】この発明にかかる第１実施における音声認識装
置のブロック図。

【図２】不特定話者が単語「ＡＫＡＩ（日本語の「赤
い」）」を話したとき図１に示す音素認識部を構成する
神経回路網の出力ベクトルの実例のマトリクス表示系統
説明図。

【図３】図１に示すように「ＡＫＡＩ」で表示され、辞
書に記憶された基準パターンとのマッチングを計算する
実例で、横軸は、図２に示したＮＮの出力ベクトル系統
と基準パターンの単語ＡＫＡＩとのマッチングの計算の
実例を示す説明図。

【図４】図１に示すように「ＡＯＩ」で表示され、辞書
に記憶された基準パターンとのマッチングを計算する実
例で、横軸は、図２に示したＮＮの出力ベクトル系統と
基準パターンの単語ＡＯＩとのマッチングの計算の実例
を示す説明図。

【図５】図１に示すように「ＳＩＲＯＩ」で表示され、
辞書に記憶された基準パターンとのマッチングを計算す
る実例で、横軸は、図２に示したＮＮの出力ベクトル系
統と基準パターンの単語ＳＩＲＯＩとのマッチングの計
算の実例を示す説明図。

【図６】図３に示した基準パターンの単語「赤い（ＡＫ
ＡＩ）」の場合におけるＤＰマッチングスコアの実例を
示す説明図。

【符号の説明】

１…マイクロフォン２…アンプ３…Ａ／Ｄ変換器４…窓関数機能発生器５…ＦＴアナライザ６…パワースペクトル７…音素認識部８…辞書９…単語認識部１０…出力ブロック１１…認識単語出力部

Claims

【特許請求の範囲】

【請求項１】（ａ）不特定話者による発声を電気信号
に入力するための音声入力部と、（ｂ）上記音声入力部から上記電気信号を受信し、上記
電気信号を時系列の多次元離散特徴ベクトルに変換する
ための特徴抽出部と、（ｃ）上記時系列の多次元離散特徴ベクトルを受け取
り、上記各ベクトルをそれにより計算した時系列の音素
識別スコアに変換する音素認識部と、（ｄ）認識しようとする各単語に対して基準パターンを
前もって記憶するように構成され、各基準パターンには
その発声の単一継続時間の長さを有する少なくとも１個
の音素ラベルを有する辞書と、（ｅ）予め定められたＤＰマッチング（動的計画法）技
術を使用して、上記音素認識部から引き出された上記入
力した音素識別スコア時系列を上記辞書に記憶された各
基準パターンと比較され、上記識別スコア時系列に最大
マッチングスコアを得る上記１個の基準パターンを単語
の認識結果とする単語認識部と、（ｆ）上記単語のうち少なくとも１個の単語認識結果と
して上記単語認識部によりコード化した形で出力する認
識単語出力部とを具備する不特定話者音声認識装置。
【請求項２】上記“時間”は上記各特徴ベクトルを現
すフレームの連続を意味し、上記予め定められたマッチ
ング技術においては、上記ｉフレーム入力系列音素と上
記基準パターンのうちの１個のｊ番号音素との間のマッ
チングスコアｇｋ（ｉ，ｊ）は次式から求め、【数１】ここで、上記ｉフレーム音素が上記基準パターンｋの上
記ｊ番号音素に対応し、Ｐが神経回路網から入力した上
記音素系列の極度の収縮を避けるためのペナルティ常数
を示すときに、ａｋ（ｉ，ｊ）は上記音素認識部を構成
する神経回路網の出力値を示し、上記入力系列の音素の
フレームの上記番号がＩであり、上記基準パターンｋの
音素の上記番号がＪであるとき、全マッチングスコアａ
ｋ（Ｉ，Ｊ）が引き出される請求項１記載の不特定話者
音声認識装置。
【請求項３】上記単語認識部は全基準パターンＫに対
する上記全マッチングスコアの中から最大マッチングス
コアｇｋ（Ｉ，Ｊ）を得る上記基準パターンｋのうちの
１個を出力する請求項２記載の不特定話者音声認識装
置。
【請求項４】上記音素認識部は誤差逆伝搬型神経回路
網により構成される請求項１記載の不特定話者音声認識
装置。
【請求項５】上記横軸から得たフレームＩのマトリク
スと縦軸から得たそれぞれの基準パターンを構成する上
記音素ラベル系列Ｊとは、基準パターンのにより準備さ
れ、上記神経回路網の上記ｉ番目のフレームの上記単一
音素Ｐｊの出力値は上記基準パターンｋの上記ｊ番目の
番号の音素の上記ｉ番目のフレームＰｊに対応する格子
点（ｉ，ｊ）にコピーされ、上記準備は全ての基準パタ
ーンに対して実行され、全ての基準パターンは上記辞書
に記憶される請求項４記載の不特定話者音声認識装置。
【請求項６】上記辞書に記憶された基準パターンのう
ちの１個の上記音素ラベルは上記単語「ＡＫＡＩ」に対
する「ＡＫＡＩ」のような一つの連続する時間の長さを
有する請求項５記載の不特定話者音声認識装置。
【請求項７】（ａ）不特定話者による発声を電気信号
に入力し、（ｂ）上記電気信号を受信し、上記電気信号を多次元離
散特徴ベクトルの時系列に変換し、（ｃ）上記多次元離散特徴ベクトルの時系列を受信し、
上記ベクトルの各々を音素識別スコア時系列に変換し、（ｄ）認識しようとする各単語に対し前もって基準パタ
ーンを記憶するように構成した辞書を具備し、各基準パ
ターンは単一の継続時間長を有する少なくとも１個の音
素ラベルを有し、（ｅ）前もって定められたＤＰマッチング（動的計画
法）技術を利用して上記音素認識部から引き出された上
記入力した音素識別スコアの時系列と上記辞書に記憶さ
れた各基準パターンとを比較し、これにより、上記音素
識別スコア上記時系列に最大マッチングスコアを得る上
記基準パターンにうちの１個が単語認識の結果であり、（ｆ）上記単語のうちの１個を上記単語認識としてその
コード化した形で出力する、各ステップからなる不特定
話者音声認識方法。