JPH06266396A

JPH06266396A - 単語予備選択方式

Info

Publication number: JPH06266396A
Application number: JP5051605A
Authority: JP
Inventors: Keiji Fukuzawa; 圭二福沢; Masahide Sugiyama; 雅英杉山
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date: 1993-03-12
Filing date: 1993-03-12
Publication date: 1994-09-22
Anticipated expiration: 2010-06-05
Also published as: JPH0752358B2

Abstract

(57)【要約】（修正有）【目的】単語音声認識における認識処理時間の短縮お
よび入力音声データの必要なく単語予備選択用の参照デ
ータを作成する。【構成】音素スキャニング部３２は、音響特徴抽出部
３１における音響特徴抽出量をそこに含まれるニューラ
ルネットワークに入力し、対応の発火パターン列Ｇを算
出する。平均発火ベクトル算出部４１は、各音素の平均
発火ベクトルを算出し平均発火ベクトル保持部４０に格
納する。参照ベクトル作成部４４は単語辞書４３に準備
した単語を音素記号列に変換し、平均発火ベクトルに従
い各単語ベクトルの参照ベクトルを生成し参照ベクトル
データ保持部４５に格納する。音素ベクトル算出部５１
は単語予備選択音素ベクトルを生成する。照合処理部５
２は音素ベクトルと各単語の参照ベクトルとを照合し、
予備選択処理部５３は単語候補を選択する。単語認識部
３３は発火パターン列に従って予備選択した単語候補に
対し認識動作を実行する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、入力音声認識時にお
いて辞書から認識対象とすべき単語を予備選択する方式
に関し、特に、ニューラルネットワークの発火パターン
を用いて認識対象とすべき単語候補を予備選択する方式
に関する。

【０００２】

【従来の技術】入力音声を認識する音声認識装置におい
ては、入力音声の特徴量の抽出を行ない、この抽出され
た音声特徴量に基づいて予め準備された辞書から対応の
単語を選択することが行なわれる。この単語選択のため
にニューラルネットワーク（神経回路網）を用いる方式
がある。

【０００３】従来のニューラルネットワークを用いた単
語認識の方式においては以下の処理が行なわれる。ま
ず、入力音声の音響分析を行ない、その分析結果に基づ
いて入力音声を音響特徴量に変換する。このようにして
得られた音響特徴量をセグメント単位でニューラルネッ
トワークに入力する。ニューラルネットワークは予め音
響特徴量に対応する音素を学習している。したがって、
このニューラルネットワークからは、入力された音響特
徴量に基づいて音素識別が行なわれ、識別された音素に
対応する発火パターンが得られる。この操作を発声開始
時点から終了時点まで時間方向にシフトしながら行な
う。これにより、発声区間の音素スキャニングによる発
火パターン列が得られる。この発火パターン列を基に、
ＤＰＷ（ダイナミック・タイム・ワーピング（Ｄｙｎａ
ｍｉｃＴｉｍｅＷａｒｐｉｎｇ））法による処理
（ＤＰマッチング処理）、および構文解析による処理な
どを用いて予め準備された辞書から対応の単語を選択す
ることにより、入力音声の単語認識が行なわれる。

【０００４】また、単語認識時において、辞書内単語を
すべて認識対象とするのではなく、音響特徴量に基づい
て認識対象とする単語の候補を辞書から選択し、この選
択された単語候補を認識対象として単語識別を行なう予
備選択方式がある。

【０００５】（ｉ）従来の単語予備方式１図３は、従来のＶＱ化歪みによる単語予備方式に従うシ
ステムの構成を示す図である。ＶＱ（ベクトル量子化）
歪みによる単語予備選択方式においては、単語別にＶＱ
符号帳が用意される。入力音声が、時系列特徴量データ
に変換され、次いで各単語に対応して用意されたＶＱ符
号帳を用いてベクトル量子化される。このベクトル量子
化時における歪みが最も小さいＮ個の単語が認識対象候
補として選択される。次に、図３に示すシステムの構成
および動作について説明する。

【０００６】図３において、音響特徴抽出部１は、入力
音声を受け、音響特徴量を抽出する。ＶＱ符号帳作成部
２は、学習時において、この音響特徴抽出部１で抽出さ
れた音響特徴量に基づいて、各単語ごとにＶＱ符号帳を
作成する。ＶＱ符号帳データ部３は、ＶＱ符号帳作成部
２で作成された各単語ごとのＶＱ符号帳を格納する。図
３においては、単語１ないしＭのＭ個の単語に対するＭ
個のＶＱ符号帳がＶＱ符号帳データ部３に格納された状
態が一例として示される。

【０００７】ベクトル量子化部４は、単語認識動作時に
おいて、音響特徴抽出部１において抽出された音響特徴
量の時系列データを受け、ＶＱ符号帳データ部３に格納
された各単語に対応して設けられたＶＱ符号帳に基づい
てベクトル量子化を行ない、そのベクトル量子化時にお
ける各単語ごとの歪みデータを算出する。選択処理部５
は、ベクトル量子化部４で算出された各単語ごとの歪み
データを受け、歪みが最も小さいＮ個の単語を認識対象
候補として選択する。この選択処理部５により選択され
た単語候補に対して、前述のＤＴＷ法および構文解析法
などに従って単語認識が実行される。

【０００８】（ｉｉ）従来の単語予備選択方式２図４は、従来のユニバーサルＶＱ符号帳を用いた単語予
備選択方式に従うシステムの構成を概略的に示す図であ
る。ユニバーサルＶＱ符号帳はすべての単語に共通に利
用される。このユニバーサルＶＱ符号帳を用いる単語予
備選択方式においては、入力音声がユニバーサルＶＱ符
号帳に基づいてベクトル量子化され、このベクトル量子
化におけるＶＱ符号の出現頻度と予め求められていた認
識対象とする単語それぞれにおけるＶＱ符号の出現頻度
とが照合され、このＶＱ符号の出現頻度が近いＮ個の単
語が認識対象候補として選択される。次に図４に示すシ
ステムの構成および動作について説明する。

【０００９】図４において、音響特徴抽出部２１は、入
力音声の音響特徴量を抽出する。ＶＱ符号帳作成部２２
は、ユニバーサルＶＱ符号帳作成時にこの音響特徴抽出
部２１で抽出された音響特徴量に基づいてユニバーサル
ＶＱ符号帳を作成する。ユニバーサルＶＱ符号帳保持部
２３は、ＶＱ符号帳作成部２２で作成されたユニバーサ
ルＶＱ符号帳を記憶する。

【００１０】ベクトル量子化部２４は、認識時または学
習時において、音響特徴抽出部２１で抽出された入力音
声の音響特徴量データを受け、ユニバーサルＶＱ符号帳
保持部２３に保持されているユニバーサルＶＱ符号帳に
基づいて与えられた音響特徴量をベクトル量子化してＶ
Ｑ符号を算出する。出現頻度計算部２５は、ベクトル量
子化部２４から与えられるＶＱ符号の出現頻度を算出す
る。

【００１１】照合用ＶＱ符号出現頻度データ保持部２６
は、学習時において認識対象とする各単語の音声入力か
ら得られるＶＱ符号出現頻度を各単語ごとに記憶する。
すなわち、照合用ＶＱ符号出現頻度データ保持部２６
は、認識対象単語の数がＭ個の場合、Ｍ個のＶＱ符号出
現頻度のデータを記憶する。照合処理部２７は、認識時
において、出現頻度計算部２５で算出されたＶＱ符号の
出現頻度と参照用ＶＱ符号出現頻度データ保持部２６に
保持された認識対象単語それぞれのＶＱ符号出現頻度と
を照合し、各単語に対する照合度を算出する。選択処理
部２８は照合処理部２７で算出された各単語に対する照
合度に従って、照合度が大きいＮ個の単語を認識対象候
補として選択する。

【００１２】

【発明が解決しようとする課題】ニューラルネットワー
クは、単語中の音素の識別および単語音声認識において
高い性能を示すことが報告されている。しかしながら、
ニューラルネットワークと構文解析を行なうＬＲパーザ
とを組合わせた大語彙単語音声認識システムにおいて
は、認識処理に長時間を有するという問題がある。表１
に従来のニューラルネットワークを用いた単語音声認識
における処理時間を示す。

【００１３】

【表１】表１においては、ＴＤＮＮ（タイムディレーニ
ューラルネットワーク（ＴｉｍｅＤｅｌａｙＮｅｕ
ｒａｌＮｅｔｗｏｒｋ））とＬＲパーザとを組合わせ
た音声認識出力における処理時間を示す。音声認識処理
時間は、音素スキャニングに必要とされる時間とそれ以
後の処理（ＤＴＷおよび構文解析等）に要する時間とに
分けることができる。表１に示すように、１単語平均と
して、音素スキャニングに１８５４１ミリ秒、音素スキ
ャニング以後の処理に１２１３９ミリ秒の処理時間が必
要とされ、全体として３０６８０ミリ秒の処理時間が必
要とされる。なお、表１においては各処理時間は、２６
１８個の単語の認識処理における１単語当りの平均時間
を示す。このため、高速で音声認識を行なうことができ
なくなるという問題が生じる。

【００１４】それゆえ、本発明の１つの目的は、音素ス
キャニング以後の時間を短縮し、これにより全体として
の単語認識処理時間を短縮することである。

【００１５】また図３および図４に示すようなＶＱ符号
帳を用いた単語予備選択方式においては、認識対象とす
る辞書内単語それぞれに対して音声データを用いて参照
データ（ＶＱ符号帳またはＶＱ符号出現頻度）の作成を
行なう必要がある。認識対象とする単語それぞれに対し
て音声を発話することが必要であり、認識対象とする単
語数が多い大語彙を対象とした認識を行なうシステムに
おいては、音声データ収集のために多大な労力が必要と
される。このため、辞書へ新しい項目を登録することも
容易ではない。

【００１６】それゆえ、この発明の他の目的は、単語認
識のための参照データ作成を発話された音声データを用
いることなく行なうことである。

【００１７】

【課題を解決するための手段】この発明に係る単語予備
選択方式は、入力音声から抽出された音響特徴量をニュ
ーラルネットワークに入力し、このニューラルネットワ
ークの出力する発火パターン列に従って認識対象とする
単語候補を選択するものである。

【００１８】すなわち、請求項１に係る単語予備選択方
式は、入力音声から音響特徴量を抽出るす音声特徴抽出
手段と、ニューラルネットワークを含み、この音声特徴
抽出手段により抽出された音響特徴量データに対応する
発火パターン列を生成するスキャニング手段と、このス
キャニング手段により生成された発火パターン列に従っ
て、単語予備選択に用いるためのベクトルを算出するベ
クトル算出手段と、辞書内の各単語の記号列に従って、
各単語ごとに参照ベクトルを生成して格納する参照ベク
トル生成／保持手段と、ベクトル算出手段により算出さ
れたベクトルと参照ベクトル発生／保持手段が作成して
保持する参照ベクトルとを照合し、その照合結果に従っ
て辞書内単語から認識対象とする単語候補を選択する選
択手段とを備える。

【００１９】請求項２に係る単語予備選択方式は、入力
音声から音響特徴量を抽出する音声特徴抽出手段と、音
声特徴抽出手段で抽出された音響特徴量データ列をニュ
ーラルネットワークに入力し、入力された音響特徴量デ
ータ列に対応する発火パターン列を生成するスキャニン
グ手段と、このスキャニング手段により生成された発火
パターン列から単語の記号列を算出する算出手段と、辞
書内単語からこの算出手段により算出された記号列を含
む単語を認識対象単語候補として選択する手段とを含
む。

【００２０】

【作用】請求項１および２に係る発明においては、ニュ
ーラルネットワークを用いて音響特徴量から発火パター
ン列を生成し、この生成された発火パターン列を基に単
語の予備選択が行なわれる。したがって、認識対象とす
る単語数が大幅に低減される。それ以後にこの発火パタ
ーン列に基づくＤＴＷおよび構文解析等の処理が行なわ
れるが、これらの認識処理においては、認識対象単語数
が大幅に低減されているため、単語認識処理時間が大幅
に低減される。またニューラルネットワークを用いてい
るため、高性能で単語候補を選択することができる。

【００２１】また請求項１および２に係る発明におい
て、単語予備選択に用いられる参照データとしては、辞
書内単語それぞれに対する記号列に従って作成されるた
め、単語予備選択のための参照データ作成に当たっては
音声データが不要となり、少ない労力で参照データを生
成することができる。また、参照データが単語記号列に
基づいて生成されるため、新しい項目を容易に追加登録
することが可能となる。

【００２２】

【実施例の説明】この発明において利用されるニューラ
ルネットワークの発火パターンとしては、音素カテゴ
リ、音節カテゴリ、または単語カテゴリに対応する出力
が考えられる。以下の説明においては一例として、音素
カテゴリに対応するニューラルネットワークの出力が利
用される場合の構成について説明する。また、予備選択
において対象とされるものは、単語、文節および文を単
位として利用することができる。以下の説明において
は、単語を対象として説明が行なわれるが、この単語
は、文節または文であってもよく、１つの認識単位であ
ればよい。

【００２３】（ｉ）第１の単語予備選択方式図１は、この発明による単語予備選択方式を用いる単語
音声認識システムの構成を概略的に示すブロック図であ
る。図１において、音響特徴抽出部３１は、入力された
音声から音響特徴量を抽出する。この音響特徴抽出部３
１は、入力音声を所定のサンプリング周期で標本化し、
短時間電力スペクトル密度および自己相関関数などの音
響特徴量を抽出する。

【００２４】音素スキャニング部３２は、ニューラルネ
ットワークを含み、音響特徴抽出部３１で抽出された音
響特徴量を１フレームずつシフトしてニューラルネット
ワークへ入力し、各フレーム単位で発火パターン列Ｇ＝
（ｇ１，ｇ２，…，ｇｔ，…ｇＴ）を算出する。ここ
で、ｇｔは、時刻ｔにおけるニューラルネットワークの
出力ベクトル（発火パターン）を示し、Ｔは音声フレー
ム長を示す。ただし、ベクトルｇｔの次元数はニューラ
ルネットワークの出力ユニットの数に等しいと想定す
る。この音素スキャニング部３２に含まれるニューラル
ネットワークは、予め音響特徴量に従って音素識別を学
習している。このニューラルネットワークから出力され
る発火パターン列Ｇに含まれるベクトルｇｔは識別した
音素に対応する（正確な想起動作が行なわれた場合）。

【００２５】平均発火ベクトル算出部４１は、単語候補
の予備選択のために用いられる参照ベクトルの発生のた
めに用いられる音素単位の平均発火ベクトルを算出す
る。すなわち、平均発火ベクトル算出時においては、音
声入力データが音響特徴抽出部３１へ与えられ、音素ス
キャニング部３２で発火パターン列Ｇが算出される。こ
の入力音声の音素記号列と音素スキャニング部３２から
の発火パターン列Ｇとに従って音素ｐ単位の平均発火ベ
クトルＦｐが算出される。この平均発火ベクトル算出部
４１で算出された音素ｐに対する平均発火ベクトルＦｐ
は平均発火ベクトル保持部４２に格納される。平均発火
ベクトル保持部４２においては、それぞれの音素に対応
して平均発火ベクトルを格納する。

【００２６】参照ベクトル作成部４４は、平均発火ベク
トル保持部４２に保持された各音素ごとの平均発火ベク
トルに基づいて、単語辞書４３に格納された単語ｗ各々
に対する参照ベクトルＶｗを生成する。この参照ベクト
ル発生部４４は、単語辞書４３に準備されている単語ｗ
の記号列（たとえばローマ字の列）を音素記号列に置き
換え、この音素記号列に含まれる音素記号ｐそれぞれに
対する平均発火ベクトルＦｐを加算することにより単語
ｗに対する参照ベクトルＶｗを算出する。たとえば、単
語ｗとして「ｋａｗａ」を考えると、参照ベクトル作成
部４４は、次式に従って参照ベクトルＶｗを生成する。

【００２７】Ｖｗ＝Ｆ／ｋ／＋Ｆ／ａ／＋Ｆ／ｗ／＋Ｆ／ａ／＝２・Ｆ／ａ／＋Ｆ／ｋ／＋Ｆ／ｗここで、Ｆ／ａ／、Ｆ／ｋ／、およびＦ／ｗ／はそれぞ
れ音素（音素記号）「ａ」、「ｋ」、および「ｗ」に対
する平均発火ベクトルを示す。この式から見られるよう
に、単語候補作成のために利用される参照ベクトルＶｗ
の算出においては、認識対象単語の音声データは用いら
れておらず、単に単語の記号列から参照ベクトルが算出
されるため、参照データ作成時において、音声入力を必
要とせず、少ない労力で容易に参照ベクトルを作成する
ことができる。参照ベクトル作成部４４で作成された参
照ベクトルＶｗが参照ベクトルデータ保持部４５に記憶
される。

【００２８】音素ベクトル算出部５１は、認識動作時に
おいて、入力音声に従って音素スキャニング部３２から
算出された発火パターン列Ｇに従って単語候補予備選択
のためのベクトルを算出する。この音素ベクトル算出部
５１は、参照ベクトルが音素記号ｐに対する平均発火ベ
クトルＦｐの加算により導出される場合には、次式に従
って音素ベクトルＶを算出する。

【００２９】Ｖ＝Σｇｔ；但し総和はｔ＝１〜Ｔにおい
て実行される。照合処理部５２は、この音素ベクトル算
出部５１で算出された音素ベクトルＶと参照ベクトルデ
ータ保持部４５に保持されている各単語に対する参照ベ
クトルとの照合度を算出する。この照合度の算出のため
に、一例として、照合処理部５２は音素ベクトルＶと参
照ベクトルＶｗとの距離｜Ｖ−Ｖｗ｜を計算する。

【００３０】予備選択処理部５３は、この照合処理部５
２からの照合度情報すなわち各単語に対して計算された
距離データに従って、単語辞書４３に格納された単語の
うち最も距離の近いＮ個の単語を選択する。単語認識部
３３は、この予備選択処理部５３により予備選択された
単語候補のうちから、音素スキャニング部３２から与え
られた発火パターン列Ｇに従って、ＤＴＷおよび構文解
析等の処理により単語認識を行ない、その認識結果を出
力する。単語認識部３３は、予備選択された単語候補の
みを認識対象として処理を行なうため、高速で単語認識
を行なうことができる。

【００３１】（ｉ−１）変更例（ａ）音素ベクトルＶおよび参照ベクトルＶｗはそれ
ぞれ発火パターンｇｔまたは平均発火ベクトルＦｐの総
和により求められている。しかしながら、これらの音素
ベクトルＶおよび参照ベクトルＶｗとしては、時間軸に
沿って分割された複数の区間それぞれにおいて求められ
た複数のベクトルの組が用いられてもよい。すなわち、
たとえば発火パターン列Ｇにおいて、（ｇ1 ，ｇ２，…
ｇｉ）、（ｇｊ，…ｇｓ）、（ｇｔ，…，ｇＴ）の時間
軸に沿った区間に分割し、各区間において１つのベクト
ルが算出され、この算出されたベクトルの組を利用する
構成が用いられてもよい。

【００３２】（ｂ）平均発火ベクトルＦｐに対しその
音素記号ｐの前後に配置される音素記号列を考慮して重
み付けなどの処理を行なって各単語に対する参照ベクト
ルの算出が行なわれてもよい。

【００３３】（ｃ）音素ベクトルＶおよび参照ベクト
ルＶｗは、音素スキャニング部３２に設けられているニ
ューラルネットワークの出力ニューロンユニットの数に
等しい次元を持っている。これに代えて、ベクトルＶお
よびＶｗのある特定の次元の要素を使用せずに照合度の
算出が行なわれてもよい。

【００３４】（ｄ）音素ベクトルＶおよび参照ベクト
ルＶｗそれぞれにおいて、いくつかの次元の要素を統合
して用いて照合度の算出を行なってもよい。この方法ｃ
およびｄにおいては、音素ベクトルＶおよび参照ベクト
ルＶｗの次元数が少なくなるため、照合度算出における
計算量を低減することができ、処理時間を短縮すること
ができる。

【００３５】（ｅ）音素ベクトルＶと参照ベクトルＶ
ｗの照合度の検出のための距離算出時において、音素記
号ｐそれぞれに対する発火量（発火ベクトルの大きさ）
の分散を考慮して距離算出が行なわれてもよい。

【００３６】（ｆ）参照ベクトルＶｗを予めクラスタ
リングしておき、各クラスターの中心ベクトルと音素ベ
クトルＶとの距離を求め、この音素ベクトルＶに最も近
い１つまたは複数個のクラスタを選択し、この選択され
たクラスタに属する単語のみを認識単語候補として利用
してもよい。

【００３７】（ｇ）予備選択において選択される単語
候補の数をＮ個と固定する代わりに、音素ベクトルＶと
参照ベクトルＶｗとの距離がある値よりも小さい参照ベ
クトルに対応する単語をすべて認識単語候補として選択
してもよい。

【００３８】（ｈ）上述の変形例（ａ）〜（ｇ）を適
当に組合わせて単語予備選択を行なってもよい。

【００３９】（ｉｉ）第２の単語予備選択方式図２はこの発明に従う第２の単語予備選択方式の構成を
概略的に示す図である。図２においては、入力音声単語
が「愛する（ａｉｓｕｒｕ）」の場合の予備選択動作が
一例として示される。この第２の単語予備選択方式にお
いては、音素ベクトルおよび参照ベクトルのような特徴
ベクトルを用いず、音素記号列の照合により単語予備選
択を行なう。

【００４０】図２において、ニューラルネットワークを
含む音素スキャニング部からは、入力音声の音響特徴量
に従って発火パターン列６１が算出される。この発火パ
ターン列６１は、与えられた音響特徴量に従って、ある
時間間隔でサンプリングされた特徴量に対する発火パタ
ーンｇｔを含む。図２においては、まず無音状態（Ｑ）
が継続した後「・」、「ａ」、「・」、「ｉ」、
「・」、「ｕ」、「・」、および「ｕ」が続き、次いで
無音状態（Ｑ）が続く。ここで、「・」は発火パターン
が予め用意された音素カテゴリ内の音素を示しておら
ず、音素認識不能状態を示す。

【００４１】この無音状態から無音状態の間の区間を１
フレームとして単語の認識が行なわれる。このニューラ
ルネットワークの発火パターン列６１から認識された音
素に従って音素記号列（Ｓ）６２を算出する。この音素
記号列６２は、「ａｉｕｕ」である。次いで、この算出
された音素記号列６２を含む単語を辞書から選択し、認
識対象単語候補６３を選択する。この単語候補６３は、
「愛する（ａｉｓｕｒｕ）」、「相次ぐ（ａｉｔｕｇ
ｕ）」、「あり得る（ａｒｉｕｒｕ）」、および「対す
る（ｔａｉｓｕｒｕ）」などを含む。この単語候補６３
に対して、さらに発火パターン列６１を用いてＤＴＷ、
および構文解析法などに従って単語識別を実行する。

【００４２】この構成の場合、辞書内単語それぞれに対
して、単語の記号列を音素記号列に変換した参照データ
が参照データ保持部に格納され、発火パターン列を音素
記号列に変換した後、この音素記号列を含む参照データ
に対応する単語を単語候補として選択する構成が用いら
れる。

【００４３】音素記号列の算出は、音素記号ｐそれぞれ
に対して予め定められた最小継続時間Ｌ（ｍｉｎ，ｐ）
以上その音素記号に対応するニューラルネットワークの
出力が一定の発火レベル（Ｈ）を維持している場合にそ
の音素が発音されたと判断し、対応の音素記号を音素記
号列に加えることにより行なわれる。最小継続時間Ｌ
（ｍｉｎ，ｐ）は、各単語に対して、単語に含まれる音
素信号情報に基づいて以下の式により算出される。

【００４４】Ｌ（ｍｉｎ，ｐ）＝Ｌ（ａｖｅ，ｐ）−α・Ｄｐただし、Ｌ（ａｖｅ，ｐ）およびＤｐはそれぞれ単語デ
ータとそこに含まれる音素信号情報に基づいて各音素に
対して求められた音素記号ｐに対する平均継続時間長さ
および標準偏差を示し、αは定数値を示す。音素記号列
６２の算出に当たっては、（ａ）いくつかの音素記号を
削除または統合する、および（ｂ）同じ音素記号が２つ
以上続いた場合には１つの音素記号とする（図２の実施
例において２つの音素ｕｕを１つの音素ｕとする）など
の条件が加えられてもよい。

【００４５】図２においては、ニューラルネットワーク
の発火パターン列６１としては、２５音素カテゴリの場
合の発火パターンが示されているが、用いられる音素の
数はこれに限定されず、他の数の音素カテゴリが利用さ
れてもよい。

【００４６】（ｉｉｉ）具体的実施この発明に従う第１の単語予備選択方式に従って行なわ
れた単語認識の具体的構成および結果について以下に説
明する。

【００４７】（１）ニューラルネットワークの構成音素スキャニング部において用いられる音素識別を行な
うためのニューラルネットワークとして、ＴＤＮＮ構造
を持つ４層フィードフォアード型ニューラルネットワー
クを用いる。この４層フィードフォアード型ニューラル
ネットワークにおいて、入力層、第１の隠れ層、第２の
隠れ層、および出力層はそれぞれ１１２、１２５０、１
００、および２５のニューロンユニットを備える。

【００４８】音素としては表２に示す２５の音素を含む
カテゴリを利用する。

【００４９】

【表２】この表２においては、／／で囲まれた部分が
１つの音素を示す。

【００５０】（３）ニューラルネットワークの学習音素スキャニング部に用いられるニューラルネットワー
クの学習のためには、男性話者１名の発声による２６２
０個の単語を用い、２５音素の識別をニューラルネット
ワークに学習させる。

【００５１】（４）ニューラルネットワークに与えら
れる音響特徴量音響特徴抽出部が抽出する音響特徴量としては、メル
（ｍｅｌ）スケール１６チャネルＦＦＴ（高速フーリエ
変換）の出力７フレーム（７０ミリ秒；１フレーム１０
ｍｓ）を用いる。分析条件を表３に示す。

【００５２】

【表３】すなわち、音響特徴量としては、音声信号をサ
ンプリング周波数１２ｋＨｚで標本化した音声波形系列
をハミング窓を時間窓として短時間電力スペクトル密度
および自己相関関数を算出して利用する。この短時間電
力スペクトル密度の数値計算のためにＦＦＴが利用され
る。

【００５３】（５）音素スキャニング上述の音響特徴量を１フレーム（１０ミリ秒）ずつシフ
トさせつつ学習済みのＴＤＮＮへ入力し、各フレームご
とに発火パターン列Ｇを算出する。

【００５４】（６）参照ベクトルデータの発生ＴＤＮＮの学習に用いられた２６２０個の単語を音素ス
キャニングしてＴＤＮＮへ与え、このＴＤＮＮから得ら
れる発火パターンと各単語の音素信号データとから各音
素に対する平均発火ベクトルＦｐを求める。辞書内の単
語それぞれに対して、記号列（ローマ字等）を音素記号
列に置き換え、そこに含まれる音素の平均発火ベクトル
Ｆｐを加算して参照ベクトルＶｗを求め、辞書内単語す
べてに対する参照ベクトルデータの作成を行なう。

【００５５】（７）音声認識入力音声から得られた発火パターン列に基づいて、ＤＴ
Ｗ処理およびＬＲパーザによる処理を用いて単語の認識
を行なう。ＬＲパーザで使用されるＬＲテーブルは、音
声入力ごとに予備選択された単語候補から作成する。こ
のＬＲテーブルを使用することにより、予備選択された
単語候補のみが認識対象となる。

【００５６】（ｉｉｉ−１）具体的実施の結果および
効果候補となる単語の数Ｎは最大２００とし、単語辞書とし
て２６１８個の単語を用いて評価を行なう。表４に本発
明の第１の単語予備選択方式を行なった際の圧縮率およ
び棄却率を表４に示す。

【００５７】

【表４】圧縮率＝平均単語候補数／辞書に含まれる単語数棄却率＝単語候補中に正解を含まない単語数／評価単語
数表４に示すように、圧縮率が大きくかつ棄却率が低く、
本発明による単語予備選択方式は単語認識において極め
て有効である。特に、候補数Ｎが１００を越えると棄却
率は０．８７％以下となり、また圧縮率も３．８２％以
上となり、効果的に単語候補の選択が行なわれているの
が見られる。

【００５８】また予備選択された単語候補のみを用いて
ＬＲテーブルを作成しているため、ＬＲテーブルのサイ
ズが小さくなり、パーザの処理が高速化される。その結
果、予備選択を用いない従来方式と比較して、単語選択
システムの処理速度を大幅に短縮することができる。表
５に、本発明による単語予備選択を用いた単語音声認識
における処理時間短縮効果を従来の単語予備選択を用い
ない単語認識システムの処理時間および性能と比較して
示す。

【００５９】

【表５】２６１８個の単語を用いて、単語予備選択の有
無による認識率および処理時間の比較を行なう。予備選
択の有無に関わらず、音素スキャニングには同じ処理時
間を要する。したがってこの評価において処理時間短縮
の対象となるのは、音素スキャニング以降の処理時間で
ある。単語予備選択を行なわない方式においては、ＬＲ
パーザの処理時間を示し、単語予備選択を行なった本発
明の方式の場合には、予備選択、ＬＲテーブル作成、お
よびＬＲパーザのそれぞれの処理時間の合計を処理時間
として示す。

【００６０】表５における評価においては、２６１８個
の単語を含む単語辞書を用い、ＬＲのビーム幅を１００
に設定し、予備選択される単語候補数が２５、５０、１
００、および２００それぞれの場合について評価を行な
った。単語予備選択を行なわない場合、処理時間に１２
１３９ミリ秒必要とし、そのときの認識率は９５．８
（９９．５）％であり、一方、単語予備選択方式を用い
た場合、単語候補数Ｎとして２００を用いた場合には、
認識率が９５．１（９８．９）％と認識率は０．７％低
下するものの、処理時間は６１１３ミリ秒と１／２とな
る。この表５から明らかに見られるように、本発明によ
る単語予備選択方式を用いることにより、処理時間を大
幅に短縮することができる。

【００６１】

【発明の効果】以上のように、請求項１および２に記載
の発明によれば、ニューラルネットワークの発火パター
ン列に従って認識対象とする単語候補を予備選択してい
るため、音素スキャニング以後の処理時間を大幅に短縮
することができる。

【００６２】また単語予備選択に用いる参照データは、
辞書内単語の記号列を音素記号列に変換して求めてい
る。それにより参照データ作成のために各辞書それぞれ
に対する音声入力が不要となり、少ない労力で参照デー
タを作成することができる。

【図面の簡単な説明】

【図１】この発明に従う第１の単語予備選択方式に従う
単語音声認識システムの概略構成を示すブロック図であ
る。

【図２】この発明の第２の単語予備選択方式の構成を概
略的に示す図である。

【図３】従来のＶＱ符号歪みに基づく単語予備選択方式
のシステム構成を概略的に示すブロック図である。

【図４】従来のユニバーサルＶＱ符号の出現頻度に従う
単語予備選択方式のシステムの構成を概略的に示す図で
ある。

【符号の説明】

３音響特徴抽出部３２音素スキャニング部３３単語認識部４１平均発火ベクトル算出部４２平均発火ベクトル保持部４３単語辞書４４参照ベクトル作成部４５参照ベクトルデータ保持部５１音素ベクトル算出部５２照合処理部５３予備選択処理部６１発火パターン列６２音素記号列６３単語候補

Claims

【特許請求の範囲】

【請求項１】複数の単語を格納する辞書から認識対象
とすべき単語候補を予備選択する単語予備選択方式であ
って、入力された音声から音響特徴量を抽出する音声特徴抽出
手段と、ニューラルネットワークを含み、前記音声特徴抽出手段
により抽出された音響特徴量データを入力として対応の
発火パターン列を生成するスキャニング手段と、前記スキャニング手段により生成された発火パターン列
に従って単語予備選択に用いるためのベクトルを算出す
るベクトル算出手段と、前記辞書内の各単語の記号列にしたがって各単語ごとに
参照ベクトルを生成して格納する参照ベクトル作成／保
持手段と、前記ベクトル算出手段により算出されたベクトルと前記
参照ベクトル作成／保持手段が作成した参照ベクトルと
を照合し、前記辞書から認識対象とすべき単語候補を選
択する選択手段とを備える、単語予備選択方式。
【請求項２】複数の単語を格納する辞書から認識対象
とすべき単語候補を予備選択する単語予備選択方式であ
って、入力された音声から音響特徴量を抽出する音声特徴抽出
手段と、ニューラルネットワークを含み、前記音声特徴抽出手段
により抽出された音響特徴量データを入力として発火パ
ターン列を生成するスキャニング手段と、前記発火パターン列から音素記号列を算出する算出手段
と、前記辞書内の単語から前記算出手段により算出された音
素記号列を含む単語を認識すべき単語候補として選択す
る手段とを含む、単語予備選択方式。