JPH06266396A - 単語予備選択方式 - Google Patents

単語予備選択方式

Info

Publication number
JPH06266396A
JPH06266396A JP5051605A JP5160593A JPH06266396A JP H06266396 A JPH06266396 A JP H06266396A JP 5051605 A JP5051605 A JP 5051605A JP 5160593 A JP5160593 A JP 5160593A JP H06266396 A JPH06266396 A JP H06266396A
Authority
JP
Japan
Prior art keywords
word
vector
phoneme
acoustic feature
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5051605A
Other languages
English (en)
Other versions
JPH0752358B2 (ja
Inventor
Keiji Fukuzawa
圭二 福沢
Masahide Sugiyama
雅英 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5051605A priority Critical patent/JPH0752358B2/ja
Publication of JPH06266396A publication Critical patent/JPH06266396A/ja
Publication of JPH0752358B2 publication Critical patent/JPH0752358B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【目的】 単語音声認識における認識処理時間の短縮お
よび入力音声データの必要なく単語予備選択用の参照デ
ータを作成する。 【構成】 音素スキャニング部32は、音響特徴抽出部
31における音響特徴抽出量をそこに含まれるニューラ
ルネットワークに入力し、対応の発火パターン列Gを算
出する。平均発火ベクトル算出部41は、各音素の平均
発火ベクトルを算出し平均発火ベクトル保持部40に格
納する。参照ベクトル作成部44は単語辞書43に準備
した単語を音素記号列に変換し、平均発火ベクトルに従
い各単語ベクトルの参照ベクトルを生成し参照ベクトル
データ保持部45に格納する。音素ベクトル算出部51
は単語予備選択音素ベクトルを生成する。照合処理部5
2は音素ベクトルと各単語の参照ベクトルとを照合し、
予備選択処理部53は単語候補を選択する。単語認識部
33は発火パターン列に従って予備選択した単語候補に
対し認識動作を実行する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、入力音声認識時にお
いて辞書から認識対象とすべき単語を予備選択する方式
に関し、特に、ニューラルネットワークの発火パターン
を用いて認識対象とすべき単語候補を予備選択する方式
に関する。
【0002】
【従来の技術】入力音声を認識する音声認識装置におい
ては、入力音声の特徴量の抽出を行ない、この抽出され
た音声特徴量に基づいて予め準備された辞書から対応の
単語を選択することが行なわれる。この単語選択のため
にニューラルネットワーク(神経回路網)を用いる方式
がある。
【0003】従来のニューラルネットワークを用いた単
語認識の方式においては以下の処理が行なわれる。ま
ず、入力音声の音響分析を行ない、その分析結果に基づ
いて入力音声を音響特徴量に変換する。このようにして
得られた音響特徴量をセグメント単位でニューラルネッ
トワークに入力する。ニューラルネットワークは予め音
響特徴量に対応する音素を学習している。したがって、
このニューラルネットワークからは、入力された音響特
徴量に基づいて音素識別が行なわれ、識別された音素に
対応する発火パターンが得られる。この操作を発声開始
時点から終了時点まで時間方向にシフトしながら行な
う。これにより、発声区間の音素スキャニングによる発
火パターン列が得られる。この発火パターン列を基に、
DPW(ダイナミック・タイム・ワーピング(Dyna
mic Time Warping))法による処理
(DPマッチング処理)、および構文解析による処理な
どを用いて予め準備された辞書から対応の単語を選択す
ることにより、入力音声の単語認識が行なわれる。
【0004】また、単語認識時において、辞書内単語を
すべて認識対象とするのではなく、音響特徴量に基づい
て認識対象とする単語の候補を辞書から選択し、この選
択された単語候補を認識対象として単語識別を行なう予
備選択方式がある。
【0005】(i) 従来の単語予備方式1 図3は、従来のVQ化歪みによる単語予備方式に従うシ
ステムの構成を示す図である。VQ(ベクトル量子化)
歪みによる単語予備選択方式においては、単語別にVQ
符号帳が用意される。入力音声が、時系列特徴量データ
に変換され、次いで各単語に対応して用意されたVQ符
号帳を用いてベクトル量子化される。このベクトル量子
化時における歪みが最も小さいN個の単語が認識対象候
補として選択される。次に、図3に示すシステムの構成
および動作について説明する。
【0006】図3において、音響特徴抽出部1は、入力
音声を受け、音響特徴量を抽出する。VQ符号帳作成部
2は、学習時において、この音響特徴抽出部1で抽出さ
れた音響特徴量に基づいて、各単語ごとにVQ符号帳を
作成する。VQ符号帳データ部3は、VQ符号帳作成部
2で作成された各単語ごとのVQ符号帳を格納する。図
3においては、単語1ないしMのM個の単語に対するM
個のVQ符号帳がVQ符号帳データ部3に格納された状
態が一例として示される。
【0007】ベクトル量子化部4は、単語認識動作時に
おいて、音響特徴抽出部1において抽出された音響特徴
量の時系列データを受け、VQ符号帳データ部3に格納
された各単語に対応して設けられたVQ符号帳に基づい
てベクトル量子化を行ない、そのベクトル量子化時にお
ける各単語ごとの歪みデータを算出する。選択処理部5
は、ベクトル量子化部4で算出された各単語ごとの歪み
データを受け、歪みが最も小さいN個の単語を認識対象
候補として選択する。この選択処理部5により選択され
た単語候補に対して、前述のDTW法および構文解析法
などに従って単語認識が実行される。
【0008】(ii) 従来の単語予備選択方式2 図4は、従来のユニバーサルVQ符号帳を用いた単語予
備選択方式に従うシステムの構成を概略的に示す図であ
る。ユニバーサルVQ符号帳はすべての単語に共通に利
用される。このユニバーサルVQ符号帳を用いる単語予
備選択方式においては、入力音声がユニバーサルVQ符
号帳に基づいてベクトル量子化され、このベクトル量子
化におけるVQ符号の出現頻度と予め求められていた認
識対象とする単語それぞれにおけるVQ符号の出現頻度
とが照合され、このVQ符号の出現頻度が近いN個の単
語が認識対象候補として選択される。次に図4に示すシ
ステムの構成および動作について説明する。
【0009】図4において、音響特徴抽出部21は、入
力音声の音響特徴量を抽出する。VQ符号帳作成部22
は、ユニバーサルVQ符号帳作成時にこの音響特徴抽出
部21で抽出された音響特徴量に基づいてユニバーサル
VQ符号帳を作成する。ユニバーサルVQ符号帳保持部
23は、VQ符号帳作成部22で作成されたユニバーサ
ルVQ符号帳を記憶する。
【0010】ベクトル量子化部24は、認識時または学
習時において、音響特徴抽出部21で抽出された入力音
声の音響特徴量データを受け、ユニバーサルVQ符号帳
保持部23に保持されているユニバーサルVQ符号帳に
基づいて与えられた音響特徴量をベクトル量子化してV
Q符号を算出する。出現頻度計算部25は、ベクトル量
子化部24から与えられるVQ符号の出現頻度を算出す
る。
【0011】照合用VQ符号出現頻度データ保持部26
は、学習時において認識対象とする各単語の音声入力か
ら得られるVQ符号出現頻度を各単語ごとに記憶する。
すなわち、照合用VQ符号出現頻度データ保持部26
は、認識対象単語の数がM個の場合、M個のVQ符号出
現頻度のデータを記憶する。照合処理部27は、認識時
において、出現頻度計算部25で算出されたVQ符号の
出現頻度と参照用VQ符号出現頻度データ保持部26に
保持された認識対象単語それぞれのVQ符号出現頻度と
を照合し、各単語に対する照合度を算出する。選択処理
部28は照合処理部27で算出された各単語に対する照
合度に従って、照合度が大きいN個の単語を認識対象候
補として選択する。
【0012】
【発明が解決しようとする課題】ニューラルネットワー
クは、単語中の音素の識別および単語音声認識において
高い性能を示すことが報告されている。しかしながら、
ニューラルネットワークと構文解析を行なうLRパーザ
とを組合わせた大語彙単語音声認識システムにおいて
は、認識処理に長時間を有するという問題がある。表1
に従来のニューラルネットワークを用いた単語音声認識
における処理時間を示す。
【0013】
【表1】表1においては、TDNN(タイムディレーニ
ューラルネットワーク(Time Delay Neu
ral Network))とLRパーザとを組合わせ
た音声認識出力における処理時間を示す。音声認識処理
時間は、音素スキャニングに必要とされる時間とそれ以
後の処理(DTWおよび構文解析等)に要する時間とに
分けることができる。表1に示すように、1単語平均と
して、音素スキャニングに18541ミリ秒、音素スキ
ャニング以後の処理に12139ミリ秒の処理時間が必
要とされ、全体として30680ミリ秒の処理時間が必
要とされる。なお、表1においては各処理時間は、26
18個の単語の認識処理における1単語当りの平均時間
を示す。このため、高速で音声認識を行なうことができ
なくなるという問題が生じる。
【0014】それゆえ、本発明の1つの目的は、音素ス
キャニング以後の時間を短縮し、これにより全体として
の単語認識処理時間を短縮することである。
【0015】また図3および図4に示すようなVQ符号
帳を用いた単語予備選択方式においては、認識対象とす
る辞書内単語それぞれに対して音声データを用いて参照
データ(VQ符号帳またはVQ符号出現頻度)の作成を
行なう必要がある。認識対象とする単語それぞれに対し
て音声を発話することが必要であり、認識対象とする単
語数が多い大語彙を対象とした認識を行なうシステムに
おいては、音声データ収集のために多大な労力が必要と
される。このため、辞書へ新しい項目を登録することも
容易ではない。
【0016】それゆえ、この発明の他の目的は、単語認
識のための参照データ作成を発話された音声データを用
いることなく行なうことである。
【0017】
【課題を解決するための手段】この発明に係る単語予備
選択方式は、入力音声から抽出された音響特徴量をニュ
ーラルネットワークに入力し、このニューラルネットワ
ークの出力する発火パターン列に従って認識対象とする
単語候補を選択するものである。
【0018】すなわち、請求項1に係る単語予備選択方
式は、入力音声から音響特徴量を抽出るす音声特徴抽出
手段と、ニューラルネットワークを含み、この音声特徴
抽出手段により抽出された音響特徴量データに対応する
発火パターン列を生成するスキャニング手段と、このス
キャニング手段により生成された発火パターン列に従っ
て、単語予備選択に用いるためのベクトルを算出するベ
クトル算出手段と、辞書内の各単語の記号列に従って、
各単語ごとに参照ベクトルを生成して格納する参照ベク
トル生成/保持手段と、ベクトル算出手段により算出さ
れたベクトルと参照ベクトル発生/保持手段が作成して
保持する参照ベクトルとを照合し、その照合結果に従っ
て辞書内単語から認識対象とする単語候補を選択する選
択手段とを備える。
【0019】請求項2に係る単語予備選択方式は、入力
音声から音響特徴量を抽出する音声特徴抽出手段と、音
声特徴抽出手段で抽出された音響特徴量データ列をニュ
ーラルネットワークに入力し、入力された音響特徴量デ
ータ列に対応する発火パターン列を生成するスキャニン
グ手段と、このスキャニング手段により生成された発火
パターン列から単語の記号列を算出する算出手段と、辞
書内単語からこの算出手段により算出された記号列を含
む単語を認識対象単語候補として選択する手段とを含
む。
【0020】
【作用】請求項1および2に係る発明においては、ニュ
ーラルネットワークを用いて音響特徴量から発火パター
ン列を生成し、この生成された発火パターン列を基に単
語の予備選択が行なわれる。したがって、認識対象とす
る単語数が大幅に低減される。それ以後にこの発火パタ
ーン列に基づくDTWおよび構文解析等の処理が行なわ
れるが、これらの認識処理においては、認識対象単語数
が大幅に低減されているため、単語認識処理時間が大幅
に低減される。またニューラルネットワークを用いてい
るため、高性能で単語候補を選択することができる。
【0021】また請求項1および2に係る発明におい
て、単語予備選択に用いられる参照データとしては、辞
書内単語それぞれに対する記号列に従って作成されるた
め、単語予備選択のための参照データ作成に当たっては
音声データが不要となり、少ない労力で参照データを生
成することができる。また、参照データが単語記号列に
基づいて生成されるため、新しい項目を容易に追加登録
することが可能となる。
【0022】
【実施例の説明】この発明において利用されるニューラ
ルネットワークの発火パターンとしては、音素カテゴ
リ、音節カテゴリ、または単語カテゴリに対応する出力
が考えられる。以下の説明においては一例として、音素
カテゴリに対応するニューラルネットワークの出力が利
用される場合の構成について説明する。また、予備選択
において対象とされるものは、単語、文節および文を単
位として利用することができる。以下の説明において
は、単語を対象として説明が行なわれるが、この単語
は、文節または文であってもよく、1つの認識単位であ
ればよい。
【0023】(i) 第1の単語予備選択方式 図1は、この発明による単語予備選択方式を用いる単語
音声認識システムの構成を概略的に示すブロック図であ
る。図1において、音響特徴抽出部31は、入力された
音声から音響特徴量を抽出する。この音響特徴抽出部3
1は、入力音声を所定のサンプリング周期で標本化し、
短時間電力スペクトル密度および自己相関関数などの音
響特徴量を抽出する。
【0024】音素スキャニング部32は、ニューラルネ
ットワークを含み、音響特徴抽出部31で抽出された音
響特徴量を1フレームずつシフトしてニューラルネット
ワークへ入力し、各フレーム単位で発火パターン列G=
(g1,g2,…,gt,…gT)を算出する。ここ
で、gtは、時刻tにおけるニューラルネットワークの
出力ベクトル(発火パターン)を示し、Tは音声フレー
ム長を示す。ただし、ベクトルgtの次元数はニューラ
ルネットワークの出力ユニットの数に等しいと想定す
る。この音素スキャニング部32に含まれるニューラル
ネットワークは、予め音響特徴量に従って音素識別を学
習している。このニューラルネットワークから出力され
る発火パターン列Gに含まれるベクトルgtは識別した
音素に対応する(正確な想起動作が行なわれた場合)。
【0025】平均発火ベクトル算出部41は、単語候補
の予備選択のために用いられる参照ベクトルの発生のた
めに用いられる音素単位の平均発火ベクトルを算出す
る。すなわち、平均発火ベクトル算出時においては、音
声入力データが音響特徴抽出部31へ与えられ、音素ス
キャニング部32で発火パターン列Gが算出される。こ
の入力音声の音素記号列と音素スキャニング部32から
の発火パターン列Gとに従って音素p単位の平均発火ベ
クトルFpが算出される。この平均発火ベクトル算出部
41で算出された音素pに対する平均発火ベクトルFp
は平均発火ベクトル保持部42に格納される。平均発火
ベクトル保持部42においては、それぞれの音素に対応
して平均発火ベクトルを格納する。
【0026】参照ベクトル作成部44は、平均発火ベク
トル保持部42に保持された各音素ごとの平均発火ベク
トルに基づいて、単語辞書43に格納された単語w各々
に対する参照ベクトルVwを生成する。この参照ベクト
ル発生部44は、単語辞書43に準備されている単語w
の記号列(たとえばローマ字の列)を音素記号列に置き
換え、この音素記号列に含まれる音素記号pそれぞれに
対する平均発火ベクトルFpを加算することにより単語
wに対する参照ベクトルVwを算出する。たとえば、単
語wとして「kawa」を考えると、参照ベクトル作成
部44は、次式に従って参照ベクトルVwを生成する。
【0027】 Vw=F/k/+F/a/+F/w/+F/a/ =2・F/a/+F/k/+F/w ここで、F/a/、F/k/、およびF/w/はそれぞ
れ音素(音素記号)「a」、「k」、および「w」に対
する平均発火ベクトルを示す。この式から見られるよう
に、単語候補作成のために利用される参照ベクトルVw
の算出においては、認識対象単語の音声データは用いら
れておらず、単に単語の記号列から参照ベクトルが算出
されるため、参照データ作成時において、音声入力を必
要とせず、少ない労力で容易に参照ベクトルを作成する
ことができる。参照ベクトル作成部44で作成された参
照ベクトルVwが参照ベクトルデータ保持部45に記憶
される。
【0028】音素ベクトル算出部51は、認識動作時に
おいて、入力音声に従って音素スキャニング部32から
算出された発火パターン列Gに従って単語候補予備選択
のためのベクトルを算出する。この音素ベクトル算出部
51は、参照ベクトルが音素記号pに対する平均発火ベ
クトルFpの加算により導出される場合には、次式に従
って音素ベクトルVを算出する。
【0029】V=Σgt;但し総和はt=1〜Tにおい
て実行される。照合処理部52は、この音素ベクトル算
出部51で算出された音素ベクトルVと参照ベクトルデ
ータ保持部45に保持されている各単語に対する参照ベ
クトルとの照合度を算出する。この照合度の算出のため
に、一例として、照合処理部52は音素ベクトルVと参
照ベクトルVwとの距離|V−Vw|を計算する。
【0030】予備選択処理部53は、この照合処理部5
2からの照合度情報すなわち各単語に対して計算された
距離データに従って、単語辞書43に格納された単語の
うち最も距離の近いN個の単語を選択する。単語認識部
33は、この予備選択処理部53により予備選択された
単語候補のうちから、音素スキャニング部32から与え
られた発火パターン列Gに従って、DTWおよび構文解
析等の処理により単語認識を行ない、その認識結果を出
力する。単語認識部33は、予備選択された単語候補の
みを認識対象として処理を行なうため、高速で単語認識
を行なうことができる。
【0031】(i−1) 変更例 (a) 音素ベクトルVおよび参照ベクトルVwはそれ
ぞれ発火パターンgtまたは平均発火ベクトルFpの総
和により求められている。しかしながら、これらの音素
ベクトルVおよび参照ベクトルVwとしては、時間軸に
沿って分割された複数の区間それぞれにおいて求められ
た複数のベクトルの組が用いられてもよい。すなわち、
たとえば発火パターン列Gにおいて、(g1 ,g2,…
gi)、(gj,…gs)、(gt,…,gT)の時間
軸に沿った区間に分割し、各区間において1つのベクト
ルが算出され、この算出されたベクトルの組を利用する
構成が用いられてもよい。
【0032】(b) 平均発火ベクトルFpに対しその
音素記号pの前後に配置される音素記号列を考慮して重
み付けなどの処理を行なって各単語に対する参照ベクト
ルの算出が行なわれてもよい。
【0033】(c) 音素ベクトルVおよび参照ベクト
ルVwは、音素スキャニング部32に設けられているニ
ューラルネットワークの出力ニューロンユニットの数に
等しい次元を持っている。これに代えて、ベクトルVお
よびVwのある特定の次元の要素を使用せずに照合度の
算出が行なわれてもよい。
【0034】(d) 音素ベクトルVおよび参照ベクト
ルVwそれぞれにおいて、いくつかの次元の要素を統合
して用いて照合度の算出を行なってもよい。この方法c
およびdにおいては、音素ベクトルVおよび参照ベクト
ルVwの次元数が少なくなるため、照合度算出における
計算量を低減することができ、処理時間を短縮すること
ができる。
【0035】(e) 音素ベクトルVと参照ベクトルV
wの照合度の検出のための距離算出時において、音素記
号pそれぞれに対する発火量(発火ベクトルの大きさ)
の分散を考慮して距離算出が行なわれてもよい。
【0036】(f) 参照ベクトルVwを予めクラスタ
リングしておき、各クラスターの中心ベクトルと音素ベ
クトルVとの距離を求め、この音素ベクトルVに最も近
い1つまたは複数個のクラスタを選択し、この選択され
たクラスタに属する単語のみを認識単語候補として利用
してもよい。
【0037】(g) 予備選択において選択される単語
候補の数をN個と固定する代わりに、音素ベクトルVと
参照ベクトルVwとの距離がある値よりも小さい参照ベ
クトルに対応する単語をすべて認識単語候補として選択
してもよい。
【0038】(h) 上述の変形例(a)〜(g)を適
当に組合わせて単語予備選択を行なってもよい。
【0039】(ii) 第2の単語予備選択方式 図2はこの発明に従う第2の単語予備選択方式の構成を
概略的に示す図である。図2においては、入力音声単語
が「愛する(aisuru)」の場合の予備選択動作が
一例として示される。この第2の単語予備選択方式にお
いては、音素ベクトルおよび参照ベクトルのような特徴
ベクトルを用いず、音素記号列の照合により単語予備選
択を行なう。
【0040】図2において、ニューラルネットワークを
含む音素スキャニング部からは、入力音声の音響特徴量
に従って発火パターン列61が算出される。この発火パ
ターン列61は、与えられた音響特徴量に従って、ある
時間間隔でサンプリングされた特徴量に対する発火パタ
ーンgtを含む。図2においては、まず無音状態(Q)
が継続した後「・」、「a」、「・」、「i」、
「・」、「u」、「・」、および「u」が続き、次いで
無音状態(Q)が続く。ここで、「・」は発火パターン
が予め用意された音素カテゴリ内の音素を示しておら
ず、音素認識不能状態を示す。
【0041】この無音状態から無音状態の間の区間を1
フレームとして単語の認識が行なわれる。このニューラ
ルネットワークの発火パターン列61から認識された音
素に従って音素記号列(S)62を算出する。この音素
記号列62は、「aiuu」である。次いで、この算出
された音素記号列62を含む単語を辞書から選択し、認
識対象単語候補63を選択する。この単語候補63は、
「愛する(aisuru)」、「相次ぐ(aitug
u)」、「あり得る(ariuru)」、および「対す
る(taisuru)」などを含む。この単語候補63
に対して、さらに発火パターン列61を用いてDTW、
および構文解析法などに従って単語識別を実行する。
【0042】この構成の場合、辞書内単語それぞれに対
して、単語の記号列を音素記号列に変換した参照データ
が参照データ保持部に格納され、発火パターン列を音素
記号列に変換した後、この音素記号列を含む参照データ
に対応する単語を単語候補として選択する構成が用いら
れる。
【0043】音素記号列の算出は、音素記号pそれぞれ
に対して予め定められた最小継続時間L(min,p)
以上その音素記号に対応するニューラルネットワークの
出力が一定の発火レベル(H)を維持している場合にそ
の音素が発音されたと判断し、対応の音素記号を音素記
号列に加えることにより行なわれる。最小継続時間L
(min,p)は、各単語に対して、単語に含まれる音
素信号情報に基づいて以下の式により算出される。
【0044】 L(min,p)=L(ave,p)−α・Dp ただし、L(ave,p)およびDpはそれぞれ単語デ
ータとそこに含まれる音素信号情報に基づいて各音素に
対して求められた音素記号pに対する平均継続時間長さ
および標準偏差を示し、αは定数値を示す。音素記号列
62の算出に当たっては、(a)いくつかの音素記号を
削除または統合する、および(b)同じ音素記号が2つ
以上続いた場合には1つの音素記号とする(図2の実施
例において2つの音素uuを1つの音素uとする)など
の条件が加えられてもよい。
【0045】図2においては、ニューラルネットワーク
の発火パターン列61としては、25音素カテゴリの場
合の発火パターンが示されているが、用いられる音素の
数はこれに限定されず、他の数の音素カテゴリが利用さ
れてもよい。
【0046】(iii) 具体的実施 この発明に従う第1の単語予備選択方式に従って行なわ
れた単語認識の具体的構成および結果について以下に説
明する。
【0047】(1) ニューラルネットワークの構成 音素スキャニング部において用いられる音素識別を行な
うためのニューラルネットワークとして、TDNN構造
を持つ4層フィードフォアード型ニューラルネットワー
クを用いる。この4層フィードフォアード型ニューラル
ネットワークにおいて、入力層、第1の隠れ層、第2の
隠れ層、および出力層はそれぞれ112、1250、1
00、および25のニューロンユニットを備える。
【0048】音素としては表2に示す25の音素を含む
カテゴリを利用する。
【0049】
【表2】この表2においては、/ /で囲まれた部分が
1つの音素を示す。
【0050】(3) ニューラルネットワークの学習 音素スキャニング部に用いられるニューラルネットワー
クの学習のためには、男性話者1名の発声による262
0個の単語を用い、25音素の識別をニューラルネット
ワークに学習させる。
【0051】(4) ニューラルネットワークに与えら
れる音響特徴量 音響特徴抽出部が抽出する音響特徴量としては、メル
(mel)スケール16チャネルFFT(高速フーリエ
変換)の出力7フレーム(70ミリ秒;1フレーム10
ms)を用いる。分析条件を表3に示す。
【0052】
【表3】すなわち、音響特徴量としては、音声信号をサ
ンプリング周波数12kHzで標本化した音声波形系列
をハミング窓を時間窓として短時間電力スペクトル密度
および自己相関関数を算出して利用する。この短時間電
力スペクトル密度の数値計算のためにFFTが利用され
る。
【0053】(5) 音素スキャニング 上述の音響特徴量を1フレーム(10ミリ秒)ずつシフ
トさせつつ学習済みのTDNNへ入力し、各フレームご
とに発火パターン列Gを算出する。
【0054】(6) 参照ベクトルデータの発生 TDNNの学習に用いられた2620個の単語を音素ス
キャニングしてTDNNへ与え、このTDNNから得ら
れる発火パターンと各単語の音素信号データとから各音
素に対する平均発火ベクトルFpを求める。辞書内の単
語それぞれに対して、記号列(ローマ字等)を音素記号
列に置き換え、そこに含まれる音素の平均発火ベクトル
Fpを加算して参照ベクトルVwを求め、辞書内単語す
べてに対する参照ベクトルデータの作成を行なう。
【0055】(7) 音声認識 入力音声から得られた発火パターン列に基づいて、DT
W処理およびLRパーザによる処理を用いて単語の認識
を行なう。LRパーザで使用されるLRテーブルは、音
声入力ごとに予備選択された単語候補から作成する。こ
のLRテーブルを使用することにより、予備選択された
単語候補のみが認識対象となる。
【0056】(iii−1) 具体的実施の結果および
効果 候補となる単語の数Nは最大200とし、単語辞書とし
て2618個の単語を用いて評価を行なう。表4に本発
明の第1の単語予備選択方式を行なった際の圧縮率およ
び棄却率を表4に示す。
【0057】
【表4】 圧縮率=平均単語候補数/辞書に含まれる単語数 棄却率=単語候補中に正解を含まない単語数/評価単語
数 表4に示すように、圧縮率が大きくかつ棄却率が低く、
本発明による単語予備選択方式は単語認識において極め
て有効である。特に、候補数Nが100を越えると棄却
率は0.87%以下となり、また圧縮率も3.82%以
上となり、効果的に単語候補の選択が行なわれているの
が見られる。
【0058】また予備選択された単語候補のみを用いて
LRテーブルを作成しているため、LRテーブルのサイ
ズが小さくなり、パーザの処理が高速化される。その結
果、予備選択を用いない従来方式と比較して、単語選択
システムの処理速度を大幅に短縮することができる。表
5に、本発明による単語予備選択を用いた単語音声認識
における処理時間短縮効果を従来の単語予備選択を用い
ない単語認識システムの処理時間および性能と比較して
示す。
【0059】
【表5】2618個の単語を用いて、単語予備選択の有
無による認識率および処理時間の比較を行なう。予備選
択の有無に関わらず、音素スキャニングには同じ処理時
間を要する。したがってこの評価において処理時間短縮
の対象となるのは、音素スキャニング以降の処理時間で
ある。単語予備選択を行なわない方式においては、LR
パーザの処理時間を示し、単語予備選択を行なった本発
明の方式の場合には、予備選択、LRテーブル作成、お
よびLRパーザのそれぞれの処理時間の合計を処理時間
として示す。
【0060】表5における評価においては、2618個
の単語を含む単語辞書を用い、LRのビーム幅を100
に設定し、予備選択される単語候補数が25、50、1
00、および200それぞれの場合について評価を行な
った。単語予備選択を行なわない場合、処理時間に12
139ミリ秒必要とし、そのときの認識率は95.8
(99.5)%であり、一方、単語予備選択方式を用い
た場合、単語候補数Nとして200を用いた場合には、
認識率が95.1(98.9)%と認識率は0.7%低
下するものの、処理時間は6113ミリ秒と1/2とな
る。この表5から明らかに見られるように、本発明によ
る単語予備選択方式を用いることにより、処理時間を大
幅に短縮することができる。
【0061】
【発明の効果】以上のように、請求項1および2に記載
の発明によれば、ニューラルネットワークの発火パター
ン列に従って認識対象とする単語候補を予備選択してい
るため、音素スキャニング以後の処理時間を大幅に短縮
することができる。
【0062】また単語予備選択に用いる参照データは、
辞書内単語の記号列を音素記号列に変換して求めてい
る。それにより参照データ作成のために各辞書それぞれ
に対する音声入力が不要となり、少ない労力で参照デー
タを作成することができる。
【図面の簡単な説明】
【図1】この発明に従う第1の単語予備選択方式に従う
単語音声認識システムの概略構成を示すブロック図であ
る。
【図2】この発明の第2の単語予備選択方式の構成を概
略的に示す図である。
【図3】従来のVQ符号歪みに基づく単語予備選択方式
のシステム構成を概略的に示すブロック図である。
【図4】従来のユニバーサルVQ符号の出現頻度に従う
単語予備選択方式のシステムの構成を概略的に示す図で
ある。
【符号の説明】
3 音響特徴抽出部 32 音素スキャニング部 33 単語認識部 41 平均発火ベクトル算出部 42 平均発火ベクトル保持部 43 単語辞書 44 参照ベクトル作成部 45 参照ベクトルデータ保持部 51 音素ベクトル算出部 52 照合処理部 53 予備選択処理部 61 発火パターン列 62 音素記号列 63 単語候補

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の単語を格納する辞書から認識対象
    とすべき単語候補を予備選択する単語予備選択方式であ
    って、 入力された音声から音響特徴量を抽出する音声特徴抽出
    手段と、 ニューラルネットワークを含み、前記音声特徴抽出手段
    により抽出された音響特徴量データを入力として対応の
    発火パターン列を生成するスキャニング手段と、 前記スキャニング手段により生成された発火パターン列
    に従って単語予備選択に用いるためのベクトルを算出す
    るベクトル算出手段と、 前記辞書内の各単語の記号列にしたがって各単語ごとに
    参照ベクトルを生成して格納する参照ベクトル作成/保
    持手段と、 前記ベクトル算出手段により算出されたベクトルと前記
    参照ベクトル作成/保持手段が作成した参照ベクトルと
    を照合し、前記辞書から認識対象とすべき単語候補を選
    択する選択手段とを備える、単語予備選択方式。
  2. 【請求項2】 複数の単語を格納する辞書から認識対象
    とすべき単語候補を予備選択する単語予備選択方式であ
    って、 入力された音声から音響特徴量を抽出する音声特徴抽出
    手段と、 ニューラルネットワークを含み、前記音声特徴抽出手段
    により抽出された音響特徴量データを入力として発火パ
    ターン列を生成するスキャニング手段と、 前記発火パターン列から音素記号列を算出する算出手段
    と、 前記辞書内の単語から前記算出手段により算出された音
    素記号列を含む単語を認識すべき単語候補として選択す
    る手段とを含む、単語予備選択方式。
JP5051605A 1993-03-12 1993-03-12 単語予備選択方式 Expired - Fee Related JPH0752358B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5051605A JPH0752358B2 (ja) 1993-03-12 1993-03-12 単語予備選択方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5051605A JPH0752358B2 (ja) 1993-03-12 1993-03-12 単語予備選択方式

Publications (2)

Publication Number Publication Date
JPH06266396A true JPH06266396A (ja) 1994-09-22
JPH0752358B2 JPH0752358B2 (ja) 1995-06-05

Family

ID=12891541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5051605A Expired - Fee Related JPH0752358B2 (ja) 1993-03-12 1993-03-12 単語予備選択方式

Country Status (1)

Country Link
JP (1) JPH0752358B2 (ja)

Also Published As

Publication number Publication date
JPH0752358B2 (ja) 1995-06-05

Similar Documents

Publication Publication Date Title
Nishimura et al. Singing Voice Synthesis Based on Deep Neural Networks.
Zissman et al. Automatic language identification
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
EP0533491B1 (en) Wordspotting using two hidden Markov models (HMM)
US6553342B1 (en) Tone based speech recognition
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
Hanazawa et al. ATR HMM-LR continuous speech recognition system
Furui 50 years of progress in speech and speaker recognition
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
Hadwan et al. An End-to-End Transformer-Based Automatic Speech Recognition for Qur'an Reciters.
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
Fu et al. A survey on Chinese speech recognition
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JPH08123470A (ja) 音声認識装置
Cettolo et al. Automatic detection of semantic boundaries based on acoustic and lexical knowledge.
JP3378547B2 (ja) 音声認識方法及び装置
Pandey et al. Fusion of spectral and prosodic information using combined error optimization for keyword spotting
JPH06266396A (ja) 単語予備選択方式
Khalifa et al. Statistical modeling for speech recognition
Kuah et al. A neural network-based text independent voice recognition system
JPH0981182A (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP3503862B2 (ja) 音声認識方法及び音声認識プログラムを格納した記録媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19951219

LAPS Cancellation because of no payment of annual fees