JP2001005483A

JP2001005483A - 単語音声認識方法及び単語音声認識装置

Info

Publication number: JP2001005483A
Application number: JP11173974A
Authority: JP
Inventors: Takashi I; 傑易
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-06-21
Filing date: 1999-06-21
Publication date: 2001-01-12

Abstract

(57)【要約】【課題】単語音声認識において予備選択を行うとき、
予備選択数を減らすことができ、きわめて高速な単語音
声認識が可能な単語音声認識方法及び単語音声認識装置
を提供する。【解決手段】単語音声認識方法及び装置では、音素タ
イプライタ用文法格納部１、認識対象単語音素列表記格
納部２、単語音声認識用文法格納部３、入力音声から特
徴パラメータを抽出する音声分析部１１、入力音声の音
素列を算出する音素認識部１２、単語単位に入力音声の
音素列と認識対象語の音素列を比較し、類似度を算出す
るとともに、該類似度の高い上位単語を抽出する単語抽
出部１３、抽出された単語を用いて単語音声認識用文法
を生成し、該単語音声認識用文法を用いて単語音声認識
を行う単語音声認識部１４を備え、単語抽出部１３は、
単語音声認識において予備選択を行うとき、類似度を利
用して、最大選択単語数ｘ、類似度の最大値ｋ、及び単
語の長さＮをパラメータとする式（１）に従って選択単
語数ｙを決定し、その数分の上位単語を抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、単語音声認識（is
olated word recognition）を行う単語音声認識方法及
び単語音声認識装置に関し、例えば、大語彙単語音声認
識システムに用いて好適な単語音声認識方法及び単語音
声認識装置に関する。

【０００２】

【従来の技術】単語音声の認識処理では、発音速度の変
動に対処するために、入力音声と標準パターンの時間軸
を非線形に伸縮させてマッチングし、対応する短時間ス
ペクトル（特徴ベクトル）間の距離を単語全体にわたっ
て累積し、累積距離が最小になる標準パターンの単語名
を認識するという考え方が基本である。この累積距離計
算には、ＤＰ（dynamic programming）マッチング法が
広く利用される。

【０００３】また、音素の短時間スペクトルと発声速度
の変動特性を確率的な有限状態を持つＨＭＭ（hidden M
arkov model：隠れマルコフモデル）で記述する方法も
よく用いられる。ＨＭＭでは、学習用音声データを用い
て音声モデルの学習を行うことで高い認識率を上げるこ
とが可能となっている。

【０００４】従来、大語彙（数千語〜数十万語）単語音
声認識では、入力音声をすべての認識対象単語とマッチ
ングしなければならず、処理時間が膨大になってしまう
問題があった。そのための対策として高速プロセッサの
使用が考えられるが、コストを度外視できるケースに限
られるので、一般的には音声認識アルゴリズムの改良を
施すという対策が取られてきた。

【０００５】また、音声認識アルゴリズムの改良として
予備選択技術が挙げられる。この予備選択技術は、入力
音声を解析し、非常に少ない計算で認識対象単語から入
力音声に類似している単語（通常、数百語）を取り出す
というものである。この予備選択を行った後、認識部で
精密な計算により正しい単語の抽出を行う。入力音声が
認識対象単語に類似しているか否かは、類似度によって
判別される。この類似度の計算では、まず、入力音声に
対して発声記号の並びを決定する音素タイプライタ認識
を行う。そして得られた入力音声の音素列と認識対象単
語の音素列とを比較し、類似度を計算する。

【０００６】類似度計算の具体的な方法を示す文献に
は、例えば、文献１：特願平１０−３５９５０９号（単
語音声認識方法）に記載された方法がある。

【０００７】

【発明が解決しようとする課題】本来、音素タイプライ
タの出力は１００％の精度があれば、音素タイプライタ
の出力だけでも認識結果を同定できるが、現在の技術レ
ベルでは音素タイプライタ出力の精度がパーフェクトよ
り大きく下回っている。但し、明瞭に発声された入力音
声に対して、音声タイプライタの出力は精度の高いもの
が多く、正解単語が抽出された単語リストの上位に占め
る確率がかなり高い。しかし、従来の予備選択は、この
ような正解単語が上位にあるにもかかわらず、一律にあ
らかじめ決められた選択単語数で精密演算を行うので、
無駄な演算があった。

【０００８】上述のように、従来の予備選択技術では、
正解単語が上位にあるときに無駄な演算が生じるという
問題があった。

【０００９】本発明は、単語音声認識において予備選択
を行うとき、予備選択数を減らすことができ、きわめて
高速な単語音声認識が可能な単語音声認識方法及び単語
音声認識装置を提供することを目的とする。

【００１０】

【課題を解決するための手段】本発明に係る単語音声認
識方法は、入力音声から特徴パラメータを抽出する工程
と、入力音声の音素列を算出する工程と、単語単位に入
力音声の音素列と認識対象語の音素列を比較し、類似度
を算出する工程と、該類似度の高い上位単語を抽出する
上位単語抽出工程と、該抽出された単語を用いて単語音
声認識用文法を生成する工程と、該単語音声認識用文法
を用いて単語音声認識を行う工程とを順次実行する単語
音声認識方法であって、上位単語抽出工程における上位
単語を抽出するときに、少なくとも最大選択単語数、類
似度の最大値、及び単語の長さをパラメータとする計算
式に従って抽出単語数を決定し、該単語数分の上位単語
を抽出することを特徴とする。

【００１１】本発明に係る単語音声認識方法は、上位単
語抽出工程では、次式に従って抽出単語数ｙを決定し、
該単語数分の上位単語を抽出するものであってもよい。

【００１２】ｙ＝１＋ｘ（１−ｋ／Ｎ）（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数ｙを決定し、該単語数分の
上位単語を抽出するものであってもよい。

【００１３】ｙ＝１＋ｘ（１−ａ×ｋ／Ｎ）／ｂ（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ、ａ，ｂ：１より大きい正の定数本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数ｙを決定し、該単語数分の
上位単語を抽出するものであってもよい。

【００１４】ｙ＝１＋ｘ（１−ｋ²／Ｎ）（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数ｙを決定し、該単語数分の
上位単語を抽出するものであってもよい。

【００１５】ｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数ｙを決定し、該単語数分の
上位単語を抽出するものであってもよい。

【００１６】ｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ^3/2 （ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数ｙを決定し、該単語数分の
上位単語を抽出するものであってもよい。

【００１７】ｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ² （ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数ｙを決定し、該単語数分の
上位単語を抽出するものであってもよい。

【００１８】ｙ＝１＋ｘ（１−ｋ²／Ｎ²）／ｋ² （ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ本発明に係る単語音声認識方法は、上位単語抽出工程で
は、少なくとも最大選択単語数、類似度の最大値、及び
単語の長さをパラメータとする計算表に従って抽出単語
数ｙを決定し、該単語数分の上位単語を抽出するもので
あってもよい。

【００１９】本発明に係る単語音声認識装置は、入力音
声から特徴パラメータを抽出する手段と、入力音声の音
素列を算出する手段と、単語単位に入力音声の音素列と
認識対象語の音素列を比較し、類似度を算出するととも
に、該類似度の高い上位単語を抽出する抽出手段と、抽
出された単語を用いて単語音声認識用文法を生成し、該
単語音声認識用文法を用いて単語音声認識を行う手段と
を備えた単語音声認識装置において、抽出手段は、少な
くとも最大選択単語数、類似度の最大値、及び単語の長
さをパラメータとする計算式に従って抽出単語数を決定
し、該単語数分の上位単語を抽出することを特徴とす
る。

【００２０】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。第１の実施形態図１は本発明の第１の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。

【００２１】図１において、１は音素タイプライタ用文
法を格納する音素タイプライタ用文法格納部、２は認識
対象単語の音素列表記を格納する認識対象単語音素列表
記格納部、３は単語音声認識用文法を格納する単語音声
認識用文法格納部である。

【００２２】また、１１はマイクなどからの音声入力を
ディジタル信号にＡ／Ｄ変換するとともに、音声波形を
短い区間に区切り、フレーム毎に特徴パラメータを抽出
して音声を分析する音声分析部である。Ａ／Ｄ変換は、
入力音声信号を所定のサンプリング周波数（例えば、８
ｋＨｚ）でサンプリングしディジタル信号に変換する。
音声分析部１１では、音声の特性に合った能率的方法と
して広く使用されているＬＰＣ（Linear Predictive Co
ding：線形予測符号化）分析を用い、ＬＰＣ係数からＬ
ＰＣケプストラムを算出する。ここで、ケプストラムと
は、対数スペクトラム（Logarithm）を逆フーリエ変換
したもので、人間の聴覚特性に近い性質を持ち、比較的
少ない数のパラメータで効率良く音声を表現できる。

【００２３】音声分析部１１からの分析結果は、音素認
識部１２に出力される。

【００２４】音素認識部１２は、音素タイプライタ用文
法格納部１に格納された音素タイプライタ用文法を用い
て入力音声の音素を算出し、単語抽出部１３（抽出手
段）に出力する。音素タイプライタ用文法格納部１に
は、音素の短時間スペクトル（特徴ベクトル）が登録さ
れており、音素認識部１２は、入力音声の音素の特徴ベ
クトルの時系列と音素タイプライタ用文法１とのマッチ
ングにより音素列を認識する。

【００２５】単語抽出部１３は、単語単位に入力音声の
音素列と認識対象単語音素列表記格納部２に格納された
認識対象語の音素列を比較して類似度を算出し、類似度
の高い上位単語を抽出して単語音声認識部１４に出力す
る。この場合、上位単語を抽出するときに、後述する計
算式に従って抽出単語数を決定し、その単語数分の上位
単語を抽出する。

【００２６】単語音声認識部１４は、抽出された単語を
用いて単語音声認識用文法を生成して単語音声認識用文
法格納部３に格納するとともに、この単語音声認識用文
法を用いて単語音声認識を行う。単語音声認識部１４
は、単語抽出部１３から得た抽出単語数分の上位単語
を、単語音声認識用文法格納部３に蓄えられている単語
音声認識用文法と照合することによって単語音声認識処
理を行い、認識結果として出力する。

【００２７】本単語音声認識装置は、音素タイプライタ
用文法格納部１、認識対象単語音素列表記格納部２、単
語音声認識用文法格納部３、音声分析部１１、音素認識
部１２、単語抽出部１３及び単語音声認識部１４から構
成されているが、各ブロック構成及び各部の名称は説明
の便宜上のものであり、これらブロック構成に限定され
るものではない。また、音声分析部１１、音素認識部１
２、単語抽出部１３及び単語音声認識部１４における音
声認識処理は、専用または汎用のプロセッサを用いてソ
フトウェアにより実行される構成でもよく、専用ＬＳＩ
を用いたハードウェアにより実現されていてもよい。

【００２８】本実施形態に係る単語音声認識方法の構成
及び処理は、単語単位に入力音声の音素列と認識対象語
の音素列を比較して類似度を算出し、類似度の高い上位
単語を抽出する単語抽出部１３において、上位単語を抽
出するときに、所定の計算式に従って抽出単語数を決定
し、その数分の上位単語を抽出することを特徴とし、こ
のような認識アルゴリズムを有するものであればどのよ
うな実現手段でもよい。

【００２９】以下、上述のように構成された単語音声認
識方法の動作を説明する。

【００３０】図１は単語音声認識方法の構成及び処理を
示すフローチャートであり、図中、Ｓはフローの各ステ
ップを示す。

【００３１】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【００３２】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の例を図２に示す。

【００３３】図２は音素タイプライタ用文法の説明図で
ある。

【００３４】図２に示した音素タイプライタ用文法にお
いては、「ＳＴＡＲＴ」から「子音」若しくは「母音」
に遷移する。「子音」では、次の遷移先は「母音」若し
くは「ＥＮＤ」であり、子音の連鎖を許さない。また
「母音」では、「子音」や「ＥＮＤ」の他、自分自身へ
の遷移もあり得る。「ＥＮＤ」に到達したら、発声が終
了したと見なす。ここでいう「子音」は日本語の子音で
あり、例えば／ｋ／／ｓ／／ｔ／などである。「母音」は日本語母音であり、例えば／ａ／／ｉ／／ｕ／などである。

【００３５】図１に戻って、ステップＳ４では、上記ス
テップＳ３で得られた入力音声の音素列と認識対象単語
音素列表記格納部２にあらかじめ用意しておいた認識対
象語の音素列２とを比較して類似度及び類似度の最大値
を求める。

【００３６】認識対象語の音素列の例は次に示すような
ものである。例えば認識対象語は東京大阪沖縄と仮定すると、音素列はｔｏｕｋｙｏｕｏｏｓａｋａｏｋｉｎａｗａになる。類似度計算の具体的な方法については前記文献
１に記載されている。

【００３７】さらに、ステップＳ５で次式（１）に従っ
て選択単語数（抽出単語数）ｙを計算する。このステッ
プＳ５は、しかるべく計算式に従って抽出単語数を決定
し、該単語数分の上位単語を抽出する上位単語抽出処理
に対応する。

【００３８】ｙ＝１＋ｘ（１−ｋ／Ｎ）（ｋ＞０）ｙ＝ｘ（ｋ≦０） …（１）式（１）におけるｙは選択単語数、ｘは最大選択単語
数、ｋは類似度の最大値、Ｎは単語の長さである。前記
文献１の計算法によれば、ｋが取り得る最大値はＮであ
る。

【００３９】式（１）によれば、単語の長さＮは類似度
ｋに依存しない定数なので、類似度ｋが大きければ大き
いほど、選択単語数ｙの値が小さくなる。さらに、ｋ＝
Ｎ、すなわち上記ステップＳ３で得られた入力音声の音
素列と正解単語の音素列とが一致した場合は、選択単語
数ｙ＝１となり、この段階で認識結果が確定される。

【００４０】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【００４１】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。ここで、生成された単語認識文法３は、単語音声
認識用文法格納部３に格納される。

【００４２】図３は上述した単語音声認識用文法の例を
説明するための図である。

【００４３】図３に示した単語音声認識用文法おいて、
「ＳＴＡＲＴ」からそれぞれの単語へ遷移し、さらに、
各単語から「ＥＮＤ」へ遷移する。そして尤度計算で最
大尤度を与えた単語を認識結果とする。

【００４４】以上説明したように、第１の実施形態に係
る単語音声認識方法及び装置では、音素タイプライタ用
文法格納部１、認識対象単語音素列表記格納部２、単語
音声認識用文法格納部３、入力音声から特徴パラメータ
を抽出する音声分析部１１、入力音声の音素列を算出す
る音素認識部１２、単語単位に入力音声の音素列と認識
対象語の音素列を比較し、類似度を算出するとともに、
該類似度の高い上位単語を抽出する単語抽出部１３、抽
出された単語を用いて単語音声認識用文法を生成し、該
単語音声認識用文法を用いて単語音声認識を行う単語音
声認識部１４を備え、単語抽出部１３は、単語音声認識
において予備選択を行うとき、類似度を利用して、最大
選択単語数ｘ、類似度の最大値ｋ、及び単語の長さＮを
パラメータとする式（１）に従って選択単語数ｙを決定
し、その数分の上位単語を抽出するようにしたので、正
解単語が選択単語の上位にランクされている場合には、
少ない選択数で単語音声認識を行うことができ、きわめ
て高速な単語音声認識を実現することができる。第２の実施形態図４は本発明の第２の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図１に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。

【００４５】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【００４６】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【００４７】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【００４８】さらに、ステップＳ１１で次式（２）に従
って選択単語数（抽出単語数）ｙを計算する。

【００４９】ｙ＝１＋ｘ（１−ａ×ｋ／Ｎ）／ｂ（ｋ＞０）ｙ＝ｘ（ｋ≦０） …（２）式（２）におけるｙは選択単語数、ｘは最大選択単語
数、ｋは類似度の最大値、Ｎは単語の長さである。ま
た、ａ及びｂは１より大きい正の定数である。

【００５０】式（２）によれば、定数ａ及びｂが１より
大きい値を取る場合は、（１−ａ×ｋ／Ｎ）／ｂの値
は、（１−ｋ／Ｎ）よりも小さくなるため、定数ａ及び
ｂを調整することによってさらに選択単語数ｙを絞るこ
とができる。但し、上記式（２）で計算されたｙが０よ
りも小さい値になった場合は、ｙの値をあらかじめ決め
られた小さい正の整数で置き換える。

【００５１】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【００５２】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【００５３】以上説明したように、第２の実施形態に係
る単語音声認識方法及び装置では、式（２）を利用して
選択単語数を決定するときに、ａとｂを調整することに
よって、より少ない選択数で単語音声認識を行うことが
でき、きわめて高速な単語音声認識を実現することがで
きる。本実施形態では、ａ＝１．２，ｂ＝１．５の場合
は、第１の実施形態より７％程高速化が可能になった。第３の実施形態図５は本発明の第３の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図１に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。

【００５４】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【００５５】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【００５６】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【００５７】さらに、ステップＳ２１で次式（３）に従
って選択単語数（抽出単語数）ｙを計算する。

【００５８】ｙ＝１＋ｘ（１−ｋ²／Ｎ）（ｋ＞０）ｙ＝ｘ（ｋ≦０） …（３）式（３）におけるｙは選択単語数、ｘは最大選択単語
数、ｋは類似度の最大値、Ｎは単語の長さである。

【００５９】式（３）によれば、類似度ｋの２乗をとる
ことにより、一段と選択単語を絞り込むことができ、式
（１）と式（２）に比べて比較的に小さいｋでも絞り込
みが効率よくできる。但し、式（３）で計算されたｙが
０よりも小さい値になった場合は、ｙの値をあらかじめ
決められた小さい正の整数で置き換える。

【００６０】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【００６１】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【００６２】以上説明したように、第３の実施形態に係
る単語音声認識方法及び装置では、式（３）を利用して
選択単語数を自動的に決定するときに、ｋの値を２乗に
することによってより単語数を絞り込むことができる。
本実施形態は、第１及び第２の実施形態よりも高速にな
る反面、単語認識精度はやや落ちるので、速度最優先の
場面で使用して好適である。第４の実施形態図６は本発明の第４の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図１に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。

【００６３】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【００６４】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【００６５】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【００６６】さらに、ステップＳ３１で次式（４）に従
って選択単語数（抽出単語数）ｙを計算する。

【００６７】ｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ（ｋ＞０）ｙ＝ｘ（ｋ≦０） …（４）式（４）におけるｙは選択単語数、ｘは最大選択単語
数、ｋは類似度の最大値、Ｎは単語の長さである。

【００６８】式（４）によれば、前記式（１）を基に、
係数（１−ｋ／Ｎ）をｋで割ることにする。これによ
り、ｙの値はｋに反比例しながら正の値を取ることがで
き、ｋが大きいときには、より狭く絞り込むことがで
き、効率がよくなる。

【００６９】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【００７０】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【００７１】以上説明したように、第４の実施形態に係
る単語音声認識方法及び装置では、式（４）を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
類似度の最大値ｋに反比例させることによって効率アッ
プを図っている。本実施形態は、第２の実施形態よりも
７％程高速であるうえ、単語認識精度も保たれている。第５の実施形態図７は本発明の第５の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図１に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。

【００７２】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【００７３】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【００７４】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【００７５】さらに、ステップＳ４１で次式（５）に従
って選択単語数（抽出単語数）ｙを計算する。

【００７６】ｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ^3/2 （ｋ＞０）ｙ＝ｘ（ｋ≦０） …（５）式（５）におけるｙは選択単語数、ｘは最大選択単語
数、ｋは類似度の最大値、Ｎは単語の長さである。

【００７７】式（５）によれば、前記式（４）よりもさ
らなる絞り込みを行うため、係数（１−ｋ／Ｎ）をｋ
^3/2で割ることによって実現する。これにより、ｙはｋ
^3/2とｋ ^1/2の加重平均と反比例するので、式（４）より
もさらなる絞り込みが期待できる。

【００７８】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【００７９】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【００８０】以上説明したように、第５の実施形態に係
る単語音声認識方法及び装置では、式（５）を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
ｋ3/2とｋ1/2の加重平均に反比例させることによってさ
らに絞り込むことができる。本実施形態は、第４の実施
形態よりも高速であるうえ、単語認識精度も保たれてい
る。第６の実施形態図８は本発明の第６の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図１に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。

【００８１】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【００８２】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【００８３】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【００８４】さらに、ステップＳ５１で次式（６）に従
って選択単語数（抽出単語数）ｙを計算する。

【００８５】ｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ² （ｋ＞０）ｙ＝ｘ（ｋ≦０） …（６）式（６）におけるｙは選択単語数、ｘは最大選択単語
数、ｋは類似度の最大値、Ｎは単語の長さである。

【００８６】式（６）によれば、前記式（５）よりもさ
らなる絞り込みを行うため、係数（１−ｋ／Ｎ）をｋ²
で割ることによって実現する。これにより、ｙはｋ²と
ｋの加重平均と反比例するので、式（５）よりもさらに
絞り込まれる。

【００８７】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【００８８】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【００８９】以上説明したように、第６の実施形態に係
る単語音声認識方法及び装置では、式（６）を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
ｋ2とｋの加重平均に反比例させることによってさらに
絞り込むことができる。本実施形態は、第５の実施形態
よりもさらに高速であるが、単語認識精度がわずかに低
下する。第７の実施形態図９は本発明の第７の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図１に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。

【００９０】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【００９１】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【００９２】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【００９３】さらに、ステップＳ６１で次式（７）に従
って選択単語数（抽出単語数）ｙを計算する。

【００９４】ｙ＝１＋ｘ（１−ｋ²／Ｎ²）／ｋ² （ｋ＞０）ｙ＝ｘ（ｋ≦０） …（７）式（７）におけるｙは選択単語数、ｘは最大選択単語
数、ｋは類似度の最大値、Ｎは単語の長さである。

【００９５】式（７）によれば、ｋの２乗の反比例を得
るため、係数（１−ｋ²／Ｎ²）／ｋ ²を設けることによ
って実現する。これにより、ｙはｋ²と反比例するの
で、最も狭い絞り込みが得られる。

【００９６】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【００９７】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【００９８】以上説明したように、第７の実施形態に係
る単語音声認識方法及び装置では、式（７）を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
ｋ2に反比例させることによってさらに絞り込むことが
できる。本実施形態は、前述の各実施形態に比べて最も
高速である。第８の実施形態図１０は本発明の第８の実施形態に係る単語音声認識方
法の構成及び処理を示すフローチャートである。本実施
形態に係る単語音声認識方法の説明にあたり図１に示す
単語音声認識方法の構成及び処理と同一部分には同一符
号を付して重複部分の説明を省略する。

【００９９】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【０１００】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【０１０１】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【０１０２】さらに、ステップＳ７１で表１に従って選
択単語数（抽出単語数）ｙを計算する。

【０１０３】

【表１】表１におけるｙは選択単語数、ｘは最大選択単語数、ｋ
は類似度の最大値、Ｎは単語の長さであり、ｎ＝１０×
ｋ／Ｎである。

【０１０４】表１によれば、ｎの各々の値に対して、ｙ
の演算式を与える。これらの演算式はきわめて単純なも
のであるため、ｙの決定は迅速に行える。

【０１０５】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【０１０６】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【０１０７】以上説明したように、第８の実施形態に係
る単語音声認識方法及び装置では、表１を利用して選択
単語数を自動的に決定するときに、ごく単純な計算によ
って選択単語数ｙを決定する。したがって、選択単語数
の決定に煩雑な計算を要しないので高速であるうえ、ハ
ードウェアも簡単な構造で済む効果がある。第９の実施形態図１１は本発明の第９の実施形態に係る単語音声認識方
法の構成及び処理を示すフローチャートである。本実施
形態に係る単語音声認識方法の説明にあたり図１に示す
単語音声認識方法の構成及び処理と同一部分には同一符
号を付して重複部分の説明を省略する。

【０１０８】処理が開始されると（ステップＳ１）、ス
テップＳ２で入力音声がＡ／Ｄ変換され、特徴パラメー
タが抽出される。

【０１０９】次いで、ステップＳ３で音素タイプライタ
用文法格納部１に格納された音素タイプライタ用文法１
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。

【０１１０】ステップＳ４では、上記ステップＳ３で得
られた入力音声の音素列と認識対象単語音素列表記格納
部２にあらかじめ用意しておいた認識対象語の音素列２
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。

【０１１１】さらに、ステップＳ８１で表２に従って選
択単語数（抽出単語数）ｙを選ぶ。

【０１１２】

【表２】表２におけるｙは選択単語数、ｘは最大選択単語数、ｋ
は類似度の最大値、Ｎは単語の長さであり、ｎ＝１０×
ｋ／Ｎである。

【０１１３】表２によれば、ｎの各々の値に対して、ｙ
の値を与える。ｙの決定には演算を必要としない。

【０１１４】次いで、ステップＳ６で類似度の大きい順
に認識対象語を並び替え、上位ｙ個の単語を抽出する。

【０１１５】ステップＳ７では、上記ステップＳ５にお
いて抽出された単語を利用して単語認識文法３を生成
し、ステップＳ８でこの単語認識文法３を用いて単語音
声認識を行い、本フローを処理を終了する（ステップＳ
９）。単語音声認識用文法の例についての説明は前述の
通りである。

【０１１６】以上説明したように、第９の実施形態に係
る単語音声認識方法及び装置では、表２を利用して選択
単語数を自動的に決定するときに、表２から読み出すだ
けであり計算を要しないので高速であるうえ、ハードウ
ェアもきわめて簡単な構造で済む効果がある。

【０１１７】このように、上記各実施形態によれば、き
わめて高速な単語音声認識方法及び装置を提供できるの
で、カーナビゲーション等のような高速処理が要求され
る音声認識による自動案内システムに適用して好適であ
る。

【０１１８】また、このような優れた特長を有する単語
音声認識方法及び装置を、大語彙単語音声認識システム
に適用すれば、このシステムにおいて大語彙単語音声認
識が高速かつ正確に行える音声認識システムを構築する
ことができる。

【０１１９】特に、本発明は選択単語数可変という特徴
を持つため、実際にシステムに組み込まれるときに、こ
の発明特有の現象が観察できる。以下、この現象につい
て説明する。

【０１２０】大語彙単語音声認識装置にとって、認識し
やすい単語と認識しにくい単語が存在する（話者によっ
てこれらの単語は異なる可能性がある）。予備選択技術
を用いた場合は、認識しやすい単語は常に選択単語リス
トの上位に選択されるが、認識しにくい単語は選択単語
リストの中下位に位置する。例えば、１万単語音声認識
の場合、認識しやすい単語Ａは常にベスト１００にある
が、認識しにくい単語Ｂは１０００ないし２０００番台
で徘徊する。

【０１２１】さらに、従来の予備選択は５００語を選択
するものとし、本実施形態は可変であるが最大１０００
単語を選択するものとする。また、単語Ａと単語Ｂはほ
ぼ同じ音声の長さを持つと仮定する。

【０１２２】実際に音声認識をするとき、従来の予備選
択は選択単語数が一定であるため、単語Ａも単語Ｂも認
識時間がほぼ同程度である（但し、単語Ｂは常に不正解
である）。これに対して本実施形態の場合は、単語Ａに
対してきわめて高速に認識結果を返せる一方、単語Ｂに
対しては最大の１０００単語を選択して認識するため、
単語Ａの数倍の認識時間がかかってしまう可能性がある
（この場合、正解を返すこともある）。

【０１２３】このように、単語によっては認識結果が返
されるタイミングが異なる性質を利用すれば、本発明の
実施の有無の可能性を容易に判断できる。

【０１２４】なお、上記各実施形態に係る単語音声認識
装置は、音声を入力とする音声認識方法には全て適用す
ることができ、また、特定話者／不特定話者音声認識の
何れの音声認識でもよい。各種端末に組み込まれる回路
の一部として実施することもできる。

【０１２５】さらに、上記各実施形態に係る単語音声認
識方法及び単語音声認識装置を構成する各処理部や各種
プロセスの数、種類接続状態などは前述した各実施形態
に限られない。

【０１２６】

【発明の効果】本発明に係る単語音声認識方法及び単語
音声認識装置では、上位単語抽出工程における上位単語
を抽出するときに、少なくとも最大選択単語数、類似度
の最大値、及び単語の長さをパラメータとする計算式ま
たは表に従って抽出単語数を決定し、該単語数分の上位
単語を抽出するようにしたので、単語音声認識において
予備選択を行うとき、予備選択数を減らすことができ、
きわめて高速な単語音声認識を実現することができる。

【図面の簡単な説明】

【図１】本発明を適用した第１の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。

【図２】上記単語音声認識方法の音素タイプライタ用文
法の説明図である。

【図３】上記単語音声認識方法の単語音声認識用文法の
例を説明するための図である。

【図４】本発明を適用した第２の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。

【図５】本発明を適用した第３の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。

【図６】本発明を適用した第４の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。

【図７】本発明を適用した第５の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。

【図８】本発明を適用した第６の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。

【図９】本発明を適用した第７の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。

【図１０】本発明を適用した第８の実施形態に係る単語
音声認識方法の構成及び処理を示すフローチャートであ
る。

【図１１】本発明を適用した第９の実施形態に係る単語
音声認識方法の構成及び処理を示すフローチャートであ
る。

【符号の説明】１音素タイプライタ用文法格納部、２認識対象単語
音素列表記格納部、３単語音声認識用文法格納部、１１
音声分析部、１２音素認識部、１３単語抽出部、
１４単語音声認識部、Ｓ５，Ｓ１１，Ｓ２１，Ｓ３
１，Ｓ４１，Ｓ５１，Ｓ６１，Ｓ７１，Ｓ８１上位単
語抽出処理ステップ（上位単語抽出工程）

Claims

【特許請求の範囲】

【請求項１】入力音声から特徴パラメータを抽出する
工程と、入力音声の音素列を算出する工程と、単語単位に入力音声の音素列と認識対象語の音素列を比
較し、類似度を算出する工程と、該類似度の高い上位単語を抽出する上位単語抽出工程
と、該抽出された単語を用いて単語音声認識用文法を生成す
る工程と、該単語音声認識用文法を用いて単語音声認識を行う工程
とを順次実行する単語音声認識方法であって、前記上位単語抽出工程における上位単語を抽出するとき
に、少なくとも最大選択単語数、類似度の最大値、及び
単語の長さをパラメータとする計算式に従って抽出単語
数を決定し、該単語数分の上位単語を抽出することを特
徴とする単語音声認識方法。
【請求項２】前記上位単語抽出工程では、次式に従っ
て抽出単語数ｙを決定し、該単語数分の上位単語を抽出
するｙ＝１＋ｘ（１−ｋ／Ｎ）（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さことを特徴とする請求項１記載の単語音声認識方法。
【請求項３】前記上位単語抽出工程では、次式に従っ
て抽出単語数ｙを決定し、該単語数分の上位単語を抽出
するｙ＝１＋ｘ（１−ａ×ｋ／Ｎ）／ｂ（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さ、ａ，ｂ：１より大きい正の定数ことを特徴とする請求項１記載の単語音声認識方法。
【請求項４】前記上位単語抽出工程では、次式に従っ
て抽出単語数ｙを決定し、該単語数分の上位単語を抽出
するｙ＝１＋ｘ（１−ｋ²／Ｎ）（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さことを特徴とする請求項１記載の単語音声認識方法。
【請求項５】前記上位単語抽出工程では、次式に従っ
て抽出単語数ｙを決定し、該単語数分の上位単語を抽出
するｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ（ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さことを特徴とする請求項１記載の単語音声認識方法。
【請求項６】前記上位単語抽出工程では、次式に従っ
て抽出単語数ｙを決定し、該単語数分の上位単語を抽出
するｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ^3/2 （ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さことを特徴とする請求項１記載の単語音声認識方法。
【請求項７】前記上位単語抽出工程では、次式に従っ
て抽出単語数ｙを決定し、該単語数分の上位単語を抽出
するｙ＝１＋ｘ（１−ｋ／Ｎ）／ｋ² （ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さことを特徴とする請求項１記載の単語音声認識方法。
【請求項８】前記上位単語抽出工程では、次式に従っ
て抽出単語数ｙを決定し、該単語数分の上位単語を抽出
するｙ＝１＋ｘ（１−ｋ²／Ｎ²）／ｋ² （ｋ＞０）ｙ＝ｘ（ｋ≦０）但し、ｘ：最大選択単語数、ｋ：類似度の最大値、Ｎ：
単語の長さことを特徴とする請求項１記載の単語音声認識方法。
【請求項９】前記上位単語抽出工程では、少なくとも
最大選択単語数、類似度の最大値、及び単語の長さをパ
ラメータとする計算表に従って抽出単語数ｙを決定し、
該単語数分の上位単語を抽出することを特徴とする請求
項１記載の単語音声認識方法。
【請求項１０】入力音声から特徴パラメータを抽出す
る手段と、入力音声の音素列を算出する手段と、単語単位に入力音声の音素列と認識対象語の音素列を比
較し、類似度を算出するとともに、該類似度の高い上位
単語を抽出する抽出手段と、前記抽出された単語を用いて単語音声認識用文法を生成
し、該単語音声認識用文法を用いて単語音声認識を行う
手段とを備えた単語音声認識装置において、前記抽出手
段は、少なくとも最大選択単語数、類似度の最大値、及び単語
の長さをパラメータとする計算式に従って抽出単語数を
決定し、該単語数分の上位単語を抽出することを特徴と
する単語音声認識装置。