JP2001005483A - 単語音声認識方法及び単語音声認識装置 - Google Patents

単語音声認識方法及び単語音声認識装置

Info

Publication number
JP2001005483A
JP2001005483A JP11173974A JP17397499A JP2001005483A JP 2001005483 A JP2001005483 A JP 2001005483A JP 11173974 A JP11173974 A JP 11173974A JP 17397499 A JP17397499 A JP 17397499A JP 2001005483 A JP2001005483 A JP 2001005483A
Authority
JP
Japan
Prior art keywords
word
words
extracted
speech recognition
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11173974A
Other languages
English (en)
Inventor
Takashi I
傑 易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP11173974A priority Critical patent/JP2001005483A/ja
Publication of JP2001005483A publication Critical patent/JP2001005483A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 単語音声認識において予備選択を行うとき、
予備選択数を減らすことができ、きわめて高速な単語音
声認識が可能な単語音声認識方法及び単語音声認識装置
を提供する。 【解決手段】 単語音声認識方法及び装置では、音素タ
イプライタ用文法格納部1、認識対象単語音素列表記格
納部2、単語音声認識用文法格納部3、入力音声から特
徴パラメータを抽出する音声分析部11、入力音声の音
素列を算出する音素認識部12、単語単位に入力音声の
音素列と認識対象語の音素列を比較し、類似度を算出す
るとともに、該類似度の高い上位単語を抽出する単語抽
出部13、抽出された単語を用いて単語音声認識用文法
を生成し、該単語音声認識用文法を用いて単語音声認識
を行う単語音声認識部14を備え、単語抽出部13は、
単語音声認識において予備選択を行うとき、類似度を利
用して、最大選択単語数x、類似度の最大値k、及び単
語の長さNをパラメータとする式(1)に従って選択単
語数yを決定し、その数分の上位単語を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語音声認識(is
olated word recognition)を行う単語音声認識方法及
び単語音声認識装置に関し、例えば、大語彙単語音声認
識システムに用いて好適な単語音声認識方法及び単語音
声認識装置に関する。
【0002】
【従来の技術】単語音声の認識処理では、発音速度の変
動に対処するために、入力音声と標準パターンの時間軸
を非線形に伸縮させてマッチングし、対応する短時間ス
ペクトル(特徴ベクトル)間の距離を単語全体にわたっ
て累積し、累積距離が最小になる標準パターンの単語名
を認識するという考え方が基本である。この累積距離計
算には、DP(dynamic programming)マッチング法が
広く利用される。
【0003】また、音素の短時間スペクトルと発声速度
の変動特性を確率的な有限状態を持つHMM(hidden M
arkov model:隠れマルコフモデル)で記述する方法も
よく用いられる。HMMでは、学習用音声データを用い
て音声モデルの学習を行うことで高い認識率を上げるこ
とが可能となっている。
【0004】従来、大語彙(数千語〜数十万語)単語音
声認識では、入力音声をすべての認識対象単語とマッチ
ングしなければならず、処理時間が膨大になってしまう
問題があった。そのための対策として高速プロセッサの
使用が考えられるが、コストを度外視できるケースに限
られるので、一般的には音声認識アルゴリズムの改良を
施すという対策が取られてきた。
【0005】また、音声認識アルゴリズムの改良として
予備選択技術が挙げられる。この予備選択技術は、入力
音声を解析し、非常に少ない計算で認識対象単語から入
力音声に類似している単語(通常、数百語)を取り出す
というものである。この予備選択を行った後、認識部で
精密な計算により正しい単語の抽出を行う。入力音声が
認識対象単語に類似しているか否かは、類似度によって
判別される。この類似度の計算では、まず、入力音声に
対して発声記号の並びを決定する音素タイプライタ認識
を行う。そして得られた入力音声の音素列と認識対象単
語の音素列とを比較し、類似度を計算する。
【0006】類似度計算の具体的な方法を示す文献に
は、例えば、文献1:特願平10−359509号(単
語音声認識方法)に記載された方法がある。
【0007】
【発明が解決しようとする課題】本来、音素タイプライ
タの出力は100%の精度があれば、音素タイプライタ
の出力だけでも認識結果を同定できるが、現在の技術レ
ベルでは音素タイプライタ出力の精度がパーフェクトよ
り大きく下回っている。但し、明瞭に発声された入力音
声に対して、音声タイプライタの出力は精度の高いもの
が多く、正解単語が抽出された単語リストの上位に占め
る確率がかなり高い。しかし、従来の予備選択は、この
ような正解単語が上位にあるにもかかわらず、一律にあ
らかじめ決められた選択単語数で精密演算を行うので、
無駄な演算があった。
【0008】上述のように、従来の予備選択技術では、
正解単語が上位にあるときに無駄な演算が生じるという
問題があった。
【0009】本発明は、単語音声認識において予備選択
を行うとき、予備選択数を減らすことができ、きわめて
高速な単語音声認識が可能な単語音声認識方法及び単語
音声認識装置を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明に係る単語音声認
識方法は、入力音声から特徴パラメータを抽出する工程
と、入力音声の音素列を算出する工程と、単語単位に入
力音声の音素列と認識対象語の音素列を比較し、類似度
を算出する工程と、該類似度の高い上位単語を抽出する
上位単語抽出工程と、該抽出された単語を用いて単語音
声認識用文法を生成する工程と、該単語音声認識用文法
を用いて単語音声認識を行う工程とを順次実行する単語
音声認識方法であって、上位単語抽出工程における上位
単語を抽出するときに、少なくとも最大選択単語数、類
似度の最大値、及び単語の長さをパラメータとする計算
式に従って抽出単語数を決定し、該単語数分の上位単語
を抽出することを特徴とする。
【0011】本発明に係る単語音声認識方法は、上位単
語抽出工程では、次式に従って抽出単語数yを決定し、
該単語数分の上位単語を抽出するものであってもよい。
【0012】 y=1+x(1−k/N) (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
単語の長さ 本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数yを決定し、該単語数分の
上位単語を抽出するものであってもよい。
【0013】 y=1+x(1−a×k/N)/b (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
単語の長さ、a,b:1より大きい正の定数 本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数yを決定し、該単語数分の
上位単語を抽出するものであってもよい。
【0014】 y=1+x(1−k2/N) (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
単語の長さ 本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数yを決定し、該単語数分の
上位単語を抽出するものであってもよい。
【0015】 y=1+x(1−k/N)/k (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
単語の長さ 本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数yを決定し、該単語数分の
上位単語を抽出するものであってもよい。
【0016】 y=1+x(1−k/N)/k3/2 (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
単語の長さ 本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数yを決定し、該単語数分の
上位単語を抽出するものであってもよい。
【0017】 y=1+x(1−k/N)/k2 (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
単語の長さ 本発明に係る単語音声認識方法は、上位単語抽出工程で
は、次式に従って抽出単語数yを決定し、該単語数分の
上位単語を抽出するものであってもよい。
【0018】 y=1+x(1−k2/N2)/k2 (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
単語の長さ 本発明に係る単語音声認識方法は、上位単語抽出工程で
は、少なくとも最大選択単語数、類似度の最大値、及び
単語の長さをパラメータとする計算表に従って抽出単語
数yを決定し、該単語数分の上位単語を抽出するもので
あってもよい。
【0019】本発明に係る単語音声認識装置は、入力音
声から特徴パラメータを抽出する手段と、入力音声の音
素列を算出する手段と、単語単位に入力音声の音素列と
認識対象語の音素列を比較し、類似度を算出するととも
に、該類似度の高い上位単語を抽出する抽出手段と、抽
出された単語を用いて単語音声認識用文法を生成し、該
単語音声認識用文法を用いて単語音声認識を行う手段と
を備えた単語音声認識装置において、抽出手段は、少な
くとも最大選択単語数、類似度の最大値、及び単語の長
さをパラメータとする計算式に従って抽出単語数を決定
し、該単語数分の上位単語を抽出することを特徴とす
る。
【0020】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。 第1の実施形態 図1は本発明の第1の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。
【0021】図1において、1は音素タイプライタ用文
法を格納する音素タイプライタ用文法格納部、2は認識
対象単語の音素列表記を格納する認識対象単語音素列表
記格納部、3は単語音声認識用文法を格納する単語音声
認識用文法格納部である。
【0022】また、11はマイクなどからの音声入力を
ディジタル信号にA/D変換するとともに、音声波形を
短い区間に区切り、フレーム毎に特徴パラメータを抽出
して音声を分析する音声分析部である。A/D変換は、
入力音声信号を所定のサンプリング周波数(例えば、8
kHz)でサンプリングしディジタル信号に変換する。
音声分析部11では、音声の特性に合った能率的方法と
して広く使用されているLPC(Linear Predictive Co
ding:線形予測符号化)分析を用い、LPC係数からL
PCケプストラムを算出する。ここで、ケプストラムと
は、対数スペクトラム(Logarithm)を逆フーリエ変換
したもので、人間の聴覚特性に近い性質を持ち、比較的
少ない数のパラメータで効率良く音声を表現できる。
【0023】音声分析部11からの分析結果は、音素認
識部12に出力される。
【0024】音素認識部12は、音素タイプライタ用文
法格納部1に格納された音素タイプライタ用文法を用い
て入力音声の音素を算出し、単語抽出部13(抽出手
段)に出力する。音素タイプライタ用文法格納部1に
は、音素の短時間スペクトル(特徴ベクトル)が登録さ
れており、音素認識部12は、入力音声の音素の特徴ベ
クトルの時系列と音素タイプライタ用文法1とのマッチ
ングにより音素列を認識する。
【0025】単語抽出部13は、単語単位に入力音声の
音素列と認識対象単語音素列表記格納部2に格納された
認識対象語の音素列を比較して類似度を算出し、類似度
の高い上位単語を抽出して単語音声認識部14に出力す
る。この場合、上位単語を抽出するときに、後述する計
算式に従って抽出単語数を決定し、その単語数分の上位
単語を抽出する。
【0026】単語音声認識部14は、抽出された単語を
用いて単語音声認識用文法を生成して単語音声認識用文
法格納部3に格納するとともに、この単語音声認識用文
法を用いて単語音声認識を行う。単語音声認識部14
は、単語抽出部13から得た抽出単語数分の上位単語
を、単語音声認識用文法格納部3に蓄えられている単語
音声認識用文法と照合することによって単語音声認識処
理を行い、認識結果として出力する。
【0027】本単語音声認識装置は、音素タイプライタ
用文法格納部1、認識対象単語音素列表記格納部2、単
語音声認識用文法格納部3、音声分析部11、音素認識
部12、単語抽出部13及び単語音声認識部14から構
成されているが、各ブロック構成及び各部の名称は説明
の便宜上のものであり、これらブロック構成に限定され
るものではない。また、音声分析部11、音素認識部1
2、単語抽出部13及び単語音声認識部14における音
声認識処理は、専用または汎用のプロセッサを用いてソ
フトウェアにより実行される構成でもよく、専用LSI
を用いたハードウェアにより実現されていてもよい。
【0028】本実施形態に係る単語音声認識方法の構成
及び処理は、単語単位に入力音声の音素列と認識対象語
の音素列を比較して類似度を算出し、類似度の高い上位
単語を抽出する単語抽出部13において、上位単語を抽
出するときに、所定の計算式に従って抽出単語数を決定
し、その数分の上位単語を抽出することを特徴とし、こ
のような認識アルゴリズムを有するものであればどのよ
うな実現手段でもよい。
【0029】以下、上述のように構成された単語音声認
識方法の動作を説明する。
【0030】図1は単語音声認識方法の構成及び処理を
示すフローチャートであり、図中、Sはフローの各ステ
ップを示す。
【0031】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0032】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の例を図2に示す。
【0033】図2は音素タイプライタ用文法の説明図で
ある。
【0034】図2に示した音素タイプライタ用文法にお
いては、「START」から「子音」若しくは「母音」
に遷移する。「子音」では、次の遷移先は「母音」若し
くは「END」であり、子音の連鎖を許さない。また
「母音」では、「子音」や「END」の他、自分自身へ
の遷移もあり得る。「END」に到達したら、発声が終
了したと見なす。ここでいう「子音」は日本語の子音で
あり、例えば /k/ /s/ /t/ などである。「母音」は日本語母音であり、例えば /a/ /i/ /u/ などである。
【0035】図1に戻って、ステップS4では、上記ス
テップS3で得られた入力音声の音素列と認識対象単語
音素列表記格納部2にあらかじめ用意しておいた認識対
象語の音素列2とを比較して類似度及び類似度の最大値
を求める。
【0036】認識対象語の音素列の例は次に示すような
ものである。例えば認識対象語は 東京 大阪 沖縄 と仮定すると、音素列は toukyou oosaka okinawa になる。類似度計算の具体的な方法については前記文献
1に記載されている。
【0037】さらに、ステップS5で次式(1)に従っ
て選択単語数(抽出単語数)yを計算する。このステッ
プS5は、しかるべく計算式に従って抽出単語数を決定
し、該単語数分の上位単語を抽出する上位単語抽出処理
に対応する。
【0038】 y=1+x(1−k/N) (k>0) y=x (k≦0) …(1) 式(1)におけるyは選択単語数、xは最大選択単語
数、kは類似度の最大値、Nは単語の長さである。前記
文献1の計算法によれば、kが取り得る最大値はNであ
る。
【0039】式(1)によれば、単語の長さNは類似度
kに依存しない定数なので、類似度kが大きければ大き
いほど、選択単語数yの値が小さくなる。さらに、k=
N、すなわち上記ステップS3で得られた入力音声の音
素列と正解単語の音素列とが一致した場合は、選択単語
数y=1となり、この段階で認識結果が確定される。
【0040】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0041】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。ここで、生成された単語認識文法3は、単語音声
認識用文法格納部3に格納される。
【0042】図3は上述した単語音声認識用文法の例を
説明するための図である。
【0043】図3に示した単語音声認識用文法おいて、
「START」からそれぞれの単語へ遷移し、さらに、
各単語から「END」へ遷移する。そして尤度計算で最
大尤度を与えた単語を認識結果とする。
【0044】以上説明したように、第1の実施形態に係
る単語音声認識方法及び装置では、音素タイプライタ用
文法格納部1、認識対象単語音素列表記格納部2、単語
音声認識用文法格納部3、入力音声から特徴パラメータ
を抽出する音声分析部11、入力音声の音素列を算出す
る音素認識部12、単語単位に入力音声の音素列と認識
対象語の音素列を比較し、類似度を算出するとともに、
該類似度の高い上位単語を抽出する単語抽出部13、抽
出された単語を用いて単語音声認識用文法を生成し、該
単語音声認識用文法を用いて単語音声認識を行う単語音
声認識部14を備え、単語抽出部13は、単語音声認識
において予備選択を行うとき、類似度を利用して、最大
選択単語数x、類似度の最大値k、及び単語の長さNを
パラメータとする式(1)に従って選択単語数yを決定
し、その数分の上位単語を抽出するようにしたので、正
解単語が選択単語の上位にランクされている場合には、
少ない選択数で単語音声認識を行うことができ、きわめ
て高速な単語音声認識を実現することができる。 第2の実施形態 図4は本発明の第2の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図1に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。
【0045】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0046】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0047】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0048】さらに、ステップS11で次式(2)に従
って選択単語数(抽出単語数)yを計算する。
【0049】 y=1+x(1−a×k/N)/b (k>0) y=x (k≦0) …(2) 式(2)におけるyは選択単語数、xは最大選択単語
数、kは類似度の最大値、Nは単語の長さである。ま
た、a及びbは1より大きい正の定数である。
【0050】式(2)によれば、定数a及びbが1より
大きい値を取る場合は、(1−a×k/N)/bの値
は、(1−k/N)よりも小さくなるため、定数a及び
bを調整することによってさらに選択単語数yを絞るこ
とができる。但し、上記式(2)で計算されたyが0よ
りも小さい値になった場合は、yの値をあらかじめ決め
られた小さい正の整数で置き換える。
【0051】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0052】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0053】以上説明したように、第2の実施形態に係
る単語音声認識方法及び装置では、式(2)を利用して
選択単語数を決定するときに、aとbを調整することに
よって、より少ない選択数で単語音声認識を行うことが
でき、きわめて高速な単語音声認識を実現することがで
きる。本実施形態では、a=1.2,b=1.5の場合
は、第1の実施形態より7%程高速化が可能になった。 第3の実施形態 図5は本発明の第3の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図1に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。
【0054】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0055】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0056】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0057】さらに、ステップS21で次式(3)に従
って選択単語数(抽出単語数)yを計算する。
【0058】 y=1+x(1−k2/N) (k>0) y=x (k≦0) …(3) 式(3)におけるyは選択単語数、xは最大選択単語
数、kは類似度の最大値、Nは単語の長さである。
【0059】式(3)によれば、類似度kの2乗をとる
ことにより、一段と選択単語を絞り込むことができ、式
(1)と式(2)に比べて比較的に小さいkでも絞り込
みが効率よくできる。但し、式(3)で計算されたyが
0よりも小さい値になった場合は、yの値をあらかじめ
決められた小さい正の整数で置き換える。
【0060】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0061】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0062】以上説明したように、第3の実施形態に係
る単語音声認識方法及び装置では、式(3)を利用して
選択単語数を自動的に決定するときに、kの値を2乗に
することによってより単語数を絞り込むことができる。
本実施形態は、第1及び第2の実施形態よりも高速にな
る反面、単語認識精度はやや落ちるので、速度最優先の
場面で使用して好適である。 第4の実施形態 図6は本発明の第4の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図1に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。
【0063】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0064】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0065】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0066】さらに、ステップS31で次式(4)に従
って選択単語数(抽出単語数)yを計算する。
【0067】 y=1+x(1−k/N)/k (k>0) y=x (k≦0) …(4) 式(4)におけるyは選択単語数、xは最大選択単語
数、kは類似度の最大値、Nは単語の長さである。
【0068】式(4)によれば、前記式(1)を基に、
係数(1−k/N)をkで割ることにする。これによ
り、yの値はkに反比例しながら正の値を取ることがで
き、kが大きいときには、より狭く絞り込むことがで
き、効率がよくなる。
【0069】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0070】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0071】以上説明したように、第4の実施形態に係
る単語音声認識方法及び装置では、式(4)を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
類似度の最大値kに反比例させることによって効率アッ
プを図っている。本実施形態は、第2の実施形態よりも
7%程高速であるうえ、単語認識精度も保たれている。 第5の実施形態 図7は本発明の第5の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図1に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。
【0072】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0073】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0074】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0075】さらに、ステップS41で次式(5)に従
って選択単語数(抽出単語数)yを計算する。
【0076】 y=1+x(1−k/N)/k3/2 (k>0) y=x (k≦0) …(5) 式(5)におけるyは選択単語数、xは最大選択単語
数、kは類似度の最大値、Nは単語の長さである。
【0077】式(5)によれば、前記式(4)よりもさ
らなる絞り込みを行うため、係数(1−k/N)をk
3/2で割ることによって実現する。これにより、yはk
3/2とk 1/2の加重平均と反比例するので、式(4)より
もさらなる絞り込みが期待できる。
【0078】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0079】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0080】以上説明したように、第5の実施形態に係
る単語音声認識方法及び装置では、式(5)を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
k3/2とk1/2の加重平均に反比例させることによってさ
らに絞り込むことができる。本実施形態は、第4の実施
形態よりも高速であるうえ、単語認識精度も保たれてい
る。 第6の実施形態 図8は本発明の第6の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図1に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。
【0081】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0082】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0083】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0084】さらに、ステップS51で次式(6)に従
って選択単語数(抽出単語数)yを計算する。
【0085】 y=1+x(1−k/N)/k2 (k>0) y=x (k≦0) …(6) 式(6)におけるyは選択単語数、xは最大選択単語
数、kは類似度の最大値、Nは単語の長さである。
【0086】式(6)によれば、前記式(5)よりもさ
らなる絞り込みを行うため、係数(1−k/N)をk2
で割ることによって実現する。これにより、yはk2
kの加重平均と反比例するので、式(5)よりもさらに
絞り込まれる。
【0087】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0088】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0089】以上説明したように、第6の実施形態に係
る単語音声認識方法及び装置では、式(6)を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
k2とkの加重平均に反比例させることによってさらに
絞り込むことができる。本実施形態は、第5の実施形態
よりもさらに高速であるが、単語認識精度がわずかに低
下する。 第7の実施形態 図9は本発明の第7の実施形態に係る単語音声認識方法
の構成及び処理を示すフローチャートである。本実施形
態に係る単語音声認識方法の説明にあたり図1に示す単
語音声認識方法の構成及び処理と同一部分には同一符号
を付して重複部分の説明を省略する。
【0090】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0091】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0092】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0093】さらに、ステップS61で次式(7)に従
って選択単語数(抽出単語数)yを計算する。
【0094】 y=1+x(1−k2/N2)/k2 (k>0) y=x (k≦0) …(7) 式(7)におけるyは選択単語数、xは最大選択単語
数、kは類似度の最大値、Nは単語の長さである。
【0095】式(7)によれば、kの2乗の反比例を得
るため、係数(1−k2/N2)/k 2を設けることによ
って実現する。これにより、yはk2と反比例するの
で、最も狭い絞り込みが得られる。
【0096】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0097】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0098】以上説明したように、第7の実施形態に係
る単語音声認識方法及び装置では、式(7)を利用して
選択単語数を自動的に決定するときに、絞込み単語数を
k2に反比例させることによってさらに絞り込むことが
できる。本実施形態は、前述の各実施形態に比べて最も
高速である。 第8の実施形態 図10は本発明の第8の実施形態に係る単語音声認識方
法の構成及び処理を示すフローチャートである。本実施
形態に係る単語音声認識方法の説明にあたり図1に示す
単語音声認識方法の構成及び処理と同一部分には同一符
号を付して重複部分の説明を省略する。
【0099】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0100】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0101】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0102】さらに、ステップS71で表1に従って選
択単語数(抽出単語数)yを計算する。
【0103】
【表1】 表1におけるyは選択単語数、xは最大選択単語数、k
は類似度の最大値、Nは単語の長さであり、n=10×
k/Nである。
【0104】表1によれば、nの各々の値に対して、y
の演算式を与える。これらの演算式はきわめて単純なも
のであるため、yの決定は迅速に行える。
【0105】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0106】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0107】以上説明したように、第8の実施形態に係
る単語音声認識方法及び装置では、表1を利用して選択
単語数を自動的に決定するときに、ごく単純な計算によ
って選択単語数yを決定する。したがって、選択単語数
の決定に煩雑な計算を要しないので高速であるうえ、ハ
ードウェアも簡単な構造で済む効果がある。 第9の実施形態 図11は本発明の第9の実施形態に係る単語音声認識方
法の構成及び処理を示すフローチャートである。本実施
形態に係る単語音声認識方法の説明にあたり図1に示す
単語音声認識方法の構成及び処理と同一部分には同一符
号を付して重複部分の説明を省略する。
【0108】処理が開始されると(ステップS1)、ス
テップS2で入力音声がA/D変換され、特徴パラメー
タが抽出される。
【0109】次いで、ステップS3で音素タイプライタ
用文法格納部1に格納された音素タイプライタ用文法1
を用いて入力音声の音素列を算出する。音素タイプライ
タ用文法の説明は前述の通りである。
【0110】ステップS4では、上記ステップS3で得
られた入力音声の音素列と認識対象単語音素列表記格納
部2にあらかじめ用意しておいた認識対象語の音素列2
とを比較して類似度及び類似度の最大値を求める。認識
対象語の音素列の説明についての説明は前述の通りであ
る。
【0111】さらに、ステップS81で表2に従って選
択単語数(抽出単語数)yを選ぶ。
【0112】
【表2】 表2におけるyは選択単語数、xは最大選択単語数、k
は類似度の最大値、Nは単語の長さであり、n=10×
k/Nである。
【0113】表2によれば、nの各々の値に対して、y
の値を与える。yの決定には演算を必要としない。
【0114】次いで、ステップS6で類似度の大きい順
に認識対象語を並び替え、上位y個の単語を抽出する。
【0115】ステップS7では、上記ステップS5にお
いて抽出された単語を利用して単語認識文法3を生成
し、ステップS8でこの単語認識文法3を用いて単語音
声認識を行い、本フローを処理を終了する(ステップS
9)。単語音声認識用文法の例についての説明は前述の
通りである。
【0116】以上説明したように、第9の実施形態に係
る単語音声認識方法及び装置では、表2を利用して選択
単語数を自動的に決定するときに、表2から読み出すだ
けであり計算を要しないので高速であるうえ、ハードウ
ェアもきわめて簡単な構造で済む効果がある。
【0117】このように、上記各実施形態によれば、き
わめて高速な単語音声認識方法及び装置を提供できるの
で、カーナビゲーション等のような高速処理が要求され
る音声認識による自動案内システムに適用して好適であ
る。
【0118】また、このような優れた特長を有する単語
音声認識方法及び装置を、大語彙単語音声認識システム
に適用すれば、このシステムにおいて大語彙単語音声認
識が高速かつ正確に行える音声認識システムを構築する
ことができる。
【0119】特に、本発明は選択単語数可変という特徴
を持つため、実際にシステムに組み込まれるときに、こ
の発明特有の現象が観察できる。以下、この現象につい
て説明する。
【0120】大語彙単語音声認識装置にとって、認識し
やすい単語と認識しにくい単語が存在する(話者によっ
てこれらの単語は異なる可能性がある)。予備選択技術
を用いた場合は、認識しやすい単語は常に選択単語リス
トの上位に選択されるが、認識しにくい単語は選択単語
リストの中下位に位置する。例えば、1万単語音声認識
の場合、認識しやすい単語Aは常にベスト100にある
が、認識しにくい単語Bは1000ないし2000番台
で徘徊する。
【0121】さらに、従来の予備選択は500語を選択
するものとし、本実施形態は可変であるが最大1000
単語を選択するものとする。また、単語Aと単語Bはほ
ぼ同じ音声の長さを持つと仮定する。
【0122】実際に音声認識をするとき、従来の予備選
択は選択単語数が一定であるため、単語Aも単語Bも認
識時間がほぼ同程度である(但し、単語Bは常に不正解
である)。これに対して本実施形態の場合は、単語Aに
対してきわめて高速に認識結果を返せる一方、単語Bに
対しては最大の1000単語を選択して認識するため、
単語Aの数倍の認識時間がかかってしまう可能性がある
(この場合、正解を返すこともある)。
【0123】このように、単語によっては認識結果が返
されるタイミングが異なる性質を利用すれば、本発明の
実施の有無の可能性を容易に判断できる。
【0124】なお、上記各実施形態に係る単語音声認識
装置は、音声を入力とする音声認識方法には全て適用す
ることができ、また、特定話者/不特定話者音声認識の
何れの音声認識でもよい。各種端末に組み込まれる回路
の一部として実施することもできる。
【0125】さらに、上記各実施形態に係る単語音声認
識方法及び単語音声認識装置を構成する各処理部や各種
プロセスの数、種類接続状態などは前述した各実施形態
に限られない。
【0126】
【発明の効果】本発明に係る単語音声認識方法及び単語
音声認識装置では、上位単語抽出工程における上位単語
を抽出するときに、少なくとも最大選択単語数、類似度
の最大値、及び単語の長さをパラメータとする計算式ま
たは表に従って抽出単語数を決定し、該単語数分の上位
単語を抽出するようにしたので、単語音声認識において
予備選択を行うとき、予備選択数を減らすことができ、
きわめて高速な単語音声認識を実現することができる。
【図面の簡単な説明】
【図1】本発明を適用した第1の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。
【図2】上記単語音声認識方法の音素タイプライタ用文
法の説明図である。
【図3】上記単語音声認識方法の単語音声認識用文法の
例を説明するための図である。
【図4】本発明を適用した第2の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。
【図5】本発明を適用した第3の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。
【図6】本発明を適用した第4の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。
【図7】本発明を適用した第5の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。
【図8】本発明を適用した第6の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。
【図9】本発明を適用した第7の実施形態に係る単語音
声認識方法の構成及び処理を示すフローチャートであ
る。
【図10】本発明を適用した第8の実施形態に係る単語
音声認識方法の構成及び処理を示すフローチャートであ
る。
【図11】本発明を適用した第9の実施形態に係る単語
音声認識方法の構成及び処理を示すフローチャートであ
る。
【符号の説明】 1 音素タイプライタ用文法格納部、2 認識対象単語
音素列表記格納部、3単語音声認識用文法格納部、11
音声分析部、12 音素認識部、13 単語抽出部、
14 単語音声認識部、S5,S11,S21,S3
1,S41,S51,S61,S71,S81 上位単
語抽出処理ステップ(上位単語抽出工程)

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力音声から特徴パラメータを抽出する
    工程と、 入力音声の音素列を算出する工程と、 単語単位に入力音声の音素列と認識対象語の音素列を比
    較し、類似度を算出する工程と、 該類似度の高い上位単語を抽出する上位単語抽出工程
    と、 該抽出された単語を用いて単語音声認識用文法を生成す
    る工程と、 該単語音声認識用文法を用いて単語音声認識を行う工程
    とを順次実行する単語音声認識方法であって、 前記上位単語抽出工程における上位単語を抽出するとき
    に、少なくとも最大選択単語数、類似度の最大値、及び
    単語の長さをパラメータとする計算式に従って抽出単語
    数を決定し、該単語数分の上位単語を抽出することを特
    徴とする単語音声認識方法。
  2. 【請求項2】 前記上位単語抽出工程では、次式に従っ
    て抽出単語数yを決定し、該単語数分の上位単語を抽出
    する y=1+x(1−k/N) (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
    単語の長さ ことを特徴とする請求項1記載の単語音声認識方法。
  3. 【請求項3】 前記上位単語抽出工程では、次式に従っ
    て抽出単語数yを決定し、該単語数分の上位単語を抽出
    する y=1+x(1−a×k/N)/b (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
    単語の長さ、a,b:1より大きい正の定数 ことを特徴とする請求項1記載の単語音声認識方法。
  4. 【請求項4】 前記上位単語抽出工程では、次式に従っ
    て抽出単語数yを決定し、該単語数分の上位単語を抽出
    する y=1+x(1−k2/N) (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
    単語の長さ ことを特徴とする請求項1記載の単語音声認識方法。
  5. 【請求項5】 前記上位単語抽出工程では、次式に従っ
    て抽出単語数yを決定し、該単語数分の上位単語を抽出
    する y=1+x(1−k/N)/k (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
    単語の長さ ことを特徴とする請求項1記載の単語音声認識方法。
  6. 【請求項6】 前記上位単語抽出工程では、次式に従っ
    て抽出単語数yを決定し、該単語数分の上位単語を抽出
    する y=1+x(1−k/N)/k3/2 (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
    単語の長さ ことを特徴とする請求項1記載の単語音声認識方法。
  7. 【請求項7】 前記上位単語抽出工程では、次式に従っ
    て抽出単語数yを決定し、該単語数分の上位単語を抽出
    する y=1+x(1−k/N)/k2 (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
    単語の長さ ことを特徴とする請求項1記載の単語音声認識方法。
  8. 【請求項8】 前記上位単語抽出工程では、次式に従っ
    て抽出単語数yを決定し、該単語数分の上位単語を抽出
    する y=1+x(1−k2/N2)/k2 (k>0) y=x (k≦0) 但し、x:最大選択単語数、k:類似度の最大値、N:
    単語の長さ ことを特徴とする請求項1記載の単語音声認識方法。
  9. 【請求項9】 前記上位単語抽出工程では、少なくとも
    最大選択単語数、類似度の最大値、及び単語の長さをパ
    ラメータとする計算表に従って抽出単語数yを決定し、
    該単語数分の上位単語を抽出することを特徴とする請求
    項1記載の単語音声認識方法。
  10. 【請求項10】 入力音声から特徴パラメータを抽出す
    る手段と、 入力音声の音素列を算出する手段と、 単語単位に入力音声の音素列と認識対象語の音素列を比
    較し、類似度を算出するとともに、該類似度の高い上位
    単語を抽出する抽出手段と、 前記抽出された単語を用いて単語音声認識用文法を生成
    し、該単語音声認識用文法を用いて単語音声認識を行う
    手段とを備えた単語音声認識装置において、前記抽出手
    段は、 少なくとも最大選択単語数、類似度の最大値、及び単語
    の長さをパラメータとする計算式に従って抽出単語数を
    決定し、該単語数分の上位単語を抽出することを特徴と
    する単語音声認識装置。
JP11173974A 1999-06-21 1999-06-21 単語音声認識方法及び単語音声認識装置 Withdrawn JP2001005483A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11173974A JP2001005483A (ja) 1999-06-21 1999-06-21 単語音声認識方法及び単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11173974A JP2001005483A (ja) 1999-06-21 1999-06-21 単語音声認識方法及び単語音声認識装置

Publications (1)

Publication Number Publication Date
JP2001005483A true JP2001005483A (ja) 2001-01-12

Family

ID=15970481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11173974A Withdrawn JP2001005483A (ja) 1999-06-21 1999-06-21 単語音声認識方法及び単語音声認識装置

Country Status (1)

Country Link
JP (1) JP2001005483A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860519B2 (en) 2001-04-27 2010-12-28 Accenture Global Services Limited Location-based services system
US7970648B2 (en) 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
AU2008201023B2 (en) * 2001-04-27 2011-11-17 Accenture Global Services Limited Location-based services
US8738437B2 (en) 2001-04-27 2014-05-27 Accenture Global Services Limited Passive mining of usage information in a location-based services system
JP2014215578A (ja) * 2013-04-30 2014-11-17 日本電信電話株式会社 音響モデル選択装置とその方法とプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860519B2 (en) 2001-04-27 2010-12-28 Accenture Global Services Limited Location-based services system
US7970648B2 (en) 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
AU2008201023B2 (en) * 2001-04-27 2011-11-17 Accenture Global Services Limited Location-based services
US8738437B2 (en) 2001-04-27 2014-05-27 Accenture Global Services Limited Passive mining of usage information in a location-based services system
JP2014215578A (ja) * 2013-04-30 2014-11-17 日本電信電話株式会社 音響モデル選択装置とその方法とプログラム

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
EP1936606B1 (en) Multi-stage speech recognition
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2815579B2 (ja) 音声認識における単語候補削減装置
EP1701338A1 (en) Speech recognition method
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Anoop et al. Automatic speech recognition for Sanskrit
JP2955297B2 (ja) 音声認識システム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Trivedi A survey on English digit speech recognition using HMM
JP3378547B2 (ja) 音声認識方法及び装置
CN111696530B (zh) 一种目标声学模型获取方法及装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060905