JP3369121B2 - 音声認識方法および音声認識装置 - Google Patents

音声認識方法および音声認識装置

Info

Publication number
JP3369121B2
JP3369121B2 JP14025199A JP14025199A JP3369121B2 JP 3369121 B2 JP3369121 B2 JP 3369121B2 JP 14025199 A JP14025199 A JP 14025199A JP 14025199 A JP14025199 A JP 14025199A JP 3369121 B2 JP3369121 B2 JP 3369121B2
Authority
JP
Japan
Prior art keywords
recognition
score
graph
node
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14025199A
Other languages
English (en)
Other versions
JP2000330586A (ja
Inventor
清一 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=15264441&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP3369121(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP14025199A priority Critical patent/JP3369121B2/ja
Publication of JP2000330586A publication Critical patent/JP2000330586A/ja
Application granted granted Critical
Publication of JP3369121B2 publication Critical patent/JP3369121B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続的に発生され
た音声を認識する方法および装置に関する。
【0002】
【従来の技術】音声認識装置の一例として、特開平9-28
1989号公報には、言語的な評価処理において無駄な照合
を省略し、もって現実的な時間で認識処理を行えるよう
にした音声認識装置が開示されている。図9に、この音
声認識装置の概略構成を示す。図9に示すように、上記
公報の音声認識装置は、音韻認識部110、音素モデル
記憶部111、言語処理部120、候補記憶部121、
結果記憶部122、辞書記憶部130、言語情報記憶部
130、構文規則記憶部140、言語情報記憶部150
からなる。
【0003】音韻認識部110は、入力された音声を音
韻単位に分割し(セグメンテーション)、該分割区間の
それぞれの状態について音素モデル記憶部111を参照
しながら認識を行い、該音韻認識結果として音韻単位の
グラフ表現(単語の音韻構造をネットワークによって表
現した音韻グラフ)を出力する。この音韻認識部110
から出力される音韻グラフは、発話の開始を開始ノード
とし、発話の終了を終了ノードとする複数のノードによ
り接続されたネットワークモデルであって、各ノード区
間の状態が音韻記号や疑似音韻記号により表わされ、状
態間の遷移を表わすアークが付与された構成となってい
る。各アークは認識された音韻単位に対応しており、そ
れぞれ音韻照合スコアと音韻単位のモノグラムのスコア
が認識スコアとして付与される。この認識スコアは、ノ
ード区間の認識された音韻候補の確からしさの尺度、ま
たはアークの遷移確率を示す。各ノードには、そのノー
ドから終了ノード(発話の終了)までの最良のスコアが
付与される。
【0004】言語処理部120は、音韻認識部110か
ら出力された音韻グラフをもとにして、認識できる単語
の情報を蓄えた辞書記憶部130と、品詞から受理でき
る文を記述した構文規則記憶部140と、統計的な言語
情報を蓄えた言語情報記憶部150とを用いて最終的な
認識を行う。
【0005】次に、上述の音声認識装置における音韻認
識の具体的な処理の流れを図10を参照して説明する。
【0006】音声が入力されると、音韻認識部110が
その入力音声について音韻認識を行って音韻グラフを作
成する(ステップS101)。この音韻グラフは言語処
理部120に供給され、言語処理部120にて以下のス
テップS102〜S109の言語処理が実行される。
【0007】まず、処理中の候補を記憶しておく候補記
憶部を初期化して初期候補が1つだけ入っている状態に
する(ステップS102)。次いで、候補記憶部が空で
ないことを確認した上でその候補記憶部から最もスコア
の良い候補を取り出す(ステップS103、S10
4)。ただし、最初は、上記ステップS102で用意し
た初期候補が取り出される。
【0008】ステップS104で最もスコアの良い候補
が取り出されると、続いて、その取り出された候補につ
いて、照合が音韻グラフの最後まで到達しているか否か
の判定を行う(ステップS105)。照合が音韻グラフ
の最後まで到達していて、文として成立していれば、そ
の候補を結果記憶部に移し(ステップS106)、到達
していなければ、ステップS109に移って取り出した
候補の言語照合処理に入る。
【0009】上記ステップS106で候補が結果記憶部
に移されると、続いて結果記憶部に移された候補の数が
十分であるか否かの判定を行う(ステップS107)。
不十分であれば、上記ステップS103へ戻り、十分で
あれば、結果記憶部に移された候補を認識結果として出
力する(ステップS108)。このステップS108の
認識結果出力は、上記ステップS103で候補記憶部が
空となった場合にも行われる。
【0010】上述の音韻認識処理では、言語照合処理は
処理の終わったノードから続くノードに処理が進むこと
になる。具体的には、辞書記憶部130と構文規則記憶
部140とを用いて受理され得るノードを選択して新た
な候補とし、その候補の言語的評価を行ってスコアをつ
けるといった処理が順次行われる。ここでは、言語情報
記憶部150を参照して評価スコアを得る。この評価ス
コアには、音韻グラフ上の予測スコアも含まれる。
【0011】以上説明した従来の音声認識装置において
は、予測スコアが実際のスコアを下回らないという条件
を満たす場合、認識結果は得られた順に、よりよい評価
スコアが得られることになる。すなわち、ある入力音声
から得られた音韻グラフに対し、その音韻グラフの始端
から終端までの認識結果をスコア順に得ることができ
る。例えば、候補記憶部に記憶する候補の数、認識結果
記憶部に記憶する認識結果の数をそれぞれ制限しなけれ
ば、音韻グラフ中の始端から終端までをつなぐ、全ての
認識結果をスコア順に得ることができる。
【0012】
【発明が解決しようとする課題】入力音声全体について
得られた一位認識結果中の部分単語列または部分文字列
に間違いがある場合、その部分についてのみ修正できれ
ば認識処理を効率的に行うことができる。しかしなが
ら、上述した従来の音声認識装置は、入力音声全体につ
いて複数の認識結果候補を得、これら候補のうちから評
価スコアの良い順に候補が選択されるようになっている
ため、そのような一位認識結果中の部分単語列または部
分文字列の修正を行うことはできなかった。
【0013】本発明の目的は、入力音声全体について得
られた認識結果中の部分単語列または部分文字列を任意
に指定して修正することができる、音声認識方法および
音声認識装置を提供することにある。
【0014】
【課題を解決するための手段】上記目的を達成するた
め、本発明の音声認識装置は、入力音声を言語的単位に
認識し、該言語的単位に対応したアークで単語列が表現
されたグラフを生成する音声認識手段と、任意の時間区
間を指定するための区間指定手段と、前記音声認識手段
により生成されたグラフ中の前記区間指定手段により指
定された任意の時間区間について複数の認識結果を生成
する言語処理手段とを有することを特徴とする。
【0015】また、本発明の音声認識方法は、入力音声
を言語的単位に認識し、該言語的単位に対応したアーク
で単語列が表現されたグラフを生成する音声認識ステッ
プと、前記音声認識ステップで生成されたグラフ中の任
意に指定された時間区間について複数の認識結果を生成
する言語処理ステップとを含むことを特徴とする。
【0016】(作用)上記のとおりの本発明において
は、入力音声から得られたグラフの任意の時間区間につ
いて複数の認識結果が生成されるので、入力音声全体に
ついて得られた一位認識結果中の部分単語列または部分
文字列に間違いがある場合、その部分について複数の認
識結果を得ることができる。ユーザは、これら認識結果
から任意に正当な結果を選択することで、間違い箇所を
修正することができる。
【0017】
【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。
【0018】図1に本発明の音声認識装置の一実施形態
を示す。本形態の音声認識装置は、音声認識部10、標
準パターン記憶部11、言語処理部20、候補記憶部2
1、結果記憶部22、区間指定部23、予測スコア計算
部24、言語情報記憶部30から構成されている。
【0019】音声認識部10は、入力された音声を分析
して得られるパラメータベクトル列に対し、標準パター
ン記憶部11に記憶されている標準パターンと言語情報
記憶部30に記憶されている辞書情報・言語情報を用い
て、言語的単位を単位とするグラフ(以下、ワードグラ
フ)を生成する。入力された音声の分析には、たとえ
ば、フィルタバンク、フーリエ変換、線形予測係数型分
析器などを用いる。ワードグラフの言語的単位としては
音素・音節・単語などを用いることができる。
【0020】ワードグラフでは、アークで言語的単位を
表わすこととし、各アークには該言語的単位の、分析さ
れた入力音声の対応する部分と標準パターンとの近さを
表わす音響スコア(音響的な確からしさの尺度を示す)
が付与される。ワードグラフは、一つの開始ノードと一
つの終了ノードを持ち、これらはそれぞれ入力音声の始
端と終端に対応する。ワードグラフのノードは、入力音
声での時間位置に対応する情報を持つ。
【0021】標準パターン記憶部11には、あらかじめ
分析された音声が記憶されている。たとえば、音素単
位、前後の環境を考慮した音素単位、音節単位、単語単
位で音声が記憶される。
【0022】言語処理部20は、音声認識部10から与
えられるワードグラフをもとにして、言語情報記憶部3
0に記憶されている言語情報、ワードグラフに付与され
ている音響スコア、予測スコア計算部24にてワードグ
ラフのノード毎に得られる予測スコアをそれぞれ用いて
認識結果候補の評価スコアを計算するとともに、言語処
理中の認識結果候補を候補記憶部21に記憶させ、言語
処理の終了した認識結果候補を認識結果として結果記憶
部22に記憶させることで、区間指定部23で指定され
た区間に対応するワードグラフ中の区間に対し、評価ス
コア順に認識結果を求める。
【0023】候補記憶部21は、言語処理部20におい
てワードグラフが処理されている際に得られる認識結果
候補を評価スコアのよい順に並べ替えて記憶する。ここ
で、認識結果候補は、少なくとも候補の評価スコア、候
補の途中のスコア、最近に処理したノード番号、0か1
の値がセットされる処理終了フラグを最低限情報として
持つ。
【0024】結果記憶部22は、言語処理部20にてワ
ードグラフが処理されて得られる認識結果を得られた順
に記憶する。区間指定部23は、認識結果を求めたい時
間区間を与える。ユーザはこの区間指定部23を用いて
直接、入力音声内での時間や、入力全体に対する一位認
識結果(最も確かな認識結果)中の部分単語列や部分文
字列を指定することができる。この区間指定部23は、
キー入力手段などを用いても実現することができる。
【0025】上記区間指定部23によって一位認識結果
中の部分単語列が指定された場合は、対応するワードグ
ラフのパスの、最初のアークの始端ノードに記録されて
いる時間を区間の開始時間とし、最後のアークの終端ノ
ードに記録されている時間を区間の終了時間とする。一
位認識結果中の部分文字列が指定された場合、対応する
ワードグラフのパスの、最初のアークについて、アーク
に付与された言語的単位と指定された文字列との対応
と、アークの始端ノード・終端ノードにそれぞれ記録さ
れた時間から、区間の開始時間の推定値を求める。これ
と同様にして、最後のアークについても区間の終了時間
の推定値を求める。
【0026】予測スコア計算部24は、言語処理部20
で処理対象となっているワードグラフの各ノードに対し
て、言語情報記憶部30に記憶されている言語情報とワ
ードグラフに付与されている音響スコアを用いて、その
ノードから開始ノード方向に計算された後ろ向き予測ス
コアとそのノードから終了ノード方向に計算された前向
き予測スコアを与える。なお、これら予測スコアは、必
要なノードについてのみ計算してもよいし、全ノードに
ついて計算してもよい。また、言語情報によっては、動
的計画法を用いることで予測スコアを高速に計算するこ
とができる。
【0027】言語情報記憶部30は、音声認識部10と
言語処理部20で用いられる辞書情報・言語情報を記憶
する。辞書情報は、ワードグラフの言語的単位を規定す
る。言語情報はなくてもよいが、言語的単位に関する制
約を用いることでより精度の高い認識結果候補を得るこ
とができる。言語情報としては、たとえば単語に対して
単語n−gram、単語間接続可否判定表、単語品詞間
接続可否判定表などを用いることができる。
【0028】次に、本形態の音声認識装置の全体の動作
を図2のフローチャートを参照して詳細に説明する。
【0029】音声が入力されると、音声認識部10がそ
の入力された音声に対して音韻認識処理を行ってワード
グラフを作成する(ステップS1)。ワードグラフは、
入力音声での時間位置に対応するノードとそれを結ぶア
ークからなり、アークには始端ノード、終端ノード、対
応する言語的単位、音響スコアが記録される。このよう
なワードグラフの作成には、たとえば「Computer Speec
h and Language (1997) 11, pp43-72」に示されている
ような方法を適用することができる。
【0030】ワードグラフが作成されると、続いて、予
測スコア計算部24がそのワードグラフの各ノードに対
して、開始ノードからそのノードに至るパスの最適なス
コア(以下、後ろ向き予測スコア)を計算する(ステッ
プS2)。パスのスコアは、パスを構成するアークに付
与されている音響スコアとアークの言語的単位の連鎖と
言語情報記憶部30により与えられる言語スコアを重み
付けして合計した値である。言語情報記憶部30により
与えられる言語情報が2つ以下の言語的単位により決ま
る場合、この計算は開始ノードから終了ノード方向に動
的計画法を用いて処理することで、ワードグラフのノー
ド数に比例した時間で行うことができる。後ろ向き予測
スコアが計算されると、続いて、予測スコア計算部24
がワードグラフの各ノードに対して、そのノードから終
了ノードに至るパスの最適なスコア(以下、前向き予測
スコア)を計算する(ステップS3)。この計算におい
ても、言語情報記憶部30により与えられる言語情報が
2つ以下の言語的単位により決まる場合は、終了ノード
から開始ノード方向に動的計画法を用いて処理すること
で、ワードグラフのノード数に比例した時間で行うこと
ができる。
【0031】次いで、言語処理部20が区間指定部23
により指定された音声認識結果の候補を得たい時間区間
を表わす開始時間、終了時間および該時間区間の許容範
囲を表わす所定の誤差に基づいて、ワードグラフ中の区
間始端ノード群、区間終端ノード群、区間内ノード群を
それぞれ求める(ステップS4)。区間始端ノード群
は、ワードグラフ中のノードのうちの「開始時間−誤
差」から「開始時間+誤差」の間に存在する全てのノー
ドである。区間終端ノード群は、ワードグラフ中のノー
ドのうちの「終了時間−誤差」から「終了時間+誤差」
の間に存在する全てのノードである。区間内ノード群
は、ワードグラフ中のノードのうちの「開始時間−誤
差」から「終了時間+誤差」の間に存在する全てのノー
ドである。なお、このステップS4で、区間始端ノード
群または区間終端ノード群のどちらかが空となった場合
は、言語処理部20は認識結果が得られない旨を示し処
理を終了する。
【0032】区間始端ノード群、区間終端ノード群、区
間内ノード群が求められると、続いて、言語処理部20
は、区間始端ノード群のすべてのノードに対し、そのノ
ードから続く区間内ノード群のノードを接続して得られ
る認識結果候補を候補記憶部21に記憶する(ステップ
S5)。この候補記憶部21に記録される認識結果候補
には、既に処理が済んだワードグラフ中のノード列(区
間内ノード群に限る)、評価スコア、途中スコア、処理
終了フラグの各情報が含まれる。例えば、途中スコアと
して、区間始端ノードの後ろ向き予測スコア、区間始端
ノードから続く区間内ノード群のノードを接続したアー
クの音響スコア(ワードグラフに記述)、言語情報記憶
部30により得られる言語スコアをそれぞれ重み付けし
て合計した値を持ち、評価スコアとして、その求められ
た途中スコアと接続した区間内ノード群のノードの前向
き予測スコアを重み付けして合計した値を持ち、処理が
済んだノード列として、区間始端ノードとそれに接続し
た区間内ノード群のノードを持ち、処理終了フラグとし
て0を持つ認識結果候補が候補記憶部21に記憶され
る。なお、途中スコアには、区間始端ノードに記録され
ている時間と開始時間とのずれに比例したペナルティ
(負方向のスコア)を加えることもできる。
【0033】認識結果候補が候補記憶部21に記憶され
ると、続いて、言語処理部20は、候補記憶部21が空
かどうかを調べる(ステップS6)。空でない場合は、
評価スコアの最も良い認識結果候補を候補記憶部21内
から取り出すとともに、該候補の情報を候補記憶部21
内から削除する(ステップS7)。そして、その取り出
した認識結果候補が処理終了フラグとして1を持つかど
うか調べる(ステップS8)。
【0034】上記ステップS8の処理で、処理終了フラ
グとして1を持たない場合は、言語処理部20は、取り
出された認識結果候補について以下のような認識結果候
補作成処理を進める(ステップS9)。
【0035】取り出した認識結果候補に記憶されている
ノード列のうちの最も処理の進んだノードが区間終端ノ
ード群に含まれる場合は、その認識結果候補を、処理終
了フラグを1とした新しい認識結果候補として候補記憶
部21に記憶させる。この場合、評価スコアはそのまま
にしてもよいし、区間終端ノードに記録されている時間
と終了時間とのずれに比例したペナルティを加えてもよ
い。
【0036】上記に反して、最も処理の進んだノードが
区間終端ノード群に含まれない場合は、そのノードから
続く区間内ノード群のノードを接続して得られる認識結
果候補を候補記憶部21に記憶させる。この場合、途中
スコアは、認識結果候補に記憶されている途中スコア
と、認識結果候補に記憶されているノード列の最も処理
の進んだノードから続く区間内ノード群のノードを接続
した音響スコアと、言語スコアとを重み付けして合計す
ることで得られる。評価スコアは、新しく求められた途
中スコアと、接続したノードの前向き予測スコアとを重
み付けして得られる。また、この場合、処理が済んだノ
ード列、すなわち認識結果候補に記憶されているノード
列に接続した区間内ノード群のノードを加えたノード列
が記録されるとともに、処理終了フラグとして0が記録
された認識結果候補が候補記憶部21に記憶される。
【0037】上記ステップS8の処理において、取り出
した認識結果候補が処理終了フラグとして1を持つ場
合、言語処理部20は、その取り出した認識結果候補の
ノード列を認識結果として結果記憶部22に記憶させる
(ステップS10)。そして、結果記憶部22に記憶さ
れた認識結果の個数が所定の個数を越えたかどうか判定
する(ステップS11)。
【0038】上記ステップS11において、得られた認
識結果の個数が十分な場合、または上述のステップS6
において、候補記憶部21が空の場合は、言語処理部2
0は、結果記憶部22に記憶させた認識結果を出力して
処理を終了する(ステップS12)。なお、十分な認識
結果が得られていない場合は、言語処理部20はその旨
出力する。
【0039】以上の音声認識処理において、上述のステ
ップS3までの処理で得られるワードグラフのノードに
対する前向き・後ろ向き予測スコアは、認識結果を求め
る区間に依存しないため、区間を変更して認識結果を求
め直す場合には、ステップS4からやり直すだけでよ
い。
【0040】なお、通常は、一発声に対し一ワードグラ
フが得られるが、複数のワードグラフを連結して一つの
ワードグラフにすることは容易である。よって、本形態
の場合、音声認識部が、連続して入力される複数の入力
音声について、各入力音声毎にグラフを作成し、これら
グラフを連結して1つのグラフを作成するように構成し
てもよい。具体的には、1つ以上のワードグラフを記憶
するグラフ記憶部を持ち、音声認識部が、そのグラフ記
憶部に記憶されたワードグラフを連結するように構成す
る。この場合、複数の入力音声にまたがる時間区間につ
いて、スコア順に異なる複数の音声認識結果を得ること
ができる。またこの場合、言語情報を使用するようにす
れば、複数発声にまたがるコンテキストを利用すること
ができる。
【0041】次に、本形態の音声認識装置における音声
認識処理について、具体例を挙げて説明する。図3に、
本形態の音声認識装置の音声認識部にて作成されるワー
ドグラフの一例を示す。このワードグラフは、「こちら
では夜はかなり冷え込みます」という文を発声した場合
の音声から得られたもので、開始ノードが「S」で示さ
れ、終了ノードが「E」で示されており、その他のノー
ドには時間順に番号がつけられている。アークには単語
が対応している。なお、図3には省略されているが、ア
ークにはその単語の音響スコアが付与されている。ま
た、ワードグラフは同じノードに入るアークに対しては
同じ単語になるように生成されている。ここでは、この
ワードグラフのアーク「ユーモア」(ノード6からノー
ド8へのアーク)の時間区間に対する複数の認識結果を
得る処理の流れを具体的に説明する。
【0042】まず、前処理としてワードグラフの各ノー
ドに対し、動的計画法を用い、前向き・後ろ向きの予測
スコアを計算する。具体的には、たとえば後ろ向き予測
スコアの場合、あるノードjに入る全てのアークの始端
ノードkに対し、 Sb(ノードj)=max(a(アークkj)+l(W
k,Wj)+Sb(ノードk))ノードk を計算する。ここで、Sb(ノードj)はノードjの後
ろ向き予測スコア、a(アークkj)はノードkからノ
ードjに入るアークの音響スコア、Wkはノードkに入
るアークの単語、l(Wk,Wj)は2単語Wk、Wj
に関する言語スコアである。
【0043】ノード番号順(ここでは、「S」を最初、
「E」を最後とする。)に上記処理を行うことにより、
ノードjに入る全てのアークの始端ノードkに対しSb
(ノードk)を計算することができる。この計算の際、
音響スコア、言語スコアのそれぞれに適当な係数を掛け
て重み付けを行ってもよい。言語スコアは、図4に示す
ように2単語に関する表になっている。表を高速に検索
するために高速な検索法(たとえば2分サーチ)を用い
てもよい。得られた予測スコアは、図5に示すようにグ
ラフのノード毎の表として記憶される。図5では一部省
略されているが、実際にはワードグラフの全ノードにつ
いて計算され、記憶される。
【0044】次に、区間始端ノード群、区間終端ノード
群、区間内ノード群を求める。簡単のため、ここでは、
時間区間の許容範囲を表わす誤差を0とする。図3のワ
ードグラフからは、区間始端ノード群として、アーク
「ユーモア」の始端ノードに記録された時間と同じ時間
のノード「6」が求められ、区間終端ノード群として、
終端ノードに記録された時間と同じ時間を持つノード
「8,9,10」が求められ、区間内ノード群として、
始端ノードに記録された時間から終端ノードに記録され
た時間の間に含まれるノード「6,7,8,9,10」
が求められる。
【0045】次に、区間始端ノード群のすべてのノード
について、それに続く区間内ノード群のノードについて
認識結果候補を作成し、候補記憶部21に記憶させる。
このとき、候補の評価スコアを計算する。この評価スコ
ア計算は、区間始端ノード群のノードの一つをノードi
として、それに続く区間内ノード群のノードjに対し、 g(候補i,j)=Sb(ノードi)+a(アークi
j)+l(Wi,Wj) S(候補i,j)=g(候補i,j)+Sf(ノード
j) を計算する。ここで、g(候補i,j)は認識結果候補
の途中スコア、S(候補i,j)は認識結果候補の評価
スコア、候補i,jはノード列{ノードi,ノードj}
を持つ認識結果候補、Sf(ノードj)はノードjの前
向き予測スコアである。図4、図5の表から、図6のよ
うな認識結果候補が候補記憶部21に記憶される。
【0046】続く処理では、候補記憶部21が空でない
ので、評価スコアの最もよい認識結果候補を取り出す。
処理終了フラグが1であれば、結果記憶部22にノード
列を認識結果として記憶し、そうでない場合は、取り出
した認識結果候補に基づいて新しい認識結果候補を作成
して候補記憶部に記憶させる。具体的には、取り出した
認識結果候補の処理の済んだノード列の最も処理の進ん
だノードをノードiとして以下のような処理を行う。
【0047】ノードiが区間終端ノード群のノードの場
合、処理終了フラグを1とした認識結果候補を候補記憶
部21に記憶させる。ノードiが区間終端ノード群のノ
ードでない場合は、それに続く区間内ノード群のノード
jに対し、 g(候補+j)=g(候補)+a(アークij)+l
(Wi,Wj) S(候補+j)=g(候補+j)+Sf(ノードj) を計算する。ここで、「候補」は取り出した認識結果候
補、「候補+j」は取り出した認識結果候補の処理の済
んだノード列にノードjを加えたノード列を持つ認識結
果候補である。
【0048】以上の処理について、図6に示す認識結果
候補が記憶されている場合を例に挙げて以下に具体的に
説明する。
【0049】まず、評価スコアがもっとも高い認識結果
候補「候補6,7」が取り出される。この取り出された
認識結果候補「候補6,7」は処理終了フラグが1でな
いため、新しい認識結果候補を作成する。ただし、「候
補6,7」に記録されているノード列の最も処理の進ん
だノード7は区間終端ノード群のノードではないため、
新しい認識結果候補として処理終了フラグを1にした認
識結果候補は作成しない。図3のワードグラフでは、ノ
ード列の最も処理の進んだノード7に続く区間内ノード
群のノードはノード10のみとなっているため、新しい
認識結果候補「候補6,7,10」のみが作成され、記
憶される。これにより、候補記憶部には図7のような認
識結果候補が記憶される。
【0050】続いて、図7の認識結果候補のういちから
評価スコアがもっとも高い認識結果候補「候補6,8」
が取り出される。この取り出された認識結果候補「候補
6,8」は処理終了フラグが1でないため、新しい認識
結果候補を作成する。図3のワードグラフでは、「候補
6,8」に記録されているノード列の最も処理の進んだ
ノード8は区間終端ノード群のノードの一つなので、処
理終了フラグを1にした「候補6,8」が新しい認識結
果候補として作成され、記憶される。この場合、ノード
8につながる区間内ノード群はないため、さらに認識結
果候補を作成することはしない。これにより、候補記憶
部には図8のような認識結果候補が記憶される。
【0051】続いて、図8の認識結果候補のういちから
評価スコアがもっとも高い認識結果候補「候補6,8」
が取り出される。この取り出された認識結果候補「候補
6,8」は処理終了フラグが1であるため、結果記憶部
に「ノード6,8」が認識結果として記録される。
【0052】上述の処理を進めると、認識結果として
「ノード6,8」(スコア−102)、「ノード6,
7,10」(スコア−103)、「ノード6,9」(ス
コア−105)が順に得られる。これらの認識結果は、
図3のワードグラフと対応させると、それぞれ「ユーモ
ア」、「夜は」、「融和」となり、たとえば、この順で
提示し正解をユーザに選択させるようにすることで良好
なユーザインタフェースを構築できる。ユーザに正当な
認識結果を選択指定させる手段としては、例えばキー入
力やマウス入力などを用いることができる。
【0053】以上説明した本形態の音声認識装置では、
入力音声から得られるワードグラフのノードの予測スコ
アを求めておくことにより、ワードグラフの任意のノー
ドを始終端とする区間の認識結果を、その時間区間内に
あるノードのみに関して処理するだけで、そのパスを含
む、ワードグラフの最初から最後までの全体のパスのス
コアに基づいて認識結果を比較して順序付けすることが
でき、また区間内のスコアだけでなく、全体のスコアや
区間前後のコンテキストを考慮して認識結果を得ること
ができる。このため、入力音声の任意の区間について、
少ない処理量で異なる認識結果を精度良く求めることが
できる。
【0054】また、本形態の音声認識装置では、二つ以
上の入力音声からそれぞれ得られたワードグラフを連結
して得られる一つのワードグラフの任意の区間につい
て、異なる認識結果を得ることができ、さらに複数発声
にまたがるコンテキストを使用することもできる。この
場合も、任意の区間に対して、少ない処理量で異なる認
識結果を精度良く求めることができる。
【0055】なお、上述した本形態の音声認識装置で
は、結果記憶部22を用いて認識結果を記憶するように
なっているが、認識結果が得られる度に出力するような
構成とすることもできる。
【0056】
【発明の効果】以上説明したように、本発明によれば、
入力音声全体について得られた認識結果中の部分単語列
または部分文字列に間違いがある場合、その部分につい
て複数の認識結果を生成することができ、ユーザはこれ
ら認識結果のうちから任意に正当な結果を選択すること
で修正を行うことができるので、少ない処理量で効率良
く正しい認識結果を得ることができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施形態を示すブロ
ック図である。
【図2】図1に示す音声認識装置の全体の動作の流れを
示すフローチャート図である。
【図3】ワードグラフの一例を示す図である。
【図4】言語スコアの一例を示す図である。
【図5】予測スコアの一例を示す図である。
【図6】候補記憶部に記憶される認識結果候補の一例を
示す図である。
【図7】候補記憶部に記憶される認識結果候補の一例を
示す図である。
【図8】候補記憶部に記憶される認識結果候補の一例を
示す図である。
【図9】特開平9-281989号公報に開示された音声認識装
置の概略構成を示すブロック図である。
【図10】図9に示す音声認識装置における音韻認識の
具体的な処理の流れを示すフローチャート図である。
【符号の説明】
10 音声認識部 11 標準パターン記憶部 20 言語処理部 21 候補記憶部 22 結果記憶部 23 区間指定部 24 予測スコア計算部 30 言語情報記憶部

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声を言語的単位に認識し、該言語
    的単位に対応したアークで単語列が表現されたグラフを
    生成する音声認識手段と、 任意の時間区間を指定するための区間指定手段と、 前記音声認識手段により生成されたグラフ中の前記区間
    指定手段により指定された任意の時間区間について複数
    の認識結果を生成する言語処理手段とを有することを特
    徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 音声認識手段が、それぞれのアークに少なくとも音響的
    な確からしさの尺度を示す音響スコアが付与されたグラ
    フを生成し、 言語処理手段が、前記音声認識手段により生成されたグ
    ラフ中の区間指定手段により指定された任意の時間区間
    内に存在する全てのアークの単語列を認識結果候補と
    し、該認識結果候補のそれぞれについて、少なくとも前
    記音響スコアに基づく評価スコアを求め、該評価スコア
    の良い認識結果候補から順に認識結果を得るように構成
    されたことを特徴とする音声認識装置。
  3. 【請求項3】 請求項2に記載の音声認識装置におい
    て、 言語処理手段が、それぞれの認識結果候補に対し、その
    認識結果候補を含むグラフ全体の始端から終端までのパ
    ス全体の音響スコアを用いて評価スコアを求めるように
    構成されたことを特徴とする音声認識装置。
  4. 【請求項4】 請求項2に記載の音声認識装置におい
    て、 所定の言語情報が予め記憶された言語情報記憶手段と、 前記言語情報記憶手段に記憶された言語情報と音声認識
    手段により生成されたグラフの各アークに付与されてい
    る音響スコアとに基づいて、前記グラフの各アークの境
    界に位置するノードのそれぞれについて、グラフの始端
    から当該ノードに至るパスの最適なスコアと当該ノード
    からグラフの終端に至るパスの最適なスコアをそれぞれ
    求めて予測スコアを得る予測スコア計算手段とをさらに
    有し、 言語処理手段が、各アークに付与された音響スコアと前
    記言語情報記憶手段に記憶された言語情報と前記予測ス
    コア計算手段にて計算された予測スコアとに基づいて評
    価スコアを計算するように構成されたことを特徴とする
    音声認識装置。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項に
    記載の音声認識装置において、 言語処理手段が、区間指定手段により指定された任意の
    時間区間の開始時間と終了時間のそれぞれに所定の許容
    範囲を設定し、該許容範囲が設定された区間について複
    数の認識結果を得るように構成されたことを特徴とする
    音声認識装置。
  6. 【請求項6】 請求項1乃至請求項5のいずれか1項に
    記載の音声認識装置において、 区間指定手段が、入力音声全体について得られる一位認
    識結果中の部分単語列を指定する手段であることを特徴
    とする音声認識装置。
  7. 【請求項7】 請求項1乃至請求項5のいずれか1項に
    記載の音声認識装置において、 区間指定手段が、入力音声全体について得られる一位認
    識結果中の部分文字列を指定する手段であることを特徴
    とする音声認識装置。
  8. 【請求項8】 請求項1乃至請求項7のいずれか1項に
    記載の音声認識装置において、 音声認識手段が、連続して入力される複数の入力音声に
    ついて、各入力音声毎にグラフを作成し、これらグラフ
    を連結して1つのグラフを作成するように構成されたこ
    とを特徴とする音声認識装置。
  9. 【請求項9】 入力音声を言語的単位に認識し、該言語
    的単位に対応したアークで単語列が表現されたグラフを
    生成する音声認識ステップと、 前記音声認識ステップで生成されたグラフ中の任意に指
    定された時間区間について複数の認識結果を生成する言
    語処理ステップとを含むことを特徴とする音声認識方
    法。
  10. 【請求項10】 請求項9に記載の音声認識方法におい
    て、 音声認識ステップが、それぞれのアークに少なくとも音
    響的な確からしさの尺度を示す音響スコアが付与された
    グラフを生成するステップであり、 言語処理ステップが、前記音声認識ステップにより生成
    されたグラフ中の任意に指定された時間区間内に存在す
    る全てのアークの単語列を認識結果候補とし、該認識結
    果候補のそれぞれについて、少なくとも前記音響スコア
    に基づく評価スコアを求め、該評価スコアの良い認識結
    果候補から順に認識結果を得るステップであることを特
    徴とする音声認識方法。
  11. 【請求項11】 請求項10に記載の音声認識方法にお
    いて、 言語処理ステップにおける評価スコアを、それぞれの認
    識結果候補に対し、その認識結果候補を含むグラフ全体
    の始端から終端までのパス全体の音響スコアを用いて求
    めることを特徴とする音声認識方法。
  12. 【請求項12】 請求項10に記載の音声認識方法にお
    いて、 音声認識ステップにより生成されたグラフの各アークに
    付与されている音響スコアと予め用意された所定の言語
    情報とに基づいて、前記グラフの各アークの境界に位置
    するノードのそれぞれについて、グラフの始端から当該
    ノードに至るパスの最適なスコアと当該ノードからグラ
    フの終端に至るパスの最適なスコアをそれぞれ求めて予
    測スコアを得る予測スコア計算ステップをさらに含み、 言語処理ステップにおける評価スコアの計算を、各アー
    クに付与された音響スコアと前記言語情報と前記予測ス
    コア計算ステップにて計算された予測スコアとに基づい
    て行うことを特徴とする音声認識方法。
  13. 【請求項13】 請求項9乃至請求項12のいずれか1
    項に記載の音声認識方法において、 言語処理ステップが、任意に指定された時間区間の開始
    時間と終了時間のそれぞれに所定の許容範囲を設定する
    処理を含み、該許容範囲が設定された区間について複数
    の認識結果を得るステップであることを特徴とする音声
    認識方法。
  14. 【請求項14】 請求項9乃至請求項13のいずれか1
    項に記載の音声認識方法において、 任意の時間区間を指定するステップとして、入力音声全
    体について得られる一位認識結果中の部分単語列を指定
    するステップをさらに含むことを特徴とする音声認識方
    法。
  15. 【請求項15】 請求項9乃至請求項13のいずれか1
    項に記載の音声認識方法において、 任意の時間区間を指定するステップとして、入力音声全
    体について得られる一位認識結果中の部分文字列を指定
    するステップをさらに含むことを特徴とする音声認識方
    法。
  16. 【請求項16】 請求項9乃至請求項15のいずれか1
    項に記載の音声認識方法において、 音声認識ステップが、連続して入力される複数の入力音
    声について、各入力音声毎にグラフを作成し、これらグ
    ラフを連結して1つのグラフを作成するステップである
    ことを特徴とする音声認識方法。
JP14025199A 1999-05-20 1999-05-20 音声認識方法および音声認識装置 Expired - Fee Related JP3369121B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14025199A JP3369121B2 (ja) 1999-05-20 1999-05-20 音声認識方法および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14025199A JP3369121B2 (ja) 1999-05-20 1999-05-20 音声認識方法および音声認識装置

Publications (2)

Publication Number Publication Date
JP2000330586A JP2000330586A (ja) 2000-11-30
JP3369121B2 true JP3369121B2 (ja) 2003-01-20

Family

ID=15264441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14025199A Expired - Fee Related JP3369121B2 (ja) 1999-05-20 1999-05-20 音声認識方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP3369121B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101233561B1 (ko) 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법

Also Published As

Publication number Publication date
JP2000330586A (ja) 2000-11-30

Similar Documents

Publication Publication Date Title
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US5787396A (en) Speech recognition method
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
CN106297800B (zh) 一种自适应的语音识别的方法和设备
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
KR20030076686A (ko) 계층적 언어 모델
JP2015530614A (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
JP2002215187A (ja) 音声認識方法及びその装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3369121B2 (ja) 音声認識方法および音声認識装置
JPH08248980A (ja) 音声認識装置
JP3950957B2 (ja) 言語処理装置および方法
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP3440840B2 (ja) 音声認識方法及びその装置
JP2965529B2 (ja) 音声認識装置
JP5344396B2 (ja) 言語学習装置、言語学習プログラム及び言語学習方法
JP3494338B2 (ja) 音声認識方法
JP2007066237A (ja) 記号列変換方法、音声認識方法、音声言い換え方法、記号列変換装置とプログラム、記録媒体
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
KR0136426B1 (ko) 히든 마르코프 모델링 방식(hmm)의 음성인식 시스템에서의 음성인식 방법

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071115

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081115

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081115

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091115

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091115

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101115

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111115

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111115

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121115

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121115

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131115

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees