JP3633254B2 - 音声認識システムおよびそのプログラムを記録した記録媒体 - Google Patents

音声認識システムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3633254B2
JP3633254B2 JP00543198A JP543198A JP3633254B2 JP 3633254 B2 JP3633254 B2 JP 3633254B2 JP 00543198 A JP00543198 A JP 00543198A JP 543198 A JP543198 A JP 543198A JP 3633254 B2 JP3633254 B2 JP 3633254B2
Authority
JP
Japan
Prior art keywords
likelihood
speech
procedure
candidate
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00543198A
Other languages
English (en)
Other versions
JPH11202895A (ja
Inventor
俊之 小▲高▼
明雄 天野
康成 大淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP00543198A priority Critical patent/JP3633254B2/ja
Publication of JPH11202895A publication Critical patent/JPH11202895A/ja
Application granted granted Critical
Publication of JP3633254B2 publication Critical patent/JP3633254B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
本発明は、コンピュータを用いた音声の認識技術に係わり、特に、音声認識のロバスト性(信頼性)を高めるのに好適な音声認識システムおよびそのプログラムを記録した記録媒体に関するものである。
【0002】
【従来の技術】
マンマシンインタフェースとして音声を文字情報等に変換する音声認識技術に関して、近年、種々の提案がなされている。
例えば、特開平2−89099号公報においては、入力音声毎に平均音節長を推定し、平均音節長と特徴量とに基づいて音節区間を切り出すことにより、話者の発声速度の変化に影響されずに正しく音節認識ができるようにして、音節認識における性能向上を図った音声認識装置に関する技術が記載されている。
【0003】
この特開平2−89099号公報に記載のものを含め、音声認識技術では、入力音声に対して音声区間検出を行い、検出されたひと固まりの音声に対して、予め作成して蓄積している標準パターンとの照合処理をし、認識結果を出している。その後、照合処理した内部データはリセットされ、次の発声を待つ。
このように、あくまでも、一固まりに対して結果を出すため、音声の区間検出が重要になる。例えば、「がっこう」(実際は「っ」は無音である)という音声が分割されないように終端検出の条件を設定する必要がある。
【0004】
以下、音声検出を用いる一般的な音声認識システムを、図13を用いて簡単に説明する。
図13は、従来の離散単語発声を対象とする音声認識システムの構成例を示すブロック図である。
マイク等からなる音声入力部31より取り込まれた音声は、ある一定区間(フレーム)毎に音声分析部32において音響分析され、ある特徴量(特徴べクトル)に変換される。この特徴量に基づき、音声区間検出部33では音声区間内か音声区間外かを判定する。
【0005】
この音声区間検出部33による判定に基づき、照合部34では、予め登録されていた単語に対応した標準パターンに対して、音声区間内の特徴量を用いた照合処理を行う。
そして、音声区間検出部33で音声区間の終端が検出されると、判定部35は、照合部34の結果を用いて、それまで入力された一連の音声に対する認識結果を求める。このようにして得られた認識結果は、表示部36で画面出力されたり、音声出力されたりする。
【0006】
尚、認識のアルゴリズムとしては、例えば、隠れマルコフモデル(HMM:Hidden Markov Models)があり、このHMMによる音声認識の詳細な説明は、中川聖一著「確率モデルによる音声認識」(電子情報通信学会出版、1988)等にある。照合部34による照合処理は比較的処理量が多いため、音声検出処理を設けることで、音声認識に係わる全体的な処理量を抑えられるという利点がある。
しかし、音声検出の精度が認識率に影響し易く、音声検出に失敗すると認識率が低下する。
【0007】
次に、このような音声検出をしない、いわゆるワードスポッティングによる音声認識システムについて以下簡単に説明する。
ワードスポッテイングでは、音声が入力されているかどうかは関係なく常に照合処理をし続け、入力された音声中に含まれる単語を検出する技術である。図13で説明した技術では、処理が図13の左から右へのパイプライン処理であるが、ワードスボッティングでは、照合部34と結果判定部35が毎フレーム密接に連携して処理を進める点が特徴と言える。
しかし、このワードスポッテイング技術では、音声検出を行っていないため、実際の発声とはずれた位置に結果がでるといった、いわゆる湧き出しという現象が起きやすい。
【0008】
また、音声検出およびワードスッティングによる従来の音声認識技術のいずれにおいても、認識処理の単位は、ほぼ一塊りで発声された音声である。すなわち、単語認識システムとして使う場合は、単語単位の発声を前提としている。従って、たとえ単語音声であっても、「鈴木(すずき)」に関して、「す」「ず」「き」のように、音節単位で間にポーズが挿入されたような音声が入力された場合は、正しい認識結果を出力することはほぼ不可能となる。
【0009】
すなわち、このような前提に反した音声が入力されたとしたら、区間検出された単位をむりやり1つの単語と仮定して認識結果を出そうとしてしまう。例えば、「す」「ず」「き」のそれぞれの音節発声を1つの単語と見なして、それぞれに対応して最大3つの認識結果を出そうとしてしまう。
このような発音の前提が従来の音声認識システムを使いにくくしている一つの要因であり、従来の音声認識技術における問題点の1つと言える。
【0010】
例えば、上述の「鈴木」といった人名を認識可能な単語音声認識システムでは、従来、「すずき」という発声しか認識できない。しかし利用者によっては、ゆっくりと「す」「ず」「き」と区切って発声するかもしれない。また、「すずき」という発声が誤認識された場合に丁寧に発声するつもりで、「す」「ず」「き」と区切って発声し直す利用者もいる。すなわち、「すずき」でも「す」「ず」「き」でも正しく認識できるロバストな音声認識システムが望ましい。
【0011】
別な例として、部署名や住所のような長めの単語の場合を考えると、従来は、例えば「東京都国分寺市東恋ヶ窪」というように、一息での連続した発声しか認識できなかったり、「東京都」「国分寺市」「東恋ヶ窪」というように区切った発声しか認識できなかったりする。いずれにせよ、必ず一息に発声するか、必ず区切って発声するか、どちらか片方の制約があった。このような長い単語の場合は、一息に発声しても、任意の場所で区切って発声しても認識できるようなロバストな音声認識システムが望ましい。
【0012】
このように、従来の音声認識技術では、認識対象の音声の入力時にポーズが挿入されると、その時点で一旦処理が終了し、想定している認識対象の範囲内で何らかの認識結果を出力してしまう。そして、再度音声が入力されると、認識対象の先頭からの照合しか行わない。その結果、例えば、ある程度ゆっくり「がっこう」と言った場合に、正しい認識結果が得られないという問題が生じる。すなわち、「っ」の音は実際には無音であるために、認識装置には「が」の音声と「こう」の音声と見なされ、「が」と「こう」をそれぞれ1つの単語と見なして認識処理してしまう。
【0013】
また、認識対象を単語と想定している場合には、例えば「すずき」と言わずに、一音節ずつ区切って「す」「ず」「き」と発声すると、正しい認識結果が得られない。実際の場面でも、「すずき」と発声して、装置がうまく認識結果を返さなかった場合に、「す」「ず」「き」とわざわざ一音ずつ区切って、丁寧に、ゆっくりと発声し直すユーザが多い。この場合、「す」と「ず」と「き」のそれぞれの音声を1つの単語と見なして認識処理してしまう。
同様に、認識対象を文節と想定している場合に単語単位や音節単位の発声をしたり、認識対象を文と想定している場合に文節や単語、音節で区切って発声してしまうと、正しい認識結果が得られない。
【0014】
【発明が解決しようとする課題】
解決しようとする問題点は、従来の技術では、認識対象の音声の発声の仕方に制約があり、前提としない発声では正しく認識できない点である。
本発明の目的は、これら従来技術の課題を解決し、発声側の負荷を軽減でき、かつ、認識性能を向上でき、使い勝手の良い音声認識システムおよびそのプログラムを記録した記録媒体を提供することである。
【0015】
【課題を解決するための手段】
上記目的を達成するため、本発明の音声認識システムは、判定部5から照合部4へのフィードバックパスを設け、照合部4において、判定部5からフィードバックされる判定結果に基づき暫定的な候補をある時間蓄えておき、単語あるいは文の途中から照合処理を継続することを特徴とする。すなわち、音節単位のような部分的な発声の終端が検出される毎に、判定部5が、照合部4による照合結果を基に、受理する単語を判定すると同時に、部分的にマッチしている単語を、保留すべき単語として判定し、その情報をフィードバックパスを介して照合部4に戻す。さらに、照合部4では、判定部5より戻された情報に基づいて、部分的にマッチしている単語の照合用の内部データの一部を、次の音声入力まで保持する。その結果、ポーズで分割された音節単位発声の単語音声や、一息では言いづらい長い単語の音声認識が可能となる。
【0016】
【発明の実施の形態】
以下、本発明の実施例を、図面により詳細に説明する。
図1は、本発明の音声認識システムの本発明に係る構成の第1の実施例を示すブロック図である。
本例において、認識のアルゴリズムは特に限定するものではないが、ここではアルゴリズムとして、従来技術でも述べた隠れマルコフモデル(HMM:Hidden Markov Models)を想定して説明する。
【0017】
本図1において、1はマイク等からなり音声を取り込む音声入力部、2は音声入力部1で取り込んだ音声をある一定区間(フレーム)毎に音響分析して、ある特徴量(特徴べクトル)に変換する音声分析部、3は音声分析部2で変換した特徴量に基づき音声区間内か音声区間外かを判定する音声区間検出部、4は音声区間検出部3による判定に基づき予め登録されていた単語に対応した標準パターンに対して音声区間内の特徴量を用いた照合処理を行う照合部、5は音声区間検出部3で音声区間の終端が検出されると、照合部4の結果を用いて、それまで入力された一連の音声に対する認識結果を求める結果判定部、6は結果判定部5で得た認識結果を画面出力する表示部、7は結果判定部5で得た認識結果を照合部に渡すフィードバックパスである。
【0018】
本例では、処理量の観点から、音声検出を行うものとする。また、照合部4内で保持している標準パターンも従来と同じ単語認識用のHMM(Hidden Markov Models)をそのまま使う。
従来の技術と異なるのは、結果判定部5から照合部4へのフィードバックパス7を設けた点である。
【0019】
本例では、音節単位のような部分的な発声の終端が検出される毎に、結果判定部5が、照合部4による照合結果を基に、受理する単語を判定すると同時に、部分的にマッチしている単語を、保留すべき単語として判定し、その情報をフィードバックパス7を介して照合部4に戻す。さらに、照合部4では、結果判定部5より戻された情報に基づいて、部分的にマッチしている単語の照合用の内部データの一部を、次の音声入力まで保持する。その結果、ポーズで分割された音節単位発声の単語音声や、一息では言いづらい長い単語の音声認識が可能となる。
【0020】
以下、このような音声認識(累積尤度技術)に係わる基本アルゴリズム(「(1)初期設定」、「(2)区間検出」、「(3)尤度更新」、「(4)候補選択およびリジェクション」)について説明する。
最初に、説明に用いる照合用の内部データを示す。
S(w)…単語wの中のHMM状態数
L(w,i,t)…単語w中のi番目の状態のtフレームにおける尤度
Ls(w,i)…単語w中のi番目の状態の累積尤度
Fs(w,i)…単語w中のi番目の状態の累積フレーム数
【0021】
(1)初期設定
認識開始時に、単語HMM状態の各内部データに初期値を設定しておく。例えば、認識対象を表す先頭の状態に尤度として確率値「1」、途中の状態に確率値「0」を設定する。また、全ての状態に対する累積尤度と累積フレーム数には「0」を設定しておく。すなわち、
∀w∈Wについて、
L(w,1,0)←1
L(w,i,0)←0,(2≦i≦S(w))
Ls(w,i)←0, Fs(w,i)←0 (1≦i≦S(w))
ここで、Wは認識対象単語の集合である。
【0022】
(2)区間検出
音声入力部1から音声データが入力され始めると、入力されたデータは、音声分析部2により、ある時間(フレーム)間隔毎に音響分析される。音声区間検出部3では、その結果の一部から音声区間かどうかを判定し、基本的には、音声区間内であれば、認識対象に対する尤度計算を実行してから次フレームの音響分折へ進み、音声区間外であれば何もせずに次フレームの音響分析へと進む。ここで、音声区間の終端を検出すると、その時点でのHMMネットワーク内の状態の尤度に基づく候補選択へと進む。
【0023】
(3)尤度更新
尤度更新においては、従来からある、いわゆるビタビアルゴリズム(従来技術の説明において挙げた中川聖一著「確率モデルによる音声認識」(電子情報通信学会出版、1988)等に詳細記載)により、各状態の尤度更新を行う。すなわち、ある状態iへ複数の遷移がつながっているとき、それらの遷移間で伝搬する尤度が最大である遷移を選択し、その遷移元の状態の前フレームにおける尤度にその遷移の尤度(Ptrans)を加算して、状態iの現在のフレームの尤度とする。本例においては、さらに、ビタビアルゴリズムにより選択された遷移にそって、累積尤度と累積フレーム数をそのまま次状態へ伝搬させる。
【0024】
すなわち、
【数1】
Figure 0003633254
ここで、Ptrans(i,j,V)は、状態jから状態iへの遷移確率と、その遷移における特徴べクトルVに対する出現確率を掛けた値である。
尚、
【数2】
Figure 0003633254
は、X(j)を最大にするjの値とする。
【0025】
(4)候補選択およびリジェクション
候補選択では、照合パラメータから算出される評価値に基づいて、第1の候補群と第2の候補群を選択する。
第1の候補群とは、この時点までに入力された音声データが、認識対象(単語、文節、文等)として非常に尤もらしく、認識結果として受理すべき上位N(N=0,1,2・・・)個の候補の集まりである。具体的には、その認識対象を表現しているHMMネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度最大の状態の位置(尤度ピーク位置)が状態系列の終端付近にある場合に、その認識対象を第1の候補群とする。
【0026】
一方、第2の候補群とは、この時点までに入力された音声データが、認識対象(単語、文節、文等)の先頭の一部分らしく、認識結果としての受理も棄却(リジェクション)も保留すべき上位M(M=0,1,2・・・)個の候補の集まりである。
具体的には、その認識対象を表現しているHMMネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度ピーク位置が状態系列の終端付近に到達せず、途中にある場合に、その認識対象を第2の候補群とする。
【0027】
尚、第1の候補群、第2の候補群の個数N,Mは、尤度の大きい順に選択する際の個数を定数として決めても良いし、ネットワーク全体の状態の中で最大の尤度からある一定の尤度差内にある候補数と見なしても良い。ここでは後者を採用することとする。
【0028】
すなわち、
【数3】
Figure 0003633254
のとき、以下の判定を行う。
【数4】
Figure 0003633254
【0029】
ここで、L’(w,i,T)は、尤度L(w,i,t)をフレーム数(=T)で正規化した値であり、累積尤度および累積フレーム数も含めて正規化する。Smax(w,T)は終端検出されたフレームTにおいて単語wの状態列の中で尤度が最大となる状態の位置、θpはその状態位置に対する閾値である。このθpは実験的に適当な値を決める。また、L’(w,i,T)は、その絶対値が、話者や音声の発声環境に対して安定した評価値とはならないため、HMMネットワーク全体の中での最大尤度であるL’g max(T)により補正した値△L(w)を評価値として求める。
【0030】
さらにまた、
【数5】
Figure 0003633254
は、△L(w)に対する閾値であり、それぞれ認識結果の候補としての受理判定、保留判定に使う。いずれも、実験的に適当な値を求める。
但し、
【数6】
Figure 0003633254
である。
【0031】
(5)尤度再設定
候補選択が終わると、次の音声入力に備えた尤度の再設定を行う。
ここでの尤度は、先頭の状態に確率「1」を与えるとともに、第2の候補群として選択された認識対象の単語の中で、最大尤度が得られていた状態系列の途中の状態Smax(w,T)(尤度ピーク位置の状態)にも、確率値「1」を与える。さらに、同じSmax(w,T)に対応する累積尤度に、そのSmax(w,T)での尤度を加算し、それ以外の状態及び第2の候補群に属さない各単語内の全ての累積尤度は「0」に再設定する。
【0032】
また、Smax(w,T)に対応する累積フレーム数以外の累積フレーム数も「0」に再設定する。
すなわち、
【数7】
Figure 0003633254
こうした尤度の再設定により、再度、音声区間を検出した際に、第2の候補群に対して、その途中から照合を再開することができる。
以降、上述の「(2)区間検出」から「(5)尤度再設定」を繰り返しながら、「(4)候補選択およびリジェクト」で受理された認識結果は随時出力する。
【0033】
次の例では、先の例で示した基本アルゴリズムを、音節単位発声単語の音声認識に適用する場合の問題点を挙げ、その対策案を説明する。
すなわち、上述の累積尤度技術では、単音節のような認識対象単語の部分的な発声を、単語モデルの標準パターンで無理矢理に照合しようとするため、認識単位モデル(音節モデル、半音節モデル、音素片モデル等)によっては照合で不整合が起きるため、認識率が悪くなる。
以下、この問題点について詳しく説明する。
尚、ここでは、認識単位モデルとして音素片モデルを採用しており、本モデルでもその不具合が起きる。
【0034】
音素片モデルは、音声を、子音定常部(Cモデル)、母音定常部(Vモデル)、遷移部(CVモデル、VCモデル、VVモデル)に分けて、モデル化している。
音素片モデルで音節発声の認識をするのであれば、本来、以下のようなモデルを標準パターンとして用意すべきである。
「すずき」という単語を例に挙げると、
「す」の発声に対して、「*s su u*
「ず」の発声に対して、「*z zu u*
「き」の発声に対して、「*k ki i*
【0035】
しかし、単語発声を認識するための次のような標準パターンを使っている。
*s su (uz) zu (uk) ki i*
ここで、「*」部分は無音部との境界を示しているが、前に示した音節単位の場合と比較してわかるように、括弧()を付けた部分が異なっており、この部分で照合に不整合が生じ、その結果、尤度が抑えられてしまう。
【0036】
以下、第1の改良に係わる技術、すなわち、「継続時の定数ボーナス尤度加算による尤度補正」を説明する。
上述の問題点を解消するために、本例では、保留候補に対して、累積尤度Lsを更新する時点で、定数ボーナス尤度(Lbonus)を加算することを考える。
【0037】
すなわち、前記「数7」における(a)式を、
Ls(w,Smax(w,T))←Ls(w,Smax(w,T))+L(w,Smax(w,T),T)+Lbonus
とする。
これにより、照合不具合による尤度の減少をある程度補正でき、認識率の改善が期待できる。
【0038】
第2の改良に係わる技術、すなわち、「継続時の累積フレ−ム数で重み付けしたボーナス尤度加算による尤度補正」を説明する。
結果判定部5において、入力フレーム長がより長い単語を優先させることを考える。そのため、累積尤度Lsの更新時に、累積フレーム数Fsに比例したボーナス尤度を加算することを考える。
【0039】
すなわち、
Ls(w,Smax(w,T))←Ls(w,Smax(w,T))+L(w,Smax(w,T),T)+Fs(w,Smax(w,T),T)×Lbonus
とする。
これにより、過去の入力フレーム長が長い単語が優先的に候補に挙がるようになり、全体的に認識率の向上が期待できる。
【0040】
次の例では、先の基本アルゴリズムを、単語単位発声文音声認識に適用する場合について説明する。
本例の累積尤度技術は、上述の音節単位発声単語音声認識の揚合と全く同様にして、単語の組み合わせからなる文音声の認識に対して適用できる。
これにより、住所をタスクとした場合に、「東京都国分寺市東恋ヶ窪」という連続発声、「東京都国分寺市(ポーズ)東恋ヶ窪」という発声、さらに、ポーズの入った「東京都(ポーズ)国分寺市(ポーズ)東恋ヶ窪」という発声の、いずれの場合でも認識できる音声認識システムが実現できる。
【0041】
以上、説明したように、図1における構成の音声認識システムでは、音声は入力部1により取り込まれ、音声分析部2により一定時間幅(分析幅)の音声データが分析され特徴ベクトルに変換される。一定時間間隔(分析周期)毎の特徴ベクトルはその時系列データとして得られる。そして、音声区間検出部3では、特徴ベクトル内の例えばパワー情報を用いて音声区間か否かの判定をし、照合部4では、音声区間か否かの結果と、特徴ベクトルの情報を用い、音声区間内の間であれば照合処理を行い、音声区間が終了すれば、その時点での照合状況を判定部5に出力する。判定部5では、照合部4から出力され照合結果の状況を基に認識結果を出力、あるいは、その判定情報を照合部にフィードバックする。
【0042】
次に、図1における音声認識システムの詳細構成を説明する。
図2は、図1における音声認識システムの詳細な構成例を示すブロック図である。
本図2において、21は音声をアナログ信号に変換するマイク、22はCPU(Central Processing Unit)やメインメモリを具備して蓄積プログラム方式のコンピュータ処理により本発明に係わる音声認識を行う情報処理装置、23はCRT(Cathode Ray Tube)等からなる表示装置、24はキーボード等からなる入力装置、25は本発明に係わる音声認識用プログラムを記録した光ディスク(図中、「OM」と記載)、26は光ディスク25の読み取りを行う光ディスク駆動装置(図中、「OM駆動装置」と記載)、27はハードディスク装置等からなる外部記憶装置である。
【0043】
情報処理装置22に、光ディスク25に記録された音声認識用プログラムを光ディスク駆動装置26を介して読み込むことにより、図1における音声入力部1、音声分析部2、音声区間検出部3、照合部4、および、判定部5からなる本発明に係わる音声認識システムが構築されている。
本例では、さらに、照合部4に、複数の標準パターン毎に、各標準パターンの先頭から末尾を含む任意の位置までの部分で、尤度が最大の位置(尤度ピーク位置)、および、この最大の尤度(部分照合尤度)を求めるピーク特定部4aと、複数の標準パターン毎に求めた各部分照合尤度から最大の尤度(最大尤度)を求める最大尤度特定部4bとを設けている。
【0044】
そして、判定部5には、照合部4で求めた尤度ピーク位置が標準パターンの末尾から所定の閾値内にあり、かつ、部分照合尤度と最大尤度との差が所定値内の標準パターンを抽出し、この抽出した標準パターンから、部分照合尤度が大きい上位N(N=1,2,・・・)個の標準パターンを選択し、この選択した標準パターンに対応付けられた言語情報を第1の候補として特定する第1候補選択部5aと、照合部4で求めた尤度ピーク位置が標準パターンの末尾から所定の閾値外にあり、かつ、部分照合尤度と最大尤度との差が所定値内の標準パターンを抽出し、この抽出した標準パターンから、部分照合尤度が大きい上位M(M=1,2,・・・)個の標準パターンを選択し、この選択した標準パターンに対応付けられた言語情報を第2の候補として特定する第2候補選択部5bとを設けている
【0045】
このような構成により、本例の音声認識システムは、音声区間のそれぞれで、先頭から末尾を含む任意の位置までの部分(先頭部分)が判定部5で音声に対応すると判定された標準パターンを、尤度が上位のものに絞って抽出すると共に、複数の音声区間に渡って、先頭部分およびこの先頭部分以降の各途中部分が判定部5で音声に対応すると判定された標準パターンを、尤度が上位のものに絞って抽出し、このようにして抽出した標準パターンを第2の候補として出力し、さらに、第2の候補の標準パターンの内、任意の位置が末尾から所定値内のものを抽出して第1の候補として出力する。
【0046】
すなわち、音声区間検出部3で判定した次の音声区間の特徴ベクトルの時系列パターンに対して、ピーク特定部4aと最大尤度特定部4bを具備した照合部4により、各標準パターンの先頭から末尾を含む任意の位置までの部分(通常部分)で尤度ピーク位置と部分照合尤度および最大尤度を求めると共に、判定部5の第2候補選択部5bで第2の候補として特定された言語情報に対応付けられた標準パターンの尤度ピーク位置から末尾を含む任意の位置までの部分(優先部分)でも新たな尤度ピーク位置と部分照合尤度および最大尤度を求める。
【0047】
さらに、第1の候補選択部5aと第2の候補選択部5bを具備した判別部5により、通常部分および優先部分での尤度ピーク位置と部分照合尤度および最大尤度に基づく第1の候補と第2の候補の特定を行う。
そして、音声入力部1で取り込んだ音声から音声区間検出部3で順次に判定する各音声区間の特徴ベクトルの時系列パターンに対して、照合部4による尤度ピーク位置と部分照合尤度および最大尤度の取得と、判別部5による第1の候補および第2の候補の特定とを繰り返し行い、第1の候補の言語情報および第2の候補の言語情報を表示部6を介して表示装置23の画面上に表示出力する。
尚、表示部6は表示装置23の画面上に、後述の図8、図10で示すように、判別部5で特定された第1の候補の言語情報と第2の候補の言語情報とをそれぞれ識別可能に表示する。
【0048】
また、本例の音声認識システムでは、認識結果確定部22aを具備しており、この認識結果確定部22aでは、複数の単語からなる言語情報が予め対応付けられた標準パターンを用いる場合、音声区間検出部3で音声の終端を検出した時点で、照合部4のピーク特定部4aで特定した尤度ピーク位置が、単語の途中にあれば、この単語以前の部分を認識結果として確定し、さらに、音声区間検出部3で次の音声の始端を検出すれば、尤度ピーク位置が途中にあった単語の先頭から新たな尤度ピーク位置と部分照合尤度および最大尤度を求める。
【0049】
これにより、複数の単語からなる言語情報単位での音声認識を行う場合、音声区間検出部3が音声の終端を検出した時点で、尤度ピーク位置が単語の途中にあれば、音声区間検出部3での次の音声の始端の検出時、単語の途中にあった尤度ピーク位置からのみでなく、この尤度ピーク位置が途中にあった単語の先頭からも、尤度ピーク位置と部分照合尤度および最大尤度を求める処理を行なうことができる。
【0050】
図3は、図1における音声認識システムの処理手順例を示すフローチャートである。
本例は、図1における照合部4における処理を中心に示したものであり、音声データが入力され続けている間の処理手順である。実際の装置では、この外側に認識開始あるいは認識終了を制御する手段が設けられ、音声データが入力されたり、されなかったりすることになる。
HMMネットワークの各状態は、基本的に3種類の値を照合の内部データとして保持しているものとする。図1の説明でも述べたように、1つ目は尤度、2つ目は累積尤度、3つ目は累積フレーム数である。
【0051】
認識開始時に、HMMネットワークの各状態の尤度などの内部データに初期値を設定しておく(ステップ301)。例えば、認識対象を表す先頭の状態に尤度として確率値「1」、途中の状態に確率値「0」等を設定する。また、全ての状態に対する累積尤度と累積フレーム数には「0」を設定する。音声データが入力され始めると、入力されたデータは、ある時間(フレーム)間隔毎に音響分析される(ステップ303)。
【0052】
その結果の一部から音声区間かどうかを判定し(ステップ304)、基本的には、音声区間内であれば認識対象に対する尤度計算を実行(ステップ305)してから次フレームの音響分析へ進み、音声区間外であれば何もせずに次フレームの音響分析へと進む。ここで、音声区間の終端を検出すると、その時点でのHMMネットワーク内の状態の尤度に基づく候補選択(ステップ306)へと進む。
【0053】
尤度計算(ステップ305)においては、基本的にビタビアルゴリズムにより状態間の尤度更新を行うものとする。すなわち、ある状態Sへ複数の遷移がつながっているとき、それらの遷移間で伝搬する尤度が最大である遷移を選択し、その遷移の元の状態の前フレームにおける尤度にその遷移の尤度を加算して、状態Sの現在のフレームの尤度とする。
本例においては、さらに、ビタビアルゴリズムにより選択された遷移に沿って累積尤度をそのまま次状態へ伝搬させるとともに、累積フレーム数を1加算して次状態に伝搬させる。
【0054】
候補選択(ステップ306)では、候補として、第1の候補群と第2の候補群を選択する。第1の候補群とは、この時点までに入力された音声データが、認識対象(単語、文節、文等)として非常に尤もらしい上位N個の候補の集まりである。具体的には、その認識対象を表現しているHMMネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度最大の状態の位置(尤度ピーク位置)が状態系列の終端付近にある場合に、その認識対象を第1の候補群とする。
【0055】
一方、第2の候補群とは、この時点までに入力された音声データが、認識対象(単語、文節、文等)の先頭の一部分らしい上位M個の候補の集まりである。具体的には、その認識対象を表現しているHMMネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度ピーク位置が状態系列の終端付近に到達せず、途中にある場合に、その認識対象を第2の候補群とする。
NおよびMの値は、尤度の大きい順に選択する際の個数として決めても良いし、一番尤度の大きいものからある一定の尤度差内にある候補数と見なしても良い。
【0056】
候補選択が終わると、次の音声入力に備えた尤度の再設定を行う(ステップ307)。ここでの尤度は先頭の状態に確率値「1」を与えるとともに、第2の候補群として選択された認識対象の中で最大尤度が得られていた、状態系列の途中の状態(尤度ピーク位置の状態)にも、確率値「1」を与える。さらに、この尤度の再設定では、第2の候補群に属する各候補に対応する尤度ピーク位置の状態に対応する累積尤度に、その尤度ピーク位置での尤度を加算し、第2の候補群に属さない各候補の累積尤度は「0」に再設定する。また、第2の候補群に属する各候補に対応する尤度ピーク位置以外の累積フレーム数も「0」に再設定する。
【0057】
こうした尤度の再設定により、再度音声区間を検出した際に、第2の候補群に対して途中から照合を再開することができる。
さらに、累積尤度と累積フレーム数を保持し利用することにより、過去に分割されて入力された音声全体に対する各単語の単語尤度も次の式により求めることができる。
単語尤度=累積尤度/累積フレーム数
尚、前述のステップ306の「候補選択」の処理において、普通の尤度(ある一固まりの音声に対する尤度)の代わりにこの単語尤度を使っても良い。
【0058】
次に、分割されて入力された音声に対する照合の様子を図4〜図7に示すトレリスを用いて説明する。
ここで、トレリスとは状態遷移の様子を状態の並びとフレーム(時間)の2次元に表現した図である。図4〜図7に、ある単語に対するトレリスを示す。縦軸が状態、横軸がフレームである。また、図中○が状態を表し、状態間の矢印が遷移を表している。
【0059】
図4は、初期状態のトレリスの例を示す説明図である。
初期状態では、先頭の状態のみに最大尤度を設定し(例えば「1」を与える。図中黒丸で示している)、他は最小尤度(例えば「0」)を設定する。
図5は、数フレーム分の音声入力があり一旦音声の終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
図中のグレー(網かけ模様)の丸は、この時点での尤度最大の状態を表している。例えば、「まつ」という認識対象に対して「ま」とだけ発声した場合、あるいは、「東京都国分寺市」という認識対象に対して「東京都」とだけ発声した場合に相当する。
【0060】
図6は、図5の状態に最大尤度を再設定して次の音声入力に備えた段階のレトリスの状態の例を示す説明図である。
本図6では、同時に単語の先頭に対しても最大尤度を設定している。このように2箇所に初期尤度を再設定することにより、単語の先頭からの再入力にも、単語の途中からの継続的な音声入力にも対応できることになる。
【0061】
図7は、図6の段階に再度音声入力があり数フレーム分の音声入力後に音声終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
本例では、途中からの継続的な音声入力があり、単語途中の状態からによりマッチし、最大尤度の状態が単語の最終状態となった例を示している。例えば、「まつ」の「つ」、あるいは、「東京都国分寺市」の「国分寺市」を発声した場合に相当する。
【0062】
尚、図4から図7までの説明では、状態の並びを単語と仮定して説明したが、単語を文節、あるいは文に置き換えても同様なことが言える。また、図4から図7の説明では、2つに分割された音声が単語とマッチした例を示したが、3つ以上に分割された音声に対しても同様なことが言える。その結果、「東京都国分寺市恋ヶ窪」という状態列(標準パターン)に対して、「東京都」「国分寺市東恋ヶ窪」と2分割された音声も、「東京都」「国分寺市」「恋ヶ窪」と3分割された音声も正しく認識することができる。
【0063】
また、「がっこう」をゆっくり発声した場合に「が」と「こう」に分離してしまう場合にも対応できることがわかる。
一般的な区間検出処理では、終端候補が検出されてから、再度音声が検出されないで終端候補を終端として確定するまでの待ち時間を設けている。すなわち、従来の技術では、「がっこう」のように促音(「っ」)を含む発声が語彙に含まれている場合に、「が」と「こう」に分離されてしまわないように、例えば300ミリ秒程度の待ち時間を設けている。
【0064】
しかし、ある程度ゆっくり発声した「がっ・こう」もうまく検出して認識できるようにするためには、この待ち時間をもっと長めに設定しておく必要がある。ところが、この据置時間はユーザが音声を発声し終わってから結果を表示するまでの応答時間に含まれているため、結果的には応答が遅くなってしまっていた。しかし、本例の音声認識システムによれば、この待ち時間を設定する必要がなく、結果的に応答時間も語彙によらず一定して早くすることができる。
【0065】
ここまでの説明では、第2の候補群がキャンセルされることを特に考慮していない。しかし、いくら分割して発声するとしても10秒間も間にポーズを取ることはほとんどあり得ないと考えられる。そこで、第2の候補群を場合によってキャンセルすることも考えられる。例えば、音声の終端検出後、5秒間音声入力がない場合は第2の候補群を全てキャンセルするようにすれば良い。
【0066】
図8は、図1における音声認識システムの認識処理結果の表示出力例を示す説明図である。
本例は、図1の表示部6により出力された認識結果等の表示例を示し、第1の候補群と第2の候補群を別々の表示領域に表示した例である。
図8(a)は、「ま」と入力された場合の表示例、図8(b)はその後に「つ」と入力された場合の表示例を示している。
【0067】
図8(b)においては、第1の候補群には、「まつ」と表示され、第2の候補群には「まつ」を含む候補群、および「つ」で始まる候補群(図中では「つちや」)が表示されている。
図8(c)は、図8(b)の後で「い」が入力された場合の表示例である。このとき第1の候補群では、図8(b)における「まつ」が消され、「まつい」が表示される。また、第2の候補群には、「い」で始まる候補(図中では「いしい」「いとう」他)が表示される。
【0068】
もし、「ま」と「つ」を連続的に発声する「まつ」が入力されると、図8(b)において第2の候補群の「つちや」が抜けた表示となる。
また、第1の候補群、あるいは、第2の候補群として、音響的に類似の単語が、次候補や次々候補として挙がった場合には、それらも同時に表示される可能もある。例えば、もし「ますい」が認識対象語彙に含まれていたとすると、図8(b)の時点で、第2の候補群に「ますい」も含めて表示され、図8(c)の時点では、第1の候補群に「まつい」と「ますい」が表示されることもあり得る。この時、尤度が高い方が先(上位)に表示されるものとする。
【0069】
さらに、図8(a)〜図8(c)それぞれの状況において、ある一定時間音声の再入力がない場合、第2の候補群は削除され、第1の候補群を認識結果として確定するようにもできる。例えば、図8(b)の時点でしばらく音声の再入力を行わないと、第2の候補群は全て取り消され、「まつ」が確定されるようにできる。
以下、このような動作を行なう音声認識システムに関して次の図9を用いて説明する。
【0070】
図9は、本発明の音声認識システムの本発明に係る構成の第2の実施例を示すブロック図である。
本例は、図1における音声認識システムに、時間測定部8を設けた構成であり、時間測定部8は、音声区間検出部3で音声の終端を検出してからの経過時間を測定する。そして、音声区間検出部3が次の音声区間の始端を検出するまでに、時間測定部8で測定している時間が所定値(例えば5秒)を超えた場合、第2の候補群は全て取り消す。
【0071】
また、時間測定部8は、表示部6が第1の候補群を表示してからの経過時間を測定しており、音声区間検出部3が次の音声区間の始端を検出するまでに、時間測定部8で測定している時間が所定値を超えた場合、表示部6が表示している第1の候補群を、音声区間検出部3で判定した音声区間における認識結果として確定する。
【0072】
図10は、図1における音声認識システムの認識処理結果の他の表示出力例を示す説明図である。
本例では、第2の候補群に網掛けをし、同じ表示領域内で、第1の候補群と識別できるように表示している。
【0073】
次に、本実施例の音声認識システムにおける、音節単位発声による単語音声認識実験結果を説明する。
本実験では、人名100語を認識タスクとして、本例の音声認識システムにおける累積尤度技術の効果を調べた。使用した音声資料および分析条件は、下記表1および表2の通りである。
【表1】
Figure 0003633254
【表2】
Figure 0003633254
また、使用したHMMは、分布を256で量子化した半連続型HMMで、2状態3混合の音素片モデル387種類からなる。
【0074】
図11は、本実施例の音声認識システムにおける音節単位発声による単語音声認識実験結果例を示す説明図である。
本例は、定数ボーナス(Lbonus)の加算による尤度補正を含んだ累積尤度法による評価結果を示すものであり、ボーナス尤度をパラメータとした結果である。
θp、および、
【数8】
Figure 0003633254
も認識性能に影響するパラメータであるが、今回は最適に近くなるような値として、θp=単語の先頭から70%の位置、
および、
【数9】
Figure 0003633254
に固定した。
【0075】
また、本例において、評価単語途中までの音節が入力された段階で誤った単語を受理してしまった場合を誤受理とし、途中誤受理率を以下の通り定義する。理想的には、「0%」になるべき評価指標である。
途中誤受理率
=評価単語途中での単語受理誤り総数÷評価単語途中の入力音声(音節)総数
【0076】
本例において、ボーナス尤度が「0」の場合が尤度補正なし(改良前)に相当するが、従来認識できなかったデータ(単語認識率0%)に対して認識率29%が得られた。さらに、ボーナス尤度の値を「90,000」付近に設定すると最も高い認識率(67%)が得られている。
尚、誤受理に関しては、例えば、「わ」「た」「な」「べ」という発声の途中で認識結果として、「わだ」が受理されてしまったり、あるいは、「し」だけで「いしい」が受理されてしまうというような現象があったが、ボーナス尤度()の途中誤受理率に対する影響はほとんどないといえる。
【0077】
図12は、本実施例の音声認識システムにおける音節単位発声による他の単語音声認識実験結果例を示す説明図である。
本例は、累積フレーム数で重み付けしたボーナス尤度(Fs(w,Smax(w,T),T)×Lbonus)の加算による尤度補正の結果を示すものである。
図11における例の場合と比較すると、誤受理率はほとんど変わらず、認識率が改善されている(最高で、71%)。
【0078】
以上、図1〜図12を用いて説明したように、本実施例の音声認識システムでは、結果判定部5から照合部4へのフィードバックパスを設け、照合部4において、結果判定部5からフィードバックされる判定結果に基づき暫定的な候補をある時間蓄えておき、単語あるいは文の途中から照合処理を継続する。これにより、例えば、単語音声認識において、単語単位の標準パターンは変更しなくとも、照合の内部データを一部保持することにより、従来全く認識不可能であった音節単位で区切って発声される単語音声、すなわち、ポーズで分割された音節単位発声の単語音声もある程度正しく認識でき、また、一息では言いづらい長い単語の音声認識が可能となる。
このように、音声認識のロバスト性(頑健性)を高めることができ、発声の制約がなくなるとともに、認識結果の応答時間も語彙によらず早くでき、その結果使い勝手が非常に向上し、実用化の際に非常に有効となる。
【0079】
尚、本発明は、図1〜図12を用いて説明した実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本発明の別な実施例として、「東京都国分寺市東恋ヶ窪」という登録単語に対して、音声入力がまだ全くない初期状態で「国分寺」部分の先頭の状態に初期(最大)尤度を与えておくことにより、「国分寺市」「恋ヶ窪」という途中からあるいは部分的な音声の受理も可能となる。この応用として、先頭の音節が無声化しやすい単語(「きらむら」等)の場合に、2番目以降の音節に相当するHMMの状態に初期尤度を与えることで、無声化による発声変形にある程度対処可能になる。
【0080】
また、第1の候補群の確定や、第2の候補群の削除に関しては、図9で示した時間測定部8による時間経過に伴う処理以外に、例えば、マウス入力や、キー入力、あるいはボタン入力等を介して、利用者の意志によって実行させるような構成とすることでも良い。
【0081】
【発明の効果】
本発明によれば、音声認識のロバスト性(頑健性)を高めることができ、認識対象の音声の発声の仕方の制約をなくし、前提としない発声であっても正しく認識でき、発声側の負荷が軽減し、かつ、認識性能が向上し、音声認識システムの使い勝手を良くすることが可能である。
【図面の簡単な説明】
【図1】本発明の音声認識システムの本発明に係る構成の第1の実施例を示すブロック図である。
【図2】図1における音声認識システムの詳細な構成例を示すブロック図である。
【図3】図1における音声認識システムの処理手順例を示すフローチャートである。
【図4】初期状態のトレリスの例を示す説明図である。
【図5】数フレーム分の音声入力があり一旦音声の終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
【図6】図5の状態に最大尤度を再設定して次の音声入力に備えた段階のレトリスの状態の例を示す説明図である。
【図7】図6の段階に再度音声入力があり数フレーム分の音声入力後に音声終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
【図8】図1における音声認識システムの認識処理結果の表示出力例を示す説明図である。
【図9】本発明の音声認識システムの本発明に係る構成の第2の実施例を示すブロック図である。
【図10】図1における音声認識システムの認識処理結果の他の表示出力例を示す説明図である。
【図11】本実施例の音声認識システムにおける音節単位発声による単語音声認識実験結果例を示す説明図である。
【図12】本実施例の音声認識システムにおける音節単位発声による他の単語音声認識実験結果例を示す説明図である。
【図13】従来の離散単語発声を対象とする音声認識システムの構成例を示すブロック図である。
【符号の説明】
1:音声入力部、2:音声分析部、3:音声区間検出部、4:照合部、4a:ピーク特定部、4b:最大尤度特定部、5:判定部、5a:第1候補選択部、5b:第2候補選択部、6:表示部、7:フィードバックパス、8:時間測定部、21:マイク、22:情報処理装置、22a:認識結果確定部、23:表示装置、24:入力装置、25:光ディスク、26:光ディスク駆動装置、27:外部記憶装置、31:音声入力部、32:音声分析部、33:音声区間検出部、34:照合部、35:結果判定部、36:表示部。

Claims (5)

  1. 音声をA/D変換して取り込む音声入力手段と、該音声入力手段で取り込んだ音声を所定の間隔(フレーム)毎に音響分析して特徴ベクトルの時系列パターンを求める音声分析手段と、該音声分析手段で求めた上記特徴ベクトルの時系列パターンから、音声の始端および終端を検出して音声区間を判定する音声区間検出手段と、該音声区間検出手段で判定した音声区間の上記特徴ベクトルの時系列パターンに対して、予め作成された複数の標準パターンとのそれぞれの尤度を取得する照合手段と、該照合手段で取得した尤度に基づき、上記音声入力手段で取り込んだ音声に対応する上記標準パターンおよび該標準パターンに予め対応付けられた言語情報を判定する判定手段と、該判定手段で判定した言語情報を出力する出力手段とからなる音声認識システムであって、
    先頭から末尾を含む任意の位置までの部分(先頭部分)が上記判定手段で上記音声に対応すると判定された上記標準パターンを抽出して上記照合手段に渡すフィードバック手段を設け、
    上記照合手段は、上記音声区間のそれぞれで、上記先頭部分での尤度と共に、上記フィードバック手段から渡された標準パターンの上記先頭部分の後からの部分(途中部分)での尤度を求め、
    上記判定手段は、上記途中部分での尤度を優先して、上記音声に対応する標準パターンを判定し、
    上記途中部分での尤度を優先して判定された標準パターンを、上記フィードバック手段を介して上記照合手段に渡し、上記照合手段と上記判定手段および上記フィードバック手段による処理を複数の上記音声区間に渡って繰り返し、
    複数の上記音声区間に渡って上記音声に最適に対応する標準パターンを特定することを特徴とする音声認識システム。
  2. 音声をA/D変換して取り込む音声入力手段と、
    該音声入力手段で取り込んだ音声を所定の間隔(フレーム)毎に音響分析して特徴ベクトルの時系列パターンを求める音声分析手段と、
    該音声分析手段で求めた上記特徴ベクトルの時系列パターンから、音声の始端および終端を検出して音声区間を判定する音声区間検出手段と、
    該音声区間検出手段で判定した音声区間の上記特徴ベクトルの時系列パターンに対して、予め作成された複数の標準パターンとのそれぞれの尤度を求める照合手段と、
    該照合手段で求めた尤度に基づき、上記音声入力手段で取り込んだ音声に対応する上記標準パターンおよび該標準パターンに予め対応付けられた言語情報を判定する判定手段と、
    該判定手段で判定した言語情報を出力する出力手段とからなる音声認識システムであって、
    上記照合手段は、
    上記判定手段で上記音声に対応すると判定された複数の標準パターン毎に、各標準パターンの先頭から末尾を含む任意の位置までの部分で、上記尤度が最大の位置(尤度ピーク位置)および該最大の尤度(部分照合尤度)を求める手段と、上記複数の標準パターン毎に求めた各部分照合尤度から最大の尤度(最大尤度)を求める手段を有し、
    上記判定手段は、
    該照合手段で求めた尤度ピーク位置が上記標準パターンの末尾から所定の閾値内にあり、かつ、上記部分照合尤度と上記最大尤度との差が所定値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位N(N=1,2,・・・)個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第1の候補とする手段と、該照合手段で求めた尤度ピーク位置が上記標準パターンの末尾から上記所定の閾値外にあり、かつ、上記部分照合尤度と上記最大尤度との差が予め定められた値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位M(M=1,2,・・・)個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第2の候補として特定する手段を有し、
    上記第1の候補および第2の候補について上記照合手段と上記判定手段の処理を繰り返すことを特徴とする音声認識システム。
  3. コンピュータに、音声をA/D変換して取り込む第1の手順と、該第1の手順で取り込んだ音声を所定の間隔(フレーム)毎に音響分析して特徴ベクトルの時系列パターンを求める第2の手順と、該第2の手順で求めた上記特徴ベクトルの時系列パターンから、音声の始端および終端を検出して音声区間を判定する第3の手順と、該第3の手順で判定した音声区間の上記特徴ベクトルの時系列パターンに対して、予め作成された複数の標準パターンとのそれぞれの尤度を求める第4の手順と、該第4の手順で求めた尤度に基づき、上記第1の手順で取り込んだ音声に対応する上記標準パターンおよび該標準パターンに予め対応付けられた言語情報を判定する第5の手順と、該第5の手順で判定した言語情報を出力する第6の手順とに基づく音声認識を実行させるプログラムを記録した記録媒体であって、
    上記第4の手順は、上記複数の標準パターン毎に、各標準パターンの先頭から末尾を含む任意の位置までの部分で、上記尤度が最大の位置(尤度ピーク位置)および該最大の尤度(部分照合尤度)を求める第7の手順と、上記複数の標準パターン毎に求めた各部分照合尤度から最大の尤度(最大尤度)を求める第8の手順とを含み、
    上記第5の手順は、上記第4の手順で求めた尤度ピーク位置が上記標準パターンの末尾から所定の閾値内にあり、かつ、上記部分照合尤度と上記最大尤度との差が所定値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位N(N=1,2,・・・)個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第1の候補として特定する第9の手順と、上記第4の手順で求めた尤度ピーク位置が上記標準パターンの末尾から上記所定の閾値外にあり、かつ、上記部分照合尤度と上記最大尤度との差が予め定められた値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位M(M=1,2,・・・)個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第2の候補として特定する第10の手順とを含み、
    上記コンピュータに、
    上記第3の手順で判定した次の音声区間の上記特徴ベクトルの時系列パターンに対して、
    上記第4の手順における上記第7の手順と上記第8の手順により、上記各標準パターンの先頭から末尾を含む任意の位置までの部分(通常部分)で上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求めさせると共に、上記第10の手順で第2の候補として特定された言語情報に対応付けられた上記標準パターンの上記尤度ピーク位置から末尾を含む任意の位置までの部分(優先部分)でも上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求めさせ、
    上記第5の手順における上記第9の手順と上記第10の手順とにより、上記通常部分および上記優先部分での上記尤度ピーク位置と上記部分照合尤度および上記最大尤度に基づく上記第1の候補と上記第2の候補の特定を行なわせ、
    上記第1の手順で取り込んだ音声から上記第2の手順で順次に判定する各音声区間の上記特徴ベクトルの時系列パターンに対して、上記第4の手順による上記尤度ピーク位置と上記部分照合尤度および上記最大尤度の取得と、上記第5の手順による上記第1の候補および上記第2の候補の特定とを繰り返し行なわせ、上記第1の候補の上記言語情報および上記第2の候補の上記言語情報を上記第6の手順により出力させることにより、上記音声認識を実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
  4. 上記第6手順は、上記判別手段で特定された上記第1の候補の上記言語情報と上記第2の候補の上記言語情報とを、それぞれ識別可能に表示することを特徴とする請求項3に記載のコンピュータ読み取り可能な記録媒体。
  5. 上記音声認識は、複数の単語からなる上記言語情報が予め対応付けられた上記標準パターンを用いる場合、上記音声区間検出手段で上記音声の終端を検出した時点で、上記照合手段の上記ピーク特定手段で特定した上記尤度ピーク位置が上記単語の途中にあれば、該単語以前の部分を認識結果として確定する手順と、上記音声区間検出手段で次の音声の始端を検出すれば、上記尤度ピーク位置が途中にあった上記単語の先頭から上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求める手順とを有し、上記複数の単語からなる上記言語情報単位での音声認識を行う場合、上記音声区間検出手段で上記音声の終端を検出した時点で上記尤度ピーク位置が上記単語の途中にあれば、上記音声区間検出手段での次の音声の始端の検出時、上記単語の途中にあった上記尤度ピーク位置からのみでなく、該尤度ピーク位置が途中にあった単語の先頭からも、上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求めることを特徴とする請求項3、もしくは、請求項4のいずれかに記載のコンピュータ読み取り可能な記録媒体。
JP00543198A 1998-01-14 1998-01-14 音声認識システムおよびそのプログラムを記録した記録媒体 Expired - Fee Related JP3633254B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00543198A JP3633254B2 (ja) 1998-01-14 1998-01-14 音声認識システムおよびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00543198A JP3633254B2 (ja) 1998-01-14 1998-01-14 音声認識システムおよびそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPH11202895A JPH11202895A (ja) 1999-07-30
JP3633254B2 true JP3633254B2 (ja) 2005-03-30

Family

ID=11611013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00543198A Expired - Fee Related JP3633254B2 (ja) 1998-01-14 1998-01-14 音声認識システムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3633254B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2355833B (en) * 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
JP4486235B2 (ja) * 2000-08-31 2010-06-23 パイオニア株式会社 音声認識装置
JP4512417B2 (ja) * 2004-05-12 2010-07-28 株式会社エヌ・ティ・ティ・ドコモ 認識システム及び認識方法
US7941318B2 (en) 2007-10-01 2011-05-10 International Business Machines Corporation Public speaking self-evaluation tool
JP2015038526A (ja) * 2011-03-31 2015-02-26 株式会社東芝 音声処理装置、及び音声処理方法
JP6235280B2 (ja) 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
WO2018016143A1 (ja) * 2016-07-22 2018-01-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JPH11202895A (ja) 1999-07-30

Similar Documents

Publication Publication Date Title
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US7634401B2 (en) Speech recognition method for determining missing speech
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US20070038453A1 (en) Speech recognition system
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JPH09230885A (ja) パターン位置決定方法及び装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP3444108B2 (ja) 音声認識装置
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP2002189487A (ja) 音声認識装置および音声認識方法
JP2000250593A (ja) 話者認識装置及び方法
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH08241096A (ja) 音声認識方法
JPH09114482A (ja) 音声認識のための話者適応化方法
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
JP4236502B2 (ja) 音声認識装置
JP3277522B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees