JP2007206523A - 音声認識装置及び音声認識プログラム - Google Patents
音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP2007206523A JP2007206523A JP2006027173A JP2006027173A JP2007206523A JP 2007206523 A JP2007206523 A JP 2007206523A JP 2006027173 A JP2006027173 A JP 2006027173A JP 2006027173 A JP2006027173 A JP 2006027173A JP 2007206523 A JP2007206523 A JP 2007206523A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speech
- recognition result
- dictionary
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 1度目の発話に対する音声認識に失敗し、利用者が再発話を行った際の認識性能を向上させることにより、少ない発話回数で正しい音声認識結果を導き出す。
【解決手段】 音声認識装置100は、音声認識の対象となる単語が登録された認識単語リスト5、認識単語リストに基づいて音声と比較し評価するための言語辞書を作成する辞書作成部4、音声を言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識部2、生成された認識結果を出力する認識結果出力部6、出力した認識結果が正しいか否かを確認するための認識結果確認部7とを備え、辞書作成部4が認識結果確認部7により得られた情報に基づいて作成する言語辞書3の調整を、認識結果確認部7により誤認識と確認された認識結果の認識単語を除外することにより行う。
【選択図】図1
【解決手段】 音声認識装置100は、音声認識の対象となる単語が登録された認識単語リスト5、認識単語リストに基づいて音声と比較し評価するための言語辞書を作成する辞書作成部4、音声を言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識部2、生成された認識結果を出力する認識結果出力部6、出力した認識結果が正しいか否かを確認するための認識結果確認部7とを備え、辞書作成部4が認識結果確認部7により得られた情報に基づいて作成する言語辞書3の調整を、認識結果確認部7により誤認識と確認された認識結果の認識単語を除外することにより行う。
【選択図】図1
Description
本発明は、数字や単語、操作コマンドなどの認識対象となる語句を予め登録し、入力された音声に対して予め登録された語句との比較を行うことにより音声を認識する音声認識装置に関する。
音声認識装置は音声認識処理を行った結果が正しいか否かを音声認識装置自身で確認することができないため、音声認識結果を出力して音声認識装置を利用する者に正しい認識結果であるかどうかの確認を委ねることとなる。ここで音声認識結果が間違っていた場合は、正しい認識結果が得られるまで利用者は再度同じ内容の発話を繰り返すこととなる。
音声認識装置は無雑音や雑音の少ない環境においては高性能な認識結果を得ることができるが、実環境においては雑音や残響、利用者の発話様態の違いなど様々な影響を受けて認識性能が低下する。このため、利用者は上記の操作及び発話を繰り返してもなかなか正しい認識結果が得られない場合がある。
この問題を解決するために、利用者の発話が誤認識であると確認された場合、その誤認識結果を記憶しておき、次に利用者が再度同一の発話を行った際には、既に誤認識と判定されている認識結果を出力しないようにすることで、再発話の際の認識性能を向上させ、利用者の繰り返し動作の回数を低減させるものが知られている(例えば、特許文献1参照)。
特開平9−198087号公報
しかしながら特許文献1に記載されたものでは、再発話の際も認識対象の語句が同じであるため、再発話に対する認識結果が同一のものとなる可能性が高い。そのため、利用者が再発話を行っても正しい認識結果を得られない可能性がある。
本発明は上記事情に鑑みてなされたものであって、その目的は、1度目の発話に対する音声認識に失敗し、利用者が再発話を行った際の認識性能を向上させることにより、少ない発話回数で正しい音声認識結果を導き出せる音声認識装置及び音声認識プログラムを提供することにある。
本発明は、音声認識の対象となる単語が登録された認識単語リストと、認識単語リストに基づいて音声入力手段から入力された音声と比較し評価するための言語辞書を作成する辞書作成手段と、音声を言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識手段と、生成された認識結果が正しいか否かを外部からの指示に基づいて確認するための認識結果確認手段と、辞書作成手段が認識結果確認手段により得られた情報に基づいて作成する言語辞書の調整を認識結果確認手段により誤認識と確認された認識結果の認識単語を除外することにより行う音声認識装置である。
本発明によると、1度目の発話に対する音声認識に失敗し、利用者が再発話を行った際の認識性能を向上させることにより、少ない発話回数で正しい音声認識結果を導き出せる音声認識装置及び音声認識プログラムを提供できる。
以下、本発明の一実施の形態について図面を参照して説明する。
図1は音声認識装置100の構成を説明するための図である。図1に示すように、音声認識装置100は、音声入力部1、音声認識部2、言語辞書3、辞書作成部4、認識単語リスト5、認識結果出力部6、認識結果確認部7、調整単語リスト8を有している。
図1は音声認識装置100の構成を説明するための図である。図1に示すように、音声認識装置100は、音声入力部1、音声認識部2、言語辞書3、辞書作成部4、認識単語リスト5、認識結果出力部6、認識結果確認部7、調整単語リスト8を有している。
音声入力部1はマイクロホンなどにより利用者の音声を入力し、音声認識処理を行うためのデータに変換する。入力される音声は動作コマンド、数字、名詞などの単語発話音声である。言語辞書3と認識単語リスト5は音声認識の対象となる認識単語が登録された辞書である。音声認識部2は音声入力部1より入力された音声データに対して言語辞書3との比較を行うことにより利用者の発話内容を認識し、認識結果を認識結果出力部6に送る。
認識結果出力部6は音声認識部2より得られた音声認識結果の認識単語の1つまたは複数をディスプレイ(なお、スピーカでも良いし、ディスプレイ及びスピーカでも良い。)9へ、あるいはテキストデータなどの形で外部装置へ出力する。また、出力した内容は認識結果確認部7にも送信される。
認識結果確認部7はタッチパネル(又は押しボタンなどのスイッチでも良い。)10、あるいは音声などにより利用者からの入力を受け付けるものであり、認識結果出力部6が出力した音声認識結果が正解であったか否かを確認するためのものである。認識結果確認部7で確認された音声認識結果は辞書作成部4に送られる。
辞書作成部4は認識単語リスト5と調整単語リスト8から言語辞書3を作成する。また、辞書作成部4は認識結果確認部7より得られた音声認識結果を確認した情報に基づいて調整単語リスト8に認識単語の登録を行う。
図2は、音声認識部2が認識結果出力部6へ出力される認識結果の一例を示す図である。図2は、利用者が「2000円」と発話したときの認識結果を示している。図2に示されるように言語辞書3に登録された認識単語が1つまたは複数出力される。例えば利用者が「2000円」と発話した場合には、単語「にせんねん」、「せんえん」、「せんねん」が認識され、認識単語として認識結果出力部6へ出力される。この際、各々の認識単語には、音声認識処理の確からしさを示す認識スコアが付随しており、認識スコアが高い認識単語ほど入力音声の発話内容に近くなっている。また、複数の認識単語が出力される場合には、認識スコアより算出された順位のデータも出力される。さらに、認識単語には認識結果を利用者に表示するために用いる表示文字の情報も含まれている。例えば、認識単語「にせんねん」には表示文字の情報として「2000年」、認識単語「せんえん」には表示文字の情報として「1000円」、認識単語「せんねん」には表示文字の情報として「1000年」が含まれている。
図3は、調整単語リストの一例を示す図である。図3に示されるように、調整単語リスト8には認識単語と、その認識単語を言語辞書3から辞書作成部4を介して「削除」又は「追加」等の動作指定が記されている。どのようにして動作指定がなされるかは後述する。
音声認識装置100は、例えば、コンピュータであり、コンピュータの記憶部に各種制御プログラムを予め記憶させておき、コンピュータ内のCPUに制御プログラムを実行させることにより、上述した、音声入力部1の音声入力機能、音声認識部2の音声認識機能、言語辞書3の辞書を作成する機能、辞書作成部4の図4を参照して以下で説明する辞書作成調整機能、認識単語リスト5に単語等を登録する機能、認識結果出力部6の認識結果出力機能、認識結果確認部7の認識結果確認機能、調整単語リスト8に単語等を登録する機能を実現させるようになっている。
図4は音声認識装置100の処理の流れを示すフローチャートである。
図4に示されるように、音声認識装置100の音声認識処理は利用者の発話が音声入力部1に入力されることによって開始される(S1)。利用者の発話の入力が行われると、この入力音声に対して音声認識処理が行われる(S2)。音声認識処理の結果得られる認識結果は上述した図2に示されるように、認識単語(表示文字の情報を含む)、認識スコア、認識スコアより算出された順位から構成されている。
図4に示されるように、音声認識装置100の音声認識処理は利用者の発話が音声入力部1に入力されることによって開始される(S1)。利用者の発話の入力が行われると、この入力音声に対して音声認識処理が行われる(S2)。音声認識処理の結果得られる認識結果は上述した図2に示されるように、認識単語(表示文字の情報を含む)、認識スコア、認識スコアより算出された順位から構成されている。
次に、音声認識結果が正解であったか否かを確認するために、音声認識結果を出力するようにディスプレイ9に指示を出力する(S3)。音声認識結果出力はディスプレイ9に文字で表示する。なお、音声合成装置などを利用して認識単語をスピーカで音として出力するようにしても良い。また、出力する認識単語は認識結果の全ての認識単語を出力せずに、認識スコアの上位2位までといったように認識結果の一部としても良い。
この出力された認識単語が正解であるか否かについて利用者によってタッチパネル10を用いて音声認識装置100に入力される。この入力を検知した音声認識装置100は認識単語が正解であるか否かについて認識結果確認部7にて確認する(S4)。認識単語が正解であるか否かの入力としては、タッチパネル10の入力に代えて、押しボタンなどのスイッチを用いて入力するようにしても良いし、各種センサーや音声を用いても良い。
認識結果が正解であるか否かの確認が行われたのならば、その確認内容に従って処理は分岐する。ここで認識結果が正解であった場合には(S4でY)、ステップS8へ進み、認識結果が正解でなかった場合、すなわち、間違いであった場合には(S4でN)、ステップS5に進む。
ステップS5乃至ステップS7では、利用者によって出力した認識結果が間違いであった旨を示す外部からの指示が確認された際に行われる辞書作成部4での処理であり、ステップS5ではここでは利用者に認識単語が正解であるか否かを確認させるために出力した認識単語を調整単語リスト8に登録する。例えば、利用者の「2000円」という発話に対し誤認識を起こした場合を考える。例えば認識結果が上記図2に示される内容であった場合、調整単語リスト8bには図5に示すように誤認識した認識単語「にせんねん」、「せんえん」、「せんねん」とその動作が「削除」と指定されて登録される。
次に認識結果の認識単語に関連する認識単語について調整単語リスト8に登録を行う(S6)。ここで、例えば利用者の発話に対する認識結果が上記図2に示される内容であり、ディスプレイ9に出力した認識結果が図6に示す内容であった場合を考える。図6に示される認識結果9aの中に表示文字「1000円」が含まれるが、この表示文字「1000円」については利用者が複数の発話を行うことを想定し、複数の認識単語を予め認識単語リスト5に登録しておく。図7は、認識単語リスト5内の一の表示文字に対して複数の認識単語が登録されているリストの一例を示す図である。図7のリスト5bに示されるように、表示文字「1000円」には、認識単語として「せんえん」と「せーえん」の2つの認識単語が登録されている。そこで今回誤認識を起こした「せんえん」に関わる認識単語として「せーえん」を、上記図5を参照して説明した調整単語リスト8bに動作を「削除」と設定して登録を行う。図8は、認識単語「せーえん」が調整単語リスト8bに追加登録されたときの調整単語リスト8cを示す図である。
また、認識結果の認識単語の組み合わせによって調整単語リスト8に登録を行うこともできる。例えば、認識単語リスト5内に認識単語に対する認識分野が事前に設定されている場合である。図9は、認識単語に認識分野が設定されている場合に、利用者により「2000円」が発話されたときに認識された認識単語を示すリスト5cである。図9に示すように、リスト5cには、認識単語「にせんねん」、「せんえん」、「せんねん」のように数字を示す認識単語には、認識分野として「数字」が、認識単語「みせうり」のように店舗運営を示す認識単語には、認識分野として「店舗運営」が設定されている。今回の誤認識結果の認識単語の組み合わせから、認識された認識単語の認識分野が略「数字」の分野であるため、認識分野を数字として限定を行うことができる。そこで、「みせうり」の認識分野は「店舗運営」であり、「数字」ではないため、上記図8を参照して説明した調整単語リスト8cに認識単語「みせうり」は、動作を「削除」として登録を行う。なお認識分野については音韻的な類似度により分類されている方が望ましい。
さらに、認識結果に基づいて調整単語リスト8に追加として登録することもできる。例えば、「1000円」という単語は「せんえん」という読みの他に「せんいぇん」という読みを登録していない場合は良好な音声認識結果が得られないことがある。しかしながら多数の語句を認識語句として登録すると今度は逆に雑音や別の発話単語に対して誤認識してしまうこととなる。そこで上述の場合と同様に、先ず、認識分野を限定し、その限定した認識分野に特化した認識単語を追加することにより効率良く認識が行うようにする。例えば、今回の認識結果が図2に示される内容であった場合を考える。事前に数字の認識分野に対しては「せんいぇん」、「にせんいぇん」を調整単語リスト8に動作を「追加」として設定しておくことにより、図10で説明した調整単語リスト8dに、「せんいぇん」、「にせんいぇん」を追加登録することにより、上記図3に示される調整単語リスト8aに示した内容となる。上記のように、ステップS5及びS6の処理を行うことにより誤認識単語に関連する認識単語が調整単語リスト8に、調整単語リスト8aとして登録される。
次に、認識単語リスト5と調整単語リスト8より言語辞書3を作成する(S7)。ここでは認識単語リスト5に登録されている認識単語と調整単語リスト8に登録されている認識単語を比較して、認識単語リスト5のみに登録されている場合は、その認識単語を言語辞書3に登録する。次に調整単語リスト8に登録されている認識単語を指定された動作に従って言語辞書3に登録するか登録しないかを決定する。例えば、調整単語リスト8が図3に示される内容であった場合、上から5つの削除と指定されている認識単語については言語辞書3に登録されず、下から2つの追加と指定されている認識単語については言語辞書3に登録されることになる。このようにして言語辞書3を作成した後は初期化すること無しにステップS1の利用者の再発話のステップに進み、上記ステップS4の認識結果が正解と確認されるまで音声認識処理が繰り返されることとなる。
したがって、再発話が行われると、前回誤認識された認識単語が言語辞書3から調整単語リスト8aの動作「削除」に基づいて除外されることになり言語辞書3に登録される認識単語が減少するので音声認識を行う処理速度を高速にすることができるとともに音声認識の認識性能を向上させることができる。
また、認識単語リスト5の一部に記憶された認識単語に含まれる表示文字に基づいて、図7に示されるリスト5cを用いて説明したような音韻的に類似する予め設定された単語を調整単語リスト8に登録し、その動作として設定された「追加」に基づいて、認識単語として言語辞書3に追加登録されることにより、発話された音声の認識率を向上させることができる。
一方、ステップS4において、認識結果が正しいと確認された場合は(S4でY)、ステップS8に進み、調整単語リスト8を初期化し、その後、言語辞書3を作成することにより言語辞書3の初期化を行う(S8)。そして初期化が完了したら音声認識処理は終了となる。
以上のように、本実施の形態の音声認識装置100は、既に判明した誤認識単語を認識対象の単語から除外した言語辞書3を作成しその言語辞書3に対して認識処理を行うことにより、言語辞書3に登録される単語が減少するため従来の認識処理より処理速度を向上させることができるとともに従来複数回のやり直しが発生する可能性のあった再発話に対する音声認識の認識性能を向上させることができ、使い勝手の良さを実現できる。
なお、音声認識装置100は、ステップS4で説明したようにタッチパネル10により誤認識であることが入力されて誤認識であることを確認するようにしているが、タイマを設け、ディスプレイ9に認識結果を表示してから前記タイマを利用して所定の時間を計時しその所定の時間内に利用者の発話を認識した場合は、その認識した音声を利用者による音声の誤認識に対する再発話であるとみなすようにしても良い。
上述した実施の形態では装置内部に発明を実施する機能が予め記録されている場合で説明したが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしても良い。記録媒体としては、CD−ROM等プログラムを記憶でき、かつ、装置が読取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように、予めインストールやダウンロードにより得る機能は装置内部のオペレーティングシステム(OS)等と協同してその機能を実現させるものであっても良い。
本発明は、上述した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できるものである。
1…音声入力部、2…音声認識部、3…言語辞書、4…辞書作成部、5…認識単語リスト、6…認識結果出力部、7…認識結果確認部、8…認識単語リスト、100…音声認識装置
Claims (5)
- 音声認識の対象となる単語が登録された認識単語リストと、
この認識単語リストに基づいて音声入力手段から入力された音声と比較し評価するための言語辞書を作成する辞書作成手段と、
前記音声を前記言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識手段と、
この音声認識手段で生成された認識結果が正しいか否かを外部からの指示に基づいて確認するための認識結果確認手段と、
前記辞書作成手段が前記認識結果確認手段により得られた情報に基づいて作成する言語辞書の調整を、前記認識結果確認手段により誤認識と確認された認識結果の認識単語を除外することにより行う辞書作成調整手段とを具備することを特徴とする音声認識装置。 - 音声認識の対象となる単語が登録された認識単語リストと、
この認識単語リストに基づいて音声入力手段から入力された音声と比較し評価するための言語辞書を作成する辞書作成手段と、
前記音声を前記言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識手段と、
この音声認識手段で生成された認識結果が正しいか否かを外部からの指示に基づいて確認するための認識結果確認手段と、
前記辞書作成手段が前記認識結果確認手段により得られた情報に基づいて作成する言語辞書の調整を、認識単語に対応して設定された認識分野を用いて行う辞書作成調整手段とを具備することを特徴とする音声認識装置。 - 前記認識分野は、音韻的な類似度によって分けられた分野であることを特徴とする請求項2に記載の音声認識装置。
- コンピュータに、
音声を入力させる音声入力機能と、
音声認識の対象となる単語が登録された認識単語リストに基づいて前記音声と比較させ評価させるための言語辞書を作成させる辞書作成機能と、
前記音声を前記言語辞書によって評価させることで音声の内容を認識させ、認識結果を生成させる音声認識機能と、
前記音声認識機能により生成された認識結果を出力させる認識結果出力機能と、
前記出力させた認識結果が正しいか否かを確認させるための認識結果確認機能と、
前記辞書作成機能が前記認識結果確認機能により得られた情報に基づいて作成させる言語辞書の調整を、認識単語に対応して設定された認識分野を用いて行わせる辞書作成調整機能とを実現させる音声認識プログラム。 - 前記認識分野は、音韻的な類似度によって分けられた分野であることを特徴とする請求項4に記載の音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006027173A JP2007206523A (ja) | 2006-02-03 | 2006-02-03 | 音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006027173A JP2007206523A (ja) | 2006-02-03 | 2006-02-03 | 音声認識装置及び音声認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007206523A true JP2007206523A (ja) | 2007-08-16 |
Family
ID=38486035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006027173A Pending JP2007206523A (ja) | 2006-02-03 | 2006-02-03 | 音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007206523A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2023559A2 (en) | 2007-08-08 | 2009-02-11 | NEC Corporation | Radio communication system |
-
2006
- 2006-02-03 JP JP2006027173A patent/JP2007206523A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2023559A2 (en) | 2007-08-08 | 2009-02-11 | NEC Corporation | Radio communication system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
KR101183310B1 (ko) | 일반적인 철자 기억용 코드 | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
KR102443087B1 (ko) | 전자 기기 및 그의 음성 인식 방법 | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
WO2011033834A1 (ja) | 音声翻訳システム、音声翻訳方法および記録媒体 | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
Hafeez et al. | Speaker-dependent live quranic verses recitation recognition system using Sphinx-4 framework | |
JP5208795B2 (ja) | 通訳装置、方法、及びプログラム | |
JP6366179B2 (ja) | 発話評価装置、発話評価方法、及びプログラム | |
JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
JP2016161935A (ja) | 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
JP2007206523A (ja) | 音声認識装置及び音声認識プログラム | |
JP2012255867A (ja) | 音声認識装置 | |
JP2003162524A (ja) | 言語処理装置 | |
JP2005283646A (ja) | 音声認識率推定装置 | |
JP2007086404A (ja) | 音声合成装置 |