JP2007206523A

JP2007206523A - 音声認識装置及び音声認識プログラム

Info

Publication number: JP2007206523A
Application number: JP2006027173A
Authority: JP
Inventors: Keisuke Yoshizaki; 圭祐吉崎; Naoki Sekine; 直樹関根
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2006-02-03
Filing date: 2006-02-03
Publication date: 2007-08-16

Abstract

【課題】１度目の発話に対する音声認識に失敗し、利用者が再発話を行った際の認識性能を向上させることにより、少ない発話回数で正しい音声認識結果を導き出す。
【解決手段】音声認識装置１００は、音声認識の対象となる単語が登録された認識単語リスト５、認識単語リストに基づいて音声と比較し評価するための言語辞書を作成する辞書作成部４、音声を言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識部２、生成された認識結果を出力する認識結果出力部６、出力した認識結果が正しいか否かを確認するための認識結果確認部７とを備え、辞書作成部４が認識結果確認部７により得られた情報に基づいて作成する言語辞書３の調整を、認識結果確認部７により誤認識と確認された認識結果の認識単語を除外することにより行う。
【選択図】図１

Description

本発明は、数字や単語、操作コマンドなどの認識対象となる語句を予め登録し、入力された音声に対して予め登録された語句との比較を行うことにより音声を認識する音声認識装置に関する。

音声認識装置は音声認識処理を行った結果が正しいか否かを音声認識装置自身で確認することができないため、音声認識結果を出力して音声認識装置を利用する者に正しい認識結果であるかどうかの確認を委ねることとなる。ここで音声認識結果が間違っていた場合は、正しい認識結果が得られるまで利用者は再度同じ内容の発話を繰り返すこととなる。

音声認識装置は無雑音や雑音の少ない環境においては高性能な認識結果を得ることができるが、実環境においては雑音や残響、利用者の発話様態の違いなど様々な影響を受けて認識性能が低下する。このため、利用者は上記の操作及び発話を繰り返してもなかなか正しい認識結果が得られない場合がある。

この問題を解決するために、利用者の発話が誤認識であると確認された場合、その誤認識結果を記憶しておき、次に利用者が再度同一の発話を行った際には、既に誤認識と判定されている認識結果を出力しないようにすることで、再発話の際の認識性能を向上させ、利用者の繰り返し動作の回数を低減させるものが知られている（例えば、特許文献１参照）。
特開平９−１９８０８７号公報

しかしながら特許文献１に記載されたものでは、再発話の際も認識対象の語句が同じであるため、再発話に対する認識結果が同一のものとなる可能性が高い。そのため、利用者が再発話を行っても正しい認識結果を得られない可能性がある。

本発明は上記事情に鑑みてなされたものであって、その目的は、１度目の発話に対する音声認識に失敗し、利用者が再発話を行った際の認識性能を向上させることにより、少ない発話回数で正しい音声認識結果を導き出せる音声認識装置及び音声認識プログラムを提供することにある。

本発明は、音声認識の対象となる単語が登録された認識単語リストと、認識単語リストに基づいて音声入力手段から入力された音声と比較し評価するための言語辞書を作成する辞書作成手段と、音声を言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識手段と、生成された認識結果が正しいか否かを外部からの指示に基づいて確認するための認識結果確認手段と、辞書作成手段が認識結果確認手段により得られた情報に基づいて作成する言語辞書の調整を認識結果確認手段により誤認識と確認された認識結果の認識単語を除外することにより行う音声認識装置である。

本発明によると、１度目の発話に対する音声認識に失敗し、利用者が再発話を行った際の認識性能を向上させることにより、少ない発話回数で正しい音声認識結果を導き出せる音声認識装置及び音声認識プログラムを提供できる。

以下、本発明の一実施の形態について図面を参照して説明する。
図１は音声認識装置１００の構成を説明するための図である。図１に示すように、音声認識装置１００は、音声入力部１、音声認識部２、言語辞書３、辞書作成部４、認識単語リスト５、認識結果出力部６、認識結果確認部７、調整単語リスト８を有している。

音声入力部１はマイクロホンなどにより利用者の音声を入力し、音声認識処理を行うためのデータに変換する。入力される音声は動作コマンド、数字、名詞などの単語発話音声である。言語辞書３と認識単語リスト５は音声認識の対象となる認識単語が登録された辞書である。音声認識部２は音声入力部１より入力された音声データに対して言語辞書３との比較を行うことにより利用者の発話内容を認識し、認識結果を認識結果出力部６に送る。

認識結果出力部６は音声認識部２より得られた音声認識結果の認識単語の１つまたは複数をディスプレイ（なお、スピーカでも良いし、ディスプレイ及びスピーカでも良い。）９へ、あるいはテキストデータなどの形で外部装置へ出力する。また、出力した内容は認識結果確認部７にも送信される。

認識結果確認部７はタッチパネル（又は押しボタンなどのスイッチでも良い。）１０、あるいは音声などにより利用者からの入力を受け付けるものであり、認識結果出力部６が出力した音声認識結果が正解であったか否かを確認するためのものである。認識結果確認部７で確認された音声認識結果は辞書作成部４に送られる。

辞書作成部４は認識単語リスト５と調整単語リスト８から言語辞書３を作成する。また、辞書作成部４は認識結果確認部７より得られた音声認識結果を確認した情報に基づいて調整単語リスト８に認識単語の登録を行う。

図２は、音声認識部２が認識結果出力部６へ出力される認識結果の一例を示す図である。図２は、利用者が「２０００円」と発話したときの認識結果を示している。図２に示されるように言語辞書３に登録された認識単語が１つまたは複数出力される。例えば利用者が「２０００円」と発話した場合には、単語「にせんねん」、「せんえん」、「せんねん」が認識され、認識単語として認識結果出力部６へ出力される。この際、各々の認識単語には、音声認識処理の確からしさを示す認識スコアが付随しており、認識スコアが高い認識単語ほど入力音声の発話内容に近くなっている。また、複数の認識単語が出力される場合には、認識スコアより算出された順位のデータも出力される。さらに、認識単語には認識結果を利用者に表示するために用いる表示文字の情報も含まれている。例えば、認識単語「にせんねん」には表示文字の情報として「２０００年」、認識単語「せんえん」には表示文字の情報として「１０００円」、認識単語「せんねん」には表示文字の情報として「１０００年」が含まれている。

図３は、調整単語リストの一例を示す図である。図３に示されるように、調整単語リスト８には認識単語と、その認識単語を言語辞書３から辞書作成部４を介して「削除」又は「追加」等の動作指定が記されている。どのようにして動作指定がなされるかは後述する。

音声認識装置１００は、例えば、コンピュータであり、コンピュータの記憶部に各種制御プログラムを予め記憶させておき、コンピュータ内のＣＰＵに制御プログラムを実行させることにより、上述した、音声入力部１の音声入力機能、音声認識部２の音声認識機能、言語辞書３の辞書を作成する機能、辞書作成部４の図４を参照して以下で説明する辞書作成調整機能、認識単語リスト５に単語等を登録する機能、認識結果出力部６の認識結果出力機能、認識結果確認部７の認識結果確認機能、調整単語リスト８に単語等を登録する機能を実現させるようになっている。

図４は音声認識装置１００の処理の流れを示すフローチャートである。
図４に示されるように、音声認識装置１００の音声認識処理は利用者の発話が音声入力部１に入力されることによって開始される（Ｓ１）。利用者の発話の入力が行われると、この入力音声に対して音声認識処理が行われる（Ｓ２）。音声認識処理の結果得られる認識結果は上述した図２に示されるように、認識単語（表示文字の情報を含む）、認識スコア、認識スコアより算出された順位から構成されている。

次に、音声認識結果が正解であったか否かを確認するために、音声認識結果を出力するようにディスプレイ９に指示を出力する（Ｓ３）。音声認識結果出力はディスプレイ９に文字で表示する。なお、音声合成装置などを利用して認識単語をスピーカで音として出力するようにしても良い。また、出力する認識単語は認識結果の全ての認識単語を出力せずに、認識スコアの上位２位までといったように認識結果の一部としても良い。

この出力された認識単語が正解であるか否かについて利用者によってタッチパネル１０を用いて音声認識装置１００に入力される。この入力を検知した音声認識装置１００は認識単語が正解であるか否かについて認識結果確認部７にて確認する（Ｓ４）。認識単語が正解であるか否かの入力としては、タッチパネル１０の入力に代えて、押しボタンなどのスイッチを用いて入力するようにしても良いし、各種センサーや音声を用いても良い。

認識結果が正解であるか否かの確認が行われたのならば、その確認内容に従って処理は分岐する。ここで認識結果が正解であった場合には（Ｓ４でＹ）、ステップＳ８へ進み、認識結果が正解でなかった場合、すなわち、間違いであった場合には（Ｓ４でＮ）、ステップＳ５に進む。

ステップＳ５乃至ステップＳ７では、利用者によって出力した認識結果が間違いであった旨を示す外部からの指示が確認された際に行われる辞書作成部４での処理であり、ステップＳ５ではここでは利用者に認識単語が正解であるか否かを確認させるために出力した認識単語を調整単語リスト８に登録する。例えば、利用者の「２０００円」という発話に対し誤認識を起こした場合を考える。例えば認識結果が上記図２に示される内容であった場合、調整単語リスト８ｂには図５に示すように誤認識した認識単語「にせんねん」、「せんえん」、「せんねん」とその動作が「削除」と指定されて登録される。

次に認識結果の認識単語に関連する認識単語について調整単語リスト８に登録を行う（Ｓ６）。ここで、例えば利用者の発話に対する認識結果が上記図２に示される内容であり、ディスプレイ９に出力した認識結果が図６に示す内容であった場合を考える。図６に示される認識結果９ａの中に表示文字「１０００円」が含まれるが、この表示文字「１０００円」については利用者が複数の発話を行うことを想定し、複数の認識単語を予め認識単語リスト５に登録しておく。図７は、認識単語リスト５内の一の表示文字に対して複数の認識単語が登録されているリストの一例を示す図である。図７のリスト５ｂに示されるように、表示文字「１０００円」には、認識単語として「せんえん」と「せーえん」の２つの認識単語が登録されている。そこで今回誤認識を起こした「せんえん」に関わる認識単語として「せーえん」を、上記図５を参照して説明した調整単語リスト８ｂに動作を「削除」と設定して登録を行う。図８は、認識単語「せーえん」が調整単語リスト８ｂに追加登録されたときの調整単語リスト８ｃを示す図である。

また、認識結果の認識単語の組み合わせによって調整単語リスト８に登録を行うこともできる。例えば、認識単語リスト５内に認識単語に対する認識分野が事前に設定されている場合である。図９は、認識単語に認識分野が設定されている場合に、利用者により「２０００円」が発話されたときに認識された認識単語を示すリスト５ｃである。図９に示すように、リスト５ｃには、認識単語「にせんねん」、「せんえん」、「せんねん」のように数字を示す認識単語には、認識分野として「数字」が、認識単語「みせうり」のように店舗運営を示す認識単語には、認識分野として「店舗運営」が設定されている。今回の誤認識結果の認識単語の組み合わせから、認識された認識単語の認識分野が略「数字」の分野であるため、認識分野を数字として限定を行うことができる。そこで、「みせうり」の認識分野は「店舗運営」であり、「数字」ではないため、上記図８を参照して説明した調整単語リスト８ｃに認識単語「みせうり」は、動作を「削除」として登録を行う。なお認識分野については音韻的な類似度により分類されている方が望ましい。

さらに、認識結果に基づいて調整単語リスト８に追加として登録することもできる。例えば、「１０００円」という単語は「せんえん」という読みの他に「せんいぇん」という読みを登録していない場合は良好な音声認識結果が得られないことがある。しかしながら多数の語句を認識語句として登録すると今度は逆に雑音や別の発話単語に対して誤認識してしまうこととなる。そこで上述の場合と同様に、先ず、認識分野を限定し、その限定した認識分野に特化した認識単語を追加することにより効率良く認識が行うようにする。例えば、今回の認識結果が図２に示される内容であった場合を考える。事前に数字の認識分野に対しては「せんいぇん」、「にせんいぇん」を調整単語リスト８に動作を「追加」として設定しておくことにより、図１０で説明した調整単語リスト８ｄに、「せんいぇん」、「にせんいぇん」を追加登録することにより、上記図３に示される調整単語リスト８ａに示した内容となる。上記のように、ステップＳ５及びＳ６の処理を行うことにより誤認識単語に関連する認識単語が調整単語リスト８に、調整単語リスト８ａとして登録される。

次に、認識単語リスト５と調整単語リスト８より言語辞書３を作成する（Ｓ７）。ここでは認識単語リスト５に登録されている認識単語と調整単語リスト８に登録されている認識単語を比較して、認識単語リスト５のみに登録されている場合は、その認識単語を言語辞書３に登録する。次に調整単語リスト８に登録されている認識単語を指定された動作に従って言語辞書３に登録するか登録しないかを決定する。例えば、調整単語リスト８が図３に示される内容であった場合、上から５つの削除と指定されている認識単語については言語辞書３に登録されず、下から２つの追加と指定されている認識単語については言語辞書３に登録されることになる。このようにして言語辞書３を作成した後は初期化すること無しにステップＳ１の利用者の再発話のステップに進み、上記ステップＳ４の認識結果が正解と確認されるまで音声認識処理が繰り返されることとなる。

したがって、再発話が行われると、前回誤認識された認識単語が言語辞書３から調整単語リスト８ａの動作「削除」に基づいて除外されることになり言語辞書３に登録される認識単語が減少するので音声認識を行う処理速度を高速にすることができるとともに音声認識の認識性能を向上させることができる。

また、認識単語リスト５の一部に記憶された認識単語に含まれる表示文字に基づいて、図７に示されるリスト５ｃを用いて説明したような音韻的に類似する予め設定された単語を調整単語リスト８に登録し、その動作として設定された「追加」に基づいて、認識単語として言語辞書３に追加登録されることにより、発話された音声の認識率を向上させることができる。

一方、ステップＳ４において、認識結果が正しいと確認された場合は（Ｓ４でＹ）、ステップＳ８に進み、調整単語リスト８を初期化し、その後、言語辞書３を作成することにより言語辞書３の初期化を行う（Ｓ８）。そして初期化が完了したら音声認識処理は終了となる。

以上のように、本実施の形態の音声認識装置１００は、既に判明した誤認識単語を認識対象の単語から除外した言語辞書３を作成しその言語辞書３に対して認識処理を行うことにより、言語辞書３に登録される単語が減少するため従来の認識処理より処理速度を向上させることができるとともに従来複数回のやり直しが発生する可能性のあった再発話に対する音声認識の認識性能を向上させることができ、使い勝手の良さを実現できる。

なお、音声認識装置１００は、ステップＳ４で説明したようにタッチパネル１０により誤認識であることが入力されて誤認識であることを確認するようにしているが、タイマを設け、ディスプレイ９に認識結果を表示してから前記タイマを利用して所定の時間を計時しその所定の時間内に利用者の発話を認識した場合は、その認識した音声を利用者による音声の誤認識に対する再発話であるとみなすようにしても良い。

上述した実施の形態では装置内部に発明を実施する機能が予め記録されている場合で説明したが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしても良い。記録媒体としては、ＣＤ−ＲＯＭ等プログラムを記憶でき、かつ、装置が読取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように、予めインストールやダウンロードにより得る機能は装置内部のオペレーティングシステム（ＯＳ）等と協同してその機能を実現させるものであっても良い。

本発明は、上述した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できるものである。

本発明の実施の形態における音声認識装置を説明するための図。同実施の形態における音声認識部が出力する音声認識結果の一例を示す図。同実施の形態における調整単語リストに登録された内容を示す図。同実施の形態における辞書作成調整処理を示すフローチャート。同実施の形態における調整単語リストに登録が行われたときの内容を示す図。同実施の形態における認識結果出力部が表示する認識結果の一例を示す図。同実施の形態における認識単語リストの一部を示す図。同実施の形態における調整単語リストに登録が行われたときの内容を示す図。同実施の形態における認識単語に対応して設定された認識分野を示す図。同実施の形態における調整単語リストに登録が行われたときの内容を示す図。

符号の説明

１…音声入力部、２…音声認識部、３…言語辞書、４…辞書作成部、５…認識単語リスト、６…認識結果出力部、７…認識結果確認部、８…認識単語リスト、１００…音声認識装置

Claims

音声認識の対象となる単語が登録された認識単語リストと、
この認識単語リストに基づいて音声入力手段から入力された音声と比較し評価するための言語辞書を作成する辞書作成手段と、
前記音声を前記言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識手段と、
この音声認識手段で生成された認識結果が正しいか否かを外部からの指示に基づいて確認するための認識結果確認手段と、
前記辞書作成手段が前記認識結果確認手段により得られた情報に基づいて作成する言語辞書の調整を、前記認識結果確認手段により誤認識と確認された認識結果の認識単語を除外することにより行う辞書作成調整手段とを具備することを特徴とする音声認識装置。
音声認識の対象となる単語が登録された認識単語リストと、
この認識単語リストに基づいて音声入力手段から入力された音声と比較し評価するための言語辞書を作成する辞書作成手段と、
前記音声を前記言語辞書によって評価することで音声の内容を認識し、認識結果を生成する音声認識手段と、
この音声認識手段で生成された認識結果が正しいか否かを外部からの指示に基づいて確認するための認識結果確認手段と、
前記辞書作成手段が前記認識結果確認手段により得られた情報に基づいて作成する言語辞書の調整を、認識単語に対応して設定された認識分野を用いて行う辞書作成調整手段とを具備することを特徴とする音声認識装置。
前記認識分野は、音韻的な類似度によって分けられた分野であることを特徴とする請求項２に記載の音声認識装置。
コンピュータに、
音声を入力させる音声入力機能と、
音声認識の対象となる単語が登録された認識単語リストに基づいて前記音声と比較させ評価させるための言語辞書を作成させる辞書作成機能と、
前記音声を前記言語辞書によって評価させることで音声の内容を認識させ、認識結果を生成させる音声認識機能と、
前記音声認識機能により生成された認識結果を出力させる認識結果出力機能と、
前記出力させた認識結果が正しいか否かを確認させるための認識結果確認機能と、
前記辞書作成機能が前記認識結果確認機能により得られた情報に基づいて作成させる言語辞書の調整を、認識単語に対応して設定された認識分野を用いて行わせる辞書作成調整機能とを実現させる音声認識プログラム。
前記認識分野は、音韻的な類似度によって分けられた分野であることを特徴とする請求項４に記載の音声認識プログラム。