JP5396426B2

JP5396426B2 - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP5396426B2
Application number: JP2011095368A
Authority: JP
Inventors: 伸小栗; 真也飯塚
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-04-21
Filing date: 2011-04-21
Publication date: 2014-01-22
Anticipated expiration: 2031-04-21
Also published as: WO2012144525A1; JP2012226220A

Description

本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。

入力された音声に対して音声認識処理を行い、文節ごとの認識結果の語句の候補を表示し、表示された複数の語句から所望の語句をユーザに選択させることにより音声認識結果の文章を確定する技術が知られている。また、音声認識結果における信頼度の低い文節をユーザに認識させるために、その文節の表示色を変更して表示する技術が知られている。一方、特許文献１には、音声認識手段により認識された音声に含まれる単語を辞書手段から抽出表示すると共に、当該単語と競合する確率が高い競合単語を抽出して表示し、ユーザに表示した競合単語を選択させる装置が開示されている。さらに、特許文献２には、音声認識により得られた音声に含まれる第１候補の語彙を表示すると共に、第２候補以降の語彙をユーザに選択可能に表示する装置が記載されている。

特開２００６−１４６００８号公報特開平９−５０２９１号公報

しかしながら、従来の音声認識技術では、音声認識結果の候補の中に所望の語句がない場合に、その修正を行うことができず、一旦、音声認識結果を文章として確定させた後に、誤りのある区間を選択して修正を行わなければならなかった。そのため、従来の音声認識技術では、認識結果の修正が煩雑であった。

そこで、本発明は、上記問題点に鑑みてなされたものであり、音声認識結果における認識の誤りがある区間の修正を容易に実施することが可能な音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。

上記課題を解決するために、本発明の音声認識装置は、入力音声を取得する音声取得手段と、複数の語句を記憶している辞書記憶手段と、音声取得手段により取得された入力音声を複数の区間に区切り、辞書記憶手段を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識手段と、音声認識手段により出力された音声認識処理結果を提示する認識結果表示手段と、認識結果表示手段により提示された音声認識処理結果における区間に対して、少なくとも保留指定の入力を受け付ける指定受付手段と、認識結果表示手段による音声認識処理結果の提示において、指定受付手段により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示手段と、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する編集制御手段と、編集制御手段により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付手段と、を備え、編集制御手段は、音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する、ことを特徴とする。

また、上記課題を解決するために、本発明の音声認識方法は、入力音声を取得する音声取得ステップと、音声取得ステップにおいて取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識ステップと、音声認識ステップにおいて出力された音声認識処理結果を提示する認識結果提示ステップと、認識結果提示ステップにおいて提示された音声認識処理結果における区間に対して、少なくとも保留指定の入力を受け付け可能な指定入力受付ステップと、認識結果提示ステップにおける音声認識処理結果の提示において、指定入力受付ステップにおいて保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示ステップと、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する編集制御ステップと、編集制御ステップにおいて編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付ステップと、を有し、編集制御ステップは、音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する、ことを特徴とする。

また、上記課題を解決するために、本発明の音声認識プログラムは、コンピュータに、入力音声を取得する音声取得機能と、音声取得機能により取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識機能と、音声認識機能により出力された音声認識処理結果を提示する認識結果提示機能と、認識結果提示機能により提示された音声認識処理結果における区間に対して、少なくとも保留指定の入力を受け付け可能な指定入力受付機能と、認識結果提示機能による音声認識処理結果の提示において、指定受付機能により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示機能と、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する編集制御機能と、編集制御機能により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付機能と、を実現させ、編集制御機能は、音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する、ことを特徴とする。

本発明の音声認識装置、音声認識方法及び音声認識プログラムによれば、音声認識処理結果における区間ごとに保留指定の入力が受け付けられ、保留指定された保留区間がその他の区間と識別可能に表示されるので、音声認識処理結果において修正を要する区間の認識が容易となる。そして、保留区間の語句が編集可能に制御され、当該保留区間に対する文字列の入力が受け付けられるので、保留区間の語句の修正が実施される。従って、保留区間の修正が容易となる。
また、一の保留区間に対する修正入力を行うことにより、連続する複数の保留区間に対応する区間の修正が可能であるので、保留区間が統合されない場合において必要とされた後続する保留区間の削除操作が必要とされない。従って、ユーザの操作低減が可能となる。

また、本発明の音声認識装置は、編集制御手段により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、音声認識手段により出力された音声認識処理結果から抽出する再認識手段と、再認識手段により抽出された語句を、一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段とを更に備えることを特徴とする。

上記構成によれば、複数の保留区間が統合された一の保留区間に対応する音声認識処理結果の語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。従って、音声認識結果の修正におけるユーザの操作低減が可能となる。

また、本発明の音声認識装置は、編集制御手段により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識手段により出力された語句に基づき、辞書記憶手段を検索する再検索手段と、再検索手段により検索された語句を、一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段とを更に備えることを特徴とする。

上記構成によれば、複数の保留区間が統合された一の保留区間に対応する語句が語彙を記憶した記憶手段の再検索により抽出され、抽出された語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。従って、音声認識結果の修正におけるユーザの操作低減が可能となる。

また、本発明の音声認識装置では、修正入力受付手段により受け付けられた入力文字列に基づき辞書記憶手段を検索して入力文字列を含む訂正候補語句を抽出し、該訂正候補語句の末尾の文字列と、音声認識手段により出力された音声認識処理結果における保留区間の直後の文字列とが一致する場合に、該一致した文字列を省いて訂正候補語句を表示する訂正候補表示手段を更に備えることを特徴とする。

上記構成によれば、訂正候補語句の末尾の文字列が、保留区間の直後の文字列と一致する場合に、訂正候補語句の末尾における当該文字列が削除された上で表示されるので、訂正候補語句の選択後において当該文字列の削除操作が必要とされない。従って、ユーザの操作低減が可能となる。

音声認識結果における認識の誤りがある区間の修正を容易に実施することが可能となる。

音声認識装置の機能的構成を示すブロック図である。音声認識装置のハードブロック図である。音声認識処理結果を表すデータの構成及びデータの内容の例、及び表示語句データの例を示す図である。音声認識処理結果を表示する表示画面の例を示す図である。認識結果等格納部１４に記憶された、指定入力後における音声認識処理結果の文字列情報（指定入力後文字列情報）、及び保留区間情報の構成及びデータの例を示す図である。保留区間を示す表示画面の例を示す図である。保留区間に対する修正入力後の指定入力後文字列情報及び保留区間情報の例を示す図である。修正入力が実施された後の音声認識処理結果を示す表示画面の例を示す図である。音声認識処理結果を表すデータの構成及びデータの内容の例、及び音声認識処理結果を表示する表示画面の例を示す図である。指定入力後における指定入力後文字列情報、保留区間情報、及び表示画面の例を示す図である。複数の保留区間が統合された後における指定入力後文字列情報、保留区間情報、及び表示画面の例を示す図である。音声認識装置における、訂正候補表示処理に関わる機能構成を示すブロック図である。音声認識処理結果を表すデータの構成及びデータの内容の例、及び表示画面の例を示す図である。音声認識装置における、保留区間に対する訂正候補の語句を表示する処理に関わる機能構成を示すブロック図である。保留指定が行われた後の指定入力後文字列情報、辞書ＤＢから抽出された訂正候補語句、及び訂正候補語句が表示された表示画面の例を示す図である。音声認識方法の処理内容を示すフローチャートである。連続する複数の区間に対して保留指定の入力が行われた場合の処理内容を示すフローチャートである。保留区間に対する訂正候補の語句を表示する処理内容を示すフローチャートである。音声認識プログラムの構成を示す図である。

本発明に係る音声認識装置、音声認識方法及び音声認識プログラムの実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、音声認識装置１の機能的構成を示すブロック図である。本実施形態の音声認識装置１は、例えば、入力された音声に対して音声認識処理を行い、認識処理結果の文章における文節ごとの認識結果の語句の候補を表示し、表示された複数の語句から所望の語句をユーザに選択させることにより音声認識処理結果の文章を確定する装置であって、例えば、携帯端末により構成される。

図１に示すように、音声認識装置１は、機能的には、音声取得部１１（音声取得手段）、音声認識部１２（音声認識手段）、辞書ＤＢ１３（辞書記憶手段）、認識結果等格納部１４、認識結果表示部１５（認識結果表示手段）、指定受付部１６（指定受付手段）、保留区間情報記憶部１７、保留区間表示部１８（保留区間表示手段）、編集制御部１９（編集制御手段）及び修正入力受付部２０（修正入力受付手段）を備える。

図２は、音声認識装置１のハードウエア構成図である。音声認識装置１は、物理的には、図２に示すように、ＣＰＵ１０１、主記憶装置であるＲＡＭ１０２及びＲＯＭ１０３、データ送受信デバイスである通信モジュール１０４、ハードディスク、フラッシュメモリ等の補助記憶装置１０５、入力デバイスであるキーボード等の入力装置１０６、ディスプレイ等の出力装置１０７などを含むコンピュータシステムとして構成されている。図１に示した各機能は、図２に示すＣＰＵ１０１、ＲＡＭ１０２等のハードウエア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信モジュール１０４、入力装置１０６、出力装置１０７を動作させるとともに、ＲＡＭ１０２や補助記憶装置１０５におけるデータの読み出し及び書き込みを行うことで実現される。再び、図１を参照し、音声認識装置１の各機能部について詳細に説明する。

音声取得部１１は、入力音声を取得する部分であって、例えばマイクといった装置により構成される。音声取得部１１は、入力音声を表す入力音声信号を音声認識部１２に送出する。

音声認識部１２は、音声取得部１１により取得された入力音声を複数の区間に区切り、辞書ＤＢ１３を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する部分である。具体的には、音声認識処理結果は、入力音声における各区間毎に、複数の認識結果の候補を含む。なお、音声認識部１２により実施される音声認識処理は、周知の技術により実現可能である。音声認識部１２は、音声認識処理結果を認識結果等格納部１４に記憶させる。

辞書ＤＢ１３は、複数の語句を記憶している記憶手段である。辞書ＤＢ１３は、音声認識処理に際して、音声認識部１２により参照される。また、後述するように、辞書ＤＢ１３は、音声認識処理結果の修正に際しても参照される。

認識結果等格納部１４は、音声認識処理結果を記憶する部分である。図３（ａ）は、音声認識処理結果を表すデータの構成及びデータの内容の例を示す図である。図３（ａ）に示すように、音声認識処理結果は、複数に区切られた文節（区間）毎に、音声認識結果の候補の語句を領域Ｌ_１，Ｌ_２に記憶している。各文節は、文節ＩＤにより識別される。例えば、文節ＩＤが「４」の文節は、音声認識結果の候補の語句として、「高速」、「放送」、「妄想」及び「拘束」等を有している。これらの複数の語句のうち、音声認識結果として尤もらしい語句が、最上位の語句として領域Ｌ_１に記憶されている。文節ＩＤが「４」の文節では、「高速」が尤もらしい結果として記憶されている。また、その他の音声認識結果の候補の語句は、領域Ｌ_２に記憶される。

また、認識結果等格納部１４は、仮の音声認識処理結果として認識結果表示部１５に表示される表示語句データを含む。図３（ｂ）は、表示語句データの例を示す図である。表示語句データは、図３（ａ）に示す音声認識処理結果における、各文節の音声認識結果として尤もらしい語句の連結により構成される。即ち、図３（ｂ）に示す例では、表示語句データは、図３（ａ）に示す音声認識処理結果のデータのうち、各文節の最上位に記憶されている語句を連結させた文字列「この料理には高速使われていますか」を記憶している。

また、認識結果等格納部１４は、指定入力が行われた後における、音声認識処理結果を表す文字列情報である指定入力後文字列情報も記憶できる。なお、指定入力については後述する。

認識結果表示部１５は、音声認識部１２により出力された音声認識処理結果を提示する部分である。図４は、認識結果表示部１５により表示された音声認識処理結果の表示画面の例を示す図である。図４に示すように、認識結果表示部１５は、表示領域Ｄ_１に音声認識処理結果の文章を表示させる。具体的には、認識結果表示部１５は、例えば、図３（ｂ）に例示される表示語句データを表示領域Ｄ_１に表示させる。また、認識結果表示部１５は、各文節（区間）の音声認識結果の候補の語句を表示領域Ｄ_２に表示させる。図４に示す例では、表示領域Ｄ_１においてポインタが「高速」にあるので、「高速」、「放送」、「妄想」及び「拘束」等の語句が、当該文節における音声認識結果の候補の語句として表示領域Ｄ_２に表示されている。

指定受付部１６は、認識結果表示部１５により提示された音声認識処理結果における各区間に対して、少なくとも保留指定の入力を受け付ける部分である。具体的には、指定受付部１６は、音声認識処理結果における各文節（区間）毎に、例えば、「確定指定」、「保留指定」及び「削除指定」といったユーザからの指定入力を受け付ける。指定入力は、図４の表示画面例における操作部Ｓ_１，Ｓ_２，Ｓ_３の操作により実現される。

音声認識処理結果の文章を確定させるために、ユーザは、文節毎に表示領域Ｄ_２に表示される認識結果の候補の語句の中から所望の語句を選択し、「確定指定」の操作を実施する。この「確定指定」の操作により、当該文節の認識結果の語句が確定される。一方、表示領域Ｄ_２に表示される認識結果の候補の語句の中に所望の語句が存在しない場合には、ユーザは、「保留指定」の操作を実施する。「保留指定」の操作が実施されると、指定受付部１６は、保留指定された区間である保留区間に関する情報を認識結果等格納部１４又は保留区間情報記憶部１７に記憶させる。

図５（ａ）は、認識結果等格納部１４に記憶された、指定入力後における音声認識処理結果の文字列情報（指定入力後文字列情報）を示す図である。図５（ａ）では、「この」、「料理」、「には」、「使わ」、「れて」、「いますか」といった文節に対して「確定指定」が入力され、文節ＩＤ「４」により識別される文節に対して「保留指定」が入力された場合の例が示されている。即ち、指定受付部１６は、ある文節に対して「保留指定」が入力されると、指定入力後文字列情報における当該文節に対応する領域に、保留区間であることを示すデータを記憶させる。図５（ａ）に示す例では、保留区間に対応する領域に、当該文節の文字数に相当する数の「＊」のデータが記憶されている。

一方、図５（ｂ）は、保留区間情報記憶部１７に記憶された、保留区間に関する保留区間情報の構成及びデータの例を示す図である。即ち、保留区間情報記憶部１７は、保留区間情報を記憶する部分である。指定受付部１６は、ある区間に対して「保留指定」が入力されると、図５（ｂ）に示すように、保留区間を識別する保留区間ＩＤに対応付けて、保留区間の文節ＩＤ及び当該文節の文字数を保留区間情報として保留区間情報記憶部１７に記憶させる。なお、保留区間の情報は、認識結果等格納部１４又は保留区間情報記憶部１７のいずれかに記憶されれば足りる。即ち、保留区間情報が、図５（ａ）の例に示すように認識結果等格納部１４に記憶される場合には、音声認識装置１は保留区間情報記憶部１７を有さないこととしてもよい。

保留区間表示部１８は、認識結果表示部１５による音声認識処理結果の提示において、指定受付部１６により保留指定の受け付けをされた保留区間を、保留指定されていない区間と識別可能な態様で表示する部分である。図６は、保留区間表示部１８による、保留区間の表示画面の例を示す図である。図６に示すように、保留区間表示部１８は、例えば、保留区間に対応する文字の数の「＊」といった態様で、表示領域Ｄ_３に保留区間を表示する。これにより、音声認識処理結果において修正を要する区間の認識が容易となる。

編集制御部１９は、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する部分である。具体的には、編集制御部１９は、認識結果等格納部１４における指定入力後文字列情報（図５（ａ）参照）を参照して保留区間を抽出する。または、編集制御部１９は、保留区間情報記憶部１７（図５（ｂ）参照）を参照して保留区間の文節ＩＤを抽出する。そして、編集制御部１９は、抽出した保留区間の語句を、修正入力された語句による編集が可能なように制御する。このとき、編集制御部１９は、編集可能であることを示すカーソルを当該保留区間の表示位置に表示させることができる。

修正入力受付部２０は、編集制御部１９により編集可能に制御された保留区間に対する文字列の入力を受け付ける部分である。具体的には、修正入力受付部２０は、ユーザによる文字入力を受け付け、指定入力後文字列情報において保留区間として記憶されていた区間（図５（ａ）参照）に、受け付けた文字列（語句）を記憶させる。図７（ａ）は、保留区間に対する修正入力後の指定入力後文字列情報の例を示す図である。図７（ａ）に示すように、修正入力受付部２０は、図５に示した保留区間に対する修正入力として「香草が」といった語句が入力されると、指定入力後文字列情報における当該保留区間に対応する領域に、入力された語句「香草が」を記憶させる。また、保留区間情報記憶部１７において保留区間の情報を記憶していた場合には、保留区間に対する修正入力が行われると、修正入力受付部２０は、図７（ｂ）に示すように、当該保留区間に関する保留区間情報を削除する。そして、図８に示すように、認識結果表示部１５は、修正入力が実施された後の指定入力後文字列情報を表示領域Ｄ_４に表示させる。

また、指定入力後文字列情報において、例えば、「この料理には＊＊使われて＊＊＊」というように、複数の文節（区間）が保留区間とされていた場合には、編集制御部１９、修正入力受付部２０及び認識結果表示部１５は、以下のように機能する。即ち、編集制御部１９は、文頭から保留区間を検索し、文字列「この料理には」の直後の保留区間を検出すると、当該保留区間を編集可能に制御する。そして、当該保留区間に対する修正入力が修正入力受付部２０により受け付けられると、認識結果表示部１５は、当該保留区間への修正入力を反映した指定入力後文字列情報を表示領域Ｄ_４に表示させる。続いて、ある保留区間に対する修正入力の受け付けが完了すると、編集制御部１９は、更に文末に向かって検索を実施し、次に検出した保留区間を抽出する。上記の例では、編集制御部１９は、文字列「使われて」の直後の保留区間を抽出する。そして、編集制御部１９は、当該保留区間を編集可能に制御すると共に、当該保留区間が編集可能であることを示すカーソルを当該保留区間の表示位置に表示させる。以下同様に、保留区間に対する修正入力が修正入力受付部２０により受け付けられると、認識結果表示部１５は、当該保留区間への修正入力を反映した指定入力後文字列情報を表示領域Ｄ_４に表示させる。このように、一の保留区間に対する修正入力が実施されると、編集制御部１９により次の保留区間が編集可能に制御されるので、編集可能な区間を指定するためのカーソルを次の保留区間に移動する操作の削減が可能となる。

次に、連続する複数の文節（区間）に対して保留指定の入力が行われた場合の各機能部の動作について説明する。ここでは、図９（ａ）に示すような音声認識処理結果が認識結果等格納部１４に記憶されているものとして説明する。図９（ａ）に示すように、領域Ｌ_３には、文節毎の尤もらしさの最上位の候補の語句として、「私」、「は」、「日々」、「公園」、「に」、「行き」、「ます」といった語句が記憶されている。この場合には、認識結果表示部１５は、図９（ｂ）に示すように、「私は日々公園に行きます」といった文章を表示領域Ｄ_５に表示する。

続いて、「日々」及び「公園」の語句に対応する文節（区間）に対して、ユーザによる「保留指定」の入力が行われると、指定受付部１６は、図１０（ａ）に示すように、指定入力後文字列情報における当該区間に対応する領域に、保留区間を示すデータを記憶させる。ここでは、指定受付部１６は、「日々」及び「公園」の２つの区間に対応する領域のそれぞれに、「＊＊」及び「＊＊＊＊」といったデータを記憶させる。又は、指定受付部１６は、図１０（ｂ）に示す保留区間情報を保留区間情報記憶部１７に記憶させてもよい。ここでは、指定受付部１６は、保留区間ＩＤ「１」及び「２」の保留区間情報として、それぞれ文節ＩＤ「３」、文字数「２」及び文節ＩＤ「４」、文字数「４」といったデータを保留区間情報記憶部１７に記憶させる。このとき、保留区間表示部１８は、図１０（ｃ）に示すように、「日々」及び「公園」の語句に対応する文節が保留区間であることを識別可能に表示領域Ｄ_６に表示させる。

編集制御部１９は、図１０（ａ）に示される指定入力後文字列情報を文頭から探索して、保留区間を抽出する。そして、編集制御部１９は、指定入力後文字列情報をさらに探索して、抽出した保留区間に後続する区間が保留区間であるか否かを判定する。編集制御部１９は、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する。即ち、編集制御部１９は、図１１（ａ）に示すように、指定入力後文字列情報における連続する保留区間を、一の保留区間に統合する。図１１（ａ）では、統合された一の保留区間は、「＊＊＊＊＊＊」といったデータにより示される。

または、編集制御部１９は、図１０（ｂ）に示される保留区間情報を参照し、値が最も小さい保留区間ＩＤを有する保留区間情報を抽出する。そして、編集制御部１９は、保留区間情報記憶部１７の保留区間情報をさらに探索して、抽出した保留区間の文節ＩＤに後続する文節が保留区間として記憶されているか否かを判定する。編集制御部１９は、保有区間情報において、文節ＩＤが連続する複数の文節を保留区間として抽出した場合に、当該複数の文節の保留区間情報を一の保留区間情報に統合する。即ち、編集制御部１９は、図１１（ｂ）に示すように、指定入力後文字列情報における連続する保留区間を、一の保留区間に統合する。図１１（ｂ）では、統合された保留区間情報は、保留区間ＩＤが「１」の保留区間情報として、文節ＩＤ「３，４」及び文字数「６」といった情報を含む。

このように、連続する保留区間が一の保留区間に統合されることにより、一の保留区間に対する修正入力を実施することにより、連続する複数の保留区間に対応する全区間の修正が可能となる。これにより、保留区間が統合されない場合において必要とされた後続する保留区間の削除操作が不要となる。従って、ユーザの操作低減が可能となる。

次に、連続する保留区間が統合された場合における、当該区間に対する訂正候補の語句を表示する訂正候補表示処理のための各機能部の動作及び処理内容について説明する。図１２は、音声認識装置１における訂正候補表示処理に関わる機能部を示すブロック図である。なお、図１２では、図１に示した機能部は省略されている。図１２に示すように、音声認識装置１は、再認識部２１（再認識手段）、再検索部２２（再検索手段）及び訂正候補表示部２３（訂正候補表示手段）を更に備えることができる。

再認識部２１は、編集制御部１９により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、音声認識部１２により出力された音声認識処理結果から抽出する部分である。以下、再認識部２１の処理内容について具体的に説明する。

図１３（ａ）は、音声認識部１２から出力された音声認識処理結果を表すデータの構成及びデータの内容の例を示す図である。この音声認識処理結果は、認識結果等格納部１４に記憶されている。図９及び図１０に示されるように、文節ＩＤ「３」及び「４」に対応する区間が保留区間に指定されると共に、図１１に示されるように、これらの区間が編集制御部１９により一の保留区間に統合された場合には、再認識部２１は、図１３（ａ）に示される音声認識処理結果を参照して、当該一の保留区間に対応する語句を抽出する。その際、一の保留区間に統合された保留区間の文字数との差異が所定数以内の文字数の語句を音声認識処理結果より抽出する。例えば、所定数を「１」と設定していたとすると、再認識部２１は、統合された保留区間情報の文字数が「６」であるため、文字数が「５」から「７」の語句を音声認識処理結果より検索し、再認識部２１は、音声認識処理結果の領域Ｌ_５における語句「日比谷公園」を抽出する。そして、再認識部２１は、抽出した語句を訂正候補として訂正候補表示部２３に送出する。

また、音声認識装置１では、再検索部２２により訂正候補の語句が検索されることとしてもよい。再検索部２２は、編集制御部１９により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識部１２により出力された語句に基づき、辞書ＤＢ１３を検索する部分である。

具体的には、再検索部２２は、統合された一の保留区間に関して、音声認識結果の候補として表示されていた語句をキーとして、いわゆる「あいまい検索」を実施する。あいまい検索は、キーとされた語句との一致の度合いに関する閾値を一定程度低下させて実施される検索である。即ち、あいまい検索では、通常の検索処理よりも、キーとされた語句との一致の度合いが低い語句が検索される。図９〜１３に示す例では、再検索部２２は、「ひびこうえん」といった語句をキーとして、辞書ＤＢ１３を検索（あいまい検索）し、検索結果を訂正候補表示部２３に送出する。

訂正候補表示部２３は、再認識部２１又は再検索部２２により抽出された語句を、一の保留区間の語句の訂正候補の語句として表示する部分である。具体的には、再認識部２１又は再検索部２２により訂正候補の語句として「日比谷公園」が抽出された場合には、訂正候補表示部２３は、一の保留区間の訂正候補の語句として、「日比谷公園」を表示する。図１３（ｂ）は、訂正候補表示部２３により訂正候補の語句が表示された表示画面の例を示す図である。図１３（ｂ）に示すように、訂正候補表示部２３は、訂正候補の語句「日比谷公園」を表示領域Ｄ_８の当該保留区間に対応する位置に表示させる。

以上説明した再認識部２１及び訂正候補表示部２３によれば、複数の保留区間が統合された一の保留区間に対応する音声認識処理結果の語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。また、再検索部２２及び訂正候補表示部２３によれば、複数の保留区間が統合された一の保留区間に対応する語句が語彙を記憶した記憶手段の再検索により抽出され、抽出された語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。従って、音声認識結果の修正におけるユーザの操作低減が可能となる。なお、音声認識装置１は、再認識部２１及び再検索部２２のいずれか一方を備えることとしてもよい。

次に、保留区間に対する訂正候補の語句を表示する処理について説明する。図１４は、当該処理に関わる機能部を示すブロック図である。

修正入力受付部２０は、編集制御部１９により編集可能に制御された保留区間に対する修正入力のための文字列の入力を受け付ける。そして、修正入力受付部２０は、受け付けた文字列を訂正候補表示部２３に送出する。

訂正候補表示部２３は、修正入力受付部２０により受け付けられた入力文字列に基づき辞書ＤＢ１３を検索して入力文字列を含む訂正候補語句を抽出し、抽出した訂正候補語句の末尾の文字列と、音声認識手段により出力された音声認識処理結果における保留区間の直後の文字列とが一致する場合に、一致した文字列を省いて訂正候補語句を表示する。続いて、図１５を参照して、訂正候補の語句の表示処理を具体的に説明する。

図１５（ａ）は、保留指定が行われた後の指定入力後文字列情報を示す図である。この指定入力後文字列情報は、認識結果等格納部１４に格納されている。ここでは、図１５（ａ）に示す文字列「留守中に＊＊＊を受けました」のうちの３番目の区間に保留指定が行われたものとする。続いて、修正入力として、文字列「で」がユーザにより入力されたとすると、修正入力受付部２０は、文字列「で」の入力を受け付ける。そして、修正入力受付部２０は、文字列「で」を訂正候補表示部２３に送出する。次に訂正候補表示部２３は、文字列「で」に基づき、辞書ＤＢ１３を検索する。ここでは、訂正候補表示部２３は、例えば、図１５（ｂ）に示されるような訂正候補語句「でんわを」、「でんわが」、「でんわに」を、辞書ＤＢ１３から抽出したものとする。

この場合に、訂正候補表示部２３は、図１５（ｂ）に示される訂正候補語句の末尾の文字列と、図１５（ａ）に示される指定入力後文字列情報における保留区間の直後の文字列との一致の有無を判定し、一致する場合には、一致した文字列を省いて当該訂正候補語句を表示する。具体的には、図１５（ｂ）に示される訂正候補語句「でんわを」の末尾の文字列「を」と、図１５（ａ）に示される指定入力後文字列情報における保留区間「＊＊＊」の直後の文字列「を」とが一致するので、訂正候補表示部２３は、訂正候補語句「でんわを」の末尾の文字列「を」を省き、語句「でんわ」を訂正候補語句として表示する。図１５（ｃ）は、訂正候補語句が表示された表示画面の例である。図１５（ｃ）に示されるように、訂正候補表示部２３は、訂正候補語句「でんわ」、「でんわが」、「でんわに」を表示領域Ｄ_１０に表示させる。例えば所望の入力文章が「留守中にでんわを受けました」である場合に、訂正候補語句として「でんわを」ではなく「でんわ」が表示され、この訂正候補語句「でんわ」を保留区間の訂正語句として選択することにより、文字列「を」を後に削除する操作が不要となる。これにより、ユーザの操作負担の低減が可能となる。

なお、音声認識装置１は、図１４を参照して説明した、保留区間に対する訂正候補の語句を表示する機能と、図１２を参照して説明した、訂正候補の語句を表示する訂正候補表示処理の機能とを併せて備えることとしてもよい。

続いて、音声認識装置１における音声認識方法の処理内容を説明する。図１６は、音声認識方法の処理内容を示すフローチャートである。

まず、音声取得部１１は、入力音声を取得する（Ｓ１）。次に、音声認識部１２は、音声取得部１１により取得された入力音声を複数の区間に区切り、辞書ＤＢ１３を参照して複数の区間毎に音声認識処理を実施し、音声認識処理結果を出力する（Ｓ２）。この音声認識処理結果は、認識結果等格納部１４に格納される。続いて、認識結果表示部１５は、音声認識部１２により出力された音声認識処理結果を所定の表示装置により提示させる（Ｓ３）。

指定受付部１６は、音声認識処理結果の各文節における最も文節ＩＤの値が小さい文節を選択する（Ｓ４）。即ち、指定受付部１６は、指定入力がされていない区間のうち最も文頭に近い区間を選択する。次に、指定受付部１６は、選択された区間に対する、保留指定、確定指定等の指定入力を受け付ける（Ｓ５）。このとき、保留区間表示部１８は、音声認識処理結果における、指定受付部１６により保留指定の受け付けをされた保留区間を、保留指定されていない区間と識別可能な態様で表示する。そして、指定受付部１６は、ステップＳ５において指定入力を受け付けた文節（区間）が、音声認識処理結果における最後の文節であるか否かを判定する（Ｓ６）。最後の文節でない場合には、ステップＳ４〜Ｓ６の処理が繰り返される。一方、最後の文節である場合には、処理手順はステップＳ７に進められる。

ステップＳ７において、編集制御部１９は、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する（Ｓ７）。続いて、修正入力受付部２０は、編集制御部１９により編集可能に制御された保留区間に対する文字列の入力（修正入力）を受け付ける（Ｓ８）。そして、編集制御部１９は、ステップＳ８において修正入力を受け付けた保留区間が、音声認識処理結果における最後の保留区間であるか否かを判定する（Ｓ９）。そして、全ての保留区間に対する修正入力の受け付けが行われるまで、ステップＳ７〜Ｓ９の処理が繰り返される。

次に、図１７を参照して、連続する複数の文節（区間）に対して保留指定の入力が行われた場合の処理内容を説明する。図１７は、音声認識装置１における当該処理内容を示すフローチャートである。図１７に示す処理は、図１６のフローチャートにおけるステップＳ７のサブルーチンとして実行されることができる。

まず、編集制御部１９は、音声認識処理結果から保留区間を取得する（Ｓ１１）。次に、編集制御部１９は、音声認識処理結果をさらに探索して、ステップＳ１１において取得した保留区間に後続する区間が保留区間であるか否かを判定する（Ｓ１２）。後続する区間が保留区間であると判定された場合には、処理手順はステップＳ１３に進められる。一方、後続する区間が保留区間であると判定されなかった場合には、本フローチャートに示す処理手順は終了する。

ステップＳ１３において、編集制御部１９は、連続する複数の保留区間を抽出して、当該複数の保留区間を統合して一の保留区間として編集可能に制御する（Ｓ１３）。次に、再認識部２１は、編集制御部１９により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、音声認識部１２により出力された音声認識処理結果から訂正候補の語句として抽出する（Ｓ１４）。または、再検索部２２は、編集制御部１９により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識部１２により出力された語句に基づき、辞書ＤＢ１３を検索し、検索により得られた語句を一の保留区間に対する訂正候補の語句として出力する（Ｓ１４）。

次に、訂正候補表示部２３は、再認識部２１により抽出された語句又は再検索部２２により検索された語句を、一の保留区間の語句の訂正候補の語句として表示する（Ｓ１５）。そして、指定受付部１６は、訂正候補表示部２３により表示された訂正候補の語句に対する指定入力を受け付ける（Ｓ１６）。

次に、図１８を参照して、保留区間に対する訂正候補の語句を表示する処理内容を説明する。図１８は、音声認識装置１における当該処理内容を示すフローチャートである。図１８に示す処理は、図１６のフローチャートにおけるステップＳ８のサブルーチンとして実行されることができる。

まず、修正入力受付部２０は、保留区間に対する修正入力を受け付ける（Ｓ２１）。そして、修正入力受付部２０は、受け付けた文字列を訂正候補表示部２３に送出する。次に、訂正候補表示部２３は、修正入力受付部２０により受け付けられた入力文字列に基づき辞書ＤＢ１３を検索して入力文字列を含む訂正候補語句を抽出する（Ｓ２２）。続いて、訂正候補表示部２３は、訂正候補語句の末尾の文字列と、音声認識処理結果における保留区間の直後の文字列との一致の有無を判定する（Ｓ２３）。両文字列が一致する場合には、処理手順はステップＳ２４に進められる。

ステップＳ２４において、訂正候補表示部２３は、訂正候補語句の末尾における、保留区間直後の文字列と一致した文字列を削除する（Ｓ２４）。そして、ステップＳ２５において、訂正候補表示部２３は、訂正候補の語句を提示する（Ｓ２５）。

次に、コンピュータを、本実施形態の音声認識装置１として機能させるための音声認識プログラムについて説明する。図１９は、図１，１２及び１４に示した音声認識装置１に対応する音声認識プログラム１ｍの構成を示す図である。

音声認識プログラム１ｍは、音声認識処理を統括的に制御するメインモジュール１０ｍ、音声取得モジュール１１ｍ、音声認識モジュール１２ｍ、辞書ＤＢ１３ｍ、認識結果等格納モジュール１４ｍ、認識結果提示モジュール１５ｍ、指定受付モジュール１６ｍ、保留区間情報記憶モジュール１７ｍ、保留区間表示モジュール１８ｍ、編集制御モジュール１９ｍ及び修正入力受付モジュール２０ｍを備えて構成される。また、音声認識プログラム１ｍは、再認識モジュール２１ｍ、再検索モジュール２２ｍ及び訂正候補表示モジュール２３ｍを更に備えて構成されてもよい。そして、各モジュール１０ｍ〜２３ｍにより、音声認識装置１における各機能部１１〜２３のための各機能が実現される。なお、音声認識プログラム１ｍは、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図１２に示されるように、記録媒体１ｄのプログラム格納領域１ｒに記憶される態様であってもよい。

以上説明した本実施形態の音声認識装置１、音声認識方法及び音声認識プログラムでは、音声認識処理結果における区間ごとに保留指定の入力が指定受付部１６により受け付けられ、保留指定された保留区間がその他の区間と識別可能に保留区間表示部１８により表示されるので、音声認識処理結果において修正を要する区間の認識が容易となる。そして、編集制御部１９により保留区間の語句が編集可能に制御され、修正入力受付部２０により当該保留区間に対する文字列の入力が受け付けられるので、保留区間の語句の修正が実施される。従って、保留区間の修正が容易となる。

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

１…音声認識装置、１１…音声取得部、１２…音声認識部、１３…辞書ＤＢ、１４…認識結果等格納部、１５…認識結果表示部、１６…指定受付部、１７…保留区間情報記憶部、１８…保留区間表示部、１９…編集制御部、２０…修正入力受付部、２１…再認識部、２２…再検索部、２３…訂正候補表示部、１ｄ…記録媒体、１ｍ…音声認識プログラム、１ｒ…プログラム格納領域、１０ｍ…メインモジュール、１１ｍ…音声取得モジュール、１２ｍ…音声認識モジュール、１４ｍ…認識結果等格納モジュール、１５ｍ…認識結果提示モジュール、１６ｍ…指定受付モジュール、１７ｍ…保留区間情報記憶モジュール、１８ｍ…保留区間表示モジュール、１９ｍ…編集制御モジュール、２０ｍ…修正入力受付モジュール、２１ｍ…再認識モジュール、２２ｍ…再検索モジュール、２３ｍ…訂正候補表示モジュール。

Claims

入力音声を取得する音声取得手段と、
複数の語句を記憶している辞書記憶手段と、
前記音声取得手段により取得された入力音声を複数の区間に区切り、前記辞書記憶手段を参照して前記複数の区間毎に音声認識処理を実施し、前記音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識手段と、
前記音声認識手段により出力された音声認識処理結果を提示する認識結果表示手段と、
前記認識結果表示手段により提示された音声認識処理結果における前記区間に対して、少なくとも保留指定の入力を受け付ける指定受付手段と、
前記認識結果表示手段による音声認識処理結果の提示において、前記指定受付手段により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示手段と、
前記音声認識処理結果から前記保留区間を抽出し、抽出した前記保留区間の語句を編集可能に制御する編集制御手段と、
前記編集制御手段により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付手段と、を備え、
前記編集制御手段は、前記音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する、
ことを特徴とする音声認識装置。
前記編集制御手段により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、前記音声認識手段により出力された音声認識処理結果から抽出する再認識手段と、
前記再認識手段により抽出された語句を、前記一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段と
を更に備えることを特徴とする請求項１に記載の音声認識装置。
前記編集制御手段により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識手段により出力された語句に基づき、前記辞書記憶手段を検索する再検索手段と、
前記再検索手段により検索された語句を、前記一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段と
を更に備えることを特徴とする請求項１に記載の音声認識装置。
前記修正入力受付手段により受け付けられた入力文字列に基づき前記辞書記憶手段を検索して前記入力文字列を含む訂正候補語句を抽出し、該訂正候補語句の末尾の文字列と、前記音声認識手段により出力された音声認識処理結果における前記保留区間の直後の文字列とが一致する場合に、該一致した文字列を省いて前記訂正候補語句を表示する訂正候補表示手段を更に備えることを特徴とする請求項１に記載の音声認識装置。
入力音声を取得する音声取得ステップと、
前記音声取得ステップにおいて取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して前記複数の区間毎に音声認識処理を実施し、前記音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識ステップと、
前記音声認識ステップにおいて出力された音声認識処理結果を提示する認識結果提示ステップと、
前記認識結果提示ステップにおいて提示された音声認識処理結果における前記区間に対して、少なくとも保留指定の入力を受け付け可能な指定入力受付ステップと、
前記認識結果提示ステップにおける音声認識処理結果の提示において、前記指定入力受付ステップにおいて保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示ステップと、
前記音声認識処理結果から前記保留区間を抽出し、抽出した前記保留区間の語句を編集可能に制御する編集制御ステップと、
前記編集制御ステップにおいて編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付ステップと、を有し、
前記編集制御ステップは、前記音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する、
ことを特徴とする音声認識装置における音声認識方法。
コンピュータに、
入力音声を取得する音声取得機能と、
前記音声取得機能により取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して前記複数の区間毎に音声認識処理を実施し、前記音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識機能と、
前記音声認識機能により出力された音声認識処理結果を提示する認識結果提示機能と、
前記認識結果提示機能により提示された音声認識処理結果における前記区間に対して、少なくとも保留指定の入力を受け付け可能な指定受付機能と、
前記認識結果提示機能による音声認識処理結果の提示において、前記指定受付機能により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示機能と、
前記音声認識処理結果から前記保留区間を抽出し、抽出した前記保留区間の語句を編集可能に制御する編集制御機能と、
前記編集制御機能により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付機能と、を実現させ、
前記編集制御機能は、前記音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する、
ことを特徴とする音声認識プログラム。