JP2012078650A

JP2012078650A - 音声入力支援装置

Info

Publication number: JP2012078650A
Application number: JP2010224961A
Authority: JP
Inventors: Atsunori Sakai; 敦典坂井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-10-04
Filing date: 2010-10-04
Publication date: 2012-04-19
Anticipated expiration: 2030-10-04
Also published as: JP5688677B2

Abstract

【課題】従来の音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換することのできる音声入力支援システムなどを提供する。
【解決手段】音声入力支援システムは、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える。
【選択図】図１

Description

本発明は、音声認識により音声でテキスト入力を行う技術に関する。

従来、音声によるテキスト入力は、キー操作が煩雑なモバイル端末での利用が期待されており、これまでも音声認識機能を実装した携帯電話等が実装されている。しかしながら、発話の際の言い淀みや言い誤り、言い直し、声が小さいといった発声の影響、音声認識用の辞書に発話内容が登録されていない等の辞書の影響、周囲の雑音の大きい場合、その他の各種要因によって、誤認識が発生することがあり、認識精度を１００％にすることは困難である。また、音声認識で誤認識が発生した場合、誤認識箇所へのカーソルの移動、誤認識箇所の削除、正しい文の入力、次の音声入力に備えるためカーソルを文の最後尾に移動させるといった誤認識の際の修正処理を、キー入力で行う必要がある。しかし、一般的なユーザの場合、モバイル端末ではキー操作を行う指が親指等に限られているため、修正作業が非常に煩雑である。

特開２００１−５８０９号公報特開２００３−２６３１９０号公報特開２００２−１４６９３号公報

音声認識により音声でテキスト入力を行う技術については、これまでに次のようなものが知られている。

特許文献１は、音声認識結果をユーザ自身で修正した場合、修正前の単語と修正後の単語の関連情報を保存しておくことによって、次回に音声認識結果の修正を行う場合に、自動修正を行うことができることが記載されている。しかしながら、修正前の単語と修正後の単語の関連情報がない単語では修正を行うことができず、また、前後の単語の繋がりを見て判断しているわけでないため、前後の単語の繋がりに則さない単語でも自動的に置き換えられてしまう。

特許文献２は、音声認識された質問に対して、あらかじめ誤認識テキストと正しいテキストとの対応データを持つ誤認識修正データベースを持っておくことで、対話型音声認識において、認識結果の修正を行うことが記載されている。しかし、特許文献２も、あらかじめ誤認識と正解のテキスト対応を学習させる必要があり非常に手間がかかる。また、誤認識修正データベースにない文の修正は行うことができない。

特許文献３は、認識結果の中で誤っている箇所をユーザが修正した際に、その修正情報を音声認識用の辞書に反映させることで、ユーザが語彙を登録しなくても、自動的に語彙が増える音声認識システム用辞書作成方法が記載されている。しかし、発話者の言い淀みや言い間違いなどの際の認識誤りを防ぐことはできない。

本発明では、発話者の言い淀みや言い誤り、周囲の雑音等により誤認識が発生した場合でも、従来の音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換しようとするものである。また、前もって修正前単語と修正後単語の関連情報を登録しておく必要がないものを提供しようとするものである。さらに、変換候補を修正した場合に予測変換候補に反映させることで、誤認識修正の精度を向上させようとするものである。

本発明の一実施形態に係る音声入力支援システムは、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える。かかる実施形態によれば、発話者の言い淀みや言い誤り、周囲の雑音等により誤認識が発生した場合でも、音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換することが可能となる。また、予測変換辞書を転用できるため、前もって修正前単語と修正後単語の関連情報を登録しておく必要がない。予測変換機能を利用し、音声認識結果の誤認識を補間することで、認識精度の向上と利便性の向上を図ることができる。

好適には、音声認識エンジンは、入力された音声をテキストに変換する際に、テキストに含まれる各単語の信頼度を出力する。また、音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力することが好ましい。かかる実施形態によれば、音声認識エンジンが誤認識する箇所について、複数の候補単語を比較することができる。

また、予測変換モジュールは、信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正することが好ましい。かかる実施形態によれば、高信頼度の単語からの予測変換候補と低信頼度の単語の上位の候補とを比較し、一致する候補を選択することで、誤認識単語を前後の数単語と意味の繋がりが合う単語に変換することができるので、音声認識エンジンが誤認識する箇所を、予測変換の結果を用いて、最も確からしい候補で修正することができる。

さらに好適には、信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、信頼度の低い単語の一つ前の単語までを含む。

音声入力支援システムは、予測変換を行うための情報が格納され、予測変換モジュールによって参照される予測変換情報格納部と、予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して予測変換情報格納部に格納する予測変換候補順位決定部と、をさらに備えることが好ましい。かかる実施形態によれば、変換候補を修正した場合に予測変換候補に反映させることで、誤認識修正の精度を向上させることができる。また、ユーザが使い込むほど認識精度が向上する。

また、本発明にの一実施形態に係る音声入力支援方法は、音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、予測変換モジュールが、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力するステップと、を備える。

本発明によれば、既存の予測変換機能を用いて音声認識結果の修正を行うため、音声認識の誤認識を補正するための特別な情報を持っておく必要がなく、音声認識の誤認識を自動的に修正することができる。また、予測変換候補と信頼度が上位の候補とを比較し一致する候補を選択する場合には、誤認識を前後の単語と意味の繋がりが合う単語に修正することができる。さらに、ユーザがキー入力等で誤認識箇所を修正する場合には、その内容が予測変換に反映することができ、その場合には、使い込むほど誤認識修正の精度を向上させることができる。加えて、モバイル端末に標準で実装されている予測変換機能を利用する場合には、比較的容易に本システムを実装することが可能である。

音声入力支援システムの概略構成の一例を示すブロック図である。言語モデルの仕組みを示す概略図である。音声入力支援システムの一実施形態の構成を示すブロック図である。本実施形態における処理の流れを示すフローチャートの一部である。本実施形態における処理の流れを示すフローチャートの一部である。本実施形態における処理の流れを示すフローチャートの一部である。本実施形態による音声入力変換の実施例を示す図である。本実施形態による音声入力変換の実施例を示す図である。本実施形態による音声入力変換の実施例を示す図である。

以下、本発明の実施の形態について図面を参照しつつ詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。

図１は、本発明による音声入力支援システムの概略構成の一例を示すブロック図である。同図に示すように、音声入力支援システム１は、モバイル端末１０と、音声認識サーバ２０とを含み、これらがネットワークＮを介して相互に接続されている。モバイル端末１０は、携帯電話やスマートフォン、携帯情報端末（ＰＤＡ）、キーボードレス情報機器、その他の携帯可能な情報機器を含む。モバイル端末１０と音声認識サーバ２０はそれぞれ、各部の動作や処理を制御するための制御装置としてのプロセッサ、処理プログラムや各種データの記録及び作業領域として用いられる記憶装置としての外部記録装置やメモリ、文字入力を行うためのキーや音声入力を行うためのマイクを含む入力インターフェース、液晶ディスプレイ等の出力装置を含む出力インターフェース、ネットワークＮを介して通信を行うための通信インターフェース、及びこれらを結ぶバスを備える専用又は汎用のコンピュータを適用することができる。また、ネットワークＮは通信用のネットワークを含み、インターネットやＬＡＮ、電話回線等を含み、無線であるか有線であるかを問わない。

このように構成される音声入力支援システム１において、モバイル端末１０は、ユーザから音声が入力されると、その音声を、ネットワークＮを介して音声認識サーバ２０に送る。音声認識サーバ２０が音声を受信すると、音声認識エンジン２１が言語モデル２２と音響モデル２３とを適用して音声認識処理を行い、音声をテキスト化する。

ここで、言語モデル２２とは、言語に関するデータを集めた統計的モデルであり、好適には、単語とその並び方の情報を集めた統計的モデルである。この場合、言語モデル２２は、単語の並び方に関する制約を表すことになる。具体的には、例えば、単語Ｎ−ｇｒａｍ方式が好ましい。言語モデル２２を利用することにより、次に発声されうる単語を予測して、認識対象語彙を絞ることが可能となる。なお、図２は、言語モデルの仕組みを示す概略図である。図２に示すように、言語モデル２２は、次に続く単語候補の重み付けを行うモデルとなる。

音響モデル２３とは、音に関するデータを集めた統計的モデルであり、好適には、音声の波形データを集めた統計的モデルである。この場合、認識対象の音素がそれぞれどのような周波数特性を持っているかを統計的に表したものとなる。

予測変換モジュール２４には、音声認識エンジン２１による音声認識の結果得られたテキスト（以下「認識結果テキスト」という）が渡される。予測変換モジュール２４は、認識結果テキスト内の各単語の中に信頼度の低い単語があるか否かを判断する。信頼度の低い単語がない場合は、認識結果テキストがそのままモバイル端末１０に転送され、モバイル端末１０の出力インターフェースに認識結果テキストが表示される。一方、認識結果テキスト内の単語の中に信頼度の低い単語がある場合、予測変換モジュール２４は、認識結果テキスト内の信頼度の高い単語を一つ以上接続してなる予測変換元テキストに基づいて予測変換を行い、予測変換候補により低信頼度の単語を変換した後、変換後の認識結果テキストをモバイル端末１０に送る。モバイル端末１０は、受信した変換後の認識結果テキストを出力インターフェースに表示する。

モバイル端末１０上に表示された認識結果に誤認識がある場合、ユーザはキー入力等により誤認識の単語を修正する。キー入力等で修正した単語は、予測変換モジュール２４における予測変換候補に反映される。この操作により、次回に同じ誤認識があった場合、予測変換候補の上位に正しい単語が表示されるため、正しく変換される確率が高まり、認識結果の誤認識を低減させることができる。

また、図１では、音声認識機能と予測変換機能は、音声認識サーバ２０上で行っているが、モバイル端末１０自身の処理能力によっては、音声認識サーバ２０の機能をモバイル端末１０内に含めることも可能である。すなわち、音声認識エンジン２１、言語モデル２２、音響モデル２３、及び予測変換モジュール２４をモバイル端末１０内に含めることにより、音声認識と予測変換をモバイル端末１０内単体で実施することが可能となる。この場合は、ネットワークＮに接続できない際にも、本システムを利用することが可能となる。

図３は、音声入力支援システムの一実施形態の構成を示すブロック図である。

モバイル端末１０は、音声検知部１０１と、認識結果表示部１０２と、入力検知部１０３を備える。音声認識サーバ２０は、音声認識処理部２０１と、言語モデル格納部２０２と、音響モデル格納部２０３と、低信頼度単語変換部２０４と、予測変換候補順位決定部２０５と、単語境界判別部２０６と、予測変換部２０７と、予測変換情報格納部２０８とを備える。なお、図１に記載の概略構成の一例と対応付けるとすると、音声認識処理部２０１は音声認識エンジン２１を含む。言語モデル格納部２０２と音響モデル格納部２０３には、それぞれ言語モデル２２と音響モデル２３が格納されている。また、予測変換モジュール２４は、低信頼度単語変換部２０４、予測変換候補順位決定部２０５、単語境界判別部２０６、予測変換部２０７、及び予測変換情報格納部２０８を含むものである。

このように構成される音声入力支援システムにおいて、ユーザはモバイル端末１０のマイクなどの音声入力装置（図示略）に向かって認識させたい文章を発話する。音声入力装置に入力された音声は、音声検知部１０１により音声区間が検知され、検出された音声は、ネットワークＮを介して音声認識サーバ２０の音声認識処理部２０１に送られる。

音声認識サーバ２０が受信した音声は、音声認識処理部２０１の音声認識エンジン２１において、言語モデル格納部２０２に格納された言語モデル２２と、音響モデル格納部２０３に格納された音響モデル２３とが適用された状態で、音声認識処理が行われる。音声認識エンジン２１による音声認識の結果として出力された認識結果テキストと、認識の際に合わせて出力される認識結果テキストに含まれる各単語の信頼度と、認識結果テキストとして出力された各単語に次ぐ所定数の上位候補の単語が、低信頼度単語変換部２０４に送られる。なお、以下では、認識結果テキストとして出力された各単語を「最上位信頼度単語」といい、最上位信頼度単語とその単語に次ぐ上位候補の単語を合わせて「上位信頼度単語」という。認識結果テキストに含まれる各単語について、音声認識処理部２０１から低信頼度単語変換部２０４に送られる上位信頼度単語の数は、複数の所定数の候補単語を低信頼度単語変換部２０４に送るものとしてもよいし、最上位信頼度単語の信頼度に応じて決定するようにしてもよい。また、信頼度が所定の値よりも大きい候補単語を全て低信頼度単語変換部２０４に送るようにしてもよい。

本発明において、単語の信頼度とは、本システムの出力する認識結果をどれだけ「信頼」してよいかを表す尺度である。値は０．０〜１．０の範囲で、数値が１．０に近いほど、その単語に似たスコアを持つ他の競合候補がほとんど無かったことを示し、０に近づくほど、その単語と同じ程度のスコアをもつ他の単語候補が多く出現していたことを示す。すなわち、数値が高いほど、その認識結果の一位候補の単語に近い他の候補が無く、音声認識処理部２０１が「確信」をもってその認識結果を出力した単語となる。また、認識結果として出力される各単語の信頼度は、音響モデルから算出された確率（音の観点から算出された確率）と言語モデルから算出された確率（文章での各単語の繋がりモデルから算出された確率）の統計確率で最上位のものが出力される。

図３に戻り、低信頼度単語変換部２０４では、認識結果テキスト中に閾値以下の信頼度の単語が一つもない場合には、認識結果テキストをそのままモバイル端末１０に送付する。認識結果テキスト中に閾値以下の信頼度の単語が一つ以上ある場合、認識結果テキストの先頭からその閾値以下の単語の一つ前の単語までを予測変換元テキストとして、予測変換部２０７に送る。予測変換部２０７は、予測変換元テキストを基に予測変換を行い、予測変換候補のうち上位の候補を単語境界判別部２０６に送る。予測変換とは、入力されたテキストの先に続く内容を予測して、一以上の候補を提示等する機能である。本実施例の予測変換部２０７は、予測変換元テキストの先に続く内容を予測して、複数の予測変換候補を生成し、所定の基準を満たす複数の予測変換候補を予測変換候補一覧として単語境界判別部２０６に送る。

単語境界判別部２０６は、受け取った予測変換候補一覧の各テキストに対して形態素解析処理を行い、予測変換候補一覧に含まれる各予測変換候補の文章を単語に分解する。形態素解析とは、ある文章に対して文を構成する最小の意味単位である形態素（例えば、単語）に分解する処理をいう。そして、予測変換候補一覧と、予測変換候補一覧中の各候補文章の単語の境界情報は、低信頼度単語変換部２０４に送られる。低信頼度単語変換部２０４は、最上位信頼度単語が閾値以下の信頼度の単語の上位信頼度単語と予測変換候補一覧中の各予測変換候補に含まれる各単語とを比較し、一致する予測変換候補があれば、その予測変換候補を変換後認識結果テキストとして出力する。一致する予測変換候補が複数ある場合には、最上位信頼度単語が閾値以下の単語以降のテキストの一致度も利用して、最も一致度が高くて類似する予測変換候補を変換後認識結果テキストとして出力する。こうして、音声認識の結果に低信頼度の単語がある場合に、認識テキストの先頭からその単語の一つ前の単語までのテキストから予測変換を行い、出力された予測変換候補と、上位信頼度単語とを比較し、一致する候補があればその単語を出力するという処理を行うことで、誤変換された認識テキストを予測変換機能により修正することができる。

出力された変換後認識結果テキストは、ネットワークＮを介してモバイル端末１０に送付される。送付された認識結果テキストは、認識結果表示部１０２により、モバイル端末１０の出力インターフェース画面に表示される。

ユーザは、表示された認識結果テキストを確認し、誤認識の単語があれば、キー入力やタッチ入力などにより、誤認識箇所を修正する。入力検知部１０３は、キー入力等により修正された箇所の単語を検出し、その入力情報（その単語の前にどの単語があるかなどの予測変換に利用される情報も含む）を、ネットワークＮを介して音声認識サーバ２０に送付する。送られてきた入力情報は、予測変換候補順位決定部２０５により、予測変換の順位に反映される。反映された予測変換情報は、予測変換情報格納部２０８の予測変換辞書に格納され、次回以降の予測変換を行う際に、予測変換部２０７にて利用される。こうして、出力されてきた変換後認識結果テキストに誤りがあった場合は、ユーザがキー入力等で修正することになるが、修正されたテキストを予測変換に反映することで、次回以降に同じ文章の発話があった際に、誤認識された単語は予測変換の上位となるため、正しく修正されるようになる。

図４〜６は、本実施形態における処理の流れを示すフローチャートである。

まず、図４について説明すると、ユーザは、モバイル端末１０に認識させたい文章を発話し、モバイル端末１０内の音声検知部１０１において、ユーザより発話された音声を検出する（Ｓ１）。検出された音声は音声認識サーバ２０に送付され、音声認識エンジン２１により音声認識処理が実行される。音声認識処理実行時に、認識結果テキストの各単語の信頼度と、信頼度が出力された単語に次ぐ上位所定数の候補の単語と、を含む上位信頼度単語を出力する（Ｓ２）。次に低信頼度単語変換部２０４は、出力された認識結果テキストのすべての単語の信頼度が閾値以上となるかを判定する（Ｓ３）。Ｓ３において、すべての単語の信頼度が閾値以上の場合(Ｓ３：はい)、認識結果テキストをそのままモバイル端末１０に送信し、認識結果テキストを出力インターフェースに表示する（Ｓ８）。Ｓ３において、一つでも信頼度が閾値未満の単語がある場合（Ｓ３：いいえ）、信頼度が閾値未満となる単語の中で認識結果テキストの先頭となる単語があるか、すなわち、認識結果テキストの先頭の単語の信頼値が閾値未満であるかを判定する（Ｓ４）。信頼度が閾値未満となる単語の中で認識テキストの先頭となる単語がある場合（Ｓ４：はい）、図５に記載の処理Ｓ９に進む。Ｓ４において、信頼度が閾値未満となる単語の中で認識テキストの先頭となる単語がない場合（Ｓ４：いいえ)、テキストの先頭から、信頼度が閾値未満となる単語の一つ前の単語までのテキスト（予測変換元テキスト）を基に予測変換を行う（Ｓ５）。ただし、閾値未満の信頼度の単語が複数ある場合は、閾値未満の信頼度の単語の中で最も先頭の単語の前のテキストから、予測変換を行う。Ｓ５の後、予測変換候補の中で、上位信頼度単語とその後に続くテキストが一致する候補があるかを判定する（Ｓ６）。Ｓ６において、一致する候補がない場合（Ｓ６：いいえ）、認識結果テキストをそのまま変換後認識結果テキストとしてモバイル端末１０に送り、出力インターフェースに表示する（Ｓ８）。Ｓ６において、一致する候補がある場合(Ｓ６：はい)、一致した候補の中で、一致する単語数が最も多い予測変換候補を変換後認識結果テキストとして、モバイル端末１０の出力インターフェースに表示する（Ｓ７）。ただし、一致する単語数が同数の場合は、候補順位が上位の予測変換候補を選択する。

次に図５に付いて説明すると、処理Ｓ４において、信頼度が閾値未満となる単語の中でテキストの先頭となる単語が存在する場合(Ｓ４：はい)、テキストの先頭となる信頼度が閾値未満となる単語の各上位信頼度単語から、予測変換を行う（Ｓ９）。その後、各上位信頼度単語からの予測変換候補で、上位信頼度単語とその後に続きテキストが一致する候補があるかを判定する（Ｓ１０）。ここで、一致する候補がない場合(Ｓ１０：いいえ)、認識結果テキストをそのまま変換後認識結果テキストとして、モバイル端末１０の出力インターフェースに表示する（Ｓ１４）。Ｓ１０において、一致する候補が存在する場合(Ｓ１０：はい)、一致した予測変換候補は、正しいテキストとして確定する（Ｓ１１）。その後、確定したテキスト以降で、信頼度閾値未満となる単語があるかを判定する（Ｓ１２）。確定したテキスト以降で信頼度が閾値未満の単語がない場合（Ｓ１２：いいえ）、確定されたテキストを変換後認識結果テキストとして、モバイル端末１０の出力インターフェースに表示する（Ｓ１３）。Ｓ１２において、確定したテキスト以降で信頼度が閾値未満の単語が存在する場合（Ｓ１２：はい）、Ｓ５で、確定したテキストから信頼度が閾値未満の単語の一つ前の単語までのテキストを元に予測変換を行い、その後、Ｓ６以降の処理を実行し、変換後認識結果テキストをモバイル端末１０の出力インターフェースに表示する。

次に図６について説明する。Ｓ７、Ｓ８、Ｓ１３、及びＳ１４の各処理ステップで、変換後認識結果テキストがモバイル端末１０の出力インターフェースに表示された後、ユーザは表示されたテキストを確認し、誤認識があるかを判定する（Ｓ１５）。Ｓ１５において、出力したテキストに誤認識が含まれなかった場合(Ｓ１５：いいえ)、ユーザは次の音声入力に移る（Ｓ１９）。Ｓ１５において、出力したテキストに誤認識が含まれる場合（Ｓ１５：はい)、ユーザは誤認識の単語をモバイル端末のキー入力等により、誤認識の単語を修正する（Ｓ１６）。Ｓ１６の後、キー入力等で修正した単語（当該単語の他、予測変換に利用する当該単語の前の単語も含む）は、入力検知部１０３で検出する（Ｓ１７）。Ｓ１７の後、検出した単語を予測変換候補に反映させる（Ｓ１８）。Ｓ１８の後、ユーザは次の音声入力に移る（Ｓ１９）。

図７〜９は、本実施形態による音声入力変換の実施例を示す図である。

図７において、認識結果テキスト７０１は、音声認識処理部２０１の音声認識エンジン２１における音声認識の結果の一例である。この例では、「今日の天気はあれのち雨です」という認識結果テキストが音声認識の結果として出力されたものである。音声認識処理部２０１から出力された認識結果テキスト７０１は単語毎に区切られていて、各区切りに含まれる単語の信頼度７０２も算出されている。この図の例では、「今日／の／天気／は／あれ／のち／雨／です」と区切られ、各単語の信頼度はそれぞれ、０．９０、０．８５、０．８０、０．７０、０．４０、０．７０、０．９０、０．８５である。音声認識処理部２０１は、単語区切り情報を含む認識結果テキスト７０１と、各単語の信頼度７０２とに加え、認識結果テキスト７０１の区切りごとに各最上位信頼度単語に次ぐ信頼度を有する所定数の上位候補の単語を、低信頼度単語変換部２０４に送る。図７では、単語「あれ」の上位候補として「晴れ」（信頼度０．３８）と「雨」（信頼度０．３０）が出力されていることが分かる。この例では、上位３単語が出力されているが、これらは、音声認識エンジン２１で算出された信頼度の高い順での単語候補、すなわち上位信頼度単語７０６、である。また、図７では、「あれ」以外の各単語の上位候補の表示を省略している。

次に、低信頼度単語変換部２０４は、認識結果テキスト７０１の最初から信頼度が所定の閾値よりも低い単語の一つ前の単語までを予測変換元テキストとして設定する。例えば、閾値を０．５０とすると、本例では、認識結果テキスト７０１の最初の単語「今日」から、信頼度が閾値よりも低い単語「あれ」の一つ前の単語「は」まで、すなわち、「今日の天気は」が予測変換元テキスト７０３として設定される。そして、低信頼度単語変換部２０４から予測変換元テキストを受け取った予測変換部２０７では、信頼度の高い予測変換元テキスト「今日の天気は」に基づいて予測変換を行う。この予測変換処理においては、予測変換情報格納部２０８に格納された情報が参照され、「今日の天気は」の後に続く文字列が予測され、複数の予測変換候補が出力される。本例では、上位候補から順に、「今日の天気は雨」、「今日の天気は晴れ」、「今日の天気は晴れみたい」、「今日の天気は晴れのち曇り」、「今日の天気は晴れのち雨」、及び「今日の天気は雨みたい」という６つの予測変換候補が出力される。これら６つの予測変換候補とこれらの候補順位が、予測変換候補一覧７０４として、単語境界判別部２０６に渡される。なお、予測変換候補一覧に含まれる予測変換候補の数は６つに限られず、予め適宜設定可能であるし、また、予測変換候補の信頼度に応じて可変であってもよい。

単語境界判別部２０６では、予測変換候補一覧７０４に含まれる予測変換候補のそれぞれについて単語の境界を判別し、予測変換候補一覧７０４と各予測変換候補の単語境界情報とが、低信頼度単語変換部２０４に送られる。低信頼度単語変換部２０４は、予測変換候補一覧７０４中の各予測変換候補と、認識結果テキスト７０１及びその上位信頼度単語７０６とを比較して、予測変換候補一覧の中から最も認識結果テキストに近い予測変換候補を出力する。より具体的には、認識結果テキスト７０１において、最上位信頼度単語が閾値よりも低い単語「あれ」における、上位信頼度単語７０６「あれ」、「晴れ」、「雨」と、この上位信頼度単語より後の文字列「のち雨です」と一致する予測変換候補があるか探索する。一致する変換候補がある場合、より上位の変換候補を変換後認識結果テキストとして出力する。一致する変換候補が複数ある場合、一致する単語数が多い方の候補を選択する。ここで、一致する単語数が同数の場合は、候補順位が上位の方を選択する。また、一致する変換候補がない場合は、そのまま認識結果テキストを変換後認識結果テキストとして出力する。図７に示す例では、予測変換候補一覧７０４中の各予測変換候補と、認識結果テキスト７０１及びその上位信頼度単語７０６とを比較すると、予測変換候補一覧のうち、「今日の天気は雨」、「今日の天気は晴れ」、「今日の天気は晴れのち雨」については、認識結果テキスト７０１とその上位信頼度単語のいずれかの組み合わせと一致する。一致する候補の中では、「今日の天気は雨」がより上位の候補順位となっているが、「今日の天気は晴れのち雨」の方が一致する単語数が多いので、こちらが変換結果として選択される。こうして、低信頼度単語変換部２０４は、「今日の天気は晴れのち雨です」を変換後認識結果テキスト７０５として出力する。

図８は、本実施形態による音声入力変換の別の実施例を示すものであり、音声認識後の認識結果テキストに低信頼度の単語が複数含まれる場合である。

まず、音声認識を行い、各単語の信頼度も算出する。この例では、認識結果テキスト８０１として「音声を文章へ変換しま」が得られ、各単語の区切りは「音声／を／文章／へ／変換／し／ま」であり、信頼度８０２はそれぞれ、０．９０、０．８５、０．８０、０．３７、０．９０、０．７０、０．４０である。信頼値が所定の閾値よりも低い単語は「へ」（信頼度０．３７）と「ま」（信頼度０．４０）である。ここでは例えば、単語「へ」は、発音が曖昧だったために音声認識エンジン２１が誤変換したものであり、単語「ま」は、発音が弱かったために最後が切れてしまったものである。図８には、この２つの単語のそれぞれについて、上位候補が一つずつ示されている。単語「へ」に対応する上位信頼度単語８０６は「に」（信頼度０．３３）を含み、単語「ま」に対応する上位信頼度単語８０７は「ます」（信頼度０．３５）を含む。

次に、予測変換元テキストを生成する。低信頼度の単語が複数ある場合は、その中で最も先頭寄りの単語より一つ前の単語までのテキストを、予測変換元テキストとする。この例では、２つある低信頼度の単語「へ」と「ま」のうち、先頭寄りの単語「へ」の一つ前の単語「文章」までのテキストを基に、予測変換元テキスト８０３として「音声を文章」を出力する。そして、この「音声を文章」に基づいて予測変換を行った結果、「音声を文章に変換」、「音声を文章に」、「音声を文章に変換します」、「音声を文章に変換する」、「音声を文章にします」、「音声を文章へ」という６つの予測変換候補が予測変換候補一覧８０４として出力される。

この予測変換候補一覧８０４が、認識結果テキスト８０１及びその上位信頼度単語８０６、８０７と比較され、最も類似する予測変換候補が出力結果として出力される。この例では、単語「ま」は部分的には一致するが単語単位では一致しないので選択されず、単語単位で一致する「ます」が選択される。こうして、「音声を文章に変換します」が変換後認識結果テキスト８０５として出力される。

図９は、本実施形態による音声入力変換のさらに別の実施例を示すものであり、音声認識後の認識結果テキストの最初の単語が低信頼度である場合を示す。

この例では、音声認識の結果、「恩師を改善しることができた」が認識結果テキスト９０１として出力される。各単語の区切りは「恩師／を／改善／しる／こと／が／でき／た」であり、信頼度９０２はそれぞれ、０．４３、０．８５、０．８０、０．３８、０．９０、０．８２、０．８０である。信頼度が閾値よりも低い単語は「恩師」と「しる」である。ここでは例えば、単語「恩師」は、「つ」の発音が弱かったため誤変換したものであり、単語「しる」は、発音が曖昧だったため誤変換したものである。図９には、これらの各単語に対応する上位信頼度単語９０６、９０７として、それぞれ「音質」と「する」が含まれることが示されている。

低信頼度の単語が認識結果テキスト９０１の最も先頭にある場合、当該先頭の単語に対応する上位信頼度単語９０６に含まれる各単語、すなわち「恩師」と「音質」のそれぞれから、予測変換を実施する。単語「恩師」からの予測変換の結果、「恩師へ」、「恩師への」、「恩師を」、「恩師に合う」、「恩師への手紙」という５つの予測変換候補が予測変換候補一覧９０４１として出力される。また、単語「音質」からの予測変換の結果、「音質を上げる」、「音質改善」、「音質が悪い」、「音質を改善」、「音質を」という５つの予測変換候補が予測変換候補一覧９０４２として出力される。そして、予測変換候補一覧９０４１と予測変換候補一覧９０４２に含まれる全ての予測変換候補の中から、認識結果テキスト９０１とその上位信頼度候補９０６の組み合わせに最も類似する候補を選択する。一致する予測変換候補が複数ある場合、一致する単語数が多い方の候補を選択する。一致する単語数が多いものが複数ある場合には、候補順位が高い方の候補を選択する。図９の例の場合、「恩師を」より「音質を改善」の方が一致する単語数が多いため、「音質」が選択される。

認識結果テキスト９０１の最初の単語として「音質」が選択されたため、次に現れる低信頼度の単語「しる」の一つ前の単語「改善」まで、すなわち「音質を改善」、を予測変換元テキストとして、さらに予測変換を行う。その結果、「音質を改善」、「音質を改善する」、「音質を改善します」等々の予測変換候補が、予測変換候補一覧９０４３として出力される。この予測変換候補一覧９０４３を、認識結果テキスト９０１とその上位信頼度単語９０７と比較して、最も一致度の高い「音質を改善する」が選択される。こうして、「音質を改善することができた」が変換後認識結果テキスト９０５として出力される。

なお、音声認識サーバ２０が後方一致検索を実装している場合には、低信頼度の単語が先頭になっている場合でも、低信頼度の一つ後ろの高信頼度のテキスト（図９の例では「を改善」）から、後方一致検索により予測変換候補を出力し、先頭の低信頼度の単語を決定するようにしてもよい。

以上のとおり、本発明の所定の実施形態によれば、既存の予測変換機能を用いて音声認識結果の修正を行うため、音声認識の誤認識を補正するための特別な情報を持っておく必要がなく、音声認識の誤認識を自動的に修正することができる。また、本発明の所定の実施形態においては、予測変換候補と信頼度が上位の候補とを比較し一致する候補を選択するため、誤認識を前後の単語と意味の繋がりが合う単語に修正することができる。さらに、本発明の所定の実施形態においては、ユーザがキー入力等で誤認識箇所を修正した場合に、予測変換に反映されるため、使い込むほど誤認識修正の精度を向上させることができる。また、本発明の所定の実施形態においては、モバイル端末に標準で実装されている予測変換機能を利用することで、比較的容易に本システムを実装することが可能となる。

また、本発明の所定の実施形態によれば、モバイル端末に発話された音声の認識結果テキストにおいて、単語信頼度の低い単語を、その低信頼度の単語よりも前の高信頼度の単語を用いて予測変換を行う。出力された予測変換候補と、低信頼度の単語とその候補単語とを比較して、一致する単語数の多い予測変換候補を修正後のテキストとして出力する。これによりユーザが意図した文章に変換され易くなる。この場合、単語間の並びの情報の統計モデルである言語モデルから出力された信頼度が上位の候補と、予測変換候補を比較しているため、前後の数単語と意味の繋がりが合う候補を選択することができる。一方、前後の単語と意味の繋がりが合わない単語は、候補に入らない。また、出力された音声認識結果テキストが、ユーザの求める結果と違っており、ユーザがキー入力等でテキストを修正した場合、予測変換の候補に反映する。これにより、次回の予測変換時には予測変換候補の上位になるため、よりユーザの求める変換結果を得られることが期待できる。

本発明の利用が考えられる分野としては、モバイル端末（携帯電話、スマートフォン、ＰＤＡなどを含む）やパーソナルコンピュータ（ＰＣ）など、音声認識によるテキスト入力機能を利用する機器、音声認識を実装するシステム全般、ウェブ検索サイトでの音声での検索ワード入力などがあるが、これらに限定されるものではない。

なお、本発明は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。

例えば、認識結果をそのまま出力したテキストと、予測変換を利用した変換後のテキストとをユーザが画面上で、選択できるようなユーザインターフェースも想定される。また、ウェブ検索サイトで音声により検索ワードを入力したい場合、ウェブ検索における予測変換又は履歴変換と連携させることで、本発明の音声認識の精度を向上させることが可能である。さらに、モバイル端末で後方一致検索を実装している場合、低信頼度単語の一つ後ろの高信頼度の単語から、後方検索により本発明を実施することもできる。

また、本実施形態および各変形例において示した各処理のステップは処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。さらに本明細書等において、手段とは、単に物理的手段を意味するものではなく、その手段が有する機能をソフトウェアによって実現する場合も含む。さらにまた、１つの手段が有する機能が２つ以上の物理的手段により実現されても、２つ以上の手段の機能が１つの物理的手段により実現されてもよい。また、本発明に係るソフトウェアの開発支援プログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の光学ディスク、磁気ディスク、半導体メモリなどの各種の記録媒体を通じて、又は通信ネットワークなどを介してダウンロードすることにより、コンピュータにインストール又はロードすることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限
られない。

（付記１）入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える音声入力支援システム。

（付記２）前記音声認識エンジンは、入力された音声をテキストに変換する際に、前記テキストに含まれる各単語の信頼度を出力する、ことを特徴とする付記１に記載の音声入力支援システム。

（付記３）前記音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力する、ことを特徴とする付記２に記載の音声入力支援システム。

（付記４）前記予測変換モジュールは、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正する、ことを特徴とする付記３に記載の音声入力支援システム。

（付記５）前記信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、前記信頼度の低い単語の一つ前の単語までを含む、ことを特徴とする付記１乃至４のいずれかに記載の音声入力支援システム。

（付記６）予測変換を行うための情報が格納され、前記予測変換モジュールによって参照される予測変換情報格納部と、前記予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して前記予測変換情報格納部に格納する予測変換候補順位決定部と、をさらに備えることを特徴とする請求項１乃至５のいずれかに記載の音声入力支援システム。

（付記７）音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、前記音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、前記予測変換モジュールが、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力するステップと、を備える音声入力支援方法。

（付記８）コンピュータに、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、を実現させるための音声入力支援プログラム。

（付記９）コンピュータに、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、を実現させるための音声入力支援プログラムを記録したコンピュータ読み取り可能な記録媒体。

１…音声入力支援システム、１０…モバイル端末、２０…音声認識サーバ、２１…音声認識エンジン、２２…言語モデル、２３…音響モデル、２４…予測変換モジュール、１０１…音声検知部、１０２…認識結果表示部、１０３…入力検知部、２０１…音声認識処理部、２０２…言語モデル格納部、２０３…音響モデル格納部、２０４…低信頼度単語変換部、２０５…予測変換候補順位決定部、２０６…単語境界判別部、２０７…予測変換部、２０８…予測変換情報格納部

Claims

入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、
前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、
を備える音声入力支援システム。
前記音声認識エンジンは、入力された音声をテキストに変換する際に、前記テキストに含まれる各単語の信頼度を出力する、
ことを特徴とする請求項１に記載の音声入力支援システム。
前記音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力する、
ことを特徴とする請求項２に記載の音声入力支援システム。
前記予測変換モジュールは、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正する、
ことを特徴とする請求項３に記載の音声入力支援システム。
前記信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、前記信頼度の低い単語の一つ前の単語までを含む、
ことを特徴とする請求項１乃至４のいずれかに記載の音声入力支援システム。
予測変換を行うための情報が格納され、前記予測変換モジュールによって参照される予測変換情報格納部と、
前記予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して前記予測変換情報格納部に格納する予測変換候補順位決定部と、
をさらに備えることを特徴とする請求項１乃至５のいずれかに記載の音声入力支援システム。
音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、
前記音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、
前記予測変換モジュールが、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力するステップと、
を備える音声入力支援方法。
コンピュータに、
入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、
前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、
を実現させるための音声入力支援プログラム。
コンピュータに、
入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、
前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、
を実現させるための音声入力支援プログラムを記録したコンピュータ読み取り可能な記録媒体。