JP2012063545A

JP2012063545A - 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム

Info

Publication number: JP2012063545A
Application number: JP2010207132A
Authority: JP
Inventors: Shin Oguri; 伸小栗; Shinya Iizuka; 真也飯塚; Kosuke Tsujino; 孝輔辻野
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2010-09-15
Filing date: 2010-09-15
Publication date: 2012-03-29
Anticipated expiration: 2030-09-15
Also published as: JP5148671B2

Abstract

【課題】ユーザの意図した文字列を効率よく抽出してユーザの入力操作を軽減すること。
【解決手段】この携帯電話端末１は、音声認識処理によって生成される認識結果文字列、及び認識結果文字列の読みの文字数を取得する音声認識部１１と、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納部１４と、音声認識部１１によって取得された認識結果文字列及び文字数に基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定部１２と、誤認識部分特定部１２によって特定された読みの文字数に基づいて、辞書データ格納部１４から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出部１３と、訂正候補抽出部１３によって抽出された訂正候補を出力する訂正結果出力部１５とを備える。
【選択図】図１

Description

本発明は、音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラムに関するものである。

従来から、パーソナルコンピュータ、携帯電話機等の情報処理装置には、ユーザからの音声入力を文字列に変換する音声認識機能が搭載されている。この音声認識機能による音声認識処理は音声データを辞書データと比較して文字列に変換するため、その認識成功率が周囲環境や辞書データの設定内容に依存する。そのため、誤認識が発生した場合には音声認識処理結果に対して訂正を加える必要がある。

例えば、下記特許文献１には、入力音声パターンと標準音声パターンとを順次比較し、入力音声パターンと最も近似するものから所定数選択して表示させ、表示させた候補文字の中からユーザに文字を選択させることが可能な音声認識装置が開示されている。また、音声認識処理によって文字を入力する際に訂正操作を省くために、すでに確定した入力文字列に連携した文字列候補を確定文字列とする入力支援システムが知られている（下記特許文献２参照。）。

特開平７−２８１６９５号公報特開２００９−１２２３９３号公報

しかしながら、上述した従来の音声認識装置では、認識文字を順次ユーザで確認しながら選択する必要があるため、操作が煩雑になって効率的な文字入力が困難である。また、上記の入力支援システムでは、前後の文字列が必ずしも関連性を有するとは限らないため、ユーザが意図した入力文字列を抽出できない場合があった。

そこで、本発明は、かかる課題に鑑みて為されたものであり、ユーザの意図した文字列を効率よく抽出してユーザの入力操作を軽減することが可能な音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラムを提供することを目的とする。

上記課題を解決するため、本発明の音声認識結果出力装置は、音声入力に対する音声認識処理の結果である認識結果文字列、及び認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段と、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納手段と、認識結果取得手段によって取得された認識結果文字列及び文字数特定データに基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定手段と、誤認識部分特定手段によって特定された読みの文字数に基づいて、辞書データ格納手段から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出手段と、訂正候補抽出手段によって抽出された訂正候補を出力する訂正候補出力手段と、を備える。

或いは、本発明の音声認識結果出力方法は、認識結果取得手段が、音声入力に対する音声認識処理の結果である認識結果文字列、及び認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得ステップと、辞書データ格納手段が、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納ステップと、誤認識部分特定手段が、認識結果取得手段によって取得された認識結果文字列及び文字数特定データに基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定ステップと、訂正候補抽出手段が、誤認識部分特定手段によって特定された読みの文字数に基づいて、辞書データ格納手段から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出ステップと、訂正候補出力手段が、訂正候補抽出手段によって抽出された訂正候補を出力する訂正候補出力ステップと、を備える。

或いは、本発明の音声認識結果出力プログラムは、コンピュータを、音声入力に対する音声認識処理の結果である認識結果文字列、及び認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納手段、認識結果取得手段によって取得された認識結果文字列及び文字数特定データに基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定手段、誤認識部分特定手段によって特定された読みの文字数に基づいて、辞書データ格納手段から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出手段、及び訂正候補抽出手段によって抽出された訂正候補を出力する訂正候補出力手段、として機能させることを特徴とする。

このような音声認識結果出力装置、音声認識結果出力方法、又は音声認識結果出力プログラムによれば、認識結果取得手段によって、音声認識処理の結果である認識結果文字列、及びその読みの文字数を特定するための文字数特定データが取得され、誤認識部分特定手段によって、取得された認識結果文字列及び文字数特定データに基づいて、誤認識部分及びその読みの文字数が特定される。そして、訂正候補抽出手段によって、誤認識部分の読みの文字数に対して読みの文字数が一致する登録文字列が、訂正候補として抽出され、訂正候補出力手段によって、その訂正候補が出力される。このように、認識結果文字列のうちの誤認識部分の読みの文字数に対応する登録文字列が訂正候補として出力されるので、ユーザの意図した文字列を漏れなく効率よく出力することができる。その結果、ユーザの音声認識結果に対する訂正操作等の入力操作を軽減することができる。

訂正候補抽出手段は、辞書データ格納手段から、読みの文字及び位置が誤認識部分と一致する登録文字列をさらに抽出する、ことが好ましい。この場合、誤認識部分の読みに近い登録文字列が効率よく抽出され、ユーザの入力操作を確実に軽減することができる。

また、認識結果取得手段は、認識結果文字列の読みの文字毎に音声認識処理の信頼度を示す信頼度データをさらに取得し、訂正候補抽出手段は、誤認識部分に対応する読みの文字の中から、信頼度データが所定の閾値以上の読みの文字を特定し、辞書データ格納手段から、読みの文字及び位置が誤認識部分と一致する登録文字列をさらに抽出する、ことも好ましい。かかる構成を採れば、誤認識部分の中で音声認識処理に関する信頼度の高い部分の読みに近い登録文字列が訂正候補として抽出されるので、ユーザの入力操作をさらに軽減することができる。

さらに、認識結果取得手段は、認識結果文字列に対する音声認識処理の信頼度を示す信頼度データをさらに取得し、訂正候補抽出手段は、辞書データ格納手段から登録文字列を抽出する際に、信頼度が高くなるに従って抽出条件を限定する、ことも好ましい。そうすれば、音声認識処理の信頼度に応じて登録文字列が効率よく抽出され、ユーザの入力操作を一層軽減することができる。

またさらに、認識結果取得手段は、音声入力に対する複数の認識結果文字列を取得し、訂正候補抽出手段は、一の認識結果文字列の誤認識部分と他の認識結果文字列との間で一致する読みの文字及び位置を特定し、辞書データ格納手段から、該読みの文字及び位置が誤認識部分と一致する登録文字列をさらに抽出する、ことも好ましい。かかる構成を採れば、複数の認識結果文字列を利用して音声認識処理に関する信頼度の高い部分を効率よく特定できるので、訂正候補を的確に抽出することができる。これにより、ユーザの入力操作を確実に軽減することができる。

本発明によれば、ユーザの意図した文字列を効率よく抽出してユーザの入力操作を軽減することができる。

本発明の第１実施形態にかかる携帯電話端末の概略構成図である。図１の携帯電話端末のハードウェア構成を示すブロック図である。図１の音声認識部によって生成される認識結果データの構成を示す図である。図１の辞書データ格納部１４に格納された登録文字列データの構成を示す図である。図１の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。図１の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。本発明の第１実施形態にかかる音声認識結果出力プログラムの概略構成図である。本発明の第２実施形態にかかる携帯電話端末の概略構成図である。図８のデータ通信部１１６によって取得される認識結果データの構成を示す図である。図８の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。図８の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。図８の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。本発明の第２実施形態にかかる音声認識結果出力プログラムの概略構成図である。

以下、図面とともに本発明による音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

（第１実施形態）
図１は、本発明の第１実施形態にかかる携帯電話端末１の概略構成図である。同図に示す携帯電話端末１は、音声通信機能、データ通信機能、及び、電子メール送信時やＷＥＢサイト接続時に用いられる文字データの入力機能とを有する携帯用端末装置である。なお、本発明はこのような通信機能を有する携帯電話端末に限定されるものではなく、通信機能を有さないパーソナルコンピュータ、ＰＤＡ等のキーボード、入力ボタン等のデータ入力手段、及びマイク等の音声入力手段を具備した情報処理端末に広く適用されうる。

図２は、携帯電話端末１のハードウェア構成を示すブロック図である。携帯電話端末１は、物理的には、ＣＰＵ３１と、主記憶装置であるＲＡＭ３２及びＲＯＭ３３と、ハードディスク装置等の補助記憶装置３６と、入力デバイスである入力キー、マウス、マイクロフォン等の入力装置３５と、ディスプレイ、スピーカ等の出力装置３７と、他の端末装置やサーバ装置との間での通信ネットワークを介したデータの送受信を司る移動通信モジュール３４とを含む情報処理装置として構成されている。携帯電話端末１によって実現される機能は、図２に示すＣＰＵ３１、ＲＡＭ３２等のハードウェア上に所定のプログラムを読み込ませることにより、ＣＰＵ３１の制御のもとで移動通信モジュール３４、入力装置３５、出力装置３７を動作させるとともに、ＲＡＭ３２や補助記憶装置３６におけるデータの読み出し及び書き込みを行うことで実現される。

図１に戻って、この携帯電話端末１は、機能的な構成要素として、音声認識部（認識結果取得手段）１１と、誤認識部分特定部（誤認識部分特定手段）１２と、訂正候補抽出部（訂正候補抽出手段）１３と、辞書データ格納部（辞書データ格納手段）１４と、訂正結果出力部（訂正候補出力手段）１５とを備えている。以下、携帯電話端末１の各構成要素について詳細に説明する。

音声認識部１１は、ユーザから入力装置３５を介して音声入力を受け、その結果生成された音声データを用いて音声認識処理を実行する。音声認識処理の方法としては公知の処理方法が用いられ、例えば、音声の特徴量と文字との対応関係およびその統計情報を含む音響モデルと、文字列間の接続関係およびその統計情報を含む言語モデルとを参照しながら、音声データを文字列に変換する変換方式が用いられる。また、音声認識部１１は、変換した文字列の文節毎、および文字列の読みの文字毎に、音声認識処理の成功率を示す信頼度を算出する機能も有している。さらに、音声認識部１１は、ユーザからの音声入力に対する音声認識処理の結果として認識結果データを取得し、誤認識部分特定部１２に渡す。

図３には、音声認識部１１によって取得された認識結果データの構成の一例を示している。このように、認識結果データには、認識結果文字列、およびその文字列の読みを示す文字を含む認識結果Ａと、その認識結果文字列の文節毎の音声認識処理の信頼度を示す信頼度Ｂと、認識結果文字列の文節ごとの読みの文字数（文字数特定データ）Ｃと、読みの文字毎の音声認識処理の信頼度を示す信頼度Ｄとが含まれている。例えば、ユーザから“今日はいい天気です”といった音声が入力された場合には、認識結果Ａとして、文節ごとに区切られた認識結果文字列“今日は／いい／定期／です”と、認識結果文字列の文節ごとの読みを示す文字列“きょうは／いい／ていき／です”が取得される。また、信頼度Ｂとして文節ごとの音声認識処理の信頼度を示す値“９０／９０／６０／９０”、信頼度Ｄとして認識結果文字列の全体に対応する読みの文字毎の信頼度を示す値“８５，９２，９０，８９，…”、および、文字数Ｃとして文節ごとの読みの文字数“４／２／３／２”が取得される。

図１に戻って、誤認識部分特定部１２は、音声認識部１１から渡された認識結果データに基づいて、音声認識部１１によって認識された文字列のうちの誤認識部分、およびその誤認識部分の読みの文字数を特定する。すなわち、誤認識部分特定部１２は、認識結果データに含まれる文節毎の信頼度Ｂを参照し、その信頼度Ｂが予め設定された値以下の文節を誤認識部分として特定する。例えば、上述した認識結果データの例においては、信頼度Ｂが所定値“７０”以下の文節“定期”が誤認識部分と特定される。さらに、誤認識部分特定部１２は、特定した誤認識部分の読みの文字列、及びその文字列の文字数を特定し、認識結果データと共に訂正候補抽出部１３に渡す。例えば、誤認識部分特定部１２は、誤認識部分の読みの文字列“ていき”と、その文字数Ｃ“３”と、文字列に対応する信頼度Ｂ，Ｄを、訂正候補抽出部１３に渡す。ここで、誤認識部分特定部１２は、認識結果データに含まれる認識結果文字列を出力装置３７に出力させた後に、誤認識部分の指定を入力装置３５を介してユーザから受け付けることによって誤認識部分を特定してもよい。

訂正候補抽出部１３は、誤認識部分特定部１２から渡された誤認識部分の読みの文字列、その文字列の文字数Ｃ、及びその文字列に対応する信頼度Ｂ，Ｄに基づいて、辞書データ格納部１４に格納された登録文字列から、誤認識部分に対する訂正候補を抽出する。その際、訂正候補抽出部１３は、誤認識部分の文節に対応する信頼度Ｂが高くなるに従って、登録文字列から訂正候補を抽出する条件を限定させるように動作する。

詳細には、訂正候補抽出部１３は、誤認識部分の文節に対応する信頼度Ｂが、予め設定された閾値Ｓ未満である場合には、登録文字列から訂正候補を抽出する条件である検索文字数を、文字数Ｃ−Ｋ以上、文字数Ｃ＋Ｋ以下の範囲に設定する（Ｋは、予め設定された正数）。これにより、辞書データ格納部１４からの登録文字列の抽出の範囲が比較的広く設定される。例えば、誤認識部分の読みの文字数Ｃ“３”、および定数Ｋ＝１の場合には、検索文字数を２以上４以下の範囲に設定する。さらに、訂正候補抽出部１３は、設定した検索文字数の範囲に応じて、その範囲に一致する読みの文字数を有する登録文字列を、訂正候補として抽出する。図４には、辞書データ格納部１４に格納された登録文字列データの一例が示されている。同図に示すように、辞書データ格納部１４には、登録文字列である単語データ“定期”が、その読みを示す検索キー“ていき”に対応付けて格納されている。例えば、訂正候補抽出部１３は、検索文字数が２以上４以下の場合には、その検索文字数の範囲に応じて検索文字“＊＊”、“＊＊＊”、“＊＊＊＊”を設定し、それらの検索文字が検索キーに一致する単語データを辞書データ格納部１４から抽出する。ここで、検索文字“＊”は任意の文字列を示しており、検索文字“＊＊”を用いた場合には、２文字の検索キーを有する単語データが全て抽出される。ここで、訂正候補抽出部１３は、例えば検索文字が複数文字からなる“＊＊＊”の場合、その検索文字を“＊”と“＊＊”、“＊＊”と“＊”や、“＊＊＊”等のように複数に区切った後に、区切ったそれぞれの検索条件で、辞書データ格納部１４から一連の登録文字列を抽出し、その一連の登録文字列を１つの誤認識部分に対する訂正候補として抽出してもよい。

これに対して、訂正候補抽出部１３は、誤認識部分の文節に対応する信頼度Ｂが、予め設定された閾値Ｓ以上である場合には、誤認識部分の読みの文字列、その文字数Ｃ、その文字列の文字毎の信頼度Ｄを基にして、抽出条件である検索文字数および検索文字を決定する。これにより、信頼度Ｂに応じて辞書データ格納部１４からの登録文字列の抽出の範囲が比較的狭く設定され、文字毎の信頼度Ｄが高くなると抽出範囲がさらに狭く設定される。すなわち、訂正候補抽出部１３は、誤認識部分の文字数Ｃを検索文字数に設定した後に、誤認識部分に対応する読みの文字列の中から、信頼度Ｄが予め設定された閾値（Ｓ１）以上である文字列を特定し、その文字列を検索文字として設定する。例えば、誤認識部分“定期”に対応する読みの文字“て”、“い”、“き”のそれぞれの信頼度Ｄが、“７５”、“３０”、“６０”であって、閾値Ｓ１が“６５”に設定されている場合には、検索文字として読みの文字列の１番目の文字“て”のみを設定する。そして、訂正候補抽出部１３は、設定した検索文字及びその文字列における位置に従って、前に決定された検索文字数を有する全体の検索文字列“て＊＊”を設定し、全体の検索文字列が検索キーに一致する単語データを辞書データ格納部１４から抽出する。これにより、設定された１文字ごとの検索文字に対して、読みの文字及び位置が一致する登録文字列が辞書データ格納部１４から抽出される。なお、検索文字は信頼度Ｄに応じて複数文字設定されてもよく、その場合は全体の検索文字列には“て＊き”のように複数文字が設定される。また、訂正候補抽出部１３は、例えば、検索文字数が２以上４以下の場合、“て＊”、“＊て”、“て＊＊”、“て＊＊＊”、“＊て＊＊”等のように、検索文字の位置を様々に変更して検索文字列を設定し、全体の文字列が検索キーに一致する単語データを辞書データ格納部１４から抽出してもよい。

また、訂正候補抽出部１３は、上記のようにして抽出した誤認識部分に対応する訂正候補を、認識結果データと共に訂正結果出力部１５に引き渡す。例えば、検索文字列として“て＊き”が設定され、図４に示すような登録文字列が予め記憶されていた場合には、訂正候補として、“提起”、…、“天気”、“転機”、“転記”等が引き渡される。

訂正結果出力部１５は、訂正候補抽出部１３によって抽出された訂正候補を、全体の認識結果文字列とともにディスプレイ等の出力装置３７に出力する部分である。このとき、訂正結果出力部１５は、誤認識部分特定部１２によって特定された誤認識部分の信頼度Ｂに応じた所定の計算基準を用いて、訂正候補ごとの優先度を示す得点を計算し、その得点順に出力装置３７に出力するように制御する。

詳細には、訂正結果出力部１５は、誤認識部分に対応する信頼度Ｂが予め設定された閾値Ｓ２以上である場合には、その誤認識部分の文字列に対する訂正候補の類似度を示す得点を計算する。この類似度計算の方法としては、公知の編集距離の計算方法や、子音、母音の一致度を読み（音素）毎に計算する方法等が挙げられる。一方で、訂正結果出力部１５は、誤認識部分に対応する信頼度Ｂが予め設定された閾値Ｓ２未満である場合には、その訂正候補ごとに、辞書データからの利用頻度、現在の日時との関連性、携帯電話端末１の位置情報等の端末状態情報との関連性、全体の認識結果文字列における前後の文字列との関連性等を示す得点を計算する。

そして、訂正結果出力部１５は、認識結果データに含まれる全体の認識結果文字列と、計算した得点順に並べ替えられた訂正候補とを、並列に出力装置３７に表示させるように制御する。例えば、全体の認識結果文字列“今日はいい定期です”に対して並列に、訂正候補“天気”、“転機”、“転記”、…が、得点順に表示される。ここで、訂正結果出力部１５は、訂正候補抽出部１３によって抽出された複数の訂正候補を出力してもよいし、得点の一番高い訂正候補を出力してもよく、全体の認識結果文字列のうちの誤認識部分が訂正候補に置換された状態で、全体の認識結果文字列のみを出力するようにしてもよい。

次に、図５及び図６を参照して、携帯電話端末１の音声認識結果出力時の動作について説明するとともに、併せて携帯電話端末１における音声認識結果出力方法について詳述する。図５及び図６は、携帯電話端末１による音声認識結果出力時の動作を示すフローチャートである。

まず、ユーザからの入力装置３５を介した音声入力を受けて音声認識処理が開始され、音声認識部１１によって認識結果データが取得される（ステップＳ１０１）。そうすると、誤認識部分特定部１２により音声認識部１１によって認識された文字列のうちの誤認識部分が特定される（ステップＳ１０２）。

その後、訂正候補抽出部１３は、誤認識部分の文節に対応する信頼度Ｂを閾値Ｓと比較する（ステップＳ１０３）。その結果、信頼度Ｂが閾値Ｓ未満である場合には（ステップＳ１０３；ＮＯ）、訂正候補抽出部１３は、検索文字数の範囲を誤認識部分の読みの文字数Ｃと定数Ｋとを用いて計算する（ステップＳ１０５）。一方、信頼度Ｂが閾値Ｓ以上である場合には（ステップＳ１０３；ＹＥＳ）、訂正候補抽出部１３は、検索文字数を誤認識部分に対応する文字数Ｃと等しくなるように設定する（ステップＳ１０４）。このようにして、訂正候補抽出部１３は、辞書データ格納部１４からの訂正候補の抽出条件である検索文字数又はその範囲を決定する（ステップＳ１０６）。ここで、訂正候補抽出部１３は、検索文字数又はその範囲が２文字以上の場合には、分割した文字数の組合せを設定してもよい。例えば、訂正候補抽出部１３は、検索文字が３文字からなる“＊＊＊”の場合、その検索文字列を“＊”と“＊＊”、“＊＊”と“＊”や、“＊＊＊”等のように複数に区切ったパターンで設定する。

さらに、訂正候補抽出部１３は、信頼度Ｂが閾値Ｓ未満である場合には（ステップＳ１０７；ＮＯ）、抽出条件としての検索文字列中の検索文字を“無し”とする（ステップＳ１０８）。これに対して、信頼度Ｂが閾値Ｓ以上である場合には（ステップＳ１０７；ＹＥＳ）、訂正候補抽出部１３は、次のようにして検索文字列中の検索文字を決定する。すなわち、パラメータＴの初期値を“１”に設定し（ステップＳ１０９）、誤認識部分の読みの文字列の第Ｔ文字目を特定する（ステップＳ１１０）。そして、特定した第Ｔ文字目に対応する信頼度Ｄと閾値Ｓ１とを比較する（ステップＳ１１１）。比較の結果、信頼度Ｄが閾値Ｓ１未満と判断した場合には（ステップＳ１１１；ＮＯ）、パラメータＴに“１”を加算してステップＳ１１３に処理を移し、次の文字列に関する比較処理に移行する。一方、信頼度Ｄが閾値Ｓ１以上と判断した場合には（ステップＳ１１１；ＹＥＳ）、第Ｔ文字目を検索文字に決定する（ステップＳ１１２）。ここで、訂正候補抽出部１３は、検索文字数がＣ−Ｋ以上Ｃ＋Ｋ以下（Ｋ≧１）に設定されている場合、検索文字をＴ−Ｋ文字目からＴ＋Ｋ文字目までの範囲で１文字ずつずらした複数パターンの検索文字列を設定する。その後、第Ｔ文字目が誤認識部分の読みの文字列の最後であるかを判定し（ステップＳ１１３）、文字列の最後でない場合には（ステップＳ１１３；ＮＯ）、パラメータＴに“１”を加算してステップＳ１１０に処理を戻し、次の文字に関する比較処理に移行する。これに対して、文字列の最後である場合には（ステップＳ１１３；ＹＥＳ）、それまでに決定した検索文字を誤認識部分に関する全ての検索文字として確定させる（ステップＳ１１４）。

次に、訂正候補抽出部１３は、決定した検索文字数、検索文字、又は検索文字数の範囲に基づいて検索文字列を設定し、その検索文字列を用いて辞書データ格納部１４に格納された単語データの中から誤認識部分に対する訂正候補を抽出する（ステップＳ１１５）。その後、訂正結果出力部１５により、誤認識部分に対応する信頼度Ｂと閾値Ｓ２とが比較される（ステップＳ１１６）。その結果、信頼度Ｂが閾値Ｓ２以上と判断された場合には（ステップＳ１１６；ＹＥＳ）、訂正結果出力部１５により、訂正候補毎に誤認識部分の認識結果Ａに対する類似度を示す得点が計算される（ステップＳ１１７）。一方、信頼度Ｂが閾値Ｓ２未満と判断された場合には（ステップＳ１１６；ＮＯ）、訂正結果出力部１５により、訂正候補毎に利用頻度等を基に優先度を示す得点が計算される（ステップＳ１１８）。最後に、訂正結果出力部１５により、全体の認識結果文字列と、得点順に並べ替えられた訂正候補とが、並列に出力装置３７に出力される（ステップＳ１１９）。

次に、図７を参照して、コンピュータを上述した携帯電話端末１として機能させるための音声認識結果出力プログラム５０、及び当該音声認識結果出力プログラム５０を記録したコンピュータ読み取り可能な記録媒体（以下、単に記録媒体という）について説明する。ここで、記録媒体とは、コンピュータのハードウェア資源に備えられている読み取り装置に対して、プログラムの記述内容に応じて、磁気、光、電気等のエネルギーの変化状態を引き起こして、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。かかる記録媒体としては、例えば、磁気ディスク、光ディスク、ＣＤ−ＲＯＭ、コンピュータに内蔵されるメモリなどが該当する。図７は、記録媒体に記録された音声認識結果出力プログラム５０の構成図である。

同図に示すように、音声認識結果出力プログラム５０は、処理を統括するメインモジュール５０１と、音声認識モジュール５０２と、誤認識部分特定モジュール５０３と、訂正候補抽出モジュール５０４と、辞書データ格納モジュール５０５と、訂正結果出力モジュール５０６とを備えて構成される。ここで、音声認識モジュール５０２、誤認識部分特定モジュール５０３、訂正候補抽出モジュール５０４、辞書データ格納モジュール５０５、及び訂正結果出力モジュール５０６のそれぞれを動作させることによって実現する機能は、上述した携帯電話端末１の音声認識部１１、誤認識部分特定部１２、訂正候補抽出部１３、辞書データ格納部１４、及び訂正結果出力部１５それぞれの機能と同様である。

以上説明した携帯電話端末１によれば、音声認識部１１によって、音声認識処理の結果である認識結果Ａ、及びその読みの文字数を特定するための文字数Ｃが取得され、誤認識部分特定部１２によって、取得された認識結果Ａ及び文字数Ｃに基づいて、誤認識部分及びその読みの文字数Ｃが特定される。そして、訂正候補抽出部１３によって、誤認識部分の読みの文字数Ｃに対して読みの文字数が一致する登録文字列が、訂正候補として抽出され、訂正結果出力部１５によって、その訂正候補が出力される。このように、認識結果Ａに含まれる認識結果文字列のうちの誤認識部分の読みの文字数Ｃに対応する登録文字列が訂正候補として出力されるので、ユーザの意図した文字列を漏れなく効率よく出力することができる。特に、訂正候補として読みの文字数に着目することで、登録文字列から訂正候補を確実に抽出することができる。その結果、訂正候補を再度検索したり、訂正文字をユーザが直接入力する頻度が低減され、ユーザの音声認識結果に対する訂正操作等の入力操作を軽減することができる。

また、訂正候補抽出部１３は、誤認識部分に対応する読みの文字列の中から、信頼度Ｄが閾値Ｓ１以上の読みの文字を特定し、辞書データ格納部１４から、特定した読みの文字及び位置が誤認識部分と一致する登録文字列を抽出する。従って、誤認識部分の中で音声認識処理に関する信頼度の高い部分の読みに近い登録文字列が訂正候補として抽出されるので、ユーザの入力操作をさらに軽減することができる。

さらに、訂正候補抽出部１３は、辞書データ格納部１４から登録文字列を抽出する際に、誤認識部分の信頼度Ｂが高くなるに従って抽出条件を限定するので、音声認識処理の信頼度に応じて登録文字列が効率よく抽出され、ユーザの入力操作を一層軽減することができる。

（第２実施形態）
以下、本発明の第２実施形態について詳細に説明する。

図８は、本発明の第２実施形態にかかる携帯電話端末１０１の概略構成図である。本実施形態の第１実施形態との相違点は、携帯電話端末１０１が音声認識機能を備えておらず、携帯電話端末１０１における音声入力に対して、通信ネットワークを介して接続された音声認識サーバ４によって音声認識処理が実行される点、及び、携帯電話端末１０１がユーザの音声入力に対して複数の認識結果データを取得する点である。

すなわち、携帯電話端末１０１の音声入力部１１１は、ユーザから入力装置３５を介して音声入力を受け付けることによって音声データを生成する。また、データ通信部（認識結果取得手段）１１６は、音声入力部１１１によって生成された音声データを通信ネットワークを介して外部の音声認識サーバ４に送信する。さらに、データ通信部１１６は、音声認識サーバ４において音声データに対して音声認識処理が施されることにより生成された認識結果データを、通信ネットワークを介して受信する。

図９には、データ通信部１１６によって音声認識サーバ４から受信される認識結果データの構成の一例を示している。同図に示すように、ユーザによる１回の音声入力に対して複数の認識結果データＮｏ．１〜Ｎｏ．Ｎ（Ｎは２以上の整数）が受信され、それぞれの認識結果データＮｏ．１〜Ｎｏ．Ｎには、認識結果Ａ１〜ＡＮ、認識結果文字列の文節毎の信頼度Ｂ１〜ＢＮ、文節毎の読みの文字数Ｃ１〜ＣＮ、及び読みの文字毎の信頼度Ｄ１〜ＤＮが含まれている。このような複数の認識結果データＮｏ．１〜Ｎｏ．Ｎは、１回の音声入力に対して複数の音声認識方式によって得られたデータであってもよいし、同一の音声認識方式による複数回の音声認識処理の結果得られたデータであってもよい。

また、誤認識部分特定部１１２は、複数の認識結果データＮｏ．１〜Ｎｏ．Ｎに含まれる認識結果Ａ１〜ＡＮを基に、複数の認識結果Ａ１〜ＡＮの認識結果文字列を比較し、差分が存在する文節の部分を誤認識部分として特定する。例えば、複数の認識結果文字列が、“今日は／いい／ペンキ／です”、“今日は／いい／婚期／です”と得られた場合には、誤認識部分特定部１１２は、差分を有する文字列“ペンキ”、及び“婚期”を、誤認識部分として特定する。なお、複数の認識結果文字列との間で文節の区切りが異なっている場合には、誤認識部分特定部１１２は、一致する文字列が他の認識結果データに存在するか否かを文節毎に判断する。例えば、複数の認識結果文字列が、“今日は／いい／ペンキ／です”、“今日は／体験記／です”と得られた場合には、誤認識部分特定部１１２は、他方の認識結果文字列と一致しない文節“いい”、“ペンキ”、及び“体験記”を、誤認識部分として特定する。

また、訂正候補抽出部１１３は、辞書データ格納部１４の登録文字列の中から訂正候補を抽出するときに用いる検索文字を、複数の認識結果データＮｏ．１〜Ｎｏ．Ｎの間で一致する文字を検出することによって決定する。具体的には、複数の認識結果データＮｏ．１〜Ｎｏ．Ｎに対応する誤認識部分の読みの文字列の間で、一致する読みの文字及びその位置を特定し、その読みの文字及び位置を基にして検索文字を設定する。例えば、２つの認識結果データに対応する誤認識部分として“ペンキ”と“婚期”が得られた場合には、検索文字として第２文字目の“ん”と第３文字目の“き”が特定され、これに伴って全体の検索文字列が“＊んき”に設定される。なお、訂正候補抽出部１１３は、検索文字を決定する際に誤認識部分の読みの文字列の間で母音又は子音の一致を判断し、一致する母音又は子音を基にして検索文字列を設定してもよい。また、訂正候補抽出部１１３は、検索文字を決定する際に誤認識部分の読みの文字列の頭文字のみの一致を判断し、一致した頭文字を基にして検索文字列を設定してもよい。

次に、図１０〜１２を参照して、携帯電話端末１０１の音声認識結果出力時の動作について説明するとともに、併せて携帯電話端末１０１における音声認識結果出力方法について詳述する。図１０〜１２は、携帯電話端末１０１による音声認識結果出力時の動作を示すフローチャートである。

まず、ユーザからの入力装置３５を介した音声入力を受けて音声認識処理が開始されると、音声入力部１１１によって音声データが取得され、データ通信部１１６によって、音声データが音声認識サーバ４に送信された後に、音声認識サーバ４から認識結果データが受信される（ステップＳ２０１）。次に、誤認識部分特定部１１２によって、認識結果データに複数のデータが含まれているか否かが判断され（ステップＳ２０２）、複数のデータが含まれていない場合には（ステップＳ２０２；ＮＯ）、図５及び図６に示したステップＳ１０２〜Ｓ１１９と同様にして、訂正候補が出力装置３７に出力される（ステップＳ２０３）。

一方で、複数のデータが含まれている場合には（ステップＳ２０２；ＹＥＳ）、誤認識部分特定部１１２により、複数の認識結果文字列を比較することにより、認識文字列のうちの誤認識部分が特定される（ステップＳ２０４）。そして、訂正候補抽出部１１３が、認識結果データＮｏ．１を読み取る（ステップＳ２０５）。その後、訂正候補抽出部１１３は、認識結果データＮｏ．１に対応する誤認識部分の文節に対応する信頼度Ｂを閾値Ｓと比較する（ステップＳ２０６）。その結果、信頼度Ｂが閾値Ｓ未満である場合には（ステップＳ２０６；ＮＯ）、訂正候補抽出部１１３は、検索文字数の範囲を誤認識部分の読みの文字数Ｃと定数Ｋとを用いて計算する（ステップＳ２０８）。一方、信頼度Ｂが閾値Ｓ以上である場合には（ステップＳ２０６；ＹＥＳ）、訂正候補抽出部１１３は、検索文字数を誤認識部分に対応する文字数Ｃと等しくなるように設定する（ステップＳ２０７）。そして、訂正候補抽出部１１３は、認識結果データＮｏ．１に関する検索文字数、又はその範囲を決定し記憶する（ステップＳ２０９）。さらに、訂正候補抽出部１１３は、全ての認識結果データに関してステップＳ２０６〜Ｓ２０９の処理を繰り返すことにより、全ての認識結果データＮｏ．１〜Ｎｏ．Ｎに関する検索文字数、又はその範囲を決定し記憶する（ステップＳ２１０、Ｓ２１１）。次に、訂正候補抽出部１１３は、全ての認識結果データＮｏ．１〜Ｎｏ．Ｎに関する検索文字数又は検索範囲の和集合又は積集合を求め、最終的に抽出条件として決定する（ステップＳ２１２）。

その後、訂正候補抽出部１１３は、再度認識結果データＮｏ．１を読み取る（ステップＳ２１３）。そして、訂正候補抽出部１１３は、認識結果データＮｏ．１の誤認識部分に対応する信頼度Ｂが閾値Ｓ未満である場合には（ステップＳ２１４；ＮＯ）、抽出条件としての検索文字列中の検索文字を“無し”とする（ステップＳ２１５）。これに対して、信頼度Ｂが閾値Ｓ以上である場合には（ステップＳ２１４；ＹＥＳ）、訂正候補抽出部１１３は、次のようにして検索文字列中の検索文字を決定する。すなわち、パラメータＴの初期値を“１”に設定し（ステップＳ２１６）、誤認識部分の読みの文字列の第Ｔ文字目を特定する（ステップＳ２１７）。そして、特定した第Ｔ文字目に対応する信頼度Ｄと閾値Ｓ１とを比較する（ステップＳ２１８）。比較の結果、信頼度Ｄが閾値Ｓ１未満と判断した場合には（ステップＳ２１８；ＮＯ）、パラメータＴに“１”を加算してステップＳ２１７に処理を移し、次の文字列に関する比較処理に移行する。一方、信頼度Ｄが閾値Ｓ１以上と判断した場合には（ステップＳ２１８；ＹＥＳ）、第Ｔ文字目を検索文字に決定する（ステップＳ２１９）。その後、第Ｔ文字目が誤認識部分の読みの文字列の最後であるかを判定し（ステップＳ２２０）、文字列の最後でない場合には（ステップＳ２２０；ＮＯ）、パラメータＴに“１”を加算してステップＳ２１７に処理を戻し、次の文字列に関する比較処理に移行する。これに対して、文字列の最後である場合には（ステップＳ２２０；ＹＥＳ）、それまでに決定した検索文字を認識結果データＮｏ．１の誤認識部分に関する全ての検索文字として記憶する（ステップＳ２２１）。訂正候補抽出部１１３は、このような検索文字の決定を、全ての認識結果データＮｏ．１〜Ｎｏ．Ｎに関して繰り返す（ステップＳ２２２，Ｓ２２３）。そして、訂正候補抽出部１１３は、全ての認識結果データＮｏ．１〜Ｎｏ．Ｎに関する検索文字及びその位置の和集合又は積集合を求め、最終的に抽出条件として決定する（ステップＳ２２４）。

次に、訂正候補抽出部１１３は、決定した検索文字数、検索文字、又は検索文字数の範囲に基づいて検索文字列を設定し、その検索文字列を用いて辞書データ格納部１４に格納された単語データの中からそれぞれの誤認識部分に対する訂正候補を抽出する（ステップＳ２２５）。さらに、訂正結果出力部１５により、複数の認識結果データＮｏ．１〜Ｎｏ．Ｎの誤認識部分の認識結果Ａのうちから信頼度Ｂの最も高い文字列が特定される（ステップＳ２２６）。その後、訂正結果出力部１５により、特定された誤認識部分に対応する信頼度Ｂと閾値Ｓ２とが比較される（ステップＳ２２７）。その結果、信頼度Ｂが閾値Ｓ２以上と判断された場合には（ステップＳ２２７；ＹＥＳ）、訂正結果出力部１５により、訂正候補毎に誤認識部分の認識結果Ａに対する類似度を示す得点が計算される（ステップＳ２２８）。一方、信頼度Ｂが閾値Ｓ２未満と判断された場合には（ステップＳ２２７；ＮＯ）、訂正結果出力部１５により、訂正候補毎に利用頻度等を基に優先度を示す得点が計算される（ステップＳ２２９）。最後に、訂正結果出力部１５により、複数の認識結果データに含まれる全体の認識結果文字列と、それに対応して得点順に並べ替えられた訂正候補とが、並列に出力装置３７に出力される（ステップＳ２３０）。

次に、図１３を参照して、コンピュータを上述した携帯電話端末１０１として機能させるための音声認識結果出力プログラム６０について説明する。図１３は、記録媒体に記録された音声認識結果出力プログラム６０の構成図である。

同図に示すように、音声認識結果出力プログラム６０は、処理を統括するメインモジュール６０１と、音声入力モジュール６０２と、データ通信モジュール６０３と、誤認識部分特定モジュール６０４と、訂正候補抽出モジュール６０５と、辞書データ格納モジュール６０６と、訂正結果出力モジュール６０７とを備えて構成される。ここで、音声入力モジュール６０２、データ通信モジュール６０３、誤認識部分特定モジュール６０４、訂正候補抽出モジュール６０５、辞書データ格納モジュール６０６、及び訂正結果出力モジュール６０７のそれぞれを動作させることによって実現する機能は、上述した携帯電話端末１０１の音声入力部１１１、データ通信部１１６、誤認識部分特定部１１２、訂正候補抽出部１１３、辞書データ格納部１４、及び訂正結果出力部１５それぞれの機能と同様である。

以上説明した携帯電話端末１０１によっても、訂正候補を再度検索したり、訂正文字をユーザが直接入力する頻度が低減され、ユーザの音声認識結果に対する訂正操作等の入力操作を軽減することができる。特に、訂正候補抽出部１１３は、一の認識結果文字列の誤認識部分と他の認識結果文字列との間で一致する読みの文字及び位置を特定し、辞書データ格納部１４から、読みの文字及び位置が誤認識部分と一致する登録文字列を抽出している。これにより、複数の認識結果文字列を利用して音声認識処理に関する信頼度の高い部分を効率よく特定できるので、訂正候補を的確に抽出することができる。

なお、本発明は、前述した実施形態に限定されるものではない。例えば、訂正候補抽出部１３，１１３は、検索文字の数を誤認識部分の文字毎の信頼度Ｄを閾値Ｓ１と比較することにより決定していた。これに対して、誤認識部分の文節全体の信頼度Ｂが高くなるに従って検索文字の数を増加させるようにしてもよい。例えば、訂正候補抽出部１３，１１３は、信頼度Ｂが比較的小さい場合には、検索文字列を“て＊＊”“＊い＊”、“＊＊き”のように検索文字の数が少なくなるように設定し、信頼度Ｂが比較的大きい場合には、検索文字列を“てい＊”、“＊いき”のように検索文字の数が多くなるように設定することができる。

１，１０１…携帯電話端末（音声認識結果出力装置）、１１…音声認識部（認識結果取得手段）、１２，１１２…誤認識部分特定部（誤認識部分特定手段）、１３，１１３…訂正候補抽出部（訂正候補抽出手段）、１４…辞書データ格納部（辞書データ格納手段）、１５…訂正結果出力部（訂正候補出力手段）、１６…データ通信部（認識結果取得手段）、５０，６０…音声認識結果出力プログラム。

Claims

音声入力に対する音声認識処理の結果である認識結果文字列、及び前記認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段と、
予め複数の登録文字列を、前記登録文字列の読みと対応して格納する辞書データ格納手段と、
前記認識結果取得手段によって取得された前記認識結果文字列及び前記文字数特定データに基づいて、前記認識結果文字列のうちの誤認識部分、及び前記誤認識部分の読みの文字数を特定する誤認識部分特定手段と、
前記誤認識部分特定手段によって特定された前記読みの文字数に基づいて、前記辞書データ格納手段から、読みの文字数が一致する登録文字列を前記誤認識部分に対する訂正候補として抽出する訂正候補抽出手段と、
前記訂正候補抽出手段によって抽出された前記訂正候補を出力する訂正候補出力手段と、
を備えることを特徴とする音声認識結果出力装置。
前記訂正候補抽出手段は、前記辞書データ格納手段から、読みの文字及び位置が前記誤認識部分と一致する登録文字列をさらに抽出する、
ことを特徴とする請求項１記載の音声認識結果出力装置。
前記認識結果取得手段は、前記認識結果文字列の読みの文字毎に音声認識処理の信頼度を示す信頼度データをさらに取得し、
前記訂正候補抽出手段は、前記誤認識部分に対応する読みの文字の中から、前記信頼度データが所定の閾値以上の読みの文字を特定し、前記辞書データ格納手段から、前記読みの文字及び位置が前記誤認識部分と一致する登録文字列をさらに抽出する、
ことを特徴とする請求項２記載の音声認識結果出力装置。
前記認識結果取得手段は、前記認識結果文字列に対する音声認識処理の信頼度を示す信頼度データをさらに取得し、
前記訂正候補抽出手段は、前記辞書データ格納手段から前記登録文字列を抽出する際に、前記信頼度が高くなるに従って抽出条件を限定する、
ことを特徴とする請求項２記載の音声認識結果出力装置。
前記認識結果取得手段は、前記音声入力に対する複数の前記認識結果文字列を取得し、
前記訂正候補抽出手段は、一の前記認識結果文字列の誤認識部分と他の前記認識結果文字列との間で一致する読みの文字及び位置を特定し、前記辞書データ格納手段から、該読みの文字及び位置が前記誤認識部分と一致する登録文字列をさらに抽出する、
ことを特徴とする請求項１記載の音声認識結果出力装置。
認識結果取得手段が、音声入力に対する音声認識処理の結果である認識結果文字列、及び前記認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得ステップと、
辞書データ格納手段が、予め複数の登録文字列を、前記登録文字列の読みと対応して格納する辞書データ格納ステップと、
誤認識部分特定手段が、前記認識結果取得手段によって取得された前記認識結果文字列及び前記文字数特定データに基づいて、前記認識結果文字列のうちの誤認識部分、及び前記誤認識部分の読みの文字数を特定する誤認識部分特定ステップと、
訂正候補抽出手段が、前記誤認識部分特定手段によって特定された前記読みの文字数に基づいて、前記辞書データ格納手段から、読みの文字数が一致する登録文字列を前記誤認識部分に対する訂正候補として抽出する訂正候補抽出ステップと、
訂正候補出力手段が、前記訂正候補抽出手段によって抽出された前記訂正候補を出力する訂正候補出力ステップと、
を備えることを特徴とする音声認識結果出力方法。
コンピュータを、
音声入力に対する音声認識処理の結果である認識結果文字列、及び前記認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段、
予め複数の登録文字列を、前記登録文字列の読みと対応して格納する辞書データ格納手段、
前記認識結果取得手段によって取得された前記認識結果文字列及び前記文字数特定データに基づいて、前記認識結果文字列のうちの誤認識部分、及び前記誤認識部分の読みの文字数を特定する誤認識部分特定手段、
前記誤認識部分特定手段によって特定された前記読みの文字数に基づいて、前記辞書データ格納手段から、読みの文字数が一致する登録文字列を前記誤認識部分に対する訂正候補として抽出する訂正候補抽出手段、及び
前記訂正候補抽出手段によって抽出された前記訂正候補を出力する訂正候補出力手段、
として機能させることを特徴とする音声認識結果出力プログラム。