JP2005227510A

JP2005227510A - 音声認識装置及び音声認識方法

Info

Publication number: JP2005227510A
Application number: JP2004035616A
Authority: JP
Inventors: Naonobu Yamashita; 直信山下
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2004-02-12
Filing date: 2004-02-12
Publication date: 2005-08-25

Abstract

【課題】個人用辞書への単語やフレーズの登録のみを目的とした回線接続を回避することによって登録目的のみの通信料を無くすことができ、また、各個人用辞書に登録された新語等の単語やフレーズを共有辞書に自動的に登録可能とすることによって共有辞書への登録の際の手間隙及び人件費を無くすこと。
【解決手段】修正箇所抽出部２５にて、音声認識テキストデータの誤認識箇所が端末機１４で修正された修正テキストデータを受信し、この修正テキストデータと音声認識によるテキストデータとの比較から修正語句を抽出し、この修正語句が、当該端末機１４の個人用辞書２２−１及び共有辞書２１に登録か未登録かを検出する。辞書登録部２４で、修正箇所抽出部２５で抽出された修正語句が未登録と検出された場合に、当該修正語句を該当個人用辞書２２−１に登録する。
【選択図】図１

Description

本発明は、音声入力機能を備えて通信を行う端末機と通信回線により接続され、この接続された端末機におけるディクテーション（ｄｉｃｔａｔｉｏｎ：口述）入力の音声認識を行う機能を有する音声認識装置及び音声認識方法に関する。

従来、音声認識装置において、ディクテーション音声認識の認識率を向上させるために、端末機から、個々のユーザ毎に自分がよく使用する単語やフレーズ（句）を出来るだけ多く辞書に登録することが行われていた。
この種の従来の音声認識装置として、例えば特許文献１及び２に記載のものがある。
特許文献１の内容は次の通りである。音声認識用の単語辞書にない単語を容易に登録できるようにする。音声入力された単語の音声データが、音声認識装置による音声認識の結果、記憶媒体から読み出された単語辞書内の音声データと一致しない場合に、単語登録手段が、音声入力された単語の音声データをＲＡＭに一時的に記憶しておき、ユーザが、音声入力された単語に関連する検索項目をキー操作により検索し、この検索結果に、ＲＡＭに一時記憶した音声データを関連付けて単語辞書メモリに登録することにより、音声認識用の単語辞書にない単語でも容易に登録できるようにする。

特許文献２の内容は次の通りである。ユーザの入力音声を認識するための単語を辞書に格納し、また、ユーザの入力履歴として単語組毎に出現頻度情報を記憶手段に格納する。入力音声を日本語文章として認識し、この認識結果から単語組毎に分解し、上記の出現頻度情報に基づいて、上記の単語組の出現数が一定値以上の場合に単語組を１つの単語として上記の辞書に登録する。
特開２００３−３２３１９２号公報（要約書、特許請求の範囲）特開２００１−１９５０８１号公報（要約書、特許請求の範囲）

しかし、従来の音声認識装置においては、端末機が有料の通信ネットワークを介して音声認識装置にアクセスするようになっている場合、端末機から音声認識装置の辞書に単語やフレーズを登録する際に通信料が発生してしまうという問題がある。
また、一般的に使用されるようになってきた新語も上記同様に登録を行うと、ユーザの個人用辞書に登録されてしまう。このため、全ユーザが共用する共有辞書に反映させるには音声認識装置の管理者が人為的に登録するしかないので、手間隙が掛かると共に、その分人件費が発生してしまうという問題がある。

上記特許文献１においては、単語辞書と一致しない音声入力による音声データ（単語やフレーズ）を一旦記憶し、ユーザがキー操作により得た音声データに対応するデータに、一旦記憶した音声データを関連付けて辞書に登録するようになっている。この技術内容でも、個人用辞書への登録は可能であるが、上述したと同様な手法で共有辞書に反映させなければならないので、手間隙が掛かると共に人件費が発生してしまうという問題がある。

上記特許文献２においては、ユーザの入力音声から認識した日本語文章を単語組毎に分解し、この単語組の出現数が一定値以上の場合に単語組を１つの単語として辞書に登録するようになっているので、この技術内容の場合も、個人用辞書への登録は可能であるが、共有辞書への反映には上記同様に手間隙が掛かると共に人件費が発生してしまうという問題がある。

本発明は、このような課題に鑑みてなされたものであり、個人用辞書への単語やフレーズの登録のみを目的とした回線接続を回避することによって登録目的のみの通信料を無くすことができ、また、各個人用辞書に登録された新語等の単語やフレーズを共有辞書に自動的に登録可能とすることによって共有辞書への登録の際の手間隙及び人件費を無くすことができる音声認識装置及び音声認識方法を提供することを目的としている。

上記目的を達成するために、本発明の請求項１による音声認識装置は、音声入力機能と文書作成及び修正機能を備えて通信を行う端末機と回線接続され、この端末機にて入力された音声による音声データと、端末機のユーザ毎に設定された個人用辞書及び全ユーザの端末機が共用する共有辞書に登録された語句との照合によって、音声データに対応する語句を検索し、この検索した語句によるテキストデータを生成して音声認識を行う音声認識装置において、前記端末機にて、前記音声認識により生成されたテキストデータの誤認識箇所が修正された修正テキストデータを受信し、この修正テキストデータと前記音声認識によるテキストデータとの比較から修正語句を抽出し、この抽出された修正語句が、当該端末機の個人用辞書及び共有辞書に登録か未登録かを検出する抽出手段と、前記抽出手段で抽出された修正語句が未登録と検出された場合に、当該修正語句を該当個人用辞書に登録する登録手段とを備えたことを特徴としている。

この構成によれば、例えば端末機によってユーザが所望の相手先へメール文書を送信する際に、そのメール文書を音声入力にて作成することを前提とした場合、音声認識装置で音声認識されて返信されてきたテキストデータに誤認識があった場合、その誤認識箇所が修正される。この修正テキストデータは、メール文書として相手先へ送信されるが、この送信処理と並列に修正テキストデータは音声認識装置でも受信される。そして、その受信された修正テキストデータと基の音声認識テキストデータとから修正語句が抽出され、これが個人用辞書に未登録であれば登録される。つまり、音声認識結果が誤認識の場合の修正時に、修正語句が自動的に音声認識装置の個人用辞書に登録されることになる。従って、従来のような個人用辞書への語句の登録のみを目的とした回線接続を回避することができるので、登録目的のみの通信料を無くすことができる。

また、本発明の請求項２による音声認識装置は、請求項１において、全ユーザの個人用辞書に登録された語句のうち同じ語句の登録数が、予め定められた閾値を超えた場合に、この閾値を登録数が超えた語句を前記共有辞書に登録し、この登録した語句を個人用辞書から削除する解析手段を更に備えたことを特徴としている。
この構成によれば、全個人用辞書において同じ語句が予め定められた数以上登録された場合は、その語句が自動的に共有辞書に登録され、この登録語句は個人用辞書から削除されるので、個人用辞書に登録された語句を共有辞書へ登録する際の手間隙及び人件費を無くすことができる。

また、本発明の請求項３による音声認識方法は、音声入力機能と文書作成及び修正機能を備えて通信を行う端末機と回線接続される音声認識装置によって、その端末機にて入力された音声による音声データと、端末機のユーザ毎に設定された個人用辞書及び全ユーザの端末機が共用する共有辞書に登録された語句との照合によって、音声データに対応する語句を検索し、この検索した語句によるテキストデータを生成して音声認識を行う音声認識方法において、前記端末機にて、前記音声認識により生成されたテキストデータの誤認識箇所が修正された修正テキストデータを受信し、この修正テキストデータと前記音声認識によるテキストデータとの比較から修正語句を抽出し、この抽出された修正語句が、当該端末機の個人用辞書及び共有辞書に登録か未登録かを検出する第１のステップと、前記第１のステップにおいて抽出された修正語句が未登録と検出された場合に、当該修正語句を該当個人用辞書に登録する第２のステップと、全ユーザの個人用辞書に登録された語句のうち同じ語句の登録数が、予め定められた閾値を超えた場合に、この閾値を登録数が超えた語句を前記共有辞書に登録し、この登録した語句を個人用辞書から削除する第３のステップとを含むことを特徴としている。

この方法によれば、上記の請求項１及び２の作用効果として説明したように、音声認識結果が誤認識の場合の端末機での修正時に、修正語句が自動的に音声認識装置の個人用辞書に登録されるので、個人用辞書への語句の登録のみを目的とした回線接続を回避することによって、登録目的のみの通信料を無くすことができる。また、全個人用辞書において同じ語句が予め定められた数以上登録された場合は、その語句が自動的に共有辞書に登録され、この登録語句は個人用辞書から削除されるので、個人用辞書に登録された語句を共有辞書へ登録する際の手間隙及び人件費を無くすことができる。

以上説明したように本発明によれば、個人用辞書への単語やフレーズの登録のみを目的とした回線接続を回避することによって登録目的のみの通信料を無くすことができるという効果がある。
また、各個人用辞書に登録された新語等の単語やフレーズを共有辞書に自動的に登録可能とすることによって共有辞書への登録の際の手間隙及び人件費を無くすことができるという効果がある。

以下、本発明の実施の形態を、図面を参照して説明する。
図１は、本発明の実施の形態に係る音声認識装置を用いた通信システムの構成を示すブロック図である。
図１に示す通信システムにおいては、音声認識装置１０に通信ネットワーク１２を介して携帯電話機、固定電話機並びにパーソナルコンピュータ等の音声入力機能を有する端末機１４が接続されるようになっている。

端末機１４は、音声入力部１６及び文書作成部１８を備えて構成されている。
音声入力部１６は、ディクテーション入力などの音声が入力される音声インターフェースである。
文書作成部１８は、音声入力部１６への入力音声が通信ネットワーク１２を介して音声認識装置１０へ送信され、音声認識装置１０で音声認識されたのち返信されてきた音声認識結果のテキストデータを、ユーザがキー操作によって修正する際に、そのキー操作による修正処理を行うものである。

音声認識装置１０は、認識エンジン２０と、共有辞書２１と、個人用辞書２２−１〜２２−ｎと、ユーザ認証部２３と、辞書登録部２４と、修正箇所抽出部２５と、登録語句蓄積部２６及び閾値判定部２７を有する個人用辞書解析部２８とを備えて構成されている。
認識エンジン２０は、端末機１４から送信されてきた入力音声を認識するものである。
共有辞書２１は、全ユーザの端末機１４が共用することができる辞書であり、認識エンジン２０が音声認識に際に参照する語句（単語及び句）が格納されている。

個人用辞書２２−１〜２２−ｎは、ユーザ個人の辞書であり、ユーザが個人毎に登録した語句が格納されている。
ユーザ認証部２３は、音声認識のために接続したユーザを判別するものである。
辞書登録部２４は、新たに個人用辞書を登録する処理を行うものである。
修正箇所抽出部２５は、音声認識結果とユーザの修正結果との双方のテキストデータを比較して修正箇所を抽出するものである。

個人用辞書解析部２８は、各個人用辞書２２−１〜２２−ｎに登録されている語句を管理・解析するものである。
登録語句蓄積部２６は、各個人用辞書２２−１〜２２−ｎに登録されている語句を管理すると共に、同じ語句の登録数を管理するものである。
閾値判定部２７は、登録語句蓄積部２６で管理されている同じ語句の登録数が閥値を超えた場合に、この登録数が超えた語句を共有辞書２１へ登録するものである。

次に、このような構成の音声認識装置１０における個人用辞書２２−１〜２２−ｎへの登録処理の動作を、図２に示すシーケンス図を参照して説明する。
まず、ユーザが端末機１４にて所望の相手先へメール文書を送信する場合に、そのメール文書を音声入力にて作成することを前提とする。
この場合に、ステップＳ１において、端末機１４の音声入力部１６にユーザの音声が入力されると、その音声に対応した音声データが生成されて、通信ネットワーク１２を介して音声認識装置１０へ送信される。但し、その音声データのヘッダ部分には、端末機１４の所持者であるユーザＩＤ(Identification)が自動的に付加されるようになっている。

この音声データが音声認識装置１０で受信されると、ステップＳ２において、ユーザ認証部２３にて音声データのヘッダ部分からユーザＩＤが検出されることによってユーザが認証される。その認証されたユーザＩＤと音声データとが、ステップＳ３において認識エンジン２０へ出力される。
認識エンジン２０では、ステップＳ４において、ユーザＩＤから今回使用する個人用辞書（例えば２２−１）が特定され、ステップＳ５及びＳ６において、共有辞書２１と共に、それらの辞書内に含まれる語句と受信音声データとが照合されることによって、音声認識が行われる。

そして、ステップＳ７において、その音声認識結果から音声データに対応したテキストデータが作成され、このテキストデータがステップＳ８において、音声データ送信元の端末機１４へ送信される。また、ステップＳ９において、テキストデータと、音声データから得られる音素データとの組にユーザＩＤが付与されて修正箇所抽出部２５へ出力される。

ステップＳ１０において、端末機１４では、文書作成部１８の処理によって受信テキストデータがディスプレイに表示される。この表示内容をユーザが確認した際に誤認識箇所があったとすると、ユーザはキー操作によって誤認識箇所を修正する。文書作成部１８では、その修正操作に応じた誤認識箇所の修正処理が行われる。これによって得られた修正テキストデータは、元々ユーザが音声入力によって作成したメール文書が正しく修正されたものなので、メール文書として相手先へ送信される。これと同時にその修正テキストデータは、ステップＳ１１において、音声認識装置１０へも送信され、修正箇所抽出部２５に入力される。

修正箇所抽出部２５では、ステップＳ１２において、受信された修正テキストデータと、この修正テキストデータの基となった音声認識結果のテキストデータとが比較されることによって修正された語句（修正語句）が抽出される。
更に、ステップＳ１３において、その抽出された語句の読みが音素データを基に抽出される。そして、ステップＳ１４及びＳ１５において、修正箇所抽出部２５にて、修正語句と、共有辞書２１及び先にユーザＩＤから特定された個人用辞書２２−１の登録語句とが照合される。

これらの照合によって、ステップＳ１６において、修正語句が未登録であることを示す未登録語句が検出されると、ステップＳ１７及びＳ１８において、その未登録語句及び読みが、ユーザＩＤが付されて辞書登録部２４の処理によって該当個人用辞書２２−１に登録されると共に、個人用辞書解析部２８へ出力される。
そして、ステップＳ２０において、個人用辞書解析部２８にて、上記ステップＳ１８で個人用辞書２２−１に登録された語句、つまり上記ステップＳ１９で入力された登録語句の解析処理が行われる。

この個人用辞書解析部２８による解析処理を、図３に示すフローチャートを参照して説明する。
ステップＳ３１は、上記ステップＳ１９にて入力された語句、読み、ユーザＩＤの入力処理を示す。
この入力後、ステップＳ３２において、登録語句蓄積部２６に格納されている語句が参照され、ステップＳ３３において、入力語句が当該登録語句蓄積部２６に登録されているか否かが判定される。この判定結果、登録されていなければ、ステップＳ３４において、登録語句蓄積部２６に入力語句が登録され、ステップＳ３５において、その入力語句に対応付けられた登録数が１とされて登録処理が終了する。

一方、上記ステップＳ３３の判定結果、登録されていれば、ステップＳ３６において、その入力語句に対応付けられた登録数がカウントアップされる。この後、ステップＳ３７において、閾値判定部２７で、そのカウントアップされた登録数が、予め定められた閾値を超えたか否かが判定される。超えていない場合は処理が終了する。
超えた場合は、ステップＳ３８において、入力語句が共有辞書２１に登録され、ステップＳ３９において、その登録された入力語句を個人用辞書２２−１〜２２−ｎに登録している全ユーザが検出され、ステップＳ４０において、その検出されたユーザの個人用辞書から入力語句と同じ語句が削除される。そして、ステップＳ４０において、当該語句が登録語句蓄積部２６から削除され、解析処理が終了する。

以上説明したように本実施の形態の音声認識装置１０によれば、修正箇所抽出部２５によって、音声認識により生成されたテキストデータの誤認識箇所が端末機１４で修正された修正テキストデータを受信し、この修正テキストデータと音声認識によるテキストデータとの比較から修正語句を抽出し、この抽出された修正語句が、当該端末機１４の個人用辞書２２−１及び共有辞書２１に登録か未登録かを検出する。辞書登録部２４によって、修正箇所抽出部２５で抽出された修正語句が未登録と検出された場合に、当該修正語句を該当個人用辞書２２−１に登録するようにした。

これによって、例えば端末機１４によってユーザが所望の相手先へメール文書を送信する際に、そのメール文書を音声入力にて作成することを前提とした場合、音声認識装置１０で音声認識されて返信されてきたテキストデータに誤認識があった場合、その誤認識箇所が修正される。この修正テキストデータは、メール文書として相手先へ送信されるが、この送信処理と並列に修正テキストデータは音声認識装置１０でも受信される。そして、その受信された修正テキストデータと基の音声認識テキストデータとから修正語句が抽出され、これが個人用辞書２２−１に未登録であれば登録される。つまり、音声認識結果が誤認識の場合の修正時に、修正語句が自動的に音声認識装置１０の個人用辞書２２−１に登録されることになる。従って、従来のような個人用辞書２２−１への語句の登録のみを目的とした回線接続を回避することができるので、登録目的のみの通信料を無くすことができる。

また、個人用辞書解析部２８によって、全ユーザの個人用辞書２２−１〜２２−ｎに登録された語句のうち同じ語句の登録数が、予め定められた閾値を超えた場合に、この閾値を登録数が超えた語句を共有辞書２１に登録し、この登録した語句を個人用辞書２２−１〜２２−ｎから削除するようにした。
これによって、全個人用辞書２２−１〜２２−ｎにおいて同じ語句が予め定められた数以上登録された場合は、その語句が自動的に共有辞書２１に登録され、この登録語句は個人用辞書２２−１〜２２−ｎから削除されるので、個人用辞書２２−１〜２２−ｎに登録された語句を共有辞書２１へ登録する際の手間隙及び人件費を無くすことができる。

この他、個人用辞書解析部２８が、全ユーザの個人用辞書２２−１〜２２−ｎの登録語句のうち同じ語句の登録率を算出し、一定以上の登録率となった語句を共有辞書２１に登録し、この登録語句を個人用辞書２２−１〜２２−ｎから削除するようにしてもよい。この場合も、上記実施の形態と同様の効果を得ることができる。

本発明の実施の形態に係る音声認識装置を用いた通信システムの構成を示すブロック図である。上記実施の形態に係る音声認識装置における個人用辞書への登録処理の動作を説明するためのシーケンス図である。上記実施の形態に係る音声認識装置における個人用辞書解析部による解析処理の動作を説明するためのフローチャートである。

符号の説明

１０音声認識装置
１２通信ネットワーク
１４端末機
１６音声入力部
１８文書作成部
２０認識エンジン
２１共有辞書
２２−１〜２２−ｎ個人用辞書
２３ユーザ認証部
２４辞書登録部
２５修正箇所抽出部
２６登録語句蓄積部
２７閾値判定部
２８個人用辞書解析部

Claims

音声入力機能と文書作成及び修正機能を備えて通信を行う端末機と回線接続され、この端末機にて入力された音声による音声データと、端末機のユーザ毎に設定された個人用辞書及び全ユーザの端末機が共用する共有辞書に登録された語句との照合によって、音声データに対応する語句を検索し、この検索した語句によるテキストデータを生成して音声認識を行う音声認識装置において、
前記端末機にて、前記音声認識により生成されたテキストデータの誤認識箇所が修正された修正テキストデータを受信し、この修正テキストデータと前記音声認識によるテキストデータとの比較から修正語句を抽出し、この抽出された修正語句が、当該端末機の個人用辞書及び共有辞書に登録か未登録かを検出する抽出手段と、
前記抽出手段で抽出された修正語句が未登録と検出された場合に、当該修正語句を該当個人用辞書に登録する登録手段と
を備えたことを特徴とする音声認識装置。
全ユーザの個人用辞書に登録された語句のうち同じ語句の登録数が、予め定められた閾値を超えた場合に、この閾値を登録数が超えた語句を前記共有辞書に登録し、この登録した語句を個人用辞書から削除する解析手段
を更に備えたことを特徴とする請求項１に記載の音声認識装置。
音声入力機能と文書作成及び修正機能を備えて通信を行う端末機と回線接続される音声認識装置によって、その端末機にて入力された音声による音声データと、端末機のユーザ毎に設定された個人用辞書及び全ユーザの端末機が共用する共有辞書に登録された語句との照合によって、音声データに対応する語句を検索し、この検索した語句によるテキストデータを生成して音声認識を行う音声認識方法において、
前記端末機にて、前記音声認識により生成されたテキストデータの誤認識箇所が修正された修正テキストデータを受信し、この修正テキストデータと前記音声認識によるテキストデータとの比較から修正語句を抽出し、この抽出された修正語句が、当該端末機の個人用辞書及び共有辞書に登録か未登録かを検出する第１のステップと、
前記第１のステップにおいて抽出された修正語句が未登録と検出された場合に、当該修正語句を該当個人用辞書に登録する第２のステップと、
全ユーザの個人用辞書に登録された語句のうち同じ語句の登録数が、予め定められた閾値を超えた場合に、この閾値を登録数が超えた語句を前記共有辞書に登録し、この登録した語句を個人用辞書から削除する第３のステップと
を含むことを特徴とする音声認識方法。