しかしながら、上記特許文献1に記載の外国語翻訳器では、トレーニング機能において、ユーザが2度発声した母国語フレーズが一致したとデジタルプロセッサが判断した場合、ユーザの発声した母国語フレーズをメモリに登録した後、ユーザに別の母国語フレーズを発声させるように構成されており、母国語フレーズが登録された旨が直接的にユーザに通知されないという不都合があると考えられる。このため、トレーニング機能の際に、ユーザの発声した母国語フレーズがどのような母国語フレーズの音声として外国語翻訳器に認識されたかについてユーザに通知されないので、ユーザは、外国語翻訳器における母国語フレーズの音声の認識の状態を確認することができないという問題点がある。
また、上記特許文献2に記載の対話支援装置では、音声認識処理部において顧客の電話から入力された音声に対して単語を抽出する際に、顧客の音声に含まれる顧客の意図する単語が、顧客の意図する単語と異なる単語として誤って認識される場合があるという問題点がある。
また、上記特許文献3に記載の通訳装置では、音声認識装置において利用者の音声を文字として認識する際に、利用者の音声に含まれる利用者の意図する単語が、利用者の意図する単語と異なる単語として誤って認識される場合があるという問題点がある。
また、上記特許文献4に記載のデータ認識システムでは、音声データ変換部において入力された音声を音声データに変換する際に、発声者の音声に含まれる発声者の意図する単語が、発声者の意図する単語と異なる単語として誤って認識される場合があるという問題点がある。
また、上記特許文献5に記載の音声応答装置では、音声認識部において電話端末からの入力音声情報を認識する際に、電話端末からの入力音声情報に含まれる電話端末を用いる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識される場合があるという問題点がある。
この発明は、上記のような課題を解決するためになされたものであり、この発明の1つの目的は、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのを抑制するとともに、話者が発する音声に関する情報を登録する際に、音声の認識の状態を話者が確認することが可能な自動翻訳対応電話機を提供することである。
課題を解決するための手段および発明の効果
この発明の第1の局面による自動翻訳対応電話機は、第1言語によって話者が発する音声が入力される音声入力部と、話者が発する音声に関する情報を予め登録して記憶するためのメモリと、予め登録された話者が発する音声に関する情報に基づいて、話者が発する音声を、第1言語と異なる第2言語に変換する前の第1言語に対応する文字として認識するための音声認識部と、話者が発する音声に関する情報を登録する際に、音声認識部により認識された第1言語の文字を音声として出力する音声出力部と、話者が発する音声に関する情報を登録する際に、話者が発する音声を第1言語に対応する文字として認識した結果に基づいて、話者が確認可能なように第1言語に対応する文字を音声として出力するように音声出力部を制御する制御部とを備える。
この発明の第1の局面による自動翻訳対応電話機では、上記のように、予め登録された話者が発する音声に関する情報に基づいて、話者が発する音声を、第1言語と異なる第2言語に変換する前の第1言語に対応する文字として認識するための音声認識部を備えることによって、人によってそれぞれ異なる音声の癖に対応させるように話者が発する音声に関する情報を活用することができるので、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのを抑制することができる。また、制御部が、話者が発する音声に関する情報を登録する際に、話者が発する音声を第1言語に対応する文字として認識した結果に基づいて、話者が確認可能なように第1言語に対応する文字を音声として出力するように音声出力部を制御することによって、音声出力部から出力される音声により、音声の認識の状態を話者が確認することができる。これによっても、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのを抑制することができる。
上記第1の局面による自動翻訳対応電話機において、好ましくは、話者が発する音声に関する情報を登録する際に、音声認識部により認識された第1言語の文字に対応して音声出力部により出力された音声が、話者が発した第1言語の文字に対応する音声と異なる場合、音声出力部により出力された音声に対応する文字の修正を受け付ける修正受付手段をさらに備える。このように構成すれば、話者が発する音声に関する情報を登録する際に、音声認識部において、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識された場合に、修正受付手段によって、音声認識部において正しく認識されるように修正することができるので、自動翻訳対応電話機は、より正確な音声に関する情報を得ることができる。これにより、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのをより抑制することができる。
この場合、好ましくは、修正受付手段は、第1言語の文字に対応する修正候補を表示する表示部を含む。このように構成すれば、話者が発する音声に関する情報を登録する際に、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識された場合に、表示部に修正候補を表示することによって、話者は、修正候補を視覚的に認識することができるので、話者は確実に修正候補を認識することができる。これにより、話者は、容易に音声認識部において正しく認識されるように修正することができるので、自動翻訳対応電話機は、より正確な音声に関する情報を得ることができる。この結果、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのをさらに抑制することができる。
上記修正受付手段が修正候補を表示する表示部を含む自動翻訳対応電話機において、好ましくは、制御部は、話者が発する第1言語からなる例文の文節の各々に番号が付された第1言語からなる例文を表示部に表示させるように構成されているとともに、話者によって番号が選択されることに基づいて、選択された番号に対応する文節の少なくとも単語の修正候補を表示部に表示させるように構成されている。このように構成すれば、話者が発する音声に関する情報を登録する際に、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識された場合に、文節の各々に番号が付されることによって区切られた例文を表示部に表示させるとともに、話者により選択された番号に対応する文節の少なくとも単語の修正候補を表示させることによって、話者は、容易に修正箇所を特定することができるとともに、容易に修正候補を選択することができる。
上記選択された番号における修正候補を表示させる自動翻訳対応電話機において、好ましくは、制御部は、さらに、話者によって選択された番号に対応する修正候補を音声として音声出力部に出力させるように構成されている。このように構成すれば、音声出力部から出力される音声により、話者は、正しく修正されたか否かを確認することができる。
上記第1言語の文字に対応する修正候補を表示する表示部を含む自動翻訳対応電話機において、好ましくは、修正受付手段は、話者が発する音声に関する情報を登録する際に、音声認識部により認識された第1言語の同音異義語に対応して音声出力部により出力された音声が、話者が発した第1言語の同音異義語に対応する音声と異なる場合、話者の所定の操作に基づいて、音声出力部により出力された音声に対応する同音異義語の修正候補を表示部に表示させるように構成されている。このように構成すれば、認識が困難な同音異義語の修正候補を表示部に表示することにより、音声認識部において同音異義語が正しく認識されるように、話者は視覚的に容易に修正することができるので、自動翻訳対応電話機は、同音異義語に関してより正確な音声に関する情報を得ることができる。これにより、話者が発する音声に含まれる話者の意図する同音異義語が、話者の意図する同音異義語と異なる同音異義語として誤って認識されるのをより抑制することができる。
この発明の第2の局面による自動翻訳対応電話システムは、第1言語によって話者が発する音声が入力される音声入力部と、話者が発する音声に関する情報を予め登録して記憶するためのメモリと、予め登録された話者が発する音声に関する情報に基づいて、話者が発する音声を、第1言語と異なる第2言語に変換する前の第1言語に対応する文字として認識するための音声認識部と、第1言語に対応する文字を第2言語に対応する文字に変換するための文字変換部と、話者が発する音声に関する情報を登録する際に、音声認識部により認識された第1言語の文字を音声として出力する音声出力部と、話者が発する音声に関する情報を登録する際に、話者が発する音声を第1言語に対応する文字として認識した結果に基づいて、話者が確認可能なように第1言語に対応する文字を音声として出力するように音声出力部を制御する制御部とを備える。
この発明の第2の局面による自動翻訳対応電話システムでは、上記のように、予め登録された話者が発する音声に関する情報に基づいて、話者が発する音声を、第1言語と異なる第2言語に変換する前の第1言語に対応する文字として認識するための音声認識部を備えることによって、人によってそれぞれ異なる音声の癖に対応させるように話者が発する音声に関する情報を活用することができるので、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのを抑制することができる。また、制御部が、話者が発する音声に関する情報を登録する際に、話者が発する音声を第1言語に対応する文字として認識した結果に基づいて、話者が確認可能なように第1言語に対応する文字を音声として出力するように音声出力部を制御することによって、音声出力部から出力される音声により、音声の認識の状態を話者が確認することができる。これによっても、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのを抑制することができる。
以下、本発明を具体化した実施形態を図面に基づいて説明する。
まず、図1〜図6を参照して、本発明の一実施形態による自動翻訳対応電話システム1の構成について説明する。
本発明の一実施形態による自動翻訳対応電話システム1は、図1に示すように、発信元電話番号が予め割り当てられている発信元電話機10と、送信先電話番号が予め割り当てられている送信先電話機30と、発信元電話機10および送信先電話機30とそれぞれ接続され、発信元電話機10と送信先電話機30との間で音声信号および文字信号を送受信するための電話回線40および41と、電話回線40および41を接続するための回線交換機50とから構成されている。この回線交換機50は、電話回線40と電話回線41とを接続した際に、電話回線40を介して、発信元電話機10に送信先電話機30と接続した旨の接続信号を出力するように構成されている。なお、発信元電話機10は、本発明の「自動翻訳対応電話機」の一例である。
また、話者が発信元電話機10において後述する操作パネル16の数字ボタン部16cにより送信先電話番号をダイヤルすることによって、発信元電話機10は、電話回線40および41と回線交換機50とを介して、送信先電話機30と接続可能なように構成されている。また、発信元電話機10と送信先電話機30とが接続されている状態においては、発信元電話機10および送信先電話機30から出力された音声信号および文字信号は、それぞれ、電話回線40および41と回線交換機50とを介して、送信先電話機30および発信元電話機10に入力されるように構成されている。また、話者が発信元電話機10において送信先電話番号をダイヤルすることにより、送信先電話機30と接続された際には、回線交換機50から電話回線40を介して、送信先電話機30と接続された旨を通知する接続信号が入力されるように構成されている。
また、発信元電話機10は、筐体11と、話者が発する音声が入力される集音器12aおよび音声が出力されるスピーカ12bが設けられた受話器12とを備えている。また、発信元電話機10は、図2に示すように、制御部13と、集音器12aから入力されたアナログの音声をデジタルの音声信号に変換するとともに、デジタルの音声信号をアナログの音声に変換する音声変換器14と、音声信号および文字信号を電話回線40を介して外部(送信先電話機30)に送信(出力)するとともに、外部(送信先電話機30)から音声信号および文字信号を受信(入力)するための電話回線制御回路15とを備えている。なお、集音器12aは、本発明の「音声入力部」の一例であり、スピーカ12bは、本発明の「音声出力部」の一例である。
また、発信元電話機10には、図1に示すように、操作パネル16と表示パネル17とが設けられている。この操作パネル16は、12個のボタンを含むボタン部16aと、発信元電話機10に搭載された複数のメニュープログラムのうちいずれか1つを選択可能に構成されている選択決定ボタン16bとからなる。また、ボタン部16aは、数字が付された数字ボタン部16cと、アスタリスク(*)が付されたアスタリスクボタン16dと、シャープ(♯)が付されたシャープボタン16eとを含んでいる。また、数字ボタン部16cは、「1」〜「9」の数字がそれぞれ付された数字ボタン16f〜16nと、「0」の数字が付された数字ボタン16oとからなる。また、表示パネル17は、日本語からなる文字を表示させることが可能なように構成されている。また、発信元電話機10は、複数のメニュープログラムの1つとして音声登録メニュープログラムが設定されており、制御部13によって、発信元電話機10の音声登録メニュープログラムにおいて、話者によって入力された日本語の音声に関する情報が話者が発する音声に関する情報として後述するメモリ18に登録(音声登録)して記憶されるように構成されている。なお、表示パネル17は、本発明の「修正受付手段」および「表示部」の一例である。
また、発信元電話機10は、図2に示すように、話者の音声に関する情報が登録して記憶可能なように構成されているメモリ18と、音声認識部19と、翻訳エンジン部20と、日本語の文字(単語)と英語の文字(単語)とが対応付けられた状態で記憶された電子辞書部21とをさらに備えている。また、音声認識部19では、制御部13によって、話者によりメモリ18に予め登録された話者の音声に関する情報に基づいて、話者が発する日本語からなる音声(音声信号)が話者が発する音声に対応する日本語の文字(文字信号)として認識されるように構成されているとともに、日本語の文字信号を日本語の音声信号に変換するように構成されている。
また、音声認識部19では、制御部13によって、話者のアクセント、話者の間の取り方および話者の話す速さなどからなる話者の音声に関する情報に基づいて、話者の音声が文節に区切って文字として認識されるように構成されている。また、音声認識部19では、複数の同音異義語のそれぞれに対して、話者のアクセントの強弱(高低)やイントネーションなどの音声に関する情報が予め話者により登録されることにより、音声認識部19において、同音異義語の単語と、同音異義語の音声とがそれぞれ対応付けられている。また、音声認識部19では、それぞれの同音異義語に対して予め話者により登録されたアクセントの強弱やイントネーションなどに基づいて、スピーカ12bから音声として出力されるように構成されている。また、音声認識部19では、制御部13によって、同音異義語のそれぞれの単語の音声に関する情報の一定範囲が認識範囲(近似範囲)として定められており、その認識範囲(近似範囲)内に含まれる音声信号が同音異義語の所定の単語であると認識されるように構成されている。また、話者の音声に関する情報が話者によりメモリ18に登録して記憶されていない状態においては、音声認識部19では、制御部13によって、発信元電話機10の製造時に予めデフォルトで登録されている音声に関する情報に基づいて、話者が発する日本語からなる音声(音声信号)が話者が発する音声に対応する日本語の文字(文字信号)として認識されるように構成されている。
また、翻訳エンジン部20では、制御部13によって、電子辞書部21を用いて、話者が発する音声に対応する日本語の文字信号が、日本語の文字信号に対応する英語の文字信号に変換されるように構成されている。なお、翻訳エンジン部20および電子辞書部21は、本発明の「文字変換部」の一例である。また、日本語は、本発明の「第1言語」の一例であり、英語は、本発明の「第2言語」の一例である。
ここで、本実施形態では、話者が発する音声に関する情報が話者により登録(音声登録)される際には、音声登録メニュープログラムにおいて、図3に示すように、制御部13によって、文章番号が付された日本語の読み上げ例文17a〜17cが表示パネル17に表示されるとともに、集音器12aを介して入力される話者に読み上げられた日本語の読み上げ例文17a〜17cの音声が音声認識部19(図2参照)において日本語の文字として認識されるとともに、話者が確認可能なように日本語の文字が音声としてスピーカ12b(図2参照)から出力(再生)されるように構成されている。その後、図4に示すように、読み上げ例文17a〜17cにそれぞれ対応する修正用例文17d〜17fが、文節ごとに区分可能なように文節ごとに文節番号が付された状態で、表示パネル17に表示されるように構成されている。そして、話者によって文頭番号と文節番号とが選択されることによって、図5に示すように、選択された文節に対応する修正候補17gおよび17hが、表示パネル17に表示されるように構成されている。また、音声登録が終了される際には、図6に示すように、音声登録が終了される旨が表示パネル17に表示されるように構成されている。
また、日本語の例文および修正候補(読み上げ例文17a〜17cと読み上げ例文17a〜17cに対応する修正用例文17d〜17fと修正候補17gおよび17h)およびはメモリ18に複数個記憶されているとともに、同音異義語の関係を有する単語を含む複数の例文が、1つの例文群として音声登録時に用いられるように構成されている。
また、音声認識部19において認識された日本語の文字と、話者の発した日本語の例文の音声とが異なる場合、話者によって音声認識部19における音声認識を修正させることが可能なように構成されている。なお、音声認識部19において認識された日本語の文字と、話者の発した日本語の例文の音声とが異なる場合として、音声認識部19において認識された日本語の文字が発音と合っていない場合(同音異義語によらない場合)と、音声認識部19において認識された日本語の文字は合っているが発音が合っておらず、文字の意味する単語が異なる場合(同音異義語による場合)とがある。
同音異義語によらない場合として、音声認識部19において認識された日本語の文字信号としてスピーカ12bから再生された音声と、話者の発した日本語の例文の音声とが異なる場合(たとえば、話者が「ハシ」と音声入力した箇所において、スピーカ12bから「ハジ」と音声出力された場合)には、本実施形態では、再度、話者に日本語の例文を読み上げさせるように構成されている。
一方、同音異義語による場合として、音声認識部19において認識された日本語の文字信号としてスピーカ12bから再生された音声と、話者の発した日本語の例文の音声とが、アクセントの強弱やイントネーションなどにおいて異なる場合(たとえば、話者が「橋」を意図して「ハシ」と音声入力した箇所において、スピーカ12bから「端」を意味すると話者にとっては感じられるイントネーションなど(音声に関する情報)によって「ハシ」と音声出力された場合)には、音声認識の修正動作が行われるように構成されている。
次に、図1、図2および図4〜図9を参照して、本発明の一実施形態による自動翻訳対応電話システム1の音声認識の修正動作について説明する。
まず、図7に示す一例のように、音声「ハシ」がアクセントの強弱やイントネーションなどに基づいて「1」から「3」まで区別されており、音声「ハシ」の「1」におけるアクセントの強弱やイントネーションなどが、話者にとって「橋」を意味する一方、音声認識部19(図2参照)にとって「端」を意味するように予め登録されている場合を想定する。また、音声「ハシ」の「2」におけるアクセントの強弱やイントネーションなどが、話者にとって「端」を意味する一方、音声認識部19にとって「橋」を意味するように予め登録されている場合を想定する。さらに、音声「ハシ」の「3」におけるアクセントの強弱やイントネーションなどが、話者および音声認識部19にとって「箸」を意味する場合について説明する。つまり、「1」におけるアクセントの強弱やイントネーションなどと、「2」におけるアクセントの強弱やイントネーションなどとが、話者と音声認識部19とにおいて異なる場合の音声認識の修正動作について説明する。
話者が発する音声に関する情報の登録時に、話者が確認可能なようにスピーカ12b(図2参照)から出力される音声を話者が聞いた際に、上述した音声「ハシ」に関する、話者の音声のアクセントの強弱やイントネーションなどと、スピーカ12bから音声のアクセントの強弱やイントネーションなどとが異なることを話者が認識した場合、音声認識の修正動作として、図4に示す修正用例文17d〜17fを参照して、「1」が付された数字ボタン16f(図1参照)と「3」が付された数字ボタン16h(図1参照)とを順に話者は押下する。これによって、修正箇所(修正用例文17dの(3)の「橋」に関する文節)が選択される。これにより、図5に示すように、「橋」に変更すべき修正候補17gおよび17hが表示パネル17に表示される。この場合、話者は修正候補17hを選択する。これにより、図7に示すように、音声認識部19にとって「端」を意味するように予め登録されていたアクセントの強弱やイントネーションなどが、「橋」を意味するとともに、「橋」を意味するように予め登録されていたアクセントの強弱やイントネーションなどが、「端」を意味するように入れ替えられる。この際、音声認識部19にとって「端」と認識するように設定されていた認識範囲(近似範囲)と、「橋」と認識するように設定されていた認識範囲(近似範囲)とが入れ替えられるとともに、話者の音声に関する情報として認識される。これにより、図7に示すように、音声「ハシ」の「1」〜「3」におけるアクセントの強弱やイントネーションなどが、話者と音声認識部19とにおいて合致する。
そして、新たに認識した話者の音声に関する情報に基づいて、読み上げ例文17a〜17cがスピーカ12bから音声として出力されるとともに、図4に示す修正用例文17d〜17fが表示パネル17に表示される。ここで、話者は、再度スピーカ12bから音声として出力された音声を聞くことによって、音声「ハシ」に関する、話者の音声のアクセントの強弱やイントネーションなどと、スピーカ12bから音声のアクセントの強弱やイントネーションなどとが合致したことを認識する。この結果、話者は、音声登録が終了した旨を発信元電話機10に入力することによって、図6に示すように、音声登録が終了される旨が表示パネル17に表示され、音声登録が終了される。
次に、図8に示す他の例のように、音声「ハシ」の「1」におけるアクセントの強弱やイントネーションなどが、話者にとって「橋」を意味する一方、音声認識部19にとって「箸」を意味するように予め登録されている場合を想定する。また、音声「ハシ」の「2」におけるアクセントの強弱やイントネーションなどが、話者にとって「端」を意味する一方、音声認識部19にとって「橋」を意味するように予め登録されている場合を想定する。さらに、音声「ハシ」の「3」におけるアクセントの強弱やイントネーションなどが、話者にとって「箸」を意味する一方、音声認識部19にとって「端」を意味するように予め登録されている場合について説明する。つまり、「1」、「2」および「3」におけるアクセントの強弱やイントネーションなどが、話者と音声認識部19とにおいてそれぞれ異なる場合の音声認識の修正動作について説明する。
話者が発する音声に関する情報の登録時に、話者が確認可能なようにスピーカ12bから出力される音声を話者が聞いた際に、上述した音声「ハシ」に関する、話者の音声のアクセントの強弱やイントネーションなどと、スピーカ12bから音声のアクセントの強弱やイントネーションなどとが異なることを話者が認識した場合、第1回目の音声認識の修正動作(1)として、図4に示す修正用例文17d〜17fを参照して、「1」が付された数字ボタン16fと「3」が付された数字ボタン16hとを順に話者は押下する。これによって、修正箇所(修正用例文17dの(3)の「橋」に関する文節)が選択される。これにより、図5に示すように、「橋」に変更すべき修正候補17gおよび17hが表示パネル17に表示される。この場合、話者は、修正候補17hを選択する。これにより、図8に示すように、音声認識部19にとって「橋」を意味するように予め登録されていたアクセントの強弱やイントネーションなどが、「箸」を意味するとともに、「箸」を意味するように予め登録されていたアクセントの強弱やイントネーションなどが、「橋」を意味するように入れ替えられる。この際、音声認識部19にとって「箸」と認識するように設定されていた認識範囲(近似範囲)と、「橋」と認識するように設定されていた認識範囲(近似範囲)とが入れ替えられるとともに、話者の音声に関する情報として認識される。また、この際、音声「ハシ」の「2」におけるアクセントの強弱やイントネーションなどが、話者にとって「端」を意味する一方、音声認識部19にとって「箸」を意味するとともに、音声「ハシ」の「3」におけるアクセントの強弱やイントネーションなどが、話者にとって「箸」を意味する一方、音声認識部19にとって「端」を意味する。つまり、「2」および「3」におけるアクセントの強弱やイントネーションなどが、話者と音声認識部19とにおいて未だ異なっている。
そして、新たに認識した話者の音声に関する情報に基づいて、読み上げ例文17a〜17cがスピーカ12bから音声として出力されるとともに、図4に示す修正用例文17d〜17fが表示パネル17に表示される。ここで、話者は、再度スピーカ12bから音声として出力された音声を聞くことによって、音声「ハシ」に関する、話者の音声のアクセントの強弱やイントネーションなどと、スピーカ12bから音声のアクセントの強弱やイントネーションなどとが未だ一致していないことを認識する。この結果、話者は、第2回目の音声認識の修正動作(2)を行う。
第2回目の音声認識の修正動作(2)として、図4に示す修正用例文17d〜17fを参照して、「2」が付された数字ボタン16gと「2」が付された数字ボタン16gとを順に話者は押下する。これによって、修正箇所(修正用例文17eの(2)の「端」に関する文節)が選択される。これにより、図9に示すように、「端」に変更すべき修正候補17iおよび17jが表示パネル17に表示される。この場合、話者は修正候補17iを選択する。これにより、図8に示すように、音声認識部19にとって「箸」を意味するように登録されていたアクセントの強弱やイントネーションなどが、「端」を意味するとともに、「端」を意味するように予め登録されていたアクセントの強弱やイントネーションなどが、「箸」を意味するように入れ替えられる。この際、音声認識部19にとって「箸」と認識するように設定されていた認識範囲(近似範囲)と、「端」と認識するように設定されていた認識範囲(近似範囲)とが入れ替えられるとともに、話者の音声に関する情報として認識される。これにより、図8に示すように、音声「ハシ」の「1」〜「3」におけるアクセントの強弱やイントネーションなどが、話者と音声認識部19とにおいて合致する。
そして、新たに認識した話者の音声に関する情報に基づいて、読み上げ例文17a〜17cがスピーカ12bから音声として出力される。ここで、話者は、再度スピーカ12bから音声として出力された音声を聞くことによって、音声「ハシ」に関する、話者の音声のアクセントの強弱やイントネーションなどと、スピーカ12bから音声のアクセントの強弱やイントネーションなどとが合致したことを認識する。この結果、話者は、音声登録が終了した旨を発信元電話機10に入力することによって、図6に示すように、音声登録が終了される旨が表示パネル17に表示され、音声登録が終了される。
次に、図2〜図6、図10および図11を参照して、本発明の一実施形態による自動翻訳対応電話システム1の発信元電話機10の音声登録時の制御動作について説明する。
まず、図10に示すように、ステップS1において、発信元電話機10の制御部13(図2参照)によって、複数のメニュープログラムのうち、選択決定ボタン16b(図2参照)によって音声登録メニュープログラムが選択されたか否かが判断されるとともに、音声登録メニュープログラムが選択されるまで、ステップS1の判断が繰り返される。そして、ステップS1において、制御部13によって、音声登録メニュープログラムが選択されたと判断された場合には、ステップS2に進み、制御部13によって、図3に示すように、話者に通知するために、「1」〜「3」の文章番号がそれぞれ付されているとともに、話者に読み上げさせるための3つの読み上げ例文17a〜17cと、読み終わった後にシャープボタン16eを押下させるメッセージ(「読み終わったら「♯」を押してください。」)と、シャープボタン16eの押下後に音声認識の結果を再生するメッセージ(「音声認識が認識した結果を音声にて再生します。」)とが表示パネル17に表示される。なお、読み上げ例文17aには「橋」、読み上げ例文17bには「端」および読み上げ例文17cには「箸」がそれぞれ含まれており、「橋」、「端」および「箸」は、それぞれ「ハシ」の音を有する同音異義語の関係を有している。そして、ステップS3に進む。
そして、ステップS3において、制御部13によって、集音器12aに話者が発する日本語の音声が入力されたか否かが判断されるとともに、集音器12aに話者が発する日本語の音声が入力されるまで、ステップS3の判断が繰り返される。そして、ステップS3において、制御部13によって、集音器12aに話者が発する日本語の音声が入力されたと判断された場合には、ステップS4において、制御部13によって、話者が発した日本語の音声を音声変換器14(図2参照)によって日本語の音声信号に変換した後に、日本語の音声信号が音声認識部19(図2参照)において文節で区切り日本語の文字信号として認識される。この際、制御部13によって、話者のアクセント、話者の間の取り方および話者の話す速さなどからなる発信元電話機10の製造時に予め登録されている音声に関する情報に基づいて、話者が発した音声が文節で区切られて認識される。
その後、ステップS5において、制御部13によって、シャープボタン16e(図2参照)が押下されたか否かが判断される。そして、ステップS5において、制御部13によって、シャープボタン16eが押下されたと判断された場合には、ステップS6に進む。また、ステップS5において、制御部13によって、シャープボタン16eが押下されていないと判断された場合には、ステップS3に戻る。
そして、ステップS6において、制御部13によって、図4に示すように、「1」の文章番号が付された読み上げ例文17a(図3参照)を構成する文節ごとに(1)〜(5)の文節番号がそれぞれ付された修正用例文17dと、「2」の文章番号が付された読み上げ例文17b(図3参照)を構成する文節ごとに(1)〜(5)の文節番号がそれぞれ付された修正用例文17eと、「3」の文章番号が付された読み上げ例文17c(図3参照)を構成する文節ごとに(1)〜(4)の文節番号がそれぞれ付された修正用例文17fとが表示パネル17に表示される。また、制御部13によって、話者に通知するために、間違いがない場合は選択決定ボタン16bを押下させるメッセージ(「間違いがない場合は、選択決定ボタンを押してください。」)と、同音異義語に間違いがあった場合は、文章番号と文節番号とに対応する数字が付された数字ボタン部16cを押下させた後に、シャープボタン16eを押下させるメッセージ(「同音異義語の間違いがあった場合は、文章番号⇒文節番号の順番に指定して最後に「♯」を押してください。」)と、同音異義語以外に間違いがあった場合は、アスタリスクボタン16dを押下させるメッセージ(「同音異義語以外の間違いがあった場合は、「*」を押してください。」)とが表示パネル17に表示される。そして、ステップS7に進み、制御部13によって、音声認識部19において認識された文字信号が音声信号に変換されるとともに、音声信号が音声変換器14によってアナログの音声に変換されてスピーカ12b(図2参照)から出力(再生)される。そして、ステップS8の音声認識の修正動作に進む。なお、文節番号は、本発明の「番号」の一例である。
ここで、図11に示す音声認識の修正動作時では、まず、ステップS8aにおいて、制御部13によって、選択決定ボタン16b(図2参照)が押下されたか否かが判断される。そして、ステップS8aにおいて、制御部13によって、選択決定ボタン16bが押下されていないと判断された場合には、ステップS8bに進む。また、ステップS8aにおいて、制御部13によって、選択決定ボタン16bが押下されたと判断された場合には、ステップS8hに進む。
また、ステップS8bにおいて、制御部13によって、アスタリスクボタン16d(図2参照)が押下されたか否かが判断される。そして、ステップS8bにおいて、制御部13によって、アスタリスクボタン16dが押下されたと判断された場合には、図10に示すステップS2に戻る。なお、アスタリスクボタン16dが押下されてステップS2に戻ることによって、再度、話者に3つの読み上げ例文17a〜17cを読み上げさせることになる。また、ステップS8bにおいて、制御部13によって、アスタリスクボタン16dが押下されていないと判断された場合には、ステップS8cに進む。
そして、ステップS8cにおいて、制御部13によって、3つの修正用例文17d〜17fの文頭に付された文章番号(図4参照)と、それぞれの文節ごとに付された文節番号(図4参照)とに対応する数字が付された数字ボタン部16cがそれぞれ押下された後に、シャープボタン16eが押下されたか否かが判断される。そして、ステップS8cにおいて、制御部13によって、文章番号と文節番号とに対応する数字が付された数字ボタン部16cがそれぞれ押下された後に、シャープボタン16eが押下されたと判断された場合には、ステップS8dに進む。これにより、修正用例文17d、17eまたは17fのいずれかの修正用例文のいずれかの文節が選択されることによって、修正箇所が選択決定される。また、ステップS8cにおいて、制御部13によって、文章番号と文節番号とに対応する数字が付された数字ボタン部16cがそれぞれ押下された後に、シャープボタン16eが押下されていないと判断された場合には、ステップS8aに戻る。
また、ステップS8dにおいて、制御部13によって、図5に示すように、選択決定された修正箇所における文章番号と文節番号とに対応する文節に含まれる単語の修正候補17gおよび17hが、修正番号「1」および「2」がそれぞれ付された状態で表示パネル17に表示される。また、制御部13によって、話者に通知するために、修正候補の修正番号を押下した後に、シャープボタン16eを押下させるメッセージ(「正しい番号を選択し、「♯」を押してください。」)と、修正結果をスピーカ12bから再生するメッセージ(「修正結果を音声にて再生します。」)とが表示パネル17に表示される。そして、ステップS8eに進む。
また、ステップS8eにおいて、制御部13によって、修正候補17gに付された修正番号「1」に対応する数字ボタン16fまたは修正候補17hに付された修正番号「2」に対応する数字ボタン16gが押下された後に、シャープボタン16eが押下されたか否かが判断されるとともに、修正番号「1」に対応する数字ボタン16fまたは修正番号「2」に対応する数字ボタン16gが押下された後に、シャープボタン16eが押下されるまで、ステップS8eの判断が繰り返される。そして、ステップS8eにおいて、制御部13によって、修正番号「1」に対応する数字ボタン16fまたは修正番号「2」に対応する数字ボタン16gが押下された後に、シャープボタン16eが押下されたと判断された場合には、ステップS8fに進む。
そして、ステップS8fにおいて、制御部13によって、ステップS8cにおいて選択された文章番号と文節番号とに対応する文節に含まれる単語が、ステップS8eにおいて選択された修正番号「1」または「2」を有する修正候補17gまたは17hに含まれる単語であるということが話者の音声に関する情報として認識される。具体的には、話者の意図する音声のアクセントの強弱やイントネーションなどと単語との対応関係と、音声認識部19における音声のアクセントの強弱やイントネーションなどと単語との対応関係とが合致するように、制御部13によって、音声認識部19に登録されていた単語の修正候補17gまたは17hの左側に配置されている単語のアクセントの強弱やイントネーションなどと、右側に配置されている単語のアクセントの強弱やイントネーションなどとが入れ替えられるとともに、音声に関する情報の認識範囲(近似範囲)が入れ替えられることによって、話者の音声に関する情報として認識される。そして、ステップS8gに進み、制御部13によって、新たに認識した話者の音声に関する情報に基づいて、読み上げ例文17a〜17cがスピーカ12bから音声として出力されるとともに、図4に示す修正用例文17d〜17fが表示パネル17に表示される。そして、ステップS8aに戻る。
また、ステップS8aにおいて、制御部13によって、選択決定ボタン16bが押下されたと判断された場合、ステップS8hにおいて、制御部13によって、話者の音声に関する情報がメモリ18に記憶される。そして、ステップS8iに進み、制御部13によって、図6に示すように、話者に通知するために、話者の音声に関する情報の登録が完了したメッセージ(「登録が完了しました。」)が表示パネル17に表示される。そして、発信元電話機10の音声登録時の制御が終了される。
次に、図2および図12を参照して、本発明の一実施形態による自動翻訳対応電話システム1の発信元電話機10の音声通話時の制御動作について説明する。
まず、図12に示すように、ステップS11において、発信元電話機10の制御部13(図2参照)によって、受話器12(図2参照)が話者により持ち上げられることによって、発信元電話機10が通話可能な状態になったか否かが判断されるとともに、発信元電話機10が通話可能な状態になるまで、ステップS11の判断が繰り返される。そして、ステップS11において、制御部13によって、発信元電話機10が通話可能な状態になったと判断された場合には、ステップS12において、制御部13によって、操作パネル16(図2参照)の数字ボタン部16c(図2参照)が押下されて、送信先電話機30の送信先電話番号がダイヤルされたか否かが判断されるとともに、送信先電話番号がダイヤルされるまで、ステップS12の判断が繰り返される。そして、ステップS12において、制御部13によって、送信先電話番号がダイヤルされたと判断された場合には、ステップS13に進む。
そして、ステップS13において、制御部13によって、電話回線制御回路15(図2参照)から送信先電話番号に関する信号が外部(回線交換機50(図2参照))に出力される。そして、ステップS14に進み、制御部13によって、発信元電話機10と送信先電話機30(図2参照)とが電話回線40および41(図2参照)を介して接続された旨を通知する接続信号が回線交換機50から電話回線制御回路15に入力されたか否かが判断されるとともに、接続信号が入力されるまで、ステップS14の判断が繰り返される。そして、ステップS14において、制御部13によって、接続信号が入力されたと判断された場合には、ステップS15に進み、制御部13によって、集音器12a(図2参照)から話者が発する音声が入力されたか否かが判断されるとともに、話者が発する音声が入力されるまで、ステップS15の判断が繰り返される。そして、ステップS15において、制御部13によって、話者が発する音声が入力されたと判断された場合には、ステップS16に進む。
そして、ステップS16において、制御部13によって、話者が発した日本語の音声が音声変換器14により音声信号に変換された後に、音声認識部19(図2参照)において、話者によって音声登録時にメモリ18に予め登録された情報に基づいて、音声信号が音声認識部19において文節で区切られて日本語の文字信号として認識される。そして、ステップS17に進み、制御部13によって、翻訳エンジン部20(図2参照)により電子辞書部21(図2参照)を用いて、話者が発する音声に対応する日本語の文字信号が、日本語の文字信号に対応する英語の文字信号に翻訳(変換)される。そして、ステップS18に進む。
そして、ステップS18において、制御部13によって、音声認識部19において、英語の文字信号が英語の音声信号に変換される。そして、ステップS19に進み、制御部13によって、英語の音声信号が、電話回線40および41を介して、送信先電話機30に出力される。そして、発信元電話機10の音声通話時の制御が終了される。
本実施形態では、上記のように、話者によって予め登録された話者の音声に関する情報に基づいて、話者が発する日本語からなる音声(音声信号)を話者が発する音声に対応する日本語の文字(文字信号)として認識するための音声認識部19を設けることによって、人によってそれぞれ異なる音声の癖に対応させるように話者が発する音声に関する情報を活用することができるので、制御部13によって、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのを抑制することができる。また、制御部13によって、話者が発する音声に関する情報を登録する際に、話者が発した音声が音声変換器14によって音声信号に変換された後に、音声信号が音声認識部19において文字信号として認識した結果に基づいて、音声認識部19において認識された文字信号を音声信号に変換され、音声信号が音声変換器14によってアナログの音声に変換してスピーカ12bから出力(再生)されるように制御することによって、スピーカ12bから出力される音声により、音声の認識の状態を話者が確認することができる。これによっても、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識されるのを抑制することができる。
また、本実施形態では、上記のように、話者が発する音声に関する情報を登録する際に、文節の各々に文節番号が付された修正用例文17d〜17fを表示させるとともに、音声認識部19において認識された日本語の文字信号としてスピーカ12bから再生された音声と、話者の発した音声とが異なる場合に、話者によって文節番号が選択されることにより、選択された文節番号に対応する日本語に対応する単語の修正候補17gおよび17hを表示する表示パネル17を備えることによって、話者が発する音声に関する情報を登録する際に、音声認識部19において、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語として誤って認識された場合に、文節の各々に文節番号が付されることによって区切られた修正用例文17d〜17fを表示させるとともに、文節番号に対応する修正候補17gおよび17hを表示パネル17に表示させることによって、話者に文節ごとの修正候補17gおよび17hを視覚的に認識させて修正候補17gおよび17hを選択させることができるので、話者は、容易に修正箇所を特定することができるとともに、容易に修正候補17gおよび17hを選択することができる。これにより、話者は、容易に音声認識部19において正しく認識されるように修正することができるので、発信元電話機10は、より正確な音声に関する情報を得ることができる。この結果、話者が発する音声に含まれる話者の意図する単語が、話者の意図する単語と異なる単語としてとして誤って認識されるのをより抑制することができる。
また、本実施形態では、上記のように、制御部13によって、話者によって選択された文節番号に対応する修正候補17gおよび17hが表示パネル17に表示された後に、選択された修正候補17gまたは17hの文字信号が音声信号に変換され、音声信号が音声変換器14によってアナログの音声に変換してスピーカ12bから再生されるように制御することによって、スピーカ12bから出力される音声により、話者は、正しく修正されたか否かを確認することができる。
また、本実施形態では、上記のように、同音異義語に関して、音声認識部19において認識された日本語の文字信号としてスピーカ12bから再生された音声と、話者の発した日本語の例文の音声とが、話者による音声と単語との対応関係において異なる場合、修正箇所が含まれる文節に付された番号に対応する数字ボタン16f〜16oを話者に押下させることによって、日本語に対応する同音異義語の修正候補17gおよび17hを表示パネル17に表示させ、話者による音声と単語との対応関係に適合するように、スピーカ12bから音声出力された音声に対応する修正候補17gおよび17hを話者に選択させるように構成することによって、認識が困難な同音異義語の修正候補17gおよび17hを表示パネル17に表示することにより、音声認識部19において同音異義語が正しく認識されるように、話者は視覚的に容易に修正することができるので、発信元電話機10は、同音異義語に関してより正確な音声に関する情報を得ることができる。これにより、話者が発する音声に含まれる話者の意図する同音異義語が、話者の意図する同音異義語と異なる同音異義語として誤って認識されるのをより抑制することができる。
なお、今回開示された実施形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施形態の説明ではなく特許請求の範囲によって示され、さらに特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれる。
たとえば、本実施形態では、自動翻訳対応電話システム1の発信元電話機10に翻訳エンジン部20および電子辞書部21を設けた例を示したが、本発明はこれに限らず、図13に示す本実施形態の変形例のように、自動翻訳対応電話システム100の発信元電話機110に翻訳エンジン部および電子辞書部を設けずに、回線交換機150に翻訳エンジン部151および電子辞書部152を設けるように構成してもよい。その際、回線交換機150には、翻訳エンジン部151および電子辞書部152を制御するための制御部153が設けられる。このように構成すれば、翻訳エンジン部151および電子辞書部152を更新して翻訳に関する新たな情報を追加する際に、回線交換機150のみを更新すればよく、個々の発信元電話機110のそれぞれを更新させる必要がないので、自動翻訳対応電話システム100において、翻訳に関する新たな情報を容易に追加することが可能である。これにより、より正確に、話者が発する音声に対応する日本語の文字信号を、日本語の文字信号に対応する英語の文字信号に翻訳(変換)することが可能になる。
また、本実施形態では、自動翻訳対応電話システム1の発信元電話機10に音声認識部19、翻訳エンジン部20および電子辞書部21を設けた例を示したが、本発明はこれに限らず、発信元電話機に音声認識部、翻訳エンジン部および電子辞書部を設けずに、回線交換機に音声認識部、翻訳エンジン部および電子辞書部のすべてを設けてもよい。このように構成すれば、音声認識部、翻訳エンジン部および電子辞書部を有さないいわゆる一般の発信元電話機を用いた場合においても、話者は、自動翻訳機能を利用することが可能になる。
また、本実施形態では、制御部13によって、文節ごとに文節番号を付した3つの修正用例文17d〜17fを表示パネル17に表示させるとともに、話者に文節番号に対応する数字が付された数字ボタン部16cを押下させることによって、修正箇所を選択決定させた例を示したが、本発明はこれに限らず、文節ごとに文節番号を付さずに、たとえば、文節ごとに選択される際に反転表示されるように修正用例文を表示パネルに表示させるとともに、話者に選択決定ボタンを用いて選択決定させることによって、反転表示された箇所を修正箇所として選択決定させるように構成してもよい。また、単語ごとに単語番号を付した修正用例文を表示するように構成してもよい。
また、本実施形態では、同音異義語以外に関して、音声認識部19において認識された日本語の文字信号としてスピーカ12bから再生された音声と、話者の発した音声とが異なる場合(たとえば、話者が「ハシ」と音声入力した箇所において、スピーカ12bから「ハジ」と音声出力された場合)には、再度、話者に読み上げさせるように構成した例を示したが、本発明はこれに限らず、同音異義語以外に関して、音声認識部において認識された日本語の文字信号としてスピーカから再生された音声と、話者の発した音声とが異なる場合であっても、同音異義語の場合と同様に、予め想定可能な日本語に対応する修正候補を表示部に表示させて、修正を受け付けるように構成してもよい。
また、本実施形態では、同音異義語に関して、音声認識部19において認識された日本語の文字信号としてスピーカ12bから再生された音声と、話者の発した音声とが、話者による音声と単語との対応関係において異なる場合(たとえば、話者が「橋」を意図して「ハシ」と音声入力した箇所において、スピーカ12bから「端」を意味すると話者にとって感じられるイントネーション(音声に関する情報)などによって「ハシ」と音声出力された場合)に、日本語に対応する同音異義語の修正候補17gおよび17hを表示パネル17に表示した例を示したが、本発明はこれに限らず、たとえば、スピーカから出力される日本語の例文を話者が集音器に対して発声し、話者が発した音声に基づいて音声認識部において認識された日本語の文字信号を、文節ごとに番号で区切られた状態で、制御部が番号と共にスピーカによって音声を出力することによって、表示部を用いないように構成してもよい。このように構成すれば、話者は、操作パネル部を用いて修正したい文節の番号を入力することが可能になるので、発信元電話機は、修正を行うことが可能になる。
また、本実施形態では、同音異義語に関して、音声認識部19において認識された日本語の文字信号としてスピーカ12bから再生された音声と、話者の発した音声とが異なる場合には、読み上げ例文17a〜17cおよび修正用例文17d〜17fを表示パネル17に表示させることによって、修正の受け付けを行った例を示したが、本発明はこれに限らず、修正の受け付けを行わずに、同音異義語以外の場合と同様に、再度、話者に日本語の例文を読み上げさせることによって、話者が発する音声に関する情報を登録するように構成してもよい。
また、本実施形態では、表示パネル17に文章番号「1」〜「3」をそれぞれ付した3つの読み上げ例文17a〜17cを表示した例を示したが、本発明はこれに限らず、たとえば、読み上げ例文が複数個記載された読み上げ表などを発信元電話機に別途書類として付属させることによって、表示パネルに読み上げ例文を表示しないように構成してもよい。
また、本実施形態では、音声認識部19において、制御部13によって、話者の音声に関する情報に基づいて、話者の音声を文節に区切られて文字として認識した例を示したが、本発明はこれに限らず、音声認識部において、制御部が、話者の音声に関する情報に基づいて、話者の音声を文節よりも小さな単位である単語に区切って文字として認識するように構成してもよい。
また、本実施形態では、本発明の「第1言語」として日本語を、本発明の「第2言語」として英語をそれぞれ用いた例を示したが、本発明はこれに限らず、「第1言語」および「第2言語」は、日本語および英語に限られず、他の言語でもよい。また、「第1言語」および「第2言語」は、同一の国の言語であってもよく、北京語と広東語とのような同一国内の異なる地域においてそれぞれ用いられる、いわゆる方言からなるように構成してもよい。
また、本実施形態では、本発明の「同音異義語」として、それぞれ「ハシ」の音を有することによって、互いに同音異義語の関係を有する「橋」、「端」および「箸」の単語を用いて例文を構成した例を示したが、本発明はこれに限らず、その他の同音異義語を用いて例文を構成してもよい。たとえば、それぞれ「アメ」の音を有することによって、互いに同音異義語の関係を有する「雨」および「飴」の単語を用いて例文を構成してもよい。