JP3959540B2

JP3959540B2 - 自動翻訳装置

Info

Publication number: JP3959540B2
Application number: JP2000070261A
Authority: JP
Inventors: 宣公小林
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2000-03-14
Filing date: 2000-03-14
Publication date: 2007-08-15
Anticipated expiration: 2020-03-14
Also published as: JP2001256223A

Description

【０００１】
【発明の属する技術分野】
本発明は、発話により入力された原文を音声認識して他言語へ翻訳し、翻訳結果の表示と音声出力とを行う自動翻訳装置に関し、特に、発話により入力された原文の音声認識結果に曖昧性がある場合にも、正しい翻訳結果を音声出力することができる自動翻訳装置に関するものである。
【０００２】
【従来の技術】
従来、異なる言語の話者が対話するシステムとして、発話者の発話する音声を音声認識し、認識された音声を機械翻訳した後で、翻訳された結果を音声に変換し、対話者が聞き取れるように音声出力する自動翻訳装置がある。この自動翻訳装置によれば、発話により原文が入力されるので、原文の入力時間が短く、その翻訳結果の出力までが短時間で行われる。よって、自動翻訳装置を通して両者が円滑に対話をすることができる。
【０００３】
【発明が解決しようとする課題】
しかしながら、上記した自動翻訳装置は、認識された音声を単純に機械翻訳するだけのものであり、発話された音声の音声認識に誤りが生じた場合には翻訳を誤ってしまうという問題点がある。また、外来語、略語、人名や地名などの固有名詞に加え、例えば、ブラウザ、ダウンロード、ＰＨＳのような新しい言語は音声辞書に登録されていないことが多いので、これらの言語は未知語になりやすい。未知語が自動翻訳装置に入力された場合には、その音声認識結果に曖昧性が生じやすく、曖昧性のある一部だけが、正しく認識された言語とは異なる言語として誤認識されてしまう。その結果、入力された原文は異訳されるので、発話者の意図は対話者に正しく伝わらないという問題点がある。
【０００４】
このため、自動翻訳装置は、入力された言語の音声認識結果に曖昧性がある場合には、その入力された言語の音声認識結果を表示部に複数表示し、表示された複数の音声認識結果の内から、発話者により選択される一の音声認識結果を正しい音声認識結果とすることで、曖昧性が認識された言語が誤認識されることを解消している。
【０００５】
しかしながら、正しい音声認識結果の選択は、発話者と自動翻訳装置との対話によって行われるので、誤認識の修正に時間がかかる上に、音声により入力された修正情報の音声認識に再び失敗して、再度、誤認識が発生するという問題点がある。また、複数の音声認識結果を表示するためには表示部を大きくする必要があるので、装置本体を大きくしてしまい自動翻訳装置の携帯時の利便性を損なうという問題点がある。
【０００６】
本発明は、上述した問題点を解決するためになされたものであり、発話により入力された原文の音声認識に曖昧性がある場合にも、正しい翻訳結果を音声出力することができる自動翻訳装置を提供することを目的としている。
【０００７】
【課題を解決するための手段】
この目的を達成するために、請求項１記載の自動翻訳装置は、発話による音声データを入力するための音声入力手段と、その音声入力手段により入力された音声データを記憶する記憶手段と、その記憶手段に記憶される音声データを対応するコードまたはコード列に変換する音声認識手段と、その音声認識手段により変換されたコードまたはコード列を、別の種類の言語において対応するコードまたはコード列に翻訳する翻訳手段と、その翻訳手段により翻訳されたコードまたはコード列を音声信号に変換する音声生成手段と、その音声生成手段より変換された音声信号を出力する音声出力手段とを備えるものであり、前記音声認識手段は、隠れマルコフモデルの音声認識手法に基づいて、前記記憶手段に記憶された音声データを生み出す確率を計算し、その計算された確率値に基づき変換するコードまたはコード列を決定するものであり、前記音声認識手段により変換されたコード又はコード列が前記記憶手段に記憶された音声データを生み出す確率が、前記隠れマルコフモデルの所定のスコア値以上であるか否かを前記コードまたはコード列のそれぞれについて判断する判断手段と、その判断手段によって、前記音声認識手段により変換されたコード又はコード列が前記記憶手段に記憶された音声データを生み出す確率が、前記隠れマルコフモデルの所定のスコア値未満であると判断された場合に、その所定のスコア値未満であると判断されたコードまたはコード列に対応する音声信号を前記記憶手段に記憶される音声データに差し替え、その差し替えた後の音声信号を前記音声出力手段によって出力させる制御手段とを備えている。
【０００８】
この請求項１記載の自動翻訳装置によれば、発話者によって発話された原文は、音声入力手段により音声データとして自動翻訳装置に入力される。入力された音声データは記憶手段により記憶された後、音声認識手段によりその音声データの対応するコードまたはコード列に変換される。変換されたコードまたはコード列は、翻訳手段により別の種類の言語において対応するコードまたはコード列に翻訳され、更に、そのコードまたはコード列は音声生成手段により音声信号に変換される。変換された音声信号は音声出力手段により出力（発話）される。ここで、隠れマルコフモデルに基づいて変換されたコードまたはコード列を生み出す確率が隠れマルコフモデルの所定のスコア値以上であるか否かがコードまたはコード列のそれぞれについて判断手段により判断される。そして、音声認識手段により変換されたコード又はコード列が記憶手段に記憶された音声データを生み出す確率が、隠れマルコフモデルの所定のスコア値未満であると判断手段により判断された（曖昧性が認められた）場合には、制御手段によって、音声生成手段により変換された音声信号のうち、その隠れマルコフモデルの所定のスコア値未満であると判断されたコードまたはコード列に対応する音声信号が、記憶手段に記憶される音声データに差し替えられ、その差し替えられた後の音声信号が音声出力手段により出力される。
【０００９】
【００１０】
請求項２記載の自動翻訳装置は、請求項１に記載の自動翻訳装置において、前記音声生成手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データと、前記音声生成手段により変換された音声信号とを整合する音声整合手段を備えている。
【００１１】
請求項３記載の自動翻訳装置は、請求項２に記載の自動翻訳装置において、前記音声整合手段は、前記音声生成手段により変換された音声信号について、その音声信号の周波数を変調する周波数変調手段を備えている。
【００１２】
請求項４記載の自動翻訳装置は、請求項３に記載の自動翻訳装置において、前記周波数変調手段は高周波数を記憶する高周波数記憶手段と低周波数を記憶する低周波数記憶手段とを備えており、前記周波数変調手段は前記音声生成手段により変換された音声信号の周波数を、前記高周波数記憶手段に記憶される高周波数または前記低周波数記憶手段に記憶される低周波数のいずれかに変調する性別設定手段を備えている。
【００１３】
請求項５記載の自動翻訳装置は、請求項４に記載の自動翻訳装置において、前記性別設定手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データのピッチに応じ、前記高周波数記憶手段に記憶される高周波数または前記低周波数記憶手段に記憶される低周波数のいずれかを選択する周波数選択手段を備えている。
【００１４】
請求項６記載の自動翻訳装置は、請求項３から５のいずれかに記載の自動翻訳装置において、前記周波数変調手段は変調された周波数を微調整する周波数調整手段を備えている。
【００１５】
請求項７記載の自動翻訳装置は、請求項６に記載の自動翻訳装置において、前記周波数調整手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データのピッチに応じ、変調する周波数を微調整する周波数決定手段を備えている。
【００１６】
請求項８記載の自動翻訳装置は、請求項２から７のいずれかに記載の自動翻訳装置において、前記音声整合手段は、前記音声生成手段により変換された音声信号について、その音声信号の振幅と前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データの振幅とを一致させる音量設定手段を備えている。
【００１７】
請求項９記載の自動翻訳装置は、請求項８に記載の自動翻訳装置において、前記音量設定手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データの振幅に応じ、前記音声生成手段により変換された音声信号の振幅をその音声データの振幅に一致させる音量決定手段を備えている。
【００１８】
請求項１０記載の自動翻訳装置は、請求項１から９のいずれかに記載の自動翻訳装置において、前記翻訳手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列を未知語として翻訳するものである。
【００１９】
【発明の実施の形態】
以下、本発明の好ましい実施例について、添付図面を参照して説明する。本実施例の自動翻訳装置は、発話により入力された原文を他の言語に翻訳して音声出力する翻訳処理を実行するものであり、入力された音声データ（発話により入力された原文）の音声認識結果に曖昧性が認識された場合であっても、即ち、入力された音声データが誤認識された場合であっても、入力された音声データの正しい翻訳結果を音声出力することができるものである。尚、本実施例では、発話により入力される言語は日本語であり、出力される翻訳言語は英語である。
【００２０】
図１は、第１実施例の自動翻訳装置１を示す機能ブロック図である。自動翻訳装置１には、自動翻訳装置１で実行される各処理を制御する制御部２と、マイクロホンからなる音声入力部３と、入力された音声データを一時的に記憶する一時記憶部４と、一時記憶部４に記憶された音声データをコードまたはコード列に変換する（音声認識する）音声認識部５と、音声認識部５に認識されたコードまたはコード列（音声認識結果）を、他の言語に対応するコードまたはコード列に翻訳する翻訳部６と、その翻訳結果を表示する液晶ディスプレイからなる表示部７と、翻訳結果を音声信号に変換する音声生成部８と、翻訳された音声信号を出力するスピーカからなる音声出力部９と、自動翻訳装置１で実行される処理に必要な各種のパラメータを記憶する設定部１０とが備えられ、これらはバスライン１１を介して相互に接続されている。
【００２１】
自動翻訳装置１で実行される各処理を制御する制御部２は、一時記憶部４に記憶された音声データ（入力された音声データ）を他の言語に翻訳して音声出力する翻訳処理を実行するものであり、入力された音声データの音声認識結果に曖昧性が認識された場合、即ち、入力された音声データが誤認識された場合にも、正しい翻訳結果を音声出力できるように、この翻訳処理を制御する曖昧性制御手段を備えている。
【００２２】
この曖昧性制御手段は、入力された音声データが変換されたコードまたはコード列（音声認識結果）において、その曖昧性の有無を認識する、つまり、入力された音声データの曖昧性を認識する後述の曖昧性認識手段を備えている。曖昧性制御手段は、この曖昧性認識手段により、入力された音声データが変換されたコードまたはコード列（音声認識結果）に曖昧性が認識されると、そのコードまたはコード列に対応する翻訳後のコードまたはコード列の音声信号を、入力された音声データに差し替える。そして、差し替えられた音声信号を、入力された音声データの翻訳結果として音声出力する。これにより、入力された音声データの正しい翻訳結果が音声出力される（図２参照）。
【００２３】
上記した曖昧性制御手段の備えられていない従来の自動翻訳装置においても、入力された音声データが全て正しく音声認識されていれば、入力された音声データは正しく翻訳されて、その翻訳結果が出力される。例えば、入力された音声データが「わたしはピーエイチエスをもっています」であるとする。これが正しく音声認識された場合には、その翻訳結果「I have a PHS.」が表示部に表示されると共に、「アイハブアピーエイチエス」が音声出力される。ところが、入力された音声データが正しく音声認識されなかった場合には、従来の自動翻訳装置は、入力された音声データを誤認識した状態で翻訳し、その翻訳結果をそのまま出力するので、入力された音声データは異訳されてしまう。例えば、入力された音声データが「わたしはピーエイチエスを持っています」であり、その入力された音声データの一部「ピーエイチエス」が正しく音声認識されず「ピーナッツ」と誤認識された場合には、「ピーエイチエス」は「peanuts」と翻訳される。このため、入力された音声データ「わたしはピーエイチエスをもっています」は「I have peanuts.」と翻訳され、その翻訳結果が表示部に「I have peanuts.」と表示されるとともに、「アイハブピーナッツ」が音声出力されてしまう（図６参照）。
【００２４】
入力された音声データが変換されたコードまたはコード列（音声認識結果）に曖昧性が認識される多くの場合は、入力された音声データが、後述の音声辞書に記憶されていない言語である未知語である場合である。この未知語とは、固有名詞、外来語、あるいはＰＨＳ等の新しい言語などであり、翻訳される必要のない、いわば翻訳されなくとも対話者に通じる言語であることが多い。
【００２５】
故に、自動翻訳装置１は、上記した曖昧性制御手段を備えることにより、入力された音声データの音声認識結果に曖昧性が認識された場合においても、入力された音声データの正しい翻訳結果を音声出力することができる。（図２参照）。また、入力された音声データの正しい翻訳結果を音声出力するために、曖昧性が認識されたコードまたはコード列を、発話者が自動翻訳装置１を操作して修正する必要がないので、発話者は簡単に自動翻訳装置１を取り扱うことができる上、発話による原文の入力から、翻訳結果の出力までが短時間で実行される。
【００２６】
一時記憶部４は、音声入力部３から入力された音声データを一時的に記憶するものであり、入力された音声データは、ベクトル量子化されて、この一時記憶部４に記憶されている。記憶された音声データは、その翻訳結果が出力されるまで保持され、翻訳結果の出力後に消去される。
【００２７】
音声認識部５は、一時記憶部４に記憶される音声データ（入力された音声データ）を音声認識するものであり、一時記憶部４に記憶されるその音声データを音声辞書に照らし合わせてコードまたはコード列に変換する（音声認識する）音声認識手段と、その変換されたコードまたはコード列の曖昧性の有無をしきい値により認識する曖昧性認識手段とを備えている。ここで、このコードまたはコード列とは、単語、あるいは音素などのサブワード単位や、そのサブワード単位の列などである。
【００２８】
音声認識手段は、一時記憶部４に記憶される音声データを、コードまたはコード列に変換するものであり、後述の音声辞書において記憶される音響モデルと言語モデルとから、確率論的に一時記憶部４に記憶される音声データと最もマッチする（音響的尤度を最大にする）音響モデルを見つけ出すものである。音声辞書において記憶される音響モデルは、コードまたはコード列に対応して記憶されているので、特定の音響モデルが決定されると、その音響モデルに対応するコードまたはコード列を決定することができ、つまり、一時記憶部４に記憶される音声データを、対応するコードまたはコード列に変換することができる（音声認識できる）。
【００２９】
音声辞書は、コードまたはコード列に対応する音響モデルと、音声データをコードまたはコード列に変換する際の言語的制約を与える言語モデルとを記憶しているものである。音響モデルは、多量の音声データを用いて学習されたものであり、コードまたはコード列に対応する音声データが、圧縮された効率の良い音響パラメータに変換されたものである。具体的には、各コードまたはコード列に対応する音声データが、隠れマルコフモデルでモデル化されたものである。隠れマルコフモデルは、非定常信号源（音声データ）を定常信号源の連結で表す統計的信号源モデルである。
【００３０】
言語モデルは、多量のテキストデータから人的に作成される構文規則や、統計文法のパラメータであり、音声データをコードまたはコード列に変換する際に、言語的制約を与えるものであり、確率的な文法のように確率的な起こりやすさを、文法、意味、状況などから与えるものである。
【００３１】
具体的には、音声認識部５により実行される音声認識では、まず、一時記憶部４に記憶される音声データに対して、言語モデルにより幾つかのコードまたはコード列（その対応する音響モデル）が仮定される。仮定された各コードまたはコード列は、その対応する音響モデルが上記したように隠れマルコフモデルであるので、音声認識手段は、仮定された各コードまたはコード列が一時記憶部４に記憶される音声データを生み出す確率を計算し、この計算された確率値に基づき、仮定されたコードまたはコード列の中から、一時記憶部４に記憶される音声データを変換するコードまたはコード列を決定する（隠れマルコフモデルにおける音声認識）。計算された確率値は高くなるほど、そのコードまたはコード列が一時記憶部４に記憶される音声データを生み出す確率が高いということであり、音声データが正確に音声認識されていることを意味する。
【００３２】
曖昧性認識手段は、音声認識手段により変換された一時記憶部４に記憶される音声データのコードまたはコード列について、その曖昧性の有無を認識するものであり、曖昧性の有無を判断するしきい値を備えている。曖昧性とは、音声データの音声認識結果の信頼性であり、変換されたコードまたはコード列の音声認識結果の正確さを示すものである。曖昧性認識手段により、この変換されたコードまたはコード列に曖昧性が認識されなかった場合は、音声データは正しく音声認識されて、入力する音声データに対応する正しいコードまたはコード列に変換された状態であることを示している。一方、曖昧性認識手段により曖昧性が認識された場合は、音声データは正しく音声認識されず、入力された音声データはに対応する正しいコードまたはコード列とは異なるコードまたはコード列に変換された状態であることを示している。
【００３３】
具体的には、曖昧性認識手段は、曖昧性の有無を認識するしきい値として、隠れマルコフモデルのスコア値が用いられている。そして、音声認識手段により変換されたコードまたはコード列について、各コードまたはコード列に対して計算された一時記憶部４に記憶される音声データを生み出す確率が、設定された隠れマルコフモデルのスコア値以上か否かを判断する。変換されたコードまたはコード列の有する確率値が、設定された隠れマルコフモデルのスコア値以上では曖昧性無しと判断され、同じく変換されたコードまたはコード列の有する確率値が、隠れマルコフモデルのスコア値未満では曖昧性有りと判断される。曖昧性の有無を判断するしきい値となる隠れマルコフモデルのスコア値は、音声辞書に記憶される音響モデルの数（母集団の数）やその偏りなどによって変化するので、その値は、さまざまな学習データに基づいて設定されている。
【００３４】
翻訳部６は、音声認識手段により、一時記憶部４に記憶される音声データが変換されたコードまたはコード列（音声認識結果）を、他の言語において対応するコードまたはコード列へ翻訳するものである。対話者の理解する翻訳言語として、本実施例では上記したように英語を使用している。この翻訳部６で翻訳された翻訳結果は、発話者が翻訳結果を視覚で確認することができるように、液晶ディスプレイからなる表示部７へ文字出力される（図２参照）。
【００３５】
音声認識部５により変換されたコードまたはコード列（音声認識結果）に曖昧性が認識された場合には、そのコードまたはコード列は、本来のコードまたはコード列とは異なるコードまたはコード列として誤認識されているので、その翻訳後のコードまたはコード列も誤りとなり、入力された言語が異訳された翻訳結果が表示部７には表示される。
【００３６】
音声生成部８は、翻訳されたコードまたはコード列を音声信号に変換するものであり、翻訳されたコードまたはコード列に対応する音声を合成音により生成するものであり、また、生成された合成音と一時記憶部４に記憶される音声データとを整合する音声整合手段を備えている。音声整合手段は、音声認識手段により変換されたコードまたはコード列について、曖昧性が認識された場合に、音声生成部８により生成された合成音の周波数と振幅とを、一時記憶部４に記憶される音声データの周波数と振幅とに整合するものである。この音声整合手段は、生成された合成音の周波数を変調する周波数変調手段と、生成された合成音の振幅を調整する音量設定手段とを備えている。これにより、出力される音声信号が一時記憶部４に記憶される音声データ（入力された音声データ）と生成された合成音の２種類で構成されても、出力される音声信号に統一性を与えることができる。
【００３７】
周波数変調手段は、生成された合成音の周波数を変調するものであり、高周波数を記憶する高周波数記憶手段と、低周波数を記憶する低周波数記憶手段と、その高周波数記憶手段に記憶される高周波数または低周波数記憶手段に記憶される低周波数のいずれかにその合成音の周波数を変調する性別設定手段と、変調された合成音の周波数を微調整する周波数調整手段とを備えている。
【００３８】
性別設定手段は、曖昧性認識手段により、曖昧性が認識されたコードまたはコード列に対応する翻訳後のコードまたはコード列が、一時記憶部４に記憶される音声データ（入力された音声データ）に差し替えられた場合において、生成された合成音の周波数を、高周波数記憶手段に記憶される高周波数または低周波数記憶手段に記憶される低周波数のいずれかに変調するものである。高周波記憶手段は、女声を想定して２５０ヘルツ付近の周波数帯から選択された周波数を記憶しているものである。一方、低周波数記憶手段は、男声を想定して１２５ヘルツ付近の周波数帯から選択された周波数を記憶しているものである。これら高周波数記憶手段および低周波数記憶手段に記憶される周波数は設定部１０により設定されている。
【００３９】
また、この性別設定手段は、周波数選択手段を備えている。周波数選択手段は、入力された音声データのピッチに応じて、高周波数記憶手段に記憶される高周波数または低周波数記憶手段に記憶される低周波数のいずれかを選択するものである。ピッチは、人間の耳に聞こえる音の高さを表すために使われる用語であり、音声の場合は、ほとんどそれと直接対応する声帯の振動数がピッチと呼ばれている。
【００４０】
この周波数選択手段は、入力された音声データの周波数が１８５ヘルツ以上であるか否かを基準として、生成された合成音の周波数を、高周波数記憶手段に記憶される高周波数または低周波数記憶手段に記憶される低周波数のいずれに変調するかを選択するものである。入力された音声データの周波数が１８５ヘルツ以上であれば、生成された合成音の周波数は高周波数に変調され、出力される音声信号は全て女声となる。一方、入力された音声データの周波数が１８５ヘルツ未満であれば、生成された合成音の周波数は低周波数に変調されるので、出力される音声信号は全て男声となる。このため、出力される音声信号が、入力された音声データと生成された合成音との２種類の音声信号で構成されても、入力された音声データと生成された合成音とに統一性が与えられる。周波数選択手段により、生成された合成音が所定の周波数に変調された後は、更に、周波数調整手段によって、その周波数が入力された音声データのピッチに応じて微調整される。
【００４１】
生成された合成音の振幅を調整する音量設定手段は、曖昧性認識手段により曖昧性が認識されたコードまたはコード列に対応する翻訳後のコードまたはコード列が、一時記憶部４に記憶される音声データ（入力された音声データ）に差し替えられた場合において、生成された合成音の振幅と、その差し替えられた音声データの振幅とを一致させるものである。音量設定手段は、入力された音声データの振幅に応じて合成音の振幅調整を行う音量決定手段を備えており、この音量決定手段により、生成された合成音の振幅は、差し替えられた音声データ（入力された音声データ）の振幅に一致させられる。このため、出力される音声信号が、入力された音声データと生成された合成音との２種類の音声信号で構成されても、入力された音声データの音量と生成された合成音の音量とを同じにすることができる上、発話者は、入力された音声データの音量と生成された合成音の音量とを同じにするために、自動翻訳装置１を操作する必要がない。
【００４２】
設定部１０は、自動翻訳装置１で実行される処理に必要な各種のパラメータを設定するものであり、隠れマルコフモデルのスコア値や、生成される合成音を変調させる周波数（高周波数記憶手段に記憶させる周波数および低周波数記憶手段に記憶させる周波数）値、出力される音声信号の音量などを記憶している。これらの記憶される値は、自動翻訳装置１の操作者の操作により変更され、変更された新しい値が設定部１０には記憶される。自動翻訳装置１は、これらの記憶される値をパラメータとして翻訳処理を実行する。
【００４３】
図２は、上記した自動翻訳装置１において、入力された音声データが正しく音声認識されなかった場合に出力される翻訳結果を模式的に表した図である。入力された音声データは「わたしはピーエイチエスをもっています」であり、表示部７には、入力された音声データの音声認識結果として「わたしはピーナッツを持っています。」が表示されている。ここで、入力された音声データのうち「ピーエイチエス」は「ピーナッツ」と音声認識されたことが表示されている。音声認識結果の上方には、この入力された音声データの音声認識結果が英語へ翻訳された翻訳結果である「I have peanuts.」が表示されている。
【００４４】
この時、入力された音声データの一部である「ピーエイチエス」が音声認識部５により変換されたコード（音声認識結果）の「ピーナッツ」には、曖昧性認識手段により曖昧性が認識されているので、この「ピーナッツ」が「peanuts」へと翻訳され、更に、音声信号へと変換された後に、曖昧性制御手段により、その音声信号は入力された音声データの「ピーエイチエス」に差し替えられる。その結果、出力される翻訳結果の音声信号は「アイハブピーエイチエス」となっている。
【００４５】
次に、図３のフローチャートを参照して、上記のように構成された自動翻訳装置１で実行される翻訳処理について説明する。翻訳処理は、発話された原文（入力された音声データ）を他の言語に翻訳して出力する処理である。この翻訳処理では、まず、音声入力部３において、音声入力があるか否かを確認する（Ｓ１）。確認の結果、音声入力がなければ（Ｓ１：Ｎｏ）、この翻訳処理を終了する。
【００４６】
一方、音声入力があれば（Ｓ１：Ｙｅｓ）、入力された音声データを全て一時記憶部４に記憶する（Ｓ２）。次に、音声認識部５により、一時記憶部４に記憶された音声データを、全て、コードまたはコード列に変換すると共に、設定部１０に記憶されている隠れマルコフモデルのスコア値に基づいて検定する（Ｓ３）。検定後は、全てのコードまたはコード列が、隠れマルコフモデルのスコア値以上か否かを確認する（Ｓ４）。確認された、全てのコードまたはコード列が、隠れマルコフモデルのスコア値以上であった場合には（Ｓ４：Ｙｅｓ）、翻訳部６により、全てのコードまたはコード列を、翻訳言語（英語）に対応するコードまたはコード列に翻訳した後、その翻訳結果を表示部７に表示すると共に（Ｓ５）、音声生成部８により、翻訳されたコードまたはコード列を音声信号に変換する（Ｓ６）。その後、変換された音声信号を音声出力部９により出力し（Ｓ７）、この翻訳処理を終了する。
【００４７】
Ｓ４の処理において、確認された全てのコードまたはコード列の内、いずれかのコードまたはコード列が隠れマルコフモデルのスコア値未満であった場合には（Ｓ４：Ｎｏ）、翻訳部６により、全てのコードまたはコード列を、翻訳言語（英語）に対応するコードまたはコード列に翻訳し、その翻訳結果を表示部７に表示すると共に（Ｓ８）、音声生成部８により、翻訳された全てのコードまたはコード列を音声信号に変換する（Ｓ９）。
【００４８】
次に、一時記憶部４に記憶される音声データ（入力された音声データ）の内、Ｓ４の処理において隠れマルコフモデルのスコア値未満であったコードまたはコード列に対応する音声データを読み出して、その振幅に、Ｓ９の処理で変換された音声信号の振幅をあわせる（Ｓ１０）。そして、一時記憶部４に記憶される音声データ（入力された音声データ）について、そのピッチが１８５Ｈｚ以上か否かを確認する（Ｓ１１）。確認されたピッチが１８５Ｈｚ以上であれば（Ｓ１１：Ｙｅｓ）、Ｓ１０の処理において振幅が整合された音声信号の周波数を、高周波数記憶手段に記憶される所定の周波数（高周波数）に変調する（Ｓ１２）。確認されたピッチが１８５Ｈｚ未満であれば（Ｓ１１：Ｎｏ）、Ｓ１０の処理において振幅が整合された音声信号の周波数を、低周波数記憶手段に記憶される所定の周波数（低周波数）に変調する（Ｓ１３）。Ｓ１２の処理およびＳ１３の処理後は、変調された音声信号の周波数を、更に、一時記憶部４に記憶される音声データ（入力された音声データ）のピッチに応じて微調整する（Ｓ１４）。
【００４９】
これら、Ｓ１０、Ｓ１２またはＳ１３、およびＳ１４の処理を経て、Ｓ９の処理で変換された音声信号が一時記憶部４に記憶される音声データ（入力された音声データ）に整合された後に、整合された音声信号の内、Ｓ４の処理において隠れマルコフモデルのスコア値未満であったコードまたはコード列に対応する音声信号を、一時記憶部４に記憶される音声データ（入力された音声データ）の対応する音声データに差し替える（Ｓ１５）。そして、差し替えられた音声信号を出力して（Ｓ７）、翻訳処理を終了する。
【００５０】
このように、第１実施例の自動翻訳装置１により、発話により入力された原文を他の言語に翻訳して音声出力する翻訳処理を実行すれば、入力された音声データの音声認識結果に曖昧性が認識された場合にも、入力された音声データの正しい翻訳結果を対話者に伝えることができる。更に、入力された音声データの正しい翻訳結果を音声出力するために、曖昧性が認識されたコードまたはコード列を、発話者が自動翻訳装置１を操作して修正する必要がないので、発話者は簡単に自動翻訳装置１を取り扱うことができる上、発話による原文の入力から、翻訳結果の出力までが短時間で実行される。また、音声生成手段により変換された音声信号（生成された合成音）と入力された音声データとは整合されるので、出力される翻訳結果の音声信号が、生成された合成音と入力された音声データとの２種類の音声信号で構成されても、対話者に違和感を与えない。
【００５１】
次に、図４および図５を参照して第２実施例について説明する。第２実施例の自動翻訳装置は、第１実施例と同じく、発話により入力された原文（入力された音声データ）を他の言語に翻訳して音声出力する翻訳処理を実行するものであり、入力された音声データ（発話により入力された原文）の音声認識結果に曖昧性が認識された場合であっても、即ち、入力された音声データが誤認識された場合であっても、入力された音声データを異訳することなく正しい翻訳結果を音声出力することのできるものである。尚、本実施例においても、発話により入力される言語は日本語であり、翻訳され出力される翻訳言語は英語である。
【００５２】
第２実施例の自動翻訳装置では、前記した第１実施例の自動翻訳装置１に対して、曖昧性認識手段により、入力された音声データの音声認識結果に曖昧性が認識された場合に、自動翻訳装置１で実行されるＳ８以降の処理を変更したものである。以下、第１実施例と同一の部分には同一の符号を付してその説明を省略し、異なる部分のみ説明する。
【００５３】
図４は、第２実施例の自動翻訳装置１において、入力された音声データが正しく音声認識されなかった場合に出力される翻訳結果を模式的に表した図である。ここで、入力された音声データは「わたしはピーエイチエスをもっています」であるが、表示部７には、入力された音声データの音声認識結果として「わたしは“未知語”を持っています。」が表示されており、入力された音声データの一部である「ピーエイチエス」が未知語であり、その音声認識結果に曖昧性が認識されたことを示している。音声認識結果の上方には、この音声認識結果が英語へ翻訳された翻訳結果「I have “未知語”」が表示されている。
【００５４】
この時、“未知語”と表示された「ピーエイチエス」の音声認識結果には、曖昧性認識手段により曖昧性が認識されているので、「ピーエイチエス」の音声認識結果が翻訳され、更に、変換された音声信号は、入力された音声データの「ピーエイチエス」に差し替えらる。その結果、出力される翻訳結果の音声信号は「アイハブピーエイチエス」となっている。
【００５５】
次に、図５のフローチャートを参照して、上記のように構成された第２実施例の自動翻訳装置１で実行される翻訳処理について説明する。第２実施例の自動翻訳装置１で実行される翻訳処理においては、第１実施例の翻訳処理と同様に、音声認識部５により、一時記憶部４に記憶された音声データを、全て、コードまたはコード列に変換すると共に、設定部１０に記憶されている隠れマルコフモデルのスコア値に基づいて検定し（Ｓ３）、全てのコードまたはコード列について、隠れマルコフモデルのスコア値以上か否かを確認する（Ｓ４）。
【００５６】
その結果、確認された全てのコードまたはコード列が、隠れマルコフモデルのスコア値以上であった場合には（Ｓ４：Ｙｅｓ）、実施例１の自動翻訳装置１で実行される翻訳処理と同様にＳ５からＳ７の処理を実行した後、この翻訳処理を終了する。一方、Ｓ４の処理において、全てのコードまたはコード列の内、いずれかのコードまたはコード列が隠れマルコフモデルのスコア値未満であった場合には（Ｓ４：Ｎｏ）、まず、翻訳部６により、全てのコードまたはコード列を、翻訳言語（英語）に対応するコードまたはコード列に翻訳する（Ｓ２１）。次に、翻訳されたコードまたはコード列の内、Ｓ４の処理において、隠れマルコフモデルのスコア値未満であったコードまたはコード列を、“未知語”のコードに差し替え（Ｓ２２）、差し替えられた翻訳結果を表示部７に表示する（Ｓ２３）。その後、音声生成部８により、Ｓ２１の処理で翻訳された全てのコードまたはコード列を音声信号に変換し（Ｓ２４）、実施例１の自動翻訳装置１で実行される翻訳処理と同様にＳ１０からＳ１５の処理を実行した後、この翻訳処理を終了する。
【００５７】
このように、第２実施例の自動翻訳装置１により、発話により入力された原文を他の言語に翻訳して音声出力する翻訳処理を実行すれば、入力された音声データの音声認識結果に曖昧性が認識された場合にも、入力された音声データの正しい翻訳結果を対話者に伝えることができると共に、その曖昧性の認識された音声認識結果（コードまたはコード列）を“未知語”と翻訳することにより、入力された音声データの内、何が“未知語”となったかを発話者に知らせることができる。
【００５８】
なお、請求項１記載の自動翻訳装置では、制御手段としてＳ１５の処理が該当し、判断手段としてＳ４の処理が該当する。請求項３記載の自動翻訳装置では、周波数変調手段としてＳ１１、Ｓ１２、Ｓ１３の処理がそれぞれ該当する。請求項４記載の自動翻訳装置では、性別設定手段としてＳ１２、Ｓ１３の処理がそれぞれ該当する。請求項５記載の自動翻訳装置では、周波数選択手段としてＳ１１の処理が該当する。請求項６記載の自動翻訳装置では、周波数調整手段としてＳ１４の処理が該当する。請求項７記載の自動翻訳装置では、周波数決定手段としてＳ１４の処理が該当する。請求項８記載の自動翻訳装置では、音量設定手段としてＳ１０の処理が該当する。請求項９記載の自動翻訳装置では、音量決定手段としてＳ１０の処理が該当する。
【００５９】
以上、実施例に基づき本発明を説明したが、本発明は上記実施例に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変形が可能であることは容易に推察できるものである。
【００６０】
例えば、上記実施例における自動翻訳装置１は、曖昧性認識手段に備えられるしきい値に隠れマルコフモデルのスコア値を用いた。しかしながら、しきい値は必ずしも隠れマルコフモデルのスコア値に限られるものではなく、動的計画法（ＤＰ）や、ニューラルネットワークにより評価される適切な値を用いても良い。こうすることにより、自動翻訳装置１の使用目的において、例えば、不特定話者を対象とするか否かや、翻訳の対象とする言語（音響モデル）の数などの要因に応じ、最も適した方式で、入力された音声データを音声認識することができる。また、自動翻訳装置１は、音声認識される入力言語（入力される音声データ）は日本語であり、その翻訳言語は英語であるよう構成されていたが、これに代えて、中国語、ドイツ語、フランス語、ドイツ語などの各種言語を入力言語あるいは翻訳言語とするように構成しても良い。更に、入力言語および翻訳言語を、一台の自動翻訳装置１において複数種類が使用できるよう構成しても良く、話者と対話者の使用する言語により入力言語および翻訳言語が選択されるよう構成されても良い。
【００６１】
【発明の効果】
請求項１記載の自動翻訳装置によれば、音声認識手段により隠れマルコフモデルに基づいて変換されたコードまたはコード列（入力された音声データの音声認識結果）が、記憶手段に記憶された音声データを生み出す確率が隠れマルコフモデルの所定のスコア値未満であると判断手段により判断された（曖昧性が認識された）場合、その隠れマルコフモデルの所定のスコア値未満であると判断手段により判断されたコードまたはコード列に対応する翻訳後のコードまたはコード列を、記憶手段に記憶される音声データ（入力された音声データ）に差し替えて出力することができる。このため、発話された原文の中に正確に認識できなかった言語が存在していても、発話された原文を異訳することなく、正しい翻訳結果を出力することができるという効果がある。
【００６２】
また、隠れマルコフモデルの所定のスコア値未満であると判断手段により判断されたコードまたはコード列の修正は、発話者の指示によらず実行することができるので、その所定のスコア値未満であると判断手段により判断されたコードまたはコード列を発話者がわざわざ修正する必要がない。このため、発話から翻訳結果の出力までを短時間で実行することができ、発話者は自動翻訳装置を通して対話者との会話を円滑に行うことができるという効果がある。更に、隠れマルコフモデルの所定のスコア値未満であると判断手段により判断されたコードまたはコード列を発話者が修正する場合に必要となる複数の修正候補を表示する大型の表示部を必要としないので、装置本体を小型化することができるという効果がある。
【００６３】
【００６４】
請求項２記載の自動翻訳装置によれば、請求項１に記載の自動翻訳装置の奏する効果に加え、音声生成手段により変換された音声信号（生成された合成音）と記憶手段に記憶される音声データ（入力された音声データ）とを整合することができるので、出力される音声信号が、入力された音声データと生成された合成音との２種類の音声信号で構成されても、入力された音声データと生成された合成音とに統一性が与えられる。よって、対話者は違和感なく出力される音声信号を聞き取ることができるという効果がある。
【００６５】
請求項３記載の自動翻訳装置によれば、請求項２に記載の自動翻訳装置の奏する効果に加え、音声生成手段により変換された音声信号（生成された合成音）について、その周波数を変調するので、生成された合成音の周波数と入力された音声データの周波数とを整合し、生成された合成音の音程と入力された音声データの音程とを揃えることができる。このため、出力する音声信号が、入力された音声データと生成された合成音との２種類の音声信号で構成されても、対話者は違和感なく出力される音声信号を聞き取ることができるという効果がある。
【００６６】
請求項４記載の自動翻訳装置によれば、請求項３に記載の自動翻訳装置の奏する効果に加え、音声生成手段により変換された音声信号（生成された合成音）の周波数を、高周波数記憶手段に記憶される高周波数または低周波数記憶手段に記憶される低周波数のいずれかに変調することができるので、生成された合成音に性別差を与えることができ、発話者の性別に応じて生成された合成音の周波数を決定することができるという効果がある。これによれば、例えば、発話者が女性で、入力された音声データが高周波数である場合には、生成された合成音の周波数を高周波数に設定して、出力される音声信号を全て高周波数とすることができる。このため、対話者には、出力される音声信号がすべて女声に聞こえるので違和感を与えないという効果がある。また発話者が男性である場合には、生成された合成音の周波数を低周波数に設定することにより、同様に対話者に違和感を与えないという効果がある。
【００６７】
請求項５記載の自動翻訳装置によれば、請求項４に記載の自動翻訳装置の奏する効果に加え、入力された音声データのピッチに応じ、音声生成手段により変換された音声信号（生成された合成音）の周波数を、高周波数記憶手段に記憶される高周波数または低周波数記憶手段に記憶される低周波数のいずれかに設定するので、発話者は、生成された合成音を変調する周波数として、高周波数あるいは低周波数のいずれかを設定をする必要がない。つまり、発話者が発話するだけでその性別に応じた合成音が出力されるので、出力される音声信号に男声と女声とを混声させないという効果がある。
【００６８】
請求項６記載の自動翻訳装置によれば、請求項３から５のいずれかに記載の自動翻訳装置の奏する効果に加え、変調された合成音の周波数を更に微調整することができるので、不特定話者により入力された音声データにおいても、入力された音声データの各周波数と音声生成手段により変換された音声信号（生成された合成音）の周波数とを整合することができるという効果がある。
【００６９】
請求項７記載の自動翻訳装置によれば、請求項６に記載の自動翻訳装置の奏する効果に加え、入力された音声データのピッチに応じ、変調された合成音の周波数を微調整するので、周波数を微調整するためのダイヤルやボタンを設け、そのダイヤルやボタンを使用して、発話者が出力されている音声信号を耳で確認しながら、合成音の周波数を微調整するといった面倒な操作を行う必要がなく、装置の取り扱いが容易になるという効果がある。
【００７０】
請求項８記載の自動翻訳装置によれば、請求項２から７のいずれかに記載の自動翻訳装置の奏する効果に加え、音声生成手段により変換された音声信号（生成された合成音）の振幅と、入力された音声データの振幅とを一致させるので、出力される音声信号の音量を一定の音量に保つことができる。つまり、出力される音声信号において不自然な音量変化が生じないので、対話者は違和感なく出力される音声信号を聞き取ることができるという効果がある。
【００７１】
請求項９記載の自動翻訳装置によれば、請求項８に記載の自動翻訳装置の奏する効果に加え、音声生成手段により変換された音声信号（生成された合成音）の振幅を、入力された音声データの振幅に一致させるので、音量を調整するためのダイヤルやボタンを設け、そのダイヤルやボタンを使用して、発話者が発話により原文を入力する毎に、生成された合成音の音量を調整するといった煩雑な操作を行う必要がなく、装置の取り扱いを容易にするという効果がある。
【００７２】
請求項１０記載の自動翻訳装置によれば、請求項１から９のいずれかに記載の自動翻訳装置の奏する効果に加え、隠れマルコフモデルの所定のスコア値未満であると判断手段により判断されたコードまたはコード列は、表示部において未知語と表示されるので、発話者は発話した言語のうち自動翻訳装置で認識されなかった言語を、視覚で確認することができる。これによれば、発話者が自動翻訳装置から出力される音声信号を聞き取れなかった場合にも、発話者により発話された原文のうち未知語となった言語が何であったかを確実に知ることができるという効果がある。
【図面の簡単な説明】
【図１】本発明の第１実施例である自動翻訳装置の機能ブロック図である。
【図２】入力された音声データが正しく音声認識されなかった場合に、第１実施例の自動翻訳装置において、出力される翻訳結果を模式的に表した図である。
【図３】第１実施例の自動翻訳装置において実行される翻訳処理のフローチャートである。
【図４】入力された音声データが正しく音声認識されなかった場合に、第２実施例の自動翻訳装置において、出力される翻訳結果を模式的に表した図である。
【図５】第２実施例の自動翻訳装置において実行される翻訳処理のフローチャートである。
【図６】従来の自動翻訳装置において、出力される翻訳結果を模式的に表した図である。
【符号の説明】
１自動翻訳装置
２制御部
３音声入力部（音声入力手段）
４一時記憶部（記憶手段）
５音声認識部（音声認識手段）
６翻訳部（翻訳手段）
８音声生成部（音声生成手段）
９音声出力部（音声出力手段）

Claims

発話による音声データを入力するための音声入力手段と、その音声入力手段により入力された音声データを記憶する記憶手段と、その記憶手段に記憶される音声データを対応するコードまたはコード列に変換する音声認識手段と、その音声認識手段により変換されたコードまたはコード列を、別の種類の言語において対応するコードまたはコード列に翻訳する翻訳手段と、その翻訳手段により翻訳されたコードまたはコード列を音声信号に変換する音声生成手段と、その音声生成手段より変換された音声信号を出力する音声出力手段とを備えている自動翻訳装置において、
前記音声認識手段は、隠れマルコフモデルの音声認識手法に基づいて、前記記憶手段に記憶された音声データを生み出す確率を計算し、その計算された確率値に基づき変換するコードまたはコード列を決定するものであり、
前記音声認識手段により変換されたコード又はコード列が前記記憶手段に記憶された音声データを生み出す確率が、前記隠れマルコフモデルの所定のスコア値以上であるか否かを前記コードまたはコード列のそれぞれについて判断する判断手段と、
その判断手段によって、前記音声認識手段により変換されたコード又はコード列が前記記憶手段に記憶された音声データを生み出す確率が、前記隠れマルコフモデルの所定のスコア値未満であると判断された場合に、その所定のスコア値未満であると判断されたコードまたはコード列に対応する音声信号を前記記憶手段に記憶される音声データに差し替え、その差し替えた後の音声信号を前記音声出力手段によって出力させる制御手段とを備えていることを特徴とする自動翻訳装置。
前記音声生成手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データと、前記音声生成手段により変換された音声信号とを整合する音声整合手段を備えていることを特徴とする請求項１に記載の自動翻訳装置。
前記音声整合手段は、前記音声生成手段により変換された音声信号について、その音声信号の周波数を変調する周波数変調手段を備えていることを特徴とする請求項２に記載の自動翻訳装置。
前記周波数変調手段は高周波数を記憶する高周波数記憶手段と低周波数を記憶する低周波数記憶手段とを備えており、前記周波数変調手段は前記音声生成手段により変換された音声信号の周波数を、前記高周波数記憶手段に記憶される高周波数または前記低周波数記憶手段に記憶される低周波数のいずれかに変調する性別設定手段を備えていることを特徴とする請求項３に記載の自動翻訳装置。
前記性別設定手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データのピッチに応じ、前記高周波数記憶手段に記憶される高周波数または前記低周波数記憶手段に記憶される低周波数のいずれかを選択する周波数選択手段を備えていることを特徴とする請求項４に記載の自動翻訳装置。
前記周波数変調手段は変調された周波数を微調整する周波数調整手段を備えていることを特徴とする請求項３から５のいずれかに記載の自動翻訳装置。
前記周波数調整手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データのピッチに応じ、変調する周波数を微調整する周波数決定手段を備えていることを特徴とする請求項６に記載の自動翻訳装置。
前記音声整合手段は、前記音声生成手段により変換された音声信号について、その音声信号の振幅と前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データの振幅とを一致させる音量設定手段を備えていることを特徴とする請求項２から７のいずれかに記載の自動翻訳装置。
前記音量設定手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列に対応する前記記憶手段に記憶される音声データの振幅に応じ、前記音声生成手段により変換された音声信号の振幅をその音声データの振幅に一致させる音量決定手段を備えていることを特徴とする請求項８に記載の自動翻訳装置。
前記翻訳手段は、前記隠れマルコフモデルの所定のスコア値未満であると前記判断手段により判断されたコードまたはコード列を未知語として翻訳することを特徴とする請求項１から９のいずれかに記載の自動翻訳装置。