JP2015060095A

JP2015060095A - 音声翻訳装置、音声翻訳方法およびプログラム

Info

Publication number: JP2015060095A
Application number: JP2013194021A
Authority: JP
Inventors: 聡史釜谷; Satoshi Kamaya; 住田　一男; Kazuo Sumita; 一男住田; 聡典河村; Akinori Kawamura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-19
Filing date: 2013-09-19
Publication date: 2015-03-30
Also published as: US9471568B2; CN104462071A; US20150081270A1

Abstract

【課題】会話の流れの中で使用される可能性の高い発音でも音声認識ができる音声翻訳装置、音声翻訳方法およびプログラムを提供する。【解決手段】実施形態の音声翻訳装置は、音声変換辞書を参照して、第１言語による音声を認識して原文テキストに変換する音声認識部と、前記第１言語による原文テキストを前記第２言語の訳文テキストに翻訳する翻訳部と、前記翻訳部によって翻訳された前記第２言語の訳文テキストの内、前記第２言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する未知語検出部と、前記未知語検出部が検出した前記未知語の発音を、前記第２言語における未知語の表記から第１発音候補を推定すると共に、前記未知語の第１言語における原言語単語の発音から第２発音候補を推定する発音推定部と、前記未知語と、推定された前記第１および第２発音候補とを対応づけて、前記音声認識辞書に登録する辞書更新部と、を備える。【選択図】図１

Description

本発明の実施形態は、音声を入力して、第１言語を第２言語に翻訳する音声翻訳装置、音声翻訳方法およびプログラムに関する。

第１言語で記述された原言語の文字列の入力を受け付け、原言語の文字列を所望の第２言語に変換する機械翻訳機器がある。さらに、近年の音声言語処理技術の進展により、一方の利用者が発話した第１言語での音声を、第２言語に翻訳して他方の利用者に向けて出力する音声翻訳機器が実現されている。

現在の音声翻訳機器で使われている、音声認識のための辞書、および翻訳のための辞書は、開発者によって与えられた範囲の語彙しか用意されていない。特に、音声翻訳機器では、機器が使用される場面や状況等に応じて、認識可能な語彙、翻訳可能な語彙を限定したり、切り替えたりした方が、性能が高くなる。これは利用者において、ある程度の前提知識を持って話しを聴く方が、前提知識なしに話しを聴くより理解しやすいことからも想像可能であろう。

これに対して、第１言語における新語を、第２言語に翻訳し、その翻訳結果を第２言語の音声認識辞書に登録するという技術が開示されている。

特表２０１１−５２４９９１号公報

音声通訳機器を介した実際の会話は、お互いの発声を聞き、その通訳結果を確認しながら進めることになる。相手側の言語にない単語は、例えば日本語から中国語、日本語から英語への翻訳ではローマ字表記に翻字したりする。また、英語から日本語への翻訳ではそのままアルファベット表記で出力するか、カタカナ表記に翻字したりする。

この時、相手側は翻訳結果の表記から音が推測できないと、相手側の話者の発声に基づいて発声することがある。そのため、従来の技術のように、単語の表記のみを手掛かりに音声認識の辞書を更新すると、音の違いから正しく認識され難いという問題が起こる。

例えば、日本語の「納豆」という語を考えてみる。この語は、中国語「納豆」（ピンイン：na4dou4)、英語では「Natto」と翻訳される。この翻訳結果を見た外国人は、次に自身がその語句を発声するとき、それぞれの母国語の表記を見て発声する他、日本人の「ナットウ」という発音を真似て発声することが一般に行われる。この日本人の「ナットウ」という発声は、翻訳結果に含まれる中国語「納豆」と英語「Natto」とは、直接関係しない。そのため、翻訳結果の文字列から推定した発音のみに頼る従来の手法では、音声翻訳に失敗する。

また、翻訳精度を上げるために、翻訳可能な単語、翻訳の結果が得られる単語を、全て音声認識の辞書に登録しておくことが考えられる。しかしながら、無秩序に認識可能な語彙を増やすことは、類似する発声の単語が表れる可能性を高めてしまうことに繋がり、必ずしも通訳精度の向上には繋がらない。

本発明が解決しようとする課題は、会話の流れの中で使用される可能性の高い発音でも音声認識ができる音声翻訳装置、音声翻訳方法およびプログラムを提供することを目的とする。

上記目的を達成するために、実施形態に係る音声翻訳装置は、音声変換辞書を参照して、第１言語による音声を認識して原文テキストに変換する音声認識部と、前記第１言語による原文テキストを前記第２言語の訳文テキストに翻訳する翻訳部と、前記翻訳部によって翻訳された前記第２言語の訳文テキストの内、前記第２言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する未知語検出部と、前記未知語検出部が検出した前記未知語の発音を、前記第２言語における未知語の表記から第１発音候補を推定すると共に、前記未知語の第１言語における原言語単語の発音から第２発音候補を推定する発音推定部と、前記未知語と、推定された前記第１および第２発音候補とを対応づけて、前記音声認識辞書に登録する辞書更新部と、を備える。

実施形態の音声翻訳装置によれば、対話の中で共有するべき語句が、会話に参加する話者で共有され、音声認識が可能となるため、音声翻訳装置による通訳精度が向上する。共有された語句は、会話の中で使われる発音に基づいて登録されるため、音声会話における音声認識の認識精度の向上、並びに音声翻訳装置による通訳精度の向上に寄与する。

各実施形態に適用される音声翻訳装置を示すブロック図である。第１実施形態における処理の流れを示したフローチャートである。原言語発音に対する音声認識結果、翻訳結果の一例を示す図である。図３の例題における未知語Ａ，Ｂを検出したことを示す図である。第１実施形態に使用する音声発音変換表の例を示す図である。第１実施形態における音声認識辞書に登録する発音候補の一例を示す。第２実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。第２実施形態に使用する言語間発音変換表の例を示す図である。第２実施形態の未知語に対する発音候補の抽出過程を示す図である。第３実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。第３実施形態に係る音声認識辞書に優先登録した一例を示す。第３実施形態に係る優先音声認識の一例を示す。

以下、図面を参照しながら、実施形態に係る音声翻訳装置、音声翻訳方法およびプログラムについて説明する。

なお、以下の実施形態では、第１言語から第２言語への音声翻訳を前提に説明するが、翻訳方向はその逆でも良い。また、音声翻訳装置が、複数言語を同時に扱う仕組みを採ったとしても、同様に扱えることは明らかである。

図１は、実施形態に係る音声翻訳装置の内部構成を示すブロック図である。図１に示す通り、音声翻訳装置は、音声認識部１００と、翻訳部１２０２、未知語検出部１３０と、発音推定部１４０と、辞書更新部１５０とを有している。音声認識部１００は、音声認識辞書１１０を内蔵又は外付け接続する。

音声認識部１００は、利用者（話者）の発声を音声信号として受け付ける。この音声信号は、例えば、マイクロフォンを通して集音し、これをアナログ・デジタル変換器（Ａ／Ｄ変換器）に通すことで得ることができる。また、音声入力は、予め録音されていた音声を、記録媒体を通して読み込むことで受け付けても良い。音声認識部１００は、受け付けた音声信号を、音声認識辞書１１０を参照して、音声認識処理により対応するテキスト文字列に変換する。音声認識部１００で使用する音声認識技術（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を適用した方法など、広く一般に知られたものを用いればよく、ここではその説明は割愛する。

翻訳部１２０は、音声認識部１００が出力する第１言語による原言語文を、図示していない翻訳辞書を参照して、第２言語による目的言語文に変換し、出力する。翻訳部１２０における翻訳処理は、一般的なトランスファ方式、用例ベース方式、統計ベース方式、中間言語方式など、従来の機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）技術において利用されているあらゆる方法を適用することができる。

未知語検出部１３０は、翻訳部１２０によって翻訳処理した結果である目的言語文において、第２言語を認識する音声認識部１１０にとっての未知語を検出する。例えば、第２言語を認識するために参照する音声認識辞書１１０に、言語が登録されていなければ、それらを未知語として検出することで実現できる。

発音推定部１４０は、未知語検出部１３０が出力する未知語の集合に対して、各未知語の発音を推定する。推定の方法には、音声合成（Ｔｅｘｔ-Ｔｏ-Ｓｐｅｅｃｈ、ＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ）技術を用いて実現することが可能であるから、ここではその説明を割愛する。

更に、実施形態に係る発音推定部１４０では、第２言語中の未知語に対応する、第１言語における語句に基づいて発音を推定する。以下、この発音推定の過程を「原言語からの発音推定」と呼ぶ。ここで、第１言語による発音は、第２言語による未知語に対応する原言語文における語句の表記から推定しても良い。また、当該未知語に対応する原言語文中の語句に相当する第１言語による発声区間の波形情報に基づいて推定しても良い。

「原言語からの発音推定」は、例えば、第１言語による音を、第２言語による音に対応付ける規則や、変換表を作成して用いることができる。また、第１言語と第２言語の発音を組にしたものを大規模に収集し、その変化のパターンを機械学習の方法を用いてモデル化して、新たな未知語に対する発音を統計的に推定する手法を採ることができる。

辞書更新部１５０は、未知語検出部１３０によって検出された未知語である語句を、発音推定部１４０によって推定された発音と対応付けて、音声認識部１００が参照する辞書１１０に登録する。

更に、実施形態に係る辞書更新部１５０は、新たに登録した語句と発音との組を、音声認識部１００における音声認識処理において、優先的に選択されるように更新する。例えば、音声認識部１００の動作時に、同設定が有効になっている語句が候補に含まれる場合、これを優先的に選ぶように構成する。この語句の登録処理は、時間と共に優先度を下げるように構成しても良いし、一連の対話が終了した段階で登録削除するように構成しても良い。

以下、実施形態の音声翻訳装置の動作を説明する。以下の説明では、第１言語を日本語、第２言語を中国語として説明するが、異なる言語であればその原理は全てに適用することができる。

（第１実施形態）
図２は、第１実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。以下、図２に示すフローチャートの流れに沿って、具体例を示しながら各処理について示す。

今、図３（ａ）に示すように、日本語の原言語発声Ｓとして「ミトデナットウヲタベタコトガアリマスカ」が音声認識部１００に入力されるとする。音声認識部１００は、音声認識して図３（ｂ）の「水戸で納豆を食べたことがありますか?」なる音声認識結果Ｒを出力したものとする。そして、翻訳部１２０によって、図３（ｃ）に示す中国語の翻訳結果Ｔを得たと仮定する(Ｓ２００)。

そして、この翻訳結果Ｔを得る過程で、中国語の音声認識辞書１１０に登録されていないとして、図４に示す２つの未知語Ａ，Ｂを含んだ未知語集合Ｕが未知語検出部１３０によって検出され、発音推定部１４０に出力したと仮定する(ステップ２１０)。なお、以下の説明では、中国語「水戸」と、中国語「納豆」と、表記した場合は、以下の中国語の表記を示すものとする。

次に、発音推定部１４０は、未知語集合Ｕの要素である各未知語について、その発音を推定する。ここで、第１実施形態に係る音声翻訳装置では、まず、各未知語の第２言語（中国語）における未登録語の表記から発音を推定する。例えば、中国語「水戸」に対しては「shui3hu4」の発音候補が得られ、中国語「納豆」に対しては「na4dou4」の発音候補が得られる。

更に、発音推定部１４０は、各未知語の第１言語における原言語単語の発音、「水戸」に対する「MITO」と、「納豆」に対する「NATTO」から発音候補を推定する。この推定では、図５に示す言語間発音変換表を用いて発音候補を変換する。その結果、中国語「水戸」に対しては「mi1tou」、中国語「納豆」に対しては「na2tuo2」がそれぞれ得られる。

上述した２つの発音候補の推定処理により、図６に示すように、中国語「水戸」の発音候補として「shui3hu4」と「mi1tou」が、中国語「納豆」の発音候補として「na4dou4」と「na4tuo2」の発音候補集合Ｐが得られる(ステップ２２０)。

辞書更新部１５０は、こうして得られた未知語集合Ｕに含まれる各未知語と、辞書更新部１５０によって推定した発音候補集合Ｐとを対応付けて中国語の音声認識辞書１１０に登録する(ステップ２３０)。

以上の処理より、日本語の知識に基づいて中国人話者が発声する可能性のある発音を、音声認識辞書１１０に登録することができるので、会話の流れの中で使用される可能性の高い発音でも、当該語句を音声認識ができるようになる。その結果、音声会話における音声認識の認識精度の向上、並びに音声翻訳装置による通訳精度の向上に寄与することができる。

ところで、第１実施形態では、必ずしも音声入力は必要ない。これは、中国語の発音推定に、日本語の元発声の情報を参照していないことから明らかである。音声入力の代替としては、タッチスクリーン、マウス、キーボード、手書きなどを介して、翻訳対象となる原言語文を入力することが可能である。

次に、例えば中国人が自身の日本語の知識に基づいて、中国語「納豆」を中国語の発音である「na4dou4」ではなく、これに近い中国語発音「na2tuo2」と発声したとする。この時、第１実施形態では中国語「納豆」に対しては「na2tuo2」の発音候補が含まれないため、所望の音声認識結果が得られない。第２実施形態は、その問題を解決する。

（第２実施形態）
次に、第２実施形態について説明する。図７は、第２実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。図８は、第２実施形態に使用する言語間発音変換表。図９は、第２実施形態の未知語に対する発音候補の抽出過程を示す図である。

まず、図７のＳ４００〜Ｓ４２０の処理は、図２のＳ２００〜Ｓ２２０にそれぞれ対応するので、その説明は重複するため省略する。

次に、Ｓ４３０において、発音推定部１４０は、未知語集合Ｕの各要素に対して、音声認識結果Ｒから対応する音声区間を集めた音声区間集合Ｗを得る。即ち、発音推定部１４０は、未知語検出部１３０が出力した未知語集合Ｕの要素である各未知語について、未登録語の第１言語の音声区間を抽出する。例えば図９（ａ）に示すように、未知語「水戸」に対する音声区間「ミト」と、未知語「納豆」に対する音声区間「ナットウ」を抽出した音声区間集合Ｗを得る。

次に、Ｓ４４０において、発音推定部１４０は、抽出した未知語に対する区間の音声から発音候補を推定し、発音候補集合Ｐに加える。この第２実施形態では、図８に示す言語間発音変換表を用いて発音候補を変換する。その結果、例えば図９（ｂ）に示すように、中国語「水戸」に対しては「mi1tou」、中国語「納豆」に対しては「na2tou2」が推定され、発音候補集合Ｐに加えられる。

最後に、Ｓ４４０において、辞書更新部１５０は、未知語集合Ｕに含まれる各未知語と、発音推定部１４０によって推定した発音候補集合Ｐとを対応付けて中国語の音声認識辞書１１０に登録する。この場合、Ｓ４００〜Ｓ４２０の処理で得られる発音候補との重複を避けて集計すると、例えば図９（ｃ）に示すように中国語「水戸」の発音候補として「shui3hu4」と「mi1tou」の発音候補集合Ｐが得られる。また、中国語「納豆」の発音候補として「na4dou4」と「na4tuo2」と「na2tou2」の発音候補集合Ｐが得られる。辞書更新部１５０は、未知語集合Ｕに含まれる各未知語と発音候補集合Ｐとを対応付けて中国語の音声認識辞書１１０に登録する。

これにより、実際にシステムを利用して、例えば日本人の利用者が発声し、例えば中国人の利用者が聞いた音に近い発音を、音声認識辞書１１０に登録することができる。したがって、会話の流れの中で使用された発音に基づいて、発声した発音による語句も音声認識ができるようになることで、より精度の高い音声翻訳装置を提供することが可能となる。

例えば、中国人が会話の相手である日本人の発声「ナットウ」を聞き、中国語「納豆」を中国語の発音である「na4dou4」ではなく、これに近い中国語発音「na2tou2」と発声したとしても、上述のように更新した音声認識辞書１１０を用いれば中国語「納豆」を正しく認識できるようになる。

（第３実施形態）
次に、第３実施形態の優先語句の登録について説明する。図１０は、第３実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。図１１は、音声認識辞書１１０に優先登録された例を示す。図１２は、優先音声認識の一例を示す図である。

図１０において、Ｓ５００〜Ｓ５２０は、図２のＳ２００〜Ｓ２２０にそれぞれ対応し、またＳ５３０、Ｓ５４０は、図７のＳ４３０、Ｓ４４０に対応するので、その説明は重複するため省略する。

そして、Ｓ５５０では、辞書更新部１５０は、未知語集合Ｕに含まれる各未知語について、辞書更新部１５０によって推定した発音候補と対応付けると共に、同じ発音を持つ既登録の語句に対して優先される語句として、中国語の音声認識辞書１１０に登録する。

図１１は、音声認識辞書１１０に登録された優先登録の一例を示すもので、発音「na4tuo2」に対し、同じ発音を持つ２つの候補がされる。

そして、優先１として

を登録する。

すると、図１２（ａ）に示すように、例えば、中国語発声「wo3xiang3mai3na4tou2」に対して、その音声認識候補として図１２（ｂ）に示す４つの候補が抽出されたと仮定する。そして、中国語「納豆」を優先１に設定していれば、その４つの候補中で最尤の系列、言語モデルなどを参照して計算される尤度を評価して、図１２（ｃ）に示す音声認識結果を選ぶことができるようになる。その結果、音声認識において、話題にあった語句が優先されることから、話題に沿った音声翻訳が実現でき、音声通訳の精度が向上する。

上述の各実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した機械翻訳装置による効果と同様な効果を得ることも可能である。上述の各実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ-ＲＯＭ、ＣＤ-Ｒ、ＣＤ-ＲＷ、ＤＶＤ-ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ-ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の機械翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。

さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。

また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。

また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００‥音声認識部
１１０‥音声認識辞書
１２０‥翻訳部
１３０‥未知語検出部
１４０‥発音推定部
１５０‥辞書更新部

Claims

音声変換辞書を参照して、第１言語による音声を認識して原文テキストに変換する音声認識部と、
前記第１言語による原文テキストを前記第２言語の訳文テキストに翻訳する翻訳部と、
前記翻訳部によって翻訳された前記第２言語の訳文テキストの内、前記第２言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する未知語検出部と、
前記未知語検出部が検出した前記未知語の発音を、前記第２言語における未知語の表記から第１発音候補を推定すると共に、前記未知語の第１言語における原言語単語の発音から第２発音候補を推定する発音推定部と、
前記未知語と、推定された前記第１および第２発音候補とを対応づけて、前記音声認識辞書に登録する辞書更新部と、
を備えた音声翻訳装置。
前記発音推定部は、前記未知語の第１言語における原言語単語に相当する音声区間から第３発音候補を推定することを特徴とする請求項１に記載の音声翻訳装置。
前記辞書更新部は、前記未知語の内、第１言語の音声によって入力された発声を前記翻訳部によって第２言語に翻訳した結果に含まれるものを優先するように設定することを特徴とする請求項１に記載の音声翻訳装置。
音声変換辞書を参照して、第１言語による音声を認識して原文テキストに変換するステップと、
前記第１言語による原文テキストを前記第２言語の訳文テキストに翻訳するステップと、
前記翻訳された前記第２言語の訳文テキストの内、前記第２言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出するステップと、
前記検出した前記未知語の発音を、前記第２言語における未知語の表記から第１発音候補を推定するとともに、前記未知語の第１言語における原言語単語の発音から第２発音候補を推定するステップと、
前記未知語と、推定された前記第１および第２発音候補とを対応づけて、前記音声認識辞書に登録するステップと、
を備えた音声翻訳方法。
前記第１発音候補および前記第２発音候補を推定するステップに、前記検出した前記未知語の発音を、前記未知語の第１言語における原言語単語に相当する音声区間から第３発音候補を推定するステップを加えた請求項４に記載の音声翻訳方法。
前記音声認識辞書に登録するステップは、前記未知語と、推定した前記第１乃至第３発音候補とを対応づけて登録するステップである請求項５に記載の音声翻訳方法。
音声変換辞書を参照して、第１言語による音声を認識して原文テキストに変換する機能と、
前記第１言語による原文テキストを前記第２言語の訳文テキストに翻訳する機能と、
前記翻訳された前記第２言語の訳文テキストの内、前記第２言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する機能と、
前記検出した前記未知語の発音を、前記第２言語における未知語の表記から第１発音候補を推定する機能と、
前記検出した前記未知語の発音を、前記未知語の第１言語における原言語単語の発音から第２発音候補を推定する機能と、
前記未知語と、推定した前記第１および第２発音候補とを対応づけて、前記音声認識辞書に登録する機能と、
をコンピュータに実行させるプログラム。
前記第１発音候補および前記第２発音候補を推定する機能に、前記検出した前記未知語の発音を、前記未知語の第１言語における原言語単語に相当する音声区間から第３発音候補を推定する機能を加えた請求項７に記載のコンピュータに実行させるプログラム。
前記音声認識辞書に登録する機能は、前記未知語と、推定した前記第１乃至第３発音候補とを対応づけて登録するステップである請求項８に記載のコンピュータに実行させるプログラム。