JP4393494B2

JP4393494B2 - 機械翻訳装置、機械翻訳方法および機械翻訳プログラム

Info

Publication number: JP4393494B2
Application number: JP2006257484A
Authority: JP
Inventors: 哲朗知野; 聡史釜谷; 建太郎降幡
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-22
Filing date: 2006-09-22
Publication date: 2010-01-06
Anticipated expiration: 2026-09-22
Also published as: CN101158947A; US7937262B2; US20080077391A1; JP2008076865A

Description

この発明は、音声等による第１の言語による入力を第２の言語へと変換する機械翻訳装置、機械翻訳方法および機械翻訳プログラムに関するものである。

近年、音声入力を用いたヒューマンインタフェースの実用化が進んでいる。例えば、利用者が予め設定されている特定のコマンドを音声入力し、これをシステムが認識して対応する操作を実行することによって、利用者が音声でシステムを操作することができるようにした音声操作システムが実現されている。また、利用者が発声した任意の文章をシステムが分析し、文字列に変換することによって、音声入力による文書作成を可能とするシステムが実現されている。

さらに、第一の言語による音声入力を第二の言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳システムや、利用者とシステムが話し言葉によって対話することを可能とするための音声対話システムなどが開発されている。

このようなシステムでは、利用者から発声された音声信号をデジタルデータに変換し、予め定められたパターンと比較することによって発話内容を認識する音声認識技術を利用している。音声認識では、認識精度を高めるために、比較照合して得られた認識候補から、ｎ−ｇｒａｍなどの統計的な言語モデルを利用して最も確からしい候補を選択する技術や、予め登録された発話内容の用例を参照して最も確からしい候補を選択する技術も提案されている。

また、上述のシステムでは、音声認識した原言語による表現を翻訳の対象言語へ翻訳する機械翻訳技術が利用されている。機械翻訳では、各言語の語彙や文の構造の間の対応関係を記述した規則に基づいて両言語間の変換を行う規則翻訳や、意味的に等価な各言語での表現の対である対訳対を多数収集し、対訳対に基づいて意味的に等価な対象言語の表現を得る用例翻訳などの方法が開発されている。さらに、近年利用可能になった大規模な用例データに基づく統計情報によって、原言語入力に対する対訳を得る統計翻訳といった方法も開発されている。

音声認識では、周囲の環境の雑音の影響や、利用者の声質、音量、発声速度等の相違に起因して誤認識が発生しうる。また、任意の文章を音声入力可能とすると、音声認識処理における比較処理等の処理負担が増大し、十分な精度を得ることが困難となる。

また、用例翻訳では、利用者が入力する表現に無限のバリエーションが存在しうるため、任意の文に対して適切な用例を予め用意することは不可能であり、その結果、用例翻訳で対訳を得られる範囲が非常に小さくなる。また、規則翻訳では、一般的に記述された規則を適応することによって、任意の入力文を翻訳することができるものの、自然な訳文を得ることが難しい。

そこで、用例翻訳と規則翻訳などのように、複数の機械翻訳を組み合わせることによって、より高精度な飜訳を目指すハイブリッド翻訳技術も提案されている（例えば、特許文献１）。

米国特許第６，３５６，８６５号明細書

しかしながら、特許文献１のようなハイブリッド翻訳技術では、ハイブリッド翻訳を構成する各翻訳方法に対し、それぞれの翻訳方法に適した入力を与えることができないという問題があった。例えば、特許文献１では、ＨＭＭ（Hidden Markov Model）などを用いた一般的な音声認識技術により得られた音声認識結果のみを翻訳処理への入力として与えている。

このため、異なる手法の音声認識技術によれば高精度の認識結果を得られる場合であっても、精度の低い不完全な音声認識結果に基づいて機械翻訳を実行するため、翻訳の精度が低下し、十分な精度の翻訳結果が得られないという問題があった。

本発明は、上記に鑑みてなされたものであって、複数の認識処理の処理結果を参照して翻訳を行うことにより、翻訳精度を向上させることができる機械翻訳装置、機械翻訳方法および機械翻訳プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、原言語による音声発話の入力を受付ける入力受付手段と、受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第１認識手段と、受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第２認識手段と、前記第１認識手段の音声認識結果である第１認識結果と、前記第２認識手段の音声認識結果である第２認識結果との類似度を算出する算出手段と、算出した前記類似度が予め定められた第１閾値より大きい場合に、前記第２認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる機械翻訳方法および機械翻訳プログラムである。

また、本発明は、原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、原言語と対象言語との間の対応関係に関する規則を記憶する規則記憶手段と、原言語による音声発話の入力を受付ける入力受付手段と、受付けられた前記音声発話を、原言語による任意の文字列として音声認識して第１認識結果を出力する第１認識手段と、受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識し、認識結果である第２認識結果の確からしさを表す第１尤度を算出し、算出した前記第１尤度を含む前記第２認識結果を出力する第２認識手段と、前記第１尤度が予め定められた第１閾値より大きい場合に、前記第２認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、前記第１尤度が前記第１閾値以下の場合に、前記規則に基づいて前記第１認識結果を翻訳する規則翻訳手段と、を備えたことを特徴とする。

本発明によれば、複数の認識処理結果を参照して発話内容を翻訳するため、機械翻訳の翻訳精度を向上させることができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる機械翻訳装置、機械翻訳方法および機械翻訳プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる機械翻訳装置は、任意の発話内容を認識可能な汎用認識処理と、事前に登録された用例と一致する発話内容を認識可能な用例認識処理の結果を参照して、より高精度の翻訳結果を生成して出力するものである。

以下では、日本語から英語への機械翻訳を前提として説明するが、原言語および対象言語の組み合わせはこれに限るものではなく、あらゆる言語の組み合わせについて適用することができる。

図１は、第１の実施の形態にかかる機械翻訳装置１００の構成を示すブロック図である。同図に示すように、機械翻訳装置１００は、通信部１１１と、音声入力部１１２と、スピーカ１１３と、音響モデル記憶部１２１と、言語モデル記憶部１２２と、用例記憶部１２３と、入力受付部１０１と、第１認識部１０２と、第２認識部１０３と、対応抽出部１０４と、類似度算出部１０５と、用例翻訳部１０６と、出力制御部１０７とを備えている。

通信部１１１は、外部装置（図示せず）から送信された音声データを受信し、入力受付部１０１に出力するものである。音声入力部１１２は、入力された音声を電気信号（音声データ）に変換し、音声データを入力受付部１０１に出力するものである。

なお、機械翻訳装置１００は、音声データを入力するための構成として、通信部１１１と音声入力部１１２とのうち少なくとも一方が備えられていればよい。

スピーカ１１３は、認識結果や翻訳結果の合成音声などを出力するものである。なお、本実施の形態では翻訳結果を音声合成した音声を出力するが、出力形式は音声に限られるものではなく、ディスプレイなどの表示装置にテキスト表示する方法など、従来から用いられているあらゆる方法を適用できる。

音響モデル記憶部１２１は、予め定められた音声の特徴量の標準パターンと、音声認識の単位である単語とを対応づけた音響モデルを記憶するものである。

具体的には、音響モデル記憶部１２１は、予め保持している各音素の特徴量の標準パターンを格納した音素辞書１２１ａと、入力された音声と照合するための単語の情報を格納した単語辞書１２１ｂとを含んでいる。

音素辞書１２１ａは、従来から一般的に利用されているＨＭＭ（Hidden Markov Model）方式の音声認識処理で用いられる辞書と同様であり、後述する第１認識部１０２が算出する特徴量と同等の形式で照合可能な特徴量時系列データが標準パターンとして各音素ラベルと対応づけて登録される。

図２は、音素辞書１２１ａのデータ構造の一例を示す説明図である。同図に示すように、音素辞書１２１ａは、ノードと有向リンクからなる有限オートマトンで特徴量時系列データを表現する。

ノードは、照合の状態を表現しており、例えば、音素ｉに対応する各ノードの値ｉ１、ｉ２、ｉ３は、それぞれ異なる状態であることを表している。また、有効リンクには音素の部分要素となる特徴量（図示せず）が対応づけて記憶されている。

単語辞書１２１ｂは、ＨＭＭ方式の音声認識処理で用いられる辞書と同様であり、各単語に対応する音素列が予め登録され、音素辞書１２１ａに基づく照合で得られる音素列から対応する単語を求めるために用いられる。

図３は、単語辞書１２１ｂのデータ構造の一例を示す説明図である。同図に示すように、単語辞書１２１ｂは、単語と、単語を構成する音素列と、大量の音声データやテキストコーパスを用いて予め算出した単語の出現確率とを対応づけて格納している。

音響モデル記憶部１２１に記憶された音響モデルは、第１認識部１０２および第２認識部１０３が発話音声に対応する単語を認識する際に参照される。なお、音響モデルは上述のモデルに限られるものではなく、ＨＭＭ方式、ＤＰ（ダイナミックプログラミング）方式、ＮＮ（ニューラルネットワーク）方式などの、従来から用いられている音声認識処理で利用されるあらゆるモデルを適用することができる。

言語モデル記憶部１２２は、単語間の接続関係を予め定めた言語モデルを記憶するものである。言語モデルは、ＨＭＭ方式などの音声認識処理で用いられるモデルと同様であり、中間データとして得られた単語列から最も確からしい単語列を求めるために参照される。

図４は、言語モデル記憶部１２２に記憶された言語モデルのデータ構造の一例を示す説明図である。同図は、２単語の連接を対象にしたｂｉ−ｇｒａｍで言語モデルを表した例が示されている。

同図に示すように、言語モデルは、２つの単語（単語１、単語２）と、出現確率とを対応づけた形式となっている。出現確率は、予め大量のテキストコーパスを解析することによって作成しておく。言語モデルは２単語の連接を対象にしたｂｉ−ｇｒａｍに限られず、３つの単語の連接を対象にしたｔｒｉ−ｇｒａｍなどを言語モデルとしてもよい。

用例記憶部１２３は、原言語の用例と、当該原言語の用例と同じ意味内容の対象言語の用例とを対応づけた対訳用例を記憶するものである。図５は、用例記憶部１２３に記憶された対訳用例のデータ構造の一例を示す説明図である。

同図に示すように、用例記憶部１２３は、用例を一意に識別するアドレスと、日本語用例と、英語用例と、用例種別とを対応づけた対訳用例を記憶している。用例種別には、用例が文であるか、置換可能な単語である変数部を含む変数付文であるかなどを表す文の種類の情報や、都市名、部屋種別などのように単語の意味を表す情報を指定する。なお、用例種別に、品詞、意味分類、または意味素性などを付与して高精度に用例を選択可能とするように構成してもよい。

同図では、例えば、アドレス＝Ｙ１のエントリは、日本語用例２０１（手荷物を預けるところはありますか）と、英語用例２０２（Is there somewhere I can leave my baggage?）が意味的に等価な対訳であり、用例種別が「文」であることを表している。

同様に、アドレス＝Ｙ２のエントリは、日本語用例２０３（ビジネスクラスの<X2/ロンドン＞行きのチケットを予約したい）と、英語用例２０４（I'd like to reserve a business air ticket to <X2/London>）が意味的に等価な対訳であり、用例種別が「変数付文」であることを表している。

変数部とは、日英の各用例の中で記号「＜」と記号「＞」によって括られた部分であって、用例の中で他の語に入れ換えられる部分を表している。また、その中の記号「／」の前の部分が変数を一意に識別する識別子を表しており、後ろの部分が実際の用例を構成している変数の値の具体例を表している。

従って、アドレス＝Ｙ２のエントリについては、日本語用例２０３および英語用例２０４のそれぞれから、記号「＜」、「＞」、「／」、および識別子（Ｘ２）を除いた文がそれぞれ対応する対訳であることを示している。

また、アドレス＝Ｙ２のエントリで、日本語用例２０３と英語用例２０４に含まれる変数が同一の識別子を持っていることから、それらが対応づけられており、かつ、その両方をそれぞれの言語で意味的に等価な表現に置換することが可能であることも表している。

なお、アドレス＝Ｙ４の例に示されるように、一つの対訳の中に複数の変数部が含まれることもある。

アドレス＝Ｈ１のエントリは、日本語用例２０５（ロンドン）と、英語用例２０６（London）が意味的に等価な対訳であり、用例種別が「都市名」であることを示している。同様にアドレス＝Ｈ２のエントリは、日本語用例２０７（ロサンゼルス）と、英語用例２０８（Los Angels）が意味的に等価な対訳であり、用例種別が「都市名」であることを示している。

なお、音響モデル記憶部１２１、言語モデル記憶部１２２、および用例記憶部１２３は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

入力受付部１０１は、利用者から発声された日本語による音声入力信号をマイクロフォンなどによってシステムに取り込み、電気信号に変えた後、Ａ／Ｄ（アナログデジタル）変換装置などを用いて、微小な時間単位毎に標本化し、例えば波形振幅の時間系列などのデジタルデータへと変換した音声波形情報を出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。なお、通信部１１１からデジタルデータへ変換済みの音声波形情報を受信した場合は、入力受付部１０１は、上述の変換処理を実行する必要はない。

図６は、入力される音声の一例を示す説明図である。同図では、音声Ｉ１、Ｉ２、およびＩ３の３通りの音声入力の例が示されている。なお、説明の便宜上、それぞれの音声入力の例に対応する発話の意図を表す日本語の漢字仮名交じり文を、括弧内に記載している。

第１認識部１０２は、入力受付部１０１から出力される音声波形情報を受けとり、音声ディクテーション処理を施すことによって、任意の内容で発声された日本語の音声の内容を日本語テキストへと変換し、その認識結果である日本語テキストと、その確信度を表す汎用認識スコアとからなる第１認識結果（以下、汎用認識結果という。）を出力するものである。

具体的には、第１認識部１０２は、まず、例えばＦＦＴ（高速フーリエ変換）分析などの手法を適用して周波数の時間変化などを分析することによって、発声された音声信号の特徴量を算出する。

続いて、第１認識部１０２は、音響モデル記憶部１２１に記憶された音響モデルと、上述の処理で算出した特徴量とを、適用する方式（ＨＭＭ、ＤＰ、ＮＮ等）の手法により比較照合し、発声内容の認識候補を生成する。

さらに、第１認識部１０２は、生成された認識候補に対して言語モデルを利用して最も確からしい候補を推定選択することによって、認識精度の高い音声認識を行う。第１認識部１０２による音響モデルおよび言語モデルを用いた音声認識処理技術は、すでに実用化されている音声ディクテーション技術を利用することで実現することができる。

図７は、汎用認識結果の一例を示す説明図である。図７は、図６の３つの音声Ｉ１、Ｉ２、およびＩ３にそれぞれ対応する汎用音声認識処理の認識結果である日本語テキストＳ１、Ｓ２、およびＳ３を表している。

それぞれの汎用認識結果は、日本語テキストＳｎと、汎用認識スコアＱｎとの組（ｎは識別番号）で表される。例えば、３つ目の例では、「椅子を足してくれますか」を意味する日本語テキストＳ３が認識結果であり、Ｑ３＝８０が汎用認識スコアであることが示されている。なお、図７の例では、最初の２つの認識結果は誤認識が生じた例を表し、３つ目の認識結果は正しく認識された例を表している。

第２認識部１０３は、入力受付部１０１から出力される音声波形情報を受けとり、用例記憶部１２３の内容を参照して、格納されている日本語用例を認識候補として音声認識を行い、認識結果の候補として用例記憶部１２３のアドレスと、日本語用例と、その確度を表す用例認識スコアとからなる第２認識結果（以下、用例認識結果という。）を出力するものである。

第２認識部１０３は、第１認識部１０２で行われる従来の音声認識処理と同様の処理過程の中で行われる認識候補の探索過程で、用例記憶部１２３の日本語用例部分に含まれていない途中解釈候補を、発見した時点で即座に破棄することによって実現する。

なお、この処理の効率を高めるために、用例記憶部１２３中の全ての日本語用例のみを受理するオートマトンを予め作成して利用するように構成してもよい。また、用例記憶部１２３中の日本語用例に適応させた言語モデルを事前に用意し、認識処理の過程で利用するように第２認識部１０３を構成してもよい。この場合は、認識処理自体は第１認識部１０２と共通化し、適用する言語モデルのみを変更することにより、第２認識部１０３の機能を実現するように構成することができる。

このように、第２認識部１０３は、用例記憶部１２３に現れる日本語用例のみに特化した認識処理を行うため、用例記憶部１２３内の日本語用例そのものや、日本語用例に類似した音声入力については、一般的な音声認識処理を行う第１認識部１０２よりも高精度に認識することができるという特徴を有することになる。

さらに、第２認識部１０３は、同時に用例記憶部１２３内の日本語用例と類似していない音声入力に対しては、第１認識部１０２より高い棄却率を示すという性質が期待できるという特徴を有することになる。

図８は、用例認識結果の一例を示す説明図である。図８は、図６の３つの音声Ｉ１、Ｉ２、およびＩ３にそれぞれ対応する用例音声認識処理の認識結果である用例認識結果Ｒ１、Ｒ２、およびＲ３を表している。

各用例認識結果は、用例記憶部１２３でのアドレスＹｎと、対応する日本語用例と、用例認識スコアＰｎとの組で表される。すなわち、例えば１つ目の例では、音声Ｉ１に対する用例認識結果Ｒ１として、アドレスＹ１と、「手荷物を預けるところはありますか」を意味する日本語用例と、用例認識スコアＰ１＝８５が得られたことが示されている。また、２つ目の例では、変数付文の用例であるアドレスＹ２の用例が用例認識結果として得られたことが示されている。

対応抽出部１０４は、用例認識結果に含まれる日本語用例と、汎用認識結果に含まれる日本語テキストとの間での対応関係を抽出するものである。対応抽出部１０４による対応関係抽出処理では、従来から広く利用されているＤＰ手法などを用いて、２つの文字列の間の一致箇所および不一致箇所を対応づける方法を適用することができる。対応づけは、文字単位に行ってもよいし、単語単位で行ってもよい。

また、対応抽出部１０４は、例えば、入力音声の最初の部分で発話された単語同士を対応づけるといったように、入力された音声における時間情報を利用することにより、より高精度な対応づけを実行するように構成してもよい。

類似度算出部１０５は、対応抽出部１０４が対応づけた用例認識結果と汎用認識結果との間の一致する度合いを表す類似度を算出するものである。また、類似度算出部１０５は、対応関係と、類似度とを対応づけたアライメント情報を出力する。類似度算出部１０５は、２つの文字列間の編集距離によって類似度を表すなど、従来から用いられているあらゆる方法により類似度を算出することができる。

図９は、アライメント情報の一例を示す説明図である。図９では、図６の音声Ｉ２に対応する汎用認識結果Ｓ２および用例認識結果Ｒ２に基づくアライメント情報Ａ２と、音声Ｉ２に対応する汎用認識結果Ｓ３と用例認識結果Ｒ３に基づくアライメント情報Ａ３が、アライメント情報の例として示されている。

それぞれのアライメント情報は、アライメント結果Ａｎと、類似度Ｍｎの組で表される。なお、アライメント結果Ａｎは、対応づけられた不一致部分が、括弧「（）」の中で記号「｜」で区切られて、記号の左に用例認識結果、右に汎用認識結果が記載されている。また一致部分についてはその内容がそのまま示されている。

すなわち、例えば２つ目の例であるアライメント結果Ａ３（（いつ｜椅子）（お|を）（発ち｜足し）（になり｜てくれ）ますか）では、４つの不一致部分（「いつ」と「椅子」、「お」と「を」、「発ち」と「足し」、「になり」と「てくれ」）が対応づけられ、それぞれの不一致部分で記号の左が用例認識結果であり、記号の右が汎用認識結果であること、および、括弧で括られていない語尾の単語（ますか）については、両認識結果が一致していたことが示されている。

用例翻訳部１０６は、用例記憶部１２３の内容を参照して、日本語の文字列から英語の文字列への用例翻訳処理を実施し、用例翻訳結果とその確信度を表す用例認識結果を出力するものである。

具体的には、用例翻訳部１０６は、入力された日本語の文字列と、用例記憶部１２３内の各エントリの日本語用例との類似性を判定し、最も類似性の高い用例データの英語用例を利用して、日本語の文字列の翻訳結果を生成する。この用例翻訳処理では、日本語の単語と英語の単語との対応関係なども適宜参照される。

用例翻訳部１０６による用例翻訳処理は上述の方法に限られるものではなく、事前に用意された用例を参照して翻訳結果を生成する方法であれば従来から用いられているあらゆる方法を適用することができる。

図１０は、用例翻訳結果の一例を示す説明図である。図１０は、図６の３つの音声Ｉ１、Ｉ２、およびＩ３にそれぞれ対応する用例翻訳結果Ｕ１、Ｕ２、およびＵ３を表している。

すなわち、Ｕ１は、用例記憶部１２３のアドレスＹ１の英語用例欄の内容がそのまま翻訳結果として出力された場合の例を表している。また、Ｕ２は、用例記憶部１２３のアドレスＹ２の用例の英語用例欄の内容の変数部Ｘ２の単語「London」が、アドレスＨ２の用例の英語用例「Los Angels」で置換されて翻訳結果として出力された場合の例を表している。また、Ｕ３は、用例記憶部１２３のアドレスＹ３の英語用例欄の内容がそのまま翻訳結果として出力された場合の例を表している。

出力制御部１０７は、翻訳結果である文字情報を音声に変換してスピーカ１１３に出力するものである。出力制御部１０７により行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成、テキストトゥスピーチなどの一般的に利用されているあらゆる方法を適用することができる。また、出力装置としてディスプレイが備えられている場合は、出力制御部１０７は、翻訳結果を表示画面に表示するように構成してもよい。

次に、このように構成された第１の実施の形態にかかる機械翻訳装置１００による機械翻訳処理について説明する。図１１は、第１の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。

まず、入力受付部１０１が、通信部１１１または音声入力部１１２から入力された音声を受付ける（ステップＳ１１０１）。次に、入力受付部１０１は、音声が入力されたか否かを判断し（ステップＳ１１０２）、入力されていない場合は（ステップＳ１１０２：ＮＯ）、音声が入力されるまで処理を繰り返す（ステップＳ１１０１）。

音声が入力された場合は（ステップＳ１１０２：ＹＥＳ）、第１認識部１０２が入力された音声に対して汎用音声認識を実行する（ステップＳ１１０３）。具体的には、第１認識部１０２は、ＦＦＴ分析などにより音声の特徴量を算出し、算出した特徴量に対応する単語の候補を音響モデル記憶手段から取得する。そして、取得した単語の候補から、言語モデルを参照して最も確からしい候補を選択し、確からしさを表す上述の汎用認識スコアとともに汎用認識結果として出力する。

次に、第２認識部１０３が、用例記憶部１２３を参照して、入力された音声に対して用例音声認識を実行する（ステップＳ１１０４）。具体的には、第２認識部１０３は、ＦＦＴ分析などにより音声の特徴量を算出し、算出した特徴量に対応する単語の候補を音響モデル記憶手段から取得する。そして、取得した単語を含む用例の候補であって、用例記憶部１２３に記憶された用例の中から、最も確からしい用例の候補を選択し、確からしさを表す上述の用例認識スコアとともに用例認識結果として出力する。

次に、対応抽出部１０４が、汎用認識結果と用例認識結果との対応関係を抽出する（ステップＳ１１０５）。具体的には、対応抽出部１０４は、ＤＰ手法などにより、汎用認識結果と用例認識結果との間の一致箇所および不一致箇所を抽出する。

次に、類似度算出部１０５が、汎用認識結果と用例認識結果との間の編集距離を求めることにより両者の類似度を算出する（ステップＳ１１０６）。

次に、用例翻訳部１０６が、類似度が予め定められた閾値（以下、閾値１という。）より大きいか否かを判断し（ステップＳ１１０７）、大きい場合は（ステップＳ１１０７：ＹＥＳ）、用例認識結果に対する対訳を用例記憶部１２３から取得する（ステップＳ１１０８）。

用例認識結果と汎用認識結果とが類似する場合は、用例認識結果の確信度が高いと判断することができるため、認識精度の高い用例認識結果をそのまま用いて対訳を取得するのが望ましいからである。

類似度が閾値１より大きくない場合（ステップＳ１１０７：ＮＯ）、用例翻訳部１０６は、さらに類似度が、閾値１より小さい値である予め定められた別の閾値（以下、閾値２という。）より小さいか否かを判断する（ステップＳ１１０９）。

類似度が閾値２より小さい場合は（ステップＳ１１０９：ＹＥＳ）、認識精度が低いと考えられるため、再度音声の入力を受付けて処理を繰り返す（ステップＳ１１０１）。

類似度が閾値２より小さくない場合は（ステップＳ１１０９：ＮＯ）、用例翻訳部１０６は、用例認識結果の対訳のうち不一致箇所に対応する部分を、汎用認識結果の不一致箇所に対応する部分の対訳で置換する（ステップＳ１１１０）。

例えば、変数付文の用例で変数部が用例記憶部１２３の用例と異なる音声が入力された場合、変数部の対訳のみを置換すれば、正しい対訳が得られる可能性が高い。このため、用例翻訳部１０６は、変数部に相当する不一致箇所に対応する英語用例を用例記憶部１２３から取得し、入力された音声全体に対応する英語用例の変数部の対訳と置換して出力する。

具体的には、例えば、「ビジネスクラスでロサンゼルス行きチケットを予約したいです」を意味する日本語の音声が入力された場合、図５のアドレス＝Ｙ２のエントリが最も確からしい用例として取得されるが、変数部の差異のため、類似度が閾値１（例えば８０）より小さく、閾値２（例えば７０）より大きかったとする。

この場合、不一致箇所に対応する英語用例として図５の英語用例２０８（Los Angels）が取得できるため、アドレス＝Ｙ２のエントリの英語用例２０４のうち、変数部の単語である「London」を英語用例２０８（Los Angels）で置換した英語用例（I'd like to reserve a business air ticket to Los Angels.）が出力される。

ステップＳ１１０８およびステップＳ１１１０で、用例翻訳部１０６が対訳を取得した後、出力制御部１０７は、対訳を音声合成してスピーカ１１３に出力し（ステップＳ１１１１）、機械翻訳処理を終了する。

このように、第１の実施の形態にかかる機械翻訳装置では、任意の発話内容を認識可能な汎用認識処理と、事前に登録された用例と一致する発話内容を認識可能な用例認識処理の結果を参照し、用例認識処理の認識結果の確からしさが大きい場合は用例認識結果を採用する。また、用例認識処理の認識結果の確からしさが大きくない場合であっても、汎用認識処理による認識結果で置換した用例を出力できる。すなわち、異なる手法の複数の音声認識技術によって得られた結果を適切に入力して翻訳処理を行えるため、機械翻訳の翻訳精度を向上させることができる。

（第２の実施の形態）
第１の実施の形態では、機械翻訳の手法としては用例翻訳のみを用いていた。第２の実施の形態では、機械翻訳の手法として規則翻訳および用例翻訳を採用し、汎用認識処理と用例認識処理の結果を参照して規則翻訳および用例翻訳のいずれかを選択して機械翻訳を実行するものである。

図１２は、第２の実施の形態にかかる機械翻訳装置１２００の構成を示すブロック図である。同図に示すように、機械翻訳装置１２００は、通信部１１１と、音声入力部１１２と、スピーカ１１３と、音響モデル記憶部１２１と、言語モデル記憶部１２２と、用例記憶部１２３と、入力受付部１０１と、第１認識部１０２と、第２認識部１０３と、対応抽出部１０４と、用例翻訳部１０６と、出力制御部１０７と、規則翻訳部９０８とを備えている。

第２の実施の形態では、規則翻訳部９０８を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる機械翻訳装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

規則翻訳部９０８は、日本語および英語の文法や辞書、日本語と英語の語彙の対応関係、または日本語と英語の間の意味的な対応関係などの予め用意した規則に基づいて、任意の日本語の文字列を、意味的に等価な英語の文字列へ翻訳し、規則翻訳結果とその確信度を表す規則翻訳スコアとからなる規則翻訳情報を出力するものである。

規則翻訳部９０８による規則翻訳処理では、トランスファー方式などの従来から用いられているあらゆる規則翻訳方式を適用できる。なお、大規模な用例データに基づいて事前に準備した原言語の表現と対象言語の表現との間の対応関係に関する統計情報によって、原言語入力に対する対訳を得る統計翻訳方式を規則翻訳部９０８の翻訳手法として採用するように構成してもよい。

図１３は、規則翻訳結果の一例を示す説明図である。図１３は、図６の３つの音声Ｉ１、Ｉ２、およびＩ３にそれぞれ対応する汎用認識結果の日本語テキストＳ１、Ｓ２、およびＳ３を、規則翻訳部９０８が翻訳した翻訳結果Ｖ１、Ｖ２、およびＶ３を表している。

すなわち、Ｖ１＝「Is there a floor where you tell the hill held in the hand?」は、日本語テキストＳ１（手に持つ丘告げる床ありますか）を規則翻訳した場合の翻訳結果の例を表している。また、Ｖ２＝「I reserve a business ticket for Los Angels of a life as a nonpayment.」は、日本語テキストＳ２（ビジネス暮らしのロサンゼルス行きチケットを予約し滞納です）を規則翻訳した場合の翻訳結果の例を表している。そして、Ｖ３=「Could you add a chair?」は、日本語テキストＳ３（椅子を足してくれますか）を規則翻訳した場合の翻訳結果の例を表している。

次に、このように構成された第２の実施の形態にかかる機械翻訳装置１２００による機械翻訳処理について説明する。図１４は、第２の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。

ステップＳ１４０１からステップＳ１４０２までの、音声入力受付処理は、第１の実施の形態にかかる機械翻訳装置１００におけるステップＳ１１０１からステップＳ１１０２までと同様の処理なので、その説明を省略する。

音声が入力された場合（ステップＳ１４０２：ＹＥＳ）、第２認識部１０３は、用例記憶部１２３を参照して、入力された音声に対して用例音声認識を実行する（ステップＳ１４０３）。この処理は、第１の実施の形態における図１１のステップＳ１１０４と同様の処理である。

次に、用例翻訳部１０６が、用例認識結果に含まれる用例認識スコアが予め定められた閾値（以下、閾値１という。）より大きいか否かを判断する（ステップＳ１４０４）。なお、第２の実施の形態の閾値は、原則として第１の実施の形態の閾値とは無関係に定められた値である。

用例認識スコアが閾値１より大きい場合（ステップＳ１４０４：ＹＥＳ）、用例翻訳部１０６は、用例認識結果に対する対訳を用例記憶部１２３から取得する（ステップＳ１４０５）。この場合、用例認識結果の確信度が高いと判断することができるため、認識精度の高い用例認識結果をそのまま用いて対訳を取得するのが望ましいからである。

用例認識スコアが閾値１より大きくない場合（ステップＳ１４０４：ＮＯ）、第１認識部１０２は、入力された音声に対して汎用音声認識を実行する（ステップＳ１４０６）。この処理は、第１の実施の形態における図１１のステップＳ１１０３と同様の処理である。

このように、第２の実施の形態では、最初に用例認識処理を実行し、用例認識で十分な確信度を得られなかった場合のみ汎用認識処理を実行する。これにより、不要な処理を最小限に抑えることができる。

次に、規則翻訳部９０８が、用例認識スコアが、閾値１より小さい値である予め定められた閾値（以下、閾値２という。）より小さいか否かを判断する（ステップＳ１４０７）。用例認識スコアが閾値２より小さい場合は（ステップＳ１４０７：ＹＥＳ）、規則翻訳部９０８は、汎用認識結果を参照して規則翻訳を実行する（ステップＳ１４０８）。

用例認識スコアが小さい場合は、適合する用例が用例記憶部１２３に記憶されていない発話内容が入力されたと考えられるため、用例翻訳ではなく、任意の入力文を翻訳可能な規則翻訳によって機械翻訳を実行すべきだからである。

ステップＳ１４０７で、用例認識スコアが閾値２より小さくないと判断された場合は（ステップＳ１４０７：ＮＯ）、対応抽出部１０４が、汎用認識結果に含まれる汎用認識スコアが予め定められた閾値（以下、閾値３という。）より大きいか否かを判断する（ステップＳ１４０９）。

汎用認識スコアが閾値３より大きくない場合は（ステップＳ１４０９：ＮＯ）、認識精度が十分でないと判断できるため、再度音声の入力を受付けて処理を繰り返す（ステップＳ１４０１）。

汎用認識スコアが閾値３より大きい場合は（ステップＳ１４０９：ＹＥＳ）、対応抽出部１０４が、汎用認識結果と用例認識結果との対応関係を抽出する（ステップＳ１４１０）。この処理は、第１の実施の形態における図１１のステップＳ１１０５と同様の処理である。続いて、類似度算出部１０５が、汎用認識結果と用例認識結果との類似度を算出する（ステップＳ１４１１）。この処理は、第１の実施の形態における図１１のステップＳ１１０６と同様の処理である。

次に、用例翻訳部１０６が、類似度が予め定められた閾値（以下、閾値４という。）より小さいか否かを判断する（ステップＳ１４１２）。類似度が閾値４より小さい場合は（ステップＳ１４１２：ＹＥＳ）、用例認識処理では精度の高い認識結果が得られていないと判断できるため、規則翻訳部９０８による汎用認識結果を参照した規則翻訳処理が実行される（ステップＳ１４０８）。

例えば、用例記憶部１２３に用例として記憶されていない発話内容が入力された場合であっても、用例認識処理では用例単位で照合が行われるため、最もスコアの大きいいずれかの用例が１つ選択される。すなわち、このような場合には誤った用例が選択されるため、用例認識処理の精度が低下する。一方、汎用認識処理では単語単位で照合が行われるため、認識結果が発話内容と大きく異なる場合は少ない。

本実施の形態では、汎用認識結果と用例認識結果との対応関係が抽出できるか否かによって、用例として記憶されていない発話内容が入力されたか否かを判断する。そして、対応関係が抽出できない場合には汎用認識結果に基づく規則翻訳処理を実行する。このように、複数の認識処理の結果に応じて適切な翻訳処理の方式を選択するため、高精度に翻訳結果を出力することが可能となる。

類似度が閾値４より小さくない場合は（ステップＳ１４１２：ＮＯ）、用例翻訳部１０６は、用例認識結果の対訳のうち不一致箇所に対応する部分を、汎用認識結果の不一致箇所に対応する部分の対訳で置換する（ステップＳ１４１３）。この処理は、第１の実施の形態における図１１のステップＳ１１１０と同様の処理である。

すなわち、用例認識である程度の認識精度が得られ（ステップＳ１４０４：ＮＯ、ステップＳ１４０７：ＮＯ）、かつ、汎用認識で十分な認識精度が得られ（ステップＳ１４０９：ＹＥＳ）、かつ、対応づけにより用例認識結果と汎用認識結果とが類似していると判断できる場合は（ステップＳ１４１２：ＮＯ）、変数付文の用例で変数部が用例と異なる音声が入力された場合であると考えられるため、変数部を汎用認識結果の対応部分と置換することにより、正しい対訳が得ることができる。

ステップＳ１４０５、ステップＳ１４０８、またはステップＳ１４１３で、用例翻訳部１０６または規則翻訳部９０８が対訳を取得または出力した後、出力制御部１０７は、対訳を音声合成してスピーカ１１３に出力し（ステップＳ１４１４）、機械翻訳処理を終了する。

次に、本実施の形態における機械翻訳処理の具体例について説明する。以下では、図６に示した３つの音声Ｉ１、Ｉ２、およびＩ３を翻訳して出力する具体例について説明する。また、以下では、上述の各閾値の値として、閾値１＝８０、閾値２＝６０、閾値３＝７０、閾値４＝７５が設定されていることを前提とする。

まず、図６の音声Ｉ１に示すような日本語の音声が入力されたとする。なお、図６の音声Ｉ１は、図５のアドレスＹ１に対応する日本語用例２０１のうち、助詞などの一部（「ろは」）を省略して発話した音声に相当する。

これに対し、用例認識処理の認識結果として図８の用例認識結果Ｒ１が得られたとする。すなわち、用例認識結果Ｒ１は、音声Ｉ１とは発音が完全に一致はしないがほぼ同じ内容を表しているため、最も確からしい用例として選択されたものとする。このときの用例認識スコアは８５であり、閾値１（＝８０）より大きいため（ステップＳ１４０４：ＹＥＳ）、用例翻訳が実行される（ステップＳ１４０５）。この場合、図５のような用例記憶部１２３から正しい英語用例２０２（Is there somewhere I can leave my baggage?）が翻訳結果として得られる。

このように、入力された音声が用例と多少異なっている場合であっても、用例認識によって正しく認識され、用例と多少異なった発声でも対訳用例が検索されて高品質な訳を出力することができる。

また、この場合は不用な汎用認識処理（ステップＳ１４０６）、および規則翻訳処理（ステップＳ１４０８）は実行されないので、処理負荷が軽くなるという利点がある。

なお、仮に音声Ｉ１に対して汎用認識処理を行った場合、助詞等が省略されているため、誤認識が発生する可能性が高い。例えば、図７の日本語テキストＳ１（手に持つ丘告げる床ありますか）のように誤認識された認識結果が出力され、汎用認識スコアとしては低い値（Ｑ１＝７０）が得られると考えられる。

これに対し、本実施の形態によれば、高精度に認識可能な用例認識結果を採用できるため、誤認識された汎用認識結果によって、例えば、図１３の翻訳結果Ｖ１（Is there a floor where you tell the hill held in the hand?）のように誤った翻訳結果が出力されるという問題を回避することができる。

次に、図６の音声Ｉ２に示すような日本語の音声が入力されたとする。なお、図６の音声Ｉ２は、図５のアドレスＹ２に対応する日本語用例２０３のうち、変数部などの一部のみが異なる内容を発話した音声に相当する。

これに対し、用例認識処理の認識結果として図８の用例認識結果Ｒ２が得られたとする。このときの用例認識スコアは７５であり、閾値１（＝８０）より小さいため（ステップＳ１４０４：ＮＯ）、汎用認識処理が実行される（ステップＳ１４０６）。

これにより、例えば、図７の日本語テキストＳ２（ビジネス暮らしのロサンゼルス行きチケットを予約し滞納です）と、汎用認識スコアＱ２＝７５が得られたとする。用例認識スコア（７５）は閾値２（＝６０）より大きく（ステップＳ１４０７：ＮＯ）、かつ、汎用認識スコアＱ２＝７５は、閾値３（＝７０）より大きいため（ステップＳ１４０９：ＹＥＳ）、対応関係抽出処理が実行され（ステップＳ１４１０）、例えば、図９のアライメント情報Ａ２と、類似度Ｍ２＝７８が得られたとする。

類似度Ｍ２＝７８は閾値４（＝７５）より大きいため（ステップＳ１４１２：ＮＯ）、用例翻訳処理が実行される（ステップＳ１４１３）。この場合は、図５のアドレスＹ２に対応する英語用例の変数部（X2/London）を、「ロサンゼルス」を意味する日本語用例２０７に対応する英語用例２０８（Los Angels）で置換した用例翻訳結果を出力する。このときの翻訳結果は、図１０の用例翻訳結果Ｕ２（I'd like to reserve a business ticket to Los Angels.）のようになる。

このように、用例認識結果と汎用認識結果との対応関係を抽出することにより、高精度に用例の中の変更すべき箇所を探して用例翻訳を実行することが可能となる。また、汎用認識処理で誤認識が生じていた場合であっても、変数部が正しく認識されていれば、用例認識を改変して正しい翻訳結果を出力することができる。

次に、図６の音声Ｉ３に示すような日本語の音声が入力されたとする。なお、図６の音声Ｉ３は、図５のアドレスＹ３に対応する日本語用例と発音が近似するが、意味がまったく異なる内容を発話した音声に相当する。すなわち、音声Ｉ３は「椅子を足してくれますか」を意味するが、アドレスＹ３に対応する日本語用例は「いつお発ちになりますか」を意味する。

これに対し、用例認識処理の認識結果として図８の用例認識結果Ｒ３が得られたとする。すなわち、音声Ｉ３は発音が近似するため、用例認識結果Ｒ３が最も確からしい用例として選択されたものとする。このときの用例認識スコアは６５であり、閾値１（＝８０）より小さいため（ステップＳ１４０４：ＮＯ）、汎用認識処理が実行される（ステップＳ１４０６）。

これにより、例えば、図７の日本語テキストＳ３（椅子を足してくれますか）と、汎用認識スコアＱ３＝８０が得られたとする。用例認識スコア（６５）は閾値２（＝６０）より大きく（ステップＳ１４０７：ＮＯ）、かつ、汎用認識スコアＱ３＝８０は、閾値３（＝７０）より大きいため（ステップＳ１４０９：ＹＥＳ）、対応関係抽出処理が実行され（ステップＳ１４１０）、例えば、図９のアライメント情報Ａ３と、類似度Ｍ３＝４５が得られたとする。

類似度Ｍ３＝４５は閾値４（＝７５）より小さいため（ステップＳ１４１２：ＹＥＳ）、規則翻訳処理が実行される（ステップＳ１４０８）。このときの翻訳結果は、図１１の用例翻訳結果Ｖ３（Could you add a chair?）のようになる。

このように、対応関係が抽出できない場合は、用例認識が正常に行われていないと判断し、用例翻訳ではなく規則翻訳を実行することができる。したがって、従来の方法のように、規則翻訳と用例翻訳の適切な切替えが行われず、用例翻訳処理が強行されることによって、例えば図１０の用例翻訳結果Ｕ３（When do you like to leave?）のような誤った翻訳結果が出力されるという問題を回避できる。

このように、第２の実施の形態にかかる機械翻訳装置では、汎用認識処理と用例認識処理の結果を参照して規則翻訳および用例翻訳のいずれかを選択して機械翻訳を実行することができる。これにより、高品質な翻訳を出せるという用例翻訳の利点と、任意の文を訳せるという規則翻訳の双方の利点を生かせる機械翻訳装置を実現できる。また、用例に特化された音声認識機能を設けたことにより、用例に類似する入力を高精度に検出するとともに、高精度に用例の改変箇所を検出することができる。

（第３の実施の形態）
第３の実施の形態は、汎用認識処理と用例認識処理で共通する処理である特徴量の算出処理を専用の処理部で共通化して実行するものである。

図１５は、第３の実施の形態にかかる機械翻訳装置１５００の構成を示すブロック図である。同図に示すように、機械翻訳装置１５００は、通信部１１１と、音声入力部１１２と、スピーカ１１３と、音響モデル記憶部１２１と、言語モデル記憶部１２２と、用例記憶部１２３と、入力受付部１０１と、第１認識部１５０２と、第２認識部１５０３と、対応抽出部１０４と、用例翻訳部１０６と、出力制御部１０７と、特徴量算出部１５０９とを備えている。

第３の実施の形態では、特徴量算出部１５０９を追加したこと、および第１認識部１５０２の機能と第２認識部１５０３の機能とが、第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる機械翻訳装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

特徴量算出部１５０９は、入力受付部１０１から出力される音声波形情報を受けとり、音声の特徴量を算出するものである。具体的には、特徴量算出部１５０９は、ＦＦＴ分析などの手法を適用して周波数の時間変化などを分析することによって、発声された音声信号の特徴量を算出する。

すなわち、特徴量算出部１５０９は、第１の実施の形態における第１認識部１０２および第２認識部１０３の機能のうち、音声の特徴量を算出する機能を実行するものである。

これに対応し、第２の実施の形態における第１認識部１５０２および第２認識部１５０３は、第１の実施の形態における第１認識部１０２および第２認識部１０３の機能のうち、音声の特徴量を算出する機能を除いた機能を有する。そして、第１認識部１５０２および第２認識部１５０３は、それぞれ特徴量算出部１５０９が算出した特徴量に基づいて各処理を実行する点が、第１の実施の形態における第１認識部１０２および第２認識部１０３と異なっている。

次に、このように構成された第３の実施の形態にかかる機械翻訳装置１５００による機械翻訳処理について説明する。図１６は、第３の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。

ステップＳ１６０１からステップＳ１６０２までの、音声入力受付処理は、第１の実施の形態にかかる機械翻訳装置１００におけるステップＳ１１０１からステップＳ１１０２までと同様の処理なので、その説明を省略する。

音声が入力された場合（ステップＳ１６０２：ＹＥＳ）、特徴量算出部１５０９が入力された音声からＦＦＴ分析などの手法を用いて特徴量を算出する（ステップＳ１６０３）。

次に、第１認識部１５０２は、算出した特徴量を参照して汎用音声認識を実行する（ステップＳ１６０４）。具体的には、第１認識部１５０２は、特徴量算出部１５０９が算出した特徴量に対応する単語の候補を音響モデル記憶部１２１から取得する。そして、取得した単語の候補から、言語モデルを参照して最も確からしい候補を選択し、確からしさを表す上述の汎用認識スコアとともに汎用認識結果として出力する。

次に、第２認識部１５０３が、用例記憶部１２３および特徴量を参照して用例音声認識を実行する（ステップＳ１６０５）。具体的には、第２認識部１５０３は、特徴量算出部１５０９が算出した特徴量に対応する単語の候補を音響モデル記憶部１２１から取得する。そして、取得した単語を含む用例の候補であって、用例記憶部１２３に記憶された用例の中から、最も確からしい用例の候補を選択し、確からしさを表す上述の用例認識スコアとともに用例認識結果として出力する。

ステップＳ１６０６からステップＳ１６１２までの、対応抽出処理、類似度算出処理、用例翻訳処理、および出力制御処理は、第１の実施の形態にかかる機械翻訳装置１００におけるステップＳ１１０５からステップＳ１１１１までと同様の処理なので、その説明を省略する。

このように、第３の実施の形態にかかる機械翻訳装置では、汎用認識処理と用例認識処理で共通する処理である特徴量の算出処理を専用の処理部で共通化して実行するため、構成を簡略化し、処理負担を軽減することが可能となる。

なお、本発明は、上述した実施の形態に限定されるものではなく、発明の要旨を変更しない範囲で適宜、変形して実施することが可能である。

例えば、翻訳を行わずに、複数の音声認識の処理結果を各処理結果に応じて切り分ける機能のみを利用するように構成してもよい。また、このような機能により入力された音声の情報を、対話型ヒューマンインターフェース、ＱＡ（Question Answer）システム、検索システムなどの翻訳以外のアプリケーションで利用するように構成してもよい。

また、認識処理は、音声を対象とする音声認識処理に限られるものではなく、任意の認識結果を出力しうる汎用の認識処理と、事前に登録された用例に一致する認識結果を出力する用例認識処理とを有するものであれば、ペン入力による文字認識や、ジェスチャによる手話認識などにも適用できる。

また、音声認識結果や用例に読み情報を追加しておき、対応関係抽出処理や用例の検索の精度を高めるように構成してもよい。さらに、上述の機械翻訳処理では、用例翻訳または規則翻訳のいずれか一方のみを実行していたが、用例翻訳失敗時に規則翻訳により再度翻訳を実行し、規則翻訳失敗時に用例翻訳により再度翻訳を実行するように構成してもよい。

図１７は、第１〜第３の実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。

第１〜第３の実施の形態にかかる機械翻訳装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１〜第３の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１〜第３の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１〜第３の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第３の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１〜第３の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、上述した各部（入力受付部、第１認識部、第２認識部、対応抽出部、類似度算出部、用例翻訳部、出力制御部、規則翻訳部、特徴量算出部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる機械翻訳装置、機械翻訳方法および機械翻訳プログラムは、音声入力または文字入力した原言語文を対象言語に翻訳して文字出力または音声出力する装置に適している。

第１の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。音素辞書のデータ構造の一例を示す説明図である。単語辞書のデータ構造の一例を示す説明図である。言語モデル記憶部に記憶された言語モデルのデータ構造の一例を示す説明図である。用例記憶部に記憶された対訳用例のデータ構造の一例を示す説明図である。入力される音声の一例を示す説明図である。汎用認識結果の一例を示す説明図である。用例認識結果の一例を示す説明図である。アライメント情報の一例を示す説明図である。用例翻訳結果の一例を示す説明図である。第１の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。第２の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。規則翻訳結果の一例を示す説明図である。第２の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。第３の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。第３の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。機械翻訳装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００機械翻訳装置
１０１入力受付部
１０２第１認識部
１０３第２認識部
１０４対応抽出部
１０５類似度算出部
１０６用例翻訳部
１０７出力制御部
１１１通信部
１１２音声入力部
１１３スピーカ
１２１音響モデル記憶部
１２１ａ音素辞書
１２１ｂ単語辞書
１２２言語モデル記憶部
１２３用例記憶部
２０１、２０３、２０５、２０７日本語用例
２０２、２０４、２０６、２０８英語用例
９０８規則翻訳部
１２００機械翻訳装置
１５００機械翻訳装置
１５０２第１認識部
１５０３第２認識部
１５０９特徴量算出部

Claims

原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、
原言語による音声発話の入力を受付ける入力受付手段と、
受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第１認識手段と、
受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第２認識手段と、
前記第１認識手段の音声認識結果である第１認識結果と、前記第２認識手段の音声認識結果である第２認識結果との類似度を算出する算出手段と、
算出した前記類似度が予め定められた第１閾値より大きい場合に、前記第２認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、
を備えたことを特徴とする機械翻訳装置。
音声の特徴量と単語とを対応づけた音響モデルを記憶する音響モデル記憶手段と、
単語間の接続関係を定めた言語モデルを記憶する言語モデル記憶手段と、をさらに備え、
前記第１認識手段は、受付けられた前記音声発話の特徴量を算出し、算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補から、前記言語モデルに基づいて最も確からしい前記単語の候補を選択した第１認識結果を生成すること、
を特徴とする請求項１に記載の機械翻訳装置。
音声の特徴量と単語とを対応づけた音響モデルを記憶する音響モデル記憶手段をさらに備え、
前記第２認識手段は、受付けられた前記音声発話の特徴量を算出し、算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補を含む前記原言語の用例の候補のうち、最も確からしい前記原言語の用例の候補を前記用例記憶手段から選択した第２認識結果を生成すること、
を特徴とする請求項１に記載の機械翻訳装置。
前記第１認識結果に含まれる単語と、前記第２認識結果に含まれる単語との一致箇所および不一致箇所の情報を含む単語間の対応関係を抽出する対応抽出手段をさらに備え、
前記用例翻訳手段は、前記対応関係に基づき、前記不一致箇所に対応する単語である不一致語に対応する前記対象言語の用例を前記用例記憶手段から取得し、取得した前記不一致語に対応する前記対象言語の用例で、前記第２認識結果に対応する前記対象言語の用例の前記不一致語に対応する単語を置換することにより翻訳を行うこと、
を特徴とする請求項１に記載の機械翻訳装置。
前記対応抽出手段は、前記第１認識結果に含まれる単語の前記音声発話における位置と前記第２認識結果に含まれる単語の前記音声発話における位置とが予め定められた範囲内である場合に、前記第１認識結果に含まれる単語と前記第２認識結果に含まれる単語との対応関係を抽出すること、
を特徴とする請求項４に記載の機械翻訳装置。
原言語と対象言語との間の対応関係に関する規則を記憶する規則記憶手段と、
算出した前記類似度が予め定められた第１閾値より大きくない場合に、前記規則に基づいて前記第１認識結果を翻訳する規則翻訳手段と、
をさらに備えたことを特徴とする請求項１に記載の機械翻訳装置。
前記規則記憶手段は、原言語と対象言語との間の文法に関する変換規則を記憶し、
前記規則翻訳手段は、前記変換規則に基づいて前記第１認識結果を翻訳すること、
を特徴とする請求項６に記載の機械翻訳装置。
前記規則記憶手段は、原言語と対象言語との間の語彙に関する変換規則を記憶し、
前記規則翻訳手段は、前記変換規則に基づいて前記第１認識結果を翻訳すること、
を特徴とする請求項６に記載の機械翻訳装置。
前記規則記憶手段は、原言語と対象言語との間の意味内容に関する変換規則を記憶し、
前記規則翻訳手段は、前記変換規則に基づいて前記第１認識結果を翻訳すること、
を特徴とする請求項６に記載の機械翻訳装置。
前記規則記憶手段は、原言語の表現と対象言語の表現との間の対応関係の統計情報に関する統計規則を記憶し、
前記規則翻訳手段は、前記統計規則に基づいて前記第１認識結果を翻訳すること、
を特徴とする請求項６に記載の機械翻訳装置。
原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、
原言語と対象言語との間の対応関係に関する規則を記憶する規則記憶手段と、
原言語による音声発話の入力を受付ける入力受付手段と、
受付けられた前記音声発話を、原言語による任意の文字列として音声認識して第１認識結果を出力する第１認識手段と、
受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識し、認識結果である第２認識結果の確からしさを表す第１尤度を算出し、算出した前記第１尤度を含む前記第２認識結果を出力する第２認識手段と、
前記第１尤度が予め定められた第１閾値より大きい場合に、前記第２認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、
前記第１尤度が前記第１閾値以下の場合に、前記規則に基づいて前記第１認識結果を翻訳する規則翻訳手段と、
を備えたことを特徴とする機械翻訳装置。
前記用例記憶手段は、置換可能な単語である変数部を含む前記原言語の用例を記憶し、
前記第２認識手段は、前記原言語の用例の前記変数部を除いた部分について前記第１尤度を算出すること、
を特徴とする請求項１１に記載の機械翻訳装置。
前記第１認識手段の音声認識結果である第１認識結果と、前記第２認識手段の音声認識結果である第２認識結果との類似度を算出する算出手段をさらに備え、
前記規則翻訳手段は、前記第１尤度が前記第１閾値以下であり、算出された前記類似度が予め定められた第２閾値より大きくない場合に、前記規則に基づいて前記第１認識結果を翻訳すること、
を特徴とする請求項１１に記載の機械翻訳装置。
前記第１認識手段は、さらに前記第１認識結果の確からしさを表す第２尤度を算出し、算出した前記第２尤度をさらに含む前記第１認識結果を出力すること、
を特徴とする請求項１３に記載の機械翻訳装置。
前記規則翻訳手段は、前記第２尤度が予め定められた第３閾値より大きい場合に、前記規則に基づいて前記第１認識結果を翻訳すること、
を特徴とする請求項１４に記載の機械翻訳装置。
音声の特徴量と単語とを対応づけた音響モデルを記憶する音響モデル記憶手段と、
単語間の接続関係を定めた言語モデルを記憶する言語モデル記憶手段と、
受付けられた前記音声発話の特徴量を算出する特徴量算出手段と、をさらに備え、
前記第１認識手段は、前記特徴量算出手段が算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補から、前記言語モデルに基づいて最も確からしい前記単語の候補を選択した第１認識結果を生成し、
前記第２認識手段は、前記特徴量算出手段が算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補を含む前記原言語の用例の候補のうち、最も確からしい前記原言語の用例の候補を前記用例記憶手段から選択した第２認識結果を生成すること、
を特徴とする請求項１に記載の機械翻訳装置。
原言語による音声発話の入力を受付ける入力受付ステップと、
受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第１認識ステップと、
受付けられた前記音声発話を、原言語の用例と前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第２認識ステップと、
前記第１認識ステップの音声認識結果である第１認識結果と、前記第２認識ステップの音声認識結果である第２認識結果との類似度を算出する算出ステップと、
算出した前記類似度が予め定められた第１閾値より大きい場合に、前記第２認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳ステップと、
を備えたことを特徴とする機械翻訳方法。
原言語による音声発話の入力を受付ける入力受付手順と、
受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第１認識手順と、
受付けられた前記音声発話を、原言語の用例と前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第２認識手順と、
前記第１認識手順の音声認識結果である第１認識結果と、前記第２認識手順の音声認識結果である第２認識結果との類似度を算出する算出手順と、
算出した前記類似度が予め定められた第１閾値より大きい場合に、前記第２認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手順と、
をコンピュータに実行させる機械翻訳プログラム。