JP4393494B2 - 機械翻訳装置、機械翻訳方法および機械翻訳プログラム - Google Patents

機械翻訳装置、機械翻訳方法および機械翻訳プログラム Download PDF

Info

Publication number
JP4393494B2
JP4393494B2 JP2006257484A JP2006257484A JP4393494B2 JP 4393494 B2 JP4393494 B2 JP 4393494B2 JP 2006257484 A JP2006257484 A JP 2006257484A JP 2006257484 A JP2006257484 A JP 2006257484A JP 4393494 B2 JP4393494 B2 JP 4393494B2
Authority
JP
Japan
Prior art keywords
recognition result
recognition
translation
language
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006257484A
Other languages
English (en)
Other versions
JP2008076865A (ja
Inventor
哲朗 知野
聡史 釜谷
建太郎 降幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006257484A priority Critical patent/JP4393494B2/ja
Priority to US11/812,837 priority patent/US7937262B2/en
Priority to CNA2007101547576A priority patent/CN101158947A/zh
Publication of JP2008076865A publication Critical patent/JP2008076865A/ja
Application granted granted Critical
Publication of JP4393494B2 publication Critical patent/JP4393494B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

この発明は、音声等による第1の言語による入力を第2の言語へと変換する機械翻訳装置、機械翻訳方法および機械翻訳プログラムに関するものである。
近年、音声入力を用いたヒューマンインタフェースの実用化が進んでいる。例えば、利用者が予め設定されている特定のコマンドを音声入力し、これをシステムが認識して対応する操作を実行することによって、利用者が音声でシステムを操作することができるようにした音声操作システムが実現されている。また、利用者が発声した任意の文章をシステムが分析し、文字列に変換することによって、音声入力による文書作成を可能とするシステムが実現されている。
さらに、第一の言語による音声入力を第二の言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳システムや、利用者とシステムが話し言葉によって対話することを可能とするための音声対話システムなどが開発されている。
このようなシステムでは、利用者から発声された音声信号をデジタルデータに変換し、予め定められたパターンと比較することによって発話内容を認識する音声認識技術を利用している。音声認識では、認識精度を高めるために、比較照合して得られた認識候補から、n−gramなどの統計的な言語モデルを利用して最も確からしい候補を選択する技術や、予め登録された発話内容の用例を参照して最も確からしい候補を選択する技術も提案されている。
また、上述のシステムでは、音声認識した原言語による表現を翻訳の対象言語へ翻訳する機械翻訳技術が利用されている。機械翻訳では、各言語の語彙や文の構造の間の対応関係を記述した規則に基づいて両言語間の変換を行う規則翻訳や、意味的に等価な各言語での表現の対である対訳対を多数収集し、対訳対に基づいて意味的に等価な対象言語の表現を得る用例翻訳などの方法が開発されている。さらに、近年利用可能になった大規模な用例データに基づく統計情報によって、原言語入力に対する対訳を得る統計翻訳といった方法も開発されている。
音声認識では、周囲の環境の雑音の影響や、利用者の声質、音量、発声速度等の相違に起因して誤認識が発生しうる。また、任意の文章を音声入力可能とすると、音声認識処理における比較処理等の処理負担が増大し、十分な精度を得ることが困難となる。
また、用例翻訳では、利用者が入力する表現に無限のバリエーションが存在しうるため、任意の文に対して適切な用例を予め用意することは不可能であり、その結果、用例翻訳で対訳を得られる範囲が非常に小さくなる。また、規則翻訳では、一般的に記述された規則を適応することによって、任意の入力文を翻訳することができるものの、自然な訳文を得ることが難しい。
そこで、用例翻訳と規則翻訳などのように、複数の機械翻訳を組み合わせることによって、より高精度な飜訳を目指すハイブリッド翻訳技術も提案されている(例えば、特許文献1)。
米国特許第6,356,865号明細書
しかしながら、特許文献1のようなハイブリッド翻訳技術では、ハイブリッド翻訳を構成する各翻訳方法に対し、それぞれの翻訳方法に適した入力を与えることができないという問題があった。例えば、特許文献1では、HMM(Hidden Markov Model)などを用いた一般的な音声認識技術により得られた音声認識結果のみを翻訳処理への入力として与えている。
このため、異なる手法の音声認識技術によれば高精度の認識結果を得られる場合であっても、精度の低い不完全な音声認識結果に基づいて機械翻訳を実行するため、翻訳の精度が低下し、十分な精度の翻訳結果が得られないという問題があった。
本発明は、上記に鑑みてなされたものであって、複数の認識処理の処理結果を参照して翻訳を行うことにより、翻訳精度を向上させることができる機械翻訳装置、機械翻訳方法および機械翻訳プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、原言語による音声発話の入力を受付ける入力受付手段と、受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第1認識手段と、受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第2認識手段と、前記第1認識手段の音声認識結果である第1認識結果と、前記第2認識手段の音声認識結果である第2認識結果との類似度を算出する算出手段と、算出した前記類似度が予め定められた第1閾値より大きい場合に、前記第2認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる機械翻訳方法および機械翻訳プログラムである。
また、本発明は、原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、原言語と対象言語との間の対応関係に関する規則を記憶する規則記憶手段と、原言語による音声発話の入力を受付ける入力受付手段と、受付けられた前記音声発話を、原言語による任意の文字列として音声認識して第1認識結果を出力する第1認識手段と、受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識し、認識結果である第2認識結果の確からしさを表す第1尤度を算出し、算出した前記第1尤度を含む前記第2認識結果を出力する第2認識手段と、前記第1尤度が予め定められた第1閾値より大きい場合に、前記第2認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、前記第1尤度が前記第1閾値以下の場合に、前記規則に基づいて前記第1認識結果を翻訳する規則翻訳手段と、を備えたことを特徴とする。
本発明によれば、複数の認識処理結果を参照して発話内容を翻訳するため、機械翻訳の翻訳精度を向上させることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる機械翻訳装置、機械翻訳方法および機械翻訳プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる機械翻訳装置は、任意の発話内容を認識可能な汎用認識処理と、事前に登録された用例と一致する発話内容を認識可能な用例認識処理の結果を参照して、より高精度の翻訳結果を生成して出力するものである。
以下では、日本語から英語への機械翻訳を前提として説明するが、原言語および対象言語の組み合わせはこれに限るものではなく、あらゆる言語の組み合わせについて適用することができる。
図1は、第1の実施の形態にかかる機械翻訳装置100の構成を示すブロック図である。同図に示すように、機械翻訳装置100は、通信部111と、音声入力部112と、スピーカ113と、音響モデル記憶部121と、言語モデル記憶部122と、用例記憶部123と、入力受付部101と、第1認識部102と、第2認識部103と、対応抽出部104と、類似度算出部105と、用例翻訳部106と、出力制御部107とを備えている。
通信部111は、外部装置(図示せず)から送信された音声データを受信し、入力受付部101に出力するものである。音声入力部112は、入力された音声を電気信号(音声データ)に変換し、音声データを入力受付部101に出力するものである。
なお、機械翻訳装置100は、音声データを入力するための構成として、通信部111と音声入力部112とのうち少なくとも一方が備えられていればよい。
スピーカ113は、認識結果や翻訳結果の合成音声などを出力するものである。なお、本実施の形態では翻訳結果を音声合成した音声を出力するが、出力形式は音声に限られるものではなく、ディスプレイなどの表示装置にテキスト表示する方法など、従来から用いられているあらゆる方法を適用できる。
音響モデル記憶部121は、予め定められた音声の特徴量の標準パターンと、音声認識の単位である単語とを対応づけた音響モデルを記憶するものである。
具体的には、音響モデル記憶部121は、予め保持している各音素の特徴量の標準パターンを格納した音素辞書121aと、入力された音声と照合するための単語の情報を格納した単語辞書121bとを含んでいる。
音素辞書121aは、従来から一般的に利用されているHMM(Hidden Markov Model)方式の音声認識処理で用いられる辞書と同様であり、後述する第1認識部102が算出する特徴量と同等の形式で照合可能な特徴量時系列データが標準パターンとして各音素ラベルと対応づけて登録される。
図2は、音素辞書121aのデータ構造の一例を示す説明図である。同図に示すように、音素辞書121aは、ノードと有向リンクからなる有限オートマトンで特徴量時系列データを表現する。
ノードは、照合の状態を表現しており、例えば、音素iに対応する各ノードの値i1、i2、i3は、それぞれ異なる状態であることを表している。また、有効リンクには音素の部分要素となる特徴量(図示せず)が対応づけて記憶されている。
単語辞書121bは、HMM方式の音声認識処理で用いられる辞書と同様であり、各単語に対応する音素列が予め登録され、音素辞書121aに基づく照合で得られる音素列から対応する単語を求めるために用いられる。
図3は、単語辞書121bのデータ構造の一例を示す説明図である。同図に示すように、単語辞書121bは、単語と、単語を構成する音素列と、大量の音声データやテキストコーパスを用いて予め算出した単語の出現確率とを対応づけて格納している。
音響モデル記憶部121に記憶された音響モデルは、第1認識部102および第2認識部103が発話音声に対応する単語を認識する際に参照される。なお、音響モデルは上述のモデルに限られるものではなく、HMM方式、DP(ダイナミックプログラミング)方式、NN(ニューラルネットワーク)方式などの、従来から用いられている音声認識処理で利用されるあらゆるモデルを適用することができる。
言語モデル記憶部122は、単語間の接続関係を予め定めた言語モデルを記憶するものである。言語モデルは、HMM方式などの音声認識処理で用いられるモデルと同様であり、中間データとして得られた単語列から最も確からしい単語列を求めるために参照される。
図4は、言語モデル記憶部122に記憶された言語モデルのデータ構造の一例を示す説明図である。同図は、2単語の連接を対象にしたbi−gramで言語モデルを表した例が示されている。
同図に示すように、言語モデルは、2つの単語(単語1、単語2)と、出現確率とを対応づけた形式となっている。出現確率は、予め大量のテキストコーパスを解析することによって作成しておく。言語モデルは2単語の連接を対象にしたbi−gramに限られず、3つの単語の連接を対象にしたtri−gramなどを言語モデルとしてもよい。
用例記憶部123は、原言語の用例と、当該原言語の用例と同じ意味内容の対象言語の用例とを対応づけた対訳用例を記憶するものである。図5は、用例記憶部123に記憶された対訳用例のデータ構造の一例を示す説明図である。
同図に示すように、用例記憶部123は、用例を一意に識別するアドレスと、日本語用例と、英語用例と、用例種別とを対応づけた対訳用例を記憶している。用例種別には、用例が文であるか、置換可能な単語である変数部を含む変数付文であるかなどを表す文の種類の情報や、都市名、部屋種別などのように単語の意味を表す情報を指定する。なお、用例種別に、品詞、意味分類、または意味素性などを付与して高精度に用例を選択可能とするように構成してもよい。
同図では、例えば、アドレス=Y1のエントリは、日本語用例201(手荷物を預けるところはありますか)と、英語用例202(Is there somewhere I can leave my baggage?)が意味的に等価な対訳であり、用例種別が「文」であることを表している。
同様に、アドレス=Y2のエントリは、日本語用例203(ビジネスクラスの<X2/ロンドン>行きのチケットを予約したい)と、英語用例204(I'd like to reserve a business air ticket to <X2/London>)が意味的に等価な対訳であり、用例種別が「変数付文」であることを表している。
変数部とは、日英の各用例の中で記号「<」と記号「>」によって括られた部分であって、用例の中で他の語に入れ換えられる部分を表している。また、その中の記号「/」の前の部分が変数を一意に識別する識別子を表しており、後ろの部分が実際の用例を構成している変数の値の具体例を表している。
従って、アドレス=Y2のエントリについては、日本語用例203および英語用例204のそれぞれから、記号「<」、「>」、「/」、および識別子(X2)を除いた文がそれぞれ対応する対訳であることを示している。
また、アドレス=Y2のエントリで、日本語用例203と英語用例204に含まれる変数が同一の識別子を持っていることから、それらが対応づけられており、かつ、その両方をそれぞれの言語で意味的に等価な表現に置換することが可能であることも表している。
なお、アドレス=Y4の例に示されるように、一つの対訳の中に複数の変数部が含まれることもある。
アドレス=H1のエントリは、日本語用例205(ロンドン)と、英語用例206(London)が意味的に等価な対訳であり、用例種別が「都市名」であることを示している。同様にアドレス=H2のエントリは、日本語用例207(ロサンゼルス)と、英語用例208(Los Angels)が意味的に等価な対訳であり、用例種別が「都市名」であることを示している。
なお、音響モデル記憶部121、言語モデル記憶部122、および用例記憶部123は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
入力受付部101は、利用者から発声された日本語による音声入力信号をマイクロフォンなどによってシステムに取り込み、電気信号に変えた後、A/D(アナログデジタル)変換装置などを用いて、微小な時間単位毎に標本化し、例えば波形振幅の時間系列などのデジタルデータへと変換した音声波形情報を出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。なお、通信部111からデジタルデータへ変換済みの音声波形情報を受信した場合は、入力受付部101は、上述の変換処理を実行する必要はない。
図6は、入力される音声の一例を示す説明図である。同図では、音声I1、I2、およびI3の3通りの音声入力の例が示されている。なお、説明の便宜上、それぞれの音声入力の例に対応する発話の意図を表す日本語の漢字仮名交じり文を、括弧内に記載している。
第1認識部102は、入力受付部101から出力される音声波形情報を受けとり、音声ディクテーション処理を施すことによって、任意の内容で発声された日本語の音声の内容を日本語テキストへと変換し、その認識結果である日本語テキストと、その確信度を表す汎用認識スコアとからなる第1認識結果(以下、汎用認識結果という。)を出力するものである。
具体的には、第1認識部102は、まず、例えばFFT(高速フーリエ変換)分析などの手法を適用して周波数の時間変化などを分析することによって、発声された音声信号の特徴量を算出する。
続いて、第1認識部102は、音響モデル記憶部121に記憶された音響モデルと、上述の処理で算出した特徴量とを、適用する方式(HMM、DP、NN等)の手法により比較照合し、発声内容の認識候補を生成する。
さらに、第1認識部102は、生成された認識候補に対して言語モデルを利用して最も確からしい候補を推定選択することによって、認識精度の高い音声認識を行う。第1認識部102による音響モデルおよび言語モデルを用いた音声認識処理技術は、すでに実用化されている音声ディクテーション技術を利用することで実現することができる。
図7は、汎用認識結果の一例を示す説明図である。図7は、図6の3つの音声I1、I2、およびI3にそれぞれ対応する汎用音声認識処理の認識結果である日本語テキストS1、S2、およびS3を表している。
それぞれの汎用認識結果は、日本語テキストSnと、汎用認識スコアQnとの組(nは識別番号)で表される。例えば、3つ目の例では、「椅子を足してくれますか」を意味する日本語テキストS3が認識結果であり、Q3=80が汎用認識スコアであることが示されている。なお、図7の例では、最初の2つの認識結果は誤認識が生じた例を表し、3つ目の認識結果は正しく認識された例を表している。
第2認識部103は、入力受付部101から出力される音声波形情報を受けとり、用例記憶部123の内容を参照して、格納されている日本語用例を認識候補として音声認識を行い、認識結果の候補として用例記憶部123のアドレスと、日本語用例と、その確度を表す用例認識スコアとからなる第2認識結果(以下、用例認識結果という。)を出力するものである。
第2認識部103は、第1認識部102で行われる従来の音声認識処理と同様の処理過程の中で行われる認識候補の探索過程で、用例記憶部123の日本語用例部分に含まれていない途中解釈候補を、発見した時点で即座に破棄することによって実現する。
なお、この処理の効率を高めるために、用例記憶部123中の全ての日本語用例のみを受理するオートマトンを予め作成して利用するように構成してもよい。また、用例記憶部123中の日本語用例に適応させた言語モデルを事前に用意し、認識処理の過程で利用するように第2認識部103を構成してもよい。この場合は、認識処理自体は第1認識部102と共通化し、適用する言語モデルのみを変更することにより、第2認識部103の機能を実現するように構成することができる。
このように、第2認識部103は、用例記憶部123に現れる日本語用例のみに特化した認識処理を行うため、用例記憶部123内の日本語用例そのものや、日本語用例に類似した音声入力については、一般的な音声認識処理を行う第1認識部102よりも高精度に認識することができるという特徴を有することになる。
さらに、第2認識部103は、同時に用例記憶部123内の日本語用例と類似していない音声入力に対しては、第1認識部102より高い棄却率を示すという性質が期待できるという特徴を有することになる。
図8は、用例認識結果の一例を示す説明図である。図8は、図6の3つの音声I1、I2、およびI3にそれぞれ対応する用例音声認識処理の認識結果である用例認識結果R1、R2、およびR3を表している。
各用例認識結果は、用例記憶部123でのアドレスYnと、対応する日本語用例と、用例認識スコアPnとの組で表される。すなわち、例えば1つ目の例では、音声I1に対する用例認識結果R1として、アドレスY1と、「手荷物を預けるところはありますか」を意味する日本語用例と、用例認識スコアP1=85が得られたことが示されている。また、2つ目の例では、変数付文の用例であるアドレスY2の用例が用例認識結果として得られたことが示されている。
対応抽出部104は、用例認識結果に含まれる日本語用例と、汎用認識結果に含まれる日本語テキストとの間での対応関係を抽出するものである。対応抽出部104による対応関係抽出処理では、従来から広く利用されているDP手法などを用いて、2つの文字列の間の一致箇所および不一致箇所を対応づける方法を適用することができる。対応づけは、文字単位に行ってもよいし、単語単位で行ってもよい。
また、対応抽出部104は、例えば、入力音声の最初の部分で発話された単語同士を対応づけるといったように、入力された音声における時間情報を利用することにより、より高精度な対応づけを実行するように構成してもよい。
類似度算出部105は、対応抽出部104が対応づけた用例認識結果と汎用認識結果との間の一致する度合いを表す類似度を算出するものである。また、類似度算出部105は、対応関係と、類似度とを対応づけたアライメント情報を出力する。類似度算出部105は、2つの文字列間の編集距離によって類似度を表すなど、従来から用いられているあらゆる方法により類似度を算出することができる。
図9は、アライメント情報の一例を示す説明図である。図9では、図6の音声I2に対応する汎用認識結果S2および用例認識結果R2に基づくアライメント情報A2と、音声I2に対応する汎用認識結果S3と用例認識結果R3に基づくアライメント情報A3が、アライメント情報の例として示されている。
それぞれのアライメント情報は、アライメント結果Anと、類似度Mnの組で表される。なお、アライメント結果Anは、対応づけられた不一致部分が、括弧「()」の中で記号「|」で区切られて、記号の左に用例認識結果、右に汎用認識結果が記載されている。また一致部分についてはその内容がそのまま示されている。
すなわち、例えば2つ目の例であるアライメント結果A3((いつ|椅子)(お|を)(発ち|足し)(になり|てくれ)ますか)では、4つの不一致部分(「いつ」と「椅子」、「お」と「を」、「発ち」と「足し」、「になり」と「てくれ」)が対応づけられ、それぞれの不一致部分で記号の左が用例認識結果であり、記号の右が汎用認識結果であること、および、括弧で括られていない語尾の単語(ますか)については、両認識結果が一致していたことが示されている。
用例翻訳部106は、用例記憶部123の内容を参照して、日本語の文字列から英語の文字列への用例翻訳処理を実施し、用例翻訳結果とその確信度を表す用例認識結果を出力するものである。
具体的には、用例翻訳部106は、入力された日本語の文字列と、用例記憶部123内の各エントリの日本語用例との類似性を判定し、最も類似性の高い用例データの英語用例を利用して、日本語の文字列の翻訳結果を生成する。この用例翻訳処理では、日本語の単語と英語の単語との対応関係なども適宜参照される。
用例翻訳部106による用例翻訳処理は上述の方法に限られるものではなく、事前に用意された用例を参照して翻訳結果を生成する方法であれば従来から用いられているあらゆる方法を適用することができる。
図10は、用例翻訳結果の一例を示す説明図である。図10は、図6の3つの音声I1、I2、およびI3にそれぞれ対応する用例翻訳結果U1、U2、およびU3を表している。
すなわち、U1は、用例記憶部123のアドレスY1の英語用例欄の内容がそのまま翻訳結果として出力された場合の例を表している。また、U2は、用例記憶部123のアドレスY2の用例の英語用例欄の内容の変数部X2の単語「London」が、アドレスH2の用例の英語用例「Los Angels」で置換されて翻訳結果として出力された場合の例を表している。また、U3は、用例記憶部123のアドレスY3の英語用例欄の内容がそのまま翻訳結果として出力された場合の例を表している。
出力制御部107は、翻訳結果である文字情報を音声に変換してスピーカ113に出力するものである。出力制御部107により行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成、テキストトゥスピーチなどの一般的に利用されているあらゆる方法を適用することができる。また、出力装置としてディスプレイが備えられている場合は、出力制御部107は、翻訳結果を表示画面に表示するように構成してもよい。
次に、このように構成された第1の実施の形態にかかる機械翻訳装置100による機械翻訳処理について説明する。図11は、第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
まず、入力受付部101が、通信部111または音声入力部112から入力された音声を受付ける(ステップS1101)。次に、入力受付部101は、音声が入力されたか否かを判断し(ステップS1102)、入力されていない場合は(ステップS1102:NO)、音声が入力されるまで処理を繰り返す(ステップS1101)。
音声が入力された場合は(ステップS1102:YES)、第1認識部102が入力された音声に対して汎用音声認識を実行する(ステップS1103)。具体的には、第1認識部102は、FFT分析などにより音声の特徴量を算出し、算出した特徴量に対応する単語の候補を音響モデル記憶手段から取得する。そして、取得した単語の候補から、言語モデルを参照して最も確からしい候補を選択し、確からしさを表す上述の汎用認識スコアとともに汎用認識結果として出力する。
次に、第2認識部103が、用例記憶部123を参照して、入力された音声に対して用例音声認識を実行する(ステップS1104)。具体的には、第2認識部103は、FFT分析などにより音声の特徴量を算出し、算出した特徴量に対応する単語の候補を音響モデル記憶手段から取得する。そして、取得した単語を含む用例の候補であって、用例記憶部123に記憶された用例の中から、最も確からしい用例の候補を選択し、確からしさを表す上述の用例認識スコアとともに用例認識結果として出力する。
次に、対応抽出部104が、汎用認識結果と用例認識結果との対応関係を抽出する(ステップS1105)。具体的には、対応抽出部104は、DP手法などにより、汎用認識結果と用例認識結果との間の一致箇所および不一致箇所を抽出する。
次に、類似度算出部105が、汎用認識結果と用例認識結果との間の編集距離を求めることにより両者の類似度を算出する(ステップS1106)。
次に、用例翻訳部106が、類似度が予め定められた閾値(以下、閾値1という。)より大きいか否かを判断し(ステップS1107)、大きい場合は(ステップS1107:YES)、用例認識結果に対する対訳を用例記憶部123から取得する(ステップS1108)。
用例認識結果と汎用認識結果とが類似する場合は、用例認識結果の確信度が高いと判断することができるため、認識精度の高い用例認識結果をそのまま用いて対訳を取得するのが望ましいからである。
類似度が閾値1より大きくない場合(ステップS1107:NO)、用例翻訳部106は、さらに類似度が、閾値1より小さい値である予め定められた別の閾値(以下、閾値2という。)より小さいか否かを判断する(ステップS1109)。
類似度が閾値2より小さい場合は(ステップS1109:YES)、認識精度が低いと考えられるため、再度音声の入力を受付けて処理を繰り返す(ステップS1101)。
類似度が閾値2より小さくない場合は(ステップS1109:NO)、用例翻訳部106は、用例認識結果の対訳のうち不一致箇所に対応する部分を、汎用認識結果の不一致箇所に対応する部分の対訳で置換する(ステップS1110)。
例えば、変数付文の用例で変数部が用例記憶部123の用例と異なる音声が入力された場合、変数部の対訳のみを置換すれば、正しい対訳が得られる可能性が高い。このため、用例翻訳部106は、変数部に相当する不一致箇所に対応する英語用例を用例記憶部123から取得し、入力された音声全体に対応する英語用例の変数部の対訳と置換して出力する。
具体的には、例えば、「ビジネスクラスでロサンゼルス行きチケットを予約したいです」を意味する日本語の音声が入力された場合、図5のアドレス=Y2のエントリが最も確からしい用例として取得されるが、変数部の差異のため、類似度が閾値1(例えば80)より小さく、閾値2(例えば70)より大きかったとする。
この場合、不一致箇所に対応する英語用例として図5の英語用例208(Los Angels)が取得できるため、アドレス=Y2のエントリの英語用例204のうち、変数部の単語である「London」を英語用例208(Los Angels)で置換した英語用例(I'd like to reserve a business air ticket to Los Angels.)が出力される。
ステップS1108およびステップS1110で、用例翻訳部106が対訳を取得した後、出力制御部107は、対訳を音声合成してスピーカ113に出力し(ステップS1111)、機械翻訳処理を終了する。
このように、第1の実施の形態にかかる機械翻訳装置では、任意の発話内容を認識可能な汎用認識処理と、事前に登録された用例と一致する発話内容を認識可能な用例認識処理の結果を参照し、用例認識処理の認識結果の確からしさが大きい場合は用例認識結果を採用する。また、用例認識処理の認識結果の確からしさが大きくない場合であっても、汎用認識処理による認識結果で置換した用例を出力できる。すなわち、異なる手法の複数の音声認識技術によって得られた結果を適切に入力して翻訳処理を行えるため、機械翻訳の翻訳精度を向上させることができる。
(第2の実施の形態)
第1の実施の形態では、機械翻訳の手法としては用例翻訳のみを用いていた。第2の実施の形態では、機械翻訳の手法として規則翻訳および用例翻訳を採用し、汎用認識処理と用例認識処理の結果を参照して規則翻訳および用例翻訳のいずれかを選択して機械翻訳を実行するものである。
図12は、第2の実施の形態にかかる機械翻訳装置1200の構成を示すブロック図である。同図に示すように、機械翻訳装置1200は、通信部111と、音声入力部112と、スピーカ113と、音響モデル記憶部121と、言語モデル記憶部122と、用例記憶部123と、入力受付部101と、第1認識部102と、第2認識部103と、対応抽出部104と、用例翻訳部106と、出力制御部107と、規則翻訳部908とを備えている。
第2の実施の形態では、規則翻訳部908を追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる機械翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
規則翻訳部908は、日本語および英語の文法や辞書、日本語と英語の語彙の対応関係、または日本語と英語の間の意味的な対応関係などの予め用意した規則に基づいて、任意の日本語の文字列を、意味的に等価な英語の文字列へ翻訳し、規則翻訳結果とその確信度を表す規則翻訳スコアとからなる規則翻訳情報を出力するものである。
規則翻訳部908による規則翻訳処理では、トランスファー方式などの従来から用いられているあらゆる規則翻訳方式を適用できる。なお、大規模な用例データに基づいて事前に準備した原言語の表現と対象言語の表現との間の対応関係に関する統計情報によって、原言語入力に対する対訳を得る統計翻訳方式を規則翻訳部908の翻訳手法として採用するように構成してもよい。
図13は、規則翻訳結果の一例を示す説明図である。図13は、図6の3つの音声I1、I2、およびI3にそれぞれ対応する汎用認識結果の日本語テキストS1、S2、およびS3を、規則翻訳部908が翻訳した翻訳結果V1、V2、およびV3を表している。
すなわち、V1=「Is there a floor where you tell the hill held in the hand?」は、日本語テキストS1(手に持つ丘告げる床ありますか)を規則翻訳した場合の翻訳結果の例を表している。また、V2=「I reserve a business ticket for Los Angels of a life as a nonpayment.」は、日本語テキストS2(ビジネス暮らしのロサンゼルス行きチケットを予約し滞納です)を規則翻訳した場合の翻訳結果の例を表している。そして、V3=「Could you add a chair?」は、日本語テキストS3(椅子を足してくれますか)を規則翻訳した場合の翻訳結果の例を表している。
次に、このように構成された第2の実施の形態にかかる機械翻訳装置1200による機械翻訳処理について説明する。図14は、第2の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
ステップS1401からステップS1402までの、音声入力受付処理は、第1の実施の形態にかかる機械翻訳装置100におけるステップS1101からステップS1102までと同様の処理なので、その説明を省略する。
音声が入力された場合(ステップS1402:YES)、第2認識部103は、用例記憶部123を参照して、入力された音声に対して用例音声認識を実行する(ステップS1403)。この処理は、第1の実施の形態における図11のステップS1104と同様の処理である。
次に、用例翻訳部106が、用例認識結果に含まれる用例認識スコアが予め定められた閾値(以下、閾値1という。)より大きいか否かを判断する(ステップS1404)。なお、第2の実施の形態の閾値は、原則として第1の実施の形態の閾値とは無関係に定められた値である。
用例認識スコアが閾値1より大きい場合(ステップS1404:YES)、用例翻訳部106は、用例認識結果に対する対訳を用例記憶部123から取得する(ステップS1405)。この場合、用例認識結果の確信度が高いと判断することができるため、認識精度の高い用例認識結果をそのまま用いて対訳を取得するのが望ましいからである。
用例認識スコアが閾値1より大きくない場合(ステップS1404:NO)、第1認識部102は、入力された音声に対して汎用音声認識を実行する(ステップS1406)。この処理は、第1の実施の形態における図11のステップS1103と同様の処理である。
このように、第2の実施の形態では、最初に用例認識処理を実行し、用例認識で十分な確信度を得られなかった場合のみ汎用認識処理を実行する。これにより、不要な処理を最小限に抑えることができる。
次に、規則翻訳部908が、用例認識スコアが、閾値1より小さい値である予め定められた閾値(以下、閾値2という。)より小さいか否かを判断する(ステップS1407)。用例認識スコアが閾値2より小さい場合は(ステップS1407:YES)、規則翻訳部908は、汎用認識結果を参照して規則翻訳を実行する(ステップS1408)。
用例認識スコアが小さい場合は、適合する用例が用例記憶部123に記憶されていない発話内容が入力されたと考えられるため、用例翻訳ではなく、任意の入力文を翻訳可能な規則翻訳によって機械翻訳を実行すべきだからである。
ステップS1407で、用例認識スコアが閾値2より小さくないと判断された場合は(ステップS1407:NO)、対応抽出部104が、汎用認識結果に含まれる汎用認識スコアが予め定められた閾値(以下、閾値3という。)より大きいか否かを判断する(ステップS1409)。
汎用認識スコアが閾値3より大きくない場合は(ステップS1409:NO)、認識精度が十分でないと判断できるため、再度音声の入力を受付けて処理を繰り返す(ステップS1401)。
汎用認識スコアが閾値3より大きい場合は(ステップS1409:YES)、対応抽出部104が、汎用認識結果と用例認識結果との対応関係を抽出する(ステップS1410)。この処理は、第1の実施の形態における図11のステップS1105と同様の処理である。続いて、類似度算出部105が、汎用認識結果と用例認識結果との類似度を算出する(ステップS1411)。この処理は、第1の実施の形態における図11のステップS1106と同様の処理である。
次に、用例翻訳部106が、類似度が予め定められた閾値(以下、閾値4という。)より小さいか否かを判断する(ステップS1412)。類似度が閾値4より小さい場合は(ステップS1412:YES)、用例認識処理では精度の高い認識結果が得られていないと判断できるため、規則翻訳部908による汎用認識結果を参照した規則翻訳処理が実行される(ステップS1408)。
例えば、用例記憶部123に用例として記憶されていない発話内容が入力された場合であっても、用例認識処理では用例単位で照合が行われるため、最もスコアの大きいいずれかの用例が1つ選択される。すなわち、このような場合には誤った用例が選択されるため、用例認識処理の精度が低下する。一方、汎用認識処理では単語単位で照合が行われるため、認識結果が発話内容と大きく異なる場合は少ない。
本実施の形態では、汎用認識結果と用例認識結果との対応関係が抽出できるか否かによって、用例として記憶されていない発話内容が入力されたか否かを判断する。そして、対応関係が抽出できない場合には汎用認識結果に基づく規則翻訳処理を実行する。このように、複数の認識処理の結果に応じて適切な翻訳処理の方式を選択するため、高精度に翻訳結果を出力することが可能となる。
類似度が閾値4より小さくない場合は(ステップS1412:NO)、用例翻訳部106は、用例認識結果の対訳のうち不一致箇所に対応する部分を、汎用認識結果の不一致箇所に対応する部分の対訳で置換する(ステップS1413)。この処理は、第1の実施の形態における図11のステップS1110と同様の処理である。
すなわち、用例認識である程度の認識精度が得られ(ステップS1404:NO、ステップS1407:NO)、かつ、汎用認識で十分な認識精度が得られ(ステップS1409:YES)、かつ、対応づけにより用例認識結果と汎用認識結果とが類似していると判断できる場合は(ステップS1412:NO)、変数付文の用例で変数部が用例と異なる音声が入力された場合であると考えられるため、変数部を汎用認識結果の対応部分と置換することにより、正しい対訳が得ることができる。
ステップS1405、ステップS1408、またはステップS1413で、用例翻訳部106または規則翻訳部908が対訳を取得または出力した後、出力制御部107は、対訳を音声合成してスピーカ113に出力し(ステップS1414)、機械翻訳処理を終了する。
次に、本実施の形態における機械翻訳処理の具体例について説明する。以下では、図6に示した3つの音声I1、I2、およびI3を翻訳して出力する具体例について説明する。また、以下では、上述の各閾値の値として、閾値1=80、閾値2=60、閾値3=70、閾値4=75が設定されていることを前提とする。
まず、図6の音声I1に示すような日本語の音声が入力されたとする。なお、図6の音声I1は、図5のアドレスY1に対応する日本語用例201のうち、助詞などの一部(「ろは」)を省略して発話した音声に相当する。
これに対し、用例認識処理の認識結果として図8の用例認識結果R1が得られたとする。すなわち、用例認識結果R1は、音声I1とは発音が完全に一致はしないがほぼ同じ内容を表しているため、最も確からしい用例として選択されたものとする。このときの用例認識スコアは85であり、閾値1(=80)より大きいため(ステップS1404:YES)、用例翻訳が実行される(ステップS1405)。この場合、図5のような用例記憶部123から正しい英語用例202(Is there somewhere I can leave my baggage?)が翻訳結果として得られる。
このように、入力された音声が用例と多少異なっている場合であっても、用例認識によって正しく認識され、用例と多少異なった発声でも対訳用例が検索されて高品質な訳を出力することができる。
また、この場合は不用な汎用認識処理(ステップS1406)、および規則翻訳処理(ステップS1408)は実行されないので、処理負荷が軽くなるという利点がある。
なお、仮に音声I1に対して汎用認識処理を行った場合、助詞等が省略されているため、誤認識が発生する可能性が高い。例えば、図7の日本語テキストS1(手に持つ丘告げる床ありますか)のように誤認識された認識結果が出力され、汎用認識スコアとしては低い値(Q1=70)が得られると考えられる。
これに対し、本実施の形態によれば、高精度に認識可能な用例認識結果を採用できるため、誤認識された汎用認識結果によって、例えば、図13の翻訳結果V1(Is there a floor where you tell the hill held in the hand?)のように誤った翻訳結果が出力されるという問題を回避することができる。
次に、図6の音声I2に示すような日本語の音声が入力されたとする。なお、図6の音声I2は、図5のアドレスY2に対応する日本語用例203のうち、変数部などの一部のみが異なる内容を発話した音声に相当する。
これに対し、用例認識処理の認識結果として図8の用例認識結果R2が得られたとする。このときの用例認識スコアは75であり、閾値1(=80)より小さいため(ステップS1404:NO)、汎用認識処理が実行される(ステップS1406)。
これにより、例えば、図7の日本語テキストS2(ビジネス暮らしのロサンゼルス行きチケットを予約し滞納です)と、汎用認識スコアQ2=75が得られたとする。用例認識スコア(75)は閾値2(=60)より大きく(ステップS1407:NO)、かつ、汎用認識スコアQ2=75は、閾値3(=70)より大きいため(ステップS1409:YES)、対応関係抽出処理が実行され(ステップS1410)、例えば、図9のアライメント情報A2と、類似度M2=78が得られたとする。
類似度M2=78は閾値4(=75)より大きいため(ステップS1412:NO)、用例翻訳処理が実行される(ステップS1413)。この場合は、図5のアドレスY2に対応する英語用例の変数部(X2/London)を、「ロサンゼルス」を意味する日本語用例207に対応する英語用例208(Los Angels)で置換した用例翻訳結果を出力する。このときの翻訳結果は、図10の用例翻訳結果U2(I'd like to reserve a business ticket to Los Angels.)のようになる。
このように、用例認識結果と汎用認識結果との対応関係を抽出することにより、高精度に用例の中の変更すべき箇所を探して用例翻訳を実行することが可能となる。また、汎用認識処理で誤認識が生じていた場合であっても、変数部が正しく認識されていれば、用例認識を改変して正しい翻訳結果を出力することができる。
次に、図6の音声I3に示すような日本語の音声が入力されたとする。なお、図6の音声I3は、図5のアドレスY3に対応する日本語用例と発音が近似するが、意味がまったく異なる内容を発話した音声に相当する。すなわち、音声I3は「椅子を足してくれますか」を意味するが、アドレスY3に対応する日本語用例は「いつお発ちになりますか」を意味する。
これに対し、用例認識処理の認識結果として図8の用例認識結果R3が得られたとする。すなわち、音声I3は発音が近似するため、用例認識結果R3が最も確からしい用例として選択されたものとする。このときの用例認識スコアは65であり、閾値1(=80)より小さいため(ステップS1404:NO)、汎用認識処理が実行される(ステップS1406)。
これにより、例えば、図7の日本語テキストS3(椅子を足してくれますか)と、汎用認識スコアQ3=80が得られたとする。用例認識スコア(65)は閾値2(=60)より大きく(ステップS1407:NO)、かつ、汎用認識スコアQ3=80は、閾値3(=70)より大きいため(ステップS1409:YES)、対応関係抽出処理が実行され(ステップS1410)、例えば、図9のアライメント情報A3と、類似度M3=45が得られたとする。
類似度M3=45は閾値4(=75)より小さいため(ステップS1412:YES)、規則翻訳処理が実行される(ステップS1408)。このときの翻訳結果は、図11の用例翻訳結果V3(Could you add a chair?)のようになる。
このように、対応関係が抽出できない場合は、用例認識が正常に行われていないと判断し、用例翻訳ではなく規則翻訳を実行することができる。したがって、従来の方法のように、規則翻訳と用例翻訳の適切な切替えが行われず、用例翻訳処理が強行されることによって、例えば図10の用例翻訳結果U3(When do you like to leave?)のような誤った翻訳結果が出力されるという問題を回避できる。
このように、第2の実施の形態にかかる機械翻訳装置では、汎用認識処理と用例認識処理の結果を参照して規則翻訳および用例翻訳のいずれかを選択して機械翻訳を実行することができる。これにより、高品質な翻訳を出せるという用例翻訳の利点と、任意の文を訳せるという規則翻訳の双方の利点を生かせる機械翻訳装置を実現できる。また、用例に特化された音声認識機能を設けたことにより、用例に類似する入力を高精度に検出するとともに、高精度に用例の改変箇所を検出することができる。
(第3の実施の形態)
第3の実施の形態は、汎用認識処理と用例認識処理で共通する処理である特徴量の算出処理を専用の処理部で共通化して実行するものである。
図15は、第3の実施の形態にかかる機械翻訳装置1500の構成を示すブロック図である。同図に示すように、機械翻訳装置1500は、通信部111と、音声入力部112と、スピーカ113と、音響モデル記憶部121と、言語モデル記憶部122と、用例記憶部123と、入力受付部101と、第1認識部1502と、第2認識部1503と、対応抽出部104と、用例翻訳部106と、出力制御部107と、特徴量算出部1509とを備えている。
第3の実施の形態では、特徴量算出部1509を追加したこと、および第1認識部1502の機能と第2認識部1503の機能とが、第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる機械翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
特徴量算出部1509は、入力受付部101から出力される音声波形情報を受けとり、音声の特徴量を算出するものである。具体的には、特徴量算出部1509は、FFT分析などの手法を適用して周波数の時間変化などを分析することによって、発声された音声信号の特徴量を算出する。
すなわち、特徴量算出部1509は、第1の実施の形態における第1認識部102および第2認識部103の機能のうち、音声の特徴量を算出する機能を実行するものである。
これに対応し、第2の実施の形態における第1認識部1502および第2認識部1503は、第1の実施の形態における第1認識部102および第2認識部103の機能のうち、音声の特徴量を算出する機能を除いた機能を有する。そして、第1認識部1502および第2認識部1503は、それぞれ特徴量算出部1509が算出した特徴量に基づいて各処理を実行する点が、第1の実施の形態における第1認識部102および第2認識部103と異なっている。
次に、このように構成された第3の実施の形態にかかる機械翻訳装置1500による機械翻訳処理について説明する。図16は、第3の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
ステップS1601からステップS1602までの、音声入力受付処理は、第1の実施の形態にかかる機械翻訳装置100におけるステップS1101からステップS1102までと同様の処理なので、その説明を省略する。
音声が入力された場合(ステップS1602:YES)、特徴量算出部1509が入力された音声からFFT分析などの手法を用いて特徴量を算出する(ステップS1603)。
次に、第1認識部1502は、算出した特徴量を参照して汎用音声認識を実行する(ステップS1604)。具体的には、第1認識部1502は、特徴量算出部1509が算出した特徴量に対応する単語の候補を音響モデル記憶部121から取得する。そして、取得した単語の候補から、言語モデルを参照して最も確からしい候補を選択し、確からしさを表す上述の汎用認識スコアとともに汎用認識結果として出力する。
次に、第2認識部1503が、用例記憶部123および特徴量を参照して用例音声認識を実行する(ステップS1605)。具体的には、第2認識部1503は、特徴量算出部1509が算出した特徴量に対応する単語の候補を音響モデル記憶部121から取得する。そして、取得した単語を含む用例の候補であって、用例記憶部123に記憶された用例の中から、最も確からしい用例の候補を選択し、確からしさを表す上述の用例認識スコアとともに用例認識結果として出力する。
ステップS1606からステップS1612までの、対応抽出処理、類似度算出処理、用例翻訳処理、および出力制御処理は、第1の実施の形態にかかる機械翻訳装置100におけるステップS1105からステップS1111までと同様の処理なので、その説明を省略する。
このように、第3の実施の形態にかかる機械翻訳装置では、汎用認識処理と用例認識処理で共通する処理である特徴量の算出処理を専用の処理部で共通化して実行するため、構成を簡略化し、処理負担を軽減することが可能となる。
なお、本発明は、上述した実施の形態に限定されるものではなく、発明の要旨を変更しない範囲で適宜、変形して実施することが可能である。
例えば、翻訳を行わずに、複数の音声認識の処理結果を各処理結果に応じて切り分ける機能のみを利用するように構成してもよい。また、このような機能により入力された音声の情報を、対話型ヒューマンインターフェース、QA(Question Answer)システム、検索システムなどの翻訳以外のアプリケーションで利用するように構成してもよい。
また、認識処理は、音声を対象とする音声認識処理に限られるものではなく、任意の認識結果を出力しうる汎用の認識処理と、事前に登録された用例に一致する認識結果を出力する用例認識処理とを有するものであれば、ペン入力による文字認識や、ジェスチャによる手話認識などにも適用できる。
また、音声認識結果や用例に読み情報を追加しておき、対応関係抽出処理や用例の検索の精度を高めるように構成してもよい。さらに、上述の機械翻訳処理では、用例翻訳または規則翻訳のいずれか一方のみを実行していたが、用例翻訳失敗時に規則翻訳により再度翻訳を実行し、規則翻訳失敗時に用例翻訳により再度翻訳を実行するように構成してもよい。
図17は、第1〜第3の実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。
第1〜第3の実施の形態にかかる機械翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、ROM52等に予め組み込まれて提供される。
第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1〜第3の実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、上述した各部(入力受付部、第1認識部、第2認識部、対応抽出部、類似度算出部、用例翻訳部、出力制御部、規則翻訳部、特徴量算出部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる機械翻訳装置、機械翻訳方法および機械翻訳プログラムは、音声入力または文字入力した原言語文を対象言語に翻訳して文字出力または音声出力する装置に適している。
第1の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。 音素辞書のデータ構造の一例を示す説明図である。 単語辞書のデータ構造の一例を示す説明図である。 言語モデル記憶部に記憶された言語モデルのデータ構造の一例を示す説明図である。 用例記憶部に記憶された対訳用例のデータ構造の一例を示す説明図である。 入力される音声の一例を示す説明図である。 汎用認識結果の一例を示す説明図である。 用例認識結果の一例を示す説明図である。 アライメント情報の一例を示す説明図である。 用例翻訳結果の一例を示す説明図である。 第1の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。 第2の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。 規則翻訳結果の一例を示す説明図である。 第2の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。 第3の実施の形態にかかる機械翻訳装置の構成を示すブロック図である。 第3の実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。 機械翻訳装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 機械翻訳装置
101 入力受付部
102 第1認識部
103 第2認識部
104 対応抽出部
105 類似度算出部
106 用例翻訳部
107 出力制御部
111 通信部
112 音声入力部
113 スピーカ
121 音響モデル記憶部
121a 音素辞書
121b 単語辞書
122 言語モデル記憶部
123 用例記憶部
201、203、205、207 日本語用例
202、204、206、208 英語用例
908 規則翻訳部
1200 機械翻訳装置
1500 機械翻訳装置
1502 第1認識部
1503 第2認識部
1509 特徴量算出部

Claims (18)

  1. 原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、
    原言語による音声発話の入力を受付ける入力受付手段と、
    受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第1認識手段と、
    受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第2認識手段と、
    前記第1認識手段の音声認識結果である第1認識結果と、前記第2認識手段の音声認識結果である第2認識結果との類似度を算出する算出手段と、
    算出した前記類似度が予め定められた第1閾値より大きい場合に、前記第2認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、
    を備えたことを特徴とする機械翻訳装置。
  2. 音声の特徴量と単語とを対応づけた音響モデルを記憶する音響モデル記憶手段と、
    単語間の接続関係を定めた言語モデルを記憶する言語モデル記憶手段と、をさらに備え、
    前記第1認識手段は、受付けられた前記音声発話の特徴量を算出し、算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補から、前記言語モデルに基づいて最も確からしい前記単語の候補を選択した第1認識結果を生成すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  3. 音声の特徴量と単語とを対応づけた音響モデルを記憶する音響モデル記憶手段をさらに備え、
    前記第2認識手段は、受付けられた前記音声発話の特徴量を算出し、算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補を含む前記原言語の用例の候補のうち、最も確からしい前記原言語の用例の候補を前記用例記憶手段から選択した第2認識結果を生成すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  4. 前記第1認識結果に含まれる単語と、前記第2認識結果に含まれる単語との一致箇所および不一致箇所の情報を含む単語間の対応関係を抽出する対応抽出手段をさらに備え、
    前記用例翻訳手段は、前記対応関係に基づき、前記不一致箇所に対応する単語である不一致語に対応する前記対象言語の用例を前記用例記憶手段から取得し、取得した前記不一致語に対応する前記対象言語の用例で、前記第2認識結果に対応する前記対象言語の用例の前記不一致語に対応する単語を置換することにより翻訳を行うこと、
    を特徴とする請求項1に記載の機械翻訳装置。
  5. 前記対応抽出手段は、前記第1認識結果に含まれる単語の前記音声発話における位置と前記第2認識結果に含まれる単語の前記音声発話における位置とが予め定められた範囲内である場合に、前記第1認識結果に含まれる単語と前記第2認識結果に含まれる単語との対応関係を抽出すること、
    を特徴とする請求項4に記載の機械翻訳装置。
  6. 原言語と対象言語との間の対応関係に関する規則を記憶する規則記憶手段と、
    算出した前記類似度が予め定められた第1閾値より大きくない場合に、前記規則に基づいて前記第1認識結果を翻訳する規則翻訳手段と、
    をさらに備えたことを特徴とする請求項1に記載の機械翻訳装置。
  7. 前記規則記憶手段は、原言語と対象言語との間の文法に関する変換規則を記憶し、
    前記規則翻訳手段は、前記変換規則に基づいて前記第1認識結果を翻訳すること、
    を特徴とする請求項6に記載の機械翻訳装置。
  8. 前記規則記憶手段は、原言語と対象言語との間の語彙に関する変換規則を記憶し、
    前記規則翻訳手段は、前記変換規則に基づいて前記第1認識結果を翻訳すること、
    を特徴とする請求項6に記載の機械翻訳装置。
  9. 前記規則記憶手段は、原言語と対象言語との間の意味内容に関する変換規則を記憶し、
    前記規則翻訳手段は、前記変換規則に基づいて前記第1認識結果を翻訳すること、
    を特徴とする請求項6に記載の機械翻訳装置。
  10. 前記規則記憶手段は、原言語の表現と対象言語の表現との間の対応関係の統計情報に関する統計規則を記憶し、
    前記規則翻訳手段は、前記統計規則に基づいて前記第1認識結果を翻訳すること、
    を特徴とする請求項6に記載の機械翻訳装置。
  11. 原言語の用例と、前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、
    原言語と対象言語との間の対応関係に関する規則を記憶する規則記憶手段と、
    原言語による音声発話の入力を受付ける入力受付手段と、
    受付けられた前記音声発話を、原言語による任意の文字列として音声認識して第1認識結果を出力する第1認識手段と、
    受付けられた前記音声発話を、前記用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識し、認識結果である第2認識結果の確からしさを表す第1尤度を算出し、算出した前記第1尤度を含む前記第2認識結果を出力する第2認識手段と、
    前記第1尤度が予め定められた第1閾値より大きい場合に、前記第2認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、
    前記第1尤度が前記第1閾値以下の場合に、前記規則に基づいて前記第1認識結果を翻訳する規則翻訳手段と、
    を備えたことを特徴とする機械翻訳装置。
  12. 前記用例記憶手段は、置換可能な単語である変数部を含む前記原言語の用例を記憶し、
    前記第2認識手段は、前記原言語の用例の前記変数部を除いた部分について前記第1尤度を算出すること、
    を特徴とする請求項11に記載の機械翻訳装置。
  13. 前記第1認識手段の音声認識結果である第1認識結果と、前記第2認識手段の音声認識結果である第2認識結果との類似度を算出する算出手段をさらに備え、
    前記規則翻訳手段は、前記第1尤度が前記第1閾値以下であり、算出された前記類似度が予め定められた第2閾値より大きくない場合に、前記規則に基づいて前記第1認識結果を翻訳すること、
    を特徴とする請求項11に記載の機械翻訳装置。
  14. 前記第1認識手段は、さらに前記第1認識結果の確からしさを表す第2尤度を算出し、算出した前記第2尤度をさらに含む前記第1認識結果を出力すること、
    を特徴とする請求項13に記載の機械翻訳装置。
  15. 前記規則翻訳手段は、前記第2尤度が予め定められた第3閾値より大きい場合に、前記規則に基づいて前記第1認識結果を翻訳すること、
    を特徴とする請求項14に記載の機械翻訳装置。
  16. 音声の特徴量と単語とを対応づけた音響モデルを記憶する音響モデル記憶手段と、
    単語間の接続関係を定めた言語モデルを記憶する言語モデル記憶手段と、
    受付けられた前記音声発話の特徴量を算出する特徴量算出手段と、をさらに備え、
    前記第1認識手段は、前記特徴量算出手段が算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補から、前記言語モデルに基づいて最も確からしい前記単語の候補を選択した第1認識結果を生成し、
    前記第2認識手段は、前記特徴量算出手段が算出した前記特徴量に対応する前記単語の候補を前記音響モデル記憶手段から取得し、取得した前記単語の候補を含む前記原言語の用例の候補のうち、最も確からしい前記原言語の用例の候補を前記用例記憶手段から選択した第2認識結果を生成すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  17. 原言語による音声発話の入力を受付ける入力受付ステップと、
    受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第1認識ステップと、
    受付けられた前記音声発話を、原言語の用例と前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第2認識ステップと、
    前記第1認識ステップの音声認識結果である第1認識結果と、前記第2認識ステップの音声認識結果である第2認識結果との類似度を算出する算出ステップと、
    算出した前記類似度が予め定められた第1閾値より大きい場合に、前記第2認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳ステップと、
    を備えたことを特徴とする機械翻訳方法。
  18. 原言語による音声発話の入力を受付ける入力受付手順と、
    受付けられた前記音声発話を、原言語による任意の文字列として音声認識する第1認識手順と、
    受付けられた前記音声発話を、原言語の用例と前記原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段に記憶された前記原言語の用例のうち最も確からしい前記原言語の用例として音声認識する第2認識手順と、
    前記第1認識手順の音声認識結果である第1認識結果と、前記第2認識手順の音声認識結果である第2認識結果との類似度を算出する算出手順と、
    算出した前記類似度が予め定められた第1閾値より大きい場合に、前記第2認識結果に対応する前記対象言語の用例を前記用例記憶手段から取得することにより翻訳を行う用例翻訳手順と、
    をコンピュータに実行させる機械翻訳プログラム。
JP2006257484A 2006-09-22 2006-09-22 機械翻訳装置、機械翻訳方法および機械翻訳プログラム Active JP4393494B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006257484A JP4393494B2 (ja) 2006-09-22 2006-09-22 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US11/812,837 US7937262B2 (en) 2006-09-22 2007-06-22 Method, apparatus, and computer program product for machine translation
CNA2007101547576A CN101158947A (zh) 2006-09-22 2007-09-13 机器翻译的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006257484A JP4393494B2 (ja) 2006-09-22 2006-09-22 機械翻訳装置、機械翻訳方法および機械翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2008076865A JP2008076865A (ja) 2008-04-03
JP4393494B2 true JP4393494B2 (ja) 2010-01-06

Family

ID=39226150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006257484A Active JP4393494B2 (ja) 2006-09-22 2006-09-22 機械翻訳装置、機械翻訳方法および機械翻訳プログラム

Country Status (3)

Country Link
US (1) US7937262B2 (ja)
JP (1) JP4393494B2 (ja)
CN (1) CN101158947A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018047436A1 (ja) 2016-09-09 2018-03-15 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
WO2019016985A1 (ja) 2017-07-20 2019-01-24 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法及びプログラム
US10282423B2 (en) 2017-01-30 2019-05-07 Panasonic Intellectual Property Management Co., Ltd. Announcement system and speech-information conversion apparatus

Families Citing this family (183)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2008305167A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム
US20100324884A1 (en) * 2007-06-26 2010-12-23 Jeffrey Therese M Enhanced telecommunication system
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP5100445B2 (ja) * 2008-02-28 2012-12-19 株式会社東芝 機械翻訳する装置および方法
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
EP2318953A4 (en) * 2008-07-03 2013-10-30 Google Inc OPTIMIZING PARAMETERS FOR MACHINE TRANSLATION
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010046782A2 (en) * 2008-10-24 2010-04-29 App Tek Hybrid machine translation
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5343744B2 (ja) * 2009-07-24 2013-11-13 富士通株式会社 音声翻訳装置及び音声翻訳方法
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5704686B2 (ja) * 2010-09-28 2015-04-22 独立行政法人情報通信研究機構 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
US20120221319A1 (en) * 2011-02-28 2012-08-30 Andrew Trese Systems, Methods and Media for Translating Informational Content
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102184195B (zh) * 2011-04-20 2014-01-08 北京百度网讯科技有限公司 用于获取字符串间相似度的方法、装置和设备
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
JP2013186673A (ja) * 2012-03-07 2013-09-19 Nippon Hoso Kyokai <Nhk> 機械翻訳装置及び機械翻訳プログラム
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9047276B2 (en) * 2012-11-13 2015-06-02 Red Hat, Inc. Automatic translation of system messages using an existing resource bundle
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
CN103106900B (zh) * 2013-02-28 2016-05-04 用友网络科技股份有限公司 语音识别装置和语音识别方法
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
EP2994908B1 (en) * 2013-05-07 2019-08-28 Veveo, Inc. Incremental speech input interface with real time feedback
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN103680505A (zh) * 2013-09-03 2014-03-26 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US20150347399A1 (en) * 2014-05-27 2015-12-03 Microsoft Technology Licensing, Llc In-Call Translation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
JP5763830B1 (ja) * 2014-12-25 2015-08-12 パナソニック株式会社 翻訳装置、翻訳方法、および翻訳プログラム
WO2016106552A1 (en) * 2014-12-30 2016-07-07 Harman International Industries, Incorporated Voice recognition-based dialing
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105303794A (zh) * 2015-11-30 2016-02-03 讯美电子科技有限公司 一种可通过声纹识别进行报警综合处置管理系统
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
WO2017163284A1 (ja) * 2016-03-25 2017-09-28 パナソニックIpマネジメント株式会社 翻訳装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN107870900B (zh) * 2016-09-27 2023-04-18 松下知识产权经营株式会社 提供翻译文的方法、装置以及记录介质
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
KR20210029354A (ko) * 2019-09-06 2021-03-16 삼성전자주식회사 전자장치 및 그 제어방법
CN116368490A (zh) * 2021-02-04 2023-06-30 三星电子株式会社 电子装置及其控制方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2808906B2 (ja) 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JP3741156B2 (ja) 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
JPH10143189A (ja) 1996-11-06 1998-05-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6356865B1 (en) 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
JP3933449B2 (ja) 2001-11-22 2007-06-20 株式会社東芝 コミュニケーション支援装置
JP3762327B2 (ja) 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
JP3920812B2 (ja) 2003-05-27 2007-05-30 株式会社東芝 コミュニケーション支援装置、支援方法、及び支援プログラム
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP4263181B2 (ja) 2005-03-28 2009-05-13 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4050755B2 (ja) 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP2006318305A (ja) * 2005-05-13 2006-11-24 Toshiba Corp システム構築用フレームワーク及び半導体装置
JP4439431B2 (ja) 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4064413B2 (ja) 2005-06-27 2008-03-19 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP2006012179A (ja) 2005-07-19 2006-01-12 Sony Corp 自然言語処理装置および自然言語処理方法
JP4542974B2 (ja) 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP4559946B2 (ja) 2005-09-29 2010-10-13 株式会社東芝 入力装置、入力方法および入力プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018047436A1 (ja) 2016-09-09 2018-03-15 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
KR20190047685A (ko) 2016-09-09 2019-05-08 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 방법
US10943074B2 (en) 2016-09-09 2021-03-09 Panasonic Intellectual Property Management Co., Ltd. Translation device and translation method
US10282423B2 (en) 2017-01-30 2019-05-07 Panasonic Intellectual Property Management Co., Ltd. Announcement system and speech-information conversion apparatus
WO2019016985A1 (ja) 2017-07-20 2019-01-24 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法及びプログラム
US11264007B2 (en) 2017-07-20 2022-03-01 Panasonic Intellectual Property Management Co., Ltd. Translation device, translation method, and program

Also Published As

Publication number Publication date
CN101158947A (zh) 2008-04-09
US7937262B2 (en) 2011-05-03
US20080077391A1 (en) 2008-03-27
JP2008076865A (ja) 2008-04-03

Similar Documents

Publication Publication Date Title
JP4393494B2 (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CN108447486B (zh) 一种语音翻译方法及装置
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
Czech A System for Recognizing Natural Spelling of English Words
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20100057435A1 (en) System and method for speech-to-speech translation
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2002520664A (ja) 言語に依存しない音声認識
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
KR20100068965A (ko) 자동 통역 장치 및 그 방법
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
Granell et al. Multimodality, interactivity, and crowdsourcing for document transcription
Marasek et al. System for automatic transcription of sessions of the Polish senate
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP6397641B2 (ja) 自動通訳装置及び方法
Nahid et al. Comprehending real numbers: Development of bengali real number speech corpus
Nursetyo LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
AU2020103587A4 (en) A system and a method for cross-linguistic automatic speech recognition
Vu et al. Optimization on Vietnamese large vocabulary speech recognition.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090915

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091013

R151 Written notification of patent or utility model registration

Ref document number: 4393494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350