JP2015060095A - 音声翻訳装置、音声翻訳方法およびプログラム - Google Patents
音声翻訳装置、音声翻訳方法およびプログラム Download PDFInfo
- Publication number
- JP2015060095A JP2015060095A JP2013194021A JP2013194021A JP2015060095A JP 2015060095 A JP2015060095 A JP 2015060095A JP 2013194021 A JP2013194021 A JP 2013194021A JP 2013194021 A JP2013194021 A JP 2013194021A JP 2015060095 A JP2015060095 A JP 2015060095A
- Authority
- JP
- Japan
- Prior art keywords
- language
- pronunciation
- unknown word
- speech
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 10
- 235000013557 nattō Nutrition 0.000 description 24
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
【課題】会話の流れの中で使用される可能性の高い発音でも音声認識ができる音声翻訳装置、音声翻訳方法およびプログラムを提供する。【解決手段】実施形態の音声翻訳装置は、音声変換辞書を参照して、第1言語による音声を認識して原文テキストに変換する音声認識部と、前記第1言語による原文テキストを前記第2言語の訳文テキストに翻訳する翻訳部と、前記翻訳部によって翻訳された前記第2言語の訳文テキストの内、前記第2言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する未知語検出部と、前記未知語検出部が検出した前記未知語の発音を、前記第2言語における未知語の表記から第1発音候補を推定すると共に、前記未知語の第1言語における原言語単語の発音から第2発音候補を推定する発音推定部と、前記未知語と、推定された前記第1および第2発音候補とを対応づけて、前記音声認識辞書に登録する辞書更新部と、を備える。【選択図】 図1
Description
本発明の実施形態は、音声を入力して、第1言語を第2言語に翻訳する音声翻訳装置、音声翻訳方法およびプログラムに関する。
第1言語で記述された原言語の文字列の入力を受け付け、原言語の文字列を所望の第2言語に変換する機械翻訳機器がある。さらに、近年の音声言語処理技術の進展により、一方の利用者が発話した第1言語での音声を、第2言語に翻訳して他方の利用者に向けて出力する音声翻訳機器が実現されている。
現在の音声翻訳機器で使われている、音声認識のための辞書、および翻訳のための辞書は、開発者によって与えられた範囲の語彙しか用意されていない。特に、音声翻訳機器では、機器が使用される場面や状況等に応じて、認識可能な語彙、翻訳可能な語彙を限定したり、切り替えたりした方が、性能が高くなる。これは利用者において、ある程度の前提知識を持って話しを聴く方が、前提知識なしに話しを聴くより理解しやすいことからも想像可能であろう。
これに対して、第1言語における新語を、第2言語に翻訳し、その翻訳結果を第2言語の音声認識辞書に登録するという技術が開示されている。
音声通訳機器を介した実際の会話は、お互いの発声を聞き、その通訳結果を確認しながら進めることになる。相手側の言語にない単語は、例えば日本語から中国語、日本語から英語への翻訳ではローマ字表記に翻字したりする。また、英語から日本語への翻訳ではそのままアルファベット表記で出力するか、カタカナ表記に翻字したりする。
この時、相手側は翻訳結果の表記から音が推測できないと、相手側の話者の発声に基づいて発声することがある。そのため、従来の技術のように、単語の表記のみを手掛かりに音声認識の辞書を更新すると、音の違いから正しく認識され難いという問題が起こる。
例えば、日本語の「納豆」という語を考えてみる。この語は、中国語「納豆」(ピンイン:na4dou4)、英語では「Natto」と翻訳される。この翻訳結果を見た外国人は、次に自身がその語句を発声するとき、それぞれの母国語の表記を見て発声する他、日本人の「ナットウ」という発音を真似て発声することが一般に行われる。この日本人の「ナットウ」という発声は、翻訳結果に含まれる中国語「納豆」と英語「Natto」とは、直接関係しない。そのため、翻訳結果の文字列から推定した発音のみに頼る従来の手法では、音声翻訳に失敗する。
また、翻訳精度を上げるために、翻訳可能な単語、翻訳の結果が得られる単語を、全て音声認識の辞書に登録しておくことが考えられる。しかしながら、無秩序に認識可能な語彙を増やすことは、類似する発声の単語が表れる可能性を高めてしまうことに繋がり、必ずしも通訳精度の向上には繋がらない。
本発明が解決しようとする課題は、会話の流れの中で使用される可能性の高い発音でも音声認識ができる音声翻訳装置、音声翻訳方法およびプログラムを提供することを目的とする。
上記目的を達成するために、実施形態に係る音声翻訳装置は、音声変換辞書を参照して、第1言語による音声を認識して原文テキストに変換する音声認識部と、前記第1言語による原文テキストを前記第2言語の訳文テキストに翻訳する翻訳部と、前記翻訳部によって翻訳された前記第2言語の訳文テキストの内、前記第2言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する未知語検出部と、前記未知語検出部が検出した前記未知語の発音を、前記第2言語における未知語の表記から第1発音候補を推定すると共に、前記未知語の第1言語における原言語単語の発音から第2発音候補を推定する発音推定部と、前記未知語と、推定された前記第1および第2発音候補とを対応づけて、前記音声認識辞書に登録する辞書更新部と、を備える。
実施形態の音声翻訳装置によれば、対話の中で共有するべき語句が、会話に参加する話者で共有され、音声認識が可能となるため、音声翻訳装置による通訳精度が向上する。共有された語句は、会話の中で使われる発音に基づいて登録されるため、音声会話における音声認識の認識精度の向上、並びに音声翻訳装置による通訳精度の向上に寄与する。
以下、図面を参照しながら、実施形態に係る音声翻訳装置、音声翻訳方法およびプログラムについて説明する。
なお、以下の実施形態では、第1言語から第2言語への音声翻訳を前提に説明するが、翻訳方向はその逆でも良い。また、音声翻訳装置が、複数言語を同時に扱う仕組みを採ったとしても、同様に扱えることは明らかである。
図1は、実施形態に係る音声翻訳装置の内部構成を示すブロック図である。図1に示す通り、音声翻訳装置は、音声認識部100と、翻訳部1202、未知語検出部130と、発音推定部140と、辞書更新部150とを有している。音声認識部100は、音声認識辞書110を内蔵又は外付け接続する。
音声認識部100は、利用者(話者)の発声を音声信号として受け付ける。この音声信号は、例えば、マイクロフォンを通して集音し、これをアナログ・デジタル変換器(A/D変換器)に通すことで得ることができる。また、音声入力は、予め録音されていた音声を、記録媒体を通して読み込むことで受け付けても良い。音声認識部100は、受け付けた音声信号を、音声認識辞書110を参照して、音声認識処理により対応するテキスト文字列に変換する。音声認識部100で使用する音声認識技術(Automatic Speech Recognition)は、隠れマルコフモデル(Hidden Markov Model)を適用した方法など、広く一般に知られたものを用いればよく、ここではその説明は割愛する。
翻訳部120は、音声認識部100が出力する第1言語による原言語文を、図示していない翻訳辞書を参照して、第2言語による目的言語文に変換し、出力する。翻訳部120における翻訳処理は、一般的なトランスファ方式、用例ベース方式、統計ベース方式、中間言語方式など、従来の機械翻訳(Machine Translation)技術において利用されているあらゆる方法を適用することができる。
未知語検出部130は、翻訳部120によって翻訳処理した結果である目的言語文において、第2言語を認識する音声認識部110にとっての未知語を検出する。例えば、第2言語を認識するために参照する音声認識辞書110に、言語が登録されていなければ、それらを未知語として検出することで実現できる。
発音推定部140は、未知語検出部130が出力する未知語の集合に対して、各未知語の発音を推定する。推定の方法には、音声合成(Text-To-Speech、Speech Synthesis)技術を用いて実現することが可能であるから、ここではその説明を割愛する。
更に、実施形態に係る発音推定部140では、第2言語中の未知語に対応する、第1言語における語句に基づいて発音を推定する。以下、この発音推定の過程を「原言語からの発音推定」と呼ぶ。ここで、第1言語による発音は、第2言語による未知語に対応する原言語文における語句の表記から推定しても良い。また、当該未知語に対応する原言語文中の語句に相当する第1言語による発声区間の波形情報に基づいて推定しても良い。
「原言語からの発音推定」は、例えば、第1言語による音を、第2言語による音に対応付ける規則や、変換表を作成して用いることができる。また、第1言語と第2言語の発音を組にしたものを大規模に収集し、その変化のパターンを機械学習の方法を用いてモデル化して、新たな未知語に対する発音を統計的に推定する手法を採ることができる。
辞書更新部150は、未知語検出部130によって検出された未知語である語句を、発音推定部140によって推定された発音と対応付けて、音声認識部100が参照する辞書110に登録する。
更に、実施形態に係る辞書更新部150は、新たに登録した語句と発音との組を、音声認識部100における音声認識処理において、優先的に選択されるように更新する。例えば、音声認識部100の動作時に、同設定が有効になっている語句が候補に含まれる場合、これを優先的に選ぶように構成する。この語句の登録処理は、時間と共に優先度を下げるように構成しても良いし、一連の対話が終了した段階で登録削除するように構成しても良い。
以下、実施形態の音声翻訳装置の動作を説明する。以下の説明では、第1言語を日本語、第2言語を中国語として説明するが、異なる言語であればその原理は全てに適用することができる。
(第1実施形態)
図2は、第1実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。以下、図2に示すフローチャートの流れに沿って、具体例を示しながら各処理について示す。
図2は、第1実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。以下、図2に示すフローチャートの流れに沿って、具体例を示しながら各処理について示す。
今、図3(a)に示すように、日本語の原言語発声Sとして「ミトデナットウヲタベタコトガアリマスカ」が音声認識部100に入力されるとする。音声認識部100は、音声認識して図3(b)の「水戸で納豆を食べたことがありますか?」なる音声認識結果Rを出力したものとする。そして、翻訳部120によって、図3(c)に示す中国語の翻訳結果Tを得たと仮定する(S200)。
そして、この翻訳結果Tを得る過程で、中国語の音声認識辞書110に登録されていないとして、図4に示す2つの未知語A,Bを含んだ未知語集合Uが未知語検出部130によって検出され、発音推定部140に出力したと仮定する(ステップ210)。なお、以下の説明では、中国語「水戸」と、中国語「納豆」と、表記した場合は、以下の中国語の表記を示すものとする。
次に、発音推定部140は、未知語集合Uの要素である各未知語について、その発音を推定する。ここで、第1実施形態に係る音声翻訳装置では、まず、各未知語の第2言語(中国語)における未登録語の表記から発音を推定する。例えば、中国語「水戸」に対しては「shui3hu4」の発音候補が得られ、中国語「納豆」に対しては「na4dou4」の発音候補が得られる。
更に、発音推定部140は、各未知語の第1言語における原言語単語の発音、「水戸」に対する「MITO」と、「納豆」に対する「NATTO」から発音候補を推定する。この推定では、図5に示す言語間発音変換表を用いて発音候補を変換する。その結果、中国語「水戸」に対しては「mi1tou」、中国語「納豆」に対しては「na2tuo2」がそれぞれ得られる。
上述した2つの発音候補の推定処理により、図6に示すように、中国語「水戸」の発音候補として「shui3hu4」と「mi1tou」が、中国語「納豆」の発音候補として「na4dou4」と「na4tuo2」の発音候補集合Pが得られる(ステップ220)。
辞書更新部150は、こうして得られた未知語集合Uに含まれる各未知語と、辞書更新部150によって推定した発音候補集合Pとを対応付けて中国語の音声認識辞書110に登録する(ステップ230)。
以上の処理より、日本語の知識に基づいて中国人話者が発声する可能性のある発音を、音声認識辞書110に登録することができるので、会話の流れの中で使用される可能性の高い発音でも、当該語句を音声認識ができるようになる。その結果、音声会話における音声認識の認識精度の向上、並びに音声翻訳装置による通訳精度の向上に寄与することができる。
ところで、第1実施形態では、必ずしも音声入力は必要ない。これは、中国語の発音推定に、日本語の元発声の情報を参照していないことから明らかである。音声入力の代替としては、タッチスクリーン、マウス、キーボード、手書きなどを介して、翻訳対象となる原言語文を入力することが可能である。
次に、例えば中国人が自身の日本語の知識に基づいて、中国語「納豆」を中国語の発音である「na4dou4」ではなく、これに近い中国語発音「na2tuo2」と発声したとする。この時、第1実施形態では中国語「納豆」に対しては「na2tuo2」の発音候補が含まれないため、所望の音声認識結果が得られない。第2実施形態は、その問題を解決する。
(第2実施形態)
次に、第2実施形態について説明する。図7は、第2実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。図8は、第2実施形態に使用する言語間発音変換表。図9は、第2実施形態の未知語に対する発音候補の抽出過程を示す図である。
次に、第2実施形態について説明する。図7は、第2実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。図8は、第2実施形態に使用する言語間発音変換表。図9は、第2実施形態の未知語に対する発音候補の抽出過程を示す図である。
まず、図7のS400〜S420の処理は、図2のS200〜S220にそれぞれ対応するので、その説明は重複するため省略する。
次に、S430において、発音推定部140は、未知語集合Uの各要素に対して、音声認識結果Rから対応する音声区間を集めた音声区間集合Wを得る。即ち、発音推定部140は、未知語検出部130が出力した未知語集合Uの要素である各未知語について、未登録語の第1言語の音声区間を抽出する。例えば図9(a)に示すように、未知語「水戸」に対する音声区間「ミト」と、未知語「納豆」に対する音声区間「ナットウ」を抽出した音声区間集合Wを得る。
次に、S440において、発音推定部140は、抽出した未知語に対する区間の音声から発音候補を推定し、発音候補集合Pに加える。この第2実施形態では、図8に示す言語間発音変換表を用いて発音候補を変換する。その結果、例えば図9(b)に示すように、中国語「水戸」に対しては「mi1tou」、中国語「納豆」に対しては「na2tou2」が推定され、発音候補集合Pに加えられる。
最後に、S440において、辞書更新部150は、未知語集合Uに含まれる各未知語と、発音推定部140によって推定した発音候補集合Pとを対応付けて中国語の音声認識辞書110に登録する。この場合、S400〜S420の処理で得られる発音候補との重複を避けて集計すると、例えば図9(c)に示すように中国語「水戸」の発音候補として「shui3hu4」と「mi1tou」の発音候補集合Pが得られる。また、中国語「納豆」の発音候補として「na4dou4」と「na4tuo2」と「na2tou2」の発音候補集合Pが得られる。辞書更新部150は、未知語集合Uに含まれる各未知語と発音候補集合Pとを対応付けて中国語の音声認識辞書110に登録する。
これにより、実際にシステムを利用して、例えば日本人の利用者が発声し、例えば中国人の利用者が聞いた音に近い発音を、音声認識辞書110に登録することができる。したがって、会話の流れの中で使用された発音に基づいて、発声した発音による語句も音声認識ができるようになることで、より精度の高い音声翻訳装置を提供することが可能となる。
例えば、中国人が会話の相手である日本人の発声「ナットウ」を聞き、中国語「納豆」を中国語の発音である「na4dou4」ではなく、これに近い中国語発音「na2tou2」と発声したとしても、上述のように更新した音声認識辞書110を用いれば中国語「納豆」を正しく認識できるようになる。
(第3実施形態)
次に、第3実施形態の優先語句の登録について説明する。図10は、第3実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。図11は、音声認識辞書110に優先登録された例を示す。図12は、優先音声認識の一例を示す図である。
次に、第3実施形態の優先語句の登録について説明する。図10は、第3実施形態に係る音声翻訳装置の処理の流れを示したフローチャートである。図11は、音声認識辞書110に優先登録された例を示す。図12は、優先音声認識の一例を示す図である。
図10において、S500〜S520は、図2のS200〜S220にそれぞれ対応し、またS530、S540は、図7のS430、S440に対応するので、その説明は重複するため省略する。
そして、S550では、辞書更新部150は、未知語集合Uに含まれる各未知語について、辞書更新部150によって推定した発音候補と対応付けると共に、同じ発音を持つ既登録の語句に対して優先される語句として、中国語の音声認識辞書110に登録する。
図11は、音声認識辞書110に登録された優先登録の一例を示すもので、発音「na4tuo2」に対し、同じ発音を持つ2つの候補がされる。
すると、図12(a)に示すように、例えば、中国語発声「wo3xiang3mai3na4tou2」に対して、その音声認識候補として図12(b)に示す4つの候補が抽出されたと仮定する。そして、中国語「納豆」を優先1に設定していれば、その4つの候補中で最尤の系列、言語モデルなどを参照して計算される尤度を評価して、図12(c)に示す音声認識結果を選ぶことができるようになる。その結果、音声認識において、話題にあった語句が優先されることから、話題に沿った音声翻訳が実現でき、音声通訳の精度が向上する。
上述の各実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した機械翻訳装置による効果と同様な効果を得ることも可能である。上述の各実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の機械翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100‥音声認識部
110‥音声認識辞書
120‥翻訳部
130‥未知語検出部
140‥発音推定部
150‥辞書更新部
110‥音声認識辞書
120‥翻訳部
130‥未知語検出部
140‥発音推定部
150‥辞書更新部
Claims (9)
- 音声変換辞書を参照して、第1言語による音声を認識して原文テキストに変換する音声認識部と、
前記第1言語による原文テキストを前記第2言語の訳文テキストに翻訳する翻訳部と、
前記翻訳部によって翻訳された前記第2言語の訳文テキストの内、前記第2言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する未知語検出部と、
前記未知語検出部が検出した前記未知語の発音を、前記第2言語における未知語の表記から第1発音候補を推定すると共に、前記未知語の第1言語における原言語単語の発音から第2発音候補を推定する発音推定部と、
前記未知語と、推定された前記第1および第2発音候補とを対応づけて、前記音声認識辞書に登録する辞書更新部と、
を備えた音声翻訳装置。 - 前記発音推定部は、前記未知語の第1言語における原言語単語に相当する音声区間から第3発音候補を推定することを特徴とする請求項1に記載の音声翻訳装置。
- 前記辞書更新部は、前記未知語の内、第1言語の音声によって入力された発声を前記翻訳部によって第2言語に翻訳した結果に含まれるものを優先するように設定することを特徴とする請求項1に記載の音声翻訳装置。
- 音声変換辞書を参照して、第1言語による音声を認識して原文テキストに変換するステップと、
前記第1言語による原文テキストを前記第2言語の訳文テキストに翻訳するステップと、
前記翻訳された前記第2言語の訳文テキストの内、前記第2言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出するステップと、
前記検出した前記未知語の発音を、前記第2言語における未知語の表記から第1発音候補を推定するとともに、前記未知語の第1言語における原言語単語の発音から第2発音候補を推定するステップと、
前記未知語と、推定された前記第1および第2発音候補とを対応づけて、前記音声認識辞書に登録するステップと、
を備えた音声翻訳方法。 - 前記第1発音候補および前記第2発音候補を推定するステップに、前記検出した前記未知語の発音を、前記未知語の第1言語における原言語単語に相当する音声区間から第3発音候補を推定するステップを加えた請求項4に記載の音声翻訳方法。
- 前記音声認識辞書に登録するステップは、前記未知語と、推定した前記第1乃至第3発音候補とを対応づけて登録するステップである請求項5に記載の音声翻訳方法。
- 音声変換辞書を参照して、第1言語による音声を認識して原文テキストに変換する機能と、
前記第1言語による原文テキストを前記第2言語の訳文テキストに翻訳する機能と、
前記翻訳された前記第2言語の訳文テキストの内、前記第2言語の音声を認識する前記音声認識辞書における未登録語を未知語として検出する機能と、
前記検出した前記未知語の発音を、前記第2言語における未知語の表記から第1発音候補を推定する機能と、
前記検出した前記未知語の発音を、前記未知語の第1言語における原言語単語の発音から第2発音候補を推定する機能と、
前記未知語と、推定した前記第1および第2発音候補とを対応づけて、前記音声認識辞書に登録する機能と、
をコンピュータに実行させるプログラム。 - 前記第1発音候補および前記第2発音候補を推定する機能に、前記検出した前記未知語の発音を、前記未知語の第1言語における原言語単語に相当する音声区間から第3発音候補を推定する機能を加えた請求項7に記載のコンピュータに実行させるプログラム。
- 前記音声認識辞書に登録する機能は、前記未知語と、推定した前記第1乃至第3発音候補とを対応づけて登録するステップである請求項8に記載のコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013194021A JP2015060095A (ja) | 2013-09-19 | 2013-09-19 | 音声翻訳装置、音声翻訳方法およびプログラム |
US14/484,483 US9471568B2 (en) | 2013-09-19 | 2014-09-12 | Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof |
CN201410472159.3A CN104462071A (zh) | 2013-09-19 | 2014-09-16 | 语音翻译设备和语音翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013194021A JP2015060095A (ja) | 2013-09-19 | 2013-09-19 | 音声翻訳装置、音声翻訳方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015060095A true JP2015060095A (ja) | 2015-03-30 |
Family
ID=52668733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013194021A Pending JP2015060095A (ja) | 2013-09-19 | 2013-09-19 | 音声翻訳装置、音声翻訳方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9471568B2 (ja) |
JP (1) | JP2015060095A (ja) |
CN (1) | CN104462071A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021501903A (ja) * | 2017-09-27 | 2021-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム |
WO2023003271A1 (ko) * | 2021-07-19 | 2023-01-26 | 주식회사 아모센스 | 화자들의 음성을 처리하기 위한 장치 및 방법 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9678954B1 (en) * | 2015-10-29 | 2017-06-13 | Google Inc. | Techniques for providing lexicon data for translation of a single word speech input |
CN108141498B (zh) * | 2015-11-25 | 2020-07-07 | 华为技术有限公司 | 一种翻译方法及终端 |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
CN107102990A (zh) * | 2016-02-19 | 2017-08-29 | 株式会社东芝 | 对语音进行翻译的方法和装置 |
WO2017163284A1 (ja) * | 2016-03-25 | 2017-09-28 | パナソニックIpマネジメント株式会社 | 翻訳装置 |
DE102016114265A1 (de) * | 2016-08-02 | 2018-02-08 | Claas Selbstfahrende Erntemaschinen Gmbh | Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache |
CN107818086B (zh) * | 2016-09-13 | 2021-08-10 | 株式会社东芝 | 机器翻译方法和装置 |
US10062385B2 (en) | 2016-09-30 | 2018-08-28 | International Business Machines Corporation | Automatic speech-to-text engine selection |
CN107291704B (zh) * | 2017-05-26 | 2020-12-11 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN109145309B (zh) * | 2017-06-16 | 2022-11-01 | 北京搜狗科技发展有限公司 | 一种实时语音翻译的方法、及用于实时语音翻译的装置 |
US10936827B1 (en) * | 2018-10-24 | 2021-03-02 | Amazon Technologies, Inc. | Machine evaluation of translation accuracy |
US11093720B2 (en) * | 2019-03-28 | 2021-08-17 | Lenovo (Singapore) Pte. Ltd. | Apparatus, method, and program product for converting multiple language variations |
CN112287112A (zh) * | 2019-07-25 | 2021-01-29 | 北京中关村科金技术有限公司 | 构建专有发音词典的方法、装置以及存储介质 |
CN112927675B (zh) * | 2019-11-20 | 2024-08-16 | 阿里巴巴集团控股有限公司 | 用于语音合成的词典生成、语音合成方法和装置、系统 |
JP7481999B2 (ja) | 2020-11-05 | 2024-05-13 | 株式会社東芝 | 辞書編集装置、辞書編集方法及び辞書編集プログラム |
JP7467314B2 (ja) * | 2020-11-05 | 2024-04-15 | 株式会社東芝 | 辞書編集装置、辞書編集方法、及びプログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10269221A (ja) | 1997-03-28 | 1998-10-09 | Hitachi Ltd | 未登録語処理方式 |
JP2001043221A (ja) * | 1999-07-29 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 中国語単語分割装置 |
JP3476008B2 (ja) | 1999-09-10 | 2003-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体 |
JP2002014693A (ja) | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | 音声認識システム用辞書提供方法、および音声認識インタフェース |
JP2003186494A (ja) | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
US7464031B2 (en) * | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
JP4064413B2 (ja) | 2005-06-27 | 2008-03-19 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
JP5040909B2 (ja) * | 2006-02-23 | 2012-10-03 | 日本電気株式会社 | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム |
JP4734155B2 (ja) | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US9575953B2 (en) * | 2006-09-07 | 2017-02-21 | Nec Corporation | Natural-language processing system and dictionary registration system |
US8204739B2 (en) | 2008-04-15 | 2012-06-19 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
CN102016837B (zh) * | 2007-11-26 | 2014-08-20 | 沃伦·丹尼尔·蔡尔德 | 中文型文字及文字偏旁的分类及检索的系统与方法 |
JP4966324B2 (ja) | 2009-01-19 | 2012-07-04 | 株式会社東芝 | 音声翻訳装置、および方法 |
CN101539909A (zh) * | 2009-04-10 | 2009-09-23 | 无敌科技(西安)有限公司 | 将泰文翻译为罗马拼音的方法及其装置 |
US10380241B2 (en) * | 2010-05-26 | 2019-08-13 | Warren Daniel Child | Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form |
-
2013
- 2013-09-19 JP JP2013194021A patent/JP2015060095A/ja active Pending
-
2014
- 2014-09-12 US US14/484,483 patent/US9471568B2/en active Active
- 2014-09-16 CN CN201410472159.3A patent/CN104462071A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021501903A (ja) * | 2017-09-27 | 2021-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム |
JP7129137B2 (ja) | 2017-09-27 | 2022-09-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム |
WO2023003271A1 (ko) * | 2021-07-19 | 2023-01-26 | 주식회사 아모센스 | 화자들의 음성을 처리하기 위한 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US9471568B2 (en) | 2016-10-18 |
US20150081270A1 (en) | 2015-03-19 |
CN104462071A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015060095A (ja) | 音声翻訳装置、音声翻訳方法およびプログラム | |
CN107016994B (zh) | 语音识别的方法及装置 | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US9588967B2 (en) | Interpretation apparatus and method | |
US20070225980A1 (en) | Apparatus, method and computer program product for recognizing speech | |
WO2014048113A1 (zh) | 一种语音识别方法和设备 | |
JPWO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP2013206253A (ja) | 機械翻訳装置、方法、およびプログラム | |
Bhuvanagirir et al. | Mixed language speech recognition without explicit identification of language | |
JP2016062069A (ja) | 音声認識方法、及び音声認識装置 | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
JP2015201215A (ja) | 機械翻訳装置、方法、およびプログラム | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP7326931B2 (ja) | プログラム、情報処理装置、及び情報処理方法 | |
KR102580904B1 (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
KR20210036169A (ko) | 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법 | |
EP3241123B1 (en) | Voice recognition-based dialing | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP5208795B2 (ja) | 通訳装置、方法、及びプログラム | |
JP5334716B2 (ja) | 文字情報提示制御装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20150218 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20160422 |