JP5653392B2 - Speech translation apparatus, method and program - Google Patents
Speech translation apparatus, method and program Download PDFInfo
- Publication number
- JP5653392B2 JP5653392B2 JP2012146880A JP2012146880A JP5653392B2 JP 5653392 B2 JP5653392 B2 JP 5653392B2 JP 2012146880 A JP2012146880 A JP 2012146880A JP 2012146880 A JP2012146880 A JP 2012146880A JP 5653392 B2 JP5653392 B2 JP 5653392B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language
- similar
- translation
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 155
- 238000000034 method Methods 0.000 title description 44
- 238000012790 confirmation Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 36
- 238000012545 processing Methods 0.000 description 33
- 238000004891 communication Methods 0.000 description 15
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Description
本発明の実施形態は、音声翻訳装置、方法およびプログラムに関する。 Embodiments described herein relate generally to a speech translation apparatus, method, and program.
近年のグローバル化に伴い、異なる言語を母語とするユーザ同士のコミュニケーションを支援する音声翻訳装置への期待が高まっている。また実際に、音声翻訳機能を提供するサービスも運用されている。しかし、音声認識または機械翻訳を誤りなく実行することは難しい。そこで、発話された原言語を翻訳した言語である目的言語を利用するユーザが目的言語の訳文を理解できない場合に、理解不能な箇所を指定することで原言語を利用する話者に修正を促す手法がある。 With globalization in recent years, there is an increasing expectation for speech translation devices that support communication between users whose native languages are different languages. In fact, services that provide speech translation functions are also in operation. However, it is difficult to execute speech recognition or machine translation without error. Therefore, if the user who uses the target language, which is the translated language of the spoken source language, cannot understand the translation of the target language, the speaker who uses the source language is encouraged to correct it by specifying the unintelligible part. There is a technique.
しかし、理解不能な箇所の修正は原言語側でユーザが文字列の修正を行なう必要があり、また、目的言語側のユーザも訳文を一文ごとに確認し、その確認の結果を入力しなければならず、応答性の高い会話を実現することが難しい。 However, correction of unintelligible parts requires the user to correct the character string on the source language side, and the user on the target language side must also check the translated sentence one sentence at a time and enter the result of the confirmation. It is difficult to realize a conversation with high responsiveness.
本開示は、上述の課題を解決するためになされたものであり、円滑かつ応答性の高い音声翻訳を提供することができる音声翻訳装置、方法、およびプログラムを提供することを目的とする。 The present disclosure has been made to solve the above-described problem, and an object thereof is to provide a speech translation apparatus, method, and program capable of providing speech translation that is smooth and highly responsive.
本実施形態に係る音声翻訳装置は、取得部、音声認識部、翻訳部、検索部、選択部および用例提示部を含む。取得部は、第1言語による発話を音声信号として取得する。音声認識部は、前記音声信号について順次音声認識を行ない、音声認識結果の文字列である第1言語文字列を得る。翻訳部は、前記第1言語文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳結果の文字列である第2言語文字列を得る。検索部は、前記第1言語文字列ごとに該第1言語文字列に類似する前記第1言語での用例である類似用例を検索し、該類似用例が存在する場合は、該類似用例と該類似用例を第2言語に翻訳した結果である対訳用例とを得る。選択部は、ユーザの指示により、前記類似用例が存在する第1言語文字列および前記対訳用例が存在する第2言語文字列の少なくとも一方を選択文字列として選択する。用例提示部は、前記選択文字列に関する類似用例および対訳用例を1以上提示する。 The speech translation apparatus according to this embodiment includes an acquisition unit, a speech recognition unit, a translation unit, a search unit, a selection unit, and an example presentation unit. The acquisition unit acquires an utterance in the first language as an audio signal. The voice recognition unit sequentially performs voice recognition on the voice signal to obtain a first language character string that is a character string of a voice recognition result. The translation unit translates the first language character string into a second language different from the first language, and obtains a second language character string that is a character string as a translation result. The search unit searches for a similar example that is an example in the first language similar to the first language character string for each first language character string, and when the similar example exists, A parallel example that is the result of translating the similar example into the second language is obtained. The selection unit selects at least one of a first language character string in which the similar example exists and a second language character string in which the parallel example exists as a selected character string according to a user instruction. The example presentation unit presents one or more similar examples and parallel translation examples related to the selected character string.
近年、例えばスマートフォン(高機能携帯端末)で動作する音声翻訳アプリケーションソフトが商用化されている。また、音声翻訳機能を提供するサービスも運用されている。これらのアプリケーションソフトおよびサービスは、ユーザが一文あるいは数文といった短い単位で音声を発話し、音声認識により対応する文字列に変換する。さらに、機械翻訳により他の言語の文字列に翻訳し、音声合成により翻訳結果の文字列を音声で読み上げるといった動作をする。原言語を利用するユーザには短い単位で発話すること、目的言語を利用するユーザにはその単位で翻訳結果の確認または音声合成音声の聞き取りを行なうことなどが求められる。
このため、このような従来のアプリケーションソフトを用いた会話では、待ち時間が頻繁に発生することになり、応答性のよい会話を行なうことが難しいというのが現状である。ユーザに対して一文単位で発話することを求めるような制約を設けることなく、制約なく発話する内容が相手に伝わることが望ましいが、そのような機能は提供されていない。
In recent years, for example, speech translation application software that operates on a smartphone (high performance portable terminal) has been commercialized. A service that provides a speech translation function is also in operation. In these application software and services, a user speaks a voice in a short unit such as one sentence or several sentences, and converts it into a corresponding character string by voice recognition. Furthermore, it translates into a character string of another language by machine translation, and reads out the character string as a translation result by speech synthesis. Users who use the source language are required to speak in short units, and users who use the target language are required to check the translation result or listen to the synthesized speech in that unit.
For this reason, in such a conversation using the conventional application software, a waiting time frequently occurs, and it is difficult to conduct a conversation with good response. Although it is desirable that the content of the utterance without any restriction is transmitted to the other party without providing the user with a restriction that requires the user to speak one sentence at a time, such a function is not provided.
以下、図面を参照しながら本実施形態に係る音声翻訳装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。本実施形態では、発話された言語を示す原言語を日本語とし、原言語を翻訳したい言語を示す目的言語を英語として、日本語と英語との間の翻訳を例に説明するが、翻訳処理の対象となる言語は、これらの2言語に限られることなく、あらゆる言語を対象とすることができる。
(第1の実施形態)
第1の実施形態に係る音声翻訳装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声翻訳装置100は、音声取得部101、音声認識部102、機械翻訳部103、表示部104、用例格納部105、用例検索部106、ポインティング指示検出部107、文字列選択部108、用例提示部109を含む。
Hereinafter, the speech translation apparatus, method, and program according to the present embodiment will be described in detail with reference to the drawings. Note that, in the following embodiments, the same reference numerals are assigned to the same operations, and duplicate descriptions are omitted as appropriate. In this embodiment, the source language indicating the spoken language is Japanese, the target language indicating the language in which the source language is to be translated is English, and translation between Japanese and English is described as an example. The target language is not limited to these two languages, and any language can be targeted.
(First embodiment)
A speech translation apparatus according to the first embodiment will be described with reference to the block diagram of FIG.
A speech translation apparatus 100 according to the first embodiment includes a
音声取得部101は、ユーザが原言語(第1言語ともいう)で発話した音声を音声信号として取得する。
音声認識部102は、音声取得部101から音声信号を受け取り、音声信号を音声認識処理し、音声認識した結果の原言語の文字列である原言語文字列を得る。音声認識部102は、音声取得部101から音声信号が入力される間、音声認識処理における処理単位ごとに順次音声認識が行われ、原言語文字列が得られるたびに後段に渡される。音声認識の処理単位は、音声中に存在するポーズや言語的な区切り、音声認識候補が確定されるとき、または一定の時間間隔により決定される。また、音声認識した結果が取り出せることをイベントによってユーザに通知してもよい。なお、音声認識の具体的な処理は、一般的な処理を行えばよいため、ここでの説明は省略する。
The
The
機械翻訳部103は、音声認識部102から原言語文字列を受け取り、原言語文字列を目的言語(第2言語ともいう)の文字列に機械翻訳し、翻訳結果の文字列である目的言語文字列を得る。機械翻訳の具体的な処理は、一般的な処理を行えばよいため、ここでの説明を省略する。
表示部104は、例えばディスプレイであり、音声認識部102から原言語文字列を、機械翻訳部103から目的言語文字列をそれぞれ受け取り、原言語文字列および目的言語文字列を表示する。また、後述する用例提示部109から類似用例および対訳用例を受け取り、表示する。類似用例は、原言語文字列に類似する原言語での用例である。対訳用例は、類似用例を目的言語に翻訳した結果の用例である。
The
The
用例格納部105は、原言語の用例(以下、原言語用例ともいう)と目的言語の用例(以下、目的言語用例ともいう)とを関連づけて格納する。用例格納部105に格納される原言語の用例と目的言語の用例とについては、図2を参照して後述する。
用例検索部106は、音声認識部102から原言語文字列を受け取り、用例格納部105に蓄積される原言語の用例から原言語文字列に類似する類似用例を検索する。
ポインティング指示検出部107は、表示部104上においてユーザから指示された位置に対応する位置情報を取得する。
The
The
The pointing
文字列選択部108は、ポインティング指示検出部107から位置情報を受け取り、表示部104に表示された文字列のうち、位置情報に対応した原言語文字列または目的言語文字列を選択文字列として選択する。
用例提示部109は、文字列選択部108から選択文字列を、用例検索部106から選択文字列に関する類似用例および対訳用例をそれぞれ受け取り、類似用例と対訳用例とを表示部104に表示させる。また、用例提示部109は、選択文字列、選択された類似用例および対訳用例を強調表示する。
The character
The
次に、用例格納部105に格納される原言語用例と目的言語用例との一例について図2を参照して説明する。
図2に示すように、原言語である原言語用例201と、原言語用例201に対応する目的言語である目的言語用例202とが対応づけられて格納される。具体的には、例えば原言語である「あまり歩けない」と、「あまり歩けない」の翻訳結果である「I can’t walk so long distance.」とが、それぞれ原言語用例201と目的言語用例202として格納される。
Next, an example of the source language example and the target language example stored in the
As shown in FIG. 2, a source language example 201 that is a source language and a target language example 202 that is a target language corresponding to the source language example 201 are stored in association with each other. Specifically, for example, the source language example 201 and the target language example are “I can't walk so long distance.” Which is a translation result of “not so much walking” and “not so much walking”, respectively. 202 is stored.
次に、本実施形態にかかる音声翻訳装置100の動作について図3のフローチャートを参照して説明する。なお、フローチャートには図示していないが、音声認識部102ならびに機械翻訳部103は並列的に動作するため、図3の処理に先立ち、音声認識部102ならびに機械翻訳部103の処理を起動しておく。
ステップS301では、音声認識部102が、音声認識処理を行なった結果の原言語文字列を得る。
ステップS302では、表示部104が、原言語文字列が表示する。
ステップS303では、機械翻訳部103が、機械翻訳処理を行なった結果の目的言語文字列を得る。
Next, the operation of the speech translation apparatus 100 according to the present embodiment will be described with reference to the flowchart of FIG. Although not shown in the flowchart, since the
In step S301, the
In step S302, the
In step S303, the
ステップS304では、表示部104が、目的言語文字列を表示する。なお、表示部104では、ステップS302で原言語文字列を表示せず、目的言語文字列が得られたあとに、原言語文字列と目的言語文字列とを一緒に表示するようにしてもよい。
In step S304, the
ステップS305では、用例検索部106が、用例検索処理を行なう。用例検索処理については、図4のフローチャートを参照して後述する。
ステップS306では、ポインティング指示検出部107が、ユーザからの指示、すなわち意味が不明な目的言語文字列に対するポインティングがあるかどうかを検出する。ユーザからの指示は、例えば、表示部104がタッチパネル式のディスプレイであれば、類似用例および対訳用例が存在することを示す記号をタッチすることで、ユーザからの指示があったと検出される。ユーザからの指示を検出した場合は、ステップS307に進み、ユーザからの指示を検出しない場合は、ステップS301に戻り、同様の処理を繰り返す。
In step S305, the
In step S306, the pointing
ステップS307では、音声認識部102が、音声認識処理を一時停止する。
ステップS308では、用例提示部109が、用例の提示処理を行なう。具体的な用例の提示処理については図5のフローチャートを参照して後述する。
ステップS309では、音声認識部102が、音声認識処理を再開し、ステップS301から同様の処理を繰り返す。その後、発話の入力が無くなった場合、またはユーザによる音声認識処理の終了指示があった場合に音声翻訳装置の動作を終了する。
In step S307, the
In step S308, the
In step S309, the
次に、ステップS305の動作の詳細について図4のフローチャートを参照して説明する。
ステップS401では、用例検索部106が、原言語文字列を受け取る。
ステップS402では、用例検索部106が、抽出した原言語文字列に類似用例が存在するかどうかを、用例格納部105から検索する。類似用例の検索は、例えば原言語文字列と原言語の用例との編集距離を算出して、閾値以上の一致度を有する場合に原言語の用例が類似用例であると判定してもよいし、形態素解析により単語数の一致度が閾値以上であれば類似用例であると判定してもよい。類似用例が存在する場合は、ステップS403に進み、類似用例が存在しない場合は、ステップS305およびステップS306の処理を終了する。
ステップS403では、用例提示部109が、類似用例が存在する原言語文字列に類似用例が存在することを示す記号を対応づけて表示部104に表示させ、原言語文字列に対応する目的言語文字列に対訳用例が存在することを示す記号を表示部104に表示させる。
Next, details of the operation of step S305 will be described with reference to the flowchart of FIG.
In step S401, the
In step S <b> 402, the
In step S403, the
次に、ステップS308の類似用例および対訳用例の提示処理について図5のフローチャートを参照して説明する。以下では、特に言及しない限り、類似用例および対訳用例をまとめて用例と呼ぶ。
ステップS501では、用例提示部109が、通知とともに用例を表示する。通知は、ユーザから意味を確認したい旨に指示があったことを示す確認メッセージである。用例は1つだけ表示してもよいし、複数の用例を一覧(リスト)として提示してもよい。用例のリストの提示方法は、例えば音声認識結果との類似度が高い順に上位5つを提示してもよいし、用例を全て提示してもよいし、提示された用例の履歴を参照して提示するなど任意の方法でもよい。
Next, the presentation processing of the similar example and the parallel translation example in step S308 will be described with reference to the flowchart of FIG. Hereinafter, unless otherwise noted, similar examples and parallel translation examples are collectively referred to as examples.
In step S501, the
ステップS502では、ポインティング指示検出部107が、用例のリストの中からある用例がポインティングされたかどうか、すなわち用例が選択されたかどうかを検出する。用例が選択された場合は、ステップS503に進み、用例が選択されない場合は、ステップS504に進む。
ステップS503では、用例提示部109が、選択された用例を強調表示する。具体的には、例えば対訳用例がポインティングされることにより、選択された対訳用例の文字色が反転したり、ハイライト表示されればよい。また、対訳用例が強調表示されると対応する類似用例も強調表示される。逆の場合も同様である。
ステップS504では、用例提示部109が、確認メッセージ(単に通知ともいう)を提示する。確認メッセージは、選択された用例が適切かどうかをユーザに決定させるためのメッセージである。
In step S502, the pointing
In step S503, the
In step S504, the
ステップS505では、ポインティング指示検出部107が、削除に関する指示があるかどうかを検出する。削除に関する指示は、例えば削除ボタンが選択される場合に、削除指示があると検出される。削除に関する指示がある場合は、ステップS506に進み、削除に関する指示がある場合は、ステップS502に戻り、同様の処理を繰り返す。
ステップS506では、用例提示部109が、提示された用例の中に適切な用例がないものとして、相手方に内容が伝わらなかったことを示す確認メッセージを表示部104に表示させる。
ステップS507では、ポインティング指示検出部107が、確認メッセージに対するユーザからのポインティングがあるかどうかを検出する。確認メッセージがある場合はステップS508に進み、確認メッセージがない場合は、ユーザからのポインティングがあるまで待機する。
In step S505, the pointing
In step S506, the
In step S507, the pointing
ステップS508では、ポインティング指示検出部107が、ユーザからのポインティングが肯定を示すかどうかを検出する。ユーザからのポインティングが肯定を示さない場合は、ステップS509に進み、ユーザからのポインティングが肯定を示す場合は、ステップS510に進む。
ステップS509では、用例提示部109が、確認メッセージを非表示とし、選択された用例の強調表示を取り消し、通常の表示に戻して、ステップS502に戻って同様の処理を行なう。
ステップS510では、用例提示部109が、選択された用例を表示エリアの対応する箇所に追加して表示する。
ステップS511では、用例提示部109が、処理対象である原言語文字列および目的言語文字列を削除する。
ステップS512では、用例提示部109が、ステップS501で表示した用例のリストを非表示にする。以上で用例提示処理を終了する。
In step S508, the pointing
In step S509, the
In step S510, the
In step S511, the
In step S512, the
次に、音声翻訳装置の実装例について図6を参照して説明する。
図6は、本実施形態にかかる音声翻訳装置100をいわゆるタブレット形状のハードウェアに実装する例を示す。図6に示す音声翻訳装置600は、筐体601、タッチパネルディスプレイ602およびマイクロフォン603を含む。
筐体601は、タッチパネルディスプレイ602、マイクロフォン603が搭載される。
タッチパネルディスプレイ602は、ディスプレイが静電容量式であれば、指で触れるとその場所がポインティングされたことを検出することができるポインティング機能(ポインティング指示検出部)と文字および画像などを表示することができる表示機能(表示部)とを有する。
マイクロフォン603は、一般的なマイクロフォンを用いればよく、ここでの説明は省略する。
Next, an implementation example of the speech translation apparatus will be described with reference to FIG.
FIG. 6 shows an example in which the speech translation apparatus 100 according to the present embodiment is mounted on so-called tablet-shaped hardware. A
The
If the display is a capacitive type, the
A general microphone may be used as the
次に、タッチパネルディスプレイ602の画面表示の一例について図7を参照して説明する。
画面表示のレイアウト例として、図7に示すように、画面の左半分に原言語文字列が表示される表示エリア701が表示され、画面の右半分に目的言語文字列が表示される表示エリア702が表示される。また、画面の右端には、発話開始ボタン703、言語切り替えボタン704、削除ボタン705、終了ボタン706が表示される。
Next, an example of the screen display of the
As an example of the layout of the screen display, as shown in FIG. 7, a
発話開始ボタン703は、ユーザが発話開始を指示する際にポインティングされる領域である。言語切り替えボタン704は、ユーザが原言語と目的言語とを切り替えるためにポインティングされる領域である。削除ボタン705は、用例などを削除するためにポインティングされる領域である。終了ボタン706は、音声認識処理を終了するためにポインティングされる領域である。
なお、図7に示すようなレイアウトに限らず、必要に応じてボタン群がポップアップするなどどのような配置および構成であってもよい。また、タッチパネルディスプレイに限らず、スクリーンおよびキーボードの組み合わせといった、画面表示と入力とが独立した状態であってもよい。
The
In addition, the layout and the configuration are not limited to those illustrated in FIG. 7, and any arrangement and configuration may be used, such as a button group popping up as necessary. In addition to the touch panel display, screen display and input such as a combination of a screen and a keyboard may be independent.
次に、本実施形態に係る音声翻訳装置の動作の具体例について図8から図14までを参照して説明する。ここでは、図6に示す音声翻訳装置600を用いた動作例を説明する。
図8では、目的言語側のユーザが発話した場合の表示例を示す。なお図8の例は、目的言語の発話を原言語に機械翻訳する場合であるが、上述した原言語の日本語と目的言語の英語とを入れ替えて上述の処理と同様の処理を行えばよい。具体的には、ユーザが発話音声801「Have you already gone around here?」を発話すると、音声認識結果802−Eとして「Have you already gone around here?」が表示エリア702に表示され、音声認識結果802−Eの機械翻訳結果802−Jとして「この辺りはもう周られましたか?」が表示エリア701に表示される。
Next, a specific example of the operation of the speech translation apparatus according to this embodiment will be described with reference to FIGS. Here, an operation example using the
FIG. 8 shows a display example when the user on the target language side speaks. The example in FIG. 8 is a case where the utterance of the target language is machine-translated into the source language, but the above-described processing may be performed by replacing the source language Japanese and the target language English. . Specifically, when the user utters the
図9では、原言語側のユーザが発話した場合の表示例を示す。具体的には、音声取得部101が、発話音声901として「見て回りたいんだけど、あまり歩きたくないんで、バスツアーとかがいいなあ」を取得し、順次音声認識した結果である原言語文字列902−J「見て回りたい」、903−J「あまり歩きたくない」、904−J「バスツアーとかがいい」を表示エリア701に表示する。加えて、音声認識結果に対応する機械翻訳結果である目的言語文字列902−E「I would like to look around.」、903−E「Amari doesn’t want to walk.」、904−E「A bus tour is good.」をそれぞれ表示エリア702に表示する。記号905は類似用例および対訳用例が存在することを示す記号である。ここで、目的言語文字列903−Eが機械翻訳誤りのため、意味が通じない訳となっていると仮定する。
FIG. 9 shows a display example when the user on the source language side speaks. Specifically, the
図10では、目的言語側のユーザが、意味が通じない目的言語文字列903−Eをポインティングした場合を示す。ポインティングの方法は、例えば、記号905をタッチすることで選択してもよいし、カーソル1001を記号905に合わせてもよい。また、その際、確認メッセージ1002−Eおよび対応する確認メッセージ1002−Jを表示する。図10の例では、表示エリア701において確認メッセージ1002−J「何とおっしゃりたいのでしょうか?」が表示され、表示エリア702において確認メッセージ1002−E「Can you see what the partner wants to say?」が表示される。
FIG. 10 shows a case where the user on the target language side points to a target language character string 903-E that does not make sense. For example, the pointing method may be selected by touching the
図11では、ユーザにより目的言語文字列が選択された結果、原言語文字列の類似用例および対応する目的言語文字列の対訳用例がそれぞれの表示エリア701、702に表示される。具体的には、用例格納部105を参照して、類似用例1101−J「あまり歩けない」、1102−J「私はあまり歩きたくない」および1103−J「明日は歩きたい」と、類似用例に対応する対訳用例1101−E「I can’t walk so long distance.」、1102−E「I don’t want to walk.」および1103−E「Tomorrow, I’d like to walk.」が表示される。
In FIG. 11, as a result of selecting the target language character string by the user, a similar example of the source language character string and a parallel translation example of the corresponding target language character string are displayed in the
図12では、目的言語側のユーザが対訳用例を選択した場合を示し、例えば選択された対訳用例1201−Eと対応する類似用例1201−Jとが共にハイライト表示される。ここでは、対訳用例1201−Eとして「I can’t walk so long distance.」が選択されてハイライト表示され、対応する類似用例1201−J「あまり歩けない」がハイライト表示される。また、対訳用例が選択された場合に、原言語側の表示エリア701に確認メッセージ1202「おっしゃりたいことはこの内容でよろしいですか?」が表示される。なお、類似用例および対訳用例がそれぞれ複数表示される場合は、スクロールバー1104により類似用例および対訳用例をスクロールしてもよい。
FIG. 12 shows a case where the target language user selects a bilingual example, and for example, the selected bilingual example 1201-E and the corresponding similar example 1201-J are highlighted together. Here, “I ca n’t walk so long distance.” Is selected and highlighted as the parallel translation example 1201-E, and the corresponding similar example 1201-J “cannot walk too much” is highlighted. When the parallel translation example is selected, a
図13では、原言語側のユーザが、ハイライト表示された類似用例の内容で承諾するかどうかをポインティングする。具体的に図13では、確認メッセージ1202中の「はい」または「いいえ」をタッチする、またはカーソル1001で指定する。これによって、ポインティング指示検出部107が、ユーザが「はい」および「いいえ」のどちらを選択したかを検出する。
In FIG. 13, the user on the source language side points whether or not to accept the contents of the similar example highlighted. Specifically, in FIG. 13, “Yes” or “No” in the
図14では、原言語側のユーザが「はい」を選択した場合、類似用例および対訳用例の一覧表示を取り消し、選択された類似用例および対応する対訳用例をそれぞれの表示エリア701、702に追加表示すると共に、翻訳誤りである元の原言語文字列と元の目的言語文字列とを削除する。例えば、原言語文字列1401−Jとして「あまり歩きたくない」を取消線で消し、その上に類似用例「あまり歩けない」を表示する。一方、目的言語文字列1401−Eとして、「Amari doesn’t want to walk.」を取消線で消し、その上に対訳用例「I can’t walk so long distance.」を表示する。このようにすることで、目的言語側のユーザが翻訳結果の意味が理解できない場合でも、目的言語側のユーザが用例を選択すれば、原言語側のユーザに対応する用例が表示される。原言語側のユーザが選択された類似用例が適切かどうかの決定をするだけでよいので、原言語側のユーザの文の言い換え能力が問われずに、容易にユーザの意図通りの会話をすることができる。
In FIG. 14, when the user on the source language side selects “Yes”, the list display of the similar examples and the parallel translation examples is canceled, and the selected similar examples and the corresponding parallel translation examples are additionally displayed in the
なお、上述の例では、目的言語側のユーザが対訳用例を選択した場合を示すが、原言語側のユーザが類似用例を選択してもよい。原言語側のユーザが類似用例を選択する具体例を図15および図16を参照して説明する。
図15に示すように、原言語側のユーザが類似用例を選択する。ここでは、類似用例1501−J「私はあまり歩きたくない」を選択すると、ハイライト表示される。類似用例1501−Jが選択されると、目的言語側の表示エリア702にある対訳用例1501−E「I don’t want to walk.」がハイライト表示される。併せて、目的言語側の表示エリアに確認メッセージ1502「Can you see what the partner wants to say?」が表示される。
The above example shows a case where the target language side user selects the bilingual example, but the source language side user may select the similar example. A specific example in which the user on the source language side selects a similar example will be described with reference to FIGS. 15 and 16.
As shown in FIG. 15, the user on the source language side selects a similar example. Here, when similar example 1501-J “I don't want to walk too much” is selected, it is highlighted. When the similar example 1501-J is selected, a parallel translation example 1501-E “I don't want to walk.” In the
図16では、目的言語側のユーザがハイライト表示された対訳用例の内容で承諾するかどうかをカーソル1001などでポインティングする。このように、原言語側のユーザが、発言した内容の原言語文字列の中で類似用例が存在する文がある場合に、原言語側のユーザ自ら類似用例を選択して言い換えることができる。
In FIG. 16, the user on the target language side points with the
次に、類似用例および対訳用例の中に適切な用例が存在しない場合を図17に示す。 Next, FIG. 17 shows a case where there is no appropriate example in the similar example and the parallel translation example.
目的言語側のユーザまたは原言語側のユーザが、適切な用例が存在しないと判断し、用例を選択しない場合は、処理対象である原言語文字列および目的言語文字列に用例が挿入されない。さらに、処理対象である原言語文字列および目的言語文字列が削除され、確認メッセージ1701が表示される。確認メッセージ1701は例えば、「申し訳ありませんが、伝わらなかったようです。」といった内容を表示すればよい。
この場合、処理対象となった目的言語文字列の内容は目的言語側のユーザには伝わらなかったが、少なくとも原言語側のユーザは、発話が機械翻訳された内容が目的言語側のユーザに伝わらなかったことがわかるので、原言語側のユーザが別の内容の発話で言い直すなどの対応が可能となる。
When the user on the target language side or the user on the source language side determines that there is no appropriate example and does not select the example, the example is not inserted into the source language character string and the target language character string to be processed. Further, the source language character string and the target language character string to be processed are deleted, and a
In this case, the content of the target language character string to be processed is not transmitted to the user on the target language side, but at least the user on the source language side transmits the content of the machine-translated utterance to the user on the target language side. Since it can be seen that there was not, it becomes possible for the user on the source language side to respond by uttering another content.
以上に示した第1の実施形態によれば、原言語文字列に類似用例が存在するかどうかを検索し、類似用例が存在し、かつユーザからの選択があった場合に類似用例および対訳用例を提示する。これにより、音声認識結果の原言語文字列および機械翻訳結果の目的言語文字列において理解不能な箇所をユーザの双方で協力して用例を選択することで、不明な箇所を解消し、異なる言語において円滑に会話することができる。また、対訳用例が選択した場合にのみ音声認識を停止して用例を提示することができるので、会話のレスポンス性を損なうことなく会話することができる。 According to the first embodiment described above, it is searched whether or not there is a similar example in the source language character string, and when there is a similar example and there is a selection from the user, the similar example and the parallel translation example Present. In this way, the user can cooperate with both sides to select an example of an unintelligible part in the source language character string of the speech recognition result and the target language character string of the machine translation result. You can talk smoothly. Further, since the speech recognition can be stopped and the example can be presented only when the parallel example is selected, it is possible to have a conversation without impairing the responsiveness of the conversation.
(第2の実施形態)
第2の実施形態では、用例格納部105に原言語の用例または目的言語の用例に注釈を関連づけて格納する点が第1の実施形態と異なる。原言語を目的言語に翻訳する場合、原言語には意味が曖昧な場合がある。例えば、「結構です」という日本語は、「不要です」という断りを日本語ユーザが意図しているのか、「大丈夫です」という承諾を意図しているのかが曖昧である。また同様に、「You’re welcome.」という英語は、「いらっしゃい(Welcom to you)」という歓迎を英語ユーザが意図しているのか、「どういたしまして(Don’t mention it)」という感謝を意図しているのかが曖昧である。
そこで、第2の実施形態では、原言語文字列または目的言語文字列に注釈を関連づけることで、原言語を話すユーザおよび目的言語を話すユーザの意図を正しく反映させた用例をユーザに提示することができる。
(Second Embodiment)
The second embodiment is different from the first embodiment in that the
Therefore, in the second embodiment, by associating an annotation with a source language character string or a target language character string, an example that correctly reflects the intentions of the user who speaks the source language and the user who speaks the target language is presented to the user. Can do.
第2の実施形態に係る音声翻訳装置は、第1の実施形態に係る音声翻訳装置100と同様であるが、用例格納部105に格納される用例と、用例検索部106における動作とが異なる。
用例格納部105は、原言語の用例と注釈とを対応づけ、目的言語の用例と注釈とを対応づけて格納する。
用例検索部106は、原言語文字列に類似用例が存在する場合、さらに、類似用例に注釈が存在するかどうかを検索する。
The speech translation apparatus according to the second embodiment is the same as the speech translation apparatus 100 according to the first embodiment, but the example stored in the
The
When there is a similar example in the source language character string, the
次に、第2の実施形態に係る用例格納部105に格納されるテーブルの一例について図18を参照して説明する。
図18に示すように、原言語用例1801と注釈1802とが対応づけられ、目的言語用例1803と注釈1804とが関連づけられて格納される。具体的には、原言語用例1805−J「結構です」と注釈1805−1「大丈夫です」とが関連づけられ、原言語用例1806−J「結構です」と注釈1806−1「不要です」とが関連づけられて格納される。このように、複数の意味を有する原言語用例には、それぞれの意味に対応する注釈が付けられる。
ここで、これら注釈が存在する原言語用例の翻訳である目的言語の用例には、原言語用例ではなく注釈に応じた目的言語での翻訳が格納される。すなわち、原言語用例1805−J「結構です」と注釈1805−1「大丈夫です」とに対応する目的言語用例1805−Eとして、「That’s good.」が関連づけられて格納される。また、原言語用例1806−J「結構です」と注釈1806−1「不要です」とに対応する目的言語用例1806−Eとして、「No thank you.」が関連づけられて格納される。
Next, an example of a table stored in the
As shown in FIG. 18, the source language example 1801 and the
Here, in the example of the target language that is the translation of the source language example in which these annotations exist, the translation in the target language corresponding to the annotation is stored, not the source language example. That is, “That's good.” Is stored in association with the target language example 1805-E corresponding to the source language example 1805-J “OK” and the annotation 1805-1 “OK”. In addition, “No thank you.” Is stored in association with the target language example 1806-E corresponding to the source language example 1806-J “Nice” and the annotation 1806-1 “Not required”.
また、目的言語用例に注釈が存在する場合は、目的言語用例1807−E「You’re welcome.」と注釈1807−1「Welcome to you.」とが関連づけられ、目的言語用例1808−E「You’re welcome.」と注釈1808−1「Don’t mention it.」とが関連づけられる。ここで、これら注釈が存在する目的言語用例に対応する原言語では、注釈が存在する原言語用例の場合と同様に、注釈に対応した原言語が格納される。例えば、注釈1807−1「Welcome to you」の原言語での翻訳である原言語用例1807−J「いらっしゃいませ」が目的言語用例1807−E「You’re welcome.」と注釈1807−1「Welcome to you」とに関連づけられて格納される。 In addition, when an annotation is present in the target language example, the target language example 1807-E “You're welcome.” And the annotation 1807-1 “Welcome to you.” Are associated with each other, and the target language example 1808-E “You” 're welcome.' is associated with the annotation 1808-1 "Don't mention it." Here, in the source language corresponding to the target language example in which these annotations exist, the source language corresponding to the annotation is stored as in the case of the source language example in which the annotations exist. For example, the source language example 1807-J “I welcome” is the target language example 1807-E “You're welcome.” And the annotation 1807-1 “Welcome to You” is a translation in the source language of the annotation 1807-1 “Welcome to you”. Stored in association with “to you”.
同様に、注釈1808−1「Welcome to you」の原言語での翻訳である原言語用例1808−E「とんでもありません」が目的言語用例1808−E「You’re welcome.」と注釈1807−1「Welcome to you.」とに関連づけられて格納される。このように、同一の原言語用例でも、注釈が存在する場合は、注釈に応じた翻訳を目的言語用例として関連づけて格納する。逆に、同一の目的言語用例でも、注釈が存在する場合は、注釈に応じた翻訳を原言語用例として関連づけて格納する。 Similarly, the original language example 1808-E “not outrageous” which is the translation of the annotation 1808-1 “Welcome to you” in the source language is the target language example 1808-E “You're welcome.” And the annotation 1807-1 “ Stored in association with "Welcome to you." Thus, even in the same source language example, when an annotation exists, the translation corresponding to the annotation is stored in association with the target language example. On the other hand, if an annotation exists even in the same target language example, the translation corresponding to the annotation is stored in association with the source language example.
次に、第2の実施形態に係る音声翻訳装置の動作の具体例について図19を参照して説明する。
図19は、図11に示す例と同様であるが、用例のリストが表示される際に類似用例に加えて注釈も共に表示される例を示す。具体的には、類似用例として「結構です(大丈夫です)」、「結構です(不要です)」が一覧として表示される。なお、類似用例に注釈が存在する場合の記号1901は、類似用例に注釈がない場合の記号と区別することが望ましい。例えば、注釈がない場合は記号を白抜きとし、注釈がある場合は記号を塗りつぶしとすればよい。これにより、ユーザは意味が曖昧な文であり、注釈が存在することを認識できる。
Next, a specific example of the operation of the speech translation apparatus according to the second embodiment will be described with reference to FIG.
FIG. 19 is similar to the example shown in FIG. 11, but shows an example in which an annotation is displayed together with a similar example when a list of examples is displayed. Specifically, as a similar example, “Nice (no problem)” and “Nice (unnecessary)” are displayed as a list. It should be noted that it is desirable to distinguish the
なお、図19の例では、類似用例1902−J「結構です[大丈夫です]」、1903−J「結構です[不要です]」と類似用例が2つ提示されているのに対し、対訳用例は、1902−E1「That’s fine,」、1902−E2「All right.」および1903−E「No thank you.」と3つ提示される。これは、対訳用例に対応した類似用例を選択する際に、類似用例および注釈が重複する場合は1つ表示すればよいためである。 In addition, in the example of FIG. 19, two similar usage examples are presented as the similar usage example 1902-J “It's fine [OK]” and 1903-J “It ’s fine [unnecessary]”. , 1902-E1 “That's fine,”, 1902-E2 “All right.” And 1903-E “No thank you.”. This is because when the similar example corresponding to the parallel translation example is selected, if the similar example and the annotation overlap, it is only necessary to display one.
以上に示した第2の実施形態によれば、用例に注釈が関連づけられている場合は、用例を表示する際に用例と注釈とを表示することで、目的言語側および原言語側の両方のユーザが注釈を参照することができ、意味の曖昧な用例について適切な意味を示す用例を選択できる。 According to the second embodiment described above, when an annotation is associated with an example, both the target language side and the source language side are displayed by displaying the example and the annotation when displaying the example. The user can refer to the annotation, and can select an example that shows the appropriate meaning for an ambiguous example.
(第3の実施形態)
上述の第1および第2実施形態は単一のデバイス内での構成を想定しているが、複数のデバイスに処理を分散させてもよい。第3の実施形態では、サーバとクライアントとに分けて処理を実現する場合を想定する。
一般に、携帯電話やタブレットPC等のクライアントの計算資源および記憶資源が限定されるデバイスで音声翻訳処理をさせる場合は、データ量および探索空間の自由度に制約が生じる。よって、処理負荷が大きい音声認識、機械翻訳および用例検索の処理を、計算資源および記憶資源の拡張が容易なサーバで動作させることで、クライアントの処理量を軽減することができる。
(Third embodiment)
The first and second embodiments described above assume a configuration in a single device, but the processing may be distributed to a plurality of devices. In the third embodiment, it is assumed that processing is realized separately for a server and a client.
In general, when speech translation processing is performed by a device such as a mobile phone or a tablet PC that has limited computing resources and storage resources, restrictions are imposed on the amount of data and the degree of freedom of search space. Therefore, the processing amount of the client can be reduced by operating the processing of voice recognition, machine translation, and example search, which have a large processing load, on a server with easy expansion of computing resources and storage resources.
ここで、第3の実施形態に係る音声翻訳装置を含む音声認識システムについて図20のブロック図を参照して説明する。
図20に示す音声認識システムは、サーバ2000とクライアント2500とを含む。
Here, a speech recognition system including the speech translation apparatus according to the third embodiment will be described with reference to the block diagram of FIG.
The voice recognition system shown in FIG. 20 includes a
サーバ2000は、音声認識部2001、機械翻訳部2002、用例検索部2003、用例格納部2004、サーバ通信部2005およびサーバ制御部2006を含む。
音声認識部2001、機械翻訳部2002、用例検索部2003および用例格納部2004は、第1の実施形態に係る音声認識部102、機械翻訳部103、用例検索部106および用例格納部105と同様の動作を行なうのでここでの説明は省略する。
サーバ通信部2005は、後述のクライアント通信部2506とデータの送受信を行なう。
サーバ制御部2006は、サーバ全体の動作を制御する。
The
The
A
A
クライアント2500は、音声取得部2501、表示部2502、ポインティング指示検出部2503、文字列選択部2504、用例提示部2505、クライアント通信部2506およびクライアント制御部2507を含む。
音声取得部2501、表示部2502、ポインティング指示検出部2503、文字列選択部2504および用例提示部2505は、第1の実施形態にかかる音声取得部101、表示部104、ポインティング指示検出部107、文字列選択部108および用例提示部109と同様の処理を行なうのでここでの説明は省略する。
クライアント通信部2506は、サーバ通信部2005とデータの送受信を行なう。
クライアント制御部2507は、クライアント2500の全体の制御を行なう。
The
The
A
A
次に、サーバ2000およびクライアント2500による音声翻訳処理の一例について説明する。
クライアント2500では、音声取得部2501がユーザからの音声を取得し、クライアント通信部2506が音声信号をサーバ2000へ送信する。
サーバ2000では、サーバ通信部2005がクライアント2500からの音声信号を受信し、音声認識部2001が音声信号について音声認識処理を行なう。その後、機械翻訳部103が音声認識結果について機械翻訳処理を行なう。サーバ通信部2005が、音声認識結果および機械翻訳結果をクライアント2500へ送信する。また、用例検索部2003が音声認識結果と類似する類似用例を検索し、類似用例が存在する場合は、類似用例および対応する対訳用例がクライアント2500に送信される。
Next, an example of speech translation processing by the
In the
In
クライアント2500では、クライアント通信部2506が音声認識結果および機械翻訳結果とそれぞれに対応する類似用例および対訳用例とを受信し、表示部2502が音声認識結果および機械翻訳結果を表示する。ポインティング指示検出部2503がユーザからの指示を検出した場合は、用例提示部2505が選択文字列に関連する対訳用例および類似用例を提示する。
In the
なお、音声認識結果に類似用例が存在する場合で、クライアント2500が全ての類似用例を受信せずに、任意の数だけ抽出された類似用例および対応する対訳用例を受信するように設定している場合もある。この場合は、クライアント2500は、受信していない他の類似用例または対応する対訳用例を受信すべく、リクエストをサーバ2000に送信する。サーバ2000の用例検索部2003は、未抽出の類似用例および対応する対訳用例を抽出し、サーバ通信部2005がこれらの類似用例および対訳用例を送信する。クライアント2500では、クライアント通信部2506がこれらの類似用例および対訳用例を受信して、新たな類似用例および対訳用例を表示してもよい。
In the case where there are similar examples in the speech recognition result, the
また、サーバ2000が、類似用例が存在することを示すフラグのみクライアント2500に送信してもよい。クライアント2500では、ユーザからのポインティングがあった場合に、選択文字列に関する類似用例および対訳用例のリクエストをサーバ2000に送信し、サーバ2000がリクエストに応じて類似用例および対訳用例をクライアント2500に送信すればよい。このようにすることで必要な場合にのみ用例の検索処理を行なうので、クライアントにおいて音声翻訳処理の動作をより高速に行なうことができる。
Further, the
以上に示した第3の実施形態によれば、処理負荷が大きい音声認識、機械翻訳および用例検索の処理を、計算資源および記憶資源の拡張が容易なサーバで動作させることで、クライアントの処理量を軽減することができる。 According to the third embodiment described above, the processing amount of the client can be increased by operating the processing of speech recognition, machine translation, and example search, which have a large processing load, on a server that can easily expand computing resources and storage resources. Can be reduced.
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
The instructions shown in the processing procedure shown in the above-described embodiment can be executed based on a program that is software. A general-purpose computer system stores this program in advance and reads this program, so that it is possible to obtain the same effect as that obtained by the speech translation apparatus described above. The instructions described in the above-described embodiments are, as programs that can be executed by a computer, magnetic disks (flexible disks, hard disks, etc.), optical disks (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD). ± R, DVD ± RW, Blu-ray (registered trademark) Disc, etc.), semiconductor memory, or a similar recording medium. As long as the recording medium is readable by the computer or the embedded system, the storage format may be any form. If the computer reads the program from the recording medium and causes the CPU to execute instructions described in the program based on the program, the same operation as the speech translation apparatus of the above-described embodiment can be realized. Of course, when the computer acquires or reads the program, it may be acquired or read through a network.
In addition, the OS (operating system), database management software, MW (middleware) such as a network, etc. running on the computer based on the instructions of the program installed in the computer or embedded system from the recording medium implement this embodiment. A part of each process for performing may be executed.
Furthermore, the recording medium in the present embodiment is not limited to a medium independent of a computer or an embedded system, but also includes a recording medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
Further, the number of recording media is not limited to one, and when the processing in this embodiment is executed from a plurality of media, it is included in the recording medium in this embodiment, and the configuration of the media may be any configuration.
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
The computer or the embedded system in the present embodiment is for executing each process in the present embodiment based on a program stored in a recording medium. The computer or the embedded system includes a single device such as a personal computer or a microcomputer. The system may be any configuration such as a system connected to the network.
In addition, the computer in this embodiment is not limited to a personal computer, but includes an arithmetic processing device, a microcomputer, and the like included in an information processing device. ing.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
100,600・・・音声翻訳装置、101,2501・・・音声取得部、102,2001・・・音声認識部、103,2002・・・機械翻訳部、104,2502・・・表示部、105,2004・・・用例格納部、106,2003・・・用例検索部、107,2503・・・ポインティング指示検出部、108,2504・・・文字列選択部、109,2505・・・用例提示部、201,1801,1805,1806,1807,1808・・・原言語用例、202,1803,1805,1806,1807,1808・・・目的言語用例、601・・・筐体、602・・・タッチパネルディスプレイ、603・・・マイクロフォン、701,702・・・表示エリア、703・・・発話開始ボタン、704・・・ボタン、705・・・削除ボタン、706・・・終了ボタン、801,901・・・発話音声、802−E・・・音声認識結果、802−J・・・機械翻訳結果、902−J,903−J,904−J,1401−J,・・・原言語文字列、902−E,903−E,904−E,1401−E,・・・目的言語文字列、905,1901・・・記号,1001・・・カーソル、1002,1202,1502,1701・・・確認メッセージ、1101−J,1102−J,1103−J,1201−J,1501−J1902−J,1903−J・・・類似用例、1101−E,1102−E,1103−E,1201−E,1501−E1902−E1,1902−E2,1903−E・・・対訳用例、1104・・・スクロールバー、1802,1804,1805・・・注釈、2000・・・サーバ、2005・・・サーバ通信部、2006・・・サーバ制御部、2500・・・クライアント、2506・・・クライアント通信部、2507・・・クライアント制御部。
100, 600: speech translation apparatus, 101, 2501: speech acquisition unit, 102, 2001 ... speech recognition unit, 103, 2002 ... machine translation unit, 104, 2502 ... display unit, 105 , 2004 ... Example storage unit, 106, 2003 ... Example search unit, 107, 2503 ... Pointing instruction detection unit, 108, 2504 ... Character string selection unit, 109, 2505 ...
Claims (11)
前記音声信号について順次音声認識を行ない、音声認識結果の文字列である第1言語文字列を得る音声認識部と、
前記第1言語文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳結果の文字列である第2言語文字列を得る翻訳部と、
前記第1言語文字列ごとに該第1言語文字列に類似する前記第1言語での用例である類似用例を検索し、該類似用例が存在する場合は、該類似用例と該類似用例を第2言語に翻訳した結果である対訳用例とを得る検索部と、
ユーザの指示により、前記類似用例が存在する第1言語文字列および前記対訳用例が存在する第2言語文字列の少なくとも一方を選択文字列として選択する選択部と、
前記選択文字列に関する類似用例および対訳用例を1以上提示する用例提示部と、を具備することを特徴とする音声翻訳装置。 An acquisition unit for acquiring speech in a first language as an audio signal;
A speech recognition unit that sequentially performs speech recognition on the speech signal and obtains a first language character string that is a character string of a speech recognition result;
A translation unit that translates the first language character string into a second language different from the first language, and obtains a second language character string that is a character string of a translation result;
A similar example that is an example in the first language that is similar to the first language character string is searched for each first language character string, and when the similar example exists, the similar example and the similar example are A search unit for obtaining a bilingual example that is the result of translation into two languages;
A selection unit that selects, as a selection character string, at least one of a first language character string in which the similar example exists and a second language character string in which the parallel example exists;
A speech translation apparatus, comprising: an example presentation unit that presents one or more similar examples and parallel translation examples related to the selected character string.
前記用例提示部は、前記第1言語文字列に類似用例が存在する場合、該第1言語文字列および対応する第2言語文字列に、用例が存在することを示す第1記号を関連づけて前記表示部に表示させることを特徴とする請求項1に記載の音声翻訳装置。 A display unit for displaying the first language character string and the similar example, and the second language character string and the bilingual example, respectively;
When there is a similar example in the first language character string, the example presentation unit associates the first symbol indicating that the example exists with the first language character string and the corresponding second language character string, and The speech translation apparatus according to claim 1, wherein the speech translation apparatus is displayed on a display unit.
前記表示部は、前記類似用例に前記注釈が関連づく場合、該類似用例と該注釈とを共に表示し、前記対訳用例に該注釈が関連づく場合、該対訳用例と該注釈とを共に表示することを特徴とする請求項5に記載の音声翻訳装置。 The storage unit stores the similar example, the parallel translation example, and an annotation for explaining the intention of at least one of the similar translation example and the parallel translation example ,
The display unit displays both the similar example and the annotation when the annotation is related to the similar example, and displays both the parallel example and the annotation when the annotation is related to the parallel example. The speech translation apparatus according to claim 5 .
前記用例提示部は、前記第1言語文字列に類似用例が存在し、かつ該類似用例に前記注釈が関連づく場合、該注釈が存在することを示す第2記号を該第1言語文字列および対応する第2言語文字列に関連づけて前記表示部に表示させることを特徴とする請求項5に記載の音声翻訳装置。 The storage unit stores the similar example, the parallel translation example, and an annotation for explaining the intention of at least one of the similar translation example and the parallel translation example,
The example presentation unit, when there is a similar example in the first language character string and the annotation is associated with the similar example, displays a second symbol indicating that the annotation exists in the first language character string and The speech translation apparatus according to claim 5 , wherein the speech translation apparatus is displayed on the display unit in association with a corresponding second language character string.
前記音声信号について順次音声認識された音声認識結果の文字列である第1言語文字列と、前記第1言語文字列を前記第1言語とは異なる第2言語に翻訳された翻訳結果の文字列である第2言語文字列とを、表示する表示部と、
ユーザから指示された前記表示部上の位置を検出する検出部と、
前記位置に基づいて、前記第1言語文字列および前記第2言語文字列の少なくとも一方を選択文字列として選択する選択部と、
前記選択文字列に関して、前記第1言語文字列に類似する前記第1言語での用例である1以上の類似用例と、該類似用例を第2言語に翻訳した結果である1以上の対訳用例とを提示する用例提示部と、を具備し、
前記表示部は、提示された前記類似用例および前記対訳用例をさらに表示することを特徴とする音声翻訳装置。 An acquisition unit for acquiring speech in a first language as an audio signal;
A first language character string, which is a character string of a speech recognition result that is sequentially speech-recognized for the speech signal, and a translation result character string obtained by translating the first language character string into a second language different from the first language A display unit for displaying the second language character string,
A detection unit for detecting a position on the display unit instructed by a user;
A selection unit that selects at least one of the first language character string and the second language character string as a selection character string based on the position;
With respect to the selected character string, one or more similar examples that are examples in the first language that are similar to the first language character string, and one or more parallel examples that are the result of translating the similar examples into the second language; An example presentation unit for presenting
The speech translation device, wherein the display unit further displays the presented similar example and the parallel translation example.
前記音声信号について順次音声認識を行ない、音声認識結果の文字列である第1言語文字列を得、
前記第1言語文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳結果の文字列である第2言語文字列を得、
前記第1言語文字列ごとに該第1言語文字列に類似する前記第1言語での用例である類似用例を検索し、該類似用例が存在する場合は、該類似用例と該類似用例を第2言語に翻訳した結果である対訳用例とを得、
ユーザの指示により、前記類似用例が存在する第1言語文字列および前記対訳用例が存在する第2言語文字列の少なくとも一方を選択文字列として選択し、
前記選択文字列に関する類似用例および対訳用例を1以上提示することを具備することを特徴とする音声翻訳方法。 Utterances in the first language are acquired as audio signals,
Sequentially performing speech recognition on the speech signal to obtain a first language character string that is a character string of a speech recognition result;
Translating the first language character string into a second language different from the first language, obtaining a second language character string that is a character string of a translation result;
A similar example that is an example in the first language that is similar to the first language character string is searched for each first language character string, and when the similar example exists, the similar example and the similar example are The bilingual example that is the result of translation into two languages
According to a user instruction, at least one of a first language character string in which the similar example exists and a second language character string in which the parallel example exists is selected as a selection character string,
Presenting one or more similar examples and bilingual examples related to the selected character string.
第1言語による発話を音声信号として取得する取得手段と、
前記音声信号について順次音声認識を行ない、音声認識結果の文字列である第1言語文字列を得る音声認識手段と、
前記第1言語文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳結果の文字列である第2言語文字列を得る翻訳手段と、
前記第1言語文字列ごとに該第1言語文字列に類似する前記第1言語での用例である類似用例を検索し、該類似用例が存在する場合は、該類似用例と該類似用例を第2言語に翻訳した結果である対訳用例とを得る検索手段と、
ユーザの指示により、前記類似用例が存在する第1言語文字列および前記対訳用例が存在する第2言語文字列の少なくとも一方を選択文字列として選択する選択手段と、
前記選択文字列に関する類似用例および対訳用例を1以上提示する用例提示手段として機能させるための音声翻訳プログラム。 Computer
Obtaining means for obtaining speech in a first language as an audio signal;
Speech recognition means for sequentially performing speech recognition on the speech signal and obtaining a first language character string that is a character string of a speech recognition result;
Translation means for translating the first language character string into a second language different from the first language and obtaining a second language character string that is a character string of a translation result;
A similar example that is an example in the first language that is similar to the first language character string is searched for each first language character string, and when the similar example exists, the similar example and the similar example are A search means for obtaining a bilingual example resulting from translation into two languages;
Selection means for selecting, as a selection character string, at least one of a first language character string in which the similar example exists and a second language character string in which the parallel example exists, according to a user instruction;
A speech translation program for functioning as example presentation means for presenting one or more similar examples and parallel translation examples related to the selected character string.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012146880A JP5653392B2 (en) | 2012-06-29 | 2012-06-29 | Speech translation apparatus, method and program |
US13/859,152 US9002698B2 (en) | 2012-06-29 | 2013-04-09 | Speech translation apparatus, method and program |
CN201310130904.1A CN103514153A (en) | 2012-06-29 | 2013-04-16 | Speech translation apparatus, method and program |
US14/670,064 US20150199341A1 (en) | 2012-06-29 | 2015-03-26 | Speech translation apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012146880A JP5653392B2 (en) | 2012-06-29 | 2012-06-29 | Speech translation apparatus, method and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014233657A Division JP2015072701A (en) | 2014-11-18 | 2014-11-18 | Translation device, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014010623A JP2014010623A (en) | 2014-01-20 |
JP5653392B2 true JP5653392B2 (en) | 2015-01-14 |
Family
ID=49778997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012146880A Active JP5653392B2 (en) | 2012-06-29 | 2012-06-29 | Speech translation apparatus, method and program |
Country Status (3)
Country | Link |
---|---|
US (2) | US9002698B2 (en) |
JP (1) | JP5653392B2 (en) |
CN (1) | CN103514153A (en) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5653392B2 (en) * | 2012-06-29 | 2015-01-14 | 株式会社東芝 | Speech translation apparatus, method and program |
WO2014162211A2 (en) | 2013-03-15 | 2014-10-09 | Translate Abroad, Inc. | Systems and methods for displaying foreign character sets and their translations in real time on resource-constrained mobile devices |
US8965129B2 (en) | 2013-03-15 | 2015-02-24 | Translate Abroad, Inc. | Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
JP6235280B2 (en) | 2013-09-19 | 2017-11-22 | 株式会社東芝 | Simultaneous audio processing apparatus, method and program |
JP6178198B2 (en) | 2013-09-30 | 2017-08-09 | 株式会社東芝 | Speech translation system, method and program |
JP2015153108A (en) | 2014-02-13 | 2015-08-24 | 株式会社東芝 | Voice conversion support device, voice conversion support method, and program |
US9524293B2 (en) * | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
JP2016095727A (en) * | 2014-11-14 | 2016-05-26 | シャープ株式会社 | Display device, server, communication support system, communication support method, and control program |
USD749115S1 (en) | 2015-02-20 | 2016-02-09 | Translate Abroad, Inc. | Mobile device with graphical user interface |
JP6090757B2 (en) * | 2015-04-14 | 2017-03-08 | シントレーディング株式会社 | Interpreter distribution device, interpreter distribution method, and program |
US9836457B2 (en) | 2015-05-25 | 2017-12-05 | Panasonic Intellectual Property Corporation Of America | Machine translation method for performing translation between languages |
USD797764S1 (en) * | 2015-11-05 | 2017-09-19 | Samsung Electronics Co., Ltd. | Display screen or portion thereof with animated graphical user interface |
USD791823S1 (en) * | 2015-11-26 | 2017-07-11 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Display screen with graphical user interface |
USD791182S1 (en) * | 2015-11-26 | 2017-07-04 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Display screen with graphical user interface |
CN115061622A (en) * | 2016-02-08 | 2022-09-16 | 三菱电机株式会社 | Input display control device, input display control method, and input display system |
CN106055544A (en) * | 2016-06-18 | 2016-10-26 | 哈尔滨理工大学 | Foreign language learning translation device |
JP6832503B2 (en) * | 2016-09-07 | 2021-02-24 | パナソニックIpマネジメント株式会社 | Information presentation method, information presentation program and information presentation system |
CN108538284A (en) * | 2017-03-06 | 2018-09-14 | 北京搜狗科技发展有限公司 | Simultaneous interpretation result shows method and device, simultaneous interpreting method and device |
US11900072B1 (en) * | 2017-07-18 | 2024-02-13 | Amazon Technologies, Inc. | Quick lookup for speech translation |
CN108270928B (en) * | 2018-04-20 | 2020-11-20 | 维沃移动通信有限公司 | Voice recognition method and mobile terminal |
JP6448838B2 (en) * | 2018-06-12 | 2019-01-09 | 三菱電機株式会社 | Display control apparatus, display control method, and program |
JP6727279B2 (en) * | 2018-12-04 | 2020-07-22 | 三菱電機株式会社 | Display control device, input display system, display control method, and program |
JP2020149035A (en) * | 2019-07-25 | 2020-09-17 | 優 坂西 | Voice recognition device |
US11604930B2 (en) * | 2019-09-27 | 2023-03-14 | Konica Minolta Business Solutions U.S.A., Inc. | Generation of translated electronic document from an input image by consolidating each of identical untranslated text strings into a single element for translation |
JP2022147384A (en) * | 2021-03-23 | 2022-10-06 | 株式会社リコー | Display device, method for display, and program |
USD1001835S1 (en) * | 2021-07-09 | 2023-10-17 | Beijing Xiaomi Mobile Software Co., Ltd. | Display screen or portion thereof with animated graphical user interface |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10162005A (en) * | 1996-11-27 | 1998-06-19 | Sony Corp | Storage medium, retreival device and retrieval method |
JP2003029776A (en) * | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | Voice recognition device |
JP4042360B2 (en) * | 2001-07-18 | 2008-02-06 | 日本電気株式会社 | Automatic interpretation system, method and program |
US20030154080A1 (en) * | 2002-02-14 | 2003-08-14 | Godsey Sandra L. | Method and apparatus for modification of audio input to a data processing system |
JP4559946B2 (en) * | 2005-09-29 | 2010-10-13 | 株式会社東芝 | Input device, input method, and input program |
CN101008942A (en) * | 2006-01-25 | 2007-08-01 | 北京金远见电脑技术有限公司 | Machine translation device and method thereof |
JP4786384B2 (en) * | 2006-03-27 | 2011-10-05 | 株式会社東芝 | Audio processing apparatus, audio processing method, and audio processing program |
JP4557919B2 (en) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | Audio processing apparatus, audio processing method, and audio processing program |
CN101295296A (en) * | 2007-04-28 | 2008-10-29 | 舒东 | Simultaneous translator |
JP5100445B2 (en) * | 2008-02-28 | 2012-12-19 | 株式会社東芝 | Machine translation apparatus and method |
JP2009205579A (en) * | 2008-02-29 | 2009-09-10 | Toshiba Corp | Speech translation device and program |
US8788266B2 (en) * | 2009-04-30 | 2014-07-22 | Nec Corporation | Language model creation device, language model creation method, and computer-readable storage medium |
JP5403696B2 (en) * | 2010-10-12 | 2014-01-29 | 株式会社Nec情報システムズ | Language model generation apparatus, method and program thereof |
JP2013206253A (en) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | Machine translation device, method and program |
JP5653392B2 (en) * | 2012-06-29 | 2015-01-14 | 株式会社東芝 | Speech translation apparatus, method and program |
-
2012
- 2012-06-29 JP JP2012146880A patent/JP5653392B2/en active Active
-
2013
- 2013-04-09 US US13/859,152 patent/US9002698B2/en active Active
- 2013-04-16 CN CN201310130904.1A patent/CN103514153A/en active Pending
-
2015
- 2015-03-26 US US14/670,064 patent/US20150199341A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20140006007A1 (en) | 2014-01-02 |
CN103514153A (en) | 2014-01-15 |
JP2014010623A (en) | 2014-01-20 |
US20150199341A1 (en) | 2015-07-16 |
US9002698B2 (en) | 2015-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5653392B2 (en) | Speech translation apparatus, method and program | |
JP4416643B2 (en) | Multimodal input method | |
EP3021321B1 (en) | Display apparatus and method for question and answer | |
US9412363B2 (en) | Model based approach for on-screen item selection and disambiguation | |
US8386231B2 (en) | Translating languages in response to device motion | |
JP4878471B2 (en) | Information processing apparatus and control method thereof | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
KR101474854B1 (en) | Apparatus and method for selecting a control object by voice recognition | |
JP6150268B2 (en) | Word registration apparatus and computer program therefor | |
CN111462740A (en) | Voice command matching for voice-assisted application prototyping for non-speech alphabetic languages | |
JP2007094086A (en) | Input device, input method, and input program | |
US20140304606A1 (en) | Information processing apparatus, information processing method and computer program | |
JP2009205579A (en) | Speech translation device and program | |
US20140303975A1 (en) | Information processing apparatus, information processing method and computer program | |
EP3387553A1 (en) | Language and domain independent model based approach for on-screen item selection | |
JPWO2005101235A1 (en) | Dialogue support device | |
KR20150077580A (en) | Method and apparatus for providing of service based speech recognition | |
JPWO2008029881A1 (en) | Natural language processing system and dictionary registration system | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5902359B2 (en) | Method, electronic device and program | |
US20230223021A1 (en) | Enhancing signature word detection in voice assistants | |
JP2014178567A (en) | Speech recognition device, speech recognition method, and program | |
JP2015072701A (en) | Translation device, method, and program | |
JP5998298B1 (en) | Speech translation device, speech translation method, and speech translation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141021 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5653392 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |