JP5704686B2 - Speech translation system, speech translation device, speech translation method, and program - Google Patents
Speech translation system, speech translation device, speech translation method, and program Download PDFInfo
- Publication number
- JP5704686B2 JP5704686B2 JP2010217559A JP2010217559A JP5704686B2 JP 5704686 B2 JP5704686 B2 JP 5704686B2 JP 2010217559 A JP2010217559 A JP 2010217559A JP 2010217559 A JP2010217559 A JP 2010217559A JP 5704686 B2 JP5704686 B2 JP 5704686B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- unit
- similar
- speech
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 168
- 238000000034 method Methods 0.000 title claims description 50
- 230000015572 biosynthetic process Effects 0.000 claims description 84
- 238000003786 synthesis reaction Methods 0.000 claims description 84
- 230000005540 biological transmission Effects 0.000 claims description 48
- 230000004044 response Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 238000007726 management method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、入力された音声を翻訳し、音声合成出力する音声翻訳システム等に関するものである。 The present invention relates to a speech translation system that translates input speech and outputs a synthesized speech.
従来、予め対訳の例文を用意し、特定の例文の訳文を対話相手に表示することによって発話を翻訳する対話翻訳技術があった(特許文献1参照)。この技術は、利用者からの問いに対する回答文の選択肢を対話相手に提示し、対話相手が選択した回答の訳文を利用者に表示することにより対話相手の回答を利用者に通訳する対話翻訳技術である。 Conventionally, there has been a dialogue translation technique for translating an utterance by preparing a translation example sentence in advance and displaying a translation of a specific example sentence to a conversation partner (see Patent Document 1). This technology is a dialogue translation technology that presents the choices of answer sentences for questions from users to the conversation partner, and displays the translated sentences of the answers selected by the conversation partner to the users, thereby interpreting the answers of the conversation partners to the users. It is.
また、入力された音声の音声認識結果の文からキーワードを取得し、キーワードを用いて例文を検索し、当該例文を用いて自動通訳を行う自動通訳システムがあった(非特許文献1参照)。 In addition, there is an automatic interpretation system that acquires a keyword from a speech recognition result sentence of input speech, searches for an example sentence using the keyword, and performs automatic interpretation using the example sentence (see Non-Patent Document 1).
しかしながら、従来の音声翻訳システムにおいては、音声認識結果に誤りがある場合、翻訳精度は著しく劣化していた。 However, in the conventional speech translation system, if there is an error in the speech recognition result, the translation accuracy is significantly degraded.
さらに具体的には、音声認識結果の文には、音が近いが意味が遠い単語が含まれていることも多いにも関わらず、従来の技術において、音声認識結果に含まれる単語をキーとして例文を検索することにより、正解からは遠い単語を含むテキストが機械翻訳の入力となることにより、翻訳精度は著しく劣化していた。 More specifically, although the speech recognition result sentence often includes words that are close in sound but far from meaning, in the conventional technology, the words included in the speech recognition result are used as keys. By searching for example sentences, text including words far from the correct answer becomes an input for machine translation, and the translation accuracy has been significantly degraded.
本第一の発明の音声翻訳システムは、端末装置とサーバ装置とを具備する音声翻訳システムであって、端末装置は、音声を受け付ける音声受付部と、音声受付部が受け付けた音声、または音声受付部が受け付けた音声に関する1以上の特徴量である音声関連情報を取得する音声関連情報取得部と、音声関連情報をサーバ装置に送信する音声関連情報送信部と、サーバ装置から音声合成結果を受信する音声合成結果受信部と、音声合成結果を用いて音声出力する合成音声出力部とを具備し、サーバ装置は、音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、音声関連情報を受信する音声関連情報受信部と、音声関連情報を用いて、音声認識し、音素列を取得する音声認識部と、音声認識部が取得した音素列に類似する音素列を、固有表現情報格納部から取得する類似音素列取得部と、類似音素列取得部が取得した音素列に対応する文字列である類似文字列を、固有表現情報格納部から取得する類似文字列取得部と、類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。 The speech translation system according to the first aspect of the present invention is a speech translation system including a terminal device and a server device, and the terminal device includes a speech reception unit that receives speech and speech received by the speech reception unit, or speech reception. A speech related information acquisition unit that acquires speech related information that is one or more feature quantities related to speech received by the unit, a speech related information transmission unit that transmits the speech related information to the server device, and a speech synthesis result received from the server device And a synthesized speech output unit that outputs speech using the speech synthesis result, and the server device can store two or more unique representation information having a phoneme string and a character string. An information storage unit, a voice-related information receiving unit that receives voice-related information, a voice recognition unit that uses the voice-related information to perform voice recognition, acquires a phoneme string, and a phoneme string acquired by the voice recognition unit A similar phoneme string acquisition unit that acquires a similar phoneme string from the specific expression information storage unit, and a similar character string that is a character string corresponding to the phoneme string acquired by the similar phoneme string acquisition unit is acquired from the specific expression information storage unit A similar character string acquisition unit, a similar character string acquired by the similar character string acquisition unit, a machine translation unit that acquires a translation result, a speech synthesis of the translation result acquired by the machine translation unit, and a voice synthesis result A speech translation system including a speech synthesis unit to be acquired and a speech synthesis result transmission unit that transmits a speech synthesis result to a terminal device.
かかる構成により、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。 With such a configuration, even if there is an error in the speech recognition result, a good translation result can be obtained.
また、本第二の発明の音声翻訳システムは、第一の発明に対して、音声認識部は、音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、類似音素列取得部は、音声認識部が取得した音素列に類似する1以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した1以上の音素列に対応する1以上の類似文字列を取得し、音声認識部が取得した1以上の音声認識文字列および類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を、端末装置に送信する候補文字列送信部と、2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置から受信する候補文字列特定情報受信部とをさらに具備し、機械翻訳部は、候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得し、端末装置は、サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する音声翻訳システムである。 Further, in the speech translation system of the second invention, in contrast to the first invention, the speech recognition unit recognizes speech using speech related information, and is one or more phoneme sequences and one or more speech recognition results. The similar phoneme string acquisition unit acquires one or more phoneme strings similar to the phoneme string acquired by the voice recognition unit from the specific expression information storage unit, The similar character string acquisition unit acquires one or more similar character strings corresponding to the one or more phoneme sequences acquired by the similar phoneme string acquisition unit, and the one or more speech recognition character strings and similar character strings acquired by the voice recognition unit One candidate character corresponding to the candidate character string transmitting unit that transmits one or more candidate character strings that are one or more similar character strings acquired by the acquiring unit to the terminal device and the transmission of two or more candidate character strings Receives candidate character string specifying information, which is information for specifying a string, from the terminal device A candidate character string specifying information receiving unit, wherein the machine translation unit translates a speech recognition character string or a similar character string corresponding to the candidate character string specifying information, acquires a translation result, and the terminal device is a server A candidate character string receiving unit that receives two or more candidate character strings from the device, a candidate character string output unit that outputs two or more candidate character strings received by the candidate character string receiving unit, and a candidate character string output unit that outputs An instruction receiving unit that receives an instruction for one candidate character string from among the two or more candidate character strings, and candidate character string specifying information that specifies a candidate character string corresponding to the instruction received by the instruction receiving unit, Is a speech translation system further comprising a candidate character string specifying information transmitting unit to be transmitted.
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。 With this configuration, even if the speech recognition result has an error, a better translation result can be obtained.
また、本第三の発明の音声翻訳システムは、第一の発明に対して、類似音素列取得部は、音声認識部が取得した音素列に類似する2以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した2以上の音素列に対応する2以上の文字列である2以上の類似文字列を取得し、類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を、端末装置に送信する候補文字列送信部と、2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置から受信する候補文字列特定情報受信部とをさらに具備し、機械翻訳部は、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得し、端末装置は、サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する音声翻訳システムである。 Further, in the speech translation system according to the third invention, in contrast to the first invention, the similar phoneme sequence acquisition unit stores two or more phoneme sequences similar to the phoneme sequence acquired by the speech recognition unit, and stores the unique expression information. The similar character string acquisition unit acquires two or more similar character strings that are two or more character strings corresponding to the two or more phoneme sequences acquired by the similar phoneme string acquisition unit, and the similar character string acquisition unit In response to transmission of two or more candidate character strings which are two or more similar character strings acquired by the candidate character string transmission unit and two or more candidate character strings, one candidate character string is obtained. A candidate character string specifying information receiving unit that receives candidate character string specifying information that is information to be specified from the terminal device, and the machine translation unit translates a similar character string corresponding to the candidate character string specifying information; The translation result is acquired, and the terminal device receives two or more candidates from the server device. A candidate character string receiving unit that receives a character string, a candidate character string output unit that outputs two or more candidate character strings received by the candidate character string receiving unit, and two or more candidate character strings output by the candidate character string output unit The candidate character string specification that transmits to the server device, the instruction receiving unit that receives an instruction for one candidate character string, and the candidate character string specifying information that specifies the candidate character string corresponding to the instruction received by the instruction receiving unit A speech translation system further comprising an information transmission unit.
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。 With this configuration, even if the speech recognition result has an error, a better translation result can be obtained.
また、本第四の発明の音声翻訳システムは、第二または第三の発明に対して、サーバ装置は、音声認識部が取得した文字列と類似文字列取得部が取得した1以上の各類似文字列とを比較し、音声認識部が取得した文字列と一致する文字列が、類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、候補文字列送信部は、候補文字列を送信しない音声翻訳システムである。 In the speech translation system according to the fourth aspect of the invention, in contrast to the second or third aspect of the invention, the server device has a character string acquired by the speech recognition unit and one or more similar items acquired by the similar character string acquisition unit. A control unit that compares the character string and determines whether or not a character string that matches the character string acquired by the voice recognition unit exists in one or more similar character strings acquired by the similar character string acquisition unit; Further, the candidate character string transmission unit is a speech translation system that does not transmit the candidate character string.
かかる構成により、音声認識結果が正しい場合、高速な処理が可能となる。 With this configuration, when the speech recognition result is correct, high-speed processing is possible.
また、本第五の発明の音声翻訳装置は、音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、音声を受け付ける音声受付部と、音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、音声認識部が取得した音素列に類似する音素列を、固有表現情報格納部から取得する類似音素列取得部と、類似音素列取得部が取得した音素列に対応する文字列である類似文字列を取得する類似文字列取得部と、類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を用いて音声出力する合成音声出力部とを具備する音声翻訳装置である。 The speech translation apparatus according to the fifth aspect of the present invention includes a specific expression information storage unit that can store two or more specific expression information having a phoneme string and a character string, a voice reception unit that receives voice, and a voice reception unit. A speech recognition unit that recognizes the received speech and obtains a phoneme sequence; a similar phoneme sequence acquisition unit that acquires a phoneme sequence similar to the phoneme sequence acquired by the speech recognition unit; A similar character string acquisition unit that acquires a similar character string that is a character string corresponding to the phoneme string acquired by the column acquisition unit, and a machine translation that translates the similar character string acquired by the similar character string acquisition unit and acquires a translation result A speech translation device comprising: a speech synthesis unit that synthesizes a translation result obtained by the machine translation unit, obtains a speech synthesis result, and a synthesized speech output unit that outputs speech using the speech synthesis result.
かかる構成により、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。 With such a configuration, even if there is an error in the speech recognition result, a good translation result can be obtained.
また、本第六の発明の音声翻訳装置は、第五の発明に対して、音声認識部は、音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、類似音素列取得部は、音声認識部が取得した音素列に類似する1以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した1以上の音素列に対応する1以上の文字列である1以上の類似文字列を取得し、音声認識部が取得した1以上の音声認識文字列および類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、機械翻訳部は、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する音声翻訳装置である。 Further, in the speech translation apparatus according to the sixth invention, in contrast to the fifth invention, the speech recognition unit recognizes speech using speech related information, and 1 or more phoneme sequences and 1 or more speech recognition results are obtained. The similar phoneme string acquisition unit acquires one or more phoneme strings similar to the phoneme string acquired by the voice recognition unit from the specific expression information storage unit, The similar character string acquisition unit acquires one or more similar character strings that are one or more character strings corresponding to the one or more phoneme strings acquired by the similar phoneme string acquisition unit, and the one or more voices acquired by the voice recognition unit. A candidate character string output unit that outputs two or more candidate character strings that are one or more similar character strings acquired by the recognized character string and the similar character string acquisition unit, and two or more candidate character strings output by the candidate character string output unit And an instruction receiving unit that receives an instruction for one candidate character string. And a machine translation unit translates a speech recognition character string or similar character string corresponding to candidate character string specifying information for specifying a candidate character string corresponding to an instruction received by the instruction receiving unit, and acquires a translation result It is a translation device.
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。 With this configuration, even if the speech recognition result has an error, a better translation result can be obtained.
また、本第七の発明の音声翻訳装置は、第五の発明に対して、類似音素列取得部は、音声認識部が取得した音素列に類似する2以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した2以上の音素列に対応する2以上の類似文字列を取得し、類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、機械翻訳部は、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する音声翻訳装置である。 Further, in the speech translation apparatus according to the seventh invention, in contrast to the fifth invention, the similar phoneme string acquisition unit stores two or more phoneme strings similar to the phoneme string acquired by the speech recognition unit, and stores the unique expression information. The similar character string acquisition unit acquires two or more similar character strings corresponding to the two or more phoneme sequences acquired by the similar phoneme string acquisition unit, and the two or more similar characters acquired by the similar character string acquisition unit A candidate character string output unit that outputs two or more candidate character strings that are character strings, and an instruction reception unit that receives an instruction for one candidate character string from two or more candidate character strings output by the candidate character string output unit The machine translation unit translates the speech recognition character string or the similar character string corresponding to the candidate character string specifying information for specifying the candidate character string corresponding to the instruction received by the instruction receiving unit, and the translation result This is a speech translation device to be acquired.
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。 With this configuration, even if the speech recognition result has an error, a better translation result can be obtained.
また、本第八の発明の音声翻訳装置は、第六または第七の発明に対して、音声認識部が取得した文字列と類似文字列取得部が取得した1以上の各類似文字列とを比較し、音声認識部が取得した文字列と一致する文字列が、類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、候補文字列出力部は、候補文字列を出力しない音声翻訳装置である。 The speech translation apparatus according to the eighth aspect of the invention relates to the sixth or seventh aspect of the invention, a character string acquired by the speech recognition unit and one or more similar character strings acquired by the similar character string acquisition unit. A control unit that compares and determines whether or not a character string that matches the character string acquired by the voice recognition unit exists in one or more similar character strings acquired by the similar character string acquisition unit; The candidate character string output unit is a speech translation device that does not output a candidate character string.
かかる構成により、音声認識結果が正しい場合、高速な処理が可能となる。 With this configuration, when the speech recognition result is correct, high-speed processing is possible.
本発明による音声翻訳システムによれば、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。 According to the speech translation system according to the present invention, a good translation result can be obtained even when there is an error in the speech recognition result.
以下、音声翻訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
Hereinafter, embodiments of a speech translation system and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(Embodiment 1)
本実施の形態において、入力された音声に対する音声認識処理により音素列を取得し、当該音素列を用いて、類似文をコーパスから検索し、類似文を翻訳し、音声合成出力する音声翻訳システムについて説明する。また、本実施の形態において、1以上の音声認識処理結果と、1以上の検索類似文を出力し、ユーザからの指示を受け付け、指示された文を翻訳し、音声合成出力する音声翻訳システムについて説明する。さらに、本実施の形態において、2以上の検索類似文を出力し、ユーザからの指示を受け付け、指示された文を翻訳し、音声合成出力する音声翻訳システムについて説明する。 In this embodiment, a speech translation system that acquires a phoneme string by speech recognition processing for input speech, searches for a similar sentence from a corpus using the phoneme string, translates the similar sentence, and outputs a synthesized speech explain. Also, in the present embodiment, a speech translation system that outputs one or more speech recognition processing results and one or more search similar sentences, receives an instruction from a user, translates the instructed sentence, and outputs a synthesized speech. explain. Further, in the present embodiment, a speech translation system that outputs two or more search similar sentences, accepts an instruction from a user, translates the instructed sentence, and outputs a synthesized speech is described.
図1は、本実施の形態における音声翻訳システム1の概念図である。音声翻訳システム1は、1以上の端末装置11、およびサーバ装置12を具備し、ネットワーク13により相互に通信可能である。端末装置11は、いわゆるパーソナルコンピュータ、携帯端末、携帯電話、いわゆるスマートフォーンなどであるが、音声の入力や出力が行えれば良く、その態様は問わない。なお、ネットワーク13は、インターネット、電話回線、専用回線等、問わない。
FIG. 1 is a conceptual diagram of a
図2は、本実施の形態における音声翻訳システム1の内部構造を示すブロック図である。
端末装置11は、音声受付部111、音声関連情報取得部112、音声関連情報送信部113、候補文字列受信部114、候補文字列出力部115、指示受付部116、候補文字列特定情報送信部117、音声合成結果受信部118、および合成音声出力部119を具備する。
FIG. 2 is a block diagram showing the internal structure of the
The
サーバ装置12は、固有表現情報格納部120、音声関連情報受信部121、音声認識部122、類似音素列取得部123、類似文字列取得部124、候補文字列送信部125、候補文字列特定情報受信部126、機械翻訳部127、音声合成部128、音声合成結果送信部129、および制御部130を具備する。
The
音声受付部111は、通常、ユーザから音声を受け付ける。ただし、受け付けとは、有線もしくは無線の通信回線を介して送信された音声の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された音声の受け付けなどを含む概念である。
The
音声関連情報取得部112は、音声受付部111が受け付けた音声に関する1以上の特徴量である音声関連情報を取得するか、音声受付部111が受け付けた音声を取得する。つまり、音声関連情報取得部112は、音声から1以上の特徴量を抽出する機能を有しても有さなくても良い。また、音声関連情報とは、音声または1以上の特徴量であり、音声から1以上の特徴量を取得する技術は公知技術である。ここで、特徴量は、音声の特徴量である。1以上の特徴量は、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。ただし、1以上の特徴量の内容は問わない。
The voice related
音声関連情報送信部113は、音声関連情報取得部112が取得した音声関連情報をサーバ装置12に送信する。
The voice related information transmission unit 113 transmits the voice related information acquired by the voice related
候補文字列受信部114は、音声関連情報の送信に対応して、サーバ装置12から2以上の候補文字列を受信する。
The candidate character
候補文字列出力部115は、候補文字列受信部114が受信した2以上の候補文字列を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
The candidate character string output unit 115 outputs two or more candidate character strings received by the candidate character
指示受付部116は、候補文字列出力部115が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。
The
候補文字列特定情報送信部117は、指示受付部116が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置12に送信する。候補文字列特定情報とは、候補文字列を特定する情報であれば何でも良く、例えば、候補文字列のID、候補文字列自体などである。
The candidate character string specifying information transmitting unit 117 transmits candidate character string specifying information for specifying the candidate character string corresponding to the instruction received by the
音声合成結果受信部118は、サーバ装置12から音声合成結果を受信する。ここで、音声合成結果とは、音声のデータでも良いし、音声合成の元になるデータや音声出力する直前のデータなどでも良い。
The speech synthesis
合成音声出力部119は、音声合成結果受信部118が受信した音声合成結果を用いて音声出力する。音声合成結果を用いた音声出力とは、音声合成結果が音声である場合、単に音声出力することである。また、音声合成結果が音声合成の元になるデータの場合、音声合成結果を用いた音声出力とは、当該データから音声合成し、音声出力することである。
The synthesized
サーバ装置12の固有表現情報格納部120は、音素列と文字列とを有する2以上の固有表現情報を格納し得る。ここで、音素列とは、文字列に対応する音素列である。つまり、音素列とは、文字列を発音した際の音素の並びである。そして、文字列とは、原言語の文や句や単語を構成する文字列である。
The specific expression
音声関連情報受信部121は、音声関連情報を、端末装置11から受信する。
The voice related
音声認識部122は、音声関連情報受信部121が受信した音声関連情報を用いて、音声認識し、音素列を取得する。なお、音声認識部122は公知技術であるので、詳細な説明を省略する。また、この音声認識部122は、音声関連情報受信部121が受信した音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得しても良い。また、音声認識部122は、1以上の特徴量から音声認識処理しても良いし、音声関連情報である音声から1以上の特徴量を抽出し、当該1以上の特徴量から音声認識しても良い。また、音素列とは、通常、2以上の音素の集合である。
The
類似音素列取得部123は、音声認識部122が取得した音素列に類似する音素列を、固有表現情報格納部120から取得する。この類似音素列取得部123は、音声認識部122が取得した音素列と、固有表現情報格納部120に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度(スコア)を算出し、当該類似度が所定の条件を満たすほど類似している1以上の音素列を固有表現情報格納部120から取得する。所定の条件を満たすほど類似している音素列とは、例えば、類似度が最大の音素列であったり、類似度が閾値以上または閾値より大の音素列であったり、類似度をキーとして降順に音素列をソートした場合の上位n(nは1以上の整数)の音素列等である。
The similar phoneme
なお、2つの音素列の類似度を算出するアルゴリズムは、例えば、BLEUやWord Error Rate (WER)などである。また、2つの音素列の類似度を算出するアルゴリズムは、例えば、「類似度=一致する音素数/長い方の全音素数」などでも良い。つまり、類似の判断のアルゴリズムは問わない。なお、BLEUやWERは、代表的な機械翻訳結果の評価尺度である。また、BLEUやWERは、通常、機械翻訳結果である自然言語文や単語を対象として、スコアを算出する尺度であるが、音声翻訳システム1では、音素列を対象として用いられる。
Note that an algorithm for calculating the similarity between two phoneme strings is, for example, BLEU or Word Error Rate (WER). The algorithm for calculating the similarity between two phoneme strings may be, for example, “similarity = number of phonemes that match / number of longer phonemes”. That is, the algorithm of the similar judgment is not ask | required. Note that BLEU and WER are representative evaluation scales for machine translation results. In addition, BLEU and WER are usually scales for calculating scores for natural language sentences and words that are machine translation results. In the
BLEUを用いた場合、以下の数式1により類似度を算出する。
数式1において、pnは音声認識部122が取得した音素列内のnグラムが固有表現情報格納部120内の音素列のnグラムと一致する割合である。また、rは音声認識部122が取得した音素列の長さ、cは固有表現情報格納部120内の固有表現情報が有する音素列の長さである。なお、後述する実験では、Nは4であり、wnは1/Nである、とした。
In
また、WERを用いた場合、以下の数式2により類似度を算出する。
数式2において、Iは挿入語数、Dは削除語数、Sは置換語数、Nは参照訳の語数である。ここで、語とは、音素に読み替える。つまり、数式2において、挿入語数とは、挿入されている音素の数である。また、削除語数とは、削除されている音素の数である。また、置換語数とは、置換されている音素の数である。さらに、参照訳の語数とは、参照訳の音素の数である。 In Equation 2, I is the number of inserted words, D is the number of deleted words, S is the number of replacement words, and N is the number of reference translation words. Here, the word is read as phoneme. That is, in Equation 2, the number of inserted words is the number of phonemes that are inserted. The number of deleted words is the number of phonemes that have been deleted. The number of replacement words is the number of phonemes that are replaced. Further, the number of words in the reference translation is the number of phonemes in the reference translation.
また、類似音素列取得部123は、音声認識部122が取得した音素列に類似する1以上の音素列を、固有表現情報格納部120から取得しても良いし、音声認識部122が取得した音素列に類似する2以上の音素列を、固有表現情報格納部120から取得しても良い。
Further, the similar phoneme
類似文字列取得部124は、類似音素列取得部123が取得した音素列に対応する文字列である類似文字列を、固有表現情報格納部120から取得する。また、類似文字列取得部124は、類似音素列取得部123が取得した1以上の音素列に対応する1以上の類似文字列を取得しても良い。また、類似文字列取得部124は、類似音素列取得部123が取得した2以上の音素列に対応する2以上の類似文字列を取得しても良い。
The similar character
候補文字列送信部125は、2以上の候補文字列を、端末装置11に送信する。2以上の候補文字列は、音声認識部122が取得した1以上の音声認識文字列および類似文字列取得部124が取得した1以上の類似文字列であっても良いし、類似文字列取得部124が取得した2以上の類似文字列であっても良い。つまり、2以上の候補文字列の中には、通常、音声認識文字列を含むが、音声認識文字列を含まなくても良い。
The candidate character
候補文字列特定情報受信部126は、2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置11から受信する。候補文字列特定情報とは、候補文字列を識別する情報でも良いし、候補文字列そのものでも良い。
The candidate character string specifying
機械翻訳部127は、類似文字列取得部124が取得した類似文字列を翻訳し、翻訳結果を取得する。機械翻訳部127は、候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得しても良いし、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得しても良い。なお、機械翻訳部127は、公知技術である。
The machine translation unit 127 translates the similar character string acquired by the similar character
音声合成部128は、機械翻訳部127が取得した翻訳結果を音声合成し、音声合成結果を取得する。音声合成結果とは、例えば、音声のデータである。ただし、音声合成結果とは、音声合成する元になるデータでも良い。音声合成部128は、公知技術である。
The
音声合成結果送信部129は、音声合成部128が取得した音声合成結果を端末装置11に送信する。
The speech synthesis
制御部130は、音声認識部122が取得した文字列と類似文字列取得部124が取得した1以上の各類似文字列とを比較し、音声認識部122が取得した文字列と一致する文字列(概ね一致する文字列も含む)が、類似文字列取得部124が取得した1以上の類似文字列の中に存在するか否かを判断する。一致する文字列が存在する場合、候補文字列送信部125は候補文字列を送信しない。そして、一致する文字列が存在する場合、機械翻訳部127は、音声認識部122が取得した文字列を機械翻訳する。なお、制御部130は、音声認識部122が取得した音素列と類似音素列取得部123が取得した1以上の各類似音素列とを比較し、音声認識部122が取得した音素列と一致する音素列(概ね一致する音素列も含む)が、類似音素列取得部123が取得した1以上の音素列の中に存在するか否かを判断しても良い。なお、音素列の比較も、文字列の比較と同等である、と考える。
The
音声受付部111は、例えば、マイクとそのドライバーソフトにより実現され得る。
The
音声関連情報取得部112、音声認識部122、類似音素列取得部123、類似文字列取得部124、機械翻訳部127、および音声合成部128は、通常、MPUやメモリ等から実現され得る。音声関連情報取得部112等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The speech related
音声関連情報送信部113、候補文字列特定情報送信部117、候補文字列送信部125、および音声合成結果送信部129は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
The voice related information transmission unit 113, the candidate character string specifying information transmission unit 117, the candidate character
候補文字列受信部114、音声合成結果受信部118、音声関連情報受信部121、および候補文字列特定情報受信部126は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
The candidate character
候補文字列出力部115は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。候補文字列出力部115は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。 The candidate character string output unit 115 may or may not include an output device such as a display or a speaker. The candidate character string output unit 115 can be realized by driver software of an output device, driver software of an output device, an output device, or the like.
指示受付部116は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
The
合成音声出力部119は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。合成音声出力部119は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
The synthesized
固有表現情報格納部120は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。固有表現情報格納部120に固有表現情報が記憶される過程は問わない。例えば、記録媒体を介して固有表現情報が固有表現情報格納部120で記憶されるようになってもよく、通信回線等を介して送信された固有表現情報が固有表現情報格納部120で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された固有表現情報が固有表現情報格納部120で記憶されるようになってもよい。
次に、音声翻訳システム1の動作について説明する。まず、端末装置11の動作について、図3のフローチャートを用いて説明する。
The specific expression
Next, the operation of the
(ステップS301)音声受付部111は、音声を受け付けたか否かを判断する。音声を受け付ければステップS302に行き、音声を受け付けなければステップS301に戻る。
(Step S301) The
(ステップS302)音声関連情報取得部112は、ステップS301で受け付けられた音声に関する1以上の特徴量である音声関連情報を取得する。
(Step S302) The voice related
(ステップS303)音声関連情報送信部113は、ステップS302で取得された音声関連情報をサーバ装置12に送信する。
(Step S303) The voice related information transmission unit 113 transmits the voice related information acquired in step S302 to the
(ステップS304)候補文字列受信部114は、サーバ装置12から、2以上の候補文字列を受信したか否かを判断する。2以上の候補文字列を受信すればステップS305に行き、受信しなければステップS309に行く。
(Step S304) The candidate character
(ステップS305)候補文字列出力部115は、ステップS304で受信された2以上の候補文字列を出力する。 (Step S305) The candidate character string output unit 115 outputs two or more candidate character strings received in step S304.
(ステップS306)指示受付部116は、ステップS305で出力された2以上の候補文字列の中から、一の候補文字列の指示(ユーザによる指示)を受け付けたか否かを判断する。指示を受け付ければステップS307に行き、受け付けなければステップS306に行く。
(Step S306) The
(ステップS307)候補文字列特定情報送信部117は、指示受付部116が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置12に送信する。
(Step S307) The candidate character string specifying information transmitting unit 117 transmits candidate character string specifying information for specifying the candidate character string corresponding to the instruction received by the
(ステップS308)音声合成結果受信部118は、ステップS307における候補文字列特定情報の送信に対応して、サーバ装置12から音声合成結果を受信したか否かを判断する。音声合成結果を受信すればステップS310に行き、受信しなければステップS308に戻る。
(Step S308) The speech synthesis
(ステップS309)音声合成結果受信部118は、サーバ装置12から音声合成結果を受信したか否かを判断する。音声合成結果を受信すればステップS310に行き、受信しなければステップS304に戻る。
(Step S309) The speech synthesis
(ステップS310)合成音声出力部119は、ステップS308、またはステップS309で受信された音声合成結果を用いて音声出力し、ステップS301に戻る。
(Step S310) The synthesized
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。 In the flowchart of FIG. 3, the process ends when the power is turned off or the process is terminated.
次に、サーバ装置12の動作について、図4のフローチャートを用いて説明する。
Next, operation | movement of the
(ステップS401)音声関連情報受信部121は、端末装置11から音声関連情報を受信したか否かを判断する。音声関連情報を受信すればステップS402に行き、音声関連情報を受信しなければステップS401に戻る。
(Step S <b> 401) The voice related
(ステップS402)音声認識部122は、ステップS401で受信された音声関連情報を用いて、音声認識処理を行う。そして、音声認識部122は、1以上の音素列および1以上の音声認識文字列を取得する。なお、音声認識文字列は、音声認識結果である。
(Step S402) The
(ステップS403)類似音素列取得部123は、ステップS402で取得された音素列に類似する1以上の音素列を、固有表現情報格納部120から取得する。かかる処理を、類似音素列取得処理という。類似音素列取得処理について、図5のフローチャートを用いて説明する。
(Step S403) The similar phoneme
(ステップS404)類似文字列取得部124は、ステップS403で取得された1以上の音素列に対応する1以上の類似文字列を、固有表現情報格納部120から取得する。
(Step S404) The similar character
(ステップS405)制御部130は、音声認識部122がステップS402で取得した文字列と、類似文字列取得部124がステップS404で取得した1以上の各類似文字列とを比較する。そして、制御部130は、音声認識部122が取得した文字列と一致する類似文字列が存在するか否かを判断する。音声認識部122が取得した文字列と一致する類似文字列が存在すればステップS409に行き、存在しなければステップS406に行く。
(Step S405) The
(ステップS406)候補文字列送信部125は、ステップS402で取得した文字列と、ステップS404で取得した1以上の各類似文字列とを用いて、2以上の候補文字列を構成する。
(Step S406) The candidate character
(ステップS407)候補文字列送信部125は、ステップS406で構成した2以上の候補文字列を端末装置11に送信する。
(Step S407) The candidate character
(ステップS408)候補文字列特定情報受信部126は、ステップS407における2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置11から受信したか否かを判断する。候補文字列特定情報を受信すればステップS409に行き、受信しなければステップS408に戻る。
(Step S408) The candidate character string specifying
(ステップS409)ステップS408から遷移してきた場合、機械翻訳部127は、候補文字列特定情報に対応する音声認識文字列または類似文字列を取得する。また、ステップS405から遷移してきた場合、機械翻訳部127は、音声認識部122が取得した文字列を取得する。
(Step S409) When the process proceeds from Step S408, the machine translation unit 127 acquires a speech recognition character string or a similar character string corresponding to the candidate character string specifying information. If the process proceeds from step S405, the machine translation unit 127 acquires the character string acquired by the
(ステップS410)機械翻訳部127は、ステップS409で取得した文字列を翻訳し、翻訳結果を取得する。 (Step S410) The machine translation unit 127 translates the character string acquired in step S409, and acquires a translation result.
(ステップS411)音声合成部128は、ステップS410で取得された翻訳結果を音声合成し、音声合成結果を取得する。
(Step S411) The
(ステップS412)音声合成結果送信部129は、ステップS411で取得された音声合成結果を端末装置11に送信し、ステップS401に戻る。
(Step S412) The speech synthesis
なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。 In the flowchart of FIG. 4, the process ends when the power is turned off or the process ends.
次に、ステップS403の類似音素列取得処理について、図5のフローチャートを用いて説明する。 Next, the similar phoneme string acquisition process in step S403 will be described with reference to the flowchart of FIG.
(ステップS501)類似音素列取得部123は、ステップS402における音声認識処理により得られた音声認識文字列(第一の音素列という)を取得する。
(Step S501) The similar phoneme
(ステップS502)類似音素列取得部123は、カウンタiに1を代入する。
(Step S502) The similar phoneme
(ステップS503)類似音素列取得部123は、固有表現情報格納部120にi番目の音素列(第二の音素列という)が存在するか否かを判断する。i番目の第二の音素列が存在すればステップS504に行き、i番目の第二の音素列が存在しなければステップS507に行く。
(Step S503) The similar phoneme
(ステップS504)類似音素列取得部123は、ステップS501で取得した第一の音素列と、i番目の第二の音素列との類似度を算出する。
(Step S504) The similar phoneme
(ステップS505)類似音素列取得部123は、ステップS504で算出した類似度を、i番目の第二の音素列に対応付けて、図示しない記録媒体に一時蓄積する。
(Step S505) The similar phoneme
(ステップS506)類似音素列取得部123は、カウンタiを1、インクリメントし、ステップS503に戻る。
(Step S506) The similar phoneme
(ステップS507)類似音素列取得部123は、ステップS505で一時蓄積した類似度をキーとして、第二の音素列をソートする。
(Step S507) The similar phoneme
(ステップS508)類似音素列取得部123は、所定の条件を満たすほど類似している1または2以上の音素列(類似音素列)を固有表現情報格納部120から取得し、上位処理にリターンする。
(Step S508) The similar phoneme
以下、本実施の形態における音声翻訳システム1の具体的な動作(行った実験)について説明する。
Hereinafter, a specific operation (performed experiment) of the
本実験では、サーバ装置12の固有表現情報格納部120は、図6に示す固有表現管理表を保持している。固有表現管理表は「ID」「文字列」「音素列」を有するレコード(固有表現情報)を1以上格納している。ここでは、固有表現情報は、5095存在する。また、固有表現情報が有する音素列の固有表現音素記号化手法は「Ximera」という手法を用いている。また、類似音素列取得部123が利用する類似度の算出のアルゴリズムは、BLEU(数式1)である。また、類似音素列取得部123が利用する所定の条件は「類似度が最大の音素列」である。
In this experiment, the specific expression
そして、実験において、ユーザは、300の文を音声により入力した。以下、2つの例を用いて、音声翻訳システム1の具体的な動作について説明する。
In the experiment, the user inputs 300 sentences by voice. Hereinafter, specific operations of the
例えば、ユーザが「雑誌売り場はどこですか」と、端末装置11に対して音声入力した。次に、端末装置11の音声受付部111は、音声を受け付ける。そして、音声関連情報取得部112は、受け付けられた音声に関する1以上の特徴量である音声関連情報を取得する。音声関連情報送信部113は、取得された音声関連情報をサーバ装置12に送信する。
For example, the user inputs a voice to the
次に、サーバ装置12の音声関連情報受信部121は、端末装置11から1以上の特徴量である音声関連情報を受信する。
Next, the voice related
次に、音声認識部122は、受信された音声関連情報を用いて、音声認識処理を行う。そして、音声認識部122は、音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」と音声認識文字列「斬新売り場はどこですか」とを取得する。
Next, the
次に、類似音素列取得部123は、取得された音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」に類似する1以上の音素列を、BLUEを用いて探索する。そして、類似音素列取得部123は、図6に示す固有表現管理表から類似音素列「z a q sh i u r i b a w a d o k o d e s u k a」取得する。
Next, the similar phoneme
次に、類似文字列取得部124は、取得された音素列「z a q sh i u r i b a w a d o k o d e s u k a」に対応する類似文字列「雑誌売り場はどこですか」を、固有表現管理表から取得する。
Next, the similar character
次に、制御部130は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを比較する。そして、制御部130は、両文字列が一致しない、と判断する。
Next, the
次に、候補文字列送信部125は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを用いて、2つの候補文字列を構成する。例えば、構成した候補文字列は「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」である。ここで構成とは、送信するデータ構造にすることである。
Next, the candidate character
次に、候補文字列送信部125は、構成した2つの候補文字列「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」を端末装置11に送信する。
Next, the candidate character
次に、端末装置11の候補文字列受信部114は、サーバ装置12から、2つの候補文字列「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」を受信する。
Next, the candidate character
次に、候補文字列出力部115は、受信された候補文字列を出力する。候補文字列の出力例を図7に示す。そして、図7に示すように、ユーザは、「雑誌売り場はどこですか」の文をチェックし、「送信」ボタンを押下した、とする。 Next, the candidate character string output unit 115 outputs the received candidate character string. An output example of the candidate character string is shown in FIG. Then, as shown in FIG. 7, it is assumed that the user checks the sentence “Where is the magazine store” and presses the “Send” button.
次に、指示受付部116は、出力された2つの候補文字列の中から、一の候補文字列「雑誌売り場はどこですか」の指示(ユーザによる指示)を受け付ける。
Next, the
そして、候補文字列特定情報送信部117は、受け付けた指示に対応する候補文字列「雑誌売り場はどこですか」を特定する候補文字列特定情報「1」を取得する。そして、候補文字列特定情報送信部117は、候補文字列特定情報「1」をサーバ装置12に送信する。
Then, the candidate character string specifying information transmitting unit 117 acquires candidate character string specifying information “1” for specifying the candidate character string “Where is the magazine section” corresponding to the received instruction. Then, the candidate character string specifying information transmitting unit 117 transmits the candidate character string specifying information “1” to the
次に、サーバ装置12の候補文字列特定情報受信部126は、候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報「1」を、端末装置11から受信する。
Next, the candidate character string specifying
次に、機械翻訳部127は、候補文字列特定情報「1」に対応する類似文字列「雑誌売り場はどこですか」を取得する。 Next, the machine translation unit 127 acquires a similar character string “Where is the magazine department” corresponding to the candidate character string specifying information “1”.
次に、機械翻訳部127は、取得した文字列「雑誌売り場はどこですか」を翻訳し、翻訳結果「Where is the magazine counter?」を取得する。 Next, the machine translation unit 127 translates the acquired character string “Where is the magazine counter”, and acquires the translation result “Where is the magazine counter?”.
次に、音声合成部128は、取得された翻訳結果「Where is the magazine counter?」を音声合成し、音声合成結果を取得する。
Next, the
そして、音声合成結果送信部129は、取得された音声合成結果を端末装置11に送信する。
Then, the speech synthesis
次に、音声合成結果受信部118は、候補文字列特定情報の送信に対応して、サーバ装置12から音声合成結果を受信する。
Next, the speech synthesis
そして、合成音声出力部119は、受信された音声合成結果を用いて音声出力する。
Then, the synthesized
次に、ユーザが「フロントは内線九番です」と、端末装置11に対して音声入力した。そして、上記と同様の動作により、サーバ装置12の音声認識部122は、音素列「j o ng t o w a n a i s e ng k j u u b a ng d e s u」と音声認識文字列「夜んとは内線九番で」とを取得する。
Next, the user inputs a voice to the
そして、次に、類似音素列取得部123は、取得された音素列「j o ng t o w a n a i s e ng k j u u b a ng d e s u」に類似する1以上の音素列を、BLUEを用いて探索する。そして、類似音素列取得部123は、図6に示す固有表現管理表から類似音素列「f u r o ng t o w a n a i s e ng k j u u b a ng d e s u」取得する。
Next, the similar phoneme
次に、類似文字列取得部124は、取得された音素列「f u r o ng t o w a n a i s e ng k j u u b a ng d e s u」に対応する類似文字列「フロントは内線九番です」を、固有表現管理表から取得する。
Next, the similar character
次に、制御部130は、音声認識文字列「夜んとは内線九番で」と、類似文字列「フロントは内線九番です」とを比較する。そして、制御部130は、両文字列が一致しない、と判断する。
Next, the
次に、候補文字列送信部125は、音声認識文字列「夜んとは内線九番で」と、類似文字列「フロントは内線九番です」とを用いて、2つの候補文字列「1:フロントは内線九番です,2:夜んとは内線九番で」を構成する。
Next, the candidate character
次に、候補文字列送信部125は、構成した2つの候補文字列「1:フロントは内線九番です,2:夜んとは内線九番で」を端末装置11に送信する。
Next, the candidate character
次に、端末装置11の候補文字列受信部114は、サーバ装置12から、2つの候補文字列「1:フロントは内線九番です,2:夜んとは内線九番で」を受信する。
Next, the candidate character
次に、候補文字列出力部115は、受信された候補文字列を出力する。 Next, the candidate character string output unit 115 outputs the received candidate character string.
そして、ユーザは、「フロントは内線九番です」の文をチェックし、「送信」ボタンを押下した、とする。 The user checks the sentence “Front is extension number 9” and presses the “Send” button.
次に、指示受付部116は、出力された2つの候補文字列の中から、一の候補文字列「フロントは内線九番です」の指示(ユーザによる指示)を受け付ける。
Next, the
そして、候補文字列特定情報送信部117は、受け付けた指示に対応する候補文字列を特定する候補文字列特定情報「1」を取得する。そして、候補文字列特定情報送信部117は、候補文字列特定情報「1」をサーバ装置12に送信する。
Then, the candidate character string specifying information transmitting unit 117 acquires candidate character string specifying information “1” for specifying the candidate character string corresponding to the received instruction. Then, the candidate character string specifying information transmitting unit 117 transmits the candidate character string specifying information “1” to the
次に、サーバ装置12の候補文字列特定情報受信部126は、候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報「1」を、端末装置11から受信する。
Next, the candidate character string specifying
次に、機械翻訳部127は、候補文字列特定情報「1」に対応する類似文字列「フロントは内線九番です」を取得する。 Next, the machine translation unit 127 acquires a similar character string “front is extension number 9” corresponding to the candidate character string specifying information “1”.
次に、機械翻訳部127は、取得した文字列「フロントは内線九番です」を翻訳し、翻訳結果「Extension because of the connection to the reception desk is the ninth.」を取得する。 Next, the machine translation unit 127 translates the acquired character string “front is extension number 9” and acquires a translation result “Extension because of the connection to the reception desk is the ninth.”.
次に、音声合成部128は、取得された翻訳結果「Extension because of the connection to the reception desk is the ninth.」を音声合成し、音声合成結果を取得する。
Next, the
そして、音声合成結果送信部129は、取得された音声合成結果を端末装置11に送信する。
Then, the speech synthesis
次に、音声合成結果受信部118は、候補文字列特定情報の送信に対応して、サーバ装置12から音声合成結果を受信する。
Next, the speech synthesis
そして、合成音声出力部119は、受信された音声合成結果を用いて音声出力する。
Then, the synthesized
以上の実験において、音声認識の段階において、認識が成功した数は235で、失敗した数は65となった。そして、認識失敗した文をさらに類似文検索した結果、一番スコア(類似度)が良かったものが意図した文(検索成功)であった数は53で、意図しなかった文(検索失敗)であった数は12であった。 In the above experiment, the number of successful recognitions was 235 and the number of failures was 65 in the speech recognition stage. As a result of further similar sentence search of the sentence that failed to be recognized, the number of sentences with the highest score (similarity) that was the intended sentence (search success) was 53, and the sentence that was not intended (search failure) The number was 12.
つまり、「認識成功:235 (78.3%)、認識失敗:65 (21.7%)」、「検索成功:53、検索失敗:12」であった。 That is, “recognition success: 235 (78.3%), recognition failure: 65 (21.7%)”, “search success: 53, search failure: 12”.
つまり、認識成功文と検索成功文とを同時に提示してユーザに選択させることにより、発話した文が意図どおりに機械翻訳部127に渡る数は235+53=288(96.0%)になる。以上より、本実験において、音声翻訳としての精度を大幅に上げることができたことが分かる。 That is, by presenting the recognition success sentence and the search success sentence at the same time and allowing the user to select, the number of spoken sentences passed to the machine translation unit 127 as intended becomes 235 + 53 = 288 (96.0%). From the above, it can be seen that in this experiment, the accuracy of speech translation could be greatly improved.
以上、本実施の形態によれば、音を表す音素記号列を検索のキーとして、類似文の検索を行うことにより、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。 As described above, according to the present embodiment, it is possible to obtain a good translation result even when there is an error in the speech recognition result by performing a similar sentence search using a phoneme symbol string representing a sound as a search key. .
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における端末装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声、または前記音声受付部が受け付けた音声に関する1以上の特徴量である音声関連情報を取得する音声関連情報取得部と、前記音声関連情報を前記サーバ装置に送信する音声関連情報送信部と、前記サーバ装置から音声合成結果を受信する音声合成結果受信部と、前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラム、である。 Note that the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded and distributed on a recording medium such as a CD-ROM. This also applies to other embodiments in this specification. The software that realizes the terminal device in the present embodiment is the following program. In other words, this program causes the computer to acquire voice-related information that is a voice reception unit that receives voice and the voice received by the voice reception unit or one or more feature quantities related to the voice received by the voice reception unit. A related information acquisition unit; a speech related information transmission unit that transmits the speech related information to the server device; a speech synthesis result reception unit that receives a speech synthesis result from the server device; and a speech output using the speech synthesis result A program for functioning as a synthesized voice output unit.
また、上記プログラムにおいて、コンピュータを、前記サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、前記候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、前記サーバ装置に送信する候補文字列特定情報送信部としてさらに機能させることは好適である。 Moreover, in the above program, the computer causes the candidate character string receiving unit to receive two or more candidate character strings from the server device, and the candidate character to output the two or more candidate character strings received by the candidate character string receiving unit. A column output unit; an instruction receiving unit that receives an instruction for one candidate character string from among two or more candidate character strings output by the candidate character string output unit; and a candidate corresponding to the instruction received by the instruction receiving unit It is preferable to further function candidate character string specifying information for specifying a character string as a candidate character string specifying information transmitting unit that transmits the character string to the server device.
また、本実施の形態におけるサーバ装置を実現するソフトウェアは、以下のようなプログラムである。つまり、記憶媒体に、音素列と文字列とを有する2以上の固有表現情報を格納しており、コンピュータを、前記音声関連情報を受信する音声関連情報受信部と、前記音声関連情報を用いて、音声認識し、音素列を取得する音声認識部と、前記音声認識部が取得した音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得部と、前記類似音素列取得部が取得した音素列に対応する文字列である類似文字列を、前記記憶媒体から取得する類似文字列取得部と、前記類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、前記音声合成結果を前記端末装置に送信する音声合成結果送信部として機能させることは好適である。 Moreover, the software which implement | achieves the server apparatus in this Embodiment is the following programs. That is, the storage medium stores two or more pieces of unique expression information having a phoneme string and a character string, and the computer uses the voice related information receiving unit that receives the voice related information and the voice related information. A speech recognition unit that performs speech recognition and acquires a phoneme sequence, a similar phoneme sequence acquisition unit that acquires a phoneme sequence similar to the phoneme sequence acquired by the speech recognition unit from the storage medium, and the similar phoneme sequence acquisition unit Translates a similar character string that is a character string corresponding to the phoneme string acquired from the storage medium and a similar character string acquired by the similar character string acquisition unit, and acquires a translation result And a speech synthesis result transmitting unit for synthesizing the translation result acquired by the machine translation unit, acquiring the speech synthesis result, and transmitting the speech synthesis result to the terminal device. That It is suitable.
また、上記プログラムにおいて、前記音声認識部は、前記音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する1以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した1以上の音素列に対応する1以上の類似文字列を取得し、コンピュータを、前記音声認識部が取得した1以上の音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、前記2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部としてさらに機能させ、前記機械翻訳部は、前記候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとして、コンピュータを機能させることは好適である。 In the above program, the speech recognition unit recognizes speech using the speech related information, and outputs one or more phoneme strings and one or more speech recognition character strings that are one or more character strings that are speech recognition results. The similar phoneme sequence acquisition unit acquires one or more phoneme sequences similar to the phoneme sequence acquired by the speech recognition unit from the specific expression information storage unit, and the similar character string acquisition unit One or more similar character strings corresponding to one or more phoneme strings acquired by the phoneme string acquisition unit are acquired, and one or more speech recognition character strings acquired by the voice recognition unit and the similar character string acquisition unit are One candidate character string corresponding to the candidate character string transmitting unit that transmits the two or more candidate character strings that are the one or more similar character strings acquired to the terminal device and the transmission of the two or more candidate character strings Candidate characters that are information for identifying The specific information further functions as a candidate character string specifying information receiving unit that receives from the terminal device, and the machine translation unit translates a speech recognition character string or a similar character string corresponding to the candidate character string specifying information, and translates It is preferable to make a computer function as a result acquisition.
また、上記プログラムにおいて、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する2以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した2以上の音素列に対応する2以上の文字列である2以上の類似文字列を取得し、コンピュータを、前記類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、前記2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部としてさらに機能させ、前記機械翻訳部は、前記候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得するものとして、コンピュータを機能させることは好適である。 In the above program, the similar phoneme string acquisition unit acquires two or more phoneme strings similar to the phoneme string acquired by the speech recognition unit from the specific expression information storage unit, and the similar character string acquisition unit includes: , Two or more similar character strings that are two or more character strings corresponding to the two or more phoneme strings acquired by the similar phoneme string acquisition unit are acquired, and two or more similar character strings are acquired by the similar character string acquisition unit. A candidate character string transmitting unit that transmits two or more candidate character strings that are similar character strings to the terminal device, and information that identifies one candidate character string corresponding to the transmission of the two or more candidate character strings The candidate character string specifying information is further functioned as a candidate character string specifying information receiving unit that receives from the terminal device, the machine translation unit translates a similar character string corresponding to the candidate character string specifying information, and a translation result With what to get Te, it is preferred to cause a computer to function.
また、上記プログラムにおいて、コンピュータを、前記音声認識部が取得した文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部としてさらに機能させ、前記候補文字列送信部は、前記候補文字列を送信しないものとして、コンピュータを機能させることは好適である。
(実施の形態2)
In the above program, the computer compares the character string acquired by the voice recognition unit with one or more similar character strings acquired by the similar character string acquisition unit, and the character string acquired by the voice recognition unit The candidate character string transmission unit further functions as a control unit that determines whether or not a matching character string exists in one or more similar character strings acquired by the similar character string acquisition unit. It is preferable to make the computer function as not transmitting the sequence.
(Embodiment 2)
本実施の形態において、スタンドアロンの音声翻訳装置について説明する。本実施の形態における音声翻訳装置の機能は、実施の形態1の音声翻訳システム1の機能と同様である。
In this embodiment, a stand-alone speech translation apparatus will be described. The function of the speech translation apparatus in the present embodiment is the same as the function of the
図8は、本実施の形態における音声翻訳装置2のブロック図である。音声翻訳装置2は、固有表現情報格納部120、音声受付部111、音声認識部201、類似音素列取得部123、類似文字列取得部124、候補文字列出力部202、指示受付部116、機械翻訳部203、音声合成部128、合成音声出力部204、および制御部130を具備する。
FIG. 8 is a block diagram of the speech translation apparatus 2 in the present embodiment. The speech translation apparatus 2 includes a unique expression
音声認識部201は、音声受付部111が受け付けた音声を音声認識し、音素列を取得する。また、音声認識部201は、音声受付部111が受け付けた音声を音声認識し、音素列と音声認識文字列とを取得しても良い。また、音声認識部201は、音声受付部111が受け付けた音声に関する1以上の特徴量である音声関連情報を取得し、当該音声関連情報を用いて、音声認識し、1以上の音素列または、1以上の音素列と1以上の音声認識文字列とを取得しても良い。
The voice recognition unit 201 recognizes the voice received by the
候補文字列出力部202は、2以上の候補文字列を出力する。2以上の候補文字列は、通常、音声認識部201が取得した1以上の音声認識文字列および類似文字列取得部124が取得した1以上の類似文字列である。ただし、2以上の候補文字列は、類似文字列取得部124が取得した2以上の類似文字列であっても良い。
The candidate character
機械翻訳部203は、類似文字列取得部124が取得した類似文字列を翻訳し、翻訳結果を取得する。機械翻訳部203は、指示受付部116が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得しても良い。機械翻訳部203は、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得しても良い。
The
合成音声出力部204は、音声合成部128が取得した音声合成結果を用いて音声出力する。
The synthesized
音声認識部201、機械翻訳部203は、通常、MPUやメモリ等から実現され得る。音声認識部201等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The speech recognition unit 201 and the
合成音声出力部204は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。合成音声出力部204は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声翻訳装置2の動作について、図9のフローチャートを用いて説明する。図9のフローチャートにおいて、図3または図4のフローチャートと同一のステップの説明を省略する。なお、図9のフローチャートは、図3または図4のフローチャートと同様のステップにより構成されるので、説明を省略する。また、図9のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
The synthesized
Next, the operation of the speech translation apparatus 2 will be described using the flowchart of FIG. In the flowchart of FIG. 9, the description of the same steps as those in the flowchart of FIG. 3 or 4 is omitted. Note that the flowchart of FIG. 9 is configured by the same steps as the flowchart of FIG. 3 or FIG. In the flowchart of FIG. 9, the process is terminated by power-off or a process termination interrupt.
以下、本実施の形態における音声翻訳装置2の具体的な動作について説明する。 Hereinafter, a specific operation of the speech translation apparatus 2 in the present embodiment will be described.
本具体例では、実施の形態1における実験の環境と同じである。つまり、音声翻訳装置2の固有表現情報格納部120は、図6に示す固有表現管理表を保持している。また、固有表現情報が有する音素列の固有表現音素記号化手法は「Ximera」という手法を用いている。また、類似音素列取得部123が利用する類似度の算出のアルゴリズムは、BLEU(数式1)である。また、類似音素列取得部123が利用する所定の条件は「類似度が最大の音素列」である。
This specific example is the same as the environment of the experiment in the first embodiment. That is, the specific expression
例えば、ユーザが「雑誌売り場はどこですか」と、音声翻訳装置2に対して音声入力した。次に、音声翻訳装置2の音声受付部111は、音声を受け付ける。そして、音声認識部201は、受け付けられた音声に対して、音声認識処理を行う。そして、音声認識部201は、音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」と音声認識文字列「斬新売り場はどこですか」とを取得する。
For example, the user inputs a voice to the speech translation apparatus 2 “Where is the magazine store?” Next, the
次に、類似音素列取得部123は、取得された音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」に類似する1以上の音素列を、BLUEを用いて探索する。そして、類似音素列取得部123は、図6に示す固有表現管理表から類似音素列「z a q sh i u r i b a w a d o k o d e s u k a」取得する。
Next, the similar phoneme
次に、類似文字列取得部124は、取得された音素列「z a q sh i u r i b a w a d o k o d e s u k a」に対応する類似文字列「雑誌売り場はどこですか」を、固有表現管理表から取得する。
Next, the similar character
次に、制御部130は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを比較する。そして、制御部130は、両文字列が一致しない、と判断する。
Next, the
次に、候補文字列出力部202は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを用いて、2つの候補文字列を構成する。例えば、構成した候補文字列は「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」である。
Next, the candidate character
次に、候補文字列出力部202は、候補文字列を出力する。候補文字列の出力例を図7に示す。そして、図7に示すように、ユーザは、「雑誌売り場はどこですか」の文をチェックし、「送信」ボタンを押下した、とする。
Next, the candidate character
次に、指示受付部116は、出力された2つの候補文字列の中から、一の候補文字列「雑誌売り場はどこですか」の指示(ユーザによる指示)を受け付ける。
Next, the
次に、機械翻訳部203は、候補文字列特定情報「1」に対応する類似文字列「雑誌売り場はどこですか」を取得する。
Next, the
次に、機械翻訳部203は、取得した文字列「雑誌売り場はどこですか」を翻訳し、翻訳結果「Where is the magazine counter?」を取得する。
Next, the
次に、音声合成部128は、取得された翻訳結果「Where is the magazine counter?」を音声合成し、音声合成結果を取得する。
Next, the
そして、合成音声出力部204は、音声合成結果を用いて音声出力する。
The synthesized
以上、本実施の形態によれば、音を表す音素記号列を検索のキーとして、類似文の検索を行うことにより、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。 As described above, according to the present embodiment, it is possible to obtain a good translation result even when there is an error in the speech recognition result by performing a similar sentence search using a phoneme symbol string representing a sound as a search key. .
なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、音素列と文字列とを有する2以上の固有表現情報を格納しており、コンピュータを、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、前記音声認識部が取得した音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得部と、前記類似音素列取得部が取得した音素列に対応する文字列を取得する文字列取得部と、前記文字列取得部が取得した文字列を翻訳し、翻訳結果を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果を音声合成する音声合成部と、前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラムである。 Note that the software that implements the information processing apparatus according to the present embodiment is the following program. In other words, this program stores two or more unique expression information having a phoneme string and a character string in a storage medium, and the computer receives a voice receiving unit that receives voice and a voice received by the voice receiving unit. A speech recognition unit that performs speech recognition and acquires a phoneme sequence, a similar phoneme sequence acquisition unit that acquires a phoneme sequence similar to the phoneme sequence acquired by the speech recognition unit from the storage medium, and the similar phoneme sequence acquisition unit A character string acquisition unit that acquires a character string corresponding to the acquired phoneme string, a machine translation unit that translates the character string acquired by the character string acquisition unit and acquires a translation result, and a translation acquired by the machine translation unit A program for functioning as a speech synthesizer that synthesizes a result and a synthesized speech output unit that outputs speech using the speech synthesis result.
また、上記プログラムにおいて、前記音声認識部は、前記音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する1以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した1以上の音素列に対応する1以上の文字列である1以上の類似文字列を取得し、前記音声認識部が取得した1以上の音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、前記機械翻訳部は、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとしてコンピュータを機能させることは好適である。 In the above program, the speech recognition unit recognizes speech using the speech related information, and outputs one or more phoneme strings and one or more speech recognition character strings that are one or more character strings that are speech recognition results. The similar phoneme sequence acquisition unit acquires one or more phoneme sequences similar to the phoneme sequence acquired by the speech recognition unit from the specific expression information storage unit, and the similar character string acquisition unit One or more similar character strings that are one or more character strings corresponding to one or more phoneme strings acquired by the phoneme string acquisition unit, and the one or more speech recognition character strings and the similar characters acquired by the voice recognition unit A candidate character string output unit that outputs two or more candidate character strings that are one or more similar character strings acquired by the column acquisition unit, and one or more candidate character strings output by the candidate character string output unit, To accept instructions for candidate character strings The machine translation unit translates the speech recognition character string or the similar character string corresponding to the candidate character string specifying information for specifying the candidate character string corresponding to the instruction received by the instruction receiving unit. It is preferable to make the computer function as the one that obtains the translation result.
また、上記プログラムにおいて、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する2以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した2以上の音素列に対応する2以上の類似文字列を取得し、前記類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、前記機械翻訳部は、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとしてコンピュータを機能させることは好適である。 In the above program, the similar phoneme string acquisition unit acquires two or more phoneme strings similar to the phoneme string acquired by the speech recognition unit from the specific expression information storage unit, and the similar character string acquisition unit includes: , Two or more similar character strings corresponding to two or more phoneme strings acquired by the similar phoneme string acquisition unit, and two or more candidate characters that are two or more similar character strings acquired by the similar character string acquisition unit A candidate character string output unit for outputting a string; and an instruction receiving unit for receiving an instruction for one candidate character string from two or more candidate character strings output by the candidate character string output unit, The translation unit translates the speech recognition character string or the similar character string corresponding to the candidate character string specifying information for specifying the candidate character string corresponding to the instruction received by the instruction receiving unit, and acquires the translation result as a computer. Function Rukoto is preferred.
また、上記プログラムにおいて、コンピュータを、前記音声認識部が取得した文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部としてさらに機能させ、前記候補文字列出力部は、前記候補文字列を出力しないものとして、コンピュータを機能させることは好適である。 In the above program, the computer compares the character string acquired by the voice recognition unit with one or more similar character strings acquired by the similar character string acquisition unit, and the character string acquired by the voice recognition unit The candidate character string output unit further functions as a control unit that determines whether or not a matching character string exists in one or more similar character strings acquired by the similar character string acquisition unit. It is preferable to make the computer function as not outputting columns.
また、図10は、本明細書で述べたプログラムを実行して、上述した実施の形態の音声翻訳装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図10は、このコンピュータシステム340の概観図であり、図11は、コンピュータシステム340の内部構成を示す図である。
FIG. 10 shows the external appearance of a computer that executes the program described in this specification to realize the speech translation apparatus and the like of the above-described embodiment. The above-described embodiments can be realized by computer hardware and a computer program executed thereon. FIG. 10 is an overview diagram of the
図10において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344と、マイク345とを含む。
In FIG. 10, the
図11において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
In FIG. 11, in addition to the
コンピュータシステム340に、上述した実施の形態の音声翻訳装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
A program that causes the
プログラムは、コンピュータ341に、上述した実施の形態の音声翻訳装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、モデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。 In the above program, in a step of transmitting information, a step of receiving information, etc., processing performed by hardware, for example, processing performed by a modem or an interface card (processing performed only by hardware) is performed. Not included.
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes the program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。 Further, in each of the above embodiments, it goes without saying that two or more communication units existing in one apparatus may be physically realized by one medium.
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明にかかる音声翻訳システムは、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる、という効果を有し、音声翻訳システム等として有用である。 As described above, the speech translation system according to the present invention has an effect that a good translation result can be obtained even when the speech recognition result has an error, and is useful as a speech translation system or the like.
1 音声翻訳システム
2 音声翻訳装置
11 端末装置
12 サーバ装置
111 音声受付部
112 音声関連情報取得部
113 音声関連情報送信部
114 候補文字列受信部
115、202 候補文字列出力部
116 指示受付部
117 候補文字列特定情報送信部
118 音声合成結果受信部
119、204 合成音声出力部
120 固有表現情報格納部
121 音声関連情報受信部
122、201 音声認識部
123 類似音素列取得部
124 類似文字列取得部
125 候補文字列送信部
126 候補文字列特定情報受信部
127、203 機械翻訳部
128 音声合成部
129 音声合成結果送信部
130 制御部
DESCRIPTION OF
Claims (8)
前記端末装置は、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声、または前記音声受付部が受け付けた音声に関する1以上の特徴量である音声関連情報を取得する音声関連情報取得部と、
前記音声関連情報を前記サーバ装置に送信する音声関連情報送信部と、
前記サーバ装置から2以上の候補文字列を受信する候補文字列受信部と、
前記候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、
前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、前記サーバ装置に送信する候補文字列特定情報送信部と、
前記サーバ装置から音声合成結果を受信する音声合成結果受信部と、
前記音声合成結果を用いて音声出力する合成音声出力部とを具備し、
前記サーバ装置は、
音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、
前記音声関連情報を受信する音声関連情報受信部と、
前記音声関連情報を用いて、音声認識し、音素列および音声認識結果の文字列である音声認識文字列を取得する音声認識部と、
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している1以上の音素列を、前記固有表現情報格納部から取得する類似音素列取得部と、
前記類似音素列取得部が取得した1以上の音素列に対応する文字列である1以上の類似文字列を、前記固有表現情報格納部から取得する類似文字列取得部と、
前記音声認識部が取得した音声認識文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記1以上の類似文字列の中に存在するか否かを判断する制御部と、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、
前記2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部と、
前記候補文字列特定情報に対応する候補文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を前記端末装置に送信する音声合成結果送信部とを具備し、
前記候補文字列送信部は、
前記音声認識部が取得した音声認識文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在すると前記制御部が判断した場合、前記候補文字列を送信しない音声翻訳システム。 A speech translation system comprising a terminal device and a server device,
The terminal device
A voice reception unit for receiving voice;
A voice-related information acquisition unit that acquires voice-related information that is one or more feature quantities related to the voice received by the voice reception unit or the voice received by the voice reception unit;
A voice-related information transmitting unit that transmits the voice-related information to the server device;
A candidate character string receiving unit for receiving two or more candidate character strings from the server device;
A candidate character string output unit that outputs two or more candidate character strings received by the candidate character string receiver;
An instruction receiving unit for receiving an instruction for one candidate character string from among two or more candidate character strings output by the candidate character string output unit;
A candidate character string specifying information transmitting unit for transmitting candidate character string specifying information for specifying a candidate character string corresponding to the instruction received by the instruction receiving unit to the server device;
A speech synthesis result receiving unit for receiving a speech synthesis result from the server device;
A synthesized speech output unit that outputs speech using the speech synthesis result,
The server device
A unique expression information storage unit capable of storing two or more unique expression information having a phoneme string and a character string;
A voice related information receiving unit for receiving the voice related information;
A speech recognition unit that recognizes speech using the speech related information and obtains a speech recognition character string that is a phoneme sequence and a character string of a speech recognition result ;
The similarity between the phoneme sequence acquired by the speech recognition unit and the two or more phoneme sequences included in each of the two or more unique expression information stored in the specific expression information storage unit is calculated, and the similarity is a predetermined condition A similar phoneme string acquisition unit that acquires one or more phoneme strings that are similar to each other from the specific expression information storage unit;
A similar character string acquisition unit that acquires one or more similar character strings that are character strings corresponding to the one or more phoneme sequences acquired by the similar phoneme string acquisition unit;
The voice recognition character string acquired by the voice recognition unit is compared with one or more similar character strings acquired by the similar character string acquisition unit, and a character string that matches the voice recognition character string is the one or more similar characters. A control unit that determines whether or not it exists in the character string;
A candidate character string transmission unit that transmits to the terminal device two or more candidate character strings that are the voice recognition character string acquired by the voice recognition unit and the one or more similar character strings acquired by the similar character string acquisition unit;
In response to the transmission of the two or more candidate character strings, a candidate character string specifying information receiving unit that receives candidate character string specifying information that is information for specifying one candidate character string from the terminal device;
A machine translation unit that translates a candidate character string corresponding to the candidate character string specifying information and obtains a translation result;
A speech synthesizer that synthesizes a speech obtained by the machine translation unit and obtains a speech synthesis result; and
A speech synthesis result transmission unit for transmitting the speech synthesis result to the terminal device ;
The candidate character string transmitter is
When the control unit determines that a character string that matches the voice recognition character string acquired by the voice recognition unit exists in one or more similar character strings acquired by the similar character string acquisition unit, the candidate character string Do not send voice translation system.
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している2以上の音素列を、前記固有表現情報格納部から取得し、The similarity between the phoneme sequence acquired by the speech recognition unit and the two or more phoneme sequences included in each of the two or more unique expression information stored in the specific expression information storage unit is calculated, and the similarity is a predetermined condition Two or more phoneme strings that are similar to each other are acquired from the specific expression information storage unit,
前記類似文字列取得部は、The similar character string acquisition unit
前記類似音素列取得部が取得した2以上の音素列に対応する文字列である2以上の類似文字列を、前記固有表現情報格納部から取得し、Two or more similar character strings that are character strings corresponding to two or more phoneme strings acquired by the similar phoneme string acquisition unit are acquired from the specific expression information storage unit,
前記候補文字列送信部は、The candidate character string transmitter is
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した2以上の類似文字列である3以上の候補文字列を、前記端末装置に送信する請求項1記載の音声翻訳システム。The speech translation according to claim 1, wherein the speech recognition character string acquired by the speech recognition unit and three or more candidate character strings that are two or more similar character strings acquired by the similar character string acquisition unit are transmitted to the terminal device. system.
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を音声認識し、音素列および音声認識結果の文字列である音声認識文字列を取得する音声認識部と、
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している1以上の音素列を、前記固有表現情報格納部から取得する類似音素列取得部と、
前記類似音素列取得部が取得した1以上の音素列に対応する文字列である1以上の類似文字列を、前記固有表現情報格納部から取得する類似文字列取得部と、
前記音声認識部が取得した音声認識文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記1以上の類似文字列の中に存在するか否かを判断する制御部と、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、
前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
前記指示受付部が受け付けた指示に対応する一の候補文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を用いて音声出力する合成音声出力部とを具備し、
前記候補文字列出力部は、
前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在すると前記制御部が判断した場合、前記候補文字列を出力しない音声翻訳装置。 A unique expression information storage unit capable of storing two or more unique expression information having a phoneme string and a character string;
A voice reception unit for receiving voice;
A speech recognition unit that recognizes speech received by the speech reception unit and obtains a speech recognition character string that is a phoneme sequence and a character string of a speech recognition result ;
The similarity between the phoneme sequence acquired by the speech recognition unit and the two or more phoneme sequences included in each of the two or more unique expression information stored in the specific expression information storage unit is calculated, and the similarity is a predetermined condition A similar phoneme string acquisition unit that acquires one or more phoneme strings that are similar to each other from the specific expression information storage unit;
A similar character string acquisition unit that acquires one or more similar character strings that are character strings corresponding to the one or more phoneme sequences acquired by the similar phoneme string acquisition unit;
The voice recognition character string acquired by the voice recognition unit is compared with one or more similar character strings acquired by the similar character string acquisition unit, and a character string that matches the voice recognition character string is the one or more similar characters. A control unit that determines whether or not it exists in the character string;
A candidate character string output unit for outputting two or more candidate character strings that are the voice recognition character string acquired by the voice recognition unit and the one or more similar character strings acquired by the similar character string acquisition unit;
An instruction receiving unit for receiving an instruction for one candidate character string from among two or more candidate character strings output by the candidate character string output unit;
A machine translation unit that translates one candidate character string corresponding to the instruction received by the instruction reception unit and obtains a translation result;
A speech synthesizer that synthesizes a speech obtained by the machine translation unit and obtains a speech synthesis result; and
A synthesized speech output unit that outputs speech using the speech synthesis result ,
The candidate character string output unit includes:
When the control unit determines that a character string that matches the character string acquired by the voice recognition unit is present in one or more similar character strings acquired by the similar character string acquisition unit, the candidate character string is output. Not a speech translation device.
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している2以上の音素列を、前記固有表現情報格納部から取得し、The similarity between the phoneme sequence acquired by the speech recognition unit and the two or more phoneme sequences included in each of the two or more unique expression information stored in the specific expression information storage unit is calculated, and the similarity is a predetermined condition Two or more phoneme strings that are similar to each other are acquired from the specific expression information storage unit,
前記類似文字列取得部は、The similar character string acquisition unit
前記類似音素列取得部が取得した2以上の音素列に対応する文字列である2以上の類似文字列を、前記固有表現情報格納部から取得し、Two or more similar character strings that are character strings corresponding to two or more phoneme strings acquired by the similar phoneme string acquisition unit are acquired from the specific expression information storage unit,
前記候補文字列出力部は、The candidate character string output unit includes:
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した2以上の類似文字列である3以上の候補文字列を出力する請求項3記載の音声翻訳装置。The speech translation apparatus according to claim 3, wherein the speech recognition apparatus outputs the speech recognition character string acquired by the speech recognition unit and three or more candidate character strings that are two or more similar character strings acquired by the similar character string acquisition unit.
音素列と文字列とを有する2以上の固有表現情報を格納しており、
音声受付部、音声認識部、類似音素列取得部、類似文字列取得部、制御部、候補文字列出力部、指示受付部、機械翻訳部、音声合成部、および合成音声出力部により実現される音声翻訳方法であって、
前記音声受付部が、音声を受け付ける音声受付ステップと、
前記音声認識部が、前記音声受付ステップで受け付けられた音声を音声認識し、音素列および音声認識結果の文字列である音声認識文字列を取得する音声認識ステップと、
前記類似音素列取得部が、前記音声認識ステップで取得された音素列と前記記憶媒体に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している1以上の音素列を、前記記憶媒体から取得する類似音素列取得ステップと、
前記類似文字列取得部が、前記類似音素列取得ステップで取得された1以上の音素列に対応する文字列である1以上の類似文字列を、前記記憶媒体から取得する類似文字列取得ステップと、
前記制御部が、前記音声認識ステップで取得された音声認識文字列と前記類似文字列取得ステップで取得された1以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記1以上の類似文字列の中に存在するか否かを判断する制御ステップと、
前記候補文字列出力部が、前記音声認識ステップで取得された音声認識文字列および前記類似文字列取得ステップで取得された1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力ステップと、
前記指示受付部が、前記候補文字列出力ステップで出力された2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付ステップと、
前記機械翻訳部が、前記指示受付ステップで受け付けられた指示に対応する一の候補文字列を翻訳し、翻訳結果を取得する機械翻訳ステップと、
前記音声合成部が、前記機械翻訳ステップで取得された翻訳結果を音声合成し、音声合成結果を取得する音声合成ステップと、
前記合成音声出力部が、前記音声合成結果を用いて音声出力する合成音声出力ステップとを具備し、
前記候補文字列出力ステップにおいて、
前記音声認識ステップで取得された文字列と一致する文字列が、前記類似文字列取得ステップで取得された1以上の類似文字列の中に存在すると前記制御ステップで判断された場合、前記候補文字列を出力しない音声翻訳方法。 On the storage medium,
Two or more unique expression information having a phoneme string and a character string is stored,
Realized by a speech reception unit, a speech recognition unit, a similar phoneme string acquisition unit, a similar character string acquisition unit, a control unit, a candidate character string output unit, an instruction reception unit, a machine translation unit, a speech synthesis unit, and a synthesized speech output unit A speech translation method,
A voice receiving step in which the voice receiving unit receives voice;
A voice recognition step in which the voice recognition unit recognizes the voice received in the voice reception step, and acquires a phoneme string and a voice recognition character string that is a character string of a voice recognition result ;
The similar phoneme sequence acquisition unit calculates a similarity between the phoneme sequence acquired in the speech recognition step and two or more phoneme sequences included in each of the two or more unique representation information stored in the storage medium, A similar phoneme string acquisition step of acquiring from the storage medium one or more phoneme strings that are similar to each other such that the degree of similarity satisfies a predetermined condition ;
The similar character string obtaining section, one or more similar string is a character string corresponding to one or more phoneme string obtained by the similar phoneme string obtaining step, a similar character string obtaining step for obtaining from said storage medium ,
The control unit compares the voice recognition character string acquired in the voice recognition step with one or more similar character strings acquired in the similar character string acquisition step, and matches the voice recognition character string. Is a control step for determining whether or not exists in the one or more similar character strings;
Candidate characters that the candidate character string output unit outputs two or more candidate character strings that are the voice recognition character string acquired in the voice recognition step and one or more similar character strings acquired in the similar character string acquisition step A column output step;
An instruction receiving step in which the instruction receiving unit receives an instruction of one candidate character string from two or more candidate character strings output in the candidate character string output step;
The machine translation unit translates one candidate character string corresponding to the instruction received in the instruction reception step, and obtains a translation result; and
The speech synthesizer speech synthesizes the translation result obtained in the machine translation step, and obtains the speech synthesis result;
The synthesized speech output unit comprises a synthesized speech output step for outputting speech using the speech synthesis result ,
In the candidate character string output step,
If it is determined in the control step that the character string that matches the character string acquired in the voice recognition step exists in one or more similar character strings acquired in the similar character string acquisition step, the candidate character A speech translation method that does not output columns .
前記音声認識ステップで取得された音素列と前記記憶媒体に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している2以上の音素列を、前記記憶媒体から取得し、A similarity between the phoneme string acquired in the speech recognition step and two or more phoneme strings included in each of the two or more unique expression information stored in the storage medium is calculated, and the similarity satisfies a predetermined condition Two or more phoneme strings that are similar to each other are acquired from the storage medium,
前記類似文字列取得ステップにおいて、In the similar character string acquisition step,
前記類似音素列取得ステップで取得された2以上の音素列に対応する文字列である2以上の類似文字列を、前記記憶媒体から取得し、Acquiring two or more similar character strings that are character strings corresponding to two or more phoneme strings acquired in the similar phoneme string acquiring step from the storage medium;
前記候補文字列出力ステップにおいて、In the candidate character string output step,
前記音声認識ステップで取得された音声認識文字列および前記類似文字列取得ステップで取得された2以上の類似文字列である3以上の候補文字列を出力する請求項5記載の音声翻訳方法。6. The speech translation method according to claim 5, wherein three or more candidate character strings that are the voice recognition character string acquired in the voice recognition step and the two or more similar character strings acquired in the similar character string acquisition step are output.
音素列と文字列とを有する2以上の固有表現情報を格納しており、
コンピュータを、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、
前記音声認識部が取得した音素列と前記記憶媒体に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している1以上の音素列を、前記記憶媒体から取得する類似音素列取得部と、
前記類似音素列取得部が取得した1以上の音素列に対応する文字列である1以上の類似文字列を、前記記憶媒体から取得する類似文字列取得部と、
前記音声認識部が取得した音声認識文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記1以上の類似文字列の中に存在するか否かを判断する制御部と、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、
前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
前記指示受付部が受け付けた指示に対応する一の候補文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラムであって、
前記候補文字列出力部は、
前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在すると前記制御部が判断した場合、前記候補文字列を出力しないものとして、コンピュータ機能させるためのプログラム。 On the storage medium,
Two or more unique expression information having a phoneme string and a character string is stored,
Computer
A voice reception unit for receiving voice;
A speech recognition unit that recognizes speech received by the speech reception unit and acquires a phoneme sequence;
The degree of similarity between the phoneme sequence acquired by the speech recognition unit and two or more phoneme sequences included in each of the two or more unique representation information stored in the storage medium is calculated, and the degree of similarity satisfies a predetermined condition. A similar phoneme string acquisition unit that acquires one or more similar phoneme strings from the storage medium;
A similar character string acquisition unit that acquires, from the storage medium, one or more similar character strings that are character strings corresponding to the one or more phoneme strings acquired by the similar phoneme string acquisition unit;
The voice recognition character string acquired by the voice recognition unit is compared with one or more similar character strings acquired by the similar character string acquisition unit, and a character string that matches the voice recognition character string is the one or more similar characters. A control unit that determines whether or not it exists in the character string;
A candidate character string output unit for outputting two or more candidate character strings that are the voice recognition character string acquired by the voice recognition unit and the one or more similar character strings acquired by the similar character string acquisition unit;
An instruction receiving unit for receiving an instruction for one candidate character string from among two or more candidate character strings output by the candidate character string output unit;
A machine translation unit that translates one candidate character string corresponding to the instruction received by the instruction reception unit and obtains a translation result;
A speech synthesizer that synthesizes a speech obtained by the machine translation unit and obtains a speech synthesis result ; and
A program for functioning as a synthesized speech output unit that outputs speech using the speech synthesis result ,
The candidate character string output unit includes:
When the control unit determines that a character string that matches the character string acquired by the voice recognition unit is present in one or more similar character strings acquired by the similar character string acquisition unit, the candidate character string is output. A program that allows a computer to function as if not .
前記音声認識部が取得した音素列と前記記憶媒体に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している2以上の音素列を、前記記憶媒体から取得し、The degree of similarity between the phoneme sequence acquired by the speech recognition unit and two or more phoneme sequences included in each of the two or more unique representation information stored in the storage medium is calculated, and the degree of similarity satisfies a predetermined condition. Obtaining two or more similar phoneme strings from the storage medium;
前記類似文字列取得部は、The similar character string acquisition unit
前記類似音素列取得部が取得した2以上の音素列に対応する文字列である2以上の類似文字列を、前記記憶媒体から取得し、Obtaining two or more similar character strings, which are character strings corresponding to the two or more phoneme strings obtained by the similar phoneme string obtaining unit, from the storage medium;
前記候補文字列出力部は、The candidate character string output unit includes:
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した2以上の類似文字列である3以上の候補文字列を出力するものとして、コンピュータを機能させるための請求項7記載のプログラム。8. The computer for functioning as a voice recognition character string acquired by the voice recognition unit and three or more candidate character strings that are two or more similar character strings acquired by the similar character string acquisition unit. The program described.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010217559A JP5704686B2 (en) | 2010-09-28 | 2010-09-28 | Speech translation system, speech translation device, speech translation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010217559A JP5704686B2 (en) | 2010-09-28 | 2010-09-28 | Speech translation system, speech translation device, speech translation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012073369A JP2012073369A (en) | 2012-04-12 |
JP5704686B2 true JP5704686B2 (en) | 2015-04-22 |
Family
ID=46169614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010217559A Active JP5704686B2 (en) | 2010-09-28 | 2010-09-28 | Speech translation system, speech translation device, speech translation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5704686B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015052745A (en) * | 2013-09-09 | 2015-03-19 | Necパーソナルコンピュータ株式会社 | Information processor, control method and program |
JP2015052743A (en) * | 2013-09-09 | 2015-03-19 | Necパーソナルコンピュータ株式会社 | Information processor, method of controlling information processor and program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031385A (en) * | 2004-07-15 | 2006-02-02 | Nec Corp | Retrieval system by voice input and method and program |
JP4559946B2 (en) * | 2005-09-29 | 2010-10-13 | 株式会社東芝 | Input device, input method, and input program |
JP4393494B2 (en) * | 2006-09-22 | 2010-01-06 | 株式会社東芝 | Machine translation apparatus, machine translation method, and machine translation program |
JP4271224B2 (en) * | 2006-09-27 | 2009-06-03 | 株式会社東芝 | Speech translation apparatus, speech translation method, speech translation program and system |
JP2008243080A (en) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | Device, method, and program for translating voice |
US8478578B2 (en) * | 2008-01-09 | 2013-07-02 | Fluential, Llc | Mobile speech-to-speech interpretation system |
-
2010
- 2010-09-28 JP JP2010217559A patent/JP5704686B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012073369A (en) | 2012-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5598998B2 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
US7552045B2 (en) | Method, apparatus and computer program product for providing flexible text based language identification | |
TWI506982B (en) | Voice chat system, information processing apparatus, speech recognition method, keyword detection method, and recording medium | |
US20080126093A1 (en) | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System | |
JP6327848B2 (en) | Communication support apparatus, communication support method and program | |
KR20090130028A (en) | Method and apparatus for distributed voice searching | |
US20120221321A1 (en) | Speech translation system, control device, and control method | |
US8131550B2 (en) | Method, apparatus and computer program product for providing improved voice conversion | |
GB2557714A (en) | Determining phonetic relationships | |
JP6150268B2 (en) | Word registration apparatus and computer program therefor | |
JP4987682B2 (en) | Voice chat system, information processing apparatus, voice recognition method and program | |
KR20090111825A (en) | Method and apparatus for language independent voice indexing and searching | |
US20120166176A1 (en) | Speech translation system, dictionary server, and program | |
KR20080040960A (en) | Automatic speech translation method and apparatus based on corresponding sentence pattern | |
JPWO2016147342A1 (en) | Information provision system | |
JP2018045001A (en) | Voice recognition system, information processing apparatus, program, and voice recognition method | |
US7181397B2 (en) | Speech dialog method and system | |
EP3241123B1 (en) | Voice recognition-based dialing | |
JP5704686B2 (en) | Speech translation system, speech translation device, speech translation method, and program | |
US20200243092A1 (en) | Information processing device, information processing system, and computer program product | |
CN112614482A (en) | Mobile terminal foreign language translation method, system and storage medium | |
JP2012003090A (en) | Speech recognizer and speech recognition method | |
JP2010186339A (en) | Device, method, and program for interpretation | |
CN114586021B (en) | Information output device, information output method, and recording medium | |
CN117059076A (en) | Dialect voice recognition method, device, equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130808 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5704686 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |