JP7429107B2 - Speech translation device, speech translation method and its program - Google Patents
Speech translation device, speech translation method and its program Download PDFInfo
- Publication number
- JP7429107B2 JP7429107B2 JP2019196078A JP2019196078A JP7429107B2 JP 7429107 B2 JP7429107 B2 JP 7429107B2 JP 2019196078 A JP2019196078 A JP 2019196078A JP 2019196078 A JP2019196078 A JP 2019196078A JP 7429107 B2 JP7429107 B2 JP 7429107B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- voice
- language
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 366
- 238000000034 method Methods 0.000 title claims description 55
- 238000012545 processing Methods 0.000 claims description 49
- 238000001514 detection method Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 description 30
- 230000000694 effects Effects 0.000 description 18
- 230000004048 modification Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 12
- 238000005265 energy consumption Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本開示は、音声翻訳装置、音声翻訳方法及び音声翻訳方法を用いたプログラムに関する。 The present disclosure relates to a speech translation device, a speech translation method, and a program using the speech translation method.
例えば特許文献1には、第1言語話者及び第1言語話者の会話相手である第2言語話者が発する音声を音声データに変換して出力する音声入力部と、第1言語話者が音声を発している間に入力される入力スイッチであって、第1言語話者が音声を発していない間も入力される入力スイッチと、入力された音声データを翻訳した翻訳結果を音声に変換して出力する音声出力部とを備える通訳システムが開示されている。
For example,
しかしながら、特許文献1に開示される技術では、第1話者及び第2話者が会話する際に、第1話者及び第2話者のそれぞれの発話に際し、発話の度に入力スイッチを操作する必要があり、操作が煩わしくなる。第1話者及び第2話者が会話する際に、度々、入力スイッチを操作することとなるため、通訳システムの使用頻度及び使用期間が増大してしまう。
However, in the technology disclosed in
また、第1話者及び第2話者が互いに通訳システムを操作する場合、通訳システムの非所有者は、通常、通訳システムの操作方法を理解していない。このため、通訳システムの操作に手間取ることとなるため、通訳システムの使用期間の増大に拍車がかかる。その結果、従来の通訳システムでは、使用期間の増大によるエネルギーを費やすこととなってしまうという課題がある。 Furthermore, when the first speaker and the second speaker mutually operate the interpretation system, non-owners of the interpretation system usually do not understand how to operate the interpretation system. Therefore, it takes time to operate the interpretation system, which accelerates the length of time the interpretation system is used. As a result, conventional interpretation systems have the problem of consuming energy due to an increase in the period of use.
そこで、本開示は、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる音声翻訳装置、音声翻訳方法及びそのプログラムを提供することを目的とする。 Therefore, an object of the present disclosure is to provide a speech translation device, a speech translation method, and a program therefor, which can suppress an increase in energy consumption of the speech translation device by simplifying the operation.
本開示の一態様に係る音声翻訳装置は、第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置であって、音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出する音声検出部と、前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部と、前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力する発話指示部とを備える。 A speech translation device according to an aspect of the present disclosure includes a first speaker who speaks in a first language, and a second speaker who is a conversation partner of the first speaker and who speaks in a second language different from the first language. A voice translation device for having a conversation with a person, the voice detection unit detecting a voice section uttered by the first speaker and the second speaker from the sounds input to the voice input unit; By performing voice recognition on the voice in the voice section detected by the voice detection unit, displaying a translation result translated from the first language indicated by the voice into the second language, and displaying the result of translation from the second language to the first language. A display unit that displays the translation result translated into a language, and content that prompts the second speaker to speak after the first speaker speaks, after displaying the translation result, or at the same time, through the display unit, After displaying the translation result via the display unit, or at the same time, the first speaker outputs content in the second language and prompts the first speaker to speak after the second speaker speaks. and a speech instruction unit that outputs in language.
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。 Note that some specific aspects of these may be realized using a system, a method, an integrated circuit, a computer program, or a computer-readable recording medium such as a CD-ROM. It may be implemented using any combination of integrated circuits, computer programs, and storage media.
本開示の音声翻訳装置等によれば、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる。 According to the speech translation device and the like of the present disclosure, by simplifying the operation, it is possible to suppress an increase in energy consumption of the speech translation device.
本開示の一態様に係る音声翻訳装置は、第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置であって、音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出する音声検出部と、前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部と、前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力する発話指示部とを備える。 A speech translation device according to an aspect of the present disclosure includes a first speaker who speaks in a first language, and a second speaker who is a conversation partner of the first speaker and who speaks in a second language different from the first language. A voice translation device for having a conversation with a person, the voice detection unit detecting a voice section uttered by the first speaker and the second speaker from the sounds input to the voice input unit; By performing voice recognition on the voice in the voice section detected by the voice detection unit, displaying a translation result translated from the first language indicated by the voice into the second language, and displaying the result of translation from the second language to the first language. a display unit that displays a translation result translated into a language; and a display unit that outputs, in the second language, content that prompts the second speaker to speak after the first speaker speaks, through the display unit, and and a speech instruction section that outputs, in the first language, via the display section, content that prompts the first speaker to speak after the second speaker has uttered the speech.
これによれば、第1話者と第2話者との会話から、それぞれの音声区間を検出することで、検出した音声を第1言語から第2言語に翻訳した翻訳結果を取得したり、検出した音声を第2言語から前記第1言語に翻訳した翻訳結果を取得したりすることができる。つまり、この音声翻訳装置では、翻訳をするための入力操作をしなくても、第1話者と第2話者とのそれぞれの発話ごとに、自動的に検出した音声の言語を別の言語に翻訳することができる。 According to this, by detecting each speech interval from a conversation between a first speaker and a second speaker, a translation result of the detected speech from the first language to the second language can be obtained, It is also possible to obtain a translation result obtained by translating the detected voice from the second language to the first language. In other words, this speech translation device automatically converts the language of the detected speech into a different language for each utterance by the first speaker and the second speaker, without any input operations for translation. can be translated into
また、音声翻訳装置は、第1話者が発話した後に第2話者に発話を促す内容を出力したり、第2話者が発話した後に第1話者に発話を促す内容を出力したりすることができる。これにより、この音声翻訳装置では、第1話者と第2話者とのそれぞれの発話ごとに、発話開始の入力操作をしなくても、第1話者と第2話者とが発話をするタイミングを認識することができる。 In addition, the speech translation device outputs content that prompts the second speaker to speak after the first speaker speaks, or outputs content that prompts the first speaker to speak after the second speaker speaks. can do. As a result, with this speech translation device, the first speaker and the second speaker can communicate without having to perform an input operation to start each utterance. be able to recognize when to do so.
これらのように、音声翻訳装置では、発話を開始するための入力操作、言語切替をするための入力操作等をしなくてもよく、操作性に優れている。つまりこの音声翻訳装置の操作に手間取り難いため、使用期間の増大を抑制することができる。 As described above, the speech translation device does not require input operations to start speaking, input operations to switch languages, etc., and is excellent in operability. In other words, since the operation of this speech translation device does not take much time, it is possible to suppress an increase in the period of use.
したがって、音声翻訳装置では、操作を簡易にすることで、音声翻訳装置のエネルギー消費の増大を抑制することができる。 Therefore, by simplifying the operation of the speech translation device, it is possible to suppress an increase in energy consumption of the speech translation device.
特に、この音声翻訳装置では、操作を簡易にすることができるため、誤操作を抑制することもできる。 In particular, since this speech translation device can be operated easily, it is also possible to suppress erroneous operations.
本開示の他の態様に係る音声翻訳方法は、第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳方法であって、音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出することと、検出した音声区間の音声を音声認識することで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部が表示することと、前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力することとを含む。 A speech translation method according to another aspect of the present disclosure includes a first speaker who speaks in a first language, and a second speaker who is a conversation partner of the first speaker and who speaks in a second language different from the first language. A voice translation method for having a conversation with a speaker, the method comprising: detecting a voice section uttered by the first speaker and the second speaker from sounds input to a voice input section; By performing voice recognition on the voice in the voice section, displaying the translation result translated from the first language indicated by the voice into the second language, and displaying the translation result translated from the second language into the first language. outputting, in the second language via the display unit, content that the display unit displays and prompts the second speaker to speak after the first speaker speaks; and outputting content for prompting the first speaker to speak in the first language via the display unit after the speaker speaks.
この音声翻訳方法においても、上述の音声翻訳装置と同様の作用効果を奏する。 This speech translation method also provides the same effects as the above-mentioned speech translation device.
また、本開示の他の態様に係るプログラムは、音声翻訳方法をコンピュータに実行させるためのプログラムである。 Further, a program according to another aspect of the present disclosure is a program for causing a computer to execute a speech translation method.
このプログラムにおいても、上述の音声翻訳装置と同様の作用効果を奏する。 This program also has the same effects as the above-mentioned speech translation device.
本開示の他の態様に係る音声翻訳装置は、さらに、前記第1話者又は前記第2話者が発話して音声認識された場合、再度、当該発話した前記第1話者又は前記第2話者の発話を、優先して音声認識する優先発話入力部を備える。 The speech translation device according to another aspect of the present disclosure further provides that, when the first speaker or the second speaker utters and the speech is recognized, the first speaker or the second speaker who uttered the utterance again A priority utterance input unit is provided that prioritizes and recognizes the utterances of the speaker.
これによれば、例えば第1話者及び第2話者である話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合等、優先発話入力部を操作することで、発話した話者が優先されるため、発話した当該話者は、再度、発話をする機会を得ることができる(言い直すことができる)。このため、優先発話入力部は、第1話者及び第2話者の一方の話者が発話した音声を音声認識し終えた後、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。これにより、音声翻訳装置は、第1話者及び第2話者の音声を確実に取得することができるため、当該音声に基づいて翻訳された翻訳結果を出力することができる。 According to this, for example, when the first and second speakers make a mistake in saying something, or when a voice that they hesitate to say is translated midway through, by operating the priority speech input section, the utterance can be corrected. Since priority is given to the speaker, the speaker who has uttered the utterance can have an opportunity to utter the utterance again (can rephrase the utterance). For this reason, after the priority speech input unit finishes recognizing the voice uttered by one of the first speaker and the second speaker, it shifts to the process for recognizing the voice of the other speaker. Even if one speaker speaks, the voice uttered by one speaker can be returned to the voice recognition process. Thereby, the speech translation device can reliably acquire the voices of the first speaker and the second speaker, and therefore can output a translation result translated based on the voices.
本開示の他の態様に係る音声翻訳装置は、さらに、前記第1話者と前記第2話者とが会話する音声が入力される音声入力部と、前記音声検出部が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部と、前記音声認識部が変換した前記テキスト文を前記第1言語から前記第2言語に翻訳し、かつ、前記第2言語から前記第1言語に翻訳する翻訳部と、前記翻訳部が翻訳した結果を音声によって出力する音声出力部とを備える。 The speech translation device according to another aspect of the present disclosure further includes a speech input section into which the speech of conversation between the first speaker and the second speaker is input, and a speech section detected by the speech detection section. a speech recognition unit that converts speech into a text sentence by speech recognition; a speech recognition unit that converts the text sentence converted by the speech recognition unit from the first language to the second language; It includes a translation unit that translates into a first language, and a voice output unit that outputs the result translated by the translation unit as a voice.
これによれば、入力される音声を音声認識してから、当該音声の言語を別の言語に翻訳することができる。つまり、音声翻訳装置は、第1話者と第2話者とが会話する音声の取得から、音声を翻訳した結果を出力するまでの処理を行うことができる。このため、音声翻訳装置は、外部サーバと通信しなくても、第1話者と第2話者とが会話するそれぞれの音声を相互に翻訳することができる。音声翻訳装置が外部サーバと通信し難い環境下においても適用することができる。 According to this, it is possible to perform speech recognition on input speech and then translate the language of the speech into another language. In other words, the speech translation device can perform processing from obtaining the speech of a conversation between the first speaker and the second speaker to outputting the result of translating the speech. Therefore, the speech translation device can mutually translate the voices of the first speaker and the second speaker, without communicating with an external server. It can be applied even in environments where it is difficult for the speech translation device to communicate with an external server.
本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、取得する信号を、前記第1ビームフォーマ部の出力信号、又は、前記第2ビームフォーマ部の出力信号に切換える入力切換部と、複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部とを備え、前記発話指示部は、前記入力切換部に、前記第1ビームフォーマ部の出力信号を取得するか、前記第2ビームフォーマ部の出力信号を取得するかを切換えさせる。 In the speech translation device according to another aspect of the present disclosure, a plurality of the speech input sections are provided, and further performs signal processing on speech input to at least some of the plurality of speech input sections. The first beam former unit controls the directivity of sound collection in the direction of the sound source of the voice of the first speaker, and the voice input to at least some of the voice input units of the plurality of voice input units. a second beamformer section that controls the directivity of sound collection in the direction of the sound source of the voice of the second speaker by signal processing; and the output signal of the first beamformer section, or an input switching unit that switches to an output signal of the second beamformer unit; and a sound source direction estimation unit that estimates a sound source direction by signal processing the audio input to the plurality of audio input units; The unit causes the input switching unit to switch between acquiring the output signal of the first beamformer unit and acquiring the output signal of the second beamformer unit.
これによれば、音源方向推定部によって、音声翻訳装置に対する相対的な話者の方向を推定することができる。このため、入力切換部は、話者の方向に適した第1ビームフォーマ部の出力信号及び第2ビームフォーマ部の出力信号のいずれかに切換えることができる。つまり、音源方向にビームフォーマ部の収音の指向性を向けることができるため、音声翻訳装置では、第1話者及び第2話者の音声について、周囲ノイズを低減して収音することができる。 According to this, the direction of the speaker relative to the speech translation device can be estimated by the sound source direction estimation section. Therefore, the input switching section can switch to either the output signal of the first beamformer section or the output signal of the second beamformer section suitable for the direction of the speaker. In other words, since the directionality of the sound collection of the beamformer unit can be directed toward the sound source, the speech translation device can collect the sounds of the first speaker and the second speaker while reducing ambient noise. can.
本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部と、当該音声翻訳装置に対する前記第1話者の位置に対応する前記表示部の表示領域に前記第1言語を表示させ、当該音声翻訳装置に対する前記第2話者の位置に対応する前記表示部の表示領域に前記第2言語を表示させる制御部とを備え、前記制御部は、当該音声翻訳装置の表示部から前記第1話者又は前記第2話者に向かう表示方向であって、前記表示部のいずれかの表示領域に表示する側の表示方向と、前記音源方向推定部が推定した音源方向とを比較し、前記表示方向と推定した音源方向とが実質的に一致する場合、前記音声認識部及び前記翻訳部を実行させ、前記表示方向と推定した音源方向とが異なる場合、前記音声認識部及び前記翻訳部を停止させる。 In the speech translation device according to another aspect of the present disclosure, a plurality of the speech input sections are provided, and the sound source direction is further configured to estimate a sound source direction by signal processing the speech inputted to the plurality of speech input sections. an estimation unit; displaying the first language in a display area of the display unit corresponding to the position of the first speaker with respect to the speech translation device; and displaying the first language in a display area of the display unit corresponding to the position of the second speaker with respect to the speech translation device; a control unit that displays the second language in a display area of a display unit, the control unit configured to display the second language in a display direction from the display unit of the speech translation device toward the first speaker or the second speaker; , when the display direction displayed in any display area of the display section and the sound source direction estimated by the sound source direction estimation section are compared, and the display direction and the estimated sound source direction substantially match; , the speech recognition section and the translation section are executed, and when the display direction and the estimated sound source direction are different, the speech recognition section and the translation section are stopped.
これによれば、表示部の表示領域に表示された言語の表示方向と、話者の発話による音声の音源方向とが実質的に一致する場合、話者が第1言語で発話する第1話者か第2言語で発話する第2話者かを特定することができる。この場合、第1話者の音声を第1言語で音声認識することができ、第2話者の音声を第2言語で音声認識することができる。また、表示方向と音源方向とが異なる場合、入力された音声の翻訳を停止することで、入力された音声が翻訳されない又は誤翻訳されてしまうことを抑制することができる。 According to this, when the display direction of the language displayed in the display area of the display unit and the sound source direction of the sound uttered by the speaker substantially match, the first episode uttered by the speaker in the first language It is possible to identify whether the user is speaking in the second language or the second speaker speaking in the second language. In this case, the first speaker's voice can be recognized in the first language, and the second speaker's voice can be recognized in the second language. Further, when the display direction and the sound source direction are different, by stopping the translation of the input voice, it is possible to prevent the input voice from not being translated or being mistranslated.
これにより、音声翻訳装置は、第1言語の音声及び第2言語の音声を確実に音声認識することができるため、確実に音声を翻訳することができる。その結果、この音声翻訳装置では、誤翻訳等を抑制することで音声翻訳装置の処理量の増大を抑制することができる。 Thereby, the voice translation device can reliably recognize the first language voice and the second language voice, and therefore can reliably translate the voice. As a result, this speech translation device can suppress an increase in the processing amount of the speech translation device by suppressing mistranslations and the like.
本開示の他の態様に係る音声翻訳装置において、前記制御部が前記音声認識部及び前記翻訳部を停止させる場合、前記発話指示部は、再度、指示した言語による発話を促す内容を出力する。 In the speech translation device according to another aspect of the present disclosure, when the control section stops the speech recognition section and the translation section, the speech instruction section outputs content encouraging speech in the instructed language again.
これによれば、表示方向と音源方向とが異なる場合でも、発話指示部が再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置は、対象となる話者の音声を確実に取得することができるため、より確実に音声を翻訳することができる。 According to this, even if the display direction and the sound source direction are different, the speech instruction section outputs the content encouraging speech again, so that the target speaker speaks. Therefore, the speech translation device can reliably acquire the speech of the target speaker, and therefore can translate the speech more reliably.
本開示の他の態様に係る音声翻訳装置において、前記表示方向と推定した音源方向とが異なる場合、前記発話指示部は、前記制御部が比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する。 In the speech translation device according to another aspect of the present disclosure, when the display direction and the estimated sound source direction are different, the speech instruction section again performs the speech instruction after a predetermined period has elapsed since the control section made the comparison. Outputs content that encourages speaking in the specified language.
これによれば、表示方向と音源方向との比較をしてから規定期間を空けることで、第1話者と第2話者との音声が混在して入力されることを抑制することができる。これにより、規定期間経過後、再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置は、対象となる話者の音声をより確実に取得することができるため、より確実に音声を翻訳することができる。 According to this, by leaving a specified period after comparing the display direction and the sound source direction, it is possible to suppress the voices of the first speaker and the second speaker from being input together. . As a result, after the predetermined period of time has elapsed, the target speaker speaks by outputting the content encouraging him to speak again. Therefore, the speech translation device can more reliably acquire the speech of the target speaker, and therefore can translate the speech more reliably.
本開示の他の態様に係る音声翻訳装置において、前記音声入力部は、複数設けられ、さらに、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、前記第1ビームフォーマ部の出力信号、及び、前記第2ビームフォーマ部の出力信号を信号処理することにより、音源方向を推定する音源方向推定部とを備える。 In the speech translation device according to another aspect of the present disclosure, a plurality of the speech input sections are provided, and further performs signal processing on speech input to at least some of the plurality of speech input sections. The first beam former unit controls the directivity of sound collection in the direction of the sound source of the voice of the first speaker, and the voice input to at least some of the voice input units of the plurality of voice input units. a second beamformer unit that controls the directivity of sound collection in the direction of the sound source of the voice by the second speaker by signal processing the output signal of the first beamformer unit; and a sound source direction estimation section that estimates the direction of the sound source by signal processing the output signal of the section.
これによれば、音源方向推定部によって、音声翻訳装置に対する相対的な話者の方向を推定することができる。このため、音源方向推定部は、話者の方向に適した第1ビームフォーマ部の出力信号及び第2ビームフォーマ部の出力信号を信号処理するため、信号処理による演算コストを低下させることができる。 According to this, the direction of the speaker relative to the speech translation device can be estimated by the sound source direction estimation section. Therefore, the sound source direction estimation section processes the output signal of the first beamformer section and the output signal of the second beamformer section suitable for the direction of the speaker, so that the calculation cost due to signal processing can be reduced. .
本開示の他の態様に係る音声翻訳装置において、前記発話指示部は、当該音声翻訳装置の起動時に、前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力し、前記第1話者の発話による音声が前記第1言語から前記第2言語に翻訳されて、前記表示部に翻訳結果が表示された後に、前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力する。 In the speech translation device according to another aspect of the present disclosure, the speech instruction section may display content prompting the first speaker to speak in the first language via the display section when the speech translation device is activated. output, and after the voice uttered by the first speaker is translated from the first language to the second language and the translation result is displayed on the display unit, content that prompts the second speaker to speak. , output in the second language via the display section.
これによれば、第1言語で第1話者が発話した後に、第2言語で第2話者が発話することを予め登録しておけば、音声翻訳装置の起動時に、第1話者に発話を促す内容を第1言語により出力すれば、第1話者は、発話を開始することができる。このため、音声翻訳装置の起動時に、第2言語で第2話者が発話することによる誤翻訳を抑制することができる。 According to this, if you register in advance that the second speaker will speak in the second language after the first speaker speaks in the first language, when the speech translation device starts up, the first speaker will If the content prompting speech is output in the first language, the first speaker can start speaking. Therefore, it is possible to suppress mistranslation caused by the second speaker speaking in the second language when the speech translation device is activated.
本開示の他の態様に係る音声翻訳装置において、前記発話指示部は、翻訳開始後、発話を促すための音声を規定回数、前記音声出力部に出力させ、前記規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを前記表示部に出力させる。 In the speech translation device according to another aspect of the present disclosure, the speech instruction section causes the speech output section to output a voice for encouraging speech a predetermined number of times after starting translation, After outputting the voice, the display section is caused to output a message to encourage speaking.
これによれば、発話を促すための音声を規定回数で留めることによって、音声翻訳装置のエネルギー消費の増大を抑制することができる。 According to this, by limiting the voice for prompting speech to a specified number of times, it is possible to suppress an increase in energy consumption of the speech translation device.
本開示の他の態様に係る音声翻訳装置において、前記音声認識部は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、前記発話指示部は、前記音声認識部から取得した前記信頼性スコアが閾値以下の場合、前記信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、前記表示部及び前記音声出力部の少なくともいずれかを介して出力する。 In the speech translation device according to another aspect of the present disclosure, the speech recognition unit outputs a result of speech recognition of the speech and a reliability score of the result, and the speech instruction unit acquires the result from the speech recognition unit. If the reliability score obtained is less than or equal to a threshold value, content that prompts the user to speak is outputted via at least one of the display unit and the audio output unit without translating the voice whose reliability score is less than or equal to the threshold value. .
これによれば、音声認識の精度を示す信頼性スコアが閾値以下であれば、発話指示部が再度、発話を促す内容を出力することで、対象となる話者が再度、発話する。このため、音声翻訳装置は、対象となる話者の音声を確実に音声認識することができるようになるため、より確実に音声を翻訳することができる。 According to this, if the reliability score indicating the accuracy of speech recognition is equal to or less than the threshold value, the speech instruction section outputs the content encouraging speech again, so that the target speaker speaks again. Therefore, the speech translation device can reliably recognize the speech of the target speaker, and therefore can translate the speech more reliably.
特に、音声出力部が発話を促す内容を音声により出力すれば、話者は、正しく音声認識されていないと気付き易くなる。 Particularly, if the voice output unit outputs the content that prompts the speaker to speak, the speaker will be more likely to notice that the voice is not being recognized correctly.
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせを用いて実現されてもよい。 Note that some specific aspects of these may be realized using a system, a method, an integrated circuit, a computer program, or a computer-readable recording medium such as a CD-ROM. It may be implemented using any combination of integrated circuits, computer programs, or recording media.
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。 The embodiments described below are all specific examples of the present disclosure. The numerical values, shapes, materials, components, arrangement positions of the components, etc. shown in the following embodiments are merely examples, and do not limit the present disclosure. Further, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims will be described as arbitrary constituent elements. Moreover, in all embodiments, the contents of each can be combined.
以下、本開示の一態様に係る音声翻訳装置、音声翻訳方法及びそのプログラムについて、図面を参照しながら具体的に説明する。 Hereinafter, a speech translation device, a speech translation method, and a program thereof according to one aspect of the present disclosure will be specifically described with reference to the drawings.
(実施の形態1)
<構成:音声翻訳装置1>
図1Aは、実施の形態1における音声翻訳装置1の外観と、第1話者が発話したときの第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。図1Bは、実施の形態1における音声翻訳装置1の外観と、第2話者が発話したときの第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。
(Embodiment 1)
<Configuration:
FIG. 1A is a diagram showing the appearance of the
図1A及び図1Bに示すように、音声翻訳装置1は、第1言語で発話する第1話者と、第1話者の会話相手であり、第1言語と異なる第2言語で発話する第2話者とが会話を行うために、第1話者と第2話者との間の会話を双方向に翻訳する装置である。つまり、音声翻訳装置1は、第1話者と第2話者との異なる2つの言語間において、第1話者と第2話者とが発話(発声)したそれぞれの言語を認識し、発話内容を互いの相手の言語に翻訳する装置である。例えば、音声翻訳装置1は、第1話者が発話する第1言語を第2言語に翻訳して出力し、第2話者が発話する第2言語を第1言語に翻訳して出力する。また、第1言語及び第2言語は、例えば、日本語、英語、フランス語、ドイツ語、中国語等である。
As shown in FIGS. 1A and 1B, the
本実施の形態の図1A及び図1Bでは、1名の第1話者と、1名の第2話者とが対面しながら会話する様子を例示する。なお、複数の第1話者と複数の第2話者とが会話する際に用いてもよい。 FIGS. 1A and 1B of this embodiment illustrate a situation in which one first speaker and one second speaker have a conversation while facing each other. Note that it may be used when a plurality of first speakers and a plurality of second speakers have a conversation.
なお、第1話者及び第2話者は、音声翻訳装置1を用いて対面しながら会話したり、図1Cに示すように、左右に並んで会話したりしてもよい。図1Cは、第1話者と第2話者とが会話をするときの音声翻訳装置1の使用場面の別の一例を示す図である。この場合、音声翻訳装置1は、表示態様を変更してもよい。このような音声翻訳装置1は、図1A、図1B及び図1Cに示すように、縦向き又は横向きにされた状態で用いられる。
Note that the first speaker and the second speaker may have a conversation while facing each other using the
音声翻訳装置1は、スマートホン及びタブレット端末等の、第1話者が携帯可能な携帯端末である。
The
図2は、実施の形態1における音声翻訳装置1を示すブロック図である。
FIG. 2 is a block diagram showing the
図2に示すように、音声翻訳装置1は、音声入力部21と、音声検出部22と、優先発話入力部24と、発話指示部25と、音声認識部23と、翻訳部26と、表示部27と、音声出力部28と、電源部29とを備える。
As shown in FIG. 2, the
[音声入力部21]
音声入力部21は、第1話者と第2話者とが会話する際の音声が入力されるマイクロフォンであり、音声検出部22と通信可能に接続される。つまり、音声入力部21は、音を取得(収音)し、取得した音から電気信号に変換し、変換した電気信号である音響信号を音声検出部22に出力する。なお、音声入力部21が取得した音響信号を記憶部等に記憶してもよい。
[Voice input section 21]
The
なお、音声入力部21は、アダプタとして構成されてもよい。この場合、音声入力部21は、音声翻訳装置1にマイクロフォンが装着されることで機能し、マイクロフォンが取得する音響信号を取得する。
Note that the
[音声検出部22]
音声検出部22は、音声入力部21に入力される音から、第1話者及び第2話者が発話した音声区間を検出する装置であり、音声入力部21及び音声認識部23と通信可能に接続される。具体的には、音声検出部22は、音声入力部21から取得した音響信号に示される音量から、音量が大きくなった瞬間と、音量が小さくなった瞬間とを音声の区切り目とみなし、音響信号における音声区間の開始時点及び終了時点を検出(終話検出)する。ここで、音声区間は、話者の発話による一話ごとの音声を示すが、一話の音声における開始地点から終了地点までの期間を含んでいてもよい。
[Sound detection unit 22]
The
音声検出部22は、音響信号から検出した音声区間、つまり、音響信号から第1話者と第2話者との会話のそれぞれの音声を検出し、検出した音声を示す音声情報を音声認識部23に出力する。
The
[発話指示部25]
発話指示部25は、第1話者の発話後に第2話者に発話を促す内容を、表示部27を介して第2言語により出力し、かつ、第2話者の発話後に第1話者に発話を促す内容を第1言語により出力する装置である。つまり、発話指示部25は、第1話者と第2話者とが会話できるように、それぞれのタイミングで第1話者又は第2話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。また、発話指示部25は、第1話者又は第2話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。この場合、発話指示部25は、表示部27に出力する発話指示テキスト情報に示される内容と同様の内容である発話指示音声情報を音声出力部28に出力する。なお、発話指示部25は、発話指示音声情報を音声出力部28に出力しなくてもよく、音声による発話を促す内容を出力することは必須ではない。
[Speech instruction section 25]
The
ここで、発話指示テキスト情報は、第1話者又は第2話者に発話を促す内容を示すテキスト文である。また、発話指示音声情報は、第1話者又は第2話者に発話を促す内容を示す音声である。 Here, the utterance instruction text information is a text sentence indicating content that prompts the first speaker or the second speaker to speak. Furthermore, the speech instruction audio information is audio indicating content that prompts the first speaker or the second speaker to speak.
また、発話指示部25は、翻訳部26が第1言語を第2言語に翻訳、又は、翻訳部26が第2言語を第1言語に翻訳するための指示コマンドを出力する。例えば第1話者の発話後に第2話者が発話するため、発話指示部25は、第2話者が発話した音声を第2言語で音声認識するための指示コマンドを音声認識部23に出力し、音声認識された音声を第2言語から第1言語に翻訳するための指示コマンドを翻訳部26に出力する。また、第1話者が発話した場合も同様である。
Furthermore, the
また、発話指示部25は、第1話者及び第2話者のうちの一方の話者が発話後に、他方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。一方の話者が発話した音声を、翻訳部26が翻訳した翻訳結果を出力する時点又は出力した後に、発話指示部25は、発話指示テキスト情報を表示部27に出力し、発話指示音声情報を音声出力部28に出力する。
Furthermore, after one of the first speaker and the second speaker speaks, the
また、発話指示部25は、後述する優先発話入力部24から指示コマンドを取得すると、直近に発話した話者に対して、再度、発話を促す内容である発話指示テキスト情報を表示部27に出力し、発話指示音声情報を音声出力部28に出力する。
Further, when the
また、発話指示部25は、当該音声翻訳装置1の起動時に、第1話者に発話を促す内容を、表示部27を介して第1言語により出力する。つまり、第1話者が音声翻訳の所有者である場合、発話指示部25は、第1話者から発話を開始するように促す。また、発話指示部25は、第1話者の発話による音声が第1言語から第2言語に翻訳されて、表示部27に翻訳結果が表示された後に、第2話者に発話を促す内容を、表示部27を介して第2言語により出力する。第1言語の第1話者の発話が第2言語に翻訳された後に、第2話者が第2言語で発話し、発話した第2言語が第1言語に翻訳される。これを繰り返し行うことで、第1話者と第2話者との会話が弾む。
Furthermore, when the
また、発話指示部25は、翻訳開始後、発話を促すための音声を規定回数、音声出力部28に出力させる。つまり、第2話者が直ぐに発話をしない、又は、聞き取れない場合等があるため、発話指示部25は、発話を促すための音声を規定回数出力する。発話指示部25は、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部27に出力させる。つまり、発話を促すための音声を規定回数出力しても、効果がない場合、電力の消費を抑制するために、発話を促すためのメッセージを表示部27に表示させる。
Furthermore, after the start of translation, the
発話指示部25は、音声認識部23、優先発話入力部24、翻訳部26、表示部27及び音声出力部28と通信可能に接続される。
The
[優先発話入力部24]
優先発話入力部24は、第1話者又は第2話者が発話して音声認識された場合、再度、当該発話した第1話者又は第2話者の発話を優先して(又は連続して)音声認識部23に音声認識させることができる装置である。つまり、優先発話入力部24は、直近に発話した話者であって発話した音声が音声認識された話者に対して、再度、発話した第1話者又は第2話者に発話を行う機会を与えることができる。言い換えれば、優先発話入力部24は、第1話者及び第2話者の一方の話者が発話した音声を音声認識し終えて、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。
[Priority speech input section 24]
When the first speaker or the second speaker makes an utterance and the speech is recognized, the priority
優先発話入力部24は、音声翻訳装置1の操作者から入力を受付ける操作入力部である。例えば、発話した話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合、音声検出部22が音声を検出しない区間が規定区間以上となると、音声翻訳装置1が発話を終了したと認識する恐れがある場合等のように、直近に発話した話者が続けて発話したいときがある。このため、優先発話入力部24は、直近に発話した話者が発話する音声を優先して音声認識部23に音声認識させ、かつ、翻訳部26に翻訳させる。これにより、優先発話入力部24は、発話指示部25に再度、発話を促す内容である発話指示テキスト情報及び発話指示音声情報を発話指示部25に出力させるための指示コマンドを、発話指示部25に出力する。操作者は、第1話者及び第2話者の少なくとも一方であるが、本実施の形態では、主に第1話者である。
The priority
本実施の形態では、優先発話入力部24は、音声翻訳装置1の表示部27と一体的に設けられるタッチセンサである。この場合、音声翻訳装置1の表示部27には、優先発話入力部24としての、一方の話者による操作を受付ける操作ボタンが表示されていてもよい。
In this embodiment, the priority
本実施の形態では、音声認識部23が音声認識を第1言語から第2言語に切換えたときに、切換え前の第1言語を優先して音声認識して翻訳させるために、第1言語の優先ボタンである優先発話入力部24を表示部27に表示する。また、音声認識部23が音声認識を第2言語から第1言語に切換えたときに、切換え前の第2言語を優先して音声認識して翻訳させるために、第2言語の優先ボタンである優先発話入力部24を表示部27に表示する。このような、優先ボタンは、少なくとも翻訳後に、表示部27に表示される。
In this embodiment, when the
[音声認識部23]
音声認識部23は、音声検出部22が検出した音声区間の音声を音声認識することで、テキスト文に変換する。具体的には、音声認識部23は、音声検出部22が検出した音声情報を取得すると、音声情報に示される音声を音声認識する。例えば、音声情報に示される音声が第1言語である場合、当該音声を第1言語で音声認識し、音声情報に示される音声が第2言語である場合、当該音声を第2言語で音声認識する。音声認識部23は、第1言語で音声を音声認識した場合、音声認識した音声の内容を示す第1テキスト文を生成し、生成した第1テキスト文を翻訳部26に出力する。また、音声認識部23は、第2言語で音声を音声認識した場合、音声認識した音声の内容を示す第2テキスト文を生成し、生成した第2テキスト文を翻訳部26に出力する。
[Voice recognition unit 23]
The
[翻訳部26]
翻訳部26は、音声認識部23が変換したテキスト文を第1言語から第2言語に翻訳し、かつ、第2言語から第1言語に翻訳する翻訳装置である。具体的には、翻訳部26は、音声認識部23からテキスト文である第1テキスト文を取得すると、第1言語から第2言語に翻訳する。つまり、翻訳部26は、第1テキスト文を第2言語に翻訳した第2翻訳テキスト文を生成する。また、翻訳部26は、音声認識部23からテキスト文である第2テキスト文を取得すると、第2言語から第1言語に翻訳する。つまり、翻訳部26は、第2テキスト文を第1言語に翻訳した第1翻訳テキスト文を生成する。
[Translation Department 26]
The
ここで、第1言語で示された第1テキスト文の内容は、第2言語で示された第2翻訳テキスト文の内容と一致する。また、第2言語で示された第2テキスト文の内容は、第1言語で示された第1翻訳テキスト文の内容と一致する。 Here, the content of the first text sentence shown in the first language matches the content of the second translated text sentence shown in the second language. Also, the content of the second text sentence shown in the second language matches the content of the first translated text sentence shown in the first language.
翻訳部26は、第2翻訳テキスト文を生成すると、第2翻訳テキスト文の内容を認識し、認識した第2翻訳テキスト文の内容を示す第2言語の翻訳音声を生成する。また、翻訳部26は、第1翻訳テキスト文を生成すると、第1翻訳テキスト文の内容を認識し、認識した第1翻訳テキスト文の内容を示す第1言語の翻訳音声を生成する。なお、第1翻訳テキスト文及び第2翻訳テキスト文に基づく翻訳音声の生成は、音声出力部28が行ってもよい。
After generating the second translated text sentence, the
翻訳部26は、第2翻訳テキスト文又は第1翻訳テキスト文を生成すると、生成した第2翻訳テキスト文又は第1翻訳テキスト文を表示部27に出力する。また、翻訳部26は、第2言語の翻訳音声を生成又は第1言語の翻訳音声を生成すると、生成した第2言語の翻訳音声を生成又は第1言語の翻訳音声を音声出力部28に出力する。
After generating the second translated text sentence or the first translated text sentence, the
翻訳部26は、発話指示部25、音声認識部23、表示部27及び音声出力部28と通信可能に接続される。
The
[表示部27]
表示部27は、例えば、液晶パネル、又は、有機ELパネル等のモニタであり、発話指示部25及び翻訳部26と通信可能に接続される。具体的には、表示部27は、音声検出部22が検出した音声区間の音声が音声認識されることで、当該音声が示す第1言語から第2言語に翻訳した翻訳結果を表示し、かつ、第2言語から第1言語に翻訳した翻訳結果を表示するモニタである。表示部27は、翻訳部26から取得した第1テキスト文、第2テキスト文、第1翻訳テキスト文及び第2翻訳テキスト文を表示する。また、表示部27は、これらのテキスト文を表示した後又は同時に、第1話者又は第2話者に発話を促す内容である発話指示テキスト情報を表示する。
[Display section 27]
The
なお、表示部27は、音声翻訳装置1に対する第1話者と第2話者との位置関係に応じて、テキスト文を表示する画面レイアウトを変更する。例えば、図1A及び図1Bに示すように、表示部27は、第1話者が発話すると、第1話者側に位置する表示部27の表示領域に音声認識された第1テキスト文を表示し、第2話者側に位置する表示部27の表示領域に翻訳された第2翻訳テキスト文を表示する。また、表示部27は、第2話者が発話すると、第2話者側に位置する表示部27の表示領域に音声認識された第2テキスト文を表示し、第1話者側に位置する表示部27の表示領域に翻訳された第1翻訳テキスト文を表示する。これらの場合、表示部27は、第1テキスト文と第2翻訳テキスト文との文字の向き、及び、第1翻訳テキスト文と第2テキスト文との文字の向きが逆さまとなって表示する。なお、図1Cに示すように、表示部27は、第1話者と第2話者とが左右に並んで会話する場合、第1テキスト文と第2テキスト文との文字の向きが同一となるように表示する。
Note that the
[音声出力部28]
音声出力部28は、翻訳部26が翻訳した結果である翻訳音声を翻訳部26から取得し、取得した翻訳音声を出力するスピーカであり、翻訳部26及び発話指示部25と通信可能に接続される。つまり、音声出力部28は、第1話者が発話した場合、表示部27に表示される第2翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。また、音声出力部28は、第2話者が発話した場合、表示部27に表示される第1翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。
[Audio output section 28]
The
また、音声出力部28は、発話指示音声情報を取得すると、第1話者又は第2話者に、発話指示音声情報に示される発話を促す内容である音声を再生して出力する。音声出力部28は、第1翻訳テキスト文又は第2翻訳テキスト文の翻訳音声を出力した後に、発話指示音声情報に示される音声を再生して出力する。
Furthermore, upon acquiring the speech instruction audio information, the
[電源部29]
電源部29は、例えば一次電池又は二次電池等であり、配線を介して音声入力部21、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27及び音声出力部28等と電気的に接続される。電源部29は、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27及び音声出力部28等に電力を供給する。
[Power supply section 29]
The
<動作>
以上のように構成される音声翻訳装置1が行う動作について、図3を用いて説明する。
<Operation>
The operation performed by the
図3は、実施の形態1における音声翻訳装置1の動作を示すフローチャートである。
FIG. 3 is a flowchart showing the operation of the
音声翻訳装置1には、第1話者が第1言語による発話を行うことを予め設定し、第2話者が第2言語による発話を行うことを予め設定する。ここでは、第1話者及び第2話者のうちの一方の話者が発話を開始した場合を想定する。第1話者は、音声翻訳装置1を起動させることで、音声翻訳装置1は、第1話者及び第2話者の会話の翻訳を開始する。
The
まず、図3に示すように、第1話者と第2話者とが会話を行う際、音声を発する前に音声翻訳装置1を起動する。音声翻訳装置1は、音を取得し(S11)、取得した音を示す音響信号を生成する。本実施の形態では、一方の話者が発話を開始すると、音声翻訳装置1は、一方の話者が発話した音声を取得する。図1Aに示すように、一方の話者が第1話者である場合、「何をお探しですか?」と発話すると、音声入力部21は、この発話した音声を取得する。音声入力部21は、音を取得し、取得した音を電気信号に変換し、変換した電気信号である音響信号を音声検出部22に出力する。
First, as shown in FIG. 3, when a first speaker and a second speaker have a conversation, the
次に、音声検出部22は、音声入力部21から音響信号を取得すると、音響信号に示される音から一方の話者の音声区間を検出することで(S12)、検出した音声を一方の話者の音声として抽出する。一例を挙げると、図1Aに示すように、音声入力部21に入力される音から、第1話者の「何をお探しですか?」という音声区間を検出し、検出した音声を抽出する。音声検出部22は、抽出した一方の話者の音声を示す音声情報を音声認識部23に出力する。
Next, when the
発話指示部25は、一方の話者が発話した言語で音声認識するための指示コマンドを音声認識部23に出力し、音声認識された音声を一方の言語から他方の言語に翻訳するための指示コマンドを翻訳部26に出力する。つまり、発話指示部25は、音声認識部23が一方の話者が発話する言語を認識できるように、音声認識部23の認識言語を切換えるための指示コマンドを出力する。また、発話指示部25は、翻訳部26が音声認識部23で音声認識された言語に基づいて所望の言語で翻訳できるように、翻訳言語を切換えるための指示コマンドを出力する。
The
例えば、音声認識部23は、指示コマンドを取得すると、認識言語を第2言語から第1言語に、又は、認識言語を第1言語から第2言語に切換える。また、翻訳部26は、指示コマンドを取得すると、翻訳言語を第2言語から第1言語に、又は、第1言語から第2言語に切換える。
For example, upon acquiring the instruction command, the
次に、音声認識部23は、指示コマンドと音声情報とを取得すると、音声情報に示される音声を音声認識する(S13)。例えば、一方の話者の言語が第1言語であれば、音声認識部23は、認識言語を第1言語に選択し、選択した第1言語で音声情報に示される音声を音声認識する。つまり、音声認識部23は、音声情報に示される音声を、第1言語のテキスト文に変換し、変換した第1テキスト文を翻訳部26に出力する。また、一方の話者の言語が第2言語であれば、音声認識部23は、認識言語を第2言語に選択し、選択した第2言語で音声情報に示される音声を音声認識する。つまり、音声認識部23は、音声情報に示される音声を、第2言語のテキスト文に変換し、変換した第2テキスト文を翻訳部26に出力する。
Next, upon acquiring the instruction command and the voice information, the
一例を挙げると、図1Aに示すように、音声認識部23は、音声情報に示される音声「何をお探しですか?」を、第1テキスト文「何をお探しですか?」に変換する。
For example, as shown in FIG. 1A, the
次に、翻訳部26は、音声認識部23からテキスト文を取得すると、第1言語及び第2言語のうちの一方の言語から他方の言語に翻訳する(S14)。つまり、翻訳部26は、テキスト文が第1言語の第1テキスト文であれば第2言語に翻訳し、翻訳した結果である第2翻訳テキスト文を生成する。また、翻訳部26は、テキスト文が第2言語の第2テキスト文であれば第1言語に翻訳し、翻訳した結果である第1翻訳テキスト文を生成する。一例を挙げると、図1Aに示すように、翻訳部26は、第1言語の第1テキスト文「何をお探しですか?」を、第2言語に翻訳して、第2翻訳テキスト文「What are you looking for?」を生成する。
Next, upon acquiring the text sentence from the
次に、翻訳部26は、生成した第2言語の第2翻訳テキスト文又は第1言語の第1翻訳テキスト文を表示部27に出力する。表示部27は、第2翻訳テキスト文又は第1翻訳テキスト文を表示する(S15)。一例を挙げると、図1Aに示すように、表示部27は、第2翻訳テキスト文「What are you looking for?」を表示する。
Next, the
また、翻訳部26は、第2翻訳テキスト文を生成すると、当該第2翻訳テキスト文を音声に変換した第2言語の翻訳音声を生成する。また、翻訳部26は、第1翻訳テキスト文を生成すると、当該第1翻訳テキスト文を音声に変換した第1言語の翻訳音声を生成する。翻訳部26は、生成した第2言語の翻訳音声又は第1言語の翻訳音声を音声出力部28に出力する。音声出力部28は、第2言語の翻訳音声又は第1言語の翻訳音声を出力する(S16)。一例を挙げると、図1Aに示すように、音声出力部28は、第2翻訳テキスト文「What are you looking for?」を音声により出力する。なお、ステップS15及びS16の処理は、同一のタイミングであってもよく、処理が反対であってもよい。
Moreover, when the
次に、発話指示部25は、優先発話入力部24から指示コマンドを取得したかどうかを判定する(S17)。例えば、一方の話者が再度発話したい場合、音声翻訳装置1の操作者は、優先発話入力部24を操作する。これにより、優先発話入力部24は、操作を受付けると、指示コマンドを発話指示部25に出力する。
Next, the
発話指示部25が優先発話入力部24から指示コマンドを取得した場合(S17でYES)、音声認識部23及び翻訳部26は、一方の話者の音声認識及び翻訳の処理を終了並びに中断、又は、他方の話者の音声を音声認識するための処理に移行していても、一方の話者が発話する音声を音声認識及び翻訳する処理に戻す。発話指示部25は、直近に発話した音声が音声認識された一方の話者に対して、当該一方の話者が発話する音声を優先して音声認識するために、再度、一方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。表示部27は、発話指示部25から取得した発話指示テキスト情報を表示する(S18)。一例を挙げると、表示部27は、発話指示テキスト情報「もう一度発話して下さい」を表示する。
When the
また、発話指示部25は、優先発話入力部24から指示コマンドを取得した場合、一方の話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。音声出力部28は、発話指示部25から取得した発話指示音声情報を音声により出力する(S19)。一例を挙げると、音声出力部28は、発話指示音声情報「もう一度発話して下さい」を音声により出力する。
Further, when the
この場合、音声翻訳装置1は、他方の話者に対して、「Thank you for your patience.」等を表示したり、音声で出力したりしてもよく、何も出力しなくてもよい。なお、ステップS18、S19の処理は同時に行ってもよく、処理が逆転してもよい。
In this case, the
また、発話指示部25は、発話指示音声情報を規定回数、音声出力部28に出力させてもよい。発話指示部25は、規定回数の発話指示音声情報を出力した後に、発話指示音声情報のメッセージを表示部27に出力させてもよい。
Further, the
そして、音声翻訳装置1は、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置1は、ステップS11から処理を開始する。
Then, the
一方、発話指示部25は、優先発話入力部24から指示コマンドを取得できない場合(S17でNO)、他方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。例えば、この場合、一方の話者が再度発話する必要がなく、音声が正しく認識された場合である。表示部27は、発話指示部25から取得した発話指示テキスト情報を表示する(S21)。一例を挙げると、図1Aに示すように、表示部27は、発話指示テキスト情報「Your Turn!」を表示する。
On the other hand, if the
また、発話指示部25は、優先発話入力部24から指示コマンドを取得できない場合、他方の話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。音声出力部28は、発話指示部25から取得した発話指示音声情報を音声により出力する(S22)。一例を挙げると、音声出力部28は、発話指示音声情報「Your Turn!」を音声により出力する。なお、ステップS21、S22の処理は同時に行ってもよく、処理が逆転してもよい。
Furthermore, when the instruction command cannot be obtained from the priority
また、発話指示部25は、発話を促すための音声を規定回数、音声出力部28に出力させてもよい。発話指示部25は、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部27に出力させてもよい。
Furthermore, the
そして、音声翻訳装置1は、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置1は、ステップS11から処理を開始する。
Then, the
このように、第1話者が音声翻訳装置1を最初に操作するだけで、音声翻訳装置1は、第1話者と第2話者との会話を翻訳することができる。
In this way, the
なお、一方の話者の発話に対して他方の話者が発話する場合も同様の処理であるため、その説明を省略する。 Note that the same process is performed when one speaker speaks in response to the other speaker's utterance, so the explanation thereof will be omitted.
<作用効果>
次に、本実施の形態における音声翻訳装置1の作用効果について説明する。
<Effect>
Next, the effects of the
以上のように、本実施の形態における音声翻訳装置1は、第1言語で発話する第1話者と、第1話者の会話相手であり、第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置1であって、音声入力部21に入力される音から、第1話者及び第2話者が発話した音声区間を検出する音声検出部22と、音声検出部22が検出した音声区間の音声が音声認識されることで、当該音声が示す第1言語から第2言語に翻訳した翻訳結果を表示し、かつ、第2言語から第1言語に翻訳した翻訳結果を表示する表示部27と、第1話者の発話後に第2話者に発話を促す内容を、表示部27を介して第2言語により出力し、かつ、第2話者の発話後に第1話者に発話を促す内容を、表示部27を介して第1言語により出力する発話指示部25とを備える。
As described above, the
これによれば、第1話者と第2話者との会話から、それぞれの音声区間を検出することで、検出した音声を第1言語から第2言語に翻訳した翻訳結果を取得したり、検出した音声を第2言語から第1言語に翻訳した翻訳結果を取得したりすることができる。つまり、この音声翻訳装置1では、翻訳をするための入力操作をしなくても、第1話者と第2話者とのそれぞれの発話ごとに、自動的に検出した音声の言語を別の言語に翻訳することができる。
According to this, by detecting each speech interval from a conversation between a first speaker and a second speaker, a translation result of the detected speech from the first language to the second language can be obtained, It is possible to obtain a translation result obtained by translating the detected voice from the second language to the first language. In other words, this
また、音声翻訳装置1は、第1話者が発話した後に第2話者に発話を促す内容を出力したり、第2話者が発話した後に第1話者に発話を促す内容を出力したりすることができる。これにより、この音声翻訳装置1では、第1話者と第2話者とのそれぞれの発話ごとに、発話開始の入力操作をしなくても、第1話者と第2話者とが発話をするタイミングを認識することができる。
The
これらのように、音声翻訳装置1では、発話を開始するための入力操作、言語切替をするための入力操作等をしなくてもよく、操作性に優れている。つまりこの音声翻訳装置1の操作に手間取り難いため、使用期間の増大を抑制することができる。
As described above, the
したがって、音声翻訳装置1では、操作を簡易にすることで、音声翻訳装置1のエネルギー消費の増大を抑制することができる。特に、この音声翻訳装置1では、操作を簡易にすることができるため、誤操作を抑制することもできる。
Therefore, the
また、本実施の形態における音声翻訳方法は、第1言語で発話する第1話者と、第1話者の会話相手であり、第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳方法であって、音声入力部21に入力される音から、第1話者及び第2話者が発話した音声区間を検出することと、検出した音声区間の音声を音声認識することで、当該音声が示す第1言語から第2言語に翻訳した翻訳結果を表示し、かつ、第2言語から第1言語に翻訳した翻訳結果を表示する表示部27が表示することと、第1話者の発話後に第2話者に発話を促す内容を、表示部27を介して第2言語により出力し、かつ、第2話者の発話後に第1話者に発話を促す内容を、表示部27を介して第1言語により出力することとを含む。
In addition, the speech translation method in the present embodiment includes a first speaker who speaks in a first language, and a second speaker who is a conversation partner of the first speaker and who speaks in a second language different from the first language. is a voice translation method for carrying out a conversation, which includes detecting a voice section uttered by a first speaker and a second speaker from sounds input to a
この音声翻訳方法においても、上述の音声翻訳装置1と同様の作用効果を奏する。
This voice translation method also provides the same effects as the
また、本実施の形態におけるプログラムは、音声翻訳方法をコンピュータに実行させるためのプログラムである。 Further, the program in this embodiment is a program for causing a computer to execute a speech translation method.
このプログラムにおいても、上述の音声翻訳装置1と同様の作用効果を奏する。
This program also has the same effects as the above-mentioned
本実施の形態における音声翻訳装置1は、さらに、第1話者又は第2話者が発話して音声認識された場合、再度、当該発話した第1話者又は第2話者の発話を優先して音声認識する優先発話入力部24を備える。
Furthermore, when the first speaker or the second speaker makes an utterance and the speech is recognized, the
これによれば、例えば第1話者及び第2話者である話者が言い間違えた場合、言い淀んだ音声が途中で翻訳された場合等、優先発話入力部24を操作することで、発話した話者が優先されるため、発話した当該話者は、再度、発話をする機会を得ることができる(言い直すことができる)。このため、優先発話入力部24は、第1話者及び第2話者の一方の話者が発話した音声を音声認識し終えた後、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。これにより、音声翻訳装置1は、第1話者及び第2話者の音声を確実に取得することができるため、当該音声に基づいて翻訳された翻訳結果を出力することができる。
According to this, for example, when the speakers who are the first speaker and the second speaker make a mistake in saying something, or when a voice that they hesitate to say is translated halfway, etc., by operating the priority
本実施の形態における音声翻訳装置1は、さらに、第1話者と第2話者とが会話する音声が入力される音声入力部21と、音声検出部22が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部23と、音声認識部23が変換したテキスト文を第1言語から第2言語に翻訳し、かつ、第2言語から第1言語に翻訳する翻訳部26と、翻訳部26が翻訳した結果を音声によって出力する音声出力部28とを備える。
The
これによれば、入力される音声を音声認識してから、当該音声の言語を別の言語に翻訳することができる。つまり、音声翻訳装置1は、第1話者と第2話者とが会話する音声の取得から、音声を翻訳した結果を出力するまでの処理を行うことができる。このため、音声翻訳装置1は、外部サーバと通信しなくても、第1話者と第2話者とが会話するそれぞれの音声を相互に翻訳することができる。音声翻訳装置1が外部サーバと通信し難い環境下においても適用することができる。
According to this, it is possible to perform speech recognition on input speech and then translate the language of the speech into another language. In other words, the
本実施の形態における音声翻訳装置1において、発話指示部25は、当該音声翻訳装置1の起動時に、第1話者に発話を促す内容を、表示部27を介して第1言語により出力し、第1話者の発話による音声が第1言語から第2言語に翻訳されて、表示部27に翻訳結果が表示された後に、第2話者に発話を促す内容を、表示部27を介して第2言語により出力する。
In the
これによれば、第1言語で第1話者が発話した後に、第2言語で第2話者が発話することを予め登録しておけば、音声翻訳装置1の起動時に、第1話者に発話を促す内容を第1言語により出力すれば、第1話者は、発話を開始することができる。このため、音声翻訳装置1の起動時に、第2言語で第2話者が発話することによる誤翻訳を抑制することができる。
According to this, if it is registered in advance that the second speaker speaks in the second language after the first speaker speaks in the first language, when the
本実施の形態における音声翻訳装置1において、発話指示部25は、翻訳開始後、発話を促すための音声を規定回数、音声出力部28に出力させ、規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを表示部27に出力させる。
In the
これによれば、発話を促すための音声を規定回数で留めることによって、音声翻訳装置1のエネルギー消費の増大を抑制することができる。
According to this, an increase in energy consumption of the
(実施の形態2)
<構成>
本実施の形態の音声翻訳装置1aの構成を、図4を用いて説明する。
(Embodiment 2)
<Configuration>
The configuration of the speech translation device 1a of this embodiment will be explained using FIG. 4.
図4は、実施の形態2における音声翻訳装置1aを示すブロック図である。 FIG. 4 is a block diagram showing a speech translation device 1a in the second embodiment.
本実施の形態では、音源方向を推定する点で、実施の形態1と相違する。
This embodiment differs from
本実施の形態における他の構成は、特に明記しない場合は、実施の形態1と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
Other configurations in this embodiment are the same as those in
図4に示すように、音声翻訳装置1aは、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27、音声出力部28及び電源部29の他に、複数の音声入力部21と、音源方向推定部31とを備える。
As shown in FIG. 4, the speech translation device 1a includes a
[複数の音声入力部21]
複数の音声入力部21は、マイクロフォンアレイを構成する。具体的には、マイクロフォンアレイは、互いに離間して配置された2以上のマイクロフォンユニットからなり、音声を取得し、取得した音声から電気信号に変換した音響信号を取得する。
[Multiple audio input units 21]
The plurality of
複数の音声入力部21は、取得した音響信号を音源方向推定部31に出力する。また、複数の音声入力部21のうちの少なくとも一つは、音声検出部22に音響信号を出力する。本実施の形態では、一つの音声入力部21が音声検出部22と通信可能に接続され、音声検出部22に音響信号を出力する。
The plurality of
本実施の形態では、2つの音声入力部21が音声翻訳装置1aに設けられる、一方の音声入力部21は、他方の音声入力部21と音声の1/2波長以下となる距離だけ離間した状態で配置される。
In this embodiment, two
[音源方向推定部31]
音源方向推定部31は、複数の音声入力部21に入力される音声を信号処理することにより、音源方向を推定する。具体的には、音源方向推定部31は、音声検出部22からの音声情報と、複数の音声入力部21からの音響信号とを取得すると、マイクロフォンアレイを構成する複数の音声入力部21のそれぞれに到達した音声の時間差(位相差)を算出し、例えば遅延時間推定法等により音源方向を推定する。つまり、音声検出部22が音声区間を検出できれば、第1話者又は第2話者の音声が音声入力部21に入力されたことを意味するため、音源方向推定部31は、音声情報の取得をトリガとして、音源方向の推定を開始する。
[Sound source direction estimation unit 31]
The sound source
音源方向推定部31は、推定した結果である音源方向を示す音源方向情報を発話指示部25に出力する。
The sound source
[発話指示部25]
発話指示部25は、表示部27に表示させる態様を制御する制御部31aを有する。具体的には、制御部31aは、音声翻訳装置1aに対する第1話者の位置に対応する表示部27の表示領域に第1言語を表示させ、音声翻訳装置1aに対する第2話者の位置に対応する表示部27の表示領域に第2言語を表示させる。例えば、図1Aに示すように、第1話者の位置に対応する表示部27の表示領域は、日本語で表示されている第1話者側の表示部27の表示領域である。また、第2話者の位置に対応する表示部27の表示領域は、英語で表示されている第2話者側の表示部27の表示領域である。
[Speech instruction section 25]
The
制御部31aは、当該音声翻訳装置1aの表示部27から第1話者又は第2話者に向かう表示方向であって、表示部27のいずれかの表示領域に表示する側の表示方向と、音源方向推定部31が推定した音源方向とを比較する。制御部31aは、表示方向と音源方向とが実質的に一致する場合、音声認識部23及び翻訳部26を実行させる。例えば、図1Aに示すように、第1話者が発話すると、音声翻訳装置1aに入力された第1話者の音声の内容を示す第1テキスト文が第1話者側(又は第1話者に面する側)の表示領域に表示される。この場合、表示方向は表示部27から第1話者に向く方向であり、音源方向推定部31が推定した音源方向も表示部27から第1話者に向く方向である。
The
一方、制御部31aは、表示方向と音源方向とが異なる場合、音声認識部23及び翻訳部26を停止させる。第1話者が発話すると、第1話者の音声の内容を示す第1テキスト文が第1話者側の表示領域に表示されても、音源方向推定部31が推定した音源方向が表示部27から第2話者に向く方向である場合、表示方向と推定した音源方向とが一致しない。例えば、第1話者が発話した後に、第1話者が優先発話入力部24を操作せずに、続けて発話する場合、会話に関係の無い周囲の音を音声入力部21が収音した場合等である。
On the other hand, if the display direction and the sound source direction are different, the
また、制御部31aが音声認識部23及び翻訳部26を停止させる場合、発話指示部25は、再度、指示した言語による発話を促す内容を出力する。例えば、表示方向と推定した音源方向とが一致しないため、どちらの話者が発話したか判らないため、音声認識部23は、音声を第1言語で音声認識してよいのか、第2言語で音声認識してよいのか判らない。また、第1話者が発話してもその音声を音声認識することができなかった場合、翻訳を行うこともできない。このため、制御部31aは、音声認識部23及び翻訳部26を停止させる。
Further, when the
<動作>
以上のように構成される音声翻訳装置1aが行う動作について、図5を用いて説明する。
<Operation>
The operation performed by the speech translation device 1a configured as described above will be explained using FIG. 5.
図5は、実施の形態2における音声翻訳装置1aの動作を示すフローチャートである。 FIG. 5 is a flowchart showing the operation of the speech translation device 1a in the second embodiment.
図5と同様の処理については、同一の符号を付し、説明を適宜省略する。 Processes similar to those in FIG. 5 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
音声翻訳装置1aは、音を取得し(S11)、取得した音を示す音響信号を生成する。 The speech translation device 1a acquires a sound (S11) and generates an acoustic signal indicating the acquired sound.
次に、音源方向推定部31は、音声検出部22から音声情報を取得したかどうかを判定する(S12a)。
Next, the sound source
音源方向推定部31が音声検出部22から音声情報を取得しない場合は(S12aでNO)、音声検出部22が音響信号から音声を検出できない場合であるため、音源方向推定部31は、音声情報を取得できない。つまり、第1話者及び第2話者が会話していない場合である。この場合、ステップS12aの処理を繰り返す。
If the sound source
音源方向推定部31が音声検出部22から音声情報を取得した場合(S12aでYES)、第1話者及び第2話者の少なくとも一方が発話した場合である。この場合、音源方向推定部31は、複数の音声入力部21のそれぞれから取得した音響信号に含まれる音声の時間差(位相差)を算出し、音源方向を推定する(S31)。音源方向推定部31は、推定した結果である音源方向を示す音源方向情報を発話指示部25に出力する。
When the sound source
次に、音源方向推定部31の制御部31aは、表示方向と、推定した音源方向とが実質的に一致しているかどうかを判定する(S32)。
Next, the
制御部31aは、表示方向と音源方向とが異なる場合(S32でNO)、音声認識部23及び翻訳部26を停止させる。制御部31aが音声認識部23及び翻訳部26を停止させる場合、発話指示部25は、再度、指示した言語による発話を促す内容を出力する。
If the display direction and the sound source direction are different (NO in S32), the
具体的には、発話指示部25は、一方の話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。表示部27は、発話指示部25から取得した発話指示テキスト情報を表示する(S33)。
Specifically, the
また、発話指示部25は、一方の話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。音声出力部28は、発話指示部25から取得した発話指示音声情報を音声により出力する(S34)。
Furthermore, the
そして、音声翻訳装置1aは、処理を終了する。これにより、一方の話者は再度、発話を行うことで、音声翻訳装置1aは、ステップS11から処理を開始する。 Then, the speech translation device 1a ends the process. As a result, one of the speakers speaks again, and the speech translation device 1a starts processing from step S11.
制御部31aは、表示方向と音源方向とが実質的に一致する場合(S32でYES)、音声認識部23及び翻訳部26を実行させる。そして、音声翻訳装置1aは、ステップS13に進み、図3と同様の処理を行う。
When the display direction and the sound source direction substantially match (YES in S32), the
<作用効果>
次に、本実施の形態における音声翻訳装置1aの作用効果について説明する。
<Effect>
Next, the effects of the speech translation device 1a in this embodiment will be explained.
以上のように、本実施の形態における音声翻訳装置1aにおいて、音声入力部21は、複数設けられる。また、音声翻訳装置1aは、さらに、複数の音声入力部21に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部31と、当該音声翻訳装置1aに対する第1話者の位置に対応する表示部27の表示領域に第1言語を表示させ、当該音声翻訳装置1aに対する第2話者の位置に対応する表示部27の表示領域に第2言語を表示させる制御部31aとを備える。そして、制御部31aは、当該音声翻訳装置1aの表示部27から第1話者又は第2話者に向かう表示方向であって、表示部27のいずれかの表示領域に表示する側の表示方向と、音源方向推定部31が推定した音源方向とを比較し、表示方向と音源方向とが実質的に一致する場合、音声認識部23及び翻訳部26を実行させ、表示方向と音源方向とが異なる場合、音声認識部23及び翻訳部26を停止させる。
As described above, in the speech translation device 1a according to the present embodiment, a plurality of
これによれば、表示部27の表示領域に表示された言語の表示方向と、話者の発話による音声の音源方向とが実質的に一致する場合、話者が第1言語で発話する第1話者か第2言語で発話する第2話者かを特定することができる。この場合、第1話者の音声を第1言語で音声認識することができ、第2話者の音声を第2言語で音声認識することができる。また、表示方向と音源方向とが異なる場合、入力された音声の翻訳を停止することで、入力された音声が翻訳されない又は誤翻訳されてしまうことを抑制することができる。
According to this, when the display direction of the language displayed in the display area of the
これにより、音声翻訳装置1aは、第1言語の音声及び第2言語の音声を確実に音声認識することができるため、確実に音声を翻訳することができる。その結果、この音声翻訳装置1aでは、誤翻訳等を抑制することで音声翻訳装置1aの処理量の増大を抑制することができる。 Thereby, the speech translation device 1a can reliably recognize the first language speech and the second language speech, and therefore can reliably translate the speech. As a result, this speech translation device 1a can suppress an increase in the processing amount of the speech translation device 1a by suppressing mistranslations and the like.
本実施の形態における音声翻訳装置1aにおいて、制御部31aが音声認識部23及び翻訳部26を停止させる場合、発話指示部25は、再度、指示した言語による発話を促す内容を出力する。
In the speech translation device 1a according to the present embodiment, when the
これによれば、表示方向と音源方向とが異なる場合でも、発話指示部25が再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置1aは、対象となる話者の音声を確実に取得することができるため、より確実に音声を翻訳することができる。
According to this, even if the display direction and the sound source direction are different, the
本実施の形態における音声翻訳装置1aにおいても、実施の形態1等と同様の作用効果を奏する。 The speech translation device 1a in this embodiment also has the same effects as in the first embodiment.
(実施の形態2の変形例)
本変形例における他の構成は、特に明記しない場合は、実施の形態1と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
(Modification of Embodiment 2)
Unless otherwise specified, other configurations in this modification are the same as those in
このように構成される音声翻訳装置1aが行う動作について、図6を用いて説明する。 The operation performed by the speech translation device 1a configured in this way will be explained using FIG. 6.
図6は、実施の形態2の変形例における音声翻訳装置1aの動作を示すフローチャートである。 FIG. 6 is a flowchart showing the operation of the speech translation device 1a in a modification of the second embodiment.
図5と同様の処理については、同一の符号を付し、説明を適宜省略する。 Processes similar to those in FIG. 5 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
音声翻訳装置1aの処理において、ステップS11~S31の処理を経たのち、ステップS32でNOの場合、制御部31aは、表示方向と音源方向との比較をしてから規定期間が経過したかどうかを判定する(S32a)。
In the processing of the speech translation device 1a, after going through the processing of steps S11 to S31, if NO in step S32, the
制御部31aは、表示方向と音源方向との比較をしてから規定期間が経過していない場合(S32aでNO)、処理をステップS32aに戻す。
If the specified period has not elapsed since the comparison between the display direction and the sound source direction (NO in S32a), the
制御部31aは、表示方向と音源方向との比較をしてから規定期間が経過している場合(S32aでYES)、処理をステップS33に進め、図5と同様の処理を行う。
If the specified period has elapsed since the comparison between the display direction and the sound source direction (YES in S32a), the
このように、本変形例における音声翻訳装置1aにおいて、表示方向と音源方向とが異なる場合、発話指示部25は、制御部31aが比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する。
In this way, in the speech translation device 1a according to the present modification, when the display direction and the sound source direction are different, the
これによれば、表示方向と音源方向との比較をしてから規定期間を空けることで、第1話者と第2話者との音声が混在して入力されることを抑制することができる。これにより、規定期間経過後、再度、発話を促す内容を出力することで、対象となる話者が発話する。このため、音声翻訳装置1aは、対象となる話者の音声をより確実に取得することができるため、より確実に音声を翻訳することができる。 According to this, by leaving a specified period after comparing the display direction and the sound source direction, it is possible to suppress the voices of the first speaker and the second speaker from being input together. . As a result, after the predetermined period of time has elapsed, the target speaker speaks by outputting the content encouraging him to speak again. Therefore, the speech translation device 1a can more reliably acquire the speech of the target speaker, and therefore can translate the speech more reliably.
本変形例における音声翻訳装置1aにおいても、実施の形態2と同様の作用効果を奏する。 The speech translation device 1a in this modification also provides the same effects as in the second embodiment.
(実施の形態3)
<構成>
本実施の形態の音声翻訳装置1bの構成を、図7を用いて説明する。
(Embodiment 3)
<Configuration>
The configuration of the
図7は、実施の形態3における音声翻訳装置1bを示すブロック図である。
FIG. 7 is a block diagram showing a
本実施の形態では、音源方向を推定する点で、実施の形態1等と相違する。
This embodiment differs from
本実施の形態における他の構成は、特に明記しない場合は、実施の形態1等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
Unless otherwise specified, other configurations in this embodiment are the same as those in
音声翻訳装置1bは、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27、音声出力部28、電源部29及び音源方向推定部31の他に、複数の音声入力部21と、第1ビームフォーマ部41と、第2ビームフォーマ部42と、入力切換部32とを備える。
The
[複数の音声入力部21]
複数の音声入力部21は、マイクロフォンアレイを構成する。複数の音声入力部21のそれぞれは、取得した音響信号を第1ビームフォーマ部41及び第2ビームフォーマ部42に出力する。本実施の形態では、2つの音声入力部21を用いている例を示す。
[Multiple audio input units 21]
The plurality of
[第1ビームフォーマ部41及び第2ビームフォーマ部42]
第1ビームフォーマ部41は、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声の音響信号を信号処理することにより、第1話者による音声の音源方向に収音の指向性を制御する。また、第2ビームフォーマ部42は、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声の音響信号を信号処理することにより、第2話者による音声の音源方向に収音の指向性を制御する。本実施の形態では、第1ビームフォーマ部41及び第2ビームフォーマ部42は、複数の音声入力部21のそれぞれから取得した音響信号を信号処理する。
[
The
これにより、第1ビームフォーマ部41及び第2ビームフォーマ部42は、所定方向に収音の指向性を制御することで、所定方向以外の音の入力を抑制する。所定方向は、例えば、第1話者及び第2話者がそれぞれ発話する音声のそれぞれの音源方向である。
Thereby, the
本実施の形態では、第1ビームフォーマ部41は、第1話者側に配置され、複数の音声入力部21のそれぞれと通信可能に接続され、第2ビームフォーマ部42は、第2話者側に配置され、複数の音声入力部21のそれぞれと通信可能に接続される。第1ビームフォーマ部41及び第2ビームフォーマ部42のそれぞれは、複数の音声入力部21のそれぞれから取得した音響信号を信号処理した結果である音響処理信号を、入力切換部32に出力する。
In this embodiment, the
[発話指示部25]
発話指示部25は、入力切換部32に、第1ビームフォーマ部41の出力信号を取得するか、第2ビームフォーマ部42の出力信号を取得するかを切換えさせる。具体的には、発話指示部25は、音源方向推定部31から推定した結果である音源方向を示す音源方向情報を取得すると、音源方向情報に示される音源方向と、ビームフォーマ部の収音の指向性である所定方向とを比較する。発話指示部25は、音源方向と所定方向とが実質的に一致する又は近しい方向のビームフォーマ部を選択する。
[Speech instruction section 25]
The
発話指示部25は、第1ビームフォーマ部41及び第2ビームフォーマ部42から選択したビームフォーマ部の出力信号を出力させるように、入力切換部32に切換コマンドを出力する。
The
[入力切換部32]
入力切換部32は、第1ビームフォーマ部41の出力信号、及び、第2ビームフォーマ部42の出力信号を取得し、音声検出部22に出力する出力信号を切換える装置である。入力切換部32は、取得する信号を、第1ビームフォーマ部41の出力信号、又は、第2ビームフォーマ部42の出力信号に切換える。具体的には、入力切換部32は、発話指示部25からの切換コマンドを取得することで、第1ビームフォーマ部41の出力信号から第2ビームフォーマ部42の出力信号、又は、第2ビームフォーマ部42の出力信号から第1ビームフォーマ部41の出力信号に切換える。入力切換部32は、切換コマンドによって、第1ビームフォーマ部41の出力信号を音声検出部22に出力したり、第2ビームフォーマ部42の出力信号を音声検出部22に出力したりする。
[Input switching section 32]
The
入力切換部32は、第1ビームフォーマ部41、第2ビームフォーマ部42、音声検出部22及び発話指示部25と通信可能に接続される。
The
<動作>
以上のように構成される音声翻訳装置1bが行う動作について説明する。
<Operation>
The operation performed by the
図8は、実施の形態3における音声翻訳装置1bの動作を示すフローチャートである。
FIG. 8 is a flowchart showing the operation of the
図5等と同様の処理については、同一の符号を付し、説明を適宜省略する。 Processes similar to those in FIG. 5 and the like are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
図8に示すように、音声翻訳装置1bの処理において、ステップS11、S12a、S31及びS32の処理を経たのち、制御部31aが表示方向と音源方向とが実質的に一致すると判定した場合(S32でYES)、発話指示部25は、入力切換部32に切換コマンドを出力する(S51)。
As shown in FIG. 8, in the processing of the
具体的には、第1話者と第2話者とが発話するうえで、2つの音声入力部21において、第1ビームフォーマ部41は、第2話者の発話よりも第1話者の発話に対して高い感度を有し、第2ビームフォーマ部42は、第1話者の発話よりも第2話者の発話に対して高い感度を有する。
Specifically, when the first speaker and the second speaker speak, the
このため、表示方向が第1話者側の表示部27の表示領域であれば、第1ビームフォーマ部41の方が第1話者の発話に対して高い感度を有するため、発話指示部25は、第1ビームフォーマ部41の出力信号を出力させるように、入力切換部32に切換コマンドを出力する。この場合、入力切換部32は、切換コマンドを取得すると、第1ビームフォーマ部41の出力信号を出力する。
Therefore, if the display direction is the display area of the
また、表示方向が第2話者側の表示部27の表示領域であれば、第2ビームフォーマ部42の方が第2話者の発話に対して高い感度を有するため、発話指示部25は、第2ビームフォーマ部42の出力信号を出力させるように、入力切換部32に切換コマンドを出力する。この場合、入力切換部32は、切換コマンドを取得すると、第2ビームフォーマ部42の出力信号を出力する。
Furthermore, if the display direction is the display area of the
そして、音声翻訳装置1bは、ステップS12に進み、図5と同様の処理を行う。
The
<作用効果>
次に、本実施の形態における音声翻訳装置1bの作用効果について説明する。
<Effect>
Next, the effects of the
以上のように、本実施の形態における音声翻訳装置1bにおいて、音声入力部21は、複数設けられる。また、音声翻訳装置1bは、さらに、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部41と、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部42と、取得する信号を、第1ビームフォーマ部41の出力信号、又は、第2ビームフォーマ部42の出力信号に切換える入力切換部32と、複数の音声入力部21に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部31とを備える。そして、発話指示部25は、入力切換部32に、第1ビームフォーマ部41の出力信号を取得するか、第2ビームフォーマ部42の出力信号を取得するかを切換えさせる。
As described above, in the
これによれば、音源方向推定部31によって、音声翻訳装置1bに対する相対的な話者の方向を推定することができる。このため、入力切換部32は、話者の方向に適した第1ビームフォーマ部41の出力信号及び第2ビームフォーマ部42の出力信号のいずれかに切換えることができる。つまり、音源方向にビームフォーマ部の収音の指向性を向けることができるため、音声翻訳装置1bでは、第1話者及び第2話者の音声について、周囲ノイズを低減して収音することができる。
According to this, the direction of the speaker relative to the
本実施の形態における音声翻訳装置1bにおいても、実施の形態1等と同様の作用効果を奏する。
The
(実施の形態3の変形例)
本変形例の音声翻訳装置1cを、図9を用いて説明する。
(Modification of Embodiment 3)
The
図9は、実施の形態3の変形例における音声翻訳装置1cを示すブロック図である。
FIG. 9 is a block diagram showing a
本変形例における他の構成は、特に明記しない場合は、実施の形態1等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
Unless otherwise specified, other configurations in this modification are the same as those in
図9に示すように、第1ビームフォーマ部41及び第2ビームフォーマ部42は、複数の音声入力部21のそれぞれと通信可能に接続され、かつ、音源方向推定部31及び入力切換部32と通信可能に接続される。
As shown in FIG. 9, the
第1ビームフォーマ部41及び第2ビームフォーマ部42には、複数の音声入力部21のそれぞれからの音響信号が入力される。第1ビームフォーマ部41及び第2ビームフォーマ部42は、入力されたそれぞれの音響信号を信号処理することにより、信号処理した結果であるそれぞれの音響処理信号を、音源方向推定部31及び入力切換部32のそれぞれに出力する。
Acoustic signals from each of the plurality of
つまり、本変形例では、複数の音声入力部21のそれぞれは、第1ビームフォーマ部41及び第2ビームフォーマ部42と通信可能に接続され、音源方向推定部31とは通信可能に接続されていない。
That is, in this modification, each of the plurality of
このように、音源方向推定部31には、第1ビームフォーマ部41及び第2ビームフォーマ部42によって、話者による音声の音源方向に収音の指向性を高めた音響信号が入力される。
In this way, the sound source
このような、本変形例における音声翻訳装置1cにおいて、音声入力部21は、複数設けられる。また、音声翻訳装置1cは、さらに、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部41と、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声を信号処理することにより、第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部42と、第1ビームフォーマ部41の出力信号、及び、第2ビームフォーマ部42の出力信号を信号処理することにより、音源方向を推定する音源方向推定部31とを備える。
In such a
これによれば、音源方向推定部31によって、音声翻訳装置1cに対する相対的な話者の方向を推定することができる。このため、音源方向推定部31は、話者の方向に適した第1ビームフォーマ部41の出力信号及び第2ビームフォーマ部42の出力信号を信号処理するため、信号処理による演算コストを低下させることができる。
According to this, the sound source
本変形例における音声翻訳装置1cにおいても、上述の実施の形態1等と同様の作用効果を奏する。
The
(実施の形態4)
<構成>
本実施の形態の音声翻訳装置1dの構成を、図10を用いて説明する。
(Embodiment 4)
<Configuration>
The configuration of the
図10は、実施の形態4における音声翻訳装置1dを示すブロック図である。
FIG. 10 is a block diagram showing a
本実施の形態では、音声翻訳装置1dがスコア算出部43を有する点で、実施の形態1等と相違する。
This embodiment differs from
本実施の形態における構成は、特に明記しない場合は、実施の形態1等と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
Unless otherwise specified, the configuration in this embodiment is the same as that in
図10に示すように、音声翻訳装置1dの音声認識部23は、スコア算出部43を備える。
As shown in FIG. 10, the
[スコア算出部43]
スコア算出部43は、音声を音声認識した結果、及び、当該結果の信頼性スコアを算出し、算出した信頼性スコアを、発話指示部25に出力する。信頼性スコアは、音声検出部22から取得した音声情報に示される音声を音声認識したときの、音声認識の精度(類似度)を示す。例えば、スコア算出部43は、音声情報に示される音声を変換したテキスト文と、音声情報に示される音声とを比較し、テキスト文と当該音声との類似度を表す信頼性スコアを算出する。
[Score calculation unit 43]
The
なお、スコア算出部43は、音声認識部23に備えられていなくてもよく、音声認識部23と独立した別の装置であってもよい。
Note that the
[発話指示部25]
発話指示部25は、音声認識部23のスコア算出部43から取得した信頼性スコアを評価することで、音声認識の精度を判定する。具体的には、発話指示部25は、音声認識部23のスコア算出部43から取得した信頼性スコアが閾値以下であるかどうかを判定する。発話指示部25は、信頼性スコアが閾値以下の場合、信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、表示部27及び音声出力部28の少なくともいずれかを介して出力する。発話指示部25は、信頼性スコアが閾値よりも高い場合、音声の翻訳を行う。
[Speech instruction section 25]
The
<動作>
以上のように構成される音声翻訳装置1dが行う動作について説明する。
<Operation>
The operation performed by the
図11は、実施の形態4における音声翻訳装置1dの動作を示すフローチャートである。
FIG. 11 is a flowchart showing the operation of the
図と同様の処理については、同一の符号を付し、説明を適宜省略する。 Processes similar to those in the figures are given the same reference numerals, and descriptions thereof will be omitted as appropriate.
音声翻訳装置1dの処理において、ステップS11~S13の処理を経たのち、音声認識部23のスコア算出部43は、音声認識結果の信頼性スコアを算出し、算出した信頼性スコアを発話指示部25に出力する(S61)。
In the processing of the
次に、発話指示部25は、音声認識部23のスコア算出部43から信頼性スコアを取得すると、取得した信頼性スコアが閾値以下であるかどうかを判定する(S62)。
Next, upon acquiring the reliability score from the
発話指示部25は、信頼性スコアが閾値以下の場合(S62でYES)、信頼性スコアが閾値以下の音声の翻訳を行わずに、再度、発話を促す内容である発話指示テキスト情報を、表示部27を介して出力する(S18)。そして、音声翻訳装置1dは、ステップS19に進み、図3等と同様の処理を行う。
If the reliability score is less than or equal to the threshold (YES in S62), the
発話指示部25は、信頼性スコアが閾値よりも高い場合(S62でNO)、ステップS14に進み、図3等と同様の処理を行う。
If the reliability score is higher than the threshold (NO in S62), the
<作用効果>
次に、本実施の形態における音声翻訳装置1dの作用効果について説明する。
<Effect>
Next, the effects of the
以上のように、本実施の形態における音声翻訳装置1dにおいて、音声認識部23は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、発話指示部25は、音声認識部23から取得した信頼性スコアが閾値以下の場合、信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、表示部27及び音声出力部28の少なくともいずれかを介して出力する。
As described above, in the
これによれば、音声認識の精度を示す信頼性スコアが閾値以下であれば、発話指示部25が再度、発話を促す内容を出力することで、対象となる話者が再度、発話する。このため、音声翻訳装置1dは、対象となる話者の音声を確実に音声認識することができるようになるため、より確実に音声を翻訳することができる。
According to this, if the reliability score indicating the accuracy of speech recognition is equal to or less than the threshold value, the
特に、音声出力部28が発話を促す内容を音声により出力すれば、話者は、正しく音声認識されていないと気付き易くなる。
Particularly, if the
本実施の形態における音声翻訳装置1dにおいても、上述の実施の形態1等と同様の作用効果を奏する。
The
(その他変形例等)
以上、本開示について、実施の形態1~4及び実施の形態2、4に基づいて説明したが、本開示は、これら実施の形態1~4及び実施の形態2、4等に限定されるものではない。
(Other variations, etc.)
Although the present disclosure has been described above based on
例えば、上記各実施の形態1~4及び実施の形態2、4に係る音声翻訳装置、音声翻訳方法及びそのプログラムでは、第1話者及び1以上の第2話者のそれぞれの音声を、ネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよく、当該それぞれの音声を認識した第1テキスト文及び第2テキスト文だけをネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよい。 For example, in the speech translation device, speech translation method, and program thereof according to each of the first to fourth embodiments and the second and fourth embodiments, the respective voices of the first speaker and one or more second speakers are transmitted over the network. may be stored in the cloud server by transmitting it to the cloud server via the network, and transmitting only the first text sentence and the second text sentence in which the respective voices are recognized to the cloud server via the network. You can also save it on a cloud server.
また、上記各実施の形態1~4及び実施の形態2、4の変形例に係る音声翻訳装置、音声翻訳方法及びそのプログラムにおいて、音声認識部及び翻訳部は、音声翻訳装置に搭載されていなくてもよい。この場合、音声認識部及び翻訳部は、クラウドサーバに搭載されるエンジンであってもよい。音声翻訳装置は、取得した音声情報をクラウドサーバに送信してもよく、音声情報に基づいてクラウドサーバが音声認識と翻訳とを行った結果である、テキスト文と翻訳テキスト文と翻訳音声とを、クラウドサーバから取得してもよい。 Furthermore, in the speech translation device, speech translation method, and program thereof according to each of the first to fourth embodiments and the modifications of the second and fourth embodiments, the speech recognition unit and the translation unit are not installed in the speech translation device. You can. In this case, the speech recognition section and the translation section may be engines installed in the cloud server. The speech translation device may send the acquired speech information to the cloud server, and the speech translation device may send the obtained speech information to the cloud server, and the text sentence, the translated text sentence, and the translated speech, which are the results of speech recognition and translation performed by the cloud server based on the speech information. , may be obtained from a cloud server.
また、上記各実施の形態1~4及び実施の形態2、4の変形例に係る音声翻訳方法は、コンピュータを用いたプログラムによって実現され、このようなプログラムは、記憶装置に記憶されてもよい。 Further, the speech translation methods according to the first to fourth embodiments and the modified examples of the second and fourth embodiments are realized by a program using a computer, and such a program may be stored in a storage device. .
また、上記各実施の形態1~4及び実施の形態2、4の変形例に係る音声翻訳装置、音声翻訳方法及びそのプログラムに含まれる各処理部は、典型的に集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。 Further, each processing unit included in the speech translation device, speech translation method, and program thereof according to each of the first to fourth embodiments and the modifications of the second and fourth embodiments is typically realized as an LSI, which is an integrated circuit. be done. These may be integrated into one chip individually, or may be integrated into one chip including some or all of them.
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。 Further, circuit integration is not limited to LSI, and may be realized using a dedicated circuit or a general-purpose processor. An FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI may be used.
なお、上記各実施の形態1~4及び実施の形態2、4の変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 In each of the first to fourth embodiments and the modified examples of the second and fourth embodiments, each component is configured with dedicated hardware or by executing a software program suitable for each component. May be realized. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示の実施の形態1~4及び実施の形態2、4の変形例は例示された数字に制限されない。
Furthermore, all the numbers used above are exemplified to specifically explain the present disclosure, and
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。 Furthermore, the division of functional blocks in the block diagram is just an example; multiple functional blocks may be realized as one functional block, one functional block may be divided into multiple functional blocks, or some functions may be moved to other functional blocks. You can. Further, functions of a plurality of functional blocks having similar functions may be processed in parallel or in a time-sharing manner by a single piece of hardware or software.
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。 Further, the order in which the steps in the flowchart are executed is for illustrative purposes to specifically explain the present disclosure, and may be in an order other than the above. Further, some of the above steps may be executed simultaneously (in parallel) with other steps.
その他、実施の形態1~4及び実施の形態2、4の変形例に対して当業者が思いつく各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態1~4及び実施の形態2、4の変形例における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
In addition,
本開示は、異なる言語を話す複数の話者が会話によって意思の疎通を図るために用いられる音声翻訳装置、音声翻訳方法及びそのプログラムに適用することができる。 The present disclosure can be applied to a speech translation device, a speech translation method, and a program thereof, which are used for a plurality of speakers of different languages to communicate through conversation.
1、1a、1b、1c、1d 音声翻訳装置
21 音声入力部
22 音声検出部
23 音声認識部
24 優先発話入力部
25 発話指示部
26 翻訳部
27 表示部
28 音声出力部
31 音源方向推定部
31a 制御部
32 入力切換部
41 第1ビームフォーマ部
42 第2ビームフォーマ部
1, 1a, 1b, 1c, 1d
Claims (13)
音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出する音声検出部と、
前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部と、
前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力する発話指示部とを備える
音声翻訳装置。 A voice translation device for carrying out a conversation between a first speaker who speaks in a first language and a second speaker who is a conversation partner of the first speaker and who speaks in a second language different from the first language. There it is,
a voice detection unit that detects a voice section uttered by the first speaker and the second speaker from the sound input to the voice input unit;
By performing voice recognition on the voice in the voice section detected by the voice detection unit, displaying a translation result translated from the first language indicated by the voice into the second language, and displaying the translation result from the second language to the second language. a display section that displays translation results translated into one language;
outputting content that prompts the second speaker to speak after the first speaker speaks in the second language via the display unit , after displaying the translation result, or at the same time , and and a speech instruction section that outputs content prompting the first speaker to speak in the first language via the display section , after displaying the translation result, or at the same time, after the speaker has uttered the speech translation device. .
請求項1に記載の音声翻訳装置。 Further, when the voice uttered by the first speaker or the second speaker is voice recognized, the voice uttered by the first speaker or the second speaker whose voice has been recognized is prioritized again. The speech translation device according to claim 1, further comprising a priority speech input unit that performs speech recognition.
前記第1話者と前記第2話者とが会話する音声が入力される音声入力部と、
前記音声検出部が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部と、
前記音声認識部が変換した前記テキスト文を前記第1言語から前記第2言語に翻訳し、かつ、前記第2言語から前記第1言語に翻訳する翻訳部と、
前記翻訳部が翻訳した結果を音声によって出力する音声出力部とを備える
請求項1又は2に記載の音声翻訳装置。 moreover,
an audio input unit into which audio of the conversation between the first speaker and the second speaker is input;
a voice recognition unit that converts the voice in the voice section detected by the voice detection unit into a text sentence by voice recognition;
a translation unit that translates the text sentence converted by the speech recognition unit from the first language to the second language, and from the second language to the first language;
The speech translation device according to claim 1 or 2, further comprising a speech output section that outputs the result translated by the translation section as a voice.
さらに、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、
取得する信号を、前記第1ビームフォーマ部の出力信号、又は、前記第2ビームフォーマ部の出力信号に切換える入力切換部と、
複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部とを備え、
前記発話指示部は、前記入力切換部に、前記第1ビームフォーマ部の出力信号を取得するか、前記第2ビームフォーマ部の出力信号を取得するかを切換えさせる
請求項3に記載の音声翻訳装置。 A plurality of the audio input units are provided,
moreover,
a first beam that controls the directivity of sound collection in the direction of the source of the voice of the first speaker by signal processing the voice input to at least some of the voice input units of the plurality of voice input units; Forma part and
a second beam that controls the directivity of sound collection in the direction of the sound source of the voice by the second speaker by signal processing the voice input to at least some of the voice input units of the plurality of voice input units; Forma part and
an input switching unit that switches a signal to be acquired to an output signal of the first beamformer unit or an output signal of the second beamformer unit;
a sound source direction estimation unit that estimates a sound source direction by signal processing the audio input to the plurality of audio input units;
The speech translation according to claim 3, wherein the speech instruction section causes the input switching section to switch between acquiring the output signal of the first beamformer section and acquiring the output signal of the second beamformer section. Device.
さらに、
複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部と、
当該音声翻訳装置に対する前記第1話者の位置に対応する前記表示部の表示領域に前記第1言語を表示させ、当該音声翻訳装置に対する前記第2話者の位置に対応する前記表示部の表示領域に前記第2言語を表示させる制御部とを備え、
前記制御部は、
当該音声翻訳装置の表示部から前記第1話者又は前記第2話者に向かう表示方向であって、前記表示部のいずれかの表示領域に表示する側の表示方向と、前記音源方向推定部が推定した音源方向とを比較し、
前記表示方向と推定した音源方向とが実質的に一致する場合、前記音声認識部及び前記翻訳部を実行させ、
前記表示方向と推定した音源方向とが異なる場合、前記音声認識部及び前記翻訳部を停止させる
請求項3に記載の音声翻訳装置。 A plurality of the audio input units are provided,
moreover,
a sound source direction estimation unit that estimates a sound source direction by signal processing the audio input to the plurality of audio input units;
Displaying the first language in a display area of the display unit corresponding to the position of the first speaker with respect to the voice translation device, and displaying the first language on the display unit corresponding to the position of the second speaker with respect to the voice translation device. a control unit that displays the second language in the area;
The control unit includes:
a display direction from the display section of the speech translation device toward the first speaker or the second speaker, the display direction being displayed in one of the display areas of the display section; and the sound source direction estimating section. Compare the sound source direction estimated by
If the display direction and the estimated sound source direction substantially match, causing the speech recognition unit and the translation unit to execute;
The speech translation device according to claim 3, wherein the speech recognition section and the translation section are stopped when the display direction and the estimated sound source direction are different.
請求項5に記載の音声翻訳装置。 The speech translation device according to claim 5, wherein when the control unit stops the speech recognition unit and the translation unit, the speech instruction unit outputs content that prompts speech in the instructed language again.
請求項5又は6に記載の音声翻訳装置。 If the display direction and the estimated sound source direction are different, the speech instruction section outputs content encouraging speech in the instructed language again after a prescribed period has elapsed since the comparison was made by the control section. 6. The speech translation device according to 5 or 6.
さらに、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、
前記第1ビームフォーマ部の出力信号、及び、前記第2ビームフォーマ部の出力信号を信号処理することにより、音源方向を推定する音源方向推定部とを備える
請求項3に記載の音声翻訳装置。 A plurality of the audio input units are provided,
moreover,
a first beam that controls the directivity of sound collection in the direction of the source of the voice of the first speaker by signal processing the voice input to at least some of the voice input units of the plurality of voice input units; Forma part and
a second beam that controls the directivity of sound collection in the direction of the sound source of the voice by the second speaker by signal processing the voice input to at least some of the voice input units of the plurality of voice input units; Forma part and
The speech translation device according to claim 3, further comprising: a sound source direction estimating unit that estimates a sound source direction by signal processing an output signal of the first beamformer unit and an output signal of the second beamformer unit.
当該音声翻訳装置の起動時に、前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力し、
前記第1話者の発話による音声が前記第1言語から前記第2言語に翻訳されて、前記表示部に翻訳結果が表示された後に、前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力する
請求項1~8のいずれか1項に記載の音声翻訳装置。 The speech instruction section is
When the voice translation device is activated, content that prompts the first speaker to speak is output in the first language via the display unit,
After the voice uttered by the first speaker is translated from the first language to the second language and the translation result is displayed on the display unit, the display displays content that prompts the second speaker to speak. The speech translation device according to any one of claims 1 to 8, wherein the speech translation device outputs the speech in the second language via a section.
翻訳開始後、発話を促すための音声を規定回数、前記音声出力部に出力させ、
前記規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを前記表示部に出力させる
請求項3~8のいずれか1項に記載の音声翻訳装置。 The speech instruction section is
After the translation starts, the audio output unit outputs a voice to encourage speaking a predetermined number of times,
The speech translation device according to any one of claims 3 to 8, wherein the display unit outputs a message to prompt the user to speak after outputting the voice to prompt the user to speak the predetermined number of times.
前記発話指示部は、前記音声認識部から取得した前記信頼性スコアが閾値以下の場合、前記信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、前記表示部及び前記音声出力部の少なくともいずれかを介して出力する
請求項3~8のいずれか1項に記載の音声翻訳装置。 The voice recognition unit outputs a result of voice recognition of the voice and a reliability score of the result,
When the reliability score acquired from the speech recognition unit is below a threshold value, the speech instruction unit displays content encouraging speech to the display unit and the above, without translating the speech whose reliability score is below the threshold value. The speech translation device according to claim 3, wherein the speech translation device outputs the speech through at least one of the speech output units.
音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出することと、
検出した音声区間の音声を音声認識することで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部が表示することと、
前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力することとを含む
音声翻訳方法。 A voice translation method for carrying out a conversation between a first speaker who speaks in a first language and a second speaker who is a conversation partner of the first speaker and who speaks in a second language different from the first language. There it is,
detecting audio sections uttered by the first speaker and the second speaker from the sounds input to the audio input unit;
Displaying a translation result translated from the first language indicated by the voice into the second language by performing voice recognition on the voice in the detected voice section, and translating the voice from the second language into the first language. The display unit that displays the results displays;
outputting content that prompts the second speaker to speak after the first speaker speaks in the second language via the display unit , after displaying the translation result, or at the same time , and A speech translation method comprising: outputting content that prompts the first speaker to speak after the speaker has uttered the content in the first language via the display unit , after displaying the translation result, or at the same time .
プログラム。 A program for causing a computer to execute the speech translation method according to claim 12.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010185150.XA CN111739511A (en) | 2019-03-25 | 2020-03-17 | Speech translation device, speech translation method, and recording medium |
US16/824,110 US11507759B2 (en) | 2019-03-25 | 2020-03-19 | Speech translation device, speech translation method, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962823197P | 2019-03-25 | 2019-03-25 | |
US62/823,197 | 2019-03-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020160429A JP2020160429A (en) | 2020-10-01 |
JP7429107B2 true JP7429107B2 (en) | 2024-02-07 |
Family
ID=72643263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019196078A Active JP7429107B2 (en) | 2019-03-25 | 2019-10-29 | Speech translation device, speech translation method and its program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7429107B2 (en) |
CN (1) | CN111739511A (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100788A (en) | 1999-09-30 | 2001-04-13 | Sony Corp | Speech processor, speech processing method and recording medium |
JP2002135642A (en) | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Speech translation system |
JP2003288339A (en) | 2001-01-24 | 2003-10-10 | Matsushita Electric Ind Co Ltd | Device and method for voice conversion, program, and medium |
JP2011248140A (en) | 2010-05-27 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | Voice recognition device |
JP2018163581A (en) | 2017-03-27 | 2018-10-18 | 株式会社リクルートライフスタイル | Voice translation device, voice translation method, and voice translation program |
-
2019
- 2019-10-29 JP JP2019196078A patent/JP7429107B2/en active Active
-
2020
- 2020-03-17 CN CN202010185150.XA patent/CN111739511A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100788A (en) | 1999-09-30 | 2001-04-13 | Sony Corp | Speech processor, speech processing method and recording medium |
JP2002135642A (en) | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Speech translation system |
JP2003288339A (en) | 2001-01-24 | 2003-10-10 | Matsushita Electric Ind Co Ltd | Device and method for voice conversion, program, and medium |
JP2011248140A (en) | 2010-05-27 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | Voice recognition device |
JP2018163581A (en) | 2017-03-27 | 2018-10-18 | 株式会社リクルートライフスタイル | Voice translation device, voice translation method, and voice translation program |
Also Published As
Publication number | Publication date |
---|---|
CN111739511A (en) | 2020-10-02 |
JP2020160429A (en) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210210071A1 (en) | Methods and devices for selectively ignoring captured audio data | |
JP4837917B2 (en) | Device control based on voice | |
US9293134B1 (en) | Source-specific speech interactions | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
US9484017B2 (en) | Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof | |
JP3674990B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
US9792901B1 (en) | Multiple-source speech dialog input | |
US20180217985A1 (en) | Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program | |
US11182567B2 (en) | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method | |
EP1494208A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
EP3654329B1 (en) | In-vehicle device and speech recognition method | |
JP7330066B2 (en) | Speech recognition device, speech recognition method and its program | |
JP2006251545A (en) | Speech interaction system and computer program | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US11507759B2 (en) | Speech translation device, speech translation method, and recording medium | |
JP7287006B2 (en) | Speaker Determining Device, Speaker Determining Method, and Control Program for Speaker Determining Device | |
JP7429107B2 (en) | Speech translation device, speech translation method and its program | |
JP2018116206A (en) | Voice recognition device, voice recognition method and voice recognition system | |
JP2010206365A (en) | Interaction device | |
KR20180066513A (en) | Automatic interpretation method and apparatus, and machine translation method | |
JP7172120B2 (en) | Speech recognition device and speech recognition method | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP7449070B2 (en) | Voice input device, voice input method and its program | |
JP6748565B2 (en) | Voice dialogue system and voice dialogue method | |
JP2020091435A (en) | Voice recognition system, notification method of voice recognition system, program, and mobile body mounted apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240126 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7429107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |