JP6238181B1 - Loudspeaker and control method thereof - Google Patents
Loudspeaker and control method thereof Download PDFInfo
- Publication number
- JP6238181B1 JP6238181B1 JP2016196992A JP2016196992A JP6238181B1 JP 6238181 B1 JP6238181 B1 JP 6238181B1 JP 2016196992 A JP2016196992 A JP 2016196992A JP 2016196992 A JP2016196992 A JP 2016196992A JP 6238181 B1 JP6238181 B1 JP 6238181B1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- output
- original
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Alarm Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力できるようにする。【解決手段】ユーザが発話した音声を収音するマイク3と、マイクで収音した原音声を録音する録音部31と、原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部26と、原音声、原言語の合成音声および他言語の合成音声をスピーカから出力する音声出力部27と、ユーザ設定情報に基づいて、原言語の音声として原音声と原言語の合成音声とのいずれかを出力するように制御する出力制御部36と、を備える。【選択図】図3To enable a user to appropriately switch and output an original voice recorded from a voice spoken by a user and a synthesized voice of a source language generated from the original voice. SOLUTION: A microphone 3 that picks up speech uttered by a user, a recording unit 31 that records original sound picked up by the microphone, and synthesized speech of a source language corresponding to the source speech and synthesized speech of other languages are acquired. The synthesized speech acquisition unit 26, the speech output unit 27 that outputs the source speech, the synthesized speech of the source language and the synthesized speech of another language from the speaker, and the source language and source language as source language speech based on the user setting information An output control unit 36 that controls to output any one of the synthesized voices. [Selection] Figure 3
Description
本発明は、ユーザが発話した音声を出力する拡声装置およびその制御方法に関するものである。 The present invention relates to a loudspeaker that outputs voice spoken by a user and a control method thereof.
災害時などの避難の誘導、警備のための案内や誘導、業務の指示などに関するメッセージを多数の人物に同時に報知するため、ユーザが発話した音声を増幅して出力する拡声装置が使用されている。 A loudspeaker that amplifies and outputs the voice spoken by the user is used to simultaneously notify a large number of people of messages related to guidance for evacuation, guidance and guidance for security, business instructions, etc. .
一方、空港、駅、ホテル、観光地などでは外国人旅行者が多数滞在し、また、工場、倉庫、工事現場などでは外国人労働者が多数働いており、このように外国人が多数滞在する場所では、必要なメッセージを外国人に理解可能な外国語の音声で報知することが望まれる。 On the other hand, many foreign tourists stay at airports, train stations, hotels, sightseeing spots, and many foreign workers work at factories, warehouses, construction sites, etc. In places, it is desirable to broadcast necessary messages in a foreign language that can be understood by foreigners.
このような必要なメッセージを外国語の音声で報知することに関する技術として、従来、複数のメッセージの候補を予め登録しておき、その複数のメッセージの候補の中から適切なメッセージをユーザが選択することで、選択されたメッセージに対応する外国語の音声が出力されるようにした技術が知られている(特許文献1参照)。 Conventionally, a plurality of message candidates are registered in advance, and the user selects an appropriate message from the plurality of message candidates, as a technique related to notification of such necessary messages in a foreign language voice. Thus, a technique is known in which a foreign language voice corresponding to a selected message is output (see Patent Document 1).
しかしながら、前記従来の技術では、予め登録されたメッセージの中から適切なものを選択して出力するものであるため、現場が想定外の状況で、登録されたメッセージの中に現場の状況に適したものがない場合には、役に立たないという問題があり、現場の状況に応じた適宜なメッセージを外国語の音声で出力することができる構成が望まれる。 However, since the conventional technique selects and outputs an appropriate message from pre-registered messages, it is suitable for the situation of the site in the registered message in an unexpected situation. When there is nothing, there is a problem that it is not useful, and a configuration that can output an appropriate message in a foreign language according to the situation at the site is desired.
また、ユーザが発話した音声を録音して、その音声を外国語の音声とともに繰り返し出力するようにするとよい。このとき、現場の状況などに応じて、録音した原音声をそのまま出力することが望ましい場合や、原音声の音声認識により取得した文字情報から生成した合成音声を出力することが望ましい場合がある。例えば、緊急時の避難誘導で緊迫感を出す必要がある場合には、原音声をそのまま出力することが望ましいが、通常時の案内では、違和感をなくすため、各言語の音声を合成音声で統一することが望ましい。 Moreover, it is good to record the audio | voice which the user uttered and to output repeatedly the audio | voice with the foreign language audio | voice. At this time, it may be desirable to output the recorded original voice as it is depending on the situation at the site, or it may be desirable to output a synthesized voice generated from character information acquired by voice recognition of the original voice. For example, when it is necessary to give a sense of urgency in emergency evacuation guidance, it is desirable to output the original voice as it is, but in normal guidance, the voice in each language is unified with synthesized voice to eliminate the sense of incongruity. It is desirable to do.
そこで、本発明は、現場の状況などに応じて、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力することができる拡声装置およびその制御方法を提供することを主な目的とする。 Therefore, according to the present invention, the user can appropriately switch and output the original voice recording the voice uttered by the user and the synthesized voice of the original language generated from the original voice depending on the situation at the site. The main object of the present invention is to provide a loudspeaker device and a control method thereof.
本発明の拡声装置は、ユーザが発話した音声を出力する拡声装置であって、ユーザが発話した音声を収音するマイクと、前記マイクで収音した原音声を録音する録音部と、前記原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部と、前記原音声、前記原言語の合成音声および前記他言語の合成音声をスピーカから出力する音声出力部と、ユーザ設定情報に基づいて、原言語の音声として前記原音声と前記原言語の合成音声とのいずれかを出力するように制御する出力制御部と、を備える構成とする。 The loudspeaker of the present invention is a loudspeaker that outputs a voice spoken by a user, a microphone that collects the voice spoken by the user, a recording unit that records the original voice collected by the microphone, and the original A synthesized speech acquisition unit that acquires a synthesized speech of a source language corresponding to speech and a synthesized speech of another language; and a speech output unit that outputs the synthesized speech of the source language, the synthesized speech of the source language, and the synthesized speech of the other language from a speaker; And an output control unit that controls to output either the original speech or the synthesized speech of the source language as the source language speech based on the user setting information.
また、本発明の制御方法は、ユーザが発話した音声を出力する拡声装置の制御方法であって、ユーザが発話した音声をマイクで収音し、前記マイクで収音した原音声を録音し、原言語の音声として前記原音声が選択されている場合には、前記原音声をスピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力し、前記原言語の音声として合成音声が選択されている場合には、前記原音声に対応する原言語の合成音声を取得して、その原言語の合成音声を前記スピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力する構成とする。 Further, the control method of the present invention is a control method of a loudspeaker that outputs the voice spoken by the user, picks up the voice spoken by the user with a microphone, records the original voice picked up by the microphone, When the original speech is selected as the original language speech, the original speech is output from a speaker, and then a synthesized speech of another language corresponding to the original speech is acquired, and a synthesized speech of another language is obtained. When the synthesized speech is selected as the source language speech, the source language synthesized speech corresponding to the source speech is acquired, and the source language synthesized speech is obtained from the speaker. Then, a synthesized speech in another language corresponding to the original speech is acquired, and a synthesized speech in another language is output from the speaker.
本発明によれば、原言語の音声として、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とのいずれかを、現場の状況などに応じてユーザが適宜に切り換えて出力することができる。 According to the present invention, as the source language speech, either the source speech recorded by the user uttered speech or the source language synthesized speech generated from the source speech is selected according to the situation at the site. Can be appropriately switched and output.
前記課題を解決するためになされた第1の発明は、ユーザが発話した音声を出力する拡声装置であって、ユーザが発話した音声を収音するマイクと、前記マイクで収音した原音声を録音する録音部と、前記原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部と、前記原音声、前記原言語の合成音声および前記他言語の合成音声をスピーカから出力する音声出力部と、ユーザ設定情報に基づいて、原言語の音声として前記原音声と前記原言語の合成音声とのいずれかを出力するように制御する出力制御部と、を備える構成とする。 A first invention made to solve the above problem is a loudspeaker device that outputs a voice uttered by a user, a microphone that collects the voice uttered by the user, and an original voice collected by the microphone. A recording unit for recording, a synthesized speech acquisition unit for obtaining synthesized speech in a source language corresponding to the source speech and a synthesized speech in another language, and the source speech, the synthesized speech in the source language, and the synthesized speech in the other language A configuration comprising: an audio output unit that outputs from a speaker; and an output control unit that controls to output either the original speech or the synthesized speech of the original language as source language speech based on user setting information And
これによると、原言語の音声として、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とのいずれかを、現場の状況などに応じてユーザが適宜に切り換えて出力することができる。 According to this, as the source language speech, the user appropriately selects either the source speech recorded from the speech uttered by the user or the source language synthesized speech generated from the source speech according to the situation at the site. Can be output.
また、第2の発明は、前記出力制御部は、前記合成音声を出力する場合に、ユーザ設定情報に基づいて、女性合成音声と男性合成音声とのいずれかを出力するように制御する構成とする。 Further, the second invention is configured such that the output control unit controls to output either a female synthetic voice or a male synthetic voice based on user setting information when outputting the synthetic voice. To do.
これによると、現場の状況などに応じてユーザが適宜に性別を切り換えて合成音声を出力することができるため、ユーザの利便性を高めることができる。 According to this, since the user can appropriately switch the gender according to the situation at the site and output the synthesized speech, the convenience for the user can be improved.
また、第3の発明は、前記出力制御部は、前記原言語の音声に続けて、ユーザが指定した順番で複数の前記他言語の合成音声を出力するように制御する構成とする。 According to a third aspect of the present invention, the output control unit performs control so as to output a plurality of synthesized speech in other languages in the order specified by the user following the source language speech.
これによると、現場に滞在する外国人の割合などに応じて、他言語の合成音声を出力させる順番をユーザが指定することができるため、ユーザの利便性を高めることができる。 According to this, since the user can designate the order in which the synthesized speech of another language is output according to the ratio of foreigners staying at the site, the convenience of the user can be improved.
また、第4の発明は、前記音声出力部は、前記原言語の音声および前記他言語の音声を出力する際に、各言語の音声の間に、ユーザが指定した長さの無音期間を挿入する構成とする。 According to a fourth aspect of the present invention, the sound output unit inserts a silence period of a length specified by the user between the sound of each language when outputting the sound of the source language and the sound of the other language. The configuration is as follows.
これによると、各言語の音声が聞き取りやすくなる。 According to this, it becomes easy to hear the sound of each language.
また、第5の発明は、さらに、前記原音声の特徴情報を取得する音声解析部と、前記原音声および前記他言語の合成音声を出力する場合に、前記原音声と前記他言語の合成音声とで音声の特徴を一致させる処理を行う音声調整部と、を備える構成とする。 In addition, the fifth invention further includes a speech analysis unit that acquires feature information of the original speech, and a synthesized speech of the original speech and the other language when outputting the original speech and the synthesized speech of the other language. And a voice adjustment unit that performs processing for matching the voice characteristics.
これによると、拡声装置から連続して出力される音声(原音声および多言語の合成音声)の特徴が共通化されるので、聴く人物に与える違和感を低減することができる。 According to this, since the features of the voice (original voice and multilingual synthesized voice) continuously output from the loudspeaker are shared, it is possible to reduce the uncomfortable feeling given to the person who listens.
また、第6の発明は、前記音声調整部は、前記原音声と前記他言語の合成音声とで、音声の性別、テンポ、音量および高さの少なくとも一つを一致させる構成とする。 According to a sixth aspect of the present invention, the voice adjustment unit is configured to match at least one of voice gender, tempo, volume, and height between the original voice and the synthesized voice of the other language.
これによると、拡声装置から連続して出力される音声(原音声および多言語の合成音声)の特徴が共通化されるので、聴く人物に与える違和感を低減することができる。 According to this, since the features of the voice (original voice and multilingual synthesized voice) continuously output from the loudspeaker are shared, it is possible to reduce the uncomfortable feeling given to the person who listens.
また、第7の発明は、ユーザが発話した音声を出力する拡声装置の制御方法であって、ユーザが発話した音声をマイクで収音し、前記マイクで収音した原音声を録音し、原言語の音声として前記原音声が選択されている場合には、前記原音声をスピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力し、前記原言語の音声として合成音声が選択されている場合には、前記原音声に対応する原言語の合成音声を取得して、その原言語の合成音声を前記スピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力する構成とする。 The seventh invention is a method of controlling a loudspeaker that outputs a voice uttered by a user, the voice uttered by the user is picked up by a microphone, the original voice picked up by the microphone is recorded, and the original voice is recorded. When the original voice is selected as a language voice, the original voice is output from a speaker, and then a synthesized voice of another language corresponding to the original voice is acquired, and a synthesized voice of the other language is obtained. When the synthesized speech is selected as the source language speech output from the speaker, the source language synthesized speech corresponding to the source speech is acquired and the source language synthesized speech is output from the speaker. Subsequently, a synthesized speech in another language corresponding to the original speech is acquired, and a synthesized speech in another language is output from the speaker.
これによると、第1の発明と同様に、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力することができる。 According to this, similarly to the first invention, the user can appropriately switch and output the original voice recording the voice spoken by the user and the synthesized voice of the original language generated from the original voice.
以下、本発明の実施の形態を、図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本実施形態に係る拡声装置1の側面図である。 FIG. 1 is a side view of a loudspeaker 1 according to the present embodiment.
この拡声装置1では、筐体2の内部に、マイク3と、音声切換部5と、制御部6と、アンプ7と、スピーカ8と、表示入力パネル9と、が収容されている。また、筐体2の下部には、ユーザが把持するグリップ10が取り付けられている。筐体2におけるスピーカ8の前側には、円錐形状のホーン部11が設けられている。なお、筐体2の内部には電池(図示せず)も収容されている。
In the loudspeaker 1, a
マイク3は、ユーザが発話する音声を収音する。
The
制御部6は、マイク3で収音した原音声を録音する処理や、録音した原音声を文字情報に変換する処理(音声認識)や、原音声の文字情報(原文)と類似する定型文を探し出す処理(検索)や、定型文の文字情報から合成音声を生成する処理(音声合成)や、合成音声や原音声を再生する処理などを行う。
The
音声切換部5は、メガホンモード(第1の動作モード)での音声パス(音声の経路)と、翻訳モード(第2の動作モード)での音声パスとを切り換える。アンプ7は、音声切換部5から出力される音声を増幅する。スピーカ8は、アンプ7で増幅された音声を出力する。
The
メガホンモードでは、マイク3で収音した原音声をそのままアンプ7で増幅してスピーカ8で出力する。翻訳モードでは、マイク3で収音した原音声を制御部6に入力して、制御部6で生成した合成音声や原音声をアンプ7で増幅してスピーカ8で出力する。
In the megaphone mode, the original sound picked up by the
筐体2の側面には、モード切換スイッチ12が設けられている。このモード切換スイッチ12は、メガホンモードと翻訳モードとを切り換えるものであり、モード切換スイッチ12の操作に応じて、音声切換部5においてメガホンモードでの音声パスと翻訳モードでの音声パスとが切り換えられる。
A
表示入力パネル9(表示部、入力部)は、タッチパネルと液晶ディスプレイとを組み合わせた、いわゆるタッチパネルディスプレイで構成され、画面を上向きにした状態で、筐体2の上部に形成された凸部18に収容されている。
The display input panel 9 (display unit, input unit) is configured by a so-called touch panel display in which a touch panel and a liquid crystal display are combined, and the
凸部18の側面には電源スイッチ13が設けられている。
A
グリップ10の手前側には、録音スイッチ14と、音量調整スイッチ15とが設けられている。グリップ10の逆側には、出力スイッチ16と、ロックスイッチ17と、が設けられている。ユーザは、一方の手でグリップ10を把持した状態で、その手の親指で録音スイッチを操作し、また、人差し指で出力スイッチを操作することができる。
A
録音スイッチ14は、マイク3で収音した音声の録音を指示するものである。音量調整スイッチ15は、スピーカ8から出力される音声の音量を調整するものである。
The
出力スイッチ16は、メガホンモードでは、アンプ7を動作させる操作を行うものとなり、出力スイッチ16を押下すると、マイク3で収音された原音声がアンプ7で増幅して出力される。一方、翻訳モードでは、出力スイッチ16は、アンプ7を動作させるとともに音声の再生を制御部6に指示する操作を行うものとなり、出力スイッチ16を押下すると、制御部6で音声が再生されて、その音声がアンプ7で増幅されて出力される。このとき、出力スイッチ16を押下し続けることで、音声が繰返し再生される。
The
ロックスイッチ17は、出力スイッチ16を押下状態に保持するものである。これにより、出力スイッチ16をユーザが押下し続けなくても音声の出力を継続させることができる。
The
なお、モード切換スイッチ12はロッカースイッチであり、録音スイッチ14および出力スイッチ16は押ボタンスイッチであり、音量調整スイッチ15はロータリースイッチである。
The
次に、拡声装置1の概略構成について説明する。図2は、拡声装置1の概略構成を示すブロック図である。図3は、制御部6で行われる処理の概略を示す説明図である。
Next, a schematic configuration of the loudspeaker 1 will be described. FIG. 2 is a block diagram showing a schematic configuration of the loudspeaker 1. FIG. 3 is an explanatory diagram showing an outline of the processing performed by the
モード切換スイッチ12の信号が音声切換部5に入力される。この音声切換部5は、モード切換スイッチ12の操作に応じて、メガホンモードでの音声パスと翻訳モードでの音声パスとを切り換えるものであり、入力切換部21と、出力切換部22と、を備えている。入力切換部21では、マイク3から出力される音声を、出力切換部22側および制御部6側のいずれかに出力する。出力切換部22では、入力切換部21および制御部6のいずれかから入力される音声をアンプ7側に出力する。
A signal from the
音声切換部5と制御部6との間にはレベル調整部23が設けられている。このレベル調整部23では、音声切換部5の入力切換部21から出力される音声のレベルが調整される。
A
音量調整スイッチ15の信号が音量調整部24に入力される。この音量調整部24は、音声切換部5とアンプ7との間に設けられている。この音量調整部24では、音量調整スイッチ15の操作に応じて、音声切換部5の出力切換部22から出力される音声の音量が調整される。
A signal from the
出力スイッチ16の信号がアンプ7に入力される。出力スイッチ16は、アンプ7への給電を断続するスイッチとして機能し、メガホンモードにおいて出力スイッチ16が押下されると、アンプ7が通電して音声出力状態となり、マイク3から入力される原音声がアンプ7で増幅されて出力される。一方、翻訳モードにおいて出力スイッチ16が押下されると、アンプ7が通電して音声出力状態になるとともに、再生部35で音声が再生されて、再生部35から出力される音声がアンプ7で増幅されて出力される。
A signal from the
記憶部25は、制御部6において、ユーザが発話する音声を録音した原音声や、原音声の音声認識により取得した原文や、定型文の文字情報から変換された合成音声を一時記憶する。また、記憶部25は、定型文データベースを記憶する。この定型文データベースには、多数の定型文が登録されている。
The
また、記憶部25は、表示入力パネル9に表示された設定画面上でユーザが入力した情報をユーザ設定情報として記憶する。本実施形態では、ユーザ設定情報として、原言語の音声として原音声を出力するか否かに関する情報や、合成音声の性別(女性または男性)に関する情報や、複数の他言語(英語、中国語など)の音声を出力する順番に関する情報が記憶される。
In addition, the
制御部6は、録音部31と、音声認識部32と、検索部33と、音声合成部34と、再生部35と、出力制御部36と、音声解析部37と、音声調整部38と、を備えている。この制御部6は、プロセッサで構成され、制御部6の各部は、記憶部25に記憶されたプログラムを実行することで実現される。
The
なお、音声認識部32、検索部33、および音声合成部34で合成音声取得部26が構成される。また、再生部35、アンプ7およびスピーカ8で音声出力部27が構成される(図3参照)。
The
この制御部6には、モード切換スイッチ12の信号、録音スイッチ14の信号、および出力スイッチ16の信号が入力される。
The
録音部31は、レベル調整部23から出力される原音声を録音する。この録音処理では、音声信号(アナログ信号)を音声データにA/D変換して記憶部25に記憶させる。録音部31では、録音スイッチ14が押下されると、録音処理が開始され、録音スイッチ14がリリースされると、録音処理を終了する。
The
音声認識部32は、録音部31で録音された原音声を文字情報に変換する音声認識を行い、この音声認識結果として、原文(原音声の文字情報)を取得する。この原文は記憶部25に一時記憶される。
The
検索部33は、定型文データベースに登録された原言語(例えば、日本語)の定型文の中から、原文と類似度が最も高い定型文を探し出す(図3参照)。
The
音声合成部34は、原言語の定型文を定型文データベースから取得して、その原言語(例えば、日本語)の定型文の文字情報から音声合成により原言語の合成音声を生成する。他言語の定型文を定型文データベースから取得して、その他言語(例えば、英語、中国語など)の定型文の文字情報から音声合成により他言語の合成音声を生成する。この音声合成部34で生成した合成音声は記憶部25に一時記憶される。
The
出力制御部36は、出力スイッチ16が押下されると、音声の出力を開始し、出力スイッチ16がリリースされると、音声の出力を停止するように制御する。このとき、出力制御部36は、検索部33で取得した原言語の定型文およびこれに対応する他言語の定型文の音声合成を音声合成部34に指示し、さらに、音声合成部34で生成した合成音声の再生を再生部35に指示する(図3参照)。また、出力制御部36は、ユーザ設定情報に基づいて、原言語の音声に続けて、ユーザが指定した順番で複数の他言語の合成音声を出力するように、音声合成部34および再生部35に指示する。
The
また、出力制御部36は、ユーザ設定情報に基づいて、原言語の音声として原音声と原言語(例えば、日本語)の合成音声とのいずれかを出力するように制御する。ここで、原音声を出力する場合には、原音声を記憶部25から取得して、原音声の再生を再生部35に指示する(図3参照)。一方、原言語の合成音声を出力する場合には、原言語の定型文を記憶部25から取得して、原言語の定型文の音声合成を音声合成部34に指示し、さらに、音声合成部34で生成した原言語の合成音声の再生を再生部35に指示する(図3参照)。
Further, the
なお、原音声を出力する場合には、マイク3で収音されたユーザの発話した音声(例えば、「こちらで物資を配ります。」)そのものが出力されるが、原言語の合成音声を出力する場合には、記憶部25に記憶される原言語の定型文から、ユーザの発話した音声に類似度が最も高い定型文(例えば、「こちらで物資を配布しております。」)を取得し、この定型文の音声合成が出力されるので、ユーザが実際に発話した音声の内容と多少異なる可能性がある。 When outputting the original voice, the voice spoken by the user collected by the microphone 3 (for example, “Distribute materials here”) itself is output, but the synthesized speech in the original language is output. In the case of doing so, the standard sentence having the highest similarity to the speech uttered by the user is acquired from the standard sentence stored in the storage unit 25 (for example, “We distribute materials here.”). However, since the speech synthesis of this fixed sentence is output, it may be slightly different from the content of the speech that the user actually uttered.
また、出力制御部36は、合成音声を出力する場合に、ユーザ設定情報に基づいて、女性合成音声と男性合成音声とのいずれかを出力するように制御する。女性合成音声を出力する場合には、女性音声合成を生成するように音声合成部34に指示し、男性合成音声を出力する場合には、男性合成音声を生成するように音声合成部34に指示する。
Further, when outputting the synthesized speech, the
再生部35は、録音部31で録音された原音声、および音声合成部34で生成した合成音声を再生する。この再生処理では、原音声および合成音声のデータを音声信号(アナログ信号)にD/A変換する処理が行われる。なお、原音声および合成音声は記憶部25に一時記憶されており、出力スイッチ16が押下されている状態では、原言語の音声(原音声または合成音声)および他言語の合成音声が所定の順番で連続して繰り返し再生される。
The
また、再生部35は、原言語の音声(原音声または合成音声)および他言語の音声を出力する際に、各言語の音声の間に、ユーザが指定した長さのギャップ(無音期間)を挿入する。このギャップ(無音期間)も、ユーザの指定に基づいてユーザ設定情報として記憶しておき、出力制御部36から再生部35に通知させるようにするとよい。
Further, when outputting the speech in the original language (original speech or synthesized speech) and the speech in another language, the
音声解析部37は、記憶部25から原音声を取得して、原音声の特徴情報を取得する。本実施形態では、原音声の特徴情報として、性別(男声または女声)、テンポ(スピード)、音量、高さ(トーン)に関する情報を取得する。
The
音声調整部38は、原音声と他言語の合成音声とを出力する場合に、原音声と合成音声との間で音声の特徴を一致させる処理を行う。本実施形態では、音声の特徴として、性別(男声または女声)、テンポ(スピード)、音量、高さ(トーン)の少なくともいずれかに関する調整を行う。
When outputting the original voice and the synthesized voice of another language, the
また、本実施形態では、合成音声を原音声に合わせるモードと、原音声を合成音声に合わせるモードとがあり、いずれかのモードをユーザが選択することができる。合成音声を原音声に合わせるモードでは、合成音声の性別、テンポ、音量および高さが原音声に一致するように、音声合成部34において、原音声の特徴情報に基づいて合成音声を生成する。原音声を合成音声に合わせるモードでは、合成音声の初期設定で採用されている標準的なテンポ、音量、高さに原音声が一致するように、原音声を音声変換する。
Further, in the present embodiment, there are a mode in which the synthesized speech is matched with the original speech and a mode in which the synthesized speech is matched with the synthesized speech, and the user can select either mode. In the mode in which the synthesized speech is matched with the original speech, the
このように原音声と合成音声とで音声の特徴を一致させるようにすると、拡声装置1から連続して出力される音声(原音声および合成音声)の特徴が共通化されるので、聴く人物に与える違和感を低減することができる。 Thus, if the features of the speech are made to match between the original speech and the synthesized speech, the features of the speech (original speech and synthesized speech) that are continuously output from the loudspeaker 1 are shared, so The unpleasant feeling given can be reduced.
次に、表示入力パネル9に表示される定型文表示画面について説明する。図4は、定型文表示画面を示す説明図である。
Next, the fixed phrase display screen displayed on the
この定型文表示画面には、定型文表示部41が設けられている。本実施形態では、検索部33において、ユーザが発話した原音声の音声認識により生成される原文と類似度が最も高い定型文が検索され、ここで見つかった原言語(日本語)の定型文が、定型文表示部41に表示される。
A fixed
また、この定型文表示画面には、再生順序表示部42が設けられている。この再生順序表示部42には、ユーザ設定情報に基づいて、原言語(日本語)および他言語(英語、中国語、韓国語など)の再生順序が表示される。また、再生順序表示部42には、国旗アイコン43が設けられており、この国旗アイコン43を操作することで、他言語の文字情報が定型文表示部41に表示される。なお、ユーザによる再生順序の設定は設定画面(図示せず)で行われる。
In addition, a reproduction
この定型文表示画面が表示されている状態で出力スイッチ16を押下すると、この定型文表示画面に表示された定型文に関する原言語の音声および他言語の音声が、再生順序表示部42に表示された順序で出力される。
When the
次に、表示入力パネル9に表示される出力音声設定画面について説明する。図5は、出力音声設定画面を示す説明図である。
Next, the output audio setting screen displayed on the
この出力音声設定画面には、出力音声選択部51が設けられている。この出力音声選択部51には、2つのラジオボタン52が設けられており、このラジオボタン52の操作により、女性合成音声を出力するモードと、男性合成音声を出力するモードとのいずれかをユーザが選択することができる。また、出力音声選択部51には、チェックボックス53が設けられており、このチェックボックス53の操作により、原言語(日本語)の音声において原音声を優先して出力するか否かをユーザが選択することができる。
An output
また、この出力音声設定画面には、音声調整選択部54が設けられている。この音声調整選択部54には、チェックボックス55が設けられており、このチェックボックス55の操作により、音声調整を行うか否かをユーザが選択することができる。また、音声調整選択部54には、2つのラジオボタン56が設けられており、このラジオボタン56の操作により、音声調整時に合成音声を原音声に合わせるか、原音声を合成音声に合わせるかをユーザが選択することができる。
In addition, a sound
また、この出力音声設定画面には、キャンセルボタン57と、OKボタン58とが設けられている。キャンセルボタン57を操作すると、出力音声選択部51および音声調整選択部54でユーザが選択した内容を破棄して、設定メニュー画面(図示せず)に戻る。OKボタン58を操作すると、出力音声選択部51および音声調整選択部54でユーザが選択した内容で記憶部25のユーザ設定情報が更新されて、設定メニュー画面(図示せず)に戻る。
The output sound setting screen is provided with a cancel
このように本実施形態では、原言語の音声として、ユーザが発話した音声を録音した原音声と、原音声に対応する定型文の文字情報から音声合成された合成音声とのいずれかをユーザが選択して出力することができる。例えば、緊急時の避難誘導で緊迫感を出す必要がある場合には、原音声を出力するように設定するとよい。また、通常時の案内では、違和感をなくすため、原言語の音声として合成音声を選択して、各言語の音声を合成音声で統一するとよい。 As described above, in the present embodiment, as the source language speech, the user selects either the original speech recorded from the speech uttered by the user or the synthesized speech synthesized from the text information of the fixed sentence corresponding to the original speech. You can select and output. For example, when it is necessary to give a sense of urgency in emergency evacuation guidance, it may be set to output the original voice. Further, in order to eliminate a sense of incongruity in normal guidance, it is preferable to select synthesized speech as source language speech and unify the speech of each language with synthesized speech.
また、本実施形態では、合成音声の性別(男声または女声)をユーザが選択することができる。このため、使用状況に適した性別の合成音声を出力することができる。例えば、緊急時の避難誘導で緊迫感を出す必要がある場合には男性の声を選択するとよく、また、通常時の案内などの場合には女性の声を選択するとよい。 In the present embodiment, the user can select the sex (male voice or female voice) of the synthesized voice. For this reason, it is possible to output a synthesized voice having sex suitable for the use situation. For example, a male voice may be selected when a sense of urgency is required for emergency evacuation guidance, and a female voice may be selected for normal guidance.
また、本実施形態では、音声調整を行うか否かをユーザが選択することができ、さらに、合成音声を原音声に合わせるか、原音声を合成音声に合わせるかをユーザが選択することができる。このため、使用状況に適した音声を出力することができる。例えば、原音声が早口である場合には、聞き取りやすいように、原音声のテンポを遅くしたり、また、逆に、緊急を要する場面では、緊迫感が損なわれないように、合成音声を原音声に合わせて合成音声のテンポを速くしたりすることができる。 Further, in the present embodiment, the user can select whether or not to perform sound adjustment, and further, the user can select whether the synthesized speech is matched with the original speech or the original speech is matched with the synthesized speech. . For this reason, the sound suitable for the use situation can be output. For example, if the original voice is fast, the original voice is synthesized so that the tempo of the original voice is slow so that it is easy to hear. The tempo of the synthesized voice can be increased according to the voice.
次に、表示入力パネル9に表示されるギャップ設定画面について説明する。図6は、ギャップ設定画面を示す説明図である。
Next, the gap setting screen displayed on the
このギャップ設定画面には、複数のラジオボタン61が設けられており、このラジオボタン61の操作により、音声を出力する際に各言語の音声の間に挿入されるギャップ(無音期間)の長さ(ギャップ時間)をユーザが選択することができる。図6に示す例では、ラジオボタン61が4つ設けられており、0.5秒、1.0秒、2.0秒および3.0秒のいずれかを選択することができる。
In this gap setting screen, a plurality of
また、このギャップ設定画面には、キャンセルボタン62と、OKボタン63とが設けられている。キャンセルボタン62を操作すると、ユーザが選択した内容を破棄して、設定メニュー画面(図示せず)に戻る。OKボタン63を操作すると、ユーザが選択した内容で記憶部25のユーザ設定情報が更新されて、設定メニュー画面(図示せず)に戻る。
In addition, a cancel
次に、再生時の音声の出力状況について説明する。図7は、再生時の音声の出力状況を示す説明図である。 Next, the audio output status during reproduction will be described. FIG. 7 is an explanatory diagram showing the output status of audio during playback.
本実施形態では、原音声を優先して出力するか否か、および女性および男性のいずれの合成音声を出力するかをユーザが選択することができ、この情報がユーザ設定情報として記憶部25に記憶され、音声を出力する際には、ユーザ設定情報に基づいて、必要な音声合成処理を行って、各言語の音声が順に出力される。なお、図7は、原言語として日本語、他言語として英語および中国語を選択した例である。
In the present embodiment, the user can select whether to output the original voice with priority and whether to output the female or male synthetic voice, and this information is stored in the
ここで、原音声を優先し、かつ、女性合成音声を出力するように設定されている場合には、図7(A)に示すように、原音声(日本語)、英語の女性合成音声、中国語の女性合成音声が順に出力される。また、原音声を優先し、かつ、男性合成音声を出力するように設定されている場合には、図7(B)に示すように、原音声(日本語)、英語の男性合成音声、中国語の男性合成音声が順に出力される。 Here, when the original voice is given priority and the female synthetic voice is set to be output, as shown in FIG. 7A, the original voice (Japanese), the English female synthetic voice, Chinese female synthesized speech is output in order. Further, when the original voice is given priority and the male synthetic voice is set to be output, as shown in FIG. 7B, the original voice (Japanese), the English male synthetic voice, the Chinese The male synthesized speech of words is output in order.
また、原音声を優先せず、かつ、女性合成音声を出力するように設定されている場合には、図7(C)に示すように、日本語の女性合成音声、英語の女性合成音声、中国語の女性合成音声が順に出力される。また、原音声を優先せず、かつ、男性合成音声を出力するように設定されている場合には、図7(D)に示すように、日本語の男性合成音声、英語の男性合成音声、中国語の男性合成音声が順に出力される。 Further, when the original voice is not given priority and the female synthetic voice is set to be output, as shown in FIG. 7C, the Japanese female synthetic voice, the English female synthetic voice, Chinese female synthesized speech is output in order. Further, when the original voice is not given priority and the male synthetic voice is set to be output, as shown in FIG. 7D, a Japanese male synthetic voice, an English male synthetic voice, Chinese male synthesized speech is output in order.
また、各言語の音声を出力する際には、各言語の音声の間に、ユーザが指定した長さのギャップ(無音期間)が挿入される。このため、各言語の音声が聞き取りやすくなる。 Further, when outputting the sound of each language, a gap (silence period) having a length designated by the user is inserted between the sounds of each language. For this reason, it becomes easy to hear the sound of each language.
次に、拡声装置1の動作について説明する。図8は、拡声装置1の動作手順を示すフロー図である。 Next, the operation of the loudspeaker 1 will be described. FIG. 8 is a flowchart showing the operation procedure of the loudspeaker 1.
拡声装置1では、まず、モード切換スイッチ12が翻訳モードの状態でない、すなわち、メガホンモードの状態であれば(ST101でNo)、音声切換部5が、マイク3で収音した原音声をそのまま出力する状態となり、ここで、出力スイッチ16が押下されると(ST102でYes)、アンプ7が音声出力状態となり、原音声の出力を開始する(ST103)。このとき、ユーザが発話した原音声がそのままアンプ7で増幅されてスピーカ8から出力される。そして、出力スイッチ16が戻されると(ST104でYes)、原音声の出力を停止する(ST105)。なお、出力スイッチ16が押下されていない場合には(ST102でNo)、特別な動作は行われない。
In the loudspeaker 1, first, if the
一方、モード切換スイッチ12が翻訳モードの状態である場合には(ST101でYes)、次に、制御部6において、録音スイッチ14が押下されているか否かを判定する(ST106)。ここで、録音スイッチ14が押下されている場合には(ST106でYes)、録音部31において、マイク3で収音した原音声を録音する処理を開始する(ST107)。このとき、バイブレーションや通知音で、録音が開始されたことをユーザに通知するようにしてもよい。そして、録音スイッチ14が戻されると(ST108でYes)、録音を停止する(ST109)。
On the other hand, when the
次に、音声認識部32において、録音した原音声を文字情報に変換する音声認識が行われる(ST110)。次に、検索部33において、原文(原音声の文字情報)に最も類似する定型文を探し出す検索が行われる(ST111)。そして、検索部33で見つかった定型文を表示する定型文表示画面(図4参照)を表示入力パネル9に表示する(ST112)。
Next, the
次に、出力スイッチ16が押下されているか否かを判定する(ST113)。ここで、出力スイッチ16が押下されている場合には(ST113でYes)、音声合成部34において、定型文から合成音声を生成し、再生部35において、合成音声を再生する処理が開始され、合成音声がスピーカ8から出力される(ST114)。このとき、再生部35において、各言語の音声が順に繰り返し再生される。そして、出力スイッチ16が戻されると(ST115でYes)、音声の出力を停止する(ST116)。
Next, it is determined whether or not the
次に、音声出力(ST114)での動作手順について説明する。図9、図10および図11は、音声出力(ST114)での動作手順を示すフロー図である。なお、ここでは、原言語として日本語、他言語を英語および中国語とした例を示す。 Next, an operation procedure in audio output (ST114) will be described. 9, FIG. 10 and FIG. 11 are flowcharts showing an operation procedure in audio output (ST114). Here, an example is shown in which the source language is Japanese and the other languages are English and Chinese.
音声出力(ST114)では、まず、図9に示すように、制御部6において、ユーザ設定情報に基づいて、音声調整を行う設定であるか否かを判定する(ST201)。
In the audio output (ST114), first, as shown in FIG. 9, the
ここで、音声調整を行う設定でない場合には(ST201でNo)、次に、原音声を優先して出力する設定か否かを判定する(ST202)。ここで、原音声を優先して出力する設定である場合には(ST202でYes)、次に、女性合成音声を出力する設定か否かを判定する(ST203)。 If the setting is not for performing audio adjustment (No in ST201), it is next determined whether or not the setting is for preferential output of the original audio (ST202). If the setting is to output the original voice preferentially (Yes in ST202), it is next determined whether or not the setting is to output the female synthesized voice (ST203).
ここで、女性合成音声を出力する設定である場合には(ST203でYes)、まず、記憶部25から原音声を取得して、音声出力部27において原音声を出力する(ST204)。ついで、ユーザが出力対象として指定した定型文の英語テキスト(英語の文字情報)を定型文データベースから取得して、音声合成部34において英語テキストから女性合成音声を生成して、音声出力部27において女性合成音声を出力する(ST205)。ついで、定型文データベースから中国語テキスト(中国語の文字情報)を取得して、その中国語テキストから女性合成音声を生成して出力する(ST206)。
If the setting is to output female synthesized speech (Yes in ST203), first, the original speech is acquired from the
一方、女性合成音声を出力する設定でない、すなわち、男性合成音声を出力する設定である場合には(ST203でNo)、まず、記憶部25から原音声を取得して、その原音声を出力する(ST207)。ついで、定型文データベースから英語テキストを取得して、その英語テキストから男性合成音声を生成して出力する(ST208)。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから男性合成音声を生成して出力する(ST209)。
On the other hand, if it is not set to output female synthesized speech, that is, is set to output synthesized male speech (No in ST203), first, the original speech is acquired from the
また、原音声を優先して出力する設定でない場合には(ST202でNo)、図10に示すように、次に、女性合成音声を出力する設定か否かを判定する(ST210)。 If it is not set to output the original voice preferentially (No in ST202), it is next determined whether or not it is set to output the female synthesized voice as shown in FIG. 10 (ST210).
ここで、女性合成音声を出力する設定である場合には(ST210でYes)、まず、ユーザが出力対象として指定した定型文の日本語テキスト(日本語の文字情報)を定型文データベースから取得して、その日本語テキストから女性合成音声を生成して出力する(ST211)。ついで、定型文データベースから英語テキストを取得して、その英語テキストから女性合成音声を生成して出力する(ST212)。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから女性合成音声を生成して出力する(ST213)。 If the setting is to output female synthesized speech (Yes in ST210), first, the Japanese text of the standard text specified as the output target by the user (Japanese character information) is acquired from the standard text database. Then, female synthesized speech is generated from the Japanese text and output (ST211). Next, an English text is acquired from the fixed phrase database, and a female synthesized speech is generated and output from the English text (ST212). Next, Chinese text is acquired from the fixed phrase database, and female synthesized speech is generated from the Chinese text and output (ST213).
一方、女性合成音声を出力する設定でない、すなわち、男性合成音声を出力する設定である場合には(ST210でNo)、まず、ユーザが出力対象として指定した定型文の日本語テキストを定型文データベースから取得して、その日本語テキストから男性合成音声を生成して出力する(ST214)。ついで、定型文データベースから英語テキストを取得して、その英語テキストから男性合成音声を生成して出力する(ST215)。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから男性合成音声を生成して出力する(ST216)。 On the other hand, if it is not set to output female synthesized speech, that is, it is set to output male synthesized speech (No in ST210), first, the Japanese text of the standard text specified by the user as the output target is the standard text database. , And generates and outputs male synthesized speech from the Japanese text (ST214). Next, an English text is acquired from the fixed phrase database, and male synthesized speech is generated from the English text and output (ST215). Next, Chinese text is acquired from the fixed phrase database, and male synthesized speech is generated from the Chinese text and output (ST216).
また、図9に示したように、音声調整を行う設定である場合には(ST201でYes)、図11に示すように、次に、音声解析部37において、原音声の特徴(性別、テンポ、音量および高さ)を検出する(ST217)。
Also, as shown in FIG. 9, if the setting is to perform voice adjustment (Yes in ST201), then as shown in FIG. 11, the
次に、音声調整部38において、ユーザ設定情報に基づいて、合成音声を原音声に合わせる設定であるか否かを判定する(ST218)。
Next, the
ここで、合成音声を原音声に合わせる設定である場合には(ST218でYes)、まず、記憶部25から原音声を取得して、音声出力部27において原音声を出力する(ST219)。ついで、定型文データベースから英語テキストを取得して、音声合成部34において、原音声の性別、テンポ、音量および高さに合うように、英語テキストから合成音声を生成して、音声出力部27において合成音声を出力する(ST220)。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから原音声の性別、テンポ、音量および高さに合うように合成音声を生成して、その合成音声を出力する(ST221)。
Here, when the synthetic voice is set to match the original voice (Yes in ST218), the original voice is first acquired from the
一方、合成音声を原音声に合わせる設定でない、すなわち、原音声を合成音声に合わせる設定である場合には(ST218でNo)、記憶部25から原音声情報を取得して、合成音声に関する初期設定で採用されている標準のテンポ、音量および高さになるように原音声を変換して、その原音声を出力する(ST222)。ついで、定型文データベースから英語テキストを取得して、その英語テキストから、原音声の性別で合成音声を生成して、その合成音声する出力する(ST223)。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから、原音声の性別で合成音声を生成して、その合成音声を出力する(ST224)。
On the other hand, if the synthesized voice is not set to match the original voice, that is, it is set to match the original voice to the synthesized voice (No in ST218), the original voice information is acquired from the
なお、本実施形態では、原音声を合成音声に合わせる設定である場合に、性別以外の特徴(テンポ、音量および高さ)が、合成音声に関する初期設定で採用されている標準の音声生成条件に合うように原音声の音声調整を行うようにして、性別に関しては、原音声の性別で合成音声を生成するようにしたが、原音声の音声変換により、初期設定の性別(例えば女性)や、ユーザが指定した性別の音声に変換するようにしてもよい。この場合、他言語(英語、中国語)の合成音声も、初期設定の性別やユーザが指定した性別で生成するようにする。 In the present embodiment, when the original sound is set to be combined with the synthesized voice, characteristics (tempo, volume, and height) other than gender are the standard voice generation conditions employed in the initial setting for the synthesized voice. The original voice is adjusted so that it fits, and with regard to the gender, the synthesized voice is generated with the gender of the original voice, but the original gender (for example, female), You may make it convert into the audio | voice of the sex designated by the user. In this case, synthesized speech in other languages (English, Chinese) is also generated with the initial gender or the gender specified by the user.
また、音声の特徴を原音声と合成音声とで一致させるために、合成音声を原音声に合わせたり、原音声を合成音声に合わせたりするようにしたが、原音声および合成音声の双方を、所定の特徴の音声に合わせるようにしてもよい。 In addition, in order to match the characteristics of the voice between the original voice and the synthesized voice, the synthesized voice is matched with the original voice or the original voice is matched with the synthesized voice. You may make it match | combine with the audio | voice of a predetermined characteristic.
以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。 As described above, the embodiments have been described as examples of the technology disclosed in the present application. However, the technology in the present disclosure is not limited to this, and can be applied to embodiments in which changes, replacements, additions, omissions, and the like have been performed. Moreover, it is also possible to combine each component demonstrated by said embodiment into a new embodiment.
例えば、前記の実施形態では、ユーザが発話する音声の音声認識により取得した原文と類似度の高い原言語(日本語)の定型文を検索して、その原言語の定型文に対応する他言語の定型文を取得して、その他言語の定型文から他言語の合成音声を生成するようにしたが、翻訳エンジンを用いて原文を翻訳することで他言語の文章を取得して、その他言語の文章から他言語の合成音声を生成するようにしてもよい。 For example, in the above-described embodiment, a fixed sentence in the source language (Japanese) having a high similarity to the original sentence acquired by speech recognition of speech uttered by the user is searched, and another language corresponding to the fixed sentence in the original language is searched. Was obtained, and synthesized speech of other languages was generated from the fixed phrases of other languages.However, by translating the original sentence using a translation engine, the sentences of other languages were obtained, You may make it produce | generate the synthetic speech of another language from a text.
また、前記の実施形態では、合成音声取得(音声認識、検索、音声合成)、音声解析、および音声調整などの各処理を拡声装置1で行うようにしたが、拡声装置1から必要な情報(例えば原音声)をサーバ装置に送信して、サーバ装置において、前記の各処理の全てあるいは一部を行うようにしてもよい。また、前記の翻訳エンジンを用いた文字翻訳をサーバ装置に行わせるようにしてもよい。 In the above-described embodiment, each process such as synthetic voice acquisition (speech recognition, search, voice synthesis), voice analysis, and voice adjustment is performed by the loudspeaker 1. For example, the original voice) may be transmitted to the server device, and the server device may perform all or part of the above-described processes. Moreover, you may make it make a server apparatus perform character translation using the said translation engine.
本発明に係る拡声装置およびその制御方法は、現場の状況などに応じて、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力することができる効果を有し、ユーザが発話した音声を出力する拡声装置およびその制御方法などとして有用である。 According to the loudspeaker and the control method thereof according to the present invention, the user appropriately selects the original voice that is recorded from the voice spoken by the user and the synthesized voice of the original language that is generated from the original voice according to the situation at the site. It has the effect of being able to be switched and output, and is useful as a loudspeaker that outputs the voice spoken by the user and its control method.
1 拡声装置
3 マイク
6 制御部
7 アンプ
8 スピーカ
14 録音スイッチ
16 出力スイッチ
25 記憶部
26 合成音声取得部
27 音声出力部
31 録音部
32 音声認識部
33 検索部
34 音声合成部
35 再生部
36 出力制御部
37 音声解析部
38 音声調整部
DESCRIPTION OF SYMBOLS 1
Claims (7)
ユーザが発話した音声を収音するマイクと、
前記マイクで収音した原音声を録音する録音部と、
前記原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部と、
前記原音声、前記原言語の合成音声および前記他言語の合成音声をスピーカから出力する音声出力部と、
ユーザ設定情報に基づいて、原言語の音声として前記原音声と前記原言語の合成音声とのいずれかを出力するように制御する出力制御部と、
を備えることを特徴とする拡声装置。 A loudspeaker that outputs a voice spoken by a user,
A microphone that picks up the voice spoken by the user;
A recording unit for recording the original sound picked up by the microphone;
A synthesized speech acquisition unit that acquires a synthesized speech of a source language corresponding to the original speech and a synthesized speech of another language;
A voice output unit for outputting the original voice, the synthesized voice of the source language and the synthesized voice of the other language from a speaker;
An output control unit that controls to output either the original speech or the synthesized speech of the source language as the source language speech based on the user setting information;
A loudspeaker comprising:
前記原音声および前記他言語の合成音声を出力する場合に、前記原音声と前記他言語の合成音声とで音声の特徴を一致させる処理を行う音声調整部と、を備えることを特徴とする請求項1から請求項4のいずれかに記載の拡声装置。 Furthermore, a voice analysis unit that acquires feature information of the original voice;
And a voice adjustment unit configured to perform a process of matching voice characteristics between the original voice and the synthesized voice of the other language when outputting the original voice and the synthesized voice of the other language. The loudspeaker according to any one of claims 1 to 4.
ユーザが発話した音声をマイクで収音し、
前記マイクで収音した原音声を録音し、
原言語の音声として前記原音声が選択されている場合には、前記原音声をスピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力し、
前記原言語の音声として合成音声が選択されている場合には、前記原音声に対応する原言語の合成音声を取得して、その原言語の合成音声を前記スピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力することを特徴とする制御方法。 A method for controlling a loudspeaker that outputs voice spoken by a user,
The voice uttered by the user is picked up by the microphone,
Record the original voice picked up by the microphone,
When the original speech is selected as the original language speech, the original speech is output from a speaker, and then a synthesized speech of another language corresponding to the original speech is acquired, and a synthesized speech of another language is obtained. Is output from the speaker,
When synthesized speech is selected as the source language speech, the source language synthesized speech corresponding to the source speech is acquired, and the source language synthesized speech is output from the speaker. A control method comprising: obtaining synthesized speech of another language corresponding to the original speech, and outputting synthesized speech of another language from the speaker.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016196992A JP6238181B1 (en) | 2016-10-05 | 2016-10-05 | Loudspeaker and control method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016196992A JP6238181B1 (en) | 2016-10-05 | 2016-10-05 | Loudspeaker and control method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6238181B1 true JP6238181B1 (en) | 2017-11-29 |
JP2018060043A JP2018060043A (en) | 2018-04-12 |
Family
ID=60477105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016196992A Active JP6238181B1 (en) | 2016-10-05 | 2016-10-05 | Loudspeaker and control method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6238181B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019176301A (en) * | 2018-03-28 | 2019-10-10 | 株式会社日立国際電気 | Broadcast wireless system and reproducing method of voice message |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6624747B2 (en) * | 2018-03-20 | 2019-12-25 | クオリティソフト株式会社 | Voice transmission system |
JP7199872B2 (en) * | 2018-08-10 | 2023-01-06 | ナブテスコ株式会社 | Multilingual voice guidance device and multilingual voice guidance method |
CN109117235B (en) | 2018-08-24 | 2019-11-05 | 腾讯科技(深圳)有限公司 | A kind of business data processing method, device and relevant device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916602A (en) * | 1995-06-27 | 1997-01-17 | Sony Corp | Translation system and its method |
JP2001256223A (en) * | 2000-03-14 | 2001-09-21 | Brother Ind Ltd | Automatic translation device |
JP2009186820A (en) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | Speech processing system, speech processing program, and speech processing method |
JP2014044349A (en) * | 2012-08-28 | 2014-03-13 | Edison Hardware Kk | Multilingual reproduction device |
-
2016
- 2016-10-05 JP JP2016196992A patent/JP6238181B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916602A (en) * | 1995-06-27 | 1997-01-17 | Sony Corp | Translation system and its method |
JP2001256223A (en) * | 2000-03-14 | 2001-09-21 | Brother Ind Ltd | Automatic translation device |
JP2009186820A (en) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | Speech processing system, speech processing program, and speech processing method |
JP2014044349A (en) * | 2012-08-28 | 2014-03-13 | Edison Hardware Kk | Multilingual reproduction device |
Non-Patent Citations (3)
Title |
---|
"[ビジネスの裏側]まるでドラえもんの道具!!世界初、パナのメガホン型翻訳機・・・成田空港の試験配備に", 産経WEST, JPN6017036492, 28 November 2015 (2015-11-28), JP * |
"日本語を英語・中国語・韓国語に一挙に翻訳、メガホンヤク。翻訳技術のいま。, [online]", TBSラジオ, JPN6017036496, 7 September 2016 (2016-09-07), JP * |
"首都圏鉄道駅初!メガホン型多言語翻訳機「メガホンヤク」羽田空港国際線ターミナル駅に試験導入, [online]", KEIKYU GROUP NEWS RELEASE, JPN6017036494, 28 September 2016 (2016-09-28), JP * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019176301A (en) * | 2018-03-28 | 2019-10-10 | 株式会社日立国際電気 | Broadcast wireless system and reproducing method of voice message |
JP7143102B2 (en) | 2018-03-28 | 2022-09-28 | 株式会社日立国際電気 | Broadcast radio system and method for reproducing voice message |
Also Published As
Publication number | Publication date |
---|---|
JP2018060043A (en) | 2018-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6238181B1 (en) | Loudspeaker and control method thereof | |
JPWO2008029889A1 (en) | Information processing terminal, music information generation method, and program | |
JPWO2018100743A1 (en) | Control device and equipment control system | |
JP4174940B2 (en) | Karaoke equipment | |
JP2008032825A (en) | Speaker display system, speaker display method and speaker display program | |
JP2010034695A (en) | Voice response device and method | |
JP2020113150A (en) | Voice translation interactive system | |
JP6832503B2 (en) | Information presentation method, information presentation program and information presentation system | |
JP6273560B1 (en) | Loudspeaker and control method thereof | |
JP6820504B2 (en) | Translation device, its control method and program | |
JP2001145167A (en) | Information communication terminal | |
JP6650636B1 (en) | Translation apparatus, control method thereof, and program | |
WO1997037344A1 (en) | Terminal having speech output function, and character information providing system using the terminal | |
JP6628157B2 (en) | Translation apparatus, control method thereof, and program | |
JP6269771B1 (en) | Translation device, loudspeaker, and control method thereof | |
JP2007286376A (en) | Voice guide system | |
JP6269701B2 (en) | Loudspeaker and loudspeaker method | |
JP2013164642A (en) | Retrieval means control device, retrieval result output device, and program | |
JP4175141B2 (en) | Program information display device having voice recognition function | |
JP2005210497A (en) | Personal digital assistant | |
JP4516943B2 (en) | Karaoke singing assistance system | |
JP6735491B2 (en) | Audio output device and audio output method | |
JP2007259427A (en) | Mobile terminal unit | |
JP3389258B2 (en) | Text-to-speech device | |
JP5242856B1 (en) | Music playback program and music playback system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171020 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6238181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |