JP2018091911A - Voice interactive system and voice interactive method - Google Patents
Voice interactive system and voice interactive method Download PDFInfo
- Publication number
- JP2018091911A JP2018091911A JP2016233103A JP2016233103A JP2018091911A JP 2018091911 A JP2018091911 A JP 2018091911A JP 2016233103 A JP2016233103 A JP 2016233103A JP 2016233103 A JP2016233103 A JP 2016233103A JP 2018091911 A JP2018091911 A JP 2018091911A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- output
- unit
- speech
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Manipulator (AREA)
Abstract
Description
この発明は、音声の入力を受け付け、受け付けた音声に応じて音声の出力を行う音声対話システム及び音声対話方法に関する。 The present invention relates to a voice dialogue system and a voice dialogue method for receiving voice input and outputting voice according to the received voice.
従来、ユーザの音声を認識し、認識の結果に対応した内容の音声を出力することでユーザとの音声対話を行う音声対話システムが知られている。かかる音声対話システムは、通信回線を介した自動応答や、携帯端末上でのユーザ支援などに用いることができる他、ロボットへの搭載も可能である。音声対話システムを搭載したロボットは、会話をユーザとのインタフェースとして利用可能であり、警備、店舗スタッフの補助、個人の生活支援やエンターテインメントなど、多様なシチュエーションにおいて運用することができる。 2. Description of the Related Art Conventionally, there has been known a voice dialogue system that recognizes a user's voice and outputs a voice having contents corresponding to the recognition result to perform a voice dialogue with the user. Such a voice interaction system can be used for automatic response via a communication line, user support on a portable terminal, and the like, and can also be mounted on a robot. A robot equipped with a voice interaction system can use conversation as an interface with a user, and can be used in various situations such as security, assistance of store staff, personal life support and entertainment.
ここで、ユーザとの音声対話を行う場合には、出力音声と入力音声の分離が重要となる。システム側からの出力音声が入力音声に含まれると、自システムの出力音声をユーザの音声と誤認識するという問題が生じるためである。そこで、システム側が音声を出力する発話モードとユーザ音声を認識する音声認識モードとを切り替えることで、自システムの出力音声による誤認識を防ぐことが行われている。 Here, when performing a voice dialogue with the user, it is important to separate the output voice and the input voice. This is because if the output sound from the system side is included in the input sound, there arises a problem that the output sound of the own system is erroneously recognized as the user's sound. Thus, erroneous recognition due to the output sound of the own system is performed by switching between the speech mode in which the system outputs sound and the speech recognition mode in which user speech is recognized.
発話モードと音声認識モードとを切り替える構成では、システム側の発話モード中にユーザが発言をしてもその発言は認識されない。そのため、ユーザはシステム側からの音声の出力が完了するのを待って発言することになる。しかし、ユーザが音声対話システムに不慣れである場合等には、システム側からの音声の出力中に発言を行うことがある。 In the configuration in which the speech mode and the speech recognition mode are switched, even if the user speaks during the system-side speech mode, the speech is not recognized. Therefore, the user speaks after waiting for the completion of the voice output from the system side. However, when the user is unfamiliar with the voice interaction system, the user may speak during the output of the voice from the system side.
そこで、特許文献1は、発話中にもユーザの音声を認識する音声認識装置を備えたロボットを開示している。特許文献1が開示する音声認識装置は、音声の出力開始から所定時間後にユーザの音声認識を開始するとともに、マイクで集音した音声から自装置の出力音声相当分を相関演算により除去する出力音声除去部を設けることで、音声の出力を音声の認識を並行して行っている。 Therefore, Patent Document 1 discloses a robot provided with a voice recognition device that recognizes a user's voice even while speaking. The speech recognition device disclosed in Patent Document 1 starts user speech recognition after a predetermined time from the start of speech output, and also outputs output speech corresponding to the output speech equivalent of the device itself from speech collected by a microphone. By providing the removing unit, voice output is performed in parallel with voice recognition.
しかしながら、上記特許文献1に代表される従来の技術を用いたとしても、ユーザとの対話を円滑に行うことは困難であった。上記特許文献1のように、出力音声相当分を相関演算により除去するよう構成しても、音の反射環境、ノイズ状況、ひずみなどの要因によって出力音声の除去を完全に行うことはできず、誤認識を充分に防ぐことはできないのである。 However, even if the conventional technique represented by the above-mentioned Patent Document 1 is used, it is difficult to smoothly perform dialogue with the user. Even if it is configured to remove the equivalent portion of the output sound by correlation calculation as in Patent Document 1, the output sound cannot be completely removed due to factors such as sound reflection environment, noise situation, distortion, It is not possible to prevent misrecognition sufficiently.
また、音声の出力と音声の認識を並行して行った場合には、ユーザは自身の発言がシステム側で認識されているかを把握できず、発言を続けるべきか、システム側からの音声の出力の完了を待つべきかを判断することができない。特に、対話が高度化し、システム側から出力される音声が長くなると、システム側からの音声の出力が完了するまでユーザに待機させることは、円滑な対話を大きく損なうこととなる。 In addition, when the voice output and the voice recognition are performed in parallel, the user cannot grasp whether his / her speech is recognized on the system side, and whether the speech should be continued or the voice output from the system side. Cannot determine whether to wait for completion. In particular, when the dialogue becomes more sophisticated and the voice output from the system side becomes longer, allowing the user to wait until the output of the voice from the system side is completed greatly impairs the smooth dialogue.
これらのことから、ユーザとの円滑な音声対話をいかにして実現するかが重要な課題となっていた。かかる課題は、マイクとスピーカを離して設置することが困難なロボットに音声対話システムを搭載するケースで顕著となるが、通信回線を介した自動応答や携帯端末上でのユーザ支援などに音声対話システムを用いる場合にも同様に生ずる。 For these reasons, how to realize a smooth voice conversation with the user has become an important issue. Such a problem becomes conspicuous in the case where a voice dialogue system is installed in a robot that is difficult to install apart from a microphone and a speaker, but voice dialogue is used for automatic response via a communication line or user support on a portable terminal. The same occurs when using the system.
本発明は、上記の従来技術の課題を解決するためになされたものであって、ユーザと円滑な音声対話を行う音声対話システム及び音声対話方法を提供することを目的とする。 The present invention has been made in order to solve the above-described problems of the prior art, and an object thereof is to provide a voice dialogue system and a voice dialogue method for performing a smooth voice dialogue with a user.
上述した課題を解決し、目的を達成するため、請求項1に記載の発明は、音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムであって、前記出力処理部により出力される出力音声を自己音声として登録する登録部と、前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出部と、前記類似度算出部により算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御部とを備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the invention according to claim 1 is an input receiving unit that receives voice input, and an output that outputs voice according to the input voice received by the input receiving unit. A speech dialogue system comprising a processing unit, a registration unit for registering output speech output by the output processing unit as self-speech, and during output of speech by the output processing unit, the input speech and the self A similarity calculation unit that calculates the similarity to the sound, and an operation control unit that controls whether or not to stop the output of the sound by the output processing unit based on the similarity calculated by the similarity calculation unit; It is provided with.
また、請求項2に記載の発明は、請求項1に記載の発明において、前記入力受付部により受け付けた入力音声に対して音声認識を行う音声認識部をさらに備え、前記出力処理部は、前記音声認識部による音声認識の結果に応じて出力する音声の内容を決定し、前記動作制御部は、前記音声認識部による音声認識を行う音声認識モードと、前記出力処理部による音声の出力を行う発話モードとを切り替える制御を行うことを特徴とする。 The invention according to claim 2 further includes a speech recognition unit that performs speech recognition on the input speech received by the input reception unit according to the invention according to claim 1, wherein the output processing unit includes: The content of the voice to be output is determined according to the result of the voice recognition by the voice recognition unit, and the operation control unit performs a voice recognition mode for performing voice recognition by the voice recognition unit and outputs a voice by the output processing unit. Control is performed to switch between speech modes.
また、請求項3に記載の発明は、請求項2に記載の発明において、前記動作制御部は、前記出力処理部による音声の出力が完了するか、前記類似度に基づいて前記音声の出力を停止した場合に前記発話モードから前記音声認識モードに切り替えることを特徴とする。 According to a third aspect of the present invention, in the second aspect of the present invention, the operation control unit outputs the voice based on the similarity or whether the output of the voice is completed by the output processing unit. When the operation stops, the speech mode is switched to the speech recognition mode.
また、請求項4に記載の発明は、請求項1〜3のいずれか一つに記載の発明において、前記出力処理部は、前記類似度に基づいて前記音声の出力を停止する場合に、音声の出力の停止に対応する特定の音声を出力した上で音声の出力を停止することを特徴とする。 According to a fourth aspect of the present invention, in the invention according to any one of the first to third aspects, when the output processing unit stops outputting the voice based on the similarity, After outputting a specific sound corresponding to the stop of the output, the output of the sound is stopped.
また、請求項5に記載の発明は、請求項1〜4のいずれか一つに記載の発明において、前記登録部は、前記出力音声の周波数に係る特徴を分析して生成した特徴データを前記自己音声として登録し、前記類似度算出部は、前記入力音声の周波数に係る特徴を分析して生成した特徴データと前記自己音声として登録した特徴データとの類似度を算出することを特徴とする。
The invention according to
また、請求項6に記載の発明は、請求項1〜5のいずれか一つに記載の発明において、前記登録部は、前記自己音声以外の所定の音声を他者音声としてさらに登録し、前記動作制御部は、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定することを特徴とする。 The invention according to claim 6 is the invention according to any one of claims 1 to 5, wherein the registration unit further registers a predetermined sound other than the self-speech as the other person's sound, The operation control unit stops outputting the sound by the output processing unit according to the degree of similarity between the input sound and the other person's sound when the degree of similarity between the input sound and the self sound is equal to or less than a threshold value. It is characterized by determining whether to do.
また、請求項7に記載の発明は、請求項6に記載の発明において、前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、前記登録部は、前記アクチュエータの動作によって生じる音を前記他者音声として登録することを特徴とする。 The invention according to claim 7 is the invention according to claim 6, further comprising an actuator that is provided in the same housing as the input receiving unit and performs a physical operation, and the registration unit includes Sound generated by the operation of the actuator is registered as the other person's voice.
また、請求項8に記載の発明は、請求項1〜6のいずれか一つに記載の発明において、前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、前記登録部は、前記アクチュエータの動作によって生じる音と前記出力処理部により出力される出力音声とが合成された音声を自己音声として登録することを特徴とする。 The invention according to claim 8 is the invention according to any one of claims 1 to 6, further comprising an actuator that is provided in the same casing as the input receiving unit and performs a physical operation. The registration unit registers as a self-sound a synthesized voice of a sound generated by the operation of the actuator and an output voice output from the output processing unit.
また、請求項9に記載の発明は、音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムの音声対話方法であって、前記出力処理部により出力される出力音声を自己音声として登録する登録ステップと、前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御ステップとを含むことを特徴とする。 According to a ninth aspect of the present invention, there is provided a voice dialogue system comprising: an input receiving unit that receives voice input; and an output processing unit that outputs voice according to the input voice received by the input receiving unit. A registration method for registering an output sound output by the output processing unit as a self-sound, and calculating a similarity between the input sound and the self-sound during the sound output by the output processing unit A similarity calculation step, and an operation control step for controlling whether or not to stop the output of sound by the output processing unit based on the similarity calculated by the similarity calculation step. .
本発明によれば、出力処理部により出力される出力音声を自己音声として登録し、出力処理部による音声の出力中に、入力音声と自己音声との類似度を算出し、類似度算出部により算出された類似度に基づいて出力処理部による音声の出力を停止するか否かを制御するよう構成したため、ユーザと円滑な音声対話を行うことができる。 According to the present invention, the output sound output by the output processing unit is registered as self-speech, the similarity between the input sound and the self-sound is calculated during the output of the sound by the output processing unit, and the similarity calculation unit Since it is configured to control whether or not to stop outputting the voice by the output processing unit based on the calculated similarity, a smooth voice conversation with the user can be performed.
以下に、添付図面を参照して、本発明に係る音声対話システム及び音声対話方法の好適な実施例を詳細に説明する。 Exemplary embodiments of a voice interaction system and a voice interaction method according to the present invention will be described below in detail with reference to the accompanying drawings.
まず、本実施例1に係る音声対話システムの概念について説明する。図1は、本実施例1に係る音声対話システムの概念の説明図である。本実施例1では、音声対話システムを搭載したロボットである音声対話ロボット10が、ユーザの音声を認識し、認識の結果に対応した内容の音声を出力することでユーザとの音声対話を行う。
First, the concept of the voice interaction system according to the first embodiment will be described. FIG. 1 is an explanatory diagram of the concept of the voice interaction system according to the first embodiment. In the first embodiment, a
音声対話ロボット10は、後述するようにスピーカ11とマイク12を備えており、スピーカ11から音声の出力を行う発話モードと、ユーザの音声をマイク12により集音して音声認識する音声認識モードとを切り替えて動作する。
The voice
発話モードにおいては、音声対話ロボット10は、スピーカ11から音声の出力を行い、音声の出力が完了した場合に発話モードを終了して音声認識モードに移行する。音声対話ロボット10は、発話モードではユーザの音声認識は行わないが、マイク12により集音を行い、事前に登録した自装置の音声の特徴データとの類似度を算出する。
In the utterance mode, the
音声対話ロボット10が音声を出力し、ユーザが発話していない状態では、マイク12は音声対話ロボット10の音声を集音することになり、事前に登録した自装置の音声の特徴データとの類似度は高い値となる。
When the
一方、音声対話ロボット10による音声の出力中にユーザが発話を行うと、マイク12が集音する音声は、音声対話ロボット10の音声とユーザの音声とが混じった合成音声となるので、事前に登録した自装置の音声の特徴データとの類似度が低下する。
On the other hand, if the user speaks during the output of the voice by the
音声対話ロボット10は、音声の出力の完了前に類似度が閾値以下となった場合には、ユーザの発話を検知したとして、音声の出力を途中で停止し、発話モードを終了する。すなわち、この場合には、発話モードは中断により終了して音声認識モードに移行することになる。
If the similarity is equal to or less than the threshold before the completion of the voice output, the voice
このように、音声対話ロボット10は、スピーカ11により出力される自装置の音声の特徴データを事前に登録し、発話モードにおける音声の出力中にマイク12により集音した音声と自装置の音声の特徴データとの類似度を算出し、類似度が閾値以下となった場合には発話モードを中断して音声認識モードに移行する。このため、ユーザが発話した場合には、速やかに音声認識モードに移行してユーザの音声を認識することができ、円滑な音声対話を行うことができる。
As described above, the voice
また、音声認識モードでは自装置の音声を集音することがないため、自装置の音声による誤認識を防止することができる。さらに、ユーザは自身の発言が音声対話ロボット10により認識されていることを把握できるため、ストレス無く発言を行うことができる。音声対話ロボット10からの音声の出力と、ユーザの発話とが同時に行われると、ユーザにとって自身の発言が音声対話ロボット10に認識されているか否かがが不明確となるが、音声対話ロボット10が音声の出力を中断すればユーザの発話を認識する状態に移行したとユーザが認識するからである。
Further, since the voice of the own device is not collected in the voice recognition mode, erroneous recognition due to the voice of the own device can be prevented. Furthermore, since the user can grasp that his / her speech is recognized by the
次に、図1に示した音声対話ロボット10の構成について説明する。図2は、図1に示した音声対話ロボット10の構成を示す構成図である。図2に示すように、音声対話ロボット10は、スピーカ11、マイク12、操作部13、アクチュエータ14、記憶部15及び制御部16を有する。
Next, the configuration of the voice
スピーカ11は、音声対話ロボット10による音声の出力に用いられる。マイク12は、周囲の音を集音することで、ユーザの音声の入力を受け付ける入力受付部として機能する。操作部13は、ボタン等により操作入力の受付を行う。なお、ボタンの操作入力に限らず、タブレットなどからの遠隔操作や、ジェスチャーの認識による操作受付を可能としてもよい。
The
アクチュエータ14は、音声対話ロボット10に物理的な動作を行わせるために用いられる。具体的には、音声対話ロボット10の腕や首に相当する部材の動作、表情を示す部材の動作がアクチュエータ14の駆動により制御される。ここでは、人型や動物型のロボットを想定しているが、音声対話ロボット10の形状は任意に設計可能であり、アクチュエータ14は、音声対話ロボット10の物理的な動作に広く用いることができる。
The
記憶部15は、ハードディスク装置や不揮発性メモリ等からなる記憶デバイスである。記憶部15は、スピーカ11により出力される自装置の音声の特徴データを自己音声特徴データ15aとして記憶する。
The
制御部16は、音声対話ロボット10の全体を制御する制御部であり、音声認識部16a、発話処理部16b、音声登録部16c、類似度算出部16d、類似度判定部16e、状態遷移部16f及びアクチュエータ駆動処理部16gを有する。
The
音声認識部16aは、音声認識モードにおいてユーザの音声を認識する処理を行う処理部である。具体的には、マイク12が集音した入力音声からユーザの音声を抽出して分析し、ユーザによる発話の内容を特定する。
The
発話処理部16bは、発話モードにおいて音声の出力を行う出力処理部である。具体的には、音声認識部16aによりユーザの発話の内容が特定された場合に、特定された発話の内容に対して適切な応答の内容を決定し、決定した内容の出力音声をスピーカ11から出力する。また、ユーザによる発話が行われていない状態で、特定の内容の出力音声をスピーカ11から出力することも可能である。
The
音声登録部16cは、スピーカ11から出力される自装置の音声、すなわち出力音声の特徴データを自己音声特徴データ15aとして記憶部15に格納する処理を行う。特徴データは、例えば出力音声を周波数分析してその特徴を示すデータを生成することで得られる。具体的には、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
The voice registration unit 16c performs a process of storing the voice of the own device output from the
類似度算出部16dは、発話モードにおいてマイク12が集音した入力音声と自己音声特徴データ15aとの類似度を算出する処理部である。具体的には、音声登録部16cが出力音声から自己音声特徴データ15aを生成する際と同様の処理を入力音声に対して行うことで入力音声の特徴データを生成し、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出することになる。
The
ここで、類似度算出部16dは、マイク12が集音した入力音声に対して周波数フィルタを施すことで、音声以外の音の影響を低減し、音声部分を抽出した上で、入力音声の特徴データを生成する。また、入力音声の特徴データの生成時には、入力音声から所定時間の部分音声を音声フレームとして複数切り出し、音声フレームごとに特徴データを生成する。従って、自己音声特徴データ15aとの類似度についても、複数の音声フレームについてそれぞれ算出される。
Here, the
類似度判定部16eは、類似度算出部16dにより算出された類似度が閾値以下であるか否かを判定する処理を行う。類似度判定部16eは、類似度が閾値以下となる音声フレームが一定数連続した場合に、ユーザの発話を検知したものとする。1つの音声フレームの長さと、ユーザの発話を検知するための音声フレームの数とを調整することで、突発的なノイズを除去し、適切にユーザの発話を検知することが可能である。
The
状態遷移部16fは、発話モードと音声認識モードの切り替えを制御する動作制御部である。具体的には、状態遷移部16fは、発話モードにおいて、発話処理部16bが決定した内容の出力音声の出力が完了するか、ユーザの発話が検知された場合に、発話モードを終了して音声認識モードに移行させる。
The
ユーザの発話により発話モードを終了する場合には、発話処理部16bが決定した内容の出力音声の出力を途中で停止させて発話モードを終了する。なお、発話処理部16bが決定した内容の出力音声の出力を途中で停止した後、特定の音声を出力させた上で発話モードを終了しても良い。この特定の音声には、例えば「どうされましたか?」などのように、音声対話ロボット10がユーザの音声を認識する状態に移行することをユーザに伝え、ユーザの発話を促す内容の音声を用いる。
When the utterance mode is terminated by the user's utterance, the output of the output voice having the content determined by the
また、状態遷移部16fは、音声認識モードにおいて、ユーザの発話の終了を検知した場合に、音声認識モードを終了して発話モードに移行させる。ユーザの発話の終了は、例えば「無音の状態が所定時間連続した」などの条件により検知すればよい。
Further, when the
アクチュエータ駆動処理部16gは、アクチュエータ14の駆動を制御する処理部である。アクチュエータ14は、例えば音声対話ロボット10の発話の内容などに合わせて駆動される。かかるアクチュエータ14の制御により、発話時の身振りや表情の変化を摸した動作を行わせることができる。この他、ユーザの発話に対する相槌や、音声対話ロボット10の移動にもアクチュエータ14の駆動制御を用いることができる。
The actuator
図3は、ユーザの発話による類似度の低下についての説明図である。図3に示すように、音声対話ロボット10が発話している区間では、音声対話ロボット10の出力音声が入力音声に含まれ、ユーザが発話している区間では、ユーザの音声が入力音声に含まれる。このため、音声対話ロボット10の発話区間とユーザの発話区間が重複する区間では、出力音声とユーザの音声の双方が入力音声に含まれることになる。
FIG. 3 is an explanatory diagram of a decrease in similarity due to the user's utterance. As shown in FIG. 3, in the section where the
従って、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出すると、音声対話ロボット10のみが発話している区間では類似度は閾値を超えた値となるが、ユーザが発話している区間では、類似度が低下して閾値以下となる。
Therefore, when the similarity between the feature data of the input speech and the self-
次に、音声対話ロボット10の処理手順について説明する。図4は、自己音声特徴データ15aの登録処理の処理手順を示すフローチャートである。まず、音声登録部16cは、操作部13への操作入力などにより、登録モードを開始する(ステップS101)。
Next, a processing procedure of the voice
登録モードの開始後、音声登録部16cは、登録対象の音声を取得する(ステップS102)。この登録対象の音声の取得は、例えばスピーカ11から音声の出力を行い、マイク12により集音することで行う。また、予め他の装置で取得された音声データを受け付けても良い。
After the registration mode is started, the voice registration unit 16c acquires a registration target voice (step S102). For example, the registration target sound is acquired by outputting sound from the
スピーカ11から音声の出力を行ってスピーカ11により集音する場合には、ノイズの少ない環境で行うことが望ましい。若しくは、音声対話ロボット10を運用する実環境で登録対象の音声の取得を行ってもよい。さらに、アクチュエータ14を動作させつつ登録対象の音声の取得を行えば、アクチュエータ14の駆動音と出力音とが合成された音声を登録することができる。
When sound is output from the
音声登録部16cは、取得した音声の特徴データを算出し(ステップS103)、自己音声特徴データ15aとして記憶部15に登録して(ステップS104)、登録モードを終了する(ステップS105)。
The voice registration unit 16c calculates the feature data of the acquired voice (step S103), registers it as the self
図5は、音声認識モードの処理手順を示すフローチャートである。まず、状態遷移部16fにより音声認識モードが開始されると(ステップS201)、音声認識部16aは、マイク12が集音した音を入力音声として取得する(ステップS202)。その後、状態遷移部16fは、ユーザの発話が終了したか否かを判定する(ステップS203)。ユーザの発話の終了は、例えば「無音の状態が所定時間連続した」などの条件により検知すればよい。
FIG. 5 is a flowchart showing a processing procedure in the voice recognition mode. First, when the voice recognition mode is started by the
ユーザの発話が終了していなければ(ステップS203;No)、音声認識部16aは、ステップS202に移行し、入力音声の取得を継続する。一方、ユーザの発話が終了したならば(ステップS203;Yes)、音声認識部16aは、取得した入力音声に対して音声認識処理を行う(ステップS204)。この音声認識処理により、ユーザによる発話の内容が特定される。発話処理部16bは、特定されたユーザの発話の内容に対して適切な応答の内容を決定する(ステップS205)。
If the user's utterance has not ended (step S203; No), the
その後、音声認識部16aは音声認識モードを終了し(ステップS206)、状態遷移部16fは音声認識モードから発話モードへの移行を行う(ステップS207)。
Thereafter, the
図6は、発話モードの処理手順を示すフローチャートである。まず、状態遷移部16fにより発話モードが開始されると(ステップS301)、発話処理部16bは、スピーカ11からの音声の出力を行う(ステップS302)。スピーカ11から出力する音声の内容は、ユーザの発話の内容に応じて決定される。若しくは、ユーザによる発話が行われていない状態での出力用に予め用意した特定の内容を用いることもできる。
FIG. 6 is a flowchart showing the processing procedure of the speech mode. First, when the utterance mode is started by the
また、類似度算出部16dは、マイク12が集音した音を入力音声として取得し(ステップS303)、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出する(ステップS304)。
Further, the
類似度判定部16eは、類似度算出部16dにより算出された類似度が閾値以下であるか否かを判定する(ステップS305)。その結果、類似度が閾値以下である場合(ステップS306;Yes)、より詳細には、類似度が閾値以下となる音声フレームが一定数連続した場合、状態遷移部16fは、発話処理部16bが決定した内容の出力音声の出力を途中で停止させる(ステップS310)。停止後に、発話を途中で停止したことに対応する特定の音声を出力させてもよい。
The
類似度が閾値以下でない場合(ステップS306;No)、より詳細には、類似度が閾値以下となる音声フレームの一定数の連続が生じていない場合、発話処理部16bは、音声の出力を完了したか否かを判定する(ステップS307)。その結果、音声の出力が完了していなければ(ステップS307;No)、ステップS302に移行し、音声の出力を継続する。
If the similarity is not less than or equal to the threshold (step S306; No), more specifically, if there is no constant continuation of the audio frames having the similarity less than or equal to the threshold, the
音声の出力が完了した場合(ステップS307;Yes)、若しくはステップS310で音声の出力を途中で停止した場合、発話処理部16bは発話モードを終了し(ステップS308)、状態遷移部16fは発話モードから音声認識モードへの移行を行って(ステップS309)、処理を終了する。
When the voice output is completed (step S307; Yes) or when the voice output is stopped halfway in step S310, the
上述してきたように、本実施例1に係る音声対話ロボット10は、自装置がスピーカ11から出力する音声の特徴を示す自己音声特徴データ15aを記憶部15に登録し、発話モードにおける音声の出力中にマイク12により集音した入力音声の特徴データと自己音声特徴データ15aとの類似度を算出し、類似度が閾値以下となった場合には発話モードを中断して音声認識モードに移行する。このため、ユーザが発話した場合には、速やかに音声認識モードに移行してユーザの音声を認識することができ、円滑な音声対話を行うことができる。
As described above, the
また、音声認識モードでは自装置の音声を集音することがないため、自装置の音声による誤認識を防止することができる。さらに、ユーザは自身の発言が音声対話ロボット10により認識されていることを把握できるため、ストレス無く発言を行うことができる。
Further, since the voice of the own device is not collected in the voice recognition mode, erroneous recognition due to the voice of the own device can be prevented. Furthermore, since the user can grasp that his / her speech is recognized by the
実施例1では、自装置がスピーカ11から出力する音声の特徴を示す自己音声特徴データ15aを記憶部15に登録し、自己音声特徴データ15aを用いて発話の中断に係る制御を行う構成について説明を行ったが、自装置がスピーカ11から出力する音声以外の音声をさらに登録して発話の中断に係る制御を行ってもよい。
In the first embodiment, a description will be given of a configuration in which self-
例えば、音声対話ロボット10がユーザとの対話を行っている場合に、館内放送や背景音楽(BGM:background music)がマイク12により集音されると、館内放送や背景音楽により類似度の低下が生じ、ユーザが発話したと誤認識して音声の出力を中断する可能性がある。
For example, when the
そこで、本実施例2では、発生が予測される音声を除外対象として予め登録しておき、類似度の低下が除外対象により生じている場合には音声の出力を継続する構成について説明を行う。 Therefore, in the second embodiment, a description will be given of a configuration in which a sound that is predicted to be generated is registered in advance as an object to be excluded, and the output of sound is continued when a decrease in similarity occurs due to the object to be excluded.
図7は、本実施例2に係る音声対話ロボット110の動作についての説明図である。図7に示す音声対話ロボット110は、自己音声特徴データ15aに加え、除外対象とするべき音声の特徴を除外対象音声特徴データとして登録している。
FIG. 7 is an explanatory diagram of the operation of the voice
音声対話ロボット110は、発話モードで音声を出力中に、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出し、類似度の比較により他者(ユーザ又は除外対象)の発話を検知する。
While outputting voice in the utterance mode, the voice
他者の発話を検知したならば、音声対話ロボット110は、入力音声の特徴データと除外対象音声特徴データとの類似度を算出し、除外対象に該当するか否かを判定する。その結果、除外対象に該当する場合には、音声の出力を停止せず、発話モードを継続する。一方、場外対象に該当する場合には、音声の出力を停止し、発話モードを中断して音声認識モードに移行する。
If the speech of another person is detected, the voice
次に、図8を参照し、図7に示した音声対話ロボット110の構成について説明する。図8は、図7に示した音声対話ロボット110の構成を示す構成図である。図8に示すように、音声対話ロボット110は、記憶部15に除外対象音声特徴データ15bをさらに記憶する。また、制御部16における音声登録部116c、類似度算出部116d、類似度判定部116e、状態遷移部116fの動作が図2に示した音声対話ロボット10と異なる。その他の構成及び動作は図2に示した音声対話ロボット10と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
Next, the configuration of the voice
除外対象音声特徴データ15bは、除外対象とするべき音声の特徴を示すデータである。例えば、館内放送や背景音楽を除外対象音声特徴データ15bとして登録することができる。また、特定の人物の音声を登録することも可能である。 The exclusion target speech feature data 15b is data indicating features of speech to be excluded. For example, in-house broadcasting and background music can be registered as the exclusion target audio feature data 15b. It is also possible to register the voice of a specific person.
音声登録部116cは、自己音声特徴データ15aの登録処理に加え、除外対象音声特徴データ15bの登録処理を行う。具体的には、登録モードの開始時などに、自己音声特徴データ15aを登録するか除外対象音声特徴データ15bを登録するかを選択する操作を受け付けて登録を行えばよい。
The voice registration unit 116c performs a registration process of the exclusion target voice feature data 15b in addition to the registration process of the own
類似度算出部116dは、入力音声と自己音声特徴データ15aとの類似度の算出に加え、入力音声と除外対象音声特徴データ15bとの類似度の算出を行う。類似度の算出に係る処理については、実施例1と同様であるが、除外対象音声特徴データ15bが複数登録されている場合には、それぞれの除外対象音声特徴データ15bについて類似度を算出する。
The similarity calculation unit 116d calculates the similarity between the input voice and the exclusion target voice feature data 15b in addition to calculating the similarity between the input voice and the own
類似度判定部116eは、入力音声の特徴データと自己音声特徴データ15aとの類似度と閾値との比較に加え、入力音声の特徴データと除外対象音声特徴データ15bとの類似度と閾値との比較を行う。入力音声の特徴データと自己音声特徴データ15aとの類似度と閾値との比較は、他者の音声の検知に用いられる。入力音声の特徴データと除外対象音声特徴データ15bとの類似度と閾値との比較は、検知した他者の音声が除外対象であるか否かを識別するために用いる。これらの閾値は同一の値ではなく、それぞれ適切に設定する。
The
状態遷移部116fは、発話モードにおいて、他者の音声を検知し、検知した他者の音声が除外対象に該当しない場合に発話モードを中断するが、検知した他者の音声が除外対象である場合には発話モードを継続する。なお、音声の出力が完了した場合の発話モードの終了と、音声認識モードの終了については実施例1と同様である。 The state transition unit 116f detects the voice of the other person in the utterance mode, and interrupts the utterance mode when the detected voice of the other person does not correspond to the exclusion target, but the detected voice of the other person is the exclusion target. In the case, the speech mode is continued. Note that the end of the speech mode and the end of the speech recognition mode when the output of the voice is completed are the same as in the first embodiment.
図9は、本実施例2における発話モードの処理手順を示すフローチャートである。まず、状態遷移部116fにより発話モードが開始されると(ステップS401)、発話処理部16bは、スピーカ11からの音声の出力を行う(ステップS402)。スピーカ11から出力する音声の内容は、ユーザの発話の内容に応じて決定される。若しくは、ユーザによる発話が行われていない状態での出力用に予め用意した特定の内容を用いることもできる。
FIG. 9 is a flowchart illustrating the processing procedure of the speech mode in the second embodiment. First, when the utterance mode is started by the state transition unit 116f (step S401), the
また、類似度算出部116dは、マイク12が集音した音を入力音声として取得し(ステップS403)、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出する(ステップS404)。
In addition, the similarity calculation unit 116d acquires the sound collected by the
類似度判定部116eは、類似度算出部116dにより算出された類似度が閾値以下であるか否かを判定する(ステップS405)。その結果、類似度が閾値以下である場合(ステップS406;Yes)、より詳細には、類似度が閾値以下となる音声フレームが一定数連続した場合、類似度算出部116dは、入力音声の特徴データと除外対象音声特徴データ15bとの類似度を算出する(ステップS410)。
The
入力音声の特徴データと除外対象音声特徴データ15bとの類似度が閾値未満であれば、除外対象ではないとして(ステップS411;No)、状態遷移部116fは、発話処理部16bが決定した内容の出力音声の出力を途中で停止させる(ステップS412)。停止後に、発話を途中で停止したことに対応する特定の音声を出力させてもよい。
If the similarity between the input speech feature data and the exclusion target speech feature data 15b is less than the threshold value, the state transition unit 116f determines that the
自己音声特徴データとの類似度が閾値以下でない場合(ステップS406;No)、もしくは、自己音声特徴データとの類似度が閾値以下でかつ除外対象音声特徴データ15bとの類似度が閾値以上である場合(ステップS411;Yes)、発話処理部16bは、音声の出力を完了したか否かを判定する(ステップS407)。その結果、音声の出力が完了していなければ(ステップS407;No)、ステップS402に移行し、音声の出力を継続する。
When the similarity with the self-speech feature data is not less than the threshold (step S406; No), or the similarity with the self-speech feature data is less than the threshold and the similarity with the exclusion target speech feature data 15b is more than the threshold In the case (step S411; Yes), the
音声の出力が完了した場合(ステップS407;Yes)、若しくはステップS412で音声の出力を途中で停止した場合、発話処理部16bは発話モードを終了し(ステップS408)、状態遷移部116fは発話モードから音声認識モードへの移行を行って(ステップS409)、処理を終了する。
When the voice output is completed (step S407; Yes) or when the voice output is stopped halfway in step S412, the
上述してきたように、本実施例2に係る音声対話ロボット110は、自己音声特徴データ15aを登録するとともに、除外対象とするべき音声の特徴を示す除外対象音声特徴データ15bをさらに登録し、入力音声の特徴データと自己音声特徴データ15aとの類似度の低下が除外対象により生じている場合には音声の出力を継続する。このため、館内放送や背景音楽をユーザの発話と誤認識して音声の出力を中断する事態を防止できる。
As described above, the
なお、本実施例2では、除外対象とするべき音声の特徴を登録する場合を例に説明を行ったが、警備員や医師の音声など、優先して認識するべき音声を優先対象として登録する構成としてもよい。また、他の音声対話ロボットの音声を優先対象として登録すれば、音声認識を用いて複数の音声対話ロボットを連携させることができる。また、ユーザとの対話の開始時にユーザの音声を優先対象として登録してもよい。さらに、自装置のアクチュエータの駆動音を除外対象音声特徴データ15bとして登録してもよい。 In the second embodiment, an example has been described in which a feature of a voice to be excluded is registered, but a voice to be recognized with priority such as a security guard or a doctor is registered as a priority target. It is good also as a structure. If the voices of other voice interactive robots are registered as priority targets, a plurality of voice interactive robots can be linked using voice recognition. In addition, the user's voice may be registered as a priority object at the start of the dialogue with the user. Furthermore, the drive sound of the actuator of the own device may be registered as the exclusion target sound feature data 15b.
また、上記実施例1及び2では、音声対話システムをロボットに搭載する場合について説明を行ったが、本発明はこれに限定されるものではなく、通信回線を介した自動応答や、携帯端末上でのユーザ支援など、任意の音声対話システムに用いることができる。 In the first and second embodiments, the case where the voice interactive system is mounted on the robot has been described. However, the present invention is not limited to this, and an automatic response via a communication line or a mobile terminal can be used. It can be used for any spoken dialogue system such as user support.
以上のように、本発明に係る音声対話システム及び音声対話方法は、ユーザとの円滑な音声対話の実現に適している。 As described above, the voice dialogue system and the voice dialogue method according to the present invention are suitable for realizing a smooth voice dialogue with the user.
10、110 音声対話ロボット
11 スピーカ
12 マイク
13 操作部
14 アクチュエータ
15 記憶部
15a 自己音声特徴データ
15b 除外対象音声特徴データ
16 制御部
16a 音声認識部
16b 発話処理部
16c、116c 音声登録部
16d、116d 類似度算出部
16e、116e 類似度判定部
16f、116f 状態遷移部
16g アクチュエータ駆動処理部
DESCRIPTION OF SYMBOLS 10,110
Claims (9)
前記出力処理部により出力される出力音声を自己音声として登録する登録部と、
前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出部と、
前記類似度算出部により算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御部と
を備えたことを特徴とする音声対話システム。 A voice dialogue system comprising an input receiving unit that receives voice input and an output processing unit that outputs voice according to the input voice received by the input receiving unit,
A registration unit for registering the output sound output by the output processing unit as a self-sound;
A similarity calculation unit that calculates the similarity between the input voice and the self-sound during the output of the voice by the output processing unit;
A voice dialogue system comprising: an operation control unit that controls whether or not to stop outputting voice by the output processing unit based on the similarity calculated by the similarity calculation unit.
前記出力処理部は、前記音声認識部による音声認識の結果に応じて出力する音声の内容を決定し、
前記動作制御部は、前記音声認識部による音声認識を行う音声認識モードと、前記出力処理部による音声の出力を行う発話モードとを切り替える制御を行う
ことを特徴とする請求項1に記載の音声対話システム。 A voice recognition unit that performs voice recognition on the input voice received by the input reception unit;
The output processing unit determines the content of the voice to be output according to the result of the voice recognition by the voice recognition unit,
The voice according to claim 1, wherein the operation control unit performs control to switch between a voice recognition mode in which voice recognition is performed by the voice recognition unit and an utterance mode in which voice is output by the output processing unit. Dialog system.
前記類似度算出部は、前記入力音声の周波数に係る特徴を分析して生成した特徴データと前記自己音声として登録した特徴データとの類似度を算出する
ことを特徴とする請求項1〜4のいずれか一つに記載の音声対話システム。 The registration unit registers feature data generated by analyzing features related to the frequency of the output speech as the self-speech,
The said similarity calculation part calculates the similarity of the feature data registered by analyzing the characteristic concerning the frequency of the said input audio | voice, and the feature data registered as the said own audio | voice. The spoken dialogue system according to any one of the above.
前記動作制御部は、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定する
ことを特徴とする請求項1〜5のいずれか一つに記載の音声対話システム。 The registration unit further registers a predetermined voice other than the self-voice as the other person's voice,
When the similarity between the input voice and the self voice is equal to or less than a threshold value, the operation control unit outputs the voice by the output processing unit according to the similarity between the input voice and the other person's voice. It is determined whether to stop. The spoken dialogue system according to any one of claims 1 to 5, wherein the voice dialogue system is determined.
前記登録部は、前記アクチュエータの動作によって生じる音を前記他者音声として登録する
ことを特徴とする請求項6に記載の音声対話システム。 Provided in the same housing as the input receiving unit, further comprising an actuator for performing a physical operation;
The voice registration system according to claim 6, wherein the registration unit registers a sound generated by an operation of the actuator as the other person's voice.
前記登録部は、前記アクチュエータの動作によって生じる音と前記出力処理部により出力される出力音声とが合成された音声を自己音声として登録する
ことを特徴とする請求項1〜6のいずれか一つに記載の音声対話システム。
Provided in the same housing as the input receiving unit, further comprising an actuator for performing a physical operation;
The said registration part registers the audio | voice with which the sound produced by the operation | movement of the said actuator and the output audio | voice output by the said output process part were synthesize | combined as a self audio | voice. The spoken dialogue system described in 1.
前記出力処理部により出力される出力音声を自己音声として登録する登録ステップと、
前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御ステップと
を含むことを特徴とする音声対話方法。 A voice dialogue method of a voice dialogue system comprising: an input reception unit that receives voice input; and an output processing unit that outputs voice according to the input voice received by the input reception unit,
A registration step of registering the output sound output by the output processing unit as a self-sound;
A similarity calculation step of calculating a similarity between the input sound and the self-sound during output of the sound by the output processing unit;
A voice interaction method comprising: an operation control step for controlling whether or not to stop outputting voice by the output processing unit based on the similarity calculated in the similarity calculation step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016233103A JP6748565B2 (en) | 2016-11-30 | 2016-11-30 | Voice dialogue system and voice dialogue method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016233103A JP6748565B2 (en) | 2016-11-30 | 2016-11-30 | Voice dialogue system and voice dialogue method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018091911A true JP2018091911A (en) | 2018-06-14 |
JP6748565B2 JP6748565B2 (en) | 2020-09-02 |
Family
ID=62564674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016233103A Active JP6748565B2 (en) | 2016-11-30 | 2016-11-30 | Voice dialogue system and voice dialogue method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6748565B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020013038A1 (en) * | 2018-07-10 | 2020-01-16 | 株式会社ソニー・インタラクティブエンタテインメント | Controller device and control method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131692A (en) * | 2001-10-24 | 2003-05-09 | Sharp Corp | Interactive device |
JP2010156826A (en) * | 2008-12-26 | 2010-07-15 | Fujitsu Ten Ltd | Acoustic control device |
JP2011054088A (en) * | 2009-09-04 | 2011-03-17 | National Institute Of Information & Communication Technology | Information processor, information processing method, program, and interactive system |
-
2016
- 2016-11-30 JP JP2016233103A patent/JP6748565B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131692A (en) * | 2001-10-24 | 2003-05-09 | Sharp Corp | Interactive device |
JP2010156826A (en) * | 2008-12-26 | 2010-07-15 | Fujitsu Ten Ltd | Acoustic control device |
JP2011054088A (en) * | 2009-09-04 | 2011-03-17 | National Institute Of Information & Communication Technology | Information processor, information processing method, program, and interactive system |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020013038A1 (en) * | 2018-07-10 | 2020-01-16 | 株式会社ソニー・インタラクティブエンタテインメント | Controller device and control method thereof |
CN112368056A (en) * | 2018-07-10 | 2021-02-12 | 索尼互动娱乐股份有限公司 | Controller apparatus and control method thereof |
JPWO2020013038A1 (en) * | 2018-07-10 | 2021-06-24 | 株式会社ソニー・インタラクティブエンタテインメント | Controller device and its control method |
Also Published As
Publication number | Publication date |
---|---|
JP6748565B2 (en) | 2020-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3050052B1 (en) | Speech recognizer with multi-directional decoding | |
JP6227209B2 (en) | In-vehicle voice recognition device and in-vehicle device | |
JP5601419B2 (en) | Elevator call registration device | |
JP5431282B2 (en) | Spoken dialogue apparatus, method and program | |
JP6797338B2 (en) | Information processing equipment, information processing methods and programs | |
WO2005004111A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP6827536B2 (en) | Voice recognition device and voice recognition method | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2004333543A (en) | System and method for speech interaction | |
JP2006208486A (en) | Voice inputting device | |
JP2008033198A (en) | Voice interaction system, voice interaction method, voice input device and program | |
JP4491438B2 (en) | Voice dialogue apparatus, voice dialogue method, and program | |
JP5375423B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP2018091911A (en) | Voice interactive system and voice interactive method | |
JP4056711B2 (en) | Voice recognition device | |
JP2019132997A (en) | Voice processing device, method and program | |
JPH08263092A (en) | Response voice generating method and voice interactive system | |
JP3285704B2 (en) | Speech recognition method and apparatus for spoken dialogue | |
KR102417899B1 (en) | Apparatus and method for recognizing voice of vehicle | |
JP7242873B2 (en) | Speech recognition assistance device and speech recognition assistance method | |
JP2009003205A (en) | Voice recognition device and voice recognition method | |
JP2020091435A (en) | Voice recognition system, notification method of voice recognition system, program, and mobile body mounted apparatus | |
JP7429107B2 (en) | Speech translation device, speech translation method and its program | |
JP2019020475A (en) | Voice recognition device and voice recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6748565 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |