JP2022054667A - Voice dialogue device, voice dialogue system, and voice dialogue method - Google Patents
Voice dialogue device, voice dialogue system, and voice dialogue method Download PDFInfo
- Publication number
- JP2022054667A JP2022054667A JP2020161825A JP2020161825A JP2022054667A JP 2022054667 A JP2022054667 A JP 2022054667A JP 2020161825 A JP2020161825 A JP 2020161825A JP 2020161825 A JP2020161825 A JP 2020161825A JP 2022054667 A JP2022054667 A JP 2022054667A
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- user
- voice
- utterance
- determination unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、音声対話装置、音声対話システム、および、音声対話方法に関する。 The present invention relates to a voice dialogue device, a voice dialogue system, and a voice dialogue method.
従来、ユーザにより入力された言葉に対応する応答を出力することにより、ユーザとの音声対話を行う音声対話システムが知られる(例えば特許文献1参照)。 Conventionally, there is known a voice dialogue system that performs a voice dialogue with a user by outputting a response corresponding to a word input by the user (see, for example, Patent Document 1).
ユーザの発話に対して、常に音声認識および意図の理解を行う構成では、システムの処理負担が大きくなりやすい。このために、現在の音声対話システムの多くは、ユーザがボタンを押すことにより対話が開始されたり、ウェイクワードと呼ばれる所定のワードの検出を契機として対話が開始されたりする構成となっている。 In a configuration in which voice recognition and intention understanding are always performed for the user's utterance, the processing load of the system tends to be large. For this reason, many of the current voice dialogue systems are configured such that the dialogue is started when the user presses a button, or the dialogue is started when a predetermined word called a wake word is detected.
ボタンの押下や、ウェイクワードの発話により対話が開始される構成では、用件ごとに、毎回ボタンの押下やウェイクワードの発話が必要となるために、ユーザが使い難く感じる可能性がある。 In a configuration in which a dialogue is started by pressing a button or uttering a wake word, the user may find it difficult to use because the button must be pressed or the wake word must be spoken for each requirement.
本発明は、上記の点に鑑み、音声対話装置を利用するユーザの利便性を向上することができる技術を提供することを目的とする。 In view of the above points, it is an object of the present invention to provide a technique capable of improving the convenience of a user who uses a voice dialogue device.
上記目的を達成するために本発明の音声対話装置は、ユーザの発話を検出する検出部と、前記ユーザの発話を検出した場合に、前記ユーザとの対話継続の可能性を判断する判断部と、前記判断部により対話が継続していると判断される場合に、前記ユーザの発話に応答する応答処理部と、を備え、前記判断部は、前記対話継続の可能性の判断に、検出した前記ユーザの発話の直前に行われた前記ユーザとの対話のドメインを利用する構成(第1の構成)になっている。 In order to achieve the above object, the voice dialogue device of the present invention includes a detection unit that detects the utterance of the user and a determination unit that determines the possibility of continuing the dialogue with the user when the utterance of the user is detected. A response processing unit that responds to the user's utterance when it is determined by the determination unit that the dialogue is continuing is provided, and the determination unit detects the possibility of continuation of the dialogue. It is configured to use the domain of the dialogue with the user performed immediately before the user's utterance (first configuration).
上記第1の構成の音声対話装置において、前記判断部は、前記対話継続の可能性の判断に、前記ユーザとの対話における自装置の応答状態を更に利用する構成(第2の構成)であってよい。 In the voice dialogue device of the first configuration, the determination unit further utilizes the response state of the own device in the dialogue with the user to determine the possibility of continuation of the dialogue (second configuration). It's okay.
上記第1又は第2の構成の音声対話装置において、前記判断部は、前記対話継続の可能性の判断に、前記ユーザの音声から抽出される音声の特徴を更に利用する構成(第3の構成)であってよい。 In the voice dialogue device of the first or second configuration, the determination unit further utilizes the characteristics of the voice extracted from the voice of the user in determining the possibility of continuation of the dialogue (third configuration). ) May be.
上記第1から第3のいずれかの構成の音声対話装置において、前記判断部は、前記対話継続の可能性の判断に、前記ユーザの撮影画像から得られる情報を更に利用する構成(第4の構成)であってよい。 In the voice dialogue device having any of the first to third configurations, the determination unit further uses the information obtained from the captured image of the user to determine the possibility of continuation of the dialogue (fourth). Configuration).
上記第1から第4のいずれかの構成の音声対話装置において、前記判断部は、前記直前に行われたユーザとの対話の終了後から一定時間以内に前記ユーザの発話が検出された場合に、前記対話継続の可能性を判断する構成(第5の構成)であってよい。 In the voice dialogue device having any of the first to fourth configurations, the determination unit detects the utterance of the user within a certain period of time after the end of the dialogue with the user immediately before the end. , The configuration (fifth configuration) for determining the possibility of continuation of the dialogue may be used.
上記第1から第5のいずれかの構成の音声対話装置において、前記判断部は、前記対話継続の可能性を示す数値と閾値とを比較して前記ユーザとの対話が継続しているか否かを判断し、前記閾値は、前記直前に行われたユーザとの対話の終了からの経過時間に応じて変更される構成(第6の構成)であってよい。 In the voice dialogue device having any of the first to fifth configurations, the determination unit compares a numerical value indicating the possibility of continuation of the dialogue with a threshold value to determine whether or not the dialogue with the user is continuing. The threshold value may be changed according to the elapsed time from the end of the dialogue with the user performed immediately before (sixth configuration).
上記第1から第6のいずれかの構成の音声対話装置において、前記判断部は、前記対話継続の可能性を示す数値と閾値とを比較して前記ユーザとの対話が継続しているか否かを判断し、前記判断部は、特定のタイミングで前記ユーザの発話が検出された場合に、前記閾値を変更して、前記対話が継続していると判断しやすくする構成(第7の構成)であってよい。 In the voice dialogue device having any of the first to sixth configurations, the determination unit compares a numerical value indicating the possibility of continuation of the dialogue with a threshold value to determine whether or not the dialogue with the user is continuing. The determination unit changes the threshold value when the user's utterance is detected at a specific timing, so that it is easy to determine that the dialogue is continuing (seventh configuration). May be.
上記第1から第7のいずれかの構成の音声対話装置において、前記判断部は、前記ユーザの発話を検出し、且つ、前記ユーザによる所定の対話開始操作が行われていない場合に、前記対話継続の可能性を判断する構成(第8の構成)であってよい。 In the voice dialogue device having any of the first to seventh configurations, the determination unit detects the utterance of the user, and the dialogue is performed when the user does not perform a predetermined dialogue start operation. It may be a configuration (eighth configuration) for determining the possibility of continuation.
上記目的を達成するために本発明の音声対話システムは、上記第1から第8のいずれかの構成の音声対話装置と、前記ユーザの音声を音声信号に変換して前記音声対話装置へと出力するマイクロホンと、前記音声対話装置から出力される音声信号を音声に変換して前記ユーザに向けて放音するスピーカと、を備える構成(第9の構成)になっている。 In order to achieve the above object, the voice dialogue system of the present invention converts the voice of the user into a voice signal and outputs it to the voice dialogue device and the voice dialogue device having any one of the first to eighth configurations. The configuration (9th configuration) includes a microphone that performs sound, and a speaker that converts a voice signal output from the voice dialogue device into voice and emits sound to the user.
上記第9の構成の音声対話システムは、前記ユーザを撮影し、撮影した画像の情報を前記音声対話装置に出力するカメラを更に備える構成(第10の構成)であってよい。 The voice dialogue system having the ninth configuration may be configured to further include a camera that captures the user and outputs the information of the captured image to the voice dialogue device (tenth configuration).
上記目的を達成するために本発明の音声対話方法は、音声対話装置における音声対話方法であって、ユーザの発話を検出する検出工程と、前記ユーザの発話を検出した場合に、前記ユーザとの対話継続の可能性を判断する判断工程と、前記判断工程により対話が継続していると判断される場合に、前記ユーザの発話に応答する応答処理工程と、を備え、前記対話継続の可能性の判断に、検出した前記ユーザの発話の直前に行われた前記ユーザとの対話のドメインが利用される構成(第11の構成)になっている。 In order to achieve the above object, the voice dialogue method of the present invention is a voice dialogue method in a voice dialogue device, in which a detection step of detecting a user's utterance and a detection step of detecting the user's utterance with the user are performed. A determination step for determining the possibility of continuation of the dialogue and a response processing step for responding to the utterance of the user when it is determined by the determination step that the dialogue is continuing are provided, and the possibility of continuation of the dialogue is provided. In the determination, the domain of the dialogue with the user performed immediately before the utterance of the detected user is used (11th configuration).
本発明によれば、音声対話装置を利用するユーザの利便性を向上することができる。 According to the present invention, it is possible to improve the convenience of the user who uses the voice dialogue device.
以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。 Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings.
<1.音声対話システム>
図1は、本発明の実施形態に係る音声対話システム100の構成を示すブロック図である。本実施形態の音声対話システム100は、一例として車両に適用される。車両には、例えば自動車や電車等の車輪のついた乗り物が広く含まれてよい。本発明の音声対話システム100は、船舶や航空機等の車両以外の人を載せる移動体や、家屋や施設等の移動体以外のものに適用されてもよい。
<1. Voice Dialogue System>
FIG. 1 is a block diagram showing a configuration of a
図1に示すように、音声対話システム100は、音声対話装置1と、マイクロホン2と、スピーカ3とを備える。また、音声対話システム100は、カメラ4と、サーバ装置5とを更に備える。なお、音声対話システム100は、カメラ4とサーバ装置5との少なくともいずれか一方を備えなくてもよい。
As shown in FIG. 1, the
音声対話装置1は、車両の適所に配置される車両用対話装置である。音声対話装置1は、ユーザの発話に対して、適宜、応答を行う装置である。本実施形態では、ユーザは、運転者等の車両の乗員である。応答には、ユーザの発話に対する音声による回答が含まれる。また、応答には、ユーザの発話に対する回答を画面表示する等、音声以外の手段を利用した回答が含まれてもよい。ユーザの発話に対する回答を画面表示する構成の場合には、音声対話システム100には、モニタが含まれる。本明細書における「対話」には、ユーザと装置との音声によるやりとりのみならず、ユーザからの音声による質問や指示に対して、装置が音声以外の手段を利用して応答する場合が含まれてよい。
The
本実施形態の音声対話装置1は、原則として、ユーザが発したウェイクワードを検出した場合に、ユーザの発話の意図を理解して、ユーザの発話に即した応答を行う。音声対話装置1は、一問一答を基本としており、原則として、用件ごとに毎回ウェイクワードを発話する必要がある。ただし、音声対話装置1は、自身がユーザに問い返しを行った場合には、ウェイクワードを検出しなくても応答を行う。また、音声対話装置1は、特定の条件下において、ウェイワードを検出しなくても応答を行う。この点の詳細にはついては後述する。
As a general rule, the
なお、ウェイクワードは、ユーザとの対話(やりとり)を開始するトリガとなる所定のワードである。音声対話装置1との対話を開始したいユーザは、対話開始の合図としてウェイクワードを発する。これにより、音声対話装置1は、ウェイクワードの後にユーザが発した発話の意図を理解して応答を行う。ウェイクワードは、例えば、「ハロー、マイコンピュータ」や「ヘイ、ビークル」等であってよい。
The wake word is a predetermined word that triggers a dialogue (interaction) with the user. A user who wants to start a dialogue with the
また、本実施形態では、ウェイクワードの検出により、ユーザと音声対話装置1との対話が開始される構成としているが、これは例示である。ウェイクワードの検出に替えて、例えば、ボタンが押されたことの検出により、対話が開始される構成としてもよい。また、ウェイクワードの検出と、ボタンの利用とが併用されてもよい。
Further, in the present embodiment, the dialogue between the user and the
マイクロホン2は、ユーザが発生した音声を集音する。マイクロホン2は、車両の適所に配置される。マイクロホン2は、音声対話装置1と有線又は無線にて接続される。マイクロホン2は、ユーザの音声を音声信号に変換して音声対話装置1へと出力する。なお、マイクロホン2は、音声対話装置1に含まれてもよい。
The
スピーカ3は、音声対話装置1と有線又は無線にて接続される。スピーカ3は、音声対話装置1から出力される音声信号を音声に変換してユーザに向けて放音する。スピーカ3も、マイクロホン2と同様に、車両の適所に配置される。なお、スピーカ3は、音声対話装置1に含まれてもよい。
The
カメラ4は、音声対話装置1と有線又は無線にて接続される。カメラ4は、ユーザを撮影し、撮影した画像の情報を音声対話装置1に出力する。カメラ4は、例えば、車両の座席に座るユーザの全体を撮影可能に車両の適所に配置される。また、例えば、カメラ4は、車両の座席に座るユーザの顔を撮影可能に車両の適所に配置される。なお、カメラ4は、音声対話装置1に含まれてもよい。
The
サーバ装置5は、インターネット等のネットワークに接続されたコンピュータ装置である。本実施形態のサーバ装置5は、人工知能(AI:Artificial Intelligence)を備える。サーバ装置5は、ネットワークに接続された任意の他のコンピュータ装置から様々な情報の提供を受けることができる。音声対話装置1は、ネットワークを介してサーバ装置5と情報のやりとりを行うことができる。
The
本実施形態の音声対話システム100では、詳細は後述するように特定の条件下においてウェイクワードを発しなくても、ユーザの発話に対して音声対話装置1が応答を行うために、ユーザの利便性を向上することができる。また、本実施形態では、音声対話装置1がカメラ4から取得されるユーザの画像情報をも考慮してユーザとの対話に関わる判断を行うことができるために、ユーザは、より人間との対話に近しい感覚で音声対話装置1との対話を行うことができる。
In the
<2.音声対話装置>
次に、音声対話装置1について詳細に説明する。図1に示すように、音声対話装置1は、検出部11と、画像処理部12と、制御部13と、記憶部14と、通信部15と、を備える。
<2. Voice dialogue device>
Next, the
検出部11は、マイクロホン2から音声信号を入力される。検出部11は、ユーザの発話を検出する。本実施形態においては、検出部11は、ユーザの発話を単に検出するだけでなく、ユーザの発話について音声認識も行う。以下、検出部11のことを音声認識部11と記載する。
The detection unit 11 inputs an audio signal from the
音声認識部11は、半導体集積回路により構成される。音声認識部11は、例えばAIチップにより構成される。音声認識部11は、入力された音声信号によりユーザの発話を検出する。音声認識部11は、検出したユーザの発話音声をテキストデータ(文字列データ)に変換したり、音声の特徴を抽出したりする。音声の特徴には、例えば、音量、音高(ピッチ)、抑揚(イントネーション)等が含まれてよい。音声認識部11は、制御部13と接続される。音声認識部11は、変換により得られたテキストデータ、および、音声の特徴を示すデータを含む音声に関わる情報を制御部13に出力する。
The voice recognition unit 11 is composed of a semiconductor integrated circuit. The voice recognition unit 11 is composed of, for example, an AI chip. The voice recognition unit 11 detects the user's utterance based on the input voice signal. The voice recognition unit 11 converts the detected user's spoken voice into text data (character string data), and extracts the characteristics of the voice. Audio features may include, for example, volume, pitch, intonation, and the like. The voice recognition unit 11 is connected to the
画像処理部12は、カメラ4で撮影された画像のデータを入力される。画像処理部12は、半導体集積回路により構成される。画像処理部12は、例えばAIチップにより構成される。画像処理部12は、入力された画像データからユーザの振舞い(動作)に関わる特徴を抽出する。ユーザの振舞いに関わる特徴には、例えば、ユーザの姿勢変化、顔の向きの変化(詳細には顔の回転や顔の上下動)等が含まれてよい。画像処理部12は、制御部13と接続される。画像処理部12は、ユーザの振舞いに関わる特徴を示すデータを含む撮影画像情報を制御部13に出力する。
The
制御部13は、音声対話装置1の全体を統括的に制御するコントローラである。制御部13は、例えば、CPU(Central Processing Unit)を含むコンピュータであってよい。制御部13によって実現される各種の機能は、コンピュータが記憶部14に記憶されるプログラムに従って演算処理を実行することにより実現される。
The
記憶部14は、例えば、RAM(Random Access Memory)やフラッシュメモリ等の半導体メモリ素子、ハードディスク、或いは、光ディスク等の可搬型の記録媒体を用いる記憶装置等で構成される。記憶部14は、ファームウェアとしてのプログラムや各種のデータを記憶する。
The
通信部15は、制御部13と接続される。通信部15は、無線通信を利用してネットワーク経由でサーバ装置5と接続され、サーバ装置5と双方向通信を行う。すなわち、制御部13は、通信部15を利用して、サーバ装置5と情報のやりとりを行うことができる。
The
図2は、本発明の実施形態に係る音声対話装置1が備える制御部13の機能を示すブロック図である。制御部13は、それを構成するコンピュータがプログラムに従って演算処理を行うことによって発揮する機能として、ウェイクワード検出部131と、応答処理部132と、判断部133とを備える。換言すると、音声対話装置1は、ウェイクワード検出部131と、応答処理部132と、判断部133とを備える。ウェイクワードの替わりにボタンが利用される場合には、ウェイクワード検出部131は、不要である。
FIG. 2 is a block diagram showing a function of the
なお、ウェイクワード検出部131、応答処理部132、および、判断部133の少なくともいずれか1つは、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等のハードウェアで構成されてもよい。また、ウェイクワード検出部131、応答処理部132、および、判断部133は、概念的な構成要素である。1つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を1つの構成要素に統合させたりしてよい。また、上述の音声認識部11の少なくとも一部の機能や、画像処理部12の少なくとも一部の機能が、制御部13の機能に含まれてもよい。
Even if at least one of the wake
ウェイクワード検出部131は、ユーザの発話テキストデータにウェイクワードが含まれる場合に、ユーザがウェイクワードを発したことを検出する。ウェイクワードの検出により、後述するように、音声対話装置1の対話機能が起動して、音声対話装置1において、ユーザの質問や指令に即した対応が行われる。
The wake
応答処理部132は、ユーザがウェイクワードを発したことを検出した場合に、ユーザのウェイクワードに続く発話に応答する応答処理を行う。応答処理には、例えば、ユーザの発話音声の解読処理、音声の解読により理解されたユーザの要求を解決する解決処理、および、解決処理の成果をユーザに伝達する伝達処理が含まれる。解読処理には、例えばユーザの発話意図の解析処理が含まれる。解決処理には、例えばインターネットを利用した検索処理が含まれる。伝達処理には、例えば音声応答や表示応答が含まれる。上述のように、本明細書では、音声応答のみならず、表示応答も対話を構成する要素である。
When the
応答処理に含まれる各種の処理は、応答処理部132によって全て行われてもよいが、本実施形態では、一部の処理がサーバ装置5によって行われる。応答処理部132は、ウェイクワードが検出された場合に、ユーザの発話の音声信号を、通信部15を介してサーバ装置5に送信する。サーバ装置5は、受信した音声信号に対し詳細音声認識処理及び自然言語処理等を行うことでユーザの要求内容に応えるための成果データを生成し、当該成果データを音声対話装置1に送信する。応答処理部132は、受信した成果データに基づいてユーザに対する応答を行う。
All of the various processes included in the response process may be performed by the
判断部133は、ユーザの発話を検出した場合に、ユーザとの対話継続の可能性を判断する。判断部133は、対話継続の可能性の判断に、検出部11で検出したユーザの発話の直前に行われたユーザとの対話のドメインを利用する。詳細には、ユーザとの対話は、ユーザと自装置1との対話を意味する。対話のドメインは、ユーザや自装置1の発話の意図を考慮して決められる。
The
対話のドメインは、詳細には、対話の話題(トピック)である。例えば、ユーザが音声対話装置1に対して「今日の天気」について質問をした場合には、対話のドメインは「天気」となる。また、例えば、ユーザが「本日のアクセスランキング一位のニュース」について質問をした場合には、対話のドメインは「ニュース」となる。対話のドメインによって、ユーザとの対話継続の可能性が異なる傾向がある。例えば、対話のドメインが「天気」である場合には、対話継続の可能性が高い傾向があり、対話のドメインが「ニュース」である場合には、対話継続の可能性が低い傾向がある。このために、対話のドメインを利用することにより、対話継続の可能性を適切に判断することが可能になる。
The domain of the dialogue is, in detail, the topic of the dialogue. For example, when the user asks the
本実施形態では、詳細には、判断部133は、ユーザの発話を検出し、且つ、ユーザによる所定の対話開始操作が行われていない場合に、対話継続の可能性を判断する。このような構成とすれば、無駄に対話継続の可能性を判断する必要がなくなり、音声対話装置1における処理負担を低減することができる。所定の対話開始操作は、本実施形態では、ユーザによるウェイクワードの発声である。所定の対話開始操作は、ウェイクワードの発声に替えて、例えばボタンの押下等であってよい。
In the present embodiment, in detail, the
なお、本実施形態では、より詳細には、判断部133は、自装置1からユーザに対して問い返しを行っている場合にも、ユーザ対話継続の可能性の判断は行われない。これにより、無駄に対話継続の可能性を判断する必要がなくなり、音声対話装置1における処理負担を更に低減することができる。
In the present embodiment, more specifically, the
本実施形態では、応答処理部132は、判断部133により対話(ユーザと自装置1との対話)が継続していると判断される場合、ユーザの発話に応答する。これによれば、発話の度に必ずウェイクワードを発する必要がなく、ユーザの利便性を向上することができる。また、ユーザは、人間との対話に近しい感覚で音声対話装置1と対話することができる。
In the present embodiment, the
図3は、本発明の実施形態に係る音声対話装置1の動作の概略を説明するための模式図である。図3に示すように、音声対話装置1は、ウェイクワードを検出すると、ユーザ6の発話を受け付ける発話受付状態となる。発話受付状態は、自装置1がユーザ6の発話に対して応答を行うことを決定した状態である。ウェイクワードに続くユーザ6の発話(図3の発話A)に対して、音声対話装置1は応答処理を行う。応答処理には、サーバ装置5によって行われる、ユーザの発話の解読処理、および、解読したユーザの要求に対する解決処理(図3の例では検索処理)が含まれる。音声対話装置1は、検索結果について音声応答や表示応答を行う。音声対話装置1は、応答処理の完了により、ユーザ6との対話が終了したと認識する。なお、音声対話装置1が、ユーザに対して問い返しを行った場合には、音声対話装置1は、ユーザ6との対話が継続していると認識し、発話受付状態となる。
FIG. 3 is a schematic diagram for explaining an outline of the operation of the
本実施形態では、特徴的な構成として、ユーザ6との対話が終了したと認識された後においても、一定時間に限って、ユーザ6の発話を仮に受け付ける発話仮受付状態となる。発話仮受付状態は、ユーザの発話の全てに対して応答するとは限らず、特定の条件を満たした場合に限ってユーザに応答する状態である。発話仮受付状態では、上述した判断部133が、対話継続の可能性を判断し、当該判断の結果に基づきユーザの発話に対して応答を行うか否かを決定する。
In the present embodiment, as a characteristic configuration, even after it is recognized that the dialogue with the
図3に示す例では、発話仮受付状態の期間中にユーザ6が発話Bを行っている。このために、判断部133は、発話Bの検出をトリガとして、直前の対話(発話Aに関わる対話)のドメインを判定する。判断部133は、判定した対話のドメインを利用して、ユーザとの対話継続の可能性を判断する。そして、判断部133により対話が継続していると判断された場合には、応答処理部132によるユーザ6への応答が行われる。判断部133により対話が継続していないと判断された場合には、応答処理部132によるユーザ6への応答は行われない。すなわち、応答処理部132の処理自体が行われない。
In the example shown in FIG. 3, the
本実施形態では、判断部133は、直前に行われたユーザ6との対話の終了後から一定時間以内にユーザ6の発話が検出された場合に、対話継続の可能性を判断する構成となっている。このような構成によれば、ユーザ6に応答するために必要となる処理を常に行う必要がなく、音声対話装置1における処理負担を低減することができる。また、ユーザ6が要求していないにもかかわらず、ユーザへの応答を行うといった誤動作が発生する可能性を低減することができる。
In the present embodiment, the
本実施形態では、好ましい形態として、判断部133は、対話継続の可能性の判断に、ユーザ6の音声から抽出される音声の特徴を更に利用する。音声の特徴には、例えば、音量、音高(ピッチ)、抑揚(イントネーション)等が含まれてよい。例えば、ユーザ6の発話が装置1に向けての発話である場合、抑揚が少なくなる傾向がある。例えば、判断部133は、発話仮受付状態で検出したユーザの発話(図3の例では発話B)の抑揚が少ない場合、対話継続の可能性が高いと判断する。このような構成とすることにより、対話のドメインだけでなく他の指標も加えて対話継続の可能性を判断することができるために、ユーザ6の発話が自装置1に向けたものであるか否かをより適切に判断することが可能となる。
In the present embodiment, as a preferred embodiment, the
また、本実施形態では、好ましい形態として、判断部133は、対話継続の可能性の判断に、ユーザ6の撮影画像から得られる情報に更に利用する。詳細には、判断部133は、発話仮受付状態になってから発話を行ったユーザの振舞い(動作)に関わる特徴を利用して対話継続の可能性を判断する。ユーザの振舞い関わる特徴には、例えば、ユーザの姿勢変化や顔の向きの変化等が含まれてよい。例えば、ユーザ6は、装置1に向けて発話する場合、マイクロホン2(又は装置1)の方をちらっと見る傾向がある。このために、ユーザの姿勢や顔の向きの変化等から、ユーザが装置1やマイクロホン2の方を向いたと判断される場合には、対話継続の可能性が高いと判断できる。このような構成とすることにより、対話のドメインだけでなく他の指標も加えて対話継続の可能性を判断することができるために、ユーザ6の発話が自装置1に向けたものであるか否かをより適切に判断することが可能となる。
Further, in the present embodiment, as a preferred embodiment, the
本実施形態の音声対話装置1は、発話仮受付状態においては、直前の対話のドメイン、ユーザ6の音声の特徴に係る情報、ユーザ6の画像情報といった複数の情報を利用して対話継続の可能性を判断し、これに基づきユーザ6に対して応答したり、応答しなかったりする。以下、仮受付状態における音声対話装置1の動作の詳細例について図4を参照して説明する。なお、図4は、音声対話装置1の発話仮受付状態における動作例を示すフローチャートである。
In the utterance provisional reception state, the
ステップS1では、判断部133が、先のユーザ6との対話が終了してから一定時間以内か否かを判定する。一定時間は、例えば60秒等である。判断部133は、一定時間外である場合には(ステップS1でNo)、処理を終了する。一方、判断部133は、一定時間以内である場合には(ステップS1でYes)、次のステップS2に処理を進める。
In step S1, the
ステップS2では、判断部133が、ユーザ6の発話を検出したか否かを判定する。ユーザ6の発話の検出は、音声認識部11により行われる。ユーザ6の発話が検出された場合(ステップS2でYes)、判断部133は、次のステップS3に処理を進める。一方、ユーザ6の発話が検出されていない場合(ステップS2でNo)、判断部133は、処理をステップS1に戻す。
In step S2, the
ステップS3では、判断部133が、検出したユーザ6の発話の先頭にウェイクワードが含まれていたか否かを判定する。ウェイクワードの検出は、音声認識部11から発話テキストデータが入力されるウェイクワード検出部131によって行われる。ウェイクワードが含まれていた場合には(ステップS3でYes)、判断部133はステップS7に処理を進める。一方、ウェイクワードが含まれていない場合には(ステップS3でNo)、判断部133は、次のステップS4に処理を進める。
In step S3, the
ステップS4では、判断部133が、対話継続の可能性を示す判定値を算出する。判定値は、対話継続の可能性が高い場合に高い値となり、対話継続の可能性が低い場合に低い値となる。判定値は、例えば、百分率で表される数字であってよい。この場合、対話継続の可能性が高い場合に100%に近づき、対話継続の可能性が低い場合に0%に近づく構成としてよい。判断部133は、例えばディープラーニング等の手法により機械学習を行った学習済みモデル(ニューラルネットワーク)を用いて判定値を求める。学習済みモデルに所定の特徴量が入力されることにより、判定値が求められる。学習済みモデルには、音声認識部11で認識した発話仮受付中のユーザ6の発話音声の特徴を示す少なくとも一つの特徴量(抑揚等)と、発話仮受付中のユーザ6の発話前後における振舞いの特徴を示す少なくとも一つの特徴量(顔の回転速度等)とが入力される。ユーザの振舞いの特徴を示す特徴量は、画像処理部12から得られる。判断部133は、判定値を求めると、次のステップS5に処理を進める。
In step S4, the
ステップS5では、判断部133が、先に求めた判定値をより信頼性の高い値とすることを狙って係数を取得する。判断部133は、係数を求めるに際して、発話仮受付中のユーザ6の発話の直前に行われた、自装置1とユーザ6との対話のドメインを判定する。対話のドメインは、判断部133自身の処理によって得られてもよいが、ユーザ6の発話の意図を解読するサーバ装置5によって得られる構成としてもよい。サーバ装置5は、ユーザ6の発話の解析を行う度に、対話のドメインを分類し、分類したドメインを音声対話装置1に送信する構成としてよい。音声対話装置1は、サーバ装置5から送られてくるユーザ6との対話のドメインを記憶部14に記憶しておく構成であってよい。
In step S5, the
判断部133は、判定した対話のドメインから対話継続の可能性に関わる係数を求める。当該係数は、例えば、対話のドメイン毎に予め決められた数値であってよく、予め記憶部14に記憶されていてよい。係数は、例えば、ゼロより大きく1.0以下の値であり、経験則的に、対話が継続される可能性が高い対話のドメインに対しては大きな係数値が割り当てられ、対話が継続される可能性が低い対話のドメインに対しては小さな係数値が割り当てられる。例えば、図3において、発話Aが「今日の天気は?」である場合、音声対話装置1が応答した後にも、ユーザ6は、「それでは、明日は?」といった発話を行い、対話を継続する傾向がある。このために、対話のドメインが天気である場合には、係数は大きな値とされる。例えば、対話のドメインが天気である場合、係数は1.0であってよい。なお、ここでは、係数が1.0を超えない場合を例示したが、係数は1.0を超える数字であってもよい。判断部133は、係数を取得すると、次のステップS6に処理を進める。
The
ステップS6では、判断部133が、ステップS4で求めた判定値にステップS5で求めた係数を乗じて補正判定値を算出する。これにより、ユーザ6の発話音声の情報、ユーザ6の画像情報、および、直前の対話のドメインを利用して、対話継続の可能性を評価することができる。判断部133は、補正判定値を算出すると、次のステップS7に処理を進める。
In step S6, the
ステップS7では、判断部133が、ステップS6で求めた補正判定値と、予め準備された閾値とを比較する。判断部133は、対話継続の可能性を示す数値と閾値とを比較してユーザ6との対話が継続しているか否かを判断する。判断部133は、補正判定値が閾値以上である場合(ステップS7でYes)、対話継続の可能性が高く、ユーザ6との対話が継続していると判断する。この場合、ステップS8に処理が進められる。一方、判断部133は、補正判定値が閾値より小さい場合(ステップS7でNo)、対話継続の可能性が低く、ユーザ6の発話は自装置1に向けたものでないと判断する。この場合、ステップS9に処理が進められる。
In step S7, the
ステップS8では、応答処理部132が、発話仮受付中に検出されたユーザ6の発話に対する応答処理を行う。ステップS9では、応答処理部132が、発話仮受付中に検出されたユーザ6の発話を放置することに決定する。ステップS9の決定がなされると、応答処理部132による応答処理は進められない。すなわち、音声対話装置1はユーザの発話に対して応答を行わない。
In step S8, the
本実施形態の構成によれば、ユーザ6は、音声対話装置1との対話終了後、一定時間以内であれば、ウェイクワードを発することなく対話を継続することができるのでユーザの利便性が高まる。また、音声対話装置1は、音声情報、画像情報、および、対話の内容といった複数の情報を利用して、ユーザの発話が自装置1に向けたものであるか否かを判定して応答を行うために、人間との対話に近いしい感覚での対話を実現することができる。
According to the configuration of the present embodiment, the
なお、判定値を求める場合、或いは、係数を取得する場合に、判断部133は、直前に行われたユーザとの対話における自装置1の応答状態を考慮してもよい。すなわち、判断部133は、対話継続の可能性の判断に、直前に行われたユーザ6との対話における自装置1の応答状態を更に利用してもよい。音声対話装置1は、ユーザ6の発話に対する応答に成功する場合と、失敗する場合とがある。ユーザ6の応答に失敗する場合には、ユーザ6の発話の意図を理解できない場合や、発話の意図は理解できたが、検索結果が得られなかった場合等が含まれ、例えば、「分かりませんでした。」等の応答を行う。
When obtaining the determination value or acquiring the coefficient, the
直前の対話において応答に失敗した場合、ユーザが音声対話装置1に向けて更に発話を行う可能性が高くなる。このために、直前の対話において、自装置1が応答に失敗している場合には、判定値や係数値が大きくなるように処理が行われる構成としてよい。このような構成とすることにより、対話継続の可能性を判断する指標を更に増やして、ユーザ6の発話が自装置1に向けたものであるか否かをより適切に判断することが可能となる。
If the response fails in the immediately preceding dialogue, the user is more likely to speak to the
また、対話の終了後の一定時間以内(発話仮受付状態)においては、ウェイクワードを発しなくても対話を継続させる可能性がある。音声対話装置1又は音声対話システム100は、このような状態であることを、ユーザ6に報知する構成としてよい。報知の手段は、例えば、画像表示や発光等であってよい。このような構成とすれば、ユーザ6が無駄にウェイクワードを言わなくて済むようにできる。
In addition, within a certain period of time after the end of the dialogue (temporary utterance reception state), there is a possibility that the dialogue will continue even if the wake word is not issued. The
<3.変形例>
図5は、音声対話装置1の発話仮受付状態における動作の変形例を示すフローチャートである。図5に示すフローチャートは、図4に示すフローチャートのステップS6とステップS7との間に、ステップS10の処理が追加されている点が、図4のフローチャートと異なる。ステップS10では、閾値を調整する処理が行われる。すなわち、変形例においては、判定値(本例では正確には補正判定値)と比較する閾値は、一定値ではなく、適宜、変更される構成となっている。以下に、閾値が適宜変更される構成について、2つの例(第1変形例と第2変形例)を示す。
<3. Modification example>
FIG. 5 is a flowchart showing a modified example of the operation of the
(3-1.第1変形例)
第1変形例では、閾値は、直前に行われたユーザとの対話の終了からの経過時間に応じて変更される。ユーザとの対話の終了の時点は、上述の発話仮受付状態の開始時点と一致する。
(3-1. First modification)
In the first modification, the threshold value is changed according to the elapsed time from the end of the immediately preceding dialogue with the user. The time point at which the dialogue with the user ends coincides with the time point at which the above-mentioned utterance provisional reception state starts.
図6は、図5に示す閾値調整処理の第1の詳細例を示すフローチャートである。ステップS101では、判断部133が、ユーザとの対話の終了から第1時間以内であるか否かを判定する。第1時間は、図5に示すステップS1の一定時間より短い時間である。判断部133は、第1時間以内である場合(ステップS101でYes)、次のステップS102に処理を進める。一方、判断部133は、第1時間外である場合(ステップS101でNo)、ステップS103に処理を進める。
FIG. 6 is a flowchart showing a first detailed example of the threshold value adjustment process shown in FIG. In step S101, the
ステップS102では、判断部133が、閾値を初期値のまま維持する。判断部133は、ステップS102の処理を完了すると、図5に示すステップS7の処理を行う。すなわち、初期値のまま維持された閾値と、補正判定値との比較が行われて、対話が継続しているか否かが判断されることになる。
In step S102, the
ステップS103では、判断部133が、ユーザとの対話の終了から第2時間以内であるか否かを判定する。第2時間は、図5に示すステップS1の一定時間より短く、第1時間より長い時間である。判断部133は、第2時間以内である場合(ステップS103でYes)、次のステップS104に処理を進める。一方、判断部133は、第1時間外である場合(ステップS103でNo)、ステップS105に処理を進める。
In step S103, the
ステップS104では、判断部133が、閾値を初期値から第1閾値に変更する。第1閾値は、初期値よりも大きな値である。判断部133は、ステップS104の処理を完了すると、図5に示すステップS7の処理を行う。すなわち、初期値よりも大きくした閾値(第1閾値)と、補正判定値との比較が行われて、対話が継続しているか否かが判断されることになる。第1閾値は初期値よりも大きい値であるために、第1閾値への変更によって、対話が継続しているとの判定がなされ難くなる。
In step S104, the
ステップS105では、判断部133が、閾値を初期値から第2閾値に変更する。第2閾値は、第1閾値よりも大きな値である。判断部133は、ステップS105の処理を完了すると、図5に示すステップS7の処理を行う。すなわち、初期値および第1閾値よりも大きくした閾値(第2閾値)と、補正判定値との比較が行われて、対話が継続しているか否かが判断されることになる。第2閾値への変更によって、対話が継続しているとの判定がよりなされ難くなる。
In step S105, the
本変形例の構成によれば、閾値の段階的な変更により、ユーザ6との対話が終了してからの経過時間が長くなるにつれて、対話が継続しているとの判定される可能性が段階的に低くなる。ユーザ6との対話が終了してからの経過時間が長くなると、通常、対話が継続される可能性が低くなる。このために、本変形例の構成によれば、ユーザ6が要求していないにもかかわらず、ユーザ6への応答を行うといった誤動作が発生する可能性を低減することができる。
According to the configuration of this modification, there is a possibility that it is determined that the dialogue continues as the elapsed time from the end of the dialogue with the
なお、本変形例では、閾値が3段階用意される構成としたが、これは例示にすぎない。変更可能な閾値の数は、適宜変更されてよい。 In this modification, the threshold value is prepared in three stages, but this is only an example. The number of variable thresholds may be changed as appropriate.
(3-2.第2変形例)
第2変形例では、判断部133は、特定のタイミングでユーザ6の発話が検出された場合に、閾値を変更して、対話が継続していると判断しやすくする。特定のタイミングは、ユーザ6が対話の継続を行う傾向が高いタイミングであり、経験則等により決められるタイミングである。特定のタイミングは、例えば、自装置1がユーザ6に対する応答に失敗した後や、対話が継続する可能性の高いドメインに属する対話の後などが該当する。
(3-2. Second modification)
In the second modification, the
図7は、図5に示す閾値調整処理の第2の詳細例を示すフローチャートである。ステップS106では、判断部133が、ユーザの発話の検出が特定のタイミングであるか否かを判定する。判断部133は、特定のタイミングに該当する場合(ステップS106でYes)、次のステップS107に処理を進める。一方、判断部133は、特定のタイミングに該当しない場合(ステップS106でNo)、ステップS108に処理を進める。
FIG. 7 is a flowchart showing a second detailed example of the threshold value adjustment process shown in FIG. In step S106, the
ステップS107では、判断部133が、閾値を初期値から第3閾値に変更する。第3閾値は、初期値よりも小さな値である。判断部133は、ステップS107の処理を完了すると、図5に示すステップS7の処理を行う。すなわち、初期値よりも小さくした閾値(第3閾値)と、補正判定値との比較が行われて、対話が継続しているか否かが判断されることになる。第3閾値は初期値よりも小さい値であるために、第3閾値への変更によって、対話が継続しているとの判定がされやすくなる。
In step S107, the
ステップS108では、判断部133が、閾値を初期値のまま維持する。判断部133は、ステップS108の処理を完了すると、図5に示すステップS7の処理を行う。すなわち、初期値のまま維持された閾値と、補正判定値との比較が行われて、対話が継続しているか否かが判断されることになる。
In step S108, the
本変形例の構成によれば、ユーザとの対話が継続する可能性が高いタイミングである場合に、音声対話装置1によって対話が継続していると判断されやすくなり、ユーザ6の発話に適切に対応することができる。
According to the configuration of this modification, when the dialogue with the user is likely to continue, it is easy for the
<4.留意事項>
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。
<4. Points to note>
The various technical features disclosed herein can be modified in addition to the above embodiments without departing from the gist of the technical creation. That is, it should be considered that the embodiments are exemplary in all respects and are not restrictive, and the technical scope of the invention is not the description of the embodiments but the claims. It is shown and should be understood to include all modifications that fall within the meaning and scope of the claims. In addition, a plurality of embodiments and modifications shown in the present specification may be appropriately combined and implemented to the extent possible.
以上においては、音声対話装置1は、直前の対話のドメイン、ユーザ6の発話音声の情報、ユーザ6の画像情報といった複数の情報を利用して対話継続の可能性を判断する構成したが、これは例示にすぎない。例えば、音声対話装置は、直前の対話のドメインのみを利用して、対話継続の可能性を判断する構成としてもよい。例えば、直前の対話のドメインから対話継続の可能性を示す数値を求めてもよい。また、例えば、音声対話装置は、直前の対話のドメインと、ユーザの発話音声の情報とのみを利用して、対話継続の可能性を判断する構成としてもよい。また、例えば、音声対話装置は、直前の対話のドメインと、ユーザの画像情報とのみを利用して、対話継続の可能性を判断する構成としてもよい。
In the above, the
また、対話のドメインによって判定値の補正を行うのではなく、対話のドメインによって判定値と比較する閾値を変更する構成としてもよい。この構成も、対話のドメインを利用して対話継続の可能性を判断する構成に含まれる。 Further, instead of correcting the determination value depending on the domain of the dialogue, the threshold value to be compared with the determination value may be changed depending on the domain of the dialogue. This configuration is also included in the configuration for determining the possibility of continuing the dialogue using the domain of the dialogue.
1・・・音声対話装置
2・・・マイクロホン
3・・・スピーカ
4・・・カメラ
6・・・ユーザ
11・・・検出部
100・・・音声対話システム
132・・・応答処理部
133・・・判断部
1 ...
Claims (11)
前記ユーザの発話を検出した場合に、前記ユーザとの対話継続の可能性を判断する判断部と、
前記判断部により対話が継続していると判断される場合に、前記ユーザの発話に応答する応答処理部と、
を備え、
前記判断部は、前記対話継続の可能性の判断に、検出した前記ユーザの発話の直前に行われた前記ユーザとの対話のドメインを利用する、音声対話装置。 A detector that detects the user's utterance,
When the utterance of the user is detected, a judgment unit for determining the possibility of continuing the dialogue with the user, and a judgment unit.
A response processing unit that responds to the user's utterance when it is determined by the determination unit that the dialogue is continuing.
Equipped with
The determination unit is a voice dialogue device that uses the domain of the dialogue with the user performed immediately before the detected utterance of the user to determine the possibility of continuation of the dialogue.
前記閾値は、前記直前に行われたユーザとの対話の終了からの経過時間に応じて変更される、請求項1から5のいずれか1項に記載の音声対話装置。 The determination unit compares a numerical value indicating the possibility of continuation of the dialogue with a threshold value to determine whether or not the dialogue with the user is continuing.
The voice dialogue device according to any one of claims 1 to 5, wherein the threshold value is changed according to the elapsed time from the end of the dialogue with the user performed immediately before.
前記判断部は、特定のタイミングで前記ユーザの発話が検出された場合に、前記閾値を変更して、前記対話が継続していると判断しやすくする、請求項1から6のいずれか1項に記載の音声対話装置。 The determination unit compares a numerical value indicating the possibility of continuation of the dialogue with a threshold value to determine whether or not the dialogue with the user is continuing.
The determination unit changes the threshold value when the user's utterance is detected at a specific timing, so that it is easy to determine that the dialogue is continuing, any one of claims 1 to 6. The voice dialogue device described in.
前記ユーザの音声を音声信号に変換して前記音声対話装置へと出力するマイクロホンと、
前記音声対話装置から出力される音声信号を音声に変換して前記ユーザに向けて放音するスピーカと、
を備える、音声対話システム。 The voice dialogue device according to any one of claims 1 to 8.
A microphone that converts the user's voice into a voice signal and outputs it to the voice dialogue device.
A speaker that converts a voice signal output from the voice dialogue device into voice and emits sound to the user.
A voice dialogue system.
ユーザの発話を検出する検出工程と、
前記ユーザの発話を検出した場合に、前記ユーザとの対話継続の可能性を判断する判断工程と、
前記判断工程により対話が継続していると判断される場合に、前記ユーザの発話に応答する応答処理工程と、
を備え、
前記対話継続の可能性の判断に、検出した前記ユーザの発話の直前に行われた前記ユーザとの対話のドメインが利用される、音声対話方法。 It is a voice dialogue method in a voice dialogue device.
A detection process that detects the user's utterance,
A determination step for determining the possibility of continuing a dialogue with the user when the user's utterance is detected, and
A response processing step that responds to the user's utterance when it is determined by the determination step that the dialogue is continuing.
Equipped with
A voice dialogue method in which the domain of the dialogue with the user performed immediately before the detected speech of the user is used to determine the possibility of continuation of the dialogue.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020161825A JP2022054667A (en) | 2020-09-28 | 2020-09-28 | Voice dialogue device, voice dialogue system, and voice dialogue method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020161825A JP2022054667A (en) | 2020-09-28 | 2020-09-28 | Voice dialogue device, voice dialogue system, and voice dialogue method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022054667A true JP2022054667A (en) | 2022-04-07 |
Family
ID=80997860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020161825A Pending JP2022054667A (en) | 2020-09-28 | 2020-09-28 | Voice dialogue device, voice dialogue system, and voice dialogue method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022054667A (en) |
-
2020
- 2020-09-28 JP JP2020161825A patent/JP2022054667A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US10515640B2 (en) | Generating dialogue based on verification scores | |
US20210193176A1 (en) | Context-based detection of end-point of utterance | |
US11295748B2 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
TWI744634B (en) | User experience evaluation | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
US11056118B2 (en) | Speaker identification | |
US20210065712A1 (en) | Automotive visual speech recognition | |
US9418653B2 (en) | Operation assisting method and operation assisting device | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
JP6350903B2 (en) | Operation assistance device and operation assistance method | |
US11741943B2 (en) | Method and system for acoustic model conditioning on non-phoneme information features | |
JPWO2020003851A1 (en) | Audio processing device, audio processing method and recording medium | |
US10861447B2 (en) | Device for recognizing speeches and method for speech recognition | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
JP2022054667A (en) | Voice dialogue device, voice dialogue system, and voice dialogue method | |
JP2020148805A (en) | Voice recognition system and voice recognition method | |
JP2019191477A (en) | Voice recognition device and voice recognition method | |
JP2022054671A (en) | Voice dialogue device, voice dialogue system, and voice dialogue method | |
KR20240089626A (en) | Selective generation and/or selective rendering of sequential content to complete spoken utterances | |
KR20230013826A (en) | Method and device for providing voice recognition service using artificial intelligence model | |
CN118235197A (en) | Selectively generating and/or selectively rendering continuation content for spoken utterance completion | |
JPWO2021044569A1 (en) | Voice recognition assist device and voice recognition assist method |