JP7361988B2 - Voice dialogue system, voice dialogue method, and voice dialogue management device - Google Patents
Voice dialogue system, voice dialogue method, and voice dialogue management device Download PDFInfo
- Publication number
- JP7361988B2 JP7361988B2 JP2023508340A JP2023508340A JP7361988B2 JP 7361988 B2 JP7361988 B2 JP 7361988B2 JP 2023508340 A JP2023508340 A JP 2023508340A JP 2023508340 A JP2023508340 A JP 2023508340A JP 7361988 B2 JP7361988 B2 JP 7361988B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- output
- audio
- response
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 230000004044 response Effects 0.000 claims description 174
- 230000005236 sound signal Effects 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 11
- 238000007726 management method Methods 0.000 description 64
- 230000015654 memory Effects 0.000 description 43
- 238000012545 processing Methods 0.000 description 35
- 230000000694 effects Effects 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 12
- 238000012790 confirmation Methods 0.000 description 7
- 238000001308 synthesis method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000012384 transportation and delivery Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
本開示は、音声対話システム、音声対話方法及び音声対話管理装置に関する。
The present disclosure relates to a voice dialogue system, a voice dialogue method, and a voice dialogue management device.
音声認識機能が搭載されているカーナビゲーションシステム、スマートスピーカ、電話自動応答システムなどに代表される音声対話システムにおいて、音声対話システムの利用者であるユーザが、音声対話システムの応答音声出力中でも割り込んで音声入力可能とするためのバージイン機能(以降、バージイン)が開発されている。一方、このバージインをユーザに許可することで、対話型の処理においては副作用が出る場合もある。例えば、音声対話システムがうまく音声認識が出来ず、ユーザにもう一度発話の入力を求める際に、前の発話の続きを誤認識したり、また、ユーザが音声対話システムの応答音声を途中までしか聞かず、質問内容を勘違いしたまま発話してしまうこともあり、これら音声認識開始タイミングのずれ、言い換えれば、音声認識のバージインの受付判定精度が低いことが、音声対話システムの可用性(ユーザビリティ)を低下させていた。 In voice dialogue systems such as car navigation systems, smart speakers, automatic telephone answering systems, etc. that are equipped with voice recognition functions, users of the voice dialogue system may interrupt the voice dialogue system even when it is outputting a response voice. A barge-in function (hereinafter referred to as barge-in) has been developed to enable voice input. On the other hand, allowing the user to barge in may have side effects in interactive processing. For example, a voice dialogue system may not be able to properly recognize speech, and when asking the user to input another utterance, it may misrecognize the continuation of the previous utterance, or the user may only hear part of the voice response voice of the voice dialogue system. In other words, the difference in the start timing of speech recognition, or in other words, the low accuracy of barge-in acceptance judgment of speech recognition, reduces the availability (usability) of the voice dialogue system. I was letting it happen.
これらの課題に対して、従来の音声対話システムでは、生成した応答音声の信号を入力として、応答音声の発話時間の長さを信号データファイル容量から算出し、算出された応答音声の発話時間の長さに基づいて、音声認識開始のタイミングを応答音声出力完了前に制御するように動作させている(例えば、特許文献1参照)。
To address these issues, conventional voice dialogue systems use the generated response voice signal as input, calculate the length of the response voice's utterance time from the signal data file capacity, and then Based on the length, the timing of starting speech recognition is controlled before the output of response speech is completed (for example, see Patent Document 1).
しかしながら、上記した従来の音声対話システムを、音声対話管理部と音声入出力部とが別の独立した構成のシステムに適用する際、音声対話管理部と音声入出力部とは、音声対話管理部が出力する応答音声の出力完了タイミング(出力完了時刻)に呼応して動作することとなるが、当該システムは非同期の通信ネットワークにより相互接続される場合が多い。このような場合、通信ネットワークの伝送遅延は時々刻々と変動することから、音声対話管理部が生成した応答音声と音声入出力部とでの応答音声の出力完了タイミングが異なる。そのため、ユーザに出力した応答音声の出力完了時刻を正確に検出することは困難である。 However, when applying the above-mentioned conventional voice dialogue system to a system in which the voice dialogue management section and the voice input/output section are separate and independent, the voice dialogue management section and the voice input/output section are The system operates in response to the output completion timing (output completion time) of the response voice output by the system, but the systems are often interconnected by an asynchronous communication network. In such a case, since the transmission delay of the communication network varies from moment to moment, the response voice generated by the voice dialogue management section and the output completion timing of the response voice generated by the voice input/output section differ. Therefore, it is difficult to accurately detect the output completion time of the response voice output to the user.
更に、音声対話管理部と音声入出力部との音声データを取り扱う上での相違、例えば、音声データのサンプリング周波数の相違により、信号データファイル容量から応答音声の出力完了時刻を正確に検出することは困難であり、また、応答音声の出力信号に出力データファイルサイズ等の出力設定情報を付与することも困難である。 Furthermore, due to differences in the handling of voice data between the voice dialogue management unit and the voice input/output unit, for example, differences in the sampling frequency of voice data, it is difficult to accurately detect the output completion time of the response voice from the signal data file capacity. It is also difficult to add output setting information such as the output data file size to the output signal of the response voice.
つまり、出力タイミングが異なる応答音声データから、応答音声の出力完了時刻を算出できないため、音声対話管理部では、音声対話システムがユーザに出力した応答音声の出力完了時刻を正確に検出することができず、その結果、音声認識のバージインの受付判定精度が劣化して、音声対話システムのユーザビリティが低下する問題があった。 In other words, since the output completion time of the response voice cannot be calculated from response voice data with different output timings, the voice dialogue management unit cannot accurately detect the output completion time of the response voice output by the voice dialogue system to the user. As a result, there is a problem in that the accuracy of barge-in acceptance determination by voice recognition deteriorates, and the usability of the voice dialogue system deteriorates.
本開示は、上述の課題を解決するためになされたものであり、音声対話管理部と音声入出力部が独立した構成となる音声対話システムにおいても、音声対話管理部が、ユーザに対して音声入出力部が出力した応答音声の出力完了時刻を受信することで、音声対話管理部がユーザに出力した応答音声の出力完了時刻を正確に検出することができる。これにより、音声認識のバージインの受付判定精度を改善し、音声対話システムのユーザビリティを向上することを目的とする。
The present disclosure has been made in order to solve the above-mentioned problems, and even in a voice dialogue system in which the voice dialogue management unit and the voice input/output unit are configured independently, the voice dialogue management unit can provide voice information to the user. By receiving the output completion time of the response voice output by the input/output unit, it is possible to accurately detect the output completion time of the response voice output by the voice interaction management unit to the user. The purpose of this is to improve the accuracy of barge-in acceptance determination using voice recognition and to improve the usability of voice dialogue systems.
本開示に係る音声対話システムは、
音声入出力部と、音声対話管理部とを有し、
前記音声対話管理部により生成される応答音声が、ユーザに対して遅延して出力される音声対話システムであって、
前記音声入出力部は、
前記ユーザの発話音声を取得する音声入力部と、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理部へ出力する音声出力部とを備え、
前記音声対話管理部は、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力部へ出力する音声生成部と、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備えるものである。The voice dialogue system according to the present disclosure includes:
It has a voice input/output section and a voice dialogue management section,
A voice dialogue system in which a response voice generated by the voice conversation management unit is output to a user with a delay,
The audio input/output section is
a voice input unit that acquires the user's uttered voice;
an audio output unit that outputs the response voice to the user and outputs a voice output status of the response voice to the voice dialogue management unit;
The voice dialogue management unit includes:
a voice recognition unit that performs voice recognition on the user's uttered voice and outputs a voice recognition result;
an intention understanding unit that estimates the user's utterance intention from the voice recognition result and outputs an intention understanding result;
a dialogue management unit that outputs response content information to the user based on the intention understanding result;
a voice generation unit that generates an audio signal of the response voice based on the response content information and outputs it to the audio input/output unit;
a voice output information generation unit that generates voice output information that is information indicating whether or not the response voice is being outputted from the voice output status;
The apparatus further includes an input acceptance determination section that uses the voice output information to determine whether or not input to the intention understanding section can be accepted.
また、本開示に係る音声対話方法は、音声入出力装置と、応答音声を生成する音声対話管理装置とを含む音声対話システムで実行される。前記音声入出力装置が、ユーザの発話音声を取得し、前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理装置へ出力する。前記音声対話管理装置が、前記ユーザの発話音声を音声認識し、前記音声認識の結果から前記ユーザの発話意図を推定し、前記推定の結果である意図理解結果に基づき、前記ユーザへの応答内容を決定し、前記応答内容に基づく応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力装置へ出力し、前記音声出力状況が入力された場合、前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成し、前記音声出力情報を用いて、前記推定を実行するか否かを判定する。 Further, the voice dialogue method according to the present disclosure is executed by a voice dialogue system including a voice input/output device and a voice dialogue management device that generates response voices. The voice input/output device acquires the user's uttered voice, outputs the response voice to the user, and outputs the voice output status of the response voice to the voice dialogue management device. The voice dialogue management device performs voice recognition on the user's uttered voice, estimates the user's utterance intention from the result of the voice recognition, and responds to the user based on the intention understanding result that is the result of the estimation. is determined, and based on response content information based on the response content, an audio signal of the response voice is generated and output to the audio input/output device, and when the audio output status is input, the audio signal is determined from the audio output status. , generates audio output information that is information indicating whether or not the response voice is being outputted, and uses the audio output information to determine whether or not to perform the estimation.
また、本開示に係る音声対話管理装置は、応答音声を生成する装置であって、
ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成部と、
前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備えるものである。
Further, the voice dialogue management device according to the present disclosure is a device that generates a response voice,
a voice recognition unit that performs voice recognition on the user's uttered voice and outputs a voice recognition result;
an intention understanding unit that estimates the user's utterance intention from the voice recognition result and outputs an intention understanding result;
a dialogue management unit that outputs response content information to the user based on the intention understanding result;
a voice generation unit that generates and outputs an audio signal of the response voice based on the response content information;
an audio output information generation unit that receives an audio output status that is a status in which an audio signal of the response voice is output to the user, and generates audio output information that is information indicating whether or not the response voice is being output as audio; and,
The apparatus further includes an input acceptance determination section that uses the voice output information to determine whether or not input to the intention understanding section can be accepted.
本開示によれば、音声対話管理部と音声入出力部が別の独立した構成となる音声対話システムにおいても、音声対話システムの応答音声の出力完了時刻を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システム及び音声対話方法のユーザビリティが向上する効果を有する。
According to the present disclosure, even in a voice dialogue system in which the voice dialogue management unit and the voice input/output unit are configured separately and independently, it is possible to accurately detect the output completion time of the response voice of the voice dialogue system. As a result, it becomes possible to improve the accuracy of barge-in acceptance determination using voice recognition, and this has the effect of improving the usability of the voice dialogue system and the voice dialogue method.
実施の形態1.
《1-1》構成
実施の形態1における音声対話システムについて図1~図4を用いて説明する。図1は本実施の形態1を示す音声対話システムのブロック構成図である。
<<1-1>> Configuration The voice dialogue system in
図1において、音声対話システム1000は、音声入出力部200と、音声対話管理部300と、ネットワークNWとから構成される。
In FIG. 1, a
音声入出力部200は、ユーザUに対面しており、音声対話システム1000への音声入力と、音声対話システム1000からの応答音声をユーザUへ提示する処理を行う。また、音声入出力部200は、例えば、スマートスピーカの音声入出力装置に内蔵されている。
The voice input/
音声対話管理部300は、ユーザUが発話した音声信号を、後述するネットワークNWを通じて得ると共に、ユーザUの発話した音声の音声認識と意図理解を行い、ユーザUの意図に対応した応答音声を生成する処理を行う。生成された応答音声はネットワークNWへ出力される。また、音声対話管理部300は、例えば、ユーザUと離れた位置にあるデータセンタのサーバ装置に内蔵されている。
The voice
ネットワークNWは、音声入出力部200と音声対話管理部300とのデータ送受を行う通信機器であり、例えば、インターネットあるいはLAN(Local Area Network)など、有線または無線によるデジタル通信機器である。なお、ネットワークNWは、電話回線とモデムにより音声をアナログ伝送する通信機器であってもよい。
The network NW is a communication device that transmits and receives data between the voice input/
音声入出力部200は、音声入力部1と、音声出力部7とから構成される。また、音声対話管理部300は、音声認識部2と、入力受付判定部3と、意図理解部4と、対話管理部5と、音声生成部6と、音声出力情報生成部8とから構成される。
The audio input/
音声入力部1は、マイクロフォン(図示せず)を用いて、音声対話システム1000の利用者であるユーザUが発話した音声を取得する。取得したアナログ音声波形は、アナログ/デジタル変換器を用いて、例えば16kHzのサンプリング周波数でサンプリングされ、デジタル音声データ列に変換される。続いて、変換されたデジタル音声データ列の音響分析が行われて、例えば、音声認識で使用される特徴量パラメータである20次のMFCC(Mel Frequnecy Cepstrum Coefficients;メル周波数ケプストラム係数)に変換される。得られた特徴量パラメータMFCCを入力音声情報D1としてネットワークNWへ出力する。
The
なお、入力音声情報D1は特徴量パラメータMFCCに限られることは無い。入力音声情報D1は、後述する音声認識部2において音声認識処理が可能な情報であれば良く、例えば、音声波形を表すデジタル音声データ列、あるいはアナログ音声信号のままでも良い。この場合、音声入力部1中の音響分析を省略することができ、音響分析のための処理量を削減できる。
Note that the input audio information D1 is not limited to the feature parameter MFCC. The input voice information D1 may be any information that can be subjected to voice recognition processing in the
音声認識部2は、ネットワークNWを通じて得られた入力音声情報D1を入力し、音声区間検出処理により、ユーザUの発話開始タイミングと発話完了タイミングとを検出し、ユーザUの発話区間のみを切り出す。切り出された発話音声に対して音声認識処理を行うことでユーザUの発話内容を音声認識し、発話内容を表すテキストデータと発話開始タイミングおよび発話完了タイミングとを音声認識結果D2として出力する。
The
音声認識結果D2の発話内容は、ユーザUの発話中に含まれていた特定のキーワードを表すテキストデータだけでも良い。また、予め決められたキーワードを示すIDなどを表す数値データであっても良い。 The utterance content of the speech recognition result D2 may be only text data representing a specific keyword included in the user U's utterance. Alternatively, it may be numerical data representing an ID or the like indicating a predetermined keyword.
入力受付判定部3は、音声認識結果D2及び、後述する音声出力情報D8を入力として、ユーザUが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果D3を出力する。 The input acceptance determination unit 3 receives the voice recognition result D2 and the voice output information D8 (described later) as input, and determines whether to accept the input of the voice uttered by the user U. If the input is accepted, the input acceptance determination unit 3 receives the voice recognition result D3 that has been accepted. Output.
意図理解部4は、受理した音声認識結果D3を入力とし、入力内容の意図を推定し意図理解結果D4として出力する。ここで、意図理解結果D4は、ユーザUの発話意図・操作内容を表す情報であれば良く、テキストデータ、テキストの内容を示すIDといった数値データであれば良い。
The
対話管理部5は、意図理解結果D4を入力とし、ユーザUへの応答が必要な場合に応答内容情報D5を出力する。
The
なお、応答内容情報D5は、応答の種類・内容等の応答文を生成するために必要な情報であれば良く、テキストデータ、あるいは数値データ等、任意の形式をとることができる。 Note that the response content information D5 may be any information necessary to generate a response sentence, such as the type and content of the response, and can take any format such as text data or numerical data.
音声生成部6は、応答内容情報D5を入力とし、応答音声を生成し出力音声D6としてネットワークNWへ出力する。ここで、出力音声D6は、音声波形を表すデータ列である。
The
音声出力部7は、ネットワークNWを通じて得られた出力音声D6を入力し、出力音声D6をデジタル/アナログ変換器によりアナログ音声信号へ変換する。アナログ音声信号へ変換された出力音声D6は、スピーカ(図示せず)等の音声報知装置を用いて、音声対話システム1000からの応答音声としてユーザUへ出力される。
The
また、音声出力部7は、出力音声D6の音声出力開始時刻、あるいは音声出力完了時刻を示す情報である音声出力状況D7をネットワークNWへ出力する。なお、音声出力状況D7は、出力音声D6の音声出力開始時刻と音声出力開始時からの経過時間であっても良い。
Furthermore, the
音声出力情報生成部8は、ネットワークNWを通じて得られた音声出力状況D7を入力とし、音声出力部7が音声出力中か否かを示す情報である、音声出力情報D8を生成し出力する。ここで、音声出力情報D8は少なくとも音声出力中か否かを表現可能な情報であれば良く、時間そのものに限ることは無い。例えば、音声出力情報D8は、音声出力が完了するタイミングを示す、所定の周期(例えば、0.25msec)毎で出力するフラグ情報(例えば、音声出力中は1、音声停止中は0)であればよい。あるいは、音声出力開始時から出力完了するまでの相対時間の数値情報、時間を表すテキスト情報、あるいは、システム起動時からの音声データフレームのカウント数など、音声出力が完了するタイミングが判別可能な信号であれば良い。
The audio output
《1-2》ハードウェア構成
図1に示される音声対話システム1000の各構成は、CPU(Central Processing Unit)内蔵の情報処理装置であるコンピュータで実現可能である。CPU内蔵のコンピュータは、例えば、パーソナルコンピュータ、サーバ型コンピュータなどの据え置き型コンピュータ、スマートフォン、タブレット型コンピュータなどの可搬型コンピュータ、あるいは、カーナビゲーションシステムなどの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びSoC(System on Chip)などである。<1-2> Hardware Configuration Each configuration of the
また、図1に示される音声対話システム1000の各構成は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、又はFPGA(Field-Programmable Gate Array)などの電気回路であるLSI(Large Scale Integrated circuit)により実現されてもよい。また、図1に示される音声対話システム1000の各構成は、コンピュータとLSIの組み合わせであってもよい。
Furthermore, each configuration of the
図2は、コンピュータ等の情報処理装置を用いて構成される音声対話システム1000のハードウェア構成の例を示すブロック図である。
FIG. 2 is a block diagram showing an example of a hardware configuration of a
図2の例では、音声対話システム1000の音声入出力部200は、メモリ101A、CPU110Aを内蔵するプロセッサ102A、記録媒体103A、音響インタフェース104(図2中では音響I/Fと記載)、及びバスなどの信号路108Aを備えている。
In the example of FIG. 2, the audio input/
また、図2の例では、音声対話システム1000の音声対話管理部300は、メモリ101B、CPU110Bを内蔵するプロセッサ102B、記録媒体103B、ネットワークインタフェース105B(図2中ではネットワークI/Fと記載)、テキストインタフェース106(図2中ではテキストI/Fと記載)、表示インタフェース107(図2中では表示I/Fと記載)、及びバスなどの信号路108Bを備えている。
In the example of FIG. 2, the voice
メモリ101A、及びメモリ101Bは、実施の形態1の音声対話処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するROM(Read Only Memory)及びRAM(Random Access Memory)等の記憶装置である。
The
メモリ101Aには、より具体的に言えば、音声入力部1、音声出力部7の各プログラムを記憶することができる。また、メモリ101Aには、入力音声情報D1、出力音声D6、音声出力状況D7などの中間データを記憶することができる。
More specifically, each program for the
メモリ101Bには、より具体的に言えば、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力情報生成部8の各プログラムを記憶することができる。また、メモリ101Bには、入力音声情報D1、音声認識結果D2、受理した音声認識結果D3、意図理解結果D4、応答内容情報D5、出力音声D6、音声出力状況D7、音声出力情報D8などの中間データを記憶することができる。
More specifically, the
プロセッサ102Aは、CPU110Aと、作業用メモリとしてメモリ101A中のRAMを使用し、メモリ101A中のROMから読み出されたコンピュータ・プログラム(すなわち、音声対話プログラム)に従って動作する。
プロセッサ102Aは、より具体的に言えば、音声入力部1、音声出力部7の各処理に対応するプログラムをメモリ101Aから読み出し、CPU110Aで処理を行うことで、本実施の形態1に示す音声対話処理に係る音声入出力処理を実行することができる。
More specifically, the
プロセッサ102Bは、CPU110Bと、作業用メモリとしてメモリ101B中のRAMを使用し、メモリ101B中のROMから読み出されたコンピュータ・プログラム(すなわち、音声対話プログラム)に従って動作する。
プロセッサ102Bは、より具体的に言えば、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力情報生成部8の各処理に対応するプログラムをメモリ101Bから読み出し、CPU110Bで処理を行うことで、本実施の形態1に示す音声対話処理に係る音声対話管理処理を実行することができる。
More specifically, the
記録媒体103Aは、プロセッサ102Aの各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体103Aとしては、例えば、SDRAM(Synchronous DRAM)などの揮発性メモリ、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の不揮発性メモリを使用することが可能である。記録媒体103Aには、例えば、OS(Operating System)を含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体103Aに、メモリ101A内の各種データを蓄積しておくこともできる。
The
記録媒体103Bは、プロセッサ102Bの各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体103Bとしては、例えば、SDRAMなどの揮発性メモリ、HDD又はSSD等の不揮発性メモリを使用することが可能である。記録媒体103Bには、例えば、OSを含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体103Bに、メモリ101B内の各種データを蓄積しておくこともできる。
The
音響インタフェース104は、ユーザUの発話した音声信号を取得するマイクロフォンと、出力音声D6をユーザUに報知するためのスピーカとで構成される。
The
ユーザUが発話した音声をマイクロフォンで取得する代わりに、後述するネットワークインタフェース105Aを用い、他の装置から取得したストリームデータを入力するようにしても良い。また、ネットワークインタフェース105Aを通じて外部装置に記憶されている録音済みの音声データを選択し、読み込むようにしても良い。また、出力音声D6をスピーカによりユーザUに報知する代わりに、ネットワークインタフェース105Aを用い、他の装置へデータとして送出しても構わない。なお、マイクロフォン及びスピーカを用いる代わりに、有線あるいは無線等の通信を介して音声を入出力するシステムであれば、音響インタフェース104は省略することが可能である。
Instead of acquiring the voice uttered by the user U using a microphone, stream data acquired from another device may be input using a
ネットワークインタフェース105A、及びネットワークインタフェース105Bは、入力音声情報D1、出力音声D6、及び音声出力状況D7をネットワーク上のデータから参照する場合、ストリームデータとして入出力する場合など、外部データの送受信を有線又は無線通信にて行う通信インタフェースである。
The
テキストインタフェース106は、応答音声内容等を人の手によって文字入力するための入力機器であり、キーボード、タッチパネル、マウスなどの入力装置で構成される。なお、人による入力を必要としないシステムであれば、テキストインタフェース106は省略することが可能である。
The
表示インタフェース107は、入力音声の音声認識結果、応答音声の出力内容等の表示機器であり、ディスプレイ等の表示装置で構成される。なお、表示装置での表示を必要としないシステムであれば、表示インタフェース107は省略することが可能である。
The
以上のように、図2に示される、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各機能は、メモリ101A、メモリ101B、プロセッサ102A、プロセッサ102B、記録媒体103A、及び記録媒体103Bで実現することができる。
As described above, the
なお、音声対話システム1000を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD-ROMあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、LAN(Local Area Network)等の無線または有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。
Note that the program for executing the
また、音声対話システム1000を実行するプログラムは、外部で実行されるプログラム、例えば、カーナビゲーションシステム、自動電話応答システムを実行するプログラムとソフトウェア上で結合し、同一のコンピュータで動作させることも可能であるし、又は、複数のコンピュータ上で分散処理することも可能である。
Furthermore, the program that executes the
《1-3》処理動作
続いて、実施の形態1の音声対話システムの処理動作について図3を用いて説明する。図3は、本実施の形態1を示す音声対話システム1000の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。<<1-3>> Processing Operation Next, the processing operation of the voice dialogue system of
ステップST1で、音声入力部1は、ユーザUが発話した入力音声を取得して音響分析が行われ、得られた特徴量パラメータMFCCを入力音声情報D1として音声認識部2へ出力する(ステップST1)。
In step ST1, the
ステップST2で、音声認識部2は、まず、入力音声の音声区間検出により、入力音声の発話開始タイミングならびに発話完了タイミングを検出し、入力音声の特徴量パラメータからユーザUの発話音声のみを切り出す。続いて、切り出された発話音声に対して音声認識処理が行われることで、入力音声情報D1からユーザUの発話内容を認識し、発話内容の認識結果と発話開始タイミングならびに発話完了タイミングとを音声認識結果D2として入力受付判定部3へ出力する(ステップST2)。ここで、音声認識は公知の音声認識技術を用いればよく、例えば、非特許文献1に記載されているように、HMM(Hidden Markov Model;隠れマルコフモデル)法に基づく音声認識方法により、単語単位、あるいは文単位の音声認識を行えばよい。また、入力音声の音声区間検出方法として、音声の短時間パワーと所定の閾値との比較、あるいは、入力音声のケプストラム分析などの公知の手法を用いることができる。
In step ST2, the
ステップST3で、入力受付判定部3は、音声認識結果D2及び音声出力情報D8を入力し、ユーザUの発話音声の入力を受け付けるか否かを判定する(ステップST3)。ここで、音声出力情報D8は、応答音声を出力中か否かを表す情報であり、例えば、応答音声を出力中か否かであることを示すフラグであり、例えば、フラグの値が1の場合、応答音声出力中とし、フラグの値が0であれば応答音声が出力されていない状態である。あるいは、応答音声出力開始時刻からの出力経過時間であってもよく、経過時間が0でなければ、応答音声出力中であると判断することができる。なお、応答音声が出力完了した場合、出力結果時間は0にリセットされる。 In step ST3, the input acceptance determination unit 3 inputs the voice recognition result D2 and the voice output information D8, and determines whether to accept the input of the voice uttered by the user U (step ST3). Here, the audio output information D8 is information indicating whether or not a response voice is being output, and is, for example, a flag indicating whether or not a response voice is being output. In this case, the response voice is being outputted, and if the value of the flag is 0, the response voice is not being output. Alternatively, it may be the output elapsed time from the response voice output start time, and if the elapsed time is not 0, it can be determined that the response voice is being output. Note that when the output of the response voice is completed, the output result time is reset to 0.
図4に、ステップST3の入力受付判定部3における具体的な動作の一例を示す。以下、音声対話システム1000がユーザUへ出力する応答音声を“システム発話”と略し、ユーザUが音声対話システム1000へ入力する発話音声を“ユーザ発話”と略する。この一例では、システム発話の開始及び完了のタイミングを音声出力情報D8として入力される。また、この一例では、システム発話開始から発話完了までの区間におけるユーザ発話の入力を受け付けないように動作する。
FIG. 4 shows an example of a specific operation in the input reception determining section 3 in step ST3. Hereinafter, the response voice that the
本発明の実施の形態1の効果を具体的に比較可能とするため、(a)に音声生成部6が出力するシステム発話に基づく動作の一例、(b)に本発明の実施の形態1による動作の一例をそれぞれ示す。なお、音声生成部6が出力するシステム発話の音声を、上段(A)の音声内容として図示し、音声出力部7がユーザUへ出力するシステム発話の音声を、下段(B)の音声内容として図示する。また、”ユーザ発話”はユーザUが発話した音声内容、”発話状況”はシステム発話の出力状況、”受理結果”は入力受付判定部3での入力音声の受け付け結果をそれぞれ表す。横軸は音声対話管理部300における時間である。
In order to specifically compare the effects of the first embodiment of the present invention, (a) shows an example of the operation based on the system utterance output by the
また、図4に示す動作の一例では、音声出力部7がユーザUへ出力するシステム発話((B)の音声内容)の発話開始時刻と発話完了時刻は、音声生成部6が出力する応答音声のデータがネットワークNWの伝送遅延等の影響を受けるため、音声生成部6が出力するシステム発話((A)の音声内容)と異なるタイミングとなる。具体的には、時間軸上に示す”ST(A)”が、音声生成部6の音声データから得られるシステム発話の開始時刻、同じく”EN(A)”が音声生成部6の音声データから得られるシステム発話の完了時刻である。また、時間軸上に示す”ST(B)”は、音声出力部7がユーザUに出力する応答音声であるシステム発話の開始時刻、すなわち、本発明の実施の形態1における発話開始時刻、同じく”EN(B)”は、音声出力部7がユーザUに出力する応答音声であるシステム発話の完了時刻、すなわち、本発明の実施の形態1における発話完了時刻である。
In addition, in the example of the operation shown in FIG. 4, the utterance start time and utterance completion time of the system utterance (audio content in (B)) outputted by the
なお、ユーザUが発話開始するタイミングは、音声出力部7が出力する応答音声の出力完了後、すなわち、ユーザUに対し報知されたシステム発話(すなわち、(B)の音声内容)をユーザUが聴取した後であるため、(a)の音声生成部6が出力するシステム発話に基づく動作の一例と(b)の本発明の実施の形態1による動作の一例とは同じになる。
Note that the timing at which the user U starts speaking is after the output of the response voice output by the
図4において、まず、音声対話システム1000は、ユーザUに対して音声入力を促すシステム発話である「ご用件をお話しください。」を出力する([1]発話開始)。システム発話完了後([1]発話完了)、ユーザUが「宅配を、えーと、お願いします」と発話する。
In FIG. 4, first, the
音声入力部1がユーザ発話を取得後、音声認識部2において、ユーザ発話が「宅配を、」と「えーと、」と「お願いします。」とに発話区間が分割されて入力された場合、音声認識部2はまず「宅配を、」という入力を受け付け、音声対話システム1000はユーザUの発話途中であるがユーザの発話意図を理解し、「住所をお話しください。」とシステム発話を開始する([2]発話開始)。
After the
「住所をお話しください。」のシステム発話中に、「えーと、」「お願いします。」というユーザ発話が入力された場合、(a)に示す動作の一例では、「えーと」のユーザ発話はシステム発話中([2]発話開始の”ST(A)”から[2]発話完了の”EN(A)”の間)であると判断できるので、ユーザ発話「えーと、」の入力受付は棄却される。しかし、ユーザ発話「お願いします。」の語尾部分に関しては、システム発話完了時刻(”EN(A)”印)よりも後に発話したものと見做される。このユーザ発話の語尾部分は、システム発話完了後のユーザ発話「東京都・・・」と共に誤って受け付けられてしまい、その結果、誤認識となってしまう。 In the example of the operation shown in (a), if the user utterances ``Um,'' and ``Please.'' are input while the system is uttering ``Please tell me your address.'' Since it can be determined that the user is speaking (between [2] "ST(A)" at the start of the speech and "EN(A)" at the end of the speech), the input acceptance of the user's utterance "Um," is rejected. Ru. However, the final part of the user's utterance "Please." is considered to have been uttered after the system utterance completion time (marked "EN(A)"). The final part of the user's utterance is mistakenly accepted together with the user's utterance "Tokyo..." after the system utterance is completed, resulting in erroneous recognition.
一方、(b)に示す本発明の動作の一例では、システム発話「住所をお話しください。」の開始及び完了のタイミングを含む音声出力情報D8の入力を受けることで、ユーザ発話「えーと、」「お願いします。」は、システム発話開始時刻([2]発話開始の”ST(B)”)から発話完了時刻([2]発話完了の”EN(B)”)までの区間の入力であることが分かるので、前のシステム発話「ご用件をお話ください。」に対する入力であると音声対話システム1000は判断し、ユーザ発話「えーと、」「お願いします。」の入力受付を棄却する。そして、システム発話完了後に入力された「東京都・・・」というユーザ発話に対し、システム発話「住所をお話しください。」の入力を正しく受け付けることができ、その結果、正しく認識することができる。
On the other hand, in the example of the operation of the present invention shown in (b), by receiving the input of audio output information D8 including the start and completion timing of the system utterance "Please tell me your address," the user utterance "Um," " "Please." is an input for the interval from the system utterance start time ([2] utterance start "ST(B)") to the utterance completion time ([2] utterance completion "EN(B)") Since this is known, the
つまり、本発明の実施の形態1に示すように、音声出力情報D8を用いることで、音声生成部6が生成したシステム発話の出力完了時刻と、音声出力部7がユーザUに出力したシステム発話の出力完了時刻との時間差を吸収あるいは補正できるので、音声対話システム1000は、ユーザUに出力したシステム発話完了時刻(すなわち、音声入出力部7でのシステム発話出力が完了するタイミング)が正確に分かる。よって、システム発話完了直後にユーザが発話したとしても、そのユーザ発話を受け付けすることが可能である。この動作により、音声対話システム1000がユーザUの発話途中に意図を理解し、次の対話に進んでしまった場合にも、前の質問に対するユーザUの発話による誤認識を精度良く防止する効果がある。
That is, as shown in
なお、上記したステップST3の動作の一例では、システム発話の開始時刻から完了時刻までの区間のユーザ発話を受け付けないように動作しているが、これに限られるものではない。例えば、システム発話完了後から所定の時間内はユーザ発話を受け付けないようにしても良く、システム発話開始時刻とシステム発話完了時刻から発話時間長を算出し、発話時間長のうち所定の割合時間が経過するまで、ユーザ発話を受け付けないようにしても良い。 Note that in the example of the operation in step ST3 described above, the operation is performed so as not to accept user utterances in the section from the start time to the completion time of the system utterance, but the system is not limited to this. For example, user utterances may not be accepted within a predetermined time after the system utterance is completed, and the utterance time length is calculated from the system utterance start time and the system utterance completion time, and a predetermined percentage of the utterance length is User utterances may not be accepted until the time period has elapsed.
また、図4において、入力受付判定時にシステム発話開始を利用する動作の一例を示したが、ネットワークNWの伝送遅延、音声認識の処理遅延が少なく、音声認識が完了した時点がシステム発話開始時刻と見なせる場合には、音声出力状況D7及び音声出力情報D8にシステム発話開始時刻に関する情報が無くても良い、すなわち、応答音声出力開始時刻に関する情報が含まれなくても良い。 In addition, although FIG. 4 shows an example of an operation that uses the system utterance start when determining input acceptance, the transmission delay of the network NW and the processing delay of voice recognition are small, and the system utterance start time is the time when voice recognition is completed. In this case, the audio output status D7 and the audio output information D8 may not include information regarding the system utterance start time, that is, the information regarding the response audio output start time may not be included.
ステップST4で、意図理解部4は、音声認識結果D2を入力とし、音声対話システム1000に対するユーザUの発話意図・操作内容を推定し、意図理解結果D4を出力する(ステップST4)。なお、意図理解部4における意図理解処理は公知の意図理解方法を用いれば良く、例えば、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザ発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアを算出し、算出されたスコアに基づいて、複数の意図情報の中から、ユーザ発話の意図を示す意図情報を選択する意図理解方法を用いることができる。
In step ST4, the
ステップST5で、対話管理部5は、ユーザ発話の意図理解結果に基づき応答内容を決定し、応答内容情報D5として出力する(ステップST5)。ここで、対話管理部5における対話管理処理は公知の対話管理方法を用いれば良く、例えば、予め定められた対話状態に対応する応答テンプレートの中から、ユーザとの対話状態に対応する応答テンプレートを選択し、選択した応答テンプレートに含まれる用語シンボルを出力する対話管理方法を用いることができる。
In step ST5, the
ステップST6で、音声生成部6は、応答内容情報D5に応じてユーザUに提示する応答音声を生成し、出力音声D6として出力する(ステップST6)。応答内容情報D5が、発話内容を示すテキストである場合、音声生成部6は公知の音声合成方法を用いれば良く、例えば、PSOLA(Pitch Synchronous Overlap and Add;ピッチ同期重畳加算)方式に基づくテキスト音声合成方法、あるいは、非特許文献2に記載されているような、波形編集型テキスト音声合成方法を用いれば良い。また、応答内容情報D5が予め用意された音声データに紐づくIDであった場合、音声生成部6が内蔵する記憶装置(図示せず)から、IDに対応する音声データを読み込んで出力音声D6として出力することもできる。
In step ST6, the
ステップST7で、音声出力部7は、生成した出力音声D6をシステム発話としてユーザUへ報知する(ステップST7)。また、音声出力部7は応答音声の音声データの送出が完了した時点で、システム発話である応答音声の音声出力完了時刻を示す情報である音声出力状況D7を、ネットワークNWを通じて音声出力情報生成部8に出力する(ステップST7)。
In step ST7, the
ここで、音声出力状況D7として音声出力完了時刻を示す情報を送出するタイミングは、例えば、スピーカ出力時の音声出力用バッファ、あるいはネットワークNWへのデータ送信時の音声送信用バッファにすべての音声データを書き込み終わった時点であれば良い。また、音声出力状況D7として音声出力開始時刻を示す情報を送出するタイミングは、スピーカ出力時の音声出力用バッファ、あるいはネットワークNWへのデータ送信時の音声送信用バッファに音声データを書き込み始めた時点であれば良い。 Here, the timing at which the information indicating the audio output completion time is sent as the audio output status D7 is determined, for example, when all audio data is stored in the audio output buffer when outputting from a speaker, or when transmitting data to the network NW. It is fine as long as you have finished writing. Furthermore, the timing at which the information indicating the audio output start time is sent as the audio output status D7 is the time when audio data starts to be written to the audio output buffer when outputting from the speaker or to the audio transmission buffer when transmitting data to the network NW. That's fine.
ステップST8で、音声出力情報生成部8は、入力された音声出力状況D7から音声出力情報D8を生成し、入力受付判定部3へ出力する(ステップST8)。
In step ST8, the audio output
ここで、ステップST8での動作の一例として、音声出力開始時刻を示す信号、あるいは、音声出力完了時刻を示す信号を音声出力状況D7として受け取り次第、音声出力情報D8としてそのまま出力すればよく、音声出力部7が出力する音声出力状況D7を音声出力情報D8としても良い。また、音声出力部7が複数存在するようにシステムが構成されている場合には、音声出力部7のそれぞれの音声出力状況が区別できるようにすれば良く、例えば、音声出力部7のID等を付与した音声出力情報D8を生成するようにすればよい。
Here, as an example of the operation in step ST8, as soon as the signal indicating the audio output start time or the signal indicating the audio output completion time is received as the audio output status D7, it is sufficient to output it as is as the audio output information D8. The audio output status D7 output by the
この実施の形態1では、ステップST2の音声認識部2での処理後に、ステップST3の入力受付判定部3での処理を行うように構成したが、ステップST4の意図理解部4での処理の後に、ステップST3の入力受付判定部3での処理を実行するように構成しても良い。この場合には、すべての音声認識結果D2に対して意図理解部4における意図理解処理を実行するが、入力受付判定部3では、意図理解内容を踏まえた上で入力受付判定処理を実行することができるので、入力受付判定処理の精度を高めることが可能となる。
In the first embodiment, after the processing in the
また、ステップST4の意図理解部4で得られた意図理解結果D4が、音声対話システム1000との対話内容に応じた内容であれば、音声出力情報D8に応じた入力受付判定を行い、対話内容とは関係のない意図理解結果D4であれば、音声出力情報D8に影響されず常時入力を受け付けるように動作させても良い。
Further, if the intention understanding result D4 obtained by the
以上のように、この実施の形態1では、音声出力情報生成部が、システム発話を出力中か否かを示す情報である音声出力情報を生成し、入力受付判定部は、受け取った音声出力情報に基づいてシステム発話の出力完了時刻を補正し、ユーザ発話を受け付けるか否かを判定するように構成したので、ユーザUが最後まで発話内容を聞く必要がある、システム発話に対する音声入力について、入力受付判定部がシステム発話完了のタイミングを正確に把握することが可能となる。 As described above, in the first embodiment, the audio output information generation section generates audio output information that is information indicating whether or not system utterances are being output, and the input acceptance determination section Since the system is configured to correct the output completion time of the system utterance based on the utterance and determine whether or not to accept the user utterance, it is possible to correct the output completion time of the system utterance based on the input It becomes possible for the reception determining unit to accurately grasp the timing of completion of system utterance.
すなわち、この実施の形態1の構成を為すことにより、入力受付判定部は、ユーザが実際に聞いた応答音声と、音声生成部が生成した応答音声との時間差がある場合であってもその影響を吸収し、システム発話完了のタイミングを正確に把握することが可能となる。言い換えれば、音声対話管理部と音声入出力部が別の独立した構成で、応答音声の伝送遅延がある音声対話システムにおいても、音声対話システムは応答音声の出力完了時刻を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。 In other words, by having the configuration of the first embodiment, the input acceptance determination section can eliminate the influence of the time difference between the response voice actually heard by the user and the response voice generated by the voice generation section. This makes it possible to accurately grasp the timing of system utterance completion. In other words, even in a voice dialogue system in which the voice dialogue management section and the voice input/output section are separate and independent configurations, and there is a transmission delay of the response voice, the voice dialogue system cannot accurately detect the output completion time of the response voice. can. As a result, it becomes possible to improve the accuracy of barge-in acceptance determination using voice recognition, which has the effect of improving the usability of the voice dialogue system.
また、音声出力情報生成部が、システム発話完了のタイミングの情報を音声出力情報として出力するように構成したので、入力受付判定部で応答音声を受信する必要は無くなり、入力受付判定部にて改めて応答音声を分析して発話時間を算出する場合と比べ、応答音声データ分析のための処理量が削減できるという効果がある。 In addition, since the voice output information generation unit is configured to output information on the timing of system utterance completion as voice output information, there is no need for the input reception determination unit to receive the response voice, and the input reception determination unit Compared to calculating the speaking time by analyzing the response voice, this method has the effect of reducing the amount of processing required to analyze the response voice data.
更に、ネットワークNWの通信において伝送遅延が生じ、入力受付判定部で応答音声の受信に遅延が生じた場合、改めて応答音声を分析する場合と比べ、正確なシステム発話完了のタイミングが得られるために入力受付の判定精度が維持できる効果がある。 Furthermore, if there is a transmission delay in communication on the network NW and there is a delay in receiving the response voice at the input acceptance determination unit, it is possible to obtain a more accurate system utterance completion timing than when the response voice is analyzed again. This has the effect of maintaining the judgment accuracy of input reception.
また、入力受付判定部が応答音声の音声データを受信する必要が無いので、音声出力部における応答音声の音声データ送信も不要であり、そのための処理コスト及び装置コストを削減可能であるという効果がある上、応答音声の音声データの送受信が不要なことから、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データとのサンプリング周波数が異なるなど、音声入出力設定に差異があっても影響されず、音声対話システムの設計自由度が増す効果も奏する。 In addition, since the input acceptance determination section does not need to receive the voice data of the response voice, there is no need for the voice output section to transmit the voice data of the response voice, which has the effect of reducing the processing cost and device cost. Moreover, since it is not necessary to send and receive audio data for response voices, there may be differences in the audio input/output settings, such as different sampling frequencies between the audio data output by the audio input/output unit and the audio data received by the audio dialogue management unit. This has the effect of increasing the degree of freedom in designing the voice dialogue system.
実施の形態2.
《2-1》構成
上記した実施の形態1では、音声入出力部200と音声対話管理部300との音声データ送受をネットワークNWを介して行っていたが、これに限ることは無い。例えば、音声入出力部200と音声対話管理部300は同一の装置内に配置されているが、音声入出力部200と音声対話管理部300とが独立した構成の場合、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データの規格(例えば、サンプリング周波数)が異なることが多い。このような場合でも、音声入出力部200と音声対話管理部300とを直接接続することも可能である。これを実施の形態2として説明する。
<<2-1>> Configuration In the first embodiment described above, voice data is transmitted and received between the voice input/
実施の形態2における音声対話システムについて図5を用いて説明する。図5は実施の形態2を示す音声対話システムのブロック構成図である。図5中、図1と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
The voice dialogue system in
音声入力部1は、マイクロフォン(図示せず)を用いて、音声対話システム1000の利用者であるユーザUが発話した音声を取得する。取得したアナログ音声波形は、例えば16kHzのサンプリング周波数でサンプリングされ、デジタル音声データ列に変換される。続いて、変換されたデジタル音声データ列の音響分析が行われて、例えば、音声認識で使用される特徴量パラメータである20次のMFCCに変換される。得られた特徴量パラメータMFCCを入力音声情報D1として音声対話管理部300内の音声認識部2へ出力する。
The
音声認識部2は、入力音声情報D1を入力し、例えば、ユーザUの発話区間の切り出しと、切り出された発話音声の発話内容を音声認識し、発話内容を表すテキストデータと発話開始タイミングおよび発話完了タイミングとを音声認識結果D2として出力する。
The
入力受付判定部3は、音声認識結果D2、及び音声出力情報D8を入力として、ユーザUが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果D3を出力する。 The input acceptance determination unit 3 receives the voice recognition result D2 and the voice output information D8 as input, determines whether to accept the input of the voice uttered by the user U, and outputs the accepted voice recognition result D3 if the input is accepted. .
意図理解部4は、受理した音声認識結果D3を入力とし、入力内容の意図を推定し意図理解結果D4として出力する。
The
対話管理部5は、意図理解結果D4を入力とし、ユーザUへの応答が必要な場合に応答内容情報D5を出力する。
The
音声生成部6は、応答内容情報D5を入力とし、応答音声を生成し出力音声D6として音声入出力部200内の音声出力部7へ出力する。
The
音声出力部7は、音声生成部6から得られた出力音声D6を入力し、スピーカ(図示せず)等の音声報知装置により音声対話システム1000からの応答音声をユーザUへ出力すると共に、音声出力状況D7を音声出力情報生成部8へ出力する。
The
音声出力情報生成部8は、音声出力部7から得られた音声出力状況D7を入力とし、音声出力部7が音声出力中か否かを示す情報である、音声出力情報D8を生成し出力する。
The audio output
《2-2》ハードウェア構成
図5に示される音声対話システム1000の各構成は、実施の形態1で示したのと同様に、CPU内蔵の情報処理装置であるコンピュータで実現可能である。CPU内蔵のコンピュータは、例えば、パーソナルコンピュータ、サーバ型コンピュータなどの据え置き型コンピュータ、スマートフォン、タブレット型コンピュータなどの可搬型コンピュータ、あるいは、カーナビゲーションシステムなどの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びSoCなどである。<<2-2>> Hardware Configuration Each configuration of the
また、図5に示される音声対話システム1000の各構成は、DSP、ASIC、又はFPGAなどの電気回路であるLSIにより実現されてもよい。また、図5に示される音声対話システム1000の各構成は、コンピュータとLSIの組み合わせであってもよい。
Further, each configuration of the
図6は、コンピュータ等の情報処理装置を用いて構成される音声対話システム1000のハードウェア構成の例を示すブロック図である。図6中、図2と同一符号を付したものは同一または相当部分を示すものとし、またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
FIG. 6 is a block diagram showing an example of a hardware configuration of a
図6の例では、音声対話システム1000は、メモリ101、CPU110を内蔵するプロセッサ102、記録媒体103、音響インタフェース104(図6中では音響I/Fと記載)、ネットワークインタフェース105(図6中ではネットワークI/Fと記載)、テキストインタフェース106(図6中では表示I/Fと記載)、表示インタフェース107(図6中ではテキストI/Fと記載)、及びバスなどの信号路108を備えている。
In the example of FIG. 6, the
メモリ101は、実施の形態2の音声対話処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するROM及びRAM等の記憶装置である。
The
メモリ101には、より具体的に言えば、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各プログラムを記憶することができる。また、メモリ101には、入力音声情報D1、音声認識結果D2、受理した音声認識結果D3、意図理解結果D4、応答内容情報D5、出力音声D6、音声出力状況D7、音声出力情報D8などの中間データを記憶することができる。
More specifically, the
プロセッサ102は、CPU110と、作業用メモリとしてメモリ101中のRAMを使用し、メモリ101中のROMから読み出されたコンピュータ・プログラム(すなわち、音声対話プログラム)に従って動作する。
プロセッサ102は、より具体的に言えば、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各処理に対応するプログラムをメモリ101から読み出し、CPU110で処理を行うことで、本実施の形態2に示す音声対話処理を実行することができる。
More specifically, the
記録媒体103は、プロセッサ102の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体103としては、例えば、SDRAMなどの揮発性メモリ、HDD又はSSD等の不揮発性メモリを使用することが可能である。記録媒体103には、例えば、OSを含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体103に、メモリ101内の各種データを蓄積しておくこともできる。
The
ユーザUが発話した音声をマイクロフォンで取得する代わりに、後述するネットワークインタフェース105を用い、他の装置から取得したストリームデータを入力するようにしても良い。また、ネットワークインタフェース105を通じて外部装置に記憶されている録音済みの音声データを選択し、読み込むようにしても良い。また、出力音声D6をスピーカによりユーザUに報知する代わりに、ネットワークインタフェース105を用い、他の装置へデータとして送出しても構わない。なお、マイクロフォン及びスピーカを用いる代わりに、有線あるいは無線等の通信を介して音声を入出力するシステムであれば、音響インタフェース104は省略することが可能である。
Instead of acquiring the voice spoken by the user U using a microphone, stream data acquired from another device may be input using the
ネットワークインタフェース105は、入力音声情報D1、出力音声D6、及び音声出力状況D7をネットワーク上のデータから参照する場合、ストリームデータとして入出力する場合など、外部データの送受信を有線又は無線通信にて行う通信インタフェースである。なお、外部データの送受信を行わない場合、ネットワークインタフェース105は省略することが可能である。
The
以上のように、図5に示される、音声入力部1、音声認識部2、入力受付判定部3、意図理解部4、対話管理部5、音声生成部6、音声出力部7、音声出力情報生成部8の各機能は、メモリ101、プロセッサ102、及び記録媒体103で実現することができる。
As described above, the
なお、音声対話システム1000を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD-ROMあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、LAN等の無線または有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。
Note that the program for executing the
また、音声対話システム1000を実行するプログラムは、外部で実行されるプログラム、例えば、カーナビゲーションシステム、自動電話応答システムを実行するプログラムとソフトウェア上で結合し、同一のコンピュータで動作させることも可能であるし、又は、複数のコンピュータ上で分散処理することも可能である。
Furthermore, the program that executes the
上記したように、音声入出力部200と音声対話管理部300とが独立した構成の場合、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データの規格、例えば、サンプリング周波数が異なることが多い。音声入出力部と音声対話管理部とを相互接続するためには、両者が送受信する音声データのサンプリング周波数を同一にする必要があり、サンプリング周波数変換に伴う音声データの時間遅延が生じるが、この実施の形態2の構成を為すことで、システム発話の時間遅延が生じても、入力受付判定部3は音声出力情報D8を用いることで、システム発話完了時刻(システム発話の出力完了タイミング)を正確に検出することが可能となる。
As described above, when the audio input/
以上のように、この実施の形態2では、音声出力情報生成部が、システム発話を出力中か否かを示す情報である音声出力情報を生成し、入力受付判定部は、受け取った音声出力情報に基づいて、ユーザ発話を受け付けるか否かを判定するように構成したので、ユーザUが最後まで発話内容を聞く必要がある、システム発話に対する音声入力について、入力受付判定部がシステム発話完了のタイミングを正確に把握することが可能となる。 As described above, in this second embodiment, the voice output information generation unit generates voice output information that is information indicating whether or not system utterances are being output, and the input acceptance determination unit Since the configuration is configured to determine whether or not to accept user utterances based on It becomes possible to understand accurately.
すなわち、この実施の形態2の構成を為すことにより、入力受付判定部は、ユーザが実際に聞いた応答音声と、音声生成部が生成した応答音声との時間差がある場合であってもその影響を吸収し、システム発話完了のタイミングを正確に把握することが可能となる。言い換えれば、音声対話管理部と音声入出力部が別の独立した構成で、応答音声の伝送遅延がある音声対話システムにおいても、音声対話システムの応答音声の出力完了時刻(システム発話の出力完了タイミング)を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。 In other words, by having the configuration of this second embodiment, the input reception determining section can eliminate the influence of the time difference between the response voice actually heard by the user and the response voice generated by the voice generation section. This makes it possible to accurately grasp the timing of system utterance completion. In other words, even in a voice dialogue system in which the voice dialogue management section and the voice input/output section are separate and independent configurations, and there is a delay in transmission of the response voice, the time at which the voice dialogue system completes outputting the response voice (the timing at which the output of system utterances completes) ) can be detected accurately. As a result, it becomes possible to improve the accuracy of barge-in acceptance determination using voice recognition, which has the effect of improving the usability of the voice dialogue system.
また、音声出力情報生成部が、システム発話完了のタイミングの情報を音声出力情報として出力するように構成したので、入力受付判定部で応答音声を受信する必要は無くなり、入力受付判定部にて改めて応答音声を分析して発話時間を算出する場合と比べ、応答音声データ分析のための処理量が削減できるという効果も有する。 In addition, since the voice output information generation unit is configured to output information on the timing of system utterance completion as voice output information, there is no need for the input reception determination unit to receive the response voice, and the input reception determination unit This method also has the effect that the amount of processing for analyzing response voice data can be reduced compared to the case where the speaking time is calculated by analyzing the response voice.
なお、この実施の形態2では、音声入出力部200と音声対話管理部300とが独立した構成について説明したが、これに限ることは無く、音声入出力部200と音声対話管理部300とを同じシステム内で動作させることも可能であり、独立した構成の場合と同様の効果を奏する。
In the second embodiment, the voice input/
実施の形態3.
《3-1》構成
上記した実施の形態1では、音声出力部7が生成する音声出力状況D7のみから応答音声の出力開始時刻、あるいは出力完了時刻を検出していたが、これに限ることはなく、出力音声D6を併せて分析して、応答音声の出力開始時刻あるいは出力完了時刻を検出することも可能であり、これを実施の形態3として説明する。Embodiment 3.
<<3-1>> Configuration In the first embodiment described above, the output start time or output completion time of the response voice is detected only from the voice output situation D7 generated by the
実施の形態3における音声対話システムについて図7を用いて説明する。図7は実施の形態3を示す音声対話システムのブロック構成図である。図7中、図1と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
The voice dialogue system in Embodiment 3 will be explained using FIG. 7. FIG. 7 is a block diagram of a voice dialogue system according to a third embodiment. In FIG. 7, the same reference numerals as those in FIG. 1 indicate the same or corresponding parts. Furthermore, since their configurations are the same as those shown in
音声生成部6は、応答内容情報D5を入力とし、応答音声を生成し出力音声D6としてネットワークNWへ出力する。また、出力音声D6の時間長を、例えば、音声データのサイズから算出し、得られた時間長を音声長情報D9として出力する。
The
音声出力部7は、音声生成部6からネットワークNWを通じて得られた出力音声D6を入力し、スピーカ(図示せず)等の音声報知装置により音声対話システム1000からの応答音声をユーザUへ出力すると共に、音声出力状況D7を音声出力情報生成部8へ出力する。
The
また、音声出力部7は、音声生成部6からネットワークNWを通じて得られた音声長情報D9を入力とし、ディスプレイ(図示せず)等の情報提示装置を用いて、出力音声D6の時間長に関する情報、例えば、応答音声出力完了までの残り時間をテキスト表示することで、ユーザUへ提示することも可能である。ユーザUへ出力音声D6の時間長に関する情報をユーザUに提示することで、ユーザUは自身の発話タイミングを図ることが可能となり、音声対話システムのユーザビリティが向上する。
The
あるいは、ランプ等の発光装置を用いて、ランプの点滅周期の速度によってユーザUへ発話タイミングを提示してもよい。例えば、応答音声出力開始時はランプを全点灯し、応答音声出力完了までの残り時間が少なくなるにしたがって点滅周期を早くし、ランプが消灯した時点で応答音声出力完了とすることで、ユーザUへ発話タイミングを提示しても良い。ユーザUへ出力音声D6の時間長に関する情報をユーザUに提示することで、ユーザUは自身の発話タイミングを図ることが可能となり、音声対話システムのユーザビリティが向上する上、ディスプレイよりも簡易な情報提示装置でユーザUに発話タイミングを通知することができるので、装置コストを削減することができる。 Alternatively, using a light emitting device such as a lamp, the utterance timing may be presented to the user U based on the flashing cycle speed of the lamp. For example, when the response voice output starts, all the lamps are turned on, and as the time remaining until the response voice output is completed, the blinking cycle becomes faster, and when the lamp goes out, the response voice output is completed, so that the user U You may also present the timing of the utterance to. By presenting information regarding the time length of the output audio D6 to the user U, the user U can plan the timing of his or her own utterances, which not only improves the usability of the voice dialogue system but also provides information that is simpler than on a display. Since the presentation device can notify the user U of the utterance timing, device costs can be reduced.
音声出力情報生成部8は、ネットワークNWを通じて得られた音声出力状況D7から応答音声の音声出力開始時刻を取得する。取得した応答音声の音声出力開始時刻に、音声長情報D9の時間長を加算した時間を応答音声の音声出力完了時刻とし、音声出力開始時刻及び音声出力完了時刻を音声出力情報D8として出力する。
The voice output
また、音声出力情報生成部8では、音声出力状況D7の応答音声の音声出力完了時刻と音声長情報D9により音声出力状況D7の補正を行うことも可能である。
Furthermore, the audio output
ここで、音声長情報D9による音声出力状況D7の補正とは、例えば、音声出力状況D7に記録されている応答音声の出力完了時刻と、音声長情報D9に記録されている音声長(すなわち、出力信号の出力完了時刻)との時間のずれを所定の時間毎に測定し、測定された時間のずれに基づいてリアルタイムに補正することである。このように、音声長情報D9の出力完了時刻の情報に基づいて、音声出力状況D7の出力完了時刻を所定時間毎にリアルタイムに補正することで、ネットワークNWの輻輳あるいは再送によって生じる送出した応答音声のデータ長変動、すなわち伝送の“ゆらぎ”の影響を抑制することができ、音声対話システムの応答音声の出力完了時刻を正確に検出することができる。 Here, the correction of the voice output status D7 using the voice length information D9 means, for example, the output completion time of the response voice recorded in the voice output status D7 and the voice length recorded in the voice length information D9 (i.e., The method is to measure the time difference with respect to the output completion time of the output signal at predetermined intervals, and to correct it in real time based on the measured time difference. In this way, by correcting the output completion time of the audio output status D7 in real time based on the output completion time information of the audio length information D9, the transmitted response audio caused by congestion of the network NW or retransmission can be adjusted in real time. It is possible to suppress the influence of data length fluctuations, that is, transmission "fluctuations", and it is possible to accurately detect the output completion time of the response voice of the voice dialogue system.
また、音声出力状況D7がネットワークNWの影響で受信が不可能である場合、あるいは、データ伝送誤りにより応答音声の出力完了時刻データが壊れるなどした場合には、音声長情報D9から得られる音声出力完了時刻を、音声出力状況D7の音声出力完了時刻に置き換える補正も可能であり、音声出力状況D7が得られない場合でも音声対話システムの応答音声の出力完了時刻を正確に検出することができる。 In addition, if the audio output status D7 cannot be received due to the influence of the network NW, or if the response audio output completion time data is corrupted due to a data transmission error, the audio output obtained from the audio length information D9 is It is also possible to correct the completion time by replacing the completion time with the audio output completion time of the audio output situation D7, and even if the audio output situation D7 is not obtained, the output completion time of the response voice of the audio dialogue system can be accurately detected.
《3-2》処理動作
続いて、実施の形態3の音声対話システムの処理動作について図8を用いて説明する。図8は、本実施の形態3を示す音声対話システム1000の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。ステップST1からステップST6までの動作は、実施の形態1と同様であるので説明を省略する。<<3-2>> Processing Operation Next, the processing operation of the voice dialogue system according to the third embodiment will be explained using FIG. 8. FIG. 8 is a flowchart showing the processing flow of the
ステップST9で、音声生成部6は、出力音声D6の音声データの時間長を算出し、音声長情報D9として音声出力情報生成部8へ出力する(ステップST9)。この時、音声データの時間長は生成された音声データのサイズとサンプリング周波数等の音声フォーマット、ファイル形式から算出することが可能である。また、音声合成方法により出力音声D6の音声データを生成する場合、音声合成方法が指定する合成音声継続時間長を音声長情報D9とすれば良い。
In step ST9, the
また、音声合成方法が、出力音声D6の音声データ末尾の無音区間(無音時間長)を取得可能な場合、音声データ末尾の無音時間長を削除した時間長を音声長情報D9としても良い。また、音声データ末尾において、例えば、所定の閾値以下の振幅値となった場合に無音区間と見なし、無音区間を削除した時間長を音声長情報D9としても良い。なお、無音区間を判定する方法は、所定の閾値以下の振幅値により判断する方法の他、公知の無音区間判定方法を用いることができる。 Furthermore, if the voice synthesis method is capable of acquiring a silent section (silent time length) at the end of the audio data of the output audio D6, the time length obtained by removing the silent time length at the end of the audio data may be used as the audio length information D9. Further, at the end of the audio data, for example, if the amplitude value is less than or equal to a predetermined threshold value, it may be regarded as a silent section, and the time length obtained by removing the silent section may be set as the audio length information D9. In addition to the method of determining a silent section using an amplitude value that is less than or equal to a predetermined threshold, a known method for determining a silent section can be used.
また、音声合成方法が、予め用意された音声データを2つ以上連結して出力する場合には、連結する音声データの時間長を合算した値を音声長情報D9とすれば良い。更に、音声長情報D9は、音声生成が完了する前に算出できる場合には、その時点で出力するようにしても良い。その場合には、音声生成と音声出力を並列に処理するような構成において、遅延なく音声長情報D9を音声出力情報生成部8へ出力することが可能である。
Furthermore, when the voice synthesis method concatenates and outputs two or more pieces of voice data prepared in advance, the voice length information D9 may be the sum of the time lengths of the concatenated voice data. Furthermore, if the voice length information D9 can be calculated before voice generation is completed, it may be output at that point. In that case, in a configuration in which audio generation and audio output are processed in parallel, it is possible to output the audio length information D9 to the audio output
ステップST10で、音声出力部7は、生成した出力音声D6をシステム発話としてユーザUへ報知する(ステップST10)。また、音声出力部7は応答音声の音声データの送出が完了した時点で、システム発話である応答音声の音声出力完了時刻あるいは音声出力完了時刻を示す情報である音声出力状況D7を、ネットワークNWを通じて音声出力情報生成部8に出力する(ステップST10)。
In step ST10, the
ステップST11で、音声出力情報生成部8は、ネットワークNWを通じて得られた音声出力状況D7から応答音声の音声出力開始時刻を取得する。取得した応答音声の音声出力開始時刻に、音声長情報D9の時間長を加算した時間を応答音声の音声出力完了時刻とし、音声出力開始時刻及び音声出力完了時刻を含むタイミングを音声出力情報D8として出力する(ステップST11)。
In step ST11, the audio output
この実施の形態3では、音声生成部6が音声長情報D9を生成するように構成したが、対話管理部5が所望の音声長情報D9を生成し、音声生成部6は、生成された音声長情報D9と同一の音声長となるように出力音声D6を生成するようにしても良い。この場合、音声生成部6は話速やポーズ長を増減させることで音声長を調整すれば良い。その他、公知の波形変換方法により音声長を調整しても良い。
In this third embodiment, the
また、音声出力情報生成部8は、音声長情報D9を対話管理部5から直接入力するようにしても良い。
Further, the voice output
以上のように、この実施の形態3では、音声出力情報生成部が、ネットワークNWを通じて得られた音声出力状況と、音声生成部が算出した音声長情報とを入力とし、音声出力状況の情報を音声長情報により補正を行うことで、ネットワークNWあるいはデータ伝送誤りの影響があっても、音声対話システムの応答音声の出力完了時刻(システム発話の主力完了タイミング)を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。 As described above, in this third embodiment, the audio output information generation section receives the audio output status obtained through the network NW and the audio length information calculated by the audio generation unit, and generates information on the audio output status. By performing the correction using the voice length information, it is possible to accurately detect the output completion time of the response voice of the voice dialogue system (the main system utterance completion timing) even if there is an influence of the network NW or data transmission error. As a result, it becomes possible to improve the accuracy of barge-in acceptance determination using voice recognition, which has the effect of improving the usability of the voice dialogue system.
また、この実施の形態3では、応答音声出力完了後に音声出力情報を生成する実施の形態1の構成と比べて、実際に応答音声出力が完了してからの遅延が発生することを抑制できるので、音声対話システムの応答音声の出力完了時刻を更に正確に検出することができる顕著な効果を有する。 Furthermore, in the third embodiment, compared to the configuration of the first embodiment in which the audio output information is generated after the output of the response voice is completed, it is possible to suppress the occurrence of a delay after the output of the response voice is actually completed. , it has a remarkable effect that the output completion time of the response voice of the voice dialogue system can be detected more accurately.
また、この実施の形態3では、音声生成部において、末尾の無音時間長を削除した時間長を音声長情報とするように構成したので、音声データ列は存在するがユーザUには聴こえない末尾の時間はシステム発話が出力完了済みと見なすことができる。したがって、ユーザUの聴感に近い音声出力情報に従って入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。 In addition, in the third embodiment, the sound generation unit is configured to use the time length obtained by removing the silence time length at the end as the sound length information. It can be considered that the system utterance has been outputted for a time of . Therefore, it becomes possible to perform input acceptance determination according to audio output information that is close to the user's U's auditory sense. Therefore, it is possible to improve the accuracy of barge-in acceptance determination by voice recognition, and the usability of the voice dialogue system is further improved.
また、この実施の形態3では、音声出力部が、音声生成部から音声長情報を入力とし、ディスプレイ等により出力音声の時間長に関する情報をユーザUへ提示するように構成したので、ユーザUは自身の発話タイミングを図ることができ、入力受付判定部は、ユーザUがシステム発話の音声出力の残り時間を把握していることを前提とした入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。 Furthermore, in the third embodiment, the audio output section is configured to receive audio length information from the audio generation section and present information regarding the duration of the output audio to the user U on a display or the like. It is possible to time the user's own utterance, and the input acceptance determination unit can make an input acceptance determination on the premise that the user U knows the remaining time for audio output of the system utterance. Therefore, it is possible to improve the accuracy of barge-in acceptance determination by voice recognition, and the usability of the voice dialogue system is further improved.
また、この実施の形態3では、音声生成部が、対話管理部において設定した音声長情報に従って出力音声を生成するように構成したので、システム発話の音声長を考慮した入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。 Furthermore, in this third embodiment, the voice generation section is configured to generate output voice according to the voice length information set in the dialogue management section, so that it is possible to make an input acceptance determination that takes into account the voice length of system utterances. It becomes possible. Therefore, it is possible to improve the accuracy of barge-in acceptance determination by voice recognition, and the usability of the voice dialogue system is further improved.
実施の形態4.
《4-1》構成
上記した実施の形態1の別の構成例として、入力受付判定部3は、音声出力部7に対して応答音声の出力状況を確認するための信号を出力し、任意のタイミングで応答音声の出力状況を確認できるように構成することも可能であり、これを実施の形態4として説明する。
<<4-1>> Configuration As another configuration example of the first embodiment described above, the input acceptance determination unit 3 outputs a signal for checking the output status of the response voice to the
実施の形態4における音声対話システムについて図9を用いて説明する。図9は実施の形態4を示す音声対話システムのブロック構成図である。図9中、図1と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態1で示したのと同等であるので説明を省略する。
The voice dialogue system in
入力受付判定部3は、音声認識結果D2、及び音声出力情報D8を入力として、ユーザUが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果D3を出力する。また、音声出力部7に対し、応答音声の出力状況を問い合わせるための信号である、出力状況確認命令D10を出力する。
The input acceptance determination unit 3 receives the voice recognition result D2 and the voice output information D8 as input, determines whether to accept the input of the voice uttered by the user U, and outputs the accepted voice recognition result D3 if the input is accepted. . It also outputs an output status confirmation command D10, which is a signal for inquiring the output status of the response voice, to the
音声出力部7は、出力音声D6を入力とし、ユーザUに対し応答音声出力を行うとともに、入力受付判定部3からの出力状況確認命令D10に応じて音声出力状況D7を出力する。
The
《4-2》処理動作
続いて、実施の形態4の音声対話システムの処理動作について図10を用いて説明する。図10は、本実施の形態4を示す音声対話システム1000の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。ステップST1からステップST2までの動作は、実施の形態1と同様であるので説明を省略する。<<4-2>> Processing Operation Next, the processing operation of the voice dialogue system of
ステップST12で、入力受付判定部3は、ユーザUの発話開始を判断し、音声出力部7に対して出力状況確認命令D10を出力する(ステップST12)。 In step ST12, the input reception determining unit 3 determines whether the user U has started speaking, and outputs an output status confirmation command D10 to the audio output unit 7 (step ST12).
ステップST13で、音声出力部7は、出力状況確認命令D10を受信し、現在音声出力中であるか、音声出力完了済みかの情報を音声出力状況D7としてネットワークNWを通じて音声出力情報生成部8へ出力する(ステップST13)。
In step ST13, the
なお、音声出力部7が、出力状況確認命令D10に対し音声出力中か否かを示す音声出力状況D7を出力するようにしたが、出力状況確認命令D10を受信した時点以降の、初めて応答音声出力が完了状態になっている時点で、音声出力が完了した旨を示す音声出力状況D7を生成するようにしても良く、情報伝送のための処理量を更に削減可能である。
Note that although the
ステップST14で、音声出力情報生成部8は、入力された音声出力状況D7から音声出力情報D8を生成し、入力受付判定部3へ出力する(ステップST14)。
In step ST14, the audio output
続くステップST3からステップST6の処理は、実施の形態1と同様であるので説明を省略する。 The subsequent processes from step ST3 to step ST6 are the same as in the first embodiment, and therefore the description thereof will be omitted.
ステップST15で、音声出力部7は、生成した出力音声D6をシステム発話としてユーザUへ報知する(ステップST15)。
In step ST15, the
以上のように、本実施の形態4では、入力受付判定部は、音声出力部に対し出力状況確認命令を出力し、任意のタイミングで応答音声の出力状況を確認できるように構成したので、入力受付判定部は、ユーザ発話の受付判定処理が必要な時点で、応答音声出力状況に関する情報を即座に入手をすることが可能となるので、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。 As described above, in the fourth embodiment, the input acceptance determination unit is configured to output an output status confirmation command to the audio output unit and check the output status of the response voice at any timing. Since the reception determination unit can immediately obtain information regarding the response voice output status at the time when it is necessary to process the reception determination of user utterances, it is possible to improve the reception determination accuracy of barge-in voice recognition. This has the effect of further improving the usability of the voice dialogue system.
また、この実施の形態4では、音声出力部が、応答音声出力完了時刻を送出する必要が無くなるので、情報伝送等の処理量を削減できる更なる副次効果も奏する。 Furthermore, in the fourth embodiment, since the voice output section does not need to transmit the response voice output completion time, an additional side effect of reducing the amount of processing such as information transmission is achieved.
上記した実施の形態のそれぞれにおいて、入力音声のサンプリング周波数を16kHzとして用いたが、これに限ることは無く、例えば、サンプリング周波数22kHzなどの異なるサンプリング周波数の音声信号を用いてもよく、上述した各実施の形態のそれぞれにおいて同様の効果を奏する。 In each of the embodiments described above, the sampling frequency of the input audio is 16 kHz, but the invention is not limited to this. For example, an audio signal with a different sampling frequency, such as a sampling frequency of 22 kHz, may be used, and each of the above-mentioned Similar effects are achieved in each of the embodiments.
上記した実施の形態のそれぞれにおいて、ユーザ発話及びシステム発話の言語に日本語を用いて動作を例示したが、本開示に係る音声対話システムは日本語に限らず適用可能であり、その場合は適用する言語に対応した音声認識方法、意図理解方法、及び対話処理方法を用いればよい。 In each of the above-described embodiments, the operations were illustrated using Japanese as the language of user utterances and system utterances, but the voice dialogue system according to the present disclosure is applicable not only to Japanese, and in that case, it is applicable. What is necessary is to use a speech recognition method, an intention understanding method, and a dialogue processing method that correspond to the language used.
上記以外にも、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。 In addition to the above, any component of the embodiments of the present disclosure may be modified or any component of the embodiments may be omitted within the scope of the disclosure.
本開示に係る音声対話システムは、例えば、商品配送を受け付けるコールセンタの自動音声応答システムに用いられるのに適している。例えば、実施の形態1に係る音声対話システム1000において、音声入出力部200が、ユーザUに対面して設置されているスマートスピーカの音声入出力装置に内蔵され、また、音声対話管理部300が、ユーザUと離れた位置にあるデータセンタのサーバ装置に内蔵されているとする。
The voice dialogue system according to the present disclosure is suitable for use in, for example, an automatic voice response system of a call center that accepts product deliveries. For example, in the
ユーザUが、例えば、購入した商品の配送手配をスマートスピーカに対して発話(ユーザ発話)すると、音声対話管理部300は、ユーザ発話の音声認識と意図理解を行い、ユーザUの意図に対応した応答音声(システム発話)を生成する処理を行い、生成されたシステム発話はネットワークNWへ出力される。
For example, when user U utters (user utterance) about arranging the delivery of a purchased product to the smart speaker, the voice
システム発話中にユーザ発話が入力される場合、システム発話開始から発話完了までの区間にユーザが発話していることからその入力を棄却する。そして、システム発話完了後に入力されたユーザ発話の入力を受け付けるように動作する。この動作により、音声対話システムがユーザUの発話途中に意図を理解し、次の対話に進んでしまった場合にも、前の質問に対するユーザUの発話による誤認識を防止することができるので、ユーザUに対して適切な応答音声出力とユーザ発話受付ができるので、更に機能が向上した自動音声応答システムとして利用することができる。 If a user utterance is input during system utterance, the input is rejected because the user is speaking during the period from the start of system utterance to the completion of utterance. Then, it operates to accept input of user utterances input after the system utterance is completed. With this operation, even if the voice dialogue system understands user U's intention mid-speech and proceeds to the next dialogue, it is possible to prevent erroneous recognition due to user U's utterance in response to the previous question. Since it is possible to output an appropriate response voice to the user U and accept the user's utterance, it can be used as an automatic voice response system with further improved functionality.
1 音声入力部、2 音声認識部、3 入力受付判定部、4 意図理解部、5 対話管理部、6 音声生成部、7 音声出力部、8 音声出力情報生成部、
101、101A、101B メモリ、
102、102A、102B プロセッサ、
103、103A、103B 記録媒体、
104 音響インタフェース、
105、105A、105B ネットワークインタフェース、
106 テキストインタフェース、
107 表示インタフェース、
108、108A、108B 信号路、
110、110A、110B CPU、
200 音声入出力部、300 音声対話管理部、1000 音声対話システム1 speech input section, 2 speech recognition section, 3 input acceptance judgment section, 4 intention understanding section, 5 dialogue management section, 6 speech generation section, 7 speech output section, 8 speech output information generation section,
101, 101A, 101B memory,
102, 102A, 102B processor,
103, 103A, 103B recording medium,
104 acoustic interface,
105, 105A, 105B network interface,
106 text interface,
107 display interface,
108, 108A, 108B signal path,
110, 110A, 110B CPU,
200 voice input/output unit, 300 voice dialogue management unit, 1000 voice dialogue system
Claims (12)
前記音声対話管理部により生成される応答音声が、ユーザに対して遅延して出力される音声対話システムであって、
前記音声入出力部は、
前記ユーザの発話音声を取得する音声入力部と、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理部へ出力する音声出力部とを備え、
前記音声対話管理部は、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力部へ出力する音声生成部と、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備える音声対話システム。 It has a voice input/output section and a voice dialogue management section,
A voice dialogue system in which a response voice generated by the voice conversation management unit is output to a user with a delay,
The audio input/output section is
a voice input unit that acquires the user's uttered voice;
an audio output unit that outputs the response voice to the user and outputs a voice output status of the response voice to the voice dialogue management unit;
The voice dialogue management unit includes:
a voice recognition unit that performs voice recognition on the user's uttered voice and outputs a voice recognition result;
an intention understanding unit that estimates the user's utterance intention from the voice recognition result and outputs an intention understanding result;
a dialogue management unit that outputs response content information to the user based on the intention understanding result;
a voice generation unit that generates an audio signal of the response voice based on the response content information and outputs it to the audio input/output unit;
a voice output information generation unit that generates voice output information that is information indicating whether or not the response voice is being outputted from the voice output status;
A voice dialogue system comprising: an input acceptance determination unit that uses the voice output information to determine whether input to the intention understanding unit can be accepted.
ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成部と、
前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備える音声対話管理装置。 A voice dialogue management device that generates a response voice,
a voice recognition unit that performs voice recognition on the user's uttered voice and outputs a voice recognition result;
an intention understanding unit that estimates the user's utterance intention from the voice recognition result and outputs an intention understanding result;
a dialogue management unit that outputs response content information to the user based on the intention understanding result;
a voice generation unit that generates and outputs an audio signal of the response voice based on the response content information;
an audio output information generation unit that receives an audio output status that is a status in which an audio signal of the response voice is output to the user, and generates audio output information that is information indicating whether or not the response voice is being output as audio; and,
A voice dialogue management device comprising: an input acceptance determination unit that uses the voice output information to determine whether input to the intention understanding unit can be accepted.
前記音声入出力装置が、
ユーザの発話音声を取得し、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理装置へ出力し、
前記音声対話管理装置が、
前記ユーザの発話音声を音声認識し、
前記音声認識の結果から前記ユーザの発話意図を推定し、
前記推定の結果である意図理解結果に基づき、前記ユーザへの応答内容を決定し、
前記応答内容に基づく応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力装置へ出力し、
前記音声出力状況が入力された場合、前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成し、前記音声出力情報を用いて、前記推定を実行するか否かを判定する、
音声対話方法。 A voice dialogue method executed in a voice dialogue system including a voice input/output device and a voice dialogue management device that generates a response voice, the method comprising:
The audio input/output device is
Obtain the user's utterance audio,
outputting the response voice to the user, and outputting the voice output status of the response voice to the voice dialogue management device ;
The voice dialogue management device includes:
voice recognition of the user 's uttered voice ,
Estimating the user's utterance intention from the voice recognition result ,
determining the content of the response to the user based on the intention understanding result that is the result of the estimation ;
generating an audio signal of the response voice based on response content information based on the response content and outputting it to the audio input/output device ;
When the audio output status is input, audio output information, which is information indicating whether or not the response voice is being outputted, is generated from the audio output status, and the estimation is performed using the audio output information. Determine whether to execute or not .
Voice dialogue method.
前記音声信号の音声長情報を生成し、
前記音声信号の音声長情報により、前記応答音声の前記出力完了タイミングの情報を補正することを特徴とする、請求項8に記載の音声対話方法。 The voice dialogue management device includes:
generating audio length information of the audio signal;
9. The voice interaction method according to claim 8 , wherein information on the output completion timing of the response voice is corrected based on voice length information of the voice signal.
前記音声入出力装置に対し、前記応答音声の出力状況を問い合わせるための信号を出力することを特徴とする、請求項7~9のいずれか1項に記載の音声対話方法。 The voice dialogue management device includes:
The voice interaction method according to any one of claims 7 to 9, characterized in that a signal for inquiring the output status of the response voice is output to the voice input/ output device .
ユーザの発話音声を音声認識し、
前記音声認識の結果から前記ユーザの発話意図を推定し、
前記推定の結果である意図理解結果に基づき、前記ユーザへの応答内容を決定し、
前記応答内容に基づく応答内容情報に基づいて、前記応答音声の音声信号を生成し、
前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況が入力された場合、前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成し、前記音声出力情報を用いて、前記推定を実行するか否かを判定する、
音声対話方法。 A voice dialogue management device that generates response voices is
Recognizes the user's spoken voice ,
Estimating the user's utterance intention from the voice recognition result ,
determining the content of the response to the user based on the intention understanding result that is the result of the estimation ;
generating an audio signal of the response voice based on response content information based on the response content ;
When an audio output status is input, which is a status in which an audio signal of the response voice is being output to the user, audio output is information indicating whether or not the response voice is being output as audio, based on the audio output status. generating information and using the audio output information to determine whether to perform the estimation ;
Voice dialogue method .
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/012655 WO2022201458A1 (en) | 2021-03-25 | 2021-03-25 | Voice interaction system, voice interaction method, and voice interaction management apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022201458A1 JPWO2022201458A1 (en) | 2022-09-29 |
JPWO2022201458A5 JPWO2022201458A5 (en) | 2023-04-26 |
JP7361988B2 true JP7361988B2 (en) | 2023-10-16 |
Family
ID=83396579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023508340A Active JP7361988B2 (en) | 2021-03-25 | 2021-03-25 | Voice dialogue system, voice dialogue method, and voice dialogue management device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7361988B2 (en) |
WO (1) | WO2022201458A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007155986A (en) | 2005-12-02 | 2007-06-21 | Mitsubishi Heavy Ind Ltd | Voice recognition device and robot equipped with the same |
JP2010152119A (en) | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | Response generation device and program |
JP2020187663A (en) | 2019-05-16 | 2020-11-19 | コニカミノルタ株式会社 | Device |
-
2021
- 2021-03-25 JP JP2023508340A patent/JP7361988B2/en active Active
- 2021-03-25 WO PCT/JP2021/012655 patent/WO2022201458A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007155986A (en) | 2005-12-02 | 2007-06-21 | Mitsubishi Heavy Ind Ltd | Voice recognition device and robot equipped with the same |
JP2010152119A (en) | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | Response generation device and program |
JP2020187663A (en) | 2019-05-16 | 2020-11-19 | コニカミノルタ株式会社 | Device |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022201458A1 (en) | 2022-09-29 |
WO2022201458A1 (en) | 2022-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295748B2 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
US11227611B2 (en) | Determining hotword suitability | |
US9384736B2 (en) | Method to provide incremental UI response based on multiple asynchronous evidence about user input | |
JP5750380B2 (en) | Speech translation apparatus, speech translation method, and speech translation program | |
US9940926B2 (en) | Rapid speech recognition adaptation using acoustic input | |
JP6812843B2 (en) | Computer program for voice recognition, voice recognition device and voice recognition method | |
KR20160060335A (en) | Apparatus and method for separating of dialogue | |
JP2019090942A (en) | Information processing unit, information processing system, information processing method and information processing program | |
JP5431282B2 (en) | Spoken dialogue apparatus, method and program | |
JP2019008120A (en) | Voice quality conversion system, voice quality conversion method and voice quality conversion program | |
US20230298575A1 (en) | Freeze Words | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JPH11175082A (en) | Voice interaction device and voice synthesizing method for voice interaction | |
US9218807B2 (en) | Calibration of a speech recognition engine using validated text | |
JP5375423B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP7361988B2 (en) | Voice dialogue system, voice dialogue method, and voice dialogue management device | |
JP2019045831A (en) | Voice processing device, method, and program | |
EP2541544A1 (en) | Voice sample tagging | |
US11735178B1 (en) | Speech-processing system | |
US10854196B1 (en) | Functional prerequisites and acknowledgments | |
JP2016186646A (en) | Voice translation apparatus, voice translation method and voice translation program | |
JP2015187738A (en) | Speech translation device, speech translation method, and speech translation program | |
JP2008216618A (en) | Speech discrimination device | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
US20240135922A1 (en) | Semantically conditioned voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230224 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7361988 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |