JP5154363B2 - Car interior voice dialogue system - Google Patents
Car interior voice dialogue system Download PDFInfo
- Publication number
- JP5154363B2 JP5154363B2 JP2008274124A JP2008274124A JP5154363B2 JP 5154363 B2 JP5154363 B2 JP 5154363B2 JP 2008274124 A JP2008274124 A JP 2008274124A JP 2008274124 A JP2008274124 A JP 2008274124A JP 5154363 B2 JP5154363 B2 JP 5154363B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- driver
- unit
- output
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 98
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 45
- 238000000926 separation method Methods 0.000 description 44
- 230000006870 function Effects 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 9
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000001771 impaired effect Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Navigation (AREA)
Description
本願明細書で開示される技術は、車室内に搭載される音声対話装置に関する。 The technology disclosed in the present specification relates to a voice interactive apparatus mounted in a vehicle interior.
自動車に搭載されるカーナビゲーションシステムには、音声対話機能を備えるものが広く使われている(例えば特許文献1参照)。従来、音声対話機能を実現するために必要な音声認識技術及び音声合成技術が広く検討されている。音声認識技術は、マイクロホンを通して入力された音声波形をテキスト化する技術である。音声合成技術は、テキストから音声波形を生成する技術である。音声認識技術と音声合成技術を組み合わせることで、カーナビゲーションシステムがユーザと音声で会話することが可能となる。また、車室内で録音した音声波形には様々な騒音が重畳するため、音声認識率が大幅に劣化するという問題がある。この問題に対して、複数のマイクロホン素子を有するマイクロホンアレイを用いて騒音を抑圧し、所望の音声のみを抽出する音源分離技術が広く検討されている。
従来のカーナビゲーションシステムでは、ドライバが発話することを前提に作られているため、受理する音声認識辞書の内容を全て音声合成で読み上げるような構成になっていた。しかし、選択肢を全て読み上げるのにかかる時間が長いため、音声対話が終了するまでの時間が長くなってしまうという課題があった。一方、選択肢は、読み上げられる代わりにディスプレイに表示されてもよい。しかし、ディスプレイに選択肢を表示する方法は、音声対話が終了するまでの時間が短いという利点はあるものの、ドライバが音声対話を行う場合に使用することは好ましくない。自動車を運転中のドライバがディスプレイを目視することによって安全性が損なわれるためである。 Since the conventional car navigation system is designed on the assumption that the driver speaks, the entire contents of the speech recognition dictionary to be accepted are read out by speech synthesis. However, since it takes a long time to read all the options, there is a problem that it takes a long time to complete the voice conversation. On the other hand, the option may be displayed on the display instead of being read out. However, although the method of displaying choices on the display has the advantage that the time until the voice conversation is completed is short, it is not preferable to use it when the driver performs the voice conversation. This is because the safety of the driver who is driving the vehicle is impaired by viewing the display.
本願で開示する代表的な発明は、自動車内における乗員の乗車位置を検知する乗員検知部と、テキスト情報を音声に変換して出力する音声出力部と、前記テキスト情報を画像に変換して表示する画像表示部と、複数のマイクロホンと、前記乗員検知部の検知結果に基づいて、前記音声出力部又は前記画像表示部のいずれか一方を選択し、前記選択された前記音声出力部又は前記画像表示部に前記テキスト情報を出力させる切り替え部と、を備え、前記運転者以外の乗員が乗車している場合、前記テキスト情報の前記画像表示部への表示に要する第1時間、及び、前記テキスト情報を読み上げる音声の前記音声出力部からの出力に要する第2時間を推定し、前記第1時間が前記第2時間より短い場合、前記テキスト情報を前記画像表示部に出力させることを選択し、前記第2時間が前記第1時間より短い場合、前記テキスト情報を前記音声出力部に出力させることを選択し、前記運転者以外の乗員が乗車している場合、さらに、前記運転者以外の乗員が応答するように促す音声を前記音声出力部から出力し、前記運転者以外の乗員が応答するように促す音声が出力された後、前記複数のマイクロホンが音声を受信すると、前記受信した音声の音源方向を特定し、前記特定された音源方向が、前記複数のマイクロホンから前記運転者以外の乗員への方向を含む所定の範囲内であるか否かを判定し、前記特定された音源方向が前記所定の範囲内である場合、前記受信した音声を、前記画像表示部に表示されたテキスト情報に対する応答として処理し、前記運転者以外の乗員が乗車していない場合、前記テキスト情報を前記音声出力部に出力させることを選択することを特徴とする。 A representative invention disclosed in the present application includes an occupant detection unit that detects a occupant's boarding position in an automobile, an audio output unit that converts text information into voice, and outputs the text information into an image for display. The image display unit, the plurality of microphones, and the sound output unit or the image display unit are selected based on the detection result of the occupant detection unit, and the selected sound output unit or the image is selected. A switching unit that causes the display unit to output the text information, and when an occupant other than the driver is on board, a first time required to display the text information on the image display unit, and the text Estimating the second time required to output the speech for reading information from the voice output unit, and outputting the text information to the image display unit when the first time is shorter than the second time If the second time is shorter than the first time, select to output the text information to the voice output unit, and if a passenger other than the driver is on board, When a voice prompting a passenger other than the driver to respond is output from the voice output unit and a voice prompting a passenger other than the driver to respond is output, the plurality of microphones receive the voice. Determining the sound source direction of the received voice, determining whether the specified sound source direction is within a predetermined range including a direction from the plurality of microphones to an occupant other than the driver, When the identified sound source direction is within the predetermined range, the received voice is processed as a response to the text information displayed on the image display unit, and no occupant other than the driver is on board. If, and selects that to output said text information to the audio output unit.
本発明の一実施形態によれば、選択肢提示手段判定部によって、車内にドライバのみが存在するか否かが判定され、その判定の結果にしたがって最適な提示手段が選択される。例えば、ドライバのみ存在する場合は、音声合成によって音声認識辞書の内容が読み上げられ、ドライバ以外の同乗者が存在する場合は、タスク時間短縮化のため、同乗者が回答するよう誘導した後、ディスプレイ上に選択肢が表示される。これによって、安全性を損なうことなく、タスク時間の短い音声対話が実現し、迅速なカーナビゲーションシステムの操作が可能となる。 According to one embodiment of the present invention, the option presenting means determination unit determines whether or not there is only a driver in the vehicle, and selects the optimum presenting means according to the determination result. For example, if there is only a driver, the contents of the speech recognition dictionary are read out by speech synthesis, and if there are passengers other than the driver, the passenger is guided to answer to reduce the task time, and then the display The choices are displayed above. As a result, a voice conversation with a short task time can be realized without sacrificing safety, and a quick car navigation system can be operated.
図1は、本発明の第1の実施形態の音声対話装置の機能ブロック図である。 FIG. 1 is a functional block diagram of the voice interactive apparatus according to the first embodiment of the present invention.
本実施形態の音声対話装置は、例えば、自動車に搭載されるカーナビゲーションシステムのアプリケーションとして使われることが想定される。以下、この想定の下、実施形態を説明する。なお、自動車には、一人の運転者(ドライバ)を含む一人以上のユーザが乗車する。 The voice interactive apparatus of this embodiment is assumed to be used as an application of a car navigation system mounted on a car, for example. Hereinafter, the embodiment will be described under this assumption. In addition, one or more users including one driver (driver) get on the automobile.
図2は、本発明の第1の実施形態の音声対話装置のハードウェア構成のブロック図である。 FIG. 2 is a block diagram of a hardware configuration of the voice interactive apparatus according to the first embodiment of this invention.
本実施形態のシステムは、少なくとも二つ以上のマイクロホン素子からなるマイクロホンアレイ1201を備える。マイクロホンアレイ1201は、それぞれのマイクロホン素子位置における音圧レベルを計測する。 The system of the present embodiment includes a microphone array 1201 including at least two microphone elements. The microphone array 1201 measures the sound pressure level at each microphone element position.
マイクロホンアレイ1201によって計測されたアナログの音圧値は、AD変換装置1202でサンプリングされ、デジタルデータに変換される。AD変換装置1202は、アナログのローパスフィルタ(図示省略)などを用いて、サンプリングレートの0.5倍以上の周波数成分を除去した後の音圧値をサンプリングしてもよい。
The analog sound pressure value measured by the microphone array 1201 is sampled by the
サンプリングされたデジタル音圧データは、中央演算装置1203に送られる。中央演算装置1203では、デジタル音圧データ中の音源方向の推定、位相差の補正及び音声認識や対話処理といったプログラムを実行する。
The sampled digital sound pressure data is sent to the
中央演算装置1203によって実行されるプログラムは、データとして記憶媒体1205に記憶される。
A program executed by the
プログラム実行時に必要な一時的なデータは、揮発性メモリ1204又は記憶媒体1205に記憶されてもよい。その他、プログラム実行に必要な事前データは、記憶媒体1205に事前に記憶される。記憶媒体1205は、例えば、ハードディスクドライブ(HDD)又はフラッシュメモリのような大容量の不揮発性記憶媒体である。一方、揮発性メモリ1204は、例えば、ダイナミックランダムアクセスメモリ(DRAM)のような高速な記憶装置である。
Temporary data necessary for program execution may be stored in the
例えば、図1に示す対話スクリプトデータベース(DB)114及び認識語彙DB115は、記憶媒体1205に格納される。図1に示す上記のデータベース以外の各部は、記憶媒体1205に格納されたプログラムを中央演算装置1203が実行することによって実現される。ただし、音声入力部101は、AD変換装置1202によって実現されてもよい。上記のデータベース及びプログラムは、記憶媒体1205に格納され、必要に応じてそれらの全部又は一部が揮発性メモリ1204にコピーされてもよい。
For example, the dialogue script database (DB) 114 and the
マイクロホンで受音したアナログ音声は、音声入力部101において、デジタル音声に変換される。変換されたデジタル音声は音源分離部102に送られる。音源分離部102において、デジタル音声中に含まれる雑音成分が除去され、所望の音声を強調した信号が得られる。所望の音声か否かは、音源方向の情報から判断される。例えば、所望の音声が自動車を運転するドライバである場合は、マイクロホンから見たドライバの相対方向が所望の音源方向として設定され、その所望の音源方向から到来する音声が所望の音声と判断される。
Analog voice received by the microphone is converted into digital voice by the
所望の音源方向は分離範囲設定部105によって設定される。分離範囲設定部105は、対話制御部107の出力結果に基づき、所望の音源方向を設定する。
The desired sound source direction is set by the separation
音源分離部102が取り出した所望の音声成分は、音声認識部103に送られる。音声認識部103は、送られてきた音声波形の発話内容を認識し、文字列に変換したものを出力する。音声認識部103が実行する音声認識処理は、例えば、隠れマルコフモデルに基づくもの、又は、動的計画法に基づくものなど、いかなるものであってもよい。
The desired speech component extracted by the sound
音声認識処理は、入力された音声波形の発話内容が、所与の語彙の中のどの語と最も近いかを判定し、最も近い語を出力する一種のパターンマッチング処理である。音声認識に用いるために予め保持される語彙は、音声認識処理を開始する前に、予め認識辞書生成部108にて作られる。
The speech recognition process is a kind of pattern matching process that determines which word in the given vocabulary is the closest to the utterance content of the input speech waveform and outputs the closest word. The vocabulary stored in advance for use in speech recognition is created in advance by the recognition
音声認識部103は、さらに、認識結果の尤度を計算する。認識結果の尤度とは、入力された音声波形の発話内容と最も近いと判定された語と、その発話内容と、の近さの度合いを示す尺度である。尤度は、公知の種々の方法によって算出することができる。
The
音声認識部103によって生成される文字列に変換された発話内容(すなわち認識結果)及びその認識結果の尤度は、認識結果棄却判定部104に送られる。認識結果棄却判定部104は、認識結果の尤度の情報に基づいて、認識結果を受理するか棄却するかを判定する。例えば、認識結果の尤度の情報から生成される認識結果の事後確率が閾値を超える場合に受理すると判定されてもよい。一方、事後確率が閾値以下の場合、所与の語彙のいずれとも異なる語が発話されたと推定されるため、認識結果を棄却すると判定されてもよい。
The utterance content (that is, the recognition result) converted into the character string generated by the
認識結果棄却判定部104で受理された認識結果は対話制御部107に送られる。認識結果が棄却された場合は、音声認識処理が続行されてもよい。音声認識処理の開始後、一定時間以内に認識結果が受理されなかった場合、認識結果棄却判定部104は、認識結果が無かったという情報を対話制御部107に送信してもよい。対話制御部107は、その情報に基づき、次の行動を決定してもよい。例えば、対話制御部107は、「もう一度発話してください」と発話を促すガイダンスを出力した後、音声認識処理を再度実行するように各部を制御してもよい。
The recognition result received by the recognition result
図3は、本発明の第1の実施形態において実行される音声認識処理を示すフローチャートである。 FIG. 3 is a flowchart showing the speech recognition process executed in the first embodiment of the present invention.
具体的には、図3は、音源分離部102、音声認識部103及び認識結果棄却判定部104によって実行される具体的な音声認識処理の流れを示す。
Specifically, FIG. 3 shows the flow of specific speech recognition processing executed by the sound
目的音範囲設定S901において、音源分離部102は、分離範囲設定部105によって設定された範囲に基づき、目的音の存在範囲を設定する。例えば、方位角と仰角のそれぞれについて目的音の存在範囲が設定される。例えば、方位角が−30度から+30度まで、及び仰角を−90度から90度までと設定されてもよい。
In the target sound range setting S <b> 901, the sound
音源分離S902において、音源分離部102は、設定された目的音存在範囲の情報に基づき、目的音方向の音を抽出する。
In the sound source separation S902, the sound
音声認識S903において、音声認識部103は、音源分離S902において抽出された目的音方向の音の発話内容を、音声認識辞書及び音のモデルを用いて認識する。
In speech recognition S903, the
信頼度チェックS904において、認識結果棄却判定部104は、音声認識結果の信頼度を示す尺度(例えば、音声認識結果に付随する音響尤度から計算される事後確率など)が予め設定された閾値を上回っているか否かを判定する。信頼度を示す尺度が閾値を上回っている場合、認識された音声は、コマンドを入力するために発話されたものであると推定される。例えば、後述するように選択肢がユーザに提示されると、ユーザがそれに応じて選択肢の一つを発話する。このような発話は、コマンドを入力するための発話の一例である。この場合、処理は方向チェックS905に進む。
In the reliability check S904, the recognition result
一方、信頼度を示す尺度が閾値を下回っている場合、認識された音声はコマンドを入力するために発話されたものでない(例えば雑音のような、コマンドとは無関係に入力された音声等である)と推定される。この場合、処理は制限時間チェックS907に進む。 On the other hand, if the measure of reliability is below the threshold, the recognized speech is not spoken to enter the command (for example, speech entered without regard to the command, such as noise) )It is estimated to be. In this case, the process proceeds to the time limit check S907.
方向チェックS905において、認識結果棄却判定部104は、音声認識波形の時間長をTとし、音声認識波形の音源方向を数式(1)によって算出し、その方向が所与の目的音範囲内か否かを判定する。
In the direction check S905, the recognition result
θ(f,τ)は時間τにおける周波数fの音源方向であり、その算出方法は後述する。fmaxは音声認識波形の最大周波数成分である。 θ (f, τ) is the sound source direction of the frequency f at time τ, and the calculation method will be described later. fmax is the maximum frequency component of the speech recognition waveform.
音源方向が目的音範囲内であった場合、認識結果棄却判定部104は、認識結果を返して処理を終了する。後述するように、ユーザに対して選択肢が提示された後で図3に示す処理が実行された場合、上記のように返された認識結果は、選択肢の提示に対する応答(すなわち、提示された選択肢の一つを発話したもの)として処理される。
If the sound source direction is within the target sound range, the recognition result
音源方向が目的音範囲外であった場合、処理は制限時間チェックS907に進む。制限時間チェックS907において、認識結果棄却判定部104は、音声認識を開始してから経過した時間が所与の制限時間内であるか否かを判定する。経過した時間が所与の制限時間内である場合、処理は音源分離S902に戻り、目的音方向の音の抽出が再度実行される。経過した時間が制限時間を超えている場合、認識結果を返さずに処理が終了する。
If the sound source direction is outside the target sound range, the process proceeds to a time limit check S907. In the time limit check S907, the recognition result
上記の音源分離S902及び音声認識S903は、音声入力部101が取得するリアルタイムの音声波形に対する処理である。つまり時々刻々入力されてくる新しい音声波形に対して上記の処理が施される。
The sound source separation S902 and the speech recognition S903 are processes for a real-time speech waveform acquired by the
図4は、本発明の第1の実施形態の音源分離部102が実行する詳細な処理の流れを示す説明図である。
FIG. 4 is an explanatory diagram illustrating a flow of detailed processing executed by the sound
図4の処理は、音声入力部101が一定量(例えば数十ms程度)の音声データを取得する度に実行される。
The process of FIG. 4 is executed each time the
複数のマイクロホン素子によって収録された音声波形は、マイクロホン素子毎に、DFT1001にて離散フーリエ変換を施される。マイクロホン素子(i)毎の、サンプリング時間(t)の音圧データは数式(2)によって表される。
A speech waveform recorded by a plurality of microphone elements is subjected to discrete Fourier transform in the
事前に音声波形のハミング窓又はハニング窓を時間領域の信号に掛け合わせた後、離散フーリエ変換が施されてもよい。ハミング窓又はハニング窓の窓関数を掛け合わせることで、高精度な時間周波数領域の信号を得ることができる。 A discrete Fourier transform may be performed after a hamming window or a hanning window of a speech waveform is previously multiplied by a signal in the time domain. By multiplying the Hamming window or the window function of the Hanning window, a highly accurate time-frequency domain signal can be obtained.
離散フーリエ変換による時間周波数領域信号への変換は数式(3)によって行われる。変換後の信号は、数式(4)によって表される。 The conversion to the time-frequency domain signal by the discrete Fourier transform is performed by Equation (3). The converted signal is expressed by Equation (4).
ここでτはフレームインデックスと呼ばれ、時間周波数領域信号への変換した回数と等しくなる。w(n)はハニング窓又はハミング窓の窓関数である。フーリエ変換の際のフレームサイズとする。 Here, τ is called a frame index and is equal to the number of times of conversion into a time-frequency domain signal. w (n) is the window function of the Hanning window or the Hamming window. Frame size for Fourier transform.
周波数毎ベクトル化1002において、音源分離部102は、変換後の同じ時間周波数毎領域に属するマイク毎の信号をまとめあげて、数式(5)で定義されるベクトルX(f,τ)を生成する。Mはマイク素子数とする。
In the per-
音源定位1003において、音源分離部102は、時間周波数毎に、数式(6)で定義されるステアリングベクトルa(θ,f)とX(f,τ)との内積の最大値を与える音源方向θを数式(7)で計算する。cは音速とする。
In the
図5は、本発明の第1の実施形態の音源分離1004において時間周波数毎に実行される処理を示すフローチャートである。
FIG. 5 is a flowchart illustrating processing executed for each time frequency in the
音源分離部102は、目的音範囲かどうかS1101において、時間周波数毎の音源方向θが所定の目的音範囲内であるか否かを判定する。音源方向θが目的音範囲内であった場合、音源分離部102は、ベクトルn(f,τ)をゼロベクトルに設定し、ベクトルs(f,τ)をX(f,τ)に設定した後、目的音共分散更新S1102に進む。目的音範囲外の場合、音源分離部102は、ベクトルn(f,τ)をX(f,τ)に設定し、雑音共分散更新S1103に進む。
In step S1101, the sound
目的音共分散更新S1102において、音源分離部102は、ベクトルs(f,τ)を用いて共分散行列Rs(f)を数式(8)のように更新する。
In the target sound covariance update S1102, the sound
雑音共分散更新S1103において、音源分離部102は、ベクトルn(f,τ)を用いて共分散行列R(f)を数式(9)のように更新する。ここでαは所与の更新レートとする。
In noise covariance update S1103, the sound
音源分離部102は、共分散行列Rs(f)及びR(f)を用いて音源分離フィルタw(f,τ)を数式(10)によって求める。eig_vectorは最大固有値となる固有ベクトルを与える関数とする。
The sound
フィルタリングS1105において、音源分離部102は、入力信号X(f,τ)及び音源分離フィルタw(f,τ)から雑音抑圧信号s(f,τ)を数式(11)によって求める。
In filtering S1105, the sound
ポストフィルタリングS1106において、音源分離部102は、雑音抑圧信号s(f,τ)にウィナーフィルタ又はスペクトルサブトラクション処理を施すことによって、残留雑音成分を抑圧する。そして、音源分離部102は、残留雑音抑圧後の時間周波数信号を出力し、処理を終了する。
In post-filtering S1106, the sound
逆DFT1005において、音源分離部102は、求めた周波数毎の雑音抑圧信号に逆離散フーリエ変換を施すことによって、時間領域信号を生成した後、その時間領域信号を出力する。
In
対話制御部107は、対話スクリプトDB114に保持された対話スクリプトに基づき、ユーザとの音声対話を制御する。
The
図6は、本発明の第1の実施形態における対話スクリプトに基づく対話を示すフローチャートである。 FIG. 6 is a flowchart showing the dialogue based on the dialogue script in the first embodiment of the present invention.
図6に記載の対話フローの例では、ユーザとの対話開始後、まずコマンド名称S301において、対話制御部107は、ユーザが実行したいコマンドの名称を認識する。認識に際し、対話制御部107は、ユーザに対して、「コマンド名称をどうぞ」などの発話を促すガイダンスを出力してもよい。さらに、対話制御部107は、「この中からお選びください」などのコメントとともに画面に表示されるコマンドリストの中から、実行したいコマンドを選ばせてもよいし、コマンドリストの内容を読み上げた音声を、音声合成システムなどを使用して生成し、その音声を出力してもよい。
In the example of the dialogue flow shown in FIG. 6, after the dialogue with the user is started, first, in the command name S301, the
本実施形態において、画面にコマンドリストを表示するか、コマンドリストを読み上げるかは、ユーザの着座情報などに基づいて切り替えられる。この切り替えは、後述する選択肢の提示方法の選択と同様にして実行されてもよい。例えば、ドライバのみ乗車している場合、コマンドリストを読み上げるように制御されてもよい。一方、同乗者(すなわちドライバ以外のユーザ)が自動車内に存在する場合、音声対話に要する時間を短くするために、「同乗者の方、この中からお選びください」などの、同乗者が画面を見て答えることを促すガイダンスを流した後、コマンドリストを画面に表示するように制御されてもよい。これによって、自動車の走行の安全性を確保しながら、素早いコマンド入力が実現される。 In the present embodiment, whether to display the command list on the screen or to read the command list is switched based on the seating information of the user. This switching may be executed in the same manner as selection of an option presentation method described later. For example, when only the driver is on board, the command list may be read out. On the other hand, if a passenger (ie, a user other than the driver) is present in the car, the passenger will see a screen such as “Passenger, please select from here” in order to shorten the time required for voice conversation. It may be controlled to display the command list on the screen after the guidance for prompting and answering is given. As a result, quick command input is realized while ensuring the safety of driving of the automobile.
図6において、コマンド名称S301終了後、認識したコマンド(すなわち、ユーザによってコマンドリストから選択されたコマンド)に応じて処理を切り替える。例えば認識したコマンドが目的地設定であった場合は、次に具体的な目的地を認識する目的地設定S302が実行される。 In FIG. 6, after the command name S301 ends, the process is switched according to the recognized command (that is, the command selected from the command list by the user). For example, if the recognized command is destination setting, then destination setting S302 for recognizing a specific destination is executed.
目的地設定S302では、「目的地をおっしゃって下さい」のように目的地をユーザが発話するように促すガイダンスが出力されてもよいし、「目的地をこの中からお選びください」と発話する音声が出力された後、目的地のリストが画面に表示されてもよいし、目的地のリストが読み上げられてもよい。画面に表示される目的地のリストの例については、後で図12を参照して説明する。 In the destination setting S302, guidance that prompts the user to speak the destination may be output, such as “Please tell the destination”, or “Please select a destination from this”. After the audio is output, the destination list may be displayed on the screen, or the destination list may be read out. An example of the destination list displayed on the screen will be described later with reference to FIG.
前述のコマンド名称S301と同様に、同乗者がいるか否かに応じて、安全性を損なわない提示手段のうち、最も目的地設定に要する時間が短くなるような提示手段が選択される。 As in the case of the command name S301 described above, the presenting means that minimizes the time required for destination setting is selected from the presenting means that do not impair safety, depending on whether or not there is a passenger.
コマンド名称S301において認識されたコマンドが自動車機器操作であった場合、自動車機器操作S303が実行される。自動車機器操作S303において、対話制御部107は、エアコンのOn/Off又は音楽等の制御といった自動車内部機器を操作するためのユーザコマンドを認識する。このとき、対話制御部107は、「操作したい機器名称及び操作内容をおっしゃって下さい」といったガイダンスを音声出力部112に出力させてもよいし、音声コマンドで操作可能なコマンド一覧を画面に表示するように画像表示部113を制御してもよい。前述の目的地設定S302と同様に、最も自動車内部機器操作に要する時間が短くなるような提示手段が選択される。
When the command recognized in the command name S301 is an automobile device operation, an automobile device operation S303 is executed. In the car equipment operation S303, the
コマンド名称S301において認識されたコマンドが周辺施設検索であった場合、周辺施設検索S304が実行される。周辺施設検索S304において、対話制御部107は、ユーザが所望する周辺施設を検索し、検索された施設を目的地として設定する処理を、音声インタフェースを用いて実行する。具体的には、対話制御部107は、「周辺施設をおっしゃって下さい」といったようにユーザ発話を促すガイダンスを音声出力部112に出力させてもよいし、「この中から選んでください」といったガイダンスを出力させた後、画面に周辺施設のリストを表示し、画面を見ながらユーザが発話するように促してもよい。前述の自動車機器操作S303と同様に、最も自動車内部機器操作に要する時間が短くなるような提示手段が選択される。
When the command recognized in the command name S301 is a surrounding facility search, a surrounding facility search S304 is executed. In the peripheral facility search S304, the
S302からS304までのいずれかの処理が終了した後、対話制御部107は対話を終了する。
After any processing from S302 to S304 is completed, the
以上は、カーナビゲーションシステムにおける対話スクリプトに基づく対話の一例である。対話スクリプトは、条件分岐とシステムの実行コマンドの情報とを保持する形式で記述可能な言語によって記述される限り、どのような形式で記述されてもよい。例えば、Voice XMLのようなXML形式で対話スクリプトが記述されてもよいし、プログラム言語の一種であるスクリプト言語でプログラムコードとして対話スクリプトが記述されてもよい。 The above is an example of the dialogue based on the dialogue script in the car navigation system. The interactive script may be described in any format as long as it is described in a language that can be described in a format that holds conditional branching and system execution command information. For example, an interactive script may be described in an XML format such as Voice XML, or an interactive script may be described as a program code in a script language that is a kind of program language.
対話制御部107は、対話スクリプトに基づき、音声認識部103、音源分離部102、音声出力部112及び画像表示部113の動作を制御する。例えば、前述のコマンドリストを認識する対話において、認識辞書生成部108は、音声認識を開始する前に、認識に用いる認識辞書を切り替える。認識辞書生成部108は有限オートマトン形式で記載された音声認識辞書を生成する。
The
図7は、本発明の第1の実施形態において使用される音声認識辞書の一例を示す説明図である。 FIG. 7 is an explanatory diagram showing an example of a speech recognition dictionary used in the first embodiment of the present invention.
この例では、6つのノードと6つのアークがネットワーク化された形で認識辞書が表現されている。この例の認識辞書を用いた場合、ユーザ発話は「目的地」と「語尾」とが連続した文、又は、「電話番号」と「語尾」とが連続した文のいずれかであることが仮定される。「目的地」、「語尾」及び「電話番号」は、アークと呼ばれる、複数の単語をまとめて表現したラベルである。各アークは更に単語リストに展開される。 In this example, the recognition dictionary is expressed in the form of a network of six nodes and six arcs. When the recognition dictionary of this example is used, it is assumed that the user utterance is either a sentence in which “Destination” and “End of Word” are continuous, or a sentence in which “Phone Number” and “End of Word” are continuous Is done. “Destination”, “End of word”, and “Telephone number” are labels that collectively represent a plurality of words called arcs. Each arc is further expanded into a word list.
図8は、本発明の第1の実施形態におけるアークごとの単語リストの一例を示す説明図である。 FIG. 8 is an explanatory diagram illustrating an example of a word list for each arc according to the first embodiment of this invention.
図8は、「目的地」のアークが展開された単語リストの例を示さす。図8の例では、目的地を示す単語のリストに、「中央研究所」及び「機械研究所」のような施設の固有名詞が含まれる。この他の目的地として、例えば、「レストラン」のような施設の一般名詞が含まれてもよいし(図12参照)、「東京都」のような地名が含まれてもよい。 FIG. 8 shows an example of a word list in which the arc of “destination” is expanded. In the example of FIG. 8, proper names of facilities such as “Central Research Laboratory” and “Mechanical Research Laboratory” are included in the list of words indicating the destination. As other destinations, for example, a general noun of a facility such as “restaurant” may be included (see FIG. 12), or a place name such as “Tokyo” may be included.
このように各アークは単語リストに展開される。これによって、例えば「目的地」と「語尾」が連続した文の数は、「目的地」の単語リストに含まれる単語の数に「語尾」の単語リストに含まれる単語の数を掛け合わせた数になる。単語リストは認識語彙DB115に蓄えられており、認識辞書に応じて必要な語彙が取り出される。
In this way, each arc is expanded into a word list. Thus, for example, the number of sentences in which “Destination” and “End of Word” are consecutive is obtained by multiplying the number of words included in the word list of “Destination” by the number of words included in the word list of “End”. Become a number. The word list is stored in the
音声認識部103は、各単語を音素毎又は音素片毎に分割し、各音素又は音素片に対応した音のモデルを並べたものをパターンとし、入力音声と最も近いパターンを出力する。音のモデルは、音素又は音素片ごとに、LPCケプストラム、MFCC、それらの差分値(Δ)、それらのΔΔ、又は、パワーの時間差分値など、を特徴量とした混合正規分布で表現される。また特徴量算出時に平均値の減算処理(ケプストラム平均値減算処理)などによって伝達系の歪みを補正してもよい。
The
入力音声と最も近いパターンは、前向き・後ろ向きアルゴリズムに基づく最尤推定において、最大尤度を与える状態遷移パスのみを計算するように近似したビタビアルゴリズムによって算出される。尤度は、入力音声とパターンとの距離に基づいて定義される。音声認識部103は最大尤度を与える状態遷移パスを計算し、その状態遷移パスから単語系列を逆引きする。これによってある一つの文字列が得られ、その文字列が出力される。さらに、最大尤度そのもの、又は、最大尤度を加工することによって得られた事後確率p(O|X)が出力される。ここで、p(O|X)は、入力音声Xを条件とした認識結果Oの事後確率(すなわち、入力音声Xに対する認識結果Oが正しい結果である確率を示す値)である。
The pattern closest to the input speech is calculated by a Viterbi algorithm approximated to calculate only the state transition path that gives the maximum likelihood in the maximum likelihood estimation based on the forward / backward algorithm. The likelihood is defined based on the distance between the input speech and the pattern. The
ユーザ発話は、必ずしも音声認識辞書で表現される文であるとは限らない。また、車室内では所望のユーザ発話以外の走行音などの雑音が存在するため、認識対象の音声が雑音であることも多い。このような場合でも、音声認識部103では入力音声に最も近いパターンを出力するため、出力されたすべての音声認識の結果を確信し受理することは望ましくない。
A user utterance is not necessarily a sentence expressed in a speech recognition dictionary. In addition, since there is noise such as running sound other than the desired user utterance in the passenger compartment, the recognition target voice is often noise. Even in such a case, since the
出力された音声認識結果の尤度又は事後確率が所定の閾値より小さい場合、認識対象の音声が雑音であったか又は音声認識辞書で表現される文以外の発話が成された可能性が高いため、そのような音声認識結果は棄却するべきである。認識結果棄却判定部104は、音声認識部103が出力する認識結果の尤度又は事後確率に基づき、認識結果を受理するか棄却するかを判定する(信頼度チェックS904)。さらに、認識結果棄却判定部104は、音声認識を行った波形の音源方向を推定し、その音源方向が所望の音源方向の範囲外(すなわち目的音範囲外)であった場合に、その認識結果を棄却してもよい。
If the likelihood or posterior probability of the output speech recognition result is smaller than a predetermined threshold, it is highly possible that the speech to be recognized was noise or an utterance other than a sentence expressed in the speech recognition dictionary was made. Such speech recognition results should be rejected. The recognition result
一般的に音声認識部103が受理可能な文(テキスト)に関する情報をユーザは事前に知らない。したがって、音声認識開始前に、いかなる文が受理可能であるかをユーザに提示する必要がある。選択肢を提示する方法としては、音声合成技術を用いて受理可能な文の一部を読み上げること、又は、受理可能な文の一部を、カーナビゲーションシステムが備えるディスプレイの画面上に表示すること、などが考えられる。
In general, the user does not know in advance information about a sentence (text) that can be received by the
図9は、本発明の第1の実施形態の音声対話装置を含むカーナビゲーションシステムのハードウェア構成のブロック図である。 FIG. 9 is a block diagram of a hardware configuration of the car navigation system including the voice interactive apparatus according to the first embodiment of the present invention.
本実施形態のカーナビゲーションシステムは、中央演算装置1603と、その中央演算装置に接続されるスピーカ1601、記憶媒体1602、座席センサ1604、ディスプレイ1605、マイクロホン1606及び速度センサ1607と、を備える。
The car navigation system of this embodiment includes a
中央演算装置1603は、音声認識及び音源分離などのソフトウェア処理を実行する。
The
記憶媒体1602には、認識辞書などの情報が保持される。
Information such as a recognition dictionary is held in the
ガイダンス音などの再生音は、スピーカ1601から出力される。スピーカ1601は超音波スピーカなどの超指向性スピーカであってもよい。 A reproduction sound such as a guidance sound is output from the speaker 1601. The speaker 1601 may be a super-directional speaker such as an ultrasonic speaker.
運転席、助手席、後部座席などの各座席に設置された座席センサ1604によって、同乗者が存在するか否かが判定される。座席センサ1604は、各座席にユーザが乗車しているか否かを示す情報を出力するものである限り、例えば、重量センサ又は各座席方向にビームを有する超音波センサ等、いかなる種類のものであってもよい。 It is determined whether or not a passenger is present by a seat sensor 1604 installed in each seat such as a driver seat, a passenger seat, and a rear seat. As long as the seat sensor 1604 outputs information indicating whether or not the user is in each seat, the seat sensor 1604 may be of any type, such as a weight sensor or an ultrasonic sensor having a beam in each seat direction. May be.
ディスプレイ1605には、コマンドリストなど認識語彙に関する情報、及び、地図などが表示される。
The
車載の速度センサ1607が取得した、自動車の速度を示す情報は、中央演算装置1603内に取り込まれ、走行状況(例えば自動車が走行中であるか否か)を判断するために使われる。
Information indicating the speed of the vehicle acquired by the in-vehicle speed sensor 1607 is taken into the
マイクロホン1606は、ユーザ発話を収録するために用いられる。音声認識部103は、マイクロホン1606を通して収録した音声を認識する。マイクロホン1606の代わりに、複数のマイクロホン素子からなるマイクロホンアレイ(例えば、図2に示すマイクロホンアレイ1201)が用いられてもよい。
The
マイクロホンアレイを用いることで、単一のマイクロホンでは得ることが困難な音源方向に関する情報を得たり、目的話者の方向にビームを当てて、その方向の話者が発話した音声のみを抽出したりすることができる。音源分離部102は、マイクロホンアレイを用いて、特定方向の話者が発話した音声のみを抽出してもよい。
By using a microphone array, it is possible to obtain information on the direction of a sound source that is difficult to obtain with a single microphone, or to apply a beam to the direction of the target speaker and extract only the speech uttered by the speaker in that direction. can do. The sound
なお、図9に示すマイクロホン1606及び中央演算装置1603は、それぞれ、図2に示すマイクロホンアレイ1201及び中央演算装置1203に相当する。図9に示す記憶媒体1602は、図2に示す揮発性メモリ1204及び記憶媒体1205の少なくとも一方に相当する。
Note that the
選択肢提示手段判定部106は、カーナビゲーションシステムに付属のユーザ提示装置を用いた提示手段の中から、安全性を損なわないという条件下で、タスク終了時間(すなわち、ユーザ提示装置が選択肢をユーザに提示し、選択肢をユーザが理解し、選択肢のいずれかをユーザが発話するのに要する時間)が短い手段を選択する。図9に記載されたカーナビゲーションシステムは、ユーザ提示装置として、スピーカ1601及びディスプレイ1605を備える。この場合、ユーザ提示手段としては、音声合成を用いて選択肢を読み上げる音声をスピーカ1601から出力するという方法と、ディスプレイ1605上に選択肢を表示するという方法の二つが考えられる。
The option presenting means
図10は、本発明の第1の実施形態の選択肢提示手段判定部106が実行する処理を示すフローチャートである。
FIG. 10 is a flowchart illustrating processing executed by the option presenting means
同乗者判定S701において、選択肢提示手段判定部106は、ドライバ以外の同乗者が乗車しているか否かを判定する。例えば、助手席(又は後部座席)の座席センサ1604の出力に基づいて、同乗者が乗車しているか否かが判定されてもよい。
In passenger determination S701, the option presenting means
次のタスク終了時間判定S702において、選択肢提示手段判定部106は、各提示手段を用いてユーザに選択肢を提示した場合のタスク終了時間を推定する。タスク終了時間の推定値は、提示装置が選択肢を提示するのに要する時間に、予めプリセットされた平均音声認識終了時間を加算したものであってもよいし、各提示装置を使った音声対話装置を被験者に予め使用してもらった際に測定した平均タスク終了時間であってもよい。
In the next task end time determination S702, the option presenting means
最短終了時間手段選択S703において、選択肢提示手段判定部106は、同乗者判定S701の結果に基づいて判定された、車内環境の安全性を損なわない提示装置のうち、タスク終了時間判定S702において推定したタスク終了時間が最も短い提示装置を選択する。どの提示装置が選択されたかを示す情報が、選択肢提示手段判定部106から出力される。
In the shortest end time means selection S703, the option presenting means
なお、安全な提示手段が一つしかない場合、タスク終了時間判定S702は実行されなくてもよい。その場合、最短終了時間手段選択S703において、その一つしかない安全な提示手段が選択される。 If there is only one safe presentation means, the task end time determination S702 may not be executed. In that case, in the shortest end time means selection S703, only one of the safe presentation means is selected.
同乗者判定の結果に基づく、車内環境の安全性を損なわない提示装置の選択について以下に具体的に示す。ここでは、図9に記載された二つの提示装置、すなわち、音声合成を用いて選択肢を読み上げるスピーカ1601、及び、選択肢を表示するディスプレイ1605を例として説明する。
The selection of the presentation device that does not impair the safety of the in-vehicle environment based on the passenger determination result will be specifically described below. Here, two presentation apparatuses described in FIG. 9, that is, a speaker 1601 that reads an option using speech synthesis and a
ディスプレイ1605をドライバが見るという行為は、運転中のドライバの注意をそぐ可能性(すなわち、それによって安全性が損なわれる可能性)がある。このため、ドライバが選択肢を見ながら選択肢を選ぶという行為は、好ましくない。そのため、音声合成によって選択肢を読み上げることが、安全な提示方法の一つとして考えられる。
The act of the driver looking at the
このため、同乗者判定S701の結果、ドライバ以外の同乗者が存在しないと判定された場合、図9に示す提示装置を用いた提示方法のうち、ディスプレイ1605上に選択肢を表示するという方法は選択されずに、音声合成を用いて選択肢を読み上げるという方法が選択される。すなわち、使用されるべき提示装置として、ディスプレイ1605ではなく、スピーカ1601が選択される。
Therefore, as a result of the passenger determination S701, when it is determined that there is no passenger other than the driver, the method of displaying options on the
一方、同乗者判定S701の結果、ドライバ以外の同乗者が存在すると判定された場合、ドライバ以外の同乗者がディスプレイ1605を見ながら選択肢を選ぶという行為は安全性を損なわない。したがって、この場合、音声合成を用いて選択肢を読み上げるという方法と、ディスプレイ1605上に選択肢を表示するという方法のうち最も推定タスク終了時間が最も短い提示方法が選ばれる。
On the other hand, as a result of the passenger determination S701, when it is determined that there is a passenger other than the driver, the act of the passenger other than the driver selecting an option while viewing the
既に説明したように、タスク終了時間は、ユーザ提示装置が選択肢をユーザに提示するのに要する時間、及び、提示された選択肢をユーザが理解し、それらの選択肢のいずれかをユーザが発話するのに要する時間の合計である。 As described above, the task end time is the time required for the user presentation device to present the options to the user, and the user understands the presented options, and the user speaks one of those options. It is the total time required for.
ユーザ提示装置がスピーカ1601である場合、それが選択肢をユーザに提示するのに要する時間は、おおむね、選択肢を読み上げる音声の合成に要する時間、及び、合成された音声の出力に要する時間の合計に相当する。この時間の推定値は、例えば、中央演算装置1603等のハードウェアの処理性能、及び、選択肢として提示されるべきテキストの長さ等に基づいて算出することができる。
When the user presentation device is the speaker 1601, the time required for it to present the option to the user is approximately the sum of the time required for synthesizing the speech that reads out the option and the time required for outputting the synthesized speech. Equivalent to. This estimated time can be calculated based on, for example, the processing performance of hardware such as the
一方、ユーザ提示装置がディスプレイ1605である場合、それが選択肢をユーザに提示するのに要する時間は、おおむね、ディスプレイ1605に表示されるべき画像のデータを生成するのに要する時間、及び、生成された画像をディスプレイ1605に表示するのに要する時間の合計に相当する。この時間の推定値は、例えば、中央演算装置1603等のハードウェアの処理性能、及び、生成される画像のデータ量に基づいて算出することができる。
On the other hand, when the user presentation device is the
提示された選択肢をユーザが理解し、それらの選択肢のいずれかをユーザが発話するのに要する時間として、あらかじめ所定の値が保持されていてもよい。例えば、被験者が各提示装置を使用した場合に要した時間をあらかじめ実際に計測し、その計測された時間を音声対話装置が保持してもよい。 A predetermined value may be held in advance as the time required for the user to understand the presented options and for the user to speak any of those options. For example, the time required when the subject uses each presentation device may be actually measured in advance, and the measured time may be held by the voice interaction device.
ただし、実際には、タスク終了時間は、ユーザが選択肢を理解し、それらのいずれかを発話するのに要する時間より、むしろ、ユーザ提示装置が選択肢をユーザに提示するのに要する時間によって大きく左右されると考えられる。その場合、タスク終了時間として、ユーザ提示装置が選択肢をユーザに提示するのに要する時間のみが算出され、比較されてもよい。その場合、同乗者がいると判定されると、選択肢をディスプレイ1605上に表示するのに要する時間と、選択肢を読み上げるのに要する時間とが算出され、両者が比較される。その結果、例えば、選択肢をディスプレイ1605上に表示するのに要する時間が短いと判定された場合、提示装置としてディスプレイ1605が選択される。
However, in practice, the task end time depends largely on the time it takes for the user presentation device to present the options to the user rather than the time it takes for the user to understand the options and speak any of them. It is thought that it is done. In that case, only the time required for the user presentation device to present the option to the user may be calculated and compared as the task end time. In this case, if it is determined that there is a passenger, the time required for displaying the option on the
さらに、実際には、同一の選択肢が提示される場合、選択肢をディスプレイ1605上に表示するのに要する時間は、選択肢を読み上げるのに要する時間より短くなるのが一般的である。このため、上記の二つの提示方法がいずれも安全性を損なわないと判定された場合、常に(すなわち、推定タスク終了時間を算出することなく)、選択肢をディスプレイ1605上に表示するという提示方法が最も推定タスク終了時間が短い提示方法として選択されてもよい。
Further, in practice, when the same option is presented, the time required for displaying the option on the
ディスプレイ1605上に選択肢を表示する方法が選択された場合において、ディスプレイとして指向性ディスプレイが用いられる場合、指向性をドライバ以外の同乗者に向けるように設定されてもよい。また音声再生用スピーカ1601として指向性スピーカが用いられる場合、これから選択肢を入力するユーザ(すなわち、ドライバ以外の同乗者)の方向に指向性を向けてもよい。
When a method for displaying options on the
図10に示す処理は、対話制御部107がユーザと対話する方法を選択するために実行される。例えば、図10に示す処理は、対話制御部107が図6に示す処理を開始する前に実行されてもよいし、対話制御部107が各コマンドを処理するたびに実行されてもよい。
The process shown in FIG. 10 is executed in order for the
図11は、本発明の第1の実施形態において出力されるガイダンス音声の例を示す説明図である。 FIG. 11 is an explanatory diagram showing an example of guidance voice output in the first embodiment of the present invention.
具体的には、図11は、同乗者がいる場合といない場合のガイダンス音声の出力例を示す。同乗者がいない場合、音声合成で読み上げた選択肢の中から選ぶように誘導するガイダンス音声(図11の例では、ガイダンス文「これから読み上げる施設名の中からお選びください」を読み上げる音声)が出力される。 Specifically, FIG. 11 shows an example of guidance voice output when a passenger is present and not present. When there is no passenger, a guidance voice that guides the user to select from the choices read out by speech synthesis (in the example of FIG. 11, a guidance sentence “speech to read from the name of the facility to be read”) is output. The
一方、同乗者がいる場合、ディスプレイ1605上に表示された選択肢の中から選ぶように誘導するガイダンス音声(図11の例では、ガイダンス文「同乗者の方がお答えください。これから画面に表示される施設名一覧の中からお選びください」を読み上げる音声)が出力される。同乗者がいる場合であっても、ドライバがディスプレイ1605を見ることを誘導してしまうことは好ましくないため、同乗者が答えるように誘導することも必要である。
On the other hand, when there is a fellow passenger, a guidance voice for guiding the user to choose from the choices displayed on the display 1605 (in the example of FIG. 11, the guidance sentence “Please answer by the fellow passenger. “Please select from the list of facility names” is output. Even if there are passengers, it is not preferable that the driver induces the driver to look at the
図12は、本発明の第1の実施形態においてディスプレイ1605に表示される選択肢の例を示す説明図である。
FIG. 12 is an explanatory diagram illustrating an example of options displayed on the
具体的には、図12は、ディスプレイ1605上に選択肢を表示するという方法が選択された場合に表示される画面の表示例を示す。図12では、例として、設定したい目的地の選択肢(例えば、「レストラン」及び「自宅」等)が画面上に表示される。図12のように選択肢を画面上に表示することで、音声合成を用いて選択肢を読み上げるという方法と比べると、ユーザが選択肢を把握するまでの時間を短縮することができる。
Specifically, FIG. 12 shows a display example of a screen displayed when a method of displaying options on the
質問文生成部110は、選択肢提示手段判定部106の判定結果と同乗者の有無に基づき、質問文を生成する。質問文は、それを出力する必要が生じるたびにリアルタイムに生成されてもよいし、予め条件毎に文がプリセットされていてもよい。さらに、質問文中に同乗者の名前を含めることによって、ある特定の同乗者に回答を促してもよい。そのようにすることで、特定の同乗者の音声のみ抽出すればよくなるため、認識性能を向上可能となる。同乗者の名前を質問文に含めるためには、予めその同乗者の名前を登録する必要がある。
The question
図13は、本発明の第1の実施形態において選択肢の提示のために実行される処理の一例を示すフローチャートである。 FIG. 13 is a flowchart illustrating an example of processing executed for presenting options in the first embodiment of the present invention.
最初に、助手席判定S1701において、選択肢提示手段判定部106は、助手席に同乗者が乗車しているか否かを判定する。この判定は、図10の同乗者判定S701と同様の方法で実行される。
First, in the passenger seat determination S1701, the option presenting means
助手席に同乗者が乗車していると判定された場合、ガイダンス出力1_S1702において、選択肢提示手段判定部106は、同乗者がいる場合のガイダンス音声を出力する(図11参照)。
When it is determined that a passenger is in the passenger seat, in the guidance output 1_S1702, the option presenting means
次に、画面に選択肢表示S1704において、選択肢提示手段判定部106は、選択肢をディスプレイ1605に表示する。具体的には、選択肢提示手段判定部106からの指示に基づいて、表示されるべき画像を表示画像生成部111が生成し、生成された画像を画像表示部113がディスプレイ1605に表示させる。
Next, in the option display S 1704 on the screen, the option presenting means
一方、助手席に同乗者が乗車していないと判定された場合、ガイダンス出力2_S1703において、選択肢提示手段判定部106は、同乗者がいない場合のガイダンス音声を出力する(図11参照)。
On the other hand, when it is determined that the passenger is not in the passenger seat, in the guidance output 2_S1703, the option presenting means
次に、音声で選択肢読み上げS1705において、選択肢提示手段判定部106は、選択肢を読み上げる音声を出力する。具体的には、選択肢提示手段判定部106からの指示に基づいて、出力されるべき選択肢を含む質問文を質問文生成部110が生成し、生成された質問文を読み上げる音声を音声出力部112がスピーカ1601に出力させる。
Next, in the option reading aloud in step S1705, the option presenting means
画面に選択肢表示S1704又は音声で選択肢読み上げS1705が実行された後、音声認識S1706が実行される。具体的には、図3等を参照して説明したように、音声入力部101がユーザからの音声入力を受信し、その入力された音声を音源分離部102及び音声認識部103が処理することによって、入力された音声が認識される。
After the option display S1704 or the option reading aloud S1705 is executed on the screen, the voice recognition S1706 is executed. Specifically, as described with reference to FIG. 3 and the like, the
このとき、助手席判定S1701の結果に基づいて目的音の範囲が設定されてもよい(図3の目的音範囲設定S901)。例えば、同乗者がいると判定された場合、目的音範囲設定S901において、マイクロホン1606から同乗者(例えば助手席に着席しているユーザ)への方向を含む所定の範囲が目的音の範囲として設定されてもよい。その場合、目的音の範囲内からの音声(すなわち同乗者が発話した音声)は、受理される。受理された音声は、選択肢の提示に対する応答として処理される。一方、目的音の範囲外からの音声(例えば運転者が発話した音声)は、棄却されるため、選択肢の提示に対する応答として処理されない。
At this time, the target sound range may be set based on the result of the passenger seat determination S1701 (target sound range setting S901 in FIG. 3). For example, when it is determined that there is a passenger, in the target sound range setting S901, a predetermined range including the direction from the
なお、上記図11及び図13は、同乗者がいない場合の選択肢提示方法として選択肢を読み上げることが選択され、同乗者がいる場合の選択肢提示方法として選択肢を表示することが選択される場合を例として示した。しかし、例えば、助手席判定S1701において、図10に示したものと同様の処理が実行されてもよい。その結果、助手席に同乗者が乗車している場合であっても、選択肢提示方法として選択肢を読み上げることが選択される場合もある。その場合、ガイダンス出力2_S1703及び音声で選択肢読み上げS1705が実行される。 11 and 13 show an example in which selection is read out as an option presentation method when there is no passenger, and display of options is selected as an option presentation method when there is a passenger. As shown. However, for example, in the passenger seat determination S1701, processing similar to that shown in FIG. 10 may be executed. As a result, even when a passenger is in the passenger seat, it may be selected to read out the options as an option presentation method. In that case, guidance output 2_S1703 and option reading aloud S1705 are executed.
図14は、本発明の第1の実施形態における同乗者の名前登録の処理を示すフローチャートである。 FIG. 14 is a flowchart showing a passenger name registration process according to the first embodiment of the present invention.
この処理は、カーナビゲーションシステム起動直後に実行される。助手席座席センサチェックS801において、座席センサ1604の情報に基づいて、助手席に人がいるか否かが判定される。 This process is executed immediately after the car navigation system is activated. In the passenger seat sensor check S801, whether or not there is a person in the passenger seat is determined based on the information of the seat sensor 1604.
助手席に人がいる場合、処理は名前認識S802に進む。名前認識S802において、音声認識辞書が全ての音節系列を受理可能なように設定された後、音声認識が実行される。このようにすることによって、任意の人の名前を認識することができる。音声認識によって認識された名前は、それが助手席の結果であるというラベルが付けられた後、記憶媒体1602に保存される。質問文生成時に、記憶媒体1602に保存された名前認識結果が参照される。
If there is a person in the passenger seat, the process proceeds to name recognition S802. In name recognition S802, after the speech recognition dictionary is set to accept all syllable sequences, speech recognition is executed. In this way, the name of any person can be recognized. The name recognized by speech recognition is stored in the
助手席に人がいない場合、又は、名前認識S802が実行された後、処理は後部座席センサチェックS803に進み、後部座席に人がいるか否かが判定される。人がいる場合、処理は名前認識S804に進む。名前認識S804において、音声認識辞書が全ての音節系列を受理可能なように設定された後、音声認識が実行される。音声認識によって認識された名前は、それが後部座席の結果であるというラベルを付けられた後、記憶媒体1602に保存される。質問文生成時に、記憶媒体1602に保存された名前認識結果が参照される。
If there is no person in the passenger seat, or after the name recognition S802 is executed, the process proceeds to the rear seat sensor check S803 to determine whether there is a person in the rear seat. If there is a person, the process proceeds to name recognition S804. In name recognition S804, after the speech recognition dictionary is set to accept all syllable sequences, speech recognition is executed. The name recognized by speech recognition is stored in the
後部座席に人がいない場合は、処理を終了する。また、名前認識S804後は、処理を終了する。 If there are no people in the backseat, the process ends. Further, after the name recognition S804, the process is terminated.
音声出力部112は、質問文生成部110が生成した質問文を音声合成音に変換し、変換した音声合成音をスピーカ1601から出力する。表示画像生成部111は、選択肢提示手段判定部106の判定結果及び同乗者の有無に基づき、画面に情報を表示する必要がある場合は、表示画像を生成する。ここで生成される画像は、図12に例示したように選択肢を画面上にテキスト情報として表示するものであってもよいし、選択肢毎に予めプリセットされた画像を画面上に表示するものであってもよい。後者の場合、例えば、選択肢に含まれるレストランの画像が画面上に表示されてもよい。画像表示部113は、表示画像生成部111が生成した画像をディスプレイ1605上に表示する。
The
機能制御部109は、音声認識結果に基づき、車室内機器を制御する。
The
図15は、本発明の第1の実施形態の機能制御部109が実行する処理を示すフローチャートである。
FIG. 15 is a flowchart illustrating processing executed by the
経路設定コマンドS1501において、機能制御部109は、音声認識結果が経路設定に関するものであるか否かを判定する。この判定は、音声認識結果の候補毎にその結果が経路設定に関するものか否かを示すフラグをあらかじめ設定しておくことで実現される。
In the route setting command S1501, the
音声認識結果が経路設定に関するものである場合、機能制御部109は、カーナビゲーションシステムの経路設定処理を呼び出し、処理を終了する。
When the voice recognition result relates to route setting, the
音声認識結果が経路設定に関するものでなかった場合、機能制御部109は、次にエアコン操作コマンドS1502において、音声認識結果がエアコン操作コマンドに関するものか否かを判定する。この判定は、音声認識結果の候補毎に、その結果がエアコン操作コマンドに関するものか否かを示すフラグをあらかじめ設定しておくことで実現される。
If the voice recognition result is not related to the route setting, the
音声認識結果がエアコン操作コマンドに関するものである場合、機能制御部109は、カーナビゲーションシステム上のエアコン操作処理を呼び出し、処理を終了する。
When the voice recognition result relates to the air conditioner operation command, the
音声認識結果がエアコン操作処理に関するものでなかった場合、次にスピーカ制御コマンドS1503において、機能制御部109は、音声認識結果がスピーカ制御に関するものか否かを判定する。音声認識結果がスピーカ制御に関するものであった場合、機能制御部109は、カーナビゲーションシステム上のスピーカ制御処理を呼び出し、処理を終了する。
If the voice recognition result is not related to the air conditioner operation process, then in the speaker control command S1503, the
以上、本発明の第1の実施形態によれば、自動車にドライバ以外のユーザが乗車しているか否かが判定され、その判定結果に基づいて、ユーザに対する情報提示方法が選択される。それによって、安全性を損なわず、かつ、短時間の音声対話が実現される。 As described above, according to the first embodiment of the present invention, it is determined whether or not a user other than the driver is on the vehicle, and an information presentation method for the user is selected based on the determination result. As a result, a short voice dialogue is realized without sacrificing safety.
次に、本発明の第2の実施形態について説明する。第2の実施形態は、第1の実施形態と同様のハードウェアによって実現される(図2及び図9参照)。さらに、第2の実施形態では、以下に説明する相違点を除き、第1の実施形態と同様の処理が実行される。 Next, a second embodiment of the present invention will be described. The second embodiment is realized by hardware similar to that of the first embodiment (see FIGS. 2 and 9). Further, in the second embodiment, the same processing as that of the first embodiment is executed except for differences described below.
図16は、本発明の第2の実施形態の音声対話装置の機能ブロック図である。 FIG. 16 is a functional block diagram of the voice interactive apparatus according to the second embodiment of this invention.
図16に示す各部のうち、音声入力部201、音源分離部202、音声認識部203、認識結果棄却判定部204、分離範囲設定部205、選択肢提示手段判定部206、対話制御部207、認識辞書生成部208、機能制御部209、認識語彙DB217、対話スクリプトDB216、質問文生成部210、表示画像生成部211、音声出力部214及び画像表示部215は、それぞれ、第1の実施形態における音声入力部101、音源分離部102、音声認識部103、認識結果棄却判定部104、分離範囲設定部105、選択肢提示手段判定部106、対話制御部107、認識辞書生成部108、機能制御部109、認識語彙DB115、対話スクリプトDB114、質問文生成部110、表示画像生成部111、音声出力部112及び画像表示部113と同等の機能を有する。
Among the units shown in FIG. 16, the
第2の実施形態の音声対話装置は、さらに、質問文出力タイミング決定部212、画像表示タイミング決定部213及び走行状況判定部218を備える。これらも、記憶媒体1205に格納されたプログラムを中央演算装置1203が実行することによって実現される。
The voice interactive apparatus according to the second embodiment further includes a question sentence output
走行状況判定部218は、車速の情報に基づいて、現在の走行状況、例えば、現在運転中なのか静止中なのかを判定する。さらに、走行状況判定部218は、カーナビゲーションシステムの地図情報を利用して、現在地が高速道路上であるといった情報、及び、現在交差点で静止中であるといった状況まで判定してもよい。
The traveling
具体的には、図9に示すカーナビゲーションシステムが、自動車の現在位置情報を取得する測位装置(図示省略)を備える。走行状況判定部218は、測位装置が取得した現在位置情報と、記憶媒体1602に格納された地図情報とを参照することによって、現在地が高速道路上であるか否かなどを判定することができる。
Specifically, the car navigation system shown in FIG. 9 includes a positioning device (not shown) that acquires the current position information of the automobile. The traveling
判定した走行状況に基づき、選択肢提示手段判定部206は、カーナビゲーションシステムに付属のユーザ提示装置を用いた提示手段の中から、安全性を損なわないという条件下で、タスク終了時間(すなわち、ユーザ提示装置が選択肢をユーザに提示し、選択肢をユーザが理解し、選択肢のいずれかをユーザが発話するまでに要する時間)が短い手段を選択する。ディスプレイ1605をドライバが見るという行為は、ドライバの注意をそぐ可能性(すなわち、それによって安全性が損なわれる可能性)がある。このため、ドライバが運転中に選択肢を見ながら選択肢を選ぶという行為は、好ましくない。
Based on the determined driving situation, the option presenting means determining
このため、同乗者判定S701によってドライバ以外の同乗者が存在しないと判定された場合、判定した走行状況に基づいて選択肢提示手段が判定される。具体的には、走行状況が静止中(すなわち車が停止している状態)である場合、ディスプレイ1605上に選択肢を表示するという方法が選択される。一方、走行状況が走行中である場合、ドライバに静止可能な場所に車を止めることを誘導するガイダンスを再生して、ドライバが車を止めたことを走行状況判定で確認した後、ディスプレイ1605上に選択肢を表示するという方法が選択される。
For this reason, when it is determined by the passenger determination S701 that there is no passenger other than the driver, the option presenting means is determined based on the determined traveling situation. Specifically, when the traveling state is stationary (that is, the vehicle is stopped), a method of displaying options on the
質問文出力タイミング決定部212は、質問文を読み上げる音声を出力するタイミングを走行状況に応じて制御する。具体的には、走行状況が走行中である場合、質問文出力タイミング決定部212は、ドライバに静止可能な場所に車を止めることを誘導するガイダンスを再生した後、静止状態になったタイミングで、画面上の選択肢の中から選ぶことを誘導する質問文を出力するように制御する。
The question sentence output
画像表示タイミング決定部213は、同様に、ディスプレイ1605上に選択肢を表示するタイミングを走行状況に応じて制御する。具体的には、画像表示タイミング決定部213は、静止状態になったタイミングで、ディスプレイ1605の画面上に選択肢を表示するように制御する。
Similarly, the image display
図17は、本発明の第2の実施形態における走行状況及び音声対話のタイミングチャートである。 FIG. 17 is a timing chart of the driving situation and voice conversation in the second embodiment of the present invention.
図17の例では、音声対話を開始した時点において時速40km/hで走行中であったため、質問文出力タイミング決定部212は、ドライバに停止をすることを促すガイダンスを再生するように音声出力部214を制御する。その後、質問文出力タイミング決定部212は、車が停止したことを確認した後、質問文を出力するように音声出力部214を制御する。
In the example of FIG. 17, since the vehicle was running at a speed of 40 km / h at the time of starting the voice dialogue, the question sentence output
画像表示タイミング決定部213は、車が停止したことを確認した後、選択肢をディスプレイ1605の画面に表示するように画像表示部215を制御する。その後、音声認識部203等による音声認識が開始される。
After confirming that the car has stopped, the image display
図18は、本発明の第2の実施形態において選択肢の提示のために実行される処理の一例を示すフローチャートである。 FIG. 18 is a flowchart illustrating an example of processing executed for presenting options in the second exemplary embodiment of the present invention.
以下、ドライバ以外の同乗者が乗車しておらず、かつ、車が走行中である場合に図18の処理が実行される例を示す。 Hereinafter, an example in which the processing of FIG. 18 is executed when a passenger other than the driver is not in the vehicle and the vehicle is traveling will be described.
最初に、状況判定S1801において、走行状況判定部218は、車を停止可能であるか否かを判定する。例えば、走行状況判定部218は、現在地が高速道路上である場合、車を停止可能でないと判定し、現在地が一般道路上である場合、車を停止可能であると判定してもよい。
First, in the situation determination S1801, the traveling
車を停止可能でないと判定された場合、ガイダンス出力1_S1802において、選択肢提示手段判定部106は、車を停止可能でない場合のガイダンス音声を出力する。例えば、選択肢提示手段判定部106は、図11に示した同乗者がいない場合の質問文を読み上げる音声を出力するように質問文生成部210を制御してもよい。
When it is determined that the vehicle cannot be stopped, in the guidance output 1_S1802, the option presenting means
次に、音声で選択肢読み上げS1804において、選択肢提示手段判定部106は、選択肢を読み上げる音声を出力する。具体的には、選択肢提示手段判定部106からの指示に基づいて、出力されるべき選択肢を含む質問文を質問文生成部110が生成し、生成された質問文を読み上げる音声を音声出力部112がスピーカ1601に出力させる。
Next, in the option reading aloud in step S1804, the option presenting means
一方、車を停止可能であると判定された場合、ガイダンス出力2_S1803において、選択肢提示手段判定部106は、車を停止可能である場合のガイダンス音声を出力する。例えば、選択肢提示手段106は、ドライバに静止可能な場所に車を止めることを誘導するガイダンスを出力するように質問文生成部210を制御してもよい。
On the other hand, when it is determined that the vehicle can be stopped, in the guidance output 2_S1803, the option presenting means
次に、停止判定S1805において、質問文出力タイミング決定部212は、車が停止したか否かを判定する。車がまだ停止していないと判定された場合、処理はガイダンス出力2_S1803に戻り、再び車を止めることを誘導するガイダンスが出力される。
Next, in stop determination S1805, the question sentence output
一方、車が停止したと判定された場合、質問文出力タイミング決定部212は、ガイダンス出力3_S1806において、車が停止した場合のガイダンス音声を出力する。例えば、質問文出力タイミング決定部212は、質問文生成部210が生成した、同乗者がいる場合の質問文(例えば図11参照)を読み上げる音声を出力するように、音声出力部214を制御してもよい。なお、上記の例では実際には同乗者がいないが、車が停止しているため、ドライバがディスプレイ1605を見ても安全性は損なわれない。
On the other hand, when it is determined that the vehicle has stopped, the question message output
さらに、停止判定S1805において、画像表示タイミング決定部213は、車が停止したか否かを判定する。車がまだ停止していないと判定された場合、処理はガイダンス出力2_S1803に戻り、再び車を止めることを誘導するガイダンスが出力される。
Further, in stop determination S1805, the image display
一方、車が停止したと判定された場合、画像表示タイミング決定部213は、ガイダンス出力3_S1806において、選択肢をディスプレイ1605の画面に表示する。例えば、画像表示タイミング決定部213は、表示画像生成部211が生成した選択肢の表示画像(例えば図12参照)を表示するように、画像表示部215を制御してもよい。
On the other hand, when it is determined that the car has stopped, the image display
音声で選択肢読み上げS1804又はガイダンス出力3_S1806が実行された後、音声認識S1807が実行される。このステップは、第1の実施形態の音声認識S1706と同様である。 After the option reading aloud S1804 or the guidance output 3_S1806 is executed by voice, the voice recognition S1807 is executed. This step is the same as the speech recognition S1706 of the first embodiment.
なお、前記図18は、ドライバ以外の同乗者が乗車しておらず、かつ、車が走行中である場合を例として説明した。例えば、本実施形態においても、第1の実施形態と同様、図13に示す助手席判定S1701が実行され、同乗者がいないと判定された場合に図18に示す処理が開始されてもよい。一方、同乗者がいると判定された場合には、第1の実施形態と同様、ガイダンス出力1_S1702及び画面に選択肢表示S1704が実行されてもよい。 Note that FIG. 18 illustrates an example in which a passenger other than the driver is not in the vehicle and the vehicle is running. For example, also in the present embodiment, as in the first embodiment, the passenger seat determination S1701 shown in FIG. 13 is executed, and the processing shown in FIG. 18 may be started when it is determined that there is no passenger. On the other hand, if it is determined that there is a passenger, the guidance output 1_S 1702 and the option display S 1704 may be executed on the screen as in the first embodiment.
さらに、図18は、車が走行中でない場合に実行されてもよい。例えば、状況判定S1801において、まず車が走行中であるか否かが判定され、走行中であると判定され場合に停止可能であるか否かが判定されてもよい。車が走行中でないと判定された場合、処理はガイダンス出力2_S1803及び停止判定S1805が省略され、ガイダンス出力3_S1806が実行されてもよい。 Further, FIG. 18 may be executed when the vehicle is not traveling. For example, in the situation determination S1801, it may be first determined whether or not the vehicle is traveling, and if it is determined that the vehicle is traveling, it may be determined whether or not the vehicle can be stopped. If it is determined that the vehicle is not traveling, the guidance output 2_S1803 and the stop determination S1805 may be omitted, and the guidance output 3_S1806 may be executed.
以上、本発明の第2の実施形態によれば、自動車にドライバのみが乗車している場合であっても、安全性を損なわず、かつ、短時間で音声対話を実行できる情報提示方法が選択される。 As described above, according to the second embodiment of the present invention, even when only a driver is in a car, an information presentation method that can perform voice conversation in a short time without sacrificing safety is selected. Is done.
以上の本発明の第1及び第2の実施形態は、選択肢を示すテキスト情報をユーザに提示し、その提示に対する応答として選択肢のいずれかをユーザが発話する処理を例として説明した。しかし、これらの実施形態は、任意のテキスト情報の提示及びそれに対するユーザからの応答を処理するために適用することができる。 In the first and second embodiments of the present invention described above, the text information indicating the option is presented to the user, and the process in which the user utters one of the options as a response to the presentation has been described as an example. However, these embodiments can be applied to handle the presentation of arbitrary text information and the response from the user to it.
101、201 音声入力部
102、202 音源分離部
103、203 音声認識部
104、204 認識結果棄却判定部
105、205 分離範囲設定部
106、206 選択肢提示手段判定部
107、207 対話制御部
108、208 認識辞書生成部
109、209 機能制御部
110、210 質問文生成部
111、211 表示画像生成部
112、214 音声出力部
113、215 画像表示部
114、216 対話スクリプトDB
115、217 認識語彙DB
212 質問文出力タイミング決定部
213 画像表示タイミング決定部
218 走行状況判定部
S301 コマンド名称
S302 目的地設定
S303 自動車機器操作
S304 周辺施設検索
S305 時間周波数分解
S701 同乗者判定
S702 タスク終了時間判定
S703 最短終了時間手段選択
S801 助手席座席センサチェック
S802 名前認識
S803 後部座席センサチェック
S804 名前認識
S901 目的音範囲設定
S902 音源分離
1001 DFT
1002 周波数毎ベクトル化
1003 音源定位
1004 音源分離
1005 逆DFT
S1101 目的音範囲かどうか
S1102 目的音共分散更新
S1103 雑音共分散更新
S1104 フィルタ生成
S1105 フィルタリング
S1106 ポストフィルタリング
1201 マイクロホンアレイ
1202 AD変換装置
1203、1603 中央演算装置
1204 揮発性メモリ
1205、1602 記憶媒体
S1501 経路設定コマンド
S1502 エアコン操作コマンド
S1503 スピーカ制御コマンド
1601 スピーカ
1604 座席センサ
1605 ディスプレイ
1606 マイクロホン
1607 速度センサ
101, 201
115, 217 Recognition vocabulary DB
212 Question sentence output
1002 Vectorization per
S1101 Target sound range S1102 Target sound covariance update S1103 Noise covariance update S1104 Filter generation S1105 Filtering S1106 Post filtering 1201
Claims (10)
テキスト情報を音声に変換して出力する音声出力部と、
前記テキスト情報を画像に変換して表示する画像表示部と、
複数のマイクロホンと、
前記乗員検知部の検知結果に基づいて、前記音声出力部又は前記画像表示部のいずれか一方を選択し、前記選択された前記音声出力部又は前記画像表示部に前記テキスト情報を出力させる切り替え部と、を備え、
前記運転者以外の乗員が乗車している場合、前記テキスト情報の前記画像表示部への表示に要する第1時間、及び、前記テキスト情報を読み上げる音声の前記音声出力部からの出力に要する第2時間を推定し、
前記第1時間が前記第2時間より短い場合、前記テキスト情報を前記画像表示部に出力させることを選択し、前記第2時間が前記第1時間より短い場合、前記テキスト情報を前記音声出力部に出力させることを選択し、
前記運転者以外の乗員が乗車している場合、さらに、前記運転者以外の乗員が応答するように促す音声を前記音声出力部から出力し、
前記運転者以外の乗員が応答するように促す音声が出力された後、前記複数のマイクロホンが音声を受信すると、前記受信した音声の音源方向を特定し、
前記特定された音源方向が、前記複数のマイクロホンから前記運転者以外の乗員への方向を含む所定の範囲内であるか否かを判定し、
前記特定された音源方向が前記所定の範囲内である場合、前記受信した音声を、前記画像表示部に表示されたテキスト情報に対する応答として処理し、
前記運転者以外の乗員が乗車していない場合、前記テキスト情報を前記音声出力部に出力させることを選択することを特徴とする音声対話装置。 An occupant detection unit for detecting the position of the occupant in the vehicle;
An audio output unit for converting text information into audio and outputting it;
An image display unit for converting the text information into an image and displaying the image,
Multiple microphones,
A switching unit that selects either the voice output unit or the image display unit based on the detection result of the occupant detection unit and outputs the text information to the selected voice output unit or the image display unit. and, with a,
When an occupant other than the driver is in the vehicle, a first time required for displaying the text information on the image display unit, and a second time required for outputting from the voice output unit a voice that reads out the text information. Estimate time
When the first time is shorter than the second time, it is selected to output the text information to the image display unit, and when the second time is shorter than the first time, the text information is output to the voice output unit. Select to output
When an occupant other than the driver is on board, further, a voice prompting the occupant other than the driver to respond is output from the audio output unit,
After the voice prompting the crew member other than the driver to respond is output, when the plurality of microphones receives the voice, the sound source direction of the received voice is specified,
Determining whether the identified sound source direction is within a predetermined range including a direction from the plurality of microphones to an occupant other than the driver;
When the specified sound source direction is within the predetermined range, the received voice is processed as a response to the text information displayed on the image display unit,
When a passenger other than the driver is not in the vehicle , the voice interaction device is selected to output the text information to the voice output unit .
前記音声対話装置は、 The voice interaction device
前記速度センサからの出力に基づいて、前記自動車が走行中であるか否かを判定し、 Based on the output from the speed sensor, it is determined whether the automobile is running,
前記自動車が走行中であると判定された場合、前記運転者に自動車の停止を促す音声を前記音声出力部から出力し、 When it is determined that the automobile is running, a voice prompting the driver to stop the automobile is output from the voice output unit,
前記自動車が停止中であると判定された場合、前記テキスト情報を含む画像を前記画像表示部に表示することを特徴とする請求項1に記載の音声対話装置。 The voice interactive apparatus according to claim 1, wherein when it is determined that the automobile is stopped, an image including the text information is displayed on the image display unit.
前記音声対話装置は、 The voice interaction device
前記測位装置が取得した前記自動車の現在位置情報に基づいて、前記自動車を停止させることができるか否かを判定し、 Based on the current position information of the vehicle acquired by the positioning device, determine whether the vehicle can be stopped,
前記自動車を停止させることができると判定された場合、前記運転者に自動車の停止を促す音声を前記音声出力部から出力し、 When it is determined that the vehicle can be stopped, a voice prompting the driver to stop the vehicle is output from the voice output unit,
前記自動車を停止させることができないと判定された場合、前記テキスト情報を読み上げる音声を前記音声出力部から出力することを特徴とする請求項2に記載の音声対話装置。 The voice interactive apparatus according to claim 2, wherein when it is determined that the automobile cannot be stopped, a voice that reads out the text information is output from the voice output unit.
自動車内における乗員の乗車位置を検知する乗員検知手順と、 An occupant detection procedure for detecting the position of the occupant in the vehicle;
前記乗員検知手順によって検出された乗員の位置に基づいて、前記音声出力部又は前記画像表示部のいずれか一方を選択し、選択された前記音声出力部又は前記画像表示部が前記テキスト情報を出力する切り替え手順と、を含み、 Based on the position of the occupant detected by the occupant detection procedure, either the voice output unit or the image display unit is selected, and the selected voice output unit or the image display unit outputs the text information. A switching procedure to
前記切り替え手順は、前記運転者以外の乗員が乗車している場合、前記テキスト情報の前記画像表示部への表示に要する第1時間、及び、前記テキスト情報を読み上げる音声の前記音声出力部からの出力に要する第2時間を推定し、前記第1時間が前記第2時間より短い場合、前記テキスト情報を前記画像表示部に出力させることを選択し、前記第2時間が前記第1時間より短い場合、前記テキスト情報を前記音声出力部に出力させることを選択し、前記運転者以外の乗員が乗車していない場合、前記テキスト情報を前記音声出力部に出力させることを選択する手順を含み、 In the switching procedure, when an occupant other than the driver is on board, the first time required to display the text information on the image display unit, and the voice output unit that reads out the text information from the voice output unit A second time required for output is estimated, and when the first time is shorter than the second time, it is selected to output the text information to the image display unit, and the second time is shorter than the first time. A case in which the text information is selected to be output to the voice output unit, and when an occupant other than the driver is not in the vehicle, the text information is selected to be output to the voice output unit.
前記音声対話方法は、さらに、 The voice interaction method further includes:
前記運転者以外の乗員が乗車していると判定された場合、前記運転者以外の乗員が応答するように促す音声を前記音声出力部から出力する手順と、 When it is determined that an occupant other than the driver is on board, a procedure for outputting a voice prompting the occupant other than the driver to respond from the audio output unit;
前記運転者以外の乗員が応答するように促す音声が出力された後、前記複数のマイクロホンが音声を受信すると、前記受信した音声の音源方向を特定する手順と、 After the voice prompting the passengers other than the driver to respond is output, when the plurality of microphones receive the voice, a procedure for specifying the sound source direction of the received voice;
前記特定された音源方向が、前記複数のマイクロホンから前記運転者以外の乗員への方向を含む所定の範囲内であるか否かを判定する手順と、 Determining whether the identified sound source direction is within a predetermined range including a direction from the plurality of microphones to an occupant other than the driver;
前記特定された音源方向が前記所定の範囲内である場合、前記受信した音声を、前記画像表示部に表示されたテキスト情報に対する応答として処理する手順と、を含むことを特徴とする音声対話方法。 And a procedure for processing the received voice as a response to the text information displayed on the image display unit when the specified sound source direction is within the predetermined range. .
前記音声対話方法は、さらに、 The voice interaction method further includes:
前記速度センサからの出力に基づいて、前記自動車が走行中であるか否かを判定する手順と、 A procedure for determining whether or not the vehicle is running based on an output from the speed sensor;
前記自動車が走行中であると判定された場合、前記運転者に自動車の停止を促す音声を前記音声出力部から出力する手順と、 When it is determined that the automobile is running, a procedure for outputting a voice prompting the driver to stop the automobile from the voice output unit;
前記自動車が停止中であると判定された場合、前記テキスト情報を含む画像を前記画像表示部に表示する手順と、を含むことを特徴とする請求項6に記載の音声対話方法。 The voice interaction method according to claim 6, further comprising: displaying an image including the text information on the image display unit when it is determined that the automobile is stopped.
前記音声対話方法は、さらに、 The voice interaction method further includes:
前記測位装置が取得した前記自動車の現在位置情報に基づいて、前記自動車を停止させることができるか否かを判定する手順と、 A procedure for determining whether or not the automobile can be stopped based on the current position information of the automobile acquired by the positioning device;
前記自動車を停止させることができると判定された場合、前記運転者に自動車の停止を促すメッセージを前記音声出力部から出力する手順と、 When it is determined that the vehicle can be stopped, a procedure for outputting a message prompting the driver to stop the vehicle from the voice output unit;
前記自動車を停止させることができないと判定された場合、前記テキスト情報を読み上げる音声を前記音声出力部から出力する手順と、を含むことを特徴とする請求項7に記載の音声対話方法。 The voice interaction method according to claim 7, further comprising: a step of outputting a voice for reading the text information from the voice output unit when it is determined that the automobile cannot be stopped.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008274124A JP5154363B2 (en) | 2008-10-24 | 2008-10-24 | Car interior voice dialogue system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008274124A JP5154363B2 (en) | 2008-10-24 | 2008-10-24 | Car interior voice dialogue system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102163A JP2010102163A (en) | 2010-05-06 |
JP5154363B2 true JP5154363B2 (en) | 2013-02-27 |
Family
ID=42292857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008274124A Expired - Fee Related JP5154363B2 (en) | 2008-10-24 | 2008-10-24 | Car interior voice dialogue system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5154363B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295755B2 (en) * | 2018-08-08 | 2022-04-05 | Fujitsu Limited | Storage medium, sound source direction estimation method, and sound source direction estimation device |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009120984A1 (en) | 2008-03-28 | 2009-10-01 | Kopin Corporation | Handheld wireless display device having high-resolution display suitable for use as a mobile internet device |
US10013976B2 (en) | 2010-09-20 | 2018-07-03 | Kopin Corporation | Context sensitive overlays in voice controlled headset computer displays |
WO2012154938A1 (en) | 2011-05-10 | 2012-11-15 | Kopin Corporation | Headset computer that uses motion and voice commands to control information display and remote devices |
JP2013015601A (en) * | 2011-07-01 | 2013-01-24 | Dainippon Printing Co Ltd | Sound source identification apparatus and information processing apparatus interlocked with sound source |
US8929954B2 (en) * | 2012-04-25 | 2015-01-06 | Kopin Corporation | Headset computer (HSC) as auxiliary display with ASR and HT input |
JP6291643B2 (en) * | 2013-09-06 | 2018-03-14 | 株式会社ユピテル | System and program |
JP6481939B2 (en) * | 2015-03-19 | 2019-03-13 | 株式会社レイトロン | Speech recognition apparatus and speech recognition program |
JP6724724B2 (en) * | 2016-10-31 | 2020-07-15 | 株式会社デンソー | Diagnosis support device and diagnosis support system |
JP6819383B2 (en) * | 2017-03-17 | 2021-01-27 | ヤマハ株式会社 | Control method and control device |
KR102520069B1 (en) | 2018-05-07 | 2023-04-10 | 구글 엘엘씨 | Provides a complex graphical assistant interface to control various connected devices |
JP2021123133A (en) * | 2020-01-31 | 2021-08-30 | トヨタ自動車株式会社 | Information processing device, information processing method, and information processing program |
CN111816189B (en) * | 2020-07-03 | 2023-12-26 | 斑马网络技术有限公司 | Multi-voice-zone voice interaction method for vehicle and electronic equipment |
CN114954168A (en) * | 2021-08-05 | 2022-08-30 | 长城汽车股份有限公司 | Method and device for ventilating and heating seat, storage medium and vehicle |
WO2024189935A1 (en) * | 2023-03-15 | 2024-09-19 | パイオニア株式会社 | Information processing system, information processing device, control method for information processing system, and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3838159B2 (en) * | 2002-05-31 | 2006-10-25 | 日本電気株式会社 | Speech recognition dialogue apparatus and program |
JP2006199228A (en) * | 2005-01-24 | 2006-08-03 | Pioneer Electronic Corp | Interface setting device and interface setting method |
JP2007219207A (en) * | 2006-02-17 | 2007-08-30 | Fujitsu Ten Ltd | Speech recognition device |
JP2007302223A (en) * | 2006-04-12 | 2007-11-22 | Hitachi Ltd | Non-contact input device for in-vehicle apparatus |
JP2008196998A (en) * | 2007-02-14 | 2008-08-28 | Denso Corp | Navigation apparatus |
-
2008
- 2008-10-24 JP JP2008274124A patent/JP5154363B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295755B2 (en) * | 2018-08-08 | 2022-04-05 | Fujitsu Limited | Storage medium, sound source direction estimation method, and sound source direction estimation device |
Also Published As
Publication number | Publication date |
---|---|
JP2010102163A (en) | 2010-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5154363B2 (en) | Car interior voice dialogue system | |
US8024184B2 (en) | Speech recognition device, speech recognition method, computer-executable program for causing computer to execute recognition method, and storage medium | |
JP4497834B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and information recording medium | |
US8442833B2 (en) | Speech processing with source location estimation using signals from two or more microphones | |
JP4260788B2 (en) | Voice recognition device controller | |
EP3061086B1 (en) | Text-to-speech performance evaluation | |
JP4859982B2 (en) | Voice recognition device | |
US20200152203A1 (en) | Agent device, agent presentation method, and storage medium | |
JP2006317573A (en) | Information terminal | |
Kawaguchi et al. | Multimedia data collection of in-car speech communication | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
KR20220073513A (en) | Dialogue system, vehicle and method for controlling dialogue system | |
JP3798530B2 (en) | Speech recognition apparatus and speech recognition method | |
US20230298581A1 (en) | Dialogue management method, user terminal and computer-readable recording medium | |
JP2000322074A (en) | Voice input section determination device, aural data extraction device, speech recognition device, vehicle navigation device and input microphone | |
JP4437047B2 (en) | Spoken dialogue device | |
Kawaguchi et al. | Multimedia corpus of in-car speech communication | |
JP5375612B2 (en) | Frequency axis expansion / contraction coefficient estimation apparatus, system method, and program | |
US20110218809A1 (en) | Voice synthesis device, navigation device having the same, and method for synthesizing voice message | |
JP2007206239A (en) | Voice recognition device and voice recognition method | |
JP2007248529A (en) | Voice recognizer, voice recognition program, and voice operable device | |
JP2005157166A (en) | Apparatus and method for speech recognition, and program | |
KR20200095636A (en) | Vehicle equipped with dialogue processing system and control method thereof | |
JP7274376B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
CN112241628B (en) | Agent device, method for controlling agent device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20110711 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5154363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |