JP2012073364A - 音声対話装置、方法、プログラム - Google Patents

音声対話装置、方法、プログラム Download PDF

Info

Publication number
JP2012073364A
JP2012073364A JP2010217487A JP2010217487A JP2012073364A JP 2012073364 A JP2012073364 A JP 2012073364A JP 2010217487 A JP2010217487 A JP 2010217487A JP 2010217487 A JP2010217487 A JP 2010217487A JP 2012073364 A JP2012073364 A JP 2012073364A
Authority
JP
Japan
Prior art keywords
voice
barge
utterance
output
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010217487A
Other languages
English (en)
Other versions
JP5431282B2 (ja
Inventor
Kenji Iwata
憲治 岩田
Takehide Yano
武秀 屋野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010217487A priority Critical patent/JP5431282B2/ja
Priority to US13/051,144 priority patent/US20120078622A1/en
Publication of JP2012073364A publication Critical patent/JP2012073364A/ja
Application granted granted Critical
Publication of JP5431282B2 publication Critical patent/JP5431282B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】実施形態によれば、ユーザからのバージイン発声を精度よく認識することが可能な音声対話装置、方法、及びプログラムが提供される。
【解決手段】検出部は、ユーザの音声を検出する検出する。認識部は、音声を認識する。出力部は、音声の認識結果に対応した応答音声を出力する。制御部は、応答音声の出力中に、ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、バージイン発声を採用するか否かを判定することを特徴とする。
【選択図】図1

Description

本発明の実施形態は、音声対話装置、方法、及びプログラムに関する。
入力されたユーザの音声を認識し、当該音声に対応する応答音声を選択制御し、当該応答音声を出力することにより、ユーザとの間で対話を行なう音声対話装置がある。このような音声対話装置では、応答音声を出力している間に、ユーザから割り込まれて入力される音声(バージイン発声)を認識するバージイン機能を有するものがある。
このような音声対話システムでは、ユーザからのバージイン発声を精度よく認識することが可能なものが望まれている。
特開2006−337942号公報
本発明が解決しようとする課題は、ユーザからのバージイン発声を精度よく認識することが可能な音声対話装置、方法、及びプログラムを提供することである。
上記課題を解決するために、本発明の実施形態に係る音声対話システムは、検出部と、認識部と、制御部と、出力部とを備える。
検出部は、ユーザの音声を検出する検出する。認識部は、前記音声を認識する。出力部は、前記音声の認識結果に対応した応答音声を出力する。制御部は、前記応答音声の出力中に、前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定することを特徴とする。
第1の実施の形態に係る音声対話装置1の構成を表すブロック図。 音声対話装置1の処理を表すフローチャート。 推定部15が、バージイン確率変動を推定する方法の説明図。 推定部15が、バージイン確率変動を推定する方法の説明図。 推定部15が、バージイン確率変動を推定する方法の説明図。 第1の実施の形態の変形例1に係る音声認識装置1の処理を表すフローチャート。 第1の実施の形態の変形例2に係る音声対話装置10の構成を表すブロック図。 第2の実施の形態に係る音声対話装置2の構成を表すブロック図。 音声対話装置2の処理を表すフローチャート。 推定部25が、バージイン確率変動を推定する方法の説明図。 第3の実施形態に係る音声対話装置3の構成を表すブロック図。 音声対話装置3の処理を表すフローチャート。 推定部35が、バージイン確率変動を推定する方法の説明図。 第4の実施形態に係る音声対話装置4の構成を表すブロック図。 音声対話装置4の処理を表すフローチャート。
(第1の実施の形態)
第1の実施の形態に係る音声対話装置1は、ユーザとの音声対話により、ハンズフリーダイヤル装置や、カーナビゲーション装置等のシステム100を制御するものである。音声対話装置1は、バージイン機能を有する。本実施形態では、ハンズフリーダイヤル装置を例として説明する。
音声対話装置1は、応答音声の出力中にバージイン発声を受け付けるかどうかを、システム動作、出力する応答音声の内容を用いて判定する。音声対話装置1は、応答音声の出力中におけるバージイン発声の起こる確率の時間変化である「バージイン確率変動」を推定し、バージイン確率変動に基づいて、バージイン発声を受け付けるか否かを判定する。
これにより、バージイン発声が起こりにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
図1は、音声対話装置1の構成を表すブロック図である。音声対話装置1は、検出部11と、認識部12と、制御部13と、出力部14と、推定部15と、生成部16と、音声格納部51とを備える。音声対話装置1には、マイク61と、スピーカ62とが接続される。
検出部11は、マイク61に入力されたユーザの音声(音声信号)を検出する。認識部12は、検出された音声の音声認識を行なう。
制御部13は、音声認識の結果に基づき、システム動作を決定する。ここでいうシステム動作とは、次の対話時におけるシステム100の動作の設定全てを指す。例えば、システム動作には、ユーザに情報を通知することや、ユーザからの返答を要求するための応答音声の出力の方法や、その際にどのような音声を入力可能としておくか等ということが挙げられる。
制御部13が、システム動作を決定する方法には、例えば、ユーザとの対話の進捗状態を管理し、音声認識結果に基づいた状態遷移を行い、その状態に応じてシステム動作を決定する方法や、既定のルールに基づき、音声認識の結果からシステム動作を決定する方法等といった、公知の手法を用いてよい。
また、制御部13は、システム動作を決定する際、後述する推定部15が推定したバージイン確率変動に基づいて、バージイン発声の採用のしやすさ(採用するか否かの基準)を調整する。
例えば、認識部12が認識した音声認識結果の信頼度を求め(音声認識技術における公知の手法を用いてよい)、当該信頼度を基準としてよい。
出力部14は、応答音声を出力するための音声データを格納する音声格納部51から、決定されたシステム動作に応じた音声データから選択又は生成(公知の音声合成技術を用いてよい)し、当該音声データに対応する応答音声(音声信号)をスピーカ62に供給する。スピーカ62は、供給された応答音声を出力する。また、出力部14は、応答音声を推定部15に供給する。
推定部15は、供給された応答音声から、次のシステム100側の応答音声の出力中におけるバージイン確率変動を推定し、推定バージイン確率変動を制御部13に供給する。詳細は後述する。
図2は、音声対話装置1の処理を表すフローチャートである。音声対話装置1が起動されると、推定部15は、出力部14から出力される初期の応答音声から、応答音声の出力中におけるバージイン確率変動を推定する(S101)。
実際に推定部15が、応答音声に基づいて、どの期間にバージイン発声が起こりやすいと推定するかについては後述する。出力部14は、音声データの出力を開始し(S102)、認識部12は、音声認識を開始する(S103)。ステップS102とステップS103とは、逆の順序、又は同時に行ってもよい。
認識部12が音声認識を行なっている間、検出部11は、音声認識を開始してから認識結果が得られるまで、音声の検出を行なう。また、検出部11は、音声の検出を開始した時刻を記憶しておく(S104)。
認識部12が音声認識の結果を取得した場合(S105)、制御部13は、バージイン確率変動に基づいて、音声認識結果を採用するか否かを判定する(S106)。
すなわち、制御部13は、バージイン発声が起こりやすいと推定した時刻では、音声認識結果を採用しやすくする。制御部13は、バージイン発声が起こりにくいと推定されている時刻では、音声認識結果を採用しにくくする。
音声認識結果を採用しないと判定した場合(ステップS106においてNO)、ステップS103に遷移する。この際、認識部12は、スピーカ62から応答音声が出力中であっても、音声認識を再開する。
音声認識結果を採用すると判定した場合(ステップS106においてYES)、制御部13は、当該音声認識結果に基づき、次に行なうシステム動作を決定する(S107)。制御部13は、ユーザとの対話が完了したか否かを判定する(S108)。例えば、制御部13は、ユーザからの音声入力が一定時間行なわれていないか否かを判定することにより、ユーザとの対話が完了したか否かを判定してもよい。
ユーザとの対話が完了したと判定した場合(ステップS108においてYES)は、処理を終了する。
ユーザとの対話が完了していないと判定した場合(ステップS108においてNO)は、ステップS101に遷移する。
この後、ステップS102では、決定したシステム動作から次の応答音声が出力されるが、その時点まで前の応答音声が出力されている場合は、その出力は中断するのが望ましい。中断するタイミングは、検出部11が音声の検出を開始した時点(ステップS104)から、次の応答が出力される時点(ステップS102)までの期間であればいつでも構わない。
これにより、制御部13は、検出部11がユーザの音声の検出を開始した時刻におけるバージイン発声の起こりやすさによって、得られた認識結果を採用するかどうかを制御できる。
図3から図5は、推定部15が、バージイン確率変動を推定する方法の説明図である。
推定部15が応答音声文の音声データから、どの期間をバージイン発声の起こりやすい期間と推定するかについて説明する。
この例は、スピーカ62が応答音声を出力した後に「ピッ」という合図が鳴るようになっている。これにより音声対話装置1は、応答音声が終了したことをユーザに通知し、ユーザからの音声の返答を促す。
図3から図5において、応答音声の上に示すグラフが、推定部15が推定したバージイン確率変動の推定結果の例を表している。ラインの位置が点線(すなわち、バージイン確率が0)で示している位置より高いほど、バージイン発声が起こりやすいと推定したことを意味している。
図3の例は、特にシステム100に慣れていないユーザ(初心者)に効果的な例を示している。初心者はシステム100をどのように操作できるかが分からないため、基本的に応答音声の出力が終了するまで発声は行わないが、応答音声の出力が終了したと勘違いし、バージイン発声をする傾向があると考えられる。
図3(a)に示すバージイン確率変動は、応答音声の出力が終了する直前の期間でバージイン発声が起こりやすいと推定されたものである。図3(b)に示すバージイン確率変動は、応答音声の出力中において、ポーズが発生する期間でバージイン発声が起こりやすいと推定されたものである。
図4の例は、熟練者に対して有効なバージイン確率変動を表している。熟練者は、現在の対話の状態において次に何を言えば良いかを把握しているため、認識部12が認識した音声認識結果が正しいかどうか、応答音声の出力から判明した時点で、バージイン発声を行う傾向があると考えられる。
図4(a)に示すバージイン確率変動は、認識部12が、ユーザの発声を認識し、出力部14が、その結果を応答出力した(トークバックした)直後の期間にバージイン発声が起こりやすいと推定されたものである。
図4(b)に示すバージイン確率変動は、認識部12がユーザの発声を認識できず(リジェクト)、ユーザに対し再入力を要求していることをユーザに通知していると、ユーザが判断できる期間(例では「すみません」と応答した直後)にバージイン発声が起こりやすいと推定されたものである。
また、ユーザが発話する単語の発声候補を選択肢として出力している場合、その単語を出力している期間に合わせてバージイン発声をするユーザがいると考えられる。そこで、図4(c)に示すバージイン確率変動は、複数の発声候補(例では自宅、携帯、仕事)をユーザに提示している期間にバージイン発声が起こりやすいと推定されたものである。
以上の図3及び図4のバージイン確率変動を合わせると、図5に示すバージイン確率変動となる。
この例の場合、推定部15は、図5に示すバージイン確率変動を最終的に推定し、制御部13に供給してよい。
制御部13が、バージイン発声の音声認識結果の採用のしやすさを調整する方法としては、音声認識結果と同時に得られる信頼度スコアに対して閾値を設け、閾値以下である場合に音声認識結果を棄却するようにしておき、バージイン発声の起こりやすさによって閾値を変化させる方法が挙げられる。
なお、図3から図5では、バージイン確率変動は連続的に変動しているが、離散的な変動をしてもよい。同様に、バージイン発声の採用のしやすさも連続的、離散的などどのような変動の仕方をしてもよい。
また、本実施の形態では、推定部15は、応答音声に対して、バージイン確率変動を推定しているが、これに限られない。例えば、推定部15は、予め応答音声に関して、バージイン確率変動を対応付けたテーブル(不図示)を用いてよい。すなわち、推定部15は、応答音声に対応するバージイン確率変動をテーブル(不図示)から抽出して、制御部13に供給しても構わない。
(変形例1)
図2のフローチャートでは、応答出力や音声認識の開始の前に応答出力中のバージイン確率変動を推定していた。しかし、そのバージイン確率変動を利用するのは音声認識結果が得られた後(S106)であるため、音声認識結果が得られた後や、音声認識の起動中に、出力し始めた応答音声からバージイン確率変動を推定しても、制御部13は、バージイン確率変動からバージイン発声の採用のしやすさを調整することは可能である。
図6は本変形例の音声認識装置1の処理を表すフローチャートである。音声認識結果が得られた後、ステップS601でバージイン発声の起こりやすさの推定し、ステップS106で音声認識結果を採用するか判定する。
応答音声をバージイン確率変動に反映させる方法としては、出力する応答音声に対応するバージイン確率変動を別に作成しておき、応答音声と共に読み込む。また、トークバックとその後に続く応答を分けて出力している場合には、その間をバージイン発声が起こりやすいと推定すればよい。
また、応答音声を合成音等で出力し、応答音声をテキストで表現できる場合は、そのテキストにバージイン確率変動を付加させてよい。また、テキスト解析を用い句点や文末と検出された期間をバージイン発声が起こりやすいと推定してもよい。
バージイン発声を受け付けるかどうかを判定するためのプロセスで、図2のフローチャートでは認識部12が音声認識中に、検出部11が音声検出を開始した時刻を取得しておき、音声認識結果を取得後、音声検出の開始時刻と、バージイン確率変動とから判定していた。
しかし、バージイン確率変動を、応答音声を出力している間同期させておき、検出部11が、音声検出を開始した時点で、その時刻でのバージイン発声の起こりやすさからバージイン発声を受け付ける条件を決定し、認識部12が音声認識結果得た時点でその条件と照らし合わせる判定方法でも良い。
(変形例2)
スピーカ62からの応答音声の出力がマイク入力に回り込み、ユーザの入力発声と混入してしまう場合は、応答音声を用いて、入力信号からスピーカ62からの応答音声を除去するエコーキャンセル機能を用いてもよい。
図7が本実施形態の変形例2に係る音声対話装置10を示すブロック図である。音声対話装置10は、音声対話装置1に対して、エコーキャンセル部16をさらに備える。エコーキャンセル部16は、スピーカ62から出力される音声に基づいて、マイク61から入力された音声信号から当該音声を除去する。エコーキャンセル部16は、当該音声を除去した信号を検出部11に供給する。
エコーキャンセル部16は、図2のフローチャートにおけるステップS103からステップS105までの期間のうち、応答音声が出力されている期間または全ての期間において動作する。これにより、エコーキャンセル機能を搭載したバージイン機能付き音声対話装置が実現できる。
(変形例3)
本実施形態では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン確率変動から音声認識結果の採用のしやすさを調整しており、信頼度スコアや関連度の閾値を上下させることで実現できるとしていが、これに限られない。
この方法以外にも、例えば、バージイン確率変動に所定の閾値を設定し、制御部13は、閾値以上である期間に検出され始めた音声の認識結果は採用し、閾値以下である期間に検出され始めた音声の認識結果は採用しないようにしてよい。
以上のように、本実施形態によればバージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
(第2の実施の形態)
図8は、第2の実施形態に係る音声対話装置2を示すブロック図である。この第2の実施形態に係わるバージイン機能付き音声対話装置2は、音声対話装置1における推定部15が、推定部25に置き換わったものである。
本実施形態において、制御部13は、音声認識結果により次のシステム動作を決定した後、その情報を出力部14と共に推定部25に供給する点が、第1の実施の形態の場合と異なる。
出力部14は、出力する応答音声をバージイン推定部25には供給しない点が、第1の実施の形態の場合と異なる。
推定部25では、制御部13から供給された、次のシステム動作の情報からバージイン確率変動を推定し、当該バージイン確率変動を制御部13に送り返す。詳細については後述する。
図9は、音声対話装置2の処理を表すフローチャートである。ただし、ステップS102〜S108は第1の実施形態と同様であるため、詳細な説明は省略する。
ステップS201では、システム動作に応じてバージイン確率変動を推定する。図10は、推定部25が、バージイン確率変動を推定する方法の説明図である。
図10(a)に示すバージイン確率変動は、ユーザの発声がリジェクトとなった後の応答出力中全ての期間でバージイン発声を起こりやすいと推定されたものである。これは、リジェクトによりユーザがもう一度同じ内容を発声する際はバージイン発声をしたいと感じる傾向があると考えられるためである。
また、対話を開始した直後の初期のシステム動作では、システムは常に同じ応答音声を出力し、同様の要求をユーザに行っている。ユーザが熟練者である場合、対話の開始の合図を通知した時点で何を発声すればいいか分かってくるため、バージイン発声をしたいと感じる傾向があると考えられる。
そこで図10(b)に示すバージイン確率変動は、対話が開始された直後の応答が出力されている期間、常にバージイン発声が起こりやすいと推定されたものである。
このように、本実施形態では、ユーザがバージイン発声を行いやすいシステム動作、具体的にはリジェクト後や対話開始直後のシステム動作による応答出力の際にバージイン発声の音声認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
(第3の実施形態)
図11は、第3の実施形態に係る音声対話装置3の構成を表すブロック図である。音声対話装置3は、音声対話装置2における推定部25が、推定部35に置き換わったものである。
制御部13は、音声認識結果により次のシステム動作を決定した後、そのシステム動作をユーザがどれだけ習熟しているかを表す習熟度を推定し推定部35に供給する点が、第1の実施形態及び第2の実施形態と異なる。
出力部14は、第1の実施形態と同様であるが、出力する応答音声を推定部35に供給しない点が、第1の実施形態と異なる。
推定部35では、制御部13から送られてきた次のシステム動作に対するユーザの習熟度からバージイン確率変動を推定し、当該バージイン確率変動を制御部13に送り返す。
図12は、音声対話装置3の処理を表すフローチャートである。ただし、ステップS102〜S108は第1の実施形態と同様であるため、詳細な説明は省略する。
ステップS301において、推定部13は、次のシステム動作をどれだけユーザが習熟しているかによってバージイン確率変動を推定する。
ユーザが習熟しているシステム動作であるほど、そのときに何を発声すればいいかが分かっているためそのシステム動作による応答出力の際にバージイン発声が起こりやすいと考えられる。そこで制御部13は、次のシステム動作をどれだけユーザが習熟しているかを推定し、推定部35は、ユーザが習熟しているシステム動作であるほどバージイン発声を起こりやすいと推定する。
図13は、推定部35が、バージイン確率変動を推定する方法の説明図である。図13(a)の例では、ユーザはまだ初心者であり、システム動作をまだあまり習熟していないと推定部35が推定したためバージイン発声を受け付けにくくしている。しかし、図13(b)の例では、同じユーザでも何度もシステム100を利用することで熟練者となっており、その対話におけるシステム動作を習熟したと推定部35が推定したため、バージイン発声を受け付けやすくしている。このように、ユーザが習熟しバージイン発声を行いたいと意図するのに合わせて、バージイン発声の受け付けやすさを上げることができる。
本実施形態と第1の実施の形態を組み合わせることも可能である。その場合、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答音声の出力においてバージイン発声を受け付けやすくする方法としては、第1の実施の形態で得られたバージイン発声の採用のしやすさに、全ての期間に一律してバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。また、第1の実施の形態でバージイン発声が行われやすいと推定した期間のみに対して更にバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。
ユーザがシステム動作にどれだけ習熟しているかを表す習熟度を推定する方法としては、システム100の起動回数、ユーザに対してそのシステム動作をした回数から推定する方法が挙げられる。より正確に推定する場合は、対話履歴から得られる様々な情報を用い、決定木により推定する手法などが利用できる。
このように、本実施形態によれば、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答出力の際にバージイン発声の認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
(第4の実施形態)
図14は、第4の実施形態に係る音声対話装置4を表すブロック図である。本実施の形態において、検出部11は、推定部15から供給されるバージイン確率変動から、音声の始端の検出のしやすさを調整する点が、第1の実施の形態と異なる。
対話制御部13は、推定部15が推定した応答音声の出力中のバージイン確率変動から、その認識結果の採用のしやすさを調整する処理を行わない点が、第1の実施の形態と異なる。
推定部15は、推定したバージイン確率変動を検出部11に供給する点が、第1の実施の形態と異なる。
図15は、音声対話装置4の処理を表すフローチャートである。ただし、ステップS101〜S103、S105、S107、S108は第1の実施の形態と同様であるため、詳細な説明は省略する。
ステップS404では、ステップS101で推定部15が推定したバージイン確率変動を用い、検出部11でバージイン発声の始端の検出のしやすさを調整しながら音声認識を行う。バージイン発声が起こりやすい期間ほど音声の始端を検出しやすくし、バージイン発声が起こりにくい期間ほど音声の始端を検出しにくくするよう制御する。一度音声が検出された後は誤ってユーザの発声の検出を中止してしまうことを防ぐため、発声が終了したと検出部11が判断するまでは、始端を検出した際の検出のしやすさを維持したり、検出のしやすさをあらかじめ決めておいた検出のしやすさに固定をしたりすることで、ある程度音声を検出する状態で音声認識を継続する。
音声の始端の検出のしやすさを調整する方法としては、音声区間を検出する装置のパラメータ、特に音量や人間の声らしさの閾値を調整する、などが挙げられる。また第1の実施の形態と同様、調整の変動の仕方、バージイン発声の起こりやすさからの変換の仕方などについては連続的、離散的などどのような変動、変換をしてもよい。
ステップS404でバージイン発声が起こりにくい区間ではバージイン発声の始端を検出しにくくなっているため、ステップS105で認識結果が得られた後に認識結果を採用するかどうかの判定をする必要なくステップS107に遷移し、次の対話の動作を決定することができる。
このように、本実施形態によれば、出力する応答音声から応答出力中のバージイン発声の起こりやすさを推定し、バージイン発声が起こりやすいと推定された期間ほど音声の始端を検出しやすくなっているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。
(変形例)
音声対話装置4では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン発声の起こりやすさの変動の情報から音声始端の検出のしやすさを調整しており、音声を検出する装置のパラメータを調整することで実現できるとしていた。
この方法以外にも、バージイン発声の起こりやすさに閾値を設け、閾値以上である期間、検出部11は動作する。または、音声検出装置のパラメータを音声の検出を行なうように設定する。そして、音声の始端が検出された場合は、発声が終了したと検出部11が判断するまで検出部11の動作、または音声検出装置のパラメータを音声の検出を行なう設定とし、音声の検出を継続する。音声の検出を行っておらずバージイン発声の起こりやすさが閾値以下である期間は検出部11を動作しない。または、音声検出装置のパラメータを音声の検出を行わないように設定する方法がある。
上述した実施形態により、ユーザからのバージイン発声を精度よく認識することができる。
これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1、2、3、4 音声対話装置
11 検出部
12 認識部
13 制御部
14 出力部
15、25、35 推定部
16 エコーキャンセル部
51 音声格納部
61マイク
62スピーカ
100 システム

Claims (7)

  1. ユーザの音声を検出する検出部と、
    検出した前記音声を認識する認識部と、
    前記音声の認識結果に対応した応答音声を出力する出力部と
    前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する制御部とを備える
    音声対話装置。
  2. 前記制御部は、前記バージイン確率変動における確率が高い程、前記バージイン発声の前記音声認識結果を採用する基準を下げる
    請求項1記載の音声対話装置。
  3. 前記バージイン確率変動を推定する推定部をさらに備え、
    前記制御部は、
    推定された前記バージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する
    請求項1記載の音声対話装置。
  4. 前記バージイン発声を採用する場合、
    前記制御部は、
    前記バージイン発声に応じた応答音声を出力するよう、前記出力部を制御する
    請求項1記載の音声対話装置。
  5. 前記制御部は、前記バージイン確率変動に基づいて、前記検出部の前記音声の検出の精度を変更する、
    請求項2記載の音声対話装置。
  6. ユーザの音声を検出し、
    検出した前記音声を認識し、
    前記音声の認識結果に対応した応答音声を出力し、
    前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する
    音声対話方法。
  7. コンピュータを、
    ユーザの音声を検出する手段と、
    検出した前記音声を認識する手段と、
    前記音声の認識結果に対応した応答音声を出力する手段と、
    前記ユーザからのバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する手段として機能させる音声対話プログラム。
JP2010217487A 2010-09-28 2010-09-28 音声対話装置、方法、プログラム Active JP5431282B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010217487A JP5431282B2 (ja) 2010-09-28 2010-09-28 音声対話装置、方法、プログラム
US13/051,144 US20120078622A1 (en) 2010-09-28 2011-03-18 Spoken dialogue apparatus, spoken dialogue method and computer program product for spoken dialogue

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010217487A JP5431282B2 (ja) 2010-09-28 2010-09-28 音声対話装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2012073364A true JP2012073364A (ja) 2012-04-12
JP5431282B2 JP5431282B2 (ja) 2014-03-05

Family

ID=45871521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010217487A Active JP5431282B2 (ja) 2010-09-28 2010-09-28 音声対話装置、方法、プログラム

Country Status (2)

Country Link
US (1) US20120078622A1 (ja)
JP (1) JP5431282B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016061888A (ja) * 2014-09-17 2016-04-25 株式会社デンソー 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
JP2018124484A (ja) * 2017-02-02 2018-08-09 トヨタ自動車株式会社 音声認識装置
JP2019132997A (ja) * 2018-01-31 2019-08-08 日本電信電話株式会社 音声処理装置、方法およびプログラム
WO2020195022A1 (ja) * 2019-03-26 2020-10-01 株式会社Nttドコモ 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191212A (ja) * 2013-03-27 2014-10-06 Seiko Epson Corp 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
US20200058319A1 (en) * 2017-05-11 2020-02-20 Sharp Kabushiki Kaisha Information processing device, electronic apparatus, control method, and storage medium
JP6969491B2 (ja) * 2018-05-11 2021-11-24 トヨタ自動車株式会社 音声対話システム、音声対話方法及びプログラム
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086590A (ja) * 1994-06-16 1996-01-12 Kokusai Denshin Denwa Co Ltd <Kdd> 音声対話のための音声認識方法及び装置
JPH10240284A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音声検出方法及び装置
JPH11298382A (ja) * 1998-04-10 1999-10-29 Kobe Steel Ltd ハンズフリー装置
JP2001331196A (ja) * 2000-05-22 2001-11-30 Nec Corp 音声応答装置
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2006337942A (ja) * 2005-06-06 2006-12-14 Nissan Motor Co Ltd 音声対話装置及び割り込み発話制御方法
WO2009047871A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US7069213B2 (en) * 2001-11-09 2006-06-27 Netbytel, Inc. Influencing a voice recognition matching operation with user barge-in time
DE10158583A1 (de) * 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US7019749B2 (en) * 2001-12-28 2006-03-28 Microsoft Corporation Conversational interface agent
US7246062B2 (en) * 2002-04-08 2007-07-17 Sbc Technology Resources, Inc. Method and system for voice recognition menu navigation with error prevention and recovery
EP1378886A1 (en) * 2002-07-02 2004-01-07 Ubicall Communications en abrégé "UbiCall" S.A. Speech recognition device
JP3984526B2 (ja) * 2002-10-21 2007-10-03 富士通株式会社 音声対話システム及び方法
CN1842787B (zh) * 2004-10-08 2011-12-07 松下电器产业株式会社 对话支援装置
US7809569B2 (en) * 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
JP4197344B2 (ja) * 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
DE602006002132D1 (de) * 2006-12-14 2008-09-18 Harman Becker Automotive Sys beitung
US8001469B2 (en) * 2007-11-07 2011-08-16 Robert Bosch Gmbh Automatic generation of interactive systems from a formalized description language
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
US8166297B2 (en) * 2008-07-02 2012-04-24 Veritrix, Inc. Systems and methods for controlling access to encrypted data stored on a mobile device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086590A (ja) * 1994-06-16 1996-01-12 Kokusai Denshin Denwa Co Ltd <Kdd> 音声対話のための音声認識方法及び装置
JPH10240284A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音声検出方法及び装置
JPH11298382A (ja) * 1998-04-10 1999-10-29 Kobe Steel Ltd ハンズフリー装置
JP2001331196A (ja) * 2000-05-22 2001-11-30 Nec Corp 音声応答装置
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2006337942A (ja) * 2005-06-06 2006-12-14 Nissan Motor Co Ltd 音声対話装置及び割り込み発話制御方法
WO2009047871A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016061888A (ja) * 2014-09-17 2016-04-25 株式会社デンソー 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
JP2018124484A (ja) * 2017-02-02 2018-08-09 トヨタ自動車株式会社 音声認識装置
JP2019132997A (ja) * 2018-01-31 2019-08-08 日本電信電話株式会社 音声処理装置、方法およびプログラム
WO2020195022A1 (ja) * 2019-03-26 2020-10-01 株式会社Nttドコモ 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム

Also Published As

Publication number Publication date
US20120078622A1 (en) 2012-03-29
JP5431282B2 (ja) 2014-03-05

Similar Documents

Publication Publication Date Title
JP5431282B2 (ja) 音声対話装置、方法、プログラム
US11776540B2 (en) Voice control of remote device
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US10074371B1 (en) Voice control of remote device by disabling wakeword detection
US10593328B1 (en) Voice control of remote device
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
US8428944B2 (en) System and method for performing compensated speech recognition
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
EP1678706A1 (en) System and method enabling acoustic barge-in
WO2010084881A1 (ja) 音声対話装置、対話制御方法及び対話制御プログラム
JP2018049132A (ja) 音声対話システムおよび音声対話方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP2018132624A (ja) 音声対話装置
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
KR102197387B1 (ko) 자연어 대화체 음성 인식 방법 및 장치
JP2018021953A (ja) 音声対話装置および音声対話方法
JP2018155980A (ja) 対話装置および対話方法
JP2009025579A (ja) 音声認識装置および音声認識方法
JP2019191477A (ja) 音声認識装置及び音声認識方法
JP2019002997A (ja) 音声認識装置および音声認識方法
JP2017201348A (ja) 音声対話装置、音声対話装置の制御方法、および制御プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130819

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131204

R151 Written notification of patent or utility model registration

Ref document number: 5431282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350