JP6748565B2 - 音声対話システム及び音声対話方法 - Google Patents

音声対話システム及び音声対話方法 Download PDF

Info

Publication number
JP6748565B2
JP6748565B2 JP2016233103A JP2016233103A JP6748565B2 JP 6748565 B2 JP6748565 B2 JP 6748565B2 JP 2016233103 A JP2016233103 A JP 2016233103A JP 2016233103 A JP2016233103 A JP 2016233103A JP 6748565 B2 JP6748565 B2 JP 6748565B2
Authority
JP
Japan
Prior art keywords
voice
output
unit
similarity
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016233103A
Other languages
English (en)
Other versions
JP2018091911A (ja
Inventor
康貴 田中
康貴 田中
美智子 小川
美智子 小川
西蔵 羽山
西蔵 羽山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOHGO SECURITY SERVICES CO.,LTD.
Original Assignee
SOHGO SECURITY SERVICES CO.,LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOHGO SECURITY SERVICES CO.,LTD. filed Critical SOHGO SECURITY SERVICES CO.,LTD.
Priority to JP2016233103A priority Critical patent/JP6748565B2/ja
Publication of JP2018091911A publication Critical patent/JP2018091911A/ja
Application granted granted Critical
Publication of JP6748565B2 publication Critical patent/JP6748565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)

Description

この発明は、音声の入力を受け付け、受け付けた音声に応じて音声の出力を行う音声対話システム及び音声対話方法に関する。
従来、ユーザの音声を認識し、認識の結果に対応した内容の音声を出力することでユーザとの音声対話を行う音声対話システムが知られている。かかる音声対話システムは、通信回線を介した自動応答や、携帯端末上でのユーザ支援などに用いることができる他、ロボットへの搭載も可能である。音声対話システムを搭載したロボットは、会話をユーザとのインタフェースとして利用可能であり、警備、店舗スタッフの補助、個人の生活支援やエンターテインメントなど、多様なシチュエーションにおいて運用することができる。
ここで、ユーザとの音声対話を行う場合には、出力音声と入力音声の分離が重要となる。システム側からの出力音声が入力音声に含まれると、自システムの出力音声をユーザの音声と誤認識するという問題が生じるためである。そこで、システム側が音声を出力する発話モードとユーザ音声を認識する音声認識モードとを切り替えることで、自システムの出力音声による誤認識を防ぐことが行われている。
発話モードと音声認識モードとを切り替える構成では、システム側の発話モード中にユーザが発言をしてもその発言は認識されない。そのため、ユーザはシステム側からの音声の出力が完了するのを待って発言することになる。しかし、ユーザが音声対話システムに不慣れである場合等には、システム側からの音声の出力中に発言を行うことがある。
そこで、特許文献1は、発話中にもユーザの音声を認識する音声認識装置を備えたロボットを開示している。特許文献1が開示する音声認識装置は、音声の出力開始から所定時間後にユーザの音声認識を開始するとともに、マイクで集音した音声から自装置の出力音声相当分を相関演算により除去する出力音声除去部を設けることで、音声の出力を音声の認識を並行して行っている。
特開2007−155986号公報
しかしながら、上記特許文献1に代表される従来の技術を用いたとしても、ユーザとの対話を円滑に行うことは困難であった。上記特許文献1のように、出力音声相当分を相関演算により除去するよう構成しても、音の反射環境、ノイズ状況、ひずみなどの要因によって出力音声の除去を完全に行うことはできず、誤認識を充分に防ぐことはできないのである。
また、音声の出力と音声の認識を並行して行った場合には、ユーザは自身の発言がシステム側で認識されているかを把握できず、発言を続けるべきか、システム側からの音声の出力の完了を待つべきかを判断することができない。特に、対話が高度化し、システム側から出力される音声が長くなると、システム側からの音声の出力が完了するまでユーザに待機させることは、円滑な対話を大きく損なうこととなる。
これらのことから、ユーザとの円滑な音声対話をいかにして実現するかが重要な課題となっていた。かかる課題は、マイクとスピーカを離して設置することが困難なロボットに音声対話システムを搭載するケースで顕著となるが、通信回線を介した自動応答や携帯端末上でのユーザ支援などに音声対話システムを用いる場合にも同様に生ずる。
本発明は、上記の従来技術の課題を解決するためになされたものであって、ユーザと円滑な音声対話を行う音声対話システム及び音声対話方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムであって、前記出力処理部により出力される出力音声を自己音声として登録する登録部と、前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出部と、前記類似度算出部により算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御部とを備え、前記登録部は、前記自己音声以外の所定の音声を他者音声としてさらに登録し、前記動作制御部は、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定することを特徴とする。
また、本発明は、上記に記載の発明において、前記入力受付部により受け付けた入力音声に対して音声認識を行う音声認識部をさらに備え、前記出力処理部は、前記音声認識部による音声認識の結果に応じて出力する音声の内容を決定し、前記動作制御部は、前記音声認識部による音声認識を行う音声認識モードと、前記出力処理部による音声の出力を行う発話モードとを切り替える制御を行うことを特徴とする。
また、本発明は、上記に記載の発明において、前記動作制御部は、前記出力処理部による音声の出力が完了するか、前記類似度に基づいて前記音声の出力を停止した場合に前記発話モードから前記音声認識モードに切り替えることを特徴とする。
また、本発明は、上記に記載の発明において、前記出力処理部は、前記類似度に基づいて前記音声の出力を停止する場合に、音声の出力の停止に対応する特定の音声を出力した上で音声の出力を停止することを特徴とする。
また、本発明は、上記に記載の発明において、前記登録部は、前記出力音声の周波数に係る特徴を分析して生成した特徴データを前記自己音声として登録し、前記類似度算出部は、前記入力音声の周波数に係る特徴を分析して生成した特徴データと前記自己音声として登録した特徴データとの類似度を算出することを特徴とする。
また、本発明は、上記に記載の発明において、前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、前記登録部は、前記アクチュエータの動作によって生じる音を前記他者音声として登録することを特徴とする。
また、本発明は、上記に記載の発明において、前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、前記登録部は、前記アクチュエータの動作によって生じる音と前記出力処理部により出力される出力音声とが合成された音声を自己音声として登録することを特徴とする。
また、本発明は、音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムの音声対話方法であって、前記出力処理部により出力される出力音声を自己音声として登録する登録ステップと、前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御ステップとを含み、前記登録ステップは、前記自己音声以外の所定の音声を他者音声としてさらに登録し、前記動作制御ステップは、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定することを特徴とする。
本発明によれば、ユーザと円滑な音声対話を行うことができる。
図1は、本実施例1に係る音声対話システムの概念の説明図である。 図2は、図1に示した音声対話ロボットの構成を示す構成図である。 図3は、ユーザの発話による類似度の低下についての説明図である。 図4は、自己音声特徴データの登録処理の処理手順を示すフローチャートである。 図5は、音声認識モードの処理手順を示すフローチャートである。 図6は、発話モードの処理手順を示すフローチャートである。 図7は、本実施例2に係る音声対話ロボットの動作についての説明図である。 図8は、図7に示した音声対話ロボットの構成を示す構成図である。 図9は、本実施例2における発話モードの処理手順を示すフローチャートである。
以下に、添付図面を参照して、本発明に係る音声対話システム及び音声対話方法の好適な実施例を詳細に説明する。
まず、本実施例1に係る音声対話システムの概念について説明する。図1は、本実施例1に係る音声対話システムの概念の説明図である。本実施例1では、音声対話システムを搭載したロボットである音声対話ロボット10が、ユーザの音声を認識し、認識の結果に対応した内容の音声を出力することでユーザとの音声対話を行う。
音声対話ロボット10は、後述するようにスピーカ11とマイク12を備えており、スピーカ11から音声の出力を行う発話モードと、ユーザの音声をマイク12により集音して音声認識する音声認識モードとを切り替えて動作する。
発話モードにおいては、音声対話ロボット10は、スピーカ11から音声の出力を行い、音声の出力が完了した場合に発話モードを終了して音声認識モードに移行する。音声対話ロボット10は、発話モードではユーザの音声認識は行わないが、マイク12により集音を行い、事前に登録した自装置の音声の特徴データとの類似度を算出する。
音声対話ロボット10が音声を出力し、ユーザが発話していない状態では、マイク12は音声対話ロボット10の音声を集音することになり、事前に登録した自装置の音声の特徴データとの類似度は高い値となる。
一方、音声対話ロボット10による音声の出力中にユーザが発話を行うと、マイク12が集音する音声は、音声対話ロボット10の音声とユーザの音声とが混じった合成音声となるので、事前に登録した自装置の音声の特徴データとの類似度が低下する。
音声対話ロボット10は、音声の出力の完了前に類似度が閾値以下となった場合には、ユーザの発話を検知したとして、音声の出力を途中で停止し、発話モードを終了する。すなわち、この場合には、発話モードは中断により終了して音声認識モードに移行することになる。
このように、音声対話ロボット10は、スピーカ11により出力される自装置の音声の特徴データを事前に登録し、発話モードにおける音声の出力中にマイク12により集音した音声と自装置の音声の特徴データとの類似度を算出し、類似度が閾値以下となった場合には発話モードを中断して音声認識モードに移行する。このため、ユーザが発話した場合には、速やかに音声認識モードに移行してユーザの音声を認識することができ、円滑な音声対話を行うことができる。
また、音声認識モードでは自装置の音声を集音することがないため、自装置の音声による誤認識を防止することができる。さらに、ユーザは自身の発言が音声対話ロボット10により認識されていることを把握できるため、ストレス無く発言を行うことができる。音声対話ロボット10からの音声の出力と、ユーザの発話とが同時に行われると、ユーザにとって自身の発言が音声対話ロボット10に認識されているか否かがが不明確となるが、音声対話ロボット10が音声の出力を中断すればユーザの発話を認識する状態に移行したとユーザが認識するからである。
次に、図1に示した音声対話ロボット10の構成について説明する。図2は、図1に示した音声対話ロボット10の構成を示す構成図である。図2に示すように、音声対話ロボット10は、スピーカ11、マイク12、操作部13、アクチュエータ14、記憶部15及び制御部16を有する。
スピーカ11は、音声対話ロボット10による音声の出力に用いられる。マイク12は、周囲の音を集音することで、ユーザの音声の入力を受け付ける入力受付部として機能する。操作部13は、ボタン等により操作入力の受付を行う。なお、ボタンの操作入力に限らず、タブレットなどからの遠隔操作や、ジェスチャーの認識による操作受付を可能としてもよい。
アクチュエータ14は、音声対話ロボット10に物理的な動作を行わせるために用いられる。具体的には、音声対話ロボット10の腕や首に相当する部材の動作、表情を示す部材の動作がアクチュエータ14の駆動により制御される。ここでは、人型や動物型のロボットを想定しているが、音声対話ロボット10の形状は任意に設計可能であり、アクチュエータ14は、音声対話ロボット10の物理的な動作に広く用いることができる。
記憶部15は、ハードディスク装置や不揮発性メモリ等からなる記憶デバイスである。記憶部15は、スピーカ11により出力される自装置の音声の特徴データを自己音声特徴データ15aとして記憶する。
制御部16は、音声対話ロボット10の全体を制御する制御部であり、音声認識部16a、発話処理部16b、音声登録部16c、類似度算出部16d、類似度判定部16e、状態遷移部16f及びアクチュエータ駆動処理部16gを有する。
音声認識部16aは、音声認識モードにおいてユーザの音声を認識する処理を行う処理部である。具体的には、マイク12が集音した入力音声からユーザの音声を抽出して分析し、ユーザによる発話の内容を特定する。
発話処理部16bは、発話モードにおいて音声の出力を行う出力処理部である。具体的には、音声認識部16aによりユーザの発話の内容が特定された場合に、特定された発話の内容に対して適切な応答の内容を決定し、決定した内容の出力音声をスピーカ11から出力する。また、ユーザによる発話が行われていない状態で、特定の内容の出力音声をスピーカ11から出力することも可能である。
音声登録部16cは、スピーカ11から出力される自装置の音声、すなわち出力音声の特徴データを自己音声特徴データ15aとして記憶部15に格納する処理を行う。特徴データは、例えば出力音声を周波数分析してその特徴を示すデータを生成することで得られる。具体的には、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
類似度算出部16dは、発話モードにおいてマイク12が集音した入力音声と自己音声特徴データ15aとの類似度を算出する処理部である。具体的には、音声登録部16cが出力音声から自己音声特徴データ15aを生成する際と同様の処理を入力音声に対して行うことで入力音声の特徴データを生成し、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出することになる。
ここで、類似度算出部16dは、マイク12が集音した入力音声に対して周波数フィルタを施すことで、音声以外の音の影響を低減し、音声部分を抽出した上で、入力音声の特徴データを生成する。また、入力音声の特徴データの生成時には、入力音声から所定時間の部分音声を音声フレームとして複数切り出し、音声フレームごとに特徴データを生成する。従って、自己音声特徴データ15aとの類似度についても、複数の音声フレームについてそれぞれ算出される。
類似度判定部16eは、類似度算出部16dにより算出された類似度が閾値以下であるか否かを判定する処理を行う。類似度判定部16eは、類似度が閾値以下となる音声フレームが一定数連続した場合に、ユーザの発話を検知したものとする。1つの音声フレームの長さと、ユーザの発話を検知するための音声フレームの数とを調整することで、突発的なノイズを除去し、適切にユーザの発話を検知することが可能である。
状態遷移部16fは、発話モードと音声認識モードの切り替えを制御する動作制御部である。具体的には、状態遷移部16fは、発話モードにおいて、発話処理部16bが決定した内容の出力音声の出力が完了するか、ユーザの発話が検知された場合に、発話モードを終了して音声認識モードに移行させる。
ユーザの発話により発話モードを終了する場合には、発話処理部16bが決定した内容の出力音声の出力を途中で停止させて発話モードを終了する。なお、発話処理部16bが決定した内容の出力音声の出力を途中で停止した後、特定の音声を出力させた上で発話モードを終了しても良い。この特定の音声には、例えば「どうされましたか?」などのように、音声対話ロボット10がユーザの音声を認識する状態に移行することをユーザに伝え、ユーザの発話を促す内容の音声を用いる。
また、状態遷移部16fは、音声認識モードにおいて、ユーザの発話の終了を検知した場合に、音声認識モードを終了して発話モードに移行させる。ユーザの発話の終了は、例えば「無音の状態が所定時間連続した」などの条件により検知すればよい。
アクチュエータ駆動処理部16gは、アクチュエータ14の駆動を制御する処理部である。アクチュエータ14は、例えば音声対話ロボット10の発話の内容などに合わせて駆動される。かかるアクチュエータ14の制御により、発話時の身振りや表情の変化を摸した動作を行わせることができる。この他、ユーザの発話に対する相槌や、音声対話ロボット10の移動にもアクチュエータ14の駆動制御を用いることができる。
図3は、ユーザの発話による類似度の低下についての説明図である。図3に示すように、音声対話ロボット10が発話している区間では、音声対話ロボット10の出力音声が入力音声に含まれ、ユーザが発話している区間では、ユーザの音声が入力音声に含まれる。このため、音声対話ロボット10の発話区間とユーザの発話区間が重複する区間では、出力音声とユーザの音声の双方が入力音声に含まれることになる。
従って、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出すると、音声対話ロボット10のみが発話している区間では類似度は閾値を超えた値となるが、ユーザが発話している区間では、類似度が低下して閾値以下となる。
次に、音声対話ロボット10の処理手順について説明する。図4は、自己音声特徴データ15aの登録処理の処理手順を示すフローチャートである。まず、音声登録部16cは、操作部13への操作入力などにより、登録モードを開始する(ステップS101)。
登録モードの開始後、音声登録部16cは、登録対象の音声を取得する(ステップS102)。この登録対象の音声の取得は、例えばスピーカ11から音声の出力を行い、マイク12により集音することで行う。また、予め他の装置で取得された音声データを受け付けても良い。
スピーカ11から音声の出力を行ってスピーカ11により集音する場合には、ノイズの少ない環境で行うことが望ましい。若しくは、音声対話ロボット10を運用する実環境で登録対象の音声の取得を行ってもよい。さらに、アクチュエータ14を動作させつつ登録対象の音声の取得を行えば、アクチュエータ14の駆動音と出力音とが合成された音声を登録することができる。
音声登録部16cは、取得した音声の特徴データを算出し(ステップS103)、自己音声特徴データ15aとして記憶部15に登録して(ステップS104)、登録モードを終了する(ステップS105)。
図5は、音声認識モードの処理手順を示すフローチャートである。まず、状態遷移部16fにより音声認識モードが開始されると(ステップS201)、音声認識部16aは、マイク12が集音した音を入力音声として取得する(ステップS202)。その後、状態遷移部16fは、ユーザの発話が終了したか否かを判定する(ステップS203)。ユーザの発話の終了は、例えば「無音の状態が所定時間連続した」などの条件により検知すればよい。
ユーザの発話が終了していなければ(ステップS203;No)、音声認識部16aは、ステップS202に移行し、入力音声の取得を継続する。一方、ユーザの発話が終了したならば(ステップS203;Yes)、音声認識部16aは、取得した入力音声に対して音声認識処理を行う(ステップS204)。この音声認識処理により、ユーザによる発話の内容が特定される。発話処理部16bは、特定されたユーザの発話の内容に対して適切な応答の内容を決定する(ステップS205)。
その後、音声認識部16aは音声認識モードを終了し(ステップS206)、状態遷移部16fは音声認識モードから発話モードへの移行を行う(ステップS207)。
図6は、発話モードの処理手順を示すフローチャートである。まず、状態遷移部16fにより発話モードが開始されると(ステップS301)、発話処理部16bは、スピーカ11からの音声の出力を行う(ステップS302)。スピーカ11から出力する音声の内容は、ユーザの発話の内容に応じて決定される。若しくは、ユーザによる発話が行われていない状態での出力用に予め用意した特定の内容を用いることもできる。
また、類似度算出部16dは、マイク12が集音した音を入力音声として取得し(ステップS303)、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出する(ステップS304)。
類似度判定部16eは、類似度算出部16dにより算出された類似度が閾値以下であるか否かを判定する(ステップS305)。その結果、類似度が閾値以下である場合(ステップS306;Yes)、より詳細には、類似度が閾値以下となる音声フレームが一定数連続した場合、状態遷移部16fは、発話処理部16bが決定した内容の出力音声の出力を途中で停止させる(ステップS310)。停止後に、発話を途中で停止したことに対応する特定の音声を出力させてもよい。
類似度が閾値以下でない場合(ステップS306;No)、より詳細には、類似度が閾値以下となる音声フレームの一定数の連続が生じていない場合、発話処理部16bは、音声の出力を完了したか否かを判定する(ステップS307)。その結果、音声の出力が完了していなければ(ステップS307;No)、ステップS302に移行し、音声の出力を継続する。
音声の出力が完了した場合(ステップS307;Yes)、若しくはステップS310で音声の出力を途中で停止した場合、発話処理部16bは発話モードを終了し(ステップS308)、状態遷移部16fは発話モードから音声認識モードへの移行を行って(ステップS309)、処理を終了する。
上述してきたように、本実施例1に係る音声対話ロボット10は、自装置がスピーカ11から出力する音声の特徴を示す自己音声特徴データ15aを記憶部15に登録し、発話モードにおける音声の出力中にマイク12により集音した入力音声の特徴データと自己音声特徴データ15aとの類似度を算出し、類似度が閾値以下となった場合には発話モードを中断して音声認識モードに移行する。このため、ユーザが発話した場合には、速やかに音声認識モードに移行してユーザの音声を認識することができ、円滑な音声対話を行うことができる。
また、音声認識モードでは自装置の音声を集音することがないため、自装置の音声による誤認識を防止することができる。さらに、ユーザは自身の発言が音声対話ロボット10により認識されていることを把握できるため、ストレス無く発言を行うことができる。
実施例1では、自装置がスピーカ11から出力する音声の特徴を示す自己音声特徴データ15aを記憶部15に登録し、自己音声特徴データ15aを用いて発話の中断に係る制御を行う構成について説明を行ったが、自装置がスピーカ11から出力する音声以外の音声をさらに登録して発話の中断に係る制御を行ってもよい。
例えば、音声対話ロボット10がユーザとの対話を行っている場合に、館内放送や背景音楽(BGM:background music)がマイク12により集音されると、館内放送や背景音楽により類似度の低下が生じ、ユーザが発話したと誤認識して音声の出力を中断する可能性がある。
そこで、本実施例2では、発生が予測される音声を除外対象として予め登録しておき、類似度の低下が除外対象により生じている場合には音声の出力を継続する構成について説明を行う。
図7は、本実施例2に係る音声対話ロボット110の動作についての説明図である。図7に示す音声対話ロボット110は、自己音声特徴データ15aに加え、除外対象とするべき音声の特徴を除外対象音声特徴データとして登録している。
音声対話ロボット110は、発話モードで音声を出力中に、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出し、類似度の比較により他者(ユーザ又は除外対象)の発話を検知する。
他者の発話を検知したならば、音声対話ロボット110は、入力音声の特徴データと除外対象音声特徴データとの類似度を算出し、除外対象に該当するか否かを判定する。その結果、除外対象に該当する場合には、音声の出力を停止せず、発話モードを継続する。一方、場外対象に該当する場合には、音声の出力を停止し、発話モードを中断して音声認識モードに移行する。
次に、図8を参照し、図7に示した音声対話ロボット110の構成について説明する。図8は、図7に示した音声対話ロボット110の構成を示す構成図である。図8に示すように、音声対話ロボット110は、記憶部15に除外対象音声特徴データ15bをさらに記憶する。また、制御部16における音声登録部116c、類似度算出部116d、類似度判定部116e、状態遷移部116fの動作が図2に示した音声対話ロボット10と異なる。その他の構成及び動作は図2に示した音声対話ロボット10と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
除外対象音声特徴データ15bは、除外対象とするべき音声の特徴を示すデータである。例えば、館内放送や背景音楽を除外対象音声特徴データ15bとして登録することができる。また、特定の人物の音声を登録することも可能である。
音声登録部116cは、自己音声特徴データ15aの登録処理に加え、除外対象音声特徴データ15bの登録処理を行う。具体的には、登録モードの開始時などに、自己音声特徴データ15aを登録するか除外対象音声特徴データ15bを登録するかを選択する操作を受け付けて登録を行えばよい。
類似度算出部116dは、入力音声と自己音声特徴データ15aとの類似度の算出に加え、入力音声と除外対象音声特徴データ15bとの類似度の算出を行う。類似度の算出に係る処理については、実施例1と同様であるが、除外対象音声特徴データ15bが複数登録されている場合には、それぞれの除外対象音声特徴データ15bについて類似度を算出する。
類似度判定部116eは、入力音声の特徴データと自己音声特徴データ15aとの類似度と閾値との比較に加え、入力音声の特徴データと除外対象音声特徴データ15bとの類似度と閾値との比較を行う。入力音声の特徴データと自己音声特徴データ15aとの類似度と閾値との比較は、他者の音声の検知に用いられる。入力音声の特徴データと除外対象音声特徴データ15bとの類似度と閾値との比較は、検知した他者の音声が除外対象であるか否かを識別するために用いる。これらの閾値は同一の値ではなく、それぞれ適切に設定する。
状態遷移部116fは、発話モードにおいて、他者の音声を検知し、検知した他者の音声が除外対象に該当しない場合に発話モードを中断するが、検知した他者の音声が除外対象である場合には発話モードを継続する。なお、音声の出力が完了した場合の発話モードの終了と、音声認識モードの終了については実施例1と同様である。
図9は、本実施例2における発話モードの処理手順を示すフローチャートである。まず、状態遷移部116fにより発話モードが開始されると(ステップS401)、発話処理部16bは、スピーカ11からの音声の出力を行う(ステップS402)。スピーカ11から出力する音声の内容は、ユーザの発話の内容に応じて決定される。若しくは、ユーザによる発話が行われていない状態での出力用に予め用意した特定の内容を用いることもできる。
また、類似度算出部116dは、マイク12が集音した音を入力音声として取得し(ステップS403)、入力音声の特徴データと自己音声特徴データ15aとの類似度を算出する(ステップS404)。
類似度判定部116eは、類似度算出部116dにより算出された類似度が閾値以下であるか否かを判定する(ステップS405)。その結果、類似度が閾値以下である場合(ステップS406;Yes)、より詳細には、類似度が閾値以下となる音声フレームが一定数連続した場合、類似度算出部116dは、入力音声の特徴データと除外対象音声特徴データ15bとの類似度を算出する(ステップS410)。
入力音声の特徴データと除外対象音声特徴データ15bとの類似度が閾値未満であれば、除外対象ではないとして(ステップS411;No)、状態遷移部116fは、発話処理部16bが決定した内容の出力音声の出力を途中で停止させる(ステップS412)。停止後に、発話を途中で停止したことに対応する特定の音声を出力させてもよい。
自己音声特徴データとの類似度が閾値以下でない場合(ステップS406;No)、もしくは、自己音声特徴データとの類似度が閾値以下でかつ除外対象音声特徴データ15bとの類似度が閾値以上である場合(ステップS411;Yes)、発話処理部16bは、音声の出力を完了したか否かを判定する(ステップS407)。その結果、音声の出力が完了していなければ(ステップS407;No)、ステップS402に移行し、音声の出力を継続する。
音声の出力が完了した場合(ステップS407;Yes)、若しくはステップS412で音声の出力を途中で停止した場合、発話処理部16bは発話モードを終了し(ステップS408)、状態遷移部116fは発話モードから音声認識モードへの移行を行って(ステップS409)、処理を終了する。
上述してきたように、本実施例2に係る音声対話ロボット110は、自己音声特徴データ15aを登録するとともに、除外対象とするべき音声の特徴を示す除外対象音声特徴データ15bをさらに登録し、入力音声の特徴データと自己音声特徴データ15aとの類似度の低下が除外対象により生じている場合には音声の出力を継続する。このため、館内放送や背景音楽をユーザの発話と誤認識して音声の出力を中断する事態を防止できる。
なお、本実施例2では、除外対象とするべき音声の特徴を登録する場合を例に説明を行ったが、警備員や医師の音声など、優先して認識するべき音声を優先対象として登録する構成としてもよい。また、他の音声対話ロボットの音声を優先対象として登録すれば、音声認識を用いて複数の音声対話ロボットを連携させることができる。また、ユーザとの対話の開始時にユーザの音声を優先対象として登録してもよい。さらに、自装置のアクチュエータの駆動音を除外対象音声特徴データ15bとして登録してもよい。
また、上記実施例1及び2では、音声対話システムをロボットに搭載する場合について説明を行ったが、本発明はこれに限定されるものではなく、通信回線を介した自動応答や、携帯端末上でのユーザ支援など、任意の音声対話システムに用いることができる。
以上のように、本発明に係る音声対話システム及び音声対話方法は、ユーザとの円滑な音声対話の実現に適している。
10、110 音声対話ロボット
11 スピーカ
12 マイク
13 操作部
14 アクチュエータ
15 記憶部
15a 自己音声特徴データ
15b 除外対象音声特徴データ
16 制御部
16a 音声認識部
16b 発話処理部
16c、116c 音声登録部
16d、116d 類似度算出部
16e、116e 類似度判定部
16f、116f 状態遷移部
16g アクチュエータ駆動処理部

Claims (8)

  1. 音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムであって、
    前記出力処理部により出力される出力音声を自己音声として登録する登録部と、
    前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出部と、
    前記類似度算出部により算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御部と
    を備え
    前記登録部は、前記自己音声以外の所定の音声を他者音声としてさらに登録し、
    前記動作制御部は、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定する
    とを特徴とする音声対話システム。
  2. 前記入力受付部により受け付けた入力音声に対して音声認識を行う音声認識部をさらに備え、
    前記出力処理部は、前記音声認識部による音声認識の結果に応じて出力する音声の内容を決定し、
    前記動作制御部は、前記音声認識部による音声認識を行う音声認識モードと、前記出力処理部による音声の出力を行う発話モードとを切り替える制御を行う
    ことを特徴とする請求項1に記載の音声対話システム。
  3. 前記動作制御部は、前記出力処理部による音声の出力が完了するか、前記類似度に基づいて前記音声の出力を停止した場合に前記発話モードから前記音声認識モードに切り替えることを特徴とする請求項2に記載の音声対話システム。
  4. 前記出力処理部は、前記類似度に基づいて前記音声の出力を停止する場合に、音声の出力の停止に対応する特定の音声を出力した上で音声の出力を停止することを特徴とする請求項1〜3のいずれか一つに記載の音声対話システム。
  5. 前記登録部は、前記出力音声の周波数に係る特徴を分析して生成した特徴データを前記自己音声として登録し、
    前記類似度算出部は、前記入力音声の周波数に係る特徴を分析して生成した特徴データと前記自己音声として登録した特徴データとの類似度を算出する
    ことを特徴とする請求項1〜4のいずれか一つに記載の音声対話システム。
  6. 前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、
    前記登録部は、前記アクチュエータの動作によって生じる音を前記他者音声として登録する
    ことを特徴とする請求項1〜5のいずれか一つに記載の音声対話システム。
  7. 前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、
    前記登録部は、前記アクチュエータの動作によって生じる音と前記出力処理部により出力される出力音声とが合成された音声を自己音声として登録する
    ことを特徴とする請求項1〜5のいずれか一つに記載の音声対話システム。
  8. 音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムの音声対話方法であって、
    前記出力処理部により出力される出力音声を自己音声として登録する登録ステップと、
    前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出ステップと、
    前記類似度算出ステップにより算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御ステップと
    を含み、
    前記登録ステップは、前記自己音声以外の所定の音声を他者音声としてさらに登録し、
    前記動作制御ステップは、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定する
    とを特徴とする音声対話方法。
JP2016233103A 2016-11-30 2016-11-30 音声対話システム及び音声対話方法 Active JP6748565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016233103A JP6748565B2 (ja) 2016-11-30 2016-11-30 音声対話システム及び音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016233103A JP6748565B2 (ja) 2016-11-30 2016-11-30 音声対話システム及び音声対話方法

Publications (2)

Publication Number Publication Date
JP2018091911A JP2018091911A (ja) 2018-06-14
JP6748565B2 true JP6748565B2 (ja) 2020-09-02

Family

ID=62564674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016233103A Active JP6748565B2 (ja) 2016-11-30 2016-11-30 音声対話システム及び音声対話方法

Country Status (1)

Country Link
JP (1) JP6748565B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112368056A (zh) * 2018-07-10 2021-02-12 索尼互动娱乐股份有限公司 控制器设备及其控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3894767B2 (ja) * 2001-10-24 2007-03-22 シャープ株式会社 対話装置
JP2010156826A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音響制御装置
JP2011054088A (ja) * 2009-09-04 2011-03-17 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、プログラム及び対話システム

Also Published As

Publication number Publication date
JP2018091911A (ja) 2018-06-14

Similar Documents

Publication Publication Date Title
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
US7801726B2 (en) Apparatus, method and computer program product for speech processing
EP3050052B1 (en) Speech recognizer with multi-directional decoding
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
CN107949880A (zh) 车载用语音识别装置以及车载设备
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
JP6797338B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6827536B2 (ja) 音声認識装置および音声認識方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP2006208486A (ja) 音声入力装置
JP2004341033A (ja) 音声媒介起動装置およびその方法
JP2008052178A (ja) 音声認識装置と音声認識方法
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JP2009025579A (ja) 音声認識装置および音声認識方法
JP2019132997A (ja) 音声処理装置、方法およびプログラム
US20210383808A1 (en) Control device, system, and control method
JP7242873B2 (ja) 音声認識補助装置および音声認識補助方法
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JPH02103599A (ja) 音声認識装置
JP2009103985A (ja) 音声認識システム、音声認識処理のための状況検知システム、状況検知方法および状況検知プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200807

R150 Certificate of patent or registration of utility model

Ref document number: 6748565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250