JP6402748B2 - 音声対話装置および発話制御方法 - Google Patents

音声対話装置および発話制御方法 Download PDF

Info

Publication number
JP6402748B2
JP6402748B2 JP2016141621A JP2016141621A JP6402748B2 JP 6402748 B2 JP6402748 B2 JP 6402748B2 JP 2016141621 A JP2016141621 A JP 2016141621A JP 2016141621 A JP2016141621 A JP 2016141621A JP 6402748 B2 JP6402748 B2 JP 6402748B2
Authority
JP
Japan
Prior art keywords
user
voice
utterance
information
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016141621A
Other languages
English (en)
Other versions
JP2018013545A (ja
Inventor
智 久米
智 久米
浩太 畠中
浩太 畠中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016141621A priority Critical patent/JP6402748B2/ja
Priority to US15/646,238 priority patent/US10304452B2/en
Publication of JP2018013545A publication Critical patent/JP2018013545A/ja
Application granted granted Critical
Publication of JP6402748B2 publication Critical patent/JP6402748B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/46Sensing device

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Manipulator (AREA)

Description

本発明は、音声によって人と対話する装置に関する。
近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献1には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。
特開2015−013351号公報
前述したような、音声によって対話を行うロボットは、基本的に一対一での対話を想定しているため、ユーザ環境内に複数のロボットを置くことができない。例えば、ユーザの声が届く範囲に複数のロボットがいた場合、ユーザに呼び掛けに対して全てのロボットが反応してしまうため、ユーザが所望する相手との会話のみを開始させることができない。
この問題を解決するためには、各ロボットが、ユーザが誰に向かって話しかけているかを適切に判定し、返答するか否かを決定する必要がある。
本発明は上記の課題を考慮してなされたものであり、人と音声対話装置との自然な対話を可能にする技術を提供することを目的とする。
本発明に係る音声対話装置は、
複数の音声対話装置がユーザと対話する対話システムを構成する音声対話装置であって、ユーザが発した音声を取得する音声入力手段と、前記取得した音声に基づいて、複数の音声対話装置の中から前記ユーザが話し掛けた音声対話装置を特定するための情報であるユーザ発話情報を生成する情報生成手段と、生成した前記ユーザ発話情報を他の音声対話装置に送信し、他の音声対話装置から、当該音声対話装置が生成したユーザ発話情報を受信する送受信手段と、前記生成および受信したユーザ発話情報に基づいて、前記ユーザの発話に応答すべきであるか否かを判定する判定手段と、前記判定の結果に基づいて、前記ユーザとの対話を行う対話手段と、を有することを特徴とする。
情報生成手段は、外部から取得した音声に基づいて、ユーザが話し掛けた音声対話装置を特定するための情報であるユーザ発話情報を生成する。ユーザ発話情報は、例えば、装置に対する音声の到来方向(装置から見たユーザの方向)、音声対話装置とユーザとの距離、ユーザの発話内容などであるが、これらに限られない。
また、送受信手段が、生成したユーザ発話情報を他の音声対話装置に送信し、他の音声対話装置からユーザ発話情報を受信する。すなわち、システムを構成する各音声対話装置が生成したユーザ発話情報が、全ての音声対話装置によって共有される。そして、判定手段が、収集したユーザ発話情報に基づいて、ユーザの発話に応答すべきか否かを決定する。
かかる構成によると、複数の音声対話装置で構成される対話システムにおいて、ユーザに返答を返すべき音声対話装置を一意に特定することができ、ユーザと音声対話装置との一対一の対話を開始させることができる。
また、前記音声入力手段は、自装置に対する音声の到来方向を検出可能なマイクを有し、前記情報生成手段は、自装置に対する音声の到来方向を表す情報と、前記音声の音圧に関する情報、のいずれかを含むユーザ発話情報を生成することを特徴としてもよい。
自装置に対する音声の到来方向は、例えば、複数の音声入力素子を有するマイク(アレイマイク)などを用いて取得することができる。
ユーザが音声対話装置に呼び掛けを行う場合、多くの場合は当該音声対話装置の方向を向いて発声する。そこで、音声対話装置に対する音声の到来方向に関する情報、または、当該音声の音圧を用いることで、ユーザが呼び掛けた装置を特定することができる。
また、前記判定手段は、複数の音声対話装置の中で、自装置が前記ユーザに対して最も正面に位置すると判定した場合に、前記ユーザの発話に応答すべきであると判定することを特徴としてもよい。
また、前記判定手段は、複数の音声対話装置の中で、自装置が前記ユーザに対して最も近い位置にいると判定した場合に、前記ユーザの発話に応答すべきであると判定することを特徴としてもよい。
このように、音声対話装置とユーザとの角度または距離に基づいて判定を行うことで、呼び掛けられた音声対話装置を精度よく特定することができる。なお、音声対話装置とユーザとの距離は、例えば、取得した音圧に基づいて推定してもよい。
また、前記判定手段が、前記ユーザの発話に応答すべきであると判定した場合に、前記対話手段は、前記音声の到来方向または音圧の変動量が所定の閾値を超えるまで、前記ユーザとの対話を継続することを特徴としてもよい。
ユーザが発話を行うごとに、返答すべき音声対話装置をその都度判定した場合、僅かな条件の変動で対話相手が変わってしまう場合がある。そこで、一旦ユーザの発話に応答すると判定した場合、音声の到来方向または音圧の変動量が所定の閾値を超えるまで対話を継続する。これにより、一時的にユーザの声量が小さくなったり、顔の向きが変わった場合であっても対話を継続させることができる。
また、前記送受信手段は、自装置と前記ユーザとの対話状態を表す情報を他の音声対話装置に送信し、前記判定手段は、受信した前記情報に基づいて、他の音声対話装置と前記ユーザとの対話が継続しているか否かを判定し、当該判定の結果に基づいて、前記ユーザの発話に応答すべきか否かの判定を休止することを特徴としてもよい。
ある音声対話装置がユーザとの対話を一旦開始したら、対話が継続している限り、他の音声対話装置は応答判定を休止することが好ましい。そこで、例えば、ユーザと対話する音声対話装置が、対話を開始した旨および対話が終了した旨の情報を送信するようにしてもよい。なお、対話状態を表す情報であれば、送信する情報は、「対話開始および対話終了を表す情報」「対話開始を表す情報」「対話終了を表す情報」のいずれであってもよい。これにより、不要な処理を削減することができる。
また、本発明に係る音声対話装置は、前記取得した音声を発したユーザを識別するユーザ識別手段をさらに有し、前記情報生成手段は、前記ユーザ発話情報に前記ユーザの識別子を関連付け、前記判定手段は、前記ユーザの発話に応答すべきであるか否かの判定を、識別したユーザごとに行うことを特徴としてもよい。
音声に基づいてユーザの個人識別を行い、識別したユーザごとに応答可否の判定を行っ
てもよい。かかる構成によると、複数人のユーザがロボットとの会話を行えるようになる。
なお、本発明は、上記手段の少なくとも一部を含む音声対話装置や対話システムとして特定することができる。また、前記音声対話装置や対話システムが行う発話制御方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、人と音声対話装置との自然な対話を可能にすることができる。
第一の実施形態に係るロボットのシステム構成図である。 ロボットと、音源となるユーザの位置関係を説明する図である。 複数のロボットとユーザの位置関係を説明する図である。 第一の実施形態におけるロボットの処理フローチャート図である。 第二の実施形態におけるロボットの処理フローチャート図である。 第三の実施形態に係るロボットのシステム構成図である。 変形例を説明する図である。
(第一の実施形態)
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、複数のロボットから構成され、当該ロボットが自然言語によってユーザと対話を行うシステムである。
<システム構成>
図1は、本実施形態に係るロボット10のシステム構成図である。なお、図1には示していないが、本実施形態に係る音声対話システムは、複数のロボット10を含んで構成することができる。
ロボット10は、外部から音声を取得する機能と、発話内容の文章(以下、発話文)を取得する機能と、当該発話文を音声によって出力する機能を有するロボットである。ロボット10は、例えば、コミュニケーションロボットであるが、必ずしもキャラクターの形をしている必要はない。例えば、ロボットに組み込むことができる汎用のコンピュータであってもよい。
また、ロボット10は、ユーザの発話を検知した場合に、周囲に存在する他のロボット10と通信を行い、「どのロボットが話し掛けられたか」を特定し、特定されたロボットのみが応答するという機能を有している。
ロボット10は、近距離通信部11、音声入出力部12、応答生成部13、対話判定部14、制御部15から構成される。
近距離通信部11は、ロボット10同士で無線通信を行う手段である。第一の実施形態では、近距離通信部11は、Bluetooth(登録商標)接続を利用した通信を行う。第一の実施形態では、近距離通信部11を用いて複数のロボット10間における情報交換を実現する。
音声入出力部12は、音声を入出力する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、後述
する応答生成部13へ出力される。また、音声入出力部12は、内蔵されたスピーカを用いて、応答生成部13から送信された音声データを音声に変換する。
また、音声入出力部12は、マイクとして、図2に示したようなアレイマイク(点線で図示)を有している。それぞれのマイクから得られた信号を一旦記録して演算することで、音源の方向や距離を算出することができる。なお、マイクは二次元的に配置されてもよいし、三次元的に配置されてもよい。三次元的に配置することで、高さ(Z軸)方向の位置を検出することが可能になる。
応答生成部13は、音声入出力部11が取得した音声に対して音声認識を行い、認識結果に基づいて応答文を生成する手段である。
音声認識は、既知の技術によって行うことができる。例えば、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。
そして、取得したテキスト(すなわちユーザが行った発話の内容)に基づいて、ユーザへの返答となる文章(応答文)を生成する。応答生成部13は、例えば、予め記憶された対話シナリオ(対話辞書)に基づいて応答を生成してもよい。
応答生成部13が生成した返答は、制御部15へテキスト形式で送信され、その後、合成音声によってユーザに向けて出力される。
対話判定部14は、自ロボットの近傍にいるユーザが、自ロボットに向けて話しかけているか否かを判定し、当該ユーザの発話に応答するか否かを決定する手段である。
ロボット10は、入力された音声に基づいて応答文を生成するが、応答条件を設けないと、複数台のロボットがユーザに対して一斉に応答するなどの不都合が生じてしまう。そこで、本実施形態に係るロボット10は、通信範囲内にいる他のロボットと通信を行い、ユーザと対話するロボットを一台のみ決定する。
具体的には、対話判定部14は、(1)音声入出力部12が取得した音声に基づいて、ロボットとユーザとの位置関係を表す情報を生成し、(2)当該情報を周辺にいるロボットと交換し、(3)交換した情報に基づいて、自ロボットがユーザと対話するか否かを決定する。具体的な方法については後述する。
制御部15は、ロボット10が行う音声対話全般を制御する手段である。
具体的には、対話相手(ユーザ)の呼び掛けに応じて対話を開始する機能、ユーザの発話に基づいて応答文を取得する機能、取得した応答文を音声データに変換し音声入出力部12を介して出力する機能などを実行する。
ロボット10は、いずれもCPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
<ユーザ発話情報>
次に、対話判定部14が取得し、ロボット10同士で交換する情報(以下、ユーザ発話情報)について説明する。本実施形態に係るロボット10は、図2に示したように、複数のマイクを有しており、X−Y平面内におけるユーザの相対位置を算出することができる。具体的には、取得した音声の時間差に基づいて自ロボットに対するユーザの角度θを算出し、かつ、音圧に基づいて、自ロボットとユーザとの距離dを推定する。これらの方法は公知なものであるため、詳細な説明は省略する。
なお、ユーザが発話した際にロボットに届く音声の音圧は、ユーザの声の大きさによって変わる。よって、対話判定部14は、ユーザが一定の声量で発話しているものと仮定したうえで処理を行うようにしてもよい。
ユーザ発話情報は、ロボットが取得ないし推定した角度θおよび距離dを含む情報である。対話判定部14によって生成されたユーザ発話情報は、近距離通信部11を介して、無線によってブロードキャストされる。また、各ロボット10は、ブロードキャストされたユーザ発話情報を受信し、対話判定部14に記憶させる。
図3は、三台のロボット10(A〜C)とユーザとの位置関係を表した図である。
<ユーザ発話情報に基づく判定>
次に、収集したユーザ発話情報に基づいて、ユーザに応答するロボットを決定する処理について説明する。なお、本例では、ユーザが、ロボット10Aに対して話し掛けた場合を想定して説明を行う。
ユーザがロボットに対して発話を行うと、ロボット10A〜Cのそれぞれが、前述した方法によって角度θおよび距離dを算出する。ここでは、ロボット10Aが角度θ1およ
び距離d1、ロボット10Bが角度θ2および距離d2、ロボット10Cが角度θ3および距離d3を算出したものとする。各ロボットが生成したユーザ発話情報は、ブロードキャス
ト送信され、全てのロボットによって共有される。ここでは、図3に示したように、ユーザ発話情報A〜Cが、ロボット10A〜Cによって共有される。
次に、対話判定部14が、収集したユーザ発話情報に基づいて、ユーザの発話に応答するか否かを決定する。例えば、角度θおよび距離dを正規化し、重み付け加算することでスコアを算出し、当該スコアが最も高いロボットを、ユーザの発話に応答するロボットとして決定する。以下、ユーザの発話に応答すると判定されたロボットを、発話権を得たロボットと表現する。対話判定部14が、自ロボットが発話権を得たと判定した場合、その旨を制御部15へ送信し、制御部15が、ユーザとの対話を開始する制御を行う。また、他のロボットが発話権を得たと判定した場合、待機状態に戻る。
<処理フローチャート>
次に、ロボット10が行う具体的な処理の内容について、処理フローチャート図である図4を参照しながら説明する。図4に示したフローチャートは、ロボット10が、ユーザが発した音声を検知した場合に開始される。
まず、ステップS11で、音声入出力部12が、マイクを通して装置のユーザから音声を取得する。取得した音声は音声データに変換され、対話判定部14および制御部15へ送信される。
次に、対話判定部14が、取得した音声データに基づいて、当該音声の到来方向とユーザとの距離を判定する(ステップS12)。そして、得られた方向および距離に基づいてユーザ発話情報を生成し、近距離通信部11を介してブロードキャスト送信する(ステップS13)。
ステップS14では、音声が入力されてから所定の時間が経過したか否かを判定し、経過していない場合、待機する。また、ステップS11〜S14の間で、他のロボットからユーザ発話情報を受信した場合、当該ユーザ発話情報を一時的に記憶する。
ステップS14にて、所定の時間が経過した場合、記憶している複数のユーザ発話情報に基づいて、前述した方法によって、自ロボットがユーザに応答すべきか否かを判定する(ステップS15)。
この結果、応答すべきと判定された場合(ステップS16−Yes)、対話判定部14は、応答すべき旨を制御部15に通知する。そして、制御部15が、音声データを応答生
成部13に送信する。応答生成部13は、送信された音声データに対して音声認識を実行し、続いて、認識結果のテキストに基づいて発話文を生成する(ステップS17)。
生成された発話文は制御部15へ送信され、制御部15が当該発話文に基づいて音声合成を行い、音声入出力部11を介して出力する。
ステップS16で応答すべきでないと判定された場合、処理は終了し、待機状態に戻る。
以上説明したように、第一の実施形態では、ユーザの発話を受け取ったロボットが、音声が到来した方向と音圧に基づいてユーザ発話情報を生成し、交換し合う。そして、各ロボットが、収集したユーザ発話情報に基づいてユーザに応答するか否かを決定する。かかる構成によると、環境内に複数台のロボットがいる場合であっても、ユーザに応答するロボットを一台のみ決定することができるため、精度の高い対話を行うことができる。
(第二の実施形態)
第一の実施形態では、ユーザがロボットに対して発話を行う度に、当該ユーザに応答するロボットを決定した。しかし、ユーザと対話するロボットを、ユーザが発話するごとに判定した場合、僅かな条件の変動で対話相手が変わってしまうおそれがある。第二の実施形態は、これに対応するため、ロボットが一旦獲得した発話権を、トリガが発生するまで保持し続ける実施形態である。
第二の実施形態に係るロボット10のシステム構成図は、第一の実施形態と同様であるため詳細な説明は省略し、相違点についてのみ述べる。
図5は、第二の実施形態に係るロボット10の処理フローチャートである。ここではまず、ステップS17から先の処理について説明する。
第二の実施形態では、ロボット10が発話権を獲得し、ユーザに対する応答を生成した後で、発話権を獲得した旨を他のロボットに通知済みであるか否かを判定する(ステップS18)。ここで、通知を行っていない場合、発話権を取得した旨を、周囲のロボットにブロードキャスト送信によって通知する(ステップS19)。通知済みの場合、処理は終了する。また、当該通知を取得した他のロボットは、発話権を取得したロボットが他にいる旨を一時的に記憶する。
一方、ユーザが発した音声をロボット10が取得した場合、第二の実施形態では、発話権の状態を判定する(ステップS11A)。本ステップでは、記憶されている情報に基づいて、「自己が発話権を有している」、「他のロボットが発話権を有している」、「いずれのロボットも発話権を有していない」のいずれであるか判定する。
ステップS11Aで判定を行った結果、他のロボットが発話権を有している場合、処理はそのまま終了する。すなわち、対話には参加しない。
一方、いずれのロボットも発話権を有していない場合、ステップS12へ遷移し、第一の実施形態と同様に、応答するロボットを決定する処理を実行する。
また、自己が発話権を有している場合、ステップS20で、対話判定部14が、取得した音声データに基づいて、当該音声の到来方向とユーザとの距離を判定する。
そして、得られた方向および距離が、前回取得した方向および距離と大きく変動しているか否かを判定し、変動している場合に、ユーザが自ロボットに向けて発話していないと判定し、発話権を返上することを決定する(ステップS21)。例えば、方向または距離のいずれかが所定の閾値を超えて変動した場合や、方向および距離から得られるスコアが所定の閾値を超えて変動した場合に、発話権を返上する。
なお、ここで設定する閾値は、ステップS16で肯定判定となるための条件よりも緩い、すなわち、方向や距離の変動をある程度許容する値であることが好ましい。このように
することで、ユーザの声量が一時的に小さくなったり、顔の向きが一時的に変わった場合であっても対話を継続させることができる。
発話権を返上することを決定した場合、ステップS22にて、発話権を返上する旨を表す情報をブロードキャスト送信する。また、当該情報を受信したロボットは、発話権がどのロボットにも無い旨の情報を記憶する。
ステップS21にて、発話権を維持すると決定した場合、ステップS17へ遷移し、ユーザに対する応答を生成する。すなわち、対話を継続する。
以上説明したように、第二の実施形態によると、一旦発話権を取得したロボットが、条件が大きく変動しないかぎり発話権を保持し、他のロボットが応答を休止する。かかる構成によると、ユーザとロボットが対話中に異なるロボットが反応し、対話の相手が変わってしまうことを防ぐことができる。
(第三の実施形態)
第一および第二の実施形態では、一人のユーザがロボットと対話する例を挙げた。これに対し、第三の実施形態は、複数のユーザがロボットと対話する実施形態である。
図6は、第三の実施形態に係るロボット10のシステム構成図である。第一の実施形態と同様の構成については同一の符号を付し、説明は省略する。
話者判定部16は、音声入出力部12が取得した音声に基づいて、当該音声を発したユーザを識別する手段である。ユーザの個人識別は、例えば音声から取得した特徴量に基づいて行うことができる。このため、話者判定部16は、ユーザの声に関する情報を、当該ユーザの識別子と関連付けて予め保持している。
第三の実施形態では、ステップS11で音声入出力部12が音声を取得すると、話者判定部16が、当該音声を発したユーザを識別する。また、取得した音声に、ユーザの識別子を関連付ける。そして、ステップS12以降の処理を、識別したユーザごとに行う。
例えば、ユーザAとユーザBが発話を順次行った場合、ロボット10は、それぞれのユーザに対して応答するか否かを決定する。例えば、対話判定部14が、「ユーザAに対して応答しない」「ユーザBに対して応答する」と決定した場合、ロボット10は、ユーザBのみを対象として応答文の生成を行う。
また、第二の実施形態のように、発話権に関する情報を他のロボットに通知してもよい。この場合、発話権をユーザごとに管理する。すなわち、「誰に対する発話権を獲得/返上したか」を、ステップS19およびS22にて通知し、他のロボットが、発話権の有無をユーザ単位で判定するようにすればよい。
なお、本実施形態では、ユーザの声に関する情報を話者判定部16に予め記憶させたが、当該情報を用いずとも、前述した機能を実現することができる。例えば、音声の解析結果に基づいて、既知のユーザであるか、新規のユーザであるかをその都度判定し、新規ユーザが加わったと判定した場合に、当該ユーザの識別子を都度付番してもよい。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、各ロボットがブロードキャスト送信によってユーザ発話情報を共有したが、図7に示したロボット10Bとロボット10Cのように、互いの通信
範囲に入っていないロボットがいた場合、互いの存在を認識できない場合がある。これを防ぐため、他のロボットからユーザ発話情報を受信した場合に、自らが生成したユーザ発話情報を加えて再送信するようにしてもよい。ただし、これを繰り返すと通信路が輻輳するおそれがあるため、所定の時刻をもって送信を打ち切るようにしてもよい。
また、第二の実施形態では、発話権を獲得した旨の情報を送信したが、当該情報の送信を省略してもよい。例えば、ステップS16で否定判定となった場合、他のロボットから、発話権を返上する旨の通知が送信されるまで、「自己に発話権が無い」ものとして処理を行ってもよい。
また、第二の実施形態では、発話権を返上する旨の情報を送信したが、当該情報の送信を省略してもよい。例えば、あるロボットが発話権を獲得してから、一定の時間が経過した場合に、発話権が返上されたものとして各ロボットが処理を行ってもよい。また、その他の情報に基づいて、発話権が返上されたことを検出してもよい。もちろん、両方を省略することも可能である。
また、実施形態の説明では、方向および距離に基づいて発話権の判定を行ったが、他の基準を用いて判定を行ってもよい。例えば、ユーザが行った発話の内容に基づいて、発話権を有するロボットを決定してもよい。例えば、ロボット10Aが、ユーザが自分を呼んだことを認識して、「自分が呼ばれた」という情報を周辺のロボットに通知してもよい。
また、ロボット10Aが、ユーザがロボット10Bを呼んだことを判定した場合、「ロボット10Bが呼ばれた」という情報を周辺のロボットに通知してもよい。このようにすると、ロボット10Bが、直接の聞き取りに失敗した場合であっても、自己が呼ばれたことを認識することができる。
また、実施形態の説明では、取得した音声の音圧に基づいてユーザとの距離を推定したが、距離への換算を行わず、音圧自体を用いて処理を行ってもよい。
10・・・ロボット
11・・・近距離通信部
12・・・音声入出力部
13・・・応答生成部
14・・・対話判定部
15・・・制御部

Claims (9)

  1. 複数の音声対話装置がユーザと対話する対話システムを構成する音声対話装置であって、
    ユーザが発した音声を取得する音声入力手段と、
    前記取得した音声に基づいて、複数の音声対話装置の中から前記ユーザが話し掛けた音声対話装置を特定するための情報であるユーザ発話情報を生成する情報生成手段と、
    生成した前記ユーザ発話情報を他の音声対話装置に送信し、他の音声対話装置から、当該音声対話装置が生成したユーザ発話情報を受信する送受信手段と、
    前記生成および受信したユーザ発話情報に基づいて、前記ユーザの発話に応答すべきであるか否かを判定する判定手段と、
    前記判定の結果に基づいて、前記ユーザとの対話を行う対話手段と、
    を有し、
    前記判定手段が、前記ユーザの発話に応答すべきであると判定した場合に、前記対話手段は、前記音声が所定の条件を満たすまで前記ユーザとの対話を継続し、
    前記送受信手段は、自装置と前記ユーザとの対話状態を表す情報を他の音声対話装置に送信し、
    前記判定手段は、受信した前記情報に基づいて、他の音声対話装置と前記ユーザとの対話が継続しているか否かを判定し、当該判定の結果に基づいて、前記ユーザの発話に応答すべきか否かの判定を休止する、
    音声対話装置。
  2. 前記音声入力手段は、自装置に対する音声の到来方向を検出可能なマイクを有し、
    前記情報生成手段は、自装置に対する音声の到来方向を表す情報と、前記音声の音圧に関する情報、のいずれかを含むユーザ発話情報を生成する、
    請求項1に記載の音声対話装置。
  3. 前記判定手段は、複数の音声対話装置の中で、自装置が前記ユーザに対して最も正面に位置すると判定した場合に、前記ユーザの発話に応答すべきであると判定する、
    請求項2に記載の音声対話装置。
  4. 前記判定手段は、複数の音声対話装置の中で、自装置が前記ユーザに対して最も近い位
    置にいると判定した場合に、前記ユーザの発話に応答すべきであると判定する、
    請求項2に記載の音声対話装置。
  5. 前記所定の条件は、前記音声の到来方向または音圧の変動量が所定の閾値を超えたタイミングで満たされる、
    請求項から4のいずれかに記載の音声対話装置。
  6. 前記取得した音声を発したユーザを識別するユーザ識別手段をさらに有し、
    前記情報生成手段は、前記ユーザ発話情報に前記ユーザの識別子を関連付け、
    前記判定手段は、前記ユーザの発話に応答すべきであるか否かの判定を、識別したユーザごとに行う、
    請求項1からのいずれかに記載の音声対話装置。
  7. 複数の音声対話装置がユーザと対話する対話システムを構成する音声対話装置が行う発話制御方法であって、
    前記ユーザが発した音声を取得する音声入力ステップと、
    前記取得した音声に基づいて、複数の音声対話装置の中から前記ユーザが話し掛けた音声対話装置を特定するための情報であるユーザ発話情報を生成する情報生成ステップと、
    生成した前記ユーザ発話情報を他の音声対話装置に送信し、他の音声対話装置から、当該音声対話装置が生成したユーザ発話情報を受信する送受信ステップと、
    前記生成および受信したユーザ発話情報に基づいて、前記ユーザの発話に応答すべきであるか否かを判定する判定ステップと、
    前記判定の結果に基づいて、前記ユーザとの対話を行う対話ステップと、
    を含み、
    前記判定ステップで、前記ユーザの発話に応答すべきであると判定した場合に、前記対話ステップでは、前記音声が所定の条件を満たすまで前記ユーザとの対話を継続し、
    前記送受信ステップでは、自装置と前記ユーザとの対話状態を表す情報を他の音声対話装置に送信し、
    前記判定ステップでは、受信した前記情報に基づいて、他の音声対話装置と前記ユーザとの対話が継続しているか否かを判定し、当該判定の結果に基づいて、前記ユーザの発話に応答すべきか否かの判定を休止する、
    発話制御方法。
  8. 請求項に記載の発話制御方法をコンピュータに実行させるためのプログラム。
  9. 複数の音声対話装置がユーザと対話する対話システムを構成する音声対話装置であって、
    自装置に対する音声の到来方向を検出可能なマイクによって、ユーザが発した音声を取得する音声入力手段と、
    前記取得した音声に基づいて、自装置に対する音声の到来方向を表す情報と、前記音声の音圧に関する情報、のいずれかを含むユーザ発話情報を生成する情報生成手段と、
    生成した前記ユーザ発話情報を他の音声対話装置に送信し、他の音声対話装置から、当該音声対話装置が生成したユーザ発話情報を受信する送受信手段と、
    前記生成および受信したユーザ発話情報に基づいて、前記ユーザの発話に応答すべきであるか否かを判定する判定手段と、
    前記判定の結果に基づいて、前記ユーザとの対話を行う対話手段と、
    を有し、
    前記判定手段が、前記ユーザの発話に応答すべきであると判定した場合に、前記対話手段は、前記音声の到来方向または音圧の変動量が所定の閾値を超えるまで、前記ユーザとの対話を継続し、
    前記送受信手段は、自装置と前記ユーザとの対話状態を表す情報を他の音声対話装置に送信し、
    前記判定手段は、受信した前記情報に基づいて、他の音声対話装置と前記ユーザとの対話が継続しているか否かを判定し、当該判定の結果に基づいて、前記ユーザの発話に応答すべきか否かの判定を休止する、
    音声対話装置。
JP2016141621A 2016-07-19 2016-07-19 音声対話装置および発話制御方法 Expired - Fee Related JP6402748B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016141621A JP6402748B2 (ja) 2016-07-19 2016-07-19 音声対話装置および発話制御方法
US15/646,238 US10304452B2 (en) 2016-07-19 2017-07-11 Voice interactive device and utterance control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016141621A JP6402748B2 (ja) 2016-07-19 2016-07-19 音声対話装置および発話制御方法

Publications (2)

Publication Number Publication Date
JP2018013545A JP2018013545A (ja) 2018-01-25
JP6402748B2 true JP6402748B2 (ja) 2018-10-10

Family

ID=60988796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016141621A Expired - Fee Related JP6402748B2 (ja) 2016-07-19 2016-07-19 音声対話装置および発話制御方法

Country Status (2)

Country Link
US (1) US10304452B2 (ja)
JP (1) JP6402748B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10911594B2 (en) 2017-05-16 2021-02-02 Google Llc Handling calls on a shared speech-enabled device
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
WO2019087546A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法
US11545153B2 (en) 2018-04-12 2023-01-03 Sony Corporation Information processing device, information processing system, and information processing method, and program
JP2020046478A (ja) * 2018-09-14 2020-03-26 株式会社フュートレック ロボットシステム
WO2020215295A1 (zh) * 2019-04-26 2020-10-29 深圳迈瑞生物医疗电子股份有限公司 多医疗设备共存时的语音交互方法、医疗系统及医疗设备
JP7465075B2 (ja) * 2019-11-14 2024-04-10 株式会社日立ビルシステム 演算装置、記録媒体、音声入力装置
CN111312239B (zh) * 2020-01-20 2023-09-26 北京小米松果电子有限公司 响应方法、装置、电子设备及存储介质
CN111667820A (zh) * 2020-06-22 2020-09-15 京东方科技集团股份有限公司 通信方法、装置、电子设备和计算机可读存储介质
US20230178075A1 (en) * 2021-12-02 2023-06-08 Lenovo (Singapore) Pte. Ltd Methods and devices for preventing a sound activated response
CN114879527B (zh) * 2022-05-31 2023-06-27 四川虹美智能科技有限公司 基于智能分组和技能匹配的智能家电控制方法及装置
CN114898750B (zh) * 2022-05-31 2023-05-16 四川虹美智能科技有限公司 基于协同响应的智能家电控制方法、装置及系统、设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6614885B2 (en) * 1998-08-14 2003-09-02 Intervoice Limited Partnership System and method for operating a highly distributed interactive voice response system
JP4370410B2 (ja) * 2004-03-08 2009-11-25 独立行政法人情報通信研究機構 対話システム、対話ロボット、プログラム及び記録媒体
JP2006243555A (ja) * 2005-03-04 2006-09-14 Nec Corp 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
JP2007160473A (ja) * 2005-12-15 2007-06-28 Fujitsu Ltd ロボットにおける対話相手識別方法およびロボット
US8379834B2 (en) * 2006-01-21 2013-02-19 Soundbite Communications, Inc. Method and system for managing interactive communications campaigns
JP4505862B2 (ja) * 2006-06-26 2010-07-21 村田機械株式会社 音声対話装置と音声対話方法及びそのプログラム
JP2008087140A (ja) * 2006-10-05 2008-04-17 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
US8718262B2 (en) * 2007-03-30 2014-05-06 Mattersight Corporation Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication
KR101644015B1 (ko) * 2009-11-27 2016-08-01 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
JP5739718B2 (ja) * 2011-04-19 2015-06-24 本田技研工業株式会社 対話装置
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
JP5975947B2 (ja) 2013-07-08 2016-08-23 ユニロボット株式会社 ロボットを制御するためのプログラム、及びロボットシステム
CN106233378B (zh) * 2014-05-13 2019-10-25 夏普株式会社 控制装置和消息输出控制系统

Also Published As

Publication number Publication date
US10304452B2 (en) 2019-05-28
US20180025727A1 (en) 2018-01-25
JP2018013545A (ja) 2018-01-25

Similar Documents

Publication Publication Date Title
JP6402748B2 (ja) 音声対話装置および発話制御方法
JP6520878B2 (ja) 音声取得システムおよび音声取得方法
US10485049B1 (en) Wireless device connection handover
US11153678B1 (en) Two-way wireless headphones
US10721661B2 (en) Wireless device connection handover
JP6497372B2 (ja) 音声対話装置および音声対話方法
CN105793923A (zh) 本地和远程语音处理
KR102326272B1 (ko) 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
JP2020046478A (ja) ロボットシステム
JP2018045202A (ja) 音声対話システムおよび音声対話方法
CN112995874A (zh) 将两个听力设备相互耦合的方法以及听力设备
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
JP2019184809A (ja) 音声認識装置、音声認識方法
US11064281B1 (en) Sending and receiving wireless data
US11056106B2 (en) Voice interaction system and information processing apparatus
CN108806675B (zh) 语音输入输出装置、无线连接方法、语音对话系统
JP6385150B2 (ja) 管理装置、会話システム、会話管理方法及びプログラム
JP2013121078A (ja) 対面角度出力装置、対面角度出力システムおよびプログラム
JP5610283B2 (ja) 外部機器制御装置、その外部機器制御方法及びプログラム
JP5929810B2 (ja) 音声解析システム、音声端末装置およびプログラム
JP6680125B2 (ja) ロボットおよび音声対話方法
JP2016163230A (ja) 音声解析装置、音声解析システムおよびプログラム
JP2018185372A (ja) 情報処理装置、情報処理プログラム、および建物
JP2013140534A (ja) 音声解析装置、音声解析システムおよびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180827

R151 Written notification of patent or utility model registration

Ref document number: 6402748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees