JP6025037B2

JP6025037B2 - 音声エージェント装置、及びその制御方法

Info

Publication number: JP6025037B2
Application number: JP2012235902A
Authority: JP
Inventors: 由理西川; 山田　和範; 山田　　和範
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2012-10-25
Filing date: 2012-10-25
Publication date: 2016-11-16
Anticipated expiration: 2032-10-25
Also published as: US9324326B2; JP2014083658A; US20140122077A1

Description

本発明は、音声エージェント装置に関する。

背景技術の一例が特許文献１に開示されている。特許文献１のコミュニケーションロボットは、音声を用いて人間との会話を実行する。また、当該コミュニケーションロボットは、特に空間内に存在する複数の人間同士の会話促進及び人間関係の発展を目的とする。

このコミュニケーションロボットは、互いの間の距離が所定の値以内に存在する２人以上の人間を検出すると、互いが近くにいると判定し、人間に近づいて各々を個人識別する。これによって、当該コミュニケーションロボットは、識別された人間が共通して興味を持つ情報を、音声でスピーカから出力したり、テキスト、画像又は映像をディスプレイに表示したりすることで提示する。

特開２００７−２２２９６８号公報

しかしながら、このようなコミュニケーションロボット等の音声エージェント装置では、複数の人間が会話を行っている空間を適切に把握することが重要である。

本発明は、複数の人間が会話を行っている空間範囲を適切に把握できる音声エージェント装置を提供することを目的とする。

本発明の一態様に係る音声エージェント装置は、音声エージェント装置であって、前記音声エージェント装置が情報提供可能な空間である対話空間内に存在する人間の位置を検出する位置検出部と、収音部で得られた前記対話空間の音声信号から、前記人間の声量を検出する声量検出部と、前記声量が第１声量値である場合、前記人間の発話内容が聞こえうる空間範囲である対話エリアを、前記位置を含む第１範囲に決定し、前記声量が前記第１声量値より小さい第２声量値である場合、前記対話エリアを、前記位置を含み、かつ前記第１範囲より狭い第２範囲に決定する対話エリア決定部と、前記対話エリアに提供情報を提供する情報提供部とを備える。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本発明は、複数の人間が会話を行っている空間範囲を適切に把握できる音声エージェント装置を提供できる。

本発明の実施の形態に係る音声エージェントシステムを示す図である。本発明の実施の形態に係る音声エージェント装置のブロック図である。本発明の実施の形態に係る音声エージェント装置による処理のフローチャートである。本発明の実施の形態に係る音声エージェント装置による対話エリアを決定する処理のフローチャートである。本発明の実施の形態に係る、信号対雑音比と、マイクと対話エリアとの距離との関係を示すグラフである。本発明の実施の形態に係る、複数マイクの各ＳＮ比と、対話エリアまでの距離との関係を示す図である。本発明の実施の形態に係る、対話エリアの決定方法を示す概念図である。本発明の実施の形態に係る声量が小さい場合の対話エリアの一例を示す図である。本発明の実施の形態に係る声量が大きい場合の対話エリアの一例を示す図である。本発明の実施の形態に係る環境音が小さい場合の対話エリアの一例を示す図である。本発明の実施の形態に係る環境音が大きい場合の対話エリアの一例を示す図である。本発明の実施の形態に係る個人プロフィール情報の一例を示す図である。本発明の実施の形態に係る人間関係情報の一例を示す図である。本発明の実施の形態に係る音声エージェント装置による対話内容を選択する処理のフローチャートである。本発明の実施の形態の変形例に係る音声エージェントシステムを示す図である。

（本発明の基礎となった知見）
本発明者は、従来技術において、以下の問題が生じることを見出した。

上記特許文献１のコミュニケーションロボットは、近くに存在する２人以上の人間を検出すると、人間に近づいて会話を行うことができる。しかしながら、コミュニケーションロボットは、２人以上の人間の間の距離がある所定の値以下である場合にのみ、互いに近くに存在すると判定する。したがって、２人以上の人間が、場を共有しているという意識を持ち、互いに十分に聞こえる声量で会話しているにもかかわらず、人間同士の間に所定の値以上の距離があると、当該コミュニケーションロボットは、当該２人以上の人間が会話を行っていないと判定するという課題があることを本発明者は見出した。

また、特許文献１のコミュニケーションロボットは、複数の人間が共通して興味を持つ情報を提供することができる。しかしながら、複数の人間同士が家族なのか、友人なのか、見知らぬ者同士なのかといった人間関係を理解していない。そのため、当該コミュニケーションロボットは、例えば、互いに近くにいる人間同士の関係性によっては不適切な情報であっても、その情報の提供の可否を判定することはできないという課題があることを本発明者は見出した。

加えて、特許文献１のコミュニケーションロボットが音声により提供する情報が、情報提供対象者以外の人間にも聞こえる可能性がある。例えば、情報提供対象者以外への提供が不適切な場合に、その情報提供を防ぐことができないという課題があることを本発明者見出した。

具体的には、例えば、住宅において、父親と来客とが会話を行っており、父親及び来客から少し離れた位置で、母親と子供とが会話を行っている場合を想定する。この場合、母親と子供との会話に対して、音声エージェント装置が、家庭内のプライベートな情報を含む情報を提供しても問題はない。一方で、この情報が来客に伝わることは好ましくない。

また、例えば、父親と母親との会話に対して提供してもよい情報と、父親と子供との会話に対して提供してもよい情報とは異なる。

上記のような場合に適切に対応するためには、対話空間（例えば、住宅）において、複数の人間が会話を行っている空間範囲（対話エリア）を適切に把握し、当該対話エリアを用いて提供する情報を制御することが重要である。

この構成によれば、当該音声エージェント装置は、声量を加味して複数の人間が会話を行っている対話エリアを決定できる。これにより、当該音声エージェント装置は、例えば、少し離れた位置にいる複数の人間が、大きな声で会話している場合であっても当該複数の人間が会話していると判定することができる。

例えば、前記音声エージェント装置は、さらに、前記対話エリア内に存在する人間を識別する個人識別部を備え、前記情報提供部は、予め設定された、個人ごとの情報を示すプロフィール情報を記憶する記憶部と、前記対話エリア内に複数の人間が存在する場合、前記個人識別部による識別結果と、前記プロフィール情報とに基づき、当該複数の人間に提供する前記提供情報を選択する情報選択部とを備えてもよい。

この構成によれば、当該音声エージェント装置は、会話を行っている複数の人間に適した情報を提供できる。

また、前記プロフィール情報は、予め設定された、個人ごとに、当該個人に提供可能な情報を示し、前記情報選択部は、前記対話エリア内に複数の人間が存在する場合、前記プロフィール情報に基づき、当該複数の人間の全てに共通に提供可能な情報を判定し、当該提供可能な情報から前記提供情報を選択してもよい。

この構成によれば、当該音声エージェント装置は、例えば、対話エリア内にいる全ての人間各々のプロフィール、プライバシー、及び人間同士の関係性を考慮したうえで、適切な情報を提供できる。

例えば、前記個人識別部は、前記音声信号を用いて、予め登録された人間の声紋を認識することで、前記対話エリア内に存在する人間を識別してもよい。

この構成によれば、当該音声エージェント装置は、音声から対話エリア内にいる人間を識別できる。これにより、当該音声エージェント装置は、個人を認識するための新たな機器を用いることなく、上記機能を実現できる。これにより、当該音声エージェント装置は、低コスト化を実現できる。

例えば、前記音声エージェント装置は、さらに、前記対話空間における環境音を測定する環境音測定部を備え、前記対話エリア決定部は、前記環境音が第１音量である場合、前記対話エリアを第３範囲に決定し、前記環境音が前記第１音量より大きい第２音量である場合、前記対話エリアを前記第３範囲より狭い第４範囲に決定してもよい。

この構成によれば、当該音声エージェント装置は、環境音を加味して対話エリアを決定できるので、より適切に対話エリアを決定できる。

例えば、前記情報提供部は、前記対話空間内に配置されている複数の出力装置のうち、前記対話エリアに最も近い位置に配置されている出力装置を選択し、選択した出力装置に前記提供情報を出力することで、前記対話エリアに前記提供情報を提供する出力選択部を備えてもよい。

この構成によれば、当該音声エージェント装置は、対話空間にいる複数の人間のうち、情報を提示してもよい特定の人間にのみ当該情報を提示できる。

例えば、前記出力選択部は、前記対話エリアが第５範囲である場合、前記提供情報として第３音量の音声情報を出力し、前記対話エリアが第５範囲より広い第６範囲である場合、前記提供情報として、前記第３音量より大きい第４音量の音声情報を出力してもよい。

例えば、前記情報提供部は、前記対話空間のうち一部の範囲のみに情報を提示可能な出力装置を介して、前記対話空間のうち前記対話エリアに前記提供情報を提供する出力選択部を備えてもよい。

また、本発明の一態様に係る音声エージェント装置の制御方法は、音声エージェント装置の制御方法であって、前記音声エージェント装置が情報提供可能な空間である対話空間内に存在する人間の位置を検出する位置検出ステップと、収音部で得られた前記対話空間の音声信号から、前記人間の声量を検出する声量検出ステップと、前記声量が第１声量値である場合、前記人間の発話内容が聞こえうる空間範囲である対話エリアを、前記位置を含む第１範囲に決定し、前記声量が前記第１声量値より小さい第２声量値である場合、前記対話エリアを、前記位置を含み、かつ前記第１範囲より狭い第２範囲に決定する対話エリア決定ステップと、前記対話エリアに提供情報を提供する情報提供ステップとを含む。

これによれば、当該制御方法は、声量を加味して複数の人間が会話を行っている対話エリアを決定できる。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態）
音声エージェント装置が、特に２名以上が同一空間に存在する場合の、人間のおかれた環境を理解して対話内容を選択する方法、及び、その実現装置について説明する。

以下、音声エージェントシステムの構成、音声エージェント装置の構成、音声エージェント装置による処理の流れ、対話エリアを決定する処理の流れ、プロフィール情報の具体例、対話内容を選択する処理の流れについて順次説明する。

まず、本実施の形態に係る音声エージェント装置を含む音声エージェントシステムの構成を説明する。図１は、本実施の形態に係る音声エージェントシステムのブロック図である。

図１に示す音声エージェントシステムは、音声エージェント装置１００と、複数のマイク１０２Ａ〜１０２Ｄと、複数のスピーカ１０３Ａ〜１０３Ｃと、複数のディスプレイ１０４Ａ及び１０４Ｂとを含む。なお、複数のマイク１０２Ａ〜１０２Ｄを特に区別しない場合にはマイク１０２とも呼ぶ。また、複数のスピーカ１０３Ａ〜１０３Ｃを特に区別しない場合、スピーカ１０３とも呼ぶ。複数のディスプレイ１０４Ａ及び１０４Ｂを特に区別しない場合、ディスプレイ１０４とも呼ぶ。また、マイク１０２、スピーカ１０３及びディスプレイ１０４の数はこの数に限定されるものでなく、任意の数でよい。

ここで、マイク１０２は、対話空間１１１の音声を取得する収音部の一例である。また、スピーカ１０３は、対話空間１１１に配置されており、対話空間１１１に音声を出力する音声出力部の一例である。ディスプレイ１０４は、対話空間１１１に配置されており、テキスト、画像及び映像を表示する表示部の一例である。

音声エージェント装置１００（対話エージェント装置、又は音声対話エージェント装置とも呼ばれる）は、対話空間１１１内の人間と対話を行う。言い換えると、対話空間１１１は、音声エージェント装置１００が情報提供可能な空間（対話可能な空間）である。

音声エージェント装置１００は、ユーザの音声を認識し、音声入力によるユーザの指示に応じて、スピーカ１０３又はディスプレイ１０４に情報を提示する。より具体的には、音声エージェント装置１００は、音声入力によるユーザの指示に従いコンテンツを表示したり、ユーザの質問に回答したりする。なお、音声エージェント装置１００は、ユーザからの対話がない場合でも、所定の条件を満たした場合に、自発的にユーザへの問いかけを行なってもよい。

また、ここでは、音声エージェント装置１００は、スピーカ１０３及びディスプレイ１０４に接続されているが、いずれか一方のみに接続されていてもよい。また、音声エージェント装置１００と、スピーカ１０３及びディスプレイ１０４との接続は、有線又は無線を用いることができる。また、マイク１０２、スピーカ１０３、及びディスプレイ１０４のうち少なくとも一部が一体化されていてもよい。

この音声エージェントシステムは、住宅又はオフィス等の室内に設置されている。図１に示す例では、３名の人間１０１Ａ〜１０１Ｃが対話空間１１１内に存在する。３名の人間１０１Ａ〜１０１Ｃのうち、人間１０１Ａ及び１０１Ｂは互いに近くにおり、会話を行っている。また、人間１０１Ｃは、人間１０１Ａ及び１０１Ｂとから離れた場所にいる。また、人間１０１Ａが話者であるとする。

音声エージェント装置１００は複数のマイク１０２から得られた音声信号から、人間１０１Ａの発話が聞こえる空間範囲である対話エリア１１０を決定する。そして、音声エージェント装置１００は、対話エリア１１０内にいる人間が人間１０１Ａ及び１０１Ｂであることを識別する。そして、音声エージェント装置１００は、人間１０１Ａ及び１０１Ｂに聞こえるようスピーカ１０３の音量等を制御して情報提供を行う。

次に、音声エージェント装置１００の構成を説明する。図２は、音声エージェント装置１００のシステム構成を示すブロック図である。

図２に示すように音声エージェント装置１００は、音声取得部２０１と、位置検出部２０２と、声量検出部２０３と、環境音測定部２０４と、個人識別部２０５と、対話エリア決定部２０６と、情報提供部２０７とを備える。

音声取得部２０１は、複数のマイク１０２で取得された複数の音声信号２２１を取得する。

位置検出部２０２は、対話空間１１１に存在する人間の位置座標（位置２２２）を検出する。具体的には、位置検出部２０２は、複数の音声信号２２１に含まれる人間の音声（声量）に基づき、位置２２２を検出する。なお、位置検出部２０２は、カメラ又はセンサで取得された情報から、位置２２２を検出してもよい。なお、音声を用いた場合、他の機器（カメラ等）を用いることなく位置検出を行えるので、より好ましい。また、音声を用いた位置検出を行わない場合には、音声エージェント装置１００は、単一のマイク１０２で取得された音声信号２２１のみを取得してもよい。

声量検出部２０３は、音声信号２２１から、人間の声量２２３を検出する。

環境音測定部２０４は、音声信号２２１から、対話空間１１１の騒音レベルを示す環境音２２４を測定する。

個人識別部２０５は、対話空間１１１（対話エリア１１０）に存在する人間を識別する。例えば、個人識別部２０５は、音声信号２２１を用いて、予め登録された人間の声紋を認識することで、対話空間１１１内に存在する人間を識別する。具体的には、個人識別部２０５は、予め登録された人間の声紋の情報を保持している。また、個人識別部２０５は、この声紋の情報と、音声信号２２１に含まれる人間の音声とを比較することで、人間を識別する。なお、個人識別部２０５は、画像認証又は骨格認証等の他の手段を用いて、人間を認識してもよい。なお、音声（声紋）を用いた場合、他の機器（カメラ等）を用いることなく位置検出を行えるので、より好ましい。

対話エリア決定部２０６は、対話空間１１１内に存在する人間１０１Ａの発話内容が聞こえうる空間範囲である対話エリア１１０を決定する。具体的には、対話エリア決定部２０６は、位置２２２を含み、声量２２３及び環境音２２４に応じた広さを有する対話エリア１１０を決定する。

情報提供部２０７は、対話エリア１１０に提供情報を提供する。ここで、提供情報とは、音声情報、テキスト情報、画像、及び映像のうち少なくとも一つである。具体的には、情報提供部２０７は、音声入力によるユーザの指示に応じて、スピーカ１０３又はディスプレイ１０４に提供情報を提示する。また、情報提供部２０７は、音声エージェント装置１００が記憶している情報を、提供情報として提供してもよいし、他の機器から取得した情報を提供情報として提供してもよい。

この情報提供部２０７は、情報選択部２０８と、記憶部２０９と、出力選択部２１０とを備える。

記憶部２０９は、個人ごとの情報を示すプロフィール情報２２０を記憶する。

情報選択部２０８は、対話エリア１１０に提供する情報を選択する。例えば、情報選択部２０８は、対話エリア１１０内に複数の人間が存在する場合、個人識別部２０５による識別結果と、プロフィール情報２２０とに基づき、当該複数の人間に提供する提供情報を選択する。

出力選択部２１０は、対話空間１１１内に配置されている複数の出力装置（スピーカ１０３及びディスプレイ１０４）のうち、対話エリア１１０に対応する出力装置を選択し、選択した出力装置に提供情報を出力する。ここで対話エリア１１０に対応する出力装置とは、例えば、対話エリア１１０に最も近い位置に配置されている出力装置である。

次に、音声エージェント装置１００の動作を説明する。図３は、音声エージェント装置１００による、人間を検出し、対話内容を変える処理の流れを示すフローチャートである。

まず、位置検出部２０２は、室内（対話空間１１１）にいる複数の人間１０１Ａ〜１０１Ｃの位置２２２を検出する（Ｓ１０１）。次に、声量検出部２０３は、複数の人間１０１Ａ〜１０１Ｃの声量２２３を検出する（Ｓ１０２）。次に、対話エリア決定部２０６は、位置２２２及び声量２２３を用いて対話エリア１１０を決定する（Ｓ１０３）。次に、個人識別部２０５は、対話空間１１１にいる複数の人間１０１Ａ〜１０１Ｃの各々の個人を識別する（Ｓ１０４）。なお、ステップＳ１０１〜Ｓ１０４の順序は任意でよく、これらの一部が同時に行なわれてもよい。

また、これらステップＳ１０１〜Ｓ１０４の処理の一部又は全ては、常時（予め定められた時間間隔で繰り返し）行なわれてもよいし、音声エージェント装置１００が情報提供を行う直前等、予め定められた条件を満たす場合に行なわれてもよい。また、ステップＳ１０２〜Ｓ１０４の処理は、対話空間１１１にいる全ての人間に対して行なわれてもよいし、一部の人間に対して行なわれてもよい。例えば、声量検出処理（Ｓ１０２）は、発話者のみに行なわれてもよい。また、個人識別処理（Ｓ１０４）は、発話者を含む対話エリア１１０に含まれる人間に対してのみ行なわれてもよい。

図４は、図３に示す、声量を検出し、対話エリアを決定する処理（Ｓ１０３及びＳ１０４）の具体例を示すフローチャートである。

環境音測定部２０４は、対話空間１１１内に設置された複数のマイク１０２で得られた音声信号２２１から、２名以上の人間が存在する対話空間１１１の騒音レベル（環境音２２４）を定常的に測定している（Ｓ１２１）。また、声量検出部２０３は、音声信号２２１から対話空間１１１内の人間による音声発話を検出する（Ｓ１２２）。人間による音声発話が検出された場合（Ｓ１２２でＹｅｓ）、声量検出部２０３は、音声信号２２１から発話の入力レベルを検出することで、発話者の声量２２３を検出する（Ｓ１２３）。

次に、対話エリア決定部２０６は、ステップＳ１２１及びＳ１２３で検出された環境音２２４及び声量２２３を用いて、信号対雑音比を算出する（Ｓ１２４）。ここで、信号対雑音比は、声量２２３を環境音２２４で除算した値である。なお、信号対雑音比は、これに限定されず、声量２２３が大きくなると大きくなり、環境音２２４が大きくなると小さくなる値であればよい。

次に、対話エリア決定部２０６は、信号対雑音比を用いて、各マイク１０２と対話エリア１１０との距離ｄを設定する（Ｓ１２５）。そして、対話エリア決定部２０６は、設定された距離を用いて、対話エリア１１０を決定する（Ｓ１２６）。

図５は、信号対雑音比と、マイク１０２と対話エリア１１０との距離ｄとの関係を示すグラフである。図５に示す関係から、信号対雑音比が既知であれば、マイクと対話エリアとの間の距離ｄを求めることができる。なお、図５に示す信号対雑音比と距離ｄとの関係は一例であり、信号対雑音比が大きいほど距離ｄが小さくなる関係であればよい。

図６は、図７に示す例における、複数マイク１０２Ａ〜１０２Ｄの信号対雑音比（ＳＮ比）と、対話エリアまでの距離ｄとの関係を示す図である。

図７は、対話エリア１１０の決定方法を示す概念図である。図７に示すように、対話エリア決定部２０６は、信号対雑音比からマイク１０２Ａ〜１０２Ｄと対話エリア１１０との距離ｄ１〜ｄ４を算出する。次に、対話エリア決定部２０６は、各マイク１０２を中心とし、距離ｄを半径とする円を描く。そして、対話エリア決定部２０６は、対話空間１１１のうち、描かれた円内を除く空間を対話エリア１１０として決定する。

なお、ここでは、環境音２２４が常時測定されている例を述べたが、環境音の測定は音声発話が検出された際等、予め定められた条件を満たす場合に行なわれてもよい。この場合、環境音測定部２０４は、フィルタ処理等を用いて、音声信号２２１から環境音２２４を抽出してもよい。

また、対話エリア１１０の決定方法は、上記方法に限定されず、他の方法を用いてもよい。例えば、対話エリア１１０は、位置２２２を中心とする円であってもよい。そして、当該円の半径は、声量２２３が大きいほど大きくなり、環境音２２４が大きいほど小さくなる。つまり、図８Ａ及び図８Ｂに示すように、対話エリア決定部２０６は、声量２２３が第１声量値である場合、対話エリア１１０を第１範囲に決定し、声量２２３が第１声量値より小さい第２声量値である場合、対話エリア１１０を第１範囲より狭い第２範囲に決定する。また、図９Ａ及び図９Ｂに示すように、対話エリア決定部２０６は、環境音２２４が第１音量である場合、対話エリア１１０を第３範囲に決定し、環境音２２４が第１音量より大きい第２音量である場合、対話エリア１１０を第３範囲より狭い第４範囲に決定する。

なお、対話エリア１１０は、円形である必要はなく任意の形状でよい。また、対話エリア１１０は、位置２２２を中心又は重心とするエリアである必要はなく、位置２２２を含むエリアであってもよい。また、ここでは、環境音２２４が考慮された処理を説明したが、対話エリア１１０は、環境音２２４を考慮せず、声量２２３のみに基づき、対話エリア１１０を決定してもよい。

なお、声量２２３及び環境音２２４を考慮し、かつ、複数のマイク１０２からの音声信号２２１を用いる場合には、上述したように信号対雑音比を用いることで、容易な処理で適切な対話エリア１１０を決定できる。具体的には、上述した一連の処理のみにより、話者の位置、声量及び環境音を加味した対話エリア１１０を算出できる。

再度、図３を用いて説明を行なう。

対話エリア１１０の決定（Ｓ１０３）及び個人識別処理（Ｓ１０４）が行われた後、情報選択部２０８は、対話エリア１１０に提供する提供情報を選択する（Ｓ１０５）。具体的には、情報選択部２０８は、記憶部２０９に格納されている、個人ごとの情報を示すプロフィール情報２２０に基づき、提供情報を選択する。また、情報選択部２０８は、対話エリア１１０内に複数の人間が存在する場合、個人識別部２０５による識別結果と、プロフィール情報２２０とに基づき、当該複数の人間に提供する提供情報を選択する。

ここで、プロフィール情報２２０は、個人プロフィール情報２２０Ａと、人間関係情報２２０Ｂとを含む。

図１０は、個人プロフィール情報２２０Ａの具体例を示す図である。この個人プロフィール情報２２０Ａは、情報ごとに設定された、当該情報の公開範囲を示すプライバシー設定情報２２０Ｃを含む。この個人プロフィール情報２２０Ａは、個人ごとに設けられている。なお、個人プロフィール情報２２０Ａに含まれる情報のうち一部は、複数の個人に共通の情報として管理されていてもよい。

図１１は、人間関係情報２２０Ｂの具体例を示す図である。この人間関係情報２２０Ｂは、ある人間（例：鈴木太郎）ともう一人の人間（例：鈴木次郎）とがどのような関係か（例：家族）を示す。

これらのプライバシー設定情報２２０Ｃと人間関係情報２２０Ｂとを用いることで、情報選択部２０８は、各個人に提供可能な情報を判別することできる。つまり、プロフィール情報２２０は、予め設定された、個人ごとに、当該個人に提供可能な情報を示す。また、情報選択部２０８は、対話エリア１１０内に複数の人間が存在する場合、プロフィール情報２２０に基づき、当該複数の人間の全てに共通に提供可能な情報を判定し、当該提供可能な情報から提供情報を選択する。

以下、図３に示す提供情報選択処理（Ｓ１０５）の具体例として、話者（例えば、人間１０１Ａが、音声エージェント装置１００に、コンテンツの提示を指示した場合の音声エージェント装置１００の動作を説明する。

図１２は、この場合の、対話内容を選択する処理の流れを示すフローチャートである。

まず、情報提供部２０７は、音声信号２２１の解析結果から、コンテンツの提示要求を取得する（Ｓ１４１）。次に、情報選択部２０８は、個人識別結果に基づき、対話エリア１１０内にいる人間（例えば、人間１０１Ａ及び１０１Ｂ）の個人プロフィール情報２２０Ａに含まれる対象コンテンツのプライバシー設定情報２２０Ｃを取得する（Ｓ１４２）。また、情報選択部２０８は、人間関係情報２２０Ｂから対話エリア１１０内にいる人間の人間関係を取得する（Ｓ１４３）。

情報選択部２０８は、上記ステップＳ１４２及びＳ１４３で必要な情報が取得できた場合（Ｓ１４４でＹｅｓ）、コンテンツのプライバシー設定情報２２０Ｃで示される公開範囲（以下「コンテンツの公開範囲」）と、対話エリア１１０内にいる人間の人間関係とを用いて、対話エリア１１０にいる全ての人間がコンテンツの公開範囲に含まれるか否かを判定する（Ｓ１４５）。対話エリア１１０にいる全ての人間がコンテンツの公開範囲に含まれる場合（Ｓ１４５でＹｅｓ）、情報選択部２０８は、コンテンツの提示を許可し（Ｓ１４６）、出力選択部２１０は、当該コンテンツを提示する。一方、対話エリア１１０にいる少なくとも一人の人間がコンテンツの公開範囲に含まれない場合（Ｓ１４５でＮｏ）、情報選択部２０８は、当該コンテンツの提示を禁止する（Ｓ１４７）。

また、ステップＳ１４４において、判定に必要な全ての情報を取得できなかった場合（Ｓ１４４でＮｏ）、情報選択部２０８は、当該コンテンツの提示を禁止する（Ｓ１４７）。ここで、判定に必要な全ての情報を取得できない場合とは、例えば、対話エリア１１０内にいる人間のうち少なくとも一人の情報が音声エージェント装置１００に登録されておらず、人間関係情報２２０Ｂに、当該人間の関係性が含まれていない場合である。

また、ここでは、ユーザの指示に応じてコンテンツを提示する例を述べたが、音声エージェント装置１００が自発的に情報を提示する場合も同様の処理を行うことが可能である。この場合、情報選択部２０８は、対話エリア１１０に含まれる全ての人間に公開してもよい情報から提供情報を選択する。

再度、図３を用いて説明する。

提供情報が選択された後（Ｓ１０５）、出力選択部２１０は、情報出力先の出力装置（スピーカ又はディスプレイ）を選択する（Ｓ１０６）。具体的には、出力選択部２１０は、対話空間１１１のうち対話エリア１１０にのみ提供情報が提供されるように、情報出力先の出力装置を選択する。例えば、出力選択部２１０は、対話エリア１１０に最も近い位置に配置されている出力装置を選択する。

また、出力選択部２１０は、対話エリア１１０の広さに応じて、スピーカ１０３から発する音声情報の音量を変更する。具体的には、出力選択部２１０は、対話エリア１１０が広いほど音声情報の音量を大きくする。つまり、出力選択部２１０は、対話エリア１１０が第５範囲である場合、提供情報として第３音量の音声情報を出力し、対話エリア１１０が第５範囲より広い第６範囲である場合、提供情報として、第３音量より大きい第４音量の音声情報を出力する。

言い換えると、出力選択部２１０は、対話エリア１１０内の人間の対話の声量２２３に応じて、スピーカ１０３から発する音声情報の音量を変更する。具体的には、出力選択部２１０は、声量２２３が大きいほど音量を大きくする。また、出力選択部２１０は、環境音２２４に応じて、スピーカ１０３から発する音声情報の音量を変更する。具体的には、出力選択部２１０は、環境音２２４が大きいほど音量を小さくする。また、出力選択部２１０は、対話エリア１１０内に存在する人間の個人プロフィール情報２２０Ｂに含まれる情報（例えば、年齢）に応じて、音量を変更してもよい。

なお、出力選択部２１０は、対話エリア１１０の広さ、対話エリア１１０内の人間の対話の声量２２３、環境音２２４及び個人プロフィール情報２２０Ｂの少なくとも一つに応じて、音質（周波数等）を変更してもよい。

最後に、出力選択部２１０は、選択された出力装置に提供情報を提示する（Ｓ１０７）。

なお、提供情報の選択処理（Ｓ１０５）と情報出力先の選択処理（Ｓ１０６）との順序は逆であってもよいし、一部の処理が同時に行われてもよい。

また、ここでは、音声エージェント装置１００が複数の出力装置に接続されている例を述べたが、対話空間１１１のうち一部の範囲のみに情報を提示可能な単一の出力装置に接続されていてもよい。ここで、対話空間１１１のうち一部の範囲のみに情報を提示可能な出力装置とは、例えば、指向性スピーカ等である。この場合、出力選択部２１０は、当該出力装置を介して、対話空間１１１のうち対話エリア１１０にのみ提供情報を提供する。

図１３は、この場合の音声エージェントシステムのブロック図である。図１３に示すように、音声エージェント装置１００は、指向性スピーカ等のスピーカ１０３Ｄに接続されている。そして、音声エージェント装置１００に含まれる出力選択部２１０は、対話エリア１１０のみに音声情報が出力されるようにスピーカ１０３Ｄを制御する。

以上より、音声エージェント装置１００は、例えば、環境音２２４を継続的に測定しているとともに、室内にいる人間の位置２２２を継続的に検出している。声量検出部２０３が室内にいる人間の発話を検出すると、対話エリア決定部２０６は、話者の位置及び話者の声量を検出し、環境音の信号レベルと話者の声量との比に基づいて話者の発話が聞こえる空間範囲である対話エリア１１０を決定する。次に、個人識別部２０５は、対話エリア１１０内にいる人間の声紋を認識することにより人間を個々に識別する。そして、情報選択部２０８は、認識された複数の人間の人間関係を取得し、当該人間関係に基づき発話内容を選択することができる。つまり、音声エージェント装置１００は、複数人がいる室内において、人間関係によっては不適切な内容の情報を提示することなく、対話を進行することができる。

以上、実施の形態に係る音声エージェント装置について説明したが、本発明は、この実施の形態に限定されるものではない。

また、上記実施の形態に係る音声エージェント装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

さらに、本発明は上記プログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

また、上記で用いた数字は、全て本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。また、構成要素間の接続関係は、本発明を具体的に説明するために例示するものであり、本発明の機能を実現する接続関係はこれに限定されない。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

以上、一つまたは複数の態様に係る音声エージェント装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本発明は、音声エージェント装置に適用できる。

１００音声エージェント装置
１０１Ａ、１０１Ｂ、１０１Ｃ人間
１０２、１０２Ａ、１０２Ｂ、１０２Ｃ、１０２Ｄマイク
１０３、１０３Ａ、１０３Ｂ、１０３Ｃ、１０３Ｄスピーカ
１０４、１０４Ａ、１０４Ｂディスプレイ
１１０対話エリア
１１１対話空間
２０１音声取得部
２０２位置検出部
２０３声量検出部
２０４環境音測定部
２０５個人識別部
２０６対話エリア決定部
２０７情報提供部
２０８情報選択部
２０９記憶部
２１０出力選択部
２２０プロフィール情報
２２０Ａ個人プロフィール情報
２２０Ｂ人間関係情報
２２０Ｃプライバシー設定情報
２２１音声信号
２２２位置
２２３声量
２２４環境音

Claims

音声エージェント装置であって、
前記音声エージェント装置が情報提供可能な空間である対話空間内に存在する人間の位置を検出する位置検出部と、
収音部で得られた前記対話空間の音声信号から、前記人間の声量を検出する声量検出部と、
前記声量が大きいほど、前記人間の発話内容が聞こえうる空間範囲である対話エリアを広く決定する対話エリア決定部と、
前記対話エリアに提供情報を提供する情報提供部とを備える
音声エージェント装置。
前記音声エージェント装置は、さらに、
前記対話エリア内に存在する人間を識別する個人識別部を備え、
前記情報提供部は、
予め設定された、個人ごとの情報を示すプロフィール情報を記憶する記憶部と、
前記対話エリア内に複数の人間が存在する場合、前記個人識別部による識別結果と、前記プロフィール情報とに基づき、当該複数の人間に提供する前記提供情報を選択する情報選択部とを備える
請求項１記載の音声エージェント装置。
前記プロフィール情報は、予め設定された、個人ごとに、当該個人に提供可能な情報を示し、
前記情報選択部は、前記対話エリア内に複数の人間が存在する場合、前記プロフィール情報に基づき、当該複数の人間の全てに共通に提供可能な情報を判定し、当該提供可能な情報から前記提供情報を選択する
請求項２記載の音声エージェント装置。
前記個人識別部は、前記音声信号を用いて、予め登録された人間の声紋を認識することで、前記対話エリア内に存在する人間を識別する
請求項２又は３記載の音声エージェント装置。
前記音声エージェント装置は、さらに、
前記対話空間における環境音を測定する環境音測定部を備え、
前記対話エリア決定部は、前記環境音が大きいほど、前記対話エリアを狭く決定する
請求項１〜４のいずれか１項に記載の音声エージェント装置。
前記情報提供部は、
前記対話空間内に配置されている複数の出力装置のうち、前記対話エリアに最も近い位置に配置されている出力装置を選択し、選択した出力装置に前記提供情報を出力することで、前記対話エリアに前記提供情報を提供する出力選択部を備える
請求項１〜５のいずれか１項に記載の音声エージェント装置。
前記出力選択部は、前記対話エリアが広いほど、前記提供情報として出力する音声情報の音量を大きくする
請求項６記載の音声エージェント装置。
前記情報提供部は、
前記対話空間のうち一部の範囲のみに情報を提示可能な出力装置を介して、前記対話空間のうち前記対話エリアに前記提供情報を提供する出力選択部を備える
請求項１〜５のいずれか１項に記載の音声エージェント装置。
音声エージェント装置の制御方法であって、
前記音声エージェント装置が情報提供可能な空間である対話空間内に存在する人間の位置を検出する位置検出ステップと、
収音部で得られた前記対話空間の音声信号から、前記人間の声量を検出する声量検出ステップと、
前記声量が第１声量値である場合、前記人間の発話内容が聞こえうる空間範囲である対話エリアを、前記位置を含む第１範囲に決定し、前記声量が前記第１声量値より小さい第２声量値である場合、前記対話エリアを、前記位置を含み、かつ前記第１範囲より狭い第２範囲に決定する対話エリア決定ステップと、
前記対話エリアに提供情報を提供する情報提供ステップとを含む
音声エージェント装置の制御方法。
請求項９記載の音声エージェント装置の制御方法をコンピュータに実行させるためのプログラム。
音声エージェント装置に用いられる集積回路であって、
前記音声エージェント装置が情報提供可能な空間である対話空間内に存在する人間の位置を検出する位置検出部と、
収音部で得られた前記対話空間の音声信号から、前記人間の声量を検出する声量検出部と、
前記声量が第１声量値である場合、前記人間の発話内容が聞こえうる空間範囲である対話エリアを、前記位置を含む第１範囲に決定し、前記声量が前記第１声量値より小さい第２声量値である場合、前記対話エリアを、前記位置を含み、かつ前記第１範囲より狭い第２範囲に決定する対話エリア決定部と、
前記対話エリアに提供情報を提供する情報提供部とを備える
集積回路。