JP6915765B1

JP6915765B1 - 関心度評価システムおよび関心度評価方法

Info

Publication number: JP6915765B1
Application number: JP2021516848A
Authority: JP
Inventors: 善成石橋
Original assignee: Murata Manufacturing Co Ltd
Current assignee: Murata Manufacturing Co Ltd
Priority date: 2019-10-10
Filing date: 2020-09-29
Publication date: 2021-08-04
Anticipated expiration: 2040-09-29
Also published as: JPWO2021070681A1; WO2021070681A1

Abstract

会話テキスト取得部（１４）は、複数人の利用者の会話の音声データが変換された会話テキストを取得する。音声特徴量抽出部（１３）は、複数人の利用者の会話の音声データから音声特徴量を抽出する。画像特徴量抽出部（１１）は、複数人の利用者の会話中の画像データから画像特徴量を抽出する。関心度評価部（１８）は、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価する。

Description

本発明は、関心度評価システムおよび関心度評価方法に関する。

従来から、利用者が関心のある情報を提供するシステムが知られている。たとえば、特許文献１のシステムは、オントロジを利用して人間同士の会話を正確に理解し、オントロジとメタ情報とを利用して適切なＷｅｂページを検索して提示する。

特開２００４−３４１６７２号公報

特許文献１では、会話を音声認識することによって得られるテキストだけに基づいて、利用者が関心のある情報を提示するので、利用者が真に関心のある情報を提供することができない。

それゆえに、本発明の目的は、利用者が真に関心のある情報を提供することを可能にする関心度評価システムおよび関心度評価方法を提供することである。

本発明の関心度評価システムは、複数人の利用者の会話の音声データを取得するマイク装置と、複数人の利用者の会話中の画像データを取得するカメラ装置と、複数人の利用者の会話の音声データが変換された会話テキストを取得する会話テキスト取得部と、複数人の利用者の会話の音声データから音声特徴量を抽出する音声特徴量抽出部と、複数人の利用者の会話中の画像データから画像特徴量を抽出する画像特徴量抽出部と、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価する関心度評価部とを備える。

好ましくは、画像特徴量は、複数人の利用者の顔による感情の大きさを表わす顔感情度を含む。

好ましくは、画像特徴量は、さらに、複数人の利用者のうちの二人の視線の一致度を含む。

好ましくは、音声特徴量は、複数人の利用者の音声による感情の大きさを表わす音声感情度を含む。

好ましくは、マイク装置は、複数のマイクを含むマイクロフォンアレイである。関心度評価システムは、マイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、音声データの話者を識別する話者識別部を備える。画像特徴量抽出部は、話者の識別結果に基づいて、複数人の利用者の各々についての画像特徴量を抽出する。音声特徴量抽出部は、話者の識別結果に基づいて、複数人の利用者の各々についての音声特徴量を抽出する。関心度評価部は、複数人の利用者の各々についての音声特徴量および画像特徴量に基づいて、キーワードに対する関心度を評価する。

好ましくは、カメラ装置は、全方向撮像型のカメラ装置である。話者識別部は、全方向撮影型のカメラ装置からの画像データを用いて、複数人の利用者の移動を検出し、検出の結果をさらに用いて、前複数人の利用者の会話の音声データの音源方向を推定する。

好ましくは、関心度評価システムは、複数のキーワードを記憶する記憶装置と、会話テキストから記憶装置に記憶されているいずれかのキーワードを検索する検索部とを備える。関心度評価部は、検索されたキーワードに対する関心度を評価する。

好ましくは、記憶装置は、トピックごとに、トピックに関連する複数のキーワードを記憶する。検索部は、会話テキストから記憶装置に記憶されている選択されたトピックのキーワードを検索する。

好ましくは、関心度評価システムは、トピックごとに、トピックの会話を誘導する画面を記憶する記憶装置と、表示装置と、記憶装置から選択されたトピックの会話を誘導する画面を読み出して、表示装置に表示する会話誘導部とをさらに備える。

好ましくは、トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する記憶装置と、表示装置と、スコア情報を参照して、複数の項目の中で、関心度が最大のキーワードのスコアが最大となる項目を特定し、特定した項目を表わす情報を表示装置に表示する推奨部とをさらに備える。

好ましくは、スコア情報は、ＴＦ（Term Frequency）と、ＩＤＦ（Inverse Document Frequency）とによって表される。

本発明の関心度評価方法は、複数人の利用者の会話の音声データを取得するステップと、複数人の利用者の会話中の画像データを取得するステップと、複数人の利用者の会話の音声データが変換された会話テキストを取得するステップと、複数人の利用者の会話の音声データから音声特徴量を抽出するステップと、複数人の利用者の会話中の画像データから画像特徴量を抽出するステップと、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価するステップとを備える。

本発明によれば、利用者が真に関心のある情報を提供することができる。

実施の形態の関心度評価システムの構成を表わす図である。実施の形態の関心度評価システムの利用の形態の例を表わす図である。利用者Ａおよび利用者Ｂの顔感情度の時間変化の例を表わす図である。利用者Ａの視線の方向の時間変化と、利用者Ｂの視線の方向の時間変化とを表わす図である。利用者Ａおよび利用者Ｂの音声感情度の時間変化の例を表わす図である。会話誘導画面の例を表わす図である。会話の関心度ＳＣの時間変化の例を表わす図である。会話の関心度ＳＣから一致キ−ワードに対する関心度ＫＣを求める手順を説明するための図である。一致キーワードの関心度ＫＣの例を表わす図である。トピック「食事」に関連する複数の項目の各々についての複数のキーワードのスコア情報を表わす図である。推奨部１７による推奨情報の例を表わす図である。実施の形態の関心度評価システムによる関心度の評価手順を表わすフローチャートである。

以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。

図１は、実施の形態の関心度評価システムの構成を表わす図である。図２は、実施の形態の関心度評価システムの利用の形態の例を表わす図である。

関心度評価システムは、カメラ装置１と、マイク装置２と、特徴量抽出装置３と、評価装置４と、音声・テキスト変換装置５と、表示装置６とを備える。特徴量抽出装置３は、画像特徴量抽出部１１と、音声特徴量抽出部１３と、話者識別部１２と、会話テキスト取得部１４と、操作入力部１５とを備える。

評価装置４は、記憶装置２０と、検索部１９と、関心度評価部１８と、推奨部１７と、会話誘導部１６と備える。記憶装置２０は、キーワード辞書記憶部２３と、スコア情報記憶部２２と、会話誘導画面記憶部２１とを備える。

カメラ装置１は、複数人の利用者の会話中の画像データを取得する。カメラ装置１は、３６０度パノラマカメラまたは半円球カメラなどの全方向撮像型のカメラを備える。

マイク装置２は、複数人の利用者の会話の音声データを取得する。マイク装置２は、複数のマイクを含むマイクロフォンアレイを備える。

操作入力部１５は、システム管理者および利用者からの入力を受け付ける。
話者識別部１２は、マイク装置２に含まれるマイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、音声データの話者を識別する。話者識別部１２は、カメラ装置１に含まれる全方向撮影型のカメラからの画像データを用いることによって、複数人の利用者の移動を検出し、この検出の結果もさらに用いて、音声データの話者を識別してもよい。これによって、利用者Ａの位置と利用者Ｂの位置が入れ替わった場合でも、音声データの話者を識別することができる。全方向撮影型のカメラを用いることによって、複数台のカメラを用いなくても、１台のカメラによって話者の移動を検出することができる。

画像特徴量抽出部１１は、カメラ装置１から出力される複数人の利用者の画像データから画像特徴量を抽出する。より、具体的には、画像特徴量抽出部１１は、話者の識別結果に基づいて、複数人の利用者の各々についての画像特徴量を抽出する。

画像特徴量は、複数人の利用者の顔による感情の大きさを表わす顔感情度を含む。顔感情度は、喜び成分、怒り成分、悲しみ成分、および平静成分のうちの少なくとも１つを含む。たとえば、喜び成分が大きいときに、顔感情度が大きくなるように定めることができる。悲しみ成分が大きいときに、顔感情度は小さくなるように定めることができる、平静成分が大きいときに、顔感情度は小さくなるように定めることができる。怒り成分が大きいときに、顔感情度が大きくなるように定めることができる。

顔感情度は、公知の市販またはオープンソースのツールまたはライブラリなどを用いて抽出することができる。ツールまたはライブラリは、学習済みの深層ニューラルネットワークを用いたもの、あるいはルールベースを用いたものでもよい。

図３は、利用者Ａおよび利用者Ｂの顔感情度の時間変化の例を表わす図である。図３に示すように、利用者ごとの顔感情度が抽出される。

画像特徴量は、さらに、複数人の利用者のうちの二人の視線の一致度ＶＥを含む。
図４は、利用者Ａの視線の方向と利用者Ａから利用者Ｂへの方向とのなす角度の時間変化と、利用者Ｂの視線の方向と利用者Ｂから利用者Ａへの方向とのなす角度の時間変化とを表わす図である。

画像特徴量抽出部１１は、利用者Ａの視線の方向、利用者Ｂの視線の方向、および予め定められた特定の角度のαとの関係に基づいて、視線の一致度ＶＥを評価する。たとえば、画像特徴量抽出部１１は、利用者Ａの視線の方向と利用者Ａから利用者Ｂへの方向とのなす角度が（−α）〜αの範囲内であり、かつ利用者Ｂの視線の方向と利用者Ｂから利用者Ａへの方向とのなす角度が（−α）〜αの範囲内のときに、視線の一致度ＶＥを「＋１」に設定してもよい。画像特徴量抽出部１１は、利用者Ａの視線の方向と利用者Ａから利用者Ｂへの方向とのなす角度が（−α）〜αの範囲内であり、かつ利用者Ｂの視線の方向と利用者Ｂから利用者Ａへの方向とのなす角度が（−α）〜αの範囲外のときに、視線の一致度ＶＥを「＋０．５」に設定してもよい。画像特徴量抽出部１１は、利用者Ａの視線の方向と利用者Ａから利用者Ｂへの方向とのなす角度が（−α）〜αの範囲外であり、かつ利用者Ｂの視線の方向と利用者Ｂから利用者Ａへの方向とのなす角度が（−α）〜αの範囲内のときに、視線の一致度ＶＥを「＋０．５」に設定してもよい。画像特徴量抽出部１１は、利用者Ａの視線の方向と利用者Ａから利用者Ｂへの方向とのなす角度が（−α）〜αの範囲外であり、かつ利用者Ｂの視線の方向と利用者Ｂから利用者Ａへの方向とのなす角度が（−α）〜αの範囲外のときに、視線の一致度ＶＥを「０」に設定してもよい。

音声特徴量抽出部１３は、マイク装置２から出力される複数人の利用者の音声データから音声特徴量を抽出する。より具体的には、音声特徴量抽出部１３は、話者の識別結果に基づいて、複数人の利用者の各々についての音声特徴量を抽出する。

音声特徴量は、複数人の利用者の音声による感情の大きさを表わす音声感情度を含む。音声感情度は、喜び成分、怒り成分、悲しみ成分、平静成分、およびエネルギー成分のうちの少なくとも１つを含む。エネルギー成分は、音声のトーンおよび抑揚を表わす。音声のトーンが高いほど、エネルギー成分が大きくなる。声の抑揚が大きいほど、エネルギー成分が大きくなる。たとえば、喜び成分が大きいときに、音声感情度が大きくなるように定めることができる。悲しみ成分が大きいときに、音声感情度は小さくなるように定めることができる、平静成分が大きいときに、音声感情度は小さくなるように定めることができる。怒り成分が大きいときに、音声感情度が大きくなるように定めることができる。エネルギー成分が大きいときに、音声感情度は小さくなるように定めることができる。

音声感情度は、公知の市販またはオープンソースのツールまたはライブラリなどを用いて抽出することができる。ツールまたはライブラリは、学習済みの深層ニューラルネットワークを用いたもの、あるいはルールベースを用いたものでもよい。ツールまたはライブラリとして、たとえば、Ｅｍｐａｔｈ（登録商標）を用いてもよい。

図５は、利用者Ａおよび利用者Ｂの音声感情度の時間変化の例を表わす図である。図５に示すように、利用者ごとに音感情度が抽出される。

会話テキスト取得部１４は、マイク装置２から出力される複数人の利用者の会話の音声データを音声・テキスト変換装置５へ送る。音声・テキスト変換装置５は、会話の音声データを会話テキストに変換して、会話テキストを会話テキスト取得部１４へ送る。会話テキスト取得部１４は、変換された会話テキストを取得する。

音声・テキスト変換装置５は、たとえば、深層学習などによって学習されたニューラルネットワークに会話テキスト取得部１４から送られる音声データを入力し、ニューラルネットワークから出力されるテキストを会話テキストとして会話テキスト取得部１４に送るものとしてもよい。

キーワード辞書記憶部２３は、トピックごとに、トピックに関連する複数のキーワードを定めたキーワード情報を記憶する。

たとえば、キーワード情報は、「食事」のトピックに関連して、複数のキーワード（そば、バーベキュー、寿司、カレー、パスタ、マルゲリータ、焼き魚、豆腐、味噌汁、居酒屋、・・・）を定める。

キーワード情報は、「化粧品」のトピックに関連して、複数のキーワード（特定メーカの口紅、特定メーカのアイシャドウ、特定メーカの化粧水・・・）を定める。

会話誘導画面記憶部２１は、トピックごとに、トピックの会話を誘導する会話誘導画面を記憶する。

図６は、会話誘導画面の例を表わす図である。図６には、「食事」のトピックについての会話誘導画面が示されている。

会話誘導部１６は、会話誘導画面記憶部２１からシステム管理者などによって選択されたトピックの会話を誘導する会話誘導画面を読み出して、表示装置６に表示させる。これによって、複数人の利用者に選択されたトピックについての会話を促すことができる。

検索部１９は、キーワード辞書記憶部２３に記憶されている選択されたトピックのいずれかのキーワードを会話テキストから検索する。より具体的には、検索部１９は、会話テキスト取得部１４から送られる会話テキストに含まれる複数の単語の各々が、キーワード辞書記憶部２３に記憶されている選択されたトピックの複数のキーワードのいずれかと一致するか否かを調べる。検索部１９は、一致した単語を一致キーワードとして、関心度評価部１８へ送る。

関心度評価部１８は、会話テキストに含まれる一致キーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、一致キーワードに対する関心度を評価する。より具体的には、関心度評価部１８は、複数人の利用者の各々についての音声特徴量および画像特徴量に基づいて、一致キーワードに対する関心度を評価する。

以下では、より具体的に関心度の算出方法について説明する。
まず、関心度評価部１８は、複数人の利用者の音声感情度と、複数人の利用者の音声感情度と、複数人の利用者の中の二人の視線の一致度とに基づいて、複数人の利用者の会話の関心度ＳＣを算出する。関心度評価部１８は、会話の関心度ＳＣから一致キ−ワードに対する関心度ＫＣを算出する。

以下において、利用者Ａと利用者Ｂの会話における、一致キーワードに対する関心度の評価の具体例を説明する。

関心度評価部１８は、以下のように、利用者Ａの音声感情度ＳＥＡと、利用者Ｂの音声感情度ＳＥＢとに基づいて、音声感情度ＳＥを求める。

ＳＥ＝ｆ（ＳＥＡ，ＳＥＢ）・・・（１）
たとえば、ｆは、係数ｆ１、ｆ２を用いて、以下のように表されてもよい。

ｆ（ＳＥＡ，ＳＥＢ）＝ｆ１×ＳＥＡ＋ｆ２×ＳＥＢ・・・（２）
関心度評価部１８は、以下のように、利用者Ａの顔感情度ＦＥＡと、利用者Ｂの顔感情度ＦＥＢとに基づいて、顔感情度ＦＥを求める。

ＦＥ＝ｇ（ＦＥＡ，ＦＥＢ）・・・（３）
たとえば、ｇは、係数ｇ１、ｇ２を用いて、以下のように表されてもよい。

ｇ（ＦＥＡ，ＦＥＢ）＝ｇ１×ＦＥＡ＋ｆ２×ＦＥＢ・・・（４）
関心度評価部１８は、以下のように、音声感情度ＳＥと、顔感情度ＦＥと、視線の一致度ＶＥとに基づいて、会話の関心度ＳＣを算出する。

ＳＣ＝ｈ（ＳＥ，ＦＥ，ＶＥ）・・・（５）
たとえば、ｈは、係数ｈ１、ｈ２を用いて、以下のように表されてもよい。

ｈ（ＳＥ，ＦＥ，ＶＥ）＝（ｈ１×ＳＥ＋ｈ２×ＦＥ）×ＶＥ・・・（６）
図７は、会話の関心度ＳＣの時間変化の例を表わす図である。図７に示すように、会話の関心度ＳＣは、時刻とともに変化する。

関心度評価部１８は、会話の関心度ＳＣを用いて、検索部１９から出力される一致キーワードに対する関心度ＫＣを求める。

関心度評価部１８は、一致キーワードが発せられた時点に対応する期間における会話の関心度ＳＣに基づいて、一致キーワードに対する関心度ＫＣを算出する。たとえば、一致キーワードＷ１（カレー）が発せられた時点に対応する期間は、一致キーワードＷ１（カレー）が発せられた時点から、次の一致キーワードＷ２が発せされた時点までの間の期間とすることができる。一致キーワードＷ２は、一致キーワードＷ１（カレー）と同一であっても、別個（お寿司）であってもよい。

図８は、会話の関心度ＳＣから一致キ−ワードに対する関心度ＫＣを求める手順を説明するための図である。

時刻ｔ１において、キーワードＷ１（カレー）が発せられ、時刻ｔ２において、キーワードＷ２（日本酒）が発せされ、時刻ｔ３において、キーワードＷ１（カレー）が発せられ、時刻ｔ４において、キーワードＷ１（カレー）が発せされ、時刻ｔ５において、キーワードＷ３（寿司）が発せられたとする。時刻ｔ１、ｔ２、ｔ３、ｔ４、ｔ５における会話の関心度をＳＣ（ｔ１）、ＳＣ（ｔ２）、ＳＣ（ｔ３）、ＳＣ（ｔ４）、ＳＣ（ｔ５）とする。時刻ｔ２と時刻ｔ１との間が時間ΔＴ１、時刻ｔ３と時刻ｔ２との間が時間ΔＴ２、時刻ｔ４と時刻ｔ３との間が時間ΔＴ３、時刻ｔ５と時刻ｔ４との間が時間ΔＴ４とする。

キーワードＷ１（カレー）に対する関心度ＫＣは、以下の式で表される。
KC={SC(t1)*ΔT1+SC(t3)*ΔT3+SC(t4)*ΔT4}/(ΔT1+ΔT3+ΔT4）・・・（７）
関心度評価部１８は、会話の開始から現在までにおける関心度ＫＣが大きな一致キーワードおよびその関心度ＫＣをリアルタイムで表示装置６に表示するものとしてもよい。

図９は、一致キーワードの関心度ＫＣの例を表わす図である。図９の例では、キーワード（そば）に対する関心度ＫＣが最大で、キーワード（寿司）に対する関心度ＫＣが２番目に大きく、キーワード（バーベキュー）に対する関心度ＫＣが３番目に大きい。

スコア情報記憶部２２は、トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する。

たとえば、選択されたトピックと関連する項目ｉについての複数のキーワードのスコア情報は、項目ｉと関連する文書Ｄｉに含まれる選択されたトピックと関連する複数のキーワードのＴＦ−ＩＤＦによって表されるものとすることができる。ＴＦ−ＩＤＦは、以下のように表される。たとえば、トピックが「食事」の場合に、項目は、食事を提供する場所とし、文書Ｄは、食事を提供する場所の宣伝用のＷｅｂコンテンツとすることができる。

ＴＦ−ＩＤＦ＝ＴＦ×ＩＤＦ・・・（８）
ＴＦ（Term Frequency）は、文書Ｄ内におけるキーワードＸの出現回数ｎｘを文書Ｄ内における選択されたトピックと関連するすべてのキーワードの出現回数Ｎｋで除算した値である。

ＴＦ＝ｎｘ／Ｎｋ・・・（９）
ＩＤＦ（Inverse Document Frequency）は、選択されたトピックと関連する全文書数Ｎｄと、選択されたトピックと関連する全文書のうちのキーワードＸが出現する文書の数ｄｆとを用いて表される。

ＩＤＦ＝｛ｌｏｇ（Ｎｄ／ｄｆ）｝＋１・・・（１０）
図１０は、トピック「食事」に関連する複数の項目の各々についての複数のキーワードのスコア情報を表わす図である。

たとえば、各項目について、複数のキーワードである「カレー」、「ハンバーガ」、「寿司」、「パスタ」、「回転」、「和風」、「持ち帰り」、「そば」、「バーベキュー」、「食べ放題」のスコアであるＴＦ−ＩＤＦの値が定められている。

推奨部１７は、選択されたトピックと関連する複数の項目の各々についての複数のキーワードのスコアを定めたスコア情報を参照して、選択されたトピックと関連する全項目の中で、関心度ＫＣが高いキーワードのスコア（ＴＦ−ＩＤＦ）が最大となる項目を特定する。推奨部１７は、特定した項目を表わす情報を推奨情報として表示装置６に表示する。

図１１は、推奨部１７による推奨情報の例を表わす図である。
トピック「食事」に関連する全項目の中で、関心度ＫＣが最大のキーワード「そば」のスコアが最大の項目が「Ａそば店」である。推奨部１７は、キーワード「そば」に対して「Ａそば店」を特定し、「Ａそば店」を表わす情報を表示装置６に表示する。

トピック「食事」に関連する全項目の中で、関心度ＫＣが２番目に大きなキーワード「寿司」のスコアが最大の項目が「Ｂ寿司店」である。推奨部１７は、キーワード「寿司」に対して「Ｂ寿司店」を特定し、「Ｂ寿司店」を表わす情報を表示装置６に表示する。

トピック「食事」に関連する全項目の中で、関心度ＫＣが３番目に大きなキーワード「バーベキュー」のスコアが最大の項目が「Ｃ焼肉店」である。推奨部１７は、キーワード「バーベキュー」に対して「Ｃ焼肉店」を特定し、「Ｃ焼肉店」を表わす情報を表示装置６に表示する。

図１２は、実施の形態の関心度評価システムによる関心度の評価手順を表わすフローチャートである。

ステップＳ１０１において、システム管理者または利用者が、操作入力部１５を通じて、トピックを選択する。

ステップＳ１０２において、会話誘導部１６は、会話誘導画面記憶部２１から選択されたトピックの会話を誘導する会話誘導画面を読み出して、表示装置６に表示させる。

ステップＳ１０３において、マイク装置２は、複数人の利用者の会話の音声データを取得する。

ステップＳ１０４において、カメラ装置１は、複数人の利用者の会話中の画像データを取得する。

ステップＳ１０５において、会話テキスト取得部１４は、マイク装置２から出力される複数人の利用者の会話の音声データを音声・テキスト変換装置５へ送る。音声・テキスト変換装置５は、会話の音声データを会話テキストに変換して、会話テキストを会話テキスト取得部１４へ送る。会話テキスト取得部１４は、変換された会話テキストを取得する。

ステップＳ１０６において、話者識別部１２は、マイク装置２に含まれるマイクロフォンアレイからの音声データと、カメラ装置１に含まれる全方向撮影型のカメラからの画像データとに基づいて、音声データの話者を識別する。

ステップＳ１０７において、音声特徴量抽出部１３は、話者の識別結果に基づいて、マイク装置２から出力される複数人の利用者の会話の音声データから複数人の利用者の各々についての音声特徴量を抽出する。

ステップＳ１０８において、画像特徴量抽出部１１は、話者の識別結果に基づいて、カメラ装置１から出力される複数人の利用者の会話中の画像データから複数人の利用者の各々についての画像特徴量を抽出する。

ステップＳ１０９において、関心度評価部１８は、複数人の利用者の音声感情度と、複数人の利用者の音声感情度と、複数人の利用者の中の二人の視線の一致度とに基づいて、複数人の利用者の会話の関心度ＳＣを算出する。

ステップＳ１１０において、検索部１９は、会話テキスト取得部１４から送られる会話テキストに含まれる複数の単語の各々が、キーワード辞書記憶部２３に記憶されている選択されたトピックの複数のキーワードのいずれかと一致するか否かを調べる。検索部１９は、一致した単語を一致キーワードとして、関心度評価部１８へ送る。関心度評価部１８は、会話の関心度ＳＣから一致キ−ワードに対する関心度ＫＣを算出する。

ステップＳ１１１において、関心度評価部１８は、会話の開始から現在までにおける関心度ＫＣが大きな一致キーワードおよびその関心度ＫＣをリアルタイムで表示装置６に表示する。

ステップＳ１１２において、推奨部１７は、選択されたトピックと関連する複数の項目の各々についての複数のキーワードのスコアを定めたスコア情報を参照して、選択されたトピックと関連する全項目の中で、関心度ＫＣが高いキーワードのスコア（ＴＦ−ＩＤＦ）が最大となる項目を特定する。

ステップＳ１１３において、推奨部１７は、特定した項目を表わす情報を推奨情報として表示装置６に表示する。

以上のように、本実施の形態によれば、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価するので、利用者が真に関心のある情報を提供することができる。

（変形例）
本発明は、上記の実施形態に限定されるものではなく、たとえば、以下のような変形例も含まれる。

（１）キーワードに対する関心度ＫＣ
上記の実施形態では、関心度評価部は、会話の関心度ＳＣを求めてから、会話の関心度ＳＣを用いて、一致キーワードに対する関心度ＫＣを求めたが、これに限定するものではない。関心度評価部は、一致キーワードに対応する各期間における音声感情度ＳＥと、顔感情度ＦＥと、視線の一致度ＶＥとに基づいて各期間の関心度を求めて、複数の期間の関心度を重み付き平均して、一致キーワードに対する関心度を求めるものとしてもよい。

（２）顔感情度、音声感情度
上記の実施形態では、関心度評価部は、複数人の利用者の各々の顔感情度を重み付け加算して、複数人の利用者の顔感情度を求めたが、これに限定するものではない。関心度評価部は、複数人の利用者の各々の顔感情度のすべてが閾値を超えたときに、複数人の利用者の顔感情度が高い値に設定し、複数人の利用者の各々の顔感情度のうちの一部だけが閾値を超えたときに、複数人の利用者の顔感情度を中間の値に設定し、複数人の利用者の各々の顔感情度のすべてが閾値以下のときに、複数人の利用者の顔感情度を低い値に設定するものとしてもよい。音声感情度についても同様である。

（３）トピックの推定
上記の実施形態では、システム管理者または利用者がトピックを選択し、検索部は、キーワード辞書に記憶されている選択されたトピックに含まれるキーワードが会話テキストに含まれるかどうかを調べたが、これに限定されるものではない。システム管理者または利用者がトピックを選択する代わりに、特徴抽出装置が、会話テキストに含まれる単語に基づいて、会話のトピックを推定するものとしてもよい。

（４）視線の一致度
上記の実施形態では、２人の利用者の視線の一致度を算出する方法について説明したが、３人以上の利用者が会話するときには、２人の利用者のすべての組み合わせについて視線の一致度を算出し、それらを重み付け加算することによって、トータルの視線の一致度を算出するようにしてもよい。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１カメラ装置、２マイク装置、３特徴量抽出装置、４評価装置、５音声・テキスト変換装置、６表示装置、１１画像特徴量抽出部、１２話者識別部、１３音声特徴量抽出部、１４会話テキスト取得部、１５操作入力部、１６会話誘導部、１７推奨部、１８関心度評価部、１９検索部、２０記憶装置、２１会話誘導画面記憶部、２２スコア情報記憶部、２３キーワード辞書記憶部。

Claims

複数人の利用者の会話の音声データを取得するマイク装置と、
前記複数人の利用者の会話中の画像データを取得するカメラ装置と、
前記複数人の利用者の会話の前記音声データが変換された会話テキストを取得するテキスト取得部と、
前記複数人の利用者の会話の前記音声データから音声特徴量を抽出する音声特徴量抽出部と、
前記複数人の利用者の会話中の前記画像データから画像特徴量を抽出する画像特徴量抽出部と、
前記会話テキストに含まれるキーワードが発せられた時点に対応する前記音声特徴量および前記画像特徴量に基づいて、前記キーワードに対する関心度を評価する関心度評価部と、
トピックごとに、前記トピックの会話を誘導する画面を記憶する記憶装置と、
表示装置と、
前記記憶装置から選択されたトピックの会話を誘導する画面を読み出して、前記表示装置に表示する会話誘導部と、を備えた、関心度評価システム。
前記画像特徴量は、前記複数人の利用者の顔による感情の大きさを表わす顔感情度を含む、請求項１記載の関心度評価システム。
前記画像特徴量は、さらに、前記複数人の利用者のうちの二人の視線の一致度を含む、請求項１記載の関心度評価システム。
前記音声特徴量は、前記複数人の利用者の音声による感情の大きさを表わす音声感情度を含む、請求項１記載の関心度評価システム。
前記マイク装置は、複数のマイクを含むマイクロフォンアレイであり、
前記マイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、前記音声データの話者を識別する話者識別部をさらに備え、
前記画像特徴量抽出部は、前記話者の識別結果に基づいて、前記複数人の利用者の各々についての前記画像特徴量を抽出し、
前記音声特徴量抽出部は、前記話者の識別結果に基づいて、前記複数人の利用者の各々についての前記音声特徴量を抽出し、
前記関心度評価部は、前記複数人の利用者の各々についての前記音声特徴量および前記画像特徴量に基づいて、前記キーワードに対する関心度を評価する、請求項１〜４のいずれか１項に記載の関心度評価システム。
前記カメラ装置は、全方向撮像型のカメラ装置であり、
前記話者識別部は、前記全方向撮影型のカメラ装置からの画像データを用いて、前記複数人の利用者の移動を検出し、前記検出の結果をさらに用いて、前記複数人の利用者の会話の音声データの音源方向を推定する、請求項５に記載の関心度評価システム。
複数のキーワードを記憶する記憶装置と、
前記会話テキストから前記記憶装置に記憶されているいずれかのキーワードを検索する検索部とをさらに備え、
前記関心度評価部は、前記検索されたキーワードに対する関心度を評価する、請求項１記載の関心度評価システム。
前記記憶装置は、トピックごとに、前記トピックに関連する複数のキーワードを記憶し、
前記検索部は、前記会話テキストから前記記憶装置に記憶されている選択されたトピックのキーワードを検索する、請求項７記載の関心度評価システム。
トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する記憶装置と、
表示装置と、
前記スコア情報を参照して、前記複数の項目の中で、前記関心度が最大のキーワードのスコアが最大となる項目を特定し、前記特定した項目を表わす情報を前記表示装置に表示する推奨部とをさらに備えた、請求項１記載の関心度評価システム。
前記スコア情報は、ＴＦ（Term Frequency）と、ＩＤＦ（Inverse Document Frequency）とによって表される、請求項９記載の関心度評価システム。
複数人の利用者の会話の音声データを取得するステップと、
前記複数人の利用者の会話中の画像データを取得するステップと、
前記複数人の利用者の会話の音声データが変換された会話テキストを取得するステップと、
前記複数人の利用者の会話の音声データから音声特徴量を抽出するステップと、
前記複数人の利用者の会話中の画像データから画像特徴量を抽出するステップと、
前記会話テキストに含まれるキーワードが発せられた時点に対応する前記音声特徴量および前記画像特徴量に基づいて、前記会話テキストに含まれるキーワードに対する関心度を評価するステップと、
トピックごとに、前記トピックの会話を誘導する画面を記憶する記憶装置から選択されたトピックの会話を誘導する画面を読み出して、表示装置に表示するステップと、を備えた、関心度評価方法。