JP6915765B1 - 関心度評価システムおよび関心度評価方法 - Google Patents

関心度評価システムおよび関心度評価方法 Download PDF

Info

Publication number
JP6915765B1
JP6915765B1 JP2021516848A JP2021516848A JP6915765B1 JP 6915765 B1 JP6915765 B1 JP 6915765B1 JP 2021516848 A JP2021516848 A JP 2021516848A JP 2021516848 A JP2021516848 A JP 2021516848A JP 6915765 B1 JP6915765 B1 JP 6915765B1
Authority
JP
Japan
Prior art keywords
users
feature amount
conversation
interest
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021516848A
Other languages
English (en)
Other versions
JPWO2021070681A1 (ja
Inventor
善成 石橋
善成 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Manufacturing Co Ltd
Original Assignee
Murata Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Manufacturing Co Ltd filed Critical Murata Manufacturing Co Ltd
Application granted granted Critical
Publication of JP6915765B1 publication Critical patent/JP6915765B1/ja
Publication of JPWO2021070681A1 publication Critical patent/JPWO2021070681A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

会話テキスト取得部(14)は、複数人の利用者の会話の音声データが変換された会話テキストを取得する。音声特徴量抽出部(13)は、複数人の利用者の会話の音声データから音声特徴量を抽出する。画像特徴量抽出部(11)は、複数人の利用者の会話中の画像データから画像特徴量を抽出する。関心度評価部(18)は、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価する。

Description

本発明は、関心度評価システムおよび関心度評価方法に関する。
従来から、利用者が関心のある情報を提供するシステムが知られている。たとえば、特許文献1のシステムは、オントロジを利用して人間同士の会話を正確に理解し、オントロジとメタ情報とを利用して適切なWebページを検索して提示する。
特開2004−341672号公報
特許文献1では、会話を音声認識することによって得られるテキストだけに基づいて、利用者が関心のある情報を提示するので、利用者が真に関心のある情報を提供することができない。
それゆえに、本発明の目的は、利用者が真に関心のある情報を提供することを可能にする関心度評価システムおよび関心度評価方法を提供することである。
本発明の関心度評価システムは、複数人の利用者の会話の音声データを取得するマイク装置と、複数人の利用者の会話中の画像データを取得するカメラ装置と、複数人の利用者の会話の音声データが変換された会話テキストを取得する会話テキスト取得部と、複数人の利用者の会話の音声データから音声特徴量を抽出する音声特徴量抽出部と、複数人の利用者の会話中の画像データから画像特徴量を抽出する画像特徴量抽出部と、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価する関心度評価部とを備える。
好ましくは、画像特徴量は、複数人の利用者の顔による感情の大きさを表わす顔感情度を含む。
好ましくは、画像特徴量は、さらに、複数人の利用者のうちの二人の視線の一致度を含む。
好ましくは、音声特徴量は、複数人の利用者の音声による感情の大きさを表わす音声感情度を含む。
好ましくは、マイク装置は、複数のマイクを含むマイクロフォンアレイである。関心度評価システムは、マイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、音声データの話者を識別する話者識別部を備える。画像特徴量抽出部は、話者の識別結果に基づいて、複数人の利用者の各々についての画像特徴量を抽出する。音声特徴量抽出部は、話者の識別結果に基づいて、複数人の利用者の各々についての音声特徴量を抽出する。関心度評価部は、複数人の利用者の各々についての音声特徴量および画像特徴量に基づいて、キーワードに対する関心度を評価する。
好ましくは、カメラ装置は、全方向撮像型のカメラ装置である。話者識別部は、全方向撮影型のカメラ装置からの画像データを用いて、複数人の利用者の移動を検出し、検出の結果をさらに用いて、前複数人の利用者の会話の音声データの音源方向を推定する。
好ましくは、関心度評価システムは、複数のキーワードを記憶する記憶装置と、会話テキストから記憶装置に記憶されているいずれかのキーワードを検索する検索部とを備える。関心度評価部は、検索されたキーワードに対する関心度を評価する。
好ましくは、記憶装置は、トピックごとに、トピックに関連する複数のキーワードを記憶する。検索部は、会話テキストから記憶装置に記憶されている選択されたトピックのキーワードを検索する。
好ましくは、関心度評価システムは、トピックごとに、トピックの会話を誘導する画面を記憶する記憶装置と、表示装置と、記憶装置から選択されたトピックの会話を誘導する画面を読み出して、表示装置に表示する会話誘導部とをさらに備える。
好ましくは、トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する記憶装置と、表示装置と、スコア情報を参照して、複数の項目の中で、関心度が最大のキーワードのスコアが最大となる項目を特定し、特定した項目を表わす情報を表示装置に表示する推奨部とをさらに備える。
好ましくは、スコア情報は、TF(Term Frequency)と、IDF(Inverse Document Frequency)とによって表される。
本発明の関心度評価方法は、複数人の利用者の会話の音声データを取得するステップと、複数人の利用者の会話中の画像データを取得するステップと、複数人の利用者の会話の音声データが変換された会話テキストを取得するステップと、複数人の利用者の会話の音声データから音声特徴量を抽出するステップと、複数人の利用者の会話中の画像データから画像特徴量を抽出するステップと、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価するステップとを備える。
本発明によれば、利用者が真に関心のある情報を提供することができる。
実施の形態の関心度評価システムの構成を表わす図である。 実施の形態の関心度評価システムの利用の形態の例を表わす図である。 利用者Aおよび利用者Bの顔感情度の時間変化の例を表わす図である。 利用者Aの視線の方向の時間変化と、利用者Bの視線の方向の時間変化とを表わす図である。 利用者Aおよび利用者Bの音声感情度の時間変化の例を表わす図である。 会話誘導画面の例を表わす図である。 会話の関心度SCの時間変化の例を表わす図である。 会話の関心度SCから一致キ−ワードに対する関心度KCを求める手順を説明するための図である。 一致キーワードの関心度KCの例を表わす図である。 トピック「食事」に関連する複数の項目の各々についての複数のキーワードのスコア情報を表わす図である。 推奨部17による推奨情報の例を表わす図である。 実施の形態の関心度評価システムによる関心度の評価手順を表わすフローチャートである。
以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
図1は、実施の形態の関心度評価システムの構成を表わす図である。図2は、実施の形態の関心度評価システムの利用の形態の例を表わす図である。
関心度評価システムは、カメラ装置1と、マイク装置2と、特徴量抽出装置3と、評価装置4と、音声・テキスト変換装置5と、表示装置6とを備える。特徴量抽出装置3は、画像特徴量抽出部11と、音声特徴量抽出部13と、話者識別部12と、会話テキスト取得部14と、操作入力部15とを備える。
評価装置4は、記憶装置20と、検索部19と、関心度評価部18と、推奨部17と、会話誘導部16と備える。記憶装置20は、キーワード辞書記憶部23と、スコア情報記憶部22と、会話誘導画面記憶部21とを備える。
カメラ装置1は、複数人の利用者の会話中の画像データを取得する。カメラ装置1は、360度パノラマカメラまたは半円球カメラなどの全方向撮像型のカメラを備える。
マイク装置2は、複数人の利用者の会話の音声データを取得する。マイク装置2は、複数のマイクを含むマイクロフォンアレイを備える。
操作入力部15は、システム管理者および利用者からの入力を受け付ける。
話者識別部12は、マイク装置2に含まれるマイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、音声データの話者を識別する。話者識別部12は、カメラ装置1に含まれる全方向撮影型のカメラからの画像データを用いることによって、複数人の利用者の移動を検出し、この検出の結果もさらに用いて、音声データの話者を識別してもよい。これによって、利用者Aの位置と利用者Bの位置が入れ替わった場合でも、音声データの話者を識別することができる。全方向撮影型のカメラを用いることによって、複数台のカメラを用いなくても、1台のカメラによって話者の移動を検出することができる。
画像特徴量抽出部11は、カメラ装置1から出力される複数人の利用者の画像データから画像特徴量を抽出する。より、具体的には、画像特徴量抽出部11は、話者の識別結果に基づいて、複数人の利用者の各々についての画像特徴量を抽出する。
画像特徴量は、複数人の利用者の顔による感情の大きさを表わす顔感情度を含む。顔感情度は、喜び成分、怒り成分、悲しみ成分、および平静成分のうちの少なくとも1つを含む。たとえば、喜び成分が大きいときに、顔感情度が大きくなるように定めることができる。悲しみ成分が大きいときに、顔感情度は小さくなるように定めることができる、平静成分が大きいときに、顔感情度は小さくなるように定めることができる。怒り成分が大きいときに、顔感情度が大きくなるように定めることができる。
顔感情度は、公知の市販またはオープンソースのツールまたはライブラリなどを用いて抽出することができる。ツールまたはライブラリは、学習済みの深層ニューラルネットワークを用いたもの、あるいはルールベースを用いたものでもよい。
図3は、利用者Aおよび利用者Bの顔感情度の時間変化の例を表わす図である。図3に示すように、利用者ごとの顔感情度が抽出される。
画像特徴量は、さらに、複数人の利用者のうちの二人の視線の一致度VEを含む。
図4は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度の時間変化と、利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度の時間変化とを表わす図である。
画像特徴量抽出部11は、利用者Aの視線の方向、利用者Bの視線の方向、および予め定められた特定の角度のαとの関係に基づいて、視線の一致度VEを評価する。たとえば、画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(−α)〜αの範囲内であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(−α)〜αの範囲内のときに、視線の一致度VEを「+1」に設定してもよい。画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(−α)〜αの範囲内であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(−α)〜αの範囲外のときに、視線の一致度VEを「+0.5」に設定してもよい。画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(−α)〜αの範囲外であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(−α)〜αの範囲内のときに、視線の一致度VEを「+0.5」に設定してもよい。画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(−α)〜αの範囲外であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(−α)〜αの範囲外のときに、視線の一致度VEを「0」に設定してもよい。
音声特徴量抽出部13は、マイク装置2から出力される複数人の利用者の音声データから音声特徴量を抽出する。より具体的には、音声特徴量抽出部13は、話者の識別結果に基づいて、複数人の利用者の各々についての音声特徴量を抽出する。
音声特徴量は、複数人の利用者の音声による感情の大きさを表わす音声感情度を含む。音声感情度は、喜び成分、怒り成分、悲しみ成分、平静成分、およびエネルギー成分のうちの少なくとも1つを含む。エネルギー成分は、音声のトーンおよび抑揚を表わす。音声のトーンが高いほど、エネルギー成分が大きくなる。声の抑揚が大きいほど、エネルギー成分が大きくなる。たとえば、喜び成分が大きいときに、音声感情度が大きくなるように定めることができる。悲しみ成分が大きいときに、音声感情度は小さくなるように定めることができる、平静成分が大きいときに、音声感情度は小さくなるように定めることができる。怒り成分が大きいときに、音声感情度が大きくなるように定めることができる。エネルギー成分が大きいときに、音声感情度は小さくなるように定めることができる。
音声感情度は、公知の市販またはオープンソースのツールまたはライブラリなどを用いて抽出することができる。ツールまたはライブラリは、学習済みの深層ニューラルネットワークを用いたもの、あるいはルールベースを用いたものでもよい。ツールまたはライブラリとして、たとえば、Empath(登録商標)を用いてもよい。
図5は、利用者Aおよび利用者Bの音声感情度の時間変化の例を表わす図である。図5に示すように、利用者ごとに音感情度が抽出される。
会話テキスト取得部14は、マイク装置2から出力される複数人の利用者の会話の音声データを音声・テキスト変換装置5へ送る。音声・テキスト変換装置5は、会話の音声データを会話テキストに変換して、会話テキストを会話テキスト取得部14へ送る。会話テキスト取得部14は、変換された会話テキストを取得する。
音声・テキスト変換装置5は、たとえば、深層学習などによって学習されたニューラルネットワークに会話テキスト取得部14から送られる音声データを入力し、ニューラルネットワークから出力されるテキストを会話テキストとして会話テキスト取得部14に送るものとしてもよい。
キーワード辞書記憶部23は、トピックごとに、トピックに関連する複数のキーワードを定めたキーワード情報を記憶する。
たとえば、キーワード情報は、「食事」のトピックに関連して、複数のキーワード(そば、バーベキュー、寿司、カレー、パスタ、マルゲリータ、焼き魚、豆腐、味噌汁、居酒屋、・・・)を定める。
キーワード情報は、「化粧品」のトピックに関連して、複数のキーワード(特定メーカの口紅、特定メーカのアイシャドウ、特定メーカの化粧水・・・)を定める。
会話誘導画面記憶部21は、トピックごとに、トピックの会話を誘導する会話誘導画面を記憶する。
図6は、会話誘導画面の例を表わす図である。図6には、「食事」のトピックについての会話誘導画面が示されている。
会話誘導部16は、会話誘導画面記憶部21からシステム管理者などによって選択されたトピックの会話を誘導する会話誘導画面を読み出して、表示装置6に表示させる。これによって、複数人の利用者に選択されたトピックについての会話を促すことができる。
検索部19は、キーワード辞書記憶部23に記憶されている選択されたトピックのいずれかのキーワードを会話テキストから検索する。より具体的には、検索部19は、会話テキスト取得部14から送られる会話テキストに含まれる複数の単語の各々が、キーワード辞書記憶部23に記憶されている選択されたトピックの複数のキーワードのいずれかと一致するか否かを調べる。検索部19は、一致した単語を一致キーワードとして、関心度評価部18へ送る。
関心度評価部18は、会話テキストに含まれる一致キーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、一致キーワードに対する関心度を評価する。より具体的には、関心度評価部18は、複数人の利用者の各々についての音声特徴量および画像特徴量に基づいて、一致キーワードに対する関心度を評価する。
以下では、より具体的に関心度の算出方法について説明する。
まず、関心度評価部18は、複数人の利用者の音声感情度と、複数人の利用者の音声感情度と、複数人の利用者の中の二人の視線の一致度とに基づいて、複数人の利用者の会話の関心度SCを算出する。関心度評価部18は、会話の関心度SCから一致キ−ワードに対する関心度KCを算出する。
以下において、利用者Aと利用者Bの会話における、一致キーワードに対する関心度の評価の具体例を説明する。
関心度評価部18は、以下のように、利用者Aの音声感情度SEAと、利用者Bの音声感情度SEBとに基づいて、音声感情度SEを求める。
SE=f(SEA,SEB)・・・(1)
たとえば、fは、係数f1、f2を用いて、以下のように表されてもよい。
f(SEA,SEB)=f1×SEA+f2×SEB・・・(2)
関心度評価部18は、以下のように、利用者Aの顔感情度FEAと、利用者Bの顔感情度FEBとに基づいて、顔感情度FEを求める。
FE=g(FEA,FEB)・・・(3)
たとえば、gは、係数g1、g2を用いて、以下のように表されてもよい。
g(FEA,FEB)=g1×FEA+f2×FEB・・・(4)
関心度評価部18は、以下のように、音声感情度SEと、顔感情度FEと、視線の一致度VEとに基づいて、会話の関心度SCを算出する。
SC=h(SE,FE,VE)・・・(5)
たとえば、hは、係数h1、h2を用いて、以下のように表されてもよい。
h(SE,FE,VE)=(h1×SE+h2×FE)×VE・・・(6)
図7は、会話の関心度SCの時間変化の例を表わす図である。図7に示すように、会話の関心度SCは、時刻とともに変化する。
関心度評価部18は、会話の関心度SCを用いて、検索部19から出力される一致キーワードに対する関心度KCを求める。
関心度評価部18は、一致キーワードが発せられた時点に対応する期間における会話の関心度SCに基づいて、一致キーワードに対する関心度KCを算出する。たとえば、一致キーワードW1(カレー)が発せられた時点に対応する期間は、一致キーワードW1(カレー)が発せられた時点から、次の一致キーワードW2が発せされた時点までの間の期間とすることができる。一致キーワードW2は、一致キーワードW1(カレー)と同一であっても、別個(お寿司)であってもよい。
図8は、会話の関心度SCから一致キ−ワードに対する関心度KCを求める手順を説明するための図である。
時刻t1において、キーワードW1(カレー)が発せられ、時刻t2において、キーワードW2(日本酒)が発せされ、時刻t3において、キーワードW1(カレー)が発せられ、時刻t4において、キーワードW1(カレー)が発せされ、時刻t5において、キーワードW3(寿司)が発せられたとする。時刻t1、t2、t3、t4、t5における会話の関心度をSC(t1)、SC(t2)、SC(t3)、SC(t4)、SC(t5)とする。時刻t2と時刻t1との間が時間ΔT1、時刻t3と時刻t2との間が時間ΔT2、時刻t4と時刻t3との間が時間ΔT3、時刻t5と時刻t4との間が時間ΔT4とする。
キーワードW1(カレー)に対する関心度KCは、以下の式で表される。
KC={SC(t1)*ΔT1+SC(t3)*ΔT3+SC(t4)*ΔT4}/(ΔT1+ΔT3+ΔT4)・・・(7)
関心度評価部18は、会話の開始から現在までにおける関心度KCが大きな一致キーワードおよびその関心度KCをリアルタイムで表示装置6に表示するものとしてもよい。
図9は、一致キーワードの関心度KCの例を表わす図である。図9の例では、キーワード(そば)に対する関心度KCが最大で、キーワード(寿司)に対する関心度KCが2番目に大きく、キーワード(バーベキュー)に対する関心度KCが3番目に大きい。
スコア情報記憶部22は、トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する。
たとえば、選択されたトピックと関連する項目iについての複数のキーワードのスコア情報は、項目iと関連する文書Diに含まれる選択されたトピックと関連する複数のキーワードのTF−IDFによって表されるものとすることができる。TF−IDFは、以下のように表される。たとえば、トピックが「食事」の場合に、項目は、食事を提供する場所とし、文書Dは、食事を提供する場所の宣伝用のWebコンテンツとすることができる。
TF−IDF=TF×IDF・・・(8)
TF(Term Frequency)は、文書D内におけるキーワードXの出現回数nxを文書D内における選択されたトピックと関連するすべてのキーワードの出現回数Nkで除算した値である。
TF=nx/Nk・・・(9)
IDF(Inverse Document Frequency)は、選択されたトピックと関連する全文書数Ndと、選択されたトピックと関連する全文書のうちのキーワードXが出現する文書の数dfとを用いて表される。
IDF={log(Nd/df)}+1・・・(10)
図10は、トピック「食事」に関連する複数の項目の各々についての複数のキーワードのスコア情報を表わす図である。
たとえば、各項目について、複数のキーワードである「カレー」、「ハンバーガ」、「寿司」、「パスタ」、「回転」、「和風」、「持ち帰り」、「そば」、「バーベキュー」、「食べ放題」のスコアであるTF−IDFの値が定められている。
推奨部17は、選択されたトピックと関連する複数の項目の各々についての複数のキーワードのスコアを定めたスコア情報を参照して、選択されたトピックと関連する全項目の中で、関心度KCが高いキーワードのスコア(TF−IDF)が最大となる項目を特定する。推奨部17は、特定した項目を表わす情報を推奨情報として表示装置6に表示する。
図11は、推奨部17による推奨情報の例を表わす図である。
トピック「食事」に関連する全項目の中で、関心度KCが最大のキーワード「そば」のスコアが最大の項目が「Aそば店」である。推奨部17は、キーワード「そば」に対して「Aそば店」を特定し、「Aそば店」を表わす情報を表示装置6に表示する。
トピック「食事」に関連する全項目の中で、関心度KCが2番目に大きなキーワード「寿司」のスコアが最大の項目が「B寿司店」である。推奨部17は、キーワード「寿司」に対して「B寿司店」を特定し、「B寿司店」を表わす情報を表示装置6に表示する。
トピック「食事」に関連する全項目の中で、関心度KCが3番目に大きなキーワード「バーベキュー」のスコアが最大の項目が「C焼肉店」である。推奨部17は、キーワード「バーベキュー」に対して「C焼肉店」を特定し、「C焼肉店」を表わす情報を表示装置6に表示する。
図12は、実施の形態の関心度評価システムによる関心度の評価手順を表わすフローチャートである。
ステップS101において、システム管理者または利用者が、操作入力部15を通じて、トピックを選択する。
ステップS102において、会話誘導部16は、会話誘導画面記憶部21から選択されたトピックの会話を誘導する会話誘導画面を読み出して、表示装置6に表示させる。
ステップS103において、マイク装置2は、複数人の利用者の会話の音声データを取得する。
ステップS104において、カメラ装置1は、複数人の利用者の会話中の画像データを取得する。
ステップS105において、会話テキスト取得部14は、マイク装置2から出力される複数人の利用者の会話の音声データを音声・テキスト変換装置5へ送る。音声・テキスト変換装置5は、会話の音声データを会話テキストに変換して、会話テキストを会話テキスト取得部14へ送る。会話テキスト取得部14は、変換された会話テキストを取得する。
ステップS106において、話者識別部12は、マイク装置2に含まれるマイクロフォンアレイからの音声データと、カメラ装置1に含まれる全方向撮影型のカメラからの画像データとに基づいて、音声データの話者を識別する。
ステップS107において、音声特徴量抽出部13は、話者の識別結果に基づいて、マイク装置2から出力される複数人の利用者の会話の音声データから複数人の利用者の各々についての音声特徴量を抽出する。
ステップS108において、画像特徴量抽出部11は、話者の識別結果に基づいて、カメラ装置1から出力される複数人の利用者の会話中の画像データから複数人の利用者の各々についての画像特徴量を抽出する。
ステップS109において、関心度評価部18は、複数人の利用者の音声感情度と、複数人の利用者の音声感情度と、複数人の利用者の中の二人の視線の一致度とに基づいて、複数人の利用者の会話の関心度SCを算出する。
ステップS110において、検索部19は、会話テキスト取得部14から送られる会話テキストに含まれる複数の単語の各々が、キーワード辞書記憶部23に記憶されている選択されたトピックの複数のキーワードのいずれかと一致するか否かを調べる。検索部19は、一致した単語を一致キーワードとして、関心度評価部18へ送る。関心度評価部18は、会話の関心度SCから一致キ−ワードに対する関心度KCを算出する。
ステップS111において、関心度評価部18は、会話の開始から現在までにおける関心度KCが大きな一致キーワードおよびその関心度KCをリアルタイムで表示装置6に表示する。
ステップS112において、推奨部17は、選択されたトピックと関連する複数の項目の各々についての複数のキーワードのスコアを定めたスコア情報を参照して、選択されたトピックと関連する全項目の中で、関心度KCが高いキーワードのスコア(TF−IDF)が最大となる項目を特定する。
ステップS113において、推奨部17は、特定した項目を表わす情報を推奨情報として表示装置6に表示する。
以上のように、本実施の形態によれば、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価するので、利用者が真に関心のある情報を提供することができる。
(変形例)
本発明は、上記の実施形態に限定されるものではなく、たとえば、以下のような変形例も含まれる。
(1)キーワードに対する関心度KC
上記の実施形態では、関心度評価部は、会話の関心度SCを求めてから、会話の関心度SCを用いて、一致キーワードに対する関心度KCを求めたが、これに限定するものではない。関心度評価部は、一致キーワードに対応する各期間における音声感情度SEと、顔感情度FEと、視線の一致度VEとに基づいて各期間の関心度を求めて、複数の期間の関心度を重み付き平均して、一致キーワードに対する関心度を求めるものとしてもよい。
(2)顔感情度、音声感情度
上記の実施形態では、関心度評価部は、複数人の利用者の各々の顔感情度を重み付け加算して、複数人の利用者の顔感情度を求めたが、これに限定するものではない。関心度評価部は、複数人の利用者の各々の顔感情度のすべてが閾値を超えたときに、複数人の利用者の顔感情度が高い値に設定し、複数人の利用者の各々の顔感情度のうちの一部だけが閾値を超えたときに、複数人の利用者の顔感情度を中間の値に設定し、複数人の利用者の各々の顔感情度のすべてが閾値以下のときに、複数人の利用者の顔感情度を低い値に設定するものとしてもよい。音声感情度についても同様である。
(3)トピックの推定
上記の実施形態では、システム管理者または利用者がトピックを選択し、検索部は、キーワード辞書に記憶されている選択されたトピックに含まれるキーワードが会話テキストに含まれるかどうかを調べたが、これに限定されるものではない。システム管理者または利用者がトピックを選択する代わりに、特徴抽出装置が、会話テキストに含まれる単語に基づいて、会話のトピックを推定するものとしてもよい。
(4)視線の一致度
上記の実施形態では、2人の利用者の視線の一致度を算出する方法について説明したが、3人以上の利用者が会話するときには、2人の利用者のすべての組み合わせについて視線の一致度を算出し、それらを重み付け加算することによって、トータルの視線の一致度を算出するようにしてもよい。
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 カメラ装置、2 マイク装置、3 特徴量抽出装置、4 評価装置、5 音声・テキスト変換装置、6 表示装置、11 画像特徴量抽出部、12 話者識別部、13 音声特徴量抽出部、14 会話テキスト取得部、15 操作入力部、16 会話誘導部、17 推奨部、18 関心度評価部、19 検索部、20 記憶装置、21 会話誘導画面記憶部、22 スコア情報記憶部、23 キーワード辞書記憶部。

Claims (11)

  1. 複数人の利用者の会話の音声データを取得するマイク装置と、
    前記複数人の利用者の会話中の画像データを取得するカメラ装置と、
    前記複数人の利用者の会話の前記音声データが変換された会話テキストを取得するテキスト取得部と、
    前記複数人の利用者の会話の前記音声データから音声特徴量を抽出する音声特徴量抽出部と、
    前記複数人の利用者の会話中の前記画像データから画像特徴量を抽出する画像特徴量抽出部と、
    前記会話テキストに含まれるキーワードが発せられた時点に対応する前記音声特徴量および前記画像特徴量に基づいて、前記キーワードに対する関心度を評価する関心度評価部と
    トピックごとに、前記トピックの会話を誘導する画面を記憶する記憶装置と、
    表示装置と、
    前記記憶装置から選択されたトピックの会話を誘導する画面を読み出して、前記表示装置に表示する会話誘導部と、を備えた、関心度評価システム。
  2. 前記画像特徴量は、前記複数人の利用者の顔による感情の大きさを表わす顔感情度を含む、請求項1記載の関心度評価システム。
  3. 前記画像特徴量は、さらに、前記複数人の利用者のうちの二人の視線の一致度を含む、請求項1記載の関心度評価システム。
  4. 前記音声特徴量は、前記複数人の利用者の音声による感情の大きさを表わす音声感情度を含む、請求項1記載の関心度評価システム。
  5. 前記マイク装置は、複数のマイクを含むマイクロフォンアレイであり、
    前記マイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、前記音声データの話者を識別する話者識別部をさらに備え、
    前記画像特徴量抽出部は、前記話者の識別結果に基づいて、前記複数人の利用者の各々についての前記画像特徴量を抽出し、
    前記音声特徴量抽出部は、前記話者の識別結果に基づいて、前記複数人の利用者の各々についての前記音声特徴量を抽出し、
    前記関心度評価部は、前記複数人の利用者の各々についての前記音声特徴量および前記画像特徴量に基づいて、前記キーワードに対する関心度を評価する、請求項1〜4のいずれか1項に記載の関心度評価システム。
  6. 前記カメラ装置は、全方向撮像型のカメラ装置であり、
    前記話者識別部は、前記全方向撮影型のカメラ装置からの画像データを用いて、前記複数人の利用者の移動を検出し、前記検出の結果をさらに用いて、前記複数人の利用者の会話の音声データの音源方向を推定する、請求項5に記載の関心度評価システム。
  7. 複数のキーワードを記憶する記憶装置と、
    前記会話テキストから前記記憶装置に記憶されているいずれかのキーワードを検索する検索部とをさらに備え、
    前記関心度評価部は、前記検索されたキーワードに対する関心度を評価する、請求項1記載の関心度評価システム。
  8. 前記記憶装置は、トピックごとに、前記トピックに関連する複数のキーワードを記憶し、
    前記検索部は、前記会話テキストから前記記憶装置に記憶されている選択されたトピックのキーワードを検索する、請求項7記載の関心度評価システム。
  9. トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する記憶装置と、
    表示装置と、
    前記スコア情報を参照して、前記複数の項目の中で、前記関心度が最大のキーワードのスコアが最大となる項目を特定し、前記特定した項目を表わす情報を前記表示装置に表示する推奨部とをさらに備えた、請求項1記載の関心度評価システム。
  10. 前記スコア情報は、TF(Term Frequency)と、IDF(Inverse Document Frequency)とによって表される、請求項記載の関心度評価システム。
  11. 複数人の利用者の会話の音声データを取得するステップと、
    前記複数人の利用者の会話中の画像データを取得するステップと、
    前記複数人の利用者の会話の音声データが変換された会話テキストを取得するステップと、
    前記複数人の利用者の会話の音声データから音声特徴量を抽出するステップと、
    前記複数人の利用者の会話中の画像データから画像特徴量を抽出するステップと、
    前記会話テキストに含まれるキーワードが発せられた時点に対応する前記音声特徴量および前記画像特徴量に基づいて、前記会話テキストに含まれるキーワードに対する関心度を評価するステップと
    トピックごとに、前記トピックの会話を誘導する画面を記憶する記憶装置から選択されたトピックの会話を誘導する画面を読み出して、表示装置に表示するステップと、を備えた、関心度評価方法。
JP2021516848A 2019-10-10 2020-09-29 関心度評価システムおよび関心度評価方法 Active JP6915765B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019186639 2019-10-10
JP2019186639 2019-10-10
PCT/JP2020/036932 WO2021070681A1 (ja) 2019-10-10 2020-09-29 関心度評価システムおよび関心度評価方法

Publications (2)

Publication Number Publication Date
JP6915765B1 true JP6915765B1 (ja) 2021-08-04
JPWO2021070681A1 JPWO2021070681A1 (ja) 2021-10-28

Family

ID=75437905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021516848A Active JP6915765B1 (ja) 2019-10-10 2020-09-29 関心度評価システムおよび関心度評価方法

Country Status (2)

Country Link
JP (1) JP6915765B1 (ja)
WO (1) WO2021070681A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971817B (zh) * 2022-07-29 2022-11-22 中国电子科技集团公司第十研究所 基于用户需求画像的产品自适应服务方法、介质及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130170A (ja) * 2016-01-22 2017-07-27 日本ユニシス株式会社 会話連動システム、会話連動装置、会話連動方法、および、会話連動プログラム
WO2018142686A1 (ja) * 2017-01-31 2018-08-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019146405A1 (ja) * 2018-01-25 2019-08-01 株式会社 資生堂 表情解析技術を用いた商品に対するモニタの反応を評価するための情報処理装置、情報処理システム、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130170A (ja) * 2016-01-22 2017-07-27 日本ユニシス株式会社 会話連動システム、会話連動装置、会話連動方法、および、会話連動プログラム
WO2018142686A1 (ja) * 2017-01-31 2018-08-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019146405A1 (ja) * 2018-01-25 2019-08-01 株式会社 資生堂 表情解析技術を用いた商品に対するモニタの反応を評価するための情報処理装置、情報処理システム、プログラム

Also Published As

Publication number Publication date
JPWO2021070681A1 (ja) 2021-10-28
WO2021070681A1 (ja) 2021-04-15

Similar Documents

Publication Publication Date Title
CN112182197B (zh) 话术推荐方法、装置、设备及计算机可读介质
JP4736511B2 (ja) 情報提供方法および情報提供装置
US11238871B2 (en) Electronic device and control method thereof
KR102386863B1 (ko) 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치
US11355099B2 (en) Word extraction device, related conference extraction system, and word extraction method
CN110795542B (zh) 对话方法及相关装置、设备
KR101571240B1 (ko) 텍스트에 기반한 동영상 생성장치 및 그 생성방법
CN105960672A (zh) 用于稳健语音识别的变量组件深度神经网络
EP1709625A1 (en) Method and system for determining the topic of a conversation and obtaining and presenting related content
JP6365915B2 (ja) 応対装置、応対システム、応対方法、及び記録媒体
US8589159B2 (en) Keyword display system, keyword display method, and program
JP6927318B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2013149073A (ja) 拡張現実装置、方法、及びプログラム
JP2010224715A (ja) 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP5730741B2 (ja) 話題推薦装置及び方法及びプログラム
US20210012064A1 (en) Recording medium recording complementary program, complementary method, and information processing device
JP6915765B1 (ja) 関心度評価システムおよび関心度評価方法
JP2019139625A (ja) 情報処理装置及び情報処理プログラム
JPWO2018061839A1 (ja) 送信装置、送信方法及び送信プログラム
JPWO2020071216A1 (ja) 画像検索装置、画像検索方法及び画像検索用プログラム
KR101743169B1 (ko) 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체
CN110674270B (zh) 基于人工智能的幽默生成与情感交互方法及机器人系统
CN110895558A (zh) 一种对话回复的方法及相关装置
CN111554269A (zh) 一种语音取号方法、系统及存储介质
JP2020201748A (ja) 発話生成装置、発話生成方法及び発話生成プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R150 Certificate of patent or registration of utility model

Ref document number: 6915765

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150