JP7327161B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7327161B2
JP7327161B2 JP2019521168A JP2019521168A JP7327161B2 JP 7327161 B2 JP7327161 B2 JP 7327161B2 JP 2019521168 A JP2019521168 A JP 2019521168A JP 2019521168 A JP2019521168 A JP 2019521168A JP 7327161 B2 JP7327161 B2 JP 7327161B2
Authority
JP
Japan
Prior art keywords
user
sensing
users
response
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019521168A
Other languages
English (en)
Other versions
JPWO2019087779A1 (ja
Inventor
沙也 菅野
幸徳 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019087779A1 publication Critical patent/JPWO2019087779A1/ja
Application granted granted Critical
Publication of JP7327161B2 publication Critical patent/JP7327161B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/636Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、複数人のユーザが皆満足できる空間を提供することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
近年、ユーザからの指示やユーザの状態などに応じて、そのユーザに対して適切な応答を出力する家庭用の音声アシスタントデバイス(ホームエージェント機器)が提供されている。このようなホームエージェント機器の中には、ユーザによる楽曲の再生回数、ユーザの好きなアーティストやジャンルの他、時間帯や季節、位置情報など、楽曲とは直接関係のない情報を用いて楽曲推薦を行うものもある。
例えば、特許文献1には、ユーザのそのときの感情に基づいて、楽曲の推薦を行う楽曲推薦システムが開示されている。
特開2016-194614号公報
しかしながら、ホームエージェント機器による応答の出力は、1人のユーザを対象として行われていた。そのため、複数人のユーザが存在する環境において、複数人のユーザが皆満足するような応答を出力することはできなかった。
本技術は、このような状況に鑑みてなされたものであり、複数人のユーザが皆満足できる空間を提供することができるようにするものである。
本技術の情報処理装置は、複数人のユーザが存在する環境におけるセンシングにより得られた第1のセンシング情報を分析することで、前記環境における複数人の前記ユーザの状態推定する分析部と、推定された前記ユーザの状態に対応した応答生成する応答生成部とを備え、前記応答生成部は、前記ユーザの状態として、第1のユーザが第2のユーザの邪魔になるような行動をとっている状態であることが推定された場合、前記センシングにより得られた第2のセンシング情報を用いて、前記第1のユーザに対する発話音声を生成する
本技術の情報処理方法は、情報処理装置が、複数人のユーザが存在する環境におけるセンシングにより得られた第1のセンシング情報を分析することで、前記環境における複数人の前記ユーザの状態推定し、推定された前記ユーザの状態に対応した応答生成し、前記ユーザの状態として、第1のユーザが第2のユーザの邪魔になるような行動をとっている状態であることが推定された場合、前記センシングにより得られた第2のセンシング情報を用いて、前記第1のユーザに対する発話音声を生成する情報処理方法である。
本技術のプログラムは、コンピュータに、複数人のユーザが存在する環境におけるセンシングにより得られた第1のセンシング情報を分析することで、前記環境における複数人の前記ユーザの状態推定し、推定された前記ユーザの状態に対応した応答生成し、前記ユーザの状態として、第1のユーザが第2のユーザの邪魔になるような行動をとっている状態であることが推定された場合、前記センシングにより得られた第2のセンシング情報を用いて、前記第1のユーザに対する発話音声を生成する処理を実行させるプログラムである。
本技術においては、複数人のユーザが存在する環境におけるセンシングにより得られた第1のセンシング情報が分析されることで、前記環境における複数人の前記ユーザの状態推定され、推定された前記ユーザの状態に対応した応答生成され、前記ユーザの状態として、第1のユーザが第2のユーザの邪魔になるような行動をとっている状態であることが推定された場合、前記センシングにより得られた第2のセンシング情報を用いて、前記第1のユーザに対する発話音声が生成される
本技術によれば、複数人のユーザが皆満足できる空間を提供することが可能となる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した応答システムの概要について説明する図である。 エージェント装置のハードウェア構成例を示すブロック図である。 エージェント装置の機能構成例を示すブロック図である。 応答出力処理について説明するフローチャートである。 クラスタに対応して生成される応答の例を示す図である。 応答システムの第1の利用例について説明する図である。 第1の利用例におけるセンシング情報と応答生成の例を示す図である。 応答システムの第2の利用例について説明する図である。 第2の利用例におけるセンシング情報と応答生成の例を示す図である。 応答システムの第3の利用例について説明する図である。 第3の利用例におけるセンシング情報と応答生成の例を示す図である。 応答システムの第4の利用例について説明する図である。 第4の利用例におけるセンシング情報の例を示す図である。 ニューラルネットワークの構成例を示す図である。 本技術を適用したサーバの機能構成例を示すブロック図である。 コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.応答システムの概要
2.エージェント装置の構成と動作
3.応答システムの第1の利用例(団欒モード)
4.応答システムの第2の利用例(別々行動モード)
5.応答システムの第3の利用例(邪魔者乱入モード)
6.応答システムの第4の利用例(パーティーモード)
7.ニューラルネットワークへの適用
8.クラウドコンピューティングへの適用
9.その他
<1.応答システムの概要>
図1は、本技術を適用した応答システムの概要を示している。
図1には、3人のユーザ10A,10B,10Cと、ユーザ10A,10B,10Cに対して応答を出力する、本技術を適用したエージェント装置20が示されている。エージェント装置20は、家庭用の音声アシスタントデバイスとして構成される。
エージェント装置20は、ユーザ10A,10B,10Cそれぞれの状態をセンシングすることで得られるセンシング情報SD1,SD2,SD3を分析し、それらの分析結果に応じた応答Resを出力する。
エージェント装置20によって分析されるセンシング情報は、ユーザ10A,10B,10Cそれぞれの状態をセンシングして得られるものに限らず、ユーザ10A,10B,10Cが存在する環境におけるセンシングにより得られるものを含む。
例えば、センシング情報は、ユーザ10A,10B,10Cが存在する環境を撮像した画像や、その環境における音声、ユーザ10A,10B,10Cそれぞれの位置や動作を示す情報などを含む。
エージェント装置20によって出力される応答Resは、ユーザ10A,10B,10Cが皆満足できる空間を作り上げるような応答とされる。応答Resは、ユーザ10A,10B,10C全てに対する応答であってもよいし、そのいずれかに対する応答であってもよい。応答Resは、センシング情報の分析結果に応じて、楽曲として出力されたり、発話音声として出力されたりする。
<2.エージェント装置の構成と動作>
(エージェント装置の構成例)
図2は、本技術を適用したエージェント装置20のハードウェア構成例を示すブロック図である。
CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。
バス54には、マイク55、センサ56、スピーカ57、ディスプレイ58、入力部59、記憶部60、および通信部61が接続される。
マイク55は、ユーザが存在する環境における音声を検出する。
センサ56は、カメラや照度センサなどの各種のセンサにより構成される。例えば、センサ56は、撮影により得られた画像を出力する。また、センサ56は、その場の照度を表す情報を出力する。
スピーカ57は、音声(合成音声)や楽曲を出力する。
ディスプレイ58は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。
入力部59は、ディスプレイ58に重ねて設けられたタッチパネルや、エージェント装置20の筐体に設けられた各種のボタンにより構成される。入力部59は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
記憶部60は、不揮発性のメモリなどにより構成される。記憶部60は、CPU51が実行するプログラムの他に、楽曲データや音声合成用のデータなどの各種のデータを記憶する。
通信部61は、ネットワークインタフェースなどにより構成される。通信部61は、無線や有線による通信を外部の装置との間で行う。
図3は、エージェント装置20の機能構成例を示すブロック図である。
図3に示されるエージェント装置20の機能ブロックのうちの少なくとも一部は、図2のCPU51により所定のプログラムが実行されることによって実現される。
エージェント装置20は、センシング部71、分析部72、クラスタリング部73、応答生成部74、記憶部75、および出力部76から構成される。
センシング部71は、図2のマイク55やセンサ56に対応し、複数人のユーザが存在する環境においてセンシングを行う。センシング部71は、エージェント装置20の外部に設けられていてもよい。センシング部71によって行われ得るセンシング技術の詳細については後述する。センシングにより得られたセンシング情報は、分析部72と応答生成部74に供給される。
分析部72は、センシング部71からのセンシング情報を分析することで、複数人のユーザが存在する環境におけるユーザの状態を推定する。具体的には、分析部72は、センシング情報を分析することで、その環境におけるユーザ同士の関係性や、ユーザそれぞれが1つの目的を共有しているか否かなどを推定する。センシング情報の分析結果(推定されたユーザの状態)は、クラスタリング部73に供給される。
クラスタリング部73は、分析部72による分析結果をクラスタリングする。具体的には、クラスタリング部73は、ユーザの状態が分類されるクラスタを決定する。決定されたクラスタを表す情報は、応答生成部74に供給される。
応答生成部74は、クラスタリング部73からの情報で表されるクラスタに対応した応答を生成する。このとき、応答生成部74は、センシング部71からのセンシング情報を用いたり、記憶部75に記憶されているデータを用いたりして、クラスタに対応した応答を生成する。
記憶部75は、図2の記憶部60に対応し、ユーザ個人の嗜好や経験を示すプロファイルデータ81や、種々の楽曲を表す楽曲データ82を記憶する。応答生成部74は、プロファイルデータ81で示されるユーザの嗜好や経験に基づいて、クラスタに対応した応答を生成したり、クラスタに対応した応答を、楽曲データ82で示される楽曲に基づいて生成する。
応答生成部74によって生成された応答は、出力部76に供給される。
出力部76は、図2のスピーカ57に対応し、応答生成部74からの応答を、発話音声や楽曲として出力する。
(センシング技術の詳細)
ここで、センシング情報を得るのに必要なセンシング技術の詳細について説明する。
センシング部71によって行われ得るセンシング技術として、以下のような技術を用いることができる。
(a)GPS(Global Positioning System)機能
スマートフォンやウェアラブル機器など、ユーザが携帯可能なデバイスが有するGPS機能によって、センシング情報として、位置情報を取得することができる。位置情報は、ユーザの嗜好(どのような楽曲を好んで選ぶかの傾向)と紐づけることができる。蓄積された位置情報により、ユーザの現在位置が、日頃よく行く場所であるか、ユーザにとって非日常的な場所であるか、などを判定することも可能となる。
(b)加速度センシング
スマートフォンやウェアラブル機器など、ユーザが携帯可能なデバイスが有する加速度センサによって、センシング情報として、ユーザの動作を表す動作情報を取得することができる。動作情報は、ユーザの嗜好と紐づけることができる。
(c)照度センシング
ユーザが存在する環境に設けられた照度センサによって、センシング情報として、その場の照度を取得したり、光源推定を行うことができる。照度や光源推定結果は、ユーザの嗜好と紐づけることができる。
(d)音源方向推定
ユーザが存在する環境において、センシング情報として、マイクによって検出された音声を取得することで、その場の“うるささ”の判定や、音源方向推定を行うことができる。音源方向推定の結果により、例えば、子供が走り回っているのか、大人同士の会話が盛り上がっているのか、テレビの音声が流れているのか、などといった、音源の種類を特定することもできる。
さらに、話者認識機能を用いることにより、誰が発話したのか、などを判定することもできる。
(e)顔認識/動作認識
センシング情報として、カメラによって撮像された画像(動画像)を取得し、リアルタイムで解析することで、顔認識と動作認識を行うことができる。顔認識や動作認識の結果として得られる、その環境に誰がいるのか、何をしているのか、などの情報を、センシング情報として取得するようにしてもよい。
(f)視線検出
視線検出が可能なメガネ型のウェアラブル機器をユーザが装着したり、視線検出機能を有するカメラがユーザを撮像することで、センシング情報として、ユーザの視線位置を示す視線情報を取得することができる。
(g)心拍の変動検知
心拍の変動検知が可能なリストバンド型のウェアラブル機器をユーザが装着することで、センシング情報として、ユーザの心拍の変動を示す心拍情報を取得することができる。ここでは、心拍情報が取得されるものとするが、これ以外にも、心電図、血圧、体温などの生体情報が取得されるようにしてもよい。
(h)表情認識
センシング情報として、カメラによって撮像された画像(動画像)を取得し、リアルタイムで解析することで、ユーザの発話時の表情を認識することができる。
(i)感情推定
センシング情報として、マイクによって検出されたユーザの発話時の音声を取得し、その特徴量を解析することで、そのユーザの感情を推定することができる。
(j)ユーザの予定情報
センシング情報として、ユーザのカレンダ情報やToDoリストなどから、例えばその日のユーザの予定や過去の行動を示す予定情報を取得することができる。ユーザの予定情報をモデル化することで、ユーザの置かれている状況を推定することもできる。このとき、「デート」や「ライブ」などの短期的な予定を示す予定情報と、「資格試験」などの長期的な予定を示す予定情報とを区別してモデル化してもよい。さらに、ユーザ固有の習慣を考慮して、ユーザの予定情報をモデル化してもよい。
(k)楽曲の評価・再生回数
センシング情報として、動画投稿サイトでの他者による動画像の評価を取得することができる。さらに、投稿ユーザ情報やタグ情報を取得することで、その動画像が楽曲中心の動画像であるか否かを推定することができる。
また、センシング情報として、音楽配信サービスでの他者による楽曲の評価を取得することもできる。さらに、他者のプレイリストを参照することで、他者が、どのようなタイミングでどのようなジャンルの楽曲を聴く傾向にあるのかなどを推定することもできる。
さらに、センシング情報として、音楽配信サービスでの楽曲再生や、オフライン状態での楽曲再生によってカウントされる再生回数を取得することもできる。
(l)発話履歴
センシング情報として、ユーザによる発話履歴を取得することができる。発話履歴は、複数人のユーザ同士の会話の内容を示すものであってもよいし、エージェント装置20に対する依頼のための発話の内容を示すものであってもよい。
(m)デバイス情報
センシング情報として、エージェント装置20以外で楽曲を出力可能なデバイスを示すデバイス情報を取得することができる。デバイス情報は、例えばクラウド上に蓄積されるようにする。これにより、複数人のユーザが存在する環境にあるオーディオ機器、ユーザ個人が所有するスマートフォンや携帯音楽プレーヤなどから、選択的に応答を出力することができる。
(n)家の中での位置情報
エージェント装置20のカメラによって撮像された画像を解析することで、センシング情報として、家の中でのユーザの位置情報を取得することができる。
また、サーモグラフィカメラや人感センサなどを設置し、得られたサーモグラフィ画像やセンサ出力を解析することで、センシング情報として、カメラの撮像範囲外にいる人物の位置情報を取得することもできる。これにより、エージェント装置20を設置しにくい浴室などにおいても人がいることを認識することができるようになる。なお、家の中であるので、カメラの撮像範囲外にいる人物(家族)が誰であるのかを特定することも可能である。
(o)ON/OFF状況
センシング情報として、家の中の家電製品(冷暖房器具や照明器具)のON/OFF状況を取得することで、家の中でのユーザの位置情報を取得することができる。
以上のようなセンシング技術により、種々のセンシング情報を取得することができる。
(エージェント装置の動作例)
次に、図3のフローチャートを参照して、エージェント装置20によって実行される応答出力処理の流れについて説明する。
ステップS1において、センシング部71は、複数人のユーザが存在する環境においてセンシングを行うことで、センシング情報を取得する。
ステップS2において、分析部72は、センシング部71により得られたセンシング情報を分析することで、複数人のユーザが存在する環境におけるユーザの状態を推定する。
ステップS3において、クラスタリング部73は、分析部72による分析結果をクラスタリングすることでユーザの状態を分類し、その状態が分類されるクラスタを決定する。
ステップS4において、応答生成部74は、センシング部71からのセンシング情報を用いたり、記憶部75に記憶されているプロファイルデータ81を用いたりして、決定されたクラスタに対応した応答を生成する。
なお、複数人のユーザの中には、プロファイルデータ81のないユーザが存在する場合が考えられる。この場合、応答生成部74は、そのユーザの属性(性別や年齢など)に応じて一般化されたプロファイルデータ(一般化プロファイル)を用いて、クラスタに対応した応答を生成することができる。
ここで、図5を参照して、決定されたクラスタに対応して生成される応答の例について説明する。
図5においては、クラスタとして、複数人のユーザの状態を分類する4つのモード(団欒モード、別々行動モード、邪魔者乱入モード、パーティーモード)と、それぞれのモードに対応する応答の例が示されている。
団欒モードは、複数人のユーザが互いに楽しく会話を交わしているような状態に該当するクラスタである。ユーザの状態が団欒モードに分類された場合、応答として、例えば、ユーザ同士の会話(団欒)を邪魔しないようなBGM(Back Ground Music)(楽曲)が選出される。
別々行動モードは、複数人のユーザが会話もなく別々の作業を行っているような状態に該当するクラスタである。ユーザの状態が別々行動モードに分類された場合、応答として、例えば、ユーザ同士の会話を発生させるような話題(発話音声)が生成される。
邪魔者乱入モードは、数人のユーザが1つの作業を行っている中で、例えば他の1人のユーザがその作業の邪魔になるような行動をとっているような状態に該当するクラスタである。ユーザの状態が邪魔者乱入モードに分類された場合、応答として、例えば、邪魔者と判断された人物に対する話題(発話音声)が生成される。
パーティー(超多人数)モードは、超多人数のユーザがパーティー会場などで盛り上がっている(大きな声で会話したり、動き回ったりしている)ような状態に該当するクラスタである。ユーザの状態がパーティーモードに分類された場合、応答として、例えば、パーティー(盛り上がり)を邪魔しないようなBGM(楽曲)が選出される。
このようにして、複数人のユーザの状態に応じた応答が生成されるようになる。
さて、図4のフローチャートに戻り、ステップS5において、出力部76は、応答生成部74によって生成された応答を出力する。
以上の処理によれば、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報の分析結果に応じて、複数人のユーザの状態に応じた応答が出力されるので、複数人のユーザが皆満足できる空間を提供することが可能となる。
以下においては、上述した応答システムの利用例について説明する。
<3.応答システムの第1の利用例>
図6は、本技術を適用した応答システムの第1の利用例について説明する図である。
図6は、エージェント装置20が設置されているある家のリビングで、3人のユーザ10A,10B,10Cが、お互いに顔を合わせながら会話を交わして盛り上がっている様子を示している。
ユーザ10Aは、心拍の変動検知が可能なリストバンド型のウェアラブル機器を装着しており、ユーザ10Aの心拍情報は、センシング情報として、エージェント装置20によってリアルタイムに取得されている。
ユーザ10Bは、視線検出が可能なメガネ型のウェアラブル機器を装着しており、ユーザ10Bの視線情報は、センシング情報として、エージェント装置20によってリアルタイムに取得されている。
エージェント装置20には、プロファイルデータ81として、ユーザ10A,10Bのプロファイルデータが記憶されており、ユーザ10Cのプロファイルデータは存在しない。例えば、ユーザ10Cは、普段この家にいない客人などとされる。
図6の例において、分析部72は、各種のセンシング情報を分析することで、ユーザ10A,10B,10Cの状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、(g)心拍の変動検知、および、(h)表情認識が用いられることで得られたセンシング情報とされる。
これらのセンシング情報に基づいて、ユーザ10A,10B,10Cの状態は、複数人のユーザが互いに楽しく会話を交わしているような状態であると推定され、クラスタとして団欒モードに分類される。
応答生成部74は、各種のセンシング情報と、ユーザ10A,10Bのプロファイルデータを用いて、団欒モードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(c)照度センシング、(h)表情認識、(i)感情推定、(j)ユーザの予定情報、(k)楽曲の評価・再生回数、および、(l)発話履歴が用いられることで得られたセンシング情報とされる。
これにより、団欒モードに対応する応答として、ユーザ同士の会話を邪魔しないようなBGMが選出される。
図7は、図6に示される環境において得られるセンシング情報と、エージェント装置20による応答生成の例について説明する図である。
図7においては、時刻t11乃至t13の間に得られた、ユーザ10A,10B,10Cについてのセンシング情報が示されている。
図7のAには、ユーザ10Aの音信号(実線)、動作信号(点線)、および心拍情報(破線)を表す波形が示されている。図7のBには、ユーザ10Bの音信号、動作信号、および視線情報(一点鎖線)を表す波形が示されている。図7のCには、ユーザ10Cの音信号と動作信号を表す波形が示されている。
各ユーザの音信号は、マイクにより検出された音声を表す信号であり、各ユーザの動作信号は、カメラによって撮像された画像や加速度センサのセンサ出力に基づいて得られる信号である。
図7の例において、時刻t11乃至t12の間では、3人のユーザ10A,10B,10Cは、子供の卒業式の話で盛り上がっている状態にある。
この間、センシング情報において、3人のユーザ10A,10B,10Cの音信号がそれぞれ異なるタイミングで大きくなっている。このことから、3人のユーザ10A,10B,10Cがそれぞれ交互にテンポよく会話していることが推定される。また、各ユーザの音信号が増大すると動作信号も増幅することから、各ユーザは、身振り手振りで会話していることが推定される。
すなわち、ユーザ10A,10B,10Cの状態は、複数人のユーザが互いに楽しく会話を交わしているような状態であると推定され、クラスタとして団欒モードに分類される。
この場合、団欒モードに対応する応答としては、センシング情報として得られる会話の内容((l)発話履歴)から「卒業ソング」がBGMとして選出される。
次いで、時刻t12乃至t13の間では、ユーザ10Aが中心となってイギリス旅行の話をしている状態にある。
この間、センシング情報において、ユーザ10Aの音信号がずっと大きく、その間にユーザ10B,10Cの音信号がたまに大きくなっている。このことから、ユーザ10Aが中心となって発話し、それを聞いているユーザ10B,10Cが相づちを打っていることが推定される。
ここでも、ユーザ10A,10B,10Cの状態は、複数人のユーザが互いに楽しく会話を交わしているような状態であると推定され、クラスタとして団欒モードに分類される。
この場合、団欒モードに対応する応答としては、センシング情報として得られるユーザ10Aの発話の内容((l)発話履歴)とスケジュール検索((j)ユーザの予定情報)に基づいて、ユーザ10Aが旅行したイギリスの楽曲が抽出される。
さらに、センシング情報として得られるユーザ10Aの楽しげな声色((i)感情推定)に基づいて、抽出されたイギリスの楽曲の中から「楽しげな曲」がBGMとして選出される。
このようにして、複数人のユーザがお互いに顔を合わせながら会話を交わして盛り上がっている場合にも、ユーザが皆満足できる空間が提供されるようになる。
<4.応答システムの第2の利用例>
図8は、本技術を適用した応答システムの第2の利用例について説明する図である。
図8は、エージェント装置20が設置されているある家のリビングで、3人のユーザ10A,10B,10Cが、例えば、本を読んだり、スマートフォンを操作するなどして、別々の作業を行っている様子を示している。
図8の例においても、ユーザ10A,10B,10Cそれぞれについて得られるセンシング情報と、記憶されているプロファイルデータは、図6の例と同様とする。
図8の例において、分析部72は、各種のセンシング情報を分析することで、ユーザ10A,10B,10Cの状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、(g)心拍の変動検知、および、(h)表情認識が用いられることで得られたセンシング情報とされる。
これらのセンシング情報に基づいて、ユーザ10A,10B,10Cの状態は、複数人のユーザが会話もなく別々の作業を行っているような状態であると推定され、クラスタとして別々行動モードに分類される。
応答生成部74は、各種のセンシング情報と、ユーザ10A,10Bのプロファイルデータを用いて、別々行動モードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(c)照度センシング、(j)ユーザの予定情報、(k)楽曲の評価・再生回数、および、(l)発話履歴が用いられることで得られたセンシング情報とされる。
これにより、別々行動モードに対応する応答として、ユーザ同士の会話を発生させるような話題が生成される。
図9は、図8に示される環境において得られるセンシング情報と、エージェント装置20による応答生成の例について説明する図である。
図9においては、時刻t21乃至t23の間に得られた、ユーザ10A,10B,10Cについてのセンシング情報が示されている。
なお、図9のA,B,Cに示される波形が表すセンシング情報は、図7の例と同様である。
図9の例において、時刻t21乃至t22の間では、3人のユーザ10A,10B,10Cは、全く別の作業をしている状態にある。
この間、センシング情報において、3人のユーザ10A,10B,10Cのいずれの信号も小さく変動していないことから、3人のユーザ10A,10B,10Cはそれぞれ会話も動きもなく静かにしていることが推定される。
すなわち、ユーザ10A,10B,10Cの状態は、複数人のユーザが会話もなく別々の作業を行っているような状態であると推定され、クラスタとして別々行動モードに分類される。
この場合、別々行動モードに対応する応答としては、センシング情報として得られる、最近の発話履歴((l)発話履歴)から映画の話題が生成され、時刻t22において、ユーザ10A,10B,10Cに対してその話題が提供される。
これにより、時刻t22乃至t23の間では、ユーザ10A,10B,10C同士で会話が発生した状態になる。すなわち、ユーザ10A,10B,10Cそれぞれの音信号と動作信号が大きく変動している。
このようにして、複数人のユーザが別々の作業を行っている場合にも、ユーザが皆満足できる空間が提供されるようになる。
<5.応答システムの第3の利用例>
図10は、本技術を適用した応答システムの第3の利用例について説明する図である。
図10は、エージェント装置20が設置されているある家のリビングで、2人のユーザ10B,10Cが、ものを組み立てるなど1つの作業を行っている状態で、ユーザ10Aが外から室内に入ってきて、ユーザ10B,10Cに話しかけている様子を示している。
図10の例においても、ユーザ10A,10B,10Cそれぞれについて得られるセンシング情報と、記憶されているプロファイルデータは、図6の例と同様とする。
図10の例において、分析部72は、各種のセンシング情報を分析することで、ユーザ10A,10B,10Cの状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、(g)心拍の変動検知、および、(h)表情認識が用いられることで得られたセンシング情報とされる。
これらのセンシング情報に基づいて、ユーザ10A,10B,10Cの状態は、数人のユーザが1つの作業を行っている中で、他のユーザがその作業の邪魔になるような行動をとっているような状態であると推定され、クラスタとして邪魔者乱入モードに分類される。
応答生成部74は、各種のセンシング情報と、ユーザ10A,10Bのプロファイルデータを用いて、邪魔者乱入モードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(h)表情認識、(j)ユーザの予定情報、および、(l)発話履歴が用いられることで得られたセンシング情報とされる。
これにより、邪魔者乱入モードに対応する応答として、邪魔者と判断された人物に対する話題が生成される。
図11は、図10に示される環境において得られるセンシング情報と、エージェント装置20による応答生成の例について説明する図である。
図11においては、時刻t31乃至t34の間に得られた、ユーザ10A,10B,10Cについてのセンシング情報が示されている。
なお、図11のA,B,Cに示される波形が表すセンシング情報は、図7の例と同様である。
図11の例において、時刻t31乃至t32の間では、2人のユーザ10B,10Cが、1つの作業をしている状態にある。
この間、センシング情報において、ユーザ10B,10Cの音信号の変動は小さく、動作信号の変動が若干大きいことから、2人のユーザ10B,10Cはそれぞれ会話をしないで作業のために動いていることが推定される。ユーザ10Aは、エージェント装置20によるセンシング範囲の外にいるため、センシング情報は取得されない。
時刻t32において、ユーザ10Aが部屋に入ってきて、ユーザ10B,10Cに話しかけ始める。そして、時刻t32乃至t33の間では、ユーザ10Aが、ユーザ10B,10Cに話しかけることで、ユーザ10B,10Cが作業を中断している状態にある。
この間、センシング情報において、ユーザ10Aの音信号と動作信号が大きく変動していることから、ユーザ10Aが身振り手振りで発話していることが推定される。また、ユーザ10B,10Cの音信号の変動は大きくなったものの、動作信号の変動が小さくなったことから、2人のユーザ10B,10Cはユーザ10Aとの会話のため作業を中断していることが推定される。
すなわち、ユーザ10A,10B,10Cの状態は、数人のユーザが1つの作業を行っている中で、例えば他の1人のユーザがその作業の邪魔になるような行動をとっているような状態され、クラスタとして邪魔者乱入モードに分類される。
この場合、邪魔者乱入モードに対応する応答としては、センシング情報として得られるユーザ10Aの行動履歴((j)ユーザの予定情報)に基づいておすすめスポットの話題が生成され、時刻t33において、ユーザ10Aに対してその話題が提供される。おすすめスポットは、例えば、ユーザ10Aの行動履歴から推定される、ユーザ10Aが興味を示しそうな街などとされる。
これにより、時刻t33乃至t34の間では、ユーザ10Aがエージェント装置20と会話し、ユーザ10B,10Cが作業に戻った状態になる。
具体的には、ユーザ10Aの音信号が大きく変動し続けている一方、ユーザ10B,10Cの音信号の変動は小さく、動作信号の変動が再び若干大きくなっている。
このようにして、2人のユーザが1つの作業を行っている状態で、1人のユーザが外から室内に入ってきて、2人のユーザに話しかけている場合にも、ユーザが皆満足できる空間が提供されるようになる。
<6.応答システムの第4の利用例>
図12は、本技術を適用した応答システムの第4の利用例について説明する図である。
図12は、エージェント装置20が設置されているある家のリビングで、多人数のユーザ10がパーティーに参加している様子を示している。
図12の例において、分析部72は、各種のセンシング情報を分析することで、全ユーザ10の状態、言い換えると、室内全体の状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(b)加速度センシング、(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、および、(g)心拍の変動検知が用いられることで得られたセンシング情報とされる。
図13は、図12に示される環境において得られるセンシング情報について説明する図である。
図13には、上から順に、室内全体(全ユーザ10)の音信号(実線)、動作信号(点線)、および心拍情報(破線)を表す波形が示されている。心拍情報は、心拍の変動検知が可能なリストバンド型のウェアラブル機器を装着しているユーザ10についてのみ取得される。
図13においては、室内全体の音信号、動作信号、および心拍情報が、それぞれ高いレベルを取りながら変動している。このことから、各ユーザ10の状態(室内全体の状態)は、超多人数のユーザがパーティー会場などで盛り上がっているような状態であると推定され、クラスタとしてパーティーモードに分類される。
応答生成部74は、各種のセンシング情報を用いて、パーティーモードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(c)照度センシング、(j)ユーザの予定情報、(k)楽曲の評価・再生回数、および、(n)家の中での位置情報が用いられることで得られたセンシング情報とされる。
これにより、パーティーモードに対応する応答として、パーティーを邪魔しないようなBGMが選出される。
このようにして、多人数のユーザがパーティーに参加している場合にも、ユーザが皆満足できる空間が提供されるようになる。
なお、以上においては、本技術を、音声アシスタントデバイスとして構成されるエージェント装置20に適用した例について説明したが、例えば、スマートフォンなどの携帯端末に適用することも可能である。
<7.ニューラルネットワークへの適用>
本技術は、ニューラルネットワークへ適用することができる。
図14は、ニューラルネットワークの構成例を示す図である。
図14のニューラルネットワークは、入力層101、中間層102、および出力層103で構成される階層型ニューラルネットワークである。
入力層101には、上述したセンシング情報や、センシング情報を解析することで得られる特徴量などが入力される。
中間層102においては、各ニューロンにおいて、入力層101に入力されたセンシング情報や特徴量などの分析、分析結果のクラスタリング、クラスタに対応した応答の生成などの演算が行われる。
出力層103には、中間層102における演算の結果として、ユーザの状態が分類されたクラスタや、そのクラスタに対応して生成された応答が出力される。
このようにして、本技術は、階層型ニューラルネットワークに適用することができる。
<8.クラウドコンピューティングへの適用>
本技術は、クラウドコンピューティングへ適用することもできる。
例えば、図15に示されるように、エージェント装置210は、複数人のユーザが存在する環境においてセンシングを行い、得られたセンシング情報を、ネットワークNWを介して接続されるサーバ220に送信する。さらに、エージェント装置210は、サーバ220からネットワークNWを介して送信されてくる、ユーザに対する応答を、発話音声や楽曲として出力する。
サーバ120は、通信部231、分析部232、クラスタリング部233、応答生成部234、および記憶部235を備えている。
通信部231は、エージェント装置210からネットワークNWを介して送信されてくるセンシング情報を受信する。また、通信部231は、応答生成部234によって生成された応答を、ネットワークNWを介してエージェント装置210に送信する。
分析部232は、図3の分析部72と同一の機能を有し、通信部231からのセンシング情報を分析することで、複数人のユーザが存在する環境におけるユーザの状態を推定する。
クラスタリング部233は、図3のクラスタリング部73と同一の機能を有し、ユーザの状態が分類されるクラスタを決定する。
応答生成部234は、図3の応答生成部74と同一の機能を有し、分類されたクラスタに対応した応答を生成し、通信部231に供給する。
記憶部235は、図3の記憶部75と同一の機能を有し、ユーザ個人の嗜好や経験を示すプロファイルデータや、種々の楽曲を表す楽曲データを記憶する。
このような構成においても、複数人のユーザが皆満足できる空間を提供することが可能となる。
<9.その他>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
上述したエージェント装置20およびサーバ220は、図16に示す構成を有するコンピュータにより実現される。
CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005およびバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は以下のような構成をとることができる。
(1)
複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析する分析部と、
前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する応答生成部と
を備える情報処理装置。
(2)
前記分析部は、前記センシング情報を分析することで、前記環境における前記ユーザの状態を推定し、
前記応答生成部は、推定された前記ユーザの状態に対応した前記応答を生成する
(1)に記載の情報処理装置。
(3)
前記ユーザの状態をクラスタリングすることで、前記ユーザの状態が分類されるクラスタを決定するクラスタリング部をさらに備え、
前記応答生成部は、決定された前記クラスタに対応した前記応答を生成する
(2)に記載の情報処理装置。
(4)
前記応答生成部は、前記センシング情報を用いて、前記クラスタに対応した前記応答を生成する
(3)に記載の情報処理装置。
(5)
前記応答生成部は、前記ユーザそれぞれのプロファイルを用いて、前記クラスタに対応した前記応答を生成する
(3)または(4)に記載の情報処理装置。
(6)
前記応答生成部は、前記複数人のユーザの中に、前記プロファイルのない前記ユーザが存在する場合、前記プロファイルのない前記ユーザの属性に応じた一般化プロファイルを用いて、前記クラスタに対応した前記応答を生成する
(5)に記載の情報処理装置。
(7)
前記応答は、楽曲である
(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記応答は、発話音声である
(1)乃至(6)のいずれかに記載の情報処理装置。
(9)
前記センシング情報は、前記環境を撮像した画像を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記センシング情報は、前記環境において検出された音声を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(11)
前記センシング情報は、前記ユーザの視線情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(12)
前記センシング情報は、前記ユーザの生体情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(13)
前記センシング情報は、前記ユーザの位置情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(14)
前記センシング情報は、前記ユーザの動作情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(15)
前記センシング情報は、前記環境における照度を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(16)
前記センシング情報は、前記ユーザの予定情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(17)
前記センシング情報は、前記ユーザの発話履歴を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(18)
前記環境においてセンシングを行うセンシング部をさらに備える
(1)乃至(17)のいずれかに記載の情報処理装置。
(19)
前記応答生成部は、前記ユーザの状態が、複数人の前記ユーザが互いに楽しく会話を交わしているような状態であると推定された場合、前記ユーザ同士の会話を邪魔しないような前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(20)
前記応答生成部は、前記ユーザの状態が、複数人の前記ユーザが別々の作業を行っているような状態であると推定された場合、前記ユーザ同士の会話を発生させるような前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(21)
前記応答生成部は、前記ユーザの状態が、第1のユーザが第2のユーザが行っている作業の邪魔になるような行動をとっているような状態であると推定された場合、前記第1のユーザに対する前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(22)
前記応答生成部は、前記ユーザの状態が、超多人数で盛り上がっている状態であると推定された場合、その盛り上がりを邪魔しないような前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(23)
情報処理装置が、
複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、
前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する
情報処理方法。
(24)
コンピュータに、
複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、
前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する
処理を実行させるプログラム。
20 エージェント装置, 71 センシング部, 72 分析部, 73 クラスタリング部, 74 応答生成部, 75 記憶部, 76 出力部, 210 エージェント装置, 220 サーバ, 231 通信部, 232 分析部, 233 クラスタリング部, 234 応答生成部, 235 記憶部

Claims (8)

  1. 複数人のユーザが存在する環境におけるセンシングにより得られた第1のセンシング情報を分析することで、前記環境における複数人の前記ユーザの状態推定する分析部と、
    推定された前記ユーザの状態に対応した応答生成する応答生成部と
    を備え
    前記応答生成部は、前記ユーザの状態として、第1のユーザが第2のユーザの邪魔になるような行動をとっている状態であることが推定された場合、前記センシングにより得られた第2のセンシング情報を用いて、前記第1のユーザに対する発話音声を生成する
    情報処理装置。
  2. 複数人の前記ユーザの状態を分類する複数の行動モードから、推定された前記ユーザの状態が分類される前記行動モードを決定する分類部をさらに備え、
    前記応答生成部は、決定された前記行動モードに対応した前記応答を生成する
    請求項1に記載の情報処理装置。
  3. 前記応答生成部は、前記ユーザそれぞれのプロファイルを用いて、前記行動モードに対応した前記応答を生成する
    請求項2に記載の情報処理装置。
  4. 前記応答生成部は、前記複数人のユーザの中に、前記プロファイルのない前記ユーザが存在する場合、前記プロファイルのない前記ユーザの属性に応じた一般化プロファイルを用いて、前記行動モードに対応した前記応答を生成する
    請求項に記載の情報処理装置。
  5. 前記第1のセンシング情報は、前記環境を撮像した画像、前記環境において検出された音声、前記ユーザの視線情報、および、前記ユーザの生体情報を含み、
    前記第2のセンシング情報は、前記環境を撮像した画像、前記ユーザの予定情報、および、前記ユーザの発話履歴を含む
    請求項1乃至4のいずれかに記載の情報処理装置。
  6. 前記環境においてセンシングを行うセンシング部をさらに備える
    請求項1乃至5のいずれかに記載の情報処理装置。
  7. 情報処理装置が、
    複数人のユーザが存在する環境におけるセンシングにより得られた第1のセンシング情報を分析することで、前記環境における複数人の前記ユーザの状態推定し、
    推定された前記ユーザの状態に対応した応答生成し、
    前記ユーザの状態として、第1のユーザが第2のユーザの邪魔になるような行動をとっている状態であることが推定された場合、前記センシングにより得られた第2のセンシング情報を用いて、前記第1のユーザに対する発話音声を生成する
    情報処理方法。
  8. コンピュータに、
    複数人のユーザが存在する環境におけるセンシングにより得られた第1のセンシング情報を分析することで、前記環境における複数人の前記ユーザの状態推定し、
    推定された前記ユーザの状態に対応した応答生成し、
    前記ユーザの状態として、第1のユーザが第2のユーザの邪魔になるような行動をとっている状態であることが推定された場合、前記センシングにより得られた第2のセンシング情報を用いて、前記第1のユーザに対する発話音声を生成する
    処理を実行させるプログラム。
JP2019521168A 2017-10-31 2018-10-17 情報処理装置、情報処理方法、およびプログラム Active JP7327161B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017210011 2017-10-31
JP2017210011 2017-10-31
PCT/JP2018/038608 WO2019087779A1 (ja) 2017-10-31 2018-10-17 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2019087779A1 JPWO2019087779A1 (ja) 2020-09-24
JP7327161B2 true JP7327161B2 (ja) 2023-08-16

Family

ID=66332586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019521168A Active JP7327161B2 (ja) 2017-10-31 2018-10-17 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20210110846A1 (ja)
EP (1) EP3575978A4 (ja)
JP (1) JP7327161B2 (ja)
WO (1) WO2019087779A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366166A (ja) 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
JP2008263274A (ja) 2007-04-10 2008-10-30 Sony Corp 画像保存処理装置、画像検索装置、画像保存処理方法、画像検索方法、プログラム
JP2013120473A (ja) 2011-12-07 2013-06-17 Nikon Corp 電子機器、情報処理方法およびプログラム
JP2014130467A (ja) 2012-12-28 2014-07-10 Sony Corp 情報処理装置、情報処理方法及びコンピュータプログラム
WO2016136104A1 (ja) 2015-02-23 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3437617B2 (ja) * 1993-06-03 2003-08-18 株式会社東芝 時系列データ記録再生装置
JP6535497B2 (ja) 2015-03-31 2019-06-26 株式会社エクシング 楽曲推薦システム、プログラム及び楽曲推薦方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366166A (ja) 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
JP2008263274A (ja) 2007-04-10 2008-10-30 Sony Corp 画像保存処理装置、画像検索装置、画像保存処理方法、画像検索方法、プログラム
JP2013120473A (ja) 2011-12-07 2013-06-17 Nikon Corp 電子機器、情報処理方法およびプログラム
JP2014130467A (ja) 2012-12-28 2014-07-10 Sony Corp 情報処理装置、情報処理方法及びコンピュータプログラム
WO2016136104A1 (ja) 2015-02-23 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
澤田 竜一,顔画像を用いた対話者の年齢・性別推定とロボットからの話題提供への応用,第78回(平成28年)全国大会講演論文集(2) 人工知能と認知科学,一般社団法人情報処理学会,2016年03月10日,pp.2-117~2-118,3M-02

Also Published As

Publication number Publication date
EP3575978A4 (en) 2020-04-01
EP3575978A1 (en) 2019-12-04
JPWO2019087779A1 (ja) 2020-09-24
WO2019087779A1 (ja) 2019-05-09
US20210110846A1 (en) 2021-04-15

Similar Documents

Publication Publication Date Title
US10276188B2 (en) Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
US9626695B2 (en) Automatically presenting different user experiences, such as customized voices in automated communication systems
US10498673B2 (en) Device and method for providing user-customized content
US11074905B2 (en) System and method for personalization in speech recognition
US20180101776A1 (en) Extracting An Emotional State From Device Data
JP2019207720A (ja) 情報処理装置、情報処理方法及びプログラム
US7660825B2 (en) Audio/visual content providing system and audio/visual content providing method
US11314475B2 (en) Customizing content delivery through cognitive analysis
US20180054688A1 (en) Personal Audio Lifestyle Analytics and Behavior Modification Feedback
JP7230804B2 (ja) 情報処理装置、及び情報処理方法
KR20190033719A (ko) 개인방송 컨텐츠 추천방법
JP2017064853A (ja) ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム
Wyatt et al. A Privacy-Sensitive Approach to Modeling Multi-Person Conversations.
JP7136099B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11393462B1 (en) System to characterize vocal presentation
US20160357498A1 (en) Gamified Adaptive Digital Disc Jockey
JP7327161B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019244455A1 (ja) 情報処理装置及び情報処理方法
WO2020066154A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム
Cao Objective sociability measures from multi-modal smartphone data and unconstrained day-long audio streams
US20220217442A1 (en) Method and device to generate suggested actions based on passive audio
de Andrade et al. Edge emotion recognition: applying fast Fourier transform on speech Mel spectrograms to classify emotion on a Raspberry Pi for near real-time analytics
Flutura et al. Mobilessi-a multi-modal framework for social signal interpretation on mobile devices
Vildjiounaite et al. Requirements and software framework for adaptive multimodal affect recognition
JP2020064425A (ja) 情報処理システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230717

R151 Written notification of patent or utility model registration

Ref document number: 7327161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151