JP2015118185A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2015118185A
JP2015118185A JP2013260462A JP2013260462A JP2015118185A JP 2015118185 A JP2015118185 A JP 2015118185A JP 2013260462 A JP2013260462 A JP 2013260462A JP 2013260462 A JP2013260462 A JP 2013260462A JP 2015118185 A JP2015118185 A JP 2015118185A
Authority
JP
Japan
Prior art keywords
conversation
information
processing apparatus
speaker
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013260462A
Other languages
English (en)
Other versions
JP2015118185A5 (ja
JP6164076B2 (ja
Inventor
石橋 義人
Yoshito Ishibashi
義人 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2013260462A priority Critical patent/JP6164076B2/ja
Priority to US14/564,284 priority patent/US20150170674A1/en
Publication of JP2015118185A publication Critical patent/JP2015118185A/ja
Publication of JP2015118185A5 publication Critical patent/JP2015118185A5/ja
Application granted granted Critical
Publication of JP6164076B2 publication Critical patent/JP6164076B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】新たな観点でユーザの生活環境の特性を示す情報を収集する。【解決手段】ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、上記量的指標に基づいて上記生活環境の特性を示す情報を生成する情報生成部とを備える情報処理装置が提供される。【選択図】図3

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、生活環境に関するデータの収集は、医師などの問診によるものが主であった。ところが、問診によってデータを収集する場合、問いかける医師と答える患者との双方の主観が影響するため、客観的なデータを収集することは困難であった。これに対して、例えば特許文献1には、加速度センサ、心拍センサ、および光センサから出力されるデータに基づいて、起床、就寝、摂食、運動といった、ユーザの生活習慣の態様に関する情報を客観的に取得する技術が記載されている。これによれば、例えば、患者個人の長期にわたる生活活動状況が記録でき、この情報に基づいて医師が客観的に診断を下すことができると期待されている。
特開2010−158267号公報
しかしながら、例えば特許文献1に記載されたような技術では、ユーザの体の動きや脈拍、周囲環境における光量のような肉体的または物理的なデータに基づいて生活習慣の態様が推定されるため、例えばそのようなデータに変化が生じにくい生活環境の特性を示す情報を取得することは難しかった。
そこで、本開示では、新たな観点でユーザの生活環境の特性を示す情報を収集することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、上記量的指標に基づいて上記生活環境の特性を示す情報を生成する情報生成部とを備える情報処理装置が提供される。
また、本開示によれば、プロセッサが、ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出することと、上記量的指標に基づいて上記生活環境の特性を示す情報を生成することとを含む情報処理方法が提供される。
また、本開示によれば、ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する機能と、上記量的指標に基づいて上記生活環境の特性を示す情報を生成する機能とをコンピュータに実現させるためのプログラムが提供される。
以上説明したように本開示によれば、新たな観点でユーザの生活環境の特性を示す情報を収集することができる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態におけるユーザの生活環境での音声取得について説明するための図である。 本開示の一実施形態に係るシステムの概略的な構成を示す図である。 本開示の一実施形態における処理部の概略的な構成を示す図である。 本開示の一実施形態において、発話音声の話者を特定する処理の例を示すフローチャートである。 本開示の一実施形態において、会話区間を特定する処理の例を示すフローチャートである。 本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.システム構成
2.処理部の構成
3.処理フロー
3−1.話者の特定
3−2.会話区間の特定
4.適用例
4−1.会話時間
4−2.会話の音量
4−3.会話の速度
4−4.データの利用
5.ハードウェア構成
6.補足
(1.システム構成)
図1は、本開示の一実施形態におけるユーザの生活環境での音声取得について説明するための図である。図1を参照すると、本実施形態では、ウェアラブル端末100によって、ユーザの生活環境での音声が取得される。
ウェアラブル端末100は、マイクロフォン110を備える。マイクロフォン110は、ユーザU1の生活環境に置かれ、そこで発生した音声を取得することができる。ユーザU1の生活環境で発生した音声を網羅的に取得するためには、ユーザU1が装着可能なウェアラブル端末100を使用することが望ましいが、ユーザU1が携帯可能なモバイル端末を、ウェアラブル端末100に代えて、またはこれとともに使用してもよい。また、例えば、ユーザU1の生活環境が限定される場合(まだベッドから起き上がらない乳児の場合など)には、据え置き型の端末装置が備えるマイクロフォンで音声を取得することも可能である。なお、ウェアラブル端末100は、本実施形態に係る音声データの取得を主な機能として設計されたものであってもよいし、ウェアラブル端末100の複数の機能の1つとして、本実施形態に係る音声データの取得が実行されてもよい。
ここで、ウェアラブル端末100のマイクロフォン110によって取得される音声には、ユーザU1と、ユーザU1の生活環境にいる他のユーザであるユーザU2,U3との発話音声が含まれる。発話音声は、会話を構成しうる。例えば、ユーザU1がユーザU2と会話した場合、マイクロフォン110によって、ユーザU1の発話音声とユーザU2の発話音声とが交互に取得される。また、ユーザU2がユーザU3と会話した場合、マイクロフォン110によって、ユーザU2の発話音声とユーザU3の発話音声とが交互に取得される。
図2は、本開示の一実施形態に係るシステムの概略的な構成を示す図である。図2を参照すると、システム10は、ウェアラブル端末100と、スマートフォン200と、サーバ300とを含む。なお、それぞれの装置を実現する情報処理装置のハードウェア構成例については後述する。
ウェアラブル端末100は、マイクロフォン110と、処理部120と、送信部130とを備える。マイクロフォン110は、上記で図1を参照して説明したように、ユーザの生活環境に置かれる。処理部120は、例えばCPUなどのプロセッサによって実現され、マイクロフォン110によって取得された音声データを処理する。処理部120による処理は、例えばサンプリングやノイズ除去などの前処理であってもよいし、後述するような音声解析や量的指標の算出などの処理が処理部120で実行されてもよい。送信部130は、通信装置によって実現され、例えばBluetooth(登録商標)などの無線通信を利用して音声データ(または解析後のデータ)をスマートフォン200に送信する。
スマートフォン200は、受信部210と、処理部220と、記憶部230と、送信部240とを備える。受信部210は、通信装置によって実現され、ウェアラブル端末100からBluetooth(登録商標)などの無線通信を利用して送信された音声データ(または解析後のデータ)を受信する。処理部220は、例えばCPUなどのプロセッサによって実現され、受信されたデータを処理する。例えば、処理部220は、受信されたデータを一時的に記憶部230に蓄積した後に、送信部240を介してサーバ300に送信してもよい。記憶部230は、例えばメモリやストレージによって実現される。送信部240は、通信装置によって実現され、例えばインターネットなどのネットワーク通信を利用して音声データ(または解析後のデータ)をサーバ300に送信する。処理部220は、上記のような蓄積および送信の制御を実行するとともに、後述するような音声解析や量的指標の算出などの処理を実行してもよい。
なお、スマートフォン200は、ウェアラブル端末100において取得された音声データ(または解析後のデータ)を必要に応じて蓄積または処理してからサーバ300に転送する機能を実現するため、必ずしもスマートフォンには限られず、他の様々な端末装置によって代替されうる。例えば、スマートフォン200は、タブレット端末や、各種のパーソナルコンピュータ、無線ネットワークアクセスポイントなどによって代替されてもよい。あるいは、例えばウェアラブル端末100がネットワーク通信機能を有し、直接的にサーバ300に音声データ(または解析後のデータ)を送信することが可能であるような場合には、スマートフォン200がシステム10に含まれなくてもよい。
サーバ300は、受信部310と、処理部320と、記憶部330と、出力部340とを備える。受信部310は、通信装置によって実現され、スマートフォン200からインターネットなどのネットワーク通信を利用して送信された音声データ(または解析後のデータ)を受信する。処理部320は、例えばCPUなどのプロセッサによって実現され、受信されたデータを処理する。例えば、処理部320は、受信されたデータを一時的に記憶部330に蓄積した後に、後述するような音声解析や量的指標の算出などの処理を実行し、解析後のデータをさらに記憶部330に蓄積したり、出力部340を介して出力したりしてもよい。音声解析や量的指標の算出などの処理がウェアラブル端末100またはスマートフォン200において実行される場合には、処理部320は解析後のデータの蓄積および出力の制御を実行するだけであってもよい。
以上説明してきたが、処理部120,220,320の役割は、各装置の処理能力、メモリ容量、および/または通信環境などに応じて変化する。そのため、上記で説明したそれぞれの処理部の役割は、変更されたり、交換されたりしてもよい。一例として、解析処理の全体を処理部120で実行した後に、解析後のデータをサーバ300に送信してもよい。また、例えば、音声データを一旦サーバ300に送信した後、サーバ300で前処理を実行してからスマートフォン200に処理後のデータを返送し、最終的な解析処理をスマートフォン200で実行したうえで、ウェアラブル端末100を介して情報を出力してもよい。また、例えば、ウェアラブル端末100で音声データなどを収集し、収集されたデータをスマートフォン200を介してサーバ300に送信し、サーバ300の処理部320が基本的な解析処理を実行したうえで、解析後のデータをスマートフォン200に送信してもよい。このように、システムにおける各装置の役割は、上記で例示した構成以外にも可能である。
(2.処理部の構成)
図3は、本開示の一実施形態における処理部の概略的な構成を示す図である。図3を参照すると、本実施形態に係る処理部は、音声解析部520と、指標算出部540と、情報生成部560と、話者特定部580とを含みうる。
ここで、音声解析部520、指標算出部540、情報生成部560、および話者特定部580は、例えば、上記で図2を参照して説明したシステム10において、ウェアラブル端末100の処理部120、スマートフォン200の処理部220、またはサーバ300の処理部320において実現される。処理部の全体が単一の装置において実現されてもよいし、1または複数の構成要素がそれぞれ別の装置に分散して実現されてもよい。
音声データ510は、ウェアラブル端末100のマイクロフォン110によって取得される。上述の通り、マイクロフォン110はユーザの生活環境に置かれているため、音声データ510には、ユーザの身の回りで発生したさまざまな音が含まれる。例えば、音声データ510には、ユーザと他のユーザとの会話(図1の例ではユーザU1とユーザU2またはユーザU3との会話)や、ユーザの近傍でなされた他のユーザ同士の会話(図1の例ではユーザU2とユーザU3との会話)を構成する発話音声が含まれる。
音声解析部520は、音声データ510を解析することによって、発話音声データ530を取得する。例えば、音声解析部520は、音声データ510から、発話音声の区間を切り出すことによって発話音声データ530を取得してもよい。この場合、例えば、複数のユーザの発話音声による一連の会話の区間が切り出されて発話音声データ530が取得されうる。後述する話者特定部580によって発話音声の話者の少なくとも一部が特定されている場合、音声解析部520は、発話音声データ530に、区間ごとの発話音声の話者を示す情報を付加してもよい。なお、音声データから発話音声の区間を切り出す処理には、公知の様々な技術を利用することが可能であるため、詳細な説明は省略する。
指標算出部540は、発話音声データ530を解析することによって、発話音声によって構成される会話に関する量的指標550を算出する。ここで、上述の通り、発話音声は、ユーザの生活環境に置かれたマイクロフォンによって取得される。量的指標550は、例えば、会話の通算時間や、音量、速度などを含みうる。発話音声データ530において、複数のユーザの発話音声による一連の会話の区間が切り出されており、さらに区間ごとの発話音声の話者を示す情報が付加されているような場合、指標算出部540は、上記のような量的指標550を会話の参加者ごとに算出してもよい。あるいは、指標算出部540は、発話音声データ530を話者特定部580に提供し、話者特定部580が発話音声の話者を特定した結果に基づいて、量的指標550を会話の参加者ごとに算出してもよい。また、指標算出部540は、会話の参加者に関係なく、会話全体について量的指標550を算出してもよい。
ここで、本実施形態において、指標算出部540は、発話音声データ530から量的指標550を算出するにあたり、発話の内容を考慮しない。つまり、本実施形態において、指標算出部540は、量的指標550の算出にあたって、発話音声データ530について音声認識の処理を実行しない。結果として、算出された量的指標550では会話の内容がマスクされることになる。従って、本実施形態における量的指標550は、ユーザのプライバシーを侵害しないデータとして扱うことが可能である。もちろん、音声データ510そのものを記録しておくことも、音声認識処理を実行し、発話内容を解析して文字情報として記録しておくことも可能である。その場合にも、例えばユーザのプライバシーや業務上の機密情報などを保護するために、例えばユーザの要求などに応じて記録された情報を消去することが可能であってもよい。
情報生成部560は、量的指標550に基づいて、生活環境特性570を生成する。生活環境特性570は、ユーザの生活環境の特性を示す情報である。例えば、情報生成部560は、ユーザの生活環境で発生した会話の通算時間を含む量的指標550に基づいて、会話の参加者ごとの通算時間に基づいて生活環境特性570を生成してもよい。このとき、会話の通算時間は単位期間ごとに算出され、情報生成部560は、通算時間の増減傾向に基づいて生活環境特性570を生成してもよい。また、例えば、情報生成部560は、会話の音量または速度を含む量的指標550に基づいて、参加者ごとの会話の音量または速度が通常の範囲を超えた時間または回数に基づいて生活環境特性570を生成してもよい。なお、生活環境特性570として生成される情報の具体的な例については後述する。
話者特定部580は、音声データ510または発話音声データ530に含まれる発話音声の話者の少なくとも一部を特定する。話者特定部580は、例えば、予め登録されている個々のユーザの声の特徴を発話音声の特徴と比較することによって、話者を特定する。例えば、話者特定部580は、ユーザ自身と、ユーザの家族の構成員とを、話者として特定してもよい。上記のように、話者特定部580が発話音声の話者を特定することによって、指標算出部540が、会話に関する量的指標550を、会話の参加者ごとに算出することができる。なお、話者特定部580は、必ずしもすべての発話音声の話者を特定しなくてもよい。例えば、話者特定部580は、予め登録されている特徴に一致しない特徴を有する発話音声を、その他の話者による発話音声として認識してもよい。この場合、その他の話者は、異なる複数の話者を含みうる。もちろん、状況に応じて、発話音声の特徴が予め登録されている特徴に一致しない話者を、自動的に識別したうえで登録するようにしてもよい。この場合、話者の名前等の個人情報は必ずしも特定されないが、発話音声の特徴が抽出されているため、この特徴によって発話音声を分類したうえで生活環境特性570の生成に利用することが可能である。後日、例えばユーザが入力した情報によって未特定の話者の個人情報が特定された場合には、遡って情報を更新してもよい。
(3.処理フロー)
(3−1.話者の特定)
図4は、本開示の一実施形態において、発話音声の話者を特定する処理の例を示すフローチャートである。なお、図示された例では、話者が母親または父親の場合が特定されるが、声の特徴を登録しておけば、兄弟や友人、学校の先生など、その他の話者を特定することも可能である。図4を参照すると、話者特定部580は、会話の開始後、音声データ510または発話音声データ530に含まれる発話音声の特徴と、予め登録されている母親の声の特徴とを比較する(S101)。ここで、発話音声の特徴が母親の声の特徴と一致すれば(YES)、話者特定部580は発話音声の話者が母親であることを登録する(S103)。なお、音声の特徴比較の処理には、公知の様々な技術を利用することが可能であるため、詳細な説明は省略する。
一方、S101において、発話音声の特徴が母親の声の特徴と一致しなかった場合(NO)、話者特定部580は、発話音声の特徴と、予め登録されている父親の声の特徴とを比較する(S105)。ここで、発話音声の特徴が父親の声の特徴と一致すれば(YES)、話者特定部580は発話音声の話者が父親であることを登録する(S107)。一方、S105において、発話音声の特徴が父親の声の特徴とも一致しなかった場合(NO)、話者特定部580は発話音声の特徴がそれ以外の人物であることを登録する(S109)。ここでは図示していないが、母親、父親以外の識別および登録を行ってもよい。以上で話者特定の処理は終了する。
(3−2.会話区間の特定)
図5は、本開示の一実施形態において、会話区間を特定する処理の例を示すフローチャートである。本実施形態では、例えば音声解析部520が、音声データ510に含まれる発話音声によって構成される会話の区間を特定する。より具体的には、音声解析部520は、発話音声データ530を抽出するにあたり、会話に参加するユーザによる最初の発話が開始されてから、同じく会話に参加するユーザによる最後の発話が終了するまでの区間を会話区間として特定する。例えば、会話区間の長さを計測することによって、会話の継続時間を算出することができる。
図5を参照すると、音声解析部520は、音声データ510において発話が開始された時点で会話の開始を検出すると、話者特定部580を用いて話者を特定する(S201)とともに、タイマーを起動させる(S203)。次に、音声解析部520は、音声データ510おいて、最初に発話を開始した話者とは異なる話者による発話が開始されたか否かを判定する(S205)。ここで、異なる話者の発話が開始された場合、音声解析部520は、直前のS201において特定された話者(IDなどの識別情報)と、当該話者との会話が継続した時間とを記録する(S207)とともに、次の話者を特定し(S201)、タイマーをリセットする(S203)。
一方、S205において異なる話者による発話が開始されなかった場合、さらに、音声解析部520は、発話の検出が継続されているか否かを判定する(S209)。ここで、発話の検出が継続されていた場合、音声解析部205は、S205(およびS209)の判定を再度実行する。一方、S209において発話の検出が継続されていなかった場合、すなわち発話音声がない状態が所定の時間以上続いた場合、音声解析部520は、直前のS201において特定された話者(IDなどの識別情報)と、当該話者との会話が継続した時間とを記録して(S211)、1つの会話区間の特定処理を終了する。
ここで、例えば、音声解析部520が、1秒(単位時間の例)ごとに話者特定部580に話者の特定を依頼するものとする。この場合、上記のような処理を実行すると、1秒ごとに話者特定部580が起動し、検出されている発話の話者を特定する。そこで、毎秒の話者特定部580による話者特定の結果をカウントすると、話者ごとの発話の継続時間が、話者特定部580において各話者が特定された回数によって示されることになる。また、話者ごとの発話の継続時間や上記の回数を時系列で記録すれば、話者が誰から誰に遷移したかがわかる。話者の遷移によって、例えば、会話の状況を推測することができる。例えば、話者が父親、子供、父親の順で遷移したとすれば、子供と父親との会話があったことがわかる。また、話者が父親、母親、父親の順で遷移したとすれば、夫婦間の会話を子供が聞いていると推測される。上記の2つの遷移が混在している場合には、家族での会話がなされていると推測される。
(4.適用例)
次に、本実施形態の適用例について説明する。なお、以下で説明する適用例では、システムによって蓄積された情報が、子供の生活環境特性を示す情報として扱われる。
本適用例において、生活環境特性を示す情報の生成対象になるユーザは、子供である。従って、ウェアラブル端末100は、子供に装着されるか、子供の近傍に配置される。さらに、ウェアラブル端末100は、家族の他の構成員、例えば父親や母親にも装着されうる。上述の通り、ウェアラブル端末100のマイクロフォン110によって取得された音声データ510を音声解析部520が解析することによって、発話音声データ530が取得される。さらに、発話音声データ530を指標算出部540が解析することによって、量的指標550が算出される。
(4−1.会話時間)
本適用例における会話の量的指標550は、例えば、家庭内での会話時間を含む。この場合、話者特定部580が特定する話者、つまり発話音声によって構成される会話の参加者にはユーザの家族の構成員が含まれる。家族の構成員は、より具体的にはユーザ(子供)の父親と母親でありうる。指標算出部540が会話の参加者(家族の構成員、例えば父親と母親)ごとに算出された会話の通算時間を含む量的指標550を生成し、情報生成部560が会話の参加者ごとの会話の通算時間に基づいて生活環境特性570を生成することによって、家族の構成員、例えば父親と母親のそれぞれとの会話の通算時間を示す情報が生成される。
上記の情報は、例えば、ユーザが、父親および母親のそれぞれと、どの程度親密な関係を築いているかの指標として用いられてもよい。また、例えば、指標算出部540が会話の参加者(家族の構成員、例えば父親と母親)ごと、かつ単位期間ごとに算出された会話の通算時間を含む量的指標550を生成し、情報生成部560が会話の参加者ごとの会話の通算時間の増減傾向に基づいて生活環境特性570を生成することによって、ユーザと父親および母親のそれぞれとの会話が増加傾向にあるか、減少傾向にあるかを把握することができる。
あるいは、指標算出部540が話者を特定せずに算出した家庭内での会話の通算時間を長期間にわたって蓄積することによって、情報生成部560は、蓄積された通算時間に基づいて、例えばユーザ(子供)が会話の多い生活環境(賑やかな/騒がしい生活環境)で育ったか、会話の少ない生活環境(静かな生活環境)で育ったかを示す情報を生成することができる。
また、指標算出部540は、時系列的に記録された会話の話者の識別情報に基づいて、会話の量的指標を算出してもよい。例えば、上述の例のように、例えば、話者が父親、子供、父親の順で遷移したとすれば、子供と父親との会話があったことがわかる。また、話者が父親、母親、父親の順で遷移したとすれば、夫婦間の会話を子供が聞いていると推測される。上記の2つの遷移が混在している場合には、家族での会話がなされていると推測される。
(4−2.会話の音量)
また、本適用例における会話の量的指標550は、家庭内での会話の平均音量および/または最大音量を含んでもよい。この場合、平均音量および/または最大音量は、所定の時間窓(例えば1分)ごとに算出されうる。この場合、話者特定部580が、話者が例えば父親、母親、またはそれ以外の人物であることを特定し、指標算出部540が、会話の参加者(父親および母親を含む)ごとに平均音量および/または最大音量を算出してもよい。あるいは、指標算出部540は、会話の参加者を区別せずに平均音量および/または最大音量を算出してもよい。
例えば、指標算出部540が話者ごとに算出した家庭内での会話の音量のデータを長期間にわたって蓄積した場合、情報生成部560は、父親または母親との会話の音量が通常の範囲を超えた時間または回数に基づいて、ユーザ(子供)がどの程度怒られていたかを示す情報を生成することができる。同様にして、情報生成部560は、父親と母親との会話の音量が通常の範囲を超えた時間または回数に基づいて、夫婦げんかがどの程度発生していたかを示す情報を生成してもよい。このような情報によって、夫婦げんかが子供の成長に与える影響を推測することができる。なお、会話の音量の通常の範囲は、例えば、量的指標550に含まれる会話の平均音量に基づいて設定されてもよいし、予め与えられてもよい。
あるいは、指標算出部540が話者を特定せずに算出した家庭内での会話の平均音量のデータを長期間にわたって蓄積することによって、情報生成部560が、例えば子供が騒がしい生活環境(会話は少ないが声が大きい場合を含む)で育ったか、静かな生活環境(会話は多いが声が大きくない場合を含む)で育ったかを示す情報を生成することができる。
(4−3.会話の速度)
また、本適用例における会話の量的指標550は、家庭内での会話の平均速度および/または最大速度を含んでもよい。この場合、平均速度および/または最大速度は、所定の時間窓(例えば1分)ごとに算出されうる。この場合も、話者特定部580が、話者が例えば父親、母親、またはそれ以外の人であることを特定し、指標算出部540が、会話の参加者(父親および母親を含む)ごとに平均速度および/または最大速度を算出してもよい。あるいは、指標算出部540は、話者を区別せずに平均速度および/または最大速度を算出してもよい。
例えば、指標算出部540が話者ごとに算出した家庭内での会話の速度のデータを長期間にわたって蓄積した場合、情報生成部560は、父親または母親との会話の速度が通常の範囲を超えた時間または回数に基づいて、ユーザ(子供)がどの程度怒られていたかを示す情報を生成することができる。同様にして、情報生成部560は、父親と母親との会話の速度が通常の範囲を超えた時間または回数に基づいて、夫婦げんかがどの程度発生していたかを示す情報を生成してもよい。なお、会話の速度の通常の範囲は、例えば、量的指標550に含まれる会話の平均速度に基づいて設定されてもよいし、予め与えられてもよい。
さらに、情報生成部560は、量的指標550に含まれる会話の音量および速度を組み合わせて利用して生活環境特性570を生成してもよい。例えば、情報生成部560は、父親または母親との会話の速度が通常の範囲を超え、かつ当該会話の音量が通常の範囲を超えた時間または回数に基づいて、ユーザ(子供)がどの程度怒られていたかを示す情報を生成することができる。同様にして、情報生成部560は、父親と母親との会話の速度が通常の範囲を超え、かつ当該会話の音量が通常の範囲を超えた時間または回数に基づいて、夫婦げんかがどの程度発生していたかを示す情報を生成してもよい。なお、会話の速度および音量の通常の範囲は、例えば、量的指標550に含まれる会話の平均速度および平均音量に基づいて設定されてもよいし、予め与えられてもよい。
同様にして、子供が父親または母親に対してする会話の速度が通常の範囲を超え、および/または当該会話の音量が通常の範囲を超えた時間または回数に基づいて、ユーザ(子供)が両親に対してどの程度反抗していたかを示す情報を生成してもよい。
あるいは、指標算出部540が話者を特定せずに算出した家庭内での会話の平均速度のデータを長期間にわたって蓄積することによって、情報生成部560が、例えば子供がせわしない生活環境で育ったか、ゆったりとした生活環境で育ったかを示す情報を生成することができる。
この場合も、平均速度のデータは平均音量のデータと組み合わせて利用されてもよい。より具体的には、量的指標550において会話の平均音量も平均速度も大きい場合、情報生成部560は、子供が騒がしい生活環境で育ったことを示す情報を生成することができる。また、会話の平均音量は大きいが平均速度が小さい場合には、声は大きいものの騒がしくはない(素朴な)生活環境であった可能性がある。同様に、会話の平均音量も平均速度も小さい場合には、子供が静かな生活環境で育ったことが推測される。一方、会話の平均音量は小さいが平均速度が大きい場合には、愚痴や小言が絶えない生活環境であった可能性がある。
また、子供の生活環境だけではなく、親や兄弟についても、同様にして生活環境の特性を示す情報を生成することが可能である。例えば、父親と母親との会話時間が少ないことや、父親と子供との会話時間が少ないことを検出して、父親自身に改善を促したり、改善に結びつく情報サービスなどを提供してもよい。また、兄弟げんかがどの程度発生したかを示す情報を生成することも可能である。さらに、会話時間やけんかをしていると推測される時間を、他の親や兄弟の平均値と比較して、平均値よりも時間が長いか短いか、平均値よりも兄弟げんかの頻度が高いか低いかといったようなことを示す情報を生成してもよい。
(4−4.データの利用)
近年、プロアクティブ医療が叫ばれる中、ユーザの生活環境に関する客観的なデータの取得が希求されている。特に、幼児期の生活環境が、将来の子供の成育に従来な影響を与えることが知られている。本適用例において取得されたデータは、例えば以下のような観点から利用することが考えられる。
まず、精神科などの診断において、過去から現在に至る患者(対象のユーザ)の家庭内での会話時間のデータが参照されてもよい。この場合、例えば、母親との会話時間が多いか、少ないか、父親との会話時間が多いか、少ないか、その他の人との会話時間が多いか、少ないかといった情報や、母親、父親、およびその他の人との会話時間が増加する傾向にあるのか、減少する傾向にあるのか、といった情報を得ることができる。この場合、図2を参照して説明したサーバ300の出力部340は、こうした診断の場における参照のためにデータを出力する。
さらに、会話時における母親や父親の声と本人の声との大小関係や、会話の音量、会話の速度などの情報も得ることができる。会話時間を含むこれらの情報から、幼少期における会話量の多少や、静かな生活環境だったのか、騒がしい生活環境だったのか、親に怒られていた頻度、夫婦げんかの子供への影響などを推測でき、このような推測に基づいた診断をすることができる。
また、上記のような生活環境の推測に基づいて、例えば、会話量が少ないと推測された場合には、会話を多く行うことができる環境を提供するサービスの推薦をすることができる。より具体的には、演劇、英会話、料理教室、スポーツ観戦、コンサートなど、他者と交流することができる場所やサービスを紹介することができる。一方、会話量が多いと推測された場合には、静かな環境を提供するサービスの推薦をすることができる。より具体的には、山岳旅行、自然環境に触れる旅行、寺巡りなどを紹介することができる。同様にして、音楽や映像コンテンツなどについても、生活環境の推測に基づいて推薦するアイテムを変更することができる。
なお、ここでは、システムによって蓄積された情報を子供の生活環境を示す情報として扱う場合について説明したが、本実施形態の適用例はこのような例には限られない。例えば、話者として同僚や上司を特定することによって、システムによって蓄積された情報を大人の職場環境を示す情報として扱うことも可能である。また、システムによって蓄積された情報を子供の生活環境を示す情報として扱う場合、父親および母親以外にも、兄弟や学校の先生、友人などを話者として特定してもよい。
(5.ハードウェア構成)
次に、図6を参照して、本開示の実施形態に係る情報処理装置のハードウェア構成について説明する。図6は、本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。図示された情報処理装置900は、例えば、上記の実施形態におけるウェアラブル端末100、スマートフォン200、およびサーバ300を実現しうる。
情報処理装置900は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置900は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置900は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置900は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりする。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などでありうる。出力装置917は、情報処理装置900の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。
ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理装置900に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどでありうる。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置900と外部接続機器929との間で各種のデータが交換されうる。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理装置900の筐体の姿勢など、情報処理装置900自体の状態に関する情報や、情報処理装置900の周辺の明るさや騒音など、情報処理装置900の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
以上、情報処理装置900のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
(6.補足)
本開示の実施形態は、例えば、上記で説明したような情報処理装置(ウェアラブル端末、スマートフォン、またはサーバ)、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成する情報生成部と
を備える情報処理装置。
(2)前記指標算出部は、前記会話の参加者ごとに前記量的指標を算出する、前記(1)に記載の情報処理装置。
(3)前記量的指標は、前記会話の通算時間を含み、
前記情報生成部は、前記会話の参加者ごとの前記通算時間に基づいて前記情報を生成する、前記(2)に記載の情報処理装置。
(4)前記会話の参加者は、前記ユーザの家族の構成員を含み、
前記情報生成部は、前記構成員ごとの前記通算時間に基づいて前記情報を生成する、前記(3)に記載の情報処理装置。
(5)前記通算時間は、単位期間ごとに算出され、
前記情報生成部は、前記会話の参加者ごとの前記通算時間の増減傾向に基づいて前記情報を生成する、前記(3)または(4)に記載の情報処理装置。
(6)前記量的指標は、前記会話の音量を含み、
前記情報生成部は、前記会話の参加者ごとの、前記音量がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、前記(2)〜(5)のいずれか1項に記載の情報処理装置。
(7)前記量的指標は、前記会話の速度を含み、
前記情報生成部は、前記会話の参加者ごとの、前記速度がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、前記(2)〜(5)のいずれか1項に記載の情報処理装置。
(8)前記量的指標は、前記会話の音量および速度を含み、
前記情報生成部は、前記会話の参加者ごとの、前記速度が平均から推定される通常の範囲を超え、かつ前記音量が平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、前記(2)〜(5)のいずれか1項に記載の情報処理装置。
(9)前記量的指標は、前記会話の音量または速度を含み、
前記情報生成部は、前記ユーザを参加者に含まない前記会話の音量または速度に基づいて前記情報を生成する、前記(2)〜(8)のいずれか1項に記載の情報処理装置。
(10)前記量的指標は、前記会話の通算時間を含み、
前記情報生成部は、前記通算時間に基づいて前記情報を生成する、前記(1)に記載の情報処理装置。
(11)前記量的指標は、前記会話の音量を含み、
前記情報生成部は、前記音量に基づいて前記情報を生成する、前記(1)に記載の情報処理装置。
(12)前記量的指標は、前記会話の速度を含み、
前記情報生成部は、前記速度に基づいて前記情報を生成する、前記(1)に記載の情報処理装置。
(13)前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備える、前記(1)〜(12)のいずれか1項に記載の情報処理装置。
(14)前記話者特定部は、前記話者を、予め登録された1または複数の話者と、それ以外の話者とに区分する、前記(13)に記載の情報処理装置。
(15)前記マイクロフォンから提供される音声データを解析することによって前記発話音声を示すデータを抽出する音声解析部をさらに備える、前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備え、
前記音声解析部は、前記話者を時系列で示すデータを抽出する、前記(15)に記載の情報処理装置。
(17)前記音声解析部は、単位時間ごとに前記話者特定部に話者の特定を依頼し、前記話者特定部において各話者が特定された回数によって前記話者を時系列で示すデータを抽出する、前記(16)に記載の情報処理装置。
(18)プロセッサが、
ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出することと、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成することと
を含む情報処理方法。
(19)ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する機能と、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成する機能と
をコンピュータに実現させるためのプログラム。
10 システム
100 ウェアラブル端末
120 処理部
200 スマートフォン
220 処理部
300 サーバ
320 処理部
520 音声解析部
540 指標算出部
560 情報生成部
580 話者特定部

Claims (19)

  1. ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、
    前記量的指標に基づいて前記生活環境の特性を示す情報を生成する情報生成部と
    を備える情報処理装置。
  2. 前記指標算出部は、前記会話の参加者ごとに前記量的指標を算出する、請求項1に記載の情報処理装置。
  3. 前記量的指標は、前記会話の通算時間を含み、
    前記情報生成部は、前記会話の参加者ごとの前記通算時間に基づいて前記情報を生成する、請求項2に記載の情報処理装置。
  4. 前記会話の参加者は、前記ユーザの家族の構成員を含み、
    前記情報生成部は、前記構成員ごとの前記通算時間に基づいて前記情報を生成する、請求項3に記載の情報処理装置。
  5. 前記通算時間は、単位期間ごとに算出され、
    前記情報生成部は、前記会話の参加者ごとの前記通算時間の増減傾向に基づいて前記情報を生成する、請求項3に記載の情報処理装置。
  6. 前記量的指標は、前記会話の音量を含み、
    前記情報生成部は、前記会話の参加者ごとの、前記音量がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、請求項2に記載の情報処理装置。
  7. 前記量的指標は、前記会話の速度を含み、
    前記情報生成部は、前記会話の参加者ごとの、前記速度がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、請求項2に記載の情報処理装置。
  8. 前記量的指標は、前記会話の音量および速度を含み、
    前記情報生成部は、前記会話の参加者ごとの、前記速度が平均から推定される通常の範囲を超え、かつ前記音量が平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、請求項2に記載の情報処理装置。
  9. 前記量的指標は、前記会話の音量または速度を含み、
    前記情報生成部は、前記ユーザを参加者に含まない前記会話の音量または速度に基づいて前記情報を生成する、請求項2に記載の情報処理装置。
  10. 前記量的指標は、前記会話の通算時間を含み、
    前記情報生成部は、前記通算時間に基づいて前記情報を生成する、請求項1に記載の情報処理装置。
  11. 前記量的指標は、前記会話の音量を含み、
    前記情報生成部は、前記音量に基づいて前記情報を生成する、請求項1に記載の情報処理装置。
  12. 前記量的指標は、前記会話の速度を含み、
    前記情報生成部は、前記速度に基づいて前記情報を生成する、請求項1に記載の情報処理装置。
  13. 前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備える、請求項1に記載の情報処理装置。
  14. 前記話者特定部は、前記話者を、予め登録された1または複数の話者と、それ以外の話者とに区分する、請求項13に記載の情報処理装置。
  15. 前記マイクロフォンから提供される音声データを解析することによって前記発話音声を示すデータを抽出する音声解析部をさらに備える、請求項1に記載の情報処理装置。
  16. 前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備え、
    前記音声解析部は、前記話者を時系列で示すデータを抽出する、請求項15に記載の情報処理装置。
  17. 前記音声解析部は、単位時間ごとに前記話者特定部に話者の特定を依頼し、前記話者特定部において各話者が特定された回数によって前記話者を時系列で示すデータを抽出する、請求項16に記載の情報処理装置。
  18. プロセッサが、
    ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出することと、
    前記量的指標に基づいて前記生活環境の特性を示す情報を生成することと
    を含む情報処理方法。
  19. ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する機能と、
    前記量的指標に基づいて前記生活環境の特性を示す情報を生成する機能と
    をコンピュータに実現させるためのプログラム。
JP2013260462A 2013-12-17 2013-12-17 情報処理装置、情報処理方法、およびプログラム Expired - Fee Related JP6164076B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013260462A JP6164076B2 (ja) 2013-12-17 2013-12-17 情報処理装置、情報処理方法、およびプログラム
US14/564,284 US20150170674A1 (en) 2013-12-17 2014-12-09 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013260462A JP6164076B2 (ja) 2013-12-17 2013-12-17 情報処理装置、情報処理方法、およびプログラム

Publications (3)

Publication Number Publication Date
JP2015118185A true JP2015118185A (ja) 2015-06-25
JP2015118185A5 JP2015118185A5 (ja) 2016-02-12
JP6164076B2 JP6164076B2 (ja) 2017-07-19

Family

ID=53369252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013260462A Expired - Fee Related JP6164076B2 (ja) 2013-12-17 2013-12-17 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US20150170674A1 (ja)
JP (1) JP6164076B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081679A (ja) * 2017-10-04 2018-05-24 キヤノン株式会社 システムと携帯型端末、制御方法及びプログラム
JP2019121125A (ja) * 2017-12-28 2019-07-22 株式会社日立製作所 プロジェクト支援システム及び方法
US11335360B2 (en) * 2019-09-21 2022-05-17 Lenovo (Singapore) Pte. Ltd. Techniques to enhance transcript of speech with indications of speaker emotion

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017187712A1 (ja) * 2016-04-26 2017-11-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
US11948577B1 (en) 2018-03-30 2024-04-02 8X8, Inc. Analysis of digital voice data in a data-communication server system
US11017782B2 (en) * 2018-11-14 2021-05-25 XMOS Ltd. Speaker classification
US11575791B1 (en) 2018-12-12 2023-02-07 8X8, Inc. Interactive routing of data communications
US11445063B1 (en) 2019-03-18 2022-09-13 8X8, Inc. Apparatuses and methods involving an integrated contact center
US11196866B1 (en) 2019-03-18 2021-12-07 8X8, Inc. Apparatuses and methods involving a contact center virtual agent

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188455A1 (en) * 2001-06-11 2002-12-12 Pioneer Corporation Contents presenting system and method
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US6363145B1 (en) * 1998-08-17 2002-03-26 Siemens Information And Communication Networks, Inc. Apparatus and method for automated voice analysis in ACD silent call monitoring
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
JP3863053B2 (ja) * 2002-04-12 2006-12-27 シャープ株式会社 情報配信方法、情報配信装置、情報配信プログラムならびにそれを記録したコンピュータ読み取り可能な記録媒体
US7457404B1 (en) * 2003-12-19 2008-11-25 Nortel Networks Limited Methods of monitoring communications sessions in a contact centre
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
JP2007213176A (ja) * 2006-02-08 2007-08-23 Sony Corp 情報処理装置および方法、並びにプログラム
JP5365199B2 (ja) * 2009-01-06 2013-12-11 ソニー株式会社 ライフスタイルを評価するための方法、情報処理装置及びプログラム
US20110035221A1 (en) * 2009-08-07 2011-02-10 Tong Zhang Monitoring An Audience Participation Distribution
JP2013200423A (ja) * 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
JP6131537B2 (ja) * 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188455A1 (en) * 2001-06-11 2002-12-12 Pioneer Corporation Contents presenting system and method
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
小川恭平,外4名: "発話率のフィードバックによる食事コミュニケーション支援", 電子情報通信学会技術研究報告, vol. 111, no. 101, JPN6016017170, 21 June 2011 (2011-06-21), JP, pages 1 - 6, ISSN: 0003313540 *
野本済央,外5名: "発話の時間的関係性を用いた対話音声からの怒り感情推定", 電子情報通信学会論文誌, vol. 96, no. 1, JPN6016017171, 1 January 2013 (2013-01-01), JP, pages 15 - 24, ISSN: 0003313541 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081679A (ja) * 2017-10-04 2018-05-24 キヤノン株式会社 システムと携帯型端末、制御方法及びプログラム
JP2019121125A (ja) * 2017-12-28 2019-07-22 株式会社日立製作所 プロジェクト支援システム及び方法
US10860960B2 (en) 2017-12-28 2020-12-08 Hitachi, Ltd. Project support system and method
US11335360B2 (en) * 2019-09-21 2022-05-17 Lenovo (Singapore) Pte. Ltd. Techniques to enhance transcript of speech with indications of speaker emotion

Also Published As

Publication number Publication date
US20150170674A1 (en) 2015-06-18
JP6164076B2 (ja) 2017-07-19

Similar Documents

Publication Publication Date Title
JP6164076B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6756328B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20190220933A1 (en) Presence Granularity with Augmented Reality
JP5930432B2 (ja) ソーシャル・グラフ、会話モデル、およびユーザ・コンテキストを介した、モバイル装置のユーザ付近の人の特定
Ghosh et al. Recognizing human activities from smartphone sensor signals
JP6812604B2 (ja) オーディオアクティビティ追跡および要約
JP6760271B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2016089594A2 (en) Conversation agent
JP2014134922A (ja) 情報処理装置、情報処理方法およびプログラム
US20210350823A1 (en) Systems and methods for processing audio and video using a voice print
JPWO2016136104A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20200357504A1 (en) Information processing apparatus, information processing method, and recording medium
WO2016158003A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP2021033646A (ja) 情報処理装置、情報処理方法、及びプログラム
CN113764099A (zh) 基于人工智能的心理状态分析方法、装置、设备及介质
US20200301398A1 (en) Information processing device, information processing method, and program
EP3340240B1 (en) Information processing device, information processing method, and program
WO2016143415A1 (ja) 情報処理装置、情報処理方法およびプログラム
EP3576392A1 (en) Information processing device, information processing method, and information processing system
WO2018061346A1 (ja) 情報処理装置
JP2020010831A (ja) 情報処理システム、情報処理装置およびプログラム
JP6605774B1 (ja) 情報処理システム、情報処理装置、情報処理方法およびコンピュータプログラム
US11183167B2 (en) Determining an output position of a subject in a notification based on attention acquisition difficulty
CN113241077A (zh) 用于可穿戴设备的语音录入方法和装置
Rahman et al. Online Detection of Speaking from Respiratory Measurement Collected in the Natural Environment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151217

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170605

R151 Written notification of patent or utility model registration

Ref document number: 6164076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees