JP2015118185A

JP2015118185A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2015118185A
Application number: JP2013260462A
Authority: JP
Inventors: 石橋　義人; Yoshito Ishibashi; 義人石橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-12-17
Filing date: 2013-12-17
Publication date: 2015-06-25
Anticipated expiration: 2033-12-17
Also published as: US20150170674A1; JP6164076B2

Abstract

【課題】新たな観点でユーザの生活環境の特性を示す情報を収集する。【解決手段】ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、上記量的指標に基づいて上記生活環境の特性を示す情報を生成する情報生成部とを備える情報処理装置が提供される。【選択図】図３

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、生活環境に関するデータの収集は、医師などの問診によるものが主であった。ところが、問診によってデータを収集する場合、問いかける医師と答える患者との双方の主観が影響するため、客観的なデータを収集することは困難であった。これに対して、例えば特許文献１には、加速度センサ、心拍センサ、および光センサから出力されるデータに基づいて、起床、就寝、摂食、運動といった、ユーザの生活習慣の態様に関する情報を客観的に取得する技術が記載されている。これによれば、例えば、患者個人の長期にわたる生活活動状況が記録でき、この情報に基づいて医師が客観的に診断を下すことができると期待されている。

特開２０１０−１５８２６７号公報

しかしながら、例えば特許文献１に記載されたような技術では、ユーザの体の動きや脈拍、周囲環境における光量のような肉体的または物理的なデータに基づいて生活習慣の態様が推定されるため、例えばそのようなデータに変化が生じにくい生活環境の特性を示す情報を取得することは難しかった。

そこで、本開示では、新たな観点でユーザの生活環境の特性を示す情報を収集することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、上記量的指標に基づいて上記生活環境の特性を示す情報を生成する情報生成部とを備える情報処理装置が提供される。

また、本開示によれば、プロセッサが、ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出することと、上記量的指標に基づいて上記生活環境の特性を示す情報を生成することとを含む情報処理方法が提供される。

また、本開示によれば、ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する機能と、上記量的指標に基づいて上記生活環境の特性を示す情報を生成する機能とをコンピュータに実現させるためのプログラムが提供される。

以上説明したように本開示によれば、新たな観点でユーザの生活環境の特性を示す情報を収集することができる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態におけるユーザの生活環境での音声取得について説明するための図である。本開示の一実施形態に係るシステムの概略的な構成を示す図である。本開示の一実施形態における処理部の概略的な構成を示す図である。本開示の一実施形態において、発話音声の話者を特定する処理の例を示すフローチャートである。本開示の一実施形態において、会話区間を特定する処理の例を示すフローチャートである。本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．システム構成
２．処理部の構成
３．処理フロー
３−１．話者の特定
３−２．会話区間の特定
４．適用例
４−１．会話時間
４−２．会話の音量
４−３．会話の速度
４−４．データの利用
５．ハードウェア構成
６．補足

（１．システム構成）
図１は、本開示の一実施形態におけるユーザの生活環境での音声取得について説明するための図である。図１を参照すると、本実施形態では、ウェアラブル端末１００によって、ユーザの生活環境での音声が取得される。

ウェアラブル端末１００は、マイクロフォン１１０を備える。マイクロフォン１１０は、ユーザＵ１の生活環境に置かれ、そこで発生した音声を取得することができる。ユーザＵ１の生活環境で発生した音声を網羅的に取得するためには、ユーザＵ１が装着可能なウェアラブル端末１００を使用することが望ましいが、ユーザＵ１が携帯可能なモバイル端末を、ウェアラブル端末１００に代えて、またはこれとともに使用してもよい。また、例えば、ユーザＵ１の生活環境が限定される場合（まだベッドから起き上がらない乳児の場合など）には、据え置き型の端末装置が備えるマイクロフォンで音声を取得することも可能である。なお、ウェアラブル端末１００は、本実施形態に係る音声データの取得を主な機能として設計されたものであってもよいし、ウェアラブル端末１００の複数の機能の１つとして、本実施形態に係る音声データの取得が実行されてもよい。

ここで、ウェアラブル端末１００のマイクロフォン１１０によって取得される音声には、ユーザＵ１と、ユーザＵ１の生活環境にいる他のユーザであるユーザＵ２，Ｕ３との発話音声が含まれる。発話音声は、会話を構成しうる。例えば、ユーザＵ１がユーザＵ２と会話した場合、マイクロフォン１１０によって、ユーザＵ１の発話音声とユーザＵ２の発話音声とが交互に取得される。また、ユーザＵ２がユーザＵ３と会話した場合、マイクロフォン１１０によって、ユーザＵ２の発話音声とユーザＵ３の発話音声とが交互に取得される。

図２は、本開示の一実施形態に係るシステムの概略的な構成を示す図である。図２を参照すると、システム１０は、ウェアラブル端末１００と、スマートフォン２００と、サーバ３００とを含む。なお、それぞれの装置を実現する情報処理装置のハードウェア構成例については後述する。

ウェアラブル端末１００は、マイクロフォン１１０と、処理部１２０と、送信部１３０とを備える。マイクロフォン１１０は、上記で図１を参照して説明したように、ユーザの生活環境に置かれる。処理部１２０は、例えばＣＰＵなどのプロセッサによって実現され、マイクロフォン１１０によって取得された音声データを処理する。処理部１２０による処理は、例えばサンプリングやノイズ除去などの前処理であってもよいし、後述するような音声解析や量的指標の算出などの処理が処理部１２０で実行されてもよい。送信部１３０は、通信装置によって実現され、例えばＢｌｕｅｔｏｏｔｈ（登録商標）などの無線通信を利用して音声データ（または解析後のデータ）をスマートフォン２００に送信する。

スマートフォン２００は、受信部２１０と、処理部２２０と、記憶部２３０と、送信部２４０とを備える。受信部２１０は、通信装置によって実現され、ウェアラブル端末１００からＢｌｕｅｔｏｏｔｈ（登録商標）などの無線通信を利用して送信された音声データ（または解析後のデータ）を受信する。処理部２２０は、例えばＣＰＵなどのプロセッサによって実現され、受信されたデータを処理する。例えば、処理部２２０は、受信されたデータを一時的に記憶部２３０に蓄積した後に、送信部２４０を介してサーバ３００に送信してもよい。記憶部２３０は、例えばメモリやストレージによって実現される。送信部２４０は、通信装置によって実現され、例えばインターネットなどのネットワーク通信を利用して音声データ（または解析後のデータ）をサーバ３００に送信する。処理部２２０は、上記のような蓄積および送信の制御を実行するとともに、後述するような音声解析や量的指標の算出などの処理を実行してもよい。

なお、スマートフォン２００は、ウェアラブル端末１００において取得された音声データ（または解析後のデータ）を必要に応じて蓄積または処理してからサーバ３００に転送する機能を実現するため、必ずしもスマートフォンには限られず、他の様々な端末装置によって代替されうる。例えば、スマートフォン２００は、タブレット端末や、各種のパーソナルコンピュータ、無線ネットワークアクセスポイントなどによって代替されてもよい。あるいは、例えばウェアラブル端末１００がネットワーク通信機能を有し、直接的にサーバ３００に音声データ（または解析後のデータ）を送信することが可能であるような場合には、スマートフォン２００がシステム１０に含まれなくてもよい。

サーバ３００は、受信部３１０と、処理部３２０と、記憶部３３０と、出力部３４０とを備える。受信部３１０は、通信装置によって実現され、スマートフォン２００からインターネットなどのネットワーク通信を利用して送信された音声データ（または解析後のデータ）を受信する。処理部３２０は、例えばＣＰＵなどのプロセッサによって実現され、受信されたデータを処理する。例えば、処理部３２０は、受信されたデータを一時的に記憶部３３０に蓄積した後に、後述するような音声解析や量的指標の算出などの処理を実行し、解析後のデータをさらに記憶部３３０に蓄積したり、出力部３４０を介して出力したりしてもよい。音声解析や量的指標の算出などの処理がウェアラブル端末１００またはスマートフォン２００において実行される場合には、処理部３２０は解析後のデータの蓄積および出力の制御を実行するだけであってもよい。

以上説明してきたが、処理部１２０，２２０，３２０の役割は、各装置の処理能力、メモリ容量、および／または通信環境などに応じて変化する。そのため、上記で説明したそれぞれの処理部の役割は、変更されたり、交換されたりしてもよい。一例として、解析処理の全体を処理部１２０で実行した後に、解析後のデータをサーバ３００に送信してもよい。また、例えば、音声データを一旦サーバ３００に送信した後、サーバ３００で前処理を実行してからスマートフォン２００に処理後のデータを返送し、最終的な解析処理をスマートフォン２００で実行したうえで、ウェアラブル端末１００を介して情報を出力してもよい。また、例えば、ウェアラブル端末１００で音声データなどを収集し、収集されたデータをスマートフォン２００を介してサーバ３００に送信し、サーバ３００の処理部３２０が基本的な解析処理を実行したうえで、解析後のデータをスマートフォン２００に送信してもよい。このように、システムにおける各装置の役割は、上記で例示した構成以外にも可能である。

（２．処理部の構成）
図３は、本開示の一実施形態における処理部の概略的な構成を示す図である。図３を参照すると、本実施形態に係る処理部は、音声解析部５２０と、指標算出部５４０と、情報生成部５６０と、話者特定部５８０とを含みうる。

ここで、音声解析部５２０、指標算出部５４０、情報生成部５６０、および話者特定部５８０は、例えば、上記で図２を参照して説明したシステム１０において、ウェアラブル端末１００の処理部１２０、スマートフォン２００の処理部２２０、またはサーバ３００の処理部３２０において実現される。処理部の全体が単一の装置において実現されてもよいし、１または複数の構成要素がそれぞれ別の装置に分散して実現されてもよい。

音声データ５１０は、ウェアラブル端末１００のマイクロフォン１１０によって取得される。上述の通り、マイクロフォン１１０はユーザの生活環境に置かれているため、音声データ５１０には、ユーザの身の回りで発生したさまざまな音が含まれる。例えば、音声データ５１０には、ユーザと他のユーザとの会話（図１の例ではユーザＵ１とユーザＵ２またはユーザＵ３との会話）や、ユーザの近傍でなされた他のユーザ同士の会話（図１の例ではユーザＵ２とユーザＵ３との会話）を構成する発話音声が含まれる。

音声解析部５２０は、音声データ５１０を解析することによって、発話音声データ５３０を取得する。例えば、音声解析部５２０は、音声データ５１０から、発話音声の区間を切り出すことによって発話音声データ５３０を取得してもよい。この場合、例えば、複数のユーザの発話音声による一連の会話の区間が切り出されて発話音声データ５３０が取得されうる。後述する話者特定部５８０によって発話音声の話者の少なくとも一部が特定されている場合、音声解析部５２０は、発話音声データ５３０に、区間ごとの発話音声の話者を示す情報を付加してもよい。なお、音声データから発話音声の区間を切り出す処理には、公知の様々な技術を利用することが可能であるため、詳細な説明は省略する。

指標算出部５４０は、発話音声データ５３０を解析することによって、発話音声によって構成される会話に関する量的指標５５０を算出する。ここで、上述の通り、発話音声は、ユーザの生活環境に置かれたマイクロフォンによって取得される。量的指標５５０は、例えば、会話の通算時間や、音量、速度などを含みうる。発話音声データ５３０において、複数のユーザの発話音声による一連の会話の区間が切り出されており、さらに区間ごとの発話音声の話者を示す情報が付加されているような場合、指標算出部５４０は、上記のような量的指標５５０を会話の参加者ごとに算出してもよい。あるいは、指標算出部５４０は、発話音声データ５３０を話者特定部５８０に提供し、話者特定部５８０が発話音声の話者を特定した結果に基づいて、量的指標５５０を会話の参加者ごとに算出してもよい。また、指標算出部５４０は、会話の参加者に関係なく、会話全体について量的指標５５０を算出してもよい。

ここで、本実施形態において、指標算出部５４０は、発話音声データ５３０から量的指標５５０を算出するにあたり、発話の内容を考慮しない。つまり、本実施形態において、指標算出部５４０は、量的指標５５０の算出にあたって、発話音声データ５３０について音声認識の処理を実行しない。結果として、算出された量的指標５５０では会話の内容がマスクされることになる。従って、本実施形態における量的指標５５０は、ユーザのプライバシーを侵害しないデータとして扱うことが可能である。もちろん、音声データ５１０そのものを記録しておくことも、音声認識処理を実行し、発話内容を解析して文字情報として記録しておくことも可能である。その場合にも、例えばユーザのプライバシーや業務上の機密情報などを保護するために、例えばユーザの要求などに応じて記録された情報を消去することが可能であってもよい。

情報生成部５６０は、量的指標５５０に基づいて、生活環境特性５７０を生成する。生活環境特性５７０は、ユーザの生活環境の特性を示す情報である。例えば、情報生成部５６０は、ユーザの生活環境で発生した会話の通算時間を含む量的指標５５０に基づいて、会話の参加者ごとの通算時間に基づいて生活環境特性５７０を生成してもよい。このとき、会話の通算時間は単位期間ごとに算出され、情報生成部５６０は、通算時間の増減傾向に基づいて生活環境特性５７０を生成してもよい。また、例えば、情報生成部５６０は、会話の音量または速度を含む量的指標５５０に基づいて、参加者ごとの会話の音量または速度が通常の範囲を超えた時間または回数に基づいて生活環境特性５７０を生成してもよい。なお、生活環境特性５７０として生成される情報の具体的な例については後述する。

話者特定部５８０は、音声データ５１０または発話音声データ５３０に含まれる発話音声の話者の少なくとも一部を特定する。話者特定部５８０は、例えば、予め登録されている個々のユーザの声の特徴を発話音声の特徴と比較することによって、話者を特定する。例えば、話者特定部５８０は、ユーザ自身と、ユーザの家族の構成員とを、話者として特定してもよい。上記のように、話者特定部５８０が発話音声の話者を特定することによって、指標算出部５４０が、会話に関する量的指標５５０を、会話の参加者ごとに算出することができる。なお、話者特定部５８０は、必ずしもすべての発話音声の話者を特定しなくてもよい。例えば、話者特定部５８０は、予め登録されている特徴に一致しない特徴を有する発話音声を、その他の話者による発話音声として認識してもよい。この場合、その他の話者は、異なる複数の話者を含みうる。もちろん、状況に応じて、発話音声の特徴が予め登録されている特徴に一致しない話者を、自動的に識別したうえで登録するようにしてもよい。この場合、話者の名前等の個人情報は必ずしも特定されないが、発話音声の特徴が抽出されているため、この特徴によって発話音声を分類したうえで生活環境特性５７０の生成に利用することが可能である。後日、例えばユーザが入力した情報によって未特定の話者の個人情報が特定された場合には、遡って情報を更新してもよい。

（３．処理フロー）
（３−１．話者の特定）
図４は、本開示の一実施形態において、発話音声の話者を特定する処理の例を示すフローチャートである。なお、図示された例では、話者が母親または父親の場合が特定されるが、声の特徴を登録しておけば、兄弟や友人、学校の先生など、その他の話者を特定することも可能である。図４を参照すると、話者特定部５８０は、会話の開始後、音声データ５１０または発話音声データ５３０に含まれる発話音声の特徴と、予め登録されている母親の声の特徴とを比較する（Ｓ１０１）。ここで、発話音声の特徴が母親の声の特徴と一致すれば（ＹＥＳ）、話者特定部５８０は発話音声の話者が母親であることを登録する（Ｓ１０３）。なお、音声の特徴比較の処理には、公知の様々な技術を利用することが可能であるため、詳細な説明は省略する。

一方、Ｓ１０１において、発話音声の特徴が母親の声の特徴と一致しなかった場合（ＮＯ）、話者特定部５８０は、発話音声の特徴と、予め登録されている父親の声の特徴とを比較する（Ｓ１０５）。ここで、発話音声の特徴が父親の声の特徴と一致すれば（ＹＥＳ）、話者特定部５８０は発話音声の話者が父親であることを登録する（Ｓ１０７）。一方、Ｓ１０５において、発話音声の特徴が父親の声の特徴とも一致しなかった場合（ＮＯ）、話者特定部５８０は発話音声の特徴がそれ以外の人物であることを登録する（Ｓ１０９）。ここでは図示していないが、母親、父親以外の識別および登録を行ってもよい。以上で話者特定の処理は終了する。

（３−２．会話区間の特定）
図５は、本開示の一実施形態において、会話区間を特定する処理の例を示すフローチャートである。本実施形態では、例えば音声解析部５２０が、音声データ５１０に含まれる発話音声によって構成される会話の区間を特定する。より具体的には、音声解析部５２０は、発話音声データ５３０を抽出するにあたり、会話に参加するユーザによる最初の発話が開始されてから、同じく会話に参加するユーザによる最後の発話が終了するまでの区間を会話区間として特定する。例えば、会話区間の長さを計測することによって、会話の継続時間を算出することができる。

図５を参照すると、音声解析部５２０は、音声データ５１０において発話が開始された時点で会話の開始を検出すると、話者特定部５８０を用いて話者を特定する（Ｓ２０１）とともに、タイマーを起動させる（Ｓ２０３）。次に、音声解析部５２０は、音声データ５１０おいて、最初に発話を開始した話者とは異なる話者による発話が開始されたか否かを判定する（Ｓ２０５）。ここで、異なる話者の発話が開始された場合、音声解析部５２０は、直前のＳ２０１において特定された話者（ＩＤなどの識別情報）と、当該話者との会話が継続した時間とを記録する（Ｓ２０７）とともに、次の話者を特定し（Ｓ２０１）、タイマーをリセットする（Ｓ２０３）。

一方、Ｓ２０５において異なる話者による発話が開始されなかった場合、さらに、音声解析部５２０は、発話の検出が継続されているか否かを判定する（Ｓ２０９）。ここで、発話の検出が継続されていた場合、音声解析部２０５は、Ｓ２０５（およびＳ２０９）の判定を再度実行する。一方、Ｓ２０９において発話の検出が継続されていなかった場合、すなわち発話音声がない状態が所定の時間以上続いた場合、音声解析部５２０は、直前のＳ２０１において特定された話者（ＩＤなどの識別情報）と、当該話者との会話が継続した時間とを記録して（Ｓ２１１）、１つの会話区間の特定処理を終了する。

ここで、例えば、音声解析部５２０が、１秒（単位時間の例）ごとに話者特定部５８０に話者の特定を依頼するものとする。この場合、上記のような処理を実行すると、１秒ごとに話者特定部５８０が起動し、検出されている発話の話者を特定する。そこで、毎秒の話者特定部５８０による話者特定の結果をカウントすると、話者ごとの発話の継続時間が、話者特定部５８０において各話者が特定された回数によって示されることになる。また、話者ごとの発話の継続時間や上記の回数を時系列で記録すれば、話者が誰から誰に遷移したかがわかる。話者の遷移によって、例えば、会話の状況を推測することができる。例えば、話者が父親、子供、父親の順で遷移したとすれば、子供と父親との会話があったことがわかる。また、話者が父親、母親、父親の順で遷移したとすれば、夫婦間の会話を子供が聞いていると推測される。上記の２つの遷移が混在している場合には、家族での会話がなされていると推測される。

（４．適用例）
次に、本実施形態の適用例について説明する。なお、以下で説明する適用例では、システムによって蓄積された情報が、子供の生活環境特性を示す情報として扱われる。

本適用例において、生活環境特性を示す情報の生成対象になるユーザは、子供である。従って、ウェアラブル端末１００は、子供に装着されるか、子供の近傍に配置される。さらに、ウェアラブル端末１００は、家族の他の構成員、例えば父親や母親にも装着されうる。上述の通り、ウェアラブル端末１００のマイクロフォン１１０によって取得された音声データ５１０を音声解析部５２０が解析することによって、発話音声データ５３０が取得される。さらに、発話音声データ５３０を指標算出部５４０が解析することによって、量的指標５５０が算出される。

（４−１．会話時間）
本適用例における会話の量的指標５５０は、例えば、家庭内での会話時間を含む。この場合、話者特定部５８０が特定する話者、つまり発話音声によって構成される会話の参加者にはユーザの家族の構成員が含まれる。家族の構成員は、より具体的にはユーザ（子供）の父親と母親でありうる。指標算出部５４０が会話の参加者（家族の構成員、例えば父親と母親）ごとに算出された会話の通算時間を含む量的指標５５０を生成し、情報生成部５６０が会話の参加者ごとの会話の通算時間に基づいて生活環境特性５７０を生成することによって、家族の構成員、例えば父親と母親のそれぞれとの会話の通算時間を示す情報が生成される。

上記の情報は、例えば、ユーザが、父親および母親のそれぞれと、どの程度親密な関係を築いているかの指標として用いられてもよい。また、例えば、指標算出部５４０が会話の参加者（家族の構成員、例えば父親と母親）ごと、かつ単位期間ごとに算出された会話の通算時間を含む量的指標５５０を生成し、情報生成部５６０が会話の参加者ごとの会話の通算時間の増減傾向に基づいて生活環境特性５７０を生成することによって、ユーザと父親および母親のそれぞれとの会話が増加傾向にあるか、減少傾向にあるかを把握することができる。

あるいは、指標算出部５４０が話者を特定せずに算出した家庭内での会話の通算時間を長期間にわたって蓄積することによって、情報生成部５６０は、蓄積された通算時間に基づいて、例えばユーザ（子供）が会話の多い生活環境（賑やかな／騒がしい生活環境）で育ったか、会話の少ない生活環境（静かな生活環境）で育ったかを示す情報を生成することができる。

また、指標算出部５４０は、時系列的に記録された会話の話者の識別情報に基づいて、会話の量的指標を算出してもよい。例えば、上述の例のように、例えば、話者が父親、子供、父親の順で遷移したとすれば、子供と父親との会話があったことがわかる。また、話者が父親、母親、父親の順で遷移したとすれば、夫婦間の会話を子供が聞いていると推測される。上記の２つの遷移が混在している場合には、家族での会話がなされていると推測される。

（４−２．会話の音量）
また、本適用例における会話の量的指標５５０は、家庭内での会話の平均音量および／または最大音量を含んでもよい。この場合、平均音量および／または最大音量は、所定の時間窓（例えば１分）ごとに算出されうる。この場合、話者特定部５８０が、話者が例えば父親、母親、またはそれ以外の人物であることを特定し、指標算出部５４０が、会話の参加者（父親および母親を含む）ごとに平均音量および／または最大音量を算出してもよい。あるいは、指標算出部５４０は、会話の参加者を区別せずに平均音量および／または最大音量を算出してもよい。

例えば、指標算出部５４０が話者ごとに算出した家庭内での会話の音量のデータを長期間にわたって蓄積した場合、情報生成部５６０は、父親または母親との会話の音量が通常の範囲を超えた時間または回数に基づいて、ユーザ（子供）がどの程度怒られていたかを示す情報を生成することができる。同様にして、情報生成部５６０は、父親と母親との会話の音量が通常の範囲を超えた時間または回数に基づいて、夫婦げんかがどの程度発生していたかを示す情報を生成してもよい。このような情報によって、夫婦げんかが子供の成長に与える影響を推測することができる。なお、会話の音量の通常の範囲は、例えば、量的指標５５０に含まれる会話の平均音量に基づいて設定されてもよいし、予め与えられてもよい。

あるいは、指標算出部５４０が話者を特定せずに算出した家庭内での会話の平均音量のデータを長期間にわたって蓄積することによって、情報生成部５６０が、例えば子供が騒がしい生活環境（会話は少ないが声が大きい場合を含む）で育ったか、静かな生活環境（会話は多いが声が大きくない場合を含む）で育ったかを示す情報を生成することができる。

（４−３．会話の速度）
また、本適用例における会話の量的指標５５０は、家庭内での会話の平均速度および／または最大速度を含んでもよい。この場合、平均速度および／または最大速度は、所定の時間窓（例えば１分）ごとに算出されうる。この場合も、話者特定部５８０が、話者が例えば父親、母親、またはそれ以外の人であることを特定し、指標算出部５４０が、会話の参加者（父親および母親を含む）ごとに平均速度および／または最大速度を算出してもよい。あるいは、指標算出部５４０は、話者を区別せずに平均速度および／または最大速度を算出してもよい。

例えば、指標算出部５４０が話者ごとに算出した家庭内での会話の速度のデータを長期間にわたって蓄積した場合、情報生成部５６０は、父親または母親との会話の速度が通常の範囲を超えた時間または回数に基づいて、ユーザ（子供）がどの程度怒られていたかを示す情報を生成することができる。同様にして、情報生成部５６０は、父親と母親との会話の速度が通常の範囲を超えた時間または回数に基づいて、夫婦げんかがどの程度発生していたかを示す情報を生成してもよい。なお、会話の速度の通常の範囲は、例えば、量的指標５５０に含まれる会話の平均速度に基づいて設定されてもよいし、予め与えられてもよい。

さらに、情報生成部５６０は、量的指標５５０に含まれる会話の音量および速度を組み合わせて利用して生活環境特性５７０を生成してもよい。例えば、情報生成部５６０は、父親または母親との会話の速度が通常の範囲を超え、かつ当該会話の音量が通常の範囲を超えた時間または回数に基づいて、ユーザ（子供）がどの程度怒られていたかを示す情報を生成することができる。同様にして、情報生成部５６０は、父親と母親との会話の速度が通常の範囲を超え、かつ当該会話の音量が通常の範囲を超えた時間または回数に基づいて、夫婦げんかがどの程度発生していたかを示す情報を生成してもよい。なお、会話の速度および音量の通常の範囲は、例えば、量的指標５５０に含まれる会話の平均速度および平均音量に基づいて設定されてもよいし、予め与えられてもよい。

同様にして、子供が父親または母親に対してする会話の速度が通常の範囲を超え、および／または当該会話の音量が通常の範囲を超えた時間または回数に基づいて、ユーザ（子供）が両親に対してどの程度反抗していたかを示す情報を生成してもよい。

あるいは、指標算出部５４０が話者を特定せずに算出した家庭内での会話の平均速度のデータを長期間にわたって蓄積することによって、情報生成部５６０が、例えば子供がせわしない生活環境で育ったか、ゆったりとした生活環境で育ったかを示す情報を生成することができる。

この場合も、平均速度のデータは平均音量のデータと組み合わせて利用されてもよい。より具体的には、量的指標５５０において会話の平均音量も平均速度も大きい場合、情報生成部５６０は、子供が騒がしい生活環境で育ったことを示す情報を生成することができる。また、会話の平均音量は大きいが平均速度が小さい場合には、声は大きいものの騒がしくはない（素朴な）生活環境であった可能性がある。同様に、会話の平均音量も平均速度も小さい場合には、子供が静かな生活環境で育ったことが推測される。一方、会話の平均音量は小さいが平均速度が大きい場合には、愚痴や小言が絶えない生活環境であった可能性がある。

また、子供の生活環境だけではなく、親や兄弟についても、同様にして生活環境の特性を示す情報を生成することが可能である。例えば、父親と母親との会話時間が少ないことや、父親と子供との会話時間が少ないことを検出して、父親自身に改善を促したり、改善に結びつく情報サービスなどを提供してもよい。また、兄弟げんかがどの程度発生したかを示す情報を生成することも可能である。さらに、会話時間やけんかをしていると推測される時間を、他の親や兄弟の平均値と比較して、平均値よりも時間が長いか短いか、平均値よりも兄弟げんかの頻度が高いか低いかといったようなことを示す情報を生成してもよい。

（４−４．データの利用）
近年、プロアクティブ医療が叫ばれる中、ユーザの生活環境に関する客観的なデータの取得が希求されている。特に、幼児期の生活環境が、将来の子供の成育に従来な影響を与えることが知られている。本適用例において取得されたデータは、例えば以下のような観点から利用することが考えられる。

まず、精神科などの診断において、過去から現在に至る患者（対象のユーザ）の家庭内での会話時間のデータが参照されてもよい。この場合、例えば、母親との会話時間が多いか、少ないか、父親との会話時間が多いか、少ないか、その他の人との会話時間が多いか、少ないかといった情報や、母親、父親、およびその他の人との会話時間が増加する傾向にあるのか、減少する傾向にあるのか、といった情報を得ることができる。この場合、図２を参照して説明したサーバ３００の出力部３４０は、こうした診断の場における参照のためにデータを出力する。

さらに、会話時における母親や父親の声と本人の声との大小関係や、会話の音量、会話の速度などの情報も得ることができる。会話時間を含むこれらの情報から、幼少期における会話量の多少や、静かな生活環境だったのか、騒がしい生活環境だったのか、親に怒られていた頻度、夫婦げんかの子供への影響などを推測でき、このような推測に基づいた診断をすることができる。

また、上記のような生活環境の推測に基づいて、例えば、会話量が少ないと推測された場合には、会話を多く行うことができる環境を提供するサービスの推薦をすることができる。より具体的には、演劇、英会話、料理教室、スポーツ観戦、コンサートなど、他者と交流することができる場所やサービスを紹介することができる。一方、会話量が多いと推測された場合には、静かな環境を提供するサービスの推薦をすることができる。より具体的には、山岳旅行、自然環境に触れる旅行、寺巡りなどを紹介することができる。同様にして、音楽や映像コンテンツなどについても、生活環境の推測に基づいて推薦するアイテムを変更することができる。

なお、ここでは、システムによって蓄積された情報を子供の生活環境を示す情報として扱う場合について説明したが、本実施形態の適用例はこのような例には限られない。例えば、話者として同僚や上司を特定することによって、システムによって蓄積された情報を大人の職場環境を示す情報として扱うことも可能である。また、システムによって蓄積された情報を子供の生活環境を示す情報として扱う場合、父親および母親以外にも、兄弟や学校の先生、友人などを話者として特定してもよい。

（５．ハードウェア構成）
次に、図６を参照して、本開示の実施形態に係る情報処理装置のハードウェア構成について説明する。図６は、本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。図示された情報処理装置９００は、例えば、上記の実施形態におけるウェアラブル端末１００、スマートフォン２００、およびサーバ３００を実現しうる。

情報処理装置９００は、ＣＰＵ（Central Processing unit）９０１、ＲＯＭ（Read Only Memory）９０３、およびＲＡＭ（Random Access Memory）９０５を含む。また、情報処理装置９００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理装置９００は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理装置９００は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Digital Signal Processor）またはＡＳＩＣ（Application Specific Integrated Circuit）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりする。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ（Plasma Display Panel）、有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などでありうる。出力装置９１７は、情報処理装置９００の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。

ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Hard Disk Drive）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理装置９００に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどでありうる。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００と外部接続機器９２９との間で各種のデータが交換されうる。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Wireless USB）用の通信カードなどでありうる。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

撮像装置９３３は、例えば、ＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理装置９００の筐体の姿勢など、情報処理装置９００自体の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音など、情報処理装置９００の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Global Positioning System）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

以上、情報処理装置９００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

（６．補足）
本開示の実施形態は、例えば、上記で説明したような情報処理装置（ウェアラブル端末、スマートフォン、またはサーバ）、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成する情報生成部と
を備える情報処理装置。
（２）前記指標算出部は、前記会話の参加者ごとに前記量的指標を算出する、前記（１）に記載の情報処理装置。
（３）前記量的指標は、前記会話の通算時間を含み、
前記情報生成部は、前記会話の参加者ごとの前記通算時間に基づいて前記情報を生成する、前記（２）に記載の情報処理装置。
（４）前記会話の参加者は、前記ユーザの家族の構成員を含み、
前記情報生成部は、前記構成員ごとの前記通算時間に基づいて前記情報を生成する、前記（３）に記載の情報処理装置。
（５）前記通算時間は、単位期間ごとに算出され、
前記情報生成部は、前記会話の参加者ごとの前記通算時間の増減傾向に基づいて前記情報を生成する、前記（３）または（４）に記載の情報処理装置。
（６）前記量的指標は、前記会話の音量を含み、
前記情報生成部は、前記会話の参加者ごとの、前記音量がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、前記（２）〜（５）のいずれか１項に記載の情報処理装置。
（７）前記量的指標は、前記会話の速度を含み、
前記情報生成部は、前記会話の参加者ごとの、前記速度がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、前記（２）〜（５）のいずれか１項に記載の情報処理装置。
（８）前記量的指標は、前記会話の音量および速度を含み、
前記情報生成部は、前記会話の参加者ごとの、前記速度が平均から推定される通常の範囲を超え、かつ前記音量が平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、前記（２）〜（５）のいずれか１項に記載の情報処理装置。
（９）前記量的指標は、前記会話の音量または速度を含み、
前記情報生成部は、前記ユーザを参加者に含まない前記会話の音量または速度に基づいて前記情報を生成する、前記（２）〜（８）のいずれか１項に記載の情報処理装置。
（１０）前記量的指標は、前記会話の通算時間を含み、
前記情報生成部は、前記通算時間に基づいて前記情報を生成する、前記（１）に記載の情報処理装置。
（１１）前記量的指標は、前記会話の音量を含み、
前記情報生成部は、前記音量に基づいて前記情報を生成する、前記（１）に記載の情報処理装置。
（１２）前記量的指標は、前記会話の速度を含み、
前記情報生成部は、前記速度に基づいて前記情報を生成する、前記（１）に記載の情報処理装置。
（１３）前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備える、前記（１）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）前記話者特定部は、前記話者を、予め登録された１または複数の話者と、それ以外の話者とに区分する、前記（１３）に記載の情報処理装置。
（１５）前記マイクロフォンから提供される音声データを解析することによって前記発話音声を示すデータを抽出する音声解析部をさらに備える、前記（１）〜（１４）のいずれか１項に記載の情報処理装置。
（１６）前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備え、
前記音声解析部は、前記話者を時系列で示すデータを抽出する、前記（１５）に記載の情報処理装置。
（１７）前記音声解析部は、単位時間ごとに前記話者特定部に話者の特定を依頼し、前記話者特定部において各話者が特定された回数によって前記話者を時系列で示すデータを抽出する、前記（１６）に記載の情報処理装置。
（１８）プロセッサが、
ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出することと、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成することと
を含む情報処理方法。
（１９）ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する機能と、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成する機能と
をコンピュータに実現させるためのプログラム。

１０システム
１００ウェアラブル端末
１２０処理部
２００スマートフォン
２２０処理部
３００サーバ
３２０処理部
５２０音声解析部
５４０指標算出部
５６０情報生成部
５８０話者特定部

Claims

ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する指標算出部と、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成する情報生成部と
を備える情報処理装置。
前記指標算出部は、前記会話の参加者ごとに前記量的指標を算出する、請求項１に記載の情報処理装置。
前記量的指標は、前記会話の通算時間を含み、
前記情報生成部は、前記会話の参加者ごとの前記通算時間に基づいて前記情報を生成する、請求項２に記載の情報処理装置。
前記会話の参加者は、前記ユーザの家族の構成員を含み、
前記情報生成部は、前記構成員ごとの前記通算時間に基づいて前記情報を生成する、請求項３に記載の情報処理装置。
前記通算時間は、単位期間ごとに算出され、
前記情報生成部は、前記会話の参加者ごとの前記通算時間の増減傾向に基づいて前記情報を生成する、請求項３に記載の情報処理装置。
前記量的指標は、前記会話の音量を含み、
前記情報生成部は、前記会話の参加者ごとの、前記音量がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、請求項２に記載の情報処理装置。
前記量的指標は、前記会話の速度を含み、
前記情報生成部は、前記会話の参加者ごとの、前記速度がその平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、請求項２に記載の情報処理装置。
前記量的指標は、前記会話の音量および速度を含み、
前記情報生成部は、前記会話の参加者ごとの、前記速度が平均から推定される通常の範囲を超え、かつ前記音量が平均から推定される通常の範囲を超えた時間または回数に基づいて前記情報を生成する、請求項２に記載の情報処理装置。
前記量的指標は、前記会話の音量または速度を含み、
前記情報生成部は、前記ユーザを参加者に含まない前記会話の音量または速度に基づいて前記情報を生成する、請求項２に記載の情報処理装置。
前記量的指標は、前記会話の通算時間を含み、
前記情報生成部は、前記通算時間に基づいて前記情報を生成する、請求項１に記載の情報処理装置。
前記量的指標は、前記会話の音量を含み、
前記情報生成部は、前記音量に基づいて前記情報を生成する、請求項１に記載の情報処理装置。
前記量的指標は、前記会話の速度を含み、
前記情報生成部は、前記速度に基づいて前記情報を生成する、請求項１に記載の情報処理装置。
前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備える、請求項１に記載の情報処理装置。
前記話者特定部は、前記話者を、予め登録された１または複数の話者と、それ以外の話者とに区分する、請求項１３に記載の情報処理装置。
前記マイクロフォンから提供される音声データを解析することによって前記発話音声を示すデータを抽出する音声解析部をさらに備える、請求項１に記載の情報処理装置。
前記発話音声の話者の少なくとも一部を特定する話者特定部をさらに備え、
前記音声解析部は、前記話者を時系列で示すデータを抽出する、請求項１５に記載の情報処理装置。
前記音声解析部は、単位時間ごとに前記話者特定部に話者の特定を依頼し、前記話者特定部において各話者が特定された回数によって前記話者を時系列で示すデータを抽出する、請求項１６に記載の情報処理装置。
プロセッサが、
ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出することと、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成することと
を含む情報処理方法。
ユーザの生活環境に置かれたマイクロフォンによって取得された発話音声によって構成される会話に関する量的指標を算出する機能と、
前記量的指標に基づいて前記生活環境の特性を示す情報を生成する機能と
をコンピュータに実現させるためのプログラム。