JP6258172B2

JP6258172B2 - 音情報処理装置及びシステム

Info

Publication number: JP6258172B2
Application number: JP2014192750A
Authority: JP
Inventors: 隆須藤; 長田　将高; 将高長田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2018-01-10
Anticipated expiration: 2034-09-22
Also published as: JP2016059765A

Description

本発明の実施形態は、音情報処理装置及びシステムに関する。

従来、マイクにより集音した音情報から、発話情報などを取得する音情報処理装置が利用されている。音情報処理装置では、マイクを間欠的に動作させる方法などが提案されている。

特開２０１０−１９０８６１号公報

低消費電力な音情報処理装置及びシステムを提供する。

一実施形態に係る音情報処理装置は、動き情報取得部と、睡眠判定部と、第１行動状態判定部と、音情報取得部と、制御部と、を備える。動き情報取得部は、ユーザの動き情報を取得する。睡眠判定部は、動き情報に基づいて、ユーザが睡眠中か判定する。第１行動状態判定部は、ユーザが覚醒中の場合に、動き情報に基づいて、ユーザの行動状態を判定する。音情報取得部は、ユーザの周囲の音情報を間欠的に取得する。制御部は、睡眠判定部及び第１行動状態判定部の判定結果に基づいて、音情報取得部を制御する。

第１実施形態に係る音情報処理装置の機能構成を示すブロック図。音情報取得部の動作を説明する説明図。図１の音情報処理装置のハードウェア構成を示すブロック図。図１の音情報処理装置の動作を示すフローチャート。第１実施形態に係る音情報処理システムを示す概略構成図。図５の音情報処理システムの機能構成を示すブロック図。第２実施形態に係る音情報処理装置の機能構成を示すブロック図。図７の音情報処理装置の動作を示すフローチャート。第３実施形態に係る音情報処理装置の機能構成を示すブロック図。図９の音情報処理装置の動作を示すフローチャート。

以下、本発明の実施形態について図面を参照して説明する。

（第１実施形態）
第１実施形態に係る音情報処理装置（以下、「処理装置」という）及び音情報処理システム（以下、「処理システム」という）について、図１〜図６を参照して説明する。本実施形態に係る処理装置及び処理システムは、マイクにより集音した音情報に基づいて、ユーザの発話情報を算出する。

まず、第１実施形態に係る処理装置１００の機能構成について、図１を参照して説明する。本実施形態に係る処理装置１００は、例えば、ウェアラブル端末やスマートフォンなどの、ユーザが装着又は携帯可能なデバイスにより構成される。図１は、処理装置１００の機能構成を示すブロック図である。

図１に示すように、この処理装置１００は、動き情報取得部１と、睡眠判定部２と、第１行動状態判定部３と、制御部４と、音情報取得部５と、音声情報検出部６と、非音声特徴量算出部７と、第２行動状態判定部８と、音声特徴量算出部９と、発話情報算出部１０と、を備える。

動き情報取得部１は、ユーザの動き情報を取得する。動き情報は、例えば、加速度や角速度であるが、これに限られない。動き情報取得部１は、これらの動き情報を検出する加速度センサや角速度センサ（ジャイロセンサ）などの動き情報センサを含み、動き情報センサの出力信号から、動き情報を取得する。動き情報測定部１は、処理装置１００の動作中に、常時或いは任意の時間間隔で間欠的に動作し、動き情報を取得する。また、動き情報取得部１が取得する動き情報は、１つであってもよいし、複数であってもよい。

睡眠判定部２は、動き情報取得部１が取得したユーザの動き情報に基づいて、ユーザが睡眠中か判定する。睡眠判定部２は、例えば、動き情報からユーザの体動量などの特徴量を算出し、算出した特徴量に基づいて、ユーザが睡眠中か判定することができる。

第１行動状態判定部３は、動き情報取得部１が取得したユーザの動き情報に基づいて、ユーザの行動状態を判定する。第１行動状態判定部３は、睡眠判定部２の判定結果を取得し、ユーザが覚醒中の場合のみ、ユーザの行動状態を判定する。したがって、睡眠判定部２によりユーザは睡眠中と判定された場合、第１行動状態判定部３は、動作しない。

第１行動状態判定部３は、例えば、動き情報からユーザの体動量などの特徴量を算出し、算出した特徴量の平均値、分散値、最大値、及びパターンなどに基づいて、ユーザの行動状態を判定する。第１行動状態判定部３が判定する行動状態には、例えば、睡眠、覚醒、完全静止（処理装置を非装着）、歩行、走行、電車・車・バスに乗車、自転車を運転、飛行機に搭乗、乗船、水泳、テニス、個人競技スポーツ、団体競技スポーツ、食事、飲食、デスクワーク、仰臥、及び着席が含まれるが、これに限られない。

制御部４は、睡眠判定部２及び第１行動状態判定部３の判定結果を取得し、判定結果に基づいて、音情報取得部５などの動作を制御する。具体的には、制御部４は、睡眠判定部２及び第１行動状態判定部３から取得したユーザの行動状態が、非発話状態である場合、音情報取得部５の動作を停止させる。これにより、処理装置１００の消費電力を低減することができる。

非発話状態は、ユーザが発話しない、或いは、集音に適さない行動状態として、予め設定された行動状態である。非発話状態には、例えば、睡眠、完全静止（処理装置を非装着）、走行、自転車を運転、水泳、テニス、個人競技スポーツ、及び団体競技スポーツが含まれるが、これに限られない。

これに対して、発話状態は、ユーザが発話する、或いは、集音に適した行動状態として、予め設定された行動状態である。発話状態には、例えば、覚醒、歩行、電車・車・バスに乗車、飛行機に搭乗、乗船、食事、飲食、デスクワーク、仰臥、及び着席が含まれるが、これに限られない。なお、発話状態は、非発話状態ではない行動状態として設定されてもよい。

また、制御部４は、ユーザの行動状態に基づいて、音情報取得部５、音声情報検出部６、非音声特徴量算出部７、第２行動状態判定部８、音声特徴量算出部９、及び発話情報算出部１０の少なくとも１つの動作を制御してもよい。具体的には、制御部４は、ユーザの行動状態が、非発話状態である場合、上記の各構成の動作を停止させるのが好ましい。これにより、処理装置１００の消費電力をさらに低減することができる。

音情報取得部５は、マイクを含み、処理装置１００を装着又は携帯したユーザの周囲の音情報を、所定の時間間隔で間欠的に取得する。音情報取得部５が取得する音情報には、人の声である音声の情報（音声情報）と、音声以外の音の情報（非音声情報）と、が含まれる。音情報取得部５による音情報の取得間隔は、例えば、１秒間隔や１分間隔など、任意に設定可能である。なお、音情報取得部５は、ＡＤ変換器、フィルタ、及び増幅器などを含んでもよい。

ここで、図２は、音情報取得部５の動作の一例を示す図である。図２において、制御部４は、マイクのＯＮ・ＯＦＦを制御することにより、音情報取得部５の動作を制御している。また、非発話状態として、走行及び睡眠が設定されており、制御部４は、ユーザが走行中及び睡眠中の場合に、マイクをＯＦＦしている。走行と歩行を判別するのに、移動速度あるいは運動強度を用いてもよい。音情報取得部５をこのように制御することにより、マイクを単純に間欠的に動作させる場合に比べて、図２の点線区間でマイクをＯＦＦにできるため、処理装置１００の消費電力を低減することができる。なお、図２に示すように、行動状態が体動量などの特徴量の範囲に応じて設定される場合、制御部４は、特徴量に応じて音情報取得部５の動作を制御してもよい。

音声情報検出部６は、音声情報取得部５が取得した音情報から音声情報を検出する。音声情報検出部６は、例えば、音声区間検出によって、音声情報を検出する。音情報は、音声情報と非音声情報とからなるため、音声情報検出部６が音声情報を検出することにより、音声情報以外の音情報が非音声情報として検出される。

非音声特徴量算出部７は、音声情報検出部６により検出された非音声情報の特徴量（以下、「非音声特徴量」という）を算出する。非音声特徴量には、例えば、音声のピッチ、周波数、強度、エンベロープ、及びサウンドスペクトログラムなどが含まれるが、これに限られない。非音声特徴量は、第２行動状態判定部８が判定する行動状態に応じて選択される。

第２行動状態判定部８は、非音声特徴量算出部７が算出した非音声特徴量に基づいて、ユーザの行動状態を判定する。すなわち、第２行動状態判定部８は、ユーザの周囲の音から、ユーザの行動状態を判定する。例えば、大内ら「携帯電話搭載センサによるリアルタイム生活行動認識システム」情報処理学会論文誌（２０１２年６月）などを用いる。第２行動状態判定部８が判定する行動状態には、例えば、トイレ洗浄、冷蔵庫開閉、歯磨き、掃除機をかける、テレビ視聴、髭剃り、ドライヤ、アイロンをかける、及び皿洗いが含まれるが、これに限られない。

音声特徴量算出部９は、音声情報検出部６により検出された音声情報の特徴量（以下、「音声特徴量」という）を算出する。音声特徴量には、例えば、周波数、強度、及びサウンドスペクトログラムなどが含まれるが、これに限られない。音声特徴量は、発話情報算出部１０が算出する発話情報に応じて選択される。

発話情報算出部１０は、音声特徴量算出部９が算出した音声特徴量に基づいて、発話情報を算出する。発話情報には、ユーザ発話量と、ユーザ発話時間と、が含まれるが、これに限られない。

発話情報算出部１０は、例えば、ユーザの音声の特徴量から生成した音響モデルを予め記憶しておき、この音響モデルに基づいて、音声情報からユーザの発話を音声区間検出してもよい。例えば、中川ら「発話間のVQひずみを用いた話者交替識別と話者クラスタリング」電子情報通信学会論文誌D-II（２００２年１１月）などを用いて、他人が混ざっているか、自分だけの発話かを特徴量と音響モデルとで話者判別することで、話者区間の分離を行う。これにより、音声情報を、ユーザの発話と、ユーザ以外の人（他人）の発話と、に分類することができる。この場合、発話情報算出部１０は、発話情報として、ユーザ発話量と、ユーザ発話時間と、他人発話量と、他人発話時間と、会話時間と、ユーザの発話割合と、を算出してもよい。

また、発話情報算出部１０は、ユーザの音響モデルを、ユーザの行動状態毎に記憶してもよい。このような音響モデルには、例えば、電話中の音響モデル、対人で会話中の音響モデル、及びテレビを視聴中の音響モデルなどが含まれる。なお、テレビの視聴中は音楽・効果音が多いことが特徴的なため、これらの特徴量を使って音響モデルを作成する。行動状態毎の音響モデルを用いることにより、ユーザが発話した際の状態（例えば、会話中や独り言など）を取得することができる。

次に、第１実施形態に係る処理装置１００のハードウェア構成について、図３を参照して説明する。本実施形態に係る処理装置１００は、コンピュータ装置を備える。動き情報センサやマイクなどの出力信号は、コンピュータ装置に入力され、所定の処理を施される。図３は、コンピュータ装置の構成を示すブロック図である。

図３に示すように、コンピュータ装置は、ＣＰＵ（中央演算装置）１０１と、入力インターフェース１０２と、表示装置１０３と、通信装置１０４と、主記憶装置１０５と、外部記憶装置１０６とを備え、これらはバス１０７により相互に接続されている。

ＣＰＵ１０１は、主記憶装置１０５上で、音声情報処理プログラム（以下、「処理プログラム」という）を実行する。ＣＰＵ１０１が、処理プログラムを実行することにより、上述の各機能構成が実現される。

本実施形態において、コンピュータ装置は、第１プロセッサＰ_１と、第２プロセッサＰ_２と、の２つのＣＰＵ１０１を備えるのが好ましい。図１に示すように、第１プロセッサＰ_１は、睡眠判定部２と、第１行動状態判定部３と、制御部４と、を構成するＣＰＵであり、第２プロセッサＰ_２は、音声情報検出部６と、非音声特徴量算出部７と、第２行動状態判定部８と、音声特徴量算出部９と、発話情報算出部１０と、を構成するＣＰＵである。

このような構成により、ユーザの行動状態が非発話状態である場合、制御部４は、第２プロセッサＰ_２の動作を停止させることができる。これにより、全ての機能構成を単一のＣＰＵ１０１により構成し、個々の機能構成における処理を停止する場合に比べて、消費電力を効果的に低減することができる。

入力インターフェース１０２は、キーボード、マウス、及びタッチパネルなどの入力装置からの操作信号を、処理装置に入力する。入力インターフェース１０２の方式は、例えば、ＵＳＢやイーサネットであるが、これに限られない。動き情報センサやマイクは、この入力インターフェース１０２を介してコンピュータ装置に接続されてもよい。

表示装置１０３は、処理装置から出力される映像信号を表示する。表示装置は、例えば、ＬＣＤ（液晶ディスプレイ）、ＣＲＴ（ブラウン管）、及びＰＤＰ（プラズマディスプレイ）であるが、これに限られない。コンピュータ装置により取得された発話情報や行動状態などの情報は、この表示装置１０３により表示することができる。

通信装置１０４は、コンピュータ装置が外部装置と無線又は有線で通信するための装置である。コンピュータ装置により取得された発話情報や行動状態などの情報は、この通信装置１０４を介して外部装置に送信することができる。外部装置は、例えば、スマートフォンやサーバであるが、これに限られない。動き情報センサやマイクの出力信号は、通信装置１０４を介してコンピュータ装置に入力されてもよい。

主記憶装置１０５は、処理プログラムの実行の際に、処理プログラム、処理プログラムの実行に必要なデータ、及び処理プログラムの実行により生成されたデータなどを記憶する。処理プログラムは、主記憶装置１０５上で展開され、実行される。主記憶装置１０５は、例えば、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭであるが、これに限られない。

外部記憶装置１０６は、処理プログラム、処理プログラムの実行に必要なデータ、及び処理プログラムの実行により生成されたデータなどを記憶する。これらのプログラムやデータは、処理プログラムの実行の際に、主記憶装置１０５に読み出される。外部記憶装置１０６は、例えば、ハードディスク、光ディスク、フラッシュメモリ、及び磁気テープであるが、これに限られない。

なお、処理プログラムは、コンピュータ装置に予めインストールされていてもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶されていてもよい。また、処理プログラムは、インターネット上にアップロードされているものをダウンロードしたものでもよい。

次に、本実施形態に係る処理装置１００の動作について、図４を参照して具体的に説明する。以下では、動き情報は、加速度であり、加速度から特徴量として体動量が算出されるものとするが、上述の通り、動き情報やその特徴量はこれに限られない。図４は、処理装置１００の動作を示すフローチャートである。

図４に示すように、処理装置１００による音情報の処理が開始すると、ステップＳ１において、音情報の取得間隔などが初期設定される。処理装置１００の処理は、例えば、処理装置１００の電源がオンになったタイミングや、ユーザからの開始信号に応じて開始される。

次に、ステップＳ２において、動き情報取得部１は、ユーザの加速度を取得する。すなわち、動き情報取得部１は、加速度センサの出力信号から、ユーザの加速度を算出する。加速度センサは、例えば、１軸、２軸、又は３軸の加速度センサであるが、これに限られない。

ステップＳ３において、睡眠判定部２は、動き情報取得部１が取得した加速度からユーザの体動量を算出する。睡眠判定部２は、体動量として、例えば、２軸又は３軸の合成加速度や、合成加速度の平均値や、合成加速度がある特定の閾値を超えた回数を算出する。睡眠判定部２は、算出した体動量に基づいて、ユーザが睡眠中か否か判定する。判定結果は、制御部４に送信される。ユーザが睡眠中の場合（ステップＳ３のＹＥＳ）、処理はステップＳ４に進み、ユーザが覚醒中の場合（ステップＳ３のＮＯ）、処理はステップＳ６に進む。

ユーザが睡眠中の場合、ステップＳ４において、制御部４は、マイクをＯＦＦすることにより、音情報取得部５の動作を停止させる。また、制御部４は、第２プロセッサＰ_２の動作を停止させる。すなわち、制御部４は、音声情報検出部６、非音声特徴量算出部７、第２行動状態判定部８、音声特徴量算出部９、及び発話情報算出部１０の動作を停止させる。

その後、ステップＳ５において、処理装置１００は、処理を終了するか判定する。処理装置１００による処理は、例えば、処理装置１００の電源がオフになったタイミングや、ユーザからの終了信号に応じて終了される（ステップＳ５のＹＥＳ）。処理を終了しない場合（ステップＳ５のＮＯ）、処理はステップＳ２に戻る。

これに対して、ユーザが覚醒中の場合、ステップＳ６において、第１行動状態判定部３は、動き情報取得部１が取得した加速度からユーザの体動量を算出し、体動量に基づいて、ユーザの行動状態を判定する。判定結果は制御部４に送信される。

ステップＳ７において、制御部４は、ユーザの行動状態が非発話状態か判定する。ユーザの行動状態が非発話状態である場合（ステップＳ７のＹＥＳ）、処理はステップＳ４に進み、非発話状態ではない場合（ステップＳ７のＮＯ）、処理はステップＳ８に進む。

ステップＳ８において、音情報取得部５は、所定の取得タイミングに音情報を取得する。すなわち、マイクにより集音し、マイクの出力信号にＡＤ変換などの所定の処理を施し、音情報を生成する。

次に、ステップＳ９において、音声情報検出部６が、音情報から音声情報を検出する。音声情報検出部６によって音声情報が検出された場合（ステップＳ１０のＹＥＳ）、処理はステップＳ１１に進み、音声情報が検出されなかった場合（ステップＳ１０のＮＯ）、処理はステップＳ１３に進む。

音声情報が検出された場合、ステップＳ１１において、音声特徴量算出部９は、音声情報から音声特徴量を算出する。

そして、ステップＳ１２において、発話情報算出部１０は、音声特徴量から話者を判定し、ユーザの発話時間及び発話量や、第３者の発話時間及び発話量などの、発話情報を算出する。以上の処理により得られた発話情報は、例えば、表示装置１０３に表示される。その後、処理はステップＳ５に進む。

これに対して、音声情報が検出されなかった場合、ステップＳ１３において、非音声特徴量算出部７は、非音声情報から非音声特徴量を算出する。

そして、ステップＳ１４において、第２行動状態判定部８は、非音声特徴量から、ユーザの行動状態を判定する。こうして得られたユーザの行動状態は、例えば、表示装置１０３に表示される。その後、処理はステップＳ５に進む。

処理装置１００は、処理が終了するまでの間、以上のステップＳ１からステップＳ１４の処理を、音情報の取得間隔ごとに繰り返す。

以上説明した通り、本実施形態に係る処理装置１００は、マイクが間欠的に動作するとともに、ユーザの行動状態が非発話状態の場合にはマイクが動作しない。ここで、処理装置１００の消費電力について検討する。

例えば、２００ｍＡｈのバッテリで１４日間動作可能なコンピュータ装置（動き情報センサを含む）の場合、コンピュータ装置は１時間あたり５９５μＡ（＝２００ｍＡｈ／１４日×２４ｈ）の電力を消費する。処理装置１００を、このコンピュータ装置と、消費電力が７００μＡのマイクと、により構成した場合、マイクを常時動作させると、処理装置１００の動作時間は６．４３日となる。

これに対して、マイクを１／５の時間だけ間欠的に動作させると、処理装置１００の動作時間は１１．３３日となる。睡眠中にマイクの動作を停止させると、睡眠時間が８時間／日の場合、処理装置１００の動作時間は１２．１０日となる。覚醒中の非発話状態のときにマイクの動作を停止させると、処理装置１００の動作時間は１２．１０日よりさらに長期化する。

このように、本実施形態によれば、処理装置１００の消費電力を低減し、動作時間を長期化することができる。これにより、バッテリや処理装置１００の小型化も可能になる。

また、本実施形態に係る処理装置１００は、ユーザの発話時間、発話量、及び会話時間などの発話情報を継続的に容易に取得することができる。処理装置１００によって取得した発話情報は、メンタルヘルスケアや高齢者の認知症予防のために利用することができる。

なお、上記の説明において、非音声特徴量算出部７と音声特徴量算出部９とは、排他的に動作したが、音情報に音声の区間と非音声の区間とが両方含まれる場合には、同時に動作してもよい。

さらに、処理装置１００は、発話情報算出部１０が算出した発話情報に基づいて、ユーザのストレスを推定するストレス推定部１１を備えてもよい。ストレス推定部１１は、ユーザのストレスを、発話情報のみから推定してもよいし、図示しない光電脈波センサから求めた脈拍数や心電図センサから求めた心拍数を用いた自律神経解析により推定したストレスを、発話情報によって補正することにより、推定してもよい。

以上の説明において、処理装置１００が単一の装置により構成される場合について説明したが、処理装置１００は、複数の装置からなる処理システム２００として構成することも可能である。そこで、本実施形態に係る処理システム２００について、図５及び図６を参照して説明する。図５は、本実施形態に係る処理システム２００の一例を示す概略構成図である。

図５に示すように、処理システム２００は、センサノード端末２０１と、ホスト端末２０２と、サーバ２０３と、を備える。センサノード端末２０１、ホスト端末２０２、及びサーバ２０３は、有線又は無線で通信可能に接続されている。

センサノード端末２０１（音情報処理装置）は、例えば、指輪型、腕輪型、及びシール型などのウェアラブル端末であり、ユーザの動き情報やユーザの周囲の音情報を取得する。図６に示すように、センサノード端末２０１は、動き情報取得部１と、睡眠判定部２と、第１行動状態判定部３と、制御部４と、音情報取得部５と、音情報検出部６と、非音声特徴量算出部７と、音声特徴量算出部９と、を備える。センサノード端末２０１は、非音声特徴量算出部７により算出した非音声特徴量と、音声特徴量算出部９により算出した音声特徴量と、をホスト端末２０２に送信する。

ホスト端末２０２は、例えば、スマートフォンであり、発話情報を算出するアプリケーションをインストールされている。図６に示すように、ホスト端末２０２は、第２行動状態判定部８と、発話情報算出部１０と、を備える。ホスト端末２０２は、センサノード端末２０１から受信した音声情報及び非音声情報に基づいて、ユーザの発話情報及び行動状態を取得し、サーバ２０３に送信する。

サーバ２０３は、例えば、ヘルスケアサービスを提供するクラウドサーバである。図６に示すように、サーバ２０３は、ストレス推定部１１を備える。サーバ２０３は、ホスト端末２０２から受信した行動状態や発話情報を記憶すると共に、発話情報からユーザのストレスを推定する。サーバ２０３は、記憶した行動状態や発話情報の履歴情報、推定されたストレス、及びユーザに対するアドバイスなどの情報を、ホスト端末２０２に送信する。

以上説明した通り、本実施形態に係るセンサノード端末２０１は、マイクが間欠的に動作するとともに、ユーザの行動状態が非発話状態の場合にはマイクが動作しない。したがて、本実施形態に依れば、センサノード端末２０１の消費電力を低減し、動作時間を長期化することができる。これにより、バッテリやセンサノード端末２０１の小型化も可能になる。

なお、本実施形態に係る処理システム２００において、センサノード端末２０１、ホスト端末２０２、及びサーバ２０３がそれぞれ備える機能構成は、図６に限られない。例えば、音声情報検出部６、非音声特徴量算出部７、及び音声特徴量算出部９は、センサノード端末２０１ではなく、ホスト端末２０２が備えてもよい。また、ストレス推定部１１は、サーバ２０３ではなく、ホスト端末２０２が備えてもよい。さらに、ホスト端末２０２を備えず、サーバ２０３が第２行動状態判定部８及び発話情報算出部１０を備えてもよい。

（第２実施形態）
第２実施形態に係る処理装置１００について、図７及び図８を参照して説明する。図７は、本実施形態に係る処理装置１００の機能構成を示すブロック図である。図７に示すように、処理装置１００は、音声情報検出部６が音情報取得部５を制御すると共に、感情認識部１２を更に備える。他の構成は第１実施形態と同様である。

本実施形態において、音声情報検出部６は、音情報から音声情報を検出した場合、音声情報を検出していない場合に比べて、音情報取得部５による音情報の取得間隔を短くする。これにより、ユーザの発話時の音声情報を効率的に取得することができる。

感情認識部１２は、音声特徴量算出部９が算出した感情認識のための音声特徴量に基づいて、ユーザの感情認識を行う。感情認識部１２は、例えば、ユーザの喜怒哀楽、興奮の度合い、及び声の張りなどのラベルを音声情報に付与する。例えば、声の張りについては、杉浦ら「波形特徴に着目した声の張りパラメータに関する検討」日本音響学会講演論文集（２００８年９月）などを用いる。感情認識部１２は、第２プロセッサＰ_２により構成されるのが好ましい。

次に、本実施形態に係る処理装置１００の動作について、図８を参照して説明する。図８は、本実施形態に係る処理装置１００の動作を示すフローチャートである。図８に示すように、本実施形態に係る処理装置１００の動作は、ステップＳ１５，１６，Ｓ１７をさらに備える。他の処理は第１実施形態と同様である。

本実施形態において、音情報から音声情報が検出された場合（ステップＳ１０のＹＥＳ）、処理はステップＳ１６に進む。ステップＳ１６において、音情報検出部６は、音情報取得部５による音情報の取得間隔を、音声情報を検出した場合の短い取得間隔に制御する。

そして、音声特徴量算出部９が音声特徴量を算出した後（ステップＳ１１）、ステップ１７において、感情認識部１２は、算出された音声特徴量からユーザの感情認識を行い、処理はステップＳ１２に進む。

これに対して、音情報から音声情報が検出されなかった場合（ステップＳ１０のＮＯ）、処理はステップＳ１５に進む。ステップＳ１５において、音情報検出部６は、音情報取得部５による音情報の取得間隔を、音声情報を検出しなかった場合（非音声情報を検出した場合）の長い取得間隔に制御する。その後、処理はステップＳ１３に進む。

以上説明した通り、本実施形態に係る処理装置１００は、音声情報が検出された場合、音情報の取得間隔を短くする。これにより、音声情報を効率的に取得することができる。また、感情認識部１２により、ユーザの感情認識をすることができる。

なお、本実施形態において、ステップＳ１６の処理は、音情報から音声情報が検出された場合、ステップＳ１０からステップＳ５までの間の任意のタイミングで行うことができる。また、ステップＳ１７の処理は、ステップ１１からステップＳ５までの間の任意のタイミングで行うことができる。

さらに、本実施形態に係る処理システム２００は、ホスト端末２０２が感情認識部１２を備えてもよいし、サーバ２０３が感情認識部を備えてもよい。

（第３実施形態）
第３実施形態に係る処理装置１００について、図９を参照して説明する。図９は、本実施形態に係る処理装置１００の機能構成を示すブロック図である。図９に示すように、処理装置１００は、睡眠状態判定部１３と、いびき検出部１４と、を更に備える。他の構成は第１実施形態と同様である。

睡眠状態判定部１３は、動き情報取得部１が取得したユーザの動き情報に基づいて、ユーザの眠りの深さを判定する。睡眠状態判定部１３は、例えば、動き情報からユーザの体動量などの特徴量を算出し、算出した特徴量に基づいて、ユーザの眠りが浅いか深いかを判定することができる。

睡眠状態判定部１３は、睡眠判定部２の判定結果を取得し、ユーザが睡眠中の場合のみ、ユーザの眠りの深さを判定する。したがって、睡眠判定部２によりユーザは覚醒中と判定された場合、睡眠状態判定部１３は動作しない。睡眠状態判定部１３は、第１プロセッサＰ_１により構成されるのが好ましい。

第１実施形態において、制御部４は、ユーザが睡眠中の場合、音情報取得部５及び第２プロセッサＰ_２を停止させたが、本実施形態では、制御部４は、ユーザが睡眠中であっても、睡眠状態判定部１３がユーザの眠りは浅いと判定した場合、音情報取得部５、音声情報検出部６、音声特徴量算出部９、及びいびき検出部１４を動作させる。

いびき検出部１４は、音声特徴量算出部９が算出したいびき検出のための音声特徴量に基づいて、ユーザのいびきを検出する。このような音声特徴量として、フォルマント周波数、エンベロープ、ピーク周波数などが挙げられる。いびき検出部１４は、第２プロセッサＰ_２により構成されるのが好ましい。

次に、本実施形態に係る処理装置１００の動作について、図１０を参照して説明する。図１０は、本実施形態に係る処理装置１００の動作を示すフローチャートである。図１０に示すように、本実施形態に係る処理装置の動作は、ステップＳ１８〜ステップＳ２３を更に備える。他の処理は第１実施形態と同様である。

本実施形態において、ユーザが睡眠中の場合（ステップＳ３のＹＥＳ）、処理はステップＳ１８に進む。ステップＳ１８において、睡眠状態判定部１３は、ユーザの眠りの深さを判定する。ユーザの眠りが深い場合（ステップＳ１８のＹＥＳ）、処理はステップＳ４に進み、ユーザの眠りが浅い場合（ステップＳ１８のＮＯ）、処理はステップＳ１９に進む。

ステップＳ１９において、音情報取得部５は、所定の取得タイミングに音情報を取得する。すなわち、マイクにより集音し、マイクの出力信号にＡＤ変換などの所定の処理を施し、音情報を生成する。

次に、ステップＳ２０において、音声情報検出部６が、音情報から音声情報を検出する。音声情報検出部６によって音声情報が検出されなかった場合（ステップＳ２１のＮＯ）、処理はステップＳ５に進み、音声情報が検出された場合（ステップＳ２１のＹＥＳ）、処理はステップＳ２２に進む。

音声情報が検出された場合、ステップＳ２２において、音声特徴量算出部９は、音声情報からいびきを検出するための音声特徴量を算出する。

そして、ステップＳ２３において、いびき検出部１４は、音声特徴量からいびきを検出する。その後、処理はステップＳ５に進む。

以上説明した通り、本実施形態に係る処理装置１００は、ユーザの眠りが浅い場合に、音声特徴量からユーザのいびきを検出する。睡眠時無呼吸症候群（ＳＡＳ）の患者は、声帯を使ったいびきをかく。このため、本実施形態に係る処理装置１００を用いてユーザのいびきを検出して集音することにより、睡眠時無呼吸症候群の診断を行うことができる。

なお、本実施形態に係る処理システム２００は、ホスト端末２０２がいびき検出部１４を備えてもよいし、サーバ２０３がいびき検出部１４を備えてもよい。

なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

１：動き情報取得部、２：睡眠判定部、３：第１行動状態判定部、４：制御部、５：音情報取得部、６：音声情報検出部、７：非音声特徴量算出部、８：第２行動状態判定部、９：音声特徴量算出部、１０：発話情報算出部、１１：ストレス推定部、１２：感情認識部、１３：睡眠状態判定部、１４：いびき検出部、１００：音情報処理装置、１０１：ＣＰＵ、１０２：入力インターフェース、１０３：表示装置、１０４：通信装置、１０５：主記憶装置、１０７：バス、Ｐ_１：第１プロセッサ、Ｐ_２：第２プロセッサ、２００：音情報処理システム、２０１：センサノード端末、２０２：ホスト端末、２０３：サーバ

Claims

ユーザの動き情報を取得する動き情報取得部と、
前記動き情報に基づいて、前記ユーザが睡眠中か判定する睡眠判定部と、
前記ユーザが覚醒中の場合に、前記動き情報に基づいて、前記ユーザの行動状態を判定する第１行動状態判定部と、
前記ユーザの周囲の音情報を間欠的に取得する音情報取得部と、
前記睡眠判定部及び前記第１行動状態判定部の判定結果に基づいて、前記音情報取得部を制御する制御部と、
を備える音情報処理装置。
前記音情報から音声情報を検出する音声情報検出部を更に備える
請求項１に記載の音情報処理装置。
前記音情報に含まれる前記音声情報の特徴量を算出する音声特徴量算出部を更に備える
請求項１又は請求項２に記載の音情報処理装置。
前記音情報に含まれる非音声情報の特徴量を算出する非音声特徴量算出部を更に備える
請求項１〜請求項３のいずれか１項に記載の音情報処理装置。
前記制御部は、前記ユーザが睡眠中の場合、前記音声情報取得部の動作を停止させる
請求項１〜請求項４のいずれか１項に記載の音情報処理装置。
前記制御部は、前記ユーザが睡眠中の場合、前記音声情報検出部、前記音声特徴量算出部、及び前記非音声特徴量算出部の少なくとも１つの動作を停止させる
請求項２〜請求項５のいずれか１項に記載の音情報処理装置。
前記睡眠判定部、前記第１行動状態判定部、及び前記制御部の少なくとも１つを構成する第１プロセッサと、
前記音声情報検出部、前記音声特徴量算出部、及び前記非音声特徴量算出部の少なくとも１つを構成する第２プロセッサと、
を備える請求項１〜請求項６のいずれか１項に記載の音情報処理装置。
前記音声情報検出部は、前記音声情報の検出結果に基づいて、前記音情報取得部による前記音情報の取得間隔を制御する
請求項２〜請求項７のいずれか１項に記載の音情報処理装置。
前記音声情報検出部は、前記音声情報を検出した場合、前記音声情報を検出しない場合に比べて、前記音情報取得部による前記音情報の取得間隔を短くする
請求項２〜請求項８のいずれか１項に記載の音情報処理装置。
前記ユーザが睡眠中の場合、前記動き情報に基づいて、前記ユーザの眠りの深さを判定する睡眠状態判定部を更に備える
請求項１〜請求項９のいずれか１項に記載の音情報処理装置。
前記音声特徴量に基づいて、発話情報を算出する発話情報算出部を更に備える
請求項３〜請求項１０のいずれか１項に記載の音情報処理装置。
前記非音声特徴量に基づいて、前記ユーザの行動状態を判定する第２行動状態判定部を更に備える
請求項４〜請求項１１のいずれか１項に記載の音情報処理装置。
前記発話情報に基づいて、前記ユーザのストレスを推定するストレス推定部を更に備える。
請求項１１又は請求項１２に記載の音情報処理装置。
前記音声特徴量に基づいて、感情認識を行う感情認識部を更に備える
請求項３〜請求項１３のいずれか１項に記載の音情報処理装置。
前記音声特徴量に基づいて、いびきを検出するいびき検出部を更に備える
請求項３〜請求項１３のいずれか１項に記載の音情報処理装置。
請求項１〜請求項１０のいずれか１項に記載の音情報処理装置と、
前記非音声特徴量に基づいて前記ユーザの行動状態を判定する第２行動状態判定部、前記音声特徴量に基づいて発話情報を算出する発話情報算出部、前記音声特徴量に基づいて感情認識を行う感情認識部、及び前記音声特徴量に基づいていびきを検出するいびき検出部の少なくとも１つを備えるホスト端末と、
を備える音情報処理システム。