JP2015080087A

JP2015080087A - 音声処理装置、音声処理方法、及びプログラム

Info

Publication number: JP2015080087A
Application number: JP2013216002A
Authority: JP
Inventors: 純也藤本; Junya Fujimoto; 桂樹岡林; Keiju Okabayashi
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-10-17
Filing date: 2013-10-17
Publication date: 2015-04-23
Anticipated expiration: 2033-10-17
Also published as: JP6194740B2

Abstract

【課題】環境音と提供する情報の音声との音量バランスを、周囲の音環境の変化に対応して制御する。
【解決手段】収音部は、環境音を収音する。音声取得部は、提供する情報の情報音を取得する。重畳比算出部は、前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する。重畳処理部は、前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう。出力部は、前記重畳する処理が行われた音声信号を出力する。
【選択図】図１

Description

本発明は、音声処理装置、音声処理方法、及びプログラムに関する。

昨今、人が通常の活動をしている際に、その行動や状態に合わせて人をアシストするような情報提供を行うことが考えられている。このような用途において、情報提供がある度に端末を取り出したり、端末に視線を向けたりすることは煩わしく感じる。そこで人の手や目を占有しないハンズフリー・アイズフリーなユーザインタフェースが必要と考えられている。

このようなインタフェースに用いることが考えられる音響技術において、情報提供を行うための音声の定位位置を変化させる方法が知られている。例えば、複数のスピーカの音圧レベル、発音時刻を変化させて音像の定位方向を変化させる方法、左右のチャンネル信号を夫々遅延する方法等が知られている（例えば、特許文献１〜３参照）。また、会話を検出すると、コンテンツ音声の音像の定位位置を任意の位置に移動させる方法や、仮想画像の視点を特定し、特定した視点に対応して音響を変える方法も知られている（例えば、特許文献４〜５参照）。さらに、会話を検出するための方法も知られている（例えば、特許文献６、非特許文献１参照）

特開２００１−１１２０８３号公報特開平８−２３７７９０号公報国際公開番号ＷＯ００／４５６１９号公報特開２０１１−９７２６８号公報特開平１０−１３７４４５号公報特開２００７−１７６２０号公報

日本音響学会講演論文集「ＶＡＤの信頼度を利用した雑音に頑健な音声認識デコーダの検討」、大西翼、ディクソン・ポール、岩野公司、古井貞煕著、ｐ．４９−５０（２００９年９月）

人の手や目を占有しないユーザインタフェースに用いる音響技術では、提供する情報の音声と周囲の環境音との音量バランスを、環境変化やユーザの状態に対応して調整することが望ましい場合がある。しかし、環境音の大きさは時々刻々と変化するため、手動で音量バランスの調節を行うことは困難である。また、上記のような、音響の音声の定位位置を変える従来の音響技術等では、実世界の状況との関連性が崩れてしまうことがあるとともに、提供する情報の音声と環境音との音量バランスを調整することはできない、という問題がある。

ひとつの側面によれば、本発明の目的は、環境音と提供する情報の音声との音量バランスを周囲の音環境の変化に対応して制御可能にすることである。

ひとつの態様である音声処理装置は、収音部、音声取得部、重畳比算出部、重畳処理部、出力部を有している。収音部は、環境音を収音する。音声取得部は、提供する情報の情報音を取得する。重畳比算出部は、前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する。重畳処理部は、前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう。出力部は、前記重畳する処理が行われた音声信号を出力する。

実施形態による音声処理装置、音声処理方法及びプログラムによれば、環境音と提供する情報の音声との音量バランスを、周囲の音環境の変化に対応して制御することが可能になる。

第１の実施の形態による音声処理システムのハードウエア構成の一例を示す図である。第１の実施の形態による音声処理装置の機能の一例を示すブロック図である。第１の実施の形態による音圧レベルの代表値を算出する方法を説明する図である。第１の実施の形態による音圧レベルの代表値を算出する方法を説明する図である。第１の実施の形態による音圧レベルの代表値を算出する方法を説明する図である。第１の実施の形態による音声処理システムの動作を示すフローチャートである。第２の実施の形態による音声処理システムの利用状況の一例を概念的に示す図である。第２の実施の形態による音声処理システムの構成の一例を示すブロック図である。第２の実施の形態による音声処理装置の機能の一例を示すブロック図である。第２の実施の形態による注視状態を説明する図である。第２の実施の形態による注視状態を検出するための機能の一例を示すブロック図である。第２の実施の形態による赤外線情報の一例を示す図である。第２の実施の形態による注視対象情報の一例を示す図である。第２の実施の形態による正面リストの一例を示す図である。第２の実施の形態による音声処理システムの主な動作を示すフローチャートである。第２の実施の形態の音声処理システムによる注視検出処理を示すフローチャートである。第３の実施の形態による音声処理装置の機能の一例を示すブロック図である。第３の実施の形態による音声処理システムの動作を示すフローチャートである。第３の実施の形態による音声処理システムの動作を示すフローチャートである。変形例による音声処理システムのハードウエア構成の一例を示す図である。標準的なコンピュータのハードウエア構成の一例を示す図である。

（第１の実施の形態）
以下、図面を参照しながら、第１の実施の形態による音声処理システム１について説明する。図１は、音声処理システム１のハードウエア構成の一例を示す図である。音声処理システム１は、提供する情報の音声（以下、情報音という）と、周囲の音声である環境音とを、周囲の音環境の変化に対応して自動的に調整されたバランスで重畳して提供するシステムである。図１に示すように、音声処理システム１は、音声処理装置２とマイクデバイス３０とを有している。

音声処理装置２は、環境音を取得し、情報音を環境音と重畳した音声信号を出力する装置であり、演算処理装置３、記憶部５、入力部２３、表示部２５、音声入出力部１５を有している。音声処理装置２は、例えば、多機能携帯電話、タブレット型コンピュータ、音楽再生装置などとすることができる。

演算処理装置３は、音声処理装置２の動作を制御するプロセッサである。演算処理装置３は、例えば記憶部５にあらかじめ記憶された制御プログラムを読み込んで実行することにより、音声処理装置２の動作を制御する処理を行う。

記憶部５は、例えば半導体メモリなどであり、ＲｅａｄＯｎｌｙＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＯＭ）７、ＲｏｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）９などを有している。記憶部５は、例えば、音声処理装置２の動作を制御する制御プログラム、音声処理装置２の動作に必要な各種情報や演算結果などを記憶する。

入力部２３は、情報を入力する装置であり、例えばタッチパネル、キーボードなどである。表示部２５は、情報を表示する装置であり、例えば、液晶表示装置などである。音声入出力部１５は、音声処理装置２に接続されるスピーカやイヤホンなどの音声出力装置に音声信号を出力したり、音声処理装置２に接続されるマイク等の音声取得装置からの音声信号の入力を受付けたりする装置である。

マイクデバイス３０は、イヤホン３２とマイク３４とを有しており、音声処理装置２と、有線または無線により接続されて、音声を授受する装置である。マイクデバイス３０は、例えばバイノーラルマイクデバイスである。イヤホン３２は、耳に装着することができ、音声処理装置２で生成された音声信号を音声として出力する装置である。マイク３４は、イヤホン３２と一体に形成されることが好ましく、環境音を収音し、音声処理装置２に音声信号として出力する装置である。

図２は、音声処理装置２の機能の一例を示すブロック図である。図２に示すように、音声処理装置２は、収音部４１、音声取得部４３、重畳比算出部４５、重畳処理部４７、出力部４９を有している。収音部４１は、例えばマイクデバイス３０から入力される環境音の音声信号を取得する。音声取得部４３は、音声処理装置２がマイクデバイス３０を介してユーザに提供する情報音を、例えば記憶部５などから取得する。重畳比算出部４５は、収音部４１で取得した環境音の音圧レベルと音声取得部４３で取得した情報音の音圧レベルとの差が予め決められた値になるように、環境音と情報音とを重畳する際の音圧の重畳比を算出する。重畳処理部４７は、音声取得部４３で算出された重畳比に応じて環境音と情報音とを重畳した音声信号を生成する。出力部４９は、重畳処理部４７で生成された音声信号を例えばマイクデバイス３０に出力する。

ここで、図３から図５を参照しながら、第１の実施の形態による重畳比算出部４５の動作について、さらに説明する。図３から図５は、音声信号に基づき、音圧レベルの代表値を算出する方法を説明する図である。図３から図５は、音圧レベルの代表値を異なる方法で算出する方法の一例を示す図である。図３から図５において、横軸は時刻、縦軸は音圧レベルを示す。

図３は、一定の白色雑音下のような音声信号の一例を示している。ここで、音圧レベルは、音の音声信号が複数チャンネルの信号を含む場合には、複数のチャンネルの信号の同一時刻における最大の音圧レベルとするようにしてもよい。

図３では、元の音圧レベルに対して、移動平均、加重平均、中央値を表している。移動平均とは、移動平均の算出対象時刻の過去の一定時間内の音圧レベルの時系列データの平均である。加重平均とは、加重平均の算出対象時刻の過去の一定時間内の音圧レベルの時系列データに、それぞれ所定の重み（係数）を掛けて加算し、算出した平均である。この例では、算出対象時刻に近い時刻の音圧レベルほど重みを大きくして算出している。中央値とは、中央値の算出対象時刻の過去の一定時間内の音圧レベルの時系列データを大小順に整列させたときの中央値である。

図３の例では、元の音圧レベルは時刻に対して音圧レベルの変動が大きいが、移動平均、加重平均、中央値は、それぞれ変動が緩和された音圧レベルとなっている。一定の白色雑音下のような状況において、どの代表値でも値の変化はおさえられているが、移動平均は他よりも変化が少なく安定している。

図４は、ある時刻以降、音圧レベルに増加があった例を示している。このように途中で環境が変わって音圧レベルが遷移するような場合には、変化に対して、加重平均、移動平均、中央値の順に追従が早くなっている。すなわち、加重平均が、他の算出方法より早く音圧レベルの増加に追従できているといえる。この傾向を代表値に反映するには、代表値として加重平均を採用することが好ましいと考えられる。

図５は、ある時刻に音圧レベルの急激な変化があった例を示している。このとき、音圧レベルの急激な変化に影響されないのは、中央値、移動平均、加重平均の順となる。このような突発的に大きな音が入ってきた状況において、中央値はほとんど変化が見られないが、他は引きずられて値が大きく変わってしまっていることが分かる。急激な変化は過渡的な現象である。よって、代表値としては、急激な変化に影響を受けない値が好ましいと考えられ、この場合、中央値を採用するのが好ましいと考えられる。

このように、音圧レベルの代表値の算出方法は複数考えられる。しかも、代表値の算出方法によって、有効な場面が異なる。例えば、異なる代表値には以下のような特徴があることが考えられる。
移動平均：白色雑音や周期性のある雑音環境下で有効
加重平均：環境変化に対する反応を早くしたいときなどに有効
中央値：突発的にとても大きな音が入るような環境下で有効

よって、代表値は、音圧レベルの時刻による変動の状況に応じた有効な方法で算出することが好ましい。とくに、例えば、予め図４や、図５のような状況が予測される場合には、それぞれの状況にあった代表値の算出方法を設定しておくこともできる。

本実施の形態においては、音声処理装置２は、収音部４１で収音された環境音の音圧レベルの時系列データの代表値Ｌｂと、ユーザに提供される情報音の音圧レベルの時系列データの代表値Ｌｃとを、設定された算出方法で算出する。

以下、図６を参照しながら、第１の実施の形態による音声処理システム１の動作についてさらに説明する。図６は、音声処理システム１の動作を示すフローチャートである。音声処理システム１による処理は、予め記憶された制御プログラムを演算処理装置３が読み込んで実行することにより行われる処理であるが、ここでは便宜上、図２に示した各機能が処理を行うとして説明する。

図６に示すように、まず重畳比算出部４５は、音圧レベル差の目標値Ｘを決定する（Ｓ６１）。ここで、音圧レベル差とは、環境音の音圧レベルの代表値Ｌｂ（以下、環境代表値Ｌｂという）と、情報音の音圧レベルの代表値Ｌｃ（以下、情報代表値Ｌｃという）との差である。音声処理装置２は、目標値Ｘを所望の値に設定し、環境代表値Ｌｂと情報代表値Ｌｃとの差が常に目標値Ｘと一致するように制御する。これにより、環境音と情報音とを重畳したときに、例えば、騒音のある環境で情報音を容易に聞き取れるようにしたり、話し声を情報音に優先して聞き取れるようにしたりすることができる。

収音部４１は、環境音情報をマイクデバイス３０から取得する（Ｓ６２）。音声取得部４３は、情報音の現在の音圧レベル値を不図示のバッファに格納する。収音部４１は、環境音の現在のレベル値を不図示のバッファに格納する（Ｓ６３）。さらに、音声取得部４３は、情報代表値Ｌｃを算出する。収音部４１は、環境代表値Ｌｂを算出する（Ｓ６４）。

ここで、各代表値を求める区間を決める時間Ｔは調整パラメータになる。一例として、代表値に移動平均を利用する際に、突発的な環境音の発生により重畳バランスが急激な変化とならないようにすることを考えると、時間Ｔは、次のように決定できる。

音圧レベルの弁別域は０．５（ｄＢ）〜１．０（ｄＢ）とされていることから、環境音の音圧レベルの移動平均値がＬであったときに音圧レベル差がＡ（ｄＢ）である突発的な音がｋ秒間継続した際に、移動平均値の変化が０．５（ｄＢ）以下となる最小の時間を求める。
｜｜｛Ｌ（Ｔ―ｋ）＋（Ｌ＋Ａ）ｋ｝／Ｔ―Ｌ｜｜≦０．５・・・（式１）

式１より下記の式２が得られる。
｜｜ｋＡ／Ｔ｜｜≦０．５・・・（式２）

ここで、例えばｋ＝１（秒）、Ａ＝３０（ｄＢ）とすると、Ｔ＝６０（秒）となる。つまり、時間Ｔ＝６０（秒）とすることで、平均的な環境音の音圧レベルより３０（ｄＢ）大きい音が１秒間発生しても、環境音の音圧レベルの平均値は０．５（ｄＢ）しか大きくならず、結果として重畳比Ｓもほとんど変化しない。

続いて、重畳比算出部４５は、情報代表値Ｌｃと環境代表値Ｌｂとの差分Ｙを求める（Ｓ６５）。重畳比算出部４５は、目標値Ｘと差分Ｙとの差分Ｚを求める（Ｓ６６）。さらに重畳比算出部４５は、情報音と環境音の音圧の配分比のデシベル表現が差分Ｚに一致するように、重畳比Ｓを求める（Ｓ６７）。

ここで、マイクデバイス３０で測定した環境音の音圧レベルの直近のＴ秒間の時系列データの代表値を環境代表値Ｌｂ、情報音の音圧レベルの直近のＴ秒間の時系列データの代表値を情報代表値Ｌｃとすると、音圧の重畳比Ｓは次の式３から求められる。
Ｘ−（Ｌｃ−Ｌｂ）＝２０ｌｏｇ（（１−Ｓ）／Ｓ）・・・（式３）

この式３は、目標とする音圧レベルの差Ｘと現在の平均音圧レベル差（Ｌｂ−Ｌｃ）とを比較して、足りない分を重畳比Ｓの調整により補うという考え方を示している。

重畳処理部４７は、マイクデバイス３０から取得した環境音と、音声取得部４３で取得した情報音の時系列データに基づき上記のように算出された重畳比Ｓにより環境音と情報音とを重畳し、出力音圧を決定する（Ｓ６８）。出力部４９は、求めた出力音圧に応じた音声信号を出力することにより、マイクデバイス３０により音声を再生させる（ステップ７０）。

ここで、ある瞬間の環境音の音圧をｐ_ｂ、情報音の音圧をｐ_ｃとすると、出力音圧ｐｏは、下記の式４で算出される。
ｐｏ＝Ｓｐ_ｂ＋（１−Ｓ）ｐ_ｃ・・・（式４）

ここでは、ユーザに提供されるコンテンツである情報音が快適に聞き取れるような音圧レベル差となるように調整することを考える。例えば、通常の会話の音圧レベルは６０（ｄＢ）、会議室の音圧レベルは４０（ｄＢ）とされていることから、情報音が環境音よりＸ＝２０（ｄＢ）大きくなるような目標値Ｘを設定する。

音声処理装置２では、例えば入力部２３などから終了指示がない場合には（Ｓ７０:ＮＯ）、Ｓ６２から処理を繰り返し、終了指示があった場合には（Ｓ７０:ＹＥＳ）、処理を終了する。

以上説明したように、第１の実施の形態による音声処理システム１によれば、収音部４１は、環境音を収音し、音声取得部４３は、情報音を取得する。重畳比算出部４５は、予め定められた算出方法で、環境代表値Ｌｂと情報代表値Ｌｃとを算出する。また、重畳比算出部４５は、環境代表値Ｌｂと、情報代表値Ｌｃとの差が、予め決められた目標値Ｘとなるような重畳比Ｓを算出する。重畳処理部４７は、算出された重畳比Ｓに基づき音声を合成する。出力部４９は、合成された音声を出力する。

以上のように、第１の実施の形態による音声処理システム１では、予め決められた目標値になるように、環境音と情報音との音圧レベル差を自動的に制御することができる。よって、カナル型のイヤホンのような耳を塞ぐデバイスを用いた場合に、ユーザの周囲の環境音が聞こえなくなることにより、周囲への注意不足や、会話ができないといった問題が生じることが防止できる。このように、環境音と情報音と重畳してマイクデバイス３０で再生することで、方向感や臨場感を保ったまま環境音もユーザに聞かせることができる。

環境音と情報音との重畳比を自動的に調整することが可能なので、状況にあった音量バランスを実現できる。すなわち、情報代表値と環境代表値との差の目標値Ｘを予め所望の値に設定することにより、環境音の音量が大きすぎて情報音に集中できなかったり、逆に環境音の音量が低すぎて周囲への注意不足になったりすることが防止される。しかも、重畳比の調整は自動で行えるので、ユーザが手動で音量バランスの調節をすることなく、時々刻々と変化する周囲の音環境に適した音量バランスを自動で保つことができ、ユーザの利便性が増す。情報音の音量と環境音の音量とを共に調整することにより、環境音を優先するといった制御も可能となる。

（第２の実施の形態）
次に、第２の実施の形態により音声処理システム１００について説明する。図７は、音声処理システム１００の利用状況の一例を概念的に示す図である。第２の実施の形態において、第１の実施の形態と同様の構成及び動作については同一番号を付し、重複説明を省略する。音声処理システム１００は、頭部デバイス１３０、音声処理装置２０、赤外線発生装置１２５を含んでいる。

音声処理システム１００は、音声処理システム１と同様に、環境音と情報音とを重畳して出力するシステムである。音声処理システム１では、音声処理装置２にマイクデバイス３０が接続されていたが、音声処理システム１００では、音声処理装置２０に頭部デバイス１３０が接続される。また、音声処理システム１００は、赤外線発生装置１２５を備えており、音声処理装置２０は、赤外線により自己の位置を計測することができる。

第２の実施の形態による音声処理システム１００では、ポスタ１１１、ポスタ１１３など、ユーザ１１０が注視することが期待される注視対象物体が存在する領域で用いられることが想定されている。よって、赤外線発生装置１２５は、例えば、ポスタ１１１の正面、ポスタ１１３の正面等の領域を照射することが好ましい。このとき、赤外線発生装置１２５は、ユーザ１１０の上方に相当する場所に設けられるようにしてもよい。これにより音声処理装置２０は、自己の位置として、例えば、ポスタ１１１の正面のある領域などの位置を検出することになる。

図８は、音声処理システム１００の構成の一例を示すブロック図である。図８に示すように、音声処理システム１００では、音声処理装置２０は、頭部デバイス１３０と、有線または無線により接続されている。音声処理装置２０のハードウエア構成は、第１の実施の形態による音声処理装置２と同様の構成とすることができる。音声処理装置２０は、赤外線発生装置１２５の位置情報を、赤外線位置情報ＤａｔａＢａｓｅ（ＤＢ）１４３から取得する。赤外線位置情報ＤＢ１４３は、予め音声処理装置２０の記憶部５に保持しておくようにしてもよいし、例えば、音声処理装置２０と通信ネットワークで接続可能な情報処理装置を介して取得するようにしてもよい。

頭部デバイス１３０は、イヤホン３２、マイク３４、マイコン１３５、加速度センサ１３７、ジャイロセンサ１３９、赤外線受光部１４１を有している。頭部デバイス１３０は、図７に示したように、例えば、ヘッドホンなどのようにユーザが頭部に装着した状態で音声を聞くことができる。また、頭部デバイス１３０は、環境音１２１、環境音１２３等をマイク３４で収音する。

加速度センサ１３７は、頭部デバイス１３０の加速度を検出する。加速度センサ１３７は、例えば３次元加速度センサとするようにしてもよい。ジャイロセンサ１３９は、頭部デバイス１３０の傾きを計測する。赤外線受光部１４１は、赤外線発生装置１２５からの赤外線を受光する。

マイコン１３５は、所定の処理を行うプログラムを実行可能な情報処理装置として機能する集積回路である。例えば、マイコン１３５は、音声処理装置２０から入力された音声信号を左右のイヤホン３２に分けて出力する。また、マイコン１３５は、マイク３４で取得した音声を音声処理装置２０に出力する。さらにマイコン１３５は、加速度センサ１３７により検出される加速度、ジャイロセンサ１３９により検出される角度、赤外線受光部１４１が受光した赤外線が発光された赤外線発光装置の識別情報などを音声処理装置２０に出力する。このとき、マイコン１３５は、赤外線受光部１４１の検出結果から、赤外線発生装置１２５の識別情報を解析するなど、所定の処理を行なうようにしてもよい。

図９は、音声処理装置２０の機能の一例を示すブロック図である。図９に示すように、音声処理装置２０は、音声処理装置２と同様に、収音部４１、音声取得部４３、重畳比算出部４５、重畳処理部４７、出力部４９を有している。音声処理装置２０は、さらに、立体音響処理部１５１、状態計測部１５３、状態検出部１５５、位置姿勢推定部１５７を有している。

状態計測部１５３は、例えば、頭部デバイス１３０の加速度センサ１３７、ジャイロセンサ１３９、赤外線受光部１４１からの検出結果を取得する。検出結果とは、例えば、加速度センサ１３７から得られる頭部デバイス１３０の加速度、ジャイロセンサ１３９から得られる頭部デバイス１３０の角度、赤外線受光部１４１から得られる頭部デバイス１３０の位置に対応する情報である。

位置姿勢推定部１５７は、状態計測部１５３が取得した検出結果から、ユーザの位置姿勢を推定する。ユーザの位置姿勢とは、頭部デバイス１３０の位置として得られるユーザ１１０の位置、頭部デバイス１３０の方向として得られるユーザ１１０の正面範囲１７３などである。頭部デバイス１３０の位置は、例えば赤外線受光部１４１の検出結果から得られる位置情報に、加速度センサ１３７から得られる加速度を積分して得られる位置の変化を加算することにより算出される。このとき例えば位置姿勢推定部１５７は、頭部デバイス１３０から取得した赤外線発生装置１２５の識別情報を赤外線位置情報ＤＢ１４３で参照し、対応する位置情報を取得する。赤外線位置情報ＤＢ１４３の詳細は後述する。頭部デバイス１３０の方向は、例えばジャイロセンサ１３９から得られる角度の情報を積分することにより算出される。

立体音響処理部１５１は、例えば音声取得部４３や収音部４１からの音声に対し、チャンネル数を変更したり、左右の音声の再生時刻や周波数特性を調整したりするなど、立体音響処理を行う。この処理には、例えば、特許文献１〜５のいずれかに記載の従来の音響処理等を利用することもできる。このような処理により、例えば、所望の位置に情報音１１５、情報音１１７の仮想的な発生位置を設定することもできる。よって、例えば情報音１１５をポスタ１１１の位置に設定し、情報音１１７をポスタ１１３の位置に設定するといったことも可能である。

状態検出部１５５は、状態計測部１５３で計測された情報から、ユーザの状態を検出する。例えば、ユーザが歩行しているか否かを、加速度センサ１３７から得られた加速度に基づき検出する。この検出方法は、歩数計等で一般に用いられている方法を利用することができる。別の例として、状態検出部１５５は、マイク３４で計測された情報から、ユーザ１１０の周囲で会話が行われているか否かを検出するようにしてもよい。会話が行われているか否かは、例えば、特許文献６、非特許文献１などに記載の方法により検出することができる。状態検出部１５５は、検出したユーザの状態を重畳比算出部４５に出力する。

重畳比算出部４５では、立体音響処理部１５１で処理された情報音と、収音部４１で収音された環境音とに対して、状態検出部１５５で検出されたユーザの状態に応じて重畳比Ｓを算出する。重畳比Ｓの算出は、第１の実施の形態と同様の方法を適用することができる。

本実施の形態では、さらにユーザの状態の一つとして注視状態を検出する。図１０は、注視状態を説明する図である。図１０に示すように、注視状態とは、例えば、情報音１１５を出力している物体等、注視対象候補となる物体が所定時間以上ユーザ１１０の推定された正面範囲１７３に基づく注視範囲１７１に入っていると判定される状態をいう。

以下、図１１から図１４を参照しながら、注視状態検出について説明する。図１１は、注視状態を検出するための機能の一例を示すブロック図である。図１１に示すように、音声処理装置２０は、状態計測部１５３として、頭部計測部１６３を有し、状態検出部１５５として対象位置取得部１６１、注視状態検出部１６５を有する。

図１２から図１４は、注視状態を検出するために用いる各種データのデータ構造の一例を示す図である。図１２は、赤外線情報１７５の一例を示す図、図１３は、注視対象情報１８０の一例を示す図、図１４は、正面リスト１８５の一例を示す図である。

図１２に示すように、赤外線情報１７５は、上述した赤外線位置情報ＤＢ１４３の内容であり、赤外線Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ（ＩＤ）１７７、位置情報１７８を有している。赤外線ＩＤ１７７は、赤外線発生装置１２５の識別情報である。位置情報１７８は、赤外線ＩＤ１７７に対応する赤外線発生装置１２５から出力された赤外線が検出されたときに、頭部デバイス１３０が存在している位置を示す情報である。

図１３に示すように、注視対象情報１８０は、注視対象ＩＤ１８２、位置情報１８３を有している。注視対象ＩＤ１８２は、ユーザ１１０の注視対象となる可能性のある物体の識別情報である。図７の例では、例えばポスタ１１１、ポスタ１１３等である。位置情報１８３は、注視対象ＩＤ１８２に対応する注視対象の位置を示す情報である。

図１４に示すように、正面リスト１８５は、注視候補ＩＤ１８７、検出時刻１８８を有している。注視候補ＩＤ１８７は、ユーザ１１０の注視範囲１７１に存在していると判定された、ユーザ１１０が注視していると推定される注視対象の識別情報である。検出時刻１８８は、注視候補ＩＤ１８７が注視範囲１７１に含まれていると検出された時刻である。

図１１に戻って、頭部計測部１６３は、頭部デバイス１３０からの加速度、角度、赤外線受光に関する情報を取得する。位置姿勢推定部１５７は、頭部計測部１６３からの情報に基づき、位置姿勢を推定する。位置姿勢とは、例えば、ユーザ１１０の位置、及びユーザ１１０の注視範囲１７１である。位置姿勢推定部１５７は、頭部計測部１６３で取得した赤外線発生装置１２５の識別情報を赤外線情報１７５における赤外線ＩＤ１７７で検索し、対応する位置情報１７８を取得することにより、ユーザ１１０の位置を取得する。位置姿勢推定部１５７は、頭部デバイス１３０から取得した加速度及び角度に基づき、例えば頭部デバイス１３０の姿勢を推定し、ユーザ１１０の正面範囲１７３を算出して注視範囲１７１を推定する。正面範囲１７３の角度範囲は、予め定めておくことができる。

対象位置取得部１６１は、注視対象情報１８０から、物体の位置情報１８３を取得する。注視状態検出部１６５は、位置姿勢推定部１５７で推定された注視範囲１７１に含まれる位置情報１８３があるか否かを判別する。注視範囲１７１に含まれる位置情報１８３がある場合には、注視状態検出部１６５は、位置情報１８３に対応する注視対象ＩＤ１８２と、検出された時刻とを、正面リスト１８５における注視候補ＩＤ１８７と検出時刻１８８として記憶させる。注視状態検出部１６５が、一定時間以上同一の注視候補ＩＤ１８７の物体が注視範囲１７１内にあると検出した場合に、ユーザ１１０は、注視状態であると判別される。

続いて、図１５、図１６を用いて、本実施の形態による音声処理システム１００の動作について説明する。図１５は、音声処理システム１００の主な動作を示すフローチャートである。図１６は、音声処理システム１００による注視検出処理を示すフローチャートである。音声処理システム１００による処理は、予め記憶された制御プログラムを演算処理装置３が読み込んで実行することにより行われる処理であるが、ここでは便宜上、図９または図１１に示した各機能が処理を行うとして説明する。また、第１の実施の形態と同様の処理については、詳細な説明を省略する。

図１５に示すように、まず重畳比算出部４５は、ユーザ状態に応じて音圧レベル差の目標値Ｘを決定する（Ｓ１９１）。本実施の形態では、状態検出部１５５がユーザや周囲の状態を検出している。ここでは、上述したように、例えば、以下の状態を検出することが可能である。
状態ａ）周囲で会話が行われている状態：以下、このときの目標値をＸａとし、この状態を会話状態という。
状態ｂ）ユーザ１１０が歩行している状態：以下、このときの目標値をＸｂとし、この状態を歩行状態という。
状態ｃ）ユーザ１１０が注視対象を注視している状態：以下、このときの目標値をＸｃとし、この状態を注視状態という。
状態ｄ）状態ａ）〜ｃ）が検出されていない状態：以下、このときの目標値をＸｄとし、この状態を通常状態という。

このとき目標Ｘａ〜Ｘｄの大きさとしては、状態によって下記の式５の大小関係とすることが考えられる。
Ｘａ＜Ｘｂ＜Ｘｄ＜Ｘｃ・・・（式５）

これらの目標値は、例えば予め記憶部５に記憶しておき、状態検出部１５５で各状態が検出された場合に、目標値を変更するようにしてもよい。なお、例えば初期値としてＸ＝Ｘｄと設定することもできる。

収音部４１は、環境音情報を頭部デバイス１３０から取得する（Ｓ１９２）。立体音響処理部１５１は、音声取得部４３からの音声に対し、左右の音声の再生時刻や周波数特性を調整するなど、立体音響処理を行い、重畳比算出部４５に出力する情報音を算出する（Ｓ１９３）。このとき、立体音響処理は、位置姿勢推定部１５７で推定された位置姿勢、及び状態検出部１５５で検出されたユーザの状態などに応じて、所望の位置から仮想的に発生する情報音を生成する処理としてもよい。このとき考慮されるユーザの状態の一つとして、注視状態が考えられる。注視状態の検出処理の詳細については後述する。

音声取得部４３は、情報音の現在の音圧レベル値を不図示のバッファに格納する。収音部４１は、環境音の現在のレベル値を不図示のバッファに格納する（Ｓ１９４）。さらに、音声取得部４３は、情報代表値Ｌｃを算出する。収音部４１は、環境代表値Ｌｂを算出する（Ｓ１９５）。ここで、各代表値を求める区間を決める時間Ｔは、第１の実施の形態と同様に決定されることが好ましい。

続いて、重畳比算出部４５は、情報代表値Ｌｃと環境代表値Ｌｂとの差分Ｙを求める（Ｓ１９６）。重畳比算出部４５は、目標値Ｘと差分Ｙとの差分Ｚを求める（Ｓ１９７）。さらに重畳比算出部４５は、情報音と環境音の音圧の配分比のデシベル表現が差分Ｚに一致するように、重畳比Ｓを求める（Ｓ１９８）。重畳比Ｓは、第１の実施の形態における算出方法と同様の方法で算出される。

重畳処理部４７は、頭部デバイス１３０で取得した環境音と、音声取得部４３で取得した情報音の時系列データに基づき算出された重畳比Ｓにより環境音と情報音とを重畳し、出力音圧を決定する（Ｓ１９９）。出力部４９は、例えば上述した式４により求めた出力音圧により音声信号を出力することにより、頭部デバイス１３０により音声を再生させる（ステップ２００）。

音声処理装置２０では、例えば入力部２３などから終了指示がない場合には（Ｓ２０１:ＮＯ）、Ｓ１９１から処理を繰り返し、終了指示があった場合には（Ｓ２０１:ＹＥＳ）、処理を終了する。

次に、注視状態の検出処理を図１６を参照しながら説明する。図１６に示すように、対象位置取得部１６１は、注視対象候補の位置情報を、例えば注視対象情報１８０から取得する（Ｓ２３１）。頭部計測部１６３は、頭部デバイス１３０からの検出結果を取得する。位置姿勢推定部１５７は、頭部計測部１６３の検出結果に基づき、ユーザ１１０の頭部位置姿勢を注視範囲１７１として推定する（Ｓ２３２）。

注視状態検出部１６５は、注視範囲１７１と注視対象情報１８０とを比較することにより位置情報１８３が注視範囲１７１に入っている注視対象候補を検出する（Ｓ２３３）。注視対象候補がいずれも注視範囲１７１に入っていない場合には（Ｓ２３３：ＮＯ）、注視状態検出部１６５は、正面リスト１８５から注視候補ＩＤ１８７及び検出時刻１８８を削除する（Ｓ２３４）。

Ｓ２３３で、注視対象候補が注視範囲１７１に入っている場合には（Ｓ２３３：ＹＥＳ）、注視状態検出部１６５は、注視対象候補が既に正面リスト１８５に含まれているか否かを判別する（Ｓ２３５）。含まれていない場合には（Ｓ２３５：ＮＯ）、注視状態検出部１６５は、正面リスト１８５に、現在の時刻と注視対象候補に対応する識別情報とを検出時刻１８８、注視候補ＩＤ１８７として記憶する。注視対象候補が既に正面リスト１８５に含まれている場合には（Ｓ２３５：ＹＥＳ）、正面リスト１８５に記録されている時刻と、現在の時刻とを比較し、一定時間経過していれば、ユーザ１１０は注視状態であると判定し（ステップ２３７）、図１５のＳ１９３の処理に戻る。

以上説明したように、第２の実施の形態による音声処理システム１００によれば、収音部４１は、環境音を収音し、音声取得部４３は、情報音を取得する。状態検出部１５５は、頭部デバイス１３０で検出された情報に基づき、例えば、会話状態、歩行状態、注視状態を検出する。重畳比算出部４５は、環境代表値Ｌｂと、情報代表値Ｌｃとの差が、検出された状態に応じて予め決められた目標値Ｘａ〜Ｘｄとなるような重畳比Ｓを算出する。重畳比算出部４５は、予め定められた算出方法で、環境代表値Ｌｂと情報代表値Ｌｃとを算出する。

重畳比算出部４５は、環境代表値Ｌｂと、情報代表値Ｌｃとの差が、予め決められた目標値Ｘとなるように、重畳比Ｓを算出する。重畳処理部４７は、算出された重畳比Ｓに基づき音声を合成する。出力部４９は、合成された音声を出力する。注視状態の場合には、立体音響処理部１５１により、注視していると推定される物体から情報音が発生しているように音響処理を行うことが好ましい。

以上のように、第１の実施の形態による音声処理システム１００では、予め決められた目標値になるように、環境音と情報音との音圧レベル差を自動的に制御することができる。よって、カナル型のイヤホンのような耳を塞ぐデバイスを用いた場合に、ユーザの周囲の環境音が聞こえなくなることにより、周囲への注意不足や、会話ができないといった問題が生じることが防止できる。このとき、環境音と情報音と重畳して頭部デバイス１３０で再生することで、方向感や臨場感を保ったまま環境音もユーザに聞かせることができる。

さらに、例えば会話状態を検出した場合には、環境音を情報音に比べて大きくすることもでき、積極的に環境音をユーザに聞かせ、会話を可能にすることができる。歩行状態を検出した場合には、会話状態よりは小さいながら、通常状態よりは環境音を大きくすることで、安全に配慮することができる。注視状態が検出された場合には、通常状態よりも情報音を大きくして、情報を積極的に提供することもできる。

このように、重畳比の調整は自動で行えるので、ユーザが手動で音量バランスの調節をすることなく、時々刻々と変化する周囲の音環境に適した音量バランスを自動で保つことができ、ユーザの利便性が増す。情報音の音量と環境音の音量とを共に調整することにより、環境音を優先するといった制御も可能となる。

さらに、位置姿勢推定部１５７が推定したユーザの位置姿勢に応じて立体音響処理部１５１により人が身につけたイヤホン３２から出力される音情報を加工し、人の周囲の任意の位置・方向から聞こえてくるように仮想的な音源位置を設定することができる。このように、人の頭部の位置・姿勢を検出することで、周囲環境に音源位置が固定されているようにリアルタイムに調整することが可能となる。これにより、あたかも実世界の環境中に音源があるかのように人に感じさせる音声ＡｒｇｕｍｅｎｔｅｄＲｅａｒｉｔｙ（ＡＲ）を実現できる。

この音声ＡＲを利用すると、ハンズフリー・アイズフリーな情報提供を実現できる。この音声ＡＲを利用したユーザインタフェースの適用例として、図７に示したように展示会などの会場において、ユーザの周囲にある各展示物の位置情報に応じた音響処理を行うことができる。例えば、展示物に関する説明音声に、その展示物の方から音声が出力されているような処理が可能である。このような処理により、ユーザが興味ある展示を探しやすくような案内を行うことも考えられる。

（第３の実施の形態）
以下、第３の実施の形態による音声処理システムについて説明する。第３の実施の形態において、第１または第２の実施の形態と同様の構成及び動作については同一番号を付し、重複説明を省略する。

第３の実施の形態による音声処理システムは、第２の実施の形態による音声処理システム２４０と同様のハードウエア構成とすることができる。第３の実施の形態による音声処理システムは、音声処理システム１００において、音声処理装置２０に代えて音声処理装置２５０を有しており、代表値算出方法の切替機能を有する例である。

図１７は、音声処理装置２５０の機能の一例を示すブロック図である。図１７に示すように、音声処理装置２５０は、音声処理装置２０と同様に、収音部４１、音声取得部４３、重畳比算出部４５、重畳処理部４７、出力部４９、立体音響処理部１５１、状態計測部１５３、状態検出部１５５、位置姿勢推定部１５７を有している。音声処理装置２５０は、さらに、代表値切替部２５１を有している。

代表値切替部２５１は、音圧レベルの時系列データの代表値の算出方法を切替える。具体的には、第１の実施の形態において説明した移動平均、加重平均、中央値を、各代表値が有効な状況に応じて採用することが考えられる。

第１の実施の形態において、各代表値が有効な状況について以下のように説明した。
移動平均：白色雑音や周期性のある雑音環境下で有効
加重平均：環境変化に対する反応を早くしたいときなどに有効
中央値：突発的にとても大きな音が入るような環境下で有効

具体的には、各代表値が有効な状況の例として次のような状況が考えられる。
移動平均：データセンタのような、空調やファンの音が一定量のノイズになる場合等
加重平均：工事現場など、騒音レベルが断続的に変化する場合等
中央値：オフィスでドア開閉音が大きい場合、スポーツで打撃音が大きい場合等

第１及び第２の実施の形態においては、代表値の算出方法は予め定めておいた算出方法を常に用いるとしたが、本実施の形態においては、代表値切替部２５１は、例えば、過去の環境音の分布を解析し、用いる代表値の算出方法を自動で切り替える。

図１８、図１９は、第３の実施の形態による音声処理システムの動作を示すフローチャートである。第３の実施の形態による音声処理システムによる処理は、予め記憶された制御プログラムを演算処理装置３が読み込んで実行することにより行われる処理であるが、ここでは便宜上、図１７に示した各機能が処理を行うとして説明する。また、第１または第２の実施の形態と同様の処理については、詳細な説明を省略する。

図１８に示すように、まず重畳比算出部４５は、ユーザ状態に応じて音圧レベル差の目標値Ｘを決定する（Ｓ２８１）。本実施の形態では、第２の実施の形態と同様、状態検出部１５５がユーザや周囲の状態を検出している。ここでは、上述したように、目標値Ｘａ〜Ｘｄを切替えることが好ましい。これらの目標値は、例えば予め記憶部５に記憶しておき、状態検出部１５５で各状態が検出された場合に、目標値を変更することが好ましい。

収音部４１は、環境音情報を頭部デバイス１３０から取得する（Ｓ２８２）。立体音響処理部１５１は、音声取得部４３からの音声に対し、頭部デバイス１３０で得られた頭部などの位置姿勢に応じて左右の音声の再生時刻や周波数特性を調整するなど、立体音響処理を行い、重畳比算出部４５に出力する情報音を算出する（Ｓ２８３）。このとき、立体音響処理は、位置姿勢推定部１５７で推定された位置姿勢及び状態検出部１５５で検出されたユーザの状態などに応じて、所望の位置から仮想的に発生する情報音を生成する処理としてもよい。このとき考慮されるユーザの状態の一つとして、第２の実施の形態において説明した注視検出を行うようにしてもよい。音声取得部４３は、情報音の現在音圧レベル値を不図示のバッファに格納する。収音部４１は、環境音の現在のレベル値を不図示のバッファに格納する（Ｓ２８４）。

ここで、各時刻で重畳バランスの算出を行う前に、代表値切替部２５１は、マイク３４で取得した過去一定時間の環境音の音圧レベルの時系列データを分析し、データの分布が正規分布に近いかどうかを判定する（Ｓ２８５）。判定方法としては、時系列データの歪度や尖度を用いるジャック−ベラ検定等の検定方法を用いる。正規分布に近いと判定された場合は（Ｓ２８５：ＹＥＳ）、代表値切替部２５１は、代表値に移動平均を用いる（Ｓ２８６）。正規分布に近いと判定されなかった場合には（Ｓ２８５：ＮＯ）、代表値切替部２５１は、代表値に中央値を用いる（Ｓ２８７）。

音声取得部４３は、代表値切替部２５１で設定された算出方法に基づき、情報代表値Ｌｃ、および環境代表値Ｌｂを算出する（Ｓ２８８）。ここで、各代表値を求める区間を決める時間Ｔは、第１の実施の形態と同様に決定されることが好ましい。

図１９に示すように、重畳比算出部４５は、情報代表値Ｌｃと環境代表値Ｌｂとの差分Ｙを求める（Ｓ２８９）。重畳比算出部４５は、目標値Ｘと差分Ｙとの差分Ｚを求める（Ｓ２９０）。さらに重畳比算出部４５は、情報音と環境音の配分比のデシベル表現が差分Ｚに一致するように、重畳比Ｓを求める（Ｓ２９１）。音圧の重畳比Ｓは、上述した式３から求められる。

重畳処理部４７は、頭部デバイス１３０で取得した環境音と、音声取得部４３で取得した情報音との時系列データに基づき算出された重畳比Ｓにより環境音と情報音とを重畳し、出力音圧を決定する（Ｓ２９２）。出力部４９は、例えば上述した式４により求めた出力音圧により音声信号を出力することにより、頭部デバイス１３０により音声を再生させる（ステップ２９３）。

音声処理装置２５０では、例えば入力部２３などから終了指示がない場合には（Ｓ２９４:ＮＯ）、Ｓ２８１から処理を繰り返し、終了指示があった場合には（Ｓ２９４:ＹＥＳ）、処理を終了する。

以上説明したように、第３の実施の形態による音声処理システムによれば、収音部４１は、環境音を収音し、音声取得部４３は、情報音を取得する。状態検出部１５５は、頭部デバイス１３０で検出された情報に基づき、例えば、会話状態、歩行状態、注視状態を検出する。重畳比算出部４５は、状態検出部１５５で検出された状態に応じて、目標値Ｘａ〜Ｘｄのいずれかを目標値として設定する。

本実施の形態では、代表値切替部２５１は、過去の環境音の時系列データを解析し、時系列データの分布が正規分布に近い場合には、代表値として移動平均を用いる。このとき、環境代表値Ｌｂを移動平均により求めるが、例えば情報代表値Ｌｃは、予め定められた方法で求めるようにしてもよい。

重畳比算出部４５は、環境代表値Ｌｂと、情報代表値Ｌｃとの差が、予め決められた目標値Ｘとなるように、重畳比Ｓを算出する。重畳処理部４７は、算出された重畳比Ｓに基づき音声を合成する。出力部４９は、合成された音声を出力する。このとき、目標値Ｘを、注視状態の場合には、立体音響処理部１５１により、注視していると推定される物体から情報音が発生しているように音響処理を行うこともできる。

以上のように、第３の実施の形態による音声処理システムでは、第２の実施の形態による音声処理システム１００が奏する効果に加え、周囲の音環境により適した方法に切替えて音圧レベルの代表値を算出することが可能になる。よって、例えば、通常は突発音に大きく左右されないように中央値を用いるが、突発音がほとんどなく雑音がホワイトノイズに近い環境に移動した際に、より安定的な移動平均に自動的に切り替える等、より柔軟な対応が可能になる。また、時々刻々と変わる環境に対応する一方で、突発的な環境音の変化に過敏に反応してバランスが大きく変更されることがないようにする効果がある。

（変形例）
以下、変形例による音声処理システム２４０について説明する。変形例は、例えば、第１から第３の実施の形態による音声処理システムの変形例である。音声処理システム２４０は、音声処理装置２４２及びマイクデバイス３０を有している。音声処理装置２４２は、音声処理システム１の音声処理装置２に、音声処理システム１００の頭部デバイス１３０が有する一部の機能等を追加した例である。本変形例において、第１から第３の実施の形態と同様の構成及び動作については同一番号を付し、重複説明を省略する。

図２０は、音声処理システム２４０のハードウエア構成の一例を示す図である。音声処理装置２４２は、情報音を環境音と重畳して出力する装置であり、第１から第３の実施の形態による音声処理装置２、２０と同様に、演算処理装置３、記憶部５、入力部２３、表示部２５、音声入出力部１５を有している。

音声処理装置２４２は、さらに、通信部１１、アンテナ１３、加速度センサ２４５、ジャイロセンサ２４７を有している。通信部１１は、音声処理装置２４２の外部との情報の送受信の処理を行う。アンテナ１３は、無線により電磁波を送受信する。加速度センサ２４５は、音声処理装置２４２の加速度を検出する。加速度センサ２４５は、例えば３次元加速度センサとすることができる。ジャイロセンサ２４７は、音声処理装置２４２の角度を検出する。音声処理装置２４２の機能構成は、第２の実施の形態による音声処理装置２０または第３の実施の形態による音声処理装置２５０と同様とすることができる。

本変形例では、加速度センサ２４５、ジャイロセンサ２４７による検出結果に基づき、音声処理装置２０と同様にユーザ１１０の歩行状態を検出することができる。また、マイクデバイス３０のマイク３４で収音された結果に基づき、音声処理装置２０または音声処理装置２５０と同様に会話状態を検出することができる。さらに、通信部１１、アンテナ１３を介して、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）を利用して、自己の位置を取得することができる。さらに、加速度センサ２４５、ジャイロセンサ２４７による検出結果を利用することにより、第２または第３の実施の形態と同様に注視状態の判別も行うことができる。

よって、第２または第３の実施の形態による音声処理システムと同様に、音声処理システム２４０は、ユーザ１１０の状態に適した重畳比で環境音と情報音とを重畳して出力することが可能である。

以上説明したように、変形例による音声処理システム２４０によれば、第２または第３の実施の形態による音声処理装置２０、または音声処理装置２５０と同様の効果を奏することができる。さらに、この構成を用いれば、赤外線発生装置１２５は不要となるので、ＧＰＳが利用可能な場所であれば、音声処理システム２４０を利用することができる。

ここで、上記第１から第３の実施の形態及び変形例による音声処理方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図２１は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図２１に示すように、コンピュータ３００は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）３０２、メモリ３０４、入力装置３０６、出力装置３０８、外部記憶装置３１２、媒体駆動装置３１４、ネットワーク接続装置等がバス３１０を介して接続されている。

ＣＰＵ３０２は、コンピュータ３００全体の動作を制御する演算処理装置である。メモリ３０４は、コンピュータ３００の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ３０４は、例えばＲＡＭ、ＲＯＭ等である。入力装置３０６は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をＣＰＵ３０２に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置３０８は、コンピュータ３００による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、ＣＰＵ３０２により送付される表示データに応じてテキストや画像を表示する。

外部記憶装置３１２は、例えば、ハードディスクなどの記憶装置であり、ＣＰＵ３０２により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置３１４は、可搬記録媒体３１６に書き込みおよび読み出しを行うための装置である。ＣＰＵ３０２は、可搬記録媒体３１６に記録されている所定の制御プログラムを、媒体駆動装置３１４を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体３１６は、例えばＣｏｍｐａｃｔＤｉｓｃ（ＣＤ）−ＲＯＭ、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ（ＵＳＢ）メモリ等である。ネットワーク接続装置３１８は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。バス３１０は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。

上記第１から第３の実施の形態及び変形例による音声処理方法をコンピュータに実行させるプログラムは、例えば外部記憶装置３１２に記憶させる。ＣＰＵ３０２は、外部記憶装置３１２からプログラムを読み出し、コンピュータ３００に音声処理の動作を行なわせる。このとき、まず、音声処理の処理をＣＰＵ３０２に行わせるための制御プログラムを作成して外部記憶装置３１２に記憶させておく。そして、入力装置３０６から所定の指示をＣＰＵ３０２に与えて、この制御プログラムを外部記憶装置３１２から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体３１６に記憶するようにしてもよい。

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、状態検出部１５５が検出するユーザの状態は、上記４つの状態（会話状態、歩行状態、注視状態、通常状態）に限定されない。また、４つの状態のうちのいくつかのみを検出可能な音声処理システムとしてもよい。ユーザの状態の検出方法も上記に限定されない。同様の状態が検出できれば、別の方法を採用することもできる。例えば、頭部デバイス１３０に地磁気センサを設置し、地磁気センサの検出結果に基づき、頭部デバイス１３０の姿勢を推定するようにしてもよい。

情報音は、音声処理装置２等に予め記憶しておくようにしたが、音声処理装置２等と通信可能な別の情報処理装置から取得する等、変形は可能である。赤外線情報１７５、注視対象情報１８０などについても、別の情報処理装置から取得するようにしてもよい。また、ユーザ１１０が携帯可能な音声処理装置で、音声の再生や環境音、ユーザ状態の取得のみを行い、その他の処理を別の情報処理装置で行う、などの変形も可能である。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
環境音を収音する収音部と、
提供する情報の情報音を取得する音声取得部と、
前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する重畳比算出部と、
前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう重畳処理部と、
前記重畳する処理が行われた音声信号を出力する出力部と、
を有することを特徴とする音声処理装置。
（付記２）
前記第１の代表値及び前記第２の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、中央値のいずれかであることを特徴とする付記１に記載の音声処理装置。
（付記３）
ユーザの状態を検出する状態検出部
をさらに有し、
前記状態検出部は、前記環境音に会話が含まれているか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記会話を検出した場合には、前記第１の所定値に代えて、前記第１の所定値よりも小さい第２の所定値に基づき前記重畳比を算出する
ことを特徴とする付記１または付記２に記載の音声処理装置。
（付記４）
ユーザの状態を検出する状態検出部
をさらに有し、
前記状態検出部は、前記ユーザが歩行状態であるか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記歩行状態を検出した場合には、前記第１の所定値に代えて、前記第１の所定値よりも小さく、前記状態検出部が前記環境音に会話が含まれていることを検出した場合の第２の所定値よりも大きい第３の所定値に基づき前記重畳比を算出する
ことを特徴とする付記１または付記２に記載の音声処理装置。
（付記５）
ユーザの状態を検出する状態検出部と
前記情報音と関連する対象物の位置を取得する対象位置取得部、
をさらに有し、
前記状態検出部は、前記ユーザが前記対象物の位置を注視しているか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記対象物の位置を注視している状態を検出した場合には、前記第１の所定値よりも大きい第４の所定値に基づき前記重畳比を算出する
ことを特徴とする付記１または付記２に記載の音声処理装置。
（付記６）
前記環境音の過去一定時間の分布が正規分布に近いと判別された場合には、前記第１の代表値及び前記第２の代表値は、それぞれの音圧レベルの時系列データの移動平均とし、そうでない場合には中央値とする代表値切替部
をさらに有することを特徴とする付記１から付記５のいずれかに記載の音声処理装置。
（付記７）
音声処理装置が、
環境音を収音し、
提供する情報の情報音を取得し、
前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
前記重畳比に基づき前記情報音と前記環境音とを重畳し、
前記重畳する処理が行われた音声信号を出力する、
ことを特徴とする音声処理方法。
（付記８）
前記第１の代表値及び前記第２の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、または中央値であることを特徴とする付記９に記載の音声処理方法。
（付記９）
会話を検出した場合には、前記第１の所定値に代えて、前記第１の所定値よりも小さい第２の所定値に基づき前記重畳比を算出する
ことを特徴とする付記７または付記８に記載の音声処理方法。
（付記１０）
歩行状態を検出した場合には、前記第１の所定値に代えて、前記第１の所定値よりも小さく、前記状態検出部が前記環境音に会話が含まれていることを検出した場合の第２の所定値よりも大きい第３の所定値に基づき前記重畳比を算出する
ことを特徴とする付記７または付記８に記載の音声処理方法。
（付記１１）
前記情報音と関連する対象物の位置を取得し、
ユーザが前記対象物の位置を注視しているか否かを検出し、
前記対象物の位置が注視されている状態を検出した場合には、前記第１の所定値よりも大きい第４の所定値に基づき前記重畳比を算出する
ことを特徴とする付記７または付記８に記載の音声処理装置。
（付記１２）
前記環境音の過去一定時間の分布が正規分布に近いと判別された場合には、前記第１の代表値及び前記第２の代表値は、それぞれの音圧レベルの時系列データの移動平均とし、そうでない場合には中央値とする
をさらに有することを特徴とする付記７または付記８に記載の音声処理装置。
（付記１３）
環境音を収音し、
提供する情報の情報音を取得し、
前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
前記重畳比に基づき前記情報音と前記環境音とを重畳し、
前記重畳する処理が行われた音声信号を出力する、
処理をコンピュータに実行させるプログラム。
（付記１４）
前記第１の代表値及び前記第２の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、または中央値であることを特徴とする付記１３に記載のプログラム。
（付記１５）
会話を検出した場合には、前記第１の所定値に代えて、前記第１の所定値よりも小さい第２の所定値に基づき前記重畳比を算出する
ことを特徴とする付記１３または付記１４に記載のプログラム。

１音声処理システム
２音声処理装置
３演算処理装置
５記憶部
７ＲＯＭ
９ＲＡＭ
１１通信部
１３アンテナ
１５音声入出力部
２３入力部
２５表示部
３０マイクデバイス
３２イヤホン
３４マイク

Claims

環境音を収音する収音部と、
提供する情報の情報音を取得する音声取得部と、
前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する重畳比算出部と、
前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう重畳処理部と、
前記重畳する処理が行われた音声信号を出力する出力部と、
を有することを特徴とする音声処理装置。
前記第１の代表値及び前記第２の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、中央値のいずれかであることを特徴とする付記１に記載の音声処理装置。
ユーザの状態を検出する状態検出部
をさらに有し、
前記状態検出部は、前記環境音に会話が含まれているか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記会話を検出した場合には、前記第１の所定値に代えて、前記第１の所定値よりも小さい第２の所定値に基づき前記重畳比を算出する
ことを特徴とする付記１または付記２に記載の音声処理装置。
ユーザの状態を検出する状態検出部
をさらに有し、
前記状態検出部は、前記ユーザが歩行状態であるか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記歩行状態を検出した場合には、前記第１の所定値に代えて、前記第１の所定値よりも小さく、前記状態検出部が前記環境音に会話が含まれていることを検出した場合の第２の所定値よりも大きい第３の所定値に基づき前記重畳比を算出する
ことを特徴とする付記１または付記２に記載の音声処理装置。
ユーザの状態を検出する状態検出部と
前記情報音と関連する対象物の位置を取得する対象位置取得部、
をさらに有し、
前記状態検出部は、前記ユーザが前記対象物の位置を注視しているか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記対象物の位置を注視している状態を検出した場合には、前記第１の所定値よりも大きい第４の所定値に基づき前記重畳比を算出する
ことを特徴とする付記１または付記２に記載の音声処理装置。
前記環境音の過去一定時間の分布が正規分布に近いと判別された場合には、前記第１の代表値及び前記第２の代表値は、それぞれの音圧レベルの時系列データの移動平均とし、そうでない場合には中央値とする代表値切替部
をさらに有することを特徴とする付記１から付記５のいずれかに記載の音声処理装置。
音声処理装置が、
環境音を収音し、
提供する情報の情報音を取得し、
前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
前記重畳比に基づき前記情報音と前記環境音とを重畳し、
前記重畳する処理が行われた音声信号を出力する、
ことを特徴とする音声処理方法。
環境音を収音し、
提供する情報の情報音を取得し、
前記情報音の音圧レベルの時系列データの第１の代表値と前記環境音の音圧レベルの時系列データの第２の代表値との差と、第１の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
前記重畳比に基づき前記情報音と前記環境音とを重畳し、
前記重畳する処理が行われた音声信号を出力する、
処理をコンピュータに実行させるプログラム。