JP2015080087A - 音声処理装置、音声処理方法、及びプログラム - Google Patents

音声処理装置、音声処理方法、及びプログラム Download PDF

Info

Publication number
JP2015080087A
JP2015080087A JP2013216002A JP2013216002A JP2015080087A JP 2015080087 A JP2015080087 A JP 2015080087A JP 2013216002 A JP2013216002 A JP 2013216002A JP 2013216002 A JP2013216002 A JP 2013216002A JP 2015080087 A JP2015080087 A JP 2015080087A
Authority
JP
Japan
Prior art keywords
sound
information
environmental
representative value
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013216002A
Other languages
English (en)
Other versions
JP6194740B2 (ja
Inventor
純也 藤本
Junya Fujimoto
純也 藤本
桂樹 岡林
Keiju Okabayashi
桂樹 岡林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013216002A priority Critical patent/JP6194740B2/ja
Publication of JP2015080087A publication Critical patent/JP2015080087A/ja
Application granted granted Critical
Publication of JP6194740B2 publication Critical patent/JP6194740B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】環境音と提供する情報の音声との音量バランスを、周囲の音環境の変化に対応して制御する。
【解決手段】収音部は、環境音を収音する。音声取得部は、提供する情報の情報音を取得する。重畳比算出部は、前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する。重畳処理部は、前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう。出力部は、前記重畳する処理が行われた音声信号を出力する。
【選択図】図1

Description

本発明は、音声処理装置、音声処理方法、及びプログラムに関する。
昨今、人が通常の活動をしている際に、その行動や状態に合わせて人をアシストするような情報提供を行うことが考えられている。このような用途において、情報提供がある度に端末を取り出したり、端末に視線を向けたりすることは煩わしく感じる。そこで人の手や目を占有しないハンズフリー・アイズフリーなユーザインタフェースが必要と考えられている。
このようなインタフェースに用いることが考えられる音響技術において、情報提供を行うための音声の定位位置を変化させる方法が知られている。例えば、複数のスピーカの音圧レベル、発音時刻を変化させて音像の定位方向を変化させる方法、左右のチャンネル信号を夫々遅延する方法等が知られている(例えば、特許文献1〜3参照)。また、会話を検出すると、コンテンツ音声の音像の定位位置を任意の位置に移動させる方法や、仮想画像の視点を特定し、特定した視点に対応して音響を変える方法も知られている(例えば、特許文献4〜5参照)。さらに、会話を検出するための方法も知られている(例えば、特許文献6、非特許文献1参照)
特開2001−112083号公報 特開平8−237790号公報 国際公開番号WO00/45619号公報 特開2011−97268号公報 特開平10−137445号公報 特開2007−17620号公報
日本音響学会講演論文集 「VADの信頼度を利用した雑音に頑健な音声認識デコーダの検討」、大西翼、ディクソン・ポール、岩野公司、古井貞煕著、p.49−50(2009年9月)
人の手や目を占有しないユーザインタフェースに用いる音響技術では、提供する情報の音声と周囲の環境音との音量バランスを、環境変化やユーザの状態に対応して調整することが望ましい場合がある。しかし、環境音の大きさは時々刻々と変化するため、手動で音量バランスの調節を行うことは困難である。また、上記のような、音響の音声の定位位置を変える従来の音響技術等では、実世界の状況との関連性が崩れてしまうことがあるとともに、提供する情報の音声と環境音との音量バランスを調整することはできない、という問題がある。
ひとつの側面によれば、本発明の目的は、環境音と提供する情報の音声との音量バランスを周囲の音環境の変化に対応して制御可能にすることである。
ひとつの態様である音声処理装置は、収音部、音声取得部、重畳比算出部、重畳処理部、出力部を有している。収音部は、環境音を収音する。音声取得部は、提供する情報の情報音を取得する。重畳比算出部は、前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する。重畳処理部は、前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう。出力部は、前記重畳する処理が行われた音声信号を出力する。
実施形態による音声処理装置、音声処理方法及びプログラムによれば、環境音と提供する情報の音声との音量バランスを、周囲の音環境の変化に対応して制御することが可能になる。
第1の実施の形態による音声処理システムのハードウエア構成の一例を示す図である。 第1の実施の形態による音声処理装置の機能の一例を示すブロック図である。 第1の実施の形態による音圧レベルの代表値を算出する方法を説明する図である。 第1の実施の形態による音圧レベルの代表値を算出する方法を説明する図である。 第1の実施の形態による音圧レベルの代表値を算出する方法を説明する図である。 第1の実施の形態による音声処理システムの動作を示すフローチャートである。 第2の実施の形態による音声処理システムの利用状況の一例を概念的に示す図である。 第2の実施の形態による音声処理システムの構成の一例を示すブロック図である。 第2の実施の形態による音声処理装置の機能の一例を示すブロック図である。 第2の実施の形態による注視状態を説明する図である。 第2の実施の形態による注視状態を検出するための機能の一例を示すブロック図である。 第2の実施の形態による赤外線情報の一例を示す図である。 第2の実施の形態による注視対象情報の一例を示す図である。 第2の実施の形態による正面リストの一例を示す図である。 第2の実施の形態による音声処理システムの主な動作を示すフローチャートである。 第2の実施の形態の音声処理システムによる注視検出処理を示すフローチャートである。 第3の実施の形態による音声処理装置の機能の一例を示すブロック図である。 第3の実施の形態による音声処理システムの動作を示すフローチャートである。 第3の実施の形態による音声処理システムの動作を示すフローチャートである。 変形例による音声処理システムのハードウエア構成の一例を示す図である。 標準的なコンピュータのハードウエア構成の一例を示す図である。
(第1の実施の形態)
以下、図面を参照しながら、第1の実施の形態による音声処理システム1について説明する。図1は、音声処理システム1のハードウエア構成の一例を示す図である。音声処理システム1は、提供する情報の音声(以下、情報音という)と、周囲の音声である環境音とを、周囲の音環境の変化に対応して自動的に調整されたバランスで重畳して提供するシステムである。図1に示すように、音声処理システム1は、音声処理装置2とマイクデバイス30とを有している。
音声処理装置2は、環境音を取得し、情報音を環境音と重畳した音声信号を出力する装置であり、演算処理装置3、記憶部5、入力部23、表示部25、音声入出力部15を有している。音声処理装置2は、例えば、多機能携帯電話、タブレット型コンピュータ、音楽再生装置などとすることができる。
演算処理装置3は、音声処理装置2の動作を制御するプロセッサである。演算処理装置3は、例えば記憶部5にあらかじめ記憶された制御プログラムを読み込んで実行することにより、音声処理装置2の動作を制御する処理を行う。
記憶部5は、例えば半導体メモリなどであり、Read Only Access Memory(ROM)7、Rondom Access Memory(RAM)9などを有している。記憶部5は、例えば、音声処理装置2の動作を制御する制御プログラム、音声処理装置2の動作に必要な各種情報や演算結果などを記憶する。
入力部23は、情報を入力する装置であり、例えばタッチパネル、キーボードなどである。表示部25は、情報を表示する装置であり、例えば、液晶表示装置などである。音声入出力部15は、音声処理装置2に接続されるスピーカやイヤホンなどの音声出力装置に音声信号を出力したり、音声処理装置2に接続されるマイク等の音声取得装置からの音声信号の入力を受付けたりする装置である。
マイクデバイス30は、イヤホン32とマイク34とを有しており、音声処理装置2と、有線または無線により接続されて、音声を授受する装置である。マイクデバイス30は、例えばバイノーラルマイクデバイスである。イヤホン32は、耳に装着することができ、音声処理装置2で生成された音声信号を音声として出力する装置である。マイク34は、イヤホン32と一体に形成されることが好ましく、環境音を収音し、音声処理装置2に音声信号として出力する装置である。
図2は、音声処理装置2の機能の一例を示すブロック図である。図2に示すように、音声処理装置2は、収音部41、音声取得部43、重畳比算出部45、重畳処理部47、出力部49を有している。収音部41は、例えばマイクデバイス30から入力される環境音の音声信号を取得する。音声取得部43は、音声処理装置2がマイクデバイス30を介してユーザに提供する情報音を、例えば記憶部5などから取得する。重畳比算出部45は、収音部41で取得した環境音の音圧レベルと音声取得部43で取得した情報音の音圧レベルとの差が予め決められた値になるように、環境音と情報音とを重畳する際の音圧の重畳比を算出する。重畳処理部47は、音声取得部43で算出された重畳比に応じて環境音と情報音とを重畳した音声信号を生成する。出力部49は、重畳処理部47で生成された音声信号を例えばマイクデバイス30に出力する。
ここで、図3から図5を参照しながら、第1の実施の形態による重畳比算出部45の動作について、さらに説明する。図3から図5は、音声信号に基づき、音圧レベルの代表値を算出する方法を説明する図である。図3から図5は、音圧レベルの代表値を異なる方法で算出する方法の一例を示す図である。図3から図5において、横軸は時刻、縦軸は音圧レベルを示す。
図3は、一定の白色雑音下のような音声信号の一例を示している。ここで、音圧レベルは、音の音声信号が複数チャンネルの信号を含む場合には、複数のチャンネルの信号の同一時刻における最大の音圧レベルとするようにしてもよい。
図3では、元の音圧レベルに対して、移動平均、加重平均、中央値を表している。移動平均とは、移動平均の算出対象時刻の過去の一定時間内の音圧レベルの時系列データの平均である。加重平均とは、加重平均の算出対象時刻の過去の一定時間内の音圧レベルの時系列データに、それぞれ所定の重み(係数)を掛けて加算し、算出した平均である。この例では、算出対象時刻に近い時刻の音圧レベルほど重みを大きくして算出している。中央値とは、中央値の算出対象時刻の過去の一定時間内の音圧レベルの時系列データを大小順に整列させたときの中央値である。
図3の例では、元の音圧レベルは時刻に対して音圧レベルの変動が大きいが、移動平均、加重平均、中央値は、それぞれ変動が緩和された音圧レベルとなっている。一定の白色雑音下のような状況において、どの代表値でも値の変化はおさえられているが、移動平均は他よりも変化が少なく安定している。
図4は、ある時刻以降、音圧レベルに増加があった例を示している。このように途中で環境が変わって音圧レベルが遷移するような場合には、変化に対して、加重平均、移動平均、中央値の順に追従が早くなっている。すなわち、加重平均が、他の算出方法より早く音圧レベルの増加に追従できているといえる。この傾向を代表値に反映するには、代表値として加重平均を採用することが好ましいと考えられる。
図5は、ある時刻に音圧レベルの急激な変化があった例を示している。このとき、音圧レベルの急激な変化に影響されないのは、中央値、移動平均、加重平均の順となる。このような突発的に大きな音が入ってきた状況において、中央値はほとんど変化が見られないが、他は引きずられて値が大きく変わってしまっていることが分かる。急激な変化は過渡的な現象である。よって、代表値としては、急激な変化に影響を受けない値が好ましいと考えられ、この場合、中央値を採用するのが好ましいと考えられる。
このように、音圧レベルの代表値の算出方法は複数考えられる。しかも、代表値の算出方法によって、有効な場面が異なる。例えば、異なる代表値には以下のような特徴があることが考えられる。
移動平均:白色雑音や周期性のある雑音環境下で有効
加重平均:環境変化に対する反応を早くしたいときなどに有効
中央値:突発的にとても大きな音が入るような環境下で有効
よって、代表値は、音圧レベルの時刻による変動の状況に応じた有効な方法で算出することが好ましい。とくに、例えば、予め図4や、図5のような状況が予測される場合には、それぞれの状況にあった代表値の算出方法を設定しておくこともできる。
本実施の形態においては、音声処理装置2は、収音部41で収音された環境音の音圧レベルの時系列データの代表値Lbと、ユーザに提供される情報音の音圧レベルの時系列データの代表値Lcとを、設定された算出方法で算出する。
以下、図6を参照しながら、第1の実施の形態による音声処理システム1の動作についてさらに説明する。図6は、音声処理システム1の動作を示すフローチャートである。音声処理システム1による処理は、予め記憶された制御プログラムを演算処理装置3が読み込んで実行することにより行われる処理であるが、ここでは便宜上、図2に示した各機能が処理を行うとして説明する。
図6に示すように、まず重畳比算出部45は、音圧レベル差の目標値Xを決定する(S61)。ここで、音圧レベル差とは、環境音の音圧レベルの代表値Lb(以下、環境代表値Lbという)と、情報音の音圧レベルの代表値Lc(以下、情報代表値Lcという)との差である。音声処理装置2は、目標値Xを所望の値に設定し、環境代表値Lbと情報代表値Lcとの差が常に目標値Xと一致するように制御する。これにより、環境音と情報音とを重畳したときに、例えば、騒音のある環境で情報音を容易に聞き取れるようにしたり、話し声を情報音に優先して聞き取れるようにしたりすることができる。
収音部41は、環境音情報をマイクデバイス30から取得する(S62)。音声取得部43は、情報音の現在の音圧レベル値を不図示のバッファに格納する。収音部41は、環境音の現在のレベル値を不図示のバッファに格納する(S63)。さらに、音声取得部43は、情報代表値Lcを算出する。収音部41は、環境代表値Lbを算出する(S64)。
ここで、各代表値を求める区間を決める時間Tは調整パラメータになる。一例として、代表値に移動平均を利用する際に、突発的な環境音の発生により重畳バランスが急激な変化とならないようにすることを考えると、時間Tは、次のように決定できる。
音圧レベルの弁別域は0.5(dB)〜1.0(dB)とされていることから、環境音の音圧レベルの移動平均値がLであったときに音圧レベル差がA(dB)である突発的な音がk秒間継続した際に、移動平均値の変化が0.5(dB)以下となる最小の時間を求める。
||{L(T―k)+(L+A)k}/T―L||≦0.5・・・(式1)
式1より下記の式2が得られる。
||kA/T||≦0.5・・・(式2)
ここで、例えばk=1(秒)、A=30(dB)とすると、T=60(秒)となる。つまり、時間T=60(秒)とすることで、平均的な環境音の音圧レベルより30(dB)大きい音が1秒間発生しても、環境音の音圧レベルの平均値は0.5(dB)しか大きくならず、結果として重畳比Sもほとんど変化しない。
続いて、重畳比算出部45は、情報代表値Lcと環境代表値Lbとの差分Yを求める(S65)。重畳比算出部45は、目標値Xと差分Yとの差分Zを求める(S66)。さらに重畳比算出部45は、情報音と環境音の音圧の配分比のデシベル表現が差分Zに一致するように、重畳比Sを求める(S67)。
ここで、マイクデバイス30で測定した環境音の音圧レベルの直近のT秒間の時系列データの代表値を環境代表値Lb、情報音の音圧レベルの直近のT秒間の時系列データの代表値を情報代表値Lcとすると、音圧の重畳比Sは次の式3から求められる。
X−(Lc−Lb)=20log((1−S)/S)・・・(式3)
この式3は、目標とする音圧レベルの差Xと現在の平均音圧レベル差(Lb−Lc)とを比較して、足りない分を重畳比Sの調整により補うという考え方を示している。
重畳処理部47は、マイクデバイス30から取得した環境音と、音声取得部43で取得した情報音の時系列データに基づき上記のように算出された重畳比Sにより環境音と情報音とを重畳し、出力音圧を決定する(S68)。出力部49は、求めた出力音圧に応じた音声信号を出力することにより、マイクデバイス30により音声を再生させる(ステップ70)。
ここで、ある瞬間の環境音の音圧をp、情報音の音圧をpとすると、出力音圧poは、下記の式4で算出される。
po=Sp+(1−S)p・・・(式4)
ここでは、ユーザに提供されるコンテンツである情報音が快適に聞き取れるような音圧レベル差となるように調整することを考える。例えば、通常の会話の音圧レベルは60(dB)、会議室の音圧レベルは40(dB)とされていることから、情報音が環境音よりX=20(dB)大きくなるような目標値Xを設定する。
音声処理装置2では、例えば入力部23などから終了指示がない場合には(S70:NO)、S62から処理を繰り返し、終了指示があった場合には(S70:YES)、処理を終了する。
以上説明したように、第1の実施の形態による音声処理システム1によれば、収音部41は、環境音を収音し、音声取得部43は、情報音を取得する。重畳比算出部45は、予め定められた算出方法で、環境代表値Lbと情報代表値Lcとを算出する。また、重畳比算出部45は、環境代表値Lbと、情報代表値Lcとの差が、予め決められた目標値Xとなるような重畳比Sを算出する。重畳処理部47は、算出された重畳比Sに基づき音声を合成する。出力部49は、合成された音声を出力する。
以上のように、第1の実施の形態による音声処理システム1では、予め決められた目標値になるように、環境音と情報音との音圧レベル差を自動的に制御することができる。よって、カナル型のイヤホンのような耳を塞ぐデバイスを用いた場合に、ユーザの周囲の環境音が聞こえなくなることにより、周囲への注意不足や、会話ができないといった問題が生じることが防止できる。このように、環境音と情報音と重畳してマイクデバイス30で再生することで、方向感や臨場感を保ったまま環境音もユーザに聞かせることができる。
環境音と情報音との重畳比を自動的に調整することが可能なので、状況にあった音量バランスを実現できる。すなわち、情報代表値と環境代表値との差の目標値Xを予め所望の値に設定することにより、環境音の音量が大きすぎて情報音に集中できなかったり、逆に環境音の音量が低すぎて周囲への注意不足になったりすることが防止される。しかも、重畳比の調整は自動で行えるので、ユーザが手動で音量バランスの調節をすることなく、時々刻々と変化する周囲の音環境に適した音量バランスを自動で保つことができ、ユーザの利便性が増す。情報音の音量と環境音の音量とを共に調整することにより、環境音を優先するといった制御も可能となる。
(第2の実施の形態)
次に、第2の実施の形態により音声処理システム100について説明する。図7は、音声処理システム100の利用状況の一例を概念的に示す図である。第2の実施の形態において、第1の実施の形態と同様の構成及び動作については同一番号を付し、重複説明を省略する。音声処理システム100は、頭部デバイス130、音声処理装置20、赤外線発生装置125を含んでいる。
音声処理システム100は、音声処理システム1と同様に、環境音と情報音とを重畳して出力するシステムである。音声処理システム1では、音声処理装置2にマイクデバイス30が接続されていたが、音声処理システム100では、音声処理装置20に頭部デバイス130が接続される。また、音声処理システム100は、赤外線発生装置125を備えており、音声処理装置20は、赤外線により自己の位置を計測することができる。
第2の実施の形態による音声処理システム100では、ポスタ111、ポスタ113など、ユーザ110が注視することが期待される注視対象物体が存在する領域で用いられることが想定されている。よって、赤外線発生装置125は、例えば、ポスタ111の正面、ポスタ113の正面等の領域を照射することが好ましい。このとき、赤外線発生装置125は、ユーザ110の上方に相当する場所に設けられるようにしてもよい。これにより音声処理装置20は、自己の位置として、例えば、ポスタ111の正面のある領域などの位置を検出することになる。
図8は、音声処理システム100の構成の一例を示すブロック図である。図8に示すように、音声処理システム100では、音声処理装置20は、頭部デバイス130と、有線または無線により接続されている。音声処理装置20のハードウエア構成は、第1の実施の形態による音声処理装置2と同様の構成とすることができる。音声処理装置20は、赤外線発生装置125の位置情報を、赤外線位置情報Data Base(DB)143から取得する。赤外線位置情報DB143は、予め音声処理装置20の記憶部5に保持しておくようにしてもよいし、例えば、音声処理装置20と通信ネットワークで接続可能な情報処理装置を介して取得するようにしてもよい。
頭部デバイス130は、イヤホン32、マイク34、マイコン135、加速度センサ137、ジャイロセンサ139、赤外線受光部141を有している。頭部デバイス130は、図7に示したように、例えば、ヘッドホンなどのようにユーザが頭部に装着した状態で音声を聞くことができる。また、頭部デバイス130は、環境音121、環境音123等をマイク34で収音する。
加速度センサ137は、頭部デバイス130の加速度を検出する。加速度センサ137は、例えば3次元加速度センサとするようにしてもよい。ジャイロセンサ139は、頭部デバイス130の傾きを計測する。赤外線受光部141は、赤外線発生装置125からの赤外線を受光する。
マイコン135は、所定の処理を行うプログラムを実行可能な情報処理装置として機能する集積回路である。例えば、マイコン135は、音声処理装置20から入力された音声信号を左右のイヤホン32に分けて出力する。また、マイコン135は、マイク34で取得した音声を音声処理装置20に出力する。さらにマイコン135は、加速度センサ137により検出される加速度、ジャイロセンサ139により検出される角度、赤外線受光部141が受光した赤外線が発光された赤外線発光装置の識別情報などを音声処理装置20に出力する。このとき、マイコン135は、赤外線受光部141の検出結果から、赤外線発生装置125の識別情報を解析するなど、所定の処理を行なうようにしてもよい。
図9は、音声処理装置20の機能の一例を示すブロック図である。図9に示すように、音声処理装置20は、音声処理装置2と同様に、収音部41、音声取得部43、重畳比算出部45、重畳処理部47、出力部49を有している。音声処理装置20は、さらに、立体音響処理部151、状態計測部153、状態検出部155、位置姿勢推定部157を有している。
状態計測部153は、例えば、頭部デバイス130の加速度センサ137、ジャイロセンサ139、赤外線受光部141からの検出結果を取得する。検出結果とは、例えば、加速度センサ137から得られる頭部デバイス130の加速度、ジャイロセンサ139から得られる頭部デバイス130の角度、赤外線受光部141から得られる頭部デバイス130の位置に対応する情報である。
位置姿勢推定部157は、状態計測部153が取得した検出結果から、ユーザの位置姿勢を推定する。ユーザの位置姿勢とは、頭部デバイス130の位置として得られるユーザ110の位置、頭部デバイス130の方向として得られるユーザ110の正面範囲173などである。頭部デバイス130の位置は、例えば赤外線受光部141の検出結果から得られる位置情報に、加速度センサ137から得られる加速度を積分して得られる位置の変化を加算することにより算出される。このとき例えば位置姿勢推定部157は、頭部デバイス130から取得した赤外線発生装置125の識別情報を赤外線位置情報DB143で参照し、対応する位置情報を取得する。赤外線位置情報DB143の詳細は後述する。頭部デバイス130の方向は、例えばジャイロセンサ139から得られる角度の情報を積分することにより算出される。
立体音響処理部151は、例えば音声取得部43や収音部41からの音声に対し、チャンネル数を変更したり、左右の音声の再生時刻や周波数特性を調整したりするなど、立体音響処理を行う。この処理には、例えば、特許文献1〜5のいずれかに記載の従来の音響処理等を利用することもできる。このような処理により、例えば、所望の位置に情報音115、情報音117の仮想的な発生位置を設定することもできる。よって、例えば情報音115をポスタ111の位置に設定し、情報音117をポスタ113の位置に設定するといったことも可能である。
状態検出部155は、状態計測部153で計測された情報から、ユーザの状態を検出する。例えば、ユーザが歩行しているか否かを、加速度センサ137から得られた加速度に基づき検出する。この検出方法は、歩数計等で一般に用いられている方法を利用することができる。別の例として、状態検出部155は、マイク34で計測された情報から、ユーザ110の周囲で会話が行われているか否かを検出するようにしてもよい。会話が行われているか否かは、例えば、特許文献6、非特許文献1などに記載の方法により検出することができる。状態検出部155は、検出したユーザの状態を重畳比算出部45に出力する。
重畳比算出部45では、立体音響処理部151で処理された情報音と、収音部41で収音された環境音とに対して、状態検出部155で検出されたユーザの状態に応じて重畳比Sを算出する。重畳比Sの算出は、第1の実施の形態と同様の方法を適用することができる。
本実施の形態では、さらにユーザの状態の一つとして注視状態を検出する。図10は、注視状態を説明する図である。図10に示すように、注視状態とは、例えば、情報音115を出力している物体等、注視対象候補となる物体が所定時間以上ユーザ110の推定された正面範囲173に基づく注視範囲171に入っていると判定される状態をいう。
以下、図11から図14を参照しながら、注視状態検出について説明する。図11は、注視状態を検出するための機能の一例を示すブロック図である。図11に示すように、音声処理装置20は、状態計測部153として、頭部計測部163を有し、状態検出部155として対象位置取得部161、注視状態検出部165を有する。
図12から図14は、注視状態を検出するために用いる各種データのデータ構造の一例を示す図である。図12は、赤外線情報175の一例を示す図、図13は、注視対象情報180の一例を示す図、図14は、正面リスト185の一例を示す図である。
図12に示すように、赤外線情報175は、上述した赤外線位置情報DB143の内容であり、赤外線Identification(ID)177、位置情報178を有している。赤外線ID177は、赤外線発生装置125の識別情報である。位置情報178は、赤外線ID177に対応する赤外線発生装置125から出力された赤外線が検出されたときに、頭部デバイス130が存在している位置を示す情報である。
図13に示すように、注視対象情報180は、注視対象ID182、位置情報183を有している。注視対象ID182は、ユーザ110の注視対象となる可能性のある物体の識別情報である。図7の例では、例えばポスタ111、ポスタ113等である。位置情報183は、注視対象ID182に対応する注視対象の位置を示す情報である。
図14に示すように、正面リスト185は、注視候補ID187、検出時刻188を有している。注視候補ID187は、ユーザ110の注視範囲171に存在していると判定された、ユーザ110が注視していると推定される注視対象の識別情報である。検出時刻188は、注視候補ID187が注視範囲171に含まれていると検出された時刻である。
図11に戻って、頭部計測部163は、頭部デバイス130からの加速度、角度、赤外線受光に関する情報を取得する。位置姿勢推定部157は、頭部計測部163からの情報に基づき、位置姿勢を推定する。位置姿勢とは、例えば、ユーザ110の位置、及びユーザ110の注視範囲171である。位置姿勢推定部157は、頭部計測部163で取得した赤外線発生装置125の識別情報を赤外線情報175における赤外線ID177で検索し、対応する位置情報178を取得することにより、ユーザ110の位置を取得する。位置姿勢推定部157は、頭部デバイス130から取得した加速度及び角度に基づき、例えば頭部デバイス130の姿勢を推定し、ユーザ110の正面範囲173を算出して注視範囲171を推定する。正面範囲173の角度範囲は、予め定めておくことができる。
対象位置取得部161は、注視対象情報180から、物体の位置情報183を取得する。注視状態検出部165は、位置姿勢推定部157で推定された注視範囲171に含まれる位置情報183があるか否かを判別する。注視範囲171に含まれる位置情報183がある場合には、注視状態検出部165は、位置情報183に対応する注視対象ID182と、検出された時刻とを、正面リスト185における注視候補ID187と検出時刻188として記憶させる。注視状態検出部165が、一定時間以上同一の注視候補ID187の物体が注視範囲171内にあると検出した場合に、ユーザ110は、注視状態であると判別される。
続いて、図15、図16を用いて、本実施の形態による音声処理システム100の動作について説明する。図15は、音声処理システム100の主な動作を示すフローチャートである。図16は、音声処理システム100による注視検出処理を示すフローチャートである。音声処理システム100による処理は、予め記憶された制御プログラムを演算処理装置3が読み込んで実行することにより行われる処理であるが、ここでは便宜上、図9または図11に示した各機能が処理を行うとして説明する。また、第1の実施の形態と同様の処理については、詳細な説明を省略する。
図15に示すように、まず重畳比算出部45は、ユーザ状態に応じて音圧レベル差の目標値Xを決定する(S191)。本実施の形態では、状態検出部155がユーザや周囲の状態を検出している。ここでは、上述したように、例えば、以下の状態を検出することが可能である。
状態a)周囲で会話が行われている状態:以下、このときの目標値をXaとし、この状態を会話状態という。
状態b)ユーザ110が歩行している状態:以下、このときの目標値をXbとし、この状態を歩行状態という。
状態c)ユーザ110が注視対象を注視している状態:以下、このときの目標値をXcとし、この状態を注視状態という。
状態d)状態a)〜c)が検出されていない状態:以下、このときの目標値をXdとし、この状態を通常状態という。
このとき目標Xa〜Xdの大きさとしては、状態によって下記の式5の大小関係とすることが考えられる。
Xa<Xb<Xd<Xc・・・(式5)
これらの目標値は、例えば予め記憶部5に記憶しておき、状態検出部155で各状態が検出された場合に、目標値を変更するようにしてもよい。なお、例えば初期値としてX=Xdと設定することもできる。
収音部41は、環境音情報を頭部デバイス130から取得する(S192)。立体音響処理部151は、音声取得部43からの音声に対し、左右の音声の再生時刻や周波数特性を調整するなど、立体音響処理を行い、重畳比算出部45に出力する情報音を算出する(S193)。このとき、立体音響処理は、位置姿勢推定部157で推定された位置姿勢、及び状態検出部155で検出されたユーザの状態などに応じて、所望の位置から仮想的に発生する情報音を生成する処理としてもよい。このとき考慮されるユーザの状態の一つとして、注視状態が考えられる。注視状態の検出処理の詳細については後述する。
音声取得部43は、情報音の現在の音圧レベル値を不図示のバッファに格納する。収音部41は、環境音の現在のレベル値を不図示のバッファに格納する(S194)。さらに、音声取得部43は、情報代表値Lcを算出する。収音部41は、環境代表値Lbを算出する(S195)。ここで、各代表値を求める区間を決める時間Tは、第1の実施の形態と同様に決定されることが好ましい。
続いて、重畳比算出部45は、情報代表値Lcと環境代表値Lbとの差分Yを求める(S196)。重畳比算出部45は、目標値Xと差分Yとの差分Zを求める(S197)。さらに重畳比算出部45は、情報音と環境音の音圧の配分比のデシベル表現が差分Zに一致するように、重畳比Sを求める(S198)。重畳比Sは、第1の実施の形態における算出方法と同様の方法で算出される。
重畳処理部47は、頭部デバイス130で取得した環境音と、音声取得部43で取得した情報音の時系列データに基づき算出された重畳比Sにより環境音と情報音とを重畳し、出力音圧を決定する(S199)。出力部49は、例えば上述した式4により求めた出力音圧により音声信号を出力することにより、頭部デバイス130により音声を再生させる(ステップ200)。
音声処理装置20では、例えば入力部23などから終了指示がない場合には(S201:NO)、S191から処理を繰り返し、終了指示があった場合には(S201:YES)、処理を終了する。
次に、注視状態の検出処理を図16を参照しながら説明する。図16に示すように、対象位置取得部161は、注視対象候補の位置情報を、例えば注視対象情報180から取得する(S231)。頭部計測部163は、頭部デバイス130からの検出結果を取得する。位置姿勢推定部157は、頭部計測部163の検出結果に基づき、ユーザ110の頭部位置姿勢を注視範囲171として推定する(S232)。
注視状態検出部165は、注視範囲171と注視対象情報180とを比較することにより位置情報183が注視範囲171に入っている注視対象候補を検出する(S233)。注視対象候補がいずれも注視範囲171に入っていない場合には(S233:NO)、注視状態検出部165は、正面リスト185から注視候補ID187及び検出時刻188を削除する(S234)。
S233で、注視対象候補が注視範囲171に入っている場合には(S233:YES)、注視状態検出部165は、注視対象候補が既に正面リスト185に含まれているか否かを判別する(S235)。含まれていない場合には(S235:NO)、注視状態検出部165は、正面リスト185に、現在の時刻と注視対象候補に対応する識別情報とを検出時刻188、注視候補ID187として記憶する。注視対象候補が既に正面リスト185に含まれている場合には(S235:YES)、正面リスト185に記録されている時刻と、現在の時刻とを比較し、一定時間経過していれば、ユーザ110は注視状態であると判定し(ステップ237)、図15のS193の処理に戻る。
以上説明したように、第2の実施の形態による音声処理システム100によれば、収音部41は、環境音を収音し、音声取得部43は、情報音を取得する。状態検出部155は、頭部デバイス130で検出された情報に基づき、例えば、会話状態、歩行状態、注視状態を検出する。重畳比算出部45は、環境代表値Lbと、情報代表値Lcとの差が、検出された状態に応じて予め決められた目標値Xa〜Xdとなるような重畳比Sを算出する。重畳比算出部45は、予め定められた算出方法で、環境代表値Lbと情報代表値Lcとを算出する。
重畳比算出部45は、環境代表値Lbと、情報代表値Lcとの差が、予め決められた目標値Xとなるように、重畳比Sを算出する。重畳処理部47は、算出された重畳比Sに基づき音声を合成する。出力部49は、合成された音声を出力する。注視状態の場合には、立体音響処理部151により、注視していると推定される物体から情報音が発生しているように音響処理を行うことが好ましい。
以上のように、第1の実施の形態による音声処理システム100では、予め決められた目標値になるように、環境音と情報音との音圧レベル差を自動的に制御することができる。よって、カナル型のイヤホンのような耳を塞ぐデバイスを用いた場合に、ユーザの周囲の環境音が聞こえなくなることにより、周囲への注意不足や、会話ができないといった問題が生じることが防止できる。このとき、環境音と情報音と重畳して頭部デバイス130で再生することで、方向感や臨場感を保ったまま環境音もユーザに聞かせることができる。
さらに、例えば会話状態を検出した場合には、環境音を情報音に比べて大きくすることもでき、積極的に環境音をユーザに聞かせ、会話を可能にすることができる。歩行状態を検出した場合には、会話状態よりは小さいながら、通常状態よりは環境音を大きくすることで、安全に配慮することができる。注視状態が検出された場合には、通常状態よりも情報音を大きくして、情報を積極的に提供することもできる。
このように、重畳比の調整は自動で行えるので、ユーザが手動で音量バランスの調節をすることなく、時々刻々と変化する周囲の音環境に適した音量バランスを自動で保つことができ、ユーザの利便性が増す。情報音の音量と環境音の音量とを共に調整することにより、環境音を優先するといった制御も可能となる。
さらに、位置姿勢推定部157が推定したユーザの位置姿勢に応じて立体音響処理部151により人が身につけたイヤホン32から出力される音情報を加工し、人の周囲の任意の位置・方向から聞こえてくるように仮想的な音源位置を設定することができる。このように、人の頭部の位置・姿勢を検出することで、周囲環境に音源位置が固定されているようにリアルタイムに調整することが可能となる。これにより、あたかも実世界の環境中に音源があるかのように人に感じさせる音声Argumented Rearity(AR)を実現できる。
この音声ARを利用すると、ハンズフリー・アイズフリーな情報提供を実現できる。この音声ARを利用したユーザインタフェースの適用例として、図7に示したように展示会などの会場において、ユーザの周囲にある各展示物の位置情報に応じた音響処理を行うことができる。例えば、展示物に関する説明音声に、その展示物の方から音声が出力されているような処理が可能である。このような処理により、ユーザが興味ある展示を探しやすくような案内を行うことも考えられる。
(第3の実施の形態)
以下、第3の実施の形態による音声処理システムについて説明する。第3の実施の形態において、第1または第2の実施の形態と同様の構成及び動作については同一番号を付し、重複説明を省略する。
第3の実施の形態による音声処理システムは、第2の実施の形態による音声処理システム240と同様のハードウエア構成とすることができる。第3の実施の形態による音声処理システムは、音声処理システム100において、音声処理装置20に代えて音声処理装置250を有しており、代表値算出方法の切替機能を有する例である。
図17は、音声処理装置250の機能の一例を示すブロック図である。図17に示すように、音声処理装置250は、音声処理装置20と同様に、収音部41、音声取得部43、重畳比算出部45、重畳処理部47、出力部49、立体音響処理部151、状態計測部153、状態検出部155、位置姿勢推定部157を有している。音声処理装置250は、さらに、代表値切替部251を有している。
代表値切替部251は、音圧レベルの時系列データの代表値の算出方法を切替える。具体的には、第1の実施の形態において説明した移動平均、加重平均、中央値を、各代表値が有効な状況に応じて採用することが考えられる。
第1の実施の形態において、各代表値が有効な状況について以下のように説明した。
移動平均:白色雑音や周期性のある雑音環境下で有効
加重平均:環境変化に対する反応を早くしたいときなどに有効
中央値:突発的にとても大きな音が入るような環境下で有効
具体的には、各代表値が有効な状況の例として次のような状況が考えられる。
移動平均:データセンタのような、空調やファンの音が一定量のノイズになる場合等
加重平均:工事現場など、騒音レベルが断続的に変化する場合等
中央値:オフィスでドア開閉音が大きい場合、スポーツで打撃音が大きい場合等
第1及び第2の実施の形態においては、代表値の算出方法は予め定めておいた算出方法を常に用いるとしたが、本実施の形態においては、代表値切替部251は、例えば、過去の環境音の分布を解析し、用いる代表値の算出方法を自動で切り替える。
図18、図19は、第3の実施の形態による音声処理システムの動作を示すフローチャートである。第3の実施の形態による音声処理システムによる処理は、予め記憶された制御プログラムを演算処理装置3が読み込んで実行することにより行われる処理であるが、ここでは便宜上、図17に示した各機能が処理を行うとして説明する。また、第1または第2の実施の形態と同様の処理については、詳細な説明を省略する。
図18に示すように、まず重畳比算出部45は、ユーザ状態に応じて音圧レベル差の目標値Xを決定する(S281)。本実施の形態では、第2の実施の形態と同様、状態検出部155がユーザや周囲の状態を検出している。ここでは、上述したように、目標値Xa〜Xdを切替えることが好ましい。これらの目標値は、例えば予め記憶部5に記憶しておき、状態検出部155で各状態が検出された場合に、目標値を変更することが好ましい。
収音部41は、環境音情報を頭部デバイス130から取得する(S282)。立体音響処理部151は、音声取得部43からの音声に対し、頭部デバイス130で得られた頭部などの位置姿勢に応じて左右の音声の再生時刻や周波数特性を調整するなど、立体音響処理を行い、重畳比算出部45に出力する情報音を算出する(S283)。このとき、立体音響処理は、位置姿勢推定部157で推定された位置姿勢及び状態検出部155で検出されたユーザの状態などに応じて、所望の位置から仮想的に発生する情報音を生成する処理としてもよい。このとき考慮されるユーザの状態の一つとして、第2の実施の形態において説明した注視検出を行うようにしてもよい。音声取得部43は、情報音の現在音圧レベル値を不図示のバッファに格納する。収音部41は、環境音の現在のレベル値を不図示のバッファに格納する(S284)。
ここで、各時刻で重畳バランスの算出を行う前に、代表値切替部251は、マイク34で取得した過去一定時間の環境音の音圧レベルの時系列データを分析し、データの分布が正規分布に近いかどうかを判定する(S285)。判定方法としては、時系列データの歪度や尖度を用いるジャック−ベラ検定等の検定方法を用いる。正規分布に近いと判定された場合は(S285:YES)、代表値切替部251は、代表値に移動平均を用いる(S286)。正規分布に近いと判定されなかった場合には(S285:NO)、代表値切替部251は、代表値に中央値を用いる(S287)。
音声取得部43は、代表値切替部251で設定された算出方法に基づき、情報代表値Lc、および環境代表値Lbを算出する(S288)。ここで、各代表値を求める区間を決める時間Tは、第1の実施の形態と同様に決定されることが好ましい。
図19に示すように、重畳比算出部45は、情報代表値Lcと環境代表値Lbとの差分Yを求める(S289)。重畳比算出部45は、目標値Xと差分Yとの差分Zを求める(S290)。さらに重畳比算出部45は、情報音と環境音の配分比のデシベル表現が差分Zに一致するように、重畳比Sを求める(S291)。音圧の重畳比Sは、上述した式3から求められる。
重畳処理部47は、頭部デバイス130で取得した環境音と、音声取得部43で取得した情報音との時系列データに基づき算出された重畳比Sにより環境音と情報音とを重畳し、出力音圧を決定する(S292)。出力部49は、例えば上述した式4により求めた出力音圧により音声信号を出力することにより、頭部デバイス130により音声を再生させる(ステップ293)。
音声処理装置250では、例えば入力部23などから終了指示がない場合には(S294:NO)、S281から処理を繰り返し、終了指示があった場合には(S294:YES)、処理を終了する。
以上説明したように、第3の実施の形態による音声処理システムによれば、収音部41は、環境音を収音し、音声取得部43は、情報音を取得する。状態検出部155は、頭部デバイス130で検出された情報に基づき、例えば、会話状態、歩行状態、注視状態を検出する。重畳比算出部45は、状態検出部155で検出された状態に応じて、目標値Xa〜Xdのいずれかを目標値として設定する。
本実施の形態では、代表値切替部251は、過去の環境音の時系列データを解析し、時系列データの分布が正規分布に近い場合には、代表値として移動平均を用いる。このとき、環境代表値Lbを移動平均により求めるが、例えば情報代表値Lcは、予め定められた方法で求めるようにしてもよい。
重畳比算出部45は、環境代表値Lbと、情報代表値Lcとの差が、予め決められた目標値Xとなるように、重畳比Sを算出する。重畳処理部47は、算出された重畳比Sに基づき音声を合成する。出力部49は、合成された音声を出力する。このとき、目標値Xを、注視状態の場合には、立体音響処理部151により、注視していると推定される物体から情報音が発生しているように音響処理を行うこともできる。
以上のように、第3の実施の形態による音声処理システムでは、第2の実施の形態による音声処理システム100が奏する効果に加え、周囲の音環境により適した方法に切替えて音圧レベルの代表値を算出することが可能になる。よって、例えば、通常は突発音に大きく左右されないように中央値を用いるが、突発音がほとんどなく雑音がホワイトノイズに近い環境に移動した際に、より安定的な移動平均に自動的に切り替える等、より柔軟な対応が可能になる。また、時々刻々と変わる環境に対応する一方で、突発的な環境音の変化に過敏に反応してバランスが大きく変更されることがないようにする効果がある。
(変形例)
以下、変形例による音声処理システム240について説明する。変形例は、例えば、第1から第3の実施の形態による音声処理システムの変形例である。音声処理システム240は、音声処理装置242及びマイクデバイス30を有している。音声処理装置242は、音声処理システム1の音声処理装置2に、音声処理システム100の頭部デバイス130が有する一部の機能等を追加した例である。本変形例において、第1から第3の実施の形態と同様の構成及び動作については同一番号を付し、重複説明を省略する。
図20は、音声処理システム240のハードウエア構成の一例を示す図である。音声処理装置242は、情報音を環境音と重畳して出力する装置であり、第1から第3の実施の形態による音声処理装置2、20と同様に、演算処理装置3、記憶部5、入力部23、表示部25、音声入出力部15を有している。
音声処理装置242は、さらに、通信部11、アンテナ13、加速度センサ245、ジャイロセンサ247を有している。通信部11は、音声処理装置242の外部との情報の送受信の処理を行う。アンテナ13は、無線により電磁波を送受信する。加速度センサ245は、音声処理装置242の加速度を検出する。加速度センサ245は、例えば3次元加速度センサとすることができる。ジャイロセンサ247は、音声処理装置242の角度を検出する。音声処理装置242の機能構成は、第2の実施の形態による音声処理装置20または第3の実施の形態による音声処理装置250と同様とすることができる。
本変形例では、加速度センサ245、ジャイロセンサ247による検出結果に基づき、音声処理装置20と同様にユーザ110の歩行状態を検出することができる。また、マイクデバイス30のマイク34で収音された結果に基づき、音声処理装置20または音声処理装置250と同様に会話状態を検出することができる。さらに、通信部11、アンテナ13を介して、Global Positioning System(GPS)を利用して、自己の位置を取得することができる。さらに、加速度センサ245、ジャイロセンサ247による検出結果を利用することにより、第2または第3の実施の形態と同様に注視状態の判別も行うことができる。
よって、第2または第3の実施の形態による音声処理システムと同様に、音声処理システム240は、ユーザ110の状態に適した重畳比で環境音と情報音とを重畳して出力することが可能である。
以上説明したように、変形例による音声処理システム240によれば、第2または第3の実施の形態による音声処理装置20、または音声処理装置250と同様の効果を奏することができる。さらに、この構成を用いれば、赤外線発生装置125は不要となるので、GPSが利用可能な場所であれば、音声処理システム240を利用することができる。
ここで、上記第1から第3の実施の形態及び変形例による音声処理方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図21は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図21に示すように、コンピュータ300は、Central Processing Unit(CPU)302、メモリ304、入力装置306、出力装置308、外部記憶装置312、媒体駆動装置314、ネットワーク接続装置等がバス310を介して接続されている。
CPU302は、コンピュータ300全体の動作を制御する演算処理装置である。メモリ304は、コンピュータ300の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ304は、例えばRAM、ROM等である。入力装置306は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU302に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置308は、コンピュータ300による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、CPU302により送付される表示データに応じてテキストや画像を表示する。
外部記憶装置312は、例えば、ハードディスクなどの記憶装置であり、CPU302により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置314は、可搬記録媒体316に書き込みおよび読み出しを行うための装置である。CPU302は、可搬記録媒体316に記録されている所定の制御プログラムを、媒体駆動装置314を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体316は、例えばCompact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。ネットワーク接続装置318は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。バス310は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。
上記第1から第3の実施の形態及び変形例による音声処理方法をコンピュータに実行させるプログラムは、例えば外部記憶装置312に記憶させる。CPU302は、外部記憶装置312からプログラムを読み出し、コンピュータ300に音声処理の動作を行なわせる。このとき、まず、音声処理の処理をCPU302に行わせるための制御プログラムを作成して外部記憶装置312に記憶させておく。そして、入力装置306から所定の指示をCPU302に与えて、この制御プログラムを外部記憶装置312から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体316に記憶するようにしてもよい。
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、状態検出部155が検出するユーザの状態は、上記4つの状態(会話状態、歩行状態、注視状態、通常状態)に限定されない。また、4つの状態のうちのいくつかのみを検出可能な音声処理システムとしてもよい。ユーザの状態の検出方法も上記に限定されない。同様の状態が検出できれば、別の方法を採用することもできる。例えば、頭部デバイス130に地磁気センサを設置し、地磁気センサの検出結果に基づき、頭部デバイス130の姿勢を推定するようにしてもよい。
情報音は、音声処理装置2等に予め記憶しておくようにしたが、音声処理装置2等と通信可能な別の情報処理装置から取得する等、変形は可能である。赤外線情報175、注視対象情報180などについても、別の情報処理装置から取得するようにしてもよい。また、ユーザ110が携帯可能な音声処理装置で、音声の再生や環境音、ユーザ状態の取得のみを行い、その他の処理を別の情報処理装置で行う、などの変形も可能である。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
環境音を収音する収音部と、
提供する情報の情報音を取得する音声取得部と、
前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する重畳比算出部と、
前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう重畳処理部と、
前記重畳する処理が行われた音声信号を出力する出力部と、
を有することを特徴とする音声処理装置。
(付記2)
前記第1の代表値及び前記第2の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、中央値のいずれかであることを特徴とする付記1に記載の音声処理装置。
(付記3)
ユーザの状態を検出する状態検出部
をさらに有し、
前記状態検出部は、前記環境音に会話が含まれているか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記会話を検出した場合には、前記第1の所定値に代えて、前記第1の所定値よりも小さい第2の所定値に基づき前記重畳比を算出する
ことを特徴とする付記1または付記2に記載の音声処理装置。
(付記4)
ユーザの状態を検出する状態検出部
をさらに有し、
前記状態検出部は、前記ユーザが歩行状態であるか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記歩行状態を検出した場合には、前記第1の所定値に代えて、前記第1の所定値よりも小さく、前記状態検出部が前記環境音に会話が含まれていることを検出した場合の第2の所定値よりも大きい第3の所定値に基づき前記重畳比を算出する
ことを特徴とする付記1または付記2に記載の音声処理装置。
(付記5)
ユーザの状態を検出する状態検出部と
前記情報音と関連する対象物の位置を取得する対象位置取得部、
をさらに有し、
前記状態検出部は、前記ユーザが前記対象物の位置を注視しているか否かを検出し、
前記重畳比算出部は、前記状態検出部が前記対象物の位置を注視している状態を検出した場合には、前記第1の所定値よりも大きい第4の所定値に基づき前記重畳比を算出する
ことを特徴とする付記1または付記2に記載の音声処理装置。
(付記6)
前記環境音の過去一定時間の分布が正規分布に近いと判別された場合には、前記第1の代表値及び前記第2の代表値は、それぞれの音圧レベルの時系列データの移動平均とし、そうでない場合には中央値とする代表値切替部
をさらに有することを特徴とする付記1から付記5のいずれかに記載の音声処理装置。
(付記7)
音声処理装置が、
環境音を収音し、
提供する情報の情報音を取得し、
前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
前記重畳比に基づき前記情報音と前記環境音とを重畳し、
前記重畳する処理が行われた音声信号を出力する、
ことを特徴とする音声処理方法。
(付記8)
前記第1の代表値及び前記第2の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、または中央値であることを特徴とする付記9に記載の音声処理方法。
(付記9)
会話を検出した場合には、前記第1の所定値に代えて、前記第1の所定値よりも小さい第2の所定値に基づき前記重畳比を算出する
ことを特徴とする付記7または付記8に記載の音声処理方法。
(付記10)
歩行状態を検出した場合には、前記第1の所定値に代えて、前記第1の所定値よりも小さく、前記状態検出部が前記環境音に会話が含まれていることを検出した場合の第2の所定値よりも大きい第3の所定値に基づき前記重畳比を算出する
ことを特徴とする付記7または付記8に記載の音声処理方法。
(付記11)
前記情報音と関連する対象物の位置を取得し、
ユーザが前記対象物の位置を注視しているか否かを検出し、
前記対象物の位置が注視されている状態を検出した場合には、前記第1の所定値よりも大きい第4の所定値に基づき前記重畳比を算出する
ことを特徴とする付記7または付記8に記載の音声処理装置。
(付記12)
前記環境音の過去一定時間の分布が正規分布に近いと判別された場合には、前記第1の代表値及び前記第2の代表値は、それぞれの音圧レベルの時系列データの移動平均とし、そうでない場合には中央値とする
をさらに有することを特徴とする付記7または付記8に記載の音声処理装置。
(付記13)
環境音を収音し、
提供する情報の情報音を取得し、
前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
前記重畳比に基づき前記情報音と前記環境音とを重畳し、
前記重畳する処理が行われた音声信号を出力する、
処理をコンピュータに実行させるプログラム。
(付記14)
前記第1の代表値及び前記第2の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、または中央値であることを特徴とする付記13に記載のプログラム。
(付記15)
会話を検出した場合には、前記第1の所定値に代えて、前記第1の所定値よりも小さい第2の所定値に基づき前記重畳比を算出する
ことを特徴とする付記13または付記14に記載のプログラム。
1 音声処理システム
2 音声処理装置
3 演算処理装置
5 記憶部
7 ROM
9 RAM
11 通信部
13 アンテナ
15 音声入出力部
23 入力部
25 表示部
30 マイクデバイス
32 イヤホン
34 マイク

Claims (8)

  1. 環境音を収音する収音部と、
    提供する情報の情報音を取得する音声取得部と、
    前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出する重畳比算出部と、
    前記重畳比に基づき前記情報音と前記環境音とを重畳する処理を行なう重畳処理部と、
    前記重畳する処理が行われた音声信号を出力する出力部と、
    を有することを特徴とする音声処理装置。
  2. 前記第1の代表値及び前記第2の代表値は、それぞれの音圧レベルの時系列データの移動平均、加重平均、中央値のいずれかであることを特徴とする付記1に記載の音声処理装置。
  3. ユーザの状態を検出する状態検出部
    をさらに有し、
    前記状態検出部は、前記環境音に会話が含まれているか否かを検出し、
    前記重畳比算出部は、前記状態検出部が前記会話を検出した場合には、前記第1の所定値に代えて、前記第1の所定値よりも小さい第2の所定値に基づき前記重畳比を算出する
    ことを特徴とする付記1または付記2に記載の音声処理装置。
  4. ユーザの状態を検出する状態検出部
    をさらに有し、
    前記状態検出部は、前記ユーザが歩行状態であるか否かを検出し、
    前記重畳比算出部は、前記状態検出部が前記歩行状態を検出した場合には、前記第1の所定値に代えて、前記第1の所定値よりも小さく、前記状態検出部が前記環境音に会話が含まれていることを検出した場合の第2の所定値よりも大きい第3の所定値に基づき前記重畳比を算出する
    ことを特徴とする付記1または付記2に記載の音声処理装置。
  5. ユーザの状態を検出する状態検出部と
    前記情報音と関連する対象物の位置を取得する対象位置取得部、
    をさらに有し、
    前記状態検出部は、前記ユーザが前記対象物の位置を注視しているか否かを検出し、
    前記重畳比算出部は、前記状態検出部が前記対象物の位置を注視している状態を検出した場合には、前記第1の所定値よりも大きい第4の所定値に基づき前記重畳比を算出する
    ことを特徴とする付記1または付記2に記載の音声処理装置。
  6. 前記環境音の過去一定時間の分布が正規分布に近いと判別された場合には、前記第1の代表値及び前記第2の代表値は、それぞれの音圧レベルの時系列データの移動平均とし、そうでない場合には中央値とする代表値切替部
    をさらに有することを特徴とする付記1から付記5のいずれかに記載の音声処理装置。
  7. 音声処理装置が、
    環境音を収音し、
    提供する情報の情報音を取得し、
    前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
    前記重畳比に基づき前記情報音と前記環境音とを重畳し、
    前記重畳する処理が行われた音声信号を出力する、
    ことを特徴とする音声処理方法。
  8. 環境音を収音し、
    提供する情報の情報音を取得し、
    前記情報音の音圧レベルの時系列データの第1の代表値と前記環境音の音圧レベルの時系列データの第2の代表値との差と、第1の所定値との差を補うような、前記情報音と前記環境音とを重畳させた重畳音の音圧に対する前記環境音の音圧の比を示す重畳比を算出し、
    前記重畳比に基づき前記情報音と前記環境音とを重畳し、
    前記重畳する処理が行われた音声信号を出力する、
    処理をコンピュータに実行させるプログラム。
JP2013216002A 2013-10-17 2013-10-17 音声処理装置、音声処理方法、及びプログラム Expired - Fee Related JP6194740B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216002A JP6194740B2 (ja) 2013-10-17 2013-10-17 音声処理装置、音声処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013216002A JP6194740B2 (ja) 2013-10-17 2013-10-17 音声処理装置、音声処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015080087A true JP2015080087A (ja) 2015-04-23
JP6194740B2 JP6194740B2 (ja) 2017-09-13

Family

ID=53011181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013216002A Expired - Fee Related JP6194740B2 (ja) 2013-10-17 2013-10-17 音声処理装置、音声処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6194740B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017061218A1 (ja) * 2015-10-09 2017-04-13 ソニー株式会社 音響出力装置、音響生成方法及びプログラム
WO2024014266A1 (ja) * 2022-07-13 2024-01-18 ソニーグループ株式会社 制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS591220U (ja) * 1982-06-23 1984-01-06 クラリオン株式会社 ヘツドホン・システム
JPH03245699A (ja) * 1990-02-23 1991-11-01 Matsushita Electric Ind Co Ltd 補聴器
JP2005086618A (ja) * 2003-09-10 2005-03-31 Nec Corp 音声再生装置
JP2005295175A (ja) * 2004-03-31 2005-10-20 Jpix:Kk ヘッドホン装置
JP2009529275A (ja) * 2006-03-08 2009-08-13 ソニー エリクソン モバイル コミュニケーションズ, エービー 周囲音を出力するヘッドセット
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
JP2011197477A (ja) * 2010-03-19 2011-10-06 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011199699A (ja) * 2010-03-23 2011-10-06 Yamaha Corp ヘッドフォン
JP2012249185A (ja) * 2011-05-30 2012-12-13 Yamaha Corp イヤホン
JP2013207759A (ja) * 2012-03-29 2013-10-07 Fujitsu Ltd 携帯端末、音源位置制御方法および音源位置制御プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS591220U (ja) * 1982-06-23 1984-01-06 クラリオン株式会社 ヘツドホン・システム
JPH03245699A (ja) * 1990-02-23 1991-11-01 Matsushita Electric Ind Co Ltd 補聴器
JP2005086618A (ja) * 2003-09-10 2005-03-31 Nec Corp 音声再生装置
JP2005295175A (ja) * 2004-03-31 2005-10-20 Jpix:Kk ヘッドホン装置
JP2009529275A (ja) * 2006-03-08 2009-08-13 ソニー エリクソン モバイル コミュニケーションズ, エービー 周囲音を出力するヘッドセット
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
JP2011197477A (ja) * 2010-03-19 2011-10-06 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011199699A (ja) * 2010-03-23 2011-10-06 Yamaha Corp ヘッドフォン
JP2012249185A (ja) * 2011-05-30 2012-12-13 Yamaha Corp イヤホン
JP2013207759A (ja) * 2012-03-29 2013-10-07 Fujitsu Ltd 携帯端末、音源位置制御方法および音源位置制御プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017061218A1 (ja) * 2015-10-09 2017-04-13 ソニー株式会社 音響出力装置、音響生成方法及びプログラム
CN108141684A (zh) * 2015-10-09 2018-06-08 索尼公司 声音输出设备、声音生成方法以及程序
JPWO2017061218A1 (ja) * 2015-10-09 2018-07-26 ソニー株式会社 音響出力装置、音響生成方法及びプログラム
US10812926B2 (en) 2015-10-09 2020-10-20 Sony Corporation Sound output device, sound generation method, and program
WO2024014266A1 (ja) * 2022-07-13 2024-01-18 ソニーグループ株式会社 制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP6194740B2 (ja) 2017-09-13

Similar Documents

Publication Publication Date Title
US11629971B2 (en) Audio processing apparatus
KR102192361B1 (ko) 머리 움직임을 이용한 사용자 인터페이스 방법 및 장치
JP6055657B2 (ja) ゲームシステム、ゲーム処理制御方法、ゲーム装置、および、ゲームプログラム
US10542369B2 (en) Sound control apparatus, program, and control method
US20150326963A1 (en) Real-time Control Of An Acoustic Environment
JP2019527956A (ja) 仮想、拡張、および複合現実
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20160165336A1 (en) Directional sound modification
WO2015163031A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2016118656A1 (en) Techniques for amplifying sound based on directions of interest
US10542368B2 (en) Audio content modification for playback audio
KR20190044619A (ko) 실제 세계 사운드를 가상 현실 사운드에 합성하는 것에 의한 동적 증강
CN114115515A (zh) 用于帮助用户的方法和头戴式单元
CN116324969A (zh) 具有定位反馈的听力增强和可穿戴系统
CN106302974B (zh) 一种信息处理的方法及电子设备
JP6113437B2 (ja) 補聴器
US10667073B1 (en) Audio navigation to a point of interest
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
JP6194740B2 (ja) 音声処理装置、音声処理方法、及びプログラム
EP3661233A1 (en) Wearable beamforming speaker array
JP2017034479A (ja) 制御装置、再生システム、補正方法、及び、コンピュータプログラム
WO2024134736A1 (ja) ヘッドマウントディスプレイ装置および立体音響の制御方法
JP5929455B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20220312142A1 (en) Processing of Audio Data
WO2023017622A1 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170731

R150 Certificate of patent or registration of utility model

Ref document number: 6194740

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees