JP5360904B2 - 音声処理装置、音声処理方法、及び、プログラム - Google Patents
音声処理装置、音声処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP5360904B2 JP5360904B2 JP2009283776A JP2009283776A JP5360904B2 JP 5360904 B2 JP5360904 B2 JP 5360904B2 JP 2009283776 A JP2009283776 A JP 2009283776A JP 2009283776 A JP2009283776 A JP 2009283776A JP 5360904 B2 JP5360904 B2 JP 5360904B2
- Authority
- JP
- Japan
- Prior art keywords
- surrounding environment
- voice
- sound
- processing apparatus
- timing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムに関する。
複数のマイク(アレイマイク)を利用し、各マイクに入力される音声から不要な音源音声(以下「雑音」という。)を抑圧し、抽出すべき特定の音声(以下「目的音」という。)を抽出する音源分離技術がある。目的音と雑音を区別するためには、目的音がどの方向(以下「目的音方向」という。)のどの範囲(以下「目的音範囲」という。)から到来しているかを判定する必要がある。
例えば、特許文献1には、アレイマイクを備え、そのアレイマイクで取得した同一音源音声の位相差により、それぞれの音源音声の方向を判定し、特定された方向からの目的音となる音源音声のみを抽出する音源分離技術が開示されている。
例えば、特許文献1には、アレイマイクを備え、そのアレイマイクで取得した同一音源音声の位相差により、それぞれの音源音声の方向を判定し、特定された方向からの目的音となる音源音声のみを抽出する音源分離技術が開示されている。
しかしながら、特許文献1に開示される技術は、音源が到来する方向を判定することによって音源を分離する技術であるので、雑音と目的音が同一方向から到来した場合には、雑音の抑圧が困難となる。
また、雑音と目的音が別方向から到来した場合においても、屋内環境では、壁や天井等による反響のため、目的音と雑音が同一方向から到来していると誤判定してしまう可能性がある。そして、屋内環境において、屋外環境と同じように音源分離処理を行うと、雑音が抑圧できないばかりか、目的音自体を歪ませてしまうといった悪影響が発生する可能性がある。
また、雑音と目的音が別方向から到来した場合においても、屋内環境では、壁や天井等による反響のため、目的音と雑音が同一方向から到来していると誤判定してしまう可能性がある。そして、屋内環境において、屋外環境と同じように音源分離処理を行うと、雑音が抑圧できないばかりか、目的音自体を歪ませてしまうといった悪影響が発生する可能性がある。
本発明はこのような課題を解決するものであり、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムを提供することを目的とする。
以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
本発明の第1の観点に係る音声処理装置は、音声を抽出する音声処理装置であって、
複数の音声を取得する音声取得手段と、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段と、
前記音声処理装置の周辺環境を判定する周辺環境判定手段と、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段と、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段と、
を備え、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。
複数の音声を取得する音声取得手段と、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段と、
前記音声処理装置の周辺環境を判定する周辺環境判定手段と、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段と、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段と、
を備え、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。
前記制御手段は、雑音に対する抑圧の強さを示す音声抑圧量と、抽出対象とする方向を示す抽出範囲と、雑音抑圧フィルタの更新周期と、のうち少なくとも一つを前記設定値として制御してもよい。
前記音声処理装置からの距離を測定する距離測定手段を更に備え、
前記周辺環境判定手段は、前記測定された距離に基づいて、前記周辺環境を判定してもよい。
前記周辺環境判定手段は、前記測定された距離に基づいて、前記周辺環境を判定してもよい。
放送電波を受信する放送受信手段を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記受信された放送電波の受信状況に基づいて、前記音声処理装置が設置された場所が室内か室外かを判定してもよい。
前記周辺環境判定手段は、前記周辺環境として、前記受信された放送電波の受信状況に基づいて、前記音声処理装置が設置された場所が室内か室外かを判定してもよい。
所定の測定音を出力し、当該出力した測定音の反射音を取得し、当該出力した測定音と当該取得した反射音とに基づいて、反響量を測定する反響量測定手段を更に備え、
前記周辺環境判定手段は、前記測定された反響量に基づいて、前記周辺環境を判定してもよい。
前記周辺環境判定手段は、前記測定された反響量に基づいて、前記周辺環境を判定してもよい。
地図情報を格納する地図情報格納手段と、
前記音声処理装置の位置を検出する位置情報検出手段と、
を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記格納された地図情報と前記検出された位置とに基づいて、前記音声処理装置が設置された場所が屋内か屋外かを判定してもよい。
前記音声処理装置の位置を検出する位置情報検出手段と、
を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記格納された地図情報と前記検出された位置とに基づいて、前記音声処理装置が設置された場所が屋内か屋外かを判定してもよい。
前記タイミング通知手段は、所定の周期で、前記タイミングを前記制御手段に通知してもよい。
前記音声処理装置の移動状態を検出する移動状態検出手段を更に備え、
前記タイミング通知手段は、前記検出された移動状態が、前記音声処理装置が移動していることを示す状態である場合に、前記タイミングを前記制御手段に通知してもよい。
前記タイミング通知手段は、前記検出された移動状態が、前記音声処理装置が移動していることを示す状態である場合に、前記タイミングを前記制御手段に通知してもよい。
前記音声処理装置の位置を検出する位置情報検出手段を更に備え、
前記位置情報検出手段は、所定の周期で、前記位置を検出し、
前記タイミング通知手段は、前記検出された位置の所定期間における履歴に基づいて、前記音声処理装置が移動しているか否かを判定し、移動していると判定した場合に、前記タイミングを前記制御手段に通知してもよい。
前記位置情報検出手段は、所定の周期で、前記位置を検出し、
前記タイミング通知手段は、前記検出された位置の所定期間における履歴に基づいて、前記音声処理装置が移動しているか否かを判定し、移動していると判定した場合に、前記タイミングを前記制御手段に通知してもよい。
本発明の第2の観点に係る音声処理方法は、音声を抽出する音声処理装置において実行される音声処理方法であって、
複数の音声を取得する音声取得ステップと、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出ステップと、
前記音声処理装置の周辺環境を判定する周辺環境判定ステップと、
前記音声抽出ステップにおいて前記抽出すべき音声を抽出するために用いる設定値を制御する制御ステップと、
前記周辺環境判定ステップにおいて周辺環境を判定するタイミングを通知するタイミング通知ステップと、
を備え、
前記制御ステップでは、前記通知されるタイミングに従って、前記周辺環境判定ステップにおいて前記周辺環境を判定させ、前記周辺環境判定ステップによる判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。
複数の音声を取得する音声取得ステップと、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出ステップと、
前記音声処理装置の周辺環境を判定する周辺環境判定ステップと、
前記音声抽出ステップにおいて前記抽出すべき音声を抽出するために用いる設定値を制御する制御ステップと、
前記周辺環境判定ステップにおいて周辺環境を判定するタイミングを通知するタイミング通知ステップと、
を備え、
前記制御ステップでは、前記通知されるタイミングに従って、前記周辺環境判定ステップにおいて前記周辺環境を判定させ、前記周辺環境判定ステップによる判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。
本発明の第3の観点に係るプログラムは、音声を抽出するコンピュータを、
複数の音声を取得する音声取得手段、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段、
前記コンピュータの周辺環境を判定する周辺環境判定手段、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段、
として機能させ、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。
複数の音声を取得する音声取得手段、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段、
前記コンピュータの周辺環境を判定する周辺環境判定手段、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段、
として機能させ、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。
本発明によれば、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムを提供することができる。
図1は、本実施形態の音声処理装置100の構成を示すブロック図である。音声処理装置100は、アレイマイク1、ADC(Analog/Digital Converter)2、音声抽出部3、コーデック部4、記録部5、DAC(Digital/Analog Converter)6、スピーカー7、表示部8、操作入力部9、タイミング通知部10、周辺環境判定部11、制御部12を備える。
アレイマイク1は、音声を入力するための複数のマイクから構成され、複数のマイクのそれぞれは、音声を取得する。アレイマイク1は、相互に接続された複数のマイクが配列されて構成される。それぞれのマイクは、例えば、一次元、二次元、三次元に配列される。
ADC2は、アレイマイク1から入力された複数の音声のそれぞれをデジタル信号に変換する。
音声抽出部3は、ADC2によりアナログ信号からデジタル信号に変換された複数の音声から、ある方向から発せられる抽出すべき音声(以下「目的音」という。)を抽出する。
例えば、会議の様子を録音しているとき、発言する人の音声が“目的音”であり、また、会議と関係ない物音や雑音が“目的音でない音”、つまり“雑音”になる。
コーデック部4は、録音時には、音声抽出部3で抽出された目的音を所定のアルゴリズムにより符号化して圧縮する。また、再生時には、コーデック部4は、記録部5に記録された符号化音声を復号する。
記録部5は、コーデック部4により符号化された音声を格納する。典型的には、記録部5は、ハードディスクやメモリカード等の記録装置から構成される。
アレイマイク1で取得された音声のうち、抽出された目的音を表す音声データは、符号化された後、記録部5に記録される。
アレイマイク1で取得された音声のうち、抽出された目的音を表す音声データは、符号化された後、記録部5に記録される。
DAC6は、コーデック部4により復号されたデジタル音声をアナログ信号に変換する。
スピーカー7は、DAC6によりデジタル信号からアナログ信号に変換された音声を出力する。
つまり、復号された音声データは、DAC6に入力された後、スピーカー7から出力される。ユーザは、記録部5に記録された音声データを再生して聞くことができる。
つまり、復号された音声データは、DAC6に入力された後、スピーカー7から出力される。ユーザは、記録部5に記録された音声データを再生して聞くことができる。
表示部8は、音声処理装置100の各種設定情報や、音声処理装置100の状態(例えば録音状態か再生状態か)等を表示する。表示部8は、LCD(Liquid Crystal Display)等を備える。
操作入力部9は、音声処理装置100の起動と停止の指示や、録音の開始と終了の指示などをユーザから受け付けて、対応する指示信号を制御部12に入力する。
タイミング通知部10は、音声録音の際の音声処理装置100の周辺環境の変化に対応するために、周辺環境を判定するタイミングを制御部12に通知する。この周辺環境を判定するタイミングを決める処理の詳細については後述するが、タイマーを用いる手法、音声処理装置100の移動状況に基づく手法、音声処理装置100の位置情報に基づく手法などがある。
周辺環境判定部11は、音声録音の際の音声処理装置100の周辺環境を判定する。周辺環境を判定する処理の詳細については後述する。
周辺環境とは、例えば、音声処理装置100が設置される場所が屋内(室内)か屋外(室外)か、音声処理装置100が設置される場所においてデジタル放送などの電波がどの程度の感度で受信できるか、音声処理装置100が設置される場所において音声がどの程度反響するか、音声処理装置100の地理的な位置がどこか、などである。
制御部12は、音声処理装置100全体を制御する。制御部12は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などから構成される。例えば、制御部12は、音声抽出部3により音声抽出処理を制御するために用いる所定の設定値を適宜変更する。
設定値とは、具体的には、(1)音声抽出時の雑音抑圧量、(2)目的音範囲、(3)雑音抑圧フィルタの更新周期、などである。以下順次説明する。
(1)音声抽出時の雑音抑圧量
雑音抑圧量は、雑音を含んだ音声から雑音を抑圧する際の雑音抑圧の強さを示す。
仮に、全く反響のない周辺環境(無響環境)であり、さらに音声処理装置100自体による音声の回り込みがない場合には、理論的には、雑音抑圧率を高めることにより、目的音の抽出性能を高めることができる。
しかしながら、実際にはそのような無音環境は理論上にしか存在しないと言ってもよい。特に、反響の多い室内環境では、単純に雑音抑圧率を高めると、目的音自体も抑圧されてしまい、抽出した目的音に歪みが発生してしまう恐れがある。
そこで、本発明の音声処理装置100は、現在の周辺環境の状況に適するように、雑音抑圧量を変更する。例えば反響の多い室内環境では、制御部12は、雑音抑圧量を屋外環境と比べて低い値に設定する。
雑音抑圧量は、雑音を含んだ音声から雑音を抑圧する際の雑音抑圧の強さを示す。
仮に、全く反響のない周辺環境(無響環境)であり、さらに音声処理装置100自体による音声の回り込みがない場合には、理論的には、雑音抑圧率を高めることにより、目的音の抽出性能を高めることができる。
しかしながら、実際にはそのような無音環境は理論上にしか存在しないと言ってもよい。特に、反響の多い室内環境では、単純に雑音抑圧率を高めると、目的音自体も抑圧されてしまい、抽出した目的音に歪みが発生してしまう恐れがある。
そこで、本発明の音声処理装置100は、現在の周辺環境の状況に適するように、雑音抑圧量を変更する。例えば反響の多い室内環境では、制御部12は、雑音抑圧量を屋外環境と比べて低い値に設定する。
(2)目的音範囲
目的音範囲は、音声を取得する方向の範囲を示す。
音声処理装置100の位置へ目的音が伝搬してくるおおよその方向は、例えば、ユーザが音声処理装置100のマイクを目的音のほうに向けたり、操作入力部9を操作して設定したりすることにより定まる。
しかしながら、室内のような反響の多い環境では、反響の影響を受けた音声の音源の方向が、空間的な配置のみを考慮した際の目的音の方向とずれて判定されてしまう可能性がある。また、反響の多い環境で、単純に目的音範囲を狭めてしまうと、目的音自体も抑圧してしまい、結果として歪んだ目的音となってしまう可能性がある。
そこで、本発明の音声処理装置100は、室内などのように反響効果が無視できない環境では、室外のときと比べて目的音範囲を広く設定する。
目的音範囲は、音声を取得する方向の範囲を示す。
音声処理装置100の位置へ目的音が伝搬してくるおおよその方向は、例えば、ユーザが音声処理装置100のマイクを目的音のほうに向けたり、操作入力部9を操作して設定したりすることにより定まる。
しかしながら、室内のような反響の多い環境では、反響の影響を受けた音声の音源の方向が、空間的な配置のみを考慮した際の目的音の方向とずれて判定されてしまう可能性がある。また、反響の多い環境で、単純に目的音範囲を狭めてしまうと、目的音自体も抑圧してしまい、結果として歪んだ目的音となってしまう可能性がある。
そこで、本発明の音声処理装置100は、室内などのように反響効果が無視できない環境では、室外のときと比べて目的音範囲を広く設定する。
(3)雑音抑圧フィルタの更新周期
雑音抑圧フィルタの更新周期は、雑音を抑圧する処理に用いるフィルタ係数を更新する時間間隔を定義する。更新周期は、音声処理サンプル単位の数(フレーム数)を用いて表される。
屋外のような反響の少ない環境では、定位した音源音声(目的音および雑音)の方向は急に変化しないため、例えば数十フレームに一度の更新周期でも雑音抑圧に大きくは影響しない。
しかしながら、反響の多い屋内では、音源の位置が少しだけ移動したり、音源からの音声の送出方向が少しだけ変化したりした場合であっても、判定される音源方向が大きく変化する可能性がある。
そこで、本発明の音声処理装置100は、屋内では、例えば数フレーム単位といったように、屋外と比べて更新周期を早くする。
雑音抑圧フィルタの更新周期は、雑音を抑圧する処理に用いるフィルタ係数を更新する時間間隔を定義する。更新周期は、音声処理サンプル単位の数(フレーム数)を用いて表される。
屋外のような反響の少ない環境では、定位した音源音声(目的音および雑音)の方向は急に変化しないため、例えば数十フレームに一度の更新周期でも雑音抑圧に大きくは影響しない。
しかしながら、反響の多い屋内では、音源の位置が少しだけ移動したり、音源からの音声の送出方向が少しだけ変化したりした場合であっても、判定される音源方向が大きく変化する可能性がある。
そこで、本発明の音声処理装置100は、屋内では、例えば数フレーム単位といったように、屋外と比べて更新周期を早くする。
次に、音声処理装置100が音声を録音する際に行う処理の全体の流れを説明する。
図2は、音声録音処理を説明するためのフローチャートである。
図2は、音声録音処理を説明するためのフローチャートである。
ユーザは、操作入力部9を操作して、音声処理装置100を起動する旨の指示を入力する。制御部12は、ユーザからの指示により、音声処理装置100を起動する(ステップS100)。
制御部12は、操作入力部9からの録音開始指示により、音声の録音を開始する(ステップS101)。ここで、制御部12は、音声抽出の際の設定値として、既定の初期値を用いる。
録音中、制御部12は、コーデック部4を制御して、音声抽出部3により抽出された目的音を符号化し、記録部5に記録する。
制御部12は、周辺環境判定部11を制御して、音声処理装置100の周辺環境を判定する(ステップS102)。
制御部12は、ステップS102で判定された周辺環境に基づき、音声抽出部3が音声抽出に用いる設定値を設定する(ステップS103)。
例えば、周辺環境判定部11により「屋内か屋外か」の判定が行われる場合、反響量に応じた設定値パターンを、屋内パターンと屋外パターンの2つについて予めテーブルとして用意し、記録部5に格納しておく。反響量といった段階的な数値が計測可能であれば、制御部12は、判定結果に基づき、設定値パターンを読み出して、音声抽出部3に設定値を設定する。
なお、周辺環境を判定する処理の詳細については後述する。
なお、周辺環境を判定する処理の詳細については後述する。
制御部12は、ステップS101で開始した音声の録音を停止するか否かを判別する(ステップS104)。例えば、制御部12は、ユーザから録音を停止する旨の指示を受け付けると、録音を停止すると判別する。
音声の録音を停止しないと判別した場合(ステップS104;NO)、制御部12は、録音を継続し、周辺環境の判定タイミングになったか否かを判別する(ステップS106)。本実施例では、録音中には、タイミング通知部10からの判定タイミングが制御部12に通知される。制御部12は、通知される判定タイミングに基づいて判別する。
なお、判定タイミングを通知する処理の詳細については後述する。
なお、判定タイミングを通知する処理の詳細については後述する。
現在が判定タイミングでないと判別した場合(ステップS106;NO)、制御部12は、ステップS104の処理に戻る。
一方、現在が判定タイミングであると判別した場合(ステップS106;YES)、制御部12は、ステップS102の処理に戻る。この場合、周辺環境の新たな判定結果に基づき設定値が設定される処理が繰り返される。
ステップS104において、音声の録音を停止すると判別した場合(ステップS104;YES)、制御部12は、録音を終了する(ステップS105)。
以上のように、音声の録音中に、音声処理装置100の周辺環境が変化したとしても、変化に追従して設定値を変更することが可能になる。
なお、タイミング通知部10からのタイミング通知が録音中にのみ行われるものとして説明したが、録音状態に関係なく、音声処理装置100が起動中の任意の動作状態において、タイミング通知部10からタイミングが通知されるようにすることもできる。例えば、制御部12は、録音開始前に、音声抽出部3に最適な設定を行った後、録音を開始するように制御することができる。
次に、ステップS102における周辺環境を判定する処理の詳細について説明する。
周辺環境の判定の仕方には、距離測定による判定、電波の受信レベルによる判定、反響量による判定、位置情報による判定、がある。以下順次説明する。
周辺環境の判定の仕方には、距離測定による判定、電波の受信レベルによる判定、反響量による判定、位置情報による判定、がある。以下順次説明する。
(距離測定による周辺環境の判定)
図3は、音声処理装置100が設置されている場所が室内か室外かによって設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図3は、音声処理装置100が設置されている場所が室内か室外かによって設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図1のブロック図との相違点は、音声処理装置100が周辺環境を判定するために設けられた距離測定部300を更に有する点である。
距離測定部300は、所定の測定波(典型的には、所定波長のレーザー光)を周囲に照射し、測定波の反射波を測定し、測定波と反射波との位相差等に基づき、音声処理装置100と周囲の壁や天井などとの距離を測定する。測定結果は、周辺環境判定部11に入力される。周辺環境判定部11は、距離測定部300により測定された距離に基づいて、音声処理装置100が室内にあるのか室外にあるのかを判定(推定)する。
例えば、少なくとも音声処理装置100から天井までの距離が測定できれば、室外か室内かの判定ができることが多いので、音声処理装置100の上側(音声処理装置100が置かれるときに重力と反対の向きにある側)に、距離測定部300の発光・受光部分を取り付けることが望ましい。
音声処理装置100から壁などの天井以外までの距離に関しては、レーザーであれば、指向性を変更するなどにより、計測することができる。
音声処理装置100から一方向の障害物までの距離(典型的には、天井までの距離)だけが測定可能であるならば、制御部12は、一方向の測定結果に基づいて室内か室外かを判定し、音声抽出部3が用いる設定値を決定する。
また、音声処理装置100から複数方向の障害物までの距離(典型的には、天井までの距離と、壁までの距離)が測定可能であり、室内の大きさまで判定できるのであれば、制御部12は、測定された室内の大きさにあわせた段階的な設定値を決定する。
音声処理装置100は、周辺環境に合わせた設定を行うことで、音声処理装置100が置かれている状況に適していると推定される条件で、目的音を抽出することができる。
また、音声処理装置100から複数方向の障害物までの距離(典型的には、天井までの距離と、壁までの距離)が測定可能であり、室内の大きさまで判定できるのであれば、制御部12は、測定された室内の大きさにあわせた段階的な設定値を決定する。
音声処理装置100は、周辺環境に合わせた設定を行うことで、音声処理装置100が置かれている状況に適していると推定される条件で、目的音を抽出することができる。
(電波の受信レベルによる周辺環境の判定)
図4は、音声処理装置100による放送電波の受信状態に基づいて設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図4は、音声処理装置100による放送電波の受信状態に基づいて設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図1のブロック図との相違点は、音声処理装置100がデジタル放送(典型的にはワンセグ放送等)を受信する放送受信部400を更に有する点である。
放送受信部400は、放送受信用チューナーを備え、放送電波の受信レベル(受信した放送電波の強さ)、エラーレートなどの受信状態を検知する。
制御部12は、ユーザから放送を受信する旨の指示を受け付けると、放送受信部400を制御して放送を受信し、受信した放送の映像を、表示部8を制御して表示する。
また、制御部12は、放送を受信する旨の指示を受け付けていない場合であっても、タイミング通知部10から通知されたタイミングで、放送受信部400を制御して放送電波を受信し、放送受信部400は、放送電波の受信レベル又はエラーレートを検知することができる。
放送受信部400は、放送の受信状態を周辺環境判定部11に通知する。周辺環境判定部11は、受信レベルが所定値未満である場合、周辺環境が「室内である」と判定し、受信レベルが所定値以上である場合、周辺環境が「室外である」と判定する。そして、周辺環境判定部11は、判定結果を制御部12に通知する。
制御部12は、通知された判定結果に基づいて、音声抽出部3が用いる設定値を決定する。
例えば、記録部5には、設定値が、受信レベルやエラーレートに対応付けて予め記憶される。制御部12は、検知された受信レベルやエラーレートに対応する設定値を読み出して設定する。
例えば、記録部5には、設定値が、受信レベルやエラーレートに対応付けて予め記憶される。制御部12は、検知された受信レベルやエラーレートに対応する設定値を読み出して設定する。
音声処理装置100は、電波の受信レベルに応じて周辺環境に合わせた設定を行うことで、音声処理装置100が置かれている状況に適していると推定される条件で、目的音を抽出することができる。
なお、音声処理装置100は、デジタル放送の受信状態を検知する放送受信部400を備える代わりに、もしくはこれに加えて、GPS(Global Positioning System)の電波の受信状態を検知する構成を備えていてもよい。そして、周辺環境判定部11は、受信したGPSの電波の受信レベルが所定値未満である場合、周辺環境が「室内である」と判定し、受信レベルが所定値以上である場合、周辺環境が「室外である」と判定してもよい。
(反響量による周辺環境の判定)
図5は、音声の反響量に基づいて設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図5は、音声の反響量に基づいて設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図1のブロック図との相違点は、音声処理装置100が受信した音声の反響量を測定する反響量測定部500を有する点である。
記録部5には、反響量を測定するために用いる反響量測定用固定音の音声データが格納されている。
制御部12は、反響量を測定する際には、記録部5に格納されている反響量測定用固定音の音声データを読み出し、コーデック部4を制御して復号し、DAC6を制御してアナログ音声に変換し、スピーカー7から反響量測定用固定音を出力する。
反響量測定用固定音をスピーカー7から出力した後、制御部12は、反響量測定用固定音を含む音声をアレイマイク1で取得する。
反響量測定部500は、反響量測定用固定音を出力してからその反射音が測定されるまでにかかる時間(遅延時間)や、反射音が繰り返し到達する回数などに基づいて、反響量を測定する。反響量は、音声にどの程度エコーがかかるかを示すパラメータであり、所定の計算式を用いて求められる。
反響量測定部500は、反響量の測定結果を周辺環境判定部11に通知する。周辺環境判定部11は、反響量が所定値以上である場合、周辺環境が「室内である」と判定し、反響量が所定値未満である場合、周辺環境が「室外である」と判定する。そして、周辺環境判定部11は、判定結果を制御部12に通知する。
音声処理装置100は、反響の度合いに応じた設定を行うことにより、音声処理装置100が現在置かれている周辺環境に適していると推定される条件で、目的音を抽出することができる。
例えば、反響量測定用固定音として、人間の可聴領域範囲外の周波数(例えば20kHz以上)の音声を利用することで、録音中の音声に影響なく、反響量を測定することができる。
(位置情報による周辺環境の判定)
図6は、位置情報に基づいて設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図6は、位置情報に基づいて設定値を変更することができる音声処理装置100の構成を示すブロック図である。
図1のブロック図との相違点は、音声処理装置100の位置情報を検出する位置情報検出部600と、建物の情報を含む地図情報を予め格納する地図情報格納部601と、を更に有する点である。
位置情報検出部600は、GPSの電波を測定し、音声処理装置100の現在位置を取得する。現在位置は、緯度と経度を用いた数値で表される。
制御部12は、例えば、録音を開始する旨の指示を受け付けると、位置情報検出部600を制御して、音声処理装置100の現在位置を取得する。位置情報検出部600は、取得した現在位置を示す情報を周辺環境判定部11に通知する。
周辺環境判定部11は、通知された現在位置に対応する地図情報を地図情報格納部601から取得し、現在位置が建物のある位置であれば「屋内である」と判定し、建物のない位置であれば「屋外である」と判定する。
音声処理装置100は、現在位置に応じた設定を行うことにより、音声処理装置100が現在置かれている周辺環境に適していると推定される条件で、目的音を抽出することができる。
なお、位置情報検出部600は、GPSによって現在位置を取得する代わりに、携帯電話の基地局や無線LAN(Local Area Network)のアクセスポイントと通信を行い、通信できた基地局やアクセスポイントを識別する情報に基づいて現在位置を取得してもよい。
周辺環境判定方法として、図3〜6を用いて個別に説明したが、例えば距離測定による判定と位置情報による判定を組み合わせるなど、複数の手法を自由に組み合わせて用いることが可能である。また、複数の手法を組み合わせて用いることにより、周辺環境の判定の精度を上げることが可能である。
次に、ステップS106における判定タイミングを決定する処理の詳細について説明する。上述のように、判定タイミングの通知は、音声処理装置100が起動中の任意の機会に行われてもよいし、録音中にのみ行われるようにしてもよい。
判定タイミングの決定の仕方には、タイマーによる決定、移動状態による決定、位置情報による決定がある。以下順次説明する。
(タイマーによる判定タイミングの決定)
図1において、タイミング通知部10は、内蔵するRTC(Real Time Clock)を用いて、所定の時間間隔で判定タイミングを決定する。例えば、10秒に1回などのような、定期的な時間間隔で判定タイミングが決定される。時間間隔の値は、本発明によって限定されない。
図1において、タイミング通知部10は、内蔵するRTC(Real Time Clock)を用いて、所定の時間間隔で判定タイミングを決定する。例えば、10秒に1回などのような、定期的な時間間隔で判定タイミングが決定される。時間間隔の値は、本発明によって限定されない。
タイミング通知部10は、判定タイミングになるとその旨を制御部12に通知する。ステップS106において、制御部12は、タイミング通知部10からの通知に基づいて、現在が判定タイミングか否かを判別する。これにより、所定の時間間隔で、音声抽出部3に設定する設定値を変更することが可能となる。音声抽出時の雑音抑圧量、目的音範囲、あるいは、雑音抑圧フィルタの更新周期は、定期的に適宜更新されるので、目的音を抽出する精度を高めることができる。
(移動状態による判定タイミングの決定)
図7は、音声処理装置100の移動状態に応じて判定タイミングを決定することができる音声処理装置100の構成を示すブロック図である。
図7は、音声処理装置100の移動状態に応じて判定タイミングを決定することができる音声処理装置100の構成を示すブロック図である。
図1のブロック図との相違点は、音声処理装置100が移動中か停止中かといった移動状態を検出する移動状態検出部700を更に有する点である。
移動状態検出部700は、例えば加速度センサを内蔵し、加速度の絶対値もしくは加速度の変化量を検出する。そして、移動状態検出部700は、検出結果をタイミング通知部10に通知する。
通知される検出結果の内容は、加速度の絶対値もしくは加速度の変化量でもよいし、移動している(又は静止している)といった簡易な情報でもよい。
加速度センサの数は1つでもよいが、精度を上げるためには、例えば3軸センサのように、複数であることが望ましい。
タイミング通知部10は、通知された検出結果に基づいて、音声処理装置100が移動しているか否かを判別する。例えば、タイミング通知部10は、検出された加速度が所定値以上の場合に「移動している」と判別し、所定値未満の場合に「静止している」と判別する。
そして、タイミング通知部10は、音声処理装置100が移動中であると判別した場合に、一定期間ごとに判定タイミングを制御部12に通知する。これにより、音声処理装置100は、音声処理装置100の移動中であると推定されれば、周辺環境を繰り返し判定することにより、音声抽出部3に設定する設定値を即座に更新することが可能である。さらに、音声処理装置100は、自身が移動していない間、周辺環境を判定する処理を削減することができ、負荷の軽減が実現される。
音声処理装置100が移動している場合、音声処理装置100の周辺環境が変化している(変化した)可能性がある。そこで、音声処理装置100が移動していると推定される状況では、音声抽出時の雑音抑圧量、目的音範囲、あるいは、雑音抑圧フィルタの更新周期を再設定することによって、音声処理装置100が置かれている状況に適していると推定される条件で、目的音を抽出することができる。
(位置情報による判定タイミングの決定)
図8は、音声処理装置100の位置情報に応じて判定タイミングを決定することができる音声処理装置100の構成を示すブロック図である。
図8は、音声処理装置100の位置情報に応じて判定タイミングを決定することができる音声処理装置100の構成を示すブロック図である。
図1のブロック図との相違点は、音声処理装置100の現在の位置を検出する位置情報検出部800を更に有する点である。
位置情報検出部800は、GPSの電波を測定し、音声処理装置100の現在位置を取得する。現在位置は、緯度と経度を用いた数値で表される。
取得された位置情報は、制御部12もしくは位置情報検出部600が有するRAMに一時記憶される。例えば、RAMには、直近の所定回数分の位置情報の履歴が記憶される。
タイミング通知部10は、例えば10秒ごとに1回といったように、位置情報を検出するタイミングになると、現在の位置情報を取得するように位置情報検出部800に通知する。位置情報検出部800は、この通知を受け取ると、音声処理装置100の現在位置を取得する。位置情報取得部800は、取得した現在位置を示す情報をタイミング通知部10に通知する。
あるいは、位置情報検出部800は、RAMに記憶された位置情報の履歴を参照し、今回得られた位置情報が示す現在位置が、前回得られた位置情報が示す位置から所定距離以上離れている場合に、音声処理装置100が移動している(移動した)旨をタイミング通知部10に通知してもよい。所定距離は、例えば10メートルなど、任意に設定することができる。
そして、タイミング通知部10は、音声処理装置100が移動している(移動した)と判別した場合に、その旨を制御部12に通知する。これにより、音声処理装置100は、音声処理装置100が移動している(移動した)と推定されれば、周辺環境を繰り返し判定することにより、音声抽出部3に設定する設定値を即座に更新することが可能である。
本実施形態によれば、音声処理装置100の周辺環境に合わせた音声抽出を行うことができる。そして、目的音を歪ませることなく、高品質な目的音を取得することが可能となる。
例えば、本発明をムービーの音声記録に利用した場合、ユーザ自身が撮影時の周辺環境を判断して音声抽出部3への設定値を調整する必要がない。そして、自動的に判定された周辺環境に応じて最適な録音条件に設定される。また、周辺環境が変化すると、その時々に最適な録音条件に設定され、効率よく精度の高い音声抽出を行うことが可能となる。
本発明は、上述した実施形態に限定されず、種々の変形及び応用が可能である。また、上述した実施形態の各構成要素を自由に組み合わせることも可能である。
以上説明したように、本発明によれば、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムを提供することができる。
1…アレイマイク、2…ADC、3…音声抽出部、4…コーデック部、5…記録部、6…DAC、7…スピーカー、8…表示部、9…操作入力部、10…タイミング通知部、11…周辺環境判定部、12…制御部、300…距離測定部、400…放送受信部、500…反響量測定部、600…位置情報検出部、601…地図情報格納部、700…移動状態検出部、800…位置情報検出部
Claims (11)
- 音声を抽出する音声処理装置であって、
複数の音声を取得する音声取得手段と、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段と、
前記音声処理装置の周辺環境を判定する周辺環境判定手段と、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段と、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段と、
を備え、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする音声処理装置。 - 前記制御手段は、雑音に対する抑圧の強さを示す音声抑圧量と、抽出対象とする方向を示す抽出範囲と、雑音抑圧フィルタの更新周期と、のうち少なくとも一つを前記設定値として制御する、
ことを特徴とする、請求項1に記載の音声処理装置。 - 前記音声処理装置からの距離を測定する距離測定手段を更に備え、
前記周辺環境判定手段は、前記測定された距離に基づいて、前記周辺環境を判定する、
ことを特徴とする、請求項1又は2に記載の音声処理装置。 - 放送電波を受信する放送受信手段を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記受信された放送電波の受信状況に基づいて、前記音声処理装置が設置された場所が室内か室外かを判定する、
ことを特徴とする、請求項1乃至3のいずれか1項に記載の音声処理装置。 - 所定の測定音を出力し、当該出力した測定音の反射音を取得し、当該出力した測定音と当該取得した反射音とに基づいて、反響量を測定する反響量測定手段を更に備え、
前記周辺環境判定手段は、前記測定された反響量に基づいて、前記周辺環境を判定する、
ことを特徴とする、請求項1乃至4のいずれか1項に記載の音声処理装置。 - 地図情報を格納する地図情報格納手段と、
前記音声処理装置の位置を検出する位置情報検出手段と、
を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記格納された地図情報と前記検出された位置とに基づいて、前記音声処理装置が設置された場所が屋内か屋外かを判定する、
ことを特徴とする、請求項1乃至5のいずれか1項に記載の音声処理装置。 - 前記タイミング通知手段は、所定の周期で、前記タイミングを前記制御手段に通知する、
ことを特徴とする、請求項1乃至6のいずれか1項に記載の音声処理装置。 - 前記音声処理装置の移動状態を検出する移動状態検出手段を更に備え、
前記タイミング通知手段は、前記検出された移動状態が、前記音声処理装置が移動していることを示す状態である場合に、前記タイミングを前記制御手段に通知する、
ことを特徴とする、請求項1乃至7のいずれか1項に記載の音声処理装置。 - 前記音声処理装置の位置を検出する位置情報検出手段を更に備え、
前記位置情報検出手段は、所定の周期で、前記位置を検出し、
前記タイミング通知手段は、前記検出された位置の所定期間における履歴に基づいて、前記音声処理装置が移動しているか否かを判定し、移動していると判定した場合に、前記タイミングを前記制御手段に通知する、
ことを特徴とする、請求項1乃至5、7、8のいずれか1項に記載の音声処理装置。 - 音声を抽出する音声処理装置において実行される音声処理方法であって、
複数の音声を取得する音声取得ステップと、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出ステップと、
前記音声処理装置の周辺環境を判定する周辺環境判定ステップと、
前記音声抽出ステップにおいて前記抽出すべき音声を抽出するために用いる設定値を制御する制御ステップと、
前記周辺環境判定ステップにおいて周辺環境を判定するタイミングを通知するタイミング通知ステップと、
を備え、
前記制御ステップでは、前記通知されるタイミングに従って、前記周辺環境判定ステップにおいて前記周辺環境を判定させ、前記周辺環境判定ステップによる判定結果に応じた設定値を設定するように制御する、
ことを特徴とする音声処理方法。 - 音声を抽出するコンピュータを、
複数の音声を取得する音声取得手段、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段、
前記コンピュータの周辺環境を判定する周辺環境判定手段、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段、
として機能させ、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009283776A JP5360904B2 (ja) | 2009-12-15 | 2009-12-15 | 音声処理装置、音声処理方法、及び、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009283776A JP5360904B2 (ja) | 2009-12-15 | 2009-12-15 | 音声処理装置、音声処理方法、及び、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011129977A JP2011129977A (ja) | 2011-06-30 |
JP5360904B2 true JP5360904B2 (ja) | 2013-12-04 |
Family
ID=44292129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009283776A Expired - Fee Related JP5360904B2 (ja) | 2009-12-15 | 2009-12-15 | 音声処理装置、音声処理方法、及び、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5360904B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014109601A (ja) * | 2012-11-30 | 2014-06-12 | Ntt Docomo Inc | 音声処理システム、音声処理装置、音声処理方法及びプログラム |
CN104468930B (zh) * | 2013-09-17 | 2018-08-31 | 南京中兴软件有限责任公司 | 一种放音响度调整方法及装置 |
JP6361360B2 (ja) * | 2014-08-05 | 2018-07-25 | 沖電気工業株式会社 | 残響判定装置及びプログラム |
US11276405B2 (en) | 2020-05-21 | 2022-03-15 | International Business Machines Corporation | Inferring sentiment to manage crowded spaces by using unstructured data |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3204278B2 (ja) * | 1993-03-04 | 2001-09-04 | ソニー株式会社 | マイクロホン装置 |
-
2009
- 2009-12-15 JP JP2009283776A patent/JP5360904B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011129977A (ja) | 2011-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11051105B2 (en) | Locating wireless devices | |
CN110024030B (zh) | 情境感知听力优化引擎 | |
EP2625621B1 (en) | Method and system for enhancing sound | |
JP5360904B2 (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
JP2012502596A (ja) | ネットワーク上で音を監視するための方法およびシステム | |
DE60220032D1 (de) | System und verfahren zum automatischen einstellen des klangs und visueller parameter eines home-theatre-systems | |
CN104158970A (zh) | 一种环境声音提醒方法和移动终端 | |
US10820093B2 (en) | Sound collecting terminal, sound providing terminal, sound data processing server, and sound data processing system using the same | |
US20230353940A1 (en) | Intelligent audio for physical spaces | |
JP2014512127A (ja) | モバイルデバイスとベースユニットとの間の距離及び/又は音響品質の判定 | |
US20180252795A1 (en) | Enhancing indoor positioning using passive acoustic tags | |
JP2008271465A (ja) | 携帯通信端末、位置特定システム、位置特定サーバ | |
US20200252738A1 (en) | Acoustical listening area mapping and frequency correction | |
KR20150002704A (ko) | 모바일 디바이스들의 상대적 포지션들을 이용한 상황 인식 | |
CN103309657A (zh) | 一种更换移动设备响铃音频的方法、装置和设备 | |
KR101255533B1 (ko) | 옥외 스피커 출력음 간의 간섭을 조정하는 방송 장치 및 방송 방법 | |
CN103037068A (zh) | 自动切换振铃模式的方法及其电子装置 | |
JP6163924B2 (ja) | 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。 | |
JP2008298499A (ja) | 地震報知装置 | |
JP6927726B2 (ja) | 同報放送システム及び子局装置 | |
JP5727329B2 (ja) | 携帯通信端末、接近通知プログラムおよび接近通知方法 | |
WO2024070121A1 (ja) | 通知システムおよび通知方法 | |
KR101604130B1 (ko) | 건물 내부용 경보방송시스템 및 경보방송방법 | |
US12136432B2 (en) | Methods for reducing error in environmental noise compensation systems | |
JP2012194295A (ja) | 音声出力システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130829 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |