JP5360904B2

JP5360904B2 - 音声処理装置、音声処理方法、及び、プログラム

Info

Publication number: JP5360904B2
Application number: JP2009283776A
Authority: JP
Inventors: 裕二山本
Original assignee: NEC Casio Mobile Communications Ltd
Current assignee: NEC Casio Mobile Communications Ltd
Priority date: 2009-12-15
Filing date: 2009-12-15
Publication date: 2013-12-04
Anticipated expiration: 2029-12-15
Also published as: JP2011129977A

Description

本発明は、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムに関する。

複数のマイク（アレイマイク）を利用し、各マイクに入力される音声から不要な音源音声（以下「雑音」という。）を抑圧し、抽出すべき特定の音声（以下「目的音」という。）を抽出する音源分離技術がある。目的音と雑音を区別するためには、目的音がどの方向（以下「目的音方向」という。）のどの範囲（以下「目的音範囲」という。）から到来しているかを判定する必要がある。
例えば、特許文献１には、アレイマイクを備え、そのアレイマイクで取得した同一音源音声の位相差により、それぞれの音源音声の方向を判定し、特定された方向からの目的音となる音源音声のみを抽出する音源分離技術が開示されている。

特開平７−９２９８８号公報

しかしながら、特許文献１に開示される技術は、音源が到来する方向を判定することによって音源を分離する技術であるので、雑音と目的音が同一方向から到来した場合には、雑音の抑圧が困難となる。
また、雑音と目的音が別方向から到来した場合においても、屋内環境では、壁や天井等による反響のため、目的音と雑音が同一方向から到来していると誤判定してしまう可能性がある。そして、屋内環境において、屋外環境と同じように音源分離処理を行うと、雑音が抑圧できないばかりか、目的音自体を歪ませてしまうといった悪影響が発生する可能性がある。

本発明はこのような課題を解決するものであり、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムを提供することを目的とする。

以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。

本発明の第１の観点に係る音声処理装置は、音声を抽出する音声処理装置であって、
複数の音声を取得する音声取得手段と、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段と、
前記音声処理装置の周辺環境を判定する周辺環境判定手段と、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段と、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段と、
を備え、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。

前記制御手段は、雑音に対する抑圧の強さを示す音声抑圧量と、抽出対象とする方向を示す抽出範囲と、雑音抑圧フィルタの更新周期と、のうち少なくとも一つを前記設定値として制御してもよい。

前記音声処理装置からの距離を測定する距離測定手段を更に備え、
前記周辺環境判定手段は、前記測定された距離に基づいて、前記周辺環境を判定してもよい。

放送電波を受信する放送受信手段を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記受信された放送電波の受信状況に基づいて、前記音声処理装置が設置された場所が室内か室外かを判定してもよい。

所定の測定音を出力し、当該出力した測定音の反射音を取得し、当該出力した測定音と当該取得した反射音とに基づいて、反響量を測定する反響量測定手段を更に備え、
前記周辺環境判定手段は、前記測定された反響量に基づいて、前記周辺環境を判定してもよい。

地図情報を格納する地図情報格納手段と、
前記音声処理装置の位置を検出する位置情報検出手段と、
を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記格納された地図情報と前記検出された位置とに基づいて、前記音声処理装置が設置された場所が屋内か屋外かを判定してもよい。

前記タイミング通知手段は、所定の周期で、前記タイミングを前記制御手段に通知してもよい。

前記音声処理装置の移動状態を検出する移動状態検出手段を更に備え、
前記タイミング通知手段は、前記検出された移動状態が、前記音声処理装置が移動していることを示す状態である場合に、前記タイミングを前記制御手段に通知してもよい。

前記音声処理装置の位置を検出する位置情報検出手段を更に備え、
前記位置情報検出手段は、所定の周期で、前記位置を検出し、
前記タイミング通知手段は、前記検出された位置の所定期間における履歴に基づいて、前記音声処理装置が移動しているか否かを判定し、移動していると判定した場合に、前記タイミングを前記制御手段に通知してもよい。

本発明の第２の観点に係る音声処理方法は、音声を抽出する音声処理装置において実行される音声処理方法であって、
複数の音声を取得する音声取得ステップと、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出ステップと、
前記音声処理装置の周辺環境を判定する周辺環境判定ステップと、
前記音声抽出ステップにおいて前記抽出すべき音声を抽出するために用いる設定値を制御する制御ステップと、
前記周辺環境判定ステップにおいて周辺環境を判定するタイミングを通知するタイミング通知ステップと、
を備え、
前記制御ステップでは、前記通知されるタイミングに従って、前記周辺環境判定ステップにおいて前記周辺環境を判定させ、前記周辺環境判定ステップによる判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。

本発明の第３の観点に係るプログラムは、音声を抽出するコンピュータを、
複数の音声を取得する音声取得手段、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段、
前記コンピュータの周辺環境を判定する周辺環境判定手段、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段、
として機能させ、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする。

本発明によれば、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムを提供することができる。

音声処理装置の構成を示すブロック図である。音声録音処理を説明するためのフローチャートである。距離測定部を更に有する音声処理装置の構成を示すブロック図である。放送受信部を更に有する音声処理装置の構成を示すブロック図である。反響量測定部を更に有する音声処理装置の構成を示すブロック図である。位置情報検出部と地図情報格納部を更に有する音声処理装置の構成を示すブロック図である。移動状態検出部を更に有する音声処理装置の構成を示すブロック図である。位置情報検出部を更に有する音声処理装置の構成を示すブロック図である。

図１は、本実施形態の音声処理装置１００の構成を示すブロック図である。音声処理装置１００は、アレイマイク１、ＡＤＣ（Analog/Digital Converter）２、音声抽出部３、コーデック部４、記録部５、ＤＡＣ（Digital/Analog Converter）６、スピーカー７、表示部８、操作入力部９、タイミング通知部１０、周辺環境判定部１１、制御部１２を備える。

アレイマイク１は、音声を入力するための複数のマイクから構成され、複数のマイクのそれぞれは、音声を取得する。アレイマイク１は、相互に接続された複数のマイクが配列されて構成される。それぞれのマイクは、例えば、一次元、二次元、三次元に配列される。

ＡＤＣ２は、アレイマイク１から入力された複数の音声のそれぞれをデジタル信号に変換する。

音声抽出部３は、ＡＤＣ２によりアナログ信号からデジタル信号に変換された複数の音声から、ある方向から発せられる抽出すべき音声（以下「目的音」という。）を抽出する。

例えば、会議の様子を録音しているとき、発言する人の音声が“目的音”であり、また、会議と関係ない物音や雑音が“目的音でない音”、つまり“雑音”になる。

コーデック部４は、録音時には、音声抽出部３で抽出された目的音を所定のアルゴリズムにより符号化して圧縮する。また、再生時には、コーデック部４は、記録部５に記録された符号化音声を復号する。

記録部５は、コーデック部４により符号化された音声を格納する。典型的には、記録部５は、ハードディスクやメモリカード等の記録装置から構成される。
アレイマイク１で取得された音声のうち、抽出された目的音を表す音声データは、符号化された後、記録部５に記録される。

ＤＡＣ６は、コーデック部４により復号されたデジタル音声をアナログ信号に変換する。

スピーカー７は、ＤＡＣ６によりデジタル信号からアナログ信号に変換された音声を出力する。
つまり、復号された音声データは、ＤＡＣ６に入力された後、スピーカー７から出力される。ユーザは、記録部５に記録された音声データを再生して聞くことができる。

表示部８は、音声処理装置１００の各種設定情報や、音声処理装置１００の状態（例えば録音状態か再生状態か）等を表示する。表示部８は、ＬＣＤ（Liquid Crystal Display）等を備える。

操作入力部９は、音声処理装置１００の起動と停止の指示や、録音の開始と終了の指示などをユーザから受け付けて、対応する指示信号を制御部１２に入力する。

タイミング通知部１０は、音声録音の際の音声処理装置１００の周辺環境の変化に対応するために、周辺環境を判定するタイミングを制御部１２に通知する。この周辺環境を判定するタイミングを決める処理の詳細については後述するが、タイマーを用いる手法、音声処理装置１００の移動状況に基づく手法、音声処理装置１００の位置情報に基づく手法などがある。

周辺環境判定部１１は、音声録音の際の音声処理装置１００の周辺環境を判定する。周辺環境を判定する処理の詳細については後述する。

周辺環境とは、例えば、音声処理装置１００が設置される場所が屋内（室内）か屋外（室外）か、音声処理装置１００が設置される場所においてデジタル放送などの電波がどの程度の感度で受信できるか、音声処理装置１００が設置される場所において音声がどの程度反響するか、音声処理装置１００の地理的な位置がどこか、などである。

制御部１２は、音声処理装置１００全体を制御する。制御部１２は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などから構成される。例えば、制御部１２は、音声抽出部３により音声抽出処理を制御するために用いる所定の設定値を適宜変更する。

設定値とは、具体的には、（１）音声抽出時の雑音抑圧量、（２）目的音範囲、（３）雑音抑圧フィルタの更新周期、などである。以下順次説明する。

（１）音声抽出時の雑音抑圧量
雑音抑圧量は、雑音を含んだ音声から雑音を抑圧する際の雑音抑圧の強さを示す。
仮に、全く反響のない周辺環境（無響環境）であり、さらに音声処理装置１００自体による音声の回り込みがない場合には、理論的には、雑音抑圧率を高めることにより、目的音の抽出性能を高めることができる。
しかしながら、実際にはそのような無音環境は理論上にしか存在しないと言ってもよい。特に、反響の多い室内環境では、単純に雑音抑圧率を高めると、目的音自体も抑圧されてしまい、抽出した目的音に歪みが発生してしまう恐れがある。
そこで、本発明の音声処理装置１００は、現在の周辺環境の状況に適するように、雑音抑圧量を変更する。例えば反響の多い室内環境では、制御部１２は、雑音抑圧量を屋外環境と比べて低い値に設定する。

（２）目的音範囲
目的音範囲は、音声を取得する方向の範囲を示す。
音声処理装置１００の位置へ目的音が伝搬してくるおおよその方向は、例えば、ユーザが音声処理装置１００のマイクを目的音のほうに向けたり、操作入力部９を操作して設定したりすることにより定まる。
しかしながら、室内のような反響の多い環境では、反響の影響を受けた音声の音源の方向が、空間的な配置のみを考慮した際の目的音の方向とずれて判定されてしまう可能性がある。また、反響の多い環境で、単純に目的音範囲を狭めてしまうと、目的音自体も抑圧してしまい、結果として歪んだ目的音となってしまう可能性がある。
そこで、本発明の音声処理装置１００は、室内などのように反響効果が無視できない環境では、室外のときと比べて目的音範囲を広く設定する。

（３）雑音抑圧フィルタの更新周期
雑音抑圧フィルタの更新周期は、雑音を抑圧する処理に用いるフィルタ係数を更新する時間間隔を定義する。更新周期は、音声処理サンプル単位の数（フレーム数）を用いて表される。
屋外のような反響の少ない環境では、定位した音源音声（目的音および雑音）の方向は急に変化しないため、例えば数十フレームに一度の更新周期でも雑音抑圧に大きくは影響しない。
しかしながら、反響の多い屋内では、音源の位置が少しだけ移動したり、音源からの音声の送出方向が少しだけ変化したりした場合であっても、判定される音源方向が大きく変化する可能性がある。
そこで、本発明の音声処理装置１００は、屋内では、例えば数フレーム単位といったように、屋外と比べて更新周期を早くする。

次に、音声処理装置１００が音声を録音する際に行う処理の全体の流れを説明する。
図２は、音声録音処理を説明するためのフローチャートである。

ユーザは、操作入力部９を操作して、音声処理装置１００を起動する旨の指示を入力する。制御部１２は、ユーザからの指示により、音声処理装置１００を起動する（ステップＳ１００）。

制御部１２は、操作入力部９からの録音開始指示により、音声の録音を開始する（ステップＳ１０１）。ここで、制御部１２は、音声抽出の際の設定値として、既定の初期値を用いる。

録音中、制御部１２は、コーデック部４を制御して、音声抽出部３により抽出された目的音を符号化し、記録部５に記録する。

制御部１２は、周辺環境判定部１１を制御して、音声処理装置１００の周辺環境を判定する（ステップＳ１０２）。

制御部１２は、ステップＳ１０２で判定された周辺環境に基づき、音声抽出部３が音声抽出に用いる設定値を設定する（ステップＳ１０３）。

例えば、周辺環境判定部１１により「屋内か屋外か」の判定が行われる場合、反響量に応じた設定値パターンを、屋内パターンと屋外パターンの２つについて予めテーブルとして用意し、記録部５に格納しておく。反響量といった段階的な数値が計測可能であれば、制御部１２は、判定結果に基づき、設定値パターンを読み出して、音声抽出部３に設定値を設定する。
なお、周辺環境を判定する処理の詳細については後述する。

制御部１２は、ステップＳ１０１で開始した音声の録音を停止するか否かを判別する（ステップＳ１０４）。例えば、制御部１２は、ユーザから録音を停止する旨の指示を受け付けると、録音を停止すると判別する。

音声の録音を停止しないと判別した場合（ステップＳ１０４；ＮＯ）、制御部１２は、録音を継続し、周辺環境の判定タイミングになったか否かを判別する（ステップＳ１０６）。本実施例では、録音中には、タイミング通知部１０からの判定タイミングが制御部１２に通知される。制御部１２は、通知される判定タイミングに基づいて判別する。
なお、判定タイミングを通知する処理の詳細については後述する。

現在が判定タイミングでないと判別した場合（ステップＳ１０６；ＮＯ）、制御部１２は、ステップＳ１０４の処理に戻る。

一方、現在が判定タイミングであると判別した場合（ステップＳ１０６；ＹＥＳ）、制御部１２は、ステップＳ１０２の処理に戻る。この場合、周辺環境の新たな判定結果に基づき設定値が設定される処理が繰り返される。

ステップＳ１０４において、音声の録音を停止すると判別した場合（ステップＳ１０４；ＹＥＳ）、制御部１２は、録音を終了する（ステップＳ１０５）。

以上のように、音声の録音中に、音声処理装置１００の周辺環境が変化したとしても、変化に追従して設定値を変更することが可能になる。

なお、タイミング通知部１０からのタイミング通知が録音中にのみ行われるものとして説明したが、録音状態に関係なく、音声処理装置１００が起動中の任意の動作状態において、タイミング通知部１０からタイミングが通知されるようにすることもできる。例えば、制御部１２は、録音開始前に、音声抽出部３に最適な設定を行った後、録音を開始するように制御することができる。

次に、ステップＳ１０２における周辺環境を判定する処理の詳細について説明する。
周辺環境の判定の仕方には、距離測定による判定、電波の受信レベルによる判定、反響量による判定、位置情報による判定、がある。以下順次説明する。

（距離測定による周辺環境の判定）
図３は、音声処理装置１００が設置されている場所が室内か室外かによって設定値を変更することができる音声処理装置１００の構成を示すブロック図である。

図１のブロック図との相違点は、音声処理装置１００が周辺環境を判定するために設けられた距離測定部３００を更に有する点である。

距離測定部３００は、所定の測定波（典型的には、所定波長のレーザー光）を周囲に照射し、測定波の反射波を測定し、測定波と反射波との位相差等に基づき、音声処理装置１００と周囲の壁や天井などとの距離を測定する。測定結果は、周辺環境判定部１１に入力される。周辺環境判定部１１は、距離測定部３００により測定された距離に基づいて、音声処理装置１００が室内にあるのか室外にあるのかを判定（推定）する。

例えば、少なくとも音声処理装置１００から天井までの距離が測定できれば、室外か室内かの判定ができることが多いので、音声処理装置１００の上側（音声処理装置１００が置かれるときに重力と反対の向きにある側）に、距離測定部３００の発光・受光部分を取り付けることが望ましい。

音声処理装置１００から壁などの天井以外までの距離に関しては、レーザーであれば、指向性を変更するなどにより、計測することができる。

音声処理装置１００から一方向の障害物までの距離（典型的には、天井までの距離）だけが測定可能であるならば、制御部１２は、一方向の測定結果に基づいて室内か室外かを判定し、音声抽出部３が用いる設定値を決定する。
また、音声処理装置１００から複数方向の障害物までの距離（典型的には、天井までの距離と、壁までの距離）が測定可能であり、室内の大きさまで判定できるのであれば、制御部１２は、測定された室内の大きさにあわせた段階的な設定値を決定する。
音声処理装置１００は、周辺環境に合わせた設定を行うことで、音声処理装置１００が置かれている状況に適していると推定される条件で、目的音を抽出することができる。

（電波の受信レベルによる周辺環境の判定）
図４は、音声処理装置１００による放送電波の受信状態に基づいて設定値を変更することができる音声処理装置１００の構成を示すブロック図である。

図１のブロック図との相違点は、音声処理装置１００がデジタル放送（典型的にはワンセグ放送等）を受信する放送受信部４００を更に有する点である。

放送受信部４００は、放送受信用チューナーを備え、放送電波の受信レベル（受信した放送電波の強さ）、エラーレートなどの受信状態を検知する。

制御部１２は、ユーザから放送を受信する旨の指示を受け付けると、放送受信部４００を制御して放送を受信し、受信した放送の映像を、表示部８を制御して表示する。

また、制御部１２は、放送を受信する旨の指示を受け付けていない場合であっても、タイミング通知部１０から通知されたタイミングで、放送受信部４００を制御して放送電波を受信し、放送受信部４００は、放送電波の受信レベル又はエラーレートを検知することができる。

放送受信部４００は、放送の受信状態を周辺環境判定部１１に通知する。周辺環境判定部１１は、受信レベルが所定値未満である場合、周辺環境が「室内である」と判定し、受信レベルが所定値以上である場合、周辺環境が「室外である」と判定する。そして、周辺環境判定部１１は、判定結果を制御部１２に通知する。

制御部１２は、通知された判定結果に基づいて、音声抽出部３が用いる設定値を決定する。
例えば、記録部５には、設定値が、受信レベルやエラーレートに対応付けて予め記憶される。制御部１２は、検知された受信レベルやエラーレートに対応する設定値を読み出して設定する。

音声処理装置１００は、電波の受信レベルに応じて周辺環境に合わせた設定を行うことで、音声処理装置１００が置かれている状況に適していると推定される条件で、目的音を抽出することができる。

なお、音声処理装置１００は、デジタル放送の受信状態を検知する放送受信部４００を備える代わりに、もしくはこれに加えて、ＧＰＳ（Global Positioning System）の電波の受信状態を検知する構成を備えていてもよい。そして、周辺環境判定部１１は、受信したＧＰＳの電波の受信レベルが所定値未満である場合、周辺環境が「室内である」と判定し、受信レベルが所定値以上である場合、周辺環境が「室外である」と判定してもよい。

（反響量による周辺環境の判定）
図５は、音声の反響量に基づいて設定値を変更することができる音声処理装置１００の構成を示すブロック図である。

図１のブロック図との相違点は、音声処理装置１００が受信した音声の反響量を測定する反響量測定部５００を有する点である。

記録部５には、反響量を測定するために用いる反響量測定用固定音の音声データが格納されている。

制御部１２は、反響量を測定する際には、記録部５に格納されている反響量測定用固定音の音声データを読み出し、コーデック部４を制御して復号し、ＤＡＣ６を制御してアナログ音声に変換し、スピーカー７から反響量測定用固定音を出力する。

反響量測定用固定音をスピーカー７から出力した後、制御部１２は、反響量測定用固定音を含む音声をアレイマイク１で取得する。

反響量測定部５００は、反響量測定用固定音を出力してからその反射音が測定されるまでにかかる時間（遅延時間）や、反射音が繰り返し到達する回数などに基づいて、反響量を測定する。反響量は、音声にどの程度エコーがかかるかを示すパラメータであり、所定の計算式を用いて求められる。

反響量測定部５００は、反響量の測定結果を周辺環境判定部１１に通知する。周辺環境判定部１１は、反響量が所定値以上である場合、周辺環境が「室内である」と判定し、反響量が所定値未満である場合、周辺環境が「室外である」と判定する。そして、周辺環境判定部１１は、判定結果を制御部１２に通知する。

音声処理装置１００は、反響の度合いに応じた設定を行うことにより、音声処理装置１００が現在置かれている周辺環境に適していると推定される条件で、目的音を抽出することができる。

例えば、反響量測定用固定音として、人間の可聴領域範囲外の周波数（例えば20kHz以上）の音声を利用することで、録音中の音声に影響なく、反響量を測定することができる。

（位置情報による周辺環境の判定）
図６は、位置情報に基づいて設定値を変更することができる音声処理装置１００の構成を示すブロック図である。

図１のブロック図との相違点は、音声処理装置１００の位置情報を検出する位置情報検出部６００と、建物の情報を含む地図情報を予め格納する地図情報格納部６０１と、を更に有する点である。

位置情報検出部６００は、ＧＰＳの電波を測定し、音声処理装置１００の現在位置を取得する。現在位置は、緯度と経度を用いた数値で表される。

制御部１２は、例えば、録音を開始する旨の指示を受け付けると、位置情報検出部６００を制御して、音声処理装置１００の現在位置を取得する。位置情報検出部６００は、取得した現在位置を示す情報を周辺環境判定部１１に通知する。

周辺環境判定部１１は、通知された現在位置に対応する地図情報を地図情報格納部６０１から取得し、現在位置が建物のある位置であれば「屋内である」と判定し、建物のない位置であれば「屋外である」と判定する。

音声処理装置１００は、現在位置に応じた設定を行うことにより、音声処理装置１００が現在置かれている周辺環境に適していると推定される条件で、目的音を抽出することができる。

なお、位置情報検出部６００は、ＧＰＳによって現在位置を取得する代わりに、携帯電話の基地局や無線ＬＡＮ（Local Area Network）のアクセスポイントと通信を行い、通信できた基地局やアクセスポイントを識別する情報に基づいて現在位置を取得してもよい。

周辺環境判定方法として、図３〜６を用いて個別に説明したが、例えば距離測定による判定と位置情報による判定を組み合わせるなど、複数の手法を自由に組み合わせて用いることが可能である。また、複数の手法を組み合わせて用いることにより、周辺環境の判定の精度を上げることが可能である。

次に、ステップＳ１０６における判定タイミングを決定する処理の詳細について説明する。上述のように、判定タイミングの通知は、音声処理装置１００が起動中の任意の機会に行われてもよいし、録音中にのみ行われるようにしてもよい。

判定タイミングの決定の仕方には、タイマーによる決定、移動状態による決定、位置情報による決定がある。以下順次説明する。

（タイマーによる判定タイミングの決定）
図１において、タイミング通知部１０は、内蔵するＲＴＣ（Real Time Clock）を用いて、所定の時間間隔で判定タイミングを決定する。例えば、１０秒に１回などのような、定期的な時間間隔で判定タイミングが決定される。時間間隔の値は、本発明によって限定されない。

タイミング通知部１０は、判定タイミングになるとその旨を制御部１２に通知する。ステップＳ１０６において、制御部１２は、タイミング通知部１０からの通知に基づいて、現在が判定タイミングか否かを判別する。これにより、所定の時間間隔で、音声抽出部３に設定する設定値を変更することが可能となる。音声抽出時の雑音抑圧量、目的音範囲、あるいは、雑音抑圧フィルタの更新周期は、定期的に適宜更新されるので、目的音を抽出する精度を高めることができる。

（移動状態による判定タイミングの決定）
図７は、音声処理装置１００の移動状態に応じて判定タイミングを決定することができる音声処理装置１００の構成を示すブロック図である。

図１のブロック図との相違点は、音声処理装置１００が移動中か停止中かといった移動状態を検出する移動状態検出部７００を更に有する点である。

移動状態検出部７００は、例えば加速度センサを内蔵し、加速度の絶対値もしくは加速度の変化量を検出する。そして、移動状態検出部７００は、検出結果をタイミング通知部１０に通知する。

通知される検出結果の内容は、加速度の絶対値もしくは加速度の変化量でもよいし、移動している（又は静止している）といった簡易な情報でもよい。

加速度センサの数は１つでもよいが、精度を上げるためには、例えば３軸センサのように、複数であることが望ましい。

タイミング通知部１０は、通知された検出結果に基づいて、音声処理装置１００が移動しているか否かを判別する。例えば、タイミング通知部１０は、検出された加速度が所定値以上の場合に「移動している」と判別し、所定値未満の場合に「静止している」と判別する。

そして、タイミング通知部１０は、音声処理装置１００が移動中であると判別した場合に、一定期間ごとに判定タイミングを制御部１２に通知する。これにより、音声処理装置１００は、音声処理装置１００の移動中であると推定されれば、周辺環境を繰り返し判定することにより、音声抽出部３に設定する設定値を即座に更新することが可能である。さらに、音声処理装置１００は、自身が移動していない間、周辺環境を判定する処理を削減することができ、負荷の軽減が実現される。

音声処理装置１００が移動している場合、音声処理装置１００の周辺環境が変化している（変化した）可能性がある。そこで、音声処理装置１００が移動していると推定される状況では、音声抽出時の雑音抑圧量、目的音範囲、あるいは、雑音抑圧フィルタの更新周期を再設定することによって、音声処理装置１００が置かれている状況に適していると推定される条件で、目的音を抽出することができる。

（位置情報による判定タイミングの決定）
図８は、音声処理装置１００の位置情報に応じて判定タイミングを決定することができる音声処理装置１００の構成を示すブロック図である。

図１のブロック図との相違点は、音声処理装置１００の現在の位置を検出する位置情報検出部８００を更に有する点である。

位置情報検出部８００は、ＧＰＳの電波を測定し、音声処理装置１００の現在位置を取得する。現在位置は、緯度と経度を用いた数値で表される。

取得された位置情報は、制御部１２もしくは位置情報検出部６００が有するＲＡＭに一時記憶される。例えば、ＲＡＭには、直近の所定回数分の位置情報の履歴が記憶される。

タイミング通知部１０は、例えば１０秒ごとに１回といったように、位置情報を検出するタイミングになると、現在の位置情報を取得するように位置情報検出部８００に通知する。位置情報検出部８００は、この通知を受け取ると、音声処理装置１００の現在位置を取得する。位置情報取得部８００は、取得した現在位置を示す情報をタイミング通知部１０に通知する。

あるいは、位置情報検出部８００は、ＲＡＭに記憶された位置情報の履歴を参照し、今回得られた位置情報が示す現在位置が、前回得られた位置情報が示す位置から所定距離以上離れている場合に、音声処理装置１００が移動している（移動した）旨をタイミング通知部１０に通知してもよい。所定距離は、例えば１０メートルなど、任意に設定することができる。

そして、タイミング通知部１０は、音声処理装置１００が移動している（移動した）と判別した場合に、その旨を制御部１２に通知する。これにより、音声処理装置１００は、音声処理装置１００が移動している（移動した）と推定されれば、周辺環境を繰り返し判定することにより、音声抽出部３に設定する設定値を即座に更新することが可能である。

本実施形態によれば、音声処理装置１００の周辺環境に合わせた音声抽出を行うことができる。そして、目的音を歪ませることなく、高品質な目的音を取得することが可能となる。

例えば、本発明をムービーの音声記録に利用した場合、ユーザ自身が撮影時の周辺環境を判断して音声抽出部３への設定値を調整する必要がない。そして、自動的に判定された周辺環境に応じて最適な録音条件に設定される。また、周辺環境が変化すると、その時々に最適な録音条件に設定され、効率よく精度の高い音声抽出を行うことが可能となる。

本発明は、上述した実施形態に限定されず、種々の変形及び応用が可能である。また、上述した実施形態の各構成要素を自由に組み合わせることも可能である。

以上説明したように、本発明によれば、周辺環境の変化に応じて精度良く音声を抽出するために好適な音声処理装置、音声処理方法、及び、プログラムを提供することができる。

１…アレイマイク、２…ＡＤＣ、３…音声抽出部、４…コーデック部、５…記録部、６…ＤＡＣ、７…スピーカー、８…表示部、９…操作入力部、１０…タイミング通知部、１１…周辺環境判定部、１２…制御部、３００…距離測定部、４００…放送受信部、５００…反響量測定部、６００…位置情報検出部、６０１…地図情報格納部、７００…移動状態検出部、８００…位置情報検出部

Claims

音声を抽出する音声処理装置であって、
複数の音声を取得する音声取得手段と、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段と、
前記音声処理装置の周辺環境を判定する周辺環境判定手段と、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段と、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段と、
を備え、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とする音声処理装置。
前記制御手段は、雑音に対する抑圧の強さを示す音声抑圧量と、抽出対象とする方向を示す抽出範囲と、雑音抑圧フィルタの更新周期と、のうち少なくとも一つを前記設定値として制御する、
ことを特徴とする、請求項１に記載の音声処理装置。
前記音声処理装置からの距離を測定する距離測定手段を更に備え、
前記周辺環境判定手段は、前記測定された距離に基づいて、前記周辺環境を判定する、
ことを特徴とする、請求項１又は２に記載の音声処理装置。
放送電波を受信する放送受信手段を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記受信された放送電波の受信状況に基づいて、前記音声処理装置が設置された場所が室内か室外かを判定する、
ことを特徴とする、請求項１乃至３のいずれか１項に記載の音声処理装置。
所定の測定音を出力し、当該出力した測定音の反射音を取得し、当該出力した測定音と当該取得した反射音とに基づいて、反響量を測定する反響量測定手段を更に備え、
前記周辺環境判定手段は、前記測定された反響量に基づいて、前記周辺環境を判定する、
ことを特徴とする、請求項１乃至４のいずれか１項に記載の音声処理装置。
地図情報を格納する地図情報格納手段と、
前記音声処理装置の位置を検出する位置情報検出手段と、
を更に備え、
前記周辺環境判定手段は、前記周辺環境として、前記格納された地図情報と前記検出された位置とに基づいて、前記音声処理装置が設置された場所が屋内か屋外かを判定する、
ことを特徴とする、請求項１乃至５のいずれか１項に記載の音声処理装置。
前記タイミング通知手段は、所定の周期で、前記タイミングを前記制御手段に通知する、
ことを特徴とする、請求項１乃至６のいずれか１項に記載の音声処理装置。
前記音声処理装置の移動状態を検出する移動状態検出手段を更に備え、
前記タイミング通知手段は、前記検出された移動状態が、前記音声処理装置が移動していることを示す状態である場合に、前記タイミングを前記制御手段に通知する、
ことを特徴とする、請求項１乃至７のいずれか１項に記載の音声処理装置。
前記音声処理装置の位置を検出する位置情報検出手段を更に備え、
前記位置情報検出手段は、所定の周期で、前記位置を検出し、
前記タイミング通知手段は、前記検出された位置の所定期間における履歴に基づいて、前記音声処理装置が移動しているか否かを判定し、移動していると判定した場合に、前記タイミングを前記制御手段に通知する、
ことを特徴とする、請求項１乃至５、７、８のいずれか１項に記載の音声処理装置。
音声を抽出する音声処理装置において実行される音声処理方法であって、
複数の音声を取得する音声取得ステップと、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出ステップと、
前記音声処理装置の周辺環境を判定する周辺環境判定ステップと、
前記音声抽出ステップにおいて前記抽出すべき音声を抽出するために用いる設定値を制御する制御ステップと、
前記周辺環境判定ステップにおいて周辺環境を判定するタイミングを通知するタイミング通知ステップと、
を備え、
前記制御ステップでは、前記通知されるタイミングに従って、前記周辺環境判定ステップにおいて前記周辺環境を判定させ、前記周辺環境判定ステップによる判定結果に応じた設定値を設定するように制御する、
ことを特徴とする音声処理方法。
音声を抽出するコンピュータを、
複数の音声を取得する音声取得手段、
前記取得された複数の音声から、抽出すべき音声を抽出する音声抽出手段、
前記コンピュータの周辺環境を判定する周辺環境判定手段、
前記音声抽出手段が前記抽出すべき音声を抽出するために用いる設定値を制御する制御手段、
前記周辺環境判定手段が周辺環境を判定するタイミングを前記制御手段に通知するタイミング通知手段、
として機能させ、
前記制御手段は、前記タイミング通知手段から通知されるタイミングに従って、前記周辺環境判定手段に前記周辺環境を判定させ、前記周辺環境判定手段による判定結果に応じた設定値を設定するように制御する、
ことを特徴とするプログラム。