JP6633579B2

JP6633579B2 - 音響信号処理装置、方法及びプログラム

Info

Publication number: JP6633579B2
Application number: JP2017148356A
Authority: JP
Inventors: 小林　和則; 和則小林; 弘章伊藤; 翔一郎齊藤; 登原田; 卓哉樋口; 荒木　章子; 章子荒木; 慶介木下; 信貴伊藤; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2020-01-22
Anticipated expiration: 2037-07-31
Also published as: JP2019028301A

Description

この発明は、音響信号の処理技術に関する。

特許文献１，２に記載されている指向性集音技術が知られている（例えば、特許文献１，２参照。）。

図１２は、特許文献１，２等で開示されている従来の指向性集音装置の構成である。図１２の指向性集音装置は、方向推定部４１及び指向性集音部４２を備えている。

方向推定部４１は、複数のマイクロホンで集音された信号に基づき、音源の方向推定を行う。ここでは、マイクロホン間で発生する時間差や振幅差を手掛かりに推定を行う。

次に、指向性集音部４２は、その推定された方向の音を強調して集音するように、指向性集音を行う。指向性集音部４２は、狙った方向の音が強調されるように遅延時間やフィルタ係数を設定することで、推定方向の音を強調することができる。この指向性集音技術によれば、音源が１つであれば、その音源の方向を推定し、その音源の方向を強調した集音を行うことができる。

特開２００１−３０９４８３号公報特開２００５−６４９６８号公報

しかし、従来の指向性集音装置では、集音したい音源と、雑音源の両方が存在する場合には、どちらが集音したい音源か見分けることができず、雑音源を強調してしまうという誤った動作をしてしまう可能性があった。例えば、リビングで音声認識を用いて対話や機器の操作を行うようなロボットやリモコンを使うシーンを想定すると、ＴＶ等の音源にも反応してしまい誤動作を起こす可能性があった。

ところで、予め定められた音である特定音が事前に得られているとして、その特定音から得られる情報に基づいて音響信号処理を行う技術はこれまでなかった。

この発明の目的は、事前に得られている特定音から得られる情報に基づく音響信号処理を行う音響信号処理装置、方法及びプログラムを提供することである。

この発明の一態様による音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、特定音に対応する音響信号を対象音響信号として、対象音響信号が強調されるように集音を行う第一指向性集音部と、複数のマイクロホンで集音された信号である音響信号から音の到来方向を推定する方向推定部と、特定音が検出された時刻における推定された到来方向が記憶される方向記憶部と、を含み、第一指向性集音部は、方向記憶部から読み込んだ到来方向からの音が強調されるように集音を行い、過去の所定の時間区間における、推定された到来方向の頻度を計測する推定頻度計測部と、計測された頻度の中で最も低い頻度の到来方向を選択する選択部と、を更に含み、方向記憶部には、選択された到来方向が記憶される。

事前に得られている特定音から得られる情報に基づく音響信号処理を行うことで、より精度の高い音響信号処理を行うことができる。

第一実施形態の音響信号処理装置の例を説明するためのブロック図。第一実施形態の変形例１の音響信号処理装置の例を説明するためのブロック図。第一実施形態の変形例２の音響信号処理装置の例を説明するためのブロック図。第一実施形態の変形例３の音響信号処理装置の例を説明するためのブロック図。音響信号処理方法の例を説明するための流れ図。第二実施形態の音響信号処理装置の例を説明するためのブロック図。第二実施形態の方向推定部２２の例を説明するためのブロック図。第二実施形態の方向推定部２２の例を説明するためのブロック図。第二実施形態の変形例２の音響信号処理装置の例を説明するためのブロック図。第二実施形態の変形例３の音響信号処理装置の例を説明するためのブロック図。音響信号処理方法の例を説明するための流れ図。背景技術の指向性集音装置の例を説明するためのブロック図。第三実施形態に係る音響信号処理装置の機能ブロック図。第三実施形態に係る音響信号処理装置の処理フローの例を示す図。第三実施形態に係る音声区間検出情報蓄積部の機能ブロック図。特定音音声区間、非音声区間を説明するための図。第三実施形態に係る音声区間検出部の機能ブロック図。第三実施形態に係る第一音響信号分析部の機能ブロック図。第三実施形態に係る確率推定部の機能ブロック図。第三実施形態の第一変形例に係る音声区間検出部の機能ブロック図。第三実施形態の第三変形例、第四変形例に係る音響信号処理装置の機能ブロック図。第三実施形態の第三変形例、第四変形例に係る音響信号処理装置の処理フローの例を示す図。第一実施形態の変形例４の音響信号処理装置の例を説明するためのブロック図。第一実施形態の変形例４の音響信号処理方法の例を説明するための流れ図。

以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

［技術的背景］
音響信号処理装置は、予め定められた音である特定音についての情報が与えられているとして、その特定音についての情報を用いて音響信号処理を行うものである。事前に与えられた特定音についての情報を用いることにより、使える情報が増えるため、より精度の高い音響信号処理を行うことができる。

音響信号処理の例は、音の到来方向の推定、指向性集音、目的音声の抽出、音声区間の検出、音声認識である。

例えば、ユーザの特定の発話に対して特定音であるキーワードの検出を行うことで、目的音声の信号区間と雑音の信号区間を正確に把握でき、その後の処理に活かすことができる。

また、この性質を音声区間検出に用いると、雑音区間と音声区間の信号がそれぞれ判明するため、音声／非音声の判定のためのパラメータをより実測値に即した値へ更新することができる。

また、音響信号処理として音声の方向推定を行う場合には、特定音を検出した方向を音声の方向とみなすことで、本来の方向以外から音声を含む音が到来したとしても方向推定が頑健に動作する。

また、音響信号処理として目的音声抽出を行う場合には、音声区間と非音声区間の信号が精度よく得られるため、音声分離のためのステアリングベクトルを計算するための空間相関行列をより正確に求めることができる。

また、音響信号処理として音声認識を行う場合には、雑音レベルをより正確に得られるため、音響モデルの選択により精度を向上させることができる。

以下、図面を参照して、各実施形態について説明する。

［第一実施形態］
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。

音響信号処理装置は、図１１に示すように、方向推定部１１、特定音検出部１２、方向記憶部１３及び第一指向性集音部１４を例えば備えている。音響信号処理装置は、特定音検出部１２を備えていなくてもよい。

音響信号処理方法は、音響信号処理装置が、図５及び以下に説明するステップＳ１１からステップＳ１４の処理を行うことにより例えば実現される。

方向推定部１１は、複数のマイクロホンで集音された信号から音の到来方向を推定する（ステップＳ１１）。方向推定部１１は、各時刻における音の到来方向を推定する。推定された各時刻における音の到来方向は、方向記憶部１３に出力される。

方向推定部１１による方向推定の方式は任意である。方向推定部１１は、例えば特許文献１，２に記載された方向推定技術により音の到来方向を推定する。音の到来方向は、方向ではなく、位置により表されるものであってもよい。

特定音検出部１２は、予め定められた音である特定音を検出する（ステップＳ１２）。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。

方向記憶部１３には、特定音検出部１２で特定音が検出された時刻における、方向推定部１１で推定された到来方向が記憶される。より詳細には、方向記憶部１３は、方向推定部１１から入力された各時刻における音の到来方向のうち、特定音検出部１２で特定音が検出された時刻における音の到来方向を記憶する。

第一指向性集音部１４は、方向記憶部１３から読み込んだ到来方向からの音が強調されるように集音を行う（ステップＳ１４）。第一指向性集音部１４による指向性集音の方式は任意である。第一指向性集音部１４は、例えば特開２００９−４４５８８号公報に記載された指向性集音を行う。

このように、特定音が発せられた音源を集音すべき音源と判別して、その音源を指向性集音することで、高ＳＮ比で集音することができる。ユーザは、特定のキーワード等の特定音を発することで、指向性の向きを変えることができ、テレビなどの音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。

なお、特定音検出部１２による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部１５を方向推定部１１の後段に入れてもよい。図１では、遅延部１５を破線で示している。遅延部１５は、特定音検出部１２による特定音の検出の時間に対応する時間だけ方向推定部１１からの出力を遅延させてから方向記憶部１３に入力する。これにより、特定音の検出に遅延があっても正常に動作する。

[[第一実施形態の変形例１]]
図２に例示するように、音響信号処理装置は、推定頻度計測部１６及び選択部１７を更に備えていてもよい。この場合、方向推定部１１は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部１１は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。この場合、どちらの音源で特定音が発せられたかの判別ができなくなってしまうので、推定頻度計測部１６が、過去に方向推定がどのくらい行われたかで、その判別を行う。すなわち、推定頻度計測部１６は、ＴＶ等の音源は常に音が出力されているので、過去に多数の方向推定が行われているものと考えられるので、これを手掛かりに判別する。

推定頻度計測部１６は、過去の所定の時間区間における、方向推定部１１で推定された到来方向の頻度を計測する（ステップＳ１６）。すなわち、推定頻度計測部１６は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部１７に出力される。

例えば、過去Ｔ秒の間に、方向推定部１１の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)＝A(θ)/Ｔで求められる。推定頻度計測部１６は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は１に近い大きな値をとることになる。

選択部１７は、推定頻度計測部１６で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部１７は、方向推定部１１の出力の推定方向が２個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部１２で特定音が検出された時刻における、選択部１７で選択された到来方向が、方向記憶部１３に記憶される。

その後、第一指向性集音部１４は、上記と同様にして、方向記憶部１３から読み込んだ到来方向からの音が強調されるように集音を行う。

なお、第一実施形態の変形例１においても、特定音検出部１２による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部１５を方向推定部１１の後段に入れてもよい。図２では、遅延部１５を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。

[[第一実施形態の変形例２]]
図３に例示するように、音響信号処理装置は、第二指向性集音部１８を更に備えていてもよい。

特定音検出部１２の処理の前に、第二指向性集音部１８による指向性集音を行うことで、より高精度な特定音の検出を行うことができる。

第二指向性集音部１８には、複数のマイクロホンで集音された信号を遅延させた信号が入力される。この遅延は、方向推定部１１による到来方向の推定処理に必要な時間に対応する時間の長さを持つ。この遅延は、図３に破線で示されている遅延部１９により行われる。また、第二指向性集音部１８には、方向推定部１１で推定された到来方向が入力される。

第二指向性集音部１８は、方向推定部１１で推定された到来方向からの音が強調されるように集音を行う（ステップＳ１８）。より詳細には、第二指向性集音部１８は、複数のマイクロホンで集音された信号を遅延させた信号を用いて、方向推定部１１で推定された到来方向からの音が強調されるように集音を行う。第二指向性集音部１８で集音された信号は、特定音検出部１２に出力される。

特定音検出部１２は、第二指向性集音部１８により集音された信号に基づいて特定音を検出する。その後の処理は、上記と同様である。

なお、図３に示すように、複数の第二指向性集音部１８が音響信号処理装置に備えられていてもよい。この場合、第二指向性集音部１８の数と同数の特定音検出部１２が音響信号処理装置に備えられている。

この場合、方向推定部１１で複数の到来方向が推定された場合には、特定音検出部１２は、推定された複数の到来方向のそれぞれを強調するように動作し、それらの出力がそれぞれ複数の特定音検出部１２に入力され、特定音の検出が行われる。

これにより、複数の特定音検出部１２で特定音が検出された場合に、優先順位を付けることが可能となる。

なお、第一実施形態の変形例２においても、特定音検出部１２による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部１５を方向推定部１１の後段に入れてもよい。図２では、遅延部１５を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。

[[第一実施形態の変形例３]]
図４に例示するように、第一実施形態の変形例２において、第一実施形態の変形例１で説明した推定頻度計測部１６及び選択部１７を音響信号処理装置は更に備えていてもよい。この場合、方向推定部１１は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部１１は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。

推定頻度計測部１６及び選択部１７の処理は、第一実施形態の変形例１で説明したものと同様である。

すなわち、推定頻度計測部１６は、過去の所定の時間区間における、方向推定部１１で推定された到来方向の頻度を計測する（ステップＳ１６）。すなわち、推定頻度計測部１６は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部１７に出力される。

なお、第一実施形態の変形例１においても、特定音検出部１２による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部１５を方向推定部１１の後段に入れてもよい。図４では、遅延部１５を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。

[[第一実施形態の変形例４]]
図２３に例示するように、音響信号処理装置は、第一指向性集音部１４にかえて第三指向性集音部５２を備えるとともに、雑音方向記憶部５１をさらに備えてもよい。

音響信号処理方法は、音響信号処理装置が、図２４及び以下に説明するステップＳ３１の処理を行うことにより例えば実現される。

雑音方向記憶部５１には、特定音検出部１２で特定音が検出された時刻を除く、方向推定部１１で推定された到来方向が記憶される。ここで、特定音が検出された時刻を除くとは、特定音が検出された時刻よりも時系列的に前の時刻であってもよいし時系列的に後の時刻であってもよいし前の時刻と後の時刻両方であってもよい。なお、雑音方向記憶部５１の前段かつ方向推定部１１の後段に遅延部１５を入れてもよいのは言うまでもない。

第三指向性集音部５２は方向記憶部１３から読み込んだ到来方向からの音が強調されるようにかつ雑音方向記憶部５１から読み込んだ到来方向からの音が抑圧されるように集音を行う（ステップＳ５２）。第三指向性集音部５２による指向性集音の方式は任意である。第三指向性集音部５２が行う指向性集音の方式は、例えば参考文献５に記載の方式を用いてもよい。
（参考文献５）浅野太著, 「音のアレイ信号処理」, pp.82-85，コロナ社, 2011.

［第二実施形態］
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。

音響信号処理装置は、図６に示すように、特定音検出部２１、方向推定部２２、第一指向性集音部２３を例えば備えている。音響信号処理装置は、特定音検出部１２を備えていなくてもよい。

音響信号処理方法は、音響信号処理装置が、図１１及び以下に説明するステップＳ２１からステップＳ２３の処理を行うことにより例えば実現される。

特定音検出部２１は、予め定められた音である特定音を検出する（ステップＳ２１）。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。

方向推定部２２は、複数のマイクロホンで集音された信号から音の到来方向を推定する（ステップＳ２２）。その際、方向推定部２２は、複数のマイクロホンで集音された信号から音の到来方向を、特定音検出部２１において特定音が検出された時刻において推定された到来方向に近い方向ほど到来方向であると推定されやすくなるように推定する。

すなわち、方向推定部２２では、特定音の検出の結果に応じて、各方向への検出されやすさが設定される。言い換えれば、方向推定部２２では、特定音の検出時に推定されていた方向に近いほど、方向検出がされやすくなり、遠いほど検出されにくくなる。こうすることにより、特定音を発したユーザに対し指向性が向きやすくなり、雑音源に指向性が向きにくくなる。また、特定音を発したユーザが移動してもそれに追従することができる。

方向推定部２２の構成の例を、図７に示す。図７に例示するように、方向推定部２２は、方向強調部２２１、パワー計算部２２２、重み乗算部２２３、最大パワー方向検出部２２４及び重み決定部２２５を備えている。

複数のマイクロホンで集音された信号のそれぞれは、方向強調部２２１に入力される。

方向強調部２２１は、複数のマイクロホンで集音された信号に対し、複数の方向をそれぞれ強調するように方向強調処理を行う（ステップＳ２２１）。例えば、N個の方向強調部２２１が設けられている場合には、θ1,θ2,…,θNを互いに異なる方向として、N個の方向強調部２２１は、それぞれθ1,θ2,…,θNの方向を強調するように方向強調処理を行う。強調された信号は、パワー計算部２２２に出力される。

パワー計算部２２２は、方向強調部２２１で強調された信号のパワーを計算する（ステップＳ２２２）。計算されたパワーは、重み乗算部２２３に出力される。

重み乗算部２２３は、パワー計算部２２２で計算されたパワーに、重み設定部２２５で設定された重みを乗じる（ステップＳ２２３）。重み付与後パワーは、最大パワー方向検出部２２４に出力される。後述するように、したがって、重み乗算部２２３は、各到来方向が強調された信号のパワーに、上記各到来方向が上記選択された到来方向に近いほど大きな重みを乗算することにより重み付与後パワーを得る。

最大パワー方向検出部２２４は、重み乗算部２２３の出力のうち最大パワーの到来方向を選択する。言い換えれば、最大パワー方向検出部２２４は、重み付与後パワーが最も大きい到来方向を選択し、その選択された到来方向を推定される到来方向とする（ステップＳ２２４）。推定された到来方向は、方向推定結果として、重み決定部２２５及び第一指向性集音部２３に出力される。

重み設定部２２５は、特定音検出部２１で特定音が検出された時刻において、最大パワー方向検出部２２４が出力した方向推定結果に対応する重みを決定する。決定された重みは、重み乗算部２２３に出力される。言い換えれば、重み設定部２２５は、特定音の検出がありとなったときに、方向推定結果に対応した重みを設定する。

方向推定結果に対応した重みは、推定された到来方向に対する重みが大きくなり、その到来方向から離れるにしたがって、重みが小さくなるように設定される。例えば、推定された到来方向に対する重みを1.0とし、その推定された到来方向から10度ずれるごとに1.0未満の乗数（例えば0.8）を乗じた重みが設定される。

第一指向性集音部２３は、方向推定部２２で推定された到来方向からの音が強調されるように集音を行う（ステップＳ２３）。第一指向性集音部２３による指向性集音の方式は任意である。第一指向性集音部２３は、例えば特開２００９−４４５８８号公報に記載された指向性集音を行う。

なお、特定音検出部２１による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部２２６を最大パワー方向検出部２２４の後段に入れてもよい。図７では、遅延部２２６を破線で示している。遅延部２２６は、特定音検出部２１による特定音の検出の時間に対応する時間だけ最大パワー方向検出部２２４からの出力を遅延させてから重み設定部２２５に入力する。これにより、特定音の検出に遅延があっても正常に動作する。

[[第二実施形態の変形例１]]
図８に例示するように、音響信号処理装置は、推定頻度計測部２２７及び選択部２２８を更に備えていてもよい。

この場合、最大パワー方向検出部２２４は、所定の閾値を超えるパワー方向全てを検出することにより、複数方向の同時推定が可能であってもよい。すなわち、最大パワー方向検出部２２４は、最大パワーの方向を検出し、検出済みの方向を除いて、さらに最大パワーの方向を検出する。最大パワー方向検出部２２４は、予め設定した最大推定方向数に達するか、最大パワーがあらかじめ設定した閾値以下になった場合に最大パワー検出を終了する。最大パワー方向検出部２２４は、例えばこのような方法により複数の音源の方向を同時に推定可能であってもよい。これにより、最大パワー方向検出部２２４は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能となる。

この場合、どちらの音源で特定音が発せられたかの判別ができなくなってしまうので、推定頻度計測部２２７が、過去に方向推定がどのくらい行われたかで、その判別を行う。すなわち、推定頻度計測部２２７は、ＴＶ等の音源は常に音が出力されているので、過去に多数の方向推定が行われているものと考えられるので、これを手掛かりに判別する。

推定頻度計測部２２７は、過去の所定の時間区間における、方向推定部２２で推定された到来方向の頻度、言い換えれば、最大パワー方向検出部２２で選択された到来方向の頻度を計測する（ステップＳ１６）。すなわち、推定頻度計測部２２７は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部２２８に出力される。

例えば、過去Ｔ秒の間に、最大パワー方向検出部２２４の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)＝A(θ)/Ｔで求められる。推定頻度計測部２２７は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は１に近い大きな値をとることになる。

選択部２２８は、推定頻度計測部２２７で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部２２８は、最大パワー方向検出部２２の出力の推定方向が２個であった場合に、推定頻度D(θ)が小さい方を選択する。選択された到来方向は、重み設定部２２５に出力される。

なお、特定音検出部２１による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部２２６を最大パワー方向検出部２２４の後段に入れてもよい。図８では、遅延部２２６を破線で示している。遅延部２２６は、特定音検出部２１による特定音の検出の時間に対応する時間だけ最大パワー方向検出部２２４からの出力を遅延させてから重み設定部２２５に入力する。これにより、特定音の検出に遅延があっても正常に動作する。

[[第二実施形態の変形例２]]
図９に例示するように、音響信号処理装置は、第二指向性集音部２４を更に備えていてもよい。

特定音検出部２１の処理の前に、第二指向性集音部２４による指向性集音を行うことで、より高精度な特定音の検出を行うことができる。

第二指向性集音部２４には、複数のマイクロホンで集音された信号を遅延させた信号が入力される。この遅延は、方向推定部２２による到来方向の推定処理に必要な時間に対応する時間の長さを持つ。この遅延は、図９に破線で示されている遅延部２５により行われる。また、第二指向性集音部２４には、方向推定部２２で推定された到来方向が入力される。

第二指向性集音部２４は、方向推定部２２で推定された到来方向からの音が強調されるように集音を行う（ステップＳ２４）。より詳細には、第二指向性集音部２４は、複数のマイクロホンで集音された信号を遅延させた信号を用いて、方向推定部２２で推定された到来方向からの音が強調されるように集音を行う。第二指向性集音部２４で集音された信号は、特定音検出部２１に出力される。

特定音検出部２１は、第二指向性集音部２４により集音された信号に基づいて特定音を検出する。その後の処理は、上記と同様である。

なお、図９に示すように、複数の第二指向性集音部２４が音響信号処理装置に備えられていてもよい。この場合、第二指向性集音部２４の数と同数の特定音検出部２１が音響信号処理装置に備えられている。

この場合、方向推定部２２で複数の到来方向が推定された場合には、特定音検出部２１は、推定された複数の到来方向のそれぞれを強調するように動作し、それらの出力がそれぞれ複数の特定音検出部２１に入力され、特定音の検出が行われる。

これにより、複数の特定音検出部２１で特定音が検出された場合に、優先順位を付けることが可能となる。

[[第二実施形態の変形例３]]
図１０に例示するように、第二実施形態の変形例２において、推定頻度計測部２６及び選択部２７を音響信号処理装置は更に備えていてもよい。この場合、方向推定部２２は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部２２は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。

推定頻度計測部２６及び選択部２７の処理は、第一実施形態の変形例１で説明したものと同様である。

すなわち、推定頻度計測部２６は、過去の所定の時間区間における、方向推定部２２で推定された到来方向の頻度を計測する（ステップＳ２６）。すなわち、推定頻度計測部２６は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部２７に出力される。

例えば、過去Ｔ秒の間に、方向推定部２２の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)＝A(θ)/Ｔで求められる。推定頻度計測部２６は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は１に近い大きな値をとることになる。

選択部２７は、推定頻度計測部２６で計測された頻度の中で最も低い頻度の到来方向を選択する（ステップＳ２７）。例えば、選択部２７は、方向推定部２２の出力の推定方向が２個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部２１で特定音が検出された時刻における、選択部２７で選択された到来方向は、方向推定部２２に出力され、方向推定部２２により推定された到来方向とされる。

その後、第一指向性集音部２３は、上記と同様にして、方向推定部２２により推定された到来方向からの音が強調されるように集音を行う。

［第三実施形態］
第三実施形態の音響信号処理装置及び方法は、音響信号処理として音声区間の検出を行う。

＜第三実施形態のポイント＞
本実施形態では、利用者の発話内容を絞り込むことで、利用環境（雑音など）の情報をより正しく得る。例えば、利用者が発話を始める前に特定の単語（キーワード）を発するように制限する。その際に、その特定の単語音声のみを高精度に検出できるようにしておき、「その区間は音声」「その前の区間は雑音」と仮定する。そして、その雑音区間と音声区間の音声を利用して、「音声／非音声」の判定のための情報を更新する。

そうすることで、その後に発せられる目的の音声の区間を判定する際に、より実利用環境に即した「雑音」と「音声」の情報が利用でき、区間検出の精度が向上する。

以下、音響信号処理装置・方法の実施形態を説明する。音響信号処理装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ（汎用機）で実現する場合として説明する。

音響信号処理装置のハードウェア構成例を説明する。

音響信号処理装置は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、CRT（Cathode Ray Tube）ディスプレイなどが接続可能な出力部と、音響信号処理装置外部に通信可能な通信装置（例えば通信ケーブル、LANカード、ルータ、モデムなど）が接続可能な通信部と、CPU（Central Processing Unit）〔DSP（Digital Signal Processor）でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるRAM、ROMや、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音響信号処理装置に、フレキシブルディスク、CD-ROM（Compact Disc Read Only Memory）、DVD（Digital Versatile Disc）などの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。

また、音響信号処理装置には、例えば音声、音楽、雑音などの音を受音する音響信号収音手段（例えばマイクロホン）を接続可能であって、マイクロホンによって得られた（アナログ）信号の入力を受ける信号入力部、および、再生信号を音として出力する音響出力装置（例えばスピーカ）を接続可能であって、スピーカに入力する信号（再生信号をＤ／Ａ変換したもの）を出力するための信号出力部を設ける構成とすることも可能である。この場合、信号入力部にはマイクロホンが接続され、信号出力部にはスピーカが接続する。

音響信号処理装置の外部記憶装置には、音声区間検出のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、このプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶手段を単に「○○記憶部」と呼ぶことにする。

この実施形態では、主記憶部に、音響信号に含まれる音声区間よりも時系列的に前の区間の信号を取得するために、離散信号である音響信号を記憶しておく。この記憶はバッファ等の一時的な記憶でもよい。

＜音響信号処理装置の構成＞
図１３は第三実施形態に係る音響信号処理装置の機能ブロック図を、図１４はその処理フローを示す。

音響信号処理装置は、音声区間検出部３２０と、音声区間検出情報蓄積部３３０とを含む。

音響信号処理装置は、1つのマイクロホン３１０で収音された時系列音響信号と、特定音声区間検出部３４０の出力値とを入力とし、時系列音響信号に含まれる音声区間と非音声区間との少なくとも何れかを検出し、検出結果を出力する。

なお、特定音声区間検出部３４０は、あらかじめ定められた音(以下「特定音」ともいう)が来たことを検知し、特定音の検出時刻を示す情報を出力する。本実施形態では、特定音は人が発する所定の音声であり、例えば、人が所定のキーワードを発した際の音声である。たとえば参考文献１のような「フレーズスポッティング」などの技術を利用して特定音声区間検出部３４０を実装することができる。
(参考文献１)「センサリ社音声技術説明」、[online]、2010年、[平成29年7月24日検索]、インターネット<URL:http://www.sensory.co.jp/Parts/Docs/SensoryTechnologyJP1003B.pdf>
なお、特定音の検出時刻を示す情報は、少なくとも特定音(例えばキーワード)を言い終わった時刻を示す情報であり、(1-i)特定音を言い終わった時刻そのものを出力してもよいし、(1-ii)特定音を言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(1-iii)特定音を言い終わった時刻以外のフレーム時刻において検出していないことを示す情報(例えば「0」)を出力し、特定音を言い終わった時刻において検出したことを示す情報（例えば「1」）を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。また、特定音の検出時刻を示す情報は、特定音を言い始めた時刻を示す情報を含んでもよく、(2-i)特定音を言い始めた時刻及び言い終わった時刻そのものを出力してもよいし、(2-ii)特定音を言い始めた時刻及び言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(2-iii)特定音を言い始めた時刻から言い終わった時刻までにおいて検出したことを示す情報（例えば「1」）を出力し、それ以外の時刻において検出していないことを示す情報(例えば「0」)を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。

以下、各部の処理内容を説明する。

＜音声区間検出情報蓄積部３３０＞
音声区間検出情報蓄積部３３０は、特定音の検出時刻を示す情報と時系列音響信号とを入力とし、フレーム単位で特定音音声区間に対応する時系列音響信号の特徴量と、非音声区間に対応する時系列音響信号の特徴量とを求め（Ｓ３３０）、出力する。なお、音声区間検出情報蓄積部３３０を含む各部において各処理はフレーム単位で行われる。

図１５に示すように、音声区間検出情報蓄積部３３０は、音声蓄積部３３１と、特定音音声区間算出部３３２と、特徴量算出部３３３とを含む。以下、各部の処理内容を説明する。

（音声蓄積部３３１）
音声蓄積部３３１は、音声区間検出対象の時系列音響信号を受け取り、蓄積する。

（特定音音声区間算出部３３２）
特定音音声区間算出部３３２は、特定音の検出時刻を示す情報を入力とし、検出時刻に基づき特定音に対応する区間と推定される時系列音響信号の区間を特定音音声区間とし、検出時刻に基づき特定音に対応する区間ではないと推定される時系列音響信号の区間を非音声区間と判定し、特定音音声区間を示す情報、非音声区間を示す情報を出力する。例えば、特定音の検出時刻(この例では、特定音を言い終わった時刻)の前のt₁秒間を特定音音声区間とし、特定音音声区間の前のt₂秒間を非音声区間と判定する(図１６参照)。

例えば、特定音の検出時刻を示す情報として、特定音を言い終わったフレーム時刻(例えばtとする)を示す情報のみを含む場合、t₁、t₂を予め所定の値にそれぞれ設定しておき、特定音の検出時刻を示す情報から特定音音声区間(t-t₁からtまで)と非音声区間(t-t₁-t₂からt-t₁まで)とを求める。t₁としては特定音を発した際にかかる時間の平均値等を用いてもよい。また、特定音の検出時刻を示す情報として、特定音を言い始めた時刻及び言い終わった時刻(例えばtとする)を示す情報を含む場合、特定音を言い始めた時刻をt-t₁とし、特定音音声区間を特定音を言い始めた時刻t-t₁から言い終わった時刻tまでとする。また、t₂を予め所定の値に設定しておき、所定の値t₂と、特定音を言い始めた時刻t-t₁とから非音声区間(t-t₁-t₂からt-t₁まで)を求める。

（特徴量算出部３３３）
特徴量算出部３３３は、特定音音声区間算出部３３２から特定音音声区間を示す情報、非音声区間を示す情報を受け取り、音声蓄積部３３１に蓄積された音声区間検出対象の時系列音響信号を受け取る。そして、特徴量算出部３３３は、時系列音響信号と特定音音声区間とを対応付け、時系列音響信号と非音声区間とを対応付け、特定音音声区間に対応する時系列音響信号からその特徴量である音声区間特徴量を算出し、非音声区間に対応する時系列音響信号からその特徴量である非音声区間特徴量を算出し、音声区間特徴量及び非音声区間特徴量を出力する。特徴量としては、例えば、対数メルスペクトルやケプストラム係数などを用いることができる。但し、第二音響信号分析部３２２が用いる音響特徴量（基本周波数）以外の音響特徴量とするのがよい。特徴量の算出方法としては、どのような方法を用いてもよい。例えば、参考文献４に記載の方法を用いる。
(参考文献４)特開２００９−６３７００号公報

＜音声区間検出部３２０＞
音声区間検出部３２０は、マイクロホン３１０から時系列音響信号を受け取り、特徴量算出部３３３から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部３２０は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し（Ｓ３２０）、検出結果を出力する。

例えば、音声区間検出部３２０は、音声区間を推定する際に用いられる音響モデルのパラメータである音声パラメータを音声区間特徴量から求め、非音声区間を推定する際に用いられる音響モデルのパラメータである非音声パラメータを非音声区間特徴量から求める。

例えば、音声区間検出部３２０に参考文献４の音声区間検出装置を利用することができる。この場合、音声パラメータは音声GMMのパラメータであり、非音声パラメータは非音声GMMのパラメータである。

図１７に示すように、音声区間検出部３２０は、入力の時系列音響信号に対して並列カルマンフィルタ／並列カルマンスムーザを用いて確率計算を行う第一音響信号分析部３２１と、時系列音響信号の周期性成分と非周期性成分の比を用いて確率計算を行う第二音響信号分析部３２２と、それぞれの確率の重みを計算する重み算出部３２３と、算出された重みを用いて、時系列音響信号が音声状態に属する合成確率と非音声状態に属する合成確率を算出し、それぞれの比を求める音声状態／非音声状態合成確率比算出部３２４と、音声状態／非音声状態合成確率比に基づき音声／非音声識別を行う音声区間推定部３２５とを含む。なお、第一音響信号分析部３２１以外の構成については、参考文献４と同様の処理を行うため説明を省略する。

第一音響信号分析部３２１へ入力される時系列音響信号は、例えば8,000Hzのサンプリングレートでサンプリングされ、離散信号に変換された音響信号である。この音響信号は、目的信号である音声信号に雑音信号が重畳した音となっている。以下、音響信号を「入力信号」、音声信号を「クリーン音声」、雑音信号を「雑音」と呼ぶ。

音声区間検出部３２０は、入力信号、音声区間特徴量及び非音声区間特徴量を受けて、音声区間検出結果を出力する。音声区間検出結果は、フレーム単位の音響信号が音声状態に属すれば１を、非音声状態に属すれば０を取る。音声区間検出部３２０は、音声区間検出結果の値を入力信号にかけ合わせた信号を出力してもよい。すなわち、音声状態に属するフレームの入力信号の値は保持され、非音声状態に属するフレームでは、信号の値が全て０に置換される。

＜第一音響信号分析部３２１＞
第一音響信号分析部３２１は、図１８に示すように、入力信号、音声区間特徴量及び非音声区間特徴量を受けて、音声区間検出に用いる音響特徴量を抽出するための特徴量算出部３２１１と、確率モデルパラメータを推定し、得られた確率モデルパラメータにより構成される確率モデルを用いた入力信号の確率計算を行うための、確率推定部３２１２とを含む。

（特徴量算出部３２１１）
特徴量算出部３２１１は、特徴量算出部３３３と同様の方法により、入力信号からその特徴量を算出し、出力する。例えば、24次元の対数メルスペクトルを要素に持つベクトルG_t={g_t,0,…,g_t,φ,…,g_t,23}を算出し、これを出力する。ベクトルG_tは、切り出しの始点の時刻がtのフレームにおける音響特徴量を表す。φはベクトルの要素番号を示す。以下、tをフレーム時刻と呼ぶことにする。

（確率推定部３２１２）
特徴量算出部３２１１の出力である24次元の対数メルスペクトルは、確率推定部３２１２の入力となる。確率推定部３２１２は、入力されたフレームに対して並列非線形カルマンフィルタ、および並列カルマンスムーザを適用し、雑音パラメータを推定する。推定された雑音パラメータを用いて、非音声（雑音＋無音）、および、音声（雑音＋クリーン音声）の確率モデルを生成し、対数メルスペクトルを各確率モデルに入力した際の確率を計算する。

確率推定部３２１２は図１９に示すように、前向き推定部３２１２−１と、後ろ向き推定部３２１２−２と、GMM（Gaussian Mixture Model）記憶部３２１２−３と、パラメータ記憶部３２１２−４を含む。なお、後ろ向き推定部３２１２−２については、参考文献４と同様の処理を行うため説明を省略する。

GMM記憶部３２１２−３は、あらかじめ用意した無音信号とクリーン音声信号の各音響モデルである無音GMMおよびクリーン音声GMMを記憶する。以下、無音GMMおよびクリーン音声GMMを単にGMMなどと表記する。GMMの構成方法は公知の技術であるので、説明を省略する。GMMはそれぞれ複数の正規分布（たとえば３２個）を含有しており、それぞれの正規分布は、混合重みｗ_j,k 、平均μ_S,j,k,φ、分散Σ_S,j,k,φをパラメータとして構成され、jはGMMの種別（j=0：無音GMM，j=1：クリーン音声GMM）、kは各正規分布の番号を示す。各パラメータは、前向き推定部３２１２−１と後向き推定部３２１２−２への入力となる。

パラメータ記憶部３２１２−４は、初期雑音モデル推定用バッファと、雑音モデル推定用バッファとを含む。

［前向き推定部３２１２−１］
前向き推定部３２１２−１における処理内容が参考文献４とは異なる。

参考文献４では、前向き推定部において雑音モデルのパラメータ^N_t,j,k,φ、^Σ_N,t,j,k,φを処理の開始時刻から逐次更新で求めていくが、入力されている音が音声か非音声(雑音)かは定めずに非音声・音声GMMのパラメータを更新している。それに対し、本実施形態では、非音声区間と音声区間とが判明しているため、その情報をより積極的に活用してパラメータを更新している。つまり、非音声区間の音声特徴量を利用して非音声GMMのパラメータを更新し、音声区間の音声特徴量を利用して音声GMMのパラメータを更新する。以下に処理例を示す。

まず、前向き推定部３２１２−１は、非音声区間に対応するフレーム時刻t-t₁-t₂からt-t₁までの特徴量g_{t-t_1-t_2,φ}，…，g_{t-t_1,φ}を用いて、非音声GMM(j=0)のパラメータを更新する。ただし、下付き添え字t_1、t_2はそれぞれｔ₁,t₂を意味する。

前向き推定部３２１２−１は、初期雑音モデル推定用バッファに、非音声区間特徴量(この例では対数メルスペクトルg_t,φとする)のうち、qフレーム分の非音声区間特徴量g_{t-t_1-t_2,φ}，…，g_{t-t_1-t_2-1+q-1,φ}を記憶する。ただし、qは非音声区間の長さt₂を超えない１以上の整数とし、例えばq=10とする。

前向き推定部３２１２−１は、初期雑音モデル推定用バッファからqフレーム分の特徴量g_{t-t_1-t_2,φ}，…，g_{t-t_1-t_2-1+q-1,φ}を取り出す。初期の雑音モデルパラメータN^init _φ，Σ^init _N,φを下記各式で推定し、これらを雑音モデル推定用バッファに記憶する。

また、フレーム時刻t-t₁-t₂+qからt-t₁までの特徴量g_{t-t_1-t_2+q,φ}，…，g_{t-t_1,φ}を用いて、非音声GMM(j=0)のパラメータを更新する。なお、非音声GMMのパラメータの更新方法、更新式は参考文献４と同様である。

次に、前向き推定部３２１２−１は、音声区間に対応するフレーム時刻t-t₁+1からtまでの特徴量g_{t-t_1+1,φ}，…，g_t,φを用いて、音声GMM(j=1)のパラメータを更新する。なお、非音声区間の最後のフレームを用いて更新したパラメータを、音声区間の最初のパラメータとする。つまり、

とする。さらに、特徴量g_{t-t_1+1,φ}，…，g_t,φを用いて、音声GMM(j=1)のパラメータを更新する。なお、音声GMMのパラメータの更新方法、更新式は参考文献４と同様である。

なお、フレーム時刻t以降は、従来技術と同様に、入力信号の特徴量を用いて、音声／非音声GMMのパラメータを更新する。

音声区間検出部３２０は、非音声区間の音声特徴量を利用して更新した非音声GMMのパラメータと、音声区間の音声特徴量を利用して更新した音声GMMのパラメータとに基づき、フレーム時刻t以降において、入力信号の特徴量を用いて音声／非音声GMMのパラメータを更新し、その結果得られるパラメータを用いて音声／非音声を判定する。そのため、音声か非音声(雑音)かは定めずに非音声・音声GMMのパラメータを更新する従来技術と比較して、その判定精度を向上させることができる。

なお、上述の処理は、最初に特徴量算出部３３３から音声区間特徴量と非音声区間特徴量とを受け取ったときのみ行ってもよいし、特徴量算出部３３３から音声区間特徴量と非音声区間特徴量とを受け取る度に行ってもよい。また、特徴量算出部３３３から音声区間特徴量と非音声区間特徴量とを受け取る度に行う場合、毎回、(a)初期の雑音モデルパラメータＮ^init _φ，Σ^init _Ｎ,φを求める処理や(b)非音声区間の最後のフレームを用いて更新したパラメータを音声区間の最初のパラメータとする処理を含む全ての処理を繰り返してもよいし、2回目以降の処理においては上述の(a)や(b)の処理を行わずに音声区間特徴量と非音声区間特徴量とを受け取った時点のパラメータをそのまま用いて、非音声区間に対応するフレーム時刻t-t₁-t₂からt-t₁までの特徴量g_{t-t_1-t_2,φ}，…，g_{t-t_1,φ}を用いて非音声GMM(j=0)のパラメータを更新し、音声区間に対応するフレーム時刻t-t₁+1からtまでの特徴量g_{t-t_1,φ}，…，g_t,φを用いて、音声GMM(j=1)のパラメータを更新してもよい。

＜効果＞
以上の構成により、対象者(ユーザ)の特定の発話に対してキーワード検出を行った結果を利用して、目的音声を含む周囲の音響環境に関する情報をより正確に知ることができ、音声区間検出の信号処理が頑健になる。特に、認識したい音声と雑音とが近しい特性を持つ場合であっても、従来よりも高精度で音声区間と非音声区間との少なくとも何れかを検出することができる。

なお、1つのマイクロホン３１０や特定音声区間検出部３４０を音響信号処理装置の一部としてもよい。また、本実施形態では、音声区間、非音声区間を推定する際に用いられる音響モデルとしてGMMを用いたが、HMM(Hidden Markov Model)等の他の音響モデルを用いてもよい。その場合にも、本実施形態と同様に、音声パラメータ、非音声パラメータをそれぞれ音声区間特徴量、非音声区間特徴量から求めればよい。

＜第三実施形態の第一変形例＞
第三実施形態と異なる部分を中心に説明する。

第三実施形態では、特徴量としては、対数メルスペクトルやケプストラム係数などを用いたが、他の特徴量を用いてもよい。本変形例では、より単純に音声のレベルを判定に用いる場合を考える。

本実施形態では、特徴量として平均パワーを用いる。そのため、特徴量算出部３３３では、特定音音声区間に対応する時系列音響信号からその平均パワーを算出し音声区間特徴量として出力し、非音声区間に対応する時系列音響信号からその平均パワーを算出し非音声区間特徴量として出力する。

＜音声区間検出部３２０＞
音声区間検出部３２０は、音声蓄積部３３１に蓄積された音声区間検出対象の時系列音響信号を受け取り、特徴量算出部３３３から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部３２０は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し（Ｓ３２０）、検出結果を出力する。

図２０に示すように、音声区間検出部３２０は、音声パワー計算部３２６と、音声／非音声判定部３２７と、非音声レベル記憶部３２８と、音声レベル記憶部３２９とを含む。

音声パワー計算部３２６は、音声蓄積部３３１に蓄積された音声区間検出対象の時系列音響信号を受け取り、時系列音響信号のフレームn毎の平均パワーP(n)を計算し、出力する。

例えば、
P(n)＞γV、かつ P(n)＞δN
を満たす場合に、その区間を音声区間と判定する方法が考えられる。nはフレーム時刻を表すインデックス、N,Vはそれぞれ非音声レベル記憶部３２８、音声レベル記憶部３２９に格納されている非音声区間のパワー閾値、音声区間のパワー閾値、γは0以上1以下、δは1以上の実数とする。音声区間の信号のレベルにある程度近い値(γV)より大きく、非音声区間(例えば雑音)の信号のレベルより十分大きい値(δN)よりも大きい場合に音声区間である、と判定する。この場合、あらかじめ格納してある非音声と音声の情報(V、N)と実際の音声区間、非音声区間の信号のレベルが異なる場合に正しく動作しない。またそれぞれの情報(V、N)を時系列音響信号に応じて逐次更新をしていくことも考えられるが、どの区間が非音声または音声かわからないまま更新をするため誤った方向へ値が更新されるリスクがある。

本実施形態では、音声区間特徴量（音声区間の平均パワー）と非音声区間特徴量（非音声区間の平均パワー）とを用いて、パワー閾値V、Nを変更する。

音声／非音声判定部３２７は、非音声レベル記憶部３２８、音声レベル記憶部３２９からそれぞれパワー閾値V、Nを取り出し、音声パワー計算部３２６から平均パワーP(n)を受け取り、特徴量算出部３３３から特定音音声区間に対応する時系列音響信号の平均パワーPvと非音声区間に対応する時系列音響信号の平均パワーPnとを受け取る。

音声／非音声判定部３２７は、パワー閾値V、Nを次式により、それぞれ平均パワーPv、Pnを考慮したパワー閾値V'、N'に置換える。
N’ = （1-α）N + αPn
V’ = （1-β）V + βPv
なおα、βは検出した音声・非音声区間の寄与率を決定するパラメータ（0<α<1、 0<β<1）を表す。音声／非音声判定部３２７は、
P(n)＞γV'、かつ P(n)＞δN'
を満たす場合に、そのフレームnに対応する区間を音声区間として検出し、満たさない場合に、そのフレームnに対応する区間を非音声区間として検出し、検出結果を出力する。

本実施形態の場合、V'が音声区間の特徴を示す音声パラメータに相当し、N'が非音声区間の特徴を示す非音声パラメータに相当する。

＜効果＞
以上の構成により、より実際の状況に即したレベル判定が行うことができ、第三実施形態と同様の効果を得ることができる。

＜第三実施形態の第二変形例＞
第三実施形態と異なる部分を中心に説明する。

図１３は第三実施形態に係る音響信号処理装置の機能ブロック図を、図１４はその処理フローを示す。

音響信号処理装置は、音声区間検出部３２０と、音声区間検出情報蓄積部３３０と、前処理部３５０とを含む。

＜前処理部３５０＞
前処理部３５０は、時系列音響信号を入力とし、時系列音響信号に含まれる音声を強調する処理（音声強調処理）を行い(Ｓ３５０)、強調後の時系列音響信号を出力する。音声強調処理としては、どのような方法を用いてもよい。例えば、参考文献２に記載の雑音抑圧方法を用いる。
（参考文献２）特開２００９−１１００１１号公報

＜効果＞
以上の構成により、第三実施形態と同様の効果を得ることができる。さらに、音声強調処理を施した時系列音響信号を用いて後段の処理（Ｓ３３０、Ｓ３２０）を行うことで、その検出精度を向上させることができる。

＜第三実施形態の第三変形例＞
第三実施形態と異なる部分を中心に説明する。

音響信号処理装置は、M個のマイクロホン３１０−ｍ(m=1,2,…,Mであり、Mは2以上の整数の何れか)でそれぞれ収音されたM個の時系列音響信号と、特定音声区間検出部３４０のL(Lは2以上の整数の何れか)個の出力値とを入力とし、時系列音響信号に含まれる音声区間と非音声区間との少なくとも何れかを検出し、検出結果を出力する。

図２１は第三変形例に係る音響信号処理装置の機能ブロック図を、図２２はその処理フローを示す。

音響信号処理装置は、ビームフォーミング部３６０と、音声区間検出部３２０と、音声区間検出情報蓄積部３３０とを含む。

＜ビームフォーミング部３６０＞
ビームフォーミング部３６０は、M個の時系列音響信号を入力とし、M個の時系列音響信号をL個の方向へそれぞれ指向性を高めたL個の時系列信号(時系列音響信号であり、例えばビームフォーミング出力信号)に変換し(Ｓ３６０)、特定音声区間検出部３４０、音声区間検出情報蓄積部３３０、音声区間検出部３２０に出力する。例えば、ビームフォーミング技術を用いてL個の時系列ビームフォーミング出力信号に変換する。ビームフォーミング技術としては、どのような方法を用いてもよい。例えば、参考文献３に記載の方法を用いる。
（参考文献３）特開２０１７−１０７１４１号公報

なお、特定音声区間検出部３４０では、L個の時系列信号それぞれについて、特定音が来たことを検知し、特定音の検出時刻を示す情報を音声区間検出情報蓄積部３３０に出力する。なお、L個の時系列信号のうちの少なくとも１つの時系列信号に特定音が来たことを検知するものとし、特定音の検出時刻を示す情報は、検知した１つ以上のチャンネルを示す情報と、検知した１つ以上のチャンネルにそれぞれ対応する１つ以上の特定音の検出時刻を示す情報とを含む情報である。各特定音の検出時刻を示す情報は第三実施形態で説明した通りである。

＜音声区間検出情報蓄積部３３０＞
音声区間検出情報蓄積部３３０は、特定音の検出時刻を示す情報とL個の時系列信号とを入力とし、特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを求め（Ｓ３３０）、出力する。なお、特定音が検出されたチャンネル全てについて特徴量を求める。

＜音声区間検出部３２０＞
音声区間検出部３２０は、L個の時系列信号を受け取り、特徴量算出部３３３から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部３２０は、特定音が検出されたチャンネル全ての音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出されたチャンネル全ての非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて、L個の時系列信号それぞれから音声区間と非音声区間との少なくとも何れかを検出し（Ｓ３２０）、検出結果を出力する。検出方法は第三実施形態で説明した通りである。本変形例では、L個の時系列信号に対して1つの(共通の)音声パラメータ及び1つの(共通の)非音声パラメータを用いる。

＜効果＞
このような構成により、第三実施形態と同様の効果を得ることができる。なお、ビームフォーミング部３６０を別装置とし、音響信号処理装置は、L個の時系列信号を入力とする構成としてもよい。また、L個の方向へそれぞれ指向性を高めたL個の指向性のマイクロホン３１０−ｍ(m=1,2,…,Lであり、Lは2以上の整数の何れか)でそれぞれ収音されたL個の時系列音響信号を入力とし、ビームフォーミング部３６０を用いない構成としてもよい。

＜第三実施形態の第四変形例＞
第三変形例と異なる部分を中心に説明する。

＜音声区間検出部３２０＞
音声区間検出部３２０は、L個の時系列信号を受け取り、特徴量算出部３３３から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部３２０は、特定音が検出された1つのチャンネルの音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出された1つのチャンネルの非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、特定音が検出されたチャンネル毎に求めた音声パラメータと非音声パラメータとを用いて、特定音が検出された時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し（Ｓ３２０）、検出結果を出力する。検出方法は第三実施形態で説明した通りである。

本変形例ではL個の時系列信号にそれぞれ対応するL個の音声パラメータ及びL個の非音声パラメータを用いる。なお、音声区間検出部３２０は、特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取り、そのチャンネルの非音声パラメータ及び音声パラメータのみを求める。特定音が検出されなかったチャンネルについては、非音声パラメータ及び音声パラメータを求めず、特定音が検出されたタイミングでそのチャンネルに対応する非音声パラメータ及び音声パラメータを求める。

＜効果＞
このような構成により、第三実施形態と同様の効果を得ることができ、チャンネル毎に詳細な音声パラメータ、非音声パラメータを求めることができる。

［補足］
音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記音響信号から上記特定音に対応する音響信号を除いた音響信号を雑音音響信号として、上記雑音音響信号と、上記特定音に対応する音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。

または、音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号と、上記音響信号から上記対象音響信号を除いた音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。

または、音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記音響信号から上記特定音に対応する音響信号を除いた音響信号を雑音音響信号とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号と、上記雑音音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。

音響信号処理部の例は、第一実施形態の変形例４の第三指向性集音部５２である。この場合、対象音響信号は方向記憶部１３から読み込んだ到来方向からの音の信号であり、雑音音響信号は雑音方向記憶部５１から読み込んだ到来方向からの音の信号となる。

音響信号処理部の他の例は、第三実施形態の音声区間検出情報蓄積部３３０及び音声区間検出部３２０である。この場合、対象音響信号は特定音音声区間に対応する時系列音響信号であり、雑音音響信号は非音声区間に対応する時系列音響信号となる。

［プログラム及び記録媒体］
各音響信号処理装置の各部における処理をコンピュータによって実現する場合、これらの装置の各部がが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部の処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各部の処理は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims

予め定められた音である特定音を含む音響信号を入力とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号が強調されるように集音を行う第一指向性集音部と、
複数のマイクロホンで集音された信号である上記音響信号から音の到来方向を推定する方向推定部と、
上記特定音が検出された時刻における上記推定された到来方向が記憶される方向記憶部と、を含み、
前記第一指向性集音部は、上記方向記憶部から読み込んだ到来方向からの音が強調されるように集音を行い、
過去の所定の時間区間における、上記推定された到来方向の頻度を計測する推定頻度計測部と、
上記計測された頻度の中で最も低い頻度の到来方向を選択する選択部と、を更に含み、
上記方向記憶部には、上記選択された到来方向が記憶される、
音響信号処理装置。
請求項１の音響信号処理装置であって、
上記推定された到来方向からの音が強調されるように集音を行う第二指向性集音部と、
上記第二指向性集音部により集音された信号に基づいて上記特定音を検出する特定音検出部と、
を更に含む音響信号処理装置。
請求項２の音響信号処理装置であって、
上記第二指向性集音部は、上記方向推定部で推定された到来方向のそれぞれを強調されるよう集音する、
音響信号処理装置。
第一指向性集音部が、予め定められた音である特定音を含む音響信号を入力とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号が強調されるように集音を行う第一指向性集音ステップと、
方向推定部が、複数のマイクロホンで集音された信号である上記音響信号から音の到来方向を推定する方向推定ステップと、を含み、
前記第一指向性集音部は、上記特定音が検出された時刻における上記推定された到来方向が記憶される方向記憶部から読み込んだ到来方向からの音が強調されるように集音を行い、
推定頻度計測部が、過去の所定の時間区間における、上記推定された到来方向の頻度を計測する推定頻度計測ステップと、
選択部が、上記計測された頻度の中で最も低い頻度の到来方向を選択する選択ステップと、を更に含み、
上記方向記憶部には、上記選択された到来方向が記憶される、
音響信号処理方法。
請求項１から３の何れかの音響信号処理装置の各部としてコンピュータを機能させるためのコンピュータ読み取り可能なプログラム。