JP6653687B2 - 音響信号処理装置、方法及びプログラム - Google Patents

音響信号処理装置、方法及びプログラム Download PDF

Info

Publication number
JP6653687B2
JP6653687B2 JP2017148355A JP2017148355A JP6653687B2 JP 6653687 B2 JP6653687 B2 JP 6653687B2 JP 2017148355 A JP2017148355 A JP 2017148355A JP 2017148355 A JP2017148355 A JP 2017148355A JP 6653687 B2 JP6653687 B2 JP 6653687B2
Authority
JP
Japan
Prior art keywords
sound
unit
arrival
voice
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017148355A
Other languages
English (en)
Other versions
JP2019029861A (ja
Inventor
小林 和則
和則 小林
弘章 伊藤
弘章 伊藤
翔一郎 齊藤
翔一郎 齊藤
登 原田
登 原田
卓哉 樋口
卓哉 樋口
信貴 伊藤
信貴 伊藤
荒木 章子
章子 荒木
慶介 木下
慶介 木下
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017148355A priority Critical patent/JP6653687B2/ja
Publication of JP2019029861A publication Critical patent/JP2019029861A/ja
Priority to JP2019197593A priority patent/JP6969597B2/ja
Application granted granted Critical
Publication of JP6653687B2 publication Critical patent/JP6653687B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、音響信号の処理技術に関する。
特許文献1,2に記載されている指向性集音技術が知られている(例えば、特許文献1,2参照。)。
図12は、特許文献1,2等で開示されている従来の指向性集音装置の構成である。図12の指向性集音装置は、方向推定部41及び指向性集音部42を備えている。
方向推定部41は、複数のマイクロホンで集音された信号に基づき、音源の方向推定を行う。ここでは、マイクロホン間で発生する時間差や振幅差を手掛かりに推定を行う。
次に、指向性集音部42は、その推定された方向の音を強調して集音するように、指向性集音を行う。指向性集音部42は、狙った方向の音が強調されるように遅延時間やフィルタ係数を設定することで、推定方向の音を強調することができる。この指向性集音技術によれば、音源が1つであれば、その音源の方向を推定し、その音源の方向を強調した集音を行うことができる。
特開2001−309483号公報 特開2005−64968号公報
しかし、従来の指向性集音装置では、集音したい音源と、雑音源の両方が存在する場合には、どちらが集音したい音源か見分けることができず、雑音源を強調してしまうという誤った動作をしてしまう可能性があった。例えば、リビングで音声認識を用いて対話や機器の操作を行うようなロボットやリモコンを使うシーンを想定すると、TV等の音源にも反応してしまい誤動作を起こす可能性があった。
この発明の目的は、より精度の高い指向性集音を行う音響信号処理装置、方法及びプログラムを提供することである。
この発明の一態様による音響信号処理装置は、複数のマイクロホンで集音された信号から音の到来方向を、予め定められた音である特定音が検出された時刻において推定された到来方向に近い方向ほど到来方向であると推定されやすくなるように推定する方向推定部と、方向推定部で推定された到来方向からの音が強調されるように集音を行う第一指向性集音部と、を備えており、方向推定部は、複数のマイクロホンで集音された信号に対して、各到来方向を強調する処理を行う方向強調部と、各到来方向が強調された信号のパワーを計算するパワー計算部と、各到来方向が強調された信号のパワーに、各到来方向が方向推定部により推定される到来方向に近いほど大きな重みを乗算することにより重み付与後パワーを得る重み乗算部と、重み付与後パワーが最も大きい到来方向を選択し、その選択された到来方向を方向推定部により推定される到来方向とする最大パワー方向検出部と、を備えている。
事前に得られている特定音から得られる情報に基づく音響信号処理を行うことで、より精度の高い指向性集音を行うことができる。
第一実施形態の音響信号処理装置の例を説明するためのブロック図。 第一実施形態の変形例1の音響信号処理装置の例を説明するためのブロック図。 第一実施形態の変形例2の音響信号処理装置の例を説明するためのブロック図。 第一実施形態の変形例3の音響信号処理装置の例を説明するためのブロック図。 音響信号処理方法の例を説明するための流れ図。 第二実施形態の音響信号処理装置の例を説明するためのブロック図。 第二実施形態の方向推定部22の例を説明するためのブロック図。 第二実施形態の方向推定部22の例を説明するためのブロック図。 第二実施形態の変形例2の音響信号処理装置の例を説明するためのブロック図。 第二実施形態の変形例3の音響信号処理装置の例を説明するためのブロック図。 音響信号処理方法の例を説明するための流れ図。 背景技術の指向性集音装置の例を説明するためのブロック図。 第三実施形態に係る音響信号処理装置の機能ブロック図。 第三実施形態に係る音響信号処理装置の処理フローの例を示す図。 第三実施形態に係る音声区間検出情報蓄積部の機能ブロック図。 特定音音声区間、非音声区間を説明するための図。 第三実施形態に係る音声区間検出部の機能ブロック図。 第三実施形態に係る第一音響信号分析部の機能ブロック図。 第三実施形態に係る確率推定部の機能ブロック図。 第三実施形態の第一変形例に係る音声区間検出部の機能ブロック図。 第三実施形態の第三変形例、第四変形例に係る音響信号処理装置の機能ブロック図。 第三実施形態の第三変形例、第四変形例に係る音響信号処理装置の処理フローの例を示す図。 第一実施形態の変形例4の音響信号処理装置の例を説明するためのブロック図。 第一実施形態の変形例4の音響信号処理方法の例を説明するための流れ図。
以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
[技術的背景]
音響信号処理装置は、予め定められた音である特定音についての情報が与えられているとして、その特定音についての情報を用いて音響信号処理を行うものである。事前に与えられた特定音についての情報を用いることにより、使える情報が増えるため、より精度の高い音響信号処理を行うことができる。
音響信号処理の例は、音の到来方向の推定、指向性集音、目的音声の抽出、音声区間の検出、音声認識である。
例えば、ユーザの特定の発話に対して特定音であるキーワードの検出を行うことで、目的音声の信号区間と雑音の信号区間を正確に把握でき、その後の処理に活かすことができる。
また、この性質を音声区間検出に用いると、雑音区間と音声区間の信号がそれぞれ判明するため、音声/非音声の判定のためのパラメータをより実測値に即した値へ更新することができる。
また、音響信号処理として音声の方向推定を行う場合には、特定音を検出した方向を音声の方向とみなすことで、本来の方向以外から音声を含む音が到来したとしても方向推定が頑健に動作する。
また、音響信号処理として目的音声抽出を行う場合には、音声区間と非音声区間の信号が精度よく得られるため、音声分離のためのステアリングベクトルを計算するための空間相関行列をより正確に求めることができる。
また、音響信号処理として音声認識を行う場合には、雑音レベルをより正確に得られるため、音響モデルの選択により精度を向上させることができる。
以下、図面を参照して、各実施形態について説明する。
[第一実施形態]
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。
音響信号処理装置は、図11に示すように、方向推定部11、特定音検出部12、方向記憶部13及び第一指向性集音部14を例えば備えている。音響信号処理装置は、特定音検出部12を備えていなくてもよい。
音響信号処理方法は、音響信号処理装置が、図5及び以下に説明するステップS11からステップS14の処理を行うことにより例えば実現される。
方向推定部11は、複数のマイクロホンで集音された信号から音の到来方向を推定する(ステップS11)。方向推定部11は、各時刻における音の到来方向を推定する。推定された各時刻における音の到来方向は、方向記憶部13に出力される。
方向推定部11による方向推定の方式は任意である。方向推定部11は、例えば特許文献1,2に記載された方向推定技術により音の到来方向を推定する。音の到来方向は、方向ではなく、位置により表されるものであってもよい。
特定音検出部12は、予め定められた音である特定音を検出する(ステップS12)。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。
方向記憶部13には、特定音検出部12で特定音が検出された時刻における、方向推定部11で推定された到来方向が記憶される。より詳細には、方向記憶部13は、方向推定部11から入力された各時刻における音の到来方向のうち、特定音検出部12で特定音が検出された時刻における音の到来方向を記憶する。
第一指向性集音部14は、方向記憶部13から読み込んだ到来方向からの音が強調されるように集音を行う(ステップS14)。第一指向性集音部14による指向性集音の方式は任意である。第一指向性集音部14は、例えば特開2009−44588号公報に記載された指向性集音を行う。
このように、特定音が発せられた音源を集音すべき音源と判別して、その音源を指向性集音することで、高SN比で集音することができる。ユーザは、特定のキーワード等の特定音を発することで、指向性の向きを変えることができ、テレビなどの音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。
なお、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図1では、遅延部15を破線で示している。遅延部15は、特定音検出部12による特定音の検出の時間に対応する時間だけ方向推定部11からの出力を遅延させてから方向記憶部13に入力する。これにより、特定音の検出に遅延があっても正常に動作する。
[[第一実施形態の変形例1]]
図2に例示するように、音響信号処理装置は、推定頻度計測部16及び選択部17を更に備えていてもよい。この場合、方向推定部11は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部11は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。この場合、どちらの音源で特定音が発せられたかの判別ができなくなってしまうので、推定頻度計測部16が、過去に方向推定がどのくらい行われたかで、その判別を行う。すなわち、推定頻度計測部16は、TV等の音源は常に音が出力されているので、過去に多数の方向推定が行われているものと考えられるので、これを手掛かりに判別する。
推定頻度計測部16は、過去の所定の時間区間における、方向推定部11で推定された到来方向の頻度を計測する(ステップS16)。すなわち、推定頻度計測部16は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部17に出力される。
例えば、過去T秒の間に、方向推定部11の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部16は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
選択部17は、推定頻度計測部16で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部17は、方向推定部11の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部12で特定音が検出された時刻における、選択部17で選択された到来方向が、方向記憶部13に記憶される。
その後、第一指向性集音部14は、上記と同様にして、方向記憶部13から読み込んだ到来方向からの音が強調されるように集音を行う。
なお、第一実施形態の変形例1においても、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図2では、遅延部15を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。
[[第一実施形態の変形例2]]
図3に例示するように、音響信号処理装置は、第二指向性集音部18を更に備えていてもよい。
特定音検出部12の処理の前に、第二指向性集音部18による指向性集音を行うことで、より高精度な特定音の検出を行うことができる。
第二指向性集音部18には、複数のマイクロホンで集音された信号を遅延させた信号が入力される。この遅延は、方向推定部11による到来方向の推定処理に必要な時間に対応する時間の長さを持つ。この遅延は、図3に破線で示されている遅延部19により行われる。また、第二指向性集音部18には、方向推定部11で推定された到来方向が入力される。
第二指向性集音部18は、方向推定部11で推定された到来方向からの音が強調されるように集音を行う(ステップS18)。より詳細には、第二指向性集音部18は、複数のマイクロホンで集音された信号を遅延させた信号を用いて、方向推定部11で推定された到来方向からの音が強調されるように集音を行う。第二指向性集音部18で集音された信号は、特定音検出部12に出力される。
特定音検出部12は、第二指向性集音部18により集音された信号に基づいて特定音を検出する。その後の処理は、上記と同様である。
なお、図3に示すように、複数の第二指向性集音部18が音響信号処理装置に備えられていてもよい。この場合、第二指向性集音部18の数と同数の特定音検出部12が音響信号処理装置に備えられている。
この場合、方向推定部11で複数の到来方向が推定された場合には、特定音検出部12は、推定された複数の到来方向のそれぞれを強調するように動作し、それらの出力がそれぞれ複数の特定音検出部12に入力され、特定音の検出が行われる。
これにより、複数の特定音検出部12で特定音が検出された場合に、優先順位を付けることが可能となる。
なお、第一実施形態の変形例2においても、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図2では、遅延部15を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。
[[第一実施形態の変形例3]]
図4に例示するように、第一実施形態の変形例2において、第一実施形態の変形例1で説明した推定頻度計測部16及び選択部17を音響信号処理装置は更に備えていてもよい。この場合、方向推定部11は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部11は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。
推定頻度計測部16及び選択部17の処理は、第一実施形態の変形例1で説明したものと同様である。
すなわち、推定頻度計測部16は、過去の所定の時間区間における、方向推定部11で推定された到来方向の頻度を計測する(ステップS16)。すなわち、推定頻度計測部16は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部17に出力される。
例えば、過去T秒の間に、方向推定部11の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部16は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
選択部17は、推定頻度計測部16で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部17は、方向推定部11の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部12で特定音が検出された時刻における、選択部17で選択された到来方向が、方向記憶部13に記憶される。
その後、第一指向性集音部14は、上記と同様にして、方向記憶部13から読み込んだ到来方向からの音が強調されるように集音を行う。
なお、第一実施形態の変形例1においても、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図4では、遅延部15を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。
[[第一実施形態の変形例4]]
図23に例示するように、音響信号処理装置は、第一指向性集音部14にかえて第三指向性集音部52を備えるとともに、雑音方向記憶部51をさらに備えてもよい。
音響信号処理方法は、音響信号処理装置が、図24及び以下に説明するステップS31の処理を行うことにより例えば実現される。
雑音方向記憶部51には、特定音検出部12で特定音が検出された時刻を除く、方向推定部11で推定された到来方向が記憶される。ここで、特定音が検出された時刻を除くとは、特定音が検出された時刻よりも時系列的に前の時刻であってもよいし時系列的に後の時刻であってもよいし前の時刻と後の時刻両方であってもよい。なお、雑音方向記憶部51の前段かつ方向推定部11の後段に遅延部15を入れてもよいのは言うまでもない。
第三指向性集音部52は方向記憶部13から読み込んだ到来方向からの音が強調されるようにかつ雑音方向記憶部51から読み込んだ到来方向からの音が抑圧されるように集音を行う(ステップS52)。第三指向性集音部52による指向性集音の方式は任意である。第三指向性集音部52が行う指向性集音の方式は、例えば参考文献5に記載の方式を用いてもよい。
(参考文献5)浅野太著, 「音のアレイ信号処理」, pp.82-85,コロナ社, 2011.
[第二実施形態]
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。
音響信号処理装置は、図6に示すように、特定音検出部21、方向推定部22、第一指向性集音部23を例えば備えている。音響信号処理装置は、特定音検出部12を備えていなくてもよい。
音響信号処理方法は、音響信号処理装置が、図11及び以下に説明するステップS21からステップS23の処理を行うことにより例えば実現される。
特定音検出部21は、予め定められた音である特定音を検出する(ステップS21)。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。
方向推定部22は、複数のマイクロホンで集音された信号から音の到来方向を推定する(ステップS22)。その際、方向推定部22は、複数のマイクロホンで集音された信号から音の到来方向を、特定音検出部21において特定音が検出された時刻において推定された到来方向に近い方向ほど到来方向であると推定されやすくなるように推定する。
すなわち、方向推定部22では、特定音の検出の結果に応じて、各方向への検出されやすさが設定される。言い換えれば、方向推定部22では、特定音の検出時に推定されていた方向に近いほど、方向検出がされやすくなり、遠いほど検出されにくくなる。こうすることにより、特定音を発したユーザに対し指向性が向きやすくなり、雑音源に指向性が向きにくくなる。また、特定音を発したユーザが移動してもそれに追従することができる。
方向推定部22の構成の例を、図7に示す。図7に例示するように、方向推定部22は、方向強調部221、パワー計算部222、重み乗算部223、最大パワー方向検出部224及び重み決定部225を備えている。
複数のマイクロホンで集音された信号のそれぞれは、方向強調部221に入力される。
方向強調部221は、複数のマイクロホンで集音された信号に対し、複数の方向をそれぞれ強調するように方向強調処理を行う(ステップS221)。例えば、N個の方向強調部221が設けられている場合には、θ1,θ2,…,θNを互いに異なる方向として、N個の方向強調部221は、それぞれθ1,θ2,…,θNの方向を強調するように方向強調処理を行う。強調された信号は、パワー計算部222に出力される。
パワー計算部222は、方向強調部221で強調された信号のパワーを計算する(ステップS222)。計算されたパワーは、重み乗算部223に出力される。
重み乗算部223は、パワー計算部222で計算されたパワーに、重み設定部225で設定された重みを乗じる(ステップS223)。重み付与後パワーは、最大パワー方向検出部224に出力される。後述するように、したがって、重み乗算部223は、各到来方向が強調された信号のパワーに、上記各到来方向が上記選択された到来方向に近いほど大きな重みを乗算することにより重み付与後パワーを得る。
最大パワー方向検出部224は、重み乗算部223の出力のうち最大パワーの到来方向を選択する。言い換えれば、最大パワー方向検出部224は、重み付与後パワーが最も大きい到来方向を選択し、その選択された到来方向を推定される到来方向とする(ステップS224)。推定された到来方向は、方向推定結果として、重み決定部225及び第一指向性集音部23に出力される。
重み設定部225は、特定音検出部21で特定音が検出された時刻において、最大パワー方向検出部224が出力した方向推定結果に対応する重みを決定する。決定された重みは、重み乗算部223に出力される。言い換えれば、重み設定部225は、特定音の検出がありとなったときに、方向推定結果に対応した重みを設定する。
方向推定結果に対応した重みは、推定された到来方向に対する重みが大きくなり、その到来方向から離れるにしたがって、重みが小さくなるように設定される。例えば、推定された到来方向に対する重みを1.0とし、その推定された到来方向から10度ずれるごとに1.0未満の乗数(例えば0.8)を乗じた重みが設定される。
第一指向性集音部23は、方向推定部22で推定された到来方向からの音が強調されるように集音を行う(ステップS23)。第一指向性集音部23による指向性集音の方式は任意である。第一指向性集音部23は、例えば特開2009−44588号公報に記載された指向性集音を行う。
このように、特定音が発せられた音源を集音すべき音源と判別して、その音源を指向性集音することで、高SN比で集音することができる。ユーザは、特定のキーワード等の特定音を発することで、指向性の向きを変えることができ、テレビなどの音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。
なお、特定音検出部21による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部226を最大パワー方向検出部224の後段に入れてもよい。図7では、遅延部226を破線で示している。遅延部226は、特定音検出部21による特定音の検出の時間に対応する時間だけ最大パワー方向検出部224からの出力を遅延させてから重み設定部225に入力する。これにより、特定音の検出に遅延があっても正常に動作する。
[[第二実施形態の変形例1]]
図8に例示するように、音響信号処理装置は、推定頻度計測部227及び選択部228を更に備えていてもよい。
この場合、最大パワー方向検出部224は、所定の閾値を超えるパワー方向全てを検出することにより、複数方向の同時推定が可能であってもよい。すなわち、最大パワー方向検出部224は、最大パワーの方向を検出し、検出済みの方向を除いて、さらに最大パワーの方向を検出する。最大パワー方向検出部224は、予め設定した最大推定方向数に達するか、最大パワーがあらかじめ設定した閾値以下になった場合に最大パワー検出を終了する。最大パワー方向検出部224は、例えばこのような方法により複数の音源の方向を同時に推定可能であってもよい。これにより、最大パワー方向検出部224は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能となる。
この場合、どちらの音源で特定音が発せられたかの判別ができなくなってしまうので、推定頻度計測部227が、過去に方向推定がどのくらい行われたかで、その判別を行う。すなわち、推定頻度計測部227は、TV等の音源は常に音が出力されているので、過去に多数の方向推定が行われているものと考えられるので、これを手掛かりに判別する。
推定頻度計測部227は、過去の所定の時間区間における、方向推定部22で推定された到来方向の頻度、言い換えれば、最大パワー方向検出部22で選択された到来方向の頻度を計測する(ステップS16)。すなわち、推定頻度計測部227は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部228に出力される。
例えば、過去T秒の間に、最大パワー方向検出部224の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部227は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
選択部228は、推定頻度計測部227で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部228は、最大パワー方向検出部22の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。選択された到来方向は、重み設定部225に出力される。
なお、特定音検出部21による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部226を最大パワー方向検出部224の後段に入れてもよい。図8では、遅延部226を破線で示している。遅延部226は、特定音検出部21による特定音の検出の時間に対応する時間だけ最大パワー方向検出部224からの出力を遅延させてから重み設定部225に入力する。これにより、特定音の検出に遅延があっても正常に動作する。
[[第二実施形態の変形例2]]
図9に例示するように、音響信号処理装置は、第二指向性集音部24を更に備えていてもよい。
特定音検出部21の処理の前に、第二指向性集音部24による指向性集音を行うことで、より高精度な特定音の検出を行うことができる。
第二指向性集音部24には、複数のマイクロホンで集音された信号を遅延させた信号が入力される。この遅延は、方向推定部22による到来方向の推定処理に必要な時間に対応する時間の長さを持つ。この遅延は、図9に破線で示されている遅延部25により行われる。また、第二指向性集音部24には、方向推定部22で推定された到来方向が入力される。
第二指向性集音部24は、方向推定部22で推定された到来方向からの音が強調されるように集音を行う(ステップS24)。より詳細には、第二指向性集音部24は、複数のマイクロホンで集音された信号を遅延させた信号を用いて、方向推定部22で推定された到来方向からの音が強調されるように集音を行う。第二指向性集音部24で集音された信号は、特定音検出部21に出力される。
特定音検出部21は、第二指向性集音部24により集音された信号に基づいて特定音を検出する。その後の処理は、上記と同様である。
なお、図9に示すように、複数の第二指向性集音部24が音響信号処理装置に備えられていてもよい。この場合、第二指向性集音部24の数と同数の特定音検出部21が音響信号処理装置に備えられている。
この場合、方向推定部22で複数の到来方向が推定された場合には、特定音検出部21は、推定された複数の到来方向のそれぞれを強調するように動作し、それらの出力がそれぞれ複数の特定音検出部21に入力され、特定音の検出が行われる。
これにより、複数の特定音検出部21で特定音が検出された場合に、優先順位を付けることが可能となる。
[[第二実施形態の変形例3]]
図10に例示するように、第二実施形態の変形例2において、推定頻度計測部26及び選択部27を音響信号処理装置は更に備えていてもよい。この場合、方向推定部22は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部22は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。
推定頻度計測部26及び選択部27の処理は、第一実施形態の変形例1で説明したものと同様である。
すなわち、推定頻度計測部26は、過去の所定の時間区間における、方向推定部22で推定された到来方向の頻度を計測する(ステップS26)。すなわち、推定頻度計測部26は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部27に出力される。
例えば、過去T秒の間に、方向推定部22の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部26は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
選択部27は、推定頻度計測部26で計測された頻度の中で最も低い頻度の到来方向を選択する(ステップS27)。例えば、選択部27は、方向推定部22の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部21で特定音が検出された時刻における、選択部27で選択された到来方向は、方向推定部22に出力され、方向推定部22により推定された到来方向とされる。
その後、第一指向性集音部23は、上記と同様にして、方向推定部22により推定された到来方向からの音が強調されるように集音を行う。
[第三実施形態]
第三実施形態の音響信号処理装置及び方法は、音響信号処理として音声区間の検出を行う。
<第三実施形態のポイント>
本実施形態では、利用者の発話内容を絞り込むことで、利用環境(雑音など)の情報をより正しく得る。例えば、利用者が発話を始める前に特定の単語(キーワード)を発するように制限する。その際に、その特定の単語音声のみを高精度に検出できるようにしておき、「その区間は音声」「その前の区間は雑音」と仮定する。そして、その雑音区間と音声区間の音声を利用して、「音声/非音声」の判定のための情報を更新する。
そうすることで、その後に発せられる目的の音声の区間を判定する際に、より実利用環境に即した「雑音」と「音声」の情報が利用でき、区間検出の精度が向上する。
以下、音響信号処理装置・方法の実施形態を説明する。音響信号処理装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ(汎用機)で実現する場合として説明する。
音響信号処理装置のハードウェア構成例を説明する。
音響信号処理装置は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部と、音響信号処理装置外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部と、CPU(Central Processing Unit)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるRAM、ROMや、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音響信号処理装置に、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
また、音響信号処理装置には、例えば音声、音楽、雑音などの音を受音する音響信号収音手段(例えばマイクロホン)を接続可能であって、マイクロホンによって得られた(アナログ)信号の入力を受ける信号入力部、および、再生信号を音として出力する音響出力装置(例えばスピーカ)を接続可能であって、スピーカに入力する信号(再生信号をD/A変換したもの)を出力するための信号出力部を設ける構成とすることも可能である。この場合、信号入力部にはマイクロホンが接続され、信号出力部にはスピーカが接続する。
音響信号処理装置の外部記憶装置には、音声区間検出のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、このプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶手段を単に「○○記憶部」と呼ぶことにする。
この実施形態では、主記憶部に、音響信号に含まれる音声区間よりも時系列的に前の区間の信号を取得するために、離散信号である音響信号を記憶しておく。この記憶はバッファ等の一時的な記憶でもよい。
<音響信号処理装置の構成>
図13は第三実施形態に係る音響信号処理装置の機能ブロック図を、図14はその処理フローを示す。
音響信号処理装置は、音声区間検出部320と、音声区間検出情報蓄積部330とを含む。
音響信号処理装置は、1つのマイクロホン310で収音された時系列音響信号と、特定音声区間検出部340の出力値とを入力とし、時系列音響信号に含まれる音声区間と非音声区間との少なくとも何れかを検出し、検出結果を出力する。
なお、特定音声区間検出部340は、あらかじめ定められた音(以下「特定音」ともいう)が来たことを検知し、特定音の検出時刻を示す情報を出力する。本実施形態では、特定音は人が発する所定の音声であり、例えば、人が所定のキーワードを発した際の音声である。たとえば参考文献1のような「フレーズスポッティング」などの技術を利用して特定音声区間検出部340を実装することができる。
(参考文献1)「センサリ社音声技術説明」、[online]、2010年、[平成29年7月24日検索]、インターネット<URL:http://www.sensory.co.jp/Parts/Docs/SensoryTechnologyJP1003B.pdf>
なお、特定音の検出時刻を示す情報は、少なくとも特定音(例えばキーワード)を言い終わった時刻を示す情報であり、(1-i)特定音を言い終わった時刻そのものを出力してもよいし、(1-ii)特定音を言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(1-iii)特定音を言い終わった時刻以外のフレーム時刻において検出していないことを示す情報(例えば「0」)を出力し、特定音を言い終わった時刻において検出したことを示す情報(例えば「1」)を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。また、特定音の検出時刻を示す情報は、特定音を言い始めた時刻を示す情報を含んでもよく、(2-i)特定音を言い始めた時刻及び言い終わった時刻そのものを出力してもよいし、(2-ii)特定音を言い始めた時刻及び言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(2-iii)特定音を言い始めた時刻から言い終わった時刻までにおいて検出したことを示す情報(例えば「1」)を出力し、それ以外の時刻において検出していないことを示す情報(例えば「0」)を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。
以下、各部の処理内容を説明する。
<音声区間検出情報蓄積部330>
音声区間検出情報蓄積部330は、特定音の検出時刻を示す情報と時系列音響信号とを入力とし、フレーム単位で特定音音声区間に対応する時系列音響信号の特徴量と、非音声区間に対応する時系列音響信号の特徴量とを求め(S330)、出力する。なお、音声区間検出情報蓄積部330を含む各部において各処理はフレーム単位で行われる。
図15に示すように、音声区間検出情報蓄積部330は、音声蓄積部331と、特定音音声区間算出部332と、特徴量算出部333とを含む。以下、各部の処理内容を説明する。
(音声蓄積部331)
音声蓄積部331は、音声区間検出対象の時系列音響信号を受け取り、蓄積する。
(特定音音声区間算出部332)
特定音音声区間算出部332は、特定音の検出時刻を示す情報を入力とし、検出時刻に基づき特定音に対応する区間と推定される時系列音響信号の区間を特定音音声区間とし、検出時刻に基づき特定音に対応する区間ではないと推定される時系列音響信号の区間を非音声区間と判定し、特定音音声区間を示す情報、非音声区間を示す情報を出力する。例えば、特定音の検出時刻(この例では、特定音を言い終わった時刻)の前のt1秒間を特定音音声区間とし、特定音音声区間の前のt2秒間を非音声区間と判定する(図16参照)。
例えば、特定音の検出時刻を示す情報として、特定音を言い終わったフレーム時刻(例えばtとする)を示す情報のみを含む場合、t1、t2を予め所定の値にそれぞれ設定しておき、特定音の検出時刻を示す情報から特定音音声区間(t-t1からtまで)と非音声区間(t-t1-t2からt-t1まで)とを求める。t1としては特定音を発した際にかかる時間の平均値等を用いてもよい。また、特定音の検出時刻を示す情報として、特定音を言い始めた時刻及び言い終わった時刻(例えばtとする)を示す情報を含む場合、特定音を言い始めた時刻をt-t1とし、特定音音声区間を特定音を言い始めた時刻t-t1から言い終わった時刻tまでとする。また、t2を予め所定の値に設定しておき、所定の値t2と、特定音を言い始めた時刻t-t1とから非音声区間(t-t1-t2からt-t1まで)を求める。
(特徴量算出部333)
特徴量算出部333は、特定音音声区間算出部332から特定音音声区間を示す情報、非音声区間を示す情報を受け取り、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取る。そして、特徴量算出部333は、時系列音響信号と特定音音声区間とを対応付け、時系列音響信号と非音声区間とを対応付け、特定音音声区間に対応する時系列音響信号からその特徴量である音声区間特徴量を算出し、非音声区間に対応する時系列音響信号からその特徴量である非音声区間特徴量を算出し、音声区間特徴量及び非音声区間特徴量を出力する。特徴量としては、例えば、対数メルスペクトルやケプストラム係数などを用いることができる。但し、第二音響信号分析部322が用いる音響特徴量(基本周波数)以外の音響特徴量とするのがよい。特徴量の算出方法としては、どのような方法を用いてもよい。例えば、参考文献4に記載の方法を用いる。
(参考文献4)特開2009−63700号公報
<音声区間検出部320>
音声区間検出部320は、マイクロホン310から時系列音響信号を受け取り、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。
例えば、音声区間検出部320は、音声区間を推定する際に用いられる音響モデルのパラメータである音声パラメータを音声区間特徴量から求め、非音声区間を推定する際に用いられる音響モデルのパラメータである非音声パラメータを非音声区間特徴量から求める。
例えば、音声区間検出部320に参考文献4の音声区間検出装置を利用することができる。この場合、音声パラメータは音声GMMのパラメータであり、非音声パラメータは非音声GMMのパラメータである。
図17に示すように、音声区間検出部320は、入力の時系列音響信号に対して並列カルマンフィルタ/並列カルマンスムーザを用いて確率計算を行う第一音響信号分析部321と、時系列音響信号の周期性成分と非周期性成分の比を用いて確率計算を行う第二音響信号分析部322と、それぞれの確率の重みを計算する重み算出部323と、算出された重みを用いて、時系列音響信号が音声状態に属する合成確率と非音声状態に属する合成確率を算出し、それぞれの比を求める音声状態/非音声状態合成確率比算出部324と、音声状態/非音声状態合成確率比に基づき音声/非音声識別を行う音声区間推定部325とを含む。なお、第一音響信号分析部321以外の構成については、参考文献4と同様の処理を行うため説明を省略する。
第一音響信号分析部321へ入力される時系列音響信号は、例えば8,000Hzのサンプリングレートでサンプリングされ、離散信号に変換された音響信号である。この音響信号は、目的信号である音声信号に雑音信号が重畳した音となっている。以下、音響信号を「入力信号」、音声信号を「クリーン音声」、雑音信号を「雑音」と呼ぶ。
音声区間検出部320は、入力信号、音声区間特徴量及び非音声区間特徴量を受けて、音声区間検出結果を出力する。音声区間検出結果は、フレーム単位の音響信号が音声状態に属すれば1を、非音声状態に属すれば0を取る。音声区間検出部320は、音声区間検出結果の値を入力信号にかけ合わせた信号を出力してもよい。すなわち、音声状態に属するフレームの入力信号の値は保持され、非音声状態に属するフレームでは、信号の値が全て0に置換される。
<第一音響信号分析部321>
第一音響信号分析部321は、図18に示すように、入力信号、音声区間特徴量及び非音声区間特徴量を受けて、音声区間検出に用いる音響特徴量を抽出するための特徴量算出部3211と、確率モデルパラメータを推定し、得られた確率モデルパラメータにより構成される確率モデルを用いた入力信号の確率計算を行うための、確率推定部3212とを含む。
(特徴量算出部3211)
特徴量算出部3211は、特徴量算出部333と同様の方法により、入力信号からその特徴量を算出し、出力する。例えば、24次元の対数メルスペクトルを要素に持つベクトルGt={gt,0,…,gt,φ,…,gt,23}を算出し、これを出力する。ベクトルGtは、切り出しの始点の時刻がtのフレームにおける音響特徴量を表す。φはベクトルの要素番号を示す。以下、tをフレーム時刻と呼ぶことにする。
(確率推定部3212)
特徴量算出部3211の出力である24次元の対数メルスペクトルは、確率推定部3212の入力となる。確率推定部3212は、入力されたフレームに対して並列非線形カルマンフィルタ、および並列カルマンスムーザを適用し、雑音パラメータを推定する。推定された雑音パラメータを用いて、非音声(雑音+無音)、および、音声(雑音+クリーン音声)の確率モデルを生成し、対数メルスペクトルを各確率モデルに入力した際の確率を計算する。
確率推定部3212は図19に示すように、前向き推定部3212−1と、後ろ向き推定部3212−2と、GMM(Gaussian Mixture Model)記憶部3212−3と、パラメータ記憶部3212−4を含む。なお、後ろ向き推定部3212−2については、参考文献4と同様の処理を行うため説明を省略する。
GMM記憶部3212−3は、あらかじめ用意した無音信号とクリーン音声信号の各音響モデルである無音GMMおよびクリーン音声GMMを記憶する。以下、無音GMMおよびクリーン音声GMMを単にGMMなどと表記する。GMMの構成方法は公知の技術であるので、説明を省略する。GMMはそれぞれ複数の正規分布(たとえば32個)を含有しており、それぞれの正規分布は、混合重みwj,k 、平均μS,j,k,φ、分散ΣS,j,k,φをパラメータとして構成され、jはGMMの種別(j=0:無音GMM,j=1:クリーン音声GMM)、kは各正規分布の番号を示す。各パラメータは、前向き推定部3212−1と後向き推定部3212−2への入力となる。
パラメータ記憶部3212−4は、初期雑音モデル推定用バッファと、雑音モデル推定用バッファとを含む。
[前向き推定部3212−1]
前向き推定部3212−1における処理内容が参考文献4とは異なる。
参考文献4では、前向き推定部において雑音モデルのパラメータ^Nt,j,k,φ、^ΣN,t,j,k,φを処理の開始時刻から逐次更新で求めていくが、入力されている音が音声か非音声(雑音)かは定めずに非音声・音声GMMのパラメータを更新している。それに対し、本実施形態では、非音声区間と音声区間とが判明しているため、その情報をより積極的に活用してパラメータを更新している。つまり、非音声区間の音声特徴量を利用して非音声GMMのパラメータを更新し、音声区間の音声特徴量を利用して音声GMMのパラメータを更新する。以下に処理例を示す。
まず、前向き推定部3212−1は、非音声区間に対応するフレーム時刻t-t1-t2からt-t1までの特徴量gt-t_1-t_2,φ,…,gt-t_1,φを用いて、非音声GMM(j=0)のパラメータを更新する。ただし、下付き添え字t_1、t_2はそれぞれt1,t2を意味する。
前向き推定部3212−1は、初期雑音モデル推定用バッファに、非音声区間特徴量(この例では対数メルスペクトルgt,φとする)のうち、qフレーム分の非音声区間特徴量gt-t_1-t_2,φ,…,gt-t_1-t_2-1+q-1,φを記憶する。ただし、qは非音声区間の長さt2を超えない1以上の整数とし、例えばq=10とする。
前向き推定部3212−1は、初期雑音モデル推定用バッファからqフレーム分の特徴量gt-t_1-t_2,φ,…,gt-t_1-t_2-1+q-1,φを取り出す。初期の雑音モデルパラメータNinit φ,Σinit N,φを下記各式で推定し、これらを雑音モデル推定用バッファに記憶する。
Figure 0006653687
また、フレーム時刻t-t1-t2+qからt-t1までの特徴量gt-t_1-t_2+q,φ,…,gt-t_1,φを用いて、非音声GMM(j=0)のパラメータを更新する。なお、非音声GMMのパラメータの更新方法、更新式は参考文献4と同様である。
次に、前向き推定部3212−1は、音声区間に対応するフレーム時刻t-t1+1からtまでの特徴量gt-t_1+1,φ,…,gt,φを用いて、音声GMM(j=1)のパラメータを更新する。なお、非音声区間の最後のフレームを用いて更新したパラメータを、音声区間の最初のパラメータとする。つまり、
Figure 0006653687
とする。さらに、特徴量gt-t_1+1,φ,…,gt,φを用いて、音声GMM(j=1)のパラメータを更新する。なお、音声GMMのパラメータの更新方法、更新式は参考文献4と同様である。
なお、フレーム時刻t以降は、従来技術と同様に、入力信号の特徴量を用いて、音声/非音声GMMのパラメータを更新する。
音声区間検出部320は、非音声区間の音声特徴量を利用して更新した非音声GMMのパラメータと、音声区間の音声特徴量を利用して更新した音声GMMのパラメータとに基づき、フレーム時刻t以降において、入力信号の特徴量を用いて音声/非音声GMMのパラメータを更新し、その結果得られるパラメータを用いて音声/非音声を判定する。そのため、音声か非音声(雑音)かは定めずに非音声・音声GMMのパラメータを更新する従来技術と比較して、その判定精度を向上させることができる。
なお、上述の処理は、最初に特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取ったときのみ行ってもよいし、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る度に行ってもよい。また、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る度に行う場合、毎回、(a)初期の雑音モデルパラメータNinit φ,Σinit N,φを求める処理や(b)非音声区間の最後のフレームを用いて更新したパラメータを音声区間の最初のパラメータとする処理を含む全ての処理を繰り返してもよいし、2回目以降の処理においては上述の(a)や(b)の処理を行わずに音声区間特徴量と非音声区間特徴量とを受け取った時点のパラメータをそのまま用いて、非音声区間に対応するフレーム時刻t-t1-t2からt-t1までの特徴量gt-t_1-t_2,φ,…,gt-t_1,φを用いて非音声GMM(j=0)のパラメータを更新し、音声区間に対応するフレーム時刻t-t1+1からtまでの特徴量gt-t_1,φ,…,gt,φを用いて、音声GMM(j=1)のパラメータを更新してもよい。
<効果>
以上の構成により、対象者(ユーザ)の特定の発話に対してキーワード検出を行った結果を利用して、目的音声を含む周囲の音響環境に関する情報をより正確に知ることができ、音声区間検出の信号処理が頑健になる。特に、認識したい音声と雑音とが近しい特性を持つ場合であっても、従来よりも高精度で音声区間と非音声区間との少なくとも何れかを検出することができる。
なお、1つのマイクロホン310や特定音声区間検出部340を音響信号処理装置の一部としてもよい。また、本実施形態では、音声区間、非音声区間を推定する際に用いられる音響モデルとしてGMMを用いたが、HMM(Hidden Markov Model)等の他の音響モデルを用いてもよい。その場合にも、本実施形態と同様に、音声パラメータ、非音声パラメータをそれぞれ音声区間特徴量、非音声区間特徴量から求めればよい。
<第三実施形態の第一変形例>
第三実施形態と異なる部分を中心に説明する。
第三実施形態では、特徴量としては、対数メルスペクトルやケプストラム係数などを用いたが、他の特徴量を用いてもよい。本変形例では、より単純に音声のレベルを判定に用いる場合を考える。
本実施形態では、特徴量として平均パワーを用いる。そのため、特徴量算出部333では、特定音音声区間に対応する時系列音響信号からその平均パワーを算出し音声区間特徴量として出力し、非音声区間に対応する時系列音響信号からその平均パワーを算出し非音声区間特徴量として出力する。
<音声区間検出部320>
音声区間検出部320は、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取り、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。
図20に示すように、音声区間検出部320は、音声パワー計算部326と、音声/非音声判定部327と、非音声レベル記憶部328と、音声レベル記憶部329とを含む。
音声パワー計算部326は、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取り、時系列音響信号のフレームn毎の平均パワーP(n)を計算し、出力する。
例えば、
P(n)>γV、 かつ P(n)>δN
を満たす場合に、その区間を音声区間と判定する方法が考えられる。nはフレーム時刻を表すインデックス、N,Vはそれぞれ非音声レベル記憶部328、音声レベル記憶部329に格納されている非音声区間のパワー閾値、音声区間のパワー閾値、γは0以上1以下、δは1以上の実数とする。音声区間の信号のレベルにある程度近い値(γV)より大きく、非音声区間(例えば雑音)の信号のレベルより十分大きい値(δN)よりも大きい場合に音声区間である、と判定する。この場合、あらかじめ格納してある非音声と音声の情報(V、N)と実際の音声区間、非音声区間の信号のレベルが異なる場合に正しく動作しない。またそれぞれの情報(V、N)を時系列音響信号に応じて逐次更新をしていくことも考えられるが、どの区間が非音声または音声かわからないまま更新をするため誤った方向へ値が更新されるリスクがある。
本実施形態では、音声区間特徴量(音声区間の平均パワー)と非音声区間特徴量(非音声区間の平均パワー)とを用いて、パワー閾値V、Nを変更する。
音声/非音声判定部327は、非音声レベル記憶部328、音声レベル記憶部329からそれぞれパワー閾値V、Nを取り出し、音声パワー計算部326から平均パワーP(n)を受け取り、特徴量算出部333から特定音音声区間に対応する時系列音響信号の平均パワーPvと非音声区間に対応する時系列音響信号の平均パワーPnとを受け取る。
音声/非音声判定部327は、パワー閾値V、Nを次式により、それぞれ平均パワーPv、Pnを考慮したパワー閾値V'、N'に置換える。
N’ = (1-α)N + αPn
V’ = (1-β)V + βPv
なおα、βは検出した音声・非音声区間の寄与率を決定するパラメータ(0<α<1、 0<β<1)を表す。音声/非音声判定部327は、
P(n)>γV'、 かつ P(n)>δN'
を満たす場合に、そのフレームnに対応する区間を音声区間として検出し、満たさない場合に、そのフレームnに対応する区間を非音声区間として検出し、検出結果を出力する。
本実施形態の場合、V'が音声区間の特徴を示す音声パラメータに相当し、N'が非音声区間の特徴を示す非音声パラメータに相当する。
<効果>
以上の構成により、より実際の状況に即したレベル判定が行うことができ、第三実施形態と同様の効果を得ることができる。
<第三実施形態の第二変形例>
第三実施形態と異なる部分を中心に説明する。
図13は第三実施形態に係る音響信号処理装置の機能ブロック図を、図14はその処理フローを示す。
音響信号処理装置は、音声区間検出部320と、音声区間検出情報蓄積部330と、前処理部350とを含む。
<前処理部350>
前処理部350は、時系列音響信号を入力とし、時系列音響信号に含まれる音声を強調する処理(音声強調処理)を行い(S350)、強調後の時系列音響信号を出力する。音声強調処理としては、どのような方法を用いてもよい。例えば、参考文献2に記載の雑音抑圧方法を用いる。
(参考文献2)特開2009−110011号公報
<効果>
以上の構成により、第三実施形態と同様の効果を得ることができる。さらに、音声強調処理を施した時系列音響信号を用いて後段の処理(S330、S320)を行うことで、その検出精度を向上させることができる。
<第三実施形態の第三変形例>
第三実施形態と異なる部分を中心に説明する。
音響信号処理装置は、M個のマイクロホン310−m(m=1,2,…,Mであり、Mは2以上の整数の何れか)でそれぞれ収音されたM個の時系列音響信号と、特定音声区間検出部340のL(Lは2以上の整数の何れか)個の出力値とを入力とし、時系列音響信号に含まれる音声区間と非音声区間との少なくとも何れかを検出し、検出結果を出力する。
図21は第三変形例に係る音響信号処理装置の機能ブロック図を、図22はその処理フローを示す。
音響信号処理装置は、ビームフォーミング部360と、音声区間検出部320と、音声区間検出情報蓄積部330とを含む。
<ビームフォーミング部360>
ビームフォーミング部360は、M個の時系列音響信号を入力とし、M個の時系列音響信号をL個の方向へそれぞれ指向性を高めたL個の時系列信号(時系列音響信号であり、例えばビームフォーミング出力信号)に変換し(S360)、特定音声区間検出部340、音声区間検出情報蓄積部330、音声区間検出部320に出力する。例えば、ビームフォーミング技術を用いてL個の時系列ビームフォーミング出力信号に変換する。ビームフォーミング技術としては、どのような方法を用いてもよい。例えば、参考文献3に記載の方法を用いる。
(参考文献3)特開2017−107141号公報
なお、特定音声区間検出部340では、L個の時系列信号それぞれについて、特定音が来たことを検知し、特定音の検出時刻を示す情報を音声区間検出情報蓄積部330に出力する。なお、L個の時系列信号のうちの少なくとも1つの時系列信号に特定音が来たことを検知するものとし、特定音の検出時刻を示す情報は、検知した1つ以上のチャンネルを示す情報と、検知した1つ以上のチャンネルにそれぞれ対応する1つ以上の特定音の検出時刻を示す情報とを含む情報である。各特定音の検出時刻を示す情報は第三実施形態で説明した通りである。
<音声区間検出情報蓄積部330>
音声区間検出情報蓄積部330は、特定音の検出時刻を示す情報とL個の時系列信号とを入力とし、特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを求め(S330)、出力する。なお、特定音が検出されたチャンネル全てについて特徴量を求める。
<音声区間検出部320>
音声区間検出部320は、L個の時系列信号を受け取り、特徴量算出部333から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、特定音が検出されたチャンネル全ての音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出されたチャンネル全ての非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて、L個の時系列信号それぞれから音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。検出方法は第三実施形態で説明した通りである。本変形例では、L個の時系列信号に対して1つの(共通の)音声パラメータ及び1つの(共通の)非音声パラメータを用いる。
<効果>
このような構成により、第三実施形態と同様の効果を得ることができる。なお、ビームフォーミング部360を別装置とし、音響信号処理装置は、L個の時系列信号を入力とする構成としてもよい。また、L個の方向へそれぞれ指向性を高めたL個の指向性のマイクロホン310−m(m=1,2,…,Lであり、Lは2以上の整数の何れか)でそれぞれ収音されたL個の時系列音響信号を入力とし、ビームフォーミング部360を用いない構成としてもよい。
<第三実施形態の第四変形例>
第三変形例と異なる部分を中心に説明する。
<音声区間検出部320>
音声区間検出部320は、L個の時系列信号を受け取り、特徴量算出部333から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、特定音が検出された1つのチャンネルの音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出された1つのチャンネルの非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、特定音が検出されたチャンネル毎に求めた音声パラメータと非音声パラメータとを用いて、特定音が検出された時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。検出方法は第三実施形態で説明した通りである。
本変形例ではL個の時系列信号にそれぞれ対応するL個の音声パラメータ及びL個の非音声パラメータを用いる。なお、音声区間検出部320は、特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取り、そのチャンネルの非音声パラメータ及び音声パラメータのみを求める。特定音が検出されなかったチャンネルについては、非音声パラメータ及び音声パラメータを求めず、特定音が検出されたタイミングでそのチャンネルに対応する非音声パラメータ及び音声パラメータを求める。
<効果>
このような構成により、第三実施形態と同様の効果を得ることができ、チャンネル毎に詳細な音声パラメータ、非音声パラメータを求めることができる。
[補足]
音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記音響信号から上記特定音に対応する音響信号を除いた音響信号を雑音音響信号として、上記雑音音響信号と、上記特定音に対応する音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。
または、音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号と、上記音響信号から上記対象音響信号を除いた音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。
または、音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記音響信号から上記特定音に対応する音響信号を除いた音響信号を雑音音響信号とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号と、上記雑音音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。
音響信号処理部の例は、第一実施形態の変形例4の第三指向性集音部52である。この場合、対象音響信号は方向記憶部13から読み込んだ到来方向からの音の信号であり、雑音音響信号は雑音方向記憶部51から読み込んだ到来方向からの音の信号となる。
音響信号処理部の他の例は、第三実施形態の音声区間検出情報蓄積部330及び音声区間検出部320である。この場合、対象音響信号は特定音音声区間に対応する時系列音響信号であり、雑音音響信号は非音声区間に対応する時系列音響信号となる。
[プログラム及び記録媒体]
各音響信号処理装置の各部における処理をコンピュータによって実現する場合、これらの装置の各部がが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部の処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各部の処理は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims (5)

  1. 複数のマイクロホンで集音された信号から音の到来方向を、予め定められた音である特定音が検出された時刻において推定された到来方向に近い方向ほど到来方向であると推定されやすくなるように推定する方向推定部と、
    上記方向推定部で推定された到来方向からの音が強調されるように集音を行う第一指向性集音部と、
    を含み、
    上記方向推定部は、上記複数のマイクロホンで集音された信号に対して、各到来方向を強調する処理を行う方向強調部と、各到来方向が強調された信号のパワーを計算するパワー計算部と、各到来方向が強調された信号のパワーに、上記各到来方向が上記方向推定部により推定される到来方向に近いほど大きな重みを乗算することにより重み付与後パワーを得る重み乗算部と、上記重み付与後パワーが最も大きい到来方向を選択し、その選択された到来方向を上記方向推定部により推定される到来方向とする最大パワー方向検出部と、を含む、
    音響信号処理装置。
  2. 請求項の音響信号処理装置であって、
    上記方向推定部は、過去の所定の時間区間における、上記最大パワー方向検出部で選択された到来方向の頻度を計測する推定頻度計測部と、上記計測された頻度の中で最も低い頻度の到来方向を選択する選択部と、を更に含む、
    音響信号処理装置。
  3. 請求項1又は2の音響信号処理装置であって、
    上記方向推定部で推定された到来方向からの音が強調されるように集音を行う第二指向性集音部と、
    上記第二指向性集音部により集音された信号に基づいて、上記特定音を検出する特定音検出部と、を更に含む、
    音響信号処理装置。
  4. 方向推定部が、複数のマイクロホンで集音された信号から音の到来方向を、予め定められた音である特定音が検出された時刻において推定された到来方向に近い方向ほど到来方向であると推定されやすくなるように推定する方向推定ステップと、
    第一指向性集音部が、上記方向推定ステップで推定された到来方向からの音が強調されるように集音を行う第一指向性集音ステップと、
    を含み、
    上記方向推定ステップは、方向強調部が、上記複数のマイクロホンで集音された信号に対して、各到来方向を強調する処理を行う方向強調ステップと、パワー計算部が、各到来方向が強調された信号のパワーを計算するパワー計算ステップと、重み乗算部が、各到来方向が強調された信号のパワーに、上記各到来方向が上記方向推定ステップにより推定される到来方向に近いほど大きな重みを乗算することにより重み付与後パワーを得る重み乗算ステップと、最大パワー方向検出部が、上記重み付与後パワーが最も大きい到来方向を選択し、その選択された到来方向を上記方向推定ステップにより推定される到来方向とする最大パワー方向検出ステップと、を含む、
    音響信号処理方法。
  5. 請求項1からの何れかの音響信号処理装置の各部としてコンピュータを機能させるためのコンピュータ読み取り可能なプログラム。
JP2017148355A 2017-07-31 2017-07-31 音響信号処理装置、方法及びプログラム Active JP6653687B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017148355A JP6653687B2 (ja) 2017-07-31 2017-07-31 音響信号処理装置、方法及びプログラム
JP2019197593A JP6969597B2 (ja) 2017-07-31 2019-10-30 音響信号処理装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017148355A JP6653687B2 (ja) 2017-07-31 2017-07-31 音響信号処理装置、方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019197593A Division JP6969597B2 (ja) 2017-07-31 2019-10-30 音響信号処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019029861A JP2019029861A (ja) 2019-02-21
JP6653687B2 true JP6653687B2 (ja) 2020-02-26

Family

ID=65476647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017148355A Active JP6653687B2 (ja) 2017-07-31 2017-07-31 音響信号処理装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6653687B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7222277B2 (ja) * 2019-03-13 2023-02-15 日本電信電話株式会社 雑音抑圧装置、その方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181498A (ja) * 1998-12-15 2000-06-30 Toshiba Corp ビームフォーマを用いた信号入力装置及び信号入力用プログラムを記録した記録媒体
JP3910898B2 (ja) * 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP5380777B2 (ja) * 2007-02-21 2014-01-08 ヤマハ株式会社 音声会議装置
JP5737342B2 (ja) * 2013-07-22 2015-06-17 沖電気工業株式会社 収音装置及びプログラム

Also Published As

Publication number Publication date
JP2019029861A (ja) 2019-02-21

Similar Documents

Publication Publication Date Title
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
Wolf et al. Channel selection measures for multi-microphone speech recognition
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US9536523B2 (en) Method and system for identification of speech segments
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6140579B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP2018120212A (ja) 音声認識方法及び装置
JP6501260B2 (ja) 音響処理装置及び音響処理方法
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP6501259B2 (ja) 音声処理装置及び音声処理方法
JP2015070321A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6487650B2 (ja) 音声認識装置及びプログラム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP6969597B2 (ja) 音響信号処理装置、方法及びプログラム
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
JP2014029407A (ja) 雑音抑圧装置、方法、及びプログラム
JP2021001949A (ja) 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
Lipeika Optimization of formant feature based speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191028

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200128

R150 Certificate of patent or registration of utility model

Ref document number: 6653687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150