JP5643686B2 - 音声判別装置、音声判別方法および音声判別プログラム - Google Patents

音声判別装置、音声判別方法および音声判別プログラム Download PDF

Info

Publication number
JP5643686B2
JP5643686B2 JP2011054758A JP2011054758A JP5643686B2 JP 5643686 B2 JP5643686 B2 JP 5643686B2 JP 2011054758 A JP2011054758 A JP 2011054758A JP 2011054758 A JP2011054758 A JP 2011054758A JP 5643686 B2 JP5643686 B2 JP 5643686B2
Authority
JP
Japan
Prior art keywords
acoustic signal
voice
frequency spectrum
weight
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011054758A
Other languages
English (en)
Other versions
JP2012189906A (ja
Inventor
鈴木 薫
薫 鈴木
優 酒井
優 酒井
祐介 木田
祐介 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011054758A priority Critical patent/JP5643686B2/ja
Priority to US13/232,491 priority patent/US9330683B2/en
Publication of JP2012189906A publication Critical patent/JP2012189906A/ja
Application granted granted Critical
Publication of JP5643686B2 publication Critical patent/JP5643686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、音声判別装置、音声判別方法および音声判別プログラムに関する。
音声認識の前処理として用いられる音声判別では、自動車のロードノイズやシステムが発するシステム音(例えば、ビープ音やガイダンス音声)などの様々な妨害音の中から利用者の音声を正確に検出することが求められる。例えば、システム音に対する頑健性を高めた音声判別として、システム音の主要なパワーが含まれる周波数帯域を特定し、音響信号から特徴量を抽出する際に当該周波数帯域における周波数スペクトルを除外する方法が提案されている。このようにすることで、妨害音(システム音)の影響を取り除いた特徴量を抽出することができる。
しかしながら、上述した方法は、除外対象となる周波数帯域を決定する際に、システム音の周波数スペクトルしか利用していなかった。このため、利用者音声の主要な成分がシステム音と同じ周波数帯域に含まれていた場合、システム音の主要な成分が含まれる周波数帯域を除外すると利用者音声の主要な成分までも除外されてしまい、音声/非音声の判別精度が低下するという問題があった。
特開2005−84253号公報
鈴木、「割り込み発話に頑健な音声認識エンジンの開発」、日本音響学会2010 年秋季研究報告会、日本、日本音響学会、2010年09月、2-9-2
発明が解決しようとする課題は、利用者音声の主要な成分を除外せずに妨害音の影響を除外する音声判別装置を提供することである。
実施形態の音声判別装置は、利用者の音声を含む第1の音響信号の周波数スペクトルと妨害音を含む第2の音響信号の周波数スペクトルに基づいて、周波数帯域別の重みを付与する重み付与手段と、前記重み付与手段で付与された周波数帯域別の重みを利用して、前記第1の音響信号の周波数スペクトルから特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された特徴量に基づいて、前記第1の音響信号の音声/非音声を判別する音声/非音声判別手段とを備える。
第1の実施形態の音声認識システムを示すブロック図。 実施形態の音声判別装置を示すブロック図。 実施形態の音声判別装置のフローチャート。 変形例1の音声判別装置を示すブロック図。 変形例1の音声判別装置のフローチャート。 第2の実施形態の音声認識システムを示すブロック図。 実施形態の音声判別装置を示すブロック図。 実施形態の音声判別装置のフローチャート。 変形例2の音声判別装置を示すブロック図。 変形例2の音声判別装置のフローチャート。 変形例3の音声判別装置を示すブロック図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の音声判別装置は、音声認識の前処理に利用されるものであり、所定区間長に分割した音響信号の各区間に認識対象となる利用者の音声が含まれるか否かを判別する。音声判別装置は、利用者の近くに設置された主マイクロホンで取得した第1の音響信号と、主マイクロホンと比べて相対的に利用者から遠い位置に設置された副マイクロホンで取得した第2の音響信号の2つの音響信号を取得する。マイクロホンの位置関係から、第1の音響信号には利用者の音声が、第2の音響信号には妨害音の方が主として含まれる。音声判別装置は、第1および第2の音響信号の周波数スペクトルの大きさを利用して、周波数帯域別の重みを付与する。本実施形態では、利用者音声を含まず、かつ妨害音を含む周波数帯域には小さな重みを、それ以外の周波数帯域には大きな重みを付与する。そして、音声判別装置は、重みの小さな周波数帯域を除外して第1の音響信号から特徴量を抽出する。このように、第1および第2の音響信号の周波数スペクトルの大きさを利用して重みを付与することにより、利用者音声の主要な成分を含む周波数帯域の周波数スペクトルが特徴抽出時に除外されることを防止する。
(ブロック構成)
図1は、第1の実施形態にかかる音声判別装置を備えた音声認識システムを示すブロック図である。この音声認識システムは、利用者の近くに設置された主マイクロホン130−1と、主マイクロホン130−1と比べて相対的に利用者から遠い位置に設置された副マイクロホン130−2と、主マイクロホン130−1で取得した第1の音響信号の音声/非音声を判別する音声判別装置100と、音声/非音声の判別結果を利用して音声判別装置100が出力した音響信号e(t)(tは時間インデックス)を認識する音声認識部110とを備える。
主マイクロホン130−1で取得した第1の音響信号d(t)と副マイクロホン130−2で取得した第2の音響信号x(t)には、利用者音声と妨害音がともに含まれるが、その設置位置により、第1の音響信号には利用者音声が、第2の音響信号には妨害音が相対的に強く含まれる。
音声判別装置100は、第1の音響信号を所定区間長に分割し、各区間に利用者音声が含まれるか否かを判別する。また、音声判別装置100は、第1の音響信号d(t)をそのまま音響信号e(t)として音声認識部110に出力する。
音声認識部110は、音声判別装置100が出力した所定区間ごとの音声/非音声判別情報から利用者の音声区間(始端から終端までの区間)を特定し、音響信号e(t)の音声認識を実行する。
図2は、音声判別装置100の構成を示すブロック図である。音声判別装置100は、第1および第2の音響信号の周波数スペクトルの大きさを利用して、利用者音声の主要な成分は含まれないが妨害音が含まれる蓋然性が高い周波数帯域(妨害主要周波数帯域)に重み0を、それ以外の周波数帯域に重み1を付与する重み付与部101と、第1の音響信号から妨害主要周波数帯域における周波数スペクトルを除いて特徴量を抽出する特徴抽出部102と、特徴抽出部102で抽出された特徴量を利用して、所定区間ごとの音声/非音声情報を求める音声/非音声判別部103とを備える。
(フローチャート)
図3は、本実施形態にかかる音声認識システムのフローチャートである。まず、ステップS401では、重み付与部101が、第1の音響信号d(t)と第2の音響信号x(t)の周波数スペクトルの大きさを利用して、特徴抽出部102で特徴量を抽出する際に利用する各周波数帯域fの重みR(k)を算出する(kは、フレーム番号)。
重み付与部101は、まず、16000Hzのサンプリングで取得された第1の音響信号d(t)および第2の音響信号x(t)を、フレーム長25ms(400サンプル)、間隔8ms(128サンプル)のフレームにそれぞれ分割する。フレーム分割にはハミング窓を使用する。次に、重み付与部101は、各フレームに対して112点の零詰めを行った後、512点の離散フーリエ変換を適用して第1の音響信号d(t)のパワースペクトルDf(k)と第2の音響信号x(t)のパワースペクトルX(k)を求める。そして、重み付与部101は、得られたパワースペクトルD(k)とX(k)を、(1)式の再帰式で時間方向に平滑化した平滑化パワースペクトルD’(k)とX’(k)を計算する。
Figure 0005643686
ここで、D’(k)とX’(k)は周波数帯域fにおける平滑化パワースペクトルを、μは平滑化の度合いを調整する忘却係数を表している。μは0.3〜0.5程度に設定する。
次に、重み付与部101は、第1の音響信号の平滑化パワースペクトルD’(k)を利用して、利用者音声の主要な成分を含まない周波数帯域に重み0を、それ以外の周波数帯域に重み1を付与する。具体的には、第1の音響信号の平滑化パワースペクトルD’(k)と第1閾値TH(k)を比較して、(2)式により重みを付与する。
Figure 0005643686
第1閾値TH(k)は、利用者の音声が含まれる周波数帯域の検出に適した大きさが必要である。例えば、第1閾値TH(k)を第1の音響信号の無音区間(例えば、起動直後の100msec区間など)の周波数スペクトルより大きな値に設定することができる。
次に、重み付与部101は、第2の音響信号の平滑化パワースペクトルX’(k)を利用して、利用者音声の主要な成分が含まれていない周波数帯域のうち妨害音が混入している蓋然性が高い周波数帯域(妨害主要周波数帯域)を検出する。具体的には、(2)式で重みを付与した結果R(k)が0となっている周波数帯域について、(3)式によりR(k)を更新する。
Figure 0005643686
第2閾値は、第1の音響信号の無音区間のパワーより大きな値に設定することができる。また、(4)式のように、各フレームにおける周波数スペクトルの平均値を第2閾値とすることもできる。
Figure 0005643686
ここで、Pは周波数帯域fの数である。この場合、第2閾値はフレームごとに動的に変化する。
(k)は最終的に0か1の値を持つ。R(k)=0となる周波数帯域が、利用者音声の主要な成分は含まれないが妨害音が含まれる蓋然性が高い妨害主要周波数帯域である。
この他にも、重み付与部101は、第1の音響信号の平滑化パワースペクトルD’(k)に適当な係数を掛けた後、これを第2の音響信号の平滑化パワースペクトルから差し引いたパワースペクトルを計算し、このパワースペクトルにおいて所定閾値を超える周波数帯域に重み0を、それ以外の周波数帯域に重み1を付与するなどしてもよい。
ステップS402では、特徴抽出部102は、重み付与部101で得られた周波数帯域別の重みR(k)を利用して、第1の音響信号d(t)から利用者の音声らしさを表す特徴量を抽出する。
本実施形態では、特徴量として(5)式で計算される周波数帯域別SNRの平均値SNRavrg(k)(以下、平均SNRと記す)を用いる。
Figure 0005643686
ここで、M(k)はk番目のフレームで妨害主要周波数帯域ではないと判定された(つまり、R(k)=1となる)周波数帯域fの数を表している。また、N(k)は第1の音響信号に含まれる妨害音のみのパワースペクトルの推定値であり、例えば、第1の音響信号の先頭20フレームにおけるパワースペクトルの平均値から求める。一般に、利用者音声が含まれる区間における第1の音響信号は、利用者音声が含まれない区間における第1の音響信号と比較して大きくなる。したがって、平均SNRが大きいほど、第1の音響信号に利用者音声が含まれている蓋然性が高いといえる。なお、特徴量は平均SNRに限らず、例えば、非特許文献1に開示された正規化スペクトルエントロピーやスペクトル間余弦値を用いることができる。
(5)式より、特徴抽出部102は、重み付与部101で妨害主要周波数帯域(R(k)=0)として特定された周波数帯域における周波数スペクトルを除外して特徴量を抽出している。妨害主要周波数帯域は、利用者音声の主要な成分は含まれないが妨害音が含まれる蓋然性の高い周波数帯域である。したがって、特徴量を抽出する際に妨害主要周波数における周波数スペクトルを除外することで、利用者音声の主要な成分を含み、かつ妨害音の影響を取り除いた特徴量の抽出が可能になる。
ステップS403では、音声/非音声判別部103は、(6)式のように特徴抽出部102で抽出された特徴量と第3閾値THVA(k)を比較することで、フレーム単位の音声/非音声を判別する。
Figure 0005643686
ステップS404では、音声認識部110は、音声判別装置100が出力するフレーム単位の判別結果を使って認識対象となる利用者の音声区間を特定する。また、音声認識部110は、音声判別装置100が出力する音響信号e(t)(本実施形態では、e(t)=d(t))について音声認識処理を実行する。
以上の説明では、周波数スペクトルとしてパワースペクトルを用いたが、振幅スペクトルを用いてもよい。
(効果)
このように、本実施形態にかかる音声判別装置は、第1および第2の音響信号のパワースペクトルの大きさを利用して周波数帯域別の重みを付与することにより、利用者音声の主要な成分を含む周波数帯域に小さな重みが付与されることを防止する。これにより、利用者音声の主要な成分を含む周波数帯域が特徴抽出時に除外されることを防ぐことができる。
(変形例1)
本実施形態における音声判別装置100を、次に述べる音声判別装置200に置き換えることもできる。図4は、音声判別装置200の構成を示すブロック図である。音声判別装置100と異なるのは、第1の音響信号d(t)から妨害音を除外する適応フィルタ部204(雑音抑圧部)を有する点である。これに伴い、重み付与部101は、妨害音を除外した後の第1の音響信号e(t)および雑音抑圧のフィルタ特性を畳み込んだ後の第2の音響信号y(t)のパワースペクトルの大きさを利用して周波数帯域別の重みを付与する。また、特徴抽出部102はe(t)から特徴量を抽出する。
図5は、本変形例にかかる音声認識システムのフローチャートである。第1の実施形態と異なる処理は、ステップS421である。
ステップS421では、適応フィルタ部204は、x(t)をフィルタ処理して、d(t)に混入する妨害音を抑圧する音響信号y(t)を生成する。減算部205は、d(t)からy(t)を差し引くことで第1の音響信号に含まれる妨害音を抑圧したe(t)を生成する。e(t)は、(7)式で計算できる。
Figure 0005643686
適応フィルタ部204のフィルタ係数の数Lは、妨害音が副マイクロホン130−2に到達してから主マイクロホン130−1に到達するまでの遅延時間τ1と使用環境の残響時間τ2の大きい方で決まる。また、適応フィルタ部204のフィルタ係数値wは、例えば、NLMSアルゴリズムを用いて、(8)式で更新する。
Figure 0005643686
ここで、αは更新速度を調整するステップサイズ、γは分母項が零になることを防ぐための小さな正の値である。αは0.1〜0.3程度に設定する。このとき、適応フィルタ部204は、(9)式のように特徴抽出部202によって抽出されたSNRavrg(k)と第4の閾値THDTの比較結果を利用してフィルタ係数の更新を制御してもよい。
Figure 0005643686
これにより、適応フィルタ部204は、第1の音響信号d(t)に利用者音声が含まれる区間でフィルタ係数を更新してしまうことを防止することができる。
ステップS422では、重み付与部101は、雑音抑圧後の第1の音響信号e(t)およびフィルタ処理後の第2の音響信号y(t)のパワースペクトルの大きさに基づいて、周波数帯域別の重みを付与する。ステップ423からステップS425までの処理は、第1の実施形態のステップS402からステップS404までの処理と同様であるため、説明を省略する。
このように、本変形例では、第1の音響信号に含まれる妨害音を適応フィルタ部204(雑音抑圧部)で抑圧している。これにより、音声判別部200の音声/非音声判別の精度を向上させることができる。
(第2の実施形態)
図6は、第2の実施形態にかかる音声判別装置を備えた音声認識システムを示すブロック図である。この音声認識システムの音声判別装置300は、マイクロホン330−1からマイクロホン330−nまでのn本のマイクロホンを用いてnチャンネルの音響信号を取得する。
図7は、音声判別装置300の構成を示すブロック図である。第1の実施形態と異なるのは、音声判別装置300が、遅延和アレイ304(目的音強調部)と死角型アレイ305(妨害音強調部)を有する点である。遅延和アレイ304は、m(t)〜m(t)までのnチャンネルの音響信号を同相加算して利用者音声を主として含む第1の音響信号d(t)を生成する。死角型アレイ305は、音響信号m(t)とm(t)を同相減算して妨害音を主として含む第2の音響信号e(t)を生成する。
(フローチャート)
図8は、本変形例にかかる音声認識システムのフローチャートである。第1の実施形態と異なる処理は、ステップS411およびステップS412である。
ステップS411では、遅延和アレイ部304は、nチャンネルの音響信号m(t)〜m(t)を同相加算して、第1の音響信号d(t)を生成する。また、ステップS412では、死角型アレイ305は、音響信号m(t)とm(t)を同相減算して第2の音響信号x(t)を生成する。ここで、p番目の音響信号に与えるべき同相化のための遅延量をDとしたとき、第1および第2の音響信号を求める演算は、(10)式と(11)式でそれぞれ表すことができる。
Figure 0005643686
Figure 0005643686
第1の音響信号d(t)は、nチャンネルの音響信号m(t)〜m(t)を同相加算した信号であり、Dで定まる同相化の方向に指向性を向けたm(t)〜m(t)の遅延和アレイ出力である。同相化の方向は利用者の方向に設定される。第2の音響信号x(t)は、2つの音響信号m(t)とm(t)を同相減算した信号であり、同相化の方向から到来する音声を除去した死角型アレイ出力である。同相化の方向は前述の利用者の方向に設定される。この結果、第1の音響信号は利用者音声を強調した音響信号になり、第2の音響信号は利用者音声を抑圧して妨害音を強調した音響信号になる。
なお、p番目の音響信号に与えるべき同相化のための遅延量Dは、0以上の値でなければならない。これが負の場合、m(t−D)がまだ観測されていない未来の信号値を指すことになる(因果律の成立しなくなる)からである。そこで、遅延量Dを(12)式によって決定することで0以上の値になることを保証する。
Figure 0005643686
同相化の方向から到来する利用者音声がp番目のマイクロホン330−pに到達する時刻をtとすると、マイクロホン330−1を基準にした到達時間差Δtp−1=t−tは図計算により求めることができる。こここで最も単純には、p番目のチャンネル信号に与えるべき同相化のための遅延量DをΔtp−1とすることであるが、Δtp−1が負値だと前述の因果律の不成立が発生するので、何らかのオフセットを与えることになる。このオフセット値をτ3とすると、必要なτ3の値は−(Δtp−1)の最大値として与えることができる。
なお、本実施形態では、遅延和アレイ304が出力した第1の音響信号d(t)をそのまま音声判別装置300が出力するe(t)として用いる。また、ステップ413からステップS416までの処理は、第1の実施形態のステップS401からステップS404までの処理と同様であるため、説明を省略する。
このように本実施形態の音声判別装置300は、複数の音響信号を利用したアレイ処理により、利用者音声を含む第1の音響信号と妨害音を含む第2の音響信号を生成する。これにより、第1の実施形態にあるようなマイクロホン配置に関する制約(副マイクロホンが主マイクロホンと比べて相対的に利用者から遠い位置に設置されること)を取り除くことができる。
(変形例2)
本実施形態における音声判別装置300を、次に述べる音声判別装置400に置き換えることもできる。図9は、音声判別装置400の構成を示すブロック図である。音声判別装置300と異なるのは、遅延和アレイ304が出力した音響信号から妨害音を更に除外する適応フィルタ部204(雑音抑圧部)を有する点である。
図10は、本変形例にかかる音声認識システムのフローチャートである。第2の実施形態と異なる処理は、ステップS433である。
ステップS433では、適応フィルタ部204は、死角型アレイ305が出力した第2の音響信号x(t)をフィルタ処理して号y(t)を生成する。そして、遅延和アレイ304が出力した第1の音響信号d(t)からy(t)を差し引くことで第1の音響信号d(t)に含まれる妨害音を抑圧する。適応フィルタ部204により妨害音を抑圧した後のe(t)は、(13)式で計算できる。
Figure 0005643686
d(t)に含まれるx(t)の成分は、x(t)に対して先行したり遅延したりする。(13)式のτ4はこの先行による因果律の不成立を防止するためにd(t)に与える遅延である。分散配置されたn個のマイクロホンの重心位置から最も離れたマイクロホンまでの距離を音波が伝播する時間をTmaxとすると、このτ4の値を2Tmaxとすることができる。音波が各マイクロホンに到達する時刻には、同じ音波が前記重心位置に到達する時刻を基準にして±Tmaxの遅延(負値は先行)を生じ得る。すなわち、最初に音波が到達したマイクロホンの信号と最後に音波の到達したマイクロホンの信号とでは、この音波の成分は最大2Tmaxの時間ずれを生じ得る。よって、τ4を2Tmaxとしてd(t)をこのτ4だけ遅延させれば、d(t)に含まれるx(t)の成分がx(t)に対して確実に遅延するため、因果律の不成立を防止することができる。
適応フィルタ部406のフィルタ係数の数Lは、最大先行時間τ4と使用環境の残響時間τ2の合計時間で決定される。なお、適応フィルタ部204におけるフィルタ係数wの更新、ならびにフィルタ係数の更新制御は、前述の音声判別装置200における(8)式と(9)式に示した演算と同様に行われる。
以上の処理により、利用者音声がないときのe(t)を可能な限り小さくするフィルタ係数wを求めることができ、d(t)に混入する妨害音は前記音声判別装置300よりも少なくなる。
ステップS434では、重み付与部101は、雑音抑圧後の第1の音響信号e(t)および死角型アレイ305(妨害音強調部)が出力した第2の音響信号x(t)のパワースペクトルの大きさに基づいて、周波数帯域別の重みを付与する。ステップ435からステップS437までの処理は、第1の実施形態のステップS402からステップS404までの処理と同様であるため、説明を省略する。
このように、本変形例では、第1の音響信号に含まれる妨害音を適応フィルタ部204(雑音抑圧部)で抑圧している。これにより、音声判別部400の音声/非音声判別の精度を向上させることができる。
(変形例3)
本実施形態における音声判別装置300を、図11に示す音声判別装置500に置き換えることもできる。この構成では、変形例2の音声判別装置400に加えて、第2の音響信号x(t)にシステム音を混合する混合部508を更に設けている。この音声判別装置500は、スピーカから拡声出力されたシステム音が妨害音(エコー)として第1の音響信号に混入するような場合にも対応できるよう改良されている。
混合部508は、(14)式の演算によって第2の音響信号x(t)とシステム音x(t)〜x(t)を混合した音響信号x’(t)を生成する。
Figure 0005643686
ここで、βはx’(t)全体のゲインを定める係数であり、βはx(t)とシステム音の混合比を定める係数である。この混合処理は、図10におけるステップS433において行うことができる。
適応フィルタ部204におけるフィルタ係数wの更新、ならびにフィルタ係数の更新制御は、前述の音声判別装置200及び音声判別装置400における(8)式、(9)式、(13)式に示した演算と同様に行われる。この結果、利用者音声がないときの音響信号e(t)を小さくするフィルタ係数が求められることになり、e(t)に混入する妨害音を抑圧することができる。
なお、(14)式のβを0にすれば音声判別装置500は前述の音声判別装置400と同じ働きをする。また、βを1にすれば適応フィルタ部204と減算部205は、システム音の音響エコーを第1の音響信号d(t)から抑圧するよう動作する。周囲の環境が静かなときには妨害音の主成分が音響エコーとなるので、後者の設定を選択するとよい。
(変形例4)
本実施形態では、重み付与部101は、妨害主要周波数帯域には重み0を、それ以外の周波数帯域には重み1を付与している。付与する重みはこれに限定されず、例えば、妨害主要周波数帯域に重み−100を、それ以外の周波数帯域に重み100を付与し、特徴抽出部102で特徴量を抽出する際に重み−100が付与された周波数帯域における周波数スペクトルを除外するようにしてもよい。また、特徴抽出時に利用する重みの値を連続的に変化させてもよい。
(効果)
以上述べた少なくとも一つの実施形態の音声判別装置によれば、第1および第2の音響信号のパワースペクトルの大きさを利用して周波数帯域別の重みを付与することにより、利用者音声の主要な成分を含む周波数帯域に小さな重みが付与されることを防止する。これにより、利用者音声の主要な成分を含む周波数帯域が特徴抽出時に除外されることを防止する。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、200、300、400、500 音声判別装置
101 重み付与部
102 特徴抽出部
103 音声/非音声判別部
110 音声認識部
130−1 主マイクロホン
130−2 副マイクロホン
204 適応フィルタ部(雑音抑圧部)
205 減算部
304 遅延和アレイ(目的音強調部)
305 死角型アレイ(妨害音強調部)
330−1〜330−n アレイマイクロホン
508 混合部
540−1〜540−q スピーカ

Claims (10)

  1. 利用者の音声を含む第1の音響信号の周波数スペクトルと妨害音を含む第2の音響信号の周波数スペクトルに基づいて、周波数帯域別の重みを付与する重み付与手段と、
    前記重み付与手段で付与された周波数帯域別の重みを利用して、前記第1の音響信号の周波数スペクトルから特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段で抽出された特徴量に基づいて、前記第1の音響信号の音声/非音声を判別する音声/非音声判別手段と、
    を備え
    前記重み付与手段が、前記第1の音響信号の周波数スペクトルの大きさが第1の閾値より小さく、かつ、前記第2の音響信号の周波数スペクトルの大きさが第2の閾値より大きくなるような周波数帯域に予め決められた所定の重みを付与する音声判別装置。
  2. 利用者の音声を含む第1の音響信号の周波数スペクトルと妨害音を含む第2の音響信号の周波数スペクトルに基づいて、周波数帯域別の重みを付与する重み付与手段と、
    前記重み付与手段で付与された周波数帯域別の重みを利用して、前記第1の音響信号の周波数スペクトルから特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段で抽出された特徴量に基づいて、前記第1の音響信号の音声/非音声を判別する音声/非音声判別手段と、
    を備え、
    前記特徴抽出手段が、前記重み付与手段で所定の重みが付与された周波数帯域における周波数スペクトルを除外して特徴量を抽出する音声判別装置。
  3. 前記第2の音響信号を利用して、前記第1の音響信号に含まれる妨害音を抑圧する雑音抑圧手段を更に備え、
    前記重み付与手段が、前記雑音抑圧手段で妨害音が抑圧された第1の音響信号の周波数スペクトルの大きさを利用する請求項1乃至請求項2記載の音声判別装置。
  4. 複数チャンネルの音響信号を処理して利用者の音声を強調した第1の音響信号を抽出する目的音強調手段と、
    複数チャンネルの音響信号を処理して妨害音を強調した第2の音響信号を抽出する妨害音強調手段を更に備え、
    前記重み付与手段が、前記目的音強調手段で抽出された第1の音響信号の周波数スペクトルと、前記妨害音強調手段で抽出された第2の音響信号の周波数スペクトルを利用する請求項1乃至請求項2に記載の音声判別装置。
  5. 複数チャンネルの音響信号を処理して利用者の音声を強調した第1の音響信号を抽出する目的音強調手段と、
    複数チャンネルの音響信号を処理して妨害音を強調した第2の音響信号を抽出する妨害音強調手段を更に備え、
    前記雑音抑圧手段が、前記妨害音強調手段で抽出された第2の音響信号を利用して、前記目的音強調手段で抽出された第1の音響信号に含まれる妨害音を抑圧する請求項3記載の音声判別装置。
  6. 第2の音響信号にシステム音を混合する混合手段を更に備え、
    前記重み付与手段が、前記システム音が混合された第2の音響信号の周波数スペクトルを利用する請求項1から請求項5の何れか1項に記載の音声判別装置。
  7. 利用者の音声を含む第1の音響信号の周波数スペクトルと妨害音を含む第2の音響信号の周波数スペクトルに基づいて、周波数帯域別の重みを付与する重み付与工程と、
    前記重み付与工程で付与された周波数帯域別の重みを利用して、前記第1の音響信号の周波数スペクトルから特徴量を抽出する特徴抽出工程と、
    前記特徴抽出工程で抽出された特徴量に基づいて、前記第1の音響信号の音声/非音声を判別する音声/非音声判別工程と、
    を備え
    前記重み付与工程が、前記第1の音響信号の周波数スペクトルの大きさが第1の閾値より小さく、かつ、前記第2の音響信号の周波数スペクトルの大きさが第2の閾値より大きくなるような周波数帯域に予め決められた所定の重みを付与する音声判別方法。
  8. 利用者の音声を含む第1の音響信号の周波数スペクトルと妨害音を含む第2の音響信号の周波数スペクトルに基づいて、周波数帯域別の重みを付与する重み付与工程と、
    前記重み付与工程で付与された周波数帯域別の重みを利用して、前記第1の音響信号の周波数スペクトルから特徴量を抽出する特徴抽出工程と、
    前記特徴抽出工程で抽出された特徴量に基づいて、前記第1の音響信号の音声/非音声を判別する音声/非音声判別工程と、
    を備え、
    前記特徴抽出工程が、前記重み付与手段で所定の重みが付与された周波数帯域における周波数スペクトルを除外して特徴量を抽出する音声判別方法。
  9. 利用者の音声を含む第1の音響信号の音声/非音声を判別する判別装置に、
    前記第1の音響信号の周波数スペクトルと妨害音を含む第2の音響信号の周波数スペクトルに基づいて、周波数帯域別の重みを付与する重み付与工程と、
    前記重み付与工程で付与された周波数帯域別の重みを利用して、前記第1の音響信号の周波数スペクトルから特徴量を抽出する特徴抽出工程と、
    前記特徴抽出工程で抽出された特徴量に基づいて、前記第1の音響信号の音声/非音声を判別する音声/非音声判別工程と、
    を実現させるための音声判別プログラムであって、
    前記重み付与工程が、前記第1の音響信号の周波数スペクトルの大きさが第1の閾値より小さく、かつ、前記第2の音響信号の周波数スペクトルの大きさが第2の閾値より大きくなるような周波数帯域に予め決められた所定の重みを付与する音声判別プログラム。
  10. 利用者の音声を含む第1の音響信号の音声/非音声を判別する判別装置に、
    前記第1の音響信号の周波数スペクトルと妨害音を含む第2の音響信号の周波数スペクトルに基づいて、周波数帯域別の重みを付与する重み付与工程と、
    前記重み付与工程で付与された周波数帯域別の重みを利用して、前記第1の音響信号の周波数スペクトルから特徴量を抽出する特徴抽出工程と、
    前記特徴抽出工程で抽出された特徴量に基づいて、前記第1の音響信号の音声/非音声を判別する音声/非音声判別工程と、
    を実現させるための音声判別プログラムであって、
    前記特徴抽出工程が、前記重み付与手段で所定の重みが付与された周波数帯域における周波数スペクトルを除外して特徴量を抽出する音声判別プログラム。
JP2011054758A 2011-03-11 2011-03-11 音声判別装置、音声判別方法および音声判別プログラム Active JP5643686B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011054758A JP5643686B2 (ja) 2011-03-11 2011-03-11 音声判別装置、音声判別方法および音声判別プログラム
US13/232,491 US9330683B2 (en) 2011-03-11 2011-09-14 Apparatus and method for discriminating speech of acoustic signal with exclusion of disturbance sound, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011054758A JP5643686B2 (ja) 2011-03-11 2011-03-11 音声判別装置、音声判別方法および音声判別プログラム

Publications (2)

Publication Number Publication Date
JP2012189906A JP2012189906A (ja) 2012-10-04
JP5643686B2 true JP5643686B2 (ja) 2014-12-17

Family

ID=46796869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011054758A Active JP5643686B2 (ja) 2011-03-11 2011-03-11 音声判別装置、音声判別方法および音声判別プログラム

Country Status (2)

Country Link
US (1) US9330683B2 (ja)
JP (1) JP5643686B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101514966B1 (ko) * 2012-06-28 2015-04-24 주식회사 케이티 무선랜 시스템에서 aid 재할당 방법
US20140270219A1 (en) * 2013-03-15 2014-09-18 CSR Technology, Inc. Method, apparatus, and manufacture for beamforming with fixed weights and adaptive selection or resynthesis
EP3031265B1 (en) * 2013-08-08 2017-12-06 Sony Corporation Mobile communications network. communications device and methods
DE102014217681B4 (de) 2014-09-04 2020-12-10 Imra Europe S.A.S. Sirenensignalquellenerfassung, -Erkennung und -Lokalisation
CN104270489A (zh) * 2014-09-10 2015-01-07 中兴通讯股份有限公司 一种从多个麦克风中确定主副麦克风的方法和系统
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0707763B1 (en) * 1993-07-07 2001-08-29 Picturetel Corporation Reduction of background noise for speech enhancement
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6826528B1 (en) * 1998-09-09 2004-11-30 Sony Corporation Weighted frequency-channel background noise suppressor
US6671667B1 (en) * 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
JP4580508B2 (ja) * 2000-05-31 2010-11-17 株式会社東芝 信号処理装置及び通信装置
JP4533517B2 (ja) * 2000-08-31 2010-09-01 株式会社東芝 信号処理方法および信号処理装置
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
EP1376539B8 (en) * 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
JP4509413B2 (ja) * 2001-03-29 2010-07-21 株式会社東芝 電子機器
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
JP2005084253A (ja) 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd 音響処理装置、方法、プログラム及び記憶媒体
US7333618B2 (en) * 2003-09-24 2008-02-19 Harman International Industries, Incorporated Ambient noise sound level compensation
US6889189B2 (en) * 2003-09-26 2005-05-03 Matsushita Electric Industrial Co., Ltd. Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
JP4533126B2 (ja) * 2004-12-24 2010-09-01 日本電信電話株式会社 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
US20080243496A1 (en) * 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method
US20060184363A1 (en) * 2005-02-17 2006-08-17 Mccree Alan Noise suppression
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
US8280731B2 (en) * 2007-03-19 2012-10-02 Dolby Laboratories Licensing Corporation Noise variance estimator for speech enhancement
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
US9336785B2 (en) * 2008-05-12 2016-05-10 Broadcom Corporation Compression for speech intelligibility enhancement
JP2011002535A (ja) * 2009-06-17 2011-01-06 Toyota Motor Corp 音声対話システム、音声対話方法、及びプログラム
JP5156043B2 (ja) 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
JP5649488B2 (ja) * 2011-03-11 2015-01-07 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム

Also Published As

Publication number Publication date
US9330683B2 (en) 2016-05-03
JP2012189906A (ja) 2012-10-04
US20120232895A1 (en) 2012-09-13

Similar Documents

Publication Publication Date Title
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
US8620672B2 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
EP1875466B1 (en) Systems and methods for reducing audio noise
JP5643686B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
US9269367B2 (en) Processing audio signals during a communication event
EP2643981B1 (en) A device comprising a plurality of audio sensors and a method of operating the same
US20160351179A1 (en) Single-channel, binaural and multi-channel dereverberation
US8364479B2 (en) System for speech signal enhancement in a noisy environment through corrective adjustment of spectral noise power density estimations
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
EP2372700A1 (en) A speech intelligibility predictor and applications thereof
EP2463856B1 (en) Method to reduce artifacts in algorithms with fast-varying gain
US8422696B2 (en) Apparatus and method for removing noise
US10262673B2 (en) Soft-talk audio capture for mobile devices
CN104021798B (zh) 用于通过具有可变频谱增益和可动态调制的硬度的算法对音频信号隔音的方法
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
CN111415686A (zh) 针对高度不稳定的噪声源的自适应空间vad和时间-频率掩码估计
JP2021511755A (ja) 音声認識オーディオシステムおよび方法
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
US8639499B2 (en) Formant aided noise cancellation using multiple microphones
JPWO2018173267A1 (ja) 収音装置および収音方法
EP2490218A1 (en) Method for interference suppression
CN111508512B (zh) 语音信号中的摩擦音检测的方法和系统
CN109151663B (zh) 信号处理器和信号处理系统
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141031

R151 Written notification of patent or utility model registration

Ref document number: 5643686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350