JP2016080767A - 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム - Google Patents

周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム Download PDF

Info

Publication number
JP2016080767A
JP2016080767A JP2014209339A JP2014209339A JP2016080767A JP 2016080767 A JP2016080767 A JP 2016080767A JP 2014209339 A JP2014209339 A JP 2014209339A JP 2014209339 A JP2014209339 A JP 2014209339A JP 2016080767 A JP2016080767 A JP 2016080767A
Authority
JP
Japan
Prior art keywords
frequency
frequency component
component extraction
variance
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014209339A
Other languages
English (en)
Inventor
孝輔 辻野
Kosuke Tsujino
孝輔 辻野
渉 内田
Wataru Uchida
渉 内田
公亮 角野
Kosuke Kadono
公亮 角野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014209339A priority Critical patent/JP2016080767A/ja
Publication of JP2016080767A publication Critical patent/JP2016080767A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出すること。
【解決手段】周波数成分抽出装置1は、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析部11と、得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出部12と、抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定部13と、抽出された複数の周波数成分と、決定された当該複数の周波数成分それぞれの重みとに基づいて、重み付きパワーを算出する重み付きパワー算出部14と、算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出部15と、を備える。
【選択図】図1

Description

本発明は、雑音と音声とを含む入力信号から音声を構成する周波数成分を抽出する周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラムに関する。
音声認識技術は雑音下で精度が下がることが知られている。雑音下での音声認識精度向上のためには、雑音と音声とが混合した信号から、人が発話した時間軸上の区間のみを精度良く抽出する、発話区間検知の処理が重要である。
発話区間検知の方法として、音声信号のパワーに基づく方法が知られている(下記特許文献1)。これは、非発話区間よりも発話区間のほうが音声信号のパワーが大きくなるという仮定に基づいている。
特許第4959025号
しかしながら、走行中の車内など、雑音が大きい環境下では、非発話区間と発話区間との間で雑音信号のパワーと音声信号のパワーとに明確な差が現れず、このような場合は精度良い発話区間検知が困難になる。精度良い発話区間検知を行うには、雑音と音声とが混合した信号からより精度良く音声を抽出する必要がある。
そこで、本発明は、かかる課題に鑑みて為されたものであり、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラムを提供することを目的とする。
上記課題を解決するため、本発明の周波数成分抽出装置は、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段と、を備える。
このような周波数成分抽出装置によれば、まず、周波数分析手段により、雑音と音声とを含む入力信号が周波数分析され、周波数領域信号が得られる。そして、周波数成分抽出手段により、得られた周波数領域信号の各周波数成分の時間方向の平均と分散とが算出され、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分が抽出される。本周波数成分抽出装置では、周波数成分ごとに雑音の比率が高いものや、音声の比率が高いものが含まれており、それらの周波数成分の時間方向の平均と分散とに特徴がある点に着目し、各周波数成分の間で時間方向の平均と分散とを比較することにより、すなわち、各周波数成分の時間方向の平均と分散とに基づいて、周波数成分を抽出する。かかる構成を採れば、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる。
また、本発明の周波数成分抽出装置において、周波数成分抽出手段によって抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定手段と、周波数分析手段によって得られた周波数領域信号と、周波数成分重み決定手段によって決定された重みとに基づいて、重み付きパワーを算出する重み付きパワー算出手段と、重み付きパワー算出手段によって算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出手段と、をさらに備えることが好ましい。かかる構成を採れば、例えば、音声の比率が高い周波数成分に対しては大きな重み付けをし、雑音の比率が高い周波数成分に対しては小さな重み付けをすることで、雑音と音声とが混合した環境下にあっても雑音の影響を小さくし、精度良く発話区間(音声区間)を検出することができる。
また、本発明の周波数成分抽出装置において、周波数成分抽出手段は、発話区間検出手段によって非発話区間と検知された時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定手段による重みの決定時に当該情報を反映することができる。
また、本発明の周波数成分抽出装置において、周波数成分抽出手段は、音声対話が行われていない時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定手段による重みの決定時に当該情報を反映することができる。
また、本発明の周波数成分抽出装置において、発話区間検出手段は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出することが好ましい。かかる構成を採れば、一時点の重み付きパワーではなく、重み付きパワーの時間変動に基づいて発話区間を検出するため、より精度良く発話区間を検出することができる。
また、本発明の周波数成分抽出装置において、周波数成分重み決定手段は、周波数成分の時間方向の平均が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の平均が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。
また、本発明の周波数成分抽出装置において、周波数成分重み決定手段は、周波数成分の時間方向の分散が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の分散が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。
ところで、本発明は、上記のように周波数成分抽出装置の発明として記述できる他に、以下のようにそれぞれ周波数成分抽出方法及び周波数成分抽出プログラムの発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
即ち、本発明に係る周波数成分抽出方法は、周波数成分抽出装置により実行される周波数成分抽出方法であって、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析ステップと、周波数分析ステップにおいて得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出ステップと、を含む。
また、本発明に係る周波数成分抽出プログラムは、コンピュータを、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段、として機能させる。
本発明によれば、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる。
本発明の実施形態に係る周波数成分抽出装置の機能ブロック図である。 本発明の実施形態に係る周波数成分抽出装置のハードウェア構成を示す図である。 雑音パワーの平均が大きい状況での発話区間検知のグラフ例を示す図である。 雑音パワーの分散が大きい状況での発話区間検知のグラフ例を示す図である。 雑音パワーの平均及び分散が小さい状況での発話区間検知のグラフ例を示す図である。 雑音の周波数特性のグラフ例及び重み付け例を示す図である。 周波数ビンに対する重み付けの例を示す図である。 本発明の実施形態に係る周波数成分抽出装置で実行される処理(周波数成分抽出方法)を示すフローチャートである。 本発明の実施形態に係る周波数成分抽出プログラムの構成を、記憶媒体と共に示す図である。
以下、図面とともに本発明による周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1は、周波数成分抽出装置1の機能ブロック図である。図1に示す通り、周波数成分抽出装置1は、信号入力部10、周波数分析部11(周波数分析手段)、周波数成分抽出部12(周波数成分抽出手段)、周波数成分重み決定部13(周波数成分重み決定手段)、重み付きパワー算出部14(重み付きパワー算出手段)及び発話区間検出部15(発話区間検出手段)を含んで構成される。なお、周波数成分抽出装置1は、信号入力部10、周波数分析部11及び周波数成分抽出部12のみを含む装置であってもよい。
周波数成分抽出装置1は、CPU等のハードウェアから構成されているものである。図2は、周波数成分抽出装置1のハードウェア構成の一例を示す図である。図1に示される周波数成分抽出装置1は、物理的には、図2に示すように、CPU100、主記憶装置であるRAM101及びROM102、ディスプレイ等の入出力装置103、通信モジュール104、及び補助記憶装置105などを含むコンピュータシステムとして構成されている。
図1に示す周波数成分抽出装置1の各機能ブロックの機能は、図2に示すCPU100、RAM101等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU100の制御のもとで入出力装置103、通信モジュール104、及び補助記憶装置105を動作させるとともに、RAM101におけるデータの読み出し及び書き込みを行うことで実現される。
以下、図1に示す周波数成分抽出装置1の各機能ブロックについて説明する。
信号入力部10は、雑音と音声とを含む入力信号を入力する。具体的に、信号入力部10は、入出力装置103であるマイクや、通信モジュール104を介して他の装置から入力信号を入力する。信号入力部10は、入力した入力信号を周波数分析部11に出力する。
周波数分析部11は、信号入力部10から入力された入力信号を周波数分析して周波数領域信号を得る。具体的に、周波数分析部11は、入力信号をフレームに分割し、周波数分析(周波数解析)を加える。周波数分析はDFT(Discrete Fourier Transform、離散フーリエ変換)やSTFT(Short-Time Fourier Transform、短時間フーリエ変換)、DCT(Discrete Cosine Transform、離散コサイン変換)やMDCT(Modified Discrete Cosine Transform、修正離散コサイン変換)等であってもよい。また、音声認識によく用いられるMFCC(Mel Frequency Cepstral Coefficient、メル周波数ケプストラム係数)であってもよい。いずれの場合も、フレームごとに周波数領域信号が得られ、周波数領域信号の各周波数成分(周波数ビン)は入力信号に含まれていた異なる周波数成分に対応する。周波数分析部11は、得た周波数領域信号を周波数成分抽出部12及び重み付きパワー算出部14に出力する。
周波数成分抽出部12は、周波数分析部11によって得られた(入力された)周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する。具体的に、周波数成分抽出部12は、周波数領域信号を連続的に解析し、各周波数ビンにおける信号の分散と平均を求める。ここで、ある周波数ビンにおける信号の分散が大きいとは、その周波数における信号の時間変動が大きいことを意味する。また、ある周波数成分における信号の平均が大きいとは、その周波数における信号の平均パワーが大きいことを意味する。周波数成分抽出部12は、音声区間を含まないことが想定される長い時間の雑音信号からこの平均と分散を算出することによって、雑音成分の平均パワーや時間変動が大きい、または小さい周波数ビンを判定することができる。周波数成分抽出部12は、算出した各周波数成分の時間方向の平均と分散、及び抽出した一つ以上の周波数成分、の少なくとも一つ以上を、入出力装置103や通信モジュール104を介して他の装置等に出力する。また、周波数成分抽出部12は、算出した各周波数成分の時間方向の平均と分散及び抽出した複数の周波数成分を周波数成分重み決定部13に出力してもよい。
周波数成分抽出部12は、周波数成分抽出装置1の動作中全ての時間において(信号入力部10及び周波数分析部11を介して)周波数領域信号を受け、平均と分散の算出(更新)を続けてよい。あるいは、後述の発話区間検出部15の検知結果に基づき、非発話区間と検知された時間においてのみ、平均と分散とを算出してもよい。
周波数成分抽出部12は、外部の検知手段によって音声対話の開始や終了が知らされる場合等に、音声対話が行われていない時間においてのみ、平均と分散の算出(更新)を行ってもよい。外部の検知手段としては、例えばユーザが対話開始を指示するボタンを押すか、対話開始を指示する音声コマンドを発したことをもって対話の開始を検知する手段を用いることができる。また、例えばユーザが対話終了を指示するボタンを押すか、一定時間の間ユーザから音声による発話がないことをもって対話の終了を検知する手段を用いることができる。
周波数成分抽出部12は、必須ではないが、周波数解析の前に音声信号に雑音除去処理を加えてもよい。
周波数成分重み決定部13は、周波数成分抽出部12によって抽出(入力)された複数の周波数成分それぞれの重みを決定する。具体的に、周波数成分重み決定部13は、周波数成分抽出部12によって入力された各周波数成分の平均と分散とを用い、各周波数成分に対する重みを算出する。周波数成分重み決定部13は、重みを、平均と分散とを用いた様々な算出方法に基づいて求めてよいが、特定の算出方法に限定するものではない。周波数成分重み決定部13は、算出した重みを重み付きパワー算出部14に出力する。
周波数成分重み決定部13は、周波数成分の時間方向の平均が小さいほど大きな重みを決定してもよい。また、周波数成分重み決定部13は、周波数成分の時間方向の分散が小さいほど大きな重みを決定してもよい。また、周波数成分重み決定部13は、周波数成分の時間方向の平均が小さいほど、さらには、周波数成分の時間方向の分散が小さいほど、大きな重みを決定してもよい。
以下では、周波数成分重み決定部13が、周波数ビンfにおける重みW(f)を、周波数ビンfにおける周波数成分の平均m(f)と分散d(f)とを用いて算出する例について説明する。
例えば次式に従って求めてよい。
W(f)=M/m(f)+D/d(f)
ただし、M、Fはあらかじめ定めた定数である。
あるいは、W(f)は次式に従って求めてもよい。
W(f)=min(M/m(f),D/d(f))
すなわち、M/m(f)及びD/d(f)のうち小さい値をW(f)とする。
あるいは、重みのプリセット値W0(f)を用いて次式のようにW(f)を定義してもよい。
W(f)=M/m(f)+D/d(f)+W0(f)
W(f)=min(M/m(f),D/d(f),W0(f))
m(f)及びd(f)は、時間フレームtにおける周波数領域信号をS(t,f)として、以下の式(1)及び(2)で求める。ただし、t=1を最初のフレーム、t=Tを現在のフレームとする。
Figure 2016080767

Figure 2016080767
重み付きパワー算出部14は、周波数分析部11によって得られた周波数領域信号と、周波数成分重み決定部13によって決定された重みとに基づいて、重み付きパワーを算出する。重み付きパワー算出部14は、算出した重み付きパワーを発話区間検出部15に出力する。
具体的に、重み付きパワー算出部14は、周波数領域信号S(T,f)と重みW(f)から重み付パワーPw(T)を求める。Pw(T)は、例えば以下の式(3)のように求められる。ただし、Fは周波数ビンの数である。
Figure 2016080767
ここで、重み付きパワー算出部14による重み付けの効果を説明するために、図3〜7を用いて説明する。図3は、雑音パワーの平均が大きい状況での発話区間検知のグラフ例を示す図である。図3において、音声成分のパワーを示すグラフでは、音声成分は時間軸上の一部区間に現れるため、検知が容易である。しかしながら、音声成分のパワーを示すグラフのような音声成分に、雑音成分のパワーを示すグラフのような平均が大きい雑音成分が混合すると、雑音環境下での音声のパワーを示すグラフのように時間軸全体に渡ってパワーが大きくなり、音声成分の検知が困難となる。
図4は、雑音パワーの分散が大きい状況での発話区間検知のグラフ例を示す図である。図4において、図3と同様に、音声成分のパワーを示すグラフでは、音声成分は時間軸上の一部区間に現れるため、検知が容易である。しかしながら、音声成分のパワーを示すグラフのような音声成分に、雑音成分のパワーを示すグラフのような分散が大きい雑音成分が混合すると、雑音環境下での音声のパワーを示すグラフのように時間軸上にいくつかのピークが現れ、音声成分の検知が困難となる。
図5は、雑音パワーの平均及び分散が小さい状況での発話区間検知のグラフ例を示す図である。図5において、図3及び4と同様に、音声成分のパワーを示すグラフでは、音声成分は時間軸上の一部区間に現れるため、検知が容易である。そして、音声成分のパワーを示すグラフのような音声成分に、雑音成分のパワーを示すグラフのような平均及び分散が小さい雑音成分が混合しても、雑音環境下での音声のパワーを示すグラフのように、音声成分のパワーを示すグラフとほぼ変わらないため、音声成分の検知は容易である。
図6は、雑音の周波数特性のグラフ例及び重み付け例を示す図である。図6に示すように、周波数成分重み決定部13は、分散が大きい周波数ビンAに対しては、所定の値より小さい重み、あるいは他の周波数ビンの重みと比較して小さい重みを決定する。同様に、周波数成分重み決定部13は、平均が大きい周波数ビンCに対しては、所定の値より小さい重み、あるいは他の周波数ビンの重みと比較して小さい重みを決定する。一方、周波数成分重み決定部13は、平均が小さく、かつ分散が小さい周波数ビンBに対しては、所定の値より大きい重み、あるいは他の周波数ビンの重みと比較して大きい重みを決定する。
重み付きパワー算出部14によって求められた重み付パワーPw(T)は、重みを用いずに求めたパワーと比較して信号対雑音比がよく、音声成分のパワーの時間パターンにより近いことが期待される。具体的には、雑音が重畳した入力信号が図3(雑音パワーの平均が大きい状況での発話区間検知)あるいは図4(雑音パワーの分散が大きい状況での発話区間検知)のような状況になっており、重みなしパワーからの発話区間検知が困難な状況においても、図6における周波数ビンBにより大きな重みを与えることによって、重み付パワーの時間推移は図5(雑音の平均も分散も小さい状況での発話区間検知)に近くなることが期待できる。
図7は、周波数ビンに対する重み付けの例を示す図である。図7(a)のグラフに示す周波数ビンと、図7(b)のグラフに示す周波数ビンとを重み付けした結果が、図7(c)に示すグラフである。重み付けする際に、雑音の平均及び分散が小さい周波数ビンでは、信号のパワー変化は主に音声成分の有無に起因すると考えられるため、それらの周波数ビンに対する重みを大きくしている。
図7に示すように、雑音が大きい周波数ビンにおいてはm(f)は大きく、雑音の変動が大きい周波数ビンにおいてはd(f)が大きい。そこで、W(f)=M/m(f)+D/d(f)等の、重みW(f)を決定する式は、m(f)もd(f)も小さい場合にW(f)が大きくなる式の一例として記載している。m(f)もd(f)も小さい場合にW(f)が大きくなるのであれば異なる式を用いてもよい。
ここで、W(f)の絶対的な大きさには意味はなく、他の周波数と比較して大きいか小さいかに意味がある。たとえば、図7(c)のように高周波及び低周波ではW(f)が相対的に小さく、中間の周波数でW(f)が相対的に大きい場合は、重み付パワーは主に中間の周波数(図6の周波数ビンBに相当)における信号パワーを反映したものとなる。
発話区間検出部15は、重み付きパワー算出部14によって算出(入力)された重み付きパワーに基づいて、信号入力部10によって入力された入力信号から発話区間を検出する。具体的に、発話区間検出部15は、重み付パワーPw(T)を利用して各フレームが発話区間に当たるか非発話区間に当たるか判定する。判定には、例えば単純な閾値thrを用い、Pw(T)がthrを超える場合、そしてその場合のみ当該フレームTが発話区間に当たると判定してよい。あるいは、連続した3フレームにおいてPw(T)がthrを超える場合のみそれらのフレームが発話区間にあたると判断するように、過去のフレームにおける重み付パワー情報を用いた判定を行ってもよい。すなわち、発話区間検出部15は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出してもよい。
これらの方法は非常に単純な発話区間検知方法の例示であり、実際には上述の特許文献1のような、パワーの時間変動を活用した発話区間検知(すなわち、判定にヒステリシスを持たせる)を行うことが望ましい。その場合、周波数成分抽出装置1は過去の入力信号や算出結果などを周波数成分抽出装置1内に履歴として格納し、格納された履歴を用いて時間変動を活用した発話区間検知を行う。上述した例示は発話区間検出部15で用いるアルゴリズムについて何らの限定を加えるものではない。
続いて、図8に示すフローチャート図を用いて、本実施形態に係る周波数成分抽出装置1における方法の処理について説明する。
まず、信号入力部10により、雑音と音声とを含む信号が入力される(ステップS1)。次に、周波数分析部11により、S1にて入力された信号が周波数分析され、周波数領域信号が得られる(ステップS2、周波数分析ステップ)。次に、周波数成分抽出部12により、S2において得られた周波数領域信号の各周波数成分の時間方向の平均と分散とが算出され、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分が抽出される(ステップS3、周波数成分抽出ステップ)。
次に、周波数成分重み決定部13により、S3において抽出された複数の周波数成分それぞれの重みが決定される(ステップS4)。次に、重み付きパワー算出部14により、S2において得られた周波数領域信号と、S4において決定された重みとに基づいて、重み付きパワーが算出される(ステップS5)。次に、発話区間検出部15により、S5において算出された重み付きパワーに基づいて、入力信号から発話区間が検出される(ステップS6)。
引き続いて、上述した一連の周波数成分抽出装置1による処理をコンピュータに実行させるための周波数成分抽出プログラム2を説明する。図9に示すように、周波数成分抽出プログラム2は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記憶媒体50に形成されたプログラム格納領域51内に格納される。より具体的には、周波数成分抽出プログラム2は、周波数成分抽出装置1が備える記憶媒体50に形成されたプログラム格納領域51内に格納される。
周波数成分抽出プログラム2は、信号入力モジュール20、周波数分析モジュール21、周波数成分抽出モジュール22、周波数成分重み決定モジュール23、重み付きパワー算出モジュール24及び発話区間検出モジュール25を備えて構成される。信号入力モジュール20、周波数分析モジュール21、周波数成分抽出モジュール22、周波数成分重み決定モジュール23、重み付きパワー算出モジュール24及び発話区間検出モジュール25を実行させることにより実現される機能は、上述した周波数成分抽出装置1の信号入力部10、周波数分析部11、周波数成分抽出部12、周波数成分重み決定部13、重み付きパワー算出部14及び発話区間検出部15の機能とそれぞれ同様である。
なお、周波数成分抽出プログラム2は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記憶(インストールを含む)される構成としてもよい。また、周波数成分抽出プログラム2の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の周波数成分抽出プログラム2の処理が行われる。
次に、本実施形態のように構成された周波数成分抽出装置1の作用効果について説明する。
本実施形態の周波数成分抽出装置1によれば、まず、周波数分析部11により、雑音と音声とを含む入力信号が周波数分析され、周波数領域信号が得られる。そして、周波数成分抽出部12により、得られた周波数領域信号の各周波数成分の時間方向の平均と分散とが算出され、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分が抽出される。周波数成分抽出装置1では、周波数成分ごとに雑音の比率が高いものや、音声の比率が高いものが含まれており、それらの周波数成分の時間方向の平均と分散とに特徴がある点に着目し、各周波数成分の間で時間方向の平均と分散とを比較することにより、すなわち、各周波数成分の時間方向の平均と分散とに基づいて、周波数成分を抽出する。かかる構成を採れば、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる。
また、本実施形態の周波数成分抽出装置1によれば、周波数成分抽出部12によって抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定部13と、周波数分析部11によって得られた周波数領域信号と、周波数成分重み決定部13によって決定された重みとに基づいて、重み付きパワーを算出する重み付きパワー算出部14と、重み付きパワー算出部14によって算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出部15と、をさらに備えることが好ましい。かかる構成を採れば、例えば、音声の比率が高い周波数成分に対しては大きな重み付けをし、雑音の比率が高い周波数成分に対しては小さな重み付けをすることで、雑音と音声とが混合した環境下にあっても雑音の影響を小さくし、雑音を抑制することでS/N比向上させ、精度良く発話区間(音声区間)を検出することができる。なお、かかる構成を備える周波数成分抽出装置1は、発話区間検出装置と呼んでもよい。このような発話区間検出装置により、雑音成分による擾乱の少ない周波数成分のみから音声区間検出を行うことができ、雑音の音量が大きい場合にあっても精度よく発話区間検知を行うことができる。
また、本実施形態の周波数成分抽出装置1によれば、周波数成分抽出部12は、発話区間検出部15によって非発話区間と検知された時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定部13による重みの決定時に当該情報を反映することができる。
また、本実施形態の周波数成分抽出装置1によれば、周波数成分抽出部12は、音声対話が行われていない時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定部13による重みの決定時に当該情報を反映することができる。
また、本実施形態の周波数成分抽出装置1によれば、発話区間検出部15は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出することが好ましい。かかる構成を採れば、一時点の重み付きパワーではなく、重み付きパワーの時間変動に基づいて発話区間を検出するため、より精度良く発話区間を検出することができる。
また、本実施形態の周波数成分抽出装置1によれば、周波数成分重み決定部13は、周波数成分の時間方向の平均が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の平均が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。
また、本実施形態の周波数成分抽出装置1によれば、周波数成分重み決定部13は、周波数成分の時間方向の分散が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の分散が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。
なお、周波数成分抽出装置1は、発話が始まる前の背景雑音区間における音声信号を周波数分析した上で、信号スペクトラムにおける各周波数成分の平均および分散を求めてもよい。そして、雑音成分の平均あるいは分散が大きい周波数成分に対しては重みが小さくなり、雑音成分の平均も分散も小さい周波数成分に対しては重みが大きくなるよう、各周波数成分に対して重みを定め、この、周波数に依存する重みを加えた信号パワーの変動に基づいて発話区間を検知してもよい。音声が開始する前にしばらくの間(たとえば数秒程度)雑音を観察できれば、雑音について各々の周波数ビンにおけるパワーの平均及び分散を求めることができる。
また、周波数成分抽出装置1において、重み付きパワー算出部14は、重み付けパワーを算出する代わりに、周波数成分重み決定部13によって決定された重みに基づいて、S/N比の良い(W(f)が所定の値より大きい)周波数ビンを選択し、発話区間検出部15が、重み付きパワー算出部14で選択された周波数ビンに基づいて発話区間を検出してもよい。
また、本実施形態の周波数成分抽出装置1は、リアルタイムで実行される、すなわちリアルタイムで信号を入力し、周波数成分を抽出しているため、周波数成分重み決定部13によりリアルタイムで重みが決定される。これにより、その場で鳴っている雑音の特性に応じて動的に重みが最適化される。
1…周波数成分抽出装置、2…周波数成分抽出プログラム、10…信号入力部、11…周波数分析部、12…周波数成分抽出部、13…周波数成分重み決定部、14…重み付きパワー算出部、15…発話区間検出部、20…信号入力モジュール、21…周波数分析モジュール、22…周波数成分抽出モジュール、23…周波数成分重み決定モジュール、24…重み付きパワー算出モジュール、25…発話区間検出モジュール、50…記憶媒体、51…プログラム格納領域。

Claims (9)

  1. 雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、
    前記周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段と、
    を備える周波数成分抽出装置。
  2. 前記周波数成分抽出手段によって抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定手段と、
    前記周波数分析手段によって得られた周波数領域信号と、前記周波数成分重み決定手段によって決定された重みとに基づいて、重み付きパワーを算出する重み付きパワー算出手段と、
    前記重み付きパワー算出手段によって算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出手段と、
    をさらに備える請求項1に記載の周波数成分抽出装置。
  3. 前記周波数成分抽出手段は、前記発話区間検出手段によって非発話区間と検知された時間においてのみ、平均と分散とを算出する、請求項2に記載の周波数成分抽出装置。
  4. 前記周波数成分抽出手段は、音声対話が行われていない時間においてのみ、平均と分散とを算出する、請求項2又は3に記載の周波数成分抽出装置。
  5. 前記発話区間検出手段は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出する、請求項2〜4の何れか一項に記載の周波数成分抽出装置。
  6. 前記周波数成分重み決定手段は、周波数成分の時間方向の平均が小さいほど大きな重みを決定する、請求項2〜5の何れか一項に記載の周波数成分抽出装置。
  7. 前記周波数成分重み決定手段は、周波数成分の時間方向の分散が小さいほど大きな重みを決定する、請求項2〜6の何れか一項に記載の周波数成分抽出装置。
  8. 周波数成分抽出装置により実行される周波数成分抽出方法であって、
    雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析ステップと、
    前記周波数分析ステップにおいて得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出ステップと、
    を含む周波数成分抽出方法。
  9. コンピュータを、
    雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、
    前記周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段、
    として機能させる周波数成分抽出プログラム。
JP2014209339A 2014-10-10 2014-10-10 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム Pending JP2016080767A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014209339A JP2016080767A (ja) 2014-10-10 2014-10-10 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014209339A JP2016080767A (ja) 2014-10-10 2014-10-10 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム

Publications (1)

Publication Number Publication Date
JP2016080767A true JP2016080767A (ja) 2016-05-16

Family

ID=55956200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014209339A Pending JP2016080767A (ja) 2014-10-10 2014-10-10 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム

Country Status (1)

Country Link
JP (1) JP2016080767A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих
RU2811741C1 (ru) * 2023-05-12 2024-01-16 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих
RU2811741C1 (ru) * 2023-05-12 2024-01-16 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
Renevey et al. Entropy based voice activity detection in very noisy conditions.
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
EP3411876B1 (en) Babble noise suppression
CN109616098B (zh) 基于频域能量的语音端点检测方法和装置
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
US8935168B2 (en) State detecting device and storage medium storing a state detecting program
US10229686B2 (en) Methods and apparatus for speech segmentation using multiple metadata
JP2013250548A (ja) 処理装置、処理方法、プログラム及び処理システム
JP2015169827A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
US20230223014A1 (en) Adapting Automated Speech Recognition Parameters Based on Hotword Properties
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP2007093635A (ja) 既知雑音除去装置
US9875755B2 (en) Voice enhancement device and voice enhancement method
JP2015161718A (ja) 発話検出装置、発話検出方法及び発話検出プログラム
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP4612468B2 (ja) 信号抽出装置
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
CN112133320A (zh) 语音处理装置及语音处理方法
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels