JP2016080767A

JP2016080767A - 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム

Info

Publication number: JP2016080767A
Application number: JP2014209339A
Authority: JP
Inventors: 孝輔辻野; Kosuke Tsujino; 渉内田; Wataru Uchida; 公亮角野; Kosuke Kadono
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2016-05-16

Abstract

【課題】雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出すること。
【解決手段】周波数成分抽出装置１は、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析部１１と、得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出部１２と、抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定部１３と、抽出された複数の周波数成分と、決定された当該複数の周波数成分それぞれの重みとに基づいて、重み付きパワーを算出する重み付きパワー算出部１４と、算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出部１５と、を備える。
【選択図】図１

Description

本発明は、雑音と音声とを含む入力信号から音声を構成する周波数成分を抽出する周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラムに関する。

音声認識技術は雑音下で精度が下がることが知られている。雑音下での音声認識精度向上のためには、雑音と音声とが混合した信号から、人が発話した時間軸上の区間のみを精度良く抽出する、発話区間検知の処理が重要である。

発話区間検知の方法として、音声信号のパワーに基づく方法が知られている（下記特許文献１）。これは、非発話区間よりも発話区間のほうが音声信号のパワーが大きくなるという仮定に基づいている。

特許第４９５９０２５号

しかしながら、走行中の車内など、雑音が大きい環境下では、非発話区間と発話区間との間で雑音信号のパワーと音声信号のパワーとに明確な差が現れず、このような場合は精度良い発話区間検知が困難になる。精度良い発話区間検知を行うには、雑音と音声とが混合した信号からより精度良く音声を抽出する必要がある。

そこで、本発明は、かかる課題に鑑みて為されたものであり、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラムを提供することを目的とする。

上記課題を解決するため、本発明の周波数成分抽出装置は、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段と、を備える。

このような周波数成分抽出装置によれば、まず、周波数分析手段により、雑音と音声とを含む入力信号が周波数分析され、周波数領域信号が得られる。そして、周波数成分抽出手段により、得られた周波数領域信号の各周波数成分の時間方向の平均と分散とが算出され、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分が抽出される。本周波数成分抽出装置では、周波数成分ごとに雑音の比率が高いものや、音声の比率が高いものが含まれており、それらの周波数成分の時間方向の平均と分散とに特徴がある点に着目し、各周波数成分の間で時間方向の平均と分散とを比較することにより、すなわち、各周波数成分の時間方向の平均と分散とに基づいて、周波数成分を抽出する。かかる構成を採れば、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる。

また、本発明の周波数成分抽出装置において、周波数成分抽出手段によって抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定手段と、周波数分析手段によって得られた周波数領域信号と、周波数成分重み決定手段によって決定された重みとに基づいて、重み付きパワーを算出する重み付きパワー算出手段と、重み付きパワー算出手段によって算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出手段と、をさらに備えることが好ましい。かかる構成を採れば、例えば、音声の比率が高い周波数成分に対しては大きな重み付けをし、雑音の比率が高い周波数成分に対しては小さな重み付けをすることで、雑音と音声とが混合した環境下にあっても雑音の影響を小さくし、精度良く発話区間（音声区間）を検出することができる。

また、本発明の周波数成分抽出装置において、周波数成分抽出手段は、発話区間検出手段によって非発話区間と検知された時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定手段による重みの決定時に当該情報を反映することができる。

また、本発明の周波数成分抽出装置において、周波数成分抽出手段は、音声対話が行われていない時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定手段による重みの決定時に当該情報を反映することができる。

また、本発明の周波数成分抽出装置において、発話区間検出手段は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出することが好ましい。かかる構成を採れば、一時点の重み付きパワーではなく、重み付きパワーの時間変動に基づいて発話区間を検出するため、より精度良く発話区間を検出することができる。

また、本発明の周波数成分抽出装置において、周波数成分重み決定手段は、周波数成分の時間方向の平均が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の平均が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。

また、本発明の周波数成分抽出装置において、周波数成分重み決定手段は、周波数成分の時間方向の分散が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の分散が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。

ところで、本発明は、上記のように周波数成分抽出装置の発明として記述できる他に、以下のようにそれぞれ周波数成分抽出方法及び周波数成分抽出プログラムの発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

即ち、本発明に係る周波数成分抽出方法は、周波数成分抽出装置により実行される周波数成分抽出方法であって、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析ステップと、周波数分析ステップにおいて得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出ステップと、を含む。

また、本発明に係る周波数成分抽出プログラムは、コンピュータを、雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段、として機能させる。

本発明によれば、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる。

本発明の実施形態に係る周波数成分抽出装置の機能ブロック図である。本発明の実施形態に係る周波数成分抽出装置のハードウェア構成を示す図である。雑音パワーの平均が大きい状況での発話区間検知のグラフ例を示す図である。雑音パワーの分散が大きい状況での発話区間検知のグラフ例を示す図である。雑音パワーの平均及び分散が小さい状況での発話区間検知のグラフ例を示す図である。雑音の周波数特性のグラフ例及び重み付け例を示す図である。周波数ビンに対する重み付けの例を示す図である。本発明の実施形態に係る周波数成分抽出装置で実行される処理（周波数成分抽出方法）を示すフローチャートである。本発明の実施形態に係る周波数成分抽出プログラムの構成を、記憶媒体と共に示す図である。

以下、図面とともに本発明による周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１は、周波数成分抽出装置１の機能ブロック図である。図１に示す通り、周波数成分抽出装置１は、信号入力部１０、周波数分析部１１（周波数分析手段）、周波数成分抽出部１２（周波数成分抽出手段）、周波数成分重み決定部１３（周波数成分重み決定手段）、重み付きパワー算出部１４（重み付きパワー算出手段）及び発話区間検出部１５（発話区間検出手段）を含んで構成される。なお、周波数成分抽出装置１は、信号入力部１０、周波数分析部１１及び周波数成分抽出部１２のみを含む装置であってもよい。

周波数成分抽出装置１は、ＣＰＵ等のハードウェアから構成されているものである。図２は、周波数成分抽出装置１のハードウェア構成の一例を示す図である。図１に示される周波数成分抽出装置１は、物理的には、図２に示すように、ＣＰＵ１００、主記憶装置であるＲＡＭ１０１及びＲＯＭ１０２、ディスプレイ等の入出力装置１０３、通信モジュール１０４、及び補助記憶装置１０５などを含むコンピュータシステムとして構成されている。

図１に示す周波数成分抽出装置１の各機能ブロックの機能は、図２に示すＣＰＵ１００、ＲＡＭ１０１等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１００の制御のもとで入出力装置１０３、通信モジュール１０４、及び補助記憶装置１０５を動作させるとともに、ＲＡＭ１０１におけるデータの読み出し及び書き込みを行うことで実現される。

以下、図１に示す周波数成分抽出装置１の各機能ブロックについて説明する。

信号入力部１０は、雑音と音声とを含む入力信号を入力する。具体的に、信号入力部１０は、入出力装置１０３であるマイクや、通信モジュール１０４を介して他の装置から入力信号を入力する。信号入力部１０は、入力した入力信号を周波数分析部１１に出力する。

周波数分析部１１は、信号入力部１０から入力された入力信号を周波数分析して周波数領域信号を得る。具体的に、周波数分析部１１は、入力信号をフレームに分割し、周波数分析（周波数解析）を加える。周波数分析はＤＦＴ（Discrete Fourier Transform、離散フーリエ変換）やＳＴＦＴ（Short-Time Fourier Transform、短時間フーリエ変換）、ＤＣＴ（Discrete Cosine Transform、離散コサイン変換）やＭＤＣＴ（Modified Discrete Cosine Transform、修正離散コサイン変換）等であってもよい。また、音声認識によく用いられるＭＦＣＣ（Mel Frequency Cepstral Coefficient、メル周波数ケプストラム係数）であってもよい。いずれの場合も、フレームごとに周波数領域信号が得られ、周波数領域信号の各周波数成分（周波数ビン）は入力信号に含まれていた異なる周波数成分に対応する。周波数分析部１１は、得た周波数領域信号を周波数成分抽出部１２及び重み付きパワー算出部１４に出力する。

周波数成分抽出部１２は、周波数分析部１１によって得られた（入力された）周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する。具体的に、周波数成分抽出部１２は、周波数領域信号を連続的に解析し、各周波数ビンにおける信号の分散と平均を求める。ここで、ある周波数ビンにおける信号の分散が大きいとは、その周波数における信号の時間変動が大きいことを意味する。また、ある周波数成分における信号の平均が大きいとは、その周波数における信号の平均パワーが大きいことを意味する。周波数成分抽出部１２は、音声区間を含まないことが想定される長い時間の雑音信号からこの平均と分散を算出することによって、雑音成分の平均パワーや時間変動が大きい、または小さい周波数ビンを判定することができる。周波数成分抽出部１２は、算出した各周波数成分の時間方向の平均と分散、及び抽出した一つ以上の周波数成分、の少なくとも一つ以上を、入出力装置１０３や通信モジュール１０４を介して他の装置等に出力する。また、周波数成分抽出部１２は、算出した各周波数成分の時間方向の平均と分散及び抽出した複数の周波数成分を周波数成分重み決定部１３に出力してもよい。

周波数成分抽出部１２は、周波数成分抽出装置１の動作中全ての時間において（信号入力部１０及び周波数分析部１１を介して）周波数領域信号を受け、平均と分散の算出（更新）を続けてよい。あるいは、後述の発話区間検出部１５の検知結果に基づき、非発話区間と検知された時間においてのみ、平均と分散とを算出してもよい。

周波数成分抽出部１２は、外部の検知手段によって音声対話の開始や終了が知らされる場合等に、音声対話が行われていない時間においてのみ、平均と分散の算出（更新）を行ってもよい。外部の検知手段としては、例えばユーザが対話開始を指示するボタンを押すか、対話開始を指示する音声コマンドを発したことをもって対話の開始を検知する手段を用いることができる。また、例えばユーザが対話終了を指示するボタンを押すか、一定時間の間ユーザから音声による発話がないことをもって対話の終了を検知する手段を用いることができる。

周波数成分抽出部１２は、必須ではないが、周波数解析の前に音声信号に雑音除去処理を加えてもよい。

周波数成分重み決定部１３は、周波数成分抽出部１２によって抽出（入力）された複数の周波数成分それぞれの重みを決定する。具体的に、周波数成分重み決定部１３は、周波数成分抽出部１２によって入力された各周波数成分の平均と分散とを用い、各周波数成分に対する重みを算出する。周波数成分重み決定部１３は、重みを、平均と分散とを用いた様々な算出方法に基づいて求めてよいが、特定の算出方法に限定するものではない。周波数成分重み決定部１３は、算出した重みを重み付きパワー算出部１４に出力する。

周波数成分重み決定部１３は、周波数成分の時間方向の平均が小さいほど大きな重みを決定してもよい。また、周波数成分重み決定部１３は、周波数成分の時間方向の分散が小さいほど大きな重みを決定してもよい。また、周波数成分重み決定部１３は、周波数成分の時間方向の平均が小さいほど、さらには、周波数成分の時間方向の分散が小さいほど、大きな重みを決定してもよい。

以下では、周波数成分重み決定部１３が、周波数ビンｆにおける重みＷ（ｆ）を、周波数ビンｆにおける周波数成分の平均ｍ（ｆ）と分散ｄ（ｆ）とを用いて算出する例について説明する。

例えば次式に従って求めてよい。
Ｗ（ｆ）＝Ｍ／ｍ（ｆ）＋Ｄ／ｄ（ｆ）
ただし、Ｍ、Ｆはあらかじめ定めた定数である。

あるいは、Ｗ（ｆ）は次式に従って求めてもよい。
Ｗ（ｆ）＝ｍｉｎ（Ｍ／ｍ（ｆ），Ｄ／ｄ（ｆ））
すなわち、Ｍ／ｍ（ｆ）及びＤ／ｄ（ｆ）のうち小さい値をＷ（ｆ）とする。

あるいは、重みのプリセット値Ｗ０（ｆ）を用いて次式のようにＷ（ｆ）を定義してもよい。
Ｗ（ｆ）＝Ｍ／ｍ（ｆ）＋Ｄ／ｄ（ｆ）＋Ｗ０（ｆ）
Ｗ（ｆ）＝ｍｉｎ（Ｍ／ｍ（ｆ），Ｄ／ｄ（ｆ），Ｗ０（ｆ））

ｍ（ｆ）及びｄ（ｆ）は、時間フレームｔにおける周波数領域信号をＳ（ｔ，ｆ）として、以下の式（１）及び（２）で求める。ただし、ｔ＝１を最初のフレーム、ｔ＝Ｔを現在のフレームとする。

重み付きパワー算出部１４は、周波数分析部１１によって得られた周波数領域信号と、周波数成分重み決定部１３によって決定された重みとに基づいて、重み付きパワーを算出する。重み付きパワー算出部１４は、算出した重み付きパワーを発話区間検出部１５に出力する。

具体的に、重み付きパワー算出部１４は、周波数領域信号Ｓ（Ｔ，ｆ）と重みＷ（ｆ）から重み付パワーＰｗ（Ｔ）を求める。Ｐｗ（Ｔ）は、例えば以下の式（３）のように求められる。ただし、Ｆは周波数ビンの数である。

ここで、重み付きパワー算出部１４による重み付けの効果を説明するために、図３〜７を用いて説明する。図３は、雑音パワーの平均が大きい状況での発話区間検知のグラフ例を示す図である。図３において、音声成分のパワーを示すグラフでは、音声成分は時間軸上の一部区間に現れるため、検知が容易である。しかしながら、音声成分のパワーを示すグラフのような音声成分に、雑音成分のパワーを示すグラフのような平均が大きい雑音成分が混合すると、雑音環境下での音声のパワーを示すグラフのように時間軸全体に渡ってパワーが大きくなり、音声成分の検知が困難となる。

図４は、雑音パワーの分散が大きい状況での発話区間検知のグラフ例を示す図である。図４において、図３と同様に、音声成分のパワーを示すグラフでは、音声成分は時間軸上の一部区間に現れるため、検知が容易である。しかしながら、音声成分のパワーを示すグラフのような音声成分に、雑音成分のパワーを示すグラフのような分散が大きい雑音成分が混合すると、雑音環境下での音声のパワーを示すグラフのように時間軸上にいくつかのピークが現れ、音声成分の検知が困難となる。

図５は、雑音パワーの平均及び分散が小さい状況での発話区間検知のグラフ例を示す図である。図５において、図３及び４と同様に、音声成分のパワーを示すグラフでは、音声成分は時間軸上の一部区間に現れるため、検知が容易である。そして、音声成分のパワーを示すグラフのような音声成分に、雑音成分のパワーを示すグラフのような平均及び分散が小さい雑音成分が混合しても、雑音環境下での音声のパワーを示すグラフのように、音声成分のパワーを示すグラフとほぼ変わらないため、音声成分の検知は容易である。

図６は、雑音の周波数特性のグラフ例及び重み付け例を示す図である。図６に示すように、周波数成分重み決定部１３は、分散が大きい周波数ビンＡに対しては、所定の値より小さい重み、あるいは他の周波数ビンの重みと比較して小さい重みを決定する。同様に、周波数成分重み決定部１３は、平均が大きい周波数ビンＣに対しては、所定の値より小さい重み、あるいは他の周波数ビンの重みと比較して小さい重みを決定する。一方、周波数成分重み決定部１３は、平均が小さく、かつ分散が小さい周波数ビンＢに対しては、所定の値より大きい重み、あるいは他の周波数ビンの重みと比較して大きい重みを決定する。

重み付きパワー算出部１４によって求められた重み付パワーＰｗ（Ｔ）は、重みを用いずに求めたパワーと比較して信号対雑音比がよく、音声成分のパワーの時間パターンにより近いことが期待される。具体的には、雑音が重畳した入力信号が図３（雑音パワーの平均が大きい状況での発話区間検知）あるいは図４（雑音パワーの分散が大きい状況での発話区間検知）のような状況になっており、重みなしパワーからの発話区間検知が困難な状況においても、図６における周波数ビンＢにより大きな重みを与えることによって、重み付パワーの時間推移は図５（雑音の平均も分散も小さい状況での発話区間検知）に近くなることが期待できる。

図７は、周波数ビンに対する重み付けの例を示す図である。図７（ａ）のグラフに示す周波数ビンと、図７（ｂ）のグラフに示す周波数ビンとを重み付けした結果が、図７（ｃ）に示すグラフである。重み付けする際に、雑音の平均及び分散が小さい周波数ビンでは、信号のパワー変化は主に音声成分の有無に起因すると考えられるため、それらの周波数ビンに対する重みを大きくしている。

図７に示すように、雑音が大きい周波数ビンにおいてはｍ（ｆ）は大きく、雑音の変動が大きい周波数ビンにおいてはｄ（ｆ）が大きい。そこで、Ｗ（ｆ）＝Ｍ／ｍ（ｆ）＋Ｄ／ｄ（ｆ）等の、重みＷ（ｆ）を決定する式は、ｍ（ｆ）もｄ（ｆ）も小さい場合にＷ（ｆ）が大きくなる式の一例として記載している。ｍ（ｆ）もｄ（ｆ）も小さい場合にＷ（ｆ）が大きくなるのであれば異なる式を用いてもよい。

ここで、Ｗ（ｆ）の絶対的な大きさには意味はなく、他の周波数と比較して大きいか小さいかに意味がある。たとえば、図７（ｃ）のように高周波及び低周波ではＷ（ｆ）が相対的に小さく、中間の周波数でＷ（ｆ）が相対的に大きい場合は、重み付パワーは主に中間の周波数（図６の周波数ビンＢに相当）における信号パワーを反映したものとなる。

発話区間検出部１５は、重み付きパワー算出部１４によって算出（入力）された重み付きパワーに基づいて、信号入力部１０によって入力された入力信号から発話区間を検出する。具体的に、発話区間検出部１５は、重み付パワーＰｗ（Ｔ）を利用して各フレームが発話区間に当たるか非発話区間に当たるか判定する。判定には、例えば単純な閾値ｔｈｒを用い、Ｐｗ（Ｔ）がｔｈｒを超える場合、そしてその場合のみ当該フレームＴが発話区間に当たると判定してよい。あるいは、連続した３フレームにおいてＰｗ（Ｔ）がｔｈｒを超える場合のみそれらのフレームが発話区間にあたると判断するように、過去のフレームにおける重み付パワー情報を用いた判定を行ってもよい。すなわち、発話区間検出部１５は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出してもよい。

これらの方法は非常に単純な発話区間検知方法の例示であり、実際には上述の特許文献１のような、パワーの時間変動を活用した発話区間検知（すなわち、判定にヒステリシスを持たせる）を行うことが望ましい。その場合、周波数成分抽出装置１は過去の入力信号や算出結果などを周波数成分抽出装置１内に履歴として格納し、格納された履歴を用いて時間変動を活用した発話区間検知を行う。上述した例示は発話区間検出部１５で用いるアルゴリズムについて何らの限定を加えるものではない。

続いて、図８に示すフローチャート図を用いて、本実施形態に係る周波数成分抽出装置１における方法の処理について説明する。

まず、信号入力部１０により、雑音と音声とを含む信号が入力される（ステップＳ１）。次に、周波数分析部１１により、Ｓ１にて入力された信号が周波数分析され、周波数領域信号が得られる（ステップＳ２、周波数分析ステップ）。次に、周波数成分抽出部１２により、Ｓ２において得られた周波数領域信号の各周波数成分の時間方向の平均と分散とが算出され、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分が抽出される（ステップＳ３、周波数成分抽出ステップ）。

次に、周波数成分重み決定部１３により、Ｓ３において抽出された複数の周波数成分それぞれの重みが決定される（ステップＳ４）。次に、重み付きパワー算出部１４により、Ｓ２において得られた周波数領域信号と、Ｓ４において決定された重みとに基づいて、重み付きパワーが算出される（ステップＳ５）。次に、発話区間検出部１５により、Ｓ５において算出された重み付きパワーに基づいて、入力信号から発話区間が検出される（ステップＳ６）。

引き続いて、上述した一連の周波数成分抽出装置１による処理をコンピュータに実行させるための周波数成分抽出プログラム２を説明する。図９に示すように、周波数成分抽出プログラム２は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記憶媒体５０に形成されたプログラム格納領域５１内に格納される。より具体的には、周波数成分抽出プログラム２は、周波数成分抽出装置１が備える記憶媒体５０に形成されたプログラム格納領域５１内に格納される。

周波数成分抽出プログラム２は、信号入力モジュール２０、周波数分析モジュール２１、周波数成分抽出モジュール２２、周波数成分重み決定モジュール２３、重み付きパワー算出モジュール２４及び発話区間検出モジュール２５を備えて構成される。信号入力モジュール２０、周波数分析モジュール２１、周波数成分抽出モジュール２２、周波数成分重み決定モジュール２３、重み付きパワー算出モジュール２４及び発話区間検出モジュール２５を実行させることにより実現される機能は、上述した周波数成分抽出装置１の信号入力部１０、周波数分析部１１、周波数成分抽出部１２、周波数成分重み決定部１３、重み付きパワー算出部１４及び発話区間検出部１５の機能とそれぞれ同様である。

なお、周波数成分抽出プログラム２は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記憶（インストールを含む）される構成としてもよい。また、周波数成分抽出プログラム２の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の周波数成分抽出プログラム２の処理が行われる。

次に、本実施形態のように構成された周波数成分抽出装置１の作用効果について説明する。

本実施形態の周波数成分抽出装置１によれば、まず、周波数分析部１１により、雑音と音声とを含む入力信号が周波数分析され、周波数領域信号が得られる。そして、周波数成分抽出部１２により、得られた周波数領域信号の各周波数成分の時間方向の平均と分散とが算出され、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分が抽出される。周波数成分抽出装置１では、周波数成分ごとに雑音の比率が高いものや、音声の比率が高いものが含まれており、それらの周波数成分の時間方向の平均と分散とに特徴がある点に着目し、各周波数成分の間で時間方向の平均と分散とを比較することにより、すなわち、各周波数成分の時間方向の平均と分散とに基づいて、周波数成分を抽出する。かかる構成を採れば、雑音と音声とが混合した信号から音声の比率がより高い周波数成分を抽出することができる。

また、本実施形態の周波数成分抽出装置１によれば、周波数成分抽出部１２によって抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定部１３と、周波数分析部１１によって得られた周波数領域信号と、周波数成分重み決定部１３によって決定された重みとに基づいて、重み付きパワーを算出する重み付きパワー算出部１４と、重み付きパワー算出部１４によって算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出部１５と、をさらに備えることが好ましい。かかる構成を採れば、例えば、音声の比率が高い周波数成分に対しては大きな重み付けをし、雑音の比率が高い周波数成分に対しては小さな重み付けをすることで、雑音と音声とが混合した環境下にあっても雑音の影響を小さくし、雑音を抑制することでＳ／Ｎ比向上させ、精度良く発話区間（音声区間）を検出することができる。なお、かかる構成を備える周波数成分抽出装置１は、発話区間検出装置と呼んでもよい。このような発話区間検出装置により、雑音成分による擾乱の少ない周波数成分のみから音声区間検出を行うことができ、雑音の音量が大きい場合にあっても精度よく発話区間検知を行うことができる。

また、本実施形態の周波数成分抽出装置１によれば、周波数成分抽出部１２は、発話区間検出部１５によって非発話区間と検知された時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定部１３による重みの決定時に当該情報を反映することができる。

また、本実施形態の周波数成分抽出装置１によれば、周波数成分抽出部１２は、音声対話が行われていない時間においてのみ、平均と分散とを算出することが好ましい。かかる構成を採れば、音声がない、あるいは音声の比率が低いことが想定される時間の雑音信号から周波数成分の平均と分散とを算出することができる。これにより、雑音信号の周波数成分の平均パワーや時間変動が大きい又は小さい周波数ビン等、雑音信号の周波数成分に関する情報を得ることができ、周波数成分重み決定部１３による重みの決定時に当該情報を反映することができる。

また、本実施形態の周波数成分抽出装置１によれば、発話区間検出部１５は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出することが好ましい。かかる構成を採れば、一時点の重み付きパワーではなく、重み付きパワーの時間変動に基づいて発話区間を検出するため、より精度良く発話区間を検出することができる。

また、本実施形態の周波数成分抽出装置１によれば、周波数成分重み決定部１３は、周波数成分の時間方向の平均が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の平均が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。

また、本実施形態の周波数成分抽出装置１によれば、周波数成分重み決定部１３は、周波数成分の時間方向の分散が小さいほど大きな重みを決定することが好ましい。周波数成分の時間方向の分散が小さいほど、音声の比率が高いことが予想されるため、大きな重みを決定することで、音声の比率がより高い周波数成分を抽出することができる。

なお、周波数成分抽出装置１は、発話が始まる前の背景雑音区間における音声信号を周波数分析した上で、信号スペクトラムにおける各周波数成分の平均および分散を求めてもよい。そして、雑音成分の平均あるいは分散が大きい周波数成分に対しては重みが小さくなり、雑音成分の平均も分散も小さい周波数成分に対しては重みが大きくなるよう、各周波数成分に対して重みを定め、この、周波数に依存する重みを加えた信号パワーの変動に基づいて発話区間を検知してもよい。音声が開始する前にしばらくの間（たとえば数秒程度）雑音を観察できれば、雑音について各々の周波数ビンにおけるパワーの平均及び分散を求めることができる。

また、周波数成分抽出装置１において、重み付きパワー算出部１４は、重み付けパワーを算出する代わりに、周波数成分重み決定部１３によって決定された重みに基づいて、Ｓ／Ｎ比の良い（Ｗ（ｆ）が所定の値より大きい）周波数ビンを選択し、発話区間検出部１５が、重み付きパワー算出部１４で選択された周波数ビンに基づいて発話区間を検出してもよい。

また、本実施形態の周波数成分抽出装置１は、リアルタイムで実行される、すなわちリアルタイムで信号を入力し、周波数成分を抽出しているため、周波数成分重み決定部１３によりリアルタイムで重みが決定される。これにより、その場で鳴っている雑音の特性に応じて動的に重みが最適化される。

１…周波数成分抽出装置、２…周波数成分抽出プログラム、１０…信号入力部、１１…周波数分析部、１２…周波数成分抽出部、１３…周波数成分重み決定部、１４…重み付きパワー算出部、１５…発話区間検出部、２０…信号入力モジュール、２１…周波数分析モジュール、２２…周波数成分抽出モジュール、２３…周波数成分重み決定モジュール、２４…重み付きパワー算出モジュール、２５…発話区間検出モジュール、５０…記憶媒体、５１…プログラム格納領域。

Claims

雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、
前記周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段と、
を備える周波数成分抽出装置。
前記周波数成分抽出手段によって抽出された複数の周波数成分それぞれの重みを決定する周波数成分重み決定手段と、
前記周波数分析手段によって得られた周波数領域信号と、前記周波数成分重み決定手段によって決定された重みとに基づいて、重み付きパワーを算出する重み付きパワー算出手段と、
前記重み付きパワー算出手段によって算出された重み付きパワーに基づいて、入力信号から発話区間を検出する発話区間検出手段と、
をさらに備える請求項１に記載の周波数成分抽出装置。
前記周波数成分抽出手段は、前記発話区間検出手段によって非発話区間と検知された時間においてのみ、平均と分散とを算出する、請求項２に記載の周波数成分抽出装置。
前記周波数成分抽出手段は、音声対話が行われていない時間においてのみ、平均と分散とを算出する、請求項２又は３に記載の周波数成分抽出装置。
前記発話区間検出手段は、重み付きパワーの時間変動に基づいて、入力信号から発話区間を検出する、請求項２〜４の何れか一項に記載の周波数成分抽出装置。
前記周波数成分重み決定手段は、周波数成分の時間方向の平均が小さいほど大きな重みを決定する、請求項２〜５の何れか一項に記載の周波数成分抽出装置。
前記周波数成分重み決定手段は、周波数成分の時間方向の分散が小さいほど大きな重みを決定する、請求項２〜６の何れか一項に記載の周波数成分抽出装置。
周波数成分抽出装置により実行される周波数成分抽出方法であって、
雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析ステップと、
前記周波数分析ステップにおいて得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出ステップと、
を含む周波数成分抽出方法。
コンピュータを、
雑音と音声とを含む入力信号を周波数分析して周波数領域信号を得る周波数分析手段と、
前記周波数分析手段によって得られた周波数領域信号の各周波数成分の時間方向の平均と分散とを算出し、算出された各周波数成分の時間方向の平均と分散とに基づいて周波数成分を抽出する周波数成分抽出手段、
として機能させる周波数成分抽出プログラム。