JP6531412B2

JP6531412B2 - 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、ｓｎｒ推定装置及びプログラム

Info

Publication number: JP6531412B2
Application number: JP2015023518A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-02-09
Filing date: 2015-02-09
Publication date: 2019-06-19
Anticipated expiration: 2035-02-09
Also published as: US20160232916A1; JP2016145940A; US9779762B2

Description

本発明は、目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、ＳＮＲ推定装置及びプログラムに関し、例えば、音声信号に重畳された雑音成分を抑圧する前処理の装置及びプログラムに適用し得るものである。

入力信号における、目的音成分である音声成分（背景技術の説明では目的音成分が音声成分であるとする）が含まれている区間（以下、音声区間と呼ぶ）を、音声成分が含まれていない区間（以下、非音声区間又は雑音区間と呼ぶ）と弁別できるように検出する音声区間検出技術では、従来、入力信号のパワーが所定の閾値以上ならば音声区間と判定するという方法が主に利用されている。しかし、この方法では、音声成分のパワー（以下、音声パワーと呼ぶ）や雑音成分のパワー（以下、雑音パワーと呼ぶ）が変動する場合には対応することが難しい。

一方、非特許文献１に記載されている技術を用いた音声区間検出装置は、図２１のような構成を有する。すなわち、図２１に示す音声区間検出装置１０００は、パワー算出部１００１、平滑化部１００２、雑音パワー推定部１００３、ＳＮＲ推定部１００４及び音声区間判定部１００５を有する。非特許文献１の記載技術は、Ｓ/Ｎ比（以下、ＳＮＲと記載する）の推定技術に関するものであり、図２１に示す構成のうち、音声区間判定部１００５を除いた部分がＳＮＲの推定のための構成である。なお、非特許文献１の５章「ＡＰＰＬＩＣＡＴＩＯＮＳ」には、音声区間判定部１００５に相当する、所定の閾値を用いて音声区間を検出する応用例が示されている。

非特許文献１の記載技術を用いた音声区間検出動作を簡単に説明する。

パワー算出部１００１は、１６ミリ秒分（算出期間Ａ）の入力信号の２乗和を算出して、これを入力パワーとする。平滑化部１００２は、所定の定数係数α（αとして０．９５〜０．９８が好適）を用いて、直前の平滑化入力パワーのα倍とパワー算出部１００１から与えられた入力パワーの（１−α）倍とを加算して、平滑化入力パワーとする。雑音パワー推定部１００３は、過去１５６ミリ秒間（算出期間Ｂ）の最小の平滑化入力パワーを第１の暫定推定雑音パワーとし、過去６２５（算出期間Ｃ）ミリ秒間の最小の平滑化入力パワーを第２の暫定推定雑音パワーとし、第１の暫定推定雑音パワーが算出期間Ｃの間単調増加していれば第１の暫定推定雑音パワーを推定雑音パワーとし、単調増加していなければ第２の暫定推定雑音パワーを推定雑音パワーとする。ＳＮＲ推定部１００４は、推定雑音パワーに所定の定数係数β（例えば、βを１．５とする）を乗じて過大推定雑音パワーを得て、過大推定雑音パワーが平滑化入力パワーより大きければＳＮＲ推定値（ここでは事前ＳＮＲの推定値）を０とし、過大推定雑音パワーが平滑化入力パワーより小さければ平滑化入力パワーを過大推定雑音パワーで除した値から１を減じた値をＳＮＲ推定値とする。音声区間判定部１００５は、ＳＮＲ推定値が所定の閾値より大きければ音声区間を表す真値を出力し、そうでなければ非音声区間を表す偽値を出力する。非特許文献１の記載技術では、この閾値の具体的な値に言及していないが、例えば２．０を適用できる。

Ｒ．Ｍａｒｔｉｎ，"ＡｎｅｆｆｉｃｉｅｎｔａｌｇｏｒｉｔｈｍｔｏｅｓｔｉｍａｔｅｔｈｅｉｎｓｔａｎｔａｎｅｏｕｓＳＮＲｏｆｓｐｅｅｃｈｓｉｇｎａｌｓ，"ｉｎＰｒｏｃ．ＥＵＲＯＳＰＥＥＣＨ１９９３，ｐｐ１０９３−１０９６，１９９３．

非特許文献１の記載技術は、推定雑音パワーを平滑化入力パワーの所定期間の最小値としているため、非音声区間における入力パワー（＝雑音パワー）の変動の大きさによって結果が変わるという問題がある。この問題の一部は、推定雑音パワーに定数係数βを乗じることによって解決しているが、乗じるべき係数βは、非特許文献１で言及されている算出期間Ａと算出期間Ｃだけでなく、雑音成分の特性によっても変化するものである。そのため、非特許文献１の記載技術では、最適な定数係数βを得ることはできず、さらに雑音成分の特性が変化した場合にも対応できない。

そのため、雑音パワーが変動している場合であっても高精度に目的音区間を検出することができる目的音区間検出装置及びプログラムが望まれており、また、そのような目的音区間検出装置及びプログラムを実現できる要素技術が望まれている。

第１の本発明は、入力信号における目的音区間を検出する目的音区間検出装置において、（１）上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、（２）上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段とを備え、（１ａ）上記第１の目的音区間検出手段は、上記第２の目的音区間検出手段が所定の単位時間前に出力した、第２の目的音区間の検出結果を少なくとも含む第２のパラメータを用いて上記第１の閾値を生成し、（２ａ）上記第２の目的音区間検出手段は、上記第１の目的音区間検出手段が同一の単位時間で出力した、第１の目的音区間の検出結果を少なくとも含む第１のパラメータを用いて上記第２の閾値を生成することを特徴とする。

第２の本発明は、入力信号における目的音区間を検出する目的音区間検出装置において、（１）上記入力信号に対して周波数解析する周波数解析部と、（２）周波数解析で得られた複数の周波数帯域の信号のそれぞれにおける、目的音区間を検出する複数の帯域別目的音区間検出手段と、（３）上記各帯域別目的音区間検出手段における目的音区間の検出結果を統合する帯域別結果統合部とを有し、（２ａ）上記各帯域別目的音区間検出手段として、それぞれ、第１の本発明の目的音区間検出装置の構成を適用していることを特徴とする。

第３の本発明は、入力信号における雑音パワーを推定する雑音推定装置において、（１）上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、（２）上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段とを備え、（１）上記第１の目的音区間検出手段は、（１−１）所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、（１−２）上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、（１−３）上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、（２）上記第２の目的音区間検出手段は、（２−１）同一の単位時間の上記第１の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第２の入力パワーを平滑化して第２の平滑化パワーを算出する第２の平滑化部と、（２−２）上記第２の平滑化パワーを少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、（２−３）上記第２の入力パワーを上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、（３）上記第１の平滑化部又は上記第２の平滑化部は、所定の単位時間前の上記第２の目的音区間の検出結果又は同一の単位時間の上記第１の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第１の平滑化パワー又は上記第２の平滑化パワーとして雑音パワーの推定値を得ることを特徴とする。

第４の本発明は、入力信号におけるＳＮＲを推定するＳＮＲ推定装置において、（１）上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、（２）上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段とを備え、（１）上記第１の目的音区間検出手段は、（１−１）所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、（１−２）上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、（１−３）上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、（２）上記第２の目的音区間検出手段は、（２−１）同一の単位時間の上記第２の入力パワー及び上記第１の平滑化パワーに基づいてＳＮＲの推定値を算出するＳＮＲ算出部と、（２−２）同一の単位時間の上記第１の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記ＳＮＲ推定値を平滑化してＳＮＲの平滑値を算出する第２の平滑化部と、（２−３）上記ＳＮＲ平滑値を少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、（２−４）上記ＳＮＲ推定値を上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、（３）上記ＳＮＲ算出部からの上記ＳＮＲ推定値を上記入力信号におけるＳＮＲ推定値として得ることを特徴とする。

第５の本発明は、入力信号における目的音区間を検出する目的音区間検出プログラムであって、コンピュータを、（１）上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、（２）上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段として機能させるものであり、（１ａ）上記第１の目的音区間検出手段は、上記第２の目的音区間検出手段が所定の単位時間前に出力した、第２の目的音区間の検出結果を少なくとも含む第２のパラメータを用いて上記第１の閾値を生成し、（２ａ）上記第２の目的音区間検出手段は、上記第１の目的音区間検出手段が同一の単位時間で出力した、第１の目的音区間の検出結果を少なくとも含む第１のパラメータを用いて上記第２の閾値を生成することを特徴とする。

第６の本発明は、入力信号における雑音パワーを推定する雑音推定プログラムであって、コンピュータを、（１）上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、（２）上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段として機能させるものであり、（１）上記第１の目的音区間検出手段は、（１−１）所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、（１−２）上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、（１−３）上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、（２）上記第２の目的音区間検出手段は、（２−１）同一の単位時間の上記第１の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第２の入力パワーを平滑化して第２の平滑化パワーを算出する第２の平滑化部と、（２−２）上記第２の平滑化パワーを少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、（２−３）上記第２の入力パワーを上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、（３）上記第１の平滑化部又は上記第２の平滑化部は、所定の単位時間前の上記第２の目的音区間の検出結果又は同一の単位時間の上記第１の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第１の平滑化パワー又は上記第２の平滑化パワーとして雑音パワーの推定値を得ることを特徴とする。

第７の本発明は、入力信号におけるＳＮＲを推定するＳＮＲ推定プログラムであって、コンピュータを、（１）上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、（２）上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段として機能させ、（１）上記第１の目的音区間検出手段は、（１−１）所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、（１−２）上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、（１−３）上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、（２）上記第２の目的音区間検出手段は、（２−１）同一の単位時間の上記第２の入力パワー及び上記第１の平滑化パワーに基づいてＳＮＲの推定値を算出するＳＮＲ算出部と、（２−２）同一の単位時間の上記第１の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記ＳＮＲ推定値を平滑化してＳＮＲの平滑値を算出する第２の平滑化部と、（２−３）上記ＳＮＲ平滑値を少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、（２−４）上記ＳＮＲ推定値を上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、（３）上記ＳＮＲ算出部からの上記ＳＮＲ推定値を上記入力信号におけるＳＮＲ推定値として得ることを特徴とする。

本発明によれば、雑音パワーが変動している場合であっても高精度に目的音区間を検出することができる目的音区間検出装置及びプログラムを提供できる。また、そのような目的音区間検出装置及びプログラムを実現できる雑音推定装置及びプログラムやＳＮＲ推定装置及びプログラムを提供できる。

第１の実施形態の音声区間検出装置の構成を示すブロック図である。第１の実施形態の音声区間検出装置における第１の音声区間検出部の詳細構成を示すブロック図である。第１の実施形態の音声区間検出装置における第２の音声区間検出部の詳細構成を示すブロック図である。第１の実施形態の音声区間検出装置における各部信号波形図（その１）である。第１の実施形態の音声区間検出装置における各部信号波形図（その２）である。第１の実施形態の音声区間検出装置における各部信号波形図（その３）である。第１の実施形態の音声区間検出装置における各部信号波形図（その４）である。第１の実施形態の音声区間検出装置における各部信号波形図（その５）である。第１の実施形態の音声区間検出装置における各部信号波形図（その６）である。第１の実施形態を変形した実施形態の音声区間検出装置の構成を示すブロック図である。第２の実施形態の音声区間検出装置における第１の音声区間検出部の詳細構成を示すブロック図である。第２の実施形態の音声区間検出装置における第２の音声区間検出部の詳細構成を示すブロック図である。第２の実施形態の音声区間検出装置における各部信号波形図（その１）である。第２の実施形態の音声区間検出装置における各部信号波形図（その２）である。第２の実施形態の音声区間検出装置における各部信号波形図（その３）である。第２の実施形態の音声区間検出装置における各部信号波形図（その４）である。第２の実施形態の音声区間検出装置における各部信号波形図（その５）である。第２の実施形態の音声区間検出装置における各部信号波形図（その６）である。第３の実施形態の音声区間検出装置における第１の音声区間検出部の詳細構成を示すブロック図である。第３の実施形態の音声区間検出装置における第２の音声区間検出部の詳細構成を示すブロック図である。従来の音声区間検出装置の構成を示すブロック図である。

（Ａ）第１の実施形態
以下、本発明による目的音区間検出装置及びプログラム、並びに、雑音推定装置及びプログラムの第１の実施形態を、図面を参照しながら説明する。

第１の実施形態の目的音区間検出装置は、目的音区間が音声区間である音声区間検出装置である。第１の実施形態の音声区間検出装置及びプログラムには、第１の実施形態の雑音推定装置及びプログラムが要素技術として適用されているが、ＳＮＲ推定装置及びプログラムは適用されていない。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の音声区間検出装置の構成を示すブロック図である。

第１の実施形態の音声区間検出装置は、図１で示す構成部分をハードウェアで構成することも可能であり、また、ＣＰＵが実行するソフトウェア（音声区間検出プログラム）とＣＰＵとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図１で表すことができる。

図１において、第１の実施形態の音声区間検出装置１００は、パワー算出部１０１、第１の音声区間検出部１０２、第２の音声区間検出部１０３及び単位時間遅延部１０４を有する。

パワー算出部１０１は、入力信号（例えばデジタル信号）のＴＰ秒間のパワーを算出し、得られた入力パワーＰｉｎを第１の音声区間検出部１０２及び第２の音声区間検出部１０３に与えるものである。パワーの算出方法として、公知の算出方法を適用することができる。例えば、２乗和若しくは絶対値和を入力パワーとして算出するようにしても良く、ＴＰ秒間の最大振幅を入力パワーとして算出するようにしても良い。

第１の音声区間検出部１０２は、１単位時間前の第２の音声区間検出部１０３の検出結果である第２の音声区間真偽値Ｖ２を含む第２のパラメータＦ２と、入力パワーＰｉｎとを用いて音声区間検出を行い、得られた音声区間真偽値（第１の音声区間真偽値）Ｖ１を含む第１のパラメータＦ１を第２の音声区間検出部１０３に与えるものである。音声区間を繰返し検出する上述した単位時間は、デジタル信号でなる入力信号のサンプリング周期（例えば、サンプリング周波数は８ｋＨｚ）であっても良く、また、音声処理などで適用されている１０ミリ秒等のフレームであっても良い。

第２の音声区間検出部１０３は、第１の音声区間検出部１０２の検出結果である第１の音声区間真偽値Ｖ１を少なくとも含む第１のパラメータＦ１と、入力パワーＰｉｎとを用いて音声区間検出を行い、得られた音声区間真偽値（第２の音声区間真偽値）Ｖ２を少なくとも含む第２のパラメータＦ２を、単位時間遅延部１０４を介して第１の音声区間検出部１０３に与えると共に、得られた音声区間真偽値（第２の音声区間真偽値）Ｖ２を、当該音声区間検出装置１００からの出力として、次段の装置に与えるものである。

単位時間遅延部１０４は、第２の音声区間検出部１０３から出力された第２のパラメータＦ２を１単位時間だけ遅延させて第１の音声区間検出部１０２に与えるものである。

第１の音声区間検出部１０２及び第２の音声区間検出部１０３はそれぞれ、既存の音声区間検出技術をアレンジして適用しているものである。第１の音声区間検出部１０２が適用している既存の音声区間検出技術と、第２の音声区間検出部１０３が適用している既存の音声区間検出技術とは異なっていても良く、また、同じであっても良い。

第１の実施形態についての後述する説明では、第１の音声区間検出部１０２から第２の音声区間検出部１０３へは第１の音声区間真偽値Ｖ１を与え、第２の音声区間検出部１０３から第１の音声区間検出部１０２へ第２の音声区間真偽値Ｖ２を与える場合を説明する。しかし、第１の音声区間検出部１０２が適用している音声区間検出技術によっては他の値（算出値など）も第２の音声区間検出部１０３へ与えるようにしても良く、また、第２の音声区間検出部１０３が適用している音声区間検出技術によっては他の値（算出値など）も第１の音声区間検出部１０２へ与えるようにしても良い。また、同様な音声区間検出技術を適用している場合であっても、他方の音声区間検出部１０２又は１０３へ音声区間真偽値以外の値（算出値など）も与えるようにしても良い（後述する第２の実施形態や第３の実施形態参照）。そのため、上述したように、第１のパラメータＦ１や第２のパラメータＦ２を与えると表現している。

なお、図１では、第１の音声区間検出部１０２及び第２の音声区間検出部１０３がそれぞれ、入力パワーを利用して音声区間を検出する音声区間検出技術を適用しているため、共通に適用できるパワー算出部１０１を、第１の音声区間検出部１０２及び第２の音声区間検出部１０３の外部に記載しているが、第１の音声区間検出部１０２及び第２の音声区間検出部１０３の多くても一方だけが入力パワーを利用して音声区間を検出する音声区間検出技術を適用している場合には、共通するパワー算出部１０１は不要となる。また例えば、第１の音声区間検出部１０２が利用する入力パワーがＴＰ秒間の２乗和であり、第２の音声区間検出部１０３が利用する入力パワーがＴＰ秒間の最大振幅であるように、第１の音声区間検出部１０２及び第２の音声区間検出部１０３が利用する入力パワーが異なっていても良く、このような場合には、パワー算出部を、第１の音声区間検出部１０２及び第２の音声区間検出部１０３毎に別個に設けることを要する。以上を考慮して厳密に言えば、図１のパワー算出部１０１及び第１の音声区間検出部１０２で一方の音声区間検出部が構成され、図１のパワー算出部１０１及び第２の音声区間検出部１０３で他方の音声区間検出部が構成されているということができる。

図２は、第１の音声区間検出部１０２の詳細構成例を示すブロック図である。図２において、第１の音声区間検出部１０２は、第１の平滑化部２０１、第１の閾値算出部２０２及び第１の音声区間判定部２０３を有する。

第１の平滑化部２０１は、第１の音声区間参考真偽値Ｖｒ１（＝１単位時間前の第２の音声区間真偽値Ｖ２）に基づいて入力パワーＰｉｎを平滑化し、得られた第１の平滑化パワーＰ１を第１の閾値算出部２０２に与える。第１の平滑化部２０１は、第１の音声区間参考真偽値Ｖｒ１が偽値（すなわち、雑音区間を表す値）であるときには入力パワーＰｉｎを平滑化して第１の平滑化パワーＰ１を更新し、第１の音声区間参考真偽値Ｖｒ１が真値（すなわち、音声区間を表す値）であるときには第１の平滑化パワーＰ１を更新しない。従って、第１の平滑化パワーＰ１が意味するのは雑音パワーの平滑化値（雑音パワーの平均的な値）である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、時定数が０．２秒の時定数フィルタを用いて平滑化する。

第１の閾値算出部２０２は、第１の平滑化パワーＰ１に１以上の値をとる所定の定数係数Ｃ１（以下、第１の係数と呼ぶ）を乗じて、入力パワーＰｉｎと比較する第１の閾値ＴＨ１を形成して第１の音声区間判定部２０３に与えるものである。第１の平滑化パワーＰ１が雑音パワーの平均的な値を意味し、これに乗算することで、音声パワーと雑音パワーとを切り分けるための第１の閾値ＴＨ１を定める第１の係数Ｃ１の値は、限定されるものではないが、例えば、２を適用することができる。

第１の音声区間判定部２０３は、第１の閾値ＴＨ１と入力パワーＰｉｎを比較して音声区間か否かを判定し、第１の音声区間真偽値Ｖ１を出力する。第１の音声区間判定部２０３は、入力パワーＰｉｎが第１の閾値ＴＨ１より大きければ第１の音声区間真偽値Ｖ１として真値を出力し、そうでなければ偽値を出力する。

図３は、第２の音声区間検出部１０３の詳細構成例を示すブロック図である。図３において、第２の音声区間検出部１０３は、第２の平滑化部３０１、第２の閾値算出部３０２及び第２の音声区間判定部３０３を有する。

第２の平滑化部３０１は、第２の音声区間参考真偽値Ｖｒ２（同一単位時間における第１の音声区間真偽値Ｖ１）に基づいて入力パワーＰｉｎを平滑化し、得られた第２の平滑化パワーＰ２を第２の閾値算出部３０２に与える。第２の平滑化部３０１は、第２の音声区間参考真偽値Ｖｒ２が真値（すなわち、音声区間を表す値）であるときには入力パワーＰｉｎを平滑化して第２の平滑化パワーＰ２を更新し、第２の音声区間参考真偽値Ｖｒ２が偽値（すなわち、雑音区間を表す値）であるときには第２の平滑化パワーＰ２を更新しない。従って、第２の平滑化パワーＰ２が意味するのは音声パワーの平滑化値（音声パワーの平均的な値）である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、時定数が０．８秒の時定数フィルタを用いて平滑化する。

時定数は対象信号の追従性と平滑化された値の安定性とのトレードオフで決定されるものであり、上述した第１の平滑化部２０１は雑音区間の入力パワーＰｉｎを平滑化するのに対して、第２の平滑化部３０１は音声区間の入力パワーＰｉｎを平滑化するので、後者の方については安定性に重みをおき、後者の時定数の方を長くするように選定した。

第２の閾値算出部３０２は、第２の平滑化パワーＰ２に０より大きく１以下の値をとる所定の定数係数Ｃ２（以下、第２の係数と呼ぶ）を乗じて、入力パワーＰｉｎと比較する第２の閾値ＴＨ２を形成して第２の音声区間判定部３０３に与えるものである。第２の平滑化パワーＰ１が音声パワーの平均的な値を意味し、これに乗算することで、音声パワーと雑音パワーとを切り分けるための第２の閾値ＴＨ２を定める第２の係数Ｃ２の値は、限定されるものではないが、例えば、０．５を適用することができる。

第２の音声区間判定部３０３は、第２の閾値ＴＨ２と入力パワーＰｉｎを比較して音声区間か否かを判定し、第２の音声区間真偽値Ｖ２を出力する。第２の音声区間判定部３０３は、入力パワーＰｉｎが第２の閾値ＴＨ２より大きければ第２の音声区間真偽値Ｖ２として真値を出力し、そうでなければ偽値を出力する。

上述した第１の音声区間検出部１０２及び／又は第２の音声区間検出部１０３は、音声区間検出で多用されるハングオーバーを行うようにしても良い。ハングオーバーについては、後述する動作説明の項で明らかにする。

（Ａ−２）第１の実施形態の動作
次に、上述した構成を有する第１の実施形態の音声区間検出装置１００の動作を説明する。まず、第１の実施形態の音声区間検出装置１００の全体動作を説明した後、第１の音声区間検出部１０２及び第２の音声区間検出部１０３の動作を順に説明し、さらに、ハングオーバー動作についても説明する。

図４〜図９は、第１の実施形態の音声区間検出装置１００における各部信号波形図である。図４は第１の実施形態の音声区間検出装置１００への入力信号を示し、図５は入力パワーＰｉｎを示し、図６は第１の平滑化パワーＰ１（実線）を示し、図７は第１の音声区間真偽値Ｖ１を示し、図８は第２の平滑化パワーＰ２（実線）を示し、図９は第２の音声区間真偽値Ｖ２を示している。なお、図７及び図９はそれぞれ、後述するように第１の音声区間判定部２０３及び第２の音声区間判定部３０３の両方でハングオーバー動作を採用し、第１の音声区間判定部２０３におけるハングオーバー時間Ｔｈｎ１が、第２の音声区間判定部３０３におけるハングオーバー時間Ｔｈｎ２より短い場合での信号波形図を示している。

図１において、第１の実施形態の音声区間検出装置１００への入力信号（図４参照）はパワー算出部１０１に与えられ、パワー算出部１０１において、入力信号のＴＰ秒間のパワーが算出され、得られた入力パワーＰｉｎ（図５参照）が第１の音声区間検出部１０２及び第２の音声区間検出部１０３に与えられる。

第１の音声区間検出部１０２には、入力パワーＰｉｎに加え、１単位時間前の第２の音声区間検出部１０３の検出結果である第２の音声区間真偽値Ｖ２（図９参照）が与えられる。第１の音声区間検出部１０２においては、入力パワーＰｉｎと１単位時間前の第２の音声区間真偽値Ｖ２とが適用されて、後述するような音声区間検出動作が実行され、得られた第１の音声区間真偽値Ｖ１（図７参照）が第２の音声区間検出部１０３に与えられる。

第２の音声区間検出部１０３には、入力パワーＰｉｎに加え、第１の音声区間検出部１０２の検出結果である第１の音声区間真偽値Ｖ１が与えられる。第２の音声区間検出部１０３においては、入力パワーＰｉｎと第１の音声区間真偽値Ｖ１とが適用されて、後述するような音声区間検出動作が実行され、得られた第２の音声区間真偽値Ｖ２が単位時間遅延部１０４を介して１単位時間だけ遅延されて第２の音声区間検出部１０３に与えられると共に、得られた第２の音声区間真偽値Ｖ２が、当該音声区間検出装置１００からの出力として、次段の装置に与えられる。

次に、第１の音声区間検出部１０２の動作を、図２を参照しながら説明する。

第１の平滑化部２０１においては、第１の音声区間参考真偽値Ｖｒ１（＝１単位時間前の第２の音声区間真偽値Ｖ２）に基づいて入力パワーＰｉｎが平滑化される。すなわち、第１の音声区間参考真偽値Ｖｒ１が偽値であるときには入力パワーＰｉｎが平滑化されて第１の平滑化パワーＰ１（図６参照）が更新され、一方、第１の音声区間参考真偽値Ｖｒ１が真値であるときには第１の平滑化パワーＰ１が更新されずにその直前の第１の平滑化パワーＰ１が維持される。

上述のようにして得られた第１の平滑化パワーＰ１が第１の閾値算出部２０２に与えられ、第１の閾値算出部２０２において、１以上の値をとる第１の係数Ｃ１が乗算される。そして、第１の音声区間判定部２０３において、乗算結果である第１の閾値ＴＨ１と、入力パワーＰｉｎとが比較され、入力パワーＰｉｎが第１の閾値ＴＨ１より大きいときに、真値の第１の音声区間真偽値Ｖ１が第１の音声区間判定部２０３から第２の音声区間検出部１０３へ出力され、入力パワーＰｉｎが第１の閾値ＴＨ１以下のときに、偽値の第１の音声区間真偽値Ｖ１が第１の音声区間判定部２０３から第２の音声区間検出部１０３へ出力される。

次に、第２の音声区間検出部１０３の動作を、図３を参照しながら説明する。

第２の平滑化部３０１においては、第２の音声区間参考真偽値Ｖｒ２（＝同一の単位時間での第１の音声区間真偽値Ｖ１）に基づいて入力パワーＰｉｎが平滑化される。すなわち、第２の音声区間参考真偽値Ｖｒ２が真値であるときには入力パワーＰｉｎが平滑化されて第２の平滑化パワーＰ２（図８参照）が更新され、一方、第２の音声区間参考真偽値Ｖｒ２が偽値であるときには第２の平滑化パワーＰ２が更新されずにその直前の第２の平滑化パワーＰ２が維持される。

上述のようにして得られた第２の平滑化パワーＰ２が第２の閾値算出部３０２に与えられ、第２の閾値算出部３０２において、０より大きく１以下の値をとる第２の係数Ｃ２が乗算される。そして、第２の音声区間判定部３０３において、乗算結果である第２の閾値ＴＨ２と、入力パワーＰｉｎとが比較され、入力パワーＰｉｎが第２の閾値ＴＨ２より大きいときに、真値の第２の音声区間真偽値Ｖ２が第２の音声区間判定部３０３から第１の音声区間検出部１０２及び次段の装置へ出力され、入力パワーＰｉｎが第２の閾値ＴＨ２以下のときに、偽値の第２の音声区間真偽値Ｖ２が第２の音声区間判定部３０３から第１の音声区間検出部１０２及び次段の装置へ出力される。

以上では、ハングオーバー動作を実行しないように説明したが、第１の音声区間判定部２０３及び第２の音声区間判定部３０３の少なくとも一方でハングオーバー動作を実行するようにしても良い。

以下、第１の音声区間判定部２０３及び第２の音声区間判定部３０３の少なくとも一方で実行されるハングオーバー動作について説明する。なお、ハングオーバー動作は、第１の音声区間判定部２０３及び第２の音声区間判定部３０３の両方で行っても良く、また、一方で行っても良い（但し、第１の音声区間判定部２０３及び第２の音声区間判定部３０３の両方でハングオーバー動作を実行しない実施形態も本発明の一つの実施形態となる）。

第１の音声区間判定部２０３におけるハングオーバー動作と第２の音声区間判定部３０３におけるハングオーバー動作とは、同様であるので、以下では、第１の音声区間判定部２０３におけるハングオーバー動作のみを説明し、第２の音声区間判定部３０３におけるハングオーバー動作の説明は省略する。

第１の音声区間判定部２０３に関し、最後に真値が出力されてからの第１の経過時間Ｔｅ１に対する所定のハングオーバー時間Ｔｈｎ１を予め定めておく。第１の音声区間判定部２０３は、第１の閾値ＴＨ１と入力パワーＰｉｎを比較した際、（ｉ）Ｐｉｎ＞ＴＨ１である場合には真値の第１の音声区間真偽値Ｖ１を出カすると共に第１の経過時間Ｔｅ１を０クリアし、（ii）Ｐｉｎ≦ＴＨ１且つＴｅ１≦Ｔｈｎ１である場合には真値の第１の音声区間真偽値Ｖ１を出カすると共に第１の経過時間Ｔｅ１を１単位時間分だけインクリメントし、（iii）Ｐｉｎ≦ＴＨ１且つＴｅ１＞Ｔｈｎ１である場合には偽値の第１の音声区間真偽値Ｖ１を出力する。

ここで、第１の音声区間判定部２０３及び第２の音声区間判定部３０３の両方でハングオーバー動作を行う場合において、第１の音声区間判定部２０３におけるハングオーバー時間Ｔｈｎ１と、第２の音声区間判定部３０３におけるハングオーバー時間Ｔｈｎ２とは同じであっても良く、また、異なっていても良い。以下では、異なるようにさせる例を説明する。第１の実施形態では、第１の音声区間真偽値Ｖ１は第２の音声区間検出部１０３において音声パワーの平均的な値の推定に用いられるので、雑音区間を誤って音声区間と判定させないために、第１の音声区間判定部２０３のハングオーバー時間Ｔｈｎ１は短めに設定される。逆に、第２の音声区間真偽値Ｖ２は第１の音声区間検出部１０２において雑音パワーの平均的な値の推定に用いられるので、音声区間を誤って雑音区間と判定させないために、第２の音声区間判定部３０３のハングオーバー時間Ｔｈｎ２は長めに設定される。例えば、第１の音声区間判定部２０３におけるハングオーバー時間Ｔｈｎ１を０．１秒とし、第２の音声区間判定部３０３におけるハングオーバー時間Ｔｈｎ２を０．２秒とする設定が好適である。

（Ａ−３）第１の実施形態の構成に至った考え方
次に、第１の実施形態の音声区間検出装置１００の構成に至った考え方（後述する実施形態も同様である）を説明する。

本来、音声区間を検出するためにはＳＮＲが必要であり（非特許文献１参照）、ＳＮＲの算出に必要な雑音パワーを推定するには音声区間か否かが既知でなければならない。従って、各推定及び検出が１回ずつしか行われない場合、それらは不正確な情報に基づいて行われることとなり、得られる結果も不正確となる。

発明者はこの矛盾点に注目し、各推定及び検出を２回繰り返すことで推定精度及び検出精度を向上させられると考えた。ここで、２回目の推定及び検出のために１回目の結果を利用し（フィードフォワード）、さらには１回目の推定及び検出のために直前に実施された２回目の結果を利用する（フィードバック）。

仮に、パラメータのフィードバックがない場合、１回目の推定及び検出は何ら事前情報を得ないまま実施されるため、粗い結果、若しくは精度の悪い結果しか得られない。２回目の推定及び検出によって多少の精度の改善はなされるが、１回目の結果の信頼性が低いため、その改善度合いは限定的となる。

一方、パラメータのフィードバックがある場合、１回目の推定及び検出は、事前情報として、１単位時間前に実施された精度の良い２回目の推定及び検出の結果を利用できる。該結果は１単位時間の遅延を有するほかは信頼に足る情報であるから、１回目の推定及び検出の結果も一定以上の精度を保つことができる。そして、２回目の推定及び検出によってその精度はさらに改善され、結果として高安定性と高精度を有する音声区間の検出結果を得ることができる。

またさらに、１回目は非音声区間の特徴に基づいた推定及び検出を行い、２回目は音声区間の特徴に基づいた推定及び検出を行うというように、１回目と２回目とでは異なる観点を持たせることで、それぞれの欠点を補い合うことができるので、より高い安定性と精度を得ることができる。

以上により、推定及び検出を２回行って、それぞれの結果をフィードフォワードし且つフィードバックする方法は、１回しか行わない方法やフィードバックを行わない方法に比して格段に推定精度を向上させることができる。さらに、２回の推定及び検出を、それぞれ異なる観点で行うことで、さらに推定精度を向上させることができる。

（Ａ−４）第１の実施形態の効果
第１の実施形態によれば、第１の音声区間検出部及び第２の音声区間検出部が互いのパラメータ（音声パワーの平均的な値の推定値（平滑化パワーＰ１）及び音声区間の検出結果、並びに、雑音パワーの平均的な値の推定値（平滑化パワーＰ２）及び音声区間の検出結果）の更新を補い合うことで、パラメータを安定に更新させることができ、精度の高い音声区間の検出結果を得ることができる。

（Ａ−５）第１の実施形態の変形実施形態
上述した第１の実施形態の説明では、第２の音声区間検出部１０３（言い換えると第２の音声区間判定部３０３）がハングオーバー動作をしても良く、また、ハングオーバー動作をしなくても良い旨を説明した。ハングオーバー動作を行う場合であれば、第１の音声区間検出部１０２にフィードバックされる音声区間真偽値も次段の装置に出力される音声区間真偽値もハングオーバー動作されたものとなり、ハングオーバー動作を行なわない場合であれば、第１の音声区間検出部１０２にフィードバックされる音声区間真偽値も次段の装置に出力される音声区間真偽値もハングオーバー動作がなされていないものとなる。

図１０は、第１の実施形態をハングオーバー面で変形した実施形態の音声区間検出装置１００Ａの構成を示すブロック図である。

この音声区間検出装置１００Ａにおいては、ハングオーバー動作を実行しない第２の音声区間検出部１０３（言い換えると第２の音声区間判定部３０３）に加えて、第２の音声区間検出部１０３から出力された第２の音声区間真偽値Ｖ２に対してハングオーバー動作を実行するハングオーバー部１０５が設けられている。第２の音声区間検出部１０３から出力された第２の音声区間真偽値Ｖ２は、単位時間遅延部１０４を介して第１の音声区間検出部１０２に与えられると共に、ハングオーバー部１０５を介して次段の装置に与えられる。

ハングオーバー部１０５には、自己が出力する音声区間真偽値Ｖ０に真値が設定されてからの経過時間Ｔｅ０に対する所定のハングオーバー時間Ｔｈｎ０を予め定めておく。ハングオーバー部１０５は、（ｉ）入力された第２の音声区間真偽値Ｖ２が真値である場合には真値の音声区間真偽値Ｖ０を出カすると共に経過時間Ｔｅ０を０クリアし、（ii）第２の音声区間真偽値Ｖ２が偽値で且つＴｅ０≦Ｔｈｎ０である場合には真値の音声区間真偽値Ｖ０を出カすると共に経過時間Ｔｅ０を１単位時間分だけインクリメントし、（iii）第２の音声区間真偽値Ｖ２が偽値で且つＴｅ０＞Ｔｈｎ０である場合には偽値の音声区間真偽値Ｖ０を出力する。ハングオーバー時間Ｔｈｎ０は、音声区間真偽値Ｖ０の用途によって最適な値は異なるが、例えば、音声認識に利用する場合であれば０．５秒が好適である。

（Ｂ）第２の実施形態
次に、本発明による目的音区間検出装置及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第２の実施形態の目的音区間検出装置は、目的音区間が音声区間である音声区間検出装置である。第２の実施形態の音声区間検出装置及びプログラムには、上述した第１の実施形態の雑音推定装置及びプログラムが要素技術として適用されているが、ＳＮＲ推定装置及びプログラムは適用されていない。

（Ｂ−１）第２の実施形態の構成
第２の実施形態の音声区間検出装置（以下、符号「１００Ｂ」を用いる）の全体構成も、上述した図１で表すことができる。但し、第１の音声区間検出部（以下、符号「１０２Ｂ」を用いる）及び第２の音声区間検出部（以下、符号「１０３Ｂ」を用いる）の詳細な構成が第１の実施形態と異なっている。そのため、以下では、主として、第１の音声区間検出部１０２Ｂ及び第２の音声区間検出部１０３Ｂの詳細構成を説明する。

図１１は、第２の実施形態における第１の音声区間検出部１０２Ｂの詳細構成を示すブロック図であり、上述した第１の実施形態に係る図２との同一、対応部分には同一、対応符号を付して示している。

図１１において、第１の音声区間検出部１０２Ｂは、第１の平滑化部２０１、第１の閾値算出部２０２Ｂ及び第１の音声区間判定部２０３を有する。第１の平滑化部２０１及び第１の音声区間判定部２０３は第１の実施形態のものと同様であるので、その機能説明は省略する。

第２の実施形態における第１の閾値算出部２０２Ｂは、第１の平滑化部２０１から出力された第１の平滑化パワーＰ１と、単位時間遅延部１０４を介して第２の音声区間検出部１０３Ｂから与えられた第１の参考平滑化パワーＰｒ１（＝１単位時間前の第２の平滑化パワーＰ２）とに基づいて、入力パワーＰｉｎと比較する第１の閾値ＴＨ１Ｂを形成して第１の音声区間判定部２０３に与えるものである。

第１の閾値ＴＨ１Ｂの形成に用いられる２つの値のうち、第１の平滑化パワーＰ１が雑音パワーの平均的な値を意味し、第１の参考平滑化パワーＰｒ１が１単位時間前の音声パワーの平均的な値を意味するので、第１の閾値ＴＨ１Ｂとして、第１の平滑化パワーＰ１及び第１の参考平滑化パワーＰｒ１の平均値を適用することが好ましい。平均値は相加平均（Ｐ１＋Ｐｒ１）／２であっても相乗平均（Ｐ１×Ｐｒ１）^１／２であっても良い。第１の閾値ＴＨ１Ｂとして平均値以外を適用する場合においては、第１の閾値ＴＨ１Ｂを、第１の平滑化パワーＰ１より大きく平均値より小さい値とし、第１の音声区間判定部２０３で雑音区間より音声区間と判定される機会を多くすることが好ましい。演算の容易性などから、第１の閾値ＴＨ１Ｂの値として相加平均（Ｐ１＋Ｐｒ１）／２が好適である。

第２の実施形態の場合、第１の音声区間検出部１０２Ｂは、第１の平滑化部２０１から出力された第１の平滑化パワーＰ１と第１の音声区間判定部２０３から出力された第１の音声区間真偽値Ｖ１とを含む第１のパラメータＦ１を第２の音声区間検出部１０３Ｂに与える。

図１２は、第２の実施形態における第２の音声区間検出部１０３Ｂの詳細構成を示すブロック図であり、上述した第１の実施形態に係る図３との同一、対応部分には同一、対応符号を付して示している。

図１２において、第２の音声区間検出部１０３Ｂは、第２の平滑化部３０１、第２の閾値算出部３０２Ｂ及び第２の音声区間判定部３０３を有する。第２の平滑化部３０１及び第２の音声区間判定部３０３は第１の実施形態のものと同様であるので、その機能説明は省略する。

第２の実施形態における第２の閾値算出部３０２Ｂは、第２の平滑化部３０１から出力された第２の平滑化パワーＰ２と、第１の音声区間検出部１０２Ｂから与えられた第２の参考平滑化パワーＰｒ２（＝同一単位時間の第１の平滑化パワーＰ１）とに基づいて、入力パワーＰｉｎと比較する第２の閾値ＴＨ２Ｂを形成して第２の音声区間判定部３０３に与えるものである。

第２の閾値ＴＨ２Ｂの形成に用いられる２つの値のうち、第２の平滑化パワーＰ２が音声パワーの平均的な値を意味し、第２の参考平滑化パワーＰｒ２が雑音パワーの平均的な値を意味するので、第２の閾値ＴＨ２Ｂとして、第２の平滑化パワーＰ２及び第２の参考平滑化パワーＰｒ２の平均値を適用することが好ましい。平均値は相加平均（Ｐ２＋Ｐｒ２）／２であっても相乗平均（Ｐ２×Ｐｒ２）^１／２であっても良い。第２の閾値ＴＨ２Ｂとして平均値以外を適用する場合においては、第２の閾値ＴＨ２Ｂを、第１の平滑化パワーＰ１より大きく平均値より小さい値とし、第２の音声区間判定部３０３で雑音区間より音声区間と判定される機会を多くすることが好ましい。演算の容易性などから、第２の閾値ＴＨ２Ｂの値として相加平均（Ｐ１＋Ｐｒ１）／２が好適である。

第２の実施形態の場合、第２の音声区間検出部１０３Ｂは、第２の平滑化部３０１から出力された第２の平滑化パワーＰ２と第２の音声区間判定部３０３から出力された第２の音声区間真偽値Ｖ２とを含む第２のパラメータＦ２を単位時間遅延部１０４を介して第１の音声区間検出部１０２Ｂに与えると共に、第２の音声区間判定部３０３から出力された第２の音声区間真偽値Ｖ２を次段の装置に与える。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の音声区間検出装置１００Ｂの動作を説明する。第２の実施形態の音声区間検出装置１００Ｂの全体動作も第１の実施形態の音声区間検出装置１００の全体動作と同様であるので全体動作の説明は省略し、以下では、第２の実施形態における第１の音声区間検出部１０２Ｂ及び第２の音声区間検出部１０３Ｂの動作を順に説明する。

図１３〜図１８は、第２の実施形態の音声区間検出装置１００Ｂにおける各部信号波形図である。なお、図１３〜図１８の各部信号が前提とする入力信号及び入力パワーＰｉｎの信号波形図は、上述した図４及び図５の通りである。図１３は第１の平滑化パワーＰ１（実線）を示し、図１４は第１の閾値ＴＨ１Ｂ（実線）を示し、図１５は第１の音声区間真偽値Ｖ１を示し、図１６は第２の平滑化パワーＰ２（実線）を示し、図１７は第２の閾値ＴＨ２Ｂ（実線）を示し、図１８は第２の音声区間真偽値Ｖ２を示している。

まず、第１の音声区間検出部１０２Ｂの動作を、図１１を参照しながら説明する。

第１の平滑化部２０１においては、第１の音声区間参考真偽値Ｖｒ１（＝１単位時間前の第２の音声区間真偽値Ｖ２；図１８参照）に基づいて入力パワーＰｉｎ（図５参照）が平滑化され、得られた第１の平滑化パワーＰ１（図１３参照）が第１の閾値算出部２０２Ｂに与えられる。第１の閾値算出部２０２Ｂには、１単位時間前の第２の平滑化パワーＰ２である第１の参考平滑化パワーＰｒ１（図１６参照）も与えられる。第１の閾値算出部２０２Ｂにおいては、第１の平滑化パワーＰ１と第１の参考平滑化パワーＰｒ１とに基づいて、入力パワーＰｉｎと比較される第１の閾値ＴＨ１Ｂ（図１４参照）が上述した方法により形成されて第１の音声区間判定部２０３に与えられる。そして、第１の音声区間判定部２０３において、第１の閾値ＴＨ１Ｂと、入力パワーＰｉｎとが比較され、入力パワーＰｉｎが第１の閾値ＴＨ１Ｂより大きいときに、真値の第１の音声区間真偽値Ｖ１（図１５参照）が形成され、入力パワーＰｉｎが第１の閾値ＴＨ１Ｂ以下のときに、偽値の第１の音声区間真偽値Ｖ１（図１５参照）が形成される。そして、第１の平滑化部２０１から出力された第１の平滑化パワーＰ１と第１の音声区間判定部２０３から出力された第１の音声区間真偽値Ｖ１とを含む第１のパラメータＦ１が第２の音声区間検出部１０３Ｂに与えられる。

次に、第２の音声区間検出部１０３Ｂの動作を、図１２を参照しながら説明する。

第２の平滑化部３０１においては、第２の音声区間参考真偽値Ｖｒ２（＝同一単位時間の第１の音声区間真偽値Ｖ１；図１５参照）に基づいて入力パワーＰｉｎ（図５参照）が平滑化され、得られた第２の平滑化パワーＰ２（図１６参照）が第２の閾値算出部３０２Ｂに与えられる。第２の閾値算出部３０２Ｂには、同一単位時間の第１の平滑化パワーＰ１である第２の参考平滑化パワーＰｒ２（図１３参照）も与えられる。第２の閾値算出部３０２Ｂにおいては、第２の平滑化パワーＰ２と第２の参考平滑化パワーＰｒ２とに基づいて、入力パワーＰｉｎと比較される第２の閾値ＴＨ２Ｂ（図１７参照）が上述した方法により形成されて第２の音声区間判定部３０３に与えられる。そして、第２の音声区間判定部３０３において、第２の閾値ＴＨ２Ｂと、入力パワーＰｉｎとが比較され、入力パワーＰｉｎが第２の閾値ＴＨ２Ｂより大きいときに、真値の第２の音声区間真偽値Ｖ２（図１８参照）が形成され、入力パワーＰｉｎが第２の閾値ＴＨ２Ｂ以下のときに、偽値の第２の音声区間真偽値Ｖ２（図１８参照）が形成される。そして、第２の平滑化部３０１から出力された第２の平滑化パワーＰ２と第２の音声区間判定部３０３から出力された第２の音声区間真偽値Ｖ２とを含む第２のパラメータＦ２が単位時間遅延部１０４を介して第１の音声区間検出部１０２Ｂに与えられると共に、第２の音声区間判定部３０３から出力された第２の音声区間真偽値Ｖ２が次段の装置に与えられる。

第２の実施形態においても、第１の実施形態と同様に、第１の音声区間判定部２０３及び第２の音声区間判定部３０３の少なくとも一方でハングオーバー動作を実行するようにしても良い。ハングオーバー動作を両方で行う場合において、第１の音声区間判定部２０３におけるハングオーバー時間と第２の音声区間判定部３０３におけるハングオーバー時間とが同じであっても良く、異なっていても良い。第２の実施形態においても、第１の音声区間判定部２０３におけるハングオーバー時間を０．１秒、第２の音声区間判定部３０３におけるハングオーバー時間を０．２秒とすることが好ましい態様である。

また、第１の実施形態と同様に、第２の実施形態についても、図１０に示したようなハングオーバー部１５を有する変形を行うことができる。このハングオーバー部１５におけるハングオーバー時間として０．５秒が好適である。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によっても、第１の音声区間検出部及び第２の音声区間検出部が互いのパラメータ（音声パワーの平均的な値の推定値（平滑化パワーＰ１）と雑音パワーの平均的な値の推定値（平滑化パワーＰ２））の更新を補い合うことで、パラメータを安定に更新させることができ、精度の高い音声区間の検出結果を得ることができる。

これに加え、第２の実施形態によれば、音声と雑音のパワーバランスが未知の場合や、このパワーバランスが時間的に変動する場合においても、入力パワーと比較される閾値を適切に更新でき、この点からも、精度の高い音声区間の検出結果を得ることができる。

（Ｃ）第３の実施形態
次に、本発明による目的音区間検出装置及びプログラムの第３の実施形態を、図面を参照しながら説明する。

第３の実施形態の目的音区間検出装置は、目的音区間が音声区間である音声区間検出装置である。第３の実施形態の音声区間検出装置及びプログラムには、上述した第１の実施形態の雑音推定装置及びプログラムと第３の実施形態のＳＮＲ推定装置及びプログラムとが要素技術として適用されている。

（Ｃ−１）第３の実施形態の構成
第３の実施形態の音声区間検出装置（以下、符号「１００Ｃ」を用いる）の全体構成も、上述した図１で表すことができる。但し、第１の音声区間検出部（以下、符号「１０２Ｃ」を用いる）及び第２の音声区間検出部（以下、符号「１０３Ｃ」を用いる）の詳細な構成などが第１の実施形態と異なっている。そのため、以下では、主として、第１の音声区間検出部１０２Ｃ及び第２の音声区間検出部１０３Ｃの詳細構成を説明する。

第１の実施形態及び第２の実施形態では、第１の音声区間検出部及び第２の音声区間検出部共に、入力パワーに基づいて音声区間か否かを判定していた。

この第３の実施形態では、第１の音声区間検出部１０２Ｃは、入力パワーＰｉｎに基づいて音声区間の検出を行うが、第２の音声区間検出部１０３Ｃは、ＳＮＲ（ここでは事後ＳＮＲ）を推定し、推定したＳＮＲに基づいて音声区間の検出を行う。

図１９は、第３の実施形態における第１の音声区間検出部１０２Ｃの詳細構成を示すブロック図であり、上述した第１の実施形態に係る図２との同一、対応部分には同一符号を付して示している。

第３の実施形態における第１の音声区間検出部１０２Ｃも、第１の実施形態と同様に、第１の平滑化部２０１、第１の閾値算出部２０２及び第１の音声区間判定部２０３を有する。第３の実施形態における第１の音声区間検出部１０２Ｃが、第１の実施形態のものと異なる点は、第１の平滑化部２０１から出力された第１の平滑化パワーＰ１及び第１の音声区間判定部２０３から出力された第１の音声区間真偽値Ｖ１を第１のパラメータＦ１として、単位時間遅延部１０４を介して、第２の音声区間検出部１０３Ｃに与える点である。

図２０は、第３の実施形態における第２の音声区間検出部１０３Ｃの詳細構成を示すブロック図であり、上述した第１の実施形態に係る図３との同一、対応部分には同一、対応符号を付して示している。

図２０において、第３の実施形態の第２の音声区間検出部１０３Ｃは、第２の平滑化部３０１Ｃ、第２の閾値算出部３０２Ｃ及び第２の音声区間判定部３０３Ｃに加え、ＳＮＲ算出部３０４を有する。

ＳＮＲ算出部３０４は、入力パワーＰｉｎ（ＳＮＲのＳに相当する）を、雑音パワーの推定値である第２の参考平滑化パワーＰｒ２（＝１単位時間前の第１の平滑化パワーＰ１；ＳＮＲのＲに相当する）で除してＳＮＲの推定値Ｒｉを得、得られたＳＮＲ推定値Ｒｉを第２の平滑化部３０１Ｃ及び第２の音声区間判定部３０３Ｃに与える。

第３の実施形態における第２の平滑化部３０１Ｃは、第１及び第２の実施形態のものと異なって入力パワーＰｉｎではなく、ＳＮＲ推定値Ｒｉを平滑化するものである。第２の平滑化部３０１Ｃは、第２の音声区間参考真偽値Ｖｒ２（＝１単位時間前の第１の音声区間真偽値Ｖ１）に基づいてＳＮＲ推定値Ｒｉを平滑化し、得られたＳＮＲ平滑化値Ｒｓを第２の閾値算出部３０２Ｃに与える。第２の平滑化部３０１Ｃは、第２の音声区間参考真偽値Ｖｒ２が真値（すなわち音声区間）であるときにはＳＮＲ推定値Ｒｉを平滑化してＳＮＲ平滑化値Ｒｓを更新し、第２の音声区間参考真偽値Ｖｒ２が偽値（すなわち雑音区間）であるときにはＳＮＲ平滑化値Ｒｓを更新しないで維持する。従って、ＳＮＲ平滑化値Ｒｓが意味するのは音声区間の平均的なＳＮＲである。なお、平滑化の方法は何ら限定されるものではない。例えば、時定数が０．８秒の時定数フィルタが好適である。

第３の実施形態における第２の閾値算出部３０２Ｃは、ＳＮＲ平滑化値Ｒｓが音声区間のＳＮＲを意味することから、ＳＮＲ平滑化値Ｒｓに、０より大きく１以下の定数値をとる第２の係数Ｃ２Ｃを乗じて、ＳＮＲ推定値Ｒｉと比較する第２の閾値ＴＨ２Ｃを形成して第２の音声区間判定部３０３Ｃに与えるものである。ＳＮＲ平滑化値Ｒｓに乗算することで、音声区間のＳＮＲ推定値と雑音区間のＳＮＲ推定値とを切り分けるための第２の閾値ＴＨ２Ｃを定める第２の係数Ｃ２Ｃの値は、限定されるものではないが、例えば、０．５を適用することができる。

第３の実施形態における音声区間判定部３０３Ｃは、ＳＮＲ推定値Ｒｉと第２の閾値ＴＨ２Ｃを比較して音声区間か否かを表す第２の音声区間真偽値Ｖ２を形成するものである。第２の音声区間判定部３０３Ｃは、ＳＮＲ推定値Ｒｉが第２の閾値ＴＨ２Ｃより大きければ第２の音声区間真偽値Ｖ２として真値を出力し、そうでなければ偽値を出力する。

（Ｃ−２）第３の実施形態の動作
次に、第３の実施形態の音声区間検出装置１００Ｃの動作を説明する。第３の実施形態の音声区間検出装置１００Ｃの全体動作も第１の実施形態の音声区間検出装置１００の全体動作と同様であるので全体動作の説明は省略する。また、第３の実施形態における第１の音声区間検出部１０２Ｃの動作も第１の実施形態における音声区間検出部１０２の動作と同様であるのでその動作説明は省略する。但し、第３の実施形態における第１の音声区間検出部１０２Ｃから、第１の平滑化パワーＰ１及び第１の音声区間真偽値Ｖ１を含む第１のパラメータＦ１が出力されるようになされている。以下では、第３の実施形態における第２の音声区間検出部１０３Ｃの動作を説明する。

図２０において、ＳＮＲ算出部３０４には、入力パワーＰｉｎと雑音パワーの推定値である第２の参考平滑化パワーＰｒ２（１単位時間前の第１の平滑化パワーＰ１）とが与えられ、入力パワーＰｉｎを第２の参考平滑化パワーＰｒ２で除してＳＮＲの推定値Ｒｉが得られ、得られたＳＮＲ推定値Ｒｉが第２の平滑化部３０１Ｃ及び第２の音声区間判定部３０３Ｃに与えられる。

ＳＮＲ推定値Ｒｉは第２の平滑化部３０１Ｃによって第２の音声区間参考真偽値Ｖｒ２（＝１単位時間前の第１の音声区間真偽値Ｖ１）が参照されて平滑化される。すなわち、第２の音声区間参考真偽値Ｖｒ２が真値（すなわち音声区間）であるときにはＳＮＲ推定値Ｒｉが平滑化されてＳＮＲ平滑化値Ｒｓが更新され、第２の音声区間参考真偽値Ｖｒ２が偽値（すなわち雑音区間）であるときにはＳＮＲ平滑化値Ｒｓが更新されないで維持され、このようにして得られたＳＮＲ平滑化値Ｒｓが第２の閾値算出部３０２Ｃに与えられる。そして、第２の閾値算出部３０２Ｃにおいて、ＳＮＲ平滑化値Ｒｓに、０より大きく１以下の定数値をとる第２の係数Ｃ２Ｃが乗算されて、ＳＮＲ推定値Ｒｉと比較される第２の閾値ＴＨ２Ｃが形成されて第２の音声区間判定部３０３Ｃに与えられる。

ＳＮＲ推定値Ｒｉと第２の閾値ＴＨ２Ｃとが第２の音声区間判定部３０３Ｃにおいて比較され、ＳＮＲ推定値Ｒｉが第２の閾値ＴＨ２Ｃより大きときに真値の第２の音声区間真偽値Ｖ２が出力され、ＳＮＲ推定値Ｒｉが第２の閾値ＴＨ２Ｃ以下のときに偽値の第２の音声区間真偽値Ｖ２が出力される。

第３の実施形態においても、第１の実施形態と同様に、第１の音声区間判定部２０３Ｃ及び第２の音声区間判定部３０３Ｃの少なくとも一方でハングオーバー動作を実行するようにしても良い。ハングオーバー動作を両方で行う場合において、第１の音声区間判定部２０３Ｃにおけるハングオーバー時間と第２の音声区間判定部３０３Ｃにおけるハングオーバー時間とが同じであっても良く、異なっていても良い。第３の実施形態においても、第１の音声区間判定部２０３Ｃにおけるハングオーバー時間を０．１秒、第２の音声区間判定部３０３Ｃにおけるハングオーバー時間を０．２秒とすることが好ましい態様である。

また、第１の実施形態と同様に、第３の実施形態についても、図１０に示したようなハングオーバー部１５を有する変形を行うことができる。このハングオーバー部１５におけるハングオーバー時間として０．５秒が好適である。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、第１の音声区間検出部及び第２の音声区間検出部が、入力信号のパワーに基づく推定及び判定と、入力信号におけるＳＮＲに基づく推定及び判定の、それぞれのパラメータと判定結果を使って互いに推定及び判定を行うので、精度の高い音声区間の検出結果を得ることができる。

（Ｃ−４）第３の実施形態の変形実施形態
上記では、第１の音声区間検出部が入力パワーに基づいて音声区間を検出し、第２の音声区間検出部がＳＮＲに基づいて音声区間を検出するものを説明したが、第１の音声区間検出部がＳＮＲに基づいて音声区間を検出し、第２の音声区間検出部が入力パワーに基づいて音声区間を検出するものであっても良く、また、第１の音声区間検出部も第２の音声区間検出部もＳＮＲに基づいて音声区間を検出するものであっても良い。

（Ｄ）他の実施形態
上記各実施形態の説明においても種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

上記各実施形態では、第１の音声区間検出部が第２の音声区間検出部の１単位時間前の検出結果が雑音区間を示しているときに所定の特徴量を更新すると共に、第２の音声区間検出部が第１の音声区間検出部の同一単位時間の検出結果が音声区間を示しているときに所定の特徴量を更新する場合を示したが、特徴量を更新する区間の組み合わせはこれに限定されるものではない。例えば、第１の音声区間検出部が音声区間で特徴量を更新し、第２の音声区間検出部が雑音区間で更新するようにしても良く、第１の音声区間検出部及び第２の音声区間検出部が共に雑音区間で更新するようにしても良く、第１の音声区間検出部及び第２の音声区間検出部が共に音声区間で更新するようにしても良い。更新区間の選定によっては、第１の音声区間検出部において、ＳＮＲに基づいた音声区間の検出を行っても良い。

上記各実施形態では、第２の音声区間検出部による音声区間の検出結果（第２の音声区間真偽値）を次段の装置に出力するものを示したが、次段の装置に出力する音声区間の検出結果はこれに限定されるものではない。例えば、第１の音声区間検出部による音声区間の検出結果（第１の音声区間真偽値）を次段の装置に出力するようにしても良く、第１の音声区間検出部による音声区間の検出結果と第２の音声区間検出部による音声区間の検出結果の論理積や論理和を次段の装置に出力するようにしても良い。

上記各実施形態では、次段の装置に２値の検出結果を出力するものを示したが、次段の装置に３値の検出結果（音声区間、雑音区間、どちらとも言えない区間）を出力するようにしても良い。例えば、入力パワーやＳＮＲ推定値と比較する閾値を２段にして３値の検出結果を得るようにすれば良い。また例えば、第１の音声区間検出部による音声区間の検出結果と第２の音声区間検出部による音声区間の検出結果とで異なる区間を、どちらとも言えない区間とするようにしても良い。

上記第１及び第２の実施形態では、第１の音声区間検出部及び第２の音声区間検出部が完全に別個の構成になっている場合を示したが、同一の音声区間検出部の主要部（平滑化部、閾値算出部、音声区間判定部）を１単位時間内に時分割で適用して、第１の音声区間検出部及び第２の音声区間検出部として機能させるようにしても良い。この場合には、第１の音声区間検出部として機能する際には、第２の音声区間検出部に関するデータ（例えば、第２の平滑化パワーＰ２や第２の係数Ｃ２等）を退避させ、第２の音声区間検出部として機能する際には、第１の音声区間検出部に関するデータ（例えば、第１の平滑化パワーＰ１や第１の係数Ｃ１等）を退避させるメモリなど、補助的な構成を設けることを要する。特許請求の範囲の表現はこのような同一構成を時分割で利用する場合を含むものとする。

上記各実施形態では、特徴量の平滑値に基づいて音声区間検出に用いる閾値を決定するものを示したが、他の方法によって閾値を決定するようにしても良い。例えば、雑音区間と判定された直前過去の所定期間（例えば３秒間；断続的に雑音区間が生じている場合には合算時間が３秒間）における入力パワーの最小値の所定倍を閾値とするようにしても良く、音声区間と判定された直前過去の所定期間（例えば３秒間）における入力パワーの最大値の所定倍を閾値とするようにしても良い。また、第３の実施形態のように特徴量としてＳＮＲを用いる場合であれば、音声区間と判定された直前過去の所定期間（例えば３秒間）におけるＳＮＲの最大値の所定倍を閾値とするようにしても良い。

上記各実施形態では、入力信号そのものを用いて音声区間を検出する場合を示したが、入力信号を周波数解析し、入力信号における一部の周波数帯域を用いて音声区間を検出するようにしても良く、また、入力信号の周波数帯域毎に上述した方法によって音声区間を検出し、全ての検出結果の統合（例えば、論理積、多数決、論理和）を行って最終的に出力する検出結果を得るようにしても良い。

上記各実施形態では、目的音区間として音声区間を検出する場合を示したが、本発明はこれに限定されるものではない。例えば、機械のモータ音がなっている区間を検出するような場合にも、本発明の技術思想を適用することができる。

１００、１００Ａ、１００Ｂ、１００Ｃ…音声区間検出装置（目的音区間検出装置）、１０１…パワー算出部、１０２、１０２Ｂ、１０２Ｃ…第１の音声区間検出部、１０３、１０３Ｂ、１０３Ｃ…第２の音声区間検出部、１０４…単位時間遅延部、１０５…ハングオーバー部、２０１…第１の平滑化部、２０２、２０２Ｂ…第１の閾値算出部、２０３…第１の音声区間判定部、３０１、３０１Ｃ…第２の平滑化部、３０２、３０２Ｂ、３０２Ｃ…第２の閾値算出部、３０３、３０３Ｃ…第２の音声区間判定部、３０４…ＳＮＲ算出部。

Claims

入力信号における目的音区間を検出する目的音区間検出装置において、
上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、
上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段とを備え、
上記第１の目的音区間検出手段は、上記第２の目的音区間検出手段が所定の単位時間前に出力した、第２の目的音区間の検出結果を少なくとも含む第２のパラメータを用いて上記第１の閾値を生成し、
上記第２の目的音区間検出手段は、上記第１の目的音区間検出手段が同一の単位時間で出力した、第１の目的音区間の検出結果を少なくとも含む第１のパラメータを用いて上記第２の閾値を生成する
ことを特徴とする目的音区間検出装置。
上記第１の目的音区間検出手段は、
所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、
上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、
上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、
上記第２の目的音区間検出手段は、
同一の単位時間の上記第１の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第２の入力パワーを平滑化して第２の平滑化パワーを算出する第２の平滑化部と、
上記第２の平滑化パワーを少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、
上記第２の入力パワーを上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有する
ことを特徴とする請求項１に記載の目的音区間検出装置。
上記第１の平滑化部は、所定の単位時間前の上記第２の目的音区間の検出結果が目的音区間でない場合に上記第１の入力パワーの平滑化を実行し、所定の単位時間前の上記第２の目的音区間の検出結果が目的音区間の場合に上記第１の入力パワーの平滑化を停止して上記第１の平滑化パワーを維持させ、
上記第２の平滑化部は、同一の単位時間の上記第１の目的音区間の検出結果が目的音区間の場合に上記第２の入力パワーの平滑化を実行し、同一の単位時間の上記第１の目的音区間の検出結果が目的音区間でない場合に上記第２の入力パワーの平滑化を停止して上記第２の平滑化パワーを維持させる
ことを特徴とする請求項２に記載の目的音区間検出装置。
上記第１の平滑化部及び上記第２の平滑化部は、一方が、自己に入力された目的音区間の検出結果が目的音区間である場合に平滑化を実行し、他方が、自己に入力された目的音区間の検出結果が目的音区間でない場合に平滑化を実行するものであり、
上記第１の閾値算出部は、上記第１の平滑化パワーと所定の単位時間前の上記第２の平滑化パワーを適用して、上記第１の閾値を算出し、
上記第２の閾値算出部は、同一単位時間の上記第１の平滑化パワー及び上記第２の平滑化パワーを適用して、上記第２の閾値を算出する
ことを特徴とする請求項２に記載の目的音区間検出装置。
上記第１の閾値算出部は、上記第１の平滑化パワーと所定の単位時間前の上記第２の平滑化パワーとの相加平均若しくは相乗平均を上記第１の閾値として算出することを特徴とする請求項４に記載の目的音区間検出装置。
上記第２の閾値算出部は、同一の単位時間の上記第１の平滑化パワーと上記第２の平滑化パワーとの相加平均若しくは相乗平均を上記第２の閾値として算出することを特徴とする請求項４又は５に記載の目的音区間検出装置。
上記第１の目的音区間検出手段は、
所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、
上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、
上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、
上記第２の目的音区間検出手段は、
同一の単位時間の上記第２の入力パワー及び上記第１の平滑化パワーに基づいてＳＮＲの推定値を算出するＳＮＲ算出部と、
同一の単位時間の上記第１の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記ＳＮＲ推定値を平滑化してＳＮＲの平滑値を算出する第２の平滑化部と、
上記ＳＮＲ平滑値を少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、
上記ＳＮＲ推定値を上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有する
ことを特徴とする請求項１に記載の目的音区間検出装置。
入力信号における目的音区間を検出する目的音区間検出装置において、
上記入力信号に対して周波数解析する周波数解析部と、
周波数解析で得られた複数の周波数帯域の信号のそれぞれにおける、目的音区間を検出する複数の帯域別目的音区間検出手段と、
上記各帯域別目的音区間検出手段における目的音区間の検出結果を統合する帯域別結果統合部とを有し、
上記各帯域別目的音区間検出手段として、それぞれ、請求項１に記載の目的音区間検出装置の構成を適用している
ことを特徴とする目的音区間検出装置。
入力信号における雑音パワーを推定する雑音推定装置において、
上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、
上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段とを備え、
上記第１の目的音区間検出手段は、
所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、
上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、
上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、
上記第２の目的音区間検出手段は、
同一の単位時間の上記第１の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第２の入力パワーを平滑化して第２の平滑化パワーを算出する第２の平滑化部と、
上記第２の平滑化パワーを少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、
上記第２の入力パワーを上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、
上記第１の平滑化部又は上記第２の平滑化部は、所定の単位時間前の上記第２の目的音区間の検出結果又は同一の単位時間の上記第１の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第１の平滑化パワー又は上記第２の平滑化パワーとして雑音パワーの推定値を得る
ことを特徴とする雑音推定装置。
入力信号におけるＳＮＲを推定するＳＮＲ推定装置において、
上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、
上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段とを備え、
上記第１の目的音区間検出手段は、
所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、
上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、
上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、
上記第２の目的音区間検出手段は、
同一の単位時間の上記第２の入力パワー及び上記第１の平滑化パワーに基づいてＳＮＲの推定値を算出するＳＮＲ算出部と、
同一の単位時間の上記第１の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記ＳＮＲ推定値を平滑化してＳＮＲの平滑値を算出する第２の平滑化部と、
上記ＳＮＲ平滑値を少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、
上記ＳＮＲ推定値を上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、
上記ＳＮＲ算出部からの上記ＳＮＲ推定値を上記入力信号におけるＳＮＲ推定値として得ることを特徴とするＳＮＲ推定装置。
入力信号における目的音区間を検出する目的音区間検出プログラムであって、
コンピュータを、
上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、
上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段として機能させるものであり、
上記第１の目的音区間検出手段は、上記第２の目的音区間検出手段が所定の単位時間前に出力した、第２の目的音区間の検出結果を少なくとも含む第２のパラメータを用いて上記第１の閾値を生成し、
上記第２の目的音区間検出手段は、上記第１の目的音区間検出手段が同一の単位時間で出力した、第１の目的音区間の検出結果を少なくとも含む第１のパラメータを用いて上記第２の閾値を生成する
ことを特徴とする目的音区間検出プログラム。
入力信号における雑音パワーを推定する雑音推定プログラムであって、
コンピュータを、
上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、
上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段として機能させるものであり、
上記第１の目的音区間検出手段は、
所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、
上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、
上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、
上記第２の目的音区間検出手段は、
同一の単位時間の上記第１の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第２の入力パワーを平滑化して第２の平滑化パワーを算出する第２の平滑化部と、
上記第２の平滑化パワーを少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、
上記第２の入力パワーを上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、
上記第１の平滑化部又は上記第２の平滑化部は、所定の単位時間前の上記第２の目的音区間の検出結果又は同一の単位時間の上記第１の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第１の平滑化パワー又は上記第２の平滑化パワーとして雑音パワーの推定値を得る
ことを特徴とする雑音推定プログラム。
入力信号におけるＳＮＲを推定するＳＮＲ推定プログラムであって、
コンピュータを、
上記入力信号について算出された第１の入力パワーに基づいた第１の特徴量と、内部で生成した第１の閾値とを比較して、上記入力信号における目的音区間を検出する第１の目的音区間検出手段と、
上記入力信号について算出された第２の入力パワーに基づいた第２の特徴量と、内部で生成した第２の閾値とを比較して、上記入力信号における目的音区間を検出する第２の目的音区間検出手段として機能させ、
上記第１の目的音区間検出手段は、
所定の単位時間前の上記第２の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１の平滑化部と、
上記第１の平滑化パワーを少なくとも適用して、上記第１の閾値を算出する第１の閾値算出部と、
上記第１の入力パワーを上記第１の特徴量として上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の目的音区間の検出結果を得る第１の目的音区間判定部とを有し、
上記第２の目的音区間検出手段は、
同一の単位時間の上記第２の入力パワー及び上記第１の平滑化パワーに基づいてＳＮＲの推定値を算出するＳＮＲ算出部と、
同一の単位時間の上記第１の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記ＳＮＲ推定値を平滑化してＳＮＲの平滑値を算出する第２の平滑化部と、
上記ＳＮＲ平滑値を少なくとも適用して、上記第２の閾値を算出する第２の閾値算出部と、
上記ＳＮＲ推定値を上記第２の特徴量として上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の目的音区間の検出結果を得る第２の目的音区間判定部とを有し、
上記ＳＮＲ算出部からの上記ＳＮＲ推定値を上記入力信号におけるＳＮＲ推定値として得ることを特徴とするＳＮＲ推定プログラム。