JP2016177176A

JP2016177176A - 音声処理装置、プログラム及び方法、並びに、交換装置

Info

Publication number: JP2016177176A
Application number: JP2015058103A
Authority: JP
Inventors: 石田　斉; Hitoshi Ishida; 斉石田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2016-10-06
Anticipated expiration: 2035-03-20
Also published as: JP6531449B2

Abstract

【課題】背景雑音のパワーが大きい環境でもより高い精度で有音検出を行う。
【解決手段】本発明は音声処理装置に関する。本発明の音声処理装置は、入力音声信号のレベル値を所定時間単位のフレーム毎に計算するレベル値計算手段と、レベル値計算手段で計算されたレベル値について、レベル値毎の出現頻度を計数する頻度計数手段と、レベル値毎の出現頻度から、背景雑音レベル値及び目的音信号レベル値を推定するレベル値推定手段と、背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて、入力音声信号について有音声区間又は無音区間を判定する判定処理を行う判定手段とを有することを特徴とする。
【選択図】図１

Description

この発明は、音声処理装置、プログラム及び方法、並びに、交換装置に関し、例えば、音声信号の有音区間と無音区間を判定する有音検出装置に適用し得る。

従来、電話機端末や交換機等の音声信号を処理する音声処理装置では、音声信号を処理する際、人（話者）が発話している有音区間と、発話していない無音区間を区別（識別）する有音検出の機能を用いた処理が行われる。従来、音声処理において有音検出の機能はＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）とも呼ばれる。従来の音声処理装置において、有音検出の機能は、例えば、ＡＧＣ（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ）やノイズサプレッサ、音声認識など、様々な音声信号処理で必要とされる。

従来の音声処理装置において、有音検出の機能を実現する最も簡単な方式は、単位時間あたりのパワーを調べる方法である。一般的に、有音区間ではパワーが強く、無音区間では弱い傾向にある。したがって、従来の音声処理装置では、単位時間あたりのパワーを求め、適当な閾値と比較することである程度の精度で有音／無音を判定することができる。ただし、無音区間の音声であっても、背景雑音が含まれるため、無音区間であるからといって、完全に無音な音声が捕捉されるわけではない。したがって、従来の音声処理装置において、単位時間あたりのパワーに基づいて有音／無音を判定する場合には、背景雑音のパワーよりも大きな値の閾値を設定する必要がある。しかしながら、音声を捕捉する環境によっては、背景雑音のパワーと信号（目的音の信号）のパワーは動的に変化する可能性がある。

上述のような問題に対応する従来技術としては、特許文献１、２の記載技術がある。特許文献１、２では、背景雑音の変化を推定し、その推定結果に基づいて有音／無音判定するための閾値を動的に変更している。また、特許文献１、２の記載技術では、単位時間あたりのパワーをある一定時間蓄積してヒストグラムで表し、統計的に背景雑音のパワーを推定している。

特公平１−１４５９９号公報特許第３２５５５８４号公報

しかしながら、特許文献１、２の記載技術では、Ｓ／Ｎの悪い環境では、有音／無音判定を行うための閾値が、信号のパワーより大きくなってしまい、正確な有音検出ができない場合がある。

以上のような問題に鑑みて、背景雑音のパワーが大きい環境でもより高い精度で有音検出を行うことができる音声処理装置、プログラム及び方法、並びに、交換装置が望まれている。

第１の本発明の音声処理装置は、（１）入力音声信号のレベル値を所定時間単位のフレーム毎に計算するレベル値計算手段と、（２）上記レベル値計算手段で計算されたレベル値について、レベル値毎の出現頻度を計数する頻度計数手段と、（３）レベル値毎の出現頻度から、背景雑音レベル値及び目的音信号レベル値を推定するレベル値推定手段と、（４）背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて、入力音声信号について有音声区間又は無音区間を判定する判定処理を行う判定手段とを有することを特徴とする。

第２の本発明の音声処理プログラムは、コンピュータを、（１）入力音声信号のレベル値を所定時間単位のフレーム毎に計算するレベル値計算手段と、（２）上記レベル値計算手段で計算されたレベル値について、レベル値毎の出現頻度を計数する頻度計数手段と、（３）レベル値毎の出現頻度から、背景雑音レベル値及び目的音信号レベル値を推定するレベル値推定手段と、（４）背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて、入力音声信号について有音声区間又は無音区間を判定する判定処理を行う判定手段として機能させることを特徴とする。

第３の本発明は、音声処理装置が行う音声処理方法において、（１）レベル値計算手段、頻度計数手段、レベル値推定手段、判定手段を有し、（２）上記レベル値計算手段は、入力音声信号のレベル値を所定時間単位のフレーム毎に計算し、（３）上記頻度計数手段は、上記レベル値計算手段で計算されたレベル値について、レベル値毎の出現頻度を計数し、（４）上記レベル値推定手段は、レベル値毎の出現頻度から、背景雑音レベル値及び目的音信号レベル値を推定し、（５）上記判定手段は、背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて、入力音声信号について有音声区間又は無音区間を判定する判定処理を行うことを特徴とする。

第４の本発明の交換装置は、（１）複数の端末間の音声通信を交換処理するものであって、上記端末に送信する音声信号又は上記端末から受信した音声信号のレベルを、所望のレベルに調整する交換処理手段を有し、（２）上記交換処理手段は、第１の本発明の音声処理装置を用いて、上記端末に送信する音声信号又は上記端末から受信した音声信号のレベルを、所望のレベルに調整することを特徴とする。

本発明によれば、背景雑音のパワーが大きい環境でもより高い精度で有音検出を行うことができる音声処理装置、プログラム及び方法、並びに、交換装置を実現できる。

第１の実施形態に係る音声処理装置（有音検出装置）の機能的構成について示したブロック図である。第１の実施形態に係る頻度計数部で保持されるヒストグラム（頻度分布）について示したグラフである。第１の実施形態に係る有音判定部で平滑化されたヒストグラムについて示したグラフである。第１の実施形態に係る有音判定部で数値化されたヒストグラムの凸性を示したグラフである。第２の実施形態に係る音声処理装置（話頭検出装置）の機能的構成について示したブロック図である。第３の実施形態に係る音声処理装置（背景雑音低減装置）の機能的構成について示したブロック図である。第４の実施形態に係る音声処理装置（適応ゲイン制御装置）の機能的構成について示したブロック図である。第５の実施形態に係る音声処理装置（ジッタバッファを備える音声処理装置）の機能的構成について示したブロック図である。第６の実施形態に係る交換装置の機能的構成について示したブロック図である。

（Ａ）第１の実施形態
以下、本発明による音声処理装置、プログラム及び方法の第１の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音声処理装置、プログラム及び方法を、有音検出装置に適用した例について説明する。

（Ａ−１）第１の実施形態の構成
図１は、この実施形態の有音検出装置１の全体構成を示すブロック図である。

有音検出装置１は、音声信号が入力されると、その音声信号について有音区間の検出を行い、その結果を出力する処理を行う。

有音検出装置１に入力される音声信号の形式（データ形式）については限定されないものであるが、例えば、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）形式等の種々のデータ形式を適用することができる。この実施形態では、有音検出装置１には、１０ｍｓｅｃ分のＰＣＭ形式の音声データが格納されたフレームが音声信号として入力されるものとする。すなわち、有音検出装置１には、入力音声信号としてフレーム単位の音声データが供給されるものとする。有音検出装置１に入力される音声信号（音声データ）のサンプリング周波数やビットレートは限定されないものである。この実施形態の例では、有音検出装置１には、サンプリング周波数８ｋＨｚ、１６ビットＰＣＭ、モノラルの音声データが入力されるものとして説明する。なお、有音検出装置１に、所定のコーデックで符号化された音声データ（例えば、ＩＴＵ−ＴＧ．７１１等の音声データ）が入力される場合には、復号処理を行う構成要素を追加するようにしてもよい。

また、有音検出装置１が出力する信号形式（データ形式）については限定されないものである。例えば、有音検出装置１は、有音区間を示す信号（例えば、「１」や「Ｔｒｕｅ」）と無音区間を示す信号「例えば、「０」や「Ｆａｌｓｅ」のいずれかを出力するようにしてもよい。

次に、有音検出装置１の内部構成について説明する。

有音検出装置１は、高域透過フィルタ（以下、「ＨＰＦ」と呼ぶ）１０、レベル算出部１１、頻度計数部１２、レベル推定部１３、及び有音判定部１４を有している。

ＨＰＳ１０は、入力された音声信号に含まれる低域（低周波数帯域）の成分（所定以下の周波数の成分）のパワーを減衰させるフィルタ処理を行うものである。背景雑音には、低域に比較的大きいパワーが含まれていることが多い。そのため、有音検出に先だって、ＨＰＳ１０で低域の成分を減衰させておくことで、有音検出に適用する音声信号のＳ／Ｎ比を改善できるという効果を奏する。ＨＰＳ１０で減衰させる周波数帯域については限定されないものである。ＨＰＳ１０では、例えば、３００Ｈｚ以下の成分を減衰させる処理を行うようにしてもよい。以下では、ＨＰＳ１０から出力される信号（低域成分が減衰された信号）を入力音声信号ｘとも呼ぶものとする。なお、有音検出装置１では、ＨＰＦ１０を搭載しない構成としてもよい。有音検出装置１にＨＰＦ１０が搭載されない場合、有音検出装置１に入力された音声信号（フレーム）自体が入力音声信号ｘとして処理されることになる。

レベル算出部１１は、入力音声信号ｘの音声レベル（パワーのレベル）を計算する。この実施形態のレベル算出部１１は、１フレームごとに当該フレームの音声レベルを算出する処理を行う。レベル算出部１１が行う音声レベル算出処理の具体例については後述する。

頻度計数部１２は、入力音声信号ｘにおけるレベル（パワー）の分布（頻度分布）を計数するものである。具体的には、頻度計数部１２は、入力音声信号ｘにおける各レベル（レベル算出部１１で計算されたレベル）の出現回数を、ヒストグラム（頻度分布）として保持する。この実施形態では、頻度計数部１２は、入力音声信号ｘのそれぞれのレベルに対応するカウンタを含むカウンタ部１２１を備えているものとする。図１では、カウンタ部１２１は、Ｎ＋１個のカウンタＣＴ（ＣＴ＿０〜ＣＴ＿Ｎ）（Ｎは任意の整数）を有するものとして図示している。頻度計数部１２は、レベル算出部１１で１つのレベルが算出されるごとに、カウンタ部１２１のうち、当該レベルに対応するカウンタＣＴをインクリメント（１加算）する処理を行う。カウンタ部１２１に含まれるカウンタＣＴの数や、対応するレベルの間隔等は限定されないものである。

この実施形態のカウンタ部１２１では、１[ｄＢ]ごとにカウンタＣＴが設定されているものとして説明する。例えば、カウンタＣＴ＿０がＭ[ｄＢ]（Ｍは任意の整数）に対応する場合を想定する。具体的には、カウンタＣＴ＿０、ＣＴ＿１、ＣＴ＿２、…、ＣＴ＿Ｎは、それぞれ、Ｍ[ｄＢ]、Ｍ＋１[ｄＢ]、Ｍ＋２[ｄＢ]、…、Ｍ＋Ｎ[ｄＢ]に対応（１[ｄＢ]刻みで対応）しているものとして説明する。すなわち、カウンタ部１２１ではＭ[ｄＢ]〜Ｍ＋Ｎ[ｄＢ]の範囲内のレベルについてヒストグラム（頻度分布）を保持することができる。この実施形態では、カウンタ部１２１は、１０[ｄＢ]〜７０[ｄＢ]の範囲で１[ｄＢ]刻みのヒストグラム（頻度分布）が保持できるものとして説明する。

以上のように、頻度計数部１２ではカウンタ部１２１に、入力音声信号ｘにおける各レベルの出現回数を計数したヒストグラムが保持されることになる。なお、以下では、カウンタ部１２１で保持されるヒストグラム（頻度分布）をヒストグラムＨと呼ぶものとする。また、以下では、任意のレベルｖに対応するカウンタＣＴのカウンタ値をＨ（ｖ）と表すものとする。

レベル推定部１３は、カウンタ部１２１に保持されるヒストグラムＨに基づいて、入力音声信号に含まれる背景雑音のレベル（以下、「背景雑音レベル」と呼ぶ）と、音声（すなわち目的音）のレベル（以下、「信号レベル」と呼ぶ）を推定する処理を行う。

有音判定部１４は、レベル推定部１３が推定した背景雑音レベルと信号レベルから、現在処理中のフレーム（最新に取得したフレーム）が有音区間か無音区間かを判定する処理を行う。そして、有音判定部１４は、その判定結果に応じた内容（有音区間を示す信号、又は無音区間を示す信号のいずれか）を出力する処理を行う。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の有音検出装置１の具体的動作（実施形態に係る音声処理方法）の例を説明する。

有音検出装置１では、１フレーム分の音声データが入力されると、まず、ＨＰＦ１０により、高域透過フィルタ処理（所定より低域の周波数成分のパワーを減衰させる処理）が行われる。ＨＰＦ１０は処理した音声信号（フレーム）を入力音声信号ｘとして出力する。

レベル算出部１１は、入力音声信号ｘのフレーム毎にパワーを算出する。レベル算出部１１は、例えば、１フレーム分の入力音声信号ｘのパワーを、対数変換することによりレベル算出を行うようにしてもよい。レベル算出部１１において、レベル算出する際に、基準点（０ｄＢ）となるパワーについて適宜設定するようにしてもよい。また、レベル算出部１１は、過去フレームの音声レベルとの移動平均に基づいて、今回のフレームに係るレベルを算出するようにしてもよい。これにより、レベル算出部１１では、フレーム間のレベルの細かな変動を抑えることが可能となる。

頻度計数部１２は、レベル算出部１１により算出されたレベルに対応するカウンタＣＴをインクリメントする。これにより、頻度計数部１２では、カウンタ部１２１で保持されるヒストグラムＨが更新されることになる。

このとき、頻度計数部１２は、レベル算出部１１で算出されたレベルを所定の方式で丸める処理を行うものとする。そして、頻度計数部１２は、丸めた値（レベル）に対応するカウンタＣＴをインクリメントする。この実施形態のカウンタ部１２１では、上述の通り、１ｄＢ幅でカウンタＣＴが設定されている。そこで、頻度計数部１２は、例えば、９．５ｄＢ以上１０．５ｄＢ未満のレベルについては、１０ｄＢに丸め、１０ｄＢに対応するカウンタＣＴをインクリメントする処理を行うようにしてもよい。

以上のように、頻度計数部１２のカウンタ部１２１では、１ｄＢ刻みで設定されたカウンタＣＴにより、ヒストグラムＨが保持される。

図２は、頻度計数部１２（カウンタ部１２１）で保持されるヒストグラムＨについて示したグラフである。図２に示すグラフは、実際に有音検出装置１に音声信号を入力した場合に、頻度計数部１２（カウンタ部１２１）で保持されたヒストグラムＨを示している。

図２のグラフでは、横軸が入力音声信号ｘのレベルを示しており、縦軸が各レベルの出現数（各レベルのカウンタＣＴの値）を示している。

有音判定部１４は、一定時間ごとに、カウンタ部１２１で保持されているヒストグラムＨに基づいて、入力音声信号ｘに含まれる背景雑音レベルと信号レベルとを推定する。さらに、有音判定部１４は、推定した背景雑音レベルと信号レベルに基づいて、有音判定に用いる閾値を求める。

有音判定部１４は、例えば、直近の所定時間分のフレーム（入力音声信号ｘのフレーム）に基づくヒストグラムＨを用いて閾値算出処理（閾値更新処理）を行う。有音判定部１４は、例えば、直近の１０ｓｅｃ分のフレーム（入力音声信号ｘのフレーム）に基づいて、閾値算出処理を行うようにしてもよい。有音判定部１４が閾値算出処理を行うタイミングについては限定されないものである。有音判定部１４は、例えば、所定の期間ごと（例えば、１０ｓｅｃの期間ごと）に有音判定を行うようにしてもよい。

なお、有音判定部１４が閾値算出処理を行うタイミングや、頻度計数部１２で保持するヒストグラムＨのサンプル数等については限定されないものである。例えば、有音判定部１４は、所定の期間ごとに閾値算出処理を行う際に、カウンタ部１２１の各カウンタＣＴを初期化（カウンタ値を０にリセット）する処理を行うようにしてもよい。

次に、有音判定部１４が背景雑音レベルと信号レベルとを推定する処理の例について説明する。

上述の通り、図２に示すグラフは、実際に有音検出装置１に音声信号を入力した場合に、頻度計数部１２（カウンタ部１２１）で保持されたヒストグラムＨを示している。そして、図２に示すヒストグラムＨにおいて、実際の信号レベルの分布（有音区間のレベルの分布）と背景雑音レベルの分布（無音区間のレベルの分布）を確認した。そうすると、図２のヒストグラムＨでは、レベルＢ１〜Ｂ２の範囲に、主として背景雑音レベルの分布により形成される第１のピークが確認できた。また、図２のヒストグラムＨでは、レベルＢ１〜Ｂ２の範囲よりも高いレベルＢ３〜Ｂ４の範囲に、主として信号レベル（有音区間のレベル）の分布により形成される第２のピークが確認できた。

以上のように、図２に示すヒストグラムＨでは、主として背景雑音レベルの分布により形成される第１のピーク（レベルＢ１〜Ｂ２の範囲のピーク）と、主として信号レベルの分布により形成される第２のピーク（第１のピークよりも高いレベルＢ３〜Ｂ４の範囲のピーク）が発生する。すなわち、図２に示すヒストグラムＨは、２つのピーク（双峰性）を備えるヒストグラムとなっている。

出願人による複数回の実験の結果、頻度計数部１２で保持されるヒストグラムＨにおいて、上述の２つのピークが発生することは、一般的に成り立つ（再現性がある）ことが明らかとなっている。

そこで、この実施形態の有音判定部１４は、主として背景雑音レベルの分布により形成される第１のピークと、主として信号レベルの分布により形成される第２のピークとを検出し、検出した２つのピークに基づいて有音判定を行うものとする。

次に、有音判定部１４による有音判定の具体的手順の例（上述の２つのピークに基づく有音判定の具体例）について説明する。

Ｈ（ｖ）により示される曲線には、細かな凹凸が含まれるので、有音判定部１４はこの凹凸を除去する目的で平滑化する処理を行う。Ｈ（ｖ）を平滑化する手法については限定されないものであるが、例えば、重み付け平均等の手法を用いるようにしてもよい。

具体的には、有音判定部１４は、以下の（１）式を用いてＨ（ｖ）の平滑化を行うようにしてもよい。以下の（１）式において、Ｈｓ（ｖ）は、Ｈ（ｖ）が平滑化された後の値を示している。有音判定部１４は、ヒストグラムＨを構成する全てのレベルのそれぞれについてＨｓ（ｖ）を求めることにより平滑化処理を行う。
Ｈｓ（ｖ）＝｛Ｈ（ｖ−２）＋２Ｈ（ｖ−１）＋３Ｈ（ｖ）
＋２Ｈ（ｖ＋１）＋Ｈ（ｖ＋２）｝／９ …（１）

図３は、有音判定部１４によるＨ（ｖ）の平滑化処理について示したグラフである。

図３では、Ｈ（ｖ）が平滑化処理される前のグラフ（曲線）を点線で図示し、Ｈ（ｖ）が平滑化処理された後のグラフ（曲線）を実線で図示している。

次に、有音判定部１４は、平滑化したＨｓ（ｖ）から、上述の２つのピークを検出するために、Ｈｓ（ｖ）の凸性を数値化する処理を行う。有音判定部１４において、Ｈｓ（ｖ）の凸性を数値化する具体的な手法は限定されないものである。この実施形態では、有音判定部１４は、差分化した二階微分値を用いてＨｓ（ｖ）の凸性を数値化するものとして説明する。具体的には、有音判定部１４は、以下の（２）式を用いて、Ｈｓ（ｖ）の凸性を数値化する処理を行う。以下の（２）式において、Ｃ（ｖ）はＨｓ（ｖ）の凸性を示す。有音判定部１４は、ヒストグラムＨを構成するレベルのそれぞれについてＣ（ｖ）を求めることにより凸性を数値化する。Ｃ（ｖ）が正の値の区間は、上方向（正の方向）に凸の形であることを示すことになる。

そして、有音判定部１４は、Ｃ（ｖ）が正である区間を１つのピークとみなし、全区間に渡ってピークの探索を行う。

上述の通り、ヒストグラムＨは、通常、主として背景雑音レベルの分布により形成される第１のピークと、主として信号レベルの分布により形成される第２のピーク（第１のピークよりも高いレベルのピーク）が発生する双峰性の分布となる。したがって、有音判定部１４は、通常、ヒストグラムＨ（Ｈｓ（ｖ））の凸性に基づいて２つのピークを検出することができる。そして、有音判定部１４は、検出した２つのピークのうち、レベルの低い方のピークを背景雑音レベルに係る第１のピークと見なし、レベルの高い方のピークを信号レベルに係る第２のピークと見なすものとする。なお、有音判定部１４は、１つのピークしか見つけられない場合は、当該ピークを背景雑音レベルに係るピークと見なすようにしてもよい。また、有音判定部１４は、３つ以上のピークを検出した場合、区間の広いもの（Ｃ（ｖ）が正である区間が広いもの）から順に２つを選択して、レベルの低い方のピークを背景雑音レベルに係る第１のピークと見なし、レベルの高い方のピークを信号レベルに係る第２のピークとみなすようにしてもよい。
Ｃ（ｖ）＝Ｈｓ（ｖ）−
｛Ｈｓ（ｖ−１０）＋Ｈｓ（ｖ＋１０）｝／２…（２）

図４は、図３に示すＨｓ（ｖ）の各レベルにおける凸性を数値化（上記の（２）式に基づいて数値化）した場合のグラフである。図４では、Ｈｓ（ｖ）の凸性を数値化したグラフ（曲線）を実線で図示し、Ｈｓ（ｖ）を示すグラフを点線で図示している。

図４に示すグラフでは、Ｃ（ｖ）が正の値となる区間（ピーク）が２つ形成されている。したがって、有音判定部１４は、この２つのピークのうち、レベルの低い方のピークを背景雑音レベルに係る第１のピークと見なし、レベルの高い方のピークを信号レベルに係る第２のピークと見なすことになる。以下では、背景雑音レベルに係る第１のピークの区間（第１のピークを含む区間）をピーク区間ＰＮと呼ぶものとする。また、以下では、信号レベルに係る第２のピークの区間（第２のピークを含む区間）をピーク区間ＰＳと呼ぶものとする。

なお、図４に示すように、背景雑音レベルに係るピーク区間ＰＮは、信号レベルに係るピーク区間ＰＳよりも狭くなる傾向にある。したがって、背景雑音レベルに係る第１のピークに係る分布より、信号レベルに係る第２のピークに係る分布の方が分散が大きくなる傾向にあると言える。

次に、有音判定部１４は、ピーク区間ＰＮ、ＰＳのそれぞれについて、区間内の代表値（有音判定に適用する値）を決定する。有音判定部１４が各ピーク区間の代表値を決定する手法については限定されないものである。この実施形態では、有音判定部１４は、重心法を用いて各ピーク区間の代表値を決定するものとする。例えば、有音判定部１４は、以下の（３）式に基づいてピーク区間ＰＮの代表値を決定するようにしてもよい。以下の（３）式において、ＬｖＮは、ピーク区間ＰＮの代表値（背景雑音レベルの推定値）である。また、例えば、有音判定部１４は、以下の（４）式に基づいてピーク区間ＰＳの代表値を決定するようにしてもよい。以下の（４）式において、ＬｖＳは、ピーク区間ＰＳの代表値（信号レベルの推定値）である。
ＬｖＮ＝ΣｖＨ（ｖ）／ΣＨ（ｖ）（ｖ∈ＰＮ） …（３）
ＬｖＳ＝ΣｖＨ（ｖ）／ΣＨ（ｖ）（ｖ∈ＰＳ） …（４）

次に、有音判定部１４が推定した背景雑音レベルＬｖＮと信号レベルＬｖＳとに基づいて閾値を決定する処理について説明する。

有音判定部１４は、背景雑音レベルの推定値ＬｖＮ、及び信号レベルの推定値ＬｖＳを用いて、現在の処理フレームが有音区間か無音区間かを判定する。ここでは、有音判定部１４は、背景雑音レベルの推定値ＬｖＮ、及び信号レベルの推定値ＬｖＳを用いて、現在の処理フレームのフレームレベルＬｖと比較するための閾値ＬｖＴｈを求める。ここでは、有音判定部１４は、以下の（５）式を用いて、閾値ＬｖＴｈを求めるものとする。以下の（５）式においてαは０から１の間（０≦α≦１）で任意の値に設定される係数である。αは、例えば、固定的（静的）な値（例えば、０．５程度の値）としてもよいが、動的に変動させるようにしてもよい。

なお、有音判定部１４は、ヒストグラムＨから１つのピークしか見つけられなかった場合は、背景雑音レベルの推定値ＬｖＮのみ最新のヒストグラムＨに基づく値に更新し、信号レベルの推定値ＬｖＳについては前回算出したものを継続して用い、閾値ＬｖＴｈを求めるようにしてもよい。
ＬｖＴｈ＝αＬｖＮ＋（１−α）ＬｖＳ …（５）

この実施形態の例では、有音判定部１４は、現在処理している音声フレーム（例えば、最新に入力された音声フレーム）のフレームレベルＬｖと、閾値ＬｖＴｈを比較し、当該音声フレームの有音判定（有音区間に属する音声フレームか、無音区間に属する音声フレームかを判定）する処理を行う。具体的には、有音判定部１４は、Ｌｖ＞＝ＬｖＴｈであれば当該音声フレームは有音区間に属し、Ｌｖ＜ＬｖＴｈであれば当該音声フレームは無音区間に属すると判定するものとする。

（Ａ−３）第１の実施形態の効果
第１の実施形態実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の有音検出装置１では、ヒストグラムＨから、主として背景雑音レベルの分布により形成される第１のピークの区間と、主として信号レベルの分布により形成される第２のピークの区間を検出し、背景雑音レベルと信号レベルとを推定する処理を行っている。そして、第１の実施形態の有音検出装置１では、背景雑音レベルと信号レベルの両方を用いて、有音判定に用いる閾値を推定している。従来技術では、背景雑音レベルのみを推定するため、Ｓ／Ｎ比が悪い状態では、適切な閾値を設定することができない場合があった。しかしながら、第１の実施形態の有音検出装置１では、ヒストグラムＨから、背景雑音レベルと信号レベルの両方を推定して、適切な閾値を設定するため、Ｓ／Ｎ比が悪い状態であっても、従来より適切な閾値設定を行うことが可能となる。すなわち、第１の実施形態の有音検出装置１では、従来よりも安定的に有音検出を行うことができる。

（Ｂ）第２の実施形態
以下、本発明による音声処理装置、プログラム及び方法の第２の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音声処理装置、プログラム及び方法を、話頭検出装置に適用した例について説明する。

図５は、本発明の話頭検出装置１００の機能的構成について示した説明図である。

話頭検出装置１００は、入力された音声信号から話頭（音声の開始時点）を検出する装置（話頭検出手段の機能を担う装置）である。話頭検出装置１００は、例えば、プロセッサ及びメモリを備えるコンピュータ上にプログラム（実施形態に係る音声処理プログラムを含む）をインストールしてソフトウェアとして実現するようにしてもよい。話頭検出装置１００は、例えば、電話端末等の音声処理を行う装置に組み込むようにしてもよい。

話頭検出装置１００は、有音検出部１０１及び話頭検出部１０２を有している。

有音検出部１０１は、入力された音声信号について有音検出するものである。この実施形態では、有音検出部１０１として、第１の実施形態の有音検出装置１を適用しているものとする。有音検出部１０１は、入力された音声信号に基づいて、所定期間ごとに有音判定又は無音判定を出力する。

話頭検出部１０２は、有音検出部１０１の検出結果に基づいて、入力された音声信号の話頭を検出するものである。話頭検出部１０２は、有音検出部１０１の判定結果が無音判定から有音判定に遷移したタイミングにも話頭を検出したことを示す検出信号を出力し、それ以外のタイミングでは話頭を検出していないことを示す非検出信号を出力する。

（Ｃ）第３の実施形態
以下、本発明による音声処理装置、プログラム及び方法の第３の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音声処理装置、プログラム及び方法を、背景雑音低減装置（ノイズサプレッサ）に適用した例について説明する。

図６は、本発明の背景雑音低減装置２００の機能的構成について示した説明図である。

背景雑音低減装置２００は、入力された音声信号について、無音区間で音声レベルを下げて出力することで背景雑音を低減する装置（背景雑音低減手段の機能を担う装置）である。背景雑音低減装置２００は、例えば、プロセッサ及びメモリを備えるコンピュータ上にプログラム（実施形態に係る音声処理プログラムを含む）をインストールしてソフトウェアとして実現するようにしてもよい。背景雑音低減装置２００は、例えば、電話端末等の音声処理を行う装置に組み込むようにしてもよい。

背景雑音低減装置２００は、有音検出部２０１、音声フレームバッファ２０２、有音／無音判定バッファ２０３、判定書換部２０４、及びゲイン重畳部２０５を有している。

有音検出部２０１は、入力された音声信号について有音検出するものである。この実施形態では、有音検出部２０１として、第１の実施形態の有音検出装置１を適用しているものとする。有音検出部２０１は、入力された音声信号に基づいて、所定期間ごとに有音判定又は無音判定を出力する。

音声フレームバッファ２０２は、入力音声信号のフレームを一定時間分バッファリングする。

有音／無音判定バッファ２０３は、有音検出部２０１の判定結果を一定期間分バッファリングする。

判定書換部２０４は、有音／無音判定バッファ２０３にバッファリングされている有音／無音判定の判定結果を参照し、無音判定から有音判定への変化を検知した場合に、有音／無音判定バッファ２０３に蓄積された有音／無音判定の判定結果について、過去の一定時間を遡り、無音判定を有音判定に書き換える処理を行う。判定書換部２０４は、背景雑音低減装置２００が出力する音声信号での話頭切れを防止する目的で配置されている。

ゲイン重畳部２０５は、有音／無音判定バッファ２０３から任意の音声フレーム（例えば、最も古い音声フレーム）を取得して出力する。ゲイン重畳部２０５は、フレームを出力する際に、当該フレームに対応する有音／無音判定の判定結果を参照（有音／無音判定バッファ２０３に蓄積された判定結果を参照）し、当該フレームが無音区間のフレームである場合に、当該フレームの音声レベルを下げる処理（ゲインを調整する処理）を行ってから出力する。ゲイン重畳部２０５は、有音区間のフレームについてはそのまま出力する処理を行う。

（Ｄ）第４の実施形態
以下、本発明による音声処理装置、プログラム及び方法の第４の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音声処理装置、プログラム及び方法を、適応ゲイン制御装置（ＡＧＣ）に適用した例について説明する。

図７は、第４の実施形態の適応ゲイン制御装置３００の機能的構成について示した説明図である。

適応ゲイン制御装置３００は、入力された音声信号について、所望の音声レベル（予め設定された一定のレベル）に調整して出力する装置（ゲイン制御手段の機能を担う装置）である。適応ゲイン制御装置３００は、例えば、プロセッサ及びメモリを備えるコンピュータ上にプログラム（実施形態に係る音声処理プログラムを含む）をインストールしてソフトウェアとして実現するようにしてもよい。適応ゲイン制御装置３００は、例えば、電話端末等の音声処理を行う装置に組み込むようにしてもよい。

適応ゲイン制御装置３００は、有音検出部３０１、レベル算出部３０２、ゲイン決定部３０３、及びゲイン重畳部３０４を有している。

有音検出部３０１は、入力された音声信号について有音検出するものである。この実施形態では、有音検出部３０１として、第１の実施形態の有音検出装置１を適用しているものとする。有音検出部３０１は、入力された音声信号に基づいて、所定期間ごとに有音判定又は無音判定を出力する。

レベル算出部３０２は、入力信号のレベルを算出する。

ゲイン決定部３０３は、レベル算出部３０２で算出された入力信号のレベルに基づき重畳すべきゲインを決定するも。また、ゲイン決定部３０３は、有音検出部３０１の検出結果（有音／無音判定の結果）を考慮して、入力信号に重畳すべきゲイン（入力信号を所望のレベルとするためのゲイン）を決定する。例えば、ゲイン決定部３０３は、無音区間（有音検出部３０１で無音判定が検出されている区間）で、背景雑音を増幅しないゲインを決定する処理を行う。

ゲイン重畳部３０４は、入力信号にゲイン決定部３０３で決定されたゲインを重畳して出力する。ゲイン重畳部３０４が出力する音声信号のレベルは、予め設定された所望のレベルとなる。

（Ｅ）第５の実施形態
以下、本発明による音声処理装置、プログラム及び方法の第５の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音声処理装置、プログラム及び方法を、ジッタバッファを備える音声処理装置に適用した例について説明する。

音声処理装置４００は、例えば、プロセッサ及びメモリを備えるコンピュータ上にプログラム（実施形態に係る音声処理プログラムを含む）をインストールしてソフトウェアとして実現するようにしてもよい。音声処理装置４００は、例えば、電話端末等の音声処理を行う装置に組み込むようにしてもよい。

図８は、第５の実施形態の音声処理装置４００の機能的構成について示した説明図である。

音声処理装置４００は、有音検出部４０１、ジッタバッファ４０２及びＰＣＭ復号手段４０３を有している。

ジッタバッファ４０２は、ＩＰネットワークＮを介して到達する音声パケット（音声フレームが挿入されたパケット）をジッタバッファ４０２により保留（バッファリング）してジッタ（ゆらぎ）を吸収し、一定間隔で保留した音声パケットを出力するものである。ジッタバッファ４０２は、音声パケットを格納（保留）する格納バッファ４０２ａ、及び格納バッファ４０２ａの音声パケットの処理（例えば、廃棄等）を制御するジッタバッファ制御手段４０２ｂを有している。

なお、この実施形態では、ジッタバッファ４０２には、ＲＴＰ（Ｒｅａｌ−ＴｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）の形式の音声パケットが入力されるものとして説明する。

ジッタバッファ４０２（格納バッファ４０２ａ）は、ＩＰネットワークＮから到達する音声パケット（ＲＴＰ形式のパケット）中のシーケンス番号を読み取り、音声パケットをシーケンス番号の小さい順に蓄積する。また、ジッタバッファ４０２（格納バッファ４０２ａ）は、シーケンス番号の小さい順に蓄積した音声パケットを出力する。

ジッタバッファ制御手段４０２ｂは格納バッファ４０２ａ内に蓄積された音声パケットの量（数）がある閾値以上の場合に、一部の音声パケットを破棄させて蓄積量を削減する処理を行う。

ＰＣＭ復号手段４０３は格納バッファ４０２ａから供給された音声パケットのペイロード（符号化された音声データ）を復号する処理を行う。ＰＣＭ復号手段４０３は、例えば、ＩＴＵ−ＴＧ．７１１等の所定のコーデックに従って、音声パケットのペイロードを復号し、復号した音声データ（例えば、ＰＣＭ形式の音声データのフレーム）を取得する。

有音検出部４０１は、入力された音声信号（ＰＣＭ復号手段４０３から出力される音声データのフレーム）について有音検出するものである。この実施形態では、有音検出部４０１として、第１の実施形態の有音検出装置１を適用しているものとする。有音検出部４０１は、入力された音声信号に基づいて、所定期間ごとに有音判定又は無音判定を出力する。

ジッタバッファ制御手段４０２ｂは、有音検出部４０１の判定結果を考慮して、格納バッファ４０２ａの音声パケットを破棄するか否かの判断（音声パケットを破棄する処理タイミングの判断）を行う。例えば、ジッタバッファ制御手段４０２ｂは、有音検出部４０１が無音判定を出力している間のみ、格納バッファ４０２ａの音声パケットを廃棄すると決定可能とするようにしてもよい。これにより、ジッタバッファ４０２では、音声パケット破棄に伴う音声への影響（例えば、復号側での復号音声の劣化等）を抑制することができる。

（Ｆ）第６の実施形態
以下、本発明による音声処理装置、プログラム及び方法、並びに交換装置の第６の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音声処理装置、プログラム及び方法を、交換装置に適用した例について説明する。

図９は、第６の実施形態の交換装置５００の機能的構成について示した説明図である。

交換装置５００は、ＩＰネットワークＮを介して複数のＩＰ電話端末６００と接続し、ＩＰ電話端末６００間の呼制御処理やメディア通信処理（音声データ等のメディアデータの処理）等を行う装置（いわゆるＩＰ−ＰＢＸの機能を担う装置）である。

交換装置５００は、例えば、プロセッサ及びメモリを備えるコンピュータ上にプログラム（実施形態に係る音声処理プログラムを含む）をインストールしてソフトウェアとして実現するようにしてもよい。

この実施形態の例では、交換装置５００は、呼制御部５０１及びメディア処理部５０２を有している。言い換えると、交換装置５００は、交換処理手段を実現する構成要素として呼制御部５０１及びメディア処理部５０２を有している。なお、交換装置５００における交換方式（呼制御処理方式やメディアデータの処理方式等）については限定されないものである。

呼制御部５０１は、ＩＰ電話端末６００間の呼制御処理を行う。呼制御部５０１は、例えばＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）等の呼制御プロトコルに従って呼制御処理を行う。

メディア処理部５０２は、ＩＰ電話端末６００との間でメディア通信処理（音声データ等のメディアデータの処理）を行うものである。メディア処理部５０２は、ＩＰ電話端末６００から音声データ（音声パケット）を受信して処理し、他のＩＰ電話端末６００へ送信する処理等を行う。メディア処理部５０２は、適応ゲイン制御部５０３を有している。適応ゲイン制御部５０３は、ＩＰ電話端末６００から受信した音声パケットに基づく音声信号（音声データ）又は、ＩＰ電話端末６００へ送信する音声パケットに挿入する音声信号（音声データ）について、所望の音声レベル（予め設定された一定のレベル）に調整する処理を行う。この実施形態では、適応ゲイン制御部５０３として、第３の実施形態の適応ゲイン制御装置３００を適用しているものとする。すなわち、交換装置５００は、第３の実施形態の適応ゲイン制御装置３００を用いて、送信又は受信する音声信号の処理を行っている。

（Ｇ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｇ−１）本発明の音声処理装置（第１の実施形態の有音検出装置）は、上記の各実施形態で例示した各装置以外のその他の音声処理装置（例えば、電話端末、会議端末、音声録音装置等）に対しても適用可能である。

（Ｇ−２）第１の実施形態の有音判定部１４において、フレームレベルＬｖが閾値ＬｖＴｈに近い場合、有音判定と無音判定が短時間に交互に入れ替わる状態（いわゆるフラッピング状態）となる可能性がある。そこで、有音判定部１４は、上述のような状態を防ぐために、あるフレームが有音区間と判定された場合、それ以降の一定時間のフレームは必ず有音区間と判定する処理（いわゆる「ハングオーバ機能」の処理）を行うようにしてもよい。上述の一定時間としては、例えば５００ｍｓｅｃ程度の時間を適用するようにしてもよい。

１…有音検出装置（音声処理装置）、１０…ＨＰＦ、１１…レベル算出部、１２…頻度計数部、１２…１カウンタ部、１３…レベル推定部、１４…有音判定部。

Claims

入力音声信号のレベル値を所定時間単位のフレーム毎に計算するレベル値計算手段と、
上記レベル値計算手段で計算されたレベル値について、レベル値毎の出現頻度を計数する頻度計数手段と、
レベル値毎の出現頻度から、背景雑音レベル値及び目的音信号レベル値を推定するレベル値推定手段と、
背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて、入力音声信号について有音声区間又は無音区間を判定する判定処理を行う判定手段と
を有することを特徴とする音声処理装置。
上記判定手段は、背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて閾値を算出し、算出した閾値を用いて上記判定処理を行うことを特徴とする請求項１に記載の音声処理装置。
上記レベル値推定手段は、レベル値毎の出現頻度において２つの出現頻度のピークの区間を検出し、２つの区間のうち低レベルの第１の区間の出現頻度に基づいて背景雑音レベル値を推定し、２つの区間のうち高レベルの第２の区間の出現頻度に基づいて、目的音信号レベル値を推定することを特徴とする請求項１又は２に記載の音声処理装置。
上記判定手段の判定結果を利用して、上記入力音声信号における話頭を検出する話頭検出手段をさらに有することを特徴とする請求項１〜３のいずれかに記載の音声処理装置。
上記判定手段の判定結果を利用して、上記入力音声信号から背景雑音を低減させる背景雑音低減手段をさらに有することを特徴とする請求項１〜３のいずれかに記載の音声処理装置。
上記判定手段の判定結果を考慮して、上記入力音声信号のレベルを所望のレベルに調整する処理を行うゲイン制御手段をさらに有することを特徴とする請求項１〜３のいずれかに記載の音声処理装置。
上記入力音声信号は、ネットワークからフレーム単位で到来し、
上記ネットワークから到来するフレームを保留し、所定の間隔でフレームを出力するジッタバッファと、
上記ジッタバッファを制御するものであって、上記判定手段の判定結果を考慮したタイミングで、上記ジッタバッファに保留されているフレームを破棄させる処理を行うジッタバッファ制御手段とをさらに有する
ことを特徴とする請求項１〜３のいずれかに記載の音声処理装置。
複数の端末間の音声通信を交換処理するものであって、上記端末に送信する音声信号又は上記端末から受信した音声信号のレベルを、所望のレベルに調整する交換処理手段を有し、
上記交換処理手段は、請求項６に記載の音声処理装置を用いて、上記端末に送信する音声信号又は上記端末から受信した音声信号のレベルを、所望のレベルに調整する
ことを特徴とする交換装置。
コンピュータを、
入力音声信号のレベル値を所定時間単位のフレーム毎に計算するレベル値計算手段と、
上記レベル値計算手段で計算されたレベル値について、レベル値毎の出現頻度を計数する頻度計数手段と、
レベル値毎の出現頻度から、背景雑音レベル値及び目的音信号レベル値を推定するレベル値推定手段と、
背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて、入力音声信号について有音声区間又は無音区間を判定する判定処理を行う判定手段と
して機能させることを特徴とする音声処理プログラム。
音声処理装置が行う音声処理方法において、
レベル値計算手段、頻度計数手段、レベル値推定手段、判定手段を有し、
上記レベル値計算手段は、入力音声信号のレベル値を所定時間単位のフレーム毎に計算し、
上記頻度計数手段は、上記レベル値計算手段で計算されたレベル値について、レベル値毎の出現頻度を計数し、
上記レベル値推定手段は、レベル値毎の出現頻度から、背景雑音レベル値及び目的音信号レベル値を推定し、
上記判定手段は、背景雑音レベル値の推定値及び目的音信号レベル値の推定値に基づいて、入力音声信号について有音声区間又は無音区間を判定する判定処理を行う
ことを特徴とする音声処理方法。