JP2016191788A

JP2016191788A - 音響処理装置、音響処理方法、及び、プログラム

Info

Publication number: JP2016191788A
Application number: JP2015071025A
Authority: JP
Inventors: 衣未留角尾; Emiru Tsunoo
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2016-11-10
Anticipated expiration: 2035-03-31
Also published as: JP6724290B2

Abstract

【課題】音響信号の特徴量のノーマライズを、迅速に行う。
【解決手段】仮検出部は、音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する。ノーマライズ部は、仮音声区間の音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、仮非音声区間の第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、音声区間音量、及び、非音声区間音量を用いて、第２の特徴量をノーマライズする。本技術は、例えば、音声区間の検出等の音響処理に適用することができる。
【選択図】図２

Description

本技術は、音響処理装置、音響処理方法、及び、プログラムに関し、特に、例えば、音響信号の特徴量を、迅速にノーマライズすることができるようにする音響処理装置、音響処理方法、及び、プログラムに関する。

例えば、DNN(Deep Neural Network)等の識別器を用いて、音声区間の検出等の音響処理（音響信号の処理）を行う場合には、マイク感度等に起因する音量のばらつきを取り除くために、音響信号の特徴量のノーマライズが行われる。

識別器の学習と、識別器による識別とにおいて、音響信号の特徴量のノーマライズを行うことにより、識別器による識別の性能を向上させることができる。

音響信号の特徴量のノーマライズの方法としては、例えば、特徴量の平均を0とするとともに、特徴量の分散を1にする統計的な方法がある（例えば、非特許文献１を参照）。

O. Vikiki and K. Lauria, "Cepstral domain segmental feature vector normalization for noise robust speech recognition," Speech Communication, vol. 25, pp. 133-147, 1998

音響信号の特徴量のノーマライズを、統計的な方法によって行う場合、識別器による識別の開始直後においては、十分な数の特徴量が得られておらず、学習時と同様のノーマライズを行うことができるようになるまでに、時間を要することがある。

また、識別時の環境が、刻々と変化するような場合には、十分な数の特徴量が得られても、識別時のノーマライズの結果が、学習時のノーマライズの結果に対応せず、識別器による識別の性能が低下することがある。

本技術は、このような状況に鑑みてなされたものであり、環境にロバストなノーマライズを、迅速に行うことができるようにするものである。

本技術の第１の音響処理装置、又は、プログラムは、音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズするノーマライズ部とを備える音響処理装置、又は、そのような音響処理装置として、コンピュータを機能させるためのプログラムである。

本技術の第１の音響処理方法は、音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズすることとを含む音響処理方法である。

本技術の第１の音響処理装置、音響処理方法、及び、プログラムにおいては、音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とが検出される。そして、前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量が推定されるとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量が推定され、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量がノーマライズされる。

本技術の第２の音響処理装置、又は、プログラムは、音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部とを備える音響処理装置、又は、そのような音響処理装置として、コンピュータを機能させるためのプログラムである。

本技術の第２の音響処理方法は、音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることとを含む音響処理方法である。

本技術の第２の音響処理装置、音響処理方法、及び、プログラムにおいては、音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とが検出される。そして、前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量が推定されるとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量が推定され、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号がノーマライズされる。

なお、音響処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本技術によれば、音響信号の特徴量を、迅速にノーマライズすることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した音響処理システムの一実施の形態の構成例を示すブロック図である。音声区間検出部１１の構成例を示すブロック図である。仮検出部２３の構成例を示すブロック図である。音声尤度算出部３１で求められる音声尤度の例を示す図である。ノーマライズ部２４の構成例を示すブロック図である。推定用特徴量、音声区間音量F1、及び、非音声区間音量F2の例を示す図である。音声区間検出部１１が行う音声区間検出処理の例を説明するフローチャートである。依存特徴量とノーマライズ特徴量との例を示す図である。音声区間検出部１１の他の構成例を示すブロック図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

＜本技術を適用した音響処理システムの一実施の形態＞

図１は、本技術を適用した音響処理システムの一実施の形態の構成例を示すブロック図である。

図１において、音響処理システムは、音声区間検出部１１、及び、処理部１２を有する。

音声区間検出部１１には、図示せぬマイク（マイクロフォン）で集音された音響信号が供給される。

音声区間検出部１１は、音響信号から、音声区間を検出する音声区間検出(VAD(Voice Activity Detection)処理を行う。そして、音声区間検出部１１は、音声区間の検出結果を表す検出情報を、処理部１２に供給する。

処理部１２は、音声区間検出部１１からの検出情報に基づいて、音響信号の音声区間を認識し、所定の音響処理を行う。

例えば、処理部１２は、音声認識を行う音声認識器で構成され、音声区間の音響信号、すなわち、音声信号を対象に、音声認識を行う。処理部１２では、音声区間の音響信号のみを対象に音声認識を行うことで、高い性能の音声認識を実現することができる。

また、例えば、処理部１２は、ボタンを押下して、音声認識を開始するPTT(Push To Talk)と同様の機能を、音声区間検出部１１からの検出情報を用いて実現する。

さらに、例えば、処理部１２は、音声を、音声メモとして録音する機能を有し、音声区間検出部１１からの検出情報を用いて、音声区間の音響信号、すなわち、音声信号の録音の開始と終了を実行する。

その他、処理部１２では、音声区間の情報が必要な、例えば、音声を強調する音声強調処理等の、音声区間や非音声区間の情報が有用な各種の音響処理を、音声区間検出部１１からの検出情報を用いて行うことができる。

＜音声区間検出部１１の構成例＞

図２は、図１の音声区間検出部１１の構成例を示すブロック図である。

音声区間検出部１１は、マイク感度のばらつきや、（雑音）環境の変化にロバストで、高精度（高性能）の音声区間の検出を行う。

図２において、音声区間検出部１１は、特徴量抽出部２１及び２２、仮検出部２３、ノーマライズ部２４、及び、本検出部２５を有する。

特徴量抽出部２１には、音響信号が供給される。

特徴量抽出部２１は、音響信号をフレーム化し、各フレームの音響信号から、第１の特徴量を抽出して、仮検出部２３、及び、本検出部２５に供給する。

特徴量抽出部２２には、特徴量抽出部２１と同様の音響信号が供給される。

特徴量抽出部２２は、音響信号をフレーム化し、各フレームの音響信号から、第２の特徴量を抽出して、ノーマライズ部２４に供給する。

ここで、第２の特徴量としては、音響信号の音量、すなわち、音響信号のパワーや振幅に影響を受ける特徴量を採用することができる。この場合、第２の特徴量は、音響信号の音量の影響を受け、したがって、音響信号の音量に依存するので、第２の特徴量を、以下、依存特徴量ともいう。

依存特徴量としては、例えば、音響信号を、対数メルフィルタバンクに入力することで得られる所定の複数次元（帯域）のパワーや、PLP(Perceptual Liner Prediction)分析の結果、その他の任意のフィルタバンクの出力等を採用することができる。

第１の特徴量は、第２の特徴量と同一種類の特徴量であっても良いし、異なる種類の特徴量であっても良い。第１の特徴量と第２の特徴量とが、同一種類の特徴量である場合には、特徴量抽出部２１及び２２は、いずれか一方だけで兼用することができる。

第１の特徴量は、後述するように、仮検出部２３において、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出するために用いられる。本実施の形態では、仮音声区間及び非仮音声区間の検出精度を向上させるために、第１の特徴量として、第２の特徴量とは異なる種類の特徴量であり、かつ、音響信号の音量の影響を受けない、すなわち、音響信号の音量に依存しない特徴量を採用することとする。

以下、音響信号の音量に依存しない特徴量を、非依存特徴量ともいう。

非依存特徴量としては、例えば、（正規化）ピッチ強度やピッチ周期特徴量を採用することができる。

離散時刻nの音響信号を、x[n]と表すとともに、フレーム番号がiのフレームのピッチ強度及びピッチ周期特徴量を、それぞれ、v(i)及びl(i)と表すこととすると、ピッチ強度v(i)及びピッチ周期特徴量l(i)は、式（１）及び式（２）に従って、それぞれ求めることができる。

・・・（１）

・・・（２）

式（１）及び式（２）において、e[n]は、式（３）で表される。

・・・（３）

式（１）及び式（２）のサメーションΣは、mを、1からnに変えてのサメーションを表す。式（３）のサメーションΣは、mを、1からMに変えてのサメーションを表す。Mは、音響信号のフレームのフレーム長（サンプル数）を表す。

式（１）によれば、各値のnに対して求められるmax_n(X)のかっこ内の値Xのうちの最大値が、ピッチ強度v(i)として求められる。式（１）のピッチ強度v(i)は、音響信号x[n]の自己相関を、0ないし1の範囲の値で表す。

式（２）によれば、argmax_n(X)のかっこ内の値Xを最大にするnが、ピッチ周期特徴量l(i)として求められる。

ピッチ強度v(i)及びピッチ周期特徴量l(i)については、例えば、A. de Cheveigne and H. Kawahara, “YIN, A Fundamental Frequency Estimator for Speech and Music,” J. Acoustic Soc. Am., pp. 1917-1930, 2002.に、詳細が記載されている。

非依存特徴量としては、以上のようなピッチ強度v(i)及びピッチ周期特徴量l(i)の他、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の、音量に非依存な任意の特徴量を採用することができる。

仮検出部２３は、特徴量抽出部２１からの非依存特徴量を用いて、音響信号について、仮音声区間と仮非音声区間とを検出（推定）し、その検出結果を表す仮検出情報を、ノーマライズ部２４に供給する。

すなわち、仮検出部２３は、特徴量抽出部２１からの非依存特徴量を用いて、音声区間及び非音声区間を、いわば簡易的に検出し、その簡易的に検出した音声区間及び非音声区間である仮音声区間及び仮非音声区間を表す仮検出情報を、ノーマライズ部２４に供給する。

ここで、仮検出部２３は、例えば、DNNや、その他のNeural Network，GMM(Gaussian Mixture Model)，SVM(Support Vector Machine)等の任意の識別器等で構成することができる。

ノーマライズ部２４は、仮検出部２３からの仮検出情報から、仮音声区間と仮非音声区間とを認識する。

さらに、ノーマライズ部２４は、特徴量抽出部２２からの依存特徴量のうちの、仮音声区間の依存特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、仮非音声区間の依存特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定する。

そして、ノーマライズ部２４は、音声区間音量、及び、非音声区間音量を用いて、特徴量抽出部２２からの依存特徴量をノーマライズ（正規化）し、本検出部２５に供給する。

本検出部２５は、ノーマライズ部２４からのノーマライズ後の依存特徴量と、特徴量抽出部２１からの非依存特徴量とを用いて、音声区間を検出（推定）し、その検出結果を表す検出情報を、処理部１２（図１）に供給する。

ここで、本検出部２５は、例えば、仮検出部２３と同様に、DNNや、その他のNeural Network，GMM，SVM等の任意の識別器等で構成することができる。

＜仮検出部２３の構成例＞

図３は、図２の仮検出部２３の構成例を示すブロック図である。

図３において、仮検出部２３は、音声尤度算出部３１、音声閾値設定部３２、非音声閾値設定部３３、及び、判定部３４を有する。

音声尤度算出部３１には、特徴量抽出部２１からの非依存特徴量が供給される。

音声尤度算出部３１は、所定の識別器で構成され、その識別器に、非依存特徴量を入力する。識別器は、非依存特徴量の入力に対して、その非依存特徴量に対応する音響信号（のフレーム）の音声らしさを表す音声尤度を出力する。

音声尤度算出部３１は、識別器が出力する音声尤度を、判定部３４に供給するとともに、必要に応じて、音声閾値設定部３２、及び、非音声閾値設定部３３に供給する。

音声閾値設定部３２は、仮音声区間を検出するための音声閾値TH1を設定し、判定部３４に供給する。

非音声閾値設定部３３は、仮非音声区間を検出するための非音声閾値TH2を設定し、判定部３４に供給する。

ここで、音声閾値TH１及び非音声閾値TH2としては、あらかじめ決められた固定の値を採用することもできるし、可変の値を採用することもできる。

音声閾値TH１及び非音声閾値TH2として可変の値を採用する場合には、音声閾値TH1及び非音声閾値TH2は、例えば、音声尤度算出部３１で得られる音声尤度に応じて設定することができる。

すなわち、音声閾値設定部３２は、例えば、音声尤度算出部３１から供給される音声尤度の（移動）平均値に、所定の正の値を加算した値、又は、1以上の正の値を乗算した値等を、音声閾値TH1に設定することができる。

また、非音声閾値設定部３３は、例えば、音声尤度算出部３１から供給される音声尤度の平均値に、所定の負の値を加算した値、又は、1以下の正の値を乗算した値等を、非音声閾値TH2に設定することができる。

判定部３４は、音声尤度算出部３１からの音声尤度について、音声閾値設定部３２からの音声閾値TH1と、非音声閾値設定部３３からの非音声閾値TH2とを用いた閾値処理を行うことで、音声尤度算出部３１からの音声尤度に対応する音響信号のフレームが、仮音声区間であるかどうかと、仮非音声区間であるかどうかとを判定し、その判定結果を、仮検出情報として、ノーマライズ部２４（図２）に供給する。

図４は、図３の音声尤度算出部３１で求められる音声尤度の例を示す図である。

図４において、横軸は、時間を表し、縦軸は、音声尤度を表す。

図４では、音声尤度は、0ないし1の範囲の値をとり、音響信号（のフレーム）が音声らしいほど、音声尤度は大になる。すなわち、0に近い音声尤度は、音響信号が音声らしくないこと（雑音らしいこと）を表し、1に近い音声尤度は、音響信号が音声らしいことを表す。

図４では、音声閾値TH1及び非音声閾値TH2は、音声尤度に応じて設定されており、したがって、時間の経過に伴って更新されている。

判定部３４（図３）は、例えば、音声尤度が、音声閾値TH1以上（又は、より大）である場合、その音声尤度に対応する音響信号のフレームが、仮音声区間であると判定する。

また、判定部３４は、音声尤度が、非音声閾値TH2以下（又は、未満）である場合、その音声尤度に対応する音響信号のフレームが、仮非音声区間であると判定する。

音声尤度が、音声閾値TH1以上ではなく、かつ、非音声閾値TH2以下でもない場合には、その音声尤度に対応する音響信号のフレームについては、仮音声区間であるとも判定されず、仮非音声区間であるとも判定されない。

＜ノーマライズ部２４の構成例＞

図５は、図２のノーマライズ部２４の構成例を示すブロック図である。

図５において、ノーマライズ部２４は、推定用特徴量取得部４１、音声区間音量推定部４２、非音声区間音量推定部４３、及び、ノーマライズ演算部４４を有する。

推定用特徴量取得部４１には、特徴量抽出部２２（図２）からの複数次元の依存特徴量が供給される。

推定用特徴量取得部４１は、特徴量抽出部２２からの複数次元の依存特徴量から、音声区間の音量を表す音声区間音量F1、及び、非音声区間の音量を表す非音声区間音量F2を推定するのに用いる推定用特徴量を取得する。

すなわち、推定用特徴量取得部４１は、例えば、特徴量抽出部２２からの複数次元の依存特徴量のうちの、ある1つの次元の依存特徴量を、推定用特徴量として取得する。

また、推定用特徴量取得部４１は、例えば、特徴量抽出部２２からの複数次元の依存特徴量の、その複数次元についての平均値を、推定用特徴量として取得する（求める）。

あるいは、推定用特徴量取得部４１は、例えば、特徴量抽出部２２からの複数次元の依存特徴量のうちの、各フレームで最大になっている次元の特徴量（例えば、対数メルフィルタバンクの出力のうちの最大の周波数成分）を、推定用特徴量として取得する。

ここで、ノーマライズ部２４では、推定用特徴量から、音声区間音量F1及び非音声区間音量F2が推定され、その音声区間音量F1及び非音声区間音量F2を用いて、複数次元の依存特徴量のすべての次元（の依存特徴量）がノーマライズされる。そのため、推定用特徴量としては、その推定用特徴量から推定される音声区間音量F1及び非音声区間音量F2によって、複数次元の依存特徴量のすべての次元をノーマライズすることができる物理量を採用することが望ましい。

推定用特徴量取得部４１は、推定用特徴量を、音声区間音量推定部４２、及び、非音声区間音量推定部４３に供給する。

音声区間音量推定部４２、及び、非音声区間音量推定部４３には、推定用特徴量取得部４１から推定用特徴量が供給される他、仮検出部２３からの仮検出情報が供給される。

音声区間音量推定部４２は、仮検出部２３からの仮検出情報から、仮音声区間を認識する。さらに、音声区間音量推定部４２は、推定用特徴量取得部４１からの推定用特徴量のうちの、仮音声区間の推定用特徴量を用いて、音声区間の音量を表す音声区間音量F1を推定し、ノーマライズ演算部４４に供給する。

非音声区間音量推定部４３は、仮検出部２３からの仮検出情報から、仮非音声区間を認識する。さらに、非音声区間音量推定部４３は、推定用特徴量取得部４１からの推定用特徴量のうちの、仮非音声区間の推定用特徴量を用いて、非音声区間の音量を表す非音声区間音量F2を推定し、ノーマライズ演算部４４に供給する。

ノーマライズ演算部４４には、音声区間音量推定部４２から音声区間音量F1が供給されるとともに、非音声区間音量推定部４２から非音声区間音量F2が供給される他、特徴量抽出部２２（図２）から、依存特徴量が供給される。

ノーマライズ演算部４４は、音声区間音量推定部４２からの音声区間音量F1、及び、非音声区間音量推定部４２からの非音声区間音量F2を用いて、特徴量抽出部２２からの複数次元の依存特徴量の各次元をノーマライズする。

すなわち、ノーマライズ演算部４４は、複数次元の依存特徴量の各次元について、例えば、非音声区間音量F2に相当する成分が0になり、音声区間音量F1に相当する成分が1になるように、シフトとスケーリングとを行う。

具体的には、例えば、ノーマライズ演算部４４は、複数次元の依存特徴量の各次元について、その次元の依存特徴量から、非音声区間音量F2を減算し、その減算結果を、音声区間音量F1と非音声区間音量F2との差分F1-F2で除算することにより、依存特徴量をノーマライズする。

ノーマライズ演算部４４は、複数次元の依存特徴量のすべての次元について、同一の音声区間音量F1と非音声区間音量F2を用いてノーマライズを行うことにより得られる、ノーマライズ後の依存特徴量を、ノーマライズ特徴量として、本検出部２５（図２）に供給する。

図６は、図５の推定用特徴量取得部４１で取得される推定用特徴量、音声区間音量推定部４２で推定される音声区間音量F1、及び、非音声区間音量推定部４３で推定される非音声区間音量F2の例を示す図である。

図６において、横軸は、時間を表し、縦軸は、推定用特徴量、音声区間音量F1、及び、非音声区間音量F2を示している。

図６では、推定用特徴量として、特徴量抽出部２２からの複数次元の依存特徴量のうちの、各フレームで最大になっている次元の特徴量（例えば、対数メルフィルタバンクの出力のうちの最大の周波数成分）が採用されている。

音声区間音量推定部４２は、推定用特徴量のうちの、仮音声区間の推定用特徴量の、例えば、（移動）平均を、音声区間音量F1として推定する。

すなわち、音声区間音量推定部４２は、仮音声区間のみにおいて、その仮音声区間の推定用特徴量の平均を、音声区間音量F1として推定し、その結果得られる最新の推定値によって、ノーマライズ演算部４４に供給する音声区間音量F1を更新する。

したがって、音声区間音量F1は、仮音声区間以外の区間では、現在の値がそのまま維持され、仮音声区間でのみ更新される。

同様に、非音声区間音量推定部４３は、推定用特徴量のうちの、仮非音声区間の推定用特徴量の、例えば、（移動）平均を、非音声区間音量F2として推定する。

すなわち、非音声区間音量推定部４３は、仮非音声区間のみにおいて、その仮非音声区間の推定用特徴量の平均を、非音声区間音量F2として推定し、その結果得られる最新の推定値によって、ノーマライズ演算部４４に供給する非音声区間音量F2を更新する。

したがって、非音声区間音量F2は、仮非音声区間以外の区間では、現在の値がそのまま維持され、仮非音声区間でのみ更新される。

なお、音声区間音量推定部４２では、仮音声区間以外の区間では、音声区間音量F1を、所定値だけ小さい値に更新する（徐々に減衰させる）ことができる。

仮音声区間以外の区間において、音声区間音量F1を、所定値だけ小さい値に更新することにより、一時的に、大音量での発話が行われた後、適切な音量の発話が、次に行われるまで、音声区間音量F1が大になって、適切なノーマライズが行われなくなることを防止することができる。

また、音声区間音量F1は、最新の推定値に更新する他、最新の推定値と直前の推定値とのうちの大きい方の推定値に更新することができる。非音声区間音量F2についても、同様である。

＜音声区間検出処理＞

図７は、図２の音声区間検出部１１が行う音声区間検出処理の例を説明するフローチャートである。

特徴量抽出部２１及び２２は、音響信号をフレーム化し、ステップＳ１１において、音響信号のフレームのうちの、まだ注目フレームに選択していない最も古いフレームを、注目フレームに選択し、処理は、ステップＳ１２に進む。

ステップＳ１２では、特徴量抽出部２１は、注目フレームから、非依存特徴量を抽出し、仮検出部２３、及び、本検出部２５に供給して、処理は、ステップＳ１３に進む。

ステップＳ１３では、特徴量抽出部２２は、注目フレームから、複数次元の依存特徴量を抽出し、ノーマライズ部２４に供給して、処理は、ステップＳ１４に進む。

ステップＳ１４では、仮検出部２３は、特徴量抽出部２１からの非依存特徴量、さらには、音声閾値TH1及び非音声閾値TH2を用いて、仮音声区間及び仮非音声区間の検出（音声区間及び非音声区間の仮検出）を行う。

すなわち、仮検出部２３（図３）において、音声尤度算出部３１は、特徴量抽出部２１からの非依存特徴量から、音声尤度を取得し、音声閾値設定部３２、非音声閾値設定部３３、及び、判定部３４に供給する。

判定部３４は、音声尤度算出部３１からの音声尤度が、音声閾値設定部３２で設定された音声閾値TH1以上である場合、注目フレームが仮音声区間であると判定し、その旨を表す仮検出情報を、ノーマライズ部２４に供給する。

また、音声尤度が、非音声閾値設定部３３で設定された非音声閾値TH2以下である場合、判定部３４は、注目フレームが仮非音声区間であると判定し、その旨を表す仮検出情報を、ノーマライズ部２４に供給する。

その後、処理は、ステップＳ１４からステップＳ１５に進み、ノーマライズ部２４（図５）において、推定用特徴量取得部４１は、特徴量抽出部２２から供給される複数次元の依存特徴量から、推定用特徴量を取得し、音声区間音量推定部４２、及び、非音声区間音量推定部４３に供給して、処理は、ステップＳ１６に進む。

ステップＳ１６では、非音声区間音量推定部４３は、ステップＳ１４で仮検出部２３からノーマライズ部２４に供給される仮検出情報から、注目フレームが、仮非音声区間であるかどうかを判定する。

ステップＳ１６において、注目フレームが、仮非音声区間であると判定された場合、処理は、ステップＳ１７に進み、非音声区間音量推定部４３は、推定用特徴量取得部４１からの推定用特徴量のうちの、注目フレームを含む仮非音声区間の推定用特徴量を用いて、非音声区間音量F2を推定し、その結果得られる推定値によって、非音声区間音量F2を更新して、処理は、ステップＳ１８に進む。

また、ステップＳ１６において、注目フレームが、仮非音声区間でないと判定された場合、処理は、ステップＳ１７をスキップして、ステップＳ１８に進み、音声区間音量推定部４３は、ステップＳ１４で仮検出部２３からノーマライズ部２４に供給される仮検出情報から、注目フレームが、仮音声区間であるかどうかを判定する。

ステップＳ１８において、注目フレームが、仮音声区間であると判定された場合、処理は、ステップＳ１９に進み、音声区間音量推定部４２は、推定用特徴量取得部４１からの推定用特徴量のうちの、注目フレームを含む仮音声区間の推定用特徴量を用いて、音声区間音量F1を推定し、その結果得られる推定値によって、音声区間音量F1を更新して、処理は、ステップＳ２１に進む。

また、ステップＳ１８において、注目フレームが、仮音声区間でないと判定された場合、処理は、ステップＳ２０に進み、音声区間音量推定部４２は、音声区間音量F1を、所定値だけ小さい値に更新して（減衰させて）、処理は、ステップＳ２１に進む。

ステップＳ２１では、ノーマライズ演算部４４は、音声区間音量推定部４２で得られた最新の音声区間音量F1（の更新値）、及び、非音声区間音量推定部４２で得られた最新の非音声区間音量F2（の更新値）を用いて、特徴量抽出部２２からの複数次元の依存特徴量の各次元をノーマライズする。

そして、ノーマライズ演算部４４は、ノーマライズ後の依存特徴量を、ノーマライズ特徴量として、本検出部２５（図２）に供給して、処理は、ステップＳ２２に進む。

ステップＳ２２では、本検出部２５は、ノーマライズ演算部４４からのノーマライズ特徴量と、特徴量抽出部２１からの非依存特徴量とを用いて、音声区間を検出し、その検出結果を表す検出情報を、処理部１２（図１）に供給して、処理は、ステップＳ２３に進む。

ステップＳ２３では、仮検出部２３（図３）において、音声閾値設定部３２及び非音声閾値設定部３３は、ステップＳ１４で音声尤度算出部３１から供給される音声尤度を用いて、音声閾値TH1及び非音声閾値TH2を、それぞれ設定（更新）する。このステップＳ２３で設定された音声閾値TH１及び非音声閾値TH2を用いて、次のステップＳ１４での仮音声区間と仮非音声区間の検出が行われる。

その後、処理は、ステップＳ２３からステップＳ１１に戻り、以下、同様の処理が繰り返される。

図８は、依存特徴量とノーマライズ特徴量との例を示す図である。

図８では、複数次元の依存特徴量のうちの、ある１次元の依存特徴量と、その依存特徴量をノーマライズ部２４でノーマライズしたノーマライズ特徴量とが示されている。

以上のように、音声区間検出部１１では、仮音声区間の依存特徴量（から取得される推定用特徴量）の平均等を、音声区間音量F1として推定するとともに、仮非音声区間の依存特徴量（から取得される推定用特徴量）の平均等を、非音声区間音量F2として推定するので、音声区間音量F1、及び、非音声区間音量F2を、迅速かつ精度良く推定することができる。

すなわち、例えば、仮音声区間や仮非音声区間ではなく、任意の区間の依存特徴量から、音声区間音量F1や非音声区間音量F2の推定を行う場合には、任意の区間の依存特徴量の数が少ないと、その少ない数の依存特徴量に含まれる音声の成分と非音声の成分との比率によって、音声区間音量F1や非音声区間音量F2が変動し、音声区間音量F1、及び、非音声区間音量F2を、精度良く推定することが難しい。

任意の区間の依存特徴量から、音声区間音量F1や非音声区間音量F2の推定を、精度良く行うためには、ある程度多い数の依存特徴量が必要になり、時間を要する。

これに対して、音声区間検出部１１では、仮音声区間の依存特徴量から、音声区間音量F1を推定するので、少ない数の仮音声区間の依存特徴量によって、音声区間音量F1を精度良く推定すること、すなわち、音声区間音量F1を、迅速かつ精度良く推定することができる。同様の理由により、非音声区間音量F2も、迅速かつ精度良く推定することができる。

以上のように、音声区間音量F1及び非音声区間音量F2を、迅速かつ精度良く推定することができる結果、そのような音声区間音量F1及び非音声区間音量F2を用いたノーマライズ、さらには、音声区間の検出も、迅速かつ精度良く行うことができる。

すなわち、音声区間検出部１１を起動してから、短期間で、音声区間の検出を精度良く行うことができる。

さらに、精度の良いノーマライズ（さらには、音声区間の検出）を、迅速行うことができるので、環境が変化しても、その変化後の環境において、精度の良いノーマライズを、短期間で行うこと、すなわち、環境にロバストなノーマライズを、迅速に行うことができる。

また、音声区間検出部１１では、複数次元の依存特徴量の各次元のノーマライズが、同一の音声区間音量F1及び非音声区間音量F2を用いて行われるので、音声区間の検出の精度が低下することを防止することができる。

すなわち、複数次元の依存特徴量が、例えば、複数であるN個の周波数帯域の周波数成分であるとすると、音声区間検出部１１では、N個の周波数成分のすべてが、同一の音声区間音量F1及び非音声区間音量F2を用いてノーマライズされる。

したがって、依存特徴量のノーマライズ前とノーマライズ後とで、スペクトルの形状（ある周波数成分と他の周波数成分との関係）等の音響的な特徴は、（ほぼ）維持される。そのため、スペクトルに比較的依存する識別器を用いて音声区間の検出を行う場合に、ノーマライズによって、スペクトルの形状が変化することに起因する、音声区間の検出の精度の低下を防止することができる。

＜音声区間検出部１１の他の構成例＞

図９は、図１の音声区間検出部１１の他の構成例を示すブロック図である。

なお、図中、図２の場合と対応する部分については、同一の符号を付してあり、その説明は、適宜省略する。

図９において、音声区間検出部１１は、特徴量抽出部２１、仮検出部２３、ノーマライズ部２４、本検出部２５、及び、特徴量抽出部６１を有する。

したがって、図９の音声区間検出部１１は、特徴量抽出部２１、仮検出部２３、ノーマライズ部２４、本検出部２５を有する点で、図２の場合と共通する。

但し、図９の音声区間検出部１１は、特徴量抽出部２２が設けられておらず、特徴量抽出部６１が新たに設けられている点で、図２の場合と相違する。

図９では、ノーマライズ部２４に、第２の特徴量である依存特徴量が供給されるのではなく、音響信号が供給される。

そして、ノーマライズ部２４では、音響信号が、図２の音声区間検出部１１の場合と同様にノーマライズされ、そのノーマライズ後の音響信号が、特徴量抽出部６１に供給される。

特徴量抽出部６１は、ノーマライズ部２４からのノーマライズ後の音響信号から、特徴量を抽出し、本検出部２５に供給する。

ノーマライズ部２４から特徴量抽出部６１に供給されるノーマライズ後の音響信号は、音量の影響が（ほぼ）一定の音響信号になっており、そのような音響信号から、特徴量抽出部６１で抽出される特徴量は、元の音響信号（ノーマライズ前の音響信号）の音量に依存しない非依存特徴量となる。すなわち、特徴量抽出部６１で、どのような種類の特徴量が抽出される場合であっても、ノーマライズ後の音響信号から抽出される特徴量は、ノーマライズ前の音響信号の音量に依存しない（音量の影響が一定の）非依存特徴量となる。

図９の音声区間検出部１１によれば、図２の場合と同様に、ノーマライズ、さらには、音声区間の検出を、迅速かつ精度良く行うことができる。

なお、図９の音声区間検出部１１で行われるノーマライズは、依存特徴量ではなく、音響信号を対象とする点で、図２の音声区間検出部１１で行われるノーマライズと異なるだけである。したがって、図９の音声区間検出部１１で行われるノーマライズの説明は、上述した、図２の音声区間検出部１１で行われるノーマライズの説明において、「依存特徴量」を、「音響信号」に読み替えた説明になる。

＜本技術を適用したコンピュータの説明＞

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

図１０は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

なお、本技術は、以下のような構成をとることができる。

＜１＞
音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズするノーマライズ部と
を備える音響処理装置。
＜２＞
前記第１の特徴量と、前記第２の特徴量とは、異なる種類の特徴量である
＜１＞に記載の音響処理装置。
＜３＞
前記第１の特徴量は、音量に非依存の特徴量である
＜２＞に記載の音響処理装置。
＜４＞
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
＜１＞ないし＜３＞のいずれかに記載の音響処理装置。
＜５＞
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
＜１＞ないし＜３＞のいずれかに記載の音響処理装置。
＜６＞
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
＜４＞又は＜５＞に記載の音響処理装置。
＜７＞
前記ノーマライズ部は、前記仮音声区間の前記第２の特徴量の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記第２の特徴量の平均値を、前記非音声区間音量として推定する
＜１＞ないし＜６＞のいずれかに記載の音響処理装置。
＜８＞
前記第２の特徴量は、複数の次元の特徴量であり、
前記ノーマライズ部は、前記複数の次元の特徴量のすべてを、前記音声区間音量、及び、前記非音声区間音量を用いてノーマライズする
＜１＞ないし＜７＞のいずれかに記載の音響処理装置。
＜９＞
ノーマライズが行われた前記第２の特徴量を用いて、音声区間を検出する検出部をさらに備える
＜１＞ないし＜８＞のいずれかに記載の音響処理装置。
＜１０＞
音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズすることと
を含む音響処理方法。
＜１１＞
音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。
＜１２＞
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
を備える音響処理装置。
＜１３＞
前記特徴量は、音量に非依存の特徴量である
＜１２＞に記載の音響処理装置。
＜１４＞
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
＜１２＞又は＜１３＞に記載の音響処理装置。
＜１５＞
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
＜１２＞又は＜１３＞に記載の音響処理装置。
＜１６＞
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
＜１４＞又は＜１５＞に記載の音響処理装置。
＜１７＞
前記ノーマライズ部は、前記仮音声区間の前記音響信号の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記音響信号の平均値を、前記非音声区間音量として推定する
＜１２＞ないし＜１６＞のいずれかに記載の音響処理装置。
＜１８＞
ノーマライズが行われた前記音響信号を用いて、音声区間を検出する検出部をさらに備える
＜１２＞ないし＜１７＞のいずれかに記載の音響処理装置。
＜１９＞
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることと
を含む音響処理方法。
＜２０＞
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。

１１音声区間検出部，１２処理部，２１，２２特徴量抽出部，２３仮検出部，２４ノーマライズ部，２５本検出部，３１音声尤度算出部，３２音声閾値設定部，３３非音声閾値設定部，３４判定部，４１推定用特徴量取得部，４２音声区間音量推定部，４３非音声区間音量推定部，４４ノーマライズ委演算部，６１特徴量抽出部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズするノーマライズ部と
を備える音響処理装置。
前記第１の特徴量と、前記第２の特徴量とは、異なる種類の特徴量である
請求項１に記載の音響処理装置。
前記第１の特徴量は、音量に非依存の特徴量である
請求項２に記載の音響処理装置。
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
請求項１に記載の音響処理装置。
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
請求項４に記載の音響処理装置。
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
請求項４に記載の音響処理装置。
前記ノーマライズ部は、前記仮音声区間の前記第２の特徴量の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記第２の特徴量の平均値を、前記非音声区間音量として推定する
請求項１に記載の音響処理装置。
前記第２の特徴量は、複数の次元の特徴量であり、
前記ノーマライズ部は、前記複数の次元の特徴量のすべてを、前記音声区間音量、及び、前記非音声区間音量を用いてノーマライズする
請求項１に記載の音響処理装置。
ノーマライズが行われた前記第２の特徴量を用いて、音声区間を検出する検出部をさらに備える
請求項１に記載の音響処理装置。
音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズすることと
を含む音響処理方法。
音響信号の第１の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第２の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第２の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第２の特徴量をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
を備える音響処理装置。
前記特徴量は、音量に非依存の特徴量である
請求項１２に記載の音響処理装置。
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
請求項１２に記載の音響処理装置。
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
請求項１４に記載の音響処理装置。
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
請求項１４に記載の音響処理装置。
前記ノーマライズ部は、前記仮音声区間の前記音響信号の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記音響信号の平均値を、前記非音声区間音量として推定する
請求項１２に記載の音響処理装置。
ノーマライズが行われた前記音響信号を用いて、音声区間を検出する検出部をさらに備える
請求項１２に記載の音響処理装置。
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることと
を含む音響処理方法。
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。