JP2016191788A - 音響処理装置、音響処理方法、及び、プログラム - Google Patents

音響処理装置、音響処理方法、及び、プログラム Download PDF

Info

Publication number
JP2016191788A
JP2016191788A JP2015071025A JP2015071025A JP2016191788A JP 2016191788 A JP2016191788 A JP 2016191788A JP 2015071025 A JP2015071025 A JP 2015071025A JP 2015071025 A JP2015071025 A JP 2015071025A JP 2016191788 A JP2016191788 A JP 2016191788A
Authority
JP
Japan
Prior art keywords
speech
volume
section
voice
provisional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015071025A
Other languages
English (en)
Other versions
JP2016191788A5 (ja
JP6724290B2 (ja
Inventor
衣未留 角尾
Emiru Tsunoo
衣未留 角尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015071025A priority Critical patent/JP6724290B2/ja
Publication of JP2016191788A publication Critical patent/JP2016191788A/ja
Publication of JP2016191788A5 publication Critical patent/JP2016191788A5/ja
Application granted granted Critical
Publication of JP6724290B2 publication Critical patent/JP6724290B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音響信号の特徴量のノーマライズを、迅速に行う。
【解決手段】仮検出部は、音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する。ノーマライズ部は、仮音声区間の音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、仮非音声区間の第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、音声区間音量、及び、非音声区間音量を用いて、第2の特徴量をノーマライズする。本技術は、例えば、音声区間の検出等の音響処理に適用することができる。
【選択図】図2

Description

本技術は、音響処理装置、音響処理方法、及び、プログラムに関し、特に、例えば、音響信号の特徴量を、迅速にノーマライズすることができるようにする音響処理装置、音響処理方法、及び、プログラムに関する。
例えば、DNN(Deep Neural Network)等の識別器を用いて、音声区間の検出等の音響処理(音響信号の処理)を行う場合には、マイク感度等に起因する音量のばらつきを取り除くために、音響信号の特徴量のノーマライズが行われる。
識別器の学習と、識別器による識別とにおいて、音響信号の特徴量のノーマライズを行うことにより、識別器による識別の性能を向上させることができる。
音響信号の特徴量のノーマライズの方法としては、例えば、特徴量の平均を0とするとともに、特徴量の分散を1にする統計的な方法がある(例えば、非特許文献1を参照)。
O. Vikiki and K. Lauria, "Cepstral domain segmental feature vector normalization for noise robust speech recognition," Speech Communication, vol. 25, pp. 133-147, 1998
音響信号の特徴量のノーマライズを、統計的な方法によって行う場合、識別器による識別の開始直後においては、十分な数の特徴量が得られておらず、学習時と同様のノーマライズを行うことができるようになるまでに、時間を要することがある。
また、識別時の環境が、刻々と変化するような場合には、十分な数の特徴量が得られても、識別時のノーマライズの結果が、学習時のノーマライズの結果に対応せず、識別器による識別の性能が低下することがある。
本技術は、このような状況に鑑みてなされたものであり、環境にロバストなノーマライズを、迅速に行うことができるようにするものである。
本技術の第1の音響処理装置、又は、プログラムは、音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部とを備える音響処理装置、又は、そのような音響処理装置として、コンピュータを機能させるためのプログラムである。
本技術の第1の音響処理方法は、音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズすることとを含む音響処理方法である。
本技術の第1の音響処理装置、音響処理方法、及び、プログラムにおいては、音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とが検出される。そして、前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量が推定されるとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量が推定され、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量がノーマライズされる。
本技術の第2の音響処理装置、又は、プログラムは、音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部とを備える音響処理装置、又は、そのような音響処理装置として、コンピュータを機能させるためのプログラムである。
本技術の第2の音響処理方法は、音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることとを含む音響処理方法である。
本技術の第2の音響処理装置、音響処理方法、及び、プログラムにおいては、音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とが検出される。そして、前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量が推定されるとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量が推定され、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号がノーマライズされる。
なお、音響処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本技術によれば、音響信号の特徴量を、迅速にノーマライズすることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した音響処理システムの一実施の形態の構成例を示すブロック図である。 音声区間検出部11の構成例を示すブロック図である。 仮検出部23の構成例を示すブロック図である。 音声尤度算出部31で求められる音声尤度の例を示す図である。 ノーマライズ部24の構成例を示すブロック図である。 推定用特徴量、音声区間音量F1、及び、非音声区間音量F2の例を示す図である。 音声区間検出部11が行う音声区間検出処理の例を説明するフローチャートである。 依存特徴量とノーマライズ特徴量との例を示す図である。 音声区間検出部11の他の構成例を示すブロック図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
<本技術を適用した音響処理システムの一実施の形態>
図1は、本技術を適用した音響処理システムの一実施の形態の構成例を示すブロック図である。
図1において、音響処理システムは、音声区間検出部11、及び、処理部12を有する。
音声区間検出部11には、図示せぬマイク(マイクロフォン)で集音された音響信号が供給される。
音声区間検出部11は、音響信号から、音声区間を検出する音声区間検出(VAD(Voice Activity Detection)処理を行う。そして、音声区間検出部11は、音声区間の検出結果を表す検出情報を、処理部12に供給する。
処理部12は、音声区間検出部11からの検出情報に基づいて、音響信号の音声区間を認識し、所定の音響処理を行う。
例えば、処理部12は、音声認識を行う音声認識器で構成され、音声区間の音響信号、すなわち、音声信号を対象に、音声認識を行う。処理部12では、音声区間の音響信号のみを対象に音声認識を行うことで、高い性能の音声認識を実現することができる。
また、例えば、処理部12は、ボタンを押下して、音声認識を開始するPTT(Push To Talk)と同様の機能を、音声区間検出部11からの検出情報を用いて実現する。
さらに、例えば、処理部12は、音声を、音声メモとして録音する機能を有し、音声区間検出部11からの検出情報を用いて、音声区間の音響信号、すなわち、音声信号の録音の開始と終了を実行する。
その他、処理部12では、音声区間の情報が必要な、例えば、音声を強調する音声強調処理等の、音声区間や非音声区間の情報が有用な各種の音響処理を、音声区間検出部11からの検出情報を用いて行うことができる。
<音声区間検出部11の構成例>
図2は、図1の音声区間検出部11の構成例を示すブロック図である。
音声区間検出部11は、マイク感度のばらつきや、(雑音)環境の変化にロバストで、高精度(高性能)の音声区間の検出を行う。
図2において、音声区間検出部11は、特徴量抽出部21及び22、仮検出部23、ノーマライズ部24、及び、本検出部25を有する。
特徴量抽出部21には、音響信号が供給される。
特徴量抽出部21は、音響信号をフレーム化し、各フレームの音響信号から、第1の特徴量を抽出して、仮検出部23、及び、本検出部25に供給する。
特徴量抽出部22には、特徴量抽出部21と同様の音響信号が供給される。
特徴量抽出部22は、音響信号をフレーム化し、各フレームの音響信号から、第2の特徴量を抽出して、ノーマライズ部24に供給する。
ここで、第2の特徴量としては、音響信号の音量、すなわち、音響信号のパワーや振幅に影響を受ける特徴量を採用することができる。この場合、第2の特徴量は、音響信号の音量の影響を受け、したがって、音響信号の音量に依存するので、第2の特徴量を、以下、依存特徴量ともいう。
依存特徴量としては、例えば、音響信号を、対数メルフィルタバンクに入力することで得られる所定の複数次元(帯域)のパワーや、PLP(Perceptual Liner Prediction)分析の結果、その他の任意のフィルタバンクの出力等を採用することができる。
第1の特徴量は、第2の特徴量と同一種類の特徴量であっても良いし、異なる種類の特徴量であっても良い。第1の特徴量と第2の特徴量とが、同一種類の特徴量である場合には、特徴量抽出部21及び22は、いずれか一方だけで兼用することができる。
第1の特徴量は、後述するように、仮検出部23において、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出するために用いられる。本実施の形態では、仮音声区間及び非仮音声区間の検出精度を向上させるために、第1の特徴量として、第2の特徴量とは異なる種類の特徴量であり、かつ、音響信号の音量の影響を受けない、すなわち、音響信号の音量に依存しない特徴量を採用することとする。
以下、音響信号の音量に依存しない特徴量を、非依存特徴量ともいう。
非依存特徴量としては、例えば、(正規化)ピッチ強度やピッチ周期特徴量を採用することができる。
離散時刻nの音響信号を、x[n]と表すとともに、フレーム番号がiのフレームのピッチ強度及びピッチ周期特徴量を、それぞれ、v(i)及びl(i)と表すこととすると、ピッチ強度v(i)及びピッチ周期特徴量l(i)は、式(1)及び式(2)に従って、それぞれ求めることができる。
Figure 2016191788
・・・(1)
Figure 2016191788
・・・(2)
式(1)及び式(2)において、e[n]は、式(3)で表される。
Figure 2016191788
・・・(3)
式(1)及び式(2)のサメーションΣは、mを、1からnに変えてのサメーションを表す。式(3)のサメーションΣは、mを、1からMに変えてのサメーションを表す。Mは、音響信号のフレームのフレーム長(サンプル数)を表す。
式(1)によれば、各値のnに対して求められるmaxn(X)のかっこ内の値Xのうちの最大値が、ピッチ強度v(i)として求められる。式(1)のピッチ強度v(i)は、音響信号x[n]の自己相関を、0ないし1の範囲の値で表す。
式(2)によれば、argmaxn(X)のかっこ内の値Xを最大にするnが、ピッチ周期特徴量l(i)として求められる。
ピッチ強度v(i)及びピッチ周期特徴量l(i)については、例えば、A. de Cheveigne and H. Kawahara, “YIN, A Fundamental Frequency Estimator for Speech and Music,” J. Acoustic Soc. Am., pp. 1917-1930, 2002.に、詳細が記載されている。
非依存特徴量としては、以上のようなピッチ強度v(i)及びピッチ周期特徴量l(i)の他、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の、音量に非依存な任意の特徴量を採用することができる。
仮検出部23は、特徴量抽出部21からの非依存特徴量を用いて、音響信号について、仮音声区間と仮非音声区間とを検出(推定)し、その検出結果を表す仮検出情報を、ノーマライズ部24に供給する。
すなわち、仮検出部23は、特徴量抽出部21からの非依存特徴量を用いて、音声区間及び非音声区間を、いわば簡易的に検出し、その簡易的に検出した音声区間及び非音声区間である仮音声区間及び仮非音声区間を表す仮検出情報を、ノーマライズ部24に供給する。
ここで、仮検出部23は、例えば、DNNや、その他のNeural Network,GMM(Gaussian Mixture Model),SVM(Support Vector Machine)等の任意の識別器等で構成することができる。
ノーマライズ部24は、仮検出部23からの仮検出情報から、仮音声区間と仮非音声区間とを認識する。
さらに、ノーマライズ部24は、特徴量抽出部22からの依存特徴量のうちの、仮音声区間の依存特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、仮非音声区間の依存特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定する。
そして、ノーマライズ部24は、音声区間音量、及び、非音声区間音量を用いて、特徴量抽出部22からの依存特徴量をノーマライズ(正規化)し、本検出部25に供給する。
本検出部25は、ノーマライズ部24からのノーマライズ後の依存特徴量と、特徴量抽出部21からの非依存特徴量とを用いて、音声区間を検出(推定)し、その検出結果を表す検出情報を、処理部12(図1)に供給する。
ここで、本検出部25は、例えば、仮検出部23と同様に、DNNや、その他のNeural Network,GMM,SVM等の任意の識別器等で構成することができる。
<仮検出部23の構成例>
図3は、図2の仮検出部23の構成例を示すブロック図である。
図3において、仮検出部23は、音声尤度算出部31、音声閾値設定部32、非音声閾値設定部33、及び、判定部34を有する。
音声尤度算出部31には、特徴量抽出部21からの非依存特徴量が供給される。
音声尤度算出部31は、所定の識別器で構成され、その識別器に、非依存特徴量を入力する。識別器は、非依存特徴量の入力に対して、その非依存特徴量に対応する音響信号(のフレーム)の音声らしさを表す音声尤度を出力する。
音声尤度算出部31は、識別器が出力する音声尤度を、判定部34に供給するとともに、必要に応じて、音声閾値設定部32、及び、非音声閾値設定部33に供給する。
音声閾値設定部32は、仮音声区間を検出するための音声閾値TH1を設定し、判定部34に供給する。
非音声閾値設定部33は、仮非音声区間を検出するための非音声閾値TH2を設定し、判定部34に供給する。
ここで、音声閾値TH1及び非音声閾値TH2としては、あらかじめ決められた固定の値を採用することもできるし、可変の値を採用することもできる。
音声閾値TH1及び非音声閾値TH2として可変の値を採用する場合には、音声閾値TH1及び非音声閾値TH2は、例えば、音声尤度算出部31で得られる音声尤度に応じて設定することができる。
すなわち、音声閾値設定部32は、例えば、音声尤度算出部31から供給される音声尤度の(移動)平均値に、所定の正の値を加算した値、又は、1以上の正の値を乗算した値等を、音声閾値TH1に設定することができる。
また、非音声閾値設定部33は、例えば、音声尤度算出部31から供給される音声尤度の平均値に、所定の負の値を加算した値、又は、1以下の正の値を乗算した値等を、非音声閾値TH2に設定することができる。
判定部34は、音声尤度算出部31からの音声尤度について、音声閾値設定部32からの音声閾値TH1と、非音声閾値設定部33からの非音声閾値TH2とを用いた閾値処理を行うことで、音声尤度算出部31からの音声尤度に対応する音響信号のフレームが、仮音声区間であるかどうかと、仮非音声区間であるかどうかとを判定し、その判定結果を、仮検出情報として、ノーマライズ部24(図2)に供給する。
図4は、図3の音声尤度算出部31で求められる音声尤度の例を示す図である。
図4において、横軸は、時間を表し、縦軸は、音声尤度を表す。
図4では、音声尤度は、0ないし1の範囲の値をとり、音響信号(のフレーム)が音声らしいほど、音声尤度は大になる。すなわち、0に近い音声尤度は、音響信号が音声らしくないこと(雑音らしいこと)を表し、1に近い音声尤度は、音響信号が音声らしいことを表す。
図4では、音声閾値TH1及び非音声閾値TH2は、音声尤度に応じて設定されており、したがって、時間の経過に伴って更新されている。
判定部34(図3)は、例えば、音声尤度が、音声閾値TH1以上(又は、より大)である場合、その音声尤度に対応する音響信号のフレームが、仮音声区間であると判定する。
また、判定部34は、音声尤度が、非音声閾値TH2以下(又は、未満)である場合、その音声尤度に対応する音響信号のフレームが、仮非音声区間であると判定する。
音声尤度が、音声閾値TH1以上ではなく、かつ、非音声閾値TH2以下でもない場合には、その音声尤度に対応する音響信号のフレームについては、仮音声区間であるとも判定されず、仮非音声区間であるとも判定されない。
<ノーマライズ部24の構成例>
図5は、図2のノーマライズ部24の構成例を示すブロック図である。
図5において、ノーマライズ部24は、推定用特徴量取得部41、音声区間音量推定部42、非音声区間音量推定部43、及び、ノーマライズ演算部44を有する。
推定用特徴量取得部41には、特徴量抽出部22(図2)からの複数次元の依存特徴量が供給される。
推定用特徴量取得部41は、特徴量抽出部22からの複数次元の依存特徴量から、音声区間の音量を表す音声区間音量F1、及び、非音声区間の音量を表す非音声区間音量F2を推定するのに用いる推定用特徴量を取得する。
すなわち、推定用特徴量取得部41は、例えば、特徴量抽出部22からの複数次元の依存特徴量のうちの、ある1つの次元の依存特徴量を、推定用特徴量として取得する。
また、推定用特徴量取得部41は、例えば、特徴量抽出部22からの複数次元の依存特徴量の、その複数次元についての平均値を、推定用特徴量として取得する(求める)。
あるいは、推定用特徴量取得部41は、例えば、特徴量抽出部22からの複数次元の依存特徴量のうちの、各フレームで最大になっている次元の特徴量(例えば、対数メルフィルタバンクの出力のうちの最大の周波数成分)を、推定用特徴量として取得する。
ここで、ノーマライズ部24では、推定用特徴量から、音声区間音量F1及び非音声区間音量F2が推定され、その音声区間音量F1及び非音声区間音量F2を用いて、複数次元の依存特徴量のすべての次元(の依存特徴量)がノーマライズされる。そのため、推定用特徴量としては、その推定用特徴量から推定される音声区間音量F1及び非音声区間音量F2によって、複数次元の依存特徴量のすべての次元をノーマライズすることができる物理量を採用することが望ましい。
推定用特徴量取得部41は、推定用特徴量を、音声区間音量推定部42、及び、非音声区間音量推定部43に供給する。
音声区間音量推定部42、及び、非音声区間音量推定部43には、推定用特徴量取得部41から推定用特徴量が供給される他、仮検出部23からの仮検出情報が供給される。
音声区間音量推定部42は、仮検出部23からの仮検出情報から、仮音声区間を認識する。さらに、音声区間音量推定部42は、推定用特徴量取得部41からの推定用特徴量のうちの、仮音声区間の推定用特徴量を用いて、音声区間の音量を表す音声区間音量F1を推定し、ノーマライズ演算部44に供給する。
非音声区間音量推定部43は、仮検出部23からの仮検出情報から、仮非音声区間を認識する。さらに、非音声区間音量推定部43は、推定用特徴量取得部41からの推定用特徴量のうちの、仮非音声区間の推定用特徴量を用いて、非音声区間の音量を表す非音声区間音量F2を推定し、ノーマライズ演算部44に供給する。
ノーマライズ演算部44には、音声区間音量推定部42から音声区間音量F1が供給されるとともに、非音声区間音量推定部42から非音声区間音量F2が供給される他、特徴量抽出部22(図2)から、依存特徴量が供給される。
ノーマライズ演算部44は、音声区間音量推定部42からの音声区間音量F1、及び、非音声区間音量推定部42からの非音声区間音量F2を用いて、特徴量抽出部22からの複数次元の依存特徴量の各次元をノーマライズする。
すなわち、ノーマライズ演算部44は、複数次元の依存特徴量の各次元について、例えば、非音声区間音量F2に相当する成分が0になり、音声区間音量F1に相当する成分が1になるように、シフトとスケーリングとを行う。
具体的には、例えば、ノーマライズ演算部44は、複数次元の依存特徴量の各次元について、その次元の依存特徴量から、非音声区間音量F2を減算し、その減算結果を、音声区間音量F1と非音声区間音量F2との差分F1-F2で除算することにより、依存特徴量をノーマライズする。
ノーマライズ演算部44は、複数次元の依存特徴量のすべての次元について、同一の音声区間音量F1と非音声区間音量F2を用いてノーマライズを行うことにより得られる、ノーマライズ後の依存特徴量を、ノーマライズ特徴量として、本検出部25(図2)に供給する。
図6は、図5の推定用特徴量取得部41で取得される推定用特徴量、音声区間音量推定部42で推定される音声区間音量F1、及び、非音声区間音量推定部43で推定される非音声区間音量F2の例を示す図である。
図6において、横軸は、時間を表し、縦軸は、推定用特徴量、音声区間音量F1、及び、非音声区間音量F2を示している。
図6では、推定用特徴量として、特徴量抽出部22からの複数次元の依存特徴量のうちの、各フレームで最大になっている次元の特徴量(例えば、対数メルフィルタバンクの出力のうちの最大の周波数成分)が採用されている。
音声区間音量推定部42は、推定用特徴量のうちの、仮音声区間の推定用特徴量の、例えば、(移動)平均を、音声区間音量F1として推定する。
すなわち、音声区間音量推定部42は、仮音声区間のみにおいて、その仮音声区間の推定用特徴量の平均を、音声区間音量F1として推定し、その結果得られる最新の推定値によって、ノーマライズ演算部44に供給する音声区間音量F1を更新する。
したがって、音声区間音量F1は、仮音声区間以外の区間では、現在の値がそのまま維持され、仮音声区間でのみ更新される。
同様に、非音声区間音量推定部43は、推定用特徴量のうちの、仮非音声区間の推定用特徴量の、例えば、(移動)平均を、非音声区間音量F2として推定する。
すなわち、非音声区間音量推定部43は、仮非音声区間のみにおいて、その仮非音声区間の推定用特徴量の平均を、非音声区間音量F2として推定し、その結果得られる最新の推定値によって、ノーマライズ演算部44に供給する非音声区間音量F2を更新する。
したがって、非音声区間音量F2は、仮非音声区間以外の区間では、現在の値がそのまま維持され、仮非音声区間でのみ更新される。
なお、音声区間音量推定部42では、仮音声区間以外の区間では、音声区間音量F1を、所定値だけ小さい値に更新する(徐々に減衰させる)ことができる。
仮音声区間以外の区間において、音声区間音量F1を、所定値だけ小さい値に更新することにより、一時的に、大音量での発話が行われた後、適切な音量の発話が、次に行われるまで、音声区間音量F1が大になって、適切なノーマライズが行われなくなることを防止することができる。
また、音声区間音量F1は、最新の推定値に更新する他、最新の推定値と直前の推定値とのうちの大きい方の推定値に更新することができる。非音声区間音量F2についても、同様である。
<音声区間検出処理>
図7は、図2の音声区間検出部11が行う音声区間検出処理の例を説明するフローチャートである。
特徴量抽出部21及び22は、音響信号をフレーム化し、ステップS11において、音響信号のフレームのうちの、まだ注目フレームに選択していない最も古いフレームを、注目フレームに選択し、処理は、ステップS12に進む。
ステップS12では、特徴量抽出部21は、注目フレームから、非依存特徴量を抽出し、仮検出部23、及び、本検出部25に供給して、処理は、ステップS13に進む。
ステップS13では、特徴量抽出部22は、注目フレームから、複数次元の依存特徴量を抽出し、ノーマライズ部24に供給して、処理は、ステップS14に進む。
ステップS14では、仮検出部23は、特徴量抽出部21からの非依存特徴量、さらには、音声閾値TH1及び非音声閾値TH2を用いて、仮音声区間及び仮非音声区間の検出(音声区間及び非音声区間の仮検出)を行う。
すなわち、仮検出部23(図3)において、音声尤度算出部31は、特徴量抽出部21からの非依存特徴量から、音声尤度を取得し、音声閾値設定部32、非音声閾値設定部33、及び、判定部34に供給する。
判定部34は、音声尤度算出部31からの音声尤度が、音声閾値設定部32で設定された音声閾値TH1以上である場合、注目フレームが仮音声区間であると判定し、その旨を表す仮検出情報を、ノーマライズ部24に供給する。
また、音声尤度が、非音声閾値設定部33で設定された非音声閾値TH2以下である場合、判定部34は、注目フレームが仮非音声区間であると判定し、その旨を表す仮検出情報を、ノーマライズ部24に供給する。
その後、処理は、ステップS14からステップS15に進み、ノーマライズ部24(図5)において、推定用特徴量取得部41は、特徴量抽出部22から供給される複数次元の依存特徴量から、推定用特徴量を取得し、音声区間音量推定部42、及び、非音声区間音量推定部43に供給して、処理は、ステップS16に進む。
ステップS16では、非音声区間音量推定部43は、ステップS14で仮検出部23からノーマライズ部24に供給される仮検出情報から、注目フレームが、仮非音声区間であるかどうかを判定する。
ステップS16において、注目フレームが、仮非音声区間であると判定された場合、処理は、ステップS17に進み、非音声区間音量推定部43は、推定用特徴量取得部41からの推定用特徴量のうちの、注目フレームを含む仮非音声区間の推定用特徴量を用いて、非音声区間音量F2を推定し、その結果得られる推定値によって、非音声区間音量F2を更新して、処理は、ステップS18に進む。
また、ステップS16において、注目フレームが、仮非音声区間でないと判定された場合、処理は、ステップS17をスキップして、ステップS18に進み、音声区間音量推定部43は、ステップS14で仮検出部23からノーマライズ部24に供給される仮検出情報から、注目フレームが、仮音声区間であるかどうかを判定する。
ステップS18において、注目フレームが、仮音声区間であると判定された場合、処理は、ステップS19に進み、音声区間音量推定部42は、推定用特徴量取得部41からの推定用特徴量のうちの、注目フレームを含む仮音声区間の推定用特徴量を用いて、音声区間音量F1を推定し、その結果得られる推定値によって、音声区間音量F1を更新して、処理は、ステップS21に進む。
また、ステップS18において、注目フレームが、仮音声区間でないと判定された場合、処理は、ステップS20に進み、音声区間音量推定部42は、音声区間音量F1を、所定値だけ小さい値に更新して(減衰させて)、処理は、ステップS21に進む。
ステップS21では、ノーマライズ演算部44は、音声区間音量推定部42で得られた最新の音声区間音量F1(の更新値)、及び、非音声区間音量推定部42で得られた最新の非音声区間音量F2(の更新値)を用いて、特徴量抽出部22からの複数次元の依存特徴量の各次元をノーマライズする。
そして、ノーマライズ演算部44は、ノーマライズ後の依存特徴量を、ノーマライズ特徴量として、本検出部25(図2)に供給して、処理は、ステップS22に進む。
ステップS22では、本検出部25は、ノーマライズ演算部44からのノーマライズ特徴量と、特徴量抽出部21からの非依存特徴量とを用いて、音声区間を検出し、その検出結果を表す検出情報を、処理部12(図1)に供給して、処理は、ステップS23に進む。
ステップS23では、仮検出部23(図3)において、音声閾値設定部32及び非音声閾値設定部33は、ステップS14で音声尤度算出部31から供給される音声尤度を用いて、音声閾値TH1及び非音声閾値TH2を、それぞれ設定(更新)する。このステップS23で設定された音声閾値TH1及び非音声閾値TH2を用いて、次のステップS14での仮音声区間と仮非音声区間の検出が行われる。
その後、処理は、ステップS23からステップS11に戻り、以下、同様の処理が繰り返される。
図8は、依存特徴量とノーマライズ特徴量との例を示す図である。
図8では、複数次元の依存特徴量のうちの、ある1次元の依存特徴量と、その依存特徴量をノーマライズ部24でノーマライズしたノーマライズ特徴量とが示されている。
以上のように、音声区間検出部11では、仮音声区間の依存特徴量(から取得される推定用特徴量)の平均等を、音声区間音量F1として推定するとともに、仮非音声区間の依存特徴量(から取得される推定用特徴量)の平均等を、非音声区間音量F2として推定するので、音声区間音量F1、及び、非音声区間音量F2を、迅速かつ精度良く推定することができる。
すなわち、例えば、仮音声区間や仮非音声区間ではなく、任意の区間の依存特徴量から、音声区間音量F1や非音声区間音量F2の推定を行う場合には、任意の区間の依存特徴量の数が少ないと、その少ない数の依存特徴量に含まれる音声の成分と非音声の成分との比率によって、音声区間音量F1や非音声区間音量F2が変動し、音声区間音量F1、及び、非音声区間音量F2を、精度良く推定することが難しい。
任意の区間の依存特徴量から、音声区間音量F1や非音声区間音量F2の推定を、精度良く行うためには、ある程度多い数の依存特徴量が必要になり、時間を要する。
これに対して、音声区間検出部11では、仮音声区間の依存特徴量から、音声区間音量F1を推定するので、少ない数の仮音声区間の依存特徴量によって、音声区間音量F1を精度良く推定すること、すなわち、音声区間音量F1を、迅速かつ精度良く推定することができる。同様の理由により、非音声区間音量F2も、迅速かつ精度良く推定することができる。
以上のように、音声区間音量F1及び非音声区間音量F2を、迅速かつ精度良く推定することができる結果、そのような音声区間音量F1及び非音声区間音量F2を用いたノーマライズ、さらには、音声区間の検出も、迅速かつ精度良く行うことができる。
すなわち、音声区間検出部11を起動してから、短期間で、音声区間の検出を精度良く行うことができる。
さらに、精度の良いノーマライズ(さらには、音声区間の検出)を、迅速行うことができるので、環境が変化しても、その変化後の環境において、精度の良いノーマライズを、短期間で行うこと、すなわち、環境にロバストなノーマライズを、迅速に行うことができる。
また、音声区間検出部11では、複数次元の依存特徴量の各次元のノーマライズが、同一の音声区間音量F1及び非音声区間音量F2を用いて行われるので、音声区間の検出の精度が低下することを防止することができる。
すなわち、複数次元の依存特徴量が、例えば、複数であるN個の周波数帯域の周波数成分であるとすると、音声区間検出部11では、N個の周波数成分のすべてが、同一の音声区間音量F1及び非音声区間音量F2を用いてノーマライズされる。
したがって、依存特徴量のノーマライズ前とノーマライズ後とで、スペクトルの形状(ある周波数成分と他の周波数成分との関係)等の音響的な特徴は、(ほぼ)維持される。そのため、スペクトルに比較的依存する識別器を用いて音声区間の検出を行う場合に、ノーマライズによって、スペクトルの形状が変化することに起因する、音声区間の検出の精度の低下を防止することができる。
<音声区間検出部11の他の構成例>
図9は、図1の音声区間検出部11の他の構成例を示すブロック図である。
なお、図中、図2の場合と対応する部分については、同一の符号を付してあり、その説明は、適宜省略する。
図9において、音声区間検出部11は、特徴量抽出部21、仮検出部23、ノーマライズ部24、本検出部25、及び、特徴量抽出部61を有する。
したがって、図9の音声区間検出部11は、特徴量抽出部21、仮検出部23、ノーマライズ部24、本検出部25を有する点で、図2の場合と共通する。
但し、図9の音声区間検出部11は、特徴量抽出部22が設けられておらず、特徴量抽出部61が新たに設けられている点で、図2の場合と相違する。
図9では、ノーマライズ部24に、第2の特徴量である依存特徴量が供給されるのではなく、音響信号が供給される。
そして、ノーマライズ部24では、音響信号が、図2の音声区間検出部11の場合と同様にノーマライズされ、そのノーマライズ後の音響信号が、特徴量抽出部61に供給される。
特徴量抽出部61は、ノーマライズ部24からのノーマライズ後の音響信号から、特徴量を抽出し、本検出部25に供給する。
ノーマライズ部24から特徴量抽出部61に供給されるノーマライズ後の音響信号は、音量の影響が(ほぼ)一定の音響信号になっており、そのような音響信号から、特徴量抽出部61で抽出される特徴量は、元の音響信号(ノーマライズ前の音響信号)の音量に依存しない非依存特徴量となる。すなわち、特徴量抽出部61で、どのような種類の特徴量が抽出される場合であっても、ノーマライズ後の音響信号から抽出される特徴量は、ノーマライズ前の音響信号の音量に依存しない(音量の影響が一定の)非依存特徴量となる。
図9の音声区間検出部11によれば、図2の場合と同様に、ノーマライズ、さらには、音声区間の検出を、迅速かつ精度良く行うことができる。
なお、図9の音声区間検出部11で行われるノーマライズは、依存特徴量ではなく、音響信号を対象とする点で、図2の音声区間検出部11で行われるノーマライズと異なるだけである。したがって、図9の音声区間検出部11で行われるノーマライズの説明は、上述した、図2の音声区間検出部11で行われるノーマライズの説明において、「依存特徴量」を、「音響信号」に読み替えた説明になる。
<本技術を適用したコンピュータの説明>
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
図10は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
なお、本技術は、以下のような構成をとることができる。
<1>
音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
を備える音響処理装置。
<2>
前記第1の特徴量と、前記第2の特徴量とは、異なる種類の特徴量である
<1>に記載の音響処理装置。
<3>
前記第1の特徴量は、音量に非依存の特徴量である
<2>に記載の音響処理装置。
<4>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
<1>ないし<3>のいずれかに記載の音響処理装置。
<5>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
<1>ないし<3>のいずれかに記載の音響処理装置。
<6>
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
<4>又は<5>に記載の音響処理装置。
<7>
前記ノーマライズ部は、前記仮音声区間の前記第2の特徴量の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記第2の特徴量の平均値を、前記非音声区間音量として推定する
<1>ないし<6>のいずれかに記載の音響処理装置。
<8>
前記第2の特徴量は、複数の次元の特徴量であり、
前記ノーマライズ部は、前記複数の次元の特徴量のすべてを、前記音声区間音量、及び、前記非音声区間音量を用いてノーマライズする
<1>ないし<7>のいずれかに記載の音響処理装置。
<9>
ノーマライズが行われた前記第2の特徴量を用いて、音声区間を検出する検出部をさらに備える
<1>ないし<8>のいずれかに記載の音響処理装置。
<10>
音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズすることと
を含む音響処理方法。
<11>
音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。
<12>
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
を備える音響処理装置。
<13>
前記特徴量は、音量に非依存の特徴量である
<12>に記載の音響処理装置。
<14>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
<12>又は<13>に記載の音響処理装置。
<15>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
<12>又は<13>に記載の音響処理装置。
<16>
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
<14>又は<15>に記載の音響処理装置。
<17>
前記ノーマライズ部は、前記仮音声区間の前記音響信号の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記音響信号の平均値を、前記非音声区間音量として推定する
<12>ないし<16>のいずれかに記載の音響処理装置。
<18>
ノーマライズが行われた前記音響信号を用いて、音声区間を検出する検出部をさらに備える
<12>ないし<17>のいずれかに記載の音響処理装置。
<19>
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることと
を含む音響処理方法。
<20>
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。
11 音声区間検出部, 12 処理部, 21,22 特徴量抽出部, 23 仮検出部, 24 ノーマライズ部, 25 本検出部, 31 音声尤度算出部, 32 音声閾値設定部, 33 非音声閾値設定部, 34 判定部, 41 推定用特徴量取得部, 42 音声区間音量推定部, 43 非音声区間音量推定部, 44 ノーマライズ委演算部, 61 特徴量抽出部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (20)

  1. 音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
    前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
    を備える音響処理装置。
  2. 前記第1の特徴量と、前記第2の特徴量とは、異なる種類の特徴量である
    請求項1に記載の音響処理装置。
  3. 前記第1の特徴量は、音量に非依存の特徴量である
    請求項2に記載の音響処理装置。
  4. 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
    請求項1に記載の音響処理装置。
  5. 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
    請求項4に記載の音響処理装置。
  6. 前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
    請求項4に記載の音響処理装置。
  7. 前記ノーマライズ部は、前記仮音声区間の前記第2の特徴量の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記第2の特徴量の平均値を、前記非音声区間音量として推定する
    請求項1に記載の音響処理装置。
  8. 前記第2の特徴量は、複数の次元の特徴量であり、
    前記ノーマライズ部は、前記複数の次元の特徴量のすべてを、前記音声区間音量、及び、前記非音声区間音量を用いてノーマライズする
    請求項1に記載の音響処理装置。
  9. ノーマライズが行われた前記第2の特徴量を用いて、音声区間を検出する検出部をさらに備える
    請求項1に記載の音響処理装置。
  10. 音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
    前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズすることと
    を含む音響処理方法。
  11. 音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
    前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
    して、コンピュータを機能させるためのプログラム。
  12. 音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
    前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
    を備える音響処理装置。
  13. 前記特徴量は、音量に非依存の特徴量である
    請求項12に記載の音響処理装置。
  14. 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
    請求項12に記載の音響処理装置。
  15. 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
    請求項14に記載の音響処理装置。
  16. 前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
    請求項14に記載の音響処理装置。
  17. 前記ノーマライズ部は、前記仮音声区間の前記音響信号の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記音響信号の平均値を、前記非音声区間音量として推定する
    請求項12に記載の音響処理装置。
  18. ノーマライズが行われた前記音響信号を用いて、音声区間を検出する検出部をさらに備える
    請求項12に記載の音響処理装置。
  19. 音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
    前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることと
    を含む音響処理方法。
  20. 音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
    前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
    して、コンピュータを機能させるためのプログラム。
JP2015071025A 2015-03-31 2015-03-31 音響処理装置、音響処理方法、及び、プログラム Active JP6724290B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015071025A JP6724290B2 (ja) 2015-03-31 2015-03-31 音響処理装置、音響処理方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015071025A JP6724290B2 (ja) 2015-03-31 2015-03-31 音響処理装置、音響処理方法、及び、プログラム

Publications (3)

Publication Number Publication Date
JP2016191788A true JP2016191788A (ja) 2016-11-10
JP2016191788A5 JP2016191788A5 (ja) 2018-05-17
JP6724290B2 JP6724290B2 (ja) 2020-07-15

Family

ID=57245541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015071025A Active JP6724290B2 (ja) 2015-03-31 2015-03-31 音響処理装置、音響処理方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP6724290B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028300A (ja) * 2017-07-31 2019-02-21 日本電信電話株式会社 音響信号処理装置、方法及びプログラム
WO2021014649A1 (ja) * 2019-07-25 2021-01-28 日本電信電話株式会社 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
CN112954122A (zh) * 2021-01-22 2021-06-11 成都天奥信息科技有限公司 甚高频话音通信系统话音比选方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04295895A (ja) * 1991-03-26 1992-10-20 Matsushita Electric Ind Co Ltd 音声認識装置
JP2000250565A (ja) * 1999-02-25 2000-09-14 Ricoh Co Ltd 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体
JP2000330598A (ja) * 1999-05-18 2000-11-30 Mitsubishi Electric Corp 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
US20050182620A1 (en) * 2003-09-30 2005-08-18 Stmicroelectronics Asia Pacific Pte Ltd Voice activity detector
JP2014112190A (ja) * 2012-11-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 信号区間分類装置、信号区間分類方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04295895A (ja) * 1991-03-26 1992-10-20 Matsushita Electric Ind Co Ltd 音声認識装置
JP2000250565A (ja) * 1999-02-25 2000-09-14 Ricoh Co Ltd 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体
JP2000330598A (ja) * 1999-05-18 2000-11-30 Mitsubishi Electric Corp 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
US20050182620A1 (en) * 2003-09-30 2005-08-18 Stmicroelectronics Asia Pacific Pte Ltd Voice activity detector
JP2014112190A (ja) * 2012-11-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 信号区間分類装置、信号区間分類方法、およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028300A (ja) * 2017-07-31 2019-02-21 日本電信電話株式会社 音響信号処理装置、方法及びプログラム
WO2021014649A1 (ja) * 2019-07-25 2021-01-28 日本電信電話株式会社 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
JPWO2021014649A1 (ja) * 2019-07-25 2021-01-28
JP7218810B2 (ja) 2019-07-25 2023-02-07 日本電信電話株式会社 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
CN112954122A (zh) * 2021-01-22 2021-06-11 成都天奥信息科技有限公司 甚高频话音通信系统话音比选方法
CN112954122B (zh) * 2021-01-22 2022-10-11 成都天奥信息科技有限公司 甚高频话音通信系统话音比选方法

Also Published As

Publication number Publication date
JP6724290B2 (ja) 2020-07-15

Similar Documents

Publication Publication Date Title
CN106663446B (zh) 知晓用户环境的声学降噪
US9536547B2 (en) Speaker change detection device and speaker change detection method
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
EP4235647A3 (en) Determining dialog states for language models
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
KR20120080409A (ko) 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US10269375B2 (en) Methods and systems for classifying audio segments of an audio signal
WO2017045429A1 (zh) 一种音频数据的检测方法、系统及存储介质
US9076446B2 (en) Method and apparatus for robust speaker and speech recognition
JP2018534618A (ja) ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置
JP2019045576A (ja) 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
US11250860B2 (en) Speaker recognition based on signal segments weighted by quality
JPWO2019244298A1 (ja) 属性識別装置、属性識別方法、およびプログラム
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
Zouhir et al. Power Normalized Gammachirp Cepstral (PNGC) coefficients-based approach for robust speaker recognition
Girirajan et al. Hybrid Feature Extraction Technique for Tamil Automatic Speech Recognition System in Noisy Environment
Tu et al. Computational auditory scene analysis based voice activity detection
JP2015022357A (ja) 情報処理システム、情報処理方法および情報処理装置
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JP2007010822A (ja) 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
JP2015064602A (ja) 音響信号処理装置、音響信号処理方法および音響信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200608

R151 Written notification of patent or utility model registration

Ref document number: 6724290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151