JP2007114413A - 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム - Google Patents

音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム Download PDF

Info

Publication number
JP2007114413A
JP2007114413A JP2005304770A JP2005304770A JP2007114413A JP 2007114413 A JP2007114413 A JP 2007114413A JP 2005304770 A JP2005304770 A JP 2005304770A JP 2005304770 A JP2005304770 A JP 2005304770A JP 2007114413 A JP2007114413 A JP 2007114413A
Authority
JP
Japan
Prior art keywords
speech
voice
feature
discrimination
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005304770A
Other languages
English (en)
Inventor
Koichi Yamamoto
幸一 山本
Akinori Kawamura
聡典 河村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005304770A priority Critical patent/JP2007114413A/ja
Priority to US11/582,547 priority patent/US20070088548A1/en
Priority to CNA2006101447605A priority patent/CN1953050A/zh
Publication of JP2007114413A publication Critical patent/JP2007114413A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特徴ベクトルに対し、適切な変換を施すことのできる音声非音声判別装置を提供する。
【解決手段】既知の学習サンプルに基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段120と、学習サンプルに基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段122と、音響信号をフレーム単位に分割するフレーム分割手段102と、複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段104と、特徴ベクトルを特徴変換パラメータを利用して線形変換を行う特徴変換手段106と、線形変換された後の特徴ベクトルと音声非音声モデルのパラメータにより定まる音声非音声モデルとの照合結果に基づいて、複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段110とを備えた。
【選択図】 図1

Description

本発明は、音響信号が音声信号であるか非音声信号であるかを判別する音声非音声判別装置、さらに音声区間を検出する音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラムに関するものである。
従来の音響信号の音声/非音声判別処理においては、入力信号から短時間パワー、ケプストラムなどの単一フレーム特徴量を抽出し、得られた特徴量を閾値処理することで当該フレームの音声/非音声を判別していた。しかし、このような単一フレーム特徴量は、特徴量の時間変化情報を含んでおらず、音声/非音声判別にとって最適な特徴量とは言えなかった。
そこで、例えば非特許文献1に示す方法においては、フレームごとに抽出されたMFCC(Mel Frequency Cepstrum Coefficient)を複数フレームにわたって結合したベクトルを特徴量として用いている。
このように、複数フレームにわたって抽出した特徴ベクトルを用いることで時間変化情報を抽出することが可能になる。これにより、雑音環境下においてもロバストな音声/非音声判別を実現することができる。
一方、複数フレームにわたって特徴ベクトルを抽出した場合、その次元は高次元となり演算量が大幅に増加してしまうという問題がある。これを解決する方法としては、変換行列を用いた線形変換を用いて低次元の特徴ベクトルに変換する方法が知られている。
一般に高次元特徴ベクトルを低次元特徴ベクトルに変換する際、主成分分析(PCA: Principal Component Analysis)やKL展開(Karhunen−Loeve expansion)などの変換行列が用いられている(例えば、「非特許文献2」参照)。
N. Binder, K. Markov, R. Gruhn and S. Nakamura, "SPEECH-NON-SPEECH SEPARATION WITH GMMS", 日本音響学会2001秋季研究発表会 Vol.1, pp. 141-142, 2001
石井健一郎,上田修功,前田英作,村瀬洋,"わかりやすいパターン認識",オーム社 (1998-08-20出版,ISBN:4274131491)
しかしながら、上述のように低次元特徴ベクトルに変換する際の変換行列は、変換前の学習サンプルを最良近似する基準で学習されたものであり、音声と非音声を判別する上で、最適な変換を選択しているとはいえなかった。
さらに、このようにより低次元の特徴ベクトルに変換する場合だけでなく、等しい次元への変換などの場合にも、より最適な変換を行うことができれば、より精度よく音声/非音声判別を行うことができる。
本発明は、上記に鑑みてなされたものであって、特徴ベクトルに対し、適切な変換を施すことのできる音声非音声判別装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声非音声判別装置であって、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段と、前記学習サンプルの前記音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段と、音響信号を取得する音響信号取得手段と、前記音響信号取得手段が取得した前記音響信号をフレーム単位に分割するフレーム分割手段と、前記フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段と、前記特徴ベクトル抽出手段により抽出された前記特徴ベクトルを前記特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換手段と、前記特徴変換手段により線形変換された後の前記特徴ベクトルと前記音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段とを備えたことを特徴とする。
また、本発明の他の形態は、音声区間検出装置であって、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段と、前記学習サンプルの前記音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段と、音響信号を取得する音響信号取得手段と、前記音響信号取得手段が取得した前記音響信号をフレーム単位に分割するフレーム分割手段と、前記フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段と、前記特徴ベクトル抽出手段により抽出された前記特徴ベクトルを前記特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換手段と、前記特徴変換手段により線形変換された後の前記特徴ベクトルと前記音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段と、前記音声非音声判別手段による判別結果に基づいて、音声区間を検出する音声区間検出手段とを備えたことを特徴とする。
また、本発明の他の形態は、音声非音声判別方法であって、音響信号を取得する音響信号取得ステップと、前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップとを有することを特徴とする。
また、本発明の他の形態は、音声区間検出方法であって、音響信号を取得する音響信号取得ステップと、前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと、前記音声非音声判別ステップにおける判別結果に基づいて、音声区間を検出する音声区間検出ステップとを有することを特徴とする。
また、本発明の他の形態は、音声非音声判別処理をコンピュータに実行させる音声非音声判別プログラムであって、音響信号を取得する音響信号取得ステップと、前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列のを利用して線形変換を行う特徴変換ステップと、前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップとを有することを特徴とする。
また、本発明の他の形態は、音声区間検出処理をコンピュータに実行させる音声区間検出プログラムであって、音響信号を取得する音響信号取得ステップと、前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと、前記音声非音声判別ステップにおける判別結果に基づいて、音声区間を検出する音声区間検出ステップとを有することを特徴とする。
本発明にかかる音声非音声判別装置は、特徴変換パラメータ保持手段が、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持し、音声非音声判別パラメータ保持手段が、学習サンプルの音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持し、音響信号取得手段が、音響信号を取得し、フレーム分割手段が、音響信号取得手段が取得した音響信号をフレーム単位に分割し、特徴ベクトル抽出手段が、フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出し、特徴変換手段が、特徴ベクトル抽出手段により抽出された特徴ベクトルを特徴変換パラメータ保持手段が保持している変換行列を利用して線形変換を行い、音声非音声判別手段が、特徴変換手段により線形変換された後の特徴ベクトルと音声非音声判別パラメータ保持手段が保持するパラメータにより定まる音声非音声モデルとの照合結果に基づいて、複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別するので、特徴ベクトルに対し、適切な変換を施すことができ、より正確に音声非音声判別を行うことができるという効果を奏する。
また、本発明の他の形態にかかる音声区間検出装置は、特徴変換パラメータ保持手段が、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持し、音声非音声判別パラメータ保持手段が、学習サンプルの音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持し、音響信号取得手段が、音響信号を取得し、フレーム分割手段が、音響信号取得手段が取得した音響信号をフレーム単位に分割し、特徴ベクトル抽出手段が、フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出し、特徴変換手段が、特徴ベクトル抽出手段により抽出された特徴ベクトルを特徴変換パラメータ保持手段が保持している変換行列を利用して線形変換を行い、音声非音声判別手段が、特徴変換手段により線形変換された後の特徴ベクトルと音声非音声判別パラメータ保持手段が保持するパラメータにより定まる音声非音声モデルとの照合結果に基づいて、複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別し、音声区間検出手段が、音声非音声判別手段による判別結果に基づいて、音声区間を検出するので、特徴ベクトルに対し、適切な変換を施すことができ、より正確に音声非音声判別を行うことができ、さらにより正確に音声区間を検出することができるという効果を奏する。
以下に、本発明にかかる音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
(実施の形態1)
図1は、実施の形態1にかかる音声区間検出装置10の機能構成を示すブロック図である。音声区間検出装置10は、AD変換部100と、フレーム分割部102と、特徴抽出部104と、特徴変換部106と、モデル照合部108と、音声非音声判別部110と、音声区間検出部112と、特徴変換パラメータ保持部120と、音声非音声判別パラメータ保持部122とを備えている。
AD変換部100は、所定のサンプリング周波数で入力信号をA/D変換する。フレーム分割部102は、AD変換部100から出力されるデジタル信号を予め定められた単位のフレームに分割する。特徴抽出部104は、フレーム分割部102により得られた複数フレームの音響信号からn次元の特徴ベクトルを抽出する。
特徴変換パラメータ保持部120は、変換行列のパラメータを保持している。
特徴変換部106は、特徴抽出部104において得られたn次元特徴ベクトルを変換行列によりm次元(m<n)の特徴ベクトルに線形変換する。なお、他の例としては、n=mであってもよい。すなわち、次元の等しい異なる特徴ベクトルに変換してもよい。
音声非音声判別パラメータ保持部122は、音声非音声判別パラメータを保持している。ここで、音声非音声判別パラメータとは、特徴ベクトルと照合する音声モデルのパラメータおよび非音声モデルのパラメータである。
モデル照合部108は、特徴変換部106で得られたm次元の特徴ベクトルと、予め学習により得た音声モデルとの照合およびm次元の特徴ベクトルと非音声モデルとの照合を行い、評価値を算出する。なお、ここで照合する音声モデルおよび非音声モデルは、それぞれ音声非音声判別パラメータ保持部122に保持されている音声非音声判別パラメータにより定まる。
音声非音声判別部110は、モデル照合部108の評価値を閾値処理することにより、入力フレームが音声フレームであるか非音声フレームであるかを判別する。音声区間検出部112は、音声非音声判別部110により得られた各フレームの判別結果に基づいて、音響信号における音声区間を検出する。
図2は、実施の形態1にかかる音声区間検出装置10による音声区間検出処理を示すフローチャートである。まず、AD変換部100は、音声区間検出を行うべき音響信号を取得し、この音響信号をアナログ信号からデジタル信号に変換する(ステップS100)。次に、フレーム分割部102は、ステップS100において得られたデジタル信号を所定の間隔で、所定の長さのフレームに分割する(ステップS102)。なお、長さは、20〜30msecが好ましい。また、間隔は、10〜20msec程度が好ましい。このとき、フレーム化処理を行う窓関数としてハミング窓を用いる。
次に特徴抽出部104は、ステップS102において得られた複数フレームの音響信号からn次元特徴ベクトルを抽出する(ステップS104)。具体的には、まず、各フレームの音響信号からMFCCを抽出する。MFCCは、当該フレームのスペクトル特徴を表している。MFCCは、音声認識における特徴量として広く用いられている。
次に、時刻tにおける前後3〜6フレームのMFCCから、スペクトルの動的な特徴量であるデルタを計算する。そして、n次元特徴ベクトルx(t)を得る。
Figure 2007114413
Figure 2007114413
上記(式1)および(式2)において、Xi(t)はi次元目のMFCC、Δi(t)はそのデルタ特徴量、Kはデルタを計算するフレーム数、NはMFCCの次元数を表している。
(式2)に示すように、特徴ベクトルxは、MFCC(静的特徴量)およびデルタ(動的特徴量)を結合したベクトルである。さらに、(式2)に示すように、特徴ベクトルxは、複数フレームのスペクトル情報を反映した特徴量である。
このように、複数フレームを用いることにより、スペクトルの時間変化情報を抽出することができる。すなわち、単一フレームから抽出した特徴量(例えば、MFCC)に比べて、音声/非音声判別においてより有効な情報を含んでいる。
また、他の例としては、単一フレーム特徴量を複数フレームにわたって結合したベクトルを利用してもよい。この場合には、時刻tにおける特徴ベクトルx(t)は以下の式で表すことができる。
Figure 2007114413
Figure 2007114413
ここで、z(t)は時刻tにおけるMFCC、Zは結合に使用する当該フレーム前後のフレーム数を表している。
(式4)により得られる特徴ベクトルxも複数フレームを利用した特徴量である。さらに、(式4)により得られる特徴ベクトルxスペクトルの時間変化を含んだ特徴量である。
この例においては、単一フレーム特徴量としてMFCCを用いていたが、これにかえて、FFTパワースペクトルを用いてもよい。また、他の例としては、メルフィルタバンク分析、LPCケプストラムなどの特徴量を用いてもよい。
次に、モデル照合部108は、ステップS104において得られたn次元特徴ベクトルを、特徴変換パラメータ保持部120に保持されている変換行列を利用して、m次元(m<n)の特徴ベクトルに変換する(ステップS106)。
特徴ベクトルは、複数フレーム情報を利用した特徴量であり単一フレーム特徴量と比較して一般に高次元の特徴ベクトルになっている。そこで特徴変換部106は、演算量の削減を目的としてn次元特徴ベクトルxを、以下の線形変換によりm次元(m<n)の特徴ベクトルyに変換する。
Figure 2007114413
ここで、Pはm×nの変換行列を表している。変換行列Pの値は、分布の最良近似を目的とした主成分分析やKL展開などの手法を用いて予め学習することにより得られる値である。変換行列Pについては後述する。
次に、モデル照合部108は、ステップS106において得られたm次元の特徴ベクトルyおよび予め学習した音声および非音声GMM(Gaussian Mixture Model)を用いて音声らしさを表す評価値LR(対数尤度比)を計算する(ステップS108)。
Figure 2007114413
ここで、g( | speech)は、音声GMM、g( | nonspeech)は非音声GMMの対数尤度を表している。
各GMMは、EMアルゴリズム(Expectation−Maximization algorithm)を用いた最大尤度基準により学習することにより得られる。各GMMの値については後述する。
また、本実施の形態においては、音声/非音声のモデルとしてGMMを用いているが、これに限定されるものではない。他の例としては、例えばHMM(Hidden Markov Model),VQコードブックなどを用いてもよい。
次に、音声非音声判別部110は、ステップS108において得られた音声らしさを表す評価値LRに基づいて、以下の閾値処理により各フレームの音声/非音声を判別する(ステップS110)。
Figure 2007114413
ここで、θは音声らしさの閾値を表しており、例えば、θ=0のように値を指定する。
次に、音声区間検出部112は、ステップS110において得られたフレーム毎の判別結果に基づいて入力信号の音声始端および音声終端を検出する(ステップS112)。以上で、音声区間検出装置10による音声区間検出処理が完了する。
図3は、音声始端および音声終端を検出する処理を説明するための図である。音声区間検出部112は、有限状態オートマトンを用いて音声始終端を検出する。このオートマトンは、フレーム毎の判別結果を基に動作している。
初期状態は非音声である。このときタイマカウンタはゼロに設定される。判定結果が音声である場合には、タイマカウンタが時間計測を開始する。そして音声始端確定時間以上連続して判定結果が音声であった場合には、音声始端であると判断する。すなわち音声始端を確定する。そして、タイマカウンタをゼロにリセットし、音声状態に遷移する。一方、判別結果が非音声であった場合には、引き続き非音声状態とする。
音声状態に遷移した後、判別結果が非音声である場合には、タイマカウンタが時間計測を開始する。そして、音声終端確定時間以上連続した判定結果が非音声であった場合には、音声終端であると判断する。すなわち音声終端を確定する。
始端確定時間および終端確定時間は、予め定められている。始端確定時間は、例えば60msecと設定しておく。また、終端確定時間は、80msecと設定しておく。
このように、入力された複数フレームの音響信号からn次元特徴ベクトルを抽出することにより、特徴量の時間変化情報も利用することできる。すなわち、単一フレーム特徴量を用いた場合に比べて、音声/非音声判別に有効な特徴量を抽出することができる。これにより、より正確な音声/非音声判別を行うことができる。さらにより正確に音声区間検出を行うことができる。
以上説明した処理のうち、特徴変換部106が利用する変換行列、すなわち特徴変換パラメータ保持部120に保持されている変換行列のパラメータ(変換行列Pの要素)は学習サンプルを用いて予め学習させることにより得られるものである。ここで、学習サンプルとは、音声非音声モデルとの照合による評価値が既知の音響信号である。
学習により得られた変換行列のパラメータが特徴変換パラメータ保持部120に登録される。なお、変換行列Pのパラメータは、行列の要素、GMMのパラメータは、平均ベクトル、分散、混合重みである。
同様に、モデル照合部108が利用する音声非音声判別パラメータ、すなわち音声非音声判別パラメータ保持部122に保持されている音声非音声判別パラメータも、学習サンプルを用いて予め学習させることにより得られるものである。学習により得られた音声非音声判別パラメータ(音声/非音声GMM)が音声非音声判別パラメータ保持部122に登録される。
本実施の形態にかかる音声区間検出装置10は、識別的学習手法である識別的特徴抽出(DFE:Discriminative Feature Extraction)を用いて、変換行列Pおよび音声/非音声GMMのパラメータの最適化を行う。
DFEは、最小分類誤り(MCE:Minimum Classification Error)に基づく一般化確率的降下法(GPD: Generalized Probabilistic Descent)により、特徴抽出器(変換行列P)と識別器(音声/非音声GMM)を同時に最適化する枠組みを有している。主に音声認識、文字認識などの分野で適用されその有効性が報告されているものである。DFEを用いた文字認識技術については、例えば、特許第3537949号公報に詳細が記載されている。
以下、本実施の形態にかかる音声区間検出装置10に登録されている変換行列Pおよび音声/非音声GMMを決定するための処理について説明する。分類するクラスを音声(C1)および非音声(C2)の2クラスとする。変換行列Pおよび音声/非音声GMMにおける全パラメータ集合(変換行列Pの要素、GMMの平均ベクトル、分散、混合重み)をΛとする。g1は音声GMMを、g2は非音声GMMを表している。
このとき、学習サンプルから抽出したm次元特徴ベクトル
Figure 2007114413
について、
Figure 2007114413
を定義する。
(式8)に示すdk(y;Λ)は、gkとgiの対数尤度比を表している。dk(y;Λ)は、学習サンプルである音響信号が正解カテゴリに分類される場合は負の値となる。また、不正解カテゴリに分類させる場合は正の値となる。ここで、分類誤りによる損失lk(y;Λ)を(式9)のように定義する。
Figure 2007114413
ここで、α>0である。
この損失関数では、誤認識の程度が大きいほど1に近づき、小さいほど0に近づく。パラメータ集合Λの学習は、損失関数を小さくすることを目的として行われ、Λは、(式10)のように更新される。
Figure 2007114413
ここで、εはステップサイズパラメータと呼ばれる小さな正数である。予め用意しておいた学習サンプルについて(式10)を用いてパラメータΛを更新することにより、パラメータ集合Λの最適化、すなわち変換行列Pおよび音声/非音声GMMの両パラメータを誤識別の度合いが小さくなるよう最適化することができる。
なお、DFEでパラメータを調整する際、変換行列Pおよび音声/非音声GMMの初期値を設定しておく必要がある。本実施の形態においては、Pの初期値として主成分分析で計算したm×nの変換行列を用いることとする。また、GMMの初期値としてEMアルゴリズムで計算したパラメータを用いることとする。
このように、複数フレームから抽出したn次元特徴量をm(m<n)次元特徴量に変換する際に使用する変換行列Pおよび音声/非音声GMMのパラメータを、誤識別の度合いが小さくなるよう識別的な学習法を用いて調整するので、音声/非音声判別性能を向上させることができる。さらに、音声区間を正確に検出することができる。
前述したように、変換行列Pについては主成分分析やKL展開を用いて学習することが可能である。また、音声非音声判別パラメータについてはEMアルゴリズムなどを用いて学習することが可能である。主成分分析やKL展開は学習サンプルに対する最良近似に基づいている。また、EMアルゴリズムは学習サンプルに対する最大尤度基準に基づいている。これらは、いずれも音声/非音声を判別する上で最適なパラメータ学習法であるとは言えない。
これに対し、本実施の形態にかかる音声区間検出装置10が利用する変換行列Pおよび音声/非音声GMMは、識別的学習手法である識別的特徴抽出(DFE)を用いて決定されているので、より正確な音声/非音声判別および音声区間検出を行うことができる。
図4は、実施の形態1に係る音声区間検出装置10のハードウェア構成を示す図である。音声区間検出装置10は、ハードウェア構成として、音声区間検出装置10における音声区間検出処理を実行する音声区間検出プログラムなどが格納されているROM52と、ROM52内のプログラムに従って音声区間検出装置10の各部を制御するCPU51と、音声区間検出装置10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べた音声区間検出装置10における音声区間検出プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、音声区間検出プログラムは、音声区間検出装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態の音声区間検出プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
そうした変更例としては、本実施の形態においては音声区間検出まで行う音声区間検出装置について説明したが、音声非音声判別まで行う音声非音声判別装置であってもよい。音声非音声判別装置は、図1に示す音声区間検出装置の機能構成のうち音声区間検出部112を備えず、音声非音声の判別結果を出力する。
(実施の形態2)
図5は、実施の形態2にかかる音声区間検出装置10の機能構成を示すブロック図である。実施の形態2にかかる音声区間検出装置10は、損失計算部130と、パラメータ更新部132とを備えている。
損失計算部130は、特徴抽出部104により得られたm次元の特徴ベクトルと音声モデルおよび非音声モデルをそれぞれ照合する。そして、実施の形態1において説明した(式9)の損失を計算する。
パラメータ更新部132は、(式9)で表される損失関数を小さくするように、特徴変換パラメータ保持部120に保持されている変換行列のパラメータおよび音声非音声判別パラメータ保持部122に保持されている音声非音声判別パラメータを更新する。具体的には、実施の形態1において説明した(式10)に示すようなΛを算出する。
また、実施の形態2にかかる音声区間検出装置10は、学習モードと音声非音声判別モードとを有している。実施の形態2にかかる音声区間検出装置10は、学習モードにおいては、学習サンプルとしての音響信号に対する処理を行うことにより、パラメータ更新部132によるパラメータ更新を行う。
図6は、実施の形態2にかかる音声区間検出装置10が、学習モードにおいて行うパラメータ更新処理を示すフローチャートである。学習モードにおいては、AD変換部100は、学習サンプルをアナログ信号からデジタル信号に変換する(ステップS100)。次に、フレーム分割部102および特徴抽出部104の処理により学習サンプルに対するn次元特徴ベクトルが算出される(ステップS102,ステップS104)。さらに、特徴変換部106の処理により、m次元特徴ベクトルが得られる(ステップS106)。
次に、損失計算部130は、ステップS106において得られたm次元特徴ベクトルを利用して、実施の形態1において説明した(式9)に示す損失を計算する(ステップS120)。次に、音声非音声判別パラメータ保持部122は、損失関数に基づいて、特徴変換パラメータ保持部120に保持されている変換行列のパラメータ(変換行列Pの要素)および音声非音声判別パラメータ保持部122に保持されている音声非音声判別パラメータ(音声GMMおよび非音声GMM)を更新する(ステップS122)。以上で学習モードにおけるパラメータ更新処理が完了する。
なお、以上の処理を繰り返し実行してもよい。これにより、パラメータ集合Λの最適化を行うことができる。すなわち、変換行列P、音声/非音声GMMの両パラメータを誤識別の度合いが小さくなるように最適化することができる。
音声非音声判別モードにおいては、実施の形態1において図2を用いて説明した音声区間検出処理を行う。なお、この場合、学習モード時に学習した変換行列Pおよび音声/非音声GMMを用いて、判別対象となる音響信号の音声/非音声を判別する。
具体的には、ステップS106においては、学習モード時に選択したn次元特徴ベクトルxを利用する。また、学習モード時に学習した変換行列Pを用いてm次元特徴ベクトルyに変換する。また、ステップS108においては、学習モード時に学習した音声/非音声GMMを用いて対数尤度比を算出する。
このように、学習モードを有し、入力された学習サンプルを用いて変換行列および音声/非音声GMMのパラメータを、誤識別の度合いが小さくなるよう識別的な学習法を用いて調整することにより、音声/非音声判別性能を向上させることができる。さらに音声区間検出性能を向上させることができる。
なお、実施の形態2にかかる音声区間検出装置10のこれ以外の構成および処理は、実施の形態1にかかる音声区間検出装置10の構成および処理と同様である。
実施の形態1にかかる音声区間検出装置10の機能構成を示すブロック図である。 実施の形態1にかかる音声区間検出装置10による音声区間検出処理を示すフローチャートである。 音声始端および音声終端を検出する処理を説明するための図である。 実施の形態1に係る音声区間検出装置10のハードウェア構成を示す図である。 実施の形態2にかかる音声区間検出装置10の機能構成を示すブロック図である。 実施の形態2にかかる音声区間検出装置10が、学習モードにおいて行うパラメータ更新処理を示すフローチャートである。
符号の説明
10 音声区間検出装置
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 AD変換部
102 フレーム分割部
104 特徴抽出部
106 特徴変換部
108 モデル照合部
110 音声非音声判別部
112 音声区間検出部
120 特徴変換パラメータ保持部
122 音声非音声判別パラメータ保持部
130 損失計算部
132 パラメータ更新部

Claims (17)

  1. 予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段と、
    前記学習サンプルの前記音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段と、
    音響信号を取得する音響信号取得手段と、
    前記音響信号取得手段が取得した前記音響信号をフレーム単位に分割するフレーム分割手段と、
    前記フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
    前記特徴ベクトル抽出手段により抽出された前記特徴ベクトルを前記特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換手段と、
    前記特徴変換手段により線形変換された後の前記特徴ベクトルと前記音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段と
    を備えたことを特徴とする音声非音声判別装置。
  2. 前記特徴変換手段により線形変換された後の前記特徴ベクトルを、前記音声非音声判別パラメータ保持手段が保持する前記音声非音声モデルのパラメータにより定まる前記音声非音声モデルと照合する照合手段をさらに備え、
    前記音声非音声判別手段は、前記照合手段による照合結果と、予め定められた閾値とを比較することにより、前記複数フレームに含まれる所定のフレームが音声フレームであるか非音声フレームであるかを判別することを特徴とする請求項1に記載の音声非音声判別装置。
  3. 前記学習サンプルの前記音声非音声尤度を算出する音声非音声尤度算出手段と、
    前記音声非音声尤度算出手段により算出された前記音声非音声尤度に基づいて、前記変換行列のパラメータを算出する特徴変換パラメータ算出手段と
    をさらに備え、
    前記特徴変換パラメータ保持手段は、前記特徴変換パラメータ算出手段により算出された前記変換行列のパラメータを保持することを特徴とする請求項2に記載の音声非音声判別装置。
  4. 前記特徴変換パラメータ算出手段は、前記学習サンプルに対し算出された前記音声非音声尤度と、当該学習サンプルに対し設定されている前記音声非音声尤度との差がより小さくなるような前記変換行列のパラメータを算出することを特徴とする請求項3に記載の音声非音声判別装置。
  5. 学習モードと音声非音声判別モードとを有し、
    前記特徴変換パラメータ算出手段は、前記学習モードに設定されているときに前記変換行列のパラメータを算出することを特徴とする請求項3または4に記載の音声非音声判別装置。
  6. 前記音声非音声判別手段は、前記音声非音声判別モードに設定されているときに、前記入力フレームが前記音声フレームであるか前記非音声フレームであるかを判別することを特徴とする請求項5に記載の音声非音声判別装置。
  7. 前記学習サンプルの前記音声非音声尤度を算出する音声非音声尤度算出手段と、
    前記音声非音声尤度算出手段により算出された前記音声非音声尤度に基づいて、前記音声モデルおよび前記非音声モデルそれぞれのパラメータを算出する音声非音声判別パラメータ算出手段と
    をさらに備え、
    前記音声非音声判別パラメータ保持手段は、前記音声非音声判別パラメータ算出手段により算出された前記音声モデルおよび前記非音声モデルそれぞれのパラメータを保持することを特徴とする請求項2に記載の音声非音声判別装置。
  8. 前記音声非音声判別パラメータ算出手段は、前記学習サンプルに対し算出された前記音声非音声尤度と、当該学習サンプルに対し設定されている前記音声非音声尤度との差がより小さくなるような前記音声モデルおよび前記非音声モデルのパラメータを算出することを特徴とする請求項7に記載の音声非音声判別装置。
  9. 学習モードと音声非音声判別モードとを有し、
    前記音声非音声判別パラメータ算出手段は、前記学習モードに設定されているときに前記変換行列のパラメータを算出することを特徴とする請求項7または8に記載の音声非音声判別装置。
  10. 前記特徴変換手段は、前記特徴抽出手段により抽出された前記特徴ベクトルをより低次元の前記特徴ベクトルに線形変換することを特徴とする請求項1から9のいずれか一項に記載の音声非音声判別装置。
  11. 前記特徴抽出手段は、前記音響信号のスペクトルの静的特徴量と動的特徴量とを結合したn次元の前記特徴ベクトルを抽出することを特徴とする請求項1から10のいずれか一項に記載の音声非音声判別装置。
  12. 前記特徴抽出手段は、複数フレームそれぞれの前記音響信号のスペクトル特徴量を結合したn次元の前記特徴ベクトルを抽出することを特徴とする請求項1から11のいずれか一項に記載の音声非音声判別装置。
  13. 予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段と、
    前記学習サンプルの前記音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段と、
    音響信号を取得する音響信号取得手段と、
    前記音響信号取得手段が取得した前記音響信号をフレーム単位に分割するフレーム分割手段と、
    前記フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
    前記特徴ベクトル抽出手段により抽出された前記特徴ベクトルを前記特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換手段と、
    前記特徴変換手段により線形変換された後の前記特徴ベクトルと前記音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段と、
    前記音声非音声判別手段による判別結果に基づいて、音声区間を検出する音声区間検出手段と
    を備えたことを特徴とする音声区間検出装置。
  14. 音響信号を取得する音響信号取得ステップと、
    前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
    前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
    前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと
    を有することを特徴とする音声非音声判別方法。
  15. 音響信号を取得する音響信号取得ステップと、
    前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
    前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
    前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと、
    前記音声非音声判別ステップにおける判別結果に基づいて、音声区間を検出する音声区間検出ステップと
    を有することを特徴とする音声区間検出方法。
  16. 音声非音声判別処理をコンピュータに実行させる音声非音声判別プログラムであって、
    音響信号を取得する音響信号取得ステップと、
    前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
    前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
    前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと
    を有することを特徴とする音声非音声判別プログラム。
  17. 音声区間検出処理をコンピュータに実行させる音声区間検出プログラムであって、
    音響信号を取得する音響信号取得ステップと、
    前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
    前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
    前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと、
    前記音声非音声判別ステップにおける判別結果に基づいて、音声区間を検出する音声区間検出ステップと
    を有することを特徴とする音声区間検出プログラム。
JP2005304770A 2005-10-19 2005-10-19 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム Pending JP2007114413A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005304770A JP2007114413A (ja) 2005-10-19 2005-10-19 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
US11/582,547 US20070088548A1 (en) 2005-10-19 2006-10-18 Device, method, and computer program product for determining speech/non-speech
CNA2006101447605A CN1953050A (zh) 2005-10-19 2006-10-19 用于确定语音/非语音的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005304770A JP2007114413A (ja) 2005-10-19 2005-10-19 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム

Publications (1)

Publication Number Publication Date
JP2007114413A true JP2007114413A (ja) 2007-05-10

Family

ID=37949207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005304770A Pending JP2007114413A (ja) 2005-10-19 2005-10-19 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム

Country Status (3)

Country Link
US (1) US20070088548A1 (ja)
JP (1) JP2007114413A (ja)
CN (1) CN1953050A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210617A (ja) * 2008-02-29 2009-09-17 Internatl Business Mach Corp <Ibm> 発話区間検出システム、方法及びプログラム
JP2012063726A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音質補正装置及び音声補正方法
KR20190019464A (ko) * 2017-08-17 2019-02-27 국방과학연구소 소리 데이터 분류 장치 및 방법
WO2021107333A1 (ko) * 2019-11-25 2021-06-03 광주과학기술원 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법
WO2022137439A1 (ja) * 2020-12-24 2022-06-30 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム
WO2022157973A1 (ja) * 2021-01-25 2022-07-28 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
CN101083627B (zh) * 2007-07-30 2010-09-15 华为技术有限公司 检测数据属性的方法及系统、数据属性分析装置
WO2009041402A1 (ja) 2007-09-25 2009-04-02 Nec Corporation 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
US8046221B2 (en) * 2007-10-31 2011-10-25 At&T Intellectual Property Ii, L.P. Multi-state barge-in models for spoken dialog systems
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
CN102148030A (zh) * 2011-03-23 2011-08-10 同济大学 一种语音识别的端点检测方法
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
CN103903629B (zh) * 2012-12-28 2017-02-15 联芯科技有限公司 基于隐马尔科夫链模型的噪声估计方法和装置
KR101619260B1 (ko) * 2014-11-10 2016-05-10 현대자동차 주식회사 차량 내 음성인식 장치 및 방법
CN110895929B (zh) * 2015-01-30 2022-08-12 展讯通信(上海)有限公司 语音识别方法及装置
CN105496447B (zh) * 2016-01-15 2019-02-05 厦门大学 具有主动降噪和辅助诊断功能的电子听诊器
CN108428448A (zh) * 2017-02-13 2018-08-21 芋头科技(杭州)有限公司 一种语音端点检测方法及语音识别方法
CN111862985B (zh) * 2019-05-17 2024-05-31 北京嘀嘀无限科技发展有限公司 一种语音识别装置、方法、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0416999A (ja) * 1990-05-11 1992-01-21 Seiko Epson Corp 音声認識装置
JPH0458297A (ja) * 1990-06-27 1992-02-25 Toshiba Corp 有音検出装置および有音検出方法
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JPH09245125A (ja) * 1996-03-06 1997-09-19 Toshiba Corp パターン認識装置及び同装置における辞書修正方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2000081893A (ja) * 1998-09-04 2000-03-21 Matsushita Electric Ind Co Ltd 話者適応化または話者正規化方法
JP2003303000A (ja) * 2002-03-15 2003-10-24 Matsushita Electric Ind Co Ltd 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置
JP2004192603A (ja) * 2002-07-16 2004-07-08 Nec Corp パターン特徴抽出方法及びその装置
JP2004272201A (ja) * 2002-09-27 2004-09-30 Matsushita Electric Ind Co Ltd 音声端点を検出する方法および装置
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
US20020138254A1 (en) * 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
US6327565B1 (en) * 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US6563309B2 (en) * 2001-09-28 2003-05-13 The Boeing Company Use of eddy current to non-destructively measure crack depth
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0416999A (ja) * 1990-05-11 1992-01-21 Seiko Epson Corp 音声認識装置
JPH0458297A (ja) * 1990-06-27 1992-02-25 Toshiba Corp 有音検出装置および有音検出方法
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JPH09245125A (ja) * 1996-03-06 1997-09-19 Toshiba Corp パターン認識装置及び同装置における辞書修正方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2000081893A (ja) * 1998-09-04 2000-03-21 Matsushita Electric Ind Co Ltd 話者適応化または話者正規化方法
JP2003303000A (ja) * 2002-03-15 2003-10-24 Matsushita Electric Ind Co Ltd 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置
JP2004192603A (ja) * 2002-07-16 2004-07-08 Nec Corp パターン特徴抽出方法及びその装置
JP2004272201A (ja) * 2002-09-27 2004-09-30 Matsushita Electric Ind Co Ltd 音声端点を検出する方法および装置
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210617A (ja) * 2008-02-29 2009-09-17 Internatl Business Mach Corp <Ibm> 発話区間検出システム、方法及びプログラム
JP2012063726A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音質補正装置及び音声補正方法
KR20190019464A (ko) * 2017-08-17 2019-02-27 국방과학연구소 소리 데이터 분류 장치 및 방법
KR101957993B1 (ko) * 2017-08-17 2019-03-14 국방과학연구소 소리 데이터 분류 장치 및 방법
WO2021107333A1 (ko) * 2019-11-25 2021-06-03 광주과학기술원 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법
WO2022137439A1 (ja) * 2020-12-24 2022-06-30 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム
WO2022157973A1 (ja) * 2021-01-25 2022-07-28 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
US20070088548A1 (en) 2007-04-19
CN1953050A (zh) 2007-04-25

Similar Documents

Publication Publication Date Title
JP2007114413A (ja) 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
US9875743B2 (en) Acoustic signature building for a speaker from multiple sessions
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US9460722B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
EP2048656B1 (en) Speaker recognition
JP2006079079A (ja) 分散音声認識システム及びその方法
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
EP1005019B1 (en) Segment-based similarity measurement method for speech recognition
JP4717872B2 (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
KR20110010233A (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
JP3004023B2 (ja) 音声認識装置
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
KR101925252B1 (ko) 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치
KR100429896B1 (ko) 잡음 환경에서의 음성신호 검출방법 및 그 장치
Abushariah et al. Voice based automatic person identification system using vector quantization
JP3493849B2 (ja) 音声認識装置
EP1189202A1 (en) Duration models for speech recognition
EP1063634A2 (en) System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy
Ning Developing an isolated word recognition system in MATLAB
JP3704080B2 (ja) 音声認識方法及び音声認識装置並びに音声認識プログラム
JPH0736477A (ja) パターンマッチング方式
JPH0997095A (ja) 音声認識装置
JPH05249987A (ja) 音声検出方法および音声検出装置
Djeghader et al. Hybridization process for text-independent speaker identification based on vector quantization model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100810