JP2006154819A - 音声判別方法 - Google Patents

音声判別方法 Download PDF

Info

Publication number
JP2006154819A
JP2006154819A JP2005339164A JP2005339164A JP2006154819A JP 2006154819 A JP2006154819 A JP 2006154819A JP 2005339164 A JP2005339164 A JP 2005339164A JP 2005339164 A JP2005339164 A JP 2005339164A JP 2006154819 A JP2006154819 A JP 2006154819A
Authority
JP
Japan
Prior art keywords
speech
probability
sound
frame
discrimination method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005339164A
Other languages
English (en)
Inventor
Chan-Woo Kim
燦佑 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2006154819A publication Critical patent/JP2006154819A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】あるサウンドフレームが音声区間であるかノイズ(無音)区間であるか(音声の有無)の判別において、音声区間及びノイズ区間をそれぞれ状態として処理し、確率密度関数及び仮説検証などを利用することにより、処理されているサウンドデータが音声区間であるかノイズ区間であるかを把握する能力を画期的に高め得る音声判別方法を提供する。
【解決手段】音声判別方法は、オーディオ信号が入力されるとサウンドデータをサウンドフレームに分割する段階と、前記サウンドフレームから必要なパラメータを求める段階と、前記求めたパラメータを使用して、状態jにおける特徴ベクトルの確率密度関数をモデリングする段階と、前記求めたパラメータ及び前記モデリングした確率密度関数から、該当サウンドフレームが無音の確率Pと音声の確率Pを求める段階と、前記求めた各確率に対して仮説検証を行う段階とを含む。
【選択図】図1

Description

本発明は、音声検出方法に関し、特に、音声の有無を効果的に判別し得る音声判別方法に関する。
音声通話の場合、一般に、通話者が全体時間の約60%の時間は話していないという研究結果が発表された。即ち、音声でない周辺のノイズのみが送られる約60%の時間は、低いビットレートで符号化を行うか、又はCNG(Comfort Noise Generation)技法を用いてノイズをモデリングする方法が効率的である。従って、移動通信のような無線電話通信のためには、可変レート音声符号化(variable rate speech coding)が多く用いられている。この可変レート音声符号化においては、どの区間が音声区間であり、どの区間が音声区間でないノイズ区間であるかを判断しなければならず、このために必要なものがVAD(Voice Activity Detector)であり、音声通話の符号化において効率よくビットレートを下げるためには、適切に設計されたVADが必須である。
ITU−T(International Telecommunication Union - Telecommunication Standardization Sector)が発表したG.729においては、音声アクティビティ検出のために、オーディオ信号が入力されると、LSD(Line Spectral Density)、通話区間のフルバンドエネルギー(full band energy;Ef)、ローバンドエネルギー(low band energy;El)、及びZCR(Zero Crossing Rate)などのパラメータを求め、スペクトル歪(spectral distortion;ΔS)を求めた後、前記求めた各値を実験結果に基づいて定めた特定常数と比較して、現在の通話区間が音声区間であるかノイズ区間であるかを判別する。
GSM(Global System for Mobile communication)で使用されるVADの場合、オーディオ信号が入力されると、ノイズスペクトルを推定し、推定されたスペクトルを用いてノイズ抑圧フィルタ(noise suppression filter)を構成し、入力された通話区間をそのノイズ抑圧フィルタに通過させた後にエネルギーを計算し、計算されたエネルギーを既に設定された臨界値と比較して、現在の通話区間が音声区間であるかノイズ区間であるかを判別する。
しかしながら、このような方法は、非常に多くのパラメータに依存しており、過去の経験的データのみに基づいて、現在のサウンドデータにおける音声の有無を判別するため、実質的に、音声の特性上、通話者の年齢及び性別によってその特性に大きな差があり、よって、経験的データによっては確実な性能を期待し得ないという問題があった。
経験的データを利用する他に、確率的な理論を導入して音声の有無を判別することによりVADの性能を向上させる方法も提案されたが、この方法も、通話者又は状況によって時々刻々変化する音声の特性及び種類別に異なるスペクトルを有するノイズの特性を考慮していないため、音声有無の判別性能に制限があるという問題があった。
本発明は、このような従来技術の問題を解決するためになされたもので、異種のノイズに幅広く対応して、音声の有無を効果的に判別し得る音声判別方法を提供することを目的とする。
上記の目的を達成するために、本発明に係る音声判別方法は、オーディオ信号が入力されるとサウンドデータをサウンドフレームに分割する段階と、そのサウンドフレームから必要なパラメータを求める段階と、該求めたパラメータを使用して、状態jにおける特徴ベクトル(feature vector)の確率密度関数(Probability Density Function;PDF)をモデリングする段階と、これら求めたパラメータ及びモデリングした確率密度関数から、該当サウンドフレームが無音(silence)の確率Pと音声(speech)の確率Pとを求める段階と、これら求めた各確率に対して仮説検証(hypothesis testing)を行う段階と、を含むことを特徴とする。
また、前記パラメータは、サウンドフレームから得られるサウンド特徴ベクトルと、状態jにおけるk番目のミクスチャーでの平均特徴ベクトルmjkと、状態jにおけるk番目のミクスチャーのための加重値(weighting value)cjkと、状態jにおけるk番目のミクスチャーのための共分散行列Cjkと、ある1フレームが無音である事前確率P(H)と、ある1フレームが音声である事前確率P(H)と、無音と仮定した場合、現在状態が無音のj番目の状態である事前確率P(H0,j|H)と、音声と仮定した場合、現在状態が音声のj番目の状態である事前確率P(H1,j|H)と、を含むことを特徴とする。
また、前記パラメータは、実際の音声及びノイズを収集して録音しておいたサウンドデータベースで予め学習(training)を行うことにより得ることを特徴とする。
また、前記特徴ベクトルの確率密度関数は、ガウス混合(Gaussian Mixture)、ログ−凹(log-concave)関数、及び楕円形対称(elliptically symmetric)関数のいずれか1つによりモデリングされることを特徴とする。
また、前記仮説検証は、サウンドフレームが無音の確率と音声の確率、及び基準(criterion)により、該当サウンドフレームが音声であるか無音であるかを決定することを特徴とする。
また、その基準は、MAP(Maximum a Posteriori)基準、ML(Maximum Likelihood)、ミニマックス(minimax)基準、ネイマン−ピアソン(Neyman-Pearson)テスト、及びCFAR(Constant False-Alarm Rate)テストのいずれか1つであることを特徴とする。
また、前記該当サウンドフレームが音声の確率を求める前に、選択的に、以前に得られたノイズスペクトルの結果に基づいて、サブトラクション法(subtraction technique)を用いるノイズスペクトルサブトラクション(noise spectral subtraction)を行う段階をさらに含むことを特徴とする。
また、前記仮説検証が終了すると、選択的に、ハングオーバースキーマ(Hang Over Scheme)を適用する段階をさらに含むことを特徴とする。
また、最終結果により該当フレームがノイズ区間と決定されると、該ノイズ区間のノイズスペクトルをアップデートする段階をさらに含むことを特徴とする。
本発明に係る音声判別方法は、音声区間及びノイズ(無音)区間をそれぞれ状態として処理することにより、多様なスペクトルを有する音声やノイズに対する適応度を高め、予め多様なノイズを収集してデータベース化して学習することにより、異種のノイズに幅広く対応することができ、確率的に最適化されたパラメータをEMアルゴリズムの方式で求めることにより、処理されているサウンドデータが音声区間であるかノイズ区間であるかを把握する能力を画期的に高め得るという効果がある。
本発明に係る音声検出方法のアルゴリズムは、次の2つの仮説を立て、それを検証することをベースとする。2つの仮説は次のとおりである。
1)H0:音声がなく、ノイズだけ存在する区間
2)H1:音声がノイズと共に存在する区間
本発明においては、この仮説を検証するために再帰的演算を行う。
以下、添付した図面を参照して本発明の好ましい実施形態を説明する。
本発明の説明において、関連の公知機能又は構成に関する具体的な説明が本発明の要旨を不明確にすると判断された場合、その詳細な説明は省略する。
図1は本発明に係る音声判別方法の一実施形態を示すフローチャートである。
図1に示すように、オーディオ信号が入力されると、入力されたオーディオ信号からサウンドフレームを得る(S10)。通常、入力されたオーディオ信号のサウンドデータを1フレーム当たり約10msの間隔で分割し、このように、全体サウンドデータの範囲を10msの間隔で分割したとき、範囲内の分割された各値を確率プロセスでは状態(state)という。
次に、そのサウンドフレームから必要なパラメータを求める(S20)。パラメータは、サウンドフレームから得られるサウンド特徴ベクトルと、状態jにおけるk番目のミクスチャーでの平均特徴ベクトルmjkと、状態jにおけるk番目のミクスチャーのための加重値cjkと、状態jにおけるk番目のミクスチャーのための共分散行列Cjkと、ある1フレームが無音である事前確率P(H)と、ある1フレームが音声である事前確率P(H)と、無音と仮定した場合、現在状態が無音のj番目の状態である事前確率P(H0,j|H)と、音声と仮定した場合、現在状態が音声のj番目の状態である事前確率P(H1,j|H)と、を含む。また、パラメータは、多様な実際の音声及びノイズを収集して録音しておいたサウンドデータベースで予めデータを集める過程である学習を行うことにより得ることができる。かつ、音声と無音に割り当てる状態の数は、該当アプリケーションが要求する性能及びパラメータファイルのサイズによって決定する。ミクスチャーの数も、状態の数と同様の方法で決定する。
図2は状態及びミクスチャーの数を決定する実験結果の一例を示すグラフである。
図2の(A)は状態の数による音声認識率を示すグラフであり、状態の数が少ない場合及び多い場合に音声認識率が低いことを示す。図2の(B)はミクスチャーの数による音声認識率を示すグラフであり、同様に、ミクスチャーの数が少ない場合及び多い場合に音声認識率が低いことを示す。従って、これら状態の数及びミクスチャーの数は、あくまでも実験により決定しなければならない。
学習過程は、本質的に音声認識で用いられる学習過程と同様である。ここには様々なパラメータ推定(parameter estimation)方法があるが、一般に、EM(Expectation - Maximization)アルゴリズムが用いられる。
求めたパラメータを使用して、状態jにおける特徴ベクトルの確率密度関数をガウス混合でモデリングする(S30)。ここで、ガウス混合の他に、ログ−凹関数、楕円形対称関数などを使用することもできる。
ガウス混合により確率密度関数を描く方法は、L.R.Rabiner氏とB−H.JUANG氏が著述した『Fundamentals of Speech Recognition(Englewood Cliffs, NJ: Prentice Hall, 1993)』と、S.E.Levinson氏、L.R.Rabiner氏、及びM.M.Sondhi氏が著述した『An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition(Bell System Tech. J., Apr. 1983)』に記載されており、当該技術分野における通常の知識を有する者に広く知られているため、詳細な説明は省略する。
ガウス混合による状態jにおける確率密度関数は次の数式1で示される。数式1中、Nはサンプルベクトルの数、すなわち、全体サンプルの数である。
前述したように、サウンドフレームからのパラメータの抽出が終了すると、抽出されたパラメータから該当サウンドフレームが無音の確率Pを求め(S40)、音声の確率Pを求める(S60)。無音の確率及び音声の確率の両方を計算するのは、サウンドフレームが無音であるか音声であるかがまだ分からないためである。ここで、PとPは次の数式2及び数式3に示すとおりである。
このとき、音声の場合は、計算段階S60の前にノイズスペクトルサブトラクションを経るが、以前に得られたノイズスペクトルの結果に基づいてサブトラクション法を用いる(S50)。
とPを求めた後に仮説検証を経るが(S70)、該仮説検証は、P、Pと推定統計的価値基準により、該当サウンドフレームが音声であるか無音であるかを決定する段階である。ここで、その基準は、MAP基準であって、次の数式4ように表示される。
この仮説検証の基準としては、MAP基準の他にも、ML、ミニマックス基準、ネイマン−ピアソンテスト、及びCFARテストなどを用いることもできる。
仮説検証が終了するとハングオーバースキーマを適用する(S80)。ハングオーバースキーマとは、[f]、[th]、[h]の発音などの低エネルギー無声音(low energy unvoiced sound)がノイズに埋もれているのでノイズと判断したり、[k]、[p]、[t]の発音などの無声停止音(unvoiced stop sound)のように、強い部分のエネルギーが出た後に弱い部分のエネルギーが出てくるのを無音の開始と誤って判断することを防止するためのもので、オーディオ信号のサウンドデータにおける約10ms間隔で分割された多数のサウンドフレームが音声区間であるか無音区間であるかを判別するときに、音声区間が続いている途中で突然中間の1区間が無音区間に変わった後に再び音声区間が続く場合、わずか10msの時間に音声が突然無音に変わることはないため、中間の無音と判別された区間を任意に音声区間と決定する技法をいう。
このように、ハングオーバースキーマの適用が終了すると、該当サウンドフレームが無音区間であるか音声区間であるかが決定される。仮りに、ハングオーバースキーマを適用した後、該当サウンドフレームが無音(すなわち、ノイズ)区間であると決定されると、その結果からノイズスペクトルが分かり、ノイズスペクトルサブトラクション(S50)のために、ノイズスペクトルをアップデートするアルゴリズムを用いてノイズスペクトルをアップデートする(S90)。
前述したような音声判別過程で、ハングオーバースキーマ(S80)とノイズスペクトルサブトラクション(S50)は、既知の方法であり、選択的に用いることができる。また、本発明は、音声録音において、ノイズ部分を除いて音声部分のみ録音して保存空間を節約する方法としても用いることができ、有無線電話において、可変レート符号化装置での一部の過程として用いることもできる。
本発明に係る音声判別方法の一実施形態を示すフローチャートである。 状態及びミクスチャーの数を決定する実験結果の一例を示すグラフである。

Claims (14)

  1. オーディオ信号が入力されるとサウンドデータをサウンドフレームに分割する段階と、
    前記サウンドフレームから必要なパラメータを求める段階と、
    前記求めたパラメータを使用して、状態jにおける特徴ベクトルの確率密度関数をモデリングする段階と、
    前記求めたパラメータ及び前記モデリングした確率密度関数から、該当サウンドフレームが無音の確率Pと音声の確率Pを求める段階と、
    前記求めた各確率に対して仮説検証を行う段階と、
    を含むことを特徴とする音声判別方法。
  2. 前記パラメータは、
    前記サウンドフレームから得られるサウンド特徴ベクトルと、
    状態jにおけるk番目のミクスチャーでの平均特徴ベクトルmjkと、
    状態jにおけるk番目のミクスチャーのための加重値cjkと、
    状態jにおけるk番目のミクスチャーのための共分散行列Cjkと、
    ある1フレームが無音である事前確率P(H)と、
    ある1フレームが音声である事前確率P(H)と、
    無音と仮定した場合、現在状態が無音のj番目の状態である事前確率P(H0,j|H)と、
    音声と仮定した場合、現在状態が音声のj番目の状態である事前確率P(H1,j|H)と、
    を含むことを特徴とする請求項1に記載の音声判別方法。
  3. 前記状態の数及び前記ミクスチャーの数は、該当アプリケーションが要求する性能及びパラメータファイルのサイズによって決定されることを特徴とする請求項2に記載の音声判別方法。
  4. 前記パラメータが、実際の音声及びノイズを収集して録音しておいたサウンドデータベースで予め学習を行うことにより得られることを特徴とする請求項1に記載の音声判別方法。
  5. 前記特徴ベクトルの確率密度関数が、ガウス混合、ログ−凹関数、及び楕円形対称関数のいずれか1つによりモデリングされることを特徴とする請求項1に記載の音声判別方法。
  6. 前記ガウス混合を利用した確率密度関数が、数式1で示されることを特徴とする請求項5に記載の音声判別方法。
  7. 前記サウンドフレームが無音の確率Pが、数式2により求められることを特徴とする請求項1に記載の音声判別方法。
  8. 前記サウンドフレームが音声の確率Pが、数式3により求められることを特徴とする請求項1に記載の音声判別方法。
  9. 前記仮説検証を行う段階が、前記サウンドフレームが無音の確率と音声の確率、及び基準により、該当サウンドフレームが音声であるか無音であるかを決定する段階であることを特徴とする請求項1に記載の音声判別方法。
  10. 前記基準が、MAP基準、ML、ミニマックス基準、ネイマン−ピアソンテスト、及びCFARテストのいずれか1つであることを特徴とする請求項9に記載の音声判別方法。
  11. 前記MAP基準を利用した仮説検証が、数式4により行われることを特徴とする請求項10に記載の音声判別方法。
  12. 前記該当サウンドフレームが音声の確率を求める前に、選択的に、以前に得られたノイズスペクトルの結果に基づいて、サブトラクション法を用いるノイズスペクトルサブトラクションを行う段階をさらに含むことを特徴とする請求項1に記載の音声判別方法。
  13. 前記仮説検証が終了すると、選択的に、ハングオーバースキーマを適用する段階をさらに含むことを特徴とする請求項1に記載の音声判別方法。
  14. 最終結果により該当フレームがノイズ区間と決定されると、当該ノイズ区間のノイズスペクトルをアップデートする段階をさらに含むことを特徴とする請求項1に記載の音声判別方法。
JP2005339164A 2004-11-25 2005-11-24 音声判別方法 Pending JP2006154819A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040097650A KR100631608B1 (ko) 2004-11-25 2004-11-25 음성 판별 방법

Publications (1)

Publication Number Publication Date
JP2006154819A true JP2006154819A (ja) 2006-06-15

Family

ID=35519866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005339164A Pending JP2006154819A (ja) 2004-11-25 2005-11-24 音声判別方法

Country Status (5)

Country Link
US (1) US7761294B2 (ja)
EP (1) EP1662481A3 (ja)
JP (1) JP2006154819A (ja)
KR (1) KR100631608B1 (ja)
CN (1) CN100585697C (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP2008145923A (ja) * 2006-12-13 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
JP2012133226A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 音認識装置および音認識方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
KR100833096B1 (ko) 2007-01-18 2008-05-29 한국과학기술연구원 사용자 인식 장치 및 그에 의한 사용자 인식 방법
ES2533626T3 (es) * 2007-03-02 2015-04-13 Telefonaktiebolaget L M Ericsson (Publ) Métodos y adaptaciones en una red de telecomunicaciones
EP3258468B1 (en) 2008-11-10 2019-08-21 Google LLC Multisensory speech detection
US8666734B2 (en) 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
EP2491549A4 (en) 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
US8428759B2 (en) 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US8253684B1 (en) 2010-11-02 2012-08-28 Google Inc. Position and orientation determination for a mobile computing device
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
KR102315574B1 (ko) 2014-12-03 2021-10-20 삼성전자주식회사 데이터 분류 방법 및 장치와 관심영역 세그멘테이션 방법 및 장치
CN105810201B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 语音活动检测方法及其系统
CN106356070B (zh) * 2016-08-29 2019-10-29 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
CN111192573B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN112017676B (zh) * 2019-05-31 2024-07-16 京东科技控股股份有限公司 音频处理方法、装置和计算机可读存储介质
CN110349597B (zh) * 2019-07-03 2021-06-25 山东师范大学 一种语音检测方法及装置
CN110827858B (zh) * 2019-11-26 2022-06-10 思必驰科技股份有限公司 语音端点检测方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691087B2 (en) * 1997-11-21 2004-02-10 Sarnoff Corporation Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
KR100303477B1 (ko) 1999-02-19 2001-09-26 성원용 가능성비 검사에 근거한 음성 유무 검출 장치
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP2008145923A (ja) * 2006-12-13 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP4673828B2 (ja) * 2006-12-13 2011-04-20 日本電信電話株式会社 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
US7756704B2 (en) 2008-07-03 2010-07-13 Kabushiki Kaisha Toshiba Voice/music determining apparatus and method
JP2012133226A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 音認識装置および音認識方法

Also Published As

Publication number Publication date
CN1783211A (zh) 2006-06-07
EP1662481A3 (en) 2008-08-06
KR20060058747A (ko) 2006-05-30
CN100585697C (zh) 2010-01-27
KR100631608B1 (ko) 2006-10-09
US7761294B2 (en) 2010-07-20
US20060111900A1 (en) 2006-05-25
EP1662481A2 (en) 2006-05-31

Similar Documents

Publication Publication Date Title
JP2006154819A (ja) 音声判別方法
EP2089877B1 (en) Voice activity detection system and method
US7003456B2 (en) Methods and systems of routing utterances based on confidence estimates
Raj et al. Missing-feature approaches in speech recognition
EP2058797B1 (en) Discrimination between foreground speech and background noise
US6876966B1 (en) Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6985858B2 (en) Method and apparatus for removing noise from feature vectors
EP1465160B1 (en) Method of noise estimation using incremental bayesian learning
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
KR101564087B1 (ko) 화자 검증 장치 및 방법
You et al. Spectral-domain speech enhancement for speech recognition
US11972751B2 (en) Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice
JP2023539948A (ja) ロングコンテキストエンドツーエンド音声認識システム
JP2000242294A (ja) 音声認識システムおよび方法
US9697825B2 (en) Audio recording triage system
JP2013007975A (ja) 雑音抑圧装置、方法及びプログラム
Shokri et al. A robust keyword spotting system for Persian conversational telephone speech using feature and score normalization and ARMA filter
Li A detection approach to search-space reduction for HMM state alignment in speaker verification
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
Yoon et al. Speech enhancement based on speech/noise-dominant decision
Srinivasan et al. Robust speech recognition by integrating speech separation and hypothesis testing
Jancovic et al. On the mask modeling and feature representation in the missing-feature ASR: evaluation on the Consonant Challenge.
Sangwan et al. Improved voice activity detection via contextual information and noise suppression
JP2006071956A (ja) 音声信号処理装置及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804