JP2006154819A - 音声判別方法 - Google Patents
音声判別方法 Download PDFInfo
- Publication number
- JP2006154819A JP2006154819A JP2005339164A JP2005339164A JP2006154819A JP 2006154819 A JP2006154819 A JP 2006154819A JP 2005339164 A JP2005339164 A JP 2005339164A JP 2005339164 A JP2005339164 A JP 2005339164A JP 2006154819 A JP2006154819 A JP 2006154819A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- probability
- sound
- frame
- discrimination method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 13
- 230000005236 sound signal Effects 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 239000000203 mixture Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 238000012850 discrimination method Methods 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 10
- 206010019133 Hangover Diseases 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011410 subtraction method Methods 0.000 claims description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 206010002953 Aphonia Diseases 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】あるサウンドフレームが音声区間であるかノイズ(無音)区間であるか(音声の有無)の判別において、音声区間及びノイズ区間をそれぞれ状態として処理し、確率密度関数及び仮説検証などを利用することにより、処理されているサウンドデータが音声区間であるかノイズ区間であるかを把握する能力を画期的に高め得る音声判別方法を提供する。
【解決手段】音声判別方法は、オーディオ信号が入力されるとサウンドデータをサウンドフレームに分割する段階と、前記サウンドフレームから必要なパラメータを求める段階と、前記求めたパラメータを使用して、状態jにおける特徴ベクトルの確率密度関数をモデリングする段階と、前記求めたパラメータ及び前記モデリングした確率密度関数から、該当サウンドフレームが無音の確率P0と音声の確率P1を求める段階と、前記求めた各確率に対して仮説検証を行う段階とを含む。
【選択図】図1
【解決手段】音声判別方法は、オーディオ信号が入力されるとサウンドデータをサウンドフレームに分割する段階と、前記サウンドフレームから必要なパラメータを求める段階と、前記求めたパラメータを使用して、状態jにおける特徴ベクトルの確率密度関数をモデリングする段階と、前記求めたパラメータ及び前記モデリングした確率密度関数から、該当サウンドフレームが無音の確率P0と音声の確率P1を求める段階と、前記求めた各確率に対して仮説検証を行う段階とを含む。
【選択図】図1
Description
本発明は、音声検出方法に関し、特に、音声の有無を効果的に判別し得る音声判別方法に関する。
音声通話の場合、一般に、通話者が全体時間の約60%の時間は話していないという研究結果が発表された。即ち、音声でない周辺のノイズのみが送られる約60%の時間は、低いビットレートで符号化を行うか、又はCNG(Comfort Noise Generation)技法を用いてノイズをモデリングする方法が効率的である。従って、移動通信のような無線電話通信のためには、可変レート音声符号化(variable rate speech coding)が多く用いられている。この可変レート音声符号化においては、どの区間が音声区間であり、どの区間が音声区間でないノイズ区間であるかを判断しなければならず、このために必要なものがVAD(Voice Activity Detector)であり、音声通話の符号化において効率よくビットレートを下げるためには、適切に設計されたVADが必須である。
ITU−T(International Telecommunication Union - Telecommunication Standardization Sector)が発表したG.729においては、音声アクティビティ検出のために、オーディオ信号が入力されると、LSD(Line Spectral Density)、通話区間のフルバンドエネルギー(full band energy;Ef)、ローバンドエネルギー(low band energy;El)、及びZCR(Zero Crossing Rate)などのパラメータを求め、スペクトル歪(spectral distortion;ΔS)を求めた後、前記求めた各値を実験結果に基づいて定めた特定常数と比較して、現在の通話区間が音声区間であるかノイズ区間であるかを判別する。
GSM(Global System for Mobile communication)で使用されるVADの場合、オーディオ信号が入力されると、ノイズスペクトルを推定し、推定されたスペクトルを用いてノイズ抑圧フィルタ(noise suppression filter)を構成し、入力された通話区間をそのノイズ抑圧フィルタに通過させた後にエネルギーを計算し、計算されたエネルギーを既に設定された臨界値と比較して、現在の通話区間が音声区間であるかノイズ区間であるかを判別する。
しかしながら、このような方法は、非常に多くのパラメータに依存しており、過去の経験的データのみに基づいて、現在のサウンドデータにおける音声の有無を判別するため、実質的に、音声の特性上、通話者の年齢及び性別によってその特性に大きな差があり、よって、経験的データによっては確実な性能を期待し得ないという問題があった。
経験的データを利用する他に、確率的な理論を導入して音声の有無を判別することによりVADの性能を向上させる方法も提案されたが、この方法も、通話者又は状況によって時々刻々変化する音声の特性及び種類別に異なるスペクトルを有するノイズの特性を考慮していないため、音声有無の判別性能に制限があるという問題があった。
本発明は、このような従来技術の問題を解決するためになされたもので、異種のノイズに幅広く対応して、音声の有無を効果的に判別し得る音声判別方法を提供することを目的とする。
上記の目的を達成するために、本発明に係る音声判別方法は、オーディオ信号が入力されるとサウンドデータをサウンドフレームに分割する段階と、そのサウンドフレームから必要なパラメータを求める段階と、該求めたパラメータを使用して、状態jにおける特徴ベクトル(feature vector)の確率密度関数(Probability Density Function;PDF)をモデリングする段階と、これら求めたパラメータ及びモデリングした確率密度関数から、該当サウンドフレームが無音(silence)の確率P0と音声(speech)の確率P1とを求める段階と、これら求めた各確率に対して仮説検証(hypothesis testing)を行う段階と、を含むことを特徴とする。
また、前記パラメータは、サウンドフレームから得られるサウンド特徴ベクトルoと、状態jにおけるk番目のミクスチャーでの平均特徴ベクトルmjkと、状態jにおけるk番目のミクスチャーのための加重値(weighting value)cjkと、状態jにおけるk番目のミクスチャーのための共分散行列Cjkと、ある1フレームが無音である事前確率P(H0)と、ある1フレームが音声である事前確率P(H1)と、無音と仮定した場合、現在状態が無音のj番目の状態である事前確率P(H0,j|H0)と、音声と仮定した場合、現在状態が音声のj番目の状態である事前確率P(H1,j|H1)と、を含むことを特徴とする。
また、前記パラメータは、実際の音声及びノイズを収集して録音しておいたサウンドデータベースで予め学習(training)を行うことにより得ることを特徴とする。
また、前記特徴ベクトルの確率密度関数は、ガウス混合(Gaussian Mixture)、ログ−凹(log-concave)関数、及び楕円形対称(elliptically symmetric)関数のいずれか1つによりモデリングされることを特徴とする。
また、前記仮説検証は、サウンドフレームが無音の確率と音声の確率、及び基準(criterion)により、該当サウンドフレームが音声であるか無音であるかを決定することを特徴とする。
また、その基準は、MAP(Maximum a Posteriori)基準、ML(Maximum Likelihood)、ミニマックス(minimax)基準、ネイマン−ピアソン(Neyman-Pearson)テスト、及びCFAR(Constant False-Alarm Rate)テストのいずれか1つであることを特徴とする。
また、前記該当サウンドフレームが音声の確率を求める前に、選択的に、以前に得られたノイズスペクトルの結果に基づいて、サブトラクション法(subtraction technique)を用いるノイズスペクトルサブトラクション(noise spectral subtraction)を行う段階をさらに含むことを特徴とする。
また、前記仮説検証が終了すると、選択的に、ハングオーバースキーマ(Hang Over Scheme)を適用する段階をさらに含むことを特徴とする。
また、最終結果により該当フレームがノイズ区間と決定されると、該ノイズ区間のノイズスペクトルをアップデートする段階をさらに含むことを特徴とする。
本発明に係る音声判別方法は、音声区間及びノイズ(無音)区間をそれぞれ状態として処理することにより、多様なスペクトルを有する音声やノイズに対する適応度を高め、予め多様なノイズを収集してデータベース化して学習することにより、異種のノイズに幅広く対応することができ、確率的に最適化されたパラメータをEMアルゴリズムの方式で求めることにより、処理されているサウンドデータが音声区間であるかノイズ区間であるかを把握する能力を画期的に高め得るという効果がある。
本発明に係る音声検出方法のアルゴリズムは、次の2つの仮説を立て、それを検証することをベースとする。2つの仮説は次のとおりである。
1)H0:音声がなく、ノイズだけ存在する区間
2)H1:音声がノイズと共に存在する区間
1)H0:音声がなく、ノイズだけ存在する区間
2)H1:音声がノイズと共に存在する区間
本発明においては、この仮説を検証するために再帰的演算を行う。
以下、添付した図面を参照して本発明の好ましい実施形態を説明する。
本発明の説明において、関連の公知機能又は構成に関する具体的な説明が本発明の要旨を不明確にすると判断された場合、その詳細な説明は省略する。
図1は本発明に係る音声判別方法の一実施形態を示すフローチャートである。
図1に示すように、オーディオ信号が入力されると、入力されたオーディオ信号からサウンドフレームを得る(S10)。通常、入力されたオーディオ信号のサウンドデータを1フレーム当たり約10msの間隔で分割し、このように、全体サウンドデータの範囲を10msの間隔で分割したとき、範囲内の分割された各値を確率プロセスでは状態(state)という。
次に、そのサウンドフレームから必要なパラメータを求める(S20)。パラメータは、サウンドフレームから得られるサウンド特徴ベクトルoと、状態jにおけるk番目のミクスチャーでの平均特徴ベクトルmjkと、状態jにおけるk番目のミクスチャーのための加重値cjkと、状態jにおけるk番目のミクスチャーのための共分散行列Cjkと、ある1フレームが無音である事前確率P(H0)と、ある1フレームが音声である事前確率P(H1)と、無音と仮定した場合、現在状態が無音のj番目の状態である事前確率P(H0,j|H0)と、音声と仮定した場合、現在状態が音声のj番目の状態である事前確率P(H1,j|H1)と、を含む。また、パラメータは、多様な実際の音声及びノイズを収集して録音しておいたサウンドデータベースで予めデータを集める過程である学習を行うことにより得ることができる。かつ、音声と無音に割り当てる状態の数は、該当アプリケーションが要求する性能及びパラメータファイルのサイズによって決定する。ミクスチャーの数も、状態の数と同様の方法で決定する。
図2は状態及びミクスチャーの数を決定する実験結果の一例を示すグラフである。
図2の(A)は状態の数による音声認識率を示すグラフであり、状態の数が少ない場合及び多い場合に音声認識率が低いことを示す。図2の(B)はミクスチャーの数による音声認識率を示すグラフであり、同様に、ミクスチャーの数が少ない場合及び多い場合に音声認識率が低いことを示す。従って、これら状態の数及びミクスチャーの数は、あくまでも実験により決定しなければならない。
学習過程は、本質的に音声認識で用いられる学習過程と同様である。ここには様々なパラメータ推定(parameter estimation)方法があるが、一般に、EM(Expectation - Maximization)アルゴリズムが用いられる。
求めたパラメータを使用して、状態jにおける特徴ベクトルの確率密度関数をガウス混合でモデリングする(S30)。ここで、ガウス混合の他に、ログ−凹関数、楕円形対称関数などを使用することもできる。
ガウス混合により確率密度関数を描く方法は、L.R.Rabiner氏とB−H.JUANG氏が著述した『Fundamentals of Speech Recognition(Englewood Cliffs, NJ: Prentice Hall, 1993)』と、S.E.Levinson氏、L.R.Rabiner氏、及びM.M.Sondhi氏が著述した『An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition(Bell System Tech. J., Apr. 1983)』に記載されており、当該技術分野における通常の知識を有する者に広く知られているため、詳細な説明は省略する。
ガウス混合による状態jにおける確率密度関数は次の数式1で示される。数式1中、Nはサンプルベクトルの数、すなわち、全体サンプルの数である。
前述したように、サウンドフレームからのパラメータの抽出が終了すると、抽出されたパラメータから該当サウンドフレームが無音の確率P0を求め(S40)、音声の確率P1を求める(S60)。無音の確率及び音声の確率の両方を計算するのは、サウンドフレームが無音であるか音声であるかがまだ分からないためである。ここで、P0とP1は次の数式2及び数式3に示すとおりである。
このとき、音声の場合は、計算段階S60の前にノイズスペクトルサブトラクションを経るが、以前に得られたノイズスペクトルの結果に基づいてサブトラクション法を用いる(S50)。
P0とP1を求めた後に仮説検証を経るが(S70)、該仮説検証は、P0、P1と推定統計的価値基準により、該当サウンドフレームが音声であるか無音であるかを決定する段階である。ここで、その基準は、MAP基準であって、次の数式4ように表示される。
この仮説検証の基準としては、MAP基準の他にも、ML、ミニマックス基準、ネイマン−ピアソンテスト、及びCFARテストなどを用いることもできる。
仮説検証が終了するとハングオーバースキーマを適用する(S80)。ハングオーバースキーマとは、[f]、[th]、[h]の発音などの低エネルギー無声音(low energy unvoiced sound)がノイズに埋もれているのでノイズと判断したり、[k]、[p]、[t]の発音などの無声停止音(unvoiced stop sound)のように、強い部分のエネルギーが出た後に弱い部分のエネルギーが出てくるのを無音の開始と誤って判断することを防止するためのもので、オーディオ信号のサウンドデータにおける約10ms間隔で分割された多数のサウンドフレームが音声区間であるか無音区間であるかを判別するときに、音声区間が続いている途中で突然中間の1区間が無音区間に変わった後に再び音声区間が続く場合、わずか10msの時間に音声が突然無音に変わることはないため、中間の無音と判別された区間を任意に音声区間と決定する技法をいう。
このように、ハングオーバースキーマの適用が終了すると、該当サウンドフレームが無音区間であるか音声区間であるかが決定される。仮りに、ハングオーバースキーマを適用した後、該当サウンドフレームが無音(すなわち、ノイズ)区間であると決定されると、その結果からノイズスペクトルが分かり、ノイズスペクトルサブトラクション(S50)のために、ノイズスペクトルをアップデートするアルゴリズムを用いてノイズスペクトルをアップデートする(S90)。
前述したような音声判別過程で、ハングオーバースキーマ(S80)とノイズスペクトルサブトラクション(S50)は、既知の方法であり、選択的に用いることができる。また、本発明は、音声録音において、ノイズ部分を除いて音声部分のみ録音して保存空間を節約する方法としても用いることができ、有無線電話において、可変レート符号化装置での一部の過程として用いることもできる。
Claims (14)
- オーディオ信号が入力されるとサウンドデータをサウンドフレームに分割する段階と、
前記サウンドフレームから必要なパラメータを求める段階と、
前記求めたパラメータを使用して、状態jにおける特徴ベクトルの確率密度関数をモデリングする段階と、
前記求めたパラメータ及び前記モデリングした確率密度関数から、該当サウンドフレームが無音の確率P0と音声の確率P1を求める段階と、
前記求めた各確率に対して仮説検証を行う段階と、
を含むことを特徴とする音声判別方法。 - 前記パラメータは、
前記サウンドフレームから得られるサウンド特徴ベクトルoと、
状態jにおけるk番目のミクスチャーでの平均特徴ベクトルmjkと、
状態jにおけるk番目のミクスチャーのための加重値cjkと、
状態jにおけるk番目のミクスチャーのための共分散行列Cjkと、
ある1フレームが無音である事前確率P(H0)と、
ある1フレームが音声である事前確率P(H1)と、
無音と仮定した場合、現在状態が無音のj番目の状態である事前確率P(H0,j|H0)と、
音声と仮定した場合、現在状態が音声のj番目の状態である事前確率P(H1,j|H1)と、
を含むことを特徴とする請求項1に記載の音声判別方法。 - 前記状態の数及び前記ミクスチャーの数は、該当アプリケーションが要求する性能及びパラメータファイルのサイズによって決定されることを特徴とする請求項2に記載の音声判別方法。
- 前記パラメータが、実際の音声及びノイズを収集して録音しておいたサウンドデータベースで予め学習を行うことにより得られることを特徴とする請求項1に記載の音声判別方法。
- 前記特徴ベクトルの確率密度関数が、ガウス混合、ログ−凹関数、及び楕円形対称関数のいずれか1つによりモデリングされることを特徴とする請求項1に記載の音声判別方法。
- 前記ガウス混合を利用した確率密度関数が、数式1で示されることを特徴とする請求項5に記載の音声判別方法。
- 前記サウンドフレームが無音の確率P0が、数式2により求められることを特徴とする請求項1に記載の音声判別方法。
- 前記サウンドフレームが音声の確率P1が、数式3により求められることを特徴とする請求項1に記載の音声判別方法。
- 前記仮説検証を行う段階が、前記サウンドフレームが無音の確率と音声の確率、及び基準により、該当サウンドフレームが音声であるか無音であるかを決定する段階であることを特徴とする請求項1に記載の音声判別方法。
- 前記基準が、MAP基準、ML、ミニマックス基準、ネイマン−ピアソンテスト、及びCFARテストのいずれか1つであることを特徴とする請求項9に記載の音声判別方法。
- 前記MAP基準を利用した仮説検証が、数式4により行われることを特徴とする請求項10に記載の音声判別方法。
- 前記該当サウンドフレームが音声の確率を求める前に、選択的に、以前に得られたノイズスペクトルの結果に基づいて、サブトラクション法を用いるノイズスペクトルサブトラクションを行う段階をさらに含むことを特徴とする請求項1に記載の音声判別方法。
- 前記仮説検証が終了すると、選択的に、ハングオーバースキーマを適用する段階をさらに含むことを特徴とする請求項1に記載の音声判別方法。
- 最終結果により該当フレームがノイズ区間と決定されると、当該ノイズ区間のノイズスペクトルをアップデートする段階をさらに含むことを特徴とする請求項1に記載の音声判別方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040097650A KR100631608B1 (ko) | 2004-11-25 | 2004-11-25 | 음성 판별 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006154819A true JP2006154819A (ja) | 2006-06-15 |
Family
ID=35519866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005339164A Pending JP2006154819A (ja) | 2004-11-25 | 2005-11-24 | 音声判別方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7761294B2 (ja) |
EP (1) | EP1662481A3 (ja) |
JP (1) | JP2006154819A (ja) |
KR (1) | KR100631608B1 (ja) |
CN (1) | CN100585697C (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058876A (ja) * | 2006-09-04 | 2008-03-13 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 |
JP2008145923A (ja) * | 2006-12-13 | 2008-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
US7756704B2 (en) | 2008-07-03 | 2010-07-13 | Kabushiki Kaisha Toshiba | Voice/music determining apparatus and method |
JP2012133226A (ja) * | 2010-12-22 | 2012-07-12 | Sogo Keibi Hosho Co Ltd | 音認識装置および音認識方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775168B2 (en) * | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
KR100833096B1 (ko) | 2007-01-18 | 2008-05-29 | 한국과학기술연구원 | 사용자 인식 장치 및 그에 의한 사용자 인식 방법 |
ES2533626T3 (es) * | 2007-03-02 | 2015-04-13 | Telefonaktiebolaget L M Ericsson (Publ) | Métodos y adaptaciones en una red de telecomunicaciones |
EP3258468B1 (en) | 2008-11-10 | 2019-08-21 | Google LLC | Multisensory speech detection |
US8666734B2 (en) | 2009-09-23 | 2014-03-04 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking using a multidimensional function and strength values |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
US8428759B2 (en) | 2010-03-26 | 2013-04-23 | Google Inc. | Predictive pre-recording of audio for voice input |
US8253684B1 (en) | 2010-11-02 | 2012-08-28 | Google Inc. | Position and orientation determination for a mobile computing device |
WO2012158156A1 (en) * | 2011-05-16 | 2012-11-22 | Google Inc. | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood |
KR102315574B1 (ko) | 2014-12-03 | 2021-10-20 | 삼성전자주식회사 | 데이터 분류 방법 및 장치와 관심영역 세그멘테이션 방법 및 장치 |
CN105810201B (zh) * | 2014-12-31 | 2019-07-02 | 展讯通信(上海)有限公司 | 语音活动检测方法及其系统 |
CN106356070B (zh) * | 2016-08-29 | 2019-10-29 | 广州市百果园网络科技有限公司 | 一种音频信号处理方法,及装置 |
CN111192573B (zh) * | 2018-10-29 | 2023-08-18 | 宁波方太厨具有限公司 | 基于语音识别的设备智能化控制方法 |
CN112017676B (zh) * | 2019-05-31 | 2024-07-16 | 京东科技控股股份有限公司 | 音频处理方法、装置和计算机可读存储介质 |
CN110349597B (zh) * | 2019-07-03 | 2021-06-25 | 山东师范大学 | 一种语音检测方法及装置 |
CN110827858B (zh) * | 2019-11-26 | 2022-06-10 | 思必驰科技股份有限公司 | 语音端点检测方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6691087B2 (en) * | 1997-11-21 | 2004-02-10 | Sarnoff Corporation | Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components |
KR100303477B1 (ko) | 1999-02-19 | 2001-09-26 | 성원용 | 가능성비 검사에 근거한 음성 유무 검출 장치 |
US6349278B1 (en) * | 1999-08-04 | 2002-02-19 | Ericsson Inc. | Soft decision signal estimation |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US6993481B2 (en) * | 2000-12-04 | 2006-01-31 | Global Ip Sound Ab | Detection of speech activity using feature model adaptation |
KR100513175B1 (ko) * | 2002-12-24 | 2005-09-07 | 한국전자통신연구원 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
-
2004
- 2004-11-25 KR KR1020040097650A patent/KR100631608B1/ko not_active IP Right Cessation
-
2005
- 2005-11-23 US US11/285,353 patent/US7761294B2/en not_active Expired - Fee Related
- 2005-11-24 JP JP2005339164A patent/JP2006154819A/ja active Pending
- 2005-11-25 EP EP05025791A patent/EP1662481A3/en not_active Withdrawn
- 2005-11-25 CN CN200510128718A patent/CN100585697C/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058876A (ja) * | 2006-09-04 | 2008-03-13 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 |
JP2008145923A (ja) * | 2006-12-13 | 2008-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
JP4673828B2 (ja) * | 2006-12-13 | 2011-04-20 | 日本電信電話株式会社 | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
US7756704B2 (en) | 2008-07-03 | 2010-07-13 | Kabushiki Kaisha Toshiba | Voice/music determining apparatus and method |
JP2012133226A (ja) * | 2010-12-22 | 2012-07-12 | Sogo Keibi Hosho Co Ltd | 音認識装置および音認識方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1783211A (zh) | 2006-06-07 |
EP1662481A3 (en) | 2008-08-06 |
KR20060058747A (ko) | 2006-05-30 |
CN100585697C (zh) | 2010-01-27 |
KR100631608B1 (ko) | 2006-10-09 |
US7761294B2 (en) | 2010-07-20 |
US20060111900A1 (en) | 2006-05-25 |
EP1662481A2 (en) | 2006-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006154819A (ja) | 音声判別方法 | |
EP2089877B1 (en) | Voice activity detection system and method | |
US7003456B2 (en) | Methods and systems of routing utterances based on confidence estimates | |
Raj et al. | Missing-feature approaches in speech recognition | |
EP2058797B1 (en) | Discrimination between foreground speech and background noise | |
US6876966B1 (en) | Pattern recognition training method and apparatus using inserted noise followed by noise reduction | |
US6985858B2 (en) | Method and apparatus for removing noise from feature vectors | |
EP1465160B1 (en) | Method of noise estimation using incremental bayesian learning | |
Chowdhury et al. | Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
KR101564087B1 (ko) | 화자 검증 장치 및 방법 | |
You et al. | Spectral-domain speech enhancement for speech recognition | |
US11972751B2 (en) | Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice | |
JP2023539948A (ja) | ロングコンテキストエンドツーエンド音声認識システム | |
JP2000242294A (ja) | 音声認識システムおよび方法 | |
US9697825B2 (en) | Audio recording triage system | |
JP2013007975A (ja) | 雑音抑圧装置、方法及びプログラム | |
Shokri et al. | A robust keyword spotting system for Persian conversational telephone speech using feature and score normalization and ARMA filter | |
Li | A detection approach to search-space reduction for HMM state alignment in speaker verification | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
Yoon et al. | Speech enhancement based on speech/noise-dominant decision | |
Srinivasan et al. | Robust speech recognition by integrating speech separation and hypothesis testing | |
Jancovic et al. | On the mask modeling and feature representation in the missing-feature ASR: evaluation on the Consonant Challenge. | |
Sangwan et al. | Improved voice activity detection via contextual information and noise suppression | |
JP2006071956A (ja) | 音声信号処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090615 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090804 |