JP4201471B2 - 音声認識システム - Google Patents
音声認識システム Download PDFInfo
- Publication number
- JP4201471B2 JP4201471B2 JP2000277025A JP2000277025A JP4201471B2 JP 4201471 B2 JP4201471 B2 JP 4201471B2 JP 2000277025 A JP2000277025 A JP 2000277025A JP 2000277025 A JP2000277025 A JP 2000277025A JP 4201471 B2 JP4201471 B2 JP 4201471B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- vector
- inner product
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 claims description 88
- 238000001514 detection method Methods 0.000 description 31
- 238000004364 calculation method Methods 0.000 description 16
- 238000009432 framing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識システムに関し、特に音声区間の検出の精度向上を図った音声認識システムに関する。
【0002】
【従来の技術】
音声認識システムでは、例えば雑音等のある背景下で発話された音声をそのまま音声認識した場合、雑音等の影響によって音声認識率の低下を招くことから、音声認識を行うためにはまず音声区間を正しく検出することが重要な課題となっている。
【0003】
従来、ベクトル内積法を用いて音声区間の検出を行う音声認識システムとして、図4に示す構成のものが知られている。
【0004】
この音声認識システムは、隠れマルコフモデル(Hidden Markov Model:HMM)を用いて単語やサブワード(音素、音節等)単位の音響モデル(音声HMM)を作成しておき、認識すべき音声が発話されると、その入力音声のケプストラムの時系列である観測値系列を生成して、観測値系列と音声HMMとを照合し、最大尤度を与える音声HMMを選んでこれを認識結果として出力する。
【0005】
より具体的には、学習用音声データベースに実験的に収集して記憶しておいた大量の音声データSmを所定期間(10〜20msec程度)のフレーム単位に区分けし、各フレーム単位のデータを順次にケプストラム(Cepstrum)演算することによってケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習処理して、音響モデル(音声HMM)のパラメータに反映させることで、単語やサブワード単位の音声HMMを作成している。
【0006】
また、音声区間の検出を行う音声区間検出部は、音響分析部1,3と、固有ベクトル生成部2、内積演算部4、比較部5、音声切り出し部6とによって構成されている。
【0007】
ここで、音響分析部1は、学習用音声データベース中の音声データSmを所定フレーム数nずつ音響分析することにより、M次元の特徴ベクトルxn=〔xn1 xn2 xn3 … xnM〕Tを生成する。ここで、Tは転置を表す。
【0008】
固有ベクトル生成部2は、M次元の特徴ベクトルxnから次式(1)で表される相関行列Rを求め、更に次式(2)を解いて相関行列Rを固有値展開することにより、固有ベクトル(学習ベクトルと呼ばれる)Vを求めるようになっている。
【0009】
【数1】
【0010】
【数2】
【0011】
こうして学習用の音声データSmに基づいて予め学習ベクトルVを求めておき、実際に発話によって入力音声データSaが入力されると、音響分析部4が入力音声データSaを音響分析することによって特徴ベクトルAを生成し、内積演算部5が上記の学習ベクトルVと特徴ベクトルAの内積を求め、更に、比較部6が内積値VTAと予め決められた固定の閾値θとを比較して、内積値VTAが閾値θより大きな値となった場合に音声区間であると判定する。
【0012】
そして、上記判定された音声区間の間、音声切り出し部7がオン(導通)になることで、入力音声データSaから音声認識の対象とすべき入力音声データSvcを切り出し、音声HMMと照合させるべき観測値系列を生成させることとしている。
【0013】
【発明が解決しようとする課題】
ところで、上記従来のベクトル内積法を用いた音声区間の検出法では、閾値θを零(θ=0)に固定している。そして、実際の環境下で得られる入力音声のデータSaの特徴ベクトルAと学習ベクトルVとの内積値VTAがこの固定閾値θより大きくなったときを音声区間と判定することとしている。
【0014】
このため、雑音の少ない背景下で発話が行われたような場合、図5(a)に示すように、実際の環境下で得られる入力音声中の雑音の特徴ベクトル(雑音ベクトル)と、本来の音声の特徴ベクトル(音声ベクトル)と、実際の環境下で得られる入力音声の特徴ベクトルAと、学習ベクトルVとの夫々の関係を、線形スペクトル領域上で見ると、雑音ベクトルは小さくなって、本来の音声の音声ベクトルは優勢になることから、実際の環境下で得られる入力音声の特徴ベクトルAは、音声ベクトル及び学習ベクトルVと同様の方向となる。
【0015】
したがって、特徴ベクトルAと学習ベクトルVとの内積値VTAは正(プラス)の値となることから、固定閾値θ(=0)を判定基準とすることで音声区間の検出が可能となる。
【0016】
しかし、例えば自動車の車室内等のように、雑音が多くSN比が低下するような場所では、図5(b)に示すように、雑音ベクトルが優勢となって、音声ベクトルが相対的に小さくなることから、実際の環境下で得られる入力音声の特徴ベクトルAは、音声ベクトル及び学習ベクトルVとは逆の方向となる。したがって、特徴ベクトルAと学習ベクトルVとの内積値VTAは負(マイナス)の値となることから、固定閾値θ(=0)を判定基準としたのでは、音声区間を正しく検出することができなくなるという問題があった。
【0017】
別言すれば、雑音が多くSN比が低下するような場所で音声認識を行うことにすると、図5(c)に示すように、音声区間と判定すべきときでも、特徴ベクトルAと学習ベクトルVの内積値VTAが負の値(VTA<θ)となってしまい、音声区間を正しく検出することができなくなるという問題があった。
【0018】
本発明は上記従来の問題点を克服し、音声区間の検出精度の向上を図った音声認識システムを提供することを目的とする。
【0019】
【課題を解決するための手段】
上記目的を達成するため請求項1に記載の発明は、音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、前記音声区間検出手段は、データベースに記憶されている無声音のデータに基づいて、予め無声音の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、非音声期間内に生じる音の特徴ベクトルと前記学習ベクトルとの内積値に基づいて第1の閾値を生成する第1の閾値生成手段と、発話によって生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が前記第1の閾値以上となるときを音声区間と判定する第1の判定手段と、前記非音声期間内に生じる音の予測残差パワーに基づいて第2の閾値を生成する第2の閾値生成手段と、前記入力音声の予測残差パワーが前記第2の閾値以上となるときを音声区間と判定する第2の判定手段と、を備え、前記第1の判定手段により判定される音声区間における前記入力音声又は前記第2の判定手段により判定される音声区間における前記入力音声を音声認識の対象とすること、を特徴とする。
【0025】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。尚、図1は本実施形態の音声認識システムの構成を示すブロック図である。
【0026】
図1において、本音声認識システムには、隠れマルコフモデルを用いて作成された単語やサブワード単位の音響モデル(音声HMM)11と、認識部12と、ケプストラム演算部13とが備えられ、ケプストラム演算部13で生成される入力音声のケプストラムの時系列である観測値系列と音声HMM11とを認識部12が照合し、最大尤度を与える音声HMMを選んでこれを認識結果として出力する。
【0027】
すなわち、実験的に収集し学習用音声データベース7に記憶した音声データSmを、フレーム化部8が所定期間(10〜20msec程度)のフレーム単位に区分けし、フレーム単位の音声データをケプストラム演算部9が順次にケプストラム演算することにより、ケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習部10が学習処理することにより、単語やサブワード単位の音声HMM11が予め作成されている。
【0028】
そして、後述の音声区間の検出によって切り出される実際の入力音声データSvcをケプストラム演算部13がケプストラム演算することによって上記の観測値系列を生成し、認識部12がその観測値系列と音声HMM11とを単語やサブワード単位で照合することにより、音声認識を行うようになっている。
【0029】
更に、本音声認識システムには、実際に発話された音声(入力音声)の音声区間を検出し、音声認識対象としての上記入力音声データSvcを切り出すための音声区間検出部が備えられ、音声区間検出部は、第1の検出部100、第2の検出部200、音声区間決定部300、及び音声切り出し部400を備えて構成されている。
【0030】
ここで、第1の検出部100には、予め実験的に収集した音声の無声音部分のデータ(無声音データ)Scを記憶する学習用無声音データベース14と、LPCケプストラム分析部15と、学習ベクトル生成部16が備えられている。
【0031】
LPCケプストラム分析部15は、学習用無声音データベース14中の無声音データScを所定期間(10〜20msec程度)のフレーム単位でLPC(linear predictive coding)ケプストラム分析することにより、ケプストラム領域でのM次元特徴ベクトルcn=〔cn1,cn2,…,cnM〕Tを生成する。
【0032】
学習ベクトル生成部16は、M次元の特徴ベクトルcnから次式(3)で表される相関行列Rを求めると共に、相関行列Rを固有値展開することによりM個の固有値λkと固有ベクトルvkを求め、更に、M個の固有値λkのうちの最大固有値に対応する固有ベクトルを学習ベクトルVとすることで、無声音の特徴を良く表した学習ベクトルVを生成する。尚、次式(3)中、変数nはフレーム番号、Tは転置を表している。
【0033】
【数3】
【0034】
更に第1の検出部100には、実際に発話された入力音声のデータSaを所定期間(10〜20msec程度)のフレーム単位に区分けして入力するフレーム化部17と、LPCケプストラム分析部18と、内積演算部19、閾値生成部20、第1の閾値判定部21が備えられている。
【0035】
LPCケプストラム分析部18は、フレーム化部17から出力されるフレーム単位の入力音声データSafをLPC分析することにより、ケプストラム領域でのM次元の特徴ベクトルAと、予測残差パワーεを求める。
【0036】
内積演算部19は、学習ベクトル生成部16で予め生成されている上記の学習ベクトルVと特徴ベクトルAの内積値VTAを求める。
【0037】
閾値生成部20は、本音声認識システムに備えられている発話開始スイッチ(図示省略)を発話者がオン操作して、実際に発話を開始するまでの所定期間(非音声期間)τ1内に、内積演算部18で求められる特徴ベクトルAと学習ベクトルVの内積を演算し、更に非音声期間τ1内に求めた複数フレーム分の内積値VTAの時間平均値Gを求める。そして、時間平均値Gと予め実験的に求めておいた調整値αとを加算し、その加算値を第1の閾値θv(=G+α)として、第1の閾値判定部21に供給する。
【0038】
第1の閾値判定部21は、上記の非音声期間τ1の経過後、内積演算部19から出力される内積値VTAを閾値θvと比較し、内積値VTAが閾値θvより大きいときを音声区間と判定し、その判定結果D1を音声区間決定部300に供給する。
【0039】
すなわち、非音声期間τ1の経過後、実際に発話が行われてフレーム化部17が入力音声データSaをフレーム単位の入力音声データSafに区分けして入力すると、フレーム単位の入力音声データSafをLPCケプストラム分析部18がLPCケプストラム分析することで、入力音声データSafの特徴ベクトルAと予測残差パワーεを求め、更に、内積演算部19が、入力音声データSafの特徴ベクトルAと学習ベクトルVの内積を求める。そして、その内積値VTAと閾値θvとの比較を第1の閾値判定部21が行い、内積値VTAが閾値θvより大きい場合に、音声区間と判定してその判定結果D1を音声区間検出部300に供給する。
【0040】
第2の検出部200は、閾値生成部22と第2の閾値判定部23を備えて構成されている。
【0041】
ここで、閾値生成部22は、上記の発話開始スイッチを発話者がオン操作して、実際に発話を開始するまでの非音声期間τ1内に、LPCケプストラム分析部18で求められる予測残差パワーεの時間平均値Eを求めると共に、予め実験的に決められた調整値βを時間平均値Eに加算することにより、閾値THD(=E+β)を求めて閾値判定部23に供給する。
【0042】
第2の閾値判定部23は、非音声期間τ1の経過後、LPCケプストラム分析部18で求められる予測残差パワーεと閾値THDとを比較し、THD≦εとなったときを音声区間と判定し、その判定結果D2を音声区間決定部300に供給する。
【0043】
すなわち、非音声期間τ1の経過後、実際に発話が行われてフレーム化部17が入力音声データSaをフレーム単位の入力音声データSafに区分けして入力すると、フレーム単位の入力音声データSafをLPCケプストラム分析部18がLPC分析することで、入力音声データSafの特徴ベクトルAと予測残差パワーεを求め、更に、その予測残差パワーεと閾値THDとの比較を第2の閾値判定部23が行い、予測残差パワーεが閾値THDより大きい場合に、音声区間と判定してその判定結果D2を音声区間検出部300に供給する。
【0044】
音声区間決定部300は、第1の検出部100から判定結果D1が供給されるときと、第2の検出部200から判定結果D2が供給されるときを、入力音声Saの音声区間τ2と決定する。すなわち、θv≦VTA又はTHD≦εのいずれか一方の条件が満足されるときを音声区間τ2と決定し、その決定結果D3を音声切り出し部400に供給する。
【0045】
音声切り出し部400は、上記の決定結果D3に基づいて最終的に音声区間を検出し、フレーム化部17より供給されるフレーム単位の入力音声データSafから、認識対象とする入力音声データSvcをフレーム単位で切り出してケプストラム演算部13へ供給する。
【0046】
そして、ケプストラム演算部13が、その切り出された入力音声データSvcに基づいて、ケプストラム領域での観測値系列を生成し、更に認識部12が観測値系列と音声HMM11とを照合することで、音声認識を行う。
【0047】
このように本実施形態の音声認識システムによれば、第1の検出部100は主に無声音の音声区間を正しく検出するのに有効な機能を発揮し、第2の検出部100は主に有声音の音声区間を正しく検出するのに有効な機能を発揮することになる。
【0048】
すなわち、第1の検出部100は、学習用の無声音データScに基づいて予め作成しておいた無声音の学習ベクトルVと実際の発話によって生じる入力音声データSafの特徴ベクトルAとの内積を求め、得られた内積値VTAが閾値θvより大きな値となったときを入力音声データSa中の無声音の区間と判断することになる。つまり、比較的パワーの小さな無声音を高精度で検出することが可能となる。
【0049】
第2の検出部200は、予め非音声期間の予測残差パワーに基づいて求めた閾値THDと実際の発話によって生じる入力音声データSafの予測残差パワーεとを比較し、THD≦εとなったときを入力音声データSa中の有声音の区間と判断することになる。つまり、比較的パワーの大きな有声音を高精度で検出することが可能となる。
【0050】
そして、音声区間決定部が第1,第2の検出部100,200の判定結果D1,D2に基づいて音声区間(有声音又は無声音の区間)を最終的に決定し、その決定結果D3に基づいて、音声認識の対象とすべき入力音声データDvcを切り出すので、音声認識の精度向上を図ることができる。
【0051】
尚、第1の検出部100の判定結果D1及び第2の検出部200の判定結果D2に基づいて音声区間を決定しても良いし、第1の検出部100の判定結果D1又は、第2の検出部200の判定結果D2の何れか一方の判定結果に基づいて音声区間を決定しても良い。
【0052】
更に、上記の非音声期間τ1、すなわち実際に発話が行われていない期間に、LPCケプストラム分析部18が背景音だけの特徴ベクトルAを生成し、その特徴ベクトルAと学習ベクトルVの内積値VTAに所定の調整値αを加えた値VTA+αを閾値θvとする。このため、音声区間を検出するための判定基準である閾値θvは、実際に背景雑音等が生じている環境に応じて適切に可変調整が行われ、音声区間の検出精度を向上させることが可能となる。
【0053】
つまり、従来は、例えば自動車の車室内等のように、雑音が多くSN比が低下するような場所では、図5(b)に示したように、雑音ベクトルが優勢となって、音声ベクトルが相対的に小さくなることから、実際の環境下で得られる入力音声の特徴ベクトルAは、音声ベクトル及び学習ベクトルVとは逆の方向となり、したがって特徴ベクトルAと学習ベクトルVとの内積値VTAは負(マイナス)の値となることから、固定閾値θ(=0)を判定基準としたのでは、音声区間を正しく検出することができなくなるという問題があった。
【0054】
これに対し、本実施形態の音声認識システムでは、図2に示すように、特徴ベクトルAと学習ベクトルVとの内積値VTAが負の値になったとしても、予め閾値θvを背景雑音等に応じて適応的に可変調整するので、閾値θvを判定基準として内積値VTAを比較することで、音声区間の検出が可能となる。
【0055】
別言すれば、図3に示すように、実際に発話された入力音声の特徴ベクトルAと学習ベクトルVの内積値VTAが閾値θvに掛かるように、その閾値θvを適切に可変調整することが可能となり、音声区間の検出精度の向上を可能にする。
【0056】
尚、以上に述べた実施形態では、非音声期間τ1内に、内積演算部18で求められる特徴ベクトルAと学習ベクトルVの内積を演算し、更に非音声期間τ1内に求めた複数フレーム分の内積値VTAの時間平均値Gを求め、この時間平均値Gに所定の調整値αを加算した値を閾値θvとしている。
【0057】
ただし、本発明はこれに限定されるものではなく、非音声期間τ1内に求めた複数フレーム分の内積値VTAのうちの最大値(VTA)maxを求め、最大値(VTA)maxと実験的に決めた所定の閾値α’とを加算した値(VTA)max+α’を閾値θvとしてもよい。
【0058】
【発明の効果】
以上説明したように本発明の音声認識システムによれば、非音声期間の音の特徴ベクトルと学習ベクトルの内積値に基づいて第1の閾値を生成し、実際に発話が行われると入力音声の特徴ベクトルと学習ベクトルの内積値を第1の閾値と比較して音声区間の検出を行うようにしたので、音声区間の検出精度を向上させることができる。すなわち、音声区間の判定基準となる第1の閾値を非音声期間の音に応じて適応的に可変調整するので、第1の閾値を判定基準として、入力音声の特徴ベクトルと学習ベクトルの内積値を比較することで、音声区間を適切に検出することができる。
【0059】
また、第1の判定手段が入力音声の特徴ベクトルと学習ベクトルの内積値に基づいて音声区間を判定する他、第2の判定手段が入力音声の予測残差パワーに基づいて音声区間を判定し、これら一方の判定手段が判定した音声区間に該当する入力音声を音声認識対象とすることとしたので、無声音と有声音の音声区間を正しく検出することができる。
【図面の簡単な説明】
【図1】本実施形態の音声認識システムの構成を示すブロック図である。
【図2】低SN比における学習ベクトルと入力音声の特徴ベクトルと内積値の関係を示す図である。
【図3】可変閾値と内積値の関係を示す図である。
【図4】従来のベクトル内積法を適用して音声区間の検出を行う音声認識システムの構成を示したブロック図である。
【図5】従来のベクトル内積法を適用して音声区間を検出する検出法の問題点を説明するための図である。
【符号の説明】
7…学習用音声データベース
8,17…フレーム化部
9,13…ケプストラム演算部
10…学習部
11…音声HMM
12…認識部
14…学習無音声データベース
15,18…LPCケプストラム分析部
19…内積演算部
20,22…閾値生成部
21,23…閾値判定部
100…第1の検出部
200…第2の検出部
300…音声区間決定部
400…音声切り出し部
Claims (1)
- 音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、
前記音声区間検出手段は、
データベースに記憶されている無声音のデータに基づいて、予め無声音の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、
非音声期間内に生じる音の特徴ベクトルと前記学習ベクトルとの内積値に基づいて第1の閾値を生成する第1の閾値生成手段と、
発話によって生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が前記第1の閾値以上となるときを音声区間と判定する第1の判定手段と、
前記非音声期間内に生じる音の予測残差パワーに基づいて第2の閾値を生成する第2の閾値生成手段と、
前記入力音声の予測残差パワーが前記第2の閾値以上となるときを音声区間と判定する第2の判定手段と、を備え、
前記第1の判定手段により判定される音声区間における前記入力音声又は前記第2の判定手段により判定される音声区間における前記入力音声を音声認識の対象とすること、
を特徴とする音声認識システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000277025A JP4201471B2 (ja) | 2000-09-12 | 2000-09-12 | 音声認識システム |
EP01307702A EP1189201A1 (en) | 2000-09-12 | 2001-09-11 | Voice detection for speech recognition |
US09/949,980 US7035798B2 (en) | 2000-09-12 | 2001-09-12 | Speech recognition system including speech section detecting section |
CN01132877.0A CN1249665C (zh) | 2000-09-12 | 2001-09-12 | 语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000277025A JP4201471B2 (ja) | 2000-09-12 | 2000-09-12 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002091468A JP2002091468A (ja) | 2002-03-27 |
JP4201471B2 true JP4201471B2 (ja) | 2008-12-24 |
Family
ID=18762411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000277025A Expired - Fee Related JP4201471B2 (ja) | 2000-09-12 | 2000-09-12 | 音声認識システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7035798B2 (ja) |
EP (1) | EP1189201A1 (ja) |
JP (1) | JP4201471B2 (ja) |
CN (1) | CN1249665C (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
EP1429314A1 (en) * | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
JP2013019958A (ja) * | 2011-07-07 | 2013-01-31 | Denso Corp | 音声認識装置 |
CN106409310B (zh) | 2013-08-06 | 2019-11-19 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN106782508A (zh) * | 2016-12-20 | 2017-05-31 | 美的集团股份有限公司 | 语音音频的切分方法和语音音频的切分装置 |
JP6392950B1 (ja) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
WO2021147018A1 (en) * | 2020-01-22 | 2021-07-29 | Qualcomm Incorporated | Electronic device activation based on ambient noise |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
JPS62169199A (ja) * | 1986-01-22 | 1987-07-25 | 株式会社デンソー | 音声認識装置 |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
EP0381507A3 (en) * | 1989-02-02 | 1991-04-24 | Kabushiki Kaisha Toshiba | Silence/non-silence discrimination apparatus |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
IN184794B (ja) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
US6930079B2 (en) * | 2000-06-05 | 2005-08-16 | Procter & Gamble Company | Process for treating a lipophilic fluid |
-
2000
- 2000-09-12 JP JP2000277025A patent/JP4201471B2/ja not_active Expired - Fee Related
-
2001
- 2001-09-11 EP EP01307702A patent/EP1189201A1/en not_active Withdrawn
- 2001-09-12 CN CN01132877.0A patent/CN1249665C/zh not_active Expired - Fee Related
- 2001-09-12 US US09/949,980 patent/US7035798B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20020046026A1 (en) | 2002-04-18 |
US7035798B2 (en) | 2006-04-25 |
CN1249665C (zh) | 2006-04-05 |
JP2002091468A (ja) | 2002-03-27 |
CN1343967A (zh) | 2002-04-10 |
EP1189201A1 (en) | 2002-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2216775B1 (en) | Speaker recognition | |
KR100697961B1 (ko) | 반-지시된 화자 적응 | |
JP2986792B2 (ja) | 話者正規化処理装置及び音声認識装置 | |
US20030220791A1 (en) | Apparatus and method for speech recognition | |
EP1269464B1 (en) | Discriminative training of hidden markov models for continuous speech recognition | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JPWO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP4201471B2 (ja) | 音声認識システム | |
JP2000099087A (ja) | 言語音声モデルを適応させる方法及び音声認識システム | |
JP4201470B2 (ja) | 音声認識システム | |
US11282495B2 (en) | Speech processing using embedding data | |
TWI578307B (zh) | 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法 | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP4275353B2 (ja) | 音声認識装置及び音声認識方法 | |
US11308939B1 (en) | Wakeword detection using multi-word model | |
JPH11184491A (ja) | 音声認識装置 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JPH08211897A (ja) | 音声認識装置 | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JP4749990B2 (ja) | 音声認識装置 | |
JPH11327593A (ja) | 音声認識システム | |
JPH08241096A (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081007 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |