JPH11224098A - 単語音声認識システムにおける環境適応装置 - Google Patents

単語音声認識システムにおける環境適応装置

Info

Publication number
JPH11224098A
JPH11224098A JP10024996A JP2499698A JPH11224098A JP H11224098 A JPH11224098 A JP H11224098A JP 10024996 A JP10024996 A JP 10024996A JP 2499698 A JP2499698 A JP 2499698A JP H11224098 A JPH11224098 A JP H11224098A
Authority
JP
Japan
Prior art keywords
voice
phoneme
speech
amplitude
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10024996A
Other languages
English (en)
Inventor
Shigeru Kashiwagi
繁 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP10024996A priority Critical patent/JPH11224098A/ja
Publication of JPH11224098A publication Critical patent/JPH11224098A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音素認識性能を向上させ、もって単語認識性
能の向上を図るようにした。 【解決手段】 音声入力装置41からの入力音声データ
に対してフレーム毎に平均エネルギを計算し、あらかじ
め設定した閾値により、有音区間であるか、無音区間で
あるかを有音・無音区間判定部11で判定する。この判
定部11での判定結果に応じて、フレーム毎に特徴抽出
部42で周波数分析する。この特徴抽出部42での周波
数分析の後、有音・無音区間分配部12で有音と無音区
間を分配し、有音区間なら入力音声の有音区間の音声ス
ペクトルは音素認識部43に供給する。また、無音区間
なら入力音声の無音区間の音声スペクトルは、雑音スペ
クトル抽出部51で得られる推定雑音スペクトル51d
から引算部52で引き算されて雑音成分が除去される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、離散単語音声認
識システムにおける環境適応装置に関する。
【0002】
【従来の技術】図9は離散単語音声認識システムの概要
を示すブロック構成図で、図9において、41は電話な
どから音声データが入力される音声入力装置で、この音
声入力装置41から入力された単語音声データは特徴抽
出部42に供給される。音声データは特徴抽出部42で
周波数分析され、SS(Spectrum Subtraction)法を用
いてスペクトル変形が施される(後述する)。スペクト
ル変形が施された特徴抽出部42の出力は、出力が多重
化されたニューラルネットワークからなる音声認識部4
3に入力されて音素認識が行われる。
【0003】この音素認識の結果として認識音素第1位
候補と第2位候補が得られる。その認識された音素候補
列と、認識させたい語彙の音素パターンを持たせた辞書
44中のテンプレートとの類似度を単語認識部45で認
識させる。単語認識部45では、テンプレート中の音素
と認識された音素候補列中の第1位および第2位候補と
の類似度を局所スコアとし、その局所スコアをDTW
(時間正規化法)によって累積することで全体の類似度
スコアを求め、認識させたい全ての語彙の中で、その類
似度スコアが最小となる単語を認識結果として出力す
る。
【0004】上記のような音声認識システムを使用する
場合、音声を入力する環境が、学習データを収録した環
境と、大きく異なると認識性能が劣化することがある。
環境変動の大きな要因としては、背景雑音(加法性雑
音)、マイク特性(乗法性雑音)等の収録環境によるも
のがある。
【0005】前記SS法は、加法性雑音がスペクトルの
和の形で表されることを利用して、あらかじめ推定した
雑音スペクトルを、雑音が重畳している音声スペクトル
から引き去ることにより、雑音が付加される前の音声を
求める方法である。具体的には、図10に示すように、
あらかじめ雑音スペクトル抽出部51(この抽出部は詳
細を後述する)で推定雑音スペクトルを得て、これをシ
ステム動作時に特徴抽出部42から出力される入力音声
の全区間の音声スペクトルから引算部52で差し引いた
ものを音素認識部43に入力するようにしたものであ
る。
【0006】前記雑音スペクトル抽出部51は、あらか
じめ入力音声の無音部の平均音声スペクトル51aか
ら、学習音声の無音部の平均音声スペクトル51bを、
引算部51cから差し引いて推定雑音スペクトル51d
を得るように構成したものである。
【0007】また、認識性能が劣化するのは上記のよう
な場合の外に、人間が発生した区間以外の無音区間の認
識性能に大きく影響を及ぼす。音声を入力する環境に背
景雑音が存在し、無音区間の音声振幅が学習データの音
声振幅より大きい場合、無音区間の音素認識性能が顕著
に劣化し、システム全体の認識性が大きく劣化する。但
し、無音区間の音声振幅が学習データのそれより小さい
場合は、学習データの中に、音声振幅の小さい無音デー
タが含まれているため、さほど認識性能に大きく影響し
ない。
【0008】
【発明が解決しようとする課題】上記SS法において、
推定する雑音スペクトルは、図10に示すように、入力
音声の無音部の平均音声スペクトル51aと学習音声の
無音部の平均音声スペクトル51bとの差により決定さ
れる。すなわち、雑音スペクトルの品質は、学習・入力
音声の無音部の選択に左右されることになる。雑音スペ
クトルの品質が高ければ、音素認識性能が向上するため
に、音声認識システムの認識性能は向上することにな
る。入力音声全区間の音素認識結果を見ると、雑音スペ
クトルの品質にさほど影響されない無音部と、影響され
やすい有音部に分かれる傾向になる。無音部の音素認識
性能は比較的、学習・入力音声の選択によらず向上する
が、有音部(特に母音部)の音声認識性能は劣化する問
題がある。
【0009】また、学習型の音素認識部を使用している
場合、入力音声の無音区間音声振幅が、学習データの無
音区間音声振幅と同等である方が望ましい。入力音声の
無音区間音声振幅が、学習データの無音区間音声振幅と
大きく異なれば、認識性能が劣化するからである。図9
に示すシステムにおいて、音声入力装置41より入力さ
れた単語音声データを、特徴抽出部42で直接、周波数
分析し、それを音素認識部43の出力多重化ニューラル
ネットに入力して音素認識を行わせているため、音声振
幅に対する制御を何ら加えていない。
【0010】従って、入力される無音区間音声振幅の変
動により、認識性能が大きく変化する。例えば、学習デ
ータの無音区間の平均音声振幅をL0dB、入力データの無
音区間の平均音声振幅をLdBとすると,L>L0なら、無
音区間の音声認識性能が劣化する問題がある。なお、L
<L0なら、学習データの中に、音声振幅の小さい無音
データが含まれているため、さほど音声認識性能に影響
しない。
【0011】この発明は上記の事情に鑑みてなされたも
ので、音素認識性能を向上させ、もって単語認識性能の
向上を図るようにした単語音声認識システムにおける環
境適応装置を提供することを課題とする。
【0012】
【課題を解決するための手段】この発明は、上記の課題
を達成するために、第1発明は、音声入力装置より入力
された単語音声データを周波数分析し、それを出力多重
化ニューラルネットに入力させて音素認識を行わせて、
認識音素第1位音素候補と第2位音素候補を得、その認
識された音素候補列と、認識させたい語彙の音素パター
ンを持たせた辞書中のテンプレートとの類似度を、テン
プレート中の音素と認識された音素候補列中の第1位お
よび第2位候補との類似度を局所スコアとし、その局所
スコアをDTW法によって累積することで、全体の類似
度スコアを求めた後、認識させたい全ての語彙の中で、
その類似度スコアが最小となる単語を認識結果として出
力する音声認識システムにおいて、前記音声入力装置か
ら出力される音声データを周波数分析する前に、そのデ
ータの有音、無音を有音・無音判定部で判定してから周
波数分析し、前記判定部で有音と判定されたなら、その
有音区間の音声スペクトルは前記ニューラルネットに供
給し、前記判定部で無音と判定されたなら、その無音区
間の音声スペクトルからあらかじめ推定した雑音スペク
トルを引いて雑音成分を除去して前記ニューラルネット
に供給したことを特徴とするものである。
【0013】第2発明は、あらかじめ音声入力装置より
無音音声を取得し、入力音声の無音部の平均音声振幅
(L)を得る第1平均音声振幅抽出部と、学習音声の無
音部の平均音声振幅(L0)を得る第2平均音声振幅抽
出部と、前記第1、第2平均音声振幅抽出部からの平均
音声振幅(L),(L0)が供給され、平均音声振幅
が、L0<Lのときには、入力音声データに一定倍率を
乗算して出力し、L0>Lのときには、入力音声データ
のまま出力する音声振幅比較判定出力部と、この比較判
定出力部からの出力が供給され、前記音声入力装置の入
力音声の全フレームに対して振幅変更処理を行う振幅変
更処理部とを備え、前記振幅変更処理部で変更処理され
た音声データを周波数分析させるようにしたことを特徴
とするものである。
【0014】第3発明は、前記振幅変更処理部は、入力
音声の無音区間音声のみに振幅変更処理を施し、有音区
間音声の音素認識性能を維持させるようにしたことを特
徴とするものである。
【0015】第4発明は、前記無音区間音声は、前記音
声入力装置の出力に有音・無音判定部を設けて得るよう
にしたことを含むものである。
【0016】
【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明するに、図9、図10と同一部分は同一
符号を付して示す。図1はこの発明の実施の第1形態を
示すブロック構成図で、図1において、音声入力装置4
1からの入力音声データに対してフレーム毎に平均エネ
ルギを計算し、あらかじめ設定した閾値により、有音区
間であるか、無音区間であるかを有音・無音区間判定部
11で判定する。この判定部11での判定結果に応じ
て、フレーム毎に特徴抽出部42で周波数分析する。
【0017】この特徴抽出部42での周波数分析の後、
有音・無音区間分配部12で有音と無音区間を分配し、
有音区間なら入力音声の有音区間の音声スペクトルは音
素認識部43に供給する。これにより有音区間(特に母
音部)における音素認識性能が劣化するのが防止され
る。また、無音区間なら入力音声の無音区間の音声スペ
クトルは、前記SS法による雑音スペクトル抽出部51
で得られる推定雑音スペクトル51dから引算部52で
引き算されて雑音成分が除去される。
【0018】このようにして雑音成分を除去することに
より、音素認識性能の向上が可能となり、これによって
単語認識性能の向上が図れるようになる。また、SS法
に有音・無音区間判定部11と分配部12を設けるだけ
で選択型SS法を実現できるため、SS法から選択型S
S法へのシステムの変更が容易になるとともに、選択型
SS法は、音素認識部43の前段に設けられ、音素認識
部43への入力形式のみ一致させれば良いため、音素認
識部、単語認識部の方式に依存しないでシステムの変更
を行うことができる。
【0019】次に学習環境に対して環境変動させた環境
において、上記実施の第1形態の選択型SS法と従来の
SS法の両者を使用して、離散単語認識実験を行って見
た。使用した音声データは、音素バランス単語セット1
01単語、3話者、2回発声で音声入力機器としてはPH
S(Personal Handyphone System)を使用した。
【0020】認識実験を実施した環境と学習環境の違い
は、PC内のサウンドデバイスのみである。実験結果を
次の表1に示す。
【0021】
【表1】
【0022】表1から環境変動により離散単語認識率が
95%から35%へと、大きく認識性能が低下している
ことが判明した。この原因として、無音区間の音素認識
性能が極めて悪いことが上げられる。この実験環境で取
得した音声データに対して、再度SS法と選択型SS法
を用いて離散単語認識実験を行った。その実験結果を次
の表2に示す。
【0023】
【表2】
【0024】この表2から全体としては、35%の単語
認識率であったものが、SS法でも85%、選択型SS
法に至っては90%となって、学習環境時の95%に近
づいていることが判明した。また、話者別のデータを見
ても選択型SS法の認識率がSS法のそれと比較しても
向上している。
【0025】両者の音素認識結果の例を図2に示す。こ
の図2は、話者3による「牛乳」という発声データを入
力音声として、SS法と選択型SS法を用いた場合にお
ける音素認識結果である。単語認識結果は、選択型SS
法が正解単語を導出し、SS法が不正解単語を導出して
いる例である。なお、選択型SS法は、図中下線で示し
た母音部への悪影響を防止しているので、有効であるこ
とが分かる。
【0026】図3はこの発明の実施の第2形態を示すブ
ロック構成図で、図3において、あらかじめ音声入力装
置41より無音音声を取得し、入力音声の無音部の平均
音声振幅(LdB)を第1平均音声振幅抽出部21で得
る。この抽出部21で得られた平均音声振幅(LdB)
と、学習音声の無音部の平均音声振幅(L0dB)を第2
平均音声振幅抽出部22で得た平均音声振幅(L0dB)
は、音声振幅比較判定出力部23に与えられる。この音
声比較判定出力部23は、次式(1)、(2)を入力音
声データに対して、L0<Lなら(1)式を、L0>Lな
ら(2)式を選択して、その出力を振幅変更処理部24
に与える。
【0027】
【数1】
【0028】振幅変更処理部24では、システム稼働時
に、入力音声データに対して音声振幅比較判定出力部2
3で選択された(1)式あるいは(2)式で振幅変更処
理を施し、変更処理したV'(n)を出力し、この出力を特
徴抽出部42に与える。特徴抽出部42は入力された
V'(n)を用いて、周波数分析を行った後、音素認識部
43で音素認識してから単語認識部45で単語認識し
て、その出力に単語認識出力結果を送出する。なお、前
記振幅変更処理は、入力音声データに前記(1)式に示
すように一定倍率を乗算することにより処理される。
【0029】上記のように、第2形態は、特徴抽出部
(周波数分析)の前段で、あらかじめオフラインで、無
音区間音声振幅を学習音声の無音区間音声振幅レベルに
なるように計算し、できるだけ無音区間の認識性能を高
めるようにした環境適応方式である。次に第2形態を入
力音声の全フレームに対して、振幅変更処理を実施した
実験結果を示す。
【0030】ここで、学習音声の無音区間平均音声振幅
(L0)は30dBで、入力音声の無音区間音声振幅
(L)が40dBであった場合、音声振幅比較判定出力部
23は前記(1)式を選択して、振幅変更処理部24に
与えるため、振幅変更処理部24は前記(1)式を用い
て処理するようになる。この場合の単語認識結果例と音
素認識結果例を図4に示す。なお、発声内容は、男声の
「ぼんやり」を使用した。
【0031】なお、比較のために、振幅変更処理を実行
しなかった場合の単語認識結果例と音素認識結果例を図
5に示す。上記図4と図5から振幅変更処理を施すこと
により、振幅変更処理を施さなかった場合に比べて、音
素認識結果から無音区間の認識性能が向上し、正しい単
語認識結果を出力していることがわかる。
【0032】図6はこの発明の実施の第3形態を示すブ
ロック構成図で、この図6の第3形態は前記第2形態で
は、入力音声の全フレームに対して振幅変更処理を実施
したのを有音・無音判定部11を設けて、音声入力装置
41から入力されたデータのエネルギを分析して有音区
間か無音区間かを判定し、無音区間フレームのみに対し
て振幅変更処理を実施したものである。
【0033】図6に示すように、音声入力装置41から
入力されたデータをエネルギ分析し、有音区間か無音区
間であるかの判定を有音・無音判定部11で行う。この
判定部11で有音区間と判定されたなら、その有音区間
は、振幅変更処理を行わず特徴抽出部42へ供給する。
また、判定部11で無音区間と判定されたなら、その無
音区間は振幅変更処理部24へ供給して、第2形態と同
様な振幅変更処理を行ってから特徴抽出部42へ供給す
る。
【0034】この第3形態のように処理するのは、第2
形態のように実施した場合、音素認識結果において、無
音区間の認識性能を高めることができる反面、有音区間
で誤認識を招く恐れがある(図4の波線部)からであ
る。
【0035】次に、第3形態を入力音声の無音区間フレ
ームに対して、振幅変更処理を実施した実験結果を示
す。ここでは、学習音声の無音区間平均音声振幅
(L0)は、30dBで、入力音声の無音区間音声振幅
(L)が40dBであった場合、音声振幅比較判定出力部
23は前記(1)式を選択して、振幅変更処理部24に
与えるため、振幅変更処理部24は前記(1)式を用い
て処理するようになる。この場合の単語認識結果例と音
素認識結果例を図7に示す。なお、発声内容は、図4に
示した音声データと同じ、男声の「ぼんやり」を使用し
た。
【0036】なお、比較のために、振幅変更処理を実行
しなかった場合の単語認識結果例と音素認識結果例を図
8に示す。上記図7と図8から振幅変更処理を施すこと
により、振幅変更処理を施さなかった場合に比べて、音
素認識結果から無音区間の認識性能が向上し、正しい単
語認識結果を出力していることがわかる。特に、第3形
態では、図4に示した音素認識結果の音素第1、第2候
補列の波線部分と比較して、図7に示すように、有音区
間の音素認識性能が維持されていることがわかる。
【0037】上記第2、第3形態においては、無音音声
データを用いて、疑似的に音声入力環境の音声データの
音声振幅を、学習データの音声振幅に近づけ、認識性能
の向上を図ることができるとともに、入力音声データに
振幅変更処理を施すことにより、音素認識性能を向上さ
せ、もって単語認識性能の向上を図ることができる。ま
た、無音区間の音声のみに振幅変更処理を施すことによ
り、有音区間の音素認識性能を維持させつつ、単語認識
性能の向上を図ることができる。さらに、振幅変更処理
は、入力音声データに一定倍率を乗算するという簡易な
手段を用いているため、システムの変更が容易になると
ともに、それは特徴抽出部の前段に設けられ、特徴抽出
部への入力形式のみ一致させればよいため、特徴抽出
部、音素認識部、単語認識部の方式に依存しないシステ
ム変更を行うことができる。なお、選択型振幅変更処理
は、有音、無音判定部を付加するだけの簡易な手段で構
成できるため、システム変更が容易になる。
【0038】
【発明の効果】以上述べたように、この発明によれば、
音素認識性能を向上させ、もって単語認識性能の向上を
図ることができるとともに、システム変更が容易になる
等の利点がある。
【図面の簡単な説明】
【図1】この発明の実施の第1形態を示すブロック構成
図。
【図2】選択SS法と従来のSS法を用いた認識実験に
おける音素認識結果の説明図。
【図3】この発明の実施の第2形態を示すブロック構成
図。
【図4】振幅変更処理を実行したときの単語および音素
認識結果例の説明図。
【図5】振幅変更処理を実行しなかったときの単語およ
び認識結果例の説明図。
【図6】この発明の実施の第3形態を示すブロック構成
図。
【図7】振幅変更処理を実行したときの単語および音素
認識結果例の説明図。
【図8】振幅変更処理を実行しなかったときの単語およ
び認識結果例の説明図。
【図9】離散単語認識システムの概要を示すブロック構
成図。
【図10】従来のSS法のブロック構成図。
【符号の説明】 11…有音・無音判定部 12…有音・無音区間分配部 21…第1平均音声振幅抽出部 22…第2平均音声振幅抽出部 23…音声振幅比較判定出力部 24…振幅変更処理部 41…音声入力装置 42…特徴抽出部 43…音素認識部 44…辞書 45…単語認識部 51…雑音スペクトル抽出部 52…引算部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声入力装置より入力された単語音声デ
    ータを周波数分析し、それを出力多重化ニューラルネッ
    トに入力させて音素認識を行わせて、認識音素第1位音
    素候補と第2位音素候補を得、その認識された音素候補
    列と、認識させたい語彙の音素パターンを持たせた辞書
    中のテンプレートとの類似度を、テンプレート中の音素
    と認識された音素候補列中の第1位および第2位候補と
    の類似度を局所スコアとし、その局所スコアをDTW法
    によって累積することで、全体の類似度スコアを求めた
    後、認識させたい全ての語彙の中で、その類似度スコア
    が最小となる単語を認識結果として出力する単語音声認
    識システムにおいて、 前記音声入力装置から出力される音声データを周波数分
    析する前に、そのデータの有音、無音を有音・無音判定
    部で判定してから周波数分析し、前記判定部で有音と判
    定されたなら、その有音区間の音声スペクトルは前記ニ
    ューラルネットに供給し、 前記判定部で無音と判定されたなら、その無音区間の音
    声スペクトルからあらかじめ推定した雑音スペクトルを
    引いて雑音成分を除去して前記ニューラルネットに供給
    したことを特徴とする単語音声認識システムにおける環
    境適応装置。
  2. 【請求項2】 音声入力装置より入力された単語音声デ
    ータを周波数分析し、それを出力多重化ニューラルネッ
    トに入力させて音素認識を行わせて、認識音素第1位音
    素候補と第2位音素候補を得、その認識された音素候補
    列と、認識させたい語彙の音素パターンを持たせた辞書
    中のテンプレートとの類似度を、テンプレート中の音素
    と認識された音素候補列中の第1位および第2位候補と
    の類似度を局所スコアとし、その局所スコアをDTW法
    によって累積することで、全体の類似度スコアを求めた
    後、認識させたい全ての語彙の中で、その類似度スコア
    が最小となる単語を認識結果として出力する単語音声認
    識システムにおいて、 あらかじめ音声入力装置より無音音声を取得し、入力音
    声の無音部の平均音声振幅(L)を得る第1平均音声振
    幅抽出部と、 学習音声の無音部の平均音声振幅(L0)を得る第2平
    均音声振幅抽出部と、 前記第1、第2平均音声振幅抽出部からの平均音声振幅
    (L),(L0)が供給され、平均音声振幅が、L0<L
    のときには、入力音声データに一定倍率を乗算して出力
    し、L0>Lのときには、入力音声データのまま出力す
    る音声振幅比較判定出力部と、 この比較判定出力部からの出力が供給され、前記音声入
    力装置の入力音声の全フレームに対して振幅変更処理を
    行う振幅変更処理部とを備え、前記振幅変更処理部で変
    更処理された音声データを周波数分析させるようにした
    ことを特徴とする単語音声認識システムにおける環境適
    応装置。
  3. 【請求項3】 前記振幅変更処理部は、入力音声の無音
    区間音声のみに振幅変更処理を施し、有音区間音声の音
    素認識性能を維持させるようにしたことを特徴とする請
    求項2記載の単語音声認識システムにおける環境適応装
    置。
  4. 【請求項4】 前記無音区間音声は、前記音声入力装置
    の出力に有音・無音判定部を設けて得るようにしたこと
    を含む請求項3記載の単語音声認識システムにおける環
    境適応装置。
JP10024996A 1998-02-06 1998-02-06 単語音声認識システムにおける環境適応装置 Pending JPH11224098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10024996A JPH11224098A (ja) 1998-02-06 1998-02-06 単語音声認識システムにおける環境適応装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10024996A JPH11224098A (ja) 1998-02-06 1998-02-06 単語音声認識システムにおける環境適応装置

Publications (1)

Publication Number Publication Date
JPH11224098A true JPH11224098A (ja) 1999-08-17

Family

ID=12153599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10024996A Pending JPH11224098A (ja) 1998-02-06 1998-02-06 単語音声認識システムにおける環境適応装置

Country Status (1)

Country Link
JP (1) JPH11224098A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020208926A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
WO2021043015A1 (zh) * 2019-09-05 2021-03-11 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020208926A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
WO2021043015A1 (zh) * 2019-09-05 2021-03-11 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置
JP2022531574A (ja) * 2019-09-05 2022-07-07 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム

Similar Documents

Publication Publication Date Title
US7319960B2 (en) Speech recognition method and system
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN116018638A (zh) 使用话音转换和语音识别模型的合成数据增强
US20070239444A1 (en) Voice signal perturbation for speech recognition
CN1162365A (zh) 语音识别
CN101030369A (zh) 基于子词隐含马尔可夫模型的嵌入式语音识别方法
JPH075892A (ja) 音声認識方法
CN111508498A (zh) 对话式语音识别方法、系统、电子设备和存储介质
Schulze-Forster et al. Joint phoneme alignment and text-informed speech separation on highly corrupted speech
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
JPH04158397A (ja) 声質変換方式
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
KR102197387B1 (ko) 자연어 대화체 음성 인식 방법 및 장치
WO2019212375A1 (ru) Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
JPH09179581A (ja) 音声認識システム
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP4461557B2 (ja) 音声認識方法および音声認識装置
JPH11224098A (ja) 単語音声認識システムにおける環境適応装置
JP3250604B2 (ja) 音声認識方法および装置
US11043212B2 (en) Speech signal processing and evaluation
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
JPH07121197A (ja) 学習式音声認識方法
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
Khalifa et al. Statistical modeling for speech recognition