JP3962445B2 - 音声処理方法及び装置 - Google Patents
音声処理方法及び装置 Download PDFInfo
- Publication number
- JP3962445B2 JP3962445B2 JP05916197A JP5916197A JP3962445B2 JP 3962445 B2 JP3962445 B2 JP 3962445B2 JP 05916197 A JP05916197 A JP 05916197A JP 5916197 A JP5916197 A JP 5916197A JP 3962445 B2 JP3962445 B2 JP 3962445B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- parameters
- normalization
- long
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims description 15
- 238000000034 method Methods 0.000 claims description 52
- 238000010606 normalization Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 14
- 230000007774 longterm Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、例えばケプストラムなどの音声時系列の特徴を用いて音声認識を行なう、音声処理方法及び装置に関するものである。
【0002】
本発明は、乗算性雑音に対する即時/逐次適応を可能とする音声処理方法及び装置に関するものである。
【0003】
【従来の技術】
実環境において音声認識を行なう場合、特に問題となるのはマイクや電話回線特性などの影響による回線特性の歪みによる乗算性雑音と、内部雑音などの加算性雑音である。このうち回線特性の歪みに対処する方法として、Cepstrum Mean Subtraction (CMS)法が提案されている。CMS法は「Rahim, et al.: Signal Bias Removal for Robust Telephone Based Speech Recognition in Adverse Environments, Proc. of ICASSP'94, (1994)。」などに詳しい。
【0004】
CMS法は回線特性の歪みを補償するための一手法である。この方法では入力音声から抽出される情報をもとに、回線歪みを入力時系列側またはHMMなどのモデル側で修正し入力環境に適応させる。これによって回線特性が変動した場合でも、柔軟に対処できる。
【0005】
CMS法はインパルス応答の畳み込みで作用する乗算性雑音(回線歪み)を補償する方法である。入力音声の長時間スペクトルを入力音声から差し引き、またモデル作成に用いた音声の長時間スペクトルをモデルから差し引くことにより回線特性の差を正規化する。正規化処理は対数スペクトル領域やケプストラム領域で行なうのが一般的である。乗算性雑音はこの二者の領域では加法性歪みとしてあらわれるので、引き算により乗算性雑音の補償が可能となる。このうちケプストラム領域で行なう方法がCMSと呼ばれている。
【0006】
【発明が解決しようとする課題】
以上述べたようにCMS法を用いることにより、マイクや電話回線特性などの影響による回線特性の歪みに対処することができる。しかしこのCMS法を用いる場合、認識対象として入力された音声からケプストラム長時間平均(CM)を計算する為には、認識対象の音声の入力の完了を待たなければならず、認識処理はCMが求められた後の、即ち音声入力終了後に行なわれていた。よって音声が入力されるのに同期して認識アルゴリズムを動作させることはできない。このため従来の方法ではリアルタイム処理が不可能であった。
【0007】
【課題を解決するための手段】
上記従来技術の課題を解決するために、本発明にかかる音声処理方法は、特徴パラメータを順次取得する取得工程と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、前記第一の正規化工程で正規化されたパラメータを用いて探索して候補を選択する第一の探索工程と、前記更新工程において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化工程と、前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする。
【0008】
また上記従来技術の課題を解決するために、本発明にかかる音声処理方法は、特徴パラメータを順次取得する取得工程と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、前記第一の正規化工程で正規化された特徴パラメータを用いて探索して候補を選択する第一の探索工程と、取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化工程と、前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする。
【0009】
また上記従来技術の課題を解決するために、本発明にかかる音声処理装置は、特徴パラメータを順次取得する取得手段と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、前記第一の正規化手段で正規化されたパラメータを用いて探索して候補を選択する選択手段と、前記更新手段において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化手段と、前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする。
【0010】
また上記従来技術の課題を解決するために、本発明にかかる音声処理装置は、特徴パラメータを順次取得する取得手段と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、前記第一の正規化手段で正規化された特徴パラメータを用いて探索して候補を選択する選択手段と、取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化手段と、前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする。
【0023】
【発明の実施の形態】
以下、添付図面に従って本発明の実施の形態を詳細に説明する。
【0024】
図6は本発明に係る音声認識装置の構成を表わすブロック図である。101はCRTや液晶表示器等の表示部であり、音声認識の結果得られる文字列を表示する。102はLBPやインクジェットプリンタ等の印字部であり、音声認識の結果得られる文字列を印字する。103はマイクロフォン等の音声入力部であり、公衆回線等やLANを介して入力するものであっても良い。104はCPUであり、記憶部105やCDROM等の着脱可能な記憶媒体107に記憶されている制御プログラムに従って以下説明する各種処理を実行するよう制御する。CPU104は後述する処理の他、様々なアプリケーションの実行も制御するが、本発明の方法により認識された音声に対応するコマンドに従い、アプリケーションに係る各種処理を実行すべく、制御も行う。(例えば、「プリント」や「終了」など)105は装置内に備える記憶部であって、CPU104が実行する後述の各種処理の為の制御プログラムやその為に必要な各種パラメータ(例えば音声認識に用いる辞書に相当するデータ等)、認識する音声データ等を記憶する。この記憶部105に記憶される制御プログラムや各種パラメータは、記憶媒体107から、或は通信回線を介して入力し、記憶したものであっても良い。106は通信I/Fであって、公衆回線やLAN等の通信手段を介してデータの授受を行うべく通信の制御を行う。この通信I/Fにより、他の装置で入力された音声や、他の装置が記憶している制御プログラムや各種パラメータを本装置にとり込み、記憶部105に記憶させた後、以下説明する各処理を開始するようにしても良い。107は例えばCDROM、FD等の本体に着脱可能な記憶媒体であって、記憶部105に記憶されているとして先に説明した制御プログラム、各種パラメータ、音声データを記憶することの可能な本体に着脱可能な記憶媒体であって、以下説明する各処理を開始する前にこの記憶媒体107から記憶部105にデータをダウンロードしても良いし、或いはCPU104が直接記憶媒体107にアクセスしても良い。図3は記憶部105或いは記憶媒体107に記憶されているデータのメモリマップであり、401〜403に示すような各処理の制御プログラムが格納されている。また、図3には図示していないが、この他にパラメータ格納部、音声データ格納部、ワーキングエリア等も備える。
【0025】
図1は本発明の実施の形態における音声認識装置の機能的ブロック構成図である。図において、1は音声を入力するためのマイクであって、図6の音声入力部103により実現する。2は入力した音声を特徴パラメータ時系列に変換するための音声分析部、3は特徴パラメータ、文法および音素モデルの情報を用いて正解認識系列を探索する探索部であって、図6のCPU104により実現する。4は認識用文法、5は音声認識用音素モデルであって、図6の記憶部105或は記憶媒体107に記憶されているデータを用いる。
【0026】
まず
1)入力長の重みつき処理によるケプストラム長時間平均(CM)計算について説明する。
【0027】
この方法は入力音声の1フレームごとにCMの推定値を更新し、それを入力音声の1フレームごと差し引く方法である。しかし発話開始直後ではCMの推定値は誤差を多く含むため、認識性能の低下を招く恐れがある。そこで入力フレーム数の重みをつけ、入力フレームが少ないうちは重みを小さくして、差し引くCMの量を減らす。また入力が多くなれば重みを大きくして、差し引くCMの量を多くする。重みは0〜1の間でフレーム数(入力時間長)に応じて増減させる。
【0028】
音声分析部2ではマイク1より入力した音声の一般的なケプストラム分析を行なう。分析後切り出された1入力音声におけるnフレーム目のパラメータxnの正規化を以下の式(1)により行ない、正規化されたnフレーム目のパラメータ(xn)′を求める。
【0029】
【外1】
【0030】
ここでμdはデータベースのCM,τは定数である。2項目のフレーム数による重みn/(n+τ)はこの式に限らず、nが増加するに従い値が0から1をとる関数で代用できる。以上のようにして正規化して得られた(xn)′を特徴パラメータとして認識を行なう。
【0031】
次に、
2)マルチパスサーチを利用したCMの差し引き処理について説明する。
【0032】
マルチパス方式は探索を複数回(少なくとも2回)繰り返すことによって、正解候補を絞っていく方法である。1回目の探索時は入力音声のCMを計算しながら探索を行なう。この1回目の探索時は入力音声のCMは音声認識には反映しない。2回目の探索時に、既に音声の入力が完了し、計算が終っている入力音声全体のCMを、入力音声ケプストラムから差し引くことによって、回線特性の変動である乗算性雑音を除去する。
【0033】
図1の探索処理部3はマルチパスサーチを用いる。マルチパスサーチによる認識法は、Tree-trellis based searchや、Forward-backward searchがある。Tree-trellis based searchは文献、''F.K.Soong, and E.F.Huang: A Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypoteses in Continuous Speech Recognition, Proc. of ICASSP91, pp.705-708 (1991.5)''に詳しい。またForward-backward searchについては文献、''S.Austin, R.Schwartz and P.Placeway: The Forward-Backward Search Algorithm, Proc. of ICASSP91, pp.697-700 (1991.5)''に詳しい。本実施の形態ではTree-trellis based searchを用いて説明するが、探索部3の探索の方法は、これに限るものではない。このTree-trellis based search方法は厳密なN-best探索を実現するアルゴリズムであり、前向き探索と後向き探索の2段階の提案で構成する。前向き探索(1回目の探索)ではフレーム同期のViterbi探索を行ない、前向き探索結果の上位の所定個を入力音声の認識候補として選択する。後向き探索(2回目の探索)では前向き探索の結果をヒューリスティックとするA*探索を各候補について行なう。
【0034】
この2段階の探索のうち、前向き探索時に探索と並行して入力音声全体のCMを計算し、後向き探索時にその求められたCMを差し引いて探索処理を行うことにより、回線特性の正規化を行なう。後向き探索時における正規化は以下の(2)或は(3)式のいずれかの式により行なう。
【0035】
【外2】
または、
【0036】
【外3】
【0037】
ここでNは入力音声のフレーム長である。(2)式は特に入力音声のフレーム長が短い場合に差し引くCMの量を減らすので、入力時間長が、短いことによるCMの誤差を軽減することができ、認識性能の向上に有効である。
【0038】
以上のように前向き探索と後向き探索で入力音声の正規化法を変更すると、A*探索の条件を満たさなくなるが、N-bestのスタックを十分大きくし、認識結果を尤度順にソートすることにより、十分な精度を保つことができる。
【0039】
さらに1)と2)を組合せ、前向き探索では1)の方法により、入力長の重みつき処理によって求めたCMにより正規化を行ないながら探索し、後向き探索では2)の方法により正規化を行なう。
【0040】
以上の計算の流れ図を図2〜図4のフローチャートに示す。図2は1)の入力長の重みつき処理によるCMの計算法を利用した音声認識手法の流れ図である。ここでは(1)式により前向き探索時(23)前に入力パラメータの正規化を行なう(22)。後向き探索時には前向き探索時(24)に計算した各パラメータごとの対数尤度をそのまま用いて、加算する。図3は2)のマルチパスサーチを利用した後向き探索時のCM計算法を利用した音声認識手法の流れ図である。この方法では前向き探索時(32)は、正規化していない通常の音声分析によるケプストラムパラメータを用いた探索を行い、音声入力終了後33に前向き探索により選択された各候補を(2)または(3)式による入力パラメータの正規化を行なって、探索を行う(34)。この結果前向き探索時と後向き探索時に、尤度が異なりA*条件を満たさなくなるので認識結果を尤度によりソートして(35)結果を出力する(36)。図4は1)と2)の組合せ手法である。前向き探索時(43)には(1)式による正規化を行なったパラメータを用いて探索を行い(42)、後向き探索時(45)には(2)または(3)式による正規化を行なったパラメータ(44)を用いて探索を行なう。この場合も当然前向きと後向き探索時には尤度が異なるため、認識結果を尤度によりソートして(46)認識結果を出力する(47)。以上の処理を1音声入力ごとに行なう。
【0041】
また、上記説明では1音声入力ごとに回線特性の正規化を行なう例について説明したが、回線特性の変動がないと判断される場合には、複数の音声入力に渡って回線特性の正規化を行なうことにより、より安定した回線特性の正規化が行なえる。上記説明では(1)式のnや(2)、(3)式のNを入力音声が変わるごとに毎回クリアするが、この複数の入力音声に渡り正規化を行う方法では毎回クリアせず、複数の音声入力に渡って値を保持し正規化を行なう。
【0042】
また、上記説明ではパラメータとしてケプストラムを想定した例について説明したが、ケプストラムの代わりに対数スペクトルを用いても良い。
【0043】
図5は本発明の効果を表す図であり、各手法の認識処理時間を示している。
【0044】
実験条件は以下の通りである。まず評価は不特定話者文認識で行ない、単語数1,004、単語perplexity 30.2、分析条件は8kHzサンプリング、フレーム周期10msec、窓幅25.6msec、プリエンファシス0.97である。特徴量はLPCメルケプストラム12次、ΔLPCメルケプストラム12次、Δ対数パワーを使用した。音声認識はHMMをベースとした認識系でHMMは3状態6混合、対角化共分散行列で243種類の右環境依存音素HMMを使用した。認識対象は話者10名の発声した50文であり、300〜3,200Hzのバンドパスフィルタをかけることにより、回線特性の歪みを与えた。従来法では音声発声が終了した時点でなければ正規化処理ができないため、発声終了後1sec以上の認識時間がかかる。これに対し本発明によればいずれの場合も発声終了後0.05sec程度から0.26sec程度で認識が終了する。また図の下の数字はτを調整した場合の各手法の認識率である。比較として回線特性の正規化を行なわない場合の認識率は65.0%であった。1)+2)の手法は認識率の低減がごく僅かで大幅な計算量の削減ができることが分かる。以上のように本手法は回線特性の歪みの正規化を音声入力と同期して処理することにより、高速な回線特性正規化が可能となる。
【0045】
【発明の効果】
以上説明したように、本発明によれば、変動し得る回線特性の歪み補償が高速化でき、準リアルタイムに行うことができるので、回線特性正規化を行った上でのリアルタイムかつ高精度な音声認識が可能となる。
【図面の簡単な説明】
【図1】本発明に係る装置の機能的ブロック構成図
【図2】入力長の重みつき処理によるCMの計算法を利用した音声認識手法の流れ図
【図3】マルチパスサーチを利用した後向き探索時のCM計算法を利用した音声認識手法の流れ図
【図4】前向き探索時には入力長の重みつき処理によるCM計算法を利用し、さらに後向き探索時にCMの再計算を行なう音声認識手法の流れ図
【図5】各手法の認識処理時間の比較の図
【図6】本発明に係る装置のブロック構成図
Claims (14)
- 特徴パラメータを順次取得する取得工程と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、
前記第一の正規化工程で正規化されたパラメータを用いて探索して候補を選択する第一の探索工程と、
前記更新工程において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化工程と、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする音声処理方法。 - 特徴パラメータを順次取得する取得工程と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、
前記第一の正規化工程で正規化された特徴パラメータを用いて探索して候補を選択する第一の探索工程と、
取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化工程と、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする音声処理方法。 - 前記特徴パラメータの正規化は、前記長時間平均に取得済み特徴パラメータのフレーム数による重みをつけた値で行うことを特徴とする請求項1又は2に記載の音声処理方法。
- 前記パラメータはケプストラムを用いることを特徴とする請求項1又は2に記載の音声処理方法。
- 前記パラメータは対数スペクトル時系列を用いることを特徴とする請求項1又は2に記載の音声処理方法。
- 前記重みは、パラメータのフレーム数が多いほど大きくすることを特徴とする請求項3に記載の音声処理方法。
- 前記パラメータの正規化は、前記取得した特徴パラメータから前記求めたパラメータの長期間平均を差し引くものとすることを特徴とする請求項1又は2に記載の音声処理方法。
- 前記パラメータの正規化は、回線特性の補償処理とすることを特徴とする請求項1又は2に記載の音声処理方法。
- 入力された音声から、音声区間を切り出し、
前記切り出した音声区間内で継続した前記パラメータの長時間平均を求めることを特徴とする請求項1又は2に記載の音声処理方法。 - マイクロフォンより入力された音声を解析して前記特徴パラメータを取得することを特徴とする請求項1又は2に記載の音声処理方法。
- 特徴パラメータを順次取得する取得手段と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、
前記第一の正規化手段で正規化されたパラメータを用いて探索して候補を選択する選択手段と、
前記更新手段において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化手段と、
前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする音声処理装置。 - 特徴パラメータを順次取得する取得手段と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、
前記第一の正規化手段で正規化された特徴パラメータを用いて探索して候補を選択する選択手段と、
取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化手段と、
前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする音声処理装置。 - コンピュータにより読取可能な記憶媒体であって、
特徴パラメータを順次取得する取得工程のプログラムコードと、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程のプログラムコードと、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程のプログラムコードと、
前記第一の正規化工程で正規化されたパラメータを用いて探索して候補を選択する選択工程のプログラムコードと、
前記更新工程において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化工程のプログラムコードと、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記選択工程で選択された候補の探索を行う探索工程のプログラムコードを記憶した記憶媒体。 - コンピュータにより読取可能な記憶媒体であって、
特徴パラメータを順次取得する取得工程のプログラムコードと、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程プログラムコードと、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程のプログラムコードと、
前記第一の正規化工程で正規化された特徴パラメータを用いて探索して候補を選択する選択工程のプログラムコードと、
取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化工程のプログラムコードと、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記選択工程で選択された候補の探索を行う探索工程のプログラムコードを記憶した記憶媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05916197A JP3962445B2 (ja) | 1997-03-13 | 1997-03-13 | 音声処理方法及び装置 |
US09/038,898 US6236962B1 (en) | 1997-03-13 | 1998-03-12 | Speech processing apparatus and method and computer readable medium encoded with a program for recognizing input speech by performing searches based on a normalized current feature parameter |
DE69824063T DE69824063T2 (de) | 1997-03-13 | 1998-03-13 | Normalisierung von Sprachsignalen |
EP98301919A EP0865033B1 (en) | 1997-03-13 | 1998-03-13 | Normalization of speech signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05916197A JP3962445B2 (ja) | 1997-03-13 | 1997-03-13 | 音声処理方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254492A JPH10254492A (ja) | 1998-09-25 |
JP3962445B2 true JP3962445B2 (ja) | 2007-08-22 |
Family
ID=13105382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05916197A Expired - Fee Related JP3962445B2 (ja) | 1997-03-13 | 1997-03-13 | 音声処理方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6236962B1 (ja) |
EP (1) | EP0865033B1 (ja) |
JP (1) | JP3962445B2 (ja) |
DE (1) | DE69824063T2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3902860B2 (ja) * | 1998-03-09 | 2007-04-11 | キヤノン株式会社 | 音声合成制御装置及びその制御方法、コンピュータ可読メモリ |
US6374220B1 (en) * | 1998-08-05 | 2002-04-16 | Texas Instruments Incorporated | N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP3728177B2 (ja) * | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
CN1272698C (zh) * | 2000-10-11 | 2006-08-30 | 佳能株式会社 | 信息处理装置、信息处理方法 |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
US20040243556A1 (en) * | 2003-05-30 | 2004-12-02 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS) |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP2007271876A (ja) * | 2006-03-31 | 2007-10-18 | Denso Corp | 音声認識装置および音声認識用のプログラム |
WO2016105216A1 (en) * | 2014-12-22 | 2016-06-30 | Intel Corporation | Cepstral variance normalization for audio feature extraction |
WO2017154279A1 (ja) * | 2016-03-10 | 2017-09-14 | ソニー株式会社 | 音声処理装置および音声処理方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS53105303A (en) * | 1977-02-25 | 1978-09-13 | Hitachi Ltd | Preprocessing system for audio recognition |
EP0427485B1 (en) | 1989-11-06 | 1996-08-14 | Canon Kabushiki Kaisha | Speech synthesis apparatus and method |
JPH03150599A (ja) | 1989-11-07 | 1991-06-26 | Canon Inc | 日本語音節の符号化方式 |
JPH04362698A (ja) | 1991-06-11 | 1992-12-15 | Canon Inc | 音声認識方法及び装置 |
JP3066920B2 (ja) | 1991-06-11 | 2000-07-17 | キヤノン株式会社 | 音声認識方法及び装置 |
US5583961A (en) | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
JP3397372B2 (ja) | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
US5515475A (en) * | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
US5604839A (en) * | 1994-07-29 | 1997-02-18 | Microsoft Corporation | Method and system for improving speech recognition through front-end normalization of feature vectors |
US5598505A (en) | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
JP3581401B2 (ja) | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
JP3453456B2 (ja) | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
-
1997
- 1997-03-13 JP JP05916197A patent/JP3962445B2/ja not_active Expired - Fee Related
-
1998
- 1998-03-12 US US09/038,898 patent/US6236962B1/en not_active Expired - Lifetime
- 1998-03-13 DE DE69824063T patent/DE69824063T2/de not_active Expired - Lifetime
- 1998-03-13 EP EP98301919A patent/EP0865033B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69824063D1 (de) | 2004-07-01 |
EP0865033A3 (en) | 1999-03-24 |
DE69824063T2 (de) | 2004-10-28 |
US6236962B1 (en) | 2001-05-22 |
EP0865033B1 (en) | 2004-05-26 |
EP0865033A2 (en) | 1998-09-16 |
JPH10254492A (ja) | 1998-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3962445B2 (ja) | 音声処理方法及び装置 | |
EP0831461B1 (en) | Scheme for model adaptation in pattern recognition based on taylor expansion | |
EP1262953B1 (en) | Speaker adaptation for speech recognition | |
US7219055B2 (en) | Speech recognition apparatus and method adapting best transformation function to transform one of the input speech and acoustic model | |
US6266636B1 (en) | Single distribution and mixed distribution model conversion in speech recognition method, apparatus, and computer readable medium | |
EP0792503B1 (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
JP4750271B2 (ja) | ノイズ補償されたスピーチ認識システムおよび方法 | |
JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
EP0660300B1 (en) | Speech recognition apparatus | |
US7016837B2 (en) | Voice recognition system | |
KR100897553B1 (ko) | 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치 | |
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
US20020042712A1 (en) | Voice recognition system | |
JPH0372998B2 (ja) | ||
US6182036B1 (en) | Method of extracting features in a voice recognition system | |
Liao et al. | Joint uncertainty decoding for robust large vocabulary speech recognition | |
JP2003308092A (ja) | 雑音除去装置及び雑音除去方法 | |
Chien et al. | Telephone speech recognition based on Bayesian adaptation of hidden Markov models | |
JP4275353B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2570448B2 (ja) | 標準パターン学習方法 | |
Young | Acoustic modelling for large vocabulary continuous speech recognition | |
JPH06266386A (ja) | ワードスポッティング方法 | |
JP2007508577A (ja) | 音声認識システムの環境的不整合への適応方法 | |
JP2004309959A (ja) | 音声認識装置および音声認識方法 | |
WO1994015330A1 (en) | Method and apparatus for automatic evaluation of pronunciation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070219 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070521 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100525 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130525 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140525 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |