JP2691109B2 - 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置 - Google Patents

非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置

Info

Publication number
JP2691109B2
JP2691109B2 JP4265717A JP26571792A JP2691109B2 JP 2691109 B2 JP2691109 B2 JP 2691109B2 JP 4265717 A JP4265717 A JP 4265717A JP 26571792 A JP26571792 A JP 26571792A JP 2691109 B2 JP2691109 B2 JP 2691109B2
Authority
JP
Japan
Prior art keywords
vector signal
feature vector
prototype
feature
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4265717A
Other languages
English (en)
Other versions
JPH05241589A (ja
Inventor
ラリット・アール・ボール
ジェローム・アール・ベルガーダ
ピーター・ヴイ・デュ・スーザ
ポナーニ・エス・ゴパラクリシュナン
アーサー・ジェイ・ネイダス
デイヴィッド・ナハムー
マイケル・アラン・ピッチニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05241589A publication Critical patent/JPH05241589A/ja
Application granted granted Critical
Publication of JP2691109B2 publication Critical patent/JP2691109B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピュータ支援音声
認識の如き音声コード化に関する。音声コード化は、発
声についての少なくともある情報を表わす電気信号の生
成を含む。
【0002】
【従来の技術】音声コード化装置および音声認識システ
ムは、話者非依存的であるかあるいは話者依存的かのい
ずれかである。話者非依存的音声認識システムは、その
値がシステムを使用する全ての話者に対して固定される
パラメータを有する。話者依存的音声認識システムは、
一人の話者に対する値が他の話者に対するパラメータ値
と異なる少なくともあるパラメータを有する。
【0003】各話者毎に適当なパラメータ値を選定する
ことにより、話者依存的音声認識システムは一般に話者
非依存的音声認識システムよりも高い単語認識率(即
ち、低い単語誤差率)を達成する。しかし、適当に高い
単語認識率を生じる話者依存的パラメータ値を得るため
には、比較的大量の訓練データが新しい話者毎に必要と
される。
【0004】
【発明が解決しようとする課題】本発明の目的は、適当
に高い単語認識量を得ながら音声認識システムに対する
音声コード化のための話者依存的パラメータ値を得るた
めに新しい話者から必要とされる訓練データ量を減らす
ことにある。
【0005】
【課題を解決するための手段】本発明によれば、音声コ
ード化装置は、特徴値を表わす一連の特徴ベクトル信号
を生じるため、一連の連続的な時間間隔のそれぞれにお
ける発声の少なくとも1つの特徴の値を測定する手段を
含む。各プロトタイプベクトル信号は、少なくとも1つ
のパラメータ値を持ち、一義的な識別値を持つ。1つの
特徴ベクトル信号の特徴値の近似度がプロトタイプ・ベ
クトル信号のパラメータ値と比較されて、特徴ベクトル
信号および各プロトタイプ・ベクトル信号に対するプロ
トタイプ整合スコアを得る。最良のプロトタイプ整合ス
コアを持つプロトタイプ・ベクトル信号の少なくとも識
別値が、特徴ベクトル信号のコード化表示信号として出
力される。
【0006】本発明による音声コード化装置は更に、複
数の基準特徴ベクトル信号を格納する手段と、複数の測
定された訓練特徴ベクトル信号を格納する手段とを含
む。各基準特徴ベクトル信号は、複数の連続的な時間間
隔の各々における1人以上の話者の一回以上の発声の少
なくとも1つの特徴の値を表わす。測定された各訓練特
徴ベクトル信号は、複数の連続的な時間間隔の各々にお
ける基準セットにない話者の一回以上の発声の少なくと
も1つの特徴の値を表わす。少なくとも1つの基準特徴
ベクトル信号は、合成された訓練特徴ベクトル信号に変
換される。その後、プロトタイプ・ベクトル信号が、測
定された訓練ベクトル信号および合成された訓練特徴ベ
クトル信号の両方から生成される。
【0007】本発明の一特質においては、前記変換手段
は、基準特徴ベクトル信号に非線形変換を加えて合成訓
練特徴ベクトル信号を生じる。非線形変換は、例えば、
区分的線形変換でもよい。この区分的線形変換は、例え
ば、基準特徴ベクトル信号を訓練特徴ベクトル信号にマ
ッピングする。
【0008】本発明の別の特質においては、基準特徴ベ
クトル信号の第1のサブセットは平均値(mean)を
有し、訓練特徴ベクトル信号の第1のサブセットは平均
値を有する。非線形変換は、訓練特徴ベクトル信号の第
1のサブセットの平均に対して基準特徴ベクトル信号の
第1のサブセットの平均をマッピングする。
【0009】また基準特徴ベクトル信号の第1のサブセ
ットおよび訓練特徴ベクトル信号の第1のサブセット
は、それぞれ分散を有する。非線形変換は、例えば、訓
練特徴ベクトル信号の第1のサブセットの分散に対して
基準特徴ベクトル信号の第1のサブセットの分散をマッ
ピングする。
【0010】プロトタイプ・ベクトル信号は、例えば、
電子的読出し/書込みメモリーに格納される。発声の少
なくとも1つの特徴の値を測定する手段は、マイクロフ
ォンを含む。
【0011】本発明による音声認識装置は、連続的な一
連の時間間隔において発声の少なくとも1つの特徴の値
を測定して特徴値を表わす一連の特徴ベクトル信号を生
じる手段を含む。パラメータ値および識別値を有する複
数のプロトタイプ・ベクトル信号が格納される。プロト
タイプ・ベクトル信号のパラメータ値に対する各特徴ベ
クトル信号の特徴値の近似度は、各特徴ベクトル信号お
よび各プロトタイプ・ベクトル信号毎のプロトタイプ整
合スコアを得るため比較される。各特徴ベクトル信号に
対する最良のプロトタイプ整合スコアを有するプロトタ
イプ・ベクトル信号の識別値は少なくとも、発声の一連
のコード化表示として出力される。
【0012】各整合スコアは、音声ユニットのモデルと
発声の一連のコード化表示間の整合の近似度の評価値を
含む。最良の整合スコアを有する1つ以上の最良候補の
音声ユニットと、1つ以上の最良候補の音声ユニットの
少なくとも1つの音声サブユニットが出力される。
【0013】音声認識装置は更に、複数の基準特徴ベク
トル信号を格納する手段と、複数の測定された訓練特徴
ベクトル信号を格納する手段とを含む。各基準特徴ベク
トル信号は、基準セットの話者における一人以上の話者
の1つ以上の発声の少なくとも1つの特徴の値を表わ
す。各測定された訓練特徴ベクトル信号は、基準セット
にはない話者の1つ以上の発声の少なくとも1つの特徴
の値を表わす。少なくとも1つの基準特徴ベクトル信号
が、合成される訓練特徴ベクトル信号に変換される。そ
の後、プロトタイプ・ベクトル信号が、測定される訓練
特徴ベクトル信号と合成される訓練ベクトル信号の両方
から生成される。
【0014】本発明の一特質においては、変換は区分的
線形変換の如き非線形変換である。非線形変換は、例え
ば、訓練ベクトル信号のサブセットの平均および(また
は)分散に対して基準特徴ベクトル信号のサブセットの
平均および(または)分散をマッピングする。
【0015】音声サブユニット出力手段は、例えば、ヘ
ッドフォン等を含む音声シンセサイザの如きオーディオ
・ジェネレータでよい。
【0016】測定される訓練ベクトル信号(音声認識シ
ステムを訓練しつつある新しい話者/ユーザによる発声
と対応する)と、合成される訓練ベクトル信号(新しい
話者/ユーザ以外の話者による発声と対応する)との双
方からプロトタイプ・ベクトル信号のパラメータを生成
することにより、適当に高い単語認識率を達成しなが
ら、新しい話者/ユーザから要求される訓練データを減
らすことができる。
【0017】
【実施例】本明細書において
【数1】 はXティルドと表現し、
【数2】 はYティルドと表現し、
【数3】 はXバーと表現し、
【数4】 はYバーと表現し、
【数5】 はXハットと表現する。
【0018】図1において、音声コード化装置は、特徴
値を表わす一連の特徴ベクトル信号を生じるため、一連
の連続的な時間間隔の各々における発声の少なくとも1
つの特徴の値を測定する手段を含む。この特徴は、例え
ば、1つ以上の周波数帯域における発声の振幅またはエ
ネルギのいずれかである。プロトタイプ・ベクトル・ス
トア12が、複数のプロトタイプ・ベクトル信号を格納
する。各プロトタイプ・ベクトル信号は、少なくとも1
つのパラメータ値を持ち、また一義的な識別値を持つ。
【0019】比較プロセッサ14は、特徴ベクトル信号
および各プロトタイプ・ベクトル信号に対するプロトタ
イプ整合スコアを得るため、プロトタイプ・ベクトル信
号のパラメータ値に対する特徴ベクトル信号の特徴値の
近似度を比較する。比較プロセッサ14は、特徴ベクト
ル信号のコード化表示信号として、最良のプロトタイプ
整合スコアを有するプロトタイプ・ベクトル信号の少な
くとも識別値を出力する。
【0020】基準特徴ベクトル・ストア16は、複数の
基準特徴ベクトル信号を格納する。各基準特徴ベクトル
信号は、複数の連続的な時間間隔の各々における基準セ
ットの話者における一人以上の話者の一回以上の発声
少なくとも1つの特徴の値を表わす。基準セットの話者
における話者は、音声コード化装置の現在のユーザでは
ない。基準特徴ベクトル信号は、例えば音響的特徴値の
測定手段10により生成されたものである。
【0021】測定訓練特徴ベクトル・ストア18は、複
数の測定された訓練特徴ベクトル信号を格納する。各測
定訓練特徴ベクトル信号は、複数の連続的な時間間隔の
各々における基準セットにはない話者の一回以上の発声
の少なくとも1つの特徴の値を表わす。基準セットには
ない話者は、音声コード化装置の現在のユーザである。
基準セットの話者は音声コード化装置に予め格納される
基準となる音声を発声する測定訓練特徴ベクトル信号
は、例えば音響的特徴値測定手段10により生成され
る。
【0022】特徴ベクトル変換器20は、少なくとも1
つの基準特徴ベクトル信号を合成訓練特徴ベクトル信号
へ変換するために設けられる。その後、プロトタイプ・
ベクトル・ジェネレータ22が、測定訓練特徴ベクトル
信号および合成訓練特徴ベクトル信号の両方から、プロ
トタイプ・ベクトル信号(プロトタイプ・ベクトル・ス
トア12に対する)を生成する。
【0023】測定訓練特徴ベクトル信号(音声認識装置
を訓練中の新しい話者/ユーザによる発声と対応する)
および合成訓練特徴ベクトル信号(新しい話者/ユーザ
以外の話者による発声と対応する)の両方からプロトタ
イプ・ベクトル信号のパラメータを生成することによ
り、適当に高い単語認識率を達成しながら新しい話者/
ユーザから要求される訓練データを減らすことができ
る。
【0024】本発明の一特質によれば、特徴ベクトル変
換器20は、非線形変換を少なくとも1つの基準特徴ベ
クトル信号に加えて、合成訓練特徴ベクトル信号を生じ
る。非線形変換は、例えば区分的線形変換である。
【0025】表1は、合成特徴ベクトルを生じる基準特
徴ベクトルの非線形変換の仮想例を示している。
【0026】 [表1] 基準特徴ベクトル 基本音響モデル 変 換 合成特徴ベクトル (RFV) 0.67 E1 1.5(RFV-1.2) -1.10 0.82 E3 0.1(RFV+1) 0.18 0.42 E5 1.8(RVF+1.6) 3.64 0.82 E1 1.5(RVF-1.2) -0.87 0.85 E4 1.3(RVF+1.8) 3.45 0.07 E3 0.1(RVF+1) 0.11 0.45 E2 0.7(RVF+0.2) 0.46 0.07 E6 0.9(RVF-2) -1.74 0.08 E6 0.9(RVF-2) -1.73 0.01 E2 0.7(RVF+0.2) 0.15 0.35 E9 1.1(RVF-1.2) -0.94 0.8 E2 0.7(RVF+0.2) 0.70 1 E8 0.4(RVF+1.8) 1.12 0.51 E3 0.1(RVF+1) 0.15 0.22 E6 0.9(RVF-2) -1.60
【0027】この仮想例においては、基準特徴ベクトル
は1次元であり、合成特徴ベクトルは1次元である。基
準特徴ベクトルのシーケンスは、基準セットの話者にお
ける一人以上の話者により発声される1つ以上の単語の
シーケンスと対応する。音響単語モデルは、発声された
単語の各々と関連付けられる。各音響単語モデルは、有
限セットの基本音響モデルから(本例においては、1セ
ットの10個の基本音響モデル)の1つ以上の基本音響
モデルを含む。
【0028】各基本音響モデルは、例えば、1つの状態
から他の状態への少なくとも2つの変換、変換の発生の
確率および変換の発生時にプロトタイプ・ベクトル信号
の1つが生じる出力確率を有するマルコフ(Marko
v)・モデルである。基準特徴ベクトル信号のシーケン
スを最も生じ易い基準発声の音響モデルを経由する経路
を見出すことにより、各基準特徴ベクトル信号は基準特
徴ベクトル信号を最も生じ易かった基本モデルと整合す
ることができる。このような経路は、例えば、Vite
rbiアルゴリズムにより見出すことができる。(例え
ば、F.Jelinek著「Continuous S
peech Recognitionby Stati
stical Methods」(Proceedin
gsof the IEEE、第64巻、第4号、53
2〜556頁、1976年4月)参照。)表1の第2列
は、各仮想基準特徴ベクトルと最も対応する仮想基本音
響モデルを示す。
【0029】表1の事例に示される非線形変換は区分的
リニアである。即ち、各基本音響モデルに対して、対応
する合成訓練特徴ベクトルを生じる関連する基準特徴ベ
クトルの線形変換が生じる。しかし、この線形変換のパ
ラメータは、関連する基本音響モデルに対する依存性に
おいて異なる。その結果、基準特徴ベクトルの変換は全
体として非線形である。
【0030】本発明による音声コード化装置の比較プロ
セッサ14、特徴ベクトル変換器20およびプロトタイ
プ・ベクトル・ジェネレータ22は、適当にプログラム
された特殊目的あるいは汎用目的のデジタル信号プロセ
ッサである。プロトタイプ・ベクトル・ストア12、基
準特徴ベクトル・ストア16および測定訓練特徴ベクト
ル・ストア18は、読出し/書込みメモリーの如き電子
計算機のメモリーである。
【0031】合成訓練特徴ベクトルへの基準特徴ベクト
ルの非線形変換の形態およびパラメータは、例えば下記
の方法において得ることができる。本例では、各単語の
発音は隠されたマルコフ音響モデルにより表わされる。
(例えば、L.R.Bahl等の「A Maximum
Likelihood Approach toCo
ntinuous Speech Recogniti
on」(IEEETransactions on P
atten Analysis andMachine
Intelligence、第APMI−5巻、第2
号、179〜190頁、1983年3月)参照。)本例
における各マルコフ単語モデルは、有限セットのサブワ
ード音響モデルからの1つ以上のサブワード音響モデル
からなっている。各サブワード音響モデルは、例えば、
音素、音韻、音節あるいは他の発音単位を表わす。(例
えば、F.Jelinek著「The Develop
ment of an Experimental D
iscrete Dictation Recogni
zer」(Proceedings IEEE、第73
巻、第11号、1616〜1624頁、1985年11
月)、およびL.R.Bahl等の「Acoustic
Markov Models Used in th
e Tangora Speech Recognit
ionSystem」(Proceedings 19
88 International Conferen
ce on Acoustics,Speech,an
d Signal Processing,New Y
ork,New York、497〜500頁、198
8年4月を参照。)更に、本例においては、各サブワー
ド・モデルは、基本音響モデルの有限のアルファベット
からの1つ以上の基本音響モデルのシーケンスを含む。
典型的には、サブワード音響モデルのアルファベットは
約2,000であるが、基本音響モデルのアルファベッ
トの大きさは約300である。
【0032】非線形変換を取得する第1のステップとし
て、基準特徴ベクトルが基準セットの話者における一人
以上の話者により既知の単語の発声から得られる。測定
訓練特徴ベクトルは、基準セットの話者にない話者によ
り既知の単語の発声から得られる。特徴ベクトルは、図
1に示されるブロック10の如き音響的特徴値の測定手
段により発声から得られる。
【0033】初期セットのプロトタイプ・ベクトルを用
いて、基準特徴ベクトルおよび測定訓練特徴ベクトル
は、最も近い初期プロトタイプ・ベクトルの識別値でラ
ベル表示される。訓練発声と対応する単語は既知であ
り、また各単語が既知の対応するマルコフ音響モデルを
有するため、各特徴ベクトルは、音響単語モデル、単語
モデル内の音響サブワード・モデル、および特徴ベクト
ルが最も対応し易いサブワード・モデル内の基本音響モ
デルと関連付けられる。この「整合」は、例えば、基準
特徴ベクトルまたは測定訓練特徴ベクトルをそれぞれ生
じ易い各発声モデルを通る経路を見出すことにより得る
ことができる。このような経路は、例えば上記のVit
erbiアルゴリズムにより見出すことができる。
【0034】各マルコフ基本音響モデルに対しては、対
応する基準特徴ベクトルおよび対応する測定訓練特徴ベ
クトルが識別される。各マルコフ基本音響モデル毎に、
平均ベクトルMrおよび共分散マトリックスSrがこのマ
ルコフ基本音響モデルと対応する全ての基準特徴ベクト
ルに対して得られる。同様に、平均ベクトルMtおよび
共分散マトリックスStは、このマルコフ基本音響モデ
ルと対応する全ての測定訓練特徴ベクトルに対して得ら
れる。
【0035】ベクトルXティルドがゼロの平均ベクトル
と共分散マトリックスI(恒等マトリックス)を持つよ
うに、平均ベクトルおよび共分散マトリックスから、基
本マルコフ音響モデルと対応する各基準特徴ベクトルX
が下式により変換される。即ち、
【0036】
【数6】
【0037】同様に、基本マルコフ音響モデルと対応す
る各測定訓練特徴ベクトルYは、ベクトルYティルドも
またゼロの平均ベクトルと共分散マトリックスIを持つ
ように、下式により変換される。
【0038】
【数7】
【0039】図2は、基準特徴ベクトルXおよび測定訓
練特徴ベクトルYの正規化を概略示している。式1およ
び式2の目的のため、共分散マトリックスの逆平方根が
下式により得ることができる。
【0040】
【数8】
【0041】但し、Qは共分散マトリックスSの固有ベ
クトルであり、Λは対応する固有ベクトルの対角マトリ
ックス、QTはマトリックスQの転置マトリックスであ
る。
【0042】更に、共分散マトリックスが最大階数であ
ることを保証するため、基準特徴ベクトル数または測定
訓練特徴ベクトル数のいずれかが1プラス各特徴ベクト
ルにおける次元数より小さければ、両方の共分散マトリ
ックスが対角マトリックスに還元される。更に、基準特
徴ベクトル数または測定訓練特徴ベクトル数のいずれか
が5の如き選択された最小数より小さければ、両方の共
分散マトリックスは恒等マトリックスに等しく設定され
る。(以下に更に述べるように、本発明の一例では、各
特徴ベクトルは50の次元数を有する。)
【0043】正規化された各基準特徴ベクトルXティル
ドは、(a)最も対応し得る関連したマルコフ・サブワ
ード音響モデルの一致、(b)対応する基本音響モデル
のマルコフ・サブワード音響モデル内の場所、および
(c)マルコフ・サブワード音響モデルと対応する特徴
ベクトルのシーケンス内の特徴ベクトルの場所で指標を
付される。正規化された各測定訓練特徴ベクトルYティ
ルドは、同じ情報で指標を付される。
【0044】実際に、マルコフ・サブワード音響モデル
と対応する特徴ベクトルのシーケンス内の特徴ベクトル
の場所は、マルコフ・モデルの境界から離れた閾値が与
えられる。例えば、妥当な閾値は4つの特徴ベクトルで
ある。
【0045】基準特徴ベクトルおよび測定訓練特徴ベク
トルの双方と対応する各指標kに対して、この指標と対
応する正規化された基準特徴ベクトルの数rk、および
この指標と対応する正規化された基準特徴ベクトルのセ
ントロイドXkバーが得られる。同様に、この指標と対
応する測定訓練特徴ベクトルの数tk、およびこの指標
と対応する正規化された測定訓練特徴ベクトルのセント
ロイドYkバーが得られる。このため、各指標kに対し
て、図3に概略示される如く、1対の整合ベクトル(X
kバー、Ykバー)が得られる。
【0046】整合ベクトル(Xkバー、Ykバー)の対か
ら、各基本音響モデルに対して、変換Yバー=ΓXバー
の加重された最小二乗推定量Γが下式により得られる。
【0047】
【数9】
【0048】但し、
【0049】
【数10】
【0050】1つのマルコフ基本音響モデルと対応する
新しい話者からの測定訓練特徴ベクトルの数が小さい
時、変換Γの推定値は正確でないことがある。この場
合、2つ(あるいは、必要に応じてそれ以上)の異なる
マルコフ基本音響モデルと対応する特徴ベクトルは、両
方のマルコフ基本音響モデルに対する1つの変換を生じ
るように組合わせることができる。
【0051】前に得た平均ベクトル、共分散マトリック
スおよび変換Γから、マルコフ基本音響モデルと関連す
る合成訓練特徴ベクトルXハットが変換による前記モデ
ルと対応する基準特徴ベクトルから得られる。
【0052】
【数11】
【0053】この数11は、与えられたマルコフ基本音
響モデルと対応する合成訓練特徴ベクトルへのこのマル
コフ基本音響モデルと対応する基準特徴ベクトルの線形
変換を示しており、図4に略図的に示されている。結果
として得る合成訓練特徴ベクトルは、この基本モデルと
対応する測定訓練特徴ベクトルと同じ平均ベクトルを持
ち、この基本モデルと対応する測定訓練特徴ベクトルと
同じ共分散マトリックスを持つことになる。
【0054】更に、指標kを有する基準特徴ベクトルの
サブグループXkと対応する結果として得る合成訓練特
徴ベクトルは、同じ指標kを持つサブグループYkと対
応する測定訓練特徴ベクトルと略々同じ平均ベクトルを
有することになる。
【0055】基準特徴ベクトルの合成訓練特徴ベクトル
への変換は基準特徴ベクトルが対応するマルコフ基本音
響モデルに従って異なるため、全体的な変換は区分的線
形である。従って、全体的な変換は非線形である。
【0056】合成訓練特徴ベクトルへの基準特徴ベクト
ルの区分的線形変換を得たため、プロトタイプ・ベクト
ル信号は、例えば下記のように測定訓練特徴ベクトルお
よび合成訓練特徴ベクトルから生じる。
【0057】各合成訓練特徴ベクトルXハットは、
(a)その対応するマルコフ基本音響モデルの一致、
(b)その対応するマルコフ・サブワード音響モデルの
一致、(c)マルコフ・サブワード音響モデル内の対応
するマルコフ基本音響モデルの場所、および(d)サブ
ワード・モデルと対応する基準特徴ベクトルのシーケン
ス内の対応する基準特徴ベクトルの場所により指標を付
される。これらの指標による合成訓練特徴ベクトルXハ
ットの初期のクラスタリングから始まり、K−平均ユー
クリッド・クラスタリングを行い、各マルコフ基本音響
モデルに対する予備的なサブプロトタイプを得る。(例
えば、J.A.Hartigan著「TheK−mea
ns Algorithm」(Clustering
Algorithms,84〜105頁、J.Wile
y & Sons、1975年発行)参照。)この段階
で、各予備サブプロトタイプは、マルコフ基本音響モデ
ルと対応する合成訓練特徴ベクトルのクラスタの平均ベ
クトルと対応する。マルコフ基本音響モデルと対応する
予備サブプロトタイプの各組は、予備的なプロトタイプ
・ベクトル信号を形成する。
【0058】合成訓練特徴ベクトルのK−平均ユークリ
ッド・クラスタリングにより得る予備サブプロトタイプ
から始まり、各マルコフ基本音響モデルに対する最終的
なガウス・サブプロトタイプを得るように、K−平均ガ
ウス・クラスタリングが、合成訓練特徴ベクトルXハッ
ト、および各マルコフ基本音響モデルと対応する測定訓
練ベクトルYの組合わせからなる併合データについて行
われる。
【0059】各ガウス・サブプロトタイプは、マルコフ
基本音響モデルと対応する合成訓練特徴ベクトルおよび
測定訓練ベクトルのクラスタの平均ベクトルおよび共分
散マトリックスと対応している。各共分散マトリックス
は、対角外マトリックス項をゼロに設定することにより
簡単にすることが望ましい。各サブプロトタイプは、マ
ルコフ基本音響モデルの発生により、その条件付き確率
で加重される。この条件付き確率は、サブプロトタイプ
と対応する合成され測定された訓練特徴ベクトル数を基
本音響モデルと対応する合成および測定された訓練特徴
ベクトル数で除したものとして推定される。
【0060】新しい話者訓練データと対応する測定訓練
ベクトルから、各マルコフ基本音響モデルの前の確率が
各マルコフ基本音響モデルと対応する測定訓練特徴ベク
トル数を測定訓練特徴ベクトルの合計数で除したものと
して推定される。各サブプロトタイプに対して、このサ
ブプロトタイプの確率を得るため、先に推定された条件
付き確率が対応するマルコフ基本音響モデルの確率で乗
じられる。
【0061】マルコフ基本音響モデルと対応する各組の
ガウス・サブプロトタイプは、プロトタイプ・ベクトル
信号を形成する。
【0062】併合された合成訓練特徴ベクトルおよび測
定訓練特徴ベクトルをクラスタ分割する別の方法の一例
において、各分割が1つの単語セグメント・モデルにお
ける1つの場所の1つの基本モデルと対応することを指
定することにより訓練特徴ベクトル信号が分割される。
このような方法については、1991年7月16日出願
の米国特許出願第732,714号「Fast Alg
orithm forDeriving Acoust
ic Prototypes of Automati
c Speech Recognition」に更に詳
細に記載されている。
【0063】併合された合成訓練特徴ベクトルおよび測
定訓練特徴ベクトルを分割する別の方法の他の例におい
ては、訓練テキストの発声により生成されかつ与えられ
た基本モデルと対応する訓練特徴ベクトルの全ては、こ
の訓練特徴ベクトルが対応するサブワードまたは基本モ
デルとは無関連にK−平均ユークリッド・クラスタリン
グに続いてK−平均ガウス・クラスタリングにより分割
される。このような方法は、例えば、1991年3月2
2日出願の米国特許出願第673,810号「Spea
ker−Independent Label Cod
ing Apparatus」に記載されている。
【0064】図1に戻り、本発明による音声認識装置
は、一連の連続的時間間隔の各々における発声の少なく
とも1つの特徴値を測定して特徴値を表わす一連の特徴
ベクトル信号を生じる音響的特徴値測定手段10を含
む。プロトタイプ・ベクトル・ストア12が、複数のプ
ロトタイプ・ベクトル信号を格納する。各プロトタイプ
・ベクトル信号は、少なくとも1つのパラメータ値を有
し、また一義的識別値を有する。比較プロセッサ14
は、各特徴ベクトル信号および各プロトタイプ・ベクト
ル信号に対するプロトタイプ整合スコアを得るため、プ
ロトタイプ・ベクトル信号のパラメータ値に各特徴ベク
トル信号の特徴値の近似度を比較する。比較プロセッサ
14は、発声の一連のコード化表示として各特徴ベクト
ル信号に対する最良のプロトタイプ整合スコアを有する
少なくともプロトタイプ・ベクトル信号の識別値を出力
する。
【0065】音声認識装置は更に、1つ以上の音声サブ
ユニットを含む複数の音声ユニットの各々に対する整合
スコアを生成する整合スコア・プロセッサ24を含む。
各音声ユニットは、例えば一連の1つ以上の単語であ
る。各音声サブユニットは、例えば1つの単語である。
各整合スコアは、音声ユニットの1つのモデルと発声の
一連のコード化表示との間の一致の近似度の推定値を含
む。
【0066】最良候補識別プロセッサ26は、最良の整
合推定値を持つ1つ以上の最良候補音声ユニットを識別
する。音声サブユニット出力28は、1つ以上の最良候
補音声ユニットの少なくとも1つの音声サブユニットを
出力する。
【0067】本発明による音声コード化装置に関して記
述したように、音声認識装置は更に、基準特徴ベクトル
・ストア16と、測定訓練特徴ベクトル・ストア18
と、特徴ベクトル変換器20と、プロトタイプ・ベクト
ル・ジェネレータ22とを含む。
【0068】音声ユニットは、例えば、確率マルコフ・
モデルとしてモデル化することもできる。この場合、各
整合スコアは、例えば、(a)発声の一連のコード化表
示を生じるマルコフ・モデルを通る全ての経路に対する
全経路か、(b)マルコフ・モデルを通る最大確率経路
に対する発声の一連のコード化表示を生じる確率のいず
れかである。(例えば、L.R.Bahl等の「A M
aximum Likelihood Approac
h to Continuous Speech Re
cognition」(IEEE Transacti
ons onPattern Analysis an
d Machine Intelligence、第P
AMI−5巻、第2号、179〜190頁、1983年
3月)参照。)
【0069】全ての候補音声ユニットが一連の2つ以上
の単語を含み、また全ての最良候補音声ユニットの単語
シーケンスが同じ単語で始まるならば、音声サブユニッ
ト出力28は、例えば、全ての最良候補音声ユニットの
初めを形成する前記単語を出力する。
【0070】整合スコア・プロセッサ24はまた、1つ
の音声ユニットの確率モデルが発声の一連のコード化表
示と整合する一連のモデルを出力する確率の推定に加え
て、音声ユニット自体の発生確率を推定する。音声ユニ
ットの発生確率の推定は、言語モデルにより得ることが
できる。(例えば、F.Jelinek著「Conti
nuous Speech Recognition
by Statistical Methods」(P
roceedings of the IEEE、第6
4巻、第4号、532〜556頁、1976年4月)参
照。)
【0071】音声認識装置において、整合スコア・プロ
セッサ24および最良候補識別プロセッサ26は、特殊
目的あるいは汎用デジタル・コンピュータのいずれかを
適当にプログラミングすることにより提供される。音声
サブユニット出力28は、例えば、音声シンセサイザの
如き音響出力装置である。
【0072】音響的特徴値測定手段の一例は、図5に示
される。この測定手段は、発声と対応するアナログ電気
信号を生じるマイクロフォン30を含む。マイクロフォ
ン30からのアナログ電気信号は、アナログ/デジタル
・コンバータ32によりデジタル電気信号へ変換され
る。この目的のため、アナログ信号は、例えば、アナロ
グ/デジタル・コンバータ32により2KWの定格でサ
ンプルされる。
【0073】ウインドウ・ジェネレータ34は、例え
ば、10ミリ秒(1センチ秒)毎にアナログ/デジタル
・コンバータ32からのデジタル信号の20ミリ秒の持
続時間のサンプルを生じる。このデジタル信号の各20
ミリ秒サンプルは、例えば20の周波数帯域の各々にお
いてデジタル信号サンプルの振幅を得るようにスペクト
ル・アナライザ36により分析される。スペクトル・ア
ナライザ36はまた、20ミリ秒のデジタル信号スペク
トルの全振幅即ち全電力を表わす21次元信号を生じる
ことが望ましい。スペクトル・アナライザ36は、例え
ば、高速フーリエ変換プロセッサである。あるいはま
た、これは20の帯域フィルタのバンクでもよい。
【0074】スペクトル・アナライザ36により生成さ
れる21次元ベクトル信号は、適応雑音打消しプロセッ
サ38により、暗雑音を除去するためのものである。雑
音打消しプロセッサ38は、雑音打消しプロセッサへの
特徴ベクトルF(t)入力からの雑音ベクトルを差引い
て出力特徴ベクトルF(t)を生じる。雑音打消しプロ
セッサ38は、前の特徴ベクトルF(t−1)が雑音あ
るいは無雑音として識別される時は常に、雑音ベクトル
N(t)を周期的に更新することにより雑音レベルを変
化させる。雑音ベクトルN(t)は下式に従って更新さ
れる。
【0075】
【数12】
【0076】但し、N(t)は時間tにおける雑音ベク
トル、N(t−1)は時間(t−1)における雑音ベク
トル、kは適応雑音打消しモデルの固定パラメータ、F
(t−1)は時間(t−1)における雑音打消しプロセ
ッサ38に対する特徴ベクトル入力であって雑音あるい
は無雑音を表わし、Fp(t−1)は特徴ベクトルF
(t−1)に最も近いストア40からの1つの無雑音ま
たは雑音プロトタイプ・ベクトルである。
【0077】前の特徴ベクトルF(t−1)は、(a)
ベクトルの全エネルギがある閾値より低いか、あるいは
(b)特徴ベクトルに対する適応プロトタイプ・ベクト
ル・ストア42における最も近いプロトタイプ・ベクト
ルのいずれかが雑音または無雑音を表わすプロトタイプ
であるならば、雑音または無雑音として認識される。特
徴ベクトルの全エネルギの分析目的のため、前記閾値
は、例えば、特徴ベクトルが評価される前2秒に生じる
全ての特徴ベクトル(音声と無信号の両方と対応する)
の5パーセント点でよい。
【0078】雑音の打消し後、特徴ベクトルF′(t)
は短期平均正規化プロセッサ44により入力音声の大き
さにおける変動を調整するように正規化される。正規化
プロセッサ44は、21次元特徴ベクトルF′(t)を
正規化して20次元正規化特徴ベクトルX(t)を生じ
る。全振幅即ち全電力を表わす特徴ベクトルF′(t)
の21次元は捨てられる。時間tにおける正規化された
特徴ベクトルX(t)の各成分iは、例えば、対数領域
において下式により与えられる。
【0079】
【数13】
【0080】但し、F′iは時間tにおける正規化され
ないベクトルの(i−1)番目の成分であり、Z(t)
は下式9および10によるF′(t)およびZ(t−
1)の成分の加重平均である。即ち、
【0081】
【数14】
【0082】但し、
【0083】
【数15】
【0084】正規化された20次元特徴ベクトルX
(t)は更に、音声の発音における変動に適合するよう
に適合ラベラ46により処理される。適合された20次
元特徴ベクトルX′(t)は、適合ラベラ46の入力に
与えられる20次元特徴ベクトルX(t)から20次元
適合ベクトルA(t)を差引くことにより生成される。
時間tにおける適合ベクトルA(t)は、例えば、下式
により与えられる。
【0085】
【数16】
【0086】但し、kは適合ラベリング・モデルの固定
パラメータであり、Y(t−1)は時間(t−1)にお
ける適合ラベラ46に対する正規化された20次元ベク
トル入力、Xp(t−1)は時間(t−1)における2
0次元特徴ベクトルX(t−1)に最も近い(適応プロ
トタイプ・ベクトル・ストア42からの)点プロトタイ
プ・ベクトル、およびA(tー1)は時間(t−1)に
おける適合ベクトルである。
【0087】適合ラベラ46からの20次元適合特徴ベ
クトル信号X′(t)は、音響モデル48へ与えられる
ことが望ましい。音響モデル48は、例えば、人間の聴
覚系が音声信号を認識する方法のモデルを提供すること
ができる。音響モデルの一例は、Bahl等の米国特許
第4,980,918号「Speech recogn
ition System with Efficie
nt Storageand Rapid Assem
bly of PhonologicalGraph
s」に記載されている。
【0088】本発明によれば、時間tにおける適合特徴
ベクトル信号X′(t)の各周波数帯域毎に、音響モデ
ル48は下式12および13に従って新しいパラメータ
Ei(t)を計算することが望ましい。
【0089】
【数17】
【0090】
【数18】
【0091】但し、K1、K2およびK3は、音響モデル
の固定パラメータである。
【0092】センチ秒の時間間隔毎に、音響モデル48
の出力は修正20次元特徴ベクトル信号となる。この特
徴ベクトルは、他の20次元の値の二乗和の平方根と等
しい値を有する21次元だけ拡大される。
【0093】センチ秒の時間間隔毎に、連結器50が1
つの現センチ秒時間間隔、4つの前のセンチ秒時間間隔
および4つの以後のセンチ秒時間間隔を表わす9の21
次元特徴ベクトルを連結して、189次元の1つの接続
されたベクトルを形成することが望ましい。189の次
元接続ベクトルの各々は、接続されたベクトルを回転さ
せて接続ベクトルを50次元に減じるように、回転マト
リックスにより回転器52において乗じられることが望
ましい。
【0094】回転器52において使用される回転マトリ
ックスは、例えば、訓練セッション中に得た1セットの
189次元接続ベクトルをMクラスに分類することによ
り得ることができる。訓練セットにおける全ての接続ベ
クトルに対する共分散マトリックスの逆形が、全てのM
クラスにおける接続ベクトルの全てに対するサンプル内
共分散マトリックスにより乗じられる。結果として得る
マトリックスの最初の50の固有ベクトルが回転マトリ
ックスを形成する。(例えば、L.R.Bahl等の
「Vector Quantization Proc
edure for Speech Recognit
ion Systems using Discret
e Parameter Phoneme−Based
Markov Word Models」(IBM
Technical Disclosure Bull
etin、第34巻、第7号、340〜341頁、19
89年12月)参照。)
【0095】ウインドウ・ジェネレータ34、スペクト
ル・アナライザ36、適応雑音打消しプロセッサ38、
短期平均正規化プロセッサ44、適合ラベラ46、音響
モデル48、連結器50および回転器52は、適当にプ
ログラムされた特殊目的あるいは汎用のデジタル信号プ
ロセッサでよい。プロトタイプ・ストア40、42は、
電子計算機のメモリーでよい。
【0096】
【発明の効果】本発明は、新しい話者から要求される訓
練データ量を減らして、適当に高い単語認識率を得なが
ら音声認識システムに対する音声コーディングのための
話者依存的パラメータ値を得る。
【図面の簡単な説明】
【図1】本発明による音声コード化装置を含む本発明に
よる音声認識装置の一例を示すブロック図である。
【図2】部分変換を生じる特徴ベクトルの正規化の一例
を示す概略図である。
【図3】更なる部分変換を生じるための特徴値のサブセ
ットの組合わせの一例を示す概略図である。
【図4】合成されるTFVを形成する基準特徴値の変換
の一例を示す概略図である。
【図5】音響的特徴値の測定の一例を示すブロック図で
ある。
【符号の説明】 10 音響的特徴値測定手段 12 プロトタイプ・ベクトル・ストア 14 比較プロセッサ 16 基準特徴ベクトル・ストア 18 測定訓練特徴ベクトル・ストア 20 特徴ベクトル変換器 22 プロトタイプ・ベクトル・ジェネレータ 24 整合スコア・プロセッサ 26 最良候補識別プロセッサ 28 音声サブユニット出力 30 マイクロフォン 32 アナログ/デジタル・コンバータ 34 ウインドウ・ジェネレータ 36 スペクトル・アナライザ 38 適応雑音打消しプロセッサ 40 無雑音プロトタイプ・ベクトル・ストア 42 適応プロトタイプ・ベクトル・ストア 44 短期平均正規化プロセッサ 46 適合ラベラ 48 音響モデル 50 連結器 52 回転器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェローム・アール・ベルガーダ アメリカ合衆国10526 ニューヨーク州 ゴールデンズ・ブリッジ、ブルダー・レ ーン 490 (72)発明者 ピーター・ヴイ・デュ・スーザ アメリカ合衆国10542 ニューヨーク州 マホパック・フォールズ、ピー・オー・ ボックス・459 (72)発明者 ポナーニ・エス・ゴパラクリシュナン アメリカ合衆国10520 ニューヨーク州 クロットン−オン−ハドソン、シーニッ ク・ドライブ、25ジェイ (72)発明者 アーサー・ジェイ・ネイダス アメリカ合衆国12575 ニューヨーク州 ロック・タヴァーン、ブル・ロード 179 (72)発明者 デイヴィッド・ナハムー アメリカ合衆国10605 ニューヨーク州 ホワイト・プレインズ、エルムウッド・ ロード 12 (72)発明者 マイケル・アラン・ピッチニー アメリカ合衆国10606 ニューヨーク州 ホワイト・プレインズ、ラルフ・アベニ ュー 118 (56)参考文献 特開 平2−265000(JP,A) 電子情報通信学会論文誌VOL.J73 −D−▲II▼,NO.12,P.1919〜 1928(平成元年12月)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】一連の連続時間間隔の各々において発声の
    少なくとも1つの特徴値を測定して、該特徴値を表わす
    一連の特徴ベクトル信号を生じる手段と、 各々が少なくとも1つのパラメータ値を有する複数のプ
    ロトタイプ・ベクトル信号を格納する手段とを設け、各
    プロトタイプ・ベクトル信号が一義的な識別値を有し、 前記プロトタイプ・ベクトル信号のパラメータ値に対す
    る特徴ベクトル信号の特徴値の近似度を比較して、特徴
    ベクトル信号および各プロトタイプ・ベクトル信号に対
    するプロトタイプ整合スコアを得る手段と、 前記特徴ベクトル信号のコード化表示信号として最良の
    プロトタイプ整合スコアを有する少なくともプロトタイ
    プ・ベクトル信号の識別値を出力する手段とを含む音声
    コード化装置において、 各々が複数の連続時間間隔の各々において基準セットの
    話者における一人以上の話者の一回以上の発声の少なく
    とも1つの特徴値を表わす複数の基準特徴ベクトル信号
    を格納する手段と、 各々が複数の連続時間間隔の各々において基準セットの
    話者にない話者の一回以上の発声の少なくとも1つの特
    徴値を表わす複数の測定訓練特徴ベクトル信号を格納す
    る手段と、 少なくとも1つの基準特徴ベクトル信号を合成訓練特徴
    ベクトル信号へ変換する手段と、 前記測定訓練特徴ベクトル信号および前記合成訓練特徴
    ベクトル信号の双方から前記プロトタイプ・ベクトル信
    号を生じる手段とを更に設けてなる特徴付ける音声コー
    ド化装置。
  2. 【請求項2】前記変換手段が前記基準特徴ベクトル信号
    に非線形変換を加えて、前記合成訓練特徴ベクトル信号
    を生じることを特徴とする請求項1記載の音声コード化
    装置。
  3. 【請求項3】一連の連続時間間隔の各々において発声の
    少なくとも1つの特徴値を測定して特徴値を表わす一連
    の特徴ベクトル信号を生じ、 各々が少なくとも1つのパラメータ値を有し、各々が一
    義的な識別値を有する複数のプロトタイプ・ベクトル信
    号を格納し、 前記プロトタイプ・ベクトル信号のパラメータ値に対す
    る特徴ベクトル信号の特徴値の近似度を比較して、該特
    徴ベクトル信号および各プロトタイプ・ベクトル信号に
    対するプロトタイプ整合スコアを得て、 前記特徴ベクトル信号のコード化表示信号として、最良
    のプロトタイプ整合スコアを有する少なくとも前記プロ
    トタイプ・ベクトル信号の識別値を出力する音声コード
    化方法において、 各々が複数の連続時間間隔の各々において基準セットの
    話者において一人以上の話者の一回以上の発声の少なく
    とも1つの特徴値を表わす複数の基準特徴ベクトル信号
    を格納し、 各々が複数の連続時間間隔の各々において基準セットに
    ない話者の一回以上の発声の少なくとも1つの特徴値を
    表わす複数の測定訓練特徴ベクトル信号を格納し、 少なくとも1つの基準特徴ベクトル信号を合成訓練特徴
    ベクトル信号へ変換し、 測定訓練特徴ベクトル信号および合成訓練特徴ベクトル
    信号の双方からプロトタイプ・ベクトル信号を生成する
    ことを含むことを特徴とする音声コード化方法。
  4. 【請求項4】前記変換ステップが、基準特徴ベクトル信
    号への非線形変換を加えて合成訓練特徴ベクトル信号を
    生じることを特徴とする請求項3記載の方法。
  5. 【請求項5】一連の連続時間間隔の各々において発声の
    少なくとも1つの特徴値を測定して特徴値を表わす一連
    の特徴ベクトル信号を生じる手段と、 各々が少なくとも1つのパラメータ値を持ち、かつ一義
    的な識別値を持つ複数のプロトタイプ・ベクトル信号を
    格納する手段と、 前記プロトタイプ・ベクトル信号のパラメータ値に対す
    る各特徴ベクトル信号の特徴値の近似度を比較して、各
    特徴ベクトル信号および各プロトタイプ・ベクトル信号
    に対してプロトタイプ整合スコアを得る手段と、 発声の一連のコード化表示として各特徴ベクトル信号に
    対する最良のプロトタイプ整合スコアを有する前記プロ
    トタイプ・ベクトル信号の少なくとも識別値を出力する
    手段と、 各々が音声ユニットの1つのモデルと一連の発声のコー
    ド化表示との間の一致の近似度の推定を含む、各々が1
    つ以上の音声サブユニットを含む複数の音声ユニットの
    各々に対して整合スコアを生成する手段と、 最良の整合スコアを有する1つ以上の最良候補の音声ユ
    ニットを識別する手段と、 1つ以上の前記最良候補の音声ユニットの少なくとも1
    つの音声サブユニットを出力する手段とを含む音声認識
    装置において、 各々が複数の連続時間間隔の各々において基準セットの
    話者における一人以上の話者の一回以上の発声の少なく
    とも1つの特徴値を表わす複数の基準特徴ベクトル信号
    を格納する手段と、 各々が複数の連続時間間隔の各々において基準セットに
    ない話者の一回以上の発声の少なくとも1つの特徴値を
    表わす複数の測定訓練特徴ベクトル信号を格納する手段
    と、 少なくとも1つの基準特徴ベクトル信号を合成訓練特徴
    ベクトル信号へ変換する手段と、 前記測定訓練ベクトル信号と前記合成訓練ベクトル信号
    の双方から前記プロトタイプ・ベクトル信号を生成する
    手段とを更に設けることを特徴とする音声認識装置。
  6. 【請求項6】前記変換手段が、前記基準特徴ベクトル信
    号に非線形変換を加えて合成訓練特徴ベクトル信号を生
    じることを特徴とする請求項5記載の音声認識装置。
  7. 【請求項7】一連の連続時間間隔の各々において発声の
    少なくとも1つの特徴値を測定して、該特徴値を表わす
    一連の特徴ベクトル信号を生じ、 各々が少なくとも1つのパラメータ値を有し、各々が一
    義的な識別値を有する複数のプロトタイプ・ベクトル信
    号を格納し、 前記プロトタイプ・ベクトル信号のパラメータ値に対す
    る各特徴ベクトル信号の特徴値の近似度を比較して、各
    特徴ベクトル信号および各プロトタイプ・ベクトル信号
    に対するプロトタイプ整合スコアを得て、 前記発声の一連のコード化表示として各特徴ベクトル信
    号に対する最良のプロトタイプ整合スコアを有する少な
    くとも該特徴ベクトル信号の識別値を出力し、 各々が音声ユニットの1つのモデルと前記発声の一連の
    コード化表示との間の一致の近似度の推定値を含む整合
    スコアを、各々が1つ以上の音声サブユニットを含む複
    数の音声ユニットの各々について生じ、 前記最良の整合スコアを有する1つ以上の最良の候補音
    声ユニットを識別し、 1つ以上の前記最良の候補音声ユニットの少なくとも1
    つの音声サブユニットを出力する音声認識方法におい
    て、 各々が複数の連続時間間隔の各々において基準セットの
    話者における一人以上の話者の一回以上の発声の少なく
    とも1つの特徴値を表わす複数の基準特徴ベクトル信号
    を格納し、 各々が複数の連続時間間隔の各々において前記基準セッ
    トにない話者の一回以上の発声の少なくとも1つの特徴
    値を表わす複数の測定訓練特徴ベクトル信号を記憶し、 少なくとも1つの基準特徴ベクトル信号を合成訓練特徴
    ベクトル信号へ変換し、 前記測定訓練ベクトル信号および前記合成訓練ベクトル
    信号の双方から前記プロトタイプ・ベクトル信号を生成
    することを更に含むことを特徴とする音声認識方法。
  8. 【請求項8】前記変換ステップが、非線形変換を前記基
    準特徴ベクトル信号に加えて合成訓練特徴ベクトル信号
    を生じることを特徴とする請求項7記載の音声認識方
    法。
JP4265717A 1991-12-05 1992-10-05 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置 Expired - Lifetime JP2691109B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US802678 1991-12-05
US07/802,678 US5278942A (en) 1991-12-05 1991-12-05 Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data

Publications (2)

Publication Number Publication Date
JPH05241589A JPH05241589A (ja) 1993-09-21
JP2691109B2 true JP2691109B2 (ja) 1997-12-17

Family

ID=25184402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4265717A Expired - Lifetime JP2691109B2 (ja) 1991-12-05 1992-10-05 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置

Country Status (4)

Country Link
US (1) US5278942A (ja)
EP (1) EP0545083A2 (ja)
JP (1) JP2691109B2 (ja)
CA (1) CA2077728C (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2684212A1 (fr) * 1991-11-26 1993-05-28 Trt Telecom Radio Electr Dispositif de mise en óoeuvre d'un traitement d'information impliquant une methode des moindres carres.
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
US5544277A (en) * 1993-07-28 1996-08-06 International Business Machines Corporation Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
DE19516106C2 (de) * 1995-05-05 2003-04-03 Philips Corp Intellectual Pty Verfahren zum Bestimmen von Referenzwerten
EP0788648B1 (en) * 1995-08-28 2000-08-16 Koninklijke Philips Electronics N.V. Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
US5737433A (en) * 1996-01-16 1998-04-07 Gardner; William A. Sound environment control apparatus
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6023673A (en) * 1997-06-04 2000-02-08 International Business Machines Corporation Hierarchical labeler in a speech recognition system
AU8995798A (en) * 1997-09-05 1999-03-29 Idioma Ltd. Interactive system for teaching speech pronunciation and reading
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6795804B1 (en) * 2000-11-01 2004-09-21 International Business Machines Corporation System and method for enhancing speech and pattern recognition using multiple transforms
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US20020010715A1 (en) * 2001-07-26 2002-01-24 Garry Chinn System and method for browsing using a limited display device
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US7389230B1 (en) 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
US20080213047A1 (en) * 2006-08-21 2008-09-04 Bryant Corwin J Systems and methods for liner tensioning in pipeline rehabilitation
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
JP5612014B2 (ja) * 2012-03-29 2014-10-22 株式会社東芝 モデル学習装置、モデル学習方法、及びプログラム
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9135911B2 (en) * 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58129684A (ja) * 1982-01-29 1983-08-02 Toshiba Corp パタ−ン認識装置
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH02265000A (ja) * 1989-04-06 1990-10-29 Canon Inc 音声対話装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会論文誌VOL.J73−D−▲II▼,NO.12,P.1919〜1928(平成元年12月)

Also Published As

Publication number Publication date
US5278942A (en) 1994-01-11
CA2077728C (en) 1996-08-06
EP0545083A3 (ja) 1994-02-23
CA2077728A1 (en) 1993-06-06
JPH05241589A (ja) 1993-09-21
EP0545083A2 (en) 1993-06-09

Similar Documents

Publication Publication Date Title
JP2691109B2 (ja) 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置
JP2986313B2 (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
US5233681A (en) Context-dependent speech recognizer using estimated next word context
JP4218982B2 (ja) 音声処理
US5222146A (en) Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5459815A (en) Speech recognition method using time-frequency masking mechanism
JP3110948B2 (ja) 音声符号化装置および方法
JPH06274200A (ja) 音声コード化装置及び方法
JP2986037B2 (ja) 音声符号化方法及び装置
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
US5943647A (en) Speech recognition based on HMMs
JP2898568B2 (ja) 声質変換音声合成装置
Ananthakrishna et al. Kannada word recognition system using HTK
Beulen et al. Experiments with linear feature extraction in speech recognition.
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
US5544277A (en) Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
Unnibhavi et al. A survey of speech recognition on south Indian Languages
Verma et al. Voice fonts for individuality representation and transformation
JP2834471B2 (ja) 発音評価法
Kuah et al. A neural network-based text independent voice recognition system
Hurmalainen Robust speech recognition with spectrogram factorisation
En-Najjary et al. Fast GMM-based voice conversion for text-to-speech synthesis systems.
JP3406672B2 (ja) 話者適応化装置
JP2994443B2 (ja) 音声認識方式