JP2986037B2 - 音声符号化方法及び装置 - Google Patents

音声符号化方法及び装置

Info

Publication number
JP2986037B2
JP2986037B2 JP4235206A JP23520692A JP2986037B2 JP 2986037 B2 JP2986037 B2 JP 2986037B2 JP 4235206 A JP4235206 A JP 4235206A JP 23520692 A JP23520692 A JP 23520692A JP 2986037 B2 JP2986037 B2 JP 2986037B2
Authority
JP
Japan
Prior art keywords
prototype
vector signal
feature
dimensional
prototype vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4235206A
Other languages
English (en)
Other versions
JPH05232999A (ja
Inventor
ラリット、アール、バール
ジェローム、アール、ベルガルダ
エドワード、アダム、エプスタイン
ジョン、エム、ルカセン
デイビッド、ナハモー
マイケル、アラン、ピチュニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05232999A publication Critical patent/JPH05232999A/ja
Application granted granted Critical
Publication of JP2986037B2 publication Critical patent/JP2986037B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば、自動音声認識
装置内で使用される多次元ベクトル量子化タイプ(mult
idimensional vector quantization type )の音声符号
化装置に関する。
【0002】
【従来の技術】ベクトル量子化タイプの音声符号化装置
においては、発声の特徴値を表わす一連の特徴ベクトル
信号を生成するために一連の連続した時間間隔の個々の
間中発声の複数の異なる特徴が測定される。複数の多次
元プロトタイプベクトル信号が格納されるが、ここで、
1つのプロトタイプベクトル信号の個々の次元は測定下
の複数の特徴の1つを表わす1つのパラメータ値を持
つ。ある与えられた特徴ベクトル信号に最も近いパラメ
ータ値を持つプロトタイプベクトル信号の識別がその特
徴ベクトル信号の“ラベル(label )”として出力され
る。
【0003】プロトタイプベクトル信号の数が増加し、
また異なる特徴の数(次元)が増加するに従って、ベク
トル量子化プロセス(及び、従って、音声認識)はます
ますコスト高となり、又より多くの時間を消費する。さ
らに、ベクトル量子化プロトタイプベクトル信号の格納
はますます多くの電子メモリを要求する。
【0004】
【発明が解決しようとする課題】本発明の一つの目的
は、時間的に比較的高速度にて音声を符号化するための
音声符号化装置を提供することにある。
【0005】本発明のもう一つの目的は、音響プロトタ
イプベクトル信号を比較的限られた電子メモリ内に格納
するための音声符号化装置を提供することにある。
【0006】
【課題を解決するための手段】本発明によると、音声符
号化装置は特徴値を表わすシリーズの特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するための手段を含む。複数の単次元プロトタイプベ
クトル信号が格納される。個々の単次元プロトタイプベ
クトル信号は少なくとも1つのパラメータ値を持つ。少
なくとも2つの単次元プロトタイプベクトル信号は第一
の特徴値を表わすパラメータ値を持つ第一の次元のプロ
トタイプベクトル信号である。少なくとも2つの他の単
次元プロトタイプベクトル信号は第二の特徴値を表わす
パラメータ値を持つ第二の次元のプロトタイプベクトル
信号である。
【0007】複数の複合次元プロトタイプベクトル信号
も格納される。個々の複合次元プロトタイプベクトル信
号は固有の識別値を持ち、1つの第一の次元のプロトタ
イプベクトル信号及び1つの第二の次元のプロトタイプ
ベクトル信号を含む。少なくとも2つの複合次元プロト
タイプベクトル信号(two-compound dimension prototy
pe vector signal)は同一の第一の次元のプロトタイプ
ベクトル信号を含む。
【0008】特徴ベクトル信号と個々の複合次元プロト
タイプベクトル信号に対するプロトタイプ一致スコアを
得るために特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトル信号のパラメータ値に対する一致度を比
較するための手段が提供される。少なくとも最良のプロ
トタイプ一致スコアを持つ複合次元プロトタイプベクト
ル信号の識別値が特徴ベクトル信号の符号化された表現
信号として出力される。
【0009】本発明の一面によると、特徴ベクトル信号
をプロトタイプベクトル信号に対して比較するための手
段は、特徴ベクトル信号の第一の特徴の値を個々の第一
の次元のプロトタイプベクトル信号のパラメータ値とた
った一度のみ比較するための手段を含む。特徴ベクトル
信号の第二の特徴の値を個々の第二の次元のプロトタイ
プベクトル信号のパラメータ値とたった一度のみ比較す
るための手段も提供される。
【0010】本発明のもう一面によると、複数の単次元
プロトタイプベクトル信号が2つ或はそれ以上の複合次
元プロトタイプベクトル信号内に含まれる。
【0011】本発明のさらにもう一面によると、個々の
複合次元プロトタイプベクトル信号は少なくとも幾つか
の他の複合次元プロトタイプベクトル信号内に含まれる
少なくとも1つの単次元プロトタイプベクトル信号を含
む。
【0012】個々の次元に対して、単次元プロトタイプ
ベクトル信号の数は、例えば、複合次元プロトタイプベ
クトル信号の数の二分の一以下である。
【0013】発声の諸特徴を測定するための手段はマイ
クロホンを含む場合もある。
【0014】本発明による音声認識装置及び方法は上に
説明されるような音声符号化装置及び方法を含む。さら
に、この音声認識装置及び方法は、複数の音声ユニット
の個々に対して一致スコアを生成するための手段をさら
に含む。個々の一致スコアは音声ユニットと発声の符号
化された表現のシーケンスとの間の一致の近さの評価値
を含む。個々の音声ユニットは、1つ或は複数の音声サ
ブユニットを含む。
【0015】最良一致スコアを持つ1つ或は複数の最良
候補の音声ユニットを識別し、また1つ或は複数の最良
候補音声ユニットの少なくとも1つの音声サブユニット
を表示するための手段も提供される。
【0016】本発明による音声符号化及び音声認識装置
及び方法は、限られたセットの単次元プロトタイプベク
トル信号から全ての複合次元プロトタイプベクトル信号
が構築され、音声を符号化する時間の速度が向上される
ために有利である。さらに、全ての単次元プロトタイプ
ベクトル信号及び全ての複合次元プロトタイプベクトル
信号が比較的小さな電子メモリ内に格納できる。
【0017】
【実施例】図1は本発明に従う音声符号化装置を含む本
発明に従う音声認識装置の一例を示す。手段10が提供
されるが、これは、一連の連続的な時間間隔(time int
erval )の個々において発声(utterance )の少なくと
も第一及び第二の異なる特徴(feature )の値を測定
し、この特徴値を表わす一連の特徴ベクトル信号(feat
ure vector signal )を生成する。音響特徴値(acoust
ic feature value)測定手段の一例が図2に示される。
この測定手段は、発声に対応するアナログ電気信号を生
成するためのマイクロフォン12を含む。マイクロフォ
ン12からのアナログ電気信号はアナログデジタル変換
器14によってデジタル電気信号に変換される。この目
的のために、アナログ信号は、アナログデジタル変換器
14によって、例えば、20キロヘルツのレートにてサ
ンプリングされる。
【0018】ウインドウ生成器(window generator)1
6は、例えば、個々の10ミリ秒(1センチ秒)間にア
ナログデジタル変換器14からデジタル信号の20ミリ
秒期間のサンプルを得る。デジタル信号の個々の20ミ
リ秒サンプルがスペクトル分析器(spectrum analyzer
)18によって、例えば、20個の周波数バンドの各
々内のデジタル信号サンプルの振幅を得るために分析さ
れる。好ましくは、スペクトル分析器18は、また10
ミリ秒デジタル信号サンプルの総振幅或は総パワーを表
わす第21番目の次元(twenty-first dimension)の信
号を生成する。スペクトル分析器18は、例えば、高速
フーリエ変換プロセッサであり得る。反対に、これは、
20個の帯域パスフィルタのバンク(列)であっても良
い。
【0019】スペクトル分析器18によって生成される
21次元(twenty-one dimension)ベクトル信号は適応
型ノイズ相殺プロセッサ(adaptive noise cancellatio
n processor )20によって背景ノイズを排除するため
に適応化(adapt )される。ノイズ相殺プロセッサ20
はノイズ相殺プロセッサに入る特徴ベクトル(featurve
ctor )F(t)からノイズベクトル(noise vector)
N(t)を取り去り、出力特徴ベクトルF’(t)を生
成する。ノイズ相殺プロセッサ20は前の特徴ベクトル
F(t−1)がノイズ或は無言(silence)であると識別
される度に周期的にノイズベクトルN(t)を更新する
ことによって変化するノイズレベルに適応する。ノイズ
ベクトルN(t)は以下の式に従って更新される。
【0020】 N(t)=N(t−1)+k[F(t−1)−F(t−1)] [1] ここで、N(t)は時間tにおけるノイズベクトルであ
り、N(t−1)は時間(t−1)におけるノイズベク
トルであり、kは適応ノイズ相殺モデルの固定されたパ
ラメータであり、F(t−1)は時間(t−1)におけ
るノイズ相殺プロセッサ20内への特徴ベクトル入力で
あってノイズ或は無言を表わし、F(t−1)はメモ
リ22からの1サイレンスプロトタイプベクトル(sile
nce prototype vector)であり、特徴ベクトルF(t−
1)に最も近い。
【0021】前の特徴ベクトルF(t−1)は、(a)
ベクトルの総エネルギ−が閾値以下である場合、或は
(b)適応プロトタイプベクトルメモリ24内の特徴ベ
クトルに最も近いプロトタイプベクトルがノイズ或は無
言を表わすプロトタイプである場合、ノイズ或は無言と
して認識される。特徴ベクトルの総エネルギーの分析の
目的のため、この閾値は、例えば、評価されている特徴
ベクトルの前の2秒間内に生成される(音声及び無言の
両方に対応する)全ての特徴ベクトルの5の1パーセン
ト(fifth percentile)とされる。
【0022】ノイズの相殺の後、特徴ベクトルF’
(t)は短期間平均正規化プロセッサ(short term mea
n normalization processor )26によって入力音声の
強さ(loudness)の変動に対して正規化される。正規化
プロセッサ26は21次元特徴ベクトルF’(t)を正
規化することによって20次元正規化特徴ベクトル(tw
enty dimension normalized feature vector)X(t)
を生成する。総振幅或は総パワーを表わす特徴ベクトル
F’(t)の21番目の次元は破棄される。時間tにお
ける正規化特徴ベクトルX(t)の個々の成分iは、例
えば、対数領域(logarithmic domain)内の以下の式に
よって与えられる。
【0023】 Xi (t)=F’i (t)−Z(t) [2] ここで、F’i (t)は時間tにおける未正規化ベクト
ル(unnormalized vector )のi番目の成分であり、Z
(t)は、F’(t)及びZ(t−1)成分の式3及び
4に従う加重平均である。
【0024】 Z(t)=0.9Z(t−1)+0.1M(t) [3] ここで、 正規化20次元特徴ベクトルX(t)はさらに言語音の
発音の変動に適応するために適応ラベラ(adaptive lab
eler)28によって処理される。適応化された20次元
特徴ベクトルX’(t)が適応ラベラ28の入力に供給
される20次元特徴ベクトルX(t)から20次元適応
ベクトル(twenty dimension feature vector )A
(t)を引くことによって生成される。時間tにおける
適応ベクトルA(t)は、例えば、以下の式によって与
えられる。
【0025】 A(t)=A(t−1)+k[X(t−1)−X(t−1)] [5] ここで、kは適応ラベリングモデル(adaptive labelin
g model )の固定されたパラメータであり、X(t−
1)は時間(t−1)における適応ラベラ28への正規
化された20次元ベクトル入力であり、Xp(t−1)
は時間(t−1)における20次元特徴ベクトルX(t
−1)に最も近い(適応プロトタイプメモリ24から
の)適応プロトタイプベクトルであり、そしてA(t−
1)は時間(t−1)における適応ベクトルである。
【0026】適応ラベラ28からの20次元適応特徴ベ
クトル信号X’(t)は、好ましくは、聴覚モデル(au
ditory model)30に供給される。聴覚モデル30は、
例えば、いかに人の聴覚システムが音響信号を知覚する
かのモデルを提供する。聴覚モデルの一例がバール(Ba
hl)らに交付された『音韻グラフの効率的な格納及び高
速組み立てを備える音声認識システム(Speech Recogni
tion System with Efficient Storage and Rapid Assem
bly of Phonological Graphs)』と言う名称の合衆国特
許第4,980,918号において開示される。
【0027】好ましくは、本発明によると、時間tにお
ける適応特徴ベクトル信号X’(t)の個々の周波数バ
ンドiに対して、聴覚モデル30は式6及び7に従って
新たなパラメータEi (t)を計算する。
【0028】 Ei (t)=K1 +K2 (X’i (t)(Ni (t−1)) [6] ここで、 Ni (t)=K3 ×Ni (t−1)−Ei (t−1) [7] ここで、K1 、K2 、及びK3 は聴覚モデルの固定され
たパラメータである。
【0029】個々のセンチ秒時間間隔に対して、聴覚モ
デル30の出力は修正された20次元特徴ベクトル信号
を与える。この特徴ベクトルは他の20次元の値の二乗
の総和の平方根に等しい値を持つ21番目の次元によっ
て増加される。
【0030】個々のセンチ秒時間間隔に対して、連結器
(concatenator)32は、一つの現センチ秒時間間隔、
4つの前のセンチ秒時間間隔、及び4つの続くセンチ秒
時間間隔を表わす9つの21次元特徴ベクトルを連結す
ることによって189次元の単一の継合せベクトル(sp
liced vector)を形成する。個々の189次元継合せベ
クトルには、好ましくは、継合せベクトルを回転し、継
合せベクトルを50次元に減少するためローテータ(ro
tator )34内で回転マトリックスが掛けられる。
【0031】ローテータ34内で使用される回転マトリ
ックスは、例えば、トレーニングセッション(training
session)において得られたセットの189次元継合せ
ベクトルをM個のクラスに分類することによって得られ
る。トレーニングセット(training set)内の全ての継
合せベクトルに対する分散マトリックス(covariancema
trix )の逆数に全てのM個のクラス内の全ての継合せ
ベクトルに対するサンプル内分散マトリックス(within
-sample covariance matrix )が掛けられる。結果とし
て生じているマトリックスの最初の50の固有ベクトル
(eigenvector)が回転マトリックスを形成する。これ
に関しては、例えば、IBM技術小冊子(IBM Technica
l Disclosure)、Vol.32、No.7、1989年
12月号、ページ320及び321に掲載の論文『離散
パラメータ音素ベースマルコフワードモデルを使用する
音声認識システムのためのベクトル量子化手順(Vector
Quantization Procedure For Speech Recognition Sys
tem Using Discrete Parameter Phoneme-Based Markov
Word Models )』を参照すること。
【0032】ウンイドウ生成器16、スペクトル分析器
18、適応ノイズ相殺プロセッサ20、短期間平均正規
化プロセッサ26、適応ラベラ28、聴覚モデル30、
連結器32、及びローテータ34は、適当にプログラム
された専用或は汎用プロセッサであり得る。プロトタイ
プメモリ22及び24は電子的なコンピュータメモリで
あり得る。
【0033】表1は時間t1からt7を通じて得られる
一連の2次元音響特徴ベクトルU1からU7の仮想例を
示す。個々の音響特徴ベクトルは次元:特徴1(Featur
e 1)に対して一つの測定値を持ち、また次元:特徴2
(Feature 2 )に対して一つの測定値を持つ。
【0034】
【表1】 図1に戻り、本発明による音声認識装置及び音声符号化
装置はさらに複数の単次元(single-dimension)プロト
タイプベクトル信号を格納するための手段36を含む。
個々の単次元プロトタイプベクトル信号は1つのパラメ
ータ値のみを持つ。少なくとも2つの単次元プロトタイ
プベクトル信号は第一の特徴値を表わすパラメータ値を
持つ第一の次元のプロトタイプベクトル信号である。少
なくとも2つの他の単次元プロトタイプベクトル信号は
第二の特徴値を表わすパラメータ値を持つ第二の次元の
プロトタイプベクトル信号である。
【0035】表2は単次元プロトタイプベクトルの仮想
例である。第一の次元のプロトタイプベクトルP11、
P12、P13、P14、及びP15は、特徴1の値の
みを表わすパラメータ値を持つ。第二の次元のプロトタ
イプベクトルP21、P22、P23、P24、及びP
25は特徴2の値のみを表わすパラメータ値を持つ。
【0036】
【表2】 手段38が複数の複合次元(compound-dimension)プロ
トタイプベクトル信号を格納するために備えられる。個
々の複合次元プロトタイプベクトル信号は固有の識別値
を持つ。個々の複合次元プロトタイプベクトル信号は一
つの第一の次元のプロトタイプベクトル信号及び一つの
第二の次元のプロトタイプベクトル信号を含む。少なく
とも2つの複合次元プロトタイプベクトルは第一の次元
のプロトタイプベクトル信号を含む。
【0037】表3は複合次元プロトタイプベクトル信号
L1からL10の仮想例である。表3に示される個々の
複合次元プロトタイプベクトルは識別値L1からL1
0、1つの特徴1の単次元プロトタイプベクトル、及び
1つの特徴2の単次元プロトタイプベクトルを含む。
【0038】
【表3】 本発明はさらに手段40を含むが、これは複合次元プロ
トタイプベクトル信号のパラメータ値に対する特徴ベク
トル信号の特徴値の近さ(closeness )を比較し、特徴
ベクトル信号と個々の複合次元プロトタイプベクトル信
号に対するプロトタイプ一致スコア(prototype match
score )を得る。比較プロセッサ(comparison process
or)40は、特徴ベクトル信号の符号化された表現信号
(codedrepresentation signal )として最良のプロト
タイプ一致スコアを持つ複合次元プロトタイプベクトル
信号の識別値を少なくとも出力する。
【0039】表4は表1からの特徴ベクトルU1の複合
次元プロトタイプベクトルL1からL10に対する近さ
の比較の仮想例を示す。表4に示されるように、複合次
元プロトタイプベクトルL10は特徴ベクトルU1に対
する最良のプロトタイプ一致スコアを持つ。従って、識
別値L10が特徴ベクトル信号U1の符号化表現として
出力される。
【0040】
【表4】 好ましくは、本発明によると、特徴ベクトル信号をプロ
トタイプベクトル信号に対して比較するための手段は特
徴ベクトル信号の第一の特徴の値を個々の第一の次元の
プロトタイプベクトル信号のパラメータとたった一度だ
け比較するための手段、及び特徴ベクトル信号の第二の
特徴の値を個々の第二の次元のプロトタイプベクトル信
号のパラメータ値とたった一度だけ比較するための手段
を含む。表4に示される仮想例においては、特徴ベクト
ルU1の特徴1の値が個々の第一の次元のプロトタイプ
ベクトルP11、P12、P13、P14及びP15の
パラメータ値とたった一度だけ比較される。特徴ベクト
ルU1の特徴2の値は個々の第二の次元のプロトタイプ
ベクトルP21、P22、P23、P24及びP25の
パラメータ値とたった一度だけ比較される。
【0041】表4の仮想例内の単次元プロトタイプ一致
スコアは単純なユークリッド距離(Euclidean distanc
e)である。但し、好ましくは、個々の単次元プロトタ
イプベクトルは平均値μ及び標準偏差σを含む。このケ
ースにおいては、個々の単次元プロトタイプベクトルは
ガウス分布(Gaussian distribution )としてモデル化
されるため、個々の単次元プロトタイプベクトルに対す
るプロトタイプ一致スコアは式8によって与えられる。
【0042】
【数1】 ここで、xi は特徴ベクトルXのi番目の特徴(次元)
の値である。(σ=1の場合、プロトタイプ一致スコア
はユークリッド距離に定数を加えた値となる。)この例
においては、複合次元プロトタイプ一致スコアは複合次
元プロトタイプが同様に等しいと言う想定に基づく。但
し、好ましくは、個々の複合次元プロトタイプ一致スコ
アは複合次元プロトタイプの発生の評価された前の確率
(estimated prior probability )を表わす成分を含
む。
【0043】単次元プロトタイプベクトル信号及び複合
次元プロトタイプベクトル信号は本発明によると一組の
初期多次元プロトタイプベクトル(initial multidimen
sional prototype vector )から得られる。この初期多
次元プロトタイプベクトルは、例えば、トレイニングセ
ットからの特徴ベクトル信号を複数のクラスタ(cluste
r )にまとめ、個々のクラスタに対する平均及び標準偏
差を計算することによって得られる。トレーニングスク
リプト(training script )が一連の(一連の語のモデ
ルを形成する)語セグメントモデルから成り、個々の語
セグメントモデルがそれら語セグメントモデル内に指定
される位置を持つ一連の要素モデル(elementary mode
l)を含む場合は、特徴ベクトル信号は個々のクラスタ
が単一の語セグメントモデル内の単一の位置内の単一の
要素モデルに対応すると指定することによってクラスタ
にまとめられる。この方法が1991年7月16日付け
で申請された『自動音声認識のための音響プロトタイプ
を派生するための高速アルゴリズム(Fast Algorithm f
or Deriving Acoustic Prototypes for Automatic Spee
ch Recognition)』と言う名称の合衆国特許出願第73
0,714号において詳細に説明されている。
【0044】別の方法においては、トレーニングテキス
トの発声によって生成されるある与えられた要素モデル
に対応する全ての音響特徴ベクトルが、K−平均ユーク
リッドクラスタリング(K-means Euclidean custering
)或はK−平均ガウスクラスタリング(K-means Gauss
ian clustering )或はこの両者によってクラスタにま
とめられる。この方法は、例えば、1991年3月22
日付けで申請された『話手に依存しないラベル符号化装
置(Speaker-independent Label Coding Apparatus)』
と言う名称の合衆国特許出願第673,810号におい
て説明されている。
【0045】表5は初期プロトタイプベクトルL1から
L10の仮想例を示す。個々の初期プロトタイプベクト
ルは一つの特徴1のパラメータ値、及び一つの特徴2の
パラメータ値を持つ。これら初期プロトタイプベクトル
のどの二つも同一の特徴1のパラメータ値或は同一の特
徴2のパラメータ値を持たない。
【0046】
【表5】 表2に示される特徴1の単次元プロトタイプベクトルは
表5の初期プロトタイプベクトルから初期プロトタイプ
ベクトルの特徴1のプロトタイプ値をクラスタにまとめ
ることによって得ることができる。表2の特徴2の単次
元プロトタイプベクトルは表5の初期プロトタイプベク
トルの特徴2の値をクラスタにまとめることによって得
ることができる。
【0047】表6及び7は表5の初期プロトタイプベク
トルのそれぞれ特徴1及び特徴2の値のクラスタ化の仮
想例である。
【0048】
【表6】 表6に示されるように、初期プロトタイプベクトルL1
からL10は、それらの特徴1のパラメータ値に従って
最も低い値から最も高い値へと配列される。隣接するプ
ロトタイプベクトル間の距離が計算され、最も接近した
プロトタイプベクトルが併合される。併合されたベクト
ルはそれらの成分の特徴1のパラメータ値の平均から成
る特徴1のパラメータ値を持つ。このプロセスが、例え
ば、事前に選択された数のクラスタのみに絞られるまで
反復される。
【0049】表7は初期プロトタイプベクトルの特徴2
の値をクラスタにまとめて第二の次元のプロトタイプベ
クトル信号を生成するための類似するプロセスを示す。
【0050】
【表7】 実施においては、トレーニングテキストの発声によって
生成される音響特徴ベクトルが、例えば、各々が50次
元の2,500の初期プロトタイプベクトルによって表
わされる2,500のクラスタにまとめられる。個々の
次元が例えば各々が平均及びガウス分布の標準偏差を持
つ50の単次元プロトタイプベクトルを形成するように
クラスタ化される。このケースにおいては、2つのクラ
スタ間の距離は式9によって与えられる。
【0051】
【数2】 ここで、σ1 は第一のクラスタの標準偏差であり、σ2
は第二のクラスタの標準偏差であり、σ3 はこれらの結
合されたクラスタの標準偏差であり、nは第一のクラス
タ内に含まれる特徴ベクトルの数であり、そしてmは第
二のクラスタ内に含まれる特徴ベクトルの数である。
【0052】図1に戻り、本発明による音声認識装置は
さらに複数の音声ユニットの個々に対して一致スコアを
生成するための手段42をさらに含む。個々の一致スコ
アは音声ユニット間の一致の近さの評価値及び発声の符
号化表現のシーケンスを含む。個々の音声ユニットは1
つ或は複数のサブユニットを含む。
【0053】音声ユニットに対する一致スコアを生成す
るための手段42は、例えば、上に述べた合衆国特許第
4,980,918号において説明される周知の音響一
致プロセッサ及び/或は言語モデルプロセッサから成
る。
【0054】本発明による手段44は最も良い一致スコ
アを持つ1つ或は複数の最良候補音声ユニットを識別す
るために提供される。手段46は1つ或は複数の最良候
補音声ユニットの少なくとも1つの音声サブユニットを
表示或は出力するために提供される。
【0055】本発明による音声符号化及び音声認識装置
のプロセッサ40、42及び44は専用或は汎用デジタ
ルコンピュータシステムを適当にプログラムすることに
よって製作することができる。メモリ36及び38は電
子的なコンピュータメモリであり得る。ディスプレイ4
6は陰極線管のようなビデオディスプレイ、液晶ディス
プレイ、或はプリンタであり得る。別の方法として、こ
の出力手段は拡声器或はヘッドホーンを持つ音声合成器
のような音響出力装置であっても良い。
【0056】本発明に従う複数の単次元プロトタイプベ
クトル信号、及び単次元プロトタイプベクトル信号から
構成される複数の複合次元プロトタイプベクトル信号を
持つ音声符号化装置は以下のアルゴリズムを使用するこ
とにより任意の与えられた特徴ベクトル信号に最も一致
するプロトタイプベクトル信号を迅速及び効率的に発見
することができる。第一に、個々の単次元プロトタイプ
ベクトル信号とその特徴ベクトル信号の対応する次元と
の間で距離が計算される。次に個々の次元に対する最小
距離が識別される。
【0057】次に、第一の複合次元プロトタイプベクト
ルと特徴ベクトルとの間で距離が計算される。好ましく
は、第一の複合次元プロトタイプベクトルは直前の特徴
ベクトル信号に対する最良のプロトタイプ一致スコアを
持つプロトタイプベクトルであり、この距離は未符号化
特徴ベクトル信号の特徴値を他のプロトタイプベクトル
信号のパラメータ値と比較する前に得られる。この距離
がそれまでに発見された中の最良のプロトタイプ一致ス
コアである。
【0058】第二の複合次元プロトタイプベクトルに対
して、部分プロトタイプ一致スコア(partial prototyp
e match score )がこの第二の複合次元プロトタイプベ
クトルと特徴ベクトルの対応する次元との間の距離を計
算することによって得られる。この部分プロトタイプ一
致スコアに残りの次元に対して前に得られた最小距離
(minimum distance)から成る残り一致スコア(remain
der match score )が加えられる。この総和がそれまで
発見された最良のプロトタイプ一致スコアよりも悪い場
合は、このプロトタイプベクトルは、このプロトタイプ
ベクトルの残りの次元に対してさらに距離計算を遂行す
ることなく破棄される。そうでないときは、第二の複合
次元プロトタイプベクトルの次の次元と特徴ベクトルの
対応する次元との間の距離が部分プロトタイプ一致スコ
アと結合され、プロセスが反復される。
【0059】別の方法として、残り一致スコアは以下の
方法にて得ることもできる。残りの次元に対する最小距
離は第一の最小残りプロトタイプ一致スコア(first mi
nimum remainder prototype match score )を形成す
る。残りの次元に対応する第二の特徴ベクトル信号の第
二の部分と最も近い対応する単次元プロトタイプベクト
ル信号との間の近さは第二の最小残りプロトタイプ一致
スコアを形成する。第二の特徴ベクトル信号の第二の部
分と第二の特徴ベクトル信号と最良のプロトタイプ一致
スコアを持つ第二の複合次元プロトタイプベクトル信号
の対応する第二の部分との間の近さは前の参照残りプロ
トタイプ一致スコア(prior reference remainder prot
otype match score )を形成する。最後に、第一の最小
残りプロトタイプ一致スコアと第二の最小残りプロトタ
イプ一致スコアに対する前の参照残り一致スコアの超過
(excess)との間の重み付けされた組合わせ(weighted
combination)が最良残り一致スコア(best remainder
match score)に対する評価値を形成する。
【0060】
【発明の効果】本発明によれば、時間的に比較的高速度
にて音声を符号化する音声符号化装置を得ることが可能
となる。また、音響プロトタイプベクトル信号を比較的
限られた電子メモリ内に格納し得る音声符号化装置を得
ることが可能となる。
【図面の簡単な説明】
【図1】本発明に従う音声符号化装置を含む本発明に従
う音声認識装置の一例のブロック図である。
【図2】発声の諸特徴の値を測定するための手段の一例
のブロック図である。
【符号の説明】
10 音響特徴値測定部 36 単次元プロトタイプベクトルメモリ 38 複合次元プロトタイプベクトルメモリ 40 比較プロセッサ 42 一致スコアプロセッサ 44 最良候補識別プロセッサ
フロントページの続き (72)発明者 ジェローム、アール、ベルガルダ アメリカ合衆国ニューヨーク州、ゴール デンズ、ブリッジ、ボールダー、レー ン、490 (72)発明者 エドワード、アダム、エプスタイン アメリカ合衆国ニューヨーク州、パトナ ム、バレー、カノパス、ホロー、ロー ド、219 (72)発明者 ジョン、エム、ルカセン アメリカ合衆国ニューヨーク州、ヨーク タウン、ハイツ、シーニック、ビュー、 6‐ジー (72)発明者 デイビッド、ナハモー アメリカ合衆国ニューヨーク州、ホワイ ト、プレインズ、エルムウッド、ロー ド、12 (72)発明者 マイケル、アラン、ピチュニー アメリカ合衆国ニューヨーク州、ホワイ ト、プレインズ、ラルフ、アベニュ、 118 (56)参考文献 特開 昭59−183542(JP,A) 特開 平3−32228(JP,A) 特開 平1−25197(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 G10L 9/00 - 9/18

Claims (14)

    (57)【特許請求の範囲】
  1. 【請求項1】特徴値を表わす一連の特徴ベクトル信号を
    生成するために一連の連続的な時間間隔の個々において
    発声の少なくとも第一及び第二の異なる特徴の値を測定
    するための測定手段と個々の単次元プロトタイプベクト
    ル信号が少なくとも一つのパラメータ値を持ち、少なく
    とも2つの単次元プロトタイプベクトル信号が第一の特
    徴値を表わすパラメータ値を持つ第一の次元のプロトタ
    イプベクトル信号であり、少なくとも2つの他の単次元
    プロトタイプベクトル信号が第二の特徴値を表わすパラ
    メータ値を持つ第二の次元のプロトタイプベクトル信号
    である、複数の単次元プロトタイプベクトル信号を格納
    するための手段と、 個々の複合次元プロトタイプベクトル信号が固有の識別
    値を持ち、個々の複合次元プロトタイプベクトル信号が
    1つの第一の次元のプロトタイプベクトル信号と1つの
    第二の次元のプロトタイプベクトル信号から成り、少な
    くとも2つの複合次元プロトタイプベクトル信号が同一
    の第一の次元のプロトタイプベクトル信号を含む、複数
    の複合次元プロトタイプベクトル信号を格納するための
    手段と、 特徴ベクトル信号と個々の複合次元プロトタイプベクト
    ル信号に対するプロトタイプ一致スコアを得るために特
    徴ベクトル信号の特徴値の複合次元プロトタイプベクト
    ル信号のパラメータ値に対する一致度を比較するための
    比較手段と、 少なくとも最良のプロトタイプ一致スコアを持つ複合次
    元プロトタイプベクトル信号の識別値を特徴ベクトル信
    号の符号化表現信号として出力するための手段を含むこ
    とを特徴とする音声符号化装置。
  2. 【請求項2】特徴値を表わす一連の特徴ベクトル信号を
    生成するために一連の連続的な時間間隔の個々において
    発声の少なくとも第一及び第二の異なる特徴の値を測定
    するための測定手段と、 個々の単次元プロトタイプベクトル信号が少なくとも一
    つのパラメータ値を持ち、少なくとも2つの単次元プロ
    トタイプベクトル信号が第一の特徴値を表わすパラメー
    タ値を持つ第一の次元のプロトタイプベクトル信号であ
    り、少なくとも2つの他の単次元プロトタイプベクトル
    信号が第二の特徴値を表わすパラメータ値を持つ第二の
    次元のプロトタイプベクトル信号である、複数の単次元
    プロトタイプベクトル信号を格納するための手段と、 個々の複合次元プロトタイプベクトル信号が一意の識別
    値を持ち、個々の複合次元プロトタイプベクトル信号が
    1つの第一の次元のプロトタイプベクトル信号と1つの
    第二の次元のプロトタイプベクトル信号から成り、少な
    くとも2つの複合次元プロトタイプベクトル信号が同一
    の第一の次元のプロトタイプベクトル信号を含む、複数
    の複合次元プロトタイプベクトル信号を格納するための
    手段と、 個々の特徴ベクトル信号と個々の複合次元プロトタイプ
    ベクトル信号に対するプロトタイプ一致スコアを得るた
    めに個々の特徴ベクトル信号の特徴値の複合次元プロト
    タイプベクトルのパラメータ値に対する一致度を比較す
    るための比較手段と、 特徴ベクトル信号に対する最良のプロトタイプ一致スコ
    アを持つ複合次元プロトタイプベクトル信号の識別値を
    認識されるべき発声の符号化表現信号として出力するた
    めの手段と、 個々の一致スコアが音声ユニットと発声の符号化された
    表現のシーケンスとの間の一致の近さの評価値からな
    り、個々の音声ユニットが1つ或は複数の音声サブユニ
    ットを含む、個々の複数の音声ユニットに対して一致ス
    コアを生成するための手段と、 最良一致スコアを持つ1つ或は複数の最良候補音声ユニ
    ットを識別するための手段と、 1つ或は複数の最良候補音声ユニットの少なくとも1つ
    の音声サブユニットを出力するための手段と、 を含むことを特徴とする音声認識装置。
  3. 【請求項3】前記比較手段が、 特徴ベクトル信号の第一の特徴の値を個々の第一の次元
    のプロトタイプベクトル信号のパラメータ値とたった一
    度のみ比較するための手段と、 特徴ベクトル信号の第二の特徴の値を個々の第二の次元
    のプロトタイプベクトル信号のパラメータ値とたった一
    度のみ比較するための手段と、 を含むことを特徴とする請求項1または2記載の装置。
  4. 【請求項4】前記複数の単次元プロトタイプベクトル信
    号が2つ或はそれ以上の複合次元プロトタイプベクトル
    信号内に含まれることを特徴とする請求項3記載の装
    置。
  5. 【請求項5】前記個々の複合次元プロトタイプベクトル
    信号が少なくとも1つの単次元プロトタイプベクトル信
    号を含み、この単次元ベクトル信号がまた少なくとも幾
    つかの他の複合次元プロトタイプベクトル信号内にも含
    まれることを特徴とする請求項4記載の装置。
  6. 【請求項6】個々の次元に対して、単次元プロトタイプ
    信号の数が複合次元プロトタイプベクトル信号の数の二
    分の一以下であることを特徴とする請求項5記載の装
    置。
  7. 【請求項7】前記測定手段がマイクロホンを含むことを
    特徴とする請求項1または2記載の装置。
  8. 【請求項8】前記比較手段が、 特徴ベクトル信号と第一の複合次元プロトタイプベクト
    ル信号に対するプロトタイプ一致スコアを得るために第
    一の特徴ベクトル信号の特徴値の第一の複合次元プロト
    タイプベクトル信号のパラメータ値に対する一致度の比
    較を行なうための手段と、 第二の複合次元プロトタイプベクトル信号と第一の特徴
    ベクトル信号に対する部分プロトタイプ一致スコアを得
    るために第二の複合次元プロトタイプベクトル信号の第
    一の部分のパラメータ値と第一の特徴ベクトル信号の対
    応する第一の部分の特徴値との間の一致度を比較するた
    めの手段と、 第一の複合次元プロトタイプベクトル信号を第二の複合
    次元プロトタイプベクトル信号よりも良好であるとし
    て、第一の特徴ベクトル信号と第一の複合次元プロトタ
    イプベクトル信号に対するプロトタイプ一致スコアが第
    二の複合次元プロトタイプベクトル信号と第一の特徴ベ
    クトル信号に対する部分プロトタイプ一致スコアよりも
    良好であるとき選択するための手段と、 を含むことを特徴とする請求項1記載の音声符号化装
    置。
  9. 【請求項9】前記比較手段がさらに、 特徴ベクトル信号の第一の部分と異なる特徴ベクトル信
    号の第二の部分の特徴値に対する最良残りプロトタイプ
    一致スコアを評価するための手段と、 第一の複合次元プロトタイプベクトル信号を第二の複合
    次元プロトタイプベクトル信号よりも良好であるとし
    て、第一の特徴ベクトル信号と第二の複合次元プロトタ
    イプベクトル信号に対するプロトタイプ一致スコアが部
    分プロトタイプ一致スコアと最良残りプロトタイプ一致
    スコアの総和よりも良好であるとき選択するための手段
    と、 を含むことを特徴とする請求項8記載の音声符号化装
    置。
  10. 【請求項10】前記最良残り一致スコアを評価するため
    の手段が、 第一の最小残りプロトタイプ一致スコアを得るために第
    一の特徴ベクトル信号の第二の部分と最も接近した対応
    する単次元プロトタイプベクトル信号との間の一致度を
    比較するための手段と、 第二の残りプロトタイプ一致スコアを得るために第一の
    特徴ベクトル信号の第二の部分に対応する第二の特徴ベ
    クトル信号の第二の部分と最も接近した対応する単次元
    プロトタイプベクトル信号との間の一致度を比較するた
    めの手段と、 前の参照残りプロトタイプ一致スコアを得るために第二
    の特徴ベクトル信号の第二の部分と第二の特徴ベクトル
    信号と最良のプロトタイプ一致スコアを持つ第二の複合
    次元プロトタイプベクトル信号の対応する第二の部分と
    の間の一致度を比較するための手段と、 最良残り一致スコアを評価するために第一の最小残りプ
    ロトタイプ一致スコアと第二の最小残りプロトタイプ一
    致スコアに対する前の参照残り一致スコアの超過を重み
    付け結合方式にて結合するための手段と、 を含むことを特徴とする請求項9記載の音声符号化装
    置。
  11. 【請求項11】特徴値を表わす一連の特徴ベクトル信号
    を生成するために一連の連続的な時間間隔の個々におい
    て発声の少なくとも第一及び第二の異なる特徴の値を測
    定するステップと、 個々の単次元プロトタイプベクトル信号が少なくとも一
    つのパラメータ値を持ち、少なくとも2つの単次元プロ
    トタイプベクトル信号が第一の特徴値を表わすパラメー
    タ値を持つ第一の次元のプロトタイプベクトル信号であ
    り、少なくとも2つの他の単次元プロトタイプベクトル
    信号が第二の特徴値を表わすパラメータ値を持つ第二の
    次元のプロトタイプベクトル信号である、複数の単次元
    プロトタイプベクトル信号を格納するステップと、 個々の複合次元プロトタイプベクトル信号が固有の識別
    値を持ち、個々の複合次元プロトタイプベクトル信号が
    1つの第一の次元のプロトタイプベクトル信号と1つの
    第二の次元のプロトタイプベクトル信号から成り、少な
    くとも2つの複合次元プロトタイプベクトル信号が同一
    の第一の次元のプロトタイプベクトル信号を含む、複数
    の複合次元プロトタイプベクトル信号を格納するステッ
    プと、 特徴ベクトル信号と個々の複合次元プロトタイプベクト
    ル信号に対するプロトタイプ一致スコアを得るために特
    徴ベクトル信号の特徴値の複合次元プロトタイプベクト
    ルのパラメータ値に対する一致度を比較するステップ
    と、 少なくとも最良のプロトタイプ一致スコアを持つ複合次
    元プロトタイプベクトル信号の識別値を特徴ベクトル信
    号の符号化表現信号として出力するステップと、 を含
    むことを特徴とする音声符号化方法。
  12. 【請求項12】少なくとも1つの音声サブユニットを出
    力するための手段がディスプレイあるいは音声合成器を
    含むことを特徴とする請求項2記載の音声認識装置。
  13. 【請求項13】特徴値を表わす一連の特徴ベクトル信号
    を生成するために一連の連続的な時間間隔の個々におい
    て発声の少なくとも第一及び第二の異なる特徴の値を測
    定するステップと、 個々の単次元プロトタイプベクトル信号が少なくとも一
    つのパラメータ値を持ち、少なくとも2つの単次元プロ
    トタイプベクトル信号が第一の特徴値を表わすパラメー
    タ値を持つ第一の次元のプロトタイプベクトル信号であ
    り、少なくとも2つの他の単次元プロトタイプベクトル
    信号が第二の特徴値を表わすパラメータ値を持つ第二の
    次元のプロトタイプベクトル信号である、複数の単次元
    プロトタイプベクトル信号を格納するステップと、 個々の複合次元プロトタイプベクトル信号が固有の識別
    値を持ち、個々の複合次元プロトタイプベクトル信号が
    1つの第一の次元のプロトタイプベクトル信号と1つの
    第二の次元のプロトタイプベクトル信号から成り、少な
    くとも2つの複合次元プロトタイプベクトル信号が同一
    の第一の次元のプロトタイプベクトル信号を含む、複数
    の複合次元プロトタイプベクトル信号を格納するステッ
    プと、 個々の特徴ベクトル信号と個々の複合次元プロトタイプ
    ベクトル信号に対するプロトタイプ一致スコアを得るた
    めに個々の特徴ベクトル信号の特徴値の複合次元プロト
    タイプベクトルのパラメータ値に対する一致度を比較す
    るステップと、 特徴ベクトル信号に対する最良のプロトタイプ一致スコ
    アを持つ複合次元プロトタイプベクトル信号の識別値を
    認識されるべき発声の符号化表現信号のシーケンスとし
    て出力するステップと、 個々の一致スコアが音声ユニットと発声の符号化された
    表現のシーケンスとの間の一致の近さの評価値からな
    り、個々の音声ユニットが1つ或は複数の音声サブユニ
    ットを含む、個々の複数の音声ユニットに対して一致ス
    コアを生成するステップと、 最良一致スコアを持つ1つ或は複数の最良候補音声ユニ
    ットを識別するステップと、 1つ或は複数の最良候補音声ユニットの少なくとも1つ
    の音声サブユニットを出力するステップと、 を含むことを特徴とする音声認識方法。
  14. 【請求項14】特徴値を表わす一連の特徴ベクトル信号
    を生成するために一連の連続的な時間間隔の個々におい
    て発声の少なくとも第一の値を測定するための手段と、 個々のプロトタイプベクトル信号が少なくとも第一の特
    徴値を表わす一つのパラメータ値を持つ複数のプロトタ
    イプベクトル信号を格納するための手段と、 特徴ベクトル信号と個々のプロトタイプベクトル信号に
    対するプロトタイプ一致スコアを得るために特徴ベクト
    ル信号の特徴値のプロトタイプベクトル信号のパラメー
    タ値に対する一致度を比較するための手段と、 少なくとも最良のプロトタイプ一致スコアを持つプロト
    タイプベクトル信号の識別値を特徴ベクトル信号の符号
    化表現信号として出力するための手段と、を有する音声
    符号化装置において、 前記比較手段が、未符号化特徴ベクトル信号の特徴値を
    他のプロトタイプベクトル信号のパラメータ値と比較す
    る前に未符号化特徴信号の特徴値の直前の特徴ベクトル
    信号に対して最良のプロトタイプ一致スコアを持つプロ
    トタイプベクトル信号のパラメータ値に対する一致度を
    比較するための手段を備えることを特徴とする音声符号
    化装置。
JP4235206A 1991-10-03 1992-08-11 音声符号化方法及び装置 Expired - Fee Related JP2986037B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/770,495 US5280562A (en) 1991-10-03 1991-10-03 Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
US770495 1991-10-03

Publications (2)

Publication Number Publication Date
JPH05232999A JPH05232999A (ja) 1993-09-10
JP2986037B2 true JP2986037B2 (ja) 1999-12-06

Family

ID=25088751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4235206A Expired - Fee Related JP2986037B2 (ja) 1991-10-03 1992-08-11 音声符号化方法及び装置

Country Status (5)

Country Link
US (1) US5280562A (ja)
EP (1) EP0535380B1 (ja)
JP (1) JP2986037B2 (ja)
CA (1) CA2072721C (ja)
DE (1) DE69224253T2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5544277A (en) * 1993-07-28 1996-08-06 International Business Machines Corporation Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
DE4417557A1 (de) * 1994-05-19 1995-11-23 Daimler Benz Aerospace Ag Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5680506A (en) * 1994-12-29 1997-10-21 Lucent Technologies Inc. Apparatus and method for speech signal analysis
US5737433A (en) * 1996-01-16 1998-04-07 Gardner; William A. Sound environment control apparatus
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6023673A (en) * 1997-06-04 2000-02-08 International Business Machines Corporation Hierarchical labeler in a speech recognition system
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
JP2002539482A (ja) 1999-03-08 2002-11-19 シーメンス アクチエンゲゼルシヤフト 見本音声を決定するための方法及び装置
US20020152775A1 (en) * 1999-04-29 2002-10-24 Sara Lee Corporation Seamless torso controlling garment and method of making same
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US7080011B2 (en) * 2000-08-04 2006-07-18 International Business Machines Corporation Speech label accelerators and techniques for using same
JP4332129B2 (ja) * 2005-04-20 2009-09-16 富士通株式会社 文書分類プログラム、文書分類方法および文書分類装置
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus

Also Published As

Publication number Publication date
JPH05232999A (ja) 1993-09-10
EP0535380B1 (en) 1998-01-28
CA2072721A1 (en) 1993-04-04
EP0535380A2 (en) 1993-04-07
DE69224253T2 (de) 1998-08-13
EP0535380A3 (en) 1993-12-22
DE69224253D1 (de) 1998-03-05
CA2072721C (en) 1996-03-05
US5280562A (en) 1994-01-18

Similar Documents

Publication Publication Date Title
JP2986037B2 (ja) 音声符号化方法及び装置
US5278942A (en) Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US5333236A (en) Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models
JP3037864B2 (ja) 音声コード化装置及び方法
US5222146A (en) Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
JP2823469B2 (ja) 文脈依存型音声認識装置および方法
JP3114975B2 (ja) 音素推定を用いた音声認識回路
Tiwari MFCC and its applications in speaker recognition
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
US5522011A (en) Speech coding apparatus and method using classification rules
JP2642055B2 (ja) 音声認識装置及び方法
JPH04122996A (ja) 自動音声認識用に音類似に基づく文脈依存カテゴリへ音素の発音をグループ化する方法と装置
JP2700143B2 (ja) 音声コーディング装置および方法
Diaz et al. Spoken-digit recognition using self-organizing maps with perceptual pre-processing
CN114203159A (zh) 语音情感识别方法、终端设备及计算机可读存储介质
Sapijaszko et al. Robust speaker recognition system employing covariance matrix and Eigenvoice
Smith et al. A statistical study in word recognition
Er Speech recognition by clustering wavelet and PLP coefficients

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees