JP3373532B2 - 音声分析の方法と装置 - Google Patents

音声分析の方法と装置

Info

Publication number
JP3373532B2
JP3373532B2 JP07179791A JP7179791A JP3373532B2 JP 3373532 B2 JP3373532 B2 JP 3373532B2 JP 07179791 A JP07179791 A JP 07179791A JP 7179791 A JP7179791 A JP 7179791A JP 3373532 B2 JP3373532 B2 JP 3373532B2
Authority
JP
Japan
Prior art keywords
vector
elements
speech
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07179791A
Other languages
English (en)
Other versions
JPH04223498A (ja
Inventor
アール.ドディントン ジョージ
Original Assignee
テキサス インスツルメンツ インコーポレイテツド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テキサス インスツルメンツ インコーポレイテツド filed Critical テキサス インスツルメンツ インコーポレイテツド
Publication of JPH04223498A publication Critical patent/JPH04223498A/ja
Application granted granted Critical
Publication of JP3373532B2 publication Critical patent/JP3373532B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は全体的にいえば音声技術
に関し、特に音声分析のための改良された方法と装置に
関する。 【0002】 【従来の技術】自動音声認識および自動話者検証の試み
が1950年代に始って以来、音声分析全体の開発努力
の中で、音声分析の特性を改善するために、優れた音響
的特徴を開発することが支配的であった。この開発努力
において、時間の関数としての短期間の振幅スペクトル
が、一般的に受け入れられている測度になっていた。最
近の実質的に成功している音声認識はすべてこのことに
基づいている。この一般的測度が与えられるならば、通
常それは、時間的に均一にサンプリングされたスペクト
ル振幅ベクトルとして表されるが、この基本測度を改良
された音声分析特性を与える形式へ線形変換するおよび
非線形変換するために、数多くのかつ種々の努力がなさ
れてきた。 【0003】最近の多くの装置は、スペクトル・ベクト
ルの線形変換を用いている。これは明白に、相関のない
特徴を生ずることを目的としている。その後、これらの
特徴は、そのおのおのがモデル条件の下で等しい分散を
示すように、スケールされる。変換の結果えられた特徴
は、規格直交と呼ばれる。これらの規格直交特徴によ
り、ユークリッド距離測度と共に、典型的な多変量ガウ
ス型モデルの下で、最大公算認識解答がえられる。けれ
ども、多変量ガウス型分析の下でも、これらの装置は音
声分析においてなお多数個のエラーを生ずる。これらの
エラーの大部分は、音声測定に多変量ガウス型モデルを
適用することの不正確さから生ずる。 【0004】したがって、音声分析を実行するさい、よ
り正確な測定がえられる音声分析法および音声分析装置
が要望されている。 【0005】 【発明の要約】本発明により、従来の音声分析装置が有
する欠点および問題点が事実上ない、または事実上防止
された、音声分析法と音声分析装置がえられる。 【0006】本発明は、音声分析を改善するための装置
と方法の両方を包含する。例えば、本発明の音声分析
は、複数個の要素を有する特徴ベクトルを受け取る段階
と、基準モデルを供給する段階と、特徴ベクトル要素に
対応するエラー・ベクトルの2乗の選定された要素を生
ずる段階とを有する。このエラー・ベクトルの選定され
た要素は、それぞれの選定された要素の相対分散に比例
する因子を有する加重因子によって、加重される。 【0007】本発明により、先行技術の装置よりは優れ
た、いくつかの技術上の利点がえられる。加重されたエ
ラー・ベクトルにより、先行技術による音声分析装置よ
りも改良された認識スコアがえられる。具体的にいえ
ば、本発明の加重特徴を実行する時、認識エラーの数の
減少は2のオーダであることが観察されている。 【0008】本発明はさらに、比較的大きな分散を有す
る特徴要素を考察から消去するように、観察スコアを選
択的に発生することを有する。したがって、処理時間と
処理計算が最小であるという、技術上の利点がえられ
る。さらに、もしそうでなければ付加的計算のために必
要であったメモリが不必要になるという、技術上の利点
がえられる。さらに、選択的消去により、認識処理工程
におけるエラーの総数がより小さくなるという、技術上
の利点がえられる。 【0009】 【実施例】本発明とその利点を完全に理解するために、
添付図面を参照して説明する。 【0010】本発明の好ましい実施例は、図1〜図3を
参照することによって最もよく理解することができる。
これらの図において、同等な部品および対応する部品に
は、同じ参照番号が付されている。 【0011】図1において、音声分析装置が100で全
体的に示されている。音声分析装置100はいろいろな
形式の音声分析に用いることができる。例えば、音声分
析装置100を用いて、音声認識および話者検証を包含
する、ただしそれに限定されるわけではないが、種々の
音声分析動作を実行することができる。音声分析装置1
00は、音声信号を受け取る入力を有する。入力102
は音声「特徴」測定装置104に接続される。音声特徴
測定装置104は、特徴ベクトルfj のシーケンスを音
響的類似度測定装置106に、周期的に供給する。音響
的類似度測定装置106は時相音声モデル制約ブロック
108と相互通信をする。一般的に言えば、音声分析装
置100によって実行される分析は、一定の時間間隔に
渡って行なわれる。音響的類似度測定装置106は、
「状態」と呼ばれている1組の予め定められた音声モデ
ル特性時間に対する特徴ベクトルについて、統計的分析
を実行する。時相音声モデル制約ブロック108は、こ
のモデルの状態の間の遷移に統計的制限を与えることに
よって、これらの状態の間の遷移を説明する。時相音声
モデル制約ブロック108は、フィードバック制御線路
110によって、これらの制限を音響的類似度測定装置
106へ通知する。音声分析装置100は、任意の標準
的な音声認識/話者検証構成体に応用することができる
ことを断っておく。最もよく用いられるものを2つ挙げ
れば、DTW(動的時間ウオピング)およびHMM(隠
れマルコフ・モデル)がある。 【0012】音声分析装置100は統計的分類装置を有
する。この統計的分類装置を用いて、音声データの分類
が行なわれる。具体的にいえば、音声分析装置の全体と
しての動作は、次の通りである。音声特徴測定装置10
4の入力102に音声信号が入力する。それからこの音
声信号は、フレームと呼ばれている与えられた時間間隔
にわたって、測定されるまたは検定される。典型的な場
合には、フレームは10ミリ秒ないし20ミリ秒の程度
である。このようにしてえられたフレーム測定は、音声
「特徴」(下記では「f」で示される)として知られて
いるベクトルの形をしている。この音声特徴ベクトル
は、その中に2〜200個の数値素子を有するベクトル
である。好ましい実施例では、音声特徴ベクトルは10
〜20個の要素を有する。音声特徴ベクトルの中の要素
のおのおのは、全体的にいえば、音声信号の振幅を周波
数の関数として(すなわち、スペクトル振幅表現)反映
する。特定の要素は、フレーム内の予め定められた時刻
における音声信号の静的振幅を反映するか、またはその
振幅の動的特性を反映する、すなわち、少数個のフレー
ム時間間隔に渡っての振幅差を反映するか、のいずれか
であることができる。当業者には周知の種々の形式の係
数を用いて、音声特徴ベクトルの中の信号振幅表現を変
更することができる。したがって、音声特徴ベクトルの
おのおのは、時間的に離散した点に対し、多数個の異な
る振幅表現を有することができる。 【0013】音響的類似度測定装置106は音声特徴ベ
クトル「f」のおのおのを受け取る。それから、音響的
類似度測定装置106は、この音声特徴を予め定められ
た統計的「基準」モデルと比較する。この比較は、統計
的モデルの予め定められた状態がこの音声特徴ベクトル
の下にある、確率的判定の形式で明示される。この確率
判定は「観察スコア」として知られている。この観察ス
コアは、下記で詳細に考察されるように、このモデルの
1つの特定の「状態」に対して生ずる。本質的には、音
声分析装置100が受け取った音声信号は、音声信号を
識別するために用意された統計的モデルに関連して説明
される。特に、データの予め定められたモデルを通し
て、音声特徴の最も確からしい「経路」およびしたがっ
た最良の「経路」を決定するために、この統計的段階が
実行される。例えば、音声分析装置100は数値記号
(例えば、「ワン」、「ツウ」、「スリー」など)の発
生を解釈するための音声認識モデルを供給することがで
きる。したがって、このモデルは一般的に数値記号を表
すであろう。そしてこのモデルは、類似の音声入力を表
すモデルを通しての経路(例えば、「ワン」に対する経
路、「ツウ」に対する経路、など)を有するであろう。
これらの経路のおのおのは、さらに「状態」に分割され
る。このことは、その経路の一部分(例えば、「ワン」
の中の音声「n」、または「ツウ」の中の音声「t」)
にわたっての音響学的モデル特性化である。特定のモデ
ル基準状態が与えられるならば、特徴ベクトル・フレー
ムの確率を定めるために、各状態に対し観察スコアが生
ずる。 【0014】時相音声モデル制約ブロック108は、一
連のフレームを処理するために、音響的類似度測定装置
106と相互通信を行なう。したがって、時相モデル制
約ブロック108は、根底にある統計的基準モデルによ
って表される時、状態遷移の考察を要求する。時相音声
モデル制御ブロック108は遷移確率を生ずる。これら
の遷移確率は、1つのモデル状態が逐次の入力フレーム
に対しまた別のモデル状態を伴う確率を反映する。基準
モデルと比較された時、もし音声信号が予め定められた
閾値以上の状態確率を生ずるならば、ブロック108は
制御線路110を通して音響的類似度測定装置106に
制御信号を送り、その状態に対する観察スコアの計算を
行なう。 【0015】例として、数値記号を分析する前記実施例
を考察しよう。さらに、入力102が受け取る音声信号
がワード「シックス」であるとしよう。ワード「シック
ス」の発生が受け取られる時、音声特徴測定装置104
は、前記のように、音声特徴ベクトルを生ずることを開
始する。特徴ベクトルのおのおのが受け取られる時、そ
の特徴が各基準モデル経路を与える適切な確率を生ずる
ために、音声類似度測定装置106は特徴ベクトルを基
準モデルを通る経路と比較する。最初の音声「s」に対
応するフレームが受け取られる時、その最初の子音音声
とその対応する音声特徴とにより、この音声信号は「シ
ックス(six)」に対するモデル経路か、または「セ
ブン(seven)」に対するモデル経路のいずれかを
表することができることを、音声類似度測定装置106
が高い確率で生ずるであろう。時間が経過しそして分析
が持続する時、入力信号「シックス(six)」の
「i」成分が処理されるであろう。この時点において、
時相音声モデル制約ブロック108は「シックス(si
x)」と「セブン(seven)」とに対する基準経路
と音声信号とに基づいて、遷移確率を生ずるであろう。
前者の基準の場合、「s」から「i」への遷移が高い遷
移確率を生ずるであろう。けれども「s」から「e」へ
の基準モデル経路はより低い確率を生ずるであろう。も
しこの確率が予め定められた閾値以下であるならば、時
相音声モデル制約ブロック108は、音響的類似度測定
装置106を制御して、音声信号に対し「セブン(se
ven)」に対する経路のこれ以上の比較を停止するで
あろう。 【0016】音声分析装置100の動作のさらに詳しい
説明は下記の通りである。けれども、説明の前に、ここ
で考察される種々の計算およびデータ管理は、当業者に
は周知の処理装置/メモリ装置のいずれでも実施するこ
とができることを断っておく。 【0017】図2は、図1に示された音声特徴測定装置
104の部品のブロック線図である。入力102は音声
パラメータ測定ブロック112に接続される。音声パラ
メータ測定ブロック112は音声特徴変換ブロック11
4に接続される。音声特徴変換ブロック114は前記で
考察された特徴ベクトルを生ずる。 【0018】音声特徴測定装置104の中の各部品の動
作は次の通りである。音声パラメータ測定ブロック11
2は、入力102を通して、音声信号を受け取る。予め
定められた時間のフレームに対し、それは典型的には1
0ミリ秒ないし20ミリ秒の程度であるが、音声パラメ
ータ測定ブロック112はパラメータ・ベクトルpを生
ずる。好ましい実施例では、パラメータ・ベクトルpは
10個ないし40個の要素を有する。これらの要素のお
のおのは、典型的な場合には、予め定められた周波数に
おける静的音響振幅測定または動的音響振幅測定のいず
れかに対応する。したがって、パラメータ・ベクトルp
の全体は、フレーム時間間隔の間の音声信号に対して行
なわれた多数個の測定を表す。パラメータ・ベクトルp
は、音声パラメータ測定ブロック112から音声特徴変
換ブロック114へ出力される。その後、パラメータ・
ベクトルpは、連続ランダム・ベクトルとしてモデル化
される。さらに詳しく云えば、これらのパラメータは多
変量ガウス分布として分布していると仮定される。すな
わち 【0019】 【数1】 【0020】である。ここで、mprはパラメータ・ベク
トル要素の平均値であり、Cprはパラメータ・ベクトル
要素の共分散行列であり、rはpを生ずるモデル状態で
ある。 【0021】音声特徴変換ブロック114は、プールさ
れた共分散モデルの下で、パラメータ・ベクトルpにつ
いて大域変換を実行する。定義により、プールされた共
分散モデルは、すべてのモデル状態rは同じ共分散行列
prを有することを仮定する。パラメータ・ベクトルp
の変換のおのおのは、次の式で定められる対応する特徴
ベクトルfを生ずる。 【0022】 【数2】f=Tp 【0023】ここで、Tはプールされた共分散モデルに
基づく大域変換行列である。 【0024】方程式(2) からえられる大域変換は、各パ
ラメータ・ベクトルを回転しかつ大きさを変える。具体
的にいえば、大域変換により、恒等共分散行列、すなわ
ち、非相関要素と単一分散を有する特徴ベクトルがえら
れる。その結果、特徴ベクトルは、平均mt と1の共分
散Ct とを有する多変量ガウス型として分布する。した
がって、特徴ベクトルは次のように表すことができる。 【0025】 【数3】 【0026】ここで、mfrは特徴ベクトル要素の平均値
であり、Cfrは特徴ベクトルのプールされた共分散行列
であり、rはfを生ずるモデル状態であり、Iは恒等行
列であって、方程式(2) に関連して考察された前記変換
に伴い結果としてえられた共分散である。 【0027】それから、音声特徴変換ブロック114
は、図1に示されているように、音声特徴ベクトルfを
音響的類似度測定装置106に送る。 【0028】音声特徴ベクトルfを受け取ると、音響的
類似度測定装置106は、基準モデル状態に関してその
特徴ベクトルの分析を開始するであろう。具体的には、
音響的類似度測定装置106は、状態基準ベクトルrが
与えられるならば入ってくる音声特徴ベクトルが説明さ
れる確率(すなわち、観察スコア)を生ずる。多変量ガ
ウス分布の下で、確率密度関数(PDF)は次のように
定義することができる。 【0029】 【数4】 【0030】ここで、Cfrは基準モデルの特定の状態に
対する特徴ベクトルの完全共分散行列であり、fは特徴
ベクトルであり、mfrは基準モデルの状態rに対するf
の平均値である。 【0031】計算効率の目的のために、確率密度関数は
確率の対数を使って表すことができる。したがって、方
程式(4) の自然対数をとれば、次の式がえられる。 【0032】 【数5】 【0033】ここで、− 1/2 (fT −mfr T )Cfr
-1(f−mfr)は確率の対数2次因子であり、log
〔(2π)-1/2|detCfr-1/2〕は共分散分散因子
「CDFfr」として定義される。 【0034】基準共分散行列Cfrは正定値対称行列であ
る。したがって、行列の逆は次のように変換される。 【0035】 【数6】Cfr -1=Tr Tr 【0036】ここで、Tr はさらに次の式で定義され
る。 【0037】 【数7】Tr =Sfrfr 【0038】ここで、Sfrはスケール因子の対角行列で
ある。このスケール因子のおのおのは、共分散行列Cfr
の固有値の平方根の逆数である。また、Ufrは共分散行
列C frに対する固有ベクトルを含むユニタリ行列であ
る。 【0039】方程式(7) を方程式(5) に代入すると、次
の式がえられる。 【0040】 【数8】 【0041】スケール因子行列Sfrは対角行列である。
したがって、その行列の転置行列は自分自身に等しい。
したがって、エラー・ベクトルEfrは次のように定義す
ることができる。 【0042】 【数9】Efr=Sfrfr(f−mfr) 【0043】方程式(9) を方程式(8) に代入すると、確
率密度関数の単純化された形がえられる。 【0044】 【数10】 【0045】したがって、方程式(10)から、確率密度関
数の対数は、スケール因子(すなわち、− 1/2 )とエ
ラー・ベクトルEfrによって表されるユークリッド距離
との積と、共分散分散因子とを加えたものによって表す
ことができることがわかる。観察スコアは、確率密度関
数の対数を特徴ベクトルのすべての要素にわたって加算
したものとして定義される。すなわち、観察スコアは次
の式によって表される。 【0046】 【数11】 【0047】ここで、nは特徴ベクトルの中の要素の数
である。 【0048】方程式(11)の解は、従来は、音声特徴ベク
トルを基準モデルに対して比較する正確な方法を表すも
のと認められていた。けれども、本発明により、方程式
(11)に示された加算を行なう前にエラー因子の2乗E
fri 2 を加重することによって、より最適な結果のえら
れることが発見された。具体的にいえば、2乗されたエ
ラー因子のおのおのが、プールされた共分散分散(コバ
リアンス・デイスパージョン)(すなわち、1)に対し
状態特殊分散(すなわち、固有値)の関数によって加重
されると、より精密な結果をうることができる。したが
って、改良された観察スコアは次の式によって決定され
る。 【0049】 【数12】 【0050】ここで、Wfri は状態rに対して生ずる特
徴ベクトルfの要素iのための加重因子である。ここ
で、Wfri は、そのプールされた分散に対する、状態r
のための特徴ベクトル要素iの分散の関数である。 【0051】典型的な場合には、Wfri は次のように定
義することができる。 【0052】 【数13】Wfri =Sfri -x 【0053】ここで、Sfri は、前記の方程式(7) に関
連して定義されたSfrのi番目の要素である。xは、好
ましい実施例では、下記で説明されるように、ゼロと1
の間の範囲内にある指数である。 【0054】方程式(12)から、エラー因子Efri 2 のお
のおのは相対分散因子の関数によって加重されることが
わかる。この因子は、プールされた共分散変換の後の特
徴の相対分散を表す。これは、固有ベクトルのおのおの
に対し、完全共分散モデル分散とプールされた共分散モ
デル分散との比である。 【0055】図3は、本発明によってえられた改良され
た結果のグラフである。具体的にいえば、図3のグラフ
の縦軸116は検出された音声分析エラーの数を示し、
また横軸118は次の式に従う加重因子の指数xを示
す。 【0056】 【数14】 【0057】図3に示されたグラフから、加重因子がな
い場合(すなわち、x=0の場合)、検出されたエラー
の総数は260の程度であることがわかる。これは、方
程式(11)の先行技術による計算の結果である。本発明に
より、最適の結果がx= 1/2 の場合にえられる。指数
がx= 1/2 である点において、140個以下のエラー
が検出されたことをグラフは示している。この結果、指
数が 1/2 の加重因子を用いることにより、エラーは約
半分になることがわかる。 1/2 の係数により最適の結
果がえられるけれども、0と1の範囲内の係数を用いる
ことにより、加重因子を用いない先行技術による解に比
べて、改良された特性のえられることを、図3はさらに
示している。 【0058】本発明のまた別の特徴として、方程式(14)
の和の中にそうでなければ含まれる選定された要素を除
去することにより、より精密な観察スコアを決定できる
ことが発見された。具体的にいえば、方程式(14)の和の
中から比較的高い分散(すなわち、または固有値)を有
する特徴要素を消去することにより、より精密な観察ス
コアが生ずる。 【0059】例えば、好ましい実施例では、18個の要
素を有する特徴ベクトルが観察スコアを決定するのに用
いられた。したがって、方程式(14)により、18個の積
が計算され、そしてそれらの和が計算される。けれど
も、最大の分散を有する4個の特徴ベクトル要素を消去
し、残りの14個の特徴ベクトル要素でより正確な観察
スコアをうるさいに、最大分散を有する4個の特徴ベク
トルの消去は経験的に決定された。したがって、比較的
小さな分散を有する14個の特徴ベクトル要素に対応す
る14個の積だけが加算された。その結果えられた観察
スコアは、すべての特徴ベクトル要素について完全加算
を行った場合に比べて、大幅に小さなエラーを生じた。
さらに注目すべきことは、これらの要素の除去は、計算
をより少なくしかつメモリが少なくて済むことである。 【0060】本発明が詳細に説明されたけれども、特許
請求の範囲に定められた範囲内において、種々の変更お
よび置き換えを行いうることを断っておく。具体的にい
えば、前記の説明は特定の音声認識に基づくものである
が、当業者にとって、同等な改良された結果をうるため
に、話者検証のために同じ原理を応用することができ
る。 【0061】以上の説明に関して更に以下の項を開示す
る。 (1) 複数個の要素を有する特徴ベクトルを受け取る段
階と、状態のおのおのが付随する平均ベクトルおよび共
分散行列を有する複数個の前記状態をそなえた基準モデ
ルを供給する段階と、選定された特徴ベクトル要素に対
応するエラー・ベクトルの2乗の選定された要素を生ず
る段階と、前記選定された要素のおのおのの相対分散に
比例する因子を有するそれぞれの加重因子によって前記
エラー・ベクトルの2乗の前記選定された要素のおのお
のを加重する段階と、を有する音声分析法。 【0062】(2) 第1項において、エラー・ベクトル
の選定された要素を生ずる前記段階が前記特徴ベクトル
の中の要素の総数に等しい多数個の要素を生ずる段階を
有する、前記音声分析法。 【0063】(3) 第1項において、前記エラー・ベク
トルが、前記基準モデルに付随する固有ベクトル行列の
選定された要素と、前記基準モデル共分散行列の平方根
の対応する選定された要素と、前記特徴ベクトルと基準
モデル平均ベクトルとの間の差の対応する選定された要
素と、の積として定義される、前記音声分析法。 【0064】(4) 第1項において、前記加重段階がゼ
ロと1の間の範囲内の予め定められた指数を有する加重
因子で加重を行なう段階を有する、前記音声分析法。 【0065】(5) 第1項において、エラー・ベクトル
の選定された要素を生ずる前記段階が前記特徴要素のお
のおのの分散を決定する段階と、比較的小さいな分散を
有する特徴要素に対応する要素だけが生ずるように特徴
要素の分散に基づいて選定された要素を生ずる段階と、
を有する、前記音声分析法。 【0066】(6) 第1項において、前記加重段階が 1
/2 という予め定められた指数を有する加重因子で加重
する段階を有する、前記音声分析法。 【0067】(7) 複数個の特徴要素を有する特徴ベク
トルを受け取る段階と、複数個の基準平均要素と、付随
する固有ベクトル行列と、付随する固有値行列とを有す
る基準モデル・ベクトルを供給する段階と、選定された
特徴ベクトル要素に対応し、かつ、前記基準モデル固有
ベクトル行列の選定された要素の積として定義されるエ
ラー・ベクトルの選定された要素と、前記基準モデル固
有値行列の平方根の対応する選定された要素と、前記特
徴ベクトルと前記基準モデル・ベクトルとの間の差の対
応する選定された要素と、の積として定義されるエラー
・ベクトルの選定された要素を生ずる段階と、前記エラ
ー・ベクトルの選定された要素の2乗を生ずる段階と、
前記選定された要素に対応する前記基準モデル固有値行
列の固有値を有しかつ1/2 の予め定められた指数まで
増大された加重因子によって前記エラー・ベクトルの選
定された要素の2乗のおのおのを加重する段階と、観察
スコアが生ずるように前記加重されかつ選定された要素
を加算する段階と、を有する音声分析法。 【0068】(8) 第7項において、エラー・ベクトル
の選定された要素を生ずる前記段階が前記特徴ベクトル
の中の要素の総数に等しい多数個の要素を発生する段階
を有する、前記音声分析法。 【0069】(9) 第7項において、エラー・ベクトル
の選定された要素を生ずる前記段階が前記特徴要素のお
のおのの分散を決定する段階と、比較的小さな分散を有
する特徴要素に対応する要素だけを生ずるように特徴要
素の分散に基づいて選定された要素を生ずる段階と、を
有する、前記音声分析法。 【0070】(10) 複数個の要素を有する特徴ベクトル
を受け取るための回路と、状態のおのおのが付随する平
均ベクトルおよび共分散行列を有する複数個の前記状態
をそなえた基準モデルを供給するための回路と、選定さ
れた特徴ベクトル要素に対応するエラー・ベクトルの2
乗の選定された要素を生ずるための回路と、前記選定さ
れた要素のおのおのの相対分散に比例する因子を有する
それぞれの加重因子によって前記エラー・ベクトルの2
乗の前記選定された要素のおのおのを加重するための回
路と、を有する音声分析を実行するための装置。 【0071】(11) 第10項において、エラー・ベクト
ルの選定された要素を発生するための前記回路が前記特
徴ベクトルの中の要素の総数に等しい多数個の要素を生
ずるための回路を有する、前記音声分析装置。 【0072】(12) 第10項において、前記エラー・ベ
クトルが前記基準モデルに付随する固有ベクトル行列の
前記選定された要素と、前記基準モデル共分散行列の平
方根の対応する選定された要素と、前記特徴ベクトルと
基準モデル平均ベクトルとの間の差の対応する選定され
た要素と、の積として定義される、前記音声分析装置。 【0073】(13) 第10項において、加重を行なうた
めの前記回路がゼロと1の間の範囲の予め定められた因
子を有する加重因子で加重を行なうための回路を有す
る、前記音声分析装置。 【0074】(14) 第10項において、エラー・ベクト
ルの選定された要素を生ずるための前記回路が前記特徴
要素のおのおのの分散を決定するための回路と、比較的
小さな分散を有する特徴要素に対応する要素だけを生ず
るように前記特徴要素の分散に基づいて選定された要素
を生ずるための回路と、を有する、前記音声分析装置。 【0075】(15) 第10項において、加重を行なうた
めの前記回路が 1/2 という予め定められた指数を有す
る加重因子で加重を行なう回路を有する、前記音声分析
装置。 【0076】(16) 複数個の要素を有する特徴ベクトル
を受け取るための回路と、平均と、固有ベクトル行列
と、固有値行列とを有する基準モデル・ベクトルを供給
するための回路と、前記特徴ベクトル要素に対応し、か
つ、前記基準モデル固有ベクトル行列の前記選定された
要素と、前記基準モデル固有値行列の平方根の対応する
選定された要素と、前記特徴ベクトルと前記基準モデル
・ベクトル平均との間の差の対応する選定された要素
と、の積として定義される、エラー・ベクトルの選定さ
れた要素を生ずるための回路と、前記エラー・ベクトル
の選定された要素の2乗を生ずるための回路と、前記選
定された要素に対応する前記基準モデル固有値行列の固
有値を有しかつ1/2 の予め定められた指数まで増大さ
れた加重因子によって前記エラー・ベクトルの選定され
た要素の2乗のおのおのに加重を行なうための回路と、
観察スコアが生ずるように前記加重された要素の加算を
行なうための回路と、を有する音声分析を実行するため
の装置。 【0077】(17) 第16項において、エラー・ベクト
ルの選定された要素を生ずるための前記回路が前記特徴
ベクトルの中の要素の総数に等しい多数個の要素を生ず
るための回路を有する、前記音声分析装置。 【0078】(18) 第16項において、エラー・ベクト
ルの選定された要素を生ずるための前記回路が前記特徴
要素のおのおのの分散を決定するための回路と、比較的
小さな分散を有する特徴要素に対応する要素だけが生ず
るように前記特徴要素の分散に基づいて選定された要素
を生ずるための回路と、を有する、前記音声分析装置。 【0079】(19) 音声分析装置100を有する改良さ
れた音声分析法および音声分析装置がえられる。音声分
析装置100は、入力102で、音声信号を受け取る。
この音声信号は、音声特徴測定装置104によって測定
されおよび変換される。その後、音声特徴測定装置10
4からの出力特徴ベクトルが、基準モデルに対し、統計
的分類方式で比較される。音響的類似度測定装置106
は統計的測定を実行し、一方、時相音声モデル制約ブロ
ック108は、測定装置106によって生じた確率測定
に対し、遷移確率を要求する。音響的類似度測定装置1
06は、音声特徴ベクトルと、分析のさいに用いられる
基準ベクトルと、の間で定められるエラー・ベクトルの
加重分析を実行する。
【図面の簡単な説明】 【図1】音声認識装置のブロック線図。 【図2】図1に示された音響的類似度測定装置の部分装
置のブロック線図。 【図3】本発明の加重特性からえられる音声分析エラー
の数が先行技術による音声分析に比べて減少することを
示すグラフの図面。 【符号の説明】 102 音声信号入力 104 音声特徴測定装置 106 音響的類似度測定装置 108 時相音声モデル制約ブロック
フロントページの続き (56)参考文献 特開 昭59−171999(JP,A) 特開 昭60−209794(JP,A) 特開 平2−127698(JP,A) 特公 昭61−30280(JP,B1) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 JICSTファイル(JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 (イ)状態を有する基準モデルを提供す
    る段階であって、該状態の各々は関連する特徴ベクトル
    確率密度関数を持ち、該特徴ベクトル確率密度関数は平
    均ベクトルと共分散行列を持つ多変量ガウスであって、
    該共分散行列Cは全ての前記状態に対して同一である、
    前記基準モデルを提供する段階と、 (ロ)入力特徴ベクトルを受け取る段階と、 (ハ)前記状態の各々毎に、受け取った入力特徴ベクト
    ルに対する観察スコアを計算する段階であって、該観察
    スコアがベクトルS1-XU(f−mr)の成分の2乗の和
    を含み、ここでfは入力特徴ベクトルであり、mrは状
    態rに対する平均ベクトルであり、Sは対角行列であ
    り、UはUttSUが共分散行列Cの逆を近似するユニ
    タリ行列であり、Xは0と1の間の数である、前記計算
    する段階と、 (ニ)段階(ハ)からの前記観察スコアを使って前記入
    力特徴ベクトルを前記基準モデルの状態に関して分析す
    る段階と、 を有する音声分析法。
JP07179791A 1990-04-04 1991-04-04 音声分析の方法と装置 Expired - Fee Related JP3373532B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US50508590A 1990-04-04 1990-04-04
US505085 1995-07-21

Publications (2)

Publication Number Publication Date
JPH04223498A JPH04223498A (ja) 1992-08-13
JP3373532B2 true JP3373532B2 (ja) 2003-02-04

Family

ID=24008939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07179791A Expired - Fee Related JP3373532B2 (ja) 1990-04-04 1991-04-04 音声分析の方法と装置

Country Status (3)

Country Link
EP (1) EP0450367B1 (ja)
JP (1) JP3373532B2 (ja)
DE (1) DE69131886T2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5333236A (en) * 1992-09-10 1994-07-26 International Business Machines Corporation Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models
JP2003108187A (ja) * 2001-09-28 2003-04-11 Fujitsu Ltd 類似性評価方法及び類似性評価プログラム

Also Published As

Publication number Publication date
JPH04223498A (ja) 1992-08-13
EP0450367A2 (en) 1991-10-09
EP0450367A3 (en) 1993-06-02
EP0450367B1 (en) 2000-01-05
DE69131886D1 (de) 2000-02-10
DE69131886T2 (de) 2004-12-09

Similar Documents

Publication Publication Date Title
US6493667B1 (en) Enhanced likelihood computation using regression in a speech recognition system
EP1515305B1 (en) Noise adaption for speech recognition
US6260013B1 (en) Speech recognition system employing discriminatively trained models
JP4218982B2 (ja) 音声処理
EP0387791B1 (en) Method and apparatus for time series signal recognition with signal variation proof learning
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
EP1995723B1 (en) Neuroevolution training system
US20190385628A1 (en) Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program
US5345535A (en) Speech analysis method and apparatus
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JPS61262799A (ja) ヒドン形式マルコフモデル音声認識方法
JPH11242494A (ja) 話者適応化装置と音声認識装置
CN102238190A (zh) 身份认证方法及系统
US7552049B2 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JPH05257492A (ja) 音声認識方式
JP5060006B2 (ja) 音声認識システムの自動的再学習
JP2002156993A (ja) 複数の学習話者を表現する固有空間の特定方法
US6076058A (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
Chaudhari et al. Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition
JP3373532B2 (ja) 音声分析の方法と装置
US6961703B1 (en) Method for speech processing involving whole-utterance modeling
Maier et al. An investigation into a simulation of episodic memory for automatic speech recognition.
EP0435336B1 (en) Reference pattern learning system
Quillen Autoregressive HMM speech synthesis
Teng et al. Rapid speaker adaptation by reference model interpolation

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081122

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091122

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091122

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees