JP2003524218A - Tesparパラメータでトレーニングされたhmmを用いる発話処理 - Google Patents

Tesparパラメータでトレーニングされたhmmを用いる発話処理

Info

Publication number
JP2003524218A
JP2003524218A JP2001562483A JP2001562483A JP2003524218A JP 2003524218 A JP2003524218 A JP 2003524218A JP 2001562483 A JP2001562483 A JP 2001562483A JP 2001562483 A JP2001562483 A JP 2001562483A JP 2003524218 A JP2003524218 A JP 2003524218A
Authority
JP
Japan
Prior art keywords
signal
hmm
modeling
time
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001562483A
Other languages
English (en)
Inventor
レジナルド アルフレッド キング,
Original Assignee
ドメイン ダイナミックス リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドメイン ダイナミックス リミテッド filed Critical ドメイン ダイナミックス リミテッド
Publication of JP2003524218A publication Critical patent/JP2003524218A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

(57)【要約】 本発明の信号モデリング方法は、統計的信号モデリングシステムに、決定論的モデリングシステムの出力を入力することにより、全体的演算オーバーヘッドの低減を実現する工程を包含する。また前記統計的信号モデリングシステムが、隠れマルコフモデリングシステム(HMM)を含み、前記決定論的モデリングシステムが、波形整形記述子システム(WSD)を含む。また前記WSDシステムが時間符号化および時間符号化信号処理および認識(TESPAR)システムを含む。

Description

【発明の詳細な説明】
【0001】 (発明の分野) 本発明は信号処理構成に関し、より具体的には、発話認識システム、言語識別
システムおよび発話検証(verification)システムにおいて用いら
れる信号処理構成に関する。
【0002】 (発明の背景) 信号処理の分野において、信号モデリングには2つのアプローチがあると考え
られ得る。第1のアプローチは決定論的(deterministic)アプロ
ーチとして公知であり、第2のアプローチは統計学的アプローチとして公知であ
る。
【0003】 決定論的モデリングは公知の物理成分によって信号を特徴付けすることを含む
。統計学的モデリングは、ガウスプロセス、ポアソンプロセスおよびマルコフプ
ロセスなどの確率論的プロセスを用いて、数個の物理成分によって完全に特徴付
けされるにはあまりに複雑すぎる現実の世界のイベントを特徴付ける。
【0004】 決定論的モデリングは、波形形状記述子(Waveform Shape D
escriptor)(WSD)の使用を含み、WSDは次いで、時間符号化お
よび時間被符号化信号処理および認識(Time Encoding and
Time Encoded Signal Processing and R
ecognition)(TESPAR)を含む。TESPARは、英国特許明
細書第2020,517号および第2,268,609号、ならびに欧州特許明
細書第0141497号に記載されている。
【0005】 発話認識、言語識別および話者検証の分野において、特に、隠れマルコフモデ
ル(Hidden Markov Model)(HMM)として公知であるマ
ルコフプロセスを用いて統計学的信号モデリングを用いて、現実世界の信号を特
徴付けることが公知である。
【0006】 HMMを用いる主な利益は以下を含む。これらは、 a)時間可変信号の特徴を捉える際のその有効性 b)未知の信号力学を統計学的にモデル化するその能力 c)マルコフプロセスの固有の統計学的特性に起因したその演算の容易さであ
る。
【0007】 HMMの使用のより詳細な開示は、D.H.KilおよびS.B.Slinに
よる「Pattern Recognition and Predictio
n with application to Signal Charact
erisation」(AIP Press、ISBN 1−56396−47
7−5)に見られる。
【0008】 HMMを信号(特に、発話認識および話者検証で用いられる信号)を特徴付け
する際に用いると、比較的成功百分率を高くすることができるが、依然、より高
い成功百分率が必要である。
【0009】 このより高い成功百分率を達成する際の問題の1つは、上述の従来技術のアプ
ローチを改良できたとしても、演算オーバーヘッドが著しく増加するという問題
が生じる。
【0010】 したがって、本発明は、信号識別の成功百分率を向上させること、演算オーバ
ーヘッドを許容されないレベルにすることなく、HMMなどの統計学的モデリン
グプロセスを用いることに関する。
【0011】 HMMなどの上述の統計学的モデリングプロセスを利用する従来技術において
、統計学的モデリングプロセスに対する入力は、基本的に、周波数領域における
エネルギー密度スペクトルである。
【0012】 (発明の簡単な要旨) 本発明によれば、信号モデリングの方法は、周波数領域内の統計学的信号モデ
リングシステムに、時間領域における決定論的モデリングシステムの出力を入力
することを含む。
【0013】 この構成によって、信号認識システム(通常、発話認識)の全体的な正確さは
、演算オーバーヘッドを許容され得ないレベルまで上げることなく向上する。
【0014】 本発明を実行する方法について、例示だけを目的として、添付の図面を参照し
て説明する。
【0015】 本発明は、発話認識システムに対するそのアプリケーションに関連して説明さ
れるが、言語識別および話し手確認を含む他の領域、すなわち、一般的な発話処
理におけるアプリケーションを有する。本発明は、さらに、一般的な信号処理を
含む他の分野におけるアプリケーションを有し得る。
【0016】 (図1) 図1は、典型的な従来技術の構成を図によって示す。ここで、統計的モデリン
グプロセス(典型的には、隠れマルコフモデル(Hidden Markov
Model)(HMM)100)を用いて、110において、短い間隔の発話入
力を処理する。
【0017】 統計的モデリングプロセス100は、訓練段階によって、確率の値をすでにそ
の中に作成している。最適の組み合わせを得るために、110における発話入力
がこの確率の値と比較される。
【0018】 HMM100に対する入力は、周波数領域エネルギー密度スペクトル符号化構
成120から行われる。
【0019】 図1の従来技術の構成において、入力発話データは、分光写真のいくつかの形
式に変換される。すなわち、固定された時間間隔(典型的には、10〜20ms
)にセグメント化される。このような時間スライスのそれぞれのエネルギー密度
プロフィールは、多数の所定の固定周波数バンドにわたって計算される。
【0020】 通常使用されるHMMの形式は、N状態の左右HMMモデル(N State
Left to Right HMM model)として公知の形式である
。スペクトルの時間スライスまたは「機能ベクトル(feature vect
or)」は、おおよそのフレーム速度において計算され、左右HMMモデルへと
通過する。その結果、音声入力に関連する一連の状態が示される。
【0021】 N状態の左右HMMモデルの利点は、明確に時間によって異なる特性を有する
信号を容易にモデリングするその能力である。
【0022】 120における周波数領域符号化は、典型的には、離散フーリエ変換を利用す
ることにより達成される。
【0023】 「エネルギー密度スペクトル」を介する信号の周波数領域表現(通常、信号の
「スペクトル」と呼ばれる)は、従来、信号の変化を表す主要な方法であった。
この方法は、いわゆる「フーリエ変換」(FT)を用い、デジタル領域において
、いわゆる「離散フーリエ変換」(DFT)を用いる。
【0024】 信号の特徴づけおよびモデル化のためにフーリエ変換を使用することには制限
がある。例えば、無限数の異なる信号は、同じスペクトルを有し得る。このこと
は、図7に示す。
【0025】 この図面では、3つの異なる形状の信号が示されており、それらの各々は、同
じスぺクトルエネルギーを有する。すなわち、3つの曲線の各々の下の面積は、
実質的に同じである。
【0026】 よって、スぺクトログラム、および適切なフレームレートで計算された分光学
的特徴ベクトルの使用は、HMMで用いられるルーチン等の統計学的信号モデル
化ルーチンに関するいずれの信号の非常に制限された表現である。同様のことが
、全ての統計学的信号モデル化ルーチンについて言える。
【0027】 HMMに関する1つの欠点は、モデルパラメータの統計学的に有効な評価を容
易にするための多数のトレーニングデータに関する要件である。モデルサイズが
大きくなるにつれ、統計学的に粗いモデルを得るために必要なトレーニングデー
タの量が急速に増加する。一般に、HMMの質は、以下の実際的な考慮すべき事
項により制約される。
【0028】 1) 通常、有限数の観測サンプルしか利用できない。
【0029】 2) モデルのサイズは、特徴付けが試みられる、物理的な減少に依存する。
【0030】 それゆえ、不十分なトレーニングサンプルに適応するためにモデルサイズを縮
小することにより、しばしば、受容できない大きなモデル化エラーが生じ得る。
不十分な数のトレーニングサンプルにより生じるモデル化エラーに対処するため
に、種々の方法が提案されてきたが、これらは、一般に、計算上のオーバーヘッ
ドの受容できないほどの増加を伴う。
【0031】 図1、および特に、統計学的なモデル化プロセス100に関連する上記の説明
は、左HMMおよび右HMMに関するものであったが、他のバージョンのHMM
も用いられ得る。特に、いわゆる、エルゴードHMMが利用可能であり得る。
【0032】 エルゴードHMMモデル化プロセスを用いることにより、トレーニングデータ
は、複数倍の信号に分割され、ベクトル量子化が、観測シーケンス全体に実施さ
され、別個のクラスタまたは状態が見出される。このモデルは、各クラスタに該
当するトレーニングトークンに基づいて、観測統計値を導出し、観測確率密度が
、多変量のガウスモデル(MVG)、またはガウス混合モデル(GMM)のいず
れかとしてモデル化される。観測確率がいかにして特徴付けられるかに依存して
、状態がクラスタ中心、または複数のクラスタを含む混合物の中心から構成され
得る。MVGとGMMとの間の選択は、観測モデルパラメータ数の増加によるG
MMのモデル化の複雑性と、状態数の増加によるMVGの計算上の複雑性との間
のトレードオフに依存する。
【0033】 いくつかの用途に対する状態遷移特性が柔軟であるため、エルゴードHMMモ
デルは、左−右HMMと比較して、より高い計算コストで、所望の信号のよりロ
バストな評価を提供する傾向がある。この余分なコストが、エルゴードHMMの
使用に不利に作用する要因である。
【0034】 よって、エルゴードHMMが用いられるが、上述の関連する受容できない計算
上のオーバーヘッドのコストが増加しない場合、著しい利益が得られる。
【0035】 (図2) 本発明による方法およびシステムでは、図1に示す公知の構成が、統計学的モ
デル化プロセス200への入力が、通常、TESPARとして知られる、時間領
域波形形状記述子(WSD)符号化システムにより提供される、構成により置き
換えられる。
【0036】 TESPAR符号化システムの詳細は、英国特許第2,020,517号明細
書で見られ、本明細書中において、この文書を参考のために援用する。
【0037】 時間符号化信号処理および識別(TESPAR)符号化処理により、波形形状
既述子(WSD)から導出される、信号モデル化データが生成される。WSD符
号化により、同じエネルギーレベルを有する異なる波形形状が、図5に示す3つ
の波形が異なるWSDデータ表現を有するように、異なる信号特性を生成する。
【0038】 よって、音声波形、および他の時間により変化する波形は、TESPAR W
SDにより単純に特徴付けられ得る。
【0039】 TESおよびTESPARの場合、波形形状は、持続時間,形状、および波形
のゼロ点間の大きさに関して定義付けされる。任意の所与の信号、例えば、音声
に関して、これらの形状は、標準形状のカタログに量子化されたベクトルであり
、全ての可能な個々の形状のライブラリを、音声に関する30〜40の入力のア
ルファベットに低減される。
【0040】 これを達成するために必要とされる処理能力は、スペクトログラムの単一のス
ぺクトルフレームの離散フーリエ変換(DFT)を計算するために必要な能力よ
りも、数オーダー低い。
【0041】 TESPAR形状記述子を使用すると、音響イベントのセグメンテーションが
容易に達成することができる。このことは、欧州特許明細書0338035によ
り詳細に記載される。欧州特許明細書0338035は本明細書中で参考として
援用される。
【0042】 本発明は、例えば、TESPAR符号化構成220によって生成される行列が
トレーニングおよびロバストな認識の両方のための統計モデルリングプロセス(
HMM)200への入力のための理想のベクトルへ容易に変換され得る。
【0043】 行列は、SまたはAまたはより高次のいわゆるDZ行列であり得る。
【0044】 SおよびAに関する限り、これらは、例えば、So、Sm、Sa、Sb...
などであり得、各ネットワークは、分類されるべき波形の斜めまたは直交の特徴
(すなわち、シンボル周波数、振幅、大きさ、持続時間など)を強調するように
生成される。DZ行列を利用して、ピッチ不変データ表現も提供し得る。ピッチ
不変データ表現は、不特定話者連続および結合単語認識のためのHMMに応答す
るのに特異的かつ格別に有利である。
【0045】 また、英国特許2,268,609(この書類を本明細書中で参考として援用
する)において示されるように、TESPARデータは、すべての人工ニューラ
ルネットワーク(ANN)アルゴリズムへの最適な入力を提供するために時変信
号を符号化するように理想的に適合化される。このように、波形形状記述子(W
SD)の一例としてのTESPARによって、追加のANNアルゴリズムを、例
えば、音声正規化、ノイズ低減、およびこれらならびに非線形モデルのためのパ
ラメータ推定において有効に使用することが可能となる。
【0046】 WSDデータに関連する非常に経済的なデータ構造によって、斜めまたは直交
データセットの多重並列分類を得ることができる。これらのデータセットは、H
MM分類器の性能を強化するために、例えば、単純な採決などのデータ融合アル
ゴリズムに並列に結合され得る。
【0047】 WSDを使用する音響信号のセグメンテーション(欧州特許明細書03380
35参照)は、HMMが常に入力信号を分類する能力を向上させる手段として信
号セグメンテーションを強化するための様相フィルタリングまたは媒体フィルタ
リングなどの種々の数値フィルタリングオプションポスト符号化によってさらに
強化され得る。
【0048】 (図3) 図3において、ブロック300は図1における100と等価であり、かつブロ
ック320は図1における120と等価である。
【0049】 ブロック300は、HMMであり、321によって入力されたデータをトレー
ニングすることによって構成され、最適な意味で所望の信号をモデリングするた
めの1セットのパラメータによって構成される。
【0050】 これらの最適化されたモデルパラメータのセットは、305で示され、そして
次いで最適状態シークエンス推定器306に入力され得る。最適状態シークエン
ス推定器306にはまた、目的のテストデータ322が入力される。
【0051】 305でのトレーニングデータ321のモデルパラメータへの変換を以下に記
載する。
【0052】 321でのトレーニングデータは、N個の異なる状態に分割され、そしてN個
の状態の1つに同様の統計的性質を有する観測ベクトルが割り当てられる。これ
は、301で生じる。
【0053】 Nクラスタを形成するために各状態についてベクトル定量を使用する。観測ト
ークンは、各クラスタに割り当てられ、そしてこれらは、Mモードのガウス混合
モデル(GMM)における各モードの多変量ガウス確率密度を指示する。GMM
のパラメータは、その特定の状態に割り当てられた観測トークンから推定される
。モデルパラメータは、イベントおよび遷移発生を計数することによって計算さ
れる。これもまた、301で生じる。
【0054】 トレーニング手順は、2つの別々の段階に分割されると考えられ得る。この2
つの段階は、301を参照してすでに記載された初期化および以下に記載する再
推定である。
【0055】 初期パラメータ推定プロセスは、信号統計の粗い推定を得るための、観測ベク
トル空間の分割工程およびトレーニングサンプル発生回数を計数する工程を含む
。最推定段階において、モデルパラメータは観測確率の値を最大化するために繰
り返し更新される。これは、所定の収束判定基準を満たすまで各繰り返しにおい
て観測確率を推定することによって達成される。これらの収束判定基準は図3の
304において示される。
【0056】 302および303の目的は、再推定手順を細分化することである。
【0057】 一般に、固定セットのトレーニング観測が与えられる場合、グローバル最大値
ポイントに収束する再推定解は、解析解がないので到達するのが非常に難しい。
【0058】 したがって、ローカル最大値の1つに収束するパラメータ推定を含む次善の解
を目指すことが公知である。これは、多くの方法で達成され得る。
【0059】 図3に示される構成において、再推定は、303において示されるBaum−
Welchアルゴリズムを一緒に伴うセグメントk手段(SKM)によって有効
にされる。
【0060】 特定の反復の後、304における変換基準が満たされない場合、Baum−W
elchアルゴリズム303からの出力は、SKMアルゴリズム302およびボ
ーム−ウェルチアルゴリズム303を通じて再び供給されるべく307を介して
再利用される。出力が305に供給されるとき、304において所望の収束基準
が満たされるまでこの反復過程が継続される。
【0061】 上述の構成は公知であり、この構成の、関連する数学を含むより詳細な処理は
、刊行物Pattern Recognition And Predicti
on with Applications to Signal Chara
cterisation(AIP Press、American Insti
tute of Physics出版)のDavid H.KilおよびFra
nces B.Skinらによる「Hidden Markov Models
」と題される第5章に見出され得る。
【0062】 322における最適状態のシーケンス評価器306へのテストデータ入力は、
305からのモデルパラメータと比較される。
【0063】 306において最も可能性の高い状態のシーケンスが評価され、監視シーケン
ス322およびモデルパラメータ305のセットに付与される。
【0064】 これは、動的計画法に基づくヴィテルビ復号アルゴリズムの使用によって達成
される。また、この構成は、従来技術から公知であり、これに関するさらなる詳
細は、KilおよびSkinらによる上述の刊行物に見出され得る。
【0065】 (図4) 図4は、本発明による構成を開示する。図4に示され、参照番号400および
参照番号401〜407によって識別される構成のその部分は、図3において3
00および参照番号301〜307で示される構成と同じである。従って、図3
において300および図4において400で示される構成は、隠れたマルコフモ
デル(HMM)を含む。
【0066】 しかしながら、図3の、公知の周波数領域エネルギー密度スペクトル符号化入
力321、322は、時間領域波形整形記述子(WSD)符号化構成420、4
22と置き換えられる。
【0067】 (図6) 図6の構成において、エルゴードHMM600は、図2に200で示されるユ
ニットに取って換わる。図6において、図2のユニット220は620と表され
る。
【0068】 前に示したように、本発明は、左右HMMと比較して、より高いエルゴードH
MM600の計算費用が軽減されることを可能にし、従って、所望の信号のより
ロバストな評価を提供することができる限りは、エゴードHMMに本来備わって
いる、左右HMMに対する優位性の結果として、このエゴードHMMをより魅力
的にするという点で特に有用である。
【0069】 エゴードHMMは、時には、完全接続されたHMMと呼ばれる。これは、あら
ゆる状態が有限数の他のあらゆる状態によって達成され得るからである。その結
果、状態遷移マトリクスAは、正の係数で完全にロードされる傾向がある。
【0070】 エゴードHMMおよび左右HMMは、時間と監視ベクトル空間を別々に分ける
【0071】 左右HMMにおいて、トレーニングデータは、各時間セグメントが状態を構成
する複数の時間セグメントに分けられる。各状態についての監視の確率密度は、
各時間セグメントの一部である監視から引出され、通常、ガウスモデルに特徴づ
けられる。
【0072】 エルゴードHMMとは逆に、トレーニングデータは、複数の時間セグメントに
分割されないが、その代わりに全監視シーケンスにおいてベクトルの量子化が実
行され、別個のクラスタまたは状態を見出す。
【0073】 両方のケースにおいて、エルゴードHMMおよび左右HMM、SKMおよびB
aum−Welchアルゴリズムは、図3との関連で既に示された目的で用いら
れる。
【0074】 (図7〜図16) 図7〜図16を参照して、TESPAR音声認識システムの例を説明する。こ
のようなシステムを、図2の参照符号220および図6の620に示す。
【0075】 時間符号化された発話は、発話波形符号化の形状をしている。この発話波形は
連続する真のゼロ(real zero)の間のセグメントに分解される。例と
して、図7は、ランダム発話波形を示し、矢印はゼロと交差する点を示す。この
波形の各セグメントについて、符号は単一のデジタルワードによって形成される
。このワードは、このセグメントの2つのパラメータ、つまりその量子化された
持続時間および形状、に由来する。持続時間の測定は簡単であり、図8は、各連
続するセグメント、2、3、6等の、各連続するセグメントについて量子化され
た持続時間を示す。
【0076】 形状記述(shape description)のための好適なストラテジ
ーは、波形のセグメント内における正の極小値または負の極大値の数に基づいて
、波形のセグメントを分類することであるが、他の形状記述もまた適切である。
これを図9において、0、0、1、2、0と示す。その後、これら2つのパラメ
ータはマトリクス状に複合されて、数字シンボルからなる固有のアルファベット
を生成する。図10は、このようなアルファベットを示す。行に沿って、「S」
パラメータは極大値または極小値の数を示し、列に沿って、Dパラメータは量子
化された持続時間を示す。しかし、この自然に発生するアルファベットは、以下
の解析に基づいて簡略化されている。経済的符号化のために、このプロセスによ
って生成される、自然に発生する識別可能なシンボルの数は、非線形の様態でマ
ッピングされて、符号記述子(または波形記述子WSD)のかなり小さな数(「
アルファベット」)を形成し得ることが音響上わかっており、時間符号化された
発話フォーマット内に生成されたそのような符号またはイベント記述子が、音声
認識(Voice Recognition)のために用いられる。発話信号が
バンド制限型である場合(例えば3.5kHzに制限される場合)、より短いイ
ベントのいくつかは極大値または極小値を有し得ない。好適な実施形態において
、量子化は20キロビットで実行される。サンプル、つまり3個の20キロビッ
トのサンプルが、3.3kHzの場合の2分の1サイクルを示し、30個の20
キロビットのサンプルが、300HZの場合の2分の1サイクルを示す。
【0077】 時間符号化された発話フォーマットに関連する別の重要な局面は、低周波数帯
は高周波数帯ほど精密に量子化する必要がない点である。
【0078】 従って、図10を参照すると、3つの異なる持続時間を有するが極大値および
極小値を有さない初めの3つのシンボル(1、2、および3)が同じ記述子(1
)を割り当てられ、シンボル6および7が同じ記述子(4)を割り当てられ、シ
ンボル8、9および10が形状記述の無い同じ記述子(5)および1つの極大値
または極小値を有する記述子(6)を割り当てられている。従って、この例にお
いて、約26個の記述子における発話の記述で終了する。
【0079】 これらの記述子が音声認識においてどのように使用されるかを説明する。一例
として、現時点で、所与の発話者によって話された単語を規定する記述子を考察
するのが適している。例えば、「SIX」という単語について考える。図14に
おいて、時間符号化された、所与の発話者によって話されたこの単語についての
発話シンボルストリームの一部を示す。これは、図10に示すアルファベットを
利用して図11および図12を参照しつつ説明したエンコーダのようなエンコー
ダによって生成されるシンボルストリームを示す。
【0080】 図14は、単語「SIX」についてのシンボルストリームを示し、図15は、
単語「SIX」についての時間符号化された発話イベントの二次元化されたプロ
ットまたは「A」マトリクスを示す。従って、第1の数239は、別の記述子(
1)が続く記述子(1)の合計数を示す。図14において、「1」はそれぞれ記
述子(1)が続く記述子(2)の数を示し、「4」は(2)等が続く記述子(1
)の合計数を示す。
【0081】 このマトリクスは、単語または発話者を識別するために使用される基準の基本
セットを提供する。マトリクスを含むイベント間の多くの関係が、その単語の発
音における所定の変化に対する免疫がある。例えば、マトリクス内の最も重要な
イベントの位置は、その単語の長さを、「SIX」(通常の発声)から、より長
く引き伸ばした様態での発声「SI..IX」に変更することに対する免疫があ
る。それは単に、発声されたままの、時間符号化された発話イベントのプロフィ
ールに過ぎず、この場合、それは変化し、そして、他の関係が発話者を識別する
【0082】 TESシンボルストリームが有利により高い次元のマトリクスへと形成されて
もよく、単純な二次元の「A」マトリクスをここで説明したのは、単に説明を目
的としたものであることに留意されたい。
【0083】 図11および図12に、音声認識システムの流れ図を示す。
【0084】 マイクロフォンテープ記録または電話線からの発話の発声が、「IN」におい
て、フィルタを含む前処理ステージ1101に供給されて、例えば300Hz〜
3.3kHzの信号のスペクトル内容を制限する。使用されるマイクロフォンの
特性に基づいて、偏微分/部分積分(partial integration
)等のいくつかの追加の前処理を行って、入力された発話に所定のスペクトル内
容を与える必要があるかもしれない。AC結合DC除去もまた、発話を符号化(
TES符号化)する時間よりも前に要求され得る。
【0085】 図12に、フィルタリングの後に、DC除去段1202と、一次反復フィルタ
1203と、周囲雑音に依存して、DC閾値を超える場合にのみ応答する周囲雑
音DC閾値感知段1204とがある、1つの構成を示す。
【0086】 その後、信号は、TES符号器1105に入る。TES符号器1105の一実
施形態を図15に示す。図15を参照すると、帯域が限定され、予備処理された
入力発話が、A/D変換器1506、適切なロジックRZロジック1507、R
Zカウンタ1508、極値ロジック1509、ならびに正の最小値および負の最
大値カウンタ1510を介して、TESシンボルストリームに変換される。プロ
グラマブル読み出し専用メモリ1511、および関連付けられたロジックは、図
10のTESアルファベットを含むルックアップテーブルとして機能し、a)0
交差のカウント、ならびに、例えば、単語「SIX」の一部分について図14に
示したようなb)正の最小値および負の最大値によってアドレスされたことに応
答して、「n」ビットのTESシンボルストリームを生成する。
【0087】 従って、図10の符号化構造は、TES符号器1105のアーキテクチャにプ
ログラムされる。TES符号器は、図10に示すDS組合せを識別し、これらを
、適切に図10に示すシンボルに変換し、符号器5の出力で出力し、その後、T
ESシンボルストリームを形成する。
【0088】 クロック信号生成器12は、ロジックを同期化する。
【0089】 TESシンボルストリームから、この実施例においては、二次元「A」マトリ
クスである、適切なマトリクス形状パターン抽出器1131(図11)が作られ
る。Aマトリクスは、形状パターン抽出器ボックス1131である。この場合、
抽出されるパターンまたは抽出される形状は、Aマトリクスである。これは、T
ESシンボルの二次元マトリクス表現である。単語「SIX」の発話の終わりに
、形成された二次元のAマトリクスは、以前に生成され、参照パターンブロック
1121に格納された参照パターンと比較される。この比較は、形状パターン比
較ブロック1141、テストパターンと比較されている後続の参照パターン、ま
たは、代替的に、参照パターンのシーケンスと比較されているテストパターンに
おいて行われ、いずれの参照パターンがテストパターンと最も良好に適合するか
決定される。この機能、および図11のフローチャートにおいて、破線L内に示
す他の機能は、適切なコンピュータ上でリアルタイムに実行される。
【0090】 マトリクス構成1131の詳細なフローチャートを図16に示す。図16にお
いて、ボックス1634および1635は、発話シンボル変換または図11のT
ES符号器1105に対応し、図11の形状パターン抽出器またはマトリクスは
、図16のボックス1632および1633に対応する。図16のフローチャー
トは、以下に示すように動作する。
【0091】 1.入力サンプル[X]であるとして、「中心が切り取られた」入力を定義
する x≠0の場合 [n’]= =+1(ただし、x=0およびx’n−1>0) =−1(ただし、x=0およびx’n−1>0) 2.「エポック」を、等号の連続的なサンプルとして定義する 3.「差」[d]を定義する d=x’=x’n−1 4.sgn(d+1)sgn(d)≠e=正の記号が与えられたsn’
の場合、 値eで、nでの「極値」を定義する。
【0092】 5.極値のシーケンスから、絶対的な値の差が、定められた「変動誤差」より
小さい場合にその対を消去する。
【0093】 6.TES解析からの出力は、新たなエポックの第1のサンプルで発生する。
TES解析からの出力は、含まれているサンプル数および含まれている極値の数
からなる。
【0094】 7.両方の数が所与の範囲内である場合、TES数は、シンプルマッピングに
従って割り付けられる。これは、図16のボックス1634「スクリーニング」
において行われる。
【0095】 8.極値の値が最大値を超える場合、この最大値が入力とされる。極値の値が
1未満である場合、イベントは、([+ve]変動誤差の値の範囲内で)背景雑
音から生じたと考えられ、遅延線がクリアされる。
【0096】 9.サンプル数が、許容される最大値よりも大きい場合にも、遅延線がクリア
される。
【0097】 10.TES数は、リセット可能な遅延線に書き込まれる。遅延線がいっぱい
である場合、遅延された数が読み出され、入力/出力組合せが、N=2まで蓄積
される。リセットされた後、遅延線は、ヒストグラムが更新される前に再蓄積さ
れる必要がある。
【0098】 11.最も高い入力の割り当てられた数(「有効イベント」)は、ヒストグラ
ムから選択され、マトリクス座標と共に格納される。「A」マトリクスのこの例
において、これらは、例えば、図13を生成する二次元座標である。
【0099】 音声認識システムにおいて用いられる26シンボルのアルファベットは、ディ
ジタル発話システム用に設計されている。アルファベットは、帯域幅が300H
z〜3.3kHzに制限された入力発話波形から、最小ビットレートのデジタル
出力を生成するように構成されている。バイトレートを節約するために、このア
ルファベットは、時間量子1、2および3の、3つの最短発話セグメントを単一
のTESシンボル「1」にマッピングする。これはデジタル発話処理にとっては
理にかなっているが、音声認識にとっては、通常声のない音と関連づけられる様
々な異なる短いシンボル分布を識別するために使用可能なオプションを減少させ
る。
【0100】 アルファベットおよびこの帯域幅の結果としてシンボル「1」が支配的である
ことは、より単純な距離による測定を用いて比較した場合に、いくつかの語間の
効果的な識別を制限する程度にマトリクス「A」の分布を支配し得ると判断され
ている。これらの状況において、マトリクス「A」から任意にシンボル「1」を
排除し且つシンボル「1」の組み合わせを排除することにより、より効果的な識
別が得られ得る。このことは、音声認識スコアを向上させるが、検査/比較を、
より低減された帯域幅2.2kHz(0.3kHz〜2.5kHz)に関連づけ
られるイベントに、有効に限定する。あるいは好適には、TESアルファベット
のサイズが増大してこれらのより短いイベントの記載を含み得る。
【0101】 背景ノイズが大きい場合、別のTESアルファベット、例えば偽ゼロ(PZ)
および補間ゼロ(IZ)が好適に用いられ得る。
【0102】 経済的な音声認識アルゴリズム手段として、A/Dコンバータを必要とするこ
となく発話からTESシンボルストリームを生成する非常に単純なTESコンバ
ータが考えられ得る。この提案は、ゼロクロッシング検出器、クロック、カウン
タおよびロジックゲートを利用する。2つのゼロクロッシング検出器(ZCD)
が用いられ、うち一方が区別された発話信号に対して動作する。
【0103】 d/dt出力は単に、任意の特定された時間間隔に亘って、オリジナルの発話
信号内の最大値の数に関連するカウントを提供する。選択された時間間隔は、信
号vizの実際のゼロ間の時間である。ZCDの出力間のクロック期間数は、過
少識別された発話信号と関連づけられる。これらの数は対になり適切な論理で操
作されて、TESシンボルストリームを提供し得る。
【図面の簡単な説明】
【図1】 図1は、従来技術の信号処理構成を表す図である。
【図2】 図2は、図1に類似するが、本発明による信号処理構成の本質的要素を示す図
である。
【図3】 図3は、図1に示す従来技術の構成をより詳細に表す図である。
【図4】 図4は、図3に類似するが、図2に示す構成をより詳細に示す図である。
【図5】 図5は、同じスペクトルを有する3つの異なる波形を示す。
【図6】 図6は、図2に類似するが、本発明の別の実施形態を示す図である。
【図7】 図7は、ランダム発話の波形である。
【図8】 図8は、図7の波形の各セグメントの量子化された継続期間を表す。
【図9】 図9は、図7の波形の各セグメントにおいて生じる最大値または最小値を表す
【図10】 図10は、本発明の実施形態において用いるために導き出されたシンボルアル
ファベットである。
【図11】 図11は、本発明の実施形態による音声認識システムのフロー図である。
【図12】 図12は、図11の変形例を示す。
【図13】 図13は、図11および図12のシステムにおいて生成されたSIXという言
葉に関するシンボルストリームを示し、このンボルストリームは、左から右およ
び上から下に、いく列にも連続的に読まれる。
【図14】 図14は、図13のンボルストリームに関する2次元の「A」マトリクスを示
す。
【図15】 図15は、図11のシステムのエンコーダ部分のブロック図を示す。
【図16】 図16は、図15のAマトリクスを生成するためのフロー図を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KR,KZ,LC,LK,LR ,LS,LT,LU,LV,MA,MD,MG,MK, MN,MW,MX,MZ,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,SL,TJ ,TM,TR,TT,TZ,UA,UG,US,UZ, VN,YU,ZA,ZW

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 信号モデリング方法であって、統計的信号モデリングシステ
    ムに、決定論的モデリングシステムの出力を入力することにより、全体的演算オ
    ーバーヘッドの低減を実現する工程を包含する方法。
  2. 【請求項2】 前記統計的信号モデリングシステムが、隠れマルコフモデリ
    ングシステム(HMM)を含む、請求項1に記載の方法。
  3. 【請求項3】 前記決定論的モデリングシステムが、波形整形記述子システ
    ム(WSD)を含む、請求項1または2に記載の方法。
  4. 【請求項4】 前記WSDシステムが時間符号化および時間符号化信号処理
    および認識(TESPAR)システムを含む、請求項3に記載の方法。
  5. 【請求項5】 前記HMMが、N状態の左右HMMモデルである、請求項2
    に記載の方法。
  6. 【請求項6】 前記HMMが、エルゴードHMMモデルである、請求項2に
    記載の方法。
  7. 【請求項7】 前記統計学的システムが、ガウス処理またはポアソン処理の
    いずれかを用いる、請求項1に記載の方法。
  8. 【請求項8】 前記ガウス処理が、多変量ガウス(MVG)またはガウス混
    合モデル(GMM)のいずれかである、請求項7に記載の方法。
  9. 【請求項9】 請求項1から8のいずれかに記載の方法を組み込んだ発話認
    識システム。
  10. 【請求項10】 請求項1から8のいずれかに記載の方法を用いた言語識別
    システム。
  11. 【請求項11】 請求項1から8のいずれかに記載の方法を用いた話し手検
    証システム。
  12. 【請求項12】 実質的に、添付の図面を参照しながら上述され添付の図面
    に示される、信号モデリング方法。
  13. 【請求項13】 実質的に、添付の図面を参照しながら上述され添付の図面
    に示される、信号モデリングシステム。
JP2001562483A 2000-02-22 2001-02-22 Tesparパラメータでトレーニングされたhmmを用いる発話処理 Withdrawn JP2003524218A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB0004095.6A GB0004095D0 (en) 2000-02-22 2000-02-22 Waveform shape descriptors for statistical modelling
GB0004095.6 2000-02-22
PCT/GB2001/000743 WO2001063598A1 (en) 2000-02-22 2001-02-22 Speech processing with hmm trained on tespar parameters

Publications (1)

Publication Number Publication Date
JP2003524218A true JP2003524218A (ja) 2003-08-12

Family

ID=9886129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001562483A Withdrawn JP2003524218A (ja) 2000-02-22 2001-02-22 Tesparパラメータでトレーニングされたhmmを用いる発話処理

Country Status (7)

Country Link
US (1) US20030130846A1 (ja)
EP (1) EP1257998A1 (ja)
JP (1) JP2003524218A (ja)
AU (1) AU2001233924A1 (ja)
CA (1) CA2400616A1 (ja)
GB (2) GB0004095D0 (ja)
WO (1) WO2001063598A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160061848A (ko) * 2014-11-24 2016-06-01 한국과학기술원 빔 공간 다중 입출력 시스템에서 espar 안테나 송신기를 통해 독립적인 다중 ofdm 심볼을 전송하는 방법 및 송신기

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8376065B2 (en) * 2005-06-07 2013-02-19 Baker Hughes Incorporated Monitoring drilling performance in a sub-based unit
US8100196B2 (en) 2005-06-07 2012-01-24 Baker Hughes Incorporated Method and apparatus for collecting drill bit performance data
US7849934B2 (en) * 2005-06-07 2010-12-14 Baker Hughes Incorporated Method and apparatus for collecting drill bit performance data
US7604072B2 (en) * 2005-06-07 2009-10-20 Baker Hughes Incorporated Method and apparatus for collecting drill bit performance data
US20070033044A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated System and method for creating generalized tied-mixture hidden Markov models for automatic speech recognition
US8041571B2 (en) * 2007-01-05 2011-10-18 International Business Machines Corporation Application of speech and speaker recognition tools to fault detection in electrical circuits
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10180935B2 (en) * 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
GB9909534D0 (en) * 1999-04-27 1999-06-23 New Transducers Ltd Speech recognition
US6301562B1 (en) * 1999-04-27 2001-10-09 New Transducers Limited Speech recognition using both time encoding and HMM in parallel

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160061848A (ko) * 2014-11-24 2016-06-01 한국과학기술원 빔 공간 다중 입출력 시스템에서 espar 안테나 송신기를 통해 독립적인 다중 ofdm 심볼을 전송하는 방법 및 송신기
KR101645996B1 (ko) 2014-11-24 2016-08-08 한국과학기술원 빔 공간 다중 입출력 시스템에서 espar 안테나 송신기를 통해 독립적인 다중 ofdm 심볼을 전송하는 방법 및 송신기

Also Published As

Publication number Publication date
GB0004095D0 (en) 2000-04-12
WO2001063598A1 (en) 2001-08-30
GB0104351D0 (en) 2001-04-11
AU2001233924A1 (en) 2001-09-03
US20030130846A1 (en) 2003-07-10
GB2359651A (en) 2001-08-29
CA2400616A1 (en) 2001-08-30
EP1257998A1 (en) 2002-11-20
GB2359651B (en) 2004-02-18

Similar Documents

Publication Publication Date Title
Agrawal et al. Novel TEO-based Gammatone features for environmental sound classification
CN108281146B (zh) 一种短语音说话人识别方法和装置
JP3810608B2 (ja) 音声レコグナイザーのためのトレーニング方法
CN109599120B (zh) 一种基于大规模养殖场厂哺乳动物异常声音监测方法
JP2000172292A (ja) 自動音声認識方法及び装置
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
Todkar et al. Speaker recognition techniques: A review
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
JP2003524218A (ja) Tesparパラメータでトレーニングされたhmmを用いる発話処理
JPH08123484A (ja) 信号合成方法および信号合成装置
Wiśniewski et al. Automatic detection of prolonged fricative phonemes with the hidden Markov models approach
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Jadhav et al. Review of various approaches towards speech recognition
Gubka et al. A comparison of audio features for elementary sound based audio classification
Ibrahim et al. A Study on Efficient Automatic Speech Recognition System Techniques and Algorithms
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
Lung Feature extracted from wavelet decomposition using biorthogonal Riesz basis for text-independent speaker recognition
Gupta et al. Non-linear dimension reduction of Gabor features for noise-robust ASR
Indumathi et al. Speaker identification using bagging techniques
Brown et al. Characterization of spectral transitions with applications to acoustic sub-word segmentation and automatic speech recognition
Szepannek et al. Extending features for automatic speech recognition by means of auditory modelling
Charnvivit et al. F0 feature extraction by polynomial regression function for monosyllabic Thai tone recognition.
Orphanidou et al. Voice morphing using the generative topographic mapping
KR102389610B1 (ko) 화자 정보와의 적대적 학습을 활용한 음성 신호 기반 스트레스 인식 장치 및 방법

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513