JPH0315898A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH0315898A
JPH0315898A JP2120173A JP12017390A JPH0315898A JP H0315898 A JPH0315898 A JP H0315898A JP 2120173 A JP2120173 A JP 2120173A JP 12017390 A JP12017390 A JP 12017390A JP H0315898 A JPH0315898 A JP H0315898A
Authority
JP
Japan
Prior art keywords
word
phrase
features
words
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2120173A
Other languages
English (en)
Inventor
Ian Bickerton
イアン ビッカートン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smiths Group PLC
Original Assignee
Smiths Group PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smiths Group PLC filed Critical Smiths Group PLC
Publication of JPH0315898A publication Critical patent/JPH0315898A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) この発明は音声認識方法に関連している。
(背景技術) 多重機能を有する複雑な装置において、会話された指令
(spoken commands)により装置を制御
できることは有用である。これはまたユーザーの手が別
の仕事により占有されていたり、あるいはユーザーに故
障がありかつ通常の機械的スイッチや制御装置を操作す
るために自分の手が使用できないところでは有用である
. 音声認識装置のプログラミングは参照語彙(refer
ence vocabulary)に入れるべき語(w
ords)あるいは句(phrases)のリストの読
みだしにより遂行される。音声波(speech so
und)はスペクトル戒分に分解され、スペクトル・時
間語モデル(spectral−temporal w
ord model)あるいはテンプレートとして蓄積
される。
未知の語が連続して会話される場合、それはまたスペク
トル成分に分解され、かつそれらはヒドンセξマルコフ
モデル(Hidden Semi−Markov Mo
del)のような適当なアルゴリズムにより参照語案と
比較される.この参照語彙は異なる環境においてかつ異
なる人間による同じ語の多重繰り返しにより確定される
ことが好ましい。これは語モデルの拡張(spread
)あるいは拡大(broadening)を導入し、従
って同じ語が引き続いて会話される場合にそれがその語
モデルに対して識別される高い確率が存在する。しかし
、類似の語モデルのオーバーラップが不正確な識別とな
る大きな確率を導く結果となり得る。
神経網(neural nets)の使用がまた提案さ
れているが、しかし連続音声の識別には適していない。
会話された語の正確な識別を達成する能力は高い背景雑
音がある場合あるいは会話者が緊張している場合のよう
な劣悪な環境ではさらに困難となる。
(発明の開示) 本発明の目的は音声波の認識の改善に使用できる音声認
識方法を与えることである. 本発明によると、音声認識方法が与えられ、それは 複数の既知の語あるいは句に関する音声信号を神経綱に
供給すること、 各語あるいは句の特徴(46ature)を別の語ある
いは句の特徴から弁別するよう神経網で識別すること、 語あるいは句を識別する情報と共にこれらの弁別できる
特徴に関する情報を供給し、それによりそれらの特徴が
参照語彙を更新する(build up)ためメモリに
連合(associate)され、かつ語あるいは句を
識別するよう引き続いて未知の1つの語あるいは句に関
する音声信号を上記の語堂メモリの弁別できる特徴と比
較すること、の各ステップを含むことを特徴としている
.本方法は複数回既知の各語あるいは句を会話し、かつ
神経網に供給される音声信号を生成するために各語の例
(example)を時間的に整列する各ステップを含
むことが好ましい。別の語あるいは句から各語あるいは
句を弁別するそれらの特徴は例えばスペクトル特l!!
[(spectral feature)であるか、あ
るいは線形予測係数(linear predicti
ve coe−fficient)であろう。未知の語
あるいは句に関する音声信号と弁別できる特徴(dis
criminativefeature )の参照語賃
との比較がヒドンセミマルコフモデル技術(HSMM 
:旧dden Sen+i−Markov Model
technique )により遂行されることが好まし
い。
メモリ中の参照語案が弁別できる特徴のダQ ’)ク時
間ワーピングテンプレート(dynamic ting
e warping te+++plates)を含む
ことができる。参照語粟のシンタックス制限(synt
ax restriction)が前に識別された語の
シンタックスに従って実行されることが好ましい。
本発明による音声認識装置とその動作方法を添付図面を
参照して実例により説明する。
(実施例) 音声認識装置は参照記号1により一般的に示され、かつ
例えば航空機ペイロフトの酸素マスクに取り付けられた
マイクロホン2からの音声入力信号を受信する。識別さ
れた語を表す出力信号は装置1によりフィードバックデ
バイス3および利用デバイス(utilisation
 device) 4に供給される。
フィードバックデバイス3は装置lにより識別された語
を会話者に通知するために配設された可視表示あるいは
可聴デバイスであろう.利用デバイス4は装置の出力信
号から利用デバイスにより認識された会話指令に応じて
航空機機器の機能を制御するよう配設されている. マイクロホン2からの信号は前置増幅器10に供給され
、この前置増幅器lOはすべての周波数チャネル出力が
同様なダイナミックレンジを占有することを保証するた
めに平坦長期平均音声スペクトル(flat long
−term average speech spec
tru+w)を生成するブリエンファシス段11を含み
、その特性は公称的には1kHzまで平坦である。スイ
ッチ12は高い周波数で3 dB/オクターブあるいは
6dB/オクターブの上昇(lift)のいずれかを与
えるよう設定できる。前置増幅器10はまた4kHzに
設定された−3dB遮断周波数を持つ8次バッターワー
ス低域通過フィルタの形をしたアンチアライアシングフ
ィルタ21を含んでいる。
前置増幅器10からの出力はアナログ対ディジタル変換
器13を介してディジタルフィルタバンクI4に伝達さ
れる。フィルタバンクl4はTMS32010マイクロ
プロセッサのアセンブリソフトウエアーとして実現され
た19個のチャネルを有し、かつこれはジエー・エヌ・
ホルメス(J, N. Holmes)のr JSRU
チャネルボコーダ−(JSRU Channel Vo
cod−er)」、アイイーイー議事録(IEE Pr
oc.)、第127巻、パー}F、第1号、1980年
2月に基づいている。フィルタバンクl4は周波数範囲
250 − 4000Hzの聴覚(auditory 
perception)の臨界帯域にほぼ対応する不均
等なチャネル間隔を有している。隣接チャネルの応答は
それらのピークより約3dB下で交差している。チャネ
ルの中央で近傍チャネルの減衰は約1 1dBである。
フィルタバンク14からの信号は積分・雑音マーキング
ユニット(integra.tion and noi
se markingunit) 15に供給され、こ
れはジエー・エス・プライドル(J. S. Brid
le)等の「自動音声認識に適用された雑音補償スペク
トル距離測度(A noisecompensatin
g spectrum distance mesur
e appliedto automatic spe
ech recognition) 」、音響学会議事
録(Proc. [nst. Acoust.)、ウイ
ンドメアー(Winda+ere)、1984年11月
に記載されたような種類の雑音マーキングアルゴリズム
を組み込んでいる.周期性雑音を低減する適応雑音消去
技術(Adaptivenoise cancella
tion technique )はこのユニッ}15
により実現でき、これは例えば周期性ヘリコプター雑音
の低減に有用である。 雑音マーキングユニットl5の
出力は種々のパターンマッチングアルゴリズムを実行す
るパターンマッチングユニット16に供給される。パタ
ーンマッチングユニット16は参照語堂の各語あるいは
句の弁別できる特徴に関するマルコフモデルを含む語彙
メモリ17に接続されている。弁別できる特徴は第2図
と第3図に示された態様で語堂に入れられる。
最初に参照語粟に入れるべき各語あるいは句の孤立した
例(isolated example)が記録される
これが操り返されて各語あるいは句の多重例(mult
iple exan+ple )が利用可能となる。次
に、個別に記録された発声(utterance)がダ
イナ藁17クプログラミングにより発声の中央(med
ian)に時間的に整列される。これは自然音声の時間
変動(temporal variation)を除去
し、ここで同じ語は異なる会話速度(speaking
 rate)で会話できる。
中央語(median word)は平均期間のものと
して選択されるか、あるいは語を語のグループのまん中
に置く別のいくつかの距離測度(distance m
eヒric)を使用して選択される。例えば、もし参照
語量がディジット「0」より「9」までからなるなら、
ダイナミックプロセシングの後で各数のすべての訓練繰
り返し(training repetition)は
同じ期間を有するであろう。
訓練語の時間整列組(time aligned se
t)が神経網に与えられる。神経網構造はありふれた任
意のエラー後方伝搬学習戦略(error back 
propaga−tion learning sLr
ateg,y)により単層化あるいは多層化(sing
le or multiple layered)され
よう。
神経網は語粟の弁別できるスペクトル特徴を学習するよ
う配設され、すなわち語彙中の別の語からそれを弁別す
る1つの語の特徴を学習する。その一例は第3図に例示
され、これはその左手に会話されたディジソト「l」の
スペクトル時間分析(spectral−tempor
al analysis )を示している。
第3図の右手はディジット「0」、「2」、「3」等々
からそれを弁別するディジット「1」の特徴を示してい
る. 次にこれらの弁別できる特徴は自然音声の時間変動性に
打ち勝つことのできるありふれたアルゴリズムに転送さ
れる。この例ではヒドンセミマルコフモデルが使用され
ている。神経網により識別された弁別できる特徴はメモ
リ17に蓄積するHSMMパラメータで統合されている
このようにして、メモリI7は語彙中の各語あるいは句
を含み、これは語粟中でその語と別の語との混同性(c
onfusibility)を考慮している。引き続く
パターンマッチングの登録手順(enrolement
procedure)がそれによって改善される。
各語の識別に使用された弁別できる特徴はスペクトル特
徴である必要はなく、線形予測係数あるいは音声信号の
別の任意の特徴でもあり得る。
メモリ中の語モデルは時間変動性と語にわたって集計さ
れた神経網距離測度(neural net disL
ancemetric)を考慮するためにダイナミック
時間ワービング(DTW : Dynamic Tim
e Warping)テンプレートでもよい。語党メモ
リ17とパターンマッヂングユニント16の間に接続さ
れたシンタックスユニッ目8は、以前に識別された語の
シンタックスに従って、音声が比較される蓄積語案にあ
りふれたシンタックス制限を実行するよう使用できる。
この方法は改善された認識性能を持つ神経網登録プロセ
スを使用して連続音声の認識を可能にし、これは余分の
処理能力が無くても達或できる。
【図面の簡単な説明】
第1図は装置を概略的に示し、 第2図はこの方法の処理ステップを例示し、第3図は弁
別できる特徴の識別の前後における語の周波数/時間分
布を例示し、第3図(a)は語「1」が会話された場合
の12個の異なる時間における周波数分布を示し、第3
図(b)は語党中の別の語からそれを弁別するそれらの
語の特徴を示している。 1・・・音声認識装置 2・・・マイクロホン 3・・・フィードバックデバイス 4・・・利用デバイス 10・・・前置増幅器 11・・・ブリエンファシス段 12・・・スイッチ 13・・・アナログ対ディジタル変換器14・・・ディ
ジタルフィルタバンク l5・・・雑音マーキングユニット 16・・・ハターンマンチングユニット17・・・語彙
メモリ l8・・・シンタンクスユニノト 20・・・神経網ユニソト

Claims (1)

  1. 【特許請求の範囲】 1、音声認識方法であって、該方法が複数の既知の語あ
    るいは句に関する音声信号を神経網(20)に供給する
    こと、 各語あるいは句の特徴を別の語あるいは句の特徴から弁
    別するよう神経網(20)で識別すること、 語あるいは句を識別する情報と共にこれらの弁別できる
    特徴に関する情報を供給し、それによりそれらの特徴が
    参照語彙を更新するためメモリ(17)に連合され、か
    つ 語あるいは句を識別するよう引き続いて未知の1つの語
    あるいは句に関する音声信号を上記の語彙メモリの弁別
    できる特徴と比較すること、 の各ステップを含むことを特徴とする方法。 2、該方法が複数回既知の各語あるいは句を会話し、か
    つ神経網(20)に供給される音声信号を生成するため
    に各語の例を時間的に整列する各ステップを含むことを
    特徴とする請求項1に記載の方法。 3、別の語あるいは句から各語あるいは句を弁別するそ
    れらの特徴がスペクトル特徴であることを特徴とする請
    求項1あるいは2に記載の方法。 4、別の語あるいは句から各語あるいは句を弁別するそ
    れらの特徴が線形予測係数であることを特徴とする請求
    項1あるいは2に記載の方法。 5、未知の語あるいは句に関する音声信号と弁別できる
    特徴の参照語彙との比較がヒドンセミマルコフモデル技
    術により遂行されることを特徴とする請求項1から4の
    いずれか1つに記載の方法。 6、メモリ(17)中の参照語彙が弁別できる特徴のダ
    イナミック時間ワーピングテンプレートを含むことを特
    徴とする請求項1から5のいずれか1つに記載の方法。 7.参照語彙のシンタックス制限が前に識別された語の
    シンタックスに従って実行されることを特徴とする請求
    項1から6のいずれか1つに記載の方法。
JP2120173A 1989-05-18 1990-05-11 音声認識方法 Pending JPH0315898A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB898911461A GB8911461D0 (en) 1989-05-18 1989-05-18 Temperature adaptors
GB8911461.5 1989-05-18

Publications (1)

Publication Number Publication Date
JPH0315898A true JPH0315898A (ja) 1991-01-24

Family

ID=10656978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2120173A Pending JPH0315898A (ja) 1989-05-18 1990-05-11 音声認識方法

Country Status (4)

Country Link
JP (1) JPH0315898A (ja)
DE (1) DE4012337A1 (ja)
FR (1) FR2647249B1 (ja)
GB (2) GB8911461D0 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9116255D0 (en) * 1991-07-27 1991-09-11 Dodd Nigel A Apparatus and method for monitoring
KR100202425B1 (ko) * 1992-08-27 1999-06-15 정호선 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템
DE4309985A1 (de) * 1993-03-29 1994-10-06 Sel Alcatel Ag Geräuschreduktion zur Spracherkennung
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
DE19839466A1 (de) 1998-08-29 2000-03-09 Volkswagen Ag Verfahren und Steuereinrichtung zur Bedienung technischer Einrichtungen eines Fahrzeugs
CN103856600B (zh) 2012-12-04 2016-09-28 中兴通讯股份有限公司 一种内置搜索语音短信功能的移动终端及其搜索方法

Also Published As

Publication number Publication date
GB2231698A (en) 1990-11-21
DE4012337A1 (de) 1990-11-22
GB2231698B (en) 1993-07-28
FR2647249B1 (fr) 1993-07-09
GB9010291D0 (en) 1990-06-27
FR2647249A1 (fr) 1990-11-23
GB8911461D0 (en) 1989-07-05

Similar Documents

Publication Publication Date Title
Delfarah et al. Features for masking-based monaural speech separation in reverberant conditions
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US5791904A (en) Speech training aid
Kitamura et al. Speaker individualities in speech spectral envelopes
US5278911A (en) Speech recognition using a neural net
Li et al. Monaural speech separation based on MAXVQ and CASA for robust speech recognition
Hermansky et al. Perceptual properties of current speech recognition technology
Trinh et al. Directly comparing the listening strategies of humans and machines
JPH02298998A (ja) 音声認識装置とその方法
JPH0315898A (ja) 音声認識方法
Moritz et al. Integration of optimized modulation filter sets into deep neural networks for automatic speech recognition
David Artificial auditory recognition in telephony
Okuno et al. Understanding three simultaneous speeches
Martin Communications: One way to talk to computers: Voice commands to computers may substitute in part for conventional input devices
Punchihewa et al. Voice command interpretation for robot control
Chougule et al. Filter bank based cepstral features for speaker recognition
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
Laskowski et al. A scalable method for quantifying the role of pitch in conversational turn-taking
Wutiwiwatchai et al. Text-dependent speaker identification using LPC and DTW for Thai language
JPH04273298A (ja) 音声認識装置
Wilpon et al. A modified K‐means clustering algorithm for use in speaker‐independent isolated word recognition
Kuah et al. A neural network-based text independent voice recognition system
RU2701120C1 (ru) Устройство для обработки речевого сигнала
Higgins et al. A multi-spectral data-fusion approach to speaker recognition
Ali et al. A comparative study of Arabic speech recognition