JPS59121100A - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JPS59121100A
JPS59121100A JP57227709A JP22770982A JPS59121100A JP S59121100 A JPS59121100 A JP S59121100A JP 57227709 A JP57227709 A JP 57227709A JP 22770982 A JP22770982 A JP 22770982A JP S59121100 A JPS59121100 A JP S59121100A
Authority
JP
Japan
Prior art keywords
word
similarity
subinterval
input speech
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57227709A
Other languages
English (en)
Inventor
浮田 輝彦
恒雄 新田
渡辺 貞一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP57227709A priority Critical patent/JPS59121100A/ja
Priority to US06/563,755 priority patent/US4677673A/en
Priority to DE8383307796T priority patent/DE3372029D1/de
Priority to EP83307796A priority patent/EP0112717B1/en
Publication of JPS59121100A publication Critical patent/JPS59121100A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分骨〕 本発明は連続発声された入力音声を効率良く認識するこ
とのできる連続音声認識装置に関する。
〔発明の技術的背景とその問題点〕
音声を情報入力手段とする日本語ワードプロセッサや音
声タイシライタにあっては、自然性良く連続的に発声さ
れる音声を如何に効率良く認識するかが重要な課題とな
る。しかして従来より知られている連続音声認識の1つ
に、認識単位を音素程度のものとし、入力音声の特徴パ
ラメータの時系列を、一旦音素ラベルの列や、所謂セグ
メント・ラティスに変換してその単語や文を抽出するも
のがある。然し乍ら、連続発声される入力音声にあって
は、同じ音素であってもその前後の音素環境によって所
謂調音結合が生じ、この結果、音響的な表現が多様な変
形を受けると云う性質がある。この為、高精度に上記音
素ラベルへの変換を行うことが難しく、実用性に乏しか
った。
これに対して、認識単位を単語程度のものとし、特徴・
ぐラメータの時系列から単語を直接的に同定し、その後
単語列を文として認識する方式が提唱されている。この
方式は、単語として標準パターンを持つことによって前
述した調音結合の問題全回避したものである。しかして
上記単語の同定法は、入力音声から単語境界位置を検出
し、その境界によって定まる入力音声の部分区間につい
て単@全同定するものと、逆に境界を検出することなし
に入力音声の全ての部分区間に単語が存在すると看做し
て単@を同定するものとに大別さ扛る。上記境界の検出
は、例えば入力音声の音声パワーやスペクトラム変化等
の特徴パラメータを抽出し、その時系列上の極値を求め
る等して行われる。ところが、例えば数字の“2” (
/ni/)と数字の“1″(/i t、/”i/ )が
連続発声されて(/n i : t、/’i/ )とな
った場合には、その単語境界を検出することができない
等の不具合があった。
この点、上述した後者の単語同定方式は一部において実
用化されている。即ち、との単語同定の基本的なアルゴ
リズムは、語索中の各単語(言語的な意味ではなく、音
声認識における認識単位として定義される)に対して、
標準パターンを一定時間毎に分析さnた特徴パラメータ
の時系列として準備する。そして、入力音声の全ての部
分区間について上記標準ノ4ターンとの距#Iを求めて
、最小距離を与える単@全判定するものである。この際
、所定の分析時間毎に得られる特徴パラメータ間の距離
(フレーム間距離)を計算し、動的計画法を時間正規化
に利用して時系列ノ9ターン間の距s’i求める。そし
て、単語列としての入力音声との距離を全ての部分区間
の組合せについて評価し、最小の累積距離を持ち、且つ
入力音声の全体に対応する単語列t″認識結果として得
るものである。
ところがこの方式は話者が特定される場合には良好に作
用するが、話者が不特定になると次のような問題を招来
した。即ち、不特定な話者を対象とすると、話者によっ
て単語の音声パターンが大きく異なる為、話者に対応し
た非常に膨大な量の単語標準パターンを準備することが
必要となる。故に、不特定な話者に対しては、原理的に
は無限数の標準パターンが必要となシ、その実現が著し
く困難となる。
そこで近時、各単語について有限少数の標準ノ母ターン
だけを準備し、クラスタリングの手法を応用することに
よって上記不特定話者に対する標準パターンの問題を解
決することが考えられている。然し乍ら、このようにす
ると単語列(文)に対する認識率が著しく低下し、実用
的には堪え難いものとなっている。しかも、この手法を
採用すると、全ての単語カテがすについて、5− 更にはそれぞれ複数個の時系列標準パターンについて逐
一その距離を計算する必要があり、全体の計算処理量が
非常に膨大なものとなると云う致命的な欠点があった。
これらの理由によシ、連続発声された入力音声を効率良
く、効果的に認識することが非常に困難であった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、不特定話者が連続発声した入力
音声を少ない計算処理量で高精度に効率良く認識するこ
とのできる実用性の高い連続音声認識装置を提供するこ
とにある。
〔発明の概要〕
本発明は入力音声の概略特徴パラメータと詳a特徴・臂
うメータとを求め、上記概略特徴パラメータの時系列と
標準ノ4ターンとの類似度から入力音声中の単語が存在
し得る部分区間を求め、この部分区間における前記詳細
特徴パラメータの時系列と前記標準パターンとの類似度
を求めたのち、入力音声区間と等しい区間を為す部分6
− 区間の列の各類似度の和を求めて、その部分区間の列を
構成する標準パターン列(単語列)を評価するものであ
る。
〔発明の効果〕
かくして本発明によれば入力音声のスペクトラム構造を
反映した概略特徴ノ母うメータに従って単語が存在し得
る部分区間を求めるので、その単語存在位置を高精度に
検出することが可能となる。しかもその上で、上記部分
区間について詳細特徴パラメータに従って候補単語を求
めるので、いたずらに多くの部分区間を設定して計算処
理を行う従来方式と異なり、その計算量を大幅に削減す
ることが可能となる。しかもこれによって不特定話者の
音声パターン変動に十分対処し得る単語照合が可能とな
る。そして、これらの処理を経て、入力音声区間と等し
い部分区間列の各類似度の和から、その部分区間列の単
語列を評価するので、その連続音声の認識精度が非常に
高くなり、ここに高精度で効率のよい音声認識が可能と
なる等の実用上絶大なる効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明する
。尚、ここでは入力音声の認識単位を単語として説明す
るが、この単語は言語学的な意味ではなく、音声認識処
理における音声の取扱い単位として定義されるもので、
例えば音節や文節またはこれらに類するものでもよい。
さて、第1図は実施例装置の概略構成図であシ、第2図
は同装置の王たる処理手順を示す図である。不特定話者
が連続発声した入力音声は音響分析部1に入力されて一
定の分析時間毎に分析されて、その特徴ノやラメータが
求められる。
この音響分析部1は、帯域通過フィルターを用いたフィ
ルターバンクにより構成さ扛、例えば音声帯域を16〜
30程度の帯域に分割してスペクトラム分析してその詳
11f8特徴パラメータを求めると共に、上記音声帯域
を2〜4程度に分割してスペクトラム構造し、その概略
特徴パラメータを求めている。このようにして、上記人
力音声の詳細特徴・母うメータおよび概略特徴パラメー
タが前記一定時間毎に順次求められ、記憶保持される。
しかして上記一定時間毎に求めら扛た概略特徴パラメー
タの時系列は単語存在区間候補検出部2に導びかれ、単
語標準パターン記憶部3に予め登録された複数の単語の
標準的な特徴パラメータ時系列からなる標準ノリーンと
の間でそれぞれ類似度が計算され、その類似度値に従っ
て前記入力音声中の単語が存在し得る部分区間が単語存
在候補区間として求められる。即ち、この検出部2での
上記部分区間の検出処理は、第2図に示すように入力音
声中における各単語の開始点を見つけることにより行わ
nる。即ち、入力音声を分析して求めた概略特徴パラメ
ータの時系列を時間軸上においてT点にリサンプルする
。これにより、入力音声は、成る時刻tにおいて周波数
軸上のF点(F=2〜4)と時間T点との(FXT)次
元の特徴ベクトルとして表現されることになる。尚、上
記時間軸上のりサンプ9− ルは、連続したT点を抽出してもよく、或いは不連続な
T点としてもよい。これによって概略特徴パラメータの
時系列が(FXT)次元の特徴ベクトルとして表現され
ることになる。
しかるのち、この特徴ベクトルとして示さ扛る入力音声
の一部と、前記記憶部3に予め登録された標準・母ター
ン、つまり語檗中の各単語の始端部に関する標準パター
ンとの類似度を計算し、各単語についてそれぞ扛の類似
度値金求める。この類似度計算は、例えば複合類似度法
を用いて行われる。そして、これらの各単語毎に求めら
れた類似度値を、例えば一定の閾値や、或いは単語毎に
定められた閾値と比較し、該閾値を越える類似度値を抽
出する。この閾値を越える類似度値を見出したとき、そ
の現時刻t’1その単語の開始端として、単語名と共に
保持する。この処理が入力音声の全ての区間について順
次行わnる。尚、この単語開始端の検出を単なる閾値処
理だけではなく、類似度値の極大値を与える時点をその
単語の開始点としてもよい10− このようにして、入力音声の区間において複数の単語開
始点が求められ、部分区間は上記2つの単語開始点をそ
れぞれ端点として求められる。
第3図はこの様子を表わしたものであり、音声j4ワー
の波形として示される音声区間の全域に亘って、例えば
単語I、jに対する類似度がそれぞれ求められる。そし
て、上記類似度が極大値をとる時点を開始点として、単
語量が存在するであろう部分区間の候補、および単語j
が存在するであろう部分区間の候補が、他の開始点およ
び音声区間の終端点との組合せによって求められる。従
って一般的には複数の部分区間が求められることになる
。そして、各部分区間については、そこに存在するであ
ろう単語が同時に定まることになる。尚、上記部分区間
の選択を、各単語の時間的中央付近の音声特徴パターン
や、終端部の特徴/IPターンを用いて同様に行うこと
も可能であり、またこれらの手段を組合せて部分区間を
決定してもよいことは勿論のことである。
しかして、このようにして決定された入力音声区間中の
部分区間の情報は、その候補単語の情報と共に単語類似
度計算部4に与えられる。
この計算部4 ilj’=上記部分区間の前記詳細特徴
・tラメータの時系列を入力し、該部分区間の候補単語
の標準パターンとの類似度を、例えば複合類似度法を用
いたり、或いはパターン認識における統計的識別関数を
用いて求められる関数値の写像を計算する等して求める
ものである。
これによって、各部分区間毎に、その候補単語と、その
候補単語に対する入力音声の類似度値が例えば第4図に
示すように求められる。尚、第4図において()で示し
た数値がその単語について求められた類似度値を示して
いる。
単語列評価判定部5は、上記の如く求めらnた部分区間
と、その候補単語および類似度値とからなる情報を入力
し、入力音声区間と開始時点および終端時点を同じくす
る部分区間の列を、上記部分区間の組合せとして抽出す
る。そして、このようにして選択された部分区間の列の
それぞれについて、その列を構成する部分区間について
求められた類似度値の和を求め、その値の大小を相互比
較して部分区間列を評価している。
第4図に示す例では、単語iについて(220)なる類
似度を得る1つの部分区間だけからなるもの、単@量に
ついて(85)の類似度を得る部分区間から、単@jに
ついて(145)の類似度を得る部分区間に繋がる列、
更に単語lについて(85)、(35)、(100)な
る類似度を得る部分区間が繋った列が求められる。これ
によって、その類似度の和が最大となる部分区間列が入
力音声区間く反映したものとして評価される。そして、
単語t+jとによる連続音声として、入力音声が認識さ
れ、その認識結果が出力される。
この単語列認識については、所謂動的計画法と称される
VCV音節を単位とした連続単語の認識法や、並列探索
の手法等を用いることが可能である。
以上、本発明の一実施例につき説明したように、本発明
は入力音声の概略特徴パラメータ上13− で単語の存在区間(部分区間)を・母ターンマツチング
により簡単に選択し、その区間についてのみ詳細特徴パ
ラメータを用いて類似度計算して、連続音声中の単語を
認識するので、その計算処理量を非常に少なくすること
ができる。しかも、概略特徴ノやラメータ上でパターン
マツチングによシ部分区間を選択するので、不特定話者
が連続発声した変動の多い入力音声ツヤターンについて
も、その変動の影響を殆んど受けることのない認識処理
が可能となる。そして、精度良く検出された部分区間に
おいて詳細特徴・譬うメータに従って類似度を計算する
ので、その認識精度が十分高いものとなる。その上で、
部分区間の列について認識の評価が全体的に行われるの
で、連続音声を極めて効果的に認識できるの向上を図9
得る等の実用上絶大なる利点がある。
尚、本発明は上記実施例に限定されるもので14− はなく、例えば認識単位を音節や文節とすることも可能
であり、要するに本発明はその要旨を逸脱しない範囲で
種々変形して実施することができる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は装置の概
略構成図、第2図は部分区間判定の処理手順を示す図、
第3図は入力音声に対する概略特徴パラメータの類似度
およびとnによって定まる部分区間の例を示す図、第4
図は部分区間の組合せと各部分区間の類似度との関係を
示す図である。 1・・・音響分析部、2・・・単語存在区間候補検出部
、3・・・単語標準パターン記憶部、4・・・単語類似
度計算部、5・・・単語列評価判定部。 出願人代理人  弁理士 鈴 江 武 彦15−

Claims (3)

    【特許請求の範囲】
  1. (1)入力音声の概略特徴パラメータおよび詳細特徴A
    ラメータをそれぞれ求める手段と、予め登録された複数
    の単語の標準パターンと上記概略特徴・ぐラメータの時
    系列との類似度をそれぞれ求め、その類似度から前記入
    力音声中の単語が存在し得る部分区間とその部分区間に
    おける候補単語を求める手段と、この候補単語の標準パ
    ターンと上記部分区間における前記詳細ノヤラメータの
    時系列との類似度請求める手段と、入力音声区間と等し
    い区間を為す前記部分区間の列の各部分区間毎に求めら
    れた類似度の和を求めて該部分区間の列を構成する単語
    列全評価する手段とを具備したことを特徴とする連続音
    声認識装置。
  2. (2)標準A’ターンとして準備さnる単語は、入力音
    声に対する認識単位となる音節や単音語またはこれらに
    類するものである特許請求の範囲第1項記載の連続音声
    認識装置。
  3. (3)部分区間は、概略特徴・臂うメータの時系列との
    類似度が所定の閾値以上となる標準ノ4ターンの区間と
    して定められるものである特許請求の範囲第1項記載の
    連続音声認識装置。
JP57227709A 1982-12-28 1982-12-28 連続音声認識装置 Pending JPS59121100A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP57227709A JPS59121100A (ja) 1982-12-28 1982-12-28 連続音声認識装置
US06/563,755 US4677673A (en) 1982-12-28 1983-12-21 Continuous speech recognition apparatus
DE8383307796T DE3372029D1 (en) 1982-12-28 1983-12-21 Continuous speech recognition apparatus
EP83307796A EP0112717B1 (en) 1982-12-28 1983-12-21 Continuous speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57227709A JPS59121100A (ja) 1982-12-28 1982-12-28 連続音声認識装置

Publications (1)

Publication Number Publication Date
JPS59121100A true JPS59121100A (ja) 1984-07-12

Family

ID=16865119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57227709A Pending JPS59121100A (ja) 1982-12-28 1982-12-28 連続音声認識装置

Country Status (4)

Country Link
US (1) US4677673A (ja)
EP (1) EP0112717B1 (ja)
JP (1) JPS59121100A (ja)
DE (1) DE3372029D1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
JPS61252594A (ja) * 1985-05-01 1986-11-10 株式会社リコー 音声パタ−ン照合方式
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US4802224A (en) * 1985-09-26 1989-01-31 Nippon Telegraph And Telephone Corporation Reference speech pattern generating method
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4882755A (en) * 1986-08-21 1989-11-21 Oki Electric Industry Co., Ltd. Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
US5027407A (en) * 1987-02-23 1991-06-25 Kabushiki Kaisha Toshiba Pattern recognition apparatus using a plurality of candidates
EP0311022B1 (en) * 1987-10-06 1994-03-30 Kabushiki Kaisha Toshiba Speech recognition apparatus and method thereof
JPH0225898A (ja) * 1988-07-15 1990-01-29 Toshiba Corp 音声認識装置
JPH02150899A (ja) * 1988-12-02 1990-06-11 Toshiba Corp 音声認識方式
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
DE69128990T2 (de) * 1990-09-07 1998-08-27 Toshiba Kawasaki Kk Sprecherkennungsvorrichtung
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
EP1207517B1 (en) * 2000-11-16 2007-01-03 Sony Deutschland GmbH Method for recognizing speech
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4107460A (en) * 1976-12-06 1978-08-15 Threshold Technology, Inc. Apparatus for recognizing words from among continuous speech

Also Published As

Publication number Publication date
US4677673A (en) 1987-06-30
DE3372029D1 (en) 1987-07-16
EP0112717A1 (en) 1984-07-04
EP0112717B1 (en) 1987-06-10

Similar Documents

Publication Publication Date Title
JPS59121100A (ja) 連続音声認識装置
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
JP3114975B2 (ja) 音素推定を用いた音声認識回路
Demircan et al. Feature extraction from speech data for emotion recognition
JPH036517B2 (ja)
JPS5972496A (ja) 単音識別装置
US20110218802A1 (en) Continuous Speech Recognition
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Ravinder Comparison of hmm and dtw for isolated word recognition system of punjabi language
JPS59121098A (ja) 連続音声認識装置
Wang et al. Detection of cross-dataset fake audio based on prosodic and pronunciation features
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3440840B2 (ja) 音声認識方法及びその装置
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
JP2753255B2 (ja) 音声による対話型情報検索装置
Jiang et al. Acoustic feature comparison of MFCC and CZT-based cepstrum for speech recognition
JPS58108590A (ja) 音声認識装置
Merzougui et al. Diagnosing Spasmodic Dysphonia with the Power of AI
Anila et al. Emotion recognition using continuous density HMM
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Shinde et al. Isolated Word Recognition System based on LPC and DTW Technique
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
Mały et al. Behavioral features of the speech signal as part of improving the effectiveness of the automatic speaker recognition system
JPH03120434A (ja) 音声認識装置