JPS5997200A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS5997200A
JPS5997200A JP57206149A JP20614982A JPS5997200A JP S5997200 A JPS5997200 A JP S5997200A JP 57206149 A JP57206149 A JP 57206149A JP 20614982 A JP20614982 A JP 20614982A JP S5997200 A JPS5997200 A JP S5997200A
Authority
JP
Japan
Prior art keywords
pattern
matching
input
speech
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57206149A
Other languages
English (en)
Inventor
淺川 吉章
小松 昭男
畑岡 信夫
市川 「あきら」
長沢 潔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57206149A priority Critical patent/JPS5997200A/ja
Priority to US06/554,960 priority patent/US4718095A/en
Publication of JPS5997200A publication Critical patent/JPS5997200A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、パターンマツチング法を利用した音声認識方
式に係り、特に類似した入力音声の識別に好適な結果が
得られる音声認識方式に関する。
〔従来技術〕
一般にパターンマツチング法に基づく音声認識方式では
1発声速度の変動を吸収するために動的計画(Dyna
mic  programming 、以下DPと言う
)法によるパターンマツチング法が用いられることが多
い。特に連続音声に適した実時間マツチング法として、
連続DP法(特開昭55−2205号公報参照)が提案
されており、これは標準ノくり4「 一ンとのマツチング結果の連続的に出力されるという特
長を有する。ところが、マツチング結果は入力音声と標
準パターン間の平均的な類似度しか評価されないため、
例えば「1chi Jと「hachi Jのように類似
した部分を含む入力に対して、両者間の誤りが増大する
といった問題が本質的に生じる。これに対する対策とし
て、本発明者らは標準パターンを複数個の部分標準パタ
ーンに分割し、それぞれ独立にマツチングさせる方法を
提案した(特願昭56−156281号参照)。この方
法は全体標準パターンと各部分標準パターンが一定の条
件でマツチングした時に、その標準パターンと同一カテ
ゴリの入力があったと判定するものである。しかしこの
方法は、全体標準パターンと部分標準パターンのマツチ
ングを独立に扱うため、標準パターンメモリの増大やマ
ツチング部の負荷の増加といった問題があった。
〔発明の目的〕
本発明の目的は、上記した問題点を改善し、類似した入
力音声に対しても精度の高い認識性能の得られる音声認
識方式を提供することにある。
〔発明の概要〕
上記目的を達成するために、本発明では標準とすべきパ
ターン(全体標準パターン)の1個以上の部分(部分標
準パターン・・・・・・以下、単に部分パターンと呼ぶ
)を予め指定しておき、音声が入力されるに従って、全
体標準パターンとのマツチング度(類イ以度)計算の進
行と同期して上記部分パターンとの類似度をも同時に計
算し、これら全総合的に評価することにより安定した認
識を可能とするものである。
〔発明の実施例〕
以下、本発明の一実施例ヲ説1明する。第1図は本発明
を用いた音声認識装置のブロック構成図であり、これに
より数字音声を認識する手順について説明する。
第1図において、マイク1よシ入力された入力音声は音
声分析部2により、特徴パラメータに変換される。音声
分析部がnチャンネルのフィルタ・パンクからなる例で
は、分析フレーム周期(例えば10ミリ秒)毎にn個の
フィルタ出力値xt=(x1t’、x2t、−−−−−
−1Xnt )  −・−・・(0が得られる(tは分
析フレーム番号で、時刻に対応する)。音声の特徴とし
ては、その他種々のパラメータがあるが、そのどれを用
いるかは本発明にとって本質的でないことは言うまでも
ない。
マツチング部3は、距離計算部31とマツチングプロセ
ス部32からなる。距離計算部31では、上記入力音声
の特徴パラメータと、標準パターンとの間の距離を計算
する。標準パターンは標準パターンメモリ4に特徴パラ
メータの時系列41yr=(ytr、72丁、・・・・
・・mV”τ) ・・・・・・(2)として格納されて
いる(τは標準パターンの分析フレーム番号)。ここで
はユークリッド距離を計算するものとすると、 なる距離行列が得られる。マツチングプロセス部32で
は、上記距離行列を参照し、DP千手法利用した時間軸
非線形伸縮マツチングが行われる。
この時、標準パターンメモリに格納されている部分パタ
ーンの始終端情報42を参照して、全体標準パターンの
マツチングと同期して、部分パターンのマツチングを計
算する。
全体パターンと部分パターンのマツチング度が判定部5
に送られ、認識結果6が出力される。
マツチングプロセス部32における演算処理は、第2図
に示す傾斜制限を行う連続DP法を基本とする例では、
次のようになる。
入力音声と全体標準パターンとの距離和りは、D(t、
τ)=2d(t、τ)+− ・・・・・・・・・・・・ (4) (4〕式において門は右辺第2項のうち最小のものを選
択することを意味し、条件(a)、 (b)、 (C)
に対応して第2図に示すパスa、b、cが選択される。
常にパスbが選択された場合(時間軸の伸縮がない場合
)からのパスのずれに関するレジスタヲcとすると、(
4)式の各条件に従って ・・・・・・・・・・・・ (5] 標準パターンの長さをSフレームとすると、入力音声の
フレームtに至るまでのI(スの長さL (tlは、 L(t)” 2 S+C(t、 s )  ・・・・・
・・・・ (6)フレームtにおけるマツチング度Mは
、M(tl”D (t、 s)/L(tl  ・・・・
・・・・・・・・(7〕次に部分パターンに関するマツ
チング度を求める計算を示す。1個の標準パターンに対
し1個以上の部分パターンを指定できるが、ここでは簡
単のために、部分パターンは1個とし、その始終端をτ
1.τ2 (1≦τ、≦τ、≦S)とする。この時の関
係を第3図に示す。tは入力音声のフレームtにおける
選択されたパスであり、Lpは部分パターン(τ、≦゛
τ≦τ、)に対応する部分パスである。このLp上での
マツチング度MP會入力音声のフレームtにおいて求め
る計算を以下に示す。
Lp上での距離の累積和kDp、累積した距離の個数を
Npとすると、 (1)  τ〈τ1のとき Dp(t、τ)=0   ・・・・・・・・・・・・ 
(8)Np(t、τ)=0   ・・・・・・・・・・
・・ (9)(11)  τ、≦τ≦τ2のとき Dp(t、τ)=a(t、τ) ・・・・・・・・・・・・・・・(10)・・・・・・
・・・・・・・・・(11)(110τ、〈τのとき ・・・・・・・・・・・・・・・(12)・・・・・・
・・・・・・・・・(13)入力音声のフレームtにお
ける部分/<ターンのマツチング度Mp Mp (t)=Dp (t、 s )/Np (t、 
8 )・・・・・・(14)また部分パターンの始終端
τ1.τ、に対応する入力音声のフレームt11  t
、(第3図参照)を求めるには、(5〕式に準じた計算
全行い、その情報を用いればよい(なお第3図のtoは
時間軸の伸縮がない場合のパスである)。上記(4)弐
〜(14)式の演算は過去2フレ一ム分の情報全保持し
ていれば良く、シフトレジスタと比較器を用いて実時間
処理が可能である。また汎用マイクロプロセッサを利用
して実現できることは言うまでもない。
次に本実施例によって数字音声を認識する例を示す。第
4図は連続音声中の/ hachi /の部分に対する
標準パターン/ 1chi /およびその部分ノくター
ン(第1音節目の/ i / k指定)それぞれとのマ
ツチングiMt (t)およびMpl(t)の例である
第5図は同じ入力音声に対する標準パターン/ hac
hi /およびその部分パターン(第1音節目の/ha
/に指定)それぞれとのマツチング度M8(1)および
Mps(i)の例でおる。全体パターンのマツチング度
M、 (t)およびM、 (t)の極小値を比較すると
、標準パターン/ 1chi /に対するMl(1)の
方が小さく、入力音声は/ 1chi /と膠認識され
ることになる。このことは、入力音声の/ chi /
の部分が標準パターン/ 1chi /の/Chi/の
部分と非常に似ているために起こった現象である。
部分パターンのマツチング度M pl (t)とMpa
(t)’e判定部で利用することによシ、認識性能を安
定化できる。判定論理は種々考えられるが、ここでは最
も単純な一例として、全体パターンのマツチング度と部
分パターンのマツチング度の和を比較する。以下、添字
1,8で標準パターン/ +ch+ / */ hac
hi / f示すものとする。第4図で全体パターンの
マツチング度M1(t)が最小となる時刻を(10) tl、第5図で全体パターンのマツチング度MPl(t
lが最小となる時刻に1g とする。同図の例では全体
パターン、部分パターンのマツチング度はそれぞれ、 Ms (ts) = 0.241Mps (tl) =
 0−74M、 (t、) = 0.35 、 Mps
 (ts)= 0137であるから、 Ml (ts) + M pt (tt) ” 0.9
8 > Ms (ts ) + Mpa(t、) = 
0.72 となり、入力音声は/ hachi /と正しく認識さ
れる。
つぎに、入力音声と標準パターンとの・くターン類似度
の計算において、入力音声区間の終点金持つことなく逐
次入力音声の音声パワーの差分情報、すなわち、音声パ
ワーが増加中であるか減少中であるかの情報を利用する
ことにより、音声が入力されるに従ってパターン類似度
計算を実行して、実時間での不特定話者音声認識処理を
可能とする方式について第6図と第7図で示される実施
例にもとづき詳述する。これは、音声パワーの最大値(
11) と最小値を検出する必要がある従来の方法「パワー情報
で重みづけた鉗離による単語音声認識」(日本音響学会
、音声研究会資料、5s1−59)を改良した方式の実
施例である。
第6図において、入力音声はマイク1より入力される。
他の用途において、マイクの代りに電話器などが利用さ
れる場合もある。入力音声は音声分析部2において入力
音声の特徴分析がなされ、特徴パラメータの時系列が得
られる。線形予測(LPc : I、1near  P
redictive Coefficient)分析法
においては、例えば、分析フレーム周期(代表的にはl
Qms)に10次の自己相関係数vt ” (Vnt+
 Vl to ’°”””’+ ■l’l t )・・
・・・・・・・・・・・・・ (1)′が得られる(t
は分析フレーム番号で時刻に対応する)。マツチング部
3は、上記入力音声の特徴パラメータと標準パターンメ
モリ4に格納された標準パターンとの間での類似度(I
i!In離としてもよいが、以下、類似度を例として説
明する)を計算する類似度計算部310とマツチングプ
ロセス部(12) 32とからなる。LPC分析の場合、標準パターンの各
々は、逆スペクトルパラメータの時系列A f= (A
of、 A+ r、−”・A+of) −・”  (2
J’の形式で表現されている(τは標準パターンの分析
フレーム番号である)。入力音声と標準パターンとの各
々のフレーム間の類(IR度として、LPC分析の場合
正規化残差パワーγが次式で計算される。
ここで、γ。は入力音声フレームの残差パワーである。
マツチングプロセス部32では、類似度計算部310か
ら得られる類似度行列を参照して、ダイナミックプログ
ラミング(DP)手法を利用した時間軸非線形マツチン
グが行なわれる。各々の標準パターンとのマツチング結
果が判定部5において比較され、最良マツチング度の判
定がなされ、認識結果6が出力される。
第7図は、本発明による類似度計算部310を(13) 詳細に記述した図である。入力音声の分析フレーム周期
毎の特徴パラメータ311は従来普通に用いられている
類似度計算器312に入力され、標準パターンメモリ4
からの逆スペクトル・ぐラメータ313との間で、(3
)1式で計算される通常の類似度314(γ)が計算さ
れる。これと共に、入力音声の特徴パラメータの一部で
ある入力音声ノくワー315(Vat)は比較器316
に入力される。比較器316への他方の入力317 (
vot−+)は1分析フレーム前の入力音声パワーであ
り、シフトレジスタ318を用いて、入力音声パワー3
15の差分情報であシ、同様に前もって計算されている
標準パターンの音声パワーの差分情報319と共に、補
正回路320に入力される。補正回路320では、入力
音声と標準パターンとの各々の差分情報を参照して、類
似度314(γ)を補正し、新しい類似度321(γ′
)とする。
類似度γの補正方法として、乗算型、加算型な(14) ど各種のものが考えられるが、ここでは、乗算型の代表
的な例を示す。乗算型では、新しい類似度γ′は次式よ
り求められる。
γ′=γ×α ・・・・・・・・・・・・ (4)′こ
こで、αは一種の重みであり、入力音声と標準パターン
との音声パワーの差分情報の組合せにより決める。各フ
レーム毎に音声パワーが増加中の場合に■、減少中の場
合にeのマーク付けを行なうものとする(音声パワーが
変化しない時にはのとマークする)。入力音声と標準パ
ターンとの組合せにより、−例として表1に示すように
重みαを決める。
表   1 正規化残差パワーはその値が小さい程類似度が尚(15
) が増加中(又は減少中)のフレームと標準・(ターンの
音声パワーが減少中(又は増加中)のフレームとの組合
せの場合、類似度γにペナルティ力両口わったものと等
価になる。このことは、類似度γがスペクトル情報の類
似性を示していることを考え合せると、スペクトル情報
に・くワー情報の重みづけを行なったことになる。
以上のように、補正回路320には釉々の変形が考えら
れるが、いずれにしろ簡単な回路の組合せにより実現で
きることは明らかである。また、汎用的なマイクロコン
ピュータなどを利用することにより、柔軟性を高めるこ
とができる。
なお、第7図においては、各種のタイミングの制御部は
記されていないが、簡単な回路で実現できることは明ら
かである。さらに、同等の機能を汎用的なマイクロコン
ピュータのプログラム制御により実現できることも明ら
かである。
〔発明の効果〕
(16) 本発明によれば、標準パターンの平均的な類似度ととも
に、指定した部分の類似度も同時に評価することが可能
であり、実時間性を損うことなく認識性能の向上に効果
がある。
また、第6図と第7図の実施例で示畑れた方式によれば
、音声パワーの最大値と最小値を検出してこれにより音
声パワーを正規化する必要がないから音声パワーの重み
をつけたスペクトルマツチング距離を実時間での「たれ
流し処理」で求めることができることになシ、話者が変
ってもある程度不変な性質をもつ音声パワー情報を有効
に利用することができ、不特定話者を対象とした音声認
識の認識率向上に効果がある。話者50人が発声した1
0数字の認識実験において、本発明による方式全採用す
ることにより、誤認識の内の30%強が改善されること
が実証できた。
【図面の簡単な説明】
第1図は本発明を用いた音声認識装置の第1の実施例の
ブロック構成図、第2図はDPマツチングの傾斜制限例
を示す図、第3図は標準パターン(17) −とその部分パターンのマツチングの説明図、第4図と
第5Mは入力音声に対する順準パターンのマツチング度
と部分パターンのマツチング度の一例を示す図、第6図
は、本発明を用いた音声認識装置の第2の実施例のブロ
ック構成図、第7図は、第6図における類似度計算部の
詳細ブロック構成図である。 2・・・音声分析部、3・・・マツチング部。 代理人 弁理士 薄田利幸 /1ci\ ′fJ3  図 人力昔声 ″f14− 図

Claims (1)

  1. 【特許請求の範囲】 1、入力音声パターンと、標準パターンとのパターンマ
    ツチングを行い、該マツチング結果に基づき、上記入力
    音声パターンを識別する音声認識方式において、上記入
    力音声パターンとそれぞれの全体標準パターンとの第1
    のマツチング計算の進行に同期して、上記入力音声パタ
    ーンと、上記標準パターンの時間軸上であらかじめ指定
    したすくなくとも1個の部分標準パターンとの第2のマ
    ツチング計算をおこない、上記第1および第2のマツチ
    ング計算の結果を総合して上記入力音声パターンを識別
    することを特徴とする音声認識方式。 2、入力音声パターンと標準パターンとのパターンマツ
    チングを行い、該マツチング結果に基づき、上記入力音
    声パターンを識別する音声認識方式において、相異なる
    分析フレームにおける入力音声パターンの音声パワーの
    差分値と、相異なる分析フレームにおける標準・(ター
    ンの音声パワーの差分値とを比較演算し、該比較演算の
    結果に基づいてマツチング類似度に重みづけを行ない、
    該重みづけされたマツチング類似度を用いて上記入力音
    声パターン全識別することを特徴とする音声認識方式。
JP57206149A 1982-11-26 1982-11-26 音声認識方式 Pending JPS5997200A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP57206149A JPS5997200A (ja) 1982-11-26 1982-11-26 音声認識方式
US06/554,960 US4718095A (en) 1982-11-26 1983-11-25 Speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57206149A JPS5997200A (ja) 1982-11-26 1982-11-26 音声認識方式

Publications (1)

Publication Number Publication Date
JPS5997200A true JPS5997200A (ja) 1984-06-04

Family

ID=16518600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57206149A Pending JPS5997200A (ja) 1982-11-26 1982-11-26 音声認識方式

Country Status (2)

Country Link
US (1) US4718095A (ja)
JP (1) JPS5997200A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359695A (en) * 1984-01-30 1994-10-25 Canon Kabushiki Kaisha Speech perception apparatus
JP2584249B2 (ja) * 1986-10-31 1997-02-26 三洋電機株式会社 音声認識電話機
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
JP3066920B2 (ja) * 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1524650A1 (en) * 2003-10-06 2005-04-20 Sony International (Europe) GmbH Confidence measure in a speech recognition system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
JPS6024994B2 (ja) * 1980-04-21 1985-06-15 シャープ株式会社 パタ−ン類似度計算方式
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
US4475167A (en) * 1982-09-29 1984-10-02 National Semiconductor Corporation Fast coefficient calculator for speech
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置

Also Published As

Publication number Publication date
US4718095A (en) 1988-01-05

Similar Documents

Publication Publication Date Title
JPS5997200A (ja) 音声認識方式
EP0970462B1 (en) Recognition system
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JPS58134698A (ja) 音声認識方法および装置
JPS5850360B2 (ja) 音声認識装置における前処理方法
CN111785288A (zh) 语音增强方法、装置、设备及存储介质
Mittag et al. Full-reference speech quality estimation with attentional siamese neural networks
CN110176243B (zh) 语音增强方法、模型训练方法、装置和计算机设备
JPS62242999A (ja) 音声認識における雑音補償
EP1513135A1 (en) Speech recognizing method and device thereof
CA2045612A1 (en) Time series association learning
JPS628800B2 (ja)
KR20020084199A (ko) 파라메트릭 엔코딩에서 신호 성분들의 링킹
JP3526911B2 (ja) 音声認識装置及び音声認識方法
US5425127A (en) Speech recognition method
CN115148208B (zh) 音频数据处理方法、装置、芯片及电子设备
JPS59168499A (ja) パタ−ン認識方式
JPS6254296A (ja) ピツチ抽出装置
JP2975808B2 (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
JPH01283599A (ja) パタンマツチング装置
JPH0228160B2 (ja)
JP2022181759A (ja) 音声品質評価装置、音声品質評価方法、および音声品質評価プログラム
JPS5888797A (ja) 音声認識装置
JPS60198598A (ja) 音声認識方式