JPH02248999A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH02248999A
JPH02248999A JP1069773A JP6977389A JPH02248999A JP H02248999 A JPH02248999 A JP H02248999A JP 1069773 A JP1069773 A JP 1069773A JP 6977389 A JP6977389 A JP 6977389A JP H02248999 A JPH02248999 A JP H02248999A
Authority
JP
Japan
Prior art keywords
pattern
vector
distance
standard pattern
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1069773A
Other languages
English (en)
Inventor
Tetsuya Muroi
室井 哲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1069773A priority Critical patent/JPH02248999A/ja
Publication of JPH02248999A publication Critical patent/JPH02248999A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 ■!立夏 本発明は、音声認識方式、より詳細には、音声認識にお
けるパターンマツチング技術に関する。
髪東跋! 従来、音声認識において、音声パターンを複数の定常状
態の時系列とみなしてモデル化し、これを標準パターン
として、入力音声とのパターンマツチングを行なう方法
があった(日本音響学会講演論文集 昭和62年10月
、3−5−4、「状態モデルを用いた単語音声認識の一
手法jp、−p、109−120)、この手法は、各状
態ごとに継続時間と状態を代表するベクトルとを登録し
て標準パターンとしており、マツチング時には、入力音
声の特徴ベクトルと標準パターンの代表ベクトルとの距
離ならびに入力音声のセグメント長と状態の継続時間と
の距離の両方を計算して、入力音声パターンと標準パタ
ーンとのパターン間距離としていた。
上記従来技術は、音声パターンが定常的なセグメントの
時系列と見なすことができる場合には。
忠実に音声パターンを表現することができる。しかしな
がら、拗音や母音連続の場合、その部分の特徴ベクトル
はゆるやかにしかも大きく遷移しており、この部分に対
して、上記従来技術のように、時間によって変動する成
分を持たない特徴ベクトルでこのセグメントの特徴ベク
トルを代表させる方法では、量子化歪が大きいため精密
なパターンマツチングが不可能であった。
1−一五 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、上記のような特徴ベクトルが遷移しているセグメ
ントに対しても、その遷移を表現できるような特徴ベク
トルの組を計算して求めることにより、量子化歪を小さ
くすることを目的とし、更には、標準パターンと、マツ
チング時における入力音声パターンの双方で、量子化歪
を小さくシ、パターンマツチング時の誤差を小さくし、
認識性能の向上を図ることを目的としてなされたもので
ある。
碧−1 本発明は、上記目的を達成するために、入力した音声を
特徴ベクトルの時系列である音声パターンX、l・・・
”t(Iはフレーム数)に変換する特徴系列変換手段を
有し、上記入力音声パターンの部分パターンx、+lx
、+凰・・・x、と標準パターンYとのパターンマツチ
ングを行なって上記部分パターンと上記標準パターンと
のパターン間距離を求める音声l!戴方式において。
上記標準パターンは、固定ベクトルyと増分ベクトルl
の継続時間Ωとから構成されており、上記部分パターン
を時間軸上で回帰直線近似して固定ベクトルpと増分ベ
クトル9を求め、上記部分パターンと上記標準パターン
との固定ベクトルの距離dist(p、)’)と、増分
ベクトルdist((1、z )と継続時間の距離di
s (i−m、 Jl )との線形和によって上記パタ
ーン間距離を求めること、或いは、入力した音声を特徴
ベクトルの時系列である音声パターンX□Xs・・・X
□(工はフレーム数)に変換する特徴系列変換手段と該
音声パターンを時間軸上でN(≧1)IIのセグメント
に分割する音声パターン分割手段を有する音声認識方式
において、標準パターンはN個の時系列の状態として表
現され、各状態j(1≦j≦N)ごとに固定ベクトルy
jと増分ベクトルljとJ1111時N12jとが登録
されており、上記入力音声の第j(1≦j≦N)セグメ
ントに属する特徴ベクトル系列から固定ベクトルpjと
増分ベクトルqjと11111M時間rjを計算し。
上記入力音声の第jセグメントを標準パターンの第j状
態に対応づけて、固定ベクトルの距離dist(pj、
)’x)と増分ベクトルの距離dist((ljel)
と継続時間の距離dis(r jp fJ j)を計算
し。
ΣCa(j)・dist(p 、L 3’ i)+b(
J)・dist(9,L Z j)j=1 ◆CCj) ・dis(r jt (i j月(ただし
、 a(jL b(jL c(j)は重み定数)を計算
して、入力音声パターンと標準パターンとのパターン間
距離とすることを特徴としたものである。
以下、本発明の実施例に基づいて説明する。
第1!!Iは、!求項第1項に記載した発明の一実tl
iH&説明するための構成図で1図中、1はマイクロフ
ォン、2は特徴系列変換手段、3はパターンマツチング
部、4は標準パターンで、マイクロフォン1から入力さ
れた入力音声は特徴系列変換手段2により特徴ベクトル
の時系列XユX、・・・xlに変換される。特徴ベクト
ルとしては、バンドパスフィルターの出力、FFTスペ
クトラム、LPCケプストラム等様々なものが考えられ
るが、本実施例では、LPGケプストラムを用いること
にする1例えば、12KHz程度のサンプリング周波数
でA/D変換し、81%256ポイント、シフト@12
8ポイントでハミング窓をかけ、14次のLPCケプス
トラムを求めれば良い。
上記のようにして得ら九た音声パターンX、X。
・・・x2の部分パターンX、+□X、+、・・・Xt
 (O≦mくi≦1)と標準パターンYとのパターンマ
ツチングをパターンマツチング部3にて行なう。
標準パターンYは、音素や音節など音響的に1つの特徴
を持つものを登録するが、さらに母音連続のわたりの部
分や鼻音→母音のわたりの部分など、直接音調記号と結
びつかないものを登録すれば、さらに認識性能の向上が
望める。
標準パターンは、固定ベクトルyと増分ベクトルlと継
続時間鳳とが登録されている。これは、標準パターンを
作成するために発声された特徴ベクトルa、a、・・・
1.をモデル化したものであり、量子化誤差をDとすれ
ば 1=1 (dist (b、 c)は2つのベクトルb、eの距
離を表わす、) と定義し、二のDが小さくなるように、y、zを求めれ
ば良い、なお、(1)式では固定ベクトルを特徴ベクト
ル系列1□復、・・・amの初期ベクトルとして求めて
いるが、以下に述べる式(2)のように、中央のベクト
ルとして求めてもかまわない。
なお、本実施例では、式(1)によって説明することに
する。入力音声パターンの部分パターンx、+lx1や
、・・・x、につぃても標準パターンと同様にして時間
軸方向に回帰直線近似を行なう、即ち、なる量子化誤差
を定義し1式(3)におけるDを最小化するようなp、
9 を求める。ここで、入力音声の部分パターンX、◆
1x01・・・xIと標準パターン間距離DISは。
DIS=w1・dist(p 、3’ )+v、 ・d
ist(q 、l )+w、 ・dii(i−m、 j
l )・・・(4) となる。
ここで、Wlp ’Na2 W3は正の定数であり、d
is(i−m、 Jl )は、継続時間11と慮との具
なり具合を距離に変換する関数である0例えば、dis
tとしてユークリッド距ml、digとして差の2乗を
用いれば、式(4)は、 DIS=w、・1p−1/l◆vilq−zl◆w、・
(i−m−11)”・・・(5) として計算することができる。
第2図は、躍求項第2項に記載した発明の一実施例を説
明するための構成図で、WI中、工はマイクロフォン、
2は特徴系列変換手段、3はパターンマツチング部、4
は標準パターン、5は音声パターン分割手段で、マイク
ロフォンlから入力された音声波形は、特徴系列変換手
段2によって特徴ベクトルxHの時系列X=x1x2・
・・IC・・・xl(Iはフレーム数)に変換される。
特徴ベクトルは例えば中心周波数を250〜6300H
zにl/3オクターブごとに配置した15チヤンネルの
バンドパスフィルター群の出力を用いれば良い。
また、フレーム周期は10+s程度に設定す九ば良い。
次に、上記のようにして得られた入力音声パターンXを
時間軸でN(≧1)IIIのセグメントに分割する0分
割の方法は様々な方法が知ら九でいるが、ここで、その
分割の方法について簡単に説明する。
まず、第j (1≦j≦N)セグメントに属する音声パ
ターンノ部分パターンをx 1s(j)+1. x 1
s(j)+2・・・X16(j)とする、このとき、こ
の部分パターンと固定ベクトルpjと増分ベクトルqj
とによって回帰直線近似したときの量子化歪DJは。
として表わすことができる。このとき、音声パターン全
体の量子化歪Dallは。
となる、但し、1s(1)=O,1s(N)=1.この
式(7)を動的計画法を用いて、 Dallが最も小さ
くなるような1s(j)と1e(j)との組を求める。
このとき、同時に任意の第jセグメントの固定ベクトル
pjと増分ベクトルqjとが求められる。また、第jセ
グメントの継続時間rjは。
rj=ie(j) −1s(j)         ・
・・(8)として求めることができる。
標準パターンYは、8個の状態の時系列として表現され
ており、各状態ごとに、固定ベクトル’Je増分ベクト
ルl、継続時間njとが登録されている。
このとき、入力音声パターンXの第jセグメントと標準
パターンYの第・j状態とを対応づける(1≦j≦N)
そして、各状態ごとに固定ベクトル間の距離。
増分ベクトル間の距離、継続時間同士の距離を算出し、
これらの線形和によって入力音声パターンXと標準パタ
ーンYとのパターン間距離DIS(x、y)とする、即
ち。
DIS(X、Y)=Σ[a(j)・dist(pjty
j)+b(j)・J=1 dist(qj+ Z j)”c(j)dis(rj、
Q j)]・・・(9) ここで、 a(jL b(j)、 c(j)は、固定ベ
クトル。
増分ベクトル、継続時間の距離に対する重みである。ま
た、dist(a 、 b )は、2つのベクトル復と
bとの距離を表わす関数であり1例えば、ユークリッド
距離を用いれば良い、また、dis(m、n)は2つの
スカラーm、nの距離を表わすもので1例えば、差の自
乗とすれば良い、そこで、式(9)は、◆c(j)−(
rj、慮j)3コ     ・・・(10)として計算
することができる。
腹−一来 以上の説明から明らかなように、請求項第1項の発明に
よると、入力音声パターンの増分ベクトル9と標準パタ
ーンの増分ベクトルlを求め、この2つのベクトルの距
離dist(q*z)を計算し。
パターン間距離に反映させているので、従来技術のよう
に、時間とともに変動する成分がないために、精密なパ
ターンマツチングが不可能であった拗音等の部分につい
ても精密なパターンマツチングを行なうことが可能とな
った。
また、請求項第2項の発明によると、時間とともに変動
する特徴ベクトル系列の成分を第jセグメントの増分ベ
クトルqjとして表現し、式(9)のように、全体のパ
ターン間距離へ反映させているので、従来技術のように
、音声パターンが定常状層の時系列と見なせる場合だけ
でなく、母音連続のように音声パターンが遷移している
部分を含む場合でも精密なパターンマツチングが可能に
なった・
【図面の簡単な説明】
第1図は、請求項第1項に記載した発明の一実施例を説
明するための構成図、第2rj!iは、請求項第2項に
記載した発明の一実施例を説明するための構成図である
。 1・・・マイクロフォン、2・・・特徴系列変換手段、
3・・・パターンマツチング部、4・・・標準パターン
、5・・・音声パターン分割手段。 第 図 第 図 りり

Claims (1)

  1. 【特許請求の範囲】 1、入力した音声を特徴ベクトルの時系列である音声パ
    ターンx_1x_2・・・x_I(Iはフレーム数)に
    変換する特徴系列変換手段を有し、上記入力音声パター
    ンの部分パターンx_m_+_1x_m_+_2・・・
    x_Iと標準パターンYとのパターンマッチングを行な
    って上記部分パターンと上記標準パターンとのパターン
    間距離を求める音声認識方式において、 上記標準パターンは、固定ベクトルyと増分ベクトルz
    の継続時間lとから構成されており、上記部分パターン
    を時間軸上で回帰直線近似して固定ベクトルpと増分ベ
    クトルqを求め、上記部分パターンと上記標準パターン
    との固定ベクトルの距離dist(p、y)と、増分ベ
    クトルdist(q、z)と継続時間の距離dis(i
    −m、l)との線形和によって上記パターン間距離を求
    めることを特徴とする音声認識方式。 2、入力した音声を特徴ベクトルの時系列である音声パ
    ターンx_1x_2・・・x_I(Iはフレーム数)に
    変換する特徴系列変換手段と該音声パターンを時間軸上
    でN(≧1)個のセグメントに分割する音声パターン分
    割手段を有する音声認識方式において、 標準パターンはN個の時系列の状態として表現され、各
    状態j(1≦j≦N)ごとに固定ベクトルyjと増分ベ
    クトルzjと継続時間ljとが登録されており、上記入
    力音声の第j(1≦j≦N)セグメントに属する特徴ベ
    クトル系列から固定ベクトルpjと増分ベクトルqjと
    継続時間rjを計算し、上記入力音声の第jセグメント
    を標準パターンの第j状態に対応づけて、固定ベクトル
    の距離dist(pj、yi)と増分ベクトルの距離d
    ist(qj、zj)と継続時間の距離dis(rj、
    lj)を計算し、▲数式、化学式、表等があります▼ (ただし、a(j)、b(j)、c(j)は重み定数)
    を計算して、入力音声パターンと標準パターンとのパタ
    ーン間距離とすることを特徴とする音声認識方式。
JP1069773A 1989-03-22 1989-03-22 音声認識方式 Pending JPH02248999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1069773A JPH02248999A (ja) 1989-03-22 1989-03-22 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1069773A JPH02248999A (ja) 1989-03-22 1989-03-22 音声認識方式

Publications (1)

Publication Number Publication Date
JPH02248999A true JPH02248999A (ja) 1990-10-04

Family

ID=13412443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1069773A Pending JPH02248999A (ja) 1989-03-22 1989-03-22 音声認識方式

Country Status (1)

Country Link
JP (1) JPH02248999A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04220699A (ja) * 1990-12-21 1992-08-11 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04293095A (ja) * 1991-03-22 1992-10-16 Matsushita Electric Ind Co Ltd 音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04220699A (ja) * 1990-12-21 1992-08-11 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04293095A (ja) * 1991-03-22 1992-10-16 Matsushita Electric Ind Co Ltd 音声認識方法

Similar Documents

Publication Publication Date Title
Stevens Toward a model for speech recognition
US4754485A (en) Digital processor for use in a text to speech system
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JPH02239293A (ja) 音声処理方法
Ding et al. Simultaneous estimation of vocal tract and voice source parameters based on an ARX model
US4424415A (en) Formant tracker
JPS634200B2 (ja)
Rigoll A new algorithm for estimation of formant trajectories directly from the speech signal based on an extended Kalman-filter
JPH02248999A (ja) 音声認識方式
JPH0744727A (ja) 画像作成方法およびその装置
JPH01202798A (ja) 音声認識方法
JP3011997B2 (ja) 参照ベクトル更新方法
JP2900454B2 (ja) 音声合成装置の音節データ作成方式
JPH07210197A (ja) 話者識別方法
JPH05127697A (ja) ホルマントの線形転移区間の分割による音声の合成方法
JPS6040629B2 (ja) 音素片編集型音声合成の補間方式
JP2560277B2 (ja) 音声合成方式
JPH03123399A (ja) 音声認識装置
JPH04147300A (ja) 話者の声質変換処理方式
JPH0361955B2 (ja)
JPH0318983A (ja) パターン照合方式
Kobayashi et al. Use of generalized cepstral distance measure in isolated word recognition
Gay et al. Isolated digit recognition without time alignment
Obara et al. Word recognition using an auditory model front‐end incorporating spectrotemporal masking effect
Shirai et al. Pitch contour control in Japanese conversational speech