JPH0651794A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH0651794A
JPH0651794A JP4201612A JP20161292A JPH0651794A JP H0651794 A JPH0651794 A JP H0651794A JP 4201612 A JP4201612 A JP 4201612A JP 20161292 A JP20161292 A JP 20161292A JP H0651794 A JPH0651794 A JP H0651794A
Authority
JP
Japan
Prior art keywords
equation
matching
speech
path
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4201612A
Other languages
English (en)
Inventor
Kanji Kunisawa
寛治 國澤
Akira Yamamura
彰 山村
Junko Omukai
順子 大向
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP4201612A priority Critical patent/JPH0651794A/ja
Publication of JPH0651794A publication Critical patent/JPH0651794A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】Staggered Array DPマッチングによる音声認
識方式に対称形を導入して音声の認識率を向上させる。 【構成】Staggered Array DPマッチングによる音声認
識方式における、音声の認識時に、逐次計算を行う方向
に対する重み付け処理と、特徴パラメータ空間上での重
み付け処理とを付加する。音声の学習時に、各ユニット
間の結合の強さに上記重みを対応付けたニューラルネッ
トワークNNをバックプロパゲーションにより学習させ
て上記重みを求める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、DPマッチングによる
音声認識方式に関するものである。
【0002】
【従来の技術】DPマッチングによる音声認識方式は、
発声速度の変化によるパターン長の差の影響を吸収する
ことができる有効な方式であって、この音声認識方式を
用いた装置はすでに商品化されている。しかしながら、
DPマッチングによる音声認識方式を用いても区別する
ことが困難な音声もある。たとえば、「一階」という単
語と「二階」という単語との音声を区別することはDP
マッチングではやや困難である。両単語の音声を区別す
るのが困難になるのは、上の2つの単語は前半部だけが
異なり、しかも異なる部分についても、/i/ と/n/ のス
ペクトルはよく似ていて大きな差は高域部分にしか見ら
れないからであると考えられる。ここで、「一階」の/k
/ の前の無音長は、「二階」の/k/ の無音長よりも長い
が、DPマッチングでは時間軸を伸縮させて発声速度を
吸収するので、無音長に差異があってもDPマッチング
では両者を明瞭に区別することができないのである。こ
のように、DPマッチングでは時間軸上や特徴パラメー
タ空間上の一部分にしか十分な差異がないような複数の
音声を区別することがやや困難であるという問題を有し
ている。
【0003】このような問題を改善するために、時間軸
上と特徴パラメータ空間上で重み付けを行うことが考え
られている。以下に、DPマッチング方式における重み
付けの方法を説明する。DPマッチング方式では、認識
時に入力された音声を、登録時に入力された各標準音声
と照合し、入力音声との距離がもっとも近い標準音声を
認識音声とするのであって、この照合は次のように行
う。
【0004】まず、フィルタバンクなどによって抽出し
た特徴パラメータの時系列を音声パターンとし、入力音
声の音声パターンAと標準音声の音声パターンBとを次
のように表すものとする。 A={a(1,p)}, {a(2,p)},……, {a(I,p)} …(1) B={b(1,p)}, {b(2,p)},……, {b(J,p)} …(2) ただし、p =1,2,……,Pである。
【0005】ここで、{a(i,p)}と{b(j,p)}との距離
をdij(i,j) とすれば、入力音声パターンAと標準音声
パターンBとの距離D(A,B)は、数1の (3)式のように表
される。
【0006】
【数1】
【0007】ここで、Fは{a(i,p)}と{b(j,p)}とを
対応付けるマッチングパスであって(図7参照)、次の
性質を有している。 F:{c(k)}={(i(k),j(k)) }, k=1,2,……,K c(1)=(1,1), c(K)=(I,J) ただし、{i(k)}, {j(k)}は単調増加。 また、数1の (3)式における重みwij(k) は、マッチン
グパスのうちの基本パスE(k)の長さに応じて定義される
非負の重みである。基本パスE(k)は次式のように定義さ
れる。
【0008】 E(k)=(i(k))−i(k-1), j(k)−j(k-1)) …(4) ここで、重みwij(k) は、 (3)式の分母がFに依存する
ことがないように、通常は数2の (5)式のように定めら
れる。
【0009】
【数2】
【0010】したがって、数1の (3)式は、数3の (6)
式のように変形される。
【0011】
【数3】
【0012】ここで、最小化する目的関数が加法的であ
るので、この最小化問題は動的計画法(DP=ダイナミ
ック・プログラミング)を利用することによって、Fの
すべての可能性について総当たり的に調べることなく、
効率的に解くことができる。すなわち、数4の (7)式の
ようにコスト関数g(c(k)) を定義すれば、コスト関数g
(c(k)) は数4の (8)式のように変形される。
【0013】
【数4】
【0014】数4の (8)式はDPマッチングにおける定
式化になっており、結局、入力音声パターンAと標準音
声パターンBとの距離D(A,B)は (9)式のようになる。 D(A,B)=g(c(K))/W …(9) 一方、時間伸縮関数F(DPパス)に関する制限と、重
みw(k)(=wij(k))の定式化については種々のものが提
案されているが、これらは、図8(a)のように基本パ
スE(k) と重みw(k) とが、比較する2つの時系列に関
して対称形であるものと、図8(b)のように非対称形
であるものとに分けられる。図8(a)の対称形の場合
は(10)式の関係が成立する。
【0015】 w(k) =( i(k)−i(k-1)) +( j(k)−j(k-1)) …(10) このとき、W=I+J−2となる。一方、図8(b)の
非対称形の場合は、(11)式の関係が成立する。 w(k) =j(k)−j(k-1) =1 …(11) このとき、W=J−1である。
【0016】次に、時間軸の重み付けについて考える。
時間軸の重み付けを行う一つの方法として、重みw
ij(k) に位置c(k)に関する重みを組み込むことが考えら
れる。すなわち、基本パスE(K) の長さに関する重みを
ijp (k) とし、位置c(k)に関る重みをwijt (k) とし
て、重みwij(k) を、 wij(k) =wijp (k) +wijt (k) …(12) と書き直し、数5の(13)式の右辺がマッチングパスFに
無関係に一定となるようにwijp (k) を決めれば、時間
軸上での重み付けを組み込んだDPマッチングが行え
る。
【0017】
【数5】
【0018】たとえば、図8(b)に示した非対称形の
場合には、 wijp (k) =j(k)−j(k-1)=1 …(14) wijt (k) =wijtj(j) …(15) とすれば、数6の(16)式は、マッチングパスFとは無関
係に一定になる。
【0019】
【数6】
【0020】これは標準音声パターンBの時間軸方向に
重み付けを行っていることに相当している。次に、特徴
パラメータ空間上での重み付けを考える。{a(i,p)}と
{b(i,P)}との距離dij(i,j) は、数7の(17)式のよう
になり、(17)式に重みβij(p,k) を導入すれば、数7の
(18)式が得られる。このとき、数7の(19)式が成立す
る。また、数7の(20)式および(21)式のようにおくと、
数1の (3)式は、(22)式のようになる。
【0021】
【数7】
【0022】数7の(23)式がマッチング・パスに関係な
く一定となるようにすれば、時間軸上と特徴パラメータ
空間上での重み付けを組み込んだDPマッチングが行え
ることになる。ここで、αij(k) とβij(p,k) とを求め
る必要があるが、この値を求めるために本発明者らはニ
ューラルネットワークを用いる方法を先に提案している
(特願平4−68868号)。
【0023】なお、ここまでは、c(k)に対して距離dij
(c(k))と重みwij(k) とを考えているが、基本パスE(k)
に対する入力音声パターンAと標準音声パターンBとの
局所距離d(E(K))と重みw(k) とを考えると、入力音声
パターンAと標準音声パターンBとの距離D(A,B)は、数
8の(24)式のように書くことができる。ここで、数8の
(25)式および(26)式のようにおけば、数1の (3)式と同
じになるから、数8の(24)式のほうが一般化された表現
であることがわかる。そこで、数8の(24)式を書き直す
と、数8の(27)式が得られる。
【0024】
【数8】
【0025】ところで、一般に、対称形のほうが非対称
形よりも認識率が高いことが知られている(迫江,千
葉;「音声認識におけるDPマッチング法の比較」,日
本音響学会音声研究会資料S73-22(1973))。しかしなが
ら、非対称形には対称形にはない特長があるので非対称
形も用いられている。非対称形の特長の一つは数6の(1
6)式より明らかなように、W を入力音声の時間長に無関
係に一定とすることができる点である。また、非対称形
では、端点フリーDPマッチング方式を採用することが
原理的に可能である。端点フリーDPマッチング方式
は、2つの時系列の始点同士および終点同士を対応させ
るという境界条件を外し、2つの時系列を一定の範囲内
でずらして対応付けることを可能とするものである。こ
のような操作が可能であると、音声区間の検出誤りの影
響を回避することができ、さらにDPマッチング方式に
よる照合結果から逆に、正しい音声区間を決定すること
が可能になる。対称形の場合も、擬似的に端点フリーと
する方法が提案されてはいるが、この場合には終端c(k)
の位置によってW の値が変化し、入力音声パターンAと
標準音声パターンBとの距離D(A,B)は数9の(28)式のよ
うになる。これに対して、非対称形ではW の値が一定に
なる。
【0026】
【数9】
【0027】要するに、非対称形の端点フリーDPマッ
チング方式では、1つの標準音声パターンBに対して、
入力音声パターンAの時間長や始端、終端の位置に関係
なくW の値が一定になるという特長を有している。この
特長によって、音声認識装置を簡単な構成とすることが
できるのである。
【0028】
【発明が解決しようとする課題】上述したように、非対
称形は簡単な構成で実現できるという特長を有してはい
るものの、対称形に比較して音声の認識率が低いという
問題点を有している。本発明は上記問題点の解決を目的
とするものであり、Staggered Array DPマッチングを
用いて時間軸上の重み付けを行うことによって、対称形
を導入して音声の認識率を向上させた音声認識方式を提
供しようとするものである。
【0029】
【課題を解決するための手段】本発明では、上記目的を
達成するために、Staggered Array DPマッチングによ
る音声認識方式において、音声の認識時に、逐次計算を
行う方向に対する重み付け処理と、特徴パラメータ空間
上での重み付け処理とを付加し、音声の学習時に、各ユ
ニット間の結合の強さに上記重みを対応付けたニューラ
ルネットワークをバックプロパゲーションにより学習さ
せて上記重みを求めるのである。
【0030】
【作用】上記構成によれば、Staggered Array DPマッ
チングによる音声認識方式を採用して、逐次計算を行う
方向に対する重み付け処理と、特徴パラメータ空間上で
の重み付け処理とを付加し、その重みをニューラルネッ
トワークを用いて求めるので、非対称形を主体としなが
らも対称形を導入することができ、音声の認識率を向上
させることができる。
【0031】
【実施例】図1は本発明の概念を示している。本発明で
は、端点フリーStaggered ArrayDPマッチングによる
音声認識方式を採用している。Staggered Array DPマ
ッチングは、DPパスの長さの矛盾を軽減することを主
目的として提案されたものである(鹿野,相川;「Stag
gered Array DPマッチング」,日本音響学会音声研究
会資料S82-15(1982)) 。DPパスの長さの矛盾とは次の
ことを意味している。すなわち、図8(a)において、
斜めのパスの重みは(10)式、すなわち市街化距離(軸方
向に沿う経路をたどった場合の2つの格子点の間のみち
のり)で考えれば2になるが、ユークリッド距離で考え
れば(√2)とすべきであるというように、DPパスと
ユークリッド距離とに相違が生じる場合のことを意味し
ている。このような矛盾(相違)を軽減するために、図
4に実線で示すように、長さの等しいDPパスDP1/2
みからなるDPマッチングの経路を考える。図4に実線
で示したDPパスDP1/2 は、1/2の傾斜制限(マッチ
ングの極端な伸縮を防ぐために局所的な傾斜をある範囲
内に制限するもの)になっている。このDPパスDP1/2
の経路上での最適パスを求めるには、3点おきの◎で示
した格子点上でのみDPマッチングの繰り返し逐次計算
を行うようにすればよい。したがって、逐次計算の回数
を1/3にすることができる。また、線形整合性(DP
パスから伸縮のためのDPパスを取り除いたときに、線
形マッチングと同じ尺度となる)を満足させるために、
1/1の斜めのDPパスDP1/1を加えることも可能であ
る。この場合には、1/2の傾斜制限パスと1/1の斜
めのパスの2種類の異なるDPパスが存在するが、その
長さの違いは、1/2のDPパスDP1/2 のユークリッド
距離を1とすると、1/1のDPパスDP1/1 のユークリ
ッド距離は1.9となり、図4に例示したStaggered Ar
ray DPマッチングよるDPパスの比1:2に近くな
る。したがって、市街化距離を用いたDPパスに比較し
てDPパスの長さの矛盾が大幅に軽減されることにな
る。
【0032】格子点を間引く値Nを、4,5,6,……
と3以上の値にしても、各種のStaggered Array DPマ
ッチング方式を導くことができる。Nが奇数であれば(N
−1)/(N+1)となり、Nが偶数であれば(N−2)/(N+2)
となる。繰り返し逐次計算は、(29)式を満たす格子点
(i,j) 上でlの値の小さい更新点から順次行われる。 i+j=N・l+2 (l=1,2,……,lmax ) …(29) ただし、 lmax =(I+J)/Nこのときのコスト関数g(E
(K))は、図6に示すようなレジスタrl (q) に蓄えら
れ、1/1のDPパスDP1/1 を含まない場合は、(30)式
のようになる。
【0033】 rl (q) =min[rl-1(q-1),rl-1(q+1)] +d(E(k)) …(30) また、1/1のDPパスDP1/1 を含む場合は、(31)式の
ようになる。 rl (q) =min[rl-1(q-1),rl-2(q)+d(E(k)),r l-1(q+1)] +d(E(k)) …(31) 具体的には、d(E(k))の計算式や与え方やコスト関数の
計算点の与え方によって種々のものが考えられる。図5
(a)にコスト関数の計算点Pg が格子点上にある場合
を示し、図5(b)にコスト関数の計算点Pg が格子点
上にない場合を示す。たとえば、以下のようになる。
【0034】 (1) DP3-1 rl (j-i) =min[rl-1(j-i-1), rl-1(j-i+1)] +dij(i,j) …(32) (2) DP3-2 rl (j-i) =min[rl-1(j-i-1)+dij(i,j-1), rl-1(j-i+1)+dij(i-1,j)] +dij(i-1,j-1) …(33) (3) DP3-3 rl (j-i) =min[rl-1(j-i-1)+dij(i,j-1), rl-1(j-i+1)+dij(i-1,j)] +dij(i,j) …(34) (4) DP3-4 rl (j-i) =min[rl-1(j-i-1)+dij(i,j-1), rl-2(j-i)+dij(i-1,j-1) +2 dij(i-2,j-2), rl-1(j-i+1)+dij(i-1,j)] +dij(i-1,j-1) …(35) (5) DP3-5 rl (j-i) =min[rl-1(j-i-1)+dij(i,j-1) +dij(i,j), rl-2(j-i)+(4/3) {dij(i,j) +dij(i-1,j-1) +dij(i-1,j-1) +dij(i-2,j-2) }, rl-1(j-i+1)+dij(i-1,j) +dij(i,j)] …(36) DP3-2 は、DPパス上の距離値d(E(k))をdij(i-1,
j) から補間により推定し(図5(a)参照)、DP3-1
の精度を向上させたものである。DP3-3 は、DP3-2
のコスト関数g(E(k))の計算点を(1/2,1/2)
だけずらしたものである(図5(b)参照)。DP3-2
に1/1の斜めのDPパスDP1/1 を加えたものがDP3-
4 であり、DP3-3 に1/1の斜めのDPパスDP1/1
加えたものがDP3-5 である。上述のようなDPパスの
うち厳密な意味での線形整合性を満たすものはDP3-5
である。
【0035】次に、Staggered Array DPマッチングで
端点フリーとする方法を説明する。Staggered Array D
Pマッチングでは、DPパスの繰り返し逐次計算を、(3
7)式を満足する窓制限内の格子点(i,j) でlの小さい値
から順次行っている。 i+j=N・l+2 (l =1,2,……,lmax ) …(37) 格子点(i,j)の値は窓制限内の点で、かつ1≦i≦I,
1≦j≦Jを満す。ここで、入力音声パターンAについ
て、始端{a(1,p)}以前のフレーム{a(-ma ,p)}, …
…, {a(0,p)}と、終端{a(I,p)}以後のフレーム{a
(I+1,p)}, ……,{a(I+ma',p)}が入力されていて、 A={a(-ma,p)}, …, {a(0,p)}, {a(1,p)}, …, {a(I,p)}, {a(I+1,p)}, …, {a(I+ma',p)} …(38) と表され、標準音声パターンBも同様に、{b(1,p)}以
前のフレームと、{b(J,p)}以後のフレームが記憶され
ていて、 B={b(-mb,p)}, …, {b(0,p)}, {b(1,p)}, …, {b(J,p)}, {b(J+1,p)}, …, {b(I+mb',p)} …(39) と表されているものとする。このような時系列A,Bに
対して、図6に示すように、窓制限をi<1あるいはj
<1の領域と、i>Iあるいはj>Jの領域まで拡張す
ることを考える。さらに、始点も点(1,1) から窓制限内
の点の集合{(i,j) |i+j=2 }に拡張することを考え
る。図6の例では、始端が(1,1) から窓制限内の集合
{(5,-3), (4,-2), (3,-1), (2,0), (1,1), (0,2), (-
1,3), (-2,4), (-3,5) }に拡張されている。同様にし
て、終端も点(I,J) から窓制限内の点の集合{(i,j) |
I+J=N lmax+2}に拡張される。このようにして、拡張さ
れた始点での点の集合のコスト関数の値{r0(j-i)}を
0として、DPパスの繰り返し逐次計算を開始する。
【0036】上述したDPマッチングでは、入力音声パ
ターンAと標準音声パターンBとの距離D(A,B)は、数1
0の(40)式のようになる。
【0037】
【数10】
【0038】上述したような端点フリーStaggered Arra
y DPマッチング方式に対して、以下のようにして時間
軸上と特徴パラメータ空間上での重みを導入する。ま
ず、入力音声パターンの時間長Iが、照合される標準音
声パターンの時間長Jに対して(41)式を満たしているか
どうかを調べ、満たしていない場合には、その入力音声
を受け付けないようにする。
【0039】 J−mb' ≦1≦J+mb' …(41) すなわち、(41)式の条件を満たさない入力音声は合致す
る標準音声が存在しないとみなすのであって、(41)式の
条件が満たされる場合にのみ、照合の処理を行う。この
ように、照合処理を行う前に入力条件を制限する前処理
を施すことによって、入力音声に対して(40)式の分母を
常に一定に保つことができる。
【0040】次に、時間軸上の重み付けについては直線
i+j=N・l+2(第l段とする)に対して直交する
方向に重み付けを行い、特徴パラメータ空間上での重み
付けは各段ごとに行う。すなわち、第l段に対する時間
軸上の重みをαs (l) とし、第l段内での{a(i,p)}と
{b(j,p)}との正規化していない重み付き距離dijws'
(i,j,l)を次式のように規定する。
【0041】
【数11】
【0042】数11の(42)式は、{a(i,p)}と{b(j,
p)}との距離が(18)式で表される場合であるが、他の場
合でも、重み付き距離dijws'(i,j,l)が重みβs (p,l)
の線形結合で表される場合は同様になる。このとき、入
力音声パターンと標準音声パターンとの距離D(A,B)は、
数12の(43)式のように表される。
【0043】
【数12】
【0044】また、(32)〜(36)式に対応する逐次計算式
は、次のようになる。 (1) DP3-1 rl (j-i) =min[rl-1(j-i-1), rl-1(j-i+1)] +αs (l) dijws'(i,j,l) …(44) (2) DP3-2 rl (j-i) =min[rl-1(j-i-1)+αs (l) dijws'(i,j-1,l), rl-1(j-i+1)+αs (l) dijws'(i-1,j,l)] +αs (l) dijws'(i-1,j-1,l) …(45) (3) DP3-3 rl (j-i) =min[rl-1(j-i-1)+αs (l) dijws'(i,j-1,l), rl-1(j-i+1)+αs (l) dijws'(i-1,j,l)] +αs (l) dijws'(i,j,l) …(46) (4) DP3-4 rl (j-i) =min[rl-1(j-i-1)+αs (l) dijws'(i,j-1,l), rl-2(j-i)+αs (l) dijws'(i-1,j-1,l) +2 αs (l) dijws'(i-2,j-2,l), rl-1(j-i+1)+αs (l) dijws'(i-1,j,l)] +αs (l) dijws'(i-1,j-1,l) …(47) (5) DP3-5 rl (j-i) =min[rl-1(j-i-1)+αs (l) dijws'(i,j-1,l) +αs (l) dijws'(i,j,l), rl-2(j-i)+(4/3) {αs (l) dijws'(i,j,l) + (αs (l)/2)dijws'(i-1,j-1,l) + (αs (l-1)/2)dijws'(i-1,j-1,l-1) +αs (l-1) dijws'(i-2,j-2,l-1)}, rl-1(j-i+1)+αs (l) dijws'(i-1,j,l)+αs (l) dijws'(i,j,l)] …(48) この場合、重みαs (l) は、先の出願である特願平4−
68868号で示したような標準音声パターンの時間軸
方向の重み付けとはならないが、αs (l) を緩やかに変
化させることにより、たとえば標準音声パターンと入力
音声パターンの前半部に大きな重みをかけるというよう
な大まかな重み付けは可能であり、また認識率の向上の
ためにはそれで十分であると考えられる。
【0045】本発明では、上述した重みαs (l) および
βs (p,l) を、図1ないし図3に示すように、ニューラ
ルネットワークNNを用いることによって求める。ここ
に、認識時には数13の(49)式のように定義したrmin
を用いれば、入力音声パターンAと標準音声パターンB
との距離D(A,B)は(50)式のように表されるが、さらに(5
1)式を用いることによって、距離D'(A,B) として(52)式
のように表し、この距離D'(A,B) が最小になる標準音声
パターンに対する音声を認識音声とみなす。
【0046】
【数13】
【0047】θは後述する学習時に求める。このように
すれば、距離D'(A,B) が正規化されることになる。ニュ
ーラルネットワークNNは、バックプロパゲーションに
より学習を行うものであって、1つの標準音声パターン
に対して1個用意される。また、図2に示すように、入
力層と中間層と出力層との3層を有している。ここに、
出力層のユニットを1個としているから、1つの標準音
声パターンに対して1個のニューラルネットワークが必
要になっているが、出力層のユニットが複数個であるニ
ューラルネットワークを用いれば、1つのニューラルネ
ットワークによって複数の標準音声パターンを分類する
ことも可能である。ニューラルネットワークNNへの入
力は、x(p,l) であり、出力はy(=D'(A,B) )であ
る。また、入力は各段に対応している(第l段に対応す
る入力ユニットをSl として示している) 。また、入力
層のユニットの一つSθはθを求めるために用いられ
る。
【0048】入力層のユニットの出力関数fx (z) 、中
間層のユニットの出力関数fh (z)、出力層のユニット
の出力関数fy (z) は、それぞれ以下のようにする。 fx (z) =z …(53) fh (z) =z …(54) fy (z) =1/{1+exp(-z) } …(55) また、出力層のユニットへの入力に対する重みがα
s (l) に対応し、中間層ユニットの入力に対する重みが
βs (p,l) に対応する。また、図2に示したθ1 および
θ2 は、(56)式の関係を有するから、(57)式のようにθ
1 ,θ2 はθに対応している。
【0049】 fD'( z,θ1)=fy (z−θ2) …(56) θ=−( θ1 +θ2 ) …(57) 学習は以下のように行う。まず、ニューラルネットワー
クNN上でその時点で求まっているαs (l) ,βs (p,
l) を用いて、標準音声パターンと学習用入力音声パタ
ーンとについて上述した照合を行う。このとき得られた
マッチングパスに基づくrmin の計算式を数14の(58)
式のようにαs (l) に関して展開し、さらにその展開係
数をβs (p,l) に関して展開する。
【0050】
【数14】
【0051】たとえば、DP3-4 において、第l段の格
子点(i,j) で rl (j-i) =rl-1(j-i-1)+αs (l) dijws'(i,j-1,l) +αs (l) dijws'(i-1,j-1,l) …(59) に対応するパス、第 (l-1)段で、 rl-1(j-l-1)=rl-3(j-i-1)+2αs (l−1)・dijws'(i-2,j-3,l-1) +2αs (l−2)・dijws'(i-3,j-4,l-2) …(60) に対応するパスが選ばれたとすると(図3の実線がパス
を示す)、以下のようになる。
【0052】
【数15】
【0053】したがって、 x(p,l-2) =2(a(i-3, p)−b(j-4, p)) 2 …(62) x(p,l-1) =2(a(i-2, p)−b(j-3, p)) 2 …(63) x(p,l) =(a(i, p)−b(j-1, p))2 +(a(i-1, p)−b(j-1, p))2 …(64) となる。
【0054】この入力に対して、出力は学習用入力音声
パターンが標準音声パターンと同じ内容の音声である場
合は、y=0、異なる場合はy=1として学習する。α
s (l) とβs (p,l) との学習開始時の初期値を次のよう
に設定する。 αs (l) =1 …(65) βs (p,l) =1 …(66) このとき通常のStaggered Array DPマッチングと同じ
漸化式となる。また、θ1 とθ2 とについては、標準音
声パターンと同じ内容の音声である学習用入力音声パタ
ーンに対して通常のStaggered Array DPマッチング
(すなわち、αs(l) =βs (l) =1)を行い、その中
で最大になるrmin に対して、 fD '(rmin ,θ) =0.1 となるθに対して(57)式が成立するような適当な値とす
る。
【0055】このように選択すれば、通常のStaggered
Array DPマッチング方式とほぼ同じ状態を初期値とし
て学習が始まるので、安定した結果が得られる。
【0056】
【発明の効果】本発明は上述のように、Staggered Arra
y DPマッチングによる音声認識方式を採用して、逐次
計算を行う方向に対する重み付け処理と、特徴パラメー
タ空間上での重み付け処理とを付加し、その重みをニュ
ーラルネットワークを用いて求めるので、対称形を導入
することができ、音声認識率が向上することが期待で
き、しかも、従来のDPマッチング方式と比較して、重
みをかけるための処理が付加されるのみであって、処理
の負担増がほとんどないから、コストの増加や認識応答
速度の低下がほとんどなく、しかも認識率を高めること
ができるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施例の概念を説明する図である。
【図2】本発明の実施例におけるニューラルネットワー
クの構成を示す図である。
【図3】本発明の実施例における入力音声パターンと標
準音声パターンとのマッチングパスを示す図である。
【図4】通常のStaggered Array DPマッチングの概念
を説明する図である。
【図5】Staggered Array DPマッチングでの逐次計算
の例を示し、(a)はコスト関数計算点が格子点上にあ
る場合、(b)はコスト関数計算点が格子点上にない場
合を示す図である。
【図6】端点フリーStaggered Array DPマッチングの
概念を説明する図である。
【図7】通常のDPマッチングの概念を説明する図であ
る。
【図8】DPマッチングの概念を示し(a)は対称形、
(b)は非対称形を示す図である。
【符号の説明】
NN ニューラルネットワーク

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 スタガードアレイ(Staggered Array )
    DPマッチングによる音声認識方式において、音声の認
    識時に、逐次計算を行う方向に対する重み付け処理と、
    特徴パラメータ空間上での重み付け処理とを付加し、音
    声の学習時に、各ユニット間の結合の強さに上記重みを
    対応付けたニューラルネットワークをバックプロパゲー
    ションにより学習させて上記重みを求めることを特徴と
    する音声認識方式。
JP4201612A 1992-07-28 1992-07-28 音声認識方式 Withdrawn JPH0651794A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4201612A JPH0651794A (ja) 1992-07-28 1992-07-28 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4201612A JPH0651794A (ja) 1992-07-28 1992-07-28 音声認識方式

Publications (1)

Publication Number Publication Date
JPH0651794A true JPH0651794A (ja) 1994-02-25

Family

ID=16443951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4201612A Withdrawn JPH0651794A (ja) 1992-07-28 1992-07-28 音声認識方式

Country Status (1)

Country Link
JP (1) JPH0651794A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004080669A (ja) * 2002-08-22 2004-03-11 Hitachi Kokusai Electric Inc 監視カメラ装置
JP2009225398A (ja) * 2008-03-19 2009-10-01 Secom Co Ltd 画像配信システム
JP2010028265A (ja) * 2008-07-16 2010-02-04 Mitsubishi Electric Corp 監視システムおよび監視モニタ装置
JP2011130271A (ja) * 2009-12-18 2011-06-30 Canon Inc 撮像装置および映像処理装置
JP2016032141A (ja) * 2014-07-28 2016-03-07 パナソニックIpマネジメント株式会社 モニタリング装置、モニタリングシステムおよびモニタリング方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004080669A (ja) * 2002-08-22 2004-03-11 Hitachi Kokusai Electric Inc 監視カメラ装置
JP2009225398A (ja) * 2008-03-19 2009-10-01 Secom Co Ltd 画像配信システム
JP2010028265A (ja) * 2008-07-16 2010-02-04 Mitsubishi Electric Corp 監視システムおよび監視モニタ装置
JP2011130271A (ja) * 2009-12-18 2011-06-30 Canon Inc 撮像装置および映像処理装置
JP2016032141A (ja) * 2014-07-28 2016-03-07 パナソニックIpマネジメント株式会社 モニタリング装置、モニタリングシステムおよびモニタリング方法

Similar Documents

Publication Publication Date Title
CN109841220B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
JP2733955B2 (ja) 適応型音声認識装置
JP3742236B2 (ja) 音声認識のための隠れマルコフ・モデルの適応技術
JP4180110B2 (ja) 言語認識
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US8396715B2 (en) Confidence threshold tuning
US7127393B2 (en) Dynamic semantic control of a speech recognition system
JP2979711B2 (ja) パターン認識方式および標準パターン学習方式
JP6789455B2 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
Lee et al. Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition
WO2021093798A1 (zh) 用于选择麦克风阵列的输出波束的方法
KR102406512B1 (ko) 음성인식 방법 및 그 장치
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JPH0651794A (ja) 音声認識方式
JP2002123286A (ja) 音声認識方法
JP2000298495A (ja) 音声認識装置用の回帰クラス木構造の指定方法
US6339759B1 (en) Method of determining an acoustic model for a word
JP2005338358A (ja) 音響モデル雑音適応化方法およびこの方法を実施する装置
JPH10254496A (ja) 音声認識方式
US5794191A (en) Neural network based speech recognition method utilizing spectrum-dependent and time-dependent coefficients
Nandyala et al. Hybrid HMM/DTW based speech recognition with kernel adaptive filtering method
JP3100180B2 (ja) 音声認識方法
JP3044741B2 (ja) 標準パターン学習方法
KR101619265B1 (ko) 음성 인식 시스템 및 그 방법
JPH11265197A (ja) 可変入力神経網を利用した音声認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991005