JP2845019B2 - 類似度演算装置 - Google Patents

類似度演算装置

Info

Publication number
JP2845019B2
JP2845019B2 JP7701292A JP7701292A JP2845019B2 JP 2845019 B2 JP2845019 B2 JP 2845019B2 JP 7701292 A JP7701292 A JP 7701292A JP 7701292 A JP7701292 A JP 7701292A JP 2845019 B2 JP2845019 B2 JP 2845019B2
Authority
JP
Japan
Prior art keywords
state
probability
duration
transition
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP7701292A
Other languages
English (en)
Other versions
JPH05281990A (ja
Inventor
知弘 岩崎
邦男 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP7701292A priority Critical patent/JP2845019B2/ja
Publication of JPH05281990A publication Critical patent/JPH05281990A/ja
Application granted granted Critical
Publication of JP2845019B2 publication Critical patent/JP2845019B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声信号の認識を行う
音声認識装置に関するものである。
【0002】
【従来の技術】図6は例えば中川聖一著「確率モデルに
よる音声認識」(電子情報通信学会発行、P44〜P4
6)に示された従来の類似度演算装置の内容を示す構成
図であり、21は音声信号をフレーム毎に音響分析しパ
タンに変換する音響分析手段、22はマルコフモデルを
表現する出力確率と遷移確率のモデルパラメータを記憶
しているモデルパラメータ記憶手段、23はこのモデル
パラメータを用いて状態遷移の際に音響ベクトルを出力
する確率である出力確率を演算し出力する出力確率演算
手段である。
【0003】24は状態遷移系列に対する上記出力確率
と上記遷移確率の乗積である生起確率をモデルの評価値
として、状態毎のこの生起確率を保持しており、上記生
起確率を最大化する最適状態遷移系列をヴィタビ(Vi
terbi)演算により求め、その系列に対する出力確
率と遷移確率の乗積をパタン類似度として出力するヴィ
タビ演算手段、25は入力信号、26は音響ベクトル、
27は出力確率のモデルパラメータ、28は遷移確率、
29は出力確率、30はパタン類似度である。
【0004】以下図7に示す様に音声の音響的特徴をJ
個の状態からなるマルコフ過程で表現したモデルに対す
る、同じく図7に示す音響ベクトルytの時系列である
パタンの類似度を演算する場合を一例として従来の類似
度演算装置の説明を行う。
【0005】図7において、tはフレーム番号、Tはパ
タンのフレーム長、jは状態番号、Jは状態系列の長
さ、ytはパタンのフレームtの音響ベクトル、f(j,
t)は状態jのフレームtにおける生起確率、aijは状態
iから状態jへ遷移する際の遷移確率、bj(yt)は状態j
における音響ベクトルytに対する出力確率、D1、D2、
D3はそれぞれのパスの確率値である。状態j−1から
状態jへ遷移する際の出力確率は状態jから状態jへ遷
移する際の出力確率と等しく、bj(yt)であるとす
る。
【0006】図6において音声信号25が入力され、音
響分析手段21において音響分析されて音響ベクトル2
6が出力される。出力確率演算手段23ではモデルパラ
メータ記憶手段22に記憶されている出力確率のモデル
パラメータ27を用いて音響ベクトル26の出力確率2
9を演算し出力する。ヴィタビ演算手段24ではモデル
パラメータ記憶手段22に記憶されている遷移確率28
と出力確率29を用いてヴィタビ演算を行いパタン類似
度30を出力する。
【0007】以下このヴィタビ演算手段の動作について
更に説明を行う。図8はヴィタビ演算手段の動作を説明
する流れ図である。図8においてf(j,t)は状態jの
フレームtにおける生起確率を保持する状態情報であ
り、残りの記号は図7において既に説明したものと同じ
である。なお、ステップ205におけるmax(D1,D
2,D3)は数値D1,D2,D3のうち最大のものを表す。
【0008】図8において処理はstart201より
始まりend211で終了する。生起確率は図9に示す
様に記憶されており、ステップ202において状態0と
フレーム0に関連する生起確率を図9に示すように初期
化する。全ての状態、全てのフレームに関して205の
ヴィタビ演算が実行される。最後に最終状態Jのフレー
ムTにおける生起確率f(J,T)がパタン類似度として
出力される。
【0009】
【発明が解決しようとする課題】従来の類似度演算装置
は以上のように構成されており、状態jにnフレームの
間留まる確率は、
【0010】
【数1】
【0011】であり、nとともに指数関数的に減少する
ため、音声の定常区間でも対応する状態に長く留まるこ
とは難しく実際の音声と整合しないという問題があっ
た。
【0012】またこれの改良策として例えば中川聖一著
「確率モデルによる音声認識」(電子情報通信学会発
行、P74からP75)に示された継続時間長制御付き
ヴィタビアルゴリズムがあるが、このアルゴリズムでは
遷移先の状態のとり得る継続時間長を全て最適状態遷移
系列候補として演算を行わねばならず、極めて多くの演
算量とかなり大きな生起確率の記憶量を必要とするとい
う問題があった。
【0013】
【課題を解決するための手段】この発明による類似度演
算装置は従来の類似度演算装置の構成に加え、同一状態
に留まる継続時間長の分析により表される確率を状態の
継続時間長尤度として記憶している継続時間長尤度記憶
手段を備え、ヴィタビ演算手段を自己遷移する時は状態
遷移系列に対する上記出力確率により、異なる状態に遷
移する時は状態遷移系列に対する上記出力確率と状態遷
移する際の遷移元の状態の上記継続時間長尤度の乗積に
より生起確率を決定し、この決定された生起確率をモデ
ルの評価値として、状態毎にこの生起確率と継続時間長
を保存しており、状態遷移に応じて各状態の継続時間長
を更新しながら、上記生起確率を最大化する最適状態遷
移系列をヴィタビ演算により求め、その系列に対する出
力確率と継続時間長尤度の乗積をパタン類似度として出
力する構成としたものである。
【0014】
【作用】この発明における類似度演算装置は、すでに継
続時間長が確定している遷移元の状態の継続時間長尤度
を用いて継続時間長制御を行うため、遷移先の状態の継
続時間長尤度を用いて継続時間長制御を行う従来型のヴ
ィタビアルゴリズムに比べ演算量が少なく、一方継続時
間長尤度の働きにより実際の音声との整合性の高い類似
度が求められ従来型の継続時間長制御ヴィタビアルゴリ
ズムに近い性能を有し、また従来の継続時間長制御より
少ない記憶量で演算可能である。
【0015】
【実施例】
実施例1.以下、この発明による一実施例を図1につい
て説明する。図1において1は音声信号をフレーム毎に
音響分析しパタンに変換する音響分析手段、2はマルコ
フモデルを表現する出力確率と遷移確率のモデルパラメ
ータを記憶しているモデルパラメータ記憶手段、3はこ
のモデルパラメータを用いて状態遷移の際に音響ベクト
ルを出力する確率である出力確率を演算し出力する出力
確率演算手段である。
【0016】4は初期状態から各状態に至る各部分状態
系列に対する上記生起確率を最大化する最適状態遷移系
列をヴィタビ演算により求め、その系列に対する生起確
率をもって状態情報記憶手段5の生起確率を更新すると
ともに状態遷移の有無を出力する状態選択手段、5は初
期状態から始まり最終状態に終わる状態系列の各状態の
生起確率と継続時間長を一組の状態情報として保持する
状態情報記憶手段である。
【0017】6は上記状態選択手段4における状態遷移
に応じて上記状態情報記憶手段5の各状態の継続時間長
を更新する継続時間長計測手段、7は同一状態に留まる
継続時間長の分布により表される確率を状態の継続時間
長尤度として記憶している継続時間長尤度記憶手段、8
は上記状態情報記憶手段5に記憶されている最終状態の
生起確率に最終状態の継続時間長に対する継続時間長尤
度を乗じてパタンの類似度として出力する類似度出力手
段である。
【0018】9は音声信号、10は音響ベクトル、11
は出力確率のモデルパラメータ、12は遷移確率、13
は出力確率、14は状態情報、15は生起確率、16は
状態遷移情報、17a、17bは継続時間長尤度、18
は最終状態の状態情報、19はパタン類似度である。
【0019】従来の技術の説明と同じく図7に示すよう
に音声の音響的特徴をJ個の状態からなるマルコフ過程
で表現したモデルに対する、図7に示す音響ベクトルy
tのTフレームの時系列であるパタンの類似度を演算す
る場合を一例としてこの実施例による類似度演算装置の
説明を行う。
【0020】図1において、音声信号9が入力され音響
分析手段1によって音響分析され、音響ベクトル10が
出力される。出力確率演算手段3では予めモデルパラメ
ータ記憶手段2に記憶されている出力確率のモデルパラ
メータ11を用いて出力確率の演算を行い出力確率13
を出力する。以下、状態選択手段4、状態情報記憶手段
5、継続時間長尤度記憶手段7、類似度出力手段8の動
作を図2に示すこの発明による類似度演算装置の動作の
流れ図を用いて説明する。
【0021】図2の記号について説明する。図8と同じ
記号の説明は省略する。図2において、τ(j,t)は状
態jのフレームtにおける継続時間長、d(j,τ)は状
態jの継続時間長τの継続時間長尤度、m(j)は継続時
間長尤度記憶手段7の状態jの継続時間長の最大値であ
る。継続時間長尤度と生起確率に対しある重みで乗じた
場合最も効果が大きいことが分かっており継続時間長尤
度は生起確率に対してこの適当な重みが既に加えられて
いるものとする。
【0022】まずステップ102において従来例と同様
に図9に示すように状態情報記憶手段5の生起確率を初
期化する。ステップ104から115までをT回繰り返
し、ステップ105から113までをJ回繰り返す。
【0023】ステップ105から108において状態選
択手段4は3つのパスより確率最大となる遷移を選択し
状態情報記憶手段5の生起確率を更新するとともに状態
遷移情報16を出力し、これにより継続時間長計測手段
6は継続時間長を計測して継続時間長を更新する。
【0024】まずステップ105において出力確率13
と遷移確率12及び継続時間長尤度17aを用い3つの
パスのそれぞれの確率値D1,D2,D3を演算する。この
時ステップ105中のパス2とパス3は異なる状態への
状態遷移を生じるため、遷移元の状態の継続時間長に対
する継続時間長尤度を乗ずる。
【0025】次にステップ106において継続時間長τ
(j,t)が状態毎に規定された最大値m(j)をこえた場
合にはステップ107においてD1の値を0としてステ
ップ108においてパス1が選択されないように制御す
る。これにより継続時間長尤度記憶手段6に有限の領域
を用いた場合この領域外を参照することによる障害を防
止することが可能となる。
【0026】ステップ108ではD1とD2とD3を比較
して生起確率最大となるパスを選択しその値をもって状
態情報記憶手段の生起確率f(j,t)を更新し、状態遷
移の有無を状態遷移情報109として出力する。
【0027】ステップ109から111では継続時間長
計測手段6において各状態の継続時間長が更新される。
まず109において状態遷移情報16を用い状態遷移の
有無を調べ、パス1が選択され状態遷移が生じなかった
場合はステップ110において状態jの継続時間長を1
増加し、パス2またはパス3が選択され状態遷移が生じ
た場合はステップ111において状態jの継続時間長を
0に戻す。
【0028】最後にステップ116において状態情報記
憶手段5の最終状態JのフレームTにおける状態情報を
用い、最終状態の生起確率に最終状態の継続時間長尤度
17bを乗じてパタン類似度として出力する。
【0029】上記の説明では生起確率と継続時間長の状
態情報としてフレームfと状態jに関する2次元の領域
を用いて類似度の演算を行ったが、これらは状態jに関
する1次元の領域を繰り返し用いて演算することも可能
であり、小さな領域を用いて同じ性能を有する類似度演
算装置を実現することができる。
【0030】実施例2.継続時間長制御を用いる場合、
遷移確率を取り除くことによる性能劣化は小さい。ここ
では遷移確率を用いず、かつパス1とパス3のみの遷移
を用い、加えて状態情報として状態jに関する1次元の
領域を繰り返し用いて演算を行う場合の実施例を説明す
る。
【0031】この実施例2の類似度演算装置の構成図と
しては実施例1で示した図1と同様である。図3がこの
実施例の類似度演算装置の動作を説明する流れ図であ
る。図3の記号について説明する。図8と同じ記号の説
明は省略する。図3において、f(j)は状態jにおける
生起確率τ(j)は状態jにおける継続時間長、d(j,
τ)は状態jの継続時間長τの継続時間長尤度、m(j)
は継続時間長尤度記憶手段の状態jの継続時間長の最大
値である。
【0032】処理はstart121から始まりend
136で終了する。状態情報記憶手段5は図4に示すよ
うな構成であり、ステップ122において図4に示され
るように初期化される。初期化後ステップ124から1
34をT回繰り返し、ステップ125から132までを
J回演算を繰り返す。
【0033】状態選択手段4と継続時間長計測手段5で
はステップ125から130において生起確率を演算
し、状態情報記憶手段5の生起確率と継続時間長を更新
する。ステップ125において遷移元の継続時間長尤度
を乗じている。全ての繰り返し演算が終了した後、ステ
ップ135において最終状態Jの状態情報を用い、パタ
ン類似度を演算して出力する。
【0034】実施例3.この発明による類似度演算装置
の別の実施例を説明する。ここでは遷移確率を用いず、
図2のステップ105におけるパス3であるナル遷移を
除き、また状態情報として状態jに関する1次元の領域
を繰り返し用いて演算を行う場合による動作を説明す
る。
【0035】図5がこの実施例の類似度演算装置の動作
を説明する流れ図である。記号はこれまでに説明してき
たものと同じである。全体の動作のなかで生起確率に出
力確率を加算する演算が、実施例2の動作を表す図3に
おけるステップ130の位置から図5におけるステップ
145の位置に変わっていることによりパスの違いが生
じている。残りの動作は図3と等価でありここでは詳し
い説明は省略する。
【0036】また継続時間長尤度記憶手段7を、各状態
毎のある規定の値に満たない継続時間長に対する継続時
間長尤度として小さな確率値を記憶し、各状態の別のあ
る規定の値を越える継続時間長に対する継続時間長尤度
として小さな確率値を記憶する構成とすることにより、
各状態毎に許容できる継続時間長の最小値と最大値を設
定するmin−max制御が可能である。
【0037】以上の類似度演算装置の説明は全て確率値
を用いて行っているが、スケーリングを避けるため一般
にはlog化確率値を用いてヴィタビ演算が行われるも
のであり、その場合でもこの発明は同様な効果を得られ
る。
【0038】
【発明の効果】以上のようにこの発明による類似度演算
装置は、同一状態に留まる継続時間長の分布により表さ
れる確率を状態の継続時間長尤度として記憶している継
続時間長尤度記憶手段を備え、ヴィタビ演算手段を状態
遷移系列に対する上記出力確率と上記遷移確率及び状態
遷移する際の遷移元の状態の上記継続時間長尤度の3者
の乗積である生起確率をモデルの評価値として、状態毎
にこの生起確率と継続時間長を保持しており、状態遷移
に応じて各状態の継続時間長を更新しながら、上記生起
確率を最大化する最適状態遷移系列をヴィタビ演算によ
り求め、その系列に対する出力確率と遷移確率及び継続
時間長尤度の3者の乗積をパタン類似度として出力する
構成としたため、すでに継続時間長が確定している遷移
元の状態の継続時間長尤度を用いて継続時間長制御を行
うため、遷移先の状態の継続時間長尤度を用いて継続時
間長制御を行う従来型のヴィタビアルゴリズムに比べ演
算量が少なく、一方継続時間長尤度の働きにより実際の
音声との整合性の高い類似度が求められ従来型の継続時
間長制御ヴィタビアルゴリズムに近い性能を有し、また
従来の継続時間長制御より少ない記憶量で演算可能な類
似度演算装置が得られる効果がある。
【図面の簡単な説明】
【図1】この発明の実施例1の類似度演算装置を示す構
成図である。
【図2】この発明の実施例1の類似度演算装置の動作を
示す流れ図である。
【図3】この発明の実施例2の類似度演算装置の動作を
示す流れ図である。
【図4】この発明の実施例2の類似度演算装置の状態情
報記憶手段の構成を示す説明図である。
【図5】この発明の実施例3の類似度演算装置の動作を
示す流れ図である。
【図6】従来の類似度演算装置を示す構成図である。
【図7】マルコフモデルとパタンを説明する説明図であ
る。
【図8】従来の類似度演算装置の動作を示す流れ図であ
【図9】従来の類似度演算装置の状態情報記憶手段の構
成を示す説明図である。
【符号の説明】
1 音声分析手段 2 モデルパラメータ記憶手段 3 出力確率演算手段 4 状態選択手段 5 状態情報記憶手段 6 継続時間長計測手段 7 継続時間長尤度記憶手段 8 類似度出力手段 9 音声信号 10 音響ベクトル 11 出力確率のモデルパラメータ 12 遷移確率 13 出力確率 14 状態情報 15 生起確率 16 状態遷移情報 17a、17b 状態継続時間長尤度 18 最終状態の状態情報 19 パタン類似度

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 特定の音声の音響的特徴をマルコフ過程
    で表現したモデルに対し、入力される音響ベクトルの時
    系列であるパタンを最大確率で出力する最適状態遷移系
    列をヴィタビアルゴリズムを用いて推定し、その系列が
    パタンで出力する確率を演算する類似度演算装置におい
    て、音声信号をフレーム毎に音響分析しパタンに変換す
    る音響分析手段と、マルコフモデルを表現する出力確率
    と遷移確率のモデルパラメータを記憶しているモデルパ
    ラメータ記憶手段と、このモデルパラメータを用いて状
    態遷移の際に音響分析手段で変換されたパタンを出力す
    る確率である出力確率を演算し出力する確率演算手段
    と、同一状態に留まる継続時間長の分析により表される
    確率を状態の継続時間長尤度として記憶している継続時
    間長尤度記憶手段と、自己遷移する時は状態遷移系列に
    対する上記出力確率により、異なる状態に遷移する時は
    状態遷移系列に対する上記出力確率と状態遷移する際の
    遷移元の状態の上記継続時間長尤度の乗積により生起確
    率を決定し、この決定された生起確率をモデルの評価値
    として、状態毎にこの生起確率と継続時間長を保存して
    おり、状態遷移に応じて各状態の継続時間長を更新しな
    がら、上記生起確率を最大化する最適状態遷移系列をヴ
    ィタビ演算により求め、その系列に対する出力確率と継
    続時間長尤度の乗積をパタン類似度として出力するヴィ
    タビ演算手段を備えることを特徴とする類似度演算装
    置。
  2. 【請求項2】 上記ヴィタビ演算手段を、初期状態から
    始まり最終状態に終わる状態系列の各状態の生起確率と
    継続時間長を一組の状態情報として保持する状態情報記
    憶手段と、初期状態から各状態に至る各部分状態系列に
    対する上記生起確率を最大化する最適状態遷移系列をヴ
    ィタビ演算により求め、その系列に対する生起確率をも
    って上記状態情報記憶手段の生起確率を更新するととも
    に状態遷移の有無を出力する状態選択手段と、状態選択
    手段における状態遷移に応じて上記状態情報手段の各状
    態の継続時間長を更新する継続時間長計測手段と、上記
    状態情報記憶手段に記憶されている最終状態の生起確率
    に最終状態の継続時間長に対する継続時間長尤度を乗じ
    てパタンの類似度として出力する類似度出力手段からな
    る構成とすることを特徴とする請求項1記載の類似度演
    算装置。
JP7701292A 1992-03-31 1992-03-31 類似度演算装置 Expired - Lifetime JP2845019B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7701292A JP2845019B2 (ja) 1992-03-31 1992-03-31 類似度演算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7701292A JP2845019B2 (ja) 1992-03-31 1992-03-31 類似度演算装置

Publications (2)

Publication Number Publication Date
JPH05281990A JPH05281990A (ja) 1993-10-29
JP2845019B2 true JP2845019B2 (ja) 1999-01-13

Family

ID=13621850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7701292A Expired - Lifetime JP2845019B2 (ja) 1992-03-31 1992-03-31 類似度演算装置

Country Status (1)

Country Link
JP (1) JP2845019B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185348B (zh) * 2020-10-19 2024-05-03 平安科技(深圳)有限公司 多语种语音识别方法、装置及电子设备

Also Published As

Publication number Publication date
JPH05281990A (ja) 1993-10-29

Similar Documents

Publication Publication Date Title
KR102323046B1 (ko) 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체
JP3049259B2 (ja) 音声認識方法
US8630853B2 (en) Speech classification apparatus, speech classification method, and speech classification program
JPH0355837B2 (ja)
US6662159B2 (en) Recognizing speech data using a state transition model
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP0762383B1 (en) Pattern adapting apparatus for speech or pattern recognition
KR102541660B1 (ko) 음성 신호에 기반한 감정 인식 장치 및 방법
EP1576580B1 (en) Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
JPH0776880B2 (ja) パターン認識方法および装置
JP2845019B2 (ja) 類似度演算装置
EP0688012B1 (en) A speech recognizer
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JP2545982B2 (ja) パターン認識方法および標準パターン学習方法
JP2600871B2 (ja) Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置
JPH0667698A (ja) 音声認識装置
JPH06266386A (ja) ワードスポッティング方法
JPH09258783A (ja) 音声認識装置
KR100719942B1 (ko) 패턴 인식
JP2712856B2 (ja) 音声認識装置
JPH08115099A (ja) ベクトル量子化方法及びそれを用いた音声認識装置及び方法
JP4060015B2 (ja) 音声認識装置,音声認識方法及び音声認識プログラムが記録された記録媒体
EP0540328A2 (en) Voice recognition
JP2932511B2 (ja) 音声認識方式および装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20071030

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 10

Free format text: PAYMENT UNTIL: 20081030

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20091030

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20091030

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101030

Year of fee payment: 12

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111030

Year of fee payment: 13

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 14