JPH11190999A - 音声スポッティング装置 - Google Patents

音声スポッティング装置

Info

Publication number
JPH11190999A
JPH11190999A JP9359133A JP35913397A JPH11190999A JP H11190999 A JPH11190999 A JP H11190999A JP 9359133 A JP9359133 A JP 9359133A JP 35913397 A JP35913397 A JP 35913397A JP H11190999 A JPH11190999 A JP H11190999A
Authority
JP
Japan
Prior art keywords
likelihood
node
spotting
network
heuristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9359133A
Other languages
English (en)
Other versions
JP3873418B2 (ja
Inventor
Toshiyuki Hanazawa
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP35913397A priority Critical patent/JP3873418B2/ja
Publication of JPH11190999A publication Critical patent/JPH11190999A/ja
Application granted granted Critical
Publication of JP3873418B2 publication Critical patent/JP3873418B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 スポッティング用ネットワークの最終ノード
を各時刻ごとに選択しスポッティングスコア算出をする
方式を実現する。 【解決手段】 入力音声信号101を分析し変換する分
析手段1による特徴ベクトル時系列102に対しヒュー
リスティック言語モデル照合手段2で先行/後続ヒュー
リスティック言語モデルの最終/初期状態でヒューリス
ティック前/後向き尤度103/104を算出し、当該
前向き尤度103と特徴ベクトル時系列102に対しネ
ットワーク照合手段3でスポッティング用ネットワーク
の複数個の最終ノードごとに最尤前向き尤度105とノ
ード履歴情報106を算出する。バックトラックノード
選択手段4で選択する当該最尤前向き尤度105の値が
高い上位L個の最終ノード番号107と当該後向き尤度
104とノード履歴情報10とに対しスポッティング結
果出力手段5でバックトラック処理を施しスポッティン
グ結果108を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は連続発声をされた
音声中からある特定の単語や文節(意味的なまとまりを
もつ部分文)のスポッティング(当該発声開始/終了時
刻と当該音声区間の存否信頼度とを求めること)をし出
力する音声スポッティング装置に関する。
【0002】
【従来の技術】たとえば文献(河原ほか:ヒューリステ
ィックな言語モデルを用いた会話音声中の単語スポッテ
ィング、信学論(D−II)、Vol.J78−D−I
I、no.7、pp.1013−1020、1995)
に示す従来の音声スポッティング装置は図2(a)のよ
うに、分析手段1は、入力端からの入力音声信号101
に対したとえばLPC(linear predict
ive coding)ケプストラム分析をし、当該特
徴ベクトル時系列102X1 、X2 、X3 ・・・XT
(添字は各特徴ベクトルXの時刻を示す)に変換をす
る。ヒューリスティック言語モデル照合手段2は、分析
手段1による特徴ベクトル時系列102に対し、別途格
納をする先行と後続ヒューリスティック言語モデル格納
手段6による先行と後続ヒューリスティック言語モデル
を用い、たとえば文献(中川:確率モデルによる音声認
識、電子情報通信学会、pp.40−46、1988)
に示すトレリスアルゴリズムまたはビタビアルゴリズム
で算出をする前向きと後向き確率値の対数化をすること
により、時間軸上で順方向に当該先行ヒューリスティッ
ク言語モデルの最終状態SFjの時刻tにおけるヒューリ
スティック前向き尤度103Sfw(SFj,t)(t=1
〜T、j=1〜NF 、NF は先行ヒューリスティック言
語モデルの最終状態数)と逆方向に当該後続ヒューリス
ティック言語モデルの初期状態SIjの時刻tにおけるヒ
ューリスティック後向き尤度104Sbw(SIj,t)
(t=1〜T、j=1〜NI 、NI は後続ヒューリステ
ィック言語モデルの初期状態数)とを算出する。スポッ
ティング手段9は、分析手段1による特徴ベクトル時系
列102とヒューリスティック言語モデル照合手段2に
よるヒューリスティック前向きと後向き尤度103と1
04とに対し、別途格納をするスポッティング用ネット
ワーク格納手段8によるスポッティング用ネットワーク
を用い、各時刻t=1〜Tごとに別途定義をする手順の
処理を繰り返しスポッティング結果108を求め出力す
る。
【0003】上記従来の音声スポッティング装置は、入
力音声は無秩序な発話内容ではなくある言語的な制約を
満たしていると仮定し、当該言語的な制約をヒューリス
ティック言語モデルと称する音声パタンモデルで表現
し、ヒューリスティック言語モデルとスポッティング用
ネットワークとを併用し入力音声全体を考慮するスポッ
ティングスコア(スポッティング対象単語音声のスペク
トル特徴時系列をモデル化した音声パタンモデルと入力
音声のスペクトル特徴時系列102との類似度を算出
し、スポッティング音声区間に実際に当該単語が存在す
るかどうかの信頼度を数値化して表現したもの)算出を
する方式(音素環境依存モデルを用いるヒューリスティ
ック音声スポッティング方式)を採る。
【0004】精度の高いスポッティングはたとえば図2
(b)のように、スポッティング用ネットワークの前方
と後方に先行と後続ヒューリスティック言語モデルを接
続し、入力音声中のスポッティング対象およびそれ以外
の音声区間はそれぞれ当該スポッティング用ネットワー
クおよび先行と後続ヒューリスティック言語モデルでモ
デル化をし入力音声全体に対する尤度を算出し、異なる
時刻の検出単語同士でスポッティングスコア比較をする
ことにより可能となる。ただし当該先行と後続ヒューリ
スティック言語モデルは、なるべく多く入力音声に含む
ことが想定される単語や文節などのモデル化をし構成す
ることが必要になる。
【0005】先行ヒューリスティック言語モデルと後続
ヒューリスティック言語モデルとスポッティング用ネッ
トワークは、通常HMM(hidden markov
model:隠れマルコフモデル)を用いて構成す
る。HMMはモデル化する音声単位の違いによって幾つ
かの種類に分類できるが、音素環境依存モデルといわれ
るHMMが認識性能が高いことが知られており最もよく
用いられている。音素環境依存モデルは、同じ音素のモ
デル化をするときでも前後の音素環境の違いで別モデル
として扱う。たとえば後続(右)音素環境を考慮したモ
デルの右音素環境依存モデルのとき、/ia/と/iu
/では第1音素はともに/i/で後続音素は異なる/a
/と/u/だから、第1音素の/i/を別モデルとす
る。後続音素の違いで別モデルを使う必要があるからヒ
ューリスティック言語モデルとスポッティング用ネット
ワークに複数状態同士の接続となる右音素環境依存モデ
ルを用いたときの先行と後続ヒューリスティック言語モ
デルの各構成例は図3(語尾セグメントを示し語頭部分
を省略)と図4(語頭セグメントを示し語尾部分を省
略)のように、1個以上の右音素環境依存モデルを接続
し単語や文節等部分区間のモデル化をし、各音素環境依
存モデルと同じに初期状態と最終状態をもつセグメント
に対し四角で、また先行ヒューリスティック言語モデル
の複数最終状態と先行スポッティング対象モデルの語尾
音素の違いで分かれる後続ヒューリスティック言語モデ
ルの初期状態とに対し丸でそれぞれ表す。たとえば当該
セグメントがa(i)という長方形中文字表現は、/i
/という括弧内の音素を右音素環境として/a/という
音声をモデル化していることを示す。上記のように先行
と後続ヒューリスティック言語モデルは、なるべく多く
入力音声に含むことが想定される単語や文節などのモデ
ル化をし構成することが必要だから、複数個のセグメン
トが必要になる。また右音素環境依存モデルを用いたと
きのスポッティング用ネットワークの構成例は図5(点
線の左側と右側とにスポッティング用ネットワークと後
続ヒューリスティック言語の初期状態への接続状況とを
示す)のように、複数個のスポッティング対象音声単位
(たとえば「おととい」、「あさって」、「おおさか
に」、「おおさかまで」、「とーきょーに」、「とーき
ょーまで」という6個の文節)を1個のネットワークで
モデル化をし、種々の遷移履歴情報を保持する番号付与
ノードと上記に同じ番号付与セグメントとをもつスポッ
ティング用ネットワークに対しノードとセグメントとを
示す横長の楕円と長方形とでそれぞれ表す。たとえば当
該セグメントがoosak(a)という長方形中文字表
現は、/a/という括弧内の音素を右音素環境として/
oosak/という音声をモデル化していることを示
す。後続セグメントの語頭音素の違いで最後の音素/a
/を別々の右音素環境依存モデルでモデル化をする必要
があるから、当該セグメントでモデル化をしない。また
スポッティング用ネットワークは、先行ヒューリスティ
ック言語モデルの最終状態と後続ヒューリスティック言
語モデルの初期状態とに接続する複数個の初期ノード
(図5のNI1〜NI3)と最終ノード(図5のNF1〜N
F10 )とをもつ。複数個になるのは、先行と後続ヒュー
リスティック言語モデルの語頭音素が異なるごとに、ス
ポッティング対象モデルの語尾音素モデルを別モデルと
して音声環境が整合する当該先行と後続ヒューリスティ
ック言語モデルを接続するからである。たとえば図5に
示すように「に」の語尾/i/が後続ヒューリスティッ
ク言語モデルの語頭音素の違いで/i(a)/、/i
(i)/、/i(u)/、/i(e)/、/i(o)
/、・・・というモデルに分かれる。またすべてのノー
ドは各時刻(t=1〜T)ごとに、初期ノードNIjでは
前向き尤度ga(1) (NIj,t)だけ、初期ノード以外
では時刻tにおけるノードNj のk(k=1〜Kj 、K
j はノードNj に遷移するセグメント個数)番目前向き
尤度ga(k) (Nj ,t)と、時刻tにノードNj に遷
移するk番目セグメントのセグメント番号gw(k) (N
j ,t)および開始時刻gb(k) (Nj ,t)とをそれ
ぞれ履歴情報として保持する。一方すべてのセグメント
は各時刻(t=1〜T)ごとに、状態Sj (j=1〜J
m 、Jm はセグメントmの状態数)の前向き尤度α(m)
(Sj ,t)と、セグメントhm の開始時刻btk(m)
(Sj ,t)とを情報として保持する。
【0006】スポッティング手段9は、各時刻t=1〜
Tごとに、以下の手順1から6の処理を繰り返すことに
よってスポッティング結果108を求めて出力する。 (手順1)初期ノードの履歴情報のセット ヒューリスティック言語モデル照合手段2の出力である
ヒューリスティック前向き尤度103の値を、スポッテ
ィング用ネットワークの初期ノードにコピーすることで
履歴情報をセットする。具体的には(1)式によってス
ポッティング用ネットワークの全ての初期ノードN
Ij(j=1〜GI,GI:初期ノード数)の履歴情報であ
る前向き尤度ga(1) (NIj,t)を求める。 ga(1) (NIj,t)=Sfw(SFk,t),j=1〜GI (1) ここで、Sfw(SFk,t)は先行ヒューリスティック言
語モデルの最終状態SFkのヒューリスティック前向き尤
度103である。SFkは先行ヒューリスティック言語モ
デルの最終状態のうちでスポッティング用ネットワーク
の初期ノードNIjに接続する状態である。図3と図5の
接続ではたとえばNI1にはSF5、NI2にはSF6がそれぞ
れ接続する。 (手順2)ノードからセグメントの初期状態への履歴情
報の伝搬 スポッティング用ネットワークの全てのセグメントhm
(m=1〜P,P:スポッティング用ネットワークの総
セグメント数)に対して以下の(2)、(3)式によっ
てセグメントhm の初期状態S1 、時刻tにおける前向
き尤度であるα(m) (S1,t)を求める。また(4)
式によってセグメントhmの開始時刻を求める。 α(m) (S1 ,t)=max{g(max) (Nm ,t),α(m)(S1,t−1) +log(a11*b11(Xt ))},i=1〜P (2) g(1) (Nm ,t)(Nm が初期ノードのとき) g(max)(Nm,t)={ (3) maxj(j) (Nm ,t),j=1〜Km (Nm が初期ノード以外のとき) t (g(max)(Nm,t)≧α(m)(S1,t−1)+ log(a11*b11(Xt ))のとき) btk(m) (S1 ,t)={ (4) btk(m)(S1,t−1) (g(max)(Nm,t)<α(m)(S1,t−1)+ log(a11*b11(Xt))のとき) ここで、Nm はセグメントhm へ遷移するスポッティン
グ用ネットワークのノード、a11はセグメントhm の初
期状態S1 の自己ループ確率、b11(Xt )は初期状態
1 での自己ループの際に特徴ベクトルXt を出力する
確率である。時刻t=1では全ノードのうち初期ノード
のみが前向き尤度の値を持っている。したがって初期ノ
ードから遷移するセグメントのみが前向き尤度と開始時
刻の値をセットされることになるが、時刻tが進むにし
たがって以下に述べる手順(3)と(4)の処理によっ
て全てのノードの前向き尤度がセットされるので、本手
順(2)によって全てのセグメントの初期状態の前向き
尤度と開始時刻の値がセットされることになる。 (手順3)セグメントの初期状態以外の尤度計算 スポッティング用ネットワークの全てのセグメントhm
(m=1〜P,P:スポッティング用ネットワーク中の
総セグメント数)に対して(5)式によってセグメント
mの初期状態以外の状態Si(i=2〜Jm,Jm:セグ
メントmの状態数)の時刻tにおける前向き尤度である
α(m)(Si,t)を求める。また(6)、(7)式によ
ってセグメントhmの開始時刻の情報を求める。 α(m) (Si ,t)=maxj {α(m) (Sj ,t−1)+log(aji*b ji (Xt ))}m=1〜P,i=2〜Jm (5) btk(m) (Si ,t)=btk(m) (Sjmax,t−1),m=1〜P,i= 2〜Jm (6) jmax=argmaxj {α(m) (Sj ,t−1)*aji*bji(Xt )} (7) ここで、ajiはセグメントhmの状態Sjから状態Si
の遷移確率、bji(Xt)は状態Sj から状態Si への
遷移の際に特徴ベクトルXt を出力する確率である。 (手順4)初期ノード以外の履歴情報のセット スポッティング用ネットワークの全ての初期ノード以外
のノードNj (j=1〜Gm,Gm:初期以外のノード
数)の履歴情報は、そのノードに遷移するセグメントの
前向き尤度やそのセグメントの開始時刻などを(8)、
(9)、(10)式によってコピーすることでセットす
る。 ga(k) (Nj ,t)=α(k) (SJ ,t),j=1〜Gm ,k=1〜Kj (8) gw(k) (Nj ,t)=w(k) ,j=1〜Gm ,k=1〜Kj (9) gb(k) (Nj ,t)=btk(k) (SJ ,t),j=1〜Gm ,k=1〜K j (10) ここで、KjはノードNjへ遷移するセグメントの数、g
(k)(Nj,t)は時刻tにおけるノードNjのk番目
の前向き尤度、α(k)(SJ,t)はノードNjへ遷移す
るk番目のセグメントの最終状態SJの時刻tにおける
前向き尤度、gw( k)(Nj,t)は時刻tにノードNj
に遷移したk番目のセグメントのセグメント番号、w
(k)はノードNjを遷移先とするk番目のセグメントのセ
グメント番号である。またgb(k) (Nj,t)は時刻
tにノードNjへ遷移するk番目のセグメントの開始時
刻、btk(k) (SJ,t)は時刻tに最終状態SJに到
達したk番目のセグメントの開始時刻である。(8)、
(9)、(10)式からわかるとおり、スポッティング
用ネットワークの各ノードにはそのノードに遷移する全
てのセグメントの前向き尤度とセグメント番号とそのセ
グメントの開始時刻を履歴情報として保持することにな
る。 (手順5)最終ノードからのバックトラック スポッティング用ネットワークの全ての最終ノードNFj
(j=1〜GF,GF:最終ノード数、図5ではNF1〜N
F10 )からバックトラック処理を行なう。バックトラッ
クとは上記手順4で求めたノード履歴情報を用いてスポ
ッティング用ネットワークの最終ノードから初期ノード
へと遷移の履歴を辿ることである。バックトラック処理
はgw(k)(Nj,t)とgb(k)(Nj,t)によって当
該ノードに遷移したセグメント番号とそのセグメントの
開始時刻を得、そのセグメントの遷移元のノードから、
さらに同様の手続きによって遷移元のノードを辿ること
を初期ノードに到達するまで繰り返すことによって実現
できる。本例ではバックトラック処理は文献(Rich
ard Schwartz and SteveAus
tin,“A comparison of seve
ral approximate algorithm
s for finding multiple(N−
best)sentence hyoithese
s”,Proceedings of 1991 In
ternational Conference on
Acoustics,Speech & Signa
l Processing,701−704頁)に示さ
れているlattice N−Bestの方式を用い
る。このlattice N−Bestの方式を用いる
ことにより、最終ノードNFjごとに複数個のバックトラ
ック結果を得ることができる。バックトラック結果とは
セグメントの系列と、そのセグメントの系列の開始時刻
と、そのセグメントの系列に対する前向き尤度である。
前記セグメントの系列に対する前向き尤度は、上述の手
順4で説明したノードの前向き尤度であるga
(k)(Nj,t)を用いて計算できる。本例では時刻tに
おける最終ノードNFjからのk番目のバックトラック結
果であるセグメントの系列をseq(k) (NFj,t)、
セグメントの系列の開始時刻をstime(k) (NFj
t)、前向き尤度をSC(k) fw (NFj,t)と表すこと
にする。この前向き尤度SC(k) fw (NFj,t)は先行
ヒューリスティック言語モデル5にセグメント系列であ
るseq(K ) (NFj,t)を接続して構成した音声パタ
ンモデルを用いて、特徴ベクトルの時系列102に対す
る時刻1からtまでの前向き尤度を計算した値を近似し
たものになっている。 (手順6)スポッティング結果の決定 手順5で求めたバックトラック結果の全て、すなわちス
ポッティング用ネットワーク中の全ての最終ノードNFj
(図5ではNF1〜NF10 )からの全てのバックトラック
結果に対して(11)式によりスポッティングスコアを
求める。 SC(k) (NFj,t)=SC(k) fw (NFj,t)+Sbw(SNFj ,t),j= 1〜GF ,k=1〜KFj (11) ここで、NFjはスポッティング用ネットワークの最終ノ
ード、SC(k) (NFj,t)はノードNFjのk番目のス
ポッティングスコア、SC(k) fw (NFj,t)は手順5
で求めたノードNFjのk番目の前向き尤度、Sbw(S
NFj ,t)は後続ヒューリスティック言語モデルの初期
状態SNFj の時刻tにおける後向き尤度、SNFj は後続
ヒューリスティック言語モデルの初期状態のうちでスポ
ッティング用ネットワーク10の最終ノードNFjに接続
する状態である。図5ではたとえば、NF1にはSI1、N
F2にはSI2がそれぞれ接続する。(11)式の右辺の第
1項と第2項の和は、スポッティング用ネットワークの
後方に後続ヒューリスティック言語モデルを接続して、
特徴ベクトルの時系列4に対する時刻1からTまで、す
なわち特徴ベクトルの時系列102の全区間に対するス
コアを求めることを意味している。スポッティング手段
9は、(11)式で求めた全てのスポッティングスコア
の中から、その値の大きい上位Z個を選択し、そのスポ
ッティングスコアとセグメントの系列とその開始時刻を
スポッティング結果108として出力する。ここでZは
あらかじめ決めておいた定数である。図の例では6個の
文節がスポッティング対象モデルとなっているが、Z=
3とすれば、スポッティングスコアの高い上位3個の文
節に対するスポッティング結果が得られる。
【0007】
【発明が解決しようとする課題】上記のような従来の音
声スポッティング装置では、音素環境依存モデルを用い
るヒューリスティック音声スポッティング方式を採るか
ら、スポッティングスコアを算出するには、各時刻ごと
にスポッティング用ネットワークの全最終ノードからバ
ックトラックをし前向き尤度を求める必要があり、スポ
ッティング対象音声単位数が多くなるほどスポッティン
グ用ネットワーク規模も大きくなりかつ最終ノード数も
多くなるから、バックトラック回数が膨大になり所要演
算量が非常に大きくなる問題点があった。
【0008】この発明が解決しようとする課題は、音声
スポッティング装置で上記問題点を解消するように、バ
ックトラック処理を施すスポッティング用ネットワーク
の最終ノードを各時刻ごとに選択しスポッティングスコ
ア算出をする方式(音素環境依存モデルを用いる最終ノ
ード選択ヒューリスティック音声スポッティング方式)
を提供することにある。
【0009】
【課題を解決するための手段】この発明の音声スポッテ
ィング装置は、上記課題を解決するためつぎの手段を設
け、音素環境依存モデルを用いる最終ノード選択ヒュー
リスティック音声スポッティング方式を採ることを特徴
とする。
【0010】分析手段は、入力音声信号に対し分析をし
当該特徴ベクトル時系列に変換をする。
【0011】ヒューリスティック言語モデル照合手段
は、分析手段による特徴ベクトル時系列に対し、別途設
けるスポッティング対象音声に先行/後続をする種々の
発声内容音声の特徴ベクトル時系列に対し音素環境依存
モデルによるモデル化をする先行/後続ヒューリスティ
ック言語モデルを用い、時間軸上の順/逆方向に当該先
行/後続ヒューリスティック言語モデルの最終/初期状
態でヒューリスティック前/後向き尤度を算出する。
【0012】ネットワーク照合手段は、ヒューリスティ
ック言語モデル照合手段によるヒューリスティック前向
き尤度と分析手段による特徴ベクトル時系列とに対し、
別途設けるスポッティング対象音声の特徴ベクトル時系
列に対し音素環境依存モデルによるモデル化をするスポ
ッティング用ネットワークを用い、当該スポッティング
用ネットワークの複数個の最終ノードごとに最尤前向き
尤度とノード履歴情報とを算出する。
【0013】バックトラックノード選択手段は、ネット
ワーク照合手段による最尤前向き尤度に対し、当該値が
高い1個以上の、またはスポッティング用ネットワーク
の最終ノードに対し当該ノードへ遷移する母音のモデル
で分類し構成をする母音別最終ノードクラスタごとの各
クラスタ内で当該最尤前向き尤度の値が最も高いスポッ
ティング用ネットワークの最終ノード番号を選択する。
またはネットワーク照合手段による最尤前向き尤度に代
えてヒューリスティック言語モデル照合手段によるヒュ
ーリスティック後向き尤度に対し、当該値が高い1個以
上の後続ヒューリスティック言語モデルの初期状態と接
続するスポッティング用ネットワークの最終ノード番号
を選択する。またはネットワーク照合手段による最尤前
向き尤度に加えてヒューリスティック言語モデル照合手
段によるヒューリスティック後向き尤度とから各最終ノ
ードごとに算出をする最尤両方向尤度に対し、当該値が
高い1個以上のスポッティング用ネットワークの最終ノ
ード番号を選択する。または上記最尤両方向尤度に対
し、上記母音別最終ノードクラスタごとの各クラスタ内
で当該最尤両方向尤度の値が最も高いスポッティング用
ネットワークの最終ノード番号を選択する。または上記
最尤両方向尤度に対し、まず上記母音別最終ノードクラ
スタごとの各クラスタ内で当該最尤両方向尤度の値が最
も高いスポッティング用ネットワークの最終ノードを抽
出し、つぎに当該抽出最終ノード内で当該最尤両方向尤
度の値が高い1個以上の、もしくは当該最尤両方向尤度
の値と当該最大値との尤度差が所定閾値以下の、最終ノ
ード番号を選択する。
【0014】スポッティング結果出力手段は、バックト
ラックノード選択手段による最終ノード番号とヒューリ
スティック言語モデル照合手段によるヒューリスティッ
ク後向き尤度とネットワーク照合手段によるノード履歴
情報とに対し、スポッティング用ネットワークのすべて
の最終ノードのうち当該最終ノード番号だけから初期ノ
ードへと当該ノード履歴情報を辿るバックトラック処理
を施して算出するスポッティング結果を出力する。
【0015】
【発明の実施の形態】この発明の実施の一形態を示す音
声スポッティング装置は図1のように、分析手段1とヒ
ューリスティック言語モデル照合手段2と先行/後続ヒ
ューリスティック言語モデル格納手段6/7とスポッテ
ィング用ネットワーク格納手段8は、上記従来例の図2
に対応する。ネットワーク照合手段3は、分析手段1に
よる特徴ベクトル時系列102とヒューリスティック言
語モデル照合手段2によるヒューリスティック前向き尤
度103とに対し、スポッティング用ネットワーク格納
手段8によるスポッティング用ネットワークを用い、各
時刻t=1〜Tごとに別途定義をする手順の処理をしス
ポッティング用ネットワークの複数個の最終ノードごと
に最尤前向き尤度105とノード履歴情報106を算出
する。バックトラックノード最終手段4は、ネットワー
ク照合手段3による最尤前向き尤度105に対し、当該
値が高い上位L(1≦L<最終ノード数GF を満たす予
め決める定数)個のスポッティング用ネットワーク格納
手段8によるスポッティング用ネットワークの最終ノー
ド番号107を選択する。スポッティング結果出力手段
5は、バックトラックノード選択手段4による最終ノー
ド番号107とヒューリスティック言語モデル照合手段
2によるヒューリスティック後向き尤度104とネット
ワーク照合手段3によるノード履歴情報106とに対
し、スポッティング用ネットワーク格納手段8によるス
ポッティング用ネットワークの全最終ノードのうち当該
最終ノード番号107だけから初期ノードへと当該ノー
ド履歴情報106を辿るバックトラック処理を施し算出
をするスポッティング結果108を出力する。最尤前向
き尤度105の値が高い方を選択し低い最終ノードに対
しバックトラック処理をしないことにより、当該所要演
算量を小さく抑えられる。
【0016】上記実施の形態の音声スポッティング装置
は、バックトラック処理を施すスポッティング用ネット
ワークの最終ノードを各時刻ごとに選択しスポッティン
グスコア算出をする方式(音素環境依存モデルを用いる
最終ノード選択ヒューリスティック音声スポッティング
方式)を採る。
【0017】ネットワーク照合手段3は、特徴ベクトル
の時系列102とヒューリスティック前向き尤度103
を入力とし、スポッティング用ネットワークを用いて、
以下に示す手順1〜5の動作を行なうことによって、各
時刻t=1〜T毎にスポッティング用ネットワークの最
終ノードごとに最尤度前向き尤度105とノード履歴情
報106を計算し、出力する。ネットワーク照合手段3
で求めるノード履歴情報106は従来技術で求めた履歴
情報と同じものであるが、最尤前向き尤度105は本発
明で新たに用いるものである。 (手順1)初期ノードの履歴情報のセット 従来技術のスポッティング手段の動作で説明した手順1
と同じ動作をしてスポッティング用ネットワークの初期
ノードNIjの履歴情報である前向き尤度ga(1 )
(NIj,t)を求める。 (手順2)ノードからセグメントの初期状態への履歴情
報の伝搬 従来技術のスポッティング手段の動作で説明した手順2
と同じ動作をして、スポッティング用ネットワークの全
てのセグメントhm (m=1〜P,P:スポッティング
用ネットワークの総セグメント数)に対してセグメント
m の初期状態S1 、時刻tにおける前向き尤度である
α(m) (S1 ,t)と開始時刻であるbtk(m) (S
1 ,t)を求める。 (手順3)セグメントの初期状態以外の尤度計算 従来技術のスポッティング手段の動作で説明した手順3
と同じ動作をして、スポッティング用ネットワークの全
てのセグメントhm (m=1〜P,P:スポッティング
用ネットワーク10の総セグメント数)に対して初期状
態以外の状態S i (i=2〜Jm ,Jm :セグメントm
の状態数)の時刻tにおける前向き尤度であるα(m)
(S1 ,t)と開始時刻であるbtk(m)(S1 ,t)
を求める。 (手順4)初期ノード以外の履歴情報のセット 従来技術のスポッティング手段の動作で説明した手順4
と同じ動作をして、スポッティング用ネットワークの全
ての初期ノード以外のノードNj (j=1〜Gm ,G
m :初期以外のノード数)の履歴情報であるga(k)
(Nj ,t)とgw(k) (Nj ,t)とgb(k) (N
j ,t),(j=1〜Gm ,k=1〜Kj )を求める。 (手順5)最終ノードの最尤前向き尤度セット スポッティング用ネットワークの全ての最終ノードNFj
(j=1〜GF ,GF:最終ノード数、図5ではNF1
F10 )の最尤前向き尤度105であるSC(m ax) fw
(NFj,t)を(12)式により求める。 SC(max) fw (NFj,t)=g(max) (NFj,t),j=1〜GF (12) (12)式からわかるとおり最尤前向き尤度105であ
るSC(max) fw (NFj,t)は最終ノードNFjが保持し
ている複数個の前向き尤度のうち最大値の尤度であり、
その値はバックトラックすることなしに得ることができ
る。また最終ノードNFjの最尤前向き尤度105である
SC(max) fw (NFj,t)は、従来技術でスポッティン
グ手段の動作の手順5で述べたバックトラック処理によ
って求める前向き尤度SC(k) fw (NFj,t)とは(1
3)式の関係にあることは、最尤前向き尤度であるSC
(max) fw (NFj,t)と前向き尤度であるSC(k) fw
(NFj,t)の定義により明らかなことであり、最尤前
向き尤度105であるSC(max ) fw (NFj,t)の値が
低ければ前向き尤度SC(k) fw (NFj,t)の値も低い
ことになる。 SC(max) fw (NFj,t)≧SC(k) fw (NFj,t),j=1〜GF (13) バックトラックノード選択手段4は、ネットワーク照合
手段3の出力である各最終ノードごとの最尤前向き尤度
105であるSC(max) fw (NFj,t)(j=1〜
F,GF:最終ノード数)を入力として、最尤前向き尤
度105の値が高い上位L個の最終ノードの最終ノード
番号107を出力する。この上位L個のノード番号10
7をFq(n)(n=1〜L)と記すことにする。ここで前
記Lは1≦L<GFの関係を満たすあらかじめ決められ
た定数である。
【0018】スポッティング結果出力手段5は、ヒュー
リスティック言語モデル照合手段2の出力であるヒュー
リスティック後向き尤度104とネットワーク照合手段
の出力であるノード履歴情報106とバックトラックノ
ード選択手段4の出力である最終ノード番号107を入
力として、各時刻t=1〜T毎に以下に示す手順1、2
の動作を繰り返すことによってスポッティング結果10
8を出力する。 (手順1)選択されたノードに対するバックトラック処
理 ネットワーク照合手段3の出力であるノード履歴情報1
06を用い、全最終ノードのうちバックトラックノード
選択手段から出力された最終ノード番号107であるF
q(n)(n=1〜L)のみからバックトラック処理を行な
う。バックトラック処理は従来技術と同じ方法で行な
い、最終ノードNFq(n) からのk番目のバックトラック
結果であるセグメントの系列seq(k) (NFq(n)
t)とセグメントの系列の開始時刻stime(k) (N
Fq(n) ,t)と、前向き尤度をSC(k ) fw (NFq(n)
t)を求める。 (手順2)スポッティング結果の決定 手順1で求めたバックトラック結果に対して(14)式
によりスポッティングスコアを求める。 SC(k) (NFg(n),t)=SC(k) fw (NFq(n),t)+Sbw(SNFq(n),t )n=1〜L (14) ここで、NFq(n) はバックトラックノード選択手段で選
択されたn番目の最終ノード、SC(k) (NFq(n)
t)はノードNFq(n) のk番目のスポッティングスコ
ア、SC(k) fw (NFq(n) ,t)が手順1で求めたノー
ドNFq(n) のk番目の前向き尤度、Sbw(SNFq(n)
t)が後続ヒューリスティック言語モデルの状態S
NFq(n)の時刻tにおける後向き尤度、SNFq(n)は後続ヒ
ューリスティック言語モデルの初期状態のうちでスポッ
ティング用ネットワークの最終ノードNFq(n ) に接続す
る状態である。スポッティング結果出力手段5は(1
4)式で求めた全てのスポッティングスコアの中から、
その値の大きい上位Z個を選択し、そのスポッティング
スコアとセグメントの系列とその開始時刻をスポッティ
ング結果12として出力する。ここでZはあらかじめ決
めておいた定数である。上記のようにバックトラックノ
ード選択手段4によって最尤前向き尤度105の値が高
い最終ノードを選択し、最尤前向き尤度105の値が低
い最終ノードに対してはバックトラック処理をしないこ
とによってバックトラックに要する演算量を小さく抑え
られる。最尤前向き尤度105の値が低い最終ノードか
らのバックトラックが不要となる理由は最尤前向き尤度
105が低ければ(13)式で示した関係により(1
4)式の右辺の第1項であるノードの前向き尤度の値も
低いので、(14)式で計算されるスポッティングスコ
アも低い値となり、最終的にスポッティング結果として
出力される、スポッティングスコアの高い上位Z個に含
まれる可能性は小さいからである。
【0019】なお上記図1に示す発明の実施の形態でバ
ックトラックノード選択手段4に代えて後向き/両方向
/母音別/両方向母音別/母音別二段階/母音別閾値バ
ックトラックノード選択手段4a/4b/4c/4d/
4e/4fとして構成してもよい。後向きバックトラッ
クノード選択手段4aは、ネットワーク照合手段3によ
る最尤前向き尤度105に代えてヒューリスティック言
語モデル照合手段によるヒューリスティック後向き尤度
104に対し、当該値が高い上位L個の後続ヒューリス
ティック言語モデルの初期状態と接続するスポッティン
グ用ネットワーク格納手段8によるスポッティング用ネ
ットワークの最終ノード番号107を選択する。たとえ
ば図4で選択をする後続ヒューリスティック言語モデル
の初期状態SI1およびSI2と接続するスポッティング用
ネットワークの最終ノードはそれぞれ図5でNF1とNF6
およびNF5とNF10 だから、当該各最終ノード番号F1
とF6とF5 とF10を出力する。ヒューリスティック後
向き尤度104の値が高い方を選択し低い最終ノードに
対しバックトラック処理をしないことにより、当該所要
演算量を小さく抑えられる。両方向バックトラックノー
ド選択手段4bは、ネットワーク照合手段3による最尤
前向き尤度105に加えてヒューリスティック言語モデ
ル照合手段2によるヒューリスティック後向き尤度10
4とから、各最終ノードごとに算出をする最尤両方向尤
度SCfw (max) (NFj,t)=SCfw (max) (NFj
t)+Sbw(SNFj,t)(ただしj=1〜GF 、GF
は最終ノード数)に対し、当該値が高い上位L個のスポ
ッティング用ネットワーク格納手段8によるスポッティ
ング用ネットワークの最終ノード番号107を選択す
る。最尤両方向尤度の値が高い方を選択し低い最終ノー
ドに対しバックトラック処理をしないことにより、当該
所要演算量を小さく抑えられる。母音別バックトラック
ノード選択手段4cは、ネットワーク照合手段3による
最尤前向き尤度105に対し、別途設定をする母音別最
終ノードクラスタごとの各クラスタ内で当該最尤前向き
尤度105の値が最も高いスポッティング用ネットワー
ク格納手段8によるスポッティング用ネットワークの最
終ノード番号107を選択する。母音別最終ノードクラ
スタは、各遷移元セグメントがモデル化をする母音の同
じ(ただし右音素環境は異なる)スポッティング用ネッ
トワークの各最終ノード同士をまとめ1つのクラスタと
して設定をする。たとえば図5で遷移元セグメントがモ
デル化をする母音/e/の同じ各最終ノードNF6〜N
F10 同士をまとめ1つのクラスタとする。遷移元セグメ
ントがモデル化をする母音の同じ最終ノード同士では、
最尤前向き尤度105の値が最も高い最終ノードだけを
選択することにより、後続(右側)音素環境だけが異な
りセグメントがモデル化をする音声の同じスポッティン
グ結果同士(たとえば/ototoi(a)/と/ot
otoi(i)/)では、スポッティングスコアが最高
となる可能性が高い最終ノードだけからバックトラック
処理をすることになり、当該所要演算量を小さく抑えか
つ効率的にスポッティング結果を出力できる。両方向母
音別バックトラックノード選択手段4dは、ネットワー
ク照合手段3による最尤前向き尤度105に加えてヒュ
ーリスティック言語モデル照合手段2によるヒューリス
ティック後向き尤度104とから各最終ノードごとに算
出をする最尤両方向尤度(両方向バックトラックノード
選択手段4bに同じ)に対し、母音別最終ノードクラス
タ(母音別バックトラックノード選択手段4cに同じ)
ごとの各クラスタ内で当該最尤両方向尤度の値が最も高
いスポッティング用ネットワーク格納手段8によるスポ
ッティング用ネットワークの最終ノード番号107を選
択する。上記母音別バックトラックノード選択手段4c
で最尤前向き尤度105に代えて最尤両方向尤度とし同
じ効果を得る。母音別二段階バックトラックノード選択
手段4eは、ネットワーク照合手段3による最尤前向き
尤度105に加えてヒューリスティック言語モデル照合
手段2によるヒューリスティック後向き尤度104とか
ら各最終ノードごとに算出をする最尤両方向尤度(両方
向バックトラックノード選択手段4bに同じ)に対し、
まず母音別最終ノードクラスタ(母音別バックトラック
ノード選択手段4cに同じ)ごとの各クラスタ内で当該
最尤両方向尤度の値が最も高いスポッティング用ネット
ワーク格納手段8によるスポッティング用ネットワーク
の最終ノードNFg (n) (n=1〜C、Cは最終ノードク
ラスタ数)を抽出する。つぎに当該抽出最終ノード内で
当該最尤両方向尤度の値が高い上位D(1≦D<Cを満
たす予め決める定数)個の最終ノード番号107を選択
する。母音別最終ノードクラスタごとに抽出をする最尤
両方向尤度の値が最も高い最終ノード内で当該最尤両方
向尤度の値が高い上位1個以上の最終ノードを選択する
ことにより、両方向母音別バックトラックノード選択手
段4dよりもさらにバックトラック処理の所要演算量を
小さく抑えられる。母音別閾値バックトラックノード選
択手段4fは、ネットワーク照合手段3による最尤前向
き尤度105に加えてヒューリスティック言語モデル照
合手段2によるヒューリスティック後向き尤度104と
から各最終ノードごとに算出をする最尤両方向尤度(両
方向バックトラックノード選択手段4bに同じ)に対
し、まず母音別最終ノードクラスタ(母音別バックトラ
ックノード選択手段4cに同じ)ごとの各クラスタ内で
当該最尤両方向尤度の値が最も高いスポッティング用ネ
ットワーク格納手段8によるスポッティング用ネットワ
ークの最終ノードNFg(n ) (n=1〜C、Cは最終ノー
ドクラスタ数)を抽出する。つぎに当該抽出最終ノード
内で当該最尤両方向尤度の値と当該最大値との尤度差が
所定閾値TH(≧0)以下の最終ノード番号107F
u(n)(n=1〜ETH、ETHは1≦ETH≦Cを満たす閾値
THにより決まる数)を選択する。母音別最終ノードク
ラスタごとに抽出をする最尤両方向尤度の値が最も高い
最終ノード内で当該最尤両方向尤度の値が所定閾値以上
の最終ノードを選択することにより、両方向母音別バッ
クトラックノード選択手段4dよりもさらにバックトラ
ック処理の所要演算量を小さく抑えられる。
【0020】
【発明の効果】上記のようなこの発明の音声スポッティ
ング装置では、バックトラック処理を施すスポッティン
グ用ネットワークの最終ノードを各時刻ごとに選択しス
ポッティングスコア算出をする方式を採るから、各時刻
ごとにすべての最終ノードからバックトラック処理をす
る必要がなくなり、当該所要演算量は小さく抑えられる
効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の一形態を示す音声スポッテ
ィング装置の機能ブロック図。
【図2】 従来の技術を示す音声スポッティング装置の
機能ブロック図および先行/後続ヒューリスティック言
語モデルとスポッティング用ネットワークとの接続方法
を説明する概略ブロック図。
【図3】 右音素環境依存モデルを用い構成する先行ヒ
ューリスティック言語モデル構成を説明する図。
【図4】 右音素環境依存モデルを用い構成する後続ヒ
ューリスティック言語モデル構成を説明する図。
【図5】 右音素環境依存モデルを用い構成するスポッ
ティング用ネットワーク構成を説明する図。
【符号の説明】
1 分析手段、2 ヒューリスティック言語モデル照合
手段、3 ネットワーク照合手段、4 バックトラック
ノード選択手段、5 スポッティング結果出力手段、6
先行ヒューリスティック言語モデル格納手段、7 後
続ヒューリスティック言語モデル格納手段、8 スポッ
ティング用ネットワーク格納手段、101 入力音声信
号、102 特徴ベクトル時系列、103 ヒューリス
ティック前向き尤度、104 ヒューリスティック後向
き尤度、105 最尤前向き尤度、106 ノード履歴
情報、107 最終ノード番号、108 スポッティン
グ結果。 なお図中、同一符号は同一または相当部分を示す。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号に対し分析をし当該特徴ベ
    クトル時系列に変換をする分析手段と、該分析手段によ
    る特徴ベクトル時系列に対し、別途設けるスポッティン
    グ対象音声に先行/後続をする種々の発話内容音声の特
    徴ベクトル時系列に対し音素環境依存モデルによるモデ
    ル化をする先行/後続ヒューリスティック言語モデルを
    用い、時間軸上の順/逆方向に当該先行/後続ヒューリ
    スティック言語モデルの最終/初期状態でヒューリステ
    ィック前/後向き尤度を算出するヒューリスティック言
    語モデル照合手段と、該ヒューリスティック言語モデル
    照合手段によるヒューリスティック前向き尤度と前記分
    析手段による特徴ベクトル時系列とに対し、別途設ける
    スポッティング対象音声の特徴ベクトル時系列に対し音
    素環境依存モデルによるモデル化をするスポッティング
    用ネットワークを用い、当該スポッティング用ネットワ
    ークの複数個の最終ノードごとに最尤前向き尤度とノー
    ド履歴情報とを算出するネットワーク照合手段と、該ネ
    ットワーク照合手段による最尤前向き尤度に対し、当該
    値が高い1個以上の前記スポッティング用ネットワーク
    の最終ノード番号を選択するバックトラックノード選択
    手段と、該バックトラックノード選択手段による最終ノ
    ード番号と前記ヒューリスティック言語モデル照合手段
    によるヒューリスティック後向き尤度とネットワーク照
    合手段によるノード履歴情報とに対し、当該スポッティ
    ング用ネットワークのすべての最終ノードのうち前記最
    終ノード番号だけから初期ノードへと当該ノード履歴情
    報を辿るバックトラック処理を施して算出するスポッテ
    ィング結果を出力するスポッティング結果出力手段とを
    備える音声スポッティング装置。
  2. 【請求項2】 バックトラックノード選択手段でネット
    ワーク照合手段による最尤前向き尤度に代えてヒューリ
    スティック言語モデル照合手段によるヒューリスティッ
    ク後向き尤度に対し、当該値が高い1個以上の後続ヒュ
    ーリスティック言語モデルの初期状態を接続するスポッ
    ティング用ネットワークの最終ノード番号を選択するこ
    とを特徴とする請求項1記載の音声スポッティング装
    置。
  3. 【請求項3】 バックトラックノード選択手段でネット
    ワーク照合手段による最尤前向き尤度に加えてヒューリ
    スティック言語モデル照合手段によるヒューリスティッ
    ク後向き尤度とから各最終ノードごとに算出をする最尤
    両方向尤度に対し、当該値が高い1個以上のスポッティ
    ング用ネットワークの最終ノード番号を選択することを
    特徴とする請求項1記載の音声スポッティング装置。
  4. 【請求項4】 バックトラックノード選択手段でネット
    ワーク照合手段による最尤前向き尤度に対し、スポッテ
    ィング用ネットワークの最終ノードに対し当該ノードへ
    遷移する母音のモデルで分類し構成をする母音別最終ノ
    ードクラスタごとの各クラスタ内で当該最尤前向き尤度
    の値が最も高いスポッティング用ネットワークの最終ノ
    ード番号を選択することを特徴とする請求項1記載の音
    声スポッティング装置。
  5. 【請求項5】 バックトラックノード選択手段で請求項
    3記載の最尤両方向尤度に対し、請求項4記載の母音別
    最終ノードクラスタごとの各クラスタ内で当該最尤両方
    向尤度の値が最も高いスポッティング用ネットワークの
    最終ノード番号を選択することを特徴とする請求項1記
    載の音声スポッティング装置。
  6. 【請求項6】 バックトラックノード選択手段で請求項
    3記載の最尤両方向尤度に対し、まず請求項4記載の母
    音別最終ノードクラスタごとの各クラスタ内で当該最尤
    両方向尤度の値が最も高いスポッティング用ネットワー
    クの最終ノードを抽出し、つぎに当該抽出最終ノード内
    で当該最尤両方向尤度の値が高い1個以上の最終ノード
    番号を選択することを特徴とする請求項1記載の音声ス
    ポッティング装置。
  7. 【請求項7】 バックトラックノード選択手段で請求項
    3記載の最尤両方向尤度に対し、まず請求項4記載の母
    音別最終ノードクラスタごとの各クラスタ内で当該最尤
    両方向尤度の値が最も高いスポッティング用ネットワー
    クの最終ノードを抽出し、つぎに当該抽出最終ノード内
    で当該最尤両方向尤度の値と当該最大値との尤度差が所
    定閾値以上の最終ノード番号を選択することを特徴とす
    る請求項1記載の音声スポッティング装置。
JP35913397A 1997-12-26 1997-12-26 音声スポッティング装置 Expired - Fee Related JP3873418B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35913397A JP3873418B2 (ja) 1997-12-26 1997-12-26 音声スポッティング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35913397A JP3873418B2 (ja) 1997-12-26 1997-12-26 音声スポッティング装置

Publications (2)

Publication Number Publication Date
JPH11190999A true JPH11190999A (ja) 1999-07-13
JP3873418B2 JP3873418B2 (ja) 2007-01-24

Family

ID=18462916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35913397A Expired - Fee Related JP3873418B2 (ja) 1997-12-26 1997-12-26 音声スポッティング装置

Country Status (1)

Country Link
JP (1) JP3873418B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
JP2016080863A (ja) * 2014-10-16 2016-05-16 日本放送協会 音声認識誤り修正装置
CN110517679A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
JP2016080863A (ja) * 2014-10-16 2016-05-16 日本放送協会 音声認識誤り修正装置
CN110517679A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
CN110517679B (zh) * 2018-11-15 2022-03-08 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质

Also Published As

Publication number Publication date
JP3873418B2 (ja) 2007-01-24

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
Odell The use of context in large vocabulary speech recognition
JP4322815B2 (ja) 音声認識システム及び方法
US5907634A (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JP2000029495A (ja) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
Renals et al. Decoder technology for connectionist large vocabulary speech recognition
JP2003515777A (ja) 会話中の典型的な誤り用の相補的言語モデルを用いる音声認識
Lee et al. Acoustic modeling of subword units for speech recognition
JP2886117B2 (ja) 音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Huang et al. A fast algorithm for large vocabulary keyword spotting application
JP2871557B2 (ja) 音声認識装置
JP3873418B2 (ja) 音声スポッティング装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JPH07261785A (ja) 音声認識方法及び音声認識装置
Hanazawa et al. An efficient search method for large-vocabulary continuous-speech recognition
JPH1097275A (ja) 大語彙音声認識装置
Nakagawa et al. The syntax-oriented speech understanding system-SPOJUS-SYNO.
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP2731133B2 (ja) 連続音声認識装置
Lee et al. Acoustic modeling of subword units for large vocabulary speaker independent speech recognition
JPH11184493A (ja) 音声認識装置および方法
Korkmazskiy et al. Statistical modeling of pronunciation and production variations for speech recognition.
Caseiro et al. A decoder for finite-state structured search spaces

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061016

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees