JPH11190999A

JPH11190999A - 音声スポッティング装置

Info

Publication number: JPH11190999A
Application number: JP9359133A
Authority: JP
Inventors: Toshiyuki Hanazawa; 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-12-26
Filing date: 1997-12-26
Publication date: 1999-07-13
Anticipated expiration: 2017-12-26
Also published as: JP3873418B2

Abstract

(57)【要約】【課題】スポッティング用ネットワークの最終ノード
を各時刻ごとに選択しスポッティングスコア算出をする
方式を実現する。【解決手段】入力音声信号１０１を分析し変換する分
析手段１による特徴ベクトル時系列１０２に対しヒュー
リスティック言語モデル照合手段２で先行／後続ヒュー
リスティック言語モデルの最終／初期状態でヒューリス
ティック前／後向き尤度１０３／１０４を算出し、当該
前向き尤度１０３と特徴ベクトル時系列１０２に対しネ
ットワーク照合手段３でスポッティング用ネットワーク
の複数個の最終ノードごとに最尤前向き尤度１０５とノ
ード履歴情報１０６を算出する。バックトラックノード
選択手段４で選択する当該最尤前向き尤度１０５の値が
高い上位Ｌ個の最終ノード番号１０７と当該後向き尤度
１０４とノード履歴情報１０とに対しスポッティング結
果出力手段５でバックトラック処理を施しスポッティン
グ結果１０８を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は連続発声をされた
音声中からある特定の単語や文節（意味的なまとまりを
もつ部分文）のスポッティング（当該発声開始／終了時
刻と当該音声区間の存否信頼度とを求めること）をし出
力する音声スポッティング装置に関する。

【０００２】

【従来の技術】たとえば文献（河原ほか：ヒューリステ
ィックな言語モデルを用いた会話音声中の単語スポッテ
ィング、信学論（Ｄ−ＩＩ）、Ｖｏｌ．Ｊ７８−Ｄ−Ｉ
Ｉ、ｎｏ．７、ｐｐ．１０１３−１０２０、１９９５）
に示す従来の音声スポッティング装置は図２（ａ）のよ
うに、分析手段１は、入力端からの入力音声信号１０１
に対したとえばＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔ
ｉｖｅｃｏｄｉｎｇ）ケプストラム分析をし、当該特
徴ベクトル時系列１０２Ｘ₁ 、Ｘ₂ 、Ｘ₃ ・・・Ｘ_T
（添字は各特徴ベクトルＸの時刻を示す）に変換をす
る。ヒューリスティック言語モデル照合手段２は、分析
手段１による特徴ベクトル時系列１０２に対し、別途格
納をする先行と後続ヒューリスティック言語モデル格納
手段６による先行と後続ヒューリスティック言語モデル
を用い、たとえば文献（中川：確率モデルによる音声認
識、電子情報通信学会、ｐｐ．４０−４６、１９８８）
に示すトレリスアルゴリズムまたはビタビアルゴリズム
で算出をする前向きと後向き確率値の対数化をすること
により、時間軸上で順方向に当該先行ヒューリスティッ
ク言語モデルの最終状態Ｓ_Fjの時刻ｔにおけるヒューリ
スティック前向き尤度１０３Ｓ_fw（Ｓ_Fj，ｔ）（ｔ＝１
〜Ｔ、ｊ＝１〜Ｎ_F 、Ｎ_F は先行ヒューリスティック言
語モデルの最終状態数）と逆方向に当該後続ヒューリス
ティック言語モデルの初期状態Ｓ_Ijの時刻ｔにおけるヒ
ューリスティック後向き尤度１０４Ｓ_bw（Ｓ_Ij，ｔ）
（ｔ＝１〜Ｔ、ｊ＝１〜Ｎ_I 、Ｎ_I は後続ヒューリステ
ィック言語モデルの初期状態数）とを算出する。スポッ
ティング手段９は、分析手段１による特徴ベクトル時系
列１０２とヒューリスティック言語モデル照合手段２に
よるヒューリスティック前向きと後向き尤度１０３と１
０４とに対し、別途格納をするスポッティング用ネット
ワーク格納手段８によるスポッティング用ネットワーク
を用い、各時刻ｔ＝１〜Ｔごとに別途定義をする手順の
処理を繰り返しスポッティング結果１０８を求め出力す
る。

【０００３】上記従来の音声スポッティング装置は、入
力音声は無秩序な発話内容ではなくある言語的な制約を
満たしていると仮定し、当該言語的な制約をヒューリス
ティック言語モデルと称する音声パタンモデルで表現
し、ヒューリスティック言語モデルとスポッティング用
ネットワークとを併用し入力音声全体を考慮するスポッ
ティングスコア（スポッティング対象単語音声のスペク
トル特徴時系列をモデル化した音声パタンモデルと入力
音声のスペクトル特徴時系列１０２との類似度を算出
し、スポッティング音声区間に実際に当該単語が存在す
るかどうかの信頼度を数値化して表現したもの）算出を
する方式（音素環境依存モデルを用いるヒューリスティ
ック音声スポッティング方式）を採る。

【０００４】精度の高いスポッティングはたとえば図２
（ｂ）のように、スポッティング用ネットワークの前方
と後方に先行と後続ヒューリスティック言語モデルを接
続し、入力音声中のスポッティング対象およびそれ以外
の音声区間はそれぞれ当該スポッティング用ネットワー
クおよび先行と後続ヒューリスティック言語モデルでモ
デル化をし入力音声全体に対する尤度を算出し、異なる
時刻の検出単語同士でスポッティングスコア比較をする
ことにより可能となる。ただし当該先行と後続ヒューリ
スティック言語モデルは、なるべく多く入力音声に含む
ことが想定される単語や文節などのモデル化をし構成す
ることが必要になる。

【０００５】先行ヒューリスティック言語モデルと後続
ヒューリスティック言語モデルとスポッティング用ネッ
トワークは、通常ＨＭＭ（ｈｉｄｄｅｎｍａｒｋｏｖ
ｍｏｄｅｌ：隠れマルコフモデル）を用いて構成す
る。ＨＭＭはモデル化する音声単位の違いによって幾つ
かの種類に分類できるが、音素環境依存モデルといわれ
るＨＭＭが認識性能が高いことが知られており最もよく
用いられている。音素環境依存モデルは、同じ音素のモ
デル化をするときでも前後の音素環境の違いで別モデル
として扱う。たとえば後続（右）音素環境を考慮したモ
デルの右音素環境依存モデルのとき、／ｉａ／と／ｉｕ
／では第１音素はともに／ｉ／で後続音素は異なる／ａ
／と／ｕ／だから、第１音素の／ｉ／を別モデルとす
る。後続音素の違いで別モデルを使う必要があるからヒ
ューリスティック言語モデルとスポッティング用ネット
ワークに複数状態同士の接続となる右音素環境依存モデ
ルを用いたときの先行と後続ヒューリスティック言語モ
デルの各構成例は図３（語尾セグメントを示し語頭部分
を省略）と図４（語頭セグメントを示し語尾部分を省
略）のように、１個以上の右音素環境依存モデルを接続
し単語や文節等部分区間のモデル化をし、各音素環境依
存モデルと同じに初期状態と最終状態をもつセグメント
に対し四角で、また先行ヒューリスティック言語モデル
の複数最終状態と先行スポッティング対象モデルの語尾
音素の違いで分かれる後続ヒューリスティック言語モデ
ルの初期状態とに対し丸でそれぞれ表す。たとえば当該
セグメントがａ（ｉ）という長方形中文字表現は、／ｉ
／という括弧内の音素を右音素環境として／ａ／という
音声をモデル化していることを示す。上記のように先行
と後続ヒューリスティック言語モデルは、なるべく多く
入力音声に含むことが想定される単語や文節などのモデ
ル化をし構成することが必要だから、複数個のセグメン
トが必要になる。また右音素環境依存モデルを用いたと
きのスポッティング用ネットワークの構成例は図５（点
線の左側と右側とにスポッティング用ネットワークと後
続ヒューリスティック言語の初期状態への接続状況とを
示す）のように、複数個のスポッティング対象音声単位
（たとえば「おととい」、「あさって」、「おおさか
に」、「おおさかまで」、「とーきょーに」、「とーき
ょーまで」という６個の文節）を１個のネットワークで
モデル化をし、種々の遷移履歴情報を保持する番号付与
ノードと上記に同じ番号付与セグメントとをもつスポッ
ティング用ネットワークに対しノードとセグメントとを
示す横長の楕円と長方形とでそれぞれ表す。たとえば当
該セグメントがｏｏｓａｋ（ａ）という長方形中文字表
現は、／ａ／という括弧内の音素を右音素環境として／
ｏｏｓａｋ／という音声をモデル化していることを示
す。後続セグメントの語頭音素の違いで最後の音素／ａ
／を別々の右音素環境依存モデルでモデル化をする必要
があるから、当該セグメントでモデル化をしない。また
スポッティング用ネットワークは、先行ヒューリスティ
ック言語モデルの最終状態と後続ヒューリスティック言
語モデルの初期状態とに接続する複数個の初期ノード
（図５のＮ_I1〜Ｎ_I3）と最終ノード（図５のＮ_F1〜Ｎ
_F10 ）とをもつ。複数個になるのは、先行と後続ヒュー
リスティック言語モデルの語頭音素が異なるごとに、ス
ポッティング対象モデルの語尾音素モデルを別モデルと
して音声環境が整合する当該先行と後続ヒューリスティ
ック言語モデルを接続するからである。たとえば図５に
示すように「に」の語尾／ｉ／が後続ヒューリスティッ
ク言語モデルの語頭音素の違いで／ｉ（ａ）／、／ｉ
（ｉ）／、／ｉ（ｕ）／、／ｉ（ｅ）／、／ｉ（ｏ）
／、・・・というモデルに分かれる。またすべてのノー
ドは各時刻（ｔ＝１〜Ｔ）ごとに、初期ノードＮ_Ijでは
前向き尤度ｇａ⁽¹⁾ （Ｎ_Ij，ｔ）だけ、初期ノード以外
では時刻ｔにおけるノードＮ_j のｋ（ｋ＝１〜Ｋ_j 、Ｋ
_j はノードＮ_j に遷移するセグメント個数）番目前向き
尤度ｇａ^(k) （Ｎ_j ，ｔ）と、時刻ｔにノードＮ_j に遷
移するｋ番目セグメントのセグメント番号ｇｗ^(k) （Ｎ
_j ，ｔ）および開始時刻ｇｂ^(k) （Ｎ_j ，ｔ）とをそれ
ぞれ履歴情報として保持する。一方すべてのセグメント
は各時刻（ｔ＝１〜Ｔ）ごとに、状態Ｓ_j （ｊ＝１〜Ｊ
_m 、Ｊ_m はセグメントｍの状態数）の前向き尤度α^(m)
（Ｓ_j ，ｔ）と、セグメントｈ_m の開始時刻ｂｔｋ^(m)
（Ｓ_j ，ｔ）とを情報として保持する。

【０００６】スポッティング手段９は、各時刻ｔ＝１〜
Ｔごとに、以下の手順１から６の処理を繰り返すことに
よってスポッティング結果１０８を求めて出力する。（手順１）初期ノードの履歴情報のセットヒューリスティック言語モデル照合手段２の出力である
ヒューリスティック前向き尤度１０３の値を、スポッテ
ィング用ネットワークの初期ノードにコピーすることで
履歴情報をセットする。具体的には（１）式によってス
ポッティング用ネットワークの全ての初期ノードＮ
_Ij（ｊ＝１〜Ｇ_I，Ｇ_I：初期ノード数）の履歴情報であ
る前向き尤度ｇａ⁽¹⁾ （Ｎ_Ij，ｔ）を求める。ｇａ⁽¹⁾ （Ｎ_Ij，ｔ）＝Ｓ_fw（Ｓ_Fk，ｔ），ｊ＝１〜Ｇ_I （１）ここで、Ｓ_fw（Ｓ_Fk，ｔ）は先行ヒューリスティック言
語モデルの最終状態Ｓ_Fkのヒューリスティック前向き尤
度１０３である。Ｓ_Fkは先行ヒューリスティック言語モ
デルの最終状態のうちでスポッティング用ネットワーク
の初期ノードＮ_Ijに接続する状態である。図３と図５の
接続ではたとえばＮ_I1にはＳ_F5、Ｎ_I2にはＳ_F6がそれぞ
れ接続する。（手順２）ノードからセグメントの初期状態への履歴情
報の伝搬スポッティング用ネットワークの全てのセグメントｈ_m
（ｍ＝１〜Ｐ，Ｐ：スポッティング用ネットワークの総
セグメント数）に対して以下の（２）、（３）式によっ
てセグメントｈ_m の初期状態Ｓ₁ 、時刻ｔにおける前向
き尤度であるα^(m) （Ｓ₁，ｔ）を求める。また（４）
式によってセグメントｈ_mの開始時刻を求める。 α^(m) （Ｓ₁ ，ｔ）＝ｍａｘ｛ｇ^(max) （Ｎ_m ，ｔ），α^(m)（Ｓ₁，ｔ−１）＋ｌｏｇ（ａ₁₁＊ｂ₁₁（Ｘ_t ））｝，ｉ＝１〜Ｐ（２）ｇ⁽¹⁾ （Ｎ_m ，ｔ）（Ｎ_m が初期ノードのとき）ｇ^(max)（Ｎ_m，ｔ）＝｛（３）ｍａｘ_jｇ^(j) （Ｎ_m ，ｔ），ｊ＝１〜Ｋ_m （Ｎ_m が初期ノード以外のとき）ｔ（ｇ^(max)（Ｎ_m，ｔ）≧α^(m)（Ｓ₁，ｔ−１）＋ｌｏｇ（ａ₁₁＊ｂ₁₁（Ｘ_t ））のとき）ｂｔｋ^(m) （Ｓ₁ ，ｔ）＝｛（４）ｂｔｋ^(m)（Ｓ₁，ｔ−１）（ｇ^(max)（Ｎ_m，ｔ）＜α^(m)（Ｓ₁，ｔ−１）＋ｌｏｇ（ａ₁₁＊ｂ₁₁（Ｘ_t））のとき）ここで、Ｎ_m はセグメントｈ_m へ遷移するスポッティン
グ用ネットワークのノード、ａ₁₁はセグメントｈ_m の初
期状態Ｓ₁ の自己ループ確率、ｂ₁₁（Ｘ_t ）は初期状態
Ｓ₁ での自己ループの際に特徴ベクトルＸ_t を出力する
確率である。時刻ｔ＝１では全ノードのうち初期ノード
のみが前向き尤度の値を持っている。したがって初期ノ
ードから遷移するセグメントのみが前向き尤度と開始時
刻の値をセットされることになるが、時刻ｔが進むにし
たがって以下に述べる手順（３）と（４）の処理によっ
て全てのノードの前向き尤度がセットされるので、本手
順（２）によって全てのセグメントの初期状態の前向き
尤度と開始時刻の値がセットされることになる。（手順３）セグメントの初期状態以外の尤度計算スポッティング用ネットワークの全てのセグメントｈ_m
（ｍ＝１〜Ｐ，Ｐ：スポッティング用ネットワーク中の
総セグメント数）に対して（５）式によってセグメント
ｈ_mの初期状態以外の状態Ｓ_i（ｉ＝２〜Ｊ_m，Ｊ_m：セグ
メントｍの状態数）の時刻ｔにおける前向き尤度である
α^(m)（Ｓ_i，ｔ）を求める。また（６）、（７）式によ
ってセグメントｈmの開始時刻の情報を求める。 α^(m) （Ｓ_i ，ｔ）＝ｍａｘ_j ｛α^(m) （Ｓ_j ，ｔ−１）＋ｌｏｇ（ａ_ji＊ｂ _ji （Ｘ_t ））｝ｍ＝１〜Ｐ，ｉ＝２〜Ｊ_m （５）ｂｔｋ^(m) （Ｓ_i ，ｔ）＝ｂｔｋ^(m) （Ｓ_jmax，ｔ−１），ｍ＝１〜Ｐ，ｉ＝２〜Ｊ_m （６）ｊｍａｘ＝ａｒｇｍａｘ_j ｛α^(m) （Ｓ_j ，ｔ−１）＊ａ_ji＊ｂ_ji（Ｘ_t ）｝（７）ここで、ａ_jiはセグメントｈ_mの状態Ｓ_jから状態Ｓ_iへ
の遷移確率、ｂ_ji（Ｘ_t）は状態Ｓ_j から状態Ｓ_i への
遷移の際に特徴ベクトルＸ_t を出力する確率である。（手順４）初期ノード以外の履歴情報のセットスポッティング用ネットワークの全ての初期ノード以外
のノードＮ_j （ｊ＝１〜Ｇ_m，Ｇ_m：初期以外のノード
数）の履歴情報は、そのノードに遷移するセグメントの
前向き尤度やそのセグメントの開始時刻などを（８）、
（９）、（１０）式によってコピーすることでセットす
る。ｇａ^(k) （Ｎ_j ，ｔ）＝α^(k) （Ｓ_J ，ｔ），ｊ＝１〜Ｇ_m ，ｋ＝１〜Ｋ_j （８）ｇｗ^(k) （Ｎ_j ，ｔ）＝ｗ^(k) ，ｊ＝１〜Ｇ_m ，ｋ＝１〜Ｋ_j （９）ｇｂ^(k) （Ｎ_j ，ｔ）＝ｂｔｋ^(k) （Ｓ_J ，ｔ），ｊ＝１〜Ｇ_m ，ｋ＝１〜Ｋ _j （１０）ここで、Ｋ_jはノードＮ_jへ遷移するセグメントの数、ｇ
ａ^(k)（Ｎ_j，ｔ）は時刻ｔにおけるノードＮ_jのｋ番目
の前向き尤度、α^(k)（Ｓ_J，ｔ）はノードＮ_jへ遷移す
るｋ番目のセグメントの最終状態Ｓ_Jの時刻ｔにおける
前向き尤度、ｇｗ⁽ ^k)（Ｎ_j，ｔ）は時刻ｔにノードＮ_j
に遷移したｋ番目のセグメントのセグメント番号、ｗ
^(k)はノードＮ_jを遷移先とするｋ番目のセグメントのセ
グメント番号である。またｇｂ^(k) （Ｎ_j，ｔ）は時刻
ｔにノードＮ_jへ遷移するｋ番目のセグメントの開始時
刻、ｂｔｋ^(k) （Ｓ_J，ｔ）は時刻ｔに最終状態Ｓ_Jに到
達したｋ番目のセグメントの開始時刻である。（８）、
（９）、（１０）式からわかるとおり、スポッティング
用ネットワークの各ノードにはそのノードに遷移する全
てのセグメントの前向き尤度とセグメント番号とそのセ
グメントの開始時刻を履歴情報として保持することにな
る。（手順５）最終ノードからのバックトラックスポッティング用ネットワークの全ての最終ノードＮ_Fj
（ｊ＝１〜Ｇ_F，Ｇ_F：最終ノード数、図５ではＮ_F1〜Ｎ
_F10 ）からバックトラック処理を行なう。バックトラッ
クとは上記手順４で求めたノード履歴情報を用いてスポ
ッティング用ネットワークの最終ノードから初期ノード
へと遷移の履歴を辿ることである。バックトラック処理
はｇｗ^(k)（Ｎ_j，ｔ）とｇｂ^(k)（Ｎ_j，ｔ）によって当
該ノードに遷移したセグメント番号とそのセグメントの
開始時刻を得、そのセグメントの遷移元のノードから、
さらに同様の手続きによって遷移元のノードを辿ること
を初期ノードに到達するまで繰り返すことによって実現
できる。本例ではバックトラック処理は文献（Ｒｉｃｈ
ａｒｄＳｃｈｗａｒｔｚａｎｄＳｔｅｖｅＡｕｓ
ｔｉｎ，“Ａｃｏｍｐａｒｉｓｏｎｏｆｓｅｖｅ
ｒａｌａｐｐｒｏｘｉｍａｔｅａｌｇｏｒｉｔｈｍ
ｓｆｏｒｆｉｎｄｉｎｇｍｕｌｔｉｐｌｅ（Ｎ−
ｂｅｓｔ）ｓｅｎｔｅｎｃｅｈｙｏｉｔｈｅｓｅ
ｓ”，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ１９９１Ｉｎ
ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ
Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ＆Ｓｉｇｎａ
ｌＰｒｏｃｅｓｓｉｎｇ，７０１−７０４頁）に示さ
れているｌａｔｔｉｃｅＮ−Ｂｅｓｔの方式を用い
る。このｌａｔｔｉｃｅＮ−Ｂｅｓｔの方式を用いる
ことにより、最終ノードＮ_Fjごとに複数個のバックトラ
ック結果を得ることができる。バックトラック結果とは
セグメントの系列と、そのセグメントの系列の開始時刻
と、そのセグメントの系列に対する前向き尤度である。
前記セグメントの系列に対する前向き尤度は、上述の手
順４で説明したノードの前向き尤度であるｇａ
^(k)（Ｎ_j，ｔ）を用いて計算できる。本例では時刻ｔに
おける最終ノードＮ_Fjからのｋ番目のバックトラック結
果であるセグメントの系列をｓｅｑ^(k) （Ｎ_Fj，ｔ）、
セグメントの系列の開始時刻をｓｔｉｍｅ^(k) （Ｎ_Fj，
ｔ）、前向き尤度をＳＣ^(k) _fw （Ｎ_Fj，ｔ）と表すこと
にする。この前向き尤度ＳＣ^(k) _fw （Ｎ_Fj，ｔ）は先行
ヒューリスティック言語モデル５にセグメント系列であ
るｓｅｑ^(K ⁾ （Ｎ_Fj，ｔ）を接続して構成した音声パタ
ンモデルを用いて、特徴ベクトルの時系列１０２に対す
る時刻１からｔまでの前向き尤度を計算した値を近似し
たものになっている。（手順６）スポッティング結果の決定手順５で求めたバックトラック結果の全て、すなわちス
ポッティング用ネットワーク中の全ての最終ノードＮ_Fj
（図５ではＮ_F1〜Ｎ_F10 ）からの全てのバックトラック
結果に対して（１１）式によりスポッティングスコアを
求める。ＳＣ^(k) （Ｎ_Fj，ｔ）＝ＳＣ^(k) _fw （Ｎ_Fj，ｔ）＋Ｓ_bw（Ｓ_NFj ，ｔ），ｊ＝１〜Ｇ_F ，ｋ＝１〜Ｋ_Fj （１１）ここで、Ｎ_Fjはスポッティング用ネットワークの最終ノ
ード、ＳＣ^(k) （Ｎ_Fj，ｔ）はノードＮ_Fjのｋ番目のス
ポッティングスコア、ＳＣ^(k) _fw （Ｎ_Fj，ｔ）は手順５
で求めたノードＮ_Fjのｋ番目の前向き尤度、Ｓ_bw（Ｓ
_NFj ，ｔ）は後続ヒューリスティック言語モデルの初期
状態Ｓ_NFj の時刻ｔにおける後向き尤度、Ｓ_NFj は後続
ヒューリスティック言語モデルの初期状態のうちでスポ
ッティング用ネットワーク１０の最終ノードＮ_Fjに接続
する状態である。図５ではたとえば、Ｎ_F1にはＳ_I1、Ｎ
_F2にはＳ_I2がそれぞれ接続する。（１１）式の右辺の第
１項と第２項の和は、スポッティング用ネットワークの
後方に後続ヒューリスティック言語モデルを接続して、
特徴ベクトルの時系列４に対する時刻１からＴまで、す
なわち特徴ベクトルの時系列１０２の全区間に対するス
コアを求めることを意味している。スポッティング手段
９は、（１１）式で求めた全てのスポッティングスコア
の中から、その値の大きい上位Ｚ個を選択し、そのスポ
ッティングスコアとセグメントの系列とその開始時刻を
スポッティング結果１０８として出力する。ここでＺは
あらかじめ決めておいた定数である。図の例では６個の
文節がスポッティング対象モデルとなっているが、Ｚ＝
３とすれば、スポッティングスコアの高い上位３個の文
節に対するスポッティング結果が得られる。

【０００７】

【発明が解決しようとする課題】上記のような従来の音
声スポッティング装置では、音素環境依存モデルを用い
るヒューリスティック音声スポッティング方式を採るか
ら、スポッティングスコアを算出するには、各時刻ごと
にスポッティング用ネットワークの全最終ノードからバ
ックトラックをし前向き尤度を求める必要があり、スポ
ッティング対象音声単位数が多くなるほどスポッティン
グ用ネットワーク規模も大きくなりかつ最終ノード数も
多くなるから、バックトラック回数が膨大になり所要演
算量が非常に大きくなる問題点があった。

【０００８】この発明が解決しようとする課題は、音声
スポッティング装置で上記問題点を解消するように、バ
ックトラック処理を施すスポッティング用ネットワーク
の最終ノードを各時刻ごとに選択しスポッティングスコ
ア算出をする方式（音素環境依存モデルを用いる最終ノ
ード選択ヒューリスティック音声スポッティング方式）
を提供することにある。

【０００９】

【課題を解決するための手段】この発明の音声スポッテ
ィング装置は、上記課題を解決するためつぎの手段を設
け、音素環境依存モデルを用いる最終ノード選択ヒュー
リスティック音声スポッティング方式を採ることを特徴
とする。

【００１０】分析手段は、入力音声信号に対し分析をし
当該特徴ベクトル時系列に変換をする。

【００１１】ヒューリスティック言語モデル照合手段
は、分析手段による特徴ベクトル時系列に対し、別途設
けるスポッティング対象音声に先行／後続をする種々の
発声内容音声の特徴ベクトル時系列に対し音素環境依存
モデルによるモデル化をする先行／後続ヒューリスティ
ック言語モデルを用い、時間軸上の順／逆方向に当該先
行／後続ヒューリスティック言語モデルの最終／初期状
態でヒューリスティック前／後向き尤度を算出する。

【００１２】ネットワーク照合手段は、ヒューリスティ
ック言語モデル照合手段によるヒューリスティック前向
き尤度と分析手段による特徴ベクトル時系列とに対し、
別途設けるスポッティング対象音声の特徴ベクトル時系
列に対し音素環境依存モデルによるモデル化をするスポ
ッティング用ネットワークを用い、当該スポッティング
用ネットワークの複数個の最終ノードごとに最尤前向き
尤度とノード履歴情報とを算出する。

【００１３】バックトラックノード選択手段は、ネット
ワーク照合手段による最尤前向き尤度に対し、当該値が
高い１個以上の、またはスポッティング用ネットワーク
の最終ノードに対し当該ノードへ遷移する母音のモデル
で分類し構成をする母音別最終ノードクラスタごとの各
クラスタ内で当該最尤前向き尤度の値が最も高いスポッ
ティング用ネットワークの最終ノード番号を選択する。
またはネットワーク照合手段による最尤前向き尤度に代
えてヒューリスティック言語モデル照合手段によるヒュ
ーリスティック後向き尤度に対し、当該値が高い１個以
上の後続ヒューリスティック言語モデルの初期状態と接
続するスポッティング用ネットワークの最終ノード番号
を選択する。またはネットワーク照合手段による最尤前
向き尤度に加えてヒューリスティック言語モデル照合手
段によるヒューリスティック後向き尤度とから各最終ノ
ードごとに算出をする最尤両方向尤度に対し、当該値が
高い１個以上のスポッティング用ネットワークの最終ノ
ード番号を選択する。または上記最尤両方向尤度に対
し、上記母音別最終ノードクラスタごとの各クラスタ内
で当該最尤両方向尤度の値が最も高いスポッティング用
ネットワークの最終ノード番号を選択する。または上記
最尤両方向尤度に対し、まず上記母音別最終ノードクラ
スタごとの各クラスタ内で当該最尤両方向尤度の値が最
も高いスポッティング用ネットワークの最終ノードを抽
出し、つぎに当該抽出最終ノード内で当該最尤両方向尤
度の値が高い１個以上の、もしくは当該最尤両方向尤度
の値と当該最大値との尤度差が所定閾値以下の、最終ノ
ード番号を選択する。

【００１４】スポッティング結果出力手段は、バックト
ラックノード選択手段による最終ノード番号とヒューリ
スティック言語モデル照合手段によるヒューリスティッ
ク後向き尤度とネットワーク照合手段によるノード履歴
情報とに対し、スポッティング用ネットワークのすべて
の最終ノードのうち当該最終ノード番号だけから初期ノ
ードへと当該ノード履歴情報を辿るバックトラック処理
を施して算出するスポッティング結果を出力する。

【００１５】

【発明の実施の形態】この発明の実施の一形態を示す音
声スポッティング装置は図１のように、分析手段１とヒ
ューリスティック言語モデル照合手段２と先行／後続ヒ
ューリスティック言語モデル格納手段６／７とスポッテ
ィング用ネットワーク格納手段８は、上記従来例の図２
に対応する。ネットワーク照合手段３は、分析手段１に
よる特徴ベクトル時系列１０２とヒューリスティック言
語モデル照合手段２によるヒューリスティック前向き尤
度１０３とに対し、スポッティング用ネットワーク格納
手段８によるスポッティング用ネットワークを用い、各
時刻ｔ＝１〜Ｔごとに別途定義をする手順の処理をしス
ポッティング用ネットワークの複数個の最終ノードごと
に最尤前向き尤度１０５とノード履歴情報１０６を算出
する。バックトラックノード最終手段４は、ネットワー
ク照合手段３による最尤前向き尤度１０５に対し、当該
値が高い上位Ｌ（１≦Ｌ＜最終ノード数Ｇ_F を満たす予
め決める定数）個のスポッティング用ネットワーク格納
手段８によるスポッティング用ネットワークの最終ノー
ド番号１０７を選択する。スポッティング結果出力手段
５は、バックトラックノード選択手段４による最終ノー
ド番号１０７とヒューリスティック言語モデル照合手段
２によるヒューリスティック後向き尤度１０４とネット
ワーク照合手段３によるノード履歴情報１０６とに対
し、スポッティング用ネットワーク格納手段８によるス
ポッティング用ネットワークの全最終ノードのうち当該
最終ノード番号１０７だけから初期ノードへと当該ノー
ド履歴情報１０６を辿るバックトラック処理を施し算出
をするスポッティング結果１０８を出力する。最尤前向
き尤度１０５の値が高い方を選択し低い最終ノードに対
しバックトラック処理をしないことにより、当該所要演
算量を小さく抑えられる。

【００１６】上記実施の形態の音声スポッティング装置
は、バックトラック処理を施すスポッティング用ネット
ワークの最終ノードを各時刻ごとに選択しスポッティン
グスコア算出をする方式（音素環境依存モデルを用いる
最終ノード選択ヒューリスティック音声スポッティング
方式）を採る。

【００１７】ネットワーク照合手段３は、特徴ベクトル
の時系列１０２とヒューリスティック前向き尤度１０３
を入力とし、スポッティング用ネットワークを用いて、
以下に示す手順１〜５の動作を行なうことによって、各
時刻ｔ＝１〜Ｔ毎にスポッティング用ネットワークの最
終ノードごとに最尤度前向き尤度１０５とノード履歴情
報１０６を計算し、出力する。ネットワーク照合手段３
で求めるノード履歴情報１０６は従来技術で求めた履歴
情報と同じものであるが、最尤前向き尤度１０５は本発
明で新たに用いるものである。（手順１）初期ノードの履歴情報のセット従来技術のスポッティング手段の動作で説明した手順１
と同じ動作をしてスポッティング用ネットワークの初期
ノードＮ_Ijの履歴情報である前向き尤度ｇａ⁽¹ ⁾
（Ｎ_Ij，ｔ）を求める。（手順２）ノードからセグメントの初期状態への履歴情
報の伝搬従来技術のスポッティング手段の動作で説明した手順２
と同じ動作をして、スポッティング用ネットワークの全
てのセグメントｈ_m （ｍ＝１〜Ｐ，Ｐ：スポッティング
用ネットワークの総セグメント数）に対してセグメント
ｈ_m の初期状態Ｓ₁ 、時刻ｔにおける前向き尤度である
α^(m) （Ｓ₁ ，ｔ）と開始時刻であるｂｔｋ^(m) （Ｓ
₁ ，ｔ）を求める。（手順３）セグメントの初期状態以外の尤度計算従来技術のスポッティング手段の動作で説明した手順３
と同じ動作をして、スポッティング用ネットワークの全
てのセグメントｈ_m （ｍ＝１〜Ｐ，Ｐ：スポッティング
用ネットワーク１０の総セグメント数）に対して初期状
態以外の状態Ｓ _i （ｉ＝２〜Ｊ_m ，Ｊ_m ：セグメントｍ
の状態数）の時刻ｔにおける前向き尤度であるα^(m)
（Ｓ₁ ，ｔ）と開始時刻であるｂｔｋ^(m)（Ｓ₁ ，ｔ）
を求める。（手順４）初期ノード以外の履歴情報のセット従来技術のスポッティング手段の動作で説明した手順４
と同じ動作をして、スポッティング用ネットワークの全
ての初期ノード以外のノードＮ_j （ｊ＝１〜Ｇ_m ，Ｇ
_m ：初期以外のノード数）の履歴情報であるｇａ^(k)
（Ｎ_j ，ｔ）とｇｗ^(k) （Ｎ_j ，ｔ）とｇｂ^(k) （Ｎ
_j ，ｔ），（ｊ＝１〜Ｇ_m ，ｋ＝１〜Ｋ_j ）を求める。（手順５）最終ノードの最尤前向き尤度セットスポッティング用ネットワークの全ての最終ノードＮ_Fj
（ｊ＝１〜Ｇ_F ，Ｇ_F：最終ノード数、図５ではＮ_F1〜
Ｎ_F10 ）の最尤前向き尤度１０５であるＳＣ^(m ^ax) _fw
（Ｎ_Fj，ｔ）を（１２）式により求める。ＳＣ^(max) _fw （Ｎ_Fj，ｔ）＝ｇ^(max) （Ｎ_Fj，ｔ），ｊ＝１〜Ｇ_F （１２）（１２）式からわかるとおり最尤前向き尤度１０５であ
るＳＣ^(max) _fw （Ｎ_Fj，ｔ）は最終ノードＮ_Fjが保持し
ている複数個の前向き尤度のうち最大値の尤度であり、
その値はバックトラックすることなしに得ることができ
る。また最終ノードＮ_Fjの最尤前向き尤度１０５である
ＳＣ^(max) _fw （Ｎ_Fj，ｔ）は、従来技術でスポッティン
グ手段の動作の手順５で述べたバックトラック処理によ
って求める前向き尤度ＳＣ^(k) _fw （Ｎ_Fj，ｔ）とは（１
３）式の関係にあることは、最尤前向き尤度であるＳＣ
^(max) _fw （Ｎ_Fj，ｔ）と前向き尤度であるＳＣ^(k) _fw
（Ｎ_Fj，ｔ）の定義により明らかなことであり、最尤前
向き尤度１０５であるＳＣ^(max ⁾ _fw （Ｎ_Fj，ｔ）の値が
低ければ前向き尤度ＳＣ^(k) _fw （Ｎ_Fj，ｔ）の値も低い
ことになる。ＳＣ^(max) _fw （Ｎ_Fj，ｔ）≧ＳＣ^(k) _fw （Ｎ_Fj，ｔ），ｊ＝１〜Ｇ_F （１３）バックトラックノード選択手段４は、ネットワーク照合
手段３の出力である各最終ノードごとの最尤前向き尤度
１０５であるＳＣ^(max) _fw （Ｎ_Fj，ｔ）（ｊ＝１〜
Ｇ_F，Ｇ_F：最終ノード数）を入力として、最尤前向き尤
度１０５の値が高い上位Ｌ個の最終ノードの最終ノード
番号１０７を出力する。この上位Ｌ個のノード番号１０
７をＦ_q(n)（ｎ＝１〜Ｌ）と記すことにする。ここで前
記Ｌは１≦Ｌ＜Ｇ_Fの関係を満たすあらかじめ決められ
た定数である。

【００１８】スポッティング結果出力手段５は、ヒュー
リスティック言語モデル照合手段２の出力であるヒュー
リスティック後向き尤度１０４とネットワーク照合手段
の出力であるノード履歴情報１０６とバックトラックノ
ード選択手段４の出力である最終ノード番号１０７を入
力として、各時刻ｔ＝１〜Ｔ毎に以下に示す手順１、２
の動作を繰り返すことによってスポッティング結果１０
８を出力する。（手順１）選択されたノードに対するバックトラック処
理ネットワーク照合手段３の出力であるノード履歴情報１
０６を用い、全最終ノードのうちバックトラックノード
選択手段から出力された最終ノード番号１０７であるＦ
_q(n)（ｎ＝１〜Ｌ）のみからバックトラック処理を行な
う。バックトラック処理は従来技術と同じ方法で行な
い、最終ノードＮ_Fq(n) からのｋ番目のバックトラック
結果であるセグメントの系列ｓｅｑ^(k) （Ｎ_Fq(n) ，
ｔ）とセグメントの系列の開始時刻ｓｔｉｍｅ^(k) （Ｎ
_Fq(n) ，ｔ）と、前向き尤度をＳＣ^(k ⁾ _fw （Ｎ_Fq(n) ，
ｔ）を求める。（手順２）スポッティング結果の決定手順１で求めたバックトラック結果に対して（１４）式
によりスポッティングスコアを求める。ＳＣ^(k) （Ｎ_Fg(n)，ｔ）＝ＳＣ^(k) _fw （Ｎ_Fq(n)，ｔ）＋Ｓ_bw（Ｓ_NFq(n)，ｔ）ｎ＝１〜Ｌ（１４）ここで、Ｎ_Fq(n) はバックトラックノード選択手段で選
択されたｎ番目の最終ノード、ＳＣ^(k) （Ｎ_Fq(n) ，
ｔ）はノードＮ_Fq(n) のｋ番目のスポッティングスコ
ア、ＳＣ^(k) _fw （Ｎ_Fq(n) ，ｔ）が手順１で求めたノー
ドＮ_Fq(n) のｋ番目の前向き尤度、Ｓ_bw（Ｓ_NFq(n)，
ｔ）が後続ヒューリスティック言語モデルの状態Ｓ
_NFq(n)の時刻ｔにおける後向き尤度、Ｓ_NFq(n)は後続ヒ
ューリスティック言語モデルの初期状態のうちでスポッ
ティング用ネットワークの最終ノードＮ_Fq(n ₎ に接続す
る状態である。スポッティング結果出力手段５は（１
４）式で求めた全てのスポッティングスコアの中から、
その値の大きい上位Ｚ個を選択し、そのスポッティング
スコアとセグメントの系列とその開始時刻をスポッティ
ング結果１２として出力する。ここでＺはあらかじめ決
めておいた定数である。上記のようにバックトラックノ
ード選択手段４によって最尤前向き尤度１０５の値が高
い最終ノードを選択し、最尤前向き尤度１０５の値が低
い最終ノードに対してはバックトラック処理をしないこ
とによってバックトラックに要する演算量を小さく抑え
られる。最尤前向き尤度１０５の値が低い最終ノードか
らのバックトラックが不要となる理由は最尤前向き尤度
１０５が低ければ（１３）式で示した関係により（１
４）式の右辺の第１項であるノードの前向き尤度の値も
低いので、（１４）式で計算されるスポッティングスコ
アも低い値となり、最終的にスポッティング結果として
出力される、スポッティングスコアの高い上位Ｚ個に含
まれる可能性は小さいからである。

【００１９】なお上記図１に示す発明の実施の形態でバ
ックトラックノード選択手段４に代えて後向き／両方向
／母音別／両方向母音別／母音別二段階／母音別閾値バ
ックトラックノード選択手段４ａ／４ｂ／４ｃ／４ｄ／
４ｅ／４ｆとして構成してもよい。後向きバックトラッ
クノード選択手段４ａは、ネットワーク照合手段３によ
る最尤前向き尤度１０５に代えてヒューリスティック言
語モデル照合手段によるヒューリスティック後向き尤度
１０４に対し、当該値が高い上位Ｌ個の後続ヒューリス
ティック言語モデルの初期状態と接続するスポッティン
グ用ネットワーク格納手段８によるスポッティング用ネ
ットワークの最終ノード番号１０７を選択する。たとえ
ば図４で選択をする後続ヒューリスティック言語モデル
の初期状態Ｓ_I1およびＳ_I2と接続するスポッティング用
ネットワークの最終ノードはそれぞれ図５でＮ_F1とＮ_F6
およびＮ_F5とＮ_F10 だから、当該各最終ノード番号Ｆ₁
とＦ₆とＦ₅ とＦ₁₀を出力する。ヒューリスティック後
向き尤度１０４の値が高い方を選択し低い最終ノードに
対しバックトラック処理をしないことにより、当該所要
演算量を小さく抑えられる。両方向バックトラックノー
ド選択手段４ｂは、ネットワーク照合手段３による最尤
前向き尤度１０５に加えてヒューリスティック言語モデ
ル照合手段２によるヒューリスティック後向き尤度１０
４とから、各最終ノードごとに算出をする最尤両方向尤
度ＳＣ_fw ^(max) （Ｎ_Fj，ｔ）＝ＳＣ_fw ^(max) （Ｎ_Fj，
ｔ）＋Ｓ_bw（ＳＮ_Fj，ｔ）（ただしｊ＝１〜Ｇ_F 、Ｇ_F
は最終ノード数）に対し、当該値が高い上位Ｌ個のスポ
ッティング用ネットワーク格納手段８によるスポッティ
ング用ネットワークの最終ノード番号１０７を選択す
る。最尤両方向尤度の値が高い方を選択し低い最終ノー
ドに対しバックトラック処理をしないことにより、当該
所要演算量を小さく抑えられる。母音別バックトラック
ノード選択手段４ｃは、ネットワーク照合手段３による
最尤前向き尤度１０５に対し、別途設定をする母音別最
終ノードクラスタごとの各クラスタ内で当該最尤前向き
尤度１０５の値が最も高いスポッティング用ネットワー
ク格納手段８によるスポッティング用ネットワークの最
終ノード番号１０７を選択する。母音別最終ノードクラ
スタは、各遷移元セグメントがモデル化をする母音の同
じ（ただし右音素環境は異なる）スポッティング用ネッ
トワークの各最終ノード同士をまとめ１つのクラスタと
して設定をする。たとえば図５で遷移元セグメントがモ
デル化をする母音／ｅ／の同じ各最終ノードＮ_F6〜Ｎ
_F10 同士をまとめ１つのクラスタとする。遷移元セグメ
ントがモデル化をする母音の同じ最終ノード同士では、
最尤前向き尤度１０５の値が最も高い最終ノードだけを
選択することにより、後続（右側）音素環境だけが異な
りセグメントがモデル化をする音声の同じスポッティン
グ結果同士（たとえば／ｏｔｏｔｏｉ（ａ）／と／ｏｔ
ｏｔｏｉ（ｉ）／）では、スポッティングスコアが最高
となる可能性が高い最終ノードだけからバックトラック
処理をすることになり、当該所要演算量を小さく抑えか
つ効率的にスポッティング結果を出力できる。両方向母
音別バックトラックノード選択手段４ｄは、ネットワー
ク照合手段３による最尤前向き尤度１０５に加えてヒュ
ーリスティック言語モデル照合手段２によるヒューリス
ティック後向き尤度１０４とから各最終ノードごとに算
出をする最尤両方向尤度（両方向バックトラックノード
選択手段４ｂに同じ）に対し、母音別最終ノードクラス
タ（母音別バックトラックノード選択手段４ｃに同じ）
ごとの各クラスタ内で当該最尤両方向尤度の値が最も高
いスポッティング用ネットワーク格納手段８によるスポ
ッティング用ネットワークの最終ノード番号１０７を選
択する。上記母音別バックトラックノード選択手段４ｃ
で最尤前向き尤度１０５に代えて最尤両方向尤度とし同
じ効果を得る。母音別二段階バックトラックノード選択
手段４ｅは、ネットワーク照合手段３による最尤前向き
尤度１０５に加えてヒューリスティック言語モデル照合
手段２によるヒューリスティック後向き尤度１０４とか
ら各最終ノードごとに算出をする最尤両方向尤度（両方
向バックトラックノード選択手段４ｂに同じ）に対し、
まず母音別最終ノードクラスタ（母音別バックトラック
ノード選択手段４ｃに同じ）ごとの各クラスタ内で当該
最尤両方向尤度の値が最も高いスポッティング用ネット
ワーク格納手段８によるスポッティング用ネットワーク
の最終ノードＮ_Fg _(n) （ｎ＝１〜Ｃ、Ｃは最終ノードク
ラスタ数）を抽出する。つぎに当該抽出最終ノード内で
当該最尤両方向尤度の値が高い上位Ｄ（１≦Ｄ＜Ｃを満
たす予め決める定数）個の最終ノード番号１０７を選択
する。母音別最終ノードクラスタごとに抽出をする最尤
両方向尤度の値が最も高い最終ノード内で当該最尤両方
向尤度の値が高い上位１個以上の最終ノードを選択する
ことにより、両方向母音別バックトラックノード選択手
段４ｄよりもさらにバックトラック処理の所要演算量を
小さく抑えられる。母音別閾値バックトラックノード選
択手段４ｆは、ネットワーク照合手段３による最尤前向
き尤度１０５に加えてヒューリスティック言語モデル照
合手段２によるヒューリスティック後向き尤度１０４と
から各最終ノードごとに算出をする最尤両方向尤度（両
方向バックトラックノード選択手段４ｂに同じ）に対
し、まず母音別最終ノードクラスタ（母音別バックトラ
ックノード選択手段４ｃに同じ）ごとの各クラスタ内で
当該最尤両方向尤度の値が最も高いスポッティング用ネ
ットワーク格納手段８によるスポッティング用ネットワ
ークの最終ノードＮ_Fg(n ₎ （ｎ＝１〜Ｃ、Ｃは最終ノー
ドクラスタ数）を抽出する。つぎに当該抽出最終ノード
内で当該最尤両方向尤度の値と当該最大値との尤度差が
所定閾値ＴＨ（≧０）以下の最終ノード番号１０７Ｆ
_u(n)（ｎ＝１〜Ｅ_TH、Ｅ_THは１≦Ｅ_TH≦Ｃを満たす閾値
ＴＨにより決まる数）を選択する。母音別最終ノードク
ラスタごとに抽出をする最尤両方向尤度の値が最も高い
最終ノード内で当該最尤両方向尤度の値が所定閾値以上
の最終ノードを選択することにより、両方向母音別バッ
クトラックノード選択手段４ｄよりもさらにバックトラ
ック処理の所要演算量を小さく抑えられる。

【００２０】

【発明の効果】上記のようなこの発明の音声スポッティ
ング装置では、バックトラック処理を施すスポッティン
グ用ネットワークの最終ノードを各時刻ごとに選択しス
ポッティングスコア算出をする方式を採るから、各時刻
ごとにすべての最終ノードからバックトラック処理をす
る必要がなくなり、当該所要演算量は小さく抑えられる
効果がある。

【図面の簡単な説明】

【図１】この発明の実施の一形態を示す音声スポッテ
ィング装置の機能ブロック図。

【図２】従来の技術を示す音声スポッティング装置の
機能ブロック図および先行／後続ヒューリスティック言
語モデルとスポッティング用ネットワークとの接続方法
を説明する概略ブロック図。

【図３】右音素環境依存モデルを用い構成する先行ヒ
ューリスティック言語モデル構成を説明する図。

【図４】右音素環境依存モデルを用い構成する後続ヒ
ューリスティック言語モデル構成を説明する図。

【図５】右音素環境依存モデルを用い構成するスポッ
ティング用ネットワーク構成を説明する図。

【符号の説明】

１分析手段、２ヒューリスティック言語モデル照合
手段、３ネットワーク照合手段、４バックトラック
ノード選択手段、５スポッティング結果出力手段、６
先行ヒューリスティック言語モデル格納手段、７後
続ヒューリスティック言語モデル格納手段、８スポッ
ティング用ネットワーク格納手段、１０１入力音声信
号、１０２特徴ベクトル時系列、１０３ヒューリス
ティック前向き尤度、１０４ヒューリスティック後向
き尤度、１０５最尤前向き尤度、１０６ノード履歴
情報、１０７最終ノード番号、１０８スポッティン
グ結果。なお図中、同一符号は同一または相当部分を示す。

Claims

【特許請求の範囲】

【請求項１】入力音声信号に対し分析をし当該特徴ベ
クトル時系列に変換をする分析手段と、該分析手段によ
る特徴ベクトル時系列に対し、別途設けるスポッティン
グ対象音声に先行／後続をする種々の発話内容音声の特
徴ベクトル時系列に対し音素環境依存モデルによるモデ
ル化をする先行／後続ヒューリスティック言語モデルを
用い、時間軸上の順／逆方向に当該先行／後続ヒューリ
スティック言語モデルの最終／初期状態でヒューリステ
ィック前／後向き尤度を算出するヒューリスティック言
語モデル照合手段と、該ヒューリスティック言語モデル
照合手段によるヒューリスティック前向き尤度と前記分
析手段による特徴ベクトル時系列とに対し、別途設ける
スポッティング対象音声の特徴ベクトル時系列に対し音
素環境依存モデルによるモデル化をするスポッティング
用ネットワークを用い、当該スポッティング用ネットワ
ークの複数個の最終ノードごとに最尤前向き尤度とノー
ド履歴情報とを算出するネットワーク照合手段と、該ネ
ットワーク照合手段による最尤前向き尤度に対し、当該
値が高い１個以上の前記スポッティング用ネットワーク
の最終ノード番号を選択するバックトラックノード選択
手段と、該バックトラックノード選択手段による最終ノ
ード番号と前記ヒューリスティック言語モデル照合手段
によるヒューリスティック後向き尤度とネットワーク照
合手段によるノード履歴情報とに対し、当該スポッティ
ング用ネットワークのすべての最終ノードのうち前記最
終ノード番号だけから初期ノードへと当該ノード履歴情
報を辿るバックトラック処理を施して算出するスポッテ
ィング結果を出力するスポッティング結果出力手段とを
備える音声スポッティング装置。
【請求項２】バックトラックノード選択手段でネット
ワーク照合手段による最尤前向き尤度に代えてヒューリ
スティック言語モデル照合手段によるヒューリスティッ
ク後向き尤度に対し、当該値が高い１個以上の後続ヒュ
ーリスティック言語モデルの初期状態を接続するスポッ
ティング用ネットワークの最終ノード番号を選択するこ
とを特徴とする請求項１記載の音声スポッティング装
置。
【請求項３】バックトラックノード選択手段でネット
ワーク照合手段による最尤前向き尤度に加えてヒューリ
スティック言語モデル照合手段によるヒューリスティッ
ク後向き尤度とから各最終ノードごとに算出をする最尤
両方向尤度に対し、当該値が高い１個以上のスポッティ
ング用ネットワークの最終ノード番号を選択することを
特徴とする請求項１記載の音声スポッティング装置。
【請求項４】バックトラックノード選択手段でネット
ワーク照合手段による最尤前向き尤度に対し、スポッテ
ィング用ネットワークの最終ノードに対し当該ノードへ
遷移する母音のモデルで分類し構成をする母音別最終ノ
ードクラスタごとの各クラスタ内で当該最尤前向き尤度
の値が最も高いスポッティング用ネットワークの最終ノ
ード番号を選択することを特徴とする請求項１記載の音
声スポッティング装置。
【請求項５】バックトラックノード選択手段で請求項
３記載の最尤両方向尤度に対し、請求項４記載の母音別
最終ノードクラスタごとの各クラスタ内で当該最尤両方
向尤度の値が最も高いスポッティング用ネットワークの
最終ノード番号を選択することを特徴とする請求項１記
載の音声スポッティング装置。
【請求項６】バックトラックノード選択手段で請求項
３記載の最尤両方向尤度に対し、まず請求項４記載の母
音別最終ノードクラスタごとの各クラスタ内で当該最尤
両方向尤度の値が最も高いスポッティング用ネットワー
クの最終ノードを抽出し、つぎに当該抽出最終ノード内
で当該最尤両方向尤度の値が高い１個以上の最終ノード
番号を選択することを特徴とする請求項１記載の音声ス
ポッティング装置。
【請求項７】バックトラックノード選択手段で請求項
３記載の最尤両方向尤度に対し、まず請求項４記載の母
音別最終ノードクラスタごとの各クラスタ内で当該最尤
両方向尤度の値が最も高いスポッティング用ネットワー
クの最終ノードを抽出し、つぎに当該抽出最終ノード内
で当該最尤両方向尤度の値と当該最大値との尤度差が所
定閾値以上の最終ノード番号を選択することを特徴とす
る請求項１記載の音声スポッティング装置。