JPH08123469A

JPH08123469A - 句境界確率計算装置および句境界確率利用連続音声認識装置

Info

Publication number: JPH08123469A
Application number: JP6265668A
Authority: JP
Inventors: Toshiyuki Hanazawa; 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-10-28
Filing date: 1994-10-28
Publication date: 1996-05-17
Anticipated expiration: 2018-05-06
Also published as: JP3403838B2

Abstract

(57)【要約】【目的】入力音声の各時刻における句境界確率を求
め、句境界情報の音声認識への利用を容易にすることを
目的としている。さらに、前記句境界確率を、音声認識
のために利用して音声認識精度を改善することを目的と
している。【構成】入力音声のピッチ特徴量の時系列を算出する
ピッチ分析手段３と、アクセント句のピッチ特徴量の時
系列をモデル化した１個または複数個のピッチパタンモ
デルを記憶するピッチパタンモデルメモリ７を備え、句
境界確率計算手段９は、前記ピッチ特徴量の時系列とポ
ーズ区間の開始時刻と終了時刻を入力とし、前記ピッチ
パタンモデルを用いて前記ピッチ特徴量の時系列に対す
るピッチ前向き確率とピッチ後ろ向き確率を計算し、こ
のピッチ前向き確率とピッチ後ろ向き確率に基づいて前
記入力音声の各時刻におけるアクセント句境界確率を計
算する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文音声の各時刻におけ
るアクセント句境界確率を計算する句境界確率計算装
置、およびアクセント句境界確率を利用して音声認識精
度の向上を図る句境界確率利用連続音声認識装置に係わ
るものである。

【０００２】

【従来の技術】音声認識は一般に、一定時間毎に音声信
号の周波数分析を行うことにより得られるスペクトル特
徴ベクトルの時系列を特徴パラメータとし、予め用意さ
れた認識対象単語や文の標準パタンとパタンマッチング
を行うことによって実現される。しかし人間はアクセン
卜やイントネーションの情報も利用して音声を認識して
いると考えられる。そこで近年、音声のアクセント句、
すなわち、１個のアクセント核を有する句の境界を検出
し、音声認識に利用しようとする試みがなされている。

【０００３】例えば、図ｌ０は文献「中井、下平、嵯峨
山、“ピッチパターンのクラスタリングに基づく不特定
話者連続音声の句境界検出”、電子通信学会論文誌、
Ａ、Ｖｏｌ．Ｊ７７−Ａ、Ｎｏ．２、ｐｐ２０６−２ｌ
４、ｌ９９４年２月」に記載されている句境界検出方式
の一実施例を示す構成ブロック図である。

【０００４】図ｌ０においてｌは音声信号の入力端、２
は音声信号の入力端ｌから入力された音声信号、３は音
声信号２のピッチ分折を行うピッチ分析手段、４は音声
信号２のポーズ区間を検出するポーズ検出手段、５はア
クセント句のピッチパタンを表現するピッチパタンテン
プレート、６はピッチパタンテンプレート５を用いて音
声信号２の句境界時刻を検出する句境界検出手段であ
る。

【０００５】図１０におけるピッチパタンテンプレート
５は、予め大量のアクセント句のピッチパタンを用い、
そのピッチパタンをいくつかの類型に分け、この類型の
平均として作成しておく。すなわち、ピッチパタンテン
プレート５は、アクセント句の各類型ピッチパタンの代
表パタンである。

【０００６】アクセント句のピッチパタンは不特定多数
の話者が発声した文音声から抽出される。日本語のアク
セント句に現れるピッチパタンは平板型、頭高型、中高
型等、複数個のパタンがあるので、複数個のピッチパタ
ンテンプレートが作成される。

【０００７】上述したピッチパタンとしては、例えば対
数ピッチ周波数の時系列が用いられる。

【０００８】ピッチパタンテンプレート５の作成は、以
下の手順で行う。

【０００９】（テンプレート作成手順ｌ）大量のアクセ
ント句のピッチパタンをそれぞれ一定の時間長に線形伸
縮し、各ピッチパタンを同一の時間長に揃える。

【００１０】（テンプレート作成手順２）同一の時間長
に揃えたピッチパタンを用いてクラスタリングを行い、
各ピッチパタンをｎ個のクラスタに分類する。ここでク
ラスタの個数ｎは、日本語にあらわれるアクセント句の
パタンを考慮して、例えば４個とする。

【００１１】（テンプレート作成手順３）前記各クラス
タ毎に、同一の時間長に揃えたピッチパタンの平均を求
め、ピッチパタンテンプレート５とする。

【００１２】以上の手順により、ｎ（＝４）個のピッチ
パタンテンプレートが作成される。

【００１３】句境界の検出は以下のように行う。

【００１４】音声信号の入力端ｌから入力された音声信
号２はピッチ分析手段３およびポーズ検出手段４に入力
される。

【００１５】ピッチ分折手段３は、一定時間毎に音声信
号２のピッチ分折を行い、音声信号２の対数ピッチ周波
数の時系列を求める。ここでピッチ分折には例えばラグ
窓法を用いる。

【００１６】またポーズ検出手段４は、音声信号２のパ
ワーの時系列を求め、予め定められたパワー閾値以下の
区間を抽出し、この抽出区間の継続時間長が予め定めら
れた閾値以上の区間をポーズ区間として検出し、各ポー
ズ区間の開始時刻と終了時刻を出力する。

【００１７】句境界検出手段６は、ピッチ分折手段３の
出力である対数ピッチ周波数時系列と、ピッチテンプレ
ート５をいくつか接続したテンプレートとのパタンマッ
チングを行い、ピッチパタンテンプレート５の接続境界
時刻を句境界時刻として出力する。

【００１８】すなわち、句境界検出手段６は、ピッチ分
折手段３の出力である対数ピッチ周波数時系列と、ポー
ズ検出手段４の出力であるポーズ区間の開始時刻及び終
了時刻とを入力とし、ポーズ区間以外の区間に対して、
以下の手順で句境界の検出を行う。

【００１９】（句境界検出手順ｌ）ｎ（＝４）個のピッ
チパタンテンプレート５を用いて、前記対数ピッチ周波
数時系列を入力パタンとしてＯｎｅ−ＳｔａｇｅＤＰ
マッチングを行う。

【００２０】（句境界検出手順２）ＤＰマッチング終了
後、ＤＰ経路のバックトレースを行い、前記対数ピッチ
周波数時系列とのＤＰ距離が最も小さくなるピッチパタ
ンテンプレートの接続系列を求め、接続境界時刻を句境
界時刻として出力する。

【００２１】

【発明が解決しようとする課題】上記従来の句境界検出
方式では、入力音声の各時刻が句境界であるか否かのみ
を判定している。しかし句境界をｌ００％検出し、かつ
句境界でないものを誤検出しないようにすることは困難
であり、検出結果をｌ００％正しいものであると仮定す
ることはできない。また、上記従来技術では、検出した
句境界の信頼性を定量的に求めることができない。ゆえ
に検出された句境界を音声認識のために利用することが
困難であるという問題点があった。

【００２２】この発明は上記課題を解決するためになさ
れたもので、入力音声の各時刻が句境界であるか否かを
ｌ，０で判定するのではなく、入力音声の各時刻におい
て句境界らしさを確率として求め、句境界情報の音声認
識への利用を容易にすることを目的としている。さら
に、前記句境界らしさの確率を音声認識のために利用し
て、音声認識精度を改善する方法を提供することを目的
としている。

【００２３】

【問題を解決するための手段】この発明に係わる句境界
確率計算装置および句境界確率利用連続音声認識装置
は、アクセント句のピッチ特徴量の時系列をモデル化し
た１個または複数個のピッチパタンモデルを記憶したピ
ッチパタンモデルメモリと、前記ピッチパタンモデルを
用いてピッチ特徴量の時系列に対するピッチ前向き確率
とピッチ後ろ向き確率とを計算し、このピッチ前向き確
率とピッチ後ろ向き確率とに基づいて前記入力音声の各
時刻におけるアクセント句境界確率を計算する句境界確
率計算手段と、を備えた。

【００２４】また、時間長の異なる複数個のベクトルの
時系列毎に同一構造のＨＭＭを学習し、学習後に得られ
た各ＨＭＭ毎の平均ベクトルをクラスタリング用データ
として用いるクラスタリング方法によって、アクセント
句のピッチパタンをクラスタリングし、各クラスタ毎に
ピッチパタンモデルを学習する。

【００２５】また、アクセント句境界確率に対して重み
付け係数を備え、アクセント句境界確率に重み付けを行
う句境界確率重み付け手段を備えた。

【００２６】また、音声のスペクトル特徴ベクトルの時
系列をモデル化したｌ個または複数個のバックグランド
モデルを記憶したバックグランドモデルメモリと、前記
入力音声のスペクトル特徴ベクトルの時系列を入力と
し、前記バックグランドモデルを用いて前記スペクトル
特徴ベクトル時系列に対するスペクトル特徴前向き確率
とスペクトル特徴後ろ向き確率を計算するバックグラン
ドモデル照合手段と、前記句境界確率と前記スペクトル
特徴前向き確率との積である統合化前向き確率を算出す
る前向き確率統合手段と、前記句境界確率と前記スペク
トル特徴後ろ向き確率との積である統合化後ろ向き確率
を算出する後ろ向き確率統合手段と、スポッティング対
象とする文節音声のスペクトル特徴ベクトルの時系列を
モデル化した文節モデルと、前記音声のスペクトル特徴
ベクトルの時系列と前記統合化前向き確率と統合化後ろ
向き確率とを入力とし、前記文節モデルを用いて文節の
スポッティングを行うスポッティング手段と、を備え
た。

【００２７】また、バックグランドモデルとして文節モ
デルの連鎖を用いることとした。

【００２８】また、認識対象とする文音声のスペクトル
特徴ベクトルの時系列をモデル化した文モデルネットワ
ークを記憶した文モデルネットワークメモリと、前記入
力音声のスペクトル特徴ベクトルの時系列を入力とし、
前記文モデルネットワークを用いて、前記入力音声の認
識を行い、複数の認識結果候補文と各認識結果候補文の
スペクトル特徴認識スコアと、各認識緒果候補文毎にそ
の文を構成する文節の境界時刻とを出力する連続音声認
識手段と、前記句境界確率と前記複数の各認識結果候補
文のスペクトル特徴認識スコアと各認識結果候補文を構
成する文節の境界時刻とを入力として、各認識結果候補
文の文節の境界時刻における句境界確率を用いてスペク
トル特徴認識スコアを補正し、この補正された認識スコ
アに基づいて、認識結果候補文を決定する確率統合手段
と、を備えた。

【００２９】

【作用】ピッチパタンモデルは、アクセント句のピッチ
特徴量の時系列を統計的にモデル化し、句境界確率計算
手段は、前記ピッチパタンモデルを用いてピッチ特徴量
の時系列に対するピッチ前向き確率とピッチ後ろ向き確
率とを計算し、このピッチ前向き確率とピッチ後ろ向き
確率に基づいて前記入力音声の各時刻におけるアクセン
ト句境界確率を計算する。

【００３０】また、時間長の異なる複数個の特徴ベクト
ルの時系列毎に同一の構造のＨＭＭを学習することによ
り、時間長の異なる複数個の特徴ベクトルの時系列を非
線形圧縮して、前記複数個の特徴ベクトルの時系列を同
一の時間長に揃えて、クラスタリングを行う。

【００３１】また、句境界確率重み付け手段は、アクセ
ント句境界確率に対して、重み付け係数を備えアクセン
ト句境界確率に重みを付けを行うことにより、スペクト
ル特徴量から計算される音声認識スコアと統合する場合
のアクセント句境界確率の寄与率を調整する。

【００３２】また、前向き確率統合手段は句境界確率と
スペクトル特徴前向き確率との積を求めることにより統
合化前向き確率を算出し、後ろ向き確率統合手段は句境
界確率とスペクトル特徴後ろ向き確率との積を求めるこ
とにより統合化後ろ向き確率を算出し、スポッティング
手段は、統合化前向き確率と統合化後ろ向き確率とを用
いて、スポッティングを行う。

【００３３】文節モデルの連鎖から構成されるバックグ
ランドモデルは、文節境界時刻以外でのスペクトル特徴
前向き確率と、スペクトル特徴後ろ向き確率とを小さく
抑える。

【００３４】また、連続音声認識手段は、文モデルネッ
トワークを用いて、入力音声の認識を行い、複数の認識
結果候補文と各認識結果候補文のスペクトル特徴認識ス
コアと、各認識結果候補文毎にその文を構成する文節の
境界時刻とを算出し、確率統合手段は、各認識結果候補
文の文節の境界時刻における句境界確率を用いてスペク
トル特徴認識スコアを補正する。

【００３５】

【実施例】

実施例ｌ．図ｌは請求項ｌ記載の発明に係わる句境界確
率計算装置の一構成例を示すブロック構成図である。図
ｌにおいて従来技術の説明図である図ｌ０と同一機能ブ
ロックには同一の番号を付し、説明は省略する。

【００３６】本実施例において特徴的な点は、アクセン
ト句のピッチパタンを代表している複数個のピッチパタ
ンモデルを記憶するピッチパタンモデルメモリ７と、こ
のピッチパタンモデルのネットワークを記憶するピッチ
パタンモデルネットワークメモリ８と、このピッチパタ
ンモデルネットワークを用いて音声信号２に対する各時
刻における句境界確率を計算する句境界確率計算手段９
とを備えることである。

【００３７】上述のピッチパタンモデルは、各アクセン
ト句の類型の平均を表しており、アクセント句のピッチ
パタンの代表パタンを表している。

【００３８】音声信号の句境界確率を計算する前に、ピ
ッチパタンモデルと、ピッチパタンモデルネットワーク
とを作成する必要がある。

【００３９】まず、ピッチパタンモデルの作成方法を説
明する。

【００４０】本実施例ではピッチパタンモデルとして連
続型のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅ
ｌ、隠れマルコフモデル）を用いる。またピッチパタン
を表現するパラメータは、従来技術と同様に対数ピッチ
周波数の時系列が用いられる。

【００４１】ここで、ピッチパタンモデルとしてＨＭＭ
を使用するのは、入力音声の各時刻において句境界らし
さを確率として求めるためである。従来技術のように、
ピッチパタンテンプレートを使用する場合には、句境界
か否かが１ビットで求まるだけで、句境界らしさの確率
を求めることはできない。

【００４２】ＨＭＭは、図２に示されるように、幾つか
の状態（Ｓ₁，Ｓ₂，Ｓ₃，Ｓ₄，Ｓ₅，Ｓ₆）と状態
間を結ぶ弧によって構成される。各弧には、その弧を通
って各状態を遷移する遷移確率ａ_ijと、音声の特徴ベク
トルｘの出力確立ｂ_ij（ｘ）がパラメータとして与えら
れている。ここで添字ｉｊは状態Ｓ_iから状態Ｓ_jへの
遷移を示すものであり、遷移確率ａ_ijは状態Ｓ_iからＳ
_jへ遷移が起きる確率である。また出力確率ｂ_ij（ｘ）
は通常、多次元正規分布で表現され、声の特徴ベクトル
の平均値と分散がパラメータとして与えられており、状
態Ｓ_iからＳ_jへの遷移の際に音声の特徴ベクトルｘが
出力される確率密度を表している。

【００４３】また弧には、遷移確率ａ_ijのみをパラメー
タとして持ち、音声の特徴ベクトルを出力することな
く、状態間の遷移のみに寄与する弧がある。この弧によ
る状態遷移をヌル遷移と呼んでいる。

【００４４】本実施例では音声の特徴ベクトルとして、
対数ピッチ周波数を用いるので特徴ベクトルの次元数は
１である。

【００４５】ＨＭＭは初期状態と呼ばれる状態（図２に
おけるＳ₁）から遷移を開始し、最終状態（図２におけ
るＳ₆）へ到達する過程での状態遷移により、遷移確率
ａ_ijと出力確率ｂ_ij（ｘ）によって計算される確率で様
々な音声の特徴ベクトルの時系列を生成することができ
る。すなわち、状態Ｓ₁から状態Ｓ₆まで遷移する間
に、アクセン卜句のピッチパタンを生成することにな
る。

【００４６】例えば、音声の特徴ベクトルとして、対数
ピッチ周波数を用いた場合、ＨＭＭは様々な対数ピッチ
周波数の時系列を生成することができる。この場合、Ｈ
ＭＭによって対数ピッチ周波数の時系列としての各アク
セン卜句のピッチパタンが生成される確率を算出するこ
とができる。従って、ＨＭＭによって種々のアクセン卜
句のピッチパタンを統計的にモデル化することができ
る。

【００４７】ＨＭＭによるアクセント句のピッチパタン
のモデル化は、大量のアクセント句のピッチパタンを用
いて、これらのピッチパタンがＨＭＭから生成される確
率が高くなるように、ＨＭＭのパラメータである遷移確
率ａ_ijと出力確率ｂ_ij（ｘ）を推定することによって実
現される。この推定方法は最尤推定と呼ばれており、パ
ラメータ推定手続きをＨＭＭの学習といい、ＨＭＭの学
習に用いるデータを学習データという。

【００４８】本実施例では、学習に用いるアクセント句
のピッチパタンは、従来技術と同様に不特定多数の話者
が発声した文音声から抽出される。

【００４９】学習手順は、ピッチパタンのクラスタリン
グと、ＨＭＭの学習の２つの過程に分けられる。

【００５０】以下に、クラスタリングと学習の手順を示
す。

【００５１】まずクラスタリングの手順は次の通りであ
る。

【００５２】（クラスタリング手順ｌ）大量のアクセン
ト句のピッチパタンの各々に対して、各ピッチパタンを
学習データとして、ＨＭＭを学習する。すなわち各ピッ
チパタン毎にＨＭＭを学習する。この際、各アクセント
句の系列長、すなわち対数ピッチ周波数の時系列の長さ
が異なっても、ＨＭＭの状態数や遷移の構造は各パタン
で共通の構造を用いる。例えば図２に示したＨＭＭの構
造を用いる。

【００５３】（クラスタリング手順２）上記クラスタリ
ング手順ｌによって作成された各ピッチパタン毎のＨＭ
Ｍから、出力確率ｂ_ij（ｘ）の平均ベクトルを抽出す
る。例えば図２に示したＨＭＭの構造を用いて学習した
場合には出力確率は、ｂ₁₁（Ｘ），ｂ₁₂（Ｘ），ｂ
₂₂（Ｘ），ｂ₂₃（Ｘ），ｂ₃₃（ｘ），ｂ₃₄（ｘ），ｂ₄₄
（ｘ），ｂ₄₅（ｘ），ｂ₅₅（ｘ），ｂ₅₆（ｘ）の計ｌ０
個あるので、各ピッチパタン毎にｌ０個の平均ベクトル
を抽出する。

【００５４】（クラスタリング手順３）上記クラスタリ
ング手順２によって作成された、各ピッチパタン毎のｌ
０個の平均ベクトルをクラスタリング用データとして用
い、例えばＬＢＧアルゴリズムを用いて、各ピッチパタ
ンのクラスタリングを行う。クラスタ数は例えば、従来
技術と同様に４個とする。従って、本手順によりピッチ
パタンのクラスタが４個生成される。

【００５５】次に、学習の手順を示す。

【００５６】（学習手順ｌ）前記各クラスタ毎に、各ク
ラスタに属するピッチパタンを用いてＨＭＭを学習す
る。但し学習には、上記クラスタリング手順２によって
作成されたデータを用いるのではなく、圧縮前の元のピ
ッチパタンを用いる。上記クラスタリング手順２によっ
て作成されたデータはクラスタリングのためだけに用い
られる。学習には例えばフォワード・バックワードアル
ゴリズムを用いる。本手順により、各クラスタの代表ピ
ッチパタンのＨＭＭ、すなわち、ピッチパタンモデルが
求められる。このピッチパタンモデルは、図１に示され
るピッチパタンモデルメモリ７に格納される。

【００５７】以上で説明したように、クラスタリングに
使用するデータは、時間長の異なるピッチパタンをＨＭ
Ｍの学習という操作によって非線形に圧縮して、各ピッ
チパタンを同一のデータ長として揃えたものである。ま
た、各ＨＭＭの平均ベクトルは最尤推定によって求めら
れている。従って、前記従来技術のように線形伸縮によ
ってデータ長を揃える場合よりも、データ伸縮によるパ
タンの歪が小さく抑えられ、正確なクラスタリングが可
能となる。

【００５８】またピッチパタンモデルネットワークは、
前記各クラスタのピッチパタンモデルを図３に示すよう
に接続することにより生成される。

【００５９】まずネットワーク初期状態Ｓ₁とネットワ
ーク最終状態Ｓ₂₆を新たに生成する。次に、ネットワー
ク初期状態Ｓ₁と、前記各ピッチパタンモデルの初期状
態をヌル遷移で接続する。すなわち状態Ｓ₁とＳ₂、状
態Ｓ₁とＳ₈、状態Ｓ₁とＳ₁₄、状態Ｓ₁とＳ₂₀をそれ
ぞれヌル遷移で接続する。図３においてヌル運移は点線
で示される。

【００６０】次に各モデルの最終状態であるＳ₇とＳ₁₃
とＳ₁₉とＳ₂₅とを、ネットワークの最終状態Ｓ₂₆にヌル
遷移で接続する。

【００６１】またネットワークの最終状態Ｓ₂₆から初期
状態Ｓ₁へのループを可能にするため、最終状態Ｓ₂₆か
ら初期状態Ｓ₁ヘのヌル遷移を生成する。以上でピッチ
パタンモデルネットワークが完成される。このピッチパ
タンモデルネットワークは、図１に示されるピッチパタ
ンモデルネットワークメモリ８に格納される。

【００６２】このようにネットワークの最終状態Ｓ₂₆か
ら初期状態Ｓ₁へのループを設けたピッチパタンモデル
ネットワークを構成することにより、各クラスタのピッ
チパタンモデル間での任意の遷移が可能となり、入力音
声の対数ピッチ周波数時系列をピッチパタンモデルの連
鎖として表現することができる。

【００６３】次に句境界確率の計算方法を説明する。

【００６４】音声信号の入力端ｌから入力された音声信
号２は、ピッチ分折手段３およびポーズ検出手段４に入
力される。

【００６５】ピッチ分折手段３とポーズ検出手段４の動
作は従来技術と同様なので説明を省略する。

【００６６】句境界確率計算手段９は、ピッチ分析手段
３の出力である対数ピッチ周波数時系列と、ポーズ検出
手段４の出力であるポーズ区間の開始時刻と終了時刻と
を入力とし、ピッチパタンモデルネットワークメモリ８
のピッチパタンモデルネットワークを用いてポーズ区間
以外の区間に対して以下に示すように句境界確率の計算
を行う。

【００６７】対数ピッチ周波数の時系列をＰ₁Ｐ
₂Ｐ₃，・・・，Ｐ_T（添え字は時刻を表す）としたと
き、まず前向き確率α（Ｓ_i，ｔ）を（ｌ）式のように
定義する。

【００６８】

【数１】すなわちα（Ｓ_i，ｔ）は、ピッチパタンモデルネット
ワークにおける初期状態Ｓ₁から遷移を開始し、対数ピ
ッチ周波数の時系列Ｐ₁Ｐ₂Ｐ₃，・・・，Ｐ_tまでを
出力して状態Ｓｉに到達する確率である。

【００６９】また後ろ向き確率β（Ｓ_i，ｔ）を（２）
式のように定義する。

【００７０】

【数２】すなわちβ（Ｓ_i，ｔ）は時間軸を逆方向にして、ピッ
チパタンモデルネットワークにおける最終状態Ｓ₂₆から
遷移を開始し、対数ピッチ周波数の後ろ向き時系列であ
るＰ_TＰ_T-1Ｐ_T-2，．．．，Ｐ_t+1までを出力して状
態Ｓ_iに到達する確率である。

【００７１】前向き確率α（Ｓ_i，ｔ）は以下のような
漸化式によって計算することができる。

【００７２】［初期値設定］

【数３】［ｔ＝１〜Ｔ，Ｓ_i（ｉ＝１〜Ｊ）についての漸化式計
算］

【数４】

【数５】また後ろ向き確率β（Ｓ_i，ｔ）は以下のような漸化式
によって計算することができる。

【００７３】［初期値設定］

【数６】［ｔ＝Ｔ−１〜１，Ｓ_i（ｉ＝Ｊ〜１）についての漸化
式計算］

【数７】

【数８】上記の前向き確率α（Ｓ_i，ｔ）と後ろ向き確率β（Ｓ
_i，ｔ）を用いて、時刻ｔにおける句境界確率Ｓ
_p（ｔ）（ｔ＝ｌ〜Ｔ）を（９）式によって計算する。

【００７４】

【数９】前向き確率α（Ｓ_i，ｔ）と後ろ向き確率β（Ｓ_i，
ｔ）の定義より、（９）式において、分母は全ての状態
遷移を考慮した場合の前記ピッチパタンの時系列Ｐ₁Ｐ
₂Ｐ₃，．．．，Ｐ_Tが生成される確率である。すなわ
ち、ピッチパタンモデルネットワークにより前記時系列
が生成される全確率である。また、分子は時刻ｔにおい
て各クラスタＨＭＭの初期状態を通過した遷移により前
記時系列Ｐ₁Ｐ₂Ｐ₃，．．．，Ｐ_Tが生成される確率
の和である。ゆえに、両者の比をとることにより時刻ｔ
において各クラスタＨＭＭの初期状態を遷移した確率、
すなわち句の境界である確率を求めることができる。こ
れはＨＭＭの学習におけるフォワード・バックワードア
ルゴリズムを句境界確率計算に用いたものと考えること
ができる。

【００７５】また（９）式において、分子と分母の確率
和を最大値選択に置き換えることも可能である。すなわ
ち以下の（ｌ０）式を用いても句境界確率を計算するこ
とができる。

【００７６】

【数１０】（ｌ０）式では、式の値がｌとなる時刻が、ピッチパタ
ンモデルの最適系列を求めたときのモデルの境界時刻と
なっており、前記従来技術と等価な句境界検出も可能で
ある。

【００７７】実施例２．図４は本発明の実施例２に係わ
る句境界確率計算装置の一構成例を示すブロック構成図
である。図４において実施例ｌの説明図である図ｌと同
一機能ブロックには同一の番号を付し、説明は省略す
る。

【００７８】本実施例において特徴的な点は、句境界確
率重み付け手段ｌ０を新たに付加したことである。ピッ
チパタンモデルおよびピッチパタンモデルネットワーク
は、実施例１と同様にして作成しておく。

【００７９】次に動作について説明する。

【００８０】音声信号の入力端ｌから入力された音声信
号２はピッチ分折手段３およびポーズ検出手段４に入力
される。そして実施例ｌと同様の動作によって句境界確
率計算手段９は、時刻ｔにおける句境界確率Ｓ_p（ｔ）
（ｔ＝ｌ〜Ｔ）を出力する。

【００８１】句境界確率重み付け手段ｌ０は、句境界確
率Ｓ_p（ｔ）（ｔ＝ｌ〜Ｔ）を入力として、（ｌｌ）式
により重み付き句境界確率Ｓ’_p（ｔ）（ｔ＝ｌ〜Ｔ）
を計算して出力する。（ｌｌ）式においてｗは重み付け
の程度を決める定数であり、後の実施例で述べるよう
に、アクセント句境界確率とスペクトル特徴量から計算
される音声認識スコアとを統合する場合に、アクセント
句境界確率の寄与率を調整するためのものである。この
寄与率を調整することにより、音声認識をより高精度で
実施することができる。

【００８２】

【数１１】実施例３．図５は本発明の実施例３に係わる連続音声認
識装置の一構成例を示す構成ブロック図である。本発明
に係わる連続音声認識装置は、句境界確率計算部ｌｌと
スポッティング部ｌ９から構成される。

【００８３】本実施例における句境界確率計算部１ｌ
は、実施例２で述べた句境界計算装置を用いるので、同
一の符号を付し、説明は省路する。尚、句境界確率計算
部１ｌとして、実施例１で述べた句境界計算装置を用い
ることもできる。

【００８４】スポッティング部ｌ９は、入力音声のスペ
クトル特徴ベクトルの時系列を算出するスペクトル分折
手段ｌ２と、音声のスペクトル特徴ベクトルの時系列を
モデル化したバックグランドモデルを記憶するバックグ
ランドモデルメモリｌ３と、前記入力音声のスペクトル
特徴ベクトルの時系列を入力とし、バックグランドモデ
ルｌ３を用いて前記スペクトル特徴ベクトル時系列に対
するスペクトル特徴前向き確率とスペクトル特徴後ろ向
き確率を計算するバックグランドモデル照合手段ｌ４
と、句境界確率計算部ｌｌの出力である重み付き句境界
確率と前記スペクトル特徴前向き確率との積を求め、統
合化前同き確率を算出する前向き確率統合手段ｌ５と、
句境界確率計算部ｌｌの出力である重み付き句境界確率
と前記スペクトル特徴後ろ向き確率との積を求め、統合
化後ろ向き確率を算出する後ろ向き確率統合手段ｌ６
と、スポッティング対象とする文節音声のスペクトル特
徴ベクトルの時系列をモデル化した文節モデルを記憶す
る文節モデルメモリｌ７と、前記音声のスペクトル特徴
ベクトルの時系列と前記統合化前向き確率と統合化後ろ
向き確率とを入力とし、文節モデルを用いて文節のスポ
ッティングを行うスポッティング手段ｌ８から構成され
る。

【００８５】スポッティングとは、入力音声中から所定
の単語や文節を抽出する技術である。例えば、「明日、
東京へ行きます」と発声された音声中から「東京へ」と
いう文節をスポッティングするということは、「東京
ヘ」いう文節の発声開始時刻、発声終了時刻や、後述す
るスポッティングスコア等を求めることである。

【００８６】スポッティングの方法は幾つかあるが、本
実施例では、後述するように、スポッティング対象とな
る文節モデルの前後に、任意の音声の特徴ベクトル時系
列を表現できるモデルを接続して、入力音声の全区間の
特徴ベクトル時系列とのパタンマッチングを行う過程で
前記文節モデルと入力音声とのマッチング区間を求める
方法を用いる。ここで前記文節モデルの前後に接続する
モデルのことをバックグランドモデルという。

【００８７】本実施例では、上記のバックグランドモデ
ルと文節モデルとして、ともにＨＭＭを用いる。ピッチ
パタンモデルとの違いは、特徴ベクトル時系列がピッチ
パタンではなく、スペクトル特徴ベクトルの時系列であ
る点である。ここで、スペクトル特徴ベクトルの時系列
を用いるのは、スペクトル特徴ベクトルでないと文節の
認識ができないからである。これに対して、ピッチパタ
ンモデルは句境界検出に大変有用であり、本実施例にお
いても、句境界確率計算部ｌｌにはピッチパタンモデル
が使用されている。

【００８８】バックグランドモデルとしては、例えば図
６に示されるような音節モデルネットワークを用いる。
これは実施例ｌで述べたピッチパタンモデルネットワー
クの構成法と全く同一である。日本語に現れる全ての音
節に対して、音節モデルを用意しておくことにより、日
本語の任意の発声のスペクトル特徴ベクトルの時系列を
モデル化することができる。

【００８９】また、文節モデルは文節を構成する自立
語、例えば「東京」のモデルに、付属語、例えば「へ」
のモデルを幾つか接続したモデルを用いるものとし、ス
ポッティング対象とする全ての文節に対して文節モデル
を用意しておく。

【００９０】次に動作について説明する。

【００９１】音声信号の入力端１から入力された音声信
号２は、句境界確率計算部１１とスポッティング部１９
に入力される。

【００９２】句境界確率計算部ｌｌは実施例２と全く同
じ動作をし、時刻ｔにおける重み付き句境界確率Ｓ’
（ｔ）（ｔ＝ｌ〜Ｔ）を出力する。

【００９３】スポッティング部ｌ９に入力された音声信
号２は、スペクトル分折手段ｌ２によってスペクトル分
折され、スペクトル特徴ベクトルの時系列Ｘ₁Ｘ
₂Ｘ₃，・・・，Ｘ_Tに変換される。スペクトル特徴ベ
クトルＸは例えばＬＰＣケプストラムである。

【００９４】バックグランドモデル照合手段ｌ４は、ス
ペクトル分析手段ｌ２の出力であるスペクトル特徴ベク
トルの時系列を入力として、バックグランドモデルメモ
リｌ３からのバックグランドモデルを用いて、以下のよ
うにスペクトル特徴前向き確率であるＳ_fw（ｔ）（ｔ＝
ｌ〜Ｔ）と、スペクトル特徴後ろ向き確率であるＳ
_bw（ｔ）（ｔ＝ｌ〜Ｔ）を算出する。

【００９５】スペクトル特徴前向き確率Ｓ_fw（ｔ）（ｔ
＝ｌ〜Ｔ）は（ｌ２）式により計算する。

【００９６】

【数１２】すなわち、Ｓ_fw（ｔ）はバックグランドモデルとして図
６に示される音節モデルネットワークにおける初期状態
（Ｓ₁）から遷移を開始し、スペクトル特徴ベクトルの
時系列Ｘ₁Ｘ₂Ｘ₃，・・・，Ｘ_tまでを出力して最終
状態（Ｓ_J）に到達する確率である。

【００９７】但し、［初期値設定］

【数１３】［ｔ＝ｌ〜Ｔ，Ｓ_i（ｉ＝ｌ〜Ｊ）についての漸化式計
算］

【数１４】

【数１５】また、スペクトル特徴後ろ向き確率Ｓ_bw（ｔ）は（ｌ
６）式により計算する。

【００９８】

【数１６】すなわち、Ｓ_bw（ｔ）は時間軸を逆方向にして、図６に
示される音節モデルネットワークにおける最終状態（Ｓ
_J）から遷移を開始し、スペクトル特徴ベクトルの後ろ
向き時系列であるＸ_TＸ_T-1Ｘ_T-2，・・・，Ｘ_t+1ま
でを出力して初期状態（Ｓ₁）に到達する確率である。

【００９９】但し、［初期値設定］

【数１７】［ｔ＝Ｔ−ｌ〜ｌ，Ｓ_i（ｉ＝Ｊ〜ｌ）についての漸化
式計算］

【数１８】

【数１９】前向き確率統合手段１５は、句境界確率計算部１１の出
力である、重み付き句境界確率Ｓ’_p（ｔ）と、バック
グランドモデル照合手段１４の出力である前記スペクト
ル特徴前向き確率Ｓ_fw（ｔ）を入力として、（２０）式
にしたがって統合化前向き確率であるＳ’_fw（ｔ）（ｔ
＝１〜Ｔ）を算出する。

【０１００】

【数２０】後ろ向き確率統合手段１６は、句境界確率計算部１１の
出力である重み付き句境界確率Ｓ’_p（ｔ）と、バック
グランドモデル照合手段１４の出力である前記スペクト
ル特徴後ろ向き確率Ｓ_bw（ｔ）を入力として、（２１）
式にしたがって統合化後ろ向き確率であるＳ’_bw（ｔ）
（ｔ＝１〜Ｔ）を算出する。

【０１０１】

【数２１】スポッテイング手段１８は、前記音声のスペクトル特徴
ベクトルの時系列と前期統合化前向き確率と統合化後ろ
向き確率とを入力とし、文節モデルを用いて（２２）式
により、各スポッティング対象文節毎に、各文節のスポ
ッティングスコアであるＦ⁽ⁿ⁾（ｔ）（ｔ＝１〜Ｔ）を
計算する。ここで肩の添字（ｎ）は文節モデルの番号で
あり、ｎ＝１，２，３，．．．Ｎ（Ｎ：スポッティング
対象文節総数）である。

【０１０２】そして、前記スポティングスコアＦ
⁽ⁿ⁾（ｔ）が予め定められた閾値以上である場合に、そ
の時刻ｔと、文節モデル番号ｎと、スポッティングスコ
アＦ⁽ⁿ⁾（ｔ）をスポッティング結果として出力する。
スポティングスコアＦ⁽ⁿ⁾（ｔ）が予め定められた閾値
を越えた時刻ｔが文節の境界である確率が高い時刻であ
る。

【０１０３】

【数２２】但し、［初期値設定］

【数２３】［ｔ＝１〜Ｔ，Ｓ_i（ｉ＝１）についての漸化式計算］

【数２４】［ｔ＝１〜Ｔ，Ｓ_i（ｉ＝２〜Ｊ，Ｓ_J：最終状態）に
ついての漸化式計算］

【数２５】

【数２６】（２２）式および（２４）式から明かなように、前記統
合化前向き確率と前記統合化後ろ向き確率が、それぞれ
大きい区間で、スポッティングスコアが大きくなる。ゆ
えにバックグランドモデルを用いて計算されたスペクト
ル特徴前向き確率と、スペクトル特徴後ろ向き確率に、
重み付き句境界確率を乗じることにより、句境界以外の
時刻での、スペクトル特徴前向き確率と、スペクトル特
徴後ろ向き確率を小さく抑えることが可能となり、句境
界以外の時刻で誤って文節がスポッティングされること
を抑制することができる。句境界は文節境界と一致して
いる場合が殆どであり、結局、文節境界以外の時刻で誤
って文節がスポッティングされることを抑制することが
できる。

【０１０４】実施例４．実施例３で述べた句境界確率利
用音声認識装置において、バックグラントモデルとして
文節モデルの連鎖を用いる場合の実施例を説明する。

【０１０５】図７は、例えば行動予定管理を認識タスク
とした場合、すなわち行動予定に関する音声入力に対し
て専用化されたバックグランドモデルの一構成例が示さ
れる。

【０１０６】図７において四角で囲まれた部分は単語モ
デルを表しており、単語モデルのネットワークとして文
節モデルが構成されている。認識タスクに現れる全ての
文節のモデルをバックグランドモデルに組み込むことに
より、認識タスク内の発声であれば、全ての発声に対す
るスペクトル特徴ベクトルの時系列を前記バックグラン
ドモデルによって表現することができる。

【０１０７】バックグランドモデルとして文節モデルの
連鎖を用いること以外は、スポッティングの動作は、実
施例３で述べた句境界確率利用音声認識装置と全く同様
なので説明は省略する。

【０１０８】バックグランドモデルとして文節モデルの
連鎖を用いることによって、実施例３で述べたバックグ
ランドモデルのように音節の連鎖を用いる場合と比較し
て、実施例３で述べたスペクトル特徴前向き確率Ｓ
_fw（ｔ）（ｔ＝ｌ〜Ｔ）とスペクトル特徴後ろ向き確率
であるＳ_bw（ｔ）（ｔ＝ｌ〜Ｔ）が文節境界時刻以外で
は更に小さな値に抑えられるので、文節境界以外の時刻
で誤って文節がスポッティングされることを、より抑制
することができる。

【０１０９】実施例５．図８は請求項７記載の発明に係
わる連続音声認識装置の一構成例を示す図である。本発
明に係わる連続音声認識装置は、句境界確率計算部ｌｌ
と連続音声認識部２３から構成される。

【０１１０】本実施例における句境界確率計算部ｌｌ
は、実施例２で述べた句境界計算装置を用いるので、同
一の番号を付し、説明は省略する。尚、実施例１で述べ
た句境界計算装置を用いることもできる。

【０１１１】連続音声認識部２３は、入力音声のスペク
トル特徴ベクトルの時系列を算出するスペクトル分析手
段１２と、認識対象とする文音声のスペクトル特徴ベク
トルの時系列をモデル化した文モデルネットワークを記
憶する文モデルネットワークメモリ２０と、前記入力音
声のスペクトル特徴ベクトルの時系列を入力とし、文モ
デルネットワークを用いて前記入力音声の認識を行い、
複数の認識結果候補文と各認識結果候捕文のスペクトル
特徴認識スコアと、各認識結果候捕文毎にその文を構成
する文節の境界時刻とを出力する連続音声認識手段２ｌ
と、前記各認識結果候補文の文節の境界時刻における重
み付き句境界確率を用いて、スペクトル特徴認識スコア
を補正し、この補正した認識スコアに基づいて、最終的
な認識結果候補文を決定する確率統合手段２２から構成
される。

【０１１２】本実施例では、文モデルネットワークとし
てＨＭＭを用いる。文モデルネットワークでモデル化す
る特徴量パラメータは、実施例３で述べた文節モデルと
同様にスペクトル特徴ベクトルの時系列である。連続音
声認識では、認識対象とする文の総数は非常に多いの
で、認識対象とする各文毎にモデルを用意するのではな
く、図９に示されるように単語モデルを接続して構成し
た文モデルネットワークを用いる。

【０１１３】また図９に示されるように、文モデルネッ
トワーク中に文節区切り位置の情報を付与しておく。

【０１１４】次に動作について説明する。

【０１１５】音声信号の入力端ｌから入力された音声信
号２は、句境界確率計算部ｌｌと連続音声認識部２３に
入力される。

【０１１６】句境界確率計算部ｌｌは実施例２と全く同
じ動作をし、時刻ｔにおける重み付き句境界確率Ｓ’_p
（ｔ）（ｔ＝１〜Ｔ）を出力する。

【０１１７】連続音声認識部２３に入力された音声信号
２は、スペクトル分折手段ｌ２によってスペクトル分折
され、スペクトル特徴ベクトルの時系列Ｘ₁Ｘ₂Ｘ₃，
・・・，Ｘ_Tに変換される。スペクトル特徴ベクトルＸ
は例えばＬＰＣケプストラムである。

【０１１８】連続音声認識手段２ｌは、スペクトル分析
手段１２の出力であるスペクトル特徴ベクトルの時系列
を入力として、文モデルネットワークメモリ２０からの
文モデルネットワークを用いて、例えばＮ−ｂｅｓｔア
ルゴリズムによって連続音声認識を行い、Ｎ個の認識結
果候補文と各認識候補文のスペクトル特徴認識スコアＧ
⁽ⁿ⁾（ｎ＝１〜Ｎ）と、各認識結果候補文毎にその文を
構成する文節の境界時刻ｔ⁽ⁿ⁾ _k（ｎ＝１〜Ｎ、ｋ＝１
〜Ｋ⁽ⁿ⁾、但しＫ⁽ⁿ⁾：ｎ番目認識結果候補文に含まれ
る文節境界の数）とを出力する。

【０１１９】確率統合手段２２は、句境界確率計算部１
１の出力である重み付き句境界確率と連続音声認識手段
２ｌの出力である複数の各認識結果候補文のスペクトル
特徴認識スコアと各認識結果候捕文毎にその文を構成す
る文節の境界時刻とを入力として、（２７）式により各
認識結果候補文の補正認識スコアＧ⁽ⁿ⁾’（ｎ＝ｌ〜
Ｎ）を計算する。そして認識結果として、前記補正認識
スコアＧ⁽ⁿ⁾’の高い順に、認識結果候補文と、補正認
識スコアＧ⁽ⁿ⁾’を出力する。

【０１２０】

【数２７】上記のごとく、スペクトル特徴認識スコアにくわえて、
ピッチパタンから計算される重み付き句境界確率を統合
することにより、句境界の誤った認識結果文候補の確率
が抑えられ、文音声認識の精度を向上させることができ
る。

【０１２１】

【発明の効果】以上述べたようにこの発明によれば、ピ
ッチパタンモデルによってアクセント句のピッチ特徴量
の時系列を統計的にモデル化し、句境界確率計算手段
は、前記ピッチパタンモデルを用いてピッチ特徴量の時
系列に対するピッチ前向き確率とピッチ後ろ向き確率を
計算し、このピッチ前向き確率とピッチ後ろ向き確率に
基づいて前記入力音声の各時刻におけるアクセント句境
界確率を計算するので、スペクトル特徴量から計算され
る音声認識の認識結果候補の認識スコアと、ピッチパタ
ンから計算されるアクセント句境界確率との統合が可能
となり、入力音声の各時刻が句境界であるか否かをｌ，
０で判定する従来技術と比較して、アクセント句境界情
報の音声認識への利用を容易にする効果がある。

【０１２２】またピッチパタンモデル作成のための、ピ
ッチパタンのクラスタリングに使用するデー夕は、時間
長の異なるピッチパタンをＨＭＭの学習という操作によ
って非線形に圧縮して、各ピッチパタンを同一のデータ
長に揃えたものであり、各ＨＭＭの平均ベクトルは最尤
推定によって求められているので、前記従来技術のよう
に線形伸縮によってデータ長を揃える場合よりも、デー
タ伸縮によるパタンの歪が小さく抑えられ、正確なクラ
スタリングが可能となる。

【０１２３】また、句境界確率重み付け手段は、アクセ
ント句境界確率に対して、重み付け係数を備え、アクセ
ント句境界確率に重みを付けを行うので、アクセント句
境界確率を考慮したことによる音声認識の精度向上を最
大にするようにアクセント句境界確率の寄与率を設定す
ることができる。

【０１２４】また、前向き確率統合手段は重み付き句境
界確率とスペクトル特徴前向き確率との積を求めること
により統合化前向き確率を算出し、後ろ向き確率統合手
段は重み付き句境界確率とスペクトル特徴後ろ向き確率
との積を求めることにより統合化後ろ向き確率を算出
し、スポッティング手段は、統合化前向き確率と統合化
後ろ向き確率とを用いて、スポッティングを行うので、
句境界以外の時刻での、スペクトル特徴前向き確率と、
スベクトル特徴後ろ向き確率を小さく抑えることが可能
となり、句境界以外の時刻で誤って文節がスポッティン
グされることを抑制することができる。

【０１２５】また、バックグランドモデルとして文節モ
デルの連鎖を用いることによって、スペクトル特徴前向
き確率とスペクトル特徴後ろ向き確率が文節境界時刻以
外では更に小さな値に抑えられるので、文節境界以外の
時刻で誤って文節がスポッティングされることを、より
抑制することができる。

【０１２６】また、連続音声認識手段は、文モデルネッ
トワークを用いて、入力音声の認識を行い、複数の認識
結果候捕文と各認識結果候補文のスペクトル特徴認識ス
コアと、各認識結果候補文毎にその文を構成する文節の
境界時刻とを算出し、確率統合手段は、各認識結果候補
文の文節の境界時刻における重み付き句境界確率を用い
てスペクトル特徴認識スコアを補正するので、句境界の
誤った認識結果文候補のスコアが抑えられ、文音声認識
の精度を向上させることができる。

【図面の簡単な説明】

【図１】本発明の実施例１に係わる句境界確率計算装
置の構成例を示すブロック図である。

【図２】ＨＭＭの構成を説明するための図である。

【図３】ピッチパタンモデルネットワークの構成を説
明するための図である。

【図４】本発明の実施例２に係わる句境界確率計算装
置の構成例を示すブロック図である。

【図５】本発明の実施例３に係わる句境界確率利用連
続音声認識装置の構成例を示すブロック図である。

【図６】音節の連鎖で構成した実施例３のバックグラ
ンドモデルを説明するための図である。

【図７】文節の連鎖で構成した実施例４のバックグラ
ンドモデルを説明するための図である。

【図８】本発明の実施例５に係わる句境界確率利用連
続音声認識装置の一構成例を示すブロック図である。

【図９】文モデルネットワークの構成を説明するため
の図である。

【図１０】従来技術の句境界検出装置の一構成例を示
すブロック図である。

【符号の説明】

１音声信号の入力端、２音声信号、３ピッチ分析
手段、４ポーズ検出手段、５ピッチパタンテンプレ
ート、６句境界検出手段、７ピッチパタンモデルメ
モリ、８ピッチパタンモデルネットワークメモリ、９
句境界確率計算手段、１０句境界確率重み付け手
段、１１句境界確率計算部、１２スペクトル分析手
段、１３バックグランドモデルメモリ、１４バック
グランドモデル照合手段、１５前向き確率統合手段、
１６後ろ向き確率統合手段、１７文節モデルメモリ、
１８スポッティング手段、１９スポッティング部、
２０文モデルネットワークメモリ、２１連続音声認
識手段、２２確率統合手段、２３連続音声認識部。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/00 ５３５

Claims

【特許請求の範囲】

【請求項１】入力音声のピッチ特徴量の時系列を算出
するピッチ分折手段と、アクセント句のピッチ特徴量の時系列をモデル化したｌ
個または複数個のピッチパタンモデルを記憶したピッチ
パタンモデルメモリと、前記ピッチ特徴量の時系列を入力とし、前記ピッチパタ
ンモデルの連鎖により前記ピッチ特徴量の時系列の初期
から所定の時刻までのピッチ特徴量が出力される確率で
あるピッチ前向き確率と、前記ピッチパタンモデルの連
鎖により前記ピッチ特徴量の時系列の終期から所定の時
刻までのピッチ特徴量が出力される確率であるピッチ後
ろ向き確率とを計算し、このピッチ前向き確率とピッチ
後ろ向き確率とに基づいて、前記ピッチパタンモデルの
連鎖により前記ピッチ特徴量の時系列が生成される全確
率と、前記所定の時刻において前記ピッチパタンモデル
の境界を通過して前記ピッチ特徴量の時系列が生成され
る確率との比により、前記入力音声の各時刻におけるア
クセント句境界確率を計算する句境界確率計算手段と、を備えたことを特徴とする句境界確率計算装置。
【請求項２】系列長の異なる複数個の特徴ベクトルの
系列毎に同一構造のＨＭＭを学習し、学習後に得られた
各ＨＭＭ毎の平均ベクトルをクラスタリング用データと
して用いることを特徴とする、系列長の異なる複数個の
特徴ベクトルの系列に対するクラスタリング方法。
【請求項３】請求項２記載のクラスタリング方法によ
ってアクセント句のピッチパタンをクラスタリングし、
そのクラスタリング結果に基づいてピッチパタンモデル
を作成して使用することを特徴とする請求項ｌ記載の句
境界確率計算装置。
【請求項４】アクセント句境界確率に対して、重み付
け係数を備え、アクセント句境界確率に重み付けを行う
句境界確率重み付け手段を備えたことを特徴とする請求
項１記載の句境界確率計算装置。
【請求項５】入力音声のスペクトル特徴ベクトルの時
系列を算出するスペクトル分析手段と、音声のスペクトル特徴ベクトルの時系列をモデル化した
バックグランドモデルを記憶したバックグランドモデル
メモリと、前記入力音声のスペクトル特徴ベクトルの時系列を入力
とし、前記バックグランドモデルの連鎖により前記スペ
クトル特徴ベクトル時系列の初期から所定の時刻までの
スペクトル特徴ベクトルが出力される確率であるスペク
トル特徴前向き確率と、前記バックグランドモデルの連
鎖により前記スペクトル特徴ベクトル時系列の終期から
所定の時刻までのスペクトル特徴ベクトルが出力される
確率であるスペクトル特徴後ろ向き確率とを計算するバ
ックグランドモデル照合手段と、前記スペクトル特徴前向き確率と、請求項ｌまたは請求
項４記載の句境界確率計算装置から出力される句境界確
率との積である統合化前向き確率を算出する前向き確率
統合手段と、前記スペクトル特徴後ろ向き確率と、請求項１または請
求項４記載の句境界確率計算装置から出力される句境界
確率との積である統合化後ろ向き確率を算出する後ろ向
き確率統合手段と、スポッティング対象とする文節音声のスペクトル特徴ベ
クトルの時系列をモデル化した文節モデルを記憶した文
節モデルメモリと、前記音声のスペクトル特徴ベクトルの時系列と前記統合
化前向き確率と統合化後ろ向き確率とを入力とし、前記
文節モデルを用いて文節のスポッティングを行うスポッ
ティング手段を備えたことを特徴とする句境界確率利用
連続音声認識装置。
【請求項６】バックグランドモデルとして文節モデル
の連鎖を用いることを特徴とする請求項５記載の句境界
確率利用連続音声認識装置。
【請求項７】入力音声のスペクトル特徴ベクトルの時
系列を算出するスペクトル分析手段と、認識対象とする文音声のスペクトル特徴ベクトルの時系
列をモデル化した文モデルネットワークと、入力音声のスペクトル特徴ベクトルの時系列を入力と
し、前記文モデルネットワークを用いて、入力音声の認
識を行い、複数の認識結果候補文と各認識結果候補文の
スペクトル特徴認識スコアと、各認識結果候補文毎にそ
の文を構成する文節の境界時刻とを出力する連続音声認
識手段と、前記複数の各認識結果候補文のスペクトル特徴認識スコ
アと各認識結果候補文を構成する文節の境界時刻と、請
求項ｌまたは請求項４記載の句境界確率計算装置から出
力される句境界確率とを入力として、各認識結果候補文
の文節の境界時刻における句境界確率を用いてスペクト
ル特徴認識スコアを補正し、この補正された認識スコア
に基づいて、認識結果候補文を決定する確率統合手段を
備えたことを特徴とする句境界確率利用連続音声認識装
置。