JPH08123469A - 句境界確率計算装置および句境界確率利用連続音声認識装置 - Google Patents

句境界確率計算装置および句境界確率利用連続音声認識装置

Info

Publication number
JPH08123469A
JPH08123469A JP6265668A JP26566894A JPH08123469A JP H08123469 A JPH08123469 A JP H08123469A JP 6265668 A JP6265668 A JP 6265668A JP 26566894 A JP26566894 A JP 26566894A JP H08123469 A JPH08123469 A JP H08123469A
Authority
JP
Japan
Prior art keywords
probability
pitch
phrase
time series
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6265668A
Other languages
English (en)
Other versions
JP3403838B2 (ja
Inventor
Toshiyuki Hanazawa
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP26566894A priority Critical patent/JP3403838B2/ja
Publication of JPH08123469A publication Critical patent/JPH08123469A/ja
Application granted granted Critical
Publication of JP3403838B2 publication Critical patent/JP3403838B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力音声の各時刻における句境界確率を求
め、句境界情報の音声認識への利用を容易にすることを
目的としている。さらに、前記句境界確率を、音声認識
のために利用して音声認識精度を改善することを目的と
している。 【構成】 入力音声のピッチ特徴量の時系列を算出する
ピッチ分析手段3と、アクセント句のピッチ特徴量の時
系列をモデル化した1個または複数個のピッチパタンモ
デルを記憶するピッチパタンモデルメモリ7を備え、句
境界確率計算手段9は、前記ピッチ特徴量の時系列とポ
ーズ区間の開始時刻と終了時刻を入力とし、前記ピッチ
パタンモデルを用いて前記ピッチ特徴量の時系列に対す
るピッチ前向き確率とピッチ後ろ向き確率を計算し、こ
のピッチ前向き確率とピッチ後ろ向き確率に基づいて前
記入力音声の各時刻におけるアクセント句境界確率を計
算する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文音声の各時刻におけ
るアクセント句境界確率を計算する句境界確率計算装
置、およびアクセント句境界確率を利用して音声認識精
度の向上を図る句境界確率利用連続音声認識装置に係わ
るものである。
【0002】
【従来の技術】音声認識は一般に、一定時間毎に音声信
号の周波数分析を行うことにより得られるスペクトル特
徴ベクトルの時系列を特徴パラメータとし、予め用意さ
れた認識対象単語や文の標準パタンとパタンマッチング
を行うことによって実現される。しかし人間はアクセン
卜やイントネーションの情報も利用して音声を認識して
いると考えられる。そこで近年、音声のアクセント句、
すなわち、1個のアクセント核を有する句の境界を検出
し、音声認識に利用しようとする試みがなされている。
【0003】例えば、図l0は文献「中井、下平、嵯峨
山、“ピッチパターンのクラスタリングに基づく不特定
話者連続音声の句境界検出”、電子通信学会論文誌、
A、Vol.J77−A、No.2、pp206−2l
4、l994年2月」に記載されている句境界検出方式
の一実施例を示す構成ブロック図である。
【0004】図l0においてlは音声信号の入力端、2
は音声信号の入力端lから入力された音声信号、3は音
声信号2のピッチ分折を行うピッチ分析手段、4は音声
信号2のポーズ区間を検出するポーズ検出手段、5はア
クセント句のピッチパタンを表現するピッチパタンテン
プレート、6はピッチパタンテンプレート5を用いて音
声信号2の句境界時刻を検出する句境界検出手段であ
る。
【0005】図10におけるピッチパタンテンプレート
5は、予め大量のアクセント句のピッチパタンを用い、
そのピッチパタンをいくつかの類型に分け、この類型の
平均として作成しておく。すなわち、ピッチパタンテン
プレート5は、アクセント句の各類型ピッチパタンの代
表パタンである。
【0006】アクセント句のピッチパタンは不特定多数
の話者が発声した文音声から抽出される。日本語のアク
セント句に現れるピッチパタンは平板型、頭高型、中高
型等、複数個のパタンがあるので、複数個のピッチパタ
ンテンプレートが作成される。
【0007】上述したピッチパタンとしては、例えば対
数ピッチ周波数の時系列が用いられる。
【0008】ピッチパタンテンプレート5の作成は、以
下の手順で行う。
【0009】(テンプレート作成手順l)大量のアクセ
ント句のピッチパタンをそれぞれ一定の時間長に線形伸
縮し、各ピッチパタンを同一の時間長に揃える。
【0010】(テンプレート作成手順2)同一の時間長
に揃えたピッチパタンを用いてクラスタリングを行い、
各ピッチパタンをn個のクラスタに分類する。ここでク
ラスタの個数nは、日本語にあらわれるアクセント句の
パタンを考慮して、例えば4個とする。
【0011】(テンプレート作成手順3)前記各クラス
タ毎に、同一の時間長に揃えたピッチパタンの平均を求
め、ピッチパタンテンプレート5とする。
【0012】以上の手順により、n(=4)個のピッチ
パタンテンプレートが作成される。
【0013】句境界の検出は以下のように行う。
【0014】音声信号の入力端lから入力された音声信
号2はピッチ分析手段3およびポーズ検出手段4に入力
される。
【0015】ピッチ分折手段3は、一定時間毎に音声信
号2のピッチ分折を行い、音声信号2の対数ピッチ周波
数の時系列を求める。ここでピッチ分折には例えばラグ
窓法を用いる。
【0016】またポーズ検出手段4は、音声信号2のパ
ワーの時系列を求め、予め定められたパワー閾値以下の
区間を抽出し、この抽出区間の継続時間長が予め定めら
れた閾値以上の区間をポーズ区間として検出し、各ポー
ズ区間の開始時刻と終了時刻を出力する。
【0017】句境界検出手段6は、ピッチ分折手段3の
出力である対数ピッチ周波数時系列と、ピッチテンプレ
ート5をいくつか接続したテンプレートとのパタンマッ
チングを行い、ピッチパタンテンプレート5の接続境界
時刻を句境界時刻として出力する。
【0018】すなわち、句境界検出手段6は、ピッチ分
折手段3の出力である対数ピッチ周波数時系列と、ポー
ズ検出手段4の出力であるポーズ区間の開始時刻及び終
了時刻とを入力とし、ポーズ区間以外の区間に対して、
以下の手順で句境界の検出を行う。
【0019】(句境界検出手順l)n(=4)個のピッ
チパタンテンプレート5を用いて、前記対数ピッチ周波
数時系列を入力パタンとしてOne−Stage DP
マッチングを行う。
【0020】(句境界検出手順2)DPマッチング終了
後、DP経路のバックトレースを行い、前記対数ピッチ
周波数時系列とのDP距離が最も小さくなるピッチパタ
ンテンプレートの接続系列を求め、接続境界時刻を句境
界時刻として出力する。
【0021】
【発明が解決しようとする課題】上記従来の句境界検出
方式では、入力音声の各時刻が句境界であるか否かのみ
を判定している。しかし句境界をl00%検出し、かつ
句境界でないものを誤検出しないようにすることは困難
であり、検出結果をl00%正しいものであると仮定す
ることはできない。また、上記従来技術では、検出した
句境界の信頼性を定量的に求めることができない。ゆえ
に検出された句境界を音声認識のために利用することが
困難であるという問題点があった。
【0022】この発明は上記課題を解決するためになさ
れたもので、入力音声の各時刻が句境界であるか否かを
l,0で判定するのではなく、入力音声の各時刻におい
て句境界らしさを確率として求め、句境界情報の音声認
識への利用を容易にすることを目的としている。さら
に、前記句境界らしさの確率を音声認識のために利用し
て、音声認識精度を改善する方法を提供することを目的
としている。
【0023】
【問題を解決するための手段】この発明に係わる句境界
確率計算装置および句境界確率利用連続音声認識装置
は、アクセント句のピッチ特徴量の時系列をモデル化し
た1個または複数個のピッチパタンモデルを記憶したピ
ッチパタンモデルメモリと、前記ピッチパタンモデルを
用いてピッチ特徴量の時系列に対するピッチ前向き確率
とピッチ後ろ向き確率とを計算し、このピッチ前向き確
率とピッチ後ろ向き確率とに基づいて前記入力音声の各
時刻におけるアクセント句境界確率を計算する句境界確
率計算手段と、を備えた。
【0024】また、時間長の異なる複数個のベクトルの
時系列毎に同一構造のHMMを学習し、学習後に得られ
た各HMM毎の平均ベクトルをクラスタリング用データ
として用いるクラスタリング方法によって、アクセント
句のピッチパタンをクラスタリングし、各クラスタ毎に
ピッチパタンモデルを学習する。
【0025】また、アクセント句境界確率に対して重み
付け係数を備え、アクセント句境界確率に重み付けを行
う句境界確率重み付け手段を備えた。
【0026】また、音声のスペクトル特徴ベクトルの時
系列をモデル化したl個または複数個のバックグランド
モデルを記憶したバックグランドモデルメモリと、前記
入力音声のスペクトル特徴ベクトルの時系列を入力と
し、前記バックグランドモデルを用いて前記スペクトル
特徴ベクトル時系列に対するスペクトル特徴前向き確率
とスペクトル特徴後ろ向き確率を計算するバックグラン
ドモデル照合手段と、前記句境界確率と前記スペクトル
特徴前向き確率との積である統合化前向き確率を算出す
る前向き確率統合手段と、前記句境界確率と前記スペク
トル特徴後ろ向き確率との積である統合化後ろ向き確率
を算出する後ろ向き確率統合手段と、スポッティング対
象とする文節音声のスペクトル特徴ベクトルの時系列を
モデル化した文節モデルと、前記音声のスペクトル特徴
ベクトルの時系列と前記統合化前向き確率と統合化後ろ
向き確率とを入力とし、前記文節モデルを用いて文節の
スポッティングを行うスポッティング手段と、を備え
た。
【0027】また、バックグランドモデルとして文節モ
デルの連鎖を用いることとした。
【0028】また、認識対象とする文音声のスペクトル
特徴ベクトルの時系列をモデル化した文モデルネットワ
ークを記憶した文モデルネットワークメモリと、前記入
力音声のスペクトル特徴ベクトルの時系列を入力とし、
前記文モデルネットワークを用いて、前記入力音声の認
識を行い、複数の認識結果候補文と各認識結果候補文の
スペクトル特徴認識スコアと、各認識緒果候補文毎にそ
の文を構成する文節の境界時刻とを出力する連続音声認
識手段と、前記句境界確率と前記複数の各認識結果候補
文のスペクトル特徴認識スコアと各認識結果候補文を構
成する文節の境界時刻とを入力として、各認識結果候補
文の文節の境界時刻における句境界確率を用いてスペク
トル特徴認識スコアを補正し、この補正された認識スコ
アに基づいて、認識結果候補文を決定する確率統合手段
と、を備えた。
【0029】
【作用】ピッチパタンモデルは、アクセント句のピッチ
特徴量の時系列を統計的にモデル化し、句境界確率計算
手段は、前記ピッチパタンモデルを用いてピッチ特徴量
の時系列に対するピッチ前向き確率とピッチ後ろ向き確
率とを計算し、このピッチ前向き確率とピッチ後ろ向き
確率に基づいて前記入力音声の各時刻におけるアクセン
ト句境界確率を計算する。
【0030】また、時間長の異なる複数個の特徴ベクト
ルの時系列毎に同一の構造のHMMを学習することによ
り、時間長の異なる複数個の特徴ベクトルの時系列を非
線形圧縮して、前記複数個の特徴ベクトルの時系列を同
一の時間長に揃えて、クラスタリングを行う。
【0031】また、句境界確率重み付け手段は、アクセ
ント句境界確率に対して、重み付け係数を備えアクセン
ト句境界確率に重みを付けを行うことにより、スペクト
ル特徴量から計算される音声認識スコアと統合する場合
のアクセント句境界確率の寄与率を調整する。
【0032】また、前向き確率統合手段は句境界確率と
スペクトル特徴前向き確率との積を求めることにより統
合化前向き確率を算出し、後ろ向き確率統合手段は句境
界確率とスペクトル特徴後ろ向き確率との積を求めるこ
とにより統合化後ろ向き確率を算出し、スポッティング
手段は、統合化前向き確率と統合化後ろ向き確率とを用
いて、スポッティングを行う。
【0033】文節モデルの連鎖から構成されるバックグ
ランドモデルは、文節境界時刻以外でのスペクトル特徴
前向き確率と、スペクトル特徴後ろ向き確率とを小さく
抑える。
【0034】また、連続音声認識手段は、文モデルネッ
トワークを用いて、入力音声の認識を行い、複数の認識
結果候補文と各認識結果候補文のスペクトル特徴認識ス
コアと、各認識結果候補文毎にその文を構成する文節の
境界時刻とを算出し、確率統合手段は、各認識結果候補
文の文節の境界時刻における句境界確率を用いてスペク
トル特徴認識スコアを補正する。
【0035】
【実施例】
実施例l.図lは請求項l記載の発明に係わる句境界確
率計算装置の一構成例を示すブロック構成図である。図
lにおいて従来技術の説明図である図l0と同一機能ブ
ロックには同一の番号を付し、説明は省略する。
【0036】本実施例において特徴的な点は、アクセン
ト句のピッチパタンを代表している複数個のピッチパタ
ンモデルを記憶するピッチパタンモデルメモリ7と、こ
のピッチパタンモデルのネットワークを記憶するピッチ
パタンモデルネットワークメモリ8と、このピッチパタ
ンモデルネットワークを用いて音声信号2に対する各時
刻における句境界確率を計算する句境界確率計算手段9
とを備えることである。
【0037】上述のピッチパタンモデルは、各アクセン
ト句の類型の平均を表しており、アクセント句のピッチ
パタンの代表パタンを表している。
【0038】音声信号の句境界確率を計算する前に、ピ
ッチパタンモデルと、ピッチパタンモデルネットワーク
とを作成する必要がある。
【0039】まず、ピッチパタンモデルの作成方法を説
明する。
【0040】本実施例ではピッチパタンモデルとして連
続型のHMM(Hidden Markov Mode
l、隠れマルコフモデル)を用いる。またピッチパタン
を表現するパラメータは、従来技術と同様に対数ピッチ
周波数の時系列が用いられる。
【0041】ここで、ピッチパタンモデルとしてHMM
を使用するのは、入力音声の各時刻において句境界らし
さを確率として求めるためである。従来技術のように、
ピッチパタンテンプレートを使用する場合には、句境界
か否かが1ビットで求まるだけで、句境界らしさの確率
を求めることはできない。
【0042】HMMは、図2に示されるように、幾つか
の状態(S1 ,S2 ,S3 ,S4 ,S5 ,S6 )と状態
間を結ぶ弧によって構成される。各弧には、その弧を通
って各状態を遷移する遷移確率aijと、音声の特徴ベク
トルxの出力確立bij(x)がパラメータとして与えら
れている。ここで添字ijは状態Si から状態Sj への
遷移を示すものであり、遷移確率aijは状態Si からS
j へ遷移が起きる確率である。また出力確率bij(x)
は通常、多次元正規分布で表現され、声の特徴ベクトル
の平均値と分散がパラメータとして与えられており、状
態Si からSjへの遷移の際に音声の特徴ベクトルxが
出力される確率密度を表している。
【0043】また弧には、遷移確率aijのみをパラメー
タとして持ち、音声の特徴ベクトルを出力することな
く、状態間の遷移のみに寄与する弧がある。この弧によ
る状態遷移をヌル遷移と呼んでいる。
【0044】本実施例では音声の特徴ベクトルとして、
対数ピッチ周波数を用いるので特徴ベクトルの次元数は
1である。
【0045】HMMは初期状態と呼ばれる状態(図2に
おけるS1 )から遷移を開始し、最終状態(図2におけ
るS6 )へ到達する過程での状態遷移により、遷移確率
ijと出力確率bij(x)によって計算される確率で様
々な音声の特徴ベクトルの時系列を生成することができ
る。すなわち、状態S1 から状態S6 まで遷移する間
に、アクセン卜句のピッチパタンを生成することにな
る。
【0046】例えば、音声の特徴ベクトルとして、対数
ピッチ周波数を用いた場合、HMMは様々な対数ピッチ
周波数の時系列を生成することができる。この場合、H
MMによって対数ピッチ周波数の時系列としての各アク
セン卜句のピッチパタンが生成される確率を算出するこ
とができる。従って、HMMによって種々のアクセン卜
句のピッチパタンを統計的にモデル化することができ
る。
【0047】HMMによるアクセント句のピッチパタン
のモデル化は、大量のアクセント句のピッチパタンを用
いて、これらのピッチパタンがHMMから生成される確
率が高くなるように、HMMのパラメータである遷移確
率aijと出力確率bij(x)を推定することによって実
現される。この推定方法は最尤推定と呼ばれており、パ
ラメータ推定手続きをHMMの学習といい、HMMの学
習に用いるデータを学習データという。
【0048】本実施例では、学習に用いるアクセント句
のピッチパタンは、従来技術と同様に不特定多数の話者
が発声した文音声から抽出される。
【0049】学習手順は、ピッチパタンのクラスタリン
グと、HMMの学習の2つの過程に分けられる。
【0050】以下に、クラスタリングと学習の手順を示
す。
【0051】まずクラスタリングの手順は次の通りであ
る。
【0052】(クラスタリング手順l)大量のアクセン
ト句のピッチパタンの各々に対して、各ピッチパタンを
学習データとして、HMMを学習する。すなわち各ピッ
チパタン毎にHMMを学習する。この際、各アクセント
句の系列長、すなわち対数ピッチ周波数の時系列の長さ
が異なっても、HMMの状態数や遷移の構造は各パタン
で共通の構造を用いる。例えば図2に示したHMMの構
造を用いる。
【0053】(クラスタリング手順2)上記クラスタリ
ング手順lによって作成された各ピッチパタン毎のHM
Mから、出力確率bij(x)の平均ベクトルを抽出す
る。例えば図2に示したHMMの構造を用いて学習した
場合には出力確率は、b11(X),b12(X),b
22(X),b23(X),b33(x),b34(x),b44
(x),b45(x),b55(x),b56(x)の計l0
個あるので、各ピッチパタン毎にl0個の平均ベクトル
を抽出する。
【0054】(クラスタリング手順3)上記クラスタリ
ング手順2によって作成された、各ピッチパタン毎のl
0個の平均ベクトルをクラスタリング用データとして用
い、例えばLBGアルゴリズムを用いて、各ピッチパタ
ンのクラスタリングを行う。クラスタ数は例えば、従来
技術と同様に4個とする。従って、本手順によりピッチ
パタンのクラスタが4個生成される。
【0055】次に、学習の手順を示す。
【0056】(学習手順l)前記各クラスタ毎に、各ク
ラスタに属するピッチパタンを用いてHMMを学習す
る。但し学習には、上記クラスタリング手順2によって
作成されたデータを用いるのではなく、圧縮前の元のピ
ッチパタンを用いる。上記クラスタリング手順2によっ
て作成されたデータはクラスタリングのためだけに用い
られる。学習には例えばフォワード・バックワードアル
ゴリズムを用いる。本手順により、各クラスタの代表ピ
ッチパタンのHMM、すなわち、ピッチパタンモデルが
求められる。このピッチパタンモデルは、図1に示され
るピッチパタンモデルメモリ7に格納される。
【0057】以上で説明したように、クラスタリングに
使用するデータは、時間長の異なるピッチパタンをHM
Mの学習という操作によって非線形に圧縮して、各ピッ
チパタンを同一のデータ長として揃えたものである。ま
た、各HMMの平均ベクトルは最尤推定によって求めら
れている。従って、前記従来技術のように線形伸縮によ
ってデータ長を揃える場合よりも、データ伸縮によるパ
タンの歪が小さく抑えられ、正確なクラスタリングが可
能となる。
【0058】またピッチパタンモデルネットワークは、
前記各クラスタのピッチパタンモデルを図3に示すよう
に接続することにより生成される。
【0059】まずネットワーク初期状態S1 とネットワ
ーク最終状態S26を新たに生成する。次に、ネットワー
ク初期状態S1 と、前記各ピッチパタンモデルの初期状
態をヌル遷移で接続する。すなわち状態S1 とS2 、状
態S1 とS8 、状態S1 とS14、状態S1 とS20をそれ
ぞれヌル遷移で接続する。図3においてヌル運移は点線
で示される。
【0060】次に各モデルの最終状態であるS7 とS13
とS19とS25とを、ネットワークの最終状態S26にヌル
遷移で接続する。
【0061】またネットワークの最終状態S26から初期
状態S1 へのループを可能にするため、最終状態S26
ら初期状態S1 ヘのヌル遷移を生成する。以上でピッチ
パタンモデルネットワークが完成される。このピッチパ
タンモデルネットワークは、図1に示されるピッチパタ
ンモデルネットワークメモリ8に格納される。
【0062】このようにネットワークの最終状態S26
ら初期状態S1 へのループを設けたピッチパタンモデル
ネットワークを構成することにより、各クラスタのピッ
チパタンモデル間での任意の遷移が可能となり、入力音
声の対数ピッチ周波数時系列をピッチパタンモデルの連
鎖として表現することができる。
【0063】次に句境界確率の計算方法を説明する。
【0064】音声信号の入力端lから入力された音声信
号2は、ピッチ分折手段3およびポーズ検出手段4に入
力される。
【0065】ピッチ分折手段3とポーズ検出手段4の動
作は従来技術と同様なので説明を省略する。
【0066】句境界確率計算手段9は、ピッチ分析手段
3の出力である対数ピッチ周波数時系列と、ポーズ検出
手段4の出力であるポーズ区間の開始時刻と終了時刻と
を入力とし、ピッチパタンモデルネットワークメモリ8
のピッチパタンモデルネットワークを用いてポーズ区間
以外の区間に対して以下に示すように句境界確率の計算
を行う。
【0067】対数ピッチ周波数の時系列をP1
2 3 ,・・・,PT (添え字は時刻を表す)としたと
き、まず前向き確率α(Si ,t)を(l)式のように
定義する。
【0068】
【数1】 すなわちα(Si ,t)は、ピッチパタンモデルネット
ワークにおける初期状態S1 から遷移を開始し、対数ピ
ッチ周波数の時系列P1 2 3 ,・・・,Pt までを
出力して状態Siに到達する確率である。
【0069】また後ろ向き確率β(Si ,t)を(2)
式のように定義する。
【0070】
【数2】 すなわちβ(Si ,t)は時間軸を逆方向にして、ピッ
チパタンモデルネットワークにおける最終状態S26から
遷移を開始し、対数ピッチ周波数の後ろ向き時系列であ
るPT T-1 T-2 ,...,Pt+1 までを出力して状
態Si に到達する確率である。
【0071】前向き確率α(Si ,t)は以下のような
漸化式によって計算することができる。
【0072】[初期値設定]
【数3】 [t=1〜T,Si (i=1〜J)についての漸化式計
算]
【数4】
【数5】 また後ろ向き確率β(Si ,t)は以下のような漸化式
によって計算することができる。
【0073】[初期値設定]
【数6】 [t=T−1〜1,Si (i=J〜1)についての漸化
式計算]
【数7】
【数8】 上記の前向き確率α(Si ,t)と後ろ向き確率β(S
i ,t)を用いて、時刻tにおける句境界確率S
p (t)(t=l〜T)を(9)式によって計算する。
【0074】
【数9】 前向き確率α(Si ,t)と後ろ向き確率β(Si
t)の定義より、(9)式において、分母は全ての状態
遷移を考慮した場合の前記ピッチパタンの時系列P1
2 3 ,...,PT が生成される確率である。すなわ
ち、ピッチパタンモデルネットワークにより前記時系列
が生成される全確率である。また、分子は時刻tにおい
て各クラスタHMMの初期状態を通過した遷移により前
記時系列P1 2 3 ,...,PT が生成される確率
の和である。ゆえに、両者の比をとることにより時刻t
において各クラスタHMMの初期状態を遷移した確率、
すなわち句の境界である確率を求めることができる。こ
れはHMMの学習におけるフォワード・バックワードア
ルゴリズムを句境界確率計算に用いたものと考えること
ができる。
【0075】また(9)式において、分子と分母の確率
和を最大値選択に置き換えることも可能である。すなわ
ち以下の(l0)式を用いても句境界確率を計算するこ
とができる。
【0076】
【数10】 (l0)式では、式の値がlとなる時刻が、ピッチパタ
ンモデルの最適系列を求めたときのモデルの境界時刻と
なっており、前記従来技術と等価な句境界検出も可能で
ある。
【0077】実施例2.図4は本発明の実施例2に係わ
る句境界確率計算装置の一構成例を示すブロック構成図
である。図4において実施例lの説明図である図lと同
一機能ブロックには同一の番号を付し、説明は省略す
る。
【0078】本実施例において特徴的な点は、句境界確
率重み付け手段l0を新たに付加したことである。ピッ
チパタンモデルおよびピッチパタンモデルネットワーク
は、実施例1と同様にして作成しておく。
【0079】次に動作について説明する。
【0080】音声信号の入力端lから入力された音声信
号2はピッチ分折手段3およびポーズ検出手段4に入力
される。そして実施例lと同様の動作によって句境界確
率計算手段9は、時刻tにおける句境界確率Sp (t)
(t=l〜T)を出力する。
【0081】句境界確率重み付け手段l0は、句境界確
率Sp (t)(t=l〜T)を入力として、(ll)式
により重み付き句境界確率S’p (t)(t=l〜T)
を計算して出力する。(ll)式においてwは重み付け
の程度を決める定数であり、後の実施例で述べるよう
に、アクセント句境界確率とスペクトル特徴量から計算
される音声認識スコアとを統合する場合に、アクセント
句境界確率の寄与率を調整するためのものである。この
寄与率を調整することにより、音声認識をより高精度で
実施することができる。
【0082】
【数11】 実施例3.図5は本発明の実施例3に係わる連続音声認
識装置の一構成例を示す構成ブロック図である。本発明
に係わる連続音声認識装置は、句境界確率計算部llと
スポッティング部l9から構成される。
【0083】本実施例における句境界確率計算部1l
は、実施例2で述べた句境界計算装置を用いるので、同
一の符号を付し、説明は省路する。尚、句境界確率計算
部1lとして、実施例1で述べた句境界計算装置を用い
ることもできる。
【0084】スポッティング部l9は、入力音声のスペ
クトル特徴ベクトルの時系列を算出するスペクトル分折
手段l2と、音声のスペクトル特徴ベクトルの時系列を
モデル化したバックグランドモデルを記憶するバックグ
ランドモデルメモリl3と、前記入力音声のスペクトル
特徴ベクトルの時系列を入力とし、バックグランドモデ
ルl3を用いて前記スペクトル特徴ベクトル時系列に対
するスペクトル特徴前向き確率とスペクトル特徴後ろ向
き確率を計算するバックグランドモデル照合手段l4
と、句境界確率計算部llの出力である重み付き句境界
確率と前記スペクトル特徴前向き確率との積を求め、統
合化前同き確率を算出する前向き確率統合手段l5と、
句境界確率計算部llの出力である重み付き句境界確率
と前記スペクトル特徴後ろ向き確率との積を求め、統合
化後ろ向き確率を算出する後ろ向き確率統合手段l6
と、スポッティング対象とする文節音声のスペクトル特
徴ベクトルの時系列をモデル化した文節モデルを記憶す
る文節モデルメモリl7と、前記音声のスペクトル特徴
ベクトルの時系列と前記統合化前向き確率と統合化後ろ
向き確率とを入力とし、文節モデルを用いて文節のスポ
ッティングを行うスポッティング手段l8から構成され
る。
【0085】スポッティングとは、入力音声中から所定
の単語や文節を抽出する技術である。例えば、「明日、
東京へ行きます」と発声された音声中から「東京へ」と
いう文節をスポッティングするということは、「東京
ヘ」いう文節の発声開始時刻、発声終了時刻や、後述す
るスポッティングスコア等を求めることである。
【0086】スポッティングの方法は幾つかあるが、本
実施例では、後述するように、スポッティング対象とな
る文節モデルの前後に、任意の音声の特徴ベクトル時系
列を表現できるモデルを接続して、入力音声の全区間の
特徴ベクトル時系列とのパタンマッチングを行う過程で
前記文節モデルと入力音声とのマッチング区間を求める
方法を用いる。ここで前記文節モデルの前後に接続する
モデルのことをバックグランドモデルという。
【0087】本実施例では、上記のバックグランドモデ
ルと文節モデルとして、ともにHMMを用いる。ピッチ
パタンモデルとの違いは、特徴ベクトル時系列がピッチ
パタンではなく、スペクトル特徴ベクトルの時系列であ
る点である。ここで、スペクトル特徴ベクトルの時系列
を用いるのは、スペクトル特徴ベクトルでないと文節の
認識ができないからである。これに対して、ピッチパタ
ンモデルは句境界検出に大変有用であり、本実施例にお
いても、句境界確率計算部llにはピッチパタンモデル
が使用されている。
【0088】バックグランドモデルとしては、例えば図
6に示されるような音節モデルネットワークを用いる。
これは実施例lで述べたピッチパタンモデルネットワー
クの構成法と全く同一である。日本語に現れる全ての音
節に対して、音節モデルを用意しておくことにより、日
本語の任意の発声のスペクトル特徴ベクトルの時系列を
モデル化することができる。
【0089】また、文節モデルは文節を構成する自立
語、例えば「東京」のモデルに、付属語、例えば「へ」
のモデルを幾つか接続したモデルを用いるものとし、ス
ポッティング対象とする全ての文節に対して文節モデル
を用意しておく。
【0090】次に動作について説明する。
【0091】音声信号の入力端1から入力された音声信
号2は、句境界確率計算部11とスポッティング部19
に入力される。
【0092】句境界確率計算部llは実施例2と全く同
じ動作をし、時刻tにおける重み付き句境界確率S’
(t)(t=l〜T)を出力する。
【0093】スポッティング部l9に入力された音声信
号2は、スペクトル分折手段l2によってスペクトル分
折され、スペクトル特徴ベクトルの時系列X1
2 3 ,・・・,XT に変換される。スペクトル特徴ベ
クトルXは例えばLPCケプストラムである。
【0094】バックグランドモデル照合手段l4は、ス
ペクトル分析手段l2の出力であるスペクトル特徴ベク
トルの時系列を入力として、バックグランドモデルメモ
リl3からのバックグランドモデルを用いて、以下のよ
うにスペクトル特徴前向き確率であるSfw(t)(t=
l〜T)と、スペクトル特徴後ろ向き確率であるS
bw(t)(t=l〜T)を算出する。
【0095】スペクトル特徴前向き確率Sfw(t)(t
=l〜T)は(l2)式により計算する。
【0096】
【数12】 すなわち、Sfw(t)はバックグランドモデルとして図
6に示される音節モデルネットワークにおける初期状態
(S1 )から遷移を開始し、スペクトル特徴ベクトルの
時系列X1 2 3 ,・・・,Xt までを出力して最終
状態(SJ )に到達する確率である。
【0097】但し、[初期値設定]
【数13】 [t=l〜T,Si (i=l〜J)についての漸化式計
算]
【数14】
【数15】 また、スペクトル特徴後ろ向き確率Sbw(t)は(l
6)式により計算する。
【0098】
【数16】 すなわち、Sbw(t)は時間軸を逆方向にして、図6に
示される音節モデルネットワークにおける最終状態(S
J )から遷移を開始し、スペクトル特徴ベクトルの後ろ
向き時系列であるXT T-1 T-2 ,・・・,Xt+1
でを出力して初期状態(S1 )に到達する確率である。
【0099】但し、[初期値設定]
【数17】 [t=T−l〜l,Si (i=J〜l)についての漸化
式計算]
【数18】
【数19】 前向き確率統合手段15は、句境界確率計算部11の出
力である、重み付き句境界確率S’p (t)と、バック
グランドモデル照合手段14の出力である前記スペクト
ル特徴前向き確率Sfw(t)を入力として、(20)式
にしたがって統合化前向き確率であるS’fw(t)(t
=1〜T)を算出する。
【0100】
【数20】 後ろ向き確率統合手段16は、句境界確率計算部11の
出力である重み付き句境界確率S’p (t)と、バック
グランドモデル照合手段14の出力である前記スペクト
ル特徴後ろ向き確率Sbw(t)を入力として、(21)
式にしたがって統合化後ろ向き確率であるS’bw(t)
(t=1〜T)を算出する。
【0101】
【数21】 スポッテイング手段18は、前記音声のスペクトル特徴
ベクトルの時系列と前期統合化前向き確率と統合化後ろ
向き確率とを入力とし、文節モデルを用いて(22)式
により、各スポッティング対象文節毎に、各文節のスポ
ッティングスコアであるF(n) (t)(t=1〜T)を
計算する。ここで肩の添字(n)は文節モデルの番号で
あり、n=1,2,3,...N(N:スポッティング
対象文節総数)である。
【0102】そして、前記スポティングスコアF
(n) (t)が予め定められた閾値以上である場合に、そ
の時刻tと、文節モデル番号nと、スポッティングスコ
アF(n) (t)をスポッティング結果として出力する。
スポティングスコアF(n) (t)が予め定められた閾値
を越えた時刻tが文節の境界である確率が高い時刻であ
る。
【0103】
【数22】 但し、[初期値設定]
【数23】 [t=1〜T,Si (i=1)についての漸化式計算]
【数24】 [t=1〜T,Si (i=2〜J,SJ :最終状態)に
ついての漸化式計算]
【数25】
【数26】 (22)式および(24)式から明かなように、前記統
合化前向き確率と前記統合化後ろ向き確率が、それぞれ
大きい区間で、スポッティングスコアが大きくなる。ゆ
えにバックグランドモデルを用いて計算されたスペクト
ル特徴前向き確率と、スペクトル特徴後ろ向き確率に、
重み付き句境界確率を乗じることにより、句境界以外の
時刻での、スペクトル特徴前向き確率と、スペクトル特
徴後ろ向き確率を小さく抑えることが可能となり、句境
界以外の時刻で誤って文節がスポッティングされること
を抑制することができる。句境界は文節境界と一致して
いる場合が殆どであり、結局、文節境界以外の時刻で誤
って文節がスポッティングされることを抑制することが
できる。
【0104】実施例4.実施例3で述べた句境界確率利
用音声認識装置において、バックグラントモデルとして
文節モデルの連鎖を用いる場合の実施例を説明する。
【0105】図7は、例えば行動予定管理を認識タスク
とした場合、すなわち行動予定に関する音声入力に対し
て専用化されたバックグランドモデルの一構成例が示さ
れる。
【0106】図7において四角で囲まれた部分は単語モ
デルを表しており、単語モデルのネットワークとして文
節モデルが構成されている。認識タスクに現れる全ての
文節のモデルをバックグランドモデルに組み込むことに
より、認識タスク内の発声であれば、全ての発声に対す
るスペクトル特徴ベクトルの時系列を前記バックグラン
ドモデルによって表現することができる。
【0107】バックグランドモデルとして文節モデルの
連鎖を用いること以外は、スポッティングの動作は、実
施例3で述べた句境界確率利用音声認識装置と全く同様
なので説明は省略する。
【0108】バックグランドモデルとして文節モデルの
連鎖を用いることによって、実施例3で述べたバックグ
ランドモデルのように音節の連鎖を用いる場合と比較し
て、実施例3で述べたスペクトル特徴前向き確率S
fw(t)(t=l〜T)とスペクトル特徴後ろ向き確率
であるSbw(t)(t=l〜T)が文節境界時刻以外で
は更に小さな値に抑えられるので、文節境界以外の時刻
で誤って文節がスポッティングされることを、より抑制
することができる。
【0109】実施例5.図8は請求項7記載の発明に係
わる連続音声認識装置の一構成例を示す図である。本発
明に係わる連続音声認識装置は、句境界確率計算部ll
と連続音声認識部23から構成される。
【0110】本実施例における句境界確率計算部ll
は、実施例2で述べた句境界計算装置を用いるので、同
一の番号を付し、説明は省略する。尚、実施例1で述べ
た句境界計算装置を用いることもできる。
【0111】連続音声認識部23は、入力音声のスペク
トル特徴ベクトルの時系列を算出するスペクトル分析手
段12と、認識対象とする文音声のスペクトル特徴ベク
トルの時系列をモデル化した文モデルネットワークを記
憶する文モデルネットワークメモリ20と、前記入力音
声のスペクトル特徴ベクトルの時系列を入力とし、文モ
デルネットワークを用いて前記入力音声の認識を行い、
複数の認識結果候補文と各認識結果候捕文のスペクトル
特徴認識スコアと、各認識結果候捕文毎にその文を構成
する文節の境界時刻とを出力する連続音声認識手段2l
と、前記各認識結果候補文の文節の境界時刻における重
み付き句境界確率を用いて、スペクトル特徴認識スコア
を補正し、この補正した認識スコアに基づいて、最終的
な認識結果候補文を決定する確率統合手段22から構成
される。
【0112】本実施例では、文モデルネットワークとし
てHMMを用いる。文モデルネットワークでモデル化す
る特徴量パラメータは、実施例3で述べた文節モデルと
同様にスペクトル特徴ベクトルの時系列である。連続音
声認識では、認識対象とする文の総数は非常に多いの
で、認識対象とする各文毎にモデルを用意するのではな
く、図9に示されるように単語モデルを接続して構成し
た文モデルネットワークを用いる。
【0113】また図9に示されるように、文モデルネッ
トワーク中に文節区切り位置の情報を付与しておく。
【0114】次に動作について説明する。
【0115】音声信号の入力端lから入力された音声信
号2は、句境界確率計算部llと連続音声認識部23に
入力される。
【0116】句境界確率計算部llは実施例2と全く同
じ動作をし、時刻tにおける重み付き句境界確率S’p
(t)(t=1〜T)を出力する。
【0117】連続音声認識部23に入力された音声信号
2は、スペクトル分折手段l2によってスペクトル分折
され、スペクトル特徴ベクトルの時系列X1 2 3
・・・,XT に変換される。スペクトル特徴ベクトルX
は例えばLPCケプストラムである。
【0118】連続音声認識手段2lは、スペクトル分析
手段12の出力であるスペクトル特徴ベクトルの時系列
を入力として、文モデルネットワークメモリ20からの
文モデルネットワークを用いて、例えばN−bestア
ルゴリズムによって連続音声認識を行い、N個の認識結
果候補文と各認識候補文のスペクトル特徴認識スコアG
(n) (n=1〜N)と、各認識結果候補文毎にその文を
構成する文節の境界時刻t(n) k (n=1〜N、k=1
〜K(n) 、但しK(n) :n番目認識結果候補文に含まれ
る文節境界の数)とを出力する。
【0119】確率統合手段22は、句境界確率計算部1
1の出力である重み付き句境界確率と連続音声認識手段
2lの出力である複数の各認識結果候補文のスペクトル
特徴認識スコアと各認識結果候捕文毎にその文を構成す
る文節の境界時刻とを入力として、(27)式により各
認識結果候補文の補正認識スコアG(n) ’(n=l〜
N)を計算する。そして認識結果として、前記補正認識
スコアG(n) ’の高い順に、認識結果候補文と、補正認
識スコアG(n) ’を出力する。
【0120】
【数27】 上記のごとく、スペクトル特徴認識スコアにくわえて、
ピッチパタンから計算される重み付き句境界確率を統合
することにより、句境界の誤った認識結果文候補の確率
が抑えられ、文音声認識の精度を向上させることができ
る。
【0121】
【発明の効果】以上述べたようにこの発明によれば、ピ
ッチパタンモデルによってアクセント句のピッチ特徴量
の時系列を統計的にモデル化し、句境界確率計算手段
は、前記ピッチパタンモデルを用いてピッチ特徴量の時
系列に対するピッチ前向き確率とピッチ後ろ向き確率を
計算し、このピッチ前向き確率とピッチ後ろ向き確率に
基づいて前記入力音声の各時刻におけるアクセント句境
界確率を計算するので、スペクトル特徴量から計算され
る音声認識の認識結果候補の認識スコアと、ピッチパタ
ンから計算されるアクセント句境界確率との統合が可能
となり、入力音声の各時刻が句境界であるか否かをl,
0で判定する従来技術と比較して、アクセント句境界情
報の音声認識への利用を容易にする効果がある。
【0122】またピッチパタンモデル作成のための、ピ
ッチパタンのクラスタリングに使用するデー夕は、時間
長の異なるピッチパタンをHMMの学習という操作によ
って非線形に圧縮して、各ピッチパタンを同一のデータ
長に揃えたものであり、各HMMの平均ベクトルは最尤
推定によって求められているので、前記従来技術のよう
に線形伸縮によってデータ長を揃える場合よりも、デー
タ伸縮によるパタンの歪が小さく抑えられ、正確なクラ
スタリングが可能となる。
【0123】また、句境界確率重み付け手段は、アクセ
ント句境界確率に対して、重み付け係数を備え、アクセ
ント句境界確率に重みを付けを行うので、アクセント句
境界確率を考慮したことによる音声認識の精度向上を最
大にするようにアクセント句境界確率の寄与率を設定す
ることができる。
【0124】また、前向き確率統合手段は重み付き句境
界確率とスペクトル特徴前向き確率との積を求めること
により統合化前向き確率を算出し、後ろ向き確率統合手
段は重み付き句境界確率とスペクトル特徴後ろ向き確率
との積を求めることにより統合化後ろ向き確率を算出
し、スポッティング手段は、統合化前向き確率と統合化
後ろ向き確率とを用いて、スポッティングを行うので、
句境界以外の時刻での、スペクトル特徴前向き確率と、
スベクトル特徴後ろ向き確率を小さく抑えることが可能
となり、句境界以外の時刻で誤って文節がスポッティン
グされることを抑制することができる。
【0125】また、バックグランドモデルとして文節モ
デルの連鎖を用いることによって、スペクトル特徴前向
き確率とスペクトル特徴後ろ向き確率が文節境界時刻以
外では更に小さな値に抑えられるので、文節境界以外の
時刻で誤って文節がスポッティングされることを、より
抑制することができる。
【0126】また、連続音声認識手段は、文モデルネッ
トワークを用いて、入力音声の認識を行い、複数の認識
結果候捕文と各認識結果候補文のスペクトル特徴認識ス
コアと、各認識結果候補文毎にその文を構成する文節の
境界時刻とを算出し、確率統合手段は、各認識結果候補
文の文節の境界時刻における重み付き句境界確率を用い
てスペクトル特徴認識スコアを補正するので、句境界の
誤った認識結果文候補のスコアが抑えられ、文音声認識
の精度を向上させることができる。
【図面の簡単な説明】
【図1】 本発明の実施例1に係わる句境界確率計算装
置の構成例を示すブロック図である。
【図2】 HMMの構成を説明するための図である。
【図3】 ピッチパタンモデルネットワークの構成を説
明するための図である。
【図4】 本発明の実施例2に係わる句境界確率計算装
置の構成例を示すブロック図である。
【図5】 本発明の実施例3に係わる句境界確率利用連
続音声認識装置の構成例を示すブロック図である。
【図6】 音節の連鎖で構成した実施例3のバックグラ
ンドモデルを説明するための図である。
【図7】 文節の連鎖で構成した実施例4のバックグラ
ンドモデルを説明するための図である。
【図8】 本発明の実施例5に係わる句境界確率利用連
続音声認識装置の一構成例を示すブロック図である。
【図9】 文モデルネットワークの構成を説明するため
の図である。
【図10】 従来技術の句境界検出装置の一構成例を示
すブロック図である。
【符号の説明】
1 音声信号の入力端、2 音声信号、3 ピッチ分析
手段、4 ポーズ検出手段、5 ピッチパタンテンプレ
ート、6 句境界検出手段、7 ピッチパタンモデルメ
モリ、8 ピッチパタンモデルネットワークメモリ、9
句境界確率計算手段、10 句境界確率重み付け手
段、11 句境界確率計算部、12 スペクトル分析手
段、13 バックグランドモデルメモリ、14 バック
グランドモデル照合手段、15 前向き確率統合手段、
16 後ろ向き確率統合手段、17文節モデルメモリ、
18 スポッティング手段、19 スポッティング部、
20 文モデルネットワークメモリ、21 連続音声認
識手段、22 確率統合手段、23 連続音声認識部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 535

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力音声のピッチ特徴量の時系列を算出
    するピッチ分折手段と、 アクセント句のピッチ特徴量の時系列をモデル化したl
    個または複数個のピッチパタンモデルを記憶したピッチ
    パタンモデルメモリと、 前記ピッチ特徴量の時系列を入力とし、前記ピッチパタ
    ンモデルの連鎖により前記ピッチ特徴量の時系列の初期
    から所定の時刻までのピッチ特徴量が出力される確率で
    あるピッチ前向き確率と、前記ピッチパタンモデルの連
    鎖により前記ピッチ特徴量の時系列の終期から所定の時
    刻までのピッチ特徴量が出力される確率であるピッチ後
    ろ向き確率とを計算し、このピッチ前向き確率とピッチ
    後ろ向き確率とに基づいて、前記ピッチパタンモデルの
    連鎖により前記ピッチ特徴量の時系列が生成される全確
    率と、前記所定の時刻において前記ピッチパタンモデル
    の境界を通過して前記ピッチ特徴量の時系列が生成され
    る確率との比により、前記入力音声の各時刻におけるア
    クセント句境界確率を計算する句境界確率計算手段と、 を備えたことを特徴とする句境界確率計算装置。
  2. 【請求項2】 系列長の異なる複数個の特徴ベクトルの
    系列毎に同一構造のHMMを学習し、学習後に得られた
    各HMM毎の平均ベクトルをクラスタリング用データと
    して用いることを特徴とする、系列長の異なる複数個の
    特徴ベクトルの系列に対するクラスタリング方法。
  3. 【請求項3】 請求項2記載のクラスタリング方法によ
    ってアクセント句のピッチパタンをクラスタリングし、
    そのクラスタリング結果に基づいてピッチパタンモデル
    を作成して使用することを特徴とする請求項l記載の句
    境界確率計算装置。
  4. 【請求項4】 アクセント句境界確率に対して、重み付
    け係数を備え、アクセント句境界確率に重み付けを行う
    句境界確率重み付け手段を備えたことを特徴とする請求
    項1記載の句境界確率計算装置。
  5. 【請求項5】 入力音声のスペクトル特徴ベクトルの時
    系列を算出するスペクトル分析手段と、 音声のスペクトル特徴ベクトルの時系列をモデル化した
    バックグランドモデルを記憶したバックグランドモデル
    メモリと、 前記入力音声のスペクトル特徴ベクトルの時系列を入力
    とし、前記バックグランドモデルの連鎖により前記スペ
    クトル特徴ベクトル時系列の初期から所定の時刻までの
    スペクトル特徴ベクトルが出力される確率であるスペク
    トル特徴前向き確率と、前記バックグランドモデルの連
    鎖により前記スペクトル特徴ベクトル時系列の終期から
    所定の時刻までのスペクトル特徴ベクトルが出力される
    確率であるスペクトル特徴後ろ向き確率とを計算するバ
    ックグランドモデル照合手段と、 前記スペクトル特徴前向き確率と、請求項lまたは請求
    項4記載の句境界確率計算装置から出力される句境界確
    率との積である統合化前向き確率を算出する前向き確率
    統合手段と、 前記スペクトル特徴後ろ向き確率と、請求項1または請
    求項4記載の句境界確率計算装置から出力される句境界
    確率との積である統合化後ろ向き確率を算出する後ろ向
    き確率統合手段と、 スポッティング対象とする文節音声のスペクトル特徴ベ
    クトルの時系列をモデル化した文節モデルを記憶した文
    節モデルメモリと、 前記音声のスペクトル特徴ベクトルの時系列と前記統合
    化前向き確率と統合化後ろ向き確率とを入力とし、前記
    文節モデルを用いて文節のスポッティングを行うスポッ
    ティング手段を備えたことを特徴とする句境界確率利用
    連続音声認識装置。
  6. 【請求項6】 バックグランドモデルとして文節モデル
    の連鎖を用いることを特徴とする請求項5記載の句境界
    確率利用連続音声認識装置。
  7. 【請求項7】 入力音声のスペクトル特徴ベクトルの時
    系列を算出するスペクトル分析手段と、 認識対象とする文音声のスペクトル特徴ベクトルの時系
    列をモデル化した文モデルネットワークと、 入力音声のスペクトル特徴ベクトルの時系列を入力と
    し、前記文モデルネットワークを用いて、入力音声の認
    識を行い、複数の認識結果候補文と各認識結果候補文の
    スペクトル特徴認識スコアと、各認識結果候補文毎にそ
    の文を構成する文節の境界時刻とを出力する連続音声認
    識手段と、 前記複数の各認識結果候補文のスペクトル特徴認識スコ
    アと各認識結果候補文を構成する文節の境界時刻と、請
    求項lまたは請求項4記載の句境界確率計算装置から出
    力される句境界確率とを入力として、各認識結果候補文
    の文節の境界時刻における句境界確率を用いてスペクト
    ル特徴認識スコアを補正し、この補正された認識スコア
    に基づいて、認識結果候補文を決定する確率統合手段を
    備えたことを特徴とする句境界確率利用連続音声認識装
    置。
JP26566894A 1994-10-28 1994-10-28 句境界確率計算装置および句境界確率利用連続音声認識装置 Expired - Fee Related JP3403838B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26566894A JP3403838B2 (ja) 1994-10-28 1994-10-28 句境界確率計算装置および句境界確率利用連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26566894A JP3403838B2 (ja) 1994-10-28 1994-10-28 句境界確率計算装置および句境界確率利用連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH08123469A true JPH08123469A (ja) 1996-05-17
JP3403838B2 JP3403838B2 (ja) 2003-05-06

Family

ID=17420333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26566894A Expired - Fee Related JP3403838B2 (ja) 1994-10-28 1994-10-28 句境界確率計算装置および句境界確率利用連続音声認識装置

Country Status (1)

Country Link
JP (1) JP3403838B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424937B1 (en) * 1997-11-28 2002-07-23 Matsushita Electric Industrial Co., Ltd. Fundamental frequency pattern generator, method and program
KR100391123B1 (ko) * 2001-01-30 2003-07-12 이태성 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
WO2006058958A1 (en) * 2004-11-30 2006-06-08 Helsinki University Of Technology Method for the automatic segmentation of speech
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037319B2 (en) 2010-09-29 2018-07-31 Touchtype Limited User input prediction
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
JP6335794B2 (ja) * 2012-01-27 2018-05-30 タッチタイプ リミテッド ユーザデータ入力の予測

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061292B2 (ja) 1991-03-18 2000-07-10 日本電信電話株式会社 アクセント句境界検出装置
JP2793137B2 (ja) 1994-12-14 1998-09-03 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識のためのアクセント句境界検出装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424937B1 (en) * 1997-11-28 2002-07-23 Matsushita Electric Industrial Co., Ltd. Fundamental frequency pattern generator, method and program
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
KR100391123B1 (ko) * 2001-01-30 2003-07-12 이태성 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
WO2006058958A1 (en) * 2004-11-30 2006-06-08 Helsinki University Of Technology Method for the automatic segmentation of speech
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium

Also Published As

Publication number Publication date
JP3403838B2 (ja) 2003-05-06

Similar Documents

Publication Publication Date Title
US5625749A (en) Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
JP3053711B2 (ja) 音声認識装置およびそのトレーニング方法ならびに装置
US9099082B2 (en) Apparatus for correcting error in speech recognition
US8019602B2 (en) Automatic speech recognition learning using user corrections
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US4903305A (en) Method for representing word models for use in speech recognition
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
JP4340685B2 (ja) 音声認識装置及び音声認識方法
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JPH09127972A (ja) 連結数字の認識のための発声識別立証
US5825977A (en) Word hypothesizer based on reliably detected phoneme similarity regions
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JPH0250198A (ja) 音声認識システム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2853418B2 (ja) 音声認識方法
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
KR20050088014A (ko) 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
JPH08166796A (ja) 連続音声認識のためのアクセント句境界検出装置
JPH11249688A (ja) 音声認識装置およびその方法
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JPH09114482A (ja) 音声認識のための話者適応化方法
JPH08211893A (ja) 音声認識装置
JP3105708B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees