JP2924555B2 - 音声認識の境界推定方法及び音声認識装置 - Google Patents

音声認識の境界推定方法及び音声認識装置

Info

Publication number
JP2924555B2
JP2924555B2 JP5099402A JP9940293A JP2924555B2 JP 2924555 B2 JP2924555 B2 JP 2924555B2 JP 5099402 A JP5099402 A JP 5099402A JP 9940293 A JP9940293 A JP 9940293A JP 2924555 B2 JP2924555 B2 JP 2924555B2
Authority
JP
Japan
Prior art keywords
boundary
phoneme
model
time
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5099402A
Other languages
English (en)
Other versions
JPH06167993A (ja
Inventor
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP5099402A priority Critical patent/JP2924555B2/ja
Priority to GB9320285A priority patent/GB2271210B/en
Priority to GB9420085A priority patent/GB2280773B/en
Publication of JPH06167993A publication Critical patent/JPH06167993A/ja
Priority to US08/679,861 priority patent/US5940794A/en
Application granted granted Critical
Publication of JP2924555B2 publication Critical patent/JP2924555B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識装置の性能向
上のため用いる音声中の境界の推定方法と、連続音声を
認識して音韻系列に変換する音声認識装置に関するもの
である。
【0002】
【従来の技術】大語彙の音声認識を行うための音声認識
の方法として、予め入力音声を音素に分割(セグメンテ
ーション)した後、各音素毎に尤度を計算して可能な音
素の連結について全体の音声の尤度を求めることで入力
音声を認識する方法と、セグメンテーションは行わず可
能な音素の連結モデルと全体の音声の尤度を計算して入
力音声を認識する方法とがある。一般的に、前者は、セ
グメンテーションの誤りが致命的になるため認識精度が
低下するが、計算量は少なくなる。後者は、結局ほとん
どすべてのセグメンテーションの可能性を調べることに
なるので、計算量が膨大となるが認識精度は高くなると
考えられている。
【0003】これら前者あるいは後者の方法において、
確定的ではなく、あいまいさを許して確率的に音声中の
音声の境界を推定する必要が生じることがある。既に、
音声中の音素あるいは音節、単語などの音声の境界を推
定し音声をセグメンテーションする多くの方法が以下の
ような文献において発表されている。 a. 「ニューラルネットを用いた音韻セグメンテーシ
ョン」(日本音響学会講演論文集2−P−7昭和63年
10月) b. 「スペクトログラムリーディング知識を用いた音
韻セグメンテーションエキスパートシステム」(電子情
報通信学会論文誌D−II Vol.J73−D−II
No.1,pp.1−9 1990年1月) c. 「HMM法とベイズ確率を用いた連続音声のセグ
メンテーション」(電子情報通信学会論文誌D−II
Vol.J72−D−II No.1,pp.1−10
1989年1月) d. 「多様な音韻環境における音素的単位のセグメン
テーション」(電子情報通信学会論文誌D−II Vo
l.J72−D−II No.8,pp.1221−1
227 1989年8月) e. 「ON型聴覚ニューロンモデルに基づく音素セグ
メンテーションパラメータ」(電子情報通信学会論文誌
A Vol.J71−A No.3,pp.592−6
00 1988年3月) f. 「A Segmentation Algori
thm for Connected Word Re
cognition Based on Estima
tion Principles」(IEEE Tra
nsactions on Acoustics, S
peech,and Signal Processi
ng,Vol.ASSP−31,No.4,Augus
t 1983)
【0004】図36はこのうち上記文献a.で開示され
たニューラルネットに基づく方法に従って構成された従
来の音声中の境界の推定方法を示す構成図である。音声
分析部10は入力音声を入力してフレーム長20msの
周波数分析によってフレーム周期5ms毎に入力音声の
パワースペクトルを計算する。セグメンテーションパラ
メータ計算部12は音声分析部10の出力の各パワース
ペクトルからそれぞれセグメンテーションパラメータ5
個を計算する。
【0005】時間窓部2は時間幅T(時間換算で30m
s〜150ms)の範囲のセグメンテーションパラメー
タを一括してニューラルネット1001の入力層に加え
る。ニューラルネット1001は、入力層、中間層、出
力層の3層からなり、各層の素子数は、それぞれ、T×
5、50、1となっている。モード選択部3が「学習」
を選択しているとき、教師信号部1003は音韻境界で
信号1を、音韻境界以外では信号0を発生する。重み係
数修正部1002は教師信号1003が発生する教師信
号とニューラルネット1001の出力層の素子に得られ
る出力信号との間の誤差が小さくなるようにパックプロ
パゲーション法に基づき各層間に張られたリンクの重み
係数を順次修正する。
【0006】一方、モード選択部3が「推定」を選択し
ているとき、ニューラルネット1001の出力信号が音
声中に音声の境界が存在する度合いとしての尤度時系列
として出力される。以上説明した従来の方法は、原理的
に、従来経験に基づいて各種音韻環境に依存して設定し
ていた複雑なセグメンテーションパラメータとセグメン
テーションのための手続きが自動的にニューラルネット
上に作成されるため、これら従来の経験に基づく例外処
理や複雑な判定ルールの作成をこのニューラルネットで
代行するというものである。
【0007】また一方、音声認識装置としては以下のも
のがある。図37は音韻モデル系列として隠れマルコフ
モデル(Hidden Markov Model,略
してHMM)を用いた従来のこの種の音声認識装置の構
成図である。音声区間検出手段11は入力音声中の音声
区間を検出し、音声信号R1を出力する。特徴抽出手段
1は、音声信号R1から短時間毎に特徴パラメータを抽
出し、特徴パラメータの時系列R2を出力する(以後、
特徴パラメータの時系列をx1 ,x2 ,・・・,xT
記す。ここで、xt は時刻tの特徴パラメータ、また、
Tは音声区間の長さを表す。)。
【0008】HMMパラメータ記憶手段14は音韻系列
モデルとしてのHMMのパラメータR14を記憶してい
る。HMMはn個の状態からなり、HMMパラメータR
14は状態iから状態jへの遷移確率aij、状態jの出
力確率の計算に用いる混合分布の第m番目の要素ガウス
分布を表すパラメータとしての平均ベクトルμmj、共分
散行列Σmj、及び、分岐確率λmjからなる。モデル演算
手段としてのHMM演算手段13は、特徴パラメータ時
系列x1 ,x2 ,・・・,xt に対して音韻モデル系列
としてのHMMを当てはめるHMM演算を、HMMパラ
メータR14を参照して、実行し、HMM演算結果R1
3を出力する。HMM演算は、確率の和を確率の最大化
演算で置き換えたビタビ(Viterbi)のアルゴリ
ズムに基づく漸化式の式(1)と式(2)から次の初期
条件で演算できる。
【0009】
【数1】
【0010】ここで、α(j,t)は、時刻tにおい
て、状態jに留まる確率(前向き確率)を表し、β
(j,t)は時刻tに状態jに至る一つ前の最適な状態
番号を表すバックポインタである。また、bj (xt
は状態jの出力確率で、ガウス分布の確率密度関数Nを
用いて、次の式(3)で示すようにM個の要素ガウス分
布の混合分布として求められる。
【0011】
【数2】
【0012】音韻系列変換手段としての最適状態系列検
出手段5は、HMM演算結果R3として得られる変数α
(j,t)及びβ(j,t)の値から、最適状態系列R
5(以後、βハット(1),βハット(2),・・・,
βハット(T)と記す)を出力する。最適状態系列R5
は漸化式の式(4)を次の初期条件で計算して得られ
る。ここでβハットとは式(4)に示すように^を意味
する。式(1)を漸化式とする上記の基本的なHMMで
は、状態j内の遷移をτ回繰り返して継続時間τだけ状
態jに留まる確率は、出力確率を無視すると式(5)の
ごとく与えられる。
【0013】
【数3】
【0014】式(5)は、ajj<1のとき、継続時間τ
の増加と共に指数的に減少する関数となるため、現実の
状態継続時間の分布の近似として適切でないという問題
点が指摘された。このような上記HMMの欠点を解消す
るため、状態継続時間を現実の分布に近い確率分布とし
て表現し、この確率表現に基づいて、状態継続時間を陽
に制限するHMMが幾つか提案されている。以下、この
継続時間制御型のHMMを音韻系列モデルとする従来の
技術について説明する。
【0015】図38はLjoljeらの文献(”Dev
elopment of an Acoustic−P
honetic Hidden Markov Mod
elfor Continuous Speech R
ecognition”,IEEE Transact
ion on Siganal Processin
g,39巻,1号,29〜39頁,1991年1月発
行)に示された継続時間制御型HMMを用いた音声認識
装置の構成図である。また、図39はHMMの状態遷移
の構造を示す。HMMはn個(n=43)の状態からな
り、各状態は英語の1つの音韻に対応している。状態i
と状態jの間は遷移確率aijで結ばれているが、同一状
態内での遷移確率aiiは0としてある。また、各状態に
おける出力確率はbj (xt )で表されている。一方、
継続時間制御パラメータ記憶手段6には、継続時間制御
パラメータR6として、各状態j(j=1,2,・・
・,n)について継続時間の分布を近似するガンマ分布
のパラメータνj とηj が記憶されている。HMM演算
手段13におけるHMM演算は、ビタビ(Viterb
i)のアルゴリズムに基づく漸化式の式(6),式
(7)を次の初期条件で計算し実行される。
【0016】
【数4】
【0017】ここで、dj (τ)は状態の継続時間がτ
である確率で、状態jについて二つのパラメータνj
ηj を含む式(8)のガンマ分布で与えられる。ここで
Γ(νj )はガンマ関数である。また、状態jについて
継続時間の平均はνj /ηj となり、分散はνj /ηj 2
となる。この従来の装置は、各状態に留まる継続時間を
現実の分布を近似する分布を当てはめて適切に制御する
ため式(1)の基本的なHMMに比べ認識性能の改善が
図られている。
【0018】
【発明が解決しようとする課題】しかしながら、上述の
従来の音声中の境界の推定方法は教師信号との誤差を最
小化するものであるため、出力される尤度時系列は、確
率と直接関係がなく、確率モデルに基づく音声認識に用
いる場合、推定された尤度を一旦確率値へ変換する必要
がある。また、ニューラルネットの中間層のユニット
数、中間層の層数などの与え方には、任意性があり、こ
の中間層数・ユニット数を大きくすれば有効な特性を得
やすいが、学習の収束が遅くなり、収束の局所的な谷に
陥りやすくなるなどのため学習が容易でないという課題
がある。
【0019】また、従来の音声認識装置として、継続時
間制御型HMMを音韻モデル系列として用いる方法は、
式(6)と式(7)のごとく、その漸化式にmax及び
argmaxで示される変数iに関する最大化演算の内
側にさらに変数τに関する最大化演算が含まれる。しか
も、漸化式の再内側の演算が式(1)と比べ複雑となる
ため、式(1)に示された基本的なHMM演算に比べて
演算量がかなり大きくなるという課題がある。また、継
続時間の分布は、特定の発声の学習サンプルから求めた
ものである場合、学習音声と異なった発声速度の音声に
対しては、継続時間の分布が適切でなくなると言う課題
もある。
【0020】この発明はこのような問題点を解消するた
めになされたもので、確率に対応する推定量が直接得ら
れ、しかも学習が容易な境界の推定方法を得ることを目
的とする。また、音声認識装置としてモデル演算手段と
してのHMM演算手段における演算が簡単でありなが
ら、認識精度の高い音声認識装置を得ることを目的とす
る。
【0021】
【課題を解決するための手段】この発明に係わる音声認
識の境界推定方法は、入力音声を分析して得られる時系
列で展開されるパラメータ群が所定の時間幅の窓の中で
示す値をサンプルとして抽出し、この窓の中心に音声の
境界が存在する度合いを算出する場合に、この窓の中心
に音声の境界が存在する第1の確率密度と、窓の中心に
音声の境界が存在しない第2の確率密度とを計算し、こ
れら第1の確率密度及び第2の確率密度を含む計算に基
づいて窓の中心に音声の境界が存在する度合いを算出し
て類似度を定めるようにした。
【0022】またこの発明に係わる音声認識装置は、入
力音声を分析して時系列の特徴パラメータに変換する特
徴抽出手段と、この時系列の特徴パラメータから入力音
声中の音韻境界または音韻境界付近の領域を検出する境
界検出手段と、前記特徴パラメータに対応する複数の音
韻モデル系列を用意し、該モデル系列を用意する際、前
記音韻モデル系列の境界が生成される時刻を境界検出手
段が検出した音韻境界またはその付近の領域内に限定し
たモデル系列とするモデル演算手段と、このモデル演算
手段の結果から入力音声に対応する適切な音韻モデル系
列を選択する音韻系列変換手段とを備えた。また請求項
3の発明は、請求項2の発明の音声認識装置のモデル演
算装置に変えて、モデル演算手段として、特徴パラメー
タに対応する複数の音韻モデル系列を用意し、該モデル
系列を用意する際、境界検出手段が検出した音韻境界ま
たは音韻境界付近の領域内に前記音韻モデル系列の遷移
が起こるのを助長するようにした。更に請求項4の発明
は、請求項3の発明の音声認識装置で、境界検出手段で
音韻境界の尤度を同時に求めるようにし、モデル演算手
段で、境界検出手段が検出した音韻境界または音韻境界
付近の領域内に音韻モデル系列の遷移が起こるのを助長
し、その助長の割合を前記音韻境界の尤度に比例するよ
うにした。
【0023】更に請求項5の発明の音声認識装置は、入
力音声を分析して時系列の特徴パラメータに変換する特
徴抽出手段と、この時系列の特徴パラメータから入力音
声中の音韻境界または音韻境界付近の領域を検出する境
界検出手段と、前記特徴パラメータに対応する複数の音
韻モデル系列を用意し、このモデル系列は音韻モデル系
列の境界が生成される時刻を境界検出手段が検出した音
韻境界またはその付近内に限定したモデル系列を用意
し、また境界検出手段が検出した音韻境界またはその付
近の領域内に前記音韻モデル系列の遷移が起こるのを助
長するようにしたモデル演算手段と、このモデル演算手
段の結果から入力音声に対応する適切な音韻モデル系列
を選択する音韻系列変換手段とを備えた。また請求項6
の発明の音声認識装置は、請求項2ないし請求項5の音
声認識装置で、境界検出手段として請求項1記載の音声
認識の境界推定方法を用いるようにした。
【0024】
【作用】この発明の音声認識の境界推定方法では、時系
列変化をするパラメータ群が所定の時間幅の窓の中で示
す値がサンプルとして抽出され、それが時間窓の中心に
境界が存在するサンプルである確率が高い第1の確率密
度と、時間窓の中心に境界が存在しない確率が高い第2
の確率密度とが計算され、次にこの両者を含む計算から
音声境界の類似度が求められる。この発明の音声認識装
置は、入力音声の音韻境界または音韻境界付近の領域が
推定され、特徴パラメータに対応する音韻モデル系列の
遷移が生じる時刻が前記音韻境界またはその付近の領域
に限定された音韻モデル系列が準備され、その中から最
適音韻モデル系列が選ばれる。または、入力音声の音韻
境界または音韻境界付近の領域が推定され、音韻境界ま
たはその付近の領域内で音韻モデル系列の遷移が生じる
ようにした音韻モデル系列が準備され、その中から最適
音韻モデル系列が選ばれる。
【0025】請求項4の音声認識装置は、音韻境界の推
定時に同時に尤度が求められ、音韻モデル系列の遷移を
助長する際にこの尤度に比例した結果の音韻モデル系列
が準備され、その中から最適音韻モデル系列が選ばれ
る。また更に、所定の時間幅の窓の中でパラメータ群が
示す値が抽出され、それが時間窓の中心に境界が存在す
る確率が高い第1の確率密度とそうでない確率が高い第
2の確率密度とが計算され、次にこの両者を含む計算か
ら音韻境界が推定され、これにより音韻モデルが準備さ
れる。
【0026】
【実施例】実施例1. 以下この発明の実施例を説明する。この実施例において
は、入力音声を分析し得られるパラメータの時系列中の
所定の時間幅の窓の中にあるパラメータを一つのサンプ
ルとして抽出し、前記窓の中心に音声中の境界が存在す
る度合いを算出するにあたり、以下のような処理が行な
われる。
【0027】すなわち、学習モードで、音声中のサンプ
ルを少なくとも境界及び非境界のサンプルに分類し、分
類されたサンプルのそれぞれに対して、確率分布のモデ
ルを当て嵌めて分布のモデルのパラメータを推定する。
一方、推定モードでは、前記学習モードで推定されたそ
れぞれの分布のモデルのパラメータに基づき、前記窓の
中心に前記境界の存在する第1の確率密度と、前記窓の
中心に前記境界の存在しない第2の確率密度とを計算
し、前記第1の確率密度を含む確率密度と前記第2の確
率密度を含む確率密度とに基づいて前記窓の中心に前記
音声中の境界が存在する度合いを算出するものである。
【0028】図1は、この発明の一実施例の構成図であ
る。特徴抽出部1は、入力音声から、フレーム長25.
6msの線形予測メルケプストラム分析によってフレー
ム周期10ms毎にメルケプストラム係数N個を得る。
時間窓部2は、時間幅Tフレームの範囲のメルケプスト
ラム係数TN個をまとめて1つのサンプルとする。各サ
ンプルは、以下のようなTN次元のベクトルで表現され
る。
【0029】時刻tのサンプルをBt 、また、音声分析
部1の出力の時刻tのメルケプストラム係数からなるベ
クトルをxtと記せば、サンプルBt は、時刻tが時間
窓の中心となるようにメルケプストラム係数のベクトル
を連結して、以下の式(9)で与えられる(但し、Tが
偶数の場合)。
【0030】
【数5】
【0031】モード選択部3は「学習」か「推定」のい
ずれかのモードが設定される。まず、モード選択部3が
学習モードに設定されたときの動作を説明する。分類部
40は、時間窓部2の出力のサンプルの中で、中心に音
声中の定常部である非境界に該当するサンプルを分類番
号1のサンプル5001に分類する。また、時間窓2の
出力のサンプルの中で、中心に音声中の境界を有するサ
ンプルは分類番号2のサンプル5002に分類する。
【0032】すべての学習データに対して、分類が終了
してから、推定部6001は、分類番号1のサンプル5
001に対して確率分布の一つである混合多次元正規分
布を当て嵌めて該分布のパラメータを推定し、パラメー
タ部7001に記憶する。混合多次元正規分布は、ある
サンプルBt に対して、その確率密度を以下の式(1
0)によって計算するものであり、この式中、λ(m)
μ(m) 、およびΣ(m) がこの分布のパラメータとして記
憶される。ここで、Mは混合多次元正規分布モデルを構
成する要素の多次元正規分布の数、Nは多次元正規分布
を表す確率密度関数、また、λ(m) 、μ(m) 、およびΣ
(m) は、それぞれm番目の要素の多次元正規分布に対す
る分岐確率、平均ベクトル、及び、共分散行列を表す。
【0033】
【数6】
【0034】推定部6002も、推定部6001と同様
に、分類番号2のサンプル5002に対して確率分布と
して混合多次元正規分布を当て嵌めて該分布のパラメー
タを推定し、パラメータ部7002に記憶する。一方、
モード選択部が「推定」に設定されたとき、確率密度計
算部8001はパラメータ7001を用いて、時間窓部
2の出力のサンプル例えばBt の確率密度(以下Pr
(Bt |1))を以下の式(11)によって計算する。
【0035】
【数7】
【0036】確率密度計算部8002も、確率密度計算
部8001と同様に、パラメータ7002を用いて、時
間窓2が出力する時刻tのサンプルベクトル(Bt と記
す)の確率密度(以下Pr(Bt |2))を以下の式
(12)によって計算する。
【0037】
【数8】
【0038】尤度計算部9001は、確率密度計算部
001及び確率密度計算部8002が算出した確率密度
Pr(Bt |1)及びPr(Bt |2)を用いて、時刻
tのサンプルデータが境界に対応する尤度(r(B
t ))を以下の式(13)に基いて算出する。
【0039】
【数9】
【0040】この式によって、サンプルデータBt が境
界を中心とする時間窓によって切り出された場合、分子
の表す確率密度Pr(Bt |2)は分母の表す確率密度
Pr(Bt |1)より大きくなり、この式全体は、1よ
り大きな値をとることが期待され、逆に、サンプルデー
タBt が音韻の定常部を中心とする時間窓によって切り
出された場合、分子の表す確率密度Pr(Bt |2)は
分母の表す確率密度Pr(Bt |1)より小さくなり、
この式全体は1より小さな値をとることが期待される。
従って、尤度計算部9001の出力によって、各時刻に
おいて、音声中の境界に対応する推定量が得られる。
【0041】次に上記実施例に関する評価実験について
説明する。図2は実験方法の概要を示す。学習に用いる
境界のサンプル及び非境界サンプルを切り出すための学
習データは、女性話者1名の発声した音韻バランス50
3文の一部または全部とする。この内最初の50文を学
習データに対する評価に、また、単語単位で発声した国
際会議問合せ115文の最初の50文を未学習データに
対する評価に用いた。音韻は/a,i,u,e,o,
y,w,j,cl,p,t,k,ch,ts,s,s
h,h,f,* cl,b,d,g,z,dj,m,n,
r,N,#/の29種類である。
【0042】図3に学習に用いた上記音韻バランス50
3文の最初の一文「あらゆる現実をすべて自分の方へね
じ曲げたのだ」の中の音韻及びそれらの音韻境界をフレ
ーム番号で示す。音韻の境界は自動ラベリングの結果を
視察で修正したもので予め学習データの一部として格納
されている。
【0043】図4はサンプルの切出し方を説明するため
の図であり、境界サンプルは、図中#.a、a.r及び
r.a等で示されるように音韻境界を中心に切り出し
た。また、非境界サンプルは、図中a.a、r.r、
a.a等で示されるように、2フレーム以上継続する音
韻区間の中央を中心に切り出した。図5は、学習に用い
た文章数と学習に用いた境界サンプル及び非境界サンプ
ルの数の関係を示す。
【0044】図6は、学習モードにおいて、学習文章数
が200で、音声分析部1出力のメルケプストラム係数
の数(以後次元数と呼び、記号Nで表す)が8、時間窓
部2においてまとめるメルケプストラム係数のフレーム
数である窓の幅(T)が10、及び、推定部6001〜
6002で当て嵌める混合多次元正規分布の要素の多次
元正規分布の数(M)が4として、学習を行ったあと、
推定モードにおいて、入力音声として、図3で示した学
習データを入力したとき、確率密度計算部8001の出
力の対数値(図中log(Bt |1)で示す)、確率密
度計算部8002の出力の対数値(図中log(Bt
2)で示す)、ならびに、尤度計算部9001で得られ
た出力の対数値(図中log r(Bt で示す)の時間
変化を示す。
【0045】なお、図中C0 及び△C0 はそれぞれメル
ケプストラム係数の0次の項及びその時間変化率を示し
ている。また、図中○印は以下の評価において検出され
た音韻境界の検出位置を示している。図中Errors
で示されるI及びDはこの場合の検出誤りを示している
(Iは付加、Dは脱落を示す)。音韻境界の検出位置は
対数尤度比関数log r(Bt )が正となる区間で最
大となる点とした。
【0046】評価は、脱落率と付加率で行う。脱落率
は、正解の境界に対して前後3フレーム以内に境界が検
出されなかった割合を百分率で表示したものであり、付
加率は、正解の境界に対応付けられずに残った余分な境
界の生じる割合を百分率で表示したものである。実験結
果を図7〜図10に示す。
【0047】図7は学習文章数が200、窓幅が10、
次元数が8のとき、混合数(M)を変化させたときの結
果である。この図から、混合数Mが4のとき、未学習デ
ータに対して、脱落が最も小さくなることが分かる。図
8は学習文章数が200、次元数が8、混合数が4のと
き、窓幅を6〜16の範囲で変化させたときの結果であ
る。この図から、窓幅Tが10のとき、未学習データに
対して、脱落が最も小さくなることが分かる。
【0048】図9は学習文章数が200、窓幅が10、
混合数が4のとき、次元数を変化させたときの結果であ
る。この図から、次元数Nが8のとき、未学習データに
対して、脱落が最も小さくなることが分かる。図10は
窓幅が10、次元数が8、混合数が4のとき、学習文章
数を100〜503文章の間で変化させたときの結果で
ある。この図から、学習文章数が200のとき、未学習
データに対して、脱落が最も小さくなるが、合計の誤り
は、学習文章数が503のときが最も小さいことが分か
る。
【0049】以上の結果から、窓幅は脱落を低く押える
ためには10フレーム程度が良いこと、学習データを増
加すると脱落は増加するが、付加が減少し、合計の誤り
は減少すること、次元数は8程度が良いこと等が分か
る。
【0050】実施例2. 本実施例は前記実施例1では推定の困難な継続時間の短
い事象(例えば、日本語の「ら行音」を構成する音素/
r/)に対する境界の推定精度を上げるため、例えば、
音素/r/への入り渡りと出渡りの境界をそれぞれ異な
る確率分布のモデルを用いて、分離して推定しようとす
るものである。図11は本実施例の構成図である。
【0051】図において、特徴抽出部1、時間窓部2、
モード選択部3は実施例1と同様な動作をするので説明
を省略する。モード選択部3が「学習」モードに設定さ
れたとき、分類部40は、テーブル41を参照し、時間
窓部2の出力のサンプルを分類し、分類番号1〜28の
いずれかのサンプルに分類する。図12にテーブル41
の内容を示す。テーブル41の「音韻」の欄には、境界
のサンプルにあっては、境界の左側(境界に先立つ)の
音韻名が、また、非境界サンプルにあっては、その音韻
名が、それぞれ書かれ、また、「分類番号」の欄中の
「境界サンプル」の欄には、境界サンプルに割り当てら
れる分類番号が、同様に「非境界サンプル」の欄には、
非境界サンプルに割り当てられる分類番号が、それぞ
れ、書かれている。
【0052】例えば、「あらゆる」と発声された単語音
声は音韻の系列として、例えば、[arayuru]と
分析されるが、この音韻系列中の音韻[r]と音韻
[a]の境界に対応する境界サンプルは、境界の左側の
音韻が[a]であるので、テーブル41より「境界サン
プル」の分類番号2が検索されサンプル5002に分類
される。また、音韻[y]の定常部分から得られる非境
界サンプルに対しては、「音韻」欄のy,w,jに該当
するので、テーブル41より非境界サンプルの分類番号
11が検索されサンプル5011に分類される。学習デ
ータ全体に対して、サンプルの分類が終了してから、推
定部6001〜6028は、それぞれ、分類番号1〜2
8のサンプルに対して、確率分布モデルとしての混合多
次元正規分布を当て嵌めて該分布のパラメータを推定
し、パラメータ7001〜7028とする。
【0053】一方、モード選択部3が「推定」モードに
設定されたとき、確率密度計算部8001〜8028
は、それぞれ、パラメータ7001〜7028を用い
て、時間窓2の出力のサンプルベクトルBt の確率密度
Pr(Bt |1)〜Pr(Bt |28)を計算する。尤
度計算部9002、9004…9028(合計14個)
は、それぞれ、確率密度計算部8001〜8028(合
計28個)の出力の確率密度Pr(Bt |1)〜Pr
(Bt |28)を用いて、サンプルBt がそれぞれの分
類の境界である度合いとしての尤度(r(Bt |2)、
r(Bt |4)、…、r(Bt |28))を以下の式
(14)で算出する。
【0054】
【数10】
【0055】この式の分子は、k番目の分類の音韻境界
である確率密度を表し、分母は、k番目以外の分類の音
韻境界または非音韻境界である確率密度の平均値を表す
ため、この式によって、例えば、サンプルBt が音韻a
からrへの境界を中心に時間窓で切り出された場合、境
界の先行音韻がaなので、図12より、この境界は分類
番号2に分類されk=2に対応する尤度計算部9002
の出力が1より大きくなり、その他の分類k=4,6,
…,28に対応する尤度計算部の出力は1より小さくな
ると期待される。
【0056】このように本実施例によれば、境界の種類
に応じて、音声中の境界を分離して推定することがで
き、音声中の継続時間の短い事象について入り渡りと出
渡りの境界を分離して検出できる。
【0057】次に、本実施例の評価実験について述べ
る。実験の方法は、前記実施例1について述べた通りで
ある。本実施例では、全音韻を14に分類し、音韻境界
サンプル及び非音韻境界サンプルを、それぞれ、先行音
韻の属する分類によって分け、合計28の混合分布によ
る境界検出実験を行った。学習サンプル数を図13に、
結果を図14に示す。図14の第1行は、尤度計算部9
002の出力を用いた境界検出結果を、また、第14行
は、尤度計算部9028の出力を用いた境界検出結果を
示している。未学習データに対して脱落率4.7%とい
う結果が得られている。
【0058】なお、以上の実施例は、音声分析部とし
て、メルケプストラム係数を用いたが、他の音声パラメ
ータでも構わない。また、音声中の音韻の境界の検出に
ついて説明したが、例えば、音節の境界の検出に用いる
ことができる。
【0059】なお、上述したように、大語彙の音声認識
を行うための方法として、予め入力音声を音素に分割
(セグメンテーション)した後、各音素毎に尤度を計算
して可能な音素の連結について全体の音声の尤度を求め
ることで入力音声を認識する方法と、セグメンテーショ
ンは行わず可能な音素の連結モデルと全体の音声の尤度
を計算して入力音声を認識する方法とがあるが、さら
に、この後者の枠組における確率モデルに前者のセグメ
ンテーション情報を組み込むことによって、音声認識の
性能の向上を試みる方法が考えれる。即ち、後者の方法
においてセグメンテーションを確率的に取り扱うことに
よって、前者の手法における、セグメンテーションの誤
りが致命的であるという欠点を解消しながら、前者の手
法の持つ演算量が少ないと言う長所を取り入れ、演算量
の減少によって、余った演算能力を探索空間の拡大に用
いて、認識精度を向上することが考えられる。このため
には、確定的ではなく、あいまいさを許して確率的に音
声中の音声の境界を推定する必要があるが、この場合に
この発明を適用することができる。
【0060】実施例3. 次に音声認識装置としての実施例を述べる。図15は、
本発明による音声認識装置の一実施例の構成図である。
本実施例では、音韻モデル系列として、1状態に1音韻
を割り当てるHMMを用いている。また、モデル演算手
段として、ビタビのアルゴリズムに基づくHMM演算手
段を用いている。また、音韻モデル系列の境界の生成
は、音韻モデル系列としてのHMMの状態間遷移として
現れる。更にモデル演算手段で複数個用意された音韻モ
デル系列に対し、音韻系列変換手段が最適状態系列を検
出してモデル系列を選択する。
【0061】図に基づいて動作を説明する。まず、音声
区間検出手段11は、入力音声のパワー計算により音声
区間を検出し、この音声区間内の音声信号R1を切り出
して特徴抽出手段1に送る。特徴抽出手段1は、音声区
間内の音声信号R1中から、長さ25.6msの時間窓
を用いた15次線形予測メルケプストラム分析によって
10ms毎に0〜10次のメルケプストラム係数からな
る特徴パラメータ時系列R2を抽出し音韻モデル演算手
段としてのHMM演算手段13及び境界抽出部7に送
る。
【0062】図16は本実施例における音韻モデル系列
としてのHMMの構造を模式的に示したものである。本
HMMはn状態(n=29)からなり、各状態は、図1
7で示されるように、29種の音韻に対応づけれてい
る。状態iから状態jへの遷移確率は、aijで、また、
時刻tの特徴パラメータxt の状態jにおける出力確率
は、bj (xt )で示されている。出力確率bj (x
t )は、8個の要素ガウス分布からなる混合分布で表さ
れており、第m番目の要素ガウス分布についての平均ベ
クトルμmj及び共分散行列Σmj、分岐確率λmjをパラメ
ータとして、式(15)に基づいて計算される(但しM
=8)。
【0063】
【数11】
【0064】これら遷移確率aij及び出力確率計算用の
パラメータ(μmj、Σmj、λmj、j=1,2,…,n,
m=1,2,…,M)は、図18のごとくHMM学習手
段20によって、既に、学習データ19から求められH
MMパラメータ記憶手段14に記憶されている。以上の
ように本HMMの構成は、従来のHMMとほぼ同じであ
るが、本HMMは、従来のHMMとは異なり、時刻tで
状態iから状態jへの状態間遷移に際して、変数C
ij(t)を参照して、Cij(t)>0である時だけ、遷
移を許すように音韻モデル系列の境界の生成としての状
態間の遷移を制限している。ここで、変数Cij(t)
は、後述するようにHMM演算の前に、境界検出部7に
よって検出された状態iから状態jへの遷移に対応する
音韻境界あるいは音韻境界付近の領域でCij(t)>0
となるように設定される。以下、境界検出部7及びHM
M演算手段13について順を追って説明する。
【0065】境界検出部7は、この実施例では、実施例
1または実施例2において述べた方法に基づき音韻境界
のカテゴリに対応して音声中の音韻境界あるいは音韻境
界付近の領域を検出するもので、図19のごとく構成さ
れている。但し、境界時刻推定部が付加されている。こ
こで、音韻境界のカテゴリと音韻境界の種別との対応関
係を図20に示す。なお、音韻境界の検出の原理を簡単
に説明すれば次のようになる。すなわち、入力の特徴パ
ラメータ時系列より抽出された固定長セグメントを、そ
の中心にカテゴリkの音韻境界を有するクラス(c=1
で表す)と、その中心にカテゴリkの音韻境界を有しな
いクラス(c=0で表す)とに属する度合いを統計的な
確率として求め、この固定長セグメントがこれら両クラ
ス(c=0又はc=1)に属する確率の比の対数をとっ
て固定長セグメントの中心に境界が存在する尤度(境界
尤度)を計算し、この境界尤度の時系列の形状から境界
検出を行う。
【0066】図19において、時間窓(固定長セグメン
ト抽出手段)2は、特徴パラメータ時系列R2より時刻
t=1,2,…,Tにおいて、時刻tを中心に時間幅1
0フレームの範囲の0〜7次のメルケプストラム係数合
計80(=10フレーム×8次元)個を1つのベクトル
(以後、固定長セグメントと呼ぶ)をサンプルとして抽
出する。そしてこれら固定長セグメントの時系列R70
1を出力する。(以下、中心時刻tの固定長セグメント
をBt と記す。)境界検出パラメータ記憶手段8には、
すでに、図18に示されるごとく学習データ19から境
界検出パラメータ学習手段21によって学習された境界
検出パラメータR8 が記憶されている。境界検出パラメ
ータR8 は、カテゴリk(k=1,2,…,K)のクラ
スc(c=0,1)の固定長セグメントの分布(これは
混合分布によって表されている)を構成する第m番目
(m=1,2,…,M)の要素ガウス分布のパラメータ
としての平均ベクトルμmck 、共分散行列Σmck 及び分
岐確率λmck からなる。なお、各カテゴリの各クラスの
混合分布を構成する要素分布の数MはM=4であり、音
韻境界のカテゴリの数KはK=14である。
【0067】境界尤度計算手段70201〜70214
(図11の確率密度計算部と尤度計算部を併せたものに
対応する)は、それぞれ、音韻境界のカテゴリに対応し
て、固定長セグメントの時系列R701を入力として、
境界検出パラメータR8を参照して、各固定長セグメン
トの中心に音声中の音韻境界が存在する尤度(境界尤
度)を計算し、境界尤度時系列R70201〜R702
14として出力する。各境界尤度検出手段は同様の構成
をもつので、以下、境界尤度検出手段70201の構成
について説明し、他の境界検出手段の説明を省略する。
図21は境界検出手段70201の構成を別の形で表現
した構成図である。図において、境界確率計算手段70
201Xは、固定長セグメントが中心にカテゴリkの音
韻境界を有するクラス(c=1)に属する確率Pr(B
t |k,1)を式(16)に基づいて計算する。また、
非境界確率計算手段70201Yは、固定長セグメン
中心にカテゴリkの音韻境界を有しないクラス(c=
0)に属する確率Pr(Bt |k,0)を式(17)に
基づいて計算する。更に、対数尤度比計算手段7020
1Zは、境界確率計算手段70201Xの計算結果Pr
(Bt |k,1)及び非境界確率計算手段70201Y
の計算結果Pr(Bt |k,0)からこれらの対数尤度
比として境界尤度を式(18)に基づいて計算する。
【0068】
【数12】
【0069】図22は本実施例において、「あらゆる」
(音韻記号では/arayuru/)と発声された音声
を入力した場合について、入力音声の0次のケプストラ
ム係数(音の強さにほぼ対応する)の時間変化と、カテ
ゴリ1の音韻境界に対応する境界尤度時系列R7020
1(γ(Bt |1))及びカテゴリ13の音韻境界に対
応する境界尤度時系列R70213(γ(Bt |1
3))を示したものである。これから判るように、境界
尤度は一般に、音韻の境界付近(音韻境界は図中点線で
示されている)で正の値となり、極大値をもつ傾向が見
られる。
【0070】係る傾向を利用して、境界時刻推定手段7
0301から70314は、それぞれ、カテゴリkの音
韻境界について、境界の尤度時系列R70201〜R7
0214が正の値となる区間で最大となる時刻をもっ
て、音韻境界の推定時刻とし、さらに、これらの境界時
刻推定結果に基づいて、変数Ck (t)を式(19)と
設定する。(音韻境界の推定の様子を図22の例の○印
の箇所で示す。)ここで、変数Ck (t)はHMM演算
で用いる変数Cij(t)とは式(20)の関係をもつ。
また、k(i,j)は状態遷移から音韻境界のカテゴリ
番号を求める関数であり、図23に示すテーブルの検索
により実現される。
【0071】
【数13】
【0072】HMM演算手段13は基本的に式(1)に
示された従来の基本的HMMの漸化式と類似のビタビの
アルゴリズムを実行する。但し、状態iから状態j(i
≠j)への遷移においてCij(t)>0なる状態jにつ
いてのみ、式(1)のmaxで示される状態iに関する
最大化演算を行う点が異なり、漸化式は式(21)及び
式(22)で与えられる。
【0073】
【数14】
【0074】この動作を図24の流れ図に沿って説明す
る。ステップS301は、変数を初期化する。ステップ
S302は、1〜Tの各時刻tについて、ステップS3
03を実行する。ステップS303は、1〜nの各状態
jについて、ステップ304〜S311を実行する。ス
テップS304は、出力確率bj (xt )の計算部であ
る。ステップS305は、式(21)の最大化演算のた
めの変数の初期設定を行う。ステップS306は、式
(21)の最大化演算内部を実行する部分で、1〜nの
各状態iについてステップS307〜ステップS310
の幾つかの条件判断に従って実行する。ステップS30
7は、変数iと変数jが等しい時、同一状態内の遷移で
あると判定し、ステップS309〜S310を実行す
る。また、変数iと変数jが異なる時、状態間の遷移で
あると判定し、まず、ステップS308において、変数
ij(t)の符号を調べ、正の時、ステップS309〜
S310を実行する(θ=0とする)。ステップS30
9は、変数i,j,tについて、式(21)の最大化演
算の内側を実行し、ステップS310において、最適値
を条件にしたがって、入れ換える。以上漸化式の内側の
演算が終了後、ステップS311において、変数j,t
についての最適値を保存する。
【0075】以上の動作によって、HMM演算手段13
はCij(t)(=Ck(i,j)(t))が正である時刻、即
ち、境界検出部7によって状態遷移のカテゴリ毎に検出
された音韻境界の推定時刻においてのみ、状態遷移の計
算を行うことになる。従って、境界検出部7で推定され
た音韻境界時刻でのみ状態遷移が起こることとなり、継
続時間制御がなくても、継続時間制御と同様の効果が得
られる。しかも、従来の継続時間制御を用いる方法(式
(6))に比べ、最大化演算は1重で済み、演算回数を
大きく左右する再内側の演算も簡単であるため、HMM
演算における演算回数を大幅に減少できる。
【0076】音韻系列変換手段としての最適状態系列検
出部15は、HMM演算手段13での演算の結果得られ
る変数α(j,t)及び変数β(j,t)に保存された
値をもとに最適状態系列をトレースする。最適状態系列
βハット(1),βハット(2),・・・,βハット
(T)は従来技術と同様に漸化式の式(23)を計算し
て得られる。
【0077】
【数15】
【0078】図25にこの処理の流れを示す。図におい
て、ステップS501は初期設定を行う。ステップS5
02はS503及びS504の実行により、時刻Tにお
けるjについてのα(j,T)の最適値maxj α
(j,T)を求め、変数αハットに代入する。また、こ
れに対応する最適状態argmaxj α(j,T)を変
数βハットに設定する。ステップS505は音声区間の
終端Tから始端にかけて、時刻tをT〜1と変化させな
がら、ステップS506の最適状態系列の保存と、ステ
ップS507の最適状態の更新とを繰り返し行い、その
実行後、変数βハット(t)の値として最適状態系列β
ハット(1),βハット(2),・・・,βハット
(T)を得る。こうして、音韻系列変換手段は、音韻モ
デル系列から選択して最適状態系列を定める。
【0079】次に上記実施例の評価結果について説明す
る。まず学習は、図18において、学習データ19とし
て、女性話者1名の発声した音韻バランス503文を用
いて、HMMのパラメータR20及び境界検出パラメー
タR21を学習する。状態遷移確率aijは図26のテー
ブル中0で示される遷移に対しては、aij=0として遷
移を禁止した。一方、図のテーブル中1で示される遷移
に対しては、aij=1と設定する場合と、aij=1/n
i (ni は状態iから到達可能な状態の数とする)と設
定する場合とについて、評価を行った。
【0080】図27には上記音韻バランス503文の最
初の一文「あらゆる現実をすべて自分の方へねじ曲げた
のだ」を認識させた結果を示す。図では結果を分かり易
くするため最適状態系列として得られる状態番号を対応
する音韻名に変換すると共に、同一音韻名が連続する区
間を一つにまとめて、一つの音韻名で代表し、さらに、
その区間の前後の境界時刻ではさんで示してある。入力
の音韻の一部(/#arajuru/)が認識結果では
/#cltaraiu/となって誤っている以外は正し
く認識されている。
【0081】図28は、学習に用いた503文の最初の
10文を評価用のデータとして得られた評価の結果で、
正解の音韻系列に対する認識結果の音韻系列における音
韻の誤り率とその内訳(誤りの形態を置換、挿入、脱落
で分類)が示されている。図において、「基本HMM」
とあるのは式(1)で示されるHMM演算による従来の
技術に基づく結果を示す。また、「ガンマ分布」及び
「ガウス分布」とあるのは、それぞれ、継続時間分布を
ガンマ分布及びガウス分布とした式(6)で示された継
続時間制御型のHMM演算による従来の技術に基づく結
果を示す。また、「VQ]とあるのは、基本HMMでa
ij=1とした場合、認識結果は、フレーム毎に最適音韻
を決めるベクトル量子化による結果に相当するからであ
る。図から、遷移確率の設定方法に拘らず、本実施例3
の結果が最小の誤り率7.7%を達成しており、本発明
の方が、ガンマ分布の継続時間制御を行う従来の方法に
比しても、精度的に優位であり、本発明の効果が確認さ
れた。
【0082】実施例4. 前記実施例3では、音韻の境界に対応する状態iと状態
jの間の遷移に際し、Cij(t)>0なる条件を除け
ば、遷移確率aijを考慮するだけであり、境界検出手段
から得られる音韻境界において音韻モデル系列の境界の
生成としての状態間遷移を助長する機能はない。本実施
例は、境界検出手段から得られる音韻境界の情報を有効
に用いることを目的に、境界検出手段から得られる音韻
境界において、音韻モデル系列の境界の生成としての状
態間遷移を助長しようとするものである。具体的には、
実施例3の式(21)で示された漸化式を、状態iから
jへの遷移でスコアδijを加味した漸化式の式(24)
(但し、δij=δ一定値)としたものである。即ち、本
実施例では、実施例1において、図24のステップS3
06を図29のステップS306Aで置換し、S308
でCij(t)>0のとき、ステップS309の代わり
に、ステップS309Aを実行するものである。
【0083】
【数16】
【0084】図30は本実施例による評価の結果であ
る。明記されていない評価の条件は、実施例3で説明し
た評価と同じである。なお、スコアδが0の時の評価結
果は、実施例3の評価結果と一致する。この図から、a
ij=1/ni とした時スコアを加える効果が明確に現
れ、スコアが0の時に8.4%であった誤り率がスコア
が4付近で最小の誤り率7.5%に減少している。この
ように、入力音声の特徴パラメータの時系列中から検出
された音韻境界における音韻モデル系列の境界の生成と
しての状態間の遷移に、スコアを加味して、音韻モデル
系列の境界の生成を助長することの効果は明かである。
【0085】実施例5. 前記実施例3、4において、図19に示した境界時刻推
定手段70301〜70314は、図22中の○印で例
示したごとく、音韻境界の推定を境界尤度計算手段70
201〜70214出力の境界尤度時系列R70201
〜R70214の正の領域での極大時刻の一点として推
定した。本実施例は、境界推定の曖昧さを考慮して、音
韻境界を一点としてではなく、音韻境界の領域として推
定しようとするものである。具体的には、前記実施例4
における境界時刻推定手段70301〜70314を、
境界尤度計算手段70201〜70214出力である境
界尤度時系列R70201〜R70214(r(Bt
k),k=1,2,…,K)の正の領域(一般に、しき
い値θを越える領域)のいずれにも音韻境界が存在する
ものとしてCij(t)を式(25)のとおり設定する
(但しθ=0)。この結果、音韻境界時刻の周辺でも遷
移を許したため、音韻境界時刻の推定設定段階における
推定のずれに対し、強くなることが期待される。
【0086】
【数17】
【0087】本実施例による評価の結果を図31に示
す。なお、明記されていない実験条件は、実施例3の評
価実験の時と同じである。図において、aij=1/ni
と設定し、スコアを3.0としたとき、最小7.4%の
誤り率が達成されている。この性能は、前記実施例4に
おける最小の誤り率7.5%に比し、ごくわずかである
が改善が見られる。
【0088】実施例6. 前記実施例3,4は、推定された音韻境界あるいは音韻
境界の領域以外での状態遷移を禁止した。本実施例は係
る状態遷移の禁止をしない。そのかわり、推定された音
韻境界あるいは音韻境界の領域で、状態間遷移にスコア
(定数)を与え、音韻モデル系列の境界の生成としての
状態間の遷移を助長するものである。具体的には、前記
実施例3,4において、図24のステップS306ない
し図29のステップS306Aを図32のステップS3
06Cで置換し、更にステップS308において変数C
ij(t)≦0の時、すぐに終了していたのを、本実施例
はこの場合でも図32に示されるごとく、ステップS3
09を実行するようにしたものである。
【0089】図33は本実施例による評価結果である。
なお、明記されていない実験条件は、実施例3の評価実
験の時と同じである。残念ながら、図28に示した基本
HMMの結果と同じかそれより低い精度となり、本実施
例6の方法では、精度改善効果がないとことが分かっ
た。従って、前記実施例3〜5のごとく、入力音声から
推定された音韻境界あるいは音韻境界の領域でだけ音韻
モデル系列の状態間遷移を許す方法は、本発明における
最も効果的な部分であることが分かる。
【0090】実施例7. 本実施例は、音韻モデル系列の境界の生成としての状態
間遷移を助長することに関して、前記実施例4,5にお
いては音韻境界あるいはその周辺でスコア値を与えたの
に対し、境界検出手段7中の境界尤度計算手段7020
1〜70214の出力の境界尤度R70201〜R70
214に比例して助長を与えるようにしたものである。
具体的には、境界時刻推定手段70301〜70314
において、変数CK (t)を式(26)(ここで、εは
比例係数)と設定し、図24のステップS306あるい
は図32のステップS306Cを図34のステップS3
06Dに置換したものである。すなわち、HMM演算の
漸化式を式(27)としたものである。
【0091】
【数18】
【0092】図35は本実施例による評価結果である。
なお、明記されていない実験条件は、実施例3の評価実
験の時と同じである。図において、aij=1/ni 、比
例係数ε=0.1とした時、最小の誤り率7.2%が得
られている。この値は、実施例3〜6の中で最も良い。
このように、推定された音声中の音韻境界あるいは音韻
境界付近の領域内の状態間の遷移において、境界の推定
の副産物として得られる境界の尤度に比例するスコアを
加え、音韻モデル系列の境界の生成としての状態間の遷
移を助長する方法の効果が確認された。
【0093】なお、以上の説明では、HMM演算にビタ
ビのアルゴリズムを用いた場合について説明したが、本
発明は、ビタビのアルゴリズムにおいて、最大化演算m
axを和Σで置き換えた例えば式(28)で示される定
式化に基づくHMMに適用できることは言うまでもない
(但し、最適状態系列はビタビアルゴリズムに基づいて
検出する必要がある)。
【0094】
【数19】
【0095】また、以上のすべての説明では、境界検出
手段として、固定長セグメントの確率分布を用いる方法
について説明したが、従来の他の技術、例えば、文献
(「多様な音韻環境における音素的単位のセグメンテー
ション」、電子情報通信学会論文誌D−II Vol.
J72−D−II No.8,pp.1221−122
7 1989年8月)にあるような音素的単位の音韻境
界を検出する方法を用いても実現できることは言うまで
もない(但し、境界尤度は用いることが出来ない)。さ
らに、以上の説明は、29種の音韻を音韻モデル系列と
してのHMMの各1つの状態に対応させた場合について
述べたが、音韻の数はこれに限定されるものではなく、
また、各音韻に割り当てる状態数もこれに限定されるも
のではない。またさらに、音韻モデルとして、HMMを
用いる必要はなく、例えば、文献(平成2年3月発行の
日本音響学会講演論文集、2−P−27「時間依存線形
音素文脈モデルを用いた音声認識の検討」)に示された
線形音素文脈依存の音韻モデルを用いても構わない。
【0096】
【発明の効果】以上のようにこの発明の音声認識の境界
推定方法によれば、音声中の境界に対応する特徴の分布
を設計方法の確立された確率分布のモデルに当て嵌めて
推定するようにしたため、設計が容易で、しかも、確率
に対応する尤度が直接得られる方法が得られる効果があ
る。
【0097】また、この発明の音声認識装置によれば、
入力音声から時系列特徴パラメータに変換する特徴抽出
手段と、時系列特徴パラメータから入力音声中の音韻境
界相当領域を検出する境界検出手段を設けた上で、第1
に、時系列特徴パラメータに対して音韻モデル系列を当
てはめる際、音韻モデル系列の遷移が起こる時刻を入力
音声中の音韻境界相当内に制限するモデル演算手段とし
たため、または第2に、時系列特徴パラメータに対して
音韻モデル系列を当てはめる際、入力音声中の音韻境界
相当領域内に音韻モデル系列の遷移が起るよう助長する
モデル演算手段としたため、または第3に、これらを組
合せたモデル演算手段としたため、または、第4に、境
界検出手段は、音韻境界の推定の際、該音韻境界の尤度
が同時に得られる境界検出手段とすると共に、音韻境界
相当の領域内に音韻モデル系列の遷移が起るよう音韻境
界の尤度に比例して助長するモデル演算手段としたた
め、継続時間制限を設けずに高精度が得られ、また継続
時間制限を不要にすることで、従来よりもモデル演算を
簡単にできる効果がある。
【図面の簡単な説明】
【図1】この発明の実施例1を示す構成図である。
【図2】実験方法を示す構成図である。
【図3】音声データの音韻の記述を例示する説明図であ
る。
【図4】サンプルの切出し方法の説明図である。
【図5】実施例1の評価用の学習サンプル数を示す説明
図である。
【図6】実施例1の動作の一例を説明する説明図であ
る。
【図7】実施例1の実施結果を示す説明図である。
【図8】実施例1の実験結果を示す説明図である。
【図9】実施例1の実験結果を示す説明図である。
【図10】実施例1の実験結果を示す説明図である。
【図11】この発明の実施例2を示す構成図である。
【図12】この発明の実施例2のテーブルの内容を説明
する説明図である。
【図13】実施例2の評価用の学習サンプル数を示す説
明図である。
【図14】実施例2の実験結果を示す説明図である。
【図15】この発明の実施例3を示す構成図である。
【図16】実施例3におけるHMMの構造を示す図であ
る。
【図17】実施例3におけるHMMの状態と音韻との関
係を示す図である。
【図18】実施例3における学習手段の構成図である。
【図19】実施例3における境界検出手段の構成図であ
る。
【図20】実施例3における音韻境界の種類とカテゴリ
番号の関係を示す図である。
【図21】実施例3における境界尤度計算手段の構成図
である。
【図22】実施例3における境界時刻の推定法の説明図
である。
【図23】実施例3における状態遷移と音韻境界カテゴ
リの関係を示す図である。
【図24】実施例3におけるHMM演算手段の動作を示
す流れ図である。
【図25】実施例3における最適状態系列抽出手段の動
作を示す流れ図である。
【図26】実施例3における可能な状態遷移を示す図で
ある。
【図27】実施例3における認識結果を示す図である。
【図28】実施例3と従来の装置の性能評価結果を示す
図である。
【図29】実施例4におけるHHM演算手段の処理の一
部を示す図である。
【図30】実施例4の性能評価結果を示す図である。
【図31】実施例5の性能評価結果を示す図である。
【図32】実施例6におけるHHM演算手段の処理の一
部を示す流れ図である。
【図33】実施例6の性能評価結果を示す図である。
【図34】実施例7におけるHHM演算手段の処理の一
部を示す流れ図である。
【図35】実施例7の性能評価結果を示す図である。
【図36】従来の音声中の境界の推定方法を示す構成図
である。
【図37】従来の第1の音声認識装置の構成図である。
【図38】従来の第2の音声認識装置の構成図である。
【図39】従来の第2の音声認識装置におけるHMMの
構造を示す図である。
【符号の説明】
1 特徴抽出部 2 時間窓部 3 モード選択部 7 境界検出部 8 境界検出パラメータ記憶部 11 音声区間検出手段 13 HMM演算手段 14 HMMパラメータ記憶手段 15 最適状態系列検出部(音韻系列変換手段) 20 HMMパラメータ学習手段 21 境界検出パラメータ学習手段 40 分類部 41 テーブル 5001、5002、5028 サンプル 6001、6002、6028 推定部 7001、7002、7028 パラメータ 8001、8002、8014、8028 確率密度計
算部 9002、9004、9014、9028 尤度計算部 702XX 境界尤度計算手段 70301、70302、70314 境界時刻推定手
段 70201X 境界確率計算手段 70201Y 非境界確率計算手段 70201Z 対数尤度比計算手段

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声を分析して得られる時系列で展
    開されるパラメータ群が、所定の時間幅の窓の中で示す
    値をサンプルとして抽出し、前記窓の中心に音声の境界
    が存在する度合いを算出する場合に、 前記窓の中心に前記音声の境界が存在する第1の確率密
    度と、前記窓の中心に前記音声の境界が存在しない第2
    の確率密度とを計算し、前記第1の確率密度及び前記第
    2の確率密度を含む計算に基づいて前記窓の中心に音声
    の境界が存在する度合いを算出する音声認識の境界推定
    方法。
  2. 【請求項2】 入力音声を分析して時系列の特徴パラメ
    ータに変換する特徴抽出手段と、 前記時系列の特徴パラメータから、前記入力音声中の音
    韻境界または音韻境界付近の領域を検出する境界検出手
    段と、 前記特徴パラメータに対応する複数の音韻モデル系列を
    用意し、該モデル系列を用意する際、前記音韻モデル系
    列の境界が生成される時刻を前記境界検出手段が検出し
    た音韻境界または音韻境界付近の領域内に限定したモデ
    ル演算手段と、前記モデル演算手段の結果から、前記入
    力音声に対応する適切な音韻モデル系列を選択する音韻
    系列変換手段とを備えた音声認識装置。
  3. 【請求項3】 入力音声を分析して時系列の特徴パラメ
    ータに変換する特徴抽出手段と、 前記時系列の特徴パラメータから、前記入力音声中の音
    韻境界または音韻境界付近の領域を検出する境界検出手
    段と、 前記特徴パラメータに対応する複数の音韻モデル系列を
    用意し、該モデル系列を用意する際、前記境界検出手段
    が検出した音韻境界または音韻境界付近の領域内に前記
    音韻モデル系列の遷移が起こるのを助長するようにした
    モデル演算手段と、 前記モデル演算手段の結果から、前記入力音声に対応す
    る適切な音韻モデル系列を選択する音韻系列変換手段と
    を備えた音声認識装置。
  4. 【請求項4】 境界検出手段は、音韻境界の検出の際、
    該音韻境界の尤度を同時に求める境界検出手段とし、 モデル演算手段は、前記特徴パラメータに対応する複数
    の音韻モデル系列を用意する際、前記境界検出手段が検
    出した音韻境界または音韻境界付近の領域内に前記音韻
    モデル系列の遷移が起こるのを助長し、該助長の割合を
    前記境界検出手段で得られる前記音韻境界の尤度に比例
    するようにしたことを特徴とする請求項3記載の音声認
    識装置。
  5. 【請求項5】 入力音声を分析して時系列の特徴パラメ
    ータに変換する特徴抽出手段と、 前記時系列の特徴パラメータから、前記入力音声中の音
    韻境界または音韻境界付近の領域を検出する境界検出手
    段と、 前記特徴パラメータに対応する複数の音韻モデル系列を
    用意し、該モデル系列は前記音韻モデル系列の境界が生
    成される時刻を前記境界検出手段が検出した音韻境界ま
    たは音韻境界付近の領域内に限定したモデル系列を用意
    し、また前記境界検出手段が検出した音韻境界または音
    韻境界付近の領域内に前記音韻モデル系列の遷移が起こ
    るのを助長するようにしたモデル演算手段と、 前記モデル演算手段の結果から、前記入力音声に対応す
    る適切な音韻モデル系列を選択する音韻系列変換手段と
    を備えた音声認識装置。
  6. 【請求項6】 境界検出手段は、請求項1記載の音声認
    識の境界推定方法を用いることを特徴とする請求項2な
    いし請求項5記載の音声認識装置。
JP5099402A 1992-10-02 1993-04-26 音声認識の境界推定方法及び音声認識装置 Expired - Fee Related JP2924555B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP5099402A JP2924555B2 (ja) 1992-10-02 1993-04-26 音声認識の境界推定方法及び音声認識装置
GB9320285A GB2271210B (en) 1992-10-02 1993-10-01 Boundary estimation method
GB9420085A GB2280773B (en) 1992-10-02 1993-10-01 Apparatus for processing an audio signal representative of speech
US08/679,861 US5940794A (en) 1992-10-02 1996-07-15 Boundary estimation method of speech recognition and speech recognition apparatus

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4-264678 1992-10-02
JP26467892 1992-10-02
JP5099402A JP2924555B2 (ja) 1992-10-02 1993-04-26 音声認識の境界推定方法及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH06167993A JPH06167993A (ja) 1994-06-14
JP2924555B2 true JP2924555B2 (ja) 1999-07-26

Family

ID=26440543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5099402A Expired - Fee Related JP2924555B2 (ja) 1992-10-02 1993-04-26 音声認識の境界推定方法及び音声認識装置

Country Status (3)

Country Link
US (1) US5940794A (ja)
JP (1) JP2924555B2 (ja)
GB (1) GB2271210B (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046143A1 (en) * 1995-10-03 2002-04-18 Eder Jeffrey Scott Method of and system for evaluating cash flow and elements of a business enterprise
US7469237B2 (en) * 1996-05-02 2008-12-23 Cooper David L Method and apparatus for fractal computation
US6453292B2 (en) * 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US6535851B1 (en) 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
JP3814459B2 (ja) * 2000-03-31 2006-08-30 キヤノン株式会社 音声認識方法及び装置と記憶媒体
US20080027769A1 (en) 2002-09-09 2008-01-31 Jeff Scott Eder Knowledge based performance management system
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
KR100486735B1 (ko) * 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
EP1618734A2 (en) * 2003-04-22 2006-01-25 Spinvox Limited Operator performed voicemail transcription
US8976944B2 (en) * 2006-02-10 2015-03-10 Nuance Communications, Inc. Mass-scale, user-independent, device-independent voice messaging system
ES2420559T3 (es) * 2006-02-10 2013-08-23 Spinvox Limited Un sistema a gran escala, independiente del usuario e independiente del dispositivo de conversión del mensaje vocal a texto
US20080162128A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a fast speech recognition search process
BRPI0806207A2 (pt) 2007-01-09 2011-08-30 Spinvox Ltd método e sistema de gerenciamento de chamadas telefÈnicas não atendidas utilizando um serviço de rede e aparelho de telefone móvel
TW200835315A (en) * 2007-02-01 2008-08-16 Micro Star Int Co Ltd Automatically labeling time device and method for literal file
JP5088030B2 (ja) * 2007-07-26 2012-12-05 ヤマハ株式会社 演奏音の類似度を評価する方法、装置およびプログラム
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
JP4809918B2 (ja) * 2009-09-01 2011-11-09 日本電信電話株式会社 音素分割装置、方法及びプログラム
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9384729B2 (en) 2011-07-20 2016-07-05 Tata Consultancy Services Limited Method and system for detecting boundary of coarticulated units from isolated speech
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
CN112581982A (zh) 2017-06-06 2021-03-30 谷歌有限责任公司 询问结束检测
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4805100A (en) * 1986-07-14 1989-02-14 Nippon Hoso Kyokai Language processing method and apparatus
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5305442A (en) * 1992-03-27 1994-04-19 Ceridian Corporation Generalized hierarchical architecture for bus adapters

Also Published As

Publication number Publication date
GB2271210A (en) 1994-04-06
JPH06167993A (ja) 1994-06-14
GB9320285D0 (en) 1993-11-17
GB2271210B (en) 1996-05-01
US5940794A (en) 1999-08-17

Similar Documents

Publication Publication Date Title
JP2924555B2 (ja) 音声認識の境界推定方法及び音声認識装置
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
EP1647970B1 (en) Hidden conditional random field models for phonetic classification and speech recognition
EP1701337B1 (en) Method of speech recognition
EP0706171A1 (en) Speech recognition method and apparatus
EP0689192A1 (en) A speech synthesis system
US20110196678A1 (en) Speech recognition apparatus and speech recognition method
EP0617827B1 (en) Composite expert
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
Ponting et al. The use of variable frame rate analysis in speech recognition
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JP3589044B2 (ja) 話者適応化装置
JPH0895592A (ja) パターン認識方法
JPH0822296A (ja) パターン認識方法
JPH09114482A (ja) 音声認識のための話者適応化方法
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
Kwon et al. Performance of HMM-based speech recognizers with discriminative state-weights
Lin et al. A new confidence measure based on rank-ordering subphone scores
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JP3105708B2 (ja) 音声認識装置
Somervuo Speech Recognition using context vectors and multiple feature streams
JP2986703B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees