JPH08211891A - ヒドン・マルコフ・モデルの学習方法 - Google Patents
ヒドン・マルコフ・モデルの学習方法Info
- Publication number
- JPH08211891A JPH08211891A JP7017560A JP1756095A JPH08211891A JP H08211891 A JPH08211891 A JP H08211891A JP 7017560 A JP7017560 A JP 7017560A JP 1756095 A JP1756095 A JP 1756095A JP H08211891 A JPH08211891 A JP H08211891A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- sentence
- hmm
- phoneme
- hidden
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C04—CEMENTS; CONCRETE; ARTIFICIAL STONE; CERAMICS; REFRACTORIES
- C04B—LIME, MAGNESIA; SLAG; CEMENTS; COMPOSITIONS THEREOF, e.g. MORTARS, CONCRETE OR LIKE BUILDING MATERIALS; ARTIFICIAL STONE; CERAMICS; REFRACTORIES; TREATMENT OF NATURAL STONE
- C04B41/00—After-treatment of mortars, concrete, artificial stone or ceramics; Treatment of natural stone
- C04B41/45—Coating or impregnating, e.g. injection in masonry, partial coating of green or fired ceramics, organic coating compositions for adhering together two concrete elements
- C04B41/46—Coating or impregnating, e.g. injection in masonry, partial coating of green or fired ceramics, organic coating compositions for adhering together two concrete elements with organic materials
- C04B41/48—Macromolecular compounds
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Ceramic Engineering (AREA)
- Materials Engineering (AREA)
- Structural Engineering (AREA)
- Organic Chemistry (AREA)
Abstract
(57)【要約】
【目的】 連結学習法で文音声から音素HMMを学習す
るとき、自動的にポーズ、鼻濁音、長音を検出して学習
精度の高い音素HMMの学習を行う。 【構成】 文音声を用いて音素HMMを学習する時、ス
テップ5で、学習用文音声データのテキストを解析して
ポーズが存在し得る箇所を検出し、ステップ7で、学習
用文音声データに含まれているポーズ、鼻濁音、長音を
音声認識手法で検出する。ステップ8でHMM尤度を計
算して音韻表記を決定した後、ステップ9でその音素H
MMを連結して文HMMを構成する。ステップ10で文
HMMの学習を行い、ステップ11で文HMMを音素H
MMに分解した後、ステップ14で音素HMMが収束し
たか否かの判定を行い、収束していなければ、ステップ
13において、ステップ11で分解された音素HMMを
連結して文HMMを再構成し、ステップ10の文HMM
の学習へ戻り、学習及び分解を繰り返す。
るとき、自動的にポーズ、鼻濁音、長音を検出して学習
精度の高い音素HMMの学習を行う。 【構成】 文音声を用いて音素HMMを学習する時、ス
テップ5で、学習用文音声データのテキストを解析して
ポーズが存在し得る箇所を検出し、ステップ7で、学習
用文音声データに含まれているポーズ、鼻濁音、長音を
音声認識手法で検出する。ステップ8でHMM尤度を計
算して音韻表記を決定した後、ステップ9でその音素H
MMを連結して文HMMを構成する。ステップ10で文
HMMの学習を行い、ステップ11で文HMMを音素H
MMに分解した後、ステップ14で音素HMMが収束し
たか否かの判定を行い、収束していなければ、ステップ
13において、ステップ11で分解された音素HMMを
連結して文HMMを再構成し、ステップ10の文HMM
の学習へ戻り、学習及び分解を繰り返す。
Description
【0001】
【産業上の利用分野】本発明は、音声認識技術に用いら
れるヒドンマルコフモデル(以下、HMMという)の学
習方法に関するものである。
れるヒドンマルコフモデル(以下、HMMという)の学
習方法に関するものである。
【0002】
【従来の技術】従来、このような分野の技術としては、
例えば次のような文献に記載されるものがあった。 文献1;The Bell System Technical Journal 、Vol.62
[4] 、(1983-4)、American Telephone and Telegraph C
ompany, (米)、S.E.Levinson,.R.Rabiner,and M.M.So
ndhi共著、「An Introdution to the Application of t
he Theory of Probablistic Functions of aMarkov Pro
cess to Automatic Speech Recognition」P.1035- 1074 文献2;中川聖一著「確立モデルによる音声認識」( 昭
和63-7)、電子情報通信学会、P.55-61 音声認識技術として、古典的なパターンマッチング法か
ら、近年では統計的な手法に変わり、後者が主流になり
つつある。後者の統計的な手法では、確率的な有限状態
をもつマルコフ・モデルが提案されており、通常HMM
と呼ぶ。一般に、HMMは、複数の状態(例えば、音声
の特徴等)と状態間の遷移からなる。更に、HMMは、
状態間の遷移を表す遷移確率と、遷移する際に伴うラベ
ル(音声の特徴パラメータの典型的なもので、通常数十
から数千種類がある。)を出力する出力確率を有してい
る。このようなHMMを用いた音声認識方法が前記文献
1に記載されており、その単語音声認識の例を図2に示
す。
例えば次のような文献に記載されるものがあった。 文献1;The Bell System Technical Journal 、Vol.62
[4] 、(1983-4)、American Telephone and Telegraph C
ompany, (米)、S.E.Levinson,.R.Rabiner,and M.M.So
ndhi共著、「An Introdution to the Application of t
he Theory of Probablistic Functions of aMarkov Pro
cess to Automatic Speech Recognition」P.1035- 1074 文献2;中川聖一著「確立モデルによる音声認識」( 昭
和63-7)、電子情報通信学会、P.55-61 音声認識技術として、古典的なパターンマッチング法か
ら、近年では統計的な手法に変わり、後者が主流になり
つつある。後者の統計的な手法では、確率的な有限状態
をもつマルコフ・モデルが提案されており、通常HMM
と呼ぶ。一般に、HMMは、複数の状態(例えば、音声
の特徴等)と状態間の遷移からなる。更に、HMMは、
状態間の遷移を表す遷移確率と、遷移する際に伴うラベ
ル(音声の特徴パラメータの典型的なもので、通常数十
から数千種類がある。)を出力する出力確率を有してい
る。このようなHMMを用いた音声認識方法が前記文献
1に記載されており、その単語音声認識の例を図2に示
す。
【0003】図2は、従来の音声認識方法に用いられる
単語HMMの構造例を示す図である。図2において、S
1 ,S2 ,S3 ,S4 は、HMMにおける音声の特徴等
の状態を表す。a11,a12,a22,a23,a33,a34,
a44,a45は状態遷移確率、及びb1 (k),b
2 (k),b3 (k),b4 (k)はラベル出力確率を
表す。HMMでは、状態遷移確率aij(但し、i=1,
・・・,4、j=1,・・・,5)で状態遷移が行われ
る際、ラベル出力確率bj (k)でラベルを出力する。
発声された単語をHMMを用いて認識するには、まず、
各単語に対して用意された学習データを用いて、その単
語のラベル列を最も高い確率で出力するようにHMMを
学習する。次に、発声された未知単語のラベル列を入力
し、最も高い出力確率を与えた単語HMMを認識結果と
する。尚、単語を文で置き換えれば、同様の方法で、文
単位で発声された音声を認識することができる。この種
の音声認識方法では、発声された単語や文そのものにH
MMを与えて学習し、尤度(即ち、ラベル列の出力確
率)によって認識結果を判断している。このような単語
又は文HMMは、優れた認識精度を保証するが、認識語
彙数が増大することによって膨大な学習データが必要と
なることや、学習対象語以外の音声が全く認識できない
こと等の欠点がある。
単語HMMの構造例を示す図である。図2において、S
1 ,S2 ,S3 ,S4 は、HMMにおける音声の特徴等
の状態を表す。a11,a12,a22,a23,a33,a34,
a44,a45は状態遷移確率、及びb1 (k),b
2 (k),b3 (k),b4 (k)はラベル出力確率を
表す。HMMでは、状態遷移確率aij(但し、i=1,
・・・,4、j=1,・・・,5)で状態遷移が行われ
る際、ラベル出力確率bj (k)でラベルを出力する。
発声された単語をHMMを用いて認識するには、まず、
各単語に対して用意された学習データを用いて、その単
語のラベル列を最も高い確率で出力するようにHMMを
学習する。次に、発声された未知単語のラベル列を入力
し、最も高い出力確率を与えた単語HMMを認識結果と
する。尚、単語を文で置き換えれば、同様の方法で、文
単位で発声された音声を認識することができる。この種
の音声認識方法では、発声された単語や文そのものにH
MMを与えて学習し、尤度(即ち、ラベル列の出力確
率)によって認識結果を判断している。このような単語
又は文HMMは、優れた認識精度を保証するが、認識語
彙数が増大することによって膨大な学習データが必要と
なることや、学習対象語以外の音声が全く認識できない
こと等の欠点がある。
【0004】一方、音声学では通常、音素と呼ばれる声
学的要素の系列で単語や文を表している。従って、音素
毎にHMMを用意し、これらのHMMを連結して単語又
は文HMMを生成し、単語認識を行う方法がある。特
に、文音声を認識する場合、大量の文音声を用意するこ
とが困難であるため、認識対象となる全ての文のHMM
を学習することが不可能に近い。従って、文音声の場合
は、音素HMMより文HMMを生成するのが現実的な方
法である。音素を学習するには、学習データに各々の音
素が存在する区間を示す情報(即ちラベル情報)も用意
しなければならない。しかし、ラベル付け作業を行う場
合、例えばコンピュータによる自動作業では満足のいく
精度が得られず、殆ど手作業でラベル付けを行ってい
る。そこで、従来、ラベル情報を要しない学習法が提案
されている。この方法では、先ず、音素HMMの初期モ
デルを用意する。そして、発声内容が既知でラベルが付
かない文発声の学習データに対して、先の音素HMMの
初期モデルを連結して文HMMを構築し、これらの文H
MMを学習用文音声データで学習する。この場合、文の
始端と終端とが分かれば学習プロセスが実現する。更
に、連結と逆の手続きでこれらの文HMMを分解し、音
素HMMを生成する。学習精度をよくするため、上述の
連結学習と分解生成を繰り返すことにより、精度の高い
音素HMMを生成する。当然なことで、この連結学習法
は単語音声にも適用できる。連結学習を行うには、先
ず、学習データの発声内容を示す文章を音韻表記に変換
しなければならない。即ち、我々は普段使っている漢字
仮名交じり文を、コンピュータが認識できるような音韻
記号に変換する。漢字の読み方さえ指定すれば、この作
業はコンピュータによって自動的に行うことができる。
学的要素の系列で単語や文を表している。従って、音素
毎にHMMを用意し、これらのHMMを連結して単語又
は文HMMを生成し、単語認識を行う方法がある。特
に、文音声を認識する場合、大量の文音声を用意するこ
とが困難であるため、認識対象となる全ての文のHMM
を学習することが不可能に近い。従って、文音声の場合
は、音素HMMより文HMMを生成するのが現実的な方
法である。音素を学習するには、学習データに各々の音
素が存在する区間を示す情報(即ちラベル情報)も用意
しなければならない。しかし、ラベル付け作業を行う場
合、例えばコンピュータによる自動作業では満足のいく
精度が得られず、殆ど手作業でラベル付けを行ってい
る。そこで、従来、ラベル情報を要しない学習法が提案
されている。この方法では、先ず、音素HMMの初期モ
デルを用意する。そして、発声内容が既知でラベルが付
かない文発声の学習データに対して、先の音素HMMの
初期モデルを連結して文HMMを構築し、これらの文H
MMを学習用文音声データで学習する。この場合、文の
始端と終端とが分かれば学習プロセスが実現する。更
に、連結と逆の手続きでこれらの文HMMを分解し、音
素HMMを生成する。学習精度をよくするため、上述の
連結学習と分解生成を繰り返すことにより、精度の高い
音素HMMを生成する。当然なことで、この連結学習法
は単語音声にも適用できる。連結学習を行うには、先
ず、学習データの発声内容を示す文章を音韻表記に変換
しなければならない。即ち、我々は普段使っている漢字
仮名交じり文を、コンピュータが認識できるような音韻
記号に変換する。漢字の読み方さえ指定すれば、この作
業はコンピュータによって自動的に行うことができる。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
音素HMM連結学習法では、次のような問題点があっ
た。即ち、発声者が文音声を発声するとき、呼吸を整え
るため、発声を一時停止(以下、ポーズという)するこ
とがある。又、発声の中にはポーズの他に鼻濁音や長音
が存在することがある。ところが、各々の発声者の心理
状況、生理状況及び教育背景等によって、ポーズを挿入
する場所が必ずしも一致するとは限らないし、鼻濁音や
長音も発声者によってまちまちなものになる。HMMを
学習するとき、これらのポーズ、鼻濁音、及び長音を無
視し、単なる音韻表記に従って音素HMMを連結して学
習すると、ポーズが近隣の音素に割り当てられてしま
い、又、鼻濁音や長音が実発声と異なる音素記号に当て
られてしまうので、音素HMMの精度が低下することを
免れない。本発明は、連結学習法で文音声から音素HM
Mを学習するとき、自動的にポーズ、鼻濁音、及び長音
を検出して音素HMMの精度が低下することを解決した
音素HMM学習方法を提供することを目的とする。
音素HMM連結学習法では、次のような問題点があっ
た。即ち、発声者が文音声を発声するとき、呼吸を整え
るため、発声を一時停止(以下、ポーズという)するこ
とがある。又、発声の中にはポーズの他に鼻濁音や長音
が存在することがある。ところが、各々の発声者の心理
状況、生理状況及び教育背景等によって、ポーズを挿入
する場所が必ずしも一致するとは限らないし、鼻濁音や
長音も発声者によってまちまちなものになる。HMMを
学習するとき、これらのポーズ、鼻濁音、及び長音を無
視し、単なる音韻表記に従って音素HMMを連結して学
習すると、ポーズが近隣の音素に割り当てられてしま
い、又、鼻濁音や長音が実発声と異なる音素記号に当て
られてしまうので、音素HMMの精度が低下することを
免れない。本発明は、連結学習法で文音声から音素HM
Mを学習するとき、自動的にポーズ、鼻濁音、及び長音
を検出して音素HMMの精度が低下することを解決した
音素HMM学習方法を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は、前記課題を解
決するために、連続音声データを用いて音素HMMを学
習するに際して、音素HMMの初期モデルを連結して文
HMMを構築する。そして、前記文HMMを学習する学
習処理と、前記学習処理後にその学習結果を音素HMM
に分解する分解処理と、前記分解された音素HMMを再
連結して文HMMを作る連結処理とを行い、前記学習処
理、分解処理、及び連結処理を繰り返すことによって前
記音素HMMを学習するHMMの学習方法において、次
のような手段を講じている。即ち、本発明では、学習用
文音声データのテキスト表記を単語列又は文節列に分解
することにより該学習用文音声データ中のポーズが存在
し得る箇所を探りだすと共に該学習用文音声データのテ
キスト表記を仮名表記の単語列又は文節列に変換し、該
学習用文音声データ中に含まれているポーズ、鼻濁音、
及び長音を音声認識手法で検出し、前記音素HMMを連
結して前記文HMMを生成する際、該認識結果に従い該
ポーズ、鼻濁音、及び長音に相応する音素HMMを連結
して学習し、前記音素HMMを学習するようにしてい
る。
決するために、連続音声データを用いて音素HMMを学
習するに際して、音素HMMの初期モデルを連結して文
HMMを構築する。そして、前記文HMMを学習する学
習処理と、前記学習処理後にその学習結果を音素HMM
に分解する分解処理と、前記分解された音素HMMを再
連結して文HMMを作る連結処理とを行い、前記学習処
理、分解処理、及び連結処理を繰り返すことによって前
記音素HMMを学習するHMMの学習方法において、次
のような手段を講じている。即ち、本発明では、学習用
文音声データのテキスト表記を単語列又は文節列に分解
することにより該学習用文音声データ中のポーズが存在
し得る箇所を探りだすと共に該学習用文音声データのテ
キスト表記を仮名表記の単語列又は文節列に変換し、該
学習用文音声データ中に含まれているポーズ、鼻濁音、
及び長音を音声認識手法で検出し、前記音素HMMを連
結して前記文HMMを生成する際、該認識結果に従い該
ポーズ、鼻濁音、及び長音に相応する音素HMMを連結
して学習し、前記音素HMMを学習するようにしてい
る。
【0007】
【作用】本発明によれば、以上のようにHMMの学習方
法を構成したので、学習用文音声データのテキスト表記
から該学習用文音声データ中のポーズが存在し得る箇所
が検出される。更に、音声認識手法により前記学習用文
音声データに含まれているポーズ、鼻濁音、及び長音が
検出され、該学習用文音声データに合うラベル列で連結
学習が行われる。そのため、自動的に前記学習用文音声
データ中のポーズ、鼻濁音、及び長音が検出され、人間
による音声データの検聴の手間を掛けることなく学習精
度の低下が解消され、精度の高いHMMの学習方法が提
供される。従って、前記課題を解決できるのである。
法を構成したので、学習用文音声データのテキスト表記
から該学習用文音声データ中のポーズが存在し得る箇所
が検出される。更に、音声認識手法により前記学習用文
音声データに含まれているポーズ、鼻濁音、及び長音が
検出され、該学習用文音声データに合うラベル列で連結
学習が行われる。そのため、自動的に前記学習用文音声
データ中のポーズ、鼻濁音、及び長音が検出され、人間
による音声データの検聴の手間を掛けることなく学習精
度の低下が解消され、精度の高いHMMの学習方法が提
供される。従って、前記課題を解決できるのである。
【0008】
【実施例】第1の実施例 図1は、本発明の実施例を示すHMMの学習方法の処理
内容のフローチャートであり、この図を参照しつつ、本
実施例のHMMの学習方法を説明する。本実施例のHM
Mの学習方法では、例えば、プログラム制御されるコン
ピュータを用いて図1のステップ1〜15の処理が実行
される。先ず、図1のステップ1において、学習が開始
されると、ステップ2で、学習データの音声信号(例え
ば、文音声)が入力され、ステップ3の前処理3へ進
む。ステップ3の前処理では、例えば、入力されたアナ
ログ音声信号をアナログ/デジタル変換(以下、A/D
変換という)によってデジタル信号に変換し、LPC
(Linear Predictive Coding、線形予測符号化)分析に
よるLPCケプストラムの抽出等により、音声特徴パラ
メータを抽出し、ステップ5へ進む。ステップ5では、
入力された文音声に付属するテキスト(漢字仮名交じり
文)情報を用い、予め用意しておいた単語辞書4を参照
しながら、テキスト解析を行う。ここでは、分かち書き
されていない日本語文書を単語列又は文節列に分解し、
同時に仮名表記に変換する。例えば、「私は冬季が好
き」という文が入力されると、以下のような仮名表記文
に変換される。 「わたしわ とうきが すき」 但し、文節の区切りをスペースで示している。ステップ
7では、認識用音素HMM辞書6を参照して、文HMM
を生成する。即ち、ポーズ挿入の有無、長音発声の揺ら
ぎ、鼻濁音を考慮して文HMMを生成し、正解ラベル列
を検出する。上記の例文では、可能なポーズが2つ、長
音(即ち、「とう」)と鼻濁音(即ち、「が」)がそれ
ぞれ1つなので、文HMMの数は24 =16である。
内容のフローチャートであり、この図を参照しつつ、本
実施例のHMMの学習方法を説明する。本実施例のHM
Mの学習方法では、例えば、プログラム制御されるコン
ピュータを用いて図1のステップ1〜15の処理が実行
される。先ず、図1のステップ1において、学習が開始
されると、ステップ2で、学習データの音声信号(例え
ば、文音声)が入力され、ステップ3の前処理3へ進
む。ステップ3の前処理では、例えば、入力されたアナ
ログ音声信号をアナログ/デジタル変換(以下、A/D
変換という)によってデジタル信号に変換し、LPC
(Linear Predictive Coding、線形予測符号化)分析に
よるLPCケプストラムの抽出等により、音声特徴パラ
メータを抽出し、ステップ5へ進む。ステップ5では、
入力された文音声に付属するテキスト(漢字仮名交じり
文)情報を用い、予め用意しておいた単語辞書4を参照
しながら、テキスト解析を行う。ここでは、分かち書き
されていない日本語文書を単語列又は文節列に分解し、
同時に仮名表記に変換する。例えば、「私は冬季が好
き」という文が入力されると、以下のような仮名表記文
に変換される。 「わたしわ とうきが すき」 但し、文節の区切りをスペースで示している。ステップ
7では、認識用音素HMM辞書6を参照して、文HMM
を生成する。即ち、ポーズ挿入の有無、長音発声の揺ら
ぎ、鼻濁音を考慮して文HMMを生成し、正解ラベル列
を検出する。上記の例文では、可能なポーズが2つ、長
音(即ち、「とう」)と鼻濁音(即ち、「が」)がそれ
ぞれ1つなので、文HMMの数は24 =16である。
【0009】次に、これらの文のラベル列(1)〜(1
6)を示す。 (1)/watashiwatoukigasuki/ (2)/watashiwatoukigaPsuki/ (3)/watashiwatoukingasuki/ (4)/watashiwatoukingaPsuki/ (5)/watashiwatoOkigasuki/ (6)/watashiwatoOkigaPsuki/ (7)/watashiwatoOkingasuki/ (8)/watashiwatoOkingaPsuki/ (9)/watashiwaPtoukigasuki/ (10)/watashiwaPtoukigaPsuki/ (11)/watashiwaPtoukingasuki/ (12)/watashiwaPtoukingaPsuki/ (13)/watashiwaPtoOkigasuki/ (14)/watashiwaPtoOkigaPsuki/ (15)/watashiwaPtoOkingasuki/ (16)/watashiwaPtoOkingaPsuki/ 但し、Pはポーズを示す。ステップS8では、この16
個の文HMMと入力音声とを照合し、尤度を計算する。
ここでは仮に、(15)番目のHMMが最も大きい出力
確率を与えたとすると、 /watashiwaPtoOkigasuki/ は正解音韻表記として次の学習ステップ9へ渡される。
6)を示す。 (1)/watashiwatoukigasuki/ (2)/watashiwatoukigaPsuki/ (3)/watashiwatoukingasuki/ (4)/watashiwatoukingaPsuki/ (5)/watashiwatoOkigasuki/ (6)/watashiwatoOkigaPsuki/ (7)/watashiwatoOkingasuki/ (8)/watashiwatoOkingaPsuki/ (9)/watashiwaPtoukigasuki/ (10)/watashiwaPtoukigaPsuki/ (11)/watashiwaPtoukingasuki/ (12)/watashiwaPtoukingaPsuki/ (13)/watashiwaPtoOkigasuki/ (14)/watashiwaPtoOkigaPsuki/ (15)/watashiwaPtoOkingasuki/ (16)/watashiwaPtoOkingaPsuki/ 但し、Pはポーズを示す。ステップS8では、この16
個の文HMMと入力音声とを照合し、尤度を計算する。
ここでは仮に、(15)番目のHMMが最も大きい出力
確率を与えたとすると、 /watashiwaPtoOkigasuki/ は正解音韻表記として次の学習ステップ9へ渡される。
【0010】ステップ9では、ステップ8で決定された
音韻表記と音素HMM辞書12を参照しながら、音素H
MMを連結して文HMMを生成し、生成結果をステップ
10へ送る。ステップ10では、入力された学習音声を
使用して文HMMパラメータを推定する。この推定に
は、例えば、前記文献2に記載されたBaum-Welch(B−
W)アルゴリズムを用いる。このB−Wアルゴリズムで
は、例えば、観測ラベル系列O=o1 ,o2 ,・・・,
oT 及び状態系列I=i1 ,i2 ,・・・,iTに対し
て、次式(1)のような前向き変数αt (i)と後向き
変数βt (i)を定義する。 αt (i) =Pr(o1 ,o2 ,…,oT ,it =si ) ・・・(1) βt (i) =Pr(ot+1 ,ot+2 ,…,oT ,it =si ) そして、状態遷移確率aijとラベル出力確率bj (k)
を次式(2)のように推定する。
音韻表記と音素HMM辞書12を参照しながら、音素H
MMを連結して文HMMを生成し、生成結果をステップ
10へ送る。ステップ10では、入力された学習音声を
使用して文HMMパラメータを推定する。この推定に
は、例えば、前記文献2に記載されたBaum-Welch(B−
W)アルゴリズムを用いる。このB−Wアルゴリズムで
は、例えば、観測ラベル系列O=o1 ,o2 ,・・・,
oT 及び状態系列I=i1 ,i2 ,・・・,iTに対し
て、次式(1)のような前向き変数αt (i)と後向き
変数βt (i)を定義する。 αt (i) =Pr(o1 ,o2 ,…,oT ,it =si ) ・・・(1) βt (i) =Pr(ot+1 ,ot+2 ,…,oT ,it =si ) そして、状態遷移確率aijとラベル出力確率bj (k)
を次式(2)のように推定する。
【0011】
【数1】 このように文HMMを学習し終えると、ステップ11に
おいて、文HMMを音素HMMに分解し、修正された音
素HMMを音素HMM辞書12に保存する。この音素H
MMが収束したか否かを、ステップ14で検査し、もし
収束したら(即ち、音素HMMパラメータの前回の値と
今回の値との差が十分に小さければ)、ステップ15で
学習を終了する。これに対し、ステップ14の検査の結
果、収束していなければ、ステップ13において、ステ
ップ11で分解された音素HMMを連結して文HMMを
再構成し、ステップ10の文HMM学習へ戻り、前述し
た学習処理と分解処理を繰り返す。
おいて、文HMMを音素HMMに分解し、修正された音
素HMMを音素HMM辞書12に保存する。この音素H
MMが収束したか否かを、ステップ14で検査し、もし
収束したら(即ち、音素HMMパラメータの前回の値と
今回の値との差が十分に小さければ)、ステップ15で
学習を終了する。これに対し、ステップ14の検査の結
果、収束していなければ、ステップ13において、ステ
ップ11で分解された音素HMMを連結して文HMMを
再構成し、ステップ10の文HMM学習へ戻り、前述し
た学習処理と分解処理を繰り返す。
【0012】以上のように、本実施例では、次のような
利点がある。文音声を用いて音素HMMを学習する時、
ステップ5で、学習用文音声データのテキストを解析し
てポーズが存在し得る箇所を検出し、ステップ7で、学
習用文音声データに含まれているポーズ、鼻濁音、長音
を音声認識手法で検出し、ステップ8からステップ14
において学習用文音声データに合うラベル列で連結学習
を行うことにより、自動的にポーズが検出され、人間に
よる音声データの検聴の手間を掛けることなく学習精度
の低下が解消され、精度の高いHMMの学習が可能とな
る。
利点がある。文音声を用いて音素HMMを学習する時、
ステップ5で、学習用文音声データのテキストを解析し
てポーズが存在し得る箇所を検出し、ステップ7で、学
習用文音声データに含まれているポーズ、鼻濁音、長音
を音声認識手法で検出し、ステップ8からステップ14
において学習用文音声データに合うラベル列で連結学習
を行うことにより、自動的にポーズが検出され、人間に
よる音声データの検聴の手間を掛けることなく学習精度
の低下が解消され、精度の高いHMMの学習が可能とな
る。
【0013】
【発明の効果】以上詳細に説明したように、本発明によ
れば、文音声を用いて音素HMMを学習する時、学習用
文音声データのテキストを解析してポーズが存在し得る
箇所を検出し、更に、学習用文音声データに含まれてい
るポーズ、鼻濁音、長音を音声認識手法で検出して学習
用文音声データに合うラベル列で連結学習を行うように
したので、自動的にポーズが検出され、人間による音声
データの検聴の手間を掛けることなく学習精度の低下が
解消され、精度の高いHMMの学習方法を提供できる。
れば、文音声を用いて音素HMMを学習する時、学習用
文音声データのテキストを解析してポーズが存在し得る
箇所を検出し、更に、学習用文音声データに含まれてい
るポーズ、鼻濁音、長音を音声認識手法で検出して学習
用文音声データに合うラベル列で連結学習を行うように
したので、自動的にポーズが検出され、人間による音声
データの検聴の手間を掛けることなく学習精度の低下が
解消され、精度の高いHMMの学習方法を提供できる。
【図1】本発明の実施例を示すHMMの学習方法の処理
内容のフローチャートである。
内容のフローチャートである。
【図2】従来の音声認識方法に用いられる単語HMMの
構造例を示す図である。
構造例を示す図である。
4 単語辞書 5 テキスト解析 6 認識用音素HMM辞書 7 文HMM生成処理 8 HMM尤度計算による音韻表記決定処理 9 音素HMMの連結による文HMM構成処理 10 文HMMの学習B−Wアルゴリズム処理 11 文HMMの音素HMM分解処理 12 音素HMM辞書 13 文HMMの再構成処理 14 音素HMMの収束判定処理
Claims (1)
- 【請求項1】 連続音声データを用いて音素ヒドン・マ
ルコフ・モデルを学習するに際して、音素ヒドン・マル
コフ・モデルの初期モデルを連結して文ヒドン・マルコ
フ・モデルを構築し、 前記文ヒドン・マルコフ・モデルを学習する学習処理
と、前記学習処理後にその学習結果を音素ヒドン・マル
コフ・モデルに分解する分解処理と、前記分解された音
素ヒドン・マルコフ・モデルを再連結して文ヒドン・マ
ルコフ・モデルを作る連結処理とを行い、前記学習処
理、分解処理、及び連結処理を繰り返すことによって前
記音素ヒドン・マルコフ・モデルを学習するヒドン・マ
ルコフ・モデルの学習方法において、 学習用文音声データのテキスト表記を単語列又は文節列
に分解することにより該学習用文音声データ中のポーズ
が存在し得る箇所を探りだすと共に該学習用文音声デー
タのテキスト表記を仮名表記の単語列又は文節列に変換
し、該学習用文音声データ中に含まれているポーズ、鼻
濁音、及び長音を音声認識手法で検出し、前記音素ヒド
ン・マルコフ・モデルを連結して前記文ヒドン・マルコ
フ・モデルを生成する際、該認識結果に従い該ポーズ、
鼻濁音、及び長音に相応する音素ヒドンマルコフモデル
を連結して学習し、前記音素ヒドン・マルコフ・モデル
を学習することを特徴とするヒドン・マルコフ・モデル
の学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7017560A JPH08211891A (ja) | 1995-02-06 | 1995-02-06 | ヒドン・マルコフ・モデルの学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7017560A JPH08211891A (ja) | 1995-02-06 | 1995-02-06 | ヒドン・マルコフ・モデルの学習方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08211891A true JPH08211891A (ja) | 1996-08-20 |
Family
ID=11947303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7017560A Pending JPH08211891A (ja) | 1995-02-06 | 1995-02-06 | ヒドン・マルコフ・モデルの学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08211891A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8020388B2 (en) | 2005-08-05 | 2011-09-20 | Siemens Aktiengesellschaft | Method for increasing the efficiency of a combined gas/steam power station with integrated gasification combined cycle |
JP2016011995A (ja) * | 2014-06-27 | 2016-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム |
-
1995
- 1995-02-06 JP JP7017560A patent/JPH08211891A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8020388B2 (en) | 2005-08-05 | 2011-09-20 | Siemens Aktiengesellschaft | Method for increasing the efficiency of a combined gas/steam power station with integrated gasification combined cycle |
JP2016011995A (ja) * | 2014-06-27 | 2016-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5333275A (en) | System and method for time aligning speech | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6067520A (en) | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models | |
CN111862954B (zh) | 一种语音识别模型的获取方法及装置 | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
Qian et al. | Automatic speech recognition for automated speech scoring | |
JPH08211891A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
JP2001188556A (ja) | 音声認識方法及び装置 | |
Kessens et al. | Improving recognition performance by modelling pronunciation variation. | |
JPH07121192A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JP3091623B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JP2912513B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JPH09160586A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
KR20220036239A (ko) | 딥러닝 기반의 발음 평가 시스템 | |
Schmidt et al. | Automatic text-to-speech alignment: Aspects of robustification | |
JPH0713588A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
Tjalve | Accent Features and Idiodictionaries: On Improving Accuracy for | |
JPH08328582A (ja) | ヒドン・マルコフ・モデルの学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020806 |