JPH0784593A

JPH0784593A - 音素ラベリング装置

Info

Publication number: JPH0784593A
Application number: JP5229748A
Authority: JP
Inventors: Katsufumi Fukunishi; 克文福西; Noriya Murakami; 憲也村上
Original assignee: N T T DATA TSUSHIN KK; NTT Data Communications Systems Corp
Current assignee: N T T DATA TSUSHIN KK; NTT Data Corp
Priority date: 1993-09-16
Filing date: 1993-09-16
Publication date: 1995-03-31

Abstract

(57)【要約】【目的】発声テキストから作成される音素表記と実際
の発声とが一致しない場合でも高精度にラベリングを行
い得る音素ラベリング装置を提供する。【構成】音声信号から音声特徴パラメータを抽出する
前処理装置１０３と、発声テキスト信号から発声し得る
音声事象を再現するための文法を作成する認識用文法作
成部１０６と、作成された文法に基づいて音素モデルを
連結して認識処理用モデルを作成する音素モデル連結部
１０９と、認識処理用モデルと音声特徴パラメタ信号と
に基づいて隠れマルコフモデルを用いた認識処理を行う
認識処理部１０４と、最適な状態遷移経路及び該経路に
おける各音素モデル間の状態遷移の起こるフレームの位
置をもとに正しいラベル位置を算出するラベル生成部１
０５を備えて音素ラベリング装置を構成した。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、隠れマルコフモデル
（以下、ＨＭＭと略する）を用いて音声事象に音素単位
でラベルを付与する音素ラベリング装置に関する。

【０００２】

【従来の技術】従来、音素ラベリング装置では、アナロ
グ音声信号の分析から得られるケプストラム（会話のパ
ワースペクトルの対数のフーリエ変換）係数、自己相関
パラメータ，歪最小化の原理等に基づいて自動でラベリ
ング（ラベル付与、以下同じ）を行うか、或いは音声の
スペクトルを表示し、そのスペクトルを目視した上で手
動でラベリングを行っていた。この種の音素ラベリング
装置は、例えば「連続音声の音素的単位へのセグメンテ
ーション：１９８９年１月刊行の電子情報通信学会論文
誌 Vol.J72-D-II No.1」等に開示されている。

【０００３】しかしながら、上記ラベリング装置で自動
ラベリングを行う場合は、全ての音声信号の分析から得
られるモデルのパラメータ（分析に要する媒介変数）に
基づいてラベルの付与を行っているので、ラベリングさ
れるべき音素の脱落や誤挿入、あるいは間違ったラベル
が付与されてしまう等のトラブルを生じることがあっ
た。また、目視による手動のラベリングの場合は、ラベ
リング作業に膨大な時間と手間を要する問題があった。

【０００４】そこで、本発明者らは、先に、上記問題点
を解消し得る音素ラベリング装置を提案した（特願平５
−７５０７３号明細書）。この装置は、要するに、発声
信号（音声信号）に対応する発声テキスト信号（文字列
情報）から音素モデル（個々の音素をモデル化したも
の、以下同じ）の連結を一意に決定するとともに、決定
された音素モデルの連結の状態遷移をＨＭＭを用いて認
識し、その認識結果に基づいて該当するラベルを生成す
る手段を備えることを特徴とするものである。

【０００５】

【発明が解決しようとする課題】上述の先提案に係るラ
ベリング装置によれば、様々な発声内容に対応するＨＭ
Ｍの音素モデルの連結が、ラベリングする音素毎に一意
に定められるので、全ての音素モデルを基礎とする従前
のこの種の装置に比べて迅速且つ精度の高いラベリング
が可能になるという優れた効果があった。

【０００６】しかし、以後の検証の結果、上記音素ラベ
リング装置にも更に改良すべき課題が残ることが判明し
た。即ち、人間が実際に音声を発する場合、その発声音
が発声テキスト信号から作成される音素表記と必ずしも
一致しない。例えば「指定」という単語は、発声テキス
ト信号の音素表記では”sh-i-t-e-i”（シテイ）と表さ
れるが、人間が実際に発声する場合には”sh-i-t-e-e”
（シテー、シテエ）と発声される場合も多い。このよう
に、発声テキスト信号から得られる音素表記と実際の発
声内容とが一致しない場合には、正しく音声事象をラベ
リングすることが非常に困難となる。

【０００７】本発明は上記課題に鑑みてなされたもの
で、発声テキスト信号から得られる音素表記と実際の発
声内容とが一致しない場合でも正しいラベリングを行い
得る音素ラベリング装置を提供することを目的としてい
る。

【０００８】

【課題を解決するための手段】上記目的を達成する本発
明の構成は、音声信号と該音声信号に対応する文字列情
報とを入力し、この文字列情報に基づいて前記音声信号
に音素単位でラベルを付与する音素ラベリング装置にお
いて、個々の文字列情報に対して発声され得る音声事象
を文法規則として保持する文法規則保持部と、前記文法
規則を参照して前記入力された文字列情報に対応する文
法を作成する文法作成部と、予め用意された複数の音素
モデルの連結を前記作成された文法に従って決定する音
素モデル連結部と、決定された音素モデルの連結の状態
遷移をＨＭＭを用いて認識する認識処理部と、この認識
結果に基づいて該当するラベルを生成するラベル生成部
と、を有することを特徴とする。

【０００９】上記構成の音素ラベリング装置において、
前記文法規則は、発声が曖昧となる音素連結毎に複数の
音素連結パタンを定めた特殊規則を含み、前記文法作成
部は、入力された文字列情報中の前記特殊規則で定めた
音素連結を該当する音素連結パタンに置換して前記音素
モデルの連結手順を表す文法を作成するものとする。

【００１０】また、前記認識処理部は、前記音声信号の
特徴パラメタと前記決定された音素モデルの連結とを入
力して所定のアルゴリズムにより尤度が最大となる音素
モデル連結経路及び該経路の音素モデル間で状態遷移が
起こるフレーム位置を検出してこれを状態遷移情報とな
し、前記ラベル生成部は、該状態遷移情報と前記音声特
徴パラメタ抽出持の分析フレーム周期とに基づいて前記
ラベルを生成するものとする。

【００１１】

【作用】本発明の音素ラベリング装置では、１つの文字
列情報に対して実際に発声され得る音声事象が複数存在
する場合に、これら音声事象を再現するために想定し得
る音素モデルの連結関係（文法規則）を文法規則保持部
に保持しておく。また、複数の音素を各々モデル化した
初期音素モデル（音素モデル）をも保持しておく。上記
文法規則は、音素ラベリング装置の適用分野に応じて任
意に定めることができるが、少なくとも発声が曖昧とな
る音素連結毎に複数の音素連結パタンを定めた特殊規則
を含んでいる。

【００１２】ここで、音声信号とともに発声テキスト信
号が入力されると、文法作成部は、上記文法規則保持部
内の文法規則を参照して入力文字列情報に対応する文法
を作成し、これを音素モデル連結部に出力する。音素モ
デル連結部は、導かれた文法に従って対応する音素モデ
ルを取り出して連結し、これをＨＭＭによる新たな認識
処理用モデルとなす。この認識処理用モデルは、上記文
法作成時に特殊規則を用いた場合は複数の状態遷移経路
が存在するため、認識処理部において全ての経路につい
て尤度を算出し、最大尤度となる経路を最適パスとす
る。ラベル生成部では、この最適パスにおける各音素モ
デル間の状態遷移の起こるフレームをもとに音素単位の
ラベルを生成する。

【００１３】このように、本発明の音素ラベリング装置
によれば、文法規則に基づいて入力文字列情報に対応す
る文法が作成され、この文法に基づいてＨＭＭの認識処
理に用いる音素モデルの連結が決定されるとともに、最
大尤度となる音素モデルの状態遷移経路とそのときの状
態遷移フレームをもとに音素単位のラベルが生成される
ので、実際の音声事象に即したラベリングが実行され
る。

【００１４】

【実施例】以下に実施例を挙げ、本発明の音素ラベリン
グ装置について、図面を参照して詳細に説明する。図１
は、本発明の一実施例に係る音素ラベリング装置の要部
構成を示したものである。

【００１５】この音素ラベリング装置は、音声入力のた
めの入力装置（図示せず）と、生成されたラベルを出力
する出力装置（図示せず）とを周辺機器として有し、更
に、図示の前処理装置１０３、主処理装置１、及び、外
部記憶装置２を備えて成る。主処理装置１は、認識処理
部１０４、ラベル生成部１０５、認識用文法作成部１０
６、及び、音素モデル連結部１０９を有する。また、外
部記憶装置２には、音素モデル連結規則（文法規則）１
０７及び初期音素モデル（音素モデル）１０８が保持さ
れている。

【００１６】アナログの音声信号が第一の入力端子１０
１を介して前処理装置１０３に入力されると、前処理装
置１０３では、このアナログ音声信号を低域通過フィル
タを通してＡ／Ｄ変換することによってディジタルデー
タ化する。また、このディジタルデータからフレーム単
位で音声特徴パラメタの抽出を行い、抽出された音声特
徴パラメタ信号を主処理装置１の認識処理部１０４に出
力している。

【００１７】他方、入力装置より文字列を表す発声テキ
スト信号（文字列情報）が、例えば単語単位で第２の入
力端子１０２に入力され、これが主処理装置１の認識用
文法作成部１０６に導かれる。認識用文法作成部１０６
では、この発声テキスト信号を音素単位に分解し、これ
ら各音素を連結させるために必要な規則を、外部記憶装
置２に格納されている音素モデル連結規則１０７から取
り出す。そして、これら規則によって、上記分解された
各音素を発声テキスト信号に基づいて連結し、認識処理
用文法を作成するとともに、作成された認識処理用文法
を後続の音素モデル連結部１０９へ出力する。

【００１８】この認識処理用文法の作成要領について、
図２を参照して具体的に説明する。図２は、「してい
（指定）」のアナログ音声信号とともに”ｓｈｉｔｅ
ｉ”の発声テキスト信号が入力された場合の説明図であ
り、図下段の音素モデル連結規則１０７には、音素を連
結させるための規則２０３、２０４、２０５が格納され
ている様子が示されている。これら規則には、通常の音
素連結を行うための基本規則と、特殊な音素連結に対応
した特殊規則とが存在する。なお、Ｒは音素連結、Ｓは
スタート（開始）、Ｅはエンド（終了）を表している。

【００１９】図示の例では規則２０３が基本規則であ
り、人間の発声が一意に定まるとみなせる通常の音素連
結に対応した規則である。２０４、２０５はそれぞれ”
ｓｈ−ｉ”，”ｅ−ｉ”と言う特殊な音素連結に対応し
た特殊規則で、人間の発声時における発声が複数考えら
れるような音素連結に対応している。例えば、”ｓｈ−
ｉ”においては、母音の”ｉ”が省略されて、子音であ
る”ｓｈ”のみが発声される場合がある。また、”ｅ−
ｉ”は通常は「エイ」と発声されるが、「エエ」、「エ
ー」と発声されることも多い。従って、このような特殊
規則においては、一つの音素連結に対して複数の発声を
想定してそれに対応した規則を用意し、各音素系列を例
えばＯＲ条件で対応させる。

【００２０】認識用文法作成部１０６では、まず”ｓｈ
ｉｔｅｉ”の発声テキスト信号２０１を、“ｓｈ”，
“ｉ”，“ｔ”，“ｅ”，“ｉ”の音素単位に分解し、
図示のような音素系列２０２に変換する。アンダーライ
ンの部分は上述の特殊な音素連結を表している。次に、
音素モデル連結規則１０７にアクセスして上述の特殊規
則に対応した音素連結の有無を検索し、存在する場合に
はその特殊規則を取り出す。“ｓｈｉｔｅｉ”の例で
は、破線で示す“ｓｈ−ｉ”，“ｅ−ｉ”に関して特殊
規則２０４，２０５が存在するので、これらの特殊規則
を取り出す。それ以外の音素連結”ｔ”に関しては特殊
規則が存在しないので、基本規則２０３を適用する。そ
して、音素系列２０２の順番に従ってこれらの規則２０
４，２０３，２０５を連結し、認識処理用文法２０６を
作成する。最後に、この認識処理用文法２０６を音素モ
デル連結部１０９へ出力する。

【００２１】図１に戻ると、音素モデル連結部１０９で
は、認識用文法作成部１０６から導かれた認識処理用文
法２０６に出現する音素モデルを、外部記憶装置２に格
納されている初期音素モデル１０８から取り出し、認識
処理用文法２０６に従って連結して認識処理用モデルを
作成するとともに、これを認識処理部１０４へ出力す
る。

【００２２】この認識処理用モデルの作成要領につい
て、図３を用いて説明する。図３に示すように、初期音
素モデル１０８には、各音素ごとにそれぞれ状態数が３
（Ｓ1，Ｓ2，Ｓ3）で自己ループを持ち、left-to-right
で構成される複数の音素モデルが格納されているものと
する。上述のように、“ｓｈｉｔｅｉ”という発声テキ
スト信号が入力され、認識用文法作成部１０６から図示
のような認識処理用文法２０６が入力されたので、音素
モデル連結部１０９では、各音素に対応するモデル、即
ち、／ｓｈ／のモデル３０１、／ｉ／のモデル３０２、
／ｔ／のモデル３０３、／ｅ／のモデル３０４、及び、
／ｅｅ／のモデル３０５をそれぞれ初期音素モデル１０
８から取り出し、得られたモデルを上記認識処理用文法
２０６に従って連結して“ｓｈｉｔｅｉ”に対応する認
識処理用モデル３０６を作成する。

【００２３】認識処理部１０４では、前処理装置１０３
から導かれた「してい」の音声特徴パラメタ信号と、音
素モデル連結部１０６で作成された”ｓｈｉｔｅｉ”の
認識処理用モデル３０６をもとに、ｖｉｔｅｒｂｉアル
ゴリズムにより尤度が最大となる経路（最適パス）と状
態遷移が起こるフレーム位置を求め、この最適パスとフ
レーム位置を状態遷移情報としてラベル生成部１０５に
出力する。

【００２４】このときの状態遷移情報の導出方法につい
て図４をもとに説明する。図４は、認識処理用モデル３
０６において、「してい」、”ｓｈｉｔｅｉ”という入
力に対して考えられるすべての経路での状態遷移をトレ
リス（格子）４０７により表したものである。尚、前述
したように、特殊な音素連結に対しては特殊規則により
複数の音素系列をＯＲ条件で対応させているので、特殊
規則を適用した場合には複数の経路が発生する。”ｓｈ
ｉｔｅｉ”の例においては、”ｓｈｉ”に対して”ｓｈ
−ｉ”または”ｓｈ”を、”ｅｉ”に対して”ｅｉ”ま
たは”ｅｅ”をそれぞれ対応させているので、４種の経
路が発生することとなる。

【００２５】これら４種の経路中において、水平に線が
引かれている部分では自己ループが起きた、即ち自分自
身へ遷移したことを表し、また、斜めに線が引かれてい
る部分では次の状態への遷移したことを表している。特
に、音素間の遷移が起きた部分には、分かりやすいよう
に丸印を付与してある。例えば、音素間状態遷移４０１
はフレームＦ1で、音素“ｓｈ”の第３状態である状態
Ｓ3(sh)から音素“ｉ”の第１状態である状態Ｓ1(i)へ
の遷移が起きたことを示している。

【００２６】図５に認識処理用モデル３０６に表される
４つの経路を示す。この図に示されるように、音素モデ
ル連結部１０９から入力された認識処理用モデル３０６
では、第１の経路５０１、第２の経路５０２、第３の経
路５０３、第４の経路５０４という４通りの経路が考え
られる。トレリス４０７上で示される４つの経路を表１
に示す。

【００２７】

【表１】第１の経路：（４０２）−（４０４）−（４０５）第２の経路：（４０３）−（４０４）−（４０５）第３の経路：（４０２）−（４０４）−（４０６）第４の経路：（４０３）−（４０４）−（４０６）

【００２８】この４つの経路の全てにおいて、ｖｉｔｅ
ｒｂｉアルゴリズムにより尤度計算を行ない、最大尤度
となる経路を求める。例えば、経路４において尤度が最
大となった場合、フレームＦ2，Ｆ3において、それぞれ
“ｓｈ”，“ｔ”の第３状態から“ｔ”，“ｅｅ”の第
１状態への遷移がおきていると判断されるので、このフ
レーム位置を含む状態遷移情報４０８が出力される。

【００２９】また、他の経路が最大尤度となった場合に
ついても同様に、状態遷移情報が求められる。以上のよ
うにして状態遷移情報４０８が、ラベル生成部１０５へ
出力される。ラベル生成部１０５では、認識処理部１０
４からの状態遷移情報４０８と、音声信号の特徴量抽出
を行うときの分析フレーム周期をもとに初期ラベルを作
成する。このときのラベル作成過程を図６に示す。

【００３０】図６を参照すると、ラベル生成部１０５で
は、認識処理部１０４から入力された状態遷移情報４０
８から音素系列６０１と状態遷移フレーム情報６０２と
を抽出する。そしてこの状態遷移フレーム情報６０２
と、アナログ音声信号の特徴量抽出を行うときの分析フ
レーム周期６０３をもとに、状態遷移時間の系列６０４
を求める。このようにして求めた状態遷移時間の系列６
０４と音素系列６０１とから各音素ごとのラベル６０５
を作成する。

【００３１】図７に本実施例による音素ラベリングの結
果を示す説明図である。この図によれば、音素ラベリン
グ装置の出力端子１１０から出力されたラベル７０２
（上述のラベル６０５）が、それぞれ対応する入力音声
波形７０１の信号データに忠実に付与されている様子が
示されている。この例では”ｓｈｉｔｅｉ”という発声
テキスト信号に対して実際の発声は”ｓｈｔｅｅ”とな
されたものであり、従来では非常に困難であった実際の
発声時における曖昧な発声に対しても正しいラベリング
が行われることがわかる。

【００３２】また、各人特有の発声の癖や、方言等にお
ける特殊な発声に対してもそれに対応する特殊規則を設
けることで、正しい共通語に限らず癖のある言葉や方言
に対しても高精度にラベリングを行うことや、方言を共
通語に直すことができる。例えば東京弁の発声では”広
島”が”しろしま”と発音されるように、”ｈｉ”が”
ｓｈｉ”と発音される場合がある。このような場合で
も、適宜条件を設定して”ｈｉ”に対して”ｓｈｉ”を
対応させるような特殊規則を設けることで、東京弁の発
声に対してもラベリングを行うことができる。

【００３３】このように、本実施例の音素ラベリング装
置は、発声テキスト信号と音素モデルの連結規則を用意
し、この連結規則に則った認識処理用の文法に基づいて
音素モデルを連結してＨＭＭによる認識処理を行うとと
もに、これにより得られた状態遷移経路から最も尤度の
高い経路を選択して、その経路に基づいてラベルを生成
するようにしたので、曖昧な発声に対しても高精度にラ
ベリングを行うことができ、従来の課題を解決すること
ができる。

【００３４】なお、本発明はこの実施例に限定されるも
のではなく、その要旨を逸脱しない範囲で発声内容、連
結規則内容、尤度計算手法、あるいは音声特徴パラメタ
信号の内容を任意に変更することができる。

【００３５】

【発明の効果】以上詳細に説明したように、本発明の音
素ラベリング装置は、文字列情報から実際に発声され得
る音声事象を文法規則として保持し、この文法規則に従
った音素モデル連結を用いてＨＭＭによる認識処理を行
う構成なので、実際の発声音に即したラベルを自動的に
生成できる効果がある。

【００３６】また、発声が曖昧となる音素連結毎に複数
の音素連結パタンを定めた特殊規則を上記文法規則に含
むともに、入力された文字列情報中の音素連結を該当す
る音素連結パタンに置換して音素モデルの連結手順を表
す文法を作成するようにしたので、曖昧な発音や癖のあ
る発音に対しても正しいラベリングが可能になる効果が
ある。

【００３７】さらに、音声信号の特徴パラメタと上記文
法をもとに作成された音素モデル連結とを認識処理部に
入力し、所定のアルゴリズムにより尤度が最大となる音
素モデル連結経路及び該経路の音素モデル間で状態遷移
が起こるフレーム位置を検出するとともに、ラベル生成
部で上記認識処理部の処理結果に基づいてラベルを生成
するようにしたので、文字列情報から得られる音素表記
を実際の発声音に合致させることができ、ラベリングの
精度が従来装置に比べて格段に向上する効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例に係る音素ラベリング装置の
要部構成図。

【図２】図１に示す音素ラベリング装置に備えられる認
識用文法作成部での処理例の説明図。

【図３】図１に示す音素ラベリング装置に備えられる音
素モデル連結部での処理例の説明図。

【図４】図１に示す音素ラベリング装置に備えられる認
識処理部での処理例を表わすトレリスの説明図。

【図５】図１に示す音素ラベリング装置に備えられる音
素モデル連結部で生成される認識処理用モデルの説明
図。

【図６】図１に示す音素ラベリング装置に備えられるラ
ベル生成部での処理例を表わす説明図。

【図７】本発明の一実施例による音素ラベリングの結果
の説明図。

【符号の説明】

１主処理装置２外部記憶装置１０３前処理装置１０４認識処理部１０５ラベル生成部１０６認識用文法作成部１０７音素モデル連結規則１０８初期音素モデル１０９音素モデル連結部２０１〜２０６各音素モデル連結規則３０１〜３０６各音素モデル４０１〜４０６各音素モデルの状態４０７トレリス５０１〜５０４状態遷移経路６０１音素系列６０２状態遷移フレーム情報６０３分析フレーム周期６０４状態遷移時間の系列６０５ラベル７０１入力音声波形７０２出力ラベル

Claims

【特許請求の範囲】

【請求項１】音声信号と該音声信号に対応する文字列
情報とを入力し、この文字列情報に基づいて前記音声信
号に音素単位でラベルを付与する音素ラベリング装置に
おいて、個々の文字列情報に対して発声され得る音声事
象を文法規則として保持する文法規則保持部と、前記文
法規則を参照して前記入力された文字列情報に対応する
文法を作成する文法作成部と、予め用意された複数の音
素モデルの連結を前記作成された文法に従って決定する
音素モデル連結部と、決定された音素モデルの連結の状
態遷移を隠れマルコフモデルを用いて認識する認識処理
部と、この認識結果に基づいて該当するラベルを生成す
るラベル生成部と、を有することを特徴とする音素ラベ
リング装置。
【請求項２】請求項１記載の音素ラベリング装置にお
いて、前記文法規則は、発声が曖昧となる音素連結毎に
複数の音素連結パタンを定めた特殊規則を含み、前記文
法作成部は、前記入力された文字列情報中の前記特殊規
則で定めた音素連結を該当する音素連結パタンに置換し
て前記音素モデルの連結手順を表す文法を作成すること
を特徴とする音素ラベリング装置。
【請求項３】請求項１又は２記載の音素ラベリング装
置において、前記認識処理部は、前記音声信号の特徴パ
ラメタと前記決定された音素モデルの連結とを入力して
所定のアルゴリズムにより尤度が最大となる音素モデル
連結経路及び該経路の音素モデル間で状態遷移が起こる
フレーム位置を検出してこれを状態遷移情報となし、前
記ラベル生成部は、該状態遷移情報と前記音声特徴パラ
メタ抽出持の分析フレーム周期とに基づいて前記ラベル
を生成することを特徴とする音素ラベリング装置。