JPH0784593A - 音素ラベリング装置 - Google Patents
音素ラベリング装置Info
- Publication number
- JPH0784593A JPH0784593A JP5229748A JP22974893A JPH0784593A JP H0784593 A JPH0784593 A JP H0784593A JP 5229748 A JP5229748 A JP 5229748A JP 22974893 A JP22974893 A JP 22974893A JP H0784593 A JPH0784593 A JP H0784593A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- grammar
- model
- connection
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 発声テキストから作成される音素表記と実際
の発声とが一致しない場合でも高精度にラベリングを行
い得る音素ラベリング装置を提供する。 【構成】 音声信号から音声特徴パラメータを抽出する
前処理装置103と、発声テキスト信号から発声し得る
音声事象を再現するための文法を作成する認識用文法作
成部106と、作成された文法に基づいて音素モデルを
連結して認識処理用モデルを作成する音素モデル連結部
109と、認識処理用モデルと音声特徴パラメタ信号と
に基づいて隠れマルコフモデルを用いた認識処理を行う
認識処理部104と、最適な状態遷移経路及び該経路に
おける各音素モデル間の状態遷移の起こるフレームの位
置をもとに正しいラベル位置を算出するラベル生成部1
05を備えて音素ラベリング装置を構成した。
の発声とが一致しない場合でも高精度にラベリングを行
い得る音素ラベリング装置を提供する。 【構成】 音声信号から音声特徴パラメータを抽出する
前処理装置103と、発声テキスト信号から発声し得る
音声事象を再現するための文法を作成する認識用文法作
成部106と、作成された文法に基づいて音素モデルを
連結して認識処理用モデルを作成する音素モデル連結部
109と、認識処理用モデルと音声特徴パラメタ信号と
に基づいて隠れマルコフモデルを用いた認識処理を行う
認識処理部104と、最適な状態遷移経路及び該経路に
おける各音素モデル間の状態遷移の起こるフレームの位
置をもとに正しいラベル位置を算出するラベル生成部1
05を備えて音素ラベリング装置を構成した。
Description
【0001】
【産業上の利用分野】本発明は、隠れマルコフモデル
(以下、HMMと略する)を用いて音声事象に音素単位
でラベルを付与する音素ラベリング装置に関する。
(以下、HMMと略する)を用いて音声事象に音素単位
でラベルを付与する音素ラベリング装置に関する。
【0002】
【従来の技術】従来、音素ラベリング装置では、アナロ
グ音声信号の分析から得られるケプストラム(会話のパ
ワースペクトルの対数のフーリエ変換)係数、自己相関
パラメータ,歪最小化の原理等に基づいて自動でラベリ
ング(ラベル付与、以下同じ)を行うか、或いは音声の
スペクトルを表示し、そのスペクトルを目視した上で手
動でラベリングを行っていた。この種の音素ラベリング
装置は、例えば「連続音声の音素的単位へのセグメンテ
ーション:1989年1月刊行の電子情報通信学会論文
誌 Vol.J72-D-II No.1」等に開示されている。
グ音声信号の分析から得られるケプストラム(会話のパ
ワースペクトルの対数のフーリエ変換)係数、自己相関
パラメータ,歪最小化の原理等に基づいて自動でラベリ
ング(ラベル付与、以下同じ)を行うか、或いは音声の
スペクトルを表示し、そのスペクトルを目視した上で手
動でラベリングを行っていた。この種の音素ラベリング
装置は、例えば「連続音声の音素的単位へのセグメンテ
ーション:1989年1月刊行の電子情報通信学会論文
誌 Vol.J72-D-II No.1」等に開示されている。
【0003】しかしながら、上記ラベリング装置で自動
ラベリングを行う場合は、全ての音声信号の分析から得
られるモデルのパラメータ(分析に要する媒介変数)に
基づいてラベルの付与を行っているので、ラベリングさ
れるべき音素の脱落や誤挿入、あるいは間違ったラベル
が付与されてしまう等のトラブルを生じることがあっ
た。また、目視による手動のラベリングの場合は、ラベ
リング作業に膨大な時間と手間を要する問題があった。
ラベリングを行う場合は、全ての音声信号の分析から得
られるモデルのパラメータ(分析に要する媒介変数)に
基づいてラベルの付与を行っているので、ラベリングさ
れるべき音素の脱落や誤挿入、あるいは間違ったラベル
が付与されてしまう等のトラブルを生じることがあっ
た。また、目視による手動のラベリングの場合は、ラベ
リング作業に膨大な時間と手間を要する問題があった。
【0004】そこで、本発明者らは、先に、上記問題点
を解消し得る音素ラベリング装置を提案した(特願平5
−75073号明細書)。この装置は、要するに、発声
信号(音声信号)に対応する発声テキスト信号(文字列
情報)から音素モデル(個々の音素をモデル化したも
の、以下同じ)の連結を一意に決定するとともに、決定
された音素モデルの連結の状態遷移をHMMを用いて認
識し、その認識結果に基づいて該当するラベルを生成す
る手段を備えることを特徴とするものである。
を解消し得る音素ラベリング装置を提案した(特願平5
−75073号明細書)。この装置は、要するに、発声
信号(音声信号)に対応する発声テキスト信号(文字列
情報)から音素モデル(個々の音素をモデル化したも
の、以下同じ)の連結を一意に決定するとともに、決定
された音素モデルの連結の状態遷移をHMMを用いて認
識し、その認識結果に基づいて該当するラベルを生成す
る手段を備えることを特徴とするものである。
【0005】
【発明が解決しようとする課題】上述の先提案に係るラ
ベリング装置によれば、様々な発声内容に対応するHM
Mの音素モデルの連結が、ラベリングする音素毎に一意
に定められるので、全ての音素モデルを基礎とする従前
のこの種の装置に比べて迅速且つ精度の高いラベリング
が可能になるという優れた効果があった。
ベリング装置によれば、様々な発声内容に対応するHM
Mの音素モデルの連結が、ラベリングする音素毎に一意
に定められるので、全ての音素モデルを基礎とする従前
のこの種の装置に比べて迅速且つ精度の高いラベリング
が可能になるという優れた効果があった。
【0006】しかし、以後の検証の結果、上記音素ラベ
リング装置にも更に改良すべき課題が残ることが判明し
た。即ち、人間が実際に音声を発する場合、その発声音
が発声テキスト信号から作成される音素表記と必ずしも
一致しない。例えば「指定」という単語は、発声テキス
ト信号の音素表記では”sh-i-t-e-i”(シテイ)と表さ
れるが、人間が実際に発声する場合には”sh-i-t-e-e”
(シテー、シテエ)と発声される場合も多い。このよう
に、発声テキスト信号から得られる音素表記と実際の発
声内容とが一致しない場合には、正しく音声事象をラベ
リングすることが非常に困難となる。
リング装置にも更に改良すべき課題が残ることが判明し
た。即ち、人間が実際に音声を発する場合、その発声音
が発声テキスト信号から作成される音素表記と必ずしも
一致しない。例えば「指定」という単語は、発声テキス
ト信号の音素表記では”sh-i-t-e-i”(シテイ)と表さ
れるが、人間が実際に発声する場合には”sh-i-t-e-e”
(シテー、シテエ)と発声される場合も多い。このよう
に、発声テキスト信号から得られる音素表記と実際の発
声内容とが一致しない場合には、正しく音声事象をラベ
リングすることが非常に困難となる。
【0007】本発明は上記課題に鑑みてなされたもの
で、発声テキスト信号から得られる音素表記と実際の発
声内容とが一致しない場合でも正しいラベリングを行い
得る音素ラベリング装置を提供することを目的としてい
る。
で、発声テキスト信号から得られる音素表記と実際の発
声内容とが一致しない場合でも正しいラベリングを行い
得る音素ラベリング装置を提供することを目的としてい
る。
【0008】
【課題を解決するための手段】上記目的を達成する本発
明の構成は、音声信号と該音声信号に対応する文字列情
報とを入力し、この文字列情報に基づいて前記音声信号
に音素単位でラベルを付与する音素ラベリング装置にお
いて、個々の文字列情報に対して発声され得る音声事象
を文法規則として保持する文法規則保持部と、前記文法
規則を参照して前記入力された文字列情報に対応する文
法を作成する文法作成部と、予め用意された複数の音素
モデルの連結を前記作成された文法に従って決定する音
素モデル連結部と、決定された音素モデルの連結の状態
遷移をHMMを用いて認識する認識処理部と、この認識
結果に基づいて該当するラベルを生成するラベル生成部
と、を有することを特徴とする。
明の構成は、音声信号と該音声信号に対応する文字列情
報とを入力し、この文字列情報に基づいて前記音声信号
に音素単位でラベルを付与する音素ラベリング装置にお
いて、個々の文字列情報に対して発声され得る音声事象
を文法規則として保持する文法規則保持部と、前記文法
規則を参照して前記入力された文字列情報に対応する文
法を作成する文法作成部と、予め用意された複数の音素
モデルの連結を前記作成された文法に従って決定する音
素モデル連結部と、決定された音素モデルの連結の状態
遷移をHMMを用いて認識する認識処理部と、この認識
結果に基づいて該当するラベルを生成するラベル生成部
と、を有することを特徴とする。
【0009】上記構成の音素ラベリング装置において、
前記文法規則は、発声が曖昧となる音素連結毎に複数の
音素連結パタンを定めた特殊規則を含み、前記文法作成
部は、入力された文字列情報中の前記特殊規則で定めた
音素連結を該当する音素連結パタンに置換して前記音素
モデルの連結手順を表す文法を作成するものとする。
前記文法規則は、発声が曖昧となる音素連結毎に複数の
音素連結パタンを定めた特殊規則を含み、前記文法作成
部は、入力された文字列情報中の前記特殊規則で定めた
音素連結を該当する音素連結パタンに置換して前記音素
モデルの連結手順を表す文法を作成するものとする。
【0010】また、前記認識処理部は、前記音声信号の
特徴パラメタと前記決定された音素モデルの連結とを入
力して所定のアルゴリズムにより尤度が最大となる音素
モデル連結経路及び該経路の音素モデル間で状態遷移が
起こるフレーム位置を検出してこれを状態遷移情報とな
し、前記ラベル生成部は、該状態遷移情報と前記音声特
徴パラメタ抽出持の分析フレーム周期とに基づいて前記
ラベルを生成するものとする。
特徴パラメタと前記決定された音素モデルの連結とを入
力して所定のアルゴリズムにより尤度が最大となる音素
モデル連結経路及び該経路の音素モデル間で状態遷移が
起こるフレーム位置を検出してこれを状態遷移情報とな
し、前記ラベル生成部は、該状態遷移情報と前記音声特
徴パラメタ抽出持の分析フレーム周期とに基づいて前記
ラベルを生成するものとする。
【0011】
【作用】本発明の音素ラベリング装置では、1つの文字
列情報に対して実際に発声され得る音声事象が複数存在
する場合に、これら音声事象を再現するために想定し得
る音素モデルの連結関係(文法規則)を文法規則保持部
に保持しておく。また、複数の音素を各々モデル化した
初期音素モデル(音素モデル)をも保持しておく。上記
文法規則は、音素ラベリング装置の適用分野に応じて任
意に定めることができるが、少なくとも発声が曖昧とな
る音素連結毎に複数の音素連結パタンを定めた特殊規則
を含んでいる。
列情報に対して実際に発声され得る音声事象が複数存在
する場合に、これら音声事象を再現するために想定し得
る音素モデルの連結関係(文法規則)を文法規則保持部
に保持しておく。また、複数の音素を各々モデル化した
初期音素モデル(音素モデル)をも保持しておく。上記
文法規則は、音素ラベリング装置の適用分野に応じて任
意に定めることができるが、少なくとも発声が曖昧とな
る音素連結毎に複数の音素連結パタンを定めた特殊規則
を含んでいる。
【0012】ここで、音声信号とともに発声テキスト信
号が入力されると、文法作成部は、上記文法規則保持部
内の文法規則を参照して入力文字列情報に対応する文法
を作成し、これを音素モデル連結部に出力する。音素モ
デル連結部は、導かれた文法に従って対応する音素モデ
ルを取り出して連結し、これをHMMによる新たな認識
処理用モデルとなす。この認識処理用モデルは、上記文
法作成時に特殊規則を用いた場合は複数の状態遷移経路
が存在するため、認識処理部において全ての経路につい
て尤度を算出し、最大尤度となる経路を最適パスとす
る。ラベル生成部では、この最適パスにおける各音素モ
デル間の状態遷移の起こるフレームをもとに音素単位の
ラベルを生成する。
号が入力されると、文法作成部は、上記文法規則保持部
内の文法規則を参照して入力文字列情報に対応する文法
を作成し、これを音素モデル連結部に出力する。音素モ
デル連結部は、導かれた文法に従って対応する音素モデ
ルを取り出して連結し、これをHMMによる新たな認識
処理用モデルとなす。この認識処理用モデルは、上記文
法作成時に特殊規則を用いた場合は複数の状態遷移経路
が存在するため、認識処理部において全ての経路につい
て尤度を算出し、最大尤度となる経路を最適パスとす
る。ラベル生成部では、この最適パスにおける各音素モ
デル間の状態遷移の起こるフレームをもとに音素単位の
ラベルを生成する。
【0013】このように、本発明の音素ラベリング装置
によれば、文法規則に基づいて入力文字列情報に対応す
る文法が作成され、この文法に基づいてHMMの認識処
理に用いる音素モデルの連結が決定されるとともに、最
大尤度となる音素モデルの状態遷移経路とそのときの状
態遷移フレームをもとに音素単位のラベルが生成される
ので、実際の音声事象に即したラベリングが実行され
る。
によれば、文法規則に基づいて入力文字列情報に対応す
る文法が作成され、この文法に基づいてHMMの認識処
理に用いる音素モデルの連結が決定されるとともに、最
大尤度となる音素モデルの状態遷移経路とそのときの状
態遷移フレームをもとに音素単位のラベルが生成される
ので、実際の音声事象に即したラベリングが実行され
る。
【0014】
【実施例】以下に実施例を挙げ、本発明の音素ラベリン
グ装置について、図面を参照して詳細に説明する。図1
は、本発明の一実施例に係る音素ラベリング装置の要部
構成を示したものである。
グ装置について、図面を参照して詳細に説明する。図1
は、本発明の一実施例に係る音素ラベリング装置の要部
構成を示したものである。
【0015】この音素ラベリング装置は、音声入力のた
めの入力装置(図示せず)と、生成されたラベルを出力
する出力装置(図示せず)とを周辺機器として有し、更
に、図示の前処理装置103、主処理装置1、及び、外
部記憶装置2を備えて成る。主処理装置1は、認識処理
部104、ラベル生成部105、認識用文法作成部10
6、及び、音素モデル連結部109を有する。また、外
部記憶装置2には、音素モデル連結規則(文法規則)1
07及び初期音素モデル(音素モデル)108が保持さ
れている。
めの入力装置(図示せず)と、生成されたラベルを出力
する出力装置(図示せず)とを周辺機器として有し、更
に、図示の前処理装置103、主処理装置1、及び、外
部記憶装置2を備えて成る。主処理装置1は、認識処理
部104、ラベル生成部105、認識用文法作成部10
6、及び、音素モデル連結部109を有する。また、外
部記憶装置2には、音素モデル連結規則(文法規則)1
07及び初期音素モデル(音素モデル)108が保持さ
れている。
【0016】アナログの音声信号が第一の入力端子10
1を介して前処理装置103に入力されると、前処理装
置103では、このアナログ音声信号を低域通過フィル
タを通してA/D変換することによってディジタルデー
タ化する。また、このディジタルデータからフレーム単
位で音声特徴パラメタの抽出を行い、抽出された音声特
徴パラメタ信号を主処理装置1の認識処理部104に出
力している。
1を介して前処理装置103に入力されると、前処理装
置103では、このアナログ音声信号を低域通過フィル
タを通してA/D変換することによってディジタルデー
タ化する。また、このディジタルデータからフレーム単
位で音声特徴パラメタの抽出を行い、抽出された音声特
徴パラメタ信号を主処理装置1の認識処理部104に出
力している。
【0017】他方、入力装置より文字列を表す発声テキ
スト信号(文字列情報)が、例えば単語単位で第2の入
力端子102に入力され、これが主処理装置1の認識用
文法作成部106に導かれる。認識用文法作成部106
では、この発声テキスト信号を音素単位に分解し、これ
ら各音素を連結させるために必要な規則を、外部記憶装
置2に格納されている音素モデル連結規則107から取
り出す。そして、これら規則によって、上記分解された
各音素を発声テキスト信号に基づいて連結し、認識処理
用文法を作成するとともに、作成された認識処理用文法
を後続の音素モデル連結部109へ出力する。
スト信号(文字列情報)が、例えば単語単位で第2の入
力端子102に入力され、これが主処理装置1の認識用
文法作成部106に導かれる。認識用文法作成部106
では、この発声テキスト信号を音素単位に分解し、これ
ら各音素を連結させるために必要な規則を、外部記憶装
置2に格納されている音素モデル連結規則107から取
り出す。そして、これら規則によって、上記分解された
各音素を発声テキスト信号に基づいて連結し、認識処理
用文法を作成するとともに、作成された認識処理用文法
を後続の音素モデル連結部109へ出力する。
【0018】この認識処理用文法の作成要領について、
図2を参照して具体的に説明する。図2は、「してい
(指定)」のアナログ音声信号とともに”shite
i”の発声テキスト信号が入力された場合の説明図であ
り、図下段の音素モデル連結規則107には、音素を連
結させるための規則203、204、205が格納され
ている様子が示されている。これら規則には、通常の音
素連結を行うための基本規則と、特殊な音素連結に対応
した特殊規則とが存在する。なお、Rは音素連結、Sは
スタート(開始)、Eはエンド(終了)を表している。
図2を参照して具体的に説明する。図2は、「してい
(指定)」のアナログ音声信号とともに”shite
i”の発声テキスト信号が入力された場合の説明図であ
り、図下段の音素モデル連結規則107には、音素を連
結させるための規則203、204、205が格納され
ている様子が示されている。これら規則には、通常の音
素連結を行うための基本規則と、特殊な音素連結に対応
した特殊規則とが存在する。なお、Rは音素連結、Sは
スタート(開始)、Eはエンド(終了)を表している。
【0019】図示の例では規則203が基本規則であ
り、人間の発声が一意に定まるとみなせる通常の音素連
結に対応した規則である。204、205はそれぞれ”
sh−i”,”e−i”と言う特殊な音素連結に対応し
た特殊規則で、人間の発声時における発声が複数考えら
れるような音素連結に対応している。例えば、”sh−
i”においては、母音の”i”が省略されて、子音であ
る”sh”のみが発声される場合がある。また、”e−
i”は通常は「エイ」と発声されるが、「エエ」、「エ
ー」と発声されることも多い。従って、このような特殊
規則においては、一つの音素連結に対して複数の発声を
想定してそれに対応した規則を用意し、各音素系列を例
えばOR条件で対応させる。
り、人間の発声が一意に定まるとみなせる通常の音素連
結に対応した規則である。204、205はそれぞれ”
sh−i”,”e−i”と言う特殊な音素連結に対応し
た特殊規則で、人間の発声時における発声が複数考えら
れるような音素連結に対応している。例えば、”sh−
i”においては、母音の”i”が省略されて、子音であ
る”sh”のみが発声される場合がある。また、”e−
i”は通常は「エイ」と発声されるが、「エエ」、「エ
ー」と発声されることも多い。従って、このような特殊
規則においては、一つの音素連結に対して複数の発声を
想定してそれに対応した規則を用意し、各音素系列を例
えばOR条件で対応させる。
【0020】認識用文法作成部106では、まず”sh
itei”の発声テキスト信号201を、“sh”,
“i”,“t”,“e”,“i”の音素単位に分解し、
図示のような音素系列202に変換する。アンダーライ
ンの部分は上述の特殊な音素連結を表している。次に、
音素モデル連結規則107にアクセスして上述の特殊規
則に対応した音素連結の有無を検索し、存在する場合に
はその特殊規則を取り出す。“shitei”の例で
は、破線で示す“sh−i”,“e−i”に関して特殊
規則204,205が存在するので、これらの特殊規則
を取り出す。それ以外の音素連結”t”に関しては特殊
規則が存在しないので、基本規則203を適用する。そ
して、音素系列202の順番に従ってこれらの規則20
4,203,205を連結し、認識処理用文法206を
作成する。最後に、この認識処理用文法206を音素モ
デル連結部109へ出力する。
itei”の発声テキスト信号201を、“sh”,
“i”,“t”,“e”,“i”の音素単位に分解し、
図示のような音素系列202に変換する。アンダーライ
ンの部分は上述の特殊な音素連結を表している。次に、
音素モデル連結規則107にアクセスして上述の特殊規
則に対応した音素連結の有無を検索し、存在する場合に
はその特殊規則を取り出す。“shitei”の例で
は、破線で示す“sh−i”,“e−i”に関して特殊
規則204,205が存在するので、これらの特殊規則
を取り出す。それ以外の音素連結”t”に関しては特殊
規則が存在しないので、基本規則203を適用する。そ
して、音素系列202の順番に従ってこれらの規則20
4,203,205を連結し、認識処理用文法206を
作成する。最後に、この認識処理用文法206を音素モ
デル連結部109へ出力する。
【0021】図1に戻ると、音素モデル連結部109で
は、認識用文法作成部106から導かれた認識処理用文
法206に出現する音素モデルを、外部記憶装置2に格
納されている初期音素モデル108から取り出し、認識
処理用文法206に従って連結して認識処理用モデルを
作成するとともに、これを認識処理部104へ出力す
る。
は、認識用文法作成部106から導かれた認識処理用文
法206に出現する音素モデルを、外部記憶装置2に格
納されている初期音素モデル108から取り出し、認識
処理用文法206に従って連結して認識処理用モデルを
作成するとともに、これを認識処理部104へ出力す
る。
【0022】この認識処理用モデルの作成要領につい
て、図3を用いて説明する。図3に示すように、初期音
素モデル108には、各音素ごとにそれぞれ状態数が3
(S1,S2,S3)で自己ループを持ち、left-to-right
で構成される複数の音素モデルが格納されているものと
する。上述のように、“shitei”という発声テキ
スト信号が入力され、認識用文法作成部106から図示
のような認識処理用文法206が入力されたので、音素
モデル連結部109では、各音素に対応するモデル、即
ち、/sh/のモデル301、/i/のモデル302、
/t/のモデル303、/e/のモデル304、及び、
/ee/のモデル305をそれぞれ初期音素モデル10
8から取り出し、得られたモデルを上記認識処理用文法
206に従って連結して“shitei”に対応する認
識処理用モデル306を作成する。
て、図3を用いて説明する。図3に示すように、初期音
素モデル108には、各音素ごとにそれぞれ状態数が3
(S1,S2,S3)で自己ループを持ち、left-to-right
で構成される複数の音素モデルが格納されているものと
する。上述のように、“shitei”という発声テキ
スト信号が入力され、認識用文法作成部106から図示
のような認識処理用文法206が入力されたので、音素
モデル連結部109では、各音素に対応するモデル、即
ち、/sh/のモデル301、/i/のモデル302、
/t/のモデル303、/e/のモデル304、及び、
/ee/のモデル305をそれぞれ初期音素モデル10
8から取り出し、得られたモデルを上記認識処理用文法
206に従って連結して“shitei”に対応する認
識処理用モデル306を作成する。
【0023】認識処理部104では、前処理装置103
から導かれた「してい」の音声特徴パラメタ信号と、音
素モデル連結部106で作成された”shitei”の
認識処理用モデル306をもとに、viterbiアル
ゴリズムにより尤度が最大となる経路(最適パス)と状
態遷移が起こるフレーム位置を求め、この最適パスとフ
レーム位置を状態遷移情報としてラベル生成部105に
出力する。
から導かれた「してい」の音声特徴パラメタ信号と、音
素モデル連結部106で作成された”shitei”の
認識処理用モデル306をもとに、viterbiアル
ゴリズムにより尤度が最大となる経路(最適パス)と状
態遷移が起こるフレーム位置を求め、この最適パスとフ
レーム位置を状態遷移情報としてラベル生成部105に
出力する。
【0024】このときの状態遷移情報の導出方法につい
て図4をもとに説明する。図4は、認識処理用モデル3
06において、「してい」、”shitei”という入
力に対して考えられるすべての経路での状態遷移をトレ
リス(格子)407により表したものである。尚、前述
したように、特殊な音素連結に対しては特殊規則により
複数の音素系列をOR条件で対応させているので、特殊
規則を適用した場合には複数の経路が発生する。”sh
itei”の例においては、”shi”に対して”sh
−i”または”sh”を、”ei”に対して”ei”ま
たは”ee”をそれぞれ対応させているので、4種の経
路が発生することとなる。
て図4をもとに説明する。図4は、認識処理用モデル3
06において、「してい」、”shitei”という入
力に対して考えられるすべての経路での状態遷移をトレ
リス(格子)407により表したものである。尚、前述
したように、特殊な音素連結に対しては特殊規則により
複数の音素系列をOR条件で対応させているので、特殊
規則を適用した場合には複数の経路が発生する。”sh
itei”の例においては、”shi”に対して”sh
−i”または”sh”を、”ei”に対して”ei”ま
たは”ee”をそれぞれ対応させているので、4種の経
路が発生することとなる。
【0025】これら4種の経路中において、水平に線が
引かれている部分では自己ループが起きた、即ち自分自
身へ遷移したことを表し、また、斜めに線が引かれてい
る部分では次の状態への遷移したことを表している。特
に、音素間の遷移が起きた部分には、分かりやすいよう
に丸印を付与してある。例えば、音素間状態遷移401
はフレームF1で、音素“sh”の第3状態である状態
S3(sh)から音素“i”の第1状態である状態S1(i)へ
の遷移が起きたことを示している。
引かれている部分では自己ループが起きた、即ち自分自
身へ遷移したことを表し、また、斜めに線が引かれてい
る部分では次の状態への遷移したことを表している。特
に、音素間の遷移が起きた部分には、分かりやすいよう
に丸印を付与してある。例えば、音素間状態遷移401
はフレームF1で、音素“sh”の第3状態である状態
S3(sh)から音素“i”の第1状態である状態S1(i)へ
の遷移が起きたことを示している。
【0026】図5に認識処理用モデル306に表される
4つの経路を示す。この図に示されるように、音素モデ
ル連結部109から入力された認識処理用モデル306
では、第1の経路501、第2の経路502、第3の経
路503、第4の経路504という4通りの経路が考え
られる。トレリス407上で示される4つの経路を表1
に示す。
4つの経路を示す。この図に示されるように、音素モデ
ル連結部109から入力された認識処理用モデル306
では、第1の経路501、第2の経路502、第3の経
路503、第4の経路504という4通りの経路が考え
られる。トレリス407上で示される4つの経路を表1
に示す。
【0027】
【表1】 第1の経路:(402)−(404)−(405) 第2の経路:(403)−(404)−(405) 第3の経路:(402)−(404)−(406) 第4の経路:(403)−(404)−(406)
【0028】この4つの経路の全てにおいて、vite
rbiアルゴリズムにより尤度計算を行ない、最大尤度
となる経路を求める。例えば、経路4において尤度が最
大となった場合、フレームF2,F3において、それぞれ
“sh”,“t”の第3状態から“t”,“ee”の第
1状態への遷移がおきていると判断されるので、このフ
レーム位置を含む状態遷移情報408が出力される。
rbiアルゴリズムにより尤度計算を行ない、最大尤度
となる経路を求める。例えば、経路4において尤度が最
大となった場合、フレームF2,F3において、それぞれ
“sh”,“t”の第3状態から“t”,“ee”の第
1状態への遷移がおきていると判断されるので、このフ
レーム位置を含む状態遷移情報408が出力される。
【0029】また、他の経路が最大尤度となった場合に
ついても同様に、状態遷移情報が求められる。以上のよ
うにして状態遷移情報408が、ラベル生成部105へ
出力される。ラベル生成部105では、認識処理部10
4からの状態遷移情報408と、音声信号の特徴量抽出
を行うときの分析フレーム周期をもとに初期ラベルを作
成する。このときのラベル作成過程を図6に示す。
ついても同様に、状態遷移情報が求められる。以上のよ
うにして状態遷移情報408が、ラベル生成部105へ
出力される。ラベル生成部105では、認識処理部10
4からの状態遷移情報408と、音声信号の特徴量抽出
を行うときの分析フレーム周期をもとに初期ラベルを作
成する。このときのラベル作成過程を図6に示す。
【0030】図6を参照すると、ラベル生成部105で
は、認識処理部104から入力された状態遷移情報40
8から音素系列601と状態遷移フレーム情報602と
を抽出する。そしてこの状態遷移フレーム情報602
と、アナログ音声信号の特徴量抽出を行うときの分析フ
レーム周期603をもとに、状態遷移時間の系列604
を求める。このようにして求めた状態遷移時間の系列6
04と音素系列601とから各音素ごとのラベル605
を作成する。
は、認識処理部104から入力された状態遷移情報40
8から音素系列601と状態遷移フレーム情報602と
を抽出する。そしてこの状態遷移フレーム情報602
と、アナログ音声信号の特徴量抽出を行うときの分析フ
レーム周期603をもとに、状態遷移時間の系列604
を求める。このようにして求めた状態遷移時間の系列6
04と音素系列601とから各音素ごとのラベル605
を作成する。
【0031】図7に本実施例による音素ラベリングの結
果を示す説明図である。この図によれば、音素ラベリン
グ装置の出力端子110から出力されたラベル702
(上述のラベル605)が、それぞれ対応する入力音声
波形701の信号データに忠実に付与されている様子が
示されている。この例では”shitei”という発声
テキスト信号に対して実際の発声は”shtee”とな
されたものであり、従来では非常に困難であった実際の
発声時における曖昧な発声に対しても正しいラベリング
が行われることがわかる。
果を示す説明図である。この図によれば、音素ラベリン
グ装置の出力端子110から出力されたラベル702
(上述のラベル605)が、それぞれ対応する入力音声
波形701の信号データに忠実に付与されている様子が
示されている。この例では”shitei”という発声
テキスト信号に対して実際の発声は”shtee”とな
されたものであり、従来では非常に困難であった実際の
発声時における曖昧な発声に対しても正しいラベリング
が行われることがわかる。
【0032】また、各人特有の発声の癖や、方言等にお
ける特殊な発声に対してもそれに対応する特殊規則を設
けることで、正しい共通語に限らず癖のある言葉や方言
に対しても高精度にラベリングを行うことや、方言を共
通語に直すことができる。例えば東京弁の発声では”広
島”が”しろしま”と発音されるように、”hi”が”
shi”と発音される場合がある。このような場合で
も、適宜条件を設定して”hi”に対して”shi”を
対応させるような特殊規則を設けることで、東京弁の発
声に対してもラベリングを行うことができる。
ける特殊な発声に対してもそれに対応する特殊規則を設
けることで、正しい共通語に限らず癖のある言葉や方言
に対しても高精度にラベリングを行うことや、方言を共
通語に直すことができる。例えば東京弁の発声では”広
島”が”しろしま”と発音されるように、”hi”が”
shi”と発音される場合がある。このような場合で
も、適宜条件を設定して”hi”に対して”shi”を
対応させるような特殊規則を設けることで、東京弁の発
声に対してもラベリングを行うことができる。
【0033】このように、本実施例の音素ラベリング装
置は、発声テキスト信号と音素モデルの連結規則を用意
し、この連結規則に則った認識処理用の文法に基づいて
音素モデルを連結してHMMによる認識処理を行うとと
もに、これにより得られた状態遷移経路から最も尤度の
高い経路を選択して、その経路に基づいてラベルを生成
するようにしたので、曖昧な発声に対しても高精度にラ
ベリングを行うことができ、従来の課題を解決すること
ができる。
置は、発声テキスト信号と音素モデルの連結規則を用意
し、この連結規則に則った認識処理用の文法に基づいて
音素モデルを連結してHMMによる認識処理を行うとと
もに、これにより得られた状態遷移経路から最も尤度の
高い経路を選択して、その経路に基づいてラベルを生成
するようにしたので、曖昧な発声に対しても高精度にラ
ベリングを行うことができ、従来の課題を解決すること
ができる。
【0034】なお、本発明はこの実施例に限定されるも
のではなく、その要旨を逸脱しない範囲で発声内容、連
結規則内容、尤度計算手法、あるいは音声特徴パラメタ
信号の内容を任意に変更することができる。
のではなく、その要旨を逸脱しない範囲で発声内容、連
結規則内容、尤度計算手法、あるいは音声特徴パラメタ
信号の内容を任意に変更することができる。
【0035】
【発明の効果】以上詳細に説明したように、本発明の音
素ラベリング装置は、文字列情報から実際に発声され得
る音声事象を文法規則として保持し、この文法規則に従
った音素モデル連結を用いてHMMによる認識処理を行
う構成なので、実際の発声音に即したラベルを自動的に
生成できる効果がある。
素ラベリング装置は、文字列情報から実際に発声され得
る音声事象を文法規則として保持し、この文法規則に従
った音素モデル連結を用いてHMMによる認識処理を行
う構成なので、実際の発声音に即したラベルを自動的に
生成できる効果がある。
【0036】また、発声が曖昧となる音素連結毎に複数
の音素連結パタンを定めた特殊規則を上記文法規則に含
むともに、入力された文字列情報中の音素連結を該当す
る音素連結パタンに置換して音素モデルの連結手順を表
す文法を作成するようにしたので、曖昧な発音や癖のあ
る発音に対しても正しいラベリングが可能になる効果が
ある。
の音素連結パタンを定めた特殊規則を上記文法規則に含
むともに、入力された文字列情報中の音素連結を該当す
る音素連結パタンに置換して音素モデルの連結手順を表
す文法を作成するようにしたので、曖昧な発音や癖のあ
る発音に対しても正しいラベリングが可能になる効果が
ある。
【0037】さらに、音声信号の特徴パラメタと上記文
法をもとに作成された音素モデル連結とを認識処理部に
入力し、所定のアルゴリズムにより尤度が最大となる音
素モデル連結経路及び該経路の音素モデル間で状態遷移
が起こるフレーム位置を検出するとともに、ラベル生成
部で上記認識処理部の処理結果に基づいてラベルを生成
するようにしたので、文字列情報から得られる音素表記
を実際の発声音に合致させることができ、ラベリングの
精度が従来装置に比べて格段に向上する効果がある。
法をもとに作成された音素モデル連結とを認識処理部に
入力し、所定のアルゴリズムにより尤度が最大となる音
素モデル連結経路及び該経路の音素モデル間で状態遷移
が起こるフレーム位置を検出するとともに、ラベル生成
部で上記認識処理部の処理結果に基づいてラベルを生成
するようにしたので、文字列情報から得られる音素表記
を実際の発声音に合致させることができ、ラベリングの
精度が従来装置に比べて格段に向上する効果がある。
【図1】本発明の一実施例に係る音素ラベリング装置の
要部構成図。
要部構成図。
【図2】図1に示す音素ラベリング装置に備えられる認
識用文法作成部での処理例の説明図。
識用文法作成部での処理例の説明図。
【図3】図1に示す音素ラベリング装置に備えられる音
素モデル連結部での処理例の説明図。
素モデル連結部での処理例の説明図。
【図4】図1に示す音素ラベリング装置に備えられる認
識処理部での処理例を表わすトレリスの説明図。
識処理部での処理例を表わすトレリスの説明図。
【図5】図1に示す音素ラベリング装置に備えられる音
素モデル連結部で生成される認識処理用モデルの説明
図。
素モデル連結部で生成される認識処理用モデルの説明
図。
【図6】図1に示す音素ラベリング装置に備えられるラ
ベル生成部での処理例を表わす説明図。
ベル生成部での処理例を表わす説明図。
【図7】本発明の一実施例による音素ラベリングの結果
の説明図。
の説明図。
1 主処理装置 2 外部記憶装置 103 前処理装置 104 認識処理部 105 ラベル生成部 106 認識用文法作成部 107 音素モデル連結規則 108 初期音素モデル 109 音素モデル連結部 201〜206 各音素モデル連結規則 301〜306 各音素モデル 401〜406 各音素モデルの状態 407 トレリス 501〜504 状態遷移経路 601 音素系列 602 状態遷移フレーム情報 603 分析フレーム周期 604 状態遷移時間の系列 605 ラベル 701 入力音声波形 702 出力ラベル
Claims (3)
- 【請求項1】 音声信号と該音声信号に対応する文字列
情報とを入力し、この文字列情報に基づいて前記音声信
号に音素単位でラベルを付与する音素ラベリング装置に
おいて、個々の文字列情報に対して発声され得る音声事
象を文法規則として保持する文法規則保持部と、前記文
法規則を参照して前記入力された文字列情報に対応する
文法を作成する文法作成部と、予め用意された複数の音
素モデルの連結を前記作成された文法に従って決定する
音素モデル連結部と、決定された音素モデルの連結の状
態遷移を隠れマルコフモデルを用いて認識する認識処理
部と、この認識結果に基づいて該当するラベルを生成す
るラベル生成部と、を有することを特徴とする音素ラベ
リング装置。 - 【請求項2】 請求項1記載の音素ラベリング装置にお
いて、前記文法規則は、発声が曖昧となる音素連結毎に
複数の音素連結パタンを定めた特殊規則を含み、前記文
法作成部は、前記入力された文字列情報中の前記特殊規
則で定めた音素連結を該当する音素連結パタンに置換し
て前記音素モデルの連結手順を表す文法を作成すること
を特徴とする音素ラベリング装置。 - 【請求項3】 請求項1又は2記載の音素ラベリング装
置において、前記認識処理部は、前記音声信号の特徴パ
ラメタと前記決定された音素モデルの連結とを入力して
所定のアルゴリズムにより尤度が最大となる音素モデル
連結経路及び該経路の音素モデル間で状態遷移が起こる
フレーム位置を検出してこれを状態遷移情報となし、前
記ラベル生成部は、該状態遷移情報と前記音声特徴パラ
メタ抽出持の分析フレーム周期とに基づいて前記ラベル
を生成することを特徴とする音素ラベリング装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5229748A JPH0784593A (ja) | 1993-09-16 | 1993-09-16 | 音素ラベリング装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5229748A JPH0784593A (ja) | 1993-09-16 | 1993-09-16 | 音素ラベリング装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0784593A true JPH0784593A (ja) | 1995-03-31 |
Family
ID=16897074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5229748A Pending JPH0784593A (ja) | 1993-09-16 | 1993-09-16 | 音素ラベリング装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0784593A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781999A (zh) * | 2021-09-13 | 2021-12-10 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
-
1993
- 1993-09-16 JP JP5229748A patent/JPH0784593A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781999A (zh) * | 2021-09-13 | 2021-12-10 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
CN113781999B (zh) * | 2021-09-13 | 2024-02-20 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5333275A (en) | System and method for time aligning speech | |
US5220639A (en) | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine | |
US6535849B1 (en) | Method and system for generating semi-literal transcripts for speech recognition systems | |
Al-Qatab et al. | Arabic speech recognition using hidden Markov model toolkit (HTK) | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
US8275621B2 (en) | Determining text to speech pronunciation based on an utterance from a user | |
JP3762327B2 (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
JPH10507536A (ja) | 言語認識 | |
JP2002520664A (ja) | 言語に依存しない音声認識 | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
WO2014167570A1 (en) | System and method for extracting and using prosody features | |
Patil et al. | Incorporating finer acoustic phonetic features in lexicon for Hindi language speech recognition | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
KR100720175B1 (ko) | 음성합성을 위한 끊어읽기 장치 및 방법 | |
KR20040061070A (ko) | 음성인식시스템에서의 음성인식장치 및 그 방법 | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JPH0784593A (ja) | 音素ラベリング装置 | |
Tolba et al. | Speech recognition by intelligent machines | |
Kessens et al. | Improving recognition performance by modelling pronunciation variation. |