JPH06266389A - 音素ラベリング装置 - Google Patents

音素ラベリング装置

Info

Publication number
JPH06266389A
JPH06266389A JP5075073A JP7507393A JPH06266389A JP H06266389 A JPH06266389 A JP H06266389A JP 5075073 A JP5075073 A JP 5075073A JP 7507393 A JP7507393 A JP 7507393A JP H06266389 A JPH06266389 A JP H06266389A
Authority
JP
Japan
Prior art keywords
phoneme
model
label
models
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5075073A
Other languages
English (en)
Inventor
Katsufumi Fukunishi
克文 福西
Noriya Murakami
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5075073A priority Critical patent/JPH06266389A/ja
Publication of JPH06266389A publication Critical patent/JPH06266389A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 脱落,誤挿入,誤付与等のトラブルを生じる
こと無く、しかも迅速且つ高精度にラベリングを行い得
る音素ラベリング装置を提供する。 【構成】 音素モデル連結部106,認識処理部10
4,及び、ラベル生成部105を含む主処理装置1によ
って要部が構成される。音素モデル連結部106は、隠
れマルコフモデルの音素モデルの連結をラベリングする
音素毎に一意に決定し、その音素モデルの連結に従って
認識用モデルを作成する。認識処理部104は、隠れマ
ルコフモデルを用いて認識用モデルのパラメータの再推
定を行い、音素モデル間の状態遷移する位置を求める。
ラベル生成部105はその位置に基づいてラベルを生成
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、隠れマルコフモデル
(以下、HMMと略する)を用いて音声に音素単位でラ
ベルを付与する音素ラベリング装置に関する。
【0002】
【従来の技術】従来、この種の音素ラベリング装置で
は、アナログ音声信号の分析から得られるケプストラム
(会話のパワースペクトルの対数のフーリエ変換)係
数,自己相関パラメータ,歪最小化の原理等に基づいて
自動でラベリングを行うか、或いは発声音声のスペクト
ルを表示し、そのスペクトルを目視した上で手動でラベ
リングを行っている。
【0003】このような従来の音素ラベリング装置は、
例えば「連続音声の音素的単位へのセグメンテーショ
ン:1989年1月刊行の電子情報通信学会論文誌 Vo
l.J72-D-II No.1」等に開示されている。
【0004】
【発明が解決しようとする課題】上述した従来のラベリ
ング装置の場合、音声信号の分析から得られるモデルの
パラメータ(分析に要する媒介変数)に基づいてラベル
の付与を行っているため、ラベリングされるべき音素が
脱落したり、ラベリングされる必要の無い音素が挿入さ
れてしまったり、あるいは間違ったラベルが付与されて
しまう等のトラブルを生じることがあった。
【0005】また、目視による手動のラベリングの場
合、ラベリング作業に膨大な時間を要してしまうと共
に、手間がかかり過ぎる問題があった。
【0006】加えて、従来のラベリング装置の場合、脱
落,誤挿入,誤付与等のトラブルを生じる頻度が少ない
場合でも、ラベリング精度が十分に得られないという性
能的での難点もあった。
【0007】本発明は、かかる課題を解決すべくなされ
たもので、その目的とするところは、脱落,誤挿入,誤
付与等のトラブルを生じること無く、しかも迅速且つ高
精度にラベリングを行い得る音素ラベリング装置を提供
することにある。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明ではHMMを用いて認識処理を行うことと
し、既知である発生内容、即ち、文字列情報を基に音素
モデル連結を行って、夫々の入力音声信号に一意に対応
する認識用モデルを作成する。そして、この認識用モデ
ルを用いて音声特徴パラメタの再推定を行い、各音素モ
デル間で状態遷移の起こるフレームからラベルを付与す
るフレ−ム位置を求め、これにより音素ラベリングを行
う。
【0009】その具体的構成は、音声信号に音素単位で
ラベルを付与する音素ラベリング装置であって、複数の
音素を各々モデル化した音素モデルを保持するととも
に、前記音声信号の入力時に前記音素モデルを抽出する
手段を有するものにおいて、前記音声信号に対応する文
字列情報から前記音素モデルの連結を一意に決定する音
素モデル決定部と、決定された音素モデルの連結の状態
遷移を隠れマルコフモデルを用いて認識する認識処理部
と、この認識結果に基づいて該当するラベルを生成する
ラベル生成部と、を有している。
【0010】なお、上記構成において、音素モデル連結
部は、発声内容を音素単位で分解した各音素に対応する
音素モデルを該発声内容に基づいて連結することによっ
て認識用モデルを作成するものである。また、認識処理
部は、認識処理時に抽出される音声特徴と認識用モデル
とに基づいて該認識用モデルの再推定を行うことによっ
て音素モデル間で状態遷移するフレームを求めると共
に、所定のアルゴリズムに従って該フレームの状態遷移
データを導出し、ラベル生成部は、状態遷移データと音
声特徴の抽出時の分析フレーム周期とに基づいてラベル
を作成するものである。
【0011】
【作用】本発明の音素ラベリング装置にあっては、音素
モデル決定部でHMMの音素ラベルの連結が文字列情報
を基に一意に決定され、ラベリングすべき入力音声信号
の各音素に対応する認識用モデルが作成される。認識処
理部では、この認識用モデルにより音声特徴パラメタの
再推定を行い、各音素モデル間で状態遷移の起こるフレ
ームから所定のアルゴリズムに従って状態遷移データを
導出する。状態遷移データは当該音素モデル間の連結に
各々ラベルを付与する位置を示しているので、この状態
遷移データに基づいてラベル生成部で音素ラベリングが
行われる。
【0012】
【実施例】以下に実施例を挙げ、本発明の音素ラベリン
グ装置について、図面を参照して詳細に説明する。図1
は、本発明の一実施例に係る音素ラベリング装置の要部
構成を示したものである。
【0013】この音素ラベリング装置は、音声を入力す
るための入力装置(図示せず)と、生成されたラベルを
出力する出力装置(図示せず)とを周辺機器として有
し、更に、図示の前処理装置103,主処理装置1,及
び、外部記憶装置2を備えて成る。
【0014】主処理装置1は、認識処理部104と、音
素モデル連結部106と、ラベル生成部105とを有す
る。この主処理装置1においては、入力装置よりアナロ
グの音声信号が第一の入力端子101に入力され、これ
が前処理装置103に入力される。
【0015】前処理装置103では、このアナログ音声
信号を低域通過フィルタを通してA/D変換することに
よってデジタルデータ化し、フレーム単位で音声特徴パ
ラメタの抽出を行い、これにより抽出された音声特徴パ
ラメタ信号を認識処理部104に出力している。
【0016】他方、入力装置より文字列情報を表す発声
テキスト信号が、 例えば単語単位で第二の入力端子1
02に入力され、これが音素モデル連結部106に入力
される。なお、この発声テキスト信号は、前記入力音声
信号に対応している。
【0017】音素モデル連結部106では、入力された
発声テキスト信号を音素単位に分解し、各音素に対応す
るモデルを外部記憶装置2に格納されている初期音素モ
デル107から音素モデル信号として抽出する。そし
て、各音素モデルを入力された発声テキスト信号に基づ
いて一意に連結し、認識処理用モデルを生成し、これを
認識処理用モデル信号として認識処理部104に出力す
る。
【0018】この音素モデル連結の処理について、図2
を参照して具体的に説明する。初期音素モデル107内
には、音素毎にそれぞれ状態数が3で、自己ループを持
つと共に、右向き(left-to-right)で構成される複数
の音素モデル201,202が格納されている。ここで
例えば、「あわ」というアナログ音声信号が入力端子1
01から入力されたとすると、入力端子102からは、
該音声信号の基礎となった´awa´という発声テキス
ト信号が入力される。なお、´´は疑似信号であること
を表わす識別子とする。音素モデル連結部106では、
この発声テキスト信号を´a´,´w´,´a´という
具合に音素毎に分解して音素系列を作成し、ここで生成
される音素系列信号をラベル生成部105に出力する。
【0019】引き続き、音素モデル連結部106は、各
音素に対応するモデルを初期音素モデル107内から取
り出し、これにより得られたモデルを音素系列に従って
右向きに連結して´awa´という,音声信号の入力に
一意に対応する認識用モデル203を作成し、この認識
用モデル信号を認識処理部104に出力する。
【0020】一方、認識処理部104では、HMMを用
いると共に、前処理装置103から入力した音声特徴パ
ラメタ信号と、音素モデル連結部106から入力した認
識処理用モデル信号とに基づいて、Baum-Welchアルゴリ
ズムにより尤度が最大となる最適パスを再計算して認識
用モデルの補正を行う一方、Viterbiアルゴリズムによ
り状態遷移が起こるフレームを求め、このフレーム位置
の値を状態遷移フレームデータ信号としてラベル生成部
105に出力する。
【0021】この状態遷移フレームデータの導出方法に
ついて、図3を参照して具体的に説明する。図3は、
「あわ」という入力があったときの認識用モデルにおけ
る最適パス307での状態遷移をトレリス(格子)によ
り表わしている。
【0022】即ち、ここでは、フレームL2 305で、
´a´の音素モデルの第3状態S3(a) 301から´w
´の音素モデルの第1状態S1(w) 302への遷移が起
きたことを示しており、また、フレームL3306で、
´w´の音素モデルの第3状態S3(w)303から´a´
の音素モデルの第1状態S1(a)304への遷移が起きた
ことを示している。この状態遷移は、連結する音素モデ
ルにより一意に定まる。そこで、認識処理部104で
は、これらの各音素モデル間で状態遷移が起きたフレー
ムの系列を状態遷移フレームデータ308として、その
信号をラベル生成部105に出力する。
【0023】更に、ラベル生成部105では、認識処理
部104から導かれた状態遷移フレームデータ308
と、アナログ音声信号の特徴量抽出を行うときの分析フ
レーム周期とに基づいてラベルを作成して出力端子10
8に出力する。
【0024】このラベル作成の過程を、図4を参照して
具体的に説明する。ラベル生成部105では、認識処理
部104から入力された状態遷移フレームデータ308
及び分析フレーム周期(ms)402に基づいて状態遷
移時間の系列403を求め、更に、この状態遷移時間の
系列403と音素モデル連結部106から入力された音
素系列404とに基づいて各音素毎のラベル405を生
成し、これにより得られるラベル信号を出力端子108
に出力する。
【0025】図5は、本実施例の音素ラベリング装置に
よるラベリングの処理結果を示したものである。図5を
参照すると、入力音声波形502の音素毎に、夫々対応
するラベル信号データ501が忠実に付されており、精
度良くラベリングがなされていることがわかる。
【0026】このように、本実施例の音素ラベリング装
置は、発声テキスト信号から一意に決定された音素モデ
ルの連結を基礎としてHMMによる認識処理を行い、こ
れにより得られた状態遷移データに基づいてラベルを生
成するようにしたので、全ての音素モデルを基礎とする
従来の音素ラベリング装置に比べて処理が迅速になり、
しかも、ラベリングされるべき音素の脱落や、ラベリン
グされる必要の無い音素が挿入されたり、あるいはラベ
ルの誤付与の発生確率が従来に比べて大幅に低減され
る。
【0027】なお、本発明はこの実施例に限定されるも
のではなく、その要旨を逸脱しない範囲で発声内容、あ
るいは音声特徴パラメタを任意に変更することができ
る。
【0028】
【発明の効果】以上詳細に説明したように、本発明の音
素ラベリング装置によれば、様々な発声内容に対応する
HMMの音素モデルの連結が、ラベリングする音素毎に
一意に定められ、その音素モデルの連結に従って認識用
モデルが作成されると共に、この認識用モデルのパラメ
ータの再推定により得られた音素モデル間の状態遷移デ
ータに基づいてラベル付与がなされるので、従来装置の
ような脱落,誤挿入,誤付与等のトラブルを生じること
無く、迅速にして精度良いラベリングが行われる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る音素ラベリング装置の
要部を示したものである。
【図2】図1に示す音素ラベリング装置に備えられる音
素モデル連結部での処理例を示す説明図である。
【図3】図1に示す音素ラベリング装置に備えられる認
識処理部での処理例を表わすトレリスの説明図である。
【図4】図1に示す音素ラベリング装置に備えられるラ
ベル生成部での処理例を表わす説明図である。
【図5】本発明の一実施例による音素ラベリングの結果
を示した図である。
【符号の簡単な説明】
1 主処理装置 2 外部記憶装置103 前処理装置 104 認識処理部 105 ラベル生成部 106 音素モデル連結部 201〜203 各音素モデル 301〜304 各音素モデルの状態 305、304 状態遷移の起きたフレーム 308 状態遷移フレームデータ 402 分析フレーム周期 404 音素系列 405 ラベル 501 ラベル信号データ 502 入力音声波形

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声信号に音素単位でラベルを付与する
    音素ラベリング装置であって、複数の音素を各々モデル
    化した音素モデルを保持するとともに、前記音声信号の
    入力時に前記音素モデルを抽出する手段を有するものに
    おいて、前記音声信号に対応する文字列情報から前記音
    素モデルの連結を一意に決定する音素モデル決定部と、
    決定された音素モデルの連結の状態遷移を隠れマルコフ
    モデルを用いて認識する認識処理部と、この認識結果に
    基づいて該当するラベルを生成するラベル生成部と、を
    有することを特徴とする音素ラベリング装置。
  2. 【請求項2】 請求項1記載の音素ラベリング装置にお
    いて、前記音素モデル決定部は、入力された文字列情報
    を音素単位で分解して各々対応する音素モデルを抽出す
    ると共に、該文字列情報に従って各音素モデルを連結し
    てなる認識用モデルを形成することを特徴とする音素ラ
    ベリング装置。
  3. 【請求項3】 請求項1又は2記載の音素ラベリング装
    置において、前記認識処理部は、認識処理時に抽出され
    る前記音声信号の特徴パラメタと前記認識用モデルとに
    基づいて該認識用モデルの再推定を行うことにより各音
    素モデル間で状態遷移するフレームを求めると共に、所
    定のアルゴリズムに従って該フレームの状態遷移データ
    を導出し、前記ラベル生成部は、前記状態遷移データと
    前記音声特徴パラメタ抽出時の分析フレーム周期とに基
    づいて前記ラベルを生成することを特徴とする音素ラベ
    リング装置。
JP5075073A 1993-03-10 1993-03-10 音素ラベリング装置 Pending JPH06266389A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5075073A JPH06266389A (ja) 1993-03-10 1993-03-10 音素ラベリング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5075073A JPH06266389A (ja) 1993-03-10 1993-03-10 音素ラベリング装置

Publications (1)

Publication Number Publication Date
JPH06266389A true JPH06266389A (ja) 1994-09-22

Family

ID=13565656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5075073A Pending JPH06266389A (ja) 1993-03-10 1993-03-10 音素ラベリング装置

Country Status (1)

Country Link
JP (1) JPH06266389A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113570A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声分類および音声認識のための隠れ条件付確率場モデル
US7454347B2 (en) 2003-08-27 2008-11-18 Kabushiki Kaisha Kenwood Voice labeling error detecting system, voice labeling error detecting method and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454347B2 (en) 2003-08-27 2008-11-18 Kabushiki Kaisha Kenwood Voice labeling error detecting system, voice labeling error detecting method and program
JP2006113570A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声分類および音声認識のための隠れ条件付確率場モデル

Similar Documents

Publication Publication Date Title
JP5322655B2 (ja) 莫大な語彙を有する音声認識システム
EP0590925A1 (en) Method of speech modelling and a speech recognizer
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
EP1460615B1 (en) Voice processing device and method, recording medium, and program
Priya et al. Implementation of phonetic level speech recognition in Kannada using HTK
JP2955297B2 (ja) 音声認識システム
JP3447521B2 (ja) 音声認識ダイアル装置
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
JPH06266389A (ja) 音素ラベリング装置
CN112331219B (zh) 语音处理方法和装置
JP3277579B2 (ja) 音声認識方法および装置
JP2001188556A (ja) 音声認識方法及び装置
KR100369478B1 (ko) 음성 모델의 생성 방법
Sriranjani et al. Experiments on front-end techniques and segmentation model for robust Indian Language speech recognizer
JPH0457098A (ja) 連続音声の音韻認識装置
JP2912513B2 (ja) ヒドン・マルコフ・モデルの学習方法
JPH09160586A (ja) ヒドン・マルコフ・モデルの学習方法
JPH0784593A (ja) 音素ラベリング装置
JP2975540B2 (ja) 自由発話音声認識装置
JP3583930B2 (ja) 音声認識装置及びその方法
JPH0713587A (ja) 隠れマルコフモデル連結学習方法
JP2004309654A (ja) 音声認識装置
JP2986703B2 (ja) 音声認識装置
JP3534196B2 (ja) 音声認識装置
JPH0713588A (ja) ヒドン・マルコフ・モデルの学習方法