JPH0289098A

JPH0289098A - 音節パターン切り出し装置

Info

Publication number: JPH0289098A
Application number: JP63240248A
Authority: JP
Inventors: Shin Kamiya; 伸神谷; Toru Ueda; 徹上田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1988-09-26
Filing date: 1988-09-26
Publication date: 1990-03-29
Anticipated expiration: 2010-02-22
Also published as: JPH0715638B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、音声入力装置における音節パターンの切り
出し方式の改良に関する。

〈従来の技術〉従来、音声ワードプロセッサのように音声を文字列に変
換する装置において、予め入力音声パターンから音節パ
ターンを切り出して音節標準パターンとして登録し、こ
の音節標準パターンと入力音声から切り出された音節の
テストパターンとの距離に基づいて音節を認識する方法
がある。その際に、音節パターンの切り出しくセグメン
テーション）を行う場合には、入力音声のパワーやスペ
クトル変化等の音響特徴パラメータを用いて有音区間中
から音節区間を切り出すのである。しかし、上記特徴パ
ラメータのみを用いて音節区間を切り出すと、雑音や調
音結合の影響によって音節パターン切り出しが不正確に
行なわれる場合がある。

その場合には、誤った音節標準パターンが作成されるこ
とになり、音節の認識性能に大きな影響を及ぼすことに
なる。

そこで、切り出される音節区間に対応する音声波形をエ
コーバックして音声出力し、オペレータに確認させるこ
とによって誤った音節標準パターンの作成を防ぐ音声ワ
ードプロセッサが提案されている。

〈発明が解決しようとする課題〉このように、従来の音節パターン切り出し方式において
は、音節パターン切り出し区間に対応する音声波形をエ
コーバックして、切り出す音節区間（すなわち、音節境
界位置）の確認をオペレータが行うことによって、間違
った音節標準パターンが作成されることを防止している
。

しかしながら、上記音節パターン切り出し方式において
は、オペレータが注意を怠ると音節パターン切り出し区
間に対応するエコーバックを聞き落とす場合があるとい
う問題がある。また、毎回発声後にエコーバックさせる
ための時間が必要であり、登録作業に時間がかかるとい
う問題点かある。

そこで、この発明の目的は、エコーバック音声の出力を
必要とせず、簡単にしかも正確に音節境界位置を決定す
ることができる音節パターン切り出し方式を提供するこ
とにある。

く課題を解決するための手段〉上記目的を達成するため、この発明の音節パターン切り
出し方式は、音声入力された発声内容既知の単語の特徴
パラメータを抽出する音声分析部と、上記音声分析部に
よって抽出された上記特徴パラメータに基づいて、入力
音声の音節境界位置候補を検出する音節境界位置検出部
と、音声入力された単語の音声区間長に基づいて、推定
平均音節長を求める平均音節長推定部と、上記音節境界
位置検出部によって検出された音節境界位置候補の前後
夫々に有り、かつ上記推定平均音節長に基づいて決めら
れる所定範囲内にある音素のフレーム数と、音節境界位
置候補間の長さと上記推定平均音節長との差とに基づい
て、上記音節境界位置候補より音節境界を決定する音節
境界決定部を備えたことを特徴としている。

く作用〉発声内容既知の単語が音声人力されると、音声分析部で
上記単語の特徴パラメータか抽出され、この特徴パラメ
ータに基づいて入力音声の音節境界位置候補が音節境界
位置検出部によって検出される。一方、音声人力された
単語の音声区間長に基づいて、推定平均音節長が平均音
節長推定部によって求められる。そうすると、音節境界
決定部は、上記音節境界位置検出部によって検出された
音節境界位置候補の前後夫々に有り、かつ上記推定平均
音節長に基づいて決められる所定範囲内にある音素のフ
レーム数と、音節境界位置候補間の長さと上記推定平均
音節長との差とに基づいて、上記音節境界位置候補より
音節境界を決定する。

すなわち、オペレータは切り出された音節区間をエコー
バック等によって確認する必要がなく、自動的に正しく
音節境界を決定することができる。

〈実施例〉以下、この発明を図示の実施例に従って詳細に説明する
。

第１図はこの発明に係る音節切り出し装置のブロック図
を示す。この音節切り出し装置は、音声とこの音声の単
語（文節）のローマ字表記とを入力して、入力音声から
音節パターン（ケプストラム係数の時系列）を出力する
ものであり、次の様な手順によって行う。

すなわち、上記音節切り出し装置によって音節標準パタ
ーンの登録を行う際には、ローマ字表記人力によって予
め発声内容が既知であるために、通常の音声認識におい
ては用いることのできないような情報をトップダウン的
に用いることができる。まず、ローマ字表記入力から予
め入力音声に含まれる音節数が既知であるので、音声区
間長を音節数で割ることにより推定平均音節長を求める
ことができる。次に、スペクトル変化およびパワー変化
等により検出される音節境界位置候補の中から上記推定
平均音節長に基づいて音節境界を決定する。その場合に
、決定の際に用いる信頼度として、音節境界位置前後の
一定範囲（推定平均音節長×定数）内にある先行音節の
母音、後続音節の子音および後続音節の母音に相当する
音素種の数と、音節境界位置候補間の長さ（音節長）と
平均音節長との差とに基づく値を用いる。

次に、第１図に従って上記音節切り出し装置の概略につ
いて説明する。

人力音声から音声分析部ｌによってフレーム（周期８　
ｍｓ）毎にパワーおよびケプストラム係数等の特徴パラ
メータと、後に詳述する音韻分類記号および音素記号等
とが求められる。そして、この特徴パラメータ、音韻記
号および音素記号等から、音節境界位置の候補が音節境
界検出部２によって求められる。一方、人力された単語
のローマ字表記から、その単語を構成する■Ｃ■の列（
母音−子音一母音列）がｖＣＶ生成生成部上って求めら
れる。そして、■Ｃｖスポツター４で上記音節境界位置
候補とＶＣＶ列との各対毎に信頼度を計算し、ＤＰ（ダ
イナミックプログラミング）部５で上記音節境界位置候
補と上記ＶＣＶ列との対のうち最も信頼度の高い対を探
し、音節境界決定部６で上記対応する区間を音節パター
ンとして切り出すのである。

以下、上記音節切り出し装置の各部について詳細に説明
する。

（１）音声分析部１マイクより入力された音声から第１表に示す条件で線形
予測（Ｌ　Ｐ　Ｇ）ケプストラム、パワーおよび差分パ
ワー等の特徴パラメータを求める。

この特徴パラメータを用いて各フレームの大略的音韻特
徴を、第２表に示すような６種類の記号（以下、音韻分
類記号という）に記号化して出力する。さらに、孤立単
音節より自動的に切り出した音素（５母音と／ｎ／、／
ｓ／）標準パターンとのフレーム毎のマツチングにより
、第４表に示すような音素記号列を出力する。また、上
記特徴パラメータより次の２種類のセグメンテーション
用パラメータを計算する。

・パワーデイツプ・・・パワーの一次ｔｉ係数。

・スペクトル変化・・・８フレーム（または４フレーム
）離れたフレーム間のケプストラム係数。

（２）音節境界検出部２上記音声分析部ｌで求められた音韻分類記号。

パワーデイツプおよびスペクトル変化を用いて音節境界
位置の候補を求める（第３表参照）。

第３表境界記号“（”と“）”とは音韻分類記号列の記号の無
音−有音、有音−無音、無声音−有声音および有声音−
無声音の各変化点に相当するフレームに付けられる。ま
た、境界記号“ｐ”はパワーデイツプが大となるフレー
ムに付けられ、境界記号“Ｓ”はスペクトル変化が大と
なるフレームに付けられる。

（３）平均モーラ長推定部７０一マ字表記入力から求められるモーラ敢Ｍと音節境界
検出部２によって検出される境界信号“（”および“）
”間の音声区間長ＬＴとから次のようにして推定平均モ
ーラ長ＬＭを求める。

推定平均モーラ長ＬＭの初期値は２１フレーム（発声速
度６モ一ラ／秒に相当）であり、各単語発声毎に更新さ
れていく。今Ｍモーラからなる単語を発声した際の音声
区間長がＬＴフレームならば、平均モーラ長をＬフレー
ムとするとＬ＝ＬＴ／Ｍと表せる。そして、この平均モ
ーラ長りの範囲が１６≦Ｌ＜３１ならばＬＭ＝Ｌとする
。また、雑音や発声不良により音声区間長ＬＴが誤って
検出された場合を考慮して、Ｌ＜１６または３１≦しな
らばＬＭ＝（２１＋Ｌ）／２とする。

（４）ｖｃｖ生成生成上３音声入力された単語のローマ字表記が入力されると
、その単語を構成するＶＣＶの列が求められる。上記ｖ
ＣＶは音節境界毎に先行音節の母音Ｖ２．後続音節の子
音ＣＩおよび後続音節の母音Ｖｔの３組からなり、ｎ音
節からなる単語ならば無音区間との境界も含めてｎ＋１
個の７０７列を生成する（第２図参照）。

ただし、母音のみからなる音節の０１に相当する部分は
Ｖｔと同じ記号で表わし、子音＋拗音十母音からなる音
節の場合の拗音部の記号は省略する。

（５）ＶＣＶスポツタ−４上記音節境界検出部２で検出された音節境界位置候補と
上記ＶＣｖ生成部３で生成されたＶ２Ｃ１ｖ１との各対
電に、音節境界としての信頼度りを次のようにして求め
る。ただし、ここで述べる信頼度りは値が小さいほど音
節境界位置としての可能性が高いことを意味する。

まず、第４表に従ってＶ２ＣＩＶｌを構成するアルファ
ベットの小文字表記に基づいてサーチすべき音声分析部
ｌからの上記音素記号列（音素ｌおよび音素２：９種類
の大文字で表記）を求める。

ここで、音素！および音素２はサーチすべき音素が二つ
あることを意味する。

以下余白第４表音節境界位置候補の位置をｔフレーム、区間（トルＭ／
２）からしまでにある■２に相当する音素のフレーム数
をｃ（Ｖ　２）、区間ｔから（ｔ＋ＬＭ／２）までにあ
るＣ１に相当する音素のフレーム数をｃ（Ｃ１）、区間
（ｔ＋ＬＭ／２）からＱ＋ｔ、Ｍ）までにあるＶｌに相
当する音素のフレーム数をｃ（Ｖ　ｌ）とする。そうす
ると、上述のように第４表から求めた音素！および音素
２を参照して次のように信頼度りを求める。

Ｃ１が“Ｂ″″でない時はＤ　４−ＬＭ−ｃ（Ｖ２）−ｃ（Ｃ１）ＣＩが“Ｂ”で
ある時はＤ−ＬＭ−ｃ（Ｖ２）−ｃ（Ｖｌ）Ｃ１が“Ｂ”または“Ｓ”の時はＤ　４−ＬＭ−ｃ（Ｖ２）　− ＭＡＸ（ｃ（Ｃｌ＝　”Ｓ”）、ｃ（Ｖ　１））とする
。ただし、上記ＭＡＸ（、）は（、）内の値のうち大き
いほうを選択する。

さらに、音節境界位置候補の種類が、 “（”　ならば　Ｄ４−Ｄ−ＬＭ／２ “）”　ならば　Ｄ　４−Ｄ　−ＬＭｘ　２／３“ｐ”
　ならば　Ｄ４−Ｄ−ＬＭ／３とする。

（６）ＤＰＰｂ０記■Ｃ■スポツタ−４によって求められた信頼度Ｄ（
ｉ、Ｄを用いて、ｉ番目の音節境界位置候補とｊ番目の
Ｖ２ＣＩＶｌとの対電にＤＰマツチングを行なって、最
も累積距離Ｇ（ｉ、ｊ）の小さい経路をとる音節境界位
置を求める（第３図参照）。ただし、語頭および語尾に
存在しうる息等の雑音を除くために両端点はフリーとす
る。ここで、（ｉ、Ｄ点に・・（１）ここで、Ｓ　（ｉ、ｋ）は音節境界位置候補間のフレー
ム長（音節長に相当）の上記推定平均モーラ基ＬＭから
のずれを表し、ｉ番目の音節境界位置候補をｔ（ｉ）フ
レームとすると、Ｓ（ｉ、ｋ）は（２）式のように表さ
れる。

Ｓ（ｉ、ｋ）−ｌ　Ｉｔ（ｉ）−ｔ（ｋｌ−ＬＭ　ｌ　
　・・・（２）すなわち、単語（文節）音声内では各音
節長があまり変動しないという仮定に基づいて、音節長
と推定平均モーラ基との差をＤＰマツチングの際の重み
として用いるのである。

（７）音節境界決定部６上記ＤＰ部５で求められた音節境界位置候補間の区間を
音節パターンとして切り出す（第４図参照）。この際に
、以下の条件を満たす場合にはその単語音声からの音節
切り出しがリジェクトされる。したがって、音節標準パ
ター“ンの登録の場合であれば、上記リジェクトされた
単語は再発声して音声入力する必要がある。

・音節長がＬＭ／４以下である短い音節を含む。

・音節長が２ＬＭ以上である長い音節を含む。

・音節境界の信頼度りがＬＭ／２以上である不確実な音
節境界を含む。

ここで、第４図中の音素第１候補および音素第２候補は
、音声分析部ｌにおいて行われる孤立単音節に基づく標
準パターンとのマツチングにおいて、マツチング距離の
小さい順に選出された候補である。

以上が音節切り出し装置の構成と基本アルゴリズムであ
る。しかし、音形規則および発声のゆらぎ等に対処可能
なように性能を向上させるために、次のようないくつか
の例外的なルールを追加している。

■　無声化上記Ｖ２ＣＩＶ１において、Ｃ１が無声子音であり、か
っＶｌが“ビおよび”Ｕ”ならば、入力音声の上記Ｖ２
ＣＩＶ１の対となる音節境界位置のＶｔに相当する音素
が無音“であってもよいことにする。

■　母音連鎖上記Ｖ２ＣＩＶｌにおいて、ｖ２がＡ°であり、かつＣ
Ｉが“ビならば、入力音声の上記Ｖ２ＣＩＶｌの対とな
る音節境界位置のＣＩに相当する音素がＥ“であっても
よいことにする。

■　語頭音節／ｉ／、／ｈｉ／、／ｈｕ／および／ｌｓｕ／が語
頭にある場合は、音節境界位置候補間のフレーム長が短
くなる傾向がある。したがって、上記ＤＰ部５において
累積距離Ｇ（ｉ、ｋ）を算出する際に用いられる音節境
界位置候補区間のフレーム長の平均モーラ基ＬＭからの
ずれＳ（ｉ、ｋ）を次式のように変更する。

Ｓ（ｉ、ｋ）−ｌ　Ｉｔ（ｉ）−ｔ（ｋｌ−ＬＭ／２■
　語尾音節／ｉ／および／Ｎ／が語尾にある場合は、音節境界
位置間のフレーム長が短くなる傾向がある。

したがって、上記ずれＳ（ｉ、ｋ）を次式のように変更
する。

Ｓ　（ｉ、ｋ）＝ｌ　Ｉｔ（ｉ）−ｔ（ｋｌ　−ＬＭ／
　２このように、この発明では入力音声より特徴パラメ
ータを求め、この特徴パラメータに基づいて人力音声の
音節境界位置候補を求める一方、入力音声から推定平均
音節長を求め、この推定平均音節長とＶ２．ＣＩおよび
Ｖｌのフレーム数に基づいて、上記音節境界位置候補の
音節境界としての信頼度を求め、この信頼度に基づいて
音節境界位置を決定して音節パターンを切り出すように
している。

したがって、オペレータの特性に起因した人力音声の発
声速度の相異にかかわらず、正確に音節パターン切り出
しを行うことができる。

また、この発明を用いれば、音節切り出し区間に対応す
る音声波形をエコーバックしてオペレー夕に確認させる
必要がないので、オペレータの負担と登録作業に要する
時間を軽減できる。したがって、簡単にしかも正確に音
節境界位置を決定することができる。

上記実施例においては、音声入力された単語の発声内容
を入力する際にローマ字表記を入力しているが、この発
明はこれに限定されるものではなく、仮名を入力しても
よい。

上記実施例においては、この発明を標準パターンの登録
の際に使用している。しかしながら、この発明はこれに
限定されるものではなく、例えば入力音声の認識の際に
も使用することができる。

その際には、上記実施例の場合とは逆に、音声入力され
た単語の発声内容入力として、得られた複数個の認識候
補の音素列をＶＣＶＣ酸生成に人力して、入力音声の音
節境界と整合する認識候補を認識結果として出力すれば
よい。

〈発明の効果〉以上より明らかなように、この発明の音節パターン切り
出し方法は、音声入力された発声内容既知の単語の特徴
パラメータを音声分析部によって抽出し、この特徴パラ
メータに基づいて音節境界位置検出部によって音声境界
位置候補を検出する一方、上記音声人力された単語の音
声区間長に基づいて平均音節長推定部によって推定平均
音節長を求め、上記音節境界位置候補の前後夫々に有り
、かつ上記推定平均音節長に基づく所定範囲内にある音
素のフレーム数と、音節境界位置候補間の長さと上記推
定平均音節長との差とに基づいて、音節境界決定部によ
って音節境界を決定するようにしたので、上記検出され
た音節境界位置候補の中で一番音節境界としての信頼度
の高い音節境界位置候補を音節境界として自動的に決定
することができる。したがって、この発明によれば、エ
コーパック音声の出力を必要とせず、簡単にしかも正確
に音節境界を決定することができる。

【図面の簡単な説明】

第１図はこの発明に係る音節切り出し装置のブロック図
、第２図はｖＣＶ列の生成例を示す図、第３図は音節境
界決定におけるＤＰマツチング経路の一例を示す図、第
４図は音節切り出しの一例を示す図である。ｌ・・・音声分析部、　　　２・・・音節境界検出部、
３・・・■ＣＶ生成部、　　４・・・ＶＣＶスポツタ−
５・・・ＤＰ部、　　　　　　６・・・音節境界決定部
、７・・平均モーラ長推定部。

Claims

【特許請求の範囲】

（１）音声入力された発声内容既知の単語の特徴パラメ
ータを抽出する音声分析部と、上記音声分析部によって抽出された上記特徴パラメータ
に基づいて、入力音声の音節境界位置候補を検出する音
節境界位置検出部と、音声入力された単語の音声区間長に基づいて、推定平均
音節長を求める平均音節長推定部と、上記音節境界位置
検出部によって検出された音節境界位置候補の前後夫々
に有り、かつ上記推定平均音節長に基づいて決められる
所定範囲内にある音素のフレーム数と、音節境界位置候
補間の長さと上記推定平均音節長との差とに基づいて、
上記音節境界位置候補より音節境界を決定する音節境界
決定部を備えたことを特徴とする音節パターン切り出し
方式。