JPH0289098A - 音節パターン切り出し装置 - Google Patents

音節パターン切り出し装置

Info

Publication number
JPH0289098A
JPH0289098A JP63240248A JP24024888A JPH0289098A JP H0289098 A JPH0289098 A JP H0289098A JP 63240248 A JP63240248 A JP 63240248A JP 24024888 A JP24024888 A JP 24024888A JP H0289098 A JPH0289098 A JP H0289098A
Authority
JP
Japan
Prior art keywords
syllable
length
boundary position
voice
syllable boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63240248A
Other languages
English (en)
Other versions
JPH0715638B2 (ja
Inventor
Shin Kamiya
伸 神谷
Toru Ueda
徹 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP63240248A priority Critical patent/JPH0715638B2/ja
Publication of JPH0289098A publication Critical patent/JPH0289098A/ja
Publication of JPH0715638B2 publication Critical patent/JPH0715638B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、音声入力装置における音節パターンの切り
出し方式の改良に関する。
〈従来の技術〉 従来、音声ワードプロセッサのように音声を文字列に変
換する装置において、予め入力音声パターンから音節パ
ターンを切り出して音節標準パターンとして登録し、こ
の音節標準パターンと入力音声から切り出された音節の
テストパターンとの距離に基づいて音節を認識する方法
がある。その際に、音節パターンの切り出しくセグメン
テーション)を行う場合には、入力音声のパワーやスペ
クトル変化等の音響特徴パラメータを用いて有音区間中
から音節区間を切り出すのである。しかし、上記特徴パ
ラメータのみを用いて音節区間を切り出すと、雑音や調
音結合の影響によって音節パターン切り出しが不正確に
行なわれる場合がある。
その場合には、誤った音節標準パターンが作成されるこ
とになり、音節の認識性能に大きな影響を及ぼすことに
なる。
そこで、切り出される音節区間に対応する音声波形をエ
コーバックして音声出力し、オペレータに確認させるこ
とによって誤った音節標準パターンの作成を防ぐ音声ワ
ードプロセッサが提案されている。
〈発明が解決しようとする課題〉 このように、従来の音節パターン切り出し方式において
は、音節パターン切り出し区間に対応する音声波形をエ
コーバックして、切り出す音節区間(すなわち、音節境
界位置)の確認をオペレータが行うことによって、間違
った音節標準パターンが作成されることを防止している
しかしながら、上記音節パターン切り出し方式において
は、オペレータが注意を怠ると音節パターン切り出し区
間に対応するエコーバックを聞き落とす場合があるとい
う問題がある。また、毎回発声後にエコーバックさせる
ための時間が必要であり、登録作業に時間がかかるとい
う問題点かある。
そこで、この発明の目的は、エコーバック音声の出力を
必要とせず、簡単にしかも正確に音節境界位置を決定す
ることができる音節パターン切り出し方式を提供するこ
とにある。
く課題を解決するための手段〉 上記目的を達成するため、この発明の音節パターン切り
出し方式は、音声入力された発声内容既知の単語の特徴
パラメータを抽出する音声分析部と、上記音声分析部に
よって抽出された上記特徴パラメータに基づいて、入力
音声の音節境界位置候補を検出する音節境界位置検出部
と、音声入力された単語の音声区間長に基づいて、推定
平均音節長を求める平均音節長推定部と、上記音節境界
位置検出部によって検出された音節境界位置候補の前後
夫々に有り、かつ上記推定平均音節長に基づいて決めら
れる所定範囲内にある音素のフレーム数と、音節境界位
置候補間の長さと上記推定平均音節長との差とに基づい
て、上記音節境界位置候補より音節境界を決定する音節
境界決定部を備えたことを特徴としている。
く作用〉 発声内容既知の単語が音声人力されると、音声分析部で
上記単語の特徴パラメータか抽出され、この特徴パラメ
ータに基づいて入力音声の音節境界位置候補が音節境界
位置検出部によって検出される。一方、音声人力された
単語の音声区間長に基づいて、推定平均音節長が平均音
節長推定部によって求められる。そうすると、音節境界
決定部は、上記音節境界位置検出部によって検出された
音節境界位置候補の前後夫々に有り、かつ上記推定平均
音節長に基づいて決められる所定範囲内にある音素のフ
レーム数と、音節境界位置候補間の長さと上記推定平均
音節長との差とに基づいて、上記音節境界位置候補より
音節境界を決定する。
すなわち、オペレータは切り出された音節区間をエコー
バック等によって確認する必要がなく、自動的に正しく
音節境界を決定することができる。
〈実施例〉 以下、この発明を図示の実施例に従って詳細に説明する
第1図はこの発明に係る音節切り出し装置のブロック図
を示す。この音節切り出し装置は、音声とこの音声の単
語(文節)のローマ字表記とを入力して、入力音声から
音節パターン(ケプストラム係数の時系列)を出力する
ものであり、次の様な手順によって行う。
すなわち、上記音節切り出し装置によって音節標準パタ
ーンの登録を行う際には、ローマ字表記人力によって予
め発声内容が既知であるために、通常の音声認識におい
ては用いることのできないような情報をトップダウン的
に用いることができる。まず、ローマ字表記入力から予
め入力音声に含まれる音節数が既知であるので、音声区
間長を音節数で割ることにより推定平均音節長を求める
ことができる。次に、スペクトル変化およびパワー変化
等により検出される音節境界位置候補の中から上記推定
平均音節長に基づいて音節境界を決定する。その場合に
、決定の際に用いる信頼度として、音節境界位置前後の
一定範囲(推定平均音節長×定数)内にある先行音節の
母音、後続音節の子音および後続音節の母音に相当する
音素種の数と、音節境界位置候補間の長さ(音節長)と
平均音節長との差とに基づく値を用いる。
次に、第1図に従って上記音節切り出し装置の概略につ
いて説明する。
人力音声から音声分析部lによってフレーム(周期8 
ms)毎にパワーおよびケプストラム係数等の特徴パラ
メータと、後に詳述する音韻分類記号および音素記号等
とが求められる。そして、この特徴パラメータ、音韻記
号および音素記号等から、音節境界位置の候補が音節境
界検出部2によって求められる。一方、人力された単語
のローマ字表記から、その単語を構成する■C■の列(
母音−子音一母音列)がvCV生成生成部上って求めら
れる。そして、■Cvスポツター4で上記音節境界位置
候補とVCV列との各対毎に信頼度を計算し、DP(ダ
イナミックプログラミング)部5で上記音節境界位置候
補と上記VCV列との対のうち最も信頼度の高い対を探
し、音節境界決定部6で上記対応する区間を音節パター
ンとして切り出すのである。
以下、上記音節切り出し装置の各部について詳細に説明
する。
(1)音声分析部1 マイクより入力された音声から第1表に示す条件で線形
予測(L P G)ケプストラム、パワーおよび差分パ
ワー等の特徴パラメータを求める。
この特徴パラメータを用いて各フレームの大略的音韻特
徴を、第2表に示すような6種類の記号(以下、音韻分
類記号という)に記号化して出力する。さらに、孤立単
音節より自動的に切り出した音素(5母音と/n/、/
s/)標準パターンとのフレーム毎のマツチングにより
、第4表に示すような音素記号列を出力する。また、上
記特徴パラメータより次の2種類のセグメンテーション
用パラメータを計算する。
・パワーデイツプ・・・パワーの一次ti係数。
・スペクトル変化・・・8フレーム(または4フレーム
)離れたフレーム間のケプ ストラム係数。
(2)音節境界検出部2 上記音声分析部lで求められた音韻分類記号。
パワーデイツプおよびスペクトル変化を用いて音節境界
位置の候補を求める(第3表参照)。
第3表 境界記号“(”と“)”とは音韻分類記号列の記号の無
音−有音、有音−無音、無声音−有声音および有声音−
無声音の各変化点に相当するフレームに付けられる。ま
た、境界記号“p”はパワーデイツプが大となるフレー
ムに付けられ、境界記号“S”はスペクトル変化が大と
なるフレームに付けられる。
(3)平均モーラ長推定部7 0一マ字表記入力から求められるモーラ敢Mと音節境界
検出部2によって検出される境界信号“(”および“)
”間の音声区間長LTとから次のようにして推定平均モ
ーラ長LMを求める。
推定平均モーラ長LMの初期値は21フレーム(発声速
度6モ一ラ/秒に相当)であり、各単語発声毎に更新さ
れていく。今Mモーラからなる単語を発声した際の音声
区間長がLTフレームならば、平均モーラ長をLフレー
ムとするとL=LT/Mと表せる。そして、この平均モ
ーラ長りの範囲が16≦L<31ならばLM=Lとする
。また、雑音や発声不良により音声区間長LTが誤って
検出された場合を考慮して、L<16または31≦しな
らばLM=(21+L)/2とする。
(4)vcv生成生成 上3音声入力された単語のローマ字表記が入力されると
、その単語を構成するVCVの列が求められる。上記v
CVは音節境界毎に先行音節の母音V2.後続音節の子
音CIおよび後続音節の母音Vtの3組からなり、n音
節からなる単語ならば無音区間との境界も含めてn+1
個の707列を生成する(第2図参照)。
ただし、母音のみからなる音節の01に相当する部分は
Vtと同じ記号で表わし、子音+拗音十母音からなる音
節の場合の拗音部の記号は省略する。
(5)VCVスポツタ−4 上記音節境界検出部2で検出された音節境界位置候補と
上記VCv生成部3で生成されたV2C1v1との各対
電に、音節境界としての信頼度りを次のようにして求め
る。ただし、ここで述べる信頼度りは値が小さいほど音
節境界位置としての可能性が高いことを意味する。
まず、第4表に従ってV2CIVlを構成するアルファ
ベットの小文字表記に基づいてサーチすべき音声分析部
lからの上記音素記号列(音素lおよび音素2:9種類
の大文字で表記)を求める。
ここで、音素!および音素2はサーチすべき音素が二つ
あることを意味する。
以下余白 第4表 音節境界位置候補の位置をtフレーム、区間(トルM/
2)からしまでにある■2に相当する音素のフレーム数
をc(V 2)、区間tから(t+LM/2)までにあ
るC1に相当する音素のフレーム数をc(C1)、区間
(t+LM/2)からQ+t、M)までにあるVlに相
当する音素のフレーム数をc(V l)とする。そうす
ると、上述のように第4表から求めた音素!および音素
2を参照して次のように信頼度りを求める。
C1が“B″″でない時は D 4−LM−c(V2)−c(C1)CIが“B”で
ある時は D−LM−c(V2)−c(Vl) C1が“B”または“S”の時は D 4−LM−c(V2) − MAX(c(Cl= ”S”)、c(V 1))とする
。ただし、上記MAX(、)は(、)内の値のうち大き
いほうを選択する。
さらに、音節境界位置候補の種類が、 “(” ならば D4−D−LM/2 “)” ならば D 4−D −LMx 2/3“p”
 ならば D4−D−LM/3 とする。
(6)DPPb 0記■C■スポツタ−4によって求められた信頼度D(
i、Dを用いて、i番目の音節境界位置候補とj番目の
V2CIVlとの対電にDPマツチングを行なって、最
も累積距離G(i、j)の小さい経路をとる音節境界位
置を求める(第3図参照)。ただし、語頭および語尾に
存在しうる息等の雑音を除くために両端点はフリーとす
る。ここで、(i、D点に・・(1) ここで、S (i、k)は音節境界位置候補間のフレー
ム長(音節長に相当)の上記推定平均モーラ基LMから
のずれを表し、i番目の音節境界位置候補をt(i)フ
レームとすると、S(i、k)は(2)式のように表さ
れる。
S(i、k)−l It(i)−t(kl−LM l 
 ・・・(2)すなわち、単語(文節)音声内では各音
節長があまり変動しないという仮定に基づいて、音節長
と推定平均モーラ基との差をDPマツチングの際の重み
として用いるのである。
(7)音節境界決定部6 上記DP部5で求められた音節境界位置候補間の区間を
音節パターンとして切り出す(第4図参照)。この際に
、以下の条件を満たす場合にはその単語音声からの音節
切り出しがリジェクトされる。したがって、音節標準パ
ター“ンの登録の場合であれば、上記リジェクトされた
単語は再発声して音声入力する必要がある。
・音節長がLM/4以下である短い音節を含む。
・音節長が2LM以上である長い音節を含む。
・音節境界の信頼度りがLM/2以上である不確実な音
節境界を含む。
ここで、第4図中の音素第1候補および音素第2候補は
、音声分析部lにおいて行われる孤立単音節に基づく標
準パターンとのマツチングにおいて、マツチング距離の
小さい順に選出された候補である。
以上が音節切り出し装置の構成と基本アルゴリズムであ
る。しかし、音形規則および発声のゆらぎ等に対処可能
なように性能を向上させるために、次のようないくつか
の例外的なルールを追加している。
■ 無声化 上記V2CIV1において、C1が無声子音であり、か
っVlが“ビおよび”U”ならば、入力音声の上記V2
CIV1の対となる音節境界位置のVtに相当する音素
が無音“であってもよいことにする。
■ 母音連鎖 上記V2CIVlにおいて、v2がA°であり、かつC
Iが“ビならば、入力音声の上記V2CIVlの対とな
る音節境界位置のCIに相当する音素がE“であっても
よいことにする。
■ 語頭 音節/i/、/hi/、/hu/および/lsu/が語
頭にある場合は、音節境界位置候補間のフレーム長が短
くなる傾向がある。したがって、上記DP部5において
累積距離G(i、k)を算出する際に用いられる音節境
界位置候補区間のフレーム長の平均モーラ基LMからの
ずれS(i、k)を次式のように変更する。
S(i、k)−l It(i)−t(kl−LM/2■
 語尾 音節/i/および/N/が語尾にある場合は、音節境界
位置間のフレーム長が短くなる傾向がある。
したがって、上記ずれS(i、k)を次式のように変更
する。
S (i、k)=l It(i)−t(kl −LM/
 2このように、この発明では入力音声より特徴パラメ
ータを求め、この特徴パラメータに基づいて人力音声の
音節境界位置候補を求める一方、入力音声から推定平均
音節長を求め、この推定平均音節長とV2.CIおよび
Vlのフレーム数に基づいて、上記音節境界位置候補の
音節境界としての信頼度を求め、この信頼度に基づいて
音節境界位置を決定して音節パターンを切り出すように
している。
したがって、オペレータの特性に起因した人力音声の発
声速度の相異にかかわらず、正確に音節パターン切り出
しを行うことができる。
また、この発明を用いれば、音節切り出し区間に対応す
る音声波形をエコーバックしてオペレー夕に確認させる
必要がないので、オペレータの負担と登録作業に要する
時間を軽減できる。したがって、簡単にしかも正確に音
節境界位置を決定することができる。
上記実施例においては、音声入力された単語の発声内容
を入力する際にローマ字表記を入力しているが、この発
明はこれに限定されるものではなく、仮名を入力しても
よい。
上記実施例においては、この発明を標準パターンの登録
の際に使用している。しかしながら、この発明はこれに
限定されるものではなく、例えば入力音声の認識の際に
も使用することができる。
その際には、上記実施例の場合とは逆に、音声入力され
た単語の発声内容入力として、得られた複数個の認識候
補の音素列をVCVC酸生成に人力して、入力音声の音
節境界と整合する認識候補を認識結果として出力すれば
よい。
〈発明の効果〉 以上より明らかなように、この発明の音節パターン切り
出し方法は、音声入力された発声内容既知の単語の特徴
パラメータを音声分析部によって抽出し、この特徴パラ
メータに基づいて音節境界位置検出部によって音声境界
位置候補を検出する一方、上記音声人力された単語の音
声区間長に基づいて平均音節長推定部によって推定平均
音節長を求め、上記音節境界位置候補の前後夫々に有り
、かつ上記推定平均音節長に基づく所定範囲内にある音
素のフレーム数と、音節境界位置候補間の長さと上記推
定平均音節長との差とに基づいて、音節境界決定部によ
って音節境界を決定するようにしたので、上記検出され
た音節境界位置候補の中で一番音節境界としての信頼度
の高い音節境界位置候補を音節境界として自動的に決定
することができる。したがって、この発明によれば、エ
コーパック音声の出力を必要とせず、簡単にしかも正確
に音節境界を決定することができる。
【図面の簡単な説明】
第1図はこの発明に係る音節切り出し装置のブロック図
、第2図はvCV列の生成例を示す図、第3図は音節境
界決定におけるDPマツチング経路の一例を示す図、第
4図は音節切り出しの一例を示す図である。 l・・・音声分析部、   2・・・音節境界検出部、
3・・・■CV生成部、  4・・・VCVスポツタ−
5・・・DP部、      6・・・音節境界決定部
、7・・平均モーラ長推定部。

Claims (1)

    【特許請求の範囲】
  1. (1)音声入力された発声内容既知の単語の特徴パラメ
    ータを抽出する音声分析部と、 上記音声分析部によって抽出された上記特徴パラメータ
    に基づいて、入力音声の音節境界位置候補を検出する音
    節境界位置検出部と、 音声入力された単語の音声区間長に基づいて、推定平均
    音節長を求める平均音節長推定部と、上記音節境界位置
    検出部によって検出された音節境界位置候補の前後夫々
    に有り、かつ上記推定平均音節長に基づいて決められる
    所定範囲内にある音素のフレーム数と、音節境界位置候
    補間の長さと上記推定平均音節長との差とに基づいて、
    上記音節境界位置候補より音節境界を決定する音節境界
    決定部を備えたことを特徴とする音節パターン切り出し
    方式。
JP63240248A 1988-09-26 1988-09-26 音節パターン切り出し装置 Expired - Fee Related JPH0715638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63240248A JPH0715638B2 (ja) 1988-09-26 1988-09-26 音節パターン切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63240248A JPH0715638B2 (ja) 1988-09-26 1988-09-26 音節パターン切り出し装置

Publications (2)

Publication Number Publication Date
JPH0289098A true JPH0289098A (ja) 1990-03-29
JPH0715638B2 JPH0715638B2 (ja) 1995-02-22

Family

ID=17056664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63240248A Expired - Fee Related JPH0715638B2 (ja) 1988-09-26 1988-09-26 音節パターン切り出し装置

Country Status (1)

Country Link
JP (1) JPH0715638B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム
JP4563418B2 (ja) * 2007-03-27 2010-10-13 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム

Also Published As

Publication number Publication date
JPH0715638B2 (ja) 1995-02-22

Similar Documents

Publication Publication Date Title
Liu Landmark detection for distinctive feature‐based speech recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Hosom Automatic time alignment of phonemes using acoustic-phonetic information
JPS6336676B2 (ja)
US7181391B1 (en) Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
JPH0250198A (ja) 音声認識システム
JPH0558553B2 (ja)
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
Pamisetty et al. Lightweight Prosody-TTS for Multi-Lingual Multi-Speaker Scenario
JPH0289098A (ja) 音節パターン切り出し装置
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
JP3277522B2 (ja) 音声認識方法
Takahashi et al. Isolated word recognition using pitch pattern information
Manjunath et al. Improvement of phone recognition accuracy using source and system features
JP3110025B2 (ja) 発声変形検出装置
KR100584906B1 (ko) 억양의 유사도 측정방법
JPS6180298A (ja) 音声認識装置
JPS63161499A (ja) 音声認識装置
JPS63236098A (ja) ラベリングシステム
Srinivasan et al. Schema-based modeling of phonemic restoration.
JPS63217399A (ja) 音声区間検出装置
JPH0827640B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees