JPH02118696A - 音声標準パタン登録方式 - Google Patents
音声標準パタン登録方式Info
- Publication number
- JPH02118696A JPH02118696A JP63272487A JP27248788A JPH02118696A JP H02118696 A JPH02118696 A JP H02118696A JP 63272487 A JP63272487 A JP 63272487A JP 27248788 A JP27248788 A JP 27248788A JP H02118696 A JPH02118696 A JP H02118696A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- voice
- standard
- length
- utterance length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000005055 memory storage Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100399479 Mus musculus Lmln gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は、音声認識装置における音声標準パタン登録
方式、特に音声標準パタン作成用の候補パタンの取捨選
択に関するものである。
方式、特に音声標準パタン作成用の候補パタンの取捨選
択に関するものである。
(従来の技術)
音声認識装置はコンピュータ、その他の種々のタト部機
器の有力な入力装置としで利用され始めており、そのた
め、種々の開発が進められでいる。
器の有力な入力装置としで利用され始めており、そのた
め、種々の開発が進められでいる。
第2図は従来の音声認識装置の典型例を示すブロック図
である。先ず、この発明の理解を容易にするためこの従
来製画の認識処理及び標準パタン登録処理につき簡単に
説明する。
である。先ず、この発明の理解を容易にするためこの従
来製画の認識処理及び標準パタン登録処理につき簡単に
説明する。
先ず、認識処理動作を説明する。使用する話者の発声し
た音声をマイクロホン等の外部音声入力装置10によっ
て取り込み、このアナログ入力音声をA/D変換部12
においてディジタル音声信号(こ変換し、特徴抽出部1
4においてこの音声信号から音声の特徴パラメータを抽
出しこれを音声切り出し部16及び認識部18へそれぞ
れ出力する。通常、特徴パラメータとして、フレームと
称される一定時間間隔で、スペクトル成分Sと対数パワ
ーP等を抽出する。そして、音声切り出し部16におい
て、この抽出した特徴パラメータの時間変化から音声区
間を判定して認識部18へ送る。
た音声をマイクロホン等の外部音声入力装置10によっ
て取り込み、このアナログ入力音声をA/D変換部12
においてディジタル音声信号(こ変換し、特徴抽出部1
4においてこの音声信号から音声の特徴パラメータを抽
出しこれを音声切り出し部16及び認識部18へそれぞ
れ出力する。通常、特徴パラメータとして、フレームと
称される一定時間間隔で、スペクトル成分Sと対数パワ
ーP等を抽出する。そして、音声切り出し部16におい
て、この抽出した特徴パラメータの時間変化から音声区
間を判定して認識部18へ送る。
この認識部18において音声区間の周波数成分S及び対
数パワーPの系列すなわち特徴パラメータ系列である音
声パタンを求め、この音声パタンと予め音声標準パタン
メモリ20に登録されている標準パタンを読み出してき
て音声パタンとこの標準パタンとの類似度を求めて、最
大類似度を有する標準パタンの属するカテゴリを認識判
定する。そして、認識結果出力部22から認識結果とし
ての当該標準パタンのカテゴリの番号を外部機器24へ
出力し、その後の所望の処理に供せしめる構成となって
いる。
数パワーPの系列すなわち特徴パラメータ系列である音
声パタンを求め、この音声パタンと予め音声標準パタン
メモリ20に登録されている標準パタンを読み出してき
て音声パタンとこの標準パタンとの類似度を求めて、最
大類似度を有する標準パタンの属するカテゴリを認識判
定する。そして、認識結果出力部22から認識結果とし
ての当該標準パタンのカテゴリの番号を外部機器24へ
出力し、その後の所望の処理に供せしめる構成となって
いる。
このような認識方法では、どのような発声を音声標準パ
タンとしで登録するかが認識性能を左右する。
タンとしで登録するかが認識性能を左右する。
次に、この従来の登録処理動作につき説明する。
股に標準パタン登録方法としでは、文献:特開昭61−
258299号公報に開示されているように、話者に同
一カテゴリの音声を複数回発声させ、その内の一つ又は
いくつかの音声パタンを取捨選択し、選択されたパタン
の音声長(音声区間)間の平均化等を行い、平均音声長
に該当する音声パタンを標準パタンとしで登録する技術
等がある。この技術によれば、複数回のそれぞれの発声
に対し、外部音声入力装置tlOとしてのマイクロホン
より入力させた音声をA/D変換部12においてディジ
タル音声信号に変換した俊、特徴抽出部14によってこ
の入力音声のスペクトル成分S及び対数パワーPを求め
、音声切り出し部16においで音声区間を決定する。次
に、認識部18においてこの音声区間の特徴パラメータ
系列である音声パタンを求めこれを一旦この認識部18
内のメモリに記憶させる。従って認識部18のメモリに
は1回目の音声パタン、2回目の音声パタン、・・・
n回目の音声パタンというように音声パタンかそれぞれ
記憶されることになる。そして、1回目及び2回目の音
声パタンの音声区間長である発声長L+及びL2の平均
値、すなわち、平均発声長L (= (L、+12 )
/2)を求め、3回目以降に発声された音声パタンに対
しては、この平均発声長しから経験に基づいて定めた最
短発声長L m1n及び最長発声長L□8の間の許容範
囲外に発声長を有する音声パタンは標準パタン作成には
使用しないという取捨選択の手法を取っていた。
258299号公報に開示されているように、話者に同
一カテゴリの音声を複数回発声させ、その内の一つ又は
いくつかの音声パタンを取捨選択し、選択されたパタン
の音声長(音声区間)間の平均化等を行い、平均音声長
に該当する音声パタンを標準パタンとしで登録する技術
等がある。この技術によれば、複数回のそれぞれの発声
に対し、外部音声入力装置tlOとしてのマイクロホン
より入力させた音声をA/D変換部12においてディジ
タル音声信号に変換した俊、特徴抽出部14によってこ
の入力音声のスペクトル成分S及び対数パワーPを求め
、音声切り出し部16においで音声区間を決定する。次
に、認識部18においてこの音声区間の特徴パラメータ
系列である音声パタンを求めこれを一旦この認識部18
内のメモリに記憶させる。従って認識部18のメモリに
は1回目の音声パタン、2回目の音声パタン、・・・
n回目の音声パタンというように音声パタンかそれぞれ
記憶されることになる。そして、1回目及び2回目の音
声パタンの音声区間長である発声長L+及びL2の平均
値、すなわち、平均発声長L (= (L、+12 )
/2)を求め、3回目以降に発声された音声パタンに対
しては、この平均発声長しから経験に基づいて定めた最
短発声長L m1n及び最長発声長L□8の間の許容範
囲外に発声長を有する音声パタンは標準パタン作成には
使用しないという取捨選択の手法を取っていた。
その理由は、極端に発声長が異なる音声パタンの場合に
は、本来の単語の発声音の真の音声区間に対して前後の
雑音をも取り込んた区間を音声区間として判定したり、
或いは逆に本来の単語の発声音の音声区間の一部分か脱
落してしまって本来の音声区間の半分程度の区間を音声
区間として判定してしまうため、このような許容範囲外
の発声長を有する音声パタンを標準パタンの作成に使用
すると、著しく認識性能か低下するからである。
は、本来の単語の発声音の真の音声区間に対して前後の
雑音をも取り込んた区間を音声区間として判定したり、
或いは逆に本来の単語の発声音の音声区間の一部分か脱
落してしまって本来の音声区間の半分程度の区間を音声
区間として判定してしまうため、このような許容範囲外
の発声長を有する音声パタンを標準パタンの作成に使用
すると、著しく認識性能か低下するからである。
このように、発声長に上述したようなある限度内の許容
範囲を設け、その範囲内の発声長を持った音声パタンを
標準パタンの決定に用いる手法は、音声区間の切り出し
を誤った音声パタンは発声長が極端に長い、もしくは短
いことに着目して、音声パタンの発声長の平均値を規準
として、極端に長いまたは短い発声長の音声パタンを音
声標準パタンの作成に用いないようにする方法である。
範囲を設け、その範囲内の発声長を持った音声パタンを
標準パタンの決定に用いる手法は、音声区間の切り出し
を誤った音声パタンは発声長が極端に長い、もしくは短
いことに着目して、音声パタンの発声長の平均値を規準
として、極端に長いまたは短い発声長の音声パタンを音
声標準パタンの作成に用いないようにする方法である。
(発明が解決しようとする課題)
しかしながら、従来の音声標準パタン作成方法では、音
声区間の切り出し誤りの音声パタンか複数個存在する場
合、規準となる発声長の平均値がすれ、音声標準パタン
の作成用パタンとして音声区間の切り出し誤りの音声パ
タンか選択される可能性がある。例えば、音声標準パタ
ン登録のための発声回数を3回(1つのカテゴリにつき
)とする。記憶された3回の音声パタンの1つが音声区
間の切り出しを誤ったとしても、この誤った音声パタン
は3回の発声長の平均値に比べ極端に異なっているため
、音声標準パタンの作成用パタンとしで選択されない。
声区間の切り出し誤りの音声パタンか複数個存在する場
合、規準となる発声長の平均値がすれ、音声標準パタン
の作成用パタンとして音声区間の切り出し誤りの音声パ
タンか選択される可能性がある。例えば、音声標準パタ
ン登録のための発声回数を3回(1つのカテゴリにつき
)とする。記憶された3回の音声パタンの1つが音声区
間の切り出しを誤ったとしても、この誤った音声パタン
は3回の発声長の平均値に比べ極端に異なっているため
、音声標準パタンの作成用パタンとしで選択されない。
しかし、音声区間の切り出し誤りの音声パタンか2つ存
在する場合、発声長の平均値が切り出し誤りの音声パタ
ンの発声長と近い値をとり、音声標準パタン作成のパタ
ンと選択される可能性が大きい。
在する場合、発声長の平均値が切り出し誤りの音声パタ
ンの発声長と近い値をとり、音声標準パタン作成のパタ
ンと選択される可能性が大きい。
このように音声区間の切り出し誤りの音声パタンか複数
存在する場合は、この切り出し誤りの音声パタンをも音
声標準パタンとして選択し登録されてしまうため、この
ような音声標準パタンを規準とした認識は認識性能の低
下を招く問題点があった。
存在する場合は、この切り出し誤りの音声パタンをも音
声標準パタンとして選択し登録されてしまうため、この
ような音声標準パタンを規準とした認識は認識性能の低
下を招く問題点があった。
この発明の目的は、音声パタンの切り出し結果に依存す
ることなく良好な音声パタンを選択し、精度及び安定の
高い音声標準パタンの作成を行うことが出来る音声標準
パタン登録方式を提供すること(こある。
ることなく良好な音声パタンを選択し、精度及び安定の
高い音声標準パタンの作成を行うことが出来る音声標準
パタン登録方式を提供すること(こある。
(課題を解決するための手段)
この目的の達成を図るため、この発明によれば、
音声標準パタンを読み出し自在に登録しておくための標
準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、 該類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識装置の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式において、 文字列毎の平均発声長を予め格納した平均発声長テーブ
ルと、一時記憶装置とを具え、さらに、前記認識部に、 音声標準パタンの単語名を与える文字列を発声して得ら
れた音声パタン、発声長及び該発声長と前記平均発声長
とに基づいて得た発声長比をカテゴリ毎に前記一時記憶
装置に一時的に書込むための書込み手段と、 前記発声長比と前記平均発声長とを用いて最大許容発声
長及び最小許容発声長を求める音声パタン選択規準設定
手段と、 前記最大及び最小許容発声長間の範囲に存在する発声長
に対応する音声パタンを前記一時記憶装置から音声標準
パタン作成のための候補パタンとして選択し出力するた
めの候補パタン選択手段とを設け、 該候補パタンから音声標準パタンを決定して前記標準パ
タン辞書メモリに登録することを特徴とする特 この発明の実施に当り、前記書込み手段は、前記平均発
声長テーブルから読み出した全ての文字列の平均発声長
の和の値として標準発声長を求め、 前記音声パタン選択規準設定手段は、 前記一時記憶装置から読み出した全ての発声長比の平均
発声長比を求め、該平均発声長比と前記標準発声長との
積の値として規準発声長を求め、該規準発声長に最大及
び最小許容範囲率を乗算して前記最大及び最小許容発声
長を求めるのが好適である。
準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、 該類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識装置の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式において、 文字列毎の平均発声長を予め格納した平均発声長テーブ
ルと、一時記憶装置とを具え、さらに、前記認識部に、 音声標準パタンの単語名を与える文字列を発声して得ら
れた音声パタン、発声長及び該発声長と前記平均発声長
とに基づいて得た発声長比をカテゴリ毎に前記一時記憶
装置に一時的に書込むための書込み手段と、 前記発声長比と前記平均発声長とを用いて最大許容発声
長及び最小許容発声長を求める音声パタン選択規準設定
手段と、 前記最大及び最小許容発声長間の範囲に存在する発声長
に対応する音声パタンを前記一時記憶装置から音声標準
パタン作成のための候補パタンとして選択し出力するた
めの候補パタン選択手段とを設け、 該候補パタンから音声標準パタンを決定して前記標準パ
タン辞書メモリに登録することを特徴とする特 この発明の実施に当り、前記書込み手段は、前記平均発
声長テーブルから読み出した全ての文字列の平均発声長
の和の値として標準発声長を求め、 前記音声パタン選択規準設定手段は、 前記一時記憶装置から読み出した全ての発声長比の平均
発声長比を求め、該平均発声長比と前記標準発声長との
積の値として規準発声長を求め、該規準発声長に最大及
び最小許容範囲率を乗算して前記最大及び最小許容発声
長を求めるのが好適である。
さらに、この発明の実施に当り、前記最大及び最小許容
発声長の範囲にある前記音声パタンか所定の個数になる
まで前記音声パタンの入力処理を繰り返すのが好適であ
る。
発声長の範囲にある前記音声パタンか所定の個数になる
まで前記音声パタンの入力処理を繰り返すのが好適であ
る。
(作用)
上述したこの発明の構成によれば、登録を行う音声標準
パタンの単語名を与える文字列から、予め用意された文
字列毎(音節単位)の平均発声長すなわち平均継続時間
長を格納した平均発声長テーブルを参照して、単語名毎
の標準発声長を算出し、この標準発声長と音声パタンの
発声長との比(発声速度比)規準発声長を設定し、この
規準発声長と著しく異ならない発声長の音声パタンのみ
から音声標準パタンの作成のための候補パタンを選出す
るので、音声パタンの切り出()結果に依存することな
く良好な候補パタンを選択して登録でき、従って精度及
び安定性の高い音声標準パタンの作成を行うことが可能
となる。
パタンの単語名を与える文字列から、予め用意された文
字列毎(音節単位)の平均発声長すなわち平均継続時間
長を格納した平均発声長テーブルを参照して、単語名毎
の標準発声長を算出し、この標準発声長と音声パタンの
発声長との比(発声速度比)規準発声長を設定し、この
規準発声長と著しく異ならない発声長の音声パタンのみ
から音声標準パタンの作成のための候補パタンを選出す
るので、音声パタンの切り出()結果に依存することな
く良好な候補パタンを選択して登録でき、従って精度及
び安定性の高い音声標準パタンの作成を行うことが可能
となる。
(実施例)
以下、図面ヲ参照して、この発明の実施例につき説明す
る。
る。
第1図はこの発明の音声標準パタン登録方式を説明する
ためのブロック図、第3図(A)〜(C)はこの発明の
音声標準パタン登録の動作の手順を説明するための動作
の流れ図である。尚、第1図において、第2図で説明し
た構成成分と同の構成成分については、特に言及する場
合を除き、同一の符号を付して示し、その詳細な説明を
省略する。
ためのブロック図、第3図(A)〜(C)はこの発明の
音声標準パタン登録の動作の手順を説明するための動作
の流れ図である。尚、第1図において、第2図で説明し
た構成成分と同の構成成分については、特に言及する場
合を除き、同一の符号を付して示し、その詳細な説明を
省略する。
先ず、この発明の音声標準パタン登録方式によれば、認
識部には、従来の音声認識機造に追加して、この発明に
よる音声標準パタンの登録処理に必要な、後述する書込
み手段31o、音声パタン選択規準設定手段320及び
選出手段330 %設ける。
識部には、従来の音声認識機造に追加して、この発明に
よる音声標準パタンの登録処理に必要な、後述する書込
み手段31o、音声パタン選択規準設定手段320及び
選出手段330 %設ける。
従って、このような新たな機能をもったこの発明の認識
部を30で示す。
部を30で示す。
さらに、この発明によれば、文字列毎の従って音節単位
の平均発声長を予め格納した平均発声長テーブル32を
この認識部30と情報のやりとりが出来るようにして設
ける。この平均発声長は平均継続時間長ともいい、経験
的に求めることが出来るので、予めこれら平均発声長を
メモリに表として格納し所要に応じ読み出すことが出来
るようにテーブル32として構成しておく。
の平均発声長を予め格納した平均発声長テーブル32を
この認識部30と情報のやりとりが出来るようにして設
ける。この平均発声長は平均継続時間長ともいい、経験
的に求めることが出来るので、予めこれら平均発声長を
メモリに表として格納し所要に応じ読み出すことが出来
るようにテーブル32として構成しておく。
さらに、この認識部30と情報のやりとりが出来るよう
に一時記憶装M(テンポラリ−メモリ)34を設け、こ
れを、音声標準パタンの登録処理時に、マイクロホン1
0からの発声音声入力の音声パタン、発声長及び後述す
る発声長と平均発声長とから得た発声長比を一時的に読
み出し自在に記憶する構成とする。
に一時記憶装M(テンポラリ−メモリ)34を設け、こ
れを、音声標準パタンの登録処理時に、マイクロホン1
0からの発声音声入力の音声パタン、発声長及び後述す
る発声長と平均発声長とから得た発声長比を一時的に読
み出し自在に記憶する構成とする。
ここで、この認識部30に設けた書込み手段310、音
声パタン選択規準設定手段320及び候補パタン選択手
段330につき説明する。書込み手段310は音声標準
パタンの単語名を与える文字列を発声しで得られたカテ
ゴリ毎の音声パタン、及びその発声長を特徴抽出部14
及び音声切り出し部16からの情報から収集し、一時記
憶装置34に書込むと共に、平均発声長テーブル32か
ら読み出した平均発声長と前述の発声長とに基づいて発
声長比を算出しこれを一時記憶装置34へ書込む。音声
パタン選択規準設定手段320は、この発声長比と平均
発声長とをそれぞれ一時記憶装曹34及び平均発声長テ
ーブル32から読み出し、これらを用いて最大許容発声
長と最小許容発声長とを求める。そして、候補パタン選
択手段330は全てのカテゴリの音声パタンの発声長か
最大許容発声長及び最小許容発声長の範囲に含まれるか
否かを判別し、その範囲に含まれる発声長に対応する音
声パタンを峙記憶装言34から読み出して音声標準パタ
ン作成用の候補パタンとし選出する。
声パタン選択規準設定手段320及び候補パタン選択手
段330につき説明する。書込み手段310は音声標準
パタンの単語名を与える文字列を発声しで得られたカテ
ゴリ毎の音声パタン、及びその発声長を特徴抽出部14
及び音声切り出し部16からの情報から収集し、一時記
憶装置34に書込むと共に、平均発声長テーブル32か
ら読み出した平均発声長と前述の発声長とに基づいて発
声長比を算出しこれを一時記憶装置34へ書込む。音声
パタン選択規準設定手段320は、この発声長比と平均
発声長とをそれぞれ一時記憶装曹34及び平均発声長テ
ーブル32から読み出し、これらを用いて最大許容発声
長と最小許容発声長とを求める。そして、候補パタン選
択手段330は全てのカテゴリの音声パタンの発声長か
最大許容発声長及び最小許容発声長の範囲に含まれるか
否かを判別し、その範囲に含まれる発声長に対応する音
声パタンを峙記憶装言34から読み出して音声標準パタ
ン作成用の候補パタンとし選出する。
次に、このような構成による音声認識装置での音声標準
パタンの登録処理につき第1図と第3図(A)〜(C)
とを併用して説明する。尚、処理ステップを記号Sて略
称して示す。
パタンの登録処理につき第1図と第3図(A)〜(C)
とを併用して説明する。尚、処理ステップを記号Sて略
称して示す。
登録処理は大別して次の3つの段階に分けられる。
■音声パタン等の書込み
■音声標準パタン作成用音声パタン選択規準設定
■音声標準パタン作成用の候補パタンの選択である。
〈1〉音声パタン等の書込み(第3図(A) g照)こ
の認識装置を作動させると、先ず、初期化を行い(So
) 、認識装置内の任意好適箇所に設けられた登録カテ
ゴリ信号発声手段36から、自動的に或いは登録しよう
とする話者の指令に従って、登録を行うべきカテゴリ(
カテゴリ番号をiとする)を指定するための登録カテゴ
リ信号が認識部30に入力する。この実施例では、この
信号は書込み手段310に入力しくSl)、この信号に
応答して平均発声長テーブル32からカテゴリiの、音
節単位(文字列毎)の平均継続時間長である全ての平均
発声長を読み出してきて(S2)、この書込み手段31
0において、これら平均発声長の和を算出し、その値を
標準発声長しM (i)とする(S3)。例えば、登録
カテゴリ信号が“ロク”である場合には、標準発声長L
M (1)はLM (i)=LllO+LKIJ・
・ ・ ・ ・ ・ ・ ・ (1)但し、L RO
:音節“口″の平均継続時間長L KLI :音節“り
″の平均継続時間長となる。
の認識装置を作動させると、先ず、初期化を行い(So
) 、認識装置内の任意好適箇所に設けられた登録カテ
ゴリ信号発声手段36から、自動的に或いは登録しよう
とする話者の指令に従って、登録を行うべきカテゴリ(
カテゴリ番号をiとする)を指定するための登録カテゴ
リ信号が認識部30に入力する。この実施例では、この
信号は書込み手段310に入力しくSl)、この信号に
応答して平均発声長テーブル32からカテゴリiの、音
節単位(文字列毎)の平均継続時間長である全ての平均
発声長を読み出してきて(S2)、この書込み手段31
0において、これら平均発声長の和を算出し、その値を
標準発声長しM (i)とする(S3)。例えば、登録
カテゴリ信号が“ロク”である場合には、標準発声長L
M (1)はLM (i)=LllO+LKIJ・
・ ・ ・ ・ ・ ・ ・ (1)但し、L RO
:音節“口″の平均継続時間長L KLI :音節“り
″の平均継続時間長となる。
次に、登録カテゴリ信号発生手段36から図示しでいな
い任意所望の表示手段例えばTVモニタ装曹、音声認識
装置等によって、発声者にこのカテゴリの音声を所定回
数k(この実施例では最大発声回数を自とし、n=3回
)たけ発声するよう指示を与え(S4)、先ず、k=1
と設定する(S5)。これに応答して、先ず、発声者が
このカテゴリの音声を1回発声する。この1回目の発声
に対して、音声入力マイクロホン10、A/D変換部1
2を介して特徴抽出部14(こおいて音声特徴パラメー
タS、P等が抽出される。さらに、この特徴パラメータ
S、P等をもと(こ音声区間切り出し部16において音
声区間か決定される。そして認識部30では得られた音
声パタン5Pb(x)及び発声長り、(i)u収集する
(S6)。続いて、又はこれと同時に発声長比RLh(
i)を求める(S7)。これら音声パタン5Pb(1)
、発声長Lb (1)及び発声長比日Lb (1)
を一時記憶装?1134へ適時に書込んで記憶する(S
8)。
い任意所望の表示手段例えばTVモニタ装曹、音声認識
装置等によって、発声者にこのカテゴリの音声を所定回
数k(この実施例では最大発声回数を自とし、n=3回
)たけ発声するよう指示を与え(S4)、先ず、k=1
と設定する(S5)。これに応答して、先ず、発声者が
このカテゴリの音声を1回発声する。この1回目の発声
に対して、音声入力マイクロホン10、A/D変換部1
2を介して特徴抽出部14(こおいて音声特徴パラメー
タS、P等が抽出される。さらに、この特徴パラメータ
S、P等をもと(こ音声区間切り出し部16において音
声区間か決定される。そして認識部30では得られた音
声パタン5Pb(x)及び発声長り、(i)u収集する
(S6)。続いて、又はこれと同時に発声長比RLh(
i)を求める(S7)。これら音声パタン5Pb(1)
、発声長Lb (1)及び発声長比日Lb (1)
を一時記憶装?1134へ適時に書込んで記憶する(S
8)。
ここで、この実施例では、この発声長比RLk (x)
を前述した標準発声長LM (1)と音声パタンの発
声長Lh (1)との比で、次式の通りに定義する。
を前述した標準発声長LM (1)と音声パタンの発
声長Lh (1)との比で、次式の通りに定義する。
RLk (1)=Lk (1)/LM (1) ・・
・(2)i:カテゴリ番号 :1.2.3(発声回数) 従って、書込み手段310における処理ステップS7に
おいて、平均発声長テーブル32から標準発声長LM
(1)を読み出すと共に、一時記憶装曹34から発声
長Lb (i)を読み出して前述の(2)式に従った
除算を行って発声長比RLm(i)を算出する。これは
、Lb (i)<LM (1)の場合にはRLb
(i)<1となり入力された音声は平均よりも速く発
声されたことを表わし、逆にLb (1)21M
(i)の場合にはRLb(x)≧1となり入力された音
声は平均よりも遅く発声されたことを表わしでいる。
・(2)i:カテゴリ番号 :1.2.3(発声回数) 従って、書込み手段310における処理ステップS7に
おいて、平均発声長テーブル32から標準発声長LM
(1)を読み出すと共に、一時記憶装曹34から発声
長Lb (i)を読み出して前述の(2)式に従った
除算を行って発声長比RLm(i)を算出する。これは
、Lb (i)<LM (1)の場合にはRLb
(i)<1となり入力された音声は平均よりも速く発
声されたことを表わし、逆にLb (1)21M
(i)の場合にはRLb(x)≧1となり入力された音
声は平均よりも遅く発声されたことを表わしでいる。
次に、処理ステップS9においで指定回数たけ処理が終
了しているか否かを判定し、終了していない場合には、
2回目、3回目の発声に対し、同様に処理を行う(Sl
○、81〜S8)。指定回数n=3回目の発声に対する
処理の終了時点て、音声パタンSP+(i)〜5P3(
1)、各々の音声パタンの発声長り、(i)〜L3
(i)及び発声長比臼り、(i)〜R13(1)が一時
記憶装置i34に記憶された状態となる。そして、上述
した処理を登録を行う全てのカテゴリ(この実施例では
N個とする)について終了したか否かを処理ステップS
IOで判定し、未終了のときは各カテゴリについて上述
の処理を行い(S12.81〜S9)、終了していると
きは書込み手段310ての処理を完了する。この完了に
より、最終的に一時記憶装置34には3XN個の音声パ
タンSPk (1)、その音声パタンの発声長Lb
(1)及び発声長比RLb (i)(i=1〜N、に
=1〜3)が記憶された状態にある。
了しているか否かを判定し、終了していない場合には、
2回目、3回目の発声に対し、同様に処理を行う(Sl
○、81〜S8)。指定回数n=3回目の発声に対する
処理の終了時点て、音声パタンSP+(i)〜5P3(
1)、各々の音声パタンの発声長り、(i)〜L3
(i)及び発声長比臼り、(i)〜R13(1)が一時
記憶装置i34に記憶された状態となる。そして、上述
した処理を登録を行う全てのカテゴリ(この実施例では
N個とする)について終了したか否かを処理ステップS
IOで判定し、未終了のときは各カテゴリについて上述
の処理を行い(S12.81〜S9)、終了していると
きは書込み手段310ての処理を完了する。この完了に
より、最終的に一時記憶装置34には3XN個の音声パ
タンSPk (1)、その音声パタンの発声長Lb
(1)及び発声長比RLb (i)(i=1〜N、に
=1〜3)が記憶された状態にある。
<2〉音声標準パタン作成用音声パタン選択規準設定(
第3図(B)参照) 得られた発声長り、(i)、発声長比RL。
第3図(B)参照) 得られた発声長り、(i)、発声長比RL。
(i)@もとにカテゴリ毎に音声標準パタン作成用音声
パタン選択規準を設定する。
パタン選択規準を設定する。
この設定を音声パタン選択規準設定手段320で行う。
先ず、カテゴリi←1、発声回数に←1に設定(S20
)L/た後、一時記憶装置34からカテゴリiの発声長
比RLk (i)を順次読み出し加算し、この処理を全
てのカテゴリN、全ての発声回数nに対して行う(82
2〜525)。次に、この実施例では、平均発声長MR
L8次の(3)式に従って求める(S26)。
)L/た後、一時記憶装置34からカテゴリiの発声長
比RLk (i)を順次読み出し加算し、この処理を全
てのカテゴリN、全ての発声回数nに対して行う(82
2〜525)。次に、この実施例では、平均発声長MR
L8次の(3)式に従って求める(S26)。
次に、この実施例では、登録を行うカテゴリ毎に一時記
憶装置34から標準発声長LM (i)を読み出しく5
28)、規準発声長LS (1)を次式に従って求め
る(S29)処理を行う(827〜531)。
憶装置34から標準発声長LM (i)を読み出しく5
28)、規準発声長LS (1)を次式に従って求め
る(S29)処理を行う(827〜531)。
Ls (j)=MRLxLM (i)・ ・ ・ ・
(4)得られた規準発声長Ls (1)は音声標準パ
タンの作成に用いられる音声パタンすなわち候補パタン
の選択規準となる。この実施例においで、平均発声長比
MRLM用いるのは、発声速度の個人差を考慮するため
であり、発声速度にかかわらず良好な音声パタンを安定
に得られるように図ったものである。
(4)得られた規準発声長Ls (1)は音声標準パ
タンの作成に用いられる音声パタンすなわち候補パタン
の選択規準となる。この実施例においで、平均発声長比
MRLM用いるのは、発声速度の個人差を考慮するため
であり、発声速度にかかわらず良好な音声パタンを安定
に得られるように図ったものである。
次に、カテゴリを1←1と設定しく529)、算出され
た規準発声長Ls (i)Vもとに、カテゴリ毎に音
声標準パタン作成用の候補パタンとして選択するための
最大許容発声長し□、(i)及び最小許容発声長し□、
n (i)を次式に従って求める。
た規準発声長Ls (i)Vもとに、カテゴリ毎に音
声標準パタン作成用の候補パタンとして選択するための
最大許容発声長し□、(i)及び最小許容発声長し□、
n (i)を次式に従って求める。
この場合、S□8及びS4゜は経験的(こ定めた最大許
容範囲率と最小許容範囲率であり、これら最大及び最小
許容範囲率S maX及びS m l nは、音声認識
装置の適当箇所に設けた図示されでいない係数メモリに
予め格納しである。従って、(5)式の計算処理を行う
に当り、この係数メモリからS n1aX % S m
in a読み出しく530)、続いて(4)式で算出し
た規準発声長Ls (i)とから(5)式の計算処理
に従って最大及び最小許容発声長Lmax(1)及びL
o。(i)をそれぞれ求め(S31)、好ましくは、適
当な図示しでいないメモリに記憶する。このような処理
をN個全てのカテゴリについて行って(S32、S33
.531)、終了する。
容範囲率と最小許容範囲率であり、これら最大及び最小
許容範囲率S maX及びS m l nは、音声認識
装置の適当箇所に設けた図示されでいない係数メモリに
予め格納しである。従って、(5)式の計算処理を行う
に当り、この係数メモリからS n1aX % S m
in a読み出しく530)、続いて(4)式で算出し
た規準発声長Ls (i)とから(5)式の計算処理
に従って最大及び最小許容発声長Lmax(1)及びL
o。(i)をそれぞれ求め(S31)、好ましくは、適
当な図示しでいないメモリに記憶する。このような処理
をN個全てのカテゴリについて行って(S32、S33
.531)、終了する。
〈3〉音声標準パタン作成用の候補パタン選択(第3図
(C)参照) カテゴリ毎に音声パタンの発声長Lb (1)を用い
て音声パタンの取捨選択を行い、音声標準パタンを作成
する。このため、この実施例では、ある登録するカテゴ
リにおいて、次の条件を満たす発声長Lb (i)に
対応する音声パタン5Ph(i)!音声標準パタンを作
成用の候補パタンとして選択する。
(C)参照) カテゴリ毎に音声パタンの発声長Lb (1)を用い
て音声パタンの取捨選択を行い、音声標準パタンを作成
する。このため、この実施例では、ある登録するカテゴ
リにおいて、次の条件を満たす発声長Lb (i)に
対応する音声パタン5Ph(i)!音声標準パタンを作
成用の候補パタンとして選択する。
L min (1)≦Lb (i)≦L ma*
(1)・ ・ ・ (6) (k =1.2.3) この候補パタン選択を認識部30の候補パタン選択手段
330で実行するが、その処理につき説明する。先す、
カテゴリをi←]と設定(S40)すると共に、発声回
数の順番をに←1と設定する(S41)。次に、一時記
憶装置34から発声長Lm (1)を読み出しく54
2)、図示されていない前述した適当なメモリから最大
及び最小許容発声長し□。(i)及びL□、o (i)
をそれぞれ読み出す(S43)。続いて、上述の(6)
式を満足するか否か、発声長Lm (i)と最大及び
最小許容発声長Lmax(1)及びLmln (i)
との比較判定を行い(S44)、(6)式を満足する発
声長Lb (i)に対応する音声パタンSP= (
i)を一時記憶装置34から読み出す。この読み出した
音声パタンを候補パタンとする。
(1)・ ・ ・ (6) (k =1.2.3) この候補パタン選択を認識部30の候補パタン選択手段
330で実行するが、その処理につき説明する。先す、
カテゴリをi←]と設定(S40)すると共に、発声回
数の順番をに←1と設定する(S41)。次に、一時記
憶装置34から発声長Lm (1)を読み出しく54
2)、図示されていない前述した適当なメモリから最大
及び最小許容発声長し□。(i)及びL□、o (i)
をそれぞれ読み出す(S43)。続いて、上述の(6)
式を満足するか否か、発声長Lm (i)と最大及び
最小許容発声長Lmax(1)及びLmln (i)
との比較判定を行い(S44)、(6)式を満足する発
声長Lb (i)に対応する音声パタンSP= (
i)を一時記憶装置34から読み出す。この読み出した
音声パタンを候補パタンとする。
続いて、このような処理を全ての発声回数、この場合n
=3回目までの発声の音声パタンにつき実行する(84
2〜846)。次に、もし、(6)式の条件を満たす候
補パタンか]個の場合はその候補パタンSPk (i)
u音声標準パタンとすれば良い(S47.848)。も
し、(6)式の条件を満たす音声パタンか複数個ある場
合は(S46)、選択された候補パタンSPk (x)
の平均化音声標準パタンとする方法、もしくは選択され
た音声パタンの全てを音声標準パタンとするマルチテン
プレート法等の従来よりある手法で音声標準パタンを作
成する(S49)ことも出来、そのための任意好適な手
段を従来と同様に認識部30に設けておけば良い。
=3回目までの発声の音声パタンにつき実行する(84
2〜846)。次に、もし、(6)式の条件を満たす候
補パタンか]個の場合はその候補パタンSPk (i)
u音声標準パタンとすれば良い(S47.848)。も
し、(6)式の条件を満たす音声パタンか複数個ある場
合は(S46)、選択された候補パタンSPk (x)
の平均化音声標準パタンとする方法、もしくは選択され
た音声パタンの全てを音声標準パタンとするマルチテン
プレート法等の従来よりある手法で音声標準パタンを作
成する(S49)ことも出来、そのための任意好適な手
段を従来と同様に認識部30に設けておけば良い。
以上述べた処理を登録を行うカテゴリ毎に行う(S50
,551)。
,551)。
こうして求めた音声標準パタンは、音声標準パタン辞書
メモリ206に記憶される(848.549)。
メモリ206に記憶される(848.549)。
この発明は上述した実施例にのみ限定されるものではな
く、多くの変形又は変更をなし得ることか出来る。例え
ば、上述し1と実施例では3回の発声によって標準パタ
ン作成用の候補パタンを得ているが、4回以上の任意の
回数たけ発声させても良い。又、上述した実施例ではこ
の種の製雪に設けられる常套手段については言及しでい
ないが、これら手段は、当然に具えているものとする。
く、多くの変形又は変更をなし得ることか出来る。例え
ば、上述し1と実施例では3回の発声によって標準パタ
ン作成用の候補パタンを得ているが、4回以上の任意の
回数たけ発声させても良い。又、上述した実施例ではこ
の種の製雪に設けられる常套手段については言及しでい
ないが、これら手段は、当然に具えているものとする。
(発明の効果)
上述した説明からも明らかなように、この発明において
は音声標準パタン作成用の音声パタンの取捨選択の規準
値を、登録尽行う音声標準パタンの単語名を与える文字
列から平均発声長テーブルヲ参照して算出し1.:標準
発声長に話者の発声速度を補正して設定している。
は音声標準パタン作成用の音声パタンの取捨選択の規準
値を、登録尽行う音声標準パタンの単語名を与える文字
列から平均発声長テーブルヲ参照して算出し1.:標準
発声長に話者の発声速度を補正して設定している。
従って、切り出し結果に依存されず良好な音声パタンか
安定して音声標準パタン作成用としで選択され、精度及
び安定性の良い音声標準パタンか作成出来、認識性能が
向上する。
安定して音声標準パタン作成用としで選択され、精度及
び安定性の良い音声標準パタンか作成出来、認識性能が
向上する。
第1図はこの発明の音声標準パタン登録方式の実施例の
説明に供するブロック図、 第2図は従来の音声標準パタン登録方式の説明に供する
ブロック図、 第3図はこの発明の登録処理手順の説明に供する動作の
流れ図である。 10、外部音声入力装置、12: A/D変換部14、
特徴抽出部、 16:音声切り出し部20 標準
パタン辞書メモリ 22 認識結果出力部、 24:外部機器30・認識
部、 32.平均発声長テーブル34ニー時記
憶装曹 36:登録カテゴリ信号発生手段 310:書込み手段 320、音声パタン選択規準設定手段 330・候補パタン選択手段。
説明に供するブロック図、 第2図は従来の音声標準パタン登録方式の説明に供する
ブロック図、 第3図はこの発明の登録処理手順の説明に供する動作の
流れ図である。 10、外部音声入力装置、12: A/D変換部14、
特徴抽出部、 16:音声切り出し部20 標準
パタン辞書メモリ 22 認識結果出力部、 24:外部機器30・認識
部、 32.平均発声長テーブル34ニー時記
憶装曹 36:登録カテゴリ信号発生手段 310:書込み手段 320、音声パタン選択規準設定手段 330・候補パタン選択手段。
Claims (3)
- (1)音声標準パタンを読み出し自在に登録しておくた
めの標準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、 該類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識装置の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式において、 文字列毎の平均発声長を予め格納した平均発声長テーブ
ルと、一時記憶装置とを具え、 さらに、前記認識部に、 音声標準パタンの単語名を与える文字列を発声して得ら
れた音声パタン、発声長及び該発声長と前記平均発声長
とに基づいて得た発声長比をカテゴリ毎に前記一時記憶
装置に一時的に書込むための書込み手段と、 前記発声長比と前記平均発声長とを用いて最大許容発声
長及び最小許容発声長を求める音声パタン選択規準設定
手段と、 前記最大及び最小許容発声長間の範囲に存在する発声長
に対応する音声パタンを前記一時記憶装置から音声標準
パタン作成のための候補パタンとして選択し出力するた
めの候補パタン選択手段とを設け、 該候補パタンから音声標準パタンを決定して前記標準パ
タン辞書メモリに登録することを特徴とする音声標準パ
タン登録方式。 - (2)請求項1記載の音声標準パタン登録方式において
、 前記書込み手段は、前記平均発声長テーブルから読み出
した全ての文字列の平均発声長の和の値として標準発声
長を求め、 前記音声パタン選択規準設定手段は、 前記一時記憶装置から読み出した全ての発声長比の平均
発声長比を求め、該平均発声長比と前記標準発声長との
積の値として規準発声長を求め、該規準発声長に最大及
び最小許容範囲率を乗算して前記最大及び最小許容発声
長を求める ことを特徴とする音声標準パタン登録方式。 - (3)請求項1又は2記載の音声標準パタン登録方式に
おいて、 前記最大及び最小許容発声長の範囲にある前記音声パタ
ンが所定の個数になるまで前記音声パタンの入力処理を
繰り返すことを特徴とする音声標準パタン登録方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63272487A JPH02118696A (ja) | 1988-10-28 | 1988-10-28 | 音声標準パタン登録方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63272487A JPH02118696A (ja) | 1988-10-28 | 1988-10-28 | 音声標準パタン登録方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02118696A true JPH02118696A (ja) | 1990-05-02 |
Family
ID=17514609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63272487A Pending JPH02118696A (ja) | 1988-10-28 | 1988-10-28 | 音声標準パタン登録方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02118696A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0530126A (ja) * | 1991-07-22 | 1993-02-05 | Mitsubishi Electric Corp | データ送信タイミング自動設定方式 |
-
1988
- 1988-10-28 JP JP63272487A patent/JPH02118696A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0530126A (ja) * | 1991-07-22 | 1993-02-05 | Mitsubishi Electric Corp | データ送信タイミング自動設定方式 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5268990A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
JP2694062B2 (ja) | 多辺マルコフで単語をモデル化する方法と装置 | |
JPH073640B2 (ja) | 音声パタンテンプレ−トを発生する装置及び方法 | |
JP2010060850A (ja) | 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム | |
JP2016186515A (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
WO2020185407A1 (en) | Characterizing accuracy of ensemble models for automatic speech recognition | |
WO2022227935A1 (zh) | 语音识别方法、装置、设备、存储介质及程序产品 | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
ES2245418T3 (es) | Procedimiento para la creacion de segmentos de referencia que describen modulos de voz y procedimiento para la modelizacion de unidades de voz de un modelo de prueba de voz. | |
US11024315B2 (en) | Characterizing accuracy of ensemble models for automatic speech recognition | |
JPH02118696A (ja) | 音声標準パタン登録方式 | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
CN112820281A (zh) | 一种语音识别方法、装置及设备 | |
JPH02118697A (ja) | 音声標準パタン登録方式 | |
US6934680B2 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
RU2119196C1 (ru) | Способ лексической интерпретации слитной речи и система для его реализации | |
US20230223032A1 (en) | Method and apparatus for reconstructing voice conversation | |
WO2021245771A1 (ja) | 学習データ生成装置、モデル学習装置、学習データ生成方法、モデル学習方法、およびプログラム | |
KR100275446B1 (ko) | 음소 인식률을 이용한 기본 음소 설정 방법 | |
JP2912513B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JP3316352B2 (ja) | 音声認識方法 | |
KR20240060961A (ko) | 음성 데이터 생성 방법, 음성 데이터 생성 장치 및 컴퓨터로 판독 가능한 기록 매체 | |
JP5331657B2 (ja) | 音声シナリオ設定プログラム及び音声シナリオ設定装置 |