JPH02127697A - 音声標準パタン登録方式 - Google Patents
音声標準パタン登録方式Info
- Publication number
- JPH02127697A JPH02127697A JP63282132A JP28213288A JPH02127697A JP H02127697 A JPH02127697 A JP H02127697A JP 63282132 A JP63282132 A JP 63282132A JP 28213288 A JP28213288 A JP 28213288A JP H02127697 A JPH02127697 A JP H02127697A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- feature
- patterns
- standard
- defective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002950 deficient Effects 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims description 51
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は、音声認識装置における音声標準パタン登録
方式、特に音声標準パタン作成用の候補パタンを取捨選
択するための標準パタンセットの作成方式に関するもの
である。
方式、特に音声標準パタン作成用の候補パタンを取捨選
択するための標準パタンセットの作成方式に関するもの
である。
(従来の技術)
音声認識装置はコンピュータ、その他の種々の外部機器
の有力な入力装置として利用され始めており、そのため
、種々の開発が進められている。
の有力な入力装置として利用され始めており、そのため
、種々の開発が進められている。
第2図は従来の音声認識装置の典型例を示すブロック図
である。先ず、この発明の理解を容易にするためこの従
来装置の認識処理及び音声標準パタン登録処理につき簡
単に説明する。
である。先ず、この発明の理解を容易にするためこの従
来装置の認識処理及び音声標準パタン登録処理につき簡
単に説明する。
先ず、認識処理動作を説明する。使用する話者の発声し
た音声をマイクロホン等の外部音声入力装置10によっ
て取り込み、このアナログ入力音声%A/D変換部12
においてディジタル音声信号に変換し、特徴抽出部14
においでこの音声信号から音声の特徴パラメータを抽出
しこれを音声切り出し部16及び認識部18へそれぞれ
出力する0通常、特徴パラメータとして、フレームと称
される一定時間間隔で、スペクトル成分Sと対数パワー
P等を抽出する。そして、音声切り出し部16において
、この抽出した特徴パラメータの時間変化から音声区間
を判定して認識部18へ送る。
た音声をマイクロホン等の外部音声入力装置10によっ
て取り込み、このアナログ入力音声%A/D変換部12
においてディジタル音声信号に変換し、特徴抽出部14
においでこの音声信号から音声の特徴パラメータを抽出
しこれを音声切り出し部16及び認識部18へそれぞれ
出力する0通常、特徴パラメータとして、フレームと称
される一定時間間隔で、スペクトル成分Sと対数パワー
P等を抽出する。そして、音声切り出し部16において
、この抽出した特徴パラメータの時間変化から音声区間
を判定して認識部18へ送る。
この認識部1日において音声区間の周波数成分S及び対
数パワーPの系列ずなわち特徴パラメータ系列である音
声パタンを特徴パタンとしで求め、この特徴パタンと予
め音声標準パタンメモリ20に登録されでいる標準パタ
ンを読み出してきで特徴パタンとこの標準パタンとの類
似度を求めで、最大類似度を有する標準パタンの属する
カテゴリを認識判定する。そして、認識結果出力部22
から認識結果としての当該標準パタンのカテゴリの番号
を外部機器24へ出力し、その後の所望の処理に供せし
める構成となっている。
数パワーPの系列ずなわち特徴パラメータ系列である音
声パタンを特徴パタンとしで求め、この特徴パタンと予
め音声標準パタンメモリ20に登録されでいる標準パタ
ンを読み出してきで特徴パタンとこの標準パタンとの類
似度を求めで、最大類似度を有する標準パタンの属する
カテゴリを認識判定する。そして、認識結果出力部22
から認識結果としての当該標準パタンのカテゴリの番号
を外部機器24へ出力し、その後の所望の処理に供せし
める構成となっている。
このような認識方法では、どのような発声を音声標準パ
タンとして登録するかが認識性能を左右する。
タンとして登録するかが認識性能を左右する。
次に、この従来の登録処理動作につき説明する。
一般に標準パタン登録方法としては、話者に指示を与え
て同一カテゴリの音声を複数回発声させ、これら発声音
声から、音声標準パタン作成のための特徴パタンセット
を作成し、この特徴パタンセットを構成する全ての特徴
パタンを音声標準パタンとして登録したつする技術、こ
の特徴パタンセットの中から一つ又はいくつがの特徴パ
タンを適当な規準を設けて取捨選択し、選択されたパタ
ンの音声長(音声区間)間の平均化等を行い、平均音声
長に該当する音声パタンを標準パタンとしで登録する技
術、或いは、マルチテンプレート法、その他の技術等が
ある。いずれにしても、音声認識において標準パタンを
作成する際には認識の基準となる音声を発声し、その特
徴を数値化して音声の特徴パタンとし、これを標準パタ
ンとして保存する必要がある。
て同一カテゴリの音声を複数回発声させ、これら発声音
声から、音声標準パタン作成のための特徴パタンセット
を作成し、この特徴パタンセットを構成する全ての特徴
パタンを音声標準パタンとして登録したつする技術、こ
の特徴パタンセットの中から一つ又はいくつがの特徴パ
タンを適当な規準を設けて取捨選択し、選択されたパタ
ンの音声長(音声区間)間の平均化等を行い、平均音声
長に該当する音声パタンを標準パタンとしで登録する技
術、或いは、マルチテンプレート法、その他の技術等が
ある。いずれにしても、音声認識において標準パタンを
作成する際には認識の基準となる音声を発声し、その特
徴を数値化して音声の特徴パタンとし、これを標準パタ
ンとして保存する必要がある。
このような特徴パタンを作成するには、通常は次のよう
にしで行っていた。
にしで行っていた。
まずはじめにマイクロホン10から得られた入力音声の
波形をA/D変換部12で数値化する。ここではサンプ
リング周波数10kHzで8bitの量子化を行ってい
る。特徴抽出部14においでこの波形データに対し、1
/4オクタ一ブ間隔、16チヤネル、Q=6の単共振デ
ィジタルバンドパスフィルタによる帯域分割を行い、3
00Hzから4kHzの周波数成分に分割する。各チャ
ネルにおいで、その波形の絶対債を128点ずつ加算し
、12.8m5ec!単位としたフレーム内でのスペク
トル強度を得る。16チヤネル分の強度を1つのセット
として、入力フレームデータと称する。認識部18にお
いて、この入力フレームデータを用い、たとえば、特開
昭62−159195において提案されている技術によ
り音声の特徴パタンを作成する。特徴パタンは音声認識
の際に用いる特徴量であればどのようなものであっても
よい。
波形をA/D変換部12で数値化する。ここではサンプ
リング周波数10kHzで8bitの量子化を行ってい
る。特徴抽出部14においでこの波形データに対し、1
/4オクタ一ブ間隔、16チヤネル、Q=6の単共振デ
ィジタルバンドパスフィルタによる帯域分割を行い、3
00Hzから4kHzの周波数成分に分割する。各チャ
ネルにおいで、その波形の絶対債を128点ずつ加算し
、12.8m5ec!単位としたフレーム内でのスペク
トル強度を得る。16チヤネル分の強度を1つのセット
として、入力フレームデータと称する。認識部18にお
いて、この入力フレームデータを用い、たとえば、特開
昭62−159195において提案されている技術によ
り音声の特徴パタンを作成する。特徴パタンは音声認識
の際に用いる特徴量であればどのようなものであっても
よい。
標準パタンの作成法としてここではまず、1種類の単語
当り複数回例えば3回の登録発声を行い、複数個、この
場合3つの特徴パタンを標準パタンとして得る。このよ
うな操作を単語の全種類にわたって行うことにより、−
単語のfi類WNとすると3N個の特徴パタンか得られ
る。これをここでは初期標準パタンセットと称する。
当り複数回例えば3回の登録発声を行い、複数個、この
場合3つの特徴パタンを標準パタンとして得る。このよ
うな操作を単語の全種類にわたって行うことにより、−
単語のfi類WNとすると3N個の特徴パタンか得られ
る。これをここでは初期標準パタンセットと称する。
(発明が解決しようとする課題)
しかしながら、このような従来の音声標準パタンの登録
技術では、話者に対して指示した単語が指示どおりに発
声されていることを前提にしでおり、読みや発声の誤り
、音声以外の音が入力された場合でも指示した単語が発
声されたとしで、音声の標準パタンの作成が行われでい
た。従って、例えば発声者のRfi発声の際に言い誤り
、或いは雑音の混入などによって、登録すべき音声以外
の音の特徴パタン(ここでは不良特徴パタンと称する)
が生したとする。この場合の単語の特徴空間内での各特
徴パタンの配置は、例えば第3図のようになる。ここで
、n番目の単語のi番目の登録発声の特徴パタンをP、
、lとする。また、登録発声が正常に行われた場合には
特徴パタンP、、Iはそれぞれ特徴空間内のC,、の範
囲内に納まるとする。
技術では、話者に対して指示した単語が指示どおりに発
声されていることを前提にしでおり、読みや発声の誤り
、音声以外の音が入力された場合でも指示した単語が発
声されたとしで、音声の標準パタンの作成が行われでい
た。従って、例えば発声者のRfi発声の際に言い誤り
、或いは雑音の混入などによって、登録すべき音声以外
の音の特徴パタン(ここでは不良特徴パタンと称する)
が生したとする。この場合の単語の特徴空間内での各特
徴パタンの配置は、例えば第3図のようになる。ここで
、n番目の単語のi番目の登録発声の特徴パタンをP、
、lとする。また、登録発声が正常に行われた場合には
特徴パタンP、、Iはそれぞれ特徴空間内のC,、の範
囲内に納まるとする。
例えば、不良特徴パタンP3□か生じた場合には、従来
技術ではその音の特徴を用いて音声標準パタンが作成さ
れるために、音声標準パタンの質を悪くし、音声認識の
際に認識率を悪くする原因となる不良特徴パタンP3□
が音声標準パタンの決定に用いられでしまうという問題
があった。
技術ではその音の特徴を用いて音声標準パタンが作成さ
れるために、音声標準パタンの質を悪くし、音声認識の
際に認識率を悪くする原因となる不良特徴パタンP3□
が音声標準パタンの決定に用いられでしまうという問題
があった。
このような質の悪い音声標準パタンの登録を回避し、音
声認識の際の認識率の低下を図るためには、前述したよ
うな不良特徴パタンを用いず、新たに単語名C3の登録
発声を要求し、正常な特徴パタンP゛、2を得ることに
よって良好な標準パタンセットを作成すればよい。
声認識の際の認識率の低下を図るためには、前述したよ
うな不良特徴パタンを用いず、新たに単語名C3の登録
発声を要求し、正常な特徴パタンP゛、2を得ることに
よって良好な標準パタンセットを作成すればよい。
この発明の目的は以上述べた音声の標準パタンとしての
登録の際の言い誤り、雑音の混入などによる標準パタン
の悪化を防ぎ、認識率の高い音声認識を可能とする音声
の登録方式を提供することにある。
登録の際の言い誤り、雑音の混入などによる標準パタン
の悪化を防ぎ、認識率の高い音声認識を可能とする音声
の登録方式を提供することにある。
(課題を解決するための手段)
この目的の達成を図るため、この発明によれば、
音声標準パタンを読み出し自在に登録しておく1、:め
の標準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、 腿類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識製画の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式においで、 前記認識部に、 登録したい複数の単語名を1fi類当り複数回発声しC
得られた名々の入力音声の特徴パタンを標準パタンとし
て収集して初期標準パタンセットを形成する処理を実行
する初期標準パタンセット作成手段と、 前記初期標準パタンセット中のある1つの特徴パタンに
対する他の特徴パタンの距離を全て計算し、最も距離の
短い特徴パタンか同一種類の単語名でない場合にこの特
徴パタンを不良特徴パタンと判定する処理を全特徴パタ
ンに対しで実行するための不良特徴パタン判定手段と、 前記不良特徴パタンの単語名についで初期標準パタンセ
ットの作成及び不良特徴パタン判定についての処理を不
良特徴パタンか無くなるまで繰り返し実行させるための
再登録操作手段とを設け、 得られた良好な特徴パタンがら成る標準パタンセットに
基づいて得た音声標準パタンを前記標準パタン辞書メモ
リに登録することを特徴とする3(作用) 上述したこの発明の構成によれば、音声認識における標
準パタン登録方式において、単語音声を1種類当り2回
収上発声し、各々の発声の音声としての特徴を表現する
パタン(以降特徴パタンと称する)を標準パタンとして
登録・保存するような場合を考える。まず、話者に登録
しようとする単語名を1種類当つ複数回発声させる指示
を与え、1回の発声毎にその単語発声音から、認識部に
設けた初期標準パタンセット作成手段により、特徴パタ
ンを収集し、指定されたN個全ての種頚の単語について
指定された■回合ての発声回数についてのNI個の特徴
パタンを1セツトとして初期標準パタンを認識部中に設
けた或いは認識部外に設けた適当なメモリに格納する。
の標準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、 腿類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識製画の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式においで、 前記認識部に、 登録したい複数の単語名を1fi類当り複数回発声しC
得られた名々の入力音声の特徴パタンを標準パタンとし
て収集して初期標準パタンセットを形成する処理を実行
する初期標準パタンセット作成手段と、 前記初期標準パタンセット中のある1つの特徴パタンに
対する他の特徴パタンの距離を全て計算し、最も距離の
短い特徴パタンか同一種類の単語名でない場合にこの特
徴パタンを不良特徴パタンと判定する処理を全特徴パタ
ンに対しで実行するための不良特徴パタン判定手段と、 前記不良特徴パタンの単語名についで初期標準パタンセ
ットの作成及び不良特徴パタン判定についての処理を不
良特徴パタンか無くなるまで繰り返し実行させるための
再登録操作手段とを設け、 得られた良好な特徴パタンがら成る標準パタンセットに
基づいて得た音声標準パタンを前記標準パタン辞書メモ
リに登録することを特徴とする3(作用) 上述したこの発明の構成によれば、音声認識における標
準パタン登録方式において、単語音声を1種類当り2回
収上発声し、各々の発声の音声としての特徴を表現する
パタン(以降特徴パタンと称する)を標準パタンとして
登録・保存するような場合を考える。まず、話者に登録
しようとする単語名を1種類当つ複数回発声させる指示
を与え、1回の発声毎にその単語発声音から、認識部に
設けた初期標準パタンセット作成手段により、特徴パタ
ンを収集し、指定されたN個全ての種頚の単語について
指定された■回合ての発声回数についてのNI個の特徴
パタンを1セツトとして初期標準パタンを認識部中に設
けた或いは認識部外に設けた適当なメモリに格納する。
次に、不良特徴パタン判定手段により、この初期標準パ
タンセット中のあるひとつの特徴パタンに対する他の特
徴パタンの距離を全て計算し、最も距離の小さい特徴パ
タンか同一種類の単語ではない場合にこの特徴パタンを
不良特徴パタンと判定する。また、一種類の単語中の不
良特徴パタンの割合が半分以上となるような場合には、
この単語に含まれる特徴パタンを全で不良特徴パタンと
判定する。
タンセット中のあるひとつの特徴パタンに対する他の特
徴パタンの距離を全て計算し、最も距離の小さい特徴パ
タンか同一種類の単語ではない場合にこの特徴パタンを
不良特徴パタンと判定する。また、一種類の単語中の不
良特徴パタンの割合が半分以上となるような場合には、
この単語に含まれる特徴パタンを全で不良特徴パタンと
判定する。
全での単語の全ての特徴パタンについて不良特徴パタン
かどうかを判定し、不良特徴パタンとなったものについ
ては、再登録操作手段によって、対応する単語名の再発
声を話者に指示して初期標準パタンの作成と不良特徴パ
タンの判定と処理等の登録操作を再度行う。以上の操作
を不良特徴パタンか無くなるまで繰り返し行う。
かどうかを判定し、不良特徴パタンとなったものについ
ては、再登録操作手段によって、対応する単語名の再発
声を話者に指示して初期標準パタンの作成と不良特徴パ
タンの判定と処理等の登録操作を再度行う。以上の操作
を不良特徴パタンか無くなるまで繰り返し行う。
このように、この発明の方式によれば、不良特徴パタン
を検出したとき再登録操作を実行する構成となっている
ので、最終的に良好な特徴パタンかう成る標準パタンセ
ットを得る。このような良好な標準パタンセットの特徴
パタンの中から従来と同様に候補パタンを選別して音声
標準パタンを決定しこれを標準パタン辞書メモリに格納
するので、音声認識の際の認識率が向上する。
を検出したとき再登録操作を実行する構成となっている
ので、最終的に良好な特徴パタンかう成る標準パタンセ
ットを得る。このような良好な標準パタンセットの特徴
パタンの中から従来と同様に候補パタンを選別して音声
標準パタンを決定しこれを標準パタン辞書メモリに格納
するので、音声認識の際の認識率が向上する。
(実施例)
以下、図面を参照して、この発明の実施例につき説明す
る。
る。
第1図はこの発明の音声標準パタン登録方式の一実施例
を説明するためのブロック図、第4図はこの発明の登録
方式を実行する手順を示す動作の流れ図である。第4図
(A)は初期標準パタンセットの作成、第4図(B)は
不良特徴パタンの判定及び第4図(C)は再登録操作の
各処理の動作の流れ図である。尚、第1図にあいで、第
2図で説明した構成成分と同一の構成成分についでは、
特に言及する場合を除き、同一の符号を付しで示し、そ
の詳細な説明を省略する。
を説明するためのブロック図、第4図はこの発明の登録
方式を実行する手順を示す動作の流れ図である。第4図
(A)は初期標準パタンセットの作成、第4図(B)は
不良特徴パタンの判定及び第4図(C)は再登録操作の
各処理の動作の流れ図である。尚、第1図にあいで、第
2図で説明した構成成分と同一の構成成分についでは、
特に言及する場合を除き、同一の符号を付しで示し、そ
の詳細な説明を省略する。
この発明の音声標準パタン登録方式によれば、認識部に
初期標準パタンセット作成手段310、不良特徴パタン
判定手段320及び再登録操作手段330ヲ、従来の音
声認識機能に追加して設ける。
初期標準パタンセット作成手段310、不良特徴パタン
判定手段320及び再登録操作手段330ヲ、従来の音
声認識機能に追加して設ける。
従って、このような新たな機能をもったこの発明の認識
部を30で示す。
部を30で示す。
この認識部30に設けた初期標準パタンセット作成手段
310は、登録したい複数の単語名を1種類当つ、すな
わち同一カテゴリ毎に、複数回発声して得られた各々の
入力音声の特徴パタンを標準パタンとして収集して特徴
パタンの初期セットを形成する。この特徴パタンの初期
セラ1〜を初期標準パタンセットとする。
310は、登録したい複数の単語名を1種類当つ、すな
わち同一カテゴリ毎に、複数回発声して得られた各々の
入力音声の特徴パタンを標準パタンとして収集して特徴
パタンの初期セットを形成する。この特徴パタンの初期
セラ1〜を初期標準パタンセットとする。
不良特徴パタン判定手段320は、この初期標準パタン
セット中のある1つの特徴パタンに注目し、この注目し
た特徴パタンと他の全ての特徴パタンとの距離計算を行
って、最も距離の短い特徴パタンを選び、当該最短距離
の特徴パタンか前述の注目した特徴パタンと同一種類の
単語名でない場合には、この注目した特徴パタンを不良
特徴パタンと判定する。この処理を全ての特徴パタンに
注目して行う。
セット中のある1つの特徴パタンに注目し、この注目し
た特徴パタンと他の全ての特徴パタンとの距離計算を行
って、最も距離の短い特徴パタンを選び、当該最短距離
の特徴パタンか前述の注目した特徴パタンと同一種類の
単語名でない場合には、この注目した特徴パタンを不良
特徴パタンと判定する。この処理を全ての特徴パタンに
注目して行う。
再登録操作手段330は前述した判定処理で不良特徴パ
タンと判定された単語名について、再び話者に当該単語
名の発声を要請し、前述した初期標準パタンセットの作
成及び不良特徴パタンの判定の処理を、不良特徴パタン
か無くなるまで、繰り返し実行させる。
タンと判定された単語名について、再び話者に当該単語
名の発声を要請し、前述した初期標準パタンセットの作
成及び不良特徴パタンの判定の処理を、不良特徴パタン
か無くなるまで、繰り返し実行させる。
以下、第1図及び第4図(A)〜(C)を参照しで、こ
の発明の音声標準パタンB録方式に従って、初期標準パ
タンセットを作成し、不良特徴パタンを検出し、再登録
操作によって最終的に良好な標準パタンセットを得るま
での処理手順の一実施例につぎ説明する。尚、第4図(
A)、第4図(B)及び(C)において、処理ステップ
tSで表わし、又、図中、■、■及び■は動作の続き関
係をそれぞれ示ず。
の発明の音声標準パタンB録方式に従って、初期標準パ
タンセットを作成し、不良特徴パタンを検出し、再登録
操作によって最終的に良好な標準パタンセットを得るま
での処理手順の一実施例につぎ説明する。尚、第4図(
A)、第4図(B)及び(C)において、処理ステップ
tSで表わし、又、図中、■、■及び■は動作の続き関
係をそれぞれ示ず。
く初期標準パタンセット作成手段〉
処理はまず、初期標準パタンセットのなかのどの特徴パ
タンを作成するかを定めるn及びitlに初期化するこ
とから始める(Sl)。次に、n番目の単語名C1の登
録発声を登録話者に対しで要求し、発声を促す(S2)
。尚、この実施例では単語のt!類をNとし、1単語当
りの発声回数を3回とする。この発声により外部音声入
力表M10、A/D変換部12を経て特徴抽出部14及
び音声切り出し部16のそれぞれからの単語音声の入力
を受ける(S3)。これらの入力を受けて、この初期標
準パタンセット作成手段310は、例えば本出願人によ
る先の出順(特開昭62−211698)において提案
されでいる方法により、単語音声区間の検出を開始する
。この単語音声区間内の入力フレームデークに対し、例
えば先に記載した(特開昭62−159195)におい
で提案されている方法によって特徴パタンを作成し、P
nlとして記憶する(S4)、そして、同一単語での発
声回数をカウントするiに対して1を加え(S5)、発
声回数である3と比較しくS6)、3以下であれば同一
の単語名に対する登録発声の要求(S2)に戻る。もし
も3より大きければ、n番目の単語名C,,に対する登
録発声は終了したので、iを1に戻し、nに1を加える
(S7)、最少にnと単語数Nとを比較し、n≦Nなら
ば登録発声の要求(S2)に戻る(S8)、逆にn>N
ならば初期標準パタンセット−の作成が終了したので、
第4図(8)の不良特徴パタン判定手段320での処理
へ移る。
タンを作成するかを定めるn及びitlに初期化するこ
とから始める(Sl)。次に、n番目の単語名C1の登
録発声を登録話者に対しで要求し、発声を促す(S2)
。尚、この実施例では単語のt!類をNとし、1単語当
りの発声回数を3回とする。この発声により外部音声入
力表M10、A/D変換部12を経て特徴抽出部14及
び音声切り出し部16のそれぞれからの単語音声の入力
を受ける(S3)。これらの入力を受けて、この初期標
準パタンセット作成手段310は、例えば本出願人によ
る先の出順(特開昭62−211698)において提案
されでいる方法により、単語音声区間の検出を開始する
。この単語音声区間内の入力フレームデークに対し、例
えば先に記載した(特開昭62−159195)におい
で提案されている方法によって特徴パタンを作成し、P
nlとして記憶する(S4)、そして、同一単語での発
声回数をカウントするiに対して1を加え(S5)、発
声回数である3と比較しくS6)、3以下であれば同一
の単語名に対する登録発声の要求(S2)に戻る。もし
も3より大きければ、n番目の単語名C,,に対する登
録発声は終了したので、iを1に戻し、nに1を加える
(S7)、最少にnと単語数Nとを比較し、n≦Nなら
ば登録発声の要求(S2)に戻る(S8)、逆にn>N
ならば初期標準パタンセット−の作成が終了したので、
第4図(8)の不良特徴パタン判定手段320での処理
へ移る。
く不良特徴パタン判定手段〉
不良特徴パタンの判定処理に入ると、まず、判定を行う
べき単語名の番号nilとし、総不良特′徴パタンの数
BをOとする(S9)、次に、いま着目しているn番目
の単語に対する不良特徴パタンの数Aを0とする(SI
O)、ざらに、この単語内で着目すべき発声回数の番号
iを1とする。
べき単語名の番号nilとし、総不良特′徴パタンの数
BをOとする(S9)、次に、いま着目しているn番目
の単語に対する不良特徴パタンの数Aを0とする(SI
O)、ざらに、この単語内で着目すべき発声回数の番号
iを1とする。
ここで、判定の対象となる特徴パタンの単語番号nと発
声回数iが定まったので、特徴パタンP。
声回数iが定まったので、特徴パタンP。
が不良特徴パタンであるがどうかの判定を行う。
特徴パタンPnlともう1つの特徴パタンP、、(ただ
し、x=1.2、・・・ N:V=1.2.3 ; n
#xまたはi≠y)との間の距離n l D x yを
全てのx、yの組合せに対しで求める。特徴パタン間の
距離は、例えば特開昭62−73299に開示される線
形伸縮によるパタンマツチングや、特開昭62−73.
298に開示される動的計画法によるパタンマツチジグ
により計算する(S11)。次に、処理ステップS11
で求めた距離、、lD、、vのうち、最小のもののx、
y%それぞれX、Yとする(S 12) 、そして、X
とnとを比較しくS 13) 、もしも一致していなけ
れば、Pnlは単語名C0以外の単語名の特徴パタンと
最も距離が近いので、不良特徴パタンと判定し、不良特
徴パタン数Aに1を加える(S 14) 、もしもこの
処理ステップS14でXとnが一致しでいれば、Pni
は不良特徴パタンではないので、次の処理ステップへ実
行を移す。ここで次のパタンを判定の対象とするため、
iに1を加える(S15)。もしもiが3以下ならば同
じ単語名C,。
し、x=1.2、・・・ N:V=1.2.3 ; n
#xまたはi≠y)との間の距離n l D x yを
全てのx、yの組合せに対しで求める。特徴パタン間の
距離は、例えば特開昭62−73299に開示される線
形伸縮によるパタンマツチングや、特開昭62−73.
298に開示される動的計画法によるパタンマツチジグ
により計算する(S11)。次に、処理ステップS11
で求めた距離、、lD、、vのうち、最小のもののx、
y%それぞれX、Yとする(S 12) 、そして、X
とnとを比較しくS 13) 、もしも一致していなけ
れば、Pnlは単語名C0以外の単語名の特徴パタンと
最も距離が近いので、不良特徴パタンと判定し、不良特
徴パタン数Aに1を加える(S 14) 、もしもこの
処理ステップS14でXとnが一致しでいれば、Pni
は不良特徴パタンではないので、次の処理ステップへ実
行を移す。ここで次のパタンを判定の対象とするため、
iに1を加える(S15)。もしもiが3以下ならば同
じ単語名C,。
の次の発声の特徴パタンに対する判定(Sll)〜(S
14)に戻り、iが3よりも大きければ、処理ステッ
プS17に移る(S 16)。処理ステップS17では
n番目の単語に対する不良特徴パタン数Aと1単語当り
の特徴パタン数(実施例では3)に対する過半数の2と
を比較し、Aが2以上であれば、次の処理ステップS1
8に移り、このn番目の単語の特徴パタンは全て不良特
徴パタンであるとして、全てのiに対するP0□を不良
特徴パタンと判定し、不良特徴パタン数Aを3とする。
14)に戻り、iが3よりも大きければ、処理ステッ
プS17に移る(S 16)。処理ステップS17では
n番目の単語に対する不良特徴パタン数Aと1単語当り
の特徴パタン数(実施例では3)に対する過半数の2と
を比較し、Aが2以上であれば、次の処理ステップS1
8に移り、このn番目の単語の特徴パタンは全て不良特
徴パタンであるとして、全てのiに対するP0□を不良
特徴パタンと判定し、不良特徴パタン数Aを3とする。
ここで、n番目の単語に対する不良特徴パタンの判定が
おわったので、総不良特徴パタン数−Bにn番目の単語
の不良特徴パタン数Aを加え、ざらに次の単語名の特徴
パタンを判定の対象とするためにrlに1を加え、次の
処理ステップへ移る(S 19) 、このnと単語数N
との比較処理を行い(S20)、nが単語数N以下なら
ば、処理ステップ(SIO)へ戻り、単語名C1の3つ
の特徴パタンについての判定に戻る。この判定処理(S
20)で、もしもnが単語数Nよりも大きければ処理ス
テップ(321)に移る(S20)。
おわったので、総不良特徴パタン数−Bにn番目の単語
の不良特徴パタン数Aを加え、ざらに次の単語名の特徴
パタンを判定の対象とするためにrlに1を加え、次の
処理ステップへ移る(S 19) 、このnと単語数N
との比較処理を行い(S20)、nが単語数N以下なら
ば、処理ステップ(SIO)へ戻り、単語名C1の3つ
の特徴パタンについての判定に戻る。この判定処理(S
20)で、もしもnが単語数Nよりも大きければ処理ス
テップ(321)に移る(S20)。
ここでBがOならば(S21)、全ての特徴パタンは不
良特徴パタンではないので一連の処理の終了となる。も
しもBかOでなければ(S21)、処理ステップS14
で不良と判定された全ての特徴パタンP、、IlL:則
して代わりの特徴パタンを登録する(以降これを再登録
と称する)処理を行うために第4図(C)に示す再登録
操作手段330での処理に移る。
良特徴パタンではないので一連の処理の終了となる。も
しもBかOでなければ(S21)、処理ステップS14
で不良と判定された全ての特徴パタンP、、IlL:則
して代わりの特徴パタンを登録する(以降これを再登録
と称する)処理を行うために第4図(C)に示す再登録
操作手段330での処理に移る。
く再登録操作手段〉
まず、再登録のパタン数をカウントするkを1とする(
S23)。次(こに番目の不良特徴パタンの単語名の再
登録発声を登録話者に対しで要求する(S24)、そし
て、単語音声の入力を受ける(S25)、ここでは、第
4図(A)で示した処理ステップ$3と同様の単語音声
区間を検出する。この単語音声区間内の入力フレームデ
ーウに対し、第4図(A)で示した処理ステップS14
と同様の方法により特徴パタンを作成し、k番目の不良
特徴パタンを消去すると同時にこの消去した特徴パタン
と同じn、iを持つ特徴バクンP、、1として格納する
(326)。
S23)。次(こに番目の不良特徴パタンの単語名の再
登録発声を登録話者に対しで要求する(S24)、そし
て、単語音声の入力を受ける(S25)、ここでは、第
4図(A)で示した処理ステップ$3と同様の単語音声
区間を検出する。この単語音声区間内の入力フレームデ
ーウに対し、第4図(A)で示した処理ステップS14
と同様の方法により特徴パタンを作成し、k番目の不良
特徴パタンを消去すると同時にこの消去した特徴パタン
と同じn、iを持つ特徴バクンP、、1として格納する
(326)。
次にkに1を加え(S27)、不良特徴パタン数Bと比
較しく528)、k>8でなければ次の不良特徴パタン
の再登録のために処理ステップS24に戻る。k>8な
らば、全ての不良特徴パタンか消去され、再登録によっ
で新()い特徴パタンが格納されているので不良特徴パ
タン判定手段320での、第4図(B)で示した処理ス
テップS9に戻り、標準パタンセットの中の不良特徴パ
タンを判定する処理に戻る。
較しく528)、k>8でなければ次の不良特徴パタン
の再登録のために処理ステップS24に戻る。k>8な
らば、全ての不良特徴パタンか消去され、再登録によっ
で新()い特徴パタンが格納されているので不良特徴パ
タン判定手段320での、第4図(B)で示した処理ス
テップS9に戻り、標準パタンセットの中の不良特徴パ
タンを判定する処理に戻る。
以上の処理を不良特徴パタン数日がOになるまで繰り返
す(59〜528)。
す(59〜528)。
この発明は上述した実施例にのみ限定されるものではな
く多くの変形又は変更をなし得ること明らかである0例
えば、上述した実施例では、初期標準パタンセフ1〜作
成手段31O5不良特徴パタン判定手段320及び再登
録操作手段330を、従来の音声認識処理に設けられて
いる認識部に追加して設けているが、この場合従来の音
声標準パタンの登録機能に追加して或いはその代わりに
、設けた構成とすることが出来る。
く多くの変形又は変更をなし得ること明らかである0例
えば、上述した実施例では、初期標準パタンセフ1〜作
成手段31O5不良特徴パタン判定手段320及び再登
録操作手段330を、従来の音声認識処理に設けられて
いる認識部に追加して設けているが、この場合従来の音
声標準パタンの登録機能に追加して或いはその代わりに
、設けた構成とすることが出来る。
尚、上述した実施例では、この種の音声認識処理には常
套手段であるメモリ、制御部、その他の処理回路等の図
示及び説明を省略したが、これらは所要に応じ、設ける
ことが出来る。
套手段であるメモリ、制御部、その他の処理回路等の図
示及び説明を省略したが、これらは所要に応じ、設ける
ことが出来る。
(発明の効果)
上述した説明から明らかなように、この発明の音声標準
パタン登録方式によれば、音声を登録する際に生ずる言
い誤り、雑音の混入などが生じた場合でも、各単語のそ
れぞれの特徴パタンについて、他の全ての特徴パタンと
の距Niヲ求め、最も距離の小さな特徴パタン同志が同
一単語名であるかどうかということで特徴パタンの良・
不良が判定できる。この判定に基づいて、不良特徴パタ
ンについての再登録を行い、不良特徴パタンの無い標準
パタンになるまで判定と再登録を繰り返すことで良好な
標準パタンセットが得られ、音声認識における登録に用
いた場合には高い認識率か得られる。
パタン登録方式によれば、音声を登録する際に生ずる言
い誤り、雑音の混入などが生じた場合でも、各単語のそ
れぞれの特徴パタンについて、他の全ての特徴パタンと
の距Niヲ求め、最も距離の小さな特徴パタン同志が同
一単語名であるかどうかということで特徴パタンの良・
不良が判定できる。この判定に基づいて、不良特徴パタ
ンについての再登録を行い、不良特徴パタンの無い標準
パタンになるまで判定と再登録を繰り返すことで良好な
標準パタンセットが得られ、音声認識における登録に用
いた場合には高い認識率か得られる。
第1図はこの発明の音声標準パタン登録方式の実施例の
説明に供するブロック図、 第2図は従来の音声標準パタン登録方式の説明に供する
ブロック図、 第3図はこの発明及び従来方式の説明に供する、不良特
徴パタンを含む標準パタンセットの説明図、 第4図はこの発明の音声標準パタン登録方式の動作処理
手順の実施例を示す動作の流れ図である。 10:外部音声入力装百、12: A/D変換部14、
特徴抽出部、 16 音声切り出し部20:標準
パクン辞書メモリ 22 認識結果出力部、 24.外部機器30・認識
部 310初期標準パタンセット作成手段 320:不良特徴パタン判定手段 330・再登録操作手段。 特 許 出 願 人 沖電気工業株式会社 特徴空間 不良特徴パタンを含む標準パタンセットの説明図@3 図 動作の流れ図 第4 図 <A> 動作の流れ図 第4 図 (C)
説明に供するブロック図、 第2図は従来の音声標準パタン登録方式の説明に供する
ブロック図、 第3図はこの発明及び従来方式の説明に供する、不良特
徴パタンを含む標準パタンセットの説明図、 第4図はこの発明の音声標準パタン登録方式の動作処理
手順の実施例を示す動作の流れ図である。 10:外部音声入力装百、12: A/D変換部14、
特徴抽出部、 16 音声切り出し部20:標準
パクン辞書メモリ 22 認識結果出力部、 24.外部機器30・認識
部 310初期標準パタンセット作成手段 320:不良特徴パタン判定手段 330・再登録操作手段。 特 許 出 願 人 沖電気工業株式会社 特徴空間 不良特徴パタンを含む標準パタンセットの説明図@3 図 動作の流れ図 第4 図 <A> 動作の流れ図 第4 図 (C)
Claims (1)
- (1)音声標準パタンを読み出し自在に登録しておくた
めの標準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、 該類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識装置の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式において、 前記認識部に、 登録したい複数の単語名を1種類当り複数回発声して得
られた名々の入力音声の特徴パタンを標準パタンとして
収集して初期標準パタンセットを形成する処理を実行す
る初期標準パタンセット作成手段と、 前記初期標準パタンセット中のある1つの特徴パタンに
対する他の特徴パタンの距離を全て計算し、最も距離の
短い特徴パタンが同一種類の単語名でない場合にこの特
徴パタンを不良特徴パタンと判定する処理を全特徴パタ
ンに対して実行するための不良特徴パタン判定手段と、 前記不良特徴パタンの単語名について初期標準パタンセ
ットの作成及び不良特徴パタン判定についての処理を不
良特徴パタンが無くなるまで繰り返し実行させるための
再登録操作手段と を設け、 得られた良好な特徴パタンから成る標準パタンセットに
基づいて得た音声標準パタンを前記標準パタン辞書メモ
リに登録することを特徴とする音声標準パタン登録方式
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63282132A JPH02127697A (ja) | 1988-11-08 | 1988-11-08 | 音声標準パタン登録方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63282132A JPH02127697A (ja) | 1988-11-08 | 1988-11-08 | 音声標準パタン登録方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02127697A true JPH02127697A (ja) | 1990-05-16 |
Family
ID=17648531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63282132A Pending JPH02127697A (ja) | 1988-11-08 | 1988-11-08 | 音声標準パタン登録方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02127697A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007111197A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
-
1988
- 1988-11-08 JP JP63282132A patent/JPH02127697A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007111197A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
JPWO2007111197A1 (ja) * | 2006-03-24 | 2009-08-13 | パイオニア株式会社 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0140777B1 (en) | Process for encoding speech and an apparatus for carrying out the process | |
JPH0554959B2 (ja) | ||
KR20000053337A (ko) | 음성 처리 시스템 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
JPS6024597A (ja) | 音声登録方式 | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JPS58192100A (ja) | 第1の音声パタ−ンを第2の音声パタ−ンと時間的に整列させる方法とその装置 | |
JPH0823757B2 (ja) | 音声の区分化方法 | |
JP4564416B2 (ja) | 音声合成装置および音声合成プログラム | |
JPH02127697A (ja) | 音声標準パタン登録方式 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
JPH02135499A (ja) | 音声認識リジェクト閾値設定方式 | |
JP3582934B2 (ja) | 音声認識装置および標準パターン登録方法 | |
JPH05241590A (ja) | 音声送信用装置 | |
JPH07230293A (ja) | 音声認識装置 | |
JP3315565B2 (ja) | 音声認識装置 | |
JP2001083978A (ja) | 音声認識装置 | |
JPS645320B2 (ja) | ||
US20240144934A1 (en) | Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium | |
WO2021245771A1 (ja) | 学習データ生成装置、モデル学習装置、学習データ生成方法、モデル学習方法、およびプログラム | |
RU2297676C2 (ru) | Способ распознавания слов в слитной речи | |
JP2792720B2 (ja) | 音声認識装置 | |
JP2002372982A (ja) | 音響信号分析方法及び装置 | |
JPH09218696A (ja) | 音声認識装置 |