JPH0438356B2 - - Google Patents
Info
- Publication number
- JPH0438356B2 JPH0438356B2 JP59245477A JP24547784A JPH0438356B2 JP H0438356 B2 JPH0438356 B2 JP H0438356B2 JP 59245477 A JP59245477 A JP 59245477A JP 24547784 A JP24547784 A JP 24547784A JP H0438356 B2 JPH0438356 B2 JP H0438356B2
- Authority
- JP
- Japan
- Prior art keywords
- unknown
- data
- section
- verification
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012795 verification Methods 0.000 claims description 58
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004146 energy storage Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は音が未知である未知音声データと音
声が既知である既知音声データを照合して未知音
声データの音を決定する音声認識装置に係り、詳
しくはそれぞれ時間の経過に対応して多数個の値
が列をなしてなる1つの音の未知音声データ及び
既知音声データをそれぞれ予め定めた区間データ
に区切りその両区間を互いに照合することによつ
てその未知音声データの音を決定する音声認識装
置に関するものである。
声が既知である既知音声データを照合して未知音
声データの音を決定する音声認識装置に係り、詳
しくはそれぞれ時間の経過に対応して多数個の値
が列をなしてなる1つの音の未知音声データ及び
既知音声データをそれぞれ予め定めた区間データ
に区切りその両区間を互いに照合することによつ
てその未知音声データの音を決定する音声認識装
置に関するものである。
(従来技術)
従来、この種の音声認識装置は音が未知である
未知音声データと音が既知である既知音声データ
とを照合して未知音声データの音を決定する方式
として、まず、未知音声データと既知音声データ
とを比較するための照合区間を単音節(子音、母
音)ごとに区切り(単音節切り出し)り設定し、
つぎに、動的計画法(DP法;Dynamic
Programming)を応用して時間軸の整合を行な
つた後、その互いに照合する照合区間における類
似度の基準として、例えば、WLR(Weighted
Likelihood Ratio)距離を算出していた。
未知音声データと音が既知である既知音声データ
とを照合して未知音声データの音を決定する方式
として、まず、未知音声データと既知音声データ
とを比較するための照合区間を単音節(子音、母
音)ごとに区切り(単音節切り出し)り設定し、
つぎに、動的計画法(DP法;Dynamic
Programming)を応用して時間軸の整合を行な
つた後、その互いに照合する照合区間における類
似度の基準として、例えば、WLR(Weighted
Likelihood Ratio)距離を算出していた。
そして、そのWLR距離を他の既知音声データ
についても同様に算出し、その算出した各WLR
距離の最も短い距離の既知音声データの音を当該
未知音声データのものであると判断して未知音を
決定するようにしていた。
についても同様に算出し、その算出した各WLR
距離の最も短い距離の既知音声データの音を当該
未知音声データのものであると判断して未知音を
決定するようにしていた。
従つて、精度の高い音声認識を行なう上で前記
未知音声データの単音節(子音、母音)の照合区
間を正確に切り出し選定することが非常に重要と
なつていた。
未知音声データの単音節(子音、母音)の照合区
間を正確に切り出し選定することが非常に重要と
なつていた。
(発明が解決しようとする問題点)
ところが、認識率の高い音声認識を行なう上で
前記未知音声データ及び既知音声データの照合区
間の切り出しが非常に重要な要素となつているの
にもかかわらず、子音及び母音区間の境界付近は
極めて複雑であり、単純に一義的に各区間を決定
することはできない。従つて、実際にはその音声
データの音の特徴が良く現れている最適な照合区
間を設定することは非常に難しく、精度の高い照
合が望めないのが現状であつた。
前記未知音声データ及び既知音声データの照合区
間の切り出しが非常に重要な要素となつているの
にもかかわらず、子音及び母音区間の境界付近は
極めて複雑であり、単純に一義的に各区間を決定
することはできない。従つて、実際にはその音声
データの音の特徴が良く現れている最適な照合区
間を設定することは非常に難しく、精度の高い照
合が望めないのが現状であつた。
(発明の目的)
この発明は前記問題点を解決するためになされ
たものであつて、その目的は照合区間の切り出し
の精度を上げることなく認識率を向上を図ること
ができる音声認識装置を提供するにある。
たものであつて、その目的は照合区間の切り出し
の精度を上げることなく認識率を向上を図ること
ができる音声認識装置を提供するにある。
(問題点を解決するための手段)
第1図は本発明の全体構成を示すブロツク図で
あつて、本発明の音声認識装置は未知音声データ
及び既知音声データのうち未知音声データに第1
の照合区間を設定する第1の照合区間設定手段1
01と、前記既知音声データに前記第1の照合区
間より長い区間を有する第2の照合区間を設定す
る第2の照合区間設定手段102と、前記第1の
照合区間と等しい長さを有し互いに位置の異なる
対象区間を第2の照合区間において順次設定する
対象区間設定手段103と、前記第1の照合区間
に対する前記各対象区間において対応するそれぞ
れの時点の値の距離に基づいた代表値を前記各対
象区間毎に算出する代表値算出手段104と、前
記各代表値のうち前記距離が最も短いことを示す
代表値を前記第1の照合区間と前記第2の照合区
間との間の基準値として設定する基準値設定手段
105とを有し、 1つの前記未知音声データについて複数の前記
既知音声データに対する前記基準値をそれぞれ算
出しその基準値に基づいて未知音声データの音を
決定する。
あつて、本発明の音声認識装置は未知音声データ
及び既知音声データのうち未知音声データに第1
の照合区間を設定する第1の照合区間設定手段1
01と、前記既知音声データに前記第1の照合区
間より長い区間を有する第2の照合区間を設定す
る第2の照合区間設定手段102と、前記第1の
照合区間と等しい長さを有し互いに位置の異なる
対象区間を第2の照合区間において順次設定する
対象区間設定手段103と、前記第1の照合区間
に対する前記各対象区間において対応するそれぞ
れの時点の値の距離に基づいた代表値を前記各対
象区間毎に算出する代表値算出手段104と、前
記各代表値のうち前記距離が最も短いことを示す
代表値を前記第1の照合区間と前記第2の照合区
間との間の基準値として設定する基準値設定手段
105とを有し、 1つの前記未知音声データについて複数の前記
既知音声データに対する前記基準値をそれぞれ算
出しその基準値に基づいて未知音声データの音を
決定する。
(作用)
音が未知である未知音声データ及び音がわかつ
ている既知音声データのうち未知音声データを入
力する第1の照合区間設定手段101はその入力
された未知音声データに第1の照合区間を設定す
る。既知音声データを入力する第2の照合区間設
定手段102はその入力された既知音声データに
前記第1の照合区間より長い区間となる第2の照
合区間を設定する。対象区間設定手段103は前
記第2の照合区間設定手段102にて設定された
第2の照合区間において前記第1の照合区間と等
しい長さを有し互いに位置の異なる対象区間を順
次設定する。
ている既知音声データのうち未知音声データを入
力する第1の照合区間設定手段101はその入力
された未知音声データに第1の照合区間を設定す
る。既知音声データを入力する第2の照合区間設
定手段102はその入力された既知音声データに
前記第1の照合区間より長い区間となる第2の照
合区間を設定する。対象区間設定手段103は前
記第2の照合区間設定手段102にて設定された
第2の照合区間において前記第1の照合区間と等
しい長さを有し互いに位置の異なる対象区間を順
次設定する。
そして、代表値算出手段104は前記第1の照
合区間設定手段101で設定した未知音声データ
の第1の照合区間と前記対象区間設定手段103
で設定した既知音声データの第2の照合区間にお
ける各対象区間において対応するそれぞれの時点
の値の距離に基づいた代表値をその各対象区間毎
に算出する。
合区間設定手段101で設定した未知音声データ
の第1の照合区間と前記対象区間設定手段103
で設定した既知音声データの第2の照合区間にお
ける各対象区間において対応するそれぞれの時点
の値の距離に基づいた代表値をその各対象区間毎
に算出する。
基準値設定手段105は前記代表値算出手段1
04で算出した各対象区間毎に算出した各代表値
の中から前記距離が最も短い値を示す代表値を前
記第1の照合区間と第2の照合区間における基準
値として設定する。
04で算出した各対象区間毎に算出した各代表値
の中から前記距離が最も短い値を示す代表値を前
記第1の照合区間と第2の照合区間における基準
値として設定する。
そして、1つの未知音声データについて、この
ように設定した既知音声データに対する前記基準
値を他の複数の既知音声データに対してもその基
準値をそれぞれ算出し、そのそれぞれの基準値に
基づいて未知音声データの音を決定するようにし
たものである。
ように設定した既知音声データに対する前記基準
値を他の複数の既知音声データに対してもその基
準値をそれぞれ算出し、そのそれぞれの基準値に
基づいて未知音声データの音を決定するようにし
たものである。
(実施例)
以下、この発明を具体化した好適な一実施例を
図面に従つて説明する。
図面に従つて説明する。
第2図はこの発明を具体化した音声認識装置の
電気ブロツク回路図を示し、マイクロホン1はそ
のスイツチがオンされることにより、音声入力の
開始を示す信号を後記するCPU4に出力するよ
うになついる。そして、話者の発音した音声を集
音し、その集音した音声信号を増幅器2にて以後
の処理に適するレベルに増幅した後次段のA/D
変換器3に出力する。そして、A/D変換器3は
この所定のレベルに増幅された音声信号を4KHz
までの音声波形の情報を得るために8KHzのサン
プリング周波数でサンプリングしその時刻におけ
る振幅レベルを量子化してなる離散信号に変換し
て中央処理装置(以下、CPUという)4に出力
するようになつている。
電気ブロツク回路図を示し、マイクロホン1はそ
のスイツチがオンされることにより、音声入力の
開始を示す信号を後記するCPU4に出力するよ
うになついる。そして、話者の発音した音声を集
音し、その集音した音声信号を増幅器2にて以後
の処理に適するレベルに増幅した後次段のA/D
変換器3に出力する。そして、A/D変換器3は
この所定のレベルに増幅された音声信号を4KHz
までの音声波形の情報を得るために8KHzのサン
プリング周波数でサンプリングしその時刻におけ
る振幅レベルを量子化してなる離散信号に変換し
て中央処理装置(以下、CPUという)4に出力
するようになつている。
CPU4は読み出し専用のメモリ(ROM)より
なるプログラムメモリ5に記憶された制御プログ
ラムに従つて動作され、そのプログラムに従つて
各演算処理動作によつて得られた各演算処理結果
を読み出し及び書き込み可能なメモリ(RAM)
よりなるワークメモリ6に一時記憶するようにな
つている。
なるプログラムメモリ5に記憶された制御プログ
ラムに従つて動作され、そのプログラムに従つて
各演算処理動作によつて得られた各演算処理結果
を読み出し及び書き込み可能なメモリ(RAM)
よりなるワークメモリ6に一時記憶するようにな
つている。
前記プログラムメモリ5は制御プログラムの他
にマイクロホン1から入力された未知の音声を認
識する処理に使用するための多数個の既知音声の
離散信号データ(既知音声が8KHzでサンプリン
グされ、その時刻における振幅レベルを量子化し
てなるデータ)が予め記憶されている。
にマイクロホン1から入力された未知の音声を認
識する処理に使用するための多数個の既知音声の
離散信号データ(既知音声が8KHzでサンプリン
グされ、その時刻における振幅レベルを量子化し
てなるデータ)が予め記憶されている。
又、前記ワークメモリ6は多数の記憶領域を有
し、振幅記憶領域6a、2乗記憶領域6b、エネ
ルギー記憶領域6c、未知音声及び既知音声デー
タ記憶領域6d,6e、第1及び第2の照合区間
記憶領域6f,6g、対象区間記憶領域6h、平
均値記憶領域6i、基準値記憶領域6j等を有し
ている。
し、振幅記憶領域6a、2乗記憶領域6b、エネ
ルギー記憶領域6c、未知音声及び既知音声デー
タ記憶領域6d,6e、第1及び第2の照合区間
記憶領域6f,6g、対象区間記憶領域6h、平
均値記憶領域6i、基準値記憶領域6j等を有し
ている。
前記CPU4は前記A/D変換器3から出力さ
れてくる未知音声の振幅レベルが量子化された離
散信号を離散信号データとして前記ワークメモリ
6の振幅記憶領域6aに順次記憶していく。従つ
て、CPU4はサンプリングされた音声波形の離
散信号データを1秒間に8000個(125マイクロ秒
毎に1個)振幅記憶領域6aに記憶させていくこ
とになる。
れてくる未知音声の振幅レベルが量子化された離
散信号を離散信号データとして前記ワークメモリ
6の振幅記憶領域6aに順次記憶していく。従つ
て、CPU4はサンプリングされた音声波形の離
散信号データを1秒間に8000個(125マイクロ秒
毎に1個)振幅記憶領域6aに記憶させていくこ
とになる。
又、CPU4はこの離散信号データを2乗しそ
の2乗値を前記2乗記憶領域6bに順次記憶させ
る。そして、CPU4はこの2乗値の64個(8ミ
リ秒)ごとの和を順次とることにより短時間エネ
ルギー値を算出しその短時間エネルギー値を前記
ワークメモリ6のエネルギー記憶領域6cに順次
書き込んで行く。
の2乗値を前記2乗記憶領域6bに順次記憶させ
る。そして、CPU4はこの2乗値の64個(8ミ
リ秒)ごとの和を順次とることにより短時間エネ
ルギー値を算出しその短時間エネルギー値を前記
ワークメモリ6のエネルギー記憶領域6cに順次
書き込んで行く。
尚、前記短時間エネルギー値は時間を横軸に
し、この短時間エネルギー値を縦軸にしその最大
値を、基準にして表わせば第3図に示すようにな
る。
し、この短時間エネルギー値を縦軸にしその最大
値を、基準にして表わせば第3図に示すようにな
る。
一方、CPU4は前記プログラムメモリ5から
既知音声の離散信号データを読み出し、前記未知
音声の場合と同様にその離散信号データに基づい
て2乗値、短時間エネルギー値を算出し、既知音
声用の記憶領域へやはり前記未知音声の場合と同
様に順次書き込んでいく。
既知音声の離散信号データを読み出し、前記未知
音声の場合と同様にその離散信号データに基づい
て2乗値、短時間エネルギー値を算出し、既知音
声用の記憶領域へやはり前記未知音声の場合と同
様に順次書き込んでいく。
又、CPU4は未知音声及び既知音声のそれぞ
れの離散信号データに対し、まず、1次差分値を
とつて高域強調し、続いて各処理のためのフレー
ムのその切り出し点における不連続性の影響によ
るスペクトル漏れを低減するためにハミング窓
(ウインド)関数を1フレーム毎に乗じる。ここ
で、フレーム長は32ミリ秒であり、隣接するフレ
ームは8ミリ秒ずつ時間的に移動している。
れの離散信号データに対し、まず、1次差分値を
とつて高域強調し、続いて各処理のためのフレー
ムのその切り出し点における不連続性の影響によ
るスペクトル漏れを低減するためにハミング窓
(ウインド)関数を1フレーム毎に乗じる。ここ
で、フレーム長は32ミリ秒であり、隣接するフレ
ームは8ミリ秒ずつ時間的に移動している。
次に、自己相関分析により10次の自己相関係数
を算出し、ラグ窓(ウインド)関数を乗じてスペ
クトルの局部的な鋭いピークを抑えて平滑化す
る。
を算出し、ラグ窓(ウインド)関数を乗じてスペ
クトルの局部的な鋭いピークを抑えて平滑化す
る。
そして、このラグ窓関数を乗じた自己相関係数
を用いて線形予測分析(LPC分析)をして10次
の線形予測係数を求め、これら値に基づいて
WLR距離の算出のために24次のLPC相関係数、
24次のLPCケプストラムを算出し当該マイクロ
ホン1で集音した1つの未知音声に対する未知音
声データ及び既知音声データとして未知音声デー
タ記憶領域6d及び既知音声データ記憶領域6e
にそれぞれ記憶するようになつている。
を用いて線形予測分析(LPC分析)をして10次
の線形予測係数を求め、これら値に基づいて
WLR距離の算出のために24次のLPC相関係数、
24次のLPCケプストラムを算出し当該マイクロ
ホン1で集音した1つの未知音声に対する未知音
声データ及び既知音声データとして未知音声デー
タ記憶領域6d及び既知音声データ記憶領域6e
にそれぞれ記憶するようになつている。
又、CPU4はこの作成した未知音声データの
子音と既知音声データ子音とを照合するための未
知音声データにおける第1の照合区間としての未
知側照合区間X(第6図参照)と既知音声データ
の第2の照合区間としての既知側照合区間(第5
図参照)を切り出し設定するようになつている。
子音と既知音声データ子音とを照合するための未
知音声データにおける第1の照合区間としての未
知側照合区間X(第6図参照)と既知音声データ
の第2の照合区間としての既知側照合区間(第5
図参照)を切り出し設定するようになつている。
この設定では、未知音声データの場合、前述し
た未知音声の短時間エネルギー値の列において音
声が発せられる前の雑音のみの区間のレベルの2
倍のレベルE1に達する時点t1からその音声の
短時間エネルギー値の最大値の30%のレベルE2
に達する時点t2までを未知側子音照合区間Xと
している。
た未知音声の短時間エネルギー値の列において音
声が発せられる前の雑音のみの区間のレベルの2
倍のレベルE1に達する時点t1からその音声の
短時間エネルギー値の最大値の30%のレベルE2
に達する時点t2までを未知側子音照合区間Xと
している。
又、既知音声データの既知側照合区間Yの設定
については、まず、前記未知音声の場合と同様
に、既知側照合区間Yの終端(右端)を求める。
次に前記未知音声の未知側照合区間Xのフレーム
数を算出しその未知側照合区間Xのフレーム数よ
り4フレーム多い区間となるように前記終端を基
点に時間的に遡つて既知側照合区間Yの始端(左
端)を決めている。
については、まず、前記未知音声の場合と同様
に、既知側照合区間Yの終端(右端)を求める。
次に前記未知音声の未知側照合区間Xのフレーム
数を算出しその未知側照合区間Xのフレーム数よ
り4フレーム多い区間となるように前記終端を基
点に時間的に遡つて既知側照合区間Yの始端(左
端)を決めている。
既知側照合区間Yを設定すると、CPU4は前
記既知音声データの既知側照合区間Yにおいて未
知側照合区間Xと等しい長さを有し互いに位置の
異なる対象区間としての複数個の既知側対象区間
yn(実施例ではnは1から5までの整数をとる)
を順次設定する機能を有している。従つて、第6
図に示すように未知側照合区間Xに対する複数個
の既知側対象区間y1〜y5が設定されることに
なる。
記既知音声データの既知側照合区間Yにおいて未
知側照合区間Xと等しい長さを有し互いに位置の
異なる対象区間としての複数個の既知側対象区間
yn(実施例ではnは1から5までの整数をとる)
を順次設定する機能を有している。従つて、第6
図に示すように未知側照合区間Xに対する複数個
の既知側対象区間y1〜y5が設定されることに
なる。
尚、第4図乃至第6図には説明の都合上、離散
信号データを示したが、照合に使用する各区間の
データは前記処理動作により得られた未知及び既
知音声データである。
信号データを示したが、照合に使用する各区間の
データは前記処理動作により得られた未知及び既
知音声データである。
CPU4はこの未知側照合区間Xに対して複数
個の既知側対象区間y1〜y5を設定すると、そ
の未知側照合区間Xに対する各既知側対象区間
yn毎に対応する各フレーム毎にWLR距離を算出
するとともに、その1つの既知側対象区間yn毎
に求められたWLR距離の平均値P(n)を代表値
として算出し平均値領域6iに記憶するようにな
つている。
個の既知側対象区間y1〜y5を設定すると、そ
の未知側照合区間Xに対する各既知側対象区間
yn毎に対応する各フレーム毎にWLR距離を算出
するとともに、その1つの既知側対象区間yn毎
に求められたWLR距離の平均値P(n)を代表値
として算出し平均値領域6iに記憶するようにな
つている。
そして、CPU4はこの未知側対象区間Xに対
して各対象区間yn毎に算出した平均値P(n)の
内から最小の平均値を求めて基準値Z(m)とし、
基準値記憶領域6jに記憶する。
して各対象区間yn毎に算出した平均値P(n)の
内から最小の平均値を求めて基準値Z(m)とし、
基準値記憶領域6jに記憶する。
ここで、mは1からプログラムメモリ5に予め
離散信号データの形で記憶されている既知音声の
総数までの整数をとり、各既知音声にそれぞれ対
応している。
離散信号データの形で記憶されている既知音声の
総数までの整数をとり、各既知音声にそれぞれ対
応している。
そして、CPU4はその既知音声データに対す
る基準値Z(m)を選定すると、次の新たな既知
音声の離散信号データをプログラムメモリ5から
読み出し、前記各処理により新たな既知音声デー
タを算出して新たな既知音声データと前記未知音
声データにおける基準値Z(m)を前記と同様に
算出するようになつている。
る基準値Z(m)を選定すると、次の新たな既知
音声の離散信号データをプログラムメモリ5から
読み出し、前記各処理により新たな既知音声デー
タを算出して新たな既知音声データと前記未知音
声データにおける基準値Z(m)を前記と同様に
算出するようになつている。
そして、この未知音声データに対するプログラ
ムメモリ5に記憶した全ての既知音声の離散信号
データを読み出し算出した既知音声データについ
て基準値Z(m)を算出すると、CPU4は全ての
既知音声について算出した各基準値Z(m)の中
か最小の基準値を選定し、その選定した最小の基
準値Z(m)の得られた既知音声の子音をこの未
知音声データの子音と決定することになつてい
る。
ムメモリ5に記憶した全ての既知音声の離散信号
データを読み出し算出した既知音声データについ
て基準値Z(m)を算出すると、CPU4は全ての
既知音声について算出した各基準値Z(m)の中
か最小の基準値を選定し、その選定した最小の基
準値Z(m)の得られた既知音声の子音をこの未
知音声データの子音と決定することになつてい
る。
次に上記したように構成した音声の認識装置の
作用について説明する。
作用について説明する。
今、話者が1つの音を発すると、マイクロホン
1にてその音が集音される。そして、その音声信
号は増幅器2及びA/D変換器3を介して8KHz
でサンプリングされ振幅レベルが量子化された離
散信号に変換されてCPU4に出力される。
1にてその音が集音される。そして、その音声信
号は増幅器2及びA/D変換器3を介して8KHz
でサンプリングされ振幅レベルが量子化された離
散信号に変換されてCPU4に出力される。
CPU4は離散信号を離散信号データとして順
次ワークメモリ6の振幅記憶領域6aに記憶する
とともに、その離散信号データを2乗してその2
乗値をワークメモリ6の2乗記憶領域6bに順次
記憶させる。次にCPU4はこの2乗値に基づい
て短時間エネルギー値を算出し、その短時間エネ
ルギー値を前記ワークメモリ6のエネルギー記憶
領域6cに記憶させる。又、離散信号データに対
して自己相関分析、線形予測分析等を行ない、
LPC相関係数、LPCケプストラムよりなる未知
音声データを作成する(ステツプ1)。
次ワークメモリ6の振幅記憶領域6aに記憶する
とともに、その離散信号データを2乗してその2
乗値をワークメモリ6の2乗記憶領域6bに順次
記憶させる。次にCPU4はこの2乗値に基づい
て短時間エネルギー値を算出し、その短時間エネ
ルギー値を前記ワークメモリ6のエネルギー記憶
領域6cに記憶させる。又、離散信号データに対
して自己相関分析、線形予測分析等を行ない、
LPC相関係数、LPCケプストラムよりなる未知
音声データを作成する(ステツプ1)。
このように、未知音声データを作成すると、次
にCPU4のこの未知音声データの未知側照合区
間Xを設定して切り出すとともに、その未知側照
合区間Xのフレーム数を算出する(ステツプ2、
3)。
にCPU4のこの未知音声データの未知側照合区
間Xを設定して切り出すとともに、その未知側照
合区間Xのフレーム数を算出する(ステツプ2、
3)。
次に、CPU4はプログラムメモリ5に記憶さ
れた多数個の既知音声の離散信号データの中から
第1の既知音声の離散信号データを読み出す(ス
テツプ4)。
れた多数個の既知音声の離散信号データの中から
第1の既知音声の離散信号データを読み出す(ス
テツプ4)。
次に、未知音声データの場合と同様に当該既知
音声における短時間エネルギーの算出及び算出し
た短時間エネルギーの所定記憶領域への記憶や
LPC相関係数、LPCケプトラムよりなる既知音
声データの作成を行なう(ステツプ5)。
音声における短時間エネルギーの算出及び算出し
た短時間エネルギーの所定記憶領域への記憶や
LPC相関係数、LPCケプトラムよりなる既知音
声データの作成を行なう(ステツプ5)。
次に、CPU4は前記作成した既知音声データ
の既知側照合区間Yを未知側照合区間Xのフレー
ム数より4フレーム多い長さとなるように設定す
る(ステツプ6)。CPU4はこの既知側照合区間
Yにおいて、第6図に示すように前記未知側照合
区間Xと等しい長さを有し互いに位置の異なる複
数個の既知側対象区間y1〜y5を複数個順次設
定する(ステツプ7)。
の既知側照合区間Yを未知側照合区間Xのフレー
ム数より4フレーム多い長さとなるように設定す
る(ステツプ6)。CPU4はこの既知側照合区間
Yにおいて、第6図に示すように前記未知側照合
区間Xと等しい長さを有し互いに位置の異なる複
数個の既知側対象区間y1〜y5を複数個順次設
定する(ステツプ7)。
次に、CPU4はこの未知側照合区間Xに対す
る最初の既知側対象区間y1との間で対応するフ
レーム毎にWLR距離を算出し(ステツプ8)、そ
の距離の平均値P1を算出し、ワークメモリ6の
平均値記憶領域6iに記憶する(ステツプ9)。
る最初の既知側対象区間y1との間で対応するフ
レーム毎にWLR距離を算出し(ステツプ8)、そ
の距離の平均値P1を算出し、ワークメモリ6の
平均値記憶領域6iに記憶する(ステツプ9)。
CPU4は未知側照合区間Xと最初の既知側対
象区間y1におけるWLR距離の平均値P1の算
出が終了すると、このWLR距離の算出が未知側
照合区間Xに対する最後の既知側対象区間y5に
おける平均値P5の算出が行なわれたかどうかチ
エツクする(ステツプ10)。
象区間y1におけるWLR距離の平均値P1の算
出が終了すると、このWLR距離の算出が未知側
照合区間Xに対する最後の既知側対象区間y5に
おける平均値P5の算出が行なわれたかどうかチ
エツクする(ステツプ10)。
そして、この場合にはまだ最初の既知側対象区
間y1なので、CPU4は次の既知側対象区間y
2の既知音声データを読み出し未知側照合区間X
の未知音声データとの間でWLR距離を算出し
(ステツプ11、8)、前記同様にその距離の平均値
P2を算出する(ステツプ9)。
間y1なので、CPU4は次の既知側対象区間y
2の既知音声データを読み出し未知側照合区間X
の未知音声データとの間でWLR距離を算出し
(ステツプ11、8)、前記同様にその距離の平均値
P2を算出する(ステツプ9)。
そして、以後同様にCPU4は既知側対象区間
y5までの各WLR距離の平均値P(n)をそれぞ
れ算出し前記ワークメモリ6の平均値記憶領域6
iに記憶する。
y5までの各WLR距離の平均値P(n)をそれぞ
れ算出し前記ワークメモリ6の平均値記憶領域6
iに記憶する。
全ての既知側対象区間y1〜y5についての平
均値P(n)の算出が終了すると、CPU4はこの
算出した未知側照合区間Xにおける各既知側対象
区間y1〜y5の平均値P1〜P5の中から最も
小さな値を当該未知音声データに対する第1の既
知音声データの基準値Z1として選定しワークメ
モリ6の基準値記憶領域6jに記憶する(ステツ
プ12)。
均値P(n)の算出が終了すると、CPU4はこの
算出した未知側照合区間Xにおける各既知側対象
区間y1〜y5の平均値P1〜P5の中から最も
小さな値を当該未知音声データに対する第1の既
知音声データの基準値Z1として選定しワークメ
モリ6の基準値記憶領域6jに記憶する(ステツ
プ12)。
未知音声データに対する第1の既知音声データ
の基準値Z1の選定が終了すると、CPU4はプ
ログラムメモリ5にまだ読み出されていない既知
音声の離散信号データがあるかどうかをチエツク
(ステツプ13)した後、次の新たな第2の既知音
声の離散信号データをプログラムメモリ5から読
み出す(ステツプ14)。
の基準値Z1の選定が終了すると、CPU4はプ
ログラムメモリ5にまだ読み出されていない既知
音声の離散信号データがあるかどうかをチエツク
(ステツプ13)した後、次の新たな第2の既知音
声の離散信号データをプログラムメモリ5から読
み出す(ステツプ14)。
そして、前記と同様にして既知音声データにお
ける基準値Z2を前記と同様に設定する。このよ
うな処理動作をプログラムメモリ5に記憶されて
いる全ての既知音声について行なう。
ける基準値Z2を前記と同様に設定する。このよ
うな処理動作をプログラムメモリ5に記憶されて
いる全ての既知音声について行なう。
そして、CPU4が全ての既知音声データにつ
いて基準値Z(m)を設定すると、CPU4はその
各基準値の中から最小値の基準値Z(m)を求め
てその最小の基準値Z(m)が得られた既知音声
の子音を当該未知音声の子音とCPU4は決定す
る(ステツプ15)。
いて基準値Z(m)を設定すると、CPU4はその
各基準値の中から最小値の基準値Z(m)を求め
てその最小の基準値Z(m)が得られた既知音声
の子音を当該未知音声の子音とCPU4は決定す
る(ステツプ15)。
このように、本実施例においては未知音声デー
タの未知側照合区間Xに対して既知音声データの
前記未知側照合区間Xより長い既知側照合区間Y
を設定するとともに、同既知側照合区間Yにおい
て未知側照合区間Xと同じ長さで異なる位置に対
象区間y1〜y5を設定し、未知側照合区間Xに
対して既知音声データの各対象区間yn毎にそれ
ぞれ平均値P(n)を算出して、その各平均値P
(n)の中から基準値Z(m)を設定するようにし
たので、未知音声データ及び既知音声データの両
照合区間を正確に設定する必要がなくラフに設定
でき照合区間の設定の精度に影響を受けることな
く音声の認識率の向上を図ることができる。
タの未知側照合区間Xに対して既知音声データの
前記未知側照合区間Xより長い既知側照合区間Y
を設定するとともに、同既知側照合区間Yにおい
て未知側照合区間Xと同じ長さで異なる位置に対
象区間y1〜y5を設定し、未知側照合区間Xに
対して既知音声データの各対象区間yn毎にそれ
ぞれ平均値P(n)を算出して、その各平均値P
(n)の中から基準値Z(m)を設定するようにし
たので、未知音声データ及び既知音声データの両
照合区間を正確に設定する必要がなくラフに設定
でき照合区間の設定の精度に影響を受けることな
く音声の認識率の向上を図ることができる。
すなわち、未知音声データは、たとえ同一の音
が入力された場合であつても入力される毎に始端
から終端までの長さにばらつきがあるため、もし
未知側照合区間Xを既知側照合区間Yより長い区
間に設定する構成としたとすれば、未知音声デー
タのばらつきのために未知側照合区間Xに対象区
間を設定する際に充分な長さを得ることができな
い可能性があり、音声の認識率の低下を招く要因
となる。しかしながら、本実施例においては、予
め入力されている長さにばらつきのない既知音声
データの既知側照合区間Yの方を長い区間とした
ため、未知音声データの長さの不安定さに影響さ
れることなく音声の認識率を上げることができる
のである。
が入力された場合であつても入力される毎に始端
から終端までの長さにばらつきがあるため、もし
未知側照合区間Xを既知側照合区間Yより長い区
間に設定する構成としたとすれば、未知音声デー
タのばらつきのために未知側照合区間Xに対象区
間を設定する際に充分な長さを得ることができな
い可能性があり、音声の認識率の低下を招く要因
となる。しかしながら、本実施例においては、予
め入力されている長さにばらつきのない既知音声
データの既知側照合区間Yの方を長い区間とした
ため、未知音声データの長さの不安定さに影響さ
れることなく音声の認識率を上げることができる
のである。
なお、前記実施例では各音声データの子音区間
を照合区間とする場合について説明したが、これ
を母音区間として応用してもよい。又、子音区間
は照合区間とした場合であつても、母音について
はその前半を子音区間と同様なものとみなして照
合区間とすれば、同様な処理による認識が可能と
なる。
を照合区間とする場合について説明したが、これ
を母音区間として応用してもよい。又、子音区間
は照合区間とした場合であつても、母音について
はその前半を子音区間と同様なものとみなして照
合区間とすれば、同様な処理による認識が可能と
なる。
(発明の効果)
以上詳述したように、この発明によれば既知音
声データの照合区間を未知音声データの照合区間
より長く設定し、既知側の照合区間に未知音声デ
ータの照合区間と長さの等しい対象区間を設定す
るようにしたことにより、未知音声データの始端
から終端までの長さの不安定さに対する影響が減
少するため、音声認識率のより一層の向上を図る
ことができる効果を有する。
声データの照合区間を未知音声データの照合区間
より長く設定し、既知側の照合区間に未知音声デ
ータの照合区間と長さの等しい対象区間を設定す
るようにしたことにより、未知音声データの始端
から終端までの長さの不安定さに対する影響が減
少するため、音声認識率のより一層の向上を図る
ことができる効果を有する。
第1図は本発明の構成を示すブロツク図、第2
図は本発明を具体化した一実施例の電気ブロツク
回路図、第3図は音声の短時間エネルギー値を示
す図、第4図は未知側照合区間を示す図、第5図
は既知側照合区間を示す図、第6図は未知側照合
区間と既知音声の対象区間の関係を示す説明図、
第7図はこの音声の認識装置の作用を説明するた
めのフローチヤートである。 図中、1はマイクロホン、2は増幅器、3は
A/D変換器、4はCPU、5はプログラムメモ
リ、6はワークメモリ、101は第1の照合区間
設定手段としての未知側照合区間設定手段、10
2は第2の照合区間設定手段としての既知側照合
区間設定手段、103は対象区間設定手段、10
4は代表値算出手段、105は基準値設定手段で
ある。
図は本発明を具体化した一実施例の電気ブロツク
回路図、第3図は音声の短時間エネルギー値を示
す図、第4図は未知側照合区間を示す図、第5図
は既知側照合区間を示す図、第6図は未知側照合
区間と既知音声の対象区間の関係を示す説明図、
第7図はこの音声の認識装置の作用を説明するた
めのフローチヤートである。 図中、1はマイクロホン、2は増幅器、3は
A/D変換器、4はCPU、5はプログラムメモ
リ、6はワークメモリ、101は第1の照合区間
設定手段としての未知側照合区間設定手段、10
2は第2の照合区間設定手段としての既知側照合
区間設定手段、103は対象区間設定手段、10
4は代表値算出手段、105は基準値設定手段で
ある。
Claims (1)
- 【特許請求の範囲】 1 音が未知である未知音声データと音が既知で
ある既知音声データとを照合して未知音声データ
の音を決定する音声認識装置において、 前記未知音声データに第1の照合区間Xを設定
する手段101と、 前記既知音声データに前記第1の照合区間Xよ
り長い区間を有する第2の照合区間Yを設定する
手段102と、 前記第1の照合区間Xと等しい長さを有し互い
に位置の異なる対象区間ynを第2の照合区間Y
において順次設定する手段103と、 前記第1の照合区間X及び前記各対象区間yn
において対応するそれぞれの時点の値の距離に基
づいた代表値P(n)を前記各対象区間yn毎に算
出する手段104と、 前記各代表値P(n)のうち前記距離が最も短
いことを示す代表値P(n)を前記第1の照合区
間Xと前記第2の照合区間Yとの間の基準値Z
(m)として設定する手段105と を有し、 1つの前記未知音声データについて複数の前記
既知音声データに対する前記基準値Z(m)をそ
れぞれ算出し、前記基準値Z(m)に基づいて未
知音声データの音を決定することを特徴とする音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59245477A JPS61123892A (ja) | 1984-11-20 | 1984-11-20 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59245477A JPS61123892A (ja) | 1984-11-20 | 1984-11-20 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS61123892A JPS61123892A (ja) | 1986-06-11 |
JPH0438356B2 true JPH0438356B2 (ja) | 1992-06-24 |
Family
ID=17134239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59245477A Granted JPS61123892A (ja) | 1984-11-20 | 1984-11-20 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61123892A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5880697A (ja) * | 1981-11-07 | 1983-05-14 | ソニー株式会社 | 音声認識方式 |
-
1984
- 1984-11-20 JP JP59245477A patent/JPS61123892A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5880697A (ja) * | 1981-11-07 | 1983-05-14 | ソニー株式会社 | 音声認識方式 |
Also Published As
Publication number | Publication date |
---|---|
JPS61123892A (ja) | 1986-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5732394A (en) | Method and apparatus for word speech recognition by pattern matching | |
JPH07146699A (ja) | 音声認識方法 | |
US9514738B2 (en) | Method and device for recognizing speech | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
JPH0438356B2 (ja) | ||
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
JPH0438357B2 (ja) | ||
JPH0777998A (ja) | 連続単語音声認識装置 | |
JPS61123891A (ja) | 音声の認識装置 | |
JPS60129796A (ja) | 音声入力装置 | |
JPH0772899A (ja) | 音声認識装置 | |
JPS6147999A (ja) | 音声認識装置 | |
JPH07210197A (ja) | 話者識別方法 | |
Lienard | Speech characterization from a rough spectral analysis | |
JPS59149400A (ja) | 音声入力装置 | |
Faycal et al. | Pitch modification of speech signal using source filter model by linear prediction for prosodic transformations | |
JPH0426480B2 (ja) | ||
JPH0816186A (ja) | 音声認識装置 | |
JPH0311478B2 (ja) | ||
JPH042197B2 (ja) | ||
JP2000194385A (ja) | 音声認識処理装置 | |
JPS6336680B2 (ja) | ||
JPH026079B2 (ja) | ||
JPH0632009B2 (ja) | 音声認識装置 | |
JPH026078B2 (ja) |