JPS6039696A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS6039696A JPS6039696A JP58147308A JP14730883A JPS6039696A JP S6039696 A JPS6039696 A JP S6039696A JP 58147308 A JP58147308 A JP 58147308A JP 14730883 A JP14730883 A JP 14730883A JP S6039696 A JPS6039696 A JP S6039696A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- discriminant
- diagram
- segmentation
- consonant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は入力音声の音素認識を行ない、その結果を用い
て音節、単語2文章等を認識する音声認識方法に関する
ものである。
て音節、単語2文章等を認識する音声認識方法に関する
ものである。
従来例の構成とその問題点
第1図は従来の音声認識装置における音素セグメンテー
ション方法の1例を示している。以下この従来例の構成
について第1図とともに説明する。
ション方法の1例を示している。以下この従来例の構成
について第1図とともに説明する。
第1図において、音声は単位時間(以後フレームと称す
)毎に音素識別を行う音素識別処理部1゜高域帯域フィ
ルタ2.低域帯域フィルタ3へ入力 ′される。音素識
別処理部1はloms単位に母音第1候補、母音第2候
補、子音第1候補を出力する。
)毎に音素識別を行う音素識別処理部1゜高域帯域フィ
ルタ2.低域帯域フィルタ3へ入力 ′される。音素識
別処理部1はloms単位に母音第1候補、母音第2候
補、子音第1候補を出力する。
一方高域帯域フィルタ2.低域帯域フィルタ3の出力は
/ぐワーディッゾ検出部4,5へ送られる。
/ぐワーディッゾ検出部4,5へ送られる。
ノeワーディヅグ検出部4.5では各々/ぞワーの時間
的変化から・やワーの凹部(以後・ぐワープイーtグと
表記する)を検出し出力する′。
的変化から・やワーの凹部(以後・ぐワープイーtグと
表記する)を検出し出力する′。
次いで、・臂ワーディヴプ検出部4.5の出力を判別図
6とセグメント判定部7で比較し、パワーディヅグの位
置から子音区間を検出する。
6とセグメント判定部7で比較し、パワーディヅグの位
置から子音区間を検出する。
上記の如く検出された子音区間と前述したフレーム毎の
音素識別処理部の出力を用いて音素認識部8で最終的な
音素認識を行う。
音素識別処理部の出力を用いて音素認識部8で最終的な
音素認識を行う。
この方法の原理は母音−子音−母音とつながる単語が発
声された場合、一般に、子音区間においては母音区間に
比して・ぐワ〒が小さくなるために生じるノ!ワーディ
ッグに着目して子音区間を検出しようとするものである
が音声はその・り゛ワーの変動様態が多様なために、同
一音素中に生じる小さfl /4’ワーディッゾを誤っ
て検出してしまうために生ずる音素の付7+11(1つ
の音素を2つ以上の音素と誤認識する)又はノ4ワーデ
ィヅプの大きさが小さいために子音音素の存在を見落し
てしまうために生じる音素の脱落等の誤りが生じる場合
がある。
声された場合、一般に、子音区間においては母音区間に
比して・ぐワ〒が小さくなるために生じるノ!ワーディ
ッグに着目して子音区間を検出しようとするものである
が音声はその・り゛ワーの変動様態が多様なために、同
一音素中に生じる小さfl /4’ワーディッゾを誤っ
て検出してしまうために生ずる音素の付7+11(1つ
の音素を2つ以上の音素と誤認識する)又はノ4ワーデ
ィヅプの大きさが小さいために子音音素の存在を見落し
てしまうために生じる音素の脱落等の誤りが生じる場合
がある。
これらの誤りを最小限に押えるために・ぐワーディッグ
の大きさに関する閾値を設け、その閾値の範囲内に属す
るパワーディップにより子音区間を検出する方法がとら
れる。
の大きさに関する閾値を設け、その閾値の範囲内に属す
るパワーディップにより子音区間を検出する方法がとら
れる。
本従来例では、その閾値に対応するものとして2次元判
別図を使用している。
別図を使用している。
第2図に2次元判別図の例を示す。
この判別図の作成は、種々の音素を含む多数の音声デー
タの分析から統計的にめた各種子音の平均的なパワーデ
ィップの大きさをもとにして行なわれるのが一般的であ
る。
タの分析から統計的にめた各種子音の平均的なパワーデ
ィップの大きさをもとにして行なわれるのが一般的であ
る。
しかしながら、上記した従来例では以下に述べる欠点が
ある。
ある。
即ち、判別図が各種音素で生じる平均的な・やワーディ
ヴプの大きさで作成されているために、ある音素では前
後の音素の条件によって、その判別図との整合性が悪く
なり、検出誤りが生じやすくなる場合が生じる。
ヴプの大きさで作成されているために、ある音素では前
後の音素の条件によって、その判別図との整合性が悪く
なり、検出誤りが生じやすくなる場合が生じる。
たとえば「す、ポロ(/5AQPORO/)」と発声し
た場合の10RO/の部分の/R/では他の音素に比し
てディップの大きさが小さいために/R/の脱落が生じ
10RO/の部分が10/又は長母音100/と誤認識
される場合が多い。
た場合の10RO/の部分の/R/では他の音素に比し
てディップの大きさが小さいために/R/の脱落が生じ
10RO/の部分が10/又は長母音100/と誤認識
される場合が多い。
発明の目的
本発明は上記従来例の欠点を除去し、音素のセグメンテ
ーション精度を向上させ、音素誤認識を減少させること
を目的とするものである。
ーション精度を向上させ、音素誤認識を減少させること
を目的とするものである。
発明の構成
本発明は、上記目的を達成するために、セグメント判定
に使用するiRワーティヅグ判別図をあらかじめ多数用
意しておき、フレーム毎の音素識別結果を参照しながら
いずれかを選択することを特徴とし、これにより、認識
すべき音素に応じた最適な閾値を使ったセグメンテーシ
ョンを行なって音素誤認識を減少するものである。
に使用するiRワーティヅグ判別図をあらかじめ多数用
意しておき、フレーム毎の音素識別結果を参照しながら
いずれかを選択することを特徴とし、これにより、認識
すべき音素に応じた最適な閾値を使ったセグメンテーシ
ョンを行なって音素誤認識を減少するものである。
実施例の説明
以下に本発明の一実施例の構成について、図面とともに
説明する。第3図は本発明の一実施例であり、フレーム
毎の音素識別処理部1.高域帯域フィルタ2.低域帯域
フィルタ3./fワーディヴプ検出部4,5は第1図の
従来例と同じである。判別図■6−19判別図■6−2
・・・・・・・判別図■6−nは認識すべき音素又はコ
ンテキスト(音素の並び型)に応じて設定した高域のデ
ィップ、低域のディップの2次元の判別図である。判別
図選択論理部9ではフレーム毎の音素識別結果に応じて
適用する判別図を選択するための処理を行う。
説明する。第3図は本発明の一実施例であり、フレーム
毎の音素識別処理部1.高域帯域フィルタ2.低域帯域
フィルタ3./fワーディヴプ検出部4,5は第1図の
従来例と同じである。判別図■6−19判別図■6−2
・・・・・・・判別図■6−nは認識すべき音素又はコ
ンテキスト(音素の並び型)に応じて設定した高域のデ
ィップ、低域のディップの2次元の判別図である。判別
図選択論理部9ではフレーム毎の音素識別結果に応じて
適用する判別図を選択するための処理を行う。
次に上記実施例の動作について説明する。
第3図において判別図■6−2は同一母音にはさまれた
/R/のセグメンテーション用の判別図とする。第4図
に判別図の例、第6図に判別図■6−2を選択するため
の論理を示す。第5図に「す、ポロ」と発声した場合の
10RO/の部分の適用例を示す。同一母音にはさまれ
た/R/は第5図高域A?ワー、低域パワーに示すよう
にパワーの変化が少ない。従って第4図に示す判別図も
第2図の例′に比べて子音区間とみなすディップの大き
さの範囲を大きくとっておく。判別図■6−2を適用す
るための論理は第6図に示すようにまず母音第1候補が
連続15フレ一ム以上同一であり(途中3フレ一ム以内
で第2候補になる部分を含む)かつその区間に子音第1
候補が/R/のフレームが存在することである。この結
果第5図に示すようにフレームA55からフレーム45
9までは/R/ と認識され従来10/、又は100/
と区別できなかった10RO/が認識されたことになる
。
/R/のセグメンテーション用の判別図とする。第4図
に判別図の例、第6図に判別図■6−2を選択するため
の論理を示す。第5図に「す、ポロ」と発声した場合の
10RO/の部分の適用例を示す。同一母音にはさまれ
た/R/は第5図高域A?ワー、低域パワーに示すよう
にパワーの変化が少ない。従って第4図に示す判別図も
第2図の例′に比べて子音区間とみなすディップの大き
さの範囲を大きくとっておく。判別図■6−2を適用す
るための論理は第6図に示すようにまず母音第1候補が
連続15フレ一ム以上同一であり(途中3フレ一ム以内
で第2候補になる部分を含む)かつその区間に子音第1
候補が/R/のフレームが存在することである。この結
果第5図に示すようにフレームA55からフレーム45
9までは/R/ と認識され従来10/、又は100/
と区別できなかった10RO/が認識されたことになる
。
発明の効果
本発明によれば音素やコンテキストに応じた精密な音素
のセグメンテーションができ、音声認識誤まりの減少に
有効である。
のセグメンテーションができ、音声認識誤まりの減少に
有効である。
第1図は従来法における音素認識法のブロック図、第2
図は従来例における2次元のセグメンテーション判別図
、第3図は本発明の一実施例を示すフロ、り図、第4図
は本発明における同一母音にはさまれた/Ft/のセグ
メンテーションを行う判別図の例、第5図は本発明の動
作説明図、第6図は本発明における判別図選択論理の動
作例を示すフローチャートである。 1・・・音素識別処理部、2・・・高域帯域フィルタ、
3・・・低域帯域フィルタ、 4.5・・・パワーディラグ検出部、 6−1〜6−n・・・判別図■〜■、 7・・・セグメント判定部、8・・・音素認識部。 第1図 シ遂テ′411°の矢択 第3図 第4図 島りにデ1ツブ°Q入択 第5図 綺r 第6図
図は従来例における2次元のセグメンテーション判別図
、第3図は本発明の一実施例を示すフロ、り図、第4図
は本発明における同一母音にはさまれた/Ft/のセグ
メンテーションを行う判別図の例、第5図は本発明の動
作説明図、第6図は本発明における判別図選択論理の動
作例を示すフローチャートである。 1・・・音素識別処理部、2・・・高域帯域フィルタ、
3・・・低域帯域フィルタ、 4.5・・・パワーディラグ検出部、 6−1〜6−n・・・判別図■〜■、 7・・・セグメント判定部、8・・・音素認識部。 第1図 シ遂テ′411°の矢択 第3図 第4図 島りにデ1ツブ°Q入択 第5図 綺r 第6図
Claims (1)
- 入力音声を単位時間毎に音素識別を行うと共に、音声ス
ペクトルの複数帯域パワーをめ、その時間変化によって
生じるディヴグの大きさを各帯域毎の多次元判別図に適
用して音素のセグメンテーションを行ない、音素識別結
果とセグメンテーション結果を併用して音素認識を行う
音声認識方法において、フレーム毎の音素識別結果に応
じて適用する判別図又は判別条件を変えることを特徴と
する音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58147308A JPS6039696A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58147308A JPS6039696A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6039696A true JPS6039696A (ja) | 1985-03-01 |
JPH0155479B2 JPH0155479B2 (ja) | 1989-11-24 |
Family
ID=15427253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58147308A Granted JPS6039696A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6039696A (ja) |
-
1983
- 1983-08-13 JP JP58147308A patent/JPS6039696A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH0155479B2 (ja) | 1989-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4736429A (en) | Apparatus for speech recognition | |
CN101149928B (zh) | 声音信号处理方法、声音信号处理设备及计算机程序 | |
US6868378B1 (en) | Process for voice recognition in a noisy acoustic signal and system implementing this process | |
JP6087731B2 (ja) | 音声明瞭化装置、方法及びプログラム | |
JPS6039696A (ja) | 音声認識方法 | |
JP3266124B2 (ja) | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 | |
JPH04163497A (ja) | 音声区間検出方法 | |
CN111933111A (zh) | 语音唤醒方法、装置、电子设备和存储介质 | |
JPS6039697A (ja) | 音声認識方法 | |
Elghonemy et al. | Speaker independent isolated Arabic word recognition system | |
Ruinskiy et al. | A multistage algorithm for fricative spotting | |
JPS6363919B2 (ja) | ||
JPS6039700A (ja) | 音声区間検出方法 | |
JPH04275600A (ja) | 音声認識装置 | |
JPS6059394A (ja) | 音声認識装置 | |
JPS59170894A (ja) | 音声区間の切り出し方式 | |
JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
JPS6312000A (ja) | 音声認識装置 | |
JPS6242200A (ja) | 音声認識装置 | |
JPS61177000A (ja) | 音声パタ−ン登録方式 | |
JPH0451036B2 (ja) | ||
JPS59168497A (ja) | 音声認識方法 | |
JPH03239299A (ja) | 摩擦子音識別方式 | |
JPS63247798A (ja) | 音声区間検出装置 | |
JPS6069695A (ja) | 語頭子音のセグメンテ−ション法 |