JPS6039696A

JPS6039696A - 音声認識方法

Info

Publication number: JPS6039696A
Application number: JP58147308A
Authority: JP
Inventors: 秋場　国夫; 入間野　孝雄; 金指　久則
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1983-08-13
Filing date: 1983-08-13
Publication date: 1985-03-01
Also published as: JPH0155479B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は入力音声の音素認識を行ない、その結果を用い
て音節、単語２文章等を認識する音声認識方法に関する
ものである。

従来例の構成とその問題点第１図は従来の音声認識装置における音素セグメンテー
ション方法の１例を示している。以下この従来例の構成
について第１図とともに説明する。

第１図において、音声は単位時間（以後フレームと称す
）毎に音素識別を行う音素識別処理部１゜高域帯域フィ
ルタ２．低域帯域フィルタ３へ入力　′される。音素識
別処理部１はｌｏｍｓ単位に母音第１候補、母音第２候
補、子音第１候補を出力する。

一方高域帯域フィルタ２．低域帯域フィルタ３の出力は
／ぐワーディッゾ検出部４，５へ送られる。

ノｅワーディヅグ検出部４．５では各々／ぞワーの時間
的変化から・やワーの凹部（以後・ぐワープイーｔグと
表記する）を検出し出力する′。

次いで、・臂ワーディヴプ検出部４．５の出力を判別図
６とセグメント判定部７で比較し、パワーディヅグの位
置から子音区間を検出する。

上記の如く検出された子音区間と前述したフレーム毎の
音素識別処理部の出力を用いて音素認識部８で最終的な
音素認識を行う。

この方法の原理は母音−子音−母音とつながる単語が発
声された場合、一般に、子音区間においては母音区間に
比して・ぐワ〒が小さくなるために生じるノ！ワーディ
ッグに着目して子音区間を検出しようとするものである
が音声はその・り゛ワーの変動様態が多様なために、同
一音素中に生じる小さｆｌ　／４’ワーディッゾを誤っ
て検出してしまうために生ずる音素の付７＋１１（１つ
の音素を２つ以上の音素と誤認識する）又はノ４ワーデ
ィヅプの大きさが小さいために子音音素の存在を見落し
てしまうために生じる音素の脱落等の誤りが生じる場合
がある。

これらの誤りを最小限に押えるために・ぐワーディッグ
の大きさに関する閾値を設け、その閾値の範囲内に属す
るパワーディップにより子音区間を検出する方法がとら
れる。

本従来例では、その閾値に対応するものとして２次元判
別図を使用している。

第２図に２次元判別図の例を示す。

この判別図の作成は、種々の音素を含む多数の音声デー
タの分析から統計的にめた各種子音の平均的なパワーデ
ィップの大きさをもとにして行なわれるのが一般的であ
る。

しかしながら、上記した従来例では以下に述べる欠点が
ある。

即ち、判別図が各種音素で生じる平均的な・やワーディ
ヴプの大きさで作成されているために、ある音素では前
後の音素の条件によって、その判別図との整合性が悪く
なり、検出誤りが生じやすくなる場合が生じる。

たとえば「す、ポロ（／５ＡＱＰＯＲＯ／）」と発声し
た場合の１０ＲＯ／の部分の／Ｒ／では他の音素に比し
てディップの大きさが小さいために／Ｒ／の脱落が生じ
１０ＲＯ／の部分が１０／又は長母音１００／と誤認識
される場合が多い。

発明の目的本発明は上記従来例の欠点を除去し、音素のセグメンテ
ーション精度を向上させ、音素誤認識を減少させること
を目的とするものである。

発明の構成本発明は、上記目的を達成するために、セグメント判定
に使用するｉＲワーティヅグ判別図をあらかじめ多数用
意しておき、フレーム毎の音素識別結果を参照しながら
いずれかを選択することを特徴とし、これにより、認識
すべき音素に応じた最適な閾値を使ったセグメンテーシ
ョンを行なって音素誤認識を減少するものである。

実施例の説明以下に本発明の一実施例の構成について、図面とともに
説明する。第３図は本発明の一実施例であり、フレーム
毎の音素識別処理部１．高域帯域フィルタ２．低域帯域
フィルタ３．／ｆワーディヴプ検出部４，５は第１図の
従来例と同じである。判別図■６−１９判別図■６−２
・・・・・・・判別図■６−ｎは認識すべき音素又はコ
ンテキスト（音素の並び型）に応じて設定した高域のデ
ィップ、低域のディップの２次元の判別図である。判別
図選択論理部９ではフレーム毎の音素識別結果に応じて
適用する判別図を選択するための処理を行う。

次に上記実施例の動作について説明する。

第３図において判別図■６−２は同一母音にはさまれた
／Ｒ／のセグメンテーション用の判別図とする。第４図
に判別図の例、第６図に判別図■６−２を選択するため
の論理を示す。第５図に「す、ポロ」と発声した場合の
１０ＲＯ／の部分の適用例を示す。同一母音にはさまれ
た／Ｒ／は第５図高域Ａ？ワー、低域パワーに示すよう
にパワーの変化が少ない。従って第４図に示す判別図も
第２図の例′に比べて子音区間とみなすディップの大き
さの範囲を大きくとっておく。判別図■６−２を適用す
るための論理は第６図に示すようにまず母音第１候補が
連続１５フレ一ム以上同一であり（途中３フレ一ム以内
で第２候補になる部分を含む）かつその区間に子音第１
候補が／Ｒ／のフレームが存在することである。この結
果第５図に示すようにフレームＡ５５からフレーム４５
９までは／Ｒ／　と認識され従来１０／、又は１００／
と区別できなかった１０ＲＯ／が認識されたことになる
。

発明の効果本発明によれば音素やコンテキストに応じた精密な音素
のセグメンテーションができ、音声認識誤まりの減少に
有効である。

【図面の簡単な説明】

第１図は従来法における音素認識法のブロック図、第２
図は従来例における２次元のセグメンテーション判別図
、第３図は本発明の一実施例を示すフロ、り図、第４図
は本発明における同一母音にはさまれた／Ｆｔ／のセグ
メンテーションを行う判別図の例、第５図は本発明の動
作説明図、第６図は本発明における判別図選択論理の動
作例を示すフローチャートである。１・・・音素識別処理部、２・・・高域帯域フィルタ、
３・・・低域帯域フィルタ、４．５・・・パワーディラグ検出部、６−１〜６−ｎ・・・判別図■〜■、７・・・セグメント判定部、８・・・音素認識部。第１図シ遂テ′４１１°の矢択第３図第４図島りにデ１ツブ°Ｑ入択第５図綺ｒ第６図

Claims

【特許請求の範囲】

入力音声を単位時間毎に音素識別を行うと共に、音声ス
ペクトルの複数帯域パワーをめ、その時間変化によって
生じるディヴグの大きさを各帯域毎の多次元判別図に適
用して音素のセグメンテーションを行ない、音素識別結
果とセグメンテーション結果を併用して音素認識を行う
音声認識方法において、フレーム毎の音素識別結果に応
じて適用する判別図又は判別条件を変えることを特徴と
する音声認識方法。