JPS6039699A

JPS6039699A - 音声認識方法

Info

Publication number: JPS6039699A
Application number: JP58147307A
Authority: JP
Inventors: 金指　久則; 秋場　国夫; 入間野　孝雄
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1983-08-13
Filing date: 1983-08-13
Publication date: 1985-03-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、入力音声の音素認識を行ない、その結果を用
いて音節、単語、文章等を認識する音声認識方法、特に
無声破擦音、無声破裂音の認識方法に関するものである
。

従来例の構成とその問題点第１図は、従来の無声破擦音及び無声破裂音（以下／Ｕ
Ｃ／と略記する）の認識方法を実施する装置を示してい
る。以下にこの従来例の構成について第１図と共に説明
する。第１図において１は音声分析部であシ、この音声
分析部１の出力を利用してＳ／ＵＶ／Ｖ判別部２で無音
／無声／有声判別（以下Ｓ／ＵＶ／Ｖと略記する）を行
ないさらに無音区間検出部３で破裂時点直前の無音区間
を検出し次に／ＵＣ／の後端をセグメンテーション部４
で検出する。最後にセグメンテーションされた区間を音
素の標準／４’タンとの距離を使って音素の判定を行な
う。

次に上記従来例の動作について第２図と共に説明する。

第２図は”　１　（ｉｃｉ　７”と発声した時の無声破
擦音／Ｃ／付近の音声パワー、Ｓ／Ｕｖ／ｖ判別結果及
び音素標準バタンが最も近い音素の各々の時間変化を表
わしている。音声分析部１において入力した音声を１フ
レーム（１０ｍ５ｅｃ　）毎に分析し特徴パラメータを
抽出する。このパラメータを使ってＳ／ＵＶ／Ｖ判別部
２においてＳ／Ｕｖ／■判別を行ナイ、さらに無音区間
検出部３において音声・やワーを利用して無音区間を検
出する。次にセグメンテーション部４で音声パワーのデ
ィップを使ってセグメンテーションを行ない、／Ｃ／の
後端を決める。最後にセグメントされた区間内で、特徴
ｉ＋ラメータを使って、音素標準バタンとの距離計算を
行ない、最も距離が近い音素をフレーム毎に識別し、こ
の区間において最もフレーム数々；多い音素を認識音素
と判定する。第２図において／Ｃ／区間のフレーム毎の
音素判定は全て／Ｃ／であるので／ｉｃｉ／の／Ｃ／は
正しく認識された。しかしながら上記従来例においては
、セグメントされた区間の音素を判定する時、／Ｃ／と
識別された音素のフレーム数が多い場合はよいが、第３
図に示すように／Ｔ／や／に／等のフレーム数が多い場
合は／Ｃ／区間を他の音素に誤認識する欠点があった。

破裂音（／ＵＣ／）を精度よく認識することを目的とす
るものである。

発明の構成本発明は、上記目的を達成するために、／ＵＣ／区間に
おけるケプストラム係数の各次数毎の隣接フレーム簡距
離をめ、その時間変化バタンの特徴を検出することによ
シ、／ＵＣ／の認識を精度よく行なうものである。

実施例の説明以下に本発明の一実施例の構成について図面と共に説明
する。第１図の音素判定部５における／ＵＣ／区間の音
素の判定に際し次式に示す、ケプストラム係数の次数毎
の隣接フレーム間圧１１＃（以下ＣＤと略記する）の時
間変化を利用する。

ＣＤ　（Ｉ、Ｊ）＝２（ＣＰ（Ｉ、Ｊ）−ＣＰ（Ｉ−１
、Ｊ））２■　：フレーム番号Ｊ　：ケグストラム分析の第５次の次数Ｊ＝１〜ＮＰ、
　ＮＰは分析次数ＣＤ（１，Ｊ）　第１フレームめの第５次の隣接フレー
ム間のケシストラム距離ｃｐ（工、Ｊ）　第１フレームめの第５次のケプストラ
ム係数第４図は１　（ｉｃｉ　）と発声した時の／Ｃ／付近の
第１次と２次または３次の距離、音声ノヤワー、Ｓ／Ｕ
Ｖ／Ｖ判別結果及び音素標準ノやタンとの距離に最も近
い音素の各々の時間変化を表わしている。

今、／Ｃ／区間の１次と２次または３次の距離の時間変
化パタンに着目すると１次の距離は谷形であり２次また
は３次の距離は山形をしている。たとえ標準バタンとの
距離に最も近い音素が／に／であっても次数によるＣＤ
の時間変化／ｆメタン利用してこの区間を／Ｃ／と認識
できる。

発明の効果次表は従来方法と本発明方法による／Ｃ／の認識率を示
したものである。複数の話者を入力データとした認識実
験において従来方法では／Ｃ／の認識が７３％であった
ものが本発明の方法を用いるこ上記に一例を示すように
、本発明によれば無声破擦音、無声破裂音（／　ＵＣ／
　）の検出に次数にょるＣＤの時間変化パタンの特徴を
利用することにょシ、従来方法に比べ精度よ＜／ＵＣ／
を検出できる利点を有する。

【図面の簡単な説明】

第１図は従来の無声破擦音、無声破裂音を認識する装置
のブロック図、第２図、第３図は同認識方法の説明図、
第４図は本発明の一実施例における音声認識装置の説明
図である。１・・・音声分析部、２・・・無音／無声／有声判別部
（Ｓ／ＵＶ／Ｖ判別部）、３・・・無音区間検出部、４
・・・セグメンテーション部、５・・・音素判定部。第３図フｖｖ　ｖｖ　ｓ　ｓｓ　ｓ　ｓｕｖｕｖｕｖｗｖｖ　ｖ
ｌｌｌＩ　ＴＴＣＫＣＩＩＩＩ −１ぐフＩＳ／ＵＶ／Ｖ刺別純泉考（懺１′１８釆

Claims

【特許請求の範囲】

入力音声に対し単位時間毎に音素認識を有なって認識音
素系列を得る際に、各無声破擦音および無声破裂音区間
内のケシストラム係数の各次数毎の隣接フレーム間距離
をめ、その時間変化の・やタンの特徴を検出することに
よシ無声破擦音および無声破裂音の認識を行なうことを
特徴とする音声認識方法。