JPS5972496A

JPS5972496A - 単音識別装置

Info

Publication number: JPS5972496A
Application number: JP57183411A
Authority: JP
Inventors: 博松浦; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1982-10-19
Filing date: 1982-10-19
Publication date: 1984-04-24
Also published as: DE3372420D1; EP0109190B1; EP0109190A1; US4625287A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は入力音声を高精度に単音識別することのできる
実用性の高い単音識別装置に関する。

〔発明の技術的背景とその問題点〕

情報を音声入力して計算機処理に用いる場合、上記音声
を高精度に認識することが必要である。

そこで入力音声の音響ノ９ラメータ系列を求め、これ全
音節単位にセグメント化して単音認識することが試みら
れている。然し、このようにして単音を認識する場合、
日本語に限っても・一般に１０１種類もあることから、
これ全同一手段によって認識することが非常に困難であ
る。つまシ、その計算量が膨大である上、認識率の向上
もさほど期待できないことから、その実現は殆んど不可
能である。そこで従来では、先ず母音の識別全行ったの
ち、子音についての細分類処理を行うことが種々研究さ
れている。しかし、このような従来方式にあっては、上
記母音の識別を通常１０〜４０　ｍ５ｅｃからなる１フ
レ一ム全単位として標準パターンとの類似度計算値を求
めて行っている為、高精度の認識結果が得られないと云
う問題があった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力音声の単音を個々に高精度
に認識することのできる実用性の高い単音認識装置を提
供することにある。

〔発明の概賛〕

不発８ＡＦｉ入力音Ｐを音節単位にセグメント化してな
る音響パラメータ系列の主として母音的特徴を有する部
分を、母音、拗音、撥音等のカテゴリに対して１ｃｖｌ　、　１ｃｙｖｌ　ｌ　ＩｃＶＮＩ　、　ＩＣ
ＹＶＮＩ　、　ＩＮ＋に大分類し、またその細分類結果
とを用いて前記入力音７”ｒ音節単位に単音認識するよ
うにしたものである。

〔発明の効果〕

かくして本発明によれば、入力音声がその音節単位毎に１ｃｖｌ　、　１ｃｙｖｌ　、　ＩｃＶＮＩ　、　Ｉｃ
ＹＶＮＩ　、　ＩＮ＋からなる母音的特徴を有する単音
声要素に大分類され、これが単音認識の要素として用い
られるので高精度な単音認識が可能となる。しかも、こ
の大分類を母音的特徴を有する区間についてだけパター
ンマツチング法によって類似度目算すれは、その大分類
結果は非常に精度の高いものとなり、従って単音認識に
極めて有効に作用する。これ故、実用上絶大なる利点効
果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例にっき説明する
。

第１図は実施例装置の概略構成図である。マイクロホン
等を介して入力される音声４８号は音声入力部１を介し
て電気信号変換され、特徴抽出部２に導びかれる。この
特徴抽出部２は、例えは１６チヤンネルのバンドパスフ
ィルタ群カらなシ、音声の特徴を効果的に表現する音響
パラメータを求めるものである。尚、この音響パラメー
タは、上記バンドパスフィルタ群の出力に限られるもの
ではなく、ケグヌトラム係数や相関分析によって得られ
る種々の・ヤラメータのうちの一部、または複数の組合
せとして与えられるものであっても良い。しかしここで
は、特徴抽出部２は、上記音響パラメータのデータと共
に、全帯域におけるパワー、低域、高域、中高域、中低
域における各々のパワーを求め、これも音響パラメータ
とするものとする。しかしてこのようにして求められた
音響ｉ９ラメータはセグメント化処理部３にて単音節毎
にセグメント化でれる。これによって、単音節の特徴パ
ラメータが抽出されることになる。この単音節の特徴パ
ラメータは、例えば周波数軸方向に１６チヤンネル分割
したバンドパスフィルタ群出力全セグメント化し、この
セグメント化芒れた音節を時間軸方向に等間隔に１６虞
リサンプルした２５６次元の音声パターンとして力えら
れる。

この音声パターンについて次のように大分類処理が行わ
れる。即ち大分類処理部４け、辞１・やターン５に予め
登録された標準パターンと前記音声・やターンとを例え
ば複合類４９度法や・ぞワー平均値と共分散とを考慮し
た二次識別関数等を用いて照合し、その母音的特徴から
大分類処理を行っている。この大分類カテゴリは、ｖ’
＜ｍ音素片、Ｃを子音素片、ｙ　ｋ拗音素片、Ｎを撥音
累月としてＩｃＶＩ　　（Ｖ＝ａ　、　ｉ　、ｕ　、ｅ　、ｏ　）
ｌｃｙｖｌ　（Ｖ＝ａ、ｕ　、ｏ）ＩｃＶＮＩ　（Ｖ＝＝ａ、ｉ、ｕ、ｅ、ｏ）ＩｃＹＶＮ
Ｉ　（Ｖ＝ａ、ｕ、ｏ　）ＩＮ＋として与えられる。尚、上記子音素片Ｃは日本語の場合
、一般にに、ｓ、ｔ、ｎ、ｈ、ｍ、ｒ、ｗ等として与え
られる。しかして、大分類処理部４では、上記カテゴリ
の子音素片Ｃを除く母音的特徴を有する部分の音声パタ
ーンを用いて大分類処理を実行する。つ１シＩｖｌ　　（ｖ＝ａ、ｉ、ｕ、ｅ、ｏ）ｌｙｖｌ　　（
ｖ＝＝ｌｊｌ　、　ｕ　、　ｏ　：）ＩＶＮＩ　　（Ｖ
＝＝ａ、ｉ、ｕ、ｅ、ｏ）ＩＹＶＮＩ　（Ｖ＝ａ　、　
ｕ　、　ｏ　）ＩＮ＋からなる計１７のカテゴリに大分類処理を行う。

但し、母■素片Ｖと長音累月Ｎとは必ず切離されて音声
入力されると云う条件が存在するならばｌｖｌ　　（Ｖ＝ａ、１．ｕ、ｅ、ｏ）ｌｙｖｌ　　（
ｖ＝ｌｌ　、　ｕ　、　ｏ　）ＩＮ＋からなる肘９のカテゴリに大分類処理してもよいことは
云うまでもない。次表はこのように大分類されるカテゴ
リと、各単音の分類カテゴリとを対比して示したもので
ある。

このようにして９カテゴリに大分類がなされると、その
大分類結果と前記セグメント化された音声パターンデー
タが単音分類部６に送られる。この単音分類部６では、
大分類結果として水式れるカテコゞり内において、その
子音特性に注目し、母音へのわたシの途中までを含む子
音素片を時間軸上でリサンプルしてその単音認識を行う
。単音辞書７にはこのような子音特性の標準パターンが
上記各カテゴリ毎に分類して登録されている。従って、
各カテゴリ毎に見れば単音を認識するのに最大１４カテ
ゴリについて子音特性のマツチング処理すれば、大分類
カテコＩＪ内において単音の認識が可能となる。

尚、第２図に示すように前記大分類処理と並行して子音
特性を用いた単音認識処理を行い、この単音認識結果と
大分類結果とを判定部８に導いて、これら全総合的に判
定して最終的な単音認識結果を得るようにしてもよい。

ところで、上述した音節の大分類処理はその子音部分を
除いた母音性特徴の表われた音声パターンのパターンマ
ツチングによって行われ、これによって筒い認識率が得
られるようになっている。即ち、子音部と判定される音
声区間全除去して、大分類処理が行われる。またこのと
き、例えは拗音節の場合、母音部が長くなるとその識別
率の低下を招くことから、母音や撥音部分の長さを制限
して上述した大分類処理が行われる。当然、辞書パター
ン５として登録場れる標準パターンもこのようにして予
め求めておくことは云うまでもない。

即ち今、第３図に示す音声パターン（全パワーの時間的
変化）金側にとると、Ｂ２．Ｕ、Ｖ等のラベルを付して
示されるように、声帯振動が直接税われている区間Ｂ２
、無声音区間Ｕ１有声音区間Ｖに分類される。このラベ
ル付けは、例えはセグメント化処理部３よシ与えられる
音声パターンに対して音響パラメータ全判定する等して
大分類処理部４にて行われる。しかして、上記ラベル情
報から、例えば母音性の区間ｋＴ８からＴＰ、に示すよ
うに一定長（２０フレ一ム分）切出し、これを大分類処
理の対象とツーる。しかして、辞１−４′ターン５に登
録された標準・やターンはカテゴリｔについて、（φ＜
１＞　）として力えられ、ｍの値によって規定される各
辞書パターンが相互に直焚する関係となっている。大分
類処理部４では入力廿声パターンのベクトルｆと種類ｍ
の辞書・リーン（、＋（４）の各面におけるベクトル成
分との間で、例えばなる複合類似度引算を行い、その計算結果を相互比較し
て大分類結果を得ている。この複合類似度計算法による
マツチング処理のアルゴリズムについては、従来よシ知
られた種々のアルゴリズムを適宜用いれはよい。このよ
うにして大分類処理を行い、その結果全利用して単音認
識する本装置によれば、従来装置に比してその言］算量
全犬幅に削減することができる。それにも増して認識精
度の飛躍的な向上を図カ得、高精度な単音識別が可能と
なる等の実用上絶大なる効果が奏せられる０尚、本発明は上述した実施例に限定嘔れるものではなく
、その要旨全逸脱しない乾田コでｆＩｋ々変形して実施
することができる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の概略構成図１、第２図
は本発明の他の実施例装置の概略構成図１、第３図は入
力音声ノリ一ンとそのラベルを示す図である。１・・・音声入力部、２・・・特徴抽出部、３・・・セ
フ。メント化処理部、４・・・大分類処理部、５・・・辞柑
−／’Ｐターン、６・・・単音分類部、７・・・即音辞
書、８・・・判定部。

Claims

【特許請求の範囲】

（１）入力音声を電気信号に変換してその音響パラメー
タ系列を得る手段と、この音響パラメータ系列を音節単
位にセグメント化する手段と、このセグメント化された
音節単位毎に上記音響・ぞラメータ系列を標準パターン
と照合して、■を母音素片、Ｃを子音素片、Ｙを拗音素
片、Ｎを撥音素片とするＩｃＶＩ（Ｖ＝ａ、ｉ　＊１１．ｅ　、Ｑ）、　１ｃＹ
Ｖｌ（Ｖ＝ａ、ｕ、ｏ）ＩｃＶＮＩ（Ｖ＝ａ、ｉ　、ｕ
、ｅ、ｏ）、　ＩｃＹＶＮＩ（Ｖ＝ａ、ｕ、ｏ）ＩＮ＋からなる単音節要素の少なくとも２群以上に大分類する
手段と、この大分類結果全利用しであるいはこの大分類
処理と並行して前記特徴パラメータ系列全細分類処理す
る手段と、これらの大分類および細分類結果に従って前
記音節単位の単音情報を得る手段とを具備したこと全特
徴とする単音識別装置。
（２）音響パラメータ系列と標準パターンとの照合は類
似度計算により行われるものである特許請求の範囲第１
項記載の単音識別装置。
（３）音響パラメータ系列のセグメント化あるいは大分
類処理は、■およびＮの存在区間を制限して行われるも
のである特許請求の範囲第１項記載の単音識別装置。