JPS60129798A

JPS60129798A - 音声認識方式

Info

Publication number: JPS60129798A
Application number: JP23634483A
Authority: JP
Inventors: 広田　敦子; 裕飯塚; 山田　興三
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1983-12-16
Filing date: 1983-12-16
Publication date: 1985-07-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（技術分野）この発明は、認識性能の向上を図るようにした音声認識
方法に関する。

（技術的背景）従来の音声認識装置は、第１図のように杉１成されてお
シ、ｌは入力端子、２は周波数分析部、３はスペクトル
変換部、４は、音声区間決定部、５は再サンプル部、６
は距離演算部、７は標準・ぞター／メモリ、８は判定部
、９は認識結果出力端子である。

従来の音声認識装置ではス被り）／し変換した入力音声
パターンと、標準ノやターンＫ　、’（Ｋ＝１　、　Ｋ
　）との距離演算において距離Ｄｋを入力・母ターンの
時間４′１″″本第ｎ番目のｍチャネル目の要素をＡ（
ｍ、ｎ）とし、標準ツクターンにの時間標本点ｎ番目の
ｍチャネル目の要素をＳｋ　（ｍ　、　ｎ　）とした時
に（１）式によシ計算しに個の標準・ぐターンの中でＩ
）ｋを最小とする標準パターンのカテコ゛りを認識結果
としている。ここで重みＷ（ｍ、ｎ）の計算方法につい
ては数々の方式があるがこの発明の目的でないので省略
する。

従来の音声認識装置では入力音声を周波数分析し、音声
スペクトルの最小２乗近似直線を計算し、最小２乗近似
直線の傾きをスペクトル傾斜値としている。そして、ス
ペクトル傾斜値が負の場合は入力音声を有声音と判定し
、音声スペクトルから追声スペクトルの最小２乗近似直
線を引き、スぺりトル傾斜値が正の場合には入力音声を
無声音と判定し、音声スペクトルから音声スペクトルの
平均を引くことによシ、入力音声の声帯音源特性の傾き
および発声強度の差の正規化を行なっている。

正規化された音声データは、再サンプル部５で１′ｊ声
区間決定部４で決定された音声区間を町ザンゾルし、一
定の音声サンプル数に対応したデータ長のスペクトル・
やターンとする。

第２図Ｋｒ二」と「キーウ」、「ナナ」ト「モーイチド
」の音声ツクターンのツナグラムの例を示す。第２図で
横方向は周波数軸、縦方向が時間軸である。

このように発声長の異なった語でも再ザン４ルを行なっ
た１定リサンプルデータでマツチングすることにより、
［ニ」と「キュウ」と「ナナ」と「モーイチド」はかな
シ似がよったパターンにｌシ、その差としては「キュウ
」の先Ｈ１Ｊｉフレームは、無声音だが「ニ」では有声
音であること、「ナナ」と「モーイチド」に関しては通
常の発声長では明らかに長さが異なるがリサンプル後の
データでは特にこの場合「モーイチド」の・ぐターンの
特徴、特に破裂音の部分が失なわれ、「ナナ」＋７）　
ＮＡ−ＮＡ　１７）　Ａ　Ｃ１部分、「モーイｆ　ｌ’
　Ｊ　ノＭＯｉｃｈｉＤＯのＯの部分のみ強調されツナ
グラム上では、はとんど同、じような／ｆターンとなっ
てしまい結果として、誤認識されることがあり、認識率
低下の原因となった。

（発明の目的）この発明の目的は、誤認識をなでして認識率の向上をは
かることの出来る音声認識方法を提供するにある。

（発明の概要）この発明では、マツチングに発声長の情報をとシ込むこ
とにより、認識率を上げる方式を提供するもので以下詳
細に説明する。

（実施例）第３図は、この発明の１実施例を示しだブロック図であ
る。第３図において、１００は入力端子。

２００は周波数分析部である。３ｏｏはスペクトル変換
部であり、４００は音声区間決定部、５００は再サンプ
ル部である。６００はマツチング演算部であり、バッフ
ァメモＩＪ　６０１　、距離演算部６０２、発声長デコ
ード部６０３２発声長メモ１ノ部６０４．距離加算値演
算部６Ｏ５，加算器６０６、マツチング制御部６０７か
ら成る。

７００は標準パターン、８００は判定部。

９００は認識結果出力端子である。

このような構成において、入力端子１００から入力され
る入力音声信号は、周波数分析部２００に入力され、複
数の周波数帯域に対応した量子化信号として周波数分析
されスペクトル変換部３θ０に送られる。

スペクトル変換部３００に送られたデータは、スペクト
ル変換がなされ、スペクトル情報と、音声パワー情報等
と々ｐ、音声区間決定部４０θ。

及び再サンプル部５００に送られる。音声区間決定部４
００は、音声パワー情報を利用して、音声区間の始端及
び終端を決定し、再サンプル部５００及び、マツチング
演算部６００へ送る。

再サンプル部５００に送られたスペクトルデータは抽出
された音声区間を１６点または３２点で時間の正規化が
行なわれ、マツチング演算部６００に送られる。距離演
算を行なうためバソファメモリ６０１に書き込まれた再
サンプル済の音声データは、距離演算部６０２に送られ
標準・ぐターン７００に格納されている標準・ぐターン
と距離演算を行ない演算結果ｄ１を加算器６０６に送る
。

本発明は各カテゴリ毎に異なる発声長の分布をマツチン
グ演算の距離に換算して加算し、発声長の異なるカテゴ
リ間の距離値の失点を多くして、認識率の向上を図るこ
とを主眼とするものである。

さて、発声長メモリ部６０４には予め多数のＢ声すンプ
ルからめた各カテゴリ毎の発声長の分布データ（後述の
ａｌ　＋ａ２　＋ａ３　＋ａ４の値）が書き込まれてい
る。

発声長デコード部６０３は入力音声の始端、終端値から
連用データ長（フレーム数）をめる。

距離加算値演算部６０５では発声長デコード部６０３の
出力である入力音声データ長と発声長メモリ部６０４か
ら与えられる各カテゴリ毎の長さの分布値を参照して、
長さの差から各カテゴリ毎に距離の失点を算出する。こ
こで算出された発声長による距離加昇値演算結果は、ｄ
２として加算器６０６へ送られ、あらかじめ距離演算を
行ないスにり１ルマツチング距離として得られているｄ
ｌ　とのトータル距離りをめ判定部ＳＯＯへ送る。

判定部ＳＯＯでは加算器から送られて来るｌ・〜タル距
離りとの距離値の比較を行ない最も小さいトータル距離
のカテゴリ名を認識結果として出力端子９００から出力
する。ここで、まず本発明の内容をよシ明確にする為に
、発声長メモリ部の内容を説明する。

第４（Ａ）図は同一カテゴリの音声を任意回数発声した
際に起こる発声長（フレーム長）の分布を示しだもので
あり、分布幅はｎフレームである。実、験νこよると同
じカテゴリにおいて分布の幅ｎは約４０フレーム（１フ
レーム：　、８ｍ５ｅｃ　）も差が見られる。

第４　（Ｂ）図の意味を説明する。第４０）図はカテゴ
リの発声法の分布に対する距離加算値（失点）ｄ２をめ
る図である。本図を用いて第３図の距離加算値演算部６
０５の演算方法について説明する。

距離加算値演算部でめられた発声長による距離加算値ｄ
２は次のようにめられる。

入力音声の発声長をｌ（フレーム数）とする。

（１）発声長ｌが発声長の分布のフレーム長の最小値ａ
１であれば距離加算値ｄ２を最大とす兄。

７＜ａｘ→　ｄ　２　＝　ｄｒｒ＋ａｘ　・・・・・・
・・・・・・（１）（２）発声長でか発声長の分布のフ
レーム長の最小値ａ１から、発声長メモリ部６０４で設
定された範囲ｍの最小のフレーム数ａ２までの範囲であ
れば距離加算値ｄ２を− として算出する。

（３）　発声長ｌが発声長メモリ部６０４で設定された
範囲ｍ、すなわちａ２からａ３の範囲内でを。

れば、距離加算値ｄ２には加算を行なわない。

ａ２≦ｌ＜ａ３→ｄ２−０　・・・・・・・・・・・・
・・・　（３）（４）発声長ｌが、発声長メモリ部６０
４で設定された範囲ｍの最大のフレーム数ａ３から、発
声長の分布のフレーム長の最大値ａ４までの範囲であれ
ば距離加算値ｄ２をとして算出する。

（５）発声長ｌが発声長の分布のフレーム長の最大値ａ
４であれば距離加算値ｄ２を最大とする。

ａ４　≦ｌｌ−＋ｄ　２　＝　ｄｍａｘ次の表は、カテ
ゴリによる発声長の分布値を、示したものである。

例として、１０数字、ハイ、イイエ、ドーゾ。

モーイチド、オワリ、ホリュウを示した。

第４図のＡＩ　、ａ４の設定として、各カテゴリの分布
に対して距離値に加算しない範囲を、分布の全幅ｎに対
して、（１）　９７〜９８チ、（２）４０チ、（３）　
２０　％にとった場合の各カテゴリのフレーム数を示す
。

ａｌ、’ａ４については、分布の両端とする。

距離値に加算しない範囲（１）〜（３）のどれを選択す
るかは、認識実験の結果によシ最適なものを正ぶ。

また、ｄ２ｍａｘの値についても、マツチングの距離ｄ
１に対応して実験により決定する。

第３図において、発声長デコード部６０３から出力され
る発声長ｌに対して、各カテゴリのマツチング時に対応
するａｌ””ａ４が、発声長メモリ部６０４から読み出
され、距離加算値演算部６０５にて前述したような距離
加算が行なわれ、各カテゴリ毎にｄ２がめられる。

以上述べたように、本発明では通常のスペクトルマツチ
ング距離に加え、各カテコゝすの標準分布と入力音声の
発声長の違いを失点として取シ込むことによシ、発声長
が異なるカテゴリ間の識別率を上げることができる。

以上述べた本発明の有効性を証明するために、認識実験
した結果を説明する。

カテゴリは前記表に示した１６語である。

男性データ約７６００　ノｆターンを用いて、発声長の
分布を出力したものを用い、距離値に加算しないフレー
ム長の範囲ｍを２０％、４０’％、９７〜９８チとし、
認識実験を行なった結果、範囲ｍを４０俤にしたところ
、従来の認識率９’７．７８％に対して、認識率９８．
．０４％と向上が得られた。同時に、１位と２位の距離
の差が拡大し、ｍＲｋの安定度の向上がみられる。

範囲ｍを他の条件にしても、従来と比較すると、認識時
の安定度の点でいずれの条件でも向上がみられる。

（発明の効果）本発明は、通常・の・ぐタニンマッチング距岨に加え音
声の発声長の情報をマツチング距離に候算して取シ込む
ことによって、スにクトルノやターンは類似しているが
、発声長の異なる単語間の識別をより精度よく行なうこ
とができ、音声認識装置の認識性能を向上するのに効果
がある。

【図面の簡単な説明】

第１図は、従来の音声認識装置のブロック図、第２図は
、音声・ぐターンの例、第３図は本発明による音声認識
装置の一実施例、第４図は発声長の分布及び距離値に加
算しないフレーム長の設定範囲を表わした図である。ノ００・・・入力端子、２０．０・・・周波数分析部、
３００・・・ス波りトル変換部、４００・・・音声区間
決定部、５００・・・再サンプル部、６００・・・マツ
チング演算部、６０１・・・バッファメモリ、６０２・
・・距離演算部、６０３・・・発声長デコード部、６０
４・・・発声長メモリ部、６０５・・・距離加算値演算
部、６０６・・・加算器、６０７・・・マツチング制御
部、７００・・・標準Ａ’ターン、ＳＯＯ・・・判定部
、９００・・・認識結果出力端子。ナイノネ・Ｖモ、−イ子卜島＼第２図キエウ

Claims

【特許請求の範囲】スペクトルに関する標準パターンを予め記憶している手
段を備え、− 各認識カテゴリの発声長の分布を近似する発声長分布デ
ータを各認識カテゴリ毎に予め記憶している手段を備え
、入力音声のスペクトルパターンを検出し且つそのスペク
トルノソターンを一定数のサンプルに対応するデータ長
で表現する手段を備え、入力音声の音声長を検出するステツプを備え、入力音声
の前記スペクトルパターンと前記各標準・ぐターンとの
スペクトルマツチング距離を計算するステップを備え、入力音声の前記音声長が前記発声長分布の中央領域に対
応する場合は零であシ且つ両端領域に対応する場合は最
大、値を取る所定の評価関数に従って入力音声の前記音
声長に関する発声長マツチング距離を各カテゴリ毎に検
出するステップを備え、前記スペクトルマツチング距離
と前記発声長マツチング距離との加算値を含む総合マツ
チング距離を各標準・母ターン毎に計算するステ、ゾを
備え、総合マツチング距離最小を与える標準・ぐターン
のカテコ８りを前記入力音声のカテコ゛りと認識するこ
とを特徴とした音声認識方式。