JPS60129798A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS60129798A
JPS60129798A JP23634483A JP23634483A JPS60129798A JP S60129798 A JPS60129798 A JP S60129798A JP 23634483 A JP23634483 A JP 23634483A JP 23634483 A JP23634483 A JP 23634483A JP S60129798 A JPS60129798 A JP S60129798A
Authority
JP
Japan
Prior art keywords
length
voice
utterance
distance
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23634483A
Other languages
English (en)
Inventor
広田 敦子
裕 飯塚
山田 興三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP23634483A priority Critical patent/JPS60129798A/ja
Publication of JPS60129798A publication Critical patent/JPS60129798A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) この発明は、認識性能の向上を図るようにした音声認識
方法に関する。
(技術的背景) 従来の音声認識装置は、第1図のように杉1成されてお
シ、lは入力端子、2は周波数分析部、3はスペクトル
変換部、4は、音声区間決定部、5は再サンプル部、6
は距離演算部、7は標準・ぞター/メモリ、8は判定部
、9は認識結果出力端子である。
従来の音声認識装置ではス被り)/し変換した入力音声
パターンと、標準ノやターンK 、’(K=1 、 K
 )との距離演算において距離Dkを入力・母ターンの
時間4′1″″本第n番目のmチャネル目の要素をA(
m、n)とし、標準ツクターンにの時間標本点n番目の
mチャネル目の要素をSk (m 、 n )とした時
に(1)式によシ計算しに個の標準・ぐターンの中でI
)kを最小とする標準パターンのカテコ゛りを認識結果
としている。ここで重みW(m、n)の計算方法につい
ては数々の方式があるがこの発明の目的でないので省略
する。
従来の音声認識装置では入力音声を周波数分析し、音声
スペクトルの最小2乗近似直線を計算し、最小2乗近似
直線の傾きをスペクトル傾斜値としている。そして、ス
ペクトル傾斜値が負の場合は入力音声を有声音と判定し
、音声スペクトルから追声スペクトルの最小2乗近似直
線を引き、スぺりトル傾斜値が正の場合には入力音声を
無声音と判定し、音声スペクトルから音声スペクトルの
平均を引くことによシ、入力音声の声帯音源特性の傾き
および発声強度の差の正規化を行なっている。
正規化された音声データは、再サンプル部5で1′j声
区間決定部4で決定された音声区間を町ザンゾルし、一
定の音声サンプル数に対応したデータ長のスペクトル・
やターンとする。
第2図Kr二」と「キーウ」、「ナナ」ト「モーイチド
」の音声ツクターンのツナグラムの例を示す。第2図で
横方向は周波数軸、縦方向が時間軸である。
このように発声長の異なった語でも再ザン4ルを行なっ
た1定リサンプルデータでマツチングすることにより、
[ニ」と「キュウ」と「ナナ」と「モーイチド」はかな
シ似がよったパターンにlシ、その差としては「キュウ
」の先H1Jiフレームは、無声音だが「ニ」では有声
音であること、「ナナ」と「モーイチド」に関しては通
常の発声長では明らかに長さが異なるがリサンプル後の
データでは特にこの場合「モーイチド」の・ぐターンの
特徴、特に破裂音の部分が失なわれ、「ナナ」+7) 
NA−NA 17) A C1部分、「モーイf l’
 J ノMOichiDOのOの部分のみ強調されツナ
グラム上では、はとんど同、じような/fターンとなっ
てしまい結果として、誤認識されることがあり、認識率
低下の原因となった。
(発明の目的) この発明の目的は、誤認識をなでして認識率の向上をは
かることの出来る音声認識方法を提供するにある。
(発明の概要) この発明では、マツチングに発声長の情報をとシ込むこ
とにより、認識率を上げる方式を提供するもので以下詳
細に説明する。
(実施例) 第3図は、この発明の1実施例を示しだブロック図であ
る。第3図において、100は入力端子。
200は周波数分析部である。3ooはスペクトル変換
部であり、400は音声区間決定部、500は再サンプ
ル部である。600はマツチング演算部であり、バッフ
ァメモIJ 601 、距離演算部602、発声長デコ
ード部6032発声長メモ1ノ部604.距離加算値演
算部6O5,加算器606、マツチング制御部607か
ら成る。
700は標準パターン、800は判定部。
900は認識結果出力端子である。
このような構成において、入力端子100から入力され
る入力音声信号は、周波数分析部200に入力され、複
数の周波数帯域に対応した量子化信号として周波数分析
されスペクトル変換部3θ0に送られる。
スペクトル変換部300に送られたデータは、スペクト
ル変換がなされ、スペクトル情報と、音声パワー情報等
と々p、音声区間決定部40θ。
及び再サンプル部500に送られる。音声区間決定部4
00は、音声パワー情報を利用して、音声区間の始端及
び終端を決定し、再サンプル部500及び、マツチング
演算部600へ送る。
再サンプル部500に送られたスペクトルデータは抽出
された音声区間を16点または32点で時間の正規化が
行なわれ、マツチング演算部600に送られる。距離演
算を行なうためバソファメモリ601に書き込まれた再
サンプル済の音声データは、距離演算部602に送られ
標準・ぐターン700に格納されている標準・ぐターン
と距離演算を行ない演算結果d1を加算器606に送る
本発明は各カテゴリ毎に異なる発声長の分布をマツチン
グ演算の距離に換算して加算し、発声長の異なるカテゴ
リ間の距離値の失点を多くして、認識率の向上を図るこ
とを主眼とするものである。
さて、発声長メモリ部604には予め多数のB声すンプ
ルからめた各カテゴリ毎の発声長の分布データ(後述の
al +a2 +a3 +a4の値)が書き込まれてい
る。
発声長デコード部603は入力音声の始端、終端値から
連用データ長(フレーム数)をめる。
距離加算値演算部605では発声長デコード部603の
出力である入力音声データ長と発声長メモリ部604か
ら与えられる各カテゴリ毎の長さの分布値を参照して、
長さの差から各カテゴリ毎に距離の失点を算出する。こ
こで算出された発声長による距離加昇値演算結果は、d
2として加算器606へ送られ、あらかじめ距離演算を
行ないスにり1ルマツチング距離として得られているd
l とのトータル距離りをめ判定部SOOへ送る。
判定部SOOでは加算器から送られて来るl・〜タル距
離りとの距離値の比較を行ない最も小さいトータル距離
のカテゴリ名を認識結果として出力端子900から出力
する。ここで、まず本発明の内容をよシ明確にする為に
、発声長メモリ部の内容を説明する。
第4(A)図は同一カテゴリの音声を任意回数発声した
際に起こる発声長(フレーム長)の分布を示しだもので
あり、分布幅はnフレームである。実、験νこよると同
じカテゴリにおいて分布の幅nは約40フレーム(1フ
レーム: 、8m5ec )も差が見られる。
第4 (B)図の意味を説明する。第40)図はカテゴ
リの発声法の分布に対する距離加算値(失点)d2をめ
る図である。本図を用いて第3図の距離加算値演算部6
05の演算方法について説明する。
距離加算値演算部でめられた発声長による距離加算値d
2は次のようにめられる。
入力音声の発声長をl(フレーム数)とする。
(1)発声長lが発声長の分布のフレーム長の最小値a
1であれば距離加算値d2を最大とす兄。
7<ax→ d 2 = drr+ax ・・・・・・
・・・・・・(1)(2)発声長でか発声長の分布のフ
レーム長の最小値a1から、発声長メモリ部604で設
定された範囲mの最小のフレーム数a2までの範囲であ
れば距離加算値d2を− として算出する。
(3) 発声長lが発声長メモリ部604で設定された
範囲m、すなわちa2からa3の範囲内でを。
れば、距離加算値d2には加算を行なわない。
a2≦l<a3→d2−0 ・・・・・・・・・・・・
・・・ (3)(4)発声長lが、発声長メモリ部60
4で設定された範囲mの最大のフレーム数a3から、発
声長の分布のフレーム長の最大値a4までの範囲であれ
ば距離加算値d2を として算出する。
(5)発声長lが発声長の分布のフレーム長の最大値a
4であれば距離加算値d2を最大とする。
a4 ≦ll−+d 2 = dmax次の表は、カテ
ゴリによる発声長の分布値を、示したものである。
例として、10数字、ハイ、イイエ、ドーゾ。
モーイチド、オワリ、ホリュウを示した。
第4図のAI 、a4の設定として、各カテゴリの分布
に対して距離値に加算しない範囲を、分布の全幅nに対
して、(1) 97〜98チ、(2)40チ、(3) 
20 %にとった場合の各カテゴリのフレーム数を示す
al、’a4については、分布の両端とする。
距離値に加算しない範囲(1)〜(3)のどれを選択す
るかは、認識実験の結果によシ最適なものを正ぶ。
また、d2maxの値についても、マツチングの距離d
1に対応して実験により決定する。
第3図において、発声長デコード部603から出力され
る発声長lに対して、各カテゴリのマツチング時に対応
するal””a4が、発声長メモリ部604から読み出
され、距離加算値演算部605にて前述したような距離
加算が行なわれ、各カテゴリ毎にd2がめられる。
以上述べたように、本発明では通常のスペクトルマツチ
ング距離に加え、各カテコゝすの標準分布と入力音声の
発声長の違いを失点として取シ込むことによシ、発声長
が異なるカテゴリ間の識別率を上げることができる。
以上述べた本発明の有効性を証明するために、認識実験
した結果を説明する。
カテゴリは前記表に示した16語である。
男性データ約7600 ノfターンを用いて、発声長の
分布を出力したものを用い、距離値に加算しないフレー
ム長の範囲mを20%、40’%、97〜98チとし、
認識実験を行なった結果、範囲mを40俤にしたところ
、従来の認識率9’7.78%に対して、認識率98.
.04%と向上が得られた。同時に、1位と2位の距離
の差が拡大し、mRkの安定度の向上がみられる。
範囲mを他の条件にしても、従来と比較すると、認識時
の安定度の点でいずれの条件でも向上がみられる。
(発明の効果) 本発明は、通常・の・ぐタニンマッチング距岨に加え音
声の発声長の情報をマツチング距離に候算して取シ込む
ことによって、スにクトルノやターンは類似しているが
、発声長の異なる単語間の識別をより精度よく行なうこ
とができ、音声認識装置の認識性能を向上するのに効果
がある。
【図面の簡単な説明】
第1図は、従来の音声認識装置のブロック図、第2図は
、音声・ぐターンの例、第3図は本発明による音声認識
装置の一実施例、第4図は発声長の分布及び距離値に加
算しないフレーム長の設定範囲を表わした図である。 ノ00・・・入力端子、20.0・・・周波数分析部、
300・・・ス波りトル変換部、400・・・音声区間
決定部、500・・・再サンプル部、600・・・マツ
チング演算部、601・・・バッファメモリ、602・
・・距離演算部、603・・・発声長デコード部、60
4・・・発声長メモリ部、605・・・距離加算値演算
部、606・・・加算器、607・・・マツチング制御
部、700・・・標準A’ターン、SOO・・・判定部
、900・・・認識結果出力端子。 ナイノネ・V モ、−イ子卜島\ 第2図 キエウ

Claims (1)

  1. 【特許請求の範囲】 スペクトルに関する標準パターンを予め記憶している手
    段を備え、− 各認識カテゴリの発声長の分布を近似する発声長分布デ
    ータを各認識カテゴリ毎に予め記憶している手段を備え
    、 入力音声のスペクトルパターンを検出し且つそのスペク
    トルノソターンを一定数のサンプルに対応するデータ長
    で表現する手段を備え、 入力音声の音声長を検出するステツプを備え、入力音声
    の前記スペクトルパターンと前記各標準・ぐターンとの
    スペクトルマツチング距離を計算するステップを備え、 入力音声の前記音声長が前記発声長分布の中央領域に対
    応する場合は零であシ且つ両端領域に対応する場合は最
    大、値を取る所定の評価関数に従って入力音声の前記音
    声長に関する発声長マツチング距離を各カテゴリ毎に検
    出するステップを備え、前記スペクトルマツチング距離
    と前記発声長マツチング距離との加算値を含む総合マツ
    チング距離を各標準・母ターン毎に計算するステ、ゾを
    備え、総合マツチング距離最小を与える標準・ぐターン
    のカテコ8りを前記入力音声のカテコ゛りと認識するこ
    とを特徴とした音声認識方式。
JP23634483A 1983-12-16 1983-12-16 音声認識方式 Pending JPS60129798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23634483A JPS60129798A (ja) 1983-12-16 1983-12-16 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23634483A JPS60129798A (ja) 1983-12-16 1983-12-16 音声認識方式

Publications (1)

Publication Number Publication Date
JPS60129798A true JPS60129798A (ja) 1985-07-11

Family

ID=16999416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23634483A Pending JPS60129798A (ja) 1983-12-16 1983-12-16 音声認識方式

Country Status (1)

Country Link
JP (1) JPS60129798A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231996A (ja) * 1986-03-27 1987-10-12 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 音声認識方法
JPH0195373A (ja) * 1987-10-08 1989-04-13 Mitsubishi Electric Corp パタン尤度計算方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231996A (ja) * 1986-03-27 1987-10-12 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 音声認識方法
JPH0431600B2 (ja) * 1986-03-27 1992-05-26
JPH0195373A (ja) * 1987-10-08 1989-04-13 Mitsubishi Electric Corp パタン尤度計算方式

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
JPS58130393A (ja) 音声認識装置
JP2000507714A (ja) 言語処理
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JPS6254297A (ja) 音声認識装置
JPS63259687A (ja) 音声信号認識方法およびその方法を実施する装置
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
US20080162134A1 (en) Apparatus and methods for vocal tract analysis of speech signals
JP3354252B2 (ja) 音声認識装置
JPS60129798A (ja) 音声認識方式
JPS60114900A (ja) 有音・無音判定法
JPH07121197A (ja) 学習式音声認識方法
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH0345839B2 (ja)
JPH034918B2 (ja)
JPH05303391A (ja) 音声認識装置
JPS59114600A (ja) 話者識別方式
JPS632100A (ja) 音声認識装置
JPH03120434A (ja) 音声認識装置
WO1991002348A1 (en) Speech recognition using spectral line frequencies
JPS6310440B2 (ja)
JPS63217399A (ja) 音声区間検出装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPH10177393A (ja) 音声認識装置