JPS60140398A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS60140398A
JPS60140398A JP24692783A JP24692783A JPS60140398A JP S60140398 A JPS60140398 A JP S60140398A JP 24692783 A JP24692783 A JP 24692783A JP 24692783 A JP24692783 A JP 24692783A JP S60140398 A JPS60140398 A JP S60140398A
Authority
JP
Japan
Prior art keywords
distance
primitives
primitive
speech
phonization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP24692783A
Other languages
English (en)
Other versions
JPH0462400B2 (ja
Inventor
小松 昭男
浅川 吉章
畑岡 信夫
市川 熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP24692783A priority Critical patent/JPS60140398A/ja
Publication of JPS60140398A publication Critical patent/JPS60140398A/ja
Publication of JPH0462400B2 publication Critical patent/JPH0462400B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の対象〕 本発明は、音韻レベルで記述された認識対象単語辞書を
用いて未知入力音声を認識する音声認識方式に関するも
のである。
〔発明の背景〕
従来の単語音声認識において、単語辞書の構成法に二つ
の方式がある。その一つは、音響、6ラメータの系列で
単語を表現するものであり、他の一つは、音韻に対応し
た記号の系列で単語を表現するものである。後者は音声
の基本的な単位である音韻レベルに対応した記号で表現
しているため、認識対象単語の指定や変更が容易である
が、音韻レベルに対応したパターンは比較的に少数であ
り、単語数が増加した時に似かよった単語を分離する能
力が低下してしまう。一方、前者の場合には、認識すべ
き単語音声そのものを分析した音響パラメータをそのま
ま用いるため、認識精度は高い。
しかし、認識対象単語の指定や変更が容易でないばかり
でなく、単語数の増加にともない、膨大な記憶容量や認
識処理量が必要になってしまう。記憶容量や処理量の削
減に関しては、例えば、特開昭57−63600号公報
にみられるように1種々の工夫がなされている。しかし
、認識対象単語の指定や変更が容易ではないため、今後
%に強い二−ズが予測される大語い認識においては大き
な問題となる。
〔発明の目的〕
本発明の目的は、上述の問題点を解消し、音響パラメー
タを利用した場合の高い認識精度を保ちながら、認識対
象卑語を容易に指定・変更できる方式を提供することに
ある。
〔発明の概要〕
上記の目的を達成するため、本発明では基本的な音響パ
ラメー・夕(プリミティブ)を利用した入力音声との距
離計1!i、’Th行ない、プリミティブの組合せKよ
って音韻レベルに対応したマスタープリミティブへの変
換を行なう音韻化テーブルを設け、各プリミティブとの
距離結果をマスタープリミティブとの距離に変換する。
これKより、マツチングに用いる系列辞書は、音韻レベ
ルに対応したマスタープリミティブの系列で記述してお
けばよいので、認識対象単語の指、定や変更が記号レベ
ルで容易に行なうことができるようKなる。
〔発明の実施例〕
以下、本発明の一実施例を第1図により説明する。第1
図において、音声入力端子1より未知入力音声が入力さ
れる。分析部2において、入力音声をディジタル化し、
スペクトルパラメータを抽出する。各種の分析方法が考
えられるが、ここでは、16チヤンネルのフィルタパン
クによる分析とする。分析結果として20m秒ごとのフ
レーム単位に16個のバンドパスフィルタの出力(at
lz=i−16が得られるものとする(本発明は、この
ような分析方法や分析条件に限定されないことは明らか
である)。プリミティブセット3は、物理的な尺度によ
って作成されたプリミティブ(基本的なスペクトルパラ
メータ)を集めたものである。プリミティブの選出に関
しては、クラスタリング手法を応用した種々の方法があ
る。ここではM個のプリミティブをあらかじめ準備して
おくものとする。個々のプリミティブはスペクトルパラ
メータを用い【表現されており、i番目のプリミティブ
をバンドパスフィルタの出力で表現しくP′) である
とする(i=1.M)。距離計tt=1.16 鼻部4において、未知音声とプリミティブとの距離計算
を行ない、フレーム単位にM個の距離が\(i=1.M
)が得られる。距離計算の方法は、たとえば、(1)式
が利用できる。
音韻化テーブル5は、プリミティブの組合せによってN
個のマスタープリミティブを定義するものである。マス
タープリミティブは音韻レベルに対応しており、音韻に
対応した記号化が可能である。すなわち、音韻化テーブ
ル5によってプリミティブの組合せに音韻的な意味づけ
を行なっていることになる。音韻化テーブル5の構成方
法の例を以下に述べる(この例ではN=50)。50個
のマスタープリミティブを考え、50音節に対応させる
場合を考える。i番目(i=1〜50)の音節を発声し
、その音声のスペクトルパラメータの列に一番近いプリ
ミティブの列(Pil 、p、□、・・・・・・。
Pik) 請求める。この処理は、通常用いられている
パターンマツチングの手法を用いて容易に実現すること
ができる。50音節の入力音声に対する上述の処理を繰
返すことにより、50個のマスタープリミティブに変換
するに必要な50種のプリミティブの組合せを得ること
ができ、これを表にして音韻化テーブルとする。第2図
に音韻化テーブルのイメージを示す。音韻化計算部6に
おいて、音韻化テーブル5の内容に沿って未知入力音声
の音韻化処理を行なう。音韻化処理の具体的な内容は、
通常のD P (Dynamic Programmi
ng )法を用いたパターンマツチングを基本とする。
ただし、未知入力音声の音節毎の始終点は不明であるた
め、切り出し処理が不要な連続DPマ、チング法が効果
的である(連続DPマツチング法に関しては、例えば、
昭和58’?3月の日本音響学会講演論文集の「連続D
Pマツチングに関する考察」などを参照のこと)。連続
DPマ、チングにより得られる結果は、50個に圧縮さ
れたパラメータ(すなわち、50音節からの50個の距
離)K圧縮されたことになる。さらに時間軸方向の圧縮
も可能である。時間軸方向での圧縮に関しては、時間軸
上で均−妊圧縮する場合と、音声パワーなどのパラメー
タの変化を考慮して不均一に圧縮する場合とがある。こ
こでは、説明を簡単妬するため、時間的に連続した5フ
レーム(1フレームは本実施例では20m秒に対応)を
調べ、その間の距離の最小値(類似度の場合には最大値
)で代表させることKより、100m秒毎に新しい50
個のパラメータが得られたことになる。以上の説明より
、音韻化処理部6の処理は、従来技術の組合せで簡単に
実現できることがわかる。
音韻化処理部6の処理をまとめると、プリミティブと入
力音声との距離に基づいて、50種のプリミティブの組
合せ(マスタープリミティブであり音節に対応している
)と入力音声との距離に、変換したことになる。同様の
処理が、系列辞書7を用いてマツチング部8で行なわれ
る。すな−わち、マスタープリミティブと入力音声との
距1ilIヲ用いて、系列辞−v7に記述されているマ
スタープリミティブの系列、すなわち、例えば“オンセ
イ”などのような単語、との距離に変換できる。その結
果、マツチング部8の結果として、系列辞書に記述され
ている各単語と入力音声との距離がまる。
判定部9においては、マ、チ/グ結果を用いて最終的な
認識結果10を出力する。その判定方法には種々のもの
があるが、Be5t Firet法が一般的である。K
NN (K−Nearest Neighbour)法
により認識率の向上が図れる場合もある。いずれKしろ
、−判定部9は従来技術で実現可能である。
第3図に他の実施例を示す。その基本的な構成要素は第
1図と同じであり、共通的な部分σン説、明は省略する
。第3図において、10数字を認識対象単語とした場合
の系列辞書27には、各単語に対応したマスタープリミ
ティブの系列が定義されている。ここで、マスタープリ
ミティブとしては、音韻レベル、又はさらに細かい音素
または詳細な発音記号レベルであり、単語系列を一般的
に記述す゛ることのできる中間語的な存在である。一方
、入力音声210入力手段としては、電話器や接話マイ
クなど力〜あり、さらに、分析部22の分析方法や分析
条件には種々のものがある。ここでは、電話器を利用し
た音声認識装置とする。プリミティブセ2)23には、
種々の電話音声を効率よくカバーするようにクラスタリ
ング手法を用いて作成されたプリミティブを格納してお
く。入力音声21は分析部22により分析され、その分
析結果がプリミティブセット23を利用して距離計算部
241Cより量子化されたことKなる。さらに、音韻化
テープ/L−25を利用して、音韻化処理部26におい
て、プリミティブによる量子化をマスタープリミティブ
による量子化に変換する。この変換方法として、第3図
の音韻化テーブル25に例示したように、各マスタープ
リミティブに近い数個(2〜3個)のプリミティブに対
応した距離(前記の実施例でのQの値)の平均値で対応
づける。
このような音韻化計算部26の処理内容は、音響的な特
性を考慮した座標系による距離を、音韻的な特性を考慮
した座標系による距離に変換したことを意味する。この
ような軸変換方式の利点は、青畳処理部の変更にともな
う音声認識装置の変更部分を最小限にすることができる
ことである。たとえば、本実施例のような電話音声を利
用した音声認識装置を、接話マイクを利用した装置に変
更する場合、音響的な特性に関した部分の変更のみでよ
い。すなわち、分析部22の変更とともK。
その分析条件に合った最適プリミティブセットをめ、マ
スタープリミティブとの対応関係を再定義するだけの変
更で済む。これKより、音声の音韻性に関する知識等を
利用した判定部の複雑な処理内容の変更は皆無であり、
効率のよい認識装置の開発が可能となる。なお、本実施
例で記した軸変換の方式が可能なことは、本発明の特徴
の一つである。すなわち、従来の種々の認識方式におい
ては、平均値化処理などの統計的な処理が、音響的な特
性か音韻的な特性かのいずれかが基準罠なっていたのに
対し、木兄IMKおけるlii!識方式では、音響的な
特性を音韻的な特性に変換する時点で統計的な手法を利
用することができ、より安定した認識率を得ることがで
きる。
〔発明の効果〕゛ 本発明によれば、音響パラメータを利用した場合の高い
認識精度を保ちながら、認識対象単語を容易に指定・変
更できるので、高いg識精度を保つ音声認識装置を効率
よく開発できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す図、第2図はその実施
例における音韻化テーブルのイメージを示す図、第3図
は、他の実施例を示す図である。 符号の説明 1:音声人力子、2:分析部、3:プリミティブセット
、4:距離計算部、5:音韻化テーブル、6:音韻化計
算部、7:系列辞書、8:マツチング部、9:判定部、
10:認識結果、21:音声入力端子、22:分析部、
23:グリミティプセ、ト、24:距離計算部、25:
音韻化テーブル、26:音韻化計算部、27:系列辞書
、28:マ、チング部、29:判定部、a o : g
l1M!。

Claims (1)

    【特許請求の範囲】
  1. (1)未知の入力音声をスペクトル分析し、物理的な尺
    度を基準にして作成した音声の短時間スペクトルの特徴
    を表わす基本パターン(プリミティブ)との距離を計算
    し、プリミティブと音韻との関係を記述した音韻化テー
    ブルを利用して前記の距離計算結果に対して演算を行な
    うととKより音韻レベルとの距離を新たに計算し、その
    計算結果と音韻レベルの系列で記述された単語辞書を用
    いてマツチングを行なうことKより、未知入力音声を認
    識することを特徴とする音声認識方式。
JP24692783A 1983-12-28 1983-12-28 音声認識方式 Granted JPS60140398A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24692783A JPS60140398A (ja) 1983-12-28 1983-12-28 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24692783A JPS60140398A (ja) 1983-12-28 1983-12-28 音声認識方式

Publications (2)

Publication Number Publication Date
JPS60140398A true JPS60140398A (ja) 1985-07-25
JPH0462400B2 JPH0462400B2 (ja) 1992-10-06

Family

ID=17155824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24692783A Granted JPS60140398A (ja) 1983-12-28 1983-12-28 音声認識方式

Country Status (1)

Country Link
JP (1) JPS60140398A (ja)

Also Published As

Publication number Publication date
JPH0462400B2 (ja) 1992-10-06

Similar Documents

Publication Publication Date Title
US4661915A (en) Allophone vocoder
JP2815579B2 (ja) 音声認識における単語候補削減装置
US4424415A (en) Formant tracker
Siegel A procedure for using pattern classification techniques to obtain a voiced/unvoiced classifier
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
EP0685835B1 (en) Speech recognition based on HMMs
JPS6128998B2 (ja)
Elenius et al. Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system
EP0071716A2 (en) Allophone vocoder
JPH0215080B2 (ja)
JPS60140398A (ja) 音声認識方式
JP2709926B2 (ja) 声質変換方法
JPH0345840B2 (ja)
JPH0345839B2 (ja)
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPS62111299A (ja) 音声信号特徴抽出回路
JPH07210197A (ja) 話者識別方法
Holmes Towards a unified model for low bit-rate speech coding using a recognition-synthesis approach.
JPH0323920B2 (ja)
JPH03120434A (ja) 音声認識装置
JPS607492A (ja) 単音節音声認識方式
JPS60144799A (ja) 自動通訳装置
JPS60129798A (ja) 音声認識方式
Merwe et al. Hybrid combination of knowledge-and cepstral-based features for phoneme recognition
Linggard Neural networks for speech processing: An introduction