JPH0462400B2 - - Google Patents

Info

Publication number
JPH0462400B2
JPH0462400B2 JP24692783A JP24692783A JPH0462400B2 JP H0462400 B2 JPH0462400 B2 JP H0462400B2 JP 24692783 A JP24692783 A JP 24692783A JP 24692783 A JP24692783 A JP 24692783A JP H0462400 B2 JPH0462400 B2 JP H0462400B2
Authority
JP
Japan
Prior art keywords
primitives
speech
distance
primitive
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP24692783A
Other languages
English (en)
Other versions
JPS60140398A (ja
Inventor
Akio Komatsu
Yoshiaki Asakawa
Nobuo Hataoka
Hiroshi Ichikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP24692783A priority Critical patent/JPS60140398A/ja
Publication of JPS60140398A publication Critical patent/JPS60140398A/ja
Publication of JPH0462400B2 publication Critical patent/JPH0462400B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の対象〕 本発明は、音韻レベルで記述された認識対象単
語辞書を用いて未知入力音声を認識する音声認識
方式に関するものである。
〔発明の背景〕
従来の単語音声認識において、単語辞書の構成
法に二つの方式がある。その一つは、音響パラメ
ータの系列で単語を表現するものであり、他の一
つは、音韻に対応した記号の系列で単語を表現す
るものである。後者は音声の基本的な単位である
音韻レベルに対応した記号で表現しているため、
認識対象単語の指定や変更が容易であるが、音韻
レベルに対応したパターンが比較的に少数であ
り、単語数が増加した時に似かよつた単語を分離
する能力が低下してしまう。一方、前者の場合に
は、認識すべき単語音声そのものを分析した音響
パラメータをそのまま用いるため、認識精度は高
い。しかし、認識対象単語の指定や変更が容易で
ないばかりでなく、単語数の増加にともない、膨
大な記憶容量や認識処理量が必要になつてしま
う。記憶容量や処理量の削減に関しては、例え
ば、特開昭57−63600号公報にみられるように、
種々の工夫がなされている。しかし、認識対象単
語の指定や変更が容易ではないため、今後特に強
いニーズが予測される大語い認識においては大き
な問題となる。
〔発明の目的〕
本発明の目的は、上述の問題点を解消し、音響
パラメータを利用した場合の高い認識精度を保ち
ながら、認識対象単語を容易に指定・変更できる
方式を提供することにある。
〔発明の概要〕
上記の目的を達成するため、本発明では基本的
な音響パラメータ(プリミテイブ)を利用した入
力音声との距離計算を行ない、プリミテイブの組
合せによつて音韻レベルに対応したマスタープリ
ミテイブへの変換を行なう音韻化テーブルを設
け、各プリミテイブとの距離結果をマスタープリ
ミテイブとの距離に変換する。これにより、マツ
チングに用いる系列辞書は、音韻レベルに対応し
たマスタープリミテイブの系列で記述しておけば
よいので、認識対象単語の指定や変更が記号レベ
ルで容易に行なうことができるようになる。
〔発明の実施例〕
以下、本発明の一実施例を第1図により説明す
る。第1図において、音声入力端子1より未知入
力音声が入力される。分析部2において、入力音
声をデイジタル化し、スペクトルパラメータを抽
出する。各種の分析方法が考えられるが、ここで
は、16チヤンネルのフイルタバンクによる分析と
する。分析結果として20m秒ごとのフレーム単位
に16個のバンドバスフイルタの出力{a}=
1…16が得られるものとする(本発明は、このよ
うな分析方法や分析条件に限定されないことは明
らかである)。プリミテイブセツト3は、物理的
な尺度によつて作成されたプリミテイブ(基本的
なスペクトルパラメータ)を集めたものである。
プリミテイブの選出に関しては、クラスタリング
手法を応用した種々の方法がある。ここではM個
のプリミテイブをあらかじめ準備しておくものと
する。個々のプリミテイブはスペクトルパラメー
タを用いて表現されており、i番目のプリミテイ
ブをバンドバスフイルタの出力で表現し{PUi
=1,16であるとする(i=1,M)。距離計算部
4において、未知音声とプリミテイブとの距離計
算を行ない、フレーム単位にM個の距離QUi(i=
1,M)が得られる。距離計算の方法は、たとえ
ば、(1)式が利用できる。
Qi16=1 (Pi−a)2……(1) 音韻化テーブル5は、プリミテイブの組合せに
よつてN個のマスタープリミテイブを定義するも
のである。マスタープリミテイブは音韻レベルに
対応しており、音韻に対応した記号化が可能であ
る。すなわち、音韻化テーブル5によつてプリミ
テイブの組合せに音韻的な意味づけを行なつてい
ることになる。音韻化テーブル5の構成方法は例
を以下に述べる(この例ではN=50)。50個のマ
スタープリミテイブを考え、50音節に対応させる
場合を考える。i番目(i=1〜50)の音節を発
声し、その音声のスペクトルパラメータの列に一
番近いプリミテイブの列{Pi1,Pi2,……,Pik
を求める。この処理は、通常用いられているパタ
ーンマツチングの手法を用いて容易に実現するこ
とができる。50音節の入力音声に対する上述の処
理を繰返すことにより、50個のマスタープリミテ
イブに変換するに必要な50種のプリミテイブの組
合せを得ることができ、これを表にして音韻化テ
ーブルとする。第2図に音韻化テーブルのイメー
ジを示す。音韻化計算部6において、音韻化テー
ブル5の内容に沿つて未知入力音声の音韻化処理
を行なう。音韻化処理の具体的な内容は、通常の
DP(Dynamic Programming)法を用いたパタ
ーンマツチングを基本とする。ただし、未知入力
音声の音節毎の始終点は不明であるため、切り出
し処理が不要な連続DPマツチング法が効果的で
ある(連続DPマツチング法に関しては、例えば、
昭和58年3月の日本音響学会講演論文集の「連続
DPマツチングに関する考察」などを参照のこ
と)。連続DPマツチングにより得られる結果は、
50個に圧縮されたパラメータ(すなわち、50音節
からの50個の距離)に圧縮されたことになる。さ
らに時間軸方向の圧縮も可能である。時間軸方向
での圧縮に関しては、時間軸上で均一に圧縮する
場合と、音声パワーなどのパラメータの変化を考
慮して不均一に圧縮する場合とがある。ここで
は、説明を簡単にするため、時間的に連続した5
フレーム(1フレームは本実施例では20m秒に対
応)を調べ、その間の距離の最小値(類似度の場
合には最大値)で代表させることにより、100m
秒毎に新しい50個のパラメータが得られたことに
なる。以上の説明により、音韻化処理部6の処理
は、従来技術の組合せで簡単に実現できることが
わかる。
音韻化処理部6の処理をもまとめると、プリミ
テイブと入力音声との距離に基づいて、50種のプ
リミテイブの組合せ(マスタープリミテイブであ
り音節に対応している)と入力音声との距離に変
換したことになる。同様の処理が、系列辞書7を
用いてマツチング部8で行なわれる。すなわち、
マスタープリミテイブと入力音声との距離を用い
て、系列辞書7に記述されているマスタープリミ
テイブの系列、すなわち、例えば“オンセイ”な
どのような単語、との距離に変換できる。その結
果、マツチング部8の結果として、系列辞書に記
述されている各単語と入力音声との距離が求ま
る。判定部9においては、マツチング結果を用い
て最終的な認識結果10を出力する。その判定方
法には種々のものがあるが、Best Firet法が一般
的である。KNN(K−Nearest Neighbour)法
により認識率の向上が図れる場合もある。いずれ
にしろ、判定部9は従来技術で実現可能である。
第3図に他の実施例を示す。その基本的な構成
要素は第1図と同じであり、共通的な部分の説明
は省略する。第3図において、10数字を認識対象
単語とした場合の系列辞書27には、各単語に対
応したマスタープリミテイブの系列が定義されて
いる。ここで、マスタープリミテイブとしては、
音韻レベル、又はさらに細かい音素または詳細な
発音記号レベルであり、単語系列を一般的に記述
することのできる中間語的な存在である。一方、
入力音声21の入力手段としては、電話器や接話
マイクなどがあり、さらに、分析部22の分析方
法や分析条件には種々のものがある。ここでは、
電話器を利用した音声認識装置とする。プリミテ
イブセツト23には、種々の電話音声を効率よく
カバーするようにクラスタリング手法を用いて作
成されたプリミテイブを格納しておく。入力音声
21は分析部22により分析され、その分析結果
がプリミテイブセツト23を利用して距離計算部
24により量子化されたことになる。さらに、音
韻化テーブル25を利用して、音韻化処理部26
において、プリミテイブによる量子化をマスター
プリミテイブによる量子化に変換する。この変換
方法として、第3図の音韻化テーブル25に例示
したように、各マスタープリミテイブに近い数個
(2〜3個)のプリミテイブに対応した距離(前
記の実施例でのQの値)の平均値で対応づける。
このような音韻化計算部26の処理内容は、音響
的な特性を考慮した座標系による距離を、音韻的
な特性を考慮した座標系による距離に変換したこ
とを意味する。このような軸変換方式の利点は、
音響処理部の変更にともなう音声認識装置の変更
部分を最小限にすることができることである。た
とえば、本実施例のような電話音声を利用した音
声認識装置を、接話マイクを利用した装置に変更
する場合、音響的な特性に関した部分の変更のみ
でよい。すなわち、分析部22の変更とともに、
その分析条件に合つた最適プリミテイブセツトを
求め、マスタープリミテイブとの対応関係を再定
義するだけの変更で済む。これにより、音声の音
韻性に関する知識等を利用した判定部の複雑な処
理内容の変更は皆無であり、効率のよい認識装置
の開発が可能となる。なお、本実施例で記した軸
変換の方式が可能なことは、本発明の特徴の一つ
である。すなわち、従来の種々の認識方式におい
ては、平均値化処理などの統計的な処理が、音響
的な特性か音韻的な特性かのいずれかが基準にな
つていたのに対し、本発明における認識方式で
は、音響的な特性を音韻的な特性に変換する時点
で統計的な手法を利用することができ、より安定
した認識率を得ることができる。
〔発明の効果〕
本発明によれば、音響パラメータを利用した場
合の高い認識精度を保ちながら、認識対象単語を
容易に指定・変更できるので、高い認識精度を保
つ音声認識装置を効率よく開発できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す図、第2図は
その実施例における音韻化テーブルのイメージを
示す図、第3図は、他の実施例を示す図である。 符号の説明、1……音声入力子、2……分析
部、3……プリミテイブセツト、4……距離計算
部、5……音韻化テーブル、6……音韻化計算
部、7……系列辞書、8……マツチング部、9…
…判定部、10……認識結果、21……音声入力
端子、22……分析部、23……プリミテイブセ
ツト、24……距離計算部、25……音韻化テー
ブル、26……音韻化計算部、27……系列辞
書、28……マツチング部、29……判定部、3
0……認識結果。

Claims (1)

    【特許請求の範囲】
  1. 1 未知の入力音声をスペクトル分析し、物理的
    な尺度を基準にして作成した音声の短時間スペク
    トルの特徴を表わす基本パターン(プリミテイ
    ブ)との距離を計算し、プリミテイブと音韻との
    関係を記述した音韻化テーブルを利用して前記の
    距離計算結果に対して演算を行なうことにより音
    韻レベルとの距離を新たに計算し、その計算結果
    と音韻レベルの系列で記述された単語辞書を用い
    てマツチングを行なうことにより、未知入力音声
    を認識することを特徴とする音声認識方式。
JP24692783A 1983-12-28 1983-12-28 音声認識方式 Granted JPS60140398A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24692783A JPS60140398A (ja) 1983-12-28 1983-12-28 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24692783A JPS60140398A (ja) 1983-12-28 1983-12-28 音声認識方式

Publications (2)

Publication Number Publication Date
JPS60140398A JPS60140398A (ja) 1985-07-25
JPH0462400B2 true JPH0462400B2 (ja) 1992-10-06

Family

ID=17155824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24692783A Granted JPS60140398A (ja) 1983-12-28 1983-12-28 音声認識方式

Country Status (1)

Country Link
JP (1) JPS60140398A (ja)

Also Published As

Publication number Publication date
JPS60140398A (ja) 1985-07-25

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
US4661915A (en) Allophone vocoder
JP2963142B2 (ja) 信号処理方法
DE69826446T2 (de) Stimmumwandlung
US9123350B2 (en) Method and system for extracting audio features from an encoded bitstream for audio classification
DE60124551T2 (de) Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem
JPS6336676B2 (ja)
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
JPH09101798A (ja) 音声帯域拡大方法および音声帯域拡大装置
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US6574596B2 (en) Voice recognition rejection scheme
JPH08123484A (ja) 信号合成方法および信号合成装置
JPS6128998B2 (ja)
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
US20080162134A1 (en) Apparatus and methods for vocal tract analysis of speech signals
JPH0576040B2 (ja)
Wang et al. An experimental analysis on integrating multi-stream spectro-temporal, cepstral and pitch information for mandarin speech recognition
JPH0462400B2 (ja)
JPH0744727A (ja) 画像作成方法およびその装置
RU2271578C2 (ru) Способ распознавания речевых команд управления
JP2912579B2 (ja) 声質変換音声合成装置
Sakka et al. Using geometric spectral subtraction approach for feature extraction for DSR front-end Arabic system
JP2007047422A (ja) 音声分析合成装置および音声分析合成方法
Pawar et al. Emotion recognition from hindi speech using MFCC and sparse DTW
JP2658426B2 (ja) 音声認識方法