JPH0333280B2 - - Google Patents

Info

Publication number
JPH0333280B2
JPH0333280B2 JP59003923A JP392384A JPH0333280B2 JP H0333280 B2 JPH0333280 B2 JP H0333280B2 JP 59003923 A JP59003923 A JP 59003923A JP 392384 A JP392384 A JP 392384A JP H0333280 B2 JPH0333280 B2 JP H0333280B2
Authority
JP
Japan
Prior art keywords
phoneme
consonant
vowel
section
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59003923A
Other languages
Japanese (ja)
Other versions
JPS60147797A (en
Inventor
Satoshi Fujii
Hideji Morii
Masakatsu Hoshimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59003923A priority Critical patent/JPS60147797A/en
Publication of JPS60147797A publication Critical patent/JPS60147797A/en
Publication of JPH0333280B2 publication Critical patent/JPH0333280B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

産業上の利用分野 本発明は人間の声によつて発声された音声信号
を自動的に認識するための、音声認識装置に関す
るものである。 従来例の構成とその問題点 音声を自動的に認識する音声認識装置は人間か
ら電子計算機や各種機械へデータや命令を与える
手段として非常に有効と考えられる。 従来研究あるいは発表されている音声認識装置
の動作原理としてはパターンマツチング法が多く
採用されている。この方法は認識される必要があ
る全種類の単語に対して標準パターンをあらかじ
め記憶しておき、入力される未知の入力パターン
と比較することによつて一致の度合(以下類似度
と呼ぶ)を計算し、最大一致が得られる標準パタ
ーンと同一の単語であると判定するものである。
このパターンマツチング法では認識されるべき全
ての単語に対して標準パターンを用意しなければ
ならないため、発声者が変つた場合には新しく標
準パターンを入力して記憶させる必要がある。従
つて数百種類以上の単語を認識対象とするような
場合、全種類の単語を発声して登録するには時間
と労力を必要とし、又登録に要するメモリー容量
も膨大になることが予想される。さらに入力パタ
ーンと標準パターンのパターンマツチングに要す
る時間も単語数が多くなると長くなつてしまう欠
点がある。 これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大幅に
少なくて済み、パターンマツチングに要する時間
が短く、辞書の内容変更も容易であるという特長
を持つている。例えば「赤い」という発声は/
a/、/k/、/i/という三つの音素を組合せ
てAKAIという極めて簡単な形式で表現すること
ができるため、不特定話者で多数語の音声に対処
することが容易である。 第1図に音素認識を行うことを特徴とする音声
認識方式のブロツク図を示す。マイク等で入力さ
れた音声は音響分析部1によつて分析を行なう。
分析方法としては帯域フイルタ群が線形予測分析
を用い、フレーム周期(10ms程度)毎にスペク
トル情報を得る。音素判別部2では、音響分析部
1で得たスペクトル情報を用い、標準パターン格
納部3のデータによつてフレーム毎の音素判別を
行なう。標準パターン格納部3に格納された標準
パターンは、あらかじめ多数話者の音声より音素
毎に求めておく。セグメンテーシヨン部4では、
音響分析部1の分析出力をもとに音声区間の検出
と音素毎の境界決定(以下セグメンテーシヨンと
呼ぶ)を行う。音素認識部5ではセグメンテーシ
ヨン部4と音素判別部2の結果をもとに1つの音
素区間に何という音素であるかを決定する作業を
行う。この結果として音素の系列が完成する。単
語認識部6では、この音素系列を、同様に音素系
列で表記された単語辞書7と照合し、最も類似度
の高い単語を認識結果として出力する。 前記従来のセグメンテーシヨン部4では、子音
のセグメンテーシヨンを次のように行つていた。
第2図aはパワーの時間に対する変化の大きさ
を、第2図bはパワーの変化速度の時間に対する
変化の大きさを示したもので、帯域フイルタを用
いたパワーの時間的変化の形8が凹状の形をして
いる時(これをデイツプと呼ぶ)、パワーが極小
値を示すフレームをn1とし、n1の前後のフレーム
でパワーの時間による変化速度(これをパワーの
差分値と呼ぶ)9が負および正の舷大値を示すフ
レームをn2、n3とする。また、あるフレームnに
おける差分値をWD(n)とすると、 WD(n3)−WD(n2)θ〓 (1) の条件を満足する時、n2〜n3までの区間を子音区
間としていた。ここでθ〓は子音の付加を防ぐため
のいき値で予め統計的な分布に基づき決定される
ものである。 セグメンテーシヨン部4および音素判別部2の
詳細を第3図に示す。セグメンテーシヨン部4は
デイツプ検出部31、子音区間決定部32、子音
判定部33からなり音響分析で得た帯域フイルタ
のパワーを用いてデイツプ検出部31にて前記デ
イツプ検出を行い、子音区間決定部32で第2図
のn2〜n3間を子音区間として決定する。この区間
に対してスペクトル形状をもとに子音判定部33
にて子音判定を行う。一方、音素判別部2は母音
候補抽出部35と母音区間決定部36よりなり音
響分析で得たLPCケプストラム係数を用いて、
標準パタン格納部3に対する類似度計算を母音候
補抽出部35にて行い、最も類似度の高い音素を
母音候補として抽出する。この場合標準パターン
格納部3は5母音および鼻音を対象として、フレ
ーム毎のLPCケプストラム係数を用いて作成し
ておく。この結果を子音区間決定部32で求めた
子音区間以外に適用し、母音区間および母音の種
類を母音区間決定部36で決定する。この結果を
子音判定部33の結果と組合せることによつて音
素認識部5にて音素認識を行い、第1図に示した
単語認識部6へ送る。 この方法によれば音素のセグメンテーシヨン、
判別を良好に行なうことができるが、デイツプの
存在によつて一義的に音素境界を決定してしまう
ために、欠点が2つある。その1つは母音中でパ
ワーが不安定になつた時にもデイツプとして検出
してしまうため子音が付加されてしまい、日本語
の規則により必然的に母音が付加されるため、結
果として子音1個の付加によつて2音素付加にな
つてしまうことである。もう1つはデイツプの区
間が必ずしも正しい境界を表わさないことによ
り、母音、子音間の正しい境界が保証されなくな
つてしまうことである。これによつて、母音、子
音の判別誤り、単母音と長母音の判別誤りなどを
生ずる。 第4図にその1例を示す。これは「番号」と発
声した例で、aのラベルで各音素の位置を示す。
第3図のデイツプ検出部31でデイツプcを検出
し、その結果を子音区間決定部32に転送し、さ
らに子音判定部33で判定した結果をdに示す。
一方母音候補抽出部35の抽出結果をeに示し、
子音区間決定部32の結果と母音候補eとを組合
せて母音区間決定部36で母音認識を行う。その
結果をfに示す。その母音認識結果fと子音認識
結果dとを音素認識部5へ転送し、認識結果bを
得る。子音認識dの項には、デイツプcの位置に
よつて第2図n2〜n3間を子音の区間として決定
し、標準パターンに対するスペクトルの類似度に
よつて音素の種類を決定した結果を示す。母音候
補eの項では母音および鼻音を対象にスペクトル
の類似度の最も高い音素を示す。子音認識dの境
界を正しい境界として母音候補eを機械的に組み
合わせることにより、認識結果bの項で示すよう
な音素系列が作成される。 ラベルaと認識結果bとを比較すると、/h/
と/u/が付加している。又、/N/が/n/に
置換し、/〓/の区間が誤つている。 これは単なる一例であり、第2図で示したデイ
ツプの区間が必ずみも子音の境界を表わさないこ
とが原因で起るものである。 このような誤りが発生する頻度は人によつて異
なり、発声方法の不安定な発声者や、デイツプを
検出するための帯域フイルタに対する周波数特性
のずれの大きい発声者に対して誤りが生ずる。そ
の結果、音素の付加、脱落、置換が多発し、単語
認識の性能を劣化させてしまう欠点があつた。 発明の目的 本発明は前記欠点を解消し、音素のセグメンテ
ーシヨンの精度および音素判別を向上させること
によつて高性能な音声認識方法を提供することを
目的とする。 発明の構成 本発明は前記目的を達成するもので、標準パタ
ーンに対する音素の類似度を求め、またパワーの
変化に基づいて子音候補の位置を求め、母音候補
と子音候補それぞれの標準パターンに対する類似
度の連続性性および強度を互いに比較することに
より音素区間を修正決定する音素境界決定部を設
けることによつて音素間の境界の位置および境界
間の音素の種類を精度良く決定し、高性能な音浸
認識を行うことを可能とするものである。 実施例の説明 以下に本発明の実施例を図面とともに説明す
る。 第4図に示したような誤りが生ずるのは、デイ
ツプの区間が必ずしも子音の境界を表わさない原
因によるものである。デイツプはパワーの変動に
よつて生ずるが、スペクトルの変動とは必ずしも
対応しない。すなわち、デイツプが存在してもス
ペクトルの変動がなければそこに子音は存在しな
いと考えることができる。又、デイツプの始端又
は終端の位置ではスペクトルが安定し、それ以外
の位置でスペクトルが大きく変化していれば、真
の音素境界はその位置にあると考えることができ
る。本実施例はこの性質を積極的に利用して子音
と母音の境界を精度よく決定することを可能とし
たものである。 第5図に本発明の一実施例である音声認識装置
の主要部分のブロツク図を示す。 標準パターン格納部44に格納される標準パタ
ーンは母音および鼻音を対象に音素中心付近nフ
レームのp次LPCケプストラム係数を用いて作
成しておく。すなわち時間−周波数軸の2次元パ
ターンで構成する。音素iのnフレーム目におけ
るp次LPCケプストラム係数をCiopと表わし、ベ
クトル〓iを作成する。 〓i=(Ci11、Ci12、…、Ci1p、Ci21、…、Ci31、…
Cio1、…、Ciop) 多数の音声による〓iを集計し、〓iの平均値を
mij(jはパラメータの順番を表わし、最大はk=
n×p)とする。共分散行列を音素の種類にかか
わらず共通とし、〓で表わす。〓の逆行列を〓-1
とし、(j、j′)要素をσjj′とすると、音素iのj
番目のパターンに対する重み係数aijは aij=2Kj=1 σij′mij′ (2) で表わすことができる。 多数話者の音声データより得られたパラメータ
x(x1、x2、…、xj、…、xk)の音素iの分布に
対するマハラノビス距Di 2は Di 2=xt-1x−Kj=1 aijxj+mi i-1mi (3) で表わすことができる。tは転置行列を表わす。
(3)式の第1項は音素の種類に依存しないため省略
し、類似度Liを簡易的に LiKj=1 aijxj−mi tW-1mi (4) で求めることができる。 従つて、標準パターン格納部44には(4)式のaij
および定数mi tW-1miを入れておけば良い。 次に入力音声より得られたパラメータx(x1
x2、…、xj、xk)に対する類似度Liを(4)式を用い
て母音候補抽出部45で算出し、母音に対する類
似度の連続性および強度によるスペクトルの安定
性に基づき母音候補を抽出し、その結果を母音区
間記憶部46へ転送する。 一方、音響分析を行つた後、デイツプ検出部4
0にて帯域フイルタのパワーのデイツプ検出を行
う。子音区間検出部41で第2図に示すn2〜n3
を仮の子音区間とし子音区間記憶部42にその結
果を転送する。デイツプ検出部40と子音区間決
定部41で子音候補抽出部49を構成する。子音
区間記憶部42と母音区間記憶部46とを音素境
界決定部47にて照合し、音素境界の決定を行
う。この場合標準パターン格納部44は音素中心
付近の複数フレームで統計的に構成してあるた
め、母音中のスペクトルのわずかな変動は母音中
におけるスペクトルの単なる乱れであるとして吸
収することができる。又、子音との境界における
あいまい領域ではスペクトルが時間的に安定でな
いため大きな類似度が表われない。この性質を利
用することによつて母音区間を精度良く抽出する
ことができる。 従つて音素境界の存在する可能性のない子音候
補は取除き、子音区間の大きく誤つたものは修正
して、結果を子音に対しては子音区間記憶部42
に、母音に対しては母音区間記憶部46にもどす
ことができる。 次に音素境界決定部47で決定され子音区間記
憶部42に格納された子音の区間に対し子音判定
部43にて新しい区間における標準パターンに対
するスペクトルの類似度を計算し子音判定行う。
この結果と母音区間記憶部46の結果と組合わせ
ることによつて音素認識部48で音素認識を行
い、その結果を単語認識部に転送する。 第6図に本実施例により認識を行つた例を示
す。図においてaは視察によつて決定されたラベ
ルを示す。cは第5図のデイツプ検出部40によ
り検出されたデイツプ領域を示し、dは子音区間
決定部41で決定された子音候補を示す。またe
は音素境界決定部47により修正を加えられた子
音候補であり、5はeに示した子音候補を子音判
定部43で判定した子音認識結果を示す。さらに
gは母音候補抽出部45で抽出した母音候補を示
し、hは音素境界決定部47により修正を加えら
れた母音認識結果を示す。bは前記子音認識結果
fと母音認識結果hとから音素認識部48により
認識された認識結果を示す。 本実施例の場合、まず子音認識についてはデイ
ツプ検出部40で第6図cに示すデイツプ位置を
検出する。このデイツプ位置に対し、子音区間決
定部41で第6図dに示す子音候補/b/、/
n/、/m/、/h/を抽出し、子音区間記憶部
42へ転送する。 一方、母音認識については標準パターン格納部
44に格納された、時間−周波数パターンで構成
された標準パターンを用いて、母音抽出部45に
て各フレーム毎に最も類似度の高い音素を選び、
第6図gに示す母音候補を抽出し、母音区間記憶
部46へ転送する。 音素境界決定部47では、子音区間記憶部42
と母音区間記憶部46の結果を参照して精度の高
い音素境界の最終決定を行なう。 前述したように、標準パターンに時間−周波数
パターンを用いて母音候補を抽出することよつ
て、次のような性質がある。 母音区間中のスペクトルの小さい乱れを吸収
し安定に母音を抽出することができる。 渡りの部分は時間間的にスペクトルが安定し
ないため、余分な母音候補の抽出を防ぐことが
できる。 母音中でパワーが不安定なためにデイツプで
付加された子音候補を、母音候補の安定性によ
つて取除くことができる。 本実施例はこの性質を積極的に利用し、以下の
処理を行なう。まず、第6図dで示す、子音/
h/の付加の部分では、gに示す母音候補の/
o/が長い区間に渡つて安定に抽出されているた
め、、の性質を用いて取除くことができる。
又、ラベルaに示す/N/の部分では、母音候補
gを見ると/N/以外に安定な母音候補が抽出さ
れないというの性質を利用することにより、c
に示す次のデイツプまでの区間をhに示すよう
に/N/と決定することができる。又、dに示
す/m/の区間で、gの母音候補を見ると、/
m/の区間の一部と/o/が重なつており、こ
の/o/は長い区間に渡つて安定していることか
らの性質を利用することによつて/m/の区間
を修正することができる。その結果を第6図eに
示す。 以上の処理の結果、子音区間は第6図eとして
子音区間記憶部42に転送し、母音区間は第6図
hとして母音区間記憶部46を経由して音素認識
部48に転送する。 子音判定部43では、第6図eに示した子音候
補の中で、音素境界の修正された音素/m/に対
して見直しを行ない、標準パターンのスペクトル
に対する類似度を求めて最も類似度の高い要素/
〓/に修正し、子音認識結果fとして音素認識部
48に転送する。 このように本方法では、デイツプによる子音候
補の検出とスペクトルの安定性を併用することに
よつて、より精密な音素のセグメンテーシヨンお
よび音素判別を実現することができる。 本方法を用いて、成人男子10名の発声した2120
単語を対象に音素認識し、評価した結果を表に示
す。
FIELD OF INDUSTRIAL APPLICATION The present invention relates to a speech recognition device for automatically recognizing speech signals uttered by a human voice. Conventional configurations and their problems A speech recognition device that automatically recognizes speech is considered to be very effective as a means for providing data and instructions from humans to computers and various machines. The pattern matching method is often adopted as the operating principle of speech recognition devices that have been researched or published in the past. This method memorizes standard patterns for all types of words that need to be recognized in advance, and compares them with unknown input patterns to calculate the degree of matching (hereinafter referred to as similarity). The word is calculated and determined to be the same word as the standard pattern that yields the maximum match.
In this pattern matching method, standard patterns must be prepared for all words to be recognized, so if the speaker changes, a new standard pattern must be input and stored. Therefore, in cases where hundreds of types of words or more are to be recognized, it is expected that it will take time and effort to pronounce and register all types of words, and the memory capacity required for registration will be enormous. Ru. Furthermore, there is a drawback that the time required for pattern matching between the input pattern and the standard pattern increases as the number of words increases. On the other hand, input speech is divided into phoneme units and recognized as combinations of phonemes (hereinafter referred to as phoneme recognition).
The method of determining similarity with a word dictionary written in phoneme units has the advantage that the memory capacity required for the word dictionary is significantly smaller, the time required for pattern matching is shorter, and the contents of the dictionary can be easily changed. ing. For example, the utterance of "red" is /
Since the three phonemes a/, /k/, and /i/ can be combined and expressed in an extremely simple format called AKAI, it is easy for non-specific speakers to deal with the sounds of many words. FIG. 1 shows a block diagram of a speech recognition system characterized by phoneme recognition. Audio input through a microphone or the like is analyzed by the acoustic analysis section 1.
As an analysis method, a band filter group uses linear predictive analysis to obtain spectrum information every frame period (about 10 ms). The phoneme discrimination section 2 uses the spectrum information obtained by the acoustic analysis section 1 and performs phoneme discrimination for each frame based on the data in the standard pattern storage section 3. The standard patterns stored in the standard pattern storage section 3 are obtained in advance for each phoneme from the voices of multiple speakers. In segmentation section 4,
Based on the analysis output of the acoustic analysis unit 1, voice sections are detected and boundaries for each phoneme are determined (hereinafter referred to as segmentation). The phoneme recognition unit 5 performs a task of determining what phoneme is in one phoneme interval based on the results of the segmentation unit 4 and the phoneme discrimination unit 2. As a result, a series of phonemes is completed. The word recognition unit 6 compares this phoneme sequence with a word dictionary 7 that is similarly expressed in phoneme sequences, and outputs the word with the highest degree of similarity as a recognition result. In the conventional segmentation unit 4, consonant segmentation was performed as follows.
Figure 2a shows the magnitude of the change in power over time, and Figure 2b shows the magnitude of the change in the rate of change of power over time. When has a concave shape (this is called a dip), the frame where the power shows the minimum value is n 1 , and the rate of change of power over time in the frames before and after n 1 (this is called the power difference value) Let n 2 and n 3 be frames in which 9 indicates negative and positive broadside values. Also, if the difference value at a certain frame n is WD(n), when the condition of WD(n 3 )−WD(n 2 )θ〓 (1) is satisfied, the interval from n 2 to n 3 is a consonant interval. It was. Here, θ〓 is a threshold value for preventing the addition of consonants, and is determined in advance based on statistical distribution. Details of the segmentation unit 4 and phoneme discrimination unit 2 are shown in FIG. The segmentation unit 4 includes a dip detection unit 31, a consonant interval determination unit 32, and a consonant determination unit 33. The dip detection unit 31 performs the dip detection using the power of the band filter obtained through acoustic analysis, and determines the consonant interval. In the section 32, the period between n 2 and n 3 in FIG. 2 is determined as a consonant interval. Consonant determination unit 33 based on the spectrum shape for this section.
Consonant judgment is performed. On the other hand, the phoneme discrimination unit 2 includes a vowel candidate extraction unit 35 and a vowel interval determination unit 36, and uses the LPC cepstral coefficients obtained by acoustic analysis to
Similarity calculation for the standard pattern storage unit 3 is performed by the vowel candidate extraction unit 35, and the phoneme with the highest similarity is extracted as a vowel candidate. In this case, the standard pattern storage section 3 is created using LPC cepstral coefficients for each frame, targeting the five vowels and nasal sounds. This result is applied to consonant intervals other than those determined by the consonant interval determination unit 32, and the vowel interval and vowel type are determined by the vowel interval determination unit 36. By combining this result with the result of the consonant determination section 33, the phoneme recognition section 5 performs phoneme recognition and sends it to the word recognition section 6 shown in FIG. According to this method, phoneme segmentation,
Although good discrimination can be made, there are two drawbacks because phoneme boundaries are uniquely determined by the presence of dips. One of them is that even when the power becomes unstable in a vowel, it is detected as a dip, so a consonant is added, and since a vowel is inevitably added according to Japanese rules, the result is a single consonant. The problem is that the addition of 2 phonemes results in the addition of two phonemes. Another problem is that the dip section does not necessarily represent the correct boundary, so the correct boundary between vowels and consonants is no longer guaranteed. This causes errors in discrimination between vowels and consonants, errors in discrimination between simple vowels and long vowels, and the like. An example is shown in FIG. This is an example of saying "number", and the label a indicates the position of each phoneme.
The dip detecting section 31 in FIG. 3 detects the dip c, the result is transferred to the consonant section determining section 32, and the result determined by the consonant determining section 33 is shown in d.
On the other hand, the extraction result of the vowel candidate extraction unit 35 is shown in e,
The vowel segment determination unit 36 performs vowel recognition by combining the result of the consonant segment determination unit 32 and the vowel candidate e. The results are shown in f. The vowel recognition result f and the consonant recognition result d are transferred to the phoneme recognition unit 5 to obtain the recognition result b. In the section of consonant recognition d, the area between n 2 and n 3 in Figure 2 is determined as a consonant interval according to the position of dip c, and the type of phoneme is determined according to the similarity of the spectrum to the standard pattern. show. In the section for vowel candidate e, phonemes with the highest spectral similarity are shown for vowels and nasals. By mechanically combining vowel candidates e using the boundaries of consonant recognition d as correct boundaries, a phoneme sequence as shown in the section of recognition result b is created. Comparing label a and recognition result b, /h/
and /u/ are added. Also, /N/ is replaced with /n/, and the /〓/ section is incorrect. This is just one example, and is caused by the fact that the dip sections shown in FIG. 2 do not necessarily represent consonant boundaries. The frequency with which such errors occur varies from person to person, and errors occur in speakers whose vocalization method is unstable or speakers whose frequency characteristics deviate greatly from the band filter used to detect dips. As a result, additions, omissions, and substitutions of phonemes occur frequently, resulting in a drawback that the performance of word recognition deteriorates. OBJECTS OF THE INVENTION An object of the present invention is to eliminate the above drawbacks and provide a high-performance speech recognition method by improving the accuracy of phoneme segmentation and phoneme discrimination. Composition of the Invention The present invention achieves the above object by determining the similarity of phonemes to a standard pattern, determining the position of a consonant candidate based on a change in power, and determining the similarity of each vowel candidate and consonant candidate to the standard pattern. By providing a phoneme boundary determination unit that corrects and determines phoneme intervals by comparing the continuity and strength of the This makes it possible to perform sound immersion recognition. DESCRIPTION OF EMBODIMENTS Examples of the present invention will be described below with reference to the drawings. The error shown in FIG. 4 occurs because the dip section does not necessarily represent the consonant boundary. Although dips are caused by power fluctuations, they do not necessarily correspond to spectral fluctuations. In other words, even if a dip exists, if there is no spectrum variation, it can be considered that no consonant exists there. Furthermore, if the spectrum is stable at the start or end position of the dip, and the spectrum changes significantly at other positions, it can be considered that the true phoneme boundary is at that position. This embodiment makes it possible to accurately determine the boundary between a consonant and a vowel by actively utilizing this property. FIG. 5 shows a block diagram of the main parts of a speech recognition device which is an embodiment of the present invention. The standard patterns stored in the standard pattern storage unit 44 are created using p-order LPC cepstral coefficients of n frames near the phoneme center for vowels and nasal sounds. That is, it is composed of a two-dimensional pattern on the time-frequency axis. The p-th LPC cepstral coefficient in the n-th frame of phoneme i is expressed as C iop , and a vector 〓 i is created. 〓 i = (C i11 , C i12 ,…, C i1p , C i21 ,…, C i31 ,…
C io1 , ..., C iop ) Total 〓 i from many voices and calculate the average value of 〓 i .
m ij (j represents the order of parameters, the maximum is k=
n×p). The covariance matrix is the same regardless of the type of phoneme, and is expressed as 〓. The inverse matrix of 〓 -1
and the (j, j′) element is σ jj ′, then j of phoneme i
The weighting coefficient a ij for the th pattern can be expressed as a ij =2 Kj=1 σ ij ′m ij ′ (2). Mahalanobis distance D i 2 for the distribution of phoneme i of parameters x (x 1 , x 2 , ..., x j , ..., x k ) obtained from voice data of multiple speakers is D i 2 = x t-1 It can be expressed as x− Kj=1 a ij x j +m i i-1 m i (3). t represents a transposed matrix.
The first term of equation (3) is omitted because it does not depend on the type of phoneme, and the similarity L i is simply expressed as L i = Kj=1 a ij x j −m i t W -1 m i (4 ) can be found. Therefore, a ij of equation (4) is stored in the standard pattern storage section 44.
and the constant m i t W -1 m i . Next, the parameters x (x 1 ,
x 2 , ..., x j , x k ) is calculated by the vowel candidate extraction unit 45 using equation (4), and the vowel candidate extraction unit 45 calculates the similarity L Candidates are extracted and the results are transferred to the vowel interval storage section 46. On the other hand, after performing acoustic analysis, the dip detection unit 4
Dip detection of the power of the band filter is performed at 0. The consonant section detecting section 41 sets the period between n 2 and n 3 shown in FIG. 2 as a temporary consonant section and transfers the result to the consonant section storage section 42 . The dip detection section 40 and the consonant interval determination section 41 constitute a consonant candidate extraction section 49. A phoneme boundary determination unit 47 collates the consonant interval storage unit 42 and the vowel interval storage unit 46 to determine the phoneme boundary. In this case, since the standard pattern storage section 44 is statistically configured with a plurality of frames near the center of the phoneme, slight fluctuations in the spectrum in the vowel can be absorbed as mere disturbances in the spectrum in the vowel. Furthermore, in the ambiguous region at the boundary with the consonant, the spectrum is not stable over time, so a large degree of similarity does not appear. By utilizing this property, vowel intervals can be extracted with high accuracy. Therefore, consonant candidates for which there is no possibility of a phoneme boundary are removed, consonant candidates with large errors in the consonant interval are corrected, and the results are stored in the consonant interval storage unit 42 for consonants.
Furthermore, vowels can be returned to the vowel section storage section 46. Next, for the consonant section determined by the phoneme boundary determining section 47 and stored in the consonant section storage section 42, the consonant determining section 43 calculates the degree of spectral similarity to the standard pattern in the new section and performs consonant determination.
By combining this result with the result in the vowel section storage section 46, the phoneme recognition section 48 performs phoneme recognition and transfers the result to the word recognition section. FIG. 6 shows an example of recognition performed by this embodiment. In the figure, a indicates a label determined by inspection. c indicates a dip region detected by the dip detection section 40 in FIG. 5, and d indicates a consonant candidate determined by the consonant section determination section 41. Also e
5 is a consonant candidate modified by the phoneme boundary determining unit 47, and 5 is a consonant recognition result determined by the consonant determining unit 43 for the consonant candidate shown in e. Further, g indicates a vowel candidate extracted by the vowel candidate extracting section 45, and h indicates a vowel recognition result modified by the phoneme boundary determining section 47. b indicates a recognition result recognized by the phoneme recognition unit 48 from the consonant recognition result f and the vowel recognition result h. In this embodiment, for consonant recognition, the dip detection section 40 first detects the dip position shown in FIG. 6c. For this dip position, the consonant section determination unit 41 selects the consonant candidates /b/, / shown in FIG. 6d.
n/, /m/, /h/ are extracted and transferred to the consonant section storage section 42. On the other hand, for vowel recognition, the vowel extraction unit 45 selects the phoneme with the highest degree of similarity for each frame using a standard pattern composed of time-frequency patterns stored in the standard pattern storage unit 44.
The vowel candidates shown in FIG. 6g are extracted and transferred to the vowel section storage section 46. In the phoneme boundary determination unit 47, the consonant interval storage unit 42
A highly accurate phoneme boundary is finally determined by referring to the results in the vowel interval storage unit 46. As mentioned above, extracting vowel candidates using a time-frequency pattern as a standard pattern has the following properties. It is possible to absorb small disturbances in the spectrum in vowel intervals and extract vowels stably. Since the spectrum in the crossing part is not stable over time, it is possible to prevent unnecessary vowel candidates from being extracted. Consonant candidates added by dips due to unstable power among vowels can be removed based on the stability of the vowel candidates. This embodiment actively utilizes this property and performs the following processing. First, the consonant / shown in Figure 6 d.
In the addition of h/, / of the vowel candidate shown in g is added.
Since o/ is extracted stably over a long interval, it can be removed using the property of .
In addition, in the part /N/ shown in label a, by using the property that when looking at vowel candidates g, no stable vowel candidates other than /N/ are extracted, c
The interval up to the next dip shown in can be determined as /N/ as shown in h. Also, looking at the vowel candidates for g in the /m/ section shown in d, /
A part of the interval of m/ overlaps with /o/, and the interval of /m/ is corrected by utilizing the property that /o/ is stable over a long interval. be able to. The results are shown in Figure 6e. As a result of the above processing, the consonant section is transferred to the consonant section storage section 42 as Fig. 6e, and the vowel section is transferred to the phoneme recognition section 48 via the vowel section storage section 46 as Fig. 6h. The consonant determination unit 43 reviews the phoneme /m/ whose phoneme boundary has been corrected among the consonant candidates shown in FIG. High element/
〓/ is corrected and transferred to the phoneme recognition unit 48 as a consonant recognition result f. In this way, in this method, more precise phoneme segmentation and phoneme discrimination can be realized by using the detection of consonant candidates by dips in combination with the stability of the spectrum. Using this method, 2120 utterances by 10 adult males were used.
The table shows the results of phoneme recognition and evaluation of words.

【表】 表から明らかなように、全音素の平均認識率
82.6%の良好な値を得ることができる。又、音素
付加率4.8%、音素脱落率3.9%の極めて少ない付
加、脱落誤りで精度の高い音素系列を作成するこ
とができる。 なお前記実施例ではスペクトル情報として
LPCケプストラム係数を用いた場合について述
べたが、フイルタバンク出力等、他の情報であつ
ても良い。 発明の効果 以上要するに本発明は標準パターンに対する音
素の類似度を求め、またパワーの変化に基づいて
子音候補を求め、母音候補と子音候補それぞれの
標恕パターンに対する類似度の連続性および強度
を互いに比較することにより音素区間を修正する
ことによつて、音素間の境界の位置および境界間
の音素の種類を精度良く決定し、信頼性の高い音
声認識を実現することができる利点を有する。
[Table] As is clear from the table, the average recognition rate for all phonemes
A good value of 82.6% can be obtained. Furthermore, it is possible to create a highly accurate phoneme sequence with very few addition and omission errors, such as a phoneme addition rate of 4.8% and a phoneme dropout rate of 3.9%. In the above embodiment, the spectrum information is
Although the case where LPC cepstral coefficients are used has been described, other information such as filter bank output may be used. Effects of the Invention In summary, the present invention calculates the similarity of phonemes to a standard pattern, and also calculates consonant candidates based on changes in power, and compares the continuity and strength of the similarity of vowel candidates and consonant candidates with respect to the standard pattern. By correcting the phoneme interval through comparison, the position of the boundary between phonemes and the type of phoneme between the boundaries can be determined with high accuracy, and there is an advantage that highly reliable speech recognition can be realized.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来の音声認識装置のブロツク図、第
2図はパワー及びパワーの変化速度の時間に対す
る変化の様子を示した図、第3図は従来の音声認
識装置の要部のブロツク図、第4図は同装置によ
り認識を行つた一例を示す図、第5図は本発明の
一実施例における音声認識装置の要部のブロツク
図、第6図は同装置による認識結果の一例を示す
図である。 40……デイツプ検出部、41……子音区間決
定部、42……子音区間記憶部、43……子音判
定部、44……標準パターン格納部、45……母
音候補抽出部、46……母音区間記憶部、47…
…音素境界決定部、48……音素認識部、49…
…子音候補抽出部。
Fig. 1 is a block diagram of a conventional speech recognition device, Fig. 2 is a diagram showing changes in power and the rate of change of power over time, and Fig. 3 is a block diagram of the main parts of a conventional speech recognition device. Fig. 4 is a diagram showing an example of recognition performed by the same device, Fig. 5 is a block diagram of the main parts of the speech recognition device in an embodiment of the present invention, and Fig. 6 is an example of recognition results by the same device. It is a diagram. 40...Dip detection section, 41...Consonant section determination section, 42...Consonant section storage section, 43...Consonant determination section, 44...Standard pattern storage section, 45...Vowel candidate extraction section, 46...Vowel Section storage section, 47...
... Phoneme boundary determination unit, 48... Phoneme recognition unit, 49...
...Consonant candidate extraction section.

Claims (1)

【特許請求の範囲】 1 多数話者の音声より得られたスペクトル情報
を用いて統計的距離尺度に基づき構成された標準
パターンを予め格納する標準パターン格納部と、
スペクトル情報を用いて分析区間毎に前記標準パ
ターンに対する音素の類似度を統計的距離尺度に
基づき抽出する母音候補抽出部と、パワーの時間
変化によるデイツプを用いて子音候補を求める子
音候補抽出部と、前記母音候補抽出部および子音
候補抽出部で抽出された母音候補と子音候補に対
し類似度の連続性および強度を用いて音素区間を
修正決定する音素境界決定部と、前記音素境界決
定部で決定された音素区間の音素の種類を決定す
る音素認識部とを少なくとも有することを特徴と
する音声認識装置。 2 標準パターンが、音素中心付近の複数の分析
区間長のスペクトル情報を用いて時間−周波数の
二次元パターンによつて統計的距離尺度に基づき
構成されたものであることを特徴とする特許請求
の範囲第1項記載の音声認識装置。
[Scope of Claims] 1. A standard pattern storage unit that stores in advance a standard pattern configured based on a statistical distance measure using spectrum information obtained from voices of multiple speakers;
a vowel candidate extraction unit that uses spectral information to extract the degree of similarity of phonemes to the standard pattern for each analysis interval based on a statistical distance measure; and a consonant candidate extraction unit that calculates consonant candidates using dips based on temporal changes in power. , a phoneme boundary determination unit that corrects and determines a phoneme interval using continuity and strength of similarity for the vowel candidates and consonant candidates extracted by the vowel candidate extraction unit and the consonant candidate extraction unit; A speech recognition device comprising at least a phoneme recognition unit that determines the type of phoneme in the determined phoneme interval. 2. A patent claim characterized in that the standard pattern is constructed based on a statistical distance measure by a two-dimensional time-frequency pattern using spectral information of a plurality of analysis interval lengths near the center of a phoneme. The speech recognition device according to scope 1.
JP59003923A 1984-01-12 1984-01-12 Voice recognition equipment Granted JPS60147797A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59003923A JPS60147797A (en) 1984-01-12 1984-01-12 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59003923A JPS60147797A (en) 1984-01-12 1984-01-12 Voice recognition equipment

Publications (2)

Publication Number Publication Date
JPS60147797A JPS60147797A (en) 1985-08-03
JPH0333280B2 true JPH0333280B2 (en) 1991-05-16

Family

ID=11570662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59003923A Granted JPS60147797A (en) 1984-01-12 1984-01-12 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS60147797A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3007096B2 (en) * 1989-05-17 2000-02-07 カシオ計算機株式会社 Musical sound wave generator
JP4876245B2 (en) * 2006-02-17 2012-02-15 国立大学法人九州大学 Consonant processing device, voice information transmission device, and consonant processing method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6336676A (en) * 1986-07-31 1988-02-17 Konica Corp Image pickup system by change coupled device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6336676A (en) * 1986-07-31 1988-02-17 Konica Corp Image pickup system by change coupled device

Also Published As

Publication number Publication date
JPS60147797A (en) 1985-08-03

Similar Documents

Publication Publication Date Title
Loizou et al. High-performance alphabet recognition
US6629073B1 (en) Speech recognition method and apparatus utilizing multi-unit models
Franco et al. Adaptive and discriminative modeling for improved mispronunciation detection
Li et al. Generalized i-vector representation with phonetic tokenizations and tandem features for both text independent and text dependent speaker verification
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
US20230178099A1 (en) Using optimal articulatory event-types for computer analysis of speech
Bhati et al. Unsupervised segmentation of speech signals using kernel-gram matrices
Biadsy et al. Discriminative phonotactics for dialect recognition using context-dependent phone classifiers
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
Pradhan et al. Excitation Source Features for Improving the Detection of Vowel Onset and Offset Points in a Speech Sequence.
JPH0333280B2 (en)
Savchenko et al. Optimization of gain in symmetrized itakura-saito discrimination for pronunciation learning
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
Mary et al. Keyword spotting techniques
Schnall et al. Comparing speaker independent and speaker adapted classification for word prominence detection
JPH0619497A (en) Speech recognizing method
JPH0455518B2 (en)
Mengistu et al. Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function
JP2979912B2 (en) Voice recognition device
Raghudathesh et al. Analysis and Classification of Spoken Utterance Using Feature Vector Statistics and Machine Learning Algorithms
Hamzah et al. Impact of acoustical voice activity detection on spontaneous filled pause classification
KR20040100592A (en) Speech Recognition Method of Real-time Speaker Independent Variable Word in Mobile System
Bhanja et al. Computer and Information Sciences
JPS62111295A (en) Voice recognition equipment
JPH06100919B2 (en) Voice recognizer