JPS6029799A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6029799A
JPS6029799A JP13801283A JP13801283A JPS6029799A JP S6029799 A JPS6029799 A JP S6029799A JP 13801283 A JP13801283 A JP 13801283A JP 13801283 A JP13801283 A JP 13801283A JP S6029799 A JPS6029799 A JP S6029799A
Authority
JP
Japan
Prior art keywords
vowel
section
power
sequence
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP13801283A
Other languages
English (en)
Other versions
JPH0534677B2 (ja
Inventor
三船 義照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP13801283A priority Critical patent/JPS6029799A/ja
Publication of JPS6029799A publication Critical patent/JPS6029799A/ja
Publication of JPH0534677B2 publication Critical patent/JPH0534677B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、日本語最小発声学位であるCV音節もしくは
v1C■2音節全2音って登録しておき、登録話者が発
声した、単語や文節および文章を認識する音声認識装置
に関する。
従来例の構成とその問題点 従来の連続音声認識におけるセグメンテーション方式は
、い≦、つかの代表門なCV音音節及基準パターンして
数種類用意しておき、ワードスボティング(音声区間走
査)によって、CV音節の位置決めを行なうものや、電
力値系列のテンプレート1用意しておき、子音区間から
母音区間の電力値の立上りに対して、テンブレー1・と
の距離全34算するものなどがあったが、単語音声や連
続文章中では無音区間の位置が変動を受けやすいI■や
、母音区間も無声化しやすい事等から、様々なテンプレ
ートを設定してもセグメンテーション誤りを回避するこ
とは、非常に困難であった。このようなセグメンテーシ
ョン誤りは、最終的にはCv標準パターンもしくはv1
Cv2標準パターンとパターンマノチングを行う際の認
識誤9の原因となった。
またこのようなセグメンテーションを前もって行った上
で標準パターンとマツチングを行なわずに、2段DP手
法と呼ばれている、個々の登録CV音節もしくはv1C
v2音節とは時間軸伸縮ケ行った上で、全体として最適
なCV音節もしくはv1Cv2音節系列を決定する、パ
ターンマツチング手法を用いるものも有ったが、莫大な
計算量ケ必要とするために専用ハードウェアを必要とし
たり、実時間処理も田畑となり、他の方法に比べて認識
率が優れているものの、2段DP手法に固有の挿入、脱
落誤り(例えば2音節データを3音節とマツチングして
誤認識したり、2音節データ全1音節としてマツチング
して非認識する)が発生することがイ1す、対策処理が
困難であるために認識率にも限界があった。
発明の目的 本発明は以上の問題点に鑑み、連続発声された単語2文
節や文章における母音定常区間を簡単な構成で、高速か
つレベル変動に対しても高い精度で検出することのでき
る音声認識装置を提供することを目的とする。
発明の構成 本発明は、入力音声を特徴ベクトル+x、+と電力(P
ti’の時系列に変換し、電力lPt1’の時系列にお
いて一定の閾値以上のフレームの範囲で極大値を計算し
、その極大値に一定比率(o p 1(1)乗じた値以
上の連続フレームを検出し、母音定常部候補区間とし、
前記母音定常部候補区間において、特徴ベクトルと母音
標準パターンの間でパターンマツチングを行って母音識
列を行った結果が、一定フレーム以上連続した区間を母
音定常区間1複数種類連続する場合は複数個の区間)と
し、順次同様な手順を繰返すことによって、母音定常区
間を検出することにより、連続発声された単語2文節や
文章における母音定常区間を簡単な構成で、高速にかレ
ベル変動に対しも高い精度て検出することを可能とし、
1tlJえば、CV音節やv1Cv2音節を単位として
連続音声の認識を行うような装置におけるセグメンテー
ションの精度の改善、ひいては認識率の改善を図ること
を目的とする。
実施列の説明 以下に本発明の実施IPI図面を参照して説明する。
第1図は本発明の一実施例における連続音声認識装置を
示すブロック図であり、入力部はA/D変換器1.電力
系変換手段2.特徴系列変換手段3からなる。4は入力
音声の電力系列によって長い無音金検出して音声区間を
検出する音声区間検出手段である。5は音声区間検出手
段4によって切り出される音声区間において電力系列に
よって/J、Tjい無音を検出して無音区間を検出する
無1を区間検出手段である。6はピーク電力検出手段6
aとIJ75識別手段6bから成り、電力系における閾
値以」二の連続フレームと母音識別結果から母音定常区
間を検出する、本発明の母音定常区間検出手段である0
7は入力音声を特徴ベクトルの形でCv音節標準パター
ン7aもしくは、v1Cv2音節標準パターン7bの単
位で記憶する標準パターン記憶i都である。8は平均発
声長ILIフレームだけ、特徴ベクトルの系列を記憶す
る特徴系列記憶部である。9は特徴ベクトル記憶部8に
おける、語頭4aもしくは無音区間終了6bから直後の
母音定常部中心6Cまでの区間の場合には、Cv標準パ
ターン了aとパターンマツチングを行い、平均発声長I
LIフレーム以内の母音定常部中心60〜母音定常部中
心6Cの区間の場合には、v、Cv2標準パターン7b
とパターンマソチングヲ行つパターンマッチング手段で
ある。10は音声区間検出手段4゜無音区間検出手段6
.母音定常区間検出手段6゜特徴系列記憶部8およびパ
ターンマツチング手段9を全体的に制御して、入力音声
の母音定常部中心部に語頭や無音区間の情報を使用して
、CV音節とv1Cv2音節とのパターンマツチング結
果を接属して、Cv音節のストリンゲスとして認識結果
全出力する総合制御手段である。
上記実施例の母音定常区間検出手段の動作原理を以下に
説明する。
第2図、第3図は同手段のブロック図および動作原理図
である。
第2図に示した母音定常区間検出手段6は、ピーク電力
検出手段6a1と電力系列記憶部6 a 2からなるピ
ーク電力検出手段ea、および母音判定手段eb1.(
Et音標準パターン6b2.母音系列記憶部6b3から
なる母音識別手段6b、母音定常区間の中心位置を決定
する母音定常区間検出手段6dて構成される。第3図に
示すように母音定常区間検出手段6は、平均発声長IL
Iフレーム分だけ電力系記憶部6a2および母音系列記
憶部6b3に記憶された電力系列と母音識別結果の系列
に対して、母音定常区間の検出を行うものであり、第3
図に示したように入カフ4声Vの第1番目の定常区間は
、ビり電力検出手段6a1によって一定の閾値θ1以」
二の電力系列を検出し、その範囲内での極大値IP l
全検出し、極大値IPp1<11を乗じたレベ1 ル以上の区間(ll−一菖定常部候補区間とし、その母
音定常部候補区間内の母音判定手段6b1の出力として
の母IS−系列における同一母音ラベルの中心1図に示
すように/AA i i i i i A/が候補区間
であるならば、ラベル/Vの中心)全母音定常郡中心決
定手段6dによって母音定常部中心6cliv11とし
て検出する。第2番目以降の母音定常部中心6Cは、初
期閾値02(θ3・・・・・)は、極大値IPp11の
一定比率(C<1)を乗じたもの(02−Pp1×C)
として決定して同様な処理を繰返して母音定常部中心i
v2.iv3・・・・・・全検出する。
次に第1図に示す連続音声認識装置の動作説明を行なう
。第4図は同装置の動作原理全発声時間tに従って説明
している。
同図においては、入力音声Vが/ヒバリが空に/と発声
されたことを示しており1語頭4a〜語尾4bは音声区
間検出手段4によって検出される。
母音定常区間検出手段6は、入力音声Vに対して先に説
明した−に電力系列の閾値から定まる極大値と母音識別
結果から、母音定常部中心6C(iv iv ・・・・
・・、tve、1v71 k検出する。母音系1+2+ 列が2種類連続する場合は、2重母音として各々の中心
を母音定常部中心とする。そして母音定常部中心が検出
される前色に、その1つ前の母音定常部中心との間に無
音区間が存在するか否かを、無音区間検出手段5によっ
て検出して、無音区間開始、終了[13316a 、 
i 5b〕[;13326a 。
E2 1sE25b〕として検出する。母音定常部中心l i
v ] 1が検出されると、l iv r lから平均
発声長゛(L)フレーム1手前に、語頭4aもしくは無
音区間終了5b(’5E11’5E2)が検出されてい
るならば、語頭もしくけ無音区間終了からfiv・)ま
での区間に対してCv標準パターン7aとパターンマツ
チング手段9によってマツチングを行い認識結果とする
1iv、lから平均発声長ILIフレームF手前に語頭
も無音区間も検出されないならば、平均発声長ILIフ
レームF手前壕でに含まれる、母音定常中心(ivt 
、、lから処理中の母音定常部中心1 i v r l
まで1 vcv マツチング区間VCVTとして、母音
定常γ≦IS中心の組合せl[iv・iv・)(iv−
iv・)1−1)’ ] ]−P→11 ] ・・・・・・l:iv4. 、iv4]の区間に対して
特徴系列記t!Fils 8 トV Cv標準パターン
7bとの距離を、パターンマツチング手段9によって計
算し、最適なVCV 音節と音節区間を決定する。図中
、CVTl。
cvT2.cvT3はcvマツチング区間を、VCVT
、。
VCVT2はvCvマツチング区間を、NvT4.Nv
T2は無音区間をそれぞれ示す。
さらに音声区間検出手段4によって、発声語ヒバリが空
にの語尾4bが検出されると、総合制御手段1oは、最
終母音定常部中心fiv71がら語尾4a方向に母音定
常部中心をバックトレースする。
つまりI 1vr Iではl l V61が最適区間で
認識結果は(ANi)、同様にl1v61ではI I 
V51で[ORA :l、l1v61では無音区間終了
1 ’SE2 +が最適範囲で認識結果は〔SO3、(
iv31はl i v21で[ARi)l、1iv21
ては11 vllで(iBA)、l1v11では語頭4
aが最適範囲で(Hi)が認識されたとすると、総合制
御手段1゜は、認識結果として、[HiBARiJ? 
Gl’J 5ORANi Jを出力する。
発明の効果 本発明は、入力音声を特徴ベクトルI x t工)と電
力tP、、+の時系列に変換し、電力(Pti’の時系
列において一定の閾値以上のフレームの範囲で極大値を
検出し、その極大値に一定比率(0p1〈1)乗じた値
以上の連続フレームを検出し、母音定常部候補区間とし
、この母音定常部候補区間において、特徴ベクトルと母
音標準パターンの間てパターンマツチングを行って母音
識別を行った結果が一定フレーム以上連続した区間を母
音定常区間とし、第2番目以降は、はじめの電力の閾値
を1つ前の定常部の極太値に一定比率(C〈1)を乗じ
たレベルに設定して同様な処理を繰り返すことによって
、順次母音定常区間を検出することにより、発達発声さ
れた単語2文節や文章における母音定常区間k ff1
i単な構成で、高速にかつレベル変動に対しても高い精
度で検出することが可能である。さらにこのことは、母
音区間を明確に指示することで連Uし音声認識装置の認
識率の改善を行うことも可能である。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装置を示す
ブロック図、第2図は同実施例におiる母音定常区間検
出手段のブロック図、第3図は第2図に示した検出手段
の動作説明?示す原理図、第4図は第1図に示した装置
の原理図である。 1・・・・・・A/D変換器、2・・・・・電力系列変
換手段、3・・・・・・特徴系列変換手段、4・・・・
・・音声区間検出手段、6・・・・・・無音区間検出手
段、6・・・・・・母音定常区間検出手段、5 a、 
6a1・・・・・ピーク電力検出手段、6 a 2・・
・・・・電力系列記憶部、6b・・・・・母音識別手段
、6b1・・・・・・母音判定手段、6b2・・・・・
・母音標準ノくターン、6b3・・・・・・母音系列記
憶部、6d・・・・・・母音定常区間検出手段、7・・
・・・標準パターン記憶部、7a・・・・・・Cv標準
パターン、7b・・・・・v1Cv2標準ノシターン、
8・・・・・・特徴ベクトル記憶部、8b・・・・・特
徴系列記憶部、9・・・・・・パターンマツチング手段
、10・・・・総合制御手段。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名−1
1■

Claims (1)

    【特許請求の範囲】
  1. 入力音声を特徴ベクトルの系列に変換する特徴系列変換
    手段と、前記入力音声を電力値の系列に変換するジ〕系
    列変換手段とを有し、前記電力値め系列において予め定
    められた電力の閾値以上となる連続フレームを検出し、
    前記連続フレームの範囲内での極大値を検出1、前記極
    太値に一定の比率を乗じた値以上の連続フレーム全母音
    定常部候補区間とし、前記母音定常部候補区間において
    、特徴ベクトルと母音標準パターンの間でパターンマツ
    チングを行って母音識別を行った結果が一定フレーム以
    上連続した区間k El音定常区間とし、次の母音定常
    区間は、前記極美値に前記一定比率ケ乗じた値全電力の
    闇値として同様の処理を行って順次母音定常区間を検出
    すると、l!l:を特徴とする音声認識装置。
JP13801283A 1983-07-28 1983-07-28 音声認識装置 Granted JPS6029799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13801283A JPS6029799A (ja) 1983-07-28 1983-07-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13801283A JPS6029799A (ja) 1983-07-28 1983-07-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6029799A true JPS6029799A (ja) 1985-02-15
JPH0534677B2 JPH0534677B2 (ja) 1993-05-24

Family

ID=15211990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13801283A Granted JPS6029799A (ja) 1983-07-28 1983-07-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6029799A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01156590A (ja) * 1987-12-09 1989-06-20 J M Voith Gmbh 製紙機械用材料供給装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01156590A (ja) * 1987-12-09 1989-06-20 J M Voith Gmbh 製紙機械用材料供給装置

Also Published As

Publication number Publication date
JPH0534677B2 (ja) 1993-05-24

Similar Documents

Publication Publication Date Title
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US6629073B1 (en) Speech recognition method and apparatus utilizing multi-unit models
CN1179587A (zh) 具有语音合成所使用的基本频率模板的韵律数据库
Wightman et al. The aligner: Text-to-speech alignment using Markov models
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Hohne et al. On temporal alignment of sentences of natural and synthetic speech
JPS6029799A (ja) 音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JPH01202798A (ja) 音声認識方法
JP2757356B2 (ja) 単語音声認識方法および装置
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JP3299170B2 (ja) 音声登録認識装置
JPS60188995A (ja) 文章発声方法
JP3110025B2 (ja) 発声変形検出装置
JP3031081B2 (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JPH0449953B2 (ja)
JPH0449716B2 (ja)
JP3111997B2 (ja) 音声認識システムおよび単語辞書作成装置
JPS59224900A (ja) 音声認識方法
JP2578771B2 (ja) 音声認識装置
JPS61256396A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置