JPH0534677B2 - - Google Patents

Info

Publication number
JPH0534677B2
JPH0534677B2 JP13801283A JP13801283A JPH0534677B2 JP H0534677 B2 JPH0534677 B2 JP H0534677B2 JP 13801283 A JP13801283 A JP 13801283A JP 13801283 A JP13801283 A JP 13801283A JP H0534677 B2 JPH0534677 B2 JP H0534677B2
Authority
JP
Japan
Prior art keywords
vowel
section
detected
power
stationary part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP13801283A
Other languages
English (en)
Other versions
JPS6029799A (ja
Inventor
Yoshiteru Mifune
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP13801283A priority Critical patent/JPS6029799A/ja
Publication of JPS6029799A publication Critical patent/JPS6029799A/ja
Publication of JPH0534677B2 publication Critical patent/JPH0534677B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、日本語最小発声単位であるCV音節
もしくはV1CV2音節を前もつて登録しておき、
登録話者が発声した、単語や文節および文章を認
識する音声認識装置に関する。
従来例の構成とその問題点 従来の連続音声認識におけるセグメンテーシヨ
ン方式は、いくつかの代表的なCV音節を基準パ
ターンとして数種類用意しておき、ワードスポテ
イング(音声区間走査)によつて、CV音節の位
置決めを行なうものや、電力値系列のテンプレー
トを用意しておき、子音区間から母音区間の電力
値の立上りに対して、テンプレートとの距離を計
算するものなどがあつたが、単語音声や連続文章
中では無音区間の位置が変動を受けやすい事や、
母音区間も無声化しやすい事等から、様々なテン
プレートを設定してもセグメンテーシヨン誤りを
回避することは、非常に困難であつた。このよう
なセグメンテーシヨン誤りは、最終的にはCV標
準パターンもしくはV1CV2標準パターンとパタ
ーンマツチングを行う際の認識誤りの原因となつ
た。またこのようなセグメンテーシヨンを前もつ
て行つた上で標準パターンとマツチングを行なわ
ずに、2段DP手法と呼ばれている、個々の登録
CV音節もしくはV1CV2音節とは時間軸伸縮を行
つた上で、全体として最適なCV音節もしくはV1
CV2音節系列を決定する、パターンマツチング手
法を用いるものも有つたが、莫大な計算量を必要
とするために専用ハードウエアを必要としたり、
実時間処理も困難となり、他の方法に比べて認識
率が優れているものの、2段DP手法に固有の挿
入、脱落誤り(例えば2音節データを3音節とマ
ツチングして誤認識したり、2音節データを1音
節としてマツチングして興認識する)が発生する
ことが有り、対策処理が困難であるために認識率
にも限界があつた。
発明の目的 本発明は以上の問題点に鑑み、連続発声された
単語、文節や文章における母音定常区間を簡単な
構成で、高速かつレベル変動に対しても高い精度
で検出することのできる音声認識装置を提供する
ことを目的とする。
発明の構成 本発明は、入力音声を特徴ベクトル{Xti}と
電力{Pti}の時系列に変換し、電力{Pti}の時
系列において一定の閾値(θ1)以上のフレームが
一定区間以上連続する範囲内で最初の極大値
{Pp1}を検出し、その極大値に一定比率(θp1
1)を乗じた値(Ptk×θp1>θ1)以上の連続フレ
ームを検出し、母音定常部候補区間とし、前記母
音定常部候補区間において、特徴ベクトルと母音
標準パターンの間でパターンマツチングを行つて
母音識列を行つた結果が、一定フレーム以上連続
した区間を母音定常区間とし、次の母音定常区間
は前記一定の閾値(θ1)を極大値{Pp1}にもと
づく新たな一定の閾値(θ2)に更新した上で次の
極大値{Pp2}の検出を行つて母音定常候補区間
の検出を行つた上で母音識別で行うものとし、順
次閾値(θj)を更新して母音定常候補区間と母音
識別を繰返すことによつて、母音定常区間を検出
することにより、連続発声された単語、文節や文
章における母音定常区間を簡単な構成で、高速に
かレベル変動に対しも高い精度で検出することを
可能とし、例えば、CV音節やV1CV2音節を単位
として連続音声の認識を行うような装置における
セグメンテーシヨンの精度の改善、ひいては認識
率の改善を図ることを目的とする。
実施例の説明 以下に本発明の実施例を図面を参照して説明す
る。
第1図は本発明の一実施例における連続音声認
識装置を示すブロツク図であり、入力部はA/D
変換器1、電力系変換手段2、特徴系列変換手段
3からなる。4は入力音声の電力系列によつて長
い無音を検出して音声区間を検出する音声区間検
出手段である。5は音声区間検出手段4によつて
切り出される音声区間において電力系列によつて
短い無音を検出して無音区間を検出する無音区間
検出手段である。6はピーク電力検出手段6aと
母音識別手段6bから成り、電力系における閾値
以上の連続フレームと母音識別結果から母音定常
区間を検出する、本発明の母音定常区間検出手段
である。7は入力音声を特徴ベクトルの形でCV
音節標準パターン7aもしくは、V1CV2音節標
準パターン7bの単位で記憶する標準パターン記
憶部である。8は平均発声長{L}フレームだ
け、特徴ベクトルの系列を記憶する特徴系列記憶
部である。9は特徴ベクトル記憶部8における、
語頭4aもしくは無音区間終了5bから直後の母
音定常部中心6cまでの区間の場合には、CV標
準パターン7aとパターンマツチングを行い、平
均発声長{L}フレーム以内の母音定常部中心6
c〜母音定常部中心6cの区間の場合には、V1
CV2標準パターン7bとパターンマツチングを行
うパターンマツチング手段である。10は音声区
間検出手段4,無音区間検出手段5、母音定常区
間検出手段6,特徴系列記憶部8およびパターン
マツチング手段9を全体的に制御して、入力音声
の母音定常部中心部に語頭や無音区間の情報を使
用して、CV音節とV1CV2音節とのパターンマツ
チング結果を接属して、CV音節のストリングス
として認識結果を出力する総合制御手段である。
上記実施例の母音定常区間検出手段の動作原理
を以下に説明する。
第2図,第3図は同手段のブロツク図および動
作原理図である。
第2図に示した母音定常区間検出手段6は、ピ
ーク電力検出手段6a1と電力系列記憶部6a2から
なるピーク電力検出手段6a、および母音判定手
段6b1,母音標準パターン6b2、母音系列記憶部
6b3からなる母音識別手段6b、母音定常区間の
中心位置を決定する母音定常部中心決定手段6d
で構成される。第3図に示すように母音定常区間
検出手段6は、平均発声長{L}フレーム分だけ
電力系記憶部6a2および母音系列記憶部6b3に記
憶された電力系列と母音識別結果の系列に対し
て、母音定常区間の検出を行うものであり、第3
図に示したように入力音声vの第1番目の定常区
間は、ピーク電力検出手段6a1によつて一定の閾
値θ1以上の電力系列を検出し、その範囲内での極
大値{Pp1}を検出し、極大値{Pp1<1}を乗じ
たレベル以上の区間を母音定常部候補区間とし、
その母音定常部候補区間内の母音判定手段6b1
出力としての母音系列における同一母音ラベルの
中心{図に示すように/AAiiiiiA/が候補区間
であるならば、ラベル/i/の中心}を母音定常
部中心決定手段6dによつて母音定常部中心6c
{iv1}として検出する。第2番目以降の母音定常
部中心6cは、初期閾値θ2(θ3……)は、極大値
{Pp1}の一定比率(C<1)を乗じたもの{θ2
Pp1×C}として決定して同様な処理を繰返して
母音定常部中心iv2,iv3……を検出する。
次に第1図に示す連続音声認識装置の動作説明
を行なう。第4図は同装置の動作原理を発声時間
tに従つて説明している。
同図においては、入力音声vは/ヒバリが空
に/と発声されたことを示しており、語頭4a〜
語尾4bは音声区間検出手段4によつて検出され
る。
母音定常区間検出手段6は、入力音声vに対し
て先に説明した様に電力系列の閾値から定まる極
大値と母音識別結果から、母音定常部中心6c
{iv1,iv2,……,iv6,iv7}を検出する。母音系
列が2種類連続する場合は、2重母音として各々
の中心を母音定常部中心とする。そして母音定常
部中心が検出される前毎に、その1つ前の母音定
常部中心との間に無音区間が存在するか否かを、
無音区間検出手段5によつて検出して、無音区間
開始,終了〔iSS15a,iSE25b〕〔iSS25a,iSE2
b〕として検出する。母音定常部中心{ivj}が
検出されると、{ivj}から平均発声長{L}フレ
ームF手前に、語頭4aもしくは無音区間終了5
b(iSE1,iSE2)が検出されているならば、語頭も
しくは無音区間終了から{ivj}までの区間に対
してCV標準パターン7aとパターンマツチング
手段9によつてマツチングを行い認識結果とす
る。{ivj}から平均発声長{L}フレームF手前
に語頭も無音区間も検出されないならば、平均発
声長{L}フレームF手前までに含まれる、母音
定常中心{ivj-p}から処理中の母音定常部中心
{ivj}までをVCVマツチング区間VCVTとして、
母音定常部中心の組合せ{〔ivj-p,ivj〕〔ivj-p+1
ivj〕……〔ivj-1,ivj〕}の区間に対して特徴系列
記憶部8とVCV標準パターン7bとの距離を、
パターンマツチング手段9によつて計算し、最適
なVCV音節と音節区間を決定する。図中、
CVT1,CVT2,CVT3はCVマツチング区間を、
VCVT1,VCVT2はVCVマツチング区間を、
NVT1,NVT2は無音区間をそれぞれ示す。
さらに音声区間検出手段4によつて、発声語ヒ
バリが空にの語尾4bが検出されると、総合制御
手段10は、最終母音定常部中心{iv7}から語
尾4a方向に母音定常部中心をバツクトレースす
る。つまり{iv7}では{iv6}が最適区間で認識
結果は〔ANi〕、同様に{iv6}では{iv5}で
〔ORA〕、{iv5}では無音区間終了{iSE2}が最適
範囲で認識結果は〔SO〕、{iv3}は{iv2}で
〔ARi〕、{iv2}では{iv1}で〔iBA〕、{iv1}で
は語頭4aが最適範囲で〔Hi〕が認識されたと
すると、総合制御手段10は、認識結果として、
「HiBARi GA SORANi」を出力する。
発明の効果 本発明は、入力音声を特徴ベクトル{xti}と
電力{Pti}の時系列に変換し、電力{Pti}の時
系列において一定の閾値以上のフレームの範囲で
極大値を検出し、その極大値に一定比率(θp1
1)乗じた値以上の連続フレームを検出し、母音
定常部候補区間とし、この母音定常部候補区間に
おいて、特徴ベクトルと母音標準パターンの間で
パターンマツチングを行つて母音識別を行つた結
果が一定フレーム以上連続した区間を母音定常区
間とし、第2番目以降は、はじめの電力の閾値を
1つ前の定常部の極大値に一定比率(C<1)を
乗じたレベルに設定して同様な処理を繰り返すこ
とによつて、順次母音定常区間を検出することに
より、発連発声された単語、文節や文章における
母音定常区間を簡単な構成で、高速にかつレベル
変動に対しても高い精度で検出することが可能で
ある。さらにこのことは、母音区間を明確に指示
することで連続音声認識装置の認識率の改善を行
うことも可能である。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装
置を示すブロツク図、第2図は同実施例における
母音定常区間検出手段のブロツク図、第3図は第
2図に示した検出手段の動作説明を示す原理図、
第4図は第1図に示した装置の原理図である。 1……A/D変換器、2……電力系列変換手
段、3……特徴系列変換手段、4……音声区間検
出手段、5……無音区間検出手段、6……母音定
常区間検出手段、6a,6a1……ピーク電力検出
手段、6a2……電力系列記憶部、6b……母音識
別手段、6b1……母音判定手段、6b2……母音標
準パターン、6b3……母音系列記憶部、6d……
母音定常部中心決定手段、7……標準パターン記
憶部、7a……CV標準パターン、7b……V1
CV2標準パターン、8……特徴ベクトル記憶部、
8b……特徴系列記憶部、9……パターンマツチ
ング手段、10……総合制御手段。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声を特徴ベクトルの系列に変換する特
    徴系列変換手段と、前記入力音声を電力値の系列
    に変換する電力系列変換手段と、前記電力値の系
    列において予め定めた電力値の閾値(θj)以上の
    連続フレームを検出し、前記連続フレームの範囲
    内で最初の極大値(Ppj)を検出し、前記極大値
    に一定の比率(θpj<1)を乗じた値(Ppj×θpj
    θj)を計算し、前記計算値以上の極大値を含む連
    続フレームを母音定常部候補区間とする母音定常
    部候補区間検出手段と、前記母音定常部候補区間
    において母音の標準パターンと特徴ベクトルのパ
    ターンマツチングを行つて母音識別を行う母音識
    別手段とよりなり、入力音声の先頭から前記母音
    定常部候補区間検出手段によつて検出された前記
    候補区間について前記母音識別手段の認識結果が
    同一であるフレームが一定フレーム以上連続する
    場合に母音定常区間とし、次の母音定常区間の検
    出には前記電力の閾値(θj)を前記極大値(Ppj
    をもとにした新たな閾値(θj+1)に更新して前記
    母音定常部候補区間検出手段及び前記母音識別手
    段を使用するものとし、順次前記母音定常区間を
    検出していくことを特徴とする音声認識装置。
JP13801283A 1983-07-28 1983-07-28 音声認識装置 Granted JPS6029799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13801283A JPS6029799A (ja) 1983-07-28 1983-07-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13801283A JPS6029799A (ja) 1983-07-28 1983-07-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6029799A JPS6029799A (ja) 1985-02-15
JPH0534677B2 true JPH0534677B2 (ja) 1993-05-24

Family

ID=15211990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13801283A Granted JPS6029799A (ja) 1983-07-28 1983-07-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6029799A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3741603A1 (de) * 1987-12-09 1989-06-22 Voith Gmbh J M Stoffauflauf fuer eine papiermaschine od.dgl.

Also Published As

Publication number Publication date
JPS6029799A (ja) 1985-02-15

Similar Documents

Publication Publication Date Title
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
JP3069531B2 (ja) 音声認識方法
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPH0534677B2 (ja)
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
Shimodaira et al. Accent phrase segmentation using pitch pattern clustering
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JPH1097269A (ja) 音声検出装置及び方法
Takahashi et al. Isolated word recognition using pitch pattern information
JPH0997095A (ja) 音声認識装置
JPS6147999A (ja) 音声認識装置
JPH0449716B2 (ja)
JPH0449953B2 (ja)
JPH05303391A (ja) 音声認識装置
JPH0242238B2 (ja)
JP2766393B2 (ja) 音声認識方式
JPH04271397A (ja) 音声認識装置
JPS6027000A (ja) パタンマツチング方法
JPS62166400A (ja) 音声ワ−ドプロセツサ装置
JPH096387A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
JPH03145167A (ja) 音声認識方式
Baker On the similarity of noisy phonetic strings produced by different words