JP2760096B2 - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JP2760096B2
JP2760096B2 JP1281873A JP28187389A JP2760096B2 JP 2760096 B2 JP2760096 B2 JP 2760096B2 JP 1281873 A JP1281873 A JP 1281873A JP 28187389 A JP28187389 A JP 28187389A JP 2760096 B2 JP2760096 B2 JP 2760096B2
Authority
JP
Japan
Prior art keywords
unit
difference
feature amount
feature
pattern matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1281873A
Other languages
English (en)
Other versions
JPH03145167A (ja
Inventor
潤 亀谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1281873A priority Critical patent/JP2760096B2/ja
Publication of JPH03145167A publication Critical patent/JPH03145167A/ja
Application granted granted Critical
Publication of JP2760096B2 publication Critical patent/JP2760096B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/50Photovoltaic [PV] energy

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明はパタン照合型の音声認識方式に関する。
[従来の技術] 従来この種の音声認識方式は,第2図に示す様な構成
となっている。第2図において,1はマイクロフォン等の
音声入力部,2は入力される音声信号を無音区間から分離
する始終端検出部,3は音声信号からパタン照合に適した
特徴量を抽出する特徴量計算部,6は標準パタンと抽出し
た特徴量の間でDPマッチング等を実行するパタン照合
部,7は登録された標準パタンを蓄積しておく標準パタン
メモリ部、11はパタン照合の結果より上位の認識処理を
行なう上位認識部である。
[発明が解決しようとする課題] 上述した従来の音声認識方式では,パタン照合の際に
用いられる特徴量として,メルケプストラム,LPCケプス
トラム等のケプストラム系の特徴量またはバンドパスフ
ィルタ群の出力などが主に使用されて来た。しかしなが
らこれらの特徴量はすべて音声のスペクトル構造に基づ
く特徴量であり,時間的に定常な過程に対しては音韻の
違いによる差異が明確に出るが,時間的に非定常な過程
に対しては音韻間の差がぼやけてしまうという欠点があ
った。
すなわち,従来の特徴量は,母音の様に時間的に定常
過程と見なせるものについては音韻間の識別が容易であ
るが,子音や子音から母音または母音から子音への過渡
区間等の,時間的に非定常過程と考えなければならない
区間では音韻間の識別が困難となる。この結果,/kizjut
u/(奇術)と/gizjutu/(技術)等の母音系列が似てい
る単語は,子音の違いが明確に表われず,誤認識しやす
い。この様に,従来の特徴量のみを用いた音声認識方式
では,音声の非定常部分がパタン識別の際にあまり寄与
しておらず,ひいては認識率が向上しない一因となって
いた。
本発明は音声の非定常部分がパタン認識に寄与するよ
うな音声認識方式を得ようとするものである。
[課題を解決するための手段] 本発明の音声認識方法は、母音・子音を認識単位とし
て選ばない、いわゆる『連続発生による単語・語句』音
声認識方式において、音声の定常部分と過渡部分とに着
目し、パタン照合に使用する特徴量として通常の特徴と
その差分特徴量とを選択してパタン照合を行なうように
したものである。
即ち、本発明によれば、母音・子音を認識単位として
選ばない音声認識方式であって、通常のパラメータであ
る特徴量を計算する手段と、得られたパラメータの差分
を計算する手段と、通常のパラメータでパターン照合を
行なう手段と、差分パラメータでパターン照合を行なう
手段と、通常のパラメータ又は差分パラメータの一方を
選択する手段を持ち、音声の非定常な部分においては、
前記差分パラメータによる線形パターン照合を行ない、
音声の定常な部分においては、前記通常のパラメータに
よる非線形パターン照合を行なうことを特徴とする音声
認識方式が得られる。
[実施例] 次に、本発明について図面を参照して説明する。第1
図は本発明の一実施例の構成図である。音声入力部1は
マイクロフォン等を通じて入力される音声信号をディジ
タル化するユニットである。始終端検出部2は入力され
た音声信号の前後にある無音区間から音声区間だけを分
離するユニットである。特徴量計算部3は分離後の音声
信号から通常の特徴量を計算するユニットである。差分
特徴量計算部4は特徴量計算部3で求めた特徴量の差分
を計算するユニットである。特徴量選択部5は差分特徴
量計算部4で求めた差分特徴量の大きさを判定基準にし
て通常の特徴量によるパタン照合か差分特徴量によるパ
タン照合かを選択するユニットである。パタン照合部6
は通常の特徴量によるパタン照合を行なうユニットであ
る。標準パタンメモリ部7は通常の特徴量の時系列で現
わされる標準パタンを格納するユニットである。差分パ
タン照合部8は差分特徴量によるパタン照合を行なうユ
ニットである。差分標準パタンメモリ部9は差分特徴量
の時系列で表わされれる標準パタンを格納するユニット
である。照合結果結合部10はパタン照合部6および差分
パタン照合部8の各ユニットから出力される照合結果を
特徴量選択部5からの選択信号に基づき結合して、連続
したひとつの照合結果の系列に変換するユニットであ
る。上位認識部11は照合結合部10からの出力系列に基づ
き単語レベル、語句レベルの認識を行なうユニットであ
る。
以下にこの実施例の動作を簡単に説明する。まず、話
者の発声した音声信号を含む入力信号は、マイクロフォ
ン等を通じて音声入力部1に入力される。音声入力部1
において、入力信号はアナログ信号からディジタル信号
に変換され、次のユニットに送られる。
始終端検出部2に送られた入力信号は、数十〜数百個
サンプル毎にフレーム単位にまとめられ、フレーム内の
平均パワー、零交差回数等の情報に基づき、無音区間か
音声区間かの判定がフレーム単位で行なわれる。ここで
音声区間と判定された区間が順次特徴量計算部3に送ら
れる。
次の特徴量計算部3において、送られて来た音声フレ
ームデータはフレーム単位でメルケプストラム分析等の
従来の方法で分析され、得られた特徴量は次のユニット
である差分特徴量計算部4と特徴量選択部5に送られ
る。
差分特徴量計算部4は、受け取ったフレーム単位の特
徴量系列をリングバッハァに格納しておき、現在フレー
ムの特徴量と数フレーム前の特徴量を用いて、次式の計
算式より現在フレームにおける差分特徴量を計算する。
この式において, はk番めのフレームにおける特徴ベクトル量, はk−n番めのフレームにおける特徴ベクトル量, はk番めのフレームにおける差分特徴ベクトル量,nは差
分を求める区間長に相当する遅延フレーム数,αは差分
特徴量に対する重み係数である。なお,k<n+1に対す
(ゼロベクトル)と定義する。
差分特徴量計算部4で計算された各フレーム毎の差分
特徴量は特徴量選択部5に送られ、各フレーム毎に選択
しきい値θ差分特徴量の大きさ(ベクトルの場合はベク
トルの絶対値)が比較され差分特徴量の大きさがθより
も越えた区間については、差分特徴量を用いたパタン照
合が選択される。この場合は、差分特徴量計算部4で計
算された差分特徴量がθを越え続けるフレームの間だけ
差分パタン照合部8に送られ、該当フレームにおける特
徴量計算部3で計算された通常の特徴量は、パタン照合
部6には送信されない。また差分特徴量計算部4で計算
された差分特徴量がθ以下の場合は、該当フレームにお
ける差分特徴量は差分パタン照合8に送信されず、代り
に特徴量計算部3で計算された通常の特徴量がパタン照
合部に送られる。
パタン照合部6においては、特徴量選択部5から送ら
れて来る連続したフレームの特徴量系列に対して、標準
パンタメモリ部7に格納されている定常母音標準パタン
と非線形マッチングを行ない,その部分系列に最適に照
合の取れた標準パタンのカテゴリ番号を照合結果結合部
10に送る。
また,差分パタン照合部8においては,特徴量選択部
5から送られてくる連続したフレームの差分特徴量系列
に対して,差分標準パタンメモリ部9に格納されている
非定常区間の標準パタンと線形マッチングを行ない,そ
の部分系列に最適に照合の取れた標準パタンのカテゴリ
番号を照合結果結合部10に送る。差分パタン照合部8に
おいて非線形マッチングではなく線形マッチングを行な
うのは,音声信号の時間軸方向の伸縮は主に母音定常部
で起り子音や過渡区間では置きにくいので,非線形マッ
チングによる無理なマッチングを防止するためである。
パタン照合部6と差分パタン照合部8から送られる部
分系列に対する照合結果は,照合結果結合部10において
ひとつの系列にまとめられる。この別々に照合された部
分系列をひとつに結合するためには,特徴量選択部5か
ら送信されるフレーム番号とどちらの特徴量で照合を取
ったのかに関する情報を用いる。この情報から連続した
フレームの部分系列毎に候補カテゴリ番号を割付けて行
き,最終的にフレーム単位の特徴量系列を候補カテゴリ
番号の系列に変換する。候補カテゴリ番号系列は上位認
識部11に送られ,ここで認識システムのタスクに応じ
て,音節単位あるいは単語単位の認識が行われる。
この認識方式における標準パタンの登録方法は以下の
様にして行なう。まず認識システムのタスクに応じて,
離散単語認識ならば単語単位,文章認識ならば語句単位
で発声した標準音声パタンを音声入力部1に入力する。
標準音声パタンは始終端検出部2で音声区間のみ分離さ
れ,この際必要ならば視察で始終端フレームを同定し,
特徴量計算部3にてフレーム単位に特徴量を算出する。
この特徴量系列から差分特徴量計算部4にて差分特徴量
を計算する。この差分特徴量系列を特徴量選択部5に入
力して,差分特徴量の大きさが規定のθを越える区間の
部分差分特徴量系列を子音・過渡区間に対する標準パタ
ン,またθ以下の区間の部分特徴量系列を定常母音区間
に対する標準パタンとする。特徴量選択部5から照合結
果結合部10に出力されるフレーム番号とどちらの特徴量
を選択したかの情報を基に,始終端検出部2からの出力
を観察でセグメンテーションを行ない,選択された各部
分区間の標準パタンにカテゴリ番号をラベリングしてい
く。このラベリング後の標準パタンを特徴量系列のもの
と差分特徴量系列のものとに分け,それぞれ標準パタン
メモリ部7と差分標準パタンメモリ部9に,カテゴリ番
号情報と共に格納する。
[発明の効果] 以上説明したように本発明は,通常の音声認識に使用
される特徴量の差分をパタン照合の際の特徴量として併
用し,差分特徴量がある一定の大きさを越える区間にお
いては差分特徴量を,差分特徴量がある一定の大きさ以
下の区間においては通常の特徴量を照合の基準として用
いる事により,従来の特徴量のみ使用した場合に発生す
る,母音系列の似た単語間の誤認識を減少することがで
きるという効果がある。
また,差分特徴量は音韻の時間的構造を反映するた
め,子音や過渡区間等の時間的変化が聴覚的に寄与する
音韻の識別率を高く望めること,音韻系列の中で定常母
音,子音・音韻過渡区間に相当する部分系列に対して各
標準パタンを作成することにより,音節よりも短かい擬
似音素的な単位で音声認識ができるため,音声による文
章認識や大語彙認識のシステムの下位レベルの認識部と
して利用できるという効果がある。
【図面の簡単な説明】
第1図は本発明の概略構成図,第2図は従来の装置の概
略構成図である。 記号の説明:1は音声入力部,2は始終端検出部,3は特徴量
計算部,4は差分特徴量計算部,5は特徴量選択部,6はパタ
ン照合部,7は標準パタンメモリ部,8は差分パタン照合
部,9は差分標準パタンメモリ部,10は照合結果結合部,11
は上位認識部。
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 571 G10L 5/06

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】母音・子音を認識単位として選ばない音声
    認識方式であって、通常のパラメータである特徴量を計
    算する手段と、得られたパラメータの差分を計算する手
    段と、通常のパラメータでパターン照合を行なう手段
    と、差分パラメータでパターン照合を行なう手段と、通
    常のパラメータ又は差分パラメータの一方を選択する手
    段を持ち、音声の非定常な部分においては、前記差分パ
    ラメータによる線形パターン照合を行ない、音声の定常
    な部分においては、前記通常のパラメータによる非線形
    パターン照合を行なうことを特徴とする音声認識方式。
JP1281873A 1989-10-31 1989-10-31 音声認識方式 Expired - Lifetime JP2760096B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1281873A JP2760096B2 (ja) 1989-10-31 1989-10-31 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1281873A JP2760096B2 (ja) 1989-10-31 1989-10-31 音声認識方式

Publications (2)

Publication Number Publication Date
JPH03145167A JPH03145167A (ja) 1991-06-20
JP2760096B2 true JP2760096B2 (ja) 1998-05-28

Family

ID=17645164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1281873A Expired - Lifetime JP2760096B2 (ja) 1989-10-31 1989-10-31 音声認識方式

Country Status (1)

Country Link
JP (1) JP2760096B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182036B1 (en) * 1999-02-23 2001-01-30 Motorola, Inc. Method of extracting features in a voice recognition system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223498A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素判別法
JPS61273599A (ja) * 1985-05-29 1986-12-03 株式会社日立製作所 音声認識装置
JPH079598B2 (ja) * 1985-12-20 1995-02-01 三洋電機株式会社 音声認識装置における標準パラメ−タの修正方法

Also Published As

Publication number Publication date
JPH03145167A (ja) 1991-06-20

Similar Documents

Publication Publication Date Title
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US6553342B1 (en) Tone based speech recognition
JP2815579B2 (ja) 音声認識における単語候補削減装置
JP2955297B2 (ja) 音声認識システム
Lakshmi et al. A syllable based continuous speech recognizer for Tamil
JP3444108B2 (ja) 音声認識装置
JPS6138479B2 (ja)
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP2760096B2 (ja) 音声認識方式
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2813209B2 (ja) 大語彙音声認識装置
JP3110025B2 (ja) 発声変形検出装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3277522B2 (ja) 音声認識方法
JP2943473B2 (ja) 音声認識方法
JP3457578B2 (ja) 音声合成を用いた音声認識装置および音声認識方法
Schnall et al. Speaker adaptation for word prominence detection with support vector machines
Laguna et al. Development, Implementation and Testing of Language Identification System for Seven Philippine Languages
JPS6336678B2 (ja)
Schnall et al. Speaker Adaptation for Support Vector Machine based Word Prominence Detection
JPH0827640B2 (ja) 音声認識装置
JPS6180298A (ja) 音声認識装置
Lei et al. Dialect classification via discriminative training.