JPH0567040B2 - - Google Patents

Info

Publication number
JPH0567040B2
JPH0567040B2 JP60080030A JP8003085A JPH0567040B2 JP H0567040 B2 JPH0567040 B2 JP H0567040B2 JP 60080030 A JP60080030 A JP 60080030A JP 8003085 A JP8003085 A JP 8003085A JP H0567040 B2 JPH0567040 B2 JP H0567040B2
Authority
JP
Japan
Prior art keywords
word
phoneme
phonemes
recognition
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60080030A
Other languages
English (en)
Other versions
JPS61238099A (ja
Inventor
Shoichi Matsunaga
Kyohiro Kano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP60080030A priority Critical patent/JPS61238099A/ja
Publication of JPS61238099A publication Critical patent/JPS61238099A/ja
Publication of JPH0567040B2 publication Critical patent/JPH0567040B2/ja
Granted legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/62Hybrid vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/64Electric machine technologies in electromobility

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、音韻単位の認識に基づく単語音声
認識装置に関するものである。
「従来の技術」 従来、この種の音韻単位の認識に基づく単語音
声認識装置においては、入力音声の特徴パラメー
タ時系列を、単語辞書部の音韻記号の系列で表現
した単語の類似度を求めその類似度の最も高いも
のを認識結果としていた。その場合に単語辞書部
からの候補単語選択は音韻のみを用いていた。
(例えば板橋他「単語中の音素系列の指定によ
る語彙の減少効果」電子通信学会論文誌、Vol.
J67−D,No.8(1984−8);沢井他(大語彙単語
音声認識のための予備選択の検討」日本音響学会
音声研究会資料,S84−14(1984−6);) つまりこれらの方式は部分音韻系列の音韻順序
関係のみを考慮した選択方式であり、音韻間の接
続関係、つまり音韻が直接接続されているか間に
不明の音韻があるかが考慮されていなかつた。こ
のために、単語選択の能力は充分とは言えず、多
くの候補単語を必要とした。
またより明確な発声の場合には選択する単語数
が少なくなり、逆により曖昧な発声の場合には、
選択する単語数が多くなるというような発声の状
態に応じて単語選択の能力が変わるという考慮を
働かせることができなかつた。さらに音韻の検出
誤りには充分な訂正措置がとられていなかつた。
これらのために単語認識部で類似度を求める候
補単語数が多くなり、処理時間が長くなり、候補
単語数を少なくすると認識率が低下する問題があ
つた。
「問題点を解決するための手段」 この発明によれば、入力音声の特徴パラメータ
時系列から確実に音韻が存在する区間を音韻単位
で検出し、つまり入力音声を音韻単位にセグメン
テーシヨンを行い、そのセグメンテーシヨンによ
り得た音声の確からしい部分(区間)の音韻を検
出し、その検出した音韻と接続関係、つまり音韻
の連続性と、単語の語頭又は語尾を考慮した順序
性が同一のものを単語辞書部から候補単語として
選出し、この選出した候補単語についてのみ入力
音声特徴パラメータ時系列との類似度を求める。
このようにして少ない候補単語との類似度演算で
高い認識率を得る。なお必要に応じて、候補単語
の選出の際に音韻又は音韻連鎖に対応した音韻検
出誤りを訂正しながら行う。
「実施例」 図はこの発明の実施例を示す。入力端子1から
入力された音声は、特徴抽出部2においてデイジ
タル信号に変換され、更にLPC分析された後、
1フレーム(例えば8ミリ秒)ごとに特徴パラメ
ータに変換される。この特徴パラメータは入力音
声の正規化対数パワー、雑音からのレベルやスペ
クトルの距離、パワーデイツプ(2次曲線近似の
2次微係数)、短時間(例えば16ミリ秒)スペク
トル変化、長時間(例えば48ミリ秒)スペクトル
変化、周波数の低域と高域とのパワー比、5母音
及び撥音(N)の標準パターンからWLR尺度値
(スペクトル距離の近さの尺度値)などである。
この変換された入力音声の特徴パラメータ時系
列はセグメンテーシヨン部3に入力されて、音韻
単位で確実にセグメンテーシヨンができる区間、
つまり確かに音韻が存在している区間が検出され
る。この確実にセグメンテーシヨンができる区間
は、複数、好ましくは三つ以上の特徴パラメー
タ、例えばパワー、パワーデイツプ及び短時間ス
ペクトル変化について、それぞれしきい値を設定
し、その1つのしきい値の組を用いて、入力音声
の特徴パラメータをセグメンテーシヨンを行い、
つまりしきい値を同時に越えるか否かを行い、ま
た他のしきい値の組を用いてセグメンテーシヨン
を行い、その両しきい値を越えた区間、つまり両
セグメンテーシヨン区間の違いが小さいもの、例
えば2,3フレーム以下のものを、確実にセグメ
ンテーシヨンができる区間とする。
このように確実にセグメンテーシヨンされた区
間について、入力音声特徴パラメータ時系列に対
し、確からしい音韻認識部4で音韻を検出する。
この音韻検出は同一の特徴パラメータの系列した
標準の音韻との類似度を求めることにより従来と
同様の手法で求めることができる。この例では音
声のパワーとその継続時間とを基にして、検出し
た確からしい音韻が単語の語頭又は、語尾のもの
であるか否かも検出した場合である。
音韻が単語の語頭又は語尾のものであるか否か
の検出は、音声のパワー等を用いた従来の技術で
対応できる。これは、一般に音声区間の検出とよ
ばれる技術であり、例えば新美康永著「音声認
識」(昭和54年初刊、68ページから70ページ)等
に記されている。つまり音声区間の検出により得
られた単語の音声の始端を第nsフレーム、終端を
第neフレームとし、また確実にセグメンテーシヨ
ンされた区間の音韻をAとし、Aの区間が第a1
レームから第a2フレームまでとすると、|a1−ns
|≦δsであれば、音韻Aは単語の語頭の音韻とみ
なし、また|a2−ne|≦δeであれば、音韻Aは単
語の語尾の音韻とみなす。実際にはδs,δeは1か
ら2フレーム(16ミリ秒以下)程度に設定する。
候補単語の選択部5では検出した確からしい音
韻を用い、しかもその連続性とその順序性などを
保持し、つまり接続関係を保持し、同一の接続関
係の音韻をもつ単語を単語辞書部6から候補単語
として選択する。
この選択の際に、必要に応じて確からしい音韻
の認識結果の誤りを訂正しながら行う。例えばこ
のために音韻認識結果訂正規則部7が設けられ
る。誤り易い音韻認識の関係がある程度知られて
いるが、この関係を音韻認識結果訂正規則部7に
予め訂正規則として記憶しておく。この訂正規則
としては例えば次のものが考えられる。
(a) 連続母音に対する誤り、例えばAIとAEとは
誤り易い。
(b) 半母音、拗音に対する誤り、 (c) 語尾のセグメンテーシヨンの誤り、最後の音
韻が消えてその前の音韻を語尾と誤認識する、
その消え易い音韻が知られている。
(d) 無声化に対する誤り、無声化し易い音韻が知
られている。
検出した確からしい音韻を用いて単語辞書部6
から候補単語を選択する際に該当する候補単語が
ない時に、音韻認識結果訂正規則部7を参照して
検出した確からしい音韻中の誤りらしいものを訂
正して単語辞書部6から候補単語を選択する。
このようにして選択された候補単語を単語認識
部8へ送る。単語認識部8では特徴抽出部2から
の入力音声特徴パラメータ時系列と各候補単語と
の類似度が求められる。この類似度を求めるのは
従来用いられている手法と同様に行えばよい。求
める類似度の最も高い候補単語を認識結果として
認識結果出力部9から出力する。
次にこの発明の要部である単語候補の具体例を
示す。いま単語辞書部6に1)SAKATA 2)
MITAKA 3)TAKEHU 4)KITAKATA
5)TAKEDAなる単語が存在するとする。
確からしい音韻認識部4で (場合1) 1個の音韻Eのみが検出された場
合、3),5)の単語が選択される。
(場合2) KAなる連続した二つの音韻が検出
された場合、1),2),4)の単語が選択され
る。従来ではセグメンテーシヨンを行つておら
ず、従つて音韻の連続性を検出していなく、順
番のみを考慮していたため、例えば単語5)の
音声が入力され、そのEDを音韻として検出せ
ず、音韻K,Aを検出した場合は5)の単語も
候補としてしまう。
(場合3) TAなる連続した二つの音韻が検出
され、さらにそれが語尾の島である場合、単語
1),4)が選択される。従来ではセグメンテ
ーシヨンを行つていないため、TAの後にKA
が明確に出ていないと2)の単語も候補として
いる。
(場合4) TAKAなる4つの連続した音韻が
検出された場合、単語2),4)が選択される。
従来は前述と同様な理由から5)の単語も選択
することがある。
(場合5) MIなる二つの連続した音韻とKな
る一つの音韻とがその順で検出された場合、
2)の単語が選択される。
(場合6) Tなる音韻と、これと連続しないA
なる音韻とがその順に検出された場合、2),
4),5)の単語が選択される。従来ではセグ
メンテーシヨンを行わず順番のみを見ているた
め、1),2),3),4),5)の単語を選択す
る。
(場合7) 単語辞書部6にYA,MAがあり、
検出した確からしい音韻が連続したYANであ
る場合に、YANを含む単語を単語辞書部6か
ら選択してゆく途中で該当単語がなく選択でき
なくなり、訂正規則部7を参照して、YANを
YAMと訂正して、単語YAMAを候補として
選択する。
なお音韻の連続性の検出は例えば次のようにし
て行う。即ち確実にセグメンテーシヨンされた区
間の音韻を時間順にA,Bとし、Aの区間が第a1
フレームから第a2フレームとし、Bの区間が第b1
フレームから第b2フレームとすると、|b1−a2
≦δ1であれば、音韻A,Bは連続した音韻とみな
す。実際にはδ1は1から2フレーム(16ミリ秒以
下)程度に設定する。この音韻の連続性の検出
や、音韻が単語の語頭又は語尾のものであるか否
かの検出はセグメンテーシヨン部3あるいは確か
らしい音韻認識部4で行う。
「発明の効果」 以上説明したように、この発明によればセグメ
ンテーシヨンを行つて確からしい音韻を認識し、
これを用いて単語候補を予備選択しているため、
認識性能を落とさずに、候補単語を削減でき、認
識処理時間を削減できる。
例えばトツプ−ダウン・アンドボトム−アツプ
音声認識システム(松永他、「Top−Down処理
とBottom−Up処理を融合した音声認識」日本音
響学会音声研究会資料S83−49(1983−12))を単
語認識部8に用いた場合において、50名の発声し
た100都市名の音声データに対して、100都市名の
単語辞書部6を用いた場合、認識率95.5%で、従
来技術に対し、候補単語数を平均21.1%に、処理
時間を62.8%にそれぞれ削減でき、643都市名を
用いた場合認識率82.0%で従来技術に対し、候補
単語数を平均17.2%に、処理時間を53.8%にそれ
ぞれ削減できた。
なお上述において各部は一般には専用又は兼用
のマイクロプロセツサにより処理される。
【図面の簡単な説明】
図はこの発明による音声認識装置の一例を示す
ブロツク図である。 1……音声信号入力端子、2……特徴抽出部、
3……セグメンテーシヨン部、4……確からしい
音韻認識部、5……候補単語選択部、6……音声
認識用単語辞書、7……音韻認識結果訂正規則、
8……単語認識部、9……認識結果出力部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を特徴パラメータの時系列とし、そ
    の特徴パラメータ時系列と、単語辞書部からの音
    韻記号の系列で表現した単語とからその単語に対
    する類似度を単語認識部で求め、類似度の高い単
    語を認識結果とする単語音声認識装置において、 上記入力音声について確実に音韻が存在する区
    間を音韻単位で検出してセグメンテーシヨンを行
    う手段と、 そのセグメンテーシヨンされた区間が何れの音
    韻であるかを検出する手段と、 上記で検出した音韻の系列について、音韻の種
    類、連続性および単語の語頭または語尾を考慮し
    た順序性が同じ音韻の系列をもつ単語を、入力さ
    れた単語の候補として上記単語辞書部から選択し
    て読み出す手段と、 上記で読み出した単語の候補を、上記単語認識
    部に出力する手段とを具備することを特徴とする
    単語音声認識装置。
JP60080030A 1985-04-15 1985-04-15 単語音声認識装置 Granted JPS61238099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60080030A JPS61238099A (ja) 1985-04-15 1985-04-15 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60080030A JPS61238099A (ja) 1985-04-15 1985-04-15 単語音声認識装置

Publications (2)

Publication Number Publication Date
JPS61238099A JPS61238099A (ja) 1986-10-23
JPH0567040B2 true JPH0567040B2 (ja) 1993-09-24

Family

ID=13706869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60080030A Granted JPS61238099A (ja) 1985-04-15 1985-04-15 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS61238099A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2815579B2 (ja) * 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
JP2951332B2 (ja) * 1988-03-04 1999-09-20 富士通株式会社 音声認識における文節候補削減方式
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体

Also Published As

Publication number Publication date
JPS61238099A (ja) 1986-10-23

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US20090313016A1 (en) System and Method for Detecting Repeated Patterns in Dialog Systems
JPS6336676B2 (ja)
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
US6029130A (en) Integrated endpoint detection for improved speech recognition method and system
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
US7299173B2 (en) Method and apparatus for speech detection using time-frequency variance
US5806031A (en) Method and recognizer for recognizing tonal acoustic sound signals
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
US6055499A (en) Use of periodicity and jitter for automatic speech recognition
JPH0567040B2 (ja)
JPH0558553B2 (ja)
JPS5939760B2 (ja) 音声認識装置
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPS60129796A (ja) 音声入力装置
JPS5936759B2 (ja) 音声認識方法
JPH034918B2 (ja)
JPH0456999B2 (ja)
JPH0682275B2 (ja) 音声認識装置
Elghonemy et al. Speaker independent isolated Arabic word recognition system
Lienard Speech characterization from a rough spectral analysis
Sugiyama Unsupervised speaker adaptation methods for vowel templates
JPS6250800A (ja) 音声認識装置
Pawate et al. A new method for segmenting continuous speech

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term