JPS59204099A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS59204099A
JPS59204099A JP58078243A JP7824383A JPS59204099A JP S59204099 A JPS59204099 A JP S59204099A JP 58078243 A JP58078243 A JP 58078243A JP 7824383 A JP7824383 A JP 7824383A JP S59204099 A JPS59204099 A JP S59204099A
Authority
JP
Japan
Prior art keywords
section
speech
matching
recognition
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58078243A
Other languages
English (en)
Inventor
広田 敦子
山田 興三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP58078243A priority Critical patent/JPS59204099A/ja
Publication of JPS59204099A publication Critical patent/JPS59204099A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) 本発明は単語などの音声を認識する音声認識方式に関し
、特にマツチング方式による音声認識に関するものであ
る。
O背景技術) 従来の単語音声認識方式においては、特定話者認識、及
び不特定話者認識のいずれも、標準パターンをあらかじ
め登録しておき、話者の発生した入カバターンとパター
ンマツチングを行ない、マツチングの結果における距離
の値の、最小のものを、認識結果とするパターンマツチ
ングが主流である。
マツチング方式にも各種あり、中でも単語区間を抽出し
、時間的等間隔に再サンプルを行なうリニアマツチング
と、Drマツチングに代表されるノンリニアマツチング
などがあげられる。
しかし、リニアマツチング、及びノンリニアマツチング
とも、それぞれに一長一短がある。
例えば、特定話者認識において、リニアマツチングは、
処理が簡単で、ハードウェアも小形であるという長所が
あるが、発生の部分的な時間的伸縮に対し、精度よく、
マツチング処理が行なえないため、認識率が、やや低下
する傾向を見せるという短所かある。
また、ノンリニアマツチングにおいては、発生の部分的
な、時間収縮に対し、よく対応し、認識率が良いという
長所があるが、距離演算量が多く、専用ハードウェアが
必要になり、コストも高くなるという短所がある。第1
図に基本的な認識方法のブロック図を示す。第1図を参
照するに、1は、分析バンドパスフィルタ、2は切り出
し部、すなわち、音声区間抽出部、3は、正規化部、4
は、マツチング部、5は、標準パターンメモリ、6は1
判定部である。
マイクロフォン、あるいは電話機等から入力された音声
信号は、分析バントパスフィルタ1等により分析が行な
われ、切り出し部2により音声の始端、終端を検出し、
音声区間が決められた後、正規化部3で音声の時間軸の
正規化を行なう。
次に、マツチング部4で、特徴バッファメモリの内容と
、標準パターンメモリ5に格納されている複数個の標準
パターンを、順次1つずつ取り出し、類似度を計算し、
各標準パターンと、入力音声パターンとの類似度を、判
定部6に送出する。
判定部6で類似度が最大となる標準パターンを求め、そ
の標準パターンに、あらかじめ付されたコード等を認識
結果として、外部に出力する。
類似度は、相互相関等で計算できるが、一般的には、非
類似度として、未知音声の特徴パラメータと、標準パタ
ーン間で絶対値距離、あるいはニークリ・ンド距1撃を
用いて最小値検出を行なう方法がとられている。
絶対値距離を用いたマツチング演算を、(1)式に示す
)I・・・・ (1) Vmは、未知音声Pとm番目の標準パターンQmとの非
類似度、iは、バンドパスフィルタ群の、出力に付され
たチャネル番号で、i=1,2・・・■である。jは、
時間正規化後の時間サンプル点に付された 番号で、j
=1,2・ψ・Jである。このような、音声認識方式に
おいて、従来のリニアマツチングの精度の問題について
、本発明の主旨に沿って、具体例をあげて説明する。
1単語内で、語頭以外に、破裂音(lpl、ltl、l
kl、lbl、Idl、Ngl)などを含んでいる単語
、例えば、「サラポロ」、「キョート」などは、音声の
パワーの中にポーズ区間のイア在が見られ、発生時間の
ばらつきよりも、ポーズ区間の長さのばらつきの報が大
きくなる。
例えば、第2図を参照するに、ある一定時間内Tに「京
都」と−回発生を行なった時のパワーパターンは、2つ
の山の連続であり、山と山の間にポーズが見られる。通
常、無意識に会話をしている際、同一の単語であっても
、その時間長は非常に変化する。同じ単語、例えば1語
1秒程度の長さく5〜7音節位)の地名を繰り返し発生
を行ない、その時間的な長さを比較すると、十′rO%
位の変動がみられる。その上、発生の繰り返し回数が多
い程、上記の特性に加え、人間特有の疲れ、なまけなど
の影響のため、余計変動が激しくなる。また、発生を特
に意識して行なうか、行なわないかによっても、無音区
間が生じる場合と、生じない場合の2通りのパターンが
起る単語もある。
実験データとして、濁音、撥音、幼音、促音、等発生の
際に確実に無音区間の生じる語、Ipl、Itl、Ik
l、Ib1.ldl、Iglを含む、単語を用い、各々
の無音部の特徴を調べた。
その結果、同一単語を、任意の回数繰り返し発生した結
果、無音部の間隔の最小値と、最大値との差は、約50
m5ecであった。語中に破裂を含む単独発生での単語
全体の時間長Tと、無音部TPのばらつきの関係は「サ
ラポロ」、「キョート」などのデータなどを総合的に見
ると、ばらつき度は、全体の長さTよりも、無音部TP
の方が大きくなっている。さらに、文章中での単語に拡
張した場合、この傾向は、より大きくなる。すなわち、
標準パターンと、一致の度合の低い無音部TPを、含ん
だ状態で、マツチングの距離計算を行なうことによって
、さらに、入カバ)−ンと標準パターンとの距離′が大
きくなり、また、単語全体の時間軸も長くなるという欠
点が生ずる。
以L、述べたように音声発生区間を抽出して、時間正規
化処理を行なう従来の認識処理においては、発生される
言葉の種類によって、マツチング精度が低下するという
欠点があった。
(発明の課題) 本発明の目的は、これらの欠点を解決するため、リニア
マツチングの長所を有し、かつポーズ区間を含む単語音
声のノンリニア的な収縮に対し、マツチング精度を向」
ニさせる手段を提供するためのもので、以下図面に従っ
て詳細に説明する。
(発明の構成および作用) 第3図は、本発明における音声処理の概要を説明するた
めに示した認識処理プロ・ンクを示したものである。第
4図(a)、(b)は音声のパワーエンベロープの例を
、第5図は、第4図(b)の音声パターンが人力された
場合、本発明のマ・ンチング区間判定部で処理した部分
パターンを示す。
第3図に示す認識処理ブロック図においては、従来技術
を示した第1図のブロックにマツチン区間判定部13が
付加されている。本ブロックにおいては、マツチング区
間判定部13以外は、第1図のブロックと、基本的に同
一の動作を行なうものであり、共通部分の説明は省略す
る。
マツチング区間判定部13では、切り出し部12で切り
出された音声区間内に存在するポーズ区間を検出し、正
規化部14にポーズ区間を除いた残りの音声区間を出力
する。即ち、第4図(a)に示されるほぼ連続するパワ
ーエンベローブヲ有する単語の場合、単語中にポーズ区
間が検出されず、全単語区間T(第1−第Nフレーム)
全体を、そのまま出力する。次に第4図(b)に示され
るポース区間tpを有するパワーエンベロープを有する
単語の場合、ポーズ区間tpを抽出し、全単語区間Tの
内、第(A+1)〜第(B−1)フレームの部分を除い
た第1〜第Aフレームと、第B−icフレームの部分の
み出力する。ここに抽出された音声部分を、第5図に示
す。即ち、新らしい音声区間T゛は、以上説明したポー
ズを除去したもので、全体のフレーム数は(A−E+C
+1)フレームに相当するものになっている。
ポーズ区間の検出方法は、従来公知の方法によってなさ
れる。−例をあげると、音声パワーにおける有音/無音
の判定閾値(psとする)および無音連続時間閾値(t
sとする)を設定し、単語音声中のパワーエンベロープ
の中で、ps以下になる部分がt s lRj間以上連
続した場合に、その開始フレームと終了フレームの間を
ポーズ区間tsとする方法である。
次に、第5図に示された音声区間T′に対して、従来と
同様な手法で、時間軸の正規化が行なわれる。時間軸正
規化の方法は、従来公知の技術であり、リニアマツチン
グ方式では音声区間(TまたはTりを認識装置の条件に
よって、定められた一定数に時間的に等間隔に分割、再
サンプルする方法である。そして、マツチング部5にお
いて、同様に作成された標準パターンメモリ6の出力と
の距離演算を行ないその結果を判定部7で判定し、認識
結果として出力する。
ここで、音声認識処理上の問題をまとめると、次の通り
である。
(1)無音声部を含む単語音声において、発生による時
間変動は特に無音部において大きく、リニアマツチング
におけるマツチング精度が低下する傾向にある。
(2)また、無音部の継続時間の大小によっては、単語
全体のマツチング距離演算におζする、有音部の特徴が
全体で平均化され、類似した無音区間を有する単語間の
差異が十分とれず認識性能が低下する傾向にある。
(発明の効果) 以上説明したように、本発明の構成をとることによって
、相対的に大きな無音部の変動によるリニアマツチング
の精度低下を回避すると同時に、有音部を相対的に細か
く再サンプルすることによる類似単語間の音韻性の差を
、強調することができ、認識性能の向上を図ることがで
きる。本発明は不安定で低電力な発生部分を、削除し、
安定な部分のみでマツチングを行なっている特徴を有す
るためあらゆる音声認識リニアマツチング方式に、利用
することができる。
【図面の簡単な説明】
第1図は従来の認識回路のブロック図、第2図は発声(
京都)のパワーパターンを示す図、第3図は本発明によ
る認識回路のブロック図、第4図(A)及び(B)は音
声のパワーエンベロープの例を示す図、第5図は第4図
CB)の音声のパターンが入力された場合、本発明のマ
ツチング区間判定部で処理した部分パターンを示す図で
ある。 11は、分析バンドパスフィルタ 12は、切り出し部 13は、マツチング区間判定部 14は、正規化部 15は、マツチング部 16は、標準パターンメモリ 17は、判定部 特許出願人 沖電気工業株式会社 特許出願代理人 弁理士  山木恵− 本i 図(θす I 潰し、4  図 (b〕 #5図

Claims (1)

    【特許請求の範囲】
  1. 入力信号に接続されるバンドパスフィルタによる音声分
    析部と、その出力で音声の発声区間を抽出する切り出し
    部と、発生区間を等時間隔で一定のサンプル数で再サン
    プルする正規化部と、正規化された音声パターンと、予
    め格納されている標準パターンとの距離演算を行なうマ
    ツチング部とマツチング結果に基づいて、認識結果を判
    定して出力する判定部とを有する音声認識方式において
    、切り出された音声区間の内、無音に相当する部分を検
    出除去し、かつ有効な有音部の連なりを新たな音声発生
    区間として、抽出し、1規化処理を行なう機能を有する
    ことを特徴とする音声認識ノj式。
JP58078243A 1983-05-06 1983-05-06 音声認識方式 Pending JPS59204099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58078243A JPS59204099A (ja) 1983-05-06 1983-05-06 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58078243A JPS59204099A (ja) 1983-05-06 1983-05-06 音声認識方式

Publications (1)

Publication Number Publication Date
JPS59204099A true JPS59204099A (ja) 1984-11-19

Family

ID=13656573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58078243A Pending JPS59204099A (ja) 1983-05-06 1983-05-06 音声認識方式

Country Status (1)

Country Link
JP (1) JPS59204099A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61128391A (ja) * 1984-11-28 1986-06-16 Matsushita Electric Ind Co Ltd パタンマツチング装置
JPS62255999A (ja) * 1986-04-30 1987-11-07 富士通株式会社 単語音声認識装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56138798A (en) * 1980-03-31 1981-10-29 Nippon Electric Co High speed voice recognition device
JPS5713499A (en) * 1980-06-28 1982-01-23 Tokyo Shibaura Electric Co Voice recognition device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56138798A (en) * 1980-03-31 1981-10-29 Nippon Electric Co High speed voice recognition device
JPS5713499A (en) * 1980-06-28 1982-01-23 Tokyo Shibaura Electric Co Voice recognition device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61128391A (ja) * 1984-11-28 1986-06-16 Matsushita Electric Ind Co Ltd パタンマツチング装置
JPS62255999A (ja) * 1986-04-30 1987-11-07 富士通株式会社 単語音声認識装置

Similar Documents

Publication Publication Date Title
US8326610B2 (en) Producing phonitos based on feature vectors
JPH08263097A (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
JP2007233148A (ja) 発話区間検出装置及び発話区間検出プログラム
JPS6138479B2 (ja)
JPS59204099A (ja) 音声認識方式
WO2009055701A1 (en) Processing of a signal representing speech
JPH03114100A (ja) 音声区間検出装置
JPS5936759B2 (ja) 音声認識方法
JP3125928B2 (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JPH0567039B2 (ja)
JPS6363919B2 (ja)
JPS61260299A (ja) 音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPS5925240B2 (ja) 音声区間の語頭検出方式
JPS6310437B2 (ja)
JPS6120879B2 (ja)
JPS62238599A (ja) 音声区間検出方法
JPS63235999A (ja) 音声始端検出装置
JPS6068398A (ja) 連続音声認識における表現形態の識別方法
JPH0554117B2 (ja)
JPH0652479B2 (ja) 音声分析方式
JPH0376475B2 (ja)
JPS62223798A (ja) 音声認識装置