JPS59189398A - 連続音声認識方式 - Google Patents

連続音声認識方式

Info

Publication number
JPS59189398A
JPS59189398A JP58063610A JP6361083A JPS59189398A JP S59189398 A JPS59189398 A JP S59189398A JP 58063610 A JP58063610 A JP 58063610A JP 6361083 A JP6361083 A JP 6361083A JP S59189398 A JPS59189398 A JP S59189398A
Authority
JP
Japan
Prior art keywords
speech
candidate
candidates
continuous
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58063610A
Other languages
English (en)
Inventor
利一 安江
吉明 北爪
良一 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58063610A priority Critical patent/JPS59189398A/ja
Publication of JPS59189398A publication Critical patent/JPS59189398A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は連続人力音声を自動的に認識する連続音声認識
方式に係り、特に連続数字認識に好適な認識装置に関す
る。
〔発明の背景〕
音声認識へのニーズは近年とくに高まシつつあシ、国鉄
の自動座席予約システムや銀行の預金残高照会等ではす
でに実用化の段階にまできている。
しかし現在の技術で実用化されているものは、区切って
発声した単語の認識によって運営されておシ、システム
の効率が悪くなっていることはもちろん、1単飴1単飴
区切って発声しなければならないために煩わしさが伴う
。また発声が不自然になり、発声誤りの原因にもなって
いた。単語を連続的に入力したいという要求は音声認識
装置を導入したすべてのシステムにあ夛、数字の人力に
おいてはとくに強くみられる。銀行の口座番号や電話番
号がその代表的なものである。電話番号では何万何千何
百・・・・・・といった桁つき数字表現ではなくθ〜9
の10数字を単純につなぎ合わせだ3連結数字あるいは
4連結数字である。
従来、この電話番号を音声認識装置で自動的に認識しよ
うとした場合、数字間に区切シ音を入れて1数字ずつ区
切って発声させ、この区切られた人力音声に対してもつ
とも類似した0〜9の数字を1数字ずつ見分けて認識結
果としていた。同様の考え方で4連結数字を認識しよう
とした場合、4つの数字で1つの単語を構成すればその
組合わせは0000〜9999の一万棟類におよび、こ
れは現実的ではない。4連結数字といえどもその中に含
まれる数字の種類はたかだか10数字である。
この10数字を使って連続発声音声の認識を行なう場合
にもつとも問題となるのは、音声と音声の区分けが出来
ないことにある。区分けが出来ず音声境界が不明である
ために、標準数字を入力音声のどの部分と整合をとった
らよいかわからない。
音声境界の自動検出は極めて難しい問題であシ、誤認識
の大部分はこの境界検出エラーにある。境界は認識がで
きたときにはじめてわかるものでもある。このように境
界を直接求めることは難しいが間接的に求める方法があ
る。例えば「連続DPマツチング法」(岡隆−二連続単
語認識のためのDPアルゴリズム、日本音響学会講演論
文、4−1−22 、 may、  1978 )であ
る。この方法は、連続人力音声を区分けすることなく標
準音声を連続的に照合していく方法で、その照合度の最
大点を検出するようにすれば候補の1つとなる。しかし
音声候補の中には音声と音声の間に挿入されたものも少
なくない。例えば/31/(サンイチ)と発声した場合
である。音声を音韻に分解してみると°’5ANICH
I″′となる。これから明らかなように/3/と/1/
の間に°I nI uが構成されており、これが実在し
ない/2/の挿入エラーの原因となる。
〔発明の目的〕
本発明の目的はこのような連続的に発声された音声を精
度よく認識する方式を提供することにあり、とくに発声
速度に関連する情報を用いて挿入誤りを防ぎ、認識精度
を上げた認識方式を提供することにある。
〔発明の概要〕
上記目的を達成するために、本発明では、連続音声を分
析して特徴パラメータを得るための分析手段と、特徴パ
ラメータとあらかじめ求めておいた標準単位音声の特徴
パラメータとを比較して複数個の音声候補を得る候補検
出手段と、候補の中から選択して候補列を認識結果とし
て出力する選択手段とからなる音声認識装置において、
候補から発声速度関連情報を求め基準値との誤差によっ
て候補を選択する点に特徴がある。
〔発明の実施例〕
まず、本発明の中心となる候補選択の原理について説明
する。説明の具体例として前述と同様に連続数字音声と
する。本発明では連続音声を普通に発声するものとし、
極端に速かったり遅い場合を除く。音声を普通に発声す
ると、発声速度すなわち音声間隔は、話者によって多少
は変動するが、倍または半分はどずれることはない。と
くに同一話者の連続音声中では変動が少ないし、中でも
数字では一定のリズムで発声されることが多く、等ピッ
チとなシ易い。本発明はこの発声速度情報を利用して認
識性能を上げるようにする。
認識性能を上げるためには数多くの数字候補群の中から
適切な候補を選択する必要がある。適切な候補とは、標
準音声との整合の度合が高く、その候補が適切な時間間
隔を保っていることである。
これを第1図を使って説明する。第1図(C)は第1図
(a)の入力音声から得た候補群である。横軸は時間、
M@は標準音声との非整合度を表わしている。
また整合のとれた範囲を四角で囲み、中に標準音声名を
しるしである。図中で候補■、■がそれぞれ/31/、
 /77/の間に挿入した数字である。
もしこの状態で単純に整合度を優先させれば、認識結果
は例えば/3217/となシ、エラーとなる。
この問題を解決するために、本発明では発声速度関連情
報を用いる。発声速度を表わす情報としては例えば数字
候補の間隔や数字候補の重複度がある。第1図(C)に
おいて、これを用いれば、/2/は/3/との間隔、重
複度で除去することができ、候補番号■の/7/は■の
/1/との間隔で除去することができる。以下さらに詳
細に説明する。
数字の各候補は次の4つの情報をもっているものとする
■ 整合のとれた標準音声名 N、NE(0〜9)■ 
非整合度 D ■ 人力音声の整合範囲、開始時点S ■ 人力音声の整合範囲、終了時点E いま候補の中から解Aが決定されたとし、次の後続数字
の候補をXとする。これらはそれぞれψA = (NA
、 DA、 S A、 EA) 、ψx=(NX+DX
、SX。
EX)の情報を持つ。候補Xを解とするかどうかの判定
は、次式の評価関数を用いて行なうことができる。
・・・・・・・・・(1) ここでTpは標準発声間隔である。この評価関数を用い
て、複数の候補について計算し、その最大となる候補を
解と決定することもできる。また抽出された候補につい
て順次計算し、ある閾値以上になったときにその候補を
解とすることもできる。さらに一度求まった解に対して
上記評価関数を用いて確認することができ、誤シがあれ
ば補正することもできる。
以下、本発明の実施例について説明する。第2図は本発
明の連続音声認識方式のブロック図である。10は入力
音声1を分析する音響分析部、20は人力音声と標準音
声との間で候補を抽出する候補抽出部、30は標準音声
を格納する標準音声格納部、40は抽出された候補の中
から真の候補に級って最終認識結果として出力する候補
選択部である。なお発声速朋関遅情報は、上記候補選択
部40内で取扱われる。
第2図において、連続入力音声1が入力すると、適切な
プリエンファシスおよび増幅が施された後、音響分析部
10によシ音声の特徴を表わすパラメータ2に変換され
る。分析には、種々のものが考えられるが、ここでは発
声の本質には関係がないので、最も簡単でかつ普通に行
なわれているバンドパス・フィルタが設けられ、これら
によ)強度による相対的な正規化を施して、スペクトル
分析を行う。スペクトル分析を施された特徴パラメータ
2は、標準音声格納部30から出力された標準音声特徴
パラメータ3との間でマツチングを行ない、適切な候補
4を出力する。
第3図は、第2図の候補抽出部20の詳細ブロック図で
ある。
第3図で示すように、候補抽出部20は、距離計算部2
1と連続DPマツチング部22と候補抽出部23に分か
れている。Nチャネルのバンドパス・フィルタ群で分析
された特徴パラメータ2は、1フレームについて(xt
)i−1〜Nで表ワサれる。ここで、XIは第1番目の
分析フィルタの出力である。また、フレーム周期は、1
0〜20ミリ秒にとられるのが普通である。同じ方法で
分析された標準音声特徴パラメータ(a+ )j=1〜
Nは、標準音声格納部30に記憶されている。第4図の
距離計算部21は、これら2つのデータからユークリッ
ド距離daxまたは絶対値距離ld’Hxlを計算する
dax −Σ  (a+   XI) 21自1 1d’axl=Σl a I−XI I      −
−−f211禰l これらの値は、人力のらる時点tにおける1フレーム(
刈)に対するある1つの標準パターンAの1フレーム(
al)との距離であるが、連続DP(9) マツチングを行なうためには、入力の1フレーム(Xz
)と標準パターンAのすべてのフレームとの間の距離の
計算が必要であって、この演算は高速かつ時分割的に行
なわれる。いま、その演算を下式で表わすものとする。
d” ((daX)2 ) 、L = 1〜M   −
−・・(31ここで、kは入力のフレーム番号、Mは標
準音声Aの全フレーム数である。入力音声1の各フレー
ム(xt)’ごとに、上記の距離dが計算され、その結
果出力4“が連続DPマツチング部22に人力される。
この連続DPマツチング部22は、((daX)τ)、
j=1〜Mが人力されるごとに、それらの値と、それら
の過去の値から連続DPマツチング量Db囚を算出して
、その結果出力4′を次段の候補抽出部23に送出する
。また、同時にその最適な整合の入力音声フレーム長L
k(A)も送出する。連続DPマツチングtD k囚は
、上述のように、距離値を基本にしてお)、ある時点t
までの人力音声と標準音声との非整合度ということがで
きる。
(10) 第4図は、人力音声と標準音声との非整合度を示す図で
ある。
第1図の入力音声に対する標準音声/1/。
/2/、/3/、/7/、/8/との連続DPマツチン
グ量D(1)、 D(2)、 D(3)、 D(7)、
 D(8)を示し、0は極小点つまり候補点を示してい
る。
候補抽出部23では、連続DPマツチング量])k(ト
)の極小点を検出し、ここから候補系列の情報ψN =
 (N、D、S、E)を作成する。Nが標準音声の名称
Aであり、非整合度りはこのときの連続DPマツチング
量Dk囚であシ、整合の開始時点SはS=に−LkGA
)であう、整合の終了時点EはE=にである。これらの
候補の情報が次段の候補選択部40に送出され、これら
の中から正しい答が最終的に出力される。
第5図は、第2図における候補選択部40の詳細ブロッ
ク図である。第5図に示すように候補選択部40は、整
合度優先選択部41および補正部42に分けられている
。整合度優先選択部41では、第2図の候補抽出部30
から送出された候補(11) 悄@4を内蔵の候補テーブルと出力テーブルに格納し、
時間的に重複している候補を、整合度により選択する。
これは、候補を連続DPマツチング量Dk囚の極小点か
ら単純に抽出してきたために、多数の候補が時間的に重
なった状轢で存在するからである。
第6図は、整合度優先選択処理の動作フローチャートで
ある。
先ず、2つの候補a、bについて、初期化と更新を行な
い(ステップ61〜64)、次にa、bが時間的にMa
しているか否かを判別し、重複していれば次に非整合度
D (a) > D (b)が成立するか否かを判別す
る(ステップ65.66)。上式が成立するときには、
aを候補テーブルから除去しくステップ67)、上式が
不成立のときにはbを候補テーブルから除去する(ステ
ップ68)。以上の処理を全候補について繰シ返し行な
う。
全候補について終了したか否か判定しくステップ69)
、終了の場合にはaを答の一部として出力テーブルに格
納する(ステップ70)。
(12) 第5図における補正部42では、整合度優先選択部41
で求めた出力テーブルの答を、発声速度関連情報を用し
てチェックし、必要に応じて候補テーブルから正解と思
われる候補を取出して補正することを行なう。
第7図は補正部42における湧出し補正処理の動作フロ
ーチャートである。
先ず、候補aの初期化および更新を行ない(ステップ7
1.72)、次に、候補aと時系列で並べたときの次の
候補a+1との間で発声間隔を調べ、非常に短い場合に
は湧出しありとする(ステップ73)。湧出しあシのと
きには、次に非整合度D (a) > D (b)が成
立するか否かを判定する(ステップ74)。上式が成立
するときには、aを出力テーブルから除去しくステップ
75)、上式が不成立のときにはbを出力テーブルから
除去する(ステップ76)。
これらの処理を全候補について行なう(ステップ77)
第8図は脱落補正処理の動作フローチャートで(13) ある。
前述のように、先ず、候補aの初期化および更新を行な
い(ステップ81.82)、次に、候補aと候補a +
 1との間で発声間隔を調べ、非常に長い場合には2つ
の候補の間で他の候補が脱落したとする(ステップ83
)。脱落ありのときには、次に候補テーブルの中から脱
落候補Xを探し、候補aとXXXとa + 1の発声間
隔が正常になるようにする(ステップ84)。Xが見つ
かれば、これを出力テーブルの候補aとa+1の間に押
入する(ステップ85)。
これらの処理を全候補について行なう(ステップ86)
第9図は誤り補正処理の動作フローチャートである。
先ず、誤シ判定の対象となる候補aの初期化および更新
を行ない(ステップ91.92)、次に、候補a −1
と8% aとa +1との間で発声間隔を調べ、異常の
ときには候補aが誤りであったとする(ステップ93)
。課りのときには、次に候補(14) テーブルの中からwT候補)l挽出し、候補a−1とX
XXとa −1−1の発声が正常になるXを探す(ステ
ップ94)。Xが見つかれば、これを出力テーブルの候
補aと置き換える(ステップ95)。
これらの処理を全候補について行なう(ステップ96)
このようにして、補正処理は、湧出し、脱落、誤りに対
して候補テーブルと出力テーブルを用いて行なわれる。
発声間隔の判定は、標準発声間隔との誤差がある閾値よ
りも大きいか否かを判定するが、3つの候補間では2つ
の発声間隔のバランスも見る。このようにして得られた
出力テーブルの候補が第2図において認識結果5として
出力される。
なお、本発明は、話者条件(特定/不特定話者)で制限
を受けることはなく、話者に応じて標準発声間隔を設定
あるいは過去の結果から自動検出し設定してもよい。ま
た実施例では、候補抽出手段として遅絖DPマツチング
方法を用いたが、候補を抽出できるものであれば、連続
線形マツチング(15) や構造解析的な手法でも勿論差し支えない。また補正処
理では、湧出し、脱落、誤り補正処理を独立に3つ挙げ
たが、1つ捷たは2つに限定して適用してもかまわない
し、これらを混合して用いてもよく、また整合度纜先処
理の中に含めてもかまわない。さらに、実施例では、音
声入力終了後に候補選択処理をしているが、人力音声に
対して順次、部分的に区切って処理することもでき、こ
の場合には無限連続音声の人力が可能となる。
〔発明の効果〕
以上説明したように、本発明によれば、発声速度関連情
@を用いることによシ、湧出しを抑止し、脱落を防ぎ、
連続音声認識精度の向上に多大な効果をもたらすことが
できる。
【図面の簡単な説明】
第1図は連続音声認識の説明図、第2図は本発明を適用
した連続音声認識装置のブロック図、第3図は第2図の
候補抽出部の詳細ブロック図、第4図は人力音声と標準
背戸との非整合度を示す図、第5図は第2図における候
補選択部の詳細ブロン(16) り図、第6図は本発明による整合度優先選択処理の動作
フローチャート、第7図、第8図、第9図は本発明によ
る補正処理の動作フローチャートである。 10・・・音響分析部、20・・・候補抽出部、30・
・・標準音声格納部、40・・・候補選択部。 代理人 弁理士 高橋明夫 (17) 時間を 晴間七 巣 5 図 夏 乙 (2) ス 7 区 第 g 図 第 92

Claims (1)

    【特許請求の範囲】
  1. ′連続発声の人力音声を音響分析して特徴パラメータを
    得るだめの分析手段と、該特徴パラメータとあらかじめ
    求めておいた標準単語音声の特徴パラメータとを比較し
    て複数個の音声候補を得る候補抽出手段と、該候補から
    選択した1個の候補列を認識結果として出力する選択手
    段とからなる音声認識装置において、上記選択手段に、
    発声速度関連情報を抽出する手段を設け、抽出された発
    声速度と基準値との比較から候補を選択することを特徴
    とする連続音声認識方式。
JP58063610A 1983-04-13 1983-04-13 連続音声認識方式 Pending JPS59189398A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58063610A JPS59189398A (ja) 1983-04-13 1983-04-13 連続音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58063610A JPS59189398A (ja) 1983-04-13 1983-04-13 連続音声認識方式

Publications (1)

Publication Number Publication Date
JPS59189398A true JPS59189398A (ja) 1984-10-26

Family

ID=13234232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58063610A Pending JPS59189398A (ja) 1983-04-13 1983-04-13 連続音声認識方式

Country Status (1)

Country Link
JP (1) JPS59189398A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04222109A (ja) * 1990-12-21 1992-08-12 Daishinku Co 電子部品の接続構造およびその構造を用いた水晶発振器
US8135160B2 (en) 2005-12-21 2012-03-13 Pioneer Corporation Speaker device and mobile phone

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04222109A (ja) * 1990-12-21 1992-08-12 Daishinku Co 電子部品の接続構造およびその構造を用いた水晶発振器
US8135160B2 (en) 2005-12-21 2012-03-13 Pioneer Corporation Speaker device and mobile phone

Similar Documents

Publication Publication Date Title
US4972485A (en) Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US5689616A (en) Automatic language identification/verification system
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
JPS59189398A (ja) 連続音声認識方式
CN112908305B (zh) 一种提升语音识别准确性的方法和设备
WO2014155652A1 (ja) 話者検索システム、プログラム
JPH0534679B2 (ja)
JP3100180B2 (ja) 音声認識方法
JPS645320B2 (ja)
Türk et al. Speaker verification based on the German veridat database.
JPS6131880B2 (ja)
JPH0997095A (ja) 音声認識装置
KR19990050440A (ko) 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치
JPS5977500A (ja) 単語音声認識方式
JPS62278597A (ja) 音素標準パタ−ンの切り出し方法
JPS59211098A (ja) 音声認識装置
JP2005173007A (ja) 音声解析処理およびそれを用いた音声処理装置および媒体
JPS6155680B2 (ja)
JPH0816186A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPH04233599A (ja) 音声認識方法及び装置
JPS59124388A (ja) 単語音声認識処理方式
JPS63247799A (ja) 音声認識装置
JPS6315295A (ja) 音声認識装置
JPS58160994A (ja) 音声認識装置