JPH0534679B2 - - Google Patents
Info
- Publication number
- JPH0534679B2 JPH0534679B2 JP58016972A JP1697283A JPH0534679B2 JP H0534679 B2 JPH0534679 B2 JP H0534679B2 JP 58016972 A JP58016972 A JP 58016972A JP 1697283 A JP1697283 A JP 1697283A JP H0534679 B2 JPH0534679 B2 JP H0534679B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- candidates
- continuous
- candidate
- connectivity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001629 suppression Effects 0.000 claims description 9
- 230000002265 prevention Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical compound O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Description
【発明の詳細な説明】
<発明の利用分野>
本発明は、連続音声認識装置に関し、特に連続
入力音声を自動的に認識する際に、実在しない単
語が発生する現象、つまり音声の湧出しを効率よ
く抑止できる認識装置に関するものである。
入力音声を自動的に認識する際に、実在しない単
語が発生する現象、つまり音声の湧出しを効率よ
く抑止できる認識装置に関するものである。
<従来技術>
近年、音声認識を採用する分野が広がりつつあ
り、国鉄の自動座席予約システムや銀行の預金残
高照会システムでは、すでに実用の段階に到つて
いる。しかし、現在実用化されている技術では、
区切つて発声した単語を認識するように運営され
ているため、認識処理が遅くなつてシステムとし
ての効率が悪く、しかも1単語ずつ区切つて発声
しなければならないために、発声が不自然とな
り、発声エラーの原因にもなつている。この傾向
は、数字において特に顕著である。電話番号で説
明すると、電話番号は通常「何万何千何百何十
何」と桁数字で呼ばれることは少なく、0〜9の
数字を単純に配列した3連数字あるいは4連数字
で呼ばれ、かつ連続的に発声される。
り、国鉄の自動座席予約システムや銀行の預金残
高照会システムでは、すでに実用の段階に到つて
いる。しかし、現在実用化されている技術では、
区切つて発声した単語を認識するように運営され
ているため、認識処理が遅くなつてシステムとし
ての効率が悪く、しかも1単語ずつ区切つて発声
しなければならないために、発声が不自然とな
り、発声エラーの原因にもなつている。この傾向
は、数字において特に顕著である。電話番号で説
明すると、電話番号は通常「何万何千何百何十
何」と桁数字で呼ばれることは少なく、0〜9の
数字を単純に配列した3連数字あるいは4連数字
で呼ばれ、かつ連続的に発声される。
従来、電話番号の発声音を音声認識装置で自動
的に認識する場合、数字間に区切り音等を挿入し
て1数字ずつ発声させ、音声認識装置では区切ら
れた入力音声に対して最も類似した0〜9の数字
を1数字ずつ判別し、それを認識結果として出力
している。
的に認識する場合、数字間に区切り音等を挿入し
て1数字ずつ発声させ、音声認識装置では区切ら
れた入力音声に対して最も類似した0〜9の数字
を1数字ずつ判別し、それを認識結果として出力
している。
上記の例からも明らかなように、4連数字は、
0000〜9999の1万種類に及ぶが、それらの中に含
まれる単語の種類は、たかだか0〜9の10数字で
ある。それにもかかわらず、実際に連続発声音声
の認識を実行すると、正確に認識することが困難
である。認識を困難にしている最大の原因は、音
声と音声の区分けができないことである。区分け
ができず音声境界が不明である場合、()標準
数字を入力音声のどの部分と整合をとればよいか
判断できないこと、および()特定の2組の数
字間に誤つて別の数字が挿入されやすいこと(こ
れを湧出し現象と呼ぶ)等の問題が生ずる。これ
らの場合を、図面により説明する。
0000〜9999の1万種類に及ぶが、それらの中に含
まれる単語の種類は、たかだか0〜9の10数字で
ある。それにもかかわらず、実際に連続発声音声
の認識を実行すると、正確に認識することが困難
である。認識を困難にしている最大の原因は、音
声と音声の区分けができないことである。区分け
ができず音声境界が不明である場合、()標準
数字を入力音声のどの部分と整合をとればよいか
判断できないこと、および()特定の2組の数
字間に誤つて別の数字が挿入されやすいこと(こ
れを湧出し現象と呼ぶ)等の問題が生ずる。これ
らの場合を、図面により説明する。
第1図は、連続音声認識の説明図であつて、(a)
−Mは発声音声の分解図(a)−Nは擬似音声の発声
図、(b)は発声音声パワーを示す図、(c)は標準音声
との整合度を示す図である。
−Mは発声音声の分解図(a)−Nは擬似音声の発声
図、(b)は発声音声パワーを示す図、(c)は標準音声
との整合度を示す図である。
いま、4連数字/3177/(サンイチナナナナ)
を例にとると、その分解状態は(a)−Mに示すよう
になり、音声パワーの分布は(b)に示すようにな
る。音声パワーは、音声の瞬時振幅レベルあるい
は長時間実効レベル、つまり発声者、発声環境に
より変動する分を考慮した実効音声レベルであ
る。(b)では、横軸に時間、縦軸にパワーが示され
ており、母音はパワーが大きく、子音はパワーが
小さい。この場合、認識装置は数字の境界が識別
できないので、前記()を解決するためにも、
この境界を自動的に判別する作業が必要である。
これに対しては、例えば「連続DPマツチング法」
(岡隆一:連続単語認識のためのDPアルゴリズ
ム、日本音響学会講演論文、4−1−22,
May1978参照)によつて、ある程度は解決する
ことができる。この連続DP手法(連続的な動的
計画法)は、入力音声を区分することなく標準数
字音声と照合していく方法であつて、入力音声に
対して連続的に評価する。入力の一部と標準音声
と最適整合がとれたとき、整合度が最大となり、
そのときの入力の位置情報が音声境界となる。第
1図cでは、下方の時間軸に近いほど整合度が大
であつて、候補番号の/3/との/7/で最
適整合がとれたことを表わしている。
を例にとると、その分解状態は(a)−Mに示すよう
になり、音声パワーの分布は(b)に示すようにな
る。音声パワーは、音声の瞬時振幅レベルあるい
は長時間実効レベル、つまり発声者、発声環境に
より変動する分を考慮した実効音声レベルであ
る。(b)では、横軸に時間、縦軸にパワーが示され
ており、母音はパワーが大きく、子音はパワーが
小さい。この場合、認識装置は数字の境界が識別
できないので、前記()を解決するためにも、
この境界を自動的に判別する作業が必要である。
これに対しては、例えば「連続DPマツチング法」
(岡隆一:連続単語認識のためのDPアルゴリズ
ム、日本音響学会講演論文、4−1−22,
May1978参照)によつて、ある程度は解決する
ことができる。この連続DP手法(連続的な動的
計画法)は、入力音声を区分することなく標準数
字音声と照合していく方法であつて、入力音声に
対して連続的に評価する。入力の一部と標準音声
と最適整合がとれたとき、整合度が最大となり、
そのときの入力の位置情報が音声境界となる。第
1図cでは、下方の時間軸に近いほど整合度が大
であつて、候補番号の/3/との/7/で最
適整合がとれたことを表わしている。
次に、前記()の問題、つまり湧出しについ
て説明する。第1図aに示すように、入力音声を
音韻に分解すると、/3/と/1/の間では、/
3/の語尾“n”と/1/の語頭“i”とが結合
して“ni”/2/が発生している。すなわち/
3/と/1/の間に実在しない/2/が音韻構造
的に表われ、これが湧出しの原因となる。その結
果、入力の桁数が不明の場合には、/321/と湧
出しエラーが生じたり、/3/が/2/と重なり
合つて/21/と誤認識することにもなる。この現
象は、/77/の間でも、同じようにして発生す
る。すなわち、第1図aNに示すように/7/の
語尾“na”と次の/7/の語頭“na”が結合し
て“nana”/7/がもう1つ発生し、/777/と
湧出しエラーが生ずることになる。
て説明する。第1図aに示すように、入力音声を
音韻に分解すると、/3/と/1/の間では、/
3/の語尾“n”と/1/の語頭“i”とが結合
して“ni”/2/が発生している。すなわち/
3/と/1/の間に実在しない/2/が音韻構造
的に表われ、これが湧出しの原因となる。その結
果、入力の桁数が不明の場合には、/321/と湧
出しエラーが生じたり、/3/が/2/と重なり
合つて/21/と誤認識することにもなる。この現
象は、/77/の間でも、同じようにして発生す
る。すなわち、第1図aNに示すように/7/の
語尾“na”と次の/7/の語頭“na”が結合し
て“nana”/7/がもう1つ発生し、/777/と
湧出しエラーが生ずることになる。
<発明の目的>
本発明の目的は、このような従来の問題を改善
するため、特に湧出し現象の発生を抑止して、連
続的に発声された音声を正しく認識できる連続音
声認識装置を提供することにある。
するため、特に湧出し現象の発生を抑止して、連
続的に発声された音声を正しく認識できる連続音
声認識装置を提供することにある。
<発明の概要>
本発明の上述の目的は、連続発声の入力音声を
音響分析して特徴パラメータを得る手段と、前記
特徴パラメータと予め用意されている標準単位音
声の特徴パラメータとを比較して、時間軸方向に
1個ないし複数個の音声候補を得る手段、およ
び、前記音声候補の中から選択した候補列を認識
結果として出力する選択手段を有する連続音声認
識装置において、前記選択手段内に、前後の単位
音声との音韻的結合より発生する擬似的候補が挿
入された3連単位音声列情報群を記憶する連結辞
書を備えるとともに、前記音声候補の中の3連の
音声候補の連結性を判定し、連結性のあるものに
ついて、前記連結辞書を用いて当該3連音声候補
の各音声候補間の結合度を判定して擬似的候補を
除去する湧き出し抑止手段を設けたことを特徴と
する連続音声認識装置によつて達成される。
音響分析して特徴パラメータを得る手段と、前記
特徴パラメータと予め用意されている標準単位音
声の特徴パラメータとを比較して、時間軸方向に
1個ないし複数個の音声候補を得る手段、およ
び、前記音声候補の中から選択した候補列を認識
結果として出力する選択手段を有する連続音声認
識装置において、前記選択手段内に、前後の単位
音声との音韻的結合より発生する擬似的候補が挿
入された3連単位音声列情報群を記憶する連結辞
書を備えるとともに、前記音声候補の中の3連の
音声候補の連結性を判定し、連結性のあるものに
ついて、前記連結辞書を用いて当該3連音声候補
の各音声候補間の結合度を判定して擬似的候補を
除去する湧き出し抑止手段を設けたことを特徴と
する連続音声認識装置によつて達成される。
<発明の実施例>
以下、本発明の原理および実施例を、図面によ
り説明する。
り説明する。
本発明においては、認識の性能を上げるため、
数多くの数字候補群の中から適切な候補を選択
し、その際に湧出しの発生を抑止する。適切な候
補とは、整合の度合が高く、その候補が湧出した
もの(湧出し音声、擬似音声あるいは擬似単位音
声と呼ぶ)ではないことである。すなわち、時間
的に重なつている候補は整合度の高い方を採用す
ればよいが、その候補が擬似数字ではないことが
条件となる。つまり、候補の中から擬似数字を検
出することができれば、真の単位音声列を決定し
て、正しい認識が可能となる。このことを、第1
図cにより詳述する。第1図cは、第1図aの入
力音声から得た候補群に対して、横軸に時間、縦
軸に標準音声との非整合度を表わしたものであつ
て、整合のとれた範囲を四角で囲み、その中に標
準音声名称を記してある。第1図cの中で、候補
、がそれぞれ/31/,/77/の間に湧出した
擬似数字である。もし、この状態で整合度を優先
させて認識すれば、認識結果は、例えば−−
−/3217/となつてしまい、誤認識となる。
数多くの数字候補群の中から適切な候補を選択
し、その際に湧出しの発生を抑止する。適切な候
補とは、整合の度合が高く、その候補が湧出した
もの(湧出し音声、擬似音声あるいは擬似単位音
声と呼ぶ)ではないことである。すなわち、時間
的に重なつている候補は整合度の高い方を採用す
ればよいが、その候補が擬似数字ではないことが
条件となる。つまり、候補の中から擬似数字を検
出することができれば、真の単位音声列を決定し
て、正しい認識が可能となる。このことを、第1
図cにより詳述する。第1図cは、第1図aの入
力音声から得た候補群に対して、横軸に時間、縦
軸に標準音声との非整合度を表わしたものであつ
て、整合のとれた範囲を四角で囲み、その中に標
準音声名称を記してある。第1図cの中で、候補
、がそれぞれ/31/,/77/の間に湧出した
擬似数字である。もし、この状態で整合度を優先
させて認識すれば、認識結果は、例えば−−
−/3217/となつてしまい、誤認識となる。
本発明では、このような湧出しあるいは誤認識
の原因となる擬似数字を検出し、これを除去する
ために、次のような処理を行う。
の原因となる擬似数字を検出し、これを除去する
ために、次のような処理を行う。
擬似数字は、前述のように、前後の数字と密接
に関係があり、その音韻的結合により存在するも
のであつて、話者に依存しない一般的な規則とみ
ることができる。したがつて、この一般的な規則
をテーブルにあらかじめ登録しておき、これを参
照して擬似数字を検出する。このテーブルを、連
結辞書と呼ぶことにする。
に関係があり、その音韻的結合により存在するも
のであつて、話者に依存しない一般的な規則とみ
ることができる。したがつて、この一般的な規則
をテーブルにあらかじめ登録しておき、これを参
照して擬似数字を検出する。このテーブルを、連
結辞書と呼ぶことにする。
第2図は、連結辞書の一例を示す図である。連
結辞書は、3数字のA,X,Bをサブセツトにし
た集合であつて、3数字は互いに順列が決つてお
り、先行数字をA、擬似数字をX、後続数字をB
としている。本発明の湧出し抑止は、基本的に
は、この連結辞書を用いて対策を施すことにな
る。
結辞書は、3数字のA,X,Bをサブセツトにし
た集合であつて、3数字は互いに順列が決つてお
り、先行数字をA、擬似数字をX、後続数字をB
としている。本発明の湧出し抑止は、基本的に
は、この連結辞書を用いて対策を施すことにな
る。
次に、湧出し抑止方法について詳述する。数字
の各候補は、4つの情報を有しているものとす
る。それらは、()整合のとれた標準音声名Ne
(ただし、Nは0〜9の集合の1つの元N(0〜
9)、()非整合度D、()入力音声の整合範
囲の開始時点S、()入力音声の整合範囲の終
了時点E、である。
の各候補は、4つの情報を有しているものとす
る。それらは、()整合のとれた標準音声名Ne
(ただし、Nは0〜9の集合の1つの元N(0〜
9)、()非整合度D、()入力音声の整合範
囲の開始時点S、()入力音声の整合範囲の終
了時点E、である。
いま、湧出し判定の対象となる候補をX、時間
的に先行する候補をA、後続の候補をBとし、そ
れぞれの情報をX=(NX,DX,SX,EX),A=
(NA,DA,SA,EA),B=(NB,DB,SB,EB)と
する。Xが擬似数字、つまり湧出しであるか否か
の判定は、次の3つの条件によつて行う。
的に先行する候補をA、後続の候補をBとし、そ
れぞれの情報をX=(NX,DX,SX,EX),A=
(NA,DA,SA,EA),B=(NB,DB,SB,EB)と
する。Xが擬似数字、つまり湧出しであるか否か
の判定は、次の3つの条件によつて行う。
(イ) X,A,Bの種類の組合わせ
(ロ) X,A,Bの連結性
(ハ) X,A,Bの結合度
種類の組合わせは、すでに登録されている連結
辞書を調べ、 A()=NA,X()=NX,B()=NB ……(1) 上記(1)に適合するサブセツトを探すことにな
る。
辞書を調べ、 A()=NA,X()=NX,B()=NB ……(1) 上記(1)に適合するサブセツトを探すことにな
る。
連結性は、擬似数字が前後の数字と音韻を共通
化している点から、XとA,XとBが時間的に重
複しているか否かを調べることによつて判断する
ことができる。例えば、単純に互いに僅かでも重
複しているとき「連結性あり」とするならば、次
式の条件を満たすか否かを判定すればよいことに
なる。
化している点から、XとA,XとBが時間的に重
複しているか否かを調べることによつて判断する
ことができる。例えば、単純に互いに僅かでも重
複しているとき「連結性あり」とするならば、次
式の条件を満たすか否かを判定すればよいことに
なる。
EA−SX>0かつEX−SB>0 ……(2)
連結性があつても、必ずしも擬似数字とは判断
できない場合がある。例えば、擬似数字と思われ
る候補の整合度が非常に高いときには、擬似では
なく、真の数字と判断すべきであろうし、また逆
に整合度が低く、先行、後続の数字の整合度に近
くなつてくれば、擬似数字の可能性は高くなる。
これが、結合度に関する条件である。いま、結合
度をCとして、簡単のために次式のように相対レ
ベルで定義する。
できない場合がある。例えば、擬似数字と思われ
る候補の整合度が非常に高いときには、擬似では
なく、真の数字と判断すべきであろうし、また逆
に整合度が低く、先行、後続の数字の整合度に近
くなつてくれば、擬似数字の可能性は高くなる。
これが、結合度に関する条件である。いま、結合
度をCとして、簡単のために次式のように相対レ
ベルで定義する。
C=(DX−DA)+(DX−DB) ……(3)
結合度Cがある閾値θcと比較して、C>θcであ
れば候補Xは擬似音声と判断する。
れば候補Xは擬似音声と判断する。
擬似音声と判断された候補は、候補群の中から
順次取り除かれていく。
順次取り除かれていく。
このように、本発明の湧出し抑止法は、擬似音
声を検出して、候補の中から除去するという単純
な処理を行うもので、候補選択の1つの手段でも
ある。したがつて、幾つかの候補選択過程の中
に、この湧出し抑止処理を挿入することは簡単に
実現でき、特に弊害になることはない。
声を検出して、候補の中から除去するという単純
な処理を行うもので、候補選択の1つの手段でも
ある。したがつて、幾つかの候補選択過程の中
に、この湧出し抑止処理を挿入することは簡単に
実現でき、特に弊害になることはない。
第3図は、本発明の実施例を示す連続音声認識
装置のブロツク図である。
装置のブロツク図である。
10は入力音声1を分析する音響分析部、20
は入力音声と標準音声との間で候補を抽出する候
補抽出部、30は標準音声を格納する標準音声格
納部、40は抽出された候補の中から真の候補に
絞つて最終認識結果として出力する候補選択部で
ある。なお、湧出し抑止処理は、上記候補選択部
40内で行われる。
は入力音声と標準音声との間で候補を抽出する候
補抽出部、30は標準音声を格納する標準音声格
納部、40は抽出された候補の中から真の候補に
絞つて最終認識結果として出力する候補選択部で
ある。なお、湧出し抑止処理は、上記候補選択部
40内で行われる。
連続入力音声1が入力すると、適切なプリエン
フアシスおよび増幅が施された後、音響分析部1
0により音声の特徴を表わすパラメータ2に変換
される。分析には、種々のものが考えられるが、
ここでは発声の本質には関係がないので、最も簡
単でかつ普通に行われているスペクトル分析とす
る。すなわち、音響分析部10には、バンドパ
ス・フイルタ群が設けられ、これらにより強度に
よる相対的な正規化を施して、スペクトル分析を
行う。スペクトル分析を施された特徴パラメータ
2は、標準音声格納部30から出力された標準音
声特徴パラメータ3との間でマツチングを行い、
適切な候補4を出力する。
フアシスおよび増幅が施された後、音響分析部1
0により音声の特徴を表わすパラメータ2に変換
される。分析には、種々のものが考えられるが、
ここでは発声の本質には関係がないので、最も簡
単でかつ普通に行われているスペクトル分析とす
る。すなわち、音響分析部10には、バンドパ
ス・フイルタ群が設けられ、これらにより強度に
よる相対的な正規化を施して、スペクトル分析を
行う。スペクトル分析を施された特徴パラメータ
2は、標準音声格納部30から出力された標準音
声特徴パラメータ3との間でマツチングを行い、
適切な候補4を出力する。
第4図は、第3図の候補抽出部の詳細ブロツク
図である。
図である。
第4図に示すように、候補抽出部20は、距離
計算部21と連続DPマツチング部22と候補抽
出部23に分かれている。Nチヤネルのバンドパ
ス・フイルタ群で分析された特徴パラメータ2
は、1フレームについて{X}=I〜Nで表わさ
れる。ここでXは第番目の分析フイルタの出
力である。また、フレーム周期は、10〜20ミリ秒
にとられるのが普通である。同じ方法で分析され
た標準音声特徴パラメータ{a}=I〜Nは、標
準音声格納部30に記憶されている。第4図の距
離計算部21は、これら2つのデータからユーク
リツド距離daxまたは絶対値距離|dax|を計算
する。
計算部21と連続DPマツチング部22と候補抽
出部23に分かれている。Nチヤネルのバンドパ
ス・フイルタ群で分析された特徴パラメータ2
は、1フレームについて{X}=I〜Nで表わさ
れる。ここでXは第番目の分析フイルタの出
力である。また、フレーム周期は、10〜20ミリ秒
にとられるのが普通である。同じ方法で分析され
た標準音声特徴パラメータ{a}=I〜Nは、標
準音声格納部30に記憶されている。第4図の距
離計算部21は、これら2つのデータからユーク
リツド距離daxまたは絶対値距離|dax|を計算
する。
dax=N
〓i=1
(a−x)2
|dax|=N
〓i=1
|a−x| ……(4)
これらの値は、入力のある時点tにおける1フ
レーム{X}に対するある1つの標準パターン
Aの1フレーム{a}との距離であるが、連続
DPマツチングを行うためには、入力の1フレー
ム{X}と標準パターンAのすべてのフレーム
との間の距離の計算が必要であつて、この演算は
高速かつ時分割的に行われる。いま、その演算を
下式で表わすものとする。
レーム{X}に対するある1つの標準パターン
Aの1フレーム{a}との距離であるが、連続
DPマツチングを行うためには、入力の1フレー
ム{X}と標準パターンAのすべてのフレーム
との間の距離の計算が必要であつて、この演算は
高速かつ時分割的に行われる。いま、その演算を
下式で表わすものとする。
d={(dax)k j},j=l〜M ……(5)
ここで、kは入力のフレーム番号、Mは標準音
声Aの全フレーム数である。入力音声1の各フレ
ーム{Xi}kごとに、上記の距離dが計算され、
その結果出力4″が連続DPマツチング部22に入
力される。この連続DPマツチング部22は、
{{(dax)k j},j=l〜Mが入力されるごとに、そ
れらの値と、それらの過去の値から連続DPマツ
チング量Dk(A)を算出して、その結果出力4′を次段
の候補抽出部23に送出する。また、同時にその
最適な整合の入力音声フレーム長Lk(A)も送出す
る。連続DPマツチング量Dk(A)は、上述のよう
に、距離値を基本にしており、ある時点tまでの
入力音声と標準音声との非整合度ということがで
きる。
声Aの全フレーム数である。入力音声1の各フレ
ーム{Xi}kごとに、上記の距離dが計算され、
その結果出力4″が連続DPマツチング部22に入
力される。この連続DPマツチング部22は、
{{(dax)k j},j=l〜Mが入力されるごとに、そ
れらの値と、それらの過去の値から連続DPマツ
チング量Dk(A)を算出して、その結果出力4′を次段
の候補抽出部23に送出する。また、同時にその
最適な整合の入力音声フレーム長Lk(A)も送出す
る。連続DPマツチング量Dk(A)は、上述のよう
に、距離値を基本にしており、ある時点tまでの
入力音声と標準音声との非整合度ということがで
きる。
第5図は、入力音声と標準音声との非整合度を
示す図である。
示す図である。
第1図の入力音声に対する標準音声/1/,/
2/,/3/,/7/,/8/との連続DPマツ
チング量D(1),D(2),D(3),D(7),D(8)を示して
いる。第5図では、×−×が/1/、・−・が/
2/、○−○が/3/、▲−▲が/7/、−が/
8/の各連続マツチング量を示し、◎は極小点つ
まり候補点を示している。
2/,/3/,/7/,/8/との連続DPマツ
チング量D(1),D(2),D(3),D(7),D(8)を示して
いる。第5図では、×−×が/1/、・−・が/
2/、○−○が/3/、▲−▲が/7/、−が/
8/の各連続マツチング量を示し、◎は極小点つ
まり候補点を示している。
候補抽出部23では、連続DPマツチング量Dk
(A)の極小点を検出し、ここから候補系列の情報
N=(N,D,S,E)を作成する。Nが標準音
声の名称Aであり、非整合度Dはこのときの連続
DPマツチング量Dk(A)であり、整合の開始時点S
はS=k−Lk(A)であり、整合の終了時点EはE
=kである。これらの候補の情報が次段の候補選
択部40に送出され、これらの中から正しい答が
最終的に出力される。
(A)の極小点を検出し、ここから候補系列の情報
N=(N,D,S,E)を作成する。Nが標準音
声の名称Aであり、非整合度Dはこのときの連続
DPマツチング量Dk(A)であり、整合の開始時点S
はS=k−Lk(A)であり、整合の終了時点EはE
=kである。これらの候補の情報が次段の候補選
択部40に送出され、これらの中から正しい答が
最終的に出力される。
第6図は、第3図における候補選択部の詳細ブ
ロツク図である。
ロツク図である。
第6図に示すように、候補選択部40は、湧出
し抑止部41、整合度優先選択部42および連結
辞書43に分けられている。湧出し抑止部41で
は、候補抽出部30から送出された候補情報4を
候補テーブルに格納し、あらかじめ登録されてい
る連結辞書43により湧出し候補を検出して、候
補テーブルの中から取り除くことを行う。
し抑止部41、整合度優先選択部42および連結
辞書43に分けられている。湧出し抑止部41で
は、候補抽出部30から送出された候補情報4を
候補テーブルに格納し、あらかじめ登録されてい
る連結辞書43により湧出し候補を検出して、候
補テーブルの中から取り除くことを行う。
第7図は、湧出し抑止処理の動作フローチヤー
トである。
トである。
先ず、入力のフレームXの初期化および更新を
行い(ステツプ51,52)、また標準音声のフレー
ムa,bの初期化および更新を行う(ステツプ
53,54)。次に、フレームa,x,bの連結性を
判別するため、前式(2)を用いてEA−SX>0でか
つEX−SB>0を計算し、成立すれば連結性あり
とする(ステツプ55)。連結性ありのときには、
次にフレームa,x,bが連結辞書に存在するか
否かを判別するため、前式(1)を用いて、A()=
NA,X()=NX,B()=NBのサブセツト
()を検索する(ステツプ56)。連結辞書にサブ
セツトが存在したときには、フレームa,x,b
の結合度C>θcが成立するか否かを判別する(ス
テツプ57)。このときの結合度Cは、前式(3)から
求められる。結合度Cが閾値θcより大であれば、
候補xは擬似音声と判断し、候補テーブルからx
を除去する(ステツプ58)。以上の処理を全候補
すべてについて繰り返し行うことにより、湧出し
抑止が行われたことになる。
行い(ステツプ51,52)、また標準音声のフレー
ムa,bの初期化および更新を行う(ステツプ
53,54)。次に、フレームa,x,bの連結性を
判別するため、前式(2)を用いてEA−SX>0でか
つEX−SB>0を計算し、成立すれば連結性あり
とする(ステツプ55)。連結性ありのときには、
次にフレームa,x,bが連結辞書に存在するか
否かを判別するため、前式(1)を用いて、A()=
NA,X()=NX,B()=NBのサブセツト
()を検索する(ステツプ56)。連結辞書にサブ
セツトが存在したときには、フレームa,x,b
の結合度C>θcが成立するか否かを判別する(ス
テツプ57)。このときの結合度Cは、前式(3)から
求められる。結合度Cが閾値θcより大であれば、
候補xは擬似音声と判断し、候補テーブルからx
を除去する(ステツプ58)。以上の処理を全候補
すべてについて繰り返し行うことにより、湧出し
抑止が行われたことになる。
このように、全候補は、湧出しの対象xとし
て、式(1),(2),(3)を用いて判定される。判定は、
xの他に前後の候補a,bとの3候補の間で行わ
れ、擬似音声と判断された場合には候補テーブル
から取り除かれる。
て、式(1),(2),(3)を用いて判定される。判定は、
xの他に前後の候補a,bとの3候補の間で行わ
れ、擬似音声と判断された場合には候補テーブル
から取り除かれる。
第6図における整合度優先選択部42では、時
間的に重複している候補を、整合度により選択す
る。これは、候補を連続DPマツチング量Dk(A)の
極小点から単純に抽出してきたために、多数の候
補が時間的に重なつた状態で存在するからであ
る。
間的に重複している候補を、整合度により選択す
る。これは、候補を連続DPマツチング量Dk(A)の
極小点から単純に抽出してきたために、多数の候
補が時間的に重なつた状態で存在するからであ
る。
第8図は、整合度優先選択処理の動作フローチ
ヤートである。
ヤートである。
先ず、2つの候補a,bについて、初期化と更
新を行い(ステツプ61〜64)、次にa,bが時間
的に重複しているか否かを判別し、重複していれ
ば次に非整合度D(a)>D(b)が成立するか否かを判
別する(ステツプ65,66)。上式が成立するとき
には、aを候補テーブルから除去し(ステツプ
67)、上式が不成立のときにはbを候補テーブル
から除去する(ステツプ68)。
新を行い(ステツプ61〜64)、次にa,bが時間
的に重複しているか否かを判別し、重複していれ
ば次に非整合度D(a)>D(b)が成立するか否かを判
別する(ステツプ65,66)。上式が成立するとき
には、aを候補テーブルから除去し(ステツプ
67)、上式が不成立のときにはbを候補テーブル
から除去する(ステツプ68)。
これらの処理を全候補について行い、全部が終
了したならば、aを答の一部として出力する(ス
テツプ69,70)。
了したならば、aを答の一部として出力する(ス
テツプ69,70)。
このようにして、選択処理は、2つの候補A
=(NA,DA,SA,EA),B=(NB,DB,SB,EB)
の間で繰り返し行われる。選択の基準となる重複
率を、重複しているフレーム長/短い候補のフレ
ーム長(E−S)とし、ある閾値θ0より大きい場
合にのみ、両者の非整合度を比較して、大きい方
を候補テーブルから除去する。これにより、重複
していない候補列が得られるので、これを認識結
果5として出力する。
=(NA,DA,SA,EA),B=(NB,DB,SB,EB)
の間で繰り返し行われる。選択の基準となる重複
率を、重複しているフレーム長/短い候補のフレ
ーム長(E−S)とし、ある閾値θ0より大きい場
合にのみ、両者の非整合度を比較して、大きい方
を候補テーブルから除去する。これにより、重複
していない候補列が得られるので、これを認識結
果5として出力する。
なお、本発明は、話者条件(特定/不特定話
者)や認識単位である単位音声の種類(数字/単
語/子音−母音/母音−子音−母音)で制限を受
けることはなく、認識音声の違いによつて連続辞
書を変えれば、全く同じ効果が得られる。また、
実施例では、候補抽出手段として連続DPマツチ
ング方法を用いたが、候補を抽出できるものであ
れば、連続線形マツチングや構造解析的な手法で
も勿論差し支えない。また、湧出し判定では、連
結性や結合度を式(2)および式(3)のように定義した
が、これは一例を示しただけで、他にも種々の定
義がある。特に、結合度に対する閾値θcに関して
は、連結辞書のサブセツトごとに変えると効果的
である。さらに、実施例では、音声入力終了後に
湧出し対策を施しているが、入力音声に対して順
次、部分的に区切つて湧出し抑止処理を行うこと
もでき、この場合には無限連続音声の入力が可能
となる。
者)や認識単位である単位音声の種類(数字/単
語/子音−母音/母音−子音−母音)で制限を受
けることはなく、認識音声の違いによつて連続辞
書を変えれば、全く同じ効果が得られる。また、
実施例では、候補抽出手段として連続DPマツチ
ング方法を用いたが、候補を抽出できるものであ
れば、連続線形マツチングや構造解析的な手法で
も勿論差し支えない。また、湧出し判定では、連
結性や結合度を式(2)および式(3)のように定義した
が、これは一例を示しただけで、他にも種々の定
義がある。特に、結合度に対する閾値θcに関して
は、連結辞書のサブセツトごとに変えると効果的
である。さらに、実施例では、音声入力終了後に
湧出し対策を施しているが、入力音声に対して順
次、部分的に区切つて湧出し抑止処理を行うこと
もでき、この場合には無限連続音声の入力が可能
となる。
<発明の効果>
以上、詳細に説明したように、本発明によれ
ば、連結辞書を用いて連結性の判定を行う湧き出
し抑止手段を設けたことにより、簡単な構成で、
擬似的候補の湧き出しを抑止することが可能な連
続音声認識装置を実現できるという顕著な効果を
奏するものである。
ば、連結辞書を用いて連結性の判定を行う湧き出
し抑止手段を設けたことにより、簡単な構成で、
擬似的候補の湧き出しを抑止することが可能な連
続音声認識装置を実現できるという顕著な効果を
奏するものである。
第1図は連続音声認識の説明図、第2図は連結
辞書の一例を示す図、第3図は本発明の実施例を
示す連続音声認識装置のブロツク図、第4図は第
3図の候補抽出部の詳細ブロツク図、第5図は入
力音声と標準音声との非整合度を示す図、第6図
は第3図における候補選択部の詳細ブロツク図、
第7図は本発明の実施例を示す湧出し抑止処理の
動作フローチヤート、第8図は本発明の実施例を
示す整合度優先選択処理の動作フローチヤートで
ある。 10……音響分析部、20……候補抽出部、3
0……標準音声格納部、40……候補選択部、2
1……距離計算部、22……連続DPマツチング
部、23……候補抽出部、41……湧出し抑止
部、42……整合度優先選択部、43……連結辞
書。
辞書の一例を示す図、第3図は本発明の実施例を
示す連続音声認識装置のブロツク図、第4図は第
3図の候補抽出部の詳細ブロツク図、第5図は入
力音声と標準音声との非整合度を示す図、第6図
は第3図における候補選択部の詳細ブロツク図、
第7図は本発明の実施例を示す湧出し抑止処理の
動作フローチヤート、第8図は本発明の実施例を
示す整合度優先選択処理の動作フローチヤートで
ある。 10……音響分析部、20……候補抽出部、3
0……標準音声格納部、40……候補選択部、2
1……距離計算部、22……連続DPマツチング
部、23……候補抽出部、41……湧出し抑止
部、42……整合度優先選択部、43……連結辞
書。
Claims (1)
- 【特許請求の範囲】 1 連続発声の入力音声を音響分析して特徴パラ
メータを得る手段と、前記特徴パラメータと予め
用意されている標準単位音声の特徴パラメータと
を比較して、時間軸方向に1個ないし複数個の音
声候補を得る手段、および、前記音声候補の中か
ら選択した候補列を認識結果として出力する選択
手段を有する連続音声認識装置において、前記選
択手段内に、前後の単位音声との音韻的結合によ
り発声する擬似的候補が挿入された3連単位音声
列情報群を記憶する連結辞書を備えるとともに、
前記音声候補の中の3連の音声候補の連結性を判
定し、連結性のあるものについて、前記連結辞書
を用いて当該3連音声候補の各音声候補間の結合
度を判定して擬似的候補を除去する湧き出し抑止
手段を設けたことを特徴とする連続音声認識装
置。 2 前記湧き出し抑止手段は、前記3連の音声候
補の連結性の判定から擬似的候補を除去するまで
の処理を、入力音声に対して、順次、部分的に区
切つて行う如く構成されたものであることを特徴
とする特許請求の範囲第1項記載の連続音声認識
装置。 3 前記湧き出し抑止手段は、前記3連の音声候
補の連結性の判定を行う際に、当該3連の音声候
補が互いに時間的に重複しているか否かを調べて
行う如く構成されたものであることを特徴とする
特許請求の範囲第1項または第2項記載の連続音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58016972A JPS59143200A (ja) | 1983-02-04 | 1983-02-04 | 連続音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58016972A JPS59143200A (ja) | 1983-02-04 | 1983-02-04 | 連続音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59143200A JPS59143200A (ja) | 1984-08-16 |
JPH0534679B2 true JPH0534679B2 (ja) | 1993-05-24 |
Family
ID=11930986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58016972A Granted JPS59143200A (ja) | 1983-02-04 | 1983-02-04 | 連続音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59143200A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312296A (ja) * | 2000-05-02 | 2001-11-09 | Internatl Business Mach Corp <Ibm> | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2710045B2 (ja) * | 1986-11-12 | 1998-02-10 | 松下電器産業株式会社 | 音声認識方法 |
JP2739945B2 (ja) * | 1987-12-24 | 1998-04-15 | 株式会社東芝 | 音声認識方法 |
-
1983
- 1983-02-04 JP JP58016972A patent/JPS59143200A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312296A (ja) * | 2000-05-02 | 2001-11-09 | Internatl Business Mach Corp <Ibm> | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JPS59143200A (ja) | 1984-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lippmann | Speech recognition by machines and humans | |
EP1301922B1 (en) | System and method for voice recognition with a plurality of voice recognition engines | |
US6922668B1 (en) | Speaker recognition | |
Lippmann | Speech perception by humans and machines | |
US20010010039A1 (en) | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector | |
JPS62232691A (ja) | 音声認識装置 | |
JP4950024B2 (ja) | 会話システムおよび会話ソフトウェア | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Sholtz et al. | Spoken Digit Recognition Using Vowel‐Consonant Segmentation | |
Prajapati et al. | A survey on isolated word and digit recognition using different techniques | |
US5765124A (en) | Time-varying feature space preprocessing procedure for telephone based speech recognition | |
JPH0534679B2 (ja) | ||
Syed et al. | Concatenative Resynthesis with Improved Training Signals for Speech Enhancement. | |
EP1189202A1 (en) | Duration models for speech recognition | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
KR20180057315A (ko) | 자연어 발화 음성 판별 시스템 및 방법 | |
Medhi et al. | Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes | |
JPS59189398A (ja) | 連続音声認識方式 | |
KR100476337B1 (ko) | 음성인식기의유사단어인식방법 | |
KR20240096108A (ko) | 대화 요약을 위한 멀티모달 음성인식 시스템 및 방법 | |
JPH06348291A (ja) | 単語音声認識方法 | |
Bořil et al. | Reduced complexity equalization of Lombard effect for speech recognition in noisy adverse environments | |
JPS5977500A (ja) | 単語音声認識方式 | |
Vigier et al. | Disambiguation of the e-set for connected-alphadigit recognition. |