JPS58224392A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS58224392A
JPS58224392A JP57106936A JP10693682A JPS58224392A JP S58224392 A JPS58224392 A JP S58224392A JP 57106936 A JP57106936 A JP 57106936A JP 10693682 A JP10693682 A JP 10693682A JP S58224392 A JPS58224392 A JP S58224392A
Authority
JP
Japan
Prior art keywords
speaker
recognition
speech
gender
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57106936A
Other languages
English (en)
Inventor
久司 西山
市川 「あきら」
中田 和男
畑岡 信夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57106936A priority Critical patent/JPS58224392A/ja
Publication of JPS58224392A publication Critical patent/JPS58224392A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音声認識方式に係シ、特に不特定話者の離散発
声1桁数字音による一連の数値データの入力に好適な音
声認識処理方式に関する。
不特定話者音声認識の最大の問題点は、話者がかわるこ
とによる音声の特性の変動、いわゆる話者変動をどのよ
うに吸収して安定で信頼性の高い音声認識を行うかにあ
る。
その対処に尚っての考え方には種々あるが、その一つに
第12図に示すような考え方にもとづく方式がある。そ
の基本は話者変動をスタティックにスペクトルの次元に
投影した物理音響的な特性の変動、たとえば男女差、年
令差、個人の発話器管の物理的な大きさの差といった要
因と、ダイナミックに時間の次元に投影した発話特性の
変動、たとえば語尾の無声化、はや口、といった要因と
に分け、別々に対処しようとするものである。
前者に対しては、たとえば5母音のスペクトル特性を準
拠として多数話者の音声をいくつかのクラスタ(群)に
分類し、そのクラスタ別に必要とする標準音韻パタンを
作成する。たとえば数字前「1」を構成する標準音韻は
、母音/i/と子音/ c h /とポーズ/*/であ
る。また「4」を構成する標準音韻は母音/i/と10
/、撥音/N/(ン)およびiと00間の過渡前/i−
o/である。
さらに語尾の母音/i/、/u/の無声化、鼻音または
撥音の前後における母音の鼻音化、/N/の長いのと短
いとの変形/N/と/n/などの変形を考慮する。その
結果、後者の対策として、lつの単語に複数個の発音の
変形を考え、たとえば1からotでの10数字に対して
表1に示す19種類の単語音韻辞書を考える。
表1 この2段階にわたって、話者変動の吸収を行う不特定話
者音声認識装置のブロック構成を第2図に示す。
第2図において、入力音声20を分析部21でPACO
R分析して得た逆スペクトル係数等のパラメータを話者
クラスタ別音韻標準バタンメモリ22と比較器23で比
較し類似度を得ることにより、いわゆる音韻ラティス2
4が出力される。この音韻ラティス24と複数単語音韻
系列辞書25を整合部26で整合させたのち、最適整合
サーチ部27によシ認識結果としての単語番号28が出
力される。
このような音声認識装置は公知である(斉藤収三、中田
和男;音声情報処理の基礎、オーム社(昭和56年11
月)12・2音声認識の原理と構成、長高、中津;音韻
単位の標準パタンを用いた実時間単語音声認識装置2日
本音響学会音声研究会資料、878−22 (1978
))この装置では第3図に説明的に示すように、男女別
を含むN個の話者クラスタを設け(たとえばN=16と
し、1〜8を男声、9〜16を女声とする)、その各ク
ラスタについて、必要とする音韻標準パタン31を作成
する。−単語の入力音声30はフレーム毎に(フレーム
というのは入力音声分析の時間的単位であシ、10〜2
0ミリ秒に選ばれるのが普通である)この各クラスタ別
の音韻標準パタン31と比較され、各音韻について、類
似の度合をあられす定量尺度が計算され、いわゆる音韻
(音素)ラティスの形で出力される。この各音韻ラティ
スと、表1に示すような単語辞書をフレーム長を単位に
時間長を加味してあられされているM種類の標準単語音
韻系列辞書32と比較し、時間軸の伸縮を考慮した非線
形伸縮整合(Drマツチングと略称ンを行い、最適整合
のものを認識結果とする。ただし、D P Iri D
ynami cprograming (動的計画法)
の略であシ、この手法も音声認識方式の研究者および装
置開発業者の間では公知のものである。(斉藤収三、中
田和男;音声情報処理の基礎、オーム社(57年11月
)12・2音声認識の原理と構成、迫江、千葉;動的計
画法を利用した音声の時間正規化にもとづく連続音声認
識1日本音響学会誌、27巻9号(1971)、 48
3頁) これまでのところ男女の判定を行う方法がないので、入
力音声はN個の話者クラスタすべてと比較され、認識が
なされる。したがって男女の別が予め分っている場合に
比べて、処理量が2倍であること、また、男声の入力を
女性の話者クラスタで認識することにより起る誤認識(
逆の場合、女声入力を男性の話者クラスタで認識するこ
とによシ起る誤認識)が多くあシ、これが認識率を低め
ている一因となっていることが従来技術において、問題
点となっている。
本発明の目的は上記のような原理にもとづく不特定話者
音声認識方式において、音声の認識率を改善する方式を
提供することにある。
上記原理にもとづく不特定話者音声認識の結果の一例を
第4図に示す。これは話者のクラスタ化およびその結果
による音韻標準パタンの作成には関与してない別の新し
い女性話者(話者番号1゜5.6,50.・・・、92
までの計10名)により発声された1から0までの1桁
数字音の認識結果である。第4図には誤った結果のみ記
入されている。
誤った認識結果の表示で/の上に書かれているのは、第
1候補すなわちもつとも単語辞書の内容とよく整合した
と判定された結果であり、/の下に書かれているのは、
第2候補すなわち2番目によく整合したと判定された結
果である。
またCは1から0までの数字前以外の制御語(ハイ、イ
イエ、モウイチド、トリケシ、オワリなど)に誤認識さ
れたことを示す。
総計171固(10人の10数字だから入力データ総数
は100個)の誤りのうち、○で囲ったものは、第2候
補すら正解とはなっていない場合を示す。
さて、この結果が、どのような話者のクラスタによる認
識結果であったかを考える。クラスタの最大の分離要因
は男女別であり、話者クラスタは男女別についてはあら
かじめ人為的に分けて行なわれている。そこで男女いず
れのクラスタの音韻標準バタンを使って認識が行なわれ
たかを分析してみると第5図に示すようになる。ここで
○は第1候補が男声バタンによって選ばれ、それが正解
であったものを示し、・はそれが誤りであったものを示
す。・は女声バタンによって認識されながら、その第1
候補が誤りであったものを示す。
また、/の上側の数字は男声パタンによって選ばれた第
1候補の誤りの個数を示し、/の下側の数字は第1候補
が誤υであった個数を示す。
この結果から、この例については次のようにいえる。
1)男声パタンにより選ばれた第1候補 15個→15
% うち誤り 9個19/15−60%2)女声バタン
により選ばれた第1候補 85個→85% うち誤り 
81固、8/85#9%すなわち、 a)女声は大部分女声話者クラスタによって認識される
。 約85% b)そのときの誤りは少ない 10%以下C)女声が男
声話者クラスタによって認識される率は低い 約15% d)  Lかし、そのときの誤り率は高い 約60%そ
こで、例えばこの例で、対象を女声と限って女声の話者
クラスタによってのみ認識したら、どうなるであろうか
。その結果を第6図に示す。
男声パタンによる認識の誤りはほとんど改善され男声で
正解であったものは、女声クラスタに限定してもやはり
正解であることがわかる。
すなわち、第1候補が誤シの個数は10個(10%)で
、男女混用の場合の17個(17%)にくらべ太幅に改
善されている。
また、第2候補が誤り(○で囲んだ場合)の個数も5個
(5%)で、男女混用の場合の9個(9%)にくらべ太
幅に改善されている。
いいかえれば、あらかじめ話者が男女いずれかがわかっ
ていれば、話者クラスタを男または女に限定することに
よって、誤りを軽減することができる。
しかし実際には、話者の男女別を事前に知ることはでき
ない。
そこで、大部分の認識、約85%、すなわち4桁の数字
であればその3桁まで、8桁の数字であればその6〜7
桁まで、は正しい性別の話者クラスタで認識されるとい
う仮定のもとに次のように考える。
1)入力音声(1桁数字音)を認識する。そのとき、話
者クラスタをあらかじめ男女に分けておき、混用するこ
となく使用し、次の結果を求める。
男声としたときの第1および第2候補C(7) 、 C
(−)女声としたときの第1および第2候補d;ゝ、C
(、f)2)上記2つの第1候補を比較し、よシ整合度
の高い方(性別)の結果を仮結果として登録し、残りを
予備候補として記憶しておく。
すなわち(む)、C3ブ) 、  (C(t’ 、 C
”z’ )について岬とC(:)を比較し c (7)
の方がよりよく整合しておれば、 仮認識結果 C(7)、岬 とする、 予備候補  C(:)、C(:) 3)  n桁数字を入力し終った時点で、その各桁の仮
認識結果のリストの性別多数決から未知話者の性別を推
定する。
4)その結果から仮認識結果をみなおして、性が異なっ
ている桁があれば、その桁の仮認識結果をその桁の予備
候補でおきかえる(仮蝉識結果の性をそろえる)。
5)上記4)の結果を認識結果として、入力話者に応答
し、その確認を求める。
この結果、上記実験例で示すように、現行手法の誤シを
軽減することができる。
以下、本発明の一実施例を第7図により説明する。なお
同図に示す個別の機能を実現する専用ハードウェアの構
成については公知であり、またマイクロプロセッサなど
によって実現することは容易であるので、ここでは処理
の手順を主にのべる。
入力音声1は分析部2によ・りてフレーム単位に分析さ
れる。分析の例としては、たとえば線形予測分析手法に
よって、相関係数1r+ )、i=Q〜pと残差波形E
Nに分析される。これらの手法は公知である。次に比較
部3によって、スイッチSIを通して交互に指定される
話者クラスタ別の廿韻標準パタ/4,5と順次比較され
、その類似の度合が音韻ラティス6として出力される。
類似の度合は、たとえば次式の対数尤度比で評価きれる
r = Log (Σrp A p / EN ) >
 O・”(υ −1 ここで(A、)は音韻標準パタンの一表現法であシ、逆
スペクトル係数と呼ばれるものである。
この計算法についても公知である。
その結果の音韻ラティス6の一例を説明的に表1に示す
。表1中の数値は入力未知音声の各フレーム(す1.÷
2.φ3.・・・)が、おる特定話者クラスタの各音韻
標準バタン(同表の左端の欄に示す)とどの位よく整合
しているかを(1)式の尺度を使ってあられしたもので
あシ、完全に整合すれば数1直FiOとなる。
表  2 この縫韻ラティス出力と単語音韻系列辞書7の各単語と
の時間軸非線形伸縮整合が整合部8でとられる。
このとき、話者クラスタ別音韻標準ノくタン4゜5は、
それぞれ男声用のNt個と、女声用のN2個からなりこ
れらの総計がNになる。選択部9における第1および第
2候補の選択は、男女別に行なわれる。
選択の結果、男声としての認識結果c(、@ 、 C(
2+および女声としての認識結果 (、*) 、 c 
(、’)はスイッチSmの切換えによシ別々にバッファ
レジスタ(→ lOおよび11に一旦記憶される。そこで01とCψが
比較部12によって定量的に比較され、その結果にもと
づいて選択記憶制御部13の働きによって仮認識結果ス
タック14または予備候補スタック15にスイッチS3
を通してふり分けられて記憶される。
N桁数字行声の一連の1桁毎の入力が終了と、仮認識結
果スタック14内のN個の結果の性別が比較され、性別
決定部16において多数決によって男2女いずれかに決
定される。その結果にもとづいて仮認識結果訂正部17
によってスタック14の内に異なった性の認識結果があ
れば、予備候補スタック15内の対応するものと入れか
えられて最終的な認識結果とされ、応答確認部18へ送
られる。
N桁が偶数であり、最悪多数決で行えない場合前回の性
の決定結果にしたがうものとする。
以上説明したごとく本発明によれば、誤った話者クラス
タ、とくに男声と女声の混用による誤認識をさけ、認識
結果を改善(誤g識率の低減)することができる。さら
に制御を複雑にすれば、1回の呼の中で話者が入れかわ
ることはないから、最初のN桁の入力で性別が推定芒れ
、応答確認の結果、その認識結果が正しかったとき、ま
たは誤りがごく少なかったときは、以後この呼が完了す
るまでは性別がかわることはないと考え、話者クラスタ
を男女いずれか一方に限定することができ、認識のため
の処理量を半減することができる。
【図面の簡単な説明】
第1図は公知の不特定話者音声認識の原理説明図、第2
図は公知の不特定話者音声認識装置のブロック構成図、
第3図は公知の複数音韻標準バタンと複数単語音韻系列
辞書の使用法説明図、第4図〜第6図は本発明の方式に
よる不特定話者音声認識結果を示す図、第7図は本発明
による不特定話者音声認識装置のブロック構成図である

Claims (1)

    【特許請求の範囲】
  1. 複数の単語からなる入力音声と物理的音響特性の異なる
    話者クラスタ別に用意された標準バタンとを照合し、話
    者クラスタ別に上記各単語の仮認識結果を求め、該仮認
    識結果よシ上記入力音声の属する話者クラスタを推定し
    、該推定された話者クラスタに対応した上記仮認識結果
    を上記入力音声と認識することを特徴とする音声認識方
    式。
JP57106936A 1982-06-23 1982-06-23 音声認識方式 Pending JPS58224392A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57106936A JPS58224392A (ja) 1982-06-23 1982-06-23 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57106936A JPS58224392A (ja) 1982-06-23 1982-06-23 音声認識方式

Publications (1)

Publication Number Publication Date
JPS58224392A true JPS58224392A (ja) 1983-12-26

Family

ID=14446272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57106936A Pending JPS58224392A (ja) 1982-06-23 1982-06-23 音声認識方式

Country Status (1)

Country Link
JP (1) JPS58224392A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6146521A (ja) * 1984-08-13 1986-03-06 Hitachi Ltd 会話型音声入出力装置
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6146521A (ja) * 1984-08-13 1986-03-06 Hitachi Ltd 会話型音声入出力装置
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program

Similar Documents

Publication Publication Date Title
CN112102815B (zh) 语音识别方法、装置、计算机设备和存储介质
US5842163A (en) Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
WO2017114172A1 (zh) 一种发音词典的构建方法及装置
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
JPH05265483A (ja) 複数の出力を与える音声認識法
Norouzian et al. An approach for efficient open vocabulary spoken term detection
JPS58224392A (ja) 音声認識方式
Pandey et al. Keyword spotting in continuous speech using spectral and prosodic information fusion
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Zheng A syllable-synchronous network search algorithm for word decoding in Chinese speech recognition
JP4236502B2 (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2813209B2 (ja) 大語彙音声認識装置
US20240144934A1 (en) Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium
Tang Large vocabulary continuous speech recognition using linguistic features and constraints
Mary Two‐stage spoken term detection system for under‐resourced languages.
JPH0619497A (ja) 音声認識方法
JP3291073B2 (ja) 音声認識方式
JPS60147797A (ja) 音声認識装置
JPH0981177A (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
JPH09212190A (ja) 音声認識装置及び文認識装置
Lee et al. Preliminary results for an operational definition and methodology for predicting large vocabulary DUR confusability from phonetic transcriptions
JPS62100799A (ja) 音声認識方法
Nara et al. Large-vocabulary spoken word recognition using simplified time-warping patterns
Şahin Language modeling for Turkish continuous speech recognition