JPH0217038B2 - - Google Patents

Info

Publication number
JPH0217038B2
JPH0217038B2 JP58181172A JP18117283A JPH0217038B2 JP H0217038 B2 JPH0217038 B2 JP H0217038B2 JP 58181172 A JP58181172 A JP 58181172A JP 18117283 A JP18117283 A JP 18117283A JP H0217038 B2 JPH0217038 B2 JP H0217038B2
Authority
JP
Japan
Prior art keywords
parameter
learning
speech
dictionary
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58181172A
Other languages
English (en)
Other versions
JPS6073592A (ja
Inventor
Takahiro Sakuraba
Yumi Kyota
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58181172A priority Critical patent/JPS6073592A/ja
Publication of JPS6073592A publication Critical patent/JPS6073592A/ja
Publication of JPH0217038B2 publication Critical patent/JPH0217038B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、使用者の音声を登録し、その登録し
た音声と入力した音声とを比較して最も似ている
登録音声を認識結果とする特定話者用音声認識装
置に関するものである。
〔従来技術と問題点〕
従来、特定話者用音声認識装置では、使用者の
音声を音声辞書に登録し、認識時に、入力した音
声辞書を順番に照合して最も照合距離の近いもの
を認識結果としている。また、1つの語に対し辞
書が1つでは、発声のばらつきによる差で誤認識
をすることがあるため、1つの語に複数の辞書を
用意して、ばらついた場合の発声を登録すること
により、誤認識をしにくいようにしている。この
1つの語に複数の辞書を用意する方式をマルチ・
テンプレート方式と呼んでいる。
マルチ・テンプレート方式の音声認識装置で
は、1つの語に2個ないし4個程度の辞書を用意
して、なるべく発声の異なる音声を登録すること
により認識率の向上を図つているが、現実には、
音声登録時に続けて発声の異なる音声を登録して
しまうため、実質的に同様な発声になつてしま
い、マルチ・テンプレートの効果があまり出な
い。そこで、登録が終了すると学習処理を行い、
入力音声と対応する語の辞書の照合距離の近い方
に、特定の比率で入力音声と登録音声とを平均し
た学習音声を再登録することにより、徐々に発声
の異なる辞書にすることを行つている。
このように全ての語に複数の辞書を持たせて
も、同様な発声が登録されると効果が出ない。ま
た、語によつては、発声しやすくばらつきの出に
くいものや、類似語がなく誤認識しにくいものが
ある。このような語は辞書が1つでも充分であ
る。
〔発明の目的〕
本発明は、上記の考察に基づくものであつて、
マルチ・テンプレート化の無駄を省き、登録音声
パラメータ辞書の容量削減、認識処理の効率化を
図つた特定話者用音声認識装置を提供することを
目的とするものである。
〔発明の構成〕 そのために本発明の特定話者用音声認識装置
は、入力音声を入力音声パラメータに変換する音
声特徴抽出部、音声パラメータを登録する登録音
声パラメータ辞書部、該登録音声パラメータ辞書
部の辞書と対応して登録語の識別情報を設定する
辞書デイレクトリ部、パラメータの照合を行つて
照合距離を求めるパラメータ照合部、登録モード
か学習モードか認識モードかのいずれかの動作モ
ードを指定するモード指定手段、登録モードか学
習モードかの指定に応じて上記登録音声パラメー
タ辞書部と対応する上記辞書デイレクトリ部とに
対して音声パラメータの登録と登録語の識別情報
の設定や音声パラメータの平均化処理を行う登録
学習制御部、学習モードの指定の場合には認識情
報を上記登録学習制御部に送り認識モードの場合
には入力音声パラメータと登録音声パラメータと
を上記パラメータ照合部で照合して求めた照合距
離が最も近いものを認識結果として出力する認識
結果制御部を具備する音声認識装置において、上
記パラメータ照合部は、入力音声パラメータと全
ての登録音声パラメータとの照合を行つて照合距
離を求めると共に上記登録学習制御部から学習音
声パラメータが与えられたときは入力音声パラメ
ータと学習音声パラメータとの照合を行つて照合
距離を求め、上記認識結果制御部は、学習モード
が指定されている場合には、上記パラメータ照合
部で求めた登録音声パラメータとの照合距離のう
ち最も近いものから順に複数の情報若しくは上記
パラメータ照合部で求めた学習音声パラメータと
の照合距離の情報を認識情報として上記登録学習
制御部に送り、上記登録学習制御部は、学習モー
ドが指定されている場合には、上記複数の情報を
もとに学習語が1位で認識されたか否かを調べ、
1位で認識された場合には学習語の辞書の平均化
を行い、1位以外で認識された場合には学習語の
辞書と入力音声パラメータとを特定の比率で平均
化して学習音声パラメータとして上記パラメータ
照合部に与え、学習音声パラメータとの照合距離
が1位の登録音声パラメータとの照合距離よりも
近いことを条件に学習語の辞書の平均化を行い、
学習音声パラメータとの照合距離が1位の登録音
声パラメータとの照合距離よりも近くないことを
条件に辞書の追加を行うように構成されたことを
特徴とするものである。
〔発明の実施例〕
以下、本発明の実施例を図面を参照しつつ説明
する。
図は本発明の音声認識装置の1実施例構成を示
す図である。図において、1はマイク、2は音声
特徴抽出部、3は入力音声パラメータ・バツフ
ア、4は操作パネル、5はパラメータ照合部、6
は学習音声パラメータ・バツフア、7は登録学習
制御部、8は登録音声パラメータ辞書部、9は辞
書デイレクトリ部、10は認識結果制御部を示
す。
本発明は、マルチ・テンプレート化を全登録語
に均一に行うのではなく、学習処理時に、認識順
位が1位でなかつた場合、学習効果を予測し、も
しある回数平均化しても1位にならない場合に
は、その入力音声は登録語とは別の発声であると
判断してマルチ・テンプレート化を行うものであ
る。従つて、逆に学習効果を予測し、ある回数平
均化すれば1位に上がる場合には、その入力音声
は登録語で平均化すべきであると判断して辞書の
追加は行わないように処理を行うものである。こ
のような本発明の特定話者用音声認識装置の1実
施例構成を示したのが図である。
図において、マイク1は音声を入力する音声入
力部であり、音声特徴抽出部2は入力音声を認識
用の入力音声パラメータに変換するものである。
操作パネル4は動作モードの指定を行つたり、キ
ーによる各種情報の入力を行つたり、処理進行に
伴い各種情報の表示を行つたりするものである。
なお、動作モードには、登録モードと学習モード
と認識モードの3つがあり、登録モードでは使用
者の入力音声を音声登録パラメータ辞書部8に登
録すると共に対応する辞書デイレクトリ部9に登
録語の識別情報を設定し、学習モードでは登録音
声と入力音声の平均化や辞書の追加を行い、認識
モードでは音声認識を行う。パラメータ照合部5
は、学習モードでは入力音声パラメータと登録音
声パラメータとの照合を行い、且つ学習語が第1
位以外で認識された場合に学習音声パラメータと
入力音声パラメータとの照合を行い、登録モード
では入力音声パラメータと登録音声パラメータと
の照合を行うものである。登録音声パラメータ辞
書部8は、音声の特徴を表わす音声パラメータそ
の他の特徴情報を格納するものであり、辞書デイ
レクトリ部9は、登録語の識別情報を設定するも
のである。登録学習制御部7は、登録モードが操
作パネル4から指定されている場合には入力音声
パラメータ・バツフア3に格納された入力音声パ
ラメータを登録音声パラメータ辞書部8に登録す
ると共に対応する辞書デイレクトリ部9に登録語
の識別情報を設定する。また、学習モードが操作
パネル4から指定されている場合には、学習語を
認識していて認識結果制御部10から送られてく
る認識情報により学習語が第1位で認識されたか
否かを調べ、第1位で認識されたときは辞書の平
均化を行い、第1位以外で認識されたときは、認
識結果の辞書と入力音声パラメータを特定の比率
で平均化して学習音声パラメータとして学習音声
パラメータ・バツフアに格納し、この学習音声パ
ラメータと入力音声パラメータとの照合距離をみ
る。その照合距離が第1位の登録音声パラメータ
と入力音声パラメータとの距離より大きいか小さ
いかにより、大きい場合には辞書の追加を行い、
小さい場合には登録音声パラメータの平均化を行
う。認識結果制御部10は、操作パネル4から学
習モードが指定されている場合には、最も照合距
離の近いものからいくつかを識別情報と共に認識
情報(同じ語は下位のものを除く)として出力
し、認識モードが指定されている場合には、最も
照合距離の近いものを認識結果として出力する。
以下、各動作モードについて順を追つて説明す
る。
まず登録モードの場合について説明する。使用
者は、操作パネル4から登録モードを指定し、登
録すべき語の音声を順番に発声していく。発声さ
れた音声がマイク1から入力されると、その入力
音声は、音声特徴抽出部2で認識用の入力音声パ
ラメータに変換され、入力音声パラメータ・バツ
フア3に格納される。この入力音声パラメータ
は、登録学習制御部7によつて登録音声パラメー
タ辞書部8に登録される。同時に、登録学習制御
部7によつて辞書と対応する辞書デイレクトリ部
9に登録語の識別情報が設定される。このように
して全登録語の登録が終了すると、使用者は、次
に操作パネル4から学習モードを指定し、再び登
録モードで行つたと同様に音声をマイク1から入
力する。
学習モードでは、マイク1から音声が入力され
ると、その入力音声は、音声特徴抽出部2で入力
音声パラメータに変換され、入力音声パラメー
タ・バツフア3に格納される。そうすると、パラ
メータ照合部5で入力音声パラメータ・バツフア
3に格納された入力音声パラメータと登録音声パ
ラメータ辞書部8に登録された登録音声パラメー
タが順番に照合され、その照合距離が認識結果制
御部10に送られる。全登録音声パラメータとの
照合が終了すると、認識結果制御部10では、最
も照合距離の近いものからいくつかを認識候補の
辞書として、辞書デイレクトリ部9から、それら
の辞書が何の語であるかを調べ、その結果、同じ
語が認識候補に含まれている場合には、上位を採
用し他は候補から除いて、複数の辞書の語を認識
情報として送出する。登録学習制御部7では、認
識情報に基づいて、学習語が1位で認識された場
合には、辞書の平均化をすべきと判断し、認識結
果の辞書と入力音声パラメータを特定の比率で平
均化し、学習音声パラメータとして学習音声パラ
メータとして学習音声パラメータ・バツフア6に
格納し、或いは直接認識結果の辞書エリアに書込
む。他方、学習語が1位以外で認識された場合に
は、辞書の学習効果を次のようにチエツクし、辞
書の平均化を行うべきか、マルチ・テンプレート
化して入力音声パラメータを新辞書として追加す
べきかを決め、そのいずれかの処理を行う。
まず、登録学習制御部7は、入力音声パラメー
タと学習語の認識結果の辞書を学習効果チエツク
用の特定比率で平均化し、学習音声パラメータ・
バツフア6に格納する。この学習音声パラメータ
と入力音声パラメータとをパラメータ照合部5で
照合して照合距離を認識結果制御部10へ送り、
認識情報として登録学習制御部7へ送る。登録学
習制御部7では、この学習音声パラメータと入力
音声パラメータとの照合距離、及び第1位で誤認
識した入力音声と登録音声との照合距離の比較を
行い、学習音声パラメータの方の照合距離が小さ
い場合には学習効果を有効として辞書の平均化を
行い、逆に、学習音声パラメータの方の照合距離
が大きい場合には、その入力語は登録語とは別の
発声であると判断して辞書の追加を行う。辞書の
追加処理は、音声登録の場合と同様に、入力音声
パラメータを登録音声パラメータ辞書部8の空き
エリアに書込み、同時に、対応する辞書デイレク
トリ部9に学習語の識別情報を書込む。
以上のようにして順番に登録語を学習してい
き、第1位で認識されたり、誤認識された場合で
も、平均化により第1位になると予想される場合
には辞書に平均化を行い、また平均化しても第1
位にならないと予想される場合には辞書の追加が
行われたりして処理されていくことになる。
認識モードは、学習モードの照合処理の場合と
同様に、入力音声パラメータと登録音声パラメー
タ全部とを照合して、最も照合距離の小さいもの
を認識結果として出力させるものである。
〔発明の効果〕
以上の説明から明らかなように、本発明によれ
ば、同じ語でありながら発声が異なるために誤認
識しやすい音声はマルチ・テンプレート化し、発
声がばらつきにくい語や他に類似語がないために
誤認識しにくい音声は辞書の平均化を行う、とい
うように学習するので、全ての語をマルチ・テン
プレート化する場合に比較して登録音声パラメー
タ辞書の容量を大幅に減らすことが可能となり、
しかも、その分パラメータ照合作業も減少するの
で、認識時間を早めることが可能となる。
【図面の簡単な説明】
図は本発明の音声認識装置の1実施例構成を示
す図である。 1……マイク、2……音声特徴抽出部、3……
入力音声パラメータ・バツフア、4……操作パネ
ル、5……パラメータ照合部、6……学習音声パ
ラメータ・バツフア、7……登録学習制御部、8
……登録音声パラメータ辞書部、9……辞書デイ
レクトリ部、10……認識結果制御部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声を入力音声パラメータに変換する音
    声特徴抽出部、音声パラメータを登録する登録音
    声パラメータ辞書部、該登録音声パラメータ辞書
    部の辞書と対応して登録語の識別情報を設定する
    辞書デイレクトリ部、パラメータの照合を行つて
    照合距離を求めるパラメータ照合部、登録モード
    が学習モードか認識モードかのいずれかの動作モ
    ードを指定するモード指定手段、登録モードか学
    習モードかの指定に応じて上記登録音声パラメー
    タ辞書部と対応する上記辞書デイレクトリ部とに
    対して音声パラメータの登録と登録語の識別情報
    の設定や音声パラメータの平均化処理を行う登録
    学習制御部、学習モードの指定の場合には認識情
    報を上記登録学習制御部に送り認識モードの場合
    には入力音声パラメータと登録音声パラメータと
    を上記パラメータ照合部で照合して求めた照合距
    離が最も近いものを認識結果として出力する認識
    結果制御部を具備する音声認識装置において、上
    記パラメータ照合部は、入力音声パラメータと全
    ての登録音声パラメータとの照合を行つて照合距
    離を求め若しくは上記登録学習制御部から学習音
    声パラメータが与えられたときは入力音声パラメ
    ータと学習音声パラメータとの照合を行つて照合
    距離を求め、上記認識結果制御部は、学習モード
    が指定されている場合には、上記パラメータ照合
    部で求めた登録音声パラメータとの照合距離のう
    ち最も近いものから順に複数の情報若しくは上記
    パラメータ照合部で求めた学習音声パラメータと
    の照合距離の情報を認識情報として上記登録学習
    制御部に送り、上記登録学習制御部は、学習モー
    ドが指定されている場合には、上記複数の情報を
    もとに学習語が1位で認識されたか否かを調べ、
    1位で認識された場合には学習語の辞書の平均化
    を行い、1位以外で認識された場合には学習語の
    辞書と入力音声パラメータとを特定の比率で平均
    化して学習音声パラメータとして上記パラメータ
    照合部に与え、学習音声パラメータとの照合距離
    が1位の登録音声パラメータとの照合距離よりも
    近いことを条件に学習語の辞書の平均化を行い、
    学習音声パラメータとの照合距離が1位の登録音
    声パラメータとの照合距離よりも近くないことを
    条件に辞書の追加を行うように構成されたことを
    特徴とする特定話者用音声認識装置。
JP58181172A 1983-09-29 1983-09-29 特定話者用音声認識装置 Granted JPS6073592A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58181172A JPS6073592A (ja) 1983-09-29 1983-09-29 特定話者用音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58181172A JPS6073592A (ja) 1983-09-29 1983-09-29 特定話者用音声認識装置

Publications (2)

Publication Number Publication Date
JPS6073592A JPS6073592A (ja) 1985-04-25
JPH0217038B2 true JPH0217038B2 (ja) 1990-04-19

Family

ID=16096140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58181172A Granted JPS6073592A (ja) 1983-09-29 1983-09-29 特定話者用音声認識装置

Country Status (1)

Country Link
JP (1) JPS6073592A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0731507B2 (ja) * 1984-08-01 1995-04-10 日本電気株式会社 標準パタ−ン登録方式
JP2646539B2 (ja) * 1987-01-08 1997-08-27 富士通株式会社 標準パターン格納部管理方法

Also Published As

Publication number Publication date
JPS6073592A (ja) 1985-04-25

Similar Documents

Publication Publication Date Title
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
US8751230B2 (en) Method and device for generating vocabulary entry from acoustic data
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP2001509285A (ja) 話者依存及び話者非依存音声認識を用いた多局ネットワークの音声制御された機能を作動する方法及び装置
JP2002006878A (ja) 音声フレーズ認識方法及び音声認識装置
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
JPH0422276B2 (ja)
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2003022087A (ja) 音声認識方法
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
EP1116218B1 (en) Inter-word connection phonemic models
JPH0217038B2 (ja)
JP2871420B2 (ja) 音声対話システム
JP2000020089A (ja) 音声認識方法及びその装置、並びに音声制御システム
JP4094255B2 (ja) コマンド入力機能つきディクテーション装置
JPH05100693A (ja) 音声認識用コンピユータ・システム
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3100208B2 (ja) 音声認識装置
JP2002082688A (ja) 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH0314359B2 (ja)
JPH04271397A (ja) 音声認識装置
KR19990081664A (ko) 음성 인식 전화기의 음성 인식 방법
JPH03149598A (ja) 音声認識装置
JPH10124085A (ja) 音声認識装置及び認識方法