JP2006163440A - 音声認識方法及び音声認識装置及びその記憶媒体 - Google Patents

音声認識方法及び音声認識装置及びその記憶媒体 Download PDF

Info

Publication number
JP2006163440A
JP2006163440A JP2006030927A JP2006030927A JP2006163440A JP 2006163440 A JP2006163440 A JP 2006163440A JP 2006030927 A JP2006030927 A JP 2006030927A JP 2006030927 A JP2006030927 A JP 2006030927A JP 2006163440 A JP2006163440 A JP 2006163440A
Authority
JP
Japan
Prior art keywords
acoustic model
parameter
learning
parameter set
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006030927A
Other languages
English (en)
Inventor
Tatsuya Kimura
達也 木村
Akira Ishida
明 石田
Nobuyuki Kunieda
伸行 國枝
Kazuya Nomura
和也 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2006030927A priority Critical patent/JP2006163440A/ja
Publication of JP2006163440A publication Critical patent/JP2006163440A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】少数のデータでも十分な適応を行う話者適応法を簡便な処理で実現する音声認識方法を提供すること。
【解決手段】本発明の音声認識方法は、入力音声より特徴パラメータ系列を抽出する過程S12と、適応を行うときには第1の音響モデルのパラメータを読込む過程S14と、第1の学習パラメータセットを作成する過程S15と、第2の学習パラメータセットを作成する過程S16と、第1の学習パラメータセットおよび第2の学習パラメータセットから適応パラメータを算出する過程S17と、適応パラメータを用い第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する過程S18と、認識を行うときには第1の音響モデルまたは第2の音響モデルのいずれかを選択する過程S110と、選択された音響モデルを用いて特徴パラメータの系列と照合する過程S111とを有することとした。
【選択図】図1

Description

本発明は、誰の声でも認識できる不特定話者音声認識技術に関し、特に認識率が低い話者に対する認識率をその話者の音声を用いて認識率を高めるように適応化する話者適応化機能を有する音声認識方法及び音声認識装置及びその記憶媒体に関する。
従来、音声認識における話者適応法の技術として例えば、下記の特許文献1に記載されたものが知られている。
図9は、従来技術の話者適応法の処理フロー図を示す。
図9に示すように、従来技術による話者適応法は、第1の公知技術であるMLLR法(例えば、非特許文献1を参照)および第2公知技術であるMAP推定法(例えば、非特許文献2を参照)とを組合わせたものである。この組合せにより、上記第1の公知技術であるMLLR法では学習データが少数の場合に十分な適応が行われない問題の解決を図っている。
特許第3035239号公報 「C.L.Leggetter et al., "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models",Computer Speech and Language,Vol.9,pp.171-185,1995年」 「C.H.Lee et al., "A Study on Speaker Adaptation of the Parameters of Continuous Density Hidden Markov Models",IEEE Transactions on Signal Processing,Vol.39,No.4,pp.806-814,1991年」
しかしながら、従来技術の話者適応法では、MLLR法とMAP推定法という2つの学習アルゴリズムを使用することになるので、処理が極めて複雑であるという問題があった。
本発明は、このような従来の問題を解決するためになされたもので、少数のデータでも十分な適応を行う話者適応法を簡便な処理で実現する音声認識方法及び音声認識装置及びその記憶媒体を提供するものである。
また、本発明の音声認識装置は、入力した音声を分析して特徴パラメータ系列を抽出する特徴パラメータ抽出手段と、適応前の不特定話者用としてあらかじめ作成してある第1の音響モデルのパラメータを記憶する第1の記憶手段と、第1の音響モデルのパラメータより第1の学習パラメータセットを作成する第1の学習パラメータセット作成手段と、特徴パラメータ系列および第1の音響モデルのパラメータ系列より第2の学習パラメータセットを作成する第2の学習パラメータセット作成手段と、第1の学習パラメータセットおよび第2のパラメータセットを併合する併合手段と、併合手段により得られた第3の学習パラメータセットから重回帰分析法により適応パラメータを算出する適応パラメータ作成手段と、適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する音響モデルパラメータ変換手段と、第2の音響モデルのパラメータを記憶する第2の記憶手段とを備えたことを特徴とする。
この構成により、入力された特徴量ベクトルの系列とモデルのパラメータ系列との間の時間軸上での対応付けがなされた学習パラメータセットが得られ、精度の良い適応パラメータの推定ができる。
また、本発明の音声認識装置は、音響モデルが連続分布HMMまたは連続HMMを近似したHMMでモデル化される音響モデルであり、音響モデルのパラメータが音響モデルにおける平均ベクトルであり、学習パラメータセットの個々の要素がベクトルの対の形で構成され、特徴パラメータ系列と音響モデルのパラメータ系列との間でViterbi法またはDP法またはBaum-Welch法による時間軸の整合方法を用いてベクトル対の確定をしながら学習パラメータセットを作成することとした。
この構成により、学習話者数が少ない場合でも、安定した話者適応機能を有する音声認識装置を提供することができる。
また、本発明の音声認識装置において、第1の学習パラメータセット作成手段は、第1の音響モデルのパラメータより第1の学習パラメータセットを学習の初回発声時に限り作成し、さらに、併合手段は、学習の初回発声時に限り第1の学習パラメータセットおよび第2のパラメータセットを併合することを特徴とする。
この構成により、入力された特徴量ベクトルの系列とモデルのパラメータ系列との間の時間軸上での対応付けがなされた学習パラメータセットが得られ、精度の良い適応パラメータの推定ができる。
また、本発明の音声認識装置は、認識に際して第1の音響モデルまたは第2の音響モデルのどちらを用いて認識するかを判定する手段をさらに備えた構成とした。
この構成により、学習サンプルが少なすぎる場合には不特定話者の音響モデルを用いた自動的に行われ性能が安定した音声認識装置を提供することができる。
また、本発明の音声認識装置は、認識に際しては第1の音響モデルに対する照合結果および第2の音響モデルに対する照合結果を得る照合手段さらにを備えた構成とした。
この構成により、適応パラメータの推定を、最尤を規準に実施することができ、精度の良い適応パラメータの推定ができる。
本発明の他の局面に係る音声認識方法は、入力した音声を分析して特徴パラメータ系列を抽出する過程と、適応前の不特定話者用としてあらかじめ作成してある第1の音響モデルのパラメータを読込む過程と、第1の音響モデルのパラメータより第1の学習パラメータセットを作成する過程と、特徴パラメータ系列および第1の音響モデルのパラメータ系列より第2の学習パラメータセットを作成する過程と、第1の学習パラメータセットおよび第2のパラメータセットを併合する過程と、併合する過程により得られた第3の学習パラメータセットから重回帰分析法により適応パラメータを算出する過程と、適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する過程と、第2の音響モデルのパラメータを記憶する過程とを備えたことを特徴とする。
本発明のさらに他の局面に係る音声認識記憶媒体は、入力した音声を分析して特徴パラメータ系列を抽出する過程と、適応前の不特定話者用としてあらかじめ作成してある第1の音響モデルのパラメータを読込む過程と、第1の音響モデルのパラメータより第1の学習パラメータセットを作成する過程と、特徴パラメータ系列および第1の音響モデルのパラメータ系列より第2の学習パラメータセットを作成する過程と、第1の学習パラメータセットおよび第2のパラメータセットを併合する過程と、併合する過程により得られた第3の学習パラメータセットから重回帰分析法により適応パラメータを算出する過程と、適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する過程と、第2の音響モデルのパラメータを記憶する過程とを備えた音声認識方法のプログラムを記憶し、プログラムをコンピュータより読み取り可能とすることを特徴とする。
以上のように本発明は、不特定話者の音響モデルから作成される第1の学習パラメータセットと入力信号の特徴パラメータと不特定話者の音響モデルから作成される第2の学習パラメータセットを併合して得られる第3の学習パラメータセットを用いて適応パラメータを求めることにより、少数の学習データでも安定した話者適応を簡便な処理で実現する音声認識方法を提供することができる。
以下、本発明の実施の形態について、図面を用いて説明する。
図1は、本発明の第1の実施形態の音声認識方法のフローチャートを示す。
図1において、S11は音声を入力する過程であり、S12は入力した音声を分析して特徴パラメータ系列を抽出する過程である。S13において適応モードか認識モードの選択をする。S14はあらかじめ作成してある不特定話者用の音響モデルである第1の音響モデルのパラメータを読込む過程、S15は第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して第1の学習パラメータセットを作成する過程であり、S16は特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して第2の学習パラメータセットを作成する過程であり、S17は第1の学習パラメータセットおよび第2のパラメータセットから適応パラメータを算出する過程であり、S18は適応パラメータを用いた重回帰モデル(後述)に基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルを作成する過程であり、S19は第2の音響モデルのパラメータを記憶する過程である。S14からS19までの過程を経て作成される第2の音響モデルを適応後のパラメータとして得ることにより適応処理を行う。
認識時には、第1の音響モデルまたは第2の音響モデルのいずれかを選択する過程S110と、選択された音響モデルを用いて特徴パラメータの系列と照合を行う過程S111と、照合結果から認識結果を決定する過程S112と、認識結果を出力する過程S113の過程を経て音声認識を行う。
適応時に第1の学習パラメータセットと第2のパラメータの学習パラメータセットを併合したパラメータセットを用いて適応パラメータを最尤推定により求める。パラメータの併合により、不特定話者の音響モデルのパラメータが事前に学習サンプルに含まれているため、学習話者が少ない場合でも精度の良い適応パラメータを安定して求めることができる。
図2は、本発明の第2の実施形態の音声認識装置の構成図を示す。
図2において、入力した音声を音響分析部21にて分析して、特徴パラメータ抽出部22において特徴パラメータ系列を抽出する。切り替えスイッチ23により「適応モード」または「認識モード」の切り替えを行う。まず「適応モード」の場合について説明する。第1の記憶装置24には適応前の不特定話者用音響モデルとしてあらかじめ作成してある第1の音響モデルのパラメータを格納している。第1の記憶装置24から読み出した第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して、第1の学習パラメータセット作成部25により第1の学習パラメータセットを作成する。特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して、第2の学習パラメータセット作成部26により第2の学習パラメータセットを作成する。第1の学習パラメータセットおよび第2のパラメータセットを学習パラメータセット併合部27で併合する。学習パラメータセット併合部27により得られた第3の学習用パラメータセットから重回帰分析法により適応パラメータ作成部28により適応パラメータを算出し第2の記憶装置29に格納する。音響モデル変換部210では、適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成し第3の記憶装置211に格納する。
次に、「認識モード」の場合における構成及び動作について説明する。特徴パラメータ抽出部22で抽出した特徴パラメータは、照合部212にて制御部214および音響モデル選択部215により選択される音響モデルとの照合スコアが求められ結果判定部217により最終結果が得られる。
学習パラメータセット併合部27を設け学習パラメータセットの中に不特定話者用の音響モデルを含ませておくことにより、学習データが少ない場合でも、精度の良い適応パラメータを安定して得ることができる。
図3は、本発明の第3の実施形態の音声認識方法のフローチャートを示す。
第1の実施形態では学習音声の提示を何発声分か行った後で認識をすることを想定しているが、この実施形態においては、逐次学習が可能な構成を示している。
図3において、S31は音声を入力する過程であり、S32は入力した音声を分析して特徴パラメータ系列を抽出する過程である。S33において適応モードか認識モードの選択をする。S34はあらかじめ作成してある不特定話者用の音響モデルである第1の音響モデルのパラメータを読込む過程、分岐S35にて学習の初回であるかどうかを調べ、初回の場合のみ第1の学習パラメータセット作成過程S36にて第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して第1の学習パラメータセットを作成する。S37は特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して第2の学習パラメータセットを作成する過程であり、S38は逐次学習のために必要な中間パラメータを作成する過程である。S39は第1の学習パラメータセットおよび第2のパラメータセットから適応パラメータを算出する過程である、S310は適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルを作成する過程であり、S311は第2の音響モデルを記憶する過程である。S34からS311までの過程を経て作成される第2音響モデルを適応後のパラメータとして得ることにより逐次型適応における1発声当たりの適応処理を行う。
認識時には、第1の音響モデルまたは第2の音響モデルのいずれかを選択する過程S312と、選択された音響モデルを用いて特徴パラメータの系列と照合を行う過程S313と照合結果から認識結果を決定する過程S314と、認識結果を出力する過程S315過程を経て音声認識を行う。
前記説明の通り、第3の実施形態の方法により第1の学習パラメータセットの作成を適応の初回発声時にのみ行うとともに、逐次型の適応に必要な中間パラメータを発声毎に保存しておくことにより、適応パラメータの更新を発声毎に行うことが可能となり、逐次型の学習を実現することができる。
図4は、本発明の第4実施形態の音声認識装置の構成図を示す。
この実施形態では逐次型の適応が可能な音声認識装置の構成例を示している。
図4において、入力した音声を音響分析部41にて分析して、特徴パラメータ抽出部42において特徴パラメータ系列を抽出する。切り替えスイッチ43により「適応モード」または「認識モード」の切り替えを行う。
まず「適応モード」の場合について説明する。第1の記憶装置44には適応前の不特定話者用音響モデルとしてあらかじめ作成してある第1の音響モデルのパラメータを格納している。第1の記憶装置44から読み出した第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して、第1の学習パラメータセット作成部45により第1の学習パラメータセットを作成する。この操作は仮想スイッチ43、481により、学習の初回発声時にのみ行う。特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して、第2の学習パラメータセット作成部46により第2の学習パラメータセットを作成する。学習パラメータセット併合部47では学習の初回発声時にのみ第1及び第2の学習パラメータセットの併合を行う。
学習パラメータセット併合部47または第2の学習パラメータセット作成部46で得られた第2の学習用パラメータセットから重回帰分析法により適応パラメータ作成部48により適応パラメータを算出し第2の記憶装置49に格納する。音響モデル変換部410では、適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成し第3の記憶装置411に格納する。
次に、「認識モード」の場合の構成及び動作について説明する。特徴パラメータ抽出部42で抽出された特徴パラメータは、照合部412にて制御部414および音響モデル選択部415により選択される音響モデルとの照合スコアが求められ結果判定部417により最終結果が得られる。
学習パラメータセット併合部47を設け学習パラメータセットの中に不特定話者用の音響モデルを含ませておくことにより、学習データが少ない場合でも、精度の良い適応パラメータを安定に得ることができることに加え、学習の初回発声時のみ第1の学習パラメータセットを第2の学習パラメータセットに加え、初回以外の発声時には適応パラメータの更新を発声毎に行うことにより、逐次型の適応を実現することが可能になる。
図5は、本発明の第5の実施形態の音声認識方法のフローチャートを示す。
この実施形態では第3の実施形態の構成で可能となった逐次学習に加えて音響モデルの選択的な制御機能を認識処理に新たに付加することにより、極端に学習サンプルが少ない場合における認識性能の安定化を図る方法の例を示している。
図5において、S51は音声を入力する過程であり、S52は入力した音声を分析して特徴パラメータ系列を抽出する過程である。S53において適応モードか認識モードの選択をする。S54はあらかじめ作成してある不特定話者用の音響モデルである第1の音響モデルのパラメータを読込む過程、分岐S55にて学習の初回であるかどうかを調べ、初回の場合のみ第1の学習パラメータセット作成過程S56にて第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して第1の学習パラメータセットを作成する。S57は特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して第2の学習パラメータセットを作成する過程であり、S58は逐次学習のために必要な中間パラメータを作成する過程である。S59は第1の学習パラメータセットおよび第2のパラメータセットから適応パラメータを算出する過程である、S510は適応パラメータを用いた重回帰モデル(後述)に基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルを作成する過程であり、S511は第2の音響モデルを記憶する過程である。S54からS511までの過程を経て作成される第2音響モデルを適応後のパラメータとして得ることにより逐次型適応における1発声当たりの適応処理を行う。
認識時には、第1の音響モデルまたは第2の音響モデルのいずれを選択するかを判定する過程S512と、選択を制御する過程S513とにより、選択された音響モデルを用いて特徴パラメータの系列と照合を行う過程S514と、照合結果から認識結果を決定する過程S515と、認識結果を出力する過程S516の過程を経て認識処理を行う。
前記説明の通り、第5の実施形態の方法により第1の学習パラメータセットの作成を適応の初回発声時にのみ行うとともに、逐次型の適応に必要な中間パラメータを発声毎に保存しておくことにより、適応パラメータの更新を発声毎に行うことが可能となり、逐次型の学習を実現することができる。
上述の実施形態では音響モデルの選択的な制御機能S512および選択制御S513を認識処理に新たに付加することにより、極端に学習サンプルが少ない場合における認識性能の安定化を図ることが可能になる。
図6は、本発明の第6の実施形態の音声認識装置の構成図を示す。
この実施形態では逐次型の適応が可能な音声認識装置であって、学習サンプルが極端に少ない場合における認識性能の安定化を図ることを目的に構成した例を示している。
図6において、入力した音声を音響分析部61にて分析して、特徴パラメータ抽出部62において特徴パラメータ系列を抽出する。切り替えスイッチ63により「適応モード」または「認識モード」の切り替えを行う。まず「適応モード」の場合について説明する。第1の記憶装置64には適応前の不特定話者用音響モデルとしてあらかじめ作成してある第1の音響モデルのパラメータを格納している。第1の記憶装置64から読み出した第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して、第1の学習パラメータセット作成部65により第1の学習パラメータセットを作成する。この操作は仮想スイッチ63、681により、学習の初回発声時にのみ行う。特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して、第2の学習パラメータセット作成部66により第2の学習パラメータセットを作成する。学習パラメータセット併合部67では学習の初回発声時にのみ第1及び第2の学習パラメータセットの併合を行う。
学習パラメータセット併合部67または第2の学習パラメータセット作成部66で得られた学習用パラメータセットから重回帰分析法により適応パラメータ作成部68により適応パラメータを算出し第2の記憶装置69に格納する。音響モデル変換部611では、適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成し第3の記憶装置612に格納する。
次に、「認識モード」の場合について説明する。特徴パラメータ抽出部62で抽出された特徴パラメータは、照合部612にて、制御部614および判定部615および音響モデル選択部616により選択される音響モデルとの照合スコアが求められ結果判定部617により最終結果が得られる。
この実施形態では、第4の実施形態の構成で可能となった逐次学習に加えて音響モデルの選択的な制御機能を制御部614および結果判定部615で実現し、認識処理に新たに付加することにより、極端に学習サンプルが少ない場合における認識性能の安定化を図ることが可能となる。
図7は、本発明の第7の実施形態の音声認識方法のフローチャートを示す。
この実施形態では第3の実施形態の構成で可能となった逐次学習に加えて例えば逐次学習の途中で話者が変わった場合でも極端な認識性能の低下を防ぐ構成を実現している。
図7において、S71は音声を入力する過程であり、S72は入力した音声を分析して特徴パラメータ系列を抽出する過程である。S73において適応モードか認識モードの選択をする。S74はあらかじめ作成してある不特定話者用の音響モデルである第1の音響モデルのパラメータを読込む過程、分岐S75にて学習の初回であるかどうかを調べ初回の場合のみ第1の学習パラメータセット作成過程S76にて第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して第1の学習パラメータセットを作成する。S77は特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して第2の学習パラメータセットを作成する過程であり、S78は逐次学習のために必要な中間パラメータを作成する過程である。S79は第1の学習パラメータセットおよび第2のパラメータセットから適応パラメータを算出する過程である、S710は適応パラメータを用いた重回帰モデル(後述)に基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルを作成する過程であり、S711は第2の音響モデルを記憶する過程である。S74からS711までの過程を経て作成される第2音響モデルを適応後のパラメータとして得ることにより逐次型適応における1発声当たりの適応処理を行う。
認識時には、特徴パラメータ系列と第1の音響モデルとの照合をS712にて行い、第2の音響モデルとの照合をS713にて行い、S714にて2種類の音響モデルに対する照合結果から最もスコアの高い結果を最終結果とする決定を行った後S715にて認識結果を出力する。
上述の実施形態ではS712およびS713とで常に適応前の音響モデルと適応後の音響モデルの照合を行うことにより話者が変わった場合でも極端な認識率の低下を招くことを回避できる。
図8は、本発明の第8の実施形態の音声認識装置の構成図を示す。
この実施形態では逐次型の適応が可能な音声認識装置であって、学習サンプルが極端に少ない場合における認識性能の安定化を図ることを目的に構成した例を示している。
図8において、入力した音声を音響分析部81にて分析して、特徴パラメータ抽出部82において特徴パラメータ系列を抽出する。切り替えスイッチ83により「適応モード」または「認識モード」の切り替えを行う。まず「適応モード」の場合について説明する。第1の記憶装置84には適応前の不特定話者用音響モデルとしてあらかじめ作成してある第1の音響モデルのパラメータを格納している。第1の記憶装置84から読み出した第1の音響モデルのパラメータの全てあるいは一部分のパラメータを抽出して、第1の学習パラメータセット作成部85により第1の学習パラメータセットを作成する。この操作は仮想スイッチ83、881により、学習の初回発声時にのみ行う。特徴パラメータ系列および第1の音響モデルのパラメータ系列の全てあるいは一部分のパラメータを抽出して、第2の学習パラメータセット作成部86により第2の学習パラメータセットを作成する。学習パラメータセット併合部87では学習の初回発声時にのみ第1及び第2の学習パラメータセットの併合を行う。
学習パラメータセット併合部87または第2の学習パラメータセット作成部86で得られた学習用パラメータセットから重回帰分析法により適応パラメータ作成部88により適応パラメータを算出し第2の記憶装置89に格納する。音響モデル変換部810では、適応パラメータを用いた重回帰モデルに基づく所定の写像関数により第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成し第3の記憶装置811に格納する。
次に、「認識モード」の場合について説明する。特徴パラメータ抽出部82で抽出した特徴パラメータは、照合部812にて第1の音響モデルおよび第2の音響モデルとの照合スコアが求められ、結果判定部817により最終結果が得られる。
この実施形態では、第4の実施形態の構成で可能となった逐次学習に加えて、常に第1の音響モデルと第2の音響モデルとの両方の音響モデルとの照合を行うことにより、認識装置を使用中に話者が変わった場合でも極端な認識率の低下を防止することが可能となる。
また、本発明の第9の実施形態である記録媒体は、第1の実施形態による方法をコンピュータに実行させるためのプログラムを記憶し、コンピュータで読み取り可能としたものである。
また、本発明の第10の実施形態である記録媒体は、第3の実施形態による方法をコンピュータに実行させるためのプログラムを記憶し、コンピュータで読み取り可能としたものである。
また、本発明の第11の実施形態である記録媒体は、第5の実施形態による方法をコンピュータに実行させるためのプログラムを記憶し、コンピュータで読み取り可能としたものである。
さらに、本発明の第12の実施形態である記録媒体は、第7の実施形態による方法をコンピュータに実行させるためのプログラムを記憶し、コンピュータで読み取り可能としたものである。
本発明の第1の実施形態の音声認識方法のフローチャートを示す図 本発明の第2の実施形態の音声認識装置の構成図 本発明の第3の実施形態の音声認識方法のフローチャートを示す図 本発明の第4の実施形態の声認識装置の構成図 本発明の第5の実施形態の音声認識方法のフローチャートを示す図 本発明の第6の実施形態の音声認識装置の構成図 本発明の第7の実施形態の音声認識方法のフローチャートを示す図 本発明の第8の実施形態の音声認識装置の構成図 従来技術の話者適応法の処理フロー図
符号の説明
S11 音声入力過程
S12 特徴パラメータ抽出過程
S13 モード選択過程
S14 第1の音響モデルのパラメータ読込過程
S15 第1の学習パラメータセット作成過程
S16 第2の学習パラメータセット作成過程
S17 適応パラメータ算出過程
S18 第2の音響モデルのパラメータ作成過程
S19 第2の音響モデルのパラメータ記憶過程
S110 音響モデル選択過程
S111 照合過程
S112 認識結果決定過程
S113 認識結果出力過程
21 音響分析部
22 特徴パラメータ抽出部
23 切り替えスイッチ
24 第1の記憶装置
25 第1の学習パラメータセット作成部
26 第2の学習パラメータセット作成部
27 学習パラメータセット併合部
28 適応パラメータ作成部
29 第2の記憶装置
210 音響モデル変換部
211 第3の記憶装置
212 照合部
214 制御部
215 音響モデル選択部
217 結果判定部

Claims (7)

  1. 入力した音声を分析して特徴パラメータ系列を抽出する特徴パラメータ抽出手段と、適応前の不特定話者用としてあらかじめ作成してある第1の音響モデルのパラメータを記憶する第1の記憶手段と、前記第1の音響モデルのパラメータより第1の学習パラメータセットを作成する第1の学習パラメータセット作成手段と、前記特徴パラメータ系列および前記第1の音響モデルのパラメータ系列より第2の学習パラメータセットを作成する第2の学習パラメータセット作成手段と、前記第1の学習パラメータセットおよび第2のパラメータセットを併合する併合手段と、前記併合手段により得られた第3の学習パラメータセットから重回帰分析法により適応パラメータを算出する適応パラメータ作成手段と、前記適応パラメータを用いた重回帰モデルに基づく所定の写像関数により前記第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する音響モデルパラメータ変換手段と、前記第2の音響モデルのパラメータを記憶する第2の記憶手段とを備えたことを特徴とする音声認識装置。
  2. 前記音響モデルが連続分布HMMまたは連続HMMを近似したHMMでモデル化される音響モデルであり、前記音響モデルのパラメータが前記音響モデルにおける平均ベクトルであり、前記学習パラメータセットの個々の要素がベクトルの対の形で構成され、前記特徴パラメータ系列と前記音響モデルのパラメータ系列との間でViterbi法またはDP法またはBaum-Welch法による時間軸の整合方法を用いて前記ベクトル対の確定をしながら学習パラメータセットを作成することを特徴とする請求項1に記載の音声認識装置。
  3. 前記第1の学習パラメータセット作成手段は、前記第1の音響モデルのパラメータより第1の学習パラメータセットを学習の初回発声時に限り作成し、さらに、前記併合手段は、学習の初回発声時に限り前記第1の学習パラメータセットおよび第2のパラメータセットを併合することを特徴とする請求項1に記載の音声認識装置。
  4. 認識に際して前記第1の音響モデルまたは第2の音響モデルのどちらを用いて認識するかを判定する判定手段をさらに備えたことを特徴とする、請求項3に記載の音声認識装置。
  5. 認識に際しては前記第1の音響モデルに対する照合結果および第2の音響モデルに対する照合結果を得る照合手段をさらに備えたことを特徴とする、請求項3に記載の音声認識装置。
  6. 入力した音声を分析して特徴パラメータ系列を抽出する過程と、適応前の不特定話者用としてあらかじめ作成してある第1の音響モデルのパラメータを読込む過程と、前記第1の音響モデルのパラメータより第1の学習パラメータセットを作成する過程と、前記特徴パラメータ系列および前記第1の音響モデルのパラメータ系列より第2の学習パラメータセットを作成する過程と、前記第1の学習パラメータセットおよび第2のパラメータセットを併合する過程と、前記併合する過程により得られた第3の学習パラメータセットから重回帰分析法により適応パラメータを算出する過程と、前記適応パラメータを用いた重回帰モデルに基づく所定の写像関数により前記第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する過程と、前記第2の音響モデルのパラメータを記憶する過程とを備えたことを特徴とする音声認識方法。
  7. 入力した音声を分析して特徴パラメータ系列を抽出する過程と、適応前の不特定話者用としてあらかじめ作成してある第1の音響モデルのパラメータを読込む過程と、前記第1の音響モデルのパラメータより第1の学習パラメータセットを作成する過程と、前記特徴パラメータ系列および前記第1の音響モデルのパラメータ系列より第2の学習パラメータセットを作成する過程と、前記第1の学習パラメータセットおよび第2のパラメータセットを併合する過程と、前記併合する過程により得られた第3の学習パラメータセットから重回帰分析法により適応パラメータを算出する過程と、前記適応パラメータを用いた重回帰モデルに基づく所定の写像関数により前記第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する過程と、前記第2の音響モデルのパラメータを記憶する過程とを備えた音声認識方法のプログラムを記憶し、前記プログラムをコンピュータより読み取り可能とすることを特徴とする音声認識記憶媒体。
JP2006030927A 2006-02-08 2006-02-08 音声認識方法及び音声認識装置及びその記憶媒体 Withdrawn JP2006163440A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006030927A JP2006163440A (ja) 2006-02-08 2006-02-08 音声認識方法及び音声認識装置及びその記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006030927A JP2006163440A (ja) 2006-02-08 2006-02-08 音声認識方法及び音声認識装置及びその記憶媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001165457A Division JP2002358093A (ja) 2001-05-31 2001-05-31 音声認識方法及び音声認識装置及びその記憶媒体

Publications (1)

Publication Number Publication Date
JP2006163440A true JP2006163440A (ja) 2006-06-22

Family

ID=36665432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006030927A Withdrawn JP2006163440A (ja) 2006-02-08 2006-02-08 音声認識方法及び音声認識装置及びその記憶媒体

Country Status (1)

Country Link
JP (1) JP2006163440A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013083798A (ja) * 2011-10-11 2013-05-09 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、およびプログラム
US11183174B2 (en) 2018-08-31 2021-11-23 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013083798A (ja) * 2011-10-11 2013-05-09 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、およびプログラム
US11183174B2 (en) 2018-08-31 2021-11-23 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Similar Documents

Publication Publication Date Title
CN106683677B (zh) 语音识别方法及装置
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20110301953A1 (en) System and method of multi model adaptation and voice recognition
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
JP5177561B2 (ja) 認識器重み学習装置および音声認識装置、ならびに、システム
JP2010152081A (ja) 話者適応装置及びそのプログラム
JP4817250B2 (ja) 声質変換モデル生成装置及び声質変換システム
KR20200100332A (ko) 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP4541781B2 (ja) 音声認識装置および方法
JP2006163440A (ja) 音声認識方法及び音声認識装置及びその記憶媒体
Li et al. Solving large-margin hidden Markov model estimation via semidefinite programming
JP6580911B2 (ja) 音声合成システムならびにその予測モデル学習方法および装置
JP3541224B2 (ja) 音源の分離方法および分離装置
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
WO2010109725A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP2015161927A (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP2004117624A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP2002358093A (ja) 音声認識方法及び音声認識装置及びその記憶媒体
CN111933121A (zh) 一种声学模型训练方法及装置
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP4711111B2 (ja) 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム
HUANG et al. Automatic context induction for tone model integration in mandarin speech recognition
JP2010020258A (ja) 基本周波数軌跡モデルパラメータ抽出装置、基本周波数軌跡モデルパラメータ抽出方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080424