JPWO2007105409A1 - 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム - Google Patents

標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム Download PDF

Info

Publication number
JPWO2007105409A1
JPWO2007105409A1 JP2008505010A JP2008505010A JPWO2007105409A1 JP WO2007105409 A1 JPWO2007105409 A1 JP WO2007105409A1 JP 2008505010 A JP2008505010 A JP 2008505010A JP 2008505010 A JP2008505010 A JP 2008505010A JP WO2007105409 A1 JPWO2007105409 A1 JP WO2007105409A1
Authority
JP
Japan
Prior art keywords
recognition
standard pattern
data
label
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008505010A
Other languages
English (en)
Inventor
祥史 大西
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2007105409A1 publication Critical patent/JPWO2007105409A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

標準パタンの認識性能が低い場合でも、入力音声データ情報を十分に利用して適応を行える方法、装置。標準パタン適応装置2は、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識部18と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出部19と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応部20とを備えている。

Description

本発明は音声認識標準パタンを話者や環境に適応させる、標準パタン適応技術に関し、特に教師無し適応に有用なデータ生成方法およびこの更新データを用いた標準パタン適応方法等に関する。
従来の音声認識標準パタン適応方法の一例が、特許文献1に記載されている。図6に示すように、この従来の音声認識標準パタン適応装置200は、音声特徴量入力部201と、標準パタン記憶部202と、音声認識手段203と、信頼度計算手段204と、信頼度付き標準パタン適応手段205と適応パタン記憶部206とから構成されている。
このような構成を有する音声認識標準パタン適応装置200はつぎのように動作する。すなわち、音声特徴量入力部201から適応に用いる音声の特徴量列を入力し、音声認識手段203で標準パタン記憶部202に記憶されている標準パタンを用いてこの特徴量列を音声認識し認識結果を出力する。信頼度計算手段204では、この認識結果を、入力された特徴量列の教師ラベルとしたときの信頼度を計算する。
信頼度付き標準パタン適応手段205では、前記、特徴量列と教師ラベルおよび信頼度を用いて信頼度に応じて重みを付与し、標準パタンを入力特徴量列に適応させる。
信頼度付き標準パタン適応手段205について説明する。
標準パタンを現在の音声認識において広く用いられている隠れマルコフモデル(以降、「HMM」という)とし、HMMのパラメタとしてガウス分布の平均ベクトルを適応させる場合においては、時刻t=1、2、・・・、Tの入力特徴量列
Figure 2007105409
と、信頼度計算手段204で得られた教師ラベルとして最尤となるガウス分布系列
Figure 2007105409
および、信頼度
Figure 2007105409
を用いて、時刻tにおけるラベルq=l(t)に対して、数式4の信頼度を用いた重み付けにより補正された適応データを計算する。
Figure 2007105409
ここでμ(q)はラベルqにおけるガウス分布平均ベクトルであり、τは0以上の値を持つ制御定数である。
この補正された適応データを用いて標準パタンを適応することにより、信頼度が低い音声データの影響を小さくでき、教師ラベルの誤りすなわち認識結果誤りの影響を軽減させた適応パタンを計算できる。
正解教師ラベルの作成方法の例としては、ビタービアルゴリズムが非特許文献1に記載されている。
標準パタン適応手法の例としては、MAP適応、MLLR(Maximum Likelihood Linear Regression)適応、AMCC(Autonomous Model Complexity Control)、EigenVoice適応が非特許文献2に記載されている。また、HEV(Hierarchical EigenVoice)適応が、非特許文献3に記載されている。
特許第3589044号公報 Rabiner, B-H.Juang 著、音声認識の基礎、NTTアドバンステクノロジ株式会社、1995年 篠田浩一、「確率モデルによる音声認識のための話者適応化技術」、電子通信情報学会誌、2004年、Vol. J84-D、No. 2, pp371-386 Y. Onishi and K. Iso, "Speaker adaptation by hierarchical eigenvoice"Proc. ICASSP-2003, pp. I-576-579, 2003年
上記各文献の開示事項は、引用をもって本書に繰込み記載されるものとする。
従来の音声認識標準パタン適応方法の第1の問題点は、標準パタン適応に入力音声特徴量の情報を十分に利用できていないということである。その理由は、信頼度が高い音声データのみが適応に影響し、信頼度の低い音声データの情報は利用されず、入力された情報の一部のみを利用して適応を行うためである。
従来の音声認識標準パタン適応方法の第2の問題点は、もとの標準パタンの認識性能が低いとき適応性能が低くなるということである。その理由は、認識性能が低いとき信頼度が低くなるため、標準パタンは十分に適応されず性能が低いままであるためである。
本発明の目的は、もとの標準パタンの認識性能が低い場合でも、入力音声データ情報を十分に利用して適応を行える方法等を提供することにある。
本発明は、下記に示す解決手段を提供する。
本発明の、パタン適応方法は、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識工程と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出工程と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応工程とを備えている(請求項1ないし請求項4)。
上記パタン適応方法によれば、適応データ算出工程において、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、標準パタン適応工程では、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。
上記標準パタン適応方法において、適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、誤りを含まない教師ラベルからなる正解教師ラベルと認識結果ラベルとを統計分析し、認識誤り知識を算出する認識誤り知識算出工程とを備えるようにしてもよい(請求項2)。このようにすれば、正解教師ラベルと音声認識結果を利用して認識誤り知識を抽出することができる。
上記標準パタン適応方法において、入力音声データおよび認識結果教師ラベルをクラスタに分類するクラスタリング工程を備え、適応データ算出工程では、クラスタに分類された入力音声データと認識結果教師ラベルとを用いてクラスタごとの認識誤り知識により適応データを算出するようにしてもよい(請求項3)。このようにすれば、認識誤り知識をクラスタごとに詳細に抽出しておくことが出来、クラスタリングをしない場合に比べ、効果的な標準パタン適応を行うことが出来る。
上記標準パタン適応方法において、適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング工程と、認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出工程とを備えるようにしてもよい(請求項4)。このようにすれば、正解教師ラベルと音声認識結果を利用してクラスタごとの認識誤り知識を抽出することができる。
本発明の標準パタン適応プログラムは、コンピュータに、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識機能と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出機能と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応機能とを実行させる(請求項5ないし請求項8)。
上記標準パタン適応プログラムによれば、適応データ算出機能で、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、標準パタン適応機能で、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。
上記標準パタン適応プログラムにおいて、適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、誤りを含まない教師ラベルからなる正解教師ラベルと認識結果ラベルとを統計分析し、認識誤り知識を算出する認識誤り知識算出機能とを実行させるようにしてもよい(請求項6)。このようにすれば、正解教師ラベルと音声認識結果を利用して認識誤り知識を抽出することができる。
上記標準パタン適応プログラムにおいて、コンピュータに、入力音声データおよび認識結果教師ラベルをクラスタに分類するクラスタリング機能を実行させ、適応データ算出機能は、クラスタに分類された入力音声データと認識結果教師ラベルとを用いてクラスタごとの認識誤り知識により適応データを算出するものとしてもよい(請求項7)。このようにすれば、認識誤り知識をクラスタごとに詳細に抽出しておくことが出来、クラスタリングをしない場合に比べ、効果的な標準パタン適応を行うことが出来る。
上記標準パタン適応プログラムにおいて、適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング機能と、認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出機能を実行させるようにしてもよい(請求項8)。このようにすれば、正解教師ラベルと音声認識結果を利用してクラスタごとの認識誤り知識を抽出することができる。
本発明の標準パタン適応装置は、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識部と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出部と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応部とを備えている(請求項9ないし請求項12)。
上記標準パタン適応装置によれば、適応データ算出部において、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、標準パタン適応部は、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。
上記標準パタン適応装置において、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、誤りを含まない教師ラベルからなる正解教師ラベルと認識結果ラベルとを統計分析し、認識誤り知識を算出する認識誤り知識算出部とを備えるようにしてもよい(請求項10)。このようにすれば、正解教師ラベルと音声認識結果を利用して認識誤り知識を抽出することができる。
上記標準パタン適応装置において、入力音声データおよび認識結果教師ラベルをクラスタに分類するクラスタリング部を備え、適応データ算出部は、クラスタに分類された入力音声データと認識結果教師ラベルとを用いてクラスタごとの認識誤り知識により、適応データを算出するようにしてもよい(請求項11)。このようにすれば、認識誤り知識をクラスタごとに詳細に抽出しておくことが出来、クラスタリングをしない場合に比べ、効果的な標準パタン適応を行うことが出来る。
上記標準パタン適応装置において、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング部と、認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出部とを備えるようにしてもよい(請求項12)。このようにすれば、正解教師ラベルと音声認識結果を利用してクラスタごとの認識誤り知識を抽出することができる。
本発明は下記の効果を奏する。
本発明によれば、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。
本発明の第1の実施形態の標準パタン適応システムの構成図である。 図2(a)は、図1の認識誤り知識抽出装置の動作を示すフローチャートである。図2(b)は、図1の標準パタン適応装置の動作を示すフローチャートである。 本発明の第2の実施形態の標準パタン適応システムの構成図である。 図3の抽出側クラスタリング部の構成の一例を示す図である。 図5(a)は、図3の認識誤り知識抽出装置の動作を示すフローチャートである。図5(b)は、図3の標準パタン適応装置の動作を示すフローチャートである。 従来の発明の標準パタン適応装置の構成図である。
符号の説明
1、4 認識誤り知識抽出装置
2、5 標準パタン適応装置
3、6 標準パタン適応システム
11 教師ラベル記憶部
12 音声データ記憶部
13 抽出側音声認識手段
14、23 認識誤り知識抽出手段
15 標準パタン記憶部
16 認識誤り知識記憶部
17 音声データ入力部
18 音声認識手段
19、25 適応データ算出手段
20 標準パタン適応手段
21 適応パタン記憶部
22 抽出側クラスタリング部
24 クラスタリング部
26 類似話者モデル記憶部
27 クラスタラベル算出手段
以下、図を参照しながら本発明の第1の実施形態である標準パタン適応システム3の構成と動作について説明する。図1は、標準パタン適応システム3(標準パタン適応装置の一例)のブロック図である。標準パタン適応システム3は、認識誤り知識抽出装置1と標準パタン適応装置2により構成されている。
認識誤り知識抽出装置1は、たとえばパーソナルコンピュータであり、教師ラベル記憶部11と音声データ記憶部12と抽出側音声認識手段13と認識誤り知識抽出手段14と標準パタン記憶部15と認識誤り知識記憶部16を含む。上記の各手段は、認識誤り知識抽出装置1のCPU(Central Processing Unit)に標準パタン適応プログラムを実行させて、認識誤り知識抽出装置1のハードウェアを制御することにより実現される。
標準パタン記憶部15は、たとえばハードディスク装置やメモリ等であり、事前に学習された音響モデルである標準パタンが記憶されている。標準パタンは、たとえば音声認識で一般的に用いられているHMMであり、そのモデル単位はトライフォン(三つ組み音素)やモノフォン(単音素)等である。
音声データ記憶部12はたとえばハードディスク装置やメモリ等であり、多数の発声音声の特徴量データが記憶されている。発生音声としては、標準パタンを学習したときに用いた音声データをもちいる、あるいはまたその標準パタンを用いて音声認識を行う対象のための開発用音声データを用意するなどとする。特徴量は、たとえば音声認識で一般的に用いられている音声波形データにケプストラム分析を行ったものである。音声データは、時系列で数式1で表す。
教師ラベル記憶部11は、たとえばハードディスク装置やメモリ等であり、前記音声データ記憶部12に記憶された音声データに対する正解教師ラベルが記憶されている。標準パタンとしてHMMを用いる場合は、正解教師ラベルは、音声データ記憶部12に記憶された音声データに対する正解HMMの系列であり、各時刻のモデル単位系列あるいはHMMを構成する状態系列、あるいはまたHMMを構成するガウス分布列などである。これら正解教師ラベルは、音声データに対して、たとえばビタービアルゴリズムにより最尤となる系列が選択され時刻対応付けられたものである。ビタービアルゴリズムは非特許文献1に詳細が記述されている。教師ラベルは時系列で数式2で表す。
抽出側音声認識手段13(抽出側音声認識部の一例)は、音声データ記憶部12に記憶されたデータに対して標準パタン記憶部15に記憶された標準パタンを用いて音声認識を行い、その結果を出力する。
認識誤り知識抽出手段14(認識誤り知識算出部の一例)は、音声データ記憶部12に記憶されたデータに対して、教師ラベル記憶部11に記憶された正解教師ラベルと、抽出側音声認識手段13で得られた認識結果、すなわち誤りを含んだ認識結果ラベルとを用いて統計分析し認識誤り傾向の知識を抽出し、認識誤り知識記憶部16に記憶する。
認識誤り知識記憶部16は、例えばハードディスク装置やメモリ等である。
音声認識結果から算出された誤りを含んだ認識結果ラベルは時系列で数5で表される。
Figure 2007105409
ここで、ラベルとして認識結果の一位系列を選択した場合l’(t)は時刻tでその教師ラベルがqのときq=l’(t)とあらわすものとする。
また、あるいは認識結果のM位候補まで用いた場合、時刻tの第i位候補の教師ラベルがqiなどとして数6であらわすものとする。
Figure 2007105409
ここで上付き添え字tは転置を表す(以降同様に表記する)。
認識誤り知識抽出手段14は、統計情報として例えば、数式7により、認識結果ラベルxが得られたときの正解教師ラベルyの出現する条件付確率を計算する。
Figure 2007105409
ここで
δ(y,l(t)) は時刻tのラベルl(t)がyであれば1、そうでなければ0をあらわす。
認識結果のM位候補まで用いている場合はxは数式8であらわされる。
Figure 2007105409
このようにして、認識誤り知識を抽出し記憶しておくことで、当該の標準パタンを用いた音声認識結果の誤り傾向を抽出しておくことが出来る。
標準パタン適応装置2は、たとえばパーソナルコンピュータであり、標準パタン記憶部15と認識誤り知識記憶部16と音声データ入力部17と音声認識手段18と適応データ算出手段18と標準パタン適応手段20と適応パタン記憶部21を含む。
標準パタン記憶部15および認識誤り知識記憶部16はたとえばハードディスク装置やメモリ等であり、前述の認識誤り知識抽出装置1におけるものと同じデータを記憶しておく。ただし、認識誤り知識抽出装置におけるものと同じ装置である必要はない。
音声データ入力部17では、例えば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、特徴分析された音声データを受け取ることにより、適応に用いられる音声の特徴量列(入力音声データ)を入力する。特徴量は、前述の認識誤り知識抽出装置1におけるものと同様であり、入力された音声データは数式1で表される。
音声認識手段18では、音声データ入力部17で入力された音声データに対して標準パタン記憶部15に記憶された標準パタンを用いて音声認識を行い、音声認識結果(認識結果教師ラベル)を出力する。
適応データ算出手段19では、音声データ入力部17で入力された音声データと、音声認識手段18で出力された認識結果、すなわち誤りを含んだラベルと、認識誤り知識記憶部16に記憶された認識誤り知識抽出装置1で抽出された認識誤り知識を用いて、音声認識誤りを考慮した適応データを算出する。
例えば、数式1の音声データと数式5の認識結果ラベルと数式7の認識誤り知識を用いて次の数式9と数式10で適応データを算出する。
Figure 2007105409
Figure 2007105409
u(y)はラベルyの適応に用いられる積算適応データであり、n(y)はそのデータ総数である。すなわち、入力音声データと音声認識結果を事前に抽出した認識誤り知識で補正した適応データが得られる。
また、例えばラベルyの適応に用いる補正した共分散行列を用いる場合は数式11を用いることが出来る。
Figure 2007105409
ここでm(y)はu(y)の平均値で数式12で表わされる。
Figure 2007105409
標準パタン適応手段20(標準パタン適応部の一例)では、適応データ算出手段19で得られた認識誤り知識で補正された適応用データを用いて、標準パタン記憶部15に記憶された標準パタンを適応し、適応パタン記憶部21に記憶する。
適応パタン記憶部21は、たとえばハードディスク装置やメモリ等である。標準パタンの適応方法は、例えば、教師ラベルとしてガウス分布系列を用いて、その平均ベクトルを事後確率最大化(以下、「MAP」という)適応する場合、ラベルyのガウス分布平均ベクトル、は数式13で適応される。
Figure 2007105409
ここでτは0以上の値を持つ制御定数である。
次に、標準パタン適応システム3の動作について説明する。
図2(a)は、認識誤り知識抽出装置1の動作を示すフローチャートである。抽出側音声認識手段13が音声データ記憶部12に記憶されたデータに対して標準パタン記憶部15に記憶された標準パタンを用いて音声認識を行う(S101)。
認識誤り知識抽出手段14は、教師ラベル記憶部11に記憶された正解教師ラベルとS101で得られた認識結果を用いて認識誤り知識を抽出し、認識誤り知識記憶部16に記憶する(S102)。
図2(b)は、標準パタン適応装置2の動作を示すフローチャートである。音声データ入力部17により適応に用いる音声の特徴量を入力する(S111)。
音声認識手段18は、この入力データに対して標準パタン記憶部15に記憶された標準パタンを用いて音声認識を行い、認識結果を適応データ算出手段19に出力する(S112)。
適応データ算出手段19は、S111で入力された音声データとS112で得られた認識結果とS102で得られた認識誤り知識を用いて、音声認識誤りを補正した適応データを算出する(S113)。
標準パタン適応手段20は、S113で得られた適応データを用いて標準パタンを適応し、適応パタンを適応パタン記憶部21に記憶する(S114)。
適応データ算出手段19により算出された適応データは、入力音声データの音声認識結果と、事前に抽出された音声認識誤り知識を用いて補正を行った適応データであるため、これを用いて標準パタンの適応を行うと、認識結果が正解であったデータのみでなく、認識結果が誤っていたデータを認識誤り知識で補正して用いることができ、そのため入力音声データの情報を十分に利用し、かつもとの標準パタンの認識性能が低いときも誤り知識を利用することにより効果的に標準パタンの適応を行うことが出来る。
また本発明では、適応データ算出手段19において、補正された適応データは各ラベルに対する適応データという形式で算出されるため、標準パタン適応手法への制限は小さく、標準パタン適応技術として用いられている既存の手法、すなわちMAP適応だけでなく、MLLR適応、AMCC適応、EigenVoice適応、HEV適応などを用いることが出来る。これらの適応手法の詳細は、非特許文献2と非特許文献3に記載されている。
次に、本発明の第2の発明の実施形態である標準パタン適応システム6について図面を参照して詳細に説明する。標準パタン適応システム6の構成は、図1の標準パタン適応システム3と多くの部分が共通するので、共通する部分については図面に図1と同じ符号を付して説明を省略する。
図3は、標準パタン適応システム6のブロック図である。標準パタン適応システム6は、認識誤り知識抽出装置4と、標準パタン適応装置5により構成される。認識誤り知識抽出装置4と標準パタン適応装置5の基本的な構成は、図1の場合と同様であるが、抽出側クラスタリング部22とクラスタリング部24をそれぞれ備えている点が異なっている。
抽出側クラスタリング部22は、数式1の音声データと数式2の教師ラベルと数式5の認識結果ラベルに時間対応付けされた数式14のクラスタラベルを算出することによりクラスタに分類する。
Figure 2007105409
クラスタラベルは、例えばクラスタリングとして、音声認識結果から推定した発話速度を用いる場合には、単位時間当たりのモーラ数を算出し各時刻tごとに並べたものである。さらに連続値である発話速度推定値を離散化してクラスタラベルとすることも出来る。あるいは、抽出側クラスタリング部22を図4に示す構成にして類似話者にクラスタリングすることもできる。この場合は、事前に多数話者の音声データを各話者ごとに正規分布でモデル化しておき、それら正規分布間の距離を指標とし類似の話者ごとにK-平均法などでクラスタリングしておく。ここで正規分布間距離は、例えば数式15のバタチャリヤ距離を用いる。
Figure 2007105409
ここでNは正規分布でその平均ベクトルがμ1、共分散行列がΣ1などである。またK-平均法は、非特許文献1に詳細が記述されている。
類似話者にクラスタリングされた各類似話者クラスのデータごとに、単一の正規分布あるいは正規分布の重み付和である混合正規分布などで各話者クラスのデータをモデル化した類似話者モデルが図4の類似話者モデル記憶部26に記憶される。クラスタラベル算出部27では、数式1の入力音声データのたとえば各時刻ごと、あるいは発声ごとなどで、前記類似話者モデル記憶部26に記憶された類似話者モデルとのスコアを求め最も類似度が高かった類似話者モデルをクラスタラベルとする。
例えば類似話者モデルとして、単一の正規分布あるいは混合正規分布などをもちいた場合は、音声データに対する尤度をスコアとして用いる。あるいはまた、音声認識結果信頼度でクラスタリングする。例えば、M位までの音声認識結果ラベルを用いて一位結果ラベルの事後確率を用いる。
ある時刻のM位までの認識結果ラベルが数式8であらわされ、それらの対数尤度が数式16であらわされるとすると、
Figure 2007105409
音声認識の1位結果の信頼度は数式17で表され、これをクラスタラベルとする。
Figure 2007105409
さらに連続値である音声認識結果信頼度を離散化してクラスタラベルとすることも出来る。あるいはまた、発話速度、類似話者、音声認識信頼度など複数の条件を組み合わせてクラスラベルとして用いることも出来る。
認識誤り知識抽出手段23は、図1と同様であるが、誤り知識抽出動作を各クラスタラベルごとに行う。すなわち、音声認識誤り知識は各クラスタkごとの知識として例えば数式18に変更される。
Figure 2007105409
クラスタリング部24は、上記の抽出側クラスタリング部22と同じ動作を行う。適応データ算出手段25は、認識誤り知識記憶部16に記憶されたクラスタごとに抽出された音声認識誤り知識を用い、図1の適応データ算出手段19と同様の動作を行う。すなわち音声データ入力部17で入力された適応データは、数式5の認識結果ラベルおよび、数式14のクラスタラベルから、数式18のクラスタごとの認識誤り知識を用いて補正される。
次に、標準パタン適応システム6の動作について説明する。図5(a)は、認識誤り知識抽出装置4の動作を示すフローチャートである。抽出側音声認識手段13が音声データ記憶部12に記憶されたデータに対して標準パタン記憶部15に記憶された標準パタンを用いて音声認識を行う(S121)。
抽出側クラスタリング部22は、音声データとS121で生成した音声認識結果をクラスタに分類する(S122)。具体的には、音声データと教師ラベルと認識結果ラベルに時間対応付けされたクラスタラベルを算出する。
認識誤り知識抽出手段23は、誤り知識抽出動作をクラスタラベルごとに行う(S123)。すなわち、音声認識誤り知識はクラスタごとの知識として、例えば数式18に示すものを算出する。
図5(b)は、標準パタン適応装置5の動作を示すフローチャートである。音声データ入力部17により適応に用いる音声の特徴量を入力する(S131)。
音声認識手段18は、この入力データに対して標準パタン記憶部15に記憶された標準パタンを用いて音声認識を行い、認識結果を適応データ算出手段25に出力する(S132)。
クラスタリング部24は、音声データとS131で生成した音声認識結果をクラスタに分類する(S133)。
適応データ算出手段25は、S131で入力された音声データとS132で得られた認識結果とS133で得られたクラスタごとの認識誤り知識を用いて、音声認識誤りを補正した適応データを算出する(S134)。
標準パタン適応手段20は、S134で得られた適応データを用いて標準パタンを適応し、適応パタンを適応パタン記憶部21に記憶する(S135)。
標準パタン適応システム6では、音声認識誤り知識が、発話速度や話者性や認識結果信頼度などでクラスタリングされより詳細に抽出される。これにより適切に適応データの補正が行われるため、標準パタン適応が効果的となる。
本発明によれば、使用者に意識させずに声の特徴に音声認識用標準パタンを適応させ、音声認識性能を向上させる、音声認識装置や音声認識装置をコンピュータに実現するためのプログラムといった用途に適応できる。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲(クレーム)の枠内において、種々の開示要素の多様な組み合わせないし選択が可能である。

Claims (12)

  1. 入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識工程と、
    前記入力音声データと前記認識結果教師ラベルを、前記標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出工程と、
    前記適応データを用いて前記標準パタンを適応して適応パタンを生成する標準パタン適応工程とを備えたことを特徴とした標準パタン適応方法。
  2. 前記適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、
    誤りを含まない教師ラベルからなる正解教師ラベルと前記認識結果ラベルとを統計分析し、前記認識誤り知識を算出する認識誤り知識算出工程とを備えたことを特徴とした請求項1に記載の標準パタン適応方法。
  3. 前記入力音声データおよび前記認識結果教師ラベルをクラスタに分類するクラスタリング工程を備え、
    前記適応データ算出工程では、前記クラスタに分類された前記入力音声データと前記認識結果教師ラベルとを用いて前記クラスタごとの前記認識誤り知識により前記適応データを算出することを特徴とした請求項1に記載の標準パタン適応方法。
  4. 前記適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、
    前記音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング工程と、
    前記認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、前記認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出工程とを備えたことを特徴とした請求項3に記載の標準パタン適応方法。
  5. コンピュータに、
    入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識機能と、
    前記入力音声データと前記認識結果教師ラベルを、前記標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出機能と、
    前記適応データを用いて前記標準パタンを適応して適応パタンを生成する標準パタン適応機能とを実行させることを特徴とした標準パタン適応プログラム。
  6. 前記適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、
    誤りを含まない教師ラベルからなる正解教師ラベルと前記認識結果ラベルとを統計分析し、前記認識誤り知識を算出する認識誤り知識算出機能とを実行させることを特徴とした請求項5に記載の標準パタン適応プログラム。
  7. コンピュータに、
    前記入力音声データおよび前記認識結果教師ラベルをクラスタに分類するクラスタリング機能を実行させ、
    前記適応データ算出機能は、前記クラスタに分類された前記入力音声データと前記認識結果教師ラベルとを用いて前記クラスタごとの前記認識誤り知識により前記適応データを算出するものであることを特徴とした請求項5に記載の標準パタン適応プログラム。
  8. 前記適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、
    前記音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング機能と、
    前記認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、前記認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出機能を実行させることを特徴とした請求項7に記載の標準パタン適応プログラム。
  9. 入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識部と、
    前記入力音声データと前記認識結果教師ラベルを、前記標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出部と、
    前記適応データを用いて前記標準パタンを適応して適応パタンを生成する標準パタン適応部とを備えたことを特徴とした標準パタン適応装置。
  10. 音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、
    誤りを含まない教師ラベルからなる正解教師ラベルと前記認識結果ラベルとを統計分析し、前記認識誤り知識を算出する認識誤り知識算出部とを備えたことを特徴とした請求項9に記載の標準パタン適応装置。
  11. 前記入力音声データおよび前記認識結果教師ラベルをクラスタに分類するクラスタリング部を備え、
    前記適応データ算出部は、前記クラスタに分類された前記入力音声データと前記認識結果教師ラベルとを用いて前記クラスタごとの前記認識誤り知識により、前記適応データを算出することを特徴とした請求項9に記載の標準パタン適応装置。
  12. 音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、
    前記音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング部と、
    前記認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、前記認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出部とを備えたことを特徴とした請求項11に記載の標準パタン適応装置。
JP2008505010A 2006-02-27 2007-02-16 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム Withdrawn JPWO2007105409A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006050152 2006-02-27
JP2006050152 2006-02-27
PCT/JP2007/052865 WO2007105409A1 (ja) 2006-02-27 2007-02-16 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム

Publications (1)

Publication Number Publication Date
JPWO2007105409A1 true JPWO2007105409A1 (ja) 2009-07-30

Family

ID=38509247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008505010A Withdrawn JPWO2007105409A1 (ja) 2006-02-27 2007-02-16 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム

Country Status (4)

Country Link
US (1) US8762148B2 (ja)
JP (1) JPWO2007105409A1 (ja)
CN (1) CN101390156B (ja)
WO (1) WO2007105409A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5308102B2 (ja) * 2008-09-03 2013-10-09 日本電信電話株式会社 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
US20110224985A1 (en) * 2008-10-31 2011-09-15 Ken Hanazawa Model adaptation device, method thereof, and program thereof
JP5704071B2 (ja) * 2009-07-16 2015-04-22 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
JP5749186B2 (ja) * 2012-02-06 2015-07-15 日本電信電話株式会社 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
US20150007064A1 (en) * 2013-06-27 2015-01-01 Kobo Incorporated Automatic generation of a webpage layout with high empirical performance
JP6857581B2 (ja) * 2017-09-13 2021-04-14 株式会社日立製作所 成長型対話装置
CN110443503A (zh) * 2019-08-07 2019-11-12 成都九鼎瑞信科技股份有限公司 水务系统工业总产值分析模型的训练方法及相关系统

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63229496A (ja) * 1987-03-18 1988-09-26 株式会社リコー 音声認識用パタ−ン更新方式
JPH02230198A (ja) * 1989-03-02 1990-09-12 Nec Corp 音声認識方式
JP2692581B2 (ja) * 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
JP3008799B2 (ja) * 1995-01-26 2000-02-14 日本電気株式会社 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
JP2751856B2 (ja) * 1995-02-03 1998-05-18 日本電気株式会社 木構造を用いたパターン適応化方式
JPH09114482A (ja) * 1995-10-17 1997-05-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識のための話者適応化方法
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
JP3412496B2 (ja) * 1998-02-25 2003-06-03 三菱電機株式会社 話者適応化装置と音声認識装置
DE69829187T2 (de) * 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
EP1197949B1 (en) * 2000-10-10 2004-01-07 Sony International (Europe) GmbH Avoiding online speaker over-adaptation in speech recognition
EP1205906B1 (en) * 2000-11-07 2003-05-07 Telefonaktiebolaget L M Ericsson (Publ) Reference templates adaptation for speech recognition
EP1239459A1 (en) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Adaptation of a speech recognizer to a non native speaker pronunciation
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US7031918B2 (en) * 2002-03-20 2006-04-18 Microsoft Corporation Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
US20030191639A1 (en) * 2002-04-05 2003-10-09 Sam Mazza Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US20050256714A1 (en) * 2004-03-29 2005-11-17 Xiaodong Cui Sequential variance adaptation for reducing signal mismatching
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法

Also Published As

Publication number Publication date
US20090012791A1 (en) 2009-01-08
WO2007105409A1 (ja) 2007-09-20
US8762148B2 (en) 2014-06-24
CN101390156B (zh) 2011-12-07
CN101390156A (zh) 2009-03-18

Similar Documents

Publication Publication Date Title
US11145293B2 (en) Speech recognition with sequence-to-sequence models
US8515758B2 (en) Speech recognition including removal of irrelevant information
Stolcke et al. Speaker recognition with session variability normalization based on MLLR adaptation transforms
Diez et al. Analysis of speaker diarization based on Bayesian HMM with eigenvoice priors
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US20090119103A1 (en) Speaker recognition system
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
Lu et al. Acoustic data-driven pronunciation lexicon for large vocabulary speech recognition
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
Mao et al. Automatic training set segmentation for multi-pass speech recognition
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
Lugosch et al. DONUT: CTC-based query-by-example keyword spotting
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
Herbig et al. Self-learning speaker identification for enhanced speech recognition
Aradilla Acoustic models for posterior features in speech recognition
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
US9892726B1 (en) Class-based discriminative training of speech models
Crammer Efficient online learning with individual learning-rates for phoneme sequence recognition
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Zhang et al. Rapid speaker adaptation in latent speaker space with non-negative matrix factorization
Furui Generalization problem in ASR acoustic model training and adaptation
Herbig et al. Simultaneous speech recognition and speaker identification

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100511