JP5240457B2 - 拡張認識辞書学習装置と音声認識システム - Google Patents

拡張認識辞書学習装置と音声認識システム Download PDF

Info

Publication number
JP5240457B2
JP5240457B2 JP2008554032A JP2008554032A JP5240457B2 JP 5240457 B2 JP5240457 B2 JP 5240457B2 JP 2008554032 A JP2008554032 A JP 2008554032A JP 2008554032 A JP2008554032 A JP 2008554032A JP 5240457 B2 JP5240457 B2 JP 5240457B2
Authority
JP
Japan
Prior art keywords
utterance
recognition dictionary
deformation
recognition
utterance deformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008554032A
Other languages
English (en)
Other versions
JPWO2008087934A1 (ja
Inventor
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008554032A priority Critical patent/JP5240457B2/ja
Publication of JPWO2008087934A1 publication Critical patent/JPWO2008087934A1/ja
Application granted granted Critical
Publication of JP5240457B2 publication Critical patent/JP5240457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

本発明は、拡張認識辞書学習装置と音声認識システムに関し、特に発声変形を含む音声に対し、認識辞書を拡張し性能を向上できる拡張認識辞書学習装置とこれを利用した音声認識システムに関する。
本発明に関連する音声認識システムの一例が、特許文献1、非特許文献1に記載されている。
図7に示すように、この関連技術の音声認識システムは、音声入力部501と、発声ラベル入力部502と、音響モデル記憶部503と、認識辞書記憶部504と、音声認識手段505と、発声変形データ算出手段506と、発声変形データ記憶部507と、認識辞書拡張手段508と、拡張認識辞書記憶部509と、音声入力部510と、音声認識手段511と、認識結果出力部512とから構成されている。
このような構成を有する関連技術の音声認識システムは次のように動作する。
まず話者pの拡張認識辞書を学習するために、音声入力部501から話者pの学習音声を入力し、音響モデル記憶部503に記憶された音響モデルと、認識辞書記憶部504に記憶された認識辞書とを用いて、音声認識手段505で認識する。また、音声認識手段505で出力された認識結果音素列と、発声ラベル入力部502から入力された、話者pの学習音声に対する正解の音素列を並べた発声ラベルを比較し、正解音素列と認識結果音素列の対応を、発声変形データ算出手段506で算出し、発声変形データ記憶部507に記憶する。さらに、認識辞書拡張手段508において、認識辞書記憶部504に記憶された認識辞書に含まれる単語の標準の音素列を、発声変形データ記憶部507に記憶された、発声変形の音素列で置き換え、複数の音素列を含んだ拡張認識辞書を生成し、拡張認識辞書記憶部509に記憶する。
次に話者pの音声を認識する際には、音声入力部501から入力した話者pの音声を、音響モデル記憶部503に記憶された音響モデルと、拡張認識辞書記憶部509に記憶された、話者pの発声変形を学習した拡張認識辞書を用いて、音声認識手段511で認識し、認識結果出力部512から認識結果を出力する。
特開平8−123470号公報 脇田、外2名、「複数音素にまたがる誤認識特性を用いた音素候補系列追加モデル」、電子情報通信学会論文誌、D−II、Vol.J79−D−II、No.12、p.2086−2095、1996年12月 麻生秀樹著、「パターン認識と学習の統計学:第I部 パターン認識と学習」、岩波書店、2003年、p.58−61 長尾、他5名著、「文字と音の情報処理」、岩波書店、2000年1月、p34−35 Jonathan G. Fiscus, "A Post-Processing System to Yield Reduced Word Error Rates: Recognizer Output Voting Error Reduction (ROVER)", Proc. IEEE ASRU Workshop, p.437-352, 1997
関連技術の問題点は、拡張認識辞書を用いての認識が、音声認識システムを新しく使用する話者には適用できないということである。その理由は、事前に使用する話者の拡張認識辞書を学習しておく必要があり、その際、使用する話者の音声と対応する発声ラベルを使用するためである。
本発明の目的は、新たに使用する話者に対しても、その話者の音声と対応する発声ラベルを事前に使用して学習しておく必要なしに、その話者に適した、拡張認識辞書を用いての認識を可能とすることである。
上記目的を達成するため、本発明に係る拡張認識辞書学習装置は、音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する発声変形データ分類手段と、分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、を有することを特徴とする。
また、本発明に係る音響認識システムは、上記の拡張認識辞書学習装置を利用したことを特徴とする。
本発明によれば、新たに使用する話者に対しても、その話者の音声と対応する発声ラベルを事前に使用して学習しておく必要なしに、その話者に適した、拡張認識辞書を用いての認識を可能とすることができる。
本発明の実施例の拡張認識辞書学習装置を用いた音声認識システムの構成図である。 本発明の実施例における、発声変型データ分類手段および認識辞書拡張手段の構成図である。 本発明の実施例における、発声変形データの一例を示す図である。 本発明の実施例における、発声変形のtfidf値の一例を示す図である。 本発明の実施例における、認識辞書拡張規則の一例を示す図である。 本発明の実施例における、各発声変形集合での拡張認識辞書における発声変形の一例を示す図である。 関連技術の音声認識装置の構成図である。
符号の説明
100 拡張認識辞書学習装置
110 音声入力部
111 発声ラベル入力部
112 音響モデル記憶部
113 認識辞書記憶部
114 音声認識手段
115 発声変形データ算出手段
116 発声変形データ記憶部
117 発声変形データ分類手段
118 認識辞書拡張手段
119 拡張認識辞書記憶部
120 音声認識装置
121 音声入力部
122 音声認識手段
123 認識結果出力部
131 idf値・tfidf値算出手段
132 発声変形ベクトル
133 発声変形ベクトルクラスタリング手段
141 idf発声変形ベクトル
142 クラスタ発声変形ベクトル
151 発声変形ベクトル統合手段
152 発声変形集合
153 認識辞書拡張手段
154 認識辞書拡張規則
501 音声入力部
502 発声ラベル入力部
503 音響モデル記憶部
504 認識辞書記憶部
505 音声認識手段
506 発声変形データ算出手段
507 発声変形データ記憶部
508 認識辞書拡張手段
509 拡張認識辞書記憶部
510 音声入力部
511 音声認識手段
512 認識結果出力部
次に、本発明の実施の形態について図面を参照して詳細に説明する。
本実施形態の拡張認識辞書学習システムは、音声入力部と、発声ラベル入力部と、音響モデル記憶部と、認識辞書記憶部と、音声認識手段と、発声変形データ算出手段と、発声変形データ記憶部と、発声変形データ分類手段と、認識辞書拡張手段と、拡張認識辞書記憶部とから構成されている。
音声認識手段は、音響モデル記憶部に保持されている音響モデルと、認識辞書記憶部に保持されている認識辞書とを用いて、音声入力部から入力される学習音声を音声認識する。
発声変形データ算出手段は、発声ラベル入力部から入力される、学習音声に対する正解の音素列を並べた発声ラベルと、音声認識手段による音声認識結果の音素列とを比較して、正解音素列と認識結果音素列の対応を発声変形データとして算出し、算出された発声変形データを発声変形データ記憶部に記憶する。
発声変形データ分類手段は、記憶した発声変形データにおいて、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類する。
認識辞書拡張手段は、それらの発声変形を組み合わせて発声変形集合とし、システムが保持している認識辞書に含まれる単語の標準音素列を、発声変形の音素列で置き換え、複数の音素列を含む拡張認識辞書を、発声変形集合ごとに生成する。
これにより、学習音声に広く出現する発声変形および偏って出現する発声変形を組み合わせた、発声変形集合ごとの拡張認識辞書を学習しておくことができる。
また、新たな話者の音声に対して、システムが保持している音響モデルと、前述の学習した発声変形集合ごとの拡張認識辞書を用いて、新たな話者の音声に適した認識辞書を選択することにより認識結果を出力する。これにより、新たな話者の事前の学習の必要なしに、拡張認識辞書を使用して認識結果を取得可能となる。
本実施の形態によれば、次のような効果が得られる。
第1の効果は、発声変形集合ごとに複数の拡張認識辞書を学習しておくことが可能なことである。その理由は、多様な発声を含む学習音声から、学習音声に広く出現する発声変形と、偏って出現する発声変形を分類し、それらの発声変形を組み合わせて発声変形集合として、それぞれに拡張認識辞書を学習するためである。
第2の効果は、新たな話者に対してその話者の事前学習を行う必要なしに、拡張認識辞書を使用して認識結果を取得することが可能なことである。その理由は前述の拡張認識辞書学習システムを用いて学習された、発声変形集合ごとの拡張認識辞書を用いて、新たな話者の音声に適した拡張認識辞書を選択することにより認識結果を出力するためである。
図1は、本実施例による拡張認識辞書学習装置を用いた音声認識システムの全体構成のブロック図である。
同図に示す音声認識システムは、学習音声に広く出現する発声変形および偏って出現する発声変形を組み合わせた発声変形集合ごとの複数の拡張認識辞書を学習する拡張認識辞書学習装置100と、拡張認識辞書学習装置100により学習された発声変形集合ごとの複数の拡張認識辞書を用いて話者の音声を認識する音声認識装置120とを有する。
拡張認識辞書学習装置100は、たとえばパーソナルコンピュータ等の電子計算機で構成され、音声入力部110と、発声ラベル入力部111と、音響モデル記憶部112と、認識辞書記憶部113と、音声認識手段114と、発声変形データ算出手段115と、発声変形データ記憶部116と、発声変形データ分類手段117と、認識辞書拡張手段118と、拡張認識辞書記憶部119とから構成されている。
音声入力部110は、学習音声を入力する、たとえば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、音声データを受け取るプログラムである。
発声ラベル入力部111は、学習音声に対応する発声ラベルを入力する、たとえば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、発声ラベルデータを受け取るプログラムである。
音響モデル記憶部112は、たとえばハードディスク装置やメモリなどであり、音声認識に用いる音響モデルが記憶されている。
認識辞書記憶部113は、たとえばハードディスク装置やメモリなどであり、音声認識に用いる認識辞書が記憶されている。
音声認識手段114は、入力された学習音声を、音響モデル記憶部112に記憶されている音響モデルと、認識辞書記憶部113に記憶されている認識辞書を用い、音声認識を行い、認識結果を出力する処理を、たとえばコンピュータに実行させるプログラムである。
発声変形データ算出手段115は、音声認識手段114で出力された認識結果と、入力された学習音声に対応する、発声ラベルとを比較して、それらの対応を算出し、発声変形データ記憶部116に記憶する処理を、たとえばコンピュータに実行させるプログラムである。
発声変形データ記憶部116は、たとえばハードディスク装置やメモリなどである、前述の発声変形データ算出手段115によって算出された、発声変形データを記憶する。
ここで、発声変形データを、話者性に着目し、また近年の音声認識システムで一般的に用いられている音響モデルの単位である、三つ組み環境依存音素、すなわちトライフォンで算出する場合について説明する。
入力される学習音声は、N人の話者の発声を用いる。音声認識手段114で、入力される学習音声の各フレームごとにトライフォンの系列を出力する。発声ラベルは、学習発声に対応した正解トライフォン系列を入力し、発声変形データ算出手段115において、正解のトライフォン系列と、認識結果のトライフォン系列を、学習音声のフレームごとに並べて比較することにより、それぞれの対応をとり、標準形と変形の各パターンについて出現フレーム数をカウントして、話者ごとに発声変形データとして、発声変形データ記憶部116に記憶する。図3に話者pの発声変形データの例を示す。図3では、話者pの発声変形データは、標準形及びこれに対応する発声変形の各パターンと、その出現数とから構成されている。
ここで、話者性に着目したが、これは話者だけでなく、発声速度、発話者の年齢、音声対雑音比、など別の観点あるいはそれらの組み合わせでN個にグループ化したものを入力することにより、本実施例は同様に実行可能である。
また、トライフォンは、より多数の環境に依存した音素あるいは環境非依存音素、あるいは音節、単語といった単位、さらに、音響モデルを隠れマルコフモデルで表現した場合の状態系列と言った単位に置き換えることにより、本実施例は同様に実行可能である。
発声変形データ分類手段117は、発声変形データ記憶部116に記憶された、発声変形データから、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類する処理をたとえばコンピュータに実行させるプログラムである。
認識辞書拡張手段118は、認識辞書記憶部113に記憶されている認識辞書を、前記、発声変形データ分類手段117において分類した発声変形を組み合わせた発声変形集合ごとに、発声変形で置き換え、複数の音素列を含んだ拡張認識辞書を発声変形集合ごとに生成し、拡張認識辞書記憶部119に記憶する処理を、たとえばコンピュータに実行させるプログラムである。
図2は、発声変形データ分類手段117及び認識辞書拡張手段118の各々の詳細を説明するものである。
発声変形データ分類手段117は、発声変形の分類を次のように実施する。
まず、発声変形データ分類手段117は、発声変形データ記憶部116に記憶された、話者ごとの発声変形データに対し、idf値・tfidf値算出手段131において、発声変形のidf(inverse document frequency:文書頻度の逆数)値およびtfidf値(後述参照)を算出する。
発声変形のidf値に対応するidf(X)は、次式(数4)で表される。
Figure 0005240457
ここで、Xは発声変形を表し、Nは話者数、dnum(X)は、発声変形Xが、N個の各話者の発声変形データのうち幾つに現れたかを表す。idf値が小さいほど多くの話者に見られる発声変形であることが表現される。
idf値・tfidf値算出手段131は、発声変形データ記憶部116に出現する発声変形を各ベクトルの次元とし、前記idf値をその次元の値として、idf発声変形ベクトル141を算出する。
発声変形のtfidf値に対応するtfidf(X、p)は、次式(数5)で表されるtf(term frequency:語頻度)値に対応するtf(X、p)と、前記idf値に対応するidf(X)とを掛けた値であり、次式(数6)で表される。
Figure 0005240457
Figure 0005240457
ここで、tnum(X,p)は、話者pの発声変形データにおいて発声変形Xが出現したフレームのカウント数であり、frame(p)は話者pの学習発声のフレーム数である。tf値が大きいほど話者pの発声変形データ中にその発声変形が出現する回数が大きく、またidf値が大きいほどその発声変形が、ほかの話者には出現している頻度が小さいことを表す。このためtfidf値が大きいほど、発声変形Xが偏って出現していることが表現される。
このように、発声変形データ分類手段117は、idf値・tfidf値算出手段131により、各話者の発声変形のtfidf値を算出する(発声変形ベクトル132)。
図4に話者pの発声変形のtfidf値の例を示す。図4では、話者pの発声変形データは、標準形及びこれに対応する発声変形の各パターンと、そのtfidf値とから構成されている。
次に発声変形データ分類手段117は、発声変形ベクトルクラスタリング手段133において、発声変形ベクトル132のクラスタリングを行う。たとえば、各話者の発声変形とそのtfidf値を用いて、類似度を示すdist(p1,p2)を次式(数7)で定義する。
Figure 0005240457
ここで、y1は話者p1の発声変形のベクトルであり、各ベクトルの次元は存在しうる発声変形すべてで、その値は前記tfidf値である。学習音声中に出現しなかった発声変形の次元に対する値は0となる。y2は話者p2に対して同様に定義される。
この類似度に基づいて、クラスタ間距離をクラスタメンバ間距離の最も遠いものとして、クラスタ間距離が近いものを順次併合する作業をボトムアップに階層的に繰り返す。これをL個のクラスタ数となるまで繰り返すことにより、発声変形ベクトル132のクラスタリングを実行する。その詳細は、非特許文献2に記載されている。
発声変形ベクトルクラスタリング手段133は、各クラスタリングの発声変形ベクトルの中心をクラスタの発声変形ベクトルとし、L個のクラスタごとの発声変形ベクトル142を算出する。なお、これ以外にも、K−平均法(非特許文献2参照)など他のクラスタリング手法を同様に適用できる。
以上の手続きにより、idf発声変形ベクトル141においてidf値が予め設定された基準値(閾値)よりも小さい発声変形を抽出することにより、学習音声において、多くの話者に共通に出現する発声変形(複数の話者に亘って広く出現する発声変形)を得ることができる。また、クラスタ発声変形ベクトル142において、それぞれのクラスタからtfidf値が予め設定された基準値(閾値)よりも大きい発声変形を抽出することにより、学習音声において偏って出現する発声変形(特定の話者に偏って出現する発声変形)をL個に分類して取得することができる。
なお、tfidf値は文書中の単語の頻度を用いて文書間の類似度を測定するのに用いられ、たとえば非特許文献3に詳細が記載されている。
認識辞書拡張手段118は、認識辞書記憶部113に記憶された認識辞書に含まれる単語の標準音素列を、発声変形データ分類手段117で分類された、学習音声に対し広く出現する発声変形と偏って出現する発声変形を組み合わせた発声変形集合ごとに、発声変形の音素列で置き換え複数の音素列を含んだ拡張認識辞書を生成する。
認識辞書拡張手段118は、認識辞書拡張を次のように実施する。
認識辞書拡張手段118は、発声変形データ分類手段117において算出した、idf発声変形ベクトル141、およびクラスタ1〜Lの発声変形ベクトル142を用いて、発声変形ベクトル統合手段151において、それぞれの発声変形を組み合わせM個の発声変形集合ごとの発声変形ベクトル152を算出する。
発声変形集合の一つとして、idf発声変形ベクトルにおいて値が小さいj個の発声変形を含む集合とすることにより、話者によらず広く出現する学習音声における共通の発声変形集合として生成することができる。
あるいはまた、idf発声変形ベクトルにおいて値が小さいq個の発声変形と、各クラスタの発声変形r個を組み合わせることにより、それぞれq+r個の発声変形をもつL個の発声変形集合を生成することができる。このようにして、M個の発声集合を算出する(発声変形ベクトル152)。
たとえば、共通の発声変形集合と、L個の発声変形集合を共に用いて、M=L+1個の発声変形集合を用いる。
次に認識辞書拡張手段153において、認識辞書記憶部113に記憶されている認識辞書に含まれる単語の標準音素を、M個の発声変形集合に含まれる発声変形でそれぞれ置き換えることにより、M個の拡張認識辞書を生成する。
ここで、学習音声の発声変形データをトライフォンの対で算出した場合、それぞれの発声変形においてもトライフォンの対で記述されている。この場合、環境依存音素を用いているため、単純な置き換えでは変形後の音素列が日本語として成立し得ない発声変形が含まれることとなる。このため、認識辞書拡張規則154に記憶されている、認識辞書拡張規則を用いて置き換え後の音素並びが日本語として成立するように制限を加える。
認識辞書拡張規則154の一例を図5に示す。図5では、10個の規則、すなわち(1)子音の欠落、(2)子音の挿入、(3)子音の置換、(4)母音の欠落、(5)母音の挿入、(6)母音の置換、(7)促音の欠落、(8)促音の挿入、(9)撥音の欠落、(10)撥音の挿入が例示されている。
ここで、認識辞書中の単語「おんせー(音声)」の変形を考え、標準形として“おんせー:oNsee”が登録されているとする。この場合、発声変形として、”s−e+e −> s−u+e”が存在した場合には、図5の規則に示す(5)母音の挿入に該当するため、”おんすえー:oNsuee”が拡張認識辞書に追加される。一方、発声変形として、”s−e+e −> sy−u+u”が存在した場合は、周囲音素に整合した置き換えを行うことができないため、図5の規則に該当する項目はなく、拡張認識辞書への追加は行われない。
本実施例により得られた発声変形辞書拡張の一例を図6に示す。図6において、標準形「おんせー」に対し、3つの発声変形集合1〜3の発声変形辞書を作成し、それぞれの辞書に発声変形が含まれる場合を○、含まれない場合を×で示している。図6の例では、発声変形「おんせん」、「おんせ」が各発声変形集合1〜3の全てに共通に出現しているのに対し、その他の発声変形「おんせんえ」、「おんすえー」、「おんせーえ」は各発声変形集合1〜3の1つ又は2つに偏って出現していることがわかる。
以上の手続きにより、発声変形集合ごとの発声変形を含む拡張認識辞書を学習しておくことが可能となる。
なお、この認識辞書拡張規則を用いた発声変形の制限を発声変形データ算出手段に適応することにより、発声変形データ記憶部に記憶する記憶容量を削減することができ、また、発声変形データ分類手段において、発声変形が多岐に渡ることから生じる、発声変形ベクトル空間のスパースネスによるクラスタリング精度の劣化を防ぐことができる。
以上の手続きにおいて、発声変形集合として前述のM=L+1個を用い、拡張認識辞書を作成する実施例によれば、全ての拡張認識辞書に、広く学習データに現れる発声変形q個が含まれており、新規話者においても出現する発声変形に適応される。
また、拡張認識辞書における発声変形は数が多くなりすぎると、同音や類似音声の単語が増えて認識精度の劣化を引き起こすが、L個の拡張認識辞書それぞれに分けて、学習データに偏って出現する発声変形を含めているため、一つの拡張認識辞書に含まれる発声変形の数が多くなりすぎる問題を回避できる。
また、広く学習データに現れる発声変形をj個(q<jとする)含む、1つの発声変形集合を用いた拡張認識辞書を作成しておくことにより、新規話者の発声変形が、学習した発声変形の偏りとのずれが大きい場合にも、広く現れる発声変形の数をより多く使用して作成された、本拡張認識辞書により、ずれの影響を軽減することが期待できる。
音声認識装置120は、たとえばパーソナルコンピュータ等の電子計算機で構成され、音声入力部121と、音響モデル記憶部112と、拡張認識辞書記憶部119と、音声認識手段122と、認識結果出力部123とを有している。
音声認識手段122は、音声入力部121により入力された音声を、音響モデル記憶部112に記憶されている音響モデルと、拡張認識辞書記憶部119に記憶されている、前述の拡張認識辞書学習装置100で学習された、拡張認識辞書を用いて、適切な認識辞書を選択することにより、認識結果出力部123から認識結果を出力する。
音声認識手段122による認識辞書選択の実施例を次に示す。
音声認識手段122は、拡張認識辞書記憶部119に記憶された認識辞書それぞれを用いて、複数の認識結果候補を出力し、複数の認識結果候補から多数決法により最終認識結果を選抜するROVER法を用いる。ROVER法の詳細は非特許文献4に記載されている。
あるいはまた、音声認識手段122は、拡張認識辞書記憶部119に記憶された認識辞書それぞれを用いて、複数の認識結果候補およびそれらのスコアもしくは信頼度を出力し、スコアもしくは信頼度の最もよかった結果を最終認識結果として出力する。
あるいはまた、音声認識手段122は、発声変形データ分類手段117で分類した話者の音声を用いて、M個の混合ガウス分布を学習し、認識対象の音声に対するM個の混合ガウス分布のスコアを算出し、最もスコアのよかった分類に対応する、拡張認識辞書を用いて音声認識を行い、認識結果を出力する。
以上の手続きにより、新たな話者の音声が入力された場合にも、学習しておいた拡張認識辞書の中から適したものを選択して、発声変形を含む認識辞書を使用して、認識結果を取得することが可能となる。
以上、本発明の実施例を詳細に説明したが、本発明は、代表的に例示した上述の実施例に限定されるものではなく、当業者であれば、特許請求の範囲の記載内容に基づき、本発明の要旨を逸脱しない範囲内で種々の態様に変形、変更することができる。これらの変形例や変更例も本発明の権利範囲に属するものである。
例えば、本実施例に係る拡張認識辞書学習装置を用いた音声認識システムを構成する各手段の少なくとも一部の機能を、プログラムコードを用いて実現する場合、かかるプログラムコード及びこれを記録する記録媒体は、本発明の範疇に含まれる。この場合、オペレーティングシステムやアプリケーションソフト等の他のソフトウェアと共同して上記機能が実現される場合は、それらのプログラムコードも含まれる。
以下、その他の実施形態について説明する。
本発明の第2の実施形態において、前記発声変形データ分類手段は、前記発声変形データのidf値を用いて、前記発声変形データにおいて広く出現する発声変形をidf発声変形ベクトルとして算出する第1の算出手段と、前記発声変形データのtf値と前記idf値とで計算されるtfidf値を用いて、前記発声変形データにおいて偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出する第2の算出手段とを有し、前記認識辞書拡張手段は、前記idf発声変形ベクトルの値が所定値よりも小さい発声変形のみ、あるいはそれぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を組み合わせて、複数の発声変形集合を構成してもよい。
本発明の第3の実施形態において、前記認識辞書拡張手段は、前記idf発声変形ベクトルの値が所定値よりも小さい発声変形と、それぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を共に含ませて、クラスタ個数と同じ数の発声変形集合を構成してもよい。
本発明の第4の実施形態において、前記認識辞書拡張手段は、クラスタ個数と同じ発声変形集合に、前記idf発声変形ベクトルの値が所定値よりも小さい発声変形を発声変形集合を加えて、クラスタ個数より一つ多い、発声変形集合を構成してもよい。
本発明の第5の実施形態において、前記認識辞書拡張手段は、認識辞書拡張規則として予め設定された、認識対象言語の音声として成立しうる発声変形に制約する規則のもとで、認識辞書の標準発声を、発声変形集合それぞれにおいて含まれる発声変形で置き換えた項目を追加することにより、認識辞書を拡張して、発声変形集合ごとの拡張認識辞書を構成してもよい。
本発明の第6の実施形態において、前記第1の算出手段は、前記発声変形をXとし、話者数をNとし、前記発声変形XがN個の話者の各発声変形データのうち幾つに現れたかをdnum(X)としたとき、
Figure 0005240457
により計算されるidf(X)で表される発声変形データのidf値を用いて、前記発声変形データにおいて前記広く出現する発声変形をidf発声変形ベクトルとして算出してもよい。前記第2の算出手段は、話者pの発声変形データにおいて発声変形Xが出現したフレームのカウント数をtnum(X,p)とし、話者pの学習発声のフレーム数をframe(p)としたとき、
Figure 0005240457
により計算されるtf(X,p)と、前記idf(X)とから、
Figure 0005240457
により計算されるtfidf(X,p)で表される発声変形データのtfidf値を用いて、前記発声変形データにおいて前記偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出してもよい。
本発明の一実施形態に係る音声認識装置は、上記いずれかに記載の拡張認識辞書学習装置によって学習された、発声変形集合ごとの認識辞書を用いて、入力音声に対し音声認識を行う音声認識手段を有することを特徴とする。前記音声認識手段は、得られた拡張認識辞書ごとの認識結果を仮説として多数決法で選別して最終認識結果を出力してもよい。
本発明の一実施形態に係る拡張認識辞書学習方法は、音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出するステップと、算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類するステップと、分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張するステップと、を有することを特徴とする。
本発明の一実施形態に係る拡張認識辞書学習プログラムは、コンピュータに、音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出する手順と、算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する手順と、分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する手順とを実行させることを特徴とする。
この出願は、2007年1月16日に出願された日本出願特願2007−006977号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、発声変形を含む音声に対し、認識辞書を拡張し性能を向上できる音声認識システムや、音声認識システムをコンピュータに実現するためのプログラムといった用途に適応できる。

Claims (11)

  1. 音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、
    算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する発声変形データ分類手段と、
    分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、
    を有することを特徴とする拡張認識辞書学習装置。
  2. 請求項1に記載の拡張認識辞書学習装置において、
    前記発声変形データ分類手段は、
    前記発声変形データのidf値を用いて、前記発声変形データにおいて前記広く出現する発声変形をidf発声変形ベクトルとして算出する第1の算出手段と、
    前記発声変形データのtf値と前記idf値とで計算されるtfidf値を用いて、前記発声変形データにおいて前記偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出する第2の算出手段とを有し、
    前記認識辞書拡張手段は、前記idf発声変形ベクトルの値が所定値よりも小さい発声変形のみ、あるいはそれぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を組み合わせて、複数の発声変形集合を構成することを特徴とする拡張認識辞書学習装置。
  3. 請求項2に記載の拡張認識辞書学習装置において、
    前記認識辞書拡張手段は、前記idf発声変形ベクトルの値が所定値よりも小さい発声変形と、それぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を共に含ませて、クラスタ個数と同じ数の発声変形集合を構成することを特徴とする拡張認識辞書学習装置。
  4. 請求項3に記載の拡張認識辞書学習装置において、
    前記認識辞書拡張手段は、クラスタ個数と同じ発声変形集合に、前記idf発声変形ベクトルの値が所定値よりも小さい発声変形を発声変形集合を加えて、クラスタ個数より一つ多い、発声変形集合を構成することを特徴とする拡張認識辞書学習装置。
  5. 請求項1から4のいずれか1項に記載の拡張認識辞書学習装置において、
    前記認識辞書拡張手段は、認識辞書拡張規則として予め設定された、認識対象言語の音声として成立しうる発声変形に制約する規則のもとで、認識辞書の標準発声を、発声変形集合それぞれにおいて含まれる発声変形で置き換えた項目を追加することにより、認識辞書を拡張して、発声変形集合ごとの拡張認識辞書を構成することを特徴とする拡張認識辞書学習装置。
  6. 請求項2に記載の拡張認識辞書学習装置において、
    前記第1の算出手段は、
    前記発声変形をXとし、話者数をNとし、前記発声変形XがN個の話者の各発声変形データのうち幾つに現れたかをdnum(X)としたとき、
    Figure 0005240457
    により計算されるidf(X)で表される発声変形データのidf値を用いて、前記発声変形データにおいて前記広く出現する発声変形をidf発声変形ベクトルとして算出し、
    前記第2の算出手段は、
    話者pの発声変形データにおいて発声変形Xが出現したフレームのカウント数をtnum(X,p)とし、話者pの学習発声のフレーム数をframe(p)としたとき、
    Figure 0005240457
    により計算されるtf(X,p)と、前記idf(X)とから、
    Figure 0005240457
    により計算されるtfidf(X,p)で表される発声変形データのtfidf値を用いて、前記発声変形データにおいて前記偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出することを特徴とする拡張認識辞書学習装置。
  7. 請求項1から6のいずれか1項に記載の拡張認識辞書学習装置によって学習された、発声変形集合ごとの認識辞書を用いて、入力音声に対し音声認識を行う音声認識手段を有することを特徴とする音声認識装置。
  8. 請求項7に記載の音声認識装置において、
    前記音声認識手段は、得られた拡張認識辞書ごとの認識結果を仮説として多数決法で選別して最終認識結果を出力することを特徴とする音声認識装置。
  9. 請求項1から6のいずれか1項に記載の拡張認識辞書学習装置を利用したことを特徴とする音声認識システム。
  10. 音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出するステップと、
    算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類するステップと、
    分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張するステップと、
    を有することを特徴とする拡張認識辞書学習方法。
  11. コンピュータに、
    音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出する手順と、
    算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する手順と、
    分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する手順とを実行させるための拡張認識辞書学習プログラム。
JP2008554032A 2007-01-16 2008-01-15 拡張認識辞書学習装置と音声認識システム Active JP5240457B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008554032A JP5240457B2 (ja) 2007-01-16 2008-01-15 拡張認識辞書学習装置と音声認識システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007006977 2007-01-16
JP2007006977 2007-01-16
JP2008554032A JP5240457B2 (ja) 2007-01-16 2008-01-15 拡張認識辞書学習装置と音声認識システム
PCT/JP2008/050346 WO2008087934A1 (ja) 2007-01-16 2008-01-15 拡張認識辞書学習装置と音声認識システム

Publications (2)

Publication Number Publication Date
JPWO2008087934A1 JPWO2008087934A1 (ja) 2010-05-06
JP5240457B2 true JP5240457B2 (ja) 2013-07-17

Family

ID=39635938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008554032A Active JP5240457B2 (ja) 2007-01-16 2008-01-15 拡張認識辞書学習装置と音声認識システム

Country Status (3)

Country Link
US (1) US8918318B2 (ja)
JP (1) JP5240457B2 (ja)
WO (1) WO2008087934A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019661A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP5454469B2 (ja) * 2008-05-09 2014-03-26 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
JP5104732B2 (ja) * 2008-11-14 2012-12-19 日本電気株式会社 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP5315976B2 (ja) * 2008-12-19 2013-10-16 カシオ計算機株式会社 音声認識装置、音声認識方法、および、プログラム
JP4981076B2 (ja) * 2009-02-02 2012-07-18 日本放送協会 発音辞書修正装置、音声認識装置、およびコンピュータプログラム
JP5152020B2 (ja) * 2009-02-02 2013-02-27 富士通株式会社 音声認識装置及び音声認識方法
JP5184467B2 (ja) * 2009-08-31 2013-04-17 日本放送協会 適応化音響モデル生成装置及びプログラム
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US10811004B2 (en) * 2013-03-28 2020-10-20 Nuance Communications, Inc. Auto-generation of parsing grammars from a concept ontology
JP6410491B2 (ja) * 2014-06-27 2018-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
JP6475517B2 (ja) * 2015-03-02 2019-02-27 日本放送協会 発音系列拡張装置およびそのプログラム
US10332505B2 (en) * 2017-03-09 2019-06-25 Capital One Services, Llc Systems and methods for providing automated natural language dialogue with customers
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
US20190295541A1 (en) * 2018-03-23 2019-09-26 Polycom, Inc. Modifying spoken commands

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6153699A (ja) * 1984-08-24 1986-03-17 松下電器産業株式会社 音声認識装置
JPS62235992A (ja) * 1986-04-05 1987-10-16 シャープ株式会社 音声認識方式
WO2006126649A1 (ja) * 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4843389A (en) * 1986-12-04 1989-06-27 International Business Machines Corp. Text compression and expansion method and apparatus
JP2701500B2 (ja) 1990-01-17 1998-01-21 日本電気株式会社 音声認識装置のための標準パターン学習方式
JP2596869B2 (ja) * 1992-04-30 1997-04-02 松下電器産業株式会社 概念辞書管理装置
JPH0720889A (ja) 1993-06-30 1995-01-24 Omron Corp 不特定話者の音声認識装置および方法
JPH08123470A (ja) 1994-10-25 1996-05-17 Nippon Hoso Kyokai <Nhk> 音声認識装置
US5875443A (en) * 1996-01-30 1999-02-23 Sun Microsystems, Inc. Internet-based spelling checker dictionary system with automatic updating
JP2974621B2 (ja) 1996-09-19 1999-11-10 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識用単語辞書作成装置及び連続音声認識装置
JP3466857B2 (ja) * 1997-03-06 2003-11-17 株式会社東芝 辞書更新方法および辞書更新システム
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
JPH11344992A (ja) 1998-06-01 1999-12-14 Ntt Data Corp 音声辞書作成方法、個人認証装置および記録媒体
US6744860B1 (en) * 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP2001101185A (ja) * 1999-09-24 2001-04-13 Internatl Business Mach Corp <Ibm> 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6456975B1 (en) * 2000-01-13 2002-09-24 Microsoft Corporation Automated centralized updating of speech recognition systems
US7113910B1 (en) * 2000-02-18 2006-09-26 At&T Corp. Document expansion in speech retrieval
US6272464B1 (en) * 2000-03-27 2001-08-07 Lucent Technologies Inc. Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US7042443B2 (en) * 2001-10-11 2006-05-09 Woodard Scott E Speed Writer program and device with Speed Writer program installed
US7567953B2 (en) * 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
US7283997B1 (en) * 2003-05-14 2007-10-16 Apple Inc. System and method for ranking the relevance of documents retrieved by a query
CN1922605A (zh) * 2003-12-26 2007-02-28 松下电器产业株式会社 辞典制作装置以及辞典制作方法
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
US7693267B2 (en) * 2005-12-30 2010-04-06 Microsoft Corporation Personalized user specific grammars

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6153699A (ja) * 1984-08-24 1986-03-17 松下電器産業株式会社 音声認識装置
JPS62235992A (ja) * 1986-04-05 1987-10-16 シャープ株式会社 音声認識方式
WO2006126649A1 (ja) * 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200500672004; 南條 浩輝: '講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング' 電子情報通信学会論文誌 第J87-D-II巻,第8号, 2004, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *
CSNG200700044048; 鮫島 充: '子供音声に対する十分統計量に基づく教師なし話者適応の検討' 日本音響学会2004年秋季研究発表会講演論文集-I- , 社団法人日本音響学会 *
CSNG200700334005; 佐藤 庄衛: '実況・対談における発声変形を考慮した音響モデルの検討' 電子情報通信学会技術研究報告 Vol.105 No.495, 2005, 社団法人電子情報通信学会 *
JPN6013010399; 佐藤 庄衛: '実況・対談における発声変形を考慮した音響モデルの検討' 電子情報通信学会技術研究報告 Vol.105 No.495, 2005, 社団法人電子情報通信学会 *
JPN6013010402; 鮫島 充: '子供音声に対する十分統計量に基づく教師なし話者適応の検討' 日本音響学会2004年秋季研究発表会講演論文集-I- , 社団法人日本音響学会 *
JPN6013010406; 南條 浩輝: '講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング' 電子情報通信学会論文誌 第J87-D-II巻,第8号, 2004, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019661A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법
KR102012404B1 (ko) 2017-08-18 2019-08-20 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법

Also Published As

Publication number Publication date
US20100023329A1 (en) 2010-01-28
JPWO2008087934A1 (ja) 2010-05-06
WO2008087934A1 (ja) 2008-07-24
US8918318B2 (en) 2014-12-23

Similar Documents

Publication Publication Date Title
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
De Wachter et al. Template-based continuous speech recognition
Zeinali et al. HMM-based phrase-independent i-vector extractor for text-dependent speaker verification
Sainath et al. Exemplar-based sparse representation features: From TIMIT to LVCSR
EP2192575B1 (en) Speech recognition based on a multilingual acoustic model
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
De Wachter et al. Data driven example based continuous speech recognition
Chen et al. Strategies for Vietnamese keyword search
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
Morris et al. Combining phonetic attributes using conditional random fields.
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
Chao et al. Improved tone modeling by exploiting articulatory features for Mandarin speech recognition
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Batista et al. Baseline Acoustic Models for Brazilian Portuguese Using Kaldi Tools.
JP2007078943A (ja) 音響スコア計算プログラム
Ko et al. Eigentriphones for context-dependent acoustic modeling
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2006031278A (ja) 音声検索システムおよび方法ならびにプログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
Breslin Generation and combination of complementary systems for automatic speech recognition
Zhang et al. Application of pronunciation knowledge on phoneme recognition by lstm neural network
Matton et al. A discriminative locally weighted distance measure for speaker independent template based speech recognition

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5240457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150