JP4283133B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4283133B2
JP4283133B2 JP2004046988A JP2004046988A JP4283133B2 JP 4283133 B2 JP4283133 B2 JP 4283133B2 JP 2004046988 A JP2004046988 A JP 2004046988A JP 2004046988 A JP2004046988 A JP 2004046988A JP 4283133 B2 JP4283133 B2 JP 4283133B2
Authority
JP
Japan
Prior art keywords
sequence
phoneme
word
model
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004046988A
Other languages
English (en)
Other versions
JP2005234504A (ja
JP2005234504A5 (ja
Inventor
ライナー・グルーン
コンスタンティン・マルコフ
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004046988A priority Critical patent/JP4283133B2/ja
Publication of JP2005234504A publication Critical patent/JP2005234504A/ja
Publication of JP2005234504A5 publication Critical patent/JP2005234504A5/ja
Application granted granted Critical
Publication of JP4283133B2 publication Critical patent/JP4283133B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は音声認識装置に関し、特に、単語ベースのHMM(隠れマルコフモデル)を用いた発音モデリングに基づく統計的音声認識装置に関する。
発音のモデリングについて、非常に多くの研究が報告されている。多くのアプローチは、人手により又は自動的に生成された音素トランスクリプションを何らかのベースラインのトランスクリプションと比較する、という同様の基本的なスキームに従っている。この差異から、変異情報を抽出することができる。
通常、この差異情報は規則の形で表され、これを出現頻度、尤度、混同の可能性又は他の尺度に基づいて重み付けすることができる。これらの規則をベースラインの語彙辞書に適用して、何らかの適応化された語彙辞書を生成したり、又は音響モデルを最適化したりする。例えば、先行技術の非特許文献1は、語彙辞書への音素混同規則の適用を開示している。
ライナー グルン、コンスタンティン マルコフ、サトシ ナカムラ、「非母国語音声認識のための、確率を維持する音素置換」、日本音響学会誌、第195−196頁、2002年秋。
残念ながら、上述したような発音モデリングに基づく先行技術の音声認識ではほとんど改良が見られない。すなわち、非母国語話者等の、能力が試されるような話者グループに対する連続音声認識システムの性能は、依然として比較的低いままであり、さらなる改良が望まれる。
従って、この発明の目的の一つは、発音の変異に効果的に対処できる音声認識装置を提供することである。
この発明の別の目的は、非母国語話者の音声を正確に認識することのできる音声認識装置を提供することである。
本発明のある局面に係る音声認識装置は、入力音声データの音素を認識して入力音声データの音素ラベルのシーケンスを出力するための手段と、入力音声データ中の単語を認識して複数個の認識単語のシーケンスをそれぞれの音響スコアと共に出力するための手段と、再スコアされるべき認識単語のシーケンスに従って選択された発音モデルに音素ラベルのシーケンスを適用することにより、複数個の認識単語のシーケンスの各々を再スコアするための手段とを含む。発音モデルはトレーニングデータセット内の単語とそれらの音素との多数の対を用いてトレーニングされている。この方法はさらに複数個の認識単語のシーケンスのうち、再スコア手段によって予め定められた条件を満たすスコアが与えられたものを選択するための手段を含む。
好ましくは、選択するための手段は、複数個の認識単語のシーケンスのうち、再スコア手段によって最も高いスコアが与えられたものを選択するための手段を含む。
さらに好ましくは、再スコアするための手段は、音素ラベルのシーケンスを、再スコアされるべき認識単語のシーケンス内の単語とアライメントすることにより、音素ラベルのシーケンスを、再スコアされるべき認識単語のシーケンス内のそれぞれの語とアライメントされた音素ラベルシーケンスの断片にセグメント化するための手段と、音素ラベルシーケンスの断片を、音素ラベルシーケンスの断片がアライメントされたそれぞれの単語に対応するそれぞれの発音モデルに与えるための手段と、音素ラベルシーケンスの断片を与えたことに応答して発音モデルから出力されるスコアを組合せるための手段とを含む。
組合せるための手段は、予め選択された言語モデルに従って、再スコアされるべき単語シーケンスのために、加重言語モデルスコアを計算するための手段と、音素ラベルシーケンスの断片を与えたことに応答して発音モデルから出力されるスコアを、加重言語モデルスコアと組合せるための手段とを含んでもよい。
発音モデルの各々は、トレーニングデータセット内の単語とその音素との多数の対によってトレーニングされた離散隠れマルコフモデル(HMM)発音モデルを含んでもよい。
本発明の他の局面によれば、HMM発音モデルをトレーニングする方法は、予め選択された単語の各々について離散HMM発音モデルを準備するステップを含む。予め選択された単語の各々には音素シーケンスが割当てられている。この方法はさらに、離散HMM発音モデルに対応する単語の音素シーケンスに従って、予め選択された単語の各々の離散HMM発音モデルの各状態に対する離散確率分布を初期化するステップと、トレーニングデータセットを用いて、予め選択された単語の各々についての離散HMM発音モデルの各状態に対する確率分布を推定するステップとを含む。
この方法は、各々が、音響データと、当該音響データに対応する単語のシーケンスとを含む複数個の音声データを含むトレーニングデータセットを準備するステップをさらに含んでもよく、推定するステップは、トレーニングセット中の音響データの各々を、対応する単語ラベルが付された複数個の単語チャンクにセグメント化するステップと、単語チャンクの各々の音素を認識して、各単語について音素のシーケンスを出力するステップと、トレーニングデータセット中の各単語について、トレーニングデータセット中のその単語の全ての出現個所と、認識するステップで出力されたその対応する音素シーケンスとに対し、対応する離散HMM発音モデルをトレーニングするステップとを含む。
― 構造 ―
図1はこの発明の一実施例に従った音声認識システム20の全体構造を示す図である。図1を参照して、システム20は、トレーニングデータ30を用いて、多数の単語ベースのHMM34をトレーニングするためのHMMトレーニングユニット32と、ユニット32によってトレーニングされたHMM34を用いて、入力発話40を認識し認識テキスト44を出力するための音声認識装置42とを含む。
図2はHMMトレーニングユニット32の詳細なブロック図である。図2を参照して、HMMトレーニングユニット32は、トレーニングデータ30中の連続したトレーニング用音声データをビタビアライメントにより生成された時間情報に基づき単語チャンクにセグメント化するためのセグメント化ユニット60と、セグメント化ユニット60から出力された単語チャンクの各々の音響特徴ベクトルをデコードして、1−ベスト音素シーケンスを出力するための音素認識ユニット62と、セグメント化された単語チャンクの各々について、セグメント化された単語とその1−ベスト音素シーケンスとの対に対応する離散HMMをトレーニングする単語ベースHMMトレーニングユニット64とを含む。
図3はある特定の単語(w1)のHMMがどのように生成されるかを示す図である。図3を参照して、トレーニングデータ30中の単語の各々について、音素認識が適用され、その結果、対応の1−ベスト音素シーケンスが得られる。図3の例では、3個の単語80、82、84が、単語w1に対応してトレーニングデータ30中に見出されるものと仮定している。
単語80は音響特徴ベクトルA1、A2、A3及びA4のシーケンスを含む。単語82は音響特徴ベクトルA5、A6、A7及びA8のシーケンスを含む。単語84は音響特徴ベクトルA9、A10、A11及びA12のシーケンスを含む。音素認識により、単語80、82、84のそれぞれに、1−ベスト音素シーケンスとして、音素シーケンス90、92、94が生成される。
音素シーケンス90は音素S1及びS2を含む。音素シーケンス92は音素S1及びS3を含む。音素シーケンス94は音素S4及びS3を含む。これらの音素シーケンス90、92、94は単語w1の発音変異である。以降、これらを単語w1に対する離散HMM100のトレーニングに用いる。
HMMモデルは何らかのベースラインの発音語彙辞書中の音素シーケンスを用いて初期化される。単語モデルの状態数は、ベースラインの発音中の音素の数に、「開始」及び「終了」状態を加えたものに設定される。各状態は全音素の離散確率分布を有し、ベースラインの音素には高い確率を与え、他の全ての音素には低いがゼロではない値を与える。全状態間での前方遷移が可能であり、初期遷移確率は各状態を一度だけ通る経路を優先する。
確率分布と遷移確率とは、トレーニングデータの音素シーケンスによって再評価される。各単語について、トレーニングデータ中の全出現個所が収集され分析される。各単語モデルの状態数は変わらない。音素の省略は状態スキップ遷移によってカバーされ、音素の挿入は状態の自己ループ遷移によってモデル化される。
単語“and”について、最初の音素を2個の発音変異で初期化した離散単語HMMの例を図4に示す。図4を参照して、HMM110は5個の状態120、122、124、126及び128と、これら状態間のリンクとを含む。状態120、122、124、126及び128はそれぞれ、「開始」と、音素“a”、“n”、及び“d”と、「終了」とに対応する。状態122、124及び126に対し、初期化された離散確率も合わせて示す。状態122では、発音“ae”及び“ax”に同じ初期確率が与えられている。
自動的にトレーニングされた発音モデリングアルゴリズムに共通する問題は、データスパースネスである。この実施例では、トレーニングデータ30中に十分な頻度で出現する単語の発音はデータ駆動型で生成される。稀な単語については、このアルゴリズムは所与の語彙辞書からのベースラインの音素シーケンスを代わりに用いる。この組合せにより、例えば先行技術の非特許文献1で提案された語彙辞書の音素混同規則を適用するのに比べ、より頑健なものが得られるはずである。
図5はこの実施例に従った音声認識装置42の詳細を示す図である。図5を参照して、音声認識装置42は、発話40をデコードしてN−ベスト単語シーケンス(仮説160)をそれらのそれぞれの音響スコアとともに出力するためのN−ベスト単語シーケンス認識部142と、発話40をデコードし、発話40についての1−ベスト音素シーケンス162の音素ラベルシーケンスを出力するための1−ベスト音素シーケンス認識部140と、N−ベスト単語シーケンス認識部142のN−ベスト出力を再スコアするのに用いられる言語モデル146と、1−ベスト音素シーケンス認識部140及びN−ベスト単語シーケンス認識部142の出力を受けるように接続され、ビタビアライメントを用いて、HMMN−ベスト仮説をラベルとして用いて発音モデル34を1−ベスト音素シーケンスに適用することにより、N−ベスト単語シーケンスの各々を再スコアするための再スコアユニット144と、再スコアにより最良のスコアを達成する仮説を選択し、選択された仮説を認識テキスト44として出力するための選択ユニット148とを含む。
図6はN−ベスト単語シーケンス認識部142によって出力されるN−ベスト仮説160の例を示す図である。図6に示されるように、N−ベスト単語シーケンス認識部142はベストスコアのn個の仮説を出力し、これらが再スコアユニット144により再スコアされる。
図7は再スコアの詳細な方式を示す図である。図7を参照して、N−ベスト仮説180の各々について、破線182及び184で示されるとおり1−ベスト音素シーケンス162が仮説180中の単語とアライメントされる。アライメントされた音素シーケンス、例えば“/me”が、仮説180中のアライメントされた単語、例えば“he”に対応するHMM190に適用される。同様に、音素シーケンス“and”及び“yu/”も仮説180中のアライメントされた単語に対応するそれぞれのHMM192及び194に適用される。HMM190、192及び194は各々スコアを出力し、それらが合計される(200)。結果として得られるスコア202が仮説180の発音スコアである。
発音スコア202はさらに、言語モデル146を利用して、その仮説のための加重言語モデルスコアと組み合わされる。選択ユニット148は、N−ベスト仮説のうち最も高い合計スコアを達成したものを選択する。
― 動作 ―
図1から図7に示すシステムは以下のように動作する。最初に、トレーニングデータ30が与えられる。図2を参照して、セグメント化ユニット60がトレーニングデータ30中の発話の各々を、ビタビアライメントによって獲得される時間情報に基づき個々の単語にセグメント化する。音素認識ユニット62は各単語チャンクに音素認識を適用する。このとき、モノフォンより高い音素認識精度を達成するため、ライト・コンテキスト(right-context:右側文字列)のバイフォンモデルが適用される。
単語ベースのHMMトレーニングユニット64は、離散HMM34の各々を、それぞれの単語の適切な確率で初期化し、トレーニングデータ30内の全ての単語について、その単語のトレーニングデータ30中の全ての出現個所について離散単語HMM34をトレーニングする。トレーニングが完了すれば、単語ベースのHMM34を音声認識装置42で用いることができる。
図5を参照して、音声認識装置42が発話40を受けると、N−ベスト単語シーケンス認識部142は発話40をデコードし、N−ベスト仮説を出力する。1−ベスト音素シーケンス認識部140は発話40をデコードし、1−ベスト音素シーケンスを出力する。N−ベスト単語シーケンス認識部142及び1−ベスト音素シーケンス認識部140の出力はそれぞれ、再スコアユニット144に与えられる。
図7を参照して、N−ベスト仮説の各々について、再スコアユニット144が仮説に対し1−ベスト音素シーケンス162をアライメントし、アライメントした音素をN−ベスト仮説180の単語に対応するHMM190、192及び194に適用する。HMM190、192及び194はそれぞれのスコアを出力し、これらがこの仮説のための加重言語モデルスコアと組み合わされる。結果として得られるスコア202がその仮説の発音スコアである。
全ての仮説に対する発音スコアが再スコアユニット144で計算されると、選択ユニット148が最も高い発音スコアを達成した仮説を選択する。この仮説が認識テキスト44として出力される。
― 実験例 ―
評価のため、出願人は、出願人の研究所で収集された、英語を話す11人の日本人による非母国語のデータベースを使用した。各話者あたり12分の読上げ音声が得られ、これを分割してトレーニング用に10分、テストセットに2分とした。タスクのドメインはホテルの予約場面である。
非母国語話者によるトレーニングデータセットが、ビタビアライメントによって獲得された時間情報に基づき個々の単語にセグメント化される。これらの単語チャンクに対し、音素認識が行なわれる。より高い音素認識精度を達成するため、ライト・コンテキストのバイフォンモデルが適用される。しかしながら、結果として得られる音素列では、コンテキストは考慮されない。
非母国語のタスクに対する音素認識精度は、正解のトランスクリプションに対し34.68%であった。この実験のバイフォン音響モデルは、ウォールストリートジャーナル読上げコーパスによってトレーニングされた。音素セットは43個の音素と無音とからなる。再スコアプロセスでは、無音の出現は無視された。
各状態の離散確率分布は、語彙辞書で与えられた「正しい」音素シーケンスに依存して初期化された。正しい音素の確率は0.99である。もし語彙辞書内に2個以上の発音変異が含まれていれば、変異は全て同じ確率を有する。他の全ての音素に、何らかの、小さいがゼロではない確率が割当てられる。
遷移確率はベースライン語彙辞書における後続の音素数に依存する。k個の音素をスキップする確率は0.05に初期化された。0.05の確率で挿入が可能である。従って、次の状態への遷移は0.9よりわずかに低い確率を有する。
HMM発音モデルはN−ベストデコード結果を再スコアする、という形で適用される。テストデータの発話の際には、1−ベスト音素認識と標準的なN−ベスト認識(単語レベル)とが行なわれる。N−ベストシーケンスの各々について、音素シーケンスを入力特徴量とし、単語シーケンスをラベルとして、離散発音モデルを用いて強制的なアライメントを行なった。結果として得られるスコアが発音スコアである。
発音スコアは、この仮説に対する加重言語モデルスコアと組み合わされる。N−ベスト中最も高い合計スコアを達成した仮説が、正しいものとして選択される。
図8は様々な言語モデルの重みに関する性能を示す図である。この実験でのベースラインの性能の32.54%と比較して、最高の性能は29.04%の単語誤り率(WER)であった。
従って、この実施例は発音の再スコアにより、単語誤り率を相対的に10.8%改良することができ、非母国語の音声に対し有効であることが分かった。十分な量の非母国語のトレーニングデータが得られれば、このアプローチの強みを十分に発揮することが可能であろう。
上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
この発明の一実施例に従ったシステム20の構造を示す図である。 HMMトレーニングユニット32を示すブロック図である。 この発明の一実施例に従った単語ベース離散HMMの2レベルトレーニングを示す図である。 単語レベル離散HMMの一例を示す図である。 音声認識装置42を示すブロック図である。 N−ベスト仮説を概略的に示す図である。 再スコアのためのスコア計算方式を概略的に示す図である。 実験で観察された、WERと言語モデル重みとの関係を示す図である。
符号の説明
20 音声認識システム、30 トレーニングデータ、32 HMMトレーニングユニット、34 単語ベース離散HMM、40 発話、42 音声認識装置、 44 認識テキスト、60 セグメント化ユニット、62 音素認識ユニット、64 単語ベースHMMトレーニングユニット、140 1−ベスト音素シーケンス認識部、142 N−ベスト単語シーケンス認識部、144 再スコアユニット、146 言語モデル、148 選択ユニット

Claims (5)

  1. 入力音声データの音素を認識して入力音声データの音素ラベルのシーケンスを出力するための手段と、
    入力音声データ中の単語を認識して複数個の認識単語のシーケンスをそれぞれの音響スコアと共に出力するための手段と、
    再スコアされるべき認識単語のシーケンスに従って選択された発音モデルに前記音素ラベルのシーケンスを適用することにより、前記複数個の認識単語のシーケンスの各々を再スコアするための手段とを含み、前記発音モデルはトレーニングデータセット内の単語とそれらの音素との多数の対を用いてトレーニングされており、さらに
    前記複数個の認識単語のシーケンスのうち、前記再スコア手段によって予め定められた条件を満たすスコアが与えられたものを選択するための手段を含む、音声認識装置。
  2. 選択するための手段は、前記複数個の認識単語のシーケンスのうち、前記再スコア手段によって最も高いスコアが与えられたものを選択するための手段を含む、請求項1に記載の音声認識装置。
  3. 前記再スコアするための手段は、
    前記音素ラベルのシーケンスを、再スコアされるべき前記認識単語のシーケンス内の単語とアライメントすることにより、前記音素ラベルのシーケンスを、再スコアされるべき認識単語のシーケンス内のそれぞれの語とアライメントされた音素ラベルシーケンスの断片にセグメント化するための手段と、
    前記音素ラベルシーケンスの断片を、前記音素ラベルシーケンスの断片がアライメントされたそれぞれの単語に対応するそれぞれの前記発音モデルに与えるための手段と、
    前記音素ラベルシーケンスの断片を与えたことに応答して前記発音モデルから出力されるスコアを組合せるための手段とを含む、請求項1に記載の音声認識装置。
  4. 前記組合せるための手段が、
    予め選択された言語モデルに従って、前記再スコアされるべき単語シーケンスのために、加重言語モデルスコアを計算するための手段と、
    前記音素ラベルシーケンスの断片を与えたことに応答して前記発音モデルから出力されるスコアを、前記加重言語モデルスコアと組合せるための手段とを含む、請求項3に記載の音声認識装置。
  5. 前記発音モデルの各々が、トレーニングデータセット内の単語とその音素との多数の対によってトレーニングされた離散隠れマルコフモデル(HMM)発音モデルを含む、請求項1〜請求項4のいずれかに記載の音声認識装置
JP2004046988A 2004-02-23 2004-02-23 音声認識装置 Expired - Fee Related JP4283133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004046988A JP4283133B2 (ja) 2004-02-23 2004-02-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004046988A JP4283133B2 (ja) 2004-02-23 2004-02-23 音声認識装置

Publications (3)

Publication Number Publication Date
JP2005234504A JP2005234504A (ja) 2005-09-02
JP2005234504A5 JP2005234504A5 (ja) 2005-10-27
JP4283133B2 true JP4283133B2 (ja) 2009-06-24

Family

ID=35017481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004046988A Expired - Fee Related JP4283133B2 (ja) 2004-02-23 2004-02-23 音声認識装置

Country Status (1)

Country Link
JP (1) JP4283133B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5062171B2 (ja) * 2006-03-23 2012-10-31 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
JP5180800B2 (ja) * 2008-12-11 2013-04-10 独立行政法人情報通信研究機構 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
KR101587866B1 (ko) 2009-06-03 2016-01-25 삼성전자주식회사 음성 인식용 발음사전 확장 장치 및 방법
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN112151018A (zh) * 2019-06-10 2020-12-29 阿里巴巴集团控股有限公司 语音评测及语音识别方法、装置、设备及存储介质
CN111862959B (zh) * 2020-08-07 2024-04-19 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Also Published As

Publication number Publication date
JP2005234504A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
Stolcke et al. Highly accurate phonetic segmentation using boundary correction models and system fusion
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
US20060041429A1 (en) Text-to-speech system and method
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
Demuynck et al. A comparison of different approaches to automatic speech segmentation
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
Gillick et al. Don't multiply lightly: Quantifying problems with the acoustic model assumptions in speech recognition
US20170249953A1 (en) Method and apparatus for exemplary morphing computer system background
JP2007155833A (ja) 音響モデル開発装置及びコンピュータプログラム
JP4283133B2 (ja) 音声認識装置
AU2020205275B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
Liu et al. Modeling partial pronunciation variations for spontaneous Mandarin speech recognition
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
Hwang et al. Building a highly accurate Mandarin speech recognizer
Liu et al. Pronunciation modeling for spontaneous Mandarin speech recognition
Livescu et al. Segment-based recognition on the phonebook task: initial results and observations on duration modeling.
Pandey et al. Fusion of spectral and prosodic information using combined error optimization for keyword spotting
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Grover Goodness of Pronunciation Pipelines for OOV Problem
Kurian Development of Speech corpora for different Speech Recognition tasks in Malayalam language
Khaw et al. A fast adaptation technique for building dialectal malay speech synthesis acoustic model

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050729

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090303

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090318

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees