JP4951664B2 - コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム - Google Patents

コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム Download PDF

Info

Publication number
JP4951664B2
JP4951664B2 JP2009248013A JP2009248013A JP4951664B2 JP 4951664 B2 JP4951664 B2 JP 4951664B2 JP 2009248013 A JP2009248013 A JP 2009248013A JP 2009248013 A JP2009248013 A JP 2009248013A JP 4951664 B2 JP4951664 B2 JP 4951664B2
Authority
JP
Japan
Prior art keywords
model
common language
dialect
language model
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009248013A
Other languages
English (en)
Other versions
JP2010107982A (ja
Inventor
方 鄭
煕 肖
林泉 劉
展 遊
文暁 曹
誠 赤羽
如新 陳
良和 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Sony Interactive Entertainment Inc
Original Assignee
Tsinghua University
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Tsinghua University
Publication of JP2010107982A publication Critical patent/JP2010107982A/ja
Application granted granted Critical
Publication of JP4951664B2 publication Critical patent/JP4951664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム、プログラム、並びにそのプログラムを記憶した記憶媒体に関し、コンピュータ音声認識分野に該当する。
頑健性を高めることは従来から音声認識における重要点であるとともに困難な点である。それに、言葉のなまりの問題が頑健性の低下を招く主因となっている。例えば中国語には方言が多いため、なまりの問題は顕著であり、研究の価値は非常に高い。従来の音声認識システムでは、標準的共通語に対する認識率は高いが、方言によるなまりのある共通語(以下は方言なまり共通語と略称)に対する認識率は低い。この課題に対して、適応(Adaptation)などの方法を採用するのは一般的な解決策であるが、その前提としては方言なまり共通語のデータを十分に備えなければならない。また、このような方法を使用すると、標準的共通語に対する認識率は顕著に下がることがある。一方、方言の種類が多いため、それぞれの方言に対して音響モデルをトレーニングし直すと、作業の効率が低くなる。
本発明は、データ量が少ないまま方言なまりの共通語に対する認識率を高め、同時に標準的共通語に対する認識率が顕著に下がらないことを保証するコンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステムの提供を目的とする。
本発明のコンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法は、下記の工程を含む:
(1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第1方言なまり共通語モデルを生成し、第2種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第2方言なまり共通語モデルを生成し;
(2)標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて第1方言なまり共通語モデルを標準的共通語モデルの中にマージして一時マージモデルを得て;
(3)一時マージモデルを用いて第2種の方言なまり共通語のディベロップメントデータを認識することにより第2混同行列を生成し、当該第2混同行列に応じて第2方言なまり共通語モデルを一時マージモデルの中にマージして認識モデルを得る。
前記方法の工程(2)と(3)に記載のマージの方法は下記の通りである:
xで被認識音声の観測特徴ベクター、sで前記標準的共通語モデルにおける隠れマルコフ状態、dで前記第1方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
p’(x|s)=λp(x|s)+(1−λ)p(x|d)p(d|s)
であり、
その中で、λは線形補間係数であり、0<λ<1を満たし、
前記認識モデルの確率密度関数は
Figure 0004951664
であり、その中で、w (sc)’は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、wmn (dc1)’とwpq (dc2)’はそれぞれ前記第1方言なまり共通語モデル、前記第2方言なまり共通語モデルにおける隠れマルコフ状態が占める重みを示す。Kは標準的共通語モデルの隠れマルコフ状態sの混合正規分布の混合数である。N (sc)(・)は標準的共通語モデルの隠れマルコフ状態sの混合正規分布の要素である。Mは前記第1方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数である。Nは前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数である。Nmn (dc1)(・)は前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素である。Pは前記第2方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数である。Qは前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数である。Npq (dc2)(・)は前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素である。
本発明のコンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法は下記のメリットを有する:
本発明の方法では、反復的な方法で複数の方言なまり共通語モデルを一つ一つ標準的共通語モデルの中にマージすることにより、方言ごとに音響モデルをトレーニングするような重複作業を免れ、作業の効率を高めることができる。また、本発明の方法によれば、方言なまり共通語に対する認識率を明らかに高めることができ、同時に、標準的共通語に対する認識率が下がらないばかりか、上がることもある。そのため、他の方法のように方言なまり共通語に対し適する処理をすると、標準的共通語に対する認識率は著しく下がるという課題を解決する。
本発明のモデリング方法の原理を示す概念図である。 本発明の前記モデリング方法を実現するためのモデリングシステムの一例の機能ブロック図である。
以下、図面を参照しながら本発明を説明する。
図1は本発明のn種(以下、nは2以上の自然数)の方言を背景とする共通語音声認識のモデリング方法の原理を示す概念図である。本モデリング方法において、
(1)標準的共通語のトレーニングデータに基づいてトライフォン(Triphone)による標準的共通語モデルを生成し、対応しようとする第1〜n種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォン(Monophone)による第1〜第n方言なまり共通語モデルを生成し、
(2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列(Confusion Matrix)を生成し、当該第1混同行列に応じて第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第1一時マージモデルを得て、
(3)第(i−1)一時マージモデル(iは2<i<nを満たす自然数)を用いて第i種の方言なまり共通語のディベロップメントデータを認識することにより第i混同行列を生成し、当該第i混同行列に応じて第i方言なまり共通語モデルを前記第(i−1)一時マージモデルの中にマージする動作を、i=2からi=nまで順に繰り返すことにより、最終の認識モデルを得る。
図2は上述した複数の方言を背景とする共通語音声認識のモデリングシステムの一例の機能ブロック図である。本発明のモデリングシステムはモデル生成ユニット100と制御ユニット200により構成される。図2のとおり、モデル生成ユニット100は、トレーニングデータベース(以下は「トレーニングDB」と略称)10−0と、ディベロップメントデータベース(以下は「ディベロップメントDB」と略称)10−1〜10−nと、モデル生成部30−0〜30−nと、混同行列生成部40−1〜40−nと、モデルマージ部50−1〜50−nと、を備える。
トレーニングDB10−0は、標準的共通語のトレーニングデータを記憶しているデータベースである。
ディベロップメントDB10−1〜10−nは、それぞれ第1〜第n種の方言なまり共通語のテストデータを記憶しているデータベースである。
モデル生成部30−0は、前記トレーニングDB10−0に記憶されている標準的共通語トレーニングデータに基づいて、トライフォンによる標準的共通語モデルを生成するためのものである。
モデル生成部30−1〜30−nは、それぞれ前記ディベロップメントDB10−1〜10−nに記憶されている第1〜第n種の方言なまり共通語のディベロップメントデータに基づいて、モノフォンによる第1〜第n方言なまり共通語モデルを生成するためのブロックである。
混同行列生成部40−1〜40−nは、それぞれ対応するモデル生成部30−0〜30−(n−1)により生成されたモデルを用いて、ディベロップメントDB10−1〜10−nに記憶されている第1〜第n種の方言なまり共通語のディベロップメントデータを認識することにより、第1〜第n混同行列をそれぞれ生成するブロックである。
モデルマージ部50−1は、前記混同行列生成部40−1により生成された第1混同行列に応じて、前記モデル生成部30−1により生成された第1方言なまり共通語モデルを、前記モデル生成部30−0により生成された標準的共通語モデルの中にマージして第1一時マージモデルを生成するものである。
モデルマージ部50−2〜50−(n−1)は、それぞれ対応する前記混同行列生成部40−2〜40−(n−1)により生成された第2〜第(n−1)混同行列に応じて、前記モデル生成部30−2〜30−(n−1)により生成された第2〜第(n−1)方言なまり共通語モデルを、その直前のモデルマージ部により生成された一時マージモデルの中にマージして第2〜第(n−1)一時マージモデルをそれぞれ生成するものである。
モデルマージ部50−nは、前記混同行列生成部40−nにより生成された第n混同行列に応じて、前記モデル生成部30−nにより生成された第n方言なまり共通語モデルを、その直前のモデルマージ部50−(n−1)により生成された第(n−1)一時マージモデルの中にマージして最終の認識モデルを生成するものである。
制御ユニット200は、前述した本発明のモデリング方法に従って動作するよう前記モデル生成ユニット100を制御する。
図2において、トレーニングDB10−0、ディベロップメントDB10−1〜10−nは別々のブロックとして示されているが、標準的共通語のトレーニングデータ及び第1〜第n種の方言なまり共通語のディベロップメントデータを記憶する単一又は複数のデータベースとして構成されてもよい。また、図2においてモデル生成部30−0〜30−nは別々のブロックとして示されているが、これらを単一又は複数のモデル生成部として、制御ユニット200からの制御に基づきこの単一又は複数のモデル生成部を時間分割で利用してもよい。また、図2において混同行列生成部40−1〜40−nは別々のブロックとして示されているが、制御ユニット200からの制御に基づき、単一又は複数の混同行列生成部を時間分割で利用してもよい。また、図2においてモデルマージ部50−1〜50−nは別々のブロックとして示されているが、制御ユニット200からの制御に基づき、単一又は複数のモデルマージ部を時間分割で利用してもよい。
以下はn=2、即ち2種類の方言なまり共通語に対応できる認識モデルのモデリング方法を具体的に説明する。本モデリング方法は下記の工程を含む:
(1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第1方言なまり共通語モデルを生成し、第2種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第2方言なまり共通語モデルを生成する;
(2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を取得し、当該第1混同行列に応じて前記第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る;
(3)前記一時マージモデルを用いて第2種の方言なまり共通語のディベロップメントデータを認識することにより第2混同行列を取得し、当該第2混同行列に応じて前記第2方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る。
上記方法の工程(2)と(3)に記載のマージの方法は下記の通りである:
xで被認識音声の観測特徴ベクター、sで標準的共通語モデルにおける隠れマルコフ状態、dで第1方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる一時マージモデルにおける確率密度関数は
p’(x|s)=λp(x|s)+(1−λ)p(x|d)p(d|s) (1)
である。
その中で、λは線形補間係数であり、0<λ<1を満たす。
認識モデルの確率密度関数は
Figure 0004951664
であり、その中で、w (sc)’は標準的共通語モデルにおいて隠れマルコフ状態が占める重み、wmn (dc1)’とwpq (dc2)’はそれぞれ第1方言なまり共通語モデル、第2方言なまり共通語モデルにおいて隠れマルコフ状態が占める重みを示す。Kは標準的共通語モデルの隠れマルコフ状態sの混合正規分布の混合数である。N (sc)(・)は標準的共通語モデルの隠れマルコフ状態sの混合正規分布の要素である。Mは前記第1方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数である。Nは前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数である。Nmn (dc1)(・)は前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素である。Pは前記第2方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数である。Qは前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数である。Npq (dc2)(・)は前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素である。
本発明の方法は、反復的な方法によって、各種の方言なまりのデータにより作られたモデルを標準的共通語モデルの中にマージするものであり、その基本的なフローは図1のとおりである。図1において二つの方言なまり共通語モデルと標準的共通語モデルとのマージを例とした場合、一時マージモデルにおける確率密度関数は
p’(x|s)=λp(x|s)+(1−λ)p(x|d)p(d|s) (1)
と記述できる。
その中で、xで被認識音声の観測特徴ベクター、sで標準的共通語モデルにおける隠れマルコフ状態、dで第1方言なまり共通語モデルにおける隠れマルコフ状態を表す。 λは0<λ<1を満たす線形補間係数であり、標準的共通語モデルが一時マージモデルにおいて占める重みを表す。実際においては最適なλは実験を通して決められる。また、p(d|s) は標準的共通語モデルにおける隠れマルコフ状態sに対応する第1方言なまり共通語モデルにおける隠れマルコフ状態dの出力確率であり、標準的共通語に対する第1種の方言の発音の変化を示す。同じ道理で、最終マージモデルの確率密度関数は
Figure 0004951664
と記述できる。
その中で、dで第2方言なまり共通語モデルにおける隠れマルコフ状態を表す。λは0<λ<1を満たす線形補間係数であり、前記一時マージモデルが最終マージモデルにおいて占める重みを表す。実際においては最適なλは実験を通して決められる。Kは標準的共通語モデルの隠れマルコフ状態sの混合正規分布の混合数である。N (sc)(・)は標準的共通語モデルの隠れマルコフ状態sの混合正規分布の要素である。Mは前記第1方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数である。Nは前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数である。Nmn (dc1)(・)は前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素である。P(d1m|s)は発音変化モデルの確率を表す。Pは前記第2方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数である。Qは前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数である。N(dc2))(・)は前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素である。P(d2p|s)は発音変化モデルの確率を表す。
上記数式の最後の一行からわかるように、最終マージモデルは実際には標準的共通語モデル、第1方言なまり共通語モデル及び第2方言なまり共通語モデルの加重和により構成されるものである。w (sc)’、wmn (dc1)’及びwpq (dc2)’は上記数式における三つのモデルそれぞれの混合重みを表す。混同行列P(d1m|s)とP(d2p|s)、及び重み係数λとλは既に知られているため、この三つのモデルそれぞれの混合正規分布の重みは簡単に確定することができる。
以下は本発明の実施例を説明する:
Figure 0004951664
表から明らかなように、データは、標準的共通語、四川なまり共通語、▲ミン▼南なまり共通語に分けられ、更にトレーニング用又はディベロップメント用と、テスト用の二部分に分けられている。
ベースライン:
Figure 0004951664
ベースラインにおいては混合トレーニング認識モデルが用いられ、これは全部の三種類のデータを合わせてトレーニングすることにより得たものである。
実験の結果:
Figure 0004951664
上記から明らかなように、本計算方法でトレーニングしたモデルを利用すると、二つの方言に対する認識率も明らかに上がった。同時に、標準的共通語に対する認識率も相当に改善された。このことから、本方法は実行可能且つ有効な方法であることがわかる。
また、本発明の方法によれば、方言がいくらあっても、反復的な方法で方言なまり共通語モデルを一つ一つ標準的共通語モデルの中にマージすることによって、最終の認識モデルを得ることができる。

Claims (9)

  1. 複数の方言を背景とする共通語音声認識のモデリング方法であって、
    (1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第1方言なまり共通語モデルを生成し、第2種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第2方言なまり共通語モデルを生成する工程と、
    (2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて前記第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る工程と、
    (3)前記一時マージモデルを用いて第2種の方言なまり共通語のディベロップメントデータを認識することにより第2混同行列を生成し、当該第2混同行列に応じて前記第2方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る工程と、
    を含むことを特徴とする複数の方言を背景とする共通語音声認識のモデリング方法。
  2. xで被認識音声の観測特徴ベクター、sで前記標準的共通語モデルにおける隠れマルコフ状態、dで前記第1方言なまり共通語モデルにおける隠れマルコフ状態、dで前記第2方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
    p’(x|s)=λp(x|s)+(1−λ)p(x|d)p(d|s)
    であり、
    その中で、λは線形補間係数であり、0<λ<1を満たし、
    前記認識モデルの確率密度関数は
    Figure 0004951664
    であり、その中で、w (sc)’は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、wmn (dc1)’とwpq (dc2)’はそれぞれ前記第1方言なまり共通語モデル、前記第2方言なまり共通語モデルにおける隠れマルコフ状態が占める重み、Kは標準的共通語モデルの隠れマルコフ状態sの混合正規分布の混合数、N (sc)(・)は標準的共通語モデルの隠れマルコフ状態sの混合正規分布の要素、Mは前記第1方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Nは前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Nmn (dc1)(・)は前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、Pは前記第2方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Qは前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Npq (dc2)(・)は前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、を示すことを特徴とする請求項1に記載のモデリング方法。
  3. 複数の方言を背景とする共通語音声認識のモデリングプログラムであって、コンピュータに
    (1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第1方言なまり共通語モデルを生成し、第2種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第2方言なまり共通語モデルを生成する機能と、
    (2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて前記第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る機能と、
    (3)前記一時マージモデルを用いて第2種の方言なまり共通語のディベロップメントデータを認識することにより第2混同行列を生成し、当該第2混同行列に応じて前記第2方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る機能と、
    を実行させることを特徴とするコンピュータプログラム。
  4. n種(nは2以上の自然数)の方言を背景とする共通語音声認識のモデリング方法であって、
    (1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1〜n種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォンによる第1〜第n方言なまり共通語モデルを生成する工程と、
    (2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第1一時マージモデルを得る工程と、
    (3)第(i−1)一時マージモデル(iは2<i<nを満たす自然数)を用いて第i種の方言なまり共通語のディベロップメントデータを認識することにより第i混同行列を生成し、当該第i混同行列に応じて第i方言なまり共通語モデルを前記第(i−1)一時マージモデルの中にマージする動作を、i=2からi=nまで順に繰り返すことにより、認識モデルを得る工程と、
    を含むことを特徴とする複数の方言を背景とする共通語音声認識のモデリング方法。
  5. n種(nは2以上の自然数)の方言を背景とする共通語音声認識のモデリングプログラムであって、コンピュータに
    (1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1〜n種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォンによる第1〜第n方言なまり共通語モデルを生成する機能と、
    (2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第1一時マージモデルを得る機能と、
    (3)第(i−1)一時マージモデル(iは2<i<nを満たす自然数)を用いて第i種の方言なまり共通語のディベロップメントデータを認識することにより第i混同行列を生成し、当該第i混同行列に応じて第i方言なまり共通語モデルを前記第(i−1)一時マージモデルの中にマージする動作を、i=2からi=nまで順に繰り返すことにより、認識モデルを得る機能と、
    を実行させることを特徴とするコンピュータプログラム。
  6. 請求項3または5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  7. 複数の方言を背景とする共通語音声認識のモデリングシステムであって、モデル生成ユニットと、当該モデル生成ユニット全体の動作を制御する制御ユニットとを備え、
    前記モデル生成ユニットは、
    標準的共通語のトレーニングデータが記憶されている標準的共通語トレーニングデータベースと、
    第1、第2種の方言なまり共通語のディベロップメントデータがそれぞれ記憶されている第1、第2ディベロップメントデータベースと、
    前記標準的共通語トレーニングデータベースに記憶されている標準的共通語のトレーニングデータに基づいて、トライフォンによる標準的共通語モデルを生成するための標準的共通語モデル生成部と、
    前記第1、第2ディベロップメントデータベースにそれぞれ記憶されている第1、第2種の方言なまり共通語のディベロップメントデータに基づいて、モノフォンによる第1、第2方言なまり共通語モデルを生成するための第1、第2モデル生成部と、
    前記標準的共通語モデル生成部により生成された標準的共通語モデルを用いて、前記第1ディベロップメントデータベースに記憶されている第1種の方言なまり共通語のディベロップメントデータを認識することにより、第1混同行列を生成するための第1混同行列生成部と、
    前記第1混同行列生成部により生成された第1混同行列に応じて、前記第1モデル生成部により生成された第1方言なまり共通語モデルを、前記標準的共通語モデル生成部により生成された標準的共通語モデルの中にマージして一時マージモデルを生成するための第1モデルマージ部と、
    前記第1モデルマージ部により生成された一時マージモデルを用いて、前記第2ディベロップメントデータベースに記憶されている第2種の方言なまり共通語のディベロップメントデータを認識することにより、第2混同行列を生成するための第2混同行列生成部と、
    前記第2混同行列生成部により生成された第2混同行列に応じて、前記第2モデル生成部により生成された第2方言なまり共通語モデルを、前記第1モデルマージ部により生成された一時マージモデルの中にマージして認識モデルを生成するための第2モデルマージ部と
    を備えることを特徴とする複数の方言を背景とする共通語音声認識のモデリングシステム。
  8. xで被認識音声の観測特徴ベクター、sで前記標準的共通語モデルにおける隠れマルコフ状態、d1で前記第1方言なまり共通語モデルにおける隠れマルコフ状態、d2で前記第2方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
    p’(x|s)=λp(x|s)+(1−λ)p(x|d)p(d|s)
    であり、
    その中で、λは線形補間係数であり、0<λ<1を満たし、
    前記認識モデルの確率密度関数は
    Figure 0004951664
    であり、その中で、w (sc)’は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、wmn (dc1)’とwpq (dc2)’はそれぞれ前記第1方言なまり共通語モデル、前記第2方言なまり共通語モデルにおける隠れマルコフ状態が占める重み、Kは標準的共通語モデルの隠れマルコフ状態sの混合正規分布の混合数、N (sc)(・)は標準的共通語モデルの隠れマルコフ状態sの混合正規分布の要素、Mは前記第1方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Nは前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Nmn (dc1)(・)は前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、Pは前記第2方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Qは前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Npq (dc2)(・)は前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、を示すことを特徴とする請求項4に記載のモデリングシステム。
  9. 請求項7又は8に記載の第1と第2モデル生成部、第1と第2混同行列生成部、第1と第2モデルマージ部のうち少なくとも一組は、単一の構成として時間分割で利用されることを特徴とする複数の方言を背景とする共通語音声認識のモデリングシステム。
JP2009248013A 2008-10-31 2009-10-28 コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム Active JP4951664B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2008102253540A CN101393740B (zh) 2008-10-31 2008-10-31 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN200810225354.0 2008-10-31

Publications (2)

Publication Number Publication Date
JP2010107982A JP2010107982A (ja) 2010-05-13
JP4951664B2 true JP4951664B2 (ja) 2012-06-13

Family

ID=40494003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009248013A Active JP4951664B2 (ja) 2008-10-31 2009-10-28 コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム

Country Status (3)

Country Link
US (1) US8712773B2 (ja)
JP (1) JP4951664B2 (ja)
CN (1) CN101393740B (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010125736A1 (ja) * 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
CN101702314B (zh) * 2009-10-13 2011-11-09 清华大学 基于语种对的鉴别式语种识别模型建立方法
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
US8635067B2 (en) * 2010-12-09 2014-01-21 International Business Machines Corporation Model restructuring for client and server based automatic speech recognition
JP5703747B2 (ja) * 2010-12-27 2015-04-22 富士通株式会社 音声認識装置,および音声認識プログラム
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
JP6110945B2 (ja) * 2012-08-24 2017-04-05 インタラクティブ・インテリジェンス・インコーポレイテッド 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム
EP2736042A1 (en) * 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
US9842585B2 (en) * 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
CN103680493A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法和装置
CN103839546A (zh) * 2014-03-26 2014-06-04 合肥新涛信息科技有限公司 一种基于江淮语系的语音识别系统
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US9961200B1 (en) 2017-03-28 2018-05-01 Bank Of America Corporation Derived intent collision detection for use in a multi-intent matrix
KR102329127B1 (ko) * 2017-04-11 2021-11-22 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치
CN107170454B (zh) * 2017-05-31 2022-04-05 Oppo广东移动通信有限公司 语音识别方法及相关产品
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集系统
CN109741731B (zh) * 2019-01-08 2020-12-29 国家计算机网络与信息安全管理中心 一种语种训练数据获得方法及装置
CN110310628B (zh) * 2019-06-27 2022-05-20 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN110808035B (zh) * 2019-11-06 2021-11-26 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质
CN110910865B (zh) * 2019-11-25 2022-12-13 秒针信息技术有限公司 语音转换方法和装置、存储介质及电子装置
CN111445898B (zh) * 2020-03-17 2022-05-17 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN112233653B (zh) * 2020-12-10 2021-03-12 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备
CN113593534B (zh) * 2021-05-28 2023-07-14 思必驰科技股份有限公司 针对多口音语音识别的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5872996A (ja) * 1981-10-28 1983-05-02 電子計算機基本技術研究組合 単語音声認識方法
JPH02173699A (ja) * 1988-12-27 1990-07-05 Oki Electric Ind Co Ltd 音声認識装置
JP3256979B2 (ja) * 1991-04-26 2002-02-18 日本電信電話株式会社 音響モデルの入力音声に対する尤度を求める方法
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
CA2387079C (en) * 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US7319958B2 (en) * 2003-02-13 2008-01-15 Motorola, Inc. Polyphone network method and apparatus
JP4571624B2 (ja) * 2003-03-26 2010-10-27 本田技研工業株式会社 ローカルモデルを用いた話者認識
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system

Also Published As

Publication number Publication date
CN101393740A (zh) 2009-03-25
CN101393740B (zh) 2011-01-19
US20100121640A1 (en) 2010-05-13
JP2010107982A (ja) 2010-05-13
US8712773B2 (en) 2014-04-29

Similar Documents

Publication Publication Date Title
JP4951664B2 (ja) コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム
US8027834B2 (en) Technique for training a phonetic decision tree with limited phonetic exceptional terms
Park et al. Improved neural network based language modelling and adaptation.
CN108711422A (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
CN103310784A (zh) 文本到语音的方法和系统
JP2015102806A (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN102201235A (zh) 发音词典的构建方法和系统
JPH11242494A (ja) 話者適応化装置と音声認識装置
Yu et al. Context adaptive training with factorized decision trees for HMM-based statistical parametric speech synthesis
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN111627428B (zh) 构建压缩的语音识别模型的方法
Ferrer et al. Spoken language recognition based on senone posteriors.
JP7143677B2 (ja) 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム
WO2019146754A1 (ja) 質問応答システムの訓練データの作成方法及び質問応答システムの訓練方法
Rouvier et al. Studying squeeze-and-excitation used in CNN for speaker verification
Liu et al. Investigation of acoustic units for LVCSR systems
JP5295037B2 (ja) ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
Lozano-Diez et al. Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017.
Wester et al. Pronunciation variation in ASR: Which variation to model?
Pietquin et al. Training Bayesian networks for realistic man-machine spoken dialogue simulation
Li et al. Research on HMM-based speech retrieval algorithm
KR102637341B1 (ko) 음성 생성 방법 및 장치
Zeng et al. End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20101126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101214

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4951664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250