JP2010139745A - 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム - Google Patents

統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム Download PDF

Info

Publication number
JP2010139745A
JP2010139745A JP2008315769A JP2008315769A JP2010139745A JP 2010139745 A JP2010139745 A JP 2010139745A JP 2008315769 A JP2008315769 A JP 2008315769A JP 2008315769 A JP2008315769 A JP 2008315769A JP 2010139745 A JP2010139745 A JP 2010139745A
Authority
JP
Japan
Prior art keywords
pronunciation
phoneme
model
basic
basic form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008315769A
Other languages
English (en)
Other versions
JP5180800B2 (ja
Inventor
Sakti Sakriani
サクティ サクリアニ
Markov Konstantin
マルコフ コンスタンティ
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2008315769A priority Critical patent/JP5180800B2/ja
Publication of JP2010139745A publication Critical patent/JP2010139745A/ja
Application granted granted Critical
Publication of JP5180800B2 publication Critical patent/JP5180800B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】信頼性のある音素変異の認識を可能にする統計的発音変異モデルを記憶する記録媒体を提供する。
【解決手段】統計的発音変異モデル(BNレキシコンモデル)を記憶する記憶媒体であって、モデル100は複数の音素発音変異項目を含む。発音変異項目の各々は、音素の基本形102と、音素の基本形102の表面形104と、基本形の文脈による知識源の組108、110、112及び114と、文脈による知識源の組108、110、112及び114によって決定される文脈において表面形104が基本形102から生じる確率とを含む。
【選択図】 図3

Description

この発明は自動音声認識システム(automatic speech recognition system:ASR)に関し、特に、高い精度で発音変異のある音声をデコードするシステムに関する。
先行技術のASRシステムは管理された条件下では良好に動作する。しかし、会話/自然な音声では、ASRシステムの性能は大きく低下する。ある報告によれば、テストセットのうち自然な音声部分の誤り率は、計画されスタジオで録音された条件で行なわれた部分のほぼ2倍である。性能がこの様に劣る理由の一つは、ほとんどのASRシステムでは静的な発音辞書(レキシコン)であってほとんどの単語に対し、代替となるような発音がほとんどないものを用いていることである。しかし、会話における発音では、発音変異の量が増すばかりでなく、単語がその正規形に忠実であることもまれである。この結果、発音の変異はASRシステムの性能に影響を与える大きな問題であると思われる。
図1は従来の発音レキシコン30の構成を示す図である。図1を参照して、従来の発音レキシコン30は多数のエントリ40を含み、その各々は単語42と、単語42の典型的発音を記述する音素シーケンス44とを含む。理解されるように、発音レキシコン30は、同じ単語42であるが異なる音素シーケンス44を有する2又は3以上の見出語を含みうる。このような見出語は発音変異と考えられる。
この問題に対する簡単な解決策は、レキシコンに、より多くの発音変異を追加し続けることである。しかし、これは性能を改善する助けにはならない。これは新たな誤りを導入し、レキシコン中の音響的な混同のしやすさを増すことにつながる。規則ベースのシステムを用いて発音辞書を構築することが別の解決策であろう。しかし、これには時間と専門性とが必要である。
今日まで、非特許文献1の研究が決定木ベースのアプローチを適用して成功してきた。これは、システムの性能を改良してきた。
R.A.ベーツ、M.オステンドルフ及びR.A.ライト、「音声変異のモデリングのためのシンボル的音素特徴」音声コミュニケーション、49(2):83−97、2007.(R. A. Bates, M. Ostendorf, and R. A. Wright. Symbolic phonetic features for modeling of pronunciation variation. Speech Communication, 49(2):83-97, 2007.)
音響的な混同しやすさを避け、精度を上げるためには、発音のモデル化に、付加的な知識源を導入することが有用であろう。非特許文献1の内容は有用であることが示されている。しかし、発音のモデル化に付加的な知識源を統合するために広く適用可能かつ十分に柔軟性のあるフレームワークは存在しない。
従って、この発明の目的の1つは、信頼性のある音素変異の認識を可能にする統計的発音変異モデルを記憶する記録媒体を提供することである。
この発明の別の目的は、広く適用可能かつ十分に柔軟性のある、付加的な知識源を統合した自動音声認識システムを提供することである。
この発明の第1の局面は、統計的発音変異モデルを記憶する記憶媒体であって、前記モデルは複数の音素発音変異項目を含む。前記発音変異項目の各々は、音素の基本形と、音素の前記基本形の表面形と、前記基本形の文脈による知識源の組と、前記文脈による知識源の組によって決定される文脈において前記表面形が前記基本形から生じる確率と、を含む。
このモデルは基本形、基本形に対応する表面形、及びその文脈情報を含むので、基本形の発音変異の確率をその文脈に基づいて計算することができる。このモデルを用いて、音声変異を正確に認識する音声認識が実現できる。
好ましくは、前記文脈による知識源の組は、前記基本形に先行する音素、前記基本形に後続する音素、及び前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む。
付加的な知識源が、先行する音素、後続の音素、単語中の基本形の位置、又は基本形が削除されるか否かを含むので、確率は正確に計算される。
さらに好ましくは、前記文脈による知識源の組は、前記基本形に先行する音素クラス、前記基本形に後続する音素クラス、前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む。
音素がクラスに分類されるので、文脈による知識源の数が少なく、文脈中で生じる表面形の確率を計算する計算量が減じられる。
この発明の第2の局面に従った自動音声認識システムは、特定の言語の発音基本形の各々について、発音基本形、発音表面形及び1又は2以上の付加的な知識源間の条件関係を記述するベイズネットワークトポロジとともに、統計的発音モデルを記憶するための手段と、前記特定言語の入力音声信号を、音響モデル、言語モデル、及び前記統計的発音モデルを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語において最尤単語シーケンスのテキストデータを出力するための手段と、を含む。
システムは会話における音声認識で、発音変異をモデル化するためにBNフレームワークを用いる。BNフレームワークは広く適用可能で柔軟性があるので、この装置は既存の統計的発音モデルに付加的情報を容易に統合することができ、より高い精度をもたらす。
好ましくは、前記1又は2以上の付加的な知識源は、前記特定言語における単語の発音基本形の1又は2以上の文脈による知識源を含む。
文脈情報は音声信号の音素シーケンスを決定するのに重要である。文脈情報は統計的発音モデルに容易に組入れられ、さらにこの様な情報は単語中の音素シーケンスを予測するのに有用であるため、デコードされた結果はより正確になる。
さらに好ましくは、前記文脈による知識源は、発音基本形が単語のどこに位置するかに関する情報、前記発音基本形の前に何があるかに関する情報、前記発音基本形の後に何があるかに関する情報、前記発音基本形が対応の発音表面形で削除されるか否かに関する情報、又はそれらのいずれかの組合せを含む。
さらに好ましくは、前記統計的デコードのための手段は、前記入力音声信号を、前記音響モデル、前記言語モデル、及び前記特定言語におけるレキシコンを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語における、予め定められた数の、最尤単語シーケンスのテキストデータを出力するための手段と、前記統計的発音モデルを用いて前記入力音声信号に対する前記単語シーケンスの各々の確率的スコアを再計算するための手段と、前記単語シーケンスのうち前記再計算するための手段によって再計算された最も高いスコアを達成するものを選択するための手段と、を含む。
前記統計的デコードのための手段は、前記入力音声信号を、音素レベルで、前記音響モデルを用いてデコードし、前記入力音声信号を表す音素のいくつかのシーケンス候補を出力するための手段と、前記統計的発音モデルと前記言語モデルとを用いて、前記音素のシーケンス候補の各々についての確率スコアを計算するための手段と、前記再計算するための手段によって再計算された最も高いスコアを達成する音素シーケンスに対応する基本形音素のシーケンスを選択するための手段と、を含んでもよい。
この発明の別の局面は、コンピュータで実行されると、前記コンピュータを上述の自動音声認識システムのいずれかに記載された手段の全てとして機能させる、コンピュータプログラムに関する。
従来の発音レキシコンを概略的に示す図である。 (A)はデータDとモデルMとの条件関係を記述するBNトポロジ60を示す図であり、(B)はデータD、モデルM、及びいくつかの付加的知識源K、K、…K間の条件関係を記述するBNトポロジ80を示す図である。 図2(B)の例に対応する本件発明の1実施の形態のBNlexトポロジ構造を示す図である。 この発明の実施の形態で用いられる文脈ラベルを示す図である。 この発明の第1の実施の形態のシステム130を示すブロック図である。 自然発話コーパス132の発話データ170の構成を概略的に示す図である。 BNlexトレーニングモジュール134のブロック図である。 図5に示すASRユニット156のブロック図である。 図5に示す再スコアリングモジュール160のブロック図である。 再スコアリングモジュール160がNベスト仮説158をどのように再スコアするかを概略的に示す図である。 この発明の実施の形態で用いられるコンピュータシステム330の外観を示す図である。 コンピュータシステム330のブロック図である。 この発明の第2の実施の形態のASR装置380のブロック図である。
[第1の実施の形態]
1.始めに
以下で説明する実施の形態は、会話における音声認識の発音変異のモデル化に関するものであり、ここでは、規範的発音(基本形)から、実際の/現実化された音素(表面形)へのマッピングがベイズネットワークによってモデル化される。この図形的モデルフレームワークの利点は、基本形、表面形、及び何らかの付加的知識源の間の確率的関係を、統一された方法で学習できることである。従って、種々のドメインからの様々な付加的知識源を容易に組入れることができる。実施の形態では、表面形の、現在の基本形音素、先行する基本形音素及び後続の基本形音素に対する依存性、単語中の現在の基本形音素の位置に対する依存性、並びに、先行の表面音素が削除されたか否かに対する依存性を利用する。
最近、ASRにベイズネットワーク(BN)等の確率(統計的)モデルを用いることが注目されている。BNモデルは様々な(離散的及び/又は連続した)ランダムな変数の複雑な同時確率分布を、良好に構築され容易に表現できるやり方でモデル化することができる。さらに、ダイナミックBN(DBN)を用い、シンボル的特徴に基づいて発音変異をモデル化する試みもなされている。この代替的なモデル化のアプローチは、様々な種類の知識源を発音変異モデルに組入れるための理想的候補であるように思われる。しかし、多くの知識源が組入れられると、モデル推論の計算の複雑さとメモリの要求とが、ノードの数として指数関数的に増加する。この場合、モデル化は現実的でなくなる。
この実施の形態では、付加的知識源が発音変異モデルに組入れられるが、ここで、規範的発音(基本形)から実際の/現実化された音素(表面形)へのマッピングがBNを用いてモデル化される。提案されるBNは静的であって、時間次元に依存しない。これを、「BNレキシコン(BN lexicon)の意味で「BNlex」と呼ぶ。この図形的なモデルフレームワークの利点は、基本形、表面形及び何らかの付加的知識源の間の確率的関係を統一的に学習可能であり、モデルのグローバル確率関数(global probability function:PDF)を立式できることである。このため、異なるドメインからの種々の様々な付加的知識源を容易に組入れることができる。
この実施の形態では、表面形の、現在の基本形音素、先行する基本形音素及び後続の基本形音素に対する依存性、単語中の現在の基本形音素の位置に対する依存性、並びに、先行の表面音素が削除されたか否かに対する依存性を利用する。
以下の説明では、まず、一般的フレームワーク、BNlexのトポロジ的構造、及びその出力確率を含めて、BNを用いた発音変異モデル化をより詳細に述べる。その後、パラメータの数を減じることによってモデルの信頼性をどのように高め、さらに提案されたBNlexをASRシステムにおいてどのようにトレーニングに使用するかを説明する。
2.BNによる発音モデル化
2.1 一般的フレームワーク
このセクションでは、さまざまな付加的知識源を発音変異モデルに組入れる、提案に係る図形的フレームワークを紹介する。
図2(A)は、四角64で示されるデータDと四角62で示されるモデルMとの条件関係を記述したBNトポロジ60を示す。図2(B)は、四角84で示されるデータDと、四角82で示されるモデルMと、それぞれ四角88、90、…92で示されるいくつかの付加的知識源K、K、…Kとの条件関係を記述するBNトポロジ80を示す。
モデルMをいくつかの観測データDを用いてトレーニングする簡単な例から始める。DとMとの因果関係をBNを用いて記述し、図2(A)に概略的に例示する。ここでは、両者が四角いノードで示される離散変数であると仮定している。BN同時PDFは以下のように因数分解される。
Figure 2010139745
が得られる。
ここで、様々な付加的知識源K、K、…Kをモデルに組入れると仮定する。このため、D、M及びK、K、…Kの条件関係を、我々のデータの知識に基づいて簡潔に定義し、これによってK、K、…KをP(D,M)に組入れる。同時確率モデルも同様に表現する。例えば、D、M及びK、K、…Kの条件関係を図2(B)に概要を示したBNで記述することもできる。ここでは、K、K、…Kの全てを条件の上で独立であると仮定した。この場合、式(1)から、図2(B)で表されたBNについて、同時PDFは以下のようになる。
Figure 2010139745
推論の間の主な関心事は、以下のグローバルな条件付き確率を計算することである。
Figure 2010139745
もしこのPDFが、直接に計算することを許す形であれば、以下の2つの場合が考えられる。
1.全ての変数が観測可能である。
この場合、グローバルな条件付き確率は簡単に以下のように計算される。
Figure 2010139745
2.いくつかの変数、例えば付加的知識源K1、…KN等が観測できないか、又は隠されている。
この場合、全ての可能なKiについて、全ての可能なK:ki1,ki2,…kiMに対するマージナライゼーションによって計算が行なわれる。
Figure 2010139745

ここで、簡潔のため、(D=d)、(M=m)及び(K=kij)に代えてd、m及びkijを用いている。
2.2 発音モデルのトポロジ
図形的フレームワークを発音モデルに適用し、規範的辞書(基本形)から期待される音素が与えられた場合に、会話発音(表面形)で実現される音素モデルを予測することを重点とする。現在、Mは基本形Bであり、Dは実現された表面形Sであり、B、B、B及びSは図4で定義する付加的知識源である。
図4を参照して、“BIG”、“MID”及び“END”は、音素が、単語の始まり、中間、及び終りに出現することを示す。“SINGLE”は、単語が例えば“I”のように1文字のみからなることを示す。
図2(B)の例示に対応するこの実施の形態のBNlexトポロジ的構造を図3に示す。図3を参照して、BNトポロジ100は、四角102で示される発音基本形Bと、四角104で示される表面形104と、それぞれ四角108、110、112、及び114で示される文脈による知識源B、B、B及びSとの条件関係を記述する。BNlex同時PDFは以下のようになる。
Figure 2010139745

従って、結果として得られるBNlexモデルは複数個の音素発音変異項目を含む。発音変異モデルの各々は、音素の基本形ラベル、基本形からの表面形のラベル、基本形からの文脈による知識源の組、及び文脈による知識源の組によって決定される、文脈における基本形から表面形の生じる確率を含む。
2.3 発音出力
表面形出力は、可能な全ての表面形発音s、s、…、skのうち、最も確率の高いもの^s(式中、^は文字sの上に付される)である。
Figure 2010139745
ここで、BNlexの出力確率は式(4)を用いて簡単に得られ、以下を与える。
Figure 2010139745
推論において隠れた値が存在する場合、計算は式(5)に示されるように全ての可能な値に対するマージナライゼーションで行なわれる。例えば、推論においてb、b、b及びSの値が隠れている場合、計算は以下のようになる。
Figure 2010139745
3.モデル信頼性の向上
セクション2.2に記載のとおり、4個の付加的知識源を用いてBNlexを開発した。これは、B、B、B、S及びBの全ての組合せについて、表面形Sがトレーニングされたことを暗に示している。図4はBNlexで用いられる文脈要因の全ての可能な値を列挙したものである。全てのモデルパラメータの信頼性のある推定を得るためにはトレーニングデータが十分でない場合、全体の性能は大いに劣化する。従って、パラメータの数を少なくする必要がある。
ここで、パラメータの数を少なくするために、音素文脈B及びBを調音の方法の主たる差異に基づいてグループ化する。なぜなら、同じ調音位置を有する音素の多くは、隣接する音素に対して、似た効果を与える傾向があるからである。例えば、/b/と/p/は後続の母音に同様の効果を与え、/n/は/m/と同様に後続の母音に効果を与える。テーブル1は知識ベースの音素クラスの例を列挙する。
Figure 2010139745
4.トレーニング手順及び使用の問題
BNlexのトレーニング手順は以下のステップを含む。
1.初期化
2.データアライメント
ダイナミックプログラミングアルゴリズムを用いて、基本形と表面形とのアライメントを行なう。
3.BNトレーニング。
アライメントされたトレーニングデータを用いて、BNデータをトレーニングする。これは、標準的統計的手法を用いて達成される。トレーニングの間に全ての変数が観測可能なので、単純なMLパラメータ推定方法を用いることができる。BとSとの間のマッピングは、置換、挿入又は削除を含む。しかし、挿入は稀で、より複雑なモデルなので、ここでは実現化された表面音素においては置換と削除のみが可能であるとする。
提案に係るBNlexを、以下の目的で適用することができる。
1.BNlexを用いて、標準的静的辞書拡張を行ない、代替的な表面形発音を得ることができる。その後この辞書拡張を用いて、音響モデルとの強制的アライメントを行なうことによって、トレーニング発話にアライメントされた音素を生成し、最良の代替となる発音を選択することができる。
2.BNlexはまた、図5に示すように、標準的トライフォンASRから生成されるNベストリストの再スコアリングに用いられる。
5.システム構成
図5は、この発明の第1の実施の形態に従った音声認識システム130のシステム構成を示す図である。図5を参照して、システム130は、BNlex136を用いて入力音声138を出力140にデコードするためのASRシステム142と、BNlex136をトレーニングするためのBNlexトレーニングモジュール134とを含む。BNlex136をトレーニングするために、自然発話コーパス132が用いられる。出力140は、ほとんどの場合、入力音声138によって表わされる内容に対応する単語のシーケンスである。
図6は自然発話コーパス132内の発話データの組170を概略的に示す図である。図6を参照して、発話データ170は発話のテキストデータ(“And I just”)と、発話中の単語の典型的な発音基本形180と、発話を構成する単語の表面形182にアライメントされた発話の音響データ172と、各表面形の音素の各々に付されたラベル174、176、及び178の組と、を含む。ラベルの各々は、図4に示すように規定された付加的知識源B、B、B及びSに対応する表記法の組を含む。
図6において、表面形から削除された音素は、“D”及び“and”のように、“−”のマークで示される。
単語“and”の表面形発音の音素“EA”に付されたラベルを見てみる。この音素の左側と右側とにある音素はそれぞれ、“SIL”(silence:無音)と“N”とである。この音素は単語の頭にある。この音素は、基本形に対して削除されていない。従って、この表面音素に付される文脈ラベルは“SIL”、“N”、“BEG”及び“NOT D”である。同様に、“and”の中の“N”についてのラベルの組176は“AE”、“D”、“MID”及び“D”であり、“and”の中の“D”についてのラベルの組174は“N”、“AY”、“END”及び“D”である(基本形180における“D”は表面形182では削除されていることに注意されたい)。
図7はBNlexトレーニングモジュール134の概略構成を示す図である。図7を参照して、BNlexトレーニングモジュール134は、自然発話コーパス132中の音素の表面形とその文脈とを分類して、分類された音素192を出力する分類モジュール190と、BNlex136をトレーニングするための確率計算モジュール196、すなわち、表面形音素(S)と、文脈ラベル(B、B、B及びS)の組と、基本形音素(B)との組合わせの確率を計算する計算モジュールと、を含む。BNlex136は、図3に示すように、単語のリスト、それらのそれぞれの表面形、及びいくつかのBNlexモデルを含む。基本形の音素B、表面形S及び文脈ラベルB、B、B、Sの組合せの各々について、BNレキシコンモデルが準備されトレーニングされる。
上述の説明から当業者には理解されるように、表面形SはB、B、B、S及びBの全ての組合せについてトレーニングされる。従って、これらパラメータの組合せが与えられると、特定の文脈でその表面形が生じる確率が、BNlexを用いて計算される。
再び図5を参照して、ASRシステム142は、統計的音響モデル150と、従来の発音レキシコン152と、統計的言語モデル154と、入力音声138を統計的にデコードし、音響モデル150、発音レキシコン152および言語モデル154を用いて、予め定められた数Nの最尤仮説であるNベスト仮説158のテキストデータを出力する従来のASRユニット156と、BNlex136を用いてNベスト仮説158を再スコアリングし、最高のスコアを達成した仮説を新たな出力140として出力するための再スコアリングモジュール160と、を含む。すなわち、再スコアリングモジュール160は単語の各シーケンスの確率スコアを、入力音声138に対して再計算する。
音響モデル150、発音レキシコン152、言語モデル154及びASRユニット156は従来のものである。
図8を参照して、ASRユニット156は、入力音声138をサンプリングし量子化するためのサンプリングユニット230と、サンプリングされた音声データを所定フレーム長で所定フレームシフト量のフレームのシーケンスに変換するためのフレーム形成モジュール232と、フレームの各々から予め定められた特徴量の組を抽出し、各フレームの特徴ベクトルを出力するための特徴抽出モジュール234と、音素レベルで特徴ベクトルをデコードし、音響モデル150を用いていくつかの音素候補シーケンスを出力するための音素認識モジュール236と、音素認識モジュール236から出力された音素シーケンスから、各々、可能な単語シーケンスを形成するいくつかの音素シーケンスを選択するための単語レベル認識モジュール238と、単語レベル認識モジュール238によって出力された単語シーケンスの各々のLMスコアを計算し、最高のスコアを達成した(単語レベルの)Nベスト仮説を選択するためのLMスコアリングモジュール240と、を含む。単語レベル認識はビタビアルゴリズムに基づいてASRユニット156で行なわれる。Nベスト仮説の各々は音響スコア、LMスコア及び全音素のビタビセグメント化を含む。
図9は再スコアリングモジュール160の構成を示す図である。図9を参照して、再スコアリングモジュール160は、BNlex136を用いて、仮説の各々を表面音素シーケンスに変形する変形モジュール250と、新たな表面音素セグメントを強制的にアライメントして新たな音響スコアを得るための強制アライメントモジュール260と、言語モデル154を用いて、音響スコアとLMスコアとを組合せて、仮説を新たに計算されたスコアとともに出力するためのLM確率組合せモジュール262と、最も高い再計算されたスコアを達成する仮説を選択し出力140として出力するための、仮説選択モジュール264と、を含む。
再スコアリングモジュール160は各仮説中の基本形音素セグメントの各々を、提案されたBNlex(式(7))を用いて現実化された表面形に変形し、各仮説について、最尤の表面形シーケンスが選択される。
図10は、再スコアリング方法を例示する図である。Nベスト仮説280に基づき、表面形の変異が282で生成され、それらの確率がBNlex136を用いて計算される。最も尤もらしい表面形284は、変異の中から選択される282。選択された変異284はその後音響データ(入力音声138)と強制的にアライメントされる288。このアライメントから、音響モデル150を用いて、この仮説の音響スコアが再計算される。
6.動作
図5から図10を参照して、この実施例のシステム130は以下のように動作する。まず始めに、図5に示される自然発話コーパス132が準備される。図6に示されるような、音素へのラベリングを含む準備は、手操作で行なわれる。その後、図7に示すように、分類モジュール190が自然発話コーパス132内の音素の表面形を分類し、分類された音素192と表面形のリスト194とを出力する。確率計算モジュール196は、表面形音素(S)と、ラベルの組(B、B、B及びS)と、基本形音素(B)との全ての組合せの確率を計算する。確率と、対応の組合せとはともに記憶部198に記憶される。表面形確率計算モジュール200は、表面形シーケンス、対応する文脈ラベル、及び基本形シーケンスの組合せの確率を計算し、BNlex136を生成する。
実行時には、音声138がASRユニット156に与えられると、ASRユニット156は入力音声138をデコードし、Nベスト仮説158を出力する。特に図9を参照して、変形モジュール250はNベスト仮説158の各々を、BNlex136を用いて現実化された表面音素シーケンスに変形する。強制アライメントモジュール260はその後、新たな表面音素セグメントを強制的にアライメントし、新たな音響スコアを得る。LM確率組合せモジュール262は、言語モデル154を用いてLMスコアと仮説の更新された音響スコアとを組合せ、仮説を新たに計算されたスコアとともに出力する。仮説選択モジュール264は合計で最も高い発話スコアを達成した仮説を、新たな認識出力140として選択する。
7.ハードウェア構成
上述の実施の形態は、純粋にハードウェアで実現することもできる。しかし、最もよくあると思われる実現例は、コンピュータハードウェアと組合せたソフトウェアによる解決策である。
上述の実施の形態は、コンピュータシステムと、コンピュータハードウェア上で実行されるコンピュータプログラムとで実現可能である。上述の機能ブロックの各々は、上述の説明を当業者に提示すれば、容易にソフトウェアで実現されるであろう。このようなソフトウェアが実行されるコンピュータハードウェアは、音響処理能力を有するものであれば、通常の構成のものでよい。
図11はこの実施例で用いられるコンピュータシステム330の外観を示し、図12はコンピュータシステム330のブロック図である。ここで示されるコンピュータシステム330は単なる例示であって、他の構成も利用可能である。図11を参照して、コンピュータシステム330は、コンピュータ340と、全てコンピュータ340に接続された、モニタ342と、キーボード346と、マウス348と、スピーカ372と、マイクロフォン370と、を含む。さらに、コンピュータ340はDVD−ROM(Digital Versatile Disk Read−Only Memory)ドライブ350と、半導体メモリドライブ352と、を含む。
図12を参照して、コンピュータ340はさらに、DVD−ROMドライブ350及び半導体メモリドライブ352に接続されたバス366と、CPU(Central Processing Unit:中央処理装置)356と、コンピュータのブートアッププログラムを記憶するROM(Read−Only Memory:読出専用メモリ)358と、CPU356によって用いられるワークエリアとCPU356によって実行されるプログラムの記憶領域とを提供するRAM(Random Access Memory:ランダムアクセスメモリ)360と、オーディオデータ(入力音声138)、音響モデル150、発音レキシコン152、BNlex136、言語モデル154及び自然発話コーパス132を記憶するハードディスクドライブ354と、を含む。
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM362又は半導体メモリ364等の記録媒体上に記録されたオブジェクトコードの形で頒布されてもよく、DVD−ROMドライブ350又は半導体メモリドライブ352等の読出装置を介してコンピュータ340に提供され、ハードディスクドライブ354に記憶される。CPU356がプログラムを実行する場合は、プログラムはハードディスクドライブ354から読出され、RAM360に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU356が、処理すべきデータをハードディスクドライブ354、RAM360、又はCPU356内のレジスタ(図示せず)から読出し、処理の結果をまたハードディスクドライブ354、RAM360、又はCPU356内のレジスタに記憶する。マイクロフォン370とサウンドボード368とは上述の実施の形態のシステムで処理すべきオーディオデータをキャプチャするのに用いられる。
コンピュータシステム330の一般的動作は周知であるので、詳細はここでは説明しない。
ソフトウェア頒布の方法について、これは必ずしも記録媒体上に固定されていなくてもよい。例えば、ソフトウェアはネットワークで接続された別のコンピュータから配布されてもよい。ソフトウェアの一部をハードディスクドライブ354に記憶させ、ソフトウェアの残りの部分をネットワークを介してハードディスクドライブ354に取寄せ、実行時に統合してもよい。
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従った制御されたやり方でこれら機能を実行する。従って、OS又はサードパーティによって提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定するプログラムも、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、この発明の範囲に含まれることは明らかである。
[第2の実施の形態]
第1の実施の形態では、BNlex136を用いてNベスト仮説を再スコアリングした。しかし、この発明はそのような実施の形態に限定されない。BNlex136はデコードの処理それ自体で用いてもよい。第2の実施の形態では、図8に示すASRユニット156の単語レベル認識モジュール238が、BNlexに置換えられる。図13はこの発明の第2の実施例に従ったASR装置380のブロック図である。図8及び図13から明らかなように、ASRユニット156内の単語レベル認識モジュール238は、BNlex136を用いて音素認識モジュール236から出力される音素シーケンスをスコアリングする単語レベル認識モジュール390に置換えられる。
音素認識モジュール236の場合、音素のシーケンスは、発音レキシコン152中で音素シーケンスに最も近い基本形発音を有する単語を見つけることで、単語シーケンスに変形される。これに対して、単語レベル認識モジュール390は、BNlex136内のBNレキシコンモデルを利用した確率計算により音素シーケンス(表面形のシーケンス)に変形された、BNlex136内の単語の確率を計算し、音素のシーケンスを確率(BNlexスコア)付きの単語シーケンスの組(仮説)に変形する。その後、LMスコアリングモジュールがさらに仮説のBNlexスコアをLMスコアと組合せ、最も高い発話スコアを達成する仮説を選択する。
上の説明から明らかなように、この発明はBNフレームワークを用いて会話音声認識における発音変異をモデル化する。この方法は、付加的情報を既存の統計的発音モデルに容易に統合することを可能にする。BNlexは、Nベスト出力の再スコアリング、又はでコード処理で用いることもできる。
話し方のスタイル及び韻律を含むより高度な知識源をこのBNlexフレームワークに組入れることも可能である。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
130 音声認識システム
132 自然発話コーパス
134 BNlexトレーニングモジュール
136 BNlex
138 入力音声
140 出力
150 音響モデル
152 発音レキシコン
154 言語モデル
158 Nベスト仮説
160 再スコアリングモジュール
170 発話データ
180 基本形
182 表面形
380 ASR装置
390 単語レベル認識モジュール

Claims (9)

  1. 統計的発音変異モデルを記憶する記憶媒体であって、前記モデルは複数の音素発音変異項目を含み、
    前記発音変異項目の各々は、
    音素の基本形と
    音素の前記基本形の表面形と、
    前記基本形の文脈による知識源の組と、
    前記文脈による知識源の組によって決定される文脈において前記表面形が前記基本形から生じる確率とを含む、記録媒体。
  2. 前記文脈による知識源の組は、前記基本形に先行する音素、前記基本形に後続する音素、及び前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む、請求項1に記載の記録媒体。
  3. 前記文脈による知識源の組は、前記基本形に先行する音素クラス、前記基本形に後続する音素クラス、前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む、請求項1に記載の記録媒体。
  4. 自動音声認識システムであって、
    特定の言語の発音基本形の各々について、発音基本形、発音表面形及び1又は2以上の付加的な知識源間の条件関係を記述するベイズネットワークトポロジーとともに、統計的発音モデルを記憶するための手段と、
    前記特定言語の入力音声信号を、音響モデル、言語モデル、及び前記統計的発音モデルを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語において最尤単語シーケンスのテキストデータを出力するための手段とを含む、自動音声認識システム。
  5. 前記1又は2以上の付加的な知識源は、前記特定言語における単語の発音基本形の1又は2以上の文脈による知識源を含む、請求項4に記載の自動音声認識システム。
  6. 前記文脈による知識源は、発音基本形が単語のどこに位置するかに関する情報、前記発音基本形の前に何があるかに関する情報、前記発音基本形の後に何があるかに関する情報、前記発音基本形が対応の発音表面形で削除されるか否かに関する情報、又はそのいずれかの組合せを含む、請求項4に記載の自動音声認識システム。
  7. 前記統計的デコードのための手段は、
    前記入力音声信号を、前記音響モデル、前記言語モデル、及び前記特定言語におけるレキシコンを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語における予め定められた数の最尤単語シーケンスのテキストデータを出力するための手段と、
    前記統計的発音モデルを用いて前記入力音声信号に対する前記単語シーケンスの各々の確率的スコアを再計算するための手段と、
    前記単語シーケンスのうち前記再計算するための手段によって再計算された最も高いスコアを達成するものを選択するための手段とを含む、請求項4に記載の自動音声認識システム。
  8. 前記統計的デコードのための手段は、
    前記入力音声信号を、音素レベルで、前記音響モデルを用いてデコードし、前記入力音声信号を表す音素のいくつかのシーケンス候補を出力するための手段と、
    前記統計的発音モデルと前記言語モデルとを用いて、前記音素のシーケンス候補の各々についての確率スコアを計算するための手段と、
    前記再計算する手段によって再計算された最も高いスコアを達成する音素シーケンスに対応する基本形音素のシーケンスを選択するための手段とを含む、請求項4に記載の自動音声認識システム。
  9. コンピュータで実行されると、前記コンピュータを請求項4〜請求項8のいずれかに記載の手段の全てとして機能させる、コンピュータプログラム。
JP2008315769A 2008-12-11 2008-12-11 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム Expired - Fee Related JP5180800B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008315769A JP5180800B2 (ja) 2008-12-11 2008-12-11 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008315769A JP5180800B2 (ja) 2008-12-11 2008-12-11 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010139745A true JP2010139745A (ja) 2010-06-24
JP5180800B2 JP5180800B2 (ja) 2013-04-10

Family

ID=42349947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008315769A Expired - Fee Related JP5180800B2 (ja) 2008-12-11 2008-12-11 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5180800B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010139963A (ja) * 2008-12-15 2010-06-24 Internatl Business Mach Corp <Ibm> 音声認識システムおよび方法
JP2013061371A (ja) * 2011-09-12 2013-04-04 National Institute Of Information & Communication Technology 発音辞書作成装置、発音辞書の生産方法、およびプログラム
JP2016011995A (ja) * 2014-06-27 2016-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム
CN106297828A (zh) * 2016-08-12 2017-01-04 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN111862958A (zh) * 2020-08-07 2020-10-30 广州视琨电子科技有限公司 发音插入错误检测方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL2003163C2 (en) 2009-07-09 2011-01-11 Salusion Ip B V A moisture detecting module and a receiving unit.
KR102662571B1 (ko) 2018-03-02 2024-05-07 삼성전자주식회사 전자 장치, 제어 방법 및 컴퓨터 판독 가능 매체

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234504A (ja) * 2004-02-23 2005-09-02 Advanced Telecommunication Research Institute International 音声認識装置及びhmm発音モデルをトレーニングする方法
JP2007052166A (ja) * 2005-08-17 2007-03-01 Advanced Telecommunication Research Institute International 音響モデルの準備方法及び自動音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234504A (ja) * 2004-02-23 2005-09-02 Advanced Telecommunication Research Institute International 音声認識装置及びhmm発音モデルをトレーニングする方法
JP2007052166A (ja) * 2005-08-17 2007-03-01 Advanced Telecommunication Research Institute International 音響モデルの準備方法及び自動音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200501506003; 秋田祐哉他: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 D-II 第J88-D-II巻,第9号, 200509, 第1780-1789頁, 社団法人電子情報通信学会 *
JPN6012054033; 秋田祐哉他: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 D-II 第J88-D-II巻,第9号, 200509, 第1780-1789頁, 社団法人電子情報通信学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010139963A (ja) * 2008-12-15 2010-06-24 Internatl Business Mach Corp <Ibm> 音声認識システムおよび方法
JP2013061371A (ja) * 2011-09-12 2013-04-04 National Institute Of Information & Communication Technology 発音辞書作成装置、発音辞書の生産方法、およびプログラム
JP2016011995A (ja) * 2014-06-27 2016-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム
CN106297828A (zh) * 2016-08-12 2017-01-04 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN106297828B (zh) * 2016-08-12 2020-03-24 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN111862958A (zh) * 2020-08-07 2020-10-30 广州视琨电子科技有限公司 发音插入错误检测方法、装置、电子设备及存储介质
CN111862958B (zh) * 2020-08-07 2024-04-02 广州视琨电子科技有限公司 发音插入错误检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP5180800B2 (ja) 2013-04-10

Similar Documents

Publication Publication Date Title
CN113811946B (zh) 数字序列的端到端自动语音识别
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
KR20080018622A (ko) 휴대용 단말기의 음성 인식 시스템
Neubig et al. Bayesian learning of a language model from continuous speech
JPH09509509A (ja) 複合語を有する言語における音声認識の方法及びシステム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
WO2022074760A1 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130111

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees