JP2009003110A - 知識源を組込むための確率計算装置及びコンピュータプログラム - Google Patents
知識源を組込むための確率計算装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2009003110A JP2009003110A JP2007162864A JP2007162864A JP2009003110A JP 2009003110 A JP2009003110 A JP 2009003110A JP 2007162864 A JP2007162864 A JP 2007162864A JP 2007162864 A JP2007162864 A JP 2007162864A JP 2009003110 A JP2009003110 A JP 2009003110A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- model
- calculating
- local
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】確率計算装置516は、統計的音響モデル及び知識源を利用して音声信号における各音素の確率を計算する。統計的音響モデル及び知識源はベイズネットワーク(BN)により示される因果関係を有し、BNは、クラスタノード及びセパレータノードを含むジャンクションツリーに対応する。本装置516は、局部的音響モデルR3,C1,L3の記憶装置520と、フレームの各々に対して観測データを計算するモジュールと、局部的音響モデルR3,C1,L3を利用して、観測データを発生する各音素の局部的確率を計算する右、中央、及び左コンテキスト計算装置570、572及び574と、局部的確率の関数として各音素の確率を計算するPDF計算装置576とを含む。
【選択図】 図13
Description
ここでは,本願が提案するフレームワークを,データのスパースネス及びメモリの制約という困難をしばしば伴う,広域音素知識情報に組込むという問題に適用することについて論ずる.はじめに,どのように付加的知識源がHMM状態の分布に組込まれるかを示す.次に,どのように付加的知識源がHMM音素モデリングに組込まれるかを示す.何れのアプローチも2種類のアクセントを含む英語音声データを用いた大語彙連続音声認識実験により実験的に実証されている.
統計的コーパスベースのアプローチにおいては,ある観測データDが与えられることにより,モデルMをトレーニングする.興味の対象となる重要な問題の1つは,そのモデルについて特定の知識が与えられることにより期待することができるデータを予測する,尤度P(D|M)を計算することである.
DとMの間の因果関係がBNを用いて説明されるような,単純な場合からはじめる.BNの1つの例は,図2(A)にその概略を示す,ノード72及びノード74を含むBN70である.ここで,ノードM72は正方形のノードで示される離散変数であり,ノードD74は楕円のノードにより示される連続変数である.
推論における最重要関心事は,大域での条件付確率P(D|K1,…,KN,M)を計算することである.この確率密度関数がとる形式が,直接的なBN推論を許容する場合,以下の2つのケースが考えられる.
K1及びK2の2つの付加的知識源の組込みのみの単純なケースを考えてみる.D,M,K1及びK2の間の因果関係を,図4(A)に示すBN110により示す.BN110はM,D,K1及びK2によりそれぞれ示す,ノード112,114,116及び118を含む.ここで,ノードM,K1及びK2は正方形のノードで示される離散変数であり,ノードDは楕円のノードで示される連続変数である.
チェーンルールを用いることにより,全てのP(D,Ki,M)に対し以下の式を得る.
従来のHMMに関連して,いくつかの表記を定義する.トライフォンコンテキスト/a−,a,a+/のHMM音声モデルをλ,HMM状態変数をQと表記する.Xは観測変数であり,Xs=Xt,…,Xt+mは長さmの観測データセグメントである.図6に,標準的なHMM190の構造の概要を示す.ここでは,
1)短時間スペクトル特性はガウス分布210,212,及び214の混合によりモデル化される.
A.一般的検討
モデルMは所定のトライフォンHMM状態Qであり,Dはセクション2に述べた理論的フレームワークに従う観測変数Xである.
このトポロジの構造は図2(A)に示すものと同様であり,トライフォンHMM状態PDFは,ここでは式(3)と同様のBN同時確率関数により示される.
主たる関心事はHMM状態出力確率P(X|K1,…,KN,Q)の計算であるが,これはガウス関数により簡単にモデル化することが可能である.このために,状態出力を直接得ることができる.全ての追加の知識源K1,…,KNがセクション2−Bに示されたように隠されていると仮定すると,状態出力確率は,すべての1≦i≦Nに対して,すべての可能なKi:ki1,ki2,…,kiMをマージナライゼーションすることにより,式(8)と同様に得られる.
ASRシステムにおいて最も広く用いられる音響ユニットは,現在のところ,依然として,直近の先行する音素コンテキスト及び後続する音素コンテキストを含むトライフォンである.トライフォンは効果的な選択であることが確認されてきたが,より長い期間にわたる同時調音効果を捉えるためには,広域音素コンテキストの方がより適切と考えられている.しかし,広域音素コンテキストには,データのスパースネス及びメモリの制約という問題がある.
A.一般的検討
セクション2に記述の理論的フレームワークに従い,再びモデルMをHMM音素モデルλ,DをセグメントXsとする.
トポロジの構造は図2(A)に示されるものと同様であり,HMM音素ユニットの確率関数は今回は式(3)と同様のBN同時確率関数により示される.
ここでの最大の関心事は,与えられた入力セグメントXsに対するP(Xs|K1,…,Kn,λ)を計算することである.しかし,条件付PDFに対する単純な形式の関数を得るのは困難である.なぜなら,この式には,持続時間が変化するHMMモデルλ,及びセグメントXsが関係しているからである.このためここで,セクション2−Cで述べたジャンクションツリーアルゴリズムにより,P(Xs|K1,…,KN,λ)を分解する必要がある.これは式(14)に従い以下のように分解される.
前のセクションで述べたアプローチを,広域音素の知識情報の組込みの場合と同じ課題に対して適用してみる.広域音素知識情報の組込みにおいては,トライフォンコンテキスト/a−,a,a+/を,ペンタフォンコンテクスト/a−−,a−,a,a+,a++/に拡張する.構造上,従来のHMMのトライフォンコンテキストユニットモデルは,図10(A)に示すモデル370として説明され,ペンタフォンコンテキストユニットモデルは,図10(B)に示すモデル372として説明される.
出願人(株式会社国際電気通信基礎技術研究所(ATR))が準備した,アクセント付の英語発声コーパスをこの実験に用いた.文の素材は,旅行で用いられる表現の基本的なドメインに基づくものである.発話データベースは,アメリカ(US)とオーストラリア(AUS)の英語アクセントからなり,各アクセントは各々,100人の話者(男性50名,女性50名)による約45,000の発話(44発声時間)からなる.このデータの90%,すなわち40,000の発話(男女各40人の話者による20,000の発話)をトレーニングデータとして用いた.評価のため,残り10%のアクセントデータ(US及びAUS)の混合物から,20人の異なる話者(男性10名,女性10名)による,200の発話をランダムに選択した.バイグラム及びトライグラム言語モデルを,約150,000の旅行に関する文によりトレーニングした.利用可能であった発音辞典は37,000の単語からなり,USの発音に基づいていた.
提案に係るペンタフォンモデルを,セクション4−Bに記述したように,音素クラスコンテキスト変数でラベル付けされたすべてのアクセントデータにおいて,同じ量のトレーニングデータを用いてトレーニングした.モデルの状態トポロジ,状態の総数,及び,遷移確率は,すべてトライフォンHMMベースラインと同一である.それゆえに,これらはすべてパラメータの数という点で同様の複雑さを有する.主要な違いは,状態の確率分布において,各々のガウス分布がCLまたはCRにより明確に条件付けされているという点にのみある.これとは対照的に,HMMベースラインでの全てのガウス成分は,混合インデックスに関する「意味のある」解釈無しにEMアルゴリズムにより学習された.いくつかの音素コンテキストクラスCLまたはCRは,文法規則により存在しないか,又はトレーニングデータに現れず,その結果,トレーニング後に,状態当り平均約50のガウス分布が得られた.データ駆動型クラスタリング技術を用いてペンタフォンモデルのサイズを状態当り5,10,15及び20の混合成分に対応するよう減少させることにより,推定パラメータの信頼性の低下を避け,ガウス分布の総数が全く同じであることにより,性能をベースラインシステムと比べることが可能なようにする.
非特許文献8では,我々は,ペンタフォンモデルを分解する数種類の方法を調査し,最良の方法がC1L3R3構成であることを見出した.ここでは,C1L3R3モデルのみを用いた追加の実験について記述する.
最後に,2,202個の状態数の従来のペンタフォンHMMモデルであって,何も無いところからMDL−SSSを用いてトレーニングされたものを用い,提案に係るモデルの性能の高さが,主に広域音素コンテキストによりもたらされたものかどうかを調査するために,追加の実験を行なった.性別及びアクセントに依存するペンタフォンモデルも,特定のアクセント又は性別に関するトレーニングデータでの組込み手順を用いて取得した.これらはベイズペンタフォンの場合と同様,Nベストリストを再スコアリングすることにより実現された.
統計的音響モデルを基本としたHMMに,付加的知識源を組込むための一般的なフレームワークを述べた.広域音素コンテキスト情報をトライフォンHMMへ組込むことにより,このフレームワークの実現を提示した.これは最初にBNを用いてHMMの状態レベルで行なわれた.付加的知識源が認識の間に隠されていても,このアプローチによれば標準デコーディングシステムを変更なく使用することができる.次に,広域音素コンテキスト音響モデリングを,より狭いコンテキストを持ついくつかの他のモデルを用いて構築することにより,HMM音素モデルレベルで組込んだ.この複合の技術によって,推定されるべきコンテキストユニットの数の削減がもたらされたため,コンテキスト依存性のより少ないモデルを推定することが必要なだけとなったので,コンテキストの分解能は著しく向上した.
上述の実施の形態は,コンピュータシステムと,当該システム上で実行されるコンピュータプログラムとによって実現可能である.図19はこれら実施の形態で用いられるコンピュータシステム650の外観を示し,図20はコンピュータシステム650のブロック図である.ここで示すコンピュータシステム650は単なる例示であって,さまざまな他の構成が利用可能である.
限されるわけではない.本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許
請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内で
のすべての変更を含む.
130,150 モラル及びトライアンギュレートグラフ
160,180,450 ジャンクションツリー
190 HMM
270,290,310,400,430 BNトポロジ
164,166,170,460,464,474 クラスタの組
162,168,462,472 セパレータの組
500 ASRシステム
510 音声波形データ
512 標準的なデコーダ
514 Nベストリスト
516 仮説選択モジュール
530 C1L3R3ペンタフォンモデル
532 C1L3R3−A ペンタフォンモデル
534 C1L3R3−G ペンタフォンモデル
536 C1L3R3−AG ペンタフォンモデル
550 メモリ
552 読出及び供給モジュール
554,556,558,560,526 シフトメモリ
570 右コンテキスト計算装置
572 中央コンテキスト計算装置
574 左コンテキスト計算装置
576 確率密度関数計算装置
578 再スコアリングモジュール
580 ソート及び選択モジュール
Claims (6)
- 音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置であって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記装置は、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む、確率計算装置。 - 前記モデルMはモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項2に記載の装置。 - 前記モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項2に記載の装置。 - 前記追加の知識源は、アクセント知識、又は性別に関する知識、又はアクセント知識及び性別に関する知識の両方を含む、請求項4に記載の装置。
- コンピュータ上で実行されると、前記コンピュータに、音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置として機能させるコンピュータプログラムであって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記コンピュータプログラムは、前記コンピュータを、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162864A JP4861912B2 (ja) | 2007-06-20 | 2007-06-20 | 知識源を組込むための確率計算装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162864A JP4861912B2 (ja) | 2007-06-20 | 2007-06-20 | 知識源を組込むための確率計算装置及びコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009003110A true JP2009003110A (ja) | 2009-01-08 |
JP2009003110A5 JP2009003110A5 (ja) | 2010-06-24 |
JP4861912B2 JP4861912B2 (ja) | 2012-01-25 |
Family
ID=40319579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007162864A Expired - Fee Related JP4861912B2 (ja) | 2007-06-20 | 2007-06-20 | 知識源を組込むための確率計算装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4861912B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779510A (zh) * | 2012-07-19 | 2012-11-14 | 东南大学 | 基于特征空间自适应投影的语音情感识别方法 |
US8645139B2 (en) | 2009-06-03 | 2014-02-04 | Samsung Electronics Co., Ltd. | Apparatus and method of extending pronunciation dictionary used for speech recognition |
KR20180127020A (ko) * | 2017-05-19 | 2018-11-28 | 한국전자통신연구원 | 자연어 대화체 음성 인식 방법 및 장치 |
CN110096677A (zh) * | 2019-05-08 | 2019-08-06 | 广西大学 | 一种基于概率计算的高阶可导函数的快速计算方法和系统 |
CN112233657A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于低频音节识别的语音增强方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117583A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2005134496A (ja) * | 2003-10-29 | 2005-05-26 | Advanced Telecommunication Research Institute International | 音声認識で使用するための隠れマルコフモデルを準備する方法 |
JP2007052166A (ja) * | 2005-08-17 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音響モデルの準備方法及び自動音声認識装置 |
JP2007066260A (ja) * | 2005-09-02 | 2007-03-15 | Ntt Docomo Inc | ネットワーク変換システム、ネットワーク変換方法 |
-
2007
- 2007-06-20 JP JP2007162864A patent/JP4861912B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117583A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2005134496A (ja) * | 2003-10-29 | 2005-05-26 | Advanced Telecommunication Research Institute International | 音声認識で使用するための隠れマルコフモデルを準備する方法 |
JP2007052166A (ja) * | 2005-08-17 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音響モデルの準備方法及び自動音声認識装置 |
JP2007066260A (ja) * | 2005-09-02 | 2007-03-15 | Ntt Docomo Inc | ネットワーク変換システム、ネットワーク変換方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645139B2 (en) | 2009-06-03 | 2014-02-04 | Samsung Electronics Co., Ltd. | Apparatus and method of extending pronunciation dictionary used for speech recognition |
CN102779510A (zh) * | 2012-07-19 | 2012-11-14 | 东南大学 | 基于特征空间自适应投影的语音情感识别方法 |
KR20180127020A (ko) * | 2017-05-19 | 2018-11-28 | 한국전자통신연구원 | 자연어 대화체 음성 인식 방법 및 장치 |
KR102197387B1 (ko) * | 2017-05-19 | 2021-01-04 | 한국전자통신연구원 | 자연어 대화체 음성 인식 방법 및 장치 |
CN110096677A (zh) * | 2019-05-08 | 2019-08-06 | 广西大学 | 一种基于概率计算的高阶可导函数的快速计算方法和系统 |
CN110096677B (zh) * | 2019-05-08 | 2023-08-25 | 广西大学 | 一种基于概率计算的高阶可导函数的快速计算方法和系统 |
CN112233657A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于低频音节识别的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4861912B2 (ja) | 2012-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Siniscalchi et al. | Experiments on cross-language attribute detection and phone recognition with minimal target-specific training data | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
EP3076389A1 (en) | Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model | |
Rabiner et al. | An overview of automatic speech recognition | |
Hadian et al. | Flat-start single-stage discriminatively trained HMM-based models for ASR | |
Morgan et al. | An introduction to hybrid HMM/connectionist continuous speech recognition | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
Chen et al. | Sequence discriminative training for deep learning based acoustic keyword spotting | |
Rasipuram et al. | Acoustic and lexical resource constrained ASR using language-independent acoustic model and language-dependent probabilistic lexical model | |
Prabhavalkar et al. | Discriminative articulatory models for spoken term detection in low-resource conversational settings | |
Kımanuka et al. | Turkish speech recognition based on deep neural networks | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
Pakoci et al. | Improvements in Serbian speech recognition using sequence-trained deep neural networks | |
Zhang et al. | Wake-up-word spotting using end-to-end deep neural network system | |
Rosdi et al. | Isolated malay speech recognition using Hidden Markov Models | |
Razavi et al. | Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework | |
Lee | On automatic speech recognition at the dawn of the 21st century | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
Sarma et al. | Speech recognition in Indian languages—a survey | |
JP2007052166A (ja) | 音響モデルの準備方法及び自動音声認識装置 | |
El Ouahabi et al. | Amazigh speech recognition using triphone modeling and clustering tree decision | |
Ungureanu et al. | Establishing a baseline of romanian speech-to-text models | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100506 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100506 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111107 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |