JP2010096899A - 音響モデル作成方法、その装置、プログラム、その記録媒体 - Google Patents

音響モデル作成方法、その装置、プログラム、その記録媒体 Download PDF

Info

Publication number
JP2010096899A
JP2010096899A JP2008266288A JP2008266288A JP2010096899A JP 2010096899 A JP2010096899 A JP 2010096899A JP 2008266288 A JP2008266288 A JP 2008266288A JP 2008266288 A JP2008266288 A JP 2008266288A JP 2010096899 A JP2010096899 A JP 2010096899A
Authority
JP
Japan
Prior art keywords
phoneme
appearance probability
acoustic model
learning data
probabilities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008266288A
Other languages
English (en)
Other versions
JP5155811B2 (ja
Inventor
Satoru Kobashigawa
哲 小橋川
Yoshikazu Yamaguchi
義和 山口
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008266288A priority Critical patent/JP5155811B2/ja
Publication of JP2010096899A publication Critical patent/JP2010096899A/ja
Application granted granted Critical
Publication of JP5155811B2 publication Critical patent/JP5155811B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】全体的な認識精度が向上された音響モデルを作成する。
【解決手段】発音辞書記憶部に記憶されている発音辞書を用いて、言語モデル記憶部に記憶されている言語モデル中の単語を音素系列に変換し、全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の音素出現確率を求め、音素出現確率が高い高出現確率音素を選択し、学習データ記憶部から、高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとし、強化学習データとベース音響モデルから強化統計量を計算し、学習データ記憶部からの学習データについての十分統計量と強化統計量とから強化音響モデルを作成する。
【選択図】図2

Description

本発明は、入力された音声信号から計算した音響特徴パラメータ系列に対して、各音素の音響的特徴を表現した確率モデルを作成する音響モデル作成方法、装置、プログラム及びその記録媒体に関する。
図1に従来の音響モデル作成装置100の機能構成例を示す。音響モデル作成装置100は、変換部31、強化学習データ選択部32、学習データ記憶部11、学習部13、十分統計量記憶部14、強化学習データ記憶部23、強化学習部24、強化統計量記憶部25、合成部26、強化音響モデル記憶部27で構成されている。また、各構成部の処理内容、十分統計量、強化統計量については、この[背景技術]では簡単に説明し、以下の[発明を実施するための最良の形態]で詳細に説明する。
学習データ記憶部11には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデル記憶部12には、学習前の音響モデルであるベース音響モデルが予め格納されている。学習部13は、学習データ記憶部11から読み出した学習データと、ベース音響モデル記憶部12から読み出したベース音響モデルとから、十分統計量を計算して十分統計量記憶部14に格納する。
一方、強化キーワードリスト記憶部21には、所定のキーワードのリストが記憶されている。所定のキーワードとは、例えば、認識性能を改善したいキーワードや、誤認識となったキーワードである。
強化学習データ選択部32は、強化キーワードリスト記憶部21から読み出したキーワードと同一及び/又は類似のキーワードを含む学習データを、学習データ記憶部11から抽出して、強化学習データを作成する。作成された強化学習データは、強化学習データ記憶部23に記憶される。
強化学習部24は、強化学習データ記憶部23から読み出した強化学習データから、強化統計量を計算する。計算された強化統計量は、強化統計量記憶部25に格納される。強化統計量は、強化学習データ記憶部23から読み出した強化学習データに基づいて計算された十分統計量のことである。
合成部26は、十分統計量記憶部14から読み出した十分統計量と、強化統計量記憶部25から読み出した強化統計量に重みをかけたものとから強化音響モデルを作成する。作成された強化音響モデルは、強化音響モデル記憶部27に格納される。なお、音響モデル作成装置100の詳細については、特許文献1、非特許文献1に記載されている。
特開2008−129527号公報 小橋川哲、小川厚徳、政瀧浩和、高橋敏、「キーワードに関する十分統計量増強による精度向上の検討」、日本音響学会講演論文集、2008年3月、pp213−214
従来の音響モデル作成装置は、キーワードに含まれる音素のみの認識精度を向上させるものであった。従って、全体的な単語や音素の認識精度の向上を行うことができないという問題があった。また、強化するキーワードリストが必要であるという問題があった。
この発明は、キーワードリストを必要とすることなく、全体的な単語や音素の認識精度の向上を行う音響モデル作成方法、音響モデル作成装置、そのプログラム、記録媒体を提供するものである。
この発明の音響モデル作成方法は、変換過程と、出現確率計算過程と、音素選択過程と、強化学習データ選択過程と、強化学習過程と、合成過程と、を有する。変換過程は、発音辞書記憶部に記憶されている発音辞書を用いて、言語モデルに記憶されている言語モデル中の単語を音素系列に変換する。出現確率計算過程は全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の音素出現確率として求める。音素選択過程は、音素出現確率が高い高出現確率音素を選択する。強化学習データ選択過程は、学習データ記憶部から、前記高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとする。強化学習過程は、前記強化学習データと前記ベース音響モデルから強化統計量を計算する。合成過程は、学習データ記憶部からの学習データについての十分統計量と前記強化統計量とから強化音響モデルを作成する。
この発明によれば、キーワードリストではなく、言語モデルを用いるので、当該言語モデルに含まれている全体的な単語や音素の認識精度の向上を行う。また、キーワードリストを必要としないという効果も有する。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
図2に実施例1の音響モデル作成装置200の機能構成例を示し、図3に処理フローを示す。この実施例の音響モデル作成装置200は、言語モデル記憶部41、変換部42、音素系列言語モデル記憶部43、出現確率計算部44、発音辞書記憶部46、音素選択部48、学習データ記憶部11、強化学習データ記憶部23、ベース音響モデル記憶部12、学習部13、強化学習部24、強化統計量記憶部25、合成部26、強化音響モデル記憶部27、とで構成されている。
まず、言語モデル記憶部41には、予め言語モデルを記憶させる。ここで言語モデルについて説明する。この音響モデル作成装置200から出力される(後述する強化音響モデル記憶部27に記憶される)強化音響モデルを用いて、音声認識処理を行うのであるが、当該音声認識処理に係る分野(例えば、電話番号案内)の言語的な出現頻度を反映した言語モデルを用いる。
図4に言語モデルの一例を示す。この例では、言語モデルは、Nグラムで表されるとし、Nグラムの例として、ユニグラム(unigramまたは1−gram)、バイグラム(bigramまたは2−gram)、トライグラム(trigramまたは3−gram)であるとし、つまり、単語の頻度(出現確率)が、ユニグラム確率、バイグラム確率、トライグラム確率により表されているとする。また、言語モデルには、複数の文章が格納されているが、当該複数の文章のうちの一文の例を「私は発明をします」であるとし、「私/は/発明/を/します」というように、単語で区切られているとする。以下では、単語とは、1つの単語(例えば、「私」)を示し、単語系列とは、1つの単語または1つ以上の単語の組(例えば、「私→は」や「私→は→発明」等)を示す。また、図4の例では、例えば「私」のユニグラム確率は0.0001とし、「私→は」のバイグラム確率は0.000008とし、「私→は→発明」のトライグラム確率は0.0000004とする。
変換部42は、発音辞書記憶部46に記憶されている発音辞書を用いて、言語モデル中の単語を音素系列に変換する(ステップS2)。この例では、発音辞書は、「単語」と「その単語の読み」とが対応されて格納されているものである。図5に発音辞書の一例を示す。図5に示すように、例えば、単語「私」とその単語の読み「わたし」とが対応された発音辞書が、発音辞書記憶部46に格納されている。変換部42は言語モデル中の全ての単語について、読みに変換される。そして変換部42は、変換部42自身が保持している文節表を用いて、この読みを音素系列に変換する。文節表については、例えば「鹿野清宏 他著「IT TEXT 音声認識システム」、2001年 p45の表3.1」に記載されている。このようにして言語モデル中の全ての単語が、読み→音素系列、に変換され、音素系列言語モデルとして音素系列言語モデル記憶部43に記憶される。図6に音素系列言語モデルの一例を示す。図6に示すように、例えば、音素系列「watashi」と出現確率「0.00010」とが対応して記憶されている。また、図6の記載「*」は、単語と他の単語の区切りを示す。
次に、出現確率計算部44は、全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の出現確率(以下、「音素出現確率」という。)として求める(ステップS4)。ここで、音素系列とは、1つの音素、または、2つ以上の音素の系列を意味する。また、対象音素とは、音素出現確率を求める対象となる音素であり、存在する全ての音素をいう。そして、対象音素は、環境独立音素(monophone)、片側環境依存音素(biphone)、両側環境依存音素(triphone)などがある。例えば、対象音素を環境独立音素とすると、対象音素はa、i、u・・・であり、音素体系にも依るが、約30〜50個程度存在する。対象音素の数をΩ(例えば、30〜50)個とし、対象音素を片側環境依存音素とすると、対象音素はa−a+*、a−i+*、...や*−a+a、*−a+i、などであり、約Ω×Ω×2個存在する。また、対象音素が、両側環境依存音素(triphone)とすると、対象音素はa−a+a、a−a+i、...やn−a+a、n−a+i、...等があり、約Ω×Ω×Ω個存在する。この発明では、言語モデルをNモデル、対象音素をNphone(monophoneやbiphone)として、出現確率計算部44は演算可能であるが、この実施例1では対象音素を環境独立音素として、説明をする。
対象音素を環境独立音素とした場合には、出現確率計算部44は第1確率計算手段442を有する。第1確率計算手段442は、音素系列中の全ての環境独立音素ごとに、当該環境独立音素を含む単語のユニグラム確率の総和、当該環境独立音素を含む単語のバイグラム確率の総和、当該環境独立音素を含む単語のトライグラム確率の総和、のうち少なくとも1つを用いて、音素出現確率を求める。また、以下の説明では、対象音素の一般的な表記を「α」とし、音素αの出現確率をP(α)とし、音素αを含む単語のユニグラム確率の総和をΣuni(α)とし、音素αを含む単語のバイグラム確率の総和をΣbi(α)とし、音素αを含む単語のトライグラム確率の総和をΣtri(α)とする。そうすると、音素αの出現確率は以下の式で表すことができる。
P(α)=wΣuni(α)+wΣbi(α)+wΣtri(α) (1)
ここで、w、w、wはそれぞれ、重み係数を示す。状況に応じて、重み係数w、w、wを調整する。例えば、w=1、w=w=0とすると、ユニグラム確率のみを使用して求めることができる。対象音素αを例えば音素「a」とし、重み係数をw=1、w=w=0(つまり、ユニグラム確率のみ用いる)とし、図5記載の音素系列言語モデルを用いる場合を考える。そうすると、ユニグラム確率に記載されている「a」を含む単語は、図5記載の音素系列の単語では、
「watashi (出現確率は0.0001)」
「wa (出現確率は0.00025)」
「hatsumei(出現確率は0.00002)」
「shimasu (出現確率は0.00005)」
である。そして、これらの音素系列の出現確率の合計(つまり、0.0001+0.00025+0.00002+0.00005)が対象音素「a」の音素出現確率として、出現確率計算部44から出力される。このように、出現確率計算部44は、その他の全ての環境独立音素を対象音素として「i」「u」・・・の音素出現確率を求める。図7に出現確率計算部44から出力される音素出現確率の例を示す。図7に記載のように、全ての対象音素と、当該対象音素の音素出現確率と、が対応されたものが、音素選択部48に入力される。図7の記載では、「w−a+*」「h−a+t」の音素出現確率が記載されているが、これらは、それぞれ対象音素を両側環境依存音素、片側環境依存音素にした場合の音素出現確率である(それぞれ実施例3、実施例2で説明)。
音素選択部48は、音素出現確率が大きい対象音素(以下、「高出現確率音素」という。)を選択する(ステップS6)。音素出現確率の大小の判定手法例として、予め音素出現確率についての閾値Thを定め、音素出現確率が閾値Thより大きい対象音素のみを選択する。選択された高出現確率音素は強化学習データ選択部32に入力される。
一方、学習データ記憶部11には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデル記憶部12には、学習前の音響モデルであるベース音響モデルが予め格納されている。学習部13は、学習データ記憶部11から読み出した学習データと、ベース音響モデルから読み出したベース音響モデルとから、十分統計量を計算して十分統計量記憶部14に記憶させる。
以下、十分統計量について説明する。十分統計量とは、HMMを特徴付けるパラメータであり、遷移確率に関わる統計量、混合正規分布の混合重み、平均、分散に関わる統計量等である。具体的には、音響モデルλと、観測系列Oが与えられたとき、時刻tに状態iに存在し、時刻t+1に状態jに存在する確率ξ(i,j)、また音響モデルλと観測系列Oが与えられ、状態はN個の状態から構成されるとき、時刻tに状態iに存在する確率γ(i)をそれぞれ、
Figure 2010096899
とする。また、式中のベクトル、行列を太字で記載するものとし、文中のベクトル、行列を標準書体で記載するものとする。このとき、音響モデルパラメータである、時刻t=1に状態iに存在すると期待される頻度(回数)π、状態遷移確率aij、状態jで特徴ベクトルvが観測される確率b(k)、状態iのm番目の混合分布に対する混合重み係数cim、状態iのm番目の混合分布の平均ベクトルμim、共分散行列Uimは、例えば、それぞれ次のように定義される。
Figure 2010096899
ここで、プライムはベクトルの転置を表し、γ(i,m)は、観測された観測信号の特徴ベクトルoを考慮したときに、時刻tに状態iのm番目の混合要素に存在する確率である。
このとき、前記式の分子と分母に記載された各数式で定義される値がそれぞれ十分統計量となる。すなわち、aijについては、Σt=1 ξ(i,j)と、Σt=1 γ(i)とがそれぞれ十分統計量となる。また、b(k)については、Σt=1(s.t.ot=Vk) γ(j)と、Σt=1 γ(j)とがそれぞれ十分統計量となる。cim,μim,Ujkについても同様である。なお、πについては、γ(i)が十分統計量となる。これらの十分統計量は、学習データ記憶部11から読み出した学習データを用いて、例えば、Baum−Welchアルゴリズム等の既存のアルゴリズムを用いて推定することができる。Baum−Welchアルゴリズムは、文献「Lawrence Rabiner, Biing-Hwang Juang 共著,古井貞熙監訳,「音声認識の基礎(下)」,NTTアドバンステクノロジ、1995年」に詳しい。なお、十分統計量は、学習データ記憶部11に記憶された学習データ毎に計算される。
Figure 2010096899
一方、強化学習データ選択部32は、学習データ記憶部11から高出現確率音素と同一の音素を含む音素系列についての学習データを抽出して、強化学習データとして強化学習データ記憶部23に記憶させる(ステップS8)。ここで音素系列とは、音素系列(例えば、a−i+u)の他に、単一の音素(例えば、a)も含むものとする。そして、強化学習部24は、強化学習データ記憶部23から読み出した強化学習データから、強化統計量を計算する(ステップS10)。計算された強化統計量は、強化統計量記憶部25に格納される。強化統計量は、強化学習データ記憶部23から読み出した強化学習データに基づいて計算された十分統計量のことである。すなわち、十分統計量と強化統計量は、数式で表現した定義は同じであるが、十分統計量は学習データ記憶部11から読み出した学習データに基づいて計算されたものであるのに対し、強化統計量は強化学習データ記憶部23から読み出した強化学習データに基づいて計算されたものである点において異なる。強化統計量の計算方法は、学習部13によるものと同一なので省略する。
また、強化学習データ選択部32は、ベース音響モデル記憶部12から読み出したベース音響モデルにおいて、高出現確率音素とベース音響モデル内の音素との分布間距離を求め、当該分布間距離の総和が閾値Th以上であるかどうかで判断してもよい。すなわち、分布間距離の和を求めることにより状態間距離を求め、その状態間距離の和を求めることにより音素間の距離を求め、その音素間の距離から類似の判断を行う。
合成部26は、十分統計量記憶部14から読み出した十分統計量と、強化統計量記憶部25から読み出した強化統計量に重みをかけたものとから強化音響モデルを作成する。作成された強化音響モデルは、強化音響モデル記憶部27に格納される。
学習部13により複数の学習データからG個の十分統計量が得られたとする。このとき、十分統計量は、g=1,…,Gとして、
Figure 2010096899
と表現される。
また、強化学習部24は複数の強化学習データからH個の強化統計量が得られたとする。このとき、強化統計量は、h=1,…,Hとして、
Figure 2010096899
と表現される。
このとき、合成部26は、下式で各音響パラメータを計算することにより、強化音響モデルを作成する(ステップS12)。
Figure 2010096899
ここで、w(h=1,…,H)は、強化統計量にかけられる重みであり1以上の数である。重みw(h=1,…,H)は、同一の値であってもよいし、互いに異なる値であってもよい。求められた強化音響モデルは強化音響モデル記憶部27に記憶される。
また、学習部13を具備しない構成とすることが出来る。当該構成とするには、学習データ記憶部11に格納されている学習データについての十分統計量を別途の学習により求めておき、予め格納させておけばよい。
このように、音声認識処理に係る分野の言語的な出現頻度を反映した言語モデルを用いて、言語モデルに含まれる単語の出現確率(頻度)を利用して擬似的な音素の出現確率を求めることで、ベース音響モデルの全体的な単語や音素の認識精度の向上を行うことが出来る。また、従来のようにキーワードリストを用いる必要もない。
実施例1の出現確率計算部44は第1確率計算手段を備え、対象音素を環境独立音素として、対象音素の音素出現確率を求めた。この実施例2の出現確率計算部44は、対象音素が両側環境依存音素(triphone 例えばa−i+i)として、音素出現確率を求める。この実施例2の出現確率計算部44は、第3確率計算手段446を有する。第3確率計算手段446は、対象音素を両側環境依存音素として、音素系列中の全ての両側環境依存音素ごとに、当該両側環境依存音素を含む単語のユニグラム確率の総和、当該両側環境依存音素を含む単語のバイグラム確率の総和、当該両側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも1つを用いて、音素出現確率を求める。
両側環境依存音素の一般的な表記を「α−β+γ」とし、対象音素「α−β+γ」の出現確率をP(α−β+γ)とし、音素「α−β+γ」を含む単語のユニグラム確率の総和をΣuni(α−β+γ)とし、音素「α−β+γ」を含む単語のバイグラム確率の総和をΣbi(α−β+γ)とし、音素αを含む単語のトライグラム確率の総和をΣtri(α−β+γ)とする。そうすると、音素「α−β+γ」の出現確率は以下の式(4)で表すことができる。
P(α−β+γ)=wΣuni(α−β+γ)+wΣbi(α−β+γ)
+wΣtri(α−β+γ) (4)
上述のように、w、w、wは重み係数である。例えば、言語モデルが図6
の例において、対象音素を「h−a+t」とした場合、対象音素「h−a+t」
を含む単語は「hatsumei」である。従って、図6に記載の単語のみで考
えると、対象音素「h−a+t」の音素出現確率P(h−a+t)は前記式(4
)を用いて以下のようになる。
P(h−a+t)=w・0.00002
+w(0.000001+0.000005)
+w(0.0000004+0.0000002+0.0000005)になる。
そして、出現確率計算部44からは、図7記載の両側環境依存音素(図7の例では、「h−a+t」)と当該音素出現確率(図7の例では、0.00008)とが対応付けられ、出力される。
この実施例2のように、対象音素を両側環境依存音素とすることで、ベース音響モデルの両側環境依存音素についての全体的な認識精度の向上を図ることが出来る。
この実施例3の出現確率計算部44は、対象音素が片側環境依存音素(biphone 例えばa−i+*)として、音素出現確率を求める。この実施例3の出現確率計算部44は、第2確率計算手段444を有する。第2確率計算手段444は、対象音素を片側環境依存音素として、音素系列中の全ての片側環境依存音素ごとに、当該片側環境依存音素を含む単語のユニグラム確率の総和、当該片側環境依存音素を含む単語のバイグラム確率の総和、当該片側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも1つを用いて、前記音素出現確率を求める。片側環境依存音素の一般的な表記を「α−β+*」とし、対象音素「α−β+*」の出現確率をP(α−β+*)とし、音素「α−β+*」を含む単語のユニグラム確率の総和をΣuni(α−β+*)とし、音素「α−β+*」を含む単語のバイグラム確率の総和をΣbi(α−β+*)とし、音素αを含む単語のトライグラム確率の総和をΣtri(α−β+*)とする。そうすると、音素「α−β+*」の出現確率は以下の式(5)で表すことができる。
P(α−β+*)=wΣuni(α−β+*)+wΣbi(α−β+*)
+wΣtri(α−β+*) (5)
上述のように、w、w、wは重み係数である。そして、言語モデルが図6
の例において、対象音素を「w−a+*」とした場合、対象音素「w−a+*」
を含む単語は「watashi」と「wa」である。従って、図6に記載の単語
のみで考えると、対象音素「w−a+*」の音素出現確率P(w−a+*)は上
記式(5)を用いて以下のようになる。
P(w−a+*)=w(0.00002+0.00025)
+w(0.000008+0.000001)
+w(0.0000004+0.0000002)になる。
この実施例3のように、対象音素を片側環境依存音素とすることで、ベース音響モデルの片側環境依存音素についての全体的な認識精度の向上を図ることが出来る。
また、上述の、第1確率計算手段442、第2確率計算手段444、第3確率計算手段446のうちの2つの組み合わせを用いてもよく、3つ用いてもよい。
一般的に、音素数が少ない単語(例えば、助詞「は」や「を」等)は頻度(出現確率)が大きい。従って、音素系列言語モデルにおいて、音素数が少ない単語(「wa」や「wo」)は出現確率が高い傾向にある。図6のユニグラム確率の記載についても、単語「wa」や「wo」のユニグラム確率(出現確率)は他の単語のユニグラム確率(出現確率)よりも高い。従って、音素数が少ない単語の出現確率を対象にして、対象音素の音素出現確率を計算すると、正確でない音素出現確率が求められる可能性がある。従って、この実施例4の出現確率計算部44は、予め定められた閾値以上の音素数を持つ音素系列の出現確率の総和を演算することを特徴とすることで、より正確な音素出現確率を求めることが出来る。
例えば、予め閾値Thを定めておき、出現確率計算部44は、閾値Th個以上の音素を含む音素系列のみを音素出現確率の計算の対象にする。図6の例でのユニグラム確率の場合において、閾値Thを「3」とすると、出現確率計算部44は、音素数が3以上である単語の出現確率のみを演算の対象とする。逆に言えば出現確率計算部44が音素閾値Th(=3)未満の単語(つまり、waとwo)の出現確率を演算の対象としないことになる。
このように、出現確率計算部44は、音素数が多い音素系列の出現確率の総和を演算するようにすると、より正確な音素出現確率を求めることが出来る。
実施例1〜4で説明した出現確率計算部44から出力される音素出現確率は、値の幅が不明である。従って、音素選択部48の音素選択処理に用いる閾値Thを定めがたいという問題が生じる場合がある。この実施例5の出現確率計算部44は、正規化手段448を有する。当該正規化手段448は求められた音素出現確率を正規化することにより、各対象音素について、全体に対する音素出現確率の比率を求めることが出来る。正規化手段448は、音素出現確率P(α)、P(α−β+γ)、P(α−β+*)について、それぞれ正規化して、正規化音素出現確率P’(α)、P’(α−β+γ)、P’(α−β+*)を求める。正規化の具体的手法は、例えば、計算された音素出現確率を、対象音素の全ての出現確率で除算する。つまり以下の式により正規化音素出現確率P’(α)、P’(α−β+γ)、P’(α−β+*)は求められる。ただしx、y、zはそれぞれ全ての音素を示し、Σ(x)、Σ(x−y+z)、Σ(x−y+*)はそれぞれ音素x、音素x−y+z、音素x−y+*の出現確率の和を示す。
P’(α)=P(α)/Σ(x)
P’(α−β+γ)=P(α−β+γ)/Σ(x−y+z)
P’(α−β+*)=P(α−β+*)/Σ(x−y+*)
である。
求められた正規化音素出現確率は、音素選択部48に入力される。そして、音素選択部48は、正規化音素出現確率が大きい対象音素を選択し、高出現確率音素を出力する。
このように、音素出現確率を正規化することで、音素出現確率の幅を0〜1にすることができ、結果として閾値Thを定めやすくなるという効果を得ることができる。
図8に音響モデル作成装置300の機能構成例を示す。実施例6の音響モデル作成装置300は、音響モデル作成装置200と比較して、統計量強化部51、重み増強強化統計量記憶部52を具備する点で異なる。統計量強化部51は、音素毎に、強化統計量に対して、当該音素の音素出現確率から求まる値を重み係数として、重み付けして、前記強化統計量として出力する。このようにすることで、音素出現確率が高い対象音素の強化統計量を重みを付けることができ、実施例1〜5で説明した音響モデル作成装置より、音素出現確率を反映した強化音響モデルを求めることができる。音素出現確率P(α)から求まる値とは、音素出現確率P(α)そのものでもよく、音素出現確率P(α)と比例関係にある関数W(P(α))でもよい。関数W(P(α))とは例えば、以下の式で表される。
W(P(α))=P(α)/ΣP(x)
ただし、ΣP(x)は、全ての対象音素xの音素出現確率の総和を示す。
上記式(2)の事後確率rの記載について以下のように変更する。音素αについて、元の状態j、現在の状態i、混合分布mの事後確率をr(α、i、j、m)とする。そうすると、統計量強化部51は、事後確率r(α、i、j、m)に対して重み係数P(α)またはW(P(α))を乗算する(重みつけする)ことで重み増強事後確率を求め、当該重み増強事後確率からそのほかの統計量(例えば、分散や平均ベクトル)を求め、強化統計量として出力する。なお、以下の式は重み係数として関数W(P(α))を用いた場合を示す。
r’(α、i、j、m)=W(P(α))・r(α、i、j、m)
そして、重み増強強化統計量は重み増強強化統計量記憶部52に記憶される。合成部26は、十分統計量と重み増強強化統計量とから強化音響モデルを作成する。
図9に、音素αと他の音素αの音素モデルの概念図を示す。図9に示すように音素αと音素αを音素モデルとして表した際に、音素αと音素αがそれぞれ、3つの状態を有している場合を考える。音素αが有する3つの状態を第1状態S11、第2状態S12、第3状態S13とし、音素αが有する3つの状態を第1状態S21、第2状態S22、第3状態S23とする。状態共有により、異なる音素α、αであっても、同じ状態として扱われる場合がある。また、上述のように、強化統計量に関わる重みは音素で計算される。また、強化統計量は状態毎に存在する。
図9に示すように例えば、音素αについての第2状態S12と音素αについての第2状態S22が、状態共有により、同じ状態として扱われるとする。音素αの第2状態S12の重み係数をW(S12)とし、音素αの第2状態S22の重み係数をW(S22)とする。そうすると、音素αの第2状態S22の重み係数は以下のように新しく求められる。ただし、新しく求められた重み係数をW’(S12+22)とする。
W’(S12+22)=W(S12)+W(S22
具体的な手法として、音素αと第p状態S1pの組から、状態ID:qへマッピングするテーブルを出現確率計算部44中の記憶部(図示せず)に記憶しておき、状態共有により同一の状態ID:qとなる音素αと状態S1qがあれば、それぞれの重み係数の和を計算すればよい。この概念は音素が2つ(αとα)のみではなく、音素が3つ以上ある場合にも適用できる。また、環境独立音素についてのみ説明したが、片側依存音素、両側依存音素についても適用できる。
このように、音素出現確率から求まる値(音素出現確率P(α)または音素出現確率に比例する関数W(P(α))を重み係数として、強化統計量に乗算することで、実施例1〜6で説明した音響モデル作成装置より、音素出現確率を反映した強化音響モデルを求めることができる。
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、音響モデル作成装置200が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記憶しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記憶したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、本実施例で説明した音響モデル作成装置200は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
<ハードウェアとソフトウェアとの協働>
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
音響モデル作成装置200の図示しない入力部、出力部は、所定のプログラムが読み込まれたCPUの制御のもと駆動するLANカード、モデム等の通信装置である。その他の出現確率計算部44などは、所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。記憶部は前記補助記憶装置として機能する。
従来の音響モデル作成装置の機能構成例を示したブロック図。 実施例1の音響モデル作成装置の機能構成例を示したブロック図。 本実施例の処理フローを示した図。 発音辞書の一例を示した図。 言語モデルの一例を示した図。 音素系列言語モデルの一例を示した図。 音素出現確率の一例を示した図。 実施例6の音響モデル作成装置の機能構成例を示したブロック図。 状態共有を示した概念図。

Claims (11)

  1. 発音辞書記憶部に記憶されている発音辞書を用いて、言語モデル記憶部に記憶されている言語モデル中の単語を音素系列に変換する変換過程と、
    全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の出現確率(以下、「音素出現確率」という。)として求める出現確率計算過程と、
    音素出現確率が高い対象音素(以下、「高出現確率音素」という。)を選択する音素選択過程と、
    学習データ記憶部から、前記高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとする強化学習データ選択過程と、
    前記強化学習データと前記ベース音響モデルから強化統計量を計算する強化学習過程と、
    学習データ記憶部からの学習データについての十分統計量と前記強化統計量とから強化音響モデルを作成する合成過程と、
    を備える音響モデル作成方法。
  2. 請求項1記載の音響モデル作成方法であって、
    前記出現確率計算過程は、前記対象音素を環境独立音素として、前記音素系列中の全ての環境独立音素ごとに、当該環境独立音素を含む単語のユニグラム確率の総和、当該環境独立音素を含む単語のバイグラム確率の総和、当該環境独立音素を含む単語のトライグラム確率の総和、のうち少なくとも1つを用いて、音素出現確率を求める第1確率計算ステップを有するものであることを特徴とする音響モデル作成方法。
  3. 請求項1または2記載の音響モデル作成方法であって、
    前記出現確率計算過程は、前記対象音素を片側環境依存音素として、前記音素系列中の全ての片側環境依存音素ごとに、当該片側環境依存音素を含む単語のユニグラム確率の総和、当該片側環境依存音素を含む単語のバイグラム確率の総和、当該片側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも1つを用いて、音素出現確率を求める第2確率計算ステップを有するものであることを特徴とする音響モデル作成方法。
  4. 請求項1〜3何れかに記載の音響モデル作成方法であって、
    前記出現確率計算過程は、前記対象音素を両側環境依存音素として、前記音素系列中の全ての両側環境依存音素ごとに、当該両側環境依存音素を含む単語のユニグラム確率の総和、当該両側環境依存音素を含む単語のバイグラム確率の総和、当該両側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも1つを用いて、音素出現確率を求める第3確率計算ステップを有するものであることを特徴とする音響モデル作成方法。
  5. 請求項1〜4何れかに記載の音響モデル作成方法であって、
    前記出現確率計算過程は、予め定められた閾値以上の音素数を持つ音素系列の出現確率の総和を演算することを特徴とする音響モデル作成方法。
  6. 請求項1〜5何れかに記載の音響モデル作成方法であって、
    前記確率計算過程は、計算された音素出現確率を、対象音素の全ての出現確率で除算することで、正規化音素出現確率を求める正規化ステップを有し、
    前記音素選択過程は、正規化音素出現確率が大きい対象音素を選択することを特徴とする音響モデル作成方法。
  7. 請求項1〜6何れかに記載の音響モデル作成方法であって、
    更に、音素毎に、前記強化統計量に対して、当該音素の音素出現確率から求まる値を重み係数として、重み付けして、前記強化統計量として出力する統計量強化過程を有することを特徴とする音響モデル作成方法。
  8. 言語モデルを記憶する言語モデル記憶部と、
    発音辞書記憶部に記憶されている発音辞書を用いて、前記言語モデル中の単語を音素系列に変換する変換部と、
    全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の出現確率(以下、「音素出現確率」という。)として求める出現確率計算部と、
    音素出現確率が高い対象音素(以下、「高出現確率音素」という。)を選択する音素選択部と、
    学習データ記憶部から、前記高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとする強化学習データ選択部と、
    前記強化学習データと前記ベース音響モデルから強化統計量を計算する強化学習部と、
    学習データ記憶部からの学習データについての十分統計量と前記強化統計量とから強化音響モデルを作成する合成部と、
    を備える音響モデル作成装置。
  9. 請求項8記載の音響モデル作成装置であって、
    更に、音素毎に、前記強化統計量に対して、当該音素の音素出現確率から求まる値を重み係数として、重み付けして、前記強化統計量として出力する統計量強化部を有することを特徴とする音響モデル作成装置。
  10. 請求項1〜7何れかに記載の音響モデル作成方法の各過程をコンピュータに実行させるためのプログラム。
  11. 請求項10に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008266288A 2008-10-15 2008-10-15 音響モデル作成方法、その装置、プログラム、その記録媒体 Expired - Fee Related JP5155811B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008266288A JP5155811B2 (ja) 2008-10-15 2008-10-15 音響モデル作成方法、その装置、プログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008266288A JP5155811B2 (ja) 2008-10-15 2008-10-15 音響モデル作成方法、その装置、プログラム、その記録媒体

Publications (2)

Publication Number Publication Date
JP2010096899A true JP2010096899A (ja) 2010-04-30
JP5155811B2 JP5155811B2 (ja) 2013-03-06

Family

ID=42258637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008266288A Expired - Fee Related JP5155811B2 (ja) 2008-10-15 2008-10-15 音響モデル作成方法、その装置、プログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP5155811B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105609100A (zh) * 2014-10-31 2016-05-25 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2008129527A (ja) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2008129527A (ja) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010091207; 小橋川 哲 Satoshi KOBASHIKAWA: 'キーワードに関する十分統計量増強による精度向上の検討' 日本音響学会 2008年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20080319, p.213-214, 社団法人日本音響学会 *
JPN6012011526; 小橋川 哲 Satoshi KOBASHIKAWA: 'キーワードに関する十分統計量増強による精度向上の検討' 日本音響学会 2008年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20080319, p.213-214, 社団法人日本音響学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105609100A (zh) * 2014-10-31 2016-05-25 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别系统

Also Published As

Publication number Publication date
JP5155811B2 (ja) 2013-03-06

Similar Documents

Publication Publication Date Title
Toshniwal et al. Multilingual speech recognition with a single end-to-end model
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
EP1657650A2 (en) System and method for compiling rules created by machine learning program
JP2010170137A (ja) 音声理解装置
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
Ghai et al. Using gaussian mixtures on triphone acoustic modelling-based punjabi continuous speech recognition
Ming et al. A light-weight method of building an LSTM-RNN-based bilingual TTS system
Oba et al. A comparative study on methods of weighted language model training for reranking LVCSR n-best hypotheses
Li et al. Hierarchical Phone Recognition with Compositional Phonetics.
Gales et al. Low-resource speech recognition and keyword-spotting
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
Liu et al. Low-resource open vocabulary keyword search using point process models
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP5155811B2 (ja) 音響モデル作成方法、その装置、プログラム、その記録媒体
JP2007078943A (ja) 音響スコア計算プログラム
Rybach et al. Lexical prefix tree and WFST: A comparison of two dynamic search concepts for LVCSR
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
Bayerl et al. A comparison of hybrid and end-to-end models for syllable recognition
JP4909318B2 (ja) 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110106

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5155811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees