JP4909318B2 - 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 - Google Patents

音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 Download PDF

Info

Publication number
JP4909318B2
JP4909318B2 JP2008156458A JP2008156458A JP4909318B2 JP 4909318 B2 JP4909318 B2 JP 4909318B2 JP 2008156458 A JP2008156458 A JP 2008156458A JP 2008156458 A JP2008156458 A JP 2008156458A JP 4909318 B2 JP4909318 B2 JP 4909318B2
Authority
JP
Japan
Prior art keywords
phoneme
model
integration
acoustic model
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008156458A
Other languages
English (en)
Other versions
JP2009300830A (ja
Inventor
哲 小橋川
浩和 政瀧
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008156458A priority Critical patent/JP4909318B2/ja
Publication of JP2009300830A publication Critical patent/JP2009300830A/ja
Application granted granted Critical
Publication of JP4909318B2 publication Critical patent/JP4909318B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、例えば、音声認識処理で用いられる音響モデルを作成する音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体に関する。
従来の音響モデルの作成技術では、両側環境依存音素(triphone)と同時に、片側環境依存音素(biophone)、環境独立音素(monophone)についても学習を行っていた。
図1に従来の音響モデル作成装置100の機能構成例を示す(詳細は特許文献1に記載)。音響モデル作成装置100は、音響モデル学習部12、音声データベース記憶部14、音響分析部15、音声ラベルデータベース記憶部16、音声ラベルデータ変換部17とにより構成される。音声データベース記憶部14には、音響モデルの学習に用いる音声データが格納されている。音声ラベルデータベース記憶部16には音声データに対応するラベルデータが格納されている。ラベルデータとは、例えば、音声データの発声内容をカナ、ローマ字、音素などで記述したものである。音響分析部15は、音声データベース記憶部14に記憶されている音声データを音響モデルの学習に用いる音響特徴量(スペクトラム、LPCケプストラムなど)へと変換する。音声ラベルデータ変換部17は、音声ラベルデータベースよりのラベルデータを1種類あるいは複数の詳細度のラベルへと変換する。音響モデル学習部12は、音響分析部15よりの音響特徴量と、音声ラベルデータ変換部17よりのラベルデータから初期音響モデル11に対する更新情報を計算し、当該更新情報を反映した目的音響モデル13を出力する。繰り返し学習を行う場合には、出力された目的音響モデル13を初期音響モデル11に書き換えて同じ処理を繰り返す。
特開2004−117476号公報
上述の音響モデル作成装置100であると、片側環境依存音素、環境独立音素についても、学習する必要があり、学習時の処理時間が大きいという問題があった。また、入力される初期音響モデル11が、両側環境依存音素のみしか持たない場合や、環境依存音素のみが学習されている場合には、著しく精度が下がるという問題があった。
この発明の音響モデル作成方法は、入力された第1音響モデルを用いて、当該第1音響モデルより詳細度が低い第2音響モデルを生成して、第1音響モデルと第2音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成方法である。第2音響モデルが有する第2音素モデルについての第2音素を決定する。第1音響モデルから、第2音素と同一の音素環境に属する第1音素についての第1音素モデルを取得する。第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第1音素モデルの数で除算することで、第2音素モデルの遷移確率(以下、「第2音素モデル遷移確率」という。)を求める。第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第2音素モデルの混合分布(以下、「第2音素モデル混合分布」という。)を生成する統合過程と、
前記第2音素モデル遷移確率と前記第2音素モデル混合分布とから求まる第2音響モデルと前記第1音響モデルとをまとめて前記目的音響モデルとして出力する。
この発明によれば、詳細度が高い入力された第1音響モデル(例えば、両側環境依存音素についての音素モデルのみを有する音響モデル)から詳細度が低い第2音響モデル(例えば、片側環境依存音素、環境独立音素のうち少なくとも一方についての音素モデルを有する音響モデル)を生成し、第1音響モデルおよび生成された第2音響モデルをまとめて出力する。従って、両側環境依存音素および片側環境依存音素についての学習時間を削減できる。また、初期音響モデル11が、両側環境依存音素についての音素モデルのみを持つ音響モデルである場合でも、短時間で片側環境依存音素、環境独立音素についての音素モデルを有する音響モデルを生成できる。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
図2に実施例1の音響モデル作成装置200の機能構成例を示し、図3に処理フローを示し、図4に音響モデルの概念図を示す。まず音モデルについて簡単に説明する。図4Aに示すように、一般的に、音響モデルは複数の音素モデルを有する。図4Bは、(*−a+*)についての音素モデルの概念図の例を示し、図4Cには、各音素モデルの各状態(図4Cの例では第2状態)の概念図の例を示す。ただし「*」は任意の音素を示す。現在、一般的に用いられている音素モデルは図4B記載のように3状態のleft−to−right型HMMと呼ばれるもので、3つの状態S1(第1状態)、S2(第2状態)、S3(第3状態)、を左から右に並べたものであり、状態の確率連鎖(状態遷移)としては、自分自身の遷移(自己遷移)S1→S1、S2→S2、S3→S3と、次の状態への遷移S1→S2、S2→S3、S3→Sxがある。Sxは違う音素モデルの状態を示す。S1→S1、S2→S2、S3→S3についての自己遷移確率をA11、A22、A33、とし、S1→S2、S2→S3、S3→Sxについての状態間遷移確率をA12、A23、A3xとする。また、自己遷移確率+状態間遷移確率=1が成り立つ。ここでは、A11+A12=1、A22+A23=1、A33+A3x=1、となる。
各状態S1〜S3は混合確率分布Mとして表現される。図4Cに第2状態S2の混合正規分布Mを示す。現在よく用いられているのは、多次元正規分布(ガウス分布)であり、そのうちでも次元間の相関がない(共分散行列の対角行列が0である)多次元無相関正規分布が最も用いられる。図4Cには、混合数3の場合を示す。そして、それぞれの基底正規分布X(i)(i=0、1、2)は、パラメータとして分散σ(i)、平均μ(i)、混合重みc(i)を有する。ここで、分散σ(i)、平均μ(i)は、ベクトルである。以下では、音素モデルが図4に示すものであるとして説明するが、音素モデルがこれに示すものに限られるものではない。
図2に示すように音響モデル作成装置200は、入力部202、決定部204、取得部205、遷移確率計算部206、混合分布生成部208、出力部210、記憶部212とを有する。また、本実施例1の音響モデル作成装置200は、入力された第1音響モデル300を用いて、第2音響モデル400を生成し、第1音響モデル300と第2音響モデル400とをまとめて、生成目的である目的音響モデル500を生成、出力する。ここで、第1音響モデル300とは、詳細度が高い音響モデル(以下、「高詳細度音響モデル」という。)とし、詳細度が高い音素モデル(以下、「高詳細度音素モデル」という。」で構成されている。そして、高詳細度音素モデルを両側環境依存音素(例えばtriphoneであり、以下、「高詳細度音素」という。)についての音素モデルとする。第2音響モデル400は、第1音響モデル300より詳細度が低い音響モデルであり、第2音素モデルで構成されている。以下の説明では第2音響モデルは「詳細度が低である音素モデルを低詳細度音響モデル」および「詳細度が中である音素モデルを中詳細度音響モデル」まとめられたものとする。そして低詳細度音響モデル、中詳細度音響モデルを構成する音素モデルをそれぞれ低詳細度音素モデル、中詳細度音素モデルとする。低詳細度音素モデル、中詳細度音素モデルはそれぞれ、環境独立音素(例えば、monophoneであり、以下、「低詳細度音素」という。)および片側環境依存音素(biophone、以下、「中詳細度音素」という。)についての音素モデルである。また、低詳細度音素モデルは、片側環境依存音素または環境独立音素のうち、少なくとも一方でよい。第1音響モデル300は事前に公知の音響モデル作成手法により生成されているものとする。念のため、以下に用語の対応関係を示す。
第1音響モデル→高詳細度音響モデル
第1音素モデル→高詳細度音素モデル
第1音素 →高詳細度音素
第2音響モデル→中詳細度音響モデル、低詳細度音響モデル
第2音素モデル→中詳細度音素モデル、低詳細度音素モデル
第2音素 →中詳細度音素、低詳細度音素
入力部202から第1音響モデル300が入力されると、第1音響モデル300は取得部205、出力部210に入力される。決定部204は、生成対象である第2音響モデル400を構成する低詳細度音素モデル、中詳細度音素モデルについての音素を決定する。以下の説明では、環境独立音素については、周囲の環境(音素)を「*」とし、例えば「*−a+*」と示す。また、片側環境依存音素のうち、左側依存音素については「k−a+*」と示し、右側依存音素については例えば「*−a+i」と示す。音素の種類は「a」や「i」など約30あり、決定部204はこれら全てを第2音素として決定してもよく、あまり使用しない音素については第2音素として決定しなくても良い。
次に、決定部204は、生成対象の第2音素モデルを保存するメモリを確保する。この確保処理は、決定部204とは別個のモデル準備部(図示せず)が行っても良い。
次に、取得部205は高詳細度音響モデル(第1音響モデル)300から、決定部204により決定された低詳細度音素や中詳細度音素(第2音素)と同一の音素環境に属する高詳細度音素(第1音素)についての高詳細度音素モデル(第1音素モデル)に取得する。まず、取得部205は、決定された低詳細度音素や中詳細度音素と同一の音素環境に属する高詳細度音素を決める。
ここで、「同一の音素環境に属する高詳細度音素」について説明する。例えば、低詳細度音素「*−a+*」と同一の音素環境に属する高詳細度音素とは、「a」を中心音素とする高詳細度音素(a−a+a、i−a+a、a−a+i、k−a+i・・・)などであり、これらの高詳細度音素を決定する。その他、低詳細度音素「*−i+*」については、高詳細度音素(a−i+a、i−i+a、a−i+i、k−i+i・・・)を決定する。このように、これらの決定処理を決定部204で決定された全ての音素ωについて高詳細度音素(*−ω+*)を決定する。
また中詳細度音素「k−a+*」と同一の音素環境に属する高詳細度音素とは「k」を左側音素、「a」を中心音素とする高詳細度音素(k−a+a、k−a+i、k−u+i、・・・)などであり、当該高詳細度音素を決定する。このように、決定部で決定された全ての音素ω、ωについて高詳細度音素(ω−ω+*)を決定する。
そして、取得部205は、高詳細度音響モデル300から、決定された高詳細度音素についての音素モデルを取得する。取得部205の「高詳細度音素の決定処理」と「第1音素モデルの取得処理」は別個に行ってもよく、例えば、それぞれの処理を「決定処理部」「取得処理部」(両者とも図示せず)にさせても良い。
次に、遷移確率計算部206は、第2音素モデル(低詳細度音素モデルや中詳細度音素モデル)の各状態毎に、高詳細度音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該高詳細度音素モデルの数で除算することで、低詳細度音素モデルや中詳細度音素モデルの遷移確率を求める。図5に遷移確率計算部206の演算の概念図を示す。ここで、遷移確率とは、自己遷移確率と状態間遷移確率の両方を示す。上述のように、自己遷移確率+状態間遷移確率=1となるので、各状態ごとに、自己遷移確率もしくは状態間遷移確率のうち何れか一方を求めると、もう一方も求めることが出来る。以下の説明では、低詳細度音素モデルや中詳細度音素モデルの各状態の状態間遷移確率を求める場合を説明する。上述のように低詳細度音素モデルの各状態についての自己遷移確率を求めるには、高詳細度音素モデルの同一状態についての自己遷移確率の総和を演算し、音素モデルの数で除算する、つまり平均値を求める。具体的には以下の式(1)で表すことが出来る。
Figure 0004909318
ここで、取得部205で取得された高詳細度音素モデルを(x−z+y)と表し、x、y、zは音素を示し、取得部205で取得された音素モデルの個数を♯(x−z+y)とする。第2音素モデルXの状態Yの遷移確率をP(X、Y)とし、第1音素モデル(ここでは、両側環境依存音素(triphone))の状態Yの状態間遷移確率をP(T、Y)と表す。状態Yについては、例えば、状態1から状態1へ遷移する自己遷移確率については「1→1」が引き数となり、状態1から状態2へ遷移する状態間遷移確率については「1→2」が引き数となる。式(1)の右辺の分子は、♯{x−z+y}個分の遷移確率P(T、Y)の総和を示し、つまり、右辺は遷移確率P(T、Y)の平均を示す。
音素zを音素aとし、つまり「*−a+*」の低詳細度音素モデルの第1状態S1の自己遷移確率A11の演算手法を例にとって説明する。取得部205で取得した第1音素モデルは、上述のように中心音素が「a」である全ての音素モデル(a−a+a、a−a+i、a−a+u、・・・、k−a+a、k−a+i、k−a+u、・・・、i−a+e・・・についての音素モデルであり、図5の左端の記載に相当)を用いる。上記式(1)を元に以下の式(2)により求めることが出来る。
Figure 0004909318
同様に、第2状態S2、第3状態S3の自己遷移確率を求める。
図6に、中詳細度音素モデルの自己遷移確率についての遷移確率計算部206の演算の概念図を示す。中詳細度音素モデルの各状態についても上記式(1)を元にした以下の式(3)を用いて求めることが出来る。式(3)は、左側音素が「k」中心音素が「a」の全ての中詳細度音素モデル(k−a+a、k−a+i・・・についての音素モデル、図6では左端の四角で囲っている箇所)の状態1についての自己遷移確率A11を求める式である。
Figure 0004909318
同様に、状態2、状態3の自己遷移確率を求める。
このように、低詳細度音素モデルの各状態S1〜S3についての遷移確率、中詳細度音素モデルの各状態S1〜S3についての遷移確率、についてそれぞれ求める。求められた遷移確率は記憶部212に記憶される。
次に、混合分布生成部208は、第2音素モデルの各状態毎に、高詳細度音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、低詳細度音素モデル、中詳細度音素モデルの各状態毎の混合分布を生成する。図5に示すように、例えば、低詳細度音素モデルの第1状態S1の混合分布を求めるには、高詳細度音素モデルの第1状態S1と同一の状態の♯(*−a+*)個全ての混合分布を統合することで求めることができる。また、低詳細度音素モデルの第2状態S2については、高詳細度音素モデルの第2状態S2の全ての混合分布を統合することで求められ、低詳細度音素モデルの第3状態S3については、高詳細度音素モデルの第3状態S3の全ての混合分布を統合することで求められる。
また、同様に、図6に示すように中詳細度音素モデルの各状態S1〜S3はそれぞれ、高詳細度音素モデルの♯(k−a+*)個全ての各状態S1〜S3それぞれの混合分布を統合することで求められる。音素モデルXの状態Yについての混合分布FX、Y(N(μ、U)、c)を求める式は以下のようになる。
X、Y(N(μ、U)、c)=f(高詳細度音素モデルの状態Yの全ての混合分布) (4)
ただし、f()は混合分布の統合を行う関数であり、μは平均ベクトル、Uは分散ベクトル、cは重みベクトルを示す。以下に一例として、「*−a+*」の低詳細度モデルについての第1状態S1の混合分布を求める式を示す。この場合は、
*−a+*、1(N(μ、U)、c)=
f(Fa−a+a、1(N(μ、U)、c)、Fa−a+i、1(N(μ、U)、c)、
f(Fa−a+u、1(N(μ、U)、c)、...、f(Fa−a+n、1(N(μ、U)、c)、...)
ここで、N()は正規分布を示す。
混合分布の統合方法に関しては、基底分布の分布間距離の近いものから統合させればよい。そして分布間距離に関しては、バタチャリア距離やKLダイバージェンスなどを用いれば良い。混合分布の統合方法については、「特開2006−84789号」や「小川厚徳、高橋敏、音響モデルの分布数削減のための混合重み係数を考慮した分布間距離尺度、電子情報通信学会誌、vol.J90−D、p2940−p2944(以下、「非特許文献1」という。)」に記載されている。
そして、求められた混合分布は記憶部212に記憶される。そして、決定部204で決定された低詳細度音素、中詳細度音素について全ての低詳細度音素モデルや中詳細度音素モデルの遷移確率および混合分布が求まると、出力部210は、低詳細度音響モデルや中詳細度音響モデルを求める。そして、高詳細度音響モデル、中詳細度音響モデル、低詳細度音響モデルをまとめて、目的音響モデル500として出力する。
このように、音響モデル作成装置200を用いれば、高詳細度音響モデルのみの学習により、中詳細度音響モデル、低詳細度音響モデルを求めることが出来、中詳細度音響モデル、低詳細度音響モデルの学習コストを減らしつつ、高詳細度音響、中詳細度音響モデル、低詳細度音響モデルをまとめた音響モデルを作成できる。また、高詳細度音響モデルしか学習できない状況であっても、中詳細度音響モデル、低詳細度音響モデルを求めることができ、結果として、高詳細度音響、中詳細度音響モデル、低詳細度音響モデルをまとめた音響モデルを作成できる。
実施例1の混合分布生成部208による正規分布の統合処理は、一度全ての混合分布を集めてそれら混合分布間の分布間距離を用いるので、膨大な計算コストと混合分布の保存コストが必要である。そこで、この実施例2では、2つ以上の混合分布を1つの混合分布に統合する処理を繰り返すことにより、混合分布統合の計算コスト、混合分布の保存コストを下げて、実施例1と同様な統合処理の効果を得ることができる。
図7に実施例2の混合分布の統合処理の概念図を示し、図8に当該統合処理の処理フローを示す。混合分布には、混合分布を識別するための混合分布番号が任意に付されているものとする。統合すべき混合分布はI個存在するものとし、I個の混合分布をA(i)(i=0〜I−1、iを混合分布番号という)とする。また統合される際の混合分布A(i)の重み係数をw(i)とし、統合元の重み係数をwとする。そして、図7に示すように、混合分布A(0)についての音素モデルを音素「k−a+u」の音素モデルとし、混合分布A(1)についての音素モデルを音素「k−a+e」の音素モデルとする。また図7の記載では、それぞれの正規分布A(i)の第1状態のみを示す。
まず、初期化処理としてi=0、w=w(0)とする(ステップS202)。w=w(0)の処理は、混合分布A(0)を統合元の混合分布とする。そして、統合元の混合分布A(0)と統合対象の混合分布A(1)とをそれぞれ統合する。当該統合処理の際の混合分布A(0)、統合対象の混合分布A(1)の重み係数をそれぞれ、w(0)、w(1)とする。次に統合処理について詳細に説明する。ここでは、図4Cに示すように、それぞれの混合分布は3つの基底正規分布からなるものとする。混合分布A(0)(音素(k−a+e)についての音素モデル)のそれぞれの分布重みを
c1(k−a+u[1])(以下、c1と示す。)
c2(k−a+u[1])(以下、c2と示す。)
c3(k−a+u[1])(以下、c3と示す。)とする。
[1]は混合分布の状態1であることを示す。
一方、混合分布A(1)(音素(k−a+u)についての音素モデル)のそれぞれの分布重みを
c1(k−a+e[1])(以下、c4と示す。)
c2(k−a+e[1])(以下、c5と示す。)
c3(k−a+e[1])(以下、c6と示す。)とする。
そうすると、重み係数w(0)、w(1)を用いて、c1〜c6は以下のように演算されることでc1’〜c6’が求められる。
c1’=c1・w(0)/{w(0)+w(1)}
c2’=c2・w(0)/{w(0)+w(1)}
c3’=c3・w(0)/{w(0)+w(1)}
c4’=c4・w(1)/{w(0)+w(1)}
c5’=c5・w(1)/{w(0)+w(1)}
c6’=c6・w(1)/{w(0)+w(1)}
ただし、演算子「・」は乗算を示し、「/」は除算を示す。図7のαに示すように、分布重みc1’からc6’として6状態の混合分布が生成される。そして、この6状態の混合分布において、分布を削減することで、3状態の混合分布を生成する(ステップS204)。この分布削減処理については、上記非特許文献1のp2942に記載されている。この生成された混合分布が統合元の混合分布Aとなる(ステップS204)。そして、当該混合分布Aの統合重み係数wをw+w(1)により更新する(ステップS206)。当該更新処理他の例として、統合重み係数wをw・w(1)などでもよい。統合重み係数wの当該更新処理の趣旨は、新しく生成された統合元混合分布Aと、統合対象の混合分布A(2)〜A(I−1)とを比較して、新しく生成された統合元混合分布Aに対して大きな重みをつけるという趣旨である。
次に、正規分布番号iを「1」インクリメントする(ステップS210)。そして、上記と同様の統合処理を用いて、統合元混合分布Aと正規分布A(2)を統合して、新たな統合元混合分布Aを生成する(ステップS204)。そして生成された統合元混合分布Aの重み係数wをw+w(2)により更新する(ステップS206)。このようにして、残りの正規分布A(3)〜A(I−1)についても、統合処理(ステップS204)、重み係数更新処理(wをw+w(i)に更新、ステップS206)を行う(ステップS208)。つまり、同じ音素環境を持つ高詳細度音素モデルの同じ位置状態にある状態の正規分布について全て統合したか否かを検討する。そして、これらの処理をそのほかの状態である第2状態S2、第3状態S3についても行う。また、上記の説明、図8の説明では、統合対象混合分布を1つずつ統合した例を説明したが、一度に2以上の混合分布を統合しても良い。
この実施例2のような統合手法を用いることで、全ての統合対象の正規分布を集めずに正規分布を統合できる。従って、実施例1の音響作成装置と比較して、正規分布の記憶コスト、計算コストを削減できる。
この実施例3では、統合元混合分布の重み係数w(=w(0))と統合対象混合分布の重み係数w(i)の決定方法について説明する。例えば、低詳細度音素モデルを生成する際に、上述のように、混合分布の統合処理を行わなければならないのであるが、音声認識の際に頻繁に用いる音素についての混合分布についてはより大きな重み係数にすることが好ましい。このように、用いる音素が重要であれば当該音素の重み係数w(i)を大きくすることで、より精度の高い音素モデル(音響モデル)を生成できる。この実施例3では、重み係数w(i)は、混合分布A(i)を有する音素モデルの音素列の継続長を用いて求める場合を説明する。例えば、図7の例では、統合元混合分布A(0)の重み係数w(0)は、混合分布A(0)を有する音素モデルの音素列(k−a+u)の継続長に寄るものであり、統合対象混合分布A(1)の重み係数w(1)とは、混合分布A(1)を有する音素モデルの音素列(k−a−e)の継続長に寄るものである。そして、混合分布A(0)の重み係数w(0)は例えば以下の式で求める。w(i)、w(0)を求める式については、例えば以下の式(5)(6)により求められる。
w(i)=混合分布A(i)を有する音素モデルの音素列の継続長
/全音素の継続長の総和 (5)
w(0)=音素列(k−a+u)の継続長/全音素の継続長の総和 (6)
また、統合処理の重みつけにおいて、正規化を行う場合には、上記式(5)(6)のように、「全音素の継続長の総和」で除算する必要はない。音素列の継続長、全音素の継続長の総和については、予め、記憶部212に記憶させておけば良い。
実施例3では、重要度を判別するパラメータとして「継続長」を用いたが、この実施例4では、「出現頻度」を用いて、重み係数w(i)を求める。以下に具体的な式の例を示す。
w(i)=混合分布A(i)を有する音素モデルの音素列の出現頻度
/全音素の出現頻度の総和 (7)
また、統合処理の重みつけにおいて、正規化を行う場合には、上記式(7)のように、「全音素の出現頻度の総和」で除算する必要はない。音素列の出現頻度、全音素の出現頻度の総和については、予め、記憶部212に記憶させておけば良い。
実施例5では、重要度を判別するパラメータとして「第1音響モデルの学習時のフレーム数の期待値」を用いる。以下に具体的な式の例を示す。
w(i)=混合分布A(i)を有する音素モデルの学習時のフレーム数の期待値/全音素の学習時のフレーム数の期待値の総和 (8)
また、統合処理の重みつけにおいて、正規化を行う場合には、上記式(8)のように、「全音素の学習時のフレーム数の期待値の総和」で除算する必要はない。音素列の学習時のフレーム数の期待値の総和、全音素の学習時のフレーム数の期待値の総和については、予め、記憶部212に記憶させておけば良い。
実施例3〜5では、音素モデルの重要度を用いて混合分布の重み係数を求める例を説明した。しかし、実施例3〜5の手法であると、第1音素モデルについての音素列の継続長、または出現頻度、または学習時フレーム数の記憶が必要であり、多大な記憶コストを必要とする。この実施例6では、低詳細度音素モデルについての音素の継続長、または出現頻度、または学習時フレーム数のみを用いるものである。従って、実施例3〜5と比較して、記憶コストを下げつつ、実施例3〜5と同様の効果を得ることができる。
具体的な手法としては、混合分布A(i)についての音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素と仮定する。そして、当該環境独立音素の継続長、当該環境独立音素の出現頻度、当該環境独立音素の第1音響モデル学習時フレーム数の期待値のうち、何れかの当該環境独立音素のそれぞれの合計から重み係数w(i)を求める。混合分布A(i)を有する音素モデルについての音素列が「k−a+u」である場合に、重み係数w(k−a+u)を求める場合を例にとって説明する。この場合に、「音素列の左右両端に位置しない音素」とは中心音素である「a」である。そして、中心音素「a」の左側に位置する音素列は「k」であり、右側に位置する音素列は「u」である。そして、「k」「u」を環境独立音素とした場合、つまり、「*−k+*」、「*−u+*」とした場合のこれらの重み係数w(*−k+*)、w(*−u+*)を求める。これらの重み係数の求め方は、これらの当該環境独立音素の継続長またはこの平均(実施例3で説明)、これらの当該環境独立音素の出現頻度またはこの平均(実施例4で説明)、これらの当該環境独立音素の学習時フレーム数の期待値またはこの平均(実施例5で説明)により求めればよい。そして、w(*−k+*)、w(*−u+*)が求められると、これらの平均値をw(k−a+u)として算出する。具体的に式で示すと、
w(k−a+u)={w(*−k+*)+w(*−u+*)}/2
となる。
また、第1音素モデルが中詳細度音素である場合に、例えば音素列(k−a−*)の重み係数w(k−a+*)は、例えば以下の通りにより求められる。
w(k−a+*)=w(*−k+*)
つまり、この場合は、「音素モデルの音素列の左右両端に位置しない音素」とは、「a」であり、左側または右側の少なくとも一方に位置する音素「k」のそれぞれを環境独立音素とした場合、つまり、(*−k+*)の継続長またはこれの平均、出現頻度またはこれの平均、学習時フレーム数の期待値またはこれの平均、を用いて求めれば良い。
また、第1音素モデルが音素列「a−s−o+b+u」についての音素モデルである場合には、当該音素列の重み係数w(a−s−o+b+u)は以下の式により求められる。
w(a−s−o+b+u)={w(*−a+*)+w(*−s+*)+w(*−o+*)+w(*−b+*)+w(*−u+*)}/5
この場合には、音素モデルの音素列の左右両端に位置しない音素とは「o」となり、音素「o」の左側または右側の少なくとも一方に位置する音素列とは、「a−s」および「b−u」となり、それぞれを独立環境音素とすると、(*−a+*)、(*−s+*)、(*−o+*)、(*−b+*)、(*−u+*)となり、これら独立環境音素の継続長またはこれの平均、出現頻度またはこれの平均、学習時フレーム数の期待値またはこれの平均からw(*−a+*)、w(*−s+*)、w(*−o+*)、w(*−b+*)、w(*−u+*)をそれぞれ求めればよい。
この手法であれば、環境独立音素の「継続長」「出現頻度」「学習時フレーム数の期待値」および、これらの全音素の総和を予め用意しておけばよく、記憶コスト、事前にこれらの情報を取得するための演算コストも実施例3〜5と比較して、格段に下げることが出来る。そして、実施例3〜5と同様な効果を得ることが出来る。
一般的に音声認識では、中詳細度音素や低詳細度音素は、単語境界のみで使用される。実施例7はこの概念を用いた実施例である。以下に、「私は特許を書きます」という具体例を用いて説明する。この文章を単語ごとに分割すると以下のようになる。
私/は/特許/を/書き/ます
そして音素を用いて表すと以下の音素列で表すことができる。
watashi/ha/toqkyo/o/kaki/masu (9)
(9)の音素列の例から明らかなように、単語の最後の音素(単語境界「/」の左側の音素)は母音(「a」や「i」などの音素)、母音以外に撥音「ん」、側音「っ」等になる場合が多く、子音(「k」や「s」などの音素)になる場合はほとんどない。従って、中詳細度音素である右側依存音素(上記(9)に示した音素列の例では、X−h+a、X−t+o、X−o+o、X−m+a)において左側の音素Xに子音が位置することはほとんどないということが言える。よって、生成対象の第2音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデル(つまり、音声認識において、あまり使用しない音素モデル)を含ませずに第2音素モデルを求め、更に全ての音素についての第2音素モデルから第2音響モデルを求める。
このように、生成する音素モデルを単語境界に位置する音素に絞ることで不要な音素モデルを排除でき、生成される目的音響モデルの精度を向上させることができる。また、不必要な第2音素モデルの生成コストについても削減できる。
[変形例]
次に、変形例を説明する。上述では、第2音素モデルに関して、中詳細度音素(biophone)モデルや低詳細度音素(monophone)モデルを想定して記述したが、低詳細度音素モデルの代わりに、音声GMM(Gaussian Mixture Model)を用いてもよい。ここで、音声GMMは、通常、1状態で表現されることが多く、無音以外の音声区間から学習して構築される場合が多く、音声/非音声判定などに用いられることがある。3状態で表される他の音素(biophone/monophone)モデルでは、状態位置を固定していた。一方、音声GMMでは、高詳細度音素モデルの全ての状態(上記の例では第1状態S1〜第3状態S3)の混合分布や(自己/状態間)遷移確率を元に、音声GMMの混合分布や遷移確率を求めることとする。また、音声GMMの構築の際には第1音素モデルを高詳細音素モデルではなく、低詳細度音素モデルを用いても良い。
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、音響モデル作成装置200が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、本実施例で説明した音響モデル作成装置200は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
<ハードウェアとソフトウェアとの協働>
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
音響モデル作成装置200の入力部202、出力部210は、所定のプログラムが読み込まれたCPUの制御のもと駆動するLANカード、モデム等の通信装置である。決定部204、取得部205、遷移確率計算部206、混合分布生成部208は、所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。記憶部212は上記補助記憶装置として機能する。
従来の音響モデル作成装置の機能構成例を示したブロック図。 本実施例の音響モデル作成装置の機能構成例を示したブロック図。 本実施例の処理フローを示した図。 音響モデルの概念図。 低詳細度音素モデルの各状態の遷移確率、混合分布を求める様子を模式的に示した図。 中詳細度音素モデルの各状態の遷移確率、混合分布を求める様子を模式的に示した図。 実施例2の混合分布の統合を模式的に示した図。 実施例2の統合処理の処理フローを示した図。

Claims (20)

  1. 入力された第1音響モデルを用いて、当該第1音響モデルより詳細度が低い第2音響モデルを生成して、第1音響モデルと第2音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成方法であって、
    第2音響モデルが有する第2音素モデルについての第2音素を決定する決定過程と、
    第1音響モデルから、第2音素と同一の音素環境に属する第1音素についての第1音素モデルを取得する取得過程と、
    第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第1音素モデルの数で除算することで、第2音素モデルの遷移確率(以下、「第2音素モデル遷移確率」という。)を求める計算過程と、
    第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第2音素モデルの混合分布(以下、「第2音素モデル混合分布」という。)を生成する統合過程と、
    前記第2音素モデル遷移確率と前記第2音素モデル混合分布とから求まる第2音響モデルと前記第1音響モデルとをまとめて前記目的音響モデルとして出力する出力過程と、
    を有し、
    前記統合過程は、
    I個(Iは整数)の混合分布のうち、統合重み係数wの統合元混合分布Aと、当該統合元混合分布A以外の統合重み係数w(i)の統合対象混合分布A(i)(ただし、i=1、...、I−1)のうち少なくとも1つとから前記統合重み係数wと前記統合重み係数w(i)とを用いて、統合後の混合分布Aを生成する統合ステップと、
    前記統合元混合分布Aの統合重み係数wよりも大きな値を、前記統合後の混合分布A’の統合重み係数w’として求める更新ステップとを有し、
    前記統合後の混合分布A’を統合元混合分布Aとして、前記統合後の混合分布A’の統合重み係数w’を前記統合元混合分布Aの統合重み係数wとして、前記統合ステップと前記更新ステップとを、前記第2音素モデルの各状態毎に統合される前記第1音素モデルの全ての統合対象混合分布A(i)について行うことを特徴とする音響モデル作成方法。
  2. 請求項1記載の音響モデル作成方法において、
    前記更新ステップは、前記統合元混合分布Aの統合重み係数wと前記統合対象混合分布A(i)の統合重み係数w(i)とを加算したものを前記統合後の混合分布A’の統合重み係数w’とすることを特徴とする音響モデル作成方法。
  3. 請求項1または2記載の音響モデル作成方法であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の継続長を、全音素の継続長の総和で除算した値であることを特徴とする音響モデル作成方法。
  4. 請求項1または2記載の音響モデル作成方法であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の出現頻度を、全音素の出現頻度の総和で除算した値であることを特徴とする音響モデル作成方法。
  5. 請求項1または2記載の音響モデル作成方法であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の第1音響モデル学習時のフレーム数の期待値を、全音素の第1音響モデル学習時のフレーム数の期待値の総和で除算した値であることを特徴とする音響モデル作成方法。
  6. 請求項1または2記載の音響モデル作成方法であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の継続長の平均であることを特徴とする音響モデル作成方法。
  7. 請求項1または2記載の音響モデル作成方法であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の出現頻度の平均であることを特徴とする音響モデル作成方法。
  8. 請求項1または2記載の音響モデル作成方法であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の第1音響モデル学習時のフレーム数の期待値の平均であることを特徴とする音響モデル作成方法。
  9. 請求項1〜何れかに記載の音響モデル作成方法であって、
    生成対象の第2音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデルを含ませずに第2音響モデルを求めることを特徴とする音響モデル作成方法。
  10. 入力された第1音響モデルを用いて、当該第1音響モデルより詳細度が低い第2音響モデルを生成して、第1音響モデルと第2音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成装置であって、
    第2音響モデルが有する第2音素モデルについての第2音素を決定する決定部と、
    第1音響モデルから、第2音素と同一の音素環境に属する第1音素についての第1音素モデルを取得する取得部と、
    第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第1音素モデルの数で除算することで、第2音素モデルの遷移確率(以下、「第2音素モデル遷移確率」という。)を求める遷移確率計算部と、
    第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第2音素モデルの混合分布(以下、「第2音素モデル混合分布」という。)を生成する混合分布生成部と、
    前記第2音素モデル遷移確率と前記第2音素モデル混合分布とから求まる第2音響モデルと前記第1音響モデルとをまとめて前記目的音響モデルとして出力する出力部と、
    を具備し、
    前記混合分布生成部は、
    I個(Iは整数)の混合分布のうち、統合重み係数wの統合元混合分布Aと、当該統合元混合分布A以外の統合重み係数w(i)の統合対象混合分布A(i)(ただし、i=1、...、I−1)のうち少なくとも1つとから、前記統合重み係数wと前記統合重み係数w(i)とを用いて、統合後の混合分布A’を生成する統合手段と、
    前記統合元混合分布Aの統合重み係数wよりも大きな値を、前記統合後の混合分布A’の統合重み係数w’として求める更新手段とを有し、
    前記統合後の混合分布A’を統合元混合分布Aとして、前記統合後の混合分布A’の統合重み係数w’を前記統合元混合分布Aの統合重み係数wとして、前記統合手段と前記更新手段とを、前記第2音素モデルの各状態毎に統合される前記第1音素モデルの全ての統合対象混合分布A(i)について行うことを特徴とする音響モデル作成装置。
  11. 請求項10記載の音響モデル作成装置であって、
    前記更新手段は、前記統合元混合分布Aの統合重み係数wと前記統合対象混合分布A(i)の統合重み係数w(i)とを加算したものを前記統合後の混合分布A’の統合重み係数w’とすることを特徴とする音響モデル作成装置。
  12. 請求項10または11記載の音響モデル作成装置であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の継続長を、全音素の継続長の総和で除算した値であることを特徴とする音響モデル作成装置。
  13. 請求項10または11記載の音響モデル作成装置であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の出現頻度を、全音素の出現頻度の総和で除算した値であることを特徴とする音響モデル作成装置。
  14. 請求項10または11記載の音響モデル作成装置であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の第1音響モデル学習時のフレーム数の期待値を、全音素の第1音響モデル学習時のフレーム数の期待値の総和で除算した値であることを特徴とする音響モデル作成装置。
  15. 請求項10または11記載の音響モデル作成装置であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の継続長の平均であることを特徴とする音響モデル作成装置。
  16. 請求項10または11記載の音響モデル作成装置であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の出現頻度の平均であることを特徴とする音響モデル作成装置。
  17. 請求項10または11記載の音響モデル作成装置であって、
    前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の学習時のフレーム数の期待値の平均であることを特徴とする音響モデル作成装置。
  18. 請求項10〜17何れかに記載の音響モデル作成装置であって、
    生成対象の第2音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデルを含ませずに第2音響モデルを求めることを特徴とする音響モデル作成装置。
  19. 請求項1〜何れかに記載の音響モデル作成方法の各過程をコンピュータに実行させるためのプログラム。
  20. 請求項19に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008156458A 2008-06-16 2008-06-16 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 Expired - Fee Related JP4909318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008156458A JP4909318B2 (ja) 2008-06-16 2008-06-16 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008156458A JP4909318B2 (ja) 2008-06-16 2008-06-16 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体

Publications (2)

Publication Number Publication Date
JP2009300830A JP2009300830A (ja) 2009-12-24
JP4909318B2 true JP4909318B2 (ja) 2012-04-04

Family

ID=41547778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008156458A Expired - Fee Related JP4909318B2 (ja) 2008-06-16 2008-06-16 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP4909318B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168703B (zh) * 2023-04-24 2023-07-21 北京探境科技有限公司 一种语音识别方法、装置、系统、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3033322B2 (ja) * 1992-02-14 2000-04-17 日本電気株式会社 連続音声認識方法
JPH10116091A (ja) * 1996-10-14 1998-05-06 Oki Electric Ind Co Ltd 音素辞書作成方法及び音声認識装置

Also Published As

Publication number Publication date
JP2009300830A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP5242724B2 (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
US8224648B2 (en) Hybrid approach in voice conversion
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6452591B2 (ja) 合成音声品質評価装置、合成音声品質評価方法、プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
EP3038103A1 (en) Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP2009128490A (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
US20220051655A1 (en) Acoustic model learning device, voice synthesis device, and program
JP4909318B2 (ja) 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体
JP4716125B2 (ja) 発音評定装置、およびプログラム
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
JP2010054588A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP5155811B2 (ja) 音響モデル作成方法、その装置、プログラム、その記録媒体
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP5155836B2 (ja) 収録テキスト生成装置、その方法、そのプログラム
JP7093081B2 (ja) 学習装置、推定装置、推定方法、およびプログラム
JP3926716B2 (ja) 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4909318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees