JP3412496B2 - 話者適応化装置と音声認識装置 - Google Patents

話者適応化装置と音声認識装置

Info

Publication number
JP3412496B2
JP3412496B2 JP04305198A JP4305198A JP3412496B2 JP 3412496 B2 JP3412496 B2 JP 3412496B2 JP 04305198 A JP04305198 A JP 04305198A JP 4305198 A JP4305198 A JP 4305198A JP 3412496 B2 JP3412496 B2 JP 3412496B2
Authority
JP
Japan
Prior art keywords
speaker
dependent
standard pattern
conversion coefficient
dependent conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP04305198A
Other languages
English (en)
Other versions
JPH11242494A (ja
Inventor
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP04305198A priority Critical patent/JP3412496B2/ja
Priority to US09/217,928 priority patent/US6223159B1/en
Publication of JPH11242494A publication Critical patent/JPH11242494A/ja
Application granted granted Critical
Publication of JP3412496B2 publication Critical patent/JP3412496B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、標準パタンを予
め複数用意しておき使用話者音声の特徴に基づき当該標
準パタンを選択する話者適応化装置と選択された使用話
者依存標準パタンを用い音声認識をする音声認識装置と
に関する。
【0002】
【従来の技術】たとえば文献(小坂ほか:話者適応のた
めの構造話者クラスリング、信学技報、SP93−11
0、1993)に示す従来の話者適応化装置は図7のよ
うに、音声特徴量抽出手段1は、別途入力する使用話者
音声101に対し音響特徴量分析を施し特徴ベクトル時
系列Ou=[ou(1)、ou(2)、…、ou(T
u)](Tuは使用話者音声最大フレーム数を表す)を
抽出する。使用話者依存標準パタン選択手段6aは、音
声特徴量抽出手段1による特徴ベクトル時系列を用い参
照話者依存標準パタン記憶手段9による格納参照話者依
存標準パタンに対し、HMM尤度演算を施し選択する最
大尤度値のものを使用話者依存標準パタン104として
出力する。参照話者依存標準パタン学習手段7は、別途
用意する参照話者音声データ特徴ベクトル102と初期
標準パタン103を用い、たとえば移動ベクトル場平滑
化話者適応化方式(文献(大倉ほか:連続混合分布HM
Mを用いた移動ベクトル場平滑化話者適応化方式、信学
技報、SP92−16、1992)に詳述)で初期標準
パタン103であるHMMの状態jのk番目平均ベクト
ルμi(j,k)に対し話者lの音声データで適応平均
ベクトルμal(j,k)を推定し学習する参照話者番
号1〜Mの参照話者依存標準パタンλs(1)〜λs
(M)を生成する。参照話者グループ依存標準パタン学
習手段8は、参照話者依存標準パタン学習手段7による
参照話者依存標準パタンλs(1)〜λs(M)間距離
に対しバタチャリア距離で定義をしクラスタリングを
し、たとえばK−平均アルゴリズム(文献(L.Rab
iner etal.著/古井啓訳、音声認識の基礎、
NTTアドバンステクノロジ(株)、1995)に詳
述)でグループ化をする参照話者依存標準パタンを用い
参照話者グループ数1〜Nの参照話者グループ依存標準
パタンλg(1)〜λg(N)を生成する。参照話者依
存標準パタン記憶手段9は、参照話者依存標準パタン学
習手段7による参照話者依存標準パタンλs(1)〜λ
s(M)と参照話者グループ依存標準パタン学習手段8
による参照話者グループ依存標準パタンλg(1)〜λ
g(N)とを格納する。
【0003】上記従来の話者適応化装置は、隠れマルコ
フモデル(HMM:hiddenMarkov mod
el。たとえば上記文献「音声認識の基礎」に詳述す
る、不特定話者の音声データ(単語や文など)で予め標
準パタン学習をし作成する不特定話者標準パタン)を用
い、参照話者依存標準パタンを予め複数用意しておき、
使用話者音声の特徴に基づき話者依存標準パタンを選択
する話者適応化方式(標準パタン選択法による話者適応
化方式)を採る。
【0004】参照話者グループ依存標準パタン学習手段
8は、生成した参照話者グループ標準パタンについてグ
ループnの状態jのk番目平均ベクトルμgn(j,
k)と共分散行列Ugn(j,k)を下記の数1により
推定する。ここで、μai(j,k)とUai(j,
k)は参照話者依存標準パタンについてのグループn内
のi番目の平均ベクトルと共分散行列、Iはグループn
内の参照話者依存標準パタン数、tは転置行列をそれぞ
れ表す。
【0005】
【数1】
【0006】参照話者依存標準パタン記憶手段9は、1
標準パタン当り平均ベクトル次元数34の初期HMMガ
ウス分布数1010をもつHMMを用いるから、たとえ
ば参照話者依存標準パタン数279と参照話者グループ
依存標準パタン数205を合わせた標準パタン数484
に対し、平均ベクトルだけで484×1010×34=
6,620,560データを記憶する必要がある。
【0007】使用話者音声101とは、装置を使用する
話者が予め所定発声内容の単語や文を発声した音声をい
う。参照話者音声データ特徴ベクトル102とは、多数
話者音声データに対し音響特徴量分析を施し抽出する特
徴ベクトル(たとえばケプストラム、ケプストラ差分な
どの音声特徴を少ないデータ量で表現する物理量)をい
う。参照話者数Mのときは特徴ベクトル時系列O(1)
〜O(M)(O(l)は時系列[o(l,1)、o
(l,2)、…、o(l,Tl)]、Tlは参照話者l
の音声データフレーム数をそれぞれ表す)が存在する。
初期標準パタン103とは、予め用意する初期標準パタ
ンλi(たとえば多数話者音声データで学習する200
状態で各状態5混合の音素HMMとl状態で10混合の
無音HMM)をいう。
【0008】たとえば一般に示す従来の標準パタン選択
法による話者適応化方式を用いる音声認識装置は図8の
ように、音声特徴量抽出手段11は、別途入力する使用
話者認識対象音声101a(装置を使用する話者が認識
対象の単語や文を発声した音声)に対し上記図6の音声
特徴量抽出手段1と同じに動作する。照合手段12は、
音声特徴量抽出手段11による特徴ベクトル時系列に対
し、上記標準パタン選択法による話者適応化装置による
使用話者依存標準パタン104との照合により音声認識
をし、音声認識結果105として出力する。
【0009】
【発明が解決しようとする課題】上記のような従来の話
者適応化装置では、標準パタン選択法による話者適応化
方式を採るから、写像法(初期標準パタンと使用話者標
準パタンに対する写像関係を少量の学習データで計算す
る個人差に関する構造的モデル導入方法で、たとえば文
献(M.J.F.Gales etal.:Mean
and variance adaptation w
ith in the MLLR frame wor
k,Computer Speech and Lan
guage10,249−264,1996)に示す、
重回帰写像モデルで求める変換係数による特定話者標準
パタン学習法がある)や統計的推定法(たとえば文献
(C.H.Lee etal.:A study on
speaker adaptation of th
e parameters of continuou
s density hidden Markor m
odels,IEEETrans.Signal Pr
ocess.vol.39,no.4,pp.806−
814,1991)に示す、新たな取得学習データから
の標準パタン推定時に事前取得初期標準パタンからの知
識を利用する方法がある)による話者適応化方式に比べ
少量の学習データで正確な話者適応を実現するが、使用
話者音声に基づき予め記憶する参照話者依存標準パタン
の中から使用話者依存標準パタンを選択する話者適応化
で記憶する参照話者依存標準パタン数が増えると、当該
参照話者依存標準パタンを表すデータ量が増える問題点
があった。
【0010】この発明が解決しようとする課題は、話者
適応化装置と音声認識装置で上記問題点を解消するよう
に、標準パタンを表す変換係数を予め複数用意してお
き、使用話者音声の特徴に基づき当該変換係数を選択す
る話者適応化方式(データ低減標準パタン選択法による
話者適応化方式)を提供することにある。
【0011】
【課題を解決するための手段】この発明の話者適応化装
置は、上記課題を解決するためつぎの手段を設け、デー
タ低減標準パタン選択法による話者適応化方式を採るこ
とを特徴とする。またこの発明に関連する音声認識装置
は、上記話者適応化装置を備えることを特徴とする。
【0012】音声特徴量抽出手段は、別途入力する使用
話者音声に対し、音響特徴量分析を施し特徴ベクトル時
系列を抽出する。
【0013】参照話者依存変換係数演算/記憶手段は、
別途用意する参照話者音声データ特徴ベクトルと初期標
準パタンを用い、参照話者依存変換係数を演算し、格納
する。または当該参照話者音声データ特徴ベクトルに対
し参照話者毎に、複数参照話者で構成する参照話者グル
ープ毎に、もしくは参照話者毎にかつ複数参照話者で構
成する参照話者グループ毎に、参照話者依存変換係数を
演算し、格納する。または当該初期パタンに対し複数部
分に分割するパラメータグループ毎に、もしくは当該参
照話者音声データ特徴ベクトルに対し複数参照話者で構
成する参照話者グループ毎にかつ当該初期標準パタンに
対し複数部分に分割するパラメータグループ毎に、参照
話者依存変換係数を演算し、格納する。または当該参照
話者依存変換係数に対し、各参照話者に依存する変換行
列・定数項ベクトル演算、各参照話者に依存する変換定
数項ベクトル演算だけ、もしくは各参照話者に依存する
変換行列・定数項ベクトルと変換定数項ベクトルだけと
の併用演算により生成する。
【0014】使用話者依存変換係数選択/演算手段は、
音声特徴量抽出手段による特徴量ベクトル時系列に対
し、参照話者依存変換係数演算/記憶手段による参照話
者依存変換係数の中から、1組以上の参照話者依存変換
係数を用い、使用話者依存変換係数を演算する。または
音声特徴抽出手段による特徴ベクトル時系列と当該初期
標準パタンとを用い生成する使用話者依存変換係数に対
し、参照話者依存係数演算/記憶手段による参照話者依
存変換係数との類似度演算を施し、当該変換係数類似度
が大きい1個以上の参照話者依存変換係数、もしくは音
声特徴量抽出手段による特徴ベクトル時系列に対し、参
照話者依存係数演算/記憶手段による参照話者依存変換
係数と当該初期標準パタンとを用い生成する参照話者依
存標準パタンとの尤度演算を施し、当該尤度が大きい順
に1個以上の参照話者標準パタン変換係数、もしくはそ
れぞれ1個以上の前記変換係数類似度が大きい参照話者
依存変換係数かつ前記尤度が大きい参照話者標準パタン
変換係数を用い、使用話者依存変換係数を演算する。ま
たは使用話者依存変換係数選択/演算手段で参照話者依
存変換係数演算/記憶手段による1組以上の参照話者依
存変換係数を用い加重平均とする1組以上の使用話者依
存変換係数を演算する。または使用話者依存変換係数
択/演算手段で初期標準パタンとして用いる連続混合分
布型隠れマルコフモデルのシンボル出力確率密度関数を
構成するガウス分布またはラプラス分布の要素分布関数
で平均ベクトルを変換する参照話者依存変換係数を演算
する。
【0015】使用話者依存標準パタン演算手段は、使用
話者依存変換係数選択/演算手段による使用話者依存変
換係数を用い当該初期標準パタンのパラメータ変換を
し、使用話者依存標準パタンとして出力する。
【0016】話者適応化装置は、当該初期標準パタンと
して連続混合分布型隠れマルコフモデルを用いる。
【0017】
【発明の実施の形態】この発明の実施の一形態を示す話
者適応化装置は図1のように、音声特徴量抽出手段1
は、上記従来例の図7に対応する。参照話者依存変換係
数演算/記憶手段2/3は、別途用意する参照話者音声
データ特徴ベクトル102と初期標準パタン103を用
い、参照話者依存標準パタンを得るための参照話者依存
変換係数Tr(1)〜Tr(L)(Lは変換係数の組数
を表す)を演算し、格納する。使用話者依存変換係数選
択手段4は、音声特徴量抽出手段1による特徴量ベクト
ル時系列に対し、参照話者依存変換係数記憶手段3によ
る参照話者依存変換係数Tr(1)〜Tr(L)の中か
ら1組以上の参照話者依存変換係数Trc(1)〜Tr
c(Lc)(Lcは選択する変換係数の組数)を選択す
る。使用話者依存変換係数演算手段5は、使用話者依存
変換係数選択手段4による1組以上の選択する参照話者
依存変換係数Trc(1)〜Trc(Lc)を用い、初
期標準パタン変換のための使用話者依存変換係数Trm
を演算する。使用話者依存標準パタン演算手段6は、使
用話者依存変換係数演算手段5による使用話者依存変換
係数Trmを用い、別途用意する初期標準パタン103
のパラメータ変換をし使用話者依存標準パタン104と
して出力する。予め用意する標準パタンを記憶するため
のデータ数を低減できる。
【0018】上記実施の形態の話者適応化装置は、標準
パタンを表す変換係数を予め複数用意しておき、使用話
者音声の特徴に基づき当該変換係数を選択する話者適応
化方式(データ低減標準パタン選択法による話者適応化
方式)を採る。
【0019】参照話者依存変換係数演算/記憶手段2/
3は、線形と非線形のいずれの参照話者依存変換係数を
用いてもよい。またたとえば連続混合分布型HMMの場
合、変換対象パラメータは、遷移確率とガウス分布平均
ベクトルと共分散行列と混合重み係数と継続時間長制御
パラメータとであり、たとえば定数項ベクトルをv
(l)、初期標準パタンのパラメータをpiとすれば、
参照話者lの標準パタンpa(l)=pi+v(l)と
なる。また一組の変換係数を表すためのデータ数をTd
(l)(lは1〜L(変換係数の組数)の組番号を表
す)、初期標準パタンを表すためのデータ数をIdとす
れば、所要記憶データ数Td(total)=Id+Σ
l Td(l)、l=1〜Lであり、当該所要記憶データ
数は、従来の標準パタン選択法による場合のId×Lに
対しId×L>Td(total)の条件を満たすとき
は、低減することになる。
【0020】なお上記図1に示す発明の実施の形態で参
照話者依存変換係数演算手段2に図2(a)のように、
別途設ける参照話者毎依存変換係数演算手段21で、参
照話者数M毎の参照話者音声データ特徴ベクトルO
(1)〜O(M)102と初期標準パタン103を用
い、参照話者毎依存変換係数Trs(1)〜Trs
(M)を演算し、参照話者依存変換係数記憶手段3に出
力する参照話者依存変換係数演算手段2aとして構成し
てもよい。参照話者毎の変換係数演算(Id×M>Td
(total))により、予め用意する標準パタンを記
憶するためのデータ数をより低減できる。また図2
(b)のように、別途設ける参照話者グループ演算手段
22で参照話者音声データ特徴ベクトル102に対しク
ラスタリングをし、1人以上の参照話者で構成するN個
の参照話者グループg(1)〜g(N)にグループ化を
し、別途設ける参照話者グループ依存変換係数演算手段
23で当該グループ毎の参照話者音声データ特徴ベクト
ルOg(1)〜Og(N)102と初期標準パタン10
3を用い、参照話者グループ毎依存変換係数Trg
(1)〜Trg(N)を演算し、参照話者依存変換係数
記憶手段3に出力する参照話者依存変換係数演算手段2
bとして構成してもよい。複数参照話者で構成する参照
話者グループ毎の変換係数演算(Id×N>Td(to
tal))により、予め用意する標準パタンを記憶する
ためのデータ数をさらに低減できる。また図2(c)の
ように、上記図2(a)と(b)に示す参照話者毎依存
変換係数演算手段21と参照話者グループ演算手段22
および参照話者グループ依存変換係数演算手段23とを
別途設ける参照話者依存変換係数演算手段2cとして構
成してもよい。参照話者毎と複数参照話者で構成する参
照話者グループ毎との併用変換係数演算(Id×(M+
N)>Td(total))により、予め用意する標準
パタンを記憶するためのデータ数をさらにまた低減でき
る。また図3(a)のように、別途設ける初期標準パタ
ンパラメータグループ演算手段24で初期標準パタン1
03に対し当該パラメータにょるクラスタリングをし、
複数のパラメータグループλi(1)〜λi(P)(P
はグループ数を表す)にグループ化をするとともに、使
用話者依存標準パタン演算手段6に出力し、別途設ける
参照話者依存パラメータグループ変換係数演算手段25
で参照話者音声データ特徴ベクトル102と初期標準パ
タンパラメータグループ演算手段24による当該パラメ
ータグループ毎の初期標準パタン103を用い、参照話
者依存パラメータグループ毎変換係数Trss(p,
l)(p=1、2、…、P、l=1、2、…、L、Pは
分割する標準パタングループ数、Lは変換係数の組数を
それぞれ表す)を演算し、参照話者依存変換係数記憶手
段3に出力する参照話者依存変換係数演算手段2dとし
て構成してもよい。初期標準パタン103に対し複数部
分に分割する当該パラメータグループ毎の変換係数演算
(Id×L>Td′(total)、Td′(tota
l)=Σp Σl Td(p,l)、p=1〜P、l=1〜
L、Td(p,l)は変換係数Trss(p,l)を表
すためのデータ数を表す)により、予め用意する標準パ
タンを記憶するためのデータ数をより低減できる。また
図3(b)のように、上記図2(b)に示す参照話者グ
ループ演算手段22と、上記図3(a)に示す初期標準
パラメータグループ演算手段24と、参照話者グループ
依存パラメータグループ変換係数演算手段26とを別途
設け、参照話者グループ演算手段22による参照話者グ
ループ毎の参照話者音声データ特徴ベクトルOg(1)
〜Og(N)102と初期標準パラメータグループ演算
手段24によるパラメータグループ毎の初期標準パタン
103とを用い、参照話者グループ毎依存パラメータグ
ループ毎変換係数を演算し参照話者依存変換係数記憶手
段3に出力する参照話者依存変換係数演算手段2eとし
て構成してもよい。参照話者グループ毎と初期標準パタ
ンパラメータグループ毎との併用変換係数演算(Id×
L′>Td′(total)、L′は参照話者グループ
数を表す)により、予め用意する標準パタンを記憶する
ためのデータ数をさらに低減できる。また図4(a)の
ように、別途設ける参照話者依存変換行列定数項ベクト
ル演算手段27で参照話者音声データ特徴量ベクトル1
02と初期標準パタン103を用い、各参照話者に依存
する変換行列と変換定数項ベクトルに基づく参照話者依
存変換係数A(l)とv(l)を演算し参照話者依存変
換係数記憶手段3に出力する参照話者依存変換係数演算
手段2fとして構成してもよい。重回帰写像モデルに基
づく変換行列と変換定数項ベクトル演算により、予め用
意する標準パタンを記憶するためのデータ数をより低減
できる。参照話者依存変換行列・定数項ベクトル演算手
段27は、たとえば初期標準パタン103として用いる
HMMパラメータのガウス分布平均ベクトルに対し参照
話者毎に変換するとき、1番目参照話者依存HMMの状
態jでガウス分布kにおける平均ベクトルμal(j,
k)に対し、下記の数式2(1)に示す話者lに依存す
る変換行列と変換定数項ベクトルに基づく参照話者依存
変換係数A(l)とv(l)により、初期標準パタン1
03の平均ベクトルμi(j,k)を変換して得る。こ
こで、μi(j,k)とμal(j,k)はd次元ベク
トル、A(l)にd行×d列の行列、v(l)はd次元
定数項ベクトルをそれぞれ表す。また当該A(l)とv
(l)に対し、たとえば上記写像法文献によるHMM尤
度演算で、まず下記の数式2(2)に示すように、状態
jでガウス分布kにおける特徴ベクトルo(l,t)の
出力確率密度関数の要素関数を定義する。つぎに下記の
数式2(3)(4)に示すように、当該出力確率密度関
数に基づき、初期標準パタン103の初期HMMλiと
参照話者lに対する参照話者音声データ特徴ベクトルo
(l,1)〜o(l,Tl)102(Tlは話者lの音
声データ特徴ベクトル最大ベクトル最大フレーム数を表
す)とを用いて、A(l)とv(l)について偏微分を
し零に等しいとすることにより「Baumの補助関数」
の最大値を示すA(l)とv(l)を演算する。ここ
で、Fは尤度、θはHMMが取り得る状態系列、θはH
MMが取り得る状態系列集合、λiとλi′は再推定前
と後のHMMパラメータ集合、γ(t,j,k)は時刻
tに状態jでガウス分布kにおける特徴ベクトルが観測
される期待値をそれぞれ表す。さらに下記の数式2
(4)から導出される数式2(5)に示すように、A
(l)のp行目[a(l,p,1)、a(l,p,
2)、…、a(l,p,d)]とv(l)のp次元目v
(l,p)を同時に演算する。ここで、μi(j,k,
r)とσ2(j,k,p)は状態jでガウス分布kにお
ける初期HMM平均ベクトルμi(j,k)のr番目要
素と共分散行列Ui(j,k)の(p,p)要素、o
(l,t,p)は時刻tにおける話者lに対する特徴ベ
クトルのp番目要素をそれぞれ表す。なお話者依存変換
係数記憶手段3に格納する当該A(l)とv(l)の所
要記憶データ数は、平均ベクトル次元数をd、記憶標準
パタン数をLとすれば、[(d×d+d)×L+初期H
MMガウス分布数×d]であり、たとえば従来例と同じ
に初期HMMガウス分布数=1010、d=34、L=
484のとき、(34×34+34)×484+10
0×34=610,300となり、従来例のときの1
6,620,560に比べ低減することになる。また図
4(b)のように、別途設ける参照話者依存定数項ベク
トル演算手段28で参照話者音声データ特徴量ベクトル
102と初期標準パタン103を用い、各参照話者に依
存する変換定数項ベクトルだけに基づく参照話者依存変
換係数v(l)を演算し参照話者依存変換係数記憶手段
3に出力する参照話者依存変換係数演算手段2gとして
構成してもよい。変換定数項ベクトル演算だけにより、
予め用意する標準パタンを記憶するためのデータ数をさ
らに低減できる。参照話者依存定数項ベクトル演算手段
28は、たとえば初期標準パタン103として用いるH
MMパラメータのガウス分布平均ベクトルに対し参照話
者毎に変換するとき、1番目参照話者依存HMMの状態
jでガウス分布kにおける平均ベクトルμal(j,
k)に対し、下記の数式3(1)に示す話者lに依存す
る変換定数項ベクトルに基づく参照話者依存変換係数v
(l)により、初期標準パタン103の平均ベクトルμ
i(j,k)を変換して得る。ここで、μi(j,k)
とμal(j,k)はd次元ベクトル、v(l)はd次
元定数項ベクトルをそれぞれ表す。また当該v(l)に
対し、たとえば上記写像法文献によるHMM尤度演算
で、まず下記の数式3(2)に示すように、状態jでガ
ウス分布kにおける特徴ベクトルo(l,t)の出力確
率度関数の要素関数を定義する。つぎに下記の数式3
(3)に示すように、当該出力確率密度関数に基づき、
初期標準パタン103の初期HMMλiと参照話者lに
対する音声データ特徴ベクトル102o(l,1)〜o
(l,Tl)とを用いて、v(l)について偏微分をし
零に等しいとおくことにより「Baumの補助関数」の
最大値を示すv(l)を演算する。さらに下記の数式3
(3)から導出される数式3(4)に示すように、v
(l)のp次元目v(l,p)を演算する。ここで、μ
i(j,k,r)とσ2(k,p)は状態jでガウス分
布kにおける初期HMM平均ベクトルμi(j,k)の
r番目要素と共分散行列Ui(j,k)の(p,p)要
素を表す。なお話者依存変換係数記憶手段3に格納する
当該v(l)の所要記憶データ数は、平均ベクトル次元
数をd、記憶標準パタン数をLとすれば、[d×L+初
期HMMガウス分布数×d]であり、たとえば従来例と
同じに初期HMMガウス分布数=1010、d=34、
L=484のとき、34×484+1010×34=
0,796となり、従来例の16,620,560に比
べ低減することになる。また図4(c)のように、上記
図4(a)と(b)に示す参照話者依存変換行列・定数
項ベクトル演算手段27と参照話者依存定数項ベクトル
演算手段28とを別途設ける参照話者依存変換係数演算
手段2hとして構成してもよい。変換行列・定数項ベク
トルと変換定数項ベクトルだけとの併用演算により、予
め用意する標準パタンを記憶するためのデータ数をより
低減できる。なお話者依存変換記憶手段3に格納する変
換行列と定数項ベクトルに基づくL1個の参照話者依存
変換係数A(l)とv(l)および定数項ベクトルに基
づくL2個の参照話者依存変換係数v(l)の所要記憶
データ数は、平均ベクトル次元数をd、記憶標準パタン
数をL(L=L1+L2)とすれば、[(d×d+d)
×L1+d×L2+初期HMMガウス分布数×d]であ
り、たとえば従来例と同じに初期ガウス分布数=81
0、d=34、L=484(L1=242、L2=24
2)のとき、(34×34+34)×242+34×2
42+810×34=323,748となり、従来例の
13,329,360に比べ低減することになる。
【0021】
【数2】
【0022】
【数3】
【0023】また上記図1に示す発明の実施の形態で使
用話者依存変換係数手段5は図5のように、別途設ける
重み付け加算使用話者依存変換係数演算手段51で使用
話者依存変換係数選択手段4による1組以上の選択する
参照話者依存変換係数Trc(1)〜Trc(Lc)を
用い重み付け加算を施し、生成する1組以上の使用話者
依存変換係数Tm=Σl ωlTrc(l)、l=1〜L
c(ここでωlはΣlωl=1.0を満たす重み係数を
表す)を使用話者依存標準パタン演算手段6に出力する
使用話者依存変換係数演算手段5aとして構成してもよ
い。選択する参照話者依存変換係数の加重平均演算によ
り、予め用意する標準パタンを記憶するためのデータ数
をより低減できる。なお下記に示す尤度基準による使用
話者依存変換係数選択手段4bによるLc組の使用話者
依存係数Trcml(1)〜Trcml(Lc)の選択
時における尤度演算で、それぞれの尤度をF(1)〜F
(Lc)とするとき、上記重み係数ωl=F(l)/Σ
p F(p)、p=1〜Lcとなり、尤度が高い使用話者
依存係数に対しては重み係数ωlを大きくすることを意
味する。また下記に示す変換係数類似度基準による使用
話者依存変換係数選択手段4aにおける類似度を用い重
み係数ωlを算出してもよい。
【0024】また上記図1に示す発明の実施の形態で使
用話者依存変換係数選択手段4は図6(a)のように、
別途設ける変換係数類似度基準による使用話者依存変換
係数選択手段41で音声特徴量抽出手段1による特徴ベ
クトル時系列と別途用意する初期標準パタン103とに
基づき生成する使用話者依存変換係数Truに対し、参
照話者依存係数記憶手段4による参照話者依存変換係数
Tr(1)〜Tr(L)との類似度演算を施し、当該変
換係数類似度が大きい1個以上の参照話者依存変換係数
Trcd(1)〜Trcd(Lc)を選択し使用話者依
存変換係数演算手段5に出力する使用話者依存変換係数
選択手段4aとして構成してもよい。変換係数類似度が
大きい参照話者依存変換係数を1個以上選択する変換係
数類似度演算により、予め用意する標準パタンを記憶す
るためのデータ数をより低減できる。変換係数類似度基
準による使用話者依存変換係数選択手段41は、たとえ
ば変換係数が定数項ベクトルのとき、使用話者/参照話
者依存変換係数である使用話者/参照話者依存定数項ベ
クトルをvu/v(l)とすると、ユークリッド距離D
(l)=|vu−v(l)|が小さいベクトルからLc
個(LC≧1)の参照話者依存変換係数Trcd(1)
〜Trcd(Lc)を選択する。また図6(b)のよう
に、別途設ける参照話者依存標準パタン演算手段42で
参照話者依存変換係数記憶手段3による参照話者依存変
換係数Tr(1)〜Tr(L)と別途用意する初期標準
パタン103とに基づき参照話者依存標準パタンλr
(1)〜λr(L)を生成し、別途設ける尤度基準によ
る使用話者依存変換係数選択手段43で音声特徴量抽出
手段1による特徴ベクトル時系列Ouに対し、参照話者
依存標準パタン演算手段42による参照話者依存標準パ
タンλr(1)〜λr(L)との尤度演算(たとえばH
MMの場合は上記文献「音声認識の基礎」に詳述)を施
し、当該尤度が大きい順に1個以上の参照話者標準パタ
ン変換係数Trcml(1)〜Trcml(Lc)を選
択し使用話者依存変換係数演算手段5に出力する使用話
者依存変換係数選択手段4bとして構成してもよい。尤
度が大きい参照話者標準パタン変換係数を1個以上選択
する尤度演算により、予め用意する標準パタンを記憶す
るためのデータ数をより低減できる。また図6(c)の
ように、上記図6(a)と(b)に示す変換係数類似度
基準による使用話者依存変換係数選択手段41と参照話
者依存標準パタン演算手段42および尤度基準による使
用話者依存変換係数選択手段43とを別途設ける使用話
者依存変換係数選択手段4cとして構成してもよい。変
換係数類似度が大きいLc1(Lc1≧1)個の参照話
者依存変換係数と尤度が大きいLc2(Lc2≧1)個
の参照話者標準パタン変換係数とを選択する変換係数類
似度と尤度との併用演算により、予め用意する標準パタ
ンを記憶するためのデータ数をさらに低減できる。
【0025】また上記図1〜図6に示す発明の実施の形
態で初期標準パタン103として、たとえば上記文献
「音声認識の基礎」に詳述する連続混合分布型HMM
(隠れマルコフモデル)を用いてもよい。連続混合分布
型HMMによる演算により、予め用意する標準パタンを
記憶するためのデータ数をより低減できる。
【0026】上記図1〜図6に示す発明の実施の形態で
参照話者依存変換係数演算手段2と2a〜2hは、初期
標準パタン103として用いる連続混合分布型HMMの
シンボル出力確率密度関数を構成するガウス分布または
ラプラス分布(上記文献「音声認識の基礎」に詳述)の
要素分布関数で平均ベクトルを変換する参照話者依存変
換係数を演算してもよい。参照話者依存変換係数の平均
ベクトル変換演算により、予め用意する標準パタンを記
憶するためのデータ数をより低減できる。たとえばガウ
ス分布関数がシンボル出力確率密度関数を構成する要素
分布である場合、状態jでガウス分布kにおける平均ベ
クトルと共分散行列をμ(j,k)とU(j,k)、平
均ベクトル次元数をd、シンボルをoとするときのガウ
ス分布関数は下記の数式4(1)で与えられるから、状
態jにおけるシンボルoの出力確率bj(o)は下記の
数式4(2)で示される。ここで、Kは状態j内の混合
分布数、c(j,k)は混合重み係数をそれぞれ表す。
【0027】
【数4】
【0028】この発明に関連する実施の一形態を示す音
声認識装置は、上記従来例の図8で標準パタン選択法に
よる話者適応化装置に代えて、上記図1〜図6に示すデ
ータ低減標準パタン選択法による話者適応化装置による
使用話者依存標準パタン104を用いてもよい。データ
低減標準パタン選択法による話者適応化方式による上記
効果をもつ音声認識装置を実現できる。
【0029】
【発明の効果】上記のようなこの発明の話者適応化装置
と音声認識装置では、標準パタンを表す変換係数を予め
複数用意しておき、使用話者音声の特徴に基づき当該変
換係数を選択する話者適応化方式を採るから、従来のよ
うに隠れマルコフモデルを用い参照話者依存標準パタン
を予め複数用意しておき、使用話者音声の特徴に基づき
話者依存標準パタンを選択する方式に比べ、予め用意す
る標準パタンを記憶するためのデータ数を低減できるほ
か各発明ごとにつぎの付加演算により当該データ数をよ
り低減できる効果がある。 (1)参照話者毎の変換係数演算 (2)複数参照話者で構成する参照話者グループ毎の変
換係数演算 (3)上記(1)と(2)との併用演算 (4)複数部分に分割する初期標準パタンパラメータグ
ループ毎の変換係数演算 (5)上記(2)と(4)との併用演算 (6)重回帰写像モデルに基づく変換行列と変換定数項
ベクトル演算 (7)上記(6)の変換定数項ベクトル演算だけ (8)上記(6)と(7)との併用演算 (9)変換係数類似度演算 (10)尤度演算 (11)上記(9)と(10)との併用演算 (12)参照話者依存変換係数の加重平均演算 (13)連続混合分布型隠れマルコフモデルによる演算 (14)参照話者依存変換係数の平均ベクトル変換演算
【図面の簡単な説明】
【図1】 この発明の実施の一形態を示す話者適応化装
置の機能ブロック図。
【図2】 図1に示す参照話者依存変換係数演算手段の
他の三形態を説明する構成ブロック図。
【図3】 図1に示す参照話者依存変換係数演算手段の
他の二形態を説明する構成ブロック図。
【図4】 図1に示す参照話者依存変換係数演算手段の
他の三形態を説明する構成ブロック図。
【図5】 図1に示す使用話者依存変換係数演算手段の
他の一形態を説明する構成ブロック図。
【図6】 図1に示す使用話者依存変換係数選択手段の
他の三形態を説明する構成ブロック図。
【図7】 従来の技術を示す話者適応化装置の機能ブロ
ック図。
【図8】 従来の技術を示す標準パタン選択法による話
者適応化方式を用いる音声認識装置を説明する構成ブロ
ック図。
【符号の説明】
1 音声特徴量抽出手段、2 参照話者依存変換係数演
算手段、3 参照話者依存変換係数記憶手段、4 使用
話者依存変換係数選択手段、5 使用話者依存変換係数
演算手段、6 使用話者依存標準パタン演算手段、10
1 使用話者音声、102 参照話者音声データ特徴ベ
クトル、103 初期標準パタン、104 使用話者依
存標準パタン。なお図中、同一符号は同一または相当部
分を示す。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平9−114483(JP,A) 特開 平9−330095(JP,A) 特開 平8−211889(JP,A) 特開 平8−241095(JP,A) 特許3035239(JP,B2) 石井純、外村政啓,重回帰写像モデル を用いた話者正規化と話者適応化方式, 電子情報通信学会技術研究報告,電子情 報通信学会,1997年11月16日,SP96− 87〜94,29−35 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/18

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 別途入力する使用話者音声に対し音響特
    徴量分析を施し特徴ベクトル時系列を抽出する音声特徴
    量抽出手段と、別途用意する参照話者音声データ特徴ベ
    クトルと初期標準パタンを用い参照話者依存変換係数を
    演算し格納する参照話者依存変換係数演算/記憶手段
    と、前記音声特徴量抽出手段による特徴量ベクトル時系
    列に対し該参照話者依存変換係数演算/記憶手段による
    参照話者依存変換係数の中から1組以上の参照話者依存
    変換係数を用い使用話者依存変換係数を演算する使用話
    者依存変換係数選択/演算手段と、該使用話者依存変換
    係数選択/演算手段による使用話者依存変換係数を用い
    前記初期標準パタンのパラメータ変換をし使用話者依存
    標準パタンとして出力する使用話者依存標準パタン演算
    手段とを備える話者適応化装置。
  2. 【請求項2】 参照話者依存変換係数演算/記憶手段
    は、当該参照話者音声データ特徴ベクトルに対し、参照
    話者毎に、複数参照話者で構成する参照話者グループ毎
    に、または前記参照話者毎にかつ前記複数参照話者で構
    成する参照話者グループ毎に、参照話者依存変換係数を
    演算し格納することを特徴とする請求項1記載の話者適
    応化装置。
  3. 【請求項3】 参照話者依存変換係数演算/記憶手段
    は、当該初期標準パタンに対し複数部分に分割するパラ
    メータグループ毎に、または当該参照話者音声データ特
    徴ベクトルに対し参照話者で構成する参照話者グループ
    毎にかつ当該初期標準パタンに対し前記複数部分に分割
    するパラメータグループ毎に、参照話者依存変換係数を
    演算し格納することを特徴とする請求項1記載の話者適
    応化装置。
  4. 【請求項4】 参照話者依存変換係数演算/記憶手段
    は、当該参照話者依存変換係数に対し各参照話者に依存
    する変換行列・定数項ベクトル演算、各参照話者に依存
    する変換定数項ベクトル演算だけ、または各参照話者に
    依存する変換行列・定数項ベクトルと変換定数項ベクト
    ルだけとの併用演算により生成することを特徴とする請
    求項1記載の話者適応化装置。
  5. 【請求項5】 使用話者依存変換係数選択/演算手段
    は、音声特徴量抽出手段による特徴ベクトル時系列と当
    該初期標準パタンとを用い生成する使用話者依存変換係
    数に対し、参照話者依存変換係数演算/記憶手段による
    参照話者依存変換係数との類似度演算を施し、当該変換
    係数類似度が大きい1個以上の選択する参照話者依存変
    換係数、もしくは音声特徴量抽出手段による特徴ベクト
    ル時系列に対し、参照話者依存変換係数演算/記憶手段
    による参照話者依存変換係数と当該初期標準パタンとを
    用い生成する参照話者依存標準パタンとの尤度演算を施
    し、当該尤度が大きい順に1個以上の参照話者標準パタ
    ン変換係数、またはそれぞれ1個以上の前記変換係数類
    似度が大きい参照話者依存変換係数かつ前記尤度が大き
    い参照話者標準パタン変換係数を用い使用話者依存変換
    係数を演算することを特徴とする請求項1記載の話者適
    応化装置。
  6. 【請求項6】 使用話者依存変換係数選択/演算手段で
    参照話者依存変換係数演算/記憶手段による1組以上
    照話者依存変換係数を用い加重平均とする1組以上の
    使用話者依存変換係数を演算することを特徴とする請求
    項1記載の話者適応化装置。
  7. 【請求項7】 当該初期標準パタンとして連続混合分布
    型隠れマルコフモデルを用いることを特徴とする請求項
    1、2、3、4、5また6記載の話者適応化装置。
  8. 【請求項8】 参照話者依存変換係数演算/記憶手段
    は、初期標準パタンとして用いる連続混合分布型隠れマ
    ルコフモデルのシンボル出力確率密度関数を構成するガ
    ウス分布またはラプラス分布の要素分布関数で平均ベク
    トルを変換する参照話者依存変換係数を演算することを
    特徴とする請求項7記載の話者適応化装置。
  9. 【請求項9】 請求項1、2、3、4、5、6、7また
    は8記載の話者適応化装置を備えることを特徴とする音
    声認識装置。
JP04305198A 1998-02-25 1998-02-25 話者適応化装置と音声認識装置 Expired - Lifetime JP3412496B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP04305198A JP3412496B2 (ja) 1998-02-25 1998-02-25 話者適応化装置と音声認識装置
US09/217,928 US6223159B1 (en) 1998-02-25 1998-12-22 Speaker adaptation device and speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04305198A JP3412496B2 (ja) 1998-02-25 1998-02-25 話者適応化装置と音声認識装置

Publications (2)

Publication Number Publication Date
JPH11242494A JPH11242494A (ja) 1999-09-07
JP3412496B2 true JP3412496B2 (ja) 2003-06-03

Family

ID=12653093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04305198A Expired - Lifetime JP3412496B2 (ja) 1998-02-25 1998-02-25 話者適応化装置と音声認識装置

Country Status (2)

Country Link
US (1) US6223159B1 (ja)
JP (1) JP3412496B2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
EP1185976B1 (en) * 2000-02-25 2006-08-16 Philips Electronics N.V. Speech recognition device with reference transformation means
JP2002366187A (ja) 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4304952B2 (ja) 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
WO2006033044A2 (en) * 2004-09-23 2006-03-30 Koninklijke Philips Electronics N.V. Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
EP1846884A4 (en) * 2005-01-14 2010-02-17 Tremor Media Llc SYSTEM AND METHOD FOR DYNAMIC ADVERTISING
WO2007056451A2 (en) 2005-11-07 2007-05-18 Scanscout, Inc. Techniques for rendering advertisments with rich media
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法
US20080109391A1 (en) * 2006-11-07 2008-05-08 Scanscout, Inc. Classifying content based on mood
US8577996B2 (en) * 2007-09-18 2013-11-05 Tremor Video, Inc. Method and apparatus for tracing users of online video web sites
US8549550B2 (en) 2008-09-17 2013-10-01 Tubemogul, Inc. Method and apparatus for passively monitoring online video viewing and viewer behavior
US8798994B2 (en) * 2008-02-06 2014-08-05 International Business Machines Corporation Resource conservative transformation based unsupervised speaker adaptation
US20090259552A1 (en) * 2008-04-11 2009-10-15 Tremor Media, Inc. System and method for providing advertisements from multiple ad servers using a failover mechanism
US9612995B2 (en) 2008-09-17 2017-04-04 Adobe Systems Incorporated Video viewer targeting based on preference similarity
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US20110093783A1 (en) * 2009-10-16 2011-04-21 Charles Parra Method and system for linking media components
US8615430B2 (en) * 2009-11-20 2013-12-24 Tremor Video, Inc. Methods and apparatus for optimizing advertisement allocation
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
JP2871561B2 (ja) * 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
JP2991287B2 (ja) * 1997-01-28 1999-12-20 日本電気株式会社 抑制標準パターン選択式話者認識装置
JP2965537B2 (ja) * 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石井純、外村政啓,重回帰写像モデルを用いた話者正規化と話者適応化方式,電子情報通信学会技術研究報告,電子情報通信学会,1997年11月16日,SP96−87〜94,29−35

Also Published As

Publication number Publication date
US6223159B1 (en) 2001-04-24
JPH11242494A (ja) 1999-09-07

Similar Documents

Publication Publication Date Title
JP3412496B2 (ja) 話者適応化装置と音声認識装置
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
Padmanabhan et al. Speaker clustering and transformation for speaker adaptation in speech recognition systems
KR101664815B1 (ko) 스피치 모델 생성 방법
CN112185340B (zh) 语音合成方法、语音合成装置、存储介质与电子设备
JP2898568B2 (ja) 声質変換音声合成装置
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2654539B2 (ja) 音声認識装置
JP2009020458A (ja) 音声処理装置およびプログラム
JPH10509526A (ja) ヒドンマルコフモデルを使用して設計された決定木分類子
CN108510995B (zh) 面向语音通信的身份信息隐藏方法
TW200935399A (en) Chinese-speech phonologic transformation system and method thereof
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
Haeb-Umbach et al. An investigation of cepstral parameterisations for large vocabulary speech recognition
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
JP2923243B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Kato et al. Tree‐based clustering for gaussian mixture HMMs
Huang et al. A probabilistic acoustic MAP based discriminative HMM training
JP3412501B2 (ja) タスク適応化装置及び音声認識装置
JP3036706B2 (ja) 音声認識方法
Otsuka et al. An on-line algorithm of guitar performance transcription using non-negative matrix factorization
JP3285048B2 (ja) 不特定話者用音声認識装置
Cai et al. Research on the recognition of isolated Chinese lyrics in songs with accompaniment based on deep belief networks
JPH05241593A (ja) 時系列信号処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090328

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100328

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100328

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140328

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term