JPH05224691A - タスク適応標準パターン学習装置 - Google Patents

タスク適応標準パターン学習装置

Info

Publication number
JPH05224691A
JPH05224691A JP4028467A JP2846792A JPH05224691A JP H05224691 A JPH05224691 A JP H05224691A JP 4028467 A JP4028467 A JP 4028467A JP 2846792 A JP2846792 A JP 2846792A JP H05224691 A JPH05224691 A JP H05224691A
Authority
JP
Japan
Prior art keywords
learning data
group
speakers
speaker
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4028467A
Other languages
English (en)
Other versions
JP3003353B2 (ja
Inventor
Koichi Shinoda
浩一 篠田
Takao Watanabe
隆夫 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4028467A priority Critical patent/JP3003353B2/ja
Publication of JPH05224691A publication Critical patent/JPH05224691A/ja
Application granted granted Critical
Publication of JP3003353B2 publication Critical patent/JP3003353B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 少数の話者が発声した新しいタスクの学習デ
ータと、多数の話者が発声したもとのタスクの学習デー
タとを用いて、認識装置を新しいタスクに適応させ、認
識性能を高める。 【構成】 2つの異なるタスクA、Bとも発声した話者
SPのタスクAの発声データとタスクAのみ発声した話
者SQの発声データは対応づけ手段101に入力され、
DPマッチングを用いて対応づけられる。写像作成手段
102は、対応づけられたデータの組から、話者SPか
ら話者SQへの写像を作成する。学習データ作成手段1
03は、作成された写像を用いて、話者SPのタスクB
のデータから、話者SQのタスクBのデータを推定し出
力する。標準パターン学習手段104は、話者SPのタ
スクBのデータ、学習データ作成手段103で作成され
た話者SQのタスクBのデータを用いて、標準パターン
を学習し、出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識において、学習
データから標準パターンを学習するタスク適応標準パタ
ーン学習装置に関する。
【0002】
【従来の技術】現在、音声認識の分野では、誰の声でも
認識できることを目標とした不特定話者の認識システム
が盛んに研究・開発されている。これらの認識システム
では、隠れマルコフモデル、ニューラルネットワークな
どの認識方式が広く使われている。隠れマルコフモデル
の詳細については、例えば、「確率モデルによる音声認
識」中川聖一著、1988年、電子情報通信学会(以下
文献1とする)に詳しく解説されている。また、ニュー
ラルネットワークによる音声認識に関しては、例えば
「音声・聴覚と神経回路網モデル」甘利俊一編、199
0年、オーム社(以下文献2とする)に詳しい。これら
の手法では、予め多数の話者により発声された単語、文
などからなる学習データを用いて学習を行ない、より精
度の高い標準パターンを作成することにより、高性能な
認識を実現している。
【0003】現在のところ、音声認識システムでは、認
識装置のハードウェア的な制約のため、あるいは、認識
性能を高めるために認識装置の用途に応じて認識対象語
彙を制限している。上限は単語数にして1000単語程
度である。ここでは、この限定された認識対象のことを
「タスク」と呼ぶこととする。例えば、チケット予約の
タスクでは、アーティスト名、コンサート会場名、予約
の発話に用いる語彙、などが対象語彙となる。請求項1
〜5における第1の学習データと第2の学習データの違
いは、このタスクの違いのことを指す。
【0004】さて、標準パターンを、単語単位、あるい
は、文単位で作成してある場合、異なるタスクを認識し
ようとするときは、そのタスクに存在する未知の語彙を
新たに学習する必要が生じる。しかしながら、不特定話
者認識システムにおける標準パターンの学習には、多く
の話者の発声を必要とするため、タスクの変更の度に新
たな語彙を学習することは、データベースの構築に、多
大なコスト・時間を必要とし、現実的ではない。
【0005】従って、通常の不特定話者システムでは、
認識単位として単語より小さいサブワード(音素、音節
など)を用い、学習時にはこれら認識単位のモデルを学
習する。違うタスクの新しい語彙のモデルは、これらの
サブワードのモデルを連結することにより、容易に作成
することが可能になった。
【0006】
【発明が解決しようとする課題】上述したサブワードを
認識単位として用いた認識システムでは、学習に用いた
タスクと別の語彙から構成されるタスクを認識しようと
する場合、学習に用いたタスクを認識する場合に比べ、
認識性能が落ちることが、最近、報告されている。
【0007】これは、新しい語彙においては、サブワー
ドに対応する実際の発声が、前後のサブワードが何であ
るかなど、その周囲環境の違いにより変形を被り、学習
時のものとは異なったものとなっていることが原因であ
ると考えられる。
【0008】対策としては、タスクが変更された場合、
そのタスクで用いられる語彙を用いて再度学習をし直す
ということが考えられる。しかしながら、上述したよう
に、タスクが変更される度に、多数話者が発声した新し
いタスクに含まれる語彙からなるデータベースを用意す
ることは、大変な労力を必要とし、現実的ではない。
【0009】本発明は、少数の話者が発声した新しいタ
スクの学習データと、多数の話者が発声したもとのタス
クの学習データとを用いて、新しいタスクの多数の話者
が発声した学習データを推定し、それを用いて学習する
ことにより、認識装置を新しいタスクに適応させ、認識
性能を高めることを目的とする。
【0010】
【課題を解決するための手段】第1の発明のタスク適応
標準パターン学習装置は、音声認識において、複数の話
者の発声した学習データを用いて標準パターンを学習す
る際に、第1の学習データ及びそれとは語彙の異なる第
2の学習データをともに発声した話者の属する第1のグ
ループと、前記第1の学習データは発声したが前記第2
の学習データは発声していない話者の属する第2のグル
ープがあるとき、第1のグループの話者の第1の学習デ
ータの要素と、第2のグループの話者の第1の学習デー
タの要素とを、対応づける対応づけ手段と、前記対応づ
け手段により対応づけられた第1のグループの話者の第
1の学習データの要素と、第2のグループの話者の第1
の学習データの要素との組から、第1のグループの話者
の第1の学習データの要素から第2のグループの話者の
第1の学習データの要素への写像を作成する写像作成手
段と、第2のグループの話者の第2の学習データを、第
1のグループの話者の第2の学習データから、前記写像
作成手段で作成した写像を用いて、作成する学習データ
作成手段と、第1のグループの話者の第2の学習データ
と、学習データ作成手段において作成した第2のグルー
プの話者の第2の学習データとを用いて、標準パターン
を作成する標準パターン作成手段と、から構成されるこ
とを特徴とする。
【0011】第2の発明のタスク適応標準パターン学習
装置は、音声認識において、複数の話者の発声した学習
データを用いて標準パターンを学習する際に、第1の学
習データ及びそれとは語彙の異なる第2の学習データを
ともに発声した話者の属する第1のグループと、前記第
1の学習データは発声したが前記第2の学習データは発
声していない話者の属する第2のグループがあるとき、
第1のグループの話者の第1の学習データの要素と、第
2のグループの話者の第1の学習データの要素とを、対
応づける対応づけ手段と、前記対応づけ手段により対応
づけられた第1のグループの話者の第1の学習データの
要素と、第2のグループの話者の第1の学習データの要
素との組から、第1のグループの話者の第1の学習デー
タの要素から第2のグループの話者の第1の学習データ
の要素への写像を作成する写像作成手段と、第2のグル
ープの話者の第2の学習データを、第1のグループの話
者の第2の学習データから、前記写像作成手段で作成し
た写像を用いて、作成する学習データ作成手段と、第1
のグループの話者の第1の学習データと、第2のグルー
プの話者の第1の学習データと、第1のグループの話者
の第2の学習データと、学習データ作成手段において作
成した第2のグループの話者の第2の学習データとを用
いて、標準パターンを作成する標準パターン作成手段
と、から構成されることを特徴とする。
【0012】第3の発明のタスク適応標準パターン学習
装置は、音声認識において、複数の話者の発声した学習
データを用いて標準パターンを学習する際に、第1の学
習データ及びそれとは語彙の異なる第2の学習データを
ともに発声した話者の属する第1のグループと、前記第
1の学習データは発声したが前記第2の学習データは発
声していない話者の属する第2のグループがあるとき、
第1のグループの話者の第1の学習データの要素と、第
2のグループの話者の第1の学習データの要素とを、対
応づける対応づけ手段と、前記対応づけ手段により対応
づけられた学習データの組からベクトル量子化を行なう
ことにより、データ組のコードブックを作成するコード
ブック作成手段と、前記コードブック作成手段により作
成されたコードブックを用いて、第1のグループの話者
の第1の学習データの要素から第2のグループの話者の
第1の学習データの要素への写像を作成する写像作成手
段と、第2のグループの話者の第2の学習データを、第
1のグループの話者の第2の学習データから、前記写像
作成手段で作成した写像を用いて、作成する学習データ
作成手段と、第1のグループの話者の第2の学習データ
と、学習データ作成手段において作成した第2のグルー
プの話者の第2の学習データとを用いて、標準パターン
作成する標準パターン作成手段と、から構成されること
を特徴とする。
【0013】第4の発明のタスク適応標準パターン学習
装置は、音声認識において、複数の話者の発声した学習
データを用いて標準パターンを学習する際に、第1の学
習データ及びそれとは語彙の異なる第2の学習データを
ともに発声した話者の属する第1のグループと、前記第
1の学習データは発声したが前記第2の学習データは発
声していない話者の属する第2のグループがあるとき、
第2のグループの各々の話者に対し、第1のグループの
中から話者1名を選択する標準話者選択手段と、第2の
グループの話者の第1の学習データの要素と、その話者
に対応する標準話者の第1の学習データの要素とを、対
応づける対応づけ手段と、前記対応づけ手段により対応
づけられた第2のグループの話者の第1の学習データの
要素と、その話者に対応する標準話者の第1の学習デー
タの要素との組から、標準話者の第1の学習データの要
素から第2のグループの話者の第1の学習データの要素
への写像を作成する写像作成手段と、第2のグループの
話者の第2の学習データを、その話者に対応する標準話
者の第2の学習データから、前記写像作成手段で作成し
た写像を用いて、作成する学習データ作成手段と、第1
のグループの話者の第2の学習データと、学習データ作
成手段において作成した第2のグループの話者の第2の
学習データとを用いて、標準パターンを作成する標準パ
ターン作成手段と、から作成されることを特徴とする。
【0014】第5の発明のタスク適応標準パターン学習
装置は、音声認識装置において、複数の話者の発声した
学習データを用いて標準パターンを学習する際に、第1
の学習データ及びそれとは語彙の異なる第2の学習デー
タをともに発声した話者の属する第1のグループと、前
記第1の学習データは発声したが前記第2の学習データ
は発声していない話者の属する第2のグループがあると
き、第1のグループのそれぞれの話者と、第2のグルー
プのそれぞれの話者との間の類似度を計算する話者間類
似度出力手段と、第1のグループの話者の第1の学習デ
ータの要素と、第2のグループの話者の第1の学習デー
タの要素とを、対応づける対応づけ手段と、前記対応づ
け手段により対応づけられた第1のグループの話者の第
1の学習データの要素と、第2のグループの話者の第1
の学習データの要素との組から、第1のグループの話者
の第1の学習データの要素から第2のグループの話者の
第1の学習データの要素への写像を作成する写像作成手
段と、第2のグループの話者の第2の学習データを、第
1のグループの話者の第2の学習データから、前記写像
作成手段で作成した写像を用いて、作成する学習データ
作成手段と、第1のグループの話者の第2の学習データ
と、学習データ作成手段において作成した第2のグルー
プの話者の第2の学習データと、前記話者間類似度出力
手段により出力された話者間類似度とを用いて、標準パ
ターンを作成する標準パターン作成手段と、から構成さ
れることを特徴とする。
【0015】
【作用】以下に第1の発明のタスク適応標準パターン学
習装置の作用について説明する。まず、多数の話者があ
る標準的なタクスAを発声したデータベースを用意す
る。また、次に、Aを発声した多数話者の中から選ばれ
た少数の話者が発声した、タスクAとは異なる新しいタ
スクBのデータベースを用意する。タスクAのデータベ
ースは第1の発明における第1の学習データと対応し、
タスクBのデータベースは第1の発明における第2の学
習データと対応しする。今、タスクAを発声した話者の
中でタスクBを発声した話者の集合をPとし、また、タ
スクAを発声した話者の中でBを発声していない話者の
集合をQとする。集合Pは第1の発明における第1のグ
ループに対応し、集合Qは第1の発明における第2のグ
ループに対応する。今、集合Pに属する話者を話者
【0016】
【数1】
【0017】とする。ここでNS P は集合Pに属する話
者の数である。また、集合Qに属する話者を
【0018】
【数2】
【0019】とする。ここでNS Q は集合Qに属する話
者の数である。ここでは、データベースとして、複数の
単語から構成されているものを考える。文発声の場合は
以下の単語という言葉を文に置き換えればよい。タスク
Aを構成する単語を
【0020】
【数3】
【0021】とする。ここでNAはタスクAの単語数で
ある。同様にタスクBを構成する単語を
【0022】
【数4】
【0023】とする。ここでNBはタスクBの単語数で
ある。これらのデータは、AD変換、音声分析などの過
程を経て、10ms程度の時間長をもったフレームと呼
ばれる単位ごとの特徴ベクトルの時系列に変換される。
特徴ベクトルはその時刻における音声スペクトルの特徴
量を抽出したもので、通常10次元から100次元であ
る。
【0024】集合Qに属する話者SQ1 に関し以下の処
理を行なう。
【0025】集合Pに属する話者SP1 に関し以下の処
理を行なう。
【0026】最初にデータの対応づけを行なう。話者S
1 のタスクAの単語
【0027】
【数5】
【0028】の発声と、話者SP1 のタスクAの単語
【0029】
【数6】
【0030】の発声とを対応づける。対応づけでは一方
の単語のどのフレームの発声が、もう一方の単語のどの
フレームの発声に対応しているか求める。この対応づけ
は例えばDPマッチングを用いて行なうことができる。
DPマッチングに関しては「デジタル音声処理」、古
井、1985年、東海大学出版会、の162ページに詳
しい、今、簡単のために対応づけは1対1で行なうこと
とする。この対応づけを、タスクAのその他のすべての
単語
【0031】
【数7】
【0032】について行なう。以上は第1の発明におけ
る対応づけ手段に相当する。
【0033】次に、タスクAのすべての単語
【0034】
【数8】
【0035】についてSP1 とSQ1 との間で対応づけ
られたフレーム組を次のような配列とする。すなわち、
話者SP1 の発声をXi と話者SQ1 の発声Yi の対応
づけられた組を以下のように表す。
【数9】IMG[007] ここでNFA は対応づけられたタスクAの全単語
【0036】
【数10】
【0037】のフレーム数の合計である。このように作
られたフレーム組をもとに以下のような写像を定義す
る。
【0038】
【数11】
【0039】以上は第1の発明における写像作成手段に
対応する。
【0040】次に、話者SP1 の発声したタスクBを用
意し、タスクBの全単語
【0041】
【数12】
【0042】の各フレームの発声
【0043】
【数13】
【0044】に対して、以下の式を計算し、話者SQ1
のタスクBの発声
【0045】
【数14】
【0046】を推測する。
【0047】
【数15】
【0048】ここで、NFB は話者SP1 のタスクBの
発声の全フレーム数、dは距離、mは正の実数である。
距離としては、ユークリッド距離などを用いれば良い。
以上は第1の発明における学習データ作成手段に対応す
る。
【0049】以上と同様の作業を集合Pに属する他の話
【0050】
【数16】
【0051】に関し行なう。
【0052】以上と同様の作業を集合Qに属する他の話
【0053】
【数17】
【0054】に関し行なう。
【0055】次に、話者
【0056】
【数18】
【0057】のタスクBのデータ、及び、上述の学習デ
ータ作成手段により作成された話者
【0058】
【数19】
【0059】のタスクBのデータを、学習データとして
用いて学習を行なう。学習の方法は、例えばHMMに関
しては文献1の51ページから67ページに詳しい。こ
の段階は第1の発明における標準パターン学習手段に対
応する。
【0060】以上の方法により、タスクの変更がある場
合、新しいタスクの少数の話者による発声があれば、そ
れを用いて、多数話者の新しいタスクの発声を推測する
ことが可能であり、それらの発声を用いて標準パターン
の学習を行なうことにより、変更後のタスクに対しより
認識性能の高い標準パターン作成することができる。
【0061】第2の発明のタスク適応標準パターン学習
装置では、上述の標準パターン学習手段において、タス
クBのデータだけではなく、もとのタスクAのデータを
も学習データとして用いる。それにより、認識単位当た
りの学習データが増える効果がある。ただし、タスクA
のデータ中の語彙とタスクBのデータ中の語彙が著しく
異なる場合には、認識性能が低下する可能性がある。
【0062】第3の発明のタスク適応標準パターン学習
装置では、対応づけ手段により対応づけられたタスクA
のデータの組、
【0063】
【数20】
【0064】に対し、ベクトル量子化を行ない、以下の
ようにコードブックを作成する。
【0065】
【数21】
【0066】ここでNC はコードブックサイズである。
これにより、写像作成手段において、計算量の大幅な削
減が望める。しかしながら、量子化の際に量子化誤差の
混入は避けられず、写像の精度が劣化する可能性があ
る。
【0067】第4の発明のタスク適応標準パターン学習
装置では、集合Qの各々の話者
【0068】
【数22】
【0069】に対し、その話者に近い標準話者1名を集
合Bの話者
【0070】
【数23】
【0071】の中から選択し、その標準話者と間の写像
を作成する。集合Qの各々の話者のタスクBのデータを
推定する際に用いられるタスクBのデータは標準話者の
もののみである。集合Qの各々の話者に対し作成される
タスクBのデータは、標準話者1名に対応するもののみ
となり、データの量が減少する。認識性能の若干の劣化
が予想されるが、反面、パターン学習手段における計算
量は大幅に削減される。標準話者の選び方としては、任
意である。例えば、集合Qの各々の話者の発声のVQコ
ードブックをつくり、そのコードブックで量子化した際
の量子化誤差のもっとも小さい話者を選ぶ方法などか考
えられる。もちろん量子化誤差のもっとも大きい話者を
選んでも良い。
【0072】第5の発明のタスク適応標準パターン学習
装置では、集合Qの各々の話者
【0073】
【数24】
【0074】に対し、集合Pの話者の、その話者に対す
る類似度を話者間類似度出力手段において出力する。類
似度としては、例えば、上で述べたVQの際の量子化誤
差を利用して求める。この類似度からタスクBのデータ
における集合Pの各話者の重みを計算する。この重みは
類似度の適当な関数である。そして、計算された重みを
用いて、タスクBのデータに重みをつけ、標準パターン
学習手段において、学習を行なう。具体的には、例えば
認識方式としてHMMを用いた場合には、文献1の58
ページ3行目の式(3.70)において、分子、分母の
項の和の中の各項において、対応する発声を行なった話
者の重みを乗じたものを用いる。このようにして、標準
パターンの学習に話者間の類似度の情報を反映させるこ
とにより、より精度の高い標準パターンを作成すること
が可能になる。しかしながら、話者の類似度を計算する
必要があるため、計算量は若干増加する。
【0075】
【実施例】図1は第1の発明のタスク適応標準パターン
学習装置の一実施例を示すブロック図である。対応づけ
手段101では、タスクA、Bの両方とも発声した話者
SPのタスクAの発声データとタスクAのみ発声した話
者SQの発声データが入力され、それらをDPマッチン
グを用いて対応づけ、対応づけられたデータの組を出力
している。写像作成手段102では、対応づけ手段10
1で対応づけられたデータの組を入力し、話者SPから
話者SQへの写像を作成し、出力している。学習データ
作成手段103では、写像作成手段102により作成さ
れた写像を入力して、話者SPのタスクBのデータか
ら、話者SQのタスクBのデータを推定し、出力してい
る。標準パターン学習手段104では、話者SPのタス
クBのデータ、及び、学習データ作成手段103から出
力された話者SQのタスクBのデータが入力され、標準
パターンを学習し、学習された標準パターンを出力して
いる。
【0076】図2は第2の発明のタスク適応標準パター
ン学習装置の一実施例を示すブロック図である。対応づ
け手段201では、タスクA、Bとも発声した話者SP
のタスクAの発声データとタスクAのみ発声した話者S
Qの発声データが入力され、それらをDPマッチングを
用いて対応づけ、対応づけられたデータの組を出力して
いる。写像作成手段202では、対応づけ手段201か
ら出力されたデータの組が入力され、話者SPから話者
SQへの写像を作成し、出力している。学習データ作成
手段203では、写像作成手段202から出力された写
像が入力され、これを用いて、話者SPのタスクBのデ
ータから、話者SQのタスクBのデータを推定し、出力
している。標準パターン学習手段204では、話者SP
のタスクAのデータ、及び、話者SQのタスクAのデー
タ、及び、話者SPのタスクBのデータ、及び、学習デ
ータ作成手段203から出力された話者SQのタスクB
のデータが入力され、これらを用いて、標準パターンを
学習し、学習された標準パターンを出力している。
【0077】図3は第3の発明のタスク適応標準パター
ン学習装置の一実施例を示すブロック図である。対応づ
け手段301では、タスクA、Bとも発声した話者SP
のタスクAの発声データとタスクAのみ発声した話者S
Qの発声データが入力され、それらをDPマッチングを
用いて対応づけ、対応づけられたデータの組を出力して
いる。コードブック作成手段302では、対応づけ手段
301から出力されたデータの組が入力され、これに対
しベクトル量子化を行ない、データの組のコードブック
を作成し、出力している。写像作成手段303では、コ
ードブック作成手段302から出力されたコードブック
を入力し、話者SPから話者SQへの写像を作成し、出
力している。学習データ作成手段304では、写像作成
手段303から入力された写像を用いて、話者SPのタ
スクBのデータから、話者SQのタスクBのデータを推
定し、出力している。標準パターン学習手段305で
は、話者SPのタスクBのデータ、及び、学習データ作
成手段304から出力された話者SQのタスクBのデー
タが入力され、これらを用いて、標準パターンを学習
し、学習された標準パターンを出力している。
【0078】図4は第4の発明のタスク適応標準パター
ン学習装置の一実施例を示すブロック図である。標準話
者選択手段401では、タスクA、Bとも発声した話者
の中から1名の標準話者SPを選択している。対応づけ
手段402では、標準話者選択手段401により選択さ
れた標準話者SPの発声データと、タスクAのみ発声し
た話者SQの発声データが入力され、それらをDPマッ
チングを用いて対応づけ、対応づけられたデータの組を
出力している。写像作成手段403では、対応づけ手段
402から出力されたデータの組が入力され、これを用
いて話者SPから話者SQへの写像を作成し、出力して
いる。学習データ作成手段404では、写像作成手段4
03から写像を入力し、これを用いて話者SPのタスク
Bのデータから、話者SQのタスクBのデータを推定
し、出力している。標準パターン学習手段405では、
話者SPのタスクBのデータ、及び、学習データ作成手
段404から出力された話者SQのタスクBのデータを
入力し、これらを用いて標準パターンを学習し、学習さ
れた標準パターンを出力している。
【0079】図5は第5の発明のタスク適応標準パター
ン学習装置の一実施例を示すブロック図である。話者間
類似度出力手段501では、タスクA、Bとも発声した
話者とタスクAのみ発声した話者との類似度を計算し、
出力している。対応づけ手段502では、タスクA、B
とも発声した話者SPの発声データと、タスクAのみ発
声した話者SQの発声データが入力され、それらをDP
マッチングを用いて対応づけ、対応づけられたデータの
組を出力している。写像作成手段503では、対応づけ
手段502から出力されたデータの組が入力され、これ
から話者SPから話者SQへ写像を作成し、出力してい
る。学習データ作成手段504では、写像作成手段50
3から出力された写像を入力し、これを用いて、話者S
PのタスクBのデータから、話者SQのタスクBのデー
タを推定し、出力している。標準パターン学習手段50
5では、話者間類似度出力手段501より出力された話
者間類似度、及び、話者SPのタスクBのデータ、及
び,学習データ作成手段504から出力された話者SQ
のタスクBのデータを入力し、これを用いて標準パター
ンを学習し、学習された標準パターンを出力している。
【0080】
【発明の効果】以上述べたように本発明によれば、多数
話者の発声した不特定話者データと少数話者の発声した
新しいタスクのデータとから、多数話者の発声した新し
いタスクのデータを推測することが可能になり、その多
数話者の発声したタスクのデータを用いて学習すること
により、高精度な標準パターンを作成することが可能に
なる。
【図面の簡単な説明】
【図1】第1の発明のタスク適応標準パターン学習装置
の一実施例を示すブロック図
【図2】第2の発明のタスク適応標準パターン学習装置
の一実施例を示すブロック図
【図3】第3の発明のタスク適応標準パターン学習装置
の一実施例を示すブロック図
【図4】第4の発明のタスク適応標準パターン学習装置
の一実施例を示すブロック図
【図5】第5の発明のタスク適応標準パターン学習装置
の一実施例を示すブロック図
【符号の説明】
101、201、301、502 対応づけ手段 102、202、303、403、503 写像作成手
段 103、203、304、404、504 学習データ
作成手段 104、204、305、405、505 標準パター
ン学習手段 302 コードブック作成手段 401 標準話者選択手段 501 話者間類似度出力手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声認識において、複数の話者の発声し
    た学習データを用いて標準パターンを学習する際に、第
    1の学習データ及びそれとは語彙の異なる第2の学習デ
    ータをもとに発声した話者の属する第1のグループと、
    前記第1の学習データは発声したが前記第2の学習デー
    タは発声していない話者の属する第2のグループがある
    とき、第1のグループの話者の第1の学習データの要素
    と、第2のグループの話者の第1の学習データの要素と
    を、対応づける対応づけ手段と、前記対応づけ手段によ
    り対応づけられた第1のグループの話者の第1の学習デ
    ータの要素と、第2のグループの話者の第1の学習デー
    タの要素との組から、第1のグループの話者の第1の学
    習データの要素から第2のグループの話者の第1の学習
    データの要素への写像を作成する写像作成手段と、第2
    のグループの話者の第2の学習データを、第1のグルー
    プの話者の第2の学習データから、前記写像作成手段で
    作成した写像を用いて、作成する学習データ作成手段
    と、第1のグループの話者の第2の学習データと、学習
    データ作成手段において作成した第2のグループの話者
    の第2の学習データとを用いて、標準パターンを作成す
    る標準パターン作成手段と、から構成されることを特徴
    とするタスク適応標準パターン学習装置。
  2. 【請求項2】 音声認識において、複数の話者の発声し
    た学習データを用いて標準パターンを学習する際に、第
    1の学習データ及びそれとは語彙の異なる第2の学習デ
    ータをともに発声した話者の属する第1のグループと、
    前記第1の学習データは発声したが前記第2の学習デー
    タは発声していない話者の属する第2のグループがある
    とき、第1のグループの話者の第1の学習データの要素
    と、第2のグループの話者の第1の学習データの要素と
    を、対応づける対応づけ手段と、前記対応づけ手段によ
    り対応づけられた第1のグループの話者の第1の学習デ
    ータの要素と、第2のグループの話者の第1の学習デー
    タの要素との組から、第1のグループの話者の第1の学
    習データの要素から第2のグループの話者の第1の学習
    データの要素への写像を作成する写像作成手段と、第2
    のグループの話者の第2の学習データを、第1のグルー
    プの話者の第2の学習データから、前記写像作成手段で
    作成した写像を用いて、作成する学習データ作成手段
    と、第1のグループの話者の第1の学習データと、第2
    のグループの話者の第1の学習データと、第1のグルー
    プの話者の第2の学習データと、学習データ作成手段に
    おいて作成した第2のグループの話者の第2の学習デー
    タとを用いて、標準パターンを作成する標準パターン作
    成手段と、から構成されることを特徴とするタスク適応
    標準パターン学習装置。
  3. 【請求項3】 音声認識において、複数の話者の発声し
    た学習データを用いて標準パターンを学習する際に、第
    1の学習データ及びそれとは語彙の異なる第2の学習デ
    ータをともに発声した話者の属する第1のグループと、
    前記第1の学習データは発声したが前記第2の学習デー
    タは発声していない話者の属する第2のグループがある
    とき、第1のグループの話者の第1の学習データの要素
    と、第2のグループの話者の第1の学習データの要素と
    を、対応づける対応づけ手段と、前記対応づけ手段によ
    り対応づけられた学習データの組からベクトル量子化を
    行なうことにより、データ組のコードブックを作成する
    コードブック作成手段と、前記コードブック作成手段に
    より作成されたコードブックを用いて、第1のグループ
    の話者の第1の学習データの要素から第2のグループの
    話者の第1の学習データの要素への写像を作成する写像
    作成手段と、第2のグループの話者の第2の学習データ
    を、第1のグループの話者の第2の学習データから、前
    記写像作成手段で作成した写像を用いて、作成する学習
    データ作成手段と、第1のグループの話者の第2の学習
    データと、学習データ作成手段において作成した第2の
    グループの話者の第2の学習データとを用いて、標準パ
    ターンを作成する標準パターン作成手段と、から構成さ
    れることを特徴とするタスク適応標準パターン学習装
    置。
  4. 【請求項4】 音声装置において、複数の話者の発声し
    た学習データを用いて標準パターンを学習する際に、第
    1の学習データ及びそれとは語彙の異なる第2の学習デ
    ータをともに発声した話者の属する第1のグループと、
    前記第1の学習データは発声したが前記第2の学習デー
    タは発声しない話者の属する第2のグループがあると
    き、第2のグループの各々の話者に対し、第1のグルー
    プの中から話者1名を選択する標準話者選択手段と、第
    2のグループの話者の第1の学習データの要素と、その
    話者に対応する標準話者の第1の学習データの要素と
    を、対応づける対応づけ手段と、前記対応づけ手段によ
    り対応づけられた第2のグループの話者の第1の学習デ
    ータの要素と、その話者に対応する標準話者の第1の学
    習データの要素との組から、標準話者の第1の学習デー
    タの要素から第2のグループの話者の第1の学習データ
    の要素への写像を作成する写像作成手段と、第2のグル
    ープの話者の第2の学習データを、その話者に対応する
    標準話者の第2の学習データから、前記写像作成手段で
    作成した写像を用いて、作成する学習データ作成手段
    と、第1のグループの話者の第2の学習データと、学習
    データ作成手段において作成した第2のグループの話者
    の第2の学習データとを用いて、標準パターンを作成す
    る標準パターン作成手段と、から構成されることを特徴
    とするタスク適応標準パターン学習装置。
  5. 【請求項5】 音声認識において、複数の話者の発声し
    た学習データを用いて標準パターンを学習する際に、第
    1の学習データ及びそれとは語彙の異なる第2の学習デ
    ータをともに発声した話者の属する第1のグループと、
    前記第1の学習データは発声したが前記第2の学習デー
    タは発声しない話者の属する第2のグループがあると
    き、第1のグループのそれぞれの話者と、第2のグルー
    プのそれぞれの話者との間の類似度を計算する話者間類
    似度出力手段と、第1のグループの話者の第1の学習デ
    ータの要素と、第2のグループの話者の第1の学習デー
    タの要素とを、対応づける対応づけ手段と、前記対応づ
    け手段により対応づけられた第1のグループの話者の第
    1の学習データの要素と、第2のグループの話者の第1
    の学習データの要素との組から、第1のグループの話者
    の第1の学習データの要素から第2のグループの話者の
    第1の学習データの要素への写像を作成する写像作成手
    段と、第2のグループの話者の第2の学習データを、第
    1のグループの話者の第2の学習データから、前記写像
    作成手段で作成した写像を用いて、作成する学習データ
    作成手段と、第1のグループの話者の第2の学習データ
    と、学習データ作成手段において作成した第2のグルー
    プの話者の第2の学習データと、前記話者間類似度出力
    手段により出力された話者間類似度とを用いて、標準パ
    ターンを作成する標準パターン作成手段と、から構成さ
    れることを特徴とするタスク適応標準パターン学習装
    置。
JP4028467A 1992-02-14 1992-02-14 タスク適応標準パターン学習装置 Expired - Fee Related JP3003353B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4028467A JP3003353B2 (ja) 1992-02-14 1992-02-14 タスク適応標準パターン学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4028467A JP3003353B2 (ja) 1992-02-14 1992-02-14 タスク適応標準パターン学習装置

Publications (2)

Publication Number Publication Date
JPH05224691A true JPH05224691A (ja) 1993-09-03
JP3003353B2 JP3003353B2 (ja) 2000-01-24

Family

ID=12249462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4028467A Expired - Fee Related JP3003353B2 (ja) 1992-02-14 1992-02-14 タスク適応標準パターン学習装置

Country Status (1)

Country Link
JP (1) JP3003353B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6884517B2 (ja) 2016-06-15 2021-06-09 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Also Published As

Publication number Publication date
JP3003353B2 (ja) 2000-01-24

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
JP4109063B2 (ja) 音声認識装置及び音声認識方法
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
US7401017B2 (en) Adaptive multi-pass speech recognition system
JP2006038895A (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
Rabiner et al. Speech recognition: Statistical methods
JP3535292B2 (ja) 音声認識システム
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
JP3003353B2 (ja) タスク適応標準パターン学習装置
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP3039399B2 (ja) 非母国語音声認識装置
Kannadaguli et al. Comparison of artificial neural network and gaussian mixture model based machine learning techniques using ddmfcc vectors for emotion recognition in kannada
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2000122689A (ja) 話者適応化装置及び音声認識装置
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
Dumitru et al. Vowel, Digit and Continuous Speech Recognition Based on Statistical, Neural and Hybrid Modelling by Using ASRS_RL
JP3003355B2 (ja) 標準パターン作成装置
JPH06110490A (ja) 周囲環境適応標準パターン学習装置
Djuraev et al. An In-Depth Analysis of Automatic Speech Recognition System
JPH06175678A (ja) 音声認識装置
JP3105708B2 (ja) 音声認識装置
JPH10254350A (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991019

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees