JP2002082688A - 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 - Google Patents

話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体

Info

Publication number
JP2002082688A
JP2002082688A JP2000269068A JP2000269068A JP2002082688A JP 2002082688 A JP2002082688 A JP 2002082688A JP 2000269068 A JP2000269068 A JP 2000269068A JP 2000269068 A JP2000269068 A JP 2000269068A JP 2002082688 A JP2002082688 A JP 2002082688A
Authority
JP
Japan
Prior art keywords
acoustic model
teacher label
data
speaker adaptation
label data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000269068A
Other languages
English (en)
Inventor
Tadashi Suzuki
鈴木  忠
Jun Ishii
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000269068A priority Critical patent/JP2002082688A/ja
Publication of JP2002082688A publication Critical patent/JP2002082688A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ある言語のノンネイティブ話者が発声したあ
る言語音声になまりや曖昧な発音が含まれるため、音響
モデルの話者適応化処理の精度低下が生じてしまうとい
う課題があった。 【解決手段】 入力音声を音響分析処理して切替手段3
の端子aから特徴ベクトル時系列4を出力する音響分析
手段2と、話者適応化用音声データに対応する複数の教
師ラベルデータから構成されるマルチ教師ラベルデータ
7を記憶するマルチ教師ラベル記憶手段6と、音響モデ
ル9Aを記憶する音響モデル記憶手段8と、マルチ教師
ラベルデータ7から教師ラベルデータを一つ選択すると
ともに、選択された教師ラベルデータを参照して特徴ベ
クトル時系列4と音響モデル9Aとを照合し、音響モデ
ル9Aを話者適応化処理する教師ラベル選択型話者適応
化手段10とを備えるようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ある言語を母国
語としないノンネイティブ(non−native)話
者が発声したある言語の音声を用いて音響モデルの話者
適応化処理を行う話者適応化装置、話者適応化方法およ
び話者適応化プログラムを記録したコンピュータ読取可
能な記録媒体、これらをそれぞれ用いた音声認識装置、
音声認識方法および音声認識プログラムを記録したコン
ピュータ読取可能な記録媒体に係るものである。
【0002】
【従来の技術】図5は従来の話者適応化装置を備えた音
声認識装置の構成を示す図である。図5の音声認識装置
は次の文献1,2にそれぞれ開示されており、以下で
は、日本人(ノンネイティブ話者)が発声する英語(日
本人英語)を認識対象とする。
【0003】<文献1>「第2言語学習用に適応化され
た音素モデルによる第2言語発話者の音声認識」(鈴木
英之・中川聖一、日本音響学会平成7年度春季研究発表
会講演論文集I,pp.47−48)
【0004】<文献2>「複数単語モデルによる日本人
英語音声認識の検討」(鈴木忠・阿部芳春・中島邦男、
日本音響学会1999年秋季研究発表会講演論文集I,
pp.127−128)
【0005】図5において、41は話者適応化用音声デ
ータや未知音声信号が入力される入力端子、42は音響
分析処理を行う音響分析手段である。音響分析手段42
は、入力端子41へ入力された話者適応化用音声データ
や未知音声信号を音響分析処理して特徴ベクトル時系列
を出力する。
【0006】43はスイッチなどの切替手段であり、音
響分析手段42からの特徴ベクトル時系列の出力先を処
理に応じて切替える。切替手段43は、話者適応化処理
を行う場合には端子aを選択し、音声認識処理を行う場
合には端子bを選択する。したがって、話者適応化用音
声データの特徴ベクトル時系列44は端子aから出力さ
れ、未知音声信号の特徴ベクトル時系列45は端子bか
ら出力される。
【0007】46は教師ラベルデータ47を記憶する教
師ラベル記憶手段、48は音響モデル49A,49Bを
記憶する音響モデル記憶手段、50は話者適応化処理を
行う話者適応化手段である。話者適応化手段50は、特
徴ベクトル時系列44,教師ラベルデータ47を用いて
音響モデル49Aを話者適応化処理し、これを音響モデ
ル49Bとして音響モデル記憶手段48へ書き込む。
【0008】51は認識対象語彙の単語表記辞書52を
記憶する単語表記辞書記憶手段、53は音声認識処理を
行う音声認識手段である。音声認識手段53は、音響モ
デル49Bを用いて特徴ベクトル時系列45の音声認識
処理を行い、単語表記辞書52を用いて音声認識結果を
出力する。
【0009】続いて、話者適応化手段50の構成例を次
に示す。図6は話者適応化手段50の構成を示す図であ
る。図6において、57は照合手段、59は音響モデル
更新手段である。図5と同一または相当する構成要素に
ついては同一の符号を付してある。
【0010】照合手段57は、教師ラベルデータ47を
参照して、音響モデル49Aと特徴ベクトル時系列44
との照合を行い、特徴ベクトル時系列44中の各特徴ベ
クトルに対する音響モデル対応付データ58を出力す
る。
【0011】音響モデル更新手段59は、音響モデル4
9Aを読み出した後、音響モデル対応付データ58と特
徴ベクトル時系列44とを用いて各音響モデル49Aの
パラメータを更新し、これを音響モデル49Bとして音
響モデル記憶手段48に書き込む。
【0012】次に動作について説明する。ここでは、音
響モデルとして英語の疑似音素単位の連続分布型HMM
(Hidden Markov Model)を用いた
場合を例に取る。HMMの構成は3状態のLeft−t
o−right型とする。各音響モデルは、英語を母国
語とする複数のネイティブ(native)話者が発声
した音声データを用いて学習されたものである。
【0013】音響モデルの話者適応化処理を最初に行う
ため、切替手段43は端子aを選択する。英語を母国語
としない日本人話者が発声した発声内容既知の話者適応
化用音声データは、入力端子41から入力されて、音響
分析手段42によって分析フレーム毎に音響分析処理さ
れ、特徴ベクトル時系列44として切替手段43の端子
aから出力される。
【0014】教師ラベル記憶手段46の教師ラベルデー
タ47は、話者適応化用音声データの発声内容を表す英
語疑似音素単位のラベルの系列で記憶されている。例え
ば、話者適応化用音声データの発声内容を英語の「se
ven」とすると、これに対応する教師ラベルデータ4
7は、ネイティブ話者の発音表記であるネイティブ教師
ラベルデータ/s/e/v/□/n/のように、5個の
疑似音素単位のラベル系列となっている。
【0015】切替手段43の端子aから出力された話者
適応化用音声データ「seven」の特徴ベクトル時系
列44は、話者適応化手段50の照合手段57へ入力さ
れる。照合手段57は、「seven」に対応する教師
ラベルデータ47/s/e/v/□/n/を参照して、
音響モデル記憶手段48の各疑似音素に対応する音響モ
デルを接続したモデルとの照合を行い、特徴ベクトル時
系列44の各特徴ベクトルに対する音響モデル対応付デ
ータ58を得る(照合ステップ)。
【0016】すなわち、特徴ベクトル時系列44を{X
(n)|n=1,…,N}(Nは系列数)とすれば、音
響モデル対応付データ58は{L(n)|n=1,…,
N}となる。ここで、L(n)∈{Mp(k)|p=
1,…,P, k=1,2,3}(Mpは疑似音素単位
の種類を表すラベル、Pは疑似音素単位の数、kはHM
Mの状態番号)である。
【0017】発声内容の異なる複数の話者適応化用音声
データについて求められた音響モデル対応付データ58
は、話者適応化手段50の音響モデル更新手段59へ入
力される。
【0018】音響モデル更新手段59は、音響モデル記
憶手段48の音響モデル49Aをまず読み出す。そし
て、特徴ベクトル時系列44,音響モデル対応付データ
58を用いて、各音響モデル49Aの状態毎に与えられ
ている平均ベクトルや分散のパラメータをその状態に対
応づけられた特徴ベクトルを用いて更新する。
【0019】すなわち、ある疑似音素単位Mpの状態k
について、音響モデル対応付データ58においてL
(m)=Mp(k)を満たすmに対応するすべての特徴
ベクトルX(m)を特徴ベクトル時系列44中から求
め、この特徴ベクトルの集合を用いて疑似音素単位Mp
の状態kにおける平均ベクトルや分散の値を変更する。
これをすべての疑似音素単位とその状態について行うこ
とで、話者適応化用音声データで更新されたパラメータ
を持つ音響モデル49Bが得られる(音響モデル更新ス
テップ)(以上、文献1参照)。
【0020】また、文献2では、MLLR(Maxim
um Likelihood Linear Regr
ession)法に基づく話者適応化処理、すなわち重
回帰写像モデルを用いて疑似音素単位Mpの状態kの平
均ベクトルを更新する手法を採っている。
【0021】この手法では、音響モデル対応付データ5
8においてL(m)=Mp(k)を満たすmに対応する
特徴ベクトルX(m)を用いて重回帰写像モデルの推定
を行っているが、この特徴ベクトルX(m)の数が少な
い場合、疑似音素単位Mpの状態kにおけるガウス分布
に近い分布を持つ疑似音素単位Mqの状態jを探し、こ
れに対応づけられた特徴ベクトルと疑似音素単位Mqの
状態jにおけるガウス分布のパラメータを併用して重回
帰写像モデルを推定している。これは、比較的少量の話
者適応化用音声データでも精度良い話者適応化処理が行
えるようするために採用されている処理である。以上の
動作によって音響モデル49Aのパラメータが更新され
ると、音響モデル49Bとして音響モデル記憶手段48
に書き込まれる。
【0022】続いて、音響モデル49Bを用いた音声認
識処理を行うため、切替手段43は端子bを選択する。
先の日本人話者が発声した認識対象としての未知音声信
号は入力端子41から入力されて、音響分析手段42に
よって分析フレーム毎に音響分析処理され、特徴ベクト
ル時系列45として切替手段43の端子bから出力され
る。
【0023】認識対象語彙の各単語に対応する疑似音素
単位のラベル系列が単語表記辞書記憶手段51の単語表
記辞書52に記憶されている。音声認識手段53は、切
替手段43の端子bからの特徴ベクトル時系列45の音
声認識処理を音響モデル記憶手段48の音響モデル49
Bを用いて行い、単語表記辞書52を用いて音声認識結
果を出力する。
【0024】このように、従来の音声認識装置では、話
者適応化用音声データに発声誤りや発音の曖昧性がない
場合には、話者適応化音響モデルを精度良く作成して、
音声認識の認識率を向上させることが可能である。
【0025】
【発明が解決しようとする課題】従来の話者適応化装置
は上記のように構成されているので、例えば日本人英語
のように、ある言語のノンネイティブ話者が発声したあ
る言語音声を対象とすると、ノンネイティブ話者に特有
のなまりや曖昧な発音が話者適応化用音声データに含ま
れるため、音響モデルの話者適応化処理の精度低下が生
じてしまうという課題があった。
【0026】前述の「seven」を例とすると、日本
人話者が発声した英語音声では、/s/e/v/□/n
/という疑似音素単位の系列と合致した発声にならず、
例えば/s/i/b/u/m/というような発声にな
る。
【0027】したがって、各音響モデル/e/,/v
/,/□/,/n/に対して各特徴ベクトル/i/,/
b/,/u/,/m/が照合手段57でそれぞれ対応付
けられてしまうようになり、この誤った音声の特徴ベク
トルに基づいて各音響モデルのパラメータの更新が音響
モデル更新手段59によって行われてしまう。
【0028】また、次に示す文献3では、日本人英語に
おける代表的な発音の様態を持つ教師ラベルデータを用
いてMLLR法による話者適応化処理を行っているが、
話者適応化用音声データに対する教師ラベルデータがひ
とつしかないため、発声者によって異なる発音の様態に
対応できず話者適応化処理の精度劣化が生じていた。
【0029】<文献3>「日本人英語認識におけるマル
チ単語モデルの改良」(鈴木忠・阿部芳春・中島邦男、
日本音響学会2000年春季研究発表会講演論文集I、
pp.147−148)
【0030】この発明は上記のような課題を解決するた
めになされたものであり、ある言語を母国語としないノ
ンネイティブ話者が発声したある言語音声について、音
響モデルを精度良く話者適応化処理する話者適応化装
置、話者適応化方法および話者適応化プログラムを記録
したコンピュータ読取可能な記録媒体を構成することを
目的とする。
【0031】また、この発明は、話者適応化処理された
音響モデルを用いて音声認識処理を行う音声認識装置、
音声認識方法および音声認識プログラムを記録したコン
ピュータ読取可能な記録媒体を構成することを目的とす
る。
【0032】
【課題を解決するための手段】この発明に係る話者適応
化装置は、一つの話者適応化用音声データに対応した複
数の教師ラベルデータからなるマルチ教師ラベルデータ
から、話者適応化用音声データを参照して一つの教師ラ
ベルデータを選択し、教師ラベルデータを参照して音響
モデルの話者適応化処理を行うようにしたものである。
【0033】この発明に係る話者適応化装置は、入力音
声を音響分析処理して特徴ベクトル時系列を出力する音
響分析手段と、一つの話者適応化用音声データに対応し
た複数の教師ラベルデータからなるマルチ教師ラベルデ
ータを記憶するマルチ教師ラベル記憶手段と、音響モデ
ルを記憶する音響モデル記憶手段と、マルチ教師ラベル
データから教師ラベルデータを一つ選択するとともに、
選択された教師ラベルデータを参照して、入力音声とし
ての話者適応化用音声データの特徴ベクトル時系列と音
響モデルとを照合し、音響モデルを話者適応化処理する
教師ラベル選択型話者適応化手段とを備えるようにした
ものである。
【0034】この発明に係る話者適応化装置は、教師ラ
ベル指示データにしたがってマルチ教師ラベルデータか
ら教師ラベルデータを一つ選択する教師ラベル選択手段
と、選択された教師ラベルデータを参照して、話者適応
化用音声データの特徴ベクトル時系列と音響モデルとを
照合し、音響モデル対応付データを出力する照合手段
と、特徴ベクトル時系列および音響モデル対応付データ
を用いて音響モデルのパラメータを更新する音響モデル
更新手段とを教師ラベル選択型話者適応化手段が備える
ようにしたものである。
【0035】この発明に係る話者適応化装置は、話者適
応化用音声データが所定セット数分処理されるまでの前
半処理では、マルチ教師ラベルデータからネイティブ教
師ラベルデータを教師ラベルデータとして選択し、話者
適応化用音声データが所定セット数分処理されてからの
後半処理では、マルチ教師ラベルデータ中の複数の教師
ラベルデータの特徴ベクトル時系列に対する音声認識処
理を音響モデルを用いてそれぞれ行い、最大尤度の教師
ラベルデータを選択する認識型教師ラベル選択手段と、
選択された教師ラベルデータを参照して特徴ベクトル時
系列と音響モデルとを照合し、音響モデル対応付データ
を出力する照合手段と、特徴ベクトル時系列および音響
モデル対応付データを用いて音響モデルのパラメータを
更新する音響モデル更新手段とを教師ラベル選択型話者
適応化手段が備えるようにしたものである。
【0036】この発明に係る話者適応化装置は、マルチ
教師ラベルデータ中の複数の教師ラベルデータをそれぞ
れ参照して特徴ベクトル時系列と音響モデルとを照合
し、マルチ音響モデル対応付データを出力するマルチ照
合手段と、特徴ベクトル時系列およびマルチ音響モデル
対応付データを用いて音響モデルのパラメータを個々に
更新したマルチ音響モデルを出力するマルチ音響モデル
更新手段と、マルチ音響モデルを参照して特徴ベクトル
時系列とマルチ教師ラベルデータとを照合し、マルチ音
響モデルの中から最大尤度の音響モデルを音響モデル記
憶手段に書き込む音響モデル決定手段とを教師ラベル選
択型話者適応化手段が備えるようにしたものである。
【0037】この発明に係る話者適応化方法は、一つの
話者適応化用音声データに対応した複数の教師ラベルデ
ータからなるマルチ教師ラベルデータから、話者適応化
用音声データを参照して一つの教師ラベルデータを選択
し、教師ラベルデータを参照して音響モデルの話者適応
化処理を行うようにしたものである。
【0038】この発明に係る話者適応化方法は、入力音
声を音響分析処理して特徴ベクトル時系列を出力する音
響分析ステップと、一つの話者適応化用音声データに対
応した複数の教師ラベルデータからなるマルチ教師ラベ
ルデータの中から教師ラベルデータを一つ選択するとと
もに、選択された教師ラベルデータを参照して、入力音
声としての話者適応化用音声データの特徴ベクトル時系
列と音響モデルとを照合し、音響モデルを話者適応化処
理する教師ラベル選択型話者適応化ステップとを備える
ようにしたものである。
【0039】この発明に係る話者適応化方法は、教師ラ
ベル指示データにしたがってマルチ教師ラベルデータか
ら教師ラベルデータを一つ選択する教師ラベル選択ステ
ップと、選択された教師ラベルデータを参照して、話者
適応化用音声データの特徴ベクトル時系列と音響モデル
とを照合し、音響モデル対応付データを出力する照合ス
テップと、特徴ベクトル時系列および音響モデル対応付
データを用いて音響モデルのパラメータを更新する音響
モデル更新ステップとを教師ラベル選択型話者適応化ス
テップが備えるようにしたものである。
【0040】この発明に係る話者適応化方法は、話者適
応化用音声データが所定セット数分処理されるまでの前
半処理では、マルチ教師ラベルデータからネイティブ教
師ラベルデータを教師ラベルデータとして選択し、話者
適応化用音声データが所定セット数分処理されてからの
後半処理では、マルチ教師ラベルデータ中の複数の教師
ラベルデータの特徴ベクトル時系列に対する音声認識処
理を音響モデルを用いてそれぞれ行い、最大尤度の教師
ラベルデータを選択する認識型教師ラベル選択ステップ
と、選択された教師ラベルデータを参照して特徴ベクト
ル時系列と音響モデルとを照合し、音響モデル対応付デ
ータを出力する照合ステップと、特徴ベクトル時系列お
よび音響モデル対応付データを用いて音響モデルのパラ
メータを更新する音響モデル更新ステップとを教師ラベ
ル選択型話者適応化ステップが備えるようにしたもので
ある。
【0041】この発明に係る話者適応化方法は、マルチ
教師ラベルデータ中の複数の教師ラベルデータをそれぞ
れ参照して特徴ベクトル時系列と音響モデルとを照合
し、マルチ音響モデル対応付データを出力するマルチ照
合ステップと、特徴ベクトル時系列およびマルチ音響モ
デル対応付データを用いて音響モデルのパラメータを個
々に更新したマルチ音響モデルを出力するマルチ音響モ
デル更新ステップと、マルチ音響モデルを参照して特徴
ベクトル時系列とマルチ教師ラベルデータとを照合し、
マルチ音響モデルの中から最大尤度の音響モデルを選択
する音響モデル決定ステップとを教師ラベル選択型話者
適応化ステップが備えるようにしたものである。
【0042】この発明に係る話者適応化プログラムを記
録したコンピュータ読取可能な記録媒体は、一つの話者
適応化用音声データに対応した複数の教師ラベルデータ
からなるマルチ教師ラベルデータから、話者適応化用音
声データを参照して一つの教師ラベルデータを選択し、
教師ラベルデータを参照して音響モデルの話者適応化処
理を行うようにしたものである。
【0043】この発明に係る話者適応化プログラムを記
録したコンピュータ読取可能な記録媒体は、入力音声を
音響分析処理して特徴ベクトル時系列を出力する音響分
析手順と、一つの話者適応化用音声データに対応した複
数の教師ラベルデータからなるマルチ教師ラベルデータ
の中から教師ラベルデータを一つ選択するとともに、選
択された教師ラベルデータを参照して、入力音声として
の話者適応化用音声データの特徴ベクトル時系列と音響
モデルとを照合し、音響モデルを話者適応化処理する教
師ラベル選択型話者適応化手順とを備えるようにしたも
のである。
【0044】この発明に係る話者適応化プログラムを記
録したコンピュータ読取可能な記録媒体は、教師ラベル
指示データにしたがってマルチ教師ラベルデータから教
師ラベルデータを一つ選択する教師ラベル選択手順と、
選択された教師ラベルデータを参照して、話者適応化用
音声データの特徴ベクトル時系列と音響モデルとを照合
し、音響モデル対応付データを出力する照合手順と、特
徴ベクトル時系列および音響モデル対応付データを用い
て音響モデルのパラメータを更新する音響モデル更新手
順とを教師ラベル選択型話者適応化手順が備えるように
したものである。
【0045】この発明に係る話者適応化プログラムを記
録したコンピュータ読取可能な記録媒体は、話者適応化
用音声データが所定セット数分処理されるまでの前半処
理では、マルチ教師ラベルデータからネイティブ教師ラ
ベルデータを教師ラベルデータとして選択し、話者適応
化用音声データが所定セット数分処理されてからの後半
処理では、マルチ教師ラベルデータ中の複数の教師ラベ
ルデータの特徴ベクトル時系列に対する音声認識処理を
音響モデルを用いてそれぞれ行い、最大尤度の教師ラベ
ルデータを選択する認識型教師ラベル選択手順と、選択
された教師ラベルデータを参照して特徴ベクトル時系列
と音響モデルとを照合し、音響モデル対応付データを出
力する照合手順と、特徴ベクトル時系列および音響モデ
ル対応付データを用いて音響モデルのパラメータを更新
する音響モデル更新手順とを教師ラベル選択型話者適応
化手順が備えるようにしたものである。
【0046】この発明に係る話者適応化プログラムを記
録したコンピュータ読取可能な記録媒体は、マルチ教師
ラベルデータ中の複数の教師ラベルデータをそれぞれ参
照して特徴ベクトル時系列と音響モデルとを照合し、マ
ルチ音響モデル対応付データを出力するマルチ照合手順
と、特徴ベクトル時系列およびマルチ音響モデル対応付
データを用いて音響モデルのパラメータを個々に更新し
たマルチ音響モデルを出力するマルチ音響モデル更新手
順と、マルチ音響モデルを参照して特徴ベクトル時系列
とマルチ教師ラベルデータとを照合し、マルチ音響モデ
ルの中から最大尤度の音響モデルを選択する音響モデル
決定手順とを教師ラベル選択型話者適応化手順が備える
ようにしたものである。
【0047】この発明に係る音声認識装置は、請求項2
から請求項5のうちのいずれか1項記載の話者適応化装
置と、認識対象語彙の単語表記辞書を記憶する単語表記
辞書記憶手段と、入力音声としての未知音声信号の特徴
ベクトル時系列の音声認識処理を音響モデルを用いて行
い、単語表記辞書を用いて音声認識処理の結果を出力す
る音声認識手段とを備えるようにしたものである。
【0048】この発明に係る音声認識方法は、請求項7
から請求項10のうちのいずれか1項記載の話者適応化
方法と、入力音声としての未知音声信号の特徴ベクトル
時系列の音声認識処理を音響モデルを用いて行い、認識
対象語彙の単語表記辞書を用いて音声認識処理の結果を
出力する音声認識ステップとを備えるようにしたもので
ある。
【0049】この発明に係る音声認識プログラムを記録
したコンピュータ読取可能な記録媒体は、請求項12か
ら請求項15のうちのいずれか1項記載のコンピュータ
読取可能な記録媒体に記録された話者適応化プログラム
と、入力音声としての未知音声信号の特徴ベクトル時系
列の音声認識処理を音響モデルを用いて行い、認識対象
語彙の単語表記辞書を用いて音声認識処理の結果を出力
する音声認識手順とを備えるようにしたものである。
【0050】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態1.図1はこの発明の実施の形態
1による話者適応化装置を備えた音声認識装置の構成を
示す図である。従来の技術と同様に、日本人英語を認識
対象とする。図1において、1は話者適応化用音声デー
タ(入力音声)や未知音声信号(入力音声)が入力され
る入力端子、2は音響分析処理を行う音響分析手段であ
る。音響分析手段2は、入力端子1へ入力された話者適
応化用音声データや未知音声信号を音響分析処理して特
徴ベクトル時系列を出力する。
【0051】3はスイッチなどの切替手段であり、音響
分析手段2からの特徴ベクトル時系列の出力先を切替え
る。切替手段3は、話者適応化処理を行う場合には端子
aを選択し、音声認識処理を行う場合には端子bを選択
する。したがって、話者適応化用音声データの特徴ベク
トル時系列4は端子aから出力され、未知音声信号の特
徴ベクトル時系列5は端子bから出力される。
【0052】6はマルチ教師ラベルデータ7を記憶する
マルチ教師ラベル記憶手段、8は音響モデル9A,9B
を記憶する音響モデル記憶手段、10はマルチ教師ラベ
ルデータ7を用いて話者適応化処理を行う教師ラベル選
択型話者適応化手段である。
【0053】マルチ教師ラベル記憶手段6のマルチ教師
ラベルデータ7には、一つの話者適応化用音声データに
対して複数の教師ラベルデータが登録されている。つま
り、マルチ教師ラベルデータ7は、ネイティブ話者の発
音表記にしたがうネイティブ教師ラベルデータに加え
て、日本人英語特有の発音様態の誤り傾向に則って変更
された複数のノンネイティブ教師ラベルデータから構成
されている。日本人英語特有の発音様態の誤り傾向と
は、例えば、/v/に対する/b/,/r/に対する/
l/,/th(有声音)/に対する/d/や/z/など
が挙げられる。
【0054】したがって、話者適応化用音声データ「s
even」に対応するマルチ教師ラベルデータ7には、
ネイティブ教師ラベルデータ/s/e/v/□/n/に
加えて、/s/i/b/u/m/,/s/e/b/u/
n/,/s/i/b/u/n/など日本人英語特有の発
音である複数のノンネイティブ教師ラベルデータが登録
されている。
【0055】教師ラベル選択型話者適応化手段10は、
マルチ教師ラベル記憶手段6のマルチ教師ラベルデータ
7から教師ラベルデータを一つ選択する。そして、この
教師ラベルデータを参照して端子aからの特徴ベクトル
時系列4と音響モデル9Aとを照合し、照合結果に基づ
いて音響モデル9Aを話者適応化処理する。話者適応化
処理された音響モデル9Aは、教師ラベル選択型話者適
応化手段10によって音響モデル9Bとして音響モデル
記憶手段8へ書き込まれる。
【0056】マルチ教師ラベル記憶手段6,教師ラベル
選択型話者適応化手段10が、この発明の実施の形態1
による話者適応化装置を特徴付けている。
【0057】図1の構成の説明に戻る。11は認識対象
語彙の単語表記辞書12を記憶する単語表記辞書記憶手
段、13は音声認識処理を行う音声認識手段である。音
声認識手段13は、音響モデル記憶手段8の音響モデル
9Bと単語表記辞書12とを用いて、特徴ベクトル時系
列5に対する音声認識処理を行い、音声認識結果を出力
する。
【0058】次に動作について説明する。従来の技術と
同様に、外国語として英語を、音響モデルとして英語の
疑似音素単位の連続分布型HMMを用いた場合を例に取
る。HMMの構成は3状態のLeft−to−righ
t型とする。各音響モデル9Aは、英語を母国語とする
複数のネイティブ話者が発声した音声データを用いて学
習されたものである。
【0059】音響モデル9Aの話者適応化処理を最初に
行うため、切替手段3は端子aを選択する。英語を母国
語としない日本人話者の発声による発声内容既知の話者
適応化用音声データが入力端子1へ入力されると、音響
分析手段2によって分析フレーム毎に音響分析処理さ
れ、特徴ベクトル時系列4として切替手段3の端子aか
ら出力される(音響分析ステップ)。
【0060】特徴ベクトル時系列4を端子aから入力さ
れた教師ラベル選択型話者適応化手段10は、マルチ教
師ラベルデータ7から教師ラベルデータを一つ選択し、
この教師ラベルデータを参照して音響モデル記憶手段8
の音響モデル9Aの話者適応化処理を行う(教師ラベル
選択型話者適応化ステップ)。
【0061】例えば、話者適応化用音声データが「se
ven」の場合には、従来では教師ラベルデータはネイ
ティブ教師ラベルデータ/s/e/v/□/n/のみで
あった。一方、この実施の形態1では、日本人英語特有
の発音様態の誤り傾向に合わせて、/s/i/b/u/
m/,/s/e/b/u/n/,/s/i/b/u/n
/などのノンネイティブ教師ラベルデータもマルチ教師
ラベルデータ7に登録されている。
【0062】したがって、教師ラベル選択型話者適応化
手段10は、入力された話者適応化用音声データの発音
の様態に近い教師ラベルデータをマルチ教師ラベルデー
タ7から選択する。そして、選択された教師ラベルデー
タを参照して特徴ベクトル時系列4と音響モデル9Aと
を照合し、照合結果に基づいて音響モデル9Aを話者適
応化処理する。このようにすることで、話者適応化用音
声データとして実際に発声された音声と教師ラベルデー
タとの不一致を低減させ、音響モデル9Aの話者適応化
処理の精度を向上することができる。
【0063】以上の動作によって、話者適応化処理され
た音響モデル9Aは、音響モデル9Bとして音響モデル
記憶手段8に書き込まれる。
【0064】以下、従来の技術と同様に、音響モデル9
Bを用いた音声認識処理を行うため、切替手段3は端子
bを選択する。先の日本人話者が発声した認識対象とし
ての未知音声信号が入力端子1へ入力されると、音響分
析手段2によって分析フレーム毎に音響分析処理され、
特徴ベクトル時系列5として切替手段3の端子bから出
力される(音響分析ステップ)。
【0065】認識対象語彙の各単語に対応する疑似音素
単位のラベル系列が単語表記辞書記憶手段11の単語表
記辞書12に記憶されている。音声認識手段13は、切
替手段3の端子bからの特徴ベクトル時系列5と音響モ
デル記憶手段8の音響モデル9Bとの認識照合処理を行
い、単語表記辞書12を用いて音声認識結果を出力する
(音声認識ステップ)。
【0066】このように、この実施の形態1の音声認識
装置では、マルチ教師ラベル記憶手段6,教師ラベル選
択型話者適応化手段10によって作成された音響モデル
9Bを用いて音声認識処理を行うようにしているので、
従来と比較して、音声認識処理の認識率を向上すること
ができるようになっている。
【0067】次に、図1に示した教師ラベル選択型話者
適応化手段10の具体的な構成例について説明する。
【0068】<第1の構成例>図2は教師ラベル選択型
話者適応化手段10の第1の構成例を示す図である。図
1と同一または相当する構成要素については同一符号を
付してある。図2において、15は教師ラベル選択手段
であり、外部から入力される教師ラベル指示データ14
にしたがって、話者適応化用音声データの発音の様態に
最も近い教師ラベルデータ16をマルチ教師ラベルデー
タ7から選択して照合手段17に出力する。
【0069】17は照合手段であり、教師ラベルデータ
16を参照して音響モデル9Aと特徴ベクトル時系列4
との照合を行い、特徴ベクトル時系列4中の各特徴ベク
トルに対する音響モデル対応付データ18を出力する。
19は音響モデル更新手段であり、音響モデル9Aを読
み出した後、音響モデル対応付データ18と特徴ベクト
ル時系列4とを用いて各音響モデル9Aのパラメータを
更新し、パラメータを更新した音響モデル9Bを音響モ
デル記憶手段8に書き込む。照合手段17,音響モデル
更新手段19は従来と同様であり、教師ラベルデータ1
6を用いて音響モデル9Aを話者適応化処理する。
【0070】教師ラベル選択手段15を設けることによ
って、日本人英語の発音の様態に合致した教師ラベルデ
ータ16が教師ラベル指示データ14によって選択され
(教師ラベル選択ステップ)、音響モデル9Aの話者適
応化処理(照合ステップ、音響モデル更新ステップ)に
用いられるようになり、話者適応化用音声データと教師
ラベルデータの不一致による音響モデル9Bの適応精度
の低下を抑制することができ、この音響モデル9Bを用
いて音声認識処理を行うので、認識精度を向上すること
ができる。
【0071】なお、教師ラベルデータ16の選択を指示
する教師ラベル指示データ14は、英語の発音の聞き取
りに習熟した人間のオペレータが話者適応化用音声デー
タの内容を聞き取り、その発音内容に最も近い教師ラベ
ルデータ16を指示・選択することによって実現でき
る。また、人間のオペレータと同様の機能を有する自動
機械によって教師ラベル指示データ14を与えるように
しても良い。
【0072】<第2の構成例>図3は教師ラベル選択型
話者適応化手段10の第2の構成例を示す図である。図
1,2と同一または相当する構成要素については同一符
号を付してある。図3において、20はマルチ教師ラベ
ル記憶手段6のマルチ教師ラベルデータ7の出力先を切
替えるスイッチなどの切替手段(認識型教師ラベル選択
手段)である。切替手段20の出力先は端子c,dであ
り、切替手段20は端子cをはじめに選択している。
【0073】21は切替手段20の端子cと接続される
ネイティブ教師ラベル選択手段(認識型教師ラベル選択
手段)である。ネイティブ教師ラベル選択手段21は、
ネイティブ話者の発音表記にしたがうネイティブ教師ラ
ベルデータをマルチ教師ラベルデータ7から選択し、教
師ラベルデータ16として照合手段17へ出力する。例
えば、話者適応化用音声データが「seven」の場
合、ネイティブ教師ラベル選択手段21は/s/e/v
/□/n/を選択する。
【0074】22は切替手段20の端子dと接続される
認識型教師ラベル選択手段(認識型教師ラベル選択手
段)である。認識型教師ラベル選択手段22は、切替手
段20の端子dを介してマルチ教師ラベルデータ7を読
み込み、このマルチ教師ラベルデータ7中の複数の教師
ラベルデータを認識語彙とし、特徴ベクトル時系列4に
対して音響モデル9Aを用いた音声認識処理を行う。そ
して、音声認識処理の結果、最大尤度の教師ラベルデー
タを教師ラベルデータ16として照合手段17へ出力す
る。切替手段20,ネイティブ教師ラベル選択手段21
は、認識型教師ラベル選択手段22の構成の一部として
考えられる。
【0075】次に動作について説明する。ここで、音響
モデル更新手段19における音響モデル9Aの更新に
は、文献3で用いられたMLLR法などのような、音声
スペクトル空間における各音響モデルの連続性を維持し
つつ話者適応化処理を行う手法を採用するものとする。
また、複数セット数の話者適応化用音声データを用いる
ものとし、切替手段20は、ある所定セット数の話者適
応化用音声データの処理(前半処理)が完了するまで端
子cを選択し、ある所定セット数から先の話者適応化用
音声データの処理(後半処理)では端子dを選択する。
【0076】したがって、前半処理として、ネイティブ
教師ラベル選択手段21はマルチ教師ラベルデータ7か
らネイティブ教師ラベルデータを選択し、これを教師ラ
ベルデータ16として照合手段17に与え、ネイティブ
教師ラベルデータを用いた話者適応化処理が従来と同様
に行われる(認識型教師ラベル選択ステップ)。
【0077】そして処理された話者適応化用音声データ
が所定のセット数に達すると、切替手段20は端子dを
選択し、後半処理が行われる。認識型教師ラベル選択手
段22は端子dからマルチ教師ラベルデータ7を受ける
と、マルチ教師ラベルデータ7中の複数の教師ラベルデ
ータを認識語彙として、音響モデル記憶手段8の音響モ
デル9Aを用いて特徴ベクトル時系列4に対する音声認
識処理を行う。この音声認識処理の結果、最大尤度のも
のを教師ラベルデータ16として照合手段17へ出力す
る(認識型教師ラベル選択ステップ)。この教師ラベル
データ16に則った音響モデルの話者適応化処理が照合
手段17,音響モデル更新手段19によって行われる
(照合ステップ、音響モデル更新ステップ)。
【0078】これによって、従来と同様の前半処理にお
いて、音響モデル9Aの大まかな話者適応化処理がなさ
れることになり、後半処理において、マルチ教師ラベル
データ7中の複数の教師ラベルデータを認識語彙とした
特徴ベクトル時系列4に対する認識型教師ラベル選択手
段22の音声認識処理の精度が向上し、選択される教師
ラベルデータ16が話者適応化用音声データに合致した
ものになる。その結果、最終的に音響モデル更新手段1
9で行われる音響モデル9Aの話者適応化処理の精度を
向上することができる。
【0079】<第3の構成例>図4は教師ラベル選択型
話者適応化手段10の第3の構成例を示す図である。図
1と同一または相当する構成要素については同一符号を
付してある。図4において、23はマルチ照合手段であ
る。マルチ照合手段23は、マルチ教師ラベルデータ7
中の複数の教師ラベルデータ全てをそれぞれ参照して、
音響モデル記憶手段8の音響モデル9Aと特徴ベクトル
時系列4との照合を個々に行い、各照合結果から得られ
た複数の音響モデル対応付データからなるマルチ音響モ
デル対応付データ24を出力する。
【0080】25は特徴ベクトル時系列4,マルチ音響
モデル対応付データ24を用いて音響モデル9Aのパラ
メータをそれぞれ更新するマルチ音響モデル更新手段、
27はマルチ音響モデル更新手段25が更新したマルチ
音響モデル26をバッファリングするマルチ音響モデル
バッファリング手段(音響モデル決定手段)である。
【0081】28はマルチ音響モデルバッファリング手
段27のマルチ音響モデル26を用いて特徴ベクトル時
系列4とマルチ教師ラベルデータ7との照合をそれぞれ
行い、各照合結果から得られた尤度データ29を出力す
る再照合手段(音響モデル決定手段)である。30は尤
度データ29を参照して、マルチ音響モデルバッファリ
ング手段27のマルチ音響モデル26から最大尤度の音
響モデルを音響モデル記憶手段8に書き込む音響モデル
決定手段(音響モデル決定手段)である。マルチ音響モ
デルバッファリング手段27,再照合手段28は音響モ
デル決定手段30の構成の一部として考えられる。
【0082】次に動作について説明する。マルチ照合手
段23は、マルチ教師ラベルデータ7中の複数の教師ラ
ベルデータを個々に参照して、音響モデル9Aと特徴ベ
クトル時系列4との照合をそれぞれ行い、各教師ラベル
データ毎にそれぞれ対応した複数の音響モデル対応付デ
ータからなるマルチ音響モデル対応付データ24を出力
する。
【0083】すなわち、特徴ベクトル時系列4を{X
(n)|n=1,…,N}(Nは系列数)、マルチ教師
ラベルデータ7を{Si|i=1,…,I}(Iはマル
チ教師ラベルデータ7の教師ラベルデータ数)とすれ
ば、特徴ベクトル時系列4{X(n)|n=1,…,
N}に対し、教師ラベルデータSiにより照合を行うこ
とで音響モデル対応付データLi={Li(n)|n=
1,…,N}が得られる。ここで、Li(n)∈{Mp
(k)|p=1,…,P, k=1,2,3}(Mpは
疑似音素単位の種類を表すラベル、Pは疑似音素単位の
数、kはHMMの状態番号)である。
【0084】この処理をi=1,…,Iについて行うこ
とで、各教師ラベルデータSiに対応したマルチ音響モ
デル対応付データ24{Li|i=1,…,I}が求め
られる。
【0085】マルチ音響モデル更新手段25は、マルチ
音響モデル対応付データ24{Li|i=1,…,I}
を用いて、i=1,…,Iのそれぞれのiについて、音
響モデル記憶手段8の音響モデル9Aのパラメータを更
新し、マルチ音響モデルバッファリング手段27に書き
出す(マルチ音響モデル更新ステップ)。
【0086】すなわち、音響モデル記憶手段8の音響モ
デル9A{E(Mp)|p=1,…,P}(Mpは疑似
音素単位の種類を表すラベル、Pは疑似音素単位の数)
は、マルチ音響モデル対応付データ24の各音響モデル
対応付データLiによってパラメータが更新され、更新
された音響モデルFi={Fi(Mp)|p=1,…,
P}が得られる。ここで用いられるパラメータの更新
は、従来の音響モデル更新手段59の処理と同様であ
る。
【0087】この処理をi=1,…,Iについて行うこ
とで、パラメータが更新されたマルチ音響モデル26
{Fi|i=1,…,I}がマルチ音響モデルバッファ
リング手段27にバッファリングされる。
【0088】再照合手段28は、マルチ教師ラベル記憶
手段6に記憶されている複数のマルチ教師ラベルデータ
7{Si|i=1,…,I}を参照して、マルチ音響モ
デルバッファリング手段27のマルチ音響モデル26
{Fi|i=1,…,I}と特徴ベクトル時系列4との
照合をそれぞれ行い、尤度データ29を出力する(音響
モデル決定ステップ)。
【0089】すなわち、特徴ベクトル時系列4に対し、
音響モデルFiを用いて教師ラベルデータSiとの照合
を行い尤度データWiを求める。この処理をi=1,
…,Iについて行うことで尤度データ{Wi|i=1,
…,I}を求める。
【0090】音響モデル決定手段30は、再照合手段2
8が出力した尤度データ29{Wi|i=1,…,I}
の中で最大尤度Wmaxを与える指数imax∈{i|
i=1,…,I}を求め、マルチ音響モデルバッファリ
ング手段27のマルチ音響モデル26{Fi|i=1,
…,I}の中から最大尤度の音響モデルFimaxを選
択し、話者適応化処理した音響モデル9Bとして音響モ
デル記憶手段8に書き込む(音響モデル決定ステッ
プ)。
【0091】マルチ照合手段23,マルチ音響モデル更
新手段25によって、マルチ音響モデルバッファリング
手段27の話者適応化処理されたI個の音響モデル{F
i|i=1,…,I}は、I個の各教師ラベルデータ
{Si|i=1,…,I}に基づいてそれぞれ作成され
ているため、I個の教師ラベルデータの中で話者適応化
用音声データの発音様態に最も近い教師ラベルデータに
基づいて作成された話者適応化音響モデルは、最も精度
良く話者に適応化した音響モデルとなっている。
【0092】ゆえに再照合手段28において話者適応化
処理された音響モデル{Fi|i=1,…,I}を用い
て、各教師ラベルデータ{Si|i=1,…,I}と特
徴ベクトル時系列との照合により計算された尤度データ
{Wi|i=1,…,I}の中で最大尤度の音響モデル
を選択して音響モデル記憶手段8に書き込むことで、最
も精度良く話者に適応した音響モデルが音響モデル記憶
手段上に構築される。このようにして話者適応化処理し
た音響モデルを用いることで精度の高い音声認識処理が
実現できる。
【0093】以上のように、この実施の形態1によれ
ば、入力音声を音響分析処理して切替手段3の端子aか
ら特徴ベクトル時系列4を出力する音響分析手段2と、
話者適応化用音声データに対応する複数の教師ラベルデ
ータから構成されるマルチ教師ラベルデータ7を記憶す
るマルチ教師ラベル記憶手段6と、音響モデル9Aを記
憶する音響モデル記憶手段8と、マルチ教師ラベルデー
タ7から教師ラベルデータを一つ選択するとともに、選
択された教師ラベルデータを参照して特徴ベクトル時系
列4と音響モデル9Aとを照合し、音響モデル9Aを話
者適応化処理する教師ラベル選択型話者適応化手段10
とを備えるようにしたので、ノンネイティブ話者に特有
のなまりや曖昧な発音が話者適応化用音声データに含ま
れる場合にも、話者適応化用音声データと教師ラベルデ
ータとの不一致を低減させ、音響モデル9Aの話者適応
化処理の精度を向上することができるという効果が得ら
れる。
【0094】また、この実施の形態1によれば、マルチ
教師ラベルデータ7から教師ラベル指示データ14にし
たがって教師ラベルデータを一つ選択する教師ラベル選
択手段15と、選択された教師ラベルデータを参照して
特徴ベクトル時系列4と音響モデル9Aとの照合を行
い、音響モデル対応付データ18を出力する照合手段1
7と、特徴ベクトル時系列4,音響モデル対応付データ
18を用いて音響モデル9Aのパラメータを更新する音
響モデル更新手段19とを教師ラベル選択型話者適応化
手段10が備えるようにしたので、話者適応化用音声デ
ータと教師ラベルデータの不一致による音響モデルの適
応精度の低下を抑制することができるという効果が得ら
れる。
【0095】さらに、この実施の形態1によれば、所定
セット数までの話者適応化用音声データが処理される前
半処理では、マルチ教師ラベルデータ7からネイティブ
教師ラベルデータを教師ラベルデータ16として出力
し、所定セット数から先の話者適応化用音声データが処
理される後半処理では、音響モデル9Aを用いてマルチ
教師ラベルデータ7中の教師ラベルデータを特徴ベクト
ル時系列4に対してそれぞれ音声認識処理し、最大尤度
のものを教師ラベルデータ16として出力する切替手段
20・ネイティブ教師ラベル選択手段21・認識型教師
ラベル選択手段22と、教師ラベルデータ16を参照し
て特徴ベクトル時系列4と音響モデル9Aとを照合し、
音響モデル対応付データ18を出力する照合手段17
と、特徴ベクトル時系列4および音響モデル対応付デー
タ18を参照して、音響モデル9Aのパラメータを更新
する音響モデル更新手段19とを教師ラベル選択型話者
適応化手段10が備えるようにしたので、前半処理にお
いて音響モデル9Aの大まかな話者適応化処理がなさ
れ、後半処理においてマルチ教師ラベルデータ7中の複
数の教師ラベルデータから最大尤度のものが教師ラベル
データ16として選択されるようになり、音響モデル9
Aの話者適応化処理の精度を向上することができるとい
う効果が得られる。
【0096】さらに、この実施の形態1によれば、マル
チ教師ラベルデータ7中の複数の教師ラベルデータをそ
れぞれ参照して特徴ベクトル時系列4と音響モデル9A
とを照合し、マルチ音響モデル対応付データ24を出力
するマルチ照合手段23と、特徴ベクトル時系列4,マ
ルチ音響モデル対応付データ24を用いて、音響モデル
9Aのパラメータをそれぞれ更新したマルチ音響モデル
26を出力するマルチ音響モデル更新手段25と、マル
チ音響モデル26を参照してマルチ音響モデル26とマ
ルチ教師ラベルデータ7とを再照合し、マルチ音響モデ
ル26から最大尤度の音響モデルを音響モデル記憶手段
8に書き込むマルチ音響モデルバッファリング手段27
・再照合手段28・音響モデル決定手段30とを教師ラ
ベル選択型話者適応化手段10が備えるようにしたの
で、マルチ教師ラベルデータ7中の全ての教師ラベルデ
ータから最大尤度のものを教師ラベルデータ16として
選択して、音響モデル9Aの話者適応化処理の精度を向
上することができるという効果が得られる。
【0097】さらに、この実施の形態1によれば、話者
適応化処理の結果として音響モデル9Bを出力する話者
適応化装置と、単語表記辞書12を記憶する単語表記辞
書記憶手段11と、音声信号として入力された未知音声
信号の特徴ベクトル時系列5と音響モデル9Bとを照合
して音声認識処理し、単語表記辞書12を用いて音声認
識結果を出力する音声認識手段13とを備えるようにし
たので、精度良く話者適応化処理された音響モデル9B
を用いて音声認識処理を行い、音声認識精度を向上する
ことができるという効果が得られる。
【0098】以上の説明では、日本人英語を認識対象と
した場合について説明してきたが、この発明の認識対象
は特に限定されるものではなく、母国語以外のある言語
を対象とした音声認識であればどのような言語であって
も良く、音響モデルとして用いるものが英語の疑似音素
単位のHMMに限定されるものでもない。
【0099】また、話者適応化用音声データは一個の単
語である必要はなく、複数の単語の組や文節、文章など
であっても良い。
【0100】さらに、この発明は上述のようなハードウ
ェアによる実現に限定されるものではなく、この発明を
構成する各要素と同等の機能を満たす手順を備えたソフ
トウェア・プログラムにより実現するようにしても同様
の効果を得ることができる。
【0101】
【発明の効果】以上のように、この発明によれば、一つ
の話者適応化用音声データに対応した複数の教師ラベル
データからなるマルチ教師ラベルデータから、話者適応
化用音声データを参照して一つの教師ラベルデータを選
択し、教師ラベルデータを参照して音響モデルの話者適
応化処理を行うようにしたので、ノンネイティブ話者に
特有のなまりや曖昧な発音が話者適応化用音声データに
含まれる場合にも、話者適応化用音声データと教師ラベ
ルデータとの不一致を低減させ、音響モデルの話者適応
化処理の精度を向上することができるという効果が得ら
れる。
【0102】この発明によれば、入力音声を音響分析処
理して特徴ベクトル時系列を出力する音響分析手段と、
一つの話者適応化用音声データに対応した複数の教師ラ
ベルデータからなるマルチ教師ラベルデータを記憶する
マルチ教師ラベル記憶手段と、音響モデルを記憶する音
響モデル記憶手段と、マルチ教師ラベルデータから教師
ラベルデータを一つ選択するとともに、選択された教師
ラベルデータを参照して、入力音声としての話者適応化
用音声データの特徴ベクトル時系列と音響モデルとを照
合し、音響モデルを話者適応化処理する教師ラベル選択
型話者適応化手段とを備えるようにしたので、ノンネイ
ティブ話者に特有のなまりや曖昧な発音が話者適応化用
音声データに含まれる場合にも、話者適応化用音声デー
タと教師ラベルデータとの不一致を低減させ、音響モデ
ルの話者適応化処理の精度を向上することができるとい
う効果が得られる。
【0103】この発明によれば、教師ラベル指示データ
にしたがってマルチ教師ラベルデータから教師ラベルデ
ータを一つ選択する教師ラベル選択手段と、選択された
教師ラベルデータを参照して、話者適応化用音声データ
の特徴ベクトル時系列と音響モデルとを照合し、音響モ
デル対応付データを出力する照合手段と、特徴ベクトル
時系列および音響モデル対応付データを用いて音響モデ
ルのパラメータを更新する音響モデル更新手段とを教師
ラベル選択型話者適応化手段が備えるようにしたので、
話者適応化用音声データと教師ラベルデータの不一致に
よる音響モデルの適応精度の低下を抑制することができ
るという効果が得られる。
【0104】この発明によれば、話者適応化用音声デー
タが所定セット数分処理されるまでの前半処理では、マ
ルチ教師ラベルデータからネイティブ教師ラベルデータ
を教師ラベルデータとして選択し、話者適応化用音声デ
ータが所定セット数分処理されてからの後半処理では、
マルチ教師ラベルデータ中の複数の教師ラベルデータの
特徴ベクトル時系列に対する音声認識処理を音響モデル
を用いてそれぞれ行い、最大尤度の教師ラベルデータを
選択する認識型教師ラベル選択手段と、選択された教師
ラベルデータを参照して特徴ベクトル時系列と音響モデ
ルとを照合し、音響モデル対応付データを出力する照合
手段と、特徴ベクトル時系列および音響モデル対応付デ
ータを用いて音響モデルのパラメータを更新する音響モ
デル更新手段とを教師ラベル選択型話者適応化手段が備
えるようにしたので、前半処理において音響モデルの大
まかな話者適応化処理がなされ、後半処理においてマル
チ教師ラベルデータ中の複数の教師ラベルデータから最
大尤度のものが教師ラベルデータとして選択されるよう
になり、音響モデルの話者適応化処理の精度を向上する
ことができるという効果が得られる。
【0105】この発明によれば、マルチ教師ラベルデー
タ中の複数の教師ラベルデータをそれぞれ参照して特徴
ベクトル時系列と音響モデルとを照合し、マルチ音響モ
デル対応付データを出力するマルチ照合手段と、特徴ベ
クトル時系列およびマルチ音響モデル対応付データを用
いて音響モデルのパラメータを個々に更新したマルチ音
響モデルを出力するマルチ音響モデル更新手段と、マル
チ音響モデルを参照して特徴ベクトル時系列とマルチ教
師ラベルデータとを照合し、マルチ音響モデルの中から
最大尤度の音響モデルを音響モデル記憶手段に書き込む
音響モデル決定手段とを教師ラベル選択型話者適応化手
段が備えるようにしたので、マルチ教師ラベルデータ中
の全ての教師ラベルデータから最大尤度のものを教師ラ
ベルデータとして選択して、音響モデルの話者適応化処
理の精度を向上することができるという効果が得られ
る。
【0106】この発明によれば、一つの話者適応化用音
声データに対応した複数の教師ラベルデータからなるマ
ルチ教師ラベルデータから、話者適応化用音声データを
参照して一つの教師ラベルデータを選択し、教師ラベル
データを参照して音響モデルの話者適応化処理を行うよ
うにしたので、ノンネイティブ話者に特有のなまりや曖
昧な発音が話者適応化用音声データに含まれる場合に
も、話者適応化用音声データと教師ラベルデータとの不
一致を低減させ、音響モデルの話者適応化処理の精度を
向上することができるという効果が得られる。
【0107】この発明によれば、入力音声を音響分析処
理して特徴ベクトル時系列を出力する音響分析ステップ
と、一つの話者適応化用音声データに対応した複数の教
師ラベルデータからなるマルチ教師ラベルデータの中か
ら教師ラベルデータを一つ選択するとともに、選択され
た教師ラベルデータを参照して、入力音声としての話者
適応化用音声データの特徴ベクトル時系列と音響モデル
とを照合し、音響モデルを話者適応化処理する教師ラベ
ル選択型話者適応化ステップとを備えるようにしたの
で、ノンネイティブ話者に特有のなまりや曖昧な発音が
話者適応化用音声データに含まれる場合にも、話者適応
化用音声データと教師ラベルデータとの不一致を低減さ
せ、音響モデルの話者適応化処理の精度を向上すること
ができるという効果が得られる。
【0108】この発明によれば、教師ラベル指示データ
にしたがってマルチ教師ラベルデータから教師ラベルデ
ータを一つ選択する教師ラベル選択ステップと、選択さ
れた教師ラベルデータを参照して、話者適応化用音声デ
ータの特徴ベクトル時系列と音響モデルとを照合し、音
響モデル対応付データを出力する照合ステップと、特徴
ベクトル時系列および音響モデル対応付データを用いて
音響モデルのパラメータを更新する音響モデル更新ステ
ップとを教師ラベル選択型話者適応化ステップが備える
ようにしたので、話者適応化用音声データと教師ラベル
データの不一致による音響モデルの適応精度の低下を抑
制することができるという効果が得られる。
【0109】この発明によれば、話者適応化用音声デー
タが所定セット数分処理されるまでの前半処理では、マ
ルチ教師ラベルデータからネイティブ教師ラベルデータ
を教師ラベルデータとして選択し、話者適応化用音声デ
ータが所定セット数分処理されてからの後半処理では、
マルチ教師ラベルデータ中の複数の教師ラベルデータの
特徴ベクトル時系列に対する音声認識処理を音響モデル
を用いてそれぞれ行い、最大尤度の教師ラベルデータを
選択する認識型教師ラベル選択ステップと、選択された
教師ラベルデータを参照して特徴ベクトル時系列と音響
モデルとを照合し、音響モデル対応付データを出力する
照合ステップと、特徴ベクトル時系列および音響モデル
対応付データを用いて音響モデルのパラメータを更新す
る音響モデル更新ステップとを教師ラベル選択型話者適
応化ステップが備えるようにしたので、前半処理におい
て音響モデルの大まかな話者適応化処理がなされ、後半
処理においてマルチ教師ラベルデータ中の複数の教師ラ
ベルデータから最大尤度のものが教師ラベルデータとし
て選択されるようになり、音響モデルの話者適応化処理
の精度を向上することができるという効果が得られる。
【0110】この発明によれば、マルチ教師ラベルデー
タ中の複数の教師ラベルデータをそれぞれ参照して特徴
ベクトル時系列と音響モデルとを照合し、マルチ音響モ
デル対応付データを出力するマルチ照合ステップと、特
徴ベクトル時系列およびマルチ音響モデル対応付データ
を用いて音響モデルのパラメータを個々に更新したマル
チ音響モデルを出力するマルチ音響モデル更新ステップ
と、マルチ音響モデルを参照して特徴ベクトル時系列と
マルチ教師ラベルデータとを照合し、マルチ音響モデル
の中から最大尤度の音響モデルを選択する音響モデル決
定ステップとを教師ラベル選択型話者適応化ステップが
備えるようにしたので、マルチ教師ラベルデータ中の全
ての教師ラベルデータから最大尤度のものを教師ラベル
データとして選択して、音響モデルの話者適応化処理の
精度を向上することができるという効果が得られる。
【0111】この発明によれば、一つの話者適応化用音
声データに対応した複数の教師ラベルデータからなるマ
ルチ教師ラベルデータから、話者適応化用音声データを
参照して一つの教師ラベルデータを選択し、教師ラベル
データを参照して音響モデルの話者適応化処理を行うよ
うにしたので、ノンネイティブ話者に特有のなまりや曖
昧な発音が話者適応化用音声データに含まれる場合に
も、話者適応化用音声データと教師ラベルデータとの不
一致を低減させ、音響モデルの話者適応化処理の精度を
向上することができるという効果が得られる。
【0112】この発明によれば、入力音声を音響分析処
理して特徴ベクトル時系列を出力する音響分析手順と、
一つの話者適応化用音声データに対応した複数の教師ラ
ベルデータからなるマルチ教師ラベルデータの中から教
師ラベルデータを一つ選択するとともに、選択された教
師ラベルデータを参照して、入力音声としての話者適応
化用音声データの特徴ベクトル時系列と音響モデルとを
照合し、音響モデルを話者適応化処理する教師ラベル選
択型話者適応化手順とを備えるようにしたので、ノンネ
イティブ話者に特有のなまりや曖昧な発音が話者適応化
用音声データに含まれる場合にも、話者適応化用音声デ
ータと教師ラベルデータとの不一致を低減させ、音響モ
デルの話者適応化処理の精度を向上することができると
いう効果が得られる。
【0113】この発明によれば、教師ラベル指示データ
にしたがってマルチ教師ラベルデータから教師ラベルデ
ータを一つ選択する教師ラベル選択手順と、選択された
教師ラベルデータを参照して、話者適応化用音声データ
の特徴ベクトル時系列と音響モデルとを照合し、音響モ
デル対応付データを出力する照合手順と、特徴ベクトル
時系列および音響モデル対応付データを用いて音響モデ
ルのパラメータを更新する音響モデル更新手順とを教師
ラベル選択型話者適応化手順が備えるようにしたので、
話者適応化用音声データと教師ラベルデータの不一致に
よる音響モデルの適応精度の低下を抑制することができ
るという効果が得られる。
【0114】この発明によれば、話者適応化用音声デー
タが所定セット数分処理されるまでの前半処理では、マ
ルチ教師ラベルデータからネイティブ教師ラベルデータ
を教師ラベルデータとして選択し、話者適応化用音声デ
ータが所定セット数分処理されてからの後半処理では、
マルチ教師ラベルデータ中の複数の教師ラベルデータの
特徴ベクトル時系列に対する音声認識処理を音響モデル
を用いてそれぞれ行い、最大尤度の教師ラベルデータを
選択する認識型教師ラベル選択手順と、選択された教師
ラベルデータを参照して特徴ベクトル時系列と音響モデ
ルとを照合し、音響モデル対応付データを出力する照合
手順と、特徴ベクトル時系列および音響モデル対応付デ
ータを用いて音響モデルのパラメータを更新する音響モ
デル更新手順とを教師ラベル選択型話者適応化手順が備
えるようにしたので、前半処理において音響モデルの大
まかな話者適応化処理がなされ、後半処理においてマル
チ教師ラベルデータ中の複数の教師ラベルデータから最
大尤度のものが教師ラベルデータとして選択されるよう
になり、音響モデルの話者適応化処理の精度を向上する
ことができるという効果が得られる。
【0115】この発明によれば、マルチ教師ラベルデー
タ中の複数の教師ラベルデータをそれぞれ参照して特徴
ベクトル時系列と音響モデルとを照合し、マルチ音響モ
デル対応付データを出力するマルチ照合手順と、特徴ベ
クトル時系列およびマルチ音響モデル対応付データを用
いて音響モデルのパラメータを個々に更新したマルチ音
響モデルを出力するマルチ音響モデル更新手順と、マル
チ音響モデルを参照して特徴ベクトル時系列とマルチ教
師ラベルデータとを照合し、マルチ音響モデルの中から
最大尤度の音響モデルを選択する音響モデル決定手順と
を教師ラベル選択型話者適応化手順が備えるようにした
ので、マルチ教師ラベルデータ中の全ての教師ラベルデ
ータから最大尤度のものを教師ラベルデータとして選択
して、音響モデルの話者適応化処理の精度を向上するこ
とができるという効果が得られる。
【0116】この発明によれば、請求項2から請求項5
のうちのいずれか1項記載の話者適応化装置と、認識対
象語彙の単語表記辞書を記憶する単語表記辞書記憶手段
と、入力音声としての未知音声信号の特徴ベクトル時系
列の音声認識処理を音響モデルを用いて行い、単語表記
辞書を用いて音声認識処理の結果を出力する音声認識手
段とを備えるようにしたので、精度良く話者適応化処理
された音響モデルを用いて音声認識処理を行い、音声認
識精度を向上することができるという効果が得られる。
【0117】この発明によれば、請求項7から請求項1
0のうちのいずれか1項記載の話者適応化方法と、入力
音声としての未知音声信号の特徴ベクトル時系列の音声
認識処理を音響モデルを用いて行い、認識対象語彙の単
語表記辞書を用いて音声認識処理の結果を出力する音声
認識ステップとを備えるようにしたので、精度良く話者
適応化処理された音響モデルを用いて音声認識処理を行
い、音声認識精度を向上することができるという効果が
得られる。
【0118】この発明によれば、請求項12から請求項
15のうちのいずれか1項記載のコンピュータ読取可能
な記録媒体に記録された話者適応化プログラムと、入力
音声としての未知音声信号の特徴ベクトル時系列の音声
認識処理を音響モデルを用いて行い、認識対象語彙の単
語表記辞書を用いて音声認識処理の結果を出力する音声
認識手順とを備えるようにしたので、精度良く話者適応
化処理された音響モデルを用いて音声認識処理を行い、
音声認識精度を向上することができるという効果が得ら
れる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による話者適応化装
置を備えた音声認識装置の構成を示す図である。
【図2】 教師ラベル選択型話者適応化手段の第1の構
成例を示す図である。
【図3】 教師ラベル選択型話者適応化手段の第2の構
成例を示す図である。
【図4】 教師ラベル選択型話者適応化手段の第3の構
成例を示す図である。
【図5】 従来の話者適応化装置を備えた音声認識装置
の構成を示す図である。
【図6】 話者適応化手段の構成を示す図である。
【符号の説明】
1 入力端子、2 音響分析手段、3 切替手段、4,
5 特徴ベクトル時系列、6 マルチ教師ラベル記憶手
段、7 マルチ教師ラベルデータ、8 音響モデル記憶
手段、9A,9B 音響モデル、10 教師ラベル選択
型話者適応化手段、11 単語表記辞書記憶手段、12
単語表記辞書、13 音声認識手段、14 教師ラベ
ル指示データ、15 教師ラベル選択手段、16 教師
ラベルデータ、17 照合手段、18 音響モデル対応
付データ、19 音響モデル更新手段、20 切替手段
(認識型教師ラベル選択手段)、21 ネイティブ教師
ラベル選択手段(認識型教師ラベル選択手段)、22
認識型教師ラベル選択手段(認識型教師ラベル選択手
段)、23 マルチ照合手段、24 マルチ音響モデル
対応付データ、25 マルチ音響モデル更新手段、26
マルチ音響モデル、27 マルチ音響モデルバッファ
リング手段(音響モデル決定手段)、28 再照合手段
(音響モデル決定手段)、29 尤度データ、30 音
響モデル決定手段(音響モデル決定手段)。
───────────────────────────────────────────────────── フロントページの続き (54)【発明の名称】 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記 録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可 能な記録媒体

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 一つの話者適応化用音声データに対応し
    た複数の教師ラベルデータからなるマルチ教師ラベルデ
    ータから、上記話者適応化用音声データを参照して一つ
    の教師ラベルデータを選択し、上記教師ラベルデータを
    参照して音響モデルの話者適応化処理を行うことを特徴
    とする話者適応化装置。
  2. 【請求項2】 入力音声を音響分析処理して特徴ベクト
    ル時系列を出力する音響分析手段と、 一つの話者適応化用音声データに対応した複数の教師ラ
    ベルデータからなるマルチ教師ラベルデータを記憶する
    マルチ教師ラベル記憶手段と、 音響モデルを記憶する音響モデル記憶手段と、 上記マルチ教師ラベルデータから上記教師ラベルデータ
    を一つ選択するとともに、選択された上記教師ラベルデ
    ータを参照して、上記入力音声としての上記話者適応化
    用音声データの上記特徴ベクトル時系列と上記音響モデ
    ルとを照合し、上記音響モデルを話者適応化処理する教
    師ラベル選択型話者適応化手段とを備えることを特徴と
    する話者適応化装置。
  3. 【請求項3】 教師ラベル選択型話者適応化手段は、 教師ラベル指示データにしたがってマルチ教師ラベルデ
    ータから教師ラベルデータを一つ選択する教師ラベル選
    択手段と、 選択された上記教師ラベルデータを参照して、上記話者
    適応化用音声データの特徴ベクトル時系列と音響モデル
    とを照合し、音響モデル対応付データを出力する照合手
    段と、 上記特徴ベクトル時系列および上記音響モデル対応付デ
    ータを用いて上記音響モデルのパラメータを更新する音
    響モデル更新手段とを備えることを特徴とする請求項2
    記載の話者適応化装置。
  4. 【請求項4】 教師ラベル選択型話者適応化手段は、 話者適応化用音声データが所定セット数分処理されるま
    での前半処理では、マルチ教師ラベルデータからネイテ
    ィブ教師ラベルデータを教師ラベルデータとして選択
    し、上記話者適応化用音声データが上記所定セット数分
    処理されてからの後半処理では、マルチ教師ラベルデー
    タ中の複数の教師ラベルデータの特徴ベクトル時系列に
    対する音声認識処理を音響モデルを用いてそれぞれ行
    い、最大尤度の上記教師ラベルデータを選択する認識型
    教師ラベル選択手段と、 選択された上記教師ラベルデータを参照して上記特徴ベ
    クトル時系列と上記音響モデルとを照合し、音響モデル
    対応付データを出力する照合手段と、 上記特徴ベクトル時系列および上記音響モデル対応付デ
    ータを用いて上記音響モデルのパラメータを更新する音
    響モデル更新手段とを備えることを特徴とする請求項2
    記載の話者適応化装置。
  5. 【請求項5】 教師ラベル選択型話者適応化手段は、 マルチ教師ラベルデータ中の複数の教師ラベルデータを
    それぞれ参照して特徴ベクトル時系列と音響モデルとを
    照合し、マルチ音響モデル対応付データを出力するマル
    チ照合手段と、 上記特徴ベクトル時系列および上記マルチ音響モデル対
    応付データを用いて音響モデルのパラメータを個々に更
    新したマルチ音響モデルを出力するマルチ音響モデル更
    新手段と、 上記マルチ音響モデルを参照して上記特徴ベクトル時系
    列と上記マルチ教師ラベルデータとを照合し、上記マル
    チ音響モデルの中から最大尤度の音響モデルを音響モデ
    ル記憶手段に書き込む音響モデル決定手段とを備えるこ
    とを特徴とする請求項2記載の話者適応化装置。
  6. 【請求項6】 一つの話者適応化用音声データに対応し
    た複数の教師ラベルデータからなるマルチ教師ラベルデ
    ータから、上記話者適応化用音声データを参照して一つ
    の教師ラベルデータを選択し、上記教師ラベルデータを
    参照して音響モデルの話者適応化処理を行うことを特徴
    とする話者適応化方法。
  7. 【請求項7】 入力音声を音響分析処理して特徴ベクト
    ル時系列を出力する音響分析ステップと、 一つの話者適応化用音声データに対応した複数の教師ラ
    ベルデータからなるマルチ教師ラベルデータの中から教
    師ラベルデータを一つ選択するとともに、選択された上
    記教師ラベルデータを参照して、上記入力音声としての
    上記話者適応化用音声データの上記特徴ベクトル時系列
    と音響モデルとを照合し、上記音響モデルを話者適応化
    処理する教師ラベル選択型話者適応化ステップとを備え
    ることを特徴とする話者適応化方法。
  8. 【請求項8】 教師ラベル選択型話者適応化ステップ
    は、 教師ラベル指示データにしたがってマルチ教師ラベルデ
    ータから教師ラベルデータを一つ選択する教師ラベル選
    択ステップと、 選択された上記教師ラベルデータを参照して、上記話者
    適応化用音声データの特徴ベクトル時系列と音響モデル
    とを照合し、音響モデル対応付データを出力する照合ス
    テップと、 上記特徴ベクトル時系列および上記音響モデル対応付デ
    ータを用いて上記音響モデルのパラメータを更新する音
    響モデル更新ステップとを備えることを特徴とする請求
    項7記載の話者適応化方法。
  9. 【請求項9】 教師ラベル選択型話者適応化ステップ
    は、 話者適応化用音声データが所定セット数分処理されるま
    での前半処理では、マルチ教師ラベルデータからネイテ
    ィブ教師ラベルデータを教師ラベルデータとして選択
    し、上記話者適応化用音声データが上記所定セット数分
    処理されてからの後半処理では、マルチ教師ラベルデー
    タ中の複数の教師ラベルデータの特徴ベクトル時系列に
    対する音声認識処理を音響モデルを用いてそれぞれ行
    い、最大尤度の上記教師ラベルデータを選択する認識型
    教師ラベル選択ステップと、 選択された上記教師ラベルデータを参照して上記特徴ベ
    クトル時系列と上記音響モデルとを照合し、音響モデル
    対応付データを出力する照合ステップと、 上記特徴ベクトル時系列および上記音響モデル対応付デ
    ータを用いて上記音響モデルのパラメータを更新する音
    響モデル更新ステップとを備えることを特徴とする請求
    項7記載の話者適応化方法。
  10. 【請求項10】 教師ラベル選択型話者適応化ステップ
    は、 マルチ教師ラベルデータ中の複数の教師ラベルデータを
    それぞれ参照して特徴ベクトル時系列と音響モデルとを
    照合し、マルチ音響モデル対応付データを出力するマル
    チ照合ステップと、 上記特徴ベクトル時系列および上記マルチ音響モデル対
    応付データを用いて音響モデルのパラメータを個々に更
    新したマルチ音響モデルを出力するマルチ音響モデル更
    新ステップと、 上記マルチ音響モデルを参照して上記特徴ベクトル時系
    列と上記マルチ教師ラベルデータとを照合し、上記マル
    チ音響モデルの中から最大尤度の音響モデルを選択する
    音響モデル決定ステップとを備えることを特徴とする請
    求項7記載の話者適応化方法。
  11. 【請求項11】 一つの話者適応化用音声データに対応
    した複数の教師ラベルデータからなるマルチ教師ラベル
    データから、上記話者適応化用音声データを参照して一
    つの教師ラベルデータを選択し、上記教師ラベルデータ
    を参照して音響モデルの話者適応化処理を行うことを特
    徴とする話者適応化プログラムを記録したコンピュータ
    読取可能な記録媒体。
  12. 【請求項12】 入力音声を音響分析処理して特徴ベク
    トル時系列を出力する音響分析手順と、 一つの話者適応化用音声データに対応した複数の教師ラ
    ベルデータからなるマルチ教師ラベルデータの中から教
    師ラベルデータを一つ選択するとともに、選択された上
    記教師ラベルデータを参照して、上記入力音声としての
    上記話者適応化用音声データの上記特徴ベクトル時系列
    と音響モデルとを照合し、上記音響モデルを話者適応化
    処理する教師ラベル選択型話者適応化手順とを備えるこ
    とを特徴とする話者適応化プログラムを記録したコンピ
    ュータ読取可能な記録媒体。
  13. 【請求項13】 教師ラベル選択型話者適応化手順は、 教師ラベル指示データにしたがってマルチ教師ラベルデ
    ータから教師ラベルデータを一つ選択する教師ラベル選
    択手順と、 選択された上記教師ラベルデータを参照して、上記話者
    適応化用音声データの特徴ベクトル時系列と音響モデル
    とを照合し、音響モデル対応付データを出力する照合手
    順と、 上記特徴ベクトル時系列および上記音響モデル対応付デ
    ータを用いて上記音響モデルのパラメータを更新する音
    響モデル更新手順とを備えることを特徴とする請求項1
    2記載の話者適応化プログラムを記録したコンピュータ
    読取可能な記録媒体。
  14. 【請求項14】 教師ラベル選択型話者適応化手順は、 話者適応化用音声データが所定セット数分処理されるま
    での前半処理では、マルチ教師ラベルデータからネイテ
    ィブ教師ラベルデータを教師ラベルデータとして選択
    し、上記話者適応化用音声データが上記所定セット数分
    処理されてからの後半処理では、マルチ教師ラベルデー
    タ中の複数の教師ラベルデータの特徴ベクトル時系列に
    対する音声認識処理を音響モデルを用いてそれぞれ行
    い、最大尤度の上記教師ラベルデータを選択する認識型
    教師ラベル選択手順と、 選択された上記教師ラベルデータを参照して上記特徴ベ
    クトル時系列と上記音響モデルとを照合し、音響モデル
    対応付データを出力する照合手順と、 上記特徴ベクトル時系列および上記音響モデル対応付デ
    ータを用いて上記音響モデルのパラメータを更新する音
    響モデル更新手順とを備えることを特徴とする請求項1
    2記載の話者適応化プログラムを記録したコンピュータ
    読取可能な記録媒体。
  15. 【請求項15】 教師ラベル選択型話者適応化手順は、 マルチ教師ラベルデータ中の複数の教師ラベルデータを
    それぞれ参照して特徴ベクトル時系列と音響モデルとを
    照合し、マルチ音響モデル対応付データを出力するマル
    チ照合手順と、 上記特徴ベクトル時系列および上記マルチ音響モデル対
    応付データを用いて音響モデルのパラメータを個々に更
    新したマルチ音響モデルを出力するマルチ音響モデル更
    新手順と、 上記マルチ音響モデルを参照して上記特徴ベクトル時系
    列と上記マルチ教師ラベルデータとを照合し、上記マル
    チ音響モデルの中から最大尤度の音響モデルを選択する
    音響モデル決定手順とを備えることを特徴とする請求項
    12記載の話者適応化プログラムを記録したコンピュー
    タ読取可能な記録媒体。
  16. 【請求項16】 請求項2から請求項5のうちのいずれ
    か1項記載の話者適応化装置と、 認識対象語彙の単語表記辞書を記憶する単語表記辞書記
    憶手段と、 入力音声としての未知音声信号の特徴ベクトル時系列の
    音声認識処理を音響モデルを用いて行い、上記単語表記
    辞書を用いて上記音声認識処理の結果を出力する音声認
    識手段とを備えることを特徴とする音声認識装置。
  17. 【請求項17】 請求項7から請求項10のうちのいず
    れか1項記載の話者適応化方法と、 入力音声としての未知音声信号の特徴ベクトル時系列の
    音声認識処理を音響モデルを用いて行い、認識対象語彙
    の単語表記辞書を用いて上記音声認識処理の結果を出力
    する音声認識ステップとを備えることを特徴とする音声
    認識方法。
  18. 【請求項18】 請求項12から請求項15のうちのい
    ずれか1項記載のコンピュータ読取可能な記録媒体に記
    録された話者適応化プログラムと、 入力音声としての未知音声信号の特徴ベクトル時系列の
    音声認識処理を音響モデルを用いて行い、認識対象語彙
    の単語表記辞書を用いて上記音声認識処理の結果を出力
    する音声認識手順とを備えることを特徴とする音声認識
    プログラムを記録したコンピュータ読取可能な記録媒
    体。
JP2000269068A 2000-09-05 2000-09-05 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 Pending JP2002082688A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000269068A JP2002082688A (ja) 2000-09-05 2000-09-05 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000269068A JP2002082688A (ja) 2000-09-05 2000-09-05 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2002082688A true JP2002082688A (ja) 2002-03-22

Family

ID=18755744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000269068A Pending JP2002082688A (ja) 2000-09-05 2000-09-05 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2002082688A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
JP2017090660A (ja) * 2015-11-10 2017-05-25 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
US20220189463A1 (en) * 2020-12-16 2022-06-16 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
JP2017090660A (ja) * 2015-11-10 2017-05-25 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
US20220189463A1 (en) * 2020-12-16 2022-06-16 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Similar Documents

Publication Publication Date Title
EP2308042B1 (en) Method and device for generating vocabulary entries from acoustic data
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP4109063B2 (ja) 音声認識装置及び音声認識方法
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP2017513047A (ja) 音声認識における発音予測
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
JPH0962291A (ja) 記述長最小基準を用いたパターン適応化方式
JP2000099087A (ja) 言語音声モデルを適応させる方法及び音声認識システム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2871420B2 (ja) 音声対話システム
JP2002082688A (ja) 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
JPH10254350A (ja) 音声認識装置
JPH08241096A (ja) 音声認識方法
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH0822296A (ja) パターン認識方法
JPH08171396A (ja) 音声認識装置