JP2001075588A - 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体 - Google Patents

教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体

Info

Publication number
JP2001075588A
JP2001075588A JP25160399A JP25160399A JP2001075588A JP 2001075588 A JP2001075588 A JP 2001075588A JP 25160399 A JP25160399 A JP 25160399A JP 25160399 A JP25160399 A JP 25160399A JP 2001075588 A JP2001075588 A JP 2001075588A
Authority
JP
Japan
Prior art keywords
speaker adaptation
standard pattern
speech
keyword
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP25160399A
Other languages
English (en)
Other versions
JP3946912B2 (ja
Inventor
Jun Ishii
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP25160399A priority Critical patent/JP3946912B2/ja
Publication of JP2001075588A publication Critical patent/JP2001075588A/ja
Application granted granted Critical
Publication of JP3946912B2 publication Critical patent/JP3946912B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 未登録単語を含む発声や発声変形が大きい場
合においても標準パタンのパラメータ誤推定を防ぎ、認
識率が向上する教師なし話者適応化装置を得る。 【解決手段】 話者の入力音声から音声特徴量を抽出す
る音声特徴量抽出手段1002と、音声特徴量抽出手段
1002が抽出した音声特徴量と認識辞書1004に格
納されているキーワードに基づいて標準パタン1005
を連結して得られるキーワード標準パタンとを照合する
ことによりキーワード及びキーワードの区間を認識して
抽出し出力するキーワードスポッティング手段101
と、標準パタン1005、キーワードスポッティング手
段が抽出したキーワード、及びキーワードとして抽出さ
れた区間の音声特徴量に基づいて、標準パタン1005
を話者適応標準パタン1008へ更新する教師なし話者
適応化手段とを備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識を行う標
準パタンを、ある話者に適応した話者適応標準パタンに
更新する教師なし話者適応化装置、教師なし話者適応化
方法及び教師なし話者適応化プログラムを記録した記録
媒体と、更新された話者適応標準パタンを用いた音声認
識を実施する音声認識装置、音声認識方法及び音声認識
プログラムを記録した記録媒体に関するものである。
【0002】
【従来の技術】音声認識のアプリケーションを想定した
場合、事前の話者音声の登録を必要としない不特定話者
音声認識システムの要望が高く、隠れマルコフモデル(H
iddenMarkov Model、以下HMMとする)、ニューラルネ
ット (Neural Network、以下NNとする) を用いた音声
認識方式によっての実用化検討が行われている。HM
M、NNの詳細は、例えば「音声認識の基礎(上、下)」
L.RABINER、B.H.JUANG、古井 監訳、1995年、11月、NTT
アドバンステクノロジ (以下文献1とする)、「確率モデ
ルによる音声認識」中川聖一、(社)電子情報通信学会
(以下文献2とする)、「音声情報処理」古井貞煕 、森北
出版(株)(以下文献3とする)に記されている。これらの
方法は、予め多数の話者からの単語、文などの音声デー
タを用いた標準パタンの学習によって不特定話者標準パ
タンを作成するものである。
【0003】しかしながら、HMMやNNによる不特定
話者音声認識システムは、特定話者に限定した場合、そ
の特定話者からの単語、文などの音声データによって標
準パタンを学習した特定話者音声認識システムと比較し
て、単語誤り率で2〜3倍程度であるのが現状である。そ
こで不特定話者音声認識システムの向上を図るため、話
者適応化技術の研究が最近盛んに行われている。
【0004】話者適応化技術は、特定話者の少量の音声
データ (以下適応データとする) を用いて、音声認識シ
ステムを使用する前や使用中に、不特定話者音声認識シ
ステムの標準パタンのパラメータを適応学習して認識率
の向上を図るものである。話者適応化方式については、
「音声認識における話者適応」松本 弘、日本音響学会
平成7年春季研究発表会講演論文集、pp.27-30、1995年3
月(以下文献4とする)に詳しい。
【0005】話者適応化法としては、適応学習データの
発話の内容に、既知の音声を用いるか、あるいは任意の
未知の発話内容の音声を使用するかにより「教師あり/
教師なし」の2つの方法がある(一部が発生内容既知で
も教師なし)。
【0006】教師あり話者適応方式は、適応データを用
いた適応学習後の認識精度は高いが、音声認識装置の使
用者が使用前に予め決められた単語や文章を発声しなけ
ればならず、使用者の負担が大きい。
【0007】一方、教師なし話者適応方式は、音声認識
装置の使用中に使用者が適応学習を意識することなく認
識率の改善を得ようとする方法である。実際の音声認識
のアプリケーションでは、教師なし話者適応の確立が望
まれている。
【0008】従来の教師なし話者適応化としては、例え
ば 「Speaker Adaptation of Continuous Density HM
Ms Using Multivariate Linear Regression」 C. J. L
eggetter and P. C. Woodland, Proc. of ICSLP94、pp.
451-454、1994年 (以下文献5とする) で報告されている
認識結果を発声内容として話者適応を行う方法がある。
これは入力音声に対して不特定話者用の標準パタンを用
いて照合を行い、照合を行った結果として得られる認識
結果を発声内容であるとして、不特定話者用標準パタン
を連結し、入力音声を適応データとして標準パタンのパ
ラメータを更新方法である。
【0009】以下に従来例として文献5に記述されてい
る認識結果を発声内容とする教師なし話者適応化装置を
図17のブロック図を参照して説明する。図17におい
て、入力音声1001は、認識装置の使用話者が発声し
た単語や文章の音声である。ここでの1発声はポーズか
らポーズの間の単語や文節、及び文章として説明を行
う。
【0010】音声特徴量分析手段1002は、入力音声
1001の音声信号をA/D変換し、A/D変換された
信号を5ミリ秒〜20ミリ秒程度の一定時間間隔のフレ
ームで切り出し、音響分析を行って音声特徴量を抽出す
る。ここで音声特徴量とは、少い情報量で音声の特徴を
表現できるものであり、例えばケプストラム、ケプスト
ラムの動的特徴の物理量で構成する特徴量ベクトルであ
る。
【0011】照合手段1003は、認識辞書1004に
よって設定している認識対象の単語[W(1), W(2), ...,
W(wn)](括弧内は単語番号、wnは認識対象単語数)の発
音表記から認識ユニットのラベル表記へ変換し、ラベル
に対応した標準パタン1005を連結することで認識対
象単語の標準パタン[λW(1)W(2), ...,λW(wn)]を作
成する。そして音声特徴量抽出手段1002からの出力
である入力音声の音声特徴量の時系列 [o1, o2, ...
oT](Tは1発声の総フレーム数)に対して照合を行い、
教師なし話者適応化用音声認識結果1006を出力す
る。
【0012】教師なし話者適応化用音声認識結果100
6は発声に対して最も照合スコア(尤度とも言う)が高
い単語番号系列 Rn'=[r'(1), r'(2),..., r'(m')] を計
算し、単語番号に対応した単語Rw'=[W(r'(1)), W(r'
(2)) ,..., W(r'(m'))]を出力する。ここで、r'(i)は教
師なし話者適応化用音声認識結果1006の単語列中の
i番目の単語の認識辞書1004における単語番号を示
す。 また、m'は話者適応用音声認識結果1006の単
語数を示す。
【0013】標準パタン1005は、予め用意した標準
パタンであり、文献5では認識ユニットを前後音素環境
(コンテキスト)依存の音素としたHMMを用いてお
り、多数の話者の音声データでパラメータ学習を行った
標準パタンを初期の標準パタンとして使用している。H
MMは、状態単位で以下の情報をパラメータとして有す
ることで複数の認識ユニットの標準パタンを形成する。
【0014】(a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率確率及び後続状態への遷移確率
【0015】認識辞書1004は、予め定めた認識対象
とする単語や文章をかな漢字表記と発音表記(または音
素表記)とを対にしたテキスト表記を格納している。照
合手段1003は、この発音表記から認識ユニットラベ
ルへの変換を行って、このラベル系列にしたがって標準
パタン1005から対応する認識ユニット標準パタンを
連結して認識対象単語の標準パタンを生成する。例えば
認識辞書にかな漢字表記で「青(あお)」が存在するな
らば、これは音素系列で表した場合は/ao/となる。離散
発声の「青(あお)」の認識に用いる標準パタンは、中
心音素が/a/であり、先行音素が無音、後続音素が/o/で
ある認識ユニットのHMM λ-aoと、中心音素が/o/で
あり、先行音素が/a/、後続音素が無音の認識ユニット
のHMMλao-を連結したHMMによって照合を行う。
最近ではこのような前後音素環境依存の音素HMMを用
いて、認識対象語彙が60,000単語以上の音声認識
システムの検討が行われている。
【0016】教師なし話者適応化手段1007は、照合
手段1003の出力である教師なし話者適応化用音声認
識結果1006と標準パタン1005を入力し、教師な
し話者適応用音声認識結果1006の認識ユニットのラ
ベル系列に基づき、標準パタン1005のHMMを連結
し、音声特徴量抽出手段1002からの出力である音声
特徴量の時系列を適応データとして標準パタンのパラメ
ータを更新し、教師なし話者適応標準パタン1008を
出力する。
【0017】文献5では、数式1で示される重回帰写像
モデルに基づき、HMMのパラメータの一つであるガウ
ス分布の平均ベクトルを線形変換することで教師なし話
者適応標準パタン1008を計算する。数式1において
μq、μa qは更新前後のガウス分布番号qの平均ベクトル
であり、次元数はdであり音声特徴量ベクトルの次元数
と同じである。Aはd×dの変換行列であり、bはd次元の
定数項ベクトルである。変換行列Aと定数項ベクトルbは
数式2によってAのp行目[ap,1, ap,2, ..., ap ,d]、bの
p次元目b(p)を算出する。数式2において、fr,s (p) はF
のr行s列の要素、Ψは更新を行うガウス分布番号の集
合、γi(t)は時刻tにガウス分布iに特徴ベクトルotが存
在する期待値、μi(r)はガウス分布iの平均ベクトルのr
次元目の要素、σ2 i(p)はガウス分布iの共分散行列のp
行p列目の要素、ot(p)は特徴ベクトルotのp次元目の要
素、Tは適応学習データの総フレーム数、(*)Tは転置
行列である。
【0018】
【数1】
【0019】
【数2】
【0020】教師なし話者適応標準パタン1008は、
教師なし話者適応化手段1007からの出力であり、こ
の標準パタンを用いて音声認識を行う。
【0021】次に教師なし話者適応化装置を用いた音声
認識装置の説明を行う。図18は教師なし話者適応化装
置を用いた音声認識装置のブロック図である。図18に
関して図17と同一の機能ブロックは同一の符号を付
し、説明を省略する。認識辞書1004によって設定し
た認識対象の単語 [W(1), W(2), ..., W(wn)] の発音表
記を認識ユニットラベル表記に変換し、このラベルにし
たがって教師なし話者適応標準パタン1008を連結
し、認識対象単語の標準パタン[λa W(1)a W(2),...,
λa W(wn)]を作成する。この話者適応化された認識対象
単語の標準パタンを用いて、音声特徴量分析手段100
2の出力である音声特徴量に対して照合を行い、音声認
識結果1101を出力する。このとき、入力音声100
1は教師なし適応用に用いた発声と同一でも、それ以外
の発声でも良い。
【0022】音声認識結果1101は、入力音声に対し
て認識対象語彙で最も照合スコアが高い単語の単語番号
系列 Rn = [r(1), r(2), ..., r(m)] を計算し、単語番
号に対応する単語 Rw=[W(r(1)), W(r(2)), ..., W(r
(m))] を出力する。ここで r(i)は音声認識結果の単語
系列のi番目の単語の認識辞書単語番号を示す。 また、
mは認識単語系列の単語数を示す。
【0023】
【発明が解決しようとする課題】従来の教師なし話者適
応化装置は、照合を行って得られた話者適応用認識結果
を発声内容であるとして標準パタンのパラメータの更新
を行うが、認識辞書に登録されていない未登録単語を含
む発声では未登録語の部分は認識辞書に存在する何れか
の単語が認識結果となり、パラメータの誤った更新が行
われ、教師なし話者適応後の認識率が低下することが問
題であった。また、認識辞書に存在する単語の発声であ
っても発声変形が大きい場合は認識結果が誤り、パラメ
ータの誤った更新が行われ、教師なし話者適応後の認識
率が低下することが問題であった。
【0024】本発明の目的は以上の問題点を解決し、従
来の認識結果を用いる教師なし話者適応方式において、
未登録単語を含む発声や発声変形が大きい場合において
も標準パタンのパラメータ誤推定を防ぎ、認識率が向上
する教師なし話者適応化装置を提供することにある。
【0025】
【課題を解決するための手段】この発明の請求項1に係
る教師なし話者適応化装置においては、適応学習データ
として未知の発話内容の音声を使用する教師なし話者適
応化装置であって、音声認識に用いる標準パタンを任意
の話者に適応する話者適応標準パタンに更新する教師な
し話者適応化装置において、話者の入力音声から音声特
徴量を抽出する音声特徴量抽出手段と、音声特徴量抽出
手段が抽出した音声特徴量と標準パタンとを照合するこ
とによりキーワード及びキーワードの区間を認識して抽
出し出力するキーワードスポッティング手段と、標準パ
タン、キーワードスポッティング手段が抽出したキーワ
ード、及びキーワードとして抽出された区間の音声特徴
量に基づいて、標準パタンを話者適応標準パタンへ更新
する教師なし話者適応化手段とを備えている。
【0026】また、この発明の請求項2に係る教師なし
話者適応化装置においては、適応学習データとして未知
の発話内容の音声を使用する教師なし話者適応化装置で
あって、音声認識に用いる標準パタンを任意の話者に適
応する話者適応標準パタンに更新する教師なし話者適応
化装置において、話者の入力音声から音声特徴量を抽出
する音声特徴量抽出手段と、音声特徴量抽出手段が抽出
した音声特徴量と標準パタンとを照合することによりキ
ーワード及びキーワードの区間を認識して抽出し出力す
るキーワードスポッティング手段と、キーワードの区間
以外の区間については、全ての音声単位を組み合わせて
最も照合スコアが高い系列を認識結果として出力する音
韻タイプライタ型音声認識手段と、標準パタン、キーワ
ードスポッティング手段が抽出したキーワード、キーワ
ードとして抽出された区間の音声特徴量、及び音韻タイ
プライタ型音声認識手段の認識結果に基づいて、標準パ
タンを話者適応標準パタンへ更新する教師なし話者適応
化手段とを備えている。
【0027】また、この発明の請求項3に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音素である。
【0028】また、この発明の請求項4に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音節である。
【0029】また、この発明の請求項5に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、隠れマルコフモデルの1状態であ
る。
【0030】また、この発明の請求項6に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々話者適応標準パ
タンを作成し、これらの話者適応標準パタンを合成して
1つの話者適応標準パタンを出力する。
【0031】また、この発明の請求項7に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々のキーワード区
間の音声特徴量に対して標準パタンの更新時の寄与度を
表す係数を計算し、係数に基づいて話者適応標準パタン
を出力する。
【0032】また、この発明の請求項8に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、入力音声により話者適応標準パタンを更新する際、
以前の入力音声により更新された話者適応標準パタンを
標準パタンとして使用する。
【0033】また、この発明の請求項9に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、標準パタンのパラメータを変更することにより、話
者適応標準パタンに更新する。
【0034】また、この発明の請求項10に係る音声認
識装置においては、請求項1乃至9のいずれかに記載の
教師なし話者適応化装置によって更新された話者適応標
準パタンと、話者の入力音声から特徴量を抽出する音声
特徴量抽出手段と、音声特徴量抽出手段が抽出した音声
特徴量と話者適応標準パタンとを照合して認識結果を出
力する照合手段とを備えている。
【0035】また、この発明の請求項11に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、標準パタン、キーワードスポッ
ティングして抽出されたキーワード、及びキーワードと
して抽出された区間の音声特徴量に基づいて、標準パタ
ンを話者適応標準パタンへ更新する教師なし話者適応化
を行う。
【0036】また、この発明の請求項12に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、キーワード区間以外の音声区間
については、全ての音声単位を組み合わせて最も照合ス
コアが高い系列を認識結果として出力する音韻タイプラ
イタを用いて認識し、標準パタン、キーワードスポッテ
ィングして抽出されたキーワード、キーワードとして抽
出された区間の音声特徴量、音韻タイプライタの認識結
果に基づいて、標準パタンを話者適応標準パタンへ更新
する教師なし話者適応化を行う。
【0037】また、この発明の請求項13に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音素である。
【0038】また、この発明の請求項14に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音節である。
【0039】また、この発明の請求項15に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、隠れマルコフモデルの1状態で
ある。
【0040】また、この発明の請求項16に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々教師なし
話者適応化によって複数の話者適応標準パタンを出力
し、これらの話者適応標準パタンを合成して1つの話者
適応標準パタンを出力する。
【0041】また、この発明の請求項17に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々のキーワ
ード区間の音声特徴量に対して標準パタンの更新時の寄
与度を表す係数を計算し、係数に基づいてパラメータ更
新を行う。
【0042】また、この発明の請求項18に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
入力音声により話者適応標準パタンを更新する際、以前
の入力音声により更新された話者適応標準パタンを標準
パタンとして使用する。
【0043】また、この発明の請求項19に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
標準パタンのパラメータを変更することにより、話者適
応標準パタンに更新する。
【0044】また、この発明の請求項20に係る音声認
識方法においては、請求項11乃至19のいずれかに記
載の話者適応化方法によって更新された話者適応標準パ
タンと、抽出された音声特徴量とを照合して認識結果を
出力する。
【0045】また、この発明の請求項21に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、及びキーワードとして抽出された区間の音声特徴量
に基づいて、標準パタンを話者適応標準パタンへ更新す
る教師なし話者適応化手順とを備えている。
【0046】また、この発明の請求項22に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、キーワード
区間以外の音声区間については、全ての音声単位を組み
合わせて最も照合スコアが高い系列を認識結果として出
力する音韻タイプライタ型音声認識手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、キーワードとして抽出された区間の音声特徴量、及
び音韻タイプライタ型音声認識手順の認識結果に基づい
て、標準パタンを話者適応標準パタンへ更新する教師な
し話者適応化手順とを備えている。
【0047】また、この発明の請求項23に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
素である。
【0048】また、この発明の請求項24に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
節である。
【0049】また、この発明の請求項25に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、隠
れマルコフモデルの1状態である。
【0050】また、この発明の請求項26に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々話者適応標準パタンを作成し、これらの
話者適応標準パタンを合成して1つの話者適応標準パタ
ンを出力する。
【0051】また、この発明の請求項27に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々のキーワード区間の音声特徴量に対して
標準パタンの更新時の寄与度を表す係数を計算し、係数
に基づいて話者適応標準パタンを出力する。
【0052】また、この発明の請求項28に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、入力音声により話者適
応標準パタンを更新する際、以前の入力音声により更新
された話者適応標準パタンを標準パタンとして使用す
る。
【0053】また、この発明の請求項29に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、標準パタンのパラメー
タを変更することにより、話者適応標準パタンに更新す
る。
【0054】また、この発明の請求項30に係る音声認
識プログラムを記録した記録媒体においては、請求項2
1乃至29のいずれかに記載の教師なし話者適応化プロ
グラムによって更新された話者適応標準パタンと話者の
入力音声とから特徴量を抽出する音声特徴量抽出手順
と、音声特徴量抽出手順が抽出した音声特徴量と話者適
応標準パタンとを照合して認識結果を出力する照合手順
とを備えている。
【0055】
【発明の実施の形態】実施の形態1.図1はこの発明の
実施の形態1による教師なし話者適応化装置を示す構成
図である。図1において従来技術の説明図である図17
と同一の機能ブロックは同一の記号を付し説明を省略す
る。従来技術と異る本発明の特徴的な部分は、キーワー
ドスポッティング手段101とキーワードスポッティン
グ結果に基づく教師なし話者適応化手段103を備えた
ことである。
【0056】図1においてキーワードスポッティング手
段101は、音声特徴量抽出手段1002の出力である
音声特徴量と、認識辞書1004と標準パタン1005
を入力して生成したキーワードの単語標準パタンとを照
合して教師なし話者適応化用キーワードスポッティング
結果102を出力する。キーワードスポッティング結果
に基づく教師なし話者適応化手段103は、キーワード
スポッティング手段101からの出力である教師なし話
者適応化用キーワードスポッティング結果102と音声
特徴量抽出手段1002からの出力である音声特徴量
と、標準パタン1005とを入力して標準パタン100
5のパラメータの更新を行い教師なし話者適応標準パタ
ン1008を出力する。
【0057】なお、図1の教師なし話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段1
002と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段101と同様の処理を実
現するキーワードスポッティング手順と、キーワードス
ポッティング結果に基づく教師なし話者適応化手段10
3と同様の処理を実現するキーワードスポッティング結
果による教師なし話者適応化手順とから構成された教師
なし話者適応化プログラムを記録した記録媒体を用意す
る必要がある。
【0058】次に動作について説明する。キーワードス
ポッティング手段101は、認識辞書1004で予め設
定されている1種類以上のキーワード [KW(1), KW(2),
...,KW(kwn)] (括弧内はキーワード番号、kwnは総キー
ワード数) の発音表記から認識ユニットのラベル表記へ
変換して、ラベルに対応した標準パタン1005を連結
してキーワード標準パタン[λKW(1), λKW(2) ,..., λ
KW(kwn)] を生成する。ここでキーワードとは、例えば
キーワードを都市名とした場合はKW(1)が[東京:tookyo
o]、KW(2)が[大阪:oosaka]、KW(3)が[横浜:yokohama]、
KW(4)が[名古屋:nagoya]等と設定されている。
【0059】次にキーワード標準パタンと音声特徴量抽
出手段1002からの出力である音声特徴量を照合して
キーワードとキーワードの区間を認識結果として出力す
る。最も簡単なキーワードスポッティング方法は、認識
対象としている発声の開始フレームtsから終了フレーム
teの発声中の可能な全ての始端と終端の組み合わせの区
間において照合を行って、照合スコアのローカルピーク
が、ある閾値を越えた場合にキーワードが存在したとし
てキーワードとキーワードの区間を出力するものである
(文献2の3.4.2章)。
【0060】図2はキーワードスポッティングの概念図
である。図2の例では連続発声した「切符を横浜まで一
枚」から予めキーワードとして定めた[横浜:yokohama]
を抽出した様子である。ここで「切符を」、「まで一
枚」は未登録語と仮定している。キーワードの区間はt
ws〜tweであり、キーワード区間以外のts〜tws-1、twe+
1〜teについては結果を出力しない。このようにキーワ
ードスポッティングを行うことで発声内に未登録単語が
あった場合や発声変形が大きい場合はその区間は無視
し、キーワードのみを認識結果として出力するので認識
誤りは少なくなる。
【0061】キーワードスポッティング結果に基づく教
師なし話者適応化手段103は、キーワードスポッティ
ング手段101によって抽出されたキーワードの認識ユ
ニットのラベル系列を学習ラベルとし、キーワードの区
間tws〜tweの音声特徴量を適応学習用データとして用い
て標準パタン1005のパラメータを更新する。パラメ
ータの更新には例えば、(1)個人差に関する構造的なモ
デルを導入する方法である写像方式 (以下写像法とす
る)、(2)モデルパラメータの統計的推定法(以下統計的
推定法とする)、(3)話者依存の標準パタンを基本とする
方法(以下標準パタン選択法とする)を用いる。
【0062】(1)の写像法は、初期の標準パタンと使
用話者標準パタンに対して写像の関係を少量の学習デー
タによって計算するものである。例えば重回帰写像モデ
ルによって変換係数を求め、この変換係数によって特定
話者の標準パタンを学習する方法があり、代表的な文献
として前述の文献5がある。
【0063】(2)の統計的推定法は、新たに得られて
いる学習データから標準パタンを推定する場合に事前に
得られている初期標準パタンから知識を利用する方法で
あり、例えば「A Study on Speaker Adaptation of the
Parameters of ContinuousDensityHidden Markov Mode
ls」 C.H.Lee, C.H.Lin, B.H.Juang, IEEE TRANSACTION
ONSIGNAL PEOCESSING, Vol. 39, No. 4, 1991年 (以下
文献6とする)で報告されている。
【0064】(3)の標準パタン選択法は予め複数の特
定話者標準パタンを用意しておき、認識時に使用話者の
音声データに基づいて特定話者標準パタンを選択し、選
択された標準パタンによって音声認識を行う方法であ
り、「話者適応のための木構造話者クラスタリング」小
坂、松永、嵯峨山、電子情報通信学会技術研究報告, SP
93-110, 1993年12月 (以下文献7とする)によって報告
されている。
【0065】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図3はこの発明の実施の形態1による教師な
し話者適応化方法を示すフローチャートである。
【0066】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST11、ST12)。
【0067】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン1005を連結しキーワード標準パタ
ンを生成し(ST13)、キーワードスポッティングを
行いキーワードとキーワードの区間を出力する(ST1
4)。
【0068】キーワードスポッティング結果に基づく教
師なし話者適応化手段103は、キーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系列
とキーワード区間の音声特徴量と標準パタンを用いて教
師なし話者適応化を行い教師なし話者適応標準パタンを
出力する(ST15)。
【0069】以上に述べたように、実施の形態1によれ
ば、キーワードスポッティング結果に基づきキーワード
区間のみを標準パタンのパラメータ更新に用いる教師な
し話者適応化であるので、未登録単語を含む音声や発声
変形の大きな音声であることによる話者適応用認識結果
の誤りによる標準パタンのパラメータの誤った推定を防
ぎ、更新された話者適応標準パタンによる音声認識率が
向上する効果を奏する。
【0070】実施の形態2.図4はこの発明の実施の形
態2による教師なし話者適応化装置を示す構成図であ
る。図4において実施の形態1の説明図である図1と同
一の機能ブロックには同一の記号を付し説明を省略す
る。本発明の特徴的な部分は、音韻タイプライタ型音声
認識手段201とキーワードスポッティング結果と音韻
タイプライタ型音声認識の結果に基づく教師なし話者適
応化手段203とを備えたことである。
【0071】図4において、音韻タイプライタ型音声認
識手段201は、キーワードスポッティング手段102
からの出力であるキーワードの始端フレーム時刻tws
終端フレーム時刻tweを入力して、キーワード区間以外
の区間の音声特徴量に対して、全ての音声単位を組み合
わせて最も照合スコア高い系列を認識結果として出力す
る。ここで音声単位とは単語よりも短い音素や音節の単
位である。
【0072】キーワードスポッティング結果と音韻タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段203は、教師なし話者適応用キーワードスポッテ
ィング結果102と教師なし話者適応用音韻タイプライ
タ型音声認識の結果202と標準パタン1005と音声
特徴量抽出手段1002から出力である音声特徴量を入
力して教師なし話者適応を行い教師なし話者適応標準パ
タン1008を出力する。
【0073】なお、図4の教師なし話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段1
002と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段101と同様の処理を実
現するキーワードスポッティング手順と、音韻タイプラ
イタ型音声認識手段201と同様の処理を実現する音韻
タイプライタ型音声認識手順、キーワードスポッティン
グ結果と音韻タイプライタ型音声認識の結果に基づく教
師なし話者適応化手段203と同様の処理を実現するキ
ーワードスポッティング結果と音韻タイプライタ型音声
認識の結果よる教師なし話者適応化手順とから構成され
た教師なし話者適応化プログラムを記録した記録媒体を
用意する必要がある。
【0074】次に動作について説明する。音韻タイプラ
イタ型音声認識手段201は、キーワードスポッティン
グ手段101からの出力であるキーワードの区間を入力
してキーワード区間以外の区間を抽出する。キーワード
が1つ抽出された場合ではキーワードのフレーム始端と
終端をtws、tweとすればキーワード以外の区間はフレ
ーム時刻ts〜tws-1とtwe+1〜teとなる。音声単位をラ
ベルに変換し対応する標準パタンを連結して音声単位標
準パタンを生成し、キーワード以外の区間を対象に音韻
タイプライタ型音声認識手段201によって全ての音声
単位を組み合わせて最も照合スコアが高い系列を認識結
果として出力する。音韻タイプライタ型音声認識は短い
音声単位の接続であり、キーワードとして登録されてい
ない未登録語や発声変形の大きな発声についても妥当な
音声単位の系列を抽出できる。
【0075】キーワードスポッティング結果と音韻タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段203は、キーワードの区間はキーワードのラベル
系列を、またキーワード区間以外は音韻タイプライタ型
音声認識の結果のラベル系列を標準パタンのパラメータ
更新の学習ラベルとしてパラメータの更新を行う。この
ときパラメータの更新は例えば実施の形態1で述べた話
者適応方式を用いる。
【0076】次に本装置を使用して教師なし話者適応化
によって教師なし話者適応標準パタンを生成する過程を
具体的に説明する。図5はこの発明の実施の形態2によ
る教師なし話者適応化方法を示すフローチャートであ
る。
【0077】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST21、ST22)。
【0078】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの発音表
記から変換して得られる認識ユニットのラベル表記にし
たがって標準パタンを連結しキーワード標準パタンを生
成し(ST23)、キーワードスポッティングを行いキ
ーワードとキーワードの区間を出力する(ST24)。
【0079】音韻タイプライタ型音声認識手段201
は、音声単位の認識ユニットのラベルに従って標準パタ
ンを連結して音声単位標準パタンを生成し、キーワード
区間以外の区間に対して全ての音声単位の組み合わせに
おいて最も照合スコアが高い組合わせを認識結果とする
(ST25)。
【0080】キーワードスポッティング結果と音韻タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段203は、キーワード区間はキーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系
列、キーワード区間以外は音韻タイプライタ型音声認識
の結果の認識ユニットのラベル系列を学習ラベルとし、
音声特徴量を用いて教師なし話者適応を行い、標準パタ
ンの更新を行って教師なし話者適応標準パタンを出力す
る(ST26)。
【0081】以上に述べたように、実施の形態2によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき、またキーワード区
間以外は音韻タイプライタ型音声認識結果をラベルとし
て標準パタンのパラメータ更新に用いる教師なし話者適
応化であるので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンのパラメータの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。
【0082】実施の形態3.図6はこの発明の実施の形
態3による教師なし話者適応化装置を示す構成図であ
る。図6において実施の形態2の説明図である図4と同
一の機能ブロックは同一の記号を付し説明を省略する。
本発明の特徴的な部分は、音韻タイプライタ型音声認識
手段が、音素タイプライタ型音声認識手段301である
ことである。
【0083】図6において、音素タイプライタ型音声認
識手段301は、キーワードスポッティング手段101
からの出力であるキーワードの区間を入力し、キーワー
ド区間以外の区間の音声特徴量を用い、全ての音素を組
み合わせて最も照合スコアが高い系列を認識結果とす
る。ここで音素とは日本語の場合は5つの母音と約20種
類の子音のことを示す。例えば音素表記の母音は a, i,
u, e, o、 子音が ng,k, j, zh, z, d, m, g, ch, r,
sh, ts, s, b, q, t, w, n, p, h である。したがっ
て、キーワード区間以外に未登録単語が存在するような
発声においても、音素の全接続によって妥当な認識結果
が得られる。
【0084】キーワードスポッティング結果と音素タイ
プライタ型音声認識結果に基づく教師なし話者適応化手
段303は、教師なし話者適応用キーワードスポッティ
ング結果102と教師なし話者適応用音素タイプライタ
型音声認識の結果302と標準パタン1005と音声特
徴量抽出手段1002から出力である音声特徴量を入力
して教師なし話者適応を行い教師なし話者適応標準パタ
ン1008を出力する。
【0085】なお、図6の話者適応化装置をソフトウェ
アのみで構成する場合、音声特徴量抽出手段1002と
同様の処理を実現する音声特徴量抽出手順と、キーワー
ドスポッティング手段101と同様の処理を実現するキ
ーワードスポッティング手順と、音素タイプライタ型音
声認識手段301と同等の処理を実現する音素タイプラ
イタ型音声認識手順と、キーワードスポッティング結果
と音素タイプライタ型音声認識の結果に基づく教師なし
話者適応化手段303と同様の処理を実現するキーワー
ドスポッティング結果と音素タイプライタ型音声認識の
結果に基づく教師なし話者適応化手順とから構成された
話者適応化プログラムを記録した記録媒体を用意する必
要がある。
【0086】次に動作について説明する。音素タイプラ
イタ型音声認識手段301は、キーワードスポッティン
グ手段からの出力であるキーワードの区間を入力してキ
ーワード区間以外の区間を抽出する。キーワードが1つ
抽出された場合ではキーワードの始端と終端をtws、twe
とすればキーワード以外の区間はフレーム時刻 ts〜tws
-1とtwe+1〜teとなる。音素をラベルに変換し対応する
標準パタンを音素標準パタンとして、キーワード以外の
区間を対象に音素タイプライタ型音声認識手段301に
よって全ての音素を組み合わせて最も照合スコアが高い
音素系列を認識結果として出力する。
【0087】キーワードスポッティング結果と音素タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段303は、キーワードのラベル系列と音素タイプラ
イタ型音声認識の結果のラベル系列を標準パタンのパラ
メータ更新の学習ラベルとしてパラメータの更新を行
う。このときパラメータの更新は例えば実施の形態1で
述べた話者適応方式を用いる。
【0088】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図7はこの発明の実施の形態3による教師な
し話者適応化方法を示すフローチャートである。
【0089】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST31、ST32)。
【0090】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの認識ユ
ニットのラベル表記にしたがって標準パタンを連結しキ
ーワード標準パタンを生成し(ST33)、キーワード
スポッティングを行いキーワードとキーワードの区間を
出力する(ST34)。
【0091】音素タイプライタ型音声認識手段301
は、音素の認識ユニットラベルに対応する音素標準パタ
ンを標準パタン1004から選び、キーワード区間以外
の区間に対して全ての音素の組み合わせにおいて最も照
合スコアが高い組合わせを認識結果とする(ST3
5)。
【0092】キーワードスポッティング結果と音素タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段303は、キーワード区間はキーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系
列、キーワード区間以外は音素タイプライタ型音声認識
の結果の認識ユニットのラベル系列を学習ラベルとし、
音声特徴量を用いて教師なし話者適応を行い、標準パタ
ンの更新を行って教師なし話者適応標準パタンを出力す
る(ST36)。
【0093】以上に述べたように、実施の形態3によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき、またキーワード区
間以外は音素タイプライタ型音声認識結果をラベルとし
て標準パタンのパラメータ更新に用いる教師なし話者適
応化であるので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンのパラメータの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。
【0094】実施の形態4.図8はこの発明の実施の形
態4による教師なし話者適応化装置を示す構成図であ
る。図8において実施の形態2の説明図である図4と同
一の機能ブロックは同一の記号を付し説明を省略する。
本発明の特徴的な部分は、音韻タイプライタ型音声認識
手段が、音節タイプライタ型音声認識手段401である
ことである。
【0095】図8において、音節タイプライタ型音声認
識手段401は、キーワードスポッティング手段101
からの出力であるキーワードの区間を入力し、キーワー
ド区間以外の区間の音声特徴量を用い、全ての音節を組
み合わせて最も照合スコアが高い系列を認識結果とす
る。ここで音節とは日本語の場合は1つの音節は、1つ
の母音と1つないし複数の子音からなり、101の音節
があり仮名に対応している。
【0096】キーワードスポッティング結果と音節タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段403は、キーワードスポッティング結果と音節タ
イプライタ型音声認識の結果と標準パタン1005と音
声特徴量抽出手段1002から出力である音声特徴量を
入力して教師なし話者適応を行い教師なし話者適応標準
パタン1008を出力する。
【0097】なお、図8の話者適応化装置をソフトウェ
アのみで構成する場合、音声特徴量抽出手段1002と
同様の処理を実現する音声特徴量抽出手順と、キーワー
ドスポッティング手段101と同様の処理を実現するキ
ーワードスポッティング手順と、音節タイプライタ型音
声認識手段401と同等の処理を実現する音節タイプラ
イタ型音声認識手順と、キーワードスポッティング結果
と音節タイプライタ型音声認識の結果に基づく教師なし
話者適応化手段403と同様の処理を実現するキーワー
ドスポッティング結果と音節タイプライタ型音声認識の
結果に基づく教師なし話者適応化手順とから構成された
話者適応化プログラムを記録した記録媒体を用意する必
要がある。
【0098】次に動作について説明する。音節タイプラ
イタ型音声認識手段401は、キーワードスポッティン
グ手段101からの出力であるキーワードの区間を入力
してキーワード区間以外の区間を抽出する。キーワード
が1つ抽出された場合ではキーワードの始端と終端を
tws、tweとすればキーワード以外の区間はフレーム時刻
ts〜tws-1とtwe+1〜teとなる。音節をラベルに変換し
対応する標準パタンを連結して音節標準パタンを生成
し、キーワード以外の区間を対象に音節タイプライタ型
音声認識手段401によって全ての音節を組み合わせて
最も照合スコアが高い系列を認識結果として出力する。
【0099】キーワードスポッティング結果と音節タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段403は、キーワードのラベル系列と音節タイプラ
イタ型音声認識の結果のラベル系列を標準パタンのパラ
メータ更新の学習ラベルとしてパラメータの更新を行
う。このときパラメータの更新は例えば実施の形態1で
述べた話者適応方式を用いる。
【0100】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図9はこの発明の実施の形態4による教師な
し話者適応化方法を示すフローチャートである。
【0101】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST41、ST42)。
【0102】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの認識ユ
ニットのラベル表記にしたがって標準パタンを連結しキ
ーワード標準パタンを生成し(ST43)、キーワード
スポッティングを行いキーワードとキーワードの区間を
出力する(ST44)。
【0103】音節タイプライタ型音声認識手段401
は、音節の認識ユニットのラベル系列に対応する標準パ
タンを連結して音節標準パタンを作成し、キーワード区
間以外の区間に対して全ての音節の組み合わせにおいて
最も照合スコアが高い組合わせを認識結果とする(ST
45)。
【0104】キーワードスポッティング結果と音節タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段403は、キーワード区間はキーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系
列、キーワード区間以外は音節タイプライタ型音声認識
の結果の認識ユニットのラベル系列を学習ラベルとし、
音声特徴量を用いて教師なし話者適応を行い、標準パタ
ンの更新を行って話者適応標準パタンを出力する(ST
46)。
【0105】以上に述べたように、実施の形態4によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき、またキーワード区
間以外は音節タイプライタ型音声認識結果をラベルとし
て標準パタンのパラメータ更新に用いる教師なし話者適
応化であるので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンのパラメータの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。
【0106】実施の形態5.図10はこの発明の実施の
形態5による教師なし話者適応化装置を示す構成図であ
る。図10において実施の形態2の説明図である図4と
同一の機能ブロックは同一の記号を付し説明を省略す
る。本発明の特徴的な部分は、標準パタンが隠れマルコ
フモデル(Hidden Markov Model、以下HMMとする)で
構成され、音韻タイプライタ型音声認識手段が、HMM
状態全接続型音声認識手段501であることである。
【0107】図10において、HMM状態全接続型音声
認識手段501は、キーワードスポッティング手段10
1からの出力であるキーワードの区間を入力し、キーワ
ード区間以外の区間の音声特徴量を用い、全てのHMM
の状態を組み合わせて最も照合スコア高い状態系列を出
力とする。
【0108】キーワードスポッティング結果とHMM状
態全接続型音声認識の結果に基づく教師なし話者適応化
手段503は、キーワードスポッティング結果とHMM
状態全接続型音声認識の結果とHMMで構成した標準パ
タン1005と音声特徴量抽出手段1002から出力で
ある音声特徴量を入力して教師なし話者適応を行い教師
なし話者適応標準パタン1008を出力する。
【0109】なお、図10の話者適応化装置をソフトウ
ェアのみで構成する場合、音声特徴量抽出手段1002
と同様の処理を実現する音声特徴量抽出手順と、キーワ
ードスポッティング手段101と同様の処理を実現する
キーワードスポッティング手順と、HMM状態全接続型
音声認識手段501と同等の処理を実現するHMM状態
全接続型音声認識手順と、キーワードスポッティング結
果とHMM状態全接続型音声認識の結果に基づく教師な
し話者適応化手段503と同様の処理を実現するキーワ
ードスポッティング結果とHMM状態全接続型音声認識
の結果に基づく教師なし話者適応化手順とから構成され
た話者適応化プログラムを記録した記録媒体を用意する
必要がある。
【0110】次に動作について説明する。HMM状態全
接続型音声認識手段501は、キーワードスポッティン
グ手段からの出力であるキーワードの区間を入力してキ
ーワード区間以外の区間を抽出する。キーワードが1つ
抽出された場合ではキーワードの始端と終端をtws、twe
とすればキーワード以外の区間はフレーム時刻 ts〜tws
-1とtwe+1〜teとなる。標準パタン1004に存在する
HMMの状態全てを用い、キーワード区間以外の区間を
対象にHMM状態全接続型音声認識手段501によって
全てのHMMの状態を組み合わせて最も照合スコアが高
い状態系列を認識結果として出力する。
【0111】キーワードスポッティング結果とHMM状
態全接続型音声認識の結果に基づく教師なし話者適応化
手段503は、キーワードのラベル系列から得られるH
MMの状態系列とHMM状態全接続型音声認識の結果の
HMM状態系列を標準パタンのパラメータ更新時に用い
る、学習データに対応したHMM状態系列としてパラメ
ータの更新を行う。このときパラメータの更新は例えば
実施の形態1で述べた話者適応方式を用いる。
【0112】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図11はこの発明の実施の形態5による教師
なし話者適応化方法を示すフローチャートである。
【0113】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST51、ST52)。
【0114】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの認識ユ
ニットのラベル表記にしたがって標準パタンを連結しキ
ーワード標準パタンを生成し(ST53)、キーワード
スポッティングを行いキーワードとキーワードの区間を
出力する(ST54)。
【0115】HMM状態全接続型音声認識手段501
は、標準パタン1004内のHMMの状態全てを用い、
キーワード区間以外の区間に対して全ての状態の組み合
わせにおいて最も照合スコアが高い組合わせを認識結果
とする(ST55)。
【0116】キーワードスポッティング結果とHMM全
接続型音声認識の結果に基づく教師なし話者適応化手段
503は、キーワード区間はキーワードスポッティング
結果であるキーワードの認識ユニットのラベル系列から
得られるHMMの状態系列、キーワード区間以外はHM
M状態全接続型音声認識の結果のHMMの状態系列を学
習時に用いる、学習データに対応したHMM状態系列と
し、音声特徴量を用いて教師なし話者適応を行い、標準
パタンの更新を行って話者適応標準パタンを出力する
(ST56)。
【0117】以上に述べたように、実施の形態5によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルを、またキーワード区間以外
はHMM状態全接続型音声認識結果を状態系列を標準パ
タンのパラメータ更新に用いる教師なし話者適応化であ
るので、未登録単語を含む音声や発声変形の大きな音声
であることによる話者適応用認識結果の誤りによる標準
パタンのパラメータの誤った推定を防ぎ、更新された話
者適応標準パタンによる音声認識率が向上する効果を奏
する。
【0118】実施の形態6.本実施の形態の構成は、実
施の形態1の図1と同様である。本発明の特徴的な部分
については、キーワードスポッティング手段101は、
複数の候補のキーワードを出力し、キーワードスポッテ
ィング結果に基づく教師なし話者適応化手段103は、
複数の候補のキーワードについて各々教師なし話者適応
標準パタンを作成し、複数の教師なし話者適応標準パタ
ンを合成して1つの教師なし話者適応標準パタンを出力
することである。
【0119】なお、本実施の形態の話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段1
002と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段101と同様の処理を実
現するキーワードスポッティング手順と、キーワードス
ポッティング結果に基づく教師なし話者適応化手段10
3と同様の処理を実現するキーワードスポッティング結
果に基づく教師なし話者適応化手順とから構成された話
者適応化プログラムを記録した記録媒体を用意する必要
がある。
【0120】次に動作について説明する。キーワードス
ポッティング手段101は、認識辞書1004で予め設
定されているキーワードの抽出を行うが、照合スコアが
高い順に複数の候補のキーワード[KW(rkw(1)), KW(r
kw(2)), ..., KW(rkw(N))](rkw(n)はn番目に抽出され
たキーワード番号、Nは抽出されたキーワード総数)と
それぞれの区間[(tws(1),twe(1)), (tws(2),twe(2)),
..., (tws(N),twe(N))]を出力する。複数のキーワード
は区間が重なっている場合でも良い。
【0121】キーワードスポッティング結果に基づく教
師なし話者適応化手段103は、N個のそれぞれについ
てキーワードのラベル系列を学習ラベルとしてキーワー
ド区間の音声データを学習データとして教師なし話者適
応化を行い、N個の教師なし話者適応標準パタン[Λ
a(1), Λa(2), ..., Λa(N)]を作成する。そして、この
N個の教師なし話者適応化標準パタンを合成して1つの
教師なし話者適応化標準パタンとして出力する。このと
きパラメータの合成方法は線形なものでも非線形なもの
でも良い。例えば標準パタンが連続混合分布型HMMで
ある場合は、数式3によってガウス分布の平均ベクトル
と分散を計算する。数式3においてμq a、Cq aはそれぞ
れガウス分布qの平均ベクトルおよび共分散行列であ
る。μ’q a(n)、C’q a(n)はn番目のキーワードに基づ
いて教師なし話者適応を行って得た平均ベクトルと共分
散行列である。α(n)はn番目の教師なし話者適応標準
パタンに対する重み係数であり、照合スコアが高いほど
大きい係数である。
【0122】
【数3】
【0123】以上の説明においては、キーワード区間を
用いた教師なし話者適応を説明したが、キーワード区間
以外に対して実施の形態2〜5のように音韻タイプライ
タ等によって認識結果を抽出した候補によって教師なし
話者適応を行っても実現可能である。
【0124】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図12はこの発明の実施の形態6による教師
なし話者適応化方法を示すフローチャートである。
【0125】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST61、ST62)。
【0126】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン805を連結しキーワード標準パタン
を生成し(ST63)、キーワードスポッティングを行
い複数のキーワード抽出し、それぞれのキーワードの区
間を出力する(ST64)。
【0127】キーワードスポッティング結果に基づく教
師なし話者適応化手段103は、複数のキーワードの候
補の区間の音声を学習データとし、キーワードのラベル
を学習ラベルとして複数のキーワードそれぞれについて
教師なし話者適応化を行い複数の話者適応標準パタンを
出力する(ST65)。さらに複数の教師なし話者適応
標準パタンのパラメータを合成して1つの教師なし話者
適応標準パタンを出力する(ST66)。
【0128】以上に述べたように、実施の形態6によれ
ば、複数のキーワードを抽出し、抽出されたキーワード
を用いて複数の教師なし話者適応標準パタンを生成し、
さらに複数の教師なし話者適応標準パタンのパラメータ
を合成することで1つの教師なし話者適応標準パタンを
得る教師なし話者適応化であるので、未登録単語を含む
音声や発声変形の大きな音声であることによる話者適応
用認識結果の誤りによる標準パタンのパラメータの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。
【0129】実施の形態7.本実施の形態の構成は、実
施の形態1の図1と同様である。本発明の特徴的な部分
については、キーワードスポッティング手段101は、
複数の候補のキーワードを出力し、キーワードスポッテ
ィング結果に基づく教師なし話者適応化手段103は、
複数のキーワードの候補毎に学習データのパラメータ更
新への寄与度を定めて教師なし話者適応化を行い、教師
なし話者適応標準パタンを出力することである。
【0130】なお、本実施の形態の話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段1
002と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段101と同様の処理を実
現するキーワードスポッティング手順と、キーワードス
ポッティング結果に基づく教師なし話者適応化手段10
3と同様の処理を実現するキーワードスポッティング結
果に基づく教師なし話者適応化手順とから構成された話
者適応化プログラムを記録した記録媒体を用意する必要
がある。
【0131】次に動作について説明する。キーワードス
ポッティング手段101は、認識辞書1004で予め設
定されているキーワードの抽出を行うが、照合スコアが
高い順に複数の候補のキーワード[KW(rkw(1)), KW(r
kw(2)), ..., KW(rkw(N))](rkw(n)はn番目に抽出され
たキーワード番号、Nは抽出されたキーワード総数)と
それぞれの区間[(tws(1),twe(1)), (tws(2),twe(2)),
..., (tws(N),twe(N))]を出力する。複数のキーワード
は区間が重なっている場合でも良い。
【0132】キーワードスポッティング結果に基づく教
師なし話者適応化手段103は、N個のキーワードにつ
いて、適応学習時のパラメータ更新の寄与度を計算す
る。寄与度は、例えば照合スコアによってフレーム毎に
決定する。N個のキーワードの照合スコアが[S1, S2,
..., SN]であるとすれば、n番目のキーワードが抽出さ
れた区間tws(n)〜twe(n)に対するフレームの寄与度g
n(t)を数式4によって計算する。
【0133】数式4においてΩtは時刻tにおいて候補が
存在するキーワード番号の集合である。このようにして
計算した寄与度を例えば標準パタンが連続混合分布型H
MMである場合は、ガウス分布の平均ベクトルμa qと共
分散行列Ca qは数式5によってパラメータの更新を行
う。以上はキーワード区間を用いた教師なし話者適応を
説明したが、キーワード区間以外に対して実施の形態2
乃至5のように音韻タイプライタ等によって認識結果を
抽出した候補によって教師なし話者適応を行っても良
い。
【0134】
【数4】
【0135】
【数5】
【0136】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図13はこの発明の実施の形態7による教師
なし話者適応化方法を示すフローチャートである。
【0137】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST71、ST72)。
【0138】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン1005を連結しキーワード標準パタ
ンを生成し(ST73)、キーワードスポッティングを
行い複数のキーワード抽出し、それぞれのキーワードの
区間を出力する(ST74)。
【0139】キーワードスポッティン結果に基づく教師
なし話者適応化手段103では、複数のキーワードの候
補の区間の音声を学習データとし、キーワードのラベル
を学習ラベルとして、パラメータの更新時にキーワード
の候補毎に学習データのパラメータ更新への寄与度を定
め、教師なし話者適応化を行い話者適応標準パタンを出
力する(ST75)。
【0140】以上に述べたように、実施の形態7によれ
ば、複数のキーワードを抽出し、抽出された複数のキー
ワードの候補毎に学習データのパラメータ更新への寄与
度を定めて教師なし話者適応化を行うので、未登録単語
を含む音声や発声変形の大きな音声であることによる話
者適応用認識結果の誤りによる標準パタンのパラメータ
の誤った推定を防ぎ、更新された話者適応標準パタンに
よる音声認識率が向上する効果を奏する。
【0141】実施の形態8.図14はこの発明の実施の
形態8による教師なし話者適応化装置を示す構成図であ
る。図14において実施の形態1の説明図である図1と
同一の機能ブロックは同一の記号を付し説明を省略す
る。本発明の特徴的な部分は、先行する発声によって更
新した教師なし話者適応標準パタン1008を標準パタ
ン1005へ代入し、引き続く発声に対して教師なし話
者適応化を行うことを特徴としたことである。
【0142】次に図14を参照して動作について説明す
る。キーワードスポッティング結果に基づく教師なし話
者適応化手段103は、使用話者の最初の発声 [ot1, o
t1+1, ..., ot1+T1-1] (T1は最初の発声のフレーム
数)を用いて標準パタン1005のパラメータを更新し
て教師なし話者適応標準パタン1008を出力する。こ
こで、この最初の発声によって得られた教師なし話者適
応標準パタンをΛa (1)とする。次にΛa (1)を標準パタン
1005とし、使用話者の2番目の発声 [ot2, o t2+1,
..., ot2+T2-1] (T2は最初の発声のフレーム数)を用
いてキーワードスポッティング結果に基づく教師なし話
者適応化処理によって更に標準パタン1005を更新し
て教師なし話者適応標準パタンΛa (2)を計算する。この
ようにj番目の発声を用いた教師なし話者適応の更新前
の標準パタンとして (j-1)番目の発声までに逐次的に更
新したΛa (j-1)を用いる。
【0143】なお、図14の話者適応化装置をソフトウ
ェアのみで構成する場合、音声特徴量抽出手段1002
と同様の処理を実現する音声特徴量抽出手順と、キーワ
ードスポッティング手段101と同様の処理を実現する
キーワードスポッティング手順と、キーワードスポッテ
ィング結果に基づく教師なし話者適応化手段103と同
様の処理を実現するキーワードスポッティング結果に基
づく教師なし話者適応化手順とから構成された話者適応
化プログラムを記録した記録媒体を用意する必要があ
る。
【0144】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図15はこの発明の実施の形態8による教師
なし話者適応化方法を示すフローチャートである。
【0145】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST81、ST82)。
【0146】キーワードスポッティング手段101は、
認識辞書1004に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン1005を連結しキーワード標準パタ
ンを生成し(ST83)、キーワードスポッティングを
行いキーワードとキーワードの区間を出力する(ST8
4)。
【0147】キーワードスポッティング結果に基づく教
師なし話者適応化手段103は、キーワードスポッティ
ング結果であるキーワードの認識ユニットラベル系列と
キーワード区間の音声特徴量と標準パタンを用いて教師
なし話者適応化を行い教師なし話者適応標準パタンを出
力する(ST85)。
【0148】現時点での教師なし話者適応標準パタンの
計算に用いた発声に続く発声がないならば終了し、次に
続く発声があるならば現時点での教師なし話者適応標準
パタンを標準パタンに代入し(ST86、ST87)て
ST81へ戻り、次の発声を用いて同様の処理を繰り返
す。
【0149】以上に述べたように、実施の形態8によれ
ば、先行する発声によって更新した教師なし話者適応標
準パタンを標準パタンへ代入し、引き続く発声に対して
教師なし話者適応化を行うので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンのパラメータの誤った推
定を防ぎ、更新された話者適応標準パタンによる音声認
識率が向上する効果を奏する。
【0150】実施の形態9.図18はこの発明の実施の
形態9による音声認識装置を示す構成図である。図18
において図1等に示す教師なし話者適応化装置と同一の
機能ブロックには同一の記号を付し説明を省略する。本
発明の特徴的な部分は上記実施の形態1乃至8の教師な
し話者適応化装置により更新された教師なし話者適応標
準パタン1008を使用して音声認識を行うことであ
る。
【0151】なお、図18の音声認識装置をソフトウェ
アのみで構成する場合、音声特徴量抽出手段1002と
同様の処理を実現する音声特徴量抽出手順と、照合手段
1003と同様の処理を実現する照合手順とから構成さ
れた音声認識プログラムを記録した記録媒体を用意する
必要がある。
【0152】次に動作について説明する。認識辞書10
04によって設定した認識対象の単語[W(1),W(2), ...,
W(wn)] の発音表記から認識ユニットラベルへ変換し、
このラベルにしたがって教師なし話者適応標準パタンを
連結し、認識対象単語の標準パタン[λa W(1), λ
a W(2) ,..., λa W(wn)]を作成する。この認識対象単語
の標準パタンを用いて、音声特徴量抽出手段1002か
らの出力である音声特徴量に対して照合を行い、音声認
識結果1101を出力する。このとき、入力音声100
1は教師なし話者適応化に用いた発声と同一でも、それ
以外の発声でも良い。
【0153】音声認識結果1101は、入力音声100
1に対して認識対象単語標準パタンを用い、最も照合ス
コアの高い単語系列 [W(r(1)), W(r(2)), ..., W(r
(m))] を出力する。ここで、r(i)は音声認識結果の単語
系列のi番目の単語の単語番号を示す。またmは認識単語
系列の単語数を示す。また照合手段1003によって説
明したがキーワードスポッティング手段で構成しても良
い。ここでは標準パタンと音声特徴量との照合スコアで
単語系列を抽出する方法を述べたが、さらに単語出現確
率や単語と単語が接続する確率を考慮した照合スコアと
しても良い。
【0154】次に本装置を使用して音声認識を行う過程
を具体的に説明する。図16はこの発明の実施の形態9
による音声認識方法を示すフローチャートである。
【0155】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
(ST91、ST92)。
【0156】照合手段1003は、認識辞書1004に
格納されている単語の発音表記から変換した単語の認識
ユニットのラベル表記にしたがって教師なし話者適応標
準パタンを連結して単語標準パタンを生成し(ST9
3)、照合を行い音声認識結果出力する(ST94)。
【0157】以上に述べたように、実施の形態9によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき教師なし話者適応化
を行って得られた教師なし話者適応標準パタンを用いて
音声認識を行うので、未登録単語を含む音声や発声変形
の大きな音声であることによる話者適応用認識結果の誤
りによる標準パタンのパラメータの誤った推定を防ぎ、
更新された話者適応標準パタンによる音声認識率が向上
する効果を奏する。
【0158】
【発明の効果】この発明の請求項1に係る教師なし話者
適応化装置においては、適応学習データとして未知の発
話内容の音声を使用する教師なし話者適応化装置であっ
て、音声認識に用いる標準パタンを任意の話者に適応す
る話者適応標準パタンに更新する教師なし話者適応化装
置において、話者の入力音声から音声特徴量を抽出する
音声特徴量抽出手段と、音声特徴量抽出手段が抽出した
音声特徴量と標準パタンとを照合することによりキーワ
ード及びキーワードの区間を認識して抽出し出力するキ
ーワードスポッティング手段と、標準パタン、キーワー
ドスポッティング手段が抽出したキーワード、及びキー
ワードとして抽出された区間の音声特徴量に基づいて、
標準パタンを話者適応標準パタンへ更新する教師なし話
者適応化手段とを備えている。そのため、キーワードス
ポッティング手段の結果に基づきキーワード区間のみを
標準パタンの更新に用いるので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンの誤った推定を防ぎ、更
新された話者適応標準パタンによる音声認識率が向上す
る効果を奏する。
【0159】また、この発明の請求項2に係る教師なし
話者適応化装置においては、適応学習データとして未知
の発話内容の音声を使用する教師なし話者適応化装置で
あって、音声認識に用いる標準パタンを任意の話者に適
応する話者適応標準パタンに更新する教師なし話者適応
化装置において、話者の入力音声から音声特徴量を抽出
する音声特徴量抽出手段と、音声特徴量抽出手段が抽出
した音声特徴量と標準パタンとを照合することによりキ
ーワード及びキーワードの区間を認識して抽出し出力す
るキーワードスポッティング手段と、キーワードの区間
以外の区間については、全ての音声単位を組み合わせて
最も照合スコアが高い系列を認識結果として出力する音
韻タイプライタ型音声認識手段と、標準パタン、キーワ
ードスポッティング手段が抽出したキーワード、キーワ
ードとして抽出された区間の音声特徴量、及び音韻タイ
プライタ型音声認識手段の認識結果に基づいて、標準パ
タンを話者適応標準パタンへ更新する教師なし話者適応
化手段とを備えている。そのため、キーワード区間はキ
ーワードスポッティングの結果に基づいて、一方、キー
ワード区間以外は音韻タイプライタ型音声認識結果に基
づいて、標準パタンの更新をするので、未登録単語を含
む音声や発声変形の大きな音声であることによる話者適
応用認識結果の誤りによる標準パタンの誤った推定を防
ぎ、更新された話者適応標準パタンによる音声認識率が
向上する効果を奏する。
【0160】また、この発明の請求項3に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音素である。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音素タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。
【0161】また、この発明の請求項4に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音節である。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音節タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。
【0162】また、この発明の請求項5に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、隠れマルコフモデルの1状態であ
る。そのため、キーワード区間はキーワードスポッティ
ングの結果に基づき、一方、キーワード区間以外は隠れ
マルコフモデル状態全接続型音声認識結果に基づいて、
標準パタンの更新をするので、未登録単語を含む音声や
発声変形の大きな音声であることによる話者適応用認識
結果の誤りによる標準パタンの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。
【0163】また、この発明の請求項6に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々話者適応標準パ
タンを作成し、これらの話者適応標準パタンを合成して
1つの話者適応標準パタンを出力する。複数のキーワー
ドを抽出し、抽出されたキーワードを用いて複数の教師
なし話者適応標準パタンを生成し、さらに複数の教師な
し話者適応標準パタンを合成することで1つの教師なし
話者適応標準パタンを得るので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンの誤った推定を防ぎ、更
新された話者適応標準パタンによる音声認識率が向上す
る効果を奏する。
【0164】また、この発明の請求項7に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々のキーワード区
間の音声特徴量に対して標準パタンの更新時の寄与度を
表す係数を計算し、係数に基づいて話者適応標準パタン
を出力する。そのため、複数のキーワードを抽出し、抽
出された複数のキーワードの候補毎に学習データの更新
への寄与度を定めて教師なし話者適応化を行うので、未
登録単語を含む音声や発声変形の大きな音声であること
による話者適応用認識結果の誤りによる標準パタンの誤
った推定を防ぎ、更新された話者適応標準パタンによる
音声認識率が向上する効果を奏する。
【0165】また、この発明の請求項8に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、入力音声により話者適応標準パタンを更新する際、
以前の入力音声により更新された話者適応標準パタンを
標準パタンとして使用する。先行する発声によって更新
した教師なし話者適応標準パタンを標準パタンへ代入
し、引き続く発声に対して教師なし話者適応化を行うの
で、未登録単語を含む音声や発声変形の大きな音声であ
ることによる話者適応用認識結果の誤りによる標準パタ
ンの誤った推定を防ぎ、更新された話者適応標準パタン
による音声認識率が向上する効果を奏する。
【0166】また、この発明の請求項9に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、標準パタンのパラメータを変更することにより、話
者適応標準パタンに更新する。そのため、標準パタンの
パラメータを適応学習して、話者適応標準パタンに更新
こととなり、データの構成が容易となる。
【0167】また、この発明の請求項10に係る音声認
識装置においては、請求項1乃至9のいずれかに記載の
教師なし話者適応化装置によって更新された話者適応標
準パタンと、話者の入力音声から特徴量を抽出する音声
特徴量抽出手段と、音声特徴量抽出手段が抽出した音声
特徴量と話者適応標準パタンとを照合して認識結果を出
力する照合手段とを備えている。そのため、キーワード
区間はキーワードスポッティングの結果に基づき、教師
なし話者適応化を行って得られた教師なし話者適応標準
パタンを用いて音声認識を行うので、未登録単語を含む
音声や発声変形の大きな音声であることによる話者適応
用認識結果の誤りによる標準パタンの誤った推定を防
ぎ、更新された話者適応標準パタンによる音声認識率が
向上する効果を奏する。
【0168】また、この発明の請求項11に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、標準パタン、キーワードスポッ
ティングして抽出されたキーワード、及びキーワードと
して抽出された区間の音声特徴量に基づいて、標準パタ
ンを話者適応標準パタンへ更新する教師なし話者適応化
を行う。そのため、キーワードスポッティングの結果に
基づきキーワード区間のみを標準パタンの更新に用いる
ので、未登録単語を含む音声や発声変形の大きな音声で
あることによる話者適応用認識結果の誤りによる標準パ
タンの誤った推定を防ぎ、更新された話者適応標準パタ
ンによる音声認識率が向上する効果を奏する。
【0169】また、この発明の請求項12に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、キーワード区間以外の音声区間
については、全ての音声単位を組み合わせて最も照合ス
コアが高い系列を認識結果として出力する音韻タイプラ
イタを用いて認識し、標準パタン、キーワードスポッテ
ィングして抽出されたキーワード、キーワードとして抽
出された区間の音声特徴量、音韻タイプライタの認識結
果に基づいて、標準パタンを話者適応標準パタンへ更新
する教師なし話者適応化を行う。そのため、キーワード
区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音韻タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。
【0170】また、この発明の請求項13に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音素である。そのため、キーワ
ード区間はキーワードスポッティングの結果に基づき、
一方、キーワード区間以外は音素タイプライタ型音声認
識結果に基づいて、標準パタンの更新をするので、未登
録単語を含む音声や発声変形の大きな音声であることに
よる話者適応用認識結果の誤りによる標準パタンの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。
【0171】また、この発明の請求項14に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音節である。そのため、キーワ
ード区間はキーワードスポッティングの結果に基づき、
一方、キーワード区間以外は音節タイプライタ型音声認
識結果に基づいて、標準パタンの更新をするので、未登
録単語を含む音声や発声変形の大きな音声であることに
よる話者適応用認識結果の誤りによる標準パタンの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。
【0172】また、この発明の請求項15に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、隠れマルコフモデルの1状態で
ある。そのため、キーワード区間はキーワードスポッテ
ィングの結果に基づき、キーワード区間はキーワードに
基づき、一方、キーワード区間以外は隠れマルコフモデ
ル状態全接続型音声認識結果に基づいて、標準パタンの
更新をするので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンの誤った推定を防ぎ、更新された話者適
応標準パタンによる音声認識率が向上する効果を奏す
る。
【0173】また、この発明の請求項16に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々教師なし
話者適応化によって複数の話者適応標準パタンを出力
し、これらの話者適応標準パタンを合成して1つの話者
適応標準パタンを出力する。複数のキーワードを抽出
し、抽出されたキーワードを用いて複数の教師なし話者
適応標準パタンを生成し、さらに複数の教師なし話者適
応標準パタンを合成することで1つの教師なし話者適応
標準パタンを得るので、未登録単語を含む音声や発声変
形の大きな音声であることによる話者適応用認識結果の
誤りによる標準パタンの誤った推定を防ぎ、更新された
話者適応標準パタンによる音声認識率が向上する効果を
奏する。
【0174】また、この発明の請求項17に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々のキーワ
ード区間の音声特徴量に対して標準パタンの更新時の寄
与度を表す係数を計算し、係数に基づいてパラメータ更
新を行う。そのため、複数のキーワードを抽出し、抽出
された複数のキーワードの候補毎に学習データの更新へ
の寄与度を定めて教師なし話者適応化を行うので、未登
録単語を含む音声や発声変形の大きな音声であることに
よる話者適応用認識結果の誤りによる標準パタンの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。
【0175】また、この発明の請求項18に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
入力音声により話者適応標準パタンを更新する際、以前
の入力音声により更新された話者適応標準パタンを標準
パタンとして使用する。先行する発声によって更新した
教師なし話者適応標準パタンを標準パタンへ代入し、引
き続く発声に対して教師なし話者適応化を行うので、未
登録単語を含む音声や発声変形の大きな音声であること
による話者適応用認識結果の誤りによる標準パタンの誤
った推定を防ぎ、更新された話者適応標準パタンによる
音声認識率が向上する効果を奏する。
【0176】また、この発明の請求項19に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
標準パタンのパラメータを変更することにより、話者適
応標準パタンに更新する。そのため、標準パタンのパラ
メータを適応学習して、話者適応標準パタンに更新こと
となり、データの構成が容易となる。
【0177】また、この発明の請求項20に係る音声認
識方法においては、請求項11乃至19のいずれかに記
載の話者適応化方法によって更新された話者適応標準パ
タンと、抽出された音声特徴量とを照合して認識結果を
出力する。そのため、キーワード区間はキーワードスポ
ッティングの結果に基づき、教師なし話者適応化を行っ
て得られた教師なし話者適応標準パタンを用いて音声認
識を行うので、未登録単語を含む音声や発声変形の大き
な音声であることによる話者適応用認識結果の誤りによ
る標準パタンの誤った推定を防ぎ、更新された話者適応
標準パタンによる音声認識率が向上する効果を奏する。
【0178】また、この発明の請求項21に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、及びキーワードとして抽出された区間の音声特徴量
に基づいて、標準パタンを話者適応標準パタンへ更新す
る教師なし話者適応化手順とを備えている。そのため、
キーワードスポッティング手順の結果に基づきキーワー
ド区間のみを標準パタンの更新に用いるので、未登録単
語を含む音声や発声変形の大きな音声であることによる
話者適応用認識結果の誤りによる標準パタンの誤った推
定を防ぎ、更新された話者適応標準パタンによる音声認
識率が向上する効果を奏する。
【0179】また、この発明の請求項22に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、キーワード
区間以外の音声区間については、全ての音声単位を組み
合わせて最も照合スコアが高い系列を認識結果として出
力する音韻タイプライタ型音声認識手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、キーワードとして抽出された区間の音声特徴量、及
び音韻タイプライタ型音声認識手順の認識結果に基づい
て、標準パタンを話者適応標準パタンへ更新する教師な
し話者適応化手順とを備えている。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音韻タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。
【0180】また、この発明の請求項23に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
素である。そのため、キーワード区間はキーワードスポ
ッティングの結果に基づき、一方、キーワード区間以外
は音素タイプライタ型音声認識結果に基づいて、標準パ
タンの更新をするので、未登録単語を含む音声や発声変
形の大きな音声であることによる話者適応用認識結果の
誤りによる標準パタンの誤った推定を防ぎ、更新された
話者適応標準パタンによる音声認識率が向上する効果を
奏する。
【0181】また、この発明の請求項24に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
節である。そのため、キーワード区間はキーワードスポ
ッティングの結果に基づき、一方、キーワード区間以外
は音節タイプライタ型音声認識結果に基づいて、標準パ
タンの更新をするので、未登録単語を含む音声や発声変
形の大きな音声であることによる話者適応用認識結果の
誤りによる標準パタンの誤った推定を防ぎ、更新された
話者適応標準パタンによる音声認識率が向上する効果を
奏する。
【0182】また、この発明の請求項25に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、隠
れマルコフモデルの1状態である。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は隠れマルコフモデル状態全接
続型音声認識結果に基づいて、標準パタンの更新をする
ので、未登録単語を含む音声や発声変形の大きな音声で
あることによる話者適応用認識結果の誤りによる標準パ
タンの誤った推定を防ぎ、更新された話者適応標準パタ
ンによる音声認識率が向上する効果を奏する。
【0183】また、この発明の請求項26に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々話者適応標準パタンを作成し、これらの
話者適応標準パタンを合成して1つの話者適応標準パタ
ンを出力する。複数のキーワードを抽出し、抽出された
キーワードを用いて複数の教師なし話者適応標準パタン
を生成し、さらに複数の教師なし話者適応標準パタンを
合成することで1つの教師なし話者適応標準パタンを得
るので、未登録単語を含む音声や発声変形の大きな音声
であることによる話者適応用認識結果の誤りによる標準
パタンの誤った推定を防ぎ、更新された話者適応標準パ
タンによる音声認識率が向上する効果を奏する。
【0184】また、この発明の請求項27に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々のキーワード区間の音声特徴量に対して
標準パタンの更新時の寄与度を表す係数を計算し、係数
に基づいて話者適応標準パタンを出力する。そのため、
複数のキーワードを抽出し、抽出された複数のキーワー
ドの候補毎に学習データの更新への寄与度を定めて教師
なし話者適応化を行うので、未登録単語を含む音声や発
声変形の大きな音声であることによる話者適応用認識結
果の誤りによる標準パタンの誤った推定を防ぎ、更新さ
れた話者適応標準パタンによる音声認識率が向上する効
果を奏する。
【0185】また、この発明の請求項28に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、入力音声により話者適
応標準パタンを更新する際、以前の入力音声により更新
された話者適応標準パタンを標準パタンとして使用す
る。先行する発声によって更新した教師なし話者適応標
準パタンを標準パタンへ代入し、引き続く発声に対して
教師なし話者適応化を行うので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンの誤った推定を防ぎ、更
新された話者適応標準パタンによる音声認識率が向上す
る効果を奏する。
【0186】また、この発明の請求項29に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、標準パタンのパラメー
タを変更することにより、話者適応標準パタンに更新す
る。そのため、標準パタンのパラメータを適応学習し
て、話者適応標準パタンに更新こととなり、データの構
成が容易となる。
【0187】また、この発明の請求項30に係る音声認
識プログラムを記録した記録媒体においては、請求項2
1乃至29のいずれかに記載の教師なし話者適応化プロ
グラムによって更新された話者適応標準パタンと話者の
入力音声とから特徴量を抽出する音声特徴量抽出手順
と、音声特徴量抽出手順が抽出した音声特徴量と話者適
応標準パタンとを照合して認識結果を出力する照合手順
とを備えている。そのため、キーワード区間はキーワー
ドスポッティングの結果に基づき、教師なし話者適応化
を行って得られた教師なし話者適応標準パタンを用いて
音声認識を行うので、未登録単語を含む音声や発声変形
の大きな音声であることによる話者適応用認識結果の誤
りによる標準パタンの誤った推定を防ぎ、更新された話
者適応標準パタンによる音声認識率が向上する効果を奏
する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による教師なし話者
適応化装置を示す構成図である。
【図2】 キーワードスポッティングの概念図である。
【図3】 この発明の実施の形態1による教師なし話者
適応化方法を示すフローチャートである。
【図4】 この発明の実施の形態2による教師なし話者
適応化装置を示す構成図である。
【図5】 この発明の実施の形態2による教師なし話者
適応化方法を示すフローチャートである。
【図6】 この発明の実施の形態3による教師なし話者
適応化装置を示す構成図である。
【図7】 この発明の実施の形態3による教師なし話者
適応化方法を示すフローチャートである。
【図8】 この発明の実施の形態4による教師なし話者
適応化装置を示す構成図である。
【図9】 この発明の実施の形態4による教師なし話者
適応化方法を示すフローチャートである。
【図10】 この発明の実施の形態5による教師なし話
者適応化装置を示す構成図である。
【図11】 この発明の実施の形態5による教師なし話
者適応化方法を示すフローチャートである。
【図12】 この発明の実施の形態6による教師なし話
者適応化方法を示すフローチャートである。
【図13】 この発明の実施の形態7による教師なし話
者適応化方法を示すフローチャートである。
【図14】 この発明の実施の形態8による教師なし話
者適応化装置を示す構成図である。
【図15】 この発明の実施の形態8による教師なし話
者適応化方法を示すフローチャートである。
【図16】 この発明の実施の形態9による音声認識方
法を示すフローチャートである。
【図17】 従来の教師なし話者適応化装置を示す構成
図である。
【図18】 教師なし話者適応化装置を用いた音声認識
装置を示す構成図である。
【符号の説明】
101 キーワードスポッティング手段、103 キー
ワードスポッティング結果に基づく教師なし話者適応化
手段(教師なし話者適応化手段)、203 キーワード
スポッティング結果と音韻タイプライタ型音声認識の結
果に基づく教師なし話者適応化手段(教師なし話者適応
化手段)、303 キーワードスポッティング結果と音
素タイプライタ型音声認識の結果に基づく教師なし話者
適応化手段(教師なし話者適応化手段)、403 キー
ワードスポッティング結果と音節タイプライタ型音声認
識の結果に基づく教師なし話者適応化手段(教師なし話
者適応化手段)、503 キーワードスポッティング結
果とHMM全接続型音声認識の結果に基づく教師なし話
者適応化手段(教師なし話者適応化手段)、201音韻
タイプライタ型音声認識手段、301 音素タイプライ
タ型音声認識手段(音韻タイプライタ型音声認識手
段)、401 音節タイプライタ型音声認識手段(音韻
タイプライタ型音声認識手段)、501 HMM状態全
接続型音声認識手段(音韻タイプライタ型音声認識手
段)、1002 音声特徴量抽出手段、1003 照合
手段、1005 標準パタン、1008 教師なし話者
適応標準パタン(教師なし話者適応標準パタン)。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 535C 551B

Claims (30)

    【特許請求の範囲】
  1. 【請求項1】 適応学習データとして未知の発話内容の
    音声を使用する教師なし話者適応化装置であって、音声
    認識に用いる標準パタンを任意の話者に適応する話者適
    応標準パタンに更新する教師なし話者適応化装置におい
    て、 話者の入力音声から音声特徴量を抽出する音声特徴量抽
    出手段と、 前記音声特徴量抽出手段が抽出した音声特徴量と前記標
    準パタンとを照合することによりキーワード及び該キー
    ワードの区間を認識して抽出し出力するキーワードスポ
    ッティング手段と、 前記標準パタン、前記キーワードスポッティング手段が
    抽出したキーワード、及び該キーワードとして抽出され
    た区間の音声特徴量に基づいて、前記標準パタンを前記
    話者適応標準パタンへ更新する教師なし話者適応化手段
    とを備えたことを特徴とする教師なし話者適応化装置。
  2. 【請求項2】 適応学習データとして未知の発話内容の
    音声を使用する教師なし話者適応化装置であって、音声
    認識に用いる標準パタンを任意の話者に適応する話者適
    応標準パタンに更新する教師なし話者適応化装置におい
    て、 話者の入力音声から音声特徴量を抽出する音声特徴量抽
    出手段と、 前記音声特徴量抽出手段が抽出した音声特徴量と前記標
    準パタンとを照合することによりキーワード及び該キー
    ワードの区間を認識して抽出し出力するキーワードスポ
    ッティング手段と、 前記キーワードの区間以外の区間については、全ての音
    声単位を組み合わせて最も照合スコアが高い系列を認識
    結果として出力する音韻タイプライタ型音声認識手段
    と、 前記標準パタン、前記キーワードスポッティング手段が
    抽出したキーワード、該キーワードとして抽出された区
    間の音声特徴量、及び前記音韻タイプライタ型音声認識
    手段の認識結果に基づいて、前記標準パタンを前記話者
    適応標準パタンへ更新する教師なし話者適応化手段とを
    備えたことを特徴とする教師なし話者適応化装置。
  3. 【請求項3】 前記音韻タイプライタ型音声認識手段の
    音声単位は、音素であることを特徴とする請求項2記載
    の教師なし話者適応化装置。
  4. 【請求項4】 前記音韻タイプライタ型音声認識手段の
    音声単位は、音節であることを特徴とする請求項2記載
    の教師なし話者適応化装置。
  5. 【請求項5】 前記音韻タイプライタ型音声認識手段の
    音声単位は、隠れマルコフモデルの1状態であることを
    特徴とする請求項2記載の教師なし話者適応化装置。
  6. 【請求項6】 前記キーワードスポッティング手段は、
    複数の認識結果の候補を出力し、 前記教師なし話者適応化手段は、前記複数の候補につい
    て各々話者適応標準パタンを作成し、これらの話者適応
    標準パタンを合成して1つの話者適応標準パタンを出力
    することを特徴とする請求項1または2に記載の教師な
    し話者適応化装置。
  7. 【請求項7】 前記キーワードスポッティング手段は、
    複数の認識結果の候補を出力し、 前記教師なし話者適応化手段は、前記複数の候補につい
    て各々のキーワード区間の音声特徴量に対して標準パタ
    ンの更新時の寄与度を表す係数を計算し、該係数に基づ
    いて話者適応標準パタンを出力することを特徴とする請
    求項1または2に記載の教師なし話者適応化装置。
  8. 【請求項8】 前記教師なし話者適応化手段は、入力音
    声により話者適応標準パタンを更新する際、以前の入力
    音声により更新された話者適応標準パタンを標準パタン
    として使用することを特徴とする請求項1乃至7のいず
    れか記載の教師なし話者適応化装置。
  9. 【請求項9】 前記教師なし話者適応化手段は、標準パ
    タンのパラメータを更新することにより、話者適応標準
    パタンに更新することを特徴とする請求項1乃至8のい
    ずれか記載の教師なし話者適応化装置。
  10. 【請求項10】 請求項1乃至9のいずれかに記載の教
    師なし話者適応化装置によって更新された話者適応標準
    パタンと、 話者の入力音声から特徴量を抽出する音声特徴量抽出手
    段と、 前記音声特徴量抽出手段が抽出した音声特徴量と前記話
    者適応標準パタンとを照合して認識結果を出力する照合
    手段とを備えたことを特徴とする音声認識装置。
  11. 【請求項11】 適応学習データとして未知の発話内容
    の音声を使用する教師なし話者適応化方法であって、音
    声認識に用いる標準パタンを任意の話者に適応する話者
    適応標準パタンに更新する教師なし話者適応化方法にお
    いて、 話者の入力音声から音声特徴量を抽出し、 前記音声特徴量と前記標準パタンとからキーワードスポ
    ッティングして認識結果としてキーワードと該キーワー
    ドの区間を抽出して出力し、 前記標準パタン、前記キーワードスポッティングして抽
    出されたキーワード、及び該キーワードとして抽出され
    た区間の音声特徴量に基づいて、前記標準パタンを前記
    話者適応標準パタンへ更新する教師なし話者適応化を行
    うことを特徴とする教師なし話者適応化方法。
  12. 【請求項12】 適応学習データとして未知の発話内容
    の音声を使用する教師なし話者適応化方法であって、音
    声認識に用いる標準パタンを任意の話者に適応する話者
    適応標準パタンに更新する教師なし話者適応化方法にお
    いて、 話者の入力音声から音声特徴量を抽出し、 前記音声特徴量と前記標準パタンとからキーワードスポ
    ッティングして認識結果としてキーワードと該キーワー
    ドの区間を抽出して出力し、 前記キーワード区間以外の音声区間については、全ての
    音声単位を組み合わせて最も照合スコアが高い系列を認
    識結果として出力する音韻タイプライタを用いて認識
    し、 前記標準パタン、前記キーワードスポッティングして抽
    出されたキーワード、該キーワードとして抽出された区
    間の音声特徴量、前記音韻タイプライタの認識結果に基
    づいて、前記標準パタンを前記話者適応標準パタンへ更
    新する教師なし話者適応化を行うことを特徴とする教師
    なし話者適応化方法。
  13. 【請求項13】 前記音韻タイプライタによる音声認識
    の音声単位は、音素であることを特徴とする請求項12
    記載の教師なし話者適応化方法。
  14. 【請求項14】 前記音韻タイプライタによる音声認識
    の音声単位は、音節であることを特徴とする請求項12
    記載の教師なし話者適応化方法。
  15. 【請求項15】 前記音韻タイプライタによる音声認識
    の音声単位は、隠れマルコフモデルの1状態であること
    を特徴とする請求項12記載の教師なし話者適応化方
    法。
  16. 【請求項16】 キーワードスポッティングによって複
    数の認識結果の候補を出力し、 複数のキーワードスポッティング結果の候補について各
    々教師なし話者適応化によって複数の話者適応標準パタ
    ンを出力し、これらの話者適応標準パタンを合成して1
    つの話者適応標準パタンを出力することを特徴とする請
    求項11または12に記載の教師なし話者適応化方法。
  17. 【請求項17】 キーワードスポッティングによって複
    数の認識結果の候補を出力し、 複数のキーワードスポッティング結果の候補について各
    々のキーワード区間の音声特徴量に対して標準パタンの
    更新時の寄与度を表す係数を計算し、該係数に基づいて
    パラメータ更新を行うことを特徴とする請求項11また
    は12に記載の教師なし話者適応化方法。
  18. 【請求項18】 前記教師なし話者適応化は、入力音声
    により話者適応標準パタンを更新する際、以前の入力音
    声により更新された話者適応標準パタンを標準パタンと
    して使用することを特徴とする請求項11乃至17のい
    ずれかに記載の教師なし話者適応化方法。
  19. 【請求項19】 前記教師なし話者適応化は、標準パタ
    ンのパラメータを更新することにより、話者適応標準パ
    タンに更新することを特徴とする請求項11乃至18の
    いずれかに記載の教師なし話者適応化方法。
  20. 【請求項20】 請求項11乃至19のいずれかに記載
    の話者適応化方法によって更新された話者適応標準パタ
    ンと、前記抽出された音声特徴量とを照合して認識結果
    を出力することを特徴とする音声認識方法。
  21. 【請求項21】 適応学習データとして未知の発話内容
    の音声を使用する教師なし話者適応化プログラムであっ
    て、音声認識に用いる標準パタンを任意の話者に適応す
    る話者適応標準パタンに更新する教師なし話者適応化プ
    ログラムを記録した記録媒体において、 話者の入力音声から音声特徴量を抽出する音声特徴量抽
    出手順と、 前記音声特徴量抽出手順が抽出した音声特徴量と前記標
    準パタンとを照合することによりキーワードと該キーワ
    ードの区間を認識して抽出し出力するキーワードスポッ
    ティング手順と、 前記標準パタン、前記キーワードスポッティング手順が
    抽出したキーワード、及び該キーワードとして抽出され
    た区間の音声特徴量に基づいて、前記標準パタンを前記
    話者適応標準パタンへ更新する教師なし話者適応化手順
    とを備えたことを特徴とする教師なし話者適応化プログ
    ラムを記録した記録媒体。
  22. 【請求項22】 適応学習データとして未知の発話内容
    の音声を使用する教師なし話者適応化プログラムであっ
    て、音声認識に用いる標準パタンを任意の話者に適応す
    る話者適応標準パタンに更新する教師なし話者適応化プ
    ログラムを記録した記録媒体において、 話者の入力音声から音声特徴量を抽出する音声特徴量抽
    出手順と、 前記音声特徴量抽出手順が抽出した音声特徴量と前記標
    準パタンとを照合することによりキーワードと該キーワ
    ードの区間を認識して抽出し出力するキーワードスポッ
    ティング手順と、 前記キーワード区間以外の音声区間については、全ての
    音声単位を組み合わせて最も照合スコアが高い系列を認
    識結果として出力する音韻タイプライタ型音声認識手順
    と、 前記標準パタン、前記キーワードスポッティング手順が
    抽出したキーワード、該キーワードとして抽出された区
    間の音声特徴量、及び前記音韻タイプライタ型音声認識
    手順の認識結果に基づいて、前記標準パタンを前記話者
    適応標準パタンへ更新する教師なし話者適応化手順とを
    備えたことを特徴とする教師なし話者適応化プログラム
    を記録した記録媒体。
  23. 【請求項23】 前記音韻タイプライタ型音声認識手順
    の音声単位は、音素であることを特徴とする請求項22
    記載の教師なし話者適応化プログラムを記録した記録媒
    体。
  24. 【請求項24】 前記音韻タイプライタ型音声認識手順
    の音声単位は、音節であることを特徴とする請求項22
    記載の教師なし話者適応化プログラムを記録した記録媒
    体。
  25. 【請求項25】 前記音韻タイプライタ型音声認識手順
    の音声単位は、隠れマルコフモデルの1状態であること
    を特徴とした請求項22記載の教師なし話者適応化プロ
    グラムを記録した記録媒体。
  26. 【請求項26】 前記キーワードスポッティング手順
    は、複数の認識結果の候補を出力し、 前記教師なし話者適応化手順は、前記複数の候補につい
    て各々話者適応標準パタンを作成し、これらの話者適応
    標準パタンを合成して1つの話者適応標準パタンを出力
    することを特徴とする請求項21または22に記載の教
    師なし話者適応化プログラムを記録した記録媒体。
  27. 【請求項27】 前記キーワードスポッティング手順
    は、複数の認識結果の候補を出力し、 前記教師なし話者適応化手順は、前記複数の候補につい
    て各々のキーワード区間の音声特徴量に対して標準パタ
    ンの更新時の寄与度を表す係数を計算し、該係数に基づ
    いて話者適応標準パタンを出力することを特徴とする請
    求項21または22に記載の教師なし話者適応化プログ
    ラムを記録した記録媒体。
  28. 【請求項28】 前記教師なし話者適応化手順は、入力
    音声により話者適応標準パタンを更新する際、以前の入
    力音声により更新された話者適応標準パタンを標準パタ
    ンとして使用することを特徴とする請求項21乃至27
    のいずれか記載の教師なし話者適応化プログラムを記録
    した記録媒体。
  29. 【請求項29】 前記教師なし話者適応化手順は、標準
    パタンのパラメータを更新することにより、話者適応標
    準パタンに更新することを特徴とする請求項21乃至2
    8のいずれか記載の教師なし話者適応化プログラムを記
    録した記録媒体。
  30. 【請求項30】 請求項21乃至29のいずれかに記載
    の教師なし話者適応化プログラムによって更新された話
    者適応標準パタンと話者の入力音声とから特徴量を抽出
    する音声特徴量抽出手順と、 前記音声特徴量抽出手順が抽出した音声特徴量と前記話
    者適応標準パタンとを照合して認識結果を出力する照合
    手順とを備えたことを特徴とする音声認識プログラムを
    記録した記録媒体。
JP25160399A 1999-09-06 1999-09-06 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体 Expired - Fee Related JP3946912B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25160399A JP3946912B2 (ja) 1999-09-06 1999-09-06 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25160399A JP3946912B2 (ja) 1999-09-06 1999-09-06 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001075588A true JP2001075588A (ja) 2001-03-23
JP3946912B2 JP3946912B2 (ja) 2007-07-18

Family

ID=17225289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25160399A Expired - Fee Related JP3946912B2 (ja) 1999-09-06 1999-09-06 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3946912B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム

Also Published As

Publication number Publication date
JP3946912B2 (ja) 2007-07-18

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2733955B2 (ja) 適応型音声認識装置
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US20050159949A1 (en) Automatic speech recognition learning using user corrections
US20040236577A1 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH07152394A (ja) 結合されたストリングモデルの最小誤認率訓練
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
Hasegawa-Johnson et al. Simultaneous recognition of words and prosody in the Boston University Radio Speech Corpus
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
Kubala et al. Comparative experiments on large vocabulary speech recognition
Sawant et al. Isolated spoken Marathi words recognition using HMM
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
BenZeghiba et al. User-customized password speaker verification using multiple reference and background models
Lee et al. Cantonese syllable recognition using neural networks
Hwang et al. Building a highly accurate Mandarin speech recognizer
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP3946912B2 (ja) 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体
Liu et al. Pronunciation modeling for spontaneous Mandarin speech recognition
JPH08123470A (ja) 音声認識装置
JP2000122689A (ja) 話者適応化装置及び音声認識装置
JPH0823758B2 (ja) 話者適応形音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070412

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100420

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140420

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees