JP2001075588A

JP2001075588A - 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体

Info

Publication number: JP2001075588A
Application number: JP25160399A
Authority: JP
Inventors: Jun Ishii; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-09-06
Filing date: 1999-09-06
Publication date: 2001-03-23
Anticipated expiration: 2019-09-06
Also published as: JP3946912B2

Abstract

(57)【要約】【課題】未登録単語を含む発声や発声変形が大きい場
合においても標準パタンのパラメータ誤推定を防ぎ、認
識率が向上する教師なし話者適応化装置を得る。【解決手段】話者の入力音声から音声特徴量を抽出す
る音声特徴量抽出手段１００２と、音声特徴量抽出手段
１００２が抽出した音声特徴量と認識辞書１００４に格
納されているキーワードに基づいて標準パタン１００５
を連結して得られるキーワード標準パタンとを照合する
ことによりキーワード及びキーワードの区間を認識して
抽出し出力するキーワードスポッティング手段１０１
と、標準パタン１００５、キーワードスポッティング手
段が抽出したキーワード、及びキーワードとして抽出さ
れた区間の音声特徴量に基づいて、標準パタン１００５
を話者適応標準パタン１００８へ更新する教師なし話者
適応化手段とを備えている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識を行う標
準パタンを、ある話者に適応した話者適応標準パタンに
更新する教師なし話者適応化装置、教師なし話者適応化
方法及び教師なし話者適応化プログラムを記録した記録
媒体と、更新された話者適応標準パタンを用いた音声認
識を実施する音声認識装置、音声認識方法及び音声認識
プログラムを記録した記録媒体に関するものである。

【０００２】

【従来の技術】音声認識のアプリケーションを想定した
場合、事前の話者音声の登録を必要としない不特定話者
音声認識システムの要望が高く、隠れマルコフモデル(H
iddenMarkov Model、以下ＨＭＭとする)、ニューラルネ
ット (Neural Network、以下ＮＮとする) を用いた音声
認識方式によっての実用化検討が行われている。ＨＭ
Ｍ、ＮＮの詳細は、例えば「音声認識の基礎(上、下)」
L.RABINER、B.H.JUANG、古井監訳、1995年、11月、NTT
アドバンステクノロジ (以下文献1とする)、「確率モデ
ルによる音声認識」中川聖一、(社)電子情報通信学会
(以下文献2とする)、「音声情報処理」古井貞煕、森北
出版(株)(以下文献3とする)に記されている。これらの
方法は、予め多数の話者からの単語、文などの音声デー
タを用いた標準パタンの学習によって不特定話者標準パ
タンを作成するものである。

【０００３】しかしながら、ＨＭＭやＮＮによる不特定
話者音声認識システムは、特定話者に限定した場合、そ
の特定話者からの単語、文などの音声データによって標
準パタンを学習した特定話者音声認識システムと比較し
て、単語誤り率で2〜3倍程度であるのが現状である。そ
こで不特定話者音声認識システムの向上を図るため、話
者適応化技術の研究が最近盛んに行われている。

【０００４】話者適応化技術は、特定話者の少量の音声
データ (以下適応データとする) を用いて、音声認識シ
ステムを使用する前や使用中に、不特定話者音声認識シ
ステムの標準パタンのパラメータを適応学習して認識率
の向上を図るものである。話者適応化方式については、
「音声認識における話者適応」松本弘、日本音響学会
平成7年春季研究発表会講演論文集、pp.27-30、1995年3
月(以下文献4とする)に詳しい。

【０００５】話者適応化法としては、適応学習データの
発話の内容に、既知の音声を用いるか、あるいは任意の
未知の発話内容の音声を使用するかにより「教師あり/
教師なし」の２つの方法がある（一部が発生内容既知で
も教師なし）。

【０００６】教師あり話者適応方式は、適応データを用
いた適応学習後の認識精度は高いが、音声認識装置の使
用者が使用前に予め決められた単語や文章を発声しなけ
ればならず、使用者の負担が大きい。

【０００７】一方、教師なし話者適応方式は、音声認識
装置の使用中に使用者が適応学習を意識することなく認
識率の改善を得ようとする方法である。実際の音声認識
のアプリケーションでは、教師なし話者適応の確立が望
まれている。

【０００８】従来の教師なし話者適応化としては、例え
ば「Speaker Adaptation of Continuous Density ＨＭ
Ｍs Using Multivariate Linear Regression」 C. J. L
eggetter and P. C. Woodland, Proc. of ICSLP94、pp.
451-454、1994年 (以下文献5とする) で報告されている
認識結果を発声内容として話者適応を行う方法がある。
これは入力音声に対して不特定話者用の標準パタンを用
いて照合を行い、照合を行った結果として得られる認識
結果を発声内容であるとして、不特定話者用標準パタン
を連結し、入力音声を適応データとして標準パタンのパ
ラメータを更新方法である。

【０００９】以下に従来例として文献５に記述されてい
る認識結果を発声内容とする教師なし話者適応化装置を
図１７のブロック図を参照して説明する。図１７におい
て、入力音声１００１は、認識装置の使用話者が発声し
た単語や文章の音声である。ここでの１発声はポーズか
らポーズの間の単語や文節、及び文章として説明を行
う。

【００１０】音声特徴量分析手段１００２は、入力音声
１００１の音声信号をＡ／Ｄ変換し、Ａ／Ｄ変換された
信号を５ミリ秒〜２０ミリ秒程度の一定時間間隔のフレ
ームで切り出し、音響分析を行って音声特徴量を抽出す
る。ここで音声特徴量とは、少い情報量で音声の特徴を
表現できるものであり、例えばケプストラム、ケプスト
ラムの動的特徴の物理量で構成する特徴量ベクトルであ
る。

【００１１】照合手段１００３は、認識辞書１００４に
よって設定している認識対象の単語[W(1), W(2), ...,
W(wn)]（括弧内は単語番号、wnは認識対象単語数)の発
音表記から認識ユニットのラベル表記へ変換し、ラベル
に対応した標準パタン１００５を連結することで認識対
象単語の標準パタン[λ_W(1),λ_W(2), ...,λ_W(wn)]を作
成する。そして音声特徴量抽出手段１００２からの出力
である入力音声の音声特徴量の時系列 [o₁, o₂, ...
o_T]（Tは１発声の総フレーム数）に対して照合を行い、
教師なし話者適応化用音声認識結果１００６を出力す
る。

【００１２】教師なし話者適応化用音声認識結果１００
６は発声に対して最も照合スコア（尤度とも言う）が高
い単語番号系列 Rn'=[r'(1), r'(2),..., r'(m')] を計
算し、単語番号に対応した単語Rw'=[W(r'(1)), W(r'
(2)) ,..., W(r'(m'))]を出力する。ここで、r'(i)は教
師なし話者適応化用音声認識結果１００６の単語列中の
i番目の単語の認識辞書１００４における単語番号を示
す。また、m'は話者適応用音声認識結果１００６の単
語数を示す。

【００１３】標準パタン１００５は、予め用意した標準
パタンであり、文献５では認識ユニットを前後音素環境
（コンテキスト）依存の音素としたＨＭＭを用いてお
り、多数の話者の音声データでパラメータ学習を行った
標準パタンを初期の標準パタンとして使用している。Ｈ
ＭＭは、状態単位で以下の情報をパラメータとして有す
ることで複数の認識ユニットの標準パタンを形成する。

【００１４】(a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率確率及び後続状態への遷移確率

【００１５】認識辞書１００４は、予め定めた認識対象
とする単語や文章をかな漢字表記と発音表記（または音
素表記）とを対にしたテキスト表記を格納している。照
合手段１００３は、この発音表記から認識ユニットラベ
ルへの変換を行って、このラベル系列にしたがって標準
パタン１００５から対応する認識ユニット標準パタンを
連結して認識対象単語の標準パタンを生成する。例えば
認識辞書にかな漢字表記で「青（あお）」が存在するな
らば、これは音素系列で表した場合は/ao/となる。離散
発声の「青（あお）」の認識に用いる標準パタンは、中
心音素が/a/であり、先行音素が無音、後続音素が/o/で
ある認識ユニットのＨＭＭ λ_-aoと、中心音素が/o/で
あり、先行音素が/a/、後続音素が無音の認識ユニット
のＨＭＭλ_ao-を連結したＨＭＭによって照合を行う。
最近ではこのような前後音素環境依存の音素ＨＭＭを用
いて、認識対象語彙が６０,０００単語以上の音声認識
システムの検討が行われている。

【００１６】教師なし話者適応化手段１００７は、照合
手段１００３の出力である教師なし話者適応化用音声認
識結果１００６と標準パタン１００５を入力し、教師な
し話者適応用音声認識結果１００６の認識ユニットのラ
ベル系列に基づき、標準パタン１００５のＨＭＭを連結
し、音声特徴量抽出手段１００２からの出力である音声
特徴量の時系列を適応データとして標準パタンのパラメ
ータを更新し、教師なし話者適応標準パタン１００８を
出力する。

【００１７】文献５では、数式１で示される重回帰写像
モデルに基づき、ＨＭＭのパラメータの一つであるガウ
ス分布の平均ベクトルを線形変換することで教師なし話
者適応標準パタン１００８を計算する。数式１において
μ_q、μ^a _qは更新前後のガウス分布番号qの平均ベクトル
であり、次元数はdであり音声特徴量ベクトルの次元数
と同じである。Aはd×dの変換行列であり、bはd次元の
定数項ベクトルである。変換行列Aと定数項ベクトルbは
数式２によってAのp行目[a_p,1, a_p,2, ..., a_p _,d]、bの
p次元目b(p)を算出する。数式２において、f_r,s ^(p) はF
のr行s列の要素、Ψは更新を行うガウス分布番号の集
合、γ_i(t)は時刻tにガウス分布iに特徴ベクトルo_tが存
在する期待値、μ_i(r)はガウス分布iの平均ベクトルのr
次元目の要素、σ² _i(p)はガウス分布iの共分散行列のp
行p列目の要素、o_t(p)は特徴ベクトルo_tのp次元目の要
素、Tは適応学習データの総フレーム数、（＊）^Tは転置
行列である。

【００１８】

【数１】

【００１９】

【数２】

【００２０】教師なし話者適応標準パタン１００８は、
教師なし話者適応化手段１００７からの出力であり、こ
の標準パタンを用いて音声認識を行う。

【００２１】次に教師なし話者適応化装置を用いた音声
認識装置の説明を行う。図１８は教師なし話者適応化装
置を用いた音声認識装置のブロック図である。図１８に
関して図１７と同一の機能ブロックは同一の符号を付
し、説明を省略する。認識辞書１００４によって設定し
た認識対象の単語 [W(1), W(2), ..., W(wn)] の発音表
記を認識ユニットラベル表記に変換し、このラベルにし
たがって教師なし話者適応標準パタン１００８を連結
し、認識対象単語の標準パタン[λ^a _W(1),λ^a _W(2),...,
λ^a _W(wn)]を作成する。この話者適応化された認識対象
単語の標準パタンを用いて、音声特徴量分析手段１００
２の出力である音声特徴量に対して照合を行い、音声認
識結果１１０１を出力する。このとき、入力音声１００
１は教師なし適応用に用いた発声と同一でも、それ以外
の発声でも良い。

【００２２】音声認識結果１１０１は、入力音声に対し
て認識対象語彙で最も照合スコアが高い単語の単語番号
系列 Rn = [r(1), r(2), ..., r(m)] を計算し、単語番
号に対応する単語 Rw=[W(r(1)), W(r(2)), ..., W(r
(m))] を出力する。ここで r(i)は音声認識結果の単語
系列のi番目の単語の認識辞書単語番号を示す。また、
mは認識単語系列の単語数を示す。

【００２３】

【発明が解決しようとする課題】従来の教師なし話者適
応化装置は、照合を行って得られた話者適応用認識結果
を発声内容であるとして標準パタンのパラメータの更新
を行うが、認識辞書に登録されていない未登録単語を含
む発声では未登録語の部分は認識辞書に存在する何れか
の単語が認識結果となり、パラメータの誤った更新が行
われ、教師なし話者適応後の認識率が低下することが問
題であった。また、認識辞書に存在する単語の発声であ
っても発声変形が大きい場合は認識結果が誤り、パラメ
ータの誤った更新が行われ、教師なし話者適応後の認識
率が低下することが問題であった。

【００２４】本発明の目的は以上の問題点を解決し、従
来の認識結果を用いる教師なし話者適応方式において、
未登録単語を含む発声や発声変形が大きい場合において
も標準パタンのパラメータ誤推定を防ぎ、認識率が向上
する教師なし話者適応化装置を提供することにある。

【００２５】

【課題を解決するための手段】この発明の請求項１に係
る教師なし話者適応化装置においては、適応学習データ
として未知の発話内容の音声を使用する教師なし話者適
応化装置であって、音声認識に用いる標準パタンを任意
の話者に適応する話者適応標準パタンに更新する教師な
し話者適応化装置において、話者の入力音声から音声特
徴量を抽出する音声特徴量抽出手段と、音声特徴量抽出
手段が抽出した音声特徴量と標準パタンとを照合するこ
とによりキーワード及びキーワードの区間を認識して抽
出し出力するキーワードスポッティング手段と、標準パ
タン、キーワードスポッティング手段が抽出したキーワ
ード、及びキーワードとして抽出された区間の音声特徴
量に基づいて、標準パタンを話者適応標準パタンへ更新
する教師なし話者適応化手段とを備えている。

【００２６】また、この発明の請求項２に係る教師なし
話者適応化装置においては、適応学習データとして未知
の発話内容の音声を使用する教師なし話者適応化装置で
あって、音声認識に用いる標準パタンを任意の話者に適
応する話者適応標準パタンに更新する教師なし話者適応
化装置において、話者の入力音声から音声特徴量を抽出
する音声特徴量抽出手段と、音声特徴量抽出手段が抽出
した音声特徴量と標準パタンとを照合することによりキ
ーワード及びキーワードの区間を認識して抽出し出力す
るキーワードスポッティング手段と、キーワードの区間
以外の区間については、全ての音声単位を組み合わせて
最も照合スコアが高い系列を認識結果として出力する音
韻タイプライタ型音声認識手段と、標準パタン、キーワ
ードスポッティング手段が抽出したキーワード、キーワ
ードとして抽出された区間の音声特徴量、及び音韻タイ
プライタ型音声認識手段の認識結果に基づいて、標準パ
タンを話者適応標準パタンへ更新する教師なし話者適応
化手段とを備えている。

【００２７】また、この発明の請求項３に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音素である。

【００２８】また、この発明の請求項４に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音節である。

【００２９】また、この発明の請求項５に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、隠れマルコフモデルの１状態であ
る。

【００３０】また、この発明の請求項６に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々話者適応標準パ
タンを作成し、これらの話者適応標準パタンを合成して
１つの話者適応標準パタンを出力する。

【００３１】また、この発明の請求項７に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々のキーワード区
間の音声特徴量に対して標準パタンの更新時の寄与度を
表す係数を計算し、係数に基づいて話者適応標準パタン
を出力する。

【００３２】また、この発明の請求項８に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、入力音声により話者適応標準パタンを更新する際、
以前の入力音声により更新された話者適応標準パタンを
標準パタンとして使用する。

【００３３】また、この発明の請求項９に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、標準パタンのパラメータを変更することにより、話
者適応標準パタンに更新する。

【００３４】また、この発明の請求項１０に係る音声認
識装置においては、請求項１乃至９のいずれかに記載の
教師なし話者適応化装置によって更新された話者適応標
準パタンと、話者の入力音声から特徴量を抽出する音声
特徴量抽出手段と、音声特徴量抽出手段が抽出した音声
特徴量と話者適応標準パタンとを照合して認識結果を出
力する照合手段とを備えている。

【００３５】また、この発明の請求項１１に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、標準パタン、キーワードスポッ
ティングして抽出されたキーワード、及びキーワードと
して抽出された区間の音声特徴量に基づいて、標準パタ
ンを話者適応標準パタンへ更新する教師なし話者適応化
を行う。

【００３６】また、この発明の請求項１２に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、キーワード区間以外の音声区間
については、全ての音声単位を組み合わせて最も照合ス
コアが高い系列を認識結果として出力する音韻タイプラ
イタを用いて認識し、標準パタン、キーワードスポッテ
ィングして抽出されたキーワード、キーワードとして抽
出された区間の音声特徴量、音韻タイプライタの認識結
果に基づいて、標準パタンを話者適応標準パタンへ更新
する教師なし話者適応化を行う。

【００３７】また、この発明の請求項１３に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音素である。

【００３８】また、この発明の請求項１４に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音節である。

【００３９】また、この発明の請求項１５に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、隠れマルコフモデルの１状態で
ある。

【００４０】また、この発明の請求項１６に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々教師なし
話者適応化によって複数の話者適応標準パタンを出力
し、これらの話者適応標準パタンを合成して１つの話者
適応標準パタンを出力する。

【００４１】また、この発明の請求項１７に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々のキーワ
ード区間の音声特徴量に対して標準パタンの更新時の寄
与度を表す係数を計算し、係数に基づいてパラメータ更
新を行う。

【００４２】また、この発明の請求項１８に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
入力音声により話者適応標準パタンを更新する際、以前
の入力音声により更新された話者適応標準パタンを標準
パタンとして使用する。

【００４３】また、この発明の請求項１９に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
標準パタンのパラメータを変更することにより、話者適
応標準パタンに更新する。

【００４４】また、この発明の請求項２０に係る音声認
識方法においては、請求項１１乃至１９のいずれかに記
載の話者適応化方法によって更新された話者適応標準パ
タンと、抽出された音声特徴量とを照合して認識結果を
出力する。

【００４５】また、この発明の請求項２１に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、及びキーワードとして抽出された区間の音声特徴量
に基づいて、標準パタンを話者適応標準パタンへ更新す
る教師なし話者適応化手順とを備えている。

【００４６】また、この発明の請求項２２に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、キーワード
区間以外の音声区間については、全ての音声単位を組み
合わせて最も照合スコアが高い系列を認識結果として出
力する音韻タイプライタ型音声認識手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、キーワードとして抽出された区間の音声特徴量、及
び音韻タイプライタ型音声認識手順の認識結果に基づい
て、標準パタンを話者適応標準パタンへ更新する教師な
し話者適応化手順とを備えている。

【００４７】また、この発明の請求項２３に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
素である。

【００４８】また、この発明の請求項２４に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
節である。

【００４９】また、この発明の請求項２５に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、隠
れマルコフモデルの１状態である。

【００５０】また、この発明の請求項２６に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々話者適応標準パタンを作成し、これらの
話者適応標準パタンを合成して１つの話者適応標準パタ
ンを出力する。

【００５１】また、この発明の請求項２７に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々のキーワード区間の音声特徴量に対して
標準パタンの更新時の寄与度を表す係数を計算し、係数
に基づいて話者適応標準パタンを出力する。

【００５２】また、この発明の請求項２８に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、入力音声により話者適
応標準パタンを更新する際、以前の入力音声により更新
された話者適応標準パタンを標準パタンとして使用す
る。

【００５３】また、この発明の請求項２９に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、標準パタンのパラメー
タを変更することにより、話者適応標準パタンに更新す
る。

【００５４】また、この発明の請求項３０に係る音声認
識プログラムを記録した記録媒体においては、請求項２
１乃至２９のいずれかに記載の教師なし話者適応化プロ
グラムによって更新された話者適応標準パタンと話者の
入力音声とから特徴量を抽出する音声特徴量抽出手順
と、音声特徴量抽出手順が抽出した音声特徴量と話者適
応標準パタンとを照合して認識結果を出力する照合手順
とを備えている。

【００５５】

【発明の実施の形態】実施の形態１．図１はこの発明の
実施の形態１による教師なし話者適応化装置を示す構成
図である。図１において従来技術の説明図である図１７
と同一の機能ブロックは同一の記号を付し説明を省略す
る。従来技術と異る本発明の特徴的な部分は、キーワー
ドスポッティング手段１０１とキーワードスポッティン
グ結果に基づく教師なし話者適応化手段１０３を備えた
ことである。

【００５６】図１においてキーワードスポッティング手
段１０１は、音声特徴量抽出手段１００２の出力である
音声特徴量と、認識辞書１００４と標準パタン１００５
を入力して生成したキーワードの単語標準パタンとを照
合して教師なし話者適応化用キーワードスポッティング
結果１０２を出力する。キーワードスポッティング結果
に基づく教師なし話者適応化手段１０３は、キーワード
スポッティング手段１０１からの出力である教師なし話
者適応化用キーワードスポッティング結果１０２と音声
特徴量抽出手段１００２からの出力である音声特徴量
と、標準パタン１００５とを入力して標準パタン１００
５のパラメータの更新を行い教師なし話者適応標準パタ
ン１００８を出力する。

【００５７】なお、図１の教師なし話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段１
００２と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段１０１と同様の処理を実
現するキーワードスポッティング手順と、キーワードス
ポッティング結果に基づく教師なし話者適応化手段１０
３と同様の処理を実現するキーワードスポッティング結
果による教師なし話者適応化手順とから構成された教師
なし話者適応化プログラムを記録した記録媒体を用意す
る必要がある。

【００５８】次に動作について説明する。キーワードス
ポッティング手段１０１は、認識辞書１００４で予め設
定されている１種類以上のキーワード [KW(1), KW(2),
...,KW(kwn)] (括弧内はキーワード番号、kwnは総キー
ワード数) の発音表記から認識ユニットのラベル表記へ
変換して、ラベルに対応した標準パタン１００５を連結
してキーワード標準パタン[λ_KW(1), λ_KW(2) ,..., λ
_KW(kwn)] を生成する。ここでキーワードとは、例えば
キーワードを都市名とした場合はKW(1)が[東京：tookyo
o]、KW(2)が[大阪:oosaka]、KW(3)が[横浜:yokohama]、
KW(4)が[名古屋:nagoya]等と設定されている。

【００５９】次にキーワード標準パタンと音声特徴量抽
出手段１００２からの出力である音声特徴量を照合して
キーワードとキーワードの区間を認識結果として出力す
る。最も簡単なキーワードスポッティング方法は、認識
対象としている発声の開始フレームt_sから終了フレーム
t_eの発声中の可能な全ての始端と終端の組み合わせの区
間において照合を行って、照合スコアのローカルピーク
が、ある閾値を越えた場合にキーワードが存在したとし
てキーワードとキーワードの区間を出力するものである
（文献２の3.4.2章）。

【００６０】図２はキーワードスポッティングの概念図
である。図２の例では連続発声した「切符を横浜まで一
枚」から予めキーワードとして定めた[横浜:yokohama]
を抽出した様子である。ここで「切符を」、「まで一
枚」は未登録語と仮定している。キーワードの区間はt
_ws〜t_weであり、キーワード区間以外のt_s〜t_ws-1、t_we+
1〜t_eについては結果を出力しない。このようにキーワ
ードスポッティングを行うことで発声内に未登録単語が
あった場合や発声変形が大きい場合はその区間は無視
し、キーワードのみを認識結果として出力するので認識
誤りは少なくなる。

【００６１】キーワードスポッティング結果に基づく教
師なし話者適応化手段１０３は、キーワードスポッティ
ング手段１０１によって抽出されたキーワードの認識ユ
ニットのラベル系列を学習ラベルとし、キーワードの区
間t_ws〜t_weの音声特徴量を適応学習用データとして用い
て標準パタン１００５のパラメータを更新する。パラメ
ータの更新には例えば、(1)個人差に関する構造的なモ
デルを導入する方法である写像方式 (以下写像法とす
る)、(2)モデルパラメータの統計的推定法(以下統計的
推定法とする)、(3)話者依存の標準パタンを基本とする
方法(以下標準パタン選択法とする)を用いる。

【００６２】（１）の写像法は、初期の標準パタンと使
用話者標準パタンに対して写像の関係を少量の学習デー
タによって計算するものである。例えば重回帰写像モデ
ルによって変換係数を求め、この変換係数によって特定
話者の標準パタンを学習する方法があり、代表的な文献
として前述の文献５がある。

【００６３】（２）の統計的推定法は、新たに得られて
いる学習データから標準パタンを推定する場合に事前に
得られている初期標準パタンから知識を利用する方法で
あり、例えば「A Study on Speaker Adaptation of the
Parameters of ContinuousDensityHidden Markov Mode
ls」 C.H.Lee, C.H.Lin, B.H.Juang, IEEE TRANSACTION
ONSIGNAL PEOCESSING, Vol. 39, No. 4, 1991年 (以下
文献６とする)で報告されている。

【００６４】（３）の標準パタン選択法は予め複数の特
定話者標準パタンを用意しておき、認識時に使用話者の
音声データに基づいて特定話者標準パタンを選択し、選
択された標準パタンによって音声認識を行う方法であ
り、「話者適応のための木構造話者クラスタリング」小
坂、松永、嵯峨山、電子情報通信学会技術研究報告, SP
93-110, 1993年12月 (以下文献７とする)によって報告
されている。

【００６５】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図３はこの発明の実施の形態１による教師な
し話者適応化方法を示すフローチャートである。

【００６６】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ１１、ＳＴ１２）。

【００６７】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン１００５を連結しキーワード標準パタ
ンを生成し（ＳＴ１３）、キーワードスポッティングを
行いキーワードとキーワードの区間を出力する（ＳＴ１
４）。

【００６８】キーワードスポッティング結果に基づく教
師なし話者適応化手段１０３は、キーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系列
とキーワード区間の音声特徴量と標準パタンを用いて教
師なし話者適応化を行い教師なし話者適応標準パタンを
出力する（ＳＴ１５）。

【００６９】以上に述べたように、実施の形態１によれ
ば、キーワードスポッティング結果に基づきキーワード
区間のみを標準パタンのパラメータ更新に用いる教師な
し話者適応化であるので、未登録単語を含む音声や発声
変形の大きな音声であることによる話者適応用認識結果
の誤りによる標準パタンのパラメータの誤った推定を防
ぎ、更新された話者適応標準パタンによる音声認識率が
向上する効果を奏する。

【００７０】実施の形態２．図４はこの発明の実施の形
態２による教師なし話者適応化装置を示す構成図であ
る。図４において実施の形態１の説明図である図１と同
一の機能ブロックには同一の記号を付し説明を省略す
る。本発明の特徴的な部分は、音韻タイプライタ型音声
認識手段２０１とキーワードスポッティング結果と音韻
タイプライタ型音声認識の結果に基づく教師なし話者適
応化手段２０３とを備えたことである。

【００７１】図４において、音韻タイプライタ型音声認
識手段２０１は、キーワードスポッティング手段１０２
からの出力であるキーワードの始端フレーム時刻ｔ_wsと
終端フレーム時刻ｔ_weを入力して、キーワード区間以外
の区間の音声特徴量に対して、全ての音声単位を組み合
わせて最も照合スコア高い系列を認識結果として出力す
る。ここで音声単位とは単語よりも短い音素や音節の単
位である。

【００７２】キーワードスポッティング結果と音韻タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段２０３は、教師なし話者適応用キーワードスポッテ
ィング結果１０２と教師なし話者適応用音韻タイプライ
タ型音声認識の結果２０２と標準パタン１００５と音声
特徴量抽出手段１００２から出力である音声特徴量を入
力して教師なし話者適応を行い教師なし話者適応標準パ
タン１００８を出力する。

【００７３】なお、図４の教師なし話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段１
００２と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段１０１と同様の処理を実
現するキーワードスポッティング手順と、音韻タイプラ
イタ型音声認識手段２０１と同様の処理を実現する音韻
タイプライタ型音声認識手順、キーワードスポッティン
グ結果と音韻タイプライタ型音声認識の結果に基づく教
師なし話者適応化手段２０３と同様の処理を実現するキ
ーワードスポッティング結果と音韻タイプライタ型音声
認識の結果よる教師なし話者適応化手順とから構成され
た教師なし話者適応化プログラムを記録した記録媒体を
用意する必要がある。

【００７４】次に動作について説明する。音韻タイプラ
イタ型音声認識手段２０１は、キーワードスポッティン
グ手段１０１からの出力であるキーワードの区間を入力
してキーワード区間以外の区間を抽出する。キーワード
が１つ抽出された場合ではキーワードのフレーム始端と
終端をｔ_ws、ｔ_weとすればキーワード以外の区間はフレ
ーム時刻t_s〜t_ws-1とｔ_we+1〜t_eとなる。音声単位をラ
ベルに変換し対応する標準パタンを連結して音声単位標
準パタンを生成し、キーワード以外の区間を対象に音韻
タイプライタ型音声認識手段２０１によって全ての音声
単位を組み合わせて最も照合スコアが高い系列を認識結
果として出力する。音韻タイプライタ型音声認識は短い
音声単位の接続であり、キーワードとして登録されてい
ない未登録語や発声変形の大きな発声についても妥当な
音声単位の系列を抽出できる。

【００７５】キーワードスポッティング結果と音韻タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段２０３は、キーワードの区間はキーワードのラベル
系列を、またキーワード区間以外は音韻タイプライタ型
音声認識の結果のラベル系列を標準パタンのパラメータ
更新の学習ラベルとしてパラメータの更新を行う。この
ときパラメータの更新は例えば実施の形態１で述べた話
者適応方式を用いる。

【００７６】次に本装置を使用して教師なし話者適応化
によって教師なし話者適応標準パタンを生成する過程を
具体的に説明する。図５はこの発明の実施の形態２によ
る教師なし話者適応化方法を示すフローチャートであ
る。

【００７７】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ２１、ＳＴ２２）。

【００７８】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの発音表
記から変換して得られる認識ユニットのラベル表記にし
たがって標準パタンを連結しキーワード標準パタンを生
成し（ＳＴ２３）、キーワードスポッティングを行いキ
ーワードとキーワードの区間を出力する（ＳＴ２４）。

【００７９】音韻タイプライタ型音声認識手段２０１
は、音声単位の認識ユニットのラベルに従って標準パタ
ンを連結して音声単位標準パタンを生成し、キーワード
区間以外の区間に対して全ての音声単位の組み合わせに
おいて最も照合スコアが高い組合わせを認識結果とする
（ＳＴ２５）。

【００８０】キーワードスポッティング結果と音韻タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段２０３は、キーワード区間はキーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系
列、キーワード区間以外は音韻タイプライタ型音声認識
の結果の認識ユニットのラベル系列を学習ラベルとし、
音声特徴量を用いて教師なし話者適応を行い、標準パタ
ンの更新を行って教師なし話者適応標準パタンを出力す
る（ＳＴ２６）。

【００８１】以上に述べたように、実施の形態２によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき、またキーワード区
間以外は音韻タイプライタ型音声認識結果をラベルとし
て標準パタンのパラメータ更新に用いる教師なし話者適
応化であるので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンのパラメータの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。

【００８２】実施の形態３．図６はこの発明の実施の形
態３による教師なし話者適応化装置を示す構成図であ
る。図６において実施の形態２の説明図である図４と同
一の機能ブロックは同一の記号を付し説明を省略する。
本発明の特徴的な部分は、音韻タイプライタ型音声認識
手段が、音素タイプライタ型音声認識手段３０１である
ことである。

【００８３】図６において、音素タイプライタ型音声認
識手段３０１は、キーワードスポッティング手段１０１
からの出力であるキーワードの区間を入力し、キーワー
ド区間以外の区間の音声特徴量を用い、全ての音素を組
み合わせて最も照合スコアが高い系列を認識結果とす
る。ここで音素とは日本語の場合は5つの母音と約20種
類の子音のことを示す。例えば音素表記の母音は a, i,
u, e, o、子音が ng,k, j, zh, z, d, m, g, ch, r,
sh, ts, s, b, q, t, w, n, p, h である。したがっ
て、キーワード区間以外に未登録単語が存在するような
発声においても、音素の全接続によって妥当な認識結果
が得られる。

【００８４】キーワードスポッティング結果と音素タイ
プライタ型音声認識結果に基づく教師なし話者適応化手
段３０３は、教師なし話者適応用キーワードスポッティ
ング結果１０２と教師なし話者適応用音素タイプライタ
型音声認識の結果３０２と標準パタン１００５と音声特
徴量抽出手段１００２から出力である音声特徴量を入力
して教師なし話者適応を行い教師なし話者適応標準パタ
ン１００８を出力する。

【００８５】なお、図６の話者適応化装置をソフトウェ
アのみで構成する場合、音声特徴量抽出手段１００２と
同様の処理を実現する音声特徴量抽出手順と、キーワー
ドスポッティング手段１０１と同様の処理を実現するキ
ーワードスポッティング手順と、音素タイプライタ型音
声認識手段３０１と同等の処理を実現する音素タイプラ
イタ型音声認識手順と、キーワードスポッティング結果
と音素タイプライタ型音声認識の結果に基づく教師なし
話者適応化手段３０３と同様の処理を実現するキーワー
ドスポッティング結果と音素タイプライタ型音声認識の
結果に基づく教師なし話者適応化手順とから構成された
話者適応化プログラムを記録した記録媒体を用意する必
要がある。

【００８６】次に動作について説明する。音素タイプラ
イタ型音声認識手段３０１は、キーワードスポッティン
グ手段からの出力であるキーワードの区間を入力してキ
ーワード区間以外の区間を抽出する。キーワードが1つ
抽出された場合ではキーワードの始端と終端をt_ws、t_we
とすればキーワード以外の区間はフレーム時刻 t_s〜t_ws
-1とt_we+1〜t_eとなる。音素をラベルに変換し対応する
標準パタンを音素標準パタンとして、キーワード以外の
区間を対象に音素タイプライタ型音声認識手段３０１に
よって全ての音素を組み合わせて最も照合スコアが高い
音素系列を認識結果として出力する。

【００８７】キーワードスポッティング結果と音素タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段３０３は、キーワードのラベル系列と音素タイプラ
イタ型音声認識の結果のラベル系列を標準パタンのパラ
メータ更新の学習ラベルとしてパラメータの更新を行
う。このときパラメータの更新は例えば実施の形態１で
述べた話者適応方式を用いる。

【００８８】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図７はこの発明の実施の形態３による教師な
し話者適応化方法を示すフローチャートである。

【００８９】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ３１、ＳＴ３２）。

【００９０】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの認識ユ
ニットのラベル表記にしたがって標準パタンを連結しキ
ーワード標準パタンを生成し（ＳＴ３３）、キーワード
スポッティングを行いキーワードとキーワードの区間を
出力する（ＳＴ３４）。

【００９１】音素タイプライタ型音声認識手段３０１
は、音素の認識ユニットラベルに対応する音素標準パタ
ンを標準パタン１００４から選び、キーワード区間以外
の区間に対して全ての音素の組み合わせにおいて最も照
合スコアが高い組合わせを認識結果とする（ＳＴ３
５）。

【００９２】キーワードスポッティング結果と音素タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段３０３は、キーワード区間はキーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系
列、キーワード区間以外は音素タイプライタ型音声認識
の結果の認識ユニットのラベル系列を学習ラベルとし、
音声特徴量を用いて教師なし話者適応を行い、標準パタ
ンの更新を行って教師なし話者適応標準パタンを出力す
る（ＳＴ３６）。

【００９３】以上に述べたように、実施の形態３によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき、またキーワード区
間以外は音素タイプライタ型音声認識結果をラベルとし
て標準パタンのパラメータ更新に用いる教師なし話者適
応化であるので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンのパラメータの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。

【００９４】実施の形態４．図８はこの発明の実施の形
態４による教師なし話者適応化装置を示す構成図であ
る。図８において実施の形態２の説明図である図４と同
一の機能ブロックは同一の記号を付し説明を省略する。
本発明の特徴的な部分は、音韻タイプライタ型音声認識
手段が、音節タイプライタ型音声認識手段４０１である
ことである。

【００９５】図８において、音節タイプライタ型音声認
識手段４０１は、キーワードスポッティング手段１０１
からの出力であるキーワードの区間を入力し、キーワー
ド区間以外の区間の音声特徴量を用い、全ての音節を組
み合わせて最も照合スコアが高い系列を認識結果とす
る。ここで音節とは日本語の場合は１つの音節は、１つ
の母音と１つないし複数の子音からなり、１０１の音節
があり仮名に対応している。

【００９６】キーワードスポッティング結果と音節タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段４０３は、キーワードスポッティング結果と音節タ
イプライタ型音声認識の結果と標準パタン１００５と音
声特徴量抽出手段１００２から出力である音声特徴量を
入力して教師なし話者適応を行い教師なし話者適応標準
パタン１００８を出力する。

【００９７】なお、図８の話者適応化装置をソフトウェ
アのみで構成する場合、音声特徴量抽出手段１００２と
同様の処理を実現する音声特徴量抽出手順と、キーワー
ドスポッティング手段１０１と同様の処理を実現するキ
ーワードスポッティング手順と、音節タイプライタ型音
声認識手段４０１と同等の処理を実現する音節タイプラ
イタ型音声認識手順と、キーワードスポッティング結果
と音節タイプライタ型音声認識の結果に基づく教師なし
話者適応化手段４０３と同様の処理を実現するキーワー
ドスポッティング結果と音節タイプライタ型音声認識の
結果に基づく教師なし話者適応化手順とから構成された
話者適応化プログラムを記録した記録媒体を用意する必
要がある。

【００９８】次に動作について説明する。音節タイプラ
イタ型音声認識手段４０１は、キーワードスポッティン
グ手段１０１からの出力であるキーワードの区間を入力
してキーワード区間以外の区間を抽出する。キーワード
が1つ抽出された場合ではキーワードの始端と終端を
t_ws、t_weとすればキーワード以外の区間はフレーム時刻
t_s〜t_ws-1とt_we+1〜t_eとなる。音節をラベルに変換し
対応する標準パタンを連結して音節標準パタンを生成
し、キーワード以外の区間を対象に音節タイプライタ型
音声認識手段４０１によって全ての音節を組み合わせて
最も照合スコアが高い系列を認識結果として出力する。

【００９９】キーワードスポッティング結果と音節タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段４０３は、キーワードのラベル系列と音節タイプラ
イタ型音声認識の結果のラベル系列を標準パタンのパラ
メータ更新の学習ラベルとしてパラメータの更新を行
う。このときパラメータの更新は例えば実施の形態１で
述べた話者適応方式を用いる。

【０１００】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図９はこの発明の実施の形態４による教師な
し話者適応化方法を示すフローチャートである。

【０１０１】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ４１、ＳＴ４２）。

【０１０２】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの認識ユ
ニットのラベル表記にしたがって標準パタンを連結しキ
ーワード標準パタンを生成し（ＳＴ４３）、キーワード
スポッティングを行いキーワードとキーワードの区間を
出力する（ＳＴ４４）。

【０１０３】音節タイプライタ型音声認識手段４０１
は、音節の認識ユニットのラベル系列に対応する標準パ
タンを連結して音節標準パタンを作成し、キーワード区
間以外の区間に対して全ての音節の組み合わせにおいて
最も照合スコアが高い組合わせを認識結果とする（ＳＴ
４５）。

【０１０４】キーワードスポッティング結果と音節タイ
プライタ型音声認識の結果に基づく教師なし話者適応化
手段４０３は、キーワード区間はキーワードスポッティ
ング結果であるキーワードの認識ユニットのラベル系
列、キーワード区間以外は音節タイプライタ型音声認識
の結果の認識ユニットのラベル系列を学習ラベルとし、
音声特徴量を用いて教師なし話者適応を行い、標準パタ
ンの更新を行って話者適応標準パタンを出力する（ＳＴ
４６）。

【０１０５】以上に述べたように、実施の形態４によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき、またキーワード区
間以外は音節タイプライタ型音声認識結果をラベルとし
て標準パタンのパラメータ更新に用いる教師なし話者適
応化であるので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンのパラメータの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。

【０１０６】実施の形態５．図１０はこの発明の実施の
形態５による教師なし話者適応化装置を示す構成図であ
る。図１０において実施の形態２の説明図である図４と
同一の機能ブロックは同一の記号を付し説明を省略す
る。本発明の特徴的な部分は、標準パタンが隠れマルコ
フモデル(Hidden Markov Model、以下ＨＭＭとする)で
構成され、音韻タイプライタ型音声認識手段が、ＨＭＭ
状態全接続型音声認識手段５０１であることである。

【０１０７】図１０において、ＨＭＭ状態全接続型音声
認識手段５０１は、キーワードスポッティング手段１０
１からの出力であるキーワードの区間を入力し、キーワ
ード区間以外の区間の音声特徴量を用い、全てのＨＭＭ
の状態を組み合わせて最も照合スコア高い状態系列を出
力とする。

【０１０８】キーワードスポッティング結果とＨＭＭ状
態全接続型音声認識の結果に基づく教師なし話者適応化
手段５０３は、キーワードスポッティング結果とＨＭＭ
状態全接続型音声認識の結果とＨＭＭで構成した標準パ
タン１００５と音声特徴量抽出手段１００２から出力で
ある音声特徴量を入力して教師なし話者適応を行い教師
なし話者適応標準パタン１００８を出力する。

【０１０９】なお、図１０の話者適応化装置をソフトウ
ェアのみで構成する場合、音声特徴量抽出手段１００２
と同様の処理を実現する音声特徴量抽出手順と、キーワ
ードスポッティング手段１０１と同様の処理を実現する
キーワードスポッティング手順と、ＨＭＭ状態全接続型
音声認識手段５０１と同等の処理を実現するＨＭＭ状態
全接続型音声認識手順と、キーワードスポッティング結
果とＨＭＭ状態全接続型音声認識の結果に基づく教師な
し話者適応化手段５０３と同様の処理を実現するキーワ
ードスポッティング結果とＨＭＭ状態全接続型音声認識
の結果に基づく教師なし話者適応化手順とから構成され
た話者適応化プログラムを記録した記録媒体を用意する
必要がある。

【０１１０】次に動作について説明する。ＨＭＭ状態全
接続型音声認識手段５０１は、キーワードスポッティン
グ手段からの出力であるキーワードの区間を入力してキ
ーワード区間以外の区間を抽出する。キーワードが１つ
抽出された場合ではキーワードの始端と終端をt_ws、t_we
とすればキーワード以外の区間はフレーム時刻 t_s〜t_ws
-1とt_we+1〜t_eとなる。標準パタン１００４に存在する
ＨＭＭの状態全てを用い、キーワード区間以外の区間を
対象にＨＭＭ状態全接続型音声認識手段５０１によって
全てのＨＭＭの状態を組み合わせて最も照合スコアが高
い状態系列を認識結果として出力する。

【０１１１】キーワードスポッティング結果とＨＭＭ状
態全接続型音声認識の結果に基づく教師なし話者適応化
手段５０３は、キーワードのラベル系列から得られるＨ
ＭＭの状態系列とＨＭＭ状態全接続型音声認識の結果の
ＨＭＭ状態系列を標準パタンのパラメータ更新時に用い
る、学習データに対応したＨＭＭ状態系列としてパラメ
ータの更新を行う。このときパラメータの更新は例えば
実施の形態１で述べた話者適応方式を用いる。

【０１１２】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図１１はこの発明の実施の形態５による教師
なし話者適応化方法を示すフローチャートである。

【０１１３】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ５１、ＳＴ５２）。

【０１１４】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの認識ユ
ニットのラベル表記にしたがって標準パタンを連結しキ
ーワード標準パタンを生成し（ＳＴ５３）、キーワード
スポッティングを行いキーワードとキーワードの区間を
出力する（ＳＴ５４）。

【０１１５】ＨＭＭ状態全接続型音声認識手段５０１
は、標準パタン１００４内のＨＭＭの状態全てを用い、
キーワード区間以外の区間に対して全ての状態の組み合
わせにおいて最も照合スコアが高い組合わせを認識結果
とする（ＳＴ５５）。

【０１１６】キーワードスポッティング結果とＨＭＭ全
接続型音声認識の結果に基づく教師なし話者適応化手段
５０３は、キーワード区間はキーワードスポッティング
結果であるキーワードの認識ユニットのラベル系列から
得られるＨＭＭの状態系列、キーワード区間以外はＨＭ
Ｍ状態全接続型音声認識の結果のＨＭＭの状態系列を学
習時に用いる、学習データに対応したＨＭＭ状態系列と
し、音声特徴量を用いて教師なし話者適応を行い、標準
パタンの更新を行って話者適応標準パタンを出力する
（ＳＴ５６）。

【０１１７】以上に述べたように、実施の形態５によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルを、またキーワード区間以外
はＨＭＭ状態全接続型音声認識結果を状態系列を標準パ
タンのパラメータ更新に用いる教師なし話者適応化であ
るので、未登録単語を含む音声や発声変形の大きな音声
であることによる話者適応用認識結果の誤りによる標準
パタンのパラメータの誤った推定を防ぎ、更新された話
者適応標準パタンによる音声認識率が向上する効果を奏
する。

【０１１８】実施の形態６．本実施の形態の構成は、実
施の形態１の図１と同様である。本発明の特徴的な部分
については、キーワードスポッティング手段１０１は、
複数の候補のキーワードを出力し、キーワードスポッテ
ィング結果に基づく教師なし話者適応化手段１０３は、
複数の候補のキーワードについて各々教師なし話者適応
標準パタンを作成し、複数の教師なし話者適応標準パタ
ンを合成して１つの教師なし話者適応標準パタンを出力
することである。

【０１１９】なお、本実施の形態の話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段１
００２と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段１０１と同様の処理を実
現するキーワードスポッティング手順と、キーワードス
ポッティング結果に基づく教師なし話者適応化手段１０
３と同様の処理を実現するキーワードスポッティング結
果に基づく教師なし話者適応化手順とから構成された話
者適応化プログラムを記録した記録媒体を用意する必要
がある。

【０１２０】次に動作について説明する。キーワードス
ポッティング手段１０１は、認識辞書１００４で予め設
定されているキーワードの抽出を行うが、照合スコアが
高い順に複数の候補のキーワード[KW(r_kw(1)), KW(r
_kw(2)), ..., KW(r_kw(N))]（r_kw(n)はn番目に抽出され
たキーワード番号、Ｎは抽出されたキーワード総数）と
それぞれの区間[(t_ws(1),t_we(1)), (t_ws(2),t_we(2)),
..., (t_ws(N),t_we(N))]を出力する。複数のキーワード
は区間が重なっている場合でも良い。

【０１２１】キーワードスポッティング結果に基づく教
師なし話者適応化手段１０３は、Ｎ個のそれぞれについ
てキーワードのラベル系列を学習ラベルとしてキーワー
ド区間の音声データを学習データとして教師なし話者適
応化を行い、Ｎ個の教師なし話者適応標準パタン[Λ
_a(1), Λ_a(2), ..., Λ_a(N)]を作成する。そして、この
Ｎ個の教師なし話者適応化標準パタンを合成して１つの
教師なし話者適応化標準パタンとして出力する。このと
きパラメータの合成方法は線形なものでも非線形なもの
でも良い。例えば標準パタンが連続混合分布型ＨＭＭで
ある場合は、数式３によってガウス分布の平均ベクトル
と分散を計算する。数式３においてμ_q ^a、C_q ^aはそれぞ
れガウス分布ｑの平均ベクトルおよび共分散行列であ
る。μ’_q ^a(n)、C’_q ^a(n)はｎ番目のキーワードに基づ
いて教師なし話者適応を行って得た平均ベクトルと共分
散行列である。α(n)はｎ番目の教師なし話者適応標準
パタンに対する重み係数であり、照合スコアが高いほど
大きい係数である。

【０１２２】

【数３】

【０１２３】以上の説明においては、キーワード区間を
用いた教師なし話者適応を説明したが、キーワード区間
以外に対して実施の形態２〜５のように音韻タイプライ
タ等によって認識結果を抽出した候補によって教師なし
話者適応を行っても実現可能である。

【０１２４】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図１２はこの発明の実施の形態６による教師
なし話者適応化方法を示すフローチャートである。

【０１２５】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ６１、ＳＴ６２）。

【０１２６】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン８０５を連結しキーワード標準パタン
を生成し（ＳＴ６３）、キーワードスポッティングを行
い複数のキーワード抽出し、それぞれのキーワードの区
間を出力する（ＳＴ６４）。

【０１２７】キーワードスポッティング結果に基づく教
師なし話者適応化手段１０３は、複数のキーワードの候
補の区間の音声を学習データとし、キーワードのラベル
を学習ラベルとして複数のキーワードそれぞれについて
教師なし話者適応化を行い複数の話者適応標準パタンを
出力する（ＳＴ６５）。さらに複数の教師なし話者適応
標準パタンのパラメータを合成して１つの教師なし話者
適応標準パタンを出力する（ＳＴ６６）。

【０１２８】以上に述べたように、実施の形態６によれ
ば、複数のキーワードを抽出し、抽出されたキーワード
を用いて複数の教師なし話者適応標準パタンを生成し、
さらに複数の教師なし話者適応標準パタンのパラメータ
を合成することで１つの教師なし話者適応標準パタンを
得る教師なし話者適応化であるので、未登録単語を含む
音声や発声変形の大きな音声であることによる話者適応
用認識結果の誤りによる標準パタンのパラメータの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。

【０１２９】実施の形態７．本実施の形態の構成は、実
施の形態１の図１と同様である。本発明の特徴的な部分
については、キーワードスポッティング手段１０１は、
複数の候補のキーワードを出力し、キーワードスポッテ
ィング結果に基づく教師なし話者適応化手段１０３は、
複数のキーワードの候補毎に学習データのパラメータ更
新への寄与度を定めて教師なし話者適応化を行い、教師
なし話者適応標準パタンを出力することである。

【０１３０】なお、本実施の形態の話者適応化装置をソ
フトウェアのみで構成する場合、音声特徴量抽出手段１
００２と同様の処理を実現する音声特徴量抽出手順と、
キーワードスポッティング手段１０１と同様の処理を実
現するキーワードスポッティング手順と、キーワードス
ポッティング結果に基づく教師なし話者適応化手段１０
３と同様の処理を実現するキーワードスポッティング結
果に基づく教師なし話者適応化手順とから構成された話
者適応化プログラムを記録した記録媒体を用意する必要
がある。

【０１３１】次に動作について説明する。キーワードス
ポッティング手段１０１は、認識辞書１００４で予め設
定されているキーワードの抽出を行うが、照合スコアが
高い順に複数の候補のキーワード[KW(r_kw(1)), KW(r
_kw(2)), ..., KW(r_kw(N))]（r_kw(n)はn番目に抽出され
たキーワード番号、Ｎは抽出されたキーワード総数）と
それぞれの区間[(t_ws(1),t_we(1)), (t_ws(2),t_we(2)),
..., (t_ws(N),t_we(N))]を出力する。複数のキーワード
は区間が重なっている場合でも良い。

【０１３２】キーワードスポッティング結果に基づく教
師なし話者適応化手段１０３は、Ｎ個のキーワードにつ
いて、適応学習時のパラメータ更新の寄与度を計算す
る。寄与度は、例えば照合スコアによってフレーム毎に
決定する。Ｎ個のキーワードの照合スコアが[S₁, S₂,
..., S_N]であるとすれば、n番目のキーワードが抽出さ
れた区間t_ws(n)〜t_we(n)に対するフレームの寄与度g
_n(t)を数式４によって計算する。

【０１３３】数式４においてΩtは時刻tにおいて候補が
存在するキーワード番号の集合である。このようにして
計算した寄与度を例えば標準パタンが連続混合分布型Ｈ
ＭＭである場合は、ガウス分布の平均ベクトルμ^a _qと共
分散行列C^a _qは数式５によってパラメータの更新を行
う。以上はキーワード区間を用いた教師なし話者適応を
説明したが、キーワード区間以外に対して実施の形態２
乃至５のように音韻タイプライタ等によって認識結果を
抽出した候補によって教師なし話者適応を行っても良
い。

【０１３４】

【数４】

【０１３５】

【数５】

【０１３６】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図１３はこの発明の実施の形態７による教師
なし話者適応化方法を示すフローチャートである。

【０１３７】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ７１、ＳＴ７２）。

【０１３８】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン１００５を連結しキーワード標準パタ
ンを生成し（ＳＴ７３）、キーワードスポッティングを
行い複数のキーワード抽出し、それぞれのキーワードの
区間を出力する（ＳＴ７４）。

【０１３９】キーワードスポッティン結果に基づく教師
なし話者適応化手段１０３では、複数のキーワードの候
補の区間の音声を学習データとし、キーワードのラベル
を学習ラベルとして、パラメータの更新時にキーワード
の候補毎に学習データのパラメータ更新への寄与度を定
め、教師なし話者適応化を行い話者適応標準パタンを出
力する（ＳＴ７５）。

【０１４０】以上に述べたように、実施の形態７によれ
ば、複数のキーワードを抽出し、抽出された複数のキー
ワードの候補毎に学習データのパラメータ更新への寄与
度を定めて教師なし話者適応化を行うので、未登録単語
を含む音声や発声変形の大きな音声であることによる話
者適応用認識結果の誤りによる標準パタンのパラメータ
の誤った推定を防ぎ、更新された話者適応標準パタンに
よる音声認識率が向上する効果を奏する。

【０１４１】実施の形態８．図１４はこの発明の実施の
形態８による教師なし話者適応化装置を示す構成図であ
る。図１４において実施の形態１の説明図である図１と
同一の機能ブロックは同一の記号を付し説明を省略す
る。本発明の特徴的な部分は、先行する発声によって更
新した教師なし話者適応標準パタン１００８を標準パタ
ン１００５へ代入し、引き続く発声に対して教師なし話
者適応化を行うことを特徴としたことである。

【０１４２】次に図１４を参照して動作について説明す
る。キーワードスポッティング結果に基づく教師なし話
者適応化手段１０３は、使用話者の最初の発声 [o_t1, o
_t1+1, ..., o_t1+T1-1] （T1は最初の発声のフレーム
数）を用いて標準パタン１００５のパラメータを更新し
て教師なし話者適応標準パタン１００８を出力する。こ
こで、この最初の発声によって得られた教師なし話者適
応標準パタンをΛ_a ⁽¹⁾とする。次にΛ_a ⁽¹⁾を標準パタン
１００５とし、使用話者の２番目の発声 [o_t2, o _t2+1,
..., o_t2+T2-1] （T2は最初の発声のフレーム数）を用
いてキーワードスポッティング結果に基づく教師なし話
者適応化処理によって更に標準パタン１００５を更新し
て教師なし話者適応標準パタンΛ_a ⁽²⁾を計算する。この
ようにj番目の発声を用いた教師なし話者適応の更新前
の標準パタンとして (j-1)番目の発声までに逐次的に更
新したΛ_a ^(j-1)を用いる。

【０１４３】なお、図１４の話者適応化装置をソフトウ
ェアのみで構成する場合、音声特徴量抽出手段１００２
と同様の処理を実現する音声特徴量抽出手順と、キーワ
ードスポッティング手段１０１と同様の処理を実現する
キーワードスポッティング手順と、キーワードスポッテ
ィング結果に基づく教師なし話者適応化手段１０３と同
様の処理を実現するキーワードスポッティング結果に基
づく教師なし話者適応化手順とから構成された話者適応
化プログラムを記録した記録媒体を用意する必要があ
る。

【０１４４】次に本装置を使用して教師なし話者適応化
によって話者適応標準パタンを生成する過程を具体的に
説明する。図１５はこの発明の実施の形態８による教師
なし話者適応化方法を示すフローチャートである。

【０１４５】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ８１、ＳＴ８２）。

【０１４６】キーワードスポッティング手段１０１は、
認識辞書１００４に格納されているキーワードの発音表
記から変換して得られる認識ユニットラベル表記にした
がって標準パタン１００５を連結しキーワード標準パタ
ンを生成し（ＳＴ８３）、キーワードスポッティングを
行いキーワードとキーワードの区間を出力する（ＳＴ８
４）。

【０１４７】キーワードスポッティング結果に基づく教
師なし話者適応化手段１０３は、キーワードスポッティ
ング結果であるキーワードの認識ユニットラベル系列と
キーワード区間の音声特徴量と標準パタンを用いて教師
なし話者適応化を行い教師なし話者適応標準パタンを出
力する（ＳＴ８５）。

【０１４８】現時点での教師なし話者適応標準パタンの
計算に用いた発声に続く発声がないならば終了し、次に
続く発声があるならば現時点での教師なし話者適応標準
パタンを標準パタンに代入し（ＳＴ８６、ＳＴ８７）て
ＳＴ８１へ戻り、次の発声を用いて同様の処理を繰り返
す。

【０１４９】以上に述べたように、実施の形態８によれ
ば、先行する発声によって更新した教師なし話者適応標
準パタンを標準パタンへ代入し、引き続く発声に対して
教師なし話者適応化を行うので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンのパラメータの誤った推
定を防ぎ、更新された話者適応標準パタンによる音声認
識率が向上する効果を奏する。

【０１５０】実施の形態９．図１８はこの発明の実施の
形態９による音声認識装置を示す構成図である。図１８
において図１等に示す教師なし話者適応化装置と同一の
機能ブロックには同一の記号を付し説明を省略する。本
発明の特徴的な部分は上記実施の形態１乃至８の教師な
し話者適応化装置により更新された教師なし話者適応標
準パタン１００８を使用して音声認識を行うことであ
る。

【０１５１】なお、図１８の音声認識装置をソフトウェ
アのみで構成する場合、音声特徴量抽出手段１００２と
同様の処理を実現する音声特徴量抽出手順と、照合手段
１００３と同様の処理を実現する照合手順とから構成さ
れた音声認識プログラムを記録した記録媒体を用意する
必要がある。

【０１５２】次に動作について説明する。認識辞書１０
０４によって設定した認識対象の単語[W(1),W(2), ...,
W(wn)] の発音表記から認識ユニットラベルへ変換し、
このラベルにしたがって教師なし話者適応標準パタンを
連結し、認識対象単語の標準パタン[λ^a _W(1), λ
^a _W(2) ,..., λ^a _W(wn)]を作成する。この認識対象単語
の標準パタンを用いて、音声特徴量抽出手段１００２か
らの出力である音声特徴量に対して照合を行い、音声認
識結果１１０１を出力する。このとき、入力音声１００
１は教師なし話者適応化に用いた発声と同一でも、それ
以外の発声でも良い。

【０１５３】音声認識結果１１０１は、入力音声１００
１に対して認識対象単語標準パタンを用い、最も照合ス
コアの高い単語系列 [W(r(1)), W(r(2)), ..., W(r
(m))] を出力する。ここで、r(i)は音声認識結果の単語
系列のi番目の単語の単語番号を示す。またmは認識単語
系列の単語数を示す。また照合手段１００３によって説
明したがキーワードスポッティング手段で構成しても良
い。ここでは標準パタンと音声特徴量との照合スコアで
単語系列を抽出する方法を述べたが、さらに単語出現確
率や単語と単語が接続する確率を考慮した照合スコアと
しても良い。

【０１５４】次に本装置を使用して音声認識を行う過程
を具体的に説明する。図１６はこの発明の実施の形態９
による音声認識方法を示すフローチャートである。

【０１５５】使用話者の音声を入力して、その音声に対
して音声特徴量抽出処理を施し音声特徴量を抽出する
（ＳＴ９１、ＳＴ９２）。

【０１５６】照合手段１００３は、認識辞書１００４に
格納されている単語の発音表記から変換した単語の認識
ユニットのラベル表記にしたがって教師なし話者適応標
準パタンを連結して単語標準パタンを生成し（ＳＴ９
３）、照合を行い音声認識結果出力する（ＳＴ９４）。

【０１５７】以上に述べたように、実施の形態９によれ
ば、キーワードスポッティング結果に基づきキーワード
区間はキーワードのラベルに基づき教師なし話者適応化
を行って得られた教師なし話者適応標準パタンを用いて
音声認識を行うので、未登録単語を含む音声や発声変形
の大きな音声であることによる話者適応用認識結果の誤
りによる標準パタンのパラメータの誤った推定を防ぎ、
更新された話者適応標準パタンによる音声認識率が向上
する効果を奏する。

【０１５８】

【発明の効果】この発明の請求項１に係る教師なし話者
適応化装置においては、適応学習データとして未知の発
話内容の音声を使用する教師なし話者適応化装置であっ
て、音声認識に用いる標準パタンを任意の話者に適応す
る話者適応標準パタンに更新する教師なし話者適応化装
置において、話者の入力音声から音声特徴量を抽出する
音声特徴量抽出手段と、音声特徴量抽出手段が抽出した
音声特徴量と標準パタンとを照合することによりキーワ
ード及びキーワードの区間を認識して抽出し出力するキ
ーワードスポッティング手段と、標準パタン、キーワー
ドスポッティング手段が抽出したキーワード、及びキー
ワードとして抽出された区間の音声特徴量に基づいて、
標準パタンを話者適応標準パタンへ更新する教師なし話
者適応化手段とを備えている。そのため、キーワードス
ポッティング手段の結果に基づきキーワード区間のみを
標準パタンの更新に用いるので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンの誤った推定を防ぎ、更
新された話者適応標準パタンによる音声認識率が向上す
る効果を奏する。

【０１５９】また、この発明の請求項２に係る教師なし
話者適応化装置においては、適応学習データとして未知
の発話内容の音声を使用する教師なし話者適応化装置で
あって、音声認識に用いる標準パタンを任意の話者に適
応する話者適応標準パタンに更新する教師なし話者適応
化装置において、話者の入力音声から音声特徴量を抽出
する音声特徴量抽出手段と、音声特徴量抽出手段が抽出
した音声特徴量と標準パタンとを照合することによりキ
ーワード及びキーワードの区間を認識して抽出し出力す
るキーワードスポッティング手段と、キーワードの区間
以外の区間については、全ての音声単位を組み合わせて
最も照合スコアが高い系列を認識結果として出力する音
韻タイプライタ型音声認識手段と、標準パタン、キーワ
ードスポッティング手段が抽出したキーワード、キーワ
ードとして抽出された区間の音声特徴量、及び音韻タイ
プライタ型音声認識手段の認識結果に基づいて、標準パ
タンを話者適応標準パタンへ更新する教師なし話者適応
化手段とを備えている。そのため、キーワード区間はキ
ーワードスポッティングの結果に基づいて、一方、キー
ワード区間以外は音韻タイプライタ型音声認識結果に基
づいて、標準パタンの更新をするので、未登録単語を含
む音声や発声変形の大きな音声であることによる話者適
応用認識結果の誤りによる標準パタンの誤った推定を防
ぎ、更新された話者適応標準パタンによる音声認識率が
向上する効果を奏する。

【０１６０】また、この発明の請求項３に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音素である。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音素タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。

【０１６１】また、この発明の請求項４に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、音節である。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音節タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。

【０１６２】また、この発明の請求項５に係る教師なし
話者適応化装置においては、音韻タイプライタ型音声認
識手段の音声単位は、隠れマルコフモデルの１状態であ
る。そのため、キーワード区間はキーワードスポッティ
ングの結果に基づき、一方、キーワード区間以外は隠れ
マルコフモデル状態全接続型音声認識結果に基づいて、
標準パタンの更新をするので、未登録単語を含む音声や
発声変形の大きな音声であることによる話者適応用認識
結果の誤りによる標準パタンの誤った推定を防ぎ、更新
された話者適応標準パタンによる音声認識率が向上する
効果を奏する。

【０１６３】また、この発明の請求項６に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々話者適応標準パ
タンを作成し、これらの話者適応標準パタンを合成して
１つの話者適応標準パタンを出力する。複数のキーワー
ドを抽出し、抽出されたキーワードを用いて複数の教師
なし話者適応標準パタンを生成し、さらに複数の教師な
し話者適応標準パタンを合成することで１つの教師なし
話者適応標準パタンを得るので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンの誤った推定を防ぎ、更
新された話者適応標準パタンによる音声認識率が向上す
る効果を奏する。

【０１６４】また、この発明の請求項７に係る教師なし
話者適応化装置においては、キーワードスポッティング
手段は、複数の認識結果の候補を出力し、教師なし話者
適応化手段は、複数の候補について各々のキーワード区
間の音声特徴量に対して標準パタンの更新時の寄与度を
表す係数を計算し、係数に基づいて話者適応標準パタン
を出力する。そのため、複数のキーワードを抽出し、抽
出された複数のキーワードの候補毎に学習データの更新
への寄与度を定めて教師なし話者適応化を行うので、未
登録単語を含む音声や発声変形の大きな音声であること
による話者適応用認識結果の誤りによる標準パタンの誤
った推定を防ぎ、更新された話者適応標準パタンによる
音声認識率が向上する効果を奏する。

【０１６５】また、この発明の請求項８に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、入力音声により話者適応標準パタンを更新する際、
以前の入力音声により更新された話者適応標準パタンを
標準パタンとして使用する。先行する発声によって更新
した教師なし話者適応標準パタンを標準パタンへ代入
し、引き続く発声に対して教師なし話者適応化を行うの
で、未登録単語を含む音声や発声変形の大きな音声であ
ることによる話者適応用認識結果の誤りによる標準パタ
ンの誤った推定を防ぎ、更新された話者適応標準パタン
による音声認識率が向上する効果を奏する。

【０１６６】また、この発明の請求項９に係る教師なし
話者適応化装置においては、教師なし話者適応化手段
は、標準パタンのパラメータを変更することにより、話
者適応標準パタンに更新する。そのため、標準パタンの
パラメータを適応学習して、話者適応標準パタンに更新
こととなり、データの構成が容易となる。

【０１６７】また、この発明の請求項１０に係る音声認
識装置においては、請求項１乃至９のいずれかに記載の
教師なし話者適応化装置によって更新された話者適応標
準パタンと、話者の入力音声から特徴量を抽出する音声
特徴量抽出手段と、音声特徴量抽出手段が抽出した音声
特徴量と話者適応標準パタンとを照合して認識結果を出
力する照合手段とを備えている。そのため、キーワード
区間はキーワードスポッティングの結果に基づき、教師
なし話者適応化を行って得られた教師なし話者適応標準
パタンを用いて音声認識を行うので、未登録単語を含む
音声や発声変形の大きな音声であることによる話者適応
用認識結果の誤りによる標準パタンの誤った推定を防
ぎ、更新された話者適応標準パタンによる音声認識率が
向上する効果を奏する。

【０１６８】また、この発明の請求項１１に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、標準パタン、キーワードスポッ
ティングして抽出されたキーワード、及びキーワードと
して抽出された区間の音声特徴量に基づいて、標準パタ
ンを話者適応標準パタンへ更新する教師なし話者適応化
を行う。そのため、キーワードスポッティングの結果に
基づきキーワード区間のみを標準パタンの更新に用いる
ので、未登録単語を含む音声や発声変形の大きな音声で
あることによる話者適応用認識結果の誤りによる標準パ
タンの誤った推定を防ぎ、更新された話者適応標準パタ
ンによる音声認識率が向上する効果を奏する。

【０１６９】また、この発明の請求項１２に係る教師な
し話者適応化方法においては、適応学習データとして未
知の発話内容の音声を使用する教師なし話者適応化方法
であって、音声認識に用いる標準パタンを任意の話者に
適応する話者適応標準パタンに更新する教師なし話者適
応化方法において、話者の入力音声から音声特徴量を抽
出し、音声特徴量と標準パタンとからキーワードスポッ
ティングして認識結果としてキーワードとキーワードの
区間を抽出して出力し、キーワード区間以外の音声区間
については、全ての音声単位を組み合わせて最も照合ス
コアが高い系列を認識結果として出力する音韻タイプラ
イタを用いて認識し、標準パタン、キーワードスポッテ
ィングして抽出されたキーワード、キーワードとして抽
出された区間の音声特徴量、音韻タイプライタの認識結
果に基づいて、標準パタンを話者適応標準パタンへ更新
する教師なし話者適応化を行う。そのため、キーワード
区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音韻タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。

【０１７０】また、この発明の請求項１３に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音素である。そのため、キーワ
ード区間はキーワードスポッティングの結果に基づき、
一方、キーワード区間以外は音素タイプライタ型音声認
識結果に基づいて、標準パタンの更新をするので、未登
録単語を含む音声や発声変形の大きな音声であることに
よる話者適応用認識結果の誤りによる標準パタンの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。

【０１７１】また、この発明の請求項１４に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、音節である。そのため、キーワ
ード区間はキーワードスポッティングの結果に基づき、
一方、キーワード区間以外は音節タイプライタ型音声認
識結果に基づいて、標準パタンの更新をするので、未登
録単語を含む音声や発声変形の大きな音声であることに
よる話者適応用認識結果の誤りによる標準パタンの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。

【０１７２】また、この発明の請求項１５に係る教師な
し話者適応化方法においては、音韻タイプライタによる
音声認識の音声単位は、隠れマルコフモデルの１状態で
ある。そのため、キーワード区間はキーワードスポッテ
ィングの結果に基づき、キーワード区間はキーワードに
基づき、一方、キーワード区間以外は隠れマルコフモデ
ル状態全接続型音声認識結果に基づいて、標準パタンの
更新をするので、未登録単語を含む音声や発声変形の大
きな音声であることによる話者適応用認識結果の誤りに
よる標準パタンの誤った推定を防ぎ、更新された話者適
応標準パタンによる音声認識率が向上する効果を奏す
る。

【０１７３】また、この発明の請求項１６に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々教師なし
話者適応化によって複数の話者適応標準パタンを出力
し、これらの話者適応標準パタンを合成して１つの話者
適応標準パタンを出力する。複数のキーワードを抽出
し、抽出されたキーワードを用いて複数の教師なし話者
適応標準パタンを生成し、さらに複数の教師なし話者適
応標準パタンを合成することで１つの教師なし話者適応
標準パタンを得るので、未登録単語を含む音声や発声変
形の大きな音声であることによる話者適応用認識結果の
誤りによる標準パタンの誤った推定を防ぎ、更新された
話者適応標準パタンによる音声認識率が向上する効果を
奏する。

【０１７４】また、この発明の請求項１７に係る教師な
し話者適応化方法においては、キーワードスポッティン
グによって複数の認識結果の候補を出力し、複数のキー
ワードスポッティング結果の候補について各々のキーワ
ード区間の音声特徴量に対して標準パタンの更新時の寄
与度を表す係数を計算し、係数に基づいてパラメータ更
新を行う。そのため、複数のキーワードを抽出し、抽出
された複数のキーワードの候補毎に学習データの更新へ
の寄与度を定めて教師なし話者適応化を行うので、未登
録単語を含む音声や発声変形の大きな音声であることに
よる話者適応用認識結果の誤りによる標準パタンの誤っ
た推定を防ぎ、更新された話者適応標準パタンによる音
声認識率が向上する効果を奏する。

【０１７５】また、この発明の請求項１８に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
入力音声により話者適応標準パタンを更新する際、以前
の入力音声により更新された話者適応標準パタンを標準
パタンとして使用する。先行する発声によって更新した
教師なし話者適応標準パタンを標準パタンへ代入し、引
き続く発声に対して教師なし話者適応化を行うので、未
登録単語を含む音声や発声変形の大きな音声であること
による話者適応用認識結果の誤りによる標準パタンの誤
った推定を防ぎ、更新された話者適応標準パタンによる
音声認識率が向上する効果を奏する。

【０１７６】また、この発明の請求項１９に係る教師な
し話者適応化方法においては、教師なし話者適応化は、
標準パタンのパラメータを変更することにより、話者適
応標準パタンに更新する。そのため、標準パタンのパラ
メータを適応学習して、話者適応標準パタンに更新こと
となり、データの構成が容易となる。

【０１７７】また、この発明の請求項２０に係る音声認
識方法においては、請求項１１乃至１９のいずれかに記
載の話者適応化方法によって更新された話者適応標準パ
タンと、抽出された音声特徴量とを照合して認識結果を
出力する。そのため、キーワード区間はキーワードスポ
ッティングの結果に基づき、教師なし話者適応化を行っ
て得られた教師なし話者適応標準パタンを用いて音声認
識を行うので、未登録単語を含む音声や発声変形の大き
な音声であることによる話者適応用認識結果の誤りによ
る標準パタンの誤った推定を防ぎ、更新された話者適応
標準パタンによる音声認識率が向上する効果を奏する。

【０１７８】また、この発明の請求項２１に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、及びキーワードとして抽出された区間の音声特徴量
に基づいて、標準パタンを話者適応標準パタンへ更新す
る教師なし話者適応化手順とを備えている。そのため、
キーワードスポッティング手順の結果に基づきキーワー
ド区間のみを標準パタンの更新に用いるので、未登録単
語を含む音声や発声変形の大きな音声であることによる
話者適応用認識結果の誤りによる標準パタンの誤った推
定を防ぎ、更新された話者適応標準パタンによる音声認
識率が向上する効果を奏する。

【０１７９】また、この発明の請求項２２に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、適応学習データとして未知の発話内容の音声を使用
する教師なし話者適応化プログラムであって、音声認識
に用いる標準パタンを任意の話者に適応する話者適応標
準パタンに更新する教師なし話者適応化プログラムを記
録した記録媒体において、話者の入力音声から音声特徴
量を抽出する音声特徴量抽出手順と、音声特徴量抽出手
順が抽出した音声特徴量と標準パタンとを照合すること
によりキーワードとキーワードの区間を認識して抽出し
出力するキーワードスポッティング手順と、キーワード
区間以外の音声区間については、全ての音声単位を組み
合わせて最も照合スコアが高い系列を認識結果として出
力する音韻タイプライタ型音声認識手順と、標準パタ
ン、キーワードスポッティング手順が抽出したキーワー
ド、キーワードとして抽出された区間の音声特徴量、及
び音韻タイプライタ型音声認識手順の認識結果に基づい
て、標準パタンを話者適応標準パタンへ更新する教師な
し話者適応化手順とを備えている。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は音韻タイプライタ型音声認識
結果に基づいて、標準パタンの更新をするので、未登録
単語を含む音声や発声変形の大きな音声であることによ
る話者適応用認識結果の誤りによる標準パタンの誤った
推定を防ぎ、更新された話者適応標準パタンによる音声
認識率が向上する効果を奏する。

【０１８０】また、この発明の請求項２３に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
素である。そのため、キーワード区間はキーワードスポ
ッティングの結果に基づき、一方、キーワード区間以外
は音素タイプライタ型音声認識結果に基づいて、標準パ
タンの更新をするので、未登録単語を含む音声や発声変
形の大きな音声であることによる話者適応用認識結果の
誤りによる標準パタンの誤った推定を防ぎ、更新された
話者適応標準パタンによる音声認識率が向上する効果を
奏する。

【０１８１】また、この発明の請求項２４に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、音
節である。そのため、キーワード区間はキーワードスポ
ッティングの結果に基づき、一方、キーワード区間以外
は音節タイプライタ型音声認識結果に基づいて、標準パ
タンの更新をするので、未登録単語を含む音声や発声変
形の大きな音声であることによる話者適応用認識結果の
誤りによる標準パタンの誤った推定を防ぎ、更新された
話者適応標準パタンによる音声認識率が向上する効果を
奏する。

【０１８２】また、この発明の請求項２５に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、音韻タイプライタ型音声認識手順の音声単位は、隠
れマルコフモデルの１状態である。そのため、キーワー
ド区間はキーワードスポッティングの結果に基づき、一
方、キーワード区間以外は隠れマルコフモデル状態全接
続型音声認識結果に基づいて、標準パタンの更新をする
ので、未登録単語を含む音声や発声変形の大きな音声で
あることによる話者適応用認識結果の誤りによる標準パ
タンの誤った推定を防ぎ、更新された話者適応標準パタ
ンによる音声認識率が向上する効果を奏する。

【０１８３】また、この発明の請求項２６に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々話者適応標準パタンを作成し、これらの
話者適応標準パタンを合成して１つの話者適応標準パタ
ンを出力する。複数のキーワードを抽出し、抽出された
キーワードを用いて複数の教師なし話者適応標準パタン
を生成し、さらに複数の教師なし話者適応標準パタンを
合成することで１つの教師なし話者適応標準パタンを得
るので、未登録単語を含む音声や発声変形の大きな音声
であることによる話者適応用認識結果の誤りによる標準
パタンの誤った推定を防ぎ、更新された話者適応標準パ
タンによる音声認識率が向上する効果を奏する。

【０１８４】また、この発明の請求項２７に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、キーワードスポッティング手順は、複数の認識結果
の候補を出力し、教師なし話者適応化手順は、複数の候
補について各々のキーワード区間の音声特徴量に対して
標準パタンの更新時の寄与度を表す係数を計算し、係数
に基づいて話者適応標準パタンを出力する。そのため、
複数のキーワードを抽出し、抽出された複数のキーワー
ドの候補毎に学習データの更新への寄与度を定めて教師
なし話者適応化を行うので、未登録単語を含む音声や発
声変形の大きな音声であることによる話者適応用認識結
果の誤りによる標準パタンの誤った推定を防ぎ、更新さ
れた話者適応標準パタンによる音声認識率が向上する効
果を奏する。

【０１８５】また、この発明の請求項２８に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、入力音声により話者適
応標準パタンを更新する際、以前の入力音声により更新
された話者適応標準パタンを標準パタンとして使用す
る。先行する発声によって更新した教師なし話者適応標
準パタンを標準パタンへ代入し、引き続く発声に対して
教師なし話者適応化を行うので、未登録単語を含む音声
や発声変形の大きな音声であることによる話者適応用認
識結果の誤りによる標準パタンの誤った推定を防ぎ、更
新された話者適応標準パタンによる音声認識率が向上す
る効果を奏する。

【０１８６】また、この発明の請求項２９に係る教師な
し話者適応化プログラムを記録した記録媒体において
は、教師なし話者適応化手順は、標準パタンのパラメー
タを変更することにより、話者適応標準パタンに更新す
る。そのため、標準パタンのパラメータを適応学習し
て、話者適応標準パタンに更新こととなり、データの構
成が容易となる。

【０１８７】また、この発明の請求項３０に係る音声認
識プログラムを記録した記録媒体においては、請求項２
１乃至２９のいずれかに記載の教師なし話者適応化プロ
グラムによって更新された話者適応標準パタンと話者の
入力音声とから特徴量を抽出する音声特徴量抽出手順
と、音声特徴量抽出手順が抽出した音声特徴量と話者適
応標準パタンとを照合して認識結果を出力する照合手順
とを備えている。そのため、キーワード区間はキーワー
ドスポッティングの結果に基づき、教師なし話者適応化
を行って得られた教師なし話者適応標準パタンを用いて
音声認識を行うので、未登録単語を含む音声や発声変形
の大きな音声であることによる話者適応用認識結果の誤
りによる標準パタンの誤った推定を防ぎ、更新された話
者適応標準パタンによる音声認識率が向上する効果を奏
する。

【図面の簡単な説明】

【図１】この発明の実施の形態１による教師なし話者
適応化装置を示す構成図である。

【図２】キーワードスポッティングの概念図である。

【図３】この発明の実施の形態１による教師なし話者
適応化方法を示すフローチャートである。

【図４】この発明の実施の形態２による教師なし話者
適応化装置を示す構成図である。

【図５】この発明の実施の形態２による教師なし話者
適応化方法を示すフローチャートである。

【図６】この発明の実施の形態３による教師なし話者
適応化装置を示す構成図である。

【図７】この発明の実施の形態３による教師なし話者
適応化方法を示すフローチャートである。

【図８】この発明の実施の形態４による教師なし話者
適応化装置を示す構成図である。

【図９】この発明の実施の形態４による教師なし話者
適応化方法を示すフローチャートである。

【図１０】この発明の実施の形態５による教師なし話
者適応化装置を示す構成図である。

【図１１】この発明の実施の形態５による教師なし話
者適応化方法を示すフローチャートである。

【図１２】この発明の実施の形態６による教師なし話
者適応化方法を示すフローチャートである。

【図１３】この発明の実施の形態７による教師なし話
者適応化方法を示すフローチャートである。

【図１４】この発明の実施の形態８による教師なし話
者適応化装置を示す構成図である。

【図１５】この発明の実施の形態８による教師なし話
者適応化方法を示すフローチャートである。

【図１６】この発明の実施の形態９による音声認識方
法を示すフローチャートである。

【図１７】従来の教師なし話者適応化装置を示す構成
図である。

【図１８】教師なし話者適応化装置を用いた音声認識
装置を示す構成図である。

【符号の説明】

１０１キーワードスポッティング手段、１０３キー
ワードスポッティング結果に基づく教師なし話者適応化
手段（教師なし話者適応化手段）、２０３キーワード
スポッティング結果と音韻タイプライタ型音声認識の結
果に基づく教師なし話者適応化手段（教師なし話者適応
化手段）、３０３キーワードスポッティング結果と音
素タイプライタ型音声認識の結果に基づく教師なし話者
適応化手段（教師なし話者適応化手段）、４０３キー
ワードスポッティング結果と音節タイプライタ型音声認
識の結果に基づく教師なし話者適応化手段（教師なし話
者適応化手段）、５０３キーワードスポッティング結
果とＨＭＭ全接続型音声認識の結果に基づく教師なし話
者適応化手段（教師なし話者適応化手段）、２０１音韻
タイプライタ型音声認識手段、３０１音素タイプライ
タ型音声認識手段（音韻タイプライタ型音声認識手
段）、４０１音節タイプライタ型音声認識手段（音韻
タイプライタ型音声認識手段）、５０１ＨＭＭ状態全
接続型音声認識手段（音韻タイプライタ型音声認識手
段）、１００２音声特徴量抽出手段、１００３照合
手段、１００５標準パタン、１００８教師なし話者
適応標準パタン（教師なし話者適応標準パタン）。

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５３５Ｃ５５１Ｂ

Claims

【特許請求の範囲】

【請求項１】適応学習データとして未知の発話内容の
音声を使用する教師なし話者適応化装置であって、音声
認識に用いる標準パタンを任意の話者に適応する話者適
応標準パタンに更新する教師なし話者適応化装置におい
て、話者の入力音声から音声特徴量を抽出する音声特徴量抽
出手段と、前記音声特徴量抽出手段が抽出した音声特徴量と前記標
準パタンとを照合することによりキーワード及び該キー
ワードの区間を認識して抽出し出力するキーワードスポ
ッティング手段と、前記標準パタン、前記キーワードスポッティング手段が
抽出したキーワード、及び該キーワードとして抽出され
た区間の音声特徴量に基づいて、前記標準パタンを前記
話者適応標準パタンへ更新する教師なし話者適応化手段
とを備えたことを特徴とする教師なし話者適応化装置。
【請求項２】適応学習データとして未知の発話内容の
音声を使用する教師なし話者適応化装置であって、音声
認識に用いる標準パタンを任意の話者に適応する話者適
応標準パタンに更新する教師なし話者適応化装置におい
て、話者の入力音声から音声特徴量を抽出する音声特徴量抽
出手段と、前記音声特徴量抽出手段が抽出した音声特徴量と前記標
準パタンとを照合することによりキーワード及び該キー
ワードの区間を認識して抽出し出力するキーワードスポ
ッティング手段と、前記キーワードの区間以外の区間については、全ての音
声単位を組み合わせて最も照合スコアが高い系列を認識
結果として出力する音韻タイプライタ型音声認識手段
と、前記標準パタン、前記キーワードスポッティング手段が
抽出したキーワード、該キーワードとして抽出された区
間の音声特徴量、及び前記音韻タイプライタ型音声認識
手段の認識結果に基づいて、前記標準パタンを前記話者
適応標準パタンへ更新する教師なし話者適応化手段とを
備えたことを特徴とする教師なし話者適応化装置。
【請求項３】前記音韻タイプライタ型音声認識手段の
音声単位は、音素であることを特徴とする請求項２記載
の教師なし話者適応化装置。
【請求項４】前記音韻タイプライタ型音声認識手段の
音声単位は、音節であることを特徴とする請求項２記載
の教師なし話者適応化装置。
【請求項５】前記音韻タイプライタ型音声認識手段の
音声単位は、隠れマルコフモデルの１状態であることを
特徴とする請求項２記載の教師なし話者適応化装置。
【請求項６】前記キーワードスポッティング手段は、
複数の認識結果の候補を出力し、前記教師なし話者適応化手段は、前記複数の候補につい
て各々話者適応標準パタンを作成し、これらの話者適応
標準パタンを合成して１つの話者適応標準パタンを出力
することを特徴とする請求項１または２に記載の教師な
し話者適応化装置。
【請求項７】前記キーワードスポッティング手段は、
複数の認識結果の候補を出力し、前記教師なし話者適応化手段は、前記複数の候補につい
て各々のキーワード区間の音声特徴量に対して標準パタ
ンの更新時の寄与度を表す係数を計算し、該係数に基づ
いて話者適応標準パタンを出力することを特徴とする請
求項１または２に記載の教師なし話者適応化装置。
【請求項８】前記教師なし話者適応化手段は、入力音
声により話者適応標準パタンを更新する際、以前の入力
音声により更新された話者適応標準パタンを標準パタン
として使用することを特徴とする請求項１乃至７のいず
れか記載の教師なし話者適応化装置。
【請求項９】前記教師なし話者適応化手段は、標準パ
タンのパラメータを更新することにより、話者適応標準
パタンに更新することを特徴とする請求項１乃至８のい
ずれか記載の教師なし話者適応化装置。
【請求項１０】請求項１乃至９のいずれかに記載の教
師なし話者適応化装置によって更新された話者適応標準
パタンと、話者の入力音声から特徴量を抽出する音声特徴量抽出手
段と、前記音声特徴量抽出手段が抽出した音声特徴量と前記話
者適応標準パタンとを照合して認識結果を出力する照合
手段とを備えたことを特徴とする音声認識装置。
【請求項１１】適応学習データとして未知の発話内容
の音声を使用する教師なし話者適応化方法であって、音
声認識に用いる標準パタンを任意の話者に適応する話者
適応標準パタンに更新する教師なし話者適応化方法にお
いて、話者の入力音声から音声特徴量を抽出し、前記音声特徴量と前記標準パタンとからキーワードスポ
ッティングして認識結果としてキーワードと該キーワー
ドの区間を抽出して出力し、前記標準パタン、前記キーワードスポッティングして抽
出されたキーワード、及び該キーワードとして抽出され
た区間の音声特徴量に基づいて、前記標準パタンを前記
話者適応標準パタンへ更新する教師なし話者適応化を行
うことを特徴とする教師なし話者適応化方法。
【請求項１２】適応学習データとして未知の発話内容
の音声を使用する教師なし話者適応化方法であって、音
声認識に用いる標準パタンを任意の話者に適応する話者
適応標準パタンに更新する教師なし話者適応化方法にお
いて、話者の入力音声から音声特徴量を抽出し、前記音声特徴量と前記標準パタンとからキーワードスポ
ッティングして認識結果としてキーワードと該キーワー
ドの区間を抽出して出力し、前記キーワード区間以外の音声区間については、全ての
音声単位を組み合わせて最も照合スコアが高い系列を認
識結果として出力する音韻タイプライタを用いて認識
し、前記標準パタン、前記キーワードスポッティングして抽
出されたキーワード、該キーワードとして抽出された区
間の音声特徴量、前記音韻タイプライタの認識結果に基
づいて、前記標準パタンを前記話者適応標準パタンへ更
新する教師なし話者適応化を行うことを特徴とする教師
なし話者適応化方法。
【請求項１３】前記音韻タイプライタによる音声認識
の音声単位は、音素であることを特徴とする請求項１２
記載の教師なし話者適応化方法。
【請求項１４】前記音韻タイプライタによる音声認識
の音声単位は、音節であることを特徴とする請求項１２
記載の教師なし話者適応化方法。
【請求項１５】前記音韻タイプライタによる音声認識
の音声単位は、隠れマルコフモデルの１状態であること
を特徴とする請求項１２記載の教師なし話者適応化方
法。
【請求項１６】キーワードスポッティングによって複
数の認識結果の候補を出力し、複数のキーワードスポッティング結果の候補について各
々教師なし話者適応化によって複数の話者適応標準パタ
ンを出力し、これらの話者適応標準パタンを合成して１
つの話者適応標準パタンを出力することを特徴とする請
求項１１または１２に記載の教師なし話者適応化方法。
【請求項１７】キーワードスポッティングによって複
数の認識結果の候補を出力し、複数のキーワードスポッティング結果の候補について各
々のキーワード区間の音声特徴量に対して標準パタンの
更新時の寄与度を表す係数を計算し、該係数に基づいて
パラメータ更新を行うことを特徴とする請求項１１また
は１２に記載の教師なし話者適応化方法。
【請求項１８】前記教師なし話者適応化は、入力音声
により話者適応標準パタンを更新する際、以前の入力音
声により更新された話者適応標準パタンを標準パタンと
して使用することを特徴とする請求項１１乃至１７のい
ずれかに記載の教師なし話者適応化方法。
【請求項１９】前記教師なし話者適応化は、標準パタ
ンのパラメータを更新することにより、話者適応標準パ
タンに更新することを特徴とする請求項１１乃至１８の
いずれかに記載の教師なし話者適応化方法。
【請求項２０】請求項１１乃至１９のいずれかに記載
の話者適応化方法によって更新された話者適応標準パタ
ンと、前記抽出された音声特徴量とを照合して認識結果
を出力することを特徴とする音声認識方法。
【請求項２１】適応学習データとして未知の発話内容
の音声を使用する教師なし話者適応化プログラムであっ
て、音声認識に用いる標準パタンを任意の話者に適応す
る話者適応標準パタンに更新する教師なし話者適応化プ
ログラムを記録した記録媒体において、話者の入力音声から音声特徴量を抽出する音声特徴量抽
出手順と、前記音声特徴量抽出手順が抽出した音声特徴量と前記標
準パタンとを照合することによりキーワードと該キーワ
ードの区間を認識して抽出し出力するキーワードスポッ
ティング手順と、前記標準パタン、前記キーワードスポッティング手順が
抽出したキーワード、及び該キーワードとして抽出され
た区間の音声特徴量に基づいて、前記標準パタンを前記
話者適応標準パタンへ更新する教師なし話者適応化手順
とを備えたことを特徴とする教師なし話者適応化プログ
ラムを記録した記録媒体。
【請求項２２】適応学習データとして未知の発話内容
の音声を使用する教師なし話者適応化プログラムであっ
て、音声認識に用いる標準パタンを任意の話者に適応す
る話者適応標準パタンに更新する教師なし話者適応化プ
ログラムを記録した記録媒体において、話者の入力音声から音声特徴量を抽出する音声特徴量抽
出手順と、前記音声特徴量抽出手順が抽出した音声特徴量と前記標
準パタンとを照合することによりキーワードと該キーワ
ードの区間を認識して抽出し出力するキーワードスポッ
ティング手順と、前記キーワード区間以外の音声区間については、全ての
音声単位を組み合わせて最も照合スコアが高い系列を認
識結果として出力する音韻タイプライタ型音声認識手順
と、前記標準パタン、前記キーワードスポッティング手順が
抽出したキーワード、該キーワードとして抽出された区
間の音声特徴量、及び前記音韻タイプライタ型音声認識
手順の認識結果に基づいて、前記標準パタンを前記話者
適応標準パタンへ更新する教師なし話者適応化手順とを
備えたことを特徴とする教師なし話者適応化プログラム
を記録した記録媒体。
【請求項２３】前記音韻タイプライタ型音声認識手順
の音声単位は、音素であることを特徴とする請求項２２
記載の教師なし話者適応化プログラムを記録した記録媒
体。
【請求項２４】前記音韻タイプライタ型音声認識手順
の音声単位は、音節であることを特徴とする請求項２２
記載の教師なし話者適応化プログラムを記録した記録媒
体。
【請求項２５】前記音韻タイプライタ型音声認識手順
の音声単位は、隠れマルコフモデルの１状態であること
を特徴とした請求項２２記載の教師なし話者適応化プロ
グラムを記録した記録媒体。
【請求項２６】前記キーワードスポッティング手順
は、複数の認識結果の候補を出力し、前記教師なし話者適応化手順は、前記複数の候補につい
て各々話者適応標準パタンを作成し、これらの話者適応
標準パタンを合成して１つの話者適応標準パタンを出力
することを特徴とする請求項２１または２２に記載の教
師なし話者適応化プログラムを記録した記録媒体。
【請求項２７】前記キーワードスポッティング手順
は、複数の認識結果の候補を出力し、前記教師なし話者適応化手順は、前記複数の候補につい
て各々のキーワード区間の音声特徴量に対して標準パタ
ンの更新時の寄与度を表す係数を計算し、該係数に基づ
いて話者適応標準パタンを出力することを特徴とする請
求項２１または２２に記載の教師なし話者適応化プログ
ラムを記録した記録媒体。
【請求項２８】前記教師なし話者適応化手順は、入力
音声により話者適応標準パタンを更新する際、以前の入
力音声により更新された話者適応標準パタンを標準パタ
ンとして使用することを特徴とする請求項２１乃至２７
のいずれか記載の教師なし話者適応化プログラムを記録
した記録媒体。
【請求項２９】前記教師なし話者適応化手順は、標準
パタンのパラメータを更新することにより、話者適応標
準パタンに更新することを特徴とする請求項２１乃至２
８のいずれか記載の教師なし話者適応化プログラムを記
録した記録媒体。
【請求項３０】請求項２１乃至２９のいずれかに記載
の教師なし話者適応化プログラムによって更新された話
者適応標準パタンと話者の入力音声とから特徴量を抽出
する音声特徴量抽出手順と、前記音声特徴量抽出手順が抽出した音声特徴量と前記話
者適応標準パタンとを照合して認識結果を出力する照合
手順とを備えたことを特徴とする音声認識プログラムを
記録した記録媒体。