JP5229219B2

JP5229219B2 - 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム

Info

Publication number: JP5229219B2
Application number: JP2009506262A
Authority: JP
Inventors: 真宏谷; 正江森; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-27
Filing date: 2008-02-29
Publication date: 2013-07-03
Anticipated expiration: 2028-02-29
Also published as: US20100114572A1; WO2008117626A1; US8452596B2; JPWO2008117626A1

Description

本発明は、話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関し、特に、発声話者に音響的特徴量が近い話者を選択するための話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関する。

音声認識処理等において用いられる話者適応モデルを作成する装置として、あらかじめ記憶装置に記憶されている多数の話者モデルの中から、音響的特徴量が発声話者の音響的特徴量に近い話者モデルを選択し、選択した話者モデルにもとづいて発声話者の話者適応モデルを作成する装置がある。そのような話者適応モデル作成装置における話者選択装置の一例が、非特許文献１や特許文献１に記載されている。なお、以下、発声話者の音響的特徴量に近い話者モデルを選択することを、「話者を選択」または「話者選択」ということがある。また、「話者適応モデル」を、「適応モデル」ということがある。

非特許文献１に記載されている話者適応モデル作成装置において用いられている適応モデル作成方法は、発声話者に音響的に近い話者を選択し、選択された話者の十分統計量を用いて発声話者に適応した音素モデルを作成するという方法で、主に３つのステップから構成されている。

まず、話者毎のＨＭＭ（Hidden Markov Model ：隠れマルコフモデル）に関する十分統計量を計算し蓄積しておく。十分統計量とは、データベースの性質を表す十分な統計量のことであり、非特許文献１に記載された方法では、ＨＭＭの音素モデルにおける平均、分散およびＥＭカウントである。ＥＭカウントとは、ＥＭアルゴリズムにおいて、状態ｉから状態ｊの正規分布ｋに遷移する確率的度数である。十分統計量は、話者毎の音声データを用いて、ＥＭアルゴリズムで不特定話者モデルから１回学習することによって計算される。

次に、ＧＭＭ（Gaussian Mixture Model：混合正規分布で表現した観測データの確率モデル）で表現された話者モデルを用いて、発声話者に音響的特徴が近い話者を選択する。具体的には、入力音声を話者モデルに入力して得られた音響的なゆう度（尤度）の高い上位Ｎ人の話者を選択する。なお、話者の選択は、その話者に対応する十分統計量を選択することに等しい。非特許文献１に記載された方法では、話者モデルを、音素を区別することなく１状態６４混合のＧＭＭを用いてあらかじめ作成しておく。また、Ｎの値は経験的に決定し、適応データとして任意の１発声を用いている。

最後に、話者モデルを用いることによって選択された話者に対応する十分統計量を用いて、発声話者に適応した音素モデルを統計処理によって作成する。統計処理は、式１〜式３を用いて行われる。

ここで、μ _ｉ ^ａｄｐ（ｉ＝１，・・・，Ｎ _ｍｉｘ）、ν _ｉ ^ａｄｐ（ｉ＝１，・・・，Ｎ _ｍｉｘ）は、それぞれ、適応モデルのＨＭＭの各状態における正規分布の平均、分散であり、Ｎ_ｍｉｘは混合分布数である。また、ａ ^ａｄｐ［ｉ］［ｊ］（ｉ，ｊ＝１，・・・，Ｎ _{ｓｔａｔｅ}）は、状態ｉから状態ｊへの遷移確率であり、Ｎ _{ｓｔａｔｅ}は、状態数である。Ｎ _ｓｅｌは、選択した話者の数であり、μ _ｉ ^ｊ（ｉ＝１，・・・，Ｎ _ｍｉｘ，ｊ＝１，・・・，Ｎ _ｓｅｌ）、ν _ｉ ^ｊ（ｉ＝１，・・・，Ｎ _ｍｉｘ，ｊ＝１，・・・，Ｎ _ｓｅｌ）は、それぞれ、選択話者の音素モデルの平均、分散である。また、Ｃ _ｍｉｘ ^ｊ（ｊ＝１，・・・，Ｎ_ｓｅｌ）、Ｃ _{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，・・・，Ｎ _ｓｅｌ、ｉ，ｊ＝１，・・・，Ｎ _{ｓｔａｔｅ}）は、それぞれ、正規分布におけるＥＭカウント、状態遷移に関するＥＭカウントである。

特許文献１に記載されている適応モデル作成装置は、雑音環境における適応モデルの精度の低下を防ぐことを目的として非特許文献１に記載されている適応モデル作成装置を改良した装置である。特許文献１に記載されている適応モデル作成装置は、蓄積部と、第１の選択部と、第２の選択部と、モデル作成部とを備えている。蓄積部は、雑音が重畳された音声データを音響的な近さにもとづいてグループ化することによって得られた複数のグループの各々について、グループに含まれる音声データを用いて作成された十分統計量を蓄積する。例えば、（雑音の種類×ＳＮ比）毎にグループを作り、グループ内に、（話者×話者の声のバリエーション）毎の十分統計量を蓄積する。第１の選択部は、発声話者の音声データに音響的に近いグループを複数のグループの中から選択する。第２の選択部は、第１の選択部によって選択されたグループについての十分統計量の中から発声話者の音声データに音響的に近い十分統計量を選択する。モデル作成部は、第２の選択部によって選択された十分統計量を用いて音響モデルを作成する。
特許第３７５６８７９号公報「十分統計量と話者距離を用いた音韻モデルの教師なし学習法」、芳澤伸一、馬場朗、松浪加奈子、米良祐一郎、山田実一、李晃伸、鹿野清宏著、電子情報通信学会論文誌、２００２年３月、Ｖｏｌ．Ｊ８５−Ｄ−II Ｎｏ．３、３８２−３８９頁

従来の話者適応モデル作成装置における話者選択装置の問題点は、一連の会話や通話内の時間的な変動に必ずしも対応できないことである。その理由は、任意の数発話（非特許文献１に記載されている適応モデル作成方法や特許文献１に記載されている適応モデル作成方法では任意の１発話であるが、特に１発話でなくてもよいので、任意の数発話とする。）を適応データとして用い、一度だけ話者Ｎ人を選択し（特許文献１に記載されている適応モデル作成方法では、グループ選択と話者選択の二度）、作成した適応モデルを、一連の会話や通話全体の中の時間的に変動する全ての発話に対して使用しているためである。

任意の数発話（特に、長時間の発話や、一連の会話や通話全て）を適応データとして用い、一度だけ話者Ｎ人を選択する手法は、大局的なモデルすなわち一連の会話や通話全てを構成する発話のいずれにもそれなりにしか当てはまらないモデルが構築され易く、一連の会話や通話内の時間的な変動を考慮できていない。一方、１発話のみで話者を選択して適応モデルを作成する従来の適応モデル作成方法と同様な枠組みで、１発話毎に話者を選択し、順次適応モデルを作成する方法も考えられるが、この方法では局所的なモデルすなわち特定の条件下でのみ当てはまるモデルが構築され易く、安定面で大局的なモデルに劣る。

そこで、本発明は、話し言葉のように、一連の会話や通話内における時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、変化に対応しながら正確で安定的に発声話者に音響的特徴量が近い話者を選択できる話者選択装置、話者選択方法および話者選択用プログラム、ならびに話者選択装置を利用した話者適応モデル作成装置を提供することを目的とする。

本発明による話者選択装置は、複数の話者モデルを記憶する話者モデル記憶手段と、入力された音声信号から特徴量を算出する音響特徴量算出手段と、音響特徴量算出手段が算出した特徴量に対する話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を算出する話者スコア算出手段とを備え、話者スコア算出手段が算出したゆう度を用いて話者を選択する話者選択装置であって、話者スコア算出手段は、第１の基準にもとづく第１ゆう度（例えば、長時間の発声データに対するＧＭＭのゆう度）と第２の基準にもとづく第２ゆう度（例えば、短時間の発声データに対するＧＭＭのゆう度）とを算出し、第１ゆう度が高い所定数の話者モデルに対応する話者を選択する第１選択手段（例えば、長時間話者選択手段２３）と、第１選択手段が選択した話者を、所定数よりも少ない数の第２ゆう度が高い話者モデルに絞り込む第２選択手段（例えば、短時間話者選択手段２４）とを備え、第２選択手段が選択した話者に対応する情報（例えば、話者ＩＤ）を順次出力することを特徴とする。

本発明による好ましい態様の話者選択装置は、話者スコア算出手段が、相対的に長時間（例えば、任意の数発話の期間。一例として長時間の発話や一連の会話や通話全ての期間）の音声信号にもとづく長時間ゆう度を第１ゆう度として算出し、相対的に短時間（例えば、短時間の発話の期間。ただし、任意の数発話より短い単位であれば、発話毎でなくてもよい）の音声信号にもとづく短時間ゆう度を第２ゆう度として算出し、第１選択手段が、長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、第２選択手段が、短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段である。

本発明による他の好ましい態様の話者選択装置は、話者スコア算出手段が、相対的に短時間の音声信号にもとづく短時間ゆう度を第１ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を第２ゆう度として算出し、第１選択手段が、短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、第２選択手段が、長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段である。

長時間話者選択手段が、話者スコア算出手段が算出したゆう度とあらかじめ定められたゆう度に関する第１の閾値を用いて話者を選択し、短時間話者選択手段が、話者スコア算出手段が算出したゆう度とあらかじめ定められたゆう度に関する閾値であって第１の閾値と同じ値または異なる値である第２の閾値を用いて話者を選択するように構成されていてもよい。

発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段を備え、話者スコア算出手段は、発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出するように構成されていてもよい。

話者適応モデル作成装置の好ましい態様は、上記の話者選択装置と、話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段とを備えている。

話者適応モデル作成装置の他の好ましい態様は、上記の話者選択装置と、長時間話者選択手段が選択した複数の話者のそれぞれ対応する十分統計量から統計処理計算によって長時間話者に関する１つの十分統計量を作成する手段（例えば、十分統計量統合手段２６）と、短時間話者選択手段が選択した複数の話者のそれぞれ対応する十分統計量から統計処理計算によって短時間話者に関する１つの十分統計量を作成する手段（例えば、第４の実施の形態の適応モデル作成手段２５で実現される。）と、各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段とを備えている。

話者適応モデル作成装置の別の好ましい態様は、上記の話者選択装置と、短時間話者選択手段が選択した話者の出現頻度（例えば、出現した話者ＩＤのヒストグラム）を計算する短時間話者統合手段と、話者の出現頻度にもとづいて十分統計量を重み付け統合して１つの話者適応モデルを作成する適応モデル作成手段（例えば、第５の実施の形態の適応モデル作成手段２５）とを備えている。

長時間話者選択手段は、例えば、一連の会話や通話のように多くの発話データを用いるので話者選択精度は安定している。従って、長時間話者選択手段が選択した話者群の中から、短時間話者選択手段が、例えば、１発話のように少ない発話データを用いて、その１発話に適した話者を絞り込むことによって、本発明の目的を達成することができる。また、短時間話者選択手段が選択した話者群の中から、長時間話者選択手段が話者を絞り込むことによっても、本発明の目的を達成することができる。

本発明の効果は、発話者に音響的特徴量が近い話者を、発話毎に、高精度に選択できることである。その理由は、第２選択手段が、第１選択手段が選択した話者を、所定数よりも少ない数の第２ゆう度が高い話者モデルに絞り込むからである。具体的には、例えば、一連の会話や通話のように多くの発話データを用いて、発声話者に音響的特徴量が近い話者を選択した後、その話者群の中から、例えば、１発話のように少ない発話データを用いて、その１発話に適した話者を選ぶことによって、安定した話者選択精度を保ちながら、発話毎に有力な話者をさらに絞り込めるためである。１発話のように比較的短い発話データで話者を選択することによって、一連の会話や通話内の時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、この変化に対応できる。

本発明の第１の実施の形態の構成を示すブロック図である。本発明の第１の実施の形態の動作を示す流れ図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態の動作を示す流れ図である。本発明の第３の実施の形態の構成を示すブロック図である。本発明の第３の実施の形態の動作を示す流れ図である。話者スコア算出手段で用いる確率モデルの例を示す図である。本発明の第４の実施の形態の動作を示すブロック図である。本発明の第４の実施の形態の動作を示す流れ図である。本発明の第５の実施の形態の動作を示すブロック図である。本発明の第５の実施の形態の動作を示す流れ図である。話者モデルの一例を示す説明図である。対数ゆう度の一例を示す説明図である。話者選択の一例を示す説明図である。

１入力装置
２データ処理装置
３記憶装置
２１音響特徴量算出手段
２２話者スコア算出手段
２３長時間話者選択手段
２４短時間話者選択手段
２５適応モデル作成手段
２６十分統計量統合手段
２７短時間話者統合手段
３１話者モデル記憶部
３２十分統計量記憶部
３３発話依存関係記憶部

次に、本発明を実施するための最良の形態を、図面を参照して詳細に説明する。

図１は、本発明の話者選択装置の第１の実施の形態の構成を示すブロック図である。図１に示すように、第１の実施の形態の話者選択装置は、マイクロフォン等の入力装置１と、プログラム制御により動作する中央演算装置（ＣＰＵ）を含むデータ処理装置２と、情報を記憶する記憶装置３とを備えている。

記憶装置３は、話者モデル記憶部３１を含む。話者モデル記憶部３１は、それぞれＧＭＭで表現された複数の話者モデルを記憶している。話者モデル記憶部３１に記憶されている話者モデルは、話者スコアを算出する際に話者スコア算出手段２２に読み込まれる。ここでは、話者モデルとして、非特許文献１に記載されている話者モデルと同様に、音素を区別することなく１状態６４混合のＧＭＭを用いて事前に作成しておく。ただし、話者モデルはＧＭＭによるものでなくてもよい。例えば、ＨＭＭ、ＳＶＭ（Support Vector Machine）、ＮＮ（Neural Network）、ＢＮ（Bayesian Network）によるものでもよい。

データ処理装置２は、音響特徴量算出手段２１と、話者スコア算出手段２２と、長時間話者選択手段２３と、短時間話者選択手段２４とを備えている。なお、それらの手段は、ソフトウェアで実現可能である。

音響特徴量算出手段２１は、マイクロフォン等の入力装置１で録音される音声信号を入力し、音声認識に必要な特徴量を計算し、話者スコア算出手段２２に出力する。音声信号は、例えば、サンプリング周波数４４．１ｋＨｚ、１６ｂｉｔでＡ−Ｄ変換された音声データである。特徴量は、例えば、下記の文献１に記載されているメルケプストラム係数（ＭＦＣＣ）やそれらの変化率である。音響特徴量算出手段２１は、音声データをフレームと呼ばれる１０ｍｓｅｃ程度の一定区間で切り出し、プリエンファシス、高速フーリエ変換（ＦＦＴ）、フィルタバンク分析、コサイン変換し、特徴ベクトルの時系列のような形式で抽出する。なお、特徴量について特に規定はなく、音声データそのものを用いることもできる。

話者スコア算出手段２２は、話者モデル記憶部３１にあらかじめ記憶されているＧＭＭで表現された話者モデルを読み込む。そして、音響特徴量算出手段２１が抽出するフレーム単位の特徴量を入力し、話者モデルのそれぞれについて話者スコアを計算し、話者スコアとそれに対応する話者（具体的には、例えば、話者を識別する話者ＩＤすなわち話者モデルを識別する話者ＩＤ）との組を、長時間話者選択手段２３と短時間話者選択手段２４とに出力する。話者スコアは、入力された特徴量に対するＧＭＭの対数ゆう度である。話者スコア算出手段２２は、発話単位、フレーム毎に計算されたＧＭＭの対数ゆう度を任意のフレームの数だけ加算することによって、一連の会話や通話単位の話者スコアを計算する。すなわち、任意のフレームの長さ（または発話の長さ）の話者スコアを計算できる。ここでは、一連の会話や通話全てのように比較的長い時間（以下、長時間と呼ぶ。）と、１発話のように比較的短い時間（以下、短時間と呼ぶ。）における話者スコアを計算し、対応する話者ＩＤと話者スコアとの組をそれぞれ、長時間話者選択手段２３と短時間話者選択手段２４とに出力する。長時間は、短時間に対して相対的に長い時間であるが、長時間の範囲（例えば、一連の会話や通話全て）および短時間の範囲（例えば、１発話）はあらかじめ決められている。また、長時間および短時間は、時間的には不定（一定時間ではない）でもよい。

長時間話者選択手段２３は、話者スコア算出手段２２から出力される長時間における話者ＩＤと話者スコアとの組を入力し、スコアの高い上位Ｎｌ人の話者ＩＤを、短時間話者選択手段２４に出力する。なお、非特許文献１では、選択する話者の数（ここではＮｌの値）は経験的に決定しているが、あらかじめ話者スコアに関する閾値を設定し、この閾値を基準にＮｌの値を決定してもよい。以下、ここで選択する、スコアの高い上位Ｎｌ人を長時間話者と呼ぶ。

短時間話者選択手段２４は、話者スコア算出手段２２から出力される短時間における話者ＩＤと話者スコアとの組と、長時間話者選択手段２３から出力される長時間話者Ｎｌ人を入力し、長時間話者Ｎｌ人の中から、スコアの高い上位Ｎｓ（＜Ｎｌ）人の話者ＩＤを選択する。非特許文献１に記載されている話者選択装置では、選択する話者の数（ここでは、Ｎｓの値）は経験的に決定されているが、本実施の形態において、あらかじめ話者スコアに関する第２の閾値を設定し、第２の閾値を基準にＮｓの値を決定してもよい。なお、話者スコアに関する閾値を設定する場合、第２の閾値は、長時間話者選択手段２３が用いる話者スコアに関する第１の閾値（Ｎｌの値を決定するための閾値）と同じでもよいし異なっていてもよい。また、閾値は、一例として、過去に行われた話者選択の結果を参照して設定される。以下、ここで選択するスコアの高い上位Ｎｓ人を短時間話者と呼ぶ。

なお、図１における長時間話者選択手段２３と短時間話者選択手段２４とを入れ替えてもよい。入れ替えた場合には、まず、短時間話者選択手段２４が、話者スコアの高い上位Ｎｓ人の話者を順次選択した後、その中から、長時間話者選択手段２３が、話者スコアが高い上位Ｎｌ（＜Ｎｓ）人の話者を選択する。

次に、図２のフローチャートを参照して、図１に示された第１の実施の形態の話者選択装置の動作を詳細に説明する。

まず、音響特徴量算出手段２１は、入力装置１から与えられた音声信号を読み込み、メルケプストラム係数（ＭＦＣＣ）やそれらの変化率といった、音声認識に必要な特徴量を、フレーム毎に算出する（ステップＡ１）。

次に、話者スコア算出手段２２は、話者モデル記憶部３１に記憶されているＧＭＭで表現された話者モデルを読み込み、ステップＡ１の処理で得られた特徴量に対するＧＭＭの対数ゆう度をフレーム毎に算出し、短時間および長時間に相当するフレームの数だけ加算することによって、短時間話者スコア（短時間ゆう度）と長時間話者スコア（長時間ゆう度）とをそれぞれ算出する（ステップＡ２）。例えば、長時間に相当する音声を一連の会話全てとし、短時間に相当する音声を１発話とすると、長時間話者スコア（話者ＩＤと話者スコアとの組）が１つだけ存在するのに対して、短時間話者スコア（話者ＩＤと話者スコアとの組）は一連の会話全てを構成する発話の数だけ存在する。

続いて、長時間話者選択手段２３は、ステップＡ２の処理で得られた長時間話者スコア（話者ＩＤと話者スコアとの組）を読み込み、スコアを比較することによってスコアの高い上位Ｎｌ人の話者ＩＤを選択し、選択したスコアの高い上位Ｎｌ人の話者ＩＤを短時間話者選択手段２４に出力する（ステップＡ３）。

最後に、短時間話者選択手段２４は、ステップＡ３の処理で得られた長時間話者Ｎｌ人の話者ＩＤと、ステップＡ２の処理で得られた短時間話者スコア（話者ＩＤと話者スコアとの組）とを読み込む。短時間話者選択手段２４は、短時間話者スコアを、例えば発話の数だけ順次読み込む。そして、読み込んだ短時間話者スコアのうちで長時間話者Ｎｌ人に含まれる話者の短時間話者スコアを比較することによって、長時間話者Ｎｌ人の中から、短時間話者スコアが高い上位Ｎｓ（＜Ｎｌ）人の話者ＩＤを選択し、選択した話者ＩＤを順次出力する（ステップＡ４）。

次に、本実施の形態の効果を説明する。本実施の形態では、話者スコア算出手段２２が算出する長時間話者スコアから、長時間話者選択手段２３が音響的特徴が近い話者（長時間話者）を選択した後、話者スコア算出手段２２が算出する短時間話者スコアから、短時間話者選択手段２４が、音響的特徴が近い話者（短時間話者）を前段（長時間話者選択手段２３）で選択された長時間話者の中から選択し、選択した話者のＩＤを順次出力するというように構成されているので、話し言葉のように、一連の会話や通話内の時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、変化に対応しながら高精度に話者を選択できる。

次に、本発明の第２の実施の形態を図面を参照して詳細に説明する。図３は、本発明の話者選択装置の第２の実施の形態の構成を示すブロック図である。

図３に示すように、第２の実施の形態の話者選択装置は、記憶装置３が、図１に示された第１の実施の形態における話者モデル記憶部３１に加えて、十分統計量記憶部３２を含む点が第１の実施の形態のものとは異なる。また、データ処理装置２が、第１の実施の形態における構成に加えて、適応モデル作成手段２５を含む点が第１の実施の形態とは異なる。なお、図３における記憶装置３、音響特徴量算出手段２１、話者スコア算出手段２２、長時間話者選択手段２３および短時間話者選択手段２４を含む装置を話者選択装置とし、さらに適応モデル作成手段２５を含む装置を話者適応モデル作成装置と定義してもよい。

十分統計量記憶部３２は、話者毎のＨＭＭに関する十分統計量を記憶している。記憶している十分統計量は、話者適応モデルを作成する際に適応モデル作成手段２５に読み込まれる。十分統計量は、データベースの性質を表す十分な統計量のことであり、非特許文献１に記載されている話者選択装置の場合と同様に、ＨＭＭにより表現された音素モデルにおける平均、分散、ＥＭカウントである。十分統計量を、男性話者の場合は男性の音声のみで学習した音素モデルから、女性話者の場合は女性の音声のみで学習した音素モデルから、ＥＭアルゴリズムにより１回学習することにより事前に計算し十分統計量記憶部３２に保存しておく。

適応モデル作成手段２５は、短時間話者選択手段２４から出力される話者ＩＤを入力し、十分統計量記憶部３２にあらかじめ記憶されている十分統計量の中から、この話者ＩＤに対応する十分統計量を読み込む。読み込んだ十分統計量を用いて、統計処理計算により話者適応モデルを作成し出力する。適応モデル作成手段２５は、非特許文献１に記載されている話者選択装置の場合と同様に、上記の式１〜式３を用いて統計処理計算を行う。

次に、図４のフローチャートを参照して図３に示された第２の実施の形態の話者選択装置の全体の動作について詳細に説明する。

図４におけるステップＡ１，Ａ２，Ａ３，Ａ４で示される音響特徴量算出手段２１、話者スコア算出手段２２、長時間話者選択手段２３および短時間話者選択手段２４の動作は、第１の実施の形態におけるそれらの動作と同じであり、説明を省略する。

第１の実施の形態では、短時間話者選択手段２４で選択された話者ＩＤを順次出力していた。本実施の形態では、適応モデル作成手段２５が、短時間話者選択手段２４で選択された話者に対応する十分統計量を十分統計量記憶部３２から読み込み、統計処理計算によって話者適応モデルを順次作成する（ステップＡ５）。適応モデル作成手段２５は、短時間話者選択手段２４で選択された話者に対応する十分統計量を、例えば、話者スコア算出手段２２が出力する、入力された特徴量に対するＧＭＭのゆう度を基に重み付けして統合したり、任意の値で重み付けして統合してもよい。ＧＭＭのゆう度を基に重み付けして統合する一例として、正規化（Ｗａ（話者ａの重み）＝Ｌａ（話者ａに関するＧＭＭのゆう度）／Ｌ１（１位話者に関するＧＭＭのゆう度））が挙げられる（ここでは、選択された話者の中でゆう度最大の話者を１位話者と呼ぶことにする。）。また、任意の値で重み付けして統合する一例として線形重み付けが挙げられる。

次に、本発明の第２の実施の形態の効果を説明する。第２の実施の形態では、話者スコア算出手段２２が算出する長時間話者スコアから、長時間話者選択手段２３が音響的特徴が近い話者（長時間話者）を選択した後、話者スコア算出手段２２が算出する短時間話者スコアから、短時間話者選択手段２４が音響的特徴が近い話者（短時間話者）を前段（話者スコア算出手段２２）で選択された長時間話者の中から選択し、適応モデル作成手段２５が話者適応モデルを順次作成するというように構成されているので、一連の会話や通話内の時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、変化に対応した安定的な適応モデルを作成できる。

なお、図３における長時間話者選択手段２３と短時間話者選択手段２４とを入れ替えてもよい。入れ替えた場合には、まず、短時間話者選択手段２４が、話者スコアの高い上位Ｎｓ人の話者を順次選択した後、その中から、長時間話者選択手段２３が、話者スコアが高い上位Ｎｌ（＜Ｎｓ）人の話者を選択する。

次に、本発明の第３の実施の形態を図面を参照して詳細に説明する。図５は、本発明の話者選択装置の第３の実施の形態の構成を示すブロック図である。

図５に示すように、本発明の第３の実施の形態の話者選択装置は、記憶装置３が、図１に示された第１の実施の形態における話者モデル記憶部３１に加えて、発話依存関係記憶部３３を含む点が第１の実施の形態のものとは異なる。また、話者スコア算出手段２２の動作は、発話依存関係記憶部３３の出力も入力とするので、図１に示された話者スコア算出手段２２の動作とは異なる。

発話依存関係記憶部３３は、発話間（単位は発話でなくてもよく、例えば、フレームでもよい）の時間的な依存関係を表現する遷移確率をあらかじめ記憶している。遷移確率は、ある話者からある話者への音響的特徴に関する遷移のし易さ（または、し難さ）を確率値で表現したものである。ある話者とは、話者モデル記憶部３１と十分統計量記憶部３２とに記憶されている複数の話者の中の任意の話者である。

話者スコア算出手段２２は、話者モデル記憶部３１にあらかじめ記憶されているＧＭＭにより表現された話者モデルと、発話依存関係記憶部３３にあらかじめ記憶されている遷移確率とを読み込み、音響特徴量算出手段２１が抽出するフレーム単位の特徴量を入力して、話者スコアを計算し、対応する話者ＩＤと話者スコアとの組を、長時間話者選択手段２３と短時間話者選択手段２４とに出力する。遷移確率を導入した話者スコアは、図７に示されたＢＮ（Bayesian Network）やＨＭＭで表現される確率モデルを用いて計算する。ＢＮは、確率変数を表すノードと、確率変数間の直接的な依存関係を表す枝とで定義される有向非巡回グラフである。図７では、ノードＳは話者を表す確率変数であり、ノードＯは音響特徴ベクトルを表す確率変数である。また、ノードＳは、発話依存関係記憶部３３から読み込む遷移確率を保持し、ノードＯは、話者モデル記憶部３１から読み込むＧＭＭを保持している。ｎは、発話番号（または、フレーム番号）を表す。例えば、ＢＮでは、下記の文献２に記載されている確率伝播法によって、遷移確率を導入した話者スコア（長時間話者スコアおよび短時間話者スコア）を計算することができる。

次に、図６のフローチャートを参照して図５に示された第３の実施の形態の話者選択装置の全体の動作を詳細に説明する。

図６におけるステップＡ１，Ａ３，Ａ４で示される第３の実施の形態における、音響特徴量算出手段２１、長時間話者選択手段２３および短時間話者選択手段２４の動作は、第１の実施の形態におけるそれらの動作と同じであり、説明を省略する。

第１の実施の形態では、話者スコア算出手段２２は、話者モデル記憶部３１から話者モデルを読み込んで、話者スコアとして、入力された特徴量に対するＧＭＭの対数ゆう度を計算していた。本実施の形態では、話者スコア算出手段２２は、話者モデル記憶部３１から話者モデルを読み込み、発話依存関係記憶部３３から話者間の遷移確率を読み込んで、話者の音響特徴量に関する時間的な遷移の制御を発話単位（または、フレーム単位で）で行いながら、すなわち話者間の遷移確率を反映して、話者スコアを計算する（ステップＢ１）。話者間の遷移確率とは、ある話者からある話者への音響的特徴に関連する遷移のし易さ（または、し難さ）を確率値で表現したものであり、例えば、男性話者Ａの音響特徴量と女性話者Ｂの音響特徴量とが大きく異なり、男性話者Ａの音響特徴量と男性話者Ｃの音響特徴量とが類似している場合、話者Ａから話者Ｂの遷移確率には、話者Ａから話者Ｃへの遷移確率に比較して小さな値が設定される。話者間の遷移確率を導入することによって、以前の発話における話者スコアの影響を引き継いで、現在の発話の話者スコアを計算することができる。

次に、第３の実施の形態の効果を説明する。第３の実施の形態では、話者の音響特徴量に関する遷移確率を導入して話者スコアを計算し、以前の発話（または、以前のフレーム）の話者の音響的な特徴量に関する影響を、現在の発話（または、現在のフレーム）に反映できるため、安定的に話者を選択できる。例えば、以前の全ての発話において全く選択されなかった話者が、現在の発話においてのみ突発的に選択されるといった現象を抑制できる。

なお、図５における長時間話者選択手段２３と短時間話者選択手段２４とを入れ替えてもよい。入れ替えた場合には、まず、短時間話者選択手段２４が、話者スコアの高い上位Ｎｓ人の話者を順次選択した後、その中から、長時間話者選択手段２３が、話者スコアが高い上位Ｎｌ（＜Ｎｓ）人の話者を選択する。

次に、本発明の第４の実施の形態を図面を参照して詳細に説明する。図８は、本発明の話者選択装置の第４の実施の形態の構成を示すブロック図である。

図８に示すように、第４の実施の形態のデータ処理装置２は、図３に示された第２の実施の形態における構成に加えて、十分統計量統合手段２６を含む点が第２の実施の形態のものとは異なる。なお、図８に示す長時間話者選択手段２３は、短時間話者選択手段２４に加えて、十分統計量統合手段２６にも長時間話者ＩＤを出力する。なお、図８における記憶装置３、音響特徴量算出手段２１、話者スコア算出手段２２、長時間話者選択手段２３および短時間話者選択手段２４を含む装置を話者選択装置とし、さらに十分統計量統合手段２６と適応モデル作成手段２５とを含む装置を話者適応モデル作成装置と定義してもよい。

十分統計量統合手段２６は、長時間話者選択手段２３から出力される話者ＩＤを入力し、十分統計量記憶部３２にあらかじめ記憶されている十分統計量の中から、この話者ＩＤに対応する十分統計量を読み込む。そして、統計処理計算によって、読み込んだ全ての十分統計量を統合して１つの十分統計量を作成し、作成した十分統計量を十分統計量記憶部３２に保存する。十分統計量統合手段２６は、適応モデル作成手段２５による処理と同様に、上記の式１〜式３を用いて統計処理計算を行う。

次に、図９のフローチャートを参照して図８に示された本実施の形態の話者選択装置の全体の動作を詳細に説明する。

図９におけるステップＡ１，Ａ２，Ａ４で示される第４の実施の形態における音響特徴量算出手段２１、話者スコア算出手段２２および短時間話者選択手段２４の動作は、第２の実施の形態におけるそれらの動作と同じであり、説明を省略する。

第２の実施形態では、長時間話者選択手段２３は、スコアの高い上位Ｎｌ人の話者ＩＤを短時間話者選択手段２４にのみ出力していたが、本実施の形態では、長時間話者選択手段２３は、短時間話者選択手段２４に加えて、十分統計量統合手段２６にも長時間話者ＩＤを出力する（ステップＣ１）。

また、第２の実施の形態では、長時間話者選択手段２３で選択された話者の中から、さらに、短時間話者選択手段２４が話者を選択し、適応モデル作成手段２５が話者適応モデルを順次作成していたが、本実施の形態では、十分統計量統合手段２６が、長時間話者選択手段２３で選択された話者に対応する十分統計量を十分統計量記憶部３２から読み込み、統計処理計算によって長時間話者に関する１つの十分統計量を作成し、作成した十分統計量を十分統計量記憶部３２に保存する（ステップＣ２）。

適応モデル作成手段２５は、まず、ステップＣ２の処理で作成された長時間話者に関する十分統計量を、十分統計量記憶部３２から読み込む。次に、ステップＡ４の処理で得られた短時間話者ＩＤに対応する十分統計量を、十分統計量記憶部３２から読み込み、統計処理計算によって短時間話者に関する１つの十分統計量を作成する（ステップＣ３）。そして、読み込んだ長時間話者に関する十分統計量と、作成した短時間話者に関する十分統計量とを、統計処理計算によって統合して、話者適応モデルを順次作成する（ステップＣ４）。適応モデル作成手段２５は、長時間話者に関する十分統計量と短時間話者に関する十分統計量とを、例えば、入力された音響特徴量に対するＧＭＭの対数ゆう度を基に重み付けして統合したり、任意の値で重み付けして統合してもよい。

次に、本発明の第５の実施の形態を図面を参照して詳細に説明する。図１０は、本発明の話者選択装置の第５の実施の形態の構成を示すブロック図である。

図１０に示すように、第５の実施の形態のデータ処理装置２は、図３に示された第２の実施の形態における構成に加えて、短時間話者統合手段２７を含む点が第２の実施の形態のものとは異なる。なお、図１０における記憶装置３、音響特徴量算出手段２１、話者スコア算出手段２２、長時間話者選択手段２３および短時間話者選択手段２４を含む装置を話者選択装置とし、さらに短時間話者統合手段２７と適応モデル作成手段２５とを含む装置を話者適応モデル作成装置と定義してもよい。

短時間話者統合手段２７は、短時間話者選択手段２４から短時間毎（例えば、発話毎）に出力される話者ＩＤを入力し、出現した話者ＩＤを、重複を許して数える。すなわち、出現した話者ＩＤのヒストグラム（話者ＩＤと度数との組）を作成する。そして、作成したヒストグラムを適応モデル作成手段２５に出力する。

次に、図１１のフローチャートを参照して図１０に示された本実施の形態の話者選択装置の全体の動作を詳細に説明する。

図１１におけるステップＡ１，Ａ２，Ａ３，Ａ４で示される第５の実施の形態における音響特徴量算出手段２１、話者スコア算出手段２２、長時間話者選択手段２３および短時間話者選択手段２４の動作は、第２の実施の形態におけるそれらの動作と同じであり、説明を省略する。

第２の実施の形態では、長時間話者選択手段２３で選択された話者の中から、短時間話者選択手段２４が話者を選択し、適応モデル作成手段２５が話者適応モデルを順次作成していたが、本実施の形態では、短時間話者統合手段２７が、発話毎に選択された話者を数え上げ、話者のヒストグラムを作成する（ステップＤ１）。

そして、適応モデル作成手段２５は、統計処理計算により話者適応モデルを１つだけ作成する（ステップＤ２）。本実施の形態では、適応モデル作成手段２５は、統計処理計算の際に、ステップＤ１で得られた話者の度数（話者の出現回数）を基に、十分統計量を重み付け統合する。つまり、出現回数が多い話者の十分統計量に対する重みを高くして正規化したりする。

次に、第５の実施の形態の効果を説明する。第５の実施の形態では、発話毎に話者適応モデルを作成せず、発話毎に選択された話者を数え上げて作成した話者のヒストグラムを基に、一連の会話や通話に対して適応モデルを１つだけ作成するので、適応モデル作成のための処理時間を削減することができる。

次に、本発明の実施例を図面を参照して説明する。この実施例は、図１に示された本発明の第１の実施の形態に対応する。本実施例では、入力装置１としてマイクロフォンが用いられ、データ処理装置２としてパーソナルコンピュータが用いられ、データ記憶装置３として磁気ディスク装置が用いられる。

パーソナルコンピュータは、音響特徴量算出手段２１、話者スコア算出手段２２、長時間話者選択手段２３および短時間話者選択手段２４として機能するプログラムと中央演算処理装置とを有している。また、磁気ディスク装置には、一例として、３１２０人の話者モデルが記憶されている。話者モデルとして、非特許文献１の場合と同様に、音素の区別のない１状態６４混合のＧＭＭを用いる。話者モデルの形式の例を図１２に示す。

図１２に示す例では、中央演算処理装置で実現される音響特徴量算出手段２１は、例えば、メルケプストラム係数（ＭＦＣＣ）やそれらの変化率等からなる４０次元の音声の特徴量を用いて学習し、ＧＭＭを規定するパラメータである混合重み、平均ベクトル（図１２では「平均」）、分散共分散行列（図１２では「分散」）を話者モデルとして磁気ディスク装置に保持させる。

話者Ａの音声信号がマイクから入力されたとする。すると、中央演算処理装置は、音声信号をメルケプストラム係数（ＭＦＣＣ）やそれらの変化率等から成る４０次元の特徴量に変換する。次に、中央演算処理装置で実現される話者スコア算出手段２２は、３１２０人の話者モデルを磁気ディスク装置から読み込み、話者Ａの特徴量に対する話者スコア、すなわち３１２０個全てのＧＭＭの対数ゆう度を計算する。計算された対数ゆう度の例を図１３に示す。中央演算処理装置は、対数ゆう度の計算を、会話単位で１回と発話単位毎に行う。

そして、中央演算処理装置で実現される長時間話者選択手段２３が、計算された３１２０人の話者スコアを比較し、まず会話単位で話者スコア上位３００人を選択した後、中央演算処理装置で実現される短時間話者選択手段２４は、３００人の中から発話毎の話者スコア上位５０人を順次選択する。話者選択の例を図１４に示す。

なお、ここでは、第１の実施の形態に対応する実施例を説明したが、第２〜第５の実施の形態についても、上記の実施例と同様に、入力装置１としてマイクロフォン、データ処理装置２としてパーソナルコンピュータ、およびデータ記憶装置３として磁気ディスク装置を用いて実施することができる。

本発明を、音声信号をテキスト化する音声認識装置や、音声認識装置をコンピュータで実現するためのプログラムといった用途に適用できる。また、使用者に意識させずに、使用者の発声の音響的な特徴に音声認識システムを適応させて音声認識性能を向上させる話者適応モデル作成装置や話者適応モデル作成装置をコンピュータで実現するためのプログラムといった用途に適用できる。さらに、音声を伴う映像コンテンツに話者インデックスを自動付与し、検索することができるコンテンツ検索装置といった用途にも適用できる。

Claims

複数の話者モデルを記憶する話者モデル記憶手段と、
入力された音声信号から所定時間フレームごとの特徴量を算出する音響特徴量算出手段と、
所定時間フレームごとに前記音響特徴量算出手段で順次算出される前記特徴量に対して、前記話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を一定または不定のサイクルで順次算出する話者スコア算出手段と、を備えた話者選択装置であって、
前記話者スコア算出手段は、
相対的に異なる２つの時間長の前記音声信号に基づく第１ゆう度と第２ゆう度とを算出し、
前記第１ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行する第１選択手段と、
前記第１選択手段が選択した話者を、前記所定数よりも少ない数の前記第２ゆう度が高い話者モデルに絞り込む絞り込み処理を実行する第２選択手段と、を備え、
前記第２選択手段が絞り込んだ話者に対応する情報を出力し、
前記第１ゆう度および前記第２ゆう度のそれぞれの更新に応じて、前記第１選択手段および前記第２選択手段は前記選択処理および前記絞り込み処理をそれぞれ繰り返し実行する
ことを特徴とする話者選択装置。
請求項１記載の話者選択装置において、
前記話者スコア算出手段は、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第１ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第２ゆう度として算出し、
前記第１選択手段は、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、
前記第２選択手段は、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する短時間話者選択手段である
ことを特徴とする話者選択装置。
請求項１記載の話者選択装置において、
前記話者スコア算出手段は、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第１ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を第２ゆう度として算出し、
前記第１選択手段は、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、
前記第２選択手段は、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する長時間話者選択手段である
ことを特徴とする話者選択装置。
請求項２または請求項３に記載の話者選択装置において、
前記長時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する第１の閾値と、を用いて話者を選択し、
前記短時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第１の閾値と同じ値または異なる値である第２の閾値と、を用いて話者を選択する
ことを特徴とする話者選択装置。
請求項２または請求項３に記載の話者選択装置において、
発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段を備え、
前記話者スコア算出手段は、前記発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出する
ことを特徴とする話者選択装置。
請求項１から請求項５のうちのいずれかに記載された話者選択装置と、
前記話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段と、を備えた
ことを特徴とする話者適応モデル作成装置。
請求項２から請求項５のうちのいずれかに記載された話者選択装置と、
前記長時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって長時間話者に関する１つの十分統計量を作成する手段と、
前記短時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって短時間話者に関する１つの十分統計量を作成する手段と、
前記各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段と、を備えた
ことを特徴とする話者適応モデル作成装置。
請求項２から請求項５のうちのいずれかに記載された話者選択装置と、
前記短時間話者選択手段が選択した話者の出現頻度を計算する短時間話者統合手段と、
前記話者の出現頻度にもとづいて十分統計量を重み付け統合して１つの話者適応モデルを作成する適応モデル作成手段と、を備えた
ことを特徴とする話者適応モデル作成装置。
あらかじめ複数の話者モデルを記憶し、
入力された音声信号から所定時間フレームごとの特徴量を算出し、
所定時間フレームごとに順次算出される前記特徴量に対して、記憶されている複数の話者モデルのそれぞれについて相対的に異なる２つの時間長の前記音声信号に基づく第１ゆう度と第２ゆう度とを一定または不定のサイクルで順次算出し、
前記第１ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行し、
前記第１ゆう度が高い所定数の話者モデルに対応する話者として選択された話者を、前記所定数よりも少ない数の前記第２ゆう度が高い話者モデルに絞り込む絞り込み処理を実行し、
この絞り込みで絞り込まれた話者に対応する情報を出力し、
前記選択処理および前記絞り込み処理を前記第１ゆう度および前記第２ゆう度の更新に応じてそれぞれ繰り返し実行する
ことを特徴とする話者選択方法。
請求項９に記載の話者選択方法において、
前記第１ゆう度および前記第２ゆう度を算出する際には、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第１ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第２ゆう度として算出し、
前記第１ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択し、
前記第２ゆう度が高い話者モデルに絞り込む際には、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する
ことを特徴とする話者選択方法。
請求項９に記載の話者選択方法において、
前記第１ゆう度および前記第２ゆう度を算出する際には、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第１ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第２ゆう度として算出し、
前記第１ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択し、
前記第２ゆう度が高い話者モデルに絞り込む際には、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する
ことを特徴とする話者選択方法。
請求項１０または請求項１１に記載の話者選択方法において、
前記長時間ゆう度が高い話者モデルに対応する話者を選択する際には、前記第１ゆう度および前記第２ゆう度を算出する際に算出したゆう度と、あらかじめ定められたゆう度に関する第１の閾値と、を用いて話者を選択し、
前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記第１ゆう度および前記第２ゆう度を算出する際に算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第１の閾値と同じ値または異なる値である第２の閾値と、を用いて話者を選択する
ことを特徴とする話者選択方法。
請求項１０または請求項１１に記載の話者選択方法において、
発話間の時間的な依存関係を示すデータをあらかじめ記憶し、
前記第１ゆう度および前記第２ゆう度を算出する際に、記憶されている発話間の時間的な依存関係を示すデータを反映させてゆう度を算出する
ことを特徴とする話者選択方法。
コンピュータを、
複数の話者モデルを記憶する話者モデル記憶手段と、
入力された音声信号から所定時間フレームごとの特徴量を算出する音響特徴量算出手段と、
所定時間フレームごとに前記音響特徴量算出手段で順次算出される前記特徴量に対して、前記話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を一定または不定のサイクルで順次算出する話者スコア算出手段と、して機能させる話者選択用プログラムであって、
前記話者スコア算出手段は、
相対的に異なる２つの時間長の前記音声信号に基づく第１ゆう度と第２ゆう度とを算出し、
前記第１ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行する第１選択手段と、
前記第１選択手段で選択した話者を、前記所定数よりも少ない数の前記第２ゆう度が高い話者モデルに絞り込む絞り込み処理を実行する第２選択手段と、を備え、
前記第２選択手段が絞り込んだ話者に対応する情報を出力し、
前記第１ゆう度および前記第２ゆう度のそれぞれの更新に応じて、前記第１選択手段および前記第２選択手段は前記選択処理および前記絞り込み処理をそれぞれ繰り返し実行する
ことを特徴とする話者選択用プログラム。
請求項１４に記載の話者選択用プログラムにおいて、
前記話者スコア算出手段は、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第１ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第２ゆう度として算出し、
前記第１選択手段は、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、
前記第２選択手段は、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する短時間話者選択手段である
ことを特徴とする話者選択用プログラム。
請求項１４に記載の話者選択用プログラムにおいて、
前記話者スコア算出手段は、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第１ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第２ゆう度として算出し、
前記第１選択手段は、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、
前記第２選択手段は、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する長時間話者選択手段である
ことを特徴とする話者選択用プログラム。
請求項１５または請求項１６に記載の話者選択用プログラムにおいて、
前記長時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する第１の閾値と、を用いて話者を選択し、
前記短時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第１の閾値と同じ値または異なる値である第２の閾値と、を用いて話者を選択する
ことを特徴とする話者選択用プログラム。
請求項１５または請求項１６に記載の話者選択用プログラムにおいて、
前記コンピュータを、さらに、発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段として機能させ、
前記話者スコア算出手段は、前記発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出する
ことを特徴とする話者選択用プログラム。
請求項１４から請求項１８のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
前記コンピュータを、さらに、
前記第２選択手段で選択された話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段として機能させる
ことを特徴とする話者適応モデル作成プログラム。
請求項１５から請求項１８のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
前記コンピュータを、さらに、
前記長時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって長時間話者に関する１つの十分統計量を作成する手段と、
前記短時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって短時間話者に関する１つの十分統計量を作成する手段と、
前記各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段と、して機能させる
ことを特徴とする話者適応モデル作成プログラム。
請求項１５から請求項１８のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
前記コンピュータを、さらに、
前記短時間話者選択手段が選択した話者の出現頻度を計算する短時間話者統合手段と、
前記話者の出現頻度にもとづいて十分統計量を重み付け統合して１つの話者適応モデルを作成する適応モデル作成手段と、して機能させる
ことを特徴とする話者適応モデル作成プログラム。