JP5229219B2 - 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム - Google Patents

話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム Download PDF

Info

Publication number
JP5229219B2
JP5229219B2 JP2009506262A JP2009506262A JP5229219B2 JP 5229219 B2 JP5229219 B2 JP 5229219B2 JP 2009506262 A JP2009506262 A JP 2009506262A JP 2009506262 A JP2009506262 A JP 2009506262A JP 5229219 B2 JP5229219 B2 JP 5229219B2
Authority
JP
Japan
Prior art keywords
speaker
likelihood
time
selection
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009506262A
Other languages
English (en)
Other versions
JPWO2008117626A1 (ja
Inventor
真宏 谷
正 江森
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009506262A priority Critical patent/JP5229219B2/ja
Publication of JPWO2008117626A1 publication Critical patent/JPWO2008117626A1/ja
Application granted granted Critical
Publication of JP5229219B2 publication Critical patent/JP5229219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関し、特に、発声話者に音響的特徴量が近い話者を選択するための話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関する。
音声認識処理等において用いられる話者適応モデルを作成する装置として、あらかじめ記憶装置に記憶されている多数の話者モデルの中から、音響的特徴量が発声話者の音響的特徴量に近い話者モデルを選択し、選択した話者モデルにもとづいて発声話者の話者適応モデルを作成する装置がある。そのような話者適応モデル作成装置における話者選択装置の一例が、非特許文献1や特許文献1に記載されている。なお、以下、発声話者の音響的特徴量に近い話者モデルを選択することを、「話者を選択」または「話者選択」ということがある。また、「話者適応モデル」を、「適応モデル」ということがある。
非特許文献1に記載されている話者適応モデル作成装置において用いられている適応モデル作成方法は、発声話者に音響的に近い話者を選択し、選択された話者の十分統計量を用いて発声話者に適応した音素モデルを作成するという方法で、主に3つのステップから構成されている。
まず、話者毎のHMM(Hidden Markov Model :隠れマルコフモデル)に関する十分統計量を計算し蓄積しておく。十分統計量とは、データベースの性質を表す十分な統計量のことであり、非特許文献1に記載された方法では、HMMの音素モデルにおける平均、分散およびEMカウントである。EMカウントとは、EMアルゴリズムにおいて、状態iから状態jの正規分布kに遷移する確率的度数である。十分統計量は、話者毎の音声データを用いて、EMアルゴリズムで不特定話者モデルから1回学習することによって計算される。
次に、GMM(Gaussian Mixture Model:混合正規分布で表現した観測データの確率モデル)で表現された話者モデルを用いて、発声話者に音響的特徴が近い話者を選択する。具体的には、入力音声を話者モデルに入力して得られた音響的なゆう度(尤度)の高い上位N人の話者を選択する。なお、話者の選択は、その話者に対応する十分統計量を選択することに等しい。非特許文献1に記載された方法では、話者モデルを、音素を区別することなく1状態64混合のGMMを用いてあらかじめ作成しておく。また、Nの値は経験的に決定し、適応データとして任意の1発声を用いている。
最後に、話者モデルを用いることによって選択された話者に対応する十分統計量を用いて、発声話者に適応した音素モデルを統計処理によって作成する。統計処理は、式1〜式3を用いて行われる。
Figure 0005229219
Figure 0005229219
Figure 0005229219
ここで、μ adp (i=1,・・・, mix )、ν adp (i=1,・・・, mix )は、それぞれ、適応モデルのHMMの各状態における正規分布の平均、分散であり、N mix は混合分布数である。また、 adp [i][j](i,j=1,・・・, state )は、状態iから状態jへの遷移確率であり、 state は、状態数である。 sel は、選択した話者の数であり、μ (i=1,・・・, mix ,j=1,・・・, sel )、ν (i=1,・・・, mix ,j=1,・・・, sel )は、それぞれ、選択話者の音素モデルの平均、分散である。また、 mix (j=1,・・・,Nsel)、 state [i][j](k=1,・・・, sel 、i,j=1,・・・, state )は、それぞれ、正規分布におけるEMカウント、状態遷移に関するEMカウントである。
特許文献1に記載されている適応モデル作成装置は、雑音環境における適応モデルの精度の低下を防ぐことを目的として非特許文献1に記載されている適応モデル作成装置を改良した装置である。特許文献1に記載されている適応モデル作成装置は、蓄積部と、第1の選択部と、第2の選択部と、モデル作成部とを備えている。蓄積部は、雑音が重畳された音声データを音響的な近さにもとづいてグループ化することによって得られた複数のグループの各々について、グループに含まれる音声データを用いて作成された十分統計量を蓄積する。例えば、(雑音の種類×SN比)毎にグループを作り、グループ内に、(話者×話者の声のバリエーション)毎の十分統計量を蓄積する。第1の選択部は、発声話者の音声データに音響的に近いグループを複数のグループの中から選択する。第2の選択部は、第1の選択部によって選択されたグループについての十分統計量の中から発声話者の音声データに音響的に近い十分統計量を選択する。モデル作成部は、第2の選択部によって選択された十分統計量を用いて音響モデルを作成する。
特許第3756879号公報 「十分統計量と話者距離を用いた音韻モデルの教師なし学習法」、 芳澤伸一、馬場朗、松浪加奈子、米良祐一郎、山田実一、李晃伸、鹿野清宏著、電子情報通信学会論文誌、2002年3月、Vol.J85−D−II No.3、382−389頁
従来の話者適応モデル作成装置における話者選択装置の問題点は、一連の会話や通話内の時間的な変動に必ずしも対応できないことである。その理由は、任意の数発話(非特許文献1に記載されている適応モデル作成方法や特許文献1に記載されている適応モデル作成方法では任意の1発話であるが、特に1発話でなくてもよいので、任意の数発話とする。)を適応データとして用い、一度だけ話者N人を選択し(特許文献1に記載されている適応モデル作成方法では、グループ選択と話者選択の二度)、作成した適応モデルを、一連の会話や通話全体の中の時間的に変動する全ての発話に対して使用しているためである。
任意の数発話(特に、長時間の発話や、一連の会話や通話全て)を適応データとして用い、一度だけ話者N人を選択する手法は、大局的なモデルすなわち一連の会話や通話全てを構成する発話のいずれにもそれなりにしか当てはまらないモデルが構築され易く、一連の会話や通話内の時間的な変動を考慮できていない。一方、1発話のみで話者を選択して適応モデルを作成する従来の適応モデル作成方法と同様な枠組みで、1発話毎に話者を選択し、順次適応モデルを作成する方法も考えられるが、この方法では局所的なモデルすなわち特定の条件下でのみ当てはまるモデルが構築され易く、安定面で大局的なモデルに劣る。
そこで、本発明は、話し言葉のように、一連の会話や通話内における時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、変化に対応しながら正確で安定的に発声話者に音響的特徴量が近い話者を選択できる話者選択装置、話者選択方法および話者選択用プログラム、ならびに話者選択装置を利用した話者適応モデル作成装置を提供することを目的とする。
本発明による話者選択装置は、複数の話者モデルを記憶する話者モデル記憶手段と、入力された音声信号から特徴量を算出する音響特徴量算出手段と、音響特徴量算出手段が算出した特徴量に対する話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を算出する話者スコア算出手段とを備え、話者スコア算出手段が算出したゆう度を用いて話者を選択する話者選択装置であって、話者スコア算出手段は、第1の基準にもとづく第1ゆう度(例えば、長時間の発声データに対するGMMのゆう度)と第2の基準にもとづく第2ゆう度(例えば、短時間の発声データに対するGMMのゆう度)とを算出し、第1ゆう度が高い所定数の話者モデルに対応する話者を選択する第1選択手段(例えば、長時間話者選択手段23)と、第1選択手段が選択した話者を、所定数よりも少ない数の第2ゆう度が高い話者モデルに絞り込む第2選択手段(例えば、短時間話者選択手段24)とを備え、第2選択手段が選択した話者に対応する情報(例えば、話者ID)を順次出力することを特徴とする。
本発明による好ましい態様の話者選択装置は、話者スコア算出手段が、相対的に長時間(例えば、任意の数発話の期間。一例として長時間の発話や一連の会話や通話全ての期間)の音声信号にもとづく長時間ゆう度を第1ゆう度として算出し、相対的に短時間(例えば、短時間の発話の期間。ただし、任意の数発話より短い単位であれば、発話毎でなくてもよい)の音声信号にもとづく短時間ゆう度を第2ゆう度として算出し、第1選択手段が、長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、第2選択手段が、短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段である。
本発明による他の好ましい態様の話者選択装置は、話者スコア算出手段が、相対的に短時間の音声信号にもとづく短時間ゆう度を第1ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を第2ゆう度として算出し、第1選択手段が、短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、第2選択手段が、長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段である。
長時間話者選択手段が、話者スコア算出手段が算出したゆう度とあらかじめ定められたゆう度に関する第1の閾値を用いて話者を選択し、短時間話者選択手段が、話者スコア算出手段が算出したゆう度とあらかじめ定められたゆう度に関する閾値であって第1の閾値と同じ値または異なる値である第2の閾値を用いて話者を選択するように構成されていてもよい。
発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段を備え、話者スコア算出手段は、発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出するように構成されていてもよい。
話者適応モデル作成装置の好ましい態様は、上記の話者選択装置と、話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段とを備えている。
話者適応モデル作成装置の他の好ましい態様は、上記の話者選択装置と、長時間話者選択手段が選択した複数の話者のそれぞれ対応する十分統計量から統計処理計算によって長時間話者に関する1つの十分統計量を作成する手段(例えば、十分統計量統合手段26)と、短時間話者選択手段が選択した複数の話者のそれぞれ対応する十分統計量から統計処理計算によって短時間話者に関する1つの十分統計量を作成する手段(例えば、第4の実施の形態の適応モデル作成手段25で実現される。)と、各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段とを備えている。
話者適応モデル作成装置の別の好ましい態様は、上記の話者選択装置と、短時間話者選択手段が選択した話者の出現頻度(例えば、出現した話者IDのヒストグラム)を計算する短時間話者統合手段と、話者の出現頻度にもとづいて十分統計量を重み付け統合して1つの話者適応モデルを作成する適応モデル作成手段(例えば、第5の実施の形態の適応モデル作成手段25)とを備えている。
長時間話者選択手段は、例えば、一連の会話や通話のように多くの発話データを用いるので話者選択精度は安定している。従って、長時間話者選択手段が選択した話者群の中から、短時間話者選択手段が、例えば、1発話のように少ない発話データを用いて、その1発話に適した話者を絞り込むことによって、本発明の目的を達成することができる。また、短時間話者選択手段が選択した話者群の中から、長時間話者選択手段が話者を絞り込むことによっても、本発明の目的を達成することができる。
本発明の効果は、発話者に音響的特徴量が近い話者を、発話毎に、高精度に選択できることである。その理由は、第2選択手段が、第1選択手段が選択した話者を、所定数よりも少ない数の第2ゆう度が高い話者モデルに絞り込むからである。具体的には、例えば、一連の会話や通話のように多くの発話データを用いて、発声話者に音響的特徴量が近い話者を選択した後、その話者群の中から、例えば、1発話のように少ない発話データを用いて、その1発話に適した話者を選ぶことによって、安定した話者選択精度を保ちながら、発話毎に有力な話者をさらに絞り込めるためである。1発話のように比較的短い発話データで話者を選択することによって、一連の会話や通話内の時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、この変化に対応できる。
本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第1の実施の形態の動作を示す流れ図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の動作を示す流れ図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第3の実施の形態の動作を示す流れ図である。 話者スコア算出手段で用いる確率モデルの例を示す図である。 本発明の第4の実施の形態の動作を示すブロック図である。 本発明の第4の実施の形態の動作を示す流れ図である。 本発明の第5の実施の形態の動作を示すブロック図である。 本発明の第5の実施の形態の動作を示す流れ図である。 話者モデルの一例を示す説明図である。 対数ゆう度の一例を示す説明図である。 話者選択の一例を示す説明図である。
1 入力装置
2 データ処理装置
3 記憶装置
21 音響特徴量算出手段
22 話者スコア算出手段
23 長時間話者選択手段
24 短時間話者選択手段
25 適応モデル作成手段
26 十分統計量統合手段
27 短時間話者統合手段
31 話者モデル記憶部
32 十分統計量記憶部
33 発話依存関係記憶部
次に、本発明を実施するための最良の形態を、図面を参照して詳細に説明する。
図1は、本発明の話者選択装置の第1の実施の形態の構成を示すブロック図である。図1に示すように、第1の実施の形態の話者選択装置は、マイクロフォン等の入力装置1と、プログラム制御により動作する中央演算装置(CPU)を含むデータ処理装置2と、情報を記憶する記憶装置3とを備えている。
記憶装置3は、話者モデル記憶部31を含む。話者モデル記憶部31は、それぞれGMMで表現された複数の話者モデルを記憶している。話者モデル記憶部31に記憶されている話者モデルは、話者スコアを算出する際に話者スコア算出手段22に読み込まれる。ここでは、話者モデルとして、非特許文献1に記載されている話者モデルと同様に、音素を区別することなく1状態64混合のGMMを用いて事前に作成しておく。ただし、話者モデルはGMMによるものでなくてもよい。例えば、HMM、SVM(Support Vector Machine)、NN(Neural Network)、BN(Bayesian Network)によるものでもよい。
データ処理装置2は、音響特徴量算出手段21と、話者スコア算出手段22と、長時間話者選択手段23と、短時間話者選択手段24とを備えている。なお、それらの手段は、ソフトウェアで実現可能である。
音響特徴量算出手段21は、マイクロフォン等の入力装置1で録音される音声信号を入力し、音声認識に必要な特徴量を計算し、話者スコア算出手段22に出力する。音声信号は、例えば、サンプリング周波数44.1kHz、16bitでA−D変換された音声データである。特徴量は、例えば、下記の文献1に記載されているメルケプストラム係数(MFCC)やそれらの変化率である。音響特徴量算出手段21は、音声データをフレームと呼ばれる10msec程度の一定区間で切り出し、プリエンファシス、高速フーリエ変換(FFT)、フィルタバンク分析、コサイン変換し、特徴ベクトルの時系列のような形式で抽出する。なお、特徴量について特に規定はなく、音声データそのものを用いることもできる。
話者スコア算出手段22は、話者モデル記憶部31にあらかじめ記憶されているGMMで表現された話者モデルを読み込む。そして、音響特徴量算出手段21が抽出するフレーム単位の特徴量を入力し、話者モデルのそれぞれについて話者スコアを計算し、話者スコアとそれに対応する話者(具体的には、例えば、話者を識別する話者IDすなわち話者モデルを識別する話者ID)との組を、長時間話者選択手段23と短時間話者選択手段24とに出力する。話者スコアは、入力された特徴量に対するGMMの対数ゆう度である。話者スコア算出手段22は、発話単位、フレーム毎に計算されたGMMの対数ゆう度を任意のフレームの数だけ加算することによって、一連の会話や通話単位の話者スコアを計算する。すなわち、任意のフレームの長さ(または発話の長さ)の話者スコアを計算できる。ここでは、一連の会話や通話全てのように比較的長い時間(以下、長時間と呼ぶ。)と、1発話のように比較的短い時間(以下、短時間と呼ぶ。)における話者スコアを計算し、対応する話者IDと話者スコアとの組をそれぞれ、長時間話者選択手段23と短時間話者選択手段24とに出力する。長時間は、短時間に対して相対的に長い時間であるが、長時間の範囲(例えば、一連の会話や通話全て)および短時間の範囲(例えば、1発話)はあらかじめ決められている。また、長時間および短時間は、時間的には不定(一定時間ではない)でもよい。
長時間話者選択手段23は、話者スコア算出手段22から出力される長時間における話者IDと話者スコアとの組を入力し、スコアの高い上位Nl人の話者IDを、短時間話者選択手段24に出力する。なお、非特許文献1では、選択する話者の数(ここではNlの値)は経験的に決定しているが、あらかじめ話者スコアに関する閾値を設定し、この閾値を基準にNlの値を決定してもよい。以下、ここで選択する、スコアの高い上位Nl人を長時間話者と呼ぶ。
短時間話者選択手段24は、話者スコア算出手段22から出力される短時間における話者IDと話者スコアとの組と、長時間話者選択手段23から出力される長時間話者Nl人を入力し、長時間話者Nl人の中から、スコアの高い上位Ns(<Nl)人の話者IDを選択する。非特許文献1に記載されている話者選択装置では、選択する話者の数(ここでは、Nsの値)は経験的に決定されているが、本実施の形態において、あらかじめ話者スコアに関する第2の閾値を設定し、第2の閾値を基準にNsの値を決定してもよい。なお、話者スコアに関する閾値を設定する場合、第2の閾値は、長時間話者選択手段23が用いる話者スコアに関する第1の閾値(Nlの値を決定するための閾値)と同じでもよいし異なっていてもよい。また、閾値は、一例として、過去に行われた話者選択の結果を参照して設定される。以下、ここで選択するスコアの高い上位Ns人を短時間話者と呼ぶ。
なお、図1における長時間話者選択手段23と短時間話者選択手段24とを入れ替えてもよい。入れ替えた場合には、まず、短時間話者選択手段24が、話者スコアの高い上位Ns人の話者を順次選択した後、その中から、長時間話者選択手段23が、話者スコアが高い上位Nl(<Ns)人の話者を選択する。
次に、図2のフローチャートを参照して、図1に示された第1の実施の形態の話者選択装置の動作を詳細に説明する。
まず、音響特徴量算出手段21は、入力装置1から与えられた音声信号を読み込み、メルケプストラム係数(MFCC)やそれらの変化率といった、音声認識に必要な特徴量を、フレーム毎に算出する(ステップA1)。
次に、話者スコア算出手段22は、話者モデル記憶部31に記憶されているGMMで表現された話者モデルを読み込み、ステップA1の処理で得られた特徴量に対するGMMの対数ゆう度をフレーム毎に算出し、短時間および長時間に相当するフレームの数だけ加算することによって、短時間話者スコア(短時間ゆう度)と長時間話者スコア(長時間ゆう度)とをそれぞれ算出する(ステップA2)。例えば、長時間に相当する音声を一連の会話全てとし、短時間に相当する音声を1発話とすると、長時間話者スコア(話者IDと話者スコアとの組)が1つだけ存在するのに対して、短時間話者スコア(話者IDと話者スコアとの組)は一連の会話全てを構成する発話の数だけ存在する。
続いて、長時間話者選択手段23は、ステップA2の処理で得られた長時間話者スコア(話者IDと話者スコアとの組)を読み込み、スコアを比較することによってスコアの高い上位Nl人の話者IDを選択し、選択したスコアの高い上位Nl人の話者IDを短時間話者選択手段24に出力する(ステップA3)。
最後に、短時間話者選択手段24は、ステップA3の処理で得られた長時間話者Nl人の話者IDと、ステップA2の処理で得られた短時間話者スコア(話者IDと話者スコアとの組)とを読み込む。短時間話者選択手段24は、短時間話者スコアを、例えば発話の数だけ順次読み込む。そして、読み込んだ短時間話者スコアのうちで長時間話者Nl人に含まれる話者の短時間話者スコアを比較することによって、長時間話者Nl人の中から、短時間話者スコアが高い上位Ns(<Nl)人の話者IDを選択し、選択した話者IDを順次出力する(ステップA4)。
次に、本実施の形態の効果を説明する。本実施の形態では、話者スコア算出手段22が算出する長時間話者スコアから、長時間話者選択手段23が音響的特徴が近い話者(長時間話者)を選択した後、話者スコア算出手段22が算出する短時間話者スコアから、短時間話者選択手段24が、音響的特徴が近い話者(短時間話者)を前段(長時間話者選択手段23)で選択された長時間話者の中から選択し、選択した話者のIDを順次出力するというように構成されているので、話し言葉のように、一連の会話や通話内の時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、変化に対応しながら高精度に話者を選択できる。
次に、本発明の第2の実施の形態を図面を参照して詳細に説明する。図3は、本発明の話者選択装置の第2の実施の形態の構成を示すブロック図である。
図3に示すように、第2の実施の形態の話者選択装置は、記憶装置3が、図1に示された第1の実施の形態における話者モデル記憶部31に加えて、十分統計量記憶部32を含む点が第1の実施の形態のものとは異なる。また、データ処理装置2が、第1の実施の形態における構成に加えて、適応モデル作成手段25を含む点が第1の実施の形態とは異なる。なお、図3における記憶装置3、音響特徴量算出手段21、話者スコア算出手段22、長時間話者選択手段23および短時間話者選択手段24を含む装置を話者選択装置とし、さらに適応モデル作成手段25を含む装置を話者適応モデル作成装置と定義してもよい。
十分統計量記憶部32は、話者毎のHMMに関する十分統計量を記憶している。記憶している十分統計量は、話者適応モデルを作成する際に適応モデル作成手段25に読み込まれる。十分統計量は、データベースの性質を表す十分な統計量のことであり、非特許文献1に記載されている話者選択装置の場合と同様に、HMMにより表現された音素モデルにおける平均、分散、EMカウントである。十分統計量を、男性話者の場合は男性の音声のみで学習した音素モデルから、女性話者の場合は女性の音声のみで学習した音素モデルから、EMアルゴリズムにより1回学習することにより事前に計算し十分統計量記憶部32に保存しておく。
適応モデル作成手段25は、短時間話者選択手段24から出力される話者IDを入力し、十分統計量記憶部32にあらかじめ記憶されている十分統計量の中から、この話者IDに対応する十分統計量を読み込む。読み込んだ十分統計量を用いて、統計処理計算により話者適応モデルを作成し出力する。適応モデル作成手段25は、非特許文献1に記載されている話者選択装置の場合と同様に、上記の式1〜式3を用いて統計処理計算を行う。
次に、図4のフローチャートを参照して図3に示された第2の実施の形態の話者選択装置の全体の動作について詳細に説明する。
図4におけるステップA1,A2,A3,A4で示される音響特徴量算出手段21、話者スコア算出手段22、長時間話者選択手段23および短時間話者選択手段24の動作は、第1の実施の形態におけるそれらの動作と同じであり、説明を省略する。
第1の実施の形態では、短時間話者選択手段24で選択された話者IDを順次出力していた。本実施の形態では、適応モデル作成手段25が、短時間話者選択手段24で選択された話者に対応する十分統計量を十分統計量記憶部32から読み込み、統計処理計算によって話者適応モデルを順次作成する(ステップA5)。適応モデル作成手段25は、短時間話者選択手段24で選択された話者に対応する十分統計量を、例えば、話者スコア算出手段22が出力する、入力された特徴量に対するGMMのゆう度を基に重み付けして統合したり、任意の値で重み付けして統合してもよい。GMMのゆう度を基に重み付けして統合する一例として、正規化(Wa(話者aの重み)=La(話者aに関するGMMのゆう度)/L1(1位話者に関するGMMのゆう度))が挙げられる(ここでは、選択された話者の中でゆう度最大の話者を1位話者と呼ぶことにする。)。また、任意の値で重み付けして統合する一例として線形重み付けが挙げられる。
次に、本発明の第2の実施の形態の効果を説明する。第2の実施の形態では、話者スコア算出手段22が算出する長時間話者スコアから、長時間話者選択手段23が音響的特徴が近い話者(長時間話者)を選択した後、話者スコア算出手段22が算出する短時間話者スコアから、短時間話者選択手段24が音響的特徴が近い話者(短時間話者)を前段(話者スコア算出手段22)で選択された長時間話者の中から選択し、適応モデル作成手段25が話者適応モデルを順次作成するというように構成されているので、一連の会話や通話内の時間的な変動によって話者の音響的な特徴量が時々刻々変化しても、変化に対応した安定的な適応モデルを作成できる。
なお、図3における長時間話者選択手段23と短時間話者選択手段24とを入れ替えてもよい。入れ替えた場合には、まず、短時間話者選択手段24が、話者スコアの高い上位Ns人の話者を順次選択した後、その中から、長時間話者選択手段23が、話者スコアが高い上位Nl(<Ns)人の話者を選択する。
次に、本発明の第3の実施の形態を図面を参照して詳細に説明する。図5は、本発明の話者選択装置の第3の実施の形態の構成を示すブロック図である。
図5に示すように、本発明の第3の実施の形態の話者選択装置は、記憶装置3が、図1に示された第1の実施の形態における話者モデル記憶部31に加えて、発話依存関係記憶部33を含む点が第1の実施の形態のものとは異なる。また、話者スコア算出手段22の動作は、発話依存関係記憶部33の出力も入力とするので、図1に示された話者スコア算出手段22の動作とは異なる。
発話依存関係記憶部33は、発話間(単位は発話でなくてもよく、例えば、フレームでもよい)の時間的な依存関係を表現する遷移確率をあらかじめ記憶している。遷移確率は、ある話者からある話者への音響的特徴に関する遷移のし易さ(または、し難さ)を確率値で表現したものである。ある話者とは、話者モデル記憶部31と十分統計量記憶部32とに記憶されている複数の話者の中の任意の話者である。
話者スコア算出手段22は、話者モデル記憶部31にあらかじめ記憶されているGMMにより表現された話者モデルと、発話依存関係記憶部33にあらかじめ記憶されている遷移確率とを読み込み、音響特徴量算出手段21が抽出するフレーム単位の特徴量を入力して、話者スコアを計算し、対応する話者IDと話者スコアとの組を、長時間話者選択手段23と短時間話者選択手段24とに出力する。遷移確率を導入した話者スコアは、図7に示されたBN(Bayesian Network)やHMMで表現される確率モデルを用いて計算する。BNは、確率変数を表すノードと、確率変数間の直接的な依存関係を表す枝とで定義される有向非巡回グラフである。図7では、ノードSは話者を表す確率変数であり、ノードOは音響特徴ベクトルを表す確率変数である。また、ノードSは、発話依存関係記憶部33から読み込む遷移確率を保持し、ノードOは、話者モデル記憶部31から読み込むGMMを保持している。nは、発話番号(または、フレーム番号)を表す。例えば、BNでは、下記の文献2に記載されている確率伝播法によって、遷移確率を導入した話者スコア(長時間話者スコアおよび短時間話者スコア)を計算することができる。
次に、図6のフローチャートを参照して図5に示された第3の実施の形態の話者選択装置の全体の動作を詳細に説明する。
図6におけるステップA1,A3,A4で示される第3の実施の形態における、音響特徴量算出手段21、長時間話者選択手段23および短時間話者選択手段24の動作は、第1の実施の形態におけるそれらの動作と同じであり、説明を省略する。
第1の実施の形態では、話者スコア算出手段22は、話者モデル記憶部31から話者モデルを読み込んで、話者スコアとして、入力された特徴量に対するGMMの対数ゆう度を計算していた。本実施の形態では、話者スコア算出手段22は、話者モデル記憶部31から話者モデルを読み込み、発話依存関係記憶部33から話者間の遷移確率を読み込んで、話者の音響特徴量に関する時間的な遷移の制御を発話単位(または、フレーム単位で)で行いながら、すなわち話者間の遷移確率を反映して、話者スコアを計算する(ステップB1)。話者間の遷移確率とは、ある話者からある話者への音響的特徴に関連する遷移のし易さ(または、し難さ)を確率値で表現したものであり、例えば、男性話者Aの音響特徴量と女性話者Bの音響特徴量とが大きく異なり、男性話者Aの音響特徴量と男性話者Cの音響特徴量とが類似している場合、話者Aから話者Bの遷移確率には、話者Aから話者Cへの遷移確率に比較して小さな値が設定される。話者間の遷移確率を導入することによって、以前の発話における話者スコアの影響を引き継いで、現在の発話の話者スコアを計算することができる。
次に、第3の実施の形態の効果を説明する。第3の実施の形態では、話者の音響特徴量に関する遷移確率を導入して話者スコアを計算し、以前の発話(または、以前のフレーム)の話者の音響的な特徴量に関する影響を、現在の発話(または、現在のフレーム)に反映できるため、安定的に話者を選択できる。例えば、以前の全ての発話において全く選択されなかった話者が、現在の発話においてのみ突発的に選択されるといった現象を抑制できる。
なお、図5における長時間話者選択手段23と短時間話者選択手段24とを入れ替えてもよい。入れ替えた場合には、まず、短時間話者選択手段24が、話者スコアの高い上位Ns人の話者を順次選択した後、その中から、長時間話者選択手段23が、話者スコアが高い上位Nl(<Ns)人の話者を選択する。
次に、本発明の第4の実施の形態を図面を参照して詳細に説明する。図8は、本発明の話者選択装置の第4の実施の形態の構成を示すブロック図である。
図8に示すように、第4の実施の形態のデータ処理装置2は、図3に示された第2の実施の形態における構成に加えて、十分統計量統合手段26を含む点が第2の実施の形態のものとは異なる。なお、図8に示す長時間話者選択手段23は、短時間話者選択手段24に加えて、十分統計量統合手段26にも長時間話者IDを出力する。なお、図8における記憶装置3、音響特徴量算出手段21、話者スコア算出手段22、長時間話者選択手段23および短時間話者選択手段24を含む装置を話者選択装置とし、さらに十分統計量統合手段26と適応モデル作成手段25とを含む装置を話者適応モデル作成装置と定義してもよい。
十分統計量統合手段26は、長時間話者選択手段23から出力される話者IDを入力し、十分統計量記憶部32にあらかじめ記憶されている十分統計量の中から、この話者IDに対応する十分統計量を読み込む。そして、統計処理計算によって、読み込んだ全ての十分統計量を統合して1つの十分統計量を作成し、作成した十分統計量を十分統計量記憶部32に保存する。十分統計量統合手段26は、適応モデル作成手段25による処理と同様に、上記の式1〜式3を用いて統計処理計算を行う。
次に、図9のフローチャートを参照して図8に示された本実施の形態の話者選択装置の全体の動作を詳細に説明する。
図9におけるステップA1,A2,A4で示される第4の実施の形態における音響特徴量算出手段21、話者スコア算出手段22および短時間話者選択手段24の動作は、第2の実施の形態におけるそれらの動作と同じであり、説明を省略する。
第2の実施形態では、長時間話者選択手段23は、スコアの高い上位Nl人の話者IDを短時間話者選択手段24にのみ出力していたが、本実施の形態では、長時間話者選択手段23は、短時間話者選択手段24に加えて、十分統計量統合手段26にも長時間話者IDを出力する(ステップC1)。
また、第2の実施の形態では、長時間話者選択手段23で選択された話者の中から、さらに、短時間話者選択手段24が話者を選択し、適応モデル作成手段25が話者適応モデルを順次作成していたが、本実施の形態では、十分統計量統合手段26が、長時間話者選択手段23で選択された話者に対応する十分統計量を十分統計量記憶部32から読み込み、統計処理計算によって長時間話者に関する1つの十分統計量を作成し、作成した十分統計量を十分統計量記憶部32に保存する(ステップC2)。
適応モデル作成手段25は、まず、ステップC2の処理で作成された長時間話者に関する十分統計量を、十分統計量記憶部32から読み込む。次に、ステップA4の処理で得られた短時間話者IDに対応する十分統計量を、十分統計量記憶部32から読み込み、統計処理計算によって短時間話者に関する1つの十分統計量を作成する(ステップC3)。そして、読み込んだ長時間話者に関する十分統計量と、作成した短時間話者に関する十分統計量とを、統計処理計算によって統合して、話者適応モデルを順次作成する(ステップC4)。適応モデル作成手段25は、長時間話者に関する十分統計量と短時間話者に関する十分統計量とを、例えば、入力された音響特徴量に対するGMMの対数ゆう度を基に重み付けして統合したり、任意の値で重み付けして統合してもよい。
次に、本発明の第5の実施の形態を図面を参照して詳細に説明する。図10は、本発明の話者選択装置の第5の実施の形態の構成を示すブロック図である。
図10に示すように、第5の実施の形態のデータ処理装置2は、図3に示された第2の実施の形態における構成に加えて、短時間話者統合手段27を含む点が第2の実施の形態のものとは異なる。なお、図10における記憶装置3、音響特徴量算出手段21、話者スコア算出手段22、長時間話者選択手段23および短時間話者選択手段24を含む装置を話者選択装置とし、さらに短時間話者統合手段27と適応モデル作成手段25とを含む装置を話者適応モデル作成装置と定義してもよい。
短時間話者統合手段27は、短時間話者選択手段24から短時間毎(例えば、発話毎)に出力される話者IDを入力し、出現した話者IDを、重複を許して数える。すなわち、出現した話者IDのヒストグラム(話者IDと度数との組)を作成する。そして、作成したヒストグラムを適応モデル作成手段25に出力する。
次に、図11のフローチャートを参照して図10に示された本実施の形態の話者選択装置の全体の動作を詳細に説明する。
図11におけるステップA1,A2,A3,A4で示される第5の実施の形態における音響特徴量算出手段21、話者スコア算出手段22、長時間話者選択手段23および短時間話者選択手段24の動作は、第2の実施の形態におけるそれらの動作と同じであり、説明を省略する。
第2の実施の形態では、長時間話者選択手段23で選択された話者の中から、短時間話者選択手段24が話者を選択し、適応モデル作成手段25が話者適応モデルを順次作成していたが、本実施の形態では、短時間話者統合手段27が、発話毎に選択された話者を数え上げ、話者のヒストグラムを作成する(ステップD1)。
そして、適応モデル作成手段25は、統計処理計算により話者適応モデルを1つだけ作成する(ステップD2)。本実施の形態では、適応モデル作成手段25は、統計処理計算の際に、ステップD1で得られた話者の度数(話者の出現回数)を基に、十分統計量を重み付け統合する。つまり、出現回数が多い話者の十分統計量に対する重みを高くして正規化したりする。
次に、第5の実施の形態の効果を説明する。第5の実施の形態では、発話毎に話者適応モデルを作成せず、発話毎に選択された話者を数え上げて作成した話者のヒストグラムを基に、一連の会話や通話に対して適応モデルを1つだけ作成するので、適応モデル作成のための処理時間を削減することができる。
次に、本発明の実施例を図面を参照して説明する。この実施例は、図1に示された本発明の第1の実施の形態に対応する。本実施例では、入力装置1としてマイクロフォンが用いられ、データ処理装置2としてパーソナルコンピュータが用いられ、データ記憶装置3として磁気ディスク装置が用いられる。
パーソナルコンピュータは、音響特徴量算出手段21、話者スコア算出手段22、長時間話者選択手段23および短時間話者選択手段24として機能するプログラムと中央演算処理装置とを有している。また、磁気ディスク装置には、一例として、3120人の話者モデルが記憶されている。話者モデルとして、非特許文献1の場合と同様に、音素の区別のない1状態64混合のGMMを用いる。話者モデルの形式の例を図12に示す。
図12に示す例では、中央演算処理装置で実現される音響特徴量算出手段21は、例えば、メルケプストラム係数(MFCC)やそれらの変化率等からなる40次元の音声の特徴量を用いて学習し、GMMを規定するパラメータである混合重み、平均ベクトル(図12では「平均」)、分散共分散行列(図12では「分散」)を話者モデルとして磁気ディスク装置に保持させる。
話者Aの音声信号がマイクから入力されたとする。すると、中央演算処理装置は、音声信号をメルケプストラム係数(MFCC)やそれらの変化率等から成る40次元の特徴量に変換する。次に、中央演算処理装置で実現される話者スコア算出手段22は、3120人の話者モデルを磁気ディスク装置から読み込み、話者Aの特徴量に対する話者スコア、すなわち3120個全てのGMMの対数ゆう度を計算する。計算された対数ゆう度の例を図13に示す。中央演算処理装置は、対数ゆう度の計算を、会話単位で1回と発話単位毎に行う。
そして、中央演算処理装置で実現される長時間話者選択手段23が、計算された3120人の話者スコアを比較し、まず会話単位で話者スコア上位300人を選択した後、中央演算処理装置で実現される短時間話者選択手段24は、300人の中から発話毎の話者スコア上位50人を順次選択する。話者選択の例を図14に示す。
なお、ここでは、第1の実施の形態に対応する実施例を説明したが、第2〜第5の実施の形態についても、上記の実施例と同様に、入力装置1としてマイクロフォン、データ処理装置2としてパーソナルコンピュータ、およびデータ記憶装置3として磁気ディスク装置を用いて実施することができる。
本発明を、音声信号をテキスト化する音声認識装置や、音声認識装置をコンピュータで実現するためのプログラムといった用途に適用できる。また、使用者に意識させずに、使用者の発声の音響的な特徴に音声認識システムを適応させて音声認識性能を向上させる話者適応モデル作成装置や話者適応モデル作成装置をコンピュータで実現するためのプログラムといった用途に適用できる。さらに、音声を伴う映像コンテンツに話者インデックスを自動付与し、検索することができるコンテンツ検索装置といった用途にも適用できる。

Claims (21)

  1. 複数の話者モデルを記憶する話者モデル記憶手段と、
    入力された音声信号から所定時間フレームごとの特徴量を算出する音響特徴量算出手段と、
    所定時間フレームごとに前記音響特徴量算出手段で順次算出される前記特徴量に対して、前記話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を一定または不定のサイクルで順次算出する話者スコア算出手段と、を備えた話者選択装置であって、
    前記話者スコア算出手段は、
    相対的に異なる2つの時間長の前記音声信号に基づく第1ゆう度と第2ゆう度とを算出し、
    前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行する第1選択手段と、
    前記第1選択手段が選択した話者を、前記所定数よりも少ない数の前記第2ゆう度が高い話者モデルに絞り込む絞り込み処理を実行する第2選択手段と、を備え、
    前記第2選択手段が絞り込んだ話者に対応する情報を出力し、
    前記第1ゆう度および前記第2ゆう度のそれぞれの更新に応じて、前記第1選択手段および前記第2選択手段は前記選択処理および前記絞り込み処理をそれぞれ繰り返し実行する
    ことを特徴とする話者選択装置。
  2. 請求項1記載の話者選択装置において、
    前記話者スコア算出手段は、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第1ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第2ゆう度として算出し、
    前記第1選択手段は、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、
    前記第2選択手段は、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する短時間話者選択手段である
    ことを特徴とする話者選択装置。
  3. 請求項1記載の話者選択装置において、
    前記話者スコア算出手段は、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第1ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を第2ゆう度として算出し、
    前記第1選択手段は、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、
    前記第2選択手段は、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する長時間話者選択手段である
    ことを特徴とする話者選択装置。
  4. 請求項2または請求項3に記載の話者選択装置において、
    前記長時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する第1の閾値と、を用いて話者を選択し、
    前記短時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第1の閾値と同じ値または異なる値である第2の閾値と、を用いて話者を選択する
    ことを特徴とする話者選択装置。
  5. 請求項2または請求項3に記載の話者選択装置において、
    発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段を備え、
    前記話者スコア算出手段は、前記発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出する
    ことを特徴とする話者選択装置。
  6. 請求項1から請求項5のうちのいずれかに記載された話者選択装置と、
    前記話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段と、を備えた
    ことを特徴とする話者適応モデル作成装置。
  7. 請求項2から請求項5のうちのいずれかに記載された話者選択装置と、
    前記長時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって長時間話者に関する1つの十分統計量を作成する手段と、
    前記短時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって短時間話者に関する1つの十分統計量を作成する手段と、
    前記各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段と、を備えた
    ことを特徴とする話者適応モデル作成装置。
  8. 請求項2から請求項5のうちのいずれかに記載された話者選択装置と、
    前記短時間話者選択手段が選択した話者の出現頻度を計算する短時間話者統合手段と、
    前記話者の出現頻度にもとづいて十分統計量を重み付け統合して1つの話者適応モデルを作成する適応モデル作成手段と、を備えた
    ことを特徴とする話者適応モデル作成装置。
  9. あらかじめ複数の話者モデルを記憶し、
    入力された音声信号から所定時間フレームごとの特徴量を算出し、
    所定時間フレームごとに順次算出される前記特徴量に対して、記憶されている複数の話者モデルのそれぞれについて相対的に異なる2つの時間長の前記音声信号に基づく第1ゆう度と第2ゆう度とを一定または不定のサイクルで順次算出し、
    前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行し、
    前記第1ゆう度が高い所定数の話者モデルに対応する話者として選択された話者を、前記所定数よりも少ない数の前記第2ゆう度が高い話者モデルに絞り込む絞り込み処理を実行し
    この絞り込みで絞り込まれた話者に対応する情報を出力し、
    前記選択処理および前記絞り込み処理を前記第1ゆう度および前記第2ゆう度の更新に応じてそれぞれ繰り返し実行する
    ことを特徴とする話者選択方法。
  10. 請求項9に記載の話者選択方法において、
    前記第1ゆう度および前記第2ゆう度を算出する際には、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第1ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第2ゆう度として算出し、
    前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択し、
    前記第2ゆう度が高い話者モデルに絞り込む際には、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する
    ことを特徴とする話者選択方法。
  11. 請求項9に記載の話者選択方法において、
    前記第1ゆう度および前記第2ゆう度を算出する際には、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第1ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第2ゆう度として算出し、
    前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択し、
    前記第2ゆう度が高い話者モデルに絞り込む際には、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する
    ことを特徴とする話者選択方法。
  12. 請求項10または請求項11に記載の話者選択方法において、
    前記長時間ゆう度が高い話者モデルに対応する話者を選択する際には、前記第1ゆう度および前記第2ゆう度を算出する際に算出したゆう度と、あらかじめ定められたゆう度に関する第1の閾値と、を用いて話者を選択し、
    前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記第1ゆう度および前記第2ゆう度を算出する際に算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第1の閾値と同じ値または異なる値である第2の閾値と、を用いて話者を選択する
    ことを特徴とする話者選択方法。
  13. 請求項10または請求項11に記載の話者選択方法において、
    発話間の時間的な依存関係を示すデータをあらかじめ記憶し、
    前記第1ゆう度および前記第2ゆう度を算出する際に、記憶されている発話間の時間的な依存関係を示すデータを反映させてゆう度を算出する
    ことを特徴とする話者選択方法。
  14. コンピュータを、
    複数の話者モデルを記憶する話者モデル記憶手段と、
    入力された音声信号から所定時間フレームごとの特徴量を算出する音響特徴量算出手段と、
    所定時間フレームごとに前記音響特徴量算出手段で順次算出される前記特徴量に対して、前記話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を一定または不定のサイクルで順次算出する話者スコア算出手段と、して機能させる話者選択用プログラムであって、
    前記話者スコア算出手段は、
    相対的に異なる2つの時間長の前記音声信号に基づく第1ゆう度と第2ゆう度とを算出し、
    前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行する第1選択手段と、
    前記第1選択手段で選択した話者を、前記所定数よりも少ない数の前記第2ゆう度が高い話者モデルに絞り込む絞り込み処理を実行する第2選択手段と、を備え、
    前記第2選択手段が絞り込んだ話者に対応する情報を出力し、
    前記第1ゆう度および前記第2ゆう度のそれぞれの更新に応じて、前記第1選択手段および前記第2選択手段は前記選択処理および前記絞り込み処理をそれぞれ繰り返し実行する
    ことを特徴とする話者選択用プログラム。
  15. 請求項14に記載の話者選択用プログラムにおいて、
    前記話者スコア算出手段は、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第1ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第2ゆう度として算出し、
    前記第1選択手段は、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、
    前記第2選択手段は、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する短時間話者選択手段である
    ことを特徴とする話者選択用プログラム。
  16. 請求項14に記載の話者選択用プログラムにおいて、
    前記話者スコア算出手段は、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第1ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第2ゆう度として算出し、
    前記第1選択手段は、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、
    前記第2選択手段は、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する長時間話者選択手段である
    ことを特徴とする話者選択用プログラム。
  17. 請求項15または請求項16に記載の話者選択用プログラムにおいて、
    前記長時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する第1の閾値と、を用いて話者を選択し、
    前記短時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第1の閾値と同じ値または異なる値である第2の閾値と、を用いて話者を選択する
    ことを特徴とする話者選択用プログラム。
  18. 請求項15または請求項16に記載の話者選択用プログラムにおいて、
    前記コンピュータを、さらに、発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段として機能させ、
    前記話者スコア算出手段は、前記発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出する
    ことを特徴とする話者選択用プログラム。
  19. 請求項14から請求項18のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
    前記コンピュータを、さらに、
    前記第2選択手段で選択された話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段として機能させる
    ことを特徴とする話者適応モデル作成プログラム。
  20. 請求項15から請求項18のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
    前記コンピュータを、さらに、
    前記長時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって長時間話者に関する1つの十分統計量を作成する手段と、
    前記短時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって短時間話者に関する1つの十分統計量を作成する手段と、
    前記各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段と、して機能させる
    ことを特徴とする話者適応モデル作成プログラム。
  21. 請求項15から請求項18のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
    前記コンピュータを、さらに、
    前記短時間話者選択手段が選択した話者の出現頻度を計算する短時間話者統合手段と、
    前記話者の出現頻度にもとづいて十分統計量を重み付け統合して1つの話者適応モデルを作成する適応モデル作成手段と、して機能させる
    ことを特徴とする話者適応モデル作成プログラム。
JP2009506262A 2007-03-27 2008-02-29 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム Active JP5229219B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009506262A JP5229219B2 (ja) 2007-03-27 2008-02-29 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007082230 2007-03-27
JP2007082230 2007-03-27
JP2009506262A JP5229219B2 (ja) 2007-03-27 2008-02-29 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
PCT/JP2008/053629 WO2008117626A1 (ja) 2007-03-27 2008-02-29 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム

Publications (2)

Publication Number Publication Date
JPWO2008117626A1 JPWO2008117626A1 (ja) 2010-07-15
JP5229219B2 true JP5229219B2 (ja) 2013-07-03

Family

ID=39788364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009506262A Active JP5229219B2 (ja) 2007-03-27 2008-02-29 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム

Country Status (3)

Country Link
US (1) US8452596B2 (ja)
JP (1) JP5229219B2 (ja)
WO (1) WO2008117626A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009057739A1 (ja) * 2007-10-31 2009-05-07 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US20120239400A1 (en) * 2009-11-25 2012-09-20 Nrc Corporation Speech data analysis device, speech data analysis method and speech data analysis program
JP5549506B2 (ja) * 2010-09-28 2014-07-16 富士通株式会社 音声認識装置及び音声認識方法
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
JP5779032B2 (ja) * 2011-07-28 2015-09-16 株式会社東芝 話者分類装置、話者分類方法および話者分類プログラム
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8880398B1 (en) 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
JP6424628B2 (ja) * 2013-01-17 2018-11-21 日本電気株式会社 話者識別装置、話者識別方法、および話者識別用プログラム
CN103679452A (zh) * 2013-06-20 2014-03-26 腾讯科技(深圳)有限公司 支付验证方法、装置及系统
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US9858922B2 (en) * 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
JP6276132B2 (ja) * 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
JP6303971B2 (ja) 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10311855B2 (en) * 2016-03-29 2019-06-04 Speech Morphing Systems, Inc. Method and apparatus for designating a soundalike voice to a target voice from a database of voices
US10896682B1 (en) * 2017-08-09 2021-01-19 Apple Inc. Speaker recognition based on an inside microphone of a headphone
WO2020003413A1 (ja) 2018-06-27 2020-01-02 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP2023549794A (ja) * 2020-12-25 2023-11-29 日本電気株式会社 話者識別装置、方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167599A (ja) * 2001-12-03 2003-06-13 Seiko Epson Corp 音声認識方法および音声認識装置
JP2004053821A (ja) * 2002-07-18 2004-02-19 Univ Waseda 話者識別方法およびそのシステム、並びにプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182037B1 (en) 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
JP3735209B2 (ja) * 1999-03-03 2006-01-18 富士通株式会社 話者認識装置及び方法
JP3756879B2 (ja) 2001-12-20 2006-03-15 松下電器産業株式会社 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム
JP2003202891A (ja) 2002-01-07 2003-07-18 Matsushita Electric Ind Co Ltd 音声処理用適応モデル作成方法
JP4318475B2 (ja) * 2003-03-27 2009-08-26 セコム株式会社 話者認証装置及び話者認証プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167599A (ja) * 2001-12-03 2003-06-13 Seiko Epson Corp 音声認識方法および音声認識装置
JP2004053821A (ja) * 2002-07-18 2004-02-19 Univ Waseda 話者識別方法およびそのシステム、並びにプログラム

Also Published As

Publication number Publication date
US20100114572A1 (en) 2010-05-06
WO2008117626A1 (ja) 2008-10-02
US8452596B2 (en) 2013-05-28
JPWO2008117626A1 (ja) 2010-07-15

Similar Documents

Publication Publication Date Title
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
KR102401512B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US10923111B1 (en) Speech detection and speech recognition
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP5326892B2 (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN106875936B (zh) 语音识别方法及装置
US11823655B2 (en) Synthetic speech processing
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
Herbig et al. Self-learning speaker identification for enhanced speech recognition
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Sakti et al. Deep bottleneck features and sound-dependent i-vectors for simultaneous recognition of speech and environmental sounds
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP5626558B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
Sinha et al. Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR
Yadav et al. Confidence calibration measures to improve speech recognition
Leino Maximum a posteriori for acoustic model adaptation in automatic speech recognition
Tao et al. Acoustic model adaptation for automatic speech recognition and animal vocalization classification
Bharathi et al. Improving the performance of speaker and language identification tasks using unique characteristics of a class
Merino Speaker Compensation in Automatic Speech Recogniton
JP2007248742A (ja) 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
Stephenson12 et al. Õà «≈ á À»¿«∆¡ á«∆ ÕÀ¡∆∆≈¡ À¡∆∆ Ãœ «√ À œ¡ ÿ«Ã¿«ÕÀá∆ á Õƒ à «Œ¡ ƒ À
Breslin The Multiple Regression Hidden Markov Model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5229219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150