JP6636374B2

JP6636374B2 - 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム

Info

Publication number: JP6636374B2
Application number: JP2016076605A
Authority: JP
Inventors: 厚志安藤; 太一浅見; 山口　義和; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-04-06
Filing date: 2016-04-06
Publication date: 2020-01-29
Anticipated expiration: 2036-04-06
Also published as: JP2017187642A

Description

本発明は、音声による話者認識技術に関するものであり、特に話者特徴ベクトルの類似度を用いて話者認識する技術に関する。

音声による話者認識（以下、単に話者認識という）は、話者識別と話者照合に大別される。話者識別は、入力音声に対してその話者が事前登録した話者のうち誰にあたるかを判定する技術であり、例えば音声記録から犯罪者の声を探すことに利用されている。一方、話者照合は、入力音声に対してその話者が事前登録した話者であるかどうかを判定する技術であり、例えば本人確認に利用されている。また、話者照合と話者識別の両方を兼ね備える場合もあり、入力音声が事前登録話者に含まれるかを判定し（照合）、含まれる場合はどの登録話者かを判定する（識別）といった利用法も考えられる。いずれの場合も話者ごとに一発話以上の音声をシステムに事前登録する必要がある。

以下、事前登録時の入力音声を登録発話、話者認識時の入力音声を認識発話という。

話者認識には、テキスト依存型とテキスト非依存型が存在する。テキスト依存型では、認識の際にユーザは所定の言葉を発する必要がある。一方、テキスト非依存型では、認識の際にユーザは任意の言葉を発してよい。

話者認識では、入力された音声信号全体から一つの話者特徴ベクトルを算出する技術が利用される。話者特徴ベクトルの求め方を以下に示す。入力された音声信号を数十ミリ秒の音響分析フレームに分割し、各音響分析フレームから抽出した音響特徴量ベクトルを時間順に並べた音響特徴量ベクトル系列を作成する。音響特徴量ベクトル系列から、事前学習しておいた話者特徴量抽出モデル、所定の混合正規分布（ＵＢＭモデル）に対して計算した０次統計量および１次統計量を利用して一つの話者特徴ベクトルを求める。これらの手順は、例えば非特許文献１に開示されている。話者特徴ベクトルは、話者特徴量抽出モデルの事前学習の際に個々の音声信号に対して話者を示すラベルが不要であるために学習が容易であること、どんな音声信号からも一つの話者特徴ベクトルを算出するため、言葉の種類や長さが異なるテキスト非依存型の話者認識でも利用可能であることなどの利点があり、話者認識において広く利用されている。

個々の入力音声から話者特徴ベクトルを算出できれば、話者認識は既存のクラス分類技術や外れ値検出技術を用いて簡単に実現できる。例えば、話者識別は、登録話者ごとの登録発話の話者特徴ベクトルと認識発話の話者特徴ベクトルとのベクトル類似度を求め、ベクトル類似度が最大となる登録発話の話者名を返すことで実現できる。話者照合は、登録発話の話者特徴ベクトルと認識発話の話者特徴ベクトルとのベクトル類似度を求め、ベクトル類似度の最大値が閾値以上であれば登録話者であると判定することで実現できる。

ベクトル類似度には、例えば話者特徴ベクトルのコサイン類似度が用いられる。このベクトル類似度は、話者の類似度、すなわち発話者がどれだけ類似しているかを定量的に示す数値とみなされる。

以下、図１３〜図１５を参照して従来技術の話者識別装置８００の概略を説明する。図１３は、話者識別装置８００の構成を示すブロック図である。図１４は、話者識別装置８００の動作を示すフローチャートである。図１５は、話者識別装置８００によるベクトル類似度計算の様子を示す図である。図１３に示すように話者識別装置８００は、音響分析部８２０−１と、話者特徴ベクトル算出部８３０−１と、話者登録部８４０と、登録発話記録部８０３と、音響分析部８２０−２と、話者特徴ベクトル算出部８３０−２と、ベクトル類似度計算部８５０と、話者識別部８７０を含む。話者識別装置８００は、ＵＢＭモデル記録部８０１と、話者特徴量抽出モデル記録部８０２とに接続している。

話者特徴ベクトルには、非特許文献１に記載のｉ−ｖｅｃｔｏｒを用いる。非特許文献１にあるように、ｉ−ｖｅｃｔｏｒの算出にはＵＢＭモデル、話者特徴量抽出モデルが必要となるが、これらのモデルは事前に学習しておき、それぞれＵＢＭモデル記録部８０１、話者特徴量抽出モデル記録部８０２に記録しておく。なお、ＵＢＭモデル、話者特徴量抽出モデルはそれぞれ非特許文献１のＴ、Σに対応するものである。

まず、登録発話を事前に記録する処理について説明する。認識発話の話者を識別するために用いる登録発話は１以上あるものとし、この登録発話をまとめて登録発話集合という。

音響分析部８２０−１は、登録発話から登録発話の音響特徴量ベクトル系列を算出する（Ｓ８２０−１）。音響特徴量ベクトル系列は、先述の通り、登録発話を数十ミリ秒の音響分析フレームに分割し、各音響分析フレームから抽出した音響特徴量ベクトルを時間順に並べたものとして算出すればよい。

話者特徴ベクトル算出部８３０−１は、音響分析部８２０−１の出力である登録発話の音響特徴量ベクトル系列から、ＵＢＭモデル記録部８０１、話者特徴量抽出モデル記録部８０２に記録しておいたＵＢＭモデル、話者特徴量抽出モデルを用いて登録発話の話者特徴ベクトルを算出する（Ｓ８３０−１）。話者特徴ベクトルの算出手順は先述の通りである。

話者登録部８４０は、話者特徴ベクトル算出部８３０−１の出力である登録発話の話者特徴ベクトルと当該登録発話に対応する話者名とを組にして登録発話記録部８０３の登録発話データベースに登録する（Ｓ８４０）。話者名は先ほどの登録発話の話者を特定するための情報であり、人手で与えられるものである。

続いて、認識発話を識別する処理について説明する。音響分析部８２０−２は、認識発話から認識発話の音響特徴量ベクトル系列を算出する（Ｓ８２０−２）。音響特徴量ベクトル系列の算出手順はＳ８２０−１と同様である。

話者特徴ベクトル算出部８３０−２は、音響分析部８２０−２の出力である認識発話の音響特徴量ベクトル系列から、ＵＢＭモデル記録部８０１、話者特徴量抽出モデル記録部８０２に記録しておいたＵＢＭモデル、話者特徴量抽出モデルを用いて認識発話の話者特徴ベクトルを算出する（Ｓ８３０−２）。話者特徴ベクトルの算出手順はＳ８３０−１と同様である。

ベクトル類似度計算部８５０は、話者特徴ベクトル算出部８３０−２の出力である認識発話の話者特徴ベクトルと、登録発話データベースの各登録発話の話者特徴ベクトルとのベクトル類似度を計算する（Ｓ８５０）。ベクトル類似度の計算には、先述の通り、例えば非特許文献１に記載のコサイン類似度を利用すればよい。ｗ_１, ｗ_２をそれぞれ認識発話の話者特徴ベクトル、登録発話の話者特徴ベクトルとすると、コサイン類似度ｃは以下の式により与えられる。

ここで、^ｔは転置を表す。

ベクトル類似度は、話者らしさ、話者の類似度を示す指標となるものであり、ベクトル類似度としてコサイン類似度を採用した場合はコサイン類似度の値が大きいほど比較対象となる話者らしい（話者に似ている）といえる。ベクトル類似度計算部８５０は、計算したベクトル類似度と登録発話の話者名とを組にして出力する。

話者識別部８７０は、ベクトル類似度計算部８５０の出力であるベクトル類似度が最大となる登録発話の話者名を選択し、識別結果として出力する（Ｓ８７０）。

話者照合装置も、話者識別装置とほぼ同様に構成される。具体的には、話者識別部の代わりに話者照合部を備える。話者照合部は、ベクトル類似度の最大値が閾値よりも大きい場合（あるいは閾値以上である場合）に登録発話の話者であるとの照合結果を生成する。

小川哲司、塩田さやか、"ｉ−ｖｅｃｔｏｒを用いた話者認識"、日本音響学会誌、２０１４年６月、７０巻６号、ｐｐ.３３２−３３９.

話者特徴ベクトルには、発話長が長くなるほど話者情報が強く表れるという性質があることが知られている。この性質から、同じ話者による音声でも発話長が異なるほど話者特徴ベクトルの類似度が低下する傾向にある。

話者認識では、登録発話が文章読み上げである一方、認識発話は単語読み上げであることが多い。このため、登録発話が例えば１０秒以上と長くなるのに対し、認識発話は例えば１．５秒以下と短くなり、その結果、登録発話に比べて認識発話が極端に短くなる。このため、発話長の違いにより両発話の話者特徴ベクトルの類似度が低下する。このような話者特徴ベクトルを用いて話者認識を行う場合、どの話者も類似度が低くなるために話者ごとの類似度の違いが表れにくくなり、認識精度が低下する。

そこで本発明では、登録発話と認識発話の長さが異なる場合であっても、頑健に話者を認識するための話者特徴ベクトルの類似度計算をする話者らしさ評価装置を提供することを目的とする。

本発明の一態様は、話者認識の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、前記登録発話から、当該登録発話の一部を切り出すことにより、当該登録発話の区間より短い区間を有する分割済登録発話を生成する発話分割部と、前記登録発話から、前記分割済登録発話の区間より短い区間を有する登録発話セグメントを生成するセグメント分割部と、前記登録発話セグメントを前記分割済登録発話の区間の長さと等しくなるよう組み合わせることにより前記分割済登録発話を生成する分割済登録発話生成部と、前記分割済登録発話から、分割済登録発話話者特徴ベクトルを生成する分割済登録発話話者特徴ベクトル算出部と、前記認識発話から、認識発話話者特徴ベクトルを生成する認識発話話者特徴ベクトル算出部と、前記登録発話話者特徴ベクトルと前記認識発話話者特徴ベクトルの類似度を計算するベクトル類似度計算部とを含む話者らしさ評価装置である。

本発明によれば、登録発話と認識発話の長さが異なる場合においても、精度よく話者を認識するための話者特徴ベクトルの類似度を計算することが可能となる。

実施形態１の話者識別装置１００の構成を示すブロック図。実施形態１の話者識別装置１００の動作を示すフローチャート。実施形態１の話者識別装置１００による話者類似度計算の様子を示す図。実施形態１の話者識別装置１００による話者類似度の例を示す図。実施形態２の話者識別装置２００の構成を示すブロック図。実施形態２の話者識別装置２００の動作を示すフローチャート。実施形態３の話者識別装置３００の構成を示すブロック図。実施形態３の話者識別装置３００の動作を示すフローチャート。実施形態３の分割済登録発話の生成の様子を示す図。実施形態３の登録発話分割装置４００の構成を示すブロック図。実施形態３の登録発話分割装置４０５の構成を示すブロック図。実施形態１と実施形態３の比較実験の結果を示す表。従来技術の話者識別装置８００の構成を示すブロック図。従来技術の話者識別装置８００の動作を示すフローチャート。従来技術の話者識別装置８００によるベクトル類似度計算の様子を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

なお、以下の説明でも事前登録時の入力音声を登録発話、話者認識時の入力音声を認識発話という。また、登録発話を要素とする集合を登録発話集合（空集合ではないものとする）という。

＜本願発明の要点＞
話者特徴ベクトルには、発話長が長くなるほど話者情報が強く表れるという性質以外に、話者情報だけでなく発話に含まれる言葉の情報にも依存するという性質もあることが知られている。この性質から、同程度の発話長でも発話に含まれる言葉が異なるほど話者特徴ベクトルの類似度が低下する傾向にある。例えば「おとな」と「おとこ」という発話の話者特徴ベクトルの類似度は高く、「おとな」と「こども」という発話の話者特徴ベクトルの類似度は低くなりやすいという傾向がある。

話者特徴ベクトルが有するこれらの性質に起因して類似度が低下する問題に対応するための本願発明のポイントは、（１）発話登録時に認識発話と同程度の発話長となるよう登録発話の音声を分割し、分割後の発話である分割済登録発話各々に対して話者特徴ベクトルを算出すること、（２）話者認識の際には話者特徴ベクトルの類似度の最大値ではなく類似度の話者ごとの平均値の最大値を話者認識の基準とすることの二点である。ポイント（１）により、発話長の違いを原因とする話者特徴ベクトルの類似度低下を防ぐことを可能とする。ポイント（２）は、様々な言葉を含む登録発話と認識発話の話者特徴ベクトルの類似度をすべて考慮して話者を判定することに相当し、登録発話に含まれる言葉の違いによる類似度の変化が話者認識に与える影響を低減することを可能とする。

＜実施形態１＞
以下、図１〜図４を参照して実施形態１の話者識別装置１００について説明する。図１は、話者識別装置１００の構成を示すブロック図である。図２は、話者識別装置１００の動作を示すフローチャートである。図３は、話者識別装置１００による話者類似度計算の様子を示す図である。図４は、話者識別装置１００による話者類似度の例を示す図である。図１に示すように、話者識別装置１００は、発話分割部１１０と、音響分析部８２０−１と、話者特徴ベクトル算出部８３０−１と、話者登録部８４０と、登録発話記録部８０３と、音響分析部８２０−２と、話者特徴ベクトル算出部８３０−２と、ベクトル類似度計算部８５０と、話者類似度計算部１６０と、話者識別部８７０を含む。話者識別装置１００は、ＵＢＭモデル記録部８０１と、話者特徴量抽出モデル記録部８０２とに接続している。

なお、図１に点線で図示する通り、音響分析部８２０−１、話者特徴ベクトル算出部８３０−１をまとめて分割済登録発話話者特徴ベクトル算出部１００１と、音響分析部８２０−２、話者特徴ベクトル算出部８３０−２をまとめて認識発話話者特徴ベクトル算出部１００２という。また、話者識別装置１００から話者識別部８７０を除いた装置、すなわち、登録発話と認識発話の話者類似度を計算する装置を話者らしさ評価装置という。

話者識別装置１００での処理は大きく登録発話の登録、認識発話の識別の２つの処理からなる。

（登録発話の登録処理）
１．登録発話の音声を短時間ごと（認識発話と同程度の長さが好ましい）に分割し、分割後の各音声（分割済登録発話という）に対して話者特徴ベクトルを算出する（Ｓ１１０、Ｓ８２０−１、Ｓ８３０−１）。
２．話者特徴ベクトルと登録発話の話者名を組にして登録発話データベースに登録する（Ｓ８４０）。

（認識発話の識別処理）
１．認識発話の音声に対して話者特徴ベクトルを算出する（Ｓ８２０−２、Ｓ８３０−２）。
２．認識発話の話者特徴ベクトルと各分割済登録発話の話者特徴ベクトルとのベクトル類似度を計算する（Ｓ８５０）。
３．２．で求めた類似度を話者ごとに平均化し、話者類似度を計算する（Ｓ１６０）。
４．話者類似度の最大値に対応する話者名を認識発話の話者、つまり識別結果として返す（Ｓ８７０）。

以下、構成部ごとに入力、出力、動作について説明する。

＜発話分割部１１０＞
入力：登録発話
出力：分割済登録発話
登録発話集合の各登録発話を短時間ごとに分割し、分割済登録発話を生成する（Ｓ１１０）。分割済登録発話は、登録発話の一部を切り出す形で生成される。分割時、区間の重複は許すものとする。つまり、図３にあるように分割済登録発話の音声には重なりがある。分割時の窓幅は、話者識別の利用時に想定される認識発話と同程度となるようにし、例えば１．５秒とする。シフト幅は例えば０．５秒とする。

区間の重複を許すことにより、より多くの分割済登録発話が生成されることとなり、本願発明のポイント（２）の効果、言葉の違いに起因する影響をより抑制することが可能となる。

なお、ここでの処理は、典型的には、認識発話と同程度の長さの分割済登録発話を複数生成することになるが、登録発話の長さより少なくとも短くなる分割済登録発話を１つだけ生成するのでもよい。

＜音響分析部８２０−１、８２０−２＞
入力：分割済登録発話、認識発話
出力：音響特徴量ベクトル系列
各発話から音響特徴量ベクトル系列を算出する（Ｓ８２０−１、Ｓ８２０−２）。算出した音響特徴量ベクトル系列をそれぞれ分割済登録発話音響特徴量ベクトル系列、認識発話音響特徴量ベクトル系列という。

ここでは、音響特徴量としてＭＦＣＣを利用する。ＭＦＣＣは短時間ごとのスペクトル包絡を表現し、音声認識を始めとする音声関連技術において広く利用されている。ＭＦＣＣの各次元の値をベクトル表記したものを音響特徴量ベクトルとし、ＭＦＣＣベクトルを時間方向に並べたものを音響特徴量ベクトル系列とする。ＭＦＣＣの抽出方法は参考非特許文献２に記載されている。ＭＦＣＣ抽出のフレーム幅は例えば２５ｍｓとし、シフト幅は例えば１０ｍｓとする。また、ＭＦＣＣの動的特徴量も音響特徴量ベクトルに含める。
（参考非特許文献２：鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、“ＩＴＴｅｘｔ音声認識システム”、pp.13-14、オーム社、2001）

＜話者特徴ベクトル算出部８３０−１、８３０−２＞
入力：音響特徴量ベクトル系列、ＵＢＭモデル、話者特徴量抽出モデル
出力：話者特徴ベクトル
各音響特徴量ベクトルからＵＢＭモデル、話者特徴量抽出モデルを用いて話者特徴ベクトルを算出する（Ｓ８３０−１、Ｓ８３０−２）。算出した話者特徴ベクトルをそれぞれ分割済登録発話話者特徴ベクトル、認識発話話者特徴ベクトルという。話者特徴ベクトルとして、話者識別装置８００と同じく、ｉ−ｖｅｃｔｏｒを用いる。

＜話者登録部８４０＞
入力：分割済登録発話話者特徴ベクトル、話者名
出力先：登録発話データベース
分割済登録発話話者特徴ベクトルとそれに対応する話者名（分割元となった登録発話の話者名）を組とし、登録発話記録部８０３の登録発話データベースへ追加する（Ｓ８４０）。話者名は、先述の通り、人手で与えるものとする。つまり、登録発話データベースには登録発話集合の各登録発話に対して１つ以上の分割済登録発話話者特徴ベクトルが登録されることとなる。

＜ベクトル類似度計算部８５０＞
入力：認識発話話者特徴ベクトル、分割済登録発話話者特徴ベクトル、話者名
出力：類似度、話者名
認識発話話者特徴ベクトルと登録発話データベースに含まれるすべての分割済登録発話話者特徴ベクトルとの類似度を計算する（Ｓ８５０）。類似度は非特許文献１のコサイン類似度とする。計算した類似度は、分割済登録発話話者特徴ベクトルに対応する話者名と組にして出力される。

なお、話者特徴ベクトル正規化行列を用いて類似度計算を行うこともできる。この正規化行列を用いる手法はＷＣＣＮと呼ばれ、発話に含まれる言葉の違いによる類似度の変動を低減させることが知られている（参考非特許文献３）。ＷＣＣＮを用いると、非特許文献１のコサイン類似度を用いる場合に比べて認識発話・登録発話に含まれる言葉の違いの影響をより受けにくくなり、話者認識精度が向上する。
（参考非特許文献３：A. O. Hatch, S. Kajarekar, A. Stolcke, “Within-Class Covariance Normalization for SVM-based Speaker Recognition”, Proc. Interspeech 2006, pp.1471-1474, 2006.）

具体的には、ＷＣＣＮを用いたコサイン類似度ｃは以下の式により与えられる。

ここで、ｗ_１, ｗ_２はそれぞれ認識発話話者特徴ベクトル、分割済登録発話話者特徴ベクトル、Ｗは話者特徴ベクトル正規化行列を表す。なお、^ｔは転置、^−１は逆行列を表す。

また、コサイン類似度以外のベクトル間の類似尺度を用いてもよい。

＜話者類似度計算部１６０＞
入力：類似度、話者名
出力：話者類似度、話者名
類似度を話者ごとに平均化し、話者類似度を求める（Ｓ１６０）。計算した話者類似度は、分割済登録発話話者特徴ベクトルに対応する話者名と組にして出力される。話者ごとの平均をとるために、例えば、分割元を同じくする分割済登録発話話者特徴ベクトルとの類似度の範囲で平均をとるなどすればよい。また、同一話者による複数の登録発話が話者識別装置１００に入力され、当該登録発話から算出される分割済登録発話話者特徴ベクトルが登録データベースに登録されている場合は、同一の話者名と組になっているこれらの分割済登録発話話者特徴ベクトルのすべてあるいは一部を用いて話者類似度を求めるようにしてもよい。

話者類似度は、様々な言葉の組み合わせを考慮した上での、登録発話の話者と認識発話の話者が類似している度合いに相当する。

＜話者識別部８７０＞
入力：話者類似度、話者名
出力：話者名
話者類似度のうち、最大となる類似度に対応する話者名（つまり、分割元となった登録発話の話者名）を選択、識別結果として返す（Ｓ８７０）。

また、分割済登録発話話者特徴ベクトル算出部１００１、認識発話話者特徴ベクトル算出部１００２の入力、出力、動作としてまとめると、以下のようになる。

＜分割済登録発話話者特徴ベクトル算出部１００１＞
入力：分割済登録発話、ＵＢＭモデル、話者特徴量抽出モデル
出力：分割済登録発話話者特徴ベクトル
分割済登録発話から、ＵＢＭモデルと話者特徴量抽出モデルを用いて分割済登録発話話者特徴ベクトルを算出する（Ｓ８２０−１、Ｓ８３０−１）。

＜認識発話話者特徴ベクトル算出部１００２＞
入力：認識発話、ＵＢＭモデル、話者特徴量抽出モデル
出力：認識発話話者特徴ベクトル
認識発話から、ＵＢＭモデルと話者特徴量抽出モデルを用いて認識発話話者特徴ベクトルを算出する（Ｓ８２０−２、Ｓ８３０−２）。

登録発話に比べて認識発話が極端に短い場合において正しく話者識別を行うためには、同一話者であれば話者特徴ベクトルの類似度を上げ、別話者であれば類似度を下げる必要がある。発話長の違いへの最も単純な対処方法として、例えば登録発話から認識発話と同程度の発話長となるような一部区間を抽出し、その区間のみから話者特徴ベクトルを算出して類似度を求める方法が考えられる。しかし、この方法では、抽出する区間の言葉の情報の影響を受けて類似度が変化するため、たまたま登録発話と認識発話が似た言葉を含む区間を登録発話から抽出した場合には、異なる話者でも類似度が高くなってしまう（図４参照）。

したがって、発話長の違いへの対処と同時に、発話に含まれる言葉の影響による話者特徴ベクトルの変化も考慮する必要がある。実施形態１の発明では、発話分割部１１０を備えることにより発話長の違いへ対処し、話者類似度計算部１６０を備えることにより発話に含まれる言葉の影響に対処する。

これにより、登録発話に比べて認識発話が短い場合でも、精度よく話者を認識するための話者特徴ベクトルの類似度を計算することが可能となり、話者認識精度が向上する。また、テキスト依存型、テキスト非依存型のいずれに対しても話者認識精度が向上する。

＜実施形態２＞
実施形態２では、実施形態１の話者識別装置での処理に加えて、閾値を用いた登録外話者判定処理（閾値処理）を行う。認識発話の話者が登録発話データベースにいる場合（閾値処理の結果、所定の要件を満たすと判断される場合）は実施形態１の話者識別装置での処理結果である話者名を識別結果として出力し、認識発話の話者が登録発話データベースにない場合（閾値処理の結果、所定の要件を満たされないと判断される場合）は登録外話者と判定する。ここで、登録外話者とは、登録発話データベースに話者名が登録されていない話者をいう。

以下、図５〜図６を参照して実施形態２の話者識別装置２００について説明する。図５は、話者識別装置２００の構成を示すブロック図である。図６は、話者識別装置２００の動作を示すフローチャートである。話者識別装置２００では、登録外話者判定部２１０が追加される。

以下、実施形態１と相違する話者識別部８７５、登録外話者判定部２１０の入力、出力、動作について説明する。

＜話者識別部８７５＞
入力：話者類似度、話者名
出力：話者類似度の最大値に対応する話者名、話者類似度の最大値
最大となる話者類似度に対応する話者名を選択、選択した話者名に対応する話者類似度（つまり、話者類似度の最大値）を出力する（Ｓ８７５）。話者識別部８７０では話者類似度の最大値に対応する話者名のみを出力したが、話者識別部８７５では話者類似度の最大値もあわせて出力する。

＜登録外話者判定部２１０＞
入力：話者類似度の最大値に対応する話者名、話者類似度の最大値、閾値
出力：識別結果
認識発話の話者が登録外話者かを判定し、認識発話の話者が登録発話データベースにいる場合は話者名を、認識発話の話者が登録発話データベースにない場合は登録外話者である旨を識別結果として出力する（Ｓ２１０）。登録外話者の判定は、話者類似度の最大値の閾値処理により実現する。閾値は事前に設定されているものとする。

一般に、登録話者本人であるかを判定する場合、類似度を閾値処理する方法、すなわち類似度が閾値よりも大きい場合は登録話者本人であるとみなし、閾値よりも小さい場合は登録話者でないとみなす方法を用いる。複数の話者の登録発話が登録発話データベースに登録されている場合、すべての登録話者に対して閾値処理を行い、類似度が閾値よりも大きい登録話者が一人でもいれば登録話者、一人もいないのであれば登録外話者と判定することも可能である。

しかし、話者類似度の最大値のみを閾値処理することでも、登録外話者の判定を実現することができる。話者類似度の最大値が閾値よりも大きい場合は少なくとも一人以上が登録話者であると判定されるが、閾値よりも小さい場合はその他の話者も話者類似度が閾値よりも小さいことから、すべての登録話者に対して本人でない（登録外話者である）と判定されることとなる。このことから、ここでは、話者類似度の最大値と閾値を用いて、話者類似度の最大値が閾値よりも大きい場合は登録外話者でないと判定し、話者類似度の最大値に対応する話者名を、話者類似度の最大値が閾値よりも小さい場合は登録外話者と判定し、登録外話者であるという情報を識別結果として返す。

なお、閾値以上であるか否かにより閾値処理を行ってもよい。また、話者類似度の最大値があらかじめ設定した閾値より大きいことまたは閾値以上であることを、話者類似度の最大値が大きいことを示す所定の範囲にあるという。

実施形態１の発明と同様、登録発話に比べて認識発話が短い場合でも、精度よく話者を認識するための話者特徴ベクトルの類似度を計算することが可能となり、話者認識精度が向上する。また、テキスト依存型、テキスト非依存型のいずれに対しても話者認識精度が向上する。

＜実施形態３＞
実施形態１では、図３に示すように、登録発話が認識発話に対して長い場合、登録発話を分割し、認識発話と同程度の発話長の分割済登録発話を生成することで発話長の差の影響を低減する。また、“ベクトル類似度が言葉の影響を受けるものの、同一話者であれば平均的には高く、別話者であれば平均的には低くなる”という性質を利用し、登録発話の分割済登録発話と認識発話とのベクトル類似度の話者ごとの平均を話者類似度とみなすことで、言葉の類似性の影響を低減する（図４参照）。登録発話の分割とベクトル類似度の平均化により、話者認識精度の向上が期待できる。

例えば、登録発話長が３０秒以上あるような、登録発話が十分長い場合には、登録発話から様々な言葉を含む発話を十分多く作り出すことができるため、多様な言葉の組み合わせでのベクトル類似度が話者類似度に表れ、言葉の類似性の影響を低減できる。一方、例えば、登録発話長が１０秒以下となるような、登録発話がそれほど長くない場合には、登録発話を分割するだけでは異なる言葉を含む発話を少数しか作り出すことができず、少数の言葉の組み合わせでのベクトル類似度が話者類似度に表れてしまう。その結果、言葉の類似性が話者類似度に与える影響を十分に低減することができず、話者認識誤りの原因となってしまう。

つまり、実施形態１の発明は登録発話が十分に長い場合には話者認識精度向上の有効性が高いが、登録発話がそれほど長くない場合には話者認識精度向上が十分に見込めないことがある。有効性を高めるためには、長い登録発話をユーザにお願いすればよいが、長い発話の登録を強いることはユーザ負担に直結するため、好ましくない。

そこで、実施形態３では、登録発話がそれほど長くない場合でも多様な言葉の組み合わせを生成する方法について説明する。

＜実施形態３の発明の要点＞
実施形態３の発明では、実施形態１のように登録発話を窓掛けして分割発話を生成する方法とは異なり、登録発話を分割済登録発話よりも短い微小区間であるセグメントに分割し、セグメントを無作為に組み合わせて分割済登録発話を生成する点にある。窓掛けによる分割に比べ、様々な言葉を含む発話をより多く生成することが可能となる。

なお、セグメントの無作為な組み合わせは音響特徴量ベクトル系列において系列の順序の情報が失われることを意味するが、話者特徴ベクトルの抽出には音響特徴量ベクトル系列の順序の情報は不要であるため、話者特徴ベクトルの性質が変わることはない。また、セグメントの無作為な組み合わせは単語として意味のない発話が表れることを意味するが、話者特徴ベクトルの抽出にはどの音素が含まれているかの情報が不要であるために単語として意味のある発話でも意味のない発話でも同じように扱われるため、話者特徴ベクトルの性質が変わることはない。すなわち、セグメントの無作為な組み合わせが話者特徴ベクトルに悪影響を与えることはない。

以下、図７〜図９を参照して実施形態３の話者識別装置３００について説明する。図７は、話者識別装置３００の構成を示すブロック図である。図８は、話者識別装置３００の動作を示すフローチャートである。図９は、話者識別装置３００による分割済登録発話の生成の様子を示す図である。話者識別装置３００では、発話分割部１１０にかえて、セグメント分割部３１０と分割済発話生成部３２０が追加される。

話者識別装置３００での処理も大きく登録発話の登録、認識発話の識別の２つの処理からなる。実施形態１と相違する点は、登録時における分割済登録発話の生成方法であり、話者類似度計算方法や話者識別方法についてはなんら変わるところはない。

（登録発話の登録処理）
１．登録発話をセグメント単位に分割する（Ｓ３１０）。
２．登録発話のセグメントを所定の長さになるまで無作為に組み合わせ、分割済登録発話を生成する（Ｓ３２０）。この際、１つの登録発話から十分な数の分割済登録発話を生成する。
３．分割済登録発話に対して話者特徴ベクトルを算出する（Ｓ８２０−１、Ｓ８３０−１）。
４．話者特徴ベクトルと登録発話の話者名を組にして登録発話データベースに登録する（Ｓ８４０）。

（認識発話の識別処理）
１．認識発話から話者特徴ベクトルを算出する（Ｓ８２０−２、Ｓ８３０−２）。
２．認識発話の話者特徴ベクトルと分割済登録発話の話者特徴ベクトルのベクトル類似度をそれぞれ計算する（Ｓ８５０）。
３．２．で求めたベクトル類似度を話者ごとに平均化し、話者類似度を算出する（Ｓ１６０）。
４．話者類似度の最大値に対応する話者名を識別結果として返す（Ｓ８７０）。

以下、構成部ごとに入力、出力、動作について説明する。

＜セグメント分割部３１０＞
入力：登録発話
出力：登録発話セグメント
登録発話を分割し、登録発話セグメントを生成する（Ｓ３１０）。

登録発話セグメントの長さは認識発話の長さよりも短いものとする。このとき、登録発話セグメントの長さは、登録発話セグメントの長さの整数倍が分割済登録発話の長さとなるようにするとよい。すなわち、登録発話セグメントを複数結合した長さが、分割済登録発話の長さと一致するようにする。例えば、分割済み登録発話の長さが１．５秒であるとき、登録発話セグメントの長さを０．１秒とする。また、各登録発話セグメントは区間の重複がないものとする（図９参照）。

もちろん、整数倍とならなくてもよく、このときは、登録発話セグメントを複数結合した長さが分割済登録発話の長さより長くなるまで結合するとよい。

＜分割済登録発話生成部３２０＞
入力：登録発話セグメント
出力：分割済登録発話
登録発話セグメントを組み合わせ、分割済登録発話を生成する（Ｓ３２０）。

登録発話セグメントの長さの合計が分割済登録発話の長さと一致するまで、登録発話セグメントを無作為に抽出する。例えば、分割済登録発話の長さが１．５秒、登録発話セグメントの長さが０．１秒であるとき、１５個の登録発話セグメントを無作為に抽出する。

抽出した登録発話セグメントを連結して分割済登録発話を生成する。

この登録発話セグメントの抽出と連結を複数回繰り返し、複数の分割済登録発話を生成する。ただし、セグメントの組み合わせが同じとなる分割済登録発話は生成しない。これにより、複数の、互いに異なる言葉を含む分割済登録発話を得ることができる。

もちろん、分割済登録発話の長さが登録発話セグメントの長さの整数倍とならないときは、登録発話セグメントを複数結合した長さが分割済登録発話の長さより長くなるまで結合したのち、分割済登録発話の長さと同じ長さの区間を切り出すのでよい。

ここで、登録発話長を１０秒、分割済登録発話長を１．５秒として、実施形態１と実施形態３の生成方法により生成される分割済登録発話の数について比較する。まず、実施形態１の窓掛けによる登録発話分割では、窓のシフト幅を０．５秒とすると、分割済登録発話の総数は、（１０−１．５）／０．５＝１７個となる。一方、実施形態３のセグメントの組み合わせによる登録発話分割では、セグメントの大きさを０．１秒とすると、分割済登録発話の総数は、_１００Ｃ_１５＝２．５×１０^１７個となる。この簡単な例からもわかるように、実施形態３の方法によれば分割済登録発話を十分な数だけ生成することができるようになる。

＜登録発話分割装置の変形例＞
以下では、登録発話から分割済登録発話を生成する登録発話分割装置の変形例について説明する。実施形態３における登録発話分割装置は、セグメント分割部３１０と分割済発話生成部３２０で構成される。また、実施形態１における登録発話分割装置は、発話分割部１１０のみで構成される。

上述のごく簡単な分割済登録発話の総数の比較例からもわかるように、セグメントの組み合わせ数は膨大になるため、登録発話から認識発話の長さと同程度の分割済登録発話を所定の個数だけ生成するようにしてもよい。つまり、生成する分割済登録発話の数に上限を設ける。具体的には、分割済発話生成部３２０が生成した分割済登録発話の数が所定の個数に達したときに生成処理を終了する（音響分析部８２０−１に出力する）ようにすればよい。

また、図１０に示すように発話分割部１００と、セグメント分割部３１０と分割済発話生成部３２０を組み合わせて登録発話分割装置４００を構成してもよい。その際、図１１に示すように、登録発話分割装置４０５が登録発話の長さを判定する登録発話長判定部４３０を含み、登録発話が所定の閾値（例えば、３０秒）以下（または未満）である場合にのみ、発話分割部１１０による分割済登録発話の生成に加えて、セグメント分割部３１０と分割済発話生成部３２０による生成を実行するようにしてもよい。

さらに、所定の長さの分割済登録発話を所定の個数だけ生成し、長さごとに分割済登録発話の話者特徴ベクトルを登録発話記録部８０３に記録しておき、認識発話の長さで特定される（認識発話の長さに最も近い）分割済登録発話の話者特徴ベクトルを用いてベクトル類似度を計算するようにしてもよい。例えば、事前に０．５秒から１０秒まで０．５秒間隔で各１０００個の分割済登録発話を生成（合計で２０×１０００＝２００００個の分割済登録発話を生成）するようにしてもよい。

実施形態３の発明では、登録発話がそれほど長くない場合でも分割済登録発話を十分な数だけ生成することができるため、話者類似度を正しく計算することが可能となり、話者認識精度が向上する。また、極めて長い発話の登録が不要（十分多くの分割済登録発話を生成するための登録発話が不要）となるため、ユーザ負担が軽減される。

＜実験結果＞
実施形態３の発明の効果を確かめるために、実施形態１の発明との比較実験を行った。以下、その概要（実験手順、実験条件、各実施形態の手法の補足情報）と結果について説明する。

（実験手順）
１．音声コーパスをＷＣＣＮ学習セットと評価セットに分割する。
２．評価セットから複数の発話を選択し、当該複数の発話を結合した後、先頭から切り出すことにより、一定長の登録発話を作成する。
３．評価セットのうち登録発話の作成に利用しなかった発話を用いて、先頭から切り出し、一定長の認識発話を作成する。
４．認識発話ごとに話者識別を行い、正解精度を算出する。
５．２〜４の処理を７回繰り返し、平均の正解精度を最終的な正解精度として算出する。

なお、この実験手順はいわゆる交差検証（Cross-validation）的な評価になっている。

（実験条件）
１．話者数は、男女各１０名の計２０名とする。
２．登録発話の内容は全話者で同一とする。
３．登録発話長は５秒、１０秒、２０秒であり、それぞれ１発話ずつとする。
４．認識発話長は０．５秒、１．０秒、１．５秒、２．０秒、２．５秒、３．０秒であり、計６発話用意する。
５．セグメント長は０．１秒、分割数は５００個とする。なお、分割数とは生成した分割済登録発話の数のことである。
６．生成したＵＢＭ及びＴＶ（全変動空間）は、５１２混合、２００次元とする。
７．ＵＢＭ及びＴＶの学習に用いた学習データは２８３名の３４４３５発話を含む学習セットである。

（実施形態の手法の補足情報）
１．分割済登録発話の長さは１．５秒とする。
２．実施形態１の分割で用いるシフト幅は０．５秒とする。
３．話者特徴ベクトル正規化行列Ｗの学習に用いる学習データには、ＷＣＣＮ学習セットの発話を分割したものと分割しないものを用いる。分割したものの長さ及びシフト幅はそれぞれ１．５秒、０．５秒とする。
４．ベクトル類似度の距離尺度としては、コサイン類似度を用いる。

図１２に実験結果を示す。図１２の表は登録発話の長さが５秒、１０秒、２０秒での実施形態１及び実施形態３の正解精度（％）を示す。例えば、図１２から、登録発話長が５秒の場合における、認識発話長０．５秒の実施形態１での正解精度は５２．３３％であることがわかる。

図１２に示した表から以下の点が読み取れる。
１．実施形態にかかわらず、認識発話長が長くなるほど、正解精度が１００％に近づいていく。
２．実施形態にかかわらず、登録発話長が長くなるほど、正解精度が１００％に近づいていく。
３．登録発話長・認識発話長にかかわらず、実施形態３は実施形態１に比べて同等またはそれ以上の正解精度であり、特に登録発話長が短いほど精度向上が大きい。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００話者識別装置
１１０発話分割部
１６０話者類似度計算部
２００話者識別装置
２１０登録外話者判定部
３００話者識別装置
３１０セグメント分割部
３２０分割済登録発話生成部
４００登録発話分割装置
４０５登録発話分割装置
４３０登録発話長判定部
８０１ＵＢＭモデル記録部
８０２話者特徴量抽出モデル記録部
８０３登録発話記録部
８２０音響分析部
８３０話者特徴ベクトル算出部
８４０話者登録部
８５０ベクトル類似度計算部
８７０話者識別部
８７５話者識別部
１００１分割済登録発話話者特徴ベクトル算出部
１００２認識発話話者特徴ベクトル算出部

Claims

話者認識の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、
前記登録発話から、当該登録発話の長さより短く、認識発話と同程度の長さになるように分割済登録発話を生成する登録発話分割装置であって、
前記登録発話から、前記分割済登録発話の長さより短い登録発話セグメントを生成するセグメント分割部と、
前記登録発話セグメントを前記分割済登録発話の長さと等しくなるよう組み合わせることにより前記分割済登録発話を生成する分割済登録発話生成部と
を含む登録発話分割装置。
話者認識の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、
前記登録発話から、当該登録発話の長さより短く、認識発話と同程度の長さになるように分割済登録発話を生成する登録発話分割装置であって、
前記登録発話から、当該登録発話の一部を切り出すことにより前記分割済登録発話を生成する発話分割部と、
前記登録発話の長さが短いことを示す所定の範囲にあるか否かを判定する登録発話長判定部と、
前記登録発話の長さが短いことを示す所定の範囲にある場合に、前記登録発話から、前記分割済登録発話の長さより短い登録発話セグメントを生成するセグメント分割部と、
前記登録発話セグメントを前記分割済登録発話の長さと等しくなるよう組み合わせることにより前記分割済登録発話を生成する分割済登録発話生成部と
を含む登録発話分割装置。
話者認識の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、
前記登録発話から、当該登録発話の一部を切り出すことにより、当該登録発話の長さより短く、認識発話と同程度の長さになるように分割済登録発話を生成する発話分割部と、
前記登録発話から、前記分割済登録発話の長さより短い登録発話セグメントを生成するセグメント分割部と、
前記登録発話セグメントを前記分割済登録発話の長さと等しくなるよう組み合わせることにより前記分割済登録発話を生成する分割済登録発話生成部と、
前記分割済登録発話から、分割済登録発話話者特徴ベクトルを生成する分割済登録発話話者特徴ベクトル算出部と、
前記認識発話から、認識発話話者特徴ベクトルを生成する認識発話話者特徴ベクトル算出部と、
前記分割済登録発話話者特徴ベクトルと前記認識発話話者特徴ベクトルの類似度を計算するベクトル類似度計算部と
を含む話者らしさ評価装置。
請求項３に記載の話者らしさ評価装置であって、
前記発話分割部及び前記分割済登録発話生成部が生成する分割済登録発話の数は、２以上であり、
前記ベクトル類似度計算部は、前記２以上の分割済登録発話の各々に対して前記類似度を計算するものであり、
さらに、
前記類似度の平均値である話者類似度を計算する話者類似度計算部と
を含む話者らしさ評価装置。
話者認識の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話、前記登録発話を要素とする集合を登録発話集合とし、
前記登録発話集合の登録発話から、当該登録発話の一部を切り出すことにより、当該登録発話の長さより短く、認識発話と同程度の長さになるように分割済登録発話を生成する発話分割部と、
前記登録発話集合の登録発話から、前記分割済登録発話の長さより短い登録発話セグメントを生成するセグメント分割部と、
前記登録発話セグメントを前記分割済登録発話の長さと等しくなるよう組み合わせることにより前記分割済登録発話を生成する分割済登録発話生成部と、
前記分割済登録発話から、分割済登録発話話者特徴ベクトルを生成する分割済登録発話話者特徴ベクトル算出部と、
前記認識発話から、認識発話話者特徴ベクトルを生成する認識発話話者特徴ベクトル算出部と、
前記分割済登録発話話者特徴ベクトルと前記認識発話話者特徴ベクトルの類似度を計算するベクトル類似度計算部と
前記類似度の最大値に対応する登録発話の話者名を前記認識発話を識別した結果とする話者識別部と
を含む話者識別装置。
話者認識の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、
セグメント分割部と、分割済登録発話生成部とを含む登録発話分割装置が、前記登録発話から、当該登録発話の長さより短く、認識発話と同程度の長さになるように分割済登録発話を生成する登録発話分割方法であって、
前記セグメント分割部が、前記登録発話から、前記分割済登録発話の長さより短い登録発話セグメントを生成するセグメント分割ステップと、
前記分割済登録発話生成部が、前記登録発話セグメントを前記分割済登録発話の長さと等しくなるよう組み合わせることにより前記分割済登録発話を生成する分割済登録発話生成ステップと
を含む登録発話分割方法。
話者認識の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、
発話分割部と、セグメント分割部と、分割済登録発話生成部と、分割済登録発話話者特徴ベクトル算出部と、認識発話話者特徴ベクトル算出部と、ベクトル類似度計算部とを含む話者らしさ評価装置が、前記登録発話と前記認識発話の類似度を計算する話者らしさ評価方法であって、
前記発話分割部が、前記登録発話から、当該登録発話の一部を切り出すことにより、当該登録発話の長さより短く、認識発話と同程度の長さになるように分割済登録発話を生成する発話分割ステップと、
前記セグメント分割部が、前記登録発話から、前記分割済登録発話の長さより短い登録発話セグメントを生成するセグメント分割ステップと、
前記分割済登録発話生成部が、前記登録発話セグメントを前記分割済登録発話の長さと等しくなるよう組み合わせることにより前記分割済登録発話を生成する分割済登録発話生成ステップと、
前記分割済登録発話話者特徴ベクトル算出部が、前記分割済登録発話から、分割済登録発話話者特徴ベクトルを生成する分割済登録発話話者特徴ベクトル算出ステップと、
前記認識発話話者特徴ベクトル算出部が、前記認識発話から、認識発話話者特徴ベクトルを生成する認識発話話者特徴ベクトル算出ステップと、
前記ベクトル類似度計算部が、前記類似度として、前記分割済登録発話話者特徴ベクトルと前記認識発話話者特徴ベクトルの類似度を計算するベクトル類似度計算ステップと
を含む話者らしさ評価方法。
請求項１または２に記載の登録発話分割装置としてコンピュータを機能させるためのプログラム。