JP5644772B2

JP5644772B2 - 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Info

Publication number: JP5644772B2
Application number: JP2011543085A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-11-25
Filing date: 2010-10-21
Publication date: 2014-12-24
Anticipated expiration: 2030-10-21
Also published as: JPWO2011064938A1; WO2011064938A1; US20120239400A1

Description

本発明は、音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムに関し、特に、多数の話者から発せられる音声データから話者を学習または認識することに用いる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムに関する。

音声データ解析装置の一例が、非特許文献１に記載されている。非特許文献１に記載されている音声データ解析装置は、予め記憶されている話者ごとの音声データと話者ラベルを用いて、話者ごとの音声の性質を規定する話者モデルを学習する。

例えば、話者Ａ（音声データＸ_１，Ｘ_４，・・・），話者Ｂ（音声データＸ_２，・・・），話者Ｃ（音声データＸ_３，・・・），話者Ｄ（音声データＸ_５，・・・），・・・の各々について、話者モデルを学習する。

そして、記憶されている音声データとは独立に得られた未知の音声データＸを受け取り、学習した個々の話者モデルと音声データＸとの類似度を、「当該話者モデルが音声データＸを生成する確率」といったものから定義される定義式に基づいて計算するマッチング処理を行う。ここでは、類似度上位あるいは所定のしきい値を超えるモデルに対応する話者ＩＤ（話者を識別する識別子。前述のＡ、Ｂ、Ｃ、Ｄ、・・・に相当）を出力する。あるいは、話者マッチング手段２０５は、未知の音声データＸとある話者ＩＤ（指定話者ＩＤ）の対を受け取り、その指定話者ＩＤのモデルと音声データＸとの類似度を計算するマッチング処理を行う。そして、類似度が所定のしきい値を超えたか否か、すなわち音声データＸがその指定話者ＩＤのものであるか否かの判定結果を出力する。

また、例えば、特許文献１には、標準話者に対する声道長の伸縮係数に基づいてクラスタリングされた各クラスタに属する話者集合毎の学習によって混合ガウス分布型音響モデルを生成し、生成した各音響モデルに対する学習話者の音響サンプルの尤度を算出することにより、入力話者の特徴として１つの音響モデルを抽出する話者特徴抽出装置が記載されている。

特開２００３−２２０８８号公報

Douglas A, Reynolds et al, "Speaker Verification Using Adapted Gaussian Mixture Models", Digital signal Processing, Vol.10, 2000, p.19-41

非特許文献１および特許文献１に記載されている技術の問題点は、話者間に何らかの関係性がある場合に、その関係性を有効に利用できず、認識精度の低下を招くということである。

例えば、非特許文献１に記載されている方法では、話者ごとに独立に用意された音声データ及び話者ラベルを使い、話者ごとに独立に話者モデルを学習する。そして、話者モデルごとに独立に、入力された音声データＸとのマッチング処理を行う。このような方法においては、ある話者と別の話者との間の関係性は一切考慮されない。

また、例えば、特許文献１に記載されている方法では、各学習話者に対して、標準話者に対する声道長の伸縮係数を求めて、学習話者をクラスタリングする。このような方法においては、非特許文献１と同様に、ある話者と別の話者との間の関係性は一切考慮されない。

この種の音声データ解析装置の代表的な用途の一つとして、機密情報を保管したセキュリティルームの入退場管理（音声認証）が挙げられる。このような用途であれば、問題はさほど深刻ではない。なぜなら、セキュリティルームの入退場は、原則一人ずつ行われ、他者との関係性は基本的に生じないからである。

しかし、このような想定が成り立たない用途も存在する。例えば、犯罪捜査の場面では、誘拐犯が身代金要求の電話などで話した音声データを収集し、後の犯罪捜査に活用することがある。このようなケースでは、一人の犯人による単独犯の他に、犯人グループによる複数犯があり得る。例えば振り込め詐欺などが典型例である。近年、「劇団型振り込め詐欺」と呼ばれる犯行が増加していて、被害者の身内を装う者の他に、警察官や弁護士を装う者、交通事故や痴漢事件の当事者を装う者などが次々と電話口に登場し、被害者を巧妙に欺くという被害が起こっている。

また、テロリズムの問題は、近年ますます深刻化しているが、テロリストに対する犯罪捜査において電話や無線通信機によるテロリスト同士の通信を傍受して得られた音声データを解析するという用途が考えられる。このような場面でも、テロ組織という集団での活動の中で、組織の関係者同士が頻繁に連絡を取り合うことが想定できる。すなわち、一つの音声データの中に、関係性をもった複数の話者が出現するという傾向が存在する。

また、第２の問題点は、仮に話者間の関係性がわかったとしても、それが時間的な変化、すなわち経時変化を伴う場合、時間とともに精度が低下するということである。その理由は、実際と異なる誤った関係性を用いて認識を行った場合、当然誤った認識結果を生ずるためである。前述の振り込め詐欺やテロリストの例で言えば、犯人グループは、月日や年月とともに変動すると予想されるからである。すなわち、メンバーの増減、グループの増減、分裂、合併などがあって話者間の関係の強弱が変わると、それを利用した話者の認識は誤りを生ずる可能性が高くなる。

また、第３の問題点は、話者の関係性そのものを認識する手段が存在しないということである。その理由は、犯人グループのような関係性の強い話者の集合を特定するためには、話者の関係性を何らかのかたちで取得する必要があるからである。例えば、前述の振り込め詐欺やテロリストに対する犯罪捜査の場面では、犯人を特定することもさることながら、犯人グループを特定することも重要であると考えられるからである。

そこで、本発明は、複数の話者に対しても、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することを目的とする。また、本発明は、複数の話者の関係性が経時変化を伴う場合でも、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することを目的とする。また、関係性の強い話者の集合といった話者間の関係性そのものを認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することを目的とする。

本発明による音声データ解析装置は、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、話者モデル導出手段が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段と、新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新するモデル構造更新手段とを備えたことを特徴とする。

また、音声データ解析装置は、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係を集約したモデルであって、話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルを記憶する話者共起モデル記憶手段と、話者モデルと話者共起モデルとを用いて、クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する話者集合認識手段を備えたような構成であってもよい。

本発明による音声データ解析方法は、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出し、導出された話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出し、新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新することを特徴とする。

また、音声データ解析方法は、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係を集約したモデルであって、話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識するような構成であってもよい。

本発明による音声データ解析用プログラムは、コンピュータに、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する処理、導出される話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する処理、および新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する処理を実行させることを特徴とする。

また、音声データ解析用プログラムは、コンピュータに、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係を集約したモデルであって、話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する処理を実行させるような構成であってもよい。

本発明によれば、上述のような構成を有することにより話者間の関係性を考慮して話者の認識を行うことができるので、複数の話者に対しても、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することができる。

第１の実施形態の音声データ解析装置の構成例を示すブロック図である。セッション音声データ記憶手段１００及びセッション話者ラベル記憶手段１０１に記憶される情報の例を示す説明図である。話者モデルを模式的に表す状態遷移図である。話者共起モデルの基本単位を模式的に表す状態遷移図である。話者共起モデルを模式的に表す状態遷移図である。第１の実施形態における学習手段１１の動作例を示すフローチャートである。第１の実施形態における認識手段１２の動作例を示すフローチャートである。第２の実施形態の音声データ解析装置の構成例を示すブロック図である。第２の実施形態における学習手段３１の動作例を示すフローチャートである。第３の実施形態の音声データ解析装置の構成例を示すブロック図である。第４の実施形態の音声データ解析装置の構成例を示すブロック図である。第５の実施形態の音声データ解析装置（モデル生成装置）の構成例を示すブロック図である。第６の実施形態の音声データ解析装置（話者／話者集合認識装置）の構成例を示すブロック図である。本発明の概要を示すブロック図である。本発明の他の構成例を示すブロック図である。本発明の他の構成例を示すブロック図である。本発明の他の構成例を示すブロック図である。

実施形態１．
以下、本発明の実施形態を図面を参照して説明する。図１は、本発明の第１の実施形態の音声データ解析装置の構成例を示すブロック図である。図１に示すように、本実施形態の音声データ解析装置は、学習手段１１と、認識手段１２とを備える。

学習手段１１は、セッション音声データ記憶手段１００と、セッション話者ラベル記憶手段１０１と、話者モデル学習手段１０２と、話者共起学習手段１０４と、話者モデル記憶手段１０５と、話者共起モデル記憶手段１０６とを含む。

また、認識手段１２は、セッションマッチング手段１０７と、話者モデル記憶手段１０５と、話者共起モデル記憶手段１０６とを含む。なお、話者モデル記憶手段１０５と話者共起モデル記憶手段１０６は、学習手段１１と共有している。

これらの手段はそれぞれ概略次のように動作する。まず、学習手段１１は、当該学習手段１１に含まれる各手段の動作により、音声データと話者ラベルを用いて、話者モデルと話者共起モデルを学習する。

本実施形態では、セッション音声データ記憶手段１００は、話者モデル学習手段１０２が学習に使用する多数の音声データを記憶する。音声データは、何らかの録音機で録音した音声信号であってもよいし、メルケプストラム係数（ＭＦＣＣ）などの特徴ベクトル系列に変換したものであってもよい。また、音声データの時間長については特に制約はないが、一般には長いほどよいとされている。また、各々の音声データは、単一の話者のみが発声する形態の他に、複数の話者から構成され、これらの話者が交替で発声するような形態において生成される音声データも含む。例えば、前出の振り込め詐欺のケースでは、単独犯の犯行から採取した音声データの他に、複数人からなる犯行グループのメンバーが交替で電話口で台詞を述べたような音声データも含む。このような一連の会話として収録された音声データの一つ一つを、ここでは「セッション」と呼ぶ。振り込め詐欺の場合は、１回の犯行が１セッションに相当する。

なお、各々の音声データは、非音声区間を除去することにより、適当な単位に分割されているものとする。この分割の単位を以降では「発話」と呼ぶ。もし分割がなされていない場合は、図示しない音声検出手段により、音声区間のみを検出し、分割がなされた形式に容易に変換することができる。

セッション話者ラベル記憶手段１０１は、話者モデル学習手段１０２及び話者共起学習手段１０４が学習に使用する話者ラベルを記憶する。ここで話者ラベルとは、各セッションの各発話に付与されている、話者を一意に特定するＩＤである。図２は、セッション音声データ記憶手段１００及びセッション話者ラベル記憶手段１０１に記憶される情報の例を示す説明図である。なお、図２（ａ）でセッション音声データ記憶手段１００に記憶される例を示し、図２（ｂ）でセッション話者ラベル記憶手段１０１に記憶される情報の例を示している。図２（ａ）に示す例では、セッション音声データ記憶手段１００に、各セッションを構成する発話Ｘ_ｋ ^（ｎ）が記憶されている。また、図２（ｂ）に示す例では、セッション話者ラベル記憶手段１０１には、個々の発話に対応する話者ラベルｚ_ｋ ^（ｎ）が記憶されている。ここに、Ｘ_ｋ ^（ｎ）とｚ_ｋ ^（ｎ）は、それぞれ第ｎセッションのｋ番目の発話と話者ラベルを意味する。また、Ｘ_ｋ ^（ｎ）は、例えば以下の式（１）のように、メルケプストラム係数（ＭＦＣＣ）などの特徴ベクトル系列として扱うのが一般的である。ここに、Ｌ_ｋ ^（ｎ）は発話Ｘ_ｋ ^（ｎ）のフレーム数、つまり長さである。

話者モデル学習手段１０２は、セッション音声データ記憶手段１００及びセッション話者ラベル記憶手段１０１に記憶された音声データおよび話者ラベルを用いて、各話者のモデルを学習する。話者モデル学習手段１０２は、例えば、話者ごとの音声の性質を規定するモデル（確率モデルなどの数式モデル）を話者モデルとし、そのパラメータを導出する。具体的な学習の方法については、上述の非特許文献１に準じればよい。すなわち、話者Ａ、話者Ｂ、話者Ｃ、・・・の各々について、図２に示すようなデータ一式から、当該話者ラベルが付与された発話をすべて用いて、話者ごとの音声特徴量の出現確率を規定する確率モデル（例えば、ガウス混合モデル（ＧＭＭ）など）のパラメータを話者ごとに求めてもよい。

話者共起学習手段１０４は、セッション音声データ記憶手段１００に記憶された音声データ、セッション話者ラベル記憶手段１０１に記憶された話者ラベル及び話者モデル学習手段１０２が求めた各話者モデルを用いて、話者間の共起関係を集約したモデルである話者共起モデルを学習する。発明が解決しようとする課題でも述べたように、話者間には人間的な関係の強弱がある。話者と話者とのつながりをネットワークと考えた場合、そのネットワークは均質ではなく、結合の強い箇所、弱い箇所がある。ネットワークを大局的にみると、結合の特に強いサブネットワーク（クラスタ）が散在するような様相を呈する。

話者共起学習手段１０４が行う学習では、このようなクラスタを抽出し、当該クラスタの特徴を表す数式モデル（確率モデル）を導出する。

次に、話者モデル学習手段１０２および話者共起学習手段１０４の動作について、さらに詳しく述べる。

まず、話者モデル学習手段１０２が学習する話者モデルは、発話Ｘの確率分布を規定する確率モデルであり、例えば図３のような状態遷移図で表すことができる。厳密には、話者ｉ（ｉ＝１，２，・・・，Ｓ）のモデルは以下の式（２）の確率密度関数で表される。

このような確率モデルは１状態の隠れマルコフモデルと呼ばれる。特にパラメータａ_ｉは状態遷移確率と呼ばれる。ｆはパラメータλ_ｉで規定される関数で、発話を構成する個々の特徴ベクトルｘ_ｉの分布を規定する。話者モデルの実体はパラメータａ_ｉ、λ_ｉであり、話者モデル学習手段１０２における学習はこれらのパラメータの値を決定することといえる。なお、ｆの具体的な関数形としては、ガウス混合分布（ＧＭＭ）などが挙げられる。話者モデル学習手段１０２は、このような学習方法に基づき、パラメータａ_ｉ、λ_ｉを計算し、話者モデル記憶手段１０５に記録する。

次に、話者共起学習手段１０４が学習する話者共起モデルについては、上述の各話者（ｉ＝１，２，・・・，Ｓ）の話者モデルを並列させた図４に示すような状態遷移図を基本単位とし、さらにこれをＴ個並列させた図５に示すような状態遷移図（マルコフネットワーク)で表すことができる。

図４におけるｗ_ｊｉ（ｊ＝１，２，・・・，Ｔ、ｉ＝１，２，・・・，Ｓ）は、話者の集合（クラスタ）ｊにおける話者ｉの出現確率を意味するパラメータ（ｗ_ｊ，１＋・・・＋ｗ_ｊ，ｓ＝１）で、ｊに応じて異なるＴ通りのパターンがある。ｗ_ｊｉ=０であれば、話者ｉは決して出現しないことになる。逆に、ｗ_ｊｉ＞０なる話者は互いに共起する可能性がある、つまり人間的な関係性があるということになる。また、ｗ_ｊｉ＞０なる話者の集合は、話者のネットワークにおけるクラスタに相当し、劇団型振り込め詐欺の例でいえば、典型的な犯行グループ１つを表すといえる。

図４が１つの振り込め詐欺の犯行グループを表すとして、犯行グループはＴ個のパターンに大別されると仮定したのが、図５のマルコフネットワークで現される確率モデルである。ｕ_ｊは、犯行グループ、すなわち話者の集合（クラスタ）ｊの出現確率を表すパラメータで、犯行グループの活動の活発さと解釈できる。ｖ_ｊは、話者の集合ｊの１セッションにおける発話数に関係するパラメータである。話者共起モデルの実体はパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉであり、話者共起学習手段１０４における学習は、これらのパラメータの値を決定することといえる。

ここまでに定義したパラメータのセットをθ＝｛ｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ，ａ_ｉ，λ_ｉ｝として、Ｋ個の発話からなるセッションΞ＝（Ｘ_１，Ｘ_２，・・・，Ｘ_Ｋ）の確率分布を規定する確率モデルは以下の式（３）で表される。

ここに、ｙは話者の集合（クラスタ）を指定するインデクスであり、Ｚ＝（ｚ_１，ｚ_２，・・・，ｚ_Ｋ）は発話ごとに話者を指定するインデクス列である。また、表記の簡単化のため以下の式（４）のように置き換えを行っている。

話者共起学習手段１０４は、セッション音声データ記憶手段１００に記憶された音声データＸ_ｋ ^（ｎ）、セッション話者ラベル記憶手段１０１に記憶された話者ラベルｚ_ｋ ^（ｎ）及び話者モデル学習手段１０２が求めた各話者のモデルａ_ｉ、λ_ｉを用いて、パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉを推定する。推定方法についてはいくつか考えられるが、尤度最大化基準（最尤基準）による方法が一般的である。すなわち、所与の音声データ、話者ラベル、各話者のモデルに対して、上述の式（３）の確率ｐ（Ξ｜θ）が最大となるように推定する。

最尤基準に基づく具体的な計算は、例えば期待値最大化法（Expectation-Maximization法、略してＥＭ法）によって導出できる。具体的には、以下のステップＳ０〜Ｓ３において、ステップＳ１とステップＳ２を交互に反復するアルゴリズムを実行する。

ステップＳ０：
パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉに適当な値をセットする。

ステップＳ１：
セッションΞ^（ｎ）がクラスタｙに属する確立を、以下の式（５）に従って計算する。ここに、Ｋ^（ｎ）は、セッションΞ^（ｎ）に含まれる発話数である。

ステップＳ２：
パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉを以下の式（６）に従って更新する。ここに、Ｎはセッション総数、δ_ｉｊはクロネッカのデルタである。

ステップＳ３：
以降、上述の式（３）の確率ｐ（Ξ｜θ）の値の上昇度合いなどから収束判定を行い、収束するまでステップＳ１とステップＳ２を交互に反復する。

以上のステップを経て計算された話者共起モデル、すなわちパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉは、話者共起モデル記憶手段１０６に記録される。

また、認識手段１２は、当該認識手段１２に含まれる各手段の動作により、与えられた任意の音声データに含まれる話者を認識する。

本実施形態では、セッションマッチング手段１０７は、任意の音声データを受け取る。ここでの音声データは、学習手段１１で取り扱った音声データと同様、単一の話者のみが発声する形態の他に、複数の話者が交替で発声するような発話列の形態において生成される音声データも含む。このような音声データを、これまでと同様、Ξ＝（Ｘ_１，Ｘ_２，・・・，Ｘ_Ｋ）と表し、Ξをセッションと呼ぶ。

セッションマッチング手段１０７はさらに、学習手段１１によりあらかじめ計算されて、それぞれ話者モデル記憶手段１０４、話者共起モデル記憶手段１０６に記録された、話者モデル、話者共起モデルを参照して、セッションΞに含まれる各発話がどの話者から発せられたか、すなわち話者ラベル列Ｚ＝（ｚ_１，ｚ_２，・・・，ｚ_Ｋ）を推定する。具体的には、セッション音声データΞとパラメータθ＝｛ｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ，ａ_ｉ，λ_ｉ｝を所与として、以下の式（７）に基づいて話者ラベル列Ｚの確率分布が理論的に計算できる。

よって、確率ｐ（Ξ｜θ）が最大となるＺを求めることで、各発話の話者ラベルを計算することができる。なお、式（７）の右辺分母はＺに依存しない定数となるので、計算を省略することができる。また、分子のクラスタｊに関する総和は、この種の計算でよく行われるように、最大値演算ｍａｘ_ｊに置き換えて近似計算としてもよい。さらに、Ｚの取り得る値の組合せはＳ^Ｋ通りあり、確率ｐ（Ξ｜θ）の最大値探索は計算量が膨大化する可能性があるが、動的計画法などの計算手法を適用することにより、効率的に探索することができる。

なお、以上述べた動作では、認識手段１２に入力される音声データが、学習手段１１で学習した話者の発話のみから構成されていることを前提としている。しかし、実際応用上は、学習手段１１で獲得し得なかった未知の話者の発話を含む音声データが入力される場合があり得る。このような場合には、各発話について、未知話者か否かを判定する後処理を容易に導入することが可能である。すなわち、以下の式（８）によって個々の発話Ｘ_ｋが話者ｚ_ｋに属する確率を計算し、所定のしきい値以下の値となった場合に未知話者であると判定してもよい。

あるいは、上述の式（８）に代えて以下の式（９）に示すような近似計算を行ってもよい。

また、式（８）や式（９）の右辺は、話者モデルｉ＝１，・・・，Ｓに関する総和形式を含んでいるが、これらを非特許文献１に記載されている平均的な話者のモデル、すなわちユニバーサル・バックグラウンド・モデル（Universal Background model）に置き換えて計算してもよい。

本実施形態において、セッション音声データ記憶手段１００と、セッション話者ラベル記憶手段１０１と、話者モデル記憶手段１０５と、話者共起モデル記憶手段１０６とは、例えば、メモリなどの記憶装置によって実現される。また、話者モデル学習手段１０２と、話者共起学習手段１０４と、セッションマッチング手段１０７とは、例えば、ＣＰＵなどのプログラムに従って動作する情報処理装置（プロセッサユニット）によって実現される。なお、セッション音声データ記憶手段１００、セッション話者ラベル記憶手段１０１、話者モデル記憶手段１０５、話者共起モデル記憶手段１０６は、それぞれの別々の記憶装置として実現されていてもよい。また、話者モデル学習手段１０２、話者共起学習手段１０４、セッションマッチング手段１０７は、それぞれ別々のユニットとして実現されていてもよい。

次に、図６及び図７のフローチャートを参照して、本実施形態の全体の動作について詳細に説明する。なお、図６は、学習手段１１の動作の一例を示すフローチャートである。また、図７は、認識手段１２の動作の一例を示すフローチャートである。

まず、学習手段１１において、話者モデル学習手段１０２と話者共起モデル学習手段１０４は、セッション音声データ記憶手段１００から音声データを読み込む（図６のステップＡ１）。また、セッション話者ラベル記憶手段１０１から話者ラベルを読み込む（ステップＡ２）。これらのデータの読み込みについては、順序は任意である。また、話者モデル学習手段１０２と話者共起モデル学習手段１０４のデータ読み込みのタイミングを合わせなくてもよい。

次に、話者モデル学習手段１０２は、読み込んだ音声データおよび話者ラベルを用いて、各話者モデル、すなわちパラメータａ_ｉ，λ_ｉ（ｉ＝１，・・・，Ｓ）を計算し（ステップＡ３）、話者モデル記憶手段１０５に記録する（ステップＡ４）。

さらに、話者共起学習手段１０４は、音声データ、話者ラベル及び話者モデル学習手段１０２によって計算された各話者モデルを用いて、例えば上述の式（５），式（６）の計算を含む反復解法等の所定の計算を実行することにより、話者共起モデル、すなわちパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）を計算し（ステップＡ５）、話者共起モデル記憶手段１０６に記録する（ステップＡ６）。

一方、認識手段１２においては、セッションマッチング手段１０７は、話者モデル記憶手段１０５から話者モデルを読み込み（図７のステップＢ１）、話者共起モデル記憶手段１０６から話者共起モデルを読み込む（ステップＢ２）。また、任意の音声データを受け取り（ステップＢ３）、さらに、例えば上述の式（７）及び必要に応じて式（８）または式（９）等の所定の計算をすることにより、受け取った音声データの各発話に対する話者ラベルを求める。

以上のように、本実施形態によれば、学習手段１１において、話者共起学習手段１０４が、会話などにおける一連の発話をまとめたセッションの単位で記録された音声データ及び話者ラベルを用いることにより、話者間の共起関係を話者共起モデルとして獲得（生成）する。また、認識手段１２において、セッションマッチング手段１０７が、個々の発話について独立に話者の認識を行うのではなく、学習手段１１が獲得した話者共起モデルを用いて、セッション全体の話者の共起の整合性を考慮して話者認識を行う。従って、話者のラベルを正確に求めることができ、話者を高精度に認識することができる。

例えば、振り込め詐欺の例を考えると、劇団型振り込め詐欺のような複数犯の場合、話者間の関係性が生ずる。例えば、話者Ａと話者Ｂは同じ犯行グループに属して活動しており、１回の犯行（電話）の中に共に現れる可能性が高いとか、話者Ｂと話者Ｃは犯行グループが異なり、一緒には現れないとか、話者Ｄは常に単独犯である等である。話者Ａと話者Ｂのように、ある話者と話者が一緒に現れることを、本発明では「共起」と呼んでいる。

このような話者間の関係性が、話者、すなわち犯人を特定するための重要な情報である。とりわけ、電話から得られた音声は、帯域が狭く音質が劣悪であり、話者の区別が難しい。したがって、「ここに話者Ａが出てきているから、こっちのこの声はおそらく仲間の話者Ｂのものであろう」というような推論は有効と予想される。したがって、上述のような構成を採用し、話者間の関係性を考慮して話者の認識を行うことにより本発明の目的を達成することができる。

実施形態２．
次に、本発明の第２の実施形態について説明する。図８は、本発明の第２の実施形態の音声データ解析装置の構成例を示すブロック図である。図８に示すように、本実施形態の音声データ解析装置は、学習手段３１と、認識手段３２とを備える。

また、学習手段３１は、セッション音声データ記憶手段３００と、セッション話者ラベル記憶手段３０１と、話者モデル学習手段３０２と、話者分類手段３０３と、話者共起学習手段３０４と、話者モデル記憶手段３０５と、話者共起モデル記憶手段３０６とを含む。なお、話者分類手段３０３を含む点が第１の実施形態と異なる。

また、認識手段３２は、セッションマッチング手段３０７と、話者モデル記憶手段３０４と、話者共起モデル記憶手段３０６とを含む。なお、話者モデル記憶手段３０４と、話者共起モデル記憶手段３０６は、学習手段３１と共有している。

これらの手段はそれぞれ概略次のように動作する。

学習手段３１は、第１の実施形態と同様に、当該学習手段３１が含む各手段の動作により、音声データと話者ラベルを用いて、話者モデルと話者共起モデルを学習する。ただし、第１の実施形態における学習手段１１とは異なり、話者ラベルが不完全であってもよい。すなわち、音声データ中の一部のセッション、あるいは一部の発話に対応する話者ラベルが未知であってもよいとする。一般に、各発話に対して話者ラベルを付与する作業は、音声データの検聴などの多大な人的コストを伴うものであるから、このような状況は実際応用上しばしば起こり得る。

一部の話者ラベルが未知であるという点を除けば、セッション音声データ記憶手段３００及びセッション話者ラベル記憶手段３０１は、第１の実施形態におけるセッション音声データ記憶手段１００及びセッション話者ラベル記憶手段１０１と同様である。

話者モデル学習手段３０２は、セッション音声データ記憶手段３００及びセッション話者ラベル記憶手段３０１にそれぞれ記憶された音声データおよび話者ラベル、並びに、話者分類手段３０３によって計算される未知の話者ラベルの推定結果、話者共起学習手段３０４によって計算される各セッションの帰属クラスタの推定結果を用いて、各話者のモデルを学習した後、最終的な話者モデルを話者モデル記憶手段３０５に記録する。

話者分類手段３０３は、セッション音声データ記憶手段３００及びセッション話者ラベル記憶手段３０１にそれぞれ記憶された音声データおよび話者ラベル、並びに、話者モデル学習手段３０２によって計算される話者モデル、話者共起学習手段３０４によって計算される話者共起モデルを用いて、話者ラベル未知の発話に付与すべき話者ラベルを確率的に推定する。

話者共起学習手段３０４は、セッションごとに帰属クラスタを確率的に推定し、話者分類手段３０３によって計算される未知の話者ラベルの推定結果を参照し、話者共起モデルを学習する。また、最終的な話者共起モデルを話者共起モデル記憶手段３０６に記録する。

ここで、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４の動作についてさらに詳しく述べる。

話者モデル学習手段３０２が学習する話者モデル、話者共起学習手段３０４が学習する話者共起モデルは、いずれも第１の実施形態と同様であり、それぞれ図３や図５の状態遷移図で表される。ただし、話者ラベルが不完全であることから、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４は、互いの出力に依存し、交互に反復的に動作して、話者モデルおよび話者共起モデルを学習する。具体的には、以下のステップＳ３０〜Ｓ３５において、ステップＳ３１〜Ｓ３４をくり返すアルゴリズムによって推定する。

ステップＳ３０：
話者共起学習手段３０４は、話者共起モデルのパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）に適当な値をセットする。話者分類手段３０３は、未知の話者ラベルについて、乱数などにより適当なラベル（値）を付与する。

ステップＳ３１：
話者モデル学習手段３０２は、セッション音声データ記憶手段３００に記録された音声データ、セッション話者ラベル記憶手段３０１に記録された既知の話者ラベル及び話者分類手段３０３が推定した話者ラベルを用いて話者モデルを学習し、パラメータａ_ｉ，λ_ｉ（ｉ＝１，・・・，Ｓ）を更新する。例えば話者モデルが、平均μ_ｉと分散Σ_ｉで規定されるガウス分布モデル、すなわちλ_ｉ＝（ａ_ｉ，μ_ｉ，Σ_ｉ）であれば、以下の式（１０）によってパラメータを更新する。

ステップＳ３２：
話者分類手段３０３は、セッション音声データ記憶手段３００に記録された音声データ、並びに話者モデル、話者共起モデルを用いて、話者ラベルが未知の発話について、以下の式（１１）に従って話者ラベルを確率的に推定する。

ステップＳ３３：
話者共起学習手段３０４は、セッション音声データ記憶手段３００、セッション話者ラベル記憶手段３０１にそれぞれに記録された音声データ、既知の話者ラベル、並びに話者モデル学習手段３０２が算出した話者モデル、話者分類手段３０３が算出した未知の話者ラベルの推定結果を用いて、セッションΞ^（ｎ）がクラスタｙに属する確率を、上述の式（５）に従って計算する。

ステップＳ３４：
話者共起学習手段３０４はさらに、ステップＳ３３の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）を以下の式（１２）に従って更新する。

ステップＳ３５：
以降、収束するまでステップＳ３１〜Ｓ３４を反復する。収束に至った時点で、話者モデル学習手段３０２は話者モデルを話者モデル記憶手段３０５に、話者共起学習手段３０４は話者共起モデルを話者共起モデル記憶手段３０６に、それぞれ記録する。

上記ステップＳ３１〜Ｓ３５の処理は、第１の実施形態と同様に、尤度最大化基準に基づく期待値最大化法から導出されるものである。また、この導出はあくまで一例であり、他のよく知られる基準、例えば事後確率最大化（ＭＡＰ）基準やベイズ基準に基づく定式化も可能である。

また、本実施形態の認識手段３２は、当該認識手段３２が含む各手段の動作により、与えられた任意の音声データに含まれる話者を認識する。動作の詳細については、第１の実施形態における認識手段１２と同じであるため、説明を省略する。

本実施形態において、例えば、セッション音声データ記憶手段３００と、セッション話者ラベル記憶手段３０１と、話者モデル記憶手段３０５と、話者共起モデル記憶手段３０６とは、メモリなどの記憶装置によって実現される。また、話者モデル学習手段３０２と、話者分類手段３０３と、話者共起学習手段３０４と、セッションマッチング手段３０７とは、ＣＰＵなどのプログラムに従って動作する情報処理装置（プロセッサユニット）によって実現される。なお、セッション音声データ記憶手段３００、セッション話者ラベル記憶手段３０１、話者モデル記憶手段３０５、話者共起モデル記憶手段３０６は、それぞれの別々の記憶装置として実現されていてもよい。また、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４、セッションマッチング手段３０７は、それぞれ別々のユニットとして実現されていてもよい。

次に、図９に示すフローチャートを参照して、本実施形態の動作について詳細に説明する。図９は、本実施形態の学習手段３１の動作の一例を示すフローチャートである。なお、認識手段３２の動作については、第１の実施形態と同様であるため、説明を省略する。

まず、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４は、セッション音声データ記憶手段３００に記憶された音声データを読み込む（図９のステップＣ１）。また、話者モデル学習手段３０２、話者共起学習手段３０４はさらに、セッション話者ラベル記憶手段３０１に記憶された既知の話者ラベルを読み込む（ステップＣ２）。

次に、話者モデル学習手段３０２は、話者分類手段３０３によって計算される未知の話者ラベルの推定結果、話者共起学習手段３０４によって計算される各セッションの帰属クラスタの推定結果を用いて、話者モデルを更新する（ステップＣ３）。

話者分類手段３０３は、話者モデル学習手段３０２から話者モデル、話者共起学習手段３０４から話者共起モデルをそれぞれ受け取り、話者ラベル未知の発話に付与すべきラベルを例えば、上述の式（１１）に従って確率的に推定する（ステップＣ４）。

話者共起学習手段３０４は、セッションごとに帰属クラスタを例えば、上述の式（５）に従って確率的に推定し、さらに話者分類手段３０３によって計算される未知の話者ラベルの推定結果を参照し、話者共起モデルを例えば、上述の式（１２）に従って更新する（ステップＣ５）。

ここで、収束判定を行い（ステップＣ６）、未収束であれば、ステップＣ３に戻る。収束していれば、話者モデル学習手段３０２は、話者モデルを話者モデル記憶手段３０５に記録し（ステップＣ７）、話者共起学習手段３０４は、話者共起モデルを話者共起モデル記憶手段３０６に記録する（ステップＣ８）。

なお、ステップＣ１とステップＣ２、ステップＣ７とステップＣ８の順序はそれぞれ任意である。また、ステップＳ３３〜Ｓ３５の順序についても、任意に入れ替え可能である。

以上のように、本実施形態によれば、学習手段３１において、話者ラベルが未知であっても、話者分類手段３０３が話者ラベルを推定し、話者モデル学習手段３０２、話者共起学習手段３０４を含めた３つの手段が協調して反復的に動作することにより、話者モデル、話者共起モデルを得るように構成されているため、話者ラベルが一部欠如している、さらには完全にない場合であっても、話者を高精度に認識することができる。なお、他の点に関しては第１の実施形態と同様である。

実施形態３．
次に、本発明の第３の実施形態について説明する。図１０は、本発明の第３の実施形態の音声データ解析装置の構成例を示すブロック図である。本実施形態は、話者モデルおよび話者共起モデルが、時間（例えば、月日）とともに変化する場合を想定した実施形態である。すなわち、逐次入力される音声データを解析し、その解析結果に応じて、話者の増減、話者の集合であるクラスタの増減等を検知し、話者モデルおよび話者共起モデルの構造を順応させる。話者および話者間の関係は、一般に時間とともに変化する。本実施形態では、そのような時間的な変化（経時変化）を考慮した実施形態である。

図１０に示すように、本実施形態の音声データ解析装置は、学習手段４１と、認識手段４２とを備える。

また、学習手段４１は、データ入力手段４０８と、セッション音声データ記憶手段４００と、セッション話者ラベル記憶手段４０１と、話者モデル学習手段４０２と、話者分類手段４０３と、話者共起学習手段４０４と、話者モデル記憶手段４０５と、話者共起モデル記憶手段４０６と、モデル構造更新手段４０９とを含む。なお、データ入力手段４０８とモデル構造更新手段４０９とを含む点が第２の実施形態と異なる。

また、認識手段４２は、セッションマッチング手段４０７と、話者モデル記憶手段４０４と、話者共起モデル記憶手段４０６とを含む。なお、認識手段４２と学習手段４１は、話者モデル記憶手段４０４と話者共起モデル記憶手段４０６とをお互いに共有している。

これらの手段はそれぞれ概略次のように動作する。

学習手段４１は、初期の動作としては、第２の実施形態における学習手段３１と同様の動作を行う。すなわち、その時点でセッション音声データ記憶手段４００とセッション話者ラベル記憶手段４０１に各々記憶されている音声データおよび話者ラベルを用いて、あらかじめ定めた話者数Ｓとクラスタ数Ｔに基づき、話者モデル学習手段１０４と話者分類手段４０３と、話者共起学習手段４０４の動作により、話者モデルと話者共起モデルを学習する。そして、学習した話者モデルと話者共起モデルを話者モデル記憶手段４０５と話者共起モデル記憶手段４０６にそれぞれ記憶する。

学習手段４１に含まれる各手段は、このような初期動作の後には、次のように動作する。データ入力手段４０８は、新たな音声データおよび話者ラベルを受け取り、それぞれ音声データ記憶手段４００、セッション話者ラベル記憶手段４０１に追加して記録する。なお、第２の実施形態と同様に、何らかの理由で話者ラベルが取得できない場合は、音声データのみを取得し、音声データ記憶手段４００に記録する。

話者モデル学習手段４０２、発話分類手段４０３、話者共起学習集団４０４は、音声データ記憶手段４００およびセッション話者ラベル記憶手段４０１に記録された各データを参照し、第２の実施形態におけるステップＳ３０〜Ｓ３５と同様の動作を行う。ただし、ステップＳ４０においては、第２の実施形態におけるステップＳ３０とは異なり、その時点で得られている話者モデルおよび話者共起モデルのパラメータを用いる。

ステップＳ４０：
話者共起学習手段４０４は、話者共起モデルのパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）に適当な値をセットする。話者分類手段４０３は、未知の話者ラベルについて、その時点で得られている話者モデルおよび話者共起モデルのパラメータの値を用いて、上述の式（１１）に従って話者ラベルを推定する。

ステップＳ４１：
話者モデル学習手段４０２は、セッション音声データ記憶手段４００に記録された既知の話者ラベル、およびステップＳ４０または後述するステップＳ４２で推定された話者ラベルを用いて話者モデルを学習し、パラメータａ_ｉ，λ_ｉ（ｉ＝１，・・・，Ｓ）を更新する。例えば話者モデルが、平均μ_ｉと分散Σ_ｉで規定されるガウス分布モデル、すなわちλ_ｉ＝（ａ_ｉ，μ_ｉ，Σ_ｉ）であれば、上述の式（１０）によってパラメータを更新する。

ステップＳ４２：
発話分類手段４０３は、セッション音声データ記憶手段４００に記録された音声データ並びに話者モデル、共起モデルを用いて、話者ラベルが未知の発話について、上述の式（１１）に従って話者ラベルを確率的に推定する。

ステップＳ４３：
話者共起学習手段４０４は、セッション音声データ記憶手段４００、セッション話者ラベル記憶手段４０１にそれぞれに記録された音声データ、既知の話者ラベル、話者モデル学習手段４０２が算出した話者モデル、発話分類手段４０３が算出した未知の話者ラベルの推定結果を用いて、セッションΞ^（ｎ）がクラスタｙに属する確率を、上述の式（５）に従って計算する。

ステップＳ４４：
話者共起学習手段４０４はさらに、ステップＳ４３の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）を上述の式（１２）に従って更新する。

ステップＳ４５：
以降、収束するまでステップＳ４１〜Ｓ４４を反復する。収束に至った時点で、話者モデル学習手段４０２は、更新された話者モデルを話者モデル記憶手段４０５に、話者共起学習手段４０４は、更新された話者共起モデルを話者共起モデル記憶手段４０６に、それぞれ記録する。

上記ステップＳ４１〜Ｓ４５の処理は、第１及び第２の実施形態と同様に、尤度最大化基準に基づく期待値最大化法から導出されるものである。なお、他のよく知られる基準、例えば事後確率最大化（ＭＡＰ）基準やベイズ基準に基づく定式化も可能である。

また、本実施形態の学習手段４１は、さらに次のように動作する。

モデル構造更新手段４０９は、データ入力手段４０８が受け取った新たなセッション音声データと、話者モデル学習手段４０２、話者共起学習手段４０４、発話分類手段４０３から、話者モデル、話者共起モデル、話者ラベルとをそれぞれ受け取り、話者モデル、話者共起モデルの構造の変化を例えば以下に示す方法によって検知し、構造の変化を反映した話者モデル、話者共起モデルを生成する。

ここで、構造の変化とは、次に示す６種類の事象を指す。
１）話者の発生：過去に観測されたことのない新たな話者が出現すること。
２）話者の消滅：既知の話者が出現しなくなること。
３）クラスタの発生：過去に観測されたことのない新たなクラスタ（話者の集合）が出現すること。
４）クラスタの消滅：既存のクラスタが出現しなくなること。
５）クラスタの分裂：既存のクラスタが複数のクラスタに分かれること。
６）クラスタの合併：既存の複数のクラスタが１つのクラスタにまとまること。

モデル構造更新手段４０９は、上述の６種類の事象について、それぞれ以下のように検知し、検知結果に応じて話者モデルおよび話者共起モデルの構造を更新する。

「１）話者の発生」については、音声データに含まれる個々の発話Ｘ_ｋ ^（ｎ）（１≦ｋ≦Ｋ^（ｎ））について、上述の式（１１）及び次の式（１３）で定義された話者ラベルのエントロピーを計算する。

このエントロピーの値が所定のしきい値よりも大きい場合、発話Ｘ_ｋ ^（ｎ）は既存のいずれの話者にも適合しない新出話者によるものと考えられることから、話者数Ｓをインクリメント（１加算）し、新たな話者モデルのパラメータａ_Ｓ＋１、λ_Ｓ＋１、及び滞欧する話者共起モデルのパラメータｗ_{ｊ，Ｓ＋１}（１≦ｊ≦Ｔ）を用意し、これらに適当な値をセット（設定）する。値は乱数によって決めてもよいし、発話Ｘ_ｋ ^（ｎ）の平均や分散などの統計量を利用して決めてもよい。

「２）話者の消滅」については、各話者ｉ＝１，２，・・・，Ｓについて、話者共起モデルのパラメータｗ_ｊ，ｉ（１≦ｊ≦Ｔ）の最大値を調べる。この最大値が所定のしきい値よりも小さければ、当該話者ｉはいずれのクラスタでも出現確率が低い、すなわち出現しなくなったと考えられることから、対応する話者モデルのパラメータａ_ｉ、λ_ｉ及び話者共起モデルのパラメータｗ_ｊ，ｉ（１≦ｊ≦Ｔ）を削除する。

「３）クラスタの発生」については、音声データのセッション全体がどのクラスタに属するか、すなわち上述の式（５）に関して、以下の式（１４）のようなエントロピーを計算する。

このエントロピーの値が所定のしきい値よりも大きい場合、セッション音声データΞ^（ｎ）＝（_ｋ ^（ｎ））は既存のいずれのクラスタにも適合しない新出クラスタであると考えられることから、クラスタ数Ｔをインクリメントし、話者共起モデルのパラメータｕ_Ｔ＋１，ｖ_Ｔ＋１，ｗ_{Ｔ＋１，ｉ}（１≦ｉ≦Ｓ）を新たに用意し、これらに適当な値をセットする。このとき、ｕ_１，ｕ_２，・・・，ｕ_Ｔ＋１については、ｕ_１＋ｕ_２＋・・・＋ｕ_Ｔ＋１＝１を満たすように適宜正規化することが望ましい。

「４）クラスタの消滅」については、各クラスタｊ＝１，２，・・・，Ｔについて、話者共起モデルのパラメータｕ_ｊの値を調べる。この値が所定のしきい値よりも小さければ、当該クラスタｊは出現確率が低い、すなわち出現しなくなったと考えられることから、対応する話者共起モデルのパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊ，ｉ（１≦ｉ≦Ｓ）を削除する。

「５）クラスタの分裂」については、最近入力されたｍ個の音声データΞ^{（ｎ−ｍ＋１）}，Ξ^{（ｎ−ｍ＋２）}，・・・，Ξ^（ｎ）を参照し、以下の式（１５）のような評価関数を各クラスタｙについて計算する。

ここに、総和記号内の第１及び第２項は上述の式（５）に基づいて計算される。また、第３項は、次の式（１６）で定義されるベクトルを使って計算される。

さらに、式（１６）の各要素は、以下の式（１７）を使って計算される。

以下に、式（１５）の意味するところについて説明する。まず式（１７）は、τ番目の音声データΞ^（τ）がクラスタyに属すると仮定した場合の、Ξ^（τ）内での話者ｚの出現確率を表している。よって式（１６）は、クラスタｙにおける話者の出現確率を並べたベクトルとなる。

また、式（１５）の総和記号内の第１及び第２項は、τ番目の音声データΞ^（τ）及びτ’番目の音声データΞ^（τ’）が、ともにクラスタｙに属する可能性が高い場合に大きい値を取る。また、第３項は、式（１６）のベクトルの余弦類似度の符号を反転して１を加えた一種の相違度であるから、τ番目の音声データΞ^（τ）およびτ’番目の音声データΞ^（τ’）における各話者の出現確率が異なる場合に大きい値を取る。以上から、式（１５）は、最近入力されたｍ個の音声データに関して、τ番目の音声データΞ^（τ）とτ’番目の音声データΞ^（τ’）が同じクラスタに属していて、かつ話者の出現確率が異なる場合に大きい値を取る。

従って、式（１５）の値が最大かつ所定のしきい値を超えるようなクラスタｙについては、クラスタが分裂したとみなせることから、当該クラスタを分割する。

分割の具体的な操作については、例えば、クラスタｙを２つのクラスタｙ１とｙ２に分割する場合、ｋ平均法などの公知のクラスタリング技術を使って式（１６）のベクトル（τ＝ｎ−ｍ＋１，ｎ−ｍ＋２，・・・，ｎ）を２つのグループに分けて、それぞれのグループの平均ベクトルを、話者共起モデルのパラメータｗ_ｙ１，ｚ及びｗ_ｙ２，ｚに割り当てればよい。またパラメータｕ_ｙについては、１／２ずつをｕ_ｙ１及びｕ_ｙ２に割り当てればよく、パラメータｖ_ｙについては、同じ値をｖ_ｙ１及びｖ_ｙ２にコピーすればよい。

「６）クラスタの合併」については、話者共起モデルのパラメータｗ_ｙｚから、以下の式（１８）に示すようなベクトルｗ_ｙを構成し、各クラスタ間でベクトルの内積ｗ_ｙ・ｗ_ｙ’を計算する。この内積の値が大きい場合は、話者の出現確率の類似度が高いので、当該クラスタｙ，ｙ’間の話者の出現確率が類似しているといえるので、クラスタｙ，ｙ’間を合併する。

合併の具体的な操作については、例えば、パラメータｗ_ｙｚとｖ_ｙについては、両クラスタのパラメータの値を足して２で割る、すなわち平均を取ればよい。また、パラメータｕ_ｙについては、両クラスタの和ｕ_ｙ＋ｕ_ｙ’とすればよい。

なお、話者の発生、消滅、あるいはクラスタの発生、消滅、分裂、合併により、モデル構造更新手段４０９が話者モデルまたは話者共起モデルの構造を更新した場合、話者モデル学習手段４０２、発話分類手段４０３、話者共起学習手段４０４は、上述のステップＳ４１〜Ｓ４５の動作を行い、各モデルの再学習を行うことが望ましい。

また、再学習の結果、各モデルの構造の更新を最終的に行うべきかどうかを、記述長最小（ＭＤＬ）基準、赤池情報量基準（ＡＩＣ）、ベイズ情報量基準（ＢＩＣ）などといった公知のモデル選択基準により検証し、モデルの更新が不要と判断された場合は、更新前のモデルを維持するように動作することが望ましい。

また、これらのステップの中で行われる式（５），式（１０），式（１１），式（１２）などの計算は、セッション音声データ記憶手段４００に記録された音声データを毎回すべて用いて行うことを想定しているが、これでは計算量が膨大になる可能性がある。そのような場合は、文献「M.Neal et al., "A View of the EM Algorithm That Justifies Incremental, Sparse, and Other Variants," Learning in Graphical Models, The MIT Press, November 1998, p.355-368」（非特許文献２）に記載の方法により、最新の音声データ、あるいは最近のm個の音声データのみを参照して計算を行うようにすれば、計算量が削減できる。

認識手段４２は、セッションマッチング手段４０７と、話者モデル記憶手段４０４と、話者共起モデル記憶手段４０６の動作により、与えられた任意の音声データに含まれる話者を認識する。動作の詳細については、第１または第２の実施形態と同じであるため、説明を省略する。

以上のように、本実施形態によれば、第１または第２の実施形態の効果に加えて、学習手段４１において、データ入力手段４０８が、新規に得られた音声データを受け取ってセッション音声データ記憶手段４００に追加し、またモデル構造更新手段４０９が、追加された音声データに応じて、話者の発生、話者の消滅、クラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併といった事象を検知し、話者モデルおよび話者共起モデルの構造を更新するように構成されているため、話者やそれらの間の共起関係が時間とともに変化する場合であっても、その変化に追従し、話者を高精度に認識することができる。また、学習手段４１がそのような事象を検知するように構成されているため、話者やクラスタ（話者の集合）の行動パターンを知ることができ、振り込め詐欺やテロ犯罪の犯人の追跡調査などに有益な情報を、大量の音声データから抽出して提供することができる。

実施形態４．
次に、本発明の第４の実施形態について説明する。図１１は、本発明の第４の実施形態の音声データ解析装置の構成例を示すブロック図である。図１１に示すように、本実施形態の音声データ解析装置は、学習手段５１と、認識手段５２とを備える。

また、学習手段５１は、セッション音声データ記憶手段５００と、セッション話者ラベル記憶手段５０１と、話者モデル学習手段５０２と、話者分類手段５０３と、話者共起学習手段５０４と、話者モデル記憶手段５０５と、話者共起モデル記憶手段５０６とを含む。また、認識手段５２は、セッションマッチング手段５０７と、話者モデル記憶手段５０５と、話者共起モデル記憶手段５０６とを含む。なお、認識手段５２と学習手段５１は、話者モデル記憶手段５０４と話者共起モデル記憶手段５０６とをお互いに共有している。

これらの手段はそれぞれ概略次のように動作する。

学習手段５１は、セッション音声データ記憶手段５００と、セッション話者ラベル記憶手段５０１と、話者モデル学習手段５０２と、話者分類手段５０３と、話者共起学習手段５０４と、話者モデル記憶手段５０５と、話者共起モデル記憶手段５０６の動作により、話者モデルおよび話者共起モデルを学習する。各動作の詳細については、それぞれ第２の実施形態におけるセッション音声データ記憶手段３００、セッション話者ラベル記憶手段３０１、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４、話者モデル記憶手段３０５、話者共起モデル記憶手段３０６と同じであるため、説明を省略する。

なお、学習手段５１の構成は、第１の実施形態における学習手段１１や第３の実施形態における学習手段４１と同じ構成としてもよい。

認識手段５２は、セッションマッチング手段５０７と、話者モデル記憶手段５０４と、話者共起モデル記憶手段５０６の動作により、与えられた任意の音声データが属するクラスタを認識する。

セッションマッチング手段５０７は、任意のセッション音声データΞを受け取る。ここでの音声データは、これまでと同様、単一の話者のみが発声する形態の他に、複数の話者が交替で発声するような発話列の形態も含む。

セッションマッチング手段５０７はさらに、学習手段５１によりあらかじめ計算されて、話者モデル記憶手段５０４および話者共起モデル記憶手段５０６に記録された話者モデルおよび話者共起モデルを参照して、音声データΞがどのクラスタに属するかを推定する。具体的には、上述した式（５）に基づいてクラスタごとに音声データΞが属する確率が計算する。

よって、確率ｐ（ｙ｜Ξ，θ）が最大となるｙを求めることで、音声データが属するクラスタを計算することができる。なお、式（５）の右辺分母はｙに依存しない定数となるので、計算を省略することができる。また、分子の話者ｉに関する総和は、この種の計算でよく行われるように、最大値演算ｍａｘ_ｉに置き換えて近似計算としてもよい。

なお、以上述べた動作では、認識手段５２に入力される音声データが、学習手段５１で学習されたクラスタのいずれか一つに属することを想定している。しかしながら実際応用上は、学習段階で獲得し得なかった未知のクラスタに属する音声データが入力される場合があり得る。このような場合に対しては、確率ｐ（ｙ｜Ξ，θ）の最大値取得時に、所定のしきい値と比較して、しきい値以下の値となった場合に未知のクラスタであると判定するような処理を導入してもよい。あるいは、式（１４）のエントロピーのような基準に対してしきい値判定を行ってもよい。

以上のように、本実施形態によれば、認識手段５２において、セッションマッチング手段５０７が、入力された音声データが属するクラスタ（話者の集合）のＩＤを推定するように構成されているため、個々の話者以外に、話者の集合を認識することができる。すなわち、個々の振り込め詐欺犯やテロリストのような個人ではなく、犯行グループを認識することができる。さらには、任意の音声データを、登場人物の構成（キャスティング）の類似性に基づいて自動分類することができる。

実施形態５．
次に、本発明の第５の実施形態について説明する。図１２は、本発明の第５の実施形態の音声データ解析装置（モデル生成装置）の構成例を示すブロック図である。図１２に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム２１−１と、データ処理装置２２と、記憶装置２３とを備える。また、記憶装置２３には、セッション音声データ記憶領域２３１と、セッション話者ラベル記憶領域２３２と、話者モデル記憶領域２３３と、話者共起モデル記憶領域２３４とが含まれる。なお、本実施形態は、第１の実施形態における学習手段１１を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。

音声データ解析用プログラム２１−１は、データ処理装置２２に読み込まれ、データ処理装置２２の動作を制御する。なお、音声データ解析用プログラム２１−１には、第１の実施形態における学習手段の動作がプログラム言語を用いて記述されている。なお、第１の実施形態における学習手段１１に限らず、第２〜第４の実施形態における学習手段（学習手段３１、学習手段４１または学習手段５１）をプログラムにより動作されるコンピュータにより実現することも可能である。そのような場合には、音声データ解析用プログラム２１−１には、第１〜第４の実施形態におけるいずれかの学習手段の動作がプログラム言語を用いて記述されていればよい。

すなわち、データ処理装置２２は、音声データ解析用プログラム２１−１の制御により、第１の実施形態における話者モデル学習手段１０２および話者共起学習手段１０４の処理か、第２の実施形態における話者モデル学習手段３０２、話者分類手段３０３および話者共起学習手段３０４の処理か、第３の実施形態におけるデータ入力手段４０８、話者モデル学習手段４０２、話者分類手段４０３、話者共起学習手段４０４およびモデル構造更新手段４０９の処理か、または第４の実施形態における話者モデル学習手段５０２、話者分類手段５０３および話者共起学習手段５０４の処理と同一の処理を実行する。

データ処理装置２２は、音声データ解析用プログラム５１−１に従って処理を実行することによって、記憶装置２３内のセッション音声データ記憶領域２３１、セッション話者ラベル記憶領域２３２にそれぞれ記録された音声データ、話者ラベルを読み込み、それらを用いて話者モデルおよび話者共起モデルを求め、求めた話者モデルおよび話者共起モデルを記憶装置２３内の話者モデル記憶領域２３３、話者共起モデル記憶領域２３４にそれぞれ記録する。

以上のように、本実施形態の音声データ解析装置（モデル生成装置）によれば、多数の話者から発せられる音声データから話者を学習または認識する際に有効な話者モデルおよび話者共起モデルを得ることができるため、得られた話者モデルおよび話者共起モデルを用いることによって話者を高精度に認識することができる。

実施形態６．
次に、本発明の第６の実施形態について説明する。図１３は、本発明の第６の実施形態の音声データ解析装置（話者認識装置）の構成例を示すブロック図である。図１３に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム２１−２と、データ処理装置２２と、記憶装置２３とを備える。また、記憶装置２３には、話者モデル記憶領域２３３と、話者共起モデル記憶領域２３４とが含まれる。なお、本実施形態は、第１の実施形態における認識手段を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。

音声データ解析用プログラム２１−２は、データ処理装置２２に読み込まれ、データ処理装置２２の動作を制御する。なお、音声データ解析用プログラム２１−２には、第１の実施形態における認識手段１２の動作がプログラム言語を用いて記述されている。なお、第１の実施形態における認識手段１２に限らず、第２〜第４の実施形態における認識手段（認識手段３２、学習手段４２または学習手段５２）をプログラムにより動作されるコンピュータにより実現することも可能である。そのような場合には、音声データ解析用プログラム２１−２には、第１〜第４の実施形態におけるいずれかの認識手段の動作がプログラム言語を用いて記述されていればよい。

すなわち、データ処理装置２２は、音声データ解析用プログラム２１−２の制御により、第１の実施形態におけるセッションマッチング手段１０７の処理か、第２の実施形態におけるセッションマッチング手段３０７の処理か、第３の実施形態におけるセッションマッチング手段４０７の処理か、または第４の実施形態におけるセッションマッチング手段５０７の処理と同一の処理を実行する。

データ処理装置２２は、音声データ解析用プログラム２１−２に従って処理を実行することによって、記憶装置２３内の話者モデル記憶領域２３３、話者共起モデル記憶領域２３４にそれぞれ記録されている話者モデル、話者共起モデルを参照し、任意の音声データに対して話者認識または話者集合の認識を行う。なお、話者モデル記憶領域２３３、話者共起モデル記憶領域２３４には、同実施形態における学習手段もしくは上記音声データ解析用プログラム５１−１によるデータ処理装置５２の制御によって生成されるものと同等の話者モデル、話者共起モデルが予め記憶されているものとする。

以上のように、本実施形態の音声データ解析装置（話者／話者集合認識装置）によれば、話者モデルだけでなく、話者間の共起関係をモデル化（数式等で表現）した話者共起モデルを用いて、セッション全体の話者の共起の整合性を考慮して話者認識を行うので、話者を高精度に認識することができる。また、個々の話者以外に、話者の集合を認識することができる。なお、話者モデルおよび話者共起モデルが予め記憶されていることによりモデル化のための演算処理が省略できる点を除けば、第１〜第４の実施形態の効果と同様である。なお、第３の実施形態における認識手段を実現させる場合には、例えば別装置により実現した学習手段によって話者モデルおよび話者共起モデルが更新される毎に、記憶装置２３の内容が更新されるように構成すればよい。

なお、第５の実施形態の音声データ解析用プログラム５１−１と、第６の実施形態の音声データ解析用プログラム５１−２とを結合した音声データ解析用プログラム５１をデータ処理装置５２に読み込ませることにより、１つのデータ処理装置５２に、第１〜第４の実施形態における学習手段および認識手段の各処理をさせることも可能である。

次に、本発明の概要について説明する。図１４は、本発明の概要を示すブロック図である。図１４に示す音声データ解析装置は、話者モデル導出手段６０１と、話者共起モデル導出手段６０２と、モデル構造更新手段６０３とを備える。

話者モデル導出手段６０１（例えば、話者モデル学習手段１０２，３０２，４０２，５０２）は、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する。なお音声データの少なくとも一部には、当該音声データに含まれる発話の話者を識別する話者ラベルが付与されているものとする。

話者モデル導出手段６０１は、例えば、話者モデルとして、話者ごとの音声特徴量の出現確率を規定する確率モデルを導出してもよい。確率モデルは、例えば、ガウス混合モデルまたは隠れマルコフモデルであってもよい。

話者共起モデル学習手段６０２（例えば、話者共起モデル学習手段１０４，３０４，４０４，５０４）は、話者モデル学習手段６０１が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する。

話者共起モデル学習手段６０２は、例えば、話者共起モデルとして、共起関係の強い話者の集合すなわちクラスタの出現確率およびクラスタ内での話者の出現確率で規定されるマルコフネットワークを導出してもよい。

なお、話者モデル導出手段６０１と話者共起モデル学習手段６０２とは、それぞれ話者モデルおよび話者共起モデルを、音声データおよび音声データに含まれる発話に付与された話者ラベルに対する尤度最大化基準、事後確率最大化基準、ベイズ基準のいずれかの基準に基づいて、反復演算させることにより学習してもよい。

モデル構造更新手段６０３（例えば、モデル構造更新手段４０９）は、新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、そのような所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する。

話者またはその集合であるクラスタが変化する事象として、話者の発生、話者の消滅、クラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められていてもよい。

モデル構造更新手段６０３は、例えば、話者またはその集合であるクラスタが変化する事象として、話者の発生が定められている場合に、新たに追加された音声データのセッション内の各発話について、発話に付与された話者を識別する情報である話者ラベルの推定結果のエントロピーが所定のしきい値よりも大きいときに、話者の発生を検知し、話者モデルに新規話者を規定するパラメータを追加してもよい。

モデル構造更新手段６０３は、例えば、話者またはその集合であるクラスタが変化する事象として、話者の消滅が定められている場合に、話者共起モデル内の話者の出現確率に対応するすべてのパラメータの値が所定のしきい値よりも小さいときに、話者の消滅を検知し、話者モデルの当該話者を規定するパラメータを削除してもよい。

モデル構造更新手段６０３は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの発生が定められている場合に、新たに追加された音声データのセッションに関して、各クラスタに属する確率のエントロピーが所定のしきい値よりも大きいときに、クラスタの発生を検知し、話者共起モデルに新規クラスタを規定するパラメータを追加してもよい。

モデル構造更新手段６０３は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの消滅が定められている場合に、話者共起モデル内のクラスタの出現確率に対応するパラメータの値が所定のしきい値よりも小さいときに、クラスタの消滅を検知し、話者共起モデルの当該クラスタを規定するパラメータを削除してもよい。

モデル構造更新手段６０３は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの分裂が定められている場合に、直近に追加された所定個の音声データのセッションそれぞれについて、各クラスタに属する確率および話者の出現確率を計算し、さらに、それぞれのセッション対について、同一のクラスタに属する確率と、話者の出現確率の相違度を計算し、同一のクラスタに属する確率と相違度から定まる評価関数が所定のしきい値よりも大きいときに、クラスタの分裂を検知し、話者共起モデルの当該クラスタを規定するパラメータを分割してもよい。

モデル構造更新手段６０３は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの合併が定められている場合に、話者共起モデルの話者の出現確率をクラスタ間で比較し、話者の出現確率の類似度が所定のしきい値よりも高いクラスタ対が存在するときに、クラスタの合併を検知し、話者共起モデルの当該クラスタ対を規定するパラメータを統合してもよい。

また、モデル構造更新手段６０３は、話者モデルまたは話者共起モデルの構造の更新の要否を、記述長最小（ＭＤＬ）基準、赤池情報量基準（ＡＩＣ）、ベイズ情報量基準（ＢＩＣ）などといったモデル選択基準に基づいて決定してもよい。

また、図１４は、本発明の音声データ解析装置の他の構成例を示すブロック図である。図１４に示すように、音声データ解析装置は、さらに話者推定手段６０４を備えていてもよい。

話者推定手段６０４（例えば、話者分類手段３０４，４０４）は、話者モデル導出手段６０１または話者共起モデル導出手段６０２に入力される音声データに含まれる発話の話者が未知の場合、すなわち音声データ内に話者ラベルが付与されていない発話が存在する場合に、少なくともその時点において導出されている話者モデルまたは話者共起モデルを参照して、話者ラベルが付与されていない発話について話者ラベルを推定する。

このような構成の場合には、話者モデル導出手段６０１、話者共起モデル導出手段６０２および話者推定手段６０４を交互に反復動作させてもよい。

また、図１５は、本発明の音声データ解析装置の他の構成例を示すブロック図である。図１５に示すように、音声データ解析装置は、話者モデル記憶手段６０５と、話者共起モデル記憶手段６０６と、話者集合認識手段６０７とを備える構成であってもよい。

話者モデル記憶手段６０５（例えば、話者モデル記憶手段１０５，３０５，４０５，５０５）は、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する。

話者共起モデル記憶手段６０５（例えば、話者共起モデル記憶手段１０６，３０６，４０６，５０６）は、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係の強さを表すモデルである話者共起モデルを記憶する。

話者集合認識手段６０７（例えば、セッションマッチング手段５０７）は、記憶されている話者モデルと話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データがいずれのクラスタに該当するかを認識する。

話者集合認識手段６０７は、例えば、指定された音声データのセッションについて、各クラスタに該当する確率を算出し、算出した確率が最大となるクラスタを認識結果として選択してもよい。また、例えば、算出した確率が最大となるクラスタの確率が所定のしきい値に達しない場合に、該当するクラスタなしと判定してもよい。

なお、図１６に示すように、記憶手段の代わりに話者モデル導出手段６０１と話者共起モデル導出手段６０２とモデル構造更新手段６０３と必要であれば話者推定手段６０４とを備え、１つの装置によりモデルの生成・更新から話者集合の認識までの動作を実現させることも可能である。なお、話者集合認識手段６０７に代わりまたは話者集合認識手段６０７とともに、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識手段６０８を備えていてもよい。

話者認識手段６０８（例えば、セッションマッチング手段１０７，３０７，４０７）は、話者モデルと話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する。なお、上記第４の実施形態のように、話者集合認識手段６０７と話者集合認識手段６０８とを一つの話者・話者集合認識手段として実装することも可能である。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００９年１１月２５日に出願された日本特許出願２００９−２６７７７０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、多数の話者の音声を記録した人物データベースと入力音声とを照合する話者検索装置や話者照合装置といった用途に適用可能である。また、映像や音声からなるメディアデータのインデクシング・検索装置、あるいは、会議で出席者の発言を記録する会議録作成支援装置、会議支援装置といった用途にも適用可能である。また、話者間の関係性が経時変化を伴うような音声データの話者認識や話者集合そのものを認識する用途に好適に適用可能である。

１１，３１，４１，５１学習手段
１００，３００，４００，５００セッション音声データ記憶手段
１０１，３０１，４０１，５０１セッション話者ラベル記憶手段
１０２，３０２，４０２，５０２話者モデル学習手段
１０４，３０４，４０４，５０４話者共起学習手段
１０５，３０５，４０５，５０５話者モデル記憶手段
１０６，３０６，４０６，５０６話者共起モデル記憶手段
３０３話者分類手段
４０８データ入力手段
４０９モデル構造更新手段
１２，３２，４２，５２認識手段
１０７，３０７，４０７，５０７セッションマッチング手段
２１，２１−１，２１−２音声データ解析用プログラム
２２データ処理装置
２３記憶装置
２３１セッション音声データ記憶領域
２３２セッション話者ラベル記憶領域
２３３話者モデル記憶領域
２３４話者共起モデル記憶領域
６０１話者モデル導出手段
６０２話者共起モデル導出手段
６０３モデル構造更新手段手段
６０４話者推定手段
６０５話者モデル記憶手段
６０６話者共起モデル記憶手段
６０７話者集合認識手段
６０８話者認識手段

Claims

複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、
前記話者モデル導出手段が導出した話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段と、
新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新するモデル構造更新手段とを備えた
ことを特徴とする音声データ解析装置。
話者またはその集合であるクラスタが変化する事象として、話者の発生、話者の消滅、クラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められている
請求項１に記載の音声データ解析装置。
話者またはその集合であるクラスタが変化する事象として、少なくとも話者の発生または話者の消滅が定められ、
モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、話者の発生が定められている場合に、新たに追加された音声データのセッション内の各発話について、前記発話に付与された話者を識別する情報である話者ラベルの推定結果のエントロピーが所定のしきい値よりも大きいときに、話者の発生を検知し、話者モデルに新規話者を規定するパラメータを追加し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、話者の消滅が定められている場合に、話者共起モデル内の話者の出現確率に対応するすべてのパラメータの値が所定のしきい値よりも小さいときに、話者の消滅を検知し、話者モデルの当該話者を規定するパラメータを削除する
請求項１または請求項２に記載の音声データ解析装置。
話者またはその集合であるクラスタが変化する事象として、少なくともクラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められ、
モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの発生が定められている場合に、新たに追加された音声データのセッションに関して、各クラスタに属する確率のエントロピーが所定のしきい値よりも大きいときに、クラスタの発生を検知し、話者共起モデルに新規クラスタを規定するパラメータを追加し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの消滅が定められている場合に、話者共起モデル内のクラスタの出現確率に対応するパラメータの値が所定のしきい値よりも小さいときに、前記クラスタの消滅を検知し、話者共起モデルの当該クラスタを規定するパラメータを削除し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの分裂が定められている場合に、直近に追加された所定個の音声データのセッションそれぞれについて、各クラスタに属する確率および話者の出現確率を計算し、さらに、それぞれのセッション対について、同一のクラスタに属する確率と、前記話者の出現確率の相違度を計算し、前記同一のクラスタに属する確率と前記相違度から定まる評価関数が所定のしきい値よりも大きいときに、前記クラスタの分裂を検知し、話者共起モデルの当該クラスタを規定するパラメータを分割し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの合併が定められている場合に、話者共起モデルの話者の出現確率をクラスタ間で比較し、前記話者の出現確率の類似度が所定のしきい値よりも高いクラスタ対が存在するときに、前記クラスタの合併を検知し、話者共起モデルの当該クラスタ対を規定するパラメータを統合する
請求項１または請求項２に記載の音声データ解析装置。
音声データに含まれる各発話の話者が未知の場合に、話者モデルと話者共起モデルとを参照して、各発話の話者を推定する話者推定手段を備えた
請求項１から請求項４のうちのいずれか１項に記載の音声データ解析装置。
複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、
前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルを記憶する話者共起モデル記憶手段と、
前記話者モデルと前記話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する話者集合認識手段を備えた
ことを特徴とする音声データ解析装置。
複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出し、
導出された話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出し、
新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する
ことを特徴とする音声データ解析方法。
複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する
ことを特徴とする音声データ解析方法。
コンピュータに、
複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する処理、
導出される前記話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する処理、および
新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する処理
を実行させるための音声データ解析用プログラム。
コンピュータに、
複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する処理
を実行させるための音声データ解析用プログラム。