JP6303971B2

JP6303971B2 - 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム

Info

Publication number: JP6303971B2
Application number: JP2014213149A
Authority: JP
Inventors: 昭二早川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2018-04-04
Anticipated expiration: 2034-10-17
Also published as: JP2016080916A; US9536547B2; US20160111112A1

Description

本発明は、例えば、複数の話者の会話を録音した音声信号において発話した話者の組の交替を検出する話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラムに関する。

近年、電話回線を用いて行われる、金銭を騙し取ることを目的とした詐欺行為及び悪質な勧誘行為が社会的な問題となっている。そこで、電話回線を介した通話中の音声など、会話音声を分析して、話者の心理状態を推定する技術が提案されている（例えば、特許文献１を参照）。

このような技術では、心理状態の分析対象となる話者１名が発声した音声が含まれる音声信号を分析することが前提となっている。しかしながら、会話音声が録音された音声信号には、２名以上の話者の音声が含まれる。そこで、会話音声が録音された音声信号に基づいて、特定の話者の心理状態を精度良く推定するためには、その音声信号に含まれる、心理状態の推定対象となる話者の発話区間を特定することが求められる。そこで、複数の話者の音声が含まれるモノラルの音声信号において、各話者が発話した区間にその話者の識別情報を付与できる話者インデキシング技術が提案されている（例えば、特許文献２及び非特許文献１を参照）。

特開２０１１−２４２７５５号公報特開２００８−１７５９５５号公報

D. Liu and F.Lubala、「Online speaker clustering」、In Proc of ICASSP2004、vol.1、pp.333-337、2004年

会話に参加しているが別の話者と代わることで会話に参加している話者の組が途中で交替することがある。しかし、特許文献２または非特許文献１に記載の技術では、話者の組が交替しないことが前提となっている。そのため、特許文献２または非特許文献１に記載の技術は、音声信号の途中で会話に参加している話者の組が交替しても、話者の組が交替したことを検出できない。そのため、これらの技術では、話者の組の交替の前後で、２名以上の異なる話者の発話区間に対して、同じ話者を表すラベルが付されてしまうおそれがあった。そして２名以上の異なる話者の発話区間に同じ話者を表すラベルが付されていると、話者の心理状態の分析の際に、それら異なる話者の発話区間を一人の話者の発話区間として心理状態の分析が行われることになる。その結果、話者の心理状態を精度良く推定することが困難となる。

そこで本明細書は、一つの側面では、複数の話者の会話を録音した音声信号において、対話中の話者の組が交替したことを検出できる話者交替検出装置を提供することを目的とする。

一つの実施形態によれば、話者交替検出装置が提供される。この話者交替検出装置は、複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出する特徴量抽出部と、音声信号中の異なる複数の時点のそれぞれについて、その時点よりも前に第１の分析区間を設定し、かつ、その時点よりも後に第２の分析区間を設定する分析区間設定部と、複数の時点のそれぞれについて、第１の分析区間に含まれる複数のフレームの特徴量の分布に基づいて、第１の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第１の話者モデルを生成し、かつ、第２の分析区間に含まれる複数のフレームの特徴量の分布に基づいて、第２の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第２の話者モデルを生成するモデル化部と、複数の時点のそれぞれについて、第１の話者モデルに第２の分析区間に含まれる複数のフレームの特徴量を適用し、かつ、第２の話者モデルに第１の分析区間に含まれる複数のフレームの特徴量を適用して、第１の分析区間についての話者の組と第２の分析区間についての話者の組の特徴が類似している確度を表す照合スコアを算出する照合スコア算出部と、複数の時点のそれぞれについての照合スコアに応じて、音声信号中において前後で発話している話者の組が交替する話者交替点を検出する交替点検出部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された話者交替検出装置は、複数の話者の会話を録音した音声信号において、対話中の話者の組が交替したことを検出できる。

一つの実施形態による話者交替検出装置の概略構成図である。話者交替検出装置が有する処理部の機能ブロック図である。分析区間の一例を示す図である。話者交替点を検出するための原理の説明図である。照合スコアの遷移の一例を示す図である。話者の組の交替が複数回行われる場合の照合スコアの遷移の一例を示す図である。話者交替検出処理の動作フローチャートである。何れかの分析区間において話者の組に含まれる何れかの話者がほとんど発話していない場合における、分析区間と話者の関係の一例を示す図である。間引き率と照合スコアの関係を示す図である。何れかの実施形態またはその変形例による話者交替検出装置が実装されたサーバクライアントシステムの概略構成図である。

以下、図を参照しつつ、話者交替検出装置について説明する。この話者交替検出装置は、複数の話者の会話が録音されたモノラルの音声信号をフレーム単位で分割し、各フレームから、人の声の特徴を表す特徴量を抽出する。この話者交替検出装置は、音声信号において、着目する時点の前後に設定する二つの分析区間のそれぞれごとに、その分析区間に含まれる特徴量の分布に基づいて、その分析区間において発話している話者の組の声の特徴を表す話者モデルを作成する。すなわち、この話者交替検出装置は、一つの話者モデルで複数の話者の声の特徴をモデル化する。そしてこの話者交替検出装置は、各分析区間の一方の話者モデルに、他方の分析区間の特徴量を入力して得られる照合スコアを算出する。この照合スコアは、二つの分析区間のそれぞれで会話している話者の組が同一であれば、相対的に高い値となる。一方、着目する時点において、話者の組に含まれる、少なくとも一人の話者が交替すると、照合スコアは相対的に低い値となる。そこでこの話者交替検出装置は、着目する時点を少しずつずらしながら、その時点ごとに照合スコアを算出する。そしてこの話者交替検出装置は、照合スコアが極小値となり、かつ、所定の検出閾値以下となったときの時点を、話者の組が交替した時点として検出する。

なお、以下では、話者の組に含まれる、少なくとも一人の話者の交替を、単に話者の組の交替と呼ぶ。例えば、話者'A'と話者'B'との会話から、話者'C'と話者'D'との会話に切り替わることだけでなく、話者'A'と話者'B'の何れか一方が話者'C'に切り替わることも、話者の組の交替に含まれる。また、音声信号中において、その前後で発話している話者の組が交替する時点を、便宜上、話者交替点と呼ぶ。なお、話者の組に含まれる話者の数は２名に限られず、３名以上であってもよい。

図１は、一つの実施形態による話者交替検出装置の概略構成図である。話者交替検出装置１は、インターフェース部１１と、アナログ／デジタルコンバータ１２と、処理部１３と、記憶部１４とを有する。

インターフェース部１１は、音声入力部の一例であり、オーディオインターフェースを有する。そしてインターフェース部１１は、例えば、電話回線に接続された通話録音アダプタ（図示せず）からの、アナログ信号であり、かつ、送話側の話者と受話側の話者との会話音声を含むモノラルの音声信号を取得する。そしてインターフェース部１１は、その音声信号をアナログ／デジタルコンバータ１２（以下、Ａ／Ｄコンバータと表記する）へ出力する。Ａ／Ｄコンバータ１２は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてＡ／Ｄコンバータ１２は、デジタル化された音声信号を処理部１３へ出力する。

処理部１３は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部１３は、話者交替検出処理を実行することで、デジタル化された音声信号に基づいて、フレームごとに、そのフレームで発話している話者の識別情報を付与する。なお、処理部１３による話者交替検出処理の詳細は後述する。

記憶部１４は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部１４は、処理部１３上で実行される話者交替検出処理の対象となる音声信号、話者交替検出処理で利用される各種のデータ及び話者交替検出処理の途中で生成される各種のデータを記憶する。また記憶部１４は、処理部１３が、話者交替検出処理を実行することにより得られる、話者の組が交替した時点を示す情報が付与された音声信号を記憶する。

以下、処理部１３による、話者交替検出処理の詳細について説明する。

図２は、処理部１３の機能ブロック図である。処理部１３は、特徴量抽出部２１と、分析区間設定部２２と、モデル化部２３と、照合スコア算出部２４と、交替点検出部２５とを有する。
処理部１３が有するこれらの各部は、例えば、処理部１３が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。

特徴量抽出部２１は、デジタル化された音声信号（以下では、単に音声信号と呼ぶ）を所定長を持つフレームごとに分割し、フレームごとに、人の声の特徴を表す少なくとも一つの特徴量を抽出する。本実施形態では、フレーム長は、例えば、32msecに設定される。この場合において、Ａ／Ｄコンバータ１２のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれる。

本実施形態では、特徴量抽出部２１は、人の声の特徴を表す特徴量として、話者の声道の共振特性を表すスペクトル包絡情報であるケプストラムを抽出する。例えば、特徴量抽出部２１は、ケプストラムとして、パワースペクトルの各周波数の値についての対数を求め、それら対数を逆フーリエ変換したときの、低次の値を選択するFFTケプストラムを用いることができる。あるいは、特徴量抽出部２１は、ケプストラムとして、線形予測分析によって得られる線形予測係数から求めるLPCケプストラムを用いることができる。あるいはまた、特徴量抽出部２１は、ケプストラムとして、中心周波数をメルスケールで等間隔に配置した各フィルタバンクの出力の対数値に対して離散コサイン変換(Discrete Cosign Transform,DCT)することで算出されるMel Frequency Cepstral Coefficients(MFCC)を用いてもよい。なお、特徴量抽出部２１は、算出したケプストラムのうち、所定の次数（例えば、1〜12次）の係数を、特徴量とすることができる。

特徴量抽出部２１は、フレームごとの特徴量を記憶部１４に保存する。

なお、特徴量抽出部２１は、特徴量として、各フレームから、韻律情報である、パワーの積算値及びピッチ周波数を求めてもよい。あるいは、特徴量抽出部２１は、音声信号をフレーム単位で時間周波数変換することにより得られた周波数領域のスペクトル信号に基づいて、自己相関関数を求めてもよい。あるいはまた、特徴量抽出部２１は、フレームごとに、複数の特徴量を求めてもよい。

ここで、自己相関関数は、各周波数のパワースペクトルを逆フーリエ変換することにより求められる。なお、特徴量抽出部２１は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)を用いることができる。

また、ピッチ周波数を特徴量として利用する場合、特徴量抽出部２１は、ピッチ周波数を算出するために、各フレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値（ただし、時間差0のピーク値を除く）を求める。人の有声音に相当するフレームについては、比較的自己相関の最大値が大きいのに対し、無声音または背景雑音に相当するフレームの自己相関の最大値が小さいか、または明確なピークが現れない。そこで特徴量抽出部２１は、そのピーク値の最大値を所定の閾値と比較し、最大値が所定の閾値よりも大きい場合、そのフレームには話者の有声音が含まれると判定する。そして特徴量抽出部２１は、そのピーク値の最大値に相当する時間差の逆数をピッチ周波数とする。

さらに、特徴量抽出部２１は、ピッチ周波数を所定値で割ることにより得られる正規化ピッチ周波数を特徴量としてもよい。同様に、特徴量抽出部２１は、パワー積算値を所定値で割ることにより得られる正規化パワー積算値を特徴量としてもよい。また、特徴量抽出部２１は、パワー積算値を、フレームに含まれる雑音成分を表す雑音判定閾値Thnと比較して、パワー積算値が雑音判定閾値Thnよりも大きいフレームについてのみ、特徴量の組を記憶部１４に保存してもよい。これにより、処理部１３は、どの話者も発声していない時のフレームから抽出された特徴量の組が、話者交替検出に影響することを防止できる。

なお、雑音判定閾値Thnは、通話音声の背景雑音レベルに応じて適応的に設定されることが好ましい。そこで特徴量抽出部２１は、何れの話者も発声していないフレームを、背景雑音のみが含まれる無音フレームと判定する。例えば、特徴量抽出部２１は、パワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを無音フレームと判定する。そして特徴量抽出部２１は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、特徴量抽出部２１は、次式に従って背景雑音レベルを推定する。
ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。
ここで、γは、あらかじめ設定される定数であり、例えば、3〜10[dB]に設定される。

分析区間設定部２２は、話者交替検出の対象となる音声信号の取得が終了すると、音声信号中に設定される話者交替点の候補ごとに、その候補の前後に、それぞれ、所定の時間長を持つ分析区間を設定する。分析区間設定部２２は、話者交替点の候補を、例えば、音声信号の開始から分析区間の長さに相当する時間が経過した点から、音声信号の終点から分析区間の長さに相当する時間だけ前の時点まで順に、所定間隔ずつずらして設定する。所定間隔は、例えば、0.5秒〜5秒に設定される。

また、話者モデルを正確に求めるためには、分析区間は、ある程度以上の長さを持つことが好ましい。この点に関して、例えば、Reynolds他、「Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models」、IEEE Trans.、Speech and Audio Process.、vol.3、No.1、pp.72-83、1995年には、話者モデルの学習に用いた区間の長さを30秒、60秒、90秒としたときの話者識別性能が示されている。この文献によれば、話者モデルの学習に用いた区間の長さが60秒の場合の話者識別性能と90秒の場合の話者識別性能の差は、その区間の長さが30秒の場合の話者識別性能と60秒の場合の話者識別性能の差とよりも大幅に小さくなる。そしてその区間の長さが60秒以上であれば、話者を正確に認識できる率が90%以上となる。そこで、分析区間の長さは60秒以上とすることが好ましい。

図３は、分析区間の一例を示す図である。図３において、横軸は時間を表す。また縦軸は、音声信号の振幅を表す。図３に示されるように、分析区間設定部２２は、音声信号３００に対して、二つの分析区間３０１と３０２間の境界が話者交替点の候補３０３となるように各分析区間を設定する。なお、二つの分析区間は隣接していなくてもよい。例えば、分析区間設定部２２は、二つの分析区間の間に所定時間長（例えば、0.1秒〜1秒）のインターバル区間を設け、そのインターバル区間の中点が話者交替点の候補となるように、二つの分析区間を設定してもよい。

モデル化部２３は、話者交替点の候補ごとに、その候補について設定された二つの分析区間のそれぞれについて、その分析区間に含まれる各フレームの特徴量の分布を、複数の確率分布を含む混合分布でモデル化する。この混合分布は、その分析区間において発話した話者の組に含まれる各話者の声の特徴を表す話者モデルに相当する。なお、以下の説明において、一つのフレームから複数の特徴量が抽出されている場合は、特に断りが無い限り、「特徴量」とは、一つのフレームから抽出される複数の特徴量を含む、特徴量の組を意味する。

話者ごとに、声の特徴は異なるので、同じ話者が発話したフレームから抽出された特徴量は、比較的類似した値を持つと推定される。そこで本実施形態では、モデル化部２３は、着目する分析区間について、その分析区間に含まれる各フレームの特徴量を、k-means法あるいは最短距離法といったクラスタリング手法を用いて複数のクラスタの何れかに分類する。そしてモデル化部２３は、クラスタごとに、そのクラスタに含まれる特徴量の平均値ベクトル及び共分散行列を求めることで、クラスタごとにガウス分布を求める。そしてモデル化部２３は、得られた各ガウス分布を含むガウス混合分布を話者モデルとする。この場合、話者モデルは次式で表される。
ここでw_i(i=1,2,...,n)は、それぞれ、ガウス分布iに対する重み係数である。重み係数w_iは、例えば、分析区間に含まれる、特徴量が抽出されたフレームの総数に対する、そのガウス分布iに対応するクラスタに含まれる、特徴量が抽出されたフレームの数の比である。またμ_iは、ガウス分布iの特徴量の平均値ベクトルである。そしてΣ_iは、ガウス分布iの共分散行列である。

あるいは、モデル化部２３は、分析区間に含まれる各フレームの特徴量をそれぞれ学習サンプルとして、混合分布に含まれる各ガウス分布を表す複数のパラメータ（重み係数w_i、平均値ベクトルμ_i及び共分散行列Σ_i）を最尤推定してもよい。その際、モデル化部２３は、最尤推定法として、例えば、EMアルゴリズム（期待値最大化法とも呼ばれる）を利用することができる。また、モデル化部２３は、EMアルゴリズムの代わりに、マルコフ連鎖モンテカルロ法またはシミュレーティッドアニーリングを利用して、混合分布に含まれる各ガウス分布を表す複数のパラメータを求めてもよい。

あるいはまた、モデル化部２３は、最大事後確率推定(Maximum A Posteriori, MAP)推定を利用して、各分析区間の話者モデルを求めてもよい。この場合には、モデル化部２３は、先ず、音声信号全体から、各フレームの特徴量に対してEMアルゴリズムを適用することで、混合分布を作成する。この混合分布を、以下では、Whole Model(WM)と呼ぶ。そしてモデル化部２３は、例えば、音声信号中に設定される最初の話者交替点の候補に対する、その候補よりも前の分析区間を先頭の分析区間とする。そしてモデル化部２３は、先頭の分析区間内の各フレームの特徴量に基づいて、混合分布に含まれる各ガウス分布の重み係数、平均値及び共分散行列を更新することで、その分析区間の混合分布を求める。同様に、モデル化部２３は、話者交替点の候補間の間隔だけ、先頭の分析区間を後方へずらした分析区間を次の分析区間とする。そしてモデル化部２３は、次の分析区間内の各フレームの特徴量に基づいて、先頭の分析区間の混合分布に含まれる各ガウス分布の重み係数、平均値及び共分散行列を更新する。モデル化部２３は、同様の処理を繰り返すことで、各分析区間についての混合分布を求めることができる。この方法によれば、モデル化部２３は、話者交替の候補ごとにクラスタリング処理を行う必要がないので、各分析区間の混合分布を求めるための演算量を削減できる。なお、MAP推定による話者モデルの生成の詳細については、例えば、Reynolds他、「Speaker Verification Using Gaussian Mixture Models」、Digital Signal Processing、Vol.10、Nos.1-3、pp.19-41を参照されたい。

モデル化部２３は、話者交替点の候補ごとに、その候補について設定された二つの分析区間のそれぞれについての話者モデルを表すパラメータを、照合スコア算出部２４へ渡す。

照合スコア算出部２４は、話者交替点の候補ごとに、話者の組の特徴が類似している確度を表す照合スコアを算出する。

図４は、話者交替点を検出するための原理の説明図である。図４において、横軸は時間を表し、縦軸は音声信号の振幅を表す。そして音声信号４００の下に示された記号'A'〜'D'は、その記号が示された時点で発話している話者を表す。

話者交替点の候補４０１について設定された二つの分析区間４０２及び４０３では、話者'A'と話者'B'が発話している。そのため、分析区間４０２について話者モデルとして求められた混合分布θ_Xと分析区間４０３について話者モデルとして求められた混合分布θ_Yとの差は相対的に小さい。ここで、分析区間４０２に含まれる各フレームから抽出された特徴量を要素とするベクトルを特徴量ベクトルXとする。特徴量ベクトルXを分析区間４０３について求められた混合分布θ_Yに入力して得られる尤度P(X|θ_Y)は、特徴量ベクトルXを混合分布θ_Xに入力して得られる尤度P(X|θ_X)に比較的近い値となる。同様に、分析区間４０３に含まれる各フレームから抽出された特徴量を要素とするベクトルを特徴量ベクトルYとする。そして特徴量ベクトルYを分析区間４０２について求められた混合分布θ_Xに入力して得られる尤度P(Y|θ_X)も、特徴量ベクトルYを混合分布θ_Yに入力して得られる尤度P(Y|θ_Y)に比較的近い値となる。

一方、話者交替点の候補４１１よりも前に設定された分析区間４０３と、話者交替点の候補４１１よりも後に設定された分析区間４０４では、発話している話者の組が異なっている。すなわち、分析区間４０３では、話者'A'と話者'B'が発話しているのに対して、分析区間４０４では、話者'C'と話者'D'が発話している。そのため、分析区間４０４について話者モデルとして求められた混合分布θ_Zと、分析区間４０３について話者モデルとして求められた混合分布θ_Yとの差は相対的に大きい。したがって、分析区間４０３に含まれる各フレームから抽出された特徴量ベクトルYを分析区間４０４について求められた混合分布θ_Zに入力して得られる尤度P(Y|θ_Z)は、尤度P(Y|θ_Y)よりも小さい可能性が高い。同様に、分析区間４０４に含まれる各フレームから抽出された特徴量ベクトルZを分析区間４０３について求められた混合分布θ_Yに入力して得られる尤度P(Z|θ_Y)も、尤度P(Z|θ_Z)より小さい可能性が高い。

このように、話者交替点の候補の前（過去）と後（未来）に設定される二つの分析区間の一方から得られる特徴量ベクトルを、他方の混合分布に入力することで求められる尤度の値は、その二つの分析区間に含まれる話者の組が同一か否かに応じて大きく変化する。そこで、照合スコア算出部２４は、話者他交替点の候補のそれぞれについて、前側の分析区間の話者モデルに後側の分析区間の特徴量ベクトルを適用し、後側の分析区間の話者モデルに前側の分析区間の特徴量ベクトルを適用することで照合スコアを算出する。例えば、照合スコア算出部２４は、次式に従って、二つの分析区間の話者モデル間のクロスエントロピーを照合スコアとして算出する。
ここで、nは、着目する話者交替点の候補のインデックスを表す。またベクトルX_nは、着目する話者交替点の候補よりも前の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。同様に、ベクトルY_nは、着目する話者交替点の候補nよりも後の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。またθ_Xnは、着目する話者交替点の候補よりも前の分析区間について求められた話者モデルである。同様に、またθ_Ynは、着目する話者交替点の候補よりも後の分析区間について求められた話者モデルである。そしてP(a|b)は、話者モデルbに特徴量ベクトルaを入力して求められる尤度である。尤度P(a|b)は、特徴量ベクトルaに含まれる各特徴量を、話者モデルである混合分布に入力して得られる確率の積として算出される。

あるいは、照合スコア算出部２４は、MAP推定により各分析区間の話者モデルを生成する場合には、（４）式の代わりに、次式に従って、各話者交替点の候補についての照合スコアを算出してもよい。
ここで、θ_ALLは、音声信号全体を分析区間として求められた話者モデルである、WMである。また、θ_ALLとして、話者認識の分野で用いられる大量話者の音声から学習した不特定話者モデル”Universal Back ground Model(UBM)”が用いられてもよい。そしてP(X_n|θ_ALL)及びP(Y_n|θ_ALL)は、それぞれ、着目する話者交替点の候補よりも前の分析区間から抽出された特徴量ベクトルX_n、着目する話者交替点の候補よりも後の分析区間から抽出された特徴量ベクトルY_nを話者モデルθ_ALLに入力して得られる尤度である。なお、照合スコア算出部２４は、（４）式または（５）式において、log関数を用いず、尤度の比をそのまま照合スコアとしてもよい。

照合スコア算出部２４は、話者交替点の候補ごとの照合スコアを記憶部１４に記憶する。

交替点検出部２５は、話者交替点の候補ごとの照合スコアに基づいて、音声信号中において、その前後で発話している話者の組が交替する時点である話者交替点を検出する。

図５は、照合スコアの遷移の一例を示す図である。図５において横軸は時間を表し、縦軸は照合スコアを表す。そしてグラフ５００は、照合スコアの遷移を表す。この例では、時刻t₀よりも前では、話者'A'と話者'B'が発話しているのに対して、時刻t₀以降では、話者'C'と話者'D'が発話している。すなわち、時刻t₀において、話者の組が交替している。

グラフ５００に示されるように、照合スコアは、時刻t₀において最小値となる。これは、図４に関して説明したように、話者交替点では、照合スコアの算出式における、尤度P(X_n|θ_Yn)及び尤度P(Y_n|θ_Xn)が相対的に小さくなるためである。

そこで、交替点検出部２５は、話者交替点の候補ごとの照合スコアのうちの最小値が、所定の検出閾値以下か否かを判定する。そして照合スコアの最小値が検出閾値以下である場合、交替点検出部２５は、その最小値に対応する話者交替点の候補を、話者交替点とする。なお、検出閾値は、例えば、-4〜-5に設定される。

なお、一つの音声信号において、複数回、話者の組が交替することもある。
図６は、話者の組の交替が複数回行われる場合の照合スコアの遷移の一例を示す図である。図６において、横軸は時間を表し、縦軸は照合スコアを表す。この例では、時刻t₁以前の区間６０１では、話者'A'と話者'B'が発話している。また、時刻t₁と時刻t₂の間の区間６０２では、話者'C'と話者'D'が発話している。そして時刻t₂以降の区間６０３では、話者'E'と話者'F'が発話している。照合スコアの遷移６１０に示されるように、照合スコアは、時刻t₁と時刻t₂において極小値を持つ。

そこで交替点検出部２５は、上記の処理により最初に検出された話者交替点の前後の所定期間（例えば、話者交替点の前後１分間）を除いた期間での照合スコアの最小値を求めてもよい。そして交替点検出部２５は、その最小値が検出閾値以下である場合、その最小値に対応する話者交替点の候補も、話者交替点としてもよい。交替点検出部２５は、検出された話者交替点の前後の所定期間を除いた期間内での照合スコアの最小値が検出閾値よりも高くなるまで、上記の処理を繰り返すことで、複数の話者交替点を検出できる。例えば、図６の例では、照合スコアの極小値のうち、その極小値が照合スコアの最小値である時刻t₁が最初に話者交替点として検出され、時刻t₁の前後に、照合スコアの極小値を検出しない区間６２１が設定される。そして区間６２１以外で、照合スコアが最小値となる時刻t₂が話者交替点として検出される。

処理部１３は、話者交替検出の結果を利用して、音声信号から、その音声信号に録音された会話に参加している何れかの話者の心理状態を推定してもよい。この場合、処理部１３は、同一の話者の組が会話している区間ごとに、例えば、上記の特許文献２または非特許文献１に開示されている話者インデキシング技術を適用して、話者ごとの発話区間を特定する。あるいは、処理部１３は、同一の話者の組が会話している区間のうちの最も長い区間、あるいは、同一の話者の組が会話している区間のうちの最後の区間についてのみ、話者ごとの発話区間を特定してもよい。そして処理部１３は、特定の一人の話者が発声した音声が含まれる音声信号を分析してその話者の心理状態を推定する様々な技術を利用して、何れかの話者の心理状態が正常でない、異常会話か否かを判定できる。あるいは、処理部１３は、特定の一人の話者が発声した音声が含まれる音声信号を分析してその話者の心理状態を推定する様々な技術を利用して、特定内容の通話か否かを判定できる。そのような話者の心理状態を推定する技術として、処理部１３は、例えば、特開２０１３−１５６５２４号公報に開示された技術を利用できる。

図７は、本実施形態による、話者交替検出処理の動作フローチャートである。
特徴量抽出部２１は、複数の話者の会話音声が含まれる音声信号をフレーム単位に分割し、フレームごとに、話者の声の特徴を表す特徴量を抽出する（ステップＳ１０１）。そして特徴量抽出部２１は、各フレームの特徴量を記憶部１４に記憶する。

各フレームから特徴量が得られると、分析区間設定部２２は、音声信号の開始時点から分析区間長だけ経過した時点を最初の話者交替点の候補に設定する（ステップＳ１０２）。そして分析区間設定部２２は、話者交替点の前後に分析区間を設定する（ステップＳ１０３）。モデル化部２３は、各分析区間について、その分析区間に含まれる各フレームの特徴量を記憶部１４から読み込み、その各フレームの特徴量の分布を混合分布でモデル化することで、話者モデルを生成する（ステップＳ１０４）。そしてモデル化部２３は、話者モデルを表すパラメータを照合スコア算出部２４へ渡す。照合スコア算出部２４は、各分析区間に含まれる各フレームの特徴量を記憶部１４から読み込む。そして照合スコア算出部２４は、一方の分析区間の話者モデルに他方の分析区間の各フレームの特徴量を適用し、さらに同一の分析区間の話者モデルに各フレームの特徴量を適用することで照合スコアを算出する（ステップＳ１０５）。照合スコア算出部２４は、話者交替点の候補とともに、照合スコアを記憶部１４に記憶する。

処理部１３は、話者交替点の候補が、音声信号の終了時点より分析区間長だけ前の時点に達しているか否か、すなわち、話者交替点の候補が最後の候補か否か判定する（ステップＳ１０６）。話者交替点の候補が最後の候補でなければ（ステップＳ１０６−Ｎｏ）、分析区間設定部２２は、話者交替点の候補を所定間隔だけ後側へずらした時点を次の話者交替点の候補に設定する（ステップＳ１０７）。その後、処理部１３の各部は、ステップＳ１０３以降の処理を実行する。

一方、話者交替点の候補が最後の候補であれば（ステップＳ１０６−Ｙｅｓ）、交替点検出部２５は、各話者交替点の候補のうち、照合スコアが極小値となり、かつ、検出閾値以下となる話者交替点の候補を話者交替点として検出する（ステップＳ１０８）。そして処理部１３は、話者交替検出処理を終了する。

以上に説明してきたように、この話者交替検出装置は、話者交替点の候補の前後の分析区間のそれぞれについて求めた話者モデルに、他方の分析区間から抽出された特徴量ベクトルを入力することで得られる尤度に基づいて、各候補の照合スコアを算出する。この照合スコアは、話者の組に含まれる話者の数にかかわらず、二つの分析区間のそれぞれにおいて発話している話者の組が異なる場合、話者の組が同一である場合よりも低くなる。そのため、この話者交替検出装置は、照合スコアに基づいて、音声信号中においてその前後で話者の組が交替する時点を正確に検出できる。さらに、この話者交替検出装置は、話者モデルの導出に、話者の数を利用しないので、事前に話者の数が分からない場合でも、話者の組が交替する時点を正確に検出できる。

なお、話者の組の交替が生じていなくても、その話者の組に含まれる何れかの話者が、分析区間においてほとんど発話していない場合がある。

図８は、何れかの分析区間において話者の組に含まれる何れかの話者がほとんど発話していない場合における、分析区間と話者の関係の一例を示す図である。図８において、横軸は時間を表し、縦軸は音声信号の振幅を表す。そして音声信号８００の下に示された記号'A'及び'B'は、それぞれ、その時点で発話している話者を表す。

この例では、話者交替点の候補８０１の前に設定される分析区間８０２では、話者'B'はほとんど発話していない。一方、話者交替点の候補８０１の後に設定される分析区間８０３では、話者'A'は発話していない。そのため、分析区間８０２では、話者'B'の声の特徴が反映されずに話者モデルθ_Xが生成される。同様に、分析区間８０３では、話者'A'の声の特徴が反映されずに話者モデルθ_Yが生成される。そのため、分析区間８０２の話者モデルθ_Xに、分析区間８０３から抽出される特徴量ベクトルYを入力して求められる尤度P(Y|θ_X)は、話者モデルθ_Xに、分析区間８０２から抽出される特徴量ベクトルXを入力して求められる尤度P(X|θ_X)よりも大きく低下する。同様に、尤度P(X|θ_Y)は、尤度P(Y|θ_Y)よりも大きく低下する。そのため、話者交替点の候補８０１における照合スコアは小さな値となり、話者交替点と判断されるおそれがある。

しかし、分析区間８０３を時間的に後の方へ延長すると、その延長された分析区間８０４には、話者'B'だけでなく、話者'A'が発話している区間も含まれるようになる。そのため、延長された分析区間８０４について生成された話者モデルθ'_Yには、話者'A'の声の特徴も含まれる。そのため、話者モデルθ'_Yに、分析区間８０２から抽出される特徴量ベクトルXを入力して求められる尤度P(X|θ'_Y)は、尤度P(X|θ_Y)よりも高くなる。また、延長された分析区間８０４から抽出される特徴量ベクトルY'にも、話者'A'の声についての特徴量も含まれるので、尤度P(Y'|θ_X)は、尤度P(Y|θ_X)よりも高くなる。その結果として、分析区間８０２と分析区間８０４から求められる話者交替点の候補８０１についての照合スコアは、分析区間８０２と分析区間８０３から求められる照合スコアよりも高くなる。

そこで変形例によれば、交替点検出部２５が話者交替点であると判定した話者交替点の候補について、分析区間設定部２２は、少なくとも一方の分析区間を、その話者交替点の候補と反対側へ延長する。そしてモデル化部２３は、延長された分析区間に含まれる各フレームの特徴量を記憶部１４から読み込み、その特徴量に基づいて話者モデルを再生成することで、話者モデルを更新する。そして照合スコア算出部２４は、その話者交替点の候補について、更新された話者モデルと、延長された分析区間から抽出された特徴量ベクトルを用いて照合スコアを再計算することで、照合スコアを更新する。そして交替点検出部２５は、更新された照合スコアが検出閾値以下となる場合、改めてその話者交替点の候補を話者交替点として検出する。一方、更新された照合スコアが検出閾値よりも高くなる場合、交替点検出部２５は、その話者交替点の候補は、話者交替点でないと判定する。

この変形例によれば、ある特定の区間で何れかの話者がほとんど発話していない場合でも、話者交替検出装置は、話者の組の交替を誤検出することを抑制できる。

また他の変形例によれば、モデル化部２３は、各分析区間の話者モデルとして、特徴量のベクトル量子化のコードブックを利用してもよい。この場合には、話者モデルには、例えば、分析区間に含まれる各フレームの特徴量をクラスタリングすることで得られたクラスタごとの特徴量の平均値が含まれる。

この場合、照合スコア算出部２４は、次式に従って、話者交替点の候補ごとの照合スコアを算出する。
ここで、nは、着目する話者交替点の候補のインデックスを表す。またベクトルX_nは、着目する話者交替点の候補よりも前の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。同様に、ベクトルY_nは、着目する話者交替点の候補よりも後の分析区間から抽出された各フレームの特徴量を時系列に並べた特徴量ベクトルである。またθ_Xnは、着目する話者交替点の候補よりも前の分析区間についてコードブックとして求められた話者モデルである。同様に、またθ_Ynは、着目する話者交替点の候補よりも後の分析区間についてコードブックとして求められた話者モデルである。そしてD(a|b)は、話者モデルであるコードブックbに対する特徴量ベクトルaの平均量子化歪である。平均量子化歪D(a|b)は、例えば、特徴量ベクトルaに含まれる各特徴量から、話者モデルであるコードブックに含まれる各クラスタの特徴量の平均値のうちの最も近いものまでの距離の平均値として算出される。

あるいは、照合スコア算出部２４は、（６）式の代わりに、次式に従って、話者交替点の候補ごとの照合スコアを算出してもよい。
ここで、θ_ALLは、音声信号全体を含む分析区間についてのコードブックとして求められた話者モデルである。そしてD(X_n|θ_ALL)及びD(Y_n|θ_ALL)は、それぞれ、話者モデルθ_ALLに対する、着目する話者交替点の候補よりも前の分析区間から抽出された特徴量ベクトルX_n、着目する話者交替点の候補よりも後の分析区間から抽出された特徴量ベクトルY_nの平均量子化歪である。なお、照合スコア算出部２４は、（７）式または（８）式で得られた照合スコアを正規化して得られる値を、照合スコアとして算出してもよい。

この変形例によれば、話者交替検出装置は、話者モデルの生成及び照合スコアの算出に要する演算量を削減できる。

さらに他の変形例によれば、モデル化部２３は、分析区間のフレームを所定の間引き率で間引き、残ったフレームから抽出された特徴量を話者モデルの生成に利用してもよい。また、照合スコア算出部２４は、各分析区間について、間引きの結果として残ったフレームの特徴量を特徴量ベクトルとして、照合スコアの算出に利用してもよい。この場合、照合スコア算出部２４は、話者モデルの生成に利用したフレームの特徴量を照合スコアの算出に利用してもよい。あるいは、照合スコア算出部２４は、話者モデルの生成の際に利用されたフレームとは異なるフレームから抽出された特徴量を話者モデルに適用する特徴量として、照合スコアを算出してもよい。またこの変形例において、特徴量抽出部２１は、話者モデルの生成または照合スコアの算出に利用するフレームについてのみ、特徴量を抽出してもよい。

図９は、間引き率と照合スコアの関係を示す図である。図９において、横軸は時間を表し、縦軸は照合スコアを表す。この例では、時刻t₁と時刻t₂が話者交替点である。グラフ９００は、フレームを間引かない場合の照合スコアを表す。またグラフ９０１は、間引き率が1/2の場合、すなわち、二つのフレームごとに一つのフレームの特徴量が話者モデルの生成及び照合スコアの算出に利用される場合の照合スコアを表す。さらに、グラフ９０２は、間引き率が1/4の場合、すなわち、４個のフレームごとに一つのフレームの特徴量が話者モデルの生成及び照合スコアの算出に利用される場合の照合スコアを表す。そしてグラフ９０３は、間引き率が1/8の場合、すなわち、８個のフレームごとに一つのフレームの特徴量が話者モデルの生成及び照合スコアの算出に利用される場合の照合スコアを表す。なお、この例では、（４）式に従って照合スコアは算出されている。

グラフ９００〜グラフ９０３に示されるように、間引かれても、話者交替点にて照合スコアは極小値を取ることが分かる。ただし、フレームが間引かれるほど、全体的に照合スコアは小さくなる。これは、フレームが間引かれるほど、話者モデルの精度が低下すること、及び、分析区間内に含まれる、代表的でない特徴量が話者モデルを表す混合分布に入力されることで求められる確率の照合スコアへの影響が相対的に大きくなるためである。

図９に示されるように、フレームが間引かれるほど照合スコアは低下する。そこで、交替点検出部２５が話者の組の交替が行われたか否かの判定に利用する検出閾値も、フレームが間引かれるほど小さな値に設定される。例えば、検出閾値Thmは、次式に従って決定される。
ここで、mは、間引きにより一つのフレームが代表するフレームの数に相当するステップ数、すなわち、間引き率の逆数である。またTh1は、フレームが間引かれない場合（m=1）における検出閾値である。aは正の値を持つ係数である。そしてThmは、間引き率が(1/m)のときの検出閾値である。

この変形例によれば、話者交替検出装置は、話者モデルの生成及び照合スコアの算出に要する演算量を削減できる。なお、話者交替検出装置は、話者モデルの際にはフレームを間引かず、照合スコアの算出の際に、分析区間内のフレームを間引いてもよい。この場合には、交替点検出部２５は、ステップ数が1のときの検出閾値を用いればよい。

また上記の実施形態または変形例による話者交替検出装置は、サーバクライアント型のシステムに実装されてもよい。
図１０は、上記の実施形態またはその変形例による話者交替検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム１００は、端末１１０とサーバ１２０とを有し、端末１１０とサーバ１２０とは、通信ネットワーク１３０を介して互いに通信可能となっている。なお、サーバクライアントシステム１００が有する端末１１０は複数存在してもよい。同様に、サーバクライアントシステム１００が有するサーバ１２０は複数存在してもよい。

端末１１０は、音声入力部１１１と、記憶部１１２と、通信部１１３と、制御部１１４とを有する。音声入力部１１１、記憶部１１２及び通信部１１３は、例えば、制御部１１４とバスを介して接続されている。

音声入力部１１１は、例えば、オーディオインターフェースとＡ／Ｄコンバータを有する。そして音声入力部１１１は、例えば、電話回線から、会話を含む、アナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部１１１は、デジタル化された音声信号を制御部１１４へ出力する。

記憶部１１２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１１２は、端末１１０を制御するためのコンピュータプログラム、端末１１０の識別情報、話者交替検出処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。

通信部１１３は、端末１１０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１１３は、制御部１１４から受け取った各フレームの特徴量を、端末１１０の識別情報とともに通信ネットワーク１３０を介してサーバ１２０へ送信する。

制御部１１４は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部１１４は、上記の実施形態または変形例による処理部の各機能のうち、特徴量抽出部２１の機能を実現する。すなわち、制御部１１４は、音声信号をフレーム単位に分割し、各フレームから話者の声の特徴を表す特徴量を抽出する。そして制御部１１４は、フレームごとの特徴量を、端末１１０の識別情報とともに、通信部１１３及び通信ネットワーク１３０を介してサーバ１２０へ送信する。

サーバ１２０は、通信部１２１と、記憶部１２２と、処理部１２３とを有する。通信部１２１及び記憶部１２２は、処理部１２３とバスを介して接続されている。

通信部１２１は、サーバ１２０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１２１は、フレームごとの特徴量と端末１１０の識別情報とを端末１１０から通信ネットワーク１３０を介して受信して処理部１２３に渡す。

記憶部１２２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１２２は、サーバ１２０を制御するためのコンピュータプログラムなどを記憶する。また記憶部１２２は、話者交替検出処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴量を記憶していてもよい。

処理部１２３は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部１２３は、上記の実施形態または変形例による話者交替検出装置の処理部の各機能のうち、特徴量抽出部２１以外の各部の機能を実現する。すなわち、処理部１２３は、端末１１０から受信した、フレームごとの特徴量から、音声信号中の話者交替点を検出する。さらに、処理部１２３は、同一の話者の組が会話している区間に話者インデキシング技術を適用して、各フレームに話者の識別情報を付与してもよい。そして処理部１２３は、例えば、フレームごとに付された話者の識別情報を利用して、特定の話者が発話したフレームを抽出する。そして処理部１２３は、その話者の心理状態を、抽出したフレームから、音声信号から話者の心理状態を推定する方法に基づいてその特定の話者の心理状態を推定してもよい。処理部１２３は、例えば、特定の話者の心理状態が異常である場合、振り込め詐欺誘引通話などの異常会話が行われていると判定し、端末１１０の識別情報とともに異常会話が行われていることを、通信部１２１を介して警備システム（図示せず）へ通報してもよい。これにより、警備システムの運用者は、端末１１０のユーザをサポートすることができる。

この実施形態によれば、個々の端末１１０は、会話を録音した音声信号からフレームごとの特徴量を抽出してサーバ１２０へ送信するだけでよい。
なお、端末１１０は、音声信号そのものをサーバ１２０へ送信してもよい。この場合には、サーバ１２０の処理部１２３が、上記の実施形態または変形例による話者交替検出装置の処理部の各機能を実現する。

上記の各実施形態または変形例による話者交替検出装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１話者交替検出装置
１１インターフェース部
１２Ａ／Ｄコンバータ
１３処理部
１４記憶部
２１特徴量抽出部
２２分析区間設定部
２３モデル化部
２４照合スコア算出部
２５交替点検出部
１００サーバクライアントシステム
１１０端末
１１１音声入力部
１１２記憶部
１１３通信部
１１４制御部
１２０サーバ
１２１通信部
１２２記憶部
１２３処理部
１３０通信ネットワーク

Claims

複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出する特徴量抽出部と、
前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第１の分析区間を設定し、かつ、当該時点よりも後に第２の分析区間を設定する分析区間設定部と、
前記複数の時点のそれぞれについて、前記第１の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第１の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第１の話者モデルを生成し、かつ、前記第２の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第２の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第２の話者モデルを生成するモデル化部と、
前記複数の時点のそれぞれについて、前記第１の話者モデルに前記第２の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第２の話者モデルに前記第１の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第１の分析区間についての前記話者の組と前記第２の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出する照合スコア算出部と、
前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する交替点検出部と、
を有する話者交替検出装置。
前記交替点検出部は、前記複数の時点のそれぞれについての前記照合スコアのうち、前記照合スコアの時間変化においての極小値が所定の検出閾値以下となる場合、当該極小値に対応する時点を前記話者交替点とする、請求項１に記載の話者交替検出装置。
前記複数の時点のそれぞれについての前記照合スコアのうち、前記照合スコアの時間変化においての極小値が所定の検出閾値以下となる場合、前記分析区間設定部は、前記極小値に対応する第１の時点についての前記第１の分析区間及び前記第２の分析区間のうちの少なくとも一方を、前記第１の時点から離れる方向へ延長し、
前記モデル化部は、前記第１の時点についての前記第１の分析区間及び前記第２の分析区間のうちの延長された分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第１の話者モデル及び前記第２の話者モデルのうち、当該延長された分析区間に対応する話者モデルを更新し、
前記照合スコア算出部は、前記第１の時点についての前記第１の分析区間及び前記第２の分析区間のうちの前記延長された分析区間に含まれる複数のフレームの前記特徴量を、前記第１の分析区間及び前記第２の分析区間のうちの他方の分析区間についての前記話者モデルに適用し、かつ、前記他方の分析区間に含まれる複数のフレームの前記特徴量を、前記更新された話者モデルに適用することで前記照合スコアを更新し、
前記交替点検出部は、前記更新された照合スコアが前記所定の検出閾値以下となる場合、前記第１の時点を前記話者交替点とする、請求項１に記載の話者交替検出装置。
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出し、
前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第１の分析区間を設定し、かつ、当該時点よりも後に第２の分析区間を設定し、
前記複数の時点のそれぞれについて、前記第１の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第１の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第１の話者モデルを生成し、かつ、前記第２の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第２の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第２の話者モデルを生成し、
前記複数の時点のそれぞれについて、前記第１の話者モデルに前記第２の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第２の話者モデルに前記第１の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第１の分析区間についての前記話者の組と前記第２の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出し、
前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する、
ことを含む話者交替検出方法。
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す特徴量を抽出し、
前記音声信号中の異なる複数の時点のそれぞれについて、当該時点よりも前に第１の分析区間を設定し、かつ、当該時点よりも後に第２の分析区間を設定し、
前記複数の時点のそれぞれについて、前記第１の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第１の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第１の話者モデルを生成し、かつ、前記第２の分析区間に含まれる複数のフレームの前記特徴量の分布に基づいて、前記第２の分析区間中に発話する少なくとも二人の話者の組の声の特徴を表す第２の話者モデルを生成し、
前記複数の時点のそれぞれについて、前記第１の話者モデルに前記第２の分析区間に含まれる複数のフレームの前記特徴量を適用し、かつ、前記第２の話者モデルに前記第１の分析区間に含まれる複数のフレームの前記特徴量を適用して、前記第１の分析区間についての前記話者の組と前記第２の分析区間についての前記話者の組の特徴が類似している確度を表す照合スコアを算出し、
前記複数の時点のそれぞれについての前記照合スコアに応じて、前記音声信号中において前後で発話している話者の組が交替する話者交替点を検出する、
ことをコンピュータに実行させるための話者交替検出用コンピュータプログラム。