JP2015082093A

JP2015082093A - 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム

Info

Publication number: JP2015082093A
Application number: JP2013221466A
Authority: JP
Inventors: 昭二早川; Shoji Hayakawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2015-04-27
Anticipated expiration: 2033-10-24
Also published as: JP6268916B2

Abstract

【課題】複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定可能な異常会話検出装置を提供する。
【解決手段】異常会話検出装置１は、複数の話者の会話を含む音声信号を入力する音声入力部１１と、記憶部１４と、音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、その少なくとも二つの特徴量の組を記憶部１４に保存する特徴量抽出部２２と、記憶部１４に記憶された特徴量の分布を話者の数と同じ数の確率分布でフィッティングするフィッティング部２３と、話者の数と同じ数の確率分布が特徴量の分布を近似できているか否か判定し、話者の数と同じ数の確率分布が特徴量の分布を近似できていない場合、会話は異常会話であると判定する判定部２４とを有する。
【選択図】図３

Description

本発明は、例えば、複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定する異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラムに関する。

近年、電話回線を用いて行われる、金銭を騙し取ることを目的とした詐欺行為及び悪質な勧誘行為が社会的な問題となっている。そこで、電話回線を介した通話中の音声に基づいて、話者の心理状態を推定する技術が提案されている（例えば、特許文献１及び２を参照）。

例えば、特許文献１に開示された発話状態検出装置は、発話者の発話データを周波数解析した結果から高周波数成分を抽出し、その高周波数成分についての単位時間ごとの変動度合いを算出する。そしてこの発話状態検出装置は、特定発話者の発話データから得られた、所定期間における複数の変動度合いに基づいて算出される所定区間ごとの統計量に基づいて、特定発話者の発話状態を検出する。

また、特許文献２に開示された抑圧状態検出装置は、入力された音声を複数のフレームごとに解析し、その解析結果の平均値を算出する。抑圧状態検出装置は、予め記憶された複数話者ごとの解析結果の平均値及び解析結果の累積頻度分布に関する統計データと、算出した解析結果の平均値とに基づいて閾値を決定し、複数の解析結果のうち閾値よりも大きな値を有する解析結果の出現頻度を演算する。そして抑圧状態検出装置は、その出現頻度に基づいて音声を発する声帯の緊張状態を判定する。

これらの技術では、送話側の話者の音声と、受話側の話者の音声とが別々に得られることが前提となっている。送話側の話者の音声と、受話側の話者の音声とを別々に取得するためには、例えば、電話機本体とハンドセットとの間に通話録音アダプタを接続する。そして、状態推定装置は、そのアダプタから送話側の音声信号と受話側の音声信号をそれぞれ取得して、話者の状態を推定する。この場合、通話録音アダプタから取得できる音声信号は、その通話録音アダプタが接続された電話機を用いた通話の音声信号に限られる。そのため、一つの電話回線に複数の電話機が接続されており、そのうちの一つの電話機にのみ通話録音アダプタが接続されていると、状態推定装置は、他の電話機を用いた通話から話者の状態を推定することはできない。一方、モジュラーローゼットと分配器の間に通話録音アダプタを接続し、状態推定装置がその通話録音アダプタから音声信号を取得すれば、分配器に複数の電話機が接続されていても、何れの電話機の通話の音声信号を取得することができる。しかし、この場合には、通話録音アダプタから得られる音声信号は、送話側の話者の音声と受話側の話者の音声とが混ざったものとなる。そのため、このような音声信号に対して、送話側の話者の音声と、受話側の話者の音声とが別々に得られることが前提となっている上記の技術を適用しても、十分な推定精度を得ることは困難である。これは、一方の話者の音声に他方の話者の音声が重畳されるため、一方の話者の状態を推定するための音声の特徴量に、他方の話者の音声の特徴も含まれてしまうことによる。一方、正弦波重畳モデルのパラメータを推定することで、二つの音源からの音を分離する技術が提案されている（例えば、特許文献３を参照）。

特開２０１１−２４２７５５号公報特開２０１２−１６８２９６号公報特開２００８−３０４７１８号公報

特許文献３に記載の技術では、正弦波モデルに雑音を表す項が含まれていない。しかしながら、実際の通話では、話者の周囲にある音源から発せられた雑音が話者の声に重畳されるので、特許文献３に記載の技術は、実際の通話を録音した音声信号から、それぞれの話者の音声を正確に分離できないおそれがある。

そこで本明細書は、一つの側面では、複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定可能な異常会話検出装置を提供することを目的とする。

一つの実施形態によれば、異常会話検出装置が提供される。この異常会話検出装置は、複数の話者の会話を含む音声信号を入力する音声入力部と、記憶部と、音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、その少なくとも二つの特徴量の組を記憶部に保存する特徴量抽出部と、記憶部に記憶された特徴量の分布を話者の数と同じ数の確率分布でフィッティングするフィッティング部と、話者の数と同じ数の確率分布が特徴量の分布を近似できているか否か判定し、話者の数と同じ数の確率分布が特徴量の分布を近似できていない場合、会話は異常会話であると判定する判定部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された異常会話検出装置は、複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定できる。

一つの実施形態による異常会話検出装置を電話回線に接続する位置の一例を示す図である。第１の実施形態による異常会話検出装置の概略構成図である。異常会話検出装置が有する処理部の機能ブロック図である。（ａ）は、二人の話者の会話が通常会話のときの音声の特徴量の分布の一例を示す図であり、（ｂ）は、二人の話者の会話が異常会話のときの音声の特徴量の分布の一例を示す図である。第１の実施形態による異常会話検出処理の動作フローチャートである。第２の実施形態による処理部の機能ブロック図である。第２の実施形態による異常会話検出処理の動作フローチャートである。何れかの実施形態またはその変形例による異常会話検出装置が実装された携帯電話機の概略構成図である。何れかの実施形態またはその変形例による異常会話検出装置が実装されたサーバクライアントシステムの概略構成図である。

以下、図を参照しつつ、異常会話検出装置について説明する。
発明者は、話者が平常状態で話しているときの話者の声を含む音声信号をフレーム単位で分割し、各フレームから人の声の特徴を表す２以上の特徴量を抽出すると、一人の話者声の特徴量の分布は正規分布といった一つの確率分布で近似できることを見出した。さらに、発明者は、話者の心理状態が平常でなくなり、話者の声にその心理状態が反映されるようになると、一人の話者の声の特徴量の分布は、一つの確率分布で近似できなくなることを見出した。

そこでこの異常会話検出装置は、複数の話者の会話が録音された音声信号をフレーム単位で分割し、各フレームから、人の声の特徴を表す２以上の特徴量を抽出する。そしてこの異常会話検出装置は、その特徴量の分布が話者の数と同じ数の確率分布で近似できる場合には、各話者は平常状態にある、通常の会話が行われていると判定する。一方、その特徴量の分布が話者の数と同じ数の確率分布で近似できない場合には、異常会話検出装置は、会話が異常会話であると判定する。
なお、異常会話とは、会話に参加している複数の話者のうち、少なくとも何れか一人の話者の心理状態が異常な状態で行われている会話である。また、話者の心理状態が異常な状態とは、話者が平静を保つことができないような状態であり、例えば、怒ったり、怯えたり、泣いたりといった行動をとる状態である。

第１の実施形態では、異常会話検出装置は、電話回線を利用した二人の話者間の通話を録音した音声信号に基づいて、会話が異常会話か否かを判定する。しかし、異常会話検出装置は、携帯電話機、ＴＶ会議システム、あるいは、ボイスレコーダにより録音された、二人の話者の会話を含む音声信号に基づいて、会話が異常会話か否かを判定してもよい。

図１は、一つの実施形態による異常会話検出装置を電話回線に接続する位置の一例を示す図である。この例では、説明の便宜上、異常会話検出装置が取り付けられる側を送話側とし、電話回線を介して送話側との通話の相手側を受話側とする。本実施形態では、異常会話検出装置１は、二つの電話機２−１、２−２が接続された分配器３と、モジュラーローゼット４との間に接続された通話録音アダプタ５から音声信号を取得する。そのため、送話側の話者が、電話機２−１、２−２のうちの何れの電話機を使用する場合でも、送話側の話者の音声を含む音声信号は、通話録音アダプタ５を通過する。また、受話側の話者の音声を含む音声信号は、電話回線６からモジュラーローゼット４及び通話録音アダプタ５を介して何れかの電話機へ送信される。そのため、通話録音アダプタ５から異常会話検出装置１へ出力される音声信号は、送話側の話者の音声と受話側の話者の音声が混じったアナログ信号となる。

図２は、第１の実施形態による異常会話検出装置の概略構成図である。異常会話検出装置１は、インターフェース部１１と、アナログ／デジタルコンバータ１２と、処理部１３と、記憶部１４と、デジタル／アナログコンバータ１５と、スピーカ１６とを有する。

インターフェース部１１は、音声入力部の一例であり、オーディオインターフェースを有する。そしてインターフェース部１１は、通話録音アダプタ５からアナログ信号である音声信号を取得し、その音声信号をアナログ／デジタルコンバータ１２（以下、Ａ／Ｄコンバータと表記する）へ出力する。Ａ／Ｄコンバータ１２は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてＡ／Ｄコンバータ１２は、デジタル化された音声信号を処理部１３へ出力する。

処理部１３は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部１３は、デジタル化された音声信号に基づいて、会話が異常会話か否か判定する。なお、処理部１３による処理の詳細は後述する。

記憶部１４は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部１４は、処理部１３上で実行される異常会話検出処理で利用される各種のデータ及び異常会話検出処理の途中で生成される各種のデータを記憶する。また記憶部１４は、処理部１３が、会話が異常会話であると判定したときにスピーカ１６から出力される警告音声信号を記憶する。

デジタル／アナログコンバータ１５（以下、Ｄ／Ａコンバータと表記する）は、処理部１３が、会話が異常会話であると判定したときに、処理部１３から出力される警告音声信号をアナログ化してスピーカ１６へ出力する。スピーカ１６は、アナログ化された警告音声信号を再生する。

図３は、処理部１３の機能ブロック図である。処理部１３は、スペクトル算出部２１と、特徴量抽出部２２と、フィッティング部２３と、判定部２４と、警告部２５とを有する。
処理部１３が有するこれらの各部は、例えば、処理部１３が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。

スペクトル算出部２１は、デジタル化された音声信号（以下では、単に音声信号と呼ぶ）を所定長を持つフレームごとに分割する。フレーム長は、例えば、32msecに設定される。なお、スペクトル算出部２１は、連続する二つのフレームの一部を重複させてもよい。この場合、スペクトル算出部２１は、現在のフレームから次のフレームへ移動する際に、新たにフレームに取り入れられるフレームシフト量を、例えば、10msec〜16msecに設定してもよい。

スペクトル算出部２１は、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。スペクトル算出部２１は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)または修正離散コサイン変換（Modified Discrete Cosign Transform, MDCT）を用いることができる。なお、スペクトル算出部２１は、各フレームに、ハミング窓またはハニング窓といった窓関数を乗じたのちに時間周波数変換を行ってもよい。
例えば、フレーム長が32msecであり、Ａ／Ｄコンバータ１２のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれるので、スペクトル算出部２１は、256点のFFTを実行する。

スペクトル算出部２１は、フレームのスペクトル信号が得られる度に、そのスペクトル信号を特徴量抽出部２２へ出力する。

特徴量抽出部２２は、フレームごとに、そのフレームのスペクトル信号から、人の声の特徴を表す２以上の特徴量を抽出する。本実施形態では、特徴量抽出部２２は、人の声の特徴を表す特徴量として、人の声が含まれる周波数帯域のパワーの積算値とピッチ周波数を抽出する。

特徴量抽出部２２は、フレームごとに、例えば、次式に従って、人の声が含まれる周波数帯域のパワーの積算値を算出する。
ここでS(f)は、周波数fにおけるスペクトル信号であり、|S(f)|²は、周波数fにおけるパワースペクトルである。またfmin、fmaxは、それぞれ、人の声が含まれる周波数帯域の下限及び上限を表す。そしてPはパワーの積算値である。また特徴量抽出部２２は、フレームの時間周波数変換を実行せずにフレームごとのサンプル点の二乗和からパワーの積算値を直接求めてもよい。

また、特徴量抽出部２２は、ピッチ周波数を算出するために、各フレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値（ただし、時間差0のピーク値を除く）を求める。人の有声音に相当するフレームについては、比較的自己相関の度合いが高いのに対し、無声音または背景雑音に相当するフレームの自己相関の度合いは低い。そこで特徴量抽出部２２は、そのピーク値の最大値を所定の閾値と比較し、最大値が所定の閾値よりも大きい場合、そのフレームには話者の有声音が含まれると判定する。そして特徴量抽出部２２は、そのピーク値の最大値に相当する時間差の逆数をピッチ周波数とする。なお、自己相関関数は、各周波数のパワースペクトルを逆フーリエ変換することにより求められる。また、変形自己相関関数は、パワースペクトルに対して線形予測符号化フィルタを用いてフィルタリングしたものを逆フーリエ変換することにより求められる。なお、特徴量抽出部２２は、フレームをフーリエ変換せずに、フレームごとのサンプル点を用いて自己相関関数を求めることにより、ピッチ周波数を時間領域のフレームから直接求めることもできる。上記のように、特徴量抽出部２２がスペクトル信号を用いずに、時間領域のフレームの各サンプル点の信号値から直接特徴量を算出する場合、スペクトル算出部２１は省略されてもよい。

特徴量抽出部２２は、フレームごとのピッチ周波数及びパワーの積算値の組を、特徴量の組として記憶部１４に保存する。

なお、特徴量抽出部２２は、ピッチ周波数を所定値で割ることにより得られる正規化ピッチ周波数を特徴量としてもよい。同様に、特徴量抽出部２２は、パワー積算値を所定値で割ることにより得られる正規化パワー積算値を特徴量としてもよい。また、特徴量抽出部２２は、パワー積算値を、フレームに含まれる雑音成分を表す雑音判定閾値Thnと比較して、パワー積算値が雑音判定閾値Thnよりも大きい場合にのみ、パワー積算値及びピッチ周波数の組を記憶部１４に保存してもよい。これにより、どの話者も発声していない時のフレームから抽出された特徴量の組が、後述する確率分布による特徴量の分布のフィッティングに使用されなくなるので、処理部１３は、より正確に会話が異常会話か否かを判定できる。

また、雑音判定閾値Thnは、通話音声の背景雑音レベルに応じて適応的に設定されることが好ましい。そこで特徴量抽出部２２は、送話側の話者と受話側の話者の両方とも発声していないフレームを、背景雑音のみが含まれる無音フレームと判定する。例えば、特徴量抽出部２２は、フレームの周波数帯域全体のパワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを無音フレームと判定する。そして特徴量抽出部２２は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、特徴量抽出部２２は、次式に従って背景雑音レベルを推定する。
ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。
ここで、γは、あらかじめ設定される定数であり、例えば、2〜3[dB]に設定される。

フィッティング部２３は、記憶部１４に記憶されている特徴量の組の数が特徴量の分布を確率分布でフィッティングするのに十分な所定数（例えば、100〜1000）に達したか否か判定する。そしてフィッティング部２３は、特徴量の組の数がその所定数に達すると、特徴量の分布を、話者の数と同じ数の確率分布を含む混合分布でフィッティングする。本実施形態では、混合分布として、ピッチ周波数とパワー積算値をそれぞれ一つの次元とする、２次元の２混合ガウス分布を用いる。２混合ガウス分布は、混合正規分布の一つである。

そしてフィッティング部２３は、各フレームから得られたピッチ周波数とパワー積算値の組をそれぞれ学習サンプルとして、２混合ガウス分布に含まれる各ガウス分布を表す複数のパラメータを最尤推定する。そのために、例えば、フィッティング部２３は、EMアルゴリズム（期待値最大化法とも呼ばれる）を用いる。例えば、フィッティング部２３は、２混合ガウス分布に含まれるガウス分布のそれぞれについて、各学習サンプルがそのガウス分布により生成された確率である重み係数、平均値ベクトル（すなわち、各特徴量の平均値の組）及び共分散行列の最尤推定値を求める。

なお、フィッティング部２３は、特徴量の分布のフィッティングに用いる確率分布として、対数正規分布を用いてもよい。この場合にも、フィッティング部２３は、EMアルゴリズムを用いて、混合対数正規分布に含まれる、話者の数と同じ数の対数正規分布のそれぞれについての重み係数、平均値ベクトル及び共分散行列の最尤推定値を求める。
また、フィッティング部２３は、特徴量の分布をフィッティングする確率分布を求めるために利用するアルゴリズムとして、EMアルゴリズムの代わりに、マルコフ連鎖モンテカルロ法またはシミュレーティッドアニーリングを利用してもよい。

フィッティング部２３は、特徴量の分布をフィッティングした各確率分布の重み係数、平均ベクトル及び共分散行列の最尤推定値を判定部２４へ通知する。

判定部２４は、特徴量の分布をフィッティングした話者の数と同数の確率分布が、その特徴量の分布に適合している度合いを表す適合度を算出する。そして判定部２４は、その適合度が適合判定閾値以上であれば、話者の数と同じ数の確率分布で特徴量の分布を近似できているので、会話は通常会話であると判定する。一方、適合度が適合判定閾値未満であれば、話者の数と同じ数の確率分布で特徴量の分布を近似できていないので、判定部２４は、会話は異常会話であると判定する。

図４（ａ）は、二人の話者が平常状態で会話しているときの音声の特徴量の分布の一例を示す図である。一方、図４（ｂ）は、二人の話者のうちの少なくとも一方が異常な心理状態で会話しているときの音声の特徴量の分布の一例を示す図である。
図４（ａ）及び図４（ｂ）において、横軸はパワーの積算値を表し、縦軸はピッチ周波数を表す。また各点４００は、それぞれ、一つの特徴量の組を表す。図４（ａ）に示されるように、二人の話者が平常状態で会話しているとき、すなわち、その会話が通常会話である場合、楕円４０１及び楕円４０２で示される、特徴量の分布をフィッティングした二つの正規分布によって特徴量の分布が比較的良好に近似されている。そのため、適合度も高くなる。

一方、二人の話者の少なくとも一方の心理状態が平常でなくなり、会話が異常会話になると、各話者が声を荒げるなどするので、声の特徴が通常のときから変化してしまい、特徴量の分布がばらつく。その結果として、楕円４０３及び楕円４０４で示される特徴量の分布をフィッティングした二つの正規分布は、特徴量の分布をうまく近似できていない。そのため、適合度も低くなる。

本実施形態では、判定部２４は、適合度として、２次元ベクトル系列に対する平均対数尤度を次式に従って算出する。
ここで、P(x_n|Ω)は、確率分布のパラメータΩから、n番目の２次元ベクトルx_n（本実施形態では、個々の学習サンプルに相当）が出力される確率を表す。またNは、学習サンプルの総数を表す。w_i(i=1,2)は、各ガウス分布の重み係数の最尤推定値を表す。μ_iは、各ガウス分布の平均値ベクトル（すなわち、各特徴量の平均値の組）の最尤推定値を表す。そしてΣiは、各ガウス分布の共分散行列を表す。

判定部２４は、平均対数尤度を適合判定閾値Thfと比較する。そして判定部２４は、平均対数尤度が適合判定閾値Thf以上であれば、会話は通常会話であると判定する。なお、適合判定閾値Thfは、特徴分布が話者の数と同じ数の確率分布で近似できているとみなせるときの平均対数尤度の下限値であり、例えば、予め実験的にされる。一方、平均対数尤度が適合判定閾値Thf未満であれば、判定部２４は、会話は異常会話であると判定する。そして判定部２４は、警告部２５に、会話が異常会話であることを通知する。

警告部２５は、判定部２４から会話が異常会話であるとの判定結果を通知されると、記憶部１４から警告音声信号を読み込む。そして警告部２５は、その警告音声信号を、Ｄ／Ａコンバータ１５を介してスピーカ１６へ出力する。

なお、異常会話検出装置１は、警告用の光源を有していてもよい。この場合には、警告部２５は、会話が異常会話であると判定した場合、その光源を点灯または明滅させることで、送話側の話者へ警告してもよい。

図５は、異常会話検出処理の動作フローチャートである。処理部１３は、通話ごとに以下の動作フローチャートに従って異常会話検出処理を実行する。なお、初期化処理として、処理部１３は、記憶部１４に記憶されているピッチ周波数及びパワー積算値を消去する。

スペクトル算出部２１は、音声信号から切り出した最新のフレームである現フレームを時間周波数変換することで、現フレームのスペクトル信号を算出する（ステップＳ１０１）。スペクトル算出部２１は、現フレームのスペクトル信号を特徴量抽出部２２へ出力する。

特徴量抽出部２２は、現フレームのスペクトル信号に基づいて、パワーの積算値及びピッチ周波数といった、人の声の特徴を表す２以上の特徴量を抽出する（ステップＳ１０２）。そして特徴量抽出部２２は、抽出した特徴量の組を記憶部１４に保存する。

フィッティング部２３は、記憶部１４に保存されている特徴量の組の数が所定数に達したか否か判定する（ステップＳ１０３）。特徴量の組の数が所定数に達していなければ（ステップＳ１０３−Ｎｏ）、処理部１３は、次フレームを現フレームに設定する（ステップＳ１０４）。そして処理部１３は、ステップＳ１０１以降の処理を繰り返す。

一方、記憶部１４に保存されている特徴量の組の数が所定数に達していれば（ステップＳ１０３−Ｙｅｓ）、フィッティング部２３は、特徴量の分布を、話者の数と同じ数の確率分布を含む混合分布でフィッティングする（ステップＳ１０５）。そしてフィッティング部２３は、特徴量の分布をフィッティングした確率分布を表す各パラメータ（例えば、混合分布に含まれる各正規分布の重み係数、平均値ベクトル及び共分散行列）の最尤推定値を判定部２４へ通知する。

判定部２４は、特徴量の分布をフィッティングした確率分布の適合度を算出する（ステップＳ１０６）。そして判定部２４は、その適合度が適合判定閾値Thf以上か否か判定する（ステップＳ１０７）。適合度が適合判定閾値Thf以上である場合（ステップＳ１０７−Ｙｅｓ）、判定部２４は、各確率分布は、特徴量の分布を近似できていると判定する。すなわち、判定部２４は、会話は通常会話であると判定する（ステップＳ１０８）。

一方、適合度が適合判定閾値Thf未満である場合（ステップＳ１０７−Ｎｏ）、判定部２４は、各確率分布は、特徴量の分布を近似できていないと判定する。すなわち、判定部２４は、会話は異常会話であると判定する（ステップＳ１０９）。そして判定部２４は、会話が異常会話であることを警告部２５に通知する。警告部２５は、送話側の話者に警告を発する（ステップＳ１１０）。
ステップＳ１０８またはＳ１１０の後、処理部１３は、異常会話検出処理を終了する。

表１は、特開２０１３−０１１８３０号公報に開示された従来技術及び本実施形態による、話者が異常状態にあるか否かの判定の実験結果を示す図である。この実験では、２５名の話者の何れか２名による会話が録音された１００個の音声信号を用いた。

表１に示されるように、従来技術では、異常会話、通常会話とも、正答率が４７％であったのに対して、本実施形態では、異常会話及び通常会話についての正答率が、それぞれ、７０％、６９％となった。このように、本実施形態による異常会話検出装置は、従来技術よりも正確に異常会話を検出できることが示された。

以上に説明してきたように、この異常会話検出装置は、複数の話者の声が含まれる音声信号から抽出された２種類以上の特徴量の分布を話者の数と同じ数の確率分布で近似できたか否かにより、会話が異常会話か否かを判定する。そのため、この異常会話検出装置は、音声信号に複数の話者の声が含まれていても、会話が異常か否かを判定できる。

なお、話者の数が３人以上であり、かつ予め分かっている場合には、フィッティング部２３は、その話者の数だけの確率分布を含む混合分布で特徴量の分布をフィッティングすればよい。

次に、第２の実施形態による異常会話検出装置について説明する。第２の実施形態による異常会話検出装置は、二人以上の不特定の数の話者の会話を含む音声信号に基づいて、会話が異常会話か否か判定する。

図６は、第２の実施形態による異常会話検出装置の処理部の機能ブロック図である。処理部１３’は、スペクトル算出部２１と、特徴量抽出部２２と、フィッティング部２３と、判定部２４と、警告部２５と、話者数推定部２６とを有する。第２の実施形態による処理部１３’は、図３に示された第１の実施形態による処理部１３と比較して、話者数推定部２６を有する点と、フィッティング部２３及び判定部２４の処理が異なる。そこで以下では、話者数推定部２６、フィッティング部２３及び判定部２４について説明する。異常会話検出装置のその他の構成要素については、第１の実施形態による異常会話検出装置の対応する構成要素の説明を参照されたい。

話者数推定部２６は、会話に参加している話者の数を推定する。例えば、話者数推定部２６は、Daben Liu他、「ONLINE SPEAKER CLUSTERING」、in Proceedings of ICASSP2004、vol. I、pp.333-336、2004年に開示されているように、各フレームから抽出された特徴量の組を、遺伝的アルゴリズムなどを利用してクラスタリングする。そして話者数推定部２６は、得られたクラスタの数を話者の数とする。
なお、話者数推定部２６は、音声信号から話者の数を推定する他の手法に従って、話者の数を推定してもよい。
話者数推定部２６は、推定した話者の数を判定部２４へ通知する。

フィッティング部２３は、混合分布に含まれる確率分布の数を様々に変更し、その確率分布の数ごとに適合度として赤池情報量基準(Akaike's Information Criterion, AIC)の値を算出する。なお、AICの値は次式により算出される。
ここでLは、最大尤度（例えば、EMアルゴリズムを用いて特徴量分布のサンプルを確率分布でフィッティングした後の、フィッテングに使用したサンプルに対する尤度）であり、ln(L)は、例えば、着目する数の確率分布が混合分布に含まれるときの（４）式による平均対数尤度の最大値である。kは自由パラメータの数であり、混合分布に含まれる確率分布の数が増えるほど大きな値になる。例えば、混合分布として混合ガウス分布または混合対数正規分布を利用する場合、一つの確率分布を規定するために、重み係数、平均値ベクトル及び共分散行列というパラメータが必要となる。そのため、確率分布が一つ増える度に、それらのパラメータの数だけkは大きくなる。

なお、フィッティング部２３は、AICを算出する代わりに、ベイジアン情報量基準(Bayesian information criteria, BIC)を算出してもよい。なお、BICの値は次式により算出される。
ここでLは、最大尤度（（５）式と同様に、EMアルゴリズムを用いて特徴量分布のサンプルを確率分布でフィッティングした後の、フィッテングに使用したサンプルに対する尤度）であり、kは自由パラメータの数である。またmは、標本の大きさ、すなわち、学習サンプルとして利用する特徴量の組の数を表す。

この場合、AICの値またはBICの数が最小となるときの数の確率分布が、特徴量の分布に最も適合していると推定される。そこでフィッティング部２３は、AICの値またはBICの数が最小となるときの確率分布の数を求める。この確率分布の数は、特徴量の分布をフィッティングするのに最も適した確率分布の数に相当する。そしてフィッティング部２３は、その確率分布の数を判定部２４に通知する。

判定部２４は、話者数推定部２６から通知された話者の数と、フィッティング部２３から通知された、特徴量の分布をフィッティングするのに最も適した確率分布の数を比較する。そして判定部２４は、その確率分布の数が話者の数と等しければ、特徴量の分布を話者の数の確率分布で近似できているとみなせるので、会話は通常会話であると判定する。一方、その確率分布の数が話者の数よりも多ければ、特徴量の分布を話者の数の確率分布で近似できていないので、判定部２４は、会話は異常会話であると判定する。

図７は、第２の実施形態による異常会話検出処理の動作フローチャートである。処理部１３’は、図５に示された第１の実施形態による異常会話検出処理における、ステップＳ１０５〜Ｓ１１０の代わりに、以下のフローチャートに従って異常会話検出処理を実行する。

ステップＳ１０３にて、記憶部１４に保存されている特徴量の組の数が所定数に達している場合、話者数推定部２６は、会話に参加している話者の数を推定する（ステップＳ２０１）。そして話者数推定部２６は、推定した話者の数を判定部２４に通知する。
またフィッティング部２３は、特徴量の分布を確率分布でフィッティングするのに最も適した確率分布の数を算出する（ステップＳ２０２）。そしてフィッティング部２３は、確率分布の数を判定部２４へ通知する。

判定部２４は、確率分布の数が話者数よりも多いか否か判定する（ステップＳ２０３）。確率分布の数が話者数と等しい場合（ステップＳ２０３−Ｎｏ）、判定部２４は、話者の数と同数の確率分布で特徴量の分布を近似できていると判定する。すなわち、判定部２４は、会話は通常会話であると判定する（ステップＳ２０４）。

一方、確率分布の数が話者数よりも多い場合（ステップＳ２０３−Ｙｅｓ）、判定部２４は、話者の数と同数の確率分布で特徴量の分布を近似できていないと判定する。すなわち、判定部２４は、会話は異常会話であると判定する（ステップＳ２０５）。そして判定部２４は、会話が異常会話であることを警告部２５に通知する。警告部２５は、送話側の話者に警告を発する（ステップＳ２０６）。
ステップＳ２０４またはＳ２０６の後、処理部１３’は、異常会話検出処理を終了する。なお、ステップＳ２０１の処理とステップＳ２０２の処理の順序は逆でもよく、あるいは、ステップＳ２０１の処理とステップＳ２０２の処理は並行して行われてもよい。

第２の実施形態によれば、異常会話検出装置は、会話に参加している話者の数が２以上の不特定の数であっても、会話が異常会話か否かを適切に判定できる。

なお、第２の実施形態の変形例によれば、タッチパネルといったユーザインターフェース（図示せず）を介して会話に参加している話者の数が入力されてもよい。この場合には、話者数推定部２６は省略されてもよい。

また、上記の各実施形態の変形例によれば、特徴量抽出部２２は、人の声を表す特徴として、フレームごとに、パワー積算値の代わりに、あるいはパワー積算値とともに、デルタケプストラムのノルムを算出してもよい。デルタケプストラムのノルムは、次式によって算出される。
ここで、C_t ⁽ⁿ⁾は、フレームtのn次のケプストラムを表し、ΔC(n)は、デルタケプストラムを表す。

また、特徴量抽出部２２は、人の声を表す特徴量として、フレームごとに、ピッチ周波数の代わりに、あるいは、ピッチ周波数とともに、次式のように、スペクトルの幾何平均と算術平均の比で表されるスペクトル平坦尺度(flatness-measure)を算出してもよい。
ここで、f_kは、周波数k(=1,..,N)におけるスペクトル信号であり、Nは、スペクトル信号が算出された周波数の総数（すなわち、フレームに含まれるサンプリング点数の1/2）を表す。そしてΞ(f)は、flatness-measureである。なお、flatness-measureは、例えば、早川他、「線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識」、電子情報通信学会誌Ａ、Vol.J80-A, No.9, pp.1360-1367, 1997年、に記載されている。

この場合、フィッティング部２３は、得られたデルタケプストラムのノルム及びflatness-measureの分布を話者数と同数の確率分布でフィッティングしてもよい。あるいは、フィッティング部２３は、得られたパワー、デルタケプストラムのノルム、ピッチ周波数及びflatness-measureのうちの３種類以上の特徴量の分布を話者数と同数の確率分布でフィッティングしてもよい。

また他の変形例によれば、処理部は、一旦会話が通常会話であると判定しても、会話が終了するまで、異常会話検出処理を継続してもよい。この場合には、特徴量抽出部２２は、フレームごとの特徴量の組の抽出を継続し、フィッティング部２３は、最新の所定数（例えば、100〜1000）の特徴量の組に基づいて、特徴量の分布を話者数の確率分布でフィッティングすればよい。この変形例によれば、異常会話検出装置は、通話中に送話側の話者に、会話が異常会話となったことを警告できるので、送話側の話者が異常な心理状態のまま、何がしかの不利益を被る前に通話を中断させたり、正常状態に戻るきっかけを与えることができる。
また、上記の各実施形態または変形例による異常会話検出装置は、会話が異常会話であると判定する条件が満たされる場合に、その会話に参加している何れかの話者の心理状態が異常であると判定してもよい。

また異常会話検出装置は、携帯電話機に実装されてもよい。
図８は、上記の何れかの実施形態またはその変形例による異常会話検出装置が実装された携帯電話機の概略構成図である。携帯電話機３０は、マイクロホン３１と、通信部３２と、記憶媒体アクセス装置３３と、記憶部３４と、ユーザインターフェース部３５と、処理部３６と、スピーカ３７とを有する。

マイクロホン３１は、音声入力部の一例であり、マイクロホン３１の周囲にいる送話側の話者が発する音声を集音してアナログ音声信号を生成し、そのアナログ音声信号をＡ／Ｄコンバータ（図示せず）へ出力する。Ａ／Ｄコンバータは、アナログ音声信号を所定のサンプリングレートでサンプリングしてデジタル化することによりデジタル音声信号を生成する。そしてＡ／Ｄコンバータは、デジタル化された音声信号を処理部３６へ出力する。

通信部３２は、携帯電話機３０を基地局を介して電話回線に接続するための無線通信回路を有する。そして通信部３２は、電話回線から基地局を介して受信した、受話側の話者が発した音声を電気信号化した下り音声信号を含むデータストリームを受信する。そして通信部３２は、そのデータストリームから下り音声信号を抽出する。そして通信部３２は、下り音声信号を処理部３６へ出力する。

記憶媒体アクセス装置３３は、例えば、半導体メモリカードといった記憶媒体３８にアクセスする装置である。記憶媒体アクセス装置３３は、例えば、記憶媒体３８に記憶された処理部３６上で実行されるコンピュータプログラムを読み込み、処理部３６に渡す。例えば、記憶媒体アクセス装置３３は、記憶媒体３８から異常会話検出用コンピュータプログラムを読み込んで、処理部３６に渡してもよい。

記憶部３４は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部３４は、処理部３６上で実行される各種のアプリケーションプログラム及び各種のデータを記憶する。また記憶部３４は、上記の各実施形態または変形例による異常会話検出処理を実行するためのコンピュータプログラム及び異常会話検出処理に用いられる各種のデータを記憶してもよい。さらに記憶部３４は、マイクロホン３１を介して取得された音声信号と、通信部３２を介して取得された下り音声信号とが合成された音声信号を記憶してもよい。

ユーザインターフェース部３５は、例えば、複数の操作キーといった入力装置と液晶ディスプレイといった表示装置とを有する。あるいは、ユーザインターフェース部３５は、タッチパネルディスプレイのように、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部３５は、送話側の話者による入力装置の操作に応じた操作信号を生成し、その操作信号を処理部３６へ出力する。またユーザインターフェース部３５は、処理部３６から受け取った各種の情報を表示装置上に表示する。さらにユーザインターフェース部３５は、警告を出力する出力部の一例であり、処理部３６が会話が異常会話と判定した場合の警告メッセージを処理部３６から受け取り、その警告メッセージを表示装置に表示させてもよい。

処理部３６は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部３６は、携帯電話機３０の各部と信号線を介して接続されており、携帯電話機３０の各部を制御する。また処理部３６は、話者による操作、あるいは呼び出し信号の着信に応じて呼設定を行ったり、通信を維持するための各種の処理を実行する。そして処理部３６は、通話が開始されると、マイクロホン３１を介して取得された音声信号と、通信部３２を介して取得された下り音声信号とが合成された音声信号を取得する。そして処理部３６は、その合成音声信号に対して、上記の実施形態における異常会話検出装置の処理部により実行される異常会話検出処理を実行することで、会話が異常会話か否かを判定する。なお、この例では、処理部３６は、携帯電話機３０の電話アプリケーションのアプリケーションプログラミングインタフェース(Application Programming Interface、API)を介して会話の開始及び終了を知ることができる。

この例では、処理部３６は、会話が異常会話と判定すると、ユーザインターフェース部３５の表示装置に警告メッセージを表示させる。あるいは、処理部３６は、警告メッセージの音声信号を、出力部の他の一例であるスピーカ３７に再生させてもよい。
あるいはまた、処理部３６は、会話が異常会話と判定すると、携帯電話機３０の電子メール機能を利用して、予め指定された関係者のメールアドレスへ、会話が異常会話と判定されたことを示す警告メールを自動的に送信してもよい。

さらに、上記の各実施形態またはその変形例による異常会話検出装置は、サーバクライアントシステムに実装されてもよい。
図９は、上記の各実施形態またはその変形例による異常会話検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム１００は、端末１１０とサーバ１２０とを有し、端末１１０とサーバ１２０とは、通信ネットワーク１３０を介して互いに通信可能となっている。なお、サーバクライアントシステム１００が有する端末１１０は複数存在してもよい。同様に、サーバクライアントシステム１００が有するサーバ１２０は複数存在してもよい。

端末１１０は、音声入力部１１１と、記憶部１１２と、通信部１１３と、制御部１１４と、スピーカ１１５とを有する。音声入力部１１１、記憶部１１２、通信部１１３及びスピーカ１１５は、例えば、制御部１１４とバスを介して接続されている。

音声入力部１１１は、例えば、オーディオインターフェースとＡ／Ｄコンバータを有する。そして音声入力部１１１は、モジュラーローゼットと電話機間に接続された通話録音アダプタから、会話を含む、アナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部１１１は、デジタル化された音声信号を制御部１１４へ出力する。

記憶部１１２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１１２は、端末１１０を制御するためのコンピュータプログラム、端末１１０の識別情報、異常会話検出処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。

通信部１１３は、端末１１０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１１３は、制御部１１４から受け取った特徴量の組を、端末１１０の識別情報とともに通信ネットワーク１３０を介してサーバ１２０へ送信する。また通信部１１３は、会話が異常会話か否かの判定結果をサーバ１２０から通信ネットワーク１３０を介して受信して、制御部１１４に渡す。

制御部１１４は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部１１４は、上記の各実施形態または変形例による処理部の各機能のうち、スペクトル算出部２１、特徴量抽出部２２及び警告部２５の機能を実現する。すなわち、制御部１１４は、音声信号をフレーム単位に分割し、各フレームから人の声の特徴を表す２種類以上の特徴量を抽出する。そして制御部１１４は、フレームごとの特徴量の組を、端末１１０の識別情報とともに、通信部１１３及び通信ネットワーク１３０を介してサーバ１２０へ送信する。
また制御部１１４は、サーバ１２０から通信ネットワーク１３０及び通信部１１３を介して、会話が異常会話であるとの判定結果を受信すると、スピーカ１１５を介して警告音声を出力する。

サーバ１２０は、通信部１２１と、記憶部１２２と、処理部１２３とを有する。通信部１２１及び記憶部１２２は、処理部１２３とバスを介して接続されている。

通信部１２１は、サーバ１２０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１２１は、フレームごとの特徴量の組と端末１１０の識別情報とを端末１１０から通信ネットワーク１３０を介して受信して処理部１２３に渡す。また通信部１２１は、端末１１０の識別情報に基づいて、処理部１２３から受け取った会話が異常会話であるとの判定結果を通信ネットワーク１３０を介して端末１１０へ送信する。

記憶部１２２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１２２は、サーバ１２０を制御するためのコンピュータプログラムなどを記憶する。また記憶部１２２は、異常会話検出処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴量の組を記憶していてもよい。

処理部１２３は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部１２３は、上記の各実施形態または変形例による処理部の各機能のうち、フィッティング部２３及び判定部２４の機能を実現する。さらに、処理部１２３は、話者数推定部２６の機能を実現してもよい。すなわち、処理部１２３は、端末１１０から受信した、フレームごとの特徴量の組から、特徴量の分布を話者数と同じ数の確率分布でフィッティングする。そして処理部１２３は、フィッティングした各確率分布が特徴量の分布を近似できていれば、会話は通常会話であると判定し、一方、フィッティングした各確率分布が特徴量の分布を近似できていなければ、会話は異常会話であると判定する。そして処理部１２３は、その判定結果を、通信部１２１及び通信ネットワーク１３０を介して端末１１０へ送信する。

この実施形態によれば、個々の端末１１０は、会話を録音した音声信号からフレームごとの特徴量の組を抽出してサーバ１２０へ送信するだけで、その会話が異常会話か否かの判定結果を得ることができる。

上記の各実施形態または変形例による異常会話検出装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
複数の話者の会話を含む音声信号を入力する音声入力部と、
記憶部と、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、該少なくとも二つの特徴量の組を前記記憶部に保存する特徴量抽出部と、
前記記憶部に記憶された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングするフィッティング部と、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する判定部と、
を有する異常会話検出装置。
（付記２）
前記フィッティング部は、前記話者の数と同じ数の確率分布を含む混合分布で前記少なくとも二つの特徴量の組の分布をフィッティングし、
前記判定部は、前記混合分布に含まれる各確率分布が前記特徴量の分布に適合している度合いを表す適合度を算出し、該適合度が、各確率分布が前記特徴量の分布を近似できているときの適合度の下限に相当する閾値未満である場合、前記会話は異常会話であると判定する、付記１に記載の異常会話検出装置。
（付記３）
前記フィッティング部は、混合分布に含まれる確率分布の数を変えつつ、前記確率分布の数ごとに前記適合度を算出し、前記適合度に基づいて、前記特徴量の分布に最も適合している確率分布の数を求め、
前記判定部は、前記確率分布の数が前記話者の数よりも多い場合、前記会話は異常会話であると判定する、付記１に記載の異常会話検出装置。
（付記４）
前記フィッティング部は、前記適合度として赤池情報量基準またはベイジアン情報量基準を算出し、赤池情報量基準またはベイジアン情報量基準が最小となるときの確率分布の数を前記特徴量の分布に最も適合している確率分布の数として求める、付記３に記載の異常会話検出装置。
（付記５）
前記音声信号から前記話者の数を推定する話者数推定部をさらに有する、付記３または４に記載の異常会話検出装置。
（付記６）
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことを含む異常会話検出方法。
（付記７）
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことをコンピュータに実行させるための異常会話検出用コンピュータプログラム。

１異常会話検出装置
２−１、２−２電話機
３分配器
４モジュラーローゼット
５通話録音アダプタ
６電話回線
１１インターフェース部
１２Ａ／Ｄコンバータ
１３、１３’ 処理部
１４記憶部
１５Ｄ／Ａコンバータ
１６スピーカ
２１スペクトル算出部
２２特徴量抽出部
２３フィッティング部
２４判定部
２５警告部
２６話者数推定部
３０携帯電話機（異常会話検出装置）
３１マイクロホン
３２通信部
３３記憶媒体アクセス装置
３４記憶部
３５ユーザインターフェース部
３６処理部
３７スピーカ
３８記憶媒体
１００サーバクライアントシステム
１１０端末
１１１音声入力部
１１２記憶部
１１３通信部
１１４制御部
１１５スピーカ
１２０サーバ
１２１通信部
１２２記憶部
１２３処理部
１３０通信ネットワーク

Claims

複数の話者の会話を含む音声信号を入力する音声入力部と、
記憶部と、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、該少なくとも二つの特徴量の組を前記記憶部に保存する特徴量抽出部と、
前記記憶部に記憶された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングするフィッティング部と、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する判定部と、
を有する異常会話検出装置。
前記フィッティング部は、前記話者の数と同じ数の確率分布を含む混合分布で前記少なくとも二つの特徴量の組の分布をフィッティングし、
前記判定部は、前記混合分布に含まれる各確率分布が前記特徴量の分布に適合している度合いを表す適合度を算出し、該適合度が、各確率分布が前記特徴量の分布を近似できているときの適合度の下限に相当する閾値未満である場合、前記会話は異常会話であると判定する、請求項１に記載の異常会話検出装置。
前記フィッティング部は、混合分布に含まれる確率分布の数を変えつつ、前記確率分布の数ごとに前記適合度を算出し、前記適合度に基づいて、前記特徴量の分布に最も適合している確率分布の数を求め、
前記判定部は、前記確率分布の数が前記話者の数よりも多い場合、前記会話は異常会話であると判定する、請求項１に記載の異常会話検出装置。
前記音声信号から前記話者の数を推定する話者数推定部をさらに有する、請求項３に記載の異常会話検出装置。
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことを含む異常会話検出方法。
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことをコンピュータに実行させるための異常会話検出用コンピュータプログラム。