JP2015082093A - 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム - Google Patents

異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム Download PDF

Info

Publication number
JP2015082093A
JP2015082093A JP2013221466A JP2013221466A JP2015082093A JP 2015082093 A JP2015082093 A JP 2015082093A JP 2013221466 A JP2013221466 A JP 2013221466A JP 2013221466 A JP2013221466 A JP 2013221466A JP 2015082093 A JP2015082093 A JP 2015082093A
Authority
JP
Japan
Prior art keywords
distribution
conversation
speakers
unit
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013221466A
Other languages
English (en)
Other versions
JP6268916B2 (ja
Inventor
昭二 早川
Shoji Hayakawa
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013221466A priority Critical patent/JP6268916B2/ja
Publication of JP2015082093A publication Critical patent/JP2015082093A/ja
Application granted granted Critical
Publication of JP6268916B2 publication Critical patent/JP6268916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定可能な異常会話検出装置を提供する。
【解決手段】異常会話検出装置1は、複数の話者の会話を含む音声信号を入力する音声入力部11と、記憶部14と、音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、その少なくとも二つの特徴量の組を記憶部14に保存する特徴量抽出部22と、記憶部14に記憶された特徴量の分布を話者の数と同じ数の確率分布でフィッティングするフィッティング部23と、話者の数と同じ数の確率分布が特徴量の分布を近似できているか否か判定し、話者の数と同じ数の確率分布が特徴量の分布を近似できていない場合、会話は異常会話であると判定する判定部24とを有する。
【選択図】図3

Description

本発明は、例えば、複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定する異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラムに関する。
近年、電話回線を用いて行われる、金銭を騙し取ることを目的とした詐欺行為及び悪質な勧誘行為が社会的な問題となっている。そこで、電話回線を介した通話中の音声に基づいて、話者の心理状態を推定する技術が提案されている(例えば、特許文献1及び2を参照)。
例えば、特許文献1に開示された発話状態検出装置は、発話者の発話データを周波数解析した結果から高周波数成分を抽出し、その高周波数成分についての単位時間ごとの変動度合いを算出する。そしてこの発話状態検出装置は、特定発話者の発話データから得られた、所定期間における複数の変動度合いに基づいて算出される所定区間ごとの統計量に基づいて、特定発話者の発話状態を検出する。
また、特許文献2に開示された抑圧状態検出装置は、入力された音声を複数のフレームごとに解析し、その解析結果の平均値を算出する。抑圧状態検出装置は、予め記憶された複数話者ごとの解析結果の平均値及び解析結果の累積頻度分布に関する統計データと、算出した解析結果の平均値とに基づいて閾値を決定し、複数の解析結果のうち閾値よりも大きな値を有する解析結果の出現頻度を演算する。そして抑圧状態検出装置は、その出現頻度に基づいて音声を発する声帯の緊張状態を判定する。
これらの技術では、送話側の話者の音声と、受話側の話者の音声とが別々に得られることが前提となっている。送話側の話者の音声と、受話側の話者の音声とを別々に取得するためには、例えば、電話機本体とハンドセットとの間に通話録音アダプタを接続する。そして、状態推定装置は、そのアダプタから送話側の音声信号と受話側の音声信号をそれぞれ取得して、話者の状態を推定する。この場合、通話録音アダプタから取得できる音声信号は、その通話録音アダプタが接続された電話機を用いた通話の音声信号に限られる。そのため、一つの電話回線に複数の電話機が接続されており、そのうちの一つの電話機にのみ通話録音アダプタが接続されていると、状態推定装置は、他の電話機を用いた通話から話者の状態を推定することはできない。一方、モジュラーローゼットと分配器の間に通話録音アダプタを接続し、状態推定装置がその通話録音アダプタから音声信号を取得すれば、分配器に複数の電話機が接続されていても、何れの電話機の通話の音声信号を取得することができる。しかし、この場合には、通話録音アダプタから得られる音声信号は、送話側の話者の音声と受話側の話者の音声とが混ざったものとなる。そのため、このような音声信号に対して、送話側の話者の音声と、受話側の話者の音声とが別々に得られることが前提となっている上記の技術を適用しても、十分な推定精度を得ることは困難である。これは、一方の話者の音声に他方の話者の音声が重畳されるため、一方の話者の状態を推定するための音声の特徴量に、他方の話者の音声の特徴も含まれてしまうことによる。一方、正弦波重畳モデルのパラメータを推定することで、二つの音源からの音を分離する技術が提案されている(例えば、特許文献3を参照)。
特開2011−242755号公報 特開2012−168296号公報 特開2008−304718号公報
特許文献3に記載の技術では、正弦波モデルに雑音を表す項が含まれていない。しかしながら、実際の通話では、話者の周囲にある音源から発せられた雑音が話者の声に重畳されるので、特許文献3に記載の技術は、実際の通話を録音した音声信号から、それぞれの話者の音声を正確に分離できないおそれがある。
そこで本明細書は、一つの側面では、複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定可能な異常会話検出装置を提供することを目的とする。
一つの実施形態によれば、異常会話検出装置が提供される。この異常会話検出装置は、複数の話者の会話を含む音声信号を入力する音声入力部と、記憶部と、音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、その少なくとも二つの特徴量の組を記憶部に保存する特徴量抽出部と、記憶部に記憶された特徴量の分布を話者の数と同じ数の確率分布でフィッティングするフィッティング部と、話者の数と同じ数の確率分布が特徴量の分布を近似できているか否か判定し、話者の数と同じ数の確率分布が特徴量の分布を近似できていない場合、会話は異常会話であると判定する判定部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された異常会話検出装置は、複数の話者の会話を録音した音声信号に基づいて、会話が異常か否かを判定できる。
一つの実施形態による異常会話検出装置を電話回線に接続する位置の一例を示す図である。 第1の実施形態による異常会話検出装置の概略構成図である。 異常会話検出装置が有する処理部の機能ブロック図である。 (a)は、二人の話者の会話が通常会話のときの音声の特徴量の分布の一例を示す図であり、(b)は、二人の話者の会話が異常会話のときの音声の特徴量の分布の一例を示す図である。 第1の実施形態による異常会話検出処理の動作フローチャートである。 第2の実施形態による処理部の機能ブロック図である。 第2の実施形態による異常会話検出処理の動作フローチャートである。 何れかの実施形態またはその変形例による異常会話検出装置が実装された携帯電話機の概略構成図である。 何れかの実施形態またはその変形例による異常会話検出装置が実装されたサーバクライアントシステムの概略構成図である。
以下、図を参照しつつ、異常会話検出装置について説明する。
発明者は、話者が平常状態で話しているときの話者の声を含む音声信号をフレーム単位で分割し、各フレームから人の声の特徴を表す2以上の特徴量を抽出すると、一人の話者声の特徴量の分布は正規分布といった一つの確率分布で近似できることを見出した。さらに、発明者は、話者の心理状態が平常でなくなり、話者の声にその心理状態が反映されるようになると、一人の話者の声の特徴量の分布は、一つの確率分布で近似できなくなることを見出した。
そこでこの異常会話検出装置は、複数の話者の会話が録音された音声信号をフレーム単位で分割し、各フレームから、人の声の特徴を表す2以上の特徴量を抽出する。そしてこの異常会話検出装置は、その特徴量の分布が話者の数と同じ数の確率分布で近似できる場合には、各話者は平常状態にある、通常の会話が行われていると判定する。一方、その特徴量の分布が話者の数と同じ数の確率分布で近似できない場合には、異常会話検出装置は、会話が異常会話であると判定する。
なお、異常会話とは、会話に参加している複数の話者のうち、少なくとも何れか一人の話者の心理状態が異常な状態で行われている会話である。また、話者の心理状態が異常な状態とは、話者が平静を保つことができないような状態であり、例えば、怒ったり、怯えたり、泣いたりといった行動をとる状態である。
第1の実施形態では、異常会話検出装置は、電話回線を利用した二人の話者間の通話を録音した音声信号に基づいて、会話が異常会話か否かを判定する。しかし、異常会話検出装置は、携帯電話機、TV会議システム、あるいは、ボイスレコーダにより録音された、二人の話者の会話を含む音声信号に基づいて、会話が異常会話か否かを判定してもよい。
図1は、一つの実施形態による異常会話検出装置を電話回線に接続する位置の一例を示す図である。この例では、説明の便宜上、異常会話検出装置が取り付けられる側を送話側とし、電話回線を介して送話側との通話の相手側を受話側とする。本実施形態では、異常会話検出装置1は、二つの電話機2−1、2−2が接続された分配器3と、モジュラーローゼット4との間に接続された通話録音アダプタ5から音声信号を取得する。そのため、送話側の話者が、電話機2−1、2−2のうちの何れの電話機を使用する場合でも、送話側の話者の音声を含む音声信号は、通話録音アダプタ5を通過する。また、受話側の話者の音声を含む音声信号は、電話回線6からモジュラーローゼット4及び通話録音アダプタ5を介して何れかの電話機へ送信される。そのため、通話録音アダプタ5から異常会話検出装置1へ出力される音声信号は、送話側の話者の音声と受話側の話者の音声が混じったアナログ信号となる。
図2は、第1の実施形態による異常会話検出装置の概略構成図である。異常会話検出装置1は、インターフェース部11と、アナログ/デジタルコンバータ12と、処理部13と、記憶部14と、デジタル/アナログコンバータ15と、スピーカ16とを有する。
インターフェース部11は、音声入力部の一例であり、オーディオインターフェースを有する。そしてインターフェース部11は、通話録音アダプタ5からアナログ信号である音声信号を取得し、その音声信号をアナログ/デジタルコンバータ12(以下、A/Dコンバータと表記する)へ出力する。A/Dコンバータ12は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてA/Dコンバータ12は、デジタル化された音声信号を処理部13へ出力する。
処理部13は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部13は、デジタル化された音声信号に基づいて、会話が異常会話か否か判定する。なお、処理部13による処理の詳細は後述する。
記憶部14は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部14は、処理部13上で実行される異常会話検出処理で利用される各種のデータ及び異常会話検出処理の途中で生成される各種のデータを記憶する。また記憶部14は、処理部13が、会話が異常会話であると判定したときにスピーカ16から出力される警告音声信号を記憶する。
デジタル/アナログコンバータ15(以下、D/Aコンバータと表記する)は、処理部13が、会話が異常会話であると判定したときに、処理部13から出力される警告音声信号をアナログ化してスピーカ16へ出力する。スピーカ16は、アナログ化された警告音声信号を再生する。
図3は、処理部13の機能ブロック図である。処理部13は、スペクトル算出部21と、特徴量抽出部22と、フィッティング部23と、判定部24と、警告部25とを有する。
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。
スペクトル算出部21は、デジタル化された音声信号(以下では、単に音声信号と呼ぶ)を所定長を持つフレームごとに分割する。フレーム長は、例えば、32msecに設定される。なお、スペクトル算出部21は、連続する二つのフレームの一部を重複させてもよい。この場合、スペクトル算出部21は、現在のフレームから次のフレームへ移動する際に、新たにフレームに取り入れられるフレームシフト量を、例えば、10msec〜16msecに設定してもよい。
スペクトル算出部21は、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。スペクトル算出部21は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)または修正離散コサイン変換(Modified Discrete Cosign Transform, MDCT)を用いることができる。なお、スペクトル算出部21は、各フレームに、ハミング窓またはハニング窓といった窓関数を乗じたのちに時間周波数変換を行ってもよい。
例えば、フレーム長が32msecであり、A/Dコンバータ12のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれるので、スペクトル算出部21は、256点のFFTを実行する。
スペクトル算出部21は、フレームのスペクトル信号が得られる度に、そのスペクトル信号を特徴量抽出部22へ出力する。
特徴量抽出部22は、フレームごとに、そのフレームのスペクトル信号から、人の声の特徴を表す2以上の特徴量を抽出する。本実施形態では、特徴量抽出部22は、人の声の特徴を表す特徴量として、人の声が含まれる周波数帯域のパワーの積算値とピッチ周波数を抽出する。
特徴量抽出部22は、フレームごとに、例えば、次式に従って、人の声が含まれる周波数帯域のパワーの積算値を算出する。
ここでS(f)は、周波数fにおけるスペクトル信号であり、|S(f)|2は、周波数fにおけるパワースペクトルである。またfmin、fmaxは、それぞれ、人の声が含まれる周波数帯域の下限及び上限を表す。そしてPはパワーの積算値である。また特徴量抽出部22は、フレームの時間周波数変換を実行せずにフレームごとのサンプル点の二乗和からパワーの積算値を直接求めてもよい。
また、特徴量抽出部22は、ピッチ周波数を算出するために、各フレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値(ただし、時間差0のピーク値を除く)を求める。人の有声音に相当するフレームについては、比較的自己相関の度合いが高いのに対し、無声音または背景雑音に相当するフレームの自己相関の度合いは低い。そこで特徴量抽出部22は、そのピーク値の最大値を所定の閾値と比較し、最大値が所定の閾値よりも大きい場合、そのフレームには話者の有声音が含まれると判定する。そして特徴量抽出部22は、そのピーク値の最大値に相当する時間差の逆数をピッチ周波数とする。なお、自己相関関数は、各周波数のパワースペクトルを逆フーリエ変換することにより求められる。また、変形自己相関関数は、パワースペクトルに対して線形予測符号化フィルタを用いてフィルタリングしたものを逆フーリエ変換することにより求められる。なお、特徴量抽出部22は、フレームをフーリエ変換せずに、フレームごとのサンプル点を用いて自己相関関数を求めることにより、ピッチ周波数を時間領域のフレームから直接求めることもできる。上記のように、特徴量抽出部22がスペクトル信号を用いずに、時間領域のフレームの各サンプル点の信号値から直接特徴量を算出する場合、スペクトル算出部21は省略されてもよい。
特徴量抽出部22は、フレームごとのピッチ周波数及びパワーの積算値の組を、特徴量の組として記憶部14に保存する。
なお、特徴量抽出部22は、ピッチ周波数を所定値で割ることにより得られる正規化ピッチ周波数を特徴量としてもよい。同様に、特徴量抽出部22は、パワー積算値を所定値で割ることにより得られる正規化パワー積算値を特徴量としてもよい。また、特徴量抽出部22は、パワー積算値を、フレームに含まれる雑音成分を表す雑音判定閾値Thnと比較して、パワー積算値が雑音判定閾値Thnよりも大きい場合にのみ、パワー積算値及びピッチ周波数の組を記憶部14に保存してもよい。これにより、どの話者も発声していない時のフレームから抽出された特徴量の組が、後述する確率分布による特徴量の分布のフィッティングに使用されなくなるので、処理部13は、より正確に会話が異常会話か否かを判定できる。
また、雑音判定閾値Thnは、通話音声の背景雑音レベルに応じて適応的に設定されることが好ましい。そこで特徴量抽出部22は、送話側の話者と受話側の話者の両方とも発声していないフレームを、背景雑音のみが含まれる無音フレームと判定する。例えば、特徴量抽出部22は、フレームの周波数帯域全体のパワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを無音フレームと判定する。そして特徴量抽出部22は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、特徴量抽出部22は、次式に従って背景雑音レベルを推定する。
ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。
ここで、γは、あらかじめ設定される定数であり、例えば、2〜3[dB]に設定される。
フィッティング部23は、記憶部14に記憶されている特徴量の組の数が特徴量の分布を確率分布でフィッティングするのに十分な所定数(例えば、100〜1000)に達したか否か判定する。そしてフィッティング部23は、特徴量の組の数がその所定数に達すると、特徴量の分布を、話者の数と同じ数の確率分布を含む混合分布でフィッティングする。本実施形態では、混合分布として、ピッチ周波数とパワー積算値をそれぞれ一つの次元とする、2次元の2混合ガウス分布を用いる。2混合ガウス分布は、混合正規分布の一つである。
そしてフィッティング部23は、各フレームから得られたピッチ周波数とパワー積算値の組をそれぞれ学習サンプルとして、2混合ガウス分布に含まれる各ガウス分布を表す複数のパラメータを最尤推定する。そのために、例えば、フィッティング部23は、EMアルゴリズム(期待値最大化法とも呼ばれる)を用いる。例えば、フィッティング部23は、2混合ガウス分布に含まれるガウス分布のそれぞれについて、各学習サンプルがそのガウス分布により生成された確率である重み係数、平均値ベクトル(すなわち、各特徴量の平均値の組)及び共分散行列の最尤推定値を求める。
なお、フィッティング部23は、特徴量の分布のフィッティングに用いる確率分布として、対数正規分布を用いてもよい。この場合にも、フィッティング部23は、EMアルゴリズムを用いて、混合対数正規分布に含まれる、話者の数と同じ数の対数正規分布のそれぞれについての重み係数、平均値ベクトル及び共分散行列の最尤推定値を求める。
また、フィッティング部23は、特徴量の分布をフィッティングする確率分布を求めるために利用するアルゴリズムとして、EMアルゴリズムの代わりに、マルコフ連鎖モンテカルロ法またはシミュレーティッドアニーリングを利用してもよい。
フィッティング部23は、特徴量の分布をフィッティングした各確率分布の重み係数、平均ベクトル及び共分散行列の最尤推定値を判定部24へ通知する。
判定部24は、特徴量の分布をフィッティングした話者の数と同数の確率分布が、その特徴量の分布に適合している度合いを表す適合度を算出する。そして判定部24は、その適合度が適合判定閾値以上であれば、話者の数と同じ数の確率分布で特徴量の分布を近似できているので、会話は通常会話であると判定する。一方、適合度が適合判定閾値未満であれば、話者の数と同じ数の確率分布で特徴量の分布を近似できていないので、判定部24は、会話は異常会話であると判定する。
図4(a)は、二人の話者が平常状態で会話しているときの音声の特徴量の分布の一例を示す図である。一方、図4(b)は、二人の話者のうちの少なくとも一方が異常な心理状態で会話しているときの音声の特徴量の分布の一例を示す図である。
図4(a)及び図4(b)において、横軸はパワーの積算値を表し、縦軸はピッチ周波数を表す。また各点400は、それぞれ、一つの特徴量の組を表す。図4(a)に示されるように、二人の話者が平常状態で会話しているとき、すなわち、その会話が通常会話である場合、楕円401及び楕円402で示される、特徴量の分布をフィッティングした二つの正規分布によって特徴量の分布が比較的良好に近似されている。そのため、適合度も高くなる。
一方、二人の話者の少なくとも一方の心理状態が平常でなくなり、会話が異常会話になると、各話者が声を荒げるなどするので、声の特徴が通常のときから変化してしまい、特徴量の分布がばらつく。その結果として、楕円403及び楕円404で示される特徴量の分布をフィッティングした二つの正規分布は、特徴量の分布をうまく近似できていない。そのため、適合度も低くなる。
本実施形態では、判定部24は、適合度として、2次元ベクトル系列に対する平均対数尤度を次式に従って算出する。
ここで、P(xn|Ω)は、確率分布のパラメータΩから、n番目の2次元ベクトルxn(本実施形態では、個々の学習サンプルに相当)が出力される確率を表す。またNは、学習サンプルの総数を表す。wi(i=1,2)は、各ガウス分布の重み係数の最尤推定値を表す。μiは、各ガウス分布の平均値ベクトル(すなわち、各特徴量の平均値の組)の最尤推定値を表す。そしてΣiは、各ガウス分布の共分散行列を表す。
判定部24は、平均対数尤度を適合判定閾値Thfと比較する。そして判定部24は、平均対数尤度が適合判定閾値Thf以上であれば、会話は通常会話であると判定する。なお、適合判定閾値Thfは、特徴分布が話者の数と同じ数の確率分布で近似できているとみなせるときの平均対数尤度の下限値であり、例えば、予め実験的にされる。一方、平均対数尤度が適合判定閾値Thf未満であれば、判定部24は、会話は異常会話であると判定する。そして判定部24は、警告部25に、会話が異常会話であることを通知する。
警告部25は、判定部24から会話が異常会話であるとの判定結果を通知されると、記憶部14から警告音声信号を読み込む。そして警告部25は、その警告音声信号を、D/Aコンバータ15を介してスピーカ16へ出力する。
なお、異常会話検出装置1は、警告用の光源を有していてもよい。この場合には、警告部25は、会話が異常会話であると判定した場合、その光源を点灯または明滅させることで、送話側の話者へ警告してもよい。
図5は、異常会話検出処理の動作フローチャートである。処理部13は、通話ごとに以下の動作フローチャートに従って異常会話検出処理を実行する。なお、初期化処理として、処理部13は、記憶部14に記憶されているピッチ周波数及びパワー積算値を消去する。
スペクトル算出部21は、音声信号から切り出した最新のフレームである現フレームを時間周波数変換することで、現フレームのスペクトル信号を算出する(ステップS101)。スペクトル算出部21は、現フレームのスペクトル信号を特徴量抽出部22へ出力する。
特徴量抽出部22は、現フレームのスペクトル信号に基づいて、パワーの積算値及びピッチ周波数といった、人の声の特徴を表す2以上の特徴量を抽出する(ステップS102)。そして特徴量抽出部22は、抽出した特徴量の組を記憶部14に保存する。
フィッティング部23は、記憶部14に保存されている特徴量の組の数が所定数に達したか否か判定する(ステップS103)。特徴量の組の数が所定数に達していなければ(ステップS103−No)、処理部13は、次フレームを現フレームに設定する(ステップS104)。そして処理部13は、ステップS101以降の処理を繰り返す。
一方、記憶部14に保存されている特徴量の組の数が所定数に達していれば(ステップS103−Yes)、フィッティング部23は、特徴量の分布を、話者の数と同じ数の確率分布を含む混合分布でフィッティングする(ステップS105)。そしてフィッティング部23は、特徴量の分布をフィッティングした確率分布を表す各パラメータ(例えば、混合分布に含まれる各正規分布の重み係数、平均値ベクトル及び共分散行列)の最尤推定値を判定部24へ通知する。
判定部24は、特徴量の分布をフィッティングした確率分布の適合度を算出する(ステップS106)。そして判定部24は、その適合度が適合判定閾値Thf以上か否か判定する(ステップS107)。適合度が適合判定閾値Thf以上である場合(ステップS107−Yes)、判定部24は、各確率分布は、特徴量の分布を近似できていると判定する。すなわち、判定部24は、会話は通常会話であると判定する(ステップS108)。
一方、適合度が適合判定閾値Thf未満である場合(ステップS107−No)、判定部24は、各確率分布は、特徴量の分布を近似できていないと判定する。すなわち、判定部24は、会話は異常会話であると判定する(ステップS109)。そして判定部24は、会話が異常会話であることを警告部25に通知する。警告部25は、送話側の話者に警告を発する(ステップS110)。
ステップS108またはS110の後、処理部13は、異常会話検出処理を終了する。
表1は、特開2013−011830号公報に開示された従来技術及び本実施形態による、話者が異常状態にあるか否かの判定の実験結果を示す図である。この実験では、25名の話者の何れか2名による会話が録音された100個の音声信号を用いた。
表1に示されるように、従来技術では、異常会話、通常会話とも、正答率が47%であったのに対して、本実施形態では、異常会話及び通常会話についての正答率が、それぞれ、70%、69%となった。このように、本実施形態による異常会話検出装置は、従来技術よりも正確に異常会話を検出できることが示された。
以上に説明してきたように、この異常会話検出装置は、複数の話者の声が含まれる音声信号から抽出された2種類以上の特徴量の分布を話者の数と同じ数の確率分布で近似できたか否かにより、会話が異常会話か否かを判定する。そのため、この異常会話検出装置は、音声信号に複数の話者の声が含まれていても、会話が異常か否かを判定できる。
なお、話者の数が3人以上であり、かつ予め分かっている場合には、フィッティング部23は、その話者の数だけの確率分布を含む混合分布で特徴量の分布をフィッティングすればよい。
次に、第2の実施形態による異常会話検出装置について説明する。第2の実施形態による異常会話検出装置は、二人以上の不特定の数の話者の会話を含む音声信号に基づいて、会話が異常会話か否か判定する。
図6は、第2の実施形態による異常会話検出装置の処理部の機能ブロック図である。処理部13’は、スペクトル算出部21と、特徴量抽出部22と、フィッティング部23と、判定部24と、警告部25と、話者数推定部26とを有する。第2の実施形態による処理部13’は、図3に示された第1の実施形態による処理部13と比較して、話者数推定部26を有する点と、フィッティング部23及び判定部24の処理が異なる。そこで以下では、話者数推定部26、フィッティング部23及び判定部24について説明する。異常会話検出装置のその他の構成要素については、第1の実施形態による異常会話検出装置の対応する構成要素の説明を参照されたい。
話者数推定部26は、会話に参加している話者の数を推定する。例えば、話者数推定部26は、Daben Liu他、「ONLINE SPEAKER CLUSTERING」、in Proceedings of ICASSP2004、vol. I、pp.333-336、2004年に開示されているように、各フレームから抽出された特徴量の組を、遺伝的アルゴリズムなどを利用してクラスタリングする。そして話者数推定部26は、得られたクラスタの数を話者の数とする。
なお、話者数推定部26は、音声信号から話者の数を推定する他の手法に従って、話者の数を推定してもよい。
話者数推定部26は、推定した話者の数を判定部24へ通知する。
フィッティング部23は、混合分布に含まれる確率分布の数を様々に変更し、その確率分布の数ごとに適合度として赤池情報量基準(Akaike's Information Criterion, AIC)の値を算出する。なお、AICの値は次式により算出される。
ここでLは、最大尤度(例えば、EMアルゴリズムを用いて特徴量分布のサンプルを確率分布でフィッティングした後の、フィッテングに使用したサンプルに対する尤度)であり、ln(L)は、例えば、着目する数の確率分布が混合分布に含まれるときの(4)式による平均対数尤度の最大値である。kは自由パラメータの数であり、混合分布に含まれる確率分布の数が増えるほど大きな値になる。例えば、混合分布として混合ガウス分布または混合対数正規分布を利用する場合、一つの確率分布を規定するために、重み係数、平均値ベクトル及び共分散行列というパラメータが必要となる。そのため、確率分布が一つ増える度に、それらのパラメータの数だけkは大きくなる。
なお、フィッティング部23は、AICを算出する代わりに、ベイジアン情報量基準(Bayesian information criteria, BIC)を算出してもよい。なお、BICの値は次式により算出される。
ここでLは、最大尤度((5)式と同様に、EMアルゴリズムを用いて特徴量分布のサンプルを確率分布でフィッティングした後の、フィッテングに使用したサンプルに対する尤度)であり、kは自由パラメータの数である。またmは、標本の大きさ、すなわち、学習サンプルとして利用する特徴量の組の数を表す。
この場合、AICの値またはBICの数が最小となるときの数の確率分布が、特徴量の分布に最も適合していると推定される。そこでフィッティング部23は、AICの値またはBICの数が最小となるときの確率分布の数を求める。この確率分布の数は、特徴量の分布をフィッティングするのに最も適した確率分布の数に相当する。そしてフィッティング部23は、その確率分布の数を判定部24に通知する。
判定部24は、話者数推定部26から通知された話者の数と、フィッティング部23から通知された、特徴量の分布をフィッティングするのに最も適した確率分布の数を比較する。そして判定部24は、その確率分布の数が話者の数と等しければ、特徴量の分布を話者の数の確率分布で近似できているとみなせるので、会話は通常会話であると判定する。一方、その確率分布の数が話者の数よりも多ければ、特徴量の分布を話者の数の確率分布で近似できていないので、判定部24は、会話は異常会話であると判定する。
図7は、第2の実施形態による異常会話検出処理の動作フローチャートである。処理部13’は、図5に示された第1の実施形態による異常会話検出処理における、ステップS105〜S110の代わりに、以下のフローチャートに従って異常会話検出処理を実行する。
ステップS103にて、記憶部14に保存されている特徴量の組の数が所定数に達している場合、話者数推定部26は、会話に参加している話者の数を推定する(ステップS201)。そして話者数推定部26は、推定した話者の数を判定部24に通知する。
またフィッティング部23は、特徴量の分布を確率分布でフィッティングするのに最も適した確率分布の数を算出する(ステップS202)。そしてフィッティング部23は、確率分布の数を判定部24へ通知する。
判定部24は、確率分布の数が話者数よりも多いか否か判定する(ステップS203)。確率分布の数が話者数と等しい場合(ステップS203−No)、判定部24は、話者の数と同数の確率分布で特徴量の分布を近似できていると判定する。すなわち、判定部24は、会話は通常会話であると判定する(ステップS204)。
一方、確率分布の数が話者数よりも多い場合(ステップS203−Yes)、判定部24は、話者の数と同数の確率分布で特徴量の分布を近似できていないと判定する。すなわち、判定部24は、会話は異常会話であると判定する(ステップS205)。そして判定部24は、会話が異常会話であることを警告部25に通知する。警告部25は、送話側の話者に警告を発する(ステップS206)。
ステップS204またはS206の後、処理部13’は、異常会話検出処理を終了する。なお、ステップS201の処理とステップS202の処理の順序は逆でもよく、あるいは、ステップS201の処理とステップS202の処理は並行して行われてもよい。
第2の実施形態によれば、異常会話検出装置は、会話に参加している話者の数が2以上の不特定の数であっても、会話が異常会話か否かを適切に判定できる。
なお、第2の実施形態の変形例によれば、タッチパネルといったユーザインターフェース(図示せず)を介して会話に参加している話者の数が入力されてもよい。この場合には、話者数推定部26は省略されてもよい。
また、上記の各実施形態の変形例によれば、特徴量抽出部22は、人の声を表す特徴として、フレームごとに、パワー積算値の代わりに、あるいはパワー積算値とともに、デルタケプストラムのノルムを算出してもよい。デルタケプストラムのノルムは、次式によって算出される。
ここで、Ct (n)は、フレームtのn次のケプストラムを表し、ΔC(n)は、デルタケプストラムを表す。
また、特徴量抽出部22は、人の声を表す特徴量として、フレームごとに、ピッチ周波数の代わりに、あるいは、ピッチ周波数とともに、次式のように、スペクトルの幾何平均と算術平均の比で表されるスペクトル平坦尺度(flatness-measure)を算出してもよい。
ここで、fkは、周波数k(=1,..,N)におけるスペクトル信号であり、Nは、スペクトル信号が算出された周波数の総数(すなわち、フレームに含まれるサンプリング点数の1/2)を表す。そしてΞ(f)は、flatness-measureである。なお、flatness-measureは、例えば、早川他、「線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識」、電子情報通信学会誌A、Vol.J80-A, No.9, pp.1360-1367, 1997年、に記載されている。
この場合、フィッティング部23は、得られたデルタケプストラムのノルム及びflatness-measureの分布を話者数と同数の確率分布でフィッティングしてもよい。あるいは、フィッティング部23は、得られたパワー、デルタケプストラムのノルム、ピッチ周波数及びflatness-measureのうちの3種類以上の特徴量の分布を話者数と同数の確率分布でフィッティングしてもよい。
また他の変形例によれば、処理部は、一旦会話が通常会話であると判定しても、会話が終了するまで、異常会話検出処理を継続してもよい。この場合には、特徴量抽出部22は、フレームごとの特徴量の組の抽出を継続し、フィッティング部23は、最新の所定数(例えば、100〜1000)の特徴量の組に基づいて、特徴量の分布を話者数の確率分布でフィッティングすればよい。この変形例によれば、異常会話検出装置は、通話中に送話側の話者に、会話が異常会話となったことを警告できるので、送話側の話者が異常な心理状態のまま、何がしかの不利益を被る前に通話を中断させたり、正常状態に戻るきっかけを与えることができる。
また、上記の各実施形態または変形例による異常会話検出装置は、会話が異常会話であると判定する条件が満たされる場合に、その会話に参加している何れかの話者の心理状態が異常であると判定してもよい。
また異常会話検出装置は、携帯電話機に実装されてもよい。
図8は、上記の何れかの実施形態またはその変形例による異常会話検出装置が実装された携帯電話機の概略構成図である。携帯電話機30は、マイクロホン31と、通信部32と、記憶媒体アクセス装置33と、記憶部34と、ユーザインターフェース部35と、処理部36と、スピーカ37とを有する。
マイクロホン31は、音声入力部の一例であり、マイクロホン31の周囲にいる送話側の話者が発する音声を集音してアナログ音声信号を生成し、そのアナログ音声信号をA/Dコンバータ(図示せず)へ出力する。A/Dコンバータは、アナログ音声信号を所定のサンプリングレートでサンプリングしてデジタル化することによりデジタル音声信号を生成する。そしてA/Dコンバータは、デジタル化された音声信号を処理部36へ出力する。
通信部32は、携帯電話機30を基地局を介して電話回線に接続するための無線通信回路を有する。そして通信部32は、電話回線から基地局を介して受信した、受話側の話者が発した音声を電気信号化した下り音声信号を含むデータストリームを受信する。そして通信部32は、そのデータストリームから下り音声信号を抽出する。そして通信部32は、下り音声信号を処理部36へ出力する。
記憶媒体アクセス装置33は、例えば、半導体メモリカードといった記憶媒体38にアクセスする装置である。記憶媒体アクセス装置33は、例えば、記憶媒体38に記憶された処理部36上で実行されるコンピュータプログラムを読み込み、処理部36に渡す。例えば、記憶媒体アクセス装置33は、記憶媒体38から異常会話検出用コンピュータプログラムを読み込んで、処理部36に渡してもよい。
記憶部34は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部34は、処理部36上で実行される各種のアプリケーションプログラム及び各種のデータを記憶する。また記憶部34は、上記の各実施形態または変形例による異常会話検出処理を実行するためのコンピュータプログラム及び異常会話検出処理に用いられる各種のデータを記憶してもよい。さらに記憶部34は、マイクロホン31を介して取得された音声信号と、通信部32を介して取得された下り音声信号とが合成された音声信号を記憶してもよい。
ユーザインターフェース部35は、例えば、複数の操作キーといった入力装置と液晶ディスプレイといった表示装置とを有する。あるいは、ユーザインターフェース部35は、タッチパネルディスプレイのように、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部35は、送話側の話者による入力装置の操作に応じた操作信号を生成し、その操作信号を処理部36へ出力する。またユーザインターフェース部35は、処理部36から受け取った各種の情報を表示装置上に表示する。さらにユーザインターフェース部35は、警告を出力する出力部の一例であり、処理部36が会話が異常会話と判定した場合の警告メッセージを処理部36から受け取り、その警告メッセージを表示装置に表示させてもよい。
処理部36は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部36は、携帯電話機30の各部と信号線を介して接続されており、携帯電話機30の各部を制御する。また処理部36は、話者による操作、あるいは呼び出し信号の着信に応じて呼設定を行ったり、通信を維持するための各種の処理を実行する。そして処理部36は、通話が開始されると、マイクロホン31を介して取得された音声信号と、通信部32を介して取得された下り音声信号とが合成された音声信号を取得する。そして処理部36は、その合成音声信号に対して、上記の実施形態における異常会話検出装置の処理部により実行される異常会話検出処理を実行することで、会話が異常会話か否かを判定する。なお、この例では、処理部36は、携帯電話機30の電話アプリケーションのアプリケーションプログラミングインタフェース(Application Programming Interface、API)を介して会話の開始及び終了を知ることができる。
この例では、処理部36は、会話が異常会話と判定すると、ユーザインターフェース部35の表示装置に警告メッセージを表示させる。あるいは、処理部36は、警告メッセージの音声信号を、出力部の他の一例であるスピーカ37に再生させてもよい。
あるいはまた、処理部36は、会話が異常会話と判定すると、携帯電話機30の電子メール機能を利用して、予め指定された関係者のメールアドレスへ、会話が異常会話と判定されたことを示す警告メールを自動的に送信してもよい。
さらに、上記の各実施形態またはその変形例による異常会話検出装置は、サーバクライアントシステムに実装されてもよい。
図9は、上記の各実施形態またはその変形例による異常会話検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
端末110は、音声入力部111と、記憶部112と、通信部113と、制御部114と、スピーカ115とを有する。音声入力部111、記憶部112、通信部113及びスピーカ115は、例えば、制御部114とバスを介して接続されている。
音声入力部111は、例えば、オーディオインターフェースとA/Dコンバータを有する。そして音声入力部111は、モジュラーローゼットと電話機間に接続された通話録音アダプタから、会話を含む、アナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部111は、デジタル化された音声信号を制御部114へ出力する。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、異常会話検出処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。
通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取った特徴量の組を、端末110の識別情報とともに通信ネットワーク130を介してサーバ120へ送信する。また通信部113は、会話が異常会話か否かの判定結果をサーバ120から通信ネットワーク130を介して受信して、制御部114に渡す。
制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、上記の各実施形態または変形例による処理部の各機能のうち、スペクトル算出部21、特徴量抽出部22及び警告部25の機能を実現する。すなわち、制御部114は、音声信号をフレーム単位に分割し、各フレームから人の声の特徴を表す2種類以上の特徴量を抽出する。そして制御部114は、フレームごとの特徴量の組を、端末110の識別情報とともに、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。
また制御部114は、サーバ120から通信ネットワーク130及び通信部113を介して、会話が異常会話であるとの判定結果を受信すると、スピーカ115を介して警告音声を出力する。
サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。
通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、フレームごとの特徴量の組と端末110の識別情報とを端末110から通信ネットワーク130を介して受信して処理部123に渡す。また通信部121は、端末110の識別情報に基づいて、処理部123から受け取った会話が異常会話であるとの判定結果を通信ネットワーク130を介して端末110へ送信する。
記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラムなどを記憶する。また記憶部122は、異常会話検出処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴量の組を記憶していてもよい。
処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の各実施形態または変形例による処理部の各機能のうち、フィッティング部23及び判定部24の機能を実現する。さらに、処理部123は、話者数推定部26の機能を実現してもよい。すなわち、処理部123は、端末110から受信した、フレームごとの特徴量の組から、特徴量の分布を話者数と同じ数の確率分布でフィッティングする。そして処理部123は、フィッティングした各確率分布が特徴量の分布を近似できていれば、会話は通常会話であると判定し、一方、フィッティングした各確率分布が特徴量の分布を近似できていなければ、会話は異常会話であると判定する。そして処理部123は、その判定結果を、通信部121及び通信ネットワーク130を介して端末110へ送信する。
この実施形態によれば、個々の端末110は、会話を録音した音声信号からフレームごとの特徴量の組を抽出してサーバ120へ送信するだけで、その会話が異常会話か否かの判定結果を得ることができる。
上記の各実施形態または変形例による異常会話検出装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
複数の話者の会話を含む音声信号を入力する音声入力部と、
記憶部と、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、該少なくとも二つの特徴量の組を前記記憶部に保存する特徴量抽出部と、
前記記憶部に記憶された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングするフィッティング部と、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する判定部と、
を有する異常会話検出装置。
(付記2)
前記フィッティング部は、前記話者の数と同じ数の確率分布を含む混合分布で前記少なくとも二つの特徴量の組の分布をフィッティングし、
前記判定部は、前記混合分布に含まれる各確率分布が前記特徴量の分布に適合している度合いを表す適合度を算出し、該適合度が、各確率分布が前記特徴量の分布を近似できているときの適合度の下限に相当する閾値未満である場合、前記会話は異常会話であると判定する、付記1に記載の異常会話検出装置。
(付記3)
前記フィッティング部は、混合分布に含まれる確率分布の数を変えつつ、前記確率分布の数ごとに前記適合度を算出し、前記適合度に基づいて、前記特徴量の分布に最も適合している確率分布の数を求め、
前記判定部は、前記確率分布の数が前記話者の数よりも多い場合、前記会話は異常会話であると判定する、付記1に記載の異常会話検出装置。
(付記4)
前記フィッティング部は、前記適合度として赤池情報量基準またはベイジアン情報量基準を算出し、赤池情報量基準またはベイジアン情報量基準が最小となるときの確率分布の数を前記特徴量の分布に最も適合している確率分布の数として求める、付記3に記載の異常会話検出装置。
(付記5)
前記音声信号から前記話者の数を推定する話者数推定部をさらに有する、付記3または4に記載の異常会話検出装置。
(付記6)
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことを含む異常会話検出方法。
(付記7)
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことをコンピュータに実行させるための異常会話検出用コンピュータプログラム。
1 異常会話検出装置
2−1、2−2 電話機
3 分配器
4 モジュラーローゼット
5 通話録音アダプタ
6 電話回線
11 インターフェース部
12 A/Dコンバータ
13、13’ 処理部
14 記憶部
15 D/Aコンバータ
16 スピーカ
21 スペクトル算出部
22 特徴量抽出部
23 フィッティング部
24 判定部
25 警告部
26 話者数推定部
30 携帯電話機(異常会話検出装置)
31 マイクロホン
32 通信部
33 記憶媒体アクセス装置
34 記憶部
35 ユーザインターフェース部
36 処理部
37 スピーカ
38 記憶媒体
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
115 スピーカ
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク

Claims (6)

  1. 複数の話者の会話を含む音声信号を入力する音声入力部と、
    記憶部と、
    前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、該少なくとも二つの特徴量の組を前記記憶部に保存する特徴量抽出部と、
    前記記憶部に記憶された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングするフィッティング部と、
    前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する判定部と、
    を有する異常会話検出装置。
  2. 前記フィッティング部は、前記話者の数と同じ数の確率分布を含む混合分布で前記少なくとも二つの特徴量の組の分布をフィッティングし、
    前記判定部は、前記混合分布に含まれる各確率分布が前記特徴量の分布に適合している度合いを表す適合度を算出し、該適合度が、各確率分布が前記特徴量の分布を近似できているときの適合度の下限に相当する閾値未満である場合、前記会話は異常会話であると判定する、請求項1に記載の異常会話検出装置。
  3. 前記フィッティング部は、混合分布に含まれる確率分布の数を変えつつ、前記確率分布の数ごとに前記適合度を算出し、前記適合度に基づいて、前記特徴量の分布に最も適合している確率分布の数を求め、
    前記判定部は、前記確率分布の数が前記話者の数よりも多い場合、前記会話は異常会話であると判定する、請求項1に記載の異常会話検出装置。
  4. 前記音声信号から前記話者の数を推定する話者数推定部をさらに有する、請求項3に記載の異常会話検出装置。
  5. 複数の話者の会話を含む音声信号を取得し、
    前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
    前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
    前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
    ことを含む異常会話検出方法。
  6. 複数の話者の会話を含む音声信号を取得し、
    前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
    前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
    前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
    ことをコンピュータに実行させるための異常会話検出用コンピュータプログラム。
JP2013221466A 2013-10-24 2013-10-24 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム Active JP6268916B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013221466A JP6268916B2 (ja) 2013-10-24 2013-10-24 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013221466A JP6268916B2 (ja) 2013-10-24 2013-10-24 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015082093A true JP2015082093A (ja) 2015-04-27
JP6268916B2 JP6268916B2 (ja) 2018-01-31

Family

ID=53012691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013221466A Active JP6268916B2 (ja) 2013-10-24 2013-10-24 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6268916B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
WO2019107170A1 (ja) * 2017-11-29 2019-06-06 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム
JP2019211633A (ja) * 2018-06-05 2019-12-12 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN110998725A (zh) * 2018-04-19 2020-04-10 微软技术许可有限责任公司 在对话中生成响应

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219286A (ja) * 2006-02-17 2007-08-30 Tokyo Institute Of Technology 音声のスタイル検出装置、その方法およびそのプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219286A (ja) * 2006-02-17 2007-08-30 Tokyo Institute Of Technology 音声のスタイル検出装置、その方法およびそのプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
WO2019107170A1 (ja) * 2017-11-29 2019-06-06 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム
CN110998725A (zh) * 2018-04-19 2020-04-10 微软技术许可有限责任公司 在对话中生成响应
US11922934B2 (en) 2018-04-19 2024-03-05 Microsoft Technology Licensing, Llc Generating response in conversation
CN110998725B (zh) * 2018-04-19 2024-04-12 微软技术许可有限责任公司 在对话中生成响应
JP2019211633A (ja) * 2018-06-05 2019-12-12 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP7095414B2 (ja) 2018-06-05 2022-07-05 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Also Published As

Publication number Publication date
JP6268916B2 (ja) 2018-01-31

Similar Documents

Publication Publication Date Title
JP6268717B2 (ja) 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
JP5810946B2 (ja) 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US8589167B2 (en) Speaker liveness detection
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
WO2021139327A1 (zh) 一种音频信号处理方法、模型训练方法以及相关装置
US20130006633A1 (en) Learning speech models for mobile device users
US20130325470A1 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization
US20090018826A1 (en) Methods, Systems and Devices for Speech Transduction
CN105118522B (zh) 噪声检测方法及装置
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
WO2015161240A2 (en) Speaker verification
WO2014114049A1 (zh) 一种语音识别的方法、装置
EP2083417B1 (en) Sound processing device and program
WO2014120291A1 (en) System and method for improving voice communication over a network
WO2022052246A1 (zh) 语音信号的检测方法、终端设备及存储介质
US20150325252A1 (en) Method and device for eliminating noise, and mobile terminal
CN104851423B (zh) 一种声音信息处理方法及装置
US9286913B2 (en) Atmosphere expression word selection system, atmosphere expression word selection method, and program
US9058820B1 (en) Identifying speech portions of a sound model using various statistics thereof
CN111326159B (zh) 一种语音识别方法、装置、系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171218

R150 Certificate of patent or registration of utility model

Ref document number: 6268916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150