JP2015082093A - 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム - Google Patents
異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム Download PDFInfo
- Publication number
- JP2015082093A JP2015082093A JP2013221466A JP2013221466A JP2015082093A JP 2015082093 A JP2015082093 A JP 2015082093A JP 2013221466 A JP2013221466 A JP 2013221466A JP 2013221466 A JP2013221466 A JP 2013221466A JP 2015082093 A JP2015082093 A JP 2015082093A
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- conversation
- speakers
- unit
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 141
- 238000004590 computer program Methods 0.000 title claims description 13
- 238000000034 method Methods 0.000 title description 33
- 238000009826 distribution Methods 0.000 claims abstract description 210
- 238000001514 detection method Methods 0.000 claims description 66
- 230000005236 sound signal Effects 0.000 claims description 49
- 239000000284 extract Substances 0.000 abstract description 10
- 238000012545 processing Methods 0.000 description 68
- 238000004891 communication Methods 0.000 description 36
- 238000001228 spectrum Methods 0.000 description 32
- 238000000605 extraction Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 24
- 230000004048 modification Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000007476 Maximum Likelihood Methods 0.000 description 9
- 239000004065 semiconductor Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000005311 autocorrelation function Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 238000002994 Monte Carlo simulated annealing Methods 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Abstract
【解決手段】異常会話検出装置1は、複数の話者の会話を含む音声信号を入力する音声入力部11と、記憶部14と、音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、その少なくとも二つの特徴量の組を記憶部14に保存する特徴量抽出部22と、記憶部14に記憶された特徴量の分布を話者の数と同じ数の確率分布でフィッティングするフィッティング部23と、話者の数と同じ数の確率分布が特徴量の分布を近似できているか否か判定し、話者の数と同じ数の確率分布が特徴量の分布を近似できていない場合、会話は異常会話であると判定する判定部24とを有する。
【選択図】図3
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
発明者は、話者が平常状態で話しているときの話者の声を含む音声信号をフレーム単位で分割し、各フレームから人の声の特徴を表す2以上の特徴量を抽出すると、一人の話者声の特徴量の分布は正規分布といった一つの確率分布で近似できることを見出した。さらに、発明者は、話者の心理状態が平常でなくなり、話者の声にその心理状態が反映されるようになると、一人の話者の声の特徴量の分布は、一つの確率分布で近似できなくなることを見出した。
なお、異常会話とは、会話に参加している複数の話者のうち、少なくとも何れか一人の話者の心理状態が異常な状態で行われている会話である。また、話者の心理状態が異常な状態とは、話者が平静を保つことができないような状態であり、例えば、怒ったり、怯えたり、泣いたりといった行動をとる状態である。
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。
例えば、フレーム長が32msecであり、A/Dコンバータ12のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれるので、スペクトル算出部21は、256点のFFTを実行する。
また、フィッティング部23は、特徴量の分布をフィッティングする確率分布を求めるために利用するアルゴリズムとして、EMアルゴリズムの代わりに、マルコフ連鎖モンテカルロ法またはシミュレーティッドアニーリングを利用してもよい。
図4(a)及び図4(b)において、横軸はパワーの積算値を表し、縦軸はピッチ周波数を表す。また各点400は、それぞれ、一つの特徴量の組を表す。図4(a)に示されるように、二人の話者が平常状態で会話しているとき、すなわち、その会話が通常会話である場合、楕円401及び楕円402で示される、特徴量の分布をフィッティングした二つの正規分布によって特徴量の分布が比較的良好に近似されている。そのため、適合度も高くなる。
ステップS108またはS110の後、処理部13は、異常会話検出処理を終了する。
なお、話者数推定部26は、音声信号から話者の数を推定する他の手法に従って、話者の数を推定してもよい。
話者数推定部26は、推定した話者の数を判定部24へ通知する。
またフィッティング部23は、特徴量の分布を確率分布でフィッティングするのに最も適した確率分布の数を算出する(ステップS202)。そしてフィッティング部23は、確率分布の数を判定部24へ通知する。
ステップS204またはS206の後、処理部13’は、異常会話検出処理を終了する。なお、ステップS201の処理とステップS202の処理の順序は逆でもよく、あるいは、ステップS201の処理とステップS202の処理は並行して行われてもよい。
また、上記の各実施形態または変形例による異常会話検出装置は、会話が異常会話であると判定する条件が満たされる場合に、その会話に参加している何れかの話者の心理状態が異常であると判定してもよい。
図8は、上記の何れかの実施形態またはその変形例による異常会話検出装置が実装された携帯電話機の概略構成図である。携帯電話機30は、マイクロホン31と、通信部32と、記憶媒体アクセス装置33と、記憶部34と、ユーザインターフェース部35と、処理部36と、スピーカ37とを有する。
あるいはまた、処理部36は、会話が異常会話と判定すると、携帯電話機30の電子メール機能を利用して、予め指定された関係者のメールアドレスへ、会話が異常会話と判定されたことを示す警告メールを自動的に送信してもよい。
図9は、上記の各実施形態またはその変形例による異常会話検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
また制御部114は、サーバ120から通信ネットワーク130及び通信部113を介して、会話が異常会話であるとの判定結果を受信すると、スピーカ115を介して警告音声を出力する。
(付記1)
複数の話者の会話を含む音声信号を入力する音声入力部と、
記憶部と、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、該少なくとも二つの特徴量の組を前記記憶部に保存する特徴量抽出部と、
前記記憶部に記憶された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングするフィッティング部と、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する判定部と、
を有する異常会話検出装置。
(付記2)
前記フィッティング部は、前記話者の数と同じ数の確率分布を含む混合分布で前記少なくとも二つの特徴量の組の分布をフィッティングし、
前記判定部は、前記混合分布に含まれる各確率分布が前記特徴量の分布に適合している度合いを表す適合度を算出し、該適合度が、各確率分布が前記特徴量の分布を近似できているときの適合度の下限に相当する閾値未満である場合、前記会話は異常会話であると判定する、付記1に記載の異常会話検出装置。
(付記3)
前記フィッティング部は、混合分布に含まれる確率分布の数を変えつつ、前記確率分布の数ごとに前記適合度を算出し、前記適合度に基づいて、前記特徴量の分布に最も適合している確率分布の数を求め、
前記判定部は、前記確率分布の数が前記話者の数よりも多い場合、前記会話は異常会話であると判定する、付記1に記載の異常会話検出装置。
(付記4)
前記フィッティング部は、前記適合度として赤池情報量基準またはベイジアン情報量基準を算出し、赤池情報量基準またはベイジアン情報量基準が最小となるときの確率分布の数を前記特徴量の分布に最も適合している確率分布の数として求める、付記3に記載の異常会話検出装置。
(付記5)
前記音声信号から前記話者の数を推定する話者数推定部をさらに有する、付記3または4に記載の異常会話検出装置。
(付記6)
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことを含む異常会話検出方法。
(付記7)
複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことをコンピュータに実行させるための異常会話検出用コンピュータプログラム。
2−1、2−2 電話機
3 分配器
4 モジュラーローゼット
5 通話録音アダプタ
6 電話回線
11 インターフェース部
12 A/Dコンバータ
13、13’ 処理部
14 記憶部
15 D/Aコンバータ
16 スピーカ
21 スペクトル算出部
22 特徴量抽出部
23 フィッティング部
24 判定部
25 警告部
26 話者数推定部
30 携帯電話機(異常会話検出装置)
31 マイクロホン
32 通信部
33 記憶媒体アクセス装置
34 記憶部
35 ユーザインターフェース部
36 処理部
37 スピーカ
38 記憶媒体
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
115 スピーカ
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク
Claims (6)
- 複数の話者の会話を含む音声信号を入力する音声入力部と、
記憶部と、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、該少なくとも二つの特徴量の組を前記記憶部に保存する特徴量抽出部と、
前記記憶部に記憶された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングするフィッティング部と、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する判定部と、
を有する異常会話検出装置。 - 前記フィッティング部は、前記話者の数と同じ数の確率分布を含む混合分布で前記少なくとも二つの特徴量の組の分布をフィッティングし、
前記判定部は、前記混合分布に含まれる各確率分布が前記特徴量の分布に適合している度合いを表す適合度を算出し、該適合度が、各確率分布が前記特徴量の分布を近似できているときの適合度の下限に相当する閾値未満である場合、前記会話は異常会話であると判定する、請求項1に記載の異常会話検出装置。 - 前記フィッティング部は、混合分布に含まれる確率分布の数を変えつつ、前記確率分布の数ごとに前記適合度を算出し、前記適合度に基づいて、前記特徴量の分布に最も適合している確率分布の数を求め、
前記判定部は、前記確率分布の数が前記話者の数よりも多い場合、前記会話は異常会話であると判定する、請求項1に記載の異常会話検出装置。 - 前記音声信号から前記話者の数を推定する話者数推定部をさらに有する、請求項3に記載の異常会話検出装置。
- 複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことを含む異常会話検出方法。 - 複数の話者の会話を含む音声信号を取得し、
前記音声信号に対して、所定の時間長を持つフレーム単位で人の声の特徴を表す少なくとも二つの特徴量を抽出し、
前記抽出された特徴量の分布を前記話者の数と同じ数の確率分布でフィッティングし、
前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できているか否か判定し、前記話者の数と同じ数の確率分布が前記特徴量の分布を近似できていない場合、前記会話は異常会話であると判定する、
ことをコンピュータに実行させるための異常会話検出用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013221466A JP6268916B2 (ja) | 2013-10-24 | 2013-10-24 | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013221466A JP6268916B2 (ja) | 2013-10-24 | 2013-10-24 | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015082093A true JP2015082093A (ja) | 2015-04-27 |
JP6268916B2 JP6268916B2 (ja) | 2018-01-31 |
Family
ID=53012691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013221466A Active JP6268916B2 (ja) | 2013-10-24 | 2013-10-24 | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6268916B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017044916A (ja) * | 2015-08-27 | 2017-03-02 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
WO2019107170A1 (ja) * | 2017-11-29 | 2019-06-06 | 日本電信電話株式会社 | 緊急度推定装置、緊急度推定方法、プログラム |
JP2019211633A (ja) * | 2018-06-05 | 2019-12-12 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN110998725A (zh) * | 2018-04-19 | 2020-04-10 | 微软技术许可有限责任公司 | 在对话中生成响应 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7331588B2 (ja) * | 2019-09-26 | 2023-08-23 | ヤマハ株式会社 | 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219286A (ja) * | 2006-02-17 | 2007-08-30 | Tokyo Institute Of Technology | 音声のスタイル検出装置、その方法およびそのプログラム |
-
2013
- 2013-10-24 JP JP2013221466A patent/JP6268916B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219286A (ja) * | 2006-02-17 | 2007-08-30 | Tokyo Institute Of Technology | 音声のスタイル検出装置、その方法およびそのプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017044916A (ja) * | 2015-08-27 | 2017-03-02 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
WO2019107170A1 (ja) * | 2017-11-29 | 2019-06-06 | 日本電信電話株式会社 | 緊急度推定装置、緊急度推定方法、プログラム |
CN110998725A (zh) * | 2018-04-19 | 2020-04-10 | 微软技术许可有限责任公司 | 在对话中生成响应 |
US11922934B2 (en) | 2018-04-19 | 2024-03-05 | Microsoft Technology Licensing, Llc | Generating response in conversation |
CN110998725B (zh) * | 2018-04-19 | 2024-04-12 | 微软技术许可有限责任公司 | 在对话中生成响应 |
JP2019211633A (ja) * | 2018-06-05 | 2019-12-12 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
JP7095414B2 (ja) | 2018-06-05 | 2022-07-05 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6268916B2 (ja) | 2018-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6268717B2 (ja) | 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
JP5810946B2 (ja) | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム | |
US8731936B2 (en) | Energy-efficient unobtrusive identification of a speaker | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
US8589167B2 (en) | Speaker liveness detection | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
JP4796309B2 (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
JP5664480B2 (ja) | 異常状態検出装置、電話機、異常状態検出方法、及びプログラム | |
WO2021139327A1 (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
US20130006633A1 (en) | Learning speech models for mobile device users | |
US20130325470A1 (en) | System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization | |
US20090018826A1 (en) | Methods, Systems and Devices for Speech Transduction | |
CN105118522B (zh) | 噪声检测方法及装置 | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
WO2015161240A2 (en) | Speaker verification | |
WO2014114049A1 (zh) | 一种语音识别的方法、装置 | |
EP2083417B1 (en) | Sound processing device and program | |
WO2014120291A1 (en) | System and method for improving voice communication over a network | |
WO2022052246A1 (zh) | 语音信号的检测方法、终端设备及存储介质 | |
US20150325252A1 (en) | Method and device for eliminating noise, and mobile terminal | |
CN104851423B (zh) | 一种声音信息处理方法及装置 | |
US9286913B2 (en) | Atmosphere expression word selection system, atmosphere expression word selection method, and program | |
US9058820B1 (en) | Identifying speech portions of a sound model using various statistics thereof | |
CN111326159B (zh) | 一种语音识别方法、装置、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6268916 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |