JP5664480B2 - 異常状態検出装置、電話機、異常状態検出方法、及びプログラム - Google Patents

異常状態検出装置、電話機、異常状態検出方法、及びプログラム Download PDF

Info

Publication number
JP5664480B2
JP5664480B2 JP2011146047A JP2011146047A JP5664480B2 JP 5664480 B2 JP5664480 B2 JP 5664480B2 JP 2011146047 A JP2011146047 A JP 2011146047A JP 2011146047 A JP2011146047 A JP 2011146047A JP 5664480 B2 JP5664480 B2 JP 5664480B2
Authority
JP
Japan
Prior art keywords
utterance
utterance data
data
statistic
abnormal state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011146047A
Other languages
English (en)
Other versions
JP2013011830A (ja
Inventor
昭二 早川
昭二 早川
松尾 直司
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011146047A priority Critical patent/JP5664480B2/ja
Priority to US13/446,019 priority patent/US9020820B2/en
Publication of JP2013011830A publication Critical patent/JP2013011830A/ja
Application granted granted Critical
Publication of JP5664480B2 publication Critical patent/JP5664480B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本明細書で議論される実施態様は、話者の発話を分析する技術に関するものである。
話者の発話(発声音)を分析することによって、その話者の感情を分析するという技術が幾つか知られている。これらの多くは、発話の平均音量と偏差、ピッチ(基本周波数)の平均と偏差、ポーズ(無音)区間の出現タイミング等を用いて感情の分析を行うというものである。
例えば、発話の音量や音高といった韻律成分を特徴パラメータとし、当該特徴パラメータについての、過去5秒間程度の統計量(基準値)に対する、過去1秒間程度の統計量からの逸脱量に基づいて、話者の感情を分析するという技術が知られている。
また、話者が力んだ状態で行った発話であるかどうかを、発話の振幅包絡に周期的変動が見られるか否かを判断することによって判定するという技術が知られている。
なお、この他の技術として、ピッチ周波数やパワーが所定の閾値以上である特異な発話を検出することによって、直前の音声認識処理の結果の正誤を認知するという技術が知られている。
また、発話のピッチが平常時よりも高い場合、発話のパワーが平常時よりも大きい場合、あるいは発話の速度が平常時よりも速い場合を検出して緊急時と判定し、緊急時に適応させた音声認識処理を行うという技術が知られている。
特開2004−317822号公報 特開2008−170820号公報 特開2009−3162号公報 特開平8−30290号公報 特開平5−119792号公報
昨今、電話を用いて相手を騙して金銭の振り込みを行わせる、いわゆる「振り込め詐欺」が大きな社会問題となっている。この振り込め詐欺は、詐欺者が被害者に大量の情報を与えて判断を鈍らせるのが常套手段となっている。従って、詐欺者との電話での会話における被害者の発話から、被害者が普段とは異なる状態(異常状態)に陥っていることを検出することができれば、検出結果を被害者に通知することで、振り込め詐欺の被害を未然に防止することが可能である。
ここで、前述した、発話の特徴パラメータの統計量についての、基準値に対する逸脱量に基づいた話者の感情の分析の技術を用いて、話者が異常状態に陥っていることの検出を行うことを考える。
統計学で述べられているように、真の分布(母分布)からサンプルを抜き出した標本サンプルの統計量は、サンプル数が少ないほど母分布の統計量からのばらつきが大きくなる。従って、上述した感情の分析の技術では、十分な統計量を得るためには発話の音声サンプルが多量に必要であり、音声サンプル数が少ないと分析結果の信頼性が低下する。ところが、振り込め詐欺は、前述のように詐欺者が被害者に大量の情報を与えるのが常套手段であることから、被害者は相手の話しを聞く割合が増え、発話量が少ない。このため、前述した感情の分析の技術を用いた異常状態の検出では、被害者の発話の音声サンプルが十分に確保できずに、結果として、十分な検出精度が得られないことが懸念される。
また、前述した感情の分析の技術では、基準値が話者の非異常状態(異常状態ではない状態)を表しているとは限らず、話者の異常状態を基準値としてしまう場合も考えられ、この場合には異常状態の検出に失敗してしまう。
上述した問題に鑑み、本明細書で後述する異常状態検出装置は、話者の異常状態の検出を高い検出精度で行えるようにする。
本明細書で後述する異常状態検出装置のひとつに、取得部、第一算出部、擬似発話データ作成部、第二算出部、及び検出部を備えるというものがある。ここで、取得部は、話者の発話を表している発話データの入力を取得する。第一算出部は、発話データから、発話の特徴を表している特徴パラメータの統計量を算出する。擬似発話データ作成部は、基準発話データと、取得部により取得された発話データとの各々についての特徴パラメータの統計量に基づき、この特徴パラメータのうちの少なくとも1つの統計量が基準発話データについての統計量と一致する擬似発話データを作成する。なお、基準発話データとは、平常状態下の発話を表している発話データである。第二算出部は、この擬似発話データと取得部により取得された発話データについての特徴パラメータの統計量とに基づき、当該擬似発話データを当該発話データが入力された分だけ置き換えて得られる合成発話データについての特徴パラメータの統計量を算出する。そして、検出部は、合成発話データと基準発話データとの各々についての特徴パラメータの統計量の違いに基づいて、取得部により取得された発話データによって表される発話時における、話者の異常状態を検出する。
また、本明細書で後述する異常状態検出方法のひとつは、まず、話者の発話を表している発話データの入力を取得する。次に、この取得された発話データから、発話の特徴を表している特徴パラメータの統計量を算出する。次に、平常状態下の発話を表している基準発話データと、取得された発話データとの各々についての特徴パラメータの統計量に基づき、特徴パラメータのうちの少なくとも1つの統計量が基準発話データについての統計量と一致する擬似発話データを作成する。次に、擬似発話データと取得された発話データについての特徴パラメータの統計量とに基づき、当該擬似発話データを当該発話データに繋げて得られる合成発話データについての特徴パラメータの統計量を算出する。そして、合成発話データと基準発話データとの各々についての特徴パラメータの統計量の違いに基づいて、取得された発話データによって表される発話時における、発話の異常状態を検出する。
また、本明細書で後述するプログラムのひとつは、以下の処理を演算処理装置に行わせる。この処理は、まず、話者の発話を表している発話データの入力を取得する。次に、この取得された発話データから、発話の特徴を表している特徴パラメータの統計量を算出する。次に、平常状態下の発話を表している基準発話データと、取得された発話データとの各々についての特徴パラメータの統計量に基づき、特徴パラメータのうちの少なくとも1つの統計量が基準発話データについての統計量と一致する擬似発話データを作成する。次に、擬似発話データと取得された発話データについての特徴パラメータの統計量とに基づき、当該擬似発話データを当該発話データに繋げて得られる合成発話データについての特徴パラメータの統計量を算出する。そして、合成発話データと基準発話データとの各々についての特徴パラメータの統計量の違いに基づいて、取得された発話データによって表される発話時における、発話の異常状態を検出する。
本明細書で後述する異常状態検出装置によれば、発話の音声サンプル数が少なくても、発話者の異常状態の検出を高い検出精度で行えるという効果を奏する。
異常状態検出装置を備える電話機の一実施例の機能ブロック図である。 図1の電話機1の一実施例のハードウェア構成例である。 記憶される電話帳データのデータ構造の一例である。 異常状態検出装置の一実施例のハードウェア構成例である。 基準発話データ統計量登録処理の処理内容を図解したフローチャートである。 異常状態検出処理の処理内容を図解したフローチャートである。 リングバッファ内における擬似発話データの推移を表した模式図である。 母音フレーム数とリングバッファ内のサンプルの標準偏差との関係を表したグラフである。 母音フレーム数と距離との関係を表したグラフである。 平均距離の算出手法を説明する図(その1)である。 平均距離の算出手法を説明する図(その2)である。 異常状態検出装置による異常状態の検出手法と従来手法との対比を行った結果を表したグラフである。 異常状態検出処理の変形例の処理内容の一部を図解したフローチャートである。 基準発話データ更新処理の処理内容を図解したフローチャートである。 基準発話データ更新処理の第一変形例の処理内容の一部を図解したフローチャートである。 基準発話データ更新処理の第二変形例の処理内容の一部を図解したフローチャートである。
まず図1について説明する。図1は、異常状態検出装置を備える電話機の一実施例の機能ブロック図である。
図1の電話機1は異常状態検出装置10を備えている。異常状態検出装置10は、話者の発話を表しているデータ(発話データ2)を分析して、当該話者が異常状態に陥っていることの検出を行う。
異常状態検出装置10は、取得部11、第一算出部12、擬似発話データ作成部13、第二算出部14、及び検出部15を備えている。
取得部11は、電話機1からの発話データ2の入力を取得する。
第一算出部12は、話者の発話を表している発話データ2から、発話の特徴を表している特徴パラメータの統計量を算出する。
擬似発話データ作成部13は、取得部11により取得された発話データ2と、基準発話データ3との各々についての上述の特徴パラメータの統計量に基づき擬似発話データ4を作成する。なお、基準発話データ3とは、異常状態の検出対象となる話者の平常状態下の発話を表しているデータである。また、擬似発話データ4とは、上述の特徴パラメータのうちの少なくとも1つの統計量が、基準発話データ3についてのものと一致しているデータである。
第二算出部14は、擬似発話データ4と取得部11により取得された発話データ2についての上述の特徴パラメータの統計量とに基づき、擬似発話データ4を発話データ2に繋げて得られる合成発話データ5についての上述の特徴パラメータの統計量を算出する。
検出部15は、合成発話データ5と基準発話データ3との各々についての特徴パラメータの統計量の違いに基づいて、取得部11により取得された発話データ2によって表されている発話の話者が異常状態にあることを検出する。
上述のように、合成発話データ5は、発話データ2に擬似発話データ4を付加して作成されるものである。ここで、擬似発話データ4は、特徴パラメータの統計量の一部が基準発話データ3に一致しているので、作成される合成発話データ5は、当該特徴パラメータの一部の統計的性質が基準発話データ3に類似したものになる。従って、発話データ2で発話が表されている話者が、基準発話データ3で発話が表されている話者と同様の平常状態下にある場合には、合成発話データ5と基準発話データ3とにおける当該特徴パラメータの一部の統計的性質は類似する。その一方で、発話データ2で発話が表されている話者が異常状態に陥っている場合には、合成発話データ5と基準発話データ3とにおける当該特徴パラメータの一部の統計的性質は全く異なったものになる。従って、検出部15は、取得部11により取得された発話データ2によって表されている発話の話者が異常状態にあることの検出を、合成発話データ5と基準発話データ3との間での特徴パラメータの統計量の違いに基づいて行うことができるのである。
なお、ここで、基準発話データ3を十分に多くのサンプルから生成するようにして母分布の統計量からのばらつきを小さくしておくことができる。このようにしておくと、発話データ2のサンプル数が少なくても、合成発話データ5には、十分に多くのサンプル数に基づいたものと同様の特徴パラメータの統計的性質が表れる。従って、話者が異常状態にあることの検出を高い精度で行うことができる。
なお、上述の特徴パラメータには、例えば、発話のピッチの周波数の時間変化の平均値及び標準偏差並びに当該発話の対数パワーの時間変化の平均値及び標準偏差が用いられる。
なお、この場合、擬似発話データ作成部13は、擬似発話データ4として、以下のようにしたものを作成する。すなわち、擬似発話データ作成部13は、擬似発話データ4で表される発話のピッチの周波数の時間変化の平均値を、発話データ2で表されている発話についてのものと一致させる。これと共に、擬似発話データ作成部13は、この周波数の時間変化の標準偏差を、基準発話データ3で表されている発話についてのものと一致させる。更に、擬似発話データ作成部13は、擬似発話データ4で表される発話の対数パワーの時間変化の平均値を、発話データ2で表されている発話についてのものと一致させる。これと共に、擬似発話データ作成部13は、この対数パワーの時間変化の標準偏差を、基準発話データ3で表されている発話についてのものと一致させる。擬似発話データ作成部13は、このようにして、擬似発話データ4を作成する。
このようにして作成された擬似発話データ4は、特徴パラメータの統計量の一部が発話データ2に一致しており、特徴パラメータの統計量の他の一部が基準発話データ3に一致しているものになる。
また、この場合、検出部15は、発話のピッチの周波数の時間変化の標準偏差と当該発話の対数パワーの時間変化の標準偏差とで定義される二次元空間における、合成発話データ5と基準発話データ3との間の距離の大きさに基づいて、前述の検出を行う。
この距離の大きさは、合成発話データ5についての特徴パラメータの統計量と、基準発話データ3についての特徴パラメータの統計量との違いを表す指標の一例である。
なお、検出部15は、取得部11により取得された発話データ2のうちで、上述の特徴パラメータの統計量の時間変化が、所定の第一閾値よりも大きいものを、前記検出の基礎から除外するようにしてもよい。
このような、上述の統計量の時間変化が顕著に大きい発話データ2は、異常なデータであり、話者が異常状態にあることの検出に使用することが適切ではないと考えられる。そこで、検出部15が、このような発話データ2を前述の検出の基礎から除外することで、検出の精度の低下が未然に防止される。
なお、異常状態検出装置10は更新部16を更に備えてもよい。
更新部16は、取得部11が取得した発話データ2と基準発話データ3との各々についての特徴パラメータの統計量の違いが所定の第二閾値よりも少ない場合に、取得した発話データ2を用いて基準発話データ3についての特徴パラメータの統計量の更新を行う。
なお、更新部16により基準発話データ3についての特徴パラメータの統計量が更新された場合には、擬似発話データ作成部13は、当該更新された基準発話データ3についての特徴パラメータの統計量に基づき擬似発話データ4を作成する。また、第二算出部14は、更新後の基準発話データ3についての特徴パラメータの統計量で作成された擬似発話データ4と取得部11が取得した発話データ2との特徴パラメータの統計量に基づき、合成発話データ5についての特徴パラメータの統計量を算出する。そして、検出部15は、更新後の基準発話データ3についての特徴パラメータの統計量に基づき算出された合成発話データ5についての特徴パラメータの統計量と、更新後の基準発話データ3についての特徴パラメータの統計量との違いに基づき、前述の検出を行う。
新たに取得した発話データ2と基準発話データ3との各々についての特徴パラメータの統計量の違いが顕著に少なければ、新たに取得した発話データ2で表されている発話の話者は、基準発話データ3で表されている発話の話者の状態と同等の状態にあると推定できる。つまり、新たに取得した発話データ2で表されている発話の話者は、平常状態と同等の非異常状態下にあると推定できる。そこで、更新部16は、この場合に、新たに取得した発話データ2を用いて基準発話データ3についての特徴パラメータの統計量を更新する。このようにすることで、話者が異常状態にあることの検出を、最新の基準発話データ3についての特徴パラメータの統計量を用いて行うことができるようになる。また、このようにする場合には、基準発話データ3で表されている発話の話者が不特定者であるような場合でも、基準発話データ3についての特徴パラメータの統計量の更新によって、適切な異常状態の検出を行えるようになる。
なお、異常状態検出装置10は、更新部16と共に、基準発話データ記憶部17を更に備えてもよい。
基準発話データ記憶部17は、複数種類の基準発話データ3の各々についての特徴パラメータの統計量を記憶しておく記憶部である。
この場合、更新部16は、基準発話データ記憶部17に記憶されている複数種類の基準発話データ3の各々の特徴パラメータの統計量のうち、取得した発話データ2についてのものとの違いが最小であるものを、当該発話データ2を用いて更新するようにする。
このように構成することで、基準発話データ3で表されている発話の話者が、取得部11が取得する発話データ2の発話の話者と同一人でないような場合でも、特徴パラメータの統計量の更新を繰り返すことで、話者が異常状態にあることの検出の精度が向上する。
なお、異常状態検出装置10は、制御部18を更に備えている。制御部18は、異常状態検出装置10の各構成要素の動作制御を行う。
なお、図1の電話機1は、異常状態検出装置10と共に、電話帳データ記憶部20を備えていてもよい。
電話帳データ記憶部20は、通話先と当該通話先の電話番号とを対応付けた情報である電話帳データを記憶する記憶部である。
この場合、異常状態検出装置10が備える更新部16は、取得部11が、電話帳データ記憶部20に記憶されている電話帳データに含まれている通話先との通話における話者の発話を表している発話データ2を取得した場合にのみ、前述の更新を行う。
電話機1の電話帳データに含まれているような通話先との通話時であれば、話者は非異常状態下にあると推定することができる。従って、このような通話先との通話時における話者の発話を表している発話データ2を用いて基準発話データ3の特徴パラメータの統計量の更新を行うことで、異常状態に陥っている話者の発話データ2を基準発話データ3とする誤りを低減することができる。
次に図2について説明する。図2は、図1の電話機1の一実施例のハードウェア構成例である。この電話機1は、無線公衆網を介して通話を行う携帯電話端末である。
なお、図2には、異常状態検出装置10による話者の異常状態の検出と、音声信号の送信と、電話帳データの管理とに関係する電話機1の構成のみを表しており、その他の構成については省略している。
音声信号の送信に関して、電話機1は、マイクロホン21、増幅部22、LPF23、AD変換部24、音声符号化部25、信号処理部26、変調処理部27、送信部28、及びアンテナ29を備えている。
マイクロホン21は、電話機1の使用者である話者の発話音を受音して、当該発話音を表している音声信号を出力する。
増幅部22は、マイクロホン21から出力される音声信号の振幅を増幅する。
LPF23は、マイクロホン21から出力される音声信号の周波数帯域を、所定周波数以下に制限する低域通過フィルタである。
AD変換部24は、LPF23から出力される、アナログ信号である音声信号に対して標本化及び量子化を施して、当該音声信号を表現しているデジタルデータ(音声データ)に変換するアナログデジタル変換器である。なお、LPF23は、AD変換部24による標本化によって生じる折り返し雑音を遮断するためのアンチエイリアス処理を行わせている。
音声符号化部25は、AD変換部24から出力される音声データに対し、データ量の低減のための所定の音声符号化処理を施す。
信号処理部26は、音声符号化部25から出力される音声符号化処理後の音声データに対して、所定のベースバンド信号処理を施す。
変調処理部27は、信号処理部26によるベースバンド信号処理後のデータを用いて高周波信号の変調を行って送信信号を生成する。
送信部28は、変調処理部27から出力される送信信号を増幅してアンテナ29に出力する。
アンテナ29は、送信部28から出力される送信信号を電磁波として空間に放射して基地局へ届ける。
また、電話帳データの管理に関して、電話機1は、電話帳データ記憶部20と電話機制御部30とを備えている。
前述したように、電話帳データ記憶部20は、電話帳データを記憶しておく記憶部である。
ここで図3について説明する。図3は、電話帳データ記憶部20において記憶される電話帳データのデータ構造の一例である。
図3に図解されているように、電話帳データは、複数の「通話先」の各々について、当該通話先の「電話番号」を対応付けたデータである。なお、この「通話先」及び「電話番号」のデータに、この他のデータが更に対応付けられていてもよい。
図2の説明に戻る。
電話機制御部30は、電話機1を構成している各要素の動作の制御を行う制御部であり、特に、電話帳データ記憶部20において記憶されている電話帳データの管理(各データの追加、削除、変更など)を行う。
出力部40は、話者が異常状態に陥っているとの検出結果を異常状態検出装置10から受け取ったときに、当該検出結果を出力して電話機1の使用者である話者へ通知するものである。より具体的には、この出力部40は、当該検出結果を表す情報を表示する液晶表示装置や、当該検出結果を表す警報音を放音するスピーカなどである。
異常状態検出装置10には、発話データ2として、AD変換部24から出力される音声データが入力される。
次に図4について説明する。図4は、異常状態検出装置10の一実施例のハードウェア構成例である。
この異常状態検出装置10は、MPU51、RAM52、ROM53、及びインタフェース装置54を備えている。なお、これらの構成要素はバスライン55を介して接続されており、MPU51の管理の下で各種のデータを相互に授受することができる。
MPU(Micro Processing Unit)51は、この異常状態検出装置10全体の動作を制御する演算処理装置である。
RAM(Random Access Memory)52は、MPU51が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
ROM(Read Only Memory)53は、所定の制御プログラムや各種の定数値が予め記録されている読み出し専用半導体メモリであり、例えばフラッシュメモリである。MPU51は、この制御プログラムを異常状態検出装置10の起動時に読み出して実行することにより、この異常状態検出装置10の各構成要素の動作制御が可能となり、更に、後述する制御処理も行えるようになる。また、ROM53には、基準発話データ3を予め複数種類記憶させておく。この基準発話データ3が記憶されているROM53は、図1における基準発話データ記憶部17としての機能を提供する。
インタフェース装置54は、異常状態検出装置10に接続される、電話機1のAD変換部24、電話帳データ記憶部20、及び出力部40等の各構成要素との間での各種データの授受の管理を行うものである。特に、AD変換部24から出力される音声データを発話データ2として取得するインタフェース装置54は、図1における取得部11としての機能を提供する。
このような構成を有する異常状態検出装置10におけるMPU51を、図1に図解した第一算出部12、擬似発話データ作成部13、第二算出部14、検出部15、更新部16、及び制御部18として機能させることができる。このためには、まず、後述する制御処理の処理内容をMPU51に行わせるための制御プログラムを作成する。作成した制御プログラムは、ROM53に予め格納しておく。そして、MPU51に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、MPU51が、上述の各構成要素として機能するようになる。
このように、異常状態検出装置10は、ごく標準的な構成を備えたコンピュータと同様の構成を備えている。従って、図1に図解した異常状態検出装置10の各構成要素が備えている機能を、標準的な構成を備えたコンピュータに提供させるようにして、このコンピュータで異常状態検出装置10を構成することも可能である。この場合には、後述する制御処理の処理内容をコンピュータに行わせるための制御プログラムを、例えばコンピュータが備えているハードディスク装置等の記憶装置に予め格納しておく。また、基準発話データ3も、この記憶装置に格納しておくようにする。そして、コンピュータに所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、コンピュータが、上述の各構成要素として機能するようになる。
また、このコンピュータで異常状態検出装置10を構成するために、上述した制御プログラムや基準発話データ3を、図4に図解されている可搬型記録媒体56に予め記録させておくようにしてもよい。この場合には、上述のコンピュータに、図4に破線で図解したような、可搬型記録媒体56に記録されているプログラムやデータを読み出すデータ読出装置57を備えるようにする。この場合には、まず、コンピュータに所定の指示を与えて、データ読出装置57を動作させて可搬型記録媒体56から制御プログラムや基準発話データ3を読み出して記憶装置に一旦格納させ、その後にこの制御プログラムを読み出させて実行させるようにする。こうすることで、コンピュータが、上述の各構成要素として機能するようになる。なお、可搬型記録媒体56としては、例えば、USB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリが利用可能である。また、可搬型記録媒体56として、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)なども利用可能である。
次に、図1の異常状態検出装置10の各部によって行われる処理について説明する。
まず図5について説明する。図5は、基準発話データ統計量登録処理の処理内容を図解したフローチャートである。この基準発話データ統計量登録処理は、電話機1の使用者である話者についての平常状態下での発話を表現しているデータから、この発話の特徴を表している特徴パラメータの統計量を算出して保存しておく処理である。なお、本実施例では、この特徴パラメータとして、発話のピッチ周波数と対数パワーを採用する。
図5において、まず、S101では、電話機1のAD変換部24から送られてくる発話データ2を取得する処理を取得部11が行う。
次に、S102では、発話データ2に対するフレーム化処理及び窓掛け処理を第一算出部12が行う。
フレーム化処理とは、時系列のディジタル信号である発話データ2を、信号の分析を行う所定のサンプル長(フレーム長)の区間(フレーム)を、オーバーラップさせながら一定長(フレームシフト長)ずつ取り出す処理である。フレーム化処理は、音声情報処理や音響処理では通常用いられる処理であり、フレーム長を20〜40ミリ秒程度とし、フレームシフト長を10〜20ミリ秒程度とする設定が広く用いられている。
窓掛け処理は、フレーム化処理によって取り出された各フレームの発話データ2に対し、分析窓と呼ばれている重みを付加する処理である。この分析窓としては、例えば、ハニング窓(hanning window)やハミング窓(hamming window)などが広く用いられている。
S102の処理では、与えられた信号s(n)(すなわち発話データ2)に対して下記の[数1]式の計算を行って長さNサンプルの分析窓w(n)を掛けることで、lフレーム目の信号系列Sw (n;l)を取り出す処理が行われる。
なお、添え字lTは、信号の取り出し位置に対応している、すなわち、s(n)におけるnを、フレームシフト長Tの間隔で増加させることで、lフレーム目のフレーム長Nの窓掛け後のフレーム化された信号系列Sw (n;l)(n=0,1,…,N−1)が得られる。また、本実施例では、分析窓として、下記の[数2]式で表されるハミング窓を使用することとする。
次に、S102の処理により得られたlフレーム目の信号系列Sw (n;l)が、母音の発話を表しているか否かを判定するための処理が、S103及びS104において行われる。これは、本実施例において特徴パラメータとして採用する発話のピッチ周波数は、母音が含まれていないと適切には求まらないため、S102の処理により得られる各フレームから、母音の発話が含まれているフレーム(フレーム)を抽出する必要があるからである。
まず、S103では、S102の処理により得られたフレームの信号から、母音フレームの検出に利用可能である特徴パラメータを算出する処理を第一算出部12が行う。
なお、本実施例では、母音フレーム検出のために使用する特徴パラメータとして、フレームに含まれる信号系列の対数パワーとケプストラム(Cepstrum)との算出を第一算出部12が行う。
まず、lフレーム目の信号系列Sw (n;l)の対数パワー値power(l)は、下記の[数3]式の計算を行って求める。
次に、第一算出部12は、lフレーム目の信号系列Sw (n;l)に対してFFT(高速フーリエ変換)処理を施し、得られたパワースペクトルを対数パワースペクトルに変換してからIFFT(高速フーリエ逆変換)処理を施して、ケプストラムを求める。
次に、S104では、S102の処理により得られたフレームが母音フレームであるか否か、すなわち、lフレーム目の信号系列Sw (n;l)が母音の発話を表しているか否かを、算出された特徴パラメータに基づいて判定する処理を制御部18が行う。
本実施例では、この信号系列の対数パワー値が所定のパワー閾値を越えており、且つ、この信号系列のケプストラムにおける所定の高ケフレンシー領域でのピーク値が所定のピーク閾値を越えている場合に、第lフレームが母音フレームであるとの判定が下される。一方、この他の場合には、第lフレームは母音フレームではないとの判定が下される。
このS104の判定処理において、制御部18は、第lフレームが母音フレームであると判定したとき(判定結果がYesのとき)にはS105に処理を進める。一方、制御部18は、第lフレームが母音フレームではないと判定したとき(判定結果がNoのとき)にはS101へ処理を戻して、次の発話データ2を取得部11に取得させる。
なお、各フレームが母音フレームであるか否かの判定を、他の手法を用いて行うようにしてもよい。すなわち、例えば、前述のようにケプストラムにおけるピッチ成分の存在有無に基づいた母音フレームの判定を行う代わりに、母音フレームの自己相関のピーク値や変形自己相関のピーク値を用いて母音フレームの判定を行うようにしてもよい。
また、前述したS103の処理では、フレームに含まれる信号系列の対数パワーの算出を、前掲した[数3]式を用いて時間領域において行うようにしている。この代わりに、ケプストラムを求めるためのFFT処理後のパワースペクトルの合計値から対数パワーを求めるようにもよい。
次に、S105では、S104の判定処理で母音フレームであると判定されたフレームの信号についてのピッチ周波数を求める処理を第一算出部12が行う。このピッチ周波数は、この母音フレームのケプストラムにおいての最大ピークのケフレンシーの値(遅延量)を求め、この値の逆数を算出することで求まる。
次に、S106では、S103の処理で算出した、この母音フレームの対数パワー値を累積加算すると共に、S105の処理で算出した、この母音フレームのピッチ周波数を累積加算する処理を第一算出部12が行う。
次に、S107では、S103の処理で算出した、この母音フレームの対数パワー値の二乗値を累積加算すると共に、S105の処理で算出した、この母音フレームのピッチ周波数の二乗値を累積加算する処理を第一算出部12が行う。
次に、S108では、電話機1のAD変換部24からの発話データ2の入力が終了したか否かを判定する処理を制御部18が行う。制御部18は、ここで、発話データ2の入力が終了したと判定したとき(判定結果がYesのとき)にはS109に処理を進める。一方、制御部18は、ここで、発話データ2の入力が終了していないと判定したとき(判定結果がNoのとき)にはS101へ処理を戻して、次の発話データ2を取得部11に取得させる。
次に、S109では、この基準発話データ登録処理を開始してから得られた母音フレームの取得数が、予め設定しておいた所定個数以上となっているか否かを判定する処理を制御部18が行う。ここで、制御部18は、母音フレームの取得数が所定個数以上となっていると判定したとき(判定結果がYesのとき)にはS111に処理を進める。一方、制御部18は、ここで、母音フレームの取得数が所定個数に満たないと判定したとき(判定結果がNoのとき)にはS110に処理を進める。
S110では、電話機1の出力部40に所定の指示を与えて、追加の発話を電話機1の使用者に促す所定の通知を出力させる(例えば、追加の発話を促す所定の表示を液晶表示装置に表示させる)処理を制御部18が行う。制御部18は、この処理の後にはS101へ処理を戻して、次の発話データ2を取得部11に取得させる。
なお、S109の処理の判定基準となる母音フレームの個数は、本実施例においては、時間にして60秒に相当するフレーム数を設定しておくが、他の値としてもよい。
次に、S111では、ピッチ周波数についての、取得した全ての母音フレームについての標準偏差を算出する処理を第一算出部12が行う。この処理では、まず、S106の処理により得られているピッチ周波数の累積加算値を母音フレームの取得数で除算して、平均値(ピッチ周波数の時間変化の平均値)を求める。次に、S107の処理により得られているピッチ周波数の二乗値の累積加算値を母音フレームの取得数で除算して、二次モーメントを求める。そして、得られた平均値と二次モーメントとを用いて標準偏差(ピッチ周波数の時間変化の標準偏差)を求める。
次に、S112では、対数パワー値についての、取得した全ての母音フレームについての標準偏差を算出する処理を第一算出部12が行う。この処理では、まず、S106の処理により得られている対数パワー値の累積加算値を母音フレームの取得数で除算して、平均値(対数パワー値の時間変化の平均値)を求める。次に、S107の処理により得られている対数パワー値の二乗値の累積加算値を母音フレームの取得数で除算して、二次モーメントを求める。そして、得られた平均値と二次モーメントとを用いて標準偏差(対数パワー値の時間変化の標準偏差)を求める。
次に、S113では、S111及びS112の処理で算出されたピッチ周波数及び対数パワー値各々の標準偏差を、基準発話データ3についての特徴パラメータの統計量として、電話機1の基準発話データ記憶部17に記憶させて保存させる処理を制御部18が行う。その後は、この基準発話データ統計量登録処理が終了する。
以上までの処理が基準発話データ統計量登録処理である。
この基準発話データ統計量登録処理は、例えば、電話機1の使用者が平常状態下で通話を行っている間に実行するようにしてもよいし、また、平常状態下での通話を録音しておき、通話終了後に実行するようにしてもよい。また、この処理は、できるだけ平常状態下での通話における発話のデータに対して行うことが望まれる。そこで、前述の電話帳データに含まれている通話先との通話における発話のデータに対してのみ、この処理を行うようにしてもよい。
次に図6について説明する。図6は、異常状態検出処理の処理内容を図解したフローチャートである。この処理は、電話機1の使用者である話者が異常状態に陥っていることの検出を、当該話者の発話を表しているデータを分析することによって行う。
図6におけるS201からS205までの各処理は、電話機1のAD変換部24から送られてくる発話データ2をフレーム化した後に母音フレームを抽出し、抽出された母音フレームのピッチ周波数を算出する処理である。これらの各処理は、図5の基準発話データ統計量登録処理におけるS101からS105までの各処理と同一の処理であるので、ここでは詳細な説明を省略する。
図6において、まず、S201では、電話機1による通話の開始によってAD変換部24から送られてくる発話データ2を取得する処理を取得部11が行う。
次に、S202では、発話データ2に対するフレーム化処理及び窓掛け処理を第一算出部12が行う。
次に、S203では、S202の処理により得られたフレームの信号から、母音フレームの検出に利用可能である特徴パラメータ(本実施例では、フレームに含まれる信号の対数パワーとケプストラム)を算出する処理を第一算出部12が行う。
次に、S204では、S202の処理により得られたフレームが母音フレームであるか否かを、S203の処理により算出された特徴パラメータに基づいて判定する処理を制御部18が行う。ここで、制御部18は、このフレームが母音フレームであると判定したとき(判定結果がYesのとき)にはS205に処理を進める。一方、制御部18は、このフレームが母音フレームではないと判定したとき(判定結果がNoのとき)にはS201へ処理を戻して、次の発話データ2を取得部11に取得させる。
次に、S205では、S204の判定処理で母音フレームであると判定されたフレームの信号についてのピッチ周波数を求める処理を第一算出部12が行う。
次に、S206では、母音フレームの取得数が1000以上に達したか否かを判定する処理を制御部18が行う。この1000フレームとは、フレームシフト長を20ミリ秒と設定した場合における20秒分に相当するフレーム数である。このフレーム数には、後述の各平均値の値が安定する(値の変動が所定範囲内に収まる)のに必要な時間長を設定することが好ましく、本実施例では、この数を1000としたものである。
このS206の判定処理において、制御部18は、母音フレームの取得数が1000以上に達したと判定したとき(判定結果がYesのとき)にはS208に処理を進める。一方、制御部18は、この判定処理において、母音フレームの取得数が未だ1000に達していないと判定したとき(判定結果がNoのとき)にはS207に処理を進める。
S207では、直近に行われたS204の判定処理によって得られた母音フレームについてのピッチ周波数及び対数パワー値を、バッファ61に追加して格納する処理を制御部18が行い、その後はS201に処理を戻して次の発話データ2を取得部11に取得させる。なお、母音フレームについてのピッチ周波数及び対数パワー値は、直近に行われたS205及びS203の処理によって算出されている。また、バッファ61は、制御部18自身が備えており、図4の構成を用いて異常状態検出装置10を構成している場合には、RAM52を用いて構成される。
S208では、バッファ61に格納した母音フレームについてのピッチ周波数及び対数パワー値に関する距離を算出する処理が既に完了しているか否かを判定する処理を制御部18が行う。ここで、制御部18は、この距離の算出処理が既に完了していると判定したとき(判定結果がYesのとき)にはS216に処理を進める。一方、制御部18は、この距離の算出処理が完了していないと判定したとき(判定結果がNoのとき)にはS209に処理を進める。なお、この距離の算出処理は、後述するS214の処理において行われる処理であり、S207に続いてS208の処理が実行された時点では、この距離の算出処理は行われていない。
S209では、直近に行われたS204の判定処理によって得られた母音フレームについてのピッチ周波数及び対数パワー値を、バッファ61に追加して格納する処理を制御部18が行う。
次に、S210では、バッファ61に格納されている各母音フレームについてのピッチ周波数及び対数パワー値を読み出して、これらの平均値を算出する処理を制御部18が行う。
次に、S211では、擬似発話データ作成処理を擬似発話データ作成部13が行う。この処理は、擬似発話データ4を作成してリングバッファ62に格納する処理である。なお、リングバッファ62は、制御部18が備えており、図4の構成を用いて異常状態検出装置10を構成している場合には、RAM52を用いて構成される。また、なお、リングバッファ62は、ピッチ周波数の格納に用いるものと、対数パワー値の格納に用いるものとの2種類が用意される。
擬似発話データ4は、S210の処理により算出された、発話データ2についてのピッチ周波数及び対数パワー値の平均値と、基準発話データ記憶部17で保存されている基準発話データ3についてのピッチ周波数及び対数パワー値の標準偏差とより作成される。より具体的には、発話データ2についてのピッチ周波数及び対数パワー値の平均値をμとし、基準発話データ3についてのピッチ周波数及び対数パワー値の標準偏差をσとしたときに、下記の数列を作成して擬似発話データ4とする。
μ+σ,μ−σ,μ+σ,μ−σ,μ+σ,μ−σ,…
この擬似発話データ4は、平均値がμとなって発話データ2と一致し、且つ、標準偏差がσとなって基準発話データ3と一致することは明らかである。擬似発話データ作成部13は、ピッチ周波数及び対数パワー値の各々について、この擬似発話データ4を作成する。
また、擬似発話データ作成部13は、この擬似発話データ4を、リングバッファ62のバッファサイズから1少ないサンプル数作成する。本実施例においては、リングバッファ62のバッファサイズを、サンプル3001個分とする。従って、擬似発話データ作成部13は、擬似発話データ4を、ピッチ周波数及び対数パワー値の各々について、3000サンプルずつ作成する。擬似発話データ作成部13は、作成された擬似発話データ4についてのピッチ周波数及び対数パワー値を、それぞれの格納用のリングバッファ62に順序通りに格納する。
次に、S212では、バッファ61に格納されていた母音フレームについてのピッチ周波数及び対数パワー値を1つずつ読み出して、2種類のリングバッファ62の各々に格納する処理を制御部18が行う。このS212の処理をS211の処理後に初めて行う場合には、制御部18は、2種類のリングバッファ62における3001番目の格納位置に、バッファ61に格納されている最古のピッチ周波数及び対数パワー値をそれぞれ格納する処理を行う。
次に、S213では、2種類のリングバッファ62の各々に3001個ずつ格納されているピッチ周波数及び対数パワー値各々の標準偏差(時間変化の標準偏差)を算出する処理を第二算出部14が行う。このS213の処理により算出されるピッチ周波数の標準偏差をσpitch (k)とし、この処理により算出される対数パワー値の標準偏差をσpower (k)とする。なお、kは、バッファ61から読み出してリングバッファ62に格納した、母音フレームについてのピッチ周波数及び対数パワー値の個数である。
次に、S214では、S213の処理で算出されたピッチ周波数及び対数パワー値の標準偏差と、基準発話データ記憶部17で保存されている、基準発話データ3についてのピッチ周波数及び対数パワー値の標準偏差との距離を算出する処理を検出部15が行う。
前述した基準発話データ統計量登録処理により基準発話データ記憶部17に記憶させた基準発話データ3についてのピッチ周波数及び対数パワー値の標準偏差を、それぞれσref_pitch 及びσref_power とする。このとき、検出部15は、下記の[数4]式の計算を行って上述の距離dist(k)を算出する。
つまり、この距離は、発話のピッチの周波数の時間変化の標準偏差と発話の対数パワーの時間変化の標準偏差とで定義される二次元空間における、合成発話データ5と基準発話データ3との間の距離を表している。
なお、このS214の処理により算出された距離は、検出部15自身が備えているメモリに保存しておく。このメモリは、図4の構成を用いて異常状態検出装置10を構成している場合には、RAM52を用いて構成される。
次に、S215では、バッファ61に格納されていた母音フレームについてのピッチ周波数及び対数パワー値を全てリングバッファ62に格納したか否かを判定する処理を制御部18が行う。ここで、制御部18は、バッファ61に格納されていた全てのピッチ周波数及び対数パワー値をリングバッファ62に格納したと判定したとき(判定結果がYesのとき)には、S201に処理を戻して次の発話データ2を取得部11に取得させる。一方、制御部18は、リングバッファ62に格納していないピッチ周波数及び対数パワー値がバッファ61に残っていると判定したとき(判定結果がNo)のときには、S212へ処理を戻す。このときのS212の処理では、リングバッファ62に未格納であるサンプルのうちの最古のものをバッファ61から読み出して、そのサンプルを、リングバッファ62における1つ過去のサンプルを格納した位置の次の位置に格納する処理が行われる。
このようにして、リングバッファ62には、母音フレーム(発話データ2)についてのデータの前に擬似発話データ4が繋げられたデータが格納されていく。このリングバッファ62内の格納データが合成発話データ5である。
S215の処理後にS201からS208の処理が行われると、S206及びS208の判定処理の結果はどちらもYesとなってS216に処理が進む。
S216では、直近に行われたS204の判定処理によって得られた母音フレームについてのピッチ周波数及び対数パワー値を、リングバッファ62における、直近にサンプルを格納した位置の次の位置に格納する処理を制御部18が行う。
次に、S217では、2種類のリングバッファ62の各々に3001個ずつ格納されているピッチ周波数及び対数パワー値各々の標準偏差(時間変化の標準偏差)を算出する処理を第二算出部14が行う。この処理は、前述したS213と同様の処理である。
次に、S218では、S217の処理で算出されたピッチ周波数及び対数パワー値の標準偏差と、基準発話データ記憶部17で保存されている、基準発話データ3についてのピッチ周波数及び対数パワー値の標準偏差との距離を算出する処理を検出部15が行う。この処理は、前述したS214と同様の処理である。このS218の処理により算出された距離も、前述した、検出部15自身が備えているメモリに保存しておく。
次に、S219では、電話機1による通話が終了したか否かを判定する処理を制御部18が行う。ここで、制御部18は、通話が終了したと判定したとき(判定結果がYesのとき)には、S220に処理を進める。一方、制御部18は、ここで、通話が終了していないと判定したとき(判定結果がNoのとき)には、S201へ処理を戻して、次の発話データ2を取得部11に取得させる。なお、S219の処理後にS201からS208の処理が行われた場合にも、S206及びS208の判定処理の結果はどちらもYesとなって、S216からS218の処理が行われる。
S220では、S214及びS218の処理によって、母音フレームと同数得られている距離から、平均距離を算出する処理を検出部15が行う。この平均距離の算出手法については後述する。
次に、S221では、S220の処理により算出された平均距離と所定の距離閾値との大小比較を行って、当該平均距離が当該距離閾値以上であるか否かを判定する処理を検出部15が行う。ここで、検出部15は、当該平均距離が当該距離閾値以上であると判定したとき(判定結果がYesのとき)は、電話機1の使用者である話者が異常状態に陥っているとみなしてS222に処理を進める。そして、S222において、電話機1の出力部40に所定の指示を与えて、電話機1の使用者である話者が異常状態に陥っていることを表している所定の通知を出力させる処理を制御部18が行い、その後はこの異常状態検出処理を終了する。一方、検出部15は、当該平均距離が当該距離閾値未満であると判定したとき(判定結果がNoのとき)は、電話機1の使用者である話者は非異常状態であるとみなし、上述のような通知の出力を行うことなく、この異常状態検出処理を終了する。
以上までの処理が異常状態検出処理である。次に、この異常状態検出処理における、電話機1の使用者である話者が異常状態に陥っていることの検出の原理について説明する。
まず図7について説明する。図7は、リングバッファ62内における合成発話データ5の推移を図解したものである。
図7において、最上段の「S211の状態」とは、3001個のサンプルを格納するバッファサイズを有しているリングバッファ62に、擬似発話データ4が3000サンプル格納された状態を表現している。
また、図7の二段目の状態は、図6のS211の処理に続いて初めて実行されたS212の処理により、上段の状態のリングバッファ62の3001個目の格納位置に、バッファ61に格納されている最古のサンプルが格納された状態を表している。この処理に続くS213の処理では、このリングバッファ62に格納されている3001個のサンプル、すなわち、3000サンプルの擬似発話データ4と発話データ2(母音フレーム)の1サンプルとの標準偏差σ(1)を算出する処理が行われる。
また、図7の三段目の状態は、二度目に実行されたS212の処理により、二段目の状態のリングバッファ62において擬似発話データ4が格納されていた格納位置に、バッファ61に格納されている2番目に古いサンプルが上書き格納された状態を表している。この処理に続くS213の処理では、このリングバッファ62に格納されている3001個のサンプル、すなわち、2999サンプルの擬似発話データ4と発話データ2(母音フレーム)の2サンプルとの標準偏差σ(2)を算出する処理が行われる。
S215の判定処理の結果に従ってこのS212及びS213の処理が繰り返されることにより、リングバッファ62に格納されているサンプルは、擬似発話データ4の割合が徐々に低下し発話データ2の割合が徐々に増加する。そして、発話データ2(母音フレーム)が3001サンプル得られたときには、リングバッファ62に格納されているサンプルは、全て発話データ2で占められる。
このようにして算出される標準偏差の値と、その算出に用いた発話データ2(母音フレーム)の数との関係をプロットしたグラフが図8のグラフである。
なお、図8において破線で示されている基準値は、擬似発話データ4についての標準偏差であり、前述したように、この値は基準発話データ3についての標準偏差と同一の値である。
図8において、Aのグラフは、発話データ2(母音フレーム)が擬似発話データ4と特徴パラメータ(ピッチ周波数や対数パワー値)の統計的性質が似ている場合(非異常状態)のものである。なお、統計的性質とは、分布のばらつきの傾向であり、標準偏差σは統計的性質の代表例である。この場合、リングバッファ62に格納されている母音フレームについてのサンプルについての擬似発話データ4のサンプルに対する割合を増加させても、標準偏差σは、基準値の値を上下するのみで両者の差の乖離は大きくはならない。
これに対し、図8において、B及びCのグラフは、発話データ2(母音フレーム)が擬似発話データ4と特徴パラメータの統計的性質が顕著に異なっている場合(異常状態)のものである。この場合には、リングバッファ62に格納されている母音フレームについてのサンプルについての擬似発話データ4のサンプルに対する割合を増加させると、標準偏差σは、基準値の値から徐々に離れていく。
なお、Bのグラフは標準偏差σが増加していく場合の例であり、Cのグラフは標準偏差σが減少していく場合の例である。なお、これらのグラフは、リングバッファ62に格納されているサンプルが全て母音フレームとなる3001フレーム以降は、標準偏差σは、基準値からの離れ具合が緩やかになる。
ここで、基準発話データ3についての標準偏差と、リングバッファ62に格納されているサンプルから算出した標準偏差との距離を前掲した[数4]式のように定義した場合には、その距離dist(k)の変化は、図9のグラフのようになる。
図9において、Aのグラフは、発話データ2(母音フレーム)が擬似発話データ4と特徴パラメータ(ピッチ周波数や対数パワー値)の統計的性質が似ている場合(非異常状態)のものである。この場合には、2つの標準偏差の間に差が少ないので距離は短く、また、母音フレームが増えても距離が大きく増加することはない。
これに対し、図9におけるBのグラフは、発話データ2(母音フレーム)が擬似発話データ4と特徴パラメータの統計的性質が顕著に異なっている場合(異常状態)のものである。この場合には、母音フレームの増加に応じて距離が増加する。なお、この後、リングバッファ62に格納されているサンプルが全て母音フレームとなる3001フレーム以降は、距離の増加が緩やかになる。
なお、本実施例では、前述のように、擬似発話データ4の各サンプルの平均値が発話データ2の平均値に一致するようにしている。これは、擬似発話データ4と発話データ2との間でサンプルの平均値の差を無くして、その差がリングバッファ62に格納されているサンプルについての標準偏差の値に影響を及ぼすことを防止するためである。
次に、図6の異常状態検出処理におけるS220の処理において行われる、平均距離の算出の手法について、図10A及び図10Bを用いて説明する。
前述の2つの標準偏差の距離の時間変化のふるまいは、母音フレームが3001フレーム以降の場合には、3001フレーム以前の場合から変化する。そこで、平均距離の算出では、通話終了までに得られた母音フレームが3001フレーム未満の場合と3001フレーム以上の場合とで算出方法を切り換えるようにする。
図10Aは、通話終了までに得られた母音フレームが3001フレーム未満であった場合の平均距離の算出手法を図解している。この場合には、母音フレーム数と、母音フレーム数に応じて得られている距離の値との関係を一次関数で近似して、母音フレーム数が3001フレームの場合に得られるであろう距離の値を算出し、この値を、平均距離とする。
図10Bは、通話終了までに得られた母音フレームが3001フレーム以上であった場合の平均距離の算出手法を図解している。この場合には、母音フレームが1から3000フレームまでの各母音フレームの距離は、いずれも図10Aのようにして求めた平均距離であったとする。そして、3001フレーム以降の各母音フレームの距離は、図6のS218の処理で算出された距離そのものを用いる。平均距離の算出は、これらの距離に基づいて行う。従って、平均距離は、図10Aの場合の平均距離を3000倍した値と、3001フレーム以降の各母音フレームの距離との合計を、通話終了までに得られた母音フレーム数で除算して算出する。
図7のS221の処理では、以上のようにして算出された平均距離と所定の距離閾値との大小比較を行って、当該平均距離が当該距離閾値以上であるか否かを判定する処理を検出部15が行う。電話機1の使用者である話者が異常状態に陥っていることの検出は、このようにして行われる。
以上のように、本実施例の異常状態検出装置10は、基準発話データ3を平常状態下の発話を表している大量のサンプルのデータを用いて標準偏差を求めることができるので、安定な統計量を基準として使うことができる。また、統計量算出時に基準発話データ3の統計的性質を持つ擬似発話データ4を発話データ2に加えることにより、発話データ2のサンプル数が少なくても安定に異常状態を検出することができる。
本実施例の異常状態検出装置10による異常状態の検出手法と、入力された分だけの音声データを使って単純に統計量を計算して通常モデルとの距離を算出する従来手法との対比を行った結果を表したものが図11のグラフである。
図11のグラフは、50人の話者について、友人との通話を非異常状態と検出し、振り込め詐欺、勧誘電話、脅迫電話を模擬した通話を異常状態と検出した場合を正解としたときの非異常状態の検出率のグラフである。なお、図11のグラフにおいて、横軸は母音フレーム数を秒に換算した値であり、縦軸は非異常状態の検出率を表している。従って、非異常状態の検出率が低いと、異常状態ではない通常の通話を異常状態と誤って検出してしまう。なお、検出における判定の閾値は、異常状態検出率が、従来手法と本実施例の手法とで同じくらいになるように実験的に調整している。
このグラフから分かるように、入力母音フレーム数が少ないほど、従来手法では非異常状態の検出率が低下するのに対し、本実施例の検出手法では、非異常状態の検出率の劣化が抑制されている。この理由は以下の通りである。
少ないサンプルで標本分散を求めると母分散に対する誤差(サンプルを選び出す試行ごとのばらつき)が大きくなることが統計学より知られている。従来手法では、少ないサンプルで標本分散を求めているため、母分散(通常モデル)に対してばらつきが大きい。標準偏差のばらつきは、基準値に対する距離の増加(距離が大きいほど異常状態と判定されやすくなる)の原因となるため、少ないサンプルでは非異常状態であっても母分散に対して距離が大きくなりやすくなり、通常検出率が劣化してしまうのである。一方、本実施例の検出手法では、少ないサンプルであっても残りのサンプルを母分散からのサンプルで補うので、母分散に対する誤差(試行ごとのばらつき)は小さい。従って、試行ごとの標本分散の母分散に対するばらつきが小さいので、少サンプルによる影響を少なく抑えられるのである。
なお、本実施例では、話者が異常状態に陥っていることの検出に使用する発話のデータの特徴パラメータとして、ピッチ周波数と対数パワーとを使用したが、この代わりに、音声信号処理で用いられる様々な特徴パラメータを使用することもできる。使用可能な特徴パラメータの例には、零交差数、残差パワースペクトルの高域周波数成分の変動度合い、帯域制限された対数パワー、スペクトル傾斜、MFCC(Mel-Frequency Cepstral Coefficient)、LPCC(Linear Predictive Coding Cepstrum)などがある。また、これらのΔパラメータも利用することができる。
また、本実施例では、ピッチ周波数と対数パワーの2つの特徴パラメータに関する二次元空間での距離を求めたが、これを三つ以上の特徴パラメータに拡張可能であることは容易に着想可能である。なお、このようにする場合には、前掲した[数4]式は、平方根内の二乗和を、特徴パラメータの種類だけ総和するようにして距離の算出を行うようにすればよい。
また、本実施例では、取得した発話データ2から得られた全ての母音フレームに対して、距離dist(k)の算出を行うようにしている。但し、発話データ2には、例えば、くしゃみ・咳・笑い声などといった、特徴パラメータの統計量の時間変化の激しい発話のデータが含まれていることがあり、このようなデータを母音フレームと判定してしまうことが考えられる。そこで、このような、実際には母音の発話が含まれていない母音フレームについては、リングバッファ62に格納しないようにして、標準偏差の計算に使用しないようにしてもよい。このようにすることで、上述したようなものに起因する突発的なピッチ周波数やパワーの変動があっても、平均距離の算出を安定に行うことが可能となる。
ここで図12について説明する。図12は、図6の異常状態検出処理の変形例の処理内容の一部を図解したフローチャートである。この処理は、実際には母音の発話が含まれていない母音フレームについては、標準偏差の計算に使用しないようにする動作を異常状態検出装置10で実現させるための処理である。
図12のフローチャートは、図6におけるS214の処理とS215の処理との間、及び、S218の処理とS219の処理との間に挿入される。
図12において、S251の処理は、図6のS214若しくはS218に続いて実行される。このS251では、前ステップ(すなわちS214若しくはS218)の処理で算出された距離と、その処理の直近に行われていた距離の算出処理で算出されていた距離との差の値を算出する処理を検出部15が行う。
次に、S252では、算出された差の値が、予め設定しておいた第一閾値以上であるか否かを判定する処理を検出部15が行う。ここで、検出部15は、当該差の値が当該第一閾値以上であると判定したとき(判定結果がYesのとき)にはS253に処理を進める。
S253では、S252の判定結果を制御部18に伝えて、直近に行われていた格納処理で格納されていた、母音フレームについてのサンプルデータをリングバッファ62から破棄して当該格納前のサンプルデータに戻させる処理を検出部15が行う。
その後、このS253の処理を終えたとき、若しくは、S252の判定処理において、S251の処理で算出された差の値が当該第一閾値未満であると検出部15が判定したとき(判定結果がNoのとき)には、図6のS215若しくはS219に処理が進む。
以上の処理を行うことで、実際には普通に発声した母音が含まれていない母音フレームについてのデータサンプルが、標準偏差の計算から除外される。これにより、くしゃみ・咳や笑い等の突発的かつ時間的な変動の激しい音が標準偏差の計算に含まれることによる標準偏差の推定値の乱れを防ぐことができる。
なお、本実施例では、基準発話データ3が表している発話の話者と、異常状態の検出対象の話者の発話とは、同一人である方が、高い検出精度が期待できる。しかしながら、これより説明する実施例によって、基準発話データ3の更新を行うようにすることで、基準発話データ3が表している発話の話者が不特定者であっても、異常状態の検出精度を向上させることができる。
この実施例では、まず、基準発話データ3の初期値の取得を行う。このために、前述した基準発話データ統計量登録処理(図2)を、多数の話者の発話に対して実施する。そして、この処理におけるS112の算出処理によって算出される、話者毎の発話についての特徴パラメータの統計量(ピッチ周波数及び対数パワー値の標準偏差)の平均値を第一算出部12に算出させる。そして、S113の処理では、算出された平均値を、不特定者についての基準発話データ3についての特徴パラメータの統計量として、電話機1の基準発話データ記憶部17に記憶させて保存させる処理を制御部18に行わせるようにする。なお、この不特定者についての基準発話データ3についての特徴パラメータの統計量を基準発話データ記憶部17に記憶させる作業は、電話機1の製品出荷前に済ませておいてもよい。
ここで図13について説明する。図13は、基準発話データ更新処理の処理内容を図解したフローチャートである。この処理は、基準発話データ3についての特徴パラメータの統計量(ピッチ周波数及び対数パワー値の標準偏差)の更新を行う処理である。
この基準発話データ更新処理は、図6の異常状態検出処理と並行して実行される。
図13において、まず、S301では、異常状態検出処理によって発話データ2から得られた母音フレームの取得数が所定数以上となったか否かを判定する処理を更新部16が行う。ここで、更新部16は、母音フレームの取得数が所定数以上となったと判定したとき(判定結果がYesのとき)にはS302に処理を進める。一方、更新部16は、母音フレームの取得数が所定数未満であると判定したとき(判定結果がNoのとき)には、当該取得数が所定数以上となるまで、この判定処理を繰り返す。
次に、S302では、異常状態検出処理におけるS220の算出処理が直近に実行されたときに算出された前述の平均距離が、予め設定しておいた第二閾値以下であるか否かを判定する処理を更新部16が行う。ここで、更新部16は、当該差の値が当該第二閾値以下であると判定したとき(判定結果がYesのとき)にはS303に処理を進める。一方、更新部16は、当該差の値が当該第二閾値よりも大きいと判定したとき(判定結果がNoのとき)にはS301へ処理を戻して前述した判定処理を再度行う。
次に、S303では、電話機1の基準発話データ記憶部17で保存されている、基準発話データ3についてのピッチ周波数及び対数パワー値の標準偏差を更新する処理を更新部16が行う。この更新処理では、下記の[数5]の計算を行い、算出された標準偏差σnew を基準発話データ記憶部17に記憶させる。
なお、[数5]式において、σorg は、この処理時点で基準発話データ記憶部17に保存されていた、基準発話データ3についてのピッチ周波数及び対数パワー値の標準偏差である。また、σinput は、この処理時点でリングバッファ62に格納されているピッチ周波数及び対数パワー値各々の標準偏差の値(例えば、異常状態検出処理におけるS217の算出処理による算出値)である。σinput は、リングバッファ62に格納されているピッチ周波数と対数パワーが、発話データ2ですべて置き換わった状態(すなわちリングバッファ62における擬似発話データ4の占める割合が最小の状態)で計算した標準偏差の値を用いるのが望ましい。また、ここでは母音フレームごとに更新しているが、図5のS106,S107の処理を通話が終了するまで行い、通話終了後にσinput を計算した値を用いるようにしても良い。
また、[数5]式におけるαの値は、このS303の処理の実行回数に応じて単調に増加する値として、更新が繰り返されるに従って、その更新量が単調に減少するようにする。本実施例においては、αの値を、S303の処理を初めて実行する場合には「0.5」とし、2回目に実行する場合には「0.9」とし、3回目から9回目の実行の際には「0.99」とし、10回目以降の実行の際には「0.999」とする。
以上のS303の処理を終えたときにはS301に処理を戻して前述した判定処理を再度行う。
以上までの処理が基準発話データ更新処理であり、この処理によって、基準発話データ3についての特徴パラメータの統計量が、取得した発話データ2を用いて更新される。
なお、この基準発話データ更新処理により基準発話データ3についての特徴パラメータの統計量が更新された場合には、その後に実行される異常状態検出処理では、更新された基準発話データ3についての特徴パラメータの統計量に基づいた処理が行われる。従って、擬似発話データ作成部13は、更新された基準発話データ3についての特徴パラメータの統計量に基づき擬似発話データ4を作成する。また、第二算出部14は、更新後の基準発話データ3についての特徴パラメータの統計量に基づいた擬似発話データ4と、取得部11が取得した発話データ2との特徴パラメータの統計量に基づき、合成発話データ5についての特徴パラメータの統計量を算出する。そして、検出部15は、更新後の基準発話データ3についての特徴パラメータの統計量に基づき算出された合成発話データ5についての特徴パラメータの統計量と、更新後の基準発話データ3についての特徴パラメータの統計量との違いに基づき、前述の検出を行う。
なお、上述した基準発話データ3についての特徴パラメータの統計量の更新を、電話機1の電話帳データ記憶部20に記憶されている電話帳データに含まれている通話先との通話においての発話データ2のみによって更新するようにしてもよい。このような通話を行っている話者は、非異常状態下にあると推定できるので、基準発話データ3についての特徴パラメータの統計量を、適切な値に更新することが期待できる。
ここで図14について説明する。図14は、図13の基準発話データ更新処理の第一変形例の処理内容の一部を図解したフローチャートである。この処理は、基準発話データ3についての特徴パラメータの統計量の更新を、電話帳データに含まれている通話先との通話においての発話データ2のみによって行うようにする動作を異常状態検出装置10で実現させるための処理である。
図14のフローチャートは、図13におけるS301の処理とS302の処理との間に挿入される。
図14において、S351の処理は、図13におけるS301の判定処理の結果がYesであった場合に実行される。このS351では、通話先の電話番号が判明しているか否かを判定する処理を更新部16が行う。
例えば、この電話機1から発呼を行って開始された通話であれば、通話先の電話番号は電話機1自身が認識している。また、通話先からの発呼を受けて開始された通話であれば、通話先から電話番号の情報が通知されている(非通知ではない)場合には、通話先の電話番号を知ることができる。
このS351の判定処理において、更新部16は、通話先の電話番号が判明していると判定したとき(判定結果がYesのとき)にはS352に処理を進める。一方、更新部16は、通話先の電話番号が判明していないと判定したとき(判定結果がNoのとき)には図13のS301に処理を戻して前述した判定処理を再度行う。
次に、S352では、電話機1の電話帳データ記憶部20に記憶されている電話帳データを参照し、判明している通話先の電話番号が電話帳データに含まれているか否かを判定する処理を更新部16が行う。ここで、更新部16は、通話先の電話番号が電話帳データに含まれていると判定したとき(判定結果がYesのとき)には、図13のS302に処理を進めて、前述の判定処理を行う。一方、更新部16は、ここで、通話先の電話番号が電話帳データに含まれていないと判定したとき(判定結果がNoのとき)には、図13のS301に処理を戻して前述した判定処理を再度行う。
以上の処理を行うことで、基準発話データ3についての特徴パラメータの統計量の更新が、電話帳データに含まれている通話先との通話においての発話データ2のみによって行われる。
なお、電話帳データに含まれている通話先との通話のうちで、親族・友人との通話(電話帳データにおいて「親族・友人」の属性が付されている通話先との通話)の場合にのみ、基準発話データ3についての特徴パラメータの統計量の更新を行うようにしてもよい。
また、前述した基準発話データ3の更新の手法における初期値の取得では、不特定者についての基準発話データ3についての特徴パラメータの統計量として、ピッチ周波数及び対数パワー値の標準偏差の1組のみを基準発話データ記憶部17に保存させていた。この代わりに、基準発話データ3についての特徴パラメータの統計量の初期値を、基準発話データ記憶部17に複数組保存させるようにしておいてもよい。このときに複数組用意する基準発話データ3についての特徴パラメータの統計量の初期値の組は、例えば、多数の男性話者と多数の女性話者とのそれぞれについて算出した値としておくことができる。
このようにする場合には、図6の異常状態検出処理では、この複数組の特徴パラメータの統計量を各々用いて、前述の距離dist(k)及び平均距離の算出を組毎に行うようにする。そして、図13の基準発話データ更新処理におけるS302の処理とS303の処理との間に、図15に図解したS391の処理を挿入して実行するようにする。
図15のS391の処理は、図13におけるS302の判定処理の結果がYesであった場合に実行される。なお、S302の判定処理では、前述した組毎に算出されている平均距離のうちの少なくとも1つが第二閾値以下であれば、更新部16は、その判定結果をYesとする。
S391では、前述した基準発話データ3についての特徴パラメータの統計量の初期値の組のうちから、平均距離が最小の値であるものを選択する処理を更新部16が行い、その後は図13のS303に処理を進める。このときに実行されるS303の更新処理は、S391の処理で選択された初期値の組に対して行われる。
このようにして、基準発話データ3についての特徴パラメータの統計量の初期値の組を複数組用意しておくことで、基準発話データ3についての特徴パラメータの統計量を、異常状態の検出対象の話者についてのものに、より素早く近づけることができる。
なお、本実施例の異常状態検出装置10は、電話機1に内蔵させたが、この代わりに、例えば、電話機1との間で信号の授受を行う基地局に異常状態検出装置10を備えるようにしてもよい。この場合には、電話機1の使用者である話者の異常状態の検出を、基地局に備えた異常状態検出装置10で行うようにし、異常状態が検出された場合には、その検出結果を表す信号を電話機1に送付するようにする。そして、電話機1では、この検出結果を表す信号を受信した場合には、その検出結果を出力部40に出力させて使用者に通知するようにする。
1 電話機
2 発話データ
3 基準発話データ
4 擬似発話データ
5 合成発話データ
10 異常状態検出装置
11 取得部
12 第一算出部
13 擬似発話データ作成部
14 第二算出部
15 検出部
16 更新部
17 基準発話データ記憶部
18 制御部
20 電話帳データ記憶部
21 マイクロホン
22 増幅部
23 LPF
24 AD変換部
25 音声符号化部
26 信号処理部
27 変調処理部
28 送信部
29 アンテナ
30 電話機制御部
40 出力部
51 MPU
52 RAM
53 ROM
54 インタフェース装置
55 バスライン
56 可搬型記録媒体
57 データ読出装置
61 バッファ
62 リングバッファ

Claims (11)

  1. 話者の発話を表している発話データの入力を取得する取得部、
    前記発話データから、前記発話の特徴を表している特徴パラメータの統計量を算出する第一算出部、
    平常状態下の発話を表している基準発話データと、前記取得部により取得された発話データとの各々についての前記特徴パラメータの統計量に基づき、前記特徴パラメータのうちの少なくとも1つの統計量が該基準発話データについての該統計量と一致する擬似発話データを作成する擬似発話データ作成部、
    前記擬似発話データと前記取得部により取得された発話データについての前記特徴パラメータの統計量とに基づき、該擬似発話データを該発話データが入力された分だけ置き換えて得られる合成発話データについての前記特徴パラメータの統計量を算出する第二算出部、及び
    前記合成発話データと前記基準発話データとの各々についての前記特徴パラメータの統計量の違いに基づいて、前記取得部により取得された発話データによって表される発話時における、話者の異常状態を検出する検出部、
    を備えることを特徴とする異常状態検出装置。
  2. 前記特徴パラメータは、前記発話のピッチの周波数の時間変化の平均値及び標準偏差並びに該発話の対数パワーの時間変化の平均値及び標準偏差であることを特徴とする請求項1に記載の異常状態検出装置。
  3. 前記擬似発話データ作成部は、前記擬似発話データとして、該擬似発話データで表される発話のピッチの周波数の時間変化の平均値を、前記取得部により取得された発話データで表されている発話についてのものと一致させると共に、該周波数の時間変化の標準偏差を、前記基準発話データで表されている発話についてのものと一致させ、更に、該擬似発話データで表される発話の対数パワーの時間変化の平均値を、該取得部により取得された発話データで表されている発話についてのものと一致させると共に、該対数パワーの時間変化の標準偏差を、該基準発話データで表されている発話についてのものと一致させたものを作成することを特徴とする請求項2に記載の異常状態検出装置。
  4. 前記検出部は、発話のピッチの周波数の時間変化の標準偏差と該発話の対数パワーの時間変化の標準偏差とで定義される二次元空間における、前記合成発話データと前記基準発話データとの間の距離の大きさに基づいて、前記取得された発話データによって表される発話時における、話者の異常状態を検出することを特徴とする請求項2又は3に記載の異常状態検出装置。
  5. 前記検出部は、前記取得部により取得された発話データのうちで、前記特徴パラメータの統計量の時間変化が、所定の第一閾値よりも大きい統計量を除いて、前記異常状態を検出することを特徴とする請求項1から4のうちのいずれか一項に記載の異常状態検出装置。
  6. 前記取得部が取得した発話データと前記基準発話データとの各々についての前記特徴パラメータの統計量の違いが所定の第二閾値よりも少ない場合に、該取得した発話データを用いて該基準発話データについての前記特徴パラメータの統計量の更新を行う更新部を更に備え、
    前記擬似発話データ作成部は、前記更新部により前記更新が行われた場合には、前記更新された基準発話データについての前記特徴パラメータの統計量に基づき前記擬似発話データを作成し、
    前記第二算出部は、前記更新部により前記更新が行われた場合には、前記更新された基準発話データについての前記特徴パラメータの統計量に基づいて作成された擬似発話データと前記取得部により取得された発話データとの前記特徴パラメータの統計量に基づき、前記合成発話データについての前記特徴パラメータの統計量を算出し、
    前記検出部は、前記更新部により前記更新が行われた場合には、前記更新された基準発話データについての前記特徴パラメータの統計量に基づいて算出された合成発話データについての前記特徴パラメータの統計量と、該更新された基準発話データについての前記特徴パラメータの統計量との違いに基づいて、前記取得部により取得された発話データによって表されている発話の話者が異常状態にあることを検出する、
    ことを特徴とする請求項1から5のうちのいずれか一項に記載の異常状態検出装置。
  7. 複数種類の前記基準発話データの各々についての前記特徴パラメータの統計量を記憶しておく基準発話データ記憶部を更に備え、
    前記更新部は、前記複数種類の基準発話データの各々についての前記特徴パラメータの統計量のうちで、新たに取得した発話データについての特徴量との違いが最小であるものを、該新たに取得した発話データを用いて更新する、
    ことを特徴とする請求項6に記載の異常状態検出装置。
  8. 請求項1から7のうちのいずれか一項に記載の異常状態検出装置を備えることを特徴とする電話機。
  9. 請求項6又は7に記載の異常状態検出装置と、
    通話先と該通話先の電話番号とを対応付けた情報である電話帳データを記憶する電話帳データ記憶部と、
    を備え、
    前記異常状態検出装置が備える前記更新部は、前記取得部が、前記電話帳データ記憶部に記憶されている電話帳データに含まれている通話先との通話における前記話者の発話を表している発話データを取得した場合にのみ、前記更新を行う、
    ことを特徴とする電話機。
  10. 話者の発話を表している発話データの入力を取得し、
    前記取得された発話データから、前記発話の特徴を表している特徴パラメータの統計量を算出し、
    平常状態下の発話を表している基準発話データと、前記取得された発話データとの各々についての前記特徴パラメータの統計量に基づき、前記特徴パラメータのうちの少なくとも1つの統計量が該基準発話データについての該統計量と一致する擬似発話データを作成し、
    前記擬似発話データと前記取得された発話データについての前記特徴パラメータの統計量とに基づき、該擬似発話データを該発話データに繋げて得られる合成発話データについての前記特徴パラメータの統計量を算出し、
    前記合成発話データと前記基準発話データとの各々についての前記特徴パラメータの統計量の違いに基づいて、前記取得された発話データによって表される発話時における、発話の異常状態を検出する、
    ことを特徴とする異常状態検出方法。
  11. 話者の発話を表している発話データの入力を取得し、
    前記取得された発話データから、前記発話の特徴を表している特徴パラメータの統計量を算出し、
    平常状態下の発話を表している基準発話データと、前記取得された発話データとの各々についての前記特徴パラメータの統計量に基づき、前記特徴パラメータのうちの少なくとも1つの統計量が該基準発話データについての該統計量と一致する擬似発話データを作成し、
    前記擬似発話データと前記取得された発話データについての前記特徴パラメータの統計量とに基づき、該擬似発話データを該発話データに繋げて得られる合成発話データについての前記特徴パラメータの統計量を算出し、
    前記合成発話データと前記基準発話データとの各々についての前記特徴パラメータの統計量の違いに基づいて、前記取得された発話データによって表される発話時における、発話の異常状態を検出する、
    処理を演算処理装置に実行させるプログラム。
JP2011146047A 2011-06-30 2011-06-30 異常状態検出装置、電話機、異常状態検出方法、及びプログラム Expired - Fee Related JP5664480B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011146047A JP5664480B2 (ja) 2011-06-30 2011-06-30 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US13/446,019 US9020820B2 (en) 2011-06-30 2012-04-13 State detecting apparatus, communication apparatus, and storage medium storing state detecting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011146047A JP5664480B2 (ja) 2011-06-30 2011-06-30 異常状態検出装置、電話機、異常状態検出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013011830A JP2013011830A (ja) 2013-01-17
JP5664480B2 true JP5664480B2 (ja) 2015-02-04

Family

ID=47391472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011146047A Expired - Fee Related JP5664480B2 (ja) 2011-06-30 2011-06-30 異常状態検出装置、電話機、異常状態検出方法、及びプログラム

Country Status (2)

Country Link
US (1) US9020820B2 (ja)
JP (1) JP5664480B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583108B2 (en) * 2011-12-08 2017-02-28 Forrest S. Baker III Trust Voice detection for automated communication system
JP6268717B2 (ja) 2013-03-04 2018-01-31 富士通株式会社 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
WO2015111772A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621774B1 (ko) * 2014-01-24 2016-05-19 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621766B1 (ko) * 2014-01-28 2016-06-01 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
JP6519413B2 (ja) 2015-08-31 2019-05-29 富士通株式会社 迷惑電話検出装置、迷惑電話検出方法、及びプログラム
WO2017168663A1 (ja) * 2016-03-30 2017-10-05 富士通株式会社 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
DE102016013592B3 (de) * 2016-10-08 2017-11-02 Patricia Bogs Verfahren und Vorrichtung zur Erkennung einer Fehlbeanspruchung des Stimmbildungsapparates eines Probanden
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
SG11202009556XA (en) * 2018-03-28 2020-10-29 Telepathy Labs Inc Text-to-speech synthesis system and method
JP7334467B2 (ja) * 2019-05-17 2023-08-29 富士電機株式会社 対応支援装置および対応支援方法
US11545024B1 (en) 2020-09-24 2023-01-03 Amazon Technologies, Inc. Detection and alerting based on room occupancy

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3119510B2 (ja) 1991-10-28 2000-12-25 株式会社リコー 音声認識装置
JPH0830290A (ja) 1994-07-18 1996-02-02 Hitachi Ltd 音声入力可能な情報処理装置およびそれにおける誤処理検出方法
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
JP2004317822A (ja) 2003-04-17 2004-11-11 Agi:Kk 感情分析・表示装置
JP2005055606A (ja) * 2003-08-01 2005-03-03 Toyota Motor Corp サーバ、情報処理端末、音声認識システム
KR101248353B1 (ko) * 2005-06-09 2013-04-02 가부시키가이샤 에이.지.아이 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
DE602006012370D1 (de) * 2005-12-13 2010-04-01 Nxp Bv Einrichtung und verfahren zum verarbeiten eines audio-datenstroms
CN101346758B (zh) * 2006-06-23 2011-07-27 松下电器产业株式会社 感情识别装置
JP2008170820A (ja) 2007-01-12 2008-07-24 Takeshi Moriyama コンテンツ提供システム及び方法
JP4914295B2 (ja) 2007-06-21 2012-04-11 パナソニック株式会社 力み音声検出装置
JP2010169925A (ja) * 2009-01-23 2010-08-05 Konami Digital Entertainment Co Ltd 音声処理装置、チャットシステム、音声処理方法、ならびに、プログラム
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法

Also Published As

Publication number Publication date
JP2013011830A (ja) 2013-01-17
US9020820B2 (en) 2015-04-28
US20130006630A1 (en) 2013-01-03

Similar Documents

Publication Publication Date Title
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
JP6268717B2 (ja) 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
US9009047B2 (en) Specific call detecting device and specific call detecting method
JP5834449B2 (ja) 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US11475907B2 (en) Method and device of denoising voice signal
US20210256971A1 (en) Detection of replay attack
CN105118522B (zh) 噪声检测方法及装置
EP2806415B1 (en) Voice processing device and voice processing method
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
US10403289B2 (en) Voice processing device and voice processing method for impression evaluation
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
US20190088272A1 (en) Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program
JP2017216525A (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP6394103B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
EP2541544A1 (en) Voice sample tagging
CN108352169B (zh) 困惑状态判定装置、困惑状态判定方法、以及程序
EP3438980B1 (en) Utterance impression determination program, method for determining utterance impression, and utterance impression determination device
JP2015087557A (ja) 発話様式検出装置および発話様式検出方法
JP5234788B2 (ja) 暗騒音推定装置
JP2012252026A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法
JP2020129080A (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141124

R150 Certificate of patent or registration of utility model

Ref document number: 5664480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees