JP5834449B2 - 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 - Google Patents

発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 Download PDF

Info

Publication number
JP5834449B2
JP5834449B2 JP2011081133A JP2011081133A JP5834449B2 JP 5834449 B2 JP5834449 B2 JP 5834449B2 JP 2011081133 A JP2011081133 A JP 2011081133A JP 2011081133 A JP2011081133 A JP 2011081133A JP 5834449 B2 JP5834449 B2 JP 5834449B2
Authority
JP
Japan
Prior art keywords
utterance
state detection
section
data
reply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011081133A
Other languages
English (en)
Other versions
JP2011242755A (ja
Inventor
鷲尾 信之
信之 鷲尾
原田 将治
将治 原田
晃 釜野
晃 釜野
松尾 直司
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011081133A priority Critical patent/JP5834449B2/ja
Priority to US13/064,871 priority patent/US9099088B2/en
Publication of JP2011242755A publication Critical patent/JP2011242755A/ja
Application granted granted Critical
Publication of JP5834449B2 publication Critical patent/JP5834449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本願明細書の開示する技術は、例えば、発話者の発話状態を検出する発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法に関する。
近年、音声データを分析して発話者の感情等の状態を検出する技術が知られている。例えば、音声信号に基づいて、その強度、速度、テンポ、強度変化パターンの抑揚等を検出し、それぞれの変化量から、悲しみや怒り、喜び等の感情状態を生成する方法が知られている(例えば、特許文献1参照。)。また、音声信号をローパスフィルタ処理して、音声信号の強度やピッチ等の特徴を抽出することにより、感情を検出する方法が知られている(例えば、特許文献2参照。)。さらに、音声情報から音韻スペクトルに係る特徴量を抽出し、予め備えた状態判断テーブルに基づいて感情状態を判断する方法が知られている(例えば、特許文献3参照。)。さらに加えて、音声信号の振幅包絡についての周期的変動を抽出し、話者が力んだ状態で発生したか否かを判定して、話者の怒りや苛立ちを検出する装置が知られている(例えば、特許文献4参照。)。
特開2002−091482号公報 特開2003−099084号公報 特開2005−352154号公報 特開2009−003162号公報
上記のような従来の感情検出技術の多くにおいては、声の高さ、声の大きさまたは韻律情報等の話者を特徴付ける音声データの特徴量から、話者の状態を示す基準情報としての特定話者基準情報を話者毎に予め作成しておき、検出対象となる音声データの各特徴量と上記特定話者基準情報とを比較することにより、話者の感情検出を行っている。よって、この場合、予め特定話者毎に基準情報を作成しておく必要がある。
しかしながら、予め特定話者毎に基準情報を作成しておくことを前提とすると、技術の適用範囲が特定話者に限定されるばかりか、本技術を導入する都度基準情報を作成しなければならず作業が煩雑となるという問題がある。
開示の技術は、上記に鑑みてなされたものであって、その目的は、予め特定話者毎に基準情報を作成することなく、発話状態の検出を可能とする発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法の提供にある。
上記の目的を達成するために、以下に開示する発話状態検出装置は、発話者の発話データを取得する発話データ取得部と、前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出部と、抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出部と、所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出部と、特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第1の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第2の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出部とを備える。
本願明細書の開示によれば、予め特定話者毎に基準情報を作成することなく、発話状態の検出を可能とすることができる。
図1は、発話状態検出装置1の機能ブロック図の一例を示す図である。 図2は、コンピュータを用いて発話状態検出装置1を実現したハードウェア構成の例を示す図である。 図3は、発話状態検出プログラム24aにおける、発話状態検出パラメータの作成処理のオペレーションチャートの一例を示す図である。 図4は、日常状態で発話された発話データに基づいて算出した変動度合いを、グラフ化した一例を示す図である。 図5は、日常状態で発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。 図6は、統計量と発話状態検出パラメータt1との関係を示す図である。 図7は、発話状態検出プログラム24aにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。 図8は、特定発話者によって発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。 図9は、第2の実施形態にかかる発話状態検出パラメータ算出処理のオペレーションチャートの一例を示す図である。 図10は、第3の実施形態にかかる発話状態検出装置1の機能ブロックの一例を示す図である。 図11は、発話データにノイズを多く含む場合とノイズが少ない場合におけるそれぞれの統計量を、グラフ化した一例を示す図である。 図12は、発話状態検出プログラム24aにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。 図13は、第5の実施形態による発話状態検出装置1の機能ブロックの一例を示す図である。 図14は、第5の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。 図15は、発話区間の検出方法の一例を示す図である。 図16は、返事区間の検出方法の一例を示す図である。 図17は、返事モデル記憶部のデータ更新の一例を示す図である。 図18は、返事モデル記憶部のデータ更新の一例を示す図である。 図19は、第5の実施形態による発話状態検出装置1を、コンピュータを用いて実現したハードウェア構成の例を示す図である。 図20は、区間検出プログラム24cによる発話区間検出処理のオペレーションチャートの一例を示す図である。 図21は、区間検出プログラム24cによる返事区間検出処理のオペレーションチャートの一例を示す図である。 図22は、第6の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。 図23は、第6の実施形態における返事モデル記憶部に記憶されているデータの更新例を示す図である。 図24は、第7の実施形態による発話状態検出装置1の機能ブロックの一例を示す図である。 図25は、第7の実施形態における電話帳記憶部に記憶されるデータの一例を示す図である。 図26は、第7の実施形態における時間帯別危険度記憶部に記憶されるデータの一例を示す図である。 図27は、第7の実施形態における時間帯別危険度記憶部に記憶されるデータの一例を示す図である。 図28は、第7の実施形態による発話状態検出装置1を、コンピュータを用いて実現したハードウェア構成の例を示す図である。 図29は、第7の実施形態に係る発話状態検出装置による処理全体の流れを示す図である。 図30は、危険度算出プログラム24fにより実行される通話相手による危険度算出処理のオペレーションチャートの一例を示す図である。 図31は、危険度算出テーブルの一例を示す図である。 図32は、危険度算出プログラム24fにより実行される通話時間による危険度算出処理のオペレーションチャートの一例を示す図である。 図33は、情報アップロード処理のオペレーションチャートの一例を示す図である。 図34は、情報配信処理のオペレーションチャートの一例を示す図である。 図35は、通話時間長と発話時間長との比を用いた検出を行う発話状態検出装置1の機能ブロックの一例を示す図である。 図36は、通話時間長と返事時間長との比を用いた検出を行う発話状態検出装置1の機能ブロックの一例を示す図である。 図37は、話速を用いた検出を行う発話状態検出装置1の機能ブロックの一例を示す図である。 図38は、第8の実施形態による移動体端末の機能ブロックの一例を示す図である。 図39は、住所履歴記憶部に記憶されるデータの一例を示す図である。 図40は、犯罪情報取得部による犯罪情報の取得方法の一例を示す図である。 図41は、危険度判定部による処理のオペレーションチャートの一例を示す図である。 図42は、犯罪検出制御部による処理のオペレーションチャートの一例を示す図である。
以下においては、本願の開示する発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法の一実施形態について説明する。
[1.第1の実施形態]
[1−1.機能ブロック]
図1は、この発明の本実施形態による発話状態検出装置1の機能ブロックの一例を示す図である。発話状態検出装置1は、発話データ取得部11と、周波数成分抽出部12と、変動度合い算出部13と、統計量算出部14と、発話状態検出パラメータ作成部15と、発話状態検出部16とを少なくとも備えている。
上記の発話状態検出装置1において、発話データ取得部11は、発話者が発話することにより発生した発話データを取得する。ここで、発話データは、例えばマイクを通して取得したものであってもよいし、予め録音した発話データをハードディスク等から読み出して取得したものであってもよいし、ネットワークを介して受信したものであってもよい。
周波数成分抽出部12は、取得した発話データを周波数解析した結果から、高域周波数成分を抽出する。例えば、発話データの音声区間を1フレーム(64msec)毎にスペクトル解析することにより各周波数成分に分解する。そして、所定帯域の周波数を高域周波数として抽出することにより、高域周波数成分を抽出する。
変動度合い算出部13は、抽出した高域周波数成分について、単位時間毎の変動度合いを算出する。例えば、1フレーム(64msec)毎の変動度合いを算出する。また、例えば、変動度合いは、高域周波数成分を示すスペクトルについての平坦性を評価可能な指標であることが好ましい。なお、この評価指標については後述する。
統計量算出部14は、所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する。例えば、上記において算出した変動度合いデータが500サンプル存在する区間を分析区間として統計量を算出する。ここで、統計量とは、算出した変動度合いデータの各要素に基づく統計的な代表値である。例えば、この統計量は、複数の変動度合いの中央値、平均値、分散、最頻値または分位数等を用いて算出してもよい。
発話状態検出パラメータ作成部15は、算出した複数の統計量に基づいて、発話状態を検出するための発話状態検出パラメータを作成する。例えば、日常状態であるか非日常状態であるかが既知となっている、不特定話者の発話データに基づいて算出した統計量から、特定話者の発話状態を検出可能な閾値を算出し、当該閾値を発話状態検出パラメータとする。なお、発話状態検出パラメータ作成部15は、上記発話状態検出装置1において必須の構成要素ではない。
発話状態検出部16は、特定発話者が発話することにより発生した発話データから得られた前記統計量に基づいて、前記特定発話者の発話状態を検出する。ここで、発話状態とは、発話者が発話を行う際における精神的または肉体的な状態を示すものである。
上記の発話状態の検出は、例えば、予め、不特定話者(例えば、1000人分)について、日常状態または非日常状態における発話データに基づいて算出した統計量に基づいて作成した発話状態検出パラメータを記録しておき、この発話状態検出パラメータを閾値として設定し、特定話者について取得した発話データに基づいて算出した統計量が、日常状態を示すものであるか非日常状態を示す物であるかを判断することにより行われる。
一般的に、発話データには個人差がある上、人間の感情や心理状態などを定量的に示すことが困難であることから、発話データのみに基づいて発話時における状態を判断することは困難であるとされている。そこで、本発明の発明者は、高域周波数成分の変動度合いに着目した。高域周波数成分の変動度合いにおいて、発話状態を示す特性が表れているか否かの実験を行った結果、高域周波数成分の変動度合いに基づく統計量の比較により、かなりの確率で発話状態の判断(例えば、日常状態であるか非日常状態であるかの判断)が可能であった。
上記のように、特定発話者の発話データから得られた統計量に基づいて、特定発話者の発話状態を検出するため、予め特定話者毎に基準情報を作成しなくても特定話者の発話状態を検出することができる。
上記の発話状態検出装置1において、発話状態検出部16は、不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて算出された発話状態検出パラメータを用いて、前記特定発話者の発話状態が日常状態であるか非日常状態であるかを検出することが好ましい。これにより、不特定発話者が既知の発話状態で発話することにより発生した発話データに基づいて、特定発話者の発話状態を精度よく検出することができる。また、不特定発話者が既知の発話状態で発話することにより発生した発話データが大量であっても、処理速度を低下させることなく特定発話者の発話状態を検出することができる。なお、上記においては、予め算出された発話状態検出パラメータ、または、発話状態検出装置1とは別の装置において算出された発話状態検出パラメータのいずれを用いても、特定発話者の発話状態を検出することができる。
上記の発話状態検出装置1において、不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて前記発話状態検出パラメータを作成する発話状態検出パラメータ作成部をさらに備えてもよい。これにより、発話状態検出パラメータを発話状態検出装置1内で作成して、特定話者の発話状態を検出することができる。
上記の発話状態検出装置1において、前記高域周波成分は、第1フォルマントを含まないように周波数成分を抽出したものであることが好ましい。例えば、言葉を発している人の音声のスペクトルは、複数のピークが時間的に移動している。一般的に、このピークのことをフォルマントといい、周波数の低い順に第1フォルマント、第2フォルマント…という。フォルマントの周波数は声道の形状と関係し、個体差や性差もフォルマントの違いを生む原因となる。第1フォルマントの判定を行う場合は、例えば、サウンドスペクトログラムにより音声信号をディジタル録音(サンプリング)したものに短時間フーリエ変換(STFT)を行えばよい。なお、ソナグラフまたはサウンドスペクトログラフ等を用いてもよい。
上記のように、第1フォルマントを含まないように周波数成分を抽出するのは、第1フォルマントを含まないように周波数成分を抽出することにより、発話内容(例えば、母音の有無等)による影響を効果的に排除することができるためである。また、発話者の性別や年齢といった個人差に基づく影響についても同時に排除することができる。
上記の発話状態検出装置1において、前記高域周波数成分は、2kHz以上の周波数成分を抽出したものであることが好ましい。なぜなら、2kHz以上の周波数成分であれば、第1フォルマントが含まれない可能性が極めて高いからである。なお、より好ましくは、高域周波数成分は、2kHz〜3kHzの範囲の周波数成分を抽出したものであることが望ましい。このように高域周波数成分の範囲を限定することにより、発話状態の検出に有効な高域周波数成分のみを用いて効率的に処理を行うことができる。
一般に、疲労やストレス等のない状態(日常状態とする。)における人間の発話では、いわゆる張りのある発声というものが多く出現している。しかし、疲労やストレス等がある状態(非日常状態とする。)における人間の発話では、いわゆる張りのある発声の出現頻度が比較的少なくなる。このような知見に基づくと、例えば、発話者の発話データにおける高域周波数成分の出現頻度を、発話状態の判定に用いることができる。そこで、統計的な手法を用いて、不特定話者間に共通して適用可能となる発話状態の検出規則を次のように見いだした。
上記の発話状態検出装置1において、前記変動度合い算出部は、前記変動度合いを、次の式:変動度合い=log(高域周波数成分のパワースペクトルの幾何平均)/log(高域周波数成分のパワースペクトルの算術平均)に基づいて算出することが好ましい。
上記の発話状態検出装置1において、前記変動度合い算出部は、前記変動度合いを、次の式:変動度合い=log(高域周波数成分の残差パワースペクトルの幾何平均)/log(高域周波数成分の残差パワースペクトルの算術平均)に基づいて算出するようにしてもよい。
上記の発話状態検出装置1において、前記変動度合い算出部は、前記変動度合いを、次の式:変動度合い=高域周波数成分のパワースペクトルの幾何平均/高域周波数成分のパワースペクトルの算術平均に基づいて算出するようにしてもよい。
上記の発話状態検出装置1において、前記変動度合い算出部は、前記変動度合いを、高域周波数成分の残差パワースペクトルの分散に基づいて算出するようにしてもよい。
上記の発話状態検出装置1において、前記変動度合い算出部は、前記変動度合いを、高域周波数成分のパワースペクトルの4分位数範囲に基づいて算出するようにしてもよい。
図1に示す各機能部(11〜16)は、それぞれプログラムによって実現されるCPUの機能を含むものである。ここで、プログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む。
[1−2.ハードウェア構成]
図2は、この発明の一実施形態による発話状態検出装置1を、CPUを有するコンピュータ装置を用いて実現したハードウェア構成の例を示す図である。なお、CPU22に代えて、他のプロセッサ(例えば、MPU等。)やIC(例えば、ASIC等。)を有する装置を用いてもよい。また、携帯電話またはスマートフォンのような電子機器等を用いて、上記発話状態検出装置1を構成してもよい。
発話状態検出装置1は、ディスプレイ21、CPU22、メモリ23、ハードディスク24、マイク25および、キーボード/マウス26を少なくとも備える。ハードディスク24には、OS(オペレーティング・システム、図示せず。)の他、発話状態検出プログラム24aおよび発話状態検出パラメータ24b等が記録される。CPU22は、OSおよび発話状態検出プログラム24a等に基づく処理を実行する。なお、発話状態検出パラメータ24bについては後述する。メモリ23は、CPU22が発話状態検出プログラム24a等に基づく処理を実行する際に、変動度合いデータ23aおよび統計量データ23bを一時的に記憶する。なお、変動度合いデータ23aおよび統計量データ23bについては後述する。
図1に示した発話状態検出装置1を構成する、発話データ取得部11、周波数成分抽出部12、変動度合い算出部13、統計量算出部14、発話状態検出パラメータ作成部15および発話状態検出部16は、CPU22上において発話状態検出プログラム24aを実行することによって実現される。
以下、上記の発話状態検出プログラム24aに基づく処理内容について説明する。上記の発話状態検出プログラム24aは、(1)不特定発話者が発話することにより発生した発話データから発話状態検出パラメータを作成する処理、または、(2)作成した発話状態検出パラメータを用いて、特定発話者が発話することにより発生した発話データに基づいて特定発話者の発話状態を検出する処理をCPU22に実行させることができる。
[1−3.発話状態検出パラメータの作成処理]
図3は、発話状態検出プログラム24aにおける、(1)不特定発話者が発話することにより発生した発話データから発話状態検出パラメータを作成する処理(発話状態検出パラメータの作成処理)のオペレーションチャートの一例を示す図である。なお、発話状態検出パラメータの作成処理は、(2)作成した発話状態検出パラメータを用いて、特定発話者が発話することにより発生した発話データに基づいて特定発話者の発話状態を検出する処理(特定発話者の発話状態検出処理)を実行する前において、少なくとも1回は実行されることが好ましい。また、発話状態検出パラメータの作成処理を行う装置は、本発話状態検出装置1以外の装置であってもよい。
発話状態検出パラメータの作成処理を実行するCPU22は、不特定発話者が発声した発話(音声)データを取得する(Op301)。例えば、CPU22は、不特定発話者によりマイク25を用いて入力された音声信号をA/D変換したデジタル音声データ(例えば、サンプリング周波数8kHz、量子化数16bitでサンプリングしたデジタル音声データ。)を発話データとして取得する。例えば、有効な音声区間は、発話データのパワーを参照しながら始点および終点を判断すればよい。なお、CPU22は、予めメモリ23またはハードディスク24に記録された発話データを取得するようにしてもよい。
CPU22は、1フレーム分(例えば、64msec分)の発話データを、スペクトル解析する(Op302)。例えば、スペクトル解析は、1フレーム分の発話データ(デジタル音声データ)をDFT(デジタルフーリエ変換)分析することによって行えばよい。
CPU22は、高域周波数帯のスペクトルを抽出する(Op303)。具体的にいえば、CPU22は、上記Op302においてスペクトル解析を行って得た各周波数成分のうち、高域周波数帯のスペクトルのみを抽出する。より具体的には、高域周波数帯として、例えば2kHz〜3kHzの周波数成分のスペクトルを抽出する。2kHz〜3kHzとしたのは、上述した通り、2kHz以上の周波数成分であれば、第1フォルマントが含まれない可能性が極めて高いためである。また、2kHz〜3kHzの範囲の周波数成分に限定することにより、発話状態の検出に有効な高域周波数成分のみを用いて効率的に処理を行うためでもある。
CPU22は、抽出したスペクトルに基づいて、高域周波数成分の変動度合いを算出する(Op304)。例えば、高域周波数成分の変動度合いは、上記の1フレーム毎に、次の式で算出される。なお、幾何平均とは、1フレーム内における各パワースペクトルの値についての相乗平均を意味し、算術平均とは、1フレーム内における各パワースペクトルの値についての相加平均を意味する。変動度合い=log(高域周波数成分のパワースペクトルの幾何平均)/log(高域周波数成分のパワースペクトルの算術平均)
図4は、日常状態で発話された発話データに基づいて算出した変動度合いを、グラフ化した一例を示す図である。このグラフにおいて、縦軸は、高域周波数成分の変動度合いを表し、横軸は、経過時間を表し、1つのプロット点が1フレーム分について算出した変動度合いの値を示す。なお、日常状態を示す折れ線41における変動度合い列(単位時間毎の変動度合いの要素データの集合)の振幅は、非日常状態のそれよりも大きくなる。つまり、非日常状態におけるグラフは、日常状態におけるグラフよりも平坦性が高くなる。なお、上記において算出された変動度合いは、変動度合いデータ23aとしてメモリ23に記憶される。
上述した通り、変動度合いは、高域周波数成分を示すスペクトルについての平坦性を評価可能な指標であることが好ましい。よって、下記の例に従って変動度合いを算出してもよい。
例えば、変動度合いを、次の式で算出してもよい。なお、残差パワースペクトルとは、スペクトルの逆フィルタをかけることで得られる残差信号である。変動度合い=log(高域周波数成分の残差パワースペクトルの幾何平均)/log(高域周波数成分の残差パワースペクトルの算術平均)
例えば、変動度合いを、次の式で算出してもよい。変動度合い=高域周波数成分のパワースペクトルの幾何平均/高域周波数成分のパワースペクトルの算術平均
例えば、変動度合いを、高域周波数成分の残差パワースペクトルの分散に基づいて算出するようにしてもよい。
例えば、変動度合いを、高域周波数成分のパワースペクトルの4分位数範囲に基づいて算出するようにしてもよい。例えば、高域周波数成分のパワースペクトルの値の第1四分位数と第3四分位数の値の差(値が大きい順にソートして、上位25%の最も小さい値と、下位25%の最も大きい値との差)に基づいて算出するようにしてもよい。
CPU22は、発話データの音声区間がなくなるまで、各音声区間について、上記Op302〜304の処理を繰り返す(Op305)。
発話データの全ての音声区間についての変動度合いを算出すると(Op305、No)、CPU22は、所定の分析区間毎の変動度合い列に基づいて、統計量を算出する(Op306)。例えば、変動度合いの要素データが500サンプル含まれる区間を1つの分析区間とする。そして、この分析区間内に存在する変動度合いの各要素間における中央値を算出し、この算出結果を統計量とする。なお、中央値に代えて分散または分位数を用い、各要素間における統計量を算出するようにしてもよい。
上記の場合、複数の変動度合いの要素(値)に対して、1番目〜500番目までの要素を1番目の分析区間とし、11番目〜510番目までの要素を2番目の分析区間とし(以下同じ)、10個ずつ要素を増減させて分析区間を移動させることにより、複数の統計量を計算する。
図5は、日常状態で発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。このグラフにおいて、縦軸は、統計量の大きさ(変動度合いと同じ単位)を表し、横軸は、経過時間を表す。なお、日常状態を示す折れ線51における統計量列(所定区間毎の統計量の要素の集合)の振幅は、非日常状態のそれよりも大きくなる。つまり、非日常状態におけるグラフは、日常状態におけるグラフよりも平坦性が高くなる。なお、上記において算出された統計量は、統計量データ23bとしてメモリ23に記憶される。
CPU22は、不特定発話者にかかる発話データがなくなるまで、各発話データについて、上記Op301〜306の処理を繰り返す(Op307)。
Op308において、CPU22は、発話状態検出パラメータ算出処理を行う。例えば、この発話状態検出パラメータ算出処理においては、日常状態であるか非日常状態であるかが既知である各発話データを用いて上記のように統計量を算出しておき、算出した各統計量に基づいて、特定発話者にかかる発話データの発話状態を検出するために用いる発話状態検出パラメータt1およびt2を算出する。なお、後述の発話状態検出処理において発話状態検出パラメータt1およびt2を用いることにより、特定発話者にかかる統計量と、不特定話者にかかる統計量とを比較することができる。
例えば、発話状態検出パラメータt1は、日常状態である発話データから算出した全統計量についての第3四分位数(統計量を大きい順にソートして、上位25%の最も小さい値)を求めることによって決定する。そして、発話状態検出パラメータt1を超えている統計量要素の、全統計量要素に対する比率(要素比率)を、発話状態検出パラメータt2として決定する。発話状態検出パラメータt1は、全統計量についての第3四分位数以外の代表値を用いてもよい。
図6は、統計量と発話状態検出パラメータt1との関係を示す図である。図6において、破線65が発話状態検出パラメータt1の値を示している。なお、図6において、区間61、62、63は、複数要素の統計量(統計量列)を示す折れ線61a、62a、63aに対応する区間を示している。ここで、折れ線61a、62aは、日常状態を表し、折れ線63aは、非日常状態を示している。
また、図6においては、非日常状態の発話データから算出した統計量も同時に示されているが、非日常状態の統計量データについての第3四分位数に基づいて発話状態検出パラメータt3を算出しておき、t1とt3との差が所定値以上である場合にt1を正式に採用するようにしてもよい。これにより、日常状態の統計量と非日常状態の統計量との間に確実に差が生じている不特定発話者データを用いて、精度の高い発話状態検出パラメータ(t1およびt2)を設定することができる。
CPU22は、パラメータ算出処理において算出した発話状態検出パラメータt1およびt2をハードディスク24に記憶する。
[1−4.特定発話者の発話状態検出処理]
発話状態検出パラメータの作成処理を終えると、本発話状態検出装置1は、特定発話者の発話状態検出処理をCPU22において実行する。上述の通り、発話状態検出パラメータ(t1およびt2)の作成処理は、特定発話者の発話状態検出処理の事前において、少なくとも1回行われていればよい。また、発話状態検出装置1は、発話状態検出パラメータ(t1およびt2)を取得可能であれば、発話状態検出パラメータの作成処理を実行しなくても、特定発話者の発話状態検出処理を実行することができる。
図7は、発話状態検出プログラム24aにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。
特定発話者の発話状態検出処理を実行するCPU22は、特定発話者が発声した発話(音声)データを取得する(Op701)。例えば、CPU22は、上記Op301(図3)の場合と同様に処理する。
CPU22は、1音声区間分(1フレーム分)の発話データを、スペクトル解析する(Op702)。例えば、上記Op302(図3)の場合と同様に処理する。
CPU22は、高域周波数帯のスペクトルを抽出する(Op703)。例えば、上記Op303(図3)の場合と同様に処理する。
CPU22は、抽出したスペクトルに基づいて、高域周波数成分の変動度合いを算出する(Op704)。例えば、上記Op304(図3)の場合と同様に処理する。
CPU22は、発話データの音声区間がなくなるまで、各音声区間について、上記Op702〜704の処理を繰り返す(Op705)。
発話データの全ての音声区間についての変動度合いを算出すると(Op705、No)、CPU22は、所定分析区間毎の変動度合いに基づいて、統計量を算出する(Op706)。例えば、上記Op305(図3)の場合と同様に処理する。但し、本処理においては特定発話者による発話状態は、日常状態であるか非日常状態であるかは不明である。
Op707において、CPU22は、上記Op308において算出した発話状態検出パラメータを用いて、特定発話者についての発話状態検出処理を行う。具体的にいえば、発話状態検出パラメータt1およびt2を用いて、特定発話者にかかる統計量と、不特定話者にかかる統計量とを比較することにより、特定発話者についての発話状態を検出する。つまり、発話状態の検出は、特定発話者について算出した統計量を発話状態検出パラメータt1およびt2を用いて評価することによって行う。
例えば、「統計量列に(声に)張りのある要素データが多く出現する時は日常状態であり、そうでない時は疲労等の状態である」といった規則を設定する。ここで、(声に)張りのある要素データが出現するとは、要素データを示す各統計量の値が、発話状態検出パラメータt1より大きくなる場合であると定義する。
図8は、特定発話者によって発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。例えば、図8の場合、グラフ中の破線が発話状態検出パラメータt1に対応している。つまり、この破線よりも上にある統計量列の各要素は、(声に)張りがある要素であるということになる。
また、(声に)張りのある要素が多い場合とは、張りのある要素の出現率(発話状態検出パラメータt1より大きい統計量の要素が存在する割合)が、発話状態検出パラメータt2よりも大きい場合をいう。例えば、図8の場合、折れ線81の統計量の要素は、多く(約65%)が、発話状態検出パラメータt1の値を超えている。つまり、統計量列の全体に対して、発話状態検出パラメータパラメータt1を超えている要素比率が、発話状態検出パラメータt2よりも大きければ、張りのある要素の出現頻度が多いといえる。そして、張りのある要素の出現頻度が多い統計量データを、日常状態であるとして検出する。
[1−5.まとめ]
以上に説明したとおり、上記の発話状態検出装置1は、不特定発話者が既知の発話状態で発話することにより発生した発話データから得られた統計量と、特定発話者が発話することにより発生した発話データから得られた統計量とを、不特定発話者が既知の発話状態で発話することにより発生した発話データから得られた統計量に基づいて決定した発話状態検出パラメータ(t1およびt2)を用いて比較することにより、特定発話者の発話状態を検出する。これにより、予め特定話者毎に基準情報を作成することなく、発話状態の検出を可能とすることができる。
この実施形態において、発話データ取得部11は、一例として、図3のOp301の処理機能を含む。周波数成分抽出部12は、一例として、図3のOp303の処理機能を含む。変動度合い算出部13は、一例として、図3のOp304の処理機能を含む。統計量算出部14は、一例として、図3のOp306の処理機能を含む。発話状態検出パラメータ算出部15は、一例として、図3のOp308の処理機能を含む。
[2.第2の実施形態]
上記の発話状態検出装置1における発話状態検出パラメータ算出処理(Op308)においては、一例として、日常状態である発話データから算出した全統計量についての第3四分位数(統計量を大きい順にソートして、上位25%の最も小さい値)を求めることによって発話状態検出パラメータt1を決定するとともに、発話状態検出パラメータt1を超えている統計量要素の、全統計量要素に対する比率(要素比率)を、発話状態検出パラメータt2として決定した。
しかしながら、日常状態である発話データから算出した統計量だけでなく、非日常状態である発話データから算出した統計量も考慮して、発話状態検出パラメータ(t1およびt2)を決定するようにしてもよい。このように、非日常状態である発話データから算出した統計量も考慮して発話状態検出パラメータ(t1およびt2)を決定することにより、不特定発話者の発話データの解析結果をより反映させた発話状態検出パラメータ(t1およびt2)を用いることができる。このため、検出精度をより向上させた発話状態検出処理を実行することができる。
[2−1.機能ブロックおよびハードウェア構成]
本実施形態にかかる発話状態検出装置1も、第1の実施形態と同様に、コンピュータ装置、携帯電話またはスマートフォン等の電子機器を用いて構成可能である。また、本実施形態にかかる発話状態検出装置1の機能ブロックおよびハードウェア構成の一例は、図1および図2を用いて説明した第1の実施形態と基本的に同様である。
[2−2.発話状態検出パラメータの作成処理]
本実施形態の合成音声修正装置1における発話状態検出プログラム24aの、発話状態検出パラメータの作成処理の処理内容は、図3〜図6を用いて説明した第1の実施形態と基本的に同様である。しかしながら、本実施形態では、Op308において説明した発話状態検出パラメータ算出処理の処理内容が異なる。
図9は、本実施形態にかかる発話状態検出パラメータ算出処理のオペレーションチャートの一例を示す図である。例えば、この発話状態検出パラメータ算出処理においては、日常状態であるか非日常状態であるかが既知である各発話データを用いて統計量を算出する。
CPU22は、日常状態の全統計量データから発話状態検出パラメータt1を決定する(Op901)。例えば、発話状態検出パラメータt1は、日常状態である発話データから算出した全統計量についての第3四分位数(統計量を大きい順にソートして、上位25%の最も小さい値)を求めることによって決定する。なお、発話状態検出パラメータt1は、全統計量についての第3四分位数以外の代表値を用いてもよい。
CPU22は、日常状態であるか非日常状態であるかが既知である、i番目の統計量データについて、決定した発話状態検出パラメータt1を超えている要素比率を算出する(Op902)。例えば、50個の統計量データ要素のうち30個が発話状態検出パラメータt1を超えていれば、要素比率は0.6となる。
CPU22は、次に処理する統計量データがなくなるまで、各統計量データについて、上記Op902の処理を繰り返す(Op903、Op904)。
日常状態および非日常状態を含む発話データの全ての統計量データについての要素比率を算出すると(Op903、No)、CPU22は、統計量データの要素比率とTとの比較により日常状態か非日常状態を判定する(Op905、Op906)。ここで、Tは、0≦T≦1の範囲で、0.01毎に変化する変数であり、発話状態検出パラメータt2を決定するためのものである。
CPU22は、Tが0から1まで、0.01ずつ変化する度に、Op906〜下記Op908の処理を実行する(Op910、Op911)。
CPU22は、Op905の判定結果と、発話データの既知の状態情報(日常状態または非日常状態あることが、予め発話データに対応付けて記録されている情報)とに基づいて判定結果を評価して記録する(Op907)。例えば、Tに対応する発話状態検出パラメータt2を0.5に設定して、要素比率が0.6となる日常状態を示す統計量データについての検出処理を行うと、要素比率(0.6)は、発話状態検出パラメータt2(0.5)よりも大きいので、この統計量データは日常状態であると判断される。
また、この統計量データは日常状態を示すことが既知であることにより、Op905の判定結果は正解であると評価されることになる。CPU22は、この評価をメモリ23において記録する。例えば、正解の場合は、統計量データに対応付けて「1」を記録し、不正解の場合は、統計量データに対応付けて「0」を記録すればよい。
一方、Tが0.7であり、要素比率が0.6となる場合、要素比率(0.6)は、発話状態検出パラメータt2(0.7)以下であるので、この統計量データは非日常状態であると判断される。しかしながら、この統計量データの既知の状態が日常状態であれば、Op905の判定結果は不正解であると評価されることになる。この場合、統計量データに対応付けて「0」が記録される。
CPU22は、設定したT毎にOp905の判定結果についての正解率を算出し、この正解率が最大となるTを発話状態検出パラメータt2に決定する(Op912)。
CPU22は、パラメータ算出処理において算出した発話状態検出パラメータt1およびt2をハードディスク24に記憶する。
なお、上記Op901においては、日常状態の統計量データについての第3四分位数に基づいて発話状態検出パラメータt1を決定するようにしたが、発話状態検出パラメータt2の場合と同様に、発話状態検出パラメータt1を変動させることにより、この正解率が最大となる発話状態検出パラメータt1およびt2を決定するようにしてもよい。これにより、より精度の高い発話状態検出パラメータ(t1およびt2)を設定することができる。
[2−3.特定発話者の発話状態検出処理]
本実施形態における特定発話者の発話状態検出処理は、第1の実施形態と同様である。すなわち、CPU22は、発話状態検出パラメータ(t1およびt2)を取得して、特定発話者の発話状態検出処理を実行する。なお、上述の通り、発話状態検出パラメータ(t1およびt2)の作成処理は、特定発話者の発話状態検出処理の事前において、少なくとも1回行われていればよい。また、発話状態検出装置1は、発話状態検出パラメータ(t1およびt2)を取得可能であれば、発話状態検出パラメータの作成処理を実行しなくても、特定発話者の発話状態検出処理を実行することができる。
[3.第3の実施形態]
上記の発話状態検出装置1において、前記発話データにかかるSN比(SNR:signal-noise ratio)を算出するSN比算出部をさらに備え、前記発話状態検出部は、統計量を算出した前記所定期間に対応するSN比が閾値よりも大きくなる場合に発話状態を検出するようにしてもよい。このように、SN比を考慮して発話状態を評価することにより、ノイズが比較的大きい環境における発話を排除して検出処理を行うことができ、検出精度の低下を防止することができる。
図11は、発話データにノイズを多く含む場合と、ノイズが少ない場合におけるそれぞれの統計量を、グラフ化した一例を示す図である。図11に示すように、折れ線111は、ノイズが少ない場合における日常状態の統計量データを示す。折れ線112は、ノイズが少ない場合における非日常状態の統計量データを示す。折れ線113は、ノイズが多い場合の日常状態の統計量データを示す。このように、日常状態を示す統計量であっても、ノイズが多い場合は、非日常状態よりも折れ線113の平坦性が高くなる。つまり、統計量データの折れ線113において、声の張りの検出が困難となる。
本実施形態においては、上記のような日常状態であってもノイズが多い場合の統計量を非日常であると判断して、発話状態の誤検出を防止する例について説明する。
[3−1.機能ブロックおよびハードウェア構成]
本実施形態にかかる発話状態検出装置1も、第1の実施形態と同様に、コンピュータ装置、携帯電話またはスマートフォン等の電子機器を用いて構成可能である。図10は、本実施形態にかかる発話状態検出装置1の機能ブロックの一例を示す図である。図10においては、図1において示した発話状態検出装置1の機能ブロックに加えて、SN比算出部17をさらに備えている。
SN比算出部17は、発話データ取得部11において取得された発話データについてのSN比を算出する。SN比の算出は、例えば、VAD(Voice Activity Detector)を用いた次の式で算出可能である。SN比=10log(Σ(S+N)/ΣN)ここで、Sは音声区間の平均パワーを表し、Nは非音声区間の平均パワーを表している。
なお、本実施形態にかかる発話状態検出装置1のハードウェア構成の一例は、図2を用いて説明した第1の実施形態と基本的に同様である。
[3−2.発話状態検出パラメータの作成処理]
本実施形態における発話状態検出パラメータの作成処理は、第1または第2の実施形態と同様である。すなわち、第1の実施形態と同様に、例えば、日常状態である発話データから算出した全統計量についての第3四分位数(統計量を大きい順にソートして、上位25%の最も小さい値)を求めることによって発話状態検出パラメータt1を決定するとともに、発話状態検出パラメータt1を超えている統計量要素の、全統計量要素に対する比率(要素比率)を、発話状態検出パラメータt2として決定すればよい。また、第2の実施形態と同様に、日常状態である発話データから算出した統計量だけでなく、非日常状態である発話データから算出した統計量も考慮して、発話状態検出パラメータ(t1およびt2)を決定するようにしてもよい。
[3−3.特定発話者の発話状態検出処理]
CPU22は、発話状態検出パラメータ(t1およびt2)を取得して、特定発話者の発話状態検出処理を実行する。なお、上述の通り、発話状態検出パラメータ(t1およびt2)の作成処理は、特定発話者の発話状態検出処理の事前において、少なくとも1回行われていればよい。また、発話状態検出装置1は、発話状態検出パラメータ(t1およびt2)を取得可能であれば、発話状態検出パラメータの作成処理を実行しなくても、特定発話者の発話状態検出処理を実行することができる。
図12は、発話状態検出プログラム24aにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。図12のOp701〜Op706は、図7において説明したものと同様である。
図12のOp706aにおいて、CPU22は、特定発話者の発話データについてのSN比を算出する。SN比の算出は、例えば、上述した通り、VADに基づいて算出すればよい。
続いてCPU22は、算出したSN比が、予め設定された閾値以上であるか否かを判定する(Op706b)。例えば、閾値を10dB(デシベル)と設定とした場合、SN比が15dBであれば、上述した発話状態検出処理(Op707)を実行する。
一方、SN比が閾値未満であれば、発話状態検出処理(Op707)を実行することなく、処理を終了する。この場合、例えば、SN比が小さいために処理を中断した旨の表示を行えばよい。また、その旨の信号出力を行うようにしてもよい。
これにより、算出した発話状態検出パラメータ(t1およびt2)を用いて、特定発話者についての発話状態検出処理を行う前段階で、検出処理結果の有効性を判断して、誤検出を事前に防止することができる。
この実施形態において、SN比算出部17は、一例として、図12のOp706aの処理機能を含む。
[4.第4の実施形態]
上記においては、1つの発話状態検出装置1において、(1)発話状態検出パラメータの作成処理および(2)特定発話者の発話状態検出処理を実行する例を説明したが、別の装置において算出された発話状態検出パラメータを用いて、特定発話者の発話状態を検出するようにしてもよい。例えば、インターネット等のネットワークを介して発話状態検出パラメータ取得するようにしてもよい。
上記第1〜第2の実施形態において説明した構成の一部または全部を、2以上組合せた構成としてもよい。
上記実施形態においては、図1に示す各機能ブロックを、ソフトウェアを実行するCPUの処理によって実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティング・システム(OS)にさせるようにしてもよい。
[5.第5の実施形態]
上述した実施形態では、予め特定話者毎に基準情報を作成することなく、通話などの入力音声データから物理的特徴量と統計量とを算出し、算出した物理的特徴量と統計量とから話者の状態を判定する処理を説明した。しかしながら、例えば、返事ばかりが続き、取得できる音声データが少ない場合には、上述の物理的特徴量と統計量とを算出することが困難であるので、話者の状態を判定することができない。そこで、以下に説明する第5の実施形態では、例えば、返事ばかりが続き、ある話者について取得できる音声データが少なく、話者の状態を判定することが難しい場合でも、音声データのみから話者の状態を判定する処理を説明する。
[5−1.機能ブロック]
図13は、第5の実施形態による発話状態検出装置1の機能ブロックの一例を示す図である。第5の実施形態に係る発話状態検出装置1は、音異常判定部10以外に、状態検出部100および総合判定部200を有する点が上述の実施形態とは相違する。なお、音異常判定部10は、図1に示す各機能ブロック11〜16に対応している。
状態検出部100は、図13に示すように、返事モデル記憶部101と、区間検出部111と、状態判定部112とを有する。
返事モデル記憶部101は、発話者が平常状態にあるときの返事に係る情報を統計処理したデータである。例えば、返事モデル記憶部101は、日常時などの平常状態にあるときに、発話者が返事に使用する単語(語彙、以下「単語」とのみ表記する)ごとに、単語の出現頻度および出現確率のデータを保持している。なお、返事モデル記憶部101は、予め、不特定多数の話者による日常時の対話データを元に作成される。ここで、日常時の対話か否かは、人が聞いて判断したり、同時収録した脈拍などの客観データから自動判定したり、上述した実施形態の方法によって判定したりすることができる。例えば、同時収録した脈拍などの客観データを利用する場合には、客観データの平均値や分散値の±1分散程度の区間の収まる場合には日常と判定すればよい。また、ユーザの性別、年代などが予め分かる場合は、性別、年代別に返事モデル記憶部101のデータを作成することも可能である。以下、図14を用いて、返事モデル記憶部101に記憶されるデータの一例を説明する。
図14は、第5の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。図14に示すように、返事モデル記憶部101には、日常時に返事に用いられた単語(語彙)ごとに、出現頻度(回数)と出現確率とが対応付けられている。例えば、図14では、単語「はい」について、頻度「23(回)」と、確率「2.3%」とが対応付けられている。また、図14では、単語「はあ」について、頻度「321(回)」と、確率「32.1%」とが対応付けられている。つまり、日常において、単語「はい」は、返事を行う際に用いられる頻度が少なく、単語「はあ」は返事を行う際に用いられる頻度が多いことが分かる。なお、図14では、返事モデル記憶部101に記憶されるデータの頻度(回数)の合計値が1000となっているが、1000を超える場合には1000で正規化した値としてもよいし、100や500など適宜所定の値で正規化してもよい。なお、図14に示す返事モデル記憶部101のデータの構成は一例であり、この構成に限定されるものではない。
区間検出部111は、発話データ取得部11により取得された発話データから、発話が行われている発話区間を検出する。例えば、区間検出部111は、発話データを、32ミリ秒や24ミリ秒でシフトするフレームごとに発話区間を検出する。以下、図15を用いて、区間検出部111による発話区間の検出方法の一例を説明する。図15は、発話区間の検出方法の一例を示す図である。
区間検出部111は、図15に示すように、処理フレームの入力パワーPを用いて、推定背景雑音パワーPを逐次推定しながら、入力パワーPが、推定背景雑音パワーPよりも所定の閾値α以上の大きさとなる区間Iを発話区間として検出する。なお、図15に示す方法で発話区間を検出する場合に限られるものではなく、例えば、特開平7−92989号公報に開示されている技術を利用して、発話区間を検出してもよい。
また、区間検出部111は、返事と推測される短時間の発話区間のみが連続する区間を返事区間として検出する。以下、図16を用いて、区間検出部111による返事区間の検出方法の一例を説明する。図16は、返事区間の検出方法の一例を示す図である。なお、図16に示すt〜tは、発話区間の区間長を表し、図16に示すTHは、返事を検出するための閾値を表す。
区間検出部111は、図16に示すように、検出した発話区間の区間長(t〜t)と、閾値THとをそれぞれ順次比較する。比較の結果、発話区間の区間長が閾値TH未満である場合には返事と判定する。例えば、図16に示す例では、区間検出部111は、区間長がt,tの発話区間を返事ではないと判定し、区間長がt,t,tである発話区間をそれぞれ返事であると判定する。そして、区間検出部111は、返事と判定された発話区間が連続する時間軸上の開始位置Sと終了位置Eとを取得し、返事区間Iとして出力する。なお、区間検出部111は、発話区間が返事と判定したか否か、あるいは入力音声の終了(処理フレームの終了)に応じて、適宜開始位置Sおよび終了位置Eを更新する。
状態判定部112は、返事モデル記憶部101に記憶されているデータを参照して、区間検出部111により検出された返事区間における返事の当事者の状態が、日常時などの安定した状態にあるのか、あるいは非日常などの不安定な状態にあるかを判定する。例えば、状態判定部112は、返事区間において返事と判定された発話区間の音声認識を行い、返事として発声された単語を認識する。なお、状態判定部112は、例えば、返事として利用される単語のセットを予め用意し、このセットに対するワードスポッティング技術や音素認識処理など、既存の音声認識技術を用いて音声認識の処理を実行する。続いて、状態判定部112は、音声認識された返事の単語と返事モデル記憶部101のデータとを照らし合わせることにより、返事区間における返事の当事者の状態を判定する。例えば、状態判定部112は、返事のときに利用された単語が、返事モデル記憶部101のデータの中で出現頻度の低いもの、例えば、出現確率が3%未満のものであれば、非日常状態の返事と判定する。例えば、上述した図14に示す例であれば、状態判定部112は、返事のときに利用された単語が「はい」や「ふむ」であれば、返事区間における返事の当事者は非日常状態の返事と判定する。そして、状態判定部112は、返事区間における全ての返事について、日常状態の返事か、あるいは非日常状態の返事かを判定し、返事区間における返事として非日常状態の返事が連続する場合には、返事区間における返事の当事者は非日常状態にあると判定する。なお、返事区間における返事の当事者は非日常状態にあると判定する条件は、返事区間に似含まれる日常状態の返事および非日常状態の返事の割合に応じて設定するなど、適宜変更可能である。
また、状態判定部112は、上述の判定結果に応じて返事モデル記憶部101のデータを更新する。上述したように、返事モデル記憶部101に記憶されるデータは、初期段階において、不特定多数の話者の日常時対話データを元に作成される。しかし、このままでは、発話状態検出装置1のユーザが行う返事の癖や心理的な変動など、ユーザの個人的な特性に応じた処理ができない可能性もでてくる。そこで、状態判定部112は、返事モデル記憶部101のデータがユーザの特性に応じてカスタマイズされるように、上述の判定結果が得られるたびに、この判定結果に応じて返事モデル記憶部101のデータを更新する。以下、図17および図18を用いて、返事モデル記憶部101のデータ更新について説明する。図17および図18は、返事モデル記憶部のデータ更新の一例を示す図である。
例えば、状態判定部112は、返事区間における返事の当事者について、日常状態であると判定した場合には、返事区間で音声認識された単語の出現頻度および出現確率を更新することにより、返事モデル記憶部101のデータを更新する。例えば、状態判定部112は、上述した返事区間において「ええ」という単語を6回認識するとともに、「うん」という単語を10回認識したものとする。この場合には、例えば、図17に示すように、状態判定部112は、返事区間において認識された回数に従って、返事モデル記憶部101に記憶されている単語「ええ」の頻度を「274→280」に更新する。同様に、状態判定部112は、返事区間において認識された回数に従って、返事モデル記憶部101に記憶されている単語「うん」の頻度を「145→155」に更新する。続いて、状態判定部112は、返事モデル記憶部101に記憶されている単語「ええ」の確率を、更新後の頻度に応じて「27.4%→27.6%」に更新する。同様に、状態判定部112は、返事モデル記憶部101に記憶されている単語「うん」の確率を、更新後の頻度に応じて「14.5%→15.3%」に更新する。以上で、状態判定部112は、更新の処理を完了する。
また、状態判定部112は、頻度の合計値がある程度大きくなった場合には、返事モデル記憶部101のデータを、頻度の合計が1000となるように正規化してもよい。つまり、返事モデル記憶部101に記憶されているデータの数値が大きくなると、データの更新処理速度の低下を招くため、これに対処する趣旨である。例えば、図18に示すように、状態判定部112は、返事モデル記憶部101に記憶されている頻度の合計を「1016→1000」に変更するのに合わせて、単語「ええ」の頻度を「280→275.6」に正規化する。また、状態判定部112は、返事モデル記憶部101に記憶されている頻度の合計を「1016→1000」に変更するのに合わせて、単語「ええ」の確率を「27.6→27.56」に正規化する。同様に、状態判定部112は、図18に示すように、返事モデル記憶部101に記憶されている頻度の合計を「1016→1000」に変更するのに合わせて、単語「うん」の頻度を「155→152.6」に正規化する。また、状態判定部112は、返事モデル記憶部101に記憶されている頻度の合計を「1016→1000」に変更するのに合わせて、単語「うん」の確率を「15.3→15.26」に正規化する。
総合判定部200は、上述した第1〜第4の実施形態に対応する音異常判定部10の判定結果、および状態判定部112による判定結果を用いて、返事区間における返事の当事者となる発話状態検出装置1のユーザの状態について総合的な判定を行う。例えば、総合判定部200は、音異常判定部10の判定結果、および状態判定部112による判定結果の双方が、非日常状態である場合には、ユーザが非日常状態にあると判定する。あるいは,音異常判定部10の判定結果、および状態判定部112による判定結果のいずれかが、非日常状態である場合には、ユーザが非日常状態にあると判定する構成でもよい.音異常判定部10の判定結果、および状態判定部112による判定結果が確率値など数値化されているならば,その加重平均を既定の閾値と比較してもよい。
[5−2.ハードウェア構成]
図19は、第5の実施形態による発話状態検出装置1を、コンピュータを用いて実現したハードウェア構成の例を示す図である。第5の実施形態による発話状態検出装置1のハードウェア構成は、上述した実施形態と基本的に同様の構成を有するが、以下に説明する点が上述の実施形態とは異なる。なお、上述した実施形態と同様に、CPU22に代えて、他のプロセッサ(例えば、MPU(Micro Processing Unit)等。)やIC(例えば、ASIC(Application Specific Integrated Circuit)等。)を有する装置を用いてもよい。また、携帯電話またはスマートフォンのような電子機器等を用いて、上記発話状態検出装置1を構成してもよい。
発話状態検出装置1は、ディスプレイ21、CPU22、メモリ23、ハードディスク24、マイク25および、キーボード/マウス26を少なくとも有する点は、上述の実施形態と同様であるが、次に説明する点が異なる。すなわち、ハードディスク25に、区間検出プログラム24c、状態判定プログラム24dおよび総合判定プログラム24eが新たに記録される。また、メモリ23に、CPU22が区間検出プログラム24cまたは状態判定プログラム24e等に基づく処理を実行する際に、区間検出データ23cおよび返事モデルデータ23dが一時的に記憶される。
図13に示した発話状態検出装置1の状態検出部100が有する区間検出部111や状態判定部112の処理機能は、CPU22上において区間検出プログラム24cや状態判定プログラム24dを実行することによって実現される。また、図13に示した発話状態検出装置1の総合判定部200の処理機能は、CPU22上において総合判定プログラム24eを実行することによって実現される。
以下、上述の区間検出プログラム24cや状態判定プログラム24dに基づく処理内容について説明する。上述の区間検出プログラム24cは、発話データから発話区間を検出する発話区間検出処理、または発話区間にて返事が連続している区間を返事区間として検出する返事区間検出処理をCPU22に実行させることができる。また、上述の状態判定プログラム24dは、検出された返事区間の返事の当事者の状態を判定する状態判定処理をCPUに実行させることができる。
[5−3.発話区間検出処理]
図20は、区間検出プログラム24cによる発話区間検出処理のオペレーションチャートの一例を示す図である。なお、図20に示す処理は、32ミリ秒や24ミリ秒でシフトする発話データのフレームを、1フレームずつ入力して実行される。
発話区間検出処理を実行するCPU22は、図20に示すように、取得した発話データの入力フレームが最初のフレームであるか否かを判定する(Op1001)。CPU22は、取得した発話データのフレームが最初のフレームである場合には(Op1001、Yes)、推定背景雑音パワーPを入力パワーPで初期化して(Op1002)、現入力フレームの処理を終了する。
一方、CPU22は、取得した発話データの入力フレームが最初のフレームではない場合には(Op1001、No)、発話区間の開始位置を検出済みであるか否かを判定する(Op1003)。CPU22は、発話区間の開始位置を検出済みではない場合には(Op1003、No)、入力パワーP>推定背景雑音パワーP+閾値αであるか否かを判定する(Op1004)。CPU22は、入力パワーP>推定背景雑音パワーP+閾値αである場合には(Op1004、Yes)、発話区間の開始位置を記憶(メモリ23に格納)して(Op1005)、現入力フレームの処理を終了する。例えば、CPU22は、発話区間の開始位置を検出済みである旨のフラグを立てる。一方、CPU22は、入力パワーP>推定背景雑音パワーP+閾値αではない場合には(Op1004、No)、推定背景雑音パワーPを入力フレームの入力パワーPで更新して(Op1006)、現入力フレームの処理を終了する。
なお、CPU22は、上述したOp1003において、発話区間の開始位置を検出済みである場合には(Op1003、Yes)、入力パワーP≦推定背景雑音パワーP+閾値αであるか否かを判定する(Op1007)。CPU22は、入力パワーP≦推定背景雑音パワーP+閾値αである場合には(Op1007、Yes)、発話区間を出力する(Op1008)。そして、CPU22は、上述したOp1006に移行し、推定背景雑音パワーPを入力フレームの入力パワーPで更新して、現入力フレームの処理を終了する。一方、CPU22は、入力パワーP≦推定背景雑音パワーP+閾値αではない場合には(Op1007、No)、そのまま現入力フレームの処理を終了する。
[5−4.返事区間検出処理]
図21は、区間検出プログラム24cによる返事区間検出処理のオペレーションチャートの一例を示す図である。なお、図21に示す処理は、32ミリ秒や24ミリ秒でシフトする発話データのフレームを、1フレームずつ入力して実行される。
返事区間検出処理を実行するCPU22は、図21に示すように、返事区間の開始位置S、返事区間の終了位置Eおよび返事数Nを初期化する(Op1101)。例えば、CPU22は、S=0、E=−1、N=0に初期化する。続いて、CPU22は、入力される発話データの次フレームがあるか否かを判定する(Op1102)。CPU22は、次のフレームがある場合には(Op1102、Yes)、上述した図20に示す発話区間検出処理を実行し(Op1103)、発話区間が確定しているか否かを判定する(Op1104)。例えば、CPU22は、図20のOp1008に示す発話区間の出力が行われたかどうかを判定する。
CPU22は、発話区間が確定している場合には(Op1104、Yes)、返事区間として取り扱う区間が開始済みであるか否かを判定する(Op1105)。例えば、CPU22は、返事発話数Nが1以上(N>0)であるか否かを判定する。CPU22は、返事区間として取り扱う区間が開始済みではない場合には(Op1105、No)、発話区間の区間長tが閾値TH未満であるか否かを判定する(Op1106)。CPU22は、発話区間長tが閾値TH未満ではない場合には(Op1106、No)、現入力フレームの発話データを返事ではないものとし、現入力フレームにおける発話区間の終了位置を、返事区間として取り扱う区間の開始位置Sとして設定する(OP1107)。例えば、CPU22は、図16に示す区間長がtの発話区間の終了位置を返事区間として取り扱う区間の開始位置Sとして設定する。そして、CPU22は、Op1102に戻り、次のフレームがあるか否かを判定する。一方、CPU22は、発話区間の区間長tが閾値TH未満である場合には(Op1106、Yes)、現入力フレームの発話データは返事であるものして、返事数N=1とし(Op1108)、Op1102に戻り、次のフレームがあるか否かを判定する。
なお、CPU22は、上述したOp1105において、返事区間が開始済みである場合には(Op1105、Yes)、Op1105と同様に、発話区間の区間長tが閾値TH未満であるか否かを判定する(Op1109)。CPU22は、発話区間の区間長tが閾値TH未満である場合には(Op1109、Yes)、現入力フレームの発話データは返事であるものとして、返事数N=N+1とし(Op1110)、Op1102に戻り、次のフレームがあるか否かを判定する。つまり、Op1110の処理は、返事区間として取り扱う区間の発話区間が返事と推測される限り、逐次、返事数を1ずつインクリメントする。
一方、CPU22は、発話区間の区間長tが閾値TH未満ではない場合には(Op1109、No)、発話区間の開始位置を返事区間の終了位置Eとして設定する(Op1111)。例えば、CPU22は、図16に示す区間長がtの発話区間の開始位置を返事区間の終了位置Eとして設定する。つまり、Op1111の処理により、返事区間が確定する。
続いて、CPU22は、返事区間として取り扱う区間において返事が続いたか否かを判定する(Op1112)。例えば、CPU22は、返事区間として取り扱う区間の返事数N>1、返事区間として取り扱う区間の終了位置E−返事区間として取り扱う区間の開始位置S)>THであるか否かを判定する。ここで、(返事区間として取り扱う区間の終了位置E−返事区間として取り扱う区間の開始位置S)>THを考慮するのは、例えば、通話などの対話中に、「はいはい」と連続した返事が行われた区間を排除するためである。つまり、ユーザの返事の癖により、見かけ上、返事が連続しているようにみえる区間を除外する趣旨である。なお、THは、所定の時間である。
CPU22は、返事区間として取り扱う区間において返事が続いた場合には(Op1112、Yes)、該当区間を返事区間として出力する(Op1113)。例えば、CPU22は、Op1107で設定した開始位置Sと、Op1111で設定される終了位置Eとにより確定する区間を返事区間として出力する。続いて、CPU22は、返事区間の開始位置S、返事区間の終了位置Eおよび返事発話数Nを再度初期化して(Op1114)、Op1102に戻り、次のフレームがあるか否かを判定する。
なお、CPU22は、上述したOp1112において、返事区間において返事が続かなかった場合には(Op1112、No)、そのまま上述したOp1114の処理に移行する。つまり、上述してきたOp1102からOp1114までの処理は、通話などの対話中に、発話→返事→発話が繰り返される状況を想定した処理であり、対話中の返事区間を逐次検出する。
なお、CPU22は、上述したOp1102において、次のフレームがない場合には(Op1102、No)、返事区間として取り扱う区間の開始位置Sを検出済みであるか否かを判定する(Op1115)。例えば、CPU22は、S>0であるか否かを判定する。CPU22は、返事区間として取り扱う区間の開始位置Sを検出済みではない場合には(Op1115、No)、通話などの対話中に発話のみが行われ、返事が行われなかった区間であるとして、そのまま処理を終了する。一方、CPU22は、返事区間とする開始位置Sを検出済みである場合には(Op1115、Yes)、現入力フレームである最終フレーム(最終フレームの最後の位置)を返事区間として取り扱う区間の終了位置Eに設定する(Op1116)。
続いて、CPU22は、Op1112と同様にして、返事区間として取り扱う区間において返事が続いたか否かを判定する(Op1117)。CPU22は、返事区間として取り扱う区間において返事が続いた場合には(Op1117、Yes)、該当区間を返事区間として出力し(Op1118)、処理を終了する。一方、CPU22は、返事区間として取り扱う区間において返事が続かなかった場合には(Op1117、No)、そのまま処理を終了する。つまり、Op1115からOp1118までの処理は、通話などの対話が発話→返事で終了した状況を想定した処理であり、この対話中の返事区間を検出する。
[5−5.まとめ(第5の実施形態による効果)]
上述してきたとおり、発話状態検出装置1の状態検出部100は、発話データから発話区間を検出し、返事と推測される短時間の発話区間のみが連続する区間を返事区間として検出する。そして、状態検出部100は、返事モデル記憶部101のデータを参照して、返事区間において利用された単語が、日常時に利用される頻度の高いものであるかどうかを検証する。検証の結果、日常時に利用される頻度の高いもの否かあまり利用されるものでなければ、状態検出部100は、返事区間における返事の当事者(発話状態検出装置1のユーザ)の状態が、非日常のように不安定な状態にあるものと判定する。このようなことから、第5の実施形態によれば、返事ばかりが続いて、取得できる発話データが少なく、上述の第1〜第4の実施形態ではユーザの状態を判定することが難しい場合でも、発話データのみからユーザの状態を判定できる。
なお、上述した実施形態の5において、返事の当事者の心理状態により、返事に用いられた単語の音声認識のスコアに差が出る場合がある。例えば、緊張により、いつもより力が入って発声が明瞭になった結果、音声認識のスコアが普段(日常時)よりも高くなることがあり得る。一方で、心配事などのストレスを原因として心ここにあらずで、いつもより発声が不明瞭になった結果、音声認識のスコアが普段よりも低くなってしまうことがあり得る。そこで、日常時のように心理的に安定した状態での音声認識のスコアを返事モデルとして記憶しておき、この返事モデルを参照して、返事区間における返事の当事者の状態を判定することもできる。以下に、この場合の実施形態の一例を説明する。
返事モデル記憶部101は、例えば、日常時における返事を音声認識したときの平均値、分散値、最大値と最小値などの統計量を返事モデルとして予め記憶する。そして、状態判定部112は、返事区間で使用された単語(語彙)の認識スコアと、返事モデルとを比較する。比較の結果、返事区間で使用された単語の認識スコアが、返事モデルと比べて稀なレンジの場合、例えば、平均値の±1分散程度の区間外の場合には、状態判定部112は、非日常と判定する。
あるいは、返事モデル記憶部101は、例えば、認識結果が1位である単語の認識スコアと、認識結果が2位である単語の認識スコアとの間に、例えば、10スコア以上の差があるというデータを予め記憶する。そして、状態判定部112は、返事区間で使用された認識結果1位の単語の認識スコアと、返事区間で使用された認識結果2位の単語の認識スコアとのスコア差を算出し、返事モデル記憶部101のデータと比較する。比較の結果、状態判定部112は、返事モデル記憶部101のデータと、スコア差との間に大きな開きがある場合、例えば、所定の閾値以上の開きがある場合には、非日常と判定する。
[6.第6の実施形態]
また、上述した第5の実施形態では、返事モデル記憶部101のデータを参照して、返事区間において利用された単語が、日常時に利用される頻度の高いものであるかどうかを検証することにより、ユーザの状態を判定する処理について説明した。ところで、上述の第5の実施形態において、例えば、返事区間の長さ、返事区間内の各返事の間隔長、総返事区間の長さ、あるいは通話時間と総返事区間の長さとの比などを用いて、ユーザの状態を判定することもできる。そこで、以下に説明する第6の実施形態では、例えば、返事区間の長さ、返事区間内の各返事の間隔長、総返事区間の長さ、あるいは通話時間と総返事区間の長さとの比を用いて、ユーザの状態を判定する処理を説明する。
[6−1.機能ブロック]
第6の実施形態による発話状態検出装置1の機能ブロックは、図13に示す第5の実施形態と基本的に同様の構成を有するが、以下に説明する点が異なる。なお、第6の実施形態による発話状態検出装置1のハードウェア構成は、上述した実施形態5と同様の構成を有する。
図22は、第6の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。図22に示すように、返事モデル記憶部101はユーザの返事区間長、返事の間隔長、総返事区間長および通話時間と総返事区間の長さとの比(以下、返事時間比と記載する)の各要素について、平均μと標準偏差σとを記憶する。平均μの単位は秒である。返事区間長は、返事区間の1つ1つの長さ(時間)を表す。返事の間隔長は、返事区間において返事と判定された各返事の1つ1つの長さ(時間)を表す。総返事区間長は、通話などによる対話中において検出された返事区間の合計の長さ(時間)を表す。返事時間比は、通話などによる対話が行われた通話時間と、上述した総返事区間長(時間)との比を表す。
なお、図22に示す返事モデル記憶部101のデータは、第5の実施形態と同様に、不特定多数の話者による日常時の対話データの中から、返事の時間長に関する情報を抽出して作成する。例えば、日常時の対話データから抽出した返事の時間長に関する情報を用いて、返事区間長、返事の間隔長、総返事区間長および返事時間比、4つの各要素のデータを算出する。続いて、4つの各要素のデータが正規分布をなすと仮定して、各要素の平均μおよび標準偏差σを算出することにより、図22に示す返事モデル記憶部101のデータを作成する。
状態判定部112は、ある通話における総返事区間長Hを算出した場合に、返事モデル記憶部101の各要素が、総返事区間長Hに対して、総返事区間長H>平均μ+標準偏差σの関係にある場合には、ユーザが非日常状態であると判定する。
また、状態判定部112は、上述の判定結果に応じて、返事モデル記憶部101のデータを更新する。例えば、状態判定部112は、ユーザが日常状態にあると判定した場合には、通話ごとに、返事区間長、返事の間隔長、総返事区間長および通話時間などの情報を、統計データとして保存しておく。続いて、状態判定部112は、100通話分の統計データが集まるたびに、100通話分の統計データから正規分布を算出する(平均と分散を出すことは正規分布を推定したことに相当する)。そして、状態判定部112は、100通話分の統計データによる正規分布と、それまでの返事モデル記憶部101に記憶されているデータによる正規分布とを、9:1の比をとって重み付け加算することにより、返事モデル記憶部101のデータを更新する。例えば、状態判定部112は、図23に示すようにして、返事モデル記憶部101に記憶されているデータを更新する。図23は、第6の実施形態における返事モデル記憶部に記憶されているデータの更新例を示す図である。
総合判定部200は、上述の第1〜第4の実施形態に対応する音異常判定部10により算出される通話の異常度合い(非日常度合い)Rを取得する。例えば、通話の異常度合いRとして、音異常判定部10により所定のパラメータを用いて算出された、発話状態検出装置1のユーザの入力音声の統計量を用いる。そして、総合判定部200は、は、通話の異常度合いRを、Th=(H−μ)/σを用いて、以下の式(1)により、総合異常度Rを算出することができる。
総合異常度R=通話の異常度合いR*(1+Th*0.1),(0<Th)
あるいは、 =通話の異常度合いR*1.0 ,(0≧Th)…(1)
また、総合判定部200は、Th=(H−μ)/σに対して、更新前の返事モデル記憶部101の平均μと標準偏差σの初期値を加味したTh2を算出し、以下の式(2)により、総合異常度Rを算出するようにしてもよい。
総合異常度R=通話の異常度合いR*(1+Th2*0.1),(0<Th)
あるいは、 =通話の異常度合いR*1.0 ,(0≧Th)…(2)
なお、平均μと標準偏差σの初期値が、それぞれμ´、σ´であるとき、Th2=(H−μ´*2)/σ´とする。
[6−2.まとめ(第6の実施形態による効果)]
上述してきたとおり、第6の実施形態によれば、返事区間において利用された単語だけでなく、返事区間長、返事の間隔長、総返事区間長および返事時間比などのパラメータに基づいて、ユーザの状態を判定できる。また、第6の実施形態によれば、返事区間において利用された単語の認識処理を実行する必要がないので、第5の実施形態よりも処理の負荷を抑えつつ、ユーザの状態を判定できる。
[7.第7の実施形態]
例えば、いわゆる「振り込め詐欺」などの詐欺にユーザを誘引しようとする対話が行われている場合、ユーザは抑圧された心理状態に陥りやすい。そこで、上述の実施形態を用いて、ユーザが、抑圧された心理状態である非日常状態にあると判定できた場合には、ユーザを詐欺に誘引しようとする通話を検出できる。しかしながら、詐欺に誘引しようとする通話以外でも、話者が抑圧された心理状態となることはあり得るので、上述の実施形態では、詐欺に誘引しようとする通話以外も詐欺行為に関わる通話として検出してしまう恐れがある。そこで、以下の実施形態7では、詐欺に誘引しようとする通話を精度良く検出する処理を説明する。
[7−1.機能ブロック]
図24は、第7の実施形態による発話状態検出装置1の機能ブロックの一例を示す図である。第7の実施形態に係る発話状態検出装置1は、状態検出部100に、電話帳記憶部102、時間帯別危険度記憶部103、危険度算出部113を有する点が上述の実施形態とは相違する。なお、図24では、状態検出部100に、上述の実施形態で説明した返事モデル記憶部101と、区間検出部111と、状態判定部112とを有する構成でもよい。
電話帳記憶部102は、第7の実施形態による発話状態検出装置1のユーザが、通話発信時に利用する他のユーザの氏名と他のユーザの電話番号とを対応付けた電話帳データを記憶する。図25は、第7の実施形態における電話帳記憶部に記憶されるデータの一例を示す図である。図25に示すように、電話帳記憶部102は、他のユーザの氏名と、氏名の読みと、電話番号と、登録日を対応付けて記憶する。例えば、電話帳記憶部102は、図25に示すように、氏名「特許太郎」と、読み「とっきょたろう」と、電話番号「044−def−ghij」と、登録日「2000.01.15」とを対応付けて記憶している。電話帳記憶部102に記憶されているデータは、後述する通話相手による危険度算出処理の実行時に参照される。なお、図25に示す電話帳記憶部102のデータの構成は一例であり、この構成に限定されるものではない。
時間帯別危険度記憶部103は、例えば、平日と休日とに分けて、通話を行う時間帯ごとに、詐欺に誘引しようとする通話が行われる危険度を示す情報を記憶する。図26および図27は、第7の実施形態における時間帯別危険度記憶部に記憶されるデータの一例を示す図である。図26に示すように、時間帯別危険度記憶部103は、休日について、時間帯ごとに、詐欺に誘引しようとする通話が行われる危険度を記憶する。例えば、図26に示すように、時間帯別危険度記憶部103は、時間帯「7時〜17時」について危険度「10%」を記憶する。また、時間帯別危険度記憶部103は、平日について、時間帯ごとに、詐欺に誘引しようとする通話が行われる危険度を記憶する。例えば、図27に示すように、時間帯別危険度記憶部103は、時間帯「10時〜15時」について危険度「100%」を記憶する。
図26に示すように、休日の危険度は時間帯に関係なく、総じて危険度は低い。一方、図27に示すように、平日の危険度は、時間帯「10時〜15時」が最も危険度が高い。つまり、詐欺行為などに巻き込まれた場合、金融機関を利用する可能性が高いので、金融機関を利用可能な平日の時間帯「10時〜15時」の危険度が最も高くなっている。時間帯別危険度記憶部103に記憶されているデータは、後述する通話日時による危険度算出処理の実行時に参照される。なお、図26や図27に示す時間帯別危険度記憶部103のデータの構成は一例であり、この構成に限定されるものではない。
危険度算出部113は、電話帳記憶部102のデータや時間帯別危険度記憶部103のデータを参照して、現在実行中の通話が、詐欺に誘引しようとする通話である危険度を算出する。なお、危険度算出部113による処理は、以下、図30〜図32を用いて後述する。
総合判定部200は、音異常判定部10により算出された異常度合いR、および危険度算出部113により算出された危険度を用いて、ユーザが詐欺行為などに巻き込まれている可能性について総合的な判定を行う。なお、異常度合いRとして、上述した第1の実施形態のように、音異常判定部10により所定のパラメータを用いて算出された、発話状態検出装置1のユーザの入力音声の統計量を用いる。なお、総合判定部200による処理は、以下、図29を用いて後述する。また、総合判定部200は、状態検出部100が、上述の第5の実施形態で説明した状態判定部112を有する場合には、状態判定部112による判定結果をさらに加味して、ユーザが詐欺行為などに巻き込まれている可能性について総合的な判定を行う。
[7−2.ハードウェア構成]
図28は、第7の実施形態による発話状態検出装置1を、コンピュータを用いて実現したハードウェア構成の例を示す図である。第7の実施形態による発話状態検出装置1のハードウェア構成は、上述した実施形態と基本的に同様の構成を有するが、以下に説明する点が上述の実施形態とは異なる。なお、上述した実施形態と同様に、CPU22に代えて、他のプロセッサ(例えば、MPU(Micro Processing Unit)等。)やIC(例えば、ASIC(Application Specific Integrated Circuit)等。)を有する装置を用いてもよい。また、第7の実施形態による発話状態検出装置1は、少なくとも、通話が可能な電話機能を有する電子機器を用いて構成され、例えば、携帯電話またはスマートフォン、PHS(Personal Handy-phone System)のような電子機器を用いて実装できる。
発話状態検出装置1は、ディスプレイ21、CPU22、メモリ23、ハードディスク24、マイク25および、キーボード/マウス26を少なくとも有する点は、上述の実施形態と同様であるが、次に説明する点が異なる。すなわち、ハードディスク24に、危険度算出プログラム24fが新たに記録される。また、メモリ23に、CPU22が危険度算出プログラム24f等に基づく処理を実行する際に、電話帳データ23eおよび危険度データ23fが一時的に記憶される。また、図28では、メモリ23に、区間検出データ23c、返事モデルデータ23dが記憶される例を示しているが、図29〜図34を用いて以下に説明する発話状態検出装置1の処理においては必須ではない。一方で、メモリ23に記憶される区間検出データ23cは、図35や図36を用いて以下に説明する処理では利用され得る。つまり、図28に示す発話状態検出装置1のハードウェア構成は、上述した第5の実施形態によるユーザの状態の判定結果と、図29〜図37を用いて以下に説明する判定結果とを総合的に勘案して、ユーザの状態について判定する場合の構成に対応する。
図24に示した発話状態検出装置1の状態検出部100が有する危険度算出部113の処理機能は、CPU22上において危険度算出プログラム24fを実行することによって実現される。
以下、第7の実施形態に係る発話状態検出装置1による処理全体の流れを説明した後に、上述の危険度算出プログラム24fに基づく処理内容について説明する。上述の危険度算出プログラム24fは、通話相手による危険度算出処理および通話日時による危険度算出処理をCPU22に実行させることができる。
[7−3.処理全体の流れ]
図29は、第7の実施形態に係る発話状態検出装置による処理全体の流れを示す図である。なお、第7の実施形態に係る発話状態検出装置による処理は、通話開始から通話終了まで実行される。
図29に示すように、発話状態検出装置1の音異常判定部10は、上述の第1〜第4の実施形態に対応する音声異常判定処理を通話の終了まで実行し、異常度合いRを算出する(Op1201)。続いて、状態検出部100の危険度算出部113は、通話相手による危険度算出処理を実行して危険度Kを算出する(Op1202)。続いて、状態検出部100の危険度算出部113は、通話時間による危険度算出処理を実行して危険度Kを算出する(Op1203)。総合判定部200は、音異常判定部10により算出された異常度合いRと、危険度算出部113により算出された危険度Kおよび危険度Kとを用いて、総合異常度Rを算出する(Op1204)。例えば、総合判定部200は、異常度合いRと、危険度Kおよび危険度Kとを乗算して総合異常度Rを算出する。そして、総合判定部200は、総合異常度Rと所定の閾値(T)とを比較し、総合異常度Rが所定の閾値を上回る場合には、ユーザが詐欺行為などに巻き込まれている可能性が高いものとして、警告メッセージをユーザに提示する(Op1205)。例えば、総合判定部200は、スピーカなどを介して、通話終了時や通話中など、任意のタイミングで警告メッセージを出力し、ユーザに警告する。あるいは、総合判定部200は、スピーカなどを介して、アラームを出力したり、予めユーザが登録した登録先に警告を通知したりしてもよい。
[7−4.通話相手による危険度算出処理]
次に、危険度算出プログラム24fに基づく通話相手による危険度算出処理の流れを説明する。図30は、危険度算出プログラム24fにより実行される通話相手による危険度算出処理のオペレーションチャートの一例を示す図である。
危険度算出プログラム24fを実行するCPU22は、図30に示すように、例えば、通話の開始を検出すると、通話相手(発信元)の電話番号を取得する(Op1301)。続いて、CPU22は、取得した電話番号が不明ではない場合(通知である場合)には(Op1302、No)、カレンダー情報などを参照して通話日を取得するとともに(Op1303)、電話帳記憶部102のデータを参照する(Op1304)。続いて、危険度算出部113は、電話帳記憶部102に電話番号が登録済みである場合には(Op1305、Yes)、該当の電話番号の登録日から、この通話が行われるまでの日数dを算出する(Op1306)。
続いて、CPU22は、電話番号の登録日からの日数dを用いて、通話相手による危険度Kを算出する(Op1307)。以下、図31を用いて、通話相手による危険度Kの算出について説明する。図31は、危険度算出テーブルの一例を示す図である。例えば、CPU22は、図31に示す危険度算出テーブルを参照する。図31に示すように、この危険度算出テーブルには、登録後日数dと危険度とが対応付けられており、登録からの日数が浅いほど、高い危険度が対応付けられている。例えば、図31に示す危険度算出テーブルでは、登録後の日数「d=1日〜3日」と危険度「100%」とが対応付けられている。つまり、予め電話番号を登録させて間もなく詐欺行為を行う手口に対応したものである。なお、図31に示す危険度算出テーブルは、予め作成し、メモリ23などに格納しておくものとする。そして、CPU22は、Op1307にて算出した日数dに対応する危険度を、図31に示すテーブルから取得し、通話相手による危険度Kを算出する。そして、CPU22は、危険度Kを出力し(Op1308)、処理を終了する。
なお、CPU22は、上述したOp1305において、電話帳記憶部102に、通話相手(発信元)の電話番号が登録済みではない場合には(Op1305、No)、危険度Kを100%と算出する(Op1309)。そして、CPU22は、上述したOp1308に移行し、危険度Kを出力して処理を終了する。
なお、CPU22は、上述したOp1302において、電話番号が不明である場合(非通知である場合)には(Op1302、Yes)、上述したOp1309に移行して、危険度Kbを100%とし、危険度Kbを出力して処理を終了する。
[7−5.通話時間による危険度算出処理]
次に、危険度算出プログラム24fに基づく通話時間による危険度算出処理の流れを説明する。図32は、危険度算出プログラム24fにより実行される通話時間による危険度算出処理のオペレーションチャートの一例を示す図である。
危険度算出プログラム24fを実行するCPU22は、図32に示すように、例えば、通話の終了を検出すると、通話終了時刻を取得し(Op1401)、通話日を取得する(Op1402)。続いて、CPU22は、カレンダー情報などを参照し(Op1403)、通話日が平日であるか否かを判定する(Op1404)。
CPU22は、通話日が平日である場合には(Op1404、Yes)、時間帯別危険度記憶部103から平日対応のデータを読み込む(Op1405)。続いて、CPU22は、Op1405にて読み込んだ平日対応のデータから、通話終了時刻に応じた危険度を読み込む(Op1406)。そして、CPU22は、Op1406にて読み込んだ危険度を通話時間による危険度Kとして出力し(Op1407)、処理を終了する。
なお、CPU22は、上述したOp1404において、通話日が平日ではない、つまり休日である場合には(Op1404、No)、時間帯別危険度記憶部103から休日対応のデータを読み込む(Op1408)。そして、CPU22は、上述したOp1406およびOp1407と同様の処理を実行して、処理を終了する。すなわち、CPU22は、Op1408にて読み込んだ休日対応のデータから、通話終了時刻に応じた危険度を読み込み、読み込んだ危険度を通話時間による危険度Kとして出力して処理を終了する。
なお、図32では、CPU22が、Op1401にて通話終了時刻を取得するものとしたが、これに限られるものではなく、通話開始時刻を取得してもよいし、通話開始時刻と通話終了時刻との中央の時刻を取得してもよい。
[7−6.情報アップロード処理と情報配信処理]
ところで、上述した警告の通知を行った場合に、発話状態検出装置1、時間帯別危険度記憶部103に記憶されているデータなどを一括管理するサーバにアップロードし、サーバから再び配信するようにしてもよい。以下では、発話状態検出装置1からサーバへの情報アップロード処理、サーバの情報配信処理について説明する。
(情報アップロード処理)
図33は、情報アップロード処理のオペレーションチャートの一例を示す図である。図33に示すように、例えば、CPU22は、通話終了時、異常通知を行ったか、つまり詐欺行為などに巻き込まれている可能性がある旨の警告を行ったかどうかを判定する(Op1501)。CPU22は、異常通知を行った場合には(Op1501、Yes)、通話終了後、該当通話の通話情報をユーザに確認する(Op1502)。つまり、CPU22は、警告の通知が正しかったか否かをユーザに選択させるための通話情報を出力し、警告の通知が正しかったか否かの選択結果を受け付ける。そして、CPU22は、ユーザにより選択結果が反映された通話情報と、警告の通知を行った通話に関連する情報(電話帳登録からの経過日数、通話日、時刻、曜日などの情報)とをサーバに送信して(Op1503)、処理を終了する。
なお、CPU22は、上述したOp1501において、異常通知を行っていない場合には(Op1501、No)、該当通話の通話情報を、検出すべきではない(警告の通知をおこなうべきではない)通常の通話とする(Op1504)。そして、CPU22は、上述したOp1503に移行して、サーバに情報を送信して処理を終了する。
(情報配信処理)
図34は、情報配信処理のオペレーションチャートの一例を示す図である。なお、図34に示す情報配信処理は、サーバの起動中、繰り返し実行される。図34に示すように、例えば、サーバは、各端末(発話状態検出装置1)からアップロードされた情報データ(図33の通話情報や警告の通知を行った通話に関連するする情報)を日付別にメモリなどに保存する(Op1601)。そして、サーバに搭載されたCPUなどの制御部は、次の処理を行う。すなわち、制御部は、毎日0時に、保存している過去1年分のデータで、上述した図26および図27に示す時間帯別危険度記憶部103のデータ、および図31に示す危険度算出テーブルのデータを再作成し、各端末に配信する(Op1602)。
[7−7.通話時間長と発話時間長との比を用いた検出]
ところで、第7の実施形態に係る発話状態検出装置1において、通話時間長とユーザの発話時間長(発話区間長の合計時間)の比を利用して、詐欺に誘引しようとする通話を精度良く検出するようにしてもよい。
図35は、通話時間長と発話時間長との比を用いた検出を行う発話状態検出装置1の機能ブロックの一例を示す図である。発話状態検出装置1は、区間検出部111と、通話時間長算出部114および通話時間比算出部115を有する。なお、区間検出部111は、上述した第5の実施形態の区間検出部111に対応し、発話区間の検出を行う。また、図35には明示していないが、第7の実施形態による発話状態検出装置1は、上述した第5の実施形態の状態判定部112による処理をあわせて実行してもよい。
区間検出部111は、上述した第5の実施形態の方法で発話区間を検出する。例えば、通話音声データ(発話データ)の入力パワーPが、推定背景雑音パワーPよりも所定の閾値α以上の大きさとなる区間Iを発話区間として検出する(図15)。
通話時間長算出部114は、入力された通話音声データ長の総和から、通話時間長を算出する。
通話時間比算出部115は、発話時間比Rを、通話時間長算出部114の算出した通話時間長Tと、区間検出部111の検出した発話区間の合計時間である発話時間長Tとの比を用いて算出する(R=T/T)。
総合判定部200は、音異常判定部10により算出された異常度合いRと、通話時間比算出部115により算出された発話時間比Rとを用いて、総合異常度Rを算出し、詐欺に誘引しようとする通話を行っている可能性を判定する。例えば、総合判定部200は、以下の式(3)により、総合異常度Rを算出する。なお、通話の異常度合いRとして、音異常判定部10により所定のパラメータを用いて算出された、発話状態検出装置1のユーザの入力音声の統計量などを用いればよい。

総合異常度R=通話の異常度合いR*0.1(0.8<R
=通話の異常度合いR*0.2(0.7<R≦0.8)
=通話の異常度合いR*0.4(0.5<R≦0.7)
=通話の異常度合いR*1.0(0.3<R≦0.5)
=通話の異常度合いR*1.2(R≦0.3) …(3)
つまり、総合判定部200は、上述の式(3)に示すように、通話時間比算出部115により算出された発話時間比Rが大きい場合には、ユーザが対話の主導権をとっており、詐欺に誘引しようとする通話が行われている可能性が低いものと判定する。一方、通話時間比算出部115により算出された発話時間比Rが小さい場合には、通話相手が主導権を握っており、詐欺に誘引しようとする通話が行われている可能性が高いと判定する。
なお、上述の通話時間長は、発話状態検出装置1の持つ時計情報と連動して、通話開始時間と終了時間の差分から算出することもできる。また、通話相手の発話区間の検出を行った場合には、上述の発話時間比として、ユーザの発話時間長と、通話相手の発話時間長の比を用いることもできる。
[7−8.通話時間長と返事時間長との比を用いた検出]
ところで、第7の実施形態に係る発話状態検出装置1において、通話時間長とユーザの返事時間長(返事区間の合計時間)の比を利用して、詐欺に誘引しようとする通話を精度良く検出するようにしてもよい。
図36は、通話時間長と返事時間長との比を用いた検出を行う発話状態検出装置1の機能ブロックの一例を示す図である。発話状態検出装置1は、区間検出部111と、通話時間長算出部114および返事時間比算出部116を有する。なお、区間検出部111は、上述した第5の実施形態の区間検出部111に対応し、発話区間および返事区間の検出を行う。また、図36に示す発話状態検出装置1の処理において、例えば、図28に示すメモリ23に記憶される区間検出データ23cおよび返事モデルデータ23dは必須ではなく、発話状態の検出のみでも利用可能である。また、図36には明示していないが、第7の実施形態による発話状態検出装置1は、上述した第5の実施形態の状態判定部112による処理をあわせて実行してもよい。
区間検出部111は、上述した第5の実施形態の方法で、返事区間を検出する。例えば、区間検出部111は、通話音声データ(発話データ)から発話区間を検出し、返事と推測される短時間の発話区間のみが連続する区間を返事区間Iとして検出する(図16)。
通話時間長算出部114は、図35に示す場合と同様に、入力された通話音声データ長の総和から、通話時間長を算出する。
返事時間比算出部116は、返事時間比Rを、通話時間長算出部114の算出した通話時間長Tと、区間検出部111の検出した返事区間の合計時間である返事時間長Tとの比を用いて算出する(R=T/T)。
総合判定部200は、音異常判定部10により算出された異常度合いRと、通話時間比算出部115により算出された発話時間比Rとを用いて、総合異常度Rを算出し、詐欺に誘引しようとする通話を行っている可能性を判定する。例えば、総合判定部200は、以下の式(4)により、総合異常度Rを算出する。なお、通話の異常度合いRとして、音異常判定部10により所定のパラメータを用いて算出された、発話状態検出装置1のユーザの入力音声の統計量などを用いればよい。

総合異常度R=通話の異常度合いR*1.2(0.7<R
=通話の異常度合いR*1.1(0.5<R≦0.7)
=通話の異常度合いR*1.0(R≦0.5) …(4)
つまり、総合判定部200は、上述の式(4)に示すように、通話時間比算出部115により算出された返事時間比Rが大きい場合には、通話相手が主導権を握っており、詐欺に誘引しようとする通話が行われている可能性が高いと判定する。一方、通話時間比算出部115により算出された返事時間比Rが小さい場合には、ユーザが対話の主導権をとっており、詐欺に誘引しようとする通話が行われている可能性が低いものと判定する。
なお、返事が多い場合に、通話相手が対話の主導権を握っているものと推定する別の方法として、例えば、ユーザの発話時間長と返事時間長の比を返事時間比として用いることもできる。また、返事時間比の代わりに返事回数比を用いることもでき、この場合、通話時間長あるいはユーザの発話時間長と、検出した返事回数との比を算出する。
[7−9.話速を用いた検出]
ところで、第7の実施形態に係る発話状態検出装置1において、時間情報として、ユーザの話速を利用して、詐欺に誘引しようとする通話を精度良く検出するようにしてもよい。
図37は、話速を用いた検出を行う発話状態検出装置1の機能ブロックの一例を示す図である。発話状態検出装置1は、区間検出部111と、音素認識部117および話速算出部118を有する。なお、区間検出部111は、上述した第5の実施形態の区間検出部111に対応し、発話区間の検出を行う。
音素認識部117は、区間検出部111により検出された発話区間の音声データを入力として、連続音節認識を行い、入力音声内容に対応する音節列(モーラ)を出力する。
話速算出部118は、話速Rを、区間検出部111により検出された発話区間の区間長の和Tと、音素認識部117により出力された音節列の総数Nとの比を用いて算出する(R=N/T)。
総合判定部200は、音異常判定部10により算出された異常度合いRと、話速算出部118により算出された話速Rとを用いて、総合異常度Rを算出し、ユーザを詐欺に誘引しようとする通話が行われている可能性を判定する。例えば、総合判定部200は、以下の式(5)により、総合異常度Rを算出する。なお、通話の異常度合いRとして、音異常判定部10により所定のパラメータを用いて算出された、発話状態検出装置1のユーザの入力音声の統計量などを用いればよい。

総合異常度R=通話の異常度合いR*0.8(5.5<R
=通話の異常度合いR*1.0(4.5<R≦5.5)
=通話の異常度合いR*1.2(R≦4.5) …(5)
なお、話速として、音節基準ではなく、音素基準や、単語基準の指標を用いることもできる。
[7−10.まとめ(第7の実施形態による効果)]
上述してきたとおり、第7の実施形態に係る発話状態検出装置1は、非日常状態にあるか否かを判定する以外に、通話相手、通話の時間や曜日、対話中の返事の割合、対話における発話の速度などを総合的に加味して、詐欺に誘引しようとする通話を検出する。このようなことから、第7の実施形態によれば、誤検出を防止できる。
また、図35に示す通話時間比を用いる場合、図36に示す返事時間比を用いる場合でも、図33および図34を用いて説明した通話情報に、これらの通話時間比や返事時間比情報も含めることもできる。この場合、総合判定部200で、通話時間比や返事時間比を加味する際の重みを、通話情報をアップロードするサーバ側で更新するようにする。このようにすれば、詐欺に誘引しようとする通話の検出精度を改善していくことが期待できる。
[8.第8の実施形態]
いわゆる「振り込め詐欺」や「オレオレ詐欺」、還付金詐欺などの詐欺行為は、詐欺の加害者が不正取得した地域別の電話帳や学校名簿などを利用することが多いため、特定の地域に集中して発生することが知られている。そこで、詐欺が集中する地域では、詐欺を検出する装置の検出感度を高くして詐欺の検出を行っていた。しかしながら、加害者が、この検出装置を入手すれば、検出装置の検出感度が高い地域を推定することが出来てしまう。これにより、加害者は、検出装置を幾つかの地域で試用して、感度の低い地域を探し出し、ターゲットにするといった悪用が可能となってしまう。そこで、第8の実施形態では、以下、図38〜図42を用いて、詐欺行為の加害者に検出装置の検出感度を悟られないようすることが可能な装置について説明する。
[8−1.機能ブロック]
図38は、第8の実施形態による移動体端末の機能ブロックの一例を示す図である。移動体端末2は、ネットワーク4を介して、他の移動体端末2やサーバ3と通信可能な状態で接続される。そして、移動体端末2は、図38に示すように、犯罪発生履歴記憶部301と、位置情報記憶部302と、住所履歴記憶部303とを有する。また、移動体端末2は、図38に示すように、犯罪情報取得部310と、犯罪危険度算出部320と、住所取得部330と、危険度判定部340と、犯罪検出制御部350と、発話状態検出部360と、犯罪検出部370とを有する。なお、移動体端末2は、携帯電話またはスマートフォンのような携帯可能な電子機器等を用いて実装することができる。
犯罪発生履歴記憶部301には、犯罪発生情報と、後述する犯罪危険度算出部320による算出結果とを対応付けて記億しておく。なお、犯罪発生履歴記憶部301は、ユーザの自宅住所情報を用いて、記憶する対象を同一または近隣地域での発生した情報に限定してもよい。
位置情報記憶部302には、位置情報に対応する地域情報を記憶しておく。例えば、地域情報としては市区町村名や、地図データを適当な広さになるように分割したものでもよい。
住所履歴記憶部303には、所定の頻度で後述する住所情報取得部330にて取得された自宅情報と、自宅情報が取得された取得日時と対応付けて記憶しておく。なお、住所履歴記憶部303に記憶されるデータ(住所履歴)は、後述する住所情報取得部330により取得される情報のうち頻繁に登場するものを自宅の位置として推定する際に利用するものであり、正しい自宅の位置を表す情報ではない。図39は、住所履歴記憶部に記憶されるデータの一例を示す図である。図39に示すように、住所履歴記憶部303には、住所情報取得部330にて取得された自宅情報(推定自宅住所)が、住所情報取得部330による取得日時(推定日)と対応付けて記憶されている。
犯罪情報取得部310は、犯罪発生情報を取得する。例えば、犯罪情報取得部310は、いわゆる「振り込め詐欺」や「オレオレ詐欺」、還付金詐欺などの犯罪の被害の発声時刻と発生位置とを犯罪発生情報として取得する。図40は、犯罪情報取得部による犯罪情報の取得方法の一例を示す図である。犯罪情報取得部310は、例えば、図40に示すように、犯罪情報取得部310は、ネットワークなどを介して、サーバ3から犯罪情報を受信する。なお、サーバ3は、ネットワークなどを介して、移動体端末2(犯罪検出部370)から送信された犯罪情報を受信して取得したり、あるいはweb上の事件発生ニュースや警察等の犯罪情報提供媒体から犯罪情報を取り込んで取得したりする。なお、サーバ3は、ユーザごとに住所履歴情報をサーバ3側に蓄えておき、特定の期間在住しているユーザからの情報のみを受信して取得するといった制限を設けてもよい。また、サーバ3側から犯罪発生情報を定期的に移動体端末2に配信するようにして、犯罪情報取得部310は配信された犯罪情報を取得するようにしてもよい。
犯罪危険度算出部320は、犯罪情報取得部310により取得された犯罪発生情報、犯罪発生履歴記憶部301に記憶されている犯罪発生履歴、または住所履歴記憶部303に記憶され地得る自宅情報に基づいて危険度を算出する。例えば、犯罪危険度算出部320は、犯罪発生情報の犯罪発生地域と自宅情報との位置関係に基づいて、0〜5までの6段階のレベルの中からいずれかのレベルの危険度を決定する。なお、危険度として設定されるレベル0〜5は一例であり、危険度の尺度は適宜変更できる。
例えば、犯罪危険度算出部320は、振り込め詐欺が発生した町と自宅住所(推定自宅住所)が同一の町であれば、危険度を3とする。また、犯罪危険度算出部320は、例えば、振り込め詐欺が発生した町が自宅住所(推定自宅住所)の町に隣接しているのであれば、危険度を2とする。また、犯罪危険度算出部320は、例えば、振り込め詐欺が発生した町に自宅住所(推定自宅住所)の町から行くために少なくとも1つ町を通過する必要があれば、危険度を1とする。また、犯罪危険度算出部320は、犯罪発生地域と自宅情報との位置関係を、町同士の重心距離に基づいて算出した距離などを用いて評価してもよい。
さらに、犯罪危険度算出部320は、上述したようにして、危険度0〜5のいずれかに決定した危険度を、犯罪の発生時間や発生頻度に応じて修正してもよい。例えば、犯罪危険度算出部320は、発生時間が1週間以上前であれば危険度を1下げる。また、犯罪危険度算出部320は、3日以内に同一町内で犯罪発生回数が5回以上した町が自宅に隣接している場合には危険度を1上げる。また、犯罪危険度算出部320は、ユーザ自身の端末で犯罪通話の検出があった時、危険度を1上げる。また、犯罪危険度算出部320は、自宅と推定される自宅住所の候補が複数ある場合には、住所が複数ある場合は危険度を低く設定してもよい。
住所取得部330は、所定の頻度で、GPS(Global Positioning System)などの位置情報取得装置で移動体端末2の位置と、位置情報記憶部302に記憶されている地域情報とを照らし合わせて自宅情報を取得する。なお、住所取得部330は、自宅と推定される情報を取得できれば、どのような既存の方法を利用してもよい。住所取得部330は、自宅情報を取得すると、取得日時と対応付けて住所履歴記憶部303に格納する。
危険度判定部340は、自宅と推定される地域が犯罪に巻き込まれる可能性が高いか否かを判定し、判定結果に応じて犯罪の検出閾値を調整するか否かを決定する。例えば、危険度判定部340は、危険度判定のタイミングになると、住所履歴記憶部303に記憶されているデータ(住所履歴)を参照する。続いて、危険度判定部340は、3ケ月以上前からの自宅情報(推定自宅住所)があり、かつ現在までの自宅情報(推定自宅住所)のうち最近の日時の自宅情報(推定自宅住所)が自宅情報に含まれている割合が9割以上あるか否かを判定する。判定の結果、9割以上ある場合には、危険度判定部340は、検出閾値の調整を実行する旨の決定を行う。一方、9割以上ある場合には、危険度判定部340は、検出閾値の調整を実行しない旨の決定を行う。つまり、自宅である可能性が高い地域が推認された場合には、ユーザの行動範囲が自宅周辺に集中する可能性が高いので、危険度判定部340は、犯罪検出制御部350により検出閾値の調整を実行させるようにする。
上述してきたように、危険度判定部340は、住所履歴記憶部303に記憶されているデータ(住所履歴)から、同じ地域に長く居住していることを検出した場合には、その地域に応じて検出閾値を調整することを決定する。詐欺の加害者は潜伏拠点を転々とする傾向がある。このため、加害者の移動体端末2では検出閾値の調整が行われない。したがって、詐欺の加害者がこの移動体端末2を入手して、検出閾値(犯罪検出の感度)が低い地域を推定しようとしても、推定することができない。
犯罪検出制御部350は、危険度判定部340の決定に基づいて、犯罪危険度算出部320により算出された危険度の値が大きいほど、犯罪が検出されやすくなるように検出閾値(犯罪検出の感度)を調整する。
発話状態検出部360は、上述の実施形態で説明した発話状態検出装置1に対応し、発話状態検出装置1より実行される各種処理を実行する。例えば、発話状態検出部360は、通話中のユーザの状態に関する情報(日常状態、あるいは非日常状態)を犯罪検出部370に出力する。
犯罪検出部370は、犯罪検出制御部350により調整された検出閾値、および発話状態検出部360から取得するユーザの状態に関する情報に基づいて犯罪を検出する。
以下、第8の実施形態に係る移動体端末2による処理内容について説明する。
[8−2.危険度判定部による処理]
図41は、危険度判定部による処理のオペレーションチャートの一例を示す図である。図41に示すように、危険度判定部340は、危険度判定のタイミングになるか否かを判定する(Op1701)。危険度判定部340は、危険度判定のタイミングではない場合には(Op1701、No)、危険度判定のタイミングになるまでOp1701の判定を繰り返す。
危険度判定部340は、危険度判定のタイミングになると(Op1701、Yes)、住所履歴記憶部303に記憶されているデータ(住所履歴)を参照する(Op1702)。続いて、危険度判定部340は、3ケ月以上前の日付の自宅情報(推定自宅住所)があるか否かを判定する(Op1703)。
判定の結果、3ケ月以上前の日付の自宅情報(推定自宅住所)がある場合には(Op1703、Yes)、危険度判定部340は、次の判定を行う。すなわち、危険度判定部340は、最近の日付の自宅情報(推定自宅住所)のうちで、現在までの自宅情報(推定自宅住所)に含まれている割合が9割以上の自宅情報あるか否かを判定する(Op1704)。判定の結果、9割以上含まれる自宅住所がある場合には(Op1704、Yes)、危険度判定部340は、検出閾値の調整を実行する旨の決定を行い(Op1705)、処理を終了する。一方、9割以上含まれる自宅住所がない場合には(Op1704、NO)、危険度判定部340は、検出閾値の調整を実行しない旨の決定を行い(Op1706)、処理を終了する。
なお、危険度判定部340は、上述したOp1703において、3ケ月以上前の日付の自宅情報(推定自宅住所)がない場合には(Op1703、No)、上述したOp1706に移行し、検出閾値の調整を実行しない旨の決定を行い、処理を終了する。
[8−3.犯罪検出制御部による処理]
図42は、犯罪検出制御部による処理のオペレーションチャートの一例を示す図である。図42に示すように、犯罪検出制御部350は、危険度判定部340により検出閾値の調整を実行する旨の決定が行われたか否かを判定する(Op1801)。判定の結果、検出閾値の調整を実行する旨の決定が行われた場合には(Op1801、Yes)、犯罪検出制御部350は、犯罪危険度算出部320により算出された危険度を取得する(Op1802)。
続いて、犯罪検出制御部350は、Op1802で取得した危険度が第1の閾値以上であるか否かを判定する(Op1803)。危険度が第1の閾値以上である場合には(Op1803、Yes)、犯罪検出制御部350は、検出されやすくなるように検出閾値を下げて(Op1804)、処理を終了する。一方、危険度が第1の閾値以上ではない(第1の閾値未満である)場合には(Op1803、No)、犯罪検出制御部350は、危険度が第2の閾値以下であるか否かを判定する(Op1805)。判定の結果、危険度が第2の閾値以下である場合には(Op1805、Yes)、犯罪検出制御部350は、危険度検出されにくくなるように検出閾値を上げて(Op1806)、処理を終了する。一方、危険度が第2の閾値以下ではない場合には(Op1805、No)、犯罪検出制御部350は、検出閾値の調整を行うことなく、そのまま処理を終了する。
なお、犯罪検出制御部350は、上述したOp1801において、検出閾値の調整を実行する旨の決定が行われなかった場合(実行しない旨の決定が行われた場合)には(Op1801、No)、そのまま処理を終了する。
[8−4.まとめ(第8の実施形態による効果)]
上述してきたとおり、第8の実施形態では、移動体端末2のユーザの生活拠点(自宅)を推定し、その生活拠点における犯罪発生情報に応じて、犯罪の検出感度を動的に変更する。第8の実施形態によれば、詐欺の加害者に地域別に変更された詐欺の検出感度(閾値)を推定されることなく、詐欺に誘引しようとする通話の検出漏れを防ぐことができる。
1 発話状態検出装置
2 移動体端末
11 発話データ取得部
12 周波数成分抽出部
13 変動度合い算出部
14 統計量算出部
15 発話状態検出パラメータ作成部
16 発話状態検出部
17 SN比算出部
100 状態検出部
101 返事モデル記憶部
102 電話帳記憶部
103 時間帯別危険度記憶部
111 区間検出部
112 状態判定部
113 危険度算出部
114 通話時間長算出部
115 通話時間比算出部
116 返事時間比算出部
117 音素認識部
118 話速算出部
200 総合判定部

Claims (17)

  1. 発話者の発話データを取得する発話データ取得部と、
    前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出部と、
    抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出部と、
    所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出部と、
    特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第1の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第2の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出部とを備えた発話状態検出装置。
  2. 前記発話状態検出部は、不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて算出された発話状態検出パラメータを用いて、前記特定発話者の発話状態が日常状態であるか非日常状態であるかを検出する、請求項1に記載の発話状態検出装置。
  3. 不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて前記発話状態検出パラメータを作成する発話状態検出パラメータ作成部をさらに備えた、請求項2に記載の発話状態検出装置。
  4. 前記高域周波数成分は、第1フォルマントを含まないように周波数成分を抽出したものである、請求項1に記載の発話状態検出装置。
  5. 前記高域周波数成分は、2kHz以上の周波数成分を抽出したものである、請求項1に記載の発話状態検出装置。
  6. 前記変動度合い算出部は、前記変動度合いを、次の式:
    変動度合い=log(高域周波数成分のパワースペクトルの幾何平均)/log(高域周波数成分のパワースペクトルの算術平均)
    に基づいて算出する、請求項1に記載の発話状態検出装置。
  7. 前記変動度合い算出部は、前記変動度合いを、次の式:
    変動度合い=log(高域周波数成分の残差パワースペクトルの幾何平均)/log(高域周波数成分の残差パワースペクトルの算術平均)
    に基づいて算出する、請求項1に記載の発話状態検出装置。
  8. 前記変動度合い算出部は、前記変動度合いを、次の式:
    変動度合い=高域周波数成分のパワースペクトルの幾何平均/高域周波数成分のパワースペクトルの算術平均
    に基づいて算出する、請求項1に記載の発話状態検出装置。
  9. 前記変動度合い算出部は、前記変動度合いを、高域周波数成分の残差パワースペクトルの分散に基づいて算出する、請求項1に記載の発話状態検出装置。
  10. 前記変動度合い算出部は、前記変動度合いを、高域周波数成分のパワースペクトルの4分位数範囲に基づいて算出する、請求項1に記載の発話状態検出装置。
  11. 前記発話データにかかるSN比を算出するSN比算出部をさらに備え、
    前記発話状態検出部は、統計量を算出した前記所定期間に対応するSN比が閾値よりも大きくなる場合に発話状態を検出する、請求項1に記載の発話状態検出装置。
  12. 発話者の発話データを取得する発話データ取得処理と、
    前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出処理と、
    抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出処理と、
    所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出処理と、
    特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第1の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第2の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出処理とをコンピュータに実行させる発話状態検出プログラム。
  13. 発話者の発話データを取得する発話データ取得工程と、
    前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出工程と、
    抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出工程と、
    所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出工程と、
    特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第1の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第2の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出工程とを含む発話状態検出方法。
  14. 前記発話者が平常状態にあるときの返事に係る情報を統計処理した返事モデルを記憶する返事モデル記憶部と、
    前記発話データにおける音声区間が所定の閾値よりも短い区間である返事区間を推定する区間検出部と、
    前記区間検出部により前記返事区間が連続していると推定された場合には、前記返事モデル記憶部に記憶されている返事モデルを参照して、前記返事区間の平常性を判定する状態判定部と
    をさらに有する、請求項1に記載の発話状態検出装置。
  15. 前記状態判定部は、さらに、前記音声区間における前記返事区間の数、前記音声区間の全体長における前記返事区間の長さ、前記返事区間内における各返事の間隔長、または前記返事区間の総長のいずれか1つ又は複数を用いて、前記返事区間の平常性を判定する、請求項14に記載の発話状態検出装置。
  16. 前記発話者により行われる通話の通話時間長を算出する通話時間長算出部と、
    前記通話における音声区間の区間長の総和と前記通話における音節列の総和とに基づいて、前記発話者の話速を算出する話速算出部とをさらに有し、
    前記状態判定部は、前記通話時間長算出部により算出された通話時間長と前記音声区間の区間長の総和との比、前記通話時間長と前記返事区間の区間長の総和との比、または前記話速算出部により算出された前記話速のいずれか一つまたは複数を用いて、前記返事区間の平常性を判定する、請求項14に記載の発話状態検出装置。
  17. 前記発話者により行われる通話の通話時間長を算出する通話時間長算出部と、
    前記通話における音声区間の区間長の総和と前記通話における音節列の総和とに基づいて、前記発話者の話速を算出する話速算出部と、
    前記発話状態検出部による前記発話状態の検出結果と、前記話速算出部により算出された話速とを用いて、前記発話状態を総合判定する総合判定部と
    をさらに有する、請求項1に記載の発話状態検出装置。
JP2011081133A 2010-04-22 2011-03-31 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 Active JP5834449B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011081133A JP5834449B2 (ja) 2010-04-22 2011-03-31 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US13/064,871 US9099088B2 (en) 2010-04-22 2011-04-21 Utterance state detection device and utterance state detection method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010098936 2010-04-22
JP2010098936 2010-04-22
JP2011081133A JP5834449B2 (ja) 2010-04-22 2011-03-31 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法

Publications (2)

Publication Number Publication Date
JP2011242755A JP2011242755A (ja) 2011-12-01
JP5834449B2 true JP5834449B2 (ja) 2015-12-24

Family

ID=44912544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011081133A Active JP5834449B2 (ja) 2010-04-22 2011-03-31 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法

Country Status (2)

Country Link
US (1) US9099088B2 (ja)
JP (1) JP5834449B2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
JP5803125B2 (ja) * 2011-02-10 2015-11-04 富士通株式会社 音声による抑圧状態検出装置およびプログラム
US9774747B2 (en) * 2011-04-29 2017-09-26 Nexidia Inc. Transcription system
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
JP5810912B2 (ja) * 2011-12-28 2015-11-11 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN103187055B (zh) * 2011-12-28 2018-07-27 上海博泰悦臻电子设备制造有限公司 基于车载应用的数据处理系统
JP5810946B2 (ja) * 2012-01-31 2015-11-11 富士通株式会社 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
JP5840077B2 (ja) * 2012-06-15 2016-01-06 日本電信電話株式会社 発生音感知装置、方法、プログラム
CN104737226B (zh) * 2012-10-16 2017-06-06 奥迪股份公司 机动车中的语音识别
US9837078B2 (en) 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
JP6051915B2 (ja) * 2013-02-18 2016-12-27 日本電気株式会社 商談支援装置、商談支援方法および商談支援プログラム
JP6268717B2 (ja) 2013-03-04 2018-01-31 富士通株式会社 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
CN105103230B (zh) * 2013-04-11 2020-01-03 日本电气株式会社 信号处理装置、信号处理方法、信号处理程序
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
WO2015111772A1 (ko) 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015111771A1 (ko) 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015115677A1 (ko) * 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
JP6350148B2 (ja) 2014-09-09 2018-07-04 富士通株式会社 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6303971B2 (ja) 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
JP6519413B2 (ja) * 2015-08-31 2019-05-29 富士通株式会社 迷惑電話検出装置、迷惑電話検出方法、及びプログラム
JP6746963B2 (ja) * 2016-03-04 2020-08-26 ヤマハ株式会社 会話評価装置、プログラムおよび会話評価方法
US10244113B2 (en) * 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
US10983753B2 (en) 2017-06-09 2021-04-20 International Business Machines Corporation Cognitive and interactive sensor based smart home solution
JP7103769B2 (ja) 2017-09-05 2022-07-20 京セラ株式会社 電子機器、携帯端末、コミュニケーションシステム、見守り方法、およびプログラム
US10388286B1 (en) * 2018-03-20 2019-08-20 Capital One Services, Llc Systems and methods of sound-based fraud protection
JP6420514B1 (ja) * 2018-04-04 2018-11-07 一般社団法人It&診断支援センター・北九州 会話ロボット
US10665228B2 (en) 2018-05-23 2020-05-26 Bank of America Corporaiton Quantum technology for use with extracting intents from linguistics
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
KR20220061505A (ko) * 2020-11-06 2022-05-13 현대자동차주식회사 감정 조절 시스템 및 감정 조절 방법

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05273992A (ja) * 1992-03-25 1993-10-22 Mitsubishi Electric Corp 音声区間検出装置
JPH0792989A (ja) 1993-09-22 1995-04-07 Oki Electric Ind Co Ltd 音声認識方法
JP3604393B2 (ja) * 1994-07-18 2004-12-22 松下電器産業株式会社 音声検出装置
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US20020116177A1 (en) * 2000-07-13 2002-08-22 Linkai Bu Robust perceptual speech processing system and method
JP3676969B2 (ja) 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
EP1256937B1 (en) 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
US20040249637A1 (en) * 2003-06-04 2004-12-09 Aurilab, Llc Detecting repeated phrases and inference of dialogue models
CN1830025A (zh) * 2003-08-01 2006-09-06 皇家飞利浦电子股份有限公司 驱动对话系统的方法
JP2005352154A (ja) 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8738370B2 (en) * 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム
KR100800873B1 (ko) * 2005-10-28 2008-02-04 삼성전자주식회사 음성 신호 검출 시스템 및 방법
WO2007072485A1 (en) * 2005-12-22 2007-06-28 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
JP2007286097A (ja) * 2006-04-12 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
EP2063416B1 (en) * 2006-09-13 2011-11-16 Nippon Telegraph And Telephone Corporation Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
EP1939859A3 (en) * 2006-12-25 2013-04-24 Yamaha Corporation Sound signal processing apparatus and program
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
JP4914295B2 (ja) 2007-06-21 2012-04-11 パナソニック株式会社 力み音声検出装置
WO2009004750A1 (ja) * 2007-07-02 2009-01-08 Mitsubishi Electric Corporation 音声認識装置
US20090043586A1 (en) * 2007-08-08 2009-02-12 Macauslan Joel Detecting a Physiological State Based on Speech
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
JP2010011409A (ja) * 2008-06-30 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 映像ダイジェスト装置及び映像編集プログラム
KR101014321B1 (ko) * 2009-02-24 2011-02-14 한국전자통신연구원 최소 분류 오차 기법을 이용한 감정 인식 방법

Also Published As

Publication number Publication date
US9099088B2 (en) 2015-08-04
JP2011242755A (ja) 2011-12-01
US20110282666A1 (en) 2011-11-17

Similar Documents

Publication Publication Date Title
JP5834449B2 (ja) 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
KR102196400B1 (ko) 핫워드 적합성을 결정하는 방법 및 장치
US8825479B2 (en) System and method for recognizing emotional state from a speech signal
JP5810946B2 (ja) 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US9934779B2 (en) Conversation analyzing device, conversation analyzing method, and program
JP6268717B2 (ja) 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
US7962342B1 (en) Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US20160307571A1 (en) Conversation analysis device, conversation analysis method, and program
US20080046241A1 (en) Method and system for detecting speaker change in a voice transaction
US10553240B2 (en) Conversation evaluation device and method
JPWO2008117626A1 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US20130246064A1 (en) System and method for real-time speaker segmentation of audio interactions
Pohjalainen et al. Detection of shouted speech in noise: Human and machine
WO2020013296A1 (ja) 精神・神経系疾患を推定する装置
JP4852584B2 (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
CN113921026A (zh) 语音增强方法和装置
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
EP2541544A1 (en) Voice sample tagging
JP2006230446A (ja) 健康状態推定装置
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
JP2015087557A (ja) 発話様式検出装置および発話様式検出方法
JP5151103B2 (ja) 音声認証装置、音声認証方法およびプログラム
CN113593580A (zh) 一种声纹识别方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151019

R150 Certificate of patent or registration of utility model

Ref document number: 5834449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150