JP5834449B2

JP5834449B2 - 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法

Info

Publication number: JP5834449B2
Application number: JP2011081133A
Authority: JP
Inventors: 鷲尾　信之; 信之鷲尾; 原田　将治; 将治原田; 晃釜野; 松尾　直司; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-04-22
Filing date: 2011-03-31
Publication date: 2015-12-24
Anticipated expiration: 2031-03-31
Also published as: US9099088B2; JP2011242755A; US20110282666A1

Description

本願明細書の開示する技術は、例えば、発話者の発話状態を検出する発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法に関する。

近年、音声データを分析して発話者の感情等の状態を検出する技術が知られている。例えば、音声信号に基づいて、その強度、速度、テンポ、強度変化パターンの抑揚等を検出し、それぞれの変化量から、悲しみや怒り、喜び等の感情状態を生成する方法が知られている（例えば、特許文献１参照。）。また、音声信号をローパスフィルタ処理して、音声信号の強度やピッチ等の特徴を抽出することにより、感情を検出する方法が知られている（例えば、特許文献２参照。）。さらに、音声情報から音韻スペクトルに係る特徴量を抽出し、予め備えた状態判断テーブルに基づいて感情状態を判断する方法が知られている（例えば、特許文献３参照。）。さらに加えて、音声信号の振幅包絡についての周期的変動を抽出し、話者が力んだ状態で発生したか否かを判定して、話者の怒りや苛立ちを検出する装置が知られている（例えば、特許文献４参照。）。

特開２００２−０９１４８２号公報特開２００３−０９９０８４号公報特開２００５−３５２１５４号公報特開２００９−００３１６２号公報

上記のような従来の感情検出技術の多くにおいては、声の高さ、声の大きさまたは韻律情報等の話者を特徴付ける音声データの特徴量から、話者の状態を示す基準情報としての特定話者基準情報を話者毎に予め作成しておき、検出対象となる音声データの各特徴量と上記特定話者基準情報とを比較することにより、話者の感情検出を行っている。よって、この場合、予め特定話者毎に基準情報を作成しておく必要がある。

しかしながら、予め特定話者毎に基準情報を作成しておくことを前提とすると、技術の適用範囲が特定話者に限定されるばかりか、本技術を導入する都度基準情報を作成しなければならず作業が煩雑となるという問題がある。

開示の技術は、上記に鑑みてなされたものであって、その目的は、予め特定話者毎に基準情報を作成することなく、発話状態の検出を可能とする発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法の提供にある。

上記の目的を達成するために、以下に開示する発話状態検出装置は、発話者の発話データを取得する発話データ取得部と、前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出部と、抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出部と、所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出部と、特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第１の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第２の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出部とを備える。

本願明細書の開示によれば、予め特定話者毎に基準情報を作成することなく、発話状態の検出を可能とすることができる。

図１は、発話状態検出装置１の機能ブロック図の一例を示す図である。図２は、コンピュータを用いて発話状態検出装置１を実現したハードウェア構成の例を示す図である。図３は、発話状態検出プログラム２４ａにおける、発話状態検出パラメータの作成処理のオペレーションチャートの一例を示す図である。図４は、日常状態で発話された発話データに基づいて算出した変動度合いを、グラフ化した一例を示す図である。図５は、日常状態で発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。図６は、統計量と発話状態検出パラメータｔ１との関係を示す図である。図７は、発話状態検出プログラム２４ａにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。図８は、特定発話者によって発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。図９は、第２の実施形態にかかる発話状態検出パラメータ算出処理のオペレーションチャートの一例を示す図である。図１０は、第３の実施形態にかかる発話状態検出装置１の機能ブロックの一例を示す図である。図１１は、発話データにノイズを多く含む場合とノイズが少ない場合におけるそれぞれの統計量を、グラフ化した一例を示す図である。図１２は、発話状態検出プログラム２４ａにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。図１３は、第５の実施形態による発話状態検出装置１の機能ブロックの一例を示す図である。図１４は、第５の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。図１５は、発話区間の検出方法の一例を示す図である。図１６は、返事区間の検出方法の一例を示す図である。図１７は、返事モデル記憶部のデータ更新の一例を示す図である。図１８は、返事モデル記憶部のデータ更新の一例を示す図である。図１９は、第５の実施形態による発話状態検出装置１を、コンピュータを用いて実現したハードウェア構成の例を示す図である。図２０は、区間検出プログラム２４ｃによる発話区間検出処理のオペレーションチャートの一例を示す図である。図２１は、区間検出プログラム２４ｃによる返事区間検出処理のオペレーションチャートの一例を示す図である。図２２は、第６の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。図２３は、第６の実施形態における返事モデル記憶部に記憶されているデータの更新例を示す図である。図２４は、第７の実施形態による発話状態検出装置１の機能ブロックの一例を示す図である。図２５は、第７の実施形態における電話帳記憶部に記憶されるデータの一例を示す図である。図２６は、第７の実施形態における時間帯別危険度記憶部に記憶されるデータの一例を示す図である。図２７は、第７の実施形態における時間帯別危険度記憶部に記憶されるデータの一例を示す図である。図２８は、第７の実施形態による発話状態検出装置１を、コンピュータを用いて実現したハードウェア構成の例を示す図である。図２９は、第７の実施形態に係る発話状態検出装置による処理全体の流れを示す図である。図３０は、危険度算出プログラム２４ｆにより実行される通話相手による危険度算出処理のオペレーションチャートの一例を示す図である。図３１は、危険度算出テーブルの一例を示す図である。図３２は、危険度算出プログラム２４ｆにより実行される通話時間による危険度算出処理のオペレーションチャートの一例を示す図である。図３３は、情報アップロード処理のオペレーションチャートの一例を示す図である。図３４は、情報配信処理のオペレーションチャートの一例を示す図である。図３５は、通話時間長と発話時間長との比を用いた検出を行う発話状態検出装置１の機能ブロックの一例を示す図である。図３６は、通話時間長と返事時間長との比を用いた検出を行う発話状態検出装置１の機能ブロックの一例を示す図である。図３７は、話速を用いた検出を行う発話状態検出装置１の機能ブロックの一例を示す図である。図３８は、第８の実施形態による移動体端末の機能ブロックの一例を示す図である。図３９は、住所履歴記憶部に記憶されるデータの一例を示す図である。図４０は、犯罪情報取得部による犯罪情報の取得方法の一例を示す図である。図４１は、危険度判定部による処理のオペレーションチャートの一例を示す図である。図４２は、犯罪検出制御部による処理のオペレーションチャートの一例を示す図である。

以下においては、本願の開示する発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法の一実施形態について説明する。

［１．第１の実施形態］
［１−１．機能ブロック］
図１は、この発明の本実施形態による発話状態検出装置１の機能ブロックの一例を示す図である。発話状態検出装置１は、発話データ取得部１１と、周波数成分抽出部１２と、変動度合い算出部１３と、統計量算出部１４と、発話状態検出パラメータ作成部１５と、発話状態検出部１６とを少なくとも備えている。

上記の発話状態検出装置１において、発話データ取得部１１は、発話者が発話することにより発生した発話データを取得する。ここで、発話データは、例えばマイクを通して取得したものであってもよいし、予め録音した発話データをハードディスク等から読み出して取得したものであってもよいし、ネットワークを介して受信したものであってもよい。

周波数成分抽出部１２は、取得した発話データを周波数解析した結果から、高域周波数成分を抽出する。例えば、発話データの音声区間を１フレーム（６４msec）毎にスペクトル解析することにより各周波数成分に分解する。そして、所定帯域の周波数を高域周波数として抽出することにより、高域周波数成分を抽出する。

変動度合い算出部１３は、抽出した高域周波数成分について、単位時間毎の変動度合いを算出する。例えば、１フレーム（６４msec）毎の変動度合いを算出する。また、例えば、変動度合いは、高域周波数成分を示すスペクトルについての平坦性を評価可能な指標であることが好ましい。なお、この評価指標については後述する。

統計量算出部１４は、所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する。例えば、上記において算出した変動度合いデータが５００サンプル存在する区間を分析区間として統計量を算出する。ここで、統計量とは、算出した変動度合いデータの各要素に基づく統計的な代表値である。例えば、この統計量は、複数の変動度合いの中央値、平均値、分散、最頻値または分位数等を用いて算出してもよい。

発話状態検出パラメータ作成部１５は、算出した複数の統計量に基づいて、発話状態を検出するための発話状態検出パラメータを作成する。例えば、日常状態であるか非日常状態であるかが既知となっている、不特定話者の発話データに基づいて算出した統計量から、特定話者の発話状態を検出可能な閾値を算出し、当該閾値を発話状態検出パラメータとする。なお、発話状態検出パラメータ作成部１５は、上記発話状態検出装置１において必須の構成要素ではない。

発話状態検出部１６は、特定発話者が発話することにより発生した発話データから得られた前記統計量に基づいて、前記特定発話者の発話状態を検出する。ここで、発話状態とは、発話者が発話を行う際における精神的または肉体的な状態を示すものである。

上記の発話状態の検出は、例えば、予め、不特定話者（例えば、１０００人分）について、日常状態または非日常状態における発話データに基づいて算出した統計量に基づいて作成した発話状態検出パラメータを記録しておき、この発話状態検出パラメータを閾値として設定し、特定話者について取得した発話データに基づいて算出した統計量が、日常状態を示すものであるか非日常状態を示す物であるかを判断することにより行われる。

一般的に、発話データには個人差がある上、人間の感情や心理状態などを定量的に示すことが困難であることから、発話データのみに基づいて発話時における状態を判断することは困難であるとされている。そこで、本発明の発明者は、高域周波数成分の変動度合いに着目した。高域周波数成分の変動度合いにおいて、発話状態を示す特性が表れているか否かの実験を行った結果、高域周波数成分の変動度合いに基づく統計量の比較により、かなりの確率で発話状態の判断（例えば、日常状態であるか非日常状態であるかの判断）が可能であった。

上記のように、特定発話者の発話データから得られた統計量に基づいて、特定発話者の発話状態を検出するため、予め特定話者毎に基準情報を作成しなくても特定話者の発話状態を検出することができる。

上記の発話状態検出装置１において、発話状態検出部１６は、不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて算出された発話状態検出パラメータを用いて、前記特定発話者の発話状態が日常状態であるか非日常状態であるかを検出することが好ましい。これにより、不特定発話者が既知の発話状態で発話することにより発生した発話データに基づいて、特定発話者の発話状態を精度よく検出することができる。また、不特定発話者が既知の発話状態で発話することにより発生した発話データが大量であっても、処理速度を低下させることなく特定発話者の発話状態を検出することができる。なお、上記においては、予め算出された発話状態検出パラメータ、または、発話状態検出装置１とは別の装置において算出された発話状態検出パラメータのいずれを用いても、特定発話者の発話状態を検出することができる。

上記の発話状態検出装置１において、不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて前記発話状態検出パラメータを作成する発話状態検出パラメータ作成部をさらに備えてもよい。これにより、発話状態検出パラメータを発話状態検出装置１内で作成して、特定話者の発話状態を検出することができる。

上記の発話状態検出装置１において、前記高域周波成分は、第１フォルマントを含まないように周波数成分を抽出したものであることが好ましい。例えば、言葉を発している人の音声のスペクトルは、複数のピークが時間的に移動している。一般的に、このピークのことをフォルマントといい、周波数の低い順に第１フォルマント、第２フォルマント…という。フォルマントの周波数は声道の形状と関係し、個体差や性差もフォルマントの違いを生む原因となる。第１フォルマントの判定を行う場合は、例えば、サウンドスペクトログラムにより音声信号をディジタル録音(サンプリング)したものに短時間フーリエ変換(STFT)を行えばよい。なお、ソナグラフまたはサウンドスペクトログラフ等を用いてもよい。

上記のように、第１フォルマントを含まないように周波数成分を抽出するのは、第１フォルマントを含まないように周波数成分を抽出することにより、発話内容（例えば、母音の有無等）による影響を効果的に排除することができるためである。また、発話者の性別や年齢といった個人差に基づく影響についても同時に排除することができる。

上記の発話状態検出装置１において、前記高域周波数成分は、２ｋＨｚ以上の周波数成分を抽出したものであることが好ましい。なぜなら、２ｋＨｚ以上の周波数成分であれば、第１フォルマントが含まれない可能性が極めて高いからである。なお、より好ましくは、高域周波数成分は、２ｋＨｚ〜３ｋＨｚの範囲の周波数成分を抽出したものであることが望ましい。このように高域周波数成分の範囲を限定することにより、発話状態の検出に有効な高域周波数成分のみを用いて効率的に処理を行うことができる。

一般に、疲労やストレス等のない状態（日常状態とする。）における人間の発話では、いわゆる張りのある発声というものが多く出現している。しかし、疲労やストレス等がある状態（非日常状態とする。）における人間の発話では、いわゆる張りのある発声の出現頻度が比較的少なくなる。このような知見に基づくと、例えば、発話者の発話データにおける高域周波数成分の出現頻度を、発話状態の判定に用いることができる。そこで、統計的な手法を用いて、不特定話者間に共通して適用可能となる発話状態の検出規則を次のように見いだした。

上記の発話状態検出装置１において、前記変動度合い算出部は、前記変動度合いを、次の式:変動度合い＝ｌｏｇ（高域周波数成分のパワースペクトルの幾何平均）／ｌｏｇ（高域周波数成分のパワースペクトルの算術平均）に基づいて算出することが好ましい。

上記の発話状態検出装置１において、前記変動度合い算出部は、前記変動度合いを、次の式:変動度合い＝ｌｏｇ（高域周波数成分の残差パワースペクトルの幾何平均）／ｌｏｇ（高域周波数成分の残差パワースペクトルの算術平均）に基づいて算出するようにしてもよい。

上記の発話状態検出装置１において、前記変動度合い算出部は、前記変動度合いを、次の式:変動度合い＝高域周波数成分のパワースペクトルの幾何平均／高域周波数成分のパワースペクトルの算術平均に基づいて算出するようにしてもよい。

上記の発話状態検出装置１において、前記変動度合い算出部は、前記変動度合いを、高域周波数成分の残差パワースペクトルの分散に基づいて算出するようにしてもよい。

上記の発話状態検出装置１において、前記変動度合い算出部は、前記変動度合いを、高域周波数成分のパワースペクトルの４分位数範囲に基づいて算出するようにしてもよい。

図１に示す各機能部（１１〜１６）は、それぞれプログラムによって実現されるＣＰＵの機能を含むものである。ここで、プログラムとは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む。

［１−２．ハードウェア構成］
図２は、この発明の一実施形態による発話状態検出装置１を、ＣＰＵを有するコンピュータ装置を用いて実現したハードウェア構成の例を示す図である。なお、ＣＰＵ２２に代えて、他のプロセッサ（例えば、ＭＰＵ等。）やＩＣ（例えば、ＡＳＩＣ等。）を有する装置を用いてもよい。また、携帯電話またはスマートフォンのような電子機器等を用いて、上記発話状態検出装置１を構成してもよい。

発話状態検出装置１は、ディスプレイ２１、ＣＰＵ２２、メモリ２３、ハードディスク２４、マイク２５および、キーボード／マウス２６を少なくとも備える。ハードディスク２４には、ＯＳ（オペレーティング・システム、図示せず。）の他、発話状態検出プログラム２４ａおよび発話状態検出パラメータ２４ｂ等が記録される。ＣＰＵ２２は、ＯＳおよび発話状態検出プログラム２４ａ等に基づく処理を実行する。なお、発話状態検出パラメータ２４ｂについては後述する。メモリ２３は、ＣＰＵ２２が発話状態検出プログラム２４ａ等に基づく処理を実行する際に、変動度合いデータ２３ａおよび統計量データ２３ｂを一時的に記憶する。なお、変動度合いデータ２３ａおよび統計量データ２３ｂについては後述する。

図１に示した発話状態検出装置１を構成する、発話データ取得部１１、周波数成分抽出部１２、変動度合い算出部１３、統計量算出部１４、発話状態検出パラメータ作成部１５および発話状態検出部１６は、ＣＰＵ２２上において発話状態検出プログラム２４ａを実行することによって実現される。

以下、上記の発話状態検出プログラム２４ａに基づく処理内容について説明する。上記の発話状態検出プログラム２４ａは、(1)不特定発話者が発話することにより発生した発話データから発話状態検出パラメータを作成する処理、または、(2)作成した発話状態検出パラメータを用いて、特定発話者が発話することにより発生した発話データに基づいて特定発話者の発話状態を検出する処理をＣＰＵ２２に実行させることができる。

［１−３．発話状態検出パラメータの作成処理］
図３は、発話状態検出プログラム２４ａにおける、(1)不特定発話者が発話することにより発生した発話データから発話状態検出パラメータを作成する処理（発話状態検出パラメータの作成処理）のオペレーションチャートの一例を示す図である。なお、発話状態検出パラメータの作成処理は、(2)作成した発話状態検出パラメータを用いて、特定発話者が発話することにより発生した発話データに基づいて特定発話者の発話状態を検出する処理（特定発話者の発話状態検出処理）を実行する前において、少なくとも１回は実行されることが好ましい。また、発話状態検出パラメータの作成処理を行う装置は、本発話状態検出装置１以外の装置であってもよい。

発話状態検出パラメータの作成処理を実行するＣＰＵ２２は、不特定発話者が発声した発話（音声）データを取得する（Ｏｐ３０１）。例えば、ＣＰＵ２２は、不特定発話者によりマイク２５を用いて入力された音声信号をＡ／Ｄ変換したデジタル音声データ（例えば、サンプリング周波数８ｋＨｚ、量子化数１６ｂｉｔでサンプリングしたデジタル音声データ。）を発話データとして取得する。例えば、有効な音声区間は、発話データのパワーを参照しながら始点および終点を判断すればよい。なお、ＣＰＵ２２は、予めメモリ２３またはハードディスク２４に記録された発話データを取得するようにしてもよい。

ＣＰＵ２２は、１フレーム分（例えば、６４msec分）の発話データを、スペクトル解析する（Ｏｐ３０２）。例えば、スペクトル解析は、１フレーム分の発話データ（デジタル音声データ）をＤＦＴ（デジタルフーリエ変換）分析することによって行えばよい。

ＣＰＵ２２は、高域周波数帯のスペクトルを抽出する（Ｏｐ３０３）。具体的にいえば、ＣＰＵ２２は、上記Ｏｐ３０２においてスペクトル解析を行って得た各周波数成分のうち、高域周波数帯のスペクトルのみを抽出する。より具体的には、高域周波数帯として、例えば２ｋＨｚ〜３ｋＨｚの周波数成分のスペクトルを抽出する。２ｋＨｚ〜３ｋＨｚとしたのは、上述した通り、２ｋＨｚ以上の周波数成分であれば、第１フォルマントが含まれない可能性が極めて高いためである。また、２ｋＨｚ〜３ｋＨｚの範囲の周波数成分に限定することにより、発話状態の検出に有効な高域周波数成分のみを用いて効率的に処理を行うためでもある。

ＣＰＵ２２は、抽出したスペクトルに基づいて、高域周波数成分の変動度合いを算出する（Ｏｐ３０４）。例えば、高域周波数成分の変動度合いは、上記の１フレーム毎に、次の式で算出される。なお、幾何平均とは、１フレーム内における各パワースペクトルの値についての相乗平均を意味し、算術平均とは、１フレーム内における各パワースペクトルの値についての相加平均を意味する。変動度合い＝ｌｏｇ（高域周波数成分のパワースペクトルの幾何平均）／ｌｏｇ（高域周波数成分のパワースペクトルの算術平均）

図４は、日常状態で発話された発話データに基づいて算出した変動度合いを、グラフ化した一例を示す図である。このグラフにおいて、縦軸は、高域周波数成分の変動度合いを表し、横軸は、経過時間を表し、１つのプロット点が１フレーム分について算出した変動度合いの値を示す。なお、日常状態を示す折れ線４１における変動度合い列（単位時間毎の変動度合いの要素データの集合）の振幅は、非日常状態のそれよりも大きくなる。つまり、非日常状態におけるグラフは、日常状態におけるグラフよりも平坦性が高くなる。なお、上記において算出された変動度合いは、変動度合いデータ２３ａとしてメモリ２３に記憶される。

上述した通り、変動度合いは、高域周波数成分を示すスペクトルについての平坦性を評価可能な指標であることが好ましい。よって、下記の例に従って変動度合いを算出してもよい。

例えば、変動度合いを、次の式で算出してもよい。なお、残差パワースペクトルとは、スペクトルの逆フィルタをかけることで得られる残差信号である。変動度合い＝ｌｏｇ（高域周波数成分の残差パワースペクトルの幾何平均）／ｌｏｇ（高域周波数成分の残差パワースペクトルの算術平均）

例えば、変動度合いを、次の式で算出してもよい。変動度合い＝高域周波数成分のパワースペクトルの幾何平均／高域周波数成分のパワースペクトルの算術平均
例えば、変動度合いを、高域周波数成分の残差パワースペクトルの分散に基づいて算出するようにしてもよい。

例えば、変動度合いを、高域周波数成分のパワースペクトルの４分位数範囲に基づいて算出するようにしてもよい。例えば、高域周波数成分のパワースペクトルの値の第１四分位数と第３四分位数の値の差（値が大きい順にソートして、上位25%の最も小さい値と、下位25%の最も大きい値との差）に基づいて算出するようにしてもよい。

ＣＰＵ２２は、発話データの音声区間がなくなるまで、各音声区間について、上記Ｏｐ３０２〜３０４の処理を繰り返す（Ｏｐ３０５）。

発話データの全ての音声区間についての変動度合いを算出すると（Ｏｐ３０５、Ｎｏ）、ＣＰＵ２２は、所定の分析区間毎の変動度合い列に基づいて、統計量を算出する（Ｏｐ３０６）。例えば、変動度合いの要素データが５００サンプル含まれる区間を１つの分析区間とする。そして、この分析区間内に存在する変動度合いの各要素間における中央値を算出し、この算出結果を統計量とする。なお、中央値に代えて分散または分位数を用い、各要素間における統計量を算出するようにしてもよい。

上記の場合、複数の変動度合いの要素（値）に対して、１番目〜５００番目までの要素を１番目の分析区間とし、１１番目〜５１０番目までの要素を２番目の分析区間とし（以下同じ）、１０個ずつ要素を増減させて分析区間を移動させることにより、複数の統計量を計算する。

図５は、日常状態で発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。このグラフにおいて、縦軸は、統計量の大きさ（変動度合いと同じ単位）を表し、横軸は、経過時間を表す。なお、日常状態を示す折れ線５１における統計量列（所定区間毎の統計量の要素の集合）の振幅は、非日常状態のそれよりも大きくなる。つまり、非日常状態におけるグラフは、日常状態におけるグラフよりも平坦性が高くなる。なお、上記において算出された統計量は、統計量データ２３ｂとしてメモリ２３に記憶される。

ＣＰＵ２２は、不特定発話者にかかる発話データがなくなるまで、各発話データについて、上記Ｏｐ３０１〜３０６の処理を繰り返す（Ｏｐ３０７）。

Ｏｐ３０８において、ＣＰＵ２２は、発話状態検出パラメータ算出処理を行う。例えば、この発話状態検出パラメータ算出処理においては、日常状態であるか非日常状態であるかが既知である各発話データを用いて上記のように統計量を算出しておき、算出した各統計量に基づいて、特定発話者にかかる発話データの発話状態を検出するために用いる発話状態検出パラメータｔ１およびｔ２を算出する。なお、後述の発話状態検出処理において発話状態検出パラメータｔ１およびｔ２を用いることにより、特定発話者にかかる統計量と、不特定話者にかかる統計量とを比較することができる。

例えば、発話状態検出パラメータｔ１は、日常状態である発話データから算出した全統計量についての第３四分位数（統計量を大きい順にソートして、上位25%の最も小さい値）を求めることによって決定する。そして、発話状態検出パラメータｔ１を超えている統計量要素の、全統計量要素に対する比率（要素比率）を、発話状態検出パラメータｔ２として決定する。発話状態検出パラメータｔ１は、全統計量についての第３四分位数以外の代表値を用いてもよい。

図６は、統計量と発話状態検出パラメータｔ１との関係を示す図である。図６において、破線６５が発話状態検出パラメータｔ１の値を示している。なお、図６において、区間６１、６２、６３は、複数要素の統計量（統計量列）を示す折れ線６１ａ、６２ａ、６３ａに対応する区間を示している。ここで、折れ線６１ａ、６２ａは、日常状態を表し、折れ線６３ａは、非日常状態を示している。

また、図６においては、非日常状態の発話データから算出した統計量も同時に示されているが、非日常状態の統計量データについての第３四分位数に基づいて発話状態検出パラメータｔ３を算出しておき、ｔ１とｔ３との差が所定値以上である場合にｔ１を正式に採用するようにしてもよい。これにより、日常状態の統計量と非日常状態の統計量との間に確実に差が生じている不特定発話者データを用いて、精度の高い発話状態検出パラメータ（ｔ１およびｔ２）を設定することができる。

ＣＰＵ２２は、パラメータ算出処理において算出した発話状態検出パラメータｔ１およびｔ２をハードディスク２４に記憶する。

［１−４．特定発話者の発話状態検出処理］
発話状態検出パラメータの作成処理を終えると、本発話状態検出装置１は、特定発話者の発話状態検出処理をＣＰＵ２２において実行する。上述の通り、発話状態検出パラメータ（ｔ１およびｔ２）の作成処理は、特定発話者の発話状態検出処理の事前において、少なくとも１回行われていればよい。また、発話状態検出装置１は、発話状態検出パラメータ（ｔ１およびｔ２）を取得可能であれば、発話状態検出パラメータの作成処理を実行しなくても、特定発話者の発話状態検出処理を実行することができる。

図７は、発話状態検出プログラム２４ａにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。

特定発話者の発話状態検出処理を実行するＣＰＵ２２は、特定発話者が発声した発話（音声）データを取得する（Ｏｐ７０１）。例えば、ＣＰＵ２２は、上記Ｏｐ３０１（図３）の場合と同様に処理する。

ＣＰＵ２２は、１音声区間分（１フレーム分）の発話データを、スペクトル解析する（Ｏｐ７０２）。例えば、上記Ｏｐ３０２（図３）の場合と同様に処理する。

ＣＰＵ２２は、高域周波数帯のスペクトルを抽出する（Ｏｐ７０３）。例えば、上記Ｏｐ３０３（図３）の場合と同様に処理する。

ＣＰＵ２２は、抽出したスペクトルに基づいて、高域周波数成分の変動度合いを算出する（Ｏｐ７０４）。例えば、上記Ｏｐ３０４（図３）の場合と同様に処理する。

ＣＰＵ２２は、発話データの音声区間がなくなるまで、各音声区間について、上記Ｏｐ７０２〜７０４の処理を繰り返す（Ｏｐ７０５）。

発話データの全ての音声区間についての変動度合いを算出すると（Ｏｐ７０５、Ｎｏ）、ＣＰＵ２２は、所定分析区間毎の変動度合いに基づいて、統計量を算出する（Ｏｐ７０６）。例えば、上記Ｏｐ３０５（図３）の場合と同様に処理する。但し、本処理においては特定発話者による発話状態は、日常状態であるか非日常状態であるかは不明である。

Ｏｐ７０７において、ＣＰＵ２２は、上記Ｏｐ３０８において算出した発話状態検出パラメータを用いて、特定発話者についての発話状態検出処理を行う。具体的にいえば、発話状態検出パラメータｔ１およびｔ２を用いて、特定発話者にかかる統計量と、不特定話者にかかる統計量とを比較することにより、特定発話者についての発話状態を検出する。つまり、発話状態の検出は、特定発話者について算出した統計量を発話状態検出パラメータｔ１およびｔ２を用いて評価することによって行う。

例えば、「統計量列に（声に）張りのある要素データが多く出現する時は日常状態であり、そうでない時は疲労等の状態である」といった規則を設定する。ここで、（声に）張りのある要素データが出現するとは、要素データを示す各統計量の値が、発話状態検出パラメータｔ１より大きくなる場合であると定義する。

図８は、特定発話者によって発話された発話データにかかる変動度合いに基づいて統計量を算出した結果を、グラフ化した一例を示す図である。例えば、図８の場合、グラフ中の破線が発話状態検出パラメータｔ１に対応している。つまり、この破線よりも上にある統計量列の各要素は、（声に）張りがある要素であるということになる。

また、（声に）張りのある要素が多い場合とは、張りのある要素の出現率（発話状態検出パラメータｔ１より大きい統計量の要素が存在する割合）が、発話状態検出パラメータｔ２よりも大きい場合をいう。例えば、図８の場合、折れ線８１の統計量の要素は、多く（約６５％）が、発話状態検出パラメータｔ１の値を超えている。つまり、統計量列の全体に対して、発話状態検出パラメータパラメータｔ１を超えている要素比率が、発話状態検出パラメータｔ２よりも大きければ、張りのある要素の出現頻度が多いといえる。そして、張りのある要素の出現頻度が多い統計量データを、日常状態であるとして検出する。

［１−５．まとめ］
以上に説明したとおり、上記の発話状態検出装置１は、不特定発話者が既知の発話状態で発話することにより発生した発話データから得られた統計量と、特定発話者が発話することにより発生した発話データから得られた統計量とを、不特定発話者が既知の発話状態で発話することにより発生した発話データから得られた統計量に基づいて決定した発話状態検出パラメータ（ｔ１およびｔ２）を用いて比較することにより、特定発話者の発話状態を検出する。これにより、予め特定話者毎に基準情報を作成することなく、発話状態の検出を可能とすることができる。

この実施形態において、発話データ取得部１１は、一例として、図３のＯｐ３０１の処理機能を含む。周波数成分抽出部１２は、一例として、図３のＯｐ３０３の処理機能を含む。変動度合い算出部１３は、一例として、図３のＯｐ３０４の処理機能を含む。統計量算出部１４は、一例として、図３のＯｐ３０６の処理機能を含む。発話状態検出パラメータ算出部１５は、一例として、図３のＯｐ３０８の処理機能を含む。

［２．第２の実施形態］
上記の発話状態検出装置１における発話状態検出パラメータ算出処理（Ｏｐ３０８）においては、一例として、日常状態である発話データから算出した全統計量についての第３四分位数（統計量を大きい順にソートして、上位25%の最も小さい値）を求めることによって発話状態検出パラメータｔ１を決定するとともに、発話状態検出パラメータｔ１を超えている統計量要素の、全統計量要素に対する比率（要素比率）を、発話状態検出パラメータｔ２として決定した。

しかしながら、日常状態である発話データから算出した統計量だけでなく、非日常状態である発話データから算出した統計量も考慮して、発話状態検出パラメータ（ｔ１およびｔ２）を決定するようにしてもよい。このように、非日常状態である発話データから算出した統計量も考慮して発話状態検出パラメータ（ｔ１およびｔ２）を決定することにより、不特定発話者の発話データの解析結果をより反映させた発話状態検出パラメータ（ｔ１およびｔ２）を用いることができる。このため、検出精度をより向上させた発話状態検出処理を実行することができる。

［２−１．機能ブロックおよびハードウェア構成］
本実施形態にかかる発話状態検出装置１も、第１の実施形態と同様に、コンピュータ装置、携帯電話またはスマートフォン等の電子機器を用いて構成可能である。また、本実施形態にかかる発話状態検出装置１の機能ブロックおよびハードウェア構成の一例は、図１および図２を用いて説明した第１の実施形態と基本的に同様である。

［２−２．発話状態検出パラメータの作成処理］
本実施形態の合成音声修正装置１における発話状態検出プログラム２４ａの、発話状態検出パラメータの作成処理の処理内容は、図３〜図６を用いて説明した第１の実施形態と基本的に同様である。しかしながら、本実施形態では、Ｏｐ３０８において説明した発話状態検出パラメータ算出処理の処理内容が異なる。

図９は、本実施形態にかかる発話状態検出パラメータ算出処理のオペレーションチャートの一例を示す図である。例えば、この発話状態検出パラメータ算出処理においては、日常状態であるか非日常状態であるかが既知である各発話データを用いて統計量を算出する。

ＣＰＵ２２は、日常状態の全統計量データから発話状態検出パラメータｔ１を決定する（Ｏｐ９０１）。例えば、発話状態検出パラメータｔ１は、日常状態である発話データから算出した全統計量についての第３四分位数（統計量を大きい順にソートして、上位25%の最も小さい値）を求めることによって決定する。なお、発話状態検出パラメータｔ１は、全統計量についての第３四分位数以外の代表値を用いてもよい。

ＣＰＵ２２は、日常状態であるか非日常状態であるかが既知である、ｉ番目の統計量データについて、決定した発話状態検出パラメータｔ１を超えている要素比率を算出する（Ｏｐ９０２）。例えば、５０個の統計量データ要素のうち３０個が発話状態検出パラメータｔ１を超えていれば、要素比率は０．６となる。

ＣＰＵ２２は、次に処理する統計量データがなくなるまで、各統計量データについて、上記Ｏｐ９０２の処理を繰り返す（Ｏｐ９０３、Ｏｐ９０４）。

日常状態および非日常状態を含む発話データの全ての統計量データについての要素比率を算出すると（Ｏｐ９０３、Ｎｏ）、ＣＰＵ２２は、統計量データの要素比率とＴとの比較により日常状態か非日常状態を判定する（Ｏｐ９０５、Ｏｐ９０６）。ここで、Ｔは、０≦Ｔ≦１の範囲で、０．０１毎に変化する変数であり、発話状態検出パラメータｔ２を決定するためのものである。

ＣＰＵ２２は、Ｔが０から１まで、０．０１ずつ変化する度に、Ｏｐ９０６〜下記Ｏｐ９０８の処理を実行する（Ｏｐ９１０、Ｏｐ９１１）。

ＣＰＵ２２は、Ｏｐ９０５の判定結果と、発話データの既知の状態情報（日常状態または非日常状態あることが、予め発話データに対応付けて記録されている情報）とに基づいて判定結果を評価して記録する（Ｏｐ９０７）。例えば、Ｔに対応する発話状態検出パラメータｔ２を０．５に設定して、要素比率が０．６となる日常状態を示す統計量データについての検出処理を行うと、要素比率（０．６）は、発話状態検出パラメータｔ２（０．５）よりも大きいので、この統計量データは日常状態であると判断される。

また、この統計量データは日常状態を示すことが既知であることにより、Ｏｐ９０５の判定結果は正解であると評価されることになる。ＣＰＵ２２は、この評価をメモリ２３において記録する。例えば、正解の場合は、統計量データに対応付けて「１」を記録し、不正解の場合は、統計量データに対応付けて「０」を記録すればよい。

一方、Ｔが０．７であり、要素比率が０．６となる場合、要素比率（０．６）は、発話状態検出パラメータｔ２（０．７）以下であるので、この統計量データは非日常状態であると判断される。しかしながら、この統計量データの既知の状態が日常状態であれば、Ｏｐ９０５の判定結果は不正解であると評価されることになる。この場合、統計量データに対応付けて「０」が記録される。

ＣＰＵ２２は、設定したＴ毎にＯｐ９０５の判定結果についての正解率を算出し、この正解率が最大となるＴを発話状態検出パラメータｔ２に決定する（Ｏｐ９１２）。

なお、上記Ｏｐ９０１においては、日常状態の統計量データについての第３四分位数に基づいて発話状態検出パラメータｔ１を決定するようにしたが、発話状態検出パラメータｔ２の場合と同様に、発話状態検出パラメータｔ１を変動させることにより、この正解率が最大となる発話状態検出パラメータｔ１およびｔ２を決定するようにしてもよい。これにより、より精度の高い発話状態検出パラメータ（ｔ１およびｔ２）を設定することができる。

［２−３．特定発話者の発話状態検出処理］
本実施形態における特定発話者の発話状態検出処理は、第１の実施形態と同様である。すなわち、ＣＰＵ２２は、発話状態検出パラメータ（ｔ１およびｔ２）を取得して、特定発話者の発話状態検出処理を実行する。なお、上述の通り、発話状態検出パラメータ（ｔ１およびｔ２）の作成処理は、特定発話者の発話状態検出処理の事前において、少なくとも１回行われていればよい。また、発話状態検出装置１は、発話状態検出パラメータ（ｔ１およびｔ２）を取得可能であれば、発話状態検出パラメータの作成処理を実行しなくても、特定発話者の発話状態検出処理を実行することができる。

［３．第３の実施形態］
上記の発話状態検出装置１において、前記発話データにかかるＳＮ比（ＳＮＲ：signal-noise ratio）を算出するＳＮ比算出部をさらに備え、前記発話状態検出部は、統計量を算出した前記所定期間に対応するＳＮ比が閾値よりも大きくなる場合に発話状態を検出するようにしてもよい。このように、ＳＮ比を考慮して発話状態を評価することにより、ノイズが比較的大きい環境における発話を排除して検出処理を行うことができ、検出精度の低下を防止することができる。

図１１は、発話データにノイズを多く含む場合と、ノイズが少ない場合におけるそれぞれの統計量を、グラフ化した一例を示す図である。図１１に示すように、折れ線１１１は、ノイズが少ない場合における日常状態の統計量データを示す。折れ線１１２は、ノイズが少ない場合における非日常状態の統計量データを示す。折れ線１１３は、ノイズが多い場合の日常状態の統計量データを示す。このように、日常状態を示す統計量であっても、ノイズが多い場合は、非日常状態よりも折れ線１１３の平坦性が高くなる。つまり、統計量データの折れ線１１３において、声の張りの検出が困難となる。

本実施形態においては、上記のような日常状態であってもノイズが多い場合の統計量を非日常であると判断して、発話状態の誤検出を防止する例について説明する。

［３−１．機能ブロックおよびハードウェア構成］
本実施形態にかかる発話状態検出装置１も、第１の実施形態と同様に、コンピュータ装置、携帯電話またはスマートフォン等の電子機器を用いて構成可能である。図１０は、本実施形態にかかる発話状態検出装置１の機能ブロックの一例を示す図である。図１０においては、図１において示した発話状態検出装置１の機能ブロックに加えて、ＳＮ比算出部１７をさらに備えている。

ＳＮ比算出部１７は、発話データ取得部１１において取得された発話データについてのＳＮ比を算出する。ＳＮ比の算出は、例えば、ＶＡＤ（Voice Activity Detector）を用いた次の式で算出可能である。ＳＮ比＝１０ｌｏｇ（Σ（Ｓ＋Ｎ）／ΣＮ）ここで、Ｓは音声区間の平均パワーを表し、Ｎは非音声区間の平均パワーを表している。

なお、本実施形態にかかる発話状態検出装置１のハードウェア構成の一例は、図２を用いて説明した第１の実施形態と基本的に同様である。

［３−２．発話状態検出パラメータの作成処理］
本実施形態における発話状態検出パラメータの作成処理は、第１または第２の実施形態と同様である。すなわち、第１の実施形態と同様に、例えば、日常状態である発話データから算出した全統計量についての第３四分位数（統計量を大きい順にソートして、上位25%の最も小さい値）を求めることによって発話状態検出パラメータｔ１を決定するとともに、発話状態検出パラメータｔ１を超えている統計量要素の、全統計量要素に対する比率（要素比率）を、発話状態検出パラメータｔ２として決定すればよい。また、第２の実施形態と同様に、日常状態である発話データから算出した統計量だけでなく、非日常状態である発話データから算出した統計量も考慮して、発話状態検出パラメータ（ｔ１およびｔ２）を決定するようにしてもよい。

［３−３．特定発話者の発話状態検出処理］
ＣＰＵ２２は、発話状態検出パラメータ（ｔ１およびｔ２）を取得して、特定発話者の発話状態検出処理を実行する。なお、上述の通り、発話状態検出パラメータ（ｔ１およびｔ２）の作成処理は、特定発話者の発話状態検出処理の事前において、少なくとも１回行われていればよい。また、発話状態検出装置１は、発話状態検出パラメータ（ｔ１およびｔ２）を取得可能であれば、発話状態検出パラメータの作成処理を実行しなくても、特定発話者の発話状態検出処理を実行することができる。

図１２は、発話状態検出プログラム２４ａにおける、特定発話者の発話状態検出処理のオペレーションチャートの一例を示す図である。図１２のＯｐ７０１〜Ｏｐ７０６は、図７において説明したものと同様である。

図１２のＯｐ７０６ａにおいて、ＣＰＵ２２は、特定発話者の発話データについてのＳＮ比を算出する。ＳＮ比の算出は、例えば、上述した通り、ＶＡＤに基づいて算出すればよい。

続いてＣＰＵ２２は、算出したＳＮ比が、予め設定された閾値以上であるか否かを判定する（Ｏｐ７０６ｂ）。例えば、閾値を１０ｄＢ（デシベル）と設定とした場合、ＳＮ比が１５ｄＢであれば、上述した発話状態検出処理（Ｏｐ７０７）を実行する。

一方、ＳＮ比が閾値未満であれば、発話状態検出処理（Ｏｐ７０７）を実行することなく、処理を終了する。この場合、例えば、ＳＮ比が小さいために処理を中断した旨の表示を行えばよい。また、その旨の信号出力を行うようにしてもよい。

これにより、算出した発話状態検出パラメータ（ｔ１およびｔ２）を用いて、特定発話者についての発話状態検出処理を行う前段階で、検出処理結果の有効性を判断して、誤検出を事前に防止することができる。

この実施形態において、ＳＮ比算出部１７は、一例として、図１２のＯｐ７０６ａの処理機能を含む。

［４．第４の実施形態］
上記においては、１つの発話状態検出装置１において、（１）発話状態検出パラメータの作成処理および（２）特定発話者の発話状態検出処理を実行する例を説明したが、別の装置において算出された発話状態検出パラメータを用いて、特定発話者の発話状態を検出するようにしてもよい。例えば、インターネット等のネットワークを介して発話状態検出パラメータ取得するようにしてもよい。

上記第１〜第２の実施形態において説明した構成の一部または全部を、２以上組合せた構成としてもよい。

上記実施形態においては、図１に示す各機能ブロックを、ソフトウェアを実行するＣＰＵの処理によって実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティング・システム（ＯＳ）にさせるようにしてもよい。

［５．第５の実施形態］
上述した実施形態では、予め特定話者毎に基準情報を作成することなく、通話などの入力音声データから物理的特徴量と統計量とを算出し、算出した物理的特徴量と統計量とから話者の状態を判定する処理を説明した。しかしながら、例えば、返事ばかりが続き、取得できる音声データが少ない場合には、上述の物理的特徴量と統計量とを算出することが困難であるので、話者の状態を判定することができない。そこで、以下に説明する第５の実施形態では、例えば、返事ばかりが続き、ある話者について取得できる音声データが少なく、話者の状態を判定することが難しい場合でも、音声データのみから話者の状態を判定する処理を説明する。

［５−１．機能ブロック］
図１３は、第５の実施形態による発話状態検出装置１の機能ブロックの一例を示す図である。第５の実施形態に係る発話状態検出装置１は、音異常判定部１０以外に、状態検出部１００および総合判定部２００を有する点が上述の実施形態とは相違する。なお、音異常判定部１０は、図１に示す各機能ブロック１１〜１６に対応している。

状態検出部１００は、図１３に示すように、返事モデル記憶部１０１と、区間検出部１１１と、状態判定部１１２とを有する。

返事モデル記憶部１０１は、発話者が平常状態にあるときの返事に係る情報を統計処理したデータである。例えば、返事モデル記憶部１０１は、日常時などの平常状態にあるときに、発話者が返事に使用する単語（語彙、以下「単語」とのみ表記する）ごとに、単語の出現頻度および出現確率のデータを保持している。なお、返事モデル記憶部１０１は、予め、不特定多数の話者による日常時の対話データを元に作成される。ここで、日常時の対話か否かは、人が聞いて判断したり、同時収録した脈拍などの客観データから自動判定したり、上述した実施形態の方法によって判定したりすることができる。例えば、同時収録した脈拍などの客観データを利用する場合には、客観データの平均値や分散値の±１分散程度の区間の収まる場合には日常と判定すればよい。また、ユーザの性別、年代などが予め分かる場合は、性別、年代別に返事モデル記憶部１０１のデータを作成することも可能である。以下、図１４を用いて、返事モデル記憶部１０１に記憶されるデータの一例を説明する。

図１４は、第５の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。図１４に示すように、返事モデル記憶部１０１には、日常時に返事に用いられた単語（語彙）ごとに、出現頻度（回数）と出現確率とが対応付けられている。例えば、図１４では、単語「はい」について、頻度「２３（回）」と、確率「２．３％」とが対応付けられている。また、図１４では、単語「はあ」について、頻度「３２１（回）」と、確率「３２．１％」とが対応付けられている。つまり、日常において、単語「はい」は、返事を行う際に用いられる頻度が少なく、単語「はあ」は返事を行う際に用いられる頻度が多いことが分かる。なお、図１４では、返事モデル記憶部１０１に記憶されるデータの頻度（回数）の合計値が１０００となっているが、１０００を超える場合には１０００で正規化した値としてもよいし、１００や５００など適宜所定の値で正規化してもよい。なお、図１４に示す返事モデル記憶部１０１のデータの構成は一例であり、この構成に限定されるものではない。

区間検出部１１１は、発話データ取得部１１により取得された発話データから、発話が行われている発話区間を検出する。例えば、区間検出部１１１は、発話データを、３２ミリ秒や２４ミリ秒でシフトするフレームごとに発話区間を検出する。以下、図１５を用いて、区間検出部１１１による発話区間の検出方法の一例を説明する。図１５は、発話区間の検出方法の一例を示す図である。

区間検出部１１１は、図１５に示すように、処理フレームの入力パワーＰを用いて、推定背景雑音パワーＰ_ｎを逐次推定しながら、入力パワーＰが、推定背景雑音パワーＰ_ｎよりも所定の閾値α以上の大きさとなる区間Ｉ_１を発話区間として検出する。なお、図１５に示す方法で発話区間を検出する場合に限られるものではなく、例えば、特開平７−９２９８９号公報に開示されている技術を利用して、発話区間を検出してもよい。

また、区間検出部１１１は、返事と推測される短時間の発話区間のみが連続する区間を返事区間として検出する。以下、図１６を用いて、区間検出部１１１による返事区間の検出方法の一例を説明する。図１６は、返事区間の検出方法の一例を示す図である。なお、図１６に示すｔ_０〜ｔ_４は、発話区間の区間長を表し、図１６に示すＴＨ_１は、返事を検出するための閾値を表す。

区間検出部１１１は、図１６に示すように、検出した発話区間の区間長（ｔ_０〜ｔ_４）と、閾値ＴＨ_１とをそれぞれ順次比較する。比較の結果、発話区間の区間長が閾値ＴＨ_１未満である場合には返事と判定する。例えば、図１６に示す例では、区間検出部１１１は、区間長がｔ_０，ｔ_４の発話区間を返事ではないと判定し、区間長がｔ_１，ｔ_２，ｔ_３である発話区間をそれぞれ返事であると判定する。そして、区間検出部１１１は、返事と判定された発話区間が連続する時間軸上の開始位置Ｓと終了位置Ｅとを取得し、返事区間Ｉ_２として出力する。なお、区間検出部１１１は、発話区間が返事と判定したか否か、あるいは入力音声の終了（処理フレームの終了）に応じて、適宜開始位置Ｓおよび終了位置Ｅを更新する。

状態判定部１１２は、返事モデル記憶部１０１に記憶されているデータを参照して、区間検出部１１１により検出された返事区間における返事の当事者の状態が、日常時などの安定した状態にあるのか、あるいは非日常などの不安定な状態にあるかを判定する。例えば、状態判定部１１２は、返事区間において返事と判定された発話区間の音声認識を行い、返事として発声された単語を認識する。なお、状態判定部１１２は、例えば、返事として利用される単語のセットを予め用意し、このセットに対するワードスポッティング技術や音素認識処理など、既存の音声認識技術を用いて音声認識の処理を実行する。続いて、状態判定部１１２は、音声認識された返事の単語と返事モデル記憶部１０１のデータとを照らし合わせることにより、返事区間における返事の当事者の状態を判定する。例えば、状態判定部１１２は、返事のときに利用された単語が、返事モデル記憶部１０１のデータの中で出現頻度の低いもの、例えば、出現確率が３％未満のものであれば、非日常状態の返事と判定する。例えば、上述した図１４に示す例であれば、状態判定部１１２は、返事のときに利用された単語が「はい」や「ふむ」であれば、返事区間における返事の当事者は非日常状態の返事と判定する。そして、状態判定部１１２は、返事区間における全ての返事について、日常状態の返事か、あるいは非日常状態の返事かを判定し、返事区間における返事として非日常状態の返事が連続する場合には、返事区間における返事の当事者は非日常状態にあると判定する。なお、返事区間における返事の当事者は非日常状態にあると判定する条件は、返事区間に似含まれる日常状態の返事および非日常状態の返事の割合に応じて設定するなど、適宜変更可能である。

また、状態判定部１１２は、上述の判定結果に応じて返事モデル記憶部１０１のデータを更新する。上述したように、返事モデル記憶部１０１に記憶されるデータは、初期段階において、不特定多数の話者の日常時対話データを元に作成される。しかし、このままでは、発話状態検出装置１のユーザが行う返事の癖や心理的な変動など、ユーザの個人的な特性に応じた処理ができない可能性もでてくる。そこで、状態判定部１１２は、返事モデル記憶部１０１のデータがユーザの特性に応じてカスタマイズされるように、上述の判定結果が得られるたびに、この判定結果に応じて返事モデル記憶部１０１のデータを更新する。以下、図１７および図１８を用いて、返事モデル記憶部１０１のデータ更新について説明する。図１７および図１８は、返事モデル記憶部のデータ更新の一例を示す図である。

例えば、状態判定部１１２は、返事区間における返事の当事者について、日常状態であると判定した場合には、返事区間で音声認識された単語の出現頻度および出現確率を更新することにより、返事モデル記憶部１０１のデータを更新する。例えば、状態判定部１１２は、上述した返事区間において「ええ」という単語を６回認識するとともに、「うん」という単語を１０回認識したものとする。この場合には、例えば、図１７に示すように、状態判定部１１２は、返事区間において認識された回数に従って、返事モデル記憶部１０１に記憶されている単語「ええ」の頻度を「２７４→２８０」に更新する。同様に、状態判定部１１２は、返事区間において認識された回数に従って、返事モデル記憶部１０１に記憶されている単語「うん」の頻度を「１４５→１５５」に更新する。続いて、状態判定部１１２は、返事モデル記憶部１０１に記憶されている単語「ええ」の確率を、更新後の頻度に応じて「２７．４％→２７．６％」に更新する。同様に、状態判定部１１２は、返事モデル記憶部１０１に記憶されている単語「うん」の確率を、更新後の頻度に応じて「１４．５％→１５．３％」に更新する。以上で、状態判定部１１２は、更新の処理を完了する。

また、状態判定部１１２は、頻度の合計値がある程度大きくなった場合には、返事モデル記憶部１０１のデータを、頻度の合計が１０００となるように正規化してもよい。つまり、返事モデル記憶部１０１に記憶されているデータの数値が大きくなると、データの更新処理速度の低下を招くため、これに対処する趣旨である。例えば、図１８に示すように、状態判定部１１２は、返事モデル記憶部１０１に記憶されている頻度の合計を「１０１６→１０００」に変更するのに合わせて、単語「ええ」の頻度を「２８０→２７５．６」に正規化する。また、状態判定部１１２は、返事モデル記憶部１０１に記憶されている頻度の合計を「１０１６→１０００」に変更するのに合わせて、単語「ええ」の確率を「２７．６→２７．５６」に正規化する。同様に、状態判定部１１２は、図１８に示すように、返事モデル記憶部１０１に記憶されている頻度の合計を「１０１６→１０００」に変更するのに合わせて、単語「うん」の頻度を「１５５→１５２．６」に正規化する。また、状態判定部１１２は、返事モデル記憶部１０１に記憶されている頻度の合計を「１０１６→１０００」に変更するのに合わせて、単語「うん」の確率を「１５．３→１５．２６」に正規化する。

総合判定部２００は、上述した第１〜第４の実施形態に対応する音異常判定部１０の判定結果、および状態判定部１１２による判定結果を用いて、返事区間における返事の当事者となる発話状態検出装置１のユーザの状態について総合的な判定を行う。例えば、総合判定部２００は、音異常判定部１０の判定結果、および状態判定部１１２による判定結果の双方が、非日常状態である場合には、ユーザが非日常状態にあると判定する。あるいは，音異常判定部１０の判定結果、および状態判定部１１２による判定結果のいずれかが、非日常状態である場合には、ユーザが非日常状態にあると判定する構成でもよい．音異常判定部１０の判定結果、および状態判定部１１２による判定結果が確率値など数値化されているならば，その加重平均を既定の閾値と比較してもよい。

［５−２．ハードウェア構成］
図１９は、第５の実施形態による発話状態検出装置１を、コンピュータを用いて実現したハードウェア構成の例を示す図である。第５の実施形態による発話状態検出装置１のハードウェア構成は、上述した実施形態と基本的に同様の構成を有するが、以下に説明する点が上述の実施形態とは異なる。なお、上述した実施形態と同様に、ＣＰＵ２２に代えて、他のプロセッサ（例えば、ＭＰＵ（Micro Processing Unit）等。）やＩＣ（例えば、ＡＳＩＣ（Application Specific Integrated Circuit）等。）を有する装置を用いてもよい。また、携帯電話またはスマートフォンのような電子機器等を用いて、上記発話状態検出装置１を構成してもよい。

発話状態検出装置１は、ディスプレイ２１、ＣＰＵ２２、メモリ２３、ハードディスク２４、マイク２５および、キーボード／マウス２６を少なくとも有する点は、上述の実施形態と同様であるが、次に説明する点が異なる。すなわち、ハードディスク２５に、区間検出プログラム２４ｃ、状態判定プログラム２４ｄおよび総合判定プログラム２４ｅが新たに記録される。また、メモリ２３に、ＣＰＵ２２が区間検出プログラム２４ｃまたは状態判定プログラム２４ｅ等に基づく処理を実行する際に、区間検出データ２３ｃおよび返事モデルデータ２３ｄが一時的に記憶される。

図１３に示した発話状態検出装置１の状態検出部１００が有する区間検出部１１１や状態判定部１１２の処理機能は、ＣＰＵ２２上において区間検出プログラム２４ｃや状態判定プログラム２４ｄを実行することによって実現される。また、図１３に示した発話状態検出装置１の総合判定部２００の処理機能は、ＣＰＵ２２上において総合判定プログラム２４ｅを実行することによって実現される。

以下、上述の区間検出プログラム２４ｃや状態判定プログラム２４ｄに基づく処理内容について説明する。上述の区間検出プログラム２４ｃは、発話データから発話区間を検出する発話区間検出処理、または発話区間にて返事が連続している区間を返事区間として検出する返事区間検出処理をＣＰＵ２２に実行させることができる。また、上述の状態判定プログラム２４ｄは、検出された返事区間の返事の当事者の状態を判定する状態判定処理をＣＰＵに実行させることができる。

［５−３．発話区間検出処理］
図２０は、区間検出プログラム２４ｃによる発話区間検出処理のオペレーションチャートの一例を示す図である。なお、図２０に示す処理は、３２ミリ秒や２４ミリ秒でシフトする発話データのフレームを、１フレームずつ入力して実行される。

発話区間検出処理を実行するＣＰＵ２２は、図２０に示すように、取得した発話データの入力フレームが最初のフレームであるか否かを判定する（Ｏｐ１００１）。ＣＰＵ２２は、取得した発話データのフレームが最初のフレームである場合には（Ｏｐ１００１、Ｙｅｓ）、推定背景雑音パワーＰ_ｎを入力パワーＰで初期化して（Ｏｐ１００２）、現入力フレームの処理を終了する。

一方、ＣＰＵ２２は、取得した発話データの入力フレームが最初のフレームではない場合には（Ｏｐ１００１、Ｎｏ）、発話区間の開始位置を検出済みであるか否かを判定する（Ｏｐ１００３）。ＣＰＵ２２は、発話区間の開始位置を検出済みではない場合には（Ｏｐ１００３、Ｎｏ）、入力パワーＰ＞推定背景雑音パワーＰ_ｎ＋閾値αであるか否かを判定する（Ｏｐ１００４）。ＣＰＵ２２は、入力パワーＰ＞推定背景雑音パワーＰ_ｎ＋閾値αである場合には（Ｏｐ１００４、Ｙｅｓ）、発話区間の開始位置を記憶（メモリ２３に格納）して（Ｏｐ１００５）、現入力フレームの処理を終了する。例えば、ＣＰＵ２２は、発話区間の開始位置を検出済みである旨のフラグを立てる。一方、ＣＰＵ２２は、入力パワーＰ＞推定背景雑音パワーＰ_ｎ＋閾値αではない場合には（Ｏｐ１００４、Ｎｏ）、推定背景雑音パワーＰ_ｎを入力フレームの入力パワーＰで更新して（Ｏｐ１００６）、現入力フレームの処理を終了する。

なお、ＣＰＵ２２は、上述したＯｐ１００３において、発話区間の開始位置を検出済みである場合には（Ｏｐ１００３、Ｙｅｓ）、入力パワーＰ≦推定背景雑音パワーＰ_ｎ＋閾値αであるか否かを判定する（Ｏｐ１００７）。ＣＰＵ２２は、入力パワーＰ≦推定背景雑音パワーＰ_ｎ＋閾値αである場合には（Ｏｐ１００７、Ｙｅｓ）、発話区間を出力する（Ｏｐ１００８）。そして、ＣＰＵ２２は、上述したＯｐ１００６に移行し、推定背景雑音パワーＰ_ｎを入力フレームの入力パワーＰで更新して、現入力フレームの処理を終了する。一方、ＣＰＵ２２は、入力パワーＰ≦推定背景雑音パワーＰ_ｎ＋閾値αではない場合には（Ｏｐ１００７、Ｎｏ）、そのまま現入力フレームの処理を終了する。

［５−４．返事区間検出処理］
図２１は、区間検出プログラム２４ｃによる返事区間検出処理のオペレーションチャートの一例を示す図である。なお、図２１に示す処理は、３２ミリ秒や２４ミリ秒でシフトする発話データのフレームを、１フレームずつ入力して実行される。

返事区間検出処理を実行するＣＰＵ２２は、図２１に示すように、返事区間の開始位置Ｓ、返事区間の終了位置Ｅおよび返事数Ｎを初期化する（Ｏｐ１１０１）。例えば、ＣＰＵ２２は、Ｓ＝０、Ｅ＝−１、Ｎ＝０に初期化する。続いて、ＣＰＵ２２は、入力される発話データの次フレームがあるか否かを判定する（Ｏｐ１１０２）。ＣＰＵ２２は、次のフレームがある場合には（Ｏｐ１１０２、Ｙｅｓ）、上述した図２０に示す発話区間検出処理を実行し（Ｏｐ１１０３）、発話区間が確定しているか否かを判定する（Ｏｐ１１０４）。例えば、ＣＰＵ２２は、図２０のＯｐ１００８に示す発話区間の出力が行われたかどうかを判定する。

ＣＰＵ２２は、発話区間が確定している場合には（Ｏｐ１１０４、Ｙｅｓ）、返事区間として取り扱う区間が開始済みであるか否かを判定する（Ｏｐ１１０５）。例えば、ＣＰＵ２２は、返事発話数Ｎが１以上（Ｎ＞０）であるか否かを判定する。ＣＰＵ２２は、返事区間として取り扱う区間が開始済みではない場合には（Ｏｐ１１０５、Ｎｏ）、発話区間の区間長ｔが閾値ＴＨ_１未満であるか否かを判定する（Ｏｐ１１０６）。ＣＰＵ２２は、発話区間長ｔが閾値ＴＨ_１未満ではない場合には（Ｏｐ１１０６、Ｎｏ）、現入力フレームの発話データを返事ではないものとし、現入力フレームにおける発話区間の終了位置を、返事区間として取り扱う区間の開始位置Ｓとして設定する（ＯＰ１１０７）。例えば、ＣＰＵ２２は、図１６に示す区間長がｔ_０の発話区間の終了位置を返事区間として取り扱う区間の開始位置Ｓとして設定する。そして、ＣＰＵ２２は、Ｏｐ１１０２に戻り、次のフレームがあるか否かを判定する。一方、ＣＰＵ２２は、発話区間の区間長ｔが閾値ＴＨ_１未満である場合には（Ｏｐ１１０６、Ｙｅｓ）、現入力フレームの発話データは返事であるものして、返事数Ｎ＝１とし（Ｏｐ１１０８）、Ｏｐ１１０２に戻り、次のフレームがあるか否かを判定する。

なお、ＣＰＵ２２は、上述したＯｐ１１０５において、返事区間が開始済みである場合には（Ｏｐ１１０５、Ｙｅｓ）、Ｏｐ１１０５と同様に、発話区間の区間長ｔが閾値ＴＨ_１未満であるか否かを判定する（Ｏｐ１１０９）。ＣＰＵ２２は、発話区間の区間長ｔが閾値ＴＨ_１未満である場合には（Ｏｐ１１０９、Ｙｅｓ）、現入力フレームの発話データは返事であるものとして、返事数Ｎ＝Ｎ＋１とし（Ｏｐ１１１０）、Ｏｐ１１０２に戻り、次のフレームがあるか否かを判定する。つまり、Ｏｐ１１１０の処理は、返事区間として取り扱う区間の発話区間が返事と推測される限り、逐次、返事数を１ずつインクリメントする。

一方、ＣＰＵ２２は、発話区間の区間長ｔが閾値ＴＨ_１未満ではない場合には（Ｏｐ１１０９、Ｎｏ）、発話区間の開始位置を返事区間の終了位置Ｅとして設定する（Ｏｐ１１１１）。例えば、ＣＰＵ２２は、図１６に示す区間長がｔ_４の発話区間の開始位置を返事区間の終了位置Ｅとして設定する。つまり、Ｏｐ１１１１の処理により、返事区間が確定する。

続いて、ＣＰＵ２２は、返事区間として取り扱う区間において返事が続いたか否かを判定する（Ｏｐ１１１２）。例えば、ＣＰＵ２２は、返事区間として取り扱う区間の返事数Ｎ＞１、返事区間として取り扱う区間の終了位置Ｅ−返事区間として取り扱う区間の開始位置Ｓ）＞ＴＨ_２であるか否かを判定する。ここで、（返事区間として取り扱う区間の終了位置Ｅ−返事区間として取り扱う区間の開始位置Ｓ）＞ＴＨ_２を考慮するのは、例えば、通話などの対話中に、「はいはい」と連続した返事が行われた区間を排除するためである。つまり、ユーザの返事の癖により、見かけ上、返事が連続しているようにみえる区間を除外する趣旨である。なお、ＴＨ_２は、所定の時間である。

ＣＰＵ２２は、返事区間として取り扱う区間において返事が続いた場合には（Ｏｐ１１１２、Ｙｅｓ）、該当区間を返事区間として出力する（Ｏｐ１１１３）。例えば、ＣＰＵ２２は、Ｏｐ１１０７で設定した開始位置Ｓと、Ｏｐ１１１１で設定される終了位置Ｅとにより確定する区間を返事区間として出力する。続いて、ＣＰＵ２２は、返事区間の開始位置Ｓ、返事区間の終了位置Ｅおよび返事発話数Ｎを再度初期化して（Ｏｐ１１１４）、Ｏｐ１１０２に戻り、次のフレームがあるか否かを判定する。

なお、ＣＰＵ２２は、上述したＯｐ１１１２において、返事区間において返事が続かなかった場合には（Ｏｐ１１１２、Ｎｏ）、そのまま上述したＯｐ１１１４の処理に移行する。つまり、上述してきたＯｐ１１０２からＯｐ１１１４までの処理は、通話などの対話中に、発話→返事→発話が繰り返される状況を想定した処理であり、対話中の返事区間を逐次検出する。

なお、ＣＰＵ２２は、上述したＯｐ１１０２において、次のフレームがない場合には（Ｏｐ１１０２、Ｎｏ）、返事区間として取り扱う区間の開始位置Ｓを検出済みであるか否かを判定する（Ｏｐ１１１５）。例えば、ＣＰＵ２２は、Ｓ＞０であるか否かを判定する。ＣＰＵ２２は、返事区間として取り扱う区間の開始位置Ｓを検出済みではない場合には（Ｏｐ１１１５、Ｎｏ）、通話などの対話中に発話のみが行われ、返事が行われなかった区間であるとして、そのまま処理を終了する。一方、ＣＰＵ２２は、返事区間とする開始位置Ｓを検出済みである場合には（Ｏｐ１１１５、Ｙｅｓ）、現入力フレームである最終フレーム（最終フレームの最後の位置）を返事区間として取り扱う区間の終了位置Ｅに設定する（Ｏｐ１１１６）。

続いて、ＣＰＵ２２は、Ｏｐ１１１２と同様にして、返事区間として取り扱う区間において返事が続いたか否かを判定する（Ｏｐ１１１７）。ＣＰＵ２２は、返事区間として取り扱う区間において返事が続いた場合には（Ｏｐ１１１７、Ｙｅｓ）、該当区間を返事区間として出力し（Ｏｐ１１１８）、処理を終了する。一方、ＣＰＵ２２は、返事区間として取り扱う区間において返事が続かなかった場合には（Ｏｐ１１１７、Ｎｏ）、そのまま処理を終了する。つまり、Ｏｐ１１１５からＯｐ１１１８までの処理は、通話などの対話が発話→返事で終了した状況を想定した処理であり、この対話中の返事区間を検出する。

［５−５．まとめ（第５の実施形態による効果）］
上述してきたとおり、発話状態検出装置１の状態検出部１００は、発話データから発話区間を検出し、返事と推測される短時間の発話区間のみが連続する区間を返事区間として検出する。そして、状態検出部１００は、返事モデル記憶部１０１のデータを参照して、返事区間において利用された単語が、日常時に利用される頻度の高いものであるかどうかを検証する。検証の結果、日常時に利用される頻度の高いもの否かあまり利用されるものでなければ、状態検出部１００は、返事区間における返事の当事者（発話状態検出装置１のユーザ）の状態が、非日常のように不安定な状態にあるものと判定する。このようなことから、第５の実施形態によれば、返事ばかりが続いて、取得できる発話データが少なく、上述の第１〜第４の実施形態ではユーザの状態を判定することが難しい場合でも、発話データのみからユーザの状態を判定できる。

なお、上述した実施形態の５において、返事の当事者の心理状態により、返事に用いられた単語の音声認識のスコアに差が出る場合がある。例えば、緊張により、いつもより力が入って発声が明瞭になった結果、音声認識のスコアが普段（日常時）よりも高くなることがあり得る。一方で、心配事などのストレスを原因として心ここにあらずで、いつもより発声が不明瞭になった結果、音声認識のスコアが普段よりも低くなってしまうことがあり得る。そこで、日常時のように心理的に安定した状態での音声認識のスコアを返事モデルとして記憶しておき、この返事モデルを参照して、返事区間における返事の当事者の状態を判定することもできる。以下に、この場合の実施形態の一例を説明する。

返事モデル記憶部１０１は、例えば、日常時における返事を音声認識したときの平均値、分散値、最大値と最小値などの統計量を返事モデルとして予め記憶する。そして、状態判定部１１２は、返事区間で使用された単語（語彙）の認識スコアと、返事モデルとを比較する。比較の結果、返事区間で使用された単語の認識スコアが、返事モデルと比べて稀なレンジの場合、例えば、平均値の±１分散程度の区間外の場合には、状態判定部１１２は、非日常と判定する。

あるいは、返事モデル記憶部１０１は、例えば、認識結果が１位である単語の認識スコアと、認識結果が２位である単語の認識スコアとの間に、例えば、１０スコア以上の差があるというデータを予め記憶する。そして、状態判定部１１２は、返事区間で使用された認識結果１位の単語の認識スコアと、返事区間で使用された認識結果２位の単語の認識スコアとのスコア差を算出し、返事モデル記憶部１０１のデータと比較する。比較の結果、状態判定部１１２は、返事モデル記憶部１０１のデータと、スコア差との間に大きな開きがある場合、例えば、所定の閾値以上の開きがある場合には、非日常と判定する。

［６．第６の実施形態］
また、上述した第５の実施形態では、返事モデル記憶部１０１のデータを参照して、返事区間において利用された単語が、日常時に利用される頻度の高いものであるかどうかを検証することにより、ユーザの状態を判定する処理について説明した。ところで、上述の第５の実施形態において、例えば、返事区間の長さ、返事区間内の各返事の間隔長、総返事区間の長さ、あるいは通話時間と総返事区間の長さとの比などを用いて、ユーザの状態を判定することもできる。そこで、以下に説明する第６の実施形態では、例えば、返事区間の長さ、返事区間内の各返事の間隔長、総返事区間の長さ、あるいは通話時間と総返事区間の長さとの比を用いて、ユーザの状態を判定する処理を説明する。

［６−１．機能ブロック］
第６の実施形態による発話状態検出装置１の機能ブロックは、図１３に示す第５の実施形態と基本的に同様の構成を有するが、以下に説明する点が異なる。なお、第６の実施形態による発話状態検出装置１のハードウェア構成は、上述した実施形態５と同様の構成を有する。

図２２は、第６の実施形態における返事モデル記憶部に記憶されるデータの一例を示す図である。図２２に示すように、返事モデル記憶部１０１はユーザの返事区間長、返事の間隔長、総返事区間長および通話時間と総返事区間の長さとの比（以下、返事時間比と記載する）の各要素について、平均μと標準偏差σとを記憶する。平均μの単位は秒である。返事区間長は、返事区間の１つ１つの長さ（時間）を表す。返事の間隔長は、返事区間において返事と判定された各返事の１つ１つの長さ（時間）を表す。総返事区間長は、通話などによる対話中において検出された返事区間の合計の長さ（時間）を表す。返事時間比は、通話などによる対話が行われた通話時間と、上述した総返事区間長（時間）との比を表す。

なお、図２２に示す返事モデル記憶部１０１のデータは、第５の実施形態と同様に、不特定多数の話者による日常時の対話データの中から、返事の時間長に関する情報を抽出して作成する。例えば、日常時の対話データから抽出した返事の時間長に関する情報を用いて、返事区間長、返事の間隔長、総返事区間長および返事時間比、４つの各要素のデータを算出する。続いて、４つの各要素のデータが正規分布をなすと仮定して、各要素の平均μおよび標準偏差σを算出することにより、図２２に示す返事モデル記憶部１０１のデータを作成する。

状態判定部１１２は、ある通話における総返事区間長Ｈを算出した場合に、返事モデル記憶部１０１の各要素が、総返事区間長Ｈに対して、総返事区間長Ｈ＞平均μ＋標準偏差σの関係にある場合には、ユーザが非日常状態であると判定する。

また、状態判定部１１２は、上述の判定結果に応じて、返事モデル記憶部１０１のデータを更新する。例えば、状態判定部１１２は、ユーザが日常状態にあると判定した場合には、通話ごとに、返事区間長、返事の間隔長、総返事区間長および通話時間などの情報を、統計データとして保存しておく。続いて、状態判定部１１２は、１００通話分の統計データが集まるたびに、１００通話分の統計データから正規分布を算出する（平均と分散を出すことは正規分布を推定したことに相当する）。そして、状態判定部１１２は、１００通話分の統計データによる正規分布と、それまでの返事モデル記憶部１０１に記憶されているデータによる正規分布とを、９：１の比をとって重み付け加算することにより、返事モデル記憶部１０１のデータを更新する。例えば、状態判定部１１２は、図２３に示すようにして、返事モデル記憶部１０１に記憶されているデータを更新する。図２３は、第６の実施形態における返事モデル記憶部に記憶されているデータの更新例を示す図である。

総合判定部２００は、上述の第１〜第４の実施形態に対応する音異常判定部１０により算出される通話の異常度合い（非日常度合い）Ｒを取得する。例えば、通話の異常度合いＲとして、音異常判定部１０により所定のパラメータを用いて算出された、発話状態検出装置１のユーザの入力音声の統計量を用いる。そして、総合判定部２００は、は、通話の異常度合いＲを、Ｔｈ＝（Ｈ−μ）／σを用いて、以下の式（１）により、総合異常度Ｒ_ｔを算出することができる。
総合異常度Ｒ_ｔ＝通話の異常度合いＲ＊（１＋Ｔｈ＊０．１）,（０＜Ｔｈ）
あるいは、＝通話の異常度合いＲ＊１．０ ,（０≧Ｔｈ）…（１）

また、総合判定部２００は、Ｔｈ＝（Ｈ−μ）／σに対して、更新前の返事モデル記憶部１０１の平均μと標準偏差σの初期値を加味したＴｈ２を算出し、以下の式（２）により、総合異常度Ｒ_ｔを算出するようにしてもよい。
総合異常度Ｒ_ｔ＝通話の異常度合いＲ＊（１＋Ｔｈ２＊０．１）,（０＜Ｔｈ）
あるいは、＝通話の異常度合いＲ＊１．０ ,（０≧Ｔｈ）…（２）
なお、平均μと標準偏差σの初期値が、それぞれμ´、σ´であるとき、Ｔｈ２＝（Ｈ−μ´＊２）／σ´とする。

［６−２．まとめ（第６の実施形態による効果）］
上述してきたとおり、第６の実施形態によれば、返事区間において利用された単語だけでなく、返事区間長、返事の間隔長、総返事区間長および返事時間比などのパラメータに基づいて、ユーザの状態を判定できる。また、第６の実施形態によれば、返事区間において利用された単語の認識処理を実行する必要がないので、第５の実施形態よりも処理の負荷を抑えつつ、ユーザの状態を判定できる。

［７．第７の実施形態］
例えば、いわゆる「振り込め詐欺」などの詐欺にユーザを誘引しようとする対話が行われている場合、ユーザは抑圧された心理状態に陥りやすい。そこで、上述の実施形態を用いて、ユーザが、抑圧された心理状態である非日常状態にあると判定できた場合には、ユーザを詐欺に誘引しようとする通話を検出できる。しかしながら、詐欺に誘引しようとする通話以外でも、話者が抑圧された心理状態となることはあり得るので、上述の実施形態では、詐欺に誘引しようとする通話以外も詐欺行為に関わる通話として検出してしまう恐れがある。そこで、以下の実施形態７では、詐欺に誘引しようとする通話を精度良く検出する処理を説明する。

［７−１．機能ブロック］
図２４は、第７の実施形態による発話状態検出装置１の機能ブロックの一例を示す図である。第７の実施形態に係る発話状態検出装置１は、状態検出部１００に、電話帳記憶部１０２、時間帯別危険度記憶部１０３、危険度算出部１１３を有する点が上述の実施形態とは相違する。なお、図２４では、状態検出部１００に、上述の実施形態で説明した返事モデル記憶部１０１と、区間検出部１１１と、状態判定部１１２とを有する構成でもよい。

電話帳記憶部１０２は、第７の実施形態による発話状態検出装置１のユーザが、通話発信時に利用する他のユーザの氏名と他のユーザの電話番号とを対応付けた電話帳データを記憶する。図２５は、第７の実施形態における電話帳記憶部に記憶されるデータの一例を示す図である。図２５に示すように、電話帳記憶部１０２は、他のユーザの氏名と、氏名の読みと、電話番号と、登録日を対応付けて記憶する。例えば、電話帳記憶部１０２は、図２５に示すように、氏名「特許太郎」と、読み「とっきょたろう」と、電話番号「０４４−ｄｅｆ−ｇｈｉｊ」と、登録日「2000.01.15」とを対応付けて記憶している。電話帳記憶部１０２に記憶されているデータは、後述する通話相手による危険度算出処理の実行時に参照される。なお、図２５に示す電話帳記憶部１０２のデータの構成は一例であり、この構成に限定されるものではない。

時間帯別危険度記憶部１０３は、例えば、平日と休日とに分けて、通話を行う時間帯ごとに、詐欺に誘引しようとする通話が行われる危険度を示す情報を記憶する。図２６および図２７は、第７の実施形態における時間帯別危険度記憶部に記憶されるデータの一例を示す図である。図２６に示すように、時間帯別危険度記憶部１０３は、休日について、時間帯ごとに、詐欺に誘引しようとする通話が行われる危険度を記憶する。例えば、図２６に示すように、時間帯別危険度記憶部１０３は、時間帯「７時〜１７時」について危険度「１０％」を記憶する。また、時間帯別危険度記憶部１０３は、平日について、時間帯ごとに、詐欺に誘引しようとする通話が行われる危険度を記憶する。例えば、図２７に示すように、時間帯別危険度記憶部１０３は、時間帯「１０時〜１５時」について危険度「１００％」を記憶する。

図２６に示すように、休日の危険度は時間帯に関係なく、総じて危険度は低い。一方、図２７に示すように、平日の危険度は、時間帯「１０時〜１５時」が最も危険度が高い。つまり、詐欺行為などに巻き込まれた場合、金融機関を利用する可能性が高いので、金融機関を利用可能な平日の時間帯「１０時〜１５時」の危険度が最も高くなっている。時間帯別危険度記憶部１０３に記憶されているデータは、後述する通話日時による危険度算出処理の実行時に参照される。なお、図２６や図２７に示す時間帯別危険度記憶部１０３のデータの構成は一例であり、この構成に限定されるものではない。

危険度算出部１１３は、電話帳記憶部１０２のデータや時間帯別危険度記憶部１０３のデータを参照して、現在実行中の通話が、詐欺に誘引しようとする通話である危険度を算出する。なお、危険度算出部１１３による処理は、以下、図３０〜図３２を用いて後述する。

総合判定部２００は、音異常判定部１０により算出された異常度合いＲ、および危険度算出部１１３により算出された危険度を用いて、ユーザが詐欺行為などに巻き込まれている可能性について総合的な判定を行う。なお、異常度合いＲとして、上述した第１の実施形態のように、音異常判定部１０により所定のパラメータを用いて算出された、発話状態検出装置１のユーザの入力音声の統計量を用いる。なお、総合判定部２００による処理は、以下、図２９を用いて後述する。また、総合判定部２００は、状態検出部１００が、上述の第５の実施形態で説明した状態判定部１１２を有する場合には、状態判定部１１２による判定結果をさらに加味して、ユーザが詐欺行為などに巻き込まれている可能性について総合的な判定を行う。

［７−２．ハードウェア構成］
図２８は、第７の実施形態による発話状態検出装置１を、コンピュータを用いて実現したハードウェア構成の例を示す図である。第７の実施形態による発話状態検出装置１のハードウェア構成は、上述した実施形態と基本的に同様の構成を有するが、以下に説明する点が上述の実施形態とは異なる。なお、上述した実施形態と同様に、ＣＰＵ２２に代えて、他のプロセッサ（例えば、ＭＰＵ（Micro Processing Unit）等。）やＩＣ（例えば、ＡＳＩＣ（Application Specific Integrated Circuit）等。）を有する装置を用いてもよい。また、第７の実施形態による発話状態検出装置１は、少なくとも、通話が可能な電話機能を有する電子機器を用いて構成され、例えば、携帯電話またはスマートフォン、ＰＨＳ（Personal Handy-phone System）のような電子機器を用いて実装できる。

発話状態検出装置１は、ディスプレイ２１、ＣＰＵ２２、メモリ２３、ハードディスク２４、マイク２５および、キーボード／マウス２６を少なくとも有する点は、上述の実施形態と同様であるが、次に説明する点が異なる。すなわち、ハードディスク２４に、危険度算出プログラム２４ｆが新たに記録される。また、メモリ２３に、ＣＰＵ２２が危険度算出プログラム２４ｆ等に基づく処理を実行する際に、電話帳データ２３ｅおよび危険度データ２３ｆが一時的に記憶される。また、図２８では、メモリ２３に、区間検出データ２３ｃ、返事モデルデータ２３ｄが記憶される例を示しているが、図２９〜図３４を用いて以下に説明する発話状態検出装置１の処理においては必須ではない。一方で、メモリ２３に記憶される区間検出データ２３ｃは、図３５や図３６を用いて以下に説明する処理では利用され得る。つまり、図２８に示す発話状態検出装置１のハードウェア構成は、上述した第５の実施形態によるユーザの状態の判定結果と、図２９〜図３７を用いて以下に説明する判定結果とを総合的に勘案して、ユーザの状態について判定する場合の構成に対応する。

図２４に示した発話状態検出装置１の状態検出部１００が有する危険度算出部１１３の処理機能は、ＣＰＵ２２上において危険度算出プログラム２４ｆを実行することによって実現される。

以下、第７の実施形態に係る発話状態検出装置１による処理全体の流れを説明した後に、上述の危険度算出プログラム２４ｆに基づく処理内容について説明する。上述の危険度算出プログラム２４ｆは、通話相手による危険度算出処理および通話日時による危険度算出処理をＣＰＵ２２に実行させることができる。

［７−３．処理全体の流れ］
図２９は、第７の実施形態に係る発話状態検出装置による処理全体の流れを示す図である。なお、第７の実施形態に係る発話状態検出装置による処理は、通話開始から通話終了まで実行される。

図２９に示すように、発話状態検出装置１の音異常判定部１０は、上述の第１〜第４の実施形態に対応する音声異常判定処理を通話の終了まで実行し、異常度合いＲを算出する（Ｏｐ１２０１）。続いて、状態検出部１００の危険度算出部１１３は、通話相手による危険度算出処理を実行して危険度Ｋ_ｄを算出する（Ｏｐ１２０２）。続いて、状態検出部１００の危険度算出部１１３は、通話時間による危険度算出処理を実行して危険度Ｋ_ｔを算出する（Ｏｐ１２０３）。総合判定部２００は、音異常判定部１０により算出された異常度合いＲと、危険度算出部１１３により算出された危険度Ｋ_ｄおよび危険度Ｋ_ｔとを用いて、総合異常度Ｒ_ｔを算出する（Ｏｐ１２０４）。例えば、総合判定部２００は、異常度合いＲと、危険度Ｋ_ｄおよび危険度Ｋ_ｔとを乗算して総合異常度Ｒ_ｔを算出する。そして、総合判定部２００は、総合異常度Ｒ_ｔと所定の閾値（Ｔ_ｈ）とを比較し、総合異常度Ｒ_ｔが所定の閾値を上回る場合には、ユーザが詐欺行為などに巻き込まれている可能性が高いものとして、警告メッセージをユーザに提示する（Ｏｐ１２０５）。例えば、総合判定部２００は、スピーカなどを介して、通話終了時や通話中など、任意のタイミングで警告メッセージを出力し、ユーザに警告する。あるいは、総合判定部２００は、スピーカなどを介して、アラームを出力したり、予めユーザが登録した登録先に警告を通知したりしてもよい。

［７−４．通話相手による危険度算出処理］
次に、危険度算出プログラム２４ｆに基づく通話相手による危険度算出処理の流れを説明する。図３０は、危険度算出プログラム２４ｆにより実行される通話相手による危険度算出処理のオペレーションチャートの一例を示す図である。

危険度算出プログラム２４ｆを実行するＣＰＵ２２は、図３０に示すように、例えば、通話の開始を検出すると、通話相手（発信元）の電話番号を取得する（Ｏｐ１３０１）。続いて、ＣＰＵ２２は、取得した電話番号が不明ではない場合（通知である場合）には（Ｏｐ１３０２、Ｎｏ）、カレンダー情報などを参照して通話日を取得するとともに（Ｏｐ１３０３）、電話帳記憶部１０２のデータを参照する（Ｏｐ１３０４）。続いて、危険度算出部１１３は、電話帳記憶部１０２に電話番号が登録済みである場合には（Ｏｐ１３０５、Ｙｅｓ）、該当の電話番号の登録日から、この通話が行われるまでの日数ｄを算出する（Ｏｐ１３０６）。

続いて、ＣＰＵ２２は、電話番号の登録日からの日数ｄを用いて、通話相手による危険度Ｋ_ｄを算出する（Ｏｐ１３０７）。以下、図３１を用いて、通話相手による危険度Ｋ_ｄの算出について説明する。図３１は、危険度算出テーブルの一例を示す図である。例えば、ＣＰＵ２２は、図３１に示す危険度算出テーブルを参照する。図３１に示すように、この危険度算出テーブルには、登録後日数ｄと危険度とが対応付けられており、登録からの日数が浅いほど、高い危険度が対応付けられている。例えば、図３１に示す危険度算出テーブルでは、登録後の日数「ｄ＝１日〜３日」と危険度「１００％」とが対応付けられている。つまり、予め電話番号を登録させて間もなく詐欺行為を行う手口に対応したものである。なお、図３１に示す危険度算出テーブルは、予め作成し、メモリ２３などに格納しておくものとする。そして、ＣＰＵ２２は、Ｏｐ１３０７にて算出した日数ｄに対応する危険度を、図３１に示すテーブルから取得し、通話相手による危険度Ｋ_ｄを算出する。そして、ＣＰＵ２２は、危険度Ｋ_ｄを出力し（Ｏｐ１３０８）、処理を終了する。

なお、ＣＰＵ２２は、上述したＯｐ１３０５において、電話帳記憶部１０２に、通話相手（発信元）の電話番号が登録済みではない場合には（Ｏｐ１３０５、Ｎｏ）、危険度Ｋ_ｄを１００％と算出する（Ｏｐ１３０９）。そして、ＣＰＵ２２は、上述したＯｐ１３０８に移行し、危険度Ｋ_ｄを出力して処理を終了する。

なお、ＣＰＵ２２は、上述したＯｐ１３０２において、電話番号が不明である場合（非通知である場合）には（Ｏｐ１３０２、Ｙｅｓ）、上述したＯｐ１３０９に移行して、危険度Ｋｂを１００％とし、危険度Ｋｂを出力して処理を終了する。

［７−５．通話時間による危険度算出処理］
次に、危険度算出プログラム２４ｆに基づく通話時間による危険度算出処理の流れを説明する。図３２は、危険度算出プログラム２４ｆにより実行される通話時間による危険度算出処理のオペレーションチャートの一例を示す図である。

危険度算出プログラム２４ｆを実行するＣＰＵ２２は、図３２に示すように、例えば、通話の終了を検出すると、通話終了時刻を取得し（Ｏｐ１４０１）、通話日を取得する（Ｏｐ１４０２）。続いて、ＣＰＵ２２は、カレンダー情報などを参照し（Ｏｐ１４０３）、通話日が平日であるか否かを判定する（Ｏｐ１４０４）。

ＣＰＵ２２は、通話日が平日である場合には（Ｏｐ１４０４、Ｙｅｓ）、時間帯別危険度記憶部１０３から平日対応のデータを読み込む（Ｏｐ１４０５）。続いて、ＣＰＵ２２は、Ｏｐ１４０５にて読み込んだ平日対応のデータから、通話終了時刻に応じた危険度を読み込む（Ｏｐ１４０６）。そして、ＣＰＵ２２は、Ｏｐ１４０６にて読み込んだ危険度を通話時間による危険度Ｋ_ｔとして出力し（Ｏｐ１４０７）、処理を終了する。

なお、ＣＰＵ２２は、上述したＯｐ１４０４において、通話日が平日ではない、つまり休日である場合には（Ｏｐ１４０４、Ｎｏ）、時間帯別危険度記憶部１０３から休日対応のデータを読み込む（Ｏｐ１４０８）。そして、ＣＰＵ２２は、上述したＯｐ１４０６およびＯｐ１４０７と同様の処理を実行して、処理を終了する。すなわち、ＣＰＵ２２は、Ｏｐ１４０８にて読み込んだ休日対応のデータから、通話終了時刻に応じた危険度を読み込み、読み込んだ危険度を通話時間による危険度Ｋ_ｔとして出力して処理を終了する。

なお、図３２では、ＣＰＵ２２が、Ｏｐ１４０１にて通話終了時刻を取得するものとしたが、これに限られるものではなく、通話開始時刻を取得してもよいし、通話開始時刻と通話終了時刻との中央の時刻を取得してもよい。

［７−６．情報アップロード処理と情報配信処理］
ところで、上述した警告の通知を行った場合に、発話状態検出装置１、時間帯別危険度記憶部１０３に記憶されているデータなどを一括管理するサーバにアップロードし、サーバから再び配信するようにしてもよい。以下では、発話状態検出装置１からサーバへの情報アップロード処理、サーバの情報配信処理について説明する。

（情報アップロード処理）
図３３は、情報アップロード処理のオペレーションチャートの一例を示す図である。図３３に示すように、例えば、ＣＰＵ２２は、通話終了時、異常通知を行ったか、つまり詐欺行為などに巻き込まれている可能性がある旨の警告を行ったかどうかを判定する（Ｏｐ１５０１）。ＣＰＵ２２は、異常通知を行った場合には（Ｏｐ１５０１、Ｙｅｓ）、通話終了後、該当通話の通話情報をユーザに確認する（Ｏｐ１５０２）。つまり、ＣＰＵ２２は、警告の通知が正しかったか否かをユーザに選択させるための通話情報を出力し、警告の通知が正しかったか否かの選択結果を受け付ける。そして、ＣＰＵ２２は、ユーザにより選択結果が反映された通話情報と、警告の通知を行った通話に関連する情報（電話帳登録からの経過日数、通話日、時刻、曜日などの情報）とをサーバに送信して（Ｏｐ１５０３）、処理を終了する。

なお、ＣＰＵ２２は、上述したＯｐ１５０１において、異常通知を行っていない場合には（Ｏｐ１５０１、Ｎｏ）、該当通話の通話情報を、検出すべきではない（警告の通知をおこなうべきではない）通常の通話とする（Ｏｐ１５０４）。そして、ＣＰＵ２２は、上述したＯｐ１５０３に移行して、サーバに情報を送信して処理を終了する。

（情報配信処理）
図３４は、情報配信処理のオペレーションチャートの一例を示す図である。なお、図３４に示す情報配信処理は、サーバの起動中、繰り返し実行される。図３４に示すように、例えば、サーバは、各端末（発話状態検出装置１）からアップロードされた情報データ（図３３の通話情報や警告の通知を行った通話に関連するする情報）を日付別にメモリなどに保存する（Ｏｐ１６０１）。そして、サーバに搭載されたＣＰＵなどの制御部は、次の処理を行う。すなわち、制御部は、毎日０時に、保存している過去１年分のデータで、上述した図２６および図２７に示す時間帯別危険度記憶部１０３のデータ、および図３１に示す危険度算出テーブルのデータを再作成し、各端末に配信する（Ｏｐ１６０２）。

［７−７．通話時間長と発話時間長との比を用いた検出］
ところで、第７の実施形態に係る発話状態検出装置１において、通話時間長とユーザの発話時間長（発話区間長の合計時間）の比を利用して、詐欺に誘引しようとする通話を精度良く検出するようにしてもよい。

図３５は、通話時間長と発話時間長との比を用いた検出を行う発話状態検出装置１の機能ブロックの一例を示す図である。発話状態検出装置１は、区間検出部１１１と、通話時間長算出部１１４および通話時間比算出部１１５を有する。なお、区間検出部１１１は、上述した第５の実施形態の区間検出部１１１に対応し、発話区間の検出を行う。また、図３５には明示していないが、第７の実施形態による発話状態検出装置１は、上述した第５の実施形態の状態判定部１１２による処理をあわせて実行してもよい。

区間検出部１１１は、上述した第５の実施形態の方法で発話区間を検出する。例えば、通話音声データ（発話データ）の入力パワーＰが、推定背景雑音パワーＰ_ｎよりも所定の閾値α以上の大きさとなる区間Ｉ_１を発話区間として検出する（図１５）。

通話時間長算出部１１４は、入力された通話音声データ長の総和から、通話時間長を算出する。

通話時間比算出部１１５は、発話時間比Ｒ_ｂを、通話時間長算出部１１４の算出した通話時間長Ｔ_ａと、区間検出部１１１の検出した発話区間の合計時間である発話時間長Ｔ_ｂとの比を用いて算出する（Ｒ_ｂ＝Ｔ_ｂ／Ｔ_ａ）。

総合判定部２００は、音異常判定部１０により算出された異常度合いＲと、通話時間比算出部１１５により算出された発話時間比Ｒ_ｂとを用いて、総合異常度Ｒ_ｔを算出し、詐欺に誘引しようとする通話を行っている可能性を判定する。例えば、総合判定部２００は、以下の式（３）により、総合異常度Ｒ_ｔを算出する。なお、通話の異常度合いＲとして、音異常判定部１０により所定のパラメータを用いて算出された、発話状態検出装置１のユーザの入力音声の統計量などを用いればよい。

総合異常度Ｒ_ｔ＝通話の異常度合いＲ＊０．１（０．８＜Ｒ_ｂ）
＝通話の異常度合いＲ＊０．２（０．７＜Ｒ_ｂ≦０．８）
＝通話の異常度合いＲ＊０．４（０．５＜Ｒ_ｂ≦０．７）
＝通話の異常度合いＲ＊１．０（０．３＜Ｒ_ｂ≦０．５）
＝通話の異常度合いＲ＊１．２（Ｒ_ｂ≦０．３） …（３）

つまり、総合判定部２００は、上述の式（３）に示すように、通話時間比算出部１１５により算出された発話時間比Ｒ_ｂが大きい場合には、ユーザが対話の主導権をとっており、詐欺に誘引しようとする通話が行われている可能性が低いものと判定する。一方、通話時間比算出部１１５により算出された発話時間比Ｒ_ｂが小さい場合には、通話相手が主導権を握っており、詐欺に誘引しようとする通話が行われている可能性が高いと判定する。

なお、上述の通話時間長は、発話状態検出装置１の持つ時計情報と連動して、通話開始時間と終了時間の差分から算出することもできる。また、通話相手の発話区間の検出を行った場合には、上述の発話時間比として、ユーザの発話時間長と、通話相手の発話時間長の比を用いることもできる。

［７−８．通話時間長と返事時間長との比を用いた検出］
ところで、第７の実施形態に係る発話状態検出装置１において、通話時間長とユーザの返事時間長（返事区間の合計時間）の比を利用して、詐欺に誘引しようとする通話を精度良く検出するようにしてもよい。

図３６は、通話時間長と返事時間長との比を用いた検出を行う発話状態検出装置１の機能ブロックの一例を示す図である。発話状態検出装置１は、区間検出部１１１と、通話時間長算出部１１４および返事時間比算出部１１６を有する。なお、区間検出部１１１は、上述した第５の実施形態の区間検出部１１１に対応し、発話区間および返事区間の検出を行う。また、図３６に示す発話状態検出装置１の処理において、例えば、図２８に示すメモリ２３に記憶される区間検出データ２３ｃおよび返事モデルデータ２３ｄは必須ではなく、発話状態の検出のみでも利用可能である。また、図３６には明示していないが、第７の実施形態による発話状態検出装置１は、上述した第５の実施形態の状態判定部１１２による処理をあわせて実行してもよい。

区間検出部１１１は、上述した第５の実施形態の方法で、返事区間を検出する。例えば、区間検出部１１１は、通話音声データ（発話データ）から発話区間を検出し、返事と推測される短時間の発話区間のみが連続する区間を返事区間Ｉ_２として検出する（図１６）。

通話時間長算出部１１４は、図３５に示す場合と同様に、入力された通話音声データ長の総和から、通話時間長を算出する。

返事時間比算出部１１６は、返事時間比Ｒ_ｃを、通話時間長算出部１１４の算出した通話時間長Ｔ_ａと、区間検出部１１１の検出した返事区間の合計時間である返事時間長Ｔ_ｃとの比を用いて算出する（Ｒ_Ｃ＝Ｔ_ｃ／Ｔ_ａ）。

総合判定部２００は、音異常判定部１０により算出された異常度合いＲと、通話時間比算出部１１５により算出された発話時間比Ｒ_ｂとを用いて、総合異常度Ｒ_ｔを算出し、詐欺に誘引しようとする通話を行っている可能性を判定する。例えば、総合判定部２００は、以下の式（４）により、総合異常度Ｒ_ｔを算出する。なお、通話の異常度合いＲとして、音異常判定部１０により所定のパラメータを用いて算出された、発話状態検出装置１のユーザの入力音声の統計量などを用いればよい。

総合異常度Ｒ_ｔ＝通話の異常度合いＲ＊１．２（０．７＜Ｒ_ｃ）
＝通話の異常度合いＲ＊１．１（０．５＜Ｒ_ｃ≦０．７）
＝通話の異常度合いＲ＊１．０（Ｒ_ｃ≦０．５） …（４）

つまり、総合判定部２００は、上述の式（４）に示すように、通話時間比算出部１１５により算出された返事時間比Ｒ_Ｃが大きい場合には、通話相手が主導権を握っており、詐欺に誘引しようとする通話が行われている可能性が高いと判定する。一方、通話時間比算出部１１５により算出された返事時間比Ｒ_ｃが小さい場合には、ユーザが対話の主導権をとっており、詐欺に誘引しようとする通話が行われている可能性が低いものと判定する。

なお、返事が多い場合に、通話相手が対話の主導権を握っているものと推定する別の方法として、例えば、ユーザの発話時間長と返事時間長の比を返事時間比として用いることもできる。また、返事時間比の代わりに返事回数比を用いることもでき、この場合、通話時間長あるいはユーザの発話時間長と、検出した返事回数との比を算出する。

［７−９．話速を用いた検出］
ところで、第７の実施形態に係る発話状態検出装置１において、時間情報として、ユーザの話速を利用して、詐欺に誘引しようとする通話を精度良く検出するようにしてもよい。

図３７は、話速を用いた検出を行う発話状態検出装置１の機能ブロックの一例を示す図である。発話状態検出装置１は、区間検出部１１１と、音素認識部１１７および話速算出部１１８を有する。なお、区間検出部１１１は、上述した第５の実施形態の区間検出部１１１に対応し、発話区間の検出を行う。

音素認識部１１７は、区間検出部１１１により検出された発話区間の音声データを入力として、連続音節認識を行い、入力音声内容に対応する音節列（モーラ）を出力する。

話速算出部１１８は、話速Ｒ_ｐを、区間検出部１１１により検出された発話区間の区間長の和Ｔと、音素認識部１１７により出力された音節列の総数Ｎ_ｐとの比を用いて算出する（Ｒ_ｐ＝Ｎ_ｐ／Ｔ）。

総合判定部２００は、音異常判定部１０により算出された異常度合いＲと、話速算出部１１８により算出された話速Ｒ_ｐとを用いて、総合異常度Ｒ_ｔを算出し、ユーザを詐欺に誘引しようとする通話が行われている可能性を判定する。例えば、総合判定部２００は、以下の式（５）により、総合異常度Ｒ_ｔを算出する。なお、通話の異常度合いＲとして、音異常判定部１０により所定のパラメータを用いて算出された、発話状態検出装置１のユーザの入力音声の統計量などを用いればよい。

総合異常度Ｒ_ｔ＝通話の異常度合いＲ＊０．８（５．５＜Ｒ_ｐ）
＝通話の異常度合いＲ＊１．０（４．５＜Ｒ_ｐ≦５．５）
＝通話の異常度合いＲ＊１．２（Ｒ_ｐ≦４．５） …（５）

なお、話速として、音節基準ではなく、音素基準や、単語基準の指標を用いることもできる。

［７−１０．まとめ（第７の実施形態による効果）］
上述してきたとおり、第７の実施形態に係る発話状態検出装置１は、非日常状態にあるか否かを判定する以外に、通話相手、通話の時間や曜日、対話中の返事の割合、対話における発話の速度などを総合的に加味して、詐欺に誘引しようとする通話を検出する。このようなことから、第７の実施形態によれば、誤検出を防止できる。

また、図３５に示す通話時間比を用いる場合、図３６に示す返事時間比を用いる場合でも、図３３および図３４を用いて説明した通話情報に、これらの通話時間比や返事時間比情報も含めることもできる。この場合、総合判定部２００で、通話時間比や返事時間比を加味する際の重みを、通話情報をアップロードするサーバ側で更新するようにする。このようにすれば、詐欺に誘引しようとする通話の検出精度を改善していくことが期待できる。

［８．第８の実施形態］
いわゆる「振り込め詐欺」や「オレオレ詐欺」、還付金詐欺などの詐欺行為は、詐欺の加害者が不正取得した地域別の電話帳や学校名簿などを利用することが多いため、特定の地域に集中して発生することが知られている。そこで、詐欺が集中する地域では、詐欺を検出する装置の検出感度を高くして詐欺の検出を行っていた。しかしながら、加害者が、この検出装置を入手すれば、検出装置の検出感度が高い地域を推定することが出来てしまう。これにより、加害者は、検出装置を幾つかの地域で試用して、感度の低い地域を探し出し、ターゲットにするといった悪用が可能となってしまう。そこで、第８の実施形態では、以下、図３８〜図４２を用いて、詐欺行為の加害者に検出装置の検出感度を悟られないようすることが可能な装置について説明する。
［８−１．機能ブロック］
図３８は、第８の実施形態による移動体端末の機能ブロックの一例を示す図である。移動体端末２は、ネットワーク４を介して、他の移動体端末２やサーバ３と通信可能な状態で接続される。そして、移動体端末２は、図３８に示すように、犯罪発生履歴記憶部３０１と、位置情報記憶部３０２と、住所履歴記憶部３０３とを有する。また、移動体端末２は、図３８に示すように、犯罪情報取得部３１０と、犯罪危険度算出部３２０と、住所取得部３３０と、危険度判定部３４０と、犯罪検出制御部３５０と、発話状態検出部３６０と、犯罪検出部３７０とを有する。なお、移動体端末２は、携帯電話またはスマートフォンのような携帯可能な電子機器等を用いて実装することができる。

犯罪発生履歴記憶部３０１には、犯罪発生情報と、後述する犯罪危険度算出部３２０による算出結果とを対応付けて記億しておく。なお、犯罪発生履歴記憶部３０１は、ユーザの自宅住所情報を用いて、記憶する対象を同一または近隣地域での発生した情報に限定してもよい。

位置情報記憶部３０２には、位置情報に対応する地域情報を記憶しておく。例えば、地域情報としては市区町村名や、地図データを適当な広さになるように分割したものでもよい。

住所履歴記憶部３０３には、所定の頻度で後述する住所情報取得部３３０にて取得された自宅情報と、自宅情報が取得された取得日時と対応付けて記憶しておく。なお、住所履歴記憶部３０３に記憶されるデータ（住所履歴）は、後述する住所情報取得部３３０により取得される情報のうち頻繁に登場するものを自宅の位置として推定する際に利用するものであり、正しい自宅の位置を表す情報ではない。図３９は、住所履歴記憶部に記憶されるデータの一例を示す図である。図３９に示すように、住所履歴記憶部３０３には、住所情報取得部３３０にて取得された自宅情報（推定自宅住所）が、住所情報取得部３３０による取得日時（推定日）と対応付けて記憶されている。

犯罪情報取得部３１０は、犯罪発生情報を取得する。例えば、犯罪情報取得部３１０は、いわゆる「振り込め詐欺」や「オレオレ詐欺」、還付金詐欺などの犯罪の被害の発声時刻と発生位置とを犯罪発生情報として取得する。図４０は、犯罪情報取得部による犯罪情報の取得方法の一例を示す図である。犯罪情報取得部３１０は、例えば、図４０に示すように、犯罪情報取得部３１０は、ネットワークなどを介して、サーバ３から犯罪情報を受信する。なお、サーバ３は、ネットワークなどを介して、移動体端末２（犯罪検出部３７０）から送信された犯罪情報を受信して取得したり、あるいはｗｅｂ上の事件発生ニュースや警察等の犯罪情報提供媒体から犯罪情報を取り込んで取得したりする。なお、サーバ３は、ユーザごとに住所履歴情報をサーバ３側に蓄えておき、特定の期間在住しているユーザからの情報のみを受信して取得するといった制限を設けてもよい。また、サーバ３側から犯罪発生情報を定期的に移動体端末２に配信するようにして、犯罪情報取得部３１０は配信された犯罪情報を取得するようにしてもよい。

犯罪危険度算出部３２０は、犯罪情報取得部３１０により取得された犯罪発生情報、犯罪発生履歴記憶部３０１に記憶されている犯罪発生履歴、または住所履歴記憶部３０３に記憶され地得る自宅情報に基づいて危険度を算出する。例えば、犯罪危険度算出部３２０は、犯罪発生情報の犯罪発生地域と自宅情報との位置関係に基づいて、０〜５までの６段階のレベルの中からいずれかのレベルの危険度を決定する。なお、危険度として設定されるレベル０〜５は一例であり、危険度の尺度は適宜変更できる。

例えば、犯罪危険度算出部３２０は、振り込め詐欺が発生した町と自宅住所（推定自宅住所）が同一の町であれば、危険度を３とする。また、犯罪危険度算出部３２０は、例えば、振り込め詐欺が発生した町が自宅住所（推定自宅住所）の町に隣接しているのであれば、危険度を２とする。また、犯罪危険度算出部３２０は、例えば、振り込め詐欺が発生した町に自宅住所（推定自宅住所）の町から行くために少なくとも１つ町を通過する必要があれば、危険度を１とする。また、犯罪危険度算出部３２０は、犯罪発生地域と自宅情報との位置関係を、町同士の重心距離に基づいて算出した距離などを用いて評価してもよい。

さらに、犯罪危険度算出部３２０は、上述したようにして、危険度０〜５のいずれかに決定した危険度を、犯罪の発生時間や発生頻度に応じて修正してもよい。例えば、犯罪危険度算出部３２０は、発生時間が１週間以上前であれば危険度を１下げる。また、犯罪危険度算出部３２０は、３日以内に同一町内で犯罪発生回数が５回以上した町が自宅に隣接している場合には危険度を１上げる。また、犯罪危険度算出部３２０は、ユーザ自身の端末で犯罪通話の検出があった時、危険度を１上げる。また、犯罪危険度算出部３２０は、自宅と推定される自宅住所の候補が複数ある場合には、住所が複数ある場合は危険度を低く設定してもよい。

住所取得部３３０は、所定の頻度で、ＧＰＳ（Global Positioning System）などの位置情報取得装置で移動体端末２の位置と、位置情報記憶部３０２に記憶されている地域情報とを照らし合わせて自宅情報を取得する。なお、住所取得部３３０は、自宅と推定される情報を取得できれば、どのような既存の方法を利用してもよい。住所取得部３３０は、自宅情報を取得すると、取得日時と対応付けて住所履歴記憶部３０３に格納する。

危険度判定部３４０は、自宅と推定される地域が犯罪に巻き込まれる可能性が高いか否かを判定し、判定結果に応じて犯罪の検出閾値を調整するか否かを決定する。例えば、危険度判定部３４０は、危険度判定のタイミングになると、住所履歴記憶部３０３に記憶されているデータ（住所履歴）を参照する。続いて、危険度判定部３４０は、３ケ月以上前からの自宅情報（推定自宅住所）があり、かつ現在までの自宅情報（推定自宅住所）のうち最近の日時の自宅情報（推定自宅住所）が自宅情報に含まれている割合が９割以上あるか否かを判定する。判定の結果、９割以上ある場合には、危険度判定部３４０は、検出閾値の調整を実行する旨の決定を行う。一方、９割以上ある場合には、危険度判定部３４０は、検出閾値の調整を実行しない旨の決定を行う。つまり、自宅である可能性が高い地域が推認された場合には、ユーザの行動範囲が自宅周辺に集中する可能性が高いので、危険度判定部３４０は、犯罪検出制御部３５０により検出閾値の調整を実行させるようにする。

上述してきたように、危険度判定部３４０は、住所履歴記憶部３０３に記憶されているデータ（住所履歴）から、同じ地域に長く居住していることを検出した場合には、その地域に応じて検出閾値を調整することを決定する。詐欺の加害者は潜伏拠点を転々とする傾向がある。このため、加害者の移動体端末２では検出閾値の調整が行われない。したがって、詐欺の加害者がこの移動体端末２を入手して、検出閾値（犯罪検出の感度）が低い地域を推定しようとしても、推定することができない。

犯罪検出制御部３５０は、危険度判定部３４０の決定に基づいて、犯罪危険度算出部３２０により算出された危険度の値が大きいほど、犯罪が検出されやすくなるように検出閾値（犯罪検出の感度）を調整する。

発話状態検出部３６０は、上述の実施形態で説明した発話状態検出装置１に対応し、発話状態検出装置１より実行される各種処理を実行する。例えば、発話状態検出部３６０は、通話中のユーザの状態に関する情報（日常状態、あるいは非日常状態）を犯罪検出部３７０に出力する。

犯罪検出部３７０は、犯罪検出制御部３５０により調整された検出閾値、および発話状態検出部３６０から取得するユーザの状態に関する情報に基づいて犯罪を検出する。

以下、第８の実施形態に係る移動体端末２による処理内容について説明する。

［８−２．危険度判定部による処理］
図４１は、危険度判定部による処理のオペレーションチャートの一例を示す図である。図４１に示すように、危険度判定部３４０は、危険度判定のタイミングになるか否かを判定する（Ｏｐ１７０１）。危険度判定部３４０は、危険度判定のタイミングではない場合には（Ｏｐ１７０１、Ｎｏ）、危険度判定のタイミングになるまでＯｐ１７０１の判定を繰り返す。

危険度判定部３４０は、危険度判定のタイミングになると（Ｏｐ１７０１、Ｙｅｓ）、住所履歴記憶部３０３に記憶されているデータ（住所履歴）を参照する（Ｏｐ１７０２）。続いて、危険度判定部３４０は、３ケ月以上前の日付の自宅情報（推定自宅住所）があるか否かを判定する（Ｏｐ１７０３）。

判定の結果、３ケ月以上前の日付の自宅情報（推定自宅住所）がある場合には（Ｏｐ１７０３、Ｙｅｓ）、危険度判定部３４０は、次の判定を行う。すなわち、危険度判定部３４０は、最近の日付の自宅情報（推定自宅住所）のうちで、現在までの自宅情報（推定自宅住所）に含まれている割合が９割以上の自宅情報あるか否かを判定する（Ｏｐ１７０４）。判定の結果、９割以上含まれる自宅住所がある場合には（Ｏｐ１７０４、Ｙｅｓ）、危険度判定部３４０は、検出閾値の調整を実行する旨の決定を行い（Ｏｐ１７０５）、処理を終了する。一方、９割以上含まれる自宅住所がない場合には（Ｏｐ１７０４、ＮＯ）、危険度判定部３４０は、検出閾値の調整を実行しない旨の決定を行い（Ｏｐ１７０６）、処理を終了する。

なお、危険度判定部３４０は、上述したＯｐ１７０３において、３ケ月以上前の日付の自宅情報（推定自宅住所）がない場合には（Ｏｐ１７０３、Ｎｏ）、上述したＯｐ１７０６に移行し、検出閾値の調整を実行しない旨の決定を行い、処理を終了する。

［８−３．犯罪検出制御部による処理］
図４２は、犯罪検出制御部による処理のオペレーションチャートの一例を示す図である。図４２に示すように、犯罪検出制御部３５０は、危険度判定部３４０により検出閾値の調整を実行する旨の決定が行われたか否かを判定する（Ｏｐ１８０１）。判定の結果、検出閾値の調整を実行する旨の決定が行われた場合には（Ｏｐ１８０１、Ｙｅｓ）、犯罪検出制御部３５０は、犯罪危険度算出部３２０により算出された危険度を取得する（Ｏｐ１８０２）。

続いて、犯罪検出制御部３５０は、Ｏｐ１８０２で取得した危険度が第１の閾値以上であるか否かを判定する（Ｏｐ１８０３）。危険度が第１の閾値以上である場合には（Ｏｐ１８０３、Ｙｅｓ）、犯罪検出制御部３５０は、検出されやすくなるように検出閾値を下げて（Ｏｐ１８０４）、処理を終了する。一方、危険度が第１の閾値以上ではない（第１の閾値未満である）場合には（Ｏｐ１８０３、Ｎｏ）、犯罪検出制御部３５０は、危険度が第２の閾値以下であるか否かを判定する（Ｏｐ１８０５）。判定の結果、危険度が第２の閾値以下である場合には（Ｏｐ１８０５、Ｙｅｓ）、犯罪検出制御部３５０は、危険度検出されにくくなるように検出閾値を上げて（Ｏｐ１８０６）、処理を終了する。一方、危険度が第２の閾値以下ではない場合には（Ｏｐ１８０５、Ｎｏ）、犯罪検出制御部３５０は、検出閾値の調整を行うことなく、そのまま処理を終了する。

なお、犯罪検出制御部３５０は、上述したＯｐ１８０１において、検出閾値の調整を実行する旨の決定が行われなかった場合（実行しない旨の決定が行われた場合）には（Ｏｐ１８０１、Ｎｏ）、そのまま処理を終了する。

［８−４．まとめ（第８の実施形態による効果）］
上述してきたとおり、第８の実施形態では、移動体端末２のユーザの生活拠点（自宅）を推定し、その生活拠点における犯罪発生情報に応じて、犯罪の検出感度を動的に変更する。第８の実施形態によれば、詐欺の加害者に地域別に変更された詐欺の検出感度（閾値）を推定されることなく、詐欺に誘引しようとする通話の検出漏れを防ぐことができる。

１発話状態検出装置
２移動体端末
１１発話データ取得部
１２周波数成分抽出部
１３変動度合い算出部
１４統計量算出部
１５発話状態検出パラメータ作成部
１６発話状態検出部
１７ＳＮ比算出部
１００状態検出部
１０１返事モデル記憶部
１０２電話帳記憶部
１０３時間帯別危険度記憶部
１１１区間検出部
１１２状態判定部
１１３危険度算出部
１１４通話時間長算出部
１１５通話時間比算出部
１１６返事時間比算出部
１１７音素認識部
１１８話速算出部
２００総合判定部

Claims

発話者の発話データを取得する発話データ取得部と、
前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出部と、
抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出部と、
所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出部と、
特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第１の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第２の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出部とを備えた発話状態検出装置。
前記発話状態検出部は、不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて算出された発話状態検出パラメータを用いて、前記特定発話者の発話状態が日常状態であるか非日常状態であるかを検出する、請求項１に記載の発話状態検出装置。
不特定発話者が既知の発話状態で発話した発話データから得られた前記統計量に基づいて前記発話状態検出パラメータを作成する発話状態検出パラメータ作成部をさらに備えた、請求項２に記載の発話状態検出装置。
前記高域周波数成分は、第１フォルマントを含まないように周波数成分を抽出したものである、請求項１に記載の発話状態検出装置。
前記高域周波数成分は、２ｋＨｚ以上の周波数成分を抽出したものである、請求項１に記載の発話状態検出装置。
前記変動度合い算出部は、前記変動度合いを、次の式:
変動度合い＝ｌｏｇ（高域周波数成分のパワースペクトルの幾何平均）／ｌｏｇ（高域周波数成分のパワースペクトルの算術平均）
に基づいて算出する、請求項１に記載の発話状態検出装置。
前記変動度合い算出部は、前記変動度合いを、次の式:
変動度合い＝ｌｏｇ（高域周波数成分の残差パワースペクトルの幾何平均）／ｌｏｇ（高域周波数成分の残差パワースペクトルの算術平均）
に基づいて算出する、請求項１に記載の発話状態検出装置。
前記変動度合い算出部は、前記変動度合いを、次の式：
変動度合い＝高域周波数成分のパワースペクトルの幾何平均／高域周波数成分のパワースペクトルの算術平均
に基づいて算出する、請求項１に記載の発話状態検出装置。
前記変動度合い算出部は、前記変動度合いを、高域周波数成分の残差パワースペクトルの分散に基づいて算出する、請求項１に記載の発話状態検出装置。
前記変動度合い算出部は、前記変動度合いを、高域周波数成分のパワースペクトルの４分位数範囲に基づいて算出する、請求項１に記載の発話状態検出装置。
前記発話データにかかるＳＮ比を算出するＳＮ比算出部をさらに備え、
前記発話状態検出部は、統計量を算出した前記所定期間に対応するＳＮ比が閾値よりも大きくなる場合に発話状態を検出する、請求項１に記載の発話状態検出装置。
発話者の発話データを取得する発話データ取得処理と、
前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出処理と、
抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出処理と、
所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出処理と、
特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第１の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第２の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出処理とをコンピュータに実行させる発話状態検出プログラム。
発話者の発話データを取得する発話データ取得工程と、
前記発話データを周波数解析した結果から高域周波数成分を抽出する周波数成分抽出工程と、
抽出した前記高域周波数成分について単位時間毎の周波数の変動度合いを算出する変動度合い算出工程と、
所定期間における複数の前記変動度合いに基づいて、所定区間毎の統計量を算出する統計量算出工程と、
特定発話者の発話データから得られた前記統計量に基づいて、当該統計量が第１の閾値以上である特定区間を抽出し、前記発話データ全体の区間に対して前記特定区間が占める割合が第２の閾値以上である場合に、前記特定発話者の発話状態を検出する発話状態検出工程とを含む発話状態検出方法。
前記発話者が平常状態にあるときの返事に係る情報を統計処理した返事モデルを記憶する返事モデル記憶部と、
前記発話データにおける音声区間が所定の閾値よりも短い区間である返事区間を推定する区間検出部と、
前記区間検出部により前記返事区間が連続していると推定された場合には、前記返事モデル記憶部に記憶されている返事モデルを参照して、前記返事区間の平常性を判定する状態判定部と
をさらに有する、請求項１に記載の発話状態検出装置。
前記状態判定部は、さらに、前記音声区間における前記返事区間の数、前記音声区間の全体長における前記返事区間の長さ、前記返事区間内における各返事の間隔長、または前記返事区間の総長のいずれか１つ又は複数を用いて、前記返事区間の平常性を判定する、請求項１４に記載の発話状態検出装置。
前記発話者により行われる通話の通話時間長を算出する通話時間長算出部と、
前記通話における音声区間の区間長の総和と前記通話における音節列の総和とに基づいて、前記発話者の話速を算出する話速算出部とをさらに有し、
前記状態判定部は、前記通話時間長算出部により算出された通話時間長と前記音声区間の区間長の総和との比、前記通話時間長と前記返事区間の区間長の総和との比、または前記話速算出部により算出された前記話速のいずれか一つまたは複数を用いて、前記返事区間の平常性を判定する、請求項１４に記載の発話状態検出装置。
前記発話者により行われる通話の通話時間長を算出する通話時間長算出部と、
前記通話における音声区間の区間長の総和と前記通話における音節列の総和とに基づいて、前記発話者の話速を算出する話速算出部と、
前記発話状態検出部による前記発話状態の検出結果と、前記話速算出部により算出された話速とを用いて、前記発話状態を総合判定する総合判定部と
をさらに有する、請求項１に記載の発話状態検出装置。