JP2019211633A

JP2019211633A - 音声処理プログラム、音声処理方法および音声処理装置

Info

Publication number: JP2019211633A
Application number: JP2018107778A
Authority: JP
Inventors: 昭二早川; Shoji Hayakawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2019-12-12
Anticipated expiration: 2038-06-05
Also published as: JP7095414B2

Abstract

【課題】会話状況が、通常の会話状況か異常な会話状況かを判定すること。【解決手段】音声処理装置１００は、音声情報に含まれる会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出する。音声処理装置１００は、会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、設定時刻毎に算出した複数の特徴量を入力することで、複数の特徴量に対応するモデルの複数の出力値を設定時刻毎に算出する。音声処理装置１００は、複数の出力値を基にして、会話が異常な会話状況であるか否かを判定する。【選択図】図２

Description

本発明は、音声処理プログラム等に関する。

近年、コールセンターでは、オペレータと顧客との会話を録音し、録音した会話の情報を蓄積している。蓄積された会話の情報は、サービス向上のために、オペレータへのフィードバック等に用いられる。

なお、従来技術には、通話の開始時刻から終了時刻までの音声情報を基にして、通話が迷惑電話であるか否かを判定する技術がある。この従来技術では、通話全体の時間、通話全体の音声区間の割合、ストレス評価値、所定のキーワードを検出した回数を、予め学習しておいたモデルに入力することで、迷惑電話らしさを特定している。

特開２００５−１２８３１号公報国際公開第２００８／０３２７８７号国際公開第２０１４／０６９１２２号

しかしながら、上述した従来技術では、会話状況が、通常の会話状況か異常な会話状況かを判定することができないという問題がある。

１つの側面では、本発明は、会話状況が、通常の会話状況か異常な会話状況であるかを判定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻を設定し、開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出する。コンピュータは、会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、設定時刻毎に算出した複数の特徴量を入力することで、複数の特徴量に対応するモデルの複数の出力値を設定時刻毎に算出する。コンピュータは、複数の出力値を基にして、判定対象とする会話が異常な会話状況であるか否かを判定する。

会話状況が、通常の会話状況か異常な会話状況かを判定することが可能となる。

図１は、本実施例１に係る音声処理装置の処理を説明するための図である。図２は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図３は、本実施例１に係るモデル情報を説明するための概略図である。図４は、本実施例１に係る出力値蓄積バッファのデータ構造の一例を示す図である。図５は、本実施例１に係る特徴量算出部の構成を示す機能ブロック図である。図６は、本実施例１に係るピッチ・パワー蓄積部のデータ構造の一例を示す図である。図７は、本実施例２に係る検出回数情報のデータ構造の一例を示す図である。図８は、判定処理のバリエーション１を説明するための図である。図９は、判定処理のバリエーション２を説明するための図である。図１０は、判定処理のバリエーション３を説明するための図である。図１１は、判定処理のバリエーション４を説明するための図である。図１２は、本実施例１に係る音声処理装置の処理手順を示すフローチャート（１）である。図１３は、本実施例１に係る音声処理装置の処理手順を示すフローチャート（２）である。図１４は、本実施例１に係る音声処理装置の効果を説明するための図である。図１５は、会話時間管理部のその他の処理を説明するための図である。図１６は、参考技術２の処理を説明するための図である。図１７は、本実施例２に係る音声処理装置の処理を説明するための図である。図１８は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１９は、本実施例２に係る出力値蓄積バッファのデータ構造の一例を示す図である。図２０は、本実施例２に係る特徴量算出部の構成を示す機能ブロック図である。図２１は、本実施例２に係る検出回数情報のデータ構造の一例を示す図である。図２２は、本実施例２に係る音声処理装置の処理手順を示すフローチャート（１）である。図２３は、本実施例２に係る音声処理装置の処理手順を示すフローチャート（２）である。図２４Ａは、第１の軌跡を説明するための図である。図２４Ｂは、第２の軌跡を説明するための図である。図２４Ｃは、第３の軌跡を説明するための図である。図２５は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

本実施例１に係る音声処理装置の説明を行う前に、オペレータと顧客との会話が異常な会話状況であるか否かを判定する参考技術１について説明する。この参考技術１は、従来技術ではない。

参考技術１は、会話の開始時刻から終了時刻までの音声情報（会話全体の音声情報）を基にして、会話状況が通常の会話状況であるか、異常な会話状況であるかを判定する。ここで「異常な会話状況」とは、顧客が不満を感じたり、怒り出したり、脅迫したりするなど、「通常でない状況」を含むものである。

この参考技術１は、会話全体の時間、会話全体の音声区間の割合、ストレス評価値、所定のキーワードを検出した回数を、予め学習しておいたモデルに入力することで、異常な会話状況らしさを示す出力値を特定する。参考技術１は、この出力値が閾値以上である場合に、会話状況が異常な会話状況であると判定する。

ここで、会話の終盤だけ顧客が怒り出した場合、あるいは会話中に顧客が不満を述べたが、オペレータが話術で鎮静化させた場合は「異常な会話状況」であると判定することが好ましい。しかし、参考技術１では、会話全体に対する評価値、分析結果を用いて、総合的に異常な会話状況であるかを判定しているため、会話の一部に異常な会話状況が含まれていても、全体としては、異常な会話状況らしさを示す出力値が大きくならず、会話状況が異常であると判定できない場合がある。

次に、本実施例１に係る音声処理装置の処理の一例について説明する。音声処理装置は、異常な会話状況らしさを判定する「モデルを学習する処理」と、「異常な会話状況であるか否かを判定する処理」を行う。

音声処理装置が、モデルを学習する場合には、参考技術１と同様にして、会話全体の音声情報に対する評価値、分析結果を用いて、モデルを学習する。

続いて、音声処理装置が、異常な会話状況であるか否かを判定する場合には、会話の開始時刻から各設定時刻までの評価値、分析結果を、一定時間間隔でモデルに入力し、モデルの出力値を算出、蓄積する。音声処理装置は、蓄積された出力値から得られる軌跡を用いて、通常の会話状況か異常な会話状況かの判定を行う。

図１は、本実施例１に係る音声処理装置の処理を説明するための図である。図１において、縦軸はモデルの出力値に対応するものであり、横軸は会話時間に対応するものである。出力値１０ａは、時刻０から時刻ｔ_１までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｂは、時刻０から時刻ｔ_２までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｃは、時刻０から時刻ｔ_３までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｄは、時刻０から時刻ｔ_４までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｅは、時刻０から時刻ｔ_５までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｆは、時刻０から時刻ｔ_６までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。

出力値１０ｇは、時刻０から時刻ｔ_７までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｈは、時刻０から時刻ｔ_８までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｉは、時刻０から時刻ｔ_９までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｊは、時刻０から時刻ｔ_１０までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。出力値１０ｋは、時刻０から時刻ｔ_１１までの区間における会話の評価値、分析結果をモデルに入力した場合の出力値である。

音声処理装置は、各出力値１０ａ〜１０ｋの軌跡を基にして、通常の会話状況か異常な会話状況かの判定を行う。これによって、会話の一部に異常な会話状況が含まれていていると、軌跡に変化を与えるため、会話状況が、通常の会話状況か異常な会話状況であるかを判定することができる。これに対して、上記の参考技術１では、会話全体の時間（時刻０〜ｔ_１１）の会話の評価値、分析結果をモデルに入力した出力値１０ｋとの閾値比較により、通常の会話状況か異常な会話状況であるかを判定するため、会話の一部に異常な会話状況が含まれていても、特定できない。

図２は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図２に示すように、この音声処理装置１００は、通信部１１０、記憶部１２０、制御部１３０を有する。

通信部１１０は、ネットワークを介して外部の装置とデータ通信を実行する処理部である。たとえば、通信部１１０は、顧客とオペレータとの会話を含む音声情報を収集するサーバ装置（図示略）から、音声情報を受信する。通信部１１０は、受信した音声情報を制御部１３０に出力する。通信部１１０は、通信装置の一例である。なお、本実施例１では一例として、音声情報の会話を顧客とオペレータとの会話とするがこれに限定されるものではなく、利用者間の会話であってもよい。

記憶部１２０は、音声バッファ１２０ａと、モデル情報１２０ｂと、出力値蓄積バッファ１２０ｃとを有する。記憶部１２０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

音声バッファ１２０ａは、顧客とオペレータとの会話の音声情報を記憶するバッファである。「モデルを学習する処理」を音声処理装置１００が行う場合には、音声バッファ１２０ａには、学習用の音声情報が蓄積される。これに対して、「会話状況を判定する処理」を音声処理装置１００が行う場合には、音声バッファ１２０ａには、判定対象となる音声情報が蓄積される。

モデル情報１２０ｂは、音声情報に含まれる会話が、異常な会話状況である度合いを示す出力値を出力するモデルの情報である。図３は、本実施例１に係るモデル情報を説明するための概略図である。図３に示すように、このモデル情報１２０ｂは、ニューラルネットワークの構造を有し、入力層２０ａ、隠れ層２０ｂ、出力層２０ｃを持つ。入力層２０ａ、隠れ層２０ｂ、出力層２０ｃは、複数のノードがエッジで結ばれる構造となっている。隠れ層２０ｂ、出力層２０ｃは、活性化関数と呼ばれる関数とバイアス値とを持ち、エッジは、重みを持つ。

入力層２０ａに含まれる各ノードに、音声情報の特徴量を入力すると、隠れ層２０ｂを通って、出力層２０ｃの各ノードから、会話が異常な会話状況である確率「Ｏｔ」と、会話が通常の会話状況である確率「Ｏｎ」とが出力される。

本実施例では、モデル情報１２０ｂから出力される出力値Ｖを、式（１）により定義する。式（１）に含まれるＰ（ｔ）は、式（２）により定義される値である。式（１）に含まれるＰ（ｎ）は、式（３）により定義される値である。

Ｖ＝ｌｏｇＰ（ｔ）−ｌｏｇＰ（ｎ）・・・（１）

Ｐ（ｔ）＝ｅｘｐ（Ｏｔ）／｛ｅｘｐ（Ｏｔ）＋ｅｘｐ（Ｏｎ）｝・・・（２）
Ｐ（ｎ）＝ｅｘｐ（Ｏｎ）／｛ｅｘｐ（Ｏｔ）＋ｅｘｐ（Ｏｎ）｝・・・（３）

出力値蓄積バッファ１２０ｃは、モデル情報１２０ｂを基に算出される出力値を格納するバッファである。図４は、本実施例１に係る出力値蓄積バッファのデータ構造の一例を示す図である。図４に示すように、この出力値蓄積バッファ１２０ｃは、時間と、出力値とを対応付ける。時間は、特徴量を抽出した音声情報の時間（会話の開始時刻からの経過時間）を示す。出力値は、該当する時間の音声情報から算出された特徴量を、モデル情報１２０ｂに入力した際に得られる出力値Ｖを示す。たとえば、図４に示す例では、時間「０〜ｔ_１」の音声情報から算出した特徴量を、モデル情報１２０ｂに入力した際に得られる出力値は、出力値Ｖ_１である。

制御部１３０は、取得部１３０ａと、特徴量算出部１３０ｂと、モデル学習部１３０ｃと、会話時間管理部１３０ｄと、出力値算出部１３０ｅと、判定部１３０ｆとを有する。制御部１３０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１３０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

取得部１３０ａは、音声情報を取得し、取得した音声情報を音声バッファ１２０ａに格納する処理部である。たとえば、「モデルを学習する処理」を音声処理装置１００が行う場合には、取得部１３０ａは、学習用の音声情報を取得し、学習用の音声情報を音声バッファ１２０ａに格納する。「会話状況を判定する処理」を音声処理装置１００が行う場合には、取得部１３０ａは、判定対象となる音声情報を取得し、音声情報を音声バッファ１２０ａに格納する。

特徴量算出部１３０ｂは、音声バッファ１２０ａに格納された音声情報を基にして、特徴量を算出する処理部である。たとえば、特徴量算出部１３０ｂが算出する特徴量は、ストレス評価値、キーワードの検出回数、会話の開始時刻からの経過時間である。ストレス評価値、検出回数、経過時間に関する説明は後述する。

「モデルを学習する処理」を音声処理装置１００が行う場合には、特徴量算出部１３０ｂは、特徴量をモデル学習部１３０ｃに出力する。「会話状況を判定する処理」を音声処理装置１００が行う場合には、特徴量算出部１３０ｂは、特徴量を、出力値算出部１３０ｅに出力する。

図５は、本実施例１に係る特徴量算出部の構成を示す機能ブロック図である。図５に示すように、この特徴量算出部１３０ｂは、音声取得部１３１ａと、フレーム処理部１３１ｂと、ピッチ抽出部１３２と、パワー算出部１３３と、ピッチ・パワー蓄積部１３４と、ストレス評価値算出部１３５とを有する。また、特徴量算出部１３０ｂは、音声認識部１３６と、認識結果蓄積部１３７と、会話時間算出部１３８とを有する。

音声取得部１３１ａは、音声バッファ１２０ａに格納された音声情報を取得し、読み込んだ音声情報を、フレーム処理部１３１ｂに出力する。以下の説明では、音声取得部１３１ａにより読み込まれたデジタル信号の音声情報を、単に、「音声情報」と表記する。

フレーム処理部１３１ｂは、音声取得部１３１ａから取得する音声情報の信号時系列を、予め定められたサンプル数毎に「フレーム」として取り出し、フレームにハニング窓等の分析窓を乗算する。

たとえば、フレーム処理部１３１ｂは、サンプリング周波数８ｋＨｚで３２ｍｓの区間のサンプルＮをフレームとして取り出す。たとえば、Ｎ＝２５６とする。フレームに含まれる各サンプルを「ｓ（０）、ｓ（１）、ｓ（２）、・・・、ｓ（Ｎ−１）」とする。フレーム処理部１３１ｂは、上記の各サンプルに対しハミング窓を乗算する。例えば、ハミング窓は、式（４）により示される。

各サンプルに対しハミング窓を乗算したサンプルを「ｘ（０）、ｘ（１）、ｘ（２）、・・・、ｘ（Ｎ−１）」とする。以下の説明では、ハミング窓を乗算した結果得られるサンプル「ｘ（０）、ｘ（１）、ｘ（２）、・・・、ｘ（Ｎ−１）」をサンプル値と表記する。フレーム処理部１３１ｂは、フレームにハニング窓を乗算したサンプル値を、ピッチ抽出部１３２、パワー算出部１３３、音声認識部１３６に出力する。フレーム処理部１３１ｂは、フレーム単位で、サンプル値の情報を出力し、フレーム識別番号をフレームに付与してもよい。

ピッチ抽出部１３２は、フレームのサンプル値を基にして、フレームの基本周波数（ピッチ）を抽出する処理部である。ピッチ抽出部１３２は、フレーム毎のピッチの情報を、ピッチ・パワー蓄積部１３４に蓄積する。

たとえば、ピッチ抽出部１３２は、フレームの各サンプル値を用いて、自己相関関数を計算する。ピッチ抽出部１３２は、式（５）に基づいて、自己相関関数φ（ｍ）を計算する。式（５）に示すｍは、遅延時間を示す。

ピッチ抽出部１３２は、式（５）について、遅延時間ｍ＝０以外において、自己相関関数が極大値となる遅延時間ｍの値を特定する。自己相関関数が極大となる遅延時間ｍを「遅延時間ｍ’」と表記する。ピッチ抽出部１３２は、遅延時間ｍ’を算出した後に、式（６）に基づいて、ピッチを算出する。

ピッチ＝１／遅延時間ｍ’・・・（６）

ピッチ抽出部１３２は、各フレームのサンプル値に対して、上記の処理を繰り返し実行することで、各フレームからピッチをそれぞれ算出する。ただし、前記自己相関関数の極大値が、予め決められた閾値以下の場合には、無音区間として、そのフレームのピッチとパワーは後の処理には使用しない。

パワー算出部１３３は、フレームのサンプル値を基にして、フレームのパワーを算出する処理部である。パワー算出部１３３は、フレーム毎のパワーの情報を、ピッチ・パワー蓄積部１３４に蓄積する。

たとえば、パワー算出部１３３は、フレームの各サンプル値「「ｘ（０）、ｘ（１）、ｘ（２）、・・・、ｘ（Ｎ−１）」の二乗値の総和に対し、対数をとることで、フレームのパワーを算出する。具体的に、パワー算出部１３３は、式（７）に基づいて、フレームのパワーを算出する。

ピッチ・パワー蓄積部１３４は、ピッチ抽出部１３２により抽出されたピッチの情報およびパワー算出部１３３により算出されたパワーの情報を格納するバッファである。図６は、本実施例１に係るピッチ・パワー蓄積部のデータ構造の一例を示す図である。図６に示すように、ピッチ・パワー蓄積部１３４は、フレーム識別番号と、ピッチと、パワーとを対応付ける。ただし、ピッチ抽出部１３２において無音区間とされたフレームはバッファには含めない。

ストレス評価値算出部１３５は、ピッチ・パワー蓄積部１３４に格納されたピッチおよびパワーの情報を基にして、設定時刻毎にストレス評価値を算出する処理部である。たとえば、ストレス評価値算出部１３５は、利用者の平常時のピッチおよびパワーの組をサンプルとした際のばらつき具合と比較して、現在のピッチおよびパワーの組のサンプルのばらつき具合が大きいほど、ストレス評価値を大きくし、小さいほどストレス評価値を小さくする。

ストレス評価値算出部１３５は、音声処理装置１００が「会話状況を判定する処理」を行う場合に、次の処理を行う。ストレス評価値算出部１３５は、会話の開始時刻から、出力制御信号を受信した時刻までに蓄積されたピッチ・パワーの組のサンプルを用いて、混合ガウス分布を最尤推定によりモデル化し、推定に用いたサンプルに対するモデルの平均対数尤度にマイナス１を掛けたものを、ストレス評価値として算出し、算出したストレス評価値を、出力値算出部１３０ｅに出力する。「出力制御信号」は、会話時間管理部１３０ｄから出力される信号である。たとえば、ストレス評価値算出部１３５は、特開２０１５−０８２０９３に記載されたＥＭアルゴリズム（期待値最大化法）を用いて、最尤推定によるモデル化を行う。

音声認識部１３６は、たとえば、ワードスポッティング型の音声認識を行うことで、音声情報に所定のキーワードが含まれているか否かを検出する処理部である。音声認識部１３６は、音声情報から所定のキーワードを検出する度に、所定のキーワードに対応する検出回数に１を加算する処理を行う。音声認識部１３６は、所定のキーワードと、検出回数とを対応付けた情報を、認識結果蓄積部１３７に蓄積する。所定のキーワードは、顧客が不満を感じた場合や、怒っている際によく発言するキーワードである。

また、音声認識部１３６は、音声認識を行うための音声区間検出処理を開始し、音声区間を検出した際の、音声区間の開始時間と終了時間の情報を、会話時間算出部１３８に出力する。

認識結果蓄積部１３７は、音声認識部１３６により検出された各キーワード（所定のキーワード）の検出回数の情報（検出回数情報）を保持する。図７は、本実施例１に係る検出回数情報のデータ構造の一例を示す図である。図７に示すように、検出回数情報１３７ａは、キーワードと検出回数とを対応付ける。

認識結果蓄積部１３７は、音声処理装置１００が「モデルを学習する処理」を行う場合には、次の処理を行う。認識結果蓄積部１３７は、会話の開始時刻から、会話の終了時刻における検出回数情報１３７ａを、モデル学習部１３０ｃに出力する。

認識結果蓄積部１３７は、音声処理装置１００が「会話状況を判定する処理」を行う場合には、次の処理を行う。認識結果蓄積部１３７は、会話の開始時刻から、出力制御信号を受信した時刻までの検出回数情報１３７ａを、出力値算出部１３０ｅに出力する。

会話時間算出部１３８は、会話の開始時刻からの会話の経過時間を計算する処理部である。たとえば、会話時間算出部１３８は、図示しないタイマから時間情報を取得し、会話の開始時刻からの経過時間を計測する。会話時間算出部１３８は、各フレームに含まれるサンプル数の累計を基にして、経過時間を推定してもよい。会話時間算出部１３８は、開始時刻と、開始時刻からの経過時間との情報を、会話時間管理部１３０ｄに出力する。

たとえば、会話時間算出部１３８は、音声認識部１３６から、検出した音声区間の開始時刻の情報をはじめに受け付けた開始時刻を、会話の開始時刻として特定する。会話時間算出部１３８は、検出した音声区間の情報を最後に受け付けた終了時刻から、所定時間経過しても、単語を検出した旨の情報を新たに受け付けない場合には、会話が終了したと判定する。会話時間算出部１３８は、会話が終了したと判定した場合には、検出した音声区間を最後に受け付けた終了時刻を終了時刻として特定する。会話時間算出部１３８は、会話の終了時刻の情報を、会話時間管理部１３０ｄに出力する。

会話時間算出部１３８は、音声処理装置１００が「モデルを学習する処理」を行う場合には、次の処理を行う。会話時間算出部１３８は、会話の開始時刻から、会話の終了時刻までの経過時間の情報を、モデル学習部１３０ｃに出力する。

会話時間算出部１３８は、音声処理装置１００が「会話状況を判定する処理」を行う場合には、次の処理を行う。会話時間算出部１３８は、会話の開始時刻から、出力制御信号を受信した時刻までの経過時間の情報を、出力値算出部１３０ｅに出力する。

図２の説明に戻る。モデル学習部１３０ｃは、学習用の音声情報から算出された特徴量を用いて、モデル情報１２０ｂを生成（学習）する処理部である。モデル学習部１３０ｃは、モデル情報１２０ｂを生成する場合には、予め、学習用の音声情報に対応する正解データを保持しておくものとする。たとえば、学習の音声情報が、「異常な会話状況」を含むものであれば、正解データの「Ｏｔ（異常な会話状況である確率）」の値は、「Ｏｎ（通常の会話状況である確率）」の値よりも大きい値となる。一方、学習の音声情報が、「通常の会話状況」の音声情報であれば、正解データの「Ｏｔ（異常な会話状況である確率）」の値は、「Ｏｎ（通常の会話状況である確率）」の値よりも小さい値となる。

モデル学習部１３０ｃは、学習用の音声情報から算出された特徴量をモデル情報１２０ｂの入力層２０ａに入力して、出力層２０ｃから出力される値と、正解データとの差を小さくするように、隠れ層２０ｂおよび出力層２０ｃのバイアス値、エッジの重みを調整する。モデル学習部１３０ｃは、各学習用の音声情報と、各学習用の音声情報に対応する正解データを用いて、上記処理を繰り返し実行することで、モデル情報１２０ｂを学習する。たとえば、モデル学習部１３０ｃは、Back Propagation法等のアルゴリズムを用いて、モデル情報１２０ｂを学習してもよい。

会話時間管理部１３０ｄは、会話時間算出部１３８から、会話の開始時刻と、会話の開始時刻からの経過時間とを取得し、予め指定された時間Ｔを経過したか否かを判定する。会話時間管理部１３０ｄは、時間Ｔを経過する度に、「出力制御信号」を、ストレス評価値算出部１３５、認識結果蓄積部１３７、会話時間算出部１３８、出力値算出部１３０ｅに出力する。

会話時間管理部１３０ｄは、会話時間算出部１３８から、会話の終了時刻の情報を受け付けた場合には、会話の終了時刻の情報を、判定部１３０ｆに出力する。

出力値算出部１３０ｅは、特徴量算出部１３０ｂから取得する特徴量と、モデル情報１２０ｂとを基にして、出力値を算出する処理部である。出力値算出部１３０ｅは、算出した出力値を、出力値蓄積バッファ１２０ｃに蓄積する。

たとえば、出力値算出部１３０ｅは、会話時間管理部１３０ｄから出力制御信号を取得したタイミングで、特徴量算出部１３０ｂから特徴量を取得し、取得した特徴量をモデル情報１２０ｂの入力層２０ａに入力する。出力値算出部１３０ｅは、特徴量をモデル情報１２０ｂの入力層２０ａに入力した際に、出力層２０ｃから出力される確率「Ｏｔ」と、確率「Ｏｎ」との値を取得し、式（１）〜式（３）を基にして、出力値Ｖを算出する。

出力値算出部１３０ｅは、会話時間管理部１３０ｄから出力制御信号を取得する度に、上記の処理を繰り返し実行することで、各経過時間の特徴量に対応する出力値Ｖを順次算出し、算出した出力値Ｖの情報を、出力値蓄積バッファ１２０ｃに格納する。出力値算出部１３０ｅは、出力値Ｖを蓄積する場合に、経過時間（時間）を対応付ける。

判定部１３０ｆは、出力値蓄積バッファ１２０ｃに格納された出力値の軌跡を基にして、会話が異常な会話状況であるのか、通常の会話状況であるのかを判定する処理部である。判定部１３０ｆは、判定結果を表示装置（図示略）に出力して表示させてもよいし、通信部１１０を介して、外部装置に通知してもよい。

判定部１３０ｆが行う判定処理は、様々なバリエーションがある。以下では、判定部１３０ｆが行う判定処理のバリエーション１〜４について説明する。どのバリエーションにより、判定処理を行うかは、利用者が予め設定しておくものとする。

図８は、判定処理のバリエーション１を説明するための図である。図８において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部１３０ｆは、閾値５０を設け、この閾値５０により、出力値のとりうる範囲を、領域５０ａと領域５０ｂとを設ける。出力値が閾値５０を超える場合には、会話状況が異常な会話状況である可能性が高い。閾値５０は、予め設定される閾値である。

判定部１３０ｆは、出力値の軌跡と、閾値５０とを比較し、出力値の軌跡が閾値５０を超えて領域５０ａに含まれた時点で、会話が異常な会話状況であると判定する。

判定部１３０ｆは、出力値の軌跡３０ａと、閾値５０とを比較すると、軌跡３０ａは、閾値５０を超えないまま会話が終了している。判定部１３０ｆは、出力値の軌跡３０ａに対応する会話を「通常の会話状況」であると判定する。

判定部１３０ｆは、出力値の軌跡３０ｂと、閾値５０とを比較すると、軌跡３０ｂは、閾値５０を超えて、一旦領域５０ａに侵入し、その後、領域５０ｂに戻っている。判定部１３０ｆは、軌跡３０ｂが会話の終盤で、領域５０ｂに戻っているものの、閾値５０を一度超えているため、軌跡３０ｂに対応する会話を「異常な会話状況」であると判定する。

判定部１３０ｆは、出力値の軌跡３０ｃと、閾値５０とを比較すると、軌跡３０ｃは、閾値５０を超えて、領域５０ａに侵入している。判定部１３０ｆは、軌跡３０ｃに対応する会話を「異常な会話状況」であると判定する。

図９は、判定処理のバリエーション２を説明するための図である。図９において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部１３０ｆは、閾値５０，５１を設け、この閾値５０，５１により、領域５０ｂ，５１ａ，５１ｂを設ける。出力値が閾値５０を超える場合には、会話が異常な会話状況である可能性が高い。出力値が閾値５１を超える場合には、会話が異常な会話状況である可能性が極めて高い（確実に異常な会話状況である）。閾値５０，５１は、予め設定される閾値である。

判定部１３０ｆは、出力値の軌跡と、閾値５０，５１とを比較し、出力値の軌跡が閾値５１を超えて領域５１ｂに含まれた時点で、会話が異常な会話状況であると判定する。判定部１３０ｆは、出力値の軌跡と、閾値５０，５１とを比較し、出力値の軌跡の全体が、領域５１ａに含まれている場合には、会話が異常な会話状況であると判定する。判定部１３０ｆは、出力値の軌跡と、閾値５０，５１とを比較し、出力値の軌跡の一部が、領域５０ｂに含まれている場合には、会話が通常の会話状況であると判定する。

判定部１３０ｆは、出力値の軌跡３１ａと、閾値５０，５１と比較すると、軌跡３１ａの一部が領域５０ｂに含まれている。このため、判定部１３０ｆは、軌跡３１ａに対応する会話を「通常の会話状況」であると判定する。

判定部１３０ｆは、出力値の軌跡３１ｂと、閾値５０，５１とを比較すると、軌跡３１ｂは、閾値５１を超えて、領域５１ｂに侵入している。判定部１３０ｆは、軌跡３１ｂが会話の終盤で、領域５０ｂに戻っているものの、閾値５０を一度超えているため、軌跡３１ｂに対応する会話を「異常な会話状況」であると判定する。

判定部１３０ｆは、出力値の軌跡３１ｃと、閾値５０，５１とを比較すると、出力値の軌跡３１ｃの全体が、領域５１ａに含まれている。このため、判定部１３０ｆは、軌跡３１ｃに対応する会話を「異常な会話状況」であると判定する。

図１０は、判定処理のバリエーション３を説明するための図である。図１０において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部１３０ｆは、閾値５０，５２を設け、この閾値５０，５２により、領域５０ａ，５２ａ，５２ｂを設ける。出力値が閾値５０を超える場合には、会話が異常な会話状況である可能性が高い。出力値が閾値５２以下となる場合には、会話が通常の会話状況である可能性が極めて高い（確実に通常の会話状況である）。閾値５０，５２は、予め設定される閾値である。

判定部１３０ｆは、出力値の軌跡と、閾値５０，５２とを比較し、出力値の軌跡が閾値５２を下回り、領域５２ａに含まれた時点で、会話が通常の会話状況であると判定する。判定部１３０ｆは、出力値の軌跡と、閾値５０，５２とを比較し、軌跡が領域５２ａに含まれず、かつ、閾値５０を超えた場合には、会話が異常な会話状況であると判定する。

判定部１３０ｆは、出力値の軌跡３２ａと、閾値５０，５２とを比較すると、軌跡３２ａは一度も閾値５２を下回らず、軌跡の一部が領域５０ａに含まれている。このため、判定部１３０ｆは、軌跡３２ａに対応する会話を「異常な会話状況」であると判定する。

判定部１３０ｆは、出力値の軌跡３２ｂと閾値５０，５２とを比較すると、軌跡３２ｂは、軌跡の一部が領域５０ａに含まれているものの、閾値５２を下回っている時間帯がある。このため、判定部１３０ｆは、軌跡３２ｂに対する会話を「通常の会話状況」であると判定する。

図１１は、判定処理のバリエーション４を説明するための図である。図１１において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。判定部１３０ｆは、閾値５０，５１，５２を設け、この閾値５０，５１，５２により、領域５１ａ，５１ｂ，５２ａ，５２ｂを設ける。出力値が閾値５１を超える場合には、会話が異常な会話状況である可能性が極めて高い（確実に異常な会話状況である）。出力値が閾値５２以下となる場合には、会話が通常の会話状況である可能性が極めて高い（確実に通常の会話状況である）。閾値５０，５１，５２は、予め設定される閾値である。

判定部１３０ｆは、出力値の軌跡と、閾値５０，５１，５２とを比較し、軌跡の一部が領域５１ａ、５２ｂに含まれる場合において、会話の終了時刻に近い方を優先する。たとえば、判定部１３０ｆは、出力値の軌跡が、先に閾値５１を上回り、その後に、閾値５２以下となった場合には、軌跡が閾値５２以下となったことを優先し、「通常の会話状況」であると判定する。判定部１３０ｆは、出力値の軌跡が、先に閾値５２以下となり、その後に、閾値５１を上回った場合には、軌跡が閾値５１以上となったことを優先し、「異常な会話状況」であると判定する。

判定部１３０ｆは、出力値の軌跡３３ａと、閾値５０，５１，５２とを比較すると、軌跡３３ａは、先に閾値５１を上回り、その後に、閾値５２以下となっている。判定部１３０ｆは、会話の終了時刻に近い「軌跡３３ａが閾値５２以下となった」ことを優先し、軌跡３３ａに対応する会話を「通常の会話状況」であると判定する。

判定部１３０ｆは、出力値の軌跡３３ｂと、閾値５０，５１，５２とを比較すると、軌跡３３ｂは、先に閾値５２以下となり、その後に、閾値５１を上回っている。判定部１３０ｆは、会話の終了時刻に近い「軌跡３３ｂが閾値５１を上回った」ことを優先し、軌跡３３ｂに対応する会話を「異常な会話状況」であると判定する。

次に、本実施例１に係る音声処理装置１００の処理手順の一例について説明する。図１２は、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図１２に示すように、音声処理装置１００の特徴量算出部１３０ｂは、フレーム処理を実行して、音声情報からフレームを抽出する（ステップＳ１０１）。特徴量算出部１３０ｂは、フレームのピッチを抽出し（ステップＳ１０２）、パワーを算出する（ステップＳ１０３）。

特徴量算出部１３０ｂは、ピッチおよびパワーの値を蓄積し（ステップＳ１０４）、ステップＳ１０７に移行する。一方、特徴量算出部１３０ｂは、音声認識を実行し（ステップＳ１０５）、検出回数情報を更新し（ステップＳ１０６）、ステップＳ１０７に移行する。

音声処理装置１００の会話時間管理部１３０ｄは、出力値を算出する時間であるか否かを判定する（ステップＳ１０７）。会話時間管理部１３０ｄは、出力値を算出する時間でない場合には（ステップＳ１０７，Ｎｏ）、ステップＳ１０１に移行する。

音声処理装置１００は、出力値を算出する時間である場合には（ステップＳ１０７，Ｙｅｓ）、ストレス評価値を算出し（ステップＳ１０８）、ステップＳ１０９に移行する。音声処理装置１００の出力値算出部１３０ｅは、モデルの出力値を算出し、出力値蓄積バッファ１２０ｃに蓄積する（ステップＳ１０９）。音声処理装置１００の判定部１３０ｆは、出力値の軌跡を算出し（ステップＳ１１０）、図１３のステップＳ１１１に移行する。

図１３の説明に移行する。判定部１３０ｆは、軌跡を基にして、異常な会話状況か否かを判定する（ステップＳ１１１）。判定部１３０ｆは、判定結果が確定した場合には（ステップＳ１１２，Ｙｅｓ）、ステップＳ１１５に移行する。

判定部１３０ｆは、判定結果が確定していない場合には（ステップＳ１１２，Ｎｏ）、会話が終了したか否かを判定する（ステップＳ１１３）。判定部１３０ｆは、会話が終了していない場合には（ステップＳ１１３，Ｎｏ）、図１２のステップＳ１０１に移行する。

判定部１３０ｆは、判定結果が確定した場合には（ステップＳ１１３，Ｙｅｓ）、軌跡を基にして、異常な会話状況か否かを判定する（ステップＳ１１４）。判定部１３０ｆは、判定結果を出力する（ステップＳ１１５）。

次に、本実施例１に係る音声処理装置１００の効果について説明する。音声処理装置１００は、音声情報に含まれる会話の開始時刻から所定の時間間隔毎に設定時刻を設定し、開始時刻から各設定時刻までの音声情報から複数の特徴量を算出する。音声処理装置１００は、各特徴量をモデル情報１２０ｂに入力し、モデル情報１２０ｂから得られる各出力値の軌跡を基にして、会話が異常な会話状況であるか否かを判定する。これにより、通常の会話状況か異常な会話状況かを判定することが可能となる。

音声処理装置１００は、出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、出力値の軌跡と、異常領域、通常領域とを基にして、会話が異常な会話状況であるか否かを判定する。これにより、会話の一部に異常な状況が含まれている場合でも、会話状況が異常であるか否かを正確に判定することができる。

図１４は、本実施例１に係る音声処理装置の効果を説明するための図である。図１４では、グラフ６０ａ，６０ｂ，６０ｃを示す。各グラフ６０ａ〜６０ｃにおいて、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。閾値５０，５１に関する説明は、図９の説明と同様である。閾値５５は、参考技術１が会話状況の異常、通常を判定する場合に用いる閾値である。

グラフ６０ａに示す各軌跡は、異常な会話状況に対する典型的な軌跡を示す実験結果であり、１本の軌跡は１会話に対応する。グラフ６０ａに示す各軌跡のうち、領域６１ａに含まれるものは、判定部１３０ｆにより、会話が異常な会話状況であることを判定できる。また、領域６１ａに含まれていなくても、ほとんどの軌跡が、領域６１ｂに含まれていないため、会話が異常な会話状況であることを判定できる。たとえば、図９で説明したバリエーション２に基づく判定処理により、正確に判定できる。

グラフ６０ｂに示す各軌跡は、通常の会話状況に対する典型的な軌跡を示す実験結果である。グラフ６０ｂに示す各軌跡のうち、軌跡の大部分が、領域６２ｂに含まれ、領域６２ａに含まれる軌跡は存在しない。このため、会話が通常の会話状況であることを判定できる。たとえば、図９で説明したバリエーション２に基づく判定処理により、正確に判定できる。

グラフ６０ｃに示す各軌跡は、異常な会話状況に対する軌跡の実験結果である。全ての軌跡が、会話終了時において、閾値５５を下回っているので、参考技術１に基づく判定では、異常な会話状況であることを判定できない。これに対して、本実施例１に係る判定部１３０ｆによれば、会話の開始時刻から終了時刻までの軌跡は、領域６３ｂに含まれていないので、会話が異常な会話状況であることを判定できる。たとえば、図９で説明したバリエーション２に基づく判定処理により、正確に判定できる。

ところで、会話の開始直後は、特徴量の値が安定しないため、モデル情報１２０ｂに特徴量を出力した際に得られる出力値が安定しない場合がある。このため、会話時間管理部１３０ｄは、会話の開始時刻を受け付けたから、所定時間を経過するまで、「出力制御信号」を、ストレス評価値算出部１３５、認識結果蓄積部１３７、会話時間算出部１３８、出力値算出部１３０ｅに出力する処理を抑止してもよい。これによって、判定部１３０ｆは、安定した出力値を用いて、会話状況を判定することができる。

図１５は、会話時間管理部のその他の処理を説明するための図である。図１５において、縦軸は出力値に対応するものであり、横軸は会話時間に対応するものである。会話時間管理部１３０ｄは、開始時刻０から、所定時間ｔａだけ経過した時点から所定の時間間隔で、「出力制御信号」を、ストレス評価値算出部１３５、認識結果蓄積部１３７、会話時間算出部１３８、出力値算出部１３０ｅに出力する。これにより、判定部１３０ｆは、時刻ｔａ以降の安定した出力値を基にして、会話状況を判定できる。図１５に示す閾値５０，５１、軌跡３１ａ〜３１ｃに関する説明は、図９の説明と同様である。

本実施例２に係る音声処理装置の説明を行う前に、オペレータと顧客との会話が異常な会話状況であるか否かを判定する参考技術２について説明する。この参考技術２は、従来技術ではない。会話の開始時刻から所定時間間隔で音声情報を区切り、区切った各音声情報から得られる特徴量をモデル情報に入力して、出力値を算出する。

図１６は、参考技術２の処理を説明するための図である。図１６に示すように、参考技術２は、音声情報を複数の音声情報１２ａ〜１２ｋに区切る。参考技術は、各音声情報１２ａ〜１２ｋの区間内で算出した各特徴量をそれぞれモデルに入力することで、出力値１１ａ〜１１ｋを算出する。特徴量を入力するモデルは、実施例１で説明したモデル情報１２０ｂに対応する。このように、音声情報を所定時間毎に区切って、出力値１１ａ〜１１ｋを算出すると、図１６に示すように、各出力値が安定しないため、会話状況を精度よく判定できない場合がある。

次に、本実施例２に係る音声処理装置の処理の一例について説明する。図１７は、本実施例２に係る音声処理装置の処理を説明するための図である。図１７の横軸は会話時間に対応する軸であり、縦軸は出力値に対応する軸である。たとえば、音声処理装置は、音声情報を３０秒毎に分割し、分割した各音声情報の特徴量をモデル情報に入力して、各出力値１１ａ〜１１ｎを得る。分割した各音声情報は、分割音声情報の一例である。また、音声処理装置は、開始時刻から現在時刻までの音声情報の特徴量をモデル情報に入力して、出力値（図示略）を得る。音声処理装置は、リアルタイムに、会話状況を判定する。現在の時刻を「Ｔｃ」とする。

音声処理装置は、開始時刻から現在時刻Ｔｃまでの各出力値の平均値と、現在時刻Ｔｃから所定時間前（たとえば、５分前）までに含まれる各出力値の最小値と、開始時刻から現在時刻Ｔｃまでの出力値とを基にして、会話状況を判定する。

図１７に示す例において、開始時刻から現在時刻Ｔｃまでの各出力値の平均値は、時間帯Ｂ１に含まれる各出力値１１ａ〜１１ｎの平均値である。現在時刻Ｔｃから所定時間前までに含まれる各出力値の最小値は、時間帯Ｂ２に含まれる出力値１１ｃ〜１１ｎの最小値である。現在時刻Ｔｃの出力値は、時刻０〜時刻Ｔｃまでの区間における音声情報の特徴量をモデルに入力することで得られる出力値である。

本実施例２に係る音声処理装置は、「条件２および条件１を満たす場合」、または、「条件２および条件３を満たす場合」に、会話が異常な会話状況であると判定する。条件１〜３に含まれるＴｈ１〜Ｔｈ３は予め設定される閾値である。各閾値の大小関係は、Ｔｈ３＞Ｔｈ１＞Ｔｈ２である。

条件１：開始時刻から現在時刻Ｔｃまでの各出力値の平均値＞Ｔｈ１
条件２：現在時刻Ｔｃから所定時間前までに含まれる各出力値の最小値＞Ｔｈ２
条件３：開始時刻から現在時刻Ｔｃの出力値＞Ｔｈ３

本実施例２に係る音声処理装置は、出力値が安定しない場合であっても、上記の条件１〜３を用いて、会話状況が異常であるか否かを判定することで、会話状況を精度よく判定することができる。

図１８は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１８に示すように、この音声処理装置２００は、通信部２１０、記憶部２２０、制御部２３０を有する。

通信部２１０は、ネットワークを介して外部の装置とデータ通信を実行する処理部である。たとえば、通信部２１０は、顧客とオペレータとの会話を含む音声情報を収集するサーバ装置（図示略）から、音声情報を受信する。通信部２１０は、受信した音声情報を制御部２３０に出力する。通信部２１０は、通信装置の一例である。

記憶部２２０は、音声バッファ２２０ａと、モデル情報２２０ｂと、出力値蓄積バッファ２２０ｃとを有する。記憶部２２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声バッファ２２０ａは、顧客とオペレータとの会話の音声情報を記憶するバッファである。「モデルを学習する処理」を音声処理装置２００が行う場合には、音声バッファ２２０ａには、学習用の音声情報が蓄積される。これに対して、「会話状況を判定する処理」を音声処理装置２００が行う場合には、音声バッファ２２０ａには、判定対象となる音声情報が蓄積される。

モデル情報２２０ｂは、音声情報に含まれる会話が、異常な会話状況である度合いを示す出力値を出力するモデルの情報である。モデル情報２２０ｂに関するその他の説明は、実施例１で説明したモデル情報１２０ｂに関する説明と同様である。

出力値蓄積バッファ２２０ｃは、モデル情報２２０ｂを基に出力される出力値を格納するバッファである。図１９は、本実施例２に係る出力値蓄積バッファのデータ構造の一例を示す図である。図１９に示すように出力値蓄積バッファ２２０ｃは、テーブル２２１ａ，２２１ｂを有する。

テーブル２２１ａは、時間と、出力値とを対応付ける。テーブル２２１ａにおける時間は、特徴量を抽出した音声情報の時間を示すものである。出力値は、該当する時間の音声情報から抽出された特徴量をモデル情報２２０ｂに入力した際に得られる出力値Ｖを示す。

テーブル２２１ｂは、時間と、出力値とを対応付ける。テーブル２２１ｂにおける時間は、特徴量を抽出した音声情報の時間（会話の開始時刻からの経過時間）を示すものである。出力値は、該当する時間の音声情報から算出された特徴量を、モデル情報２２０ｂに入力した際に得られる出力値Ｖを示す。

図１８の説明に戻る。制御部２３０は、取得部２３０ａと、特徴量算出部２３０ｂと、モデル学習部２３０ｃと、会話時間管理部２３０ｄと、出力値算出部２３０ｅと、判定部２３０ｆとを有する。制御部２３０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２３０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

取得部２３０ａは、音声情報を取得し、取得した音声情報を音声バッファ２２０ａに格納する処理部である。たとえば、「モデルを学習する処理」を音声処理装置２００が行う場合には、取得部２３０ａは、学習用の音声情報を取得し、学習用の音声情報を音声バッファ２２０ａに格納する。「会話状況を判定する処理」を音声処理装置２００が行う場合には、取得部２３０ａは、判定対象となる音声情報を取得し、音声情報を音声バッファ２２０ａに格納する。

特徴量算出部２３０ｂは、音声バッファ２２０ａに格納された音声情報を基にして、特徴量を算出する処理部である。たとえば、特徴量算出部２３０ｂが算出する特徴量は、ストレス評価値、キーワードの検出回数、会話の開始時刻からの経過時間である。ストレス評価値、検出回数、経過時間に関する説明は後述する。

「モデルを学習する処理」を音声処理装置２００が行う場合には、特徴量算出部２３０ｂは、特徴量をモデル学習部２３０ｃに出力する。「会話状況を判定する処理」を音声処理装置２００が行う場合には、特徴量算出部２３０ｂは、特徴量を、出力値算出部２３０ｅに出力する。

図２０は、本実施例２に係る特徴量算出部の構成を示す機能ブロック図である。図２０に示すように、この特徴量算出部２３０ｂは、音声取得部２３１ａと、フレーム処理部２３１ｂと、ピッチ抽出部２３２と、パワー算出部２３３と、ピッチ・パワー蓄積部２３４と、ストレス評価値算出部２３５とを有する。また、特徴量算出部２３０ｂは、音声認識部２３６と、認識結果蓄積部２３７と、会話時間算出部２３８とを有する。

音声取得部２３１ａは、音声バッファ２２０ａに格納された音声情報を取得し、読み込んだ音声情報を、フレーム処理部２３１ｂに出力する。以下の説明では、音声取得部２３１ａにより読み込まれたデジタル信号の音声情報を、単に、「音声情報」と表記する。

フレーム処理部２３１ｂは、音声取得部２３１ａから取得する音声情報の信号時系列を、予め定められたサンプル数毎に「フレーム」として取り出し、フレームの情報を、ピッチ抽出部２３２、パワー算出部２３３、音声認識部２３６に出力する。フレーム処理部２３１ｂの処理は、実施例１のフレーム処理部１３１ｂの処理に対応する。

ピッチ抽出部２３２は、フレームのサンプル値を基にして、フレームの基本周波数（ピッチ）を抽出する処理部である。ピッチ抽出部２３２は、フレーム毎のピッチの情報を、ピッチ・パワー蓄積部２３４に蓄積する。ピッチ抽出部２３２の処理は、実施例１のピッチ抽出部１３２の処理に対応する。

パワー算出部２３３は、フレームのサンプル値を基にして、フレームのパワーを算出する処理部である。パワー算出部２３３は、フレーム毎のパワーの情報を、ピッチ・パワー蓄積部２３４に蓄積する。パワー算出部２３３の処理は、実施例１のパワー算出部１３３の処理に対応する。

ピッチ・パワー蓄積部２３４は、ピッチ抽出部２３２により抽出されたピッチの情報およびパワー算出部２３３により算出されたパワーの情報を格納するバッファである。ピッチ・パワー蓄積部２３４のデータ構造は、図６に示したピッチ・パワー蓄積部１３４のデータ構造と同様である。

ストレス評価値算出部２３５は、ピッチ・パワー蓄積部２３４に格納されたピッチおよびパワーの情報を基にして、設定時刻毎にストレス評価値を算出する処理部である。たとえば、ストレス評価値算出部２３５は、ストレス評価値算出部１３５と同様に、ストレス評価値を算出する。

ストレス評価値算出部２３５は、音声処理装置２００が「会話状況を判定する処理」を行う場合には、次の処理を行う。ストレス評価値算出部２３５は、会話の開始時刻から、出力制御信号を受信した時刻までに蓄積されたピッチ・パワーの組のサンプルを用いて、混合ガウス分布を最尤推定によりモデル化し、推定に用いたサンプルに対するモデルの平均対数尤度にマイナス１を掛けたものを、ストレス評価値として算出し、算出したストレス評価値を、第１ストレス値として、出力値算出部１３０ｅに出力する。「出力制御信号」は、会話時間管理部２３０ｄから出力される信号である。

また、ストレス評価値算出部２３５は、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻までに蓄積されたピッチ・パワーの組のサンプルを用いて、混合ガウス分布を最尤推定によりモデル化し、推定に用いたサンプルに対するモデルの平均対数尤度にマイナス１を掛けたものをストレス評価値として算出し、算出したストレス評価値を、第２ストレス値として、出力値算出部２３０ｅに出力する。

音声認識部２３６は、たとえば、ワードスポッティング型の音声認識を行うことで、音声情報に所定のキーワードが含まれているか否かを検出する処理部である。音声認識部２３６は、音声情報から所定のキーワードを検出する度に、所定のキーワードに対応する検出回数に１を加算する処理を行う。音声認識部２３６は、所定のキーワードと、検出回数とを対応付けた情報を、認識結果蓄積部２３７に蓄積する。所定のキーワードは、顧客が不満を感じた場合や、怒っている際によく発言するキーワードである。

たとえば、音声認識部２３６は、「第１検出回数」と、「第２検出回数」とを区別して、認識結果蓄積部２３７に蓄積する。第１検出回数は、会話の開始時刻から、出力制御信号を受信した時刻までの音声区間において検出した所定のキーワードの検出回数を示す。第２検出回数は、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻までの音声区間において検出した所定のキーワードの検出回数を示す。

また、音声認識部２３６は、音声認識を行うための音声区間検出処理を開始し、音声区間を検出した際の時間情報を、会話時間算出部２３８に出力する。

認識結果蓄積部２３７は、音声認識部２３６により検出された各キーワード（所定のキーワード）の検出回数の情報（第１検出回数、第２検出回数の情報）を保持する。図２１は、本実施例２に係る検出回数情報のデータ構造の一例を示す図である。図２１に示すように、検出回数情報２３７ａは、テーブル２３７ｂとテーブル２３７ｃとを有する。

テーブル２３７ｂは、キーワードと第１検出回数とを対応付ける。第１検出回数は、会話の開始時刻から、出力制御信号を受信した時刻までの音声区間において検出した所定のキーワードの検出回数を示す。

テーブル２３７ｃは、時間と、キーワードと、第２検出回数とを対応付ける。時間は、各出力制御信号を受信した時間間隔を示す。第２検出回数は、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻までの音声区間において検出した所定のキーワードの検出回数を示す。

認識結果蓄積部２３７は、音声処理装置２００が「モデルを学習する処理」を行う場合には、次の処理を行う。認識結果蓄積部２３７は、会話の開始時刻から、会話の終了時刻におけるテーブル２３７ｂの情報を、モデル学習部２３０ｃに出力する。

認識結果蓄積部２３７は、音声処理装置２００が「会話状況を判定する処理」を行う場合には、次の処理を行う。認識結果蓄積部２３７は、会話の開始時刻から、出力制御信号を受信した時刻までのテーブル２３７ｂの情報を、出力値算出部２３０ｅに出力する。また、認識結果蓄積部２３７は、テーブル２３７ｃのレコードのうち、前回出力制御信号を受け付けた時刻から、今回出力制御信号を受け付けた時刻に対応する時刻に対応する時間のレコードを、出力値算出部２３０ｅに出力する。たとえば、前回出力制御信号を受信した時刻を「ｔ_１」、今回出力制御信号を受信した時刻を「ｔ_２」とすると、認識結果蓄積部２３７は、テーブル２３７ｃのレコードのうち、時間「ｔ_１〜ｔ_２」に対応するレコードを、出力値算出部２３０ｅに出力する。

会話時間算出部２３８は、会話の開始時刻からの会話の経過時間を計算する処理部である。たとえば、会話時間算出部２３８は、図示しないタイマから時間情報を取得し、会話の開始時刻からの経過時間を計測する。会話時間算出部２３８は、各フレームに含まれるサンプル数の累計を基にして、経過時間を推定してもよい。会話時間算出部２３８は、開始時刻と、開始時刻からの経過時間との情報を、会話時間管理部２３０ｄに出力する。

会話時間算出部２３８は、音声処理装置２００が「モデルを学習する処理」を行う場合には、次の処理を行う。会話時間算出部２３８は、会話の開始時刻から、会話の終了時刻までの経過時間の情報を、モデル学習部２３０ｃに出力する。

会話時間算出部２３８は、音声処理装置２００が「会話状況を判定する処理」を行う場合には、次の処理を行う。会話時間算出部２３８は、会話の開始時刻から、出力制御信号を受信した時刻までの経過時間の情報を、出力値算出部２３０ｅに出力する。また、会話時間算出部２３８は、前回出力制御信号を受け付けた時刻から、今回出力信号を受け付けた時刻までの時間間隔の情報を、出力値算出部２３０ｅに出力する。

図１８の説明に戻る。モデル学習部２３０ｃは、学習用の音声情報から算出された特徴量を用いて、モデル情報２２０ｂを生成（学習）する処理部である。モデル学習部２３０ｃが、モデル情報２２０ｂを生成する処理は、実施例１で説明したモデル学習部１３０ｃの処理に対応する。

会話時間管理部２３０ｄは、会話時間算出部２３８から、会話の開始時刻と、会話の開始時刻からの経過時間とを取得し、予め指定された時間Ｔを経過したか否かを判定する。会話時間管理部２３０ｄは、時間Ｔを経過する度に、「出力制御信号」を、ストレス評価値算出部２３５、音声認識部２３６、認識結果蓄積部２３７、会話時間算出部２３８、出力値算出部２３０ｅに出力する。

会話時間管理部２３０ｄは、会話時間算出部２３８から、会話の終了時刻の情報を受け付けた場合には、会話の終了時刻の情報を、判定部２３０ｆに出力する。

出力値算出部２３０ｅは、特徴量算出部２３０ｂから取得する特徴量と、モデル情報２２０ｂとを基にして、出力値を算出する処理部である。出力値算出部２３０ｅは、算出した出力値を、出力値蓄積バッファ２２０ｃに蓄積する。

たとえば、出力値算出部２３０ｅは、会話時間管理部２３０ｄから出力制御信号を取得したタイミングで、特徴量算出部２３０ｂから特徴量を取得する。この特徴量には、第１特徴量と、第２特徴量とが含まれる。

第１特徴量は、会話の開始時刻から、今回出力制御信号を受信した時刻までの音声情報を基にして抽出される特徴量である。第１特徴量は、第１ストレス評価値、第１検出回数の情報、会話の開始時刻から、今回出力制御信号を受信した時刻までの経過時間の情報を含む。

出力値算出部２３０ｅは、会話時間管理部２３０ｄから出力制御信号を取得したタイミングで、特徴量算出部２３０ｂから第１特徴量を取得し、取得した第１特徴量をモデル情報２２０ｂの入力層２０ａに入力する。出力値算出部２３０ｅは、特徴量をモデル情報２２０ｂの入力層２０ａに入力した際に、出力層２０ｃから出力される確率「Ｏｔ」と、確率「Ｏｎ」との値を取得し、式（１）〜式（３）を基にして、出力値Ｖを算出する。出力値算出部２３０ｅは、第１特徴量から算出した出力値Ｖの情報を、テーブル２２１ｂに登録する。

出力値算出部２３０ｅは、会話時間管理部２３０ｄから出力制御信号を取得する度に、上記の処理を繰り返し実行することで、各経過時間の第１特徴量に対応する出力値Ｖを順次算出し、算出した出力値Ｖの情報を、テーブル２２１ｂに格納して更新する。

一方、第２特徴量は、前回出力制御信号を受信した時刻から、今回出力制御信号を受信した時刻までの区間における音声情報を基にして抽出される特徴量である。第２特徴量は、第２ストレス評価値、第２検出回数の情報、前回出力制御信号を受信した時刻から、今回出力制御信号を受信した時刻までの経過時間の情報を含む。

出力値算出部２３０ｅは、会話時間管理部２３０ｄから出力制御信号を取得したタイミングで、特徴量算出部２３０ｂから第２特徴量を取得し、取得した第２特徴量をモデル情報２２０ｂの入力層２０ａに入力する。出力値算出部２３０ｅは、特徴量をモデル情報２２０ｂの入力層２０ａに入力した際に、出力層２０ｃから出力される確率「Ｏｔ」と、確率「Ｏｎ」との値を取得し、式（１）〜式（３）を基にして、出力値Ｖを算出する。出力値算出部２３０ｅは、第２特徴量から算出した出力値Ｖの情報を、該当する時間に対応付けて、テーブル２２１ａに登録する。

たとえば、出力値算出部２３０ｅは、時間「ｔ_１〜ｔ_２」の音声情報から抽出された第２特徴量から、出力値Ｖ_２を算出した場合には、時間「ｔ_１〜ｔ_２」と、出力値Ｖ_２とを対応付けて、テーブル２２１ａに登録する。

出力値算出部２３０ｅは、会話時間管理部２３０ｄから出力制御信号を取得する度に、上記の処理を繰り返し実行することで、各時間間隔の第２特徴量に対応する出力値Ｖを順次算出し、算出した出力値Ｖの情報を、テーブル２２１ａに格納する。

判定部２３０ｆは、出力値蓄積バッファ２２０ｃに格納された出力値の情報を基にして、会話が異常な会話状況であるのか、通常の会話状況であるのかを判定する処理部である。判定部１３０ｆは、上述した条件１〜３で用いる各値を算出し、会話状況が異常であるか否かを判定する。

判定部２３０ｆが、開始時刻から現在時刻Ｔｃまでの各出力値の平均値を算出する処理について説明する。判定部２３０ｆは、図１９のテーブル２２１ａに格納された、開始時刻から現在時刻Ｔｃまでの各出力値の平均値を算出する。

判定部２３０ｆが、現在時刻Ｔｃから所定時間前までに含まれる各出力値の最小値を算出する処理について説明する。判定部２３０ｆは、図１９のテーブル２２１ａに格納された各出力値のうち、現在時刻Ｔｃから所定時間前までに含まれる複数の出力値を抽出する。判定部２３０ｆは、抽出した複数の出力値のうち、最小の出力値を、最小値として算出する。

判定部２３０ｆが、現在時刻Ｔｃの出力値を特定する処理について説明する。判定部２３０ｆは、図１９のテーブル２２１ｂに格納された最新の出力値を、現在時刻Ｔｃの出力値として特定する。

判定部２３０ｆは、条件１〜３で用いる各値を算出し、「条件２および条件１を満たす場合」、または、「条件２および条件３を満たす場合」に、会話が異常な会話状況であると判定する。判定部２３０ｆは、「条件２および条件１を満たさない場合」、かつ、「条件２および条件３を満たさない場合」に、会話が通常の会話状況であると判定する。判定部２３０ｆは、判定結果を表示装置（図示略）に出力して表示させてもよいし、通信部２１０を介して、外部装置に通知してもよい。

次に、本実施例２に係る音声処理装置２００の処理手順の一例について説明する。図２２および図２３は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図２２に示すように、音声処理装置２００の特徴量算出部２３０ｂは、フレーム処理を実行して、音声情報からフレームを抽出する（ステップＳ２０１）。特徴量算出部２３０ｂは、フレームのピッチを抽出し（ステップＳ２０２）、パワーを算出する（ステップＳ２０３）。

特徴量算出部２３０ｂは、ピッチおよびパワーの値を蓄積し（ステップＳ２０４）、ステップＳ２０７に移行する。一方、特徴量算出部２３０ｂは、音声認識を実行し（ステップＳ２０５）、検出回数情報を更新し（ステップＳ２０６）、ステップＳ２０７に移行する。

音声処理装置２００の会話時間管理部２３０ｄは、出力値を算出する時間であるか否かを判定する（ステップＳ２０７）。会話時間管理部２３０ｄは、出力値を算出する時間でない場合には（ステップＳ２０７，Ｎｏ）、ステップＳ２０１に移行する。

音声処理装置２００は、出力値を算出する時間である場合には（ステップＳ２０７，Ｙｅｓ）、ストレス評価値を算出し（ステップＳ２０８）、ステップＳ２０９に移行する。音声処理装置２００の出力値算出部２３０ｅは、第１特徴量、第２特徴量に基づいて、モデルの出力値を算出し、出力値蓄積バッファ２２０ｃに蓄積し（ステップＳ２０９）、図２３のステップＳ２１０に移行する。

図２３の説明に移行する。判定部２３０ｆは、条件１〜３を満たすための値を算出する（ステップＳ２１０）。判定部２３０ｆは、会話が異常な会話状況である場合には（ステップＳ２１１，Ｙｅｓ）、ステップＳ２１４に移行する。

一方、判定部２３０ｆは、会話が異常な会話状況でない場合には（ステップＳ２１１，Ｎｏ）、会話が終了したか否かを判定する（ステップＳ２１２）。判定部２３０ｆは、会話が終了していない場合には（ステップＳ２１２，Ｎｏ）、図２２のステップＳ２０１に移行する。

判定部２３０ｆは、会話が終了した場合には（ステップＳ２１２，Ｙｅｓ）、会話が通常の会話状況であると判定する（ステップＳ２１３）。判定部２３０ｆは、判定結果を出力する（ステップＳ２１４）。

次に、本実施例２に係る音声処理装置２００の効果について説明する。音声処理装置２００は、開始時刻から現在時刻Ｔｃまでの各出力値の平均値と、現在時刻Ｔｃから所定時間前までに含まれる各出力値の最小値と、現在時刻Ｔｃの出力値とを基にして、会話状況を判定する。これにより、開始時刻から現在時刻Ｔｃまでの音声情報の特徴量に対する出力値に加え、各時間間隔の区間内における音声情報の特徴量に対する出力値の情報も判定に用いることができるため、会話状況を精度よく判定することができる。

ところで、上述した実施例２に対する音声処理装置２００は、リアルタイムに、会話状況を判定していたが、これに限定されるものではなく、会話が終了した際に、オフライン処理を実行し、会話状況を判定してもよい。以下の説明では、オフライン処理を実行する音声処理装置２００を、単に「音声処理装置２００」と表記する。

たとえば、会話が時刻Ｔｅに終了した際に、音声処理装置２００は、オフライン処理を実行することで、次の３つの軌跡（第１の軌跡、第２の軌跡、第３の軌跡）を求める。

図２４Ａは、第１の軌跡を説明するための図である。図２４Ａの横軸は、会話時間に対応する軸であり、縦軸は出力値に対応する軸である。音声処理装置２００は、実施例１の音声処理装置１００と同様にして、開始時刻から設定時刻毎に、それまでの区間における音声情報の特徴量をモデル情報２２０ｂに入力して、出力値を算出する。図２４Ａに示す例では、終了時刻Ｔｅまでに、出力値１２ａ〜１２ｒが算出される。音声処理装置２００は、出力値１２ａ〜１２ｒの最大値を特定する。たとえば、最大値は、１２ｇとなる。第１の軌跡の最大値を「第１最大値」と表記する。

図２４Ｂは、第２の軌跡を説明するための図である。図２４Ｂの横軸は、会話時間に対応する軸であり、縦軸は出力値に対応する軸である。音声処理装置２００は、設定時刻毎に区切った音声情報の特徴量（前後設定時刻間の音声情報の特徴量）をモデル情報２２０ｂに入力して、出力値を算出する。図２４Ｂに示す例では、終了時刻Ｔｅまでに、出力値１３ａ〜１３ｒが算出される。音声処理装置２００は、出力値１３ａ〜１３ｒの最小値を特定する。たとえば、最小値は、１３ｍとなる。第２の軌跡の最小値を「第２最小値」と表記する。

図２４Ｃは、第３の軌跡を説明するための図である。図２４Ｃの横軸は、会話時間に対応する軸であり、縦軸は出力値に対応する軸である。音声処理装置２００は、図２４Ｂと同様にして、設定時刻毎に区切った音声情報の特徴量（前後設定時刻間の音声情報の特徴量）をモデル情報２２０ｂに入力して、出力値１３ａ〜１３ｒを算出する。そして、音声処理装置２００は、設定時刻毎に、開始時刻から設定時刻までに算出された各出力値の平均値１４ａ〜１４ｒを算出する。平均値１４ａ〜１４ｒが第３の軌跡となる。たとえば、平均値１４ａは、出力値１３ａに対応する。平均値１４ｂは、出力値１３ａ，１３ｂの平均値である。平均値１４ｃは、出力値１３ａ〜１３ｃの平均値である。平均値１４ｄは、出力値１３ａ〜１３ｄの平均値である。平均値１４ｅは、出力値１３ａ〜１３ｅの平均値である。

同様にして、平均値１４ｆは、出力値１３ａ〜１３ｆの平均値である。平均値１４ｇは、出力値１３ａ〜１３ｇの平均値である。平均値１４ｈは、出力値１３ａ〜１３ｈの平均値である。平均値１４ｉは、出力値１３ａ〜１３ｉの平均値である。平均値１４ｊは、出力値１３ａ〜１３ｊの平均値である。平均値１４ｋは、出力値１３ａ〜１３ｋの平均値である。平均値１４ｌは、出力値１３ａ〜１３ｌの平均値である。平均値１４ｍは、出力値１３ａ〜１３ｍの平均値である。平均値１４ｎは、出力値１３ａ〜１３ｎの平均値である。平均値１４ｏは、出力値１３ａ〜１３ｏの平均値である。平均値１４ｐは、出力値１３ａ〜１３ｐの平均値である。平均値１４ｑは、出力値１３ａ〜１３ｑの平均値である。平均値１４ｒは、出力値１３ａ〜１３ｒの平均値である。

音声処理装置２００は、平均値１４ａ〜１４ｒの最大値を特定する。たとえば、最大値は、１４ｄとなる。第３の軌跡の最大値を「第３最大値」と表記する。

音声処理装置２００は、「条件５および条件４を満たす場合」、または、「条件５および条件６を満たす場合」に、会話が異常な会話状況であると判定する。条件４〜６に含まれるＴｈ１〜Ｔｈ３は予め設定される閾値である。各閾値の大小関係は、Ｔｈ１＞Ｔｈ３＞Ｔｈ２である。

条件４：開始時刻から終了時刻Ｔｅまでの各出力値を取った軌跡の最大値（第１最大値）＞Ｔｈ１
条件５：開始時刻から終了時刻Ｔｅまでに含まれる各出力値の最小値（第２最小値）＞Ｔｈ２
条件６：開始時刻から終了時刻Ｔｅまで、時間間隔ごとにそれまでの出力値を平均化した軌跡の最大値（第３最大値）＞Ｔｈ３

本実施例２に係る音声処理装置２００は、開始時刻から終了時刻Ｔeまでの音声情報の特徴量に対する出力値に加え、各時間間隔の区間における音声情報の特徴量に対する出力値の統計量も判定に用いることができるため、上記の条件４〜６を用いて、会話状況が異常であるか否かを判定することで、会話状況を精度よく判定することができる。

次に、上記実施例に示した音声処理装置１００，２００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２５は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図２５に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る読み取り装置３０４と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置３０５とを有する。例えば、インターフェース装置３０５は、通信装置等に接続される。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１〜３０７は、バス３０８に接続される。

ハードディスク装置３０７は、取得プログラム３０７ａ、特徴量算出プログラム３０７ｂ、モデル学習プログラム３０７ｃ、会話時間管理プログラム３０７ｄ、出力値算出プログラム３０７ｅ、判定プログラム３０７ｆを読み出してＲＡＭ３０６に展開する。

取得プログラム３０７ａは、取得プロセス３０６ａとして機能する。特徴量算出プログラム３０７ｂは、特徴量算出プロセス３０６ｂとして機能する。モデル学習プログラム３０７ｃは、モデル学習プロセス３０６ｃとして機能する。会話時間管理プログラム３０７ｄは、会話時間管理プロセス３０６ｄとして機能する。出力値算出プログラム３０７ｅは、出力値算出プロセス３０６ｅとして機能する。判定プログラム３０７ｆは、判定プロセス３０６ｆとして機能する。

取得プロセス３０６ａの処理は、取得部１３０ａ、２３０ａに対応する。特徴量算出プロセス３０６ｂの処理は、特徴量算出部１３０ｂ、２３０ｂに対応する。モデル学習プロセス３０６ｃの処理は、モデル学習部１３０ｃ、２３０ｃに対応する。会話時間管理プロセス３０６ｄの処理は、会話時間管理部１３０ｄ、２３０ｄに対応する。出力値算出プロセス３０６ｅの処理は、出力値算出部１３０ｅ、２３０ｅに対応する。判定プロセス３０６ｆの処理は、判定部１３０ｆ、２３０ｆに対応する。

なお、各プログラム３０７ａ〜３０７ｆについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ〜３０７ｆを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。

（付記２）前記判定する処理は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記１に記載の音声処理プログラム。

（付記３）前記判定する処理は、前記異常領域を第１領域と、前記第１領域よりも出力値の大きい領域に相当する第２領域とに分割し、前記複数の出力値の軌跡の一部が前記第２領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第１領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする付記２に記載の音声処理プログラム。

（付記４）前記判定する処理は、前記通常領域を第３領域と、前記第３領域よりも出力値の小さい領域に相当する第４領域とに分割し、前記複数の出力値の軌跡の一部が前記第４領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする付記２または３に記載の音声処理プログラム。

（付記５）前記判定する処理は、前記出力値の軌跡が前記通常領域または前記異常領域を通過した順番を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記２に記載の音声処理プログラム。

（付記６）前記開始時刻は、前記音声情報に含まれる前記判定対象とする会話の開始が検出された時刻から所定時間後であることを特徴とする付記１〜５のうちいずれか一つに記載の音声処理プログラム。

（付記７）前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を更に算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を更に算出し、
前記判定する処理は、前記開始時刻から現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の現在時刻までの平均値と、前記現在時刻よりも所定時間前の時刻から前記現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の最小値と、開始時刻から現在時刻までの音声情報の特徴量から得られる出力値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記１に記載の音声処理プログラム。

（付記８）前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を算出し、
前記判定する処理は、複数の分割音声情報の特徴量から得られる前記複数の出力値について開始時刻から設定時刻までの平均値を設定時刻ごとに算出して得られる軌跡の最大値と、複数の分割音声情報の特徴量から得られる前記複数の出力値の最小値と、前記開始時刻から各設定時刻までの音声情報の特徴量から得られる各出力値の最大値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記１に記載の音声処理プログラム。

（付記９）コンピュータが実行する音声処理方法であって、
音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理を実行することを特徴とする音声処理方法。

（付記１０）前記判定する処理は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記９に記載の音声処理方法。

（付記１１）前記判定する処理は、前記異常領域を第１領域と、前記第１領域よりも出力値の大きい領域に相当する第２領域とに分割し、前記複数の出力値の軌跡の一部が前記第２領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第１領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする付記１０に記載の音声処理方法。

（付記１２）前記判定する処理は、前記通常領域を第３領域と、前記第３領域よりも出力値の小さい領域に相当する第４領域とに分割し、前記複数の出力値の軌跡の一部が前記第４領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする付記１０または１１に記載の音声処理方法。

（付記１３）前記判定する処理は、前記出力値の軌跡が前記通常領域または前記異常領域を通過した順番を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記１０に記載の音声処理方法。

（付記１４）前記開始時刻は、前記音声情報に含まれる前記判定対象とする会話の開始が検出された時刻から所定時間後であることを特徴とする付記９〜１３のうちいずれか一つに記載の音声処理方法。

（付記１５）前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を更に算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を更に算出し、
前記判定する処理は、前記開始時刻から現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の現在時刻までの平均値と、前記現在時刻よりも所定時間前の時刻から前記現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の最小値と、開始時刻から現在時刻までの音声情報の特徴量から得られる出力値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記９に記載の音声処理方法。

（付記１６）前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を算出し、
前記判定する処理は、複数の分割音声情報の特徴量から得られる前記複数の出力値について開始時刻から設定時刻までの平均値を設定時刻ごとに算出して得られる軌跡の最大値と、複数の分割音声情報の特徴量から得られる前記複数の出力値の最小値と、前記開始時刻から各設定時刻までの音声情報の特徴量から得られる各出力値の最大値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記９に記載の音声処理方法。

（付記１７）音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出する特徴量算出部と、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出する出力値算出部と、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する判定部と
を有することを特徴とする音声処理装置。

（付記１８）前記判定部は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする付記１７に記載の音声処理装置。

（付記１９）前記判定部は、前記異常領域を第１領域と、前記第１領域よりも出力値の大きい領域に相当する第２領域とに分割し、前記複数の出力値の軌跡の一部が前記第２領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第１領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする付記１８に記載の音声処理装置。

（付記２０）前記判定部は、前記通常領域を第３領域と、前記第３領域よりも出力値の小さい領域に相当する第４領域とに分割し、前記複数の出力値の軌跡の一部が前記第４領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする付記１８または１９に記載の音声処理装置。

１００，２００音声処理装置
１１０，２１０通信部
１２０，２２０記憶部
１２０ａ，２２０ａ音声バッファ
１２０ｂ，２２０ｂモデル情報
１２０ｃ，２２０ｃ出力値蓄積バッファ
１３０，２３０制御部
１３０ａ，２３０ａ取得部
１３０ｂ，２３０ｂ特徴量算出部
１３０ｃ，２３０ｃモデル学習部
１３０ｄ，２３０ｄ会話時間管理部
１３０ｅ，２３０ｅ出力値算出部
１３０ｆ，２３０ｆ判定部

Claims

音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
前記判定する処理は、前記複数の出力値の軌跡がとりうる範囲を、会話の状況が異常な場合にとる異常領域と、会話の状況が通常である場合にとる通常領域とに分割し、前記複数の出力値の軌跡と、前記異常領域および前記通常領域とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項１に記載の音声処理プログラム。
前記判定する処理は、前記異常領域を第１領域と、前記第１領域よりも出力値の大きい領域に相当する第２領域とに分割し、前記複数の出力値の軌跡の一部が前記第２領域に含まれる場合、または、前記複数の出力値の全軌跡が前記第１領域に含まれる場合に、前記判定対象とする会話が異常な会話状況であると判定することを特徴とする請求項２に記載の音声処理プログラム。
前記判定する処理は、前記通常領域を第３領域と、前記第３領域よりも出力値の小さい領域に相当する第４領域とに分割し、前記複数の出力値の軌跡の一部が前記第４領域に含まれる場合に、前記判定対象とする会話が正常な会話状況であると判定することを特徴とする請求項２または３に記載の音声処理プログラム。
前記判定する処理は、前記出力値の軌跡が前記通常領域または前記異常領域を通過した順番を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項２に記載の音声処理プログラム。
前記開始時刻は、前記音声情報に含まれる前記判定対象とする会話の開始が検出された時刻から所定時間後であることを特徴とする請求項１〜５のうちいずれか一つに記載の音声処理プログラム。
前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を更に算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を更に算出し、
前記判定する処理は、前記開始時刻から現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の現在時刻までの平均値と、前記現在時刻よりも所定時間前の時刻から前記現在時刻までの複数の分割音声情報の特徴量から得られる複数の出力値の最小値と、前記開始時刻から現在時刻までの音声情報の特徴量から得られる出力値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項１に記載の音声処理プログラム。
前記特徴量を算出する処理は、前記音声情報を前記所定の時間間隔毎に分割し、分割した複数の分割音声情報から複数の特徴量を算出し、
前記出力値を算出する処理は、前記複数の分割音声情報から算出した複数の特徴量を前記モデルに入力することで、複数の出力値を算出し、
前記判定する処理は、複数の分割音声情報の特徴量から得られる前記複数の出力値について開始時刻から設定時刻までの平均値を設定時刻毎に算出して得られる軌跡の最大値と、複数の分割音声情報の特徴量から得られる前記複数の出力値の最小値と、前記開始時刻から各設定時刻までの音声情報の特徴量から得られる各出力値の最大値とを基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定することを特徴とする請求項１に記載の音声処理プログラム。
コンピュータが実行する音声処理方法であって、
音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出し、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出し、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する
処理を実行することを特徴とする音声処理方法。
音声情報に含まれる判定対象とする会話の開始時刻から所定の時間間隔毎に設定された設定時刻に基づいて、前記開始時刻から各設定時刻までの複数の音声情報から複数の特徴量を算出する特徴量算出部と、
会話の開始時刻から終了時刻までの音声情報の特徴量を基にして生成されたモデルに、前記設定時刻毎に算出した複数の特徴量を入力することで、前記複数の特徴量に対応する前記モデルの複数の出力値を設定時刻毎に算出する出力値算出部と、
前記複数の出力値を基にして、前記判定対象とする会話が異常な会話状況であるか否かを判定する判定部と
を有することを特徴とする音声処理装置。