JP2010175684A

JP2010175684A - 通話状態判定装置、通話状態判定方法、プログラム、記録媒体

Info

Publication number: JP2010175684A
Application number: JP2009016335A
Authority: JP
Inventors: Narihisa Nomoto; 済央野本; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-01-28
Filing date: 2009-01-28
Publication date: 2010-08-12
Anticipated expiration: 2029-01-28
Also published as: JP4972107B2

Abstract

【課題】正確な話者の通話状態を判定する。
【解決手段】第２話者と通話をしている第１話者が、第１状態か第２状態かを判定する通話状態判定装置であって、第１話者と第２話者の発話区間を検出し、予め定められた数の発話対をセグメントとして抽出し、発話対毎に、発話状況に関わる対話的特徴量を算出し、対話的特徴量をセグメント毎に集計することで特徴ベクトルを求め、予め定められた判別式に特徴ベクトルの各要素を代入することで、第１状態スコアを求め、第１状態スコアが予め定められた第１閾値以上であれば、そのセグメントを第１状態セグメントとして判定し、第１状態セグメントが予め定められた第２閾値以上であれば、通話状態は第１状態である旨の情報を出力する。
【選択図】図１

Description

本発明は例えば、二人の話者が対話する状況下の入力音声信号から、各話者の感情状態を推定する通話状態判定装置、通話状態判定方法、プログラム、記録媒体に関する。

近年、企業の抱えるコールセンタに集まる顧客からの要望や不満といった生の声から企業にとって何か有益な情報を得ようとする動きが盛んである。また、コールセンタは企業の顔という機能も重要視され始め、顧客が企業に対し抱くイメージを向上させるために、コールセンタのサービスの質の向上も企業が力を入れている。そのような中で、顧客が怒っている通話（以下、「クレーム通話」という。）を自動で見つけ出す技術がこれまで以上に望まれている。クレーム通話を分析することで、顧客の強い要望や不満、商品・サービスの不具合や問題点などといったことや、クレーム通話を引き起こすようなオペレータ対応の問題点を見つけ出したり、リアルタイムでオペレータの対応状況を監視することで、クレームの発生を迅速に検出して対応するといったことが可能になる。

クレーム通話を見つけ出すための話者の「怒り」音声の感情認識技術として、従来は音声の高さ（ピッチ周波数）や大きさ（パワー）、またはそれらの変化成分（Δ成分）、話速などといった音声特徴に着目した発話音声区間の音響的特徴量が一般的に用いられている（特許文献１参照、以下、「先行技術１」という。）。

その他、通話におけるオペレータの相槌に着目した手法も提案されている（特許文献２参照、以下、「先行技術２」という。）。これは、予め登録しておいた相槌単語を音声認識し、通話開始時刻から初めて相槌がうたれた開始時刻に基づいて、クレーム状態であるか、否かの判定を行うものである。

特開２００５−３４５４９６号公報特開２００７−２８６０９７号公報

先行技術１の問題点について説明する。コールセンタで収録される顧客の音声は電話音声であり、収録されるノイズや帯域制限フィルタがかかっているため、ピッチ周波数（ピッチパタン）の抽出が困難で誤検出しやすい。また、電話機のボリューム設定や、話し手の口と受話器の距離により話者が同じ音声で話したとしても、受信側録音機で計算されるパワー値が異なってしまう。また、分析する顧客の音声（またはオペレータの音声）は、話し方や電話環境により変動する。従って、声の高さ（ピッチ周波数）や大きさ（パワー）などの音響的な特徴量を正確に算出することは困難であり、クレーム判定を高精度で頑健に行うことは難しい。また、怒り方は話者によって様々であり、怒声を上げて怒る場合もあれば、冷静な声で怒る場合もある。また怒声を上げて怒る話者でも、会話のはじめから終わりまで常に怒声を上げ続けているわけではない。そのため、声の高さや大きさなどの音響的な特徴だけから顧客が怒っているか否かを判定することは難しい。

先行技術２の問題点について説明する。この技術は、通話開始からの通話でないとクレームを判定できない。従って、例えばオペレータの対応が悪く、通話の途中から顧客が怒り出すような場合には、クレーム通話を認識することは難しかった。

上記の課題を解決するために、本願の通話状態判定装置は、第２話者と通話をしている第１話者が、第１状態か第２状態かを判定する通話状態判定装置であり、検出部と、抽出部と、算出部と、ベクトル化部と、スコア計算部と、判定部と、出力部と、を有する。検出部は、第１話者と第２話者の発話区間を検出する。抽出部は、予め定められた数の発話対をセグメントとして抽出する。算出部は、発話対毎に、発話状況に関わる対話的特徴量を算出する。ベクトル化部は、対話的特徴量をセグメント毎に集計することで特徴ベクトルを求める。スコア計算部は、予め定められた判別式に特徴ベクトルの各要素を代入することで、第１状態スコアを求める。判定部は、第１状態スコアが予め定められた第１閾値以上であれば、そのセグメントを第１状態セグメントとして判定する。出力部は、第１状態セグメントが予め定められた第２閾値以上であれば、通話状態は第１状態である旨の情報を出力する。

本発明の通話判定装置によれば、先行技術１のように声の高さや大きさなどの音響的特徴量ではなく、対話的な特徴である対話的特徴量を用いて、顧客がクレーム状態か否かを判定する。対話的特徴量は、顧客の電話環境、顧客の音声または話し方などに変動されることはないため、先行技術１の問題点を解決でき、頑健にかつ精度よくクレーム判定を行うことができる。

また、先行技術２のように通話開始から初めて相槌が打たれた時の開始時間に基づいてクレーム状態であるか否かの判定をしていたが、本発明では、通話中の発話対毎の対話的特徴量を用いて、クレーム状態であるか否かの判定をするので、顧客が通話途中から怒り出したとしても、頑健にかつ精度よくクレーム判定を行うことができ、先行技術２の問題点を解決できる。

本実施例の通話状態判定装置の機能構成例を示した図である。本実施例の通話状態判定装置の処理フローを示した図である。Ａ〜Ｄはそれぞれ発話対について示した図である。セグメントについて示した図である。Ａ〜Ｃはそれぞれ対話的特徴量について示した図である。

以下の説明では、コールセンタにおいて、第１話者を顧客とし、第２話者をオペレータとし、第１状態を顧客が怒っている状態（以下、「クレーム状態」という。）とし、第２状態を顧客が怒っていない状態（つまり、平常状態、以下、「非クレーム状態」という。）とする。また、顧客、オペレータがそれぞれ話していることを発話といい、発話の集合を通話という。

図１に通話状態判定装置１００などの機能構成例を示し、図２に処理フローを示す。顧客とオペレータの通話音声が入力端２に入力されると、検出部４は、顧客（第１話者）とオペレータ（第２話者）の発話区間を検出する（ステップＳ２）。具体的には、既存の分離アダプタ等のハードウェアや音源分離技術により、顧客とオペレータの音声を分離し、各発話毎に開始時刻と終了時刻を求める。発話区間検出のための技術として、任意で定めた予め定められた第３閾値Ｌ_３以上の音声パワーがある一定時間以上続いた区間を発話区間とする手法などがある。

図３Ａ〜Ｄにオペレータの発話と顧客の発話とを模式的に示す。ハッチングしていない矩形がオペレータの発話区間を示し、ハッチングしている矩形が顧客の発話区間を示し、横軸が時間軸を示す。図３に示すように、オペレータと顧客が別にステレオ録音された場合は、モノラル録音より発話区間検出は容易になる。モノラル録音の場合には、顧客とオペレータとの音声を識別するための手段と併用する必要がある。例えば、音声スペクトルを特徴量とし、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｑｔｕｒｅＭｏｄｅｌ）を用いて、顧客とオペレータの音声を分離すればよい。

ここで、図３Ａに示すように、（図３Ａの例ではオペレータの）連続的な発話が終了して、相手（図３Ａの例では顧客）が話し始めた場合に発話権が交代したとみなす。そして発話開始時点からこの発話終了時点までを発話区間とする。図３Ｂ記載のオペレータの発話については、途中で発話をやめているが、発話権が交代することなく、再度オペレータは発話し始めている。この場合も、オペレータの１つの発話区間とする。また、図３Ｃに示すように、オペレータの発話に重なるように顧客は相槌をうっているが、この場合も発話権は交代しておらず、この場合もオペレータの１つの発話とみなす。また、１つの顧客の１つの発話とオペレータの１つの発話との対を発話対という。つまり、図３Ａ〜Ｃの例では、オペレータの発話と顧客の発話との対が発話対である。また、図３Ａ〜Ｃでは、オペレータ→顧客の順番での発話対を示したが、図３Ｄに示すように、顧客→オペレータの順番に発話している場合も発話対と呼ぶ。

次に、抽出部６は、予め定められた数Ｑの発話対をセグメントとして抽出する（ステップＳ４）。図４にセグメント抽出の模式図を示す。図４の例では、Ｑ＝３、つまり、３つの発話対を１つのセグメントとした場合を示す。まず、３つの発話対を抽出すると、一定間隔ごと、または、１発話区間ごとにスライドさせて、再度、予め定められた数Ｑ（この例では３つ）の発話対を抽出する。この処理を繰り返し、セグメントを抽出していく。また、予め定められた数Ｑを１としてもよく、この場合は、１つの発話対が１つのセグメントとなる。

次に、算出部８は、第１話者（顧客）と第２話者（オペレータ）の発話対毎に、発話状況に関わる対話的特徴量Ｒを算出する（ステップＳ６）。上記先行技術１で示されているような発話単位での声の大きさや高さなどの音響的特徴ではなく、この対話的特徴量Ｒとは、第１話者、第２話者の間の発話集合からなる対話についての特徴量である。

この実施例では、対話的特徴量Ｒとして、（１）発話対毎の顧客（第１話者）の発話時間Ａ（２）発話対毎のオペレータ（第２話者）の発話時間Ｂ（３）発話対毎のオペレータの発話時間と顧客の発話時間の離散度Ｃ（４）発話対毎の顧客の相槌回数Ｄ（５）発話対毎のオペレータの相槌回数Ｅ（６）発話対毎の顧客の発話とオペレータの発話についての無音時間Ｆ（７）発話対毎の顧客の発話とオペレータの発話についての重複時間Ｇ、などを用いる。それぞれを詳細に説明する。また、（１）〜（７）の対話的特徴量の模式図を図５Ａ〜図５Ｃに示す。

（１）顧客の発話時間Ａ
図５Ａに顧客の発話時間Ａを示す。対話的特徴量として、顧客の発話時間を用いる理由は、
顧客の発話時間Ａが長い・・・顧客がクレーム状態にある。
顧客の発話時間Ａが短い・・・顧客が非クレーム状態にある。
という現象が経験的に分かっており、この現象を利用するためである。なぜなら、顧客がクレーム状態にある場合には、顧客はオペレータに対して一方的に話す場合が多く、顧客の発話時間Ａが長くなる傾向にあるからである。

この場合には、算出部８には、第１算出手段８１を具備させる（図１参照）。第１算出手段８１は顧客の発話時間を算出するものである。発話時間の算出方法の一例として、顧客の発話開始時点から発話終了時点までの時間を測定する。

（２）オペレータの発話時間Ｂ
図５Ａにオペレータの発話時間Ｂについて示す。対話的特徴量として、オペレータの発話時間Ｂを用いる理由は、
オペレータの発話時間Ｂが長い・・・顧客が非クレーム状態にある。
オペレータの発話時間Ｂが短い・・・顧客がクレーム状態にある。
という現象が経験的に分かっており、この現象を利用するためである。なぜなら、顧客がクレーム状態にある場合には、顧客はオペレータに対して一方的に話す場合が多く、オペレータがあまり発話せず、オペレータの発話時間Ｂは短くなる傾向があるからである。

この場合には、算出部８には、第２算出手段８２を具備させる。第２算出手段８２はオペレータの発話時間を算出するものである。発話時間の算出方法の一例として、オペレータの発話開始時点から発話終了時点までの時間を測定する。

（３）顧客の発話時間とオペレータの発話時間の離散度Ｃ
離散度Ｃについて図５Ｂに示す。ここで離散度Ｃとは、顧客の発話時間Ａがオペレータの発話時間Ｂと比較して、ＡとＢの離散している度合いを示すものであり、例えば、差（Ａ−Ｂ）または比（Ａ／Ｂ）である。対話的特徴量として、顧客の発話時間とオペレータの発話時間の離散度Ｃを用いる理由は、
離散度Ｃが大きい（Ａ−ＢやＡ／Ｂの値が大きい、つまり、オペレータの発話時間Ｂと比較して、顧客の発話時間Ａが大きい）・・・顧客がクレーム状態にある。

離散度Ｃが小さい（Ａ−ＢやＡ／Ｂの値が小さい、つまり、オペレータの発話時間Ｂと比較して、顧客の発話時間Ａが小さい）・・・顧客が非クレーム状態にある。
という現象が経験的に分かっており、この現象を利用するためである。なぜなら、顧客がクレーム状態にある場合には、顧客が一方的に話しをするため、顧客の発話時間が長くなり、オペレータの発話時間が短くなることで顧客の発話時間Ａとオペレータの発話時間Ｂとの離散度Ｃが大きくなるからである。

また、通話において、顧客の発話時間が長い場合に（例えば、顧客の質問が長い場合に）、その長い発話に返答するオペレータの発話時間が長くなる場合がある。この場合には、実際には顧客はクレーム状態にないのであるが、対話特徴量Ｒとして顧客の発話時間Ａを用いると、顧客の発話時間が長いことから顧客はクレーム状態にあるといった誤判断（判断の手法は後述する）を行う場合がある。ところが、離散度Ｃを用いることで、顧客の発話時間とオペレータの発話時間とが正規化され、このような場合であっても、クレーム状態であるという誤判断を行うことはない。

一方、顧客の発話時間が短い場合に、その短い発話に返答するオペレータの発話時間が短くなる場合がある。この場合には、実際には顧客はクレーム状態にないのであるが、対話特徴量Ｒとしてオペレータの発話時間Ｂを用いると、オペレータの発話時間が短いことから顧客がクレーム状態にあるといった誤判断を行う場合がある。ところが、離散度Ｃを用いることで、顧客の発話時間とオペレータの発話時間とが正規化され、このような場合であっても、クレーム状態であるという誤判断を行うことはない。

この場合には、算出部８には、第３算出手段８３を具備させる。第３算出手段８３は、顧客の発話時間Ａとオペレータの発話時間Ｂを算出し、ＡとＢの離散度（Ａ−Ｂ、Ａ／Ｂ）を求める。

（４）顧客の相槌回数Ｄ
図５Ａに顧客の相槌回数Ｄについて示す。対話的特徴量として、顧客の相槌回数Ｄを用いる理由は、
顧客の相槌回数Ｄが多い・・・顧客が非クレーム状態にある。
顧客の相槌回数Ｄが少ない・・・顧客がクレーム状態にある。
という現象が経験的に分かっており、この現象を利用するためである。なぜなら、顧客がクレーム状態にある場合には、顧客がオペレータの話しを聞かず、一方的に話しをするので顧客の相槌回数が少なくなるからである。

この場合には、算出部８には、第４算出手段８４を具備させる。第４算出手段８４は、顧客の相槌回数Ｄを求める。ここで、相槌回数を求める手法例について説明する。例えば、顧客が相槌をうつ時に発話するであろう単語（例えば、「うん」「ああ」「ええ」等）を定めておき、図示しない音声認識手段で、顧客の音声を音声認識し、相槌単語の数を測定する手法を用いればよい。

（５）オペレータの相槌回数Ｅ
図５Ａにオペレータの相槌回数Ｅを示す。対話的特徴量として、オペレータの相槌回数Ｅを用いる理由は、
オペレータの相槌回数Ｅが少ない・・・顧客が非クレーム状態にある。
オペレータの相槌回数Ｅが多い・・・顧客がクレーム状態にある。
という現象が経験的に分かっており、この現象を利用するためである。なぜなら、顧客がクレーム状態にある場合には、顧客がオペレータの話しを聞かず、一方的に話しをするのでオペレータの相槌回数が多くなるからである。

この場合には、算出部８には、第５算出手段８５を具備させる。第５算出手段８５は、オペレータの相槌回数Ｅを求める。ここで、相槌回数を求める手法例について説明する。例えば、オペレータが相槌をうつ時に発話するであろう単語（例えば、「はい」「そうです」「申し訳ございません」等）を定めておき、図示しない音声認識手段（「（４）顧客の相槌回数Ｄ」で説明）で、オペレータの音声を音声認識し、相槌単語の数を測定する手法を用いればよい。

（６）無音時間Ｆ
図５Ａに無音時間Ｆについて示す。ここで、無音時間とは発話対について、顧客、オペレータの両方が発話していない時間をいう。発話対について、顧客の発話とオペレータの発話についての無音時間Ｆを用いる理由は、
無音時間Ｆが長い・・・顧客がクレーム状態にある。
無音時間Ｆが短い・・・顧客が非クレーム状態にある。
という現象が経験的に分かっており、この現象を利用するためである。なぜなら、顧客が怒っている場合には、オペレータは黙り込む（無音時間Ｆが長くなる）場合が多く、顧客が怒っていない場合には、オペレータの発話と顧客の発話との間に無音が生じない（無音時間Ｆが短くなる）場合が多いからである。

この場合には、算出部８には、第６算出手段８６を具備させる。第６算出手段８６は、無音時間Ｆを求める。ここで、無音時間Ｆを求める手法例について説明する。例えば、第６算出手段８６は、発話をしている話者（図５Ａの例では、オペレータ）の発話終了時刻Ｔ_１と、この話者の発話が終了し、もう一方の話者（図５の例では、顧客）の発話開始時刻Ｔ_２と、を測定する。図５Ａでは、Ｔ_２＞Ｔ_１となり、この場合に無音時間Ｆが生じることになり、そして、第６算出手段８６は、Ｔ_２−Ｔ_１を算出すればよい。Ｔ_２−Ｔ_１は正の値となり、無音時間Ｆの値となる。

（７）重複時間Ｇ
重複時間Ｇを図５Ｃに示す。ここで、重複時間Ｇとは、発話対について、顧客とオペレータの両方が重複して発話している時間をいう。重複時間Ｇを用いる理由は、
重複時間Ｇが長い・・・顧客がクレーム状態にある。
重複時間Ｇが短い・・・顧客が非クレーム状態にある。
という現象が経験的に分かっており、この現象を利用するためである。なぜなら、顧客が怒っている場合には、顧客がオペレータの発話を遮って話すなど場合が多く、顧客が怒っていない場合には、オペレータの発話と顧客の発話との間に重複が生じない（重複時間Ｇが短くなる）場合が多いからである。

この場合には、算出部８には、第７算出手段８７を具備させる。第７算出手段８７は、重複時間Ｇを求める。ここで、重複時間Ｇを求める手法例について説明する。例えば、第７算出手段８７は発話をしている話者（図５の例では、オペレータ）の発話終了時刻Ｔ_１と、この話者の発話が終了し、もう一方の話者（図５の例では、顧客）の発話開始時刻Ｔ_２と、を測定する。図５Ｃでは、Ｔ_２＜Ｔ_１となり、この場合に重複時間Ｇが生じることになり、Ｔ_２−Ｔ_１は負の値となり、重複時間Ｆとなる。

従って、上述のように、対話的特徴量Ｒとは、顧客の発話時間Ａ、オペレータの発話時間Ｂ、離散度Ｃ、顧客の相槌回数Ｄ、オペレータの相槌回数Ｅ、無音時間Ｆ、重複時間Ｇのうち少なくとも１つであり、算出部８には、上記第１算出手段８１〜第７算出手段８７のうち少なくとも１つを具備させればよい。これらＡ〜Ｇのうちどの対話的特徴量を用いるかは、適宜決定すればよい。また、対話的特徴量ＲはこれらＡ〜Ｇに限られるものではない。

また、算出部８の処理は、セグメントとして抽出された後の発話対について行ってもよく、セグメントとして抽出される前の発話対について行っても良い。また、上記対話的特徴量に加え、従来の音響的特徴量（例えば、声の高さ（ピッチ周波数）や大きさ（パワー）、話速など）を算出しても良い。

ベクトル化部１０は、対話的特徴量をセグメント毎に集計することで特徴ベクトルを求める（ステップＳ８）。具体的には、Ｑ個（セグメントを構成する発話対の数）の発話対について、対話的特徴量Ｒ（Ａ〜Ｇのうち少なくとも１つ）から特徴ベクトルのベクトル要素を求める。ベクトル要素を求める手法として、Ｑ個の発話対について、例えば平均値、分散、最大値、最小値、を求めればよい。Ｑ個の発話対のうち、ｑ番目（１、．．．、ｑ、．．．、Ｑ）の発話対の対話的特徴量Ａ〜Ｇの値をそれぞれａ_ｑ、ｂ_ｑ、ｃ_ｑ、ｄ_ｑ、ｅ_ｑ、ｆ_ｑ、ｇ_ｑとすると、対話的特徴量Ａ〜Ｇを全て用いた場合には、ベクトル化部１０で求められる１セグメント毎の特徴ベクトルは、
（全てのａ_ｑの平均値、全てのａ_ｑの分散、全てのａ_ｑのうちの最大値、全てのａ_ｑのうちの最小値、．．．、全てのｇ_ｑの平均値、全てのｇ_ｑの分散、全てのｇ_ｑのうちの最大値、全てのｇ_ｑのうちの最小値）となる。この場合は、特徴ベクトルの要素数は２８個となる。上述したように、用いる対話的特徴量はＡ〜Ｇのうち少なくとも１つなので、用いた対話的特徴量に応じた特徴ベクトルが生成される。

スコア計算部１２は、予め定められた判別式Ｆ（Ｘ）に特徴ベクトルの各要素を代入することで、第１状態スコア（クレームスコア）を求める（ステップＳ１０）。判別式Ｈは予め学習装置２００により求められる。学習装置２００は、通話状態判定装置１００の同じ検出部４、抽出部６、算出部８、ベクトル化部１０と、学習部１８が設けられる。以下、判別式Ｆ（Ｘ）の求め方について、説明する。

通話データベース記憶部２０には、複数のクレーム通話、非クレーム通話が格納されている。そして、複数のクレーム通話、非クレーム通話について、通話状態判定装置１００と同様に検出部４〜ベクトル化部１０の処理が行われる。また、学習装置２００で用いられる特徴量ベクトルＲ（上述したＡ〜Ｇ）、特徴ベクトルＲのベクトル要素（上述した平均値、分散、最大値、最小値）は、通話状態判定装置１００で用いられるそれらと同一にしなければならない。学習部１８は、ベクトル化部１０よりの特徴ベクトルの機械学習を行う。学習方法として様々あるが、例えば、線形判別法やサポートベクターマシン、ニューラルネットワーク等を用いれば良い。

そして、学習装置２００から求められる判別式Ｆ（Ｘ）は、線形判別法を用いた場合では例えば以下の式になる。

ここで、Ｍの値は特徴ベクトルの要素の数となり、特徴ベクトルの各要素は、それぞれＸ_ｍに代入される。また、判別式Ｆ（Ｘ）として、顧客がクレーム状態にあるセグメントの特徴ベクトルの各要素が代入されると、算出されるクレームスコアは大であり、非クレーム状態にあるセグメントの特徴ベクトルの各要素が代入されると、算出されるクレームスコアは小となるような式が学習により求まる。学習装置２００のが学習により上記式（１）の重み係数α_ｍ（ｍ＝１、．．．、Ｍ）が求められる。

そして、判定部１４は、各セグメント毎に、クレームスコアが、予め定められた第１閾値以上か否かを判定する（ステップＳ１２）。第１閾値より大きければ、そのセグメントをクレームセグメント（クレーム状態である区間）とし、第１閾値Ｌ_１より小さければ、そのセグメントを非クレーム状態セグメント（非クレーム状態である区間）とする。

出力部１６は、クレームセグメント（第１状態セグメント）の状態が予め定められた第２閾値Ｌ_１以上であれば、通話状態は第１状態である旨の情報を出力する（ステップＳ１４）。クレームセグメントの状態とは、クレームセグメントの個数や全セグメントに占めるクレームセグメントの割合を示す。例えば、第２閾値Ｌ_１を１とし、１つでもクレームセグメントがあると、その通話をクレーム通話（つまり、顧客が怒っている）とみなしてもよい。また、クレームセグメントの個数が第２閾値Ｌ_１以上である場合や、全セグメントに占めるクレームセグメントの割合が第２閾値Ｌ_１以上である場合にもその通話をクレーム通話とみなしてもよい。

このように、本発明の通話判定装置によれば、先行技術１のように声の高さや大きさなどの音響的特徴量ではなく、対話的な特徴である対話的特徴量を用いて、顧客はクレーム状態か否かを判定する。対話的特徴量は、顧客の電話環境、顧客の音声または話し方などに変動されず、ばらつきが小さいため、頑健にかつ精度よくクレーム判定を行うことができる。また、この発明では冷静に怒っている顧客のクレーム状態も判定できる。

また、本発明では、通話中の発話対毎の対話的特徴量を用いて、クレーム状態であるか否かの判定をしていたので、顧客が通話途中から怒り出したとしても、頑健にかつ精度よくクレーム判定を行うことができる。

また、顧客が怒っている状態中に現れる現象を捉えたものであるため、怒っている発話の集合（＝通話）かどうかを判定するのに適している。

＜ハードウェア構成＞
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、通話状態判定装置１００が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記憶しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記憶したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、本実施例で説明した通話状態判定装置１００は、ＣＰＵ（Central Processing Unit）、入力部、出力部、補助記憶装置、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）及びバスを有している（何れも図示せず）。

ＣＰＵは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、ＲＡＭは、ＳＲＡＭ(Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等である。また、バスは、ＣＰＵ、入力部、出力部、補助記憶装置、ＲＡＭ及びＲＯＭを通信可能に接続している。

＜ハードウェアとソフトウェアとの協働＞
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、ＣＰＵがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。

通話状態判定装置１００の入力部、出力部は、所定のプログラムが読み込まれたＣＰＵの制御のもと駆動するＬＡＮカード、モデム等の通信装置である。その他の算出部８などは、所定のプログラムがＣＰＵに読み込まれ、実行されることによって構築される演算部である。記憶部は前記補助記憶装置として機能する。

Claims

第２話者と通話をしている第１話者が、第１状態か第２状態かを判定する通話状態判定装置であって、
第１話者と第２話者の発話区間を検出する検出部と、
予め定められた数の発話対をセグメントとして抽出する抽出部と、
発話対毎に、発話状況に関わる対話的特徴量を算出する算出部と、
対話的特徴量をセグメント毎に集計することで特徴ベクトルを求めるベクトル化部と、
予め定められた判別式に特徴ベクトルの各要素を代入することで、第１状態スコアを求めるスコア計算部と、
前記第１状態スコアが予め定められた第１閾値以上であれば、そのセグメントを第１状態セグメントとして判定する判定部と、
前記第１状態セグメントの状態が予め定められた第２閾値以上であれば、通話状態は第１状態である旨の情報を出力する出力部と、を有する通話状態判定装置。
請求項１記載の通話状態判定装置であって、
前記算出部は、前記対話的特徴量として、第１話者の発話時間を算出する第１算出手段または第２話者の発話時間を算出する第２算出手段のうち、少なくとも一方を有することを特徴とする通話状態判定装置。
請求項１または２記載の通話状態判定装置であって、
前記算出部は、前記対話的特徴量として、第１話者の発話時間と第２話者の発話時間の離散度を算出する第３算出手段を有することを特徴とする通話状態判定装置。
請求項１〜３何れかに記載の通話状態判定装置であって、
前記算出部は、前記対話的特徴量として、第１話者の相槌回数を算出する第４算出手段または第２話者の相槌回数を算出する第５算出手段のうち、少なくとも一方を有することを特徴とする通話状態判定装置。
請求項１〜４何れかに記載の通話状態判定装置であって、
前記算出部は、前記対話的特徴量として、第１話者の発話と第２話者の発話について、無音時間を算出する第６算出手段または、重複時間を算出する第７算出手段のうち少なくとも一方を有することを特徴とする通話状態判定装置。
第２話者と通話をしている第１話者が、第１状態か第２状態かを判定する通話状態判定方法であって、
第１話者と第２話者の発話区間を検出する検出過程と、
予め定められた数の発話対をセグメントとして抽出する抽出過程と、
発話対毎に、発話状況に関わる対話的特徴量を算出する算出過程と、
対話的特徴量をセグメント毎に集計することで特徴ベクトルを求めるベクトル化過程と、
予め定められた判別式に特徴ベクトルの各要素を代入することで、第１状態スコアを求めるスコア計算過程と、
前記第１状態スコアが予め定められた第１閾値以上であれば、そのセグメントを第１状態セグメントとして判定する判定過程と、
前記第１状態セグメントが予め定められた第２閾値以上であれば、通話状態は第１状態である旨の情報を出力する出力過程と、を有する通話状態判定方法。
請求項６記載の通話状態判定方法であって、
前記算出過程は、前記対話的特徴量として、
第１話者の発話時間を算出する第１算出ステップ、
第２話者の発話時間を算出する第２算出ステップ、
第１話者の発話時間と第２話者の発話時間の離散度を算出する第３算出ステップ、
第１話者の相槌回数を算出する第４算出ステップ、
第２話者の相槌回数を算出する第５算出ステップ、
第１話者の発話と第２話者の発話について、無音時間を算出する第６算出ステップ、
第１話者の発話と第２話者の発話について、重複時間を算出する第７算出ステップ、
のうち、少なくとも１つを有することを特徴とする通話状態判定方法。
請求項１〜５何れかに記載の通話状態判定装置としてコンピュータを動作させるプログラム。
請求項８記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。