JP5099211B2 - 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 - Google Patents

音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 Download PDF

Info

Publication number
JP5099211B2
JP5099211B2 JP2010500486A JP2010500486A JP5099211B2 JP 5099211 B2 JP5099211 B2 JP 5099211B2 JP 2010500486 A JP2010500486 A JP 2010500486A JP 2010500486 A JP2010500486 A JP 2010500486A JP 5099211 B2 JP5099211 B2 JP 5099211B2
Authority
JP
Japan
Prior art keywords
voice
channel
data
initiative
utterer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010500486A
Other languages
English (en)
Other versions
JPWO2009107211A1 (ja
Inventor
功 難波
佐知子 小野寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009107211A1 publication Critical patent/JPWO2009107211A1/ja
Application granted granted Critical
Publication of JP5099211B2 publication Critical patent/JP5099211B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

本発明は,コンピュータに,オペレータと顧客の対話内容が録音された音声対話データから,顧客の問い合わせを含む箇所(以下,“質問発話部”という)を抽出する処理を実行させるための音声データの質問発話部抽出処理に関する。
さらに,本発明は,コンピュータに,前記音声対話データから抽出された質問発話部を用いて,顧客の問い合わせ傾向を推定する処理を実行させるための音声データの質問発話部を用いた顧客問い合わせ傾向推定処理に関する。
コールセンタでは,顧客とオペレータとの対話内容を後から聴取できるように,全対話内容を録音した音声対話データを保存している。
コールセンタに蓄積された大量の音声対話データは,単に対話内容を確認するための資料として利用されるだけではなく,顧客とオペレータとの対話から様々な情報を得て,資料として活用されることが期待されている。
音声対話データを利用する場合には,その利用目的に応じて必要な部分のみを聞くことができれば十分であり,対話の開始から終了まで全てを聞くことは,多くの時間を要するので効率的ではない。例えば,音声対話データの活用方法の一つとして,対話内容から顧客の問い合わせの傾向を推定する場合には,顧客の問い合わせを含む部分の音声データを抽出する必要がある。
音声対話データのうち,オペレータと顧客の応答の核心的部分を特定し再生可能とするために,音声認識処理などによって抽出したキーワードやオペレータの端末画面の操作情報などを音声対話録音データにインデックスとして付与しておき,音声対話録音データ再生時に再生開始位置を特定するために利用できるようにする従来方法がある(例えば,特許文献1参照)。
特開平11−25112号公報
音声対話データを活用して,対話内容から顧客の問い合わせの傾向を推定する場合には,以下のような従来方法が行われている。
〔従来手法1〕
ステップS901:コールセンタで録音された音声対話データを作業者が聴取し,対話内容から顧客の問い合わせの箇所を判定する。
ステップS902:顧客の問い合わせと判定された箇所の内容を示すキーワードを選択し,書き出す(キーワードをテキストデータ化する)。
ステップS903:キーワードデータを分類処理し,分類カテゴリー数の多い順にキーワードを並べて問い合わせ傾向とする。
〔従来手法2〕
ステップS911:予め,オペレータに顧客の問い合わせ内容を記録するように指示する。
ステップS912:オペレータが,応対結果として,顧客の問い合わせ内容を記録する(問い合わせ内容をテキストデータ化する)。
ステップS913:問い合わせ内容の記録データを分析処理し,問い合わせの傾向を推定する。
従来手法1および2では,ステップS902,S912の処理のように,音声対話データから,顧客の問い合わせの傾向を推定するためのデータを,書き起こす作業によって得ていた。従来手法1では,音声対話録音データの聴取とキーワードの選択の作業が作業者によって行われている。また,従来手法2では,問い合わせ内容の記録作業がオペレータによって行われている。
一方,音声対話データの内容をテキストデータ化する音声認識処理が知られている。しかし,音声対話データに対して一律に音声認識処理を施し,問い合わせ傾向を推定する対象データ(テキストデータ)を得た場合には,以下のような問題が生じる。
・ 音声対話データの全区間に対して音声識別処理を行う場合,音声対話データに顧客が問い合わせをしている箇所(質問発話部)が必ず含まれているわけではなく,無駄となるデータが多くなる。
・ さらに,質問発話部以外の部分が混在するデータに対して分析処理が行われるため,対話全体の内容の傾向が推定され,顧客の問い合わせの傾向を反映した推定結果を得ることができない。
本発明の目的は,音声対話データから,顧客の問い合わせを含む箇所(質問発話部)を人手によらずに切り出すことができる処理手法を提供することである。
さらに,本発明の別の目的は,音声対話データから切り出した質問発話部の音声データを用いて,顧客の問い合わせの傾向を推定できる処理手法を提供することである。
まず,本発明の原理を説明する。一般的に,対話中の話者間において,主導的に発話している発話者は,発話の応対者に比べて,一定の大きさの音声で継続的に発話する傾向がある。例えば,質問者と応答者との対話では,質問者が先行して主導的に質問を発話し,応答者がその質問に対する応答を発話するという状況が想定される。この状況において,質問は,質問者の先行する主導的な発話としてなされ,かかる質問の発話中は,一定の大きさの音声での継続的な発話として認識できると考えられる。
本発明にかかる処理は,質問者と応答者との対話中に生じる音声上の特徴を利用して,顧客とオペレータの対話から,顧客が質問していると考えられる発話の期間を抽出するものである。
本発明にかかる処理によれば,顧客とオペレータとの音声対話データから,音声の大きさを利用して,主導的かつ先行して発話している者(先行主導発話者)を特定し,顧客の音声が,オペレータの発話に先行し,かつ主導的に発話されている場合に,該当する顧客の継続的な発話期間(先行主導発話期間)を,顧客が質問している期間とみなし,当該箇所を顧客の問い合わせを含む箇所(質問発話部)として抽出する。
具体的には,ここで開示するプログラムは,オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出するために,コンピュータに,オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理と,前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理と,前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理と,前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理と,前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理とを,実行させるものである。
当該プログラムを実行するコンピュータは,オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力し,音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する。
そして,第1チャネル音声パワー情報および第2チャネルの音声パワー情報を先頭から所定の判定単位区間ごとに比較し,前記音声対話データにおいて先行して発話した先行発話者のチャネルを特定する。さらに,前記判定単位区間内で一定のパワー値による発話の割合が高いチャネルを主導発話者と判定し,先頭に最も近い判定単位区間の主導発話者を先行主導発話チャネルと特定し,当該先行主導発話者と同じ主導発話者が連続する判定単位期間を先行主導発話時間とする。
さらに,先行主導発話チャネルが前記第2チャネルである場合に,第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定し,音声対話データの第2チャネルの質問発話部と特定された箇所の音声データを質問発話部データとして抽出する。
これにより,オペレータの音声と顧客の音声とが別のチャネルにそれぞれ録音されている音声対話データから,顧客の問い合わせを含む音声データ(質問発話部データ)を自動的に抽出されるため,顧客の問い合わせを推定する場合に使用するデータを,手作業によらずに容易に得ることができる。
さらに,ここで開示する別のプログラムは,オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定するために,コンピュータに,前記プログラムと同様の処理を実行させるとともに,さらに,前記質問発話部データに対して所定の音声認識処理を行い,質問発話部データの音声に相当するテキストデータを取得する処理と,予め備えられた単語辞書を用いて,テキストデータから単語を抽出する処理と,抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する処理とを,実行させるものである。
これにより,音声対話データから抽出された質問発話部データに対して音声認識処理を行い,取得したテキストデータをもとに顧客の問い合わせ傾向を推定する処理を自動化して行うことができる。
本発明によれば,音声対話データから,顧客の問い合わせの傾向を推定するためのデータを書き起こす作業が不要となり,顧客の問い合わせを含む箇所の音声データ(質問発話部データ)を容易かつ効率的に抽出することができる。
また,音声対話データから,顧客の問い合わせを含む箇所(質問発話部データ)のみ切り出すことができるため,音声認識処理の処理コストを著しく軽減することができる。
さらに,質問発話部データに対する音声認識処理によって,顧客の問い合わせを含むテキストデータが得られるため,かかるテキストデータを既知の分析・分類することによって顧客の問い合わせ傾向の推定処理を実現することが可能になる。
問い合わせ傾向推定装置の構成例を示す図である。 質問発話部抽出装置の構成例を示す図である。 質問発話部抽出装置の概要処理フロー図である。 音声対話データのオペレータおよび顧客の発話の例を示す図である。 音声対話データのデータ構成を示す図である。 音声パワー情報の生成処理の処理フロー図である。 音声対話データ(録音1)の音声パワー情報を示す図である。 音声対話データ(録音2)の音声パワー情報を示す図である。 音声対話データ(録音3)の音声パワー情報を示す図である。 音声対話データ(録音4)の音声パワー情報を示す図である。 総応対時間の説明図である。 音声対話データ(録音1〜4)の総応対時間を示す図である。 先行発話チャネルの説明図である。 音声対話データ(録音1〜4)の先行発話チャネルを示す図である。 先行主導発話者(先行主導発話チャネル)の説明図である。 先行主導発話者および先行主導発話時間を求める処理フロー図(その1)である。 先行主導発話者および先行主導発話時間を求める処理フロー図(その2)である。 音声対話データ(録音1)の先行主導発話時間の計算結果を示す図である。 音声対話データ(録音2)の先行主導発話時間の計算結果を示す図である。 音声対話データ(録音3)の先行主導発話時間の計算結果を示す図である。 音声対話データ(録音4)の先行主導発話時間の計算結果を示す図である。 ルールベースによって質問発話部を判定する処理フロー図である。 質問発話部へ入力されるデータの例を示す図である。 質問発話部判定のルール例を示す図である。 機械学習処理によって質問発話部を判定する場合の学習段階の処理フロー図である。 機械学習処理の教師データの例を示す図である。 教師データによって判別式のための値を計算した例を示す図である。 機械学習処理によって質問発話部を判定する場合の判別段階の処理フロー図である。 問い合わせ傾向推定システムの概要処理フロー図である。 問い合わせ傾向の分析例を示す図である。
符号の説明
1 問い合わせ傾向推定システム
10 質問発話部抽出装置
11 音声データ入力部
12 音声パワー情報生成部
13 先行主導発話者・時間特定部
14 質問発話部判定部
15 質問発話部抽出部
20 音声認識装置
23 単語辞書
25 傾向分析装置
3 音声対話データ
5 問い合わせ傾向情報
7 質問発話部データ
9 キーワード
図1は,問い合わせ傾向推定装置の構成例を示す図である。
問い合わせ傾向推定システム1は,顧客とオペレータとの対話を別チャネルで録音した音声対話データ3から,顧客の問い合わせ傾向を推定した問い合わせ傾向情報5を出力するシステムである。
問い合わせ傾向推定システム1は,質問発話部抽出装置10,音声認識装置20,単語辞書23および傾向分析装置25を備える。
質問発話部抽出装置10は,音声対話データ3から,顧客が問い合わせをしている発話が含まれる箇所の音声データ(質問発話部データ)を抽出する。
音声認識装置20は,単語辞書23を用いて質問発話部データ7を音声認識処理し,生成したテキストデータからキーワードを抽出する。
傾向分析装置25は,キーワード9に対し,クラスタリング処理,傾向分析処理を行って顧客の問い合わせ傾向を推定し,問い合わせ傾向情報5として出力する。
図2は,問い合わせ傾向推定システム1の質問発話部抽出装置10の構成例を示す図である。
質問発話部抽出装置10は,音声データ入力部11,音声パワー情報生成部12,先行主導発話者・時間特定部13,質問発話部判定部14および質問発話部抽出部15を備える。
音声データ入力部11は,オペレータの発話音声が録音された第1のチャネル(Lチャネル)と顧客の発話音声が録音された第2のチャネル(Rチャネル)とで構成されている音声対話データ3を入力する。
音声パワー情報生成部12は,音声対話データ3の各チャネルについて,所定単位区間ごとの音声の大きさを示すパワー値を算出し,算出したパワー値を時系列で並べた音声パワー情報4を生成する。
音声パワー情報4は,各チャネルの音声データの所定単位区間での大きさ(パワー)の平均値を,所定の閾値thを用いてビット列へ変換し,時系列で並べたビット列の情報である。したがって,発話の音声パワーが一定の閾値th以上の大きさであれば,ビットに“1”を格納し,そうでなければ“0”のままとなる。
先行主導発話者・時間特定部13は,音声対話データ3のLチャネルの音声パワー値とRチャネルの音声パワー値とを,音声パワー情報4の先頭から所定の単位区間ごとに比較し,最も先頭に近い単位区間で前記パワー値のビットが“1”でありチャネルを検出し,先行発話チャネルとする。
さらに,音声パワー情報のパワー値を,所定の判定単位区間で区切り,ビットが“1”となっている割合が大きいチャネルを判定し,当該チャネルをその区間での主導発話者とする。主導発話者の判定は,音声パワー情報の全パワー値の列について行う。また,先頭に最も近い判定単位区間での主導発話者(チャネル)を先導発話者(チャネル)と特定する。そして,先行主導発話と同じ主導発話者が連続している判定単位区間を,先行主導発話時間とする。
質問発話部判定部14は,先行主導発話者(チャネル)が,顧客の音声が録音されたRチャネルである場合に,当該先行主導発話者(Rチャネル)の先行主導発話時間に該当する時間を,質問発話部として特定する。質問発話部判定部14は,例えば,ルールベース,学習データを用いた機械学習処理によって判定処理を行う。
質問発話部抽出部15は,音声対話データ3のRチャネルの音声データから,質問発話部と特定された箇所の音声データを質問発話部データ7として抽出する。
図3に,質問発話部抽出装置10の概要処理フロー図である。
ステップS10:質問発話部抽出装置10の音声データ入力部は,音声対話データ3の集合を入力する。
図4に,音声対話データ3となるオペレータおよび顧客の発話の内容例を,図5に,音声対話データ3のデータ構成を示す。
音声対話データ3は,図4に示すようなオペレータと顧客の対話の音声を,既知の録音装置によって録音した音声データである。音声対話データ3は2チャネルで構成される。第1チャネル(例えば,Lチャネル)にオペレータの音声データが,第2チャネル(例えば,Rチャネル)に顧客の音声データが,それぞれ独立して録音される。
音声対話データ3の先頭には,データインデックスとして,データの識別情報(録音1),オペレータ名(山田),録音年月日(05/10/11),録音開始時刻(15:25:20)および録音終了時刻(15:31:32)が格納される。
ステップS11:音声パワー情報生成部12は,音声対話データ3を所定の単位区間に分割する。単位区間は,例えば,1〜2秒の値とする。
ステップS12:音声パワー情報生成部12は,各単位区間の音声のパワー値の平均を求め,時系列のパワー値の連続である音声パワー情報4に変換する。
図6に,ステップS12の音声パワー情報4の生成処理の処理フローを示す。
音声パワー情報生成部12は,音声対話データ3の各チャネルに対して,フーリエ変換処理を適応し,[パワー,ピッチ]の列を得る(ステップS121)。さらに,パワー列の最少時間単位である単位区間mを定める(ステップS122)。音声パワー情報4として,音声対話データ3の先頭から単位区間mごとに,平均パワー値を求め,平均パワー値が閾値th以上であれば,“1”を,閾値th未満であれば“0”を付与した,ビット列を出力する(ステップS123)。
図7〜図10は,音声対話データ(録音1〜4)3の音声パワー情報4を示す図である。図7〜図10に示す音声パワー情報4において,[発話開始:発話終了]の形式で,発話開始時刻から発話終了時刻までの間で値“1”が付与されているビット列を表す。例えば,単位区間m=1秒の場合に,[発話開始=0:発話終了=3]は,開始0秒から3までの間が,値“1”が付与されている区間,すなわち,閾値th以上の大きさで発話があった時間を意味する。
ステップS13:先行主導発話者・時間特定部13は,変換された音声パワー情報4から,属性情報として,総応対時間,先行発話チャネル,先行主導発話者(チャネル),先行主導発話時間を取得する。
総応対時間は,音声対話データ3の実際の対話の総時間を示す。図11に示すように,音声対話データのインデックス情報の対話の開始時刻と終了時刻の差で求める。図12は,音声対話データ(録音1〜4)3各々の総応対時間を表す図である。
先行発話チャネルは,顧客とオペレータの対話において先行して発話があったチャネルを示す。音声パワー情報4のパワー値のビット列において,ビットに“1”が付与されている最先の単位区間を持つチャネルを,先行発話チャネルとする。先行発話チャネルの値は,“L”,“R”,“LR”とする。
コールセンタで録音される音声対話データ3では,一般的に,電話の発呼の受け手側が対話を開始,すなわち最初に発話する。したがって,通常の問い合わせ時の顧客側発呼の場合には最初の発話はオペレータである。反対に,オペレータが顧客にコールバックする場合,オペレータが発呼し,最初の発話は顧客である。一般的にコールバックの対話に顧客の質問が含まれることはほとんどないことから,オペレータと顧客のどちらの音声が録音されたチャネルが先行発話チャネルに該当するかを特定することによって,オペレータのコールバック時の対話を特定することができる。
図13に示す音声パワー情報4のビット列では,Lチャネルでビット列に“1”が付与された単位区間=0,Rチャネルでビット列に“1”が付与された単位区間=3であるので,先行発話チャネル=Lと求まる。図14は,音声対話データ(録音1〜4)3各々の先行発話チャネルを表す図である。
先行主導発話者(先行主導発話チャネル)は,所定の判定単位区間における主導発話者のうち,先頭に最も近い判定単位区間の主導発話者(チャネル)である。
先行主導発話者・時間特定部13は,所定の判定単位区間内で音声パワー情報4のパワー値のビットが“1”となっている単位区間の合計数が大きい(又は割合が高い)チャネルを主導発話者と判定する。そして先頭に最も近い判定単位区間(時系列の最先の判定単位区間)における主導発話者を先行主導発話として特定する。
さらに,先行発話チャネルに設定されたチャネルの音声パワー情報4において,最初にパワー値に“1”が付与された単位区間から,先行主導発話チャネルが主導発話者として判定されている単位判定区間の連続を,先行主導発話時間とする。
図15は,先行主導発話者および先行主導発話時間を説明するための図である。
先行主導発話者・時間特定部13は,所定の判定処理の対象とする単位区間の範囲を示すウィンドウを,所定の移動単位でずらして判定処理を行う。
先行主導発話者・時間特定部13は,パワー値の単位区間m=1秒のときに,単位判定時間に相当する処理のウィンドウサイズn=15秒(単位区間),ウィンドウをずらす移動単位k=3秒(単位区間)として,ウィンドウサイズn内で,チャネルごとにパワー値として“1”が付与されている単位区間数を計算し,単位区間数の多いチャネルを主導発話者として判定する。さらに,移動単位(サイズ)k=3秒ずらしたウィンドウサイズn内で,同様に,“1”の単位区間数が多いチャネルを主導発話者として判定する。
図15では,1回目〜5回目の判定処理では,主導発話者として“Rチャネル”が,6回目の判定処理で“Lチャネル”が,7回目の判定処理では“LR”がそれぞれ判定されている。したがって,最先の判定単位区間で主導発話者に判定された“Rチャネル”が先行主導発話者(先行主導発話チャネル)と判定される。
次に,先行発話者チャネルに特定されたLチャネルにおいて,パワー値のビットに“1”が付与されている最先の単位判定区間から,先行主導発話チャネルが主導発話者として判定されている単位判定区間の連続区間を先行主導発話時間とする。
ここでは,主導発話者がRチャネルからLチャネルに変わった場合に,その時のウィンドウサイズnの半分を加えた単位区間までの連続区間を,先行主導発話期間として計算する。
図16および図17は,先行主導発話者および先行主導発話時間を求める処理フロー図である。
先行主導発話者・時間特定部13は,先行発話チャネルに特定されたLチャネルを選択する(ステップS131)。ウィンドウサイズnを設定し(ステップS132),音声パワー情報のビット列の先頭にポインタをセットする(ステップS133)。
ウィンドウ内でLチャネル側でのビットが“1”となっている単位区間数を計算して値Aとする(ステップS134)。さらに,ウィンドウ内でRチャネル側でのビットが“1”となっている単位区間数を計算して値Bとする(ステップS135)。
値Aが値Bより大きいかを判定し(ステップS136),値Aが値Bより大きい場合は主導発話者=Lチャネルとする(ステップS137)。値Aが値Bより大きくない場合は,さらに,値Aが値Bと等しいかを判定し(ステップS138),値Aが値Bと等しければ,主導発話者=LRチャネルとする(ステップS139)。値Aが値Bと等しくなければ,主導発話者=Rチャネルとする(ステップS1310)。
そして,[ポインタ位置,主導発話者値]の組を出力する(ステップS1311)。
次に,ウィンドウを移動単位k分ずらし(ステップS1312),ウィンドウが音声パワー情報4のビット列の最後まで到達していれば(図17:ステップS1313),ステップS1314の処理へ進み,ウィンドウが音声パワー情報4のビット列の最後まで到達していなければ,ステップS134の処理へ戻る。ステップS1314の処理では,ポインタ位置が“0”の主導発話者値を先行主導発話者の値とする。
そして,先行主導発話者と主導発話者の値が連続して同じ値をとる単位区間の範囲(L)を求める(ステップS1315)。ポインタ位置=0からポインタ位置=Lまでの区間を,発話時刻に変換し,先行主導発話時間とする(ステップS1316)。
図18〜図21は,音声対話データ(録音1〜4)3の先行主導発話時間の計算結果を示す図である。図18の図において,開始秒は,ウィンドウの開始位置を示し,窓サイズは,ウィンドウサイズnを示す。主導チャネルは主導発話者と判定されたチャネル,L割合およびR割合は,ウィンドウ内で,“1”が付与された単位区分数を示す。
音声対話データ(録音1)3の先行主導発話者(チャネル)=Rチャネル,先行主導発話時間=55.5秒である。
また,図19の音声対話データ(録音2)3の先行主導発話者(チャネル)=Rチャネル,先行主導発話時間=19.5秒である。図20の音声対話データ(録音3)3の先行主導発話者(チャネル)=Lチャネル,先行主導発話時間=13.5秒,図21の音声対話データ(録音4)3の先行主導発話者(チャネル)=Lチャネル,先行主導発話時間=13.5秒である。
ステップS14:質問発話部判定部14は,先行主導発話者(チャネル)および先行主導発話時間から,質問発話部を判定する。質問発話部判定部14は,先行主導発話チャネルがRチャネル,すなわち顧客の音声が録音されたチャネルである場合に,先行主導発話時間に該当する時間を質問発話部として特定する。
図22は,ルールベースによって質問発話部を判定する処理フロー図である。
質問発話部判定部14は,図23に示すような,判定対象の音声対象データに対する,[先行発話者(チャネル),先行主導発話者(チャネル),先行主導発話時間,総応対時間]の組を入力する(ステップS141)。
そして,図24に示すルールベースにもとづいて,ステップS142〜ステップS147の判定処理を行う。
図24のルールベースでは,以下の判定条件が定義されている。
ルール1:先行発話者=先行主導発話者であれば,“reject”;
ルール2:先行発話者=LRであれば,“reject”;
ルール3:先行発話者=Lまたは先行主導発話者=LRであれば,“reject”;
ルール4:総応対時間が,平均応対時間お1/3以下であれば,“reject”;
ルール5:先行主導発話時間が5秒以下であれば,“reject”;
初期値: ルール1〜ルール5のいずれでもなければ,“accept”とする。
ここで,“reject”=質問発話部は存在しない,“accept”=先行主導発話部分を質問発話部分とする。
質問発話部判定部14は,ステップS141の入力が,ルール1に該当するかを判定し(ステップS142),ルール1に該当すれば,さらに,ルール2に該当するかを判定し(ステップS143),ルール2に該当すれば,さらに,ルール3に該当するかを判定し(ステップS144),ルール3に該当すれば,さらに,ルール4に該当するかを判定し(ステップS145),ルール4に該当すれば,さらに,ルール5に該当するかを判定し(ステップS146),ルール5に該当すれば,質問発話部はない(reject)と判定する(ステップS147)。一方,ルール1〜ルール5のいずれにも該当しなければ,質問発話部を含むと判定する(ステップS148)。
この判定処理により,図23の各音声対話データのうち,録音1および録音2の音声対話データについて質問発話部を含む(accept)と判定され,一方,録音3および録音4の音声対話データについて質問発話部を含まない(reject)と判定される。
図25は,質問発話部判定部14が,機械学習処理によって質問発話部を判定する場合の学習段階の処理フロー図である。
質問発話部判定部14は,教師データとして,音声対話データに対する[先行発話者(チャネル),先行主導発話者(チャネル),先行主導発話時間,総応対時間]の組と,この音声対話データが発話質問部を含むか(accept)/含まないか(reject)の判定とをセットしたデータを準備する(ステップS151)。
図26は,機械学習処理の教師データの例を示す図である。図26(A)は,判定値に“accept”がセットされた教師データ群,図26(B)は,判定値に“reject”がセットされた教師データ群である。
質問発話部判定部14は,マハラノビスの距離判定式について,“accept”の教師データの集合(accept集合)に対して,判別分析向けのパラメータを設定する(ステップS152)。同様に,“reject”の教師データの集合(reject集合)に対して,判別分析向けのパラメータを設定する(ステップS153)。
ここで,マハラノビスの距離判定式は,例えば以下の式(1)ように表される。
(x−μ)Σ−1(x−μ) 式(1)
そして,図27に示すように,教師データによってマハラノビスの距離判定式のパラメータを計算し,判別対象がいずれの集合に類似するかの判別処理に用いる。
図28は,機械学習処理によって質問発話部を判定する場合の判定段階の処理フロー図である。
質問発話部判定部14は,判定対象の音声対話データに対する[先行発話者(チャネル),先行主導発話者(チャネル),先行主導発話時間,総応対時間]の組を入力し(ステップS161),accept集合との距離Daを計算し(ステップS162),さらに,reject集合との距離Drを計算する(ステップS163)。
そして,距離Daが距離Drより遠ければ(ステップS164のYES),“reject”と判定する(ステップS165)。一方,距離Daが距離Drより遠くなければ(ステップS164のNO),“accept”と判定する(ステップS166)。
なお,マハラノビスの距離による判定処理は,参考文献に詳説されている(P.C. Mahalanobis, "On the generalized distance in statistics", Proceedings of the National Institute of Science of India, 12 (1936) 49-55, 1936)
ステップS15:質問発話部抽出部15は,“accept”と判定された場合に,その音声対話データの該当チャネル(Rチャネル)の先行主導発話時間に該当する時間を質問発話部データ(音声データ)7として抽出する。
この質問発話部データ7によって,問い合わせ傾向推定システム1により問い合わせ傾向が推定される。
図29は,問い合わせ傾向推定システム1の概要処理フロー図である。
問い合わせ傾向推定システム1の質問発話部抽出装置10によって,音声対話データ3から,顧客の問い合わせを含む質問発話部データ7を抽出すると(ステップS100),音声認識装置20は,音声認識処理として,音声対話データ3から切り出された質問発話部データ7を入力し,質問発話部データ7に音声認識処理を適用して,認識された文字列からキーワードを出力する(ステップS200)。
音声認識装置20は,既知のいずれの音声認識処理で実施してよい。例えば,HMM方式による話者認識処理手法を用いる(松井知子,「HMMによる話者認識」,電子情報通信学会技術研究報告 音声 SP95-111,pp17-24,電子情報通信学会発行,1996年1月)。
傾向分析装置25は,音声対話データ3から切り出された複数の質問発話部データ7から抽出されたキーワード9に対し,既知のクラスタリング処理・傾向分析処理を施し,問い合わせ傾向を推定し,その推定結果を問い合わせ傾向情報5として出力する(ステップS300)。例えば,傾向分析装置25は,キーワード9に対して,階層型のクラスタリング処理を実行し,図30に示すように,クラスタを要素数が多い順にソートし,上位のクラスタを問い合わせの傾向として推定する。
なお,既知のクラスタリング処理・傾向分析処理としては,本件出願人の出願した「テキスト情報作成装置、事例寄せ装置、FAQ作成用質問事例抽出装置、検索装置(特開2004−280361号公報)」に開示する処理を利用できる。
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
例えば,図1に示す問い合わせ傾向推定システム1は,質問発話部抽出装置10,音声認識装置20,傾向分析装置25の3つの装置を構成するものとして説明した。
しかし,問い合わせ傾向推定システム1の,質問発話部抽出装置10,音声認識装置20,傾向分析装置25は,1つのコンピュータにインストールされ実行されるプログラムモジュールとして実施することが可能である。
また,問い合わせ傾向推定システム1,さらには,質問発話部抽出装置10,音声認識装置20,傾向分析装置25を実現するプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されうるものである。

Claims (6)

  1. オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出するために,コンピュータに,
    オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理と,
    前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理と,
    前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理と,
    前記先行主導発話者のチャネルが前記第2チャネルである場合に,当該第2チャネルの前記先行主導発話時間に該当する時間を質問発話部として特定する処理と,
    前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理とを,
    実行させる音声データの質問発話部抽出処理プログラム。
  2. コンピュータが実行する,オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出する処理方法であって,
    オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理ステップと,
    前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理ステップと,
    前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理ステップと,
    前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理ステップと,
    前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理ステップとを備える
    音声データの質問発話部抽出処理方法。
  3. オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出する処理装置であって,
    オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する音声データ入力部と,
    前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する音声パワー情報生成部と,
    前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする先行主導発話者・時間特定部と,
    前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する質問発話部判定部と,
    前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する質問発話部抽出部とを備える
    音声データの質問発話部抽出処理装置。
  4. オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定するために,コンピュータに,
    オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理と,
    前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理と,
    前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理と,
    前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理と,
    前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理と,
    前記質問発話部データに対して所定の音声認識処理を行い,当該質問発話部データの音声に相当するテキストデータを取得する処理と,
    予め備えられた単語辞書を用いて,前記テキストデータから単語を抽出する処理と,
    前記抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する処理とを,
    実行させる音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム。
  5. コンピュータが実行する,オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定する処理方法であって,
    オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理ステップと,
    前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理ステップと,
    前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理ステップと,
    前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理ステップと,
    前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理ステップと,
    前記質問発話部データに対して所定の音声認識処理を行い,当該質問発話部データの音声に相当するテキストデータを取得する処理ステップと,
    予め備えられた単語辞書を用いて,前記テキストデータから単語を抽出するステップ処理と,
    前記抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する処理ステップとを,
    実行させる音声データの質問発話部を用いた顧客問い合わせ傾向推定処理方法。
  6. オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定する処理装置であって,
    オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する音声データ入力部と,
    前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する音声パワー情報生成部と,
    前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする先行主導発話者・時間特定部と,
    前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する質問発話部判定部と,
    前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する質問発話部抽出部と,
    前記質問発話部データに対して所定の音声認識処理を行い,当該質問発話部データの音声に相当するテキストデータを取得する音声認識部と,
    予め備えられた単語辞書を用いて,前記テキストデータから単語を抽出するキーワード抽出部と,
    前記抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する問い合わせ傾向推定部とを,
    実行させる音声データの質問発話部を用いた顧客問い合わせ傾向推定装置。
JP2010500486A 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 Expired - Fee Related JP5099211B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/053490 WO2009107211A1 (ja) 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置

Publications (2)

Publication Number Publication Date
JPWO2009107211A1 JPWO2009107211A1 (ja) 2011-06-30
JP5099211B2 true JP5099211B2 (ja) 2012-12-19

Family

ID=41015625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010500486A Expired - Fee Related JP5099211B2 (ja) 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置

Country Status (2)

Country Link
JP (1) JP5099211B2 (ja)
WO (1) WO2009107211A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5385677B2 (ja) * 2009-05-12 2014-01-08 日本電信電話株式会社 対話状態分割装置とその方法、そのプログラムと記録媒体
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network
CN105659179B (zh) 2013-08-21 2018-07-17 霍尼韦尔国际公司 用于与hvac控制器相交互的设备和方法
US10030878B2 (en) 2013-08-21 2018-07-24 Honeywell International Inc. User interaction with building controller device using a remote server and a duplex connection
US10514677B2 (en) 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
US10524046B2 (en) 2017-12-06 2019-12-31 Ademco Inc. Systems and methods for automatic speech recognition
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096149A (ja) * 2002-08-29 2004-03-25 Casio Comput Co Ltd 通話内容管理装置およびプログラム
JP2007312186A (ja) * 2006-05-19 2007-11-29 Nec Corp 通話音声録音再生装置及び通話音声録音再生方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096149A (ja) * 2002-08-29 2004-03-25 Casio Comput Co Ltd 通話内容管理装置およびプログラム
JP2007312186A (ja) * 2006-05-19 2007-11-29 Nec Corp 通話音声録音再生装置及び通話音声録音再生方法

Also Published As

Publication number Publication date
WO2009107211A1 (ja) 2009-09-03
JPWO2009107211A1 (ja) 2011-06-30

Similar Documents

Publication Publication Date Title
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US20220139399A1 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
US20200258506A1 (en) Domain and intent name feature identification and processing
US9881617B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US8165874B2 (en) System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
JP5779032B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
KR101131278B1 (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
CA2417926C (en) Method of and system for improving accuracy in a speech recognition system
KR20160013592A (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
KR20190143116A (ko) 대화 자동 저장 장치 및 방법
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP2012226651A (ja) 情報処理装置、情報処理方法及びプログラム
US7454337B1 (en) Method of modeling single data class from multi-class data
JP5099218B2 (ja) 問題解決時間推定処理プログラム,処理装置および処理方法
US20240071367A1 (en) Automatic Speech Generation and Intelligent and Robust Bias Detection in Automatic Speech Recognition Model
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
Gereg et al. Semi-automatic processing and annotation of meeting audio recordings
Kazemzadeh et al. Acoustic correlates of user response to error in human-computer dialogues
Rizal et al. Emotion Recognition Using Bahasa Malaysia Natural Speech
KR20200114824A (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP2022048516A (ja) 情報処理装置、プログラム、および情報処理方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees