JP5025353B2

JP5025353B2 - 対話処理装置、対話処理方法及びコンピュータ・プログラム

Info

Publication number: JP5025353B2
Application number: JP2007174862A
Authority: JP
Inventors: 広宜竹内; 紫穂根岸; 伸泰伊東
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2007-07-03
Filing date: 2007-07-03
Publication date: 2012-09-12
Anticipated expiration: 2027-07-03
Also published as: US20090012787A1; JP2009014888A; US8060365B2

Description

本発明は、ビジネス会話データの中から特定の分野において必須な発言、特に、セールス取引等におけるコンプライアンス上必須な発言を抽出する対話処理装置、対話処理方法及びコンピュータ・プログラムに関する。

昨今、コールセンターにおける電話によるセールス（ｔｅｌｅｓａｌｅｓ）の需要は非常に拡大している。例えば、株の取引、銀行口座の管理、保険契約、通信販売等が挙げられる。一方で、電話による取引は容易である反面、書面という確実な情報が記載された媒体が介在しないことにより、生じる問題も多い。例えば、保険契約等では必須の質問事項を確認しないと、保険金支払い時に問題が発生することがある。他にも、株の取引では会話で聞いた注文内容とエージェント（コールセンター側で顧客と電話応対をする人間）が注文システムに入力している内容が異なると、誤発注となってしまう。そのような問題を回避するため、電話を用いた取引等ではコンプライアンス・チェックの必要性が増している。つまり、特定の分野において必須な発言、特に、セールス取引等における会話の中でコンプライアンス上必須となる発言（注文内容の再確認、契約事項の確認、商品のリスク説明等）をエージェントが行っているかどうかをチェックする業務が必要になっている。

チェック業務は、録音された会話から必須な発言をしているかどうかをチェックするが、全ての会話をモニタリングするのは非常に難しい。チェックする管理者は、例えば、１００名規模のエージェントのうち数名に留まるからである。そこで、録音された会話からサンプリングしたデータやブラックリストに載っているエージェントの会話を中心に、管理者により人手で少数のデータを監視しているのが現状である。

そこで、音声認識技術を用いて、必須発言をしているかどうかをチェックする試みがはじめられている。その際、会話中の必須事項の発言箇所を事前に人手でラベルを付して音声認識システムを学習させる必要がある。また認識率向上のため人手によるきちんとした書き起こしデータを準備する必要がある。業種、企業ごとに必須事項についての発言内容は異なるため、対象データが変わるごとに前述の人手作業が必要となる。また人手による該当箇所のラベル付けでは、人手による作業ゆえ範囲にばらつきが出る可能性がある。

人手によるラベル付けを自動化するために、例えば、コールセンターの話者の結果を音声認識する音声データへの注釈付与方法が開示されている。この方法によれば、不特定話者の会話に対して特定話者が復唱することにより音声認識をし、音声ファイルの検索やデータマイニングに活用するものである（例えば、特許文献１）。

特許文献１は、会話中の特定の発言へのラベル付けに相当する。同様の問題の１つはＤｉａｌｏｇＡｃｔＣｌａｓｓｉｆｉｃａｔｉｏｎ（発話行為の分類）と呼ばれ、会話の各発言にラベル（質問、提案、要求）をつけることが従来行われている（例えば、非特許文献１）。従来行われているＤｉａｌｏｇＡｃｔＣｌａｓｓｉｆｉｃａｔｉｏｎはチケット予約等の音声自動応対システムといったアプリケーションを想定したものである。

また、会話の個々の発言に対するラベリングではなく、会話内の特定の発言を注釈（アノテーション）する技術としては会議における議論をモニタリングしてａｃｔｉｏｎｉｔｅｍ（会議中の決定事項）についての発言を抽出することが行われている（例えば、非特許文献２）。
特開２００３−３１６３７２号公報Ｓｔｏｌｃｋｅｅｔ．ａｌ（１９９８）ＤｉａｌｏｇＡｃｔＭｏｄｅｌｉｎｇｆｏｒＣｏｎｖｅｒｓａｔｉｏｎａｌＳｐｅｅｃｈ（ＡＡＡＩＳｙｍｐｏｓｉｕｍｐ９８−１０５，１９９８）Ｍｏｒｇａｎｅｔ．ａｌ（２００６）ＡｕｔｏｍａｔｉｃａｌｌｙＤｅｔｅｃｔｉｎｇＡｃｔｉｏｎＩｔｅｍｓｉｎＡｕｄｉｏＭｅｅｔｉｎｇＲｅｃｏｒｄｉｎｇｓ（ＳＩＧｄｉａｌＷｏｒｋｓｈｏｐｐ．９６−１０３，２００６）

しかし、特許文献１によっても、特定話者が不特定話者の会話の中から選択して復唱するので、復唱する会話は特定話者の選択に依存する。よって、注釈付与結果にばらつきが出る可能性が否めない。また、非特許文献１は、特定場面において利用者の発言を分類し的確な応答を行うための技術であり、特定の利用場面に沿ったデータと応答シナリオとからラベルの設定や分類のための学習データを作成する必要がある。さらに、非特許文献２のａｃｔｉｏｎｉｔｅｍの抽出でも、予め与えられた正解データの中の特徴量を用いて抽出モジュールを構築している。これは、正解データを与えることにより、そこから得られた特徴を用いており、データや適用分野が変わるたびに正解データを人手で用意して学習を行う必要がある。

本発明は、会話のデータの中から特定の分野において必須な発言の箇所を、データや適用分野に関する事前知識を必要とせずに抽出する対話処理装置、対話処理方法及びコンピュータ・プログラムを提供することを目的とする。

本発明の１つの態様では、以下のような解決手段を提供する。

本発明の第１の形態によると、分野に依存しない一般的な会話の内容から導き出された発言構造である発言パターンと、一の分野に関する複数の会話の内容をテキスト化した複数の発言データと、から特定の分野において必須な発言（必須発言と定義する）のデータを出力する対話処理装置を提供する。当該対話処理装置は、発言データ入力部と、発言パターン入力部とを備えている。ここでは、２つの入力部を備えた構成としているが、１つの入力部とし、その入力部が発言データと発言パターンとの入力を受け付けるものとしてもよい。また、対話処理装置が備える処理対象データ抽出部は、発言データ入力部により入力された複数の発言データのうち、発言パターン入力部により入力された発言パターンに適合するパターン適合部を含む複数の処理対象データを抽出する。発言パターンは、例えば、会話の中の確認発言のパターンである。次に、特徴量抽出部は、処理対象データ抽出部により抽出された複数の処理対象データから、パターン適合部を各々取り出し、取り出した複数のパターン適合部に共通の特徴量を抽出する。特徴量は、例えば、ある一定数以上出現した単語や、発話開始後からある一定時間までに出現した単語等である。次に、必須データ抽出部は、特徴量抽出部により抽出された特徴量を用いて発言データ入力部により入力された複数の発言データに含まれる一の分野において必須なデータを抽出する。一の分野において必須なデータとは、特に、セールス取引等におけるコンプライアンス上必須なデータであり、企業における法令遵守のために必須な発言をしている箇所を含むデータをいう。

本発明の第２の形態によると、会話は音声によるものであり、対話処理装置が備える発言データ入力部は、会話から音声認識を用いてテキスト化した複数の発言データを入力する。また、緩和パターン作成部は、特徴量抽出部により抽出された特徴量に基づき、緩和パターンを作成する。緩和パターンとは、発言パターンをより緩和したものであり、例えば、特徴量と、発言パターンの一部を組み合わせて作成する。また、発言データ評価部は、緩和パターン作成部により作成された緩和パターンに基づき、複数の発言データを評価する。発言データ評価部は、算出部と必須パターン作成部とを備える。算出部は、複数のパターン適合部、複数のパターン適合部を除く複数の処理対象データ、及び複数の処理対象データを除く複数の発言データに緩和パターンを適用し、緩和パターンの出現数を各々算出する。また、必須パターン作成部は、算出部により算出された各々の出現数を用いて算出した間違え数の期待値に基づき、緩和パターンから必須パターンを作成する。必須パターンとは、一の分野において必須なデータを抽出するためのパターンをいう。さらに、必須データ抽出部は、発言データ評価部による評価結果、つまり、必須パターン作成部により作成された必須パターンに基づき、複数の発言データから一の分野において必須なデータを抽出する。

本発明の第３の形態によると、対話処理装置が備える特徴量抽出部は、複数のパターン適合部に含まれ一定数以上出現する単語及び単語を含む表現のうち少なくとも１つに基づき、特徴量を抽出する。または、複数のパターン適合部が作成された会話時間の分布に基づき、特徴量を抽出してもよい。また、対話処理装置が備える緩和パターン作成部は、発言パターンを構成する構成語を用いて、特徴量に基づき緩和パターンを作成する。構成語とは、発言パターンを構成しているパターンの特徴的な語であり、例えば、確認発言の場合には、「では」等の話題転換の表現や、「いたします」等の意志の表現をいう。

本発明の第４の形態によると、対話処理装置が備える特徴量抽出部は、必須データ抽出部により抽出された一の分野において必須なデータを複数のパターン適合部として必須なデータに共通の特徴量を抽出する。すなわち、一の分野において必須なデータを処理対象データとして、繰り返し処理を行うことができる。

本発明の第５の形態によると、必須データ抽出部により抽出された一の分野において必須なデータは、一の分野において必須なデータの適合率（Ｐ）、及び一の分野において必須なデータの再現率（Ｒ）を用いて算出されるＦ値により検証可能なデータである。

また、本発明は、別の態様として、方法、あるいはコンピュータにおいて実行されるコンピュータ・プログラムとしても提供できる。

本発明の利点は以下の通りである。

第１に、分野に依存しない一般的な会話の内容から導き出された発言構造である発言パターンと、一の分野に関する複数の会話の内容をテキスト化した複数の発言データとを入力することにより、一の分野において必須な発言、特に、セールス取引等におけるコンプライアンス上必須な発言のデータを抽出する。よって、発言パターンと発言データとの２つの入力データを用意するだけで、必須発言データを抽出するので、発言データの中の必須発言の箇所を、数多く、かつデータや適用分野に関する事前知識がなくても、自動的に抽出することができる。これは、パターンで定義するものではない自由な会話において、例えば、特定の分野において必須な発言を精度よく抽出できる確認発言のパターンを見出したことにより実現できる。

第２に、特定の分野において必須なデータを出力するに際して、発言パターンにより抽出された処理対象データの該当箇所（パターン適合部）を用いて、緩和パターンを作成する。その緩和パターンのうち、例えば、一定値を超えたもの（閾値以上のもの）を必須パターンとして使用する。よって、発言パターンと処理対象データとを用いて、より発言表現の多様性に対応した必須パターンを精度よく作成することができる。そのため、必須パターンを用いて、より精度のよい必須データを抽出することができる。

第３に、特定の分野において必須なデータは、適合率及び再現率を用いて算出するＦ値により、評価することができる。よって、特定の分野において必須なデータの正確さの指標であるＦ値を用いて、ユーザが、必須なデータの正確さを検証することができる。また、本手法により得られた特定の分野において必須なデータをもとに、人手を介すことにより、より短時間にばらつきの少ない特定の分野において必須な発言を得ることができる。

本発明によれば、会話のデータの中から特定の分野において必須な発言の箇所を、データや適用分野に関する事前知識を必要とせずに抽出する対話処理装置、対話処理方法及びコンピュータ・プログラムを提供することができる。

以下、本発明の実施形態について、図面に基づいて以下に説明する。図１は、本発明の実施形態に係る対話処理システム１００の構成の一例を示す図である。対話処理システム１００は、対話処理装置１と、音声認識装置９０とから構成される。音声認識装置９０は、エージェントと顧客との１回の通話を、１つの会話のまとまりとしてテキスト化し、発言データを作成する。

対話処理装置１は、主に対話処理装置１全体の制御を行う制御部１０、対話処理装置１で使用するデータやテーブルを記憶する記憶部２０、データ入力を行う入力部３０、及びデータ出力を行う出力部４０からなる。入力部３０に入力するものとしては、例えば、音声認識装置９０により作成されたデータ（発言データ）である。また、出力部４０に出力するものとしては、例えば、エージェントを管理する管理者が参照するコンプライアンス上必須なデータ（一の分野において必須なデータ）である。音声認識装置９０は、対話処理装置１と通信ネットワーク９５を用いて接続されていてもよいし、対話処理装置１と媒体等を介してデータの授受を行ってもよい。

制御部１０は、主として処理対象データ抽出部１１、特徴量抽出部１２、緩和パターン作成部１３、発言データ評価部１４、及び必須データ抽出部１５を有する。また、発言データ評価部１４は、算出部１４ａ及び必須パターン作成部１４ｂを有する。記憶部２０は、データ記憶部２１及びパターン記憶部２２を有する。入力部３０は、発言データ入力部３１及び発言パターン入力部３２を有する。出力部４０は、必須データ出力部４１を有する。

入力部３０の発言データ入力部３１は、テキスト化された会話のデータである発言データを入力する。また、発言パターン入力部３２は、エージェントの会話を分析して導き出された発言構造に基づき、作成したパターンである発言パターンを入力する。発言パターンは、分野に依存しない会話から発言構造をもとにしたパターンであり、予め見つけ出された法則である。なお、ここでは、入力部３０の中に発言データ入力部３１及び発言パターン入力部３２を備えた構成としているが、入力部３０が発言データと発言パターンとの両方の入力を受け付けるものとしてもよい。

制御部１０の処理対象データ抽出部１１は、発言データの中から処理対象とする処理対象データを抽出する。処理対象とするのは、発言パターンに合致した発言データである。特徴量抽出部１２は、処理対象データから処理対象データに共通の特徴量を抽出する。緩和パターン作成部１３は、特徴量に基づき、発言パターンをより緩和させたパターンである緩和パターンを作成する。緩和パターンは、例えば、特徴量と、発言パターンの一部とを組み合わせて作成されたものをいう。この作成された緩和パターンにより、発言データから、処理対象データより広く処理対象としてデータを抽出することができる。つまり、発言パターンでは漏れてしまい抽出されなかった必要なデータを、発言データから抽出することができる。

発言データ評価部１４は、緩和パターンの適正を評価する。より具体的には、発言データ評価部１４に含まれる算出部１４ａは、緩和パターンをもとに、発言データに出現する緩和パターンの数である出現数を算出する。また、発言データ評価部１４に含まれる必須パターン作成部１４ｂは、算出結果を用いて緩和パターンから必須パターンを作成する。必須パターンとは、特定の分野において必須な表現のデータ、特に、セールス取引等におけるコンプライアンス上必須なデータを抽出するためのパターンをいう。必須データ抽出部１５は、必須パターンに基づき発言データからコンプライアンス上必須なデータを抽出する。

記憶部２０のデータ記憶部２１は、発言データ入力部３１から入力された発言データや、上述の処理により作成された処理対象データ、コンプライアンス上必須なデータ等のデータを記憶する。また、パターン記憶部２２は、発言パターン入力部３２から入力された発言パターンや、上述の処理により作成された緩和パターン、必須パターン等のパターンデータを記憶する。

出力部４０の必須データ出力部４１は、上述の必須データ抽出部１５により抽出されたコンプライアンス上必須なデータを出力する。

図２は、会話の全発言とコンプライアンス上必要となる必須発言との例を示す図である。図２（ａ）には、会話の全発言５０と、会話の必須発言５１と、発言パターンである必須発言抽出ロジック５２とが示されている。会話の全発言５０は、例えば、保険契約に関する会話や、通信販売に関する会話を各々１つの分野として、ある分野の会話をテキスト化した発言データである。会話の必須発言５１は、会話の全発言５０のうち、確認に関する発言である。この会話の必須発言５１をなるべく多く抽出し、会話の必須発言５１以外の発言をなるべく抽出しないようにして、会話の必須発言５１により近いデータを自動的に得るのが、本発明の目的である。

他方、必須発言抽出ロジック５２は、分野やデータに依存しない発言構造を用いたロジックであり、会話の全発言５０を含む、あらゆる分野の会話発言を分析した結果得られた会話の必須発言５１を抽出するためのパターンである。より具体的には、例えば、後述の図３で説明するものである。

図２（ｂ）は、会話の全発言５０に必須発言抽出ロジック５２を適用した結果を示している。適用した結果抽出された処理対象データである確実必須発言５３を、会話の必須発言５１と対比して示されている。この確実必須発言５３は、必須発言抽出ロジック５２を用いることにより、高い適合率（高Ｐｒｅｃｉｓｉｏｎ）を示すものとなる。この図２（ｂ）の時点では、抽出された確実必須発言５３は、会話の必須発言５１にほとんど含まれ、適合率（Ｐｒｅｃｉｓｉｏｎ）は高いが、残りの会話の必須発言５１が多く存在しているため、再現率（Ｒｅｃａｌｌ）は低い。

図２（ｃ）は、必須パターンである必須発言特徴量抽出ロジック５４を示す。必須発言特徴量抽出ロジック５４は、確実必須発言５３と会話の全発言５０との表現の分布に基づき導き出される抽出ロジックであり、必須発言抽出ロジック５２よりも会話の全発言５０の特徴を加えたものとなる。図２（ｄ）は、会話の全発言５０と、会話の必須発言５１と、必須発言特徴量抽出ロジック５４とを示す。

図２（ｅ）は、会話の全発言５０に必須発言特徴量抽出ロジック５４を適用した結果を示している。適用した結果抽出されたコンプライアンス上必須なデータである必須発言５５を、会話の必須発言５１と対比して示されている。必須発言特徴量抽出ロジック５４は、必須発言抽出ロジック５２よりも会話の全発言５０の特徴を加えたため、高い適合率を保ちつつ再現率をあげることができる。その後、図２（ｃ）に戻り、図２（ｃ）から（ｅ）の処理を繰り返し行うことにより、さらに高い適合率を保ちつつ再現率をあげる抽出ロジックを作成することができる。また、その抽出ロジックを使用することにより、多くのコンプライアンス上必須なデータを、不適合なデータをより少なくしながら抽出することができる。

図３は、確認発言に関する発言パターンの一例を示す図である。図３（ａ）は、エージェントの発言において、任意の数の文の後に、「話題転換」の表現で始まって「意志」または「依頼」の表現で終わる文があり、その後２文以上あった後に、「確認」の表現で終わる文があり、その後任意の文（なくてもよい）があって会話が終わる確認発言の発言パターンを示している。ここで、「話題転換」の表現とは、「それでは〜」、「では〜」、「まず〜」、「ここで〜」というフレーズであり、「話題転換」の表現と文頭とがマッチするかどうか（ｓｔａｒｔ＝“話題転換”）で判断する。同様に、「意志」の表現は、「〜致します」等のフレーズであり、「意志」の表現と文末とがマッチするかどうか（ｅｎｄ＝“意志”）で判断する。「依頼」の表現は、「〜お願い致します」等のフレーズであり、「確認」の表現は、「〜よろしいでしょうか」等のフレーズである。

また図３（ｂ）は、図３（ａ）とは異なる会話の確認発言のパターンを示す。これは、任意の数の文の後に、「話題転換」の表現で始まって「意志」または「依頼」の表現で終わる文があり、その後２文以上あった後に、「確認」の表現なく終わるエージェントの発言パターンを示している。

上述のように作成した確認発言に関する発言パターンは、株の取引、銀行口座の管理、保険契約、通信販売等といったどのような分野（業界）でも共通のパターンであり、分野に依存しないものである。また、図３で説明したように、発言パターンは１通りではなく複数通り存在する。エージェントが確認のために顧客と会話する場合に、顧客の理解度や顧客の対応等に応じて話す内容が異なるからである。

図４は、上述の図３の発言パターンに基づき発言データから抽出された処理対象データの一部として発言パターンに適合するエージェントの発言の例を示す図である。以下、図４から図８を用いて、株の電話取引データに用いた例で説明する。図４は、株取引における注文確認のデータを必須発言として株の電話取引データから抽出した例を示す。図４（ａ）には、「それでは」という「話題転換」の表現から始まり、「いたします」という「意志」の表現で終わる文がある。また、その後に文が続き、「よろしいでしょうか」との「確認」の表現で終わる文がある。これは、図３の発言パターンをそっくりそのまま発言しているデータであり、お手本的な確実必須発言である。

図４では、当該発言の前後にエージェントにより発せられた発言は除かれ、発言の中の当該部分のみを抽出している。なお、図４では除かれた発言を含む、発言パターンにより抽出された発言データを、処理対象データといい、図４に示すような発言パターンに適合する部分を、パターン適合部という。図４（ｂ）から（ｅ）についても、同様に、図３の発言パターンをそっくりそのまま発言しているデータである。

図５は、上述の図４の確実必須発言（パターン適合部）から抽出した特徴量を示す図である。この例では、特徴量として単語の出現数が一定数以上のものを抽出している。まず図５（ａ）は、単語の単位で一定数以上発言されていたものを抽出したものである。例えば、「復唱」という単語は、上述の図４のうち（ａ）及び（ｂ）で使用している。また、「確認」という単語は、上述の図４のうち（ｃ）及び（ｄ）で使用している。同様に、図５（ｂ）は、図５（ａ）の単語を含む複合語表現を抽出したものである。例えば、「注文内容」という複合語は、図４のうち（ａ）及び（ｅ）に有している複合語である。このように、一定数以上発言され、一定数以上の文書で共通して出てくる単語及び複合語を抽出する。

図６は、上述の図５の特徴量から生成される緩和パターンを示す図である。この図６の例では、上述の図５において抽出した特徴量と、上述の図３に示す発言パターンの部分とを組み合わせることにより、上述の図３に示す発言パターンを緩和した緩和パターンを作成している。上述の図３において、会話の確認発言は、「話題転換」の表現で始まって、「意志」または「依頼」の表現で終わる文であるため、この「話題転換」、「意志」、「依頼」を各々分けて、分けた表現と特徴量として抽出した単語とを組み合わせている。このように、発言パターンを緩和させた上で、特徴量を組み合わせることで、多くのパターンが作成できる。例えば、図６の最上段は、「確認」を含むパターンであり、２番目は、「確認」を含みかつ「依頼」の表現の文で終わるパターンを示す。

なお、図６において、特徴量と発言パターンの部分との組み合わせによるもの、及び特徴量のみのものにより緩和パターンを作成しているが、発言パターンの一部分のみのものにより緩和パターンを用意してもよい。発言パターンは、しっかりとした文書でないと合致しないように作成されている。しかし、実際の会話では、顧客の対応により、エージェントが砕けた会話をすることも多い。そのため、発言パターンの一部分のみであっても処理の対象とすべく、発言パターンを緩和するものとして作成される。

図７は、上述の図６で作成した組み合わせの出現数を示す緩和パターン評価テーブル２３を示す図である。緩和パターン評価テーブル２３は、記憶部２０に有する。そして、上述の図６で作成した緩和パターンごとに、確実必須発言を含む文書である処理対象データのうち、発言パターン中（パターン適合部）に含まれる出現数（Ａ）、確実必須発言を含む文書である処理対象データのうち、発言パターン中（パターン適合部）には含まれず、発言パターン以外に含まれる出現数（Ｂ）、確実必須発言以外の文書に含まれる出現数（Ｃ）の数値と、当該パターンの採用可否とが一覧でまとめられている。採用可否については、この図７の例の場合、

により得られる期待間違え数が、総対象文書数の１割以下、つまり、１４２の１割である１４．２以下であれば、緩和パターンとして採用し、１割超の場合は採用しないものとして、○か×かにより記載している。

図７（ａ）は、「確認」の出現数についてであり、上述の数式（１）に当てはめると期待間違え数が１３６．３となる。これは総対象文書数の１割である１４．２を超えるため、採用しない。同様に、図７（ｂ）の「ご注文」の期待間違え数は、７６．７であるため採用しない。一方、図７（ｃ）の「ご注文」を含み、「依頼」の表現の文で終了するものの期待間違え数は、９．０であり、１４．２よりも小であるため、緩和パターンとして採用となる。同様に計算し、図７（ｄ）の「ご注文」を含み、「意志」の表現の文で終了するものは、採用となり、図７（ｅ）の「ご注文」を含み、「話題転換」の表現で始まる文は、不採用となる。なお、図７（ｆ）は、出現数がいずれも０であるが、この場合は、緩和パターンとして存在しても支障がないものとして採用となる。このように、ある基準を満たすものを採用することで、元となった発言パターンよりも緩和された条件である緩和パターンを作成することができる。

図８は、発言パターンによる抽出と、必須パターンによる抽出とを対比して表示した図である。図８（ａ）は、発言パターン６２により抽出された結果を概念的に示している。データの確認発言が１０８箇所ある中で、全体として２１箇所の処理対象データ６３が抽出されている。処理対象データ６３のうち、２０箇所が正しい抽出であり、１箇所が誤った抽出であることを示している。この場合、適合率（Ｐｒｅｃｉｓｉｏｎ）Ｐは、２０／２１で計算される。また再現率（Ｒｅｃａｌｌ）Ｒは、２０／１０８により計算される。この適合率Ｐ及び再現率Ｒを用いて、

により算出されるＦ値（Ｆｍｅａｓｕｒｅ）は、０．３１０である。このＦ値は、一般に、適合率Ｐをあげると再現率Ｒが下がる関係にあることから、適合率Ｐと再現率Ｒとの両方を考慮して行うことができる正しさの評価の指標である。Ｆ値の最大値１であり、１に近づくほど正しい抽出がされたことを示す。

図８（ｂ）は、同様に、必須パターン６４により抽出された結果を概念的に示している。データの確認発言が１０８箇所ある中で、発言パターン６２を緩和し、さらに精査した必須パターン６４が使用されたため、全体として８０箇所のコンプライアンス上必須なデータ６５が抽出されている。コンプライアンス上必須なデータ６５のうち、６２箇所が正しい抽出であり、１８箇所が誤った抽出であることを示している。この場合のＦ値は、上述の数式（２）に当てはめると、０．６６０となる。図８（ａ）と（ｂ）とを比較すると、Ｆ値が改善されており、さらに適合率Ｐを大きく下げることなく再現率Ｒを大幅に改善できているといえる。

また、得られた結果であるコンプライアンス上必須なデータ６５から、さらにルールを拡張することで、再現率Ｒを上げることが可能である。ルールを拡張するには、人手による方法や、再度コンプライアンス上必須なデータ６５を用いて必須パターン６４を作成することで行うことができる。

図９及び図１０は、金融商品の電話取引データに使用した例を示す。図９Ａは、上述の図３の発言パターンに基づき発言データから抽出された処理対象データのうち、発言パターンに適合するエージェントの発言を例示している。図９Ａ（ａ）には、「それでは」という「話題転換」の表現から始まり、「致します」という「意志」の表現で終わる文がある。また、その後に文が続き、「よろしいでしょうか」との「確認」の表現で終わる文がある。このように図９Ａに示されたデータは、図３の発言パターンをそっくりそのまま発言している。

図９Ｂは、図９Ａから抽出した特徴量を示す。この例では、特徴量として単語の出現数が一定数以上のものとして、「商品」「詳細」「説明」「重要事項」「注意事項」「購入予定」の各単語または複合語を抽出している。

図９Ｃは、図９Ｂの特徴量から緩和パターンを作成し、評価する。具体例は、図１０に示す緩和パターン評価テーブルを作成し、採用可否を評価することにより行われる。緩和パターン評価テーブルは、記憶部２０に有する。この緩和パターン評価テーブル内の緩和パターンは、上述の図９Ｂにおいて抽出した特徴量と、上述の図３に示す発言パターンの部分とを組み合わせることにより作成される。そして、緩和パターンごとに図１０に示す対象ごとに各出現数を求め、採用可否を判断する。この図１０の例では、算出した期待間違え数が、総対象文書数の１５％以下であれば、緩和パターンとして採用し、以外は採用しないものとして採用可否を判断している。

戻って、図９Ｄは、緩和パターンを評価した結果のパターンを使用して、発言データから抽出した金融商品の電話取引データを示す。図９Ｄ（ａ）や（ｂ）に示されるように、発言パターンに合致しないが「重要事項」の複合語を含む電話取引データが抽出される。

以上、図４から図８までは株取引に関する電話取引データを、図９及び図１０では金融商品の電話取引データを入力データとして例を示した。このように、本発明では、分野やデータが異なる場合であっても、必須発言として「注文再確認」「契約内容の確認」「商品リスクの説明」といった特定の分野において必須なケース、特に、セールス取引等におけるコンプライアンス上想定される主なケースに適用することができる。

図１１は、本発明のフローチャートを示す。まず、ステップＳ１０１では、発言データ入力部３１が発言データの入力を受け付け、発言パターン入力部３２が発言パターンの入力を受け付ける。制御部１０は、受け付けた発言データをデータ記憶部２１に、発言パターンをパターン記憶部２２に、それぞれ記憶する。

次に、ステップＳ１０２では、処理対象データ抽出部１１は、発言パターンに適合するパターン適合部を含む発言データを抽出し、処理対象データとする。制御部１０は、処理対象データを、データ記憶部２１に記憶する。

その後、ステップＳ１０３では、特徴量抽出部１２は、処理対象データからパターン適合部を抜き出し、パターン適合部に共通する特徴量を抽出する。制御部１０は、パターン適合部及び特徴量を、記憶部２０に記憶する。

その後、ステップＳ１０４では、緩和パターン作成部１３は、特徴量に基づき、発言パターンを緩和する緩和パターンを作成する。制御部１０は、記憶部２０に緩和パターンを含む緩和パターン評価テーブル２３を作成する。

その後、ステップＳ１０５では、発言データ評価部１４は、緩和パターンの出現箇所を求め、緩和パターンの採否を決定し、緩和パターンから必須パターンを作成する。具体的には、ステップＳ１０３で抜き出した処理対象データから発言パターンに適合するパターン適合部と、パターン適合部を除く処理対象データと、処理対象データを除く発言データと、について、算出部１４ａが各々緩和パターンの出現数を求め、緩和パターン評価テーブル２３に格納する。そして、必須パターン作成部１４ｂが、所定の基準を満たすものを必須として必須パターンを作成する。制御部１０は、作成した必須パターンを、パターン記憶部２２に記憶する。なお、所定の基準として、上述の図７及び図１０では、間違え数の期待値が閾値として、対象文書数に対する所定の割合（１割、１５％）を超えたか否かにより判断したが、間違え数の期待値が小さいものから順に所定数を採用し、間違え数の累積が閾値を超えた場合に採用を止めることとしてもよい。

ステップＳ１０６では、必須データ抽出部１５は、必須パターンに適合する部分を含む発言データを抽出し、コンプライアンス上必須なデータとする。制御部１０は、コンプライアンス上必須なデータをデータ記憶部２１に記憶すると共に、必須データ出力部４１を介してコンプライアンス上必須なデータを出力する。なお、コンプライアンス上必須なデータの他に、パターン記憶部２２に記憶された必須パターンを出力してもよい。その後、制御部１０は、本処理を終了する。

本発明により、発言データから業界や企業特有の事前知識を用いずに自動的に特定の分野において必須な発言である必須発言の箇所を数多く抽出することができる。また、他の用途で正しいデータを必要とする場合でも、本手法によって得られた結果をもとにさらに正確なデータを人手で作成すれば、より短期間にばらつきが少ない正解なデータを作成することができる。

本発明では、発言パターンと発言データとを入力した後は、出力までの間に人手が介在しない。そのため、抽出される結果は、統一された基準に基づいている。この結果を、人手によるラベル付けのガイドにすることもでき、人手によりさらなるラベル付けを行う場合に、ぶれが起きることを軽減できる。

図１２は、本発明の実施形態に係る対話処理装置１のハードウェア構成を示す図である。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、専用機や組み込み型装置の場合、その環境に応じて必要最小限な構成を選択できることはいうまでもない。

対話処理装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１０、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、パラレルポート１０８０、ＵＳＢポート１０９０、グラフィック・コントローラ１０２０、ＶＲＡＭ１０２４、音声プロセッサ１０３０、Ｉ／Ｏコントローラ１０７０、ならびにキーボード及びマウス・アダプタ等１１００の入力手段を備える。Ｉ／Ｏコントローラ１０７０には、フレキシブル・ディスク（ＦＤ）ドライブ１０７２、ハード・ディスク１０７４、光ディスク・ドライブ１０７６、半導体メモリ１０７８、等の記憶手段を接続することができる。グラフィック・コントローラ１０２０には、表示装置１０２２が接続されている。また、オプションとして、音声プロセッサ１０３０には、増幅回路１０３２及びスピーカ１０３４が接続される。

ＢＩＯＳ１０６０は、対話処理装置１の起動時にＣＰＵ１０１０が実行するブートプログラムや、対話処理装置１のハードウェアに依存するプログラム等を格納する。ＦＤ（フレキシブル・ディスク）ドライブ１０７２は、フレキシブル・ディスク１０７１からプログラムまたはデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０またはハード・ディスク１０７４に提供する。

光ディスク・ドライブ１０７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この際は各ドライブに対応した光ディスク１０７７を使用する必要がある。光ディスク・ドライブ１０７６は光ディスク１０７７からプログラムまたはデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０またはハード・ディスク１０７４に提供することもできる。

対話処理装置１に提供されるコンピュータ・プログラムは、フレキシブル・ディスク１０７１、光ディスク１０７７、またはメモリカード等の記録媒体に格納されて利用者によって提供される。このコンピュータ・プログラムは、Ｉ／Ｏコントローラ１０７０を介して、記録媒体から読み出され、または通信Ｉ／Ｆ１０４０を介してダウンロードされることによって、対話処理装置１にインストールされ実行される。コンピュータ・プログラムが情報処理装置に働きかけて行わせる動作は、既に説明した装置における動作と同一であるので省略する。

上述のコンピュータ・プログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としてはフレキシブル・ディスク１０７１、光ディスク１０７７、またはメモリカードの他に、ＭＤ等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハード・ディスクまたは光ディスク・ライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してコンピュータ・プログラムを対話処理装置１に提供してもよい。

以上の例は、対話処理装置１について主に説明したが、コンピュータに、情報処理装置で説明した機能を有するプログラムをインストールして、そのコンピュータを情報処理装置として動作させることにより上記で説明した情報処理装置と同様な機能を実現することができる。したがって、本発明において１つの実施形態として説明した情報処理装置は、方法及びそのコンピュータ・プログラムによっても実現可能である。

本発明の対話処理装置１は、ハードウェア、ソフトウェア、またはハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実施では、所定のプログラムを有するコンピュータ・システムでの実施が典型的な例として挙げられる。かかる場合、該所定のプログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムに本発明に係る処理を実行させる。このプログラムは、任意の言語、コード、または表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、または（１）他の言語、コード、もしくは表記への変換、（２）他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ハード・ディスク装置、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。

以上、本発明を実施形態に則して説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態または実施例に記載されたものに限定されるものではない。

（変形形態）
以上説明した実施形態に限定されることなく、種々の変形や変更が可能であって、それらも本発明の範囲内である。

（１）上述の実施形態では、音声認識装置を用いて音声データをテキスト化した発言データを用いて、コンプライアンス上必須なデータを抽出する処理について記載したが、音声データからテキスト化する作業に応用することができる。その結果として、必要な部分のみを効率よく書き起こすことが可能となり、会話全体の書き起こしの労力が低減される。具体的には、発言パターンに該当する部分を認識し、発話時間の分布を用いて、本発明により該当箇所と推定された発言部分の音声を聞く。そして、該当する発言である場合は、音声データから発言データを書き起こして記憶部に記憶する。この処理を繰り返して、書き起こした発言データが記憶部に蓄積されたことに応じて、それらの中の共通表現をもとに、本発明を適用して該当する部分の認識を行う。

（２）上述の実施形態では、エージェントと顧客との電話による会話に基づき、音声認識装置を用いて発言データを作成するものとしているが、例えば、耳が不自由な顧客とテレビ電話等、カメラにより撮影した画像を使いながら手話で会話を行った場合等に用いることができる。その場合には、撮影した画像をもとに、手入力等により手話から作成した発言データを用いることで実現できる。

本発明の実施形態に係る対話処理システムの構成の一例を示す図である。会話の全発言とコンプライアンス上必要となる必須発言との例を示す図である。確認発言に関する発言パターンの一例を示す図である。図３の発言パターンに基づき発言データから抽出された処理対象データの一部として発言パターンに適合するエージェントの発言の例を示す図である。図４の確実必須発言（パターン適合部）から抽出した特徴量を示す図である。図５の特徴量から生成される緩和パターンを示す図である。図６で作成した組み合わせの出現数を示す緩和パターン評価テーブル２３を示す図である。発言パターンによる抽出と、必須パターンによる抽出とを対比して表示した図である。金融商品の電話取引データに使用した場合の例を示す図である。図９から作成される緩和パターン評価テーブルを示す図である。本発明のフローチャートを示す。本発明の実施形態に係る対話処理装置のハードウェア構成を示す図である。

符号の説明

１対話処理装置
１０制御部
１１処理対象データ抽出部
１２特徴量抽出部
１３緩和パターン作成部
１４発言データ評価部
１４ａ算出部
１４ｂ必須パターン作成部
１５必須データ抽出部
２０記憶部
２１データ記憶部
２２パターン記憶部
２３緩和パターン評価テーブル
３０入力部
３１発言データ入力部
３２発言パターン入力部
４０出力部
４１必須データ出力部
９０音声認識装置
９５通信ネットワーク
１００対話処理システム

Claims

分野に依存しない一般的な会話の内容から導き出された発言構造である発言パターンを入力する発言パターン入力部と、
一の分野に関する複数の会話の内容をテキスト化した複数の発言データを入力する発言データ入力部と、
前記発言データ入力部により入力された前記複数の発言データのうち、前記発言パターン入力部により入力された前記発言パターンに適合するパターン適合部を含む複数の処理対象データを抽出する処理対象データ抽出部と、
前記処理対象データ抽出部により抽出された前記複数の処理対象データから、前記パターン適合部を各々取り出して、複数の前記パターン適合部に共通の特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記特徴量に基づき、前記発言パターンをより緩和させたパターンである緩和パターンを作成する緩和パターン作成部と、
前記緩和パターン作成部により作成された前記緩和パターンに基づき、前記複数の発言データを評価する発言データ評価部であって、
前記緩和パターンを前記複数のパターン適合部、前記複数のパターン適合部を除く前記複数の処理対象データ、及び前記複数の処理対象データを除く前記複数の発言データに適用し前記緩和パターンの出現数を各々算出する算出部と、
前記算出部により算出された各々の前記出現数に基づき、前記緩和パターンの中から採用される必須パターンを作成する必須パターン作成部と、を備える、発言データ評価部と、
前記必須パターン作成部により作成された前記必須パターンに基づき、前記複数の発言データから前記一の分野において必須なデータを抽出する必須データ抽出部と、を備えた対話処理装置。
前記会話は音声によるものであり、
前記発言データ入力部は、前記会話から音声認識を用いてテキスト化した前記複数の発言データを入力する、
請求項１に記載の対話処理装置。
前記必須パターン作成部は、
Ａ：前記複数のパターン適合部の前記出現数、
Ｂ：前記複数のパターン適合部を除く前記複数の処理対象データの前記出現数、
Ｃ：前記複数の処理対象データを除く前記複数の発言データの前記出現数として、

により算出した間違え数の期待値に基づき、前記緩和パターンから前記必須パターンを作成する請求項１に記載の対話処理装置。
前記特徴量抽出部は、前記複数のパターン適合部に含まれ一定数以上出現する単語及び前記単語を含む表現のうち少なくとも１つに基づき、前記特徴量を抽出する請求項１に記載の対話処理装置。
前記緩和パターン作成部は、前記発言パターンを構成する構成語を用いて、前記特徴量に基づき前記緩和パターンを作成する請求項１に記載の対話処理装置。
前記特徴量抽出部は、前記必須データ抽出部により抽出された前記一の分野において必須なデータを前記複数のパターン適合部として前記一の分野において必須なデータに共通の特徴量を抽出する請求項１に記載の対話処理装置。
前記必須データ抽出部により抽出された前記一の分野において必須なデータは、
Ｐ：前記一の分野において必須なデータの適合率
Ｒ：前記一の分野において必須なデータの再現率として、

により算出されるＦ値により検証可能なデータである、請求項１に記載の対話処理装置。
コンピュータに、
分野に依存しない一般的な会話の内容から導き出された発言構造である発言パターンを入力するステップと、
一の分野に関する複数の会話の内容をテキスト化した複数の発言データを入力するステップと、
入力された前記複数の発言データのうち、入力された前記発言パターンに適合するパターン適合部を含む複数の処理対象データを抽出するステップと、
抽出された前記複数の処理対象データから、前記パターン適合部を各々取り出して、複数の前記パターン適合部に共通の特徴量を抽出するステップと、
抽出された前記特徴量に基づき、前記発言パターンをより緩和させたパターンである緩和パターンを作成するステップと、
作成された前記緩和パターンに基づき、前記複数の発言データを評価するステップであって、
前記緩和パターンを前記複数のパターン適合部、前記複数のパターン適合部を除く前記複数の処理対象データ、及び前記複数の処理対象データを除く前記複数の発言データに適用し前記緩和パターンの出現数を各々算出するステップと、
算出された各々の前記出現数に基づき、前記緩和パターンの中から採用される必須パターンを作成するステップと
を含む、ステップと、
作成された前記必須パターンに基づき、前記複数の発言データから前記一の分野において必須なデータを抽出するステップと、
を実行させるためのコンピュータ・プログラム。
分野に依存しない一般的な会話の内容から導き出された発言構造である発言パターンを入力するステップと、
一の分野に関する複数の会話の内容をテキスト化した複数の発言データを入力するステップと、
入力された前記複数の発言データのうち、入力された前記発言パターンに適合するパターン適合部を含む複数の処理対象データを抽出するステップと、
抽出された前記複数の処理対象データから、前記パターン適合部を各々取り出して、複数の前記パターン適合部に共通の特徴量を抽出するステップと、
抽出された前記特徴量に基づき、前記発言パターンをより緩和させたパターンである緩和パターンを作成するステップと、
作成された前記緩和パターンに基づき、前記複数の発言データを評価するステップであって、
前記緩和パターンを前記複数のパターン適合部、前記複数のパターン適合部を除く前記複数の処理対象データ、及び前記複数の処理対象データを除く前記複数の発言データに適用し前記緩和パターンの出現数を各々算出するステップと、
算出された各々の前記出現数に基づき、前記緩和パターンの中から採用される必須パターンを作成するステップと
を含む、ステップと、
作成された前記必須パターンに基づき、前記複数の発言データから前記一の分野において必須なデータを抽出するステップと、
を含む対話処理方法。