JP2013145429A

JP2013145429A - 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム

Info

Publication number: JP2013145429A
Application number: JP2012004802A
Authority: JP
Inventors: Nobuyasu Ito; 伸泰伊東; Masafumi Nishimura; 雅史西村; Yuto Yamaguchi; 祐人山口
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2013-07-25
Anticipated expiration: 2032-01-13
Also published as: DE102012224488A1; US9002843B2; JP5775466B2; US20130185308A1; CN103207886A; CN103207886B

Abstract

【課題】会話から雑談部分を抽出する技術を提供する。
【解決手段】会話から雑談を抽出する雑談抽出システムは、複数の分野の文書を含む第１コーパスと、会話が属する分野の文書のみを含む第２コーパスと、第２コーパスに含まれる各単語について、第１コーパスにおけるｉｄｆ値と第２コーパスにおけるｉｄｆ値とがそれぞれ第１の所定の閾値以下となる単語を下限対象語として決定する決定部と、第２コーパスに含まれる各単語についてｔｆ-ｉｄｆ値をスコアとして算出し、下限対象単語についてはｔｆ-ｉｄｆ値の代わりに下限とする定数を用いる前記スコア算出部と、会話の内容であるテキストデータから、処理対象の区間を順次切り出す切り出し部と、区間に含まれる単語のスコアの平均値が第２の所定の閾値より大きな区間を雑談部分として抽出する抽出部とを含む。
【選択図】図２

Description

本発明は、会話から雑談部分を抽出するための技術に関し、より詳細には、ｔｆ-ｉｄｆに代表される特徴語の検出技術を改良又は応用して、特定のトピックとして定義・分類することが困難な雑談部分を抽出する雑談抽出システム、方法、およびプログラムに関する。

ビジネス・アナリティクスにおいて、コールセンターや営業店における営業担当者と顧客との電話会話を分析するという需要が高まっている。とりわけ、ある商品の説明や質問といった本来の会話部分ではなく、雑談や世間話といったビジネス・トランザクションとは関係のない部分についての分析に注目が集まっている。これは、そのような雑談部分にこそ、顧客の興味、家族構成、職業といった、ビジネスに利用可能な有用な情報が含まれていると考えられるからである。従って、会話データから雑談部分を抽出し、そこから顧客のプロファイリングをし、カテゴライズして、次の営業活動に繋げることが重要である。

ところで、会話データや文書データからトピックを検出、分類したり、様々なトピックが含まれるデータをトピックごとにセグメント化したりする研究が数多く存在する。例えば非特許文献１は、潜在的ディリクレ配分法を開示する。ここで、潜在的ディリクレ配分法とは、１文書に複数トピックが含まれることを表現できる文書生成過程の確率的なモデルであり、文書を単語の集合と考えて単語単位にトピックを割り当てる手法である。

また非特許文献２及び特許文献１は、時間の経過に伴うトピックの変化を検出するための手法を開示する。そのために非特許文献２では、結合トピックモデル（compound topic model: CTM)を導入すること、また、特許文献１は、混合分布モデルを用いてトピックの生成モデルを表現し、過去のデータほど激しく忘却しながらトピックの生成モデルをオンラインで学習することを開示する。

また非特許文献３は、コミュニティによって表現された新出現トピックをリアルタイムに取得するトピック検出技術を開示する。該トピック検出技術では、単語（term)のライフサイクルが、ソース源の影響力を考慮するエイジング理論に従ってモデル化される。

また、会話内容が対象としている話題を推定する従来技術として特許文献２が存在する。特許文献２は、特定の話題にどの名詞がより多く使用されているかを示す尺度である話題ごとの単語特徴量に基づいて、会話テキストの複数の単語が出現する割合の高い話題を、会話テキストの話題と推定する技術を開示する。

上述した非特許文献１〜３及び特許文献１の従来技術はトピックをモデル化するか、少なくともデータの部分（単語）は１以上の特定トピックから構成され、何らかの潜在的モデルから該部分（単語）が生起したという前提に立っている。そのため、直接のモデル化はもちろんのこと、特定トピックとして定義し、分類すること自体が困難な雑談を検出するために、上記従来技術を利用することはできない。また、当該雑談の性質から、テキスト原稿と、そのテキスト原稿の内容を特定した話題という学習データを必要とする特許文献２の技術の利用も困難である。

なお特許文献３の従来技術の説明において、文書から重要な語句を抽出する技術としてｔｆ-ｉｄｆモデルが紹介されている。該説明によれば、ｔｆ-ｉｄｆモデルでは、多数の文書に出現する用語は重要度が低く、逆に出現する文書の数が少ない用語ほど重要度が高いという考えの下、対象とする文書が含まれるコーパスの中で各用語につきその用語を含む文書数を求め、その逆数をコーパス内の用語重要度とし、文書内重要度としてのｔｆとの積ｔｆ−ｉｄｆを用語重要度とする。そこで、雑談部分の抽出においてｔｆ-ｉｄｆモデルの利用が考えられる。即ち、雑談部分は、本来の会話であるビジネス・トランザクションとは関係のない部分であるといえることからｉｄｆ値が高くなることが期待され、ｔｆ-ｉｄｆの値をその抽出の指標とすることが考えられる。なおｉｄｆの一般的な定義は、対象とする文書が含まれるコーパスの中で対象となる用語を含む文書の割合の逆数の対数である。

特開２００５−３５２６１３号公報特開２００３−３２３４２４号公報特開２００３−５０８０７号公報

Blei,D. M., Ng, A. Y., and Jordan,M. I., "Latent Dirichlet Allocation", Journal of Machine Learning Research, Vol. 3, pp. 993-1022,2003. Knights D., Mozer, M. C., and Nicolov N.,"Topic Drift with Compound Topic Models", AAAI, 242- 245, 2009. Cataldi, M. et al.," Emerging TopicDetection on Twitter based on Temporal and Social Terms Evaluation", MDMKDD ‘10, 2010.

しかしながら、ｔｆ-ｉｄｆの値は比較的高速な処理が可能である一方、単語の特異性抽出が、特に低頻度単語において、不安定であることが知られている。雑談抽出の指標として会話の一定区間内の単語のｔｆ-ｉｄｆの平均値を利用する場合には、積算効果によって精度は更に劣化する。そこで対象ドメインのコーパスの代わりに、多様なトピックを含む、従ってサイズの大きい一般的なコーパスを利用することで、正確なｔｆ-ｉｄｆの値を求めることが考えられる。しかし一般的なコーパスの利用は、対象ドメイン特有のトピックであるかそれとも雑談であるかを判断したいという目的にはそぐわない。例えば、対象ドメインが金融である場合、「指し値」という用語は特に珍しい単語ではないが、一般には特異な単語であるため、小さい値であるべきｉｄｆ値が大きくなり不当に大きな重みが付いてしまう。

また、上記精度の問題をフロアリング技術により解決することも考えられる。即ち、対象ドメインのコーパスにおいてある程度小さなｉｄｆ値を極端に低い重みにすることで精度を改善することができる。しかしここでも雑談検出という目的に対しては思うような効果は得られない。なぜならば、単純なフロアリング技術の適用では、対象ドメインのコーパスにおいてある程度高頻度で出現するが、雑談としての特徴も兼ね備える単語を識別することができないため、当該単語に対しても極端に低い重みが付けられるからである。

更に、従来のｔｆ-ｉｄｆモデルでは、文書内の出現頻度（ｔｆ）によって文書内の重要度が求められるが、雑談検出という目的において単語の出現頻度は必ずしも重要度を示さない。

本発明は、上記従来技術における問題点に鑑みてなされたものであり、本発明は、ｔｆ-ｉｄｆに代表される特徴語の検出技術を改良又は応用して、雑談部分を抽出するための新たな指標を導出し、該指標に基づく雑談部分の抽出技術を提供することを目的とする。また、本発明は、計算コストのかからない指標により、学習データを必要とすることなく雑談部分の検出を精度よく実施することを実現することができる雑談抽出システム、方法、およびプログラムを提供することを目的とする。

本発明は、上記従来技術の課題を解決するために、以下の特徴を有する雑談抽出システムを提供する。本発明の雑談抽出システムは、複数の分野の文書を含む第１コーパスと、前記会話が属する分野の文書のみを含む第２コーパスと、前記第２コーパスに含まれる各単語について、第１コーパスにおけるｉｄｆ値と第２コーパスにおけるｉｄｆ値とがそれぞれ第１の所定の閾値以下となる単語を下限対象語として決定する決定部と、前記第２コーパスに含まれる各単語についてｔｆ−ｉｄｆ値をスコアとして算出するスコア算出部であって、前記下限対象単語についてはｔｆ-ｉｄｆ値の代わりに下限とする定数を用いる前記スコア算出部と、前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出す切り出し部と、切り出した前記区間に含まれる単語の前記スコアの平均値が第２の所定の閾値より大きな区間を雑談部分として抽出する抽出部とを含む。

好ましくは、前記会話は顧客と営業担当者間の会話であり、前記第２コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記スコア算出部は、各単語ｗのｔｆ値の代わりに、該単語ｗの前記担当者用コーパスにおける出現頻度ＳＦ（ｗ）に対する前記単語ｗの前記顧客用コーパスにおける出現頻度ＣＦ（ｗ）の割合を用いる。

より好ましくは、前記割合は、式（ＣＦ（ｗ）＋１）／（ＣＦ（ｗ）＋ＳＦ（ｗ））により求められる。

また好ましくは、前記決定部は、更に、前記第２コーパスに含まれる各単語について、第１コーパスにおけるｉｄｆ値と第２コーパスにおけるｉｄｆ値とがそれぞれ第３の所定の閾値以上となる単語を上限対象語として決定し、前記スコア算出部は、前記上限対象単語に対してはｔｆ−ｉｄｆ値の代わりに上限とする定数を用いる。

また前記決定部は、前記第２コーパスに含まれる各単語について、第１コーパスにおける相互情報量の値と第２コーパスにおける相互情報量の値とがそれぞれ第４の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、ｉｄｆ値の代わりに相互情報量を利用し、前記下限対象単語については相互情報量の代わりに下限とする定数を用いてもよい。

或いは、前記決定部は、前記第２コーパスに含まれる各単語について、第１コーパスにおけるカイ二乗値と第２コーパスにおけるカイ二乗値とがそれぞれ第５の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、ｉｄｆ値の代わりにカイ二乗値を利用し、前記下限対象単語についてはカイ二乗値の代わりに下限とする定数を用いてもよい。

以上、雑談抽出システムとして本発明を説明した。しかし本発明は、そのような雑談抽出システムによって実施される会話から雑談部分を抽出する雑談抽出方法、及びそのような方法を情報処理装置に実行させる雑談抽出プログラムとして把握することもできる。

本発明によれば、計算コストのかからないｔｆ―ｉｄｆを雑談検出の指標のベースとしつつ、複数の分野の文書を含む一般的なコーパスと、解析対象の会話が属する分野の文書のみを含む対象ドメインのコーパスの２つのコーパスを用意し、両コーパスにおいてｉｄｆ値が低くなる場合に限ってフロアリングを実施するので、雑談部分の検出を精度よく実施することが可能となる。更に、雑談部分として識別されうる単語は営業担当者の発話部分よりも顧客の発話部分に出現する頻度のほうが高いという考えの下、その出現頻度比を出現頻度（ｔｆ）の代わりに利用すれば、雑談部分の検出をより一層精度よく実施することが可能となる。本発明のその他の効果については、各実施の形態の記載から理解される。

本願発明の実施形態による雑談抽出システム２００を実現するのに好適な情報処理装置のハードウェア構成の一例を示す。本発明の実施形態による雑談抽出システム２００の機能ブロック図である。本発明の実施形態における区間切り出し処理を示す概念図である。単語ごとの特徴量ｒｆ−ｉｄｆを算出する算出処理の流れを示すフローチャートである。本発明の実施形態による雑談部分の検出処理の流れを示すフローチャートある。本発明を適用した雑談検出の実験結果を示す図である。

以下、本願発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。

図１は、本発明を実施するのに適したコンピュータ５０のハードウェア構成の一例を示した図である。コンピュータ５０は、バス２に接続されたメインＣＰＵ（中央処理装置）１とメインメモリ４を含んでいる。ＣＰＵ１は好ましくは、３２ビット又は６４ビットのアーキテクチャに基づくものであり、例えば、インテル社のＣｏｒｅｉ（商標）シリーズ、Ｃｏｒｅ２（商標）シリーズ、Ａｔｏｍ（商標）シリーズ、Ｘｅｏｎ（商標）シリーズ、Ｐｅｎｔｉｕｍ（登録商標）シリーズ、Ｃｅｌｅｒｏｎ（登録商標）シリーズ、ＡＭＤ社のＰｈｅｎｏｍ（商標）シリーズ、Ａｔｈｌｏｎ（商標）シリーズ、Ｔｕｒｉｏｎ（商標）シリーズ又はＳｅｍｐｒｏｎ（商標）が使用されうる。

またハードディスク装置１３、３０、及びＣＤ−ＲＯＭ装置２６、２９、フレキシブル・ディスク装置２０、ＭＯ装置２８、ＤＶＤ装置３１のようなリムーバブル・ストレージ（記録メディアを交換可能な外部記憶システム）がフレキシブル・ディスクコントローラ１９、ＩＤＥコントローラ２５、ＳＣＳＩコントローラ２７などを経由してバス２へ接続されている。フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭのような記憶メディアが、リムーバブル・ストレージに挿入される。

これらの記憶メディアやハードディスク装置１３、３０、ＲＯＭ１４には、オペレーティング・システムと協働してＣＰＵ１に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。即ち、上記説明した数々の記憶装置には、コンピュータ５０にインストールされ、コンピュータ５０を本発明の本発明の実施形態による後述する雑談抽出システム２００として機能させる雑談抽出プログラムや、後述する一般的なコーパスや対象ドメインのコーパス等のデータを記録することができる。

上記雑談抽出プログラムは、決定モジュールと、スコア算出モジュールと、切り出しモジュールと、抽出モジュールとを含む。これらモジュールは、ＣＰＵ１に働きかけて、コンピュータ５０を、各々後述する決定部２２５と、スコア算出部２３０と、切り出し部２４５と、抽出部２５０としてそれぞれ機能させる。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。

コンピュータ５０は、キーボード／マウス・コントローラ５を経由して、キーボード６やマウス７のような入力デバイスからの入力を受ける。コンピュータ５０は、オーディオコントローラ２１を経由して、マイク２４からの入力を受け、またスピーカー２３から音声を出力する。コンピュータ５０は、視覚データをユーザに提示するための表示装置１１に、グラフィックスコントローラ８を経由して接続される。コンピュータ５０は、ネットワーク・アダプタ１８（イーサネット（登録商標）・カードやトークンリング・カード）等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。

以上の説明により、コンピュータ５０は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

図２は、本発明の実施形態による会話から雑談部分を抽出する雑談抽出システム２００の機能ブロック図である。同図において、雑談抽出システム２００は、第１コーパス格納部２０５と、第２コーパス格納２１０と、決定部２２５と、スコア算出部２３０と、統計辞書格納部２３５と、会話データ格納部２４０と、切り出し部２４５と、抽出部２５０とを備える。

第１コーパス格納部２０５は、複数の分野の文書を含む一般的なコーパスを格納する。上述したように、解析対象の会話が属する対象ドメインのコーパスのみを利用してフロアリングを行うと、対象ドメインのコーパスにおいてある程度高頻度で出現するが、雑談としての特徴も兼ね備える単語に対してまでも極端に低い重みが付いてしまう。例えば、ＰＣ関連用語や、「好き」等の評価用語は、金融等のビジネス・トランザクションにおいて高頻度で出現し対象ドメインのコーパスにおいて低ｉｄｆ値を示すが、雑談区間を識別するのにも役立つ。その一方で、複数の分野の文書を含む、従って対象ドメインのコーパスに比較して十分な文書数を有する一般的なコーパスでは、上記用語は高頻度に出現するものの、必ずしも低ｉｄｆ値を示さない。そこで本願発明では、一般的なコーパスを用意してこのような特徴をもつ用語をフロアリング対象から外す。その方法の詳細は後述する決定部２２５及びスコア算出部２３０に関連して説明する。

複数の分野の文書を含む一般的なコーパスとしては、十分なサイズを有し多様なトピックを含むものが好ましく、例えば、ウィキペディアやｔｗｉｔｔｅｒ等のインターネット上の情報を利用してよい。なお、ウィキペディアを利用する場合は１用語のエントリー頁がｉｄｆを求める際の「１文書」に該当する。また、ｔｗｉｔｔｅｒを利用する場合は１メッセージがｉｄｆを求める際の「１文書」に該当する。

第２コーパス格納部２１０は、解析対象の会話が属する分野の文書のみを含む対象ドメインのコーパスを格納する。対象ドメインのコーパスは、コールセンターや営業店における顧客と営業担当者の会話を、音声認識により又は人手によりテキストへ変換したものであってよい。但し、第２コーパス格納部２１０は、会話データを会話単位でかつ話者ごとに分けて格納するものとする。即ち、第２コーパス格納部２１０は、第１話者（顧客）の発話部分の集合である顧客用コーパス２１５と第２話者（担当者）の発話部分の集合である担当者用コーパス２２０とからなる。また、各コーパス２１５、２２０は、それぞれの発話部分の集合を、単一のデータとしてではなく会話単位で保持する。

なお、顧客用コーパス２１５と担当者用コーパス２２０の両方を含む対象ドメインのコーパスにおける「１文書」とは、顧客の一連の発話部分と対応する営業担当者の一連の発話部分からなる１会話を意味する。一方、顧客用コーパス２１５又は担当者用コーパス２２０のそれぞれにおける「１文書」とは、顧客の一連の発話部分又は営業担当者の一連の発話部分のみからなる１会話を意味する。

なお、第１コーパス格納部２０５及び第２コーパス格納部２１０に格納されるコーパスとは、いずれも、単語列から構成されるテキストデータを指す。日本語をはじめとするいくつかの言語では単語間に空白等、境界を示すマーカーがないため、形態素解析等のプログラムによりあらかじめ単語に分割されているものとする。但し、音声認識の場合一般に結果を単語単位で出力するため、そのような単語抽出の必要はない。またコーパスは品詞、係り受け、そして分野（トピック）といった付加情報が付与されることもあるが、ここではそのような付加情報は必要ない。

決定部２２５は、第２コーパス格納部２１０に格納される対象ドメインのコーパスに含まれる各単語ｗについて、第１コーパス格納部２０５に格納される一般的なコーパスにおけるｉｄｆ値ＩＤＦ_ｇ（ｗ）と、第２コーパス格納部２１０に格納される対象ドメインのコーパスにおけるｉｄｆ値ＩＤＦ_ｔ（ｗ）とが、共に所定の閾値θ_１以下となる単語をフロアリングにおける下限対象語Ｖ_{ｓｈａｒｅｄ}として決定する。上述したように、対象ドメインのコーパスにおいてある程度高頻度で出現するも雑談としての特徴も兼ね備える単語は、一般的なコーパスでは必ずしも低ｉｄｆ値を示さない。そこで本願発明では、対象ドメインのコーパスのみならず一般的なコーパスにおいてもｉｄｆ値が所定の閾値以下となることを、フロアリングにおいて下限対象語Ｖ_{ｓｈａｒｅｄ}とする条件とする。これによって、必要以上のフロアリングが回避される。

なお、各コーパスにおけるｉｄｆ値は次式により求められる。

上式においてＤは各コーパスに含まれる文書数を、ＤＦ（ｗ）は各コーパス内の文書の中で単語ｗを含む文書数を示す。

スコア算出部２３０は、第２コーパス格納部２１０に格納される対象ドメインのコーパスに含まれる各単語ｗについて、ｔｆ―ｉｄｆ値をスコアｓｃｏｒｅ（ｗ）として算出する。但しスコア算出部２３０は、決定部２２５により下限対象語Ｖ_{ｓｈａｒｅｄ}として決定された単語については、ｔｆ―ｉｄｆ値の代わりに下限とする定数μを用いる。単語ｗについてのスコアｓｃｏｒｅ（ｗ）を数式で表すと以下のようになる。

上式においてＤは対象ドメインのコーパスに含まれる文書数を、ＤＦ（ｗ）は対象ドメインのコーパス内の文書の中で単語ｗを含む文書数を、ＣＦ（ｗ）は、顧客用コーパス２１５内の単語ｗの単語頻度をそれぞれ示す。

より好ましくは、スコア算出部２３０は、上式においてｔｆ値（ＣＦ（ｗ））の代わりに担当者用コーパス２２０における出現頻度ＳＦ（ｗ）に対する顧客用コーパス２１５における出現頻度ＣＦ（ｗ）の割合、即ち出現頻度比ＲＦ（ｗ）を用い、新たな特徴量ｒｆ―ｉｄｆを算出する。これは雑談部分として識別されうる単語は営業担当者の発話部分よりも顧客の発話部分に出現する頻度のほうが高いという考えに基づくものである。この場合、単語ｗについてのスコアｓｃｏｒｅ（ｗ）は次式により表される。

上式において、出現頻度比ＲＦ（ｗ）は一例として次式により求めてよい。

なお、出現頻度比ＲＦ（ｗ）の値が小さくなる単語間でのスコアｓｃｏｒｅ（ｗ）の差が重要となる場合には、上式の左辺の値の対数を出現頻度比ＲＦ（ｗ）としてもよい。スコア算出部２３０は算出した単語ごとのスコアｓｃｏｒｅ（ｗ）を、統計辞書格納部２３５に格納する。

会話データ格納部２４０は、解析対象の会話の内容であるテキストデータを単語単位に区切って格納する。一般に音声認識結果は単語単位に区切られているため、音声認識によりテキストデータを取得する場合は単語の抽出は必要ない。一方、書き起こしによりテキストデータを取得する場合、形態素解析によりテキストデータから単語を抽出するものとする。形態素解析の技術は既知であり、市販のプログラムも存在するため、ここでは説明を省略する。

切り出し部２４５は、会話データ格納部２４０からテキストデータを読み出し、所定の長さの窓をずらしながら処理対象の区間を順次切り出す。区間切り出し処理を示す概念図を図３に示す。図３において１つ１つの「−」は発話された単語を示し、上段３０２は顧客の一連の発話を、下段３０４は対応する営業担当者の一連の発話を示す。図３に示すように、処理対象の区間は、所定の長さL（図３に示す例ではL＝１２単語）の窓を１単語ずつずらすことによって順次切り出される（矩形３０６がi番目の区間とすると、i+1番目の区間は矩形３０６を１単語ずらした矩形３０８により切り出される）。

なお、雑談区間をピンポイントで検出するには処理対象の区間は短いほうがよい。しかしその一方で雑談区間があまりに短いと今度は雑談の判定結果が偶然に左右される可能性が高くなってしまう。従って、窓の所定の長さＬは、平均発話長の数倍〜１０倍程度であることが好ましい。

抽出部２５０は、統計辞書格納部２３５に格納される単語ごとのスコアｓｃｏｒｅ（ｗ）を参照して、切り出し部２４５より切り出された区間に含まれる単語のスコアｓｃｏｒｅ（ｗ）の平均値を算出し、算出した平均値が所定の閾値θ_２より大きな区間を雑談部分として抽出する。抽出部２５０による判定式を以下に示す。

上式においてＳ_iは切り出された区間に含まれる単語列を示し、｜Ｓ_i｜は該単語列に含まれる単語数を示す。

なお、フロアリングにおける下限対象語Ｖ_{ｓｈａｒｅｄ}を決定する際に使用する所定の閾値θ_１、下限対象語Ｖ_{ｓｈａｒｅｄ}のスコアｓｃｏｒｅ（ｗ）値μ、及び雑談判定に使用する所定の閾値θ_２は、それぞれ、正解情報である「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定しておくものとする。

ここで検出結果の精度を示す指標として、precision、recall、f―measure（Ｆ値）の３つが存在する。recallは検出失敗、precisionは過剰検出を評価する指標であり、これら２つの指標は一方を高めると片方が低下する、相反する精度である。そこでこれら２つの指標のバランスを考慮した指標として、通常次式により定義されるf―measureが存在する。

しかしながらf―measureの最適値は、過剰検出及び検出失敗の両方が許容範囲であるという値であり必ずしも望ましい値であるとはいえない。そこで、アプリケーションごと目的に応じた精度の指標を選択するのが好ましい。例えば検出失敗が少ないことを重視するのであれば、recall＞９０％という目標を先に設定し、該目標が満たされる範囲内でｐrecisionが最もよくなる閾値θ_１，２や下限対象語Ｖ_{ｓｈａｒｅｄ}のスコアｓｃｏｒｅ（ｗ）値μを設定する。

なお、これまではｔｆ-ｉｄｆの値をベースとして本願発明の雑談抽出技術を説明してきた。しかしながら本願発明の雑談抽出技術は、雑談抽出の指標のベースとして他の特徴語の検出技術、即ち、相互情報量やカイ二乗値を利用することも可能である。相互情報量やカイ二乗値はカテゴリ（特定の文書）と単語の依存度合いを示す尺度であり、その値が大きい単語ほどカテゴリ（特定の文書）に特徴的な単語であるとされる。従って、これらをｉｄｆ値の代わりとして利用することができる。

即ち、決定部２２５は、第２コーパス格納部２１０に格納される対象ドメインのコーパスに含まれる各単語ｗについて、第１コーパス格納部２０５に格納される一般的なコーパスにおける相互情報量Ｉ_ｇ（Ｕ；Ｄ）の値と、第２コーパス格納部２１０に格納される対象ドメインのコーパスにおける相互情報量Ｉ_ｔ（Ｕ；Ｄ）の値とが、共に所定の閾値以下となる単語をフロアリングにおける下限対象語Ｖ_{ｓｈａｒｅｄ}として決定する。またスコア算出部２３０は、ｉｄｆ値の代わりに相互情報量Ｉ_ｔ（Ｕ；Ｄ）を利用し、下限対象単語Ｖ_{ｓｈａｒｅｄ}については下限とする定数を用いる。

なお、相互情報量Ｉ（Ｕ；Ｄ）は、ある単語ｔの出現を表す確率変数Ｕとある文書ｄの出現を表す確率変数Ｄを用いて次式により定義される。ここでＵは１又は０の値をとり、Ｕ＝１のとき単語ｔが出現する事象、Ｕ＝０のとき単語ｔが出現しないという事象を表す。同様にＤも１又は０の値をとり、Ｄ＝１のとき文書がｄであり、Ｄ＝０のとき文書がｄでないという事象を表す。

上式において添え字ｔ（ｔｅｒｍ）には具体的な単語が、添え字ｄ（ｄｏｃｕｍｅｎｔ）には具体的な文書が入る。

また、決定部２２５は、第２コーパス格納部２１０に格納される対象ドメインのコーパスに含まれる各単語ｗについて、第１コーパス格納部２０５に格納される一般的なコーパスにおけるカイ二乗値χ^２ _ｇ（ｔ；ｄ）の値と、第２コーパス格納部２１０に格納される対象ドメインのコーパスにおけるカイ二乗値χ^２ _ｔ（ｔ；ｄ）の値とが、共に所定の閾値以下となる単語をフロアリングにおける下限対象語Ｖ_{ｓｈａｒｅｄ}として決定する。またスコア算出部２３０は、ｉｄｆ値の代わりにカイ二乗値χ^２（ｔ；ｄ）を利用し、下限対象単語Ｖ_{ｓｈａｒｅｄ}については下限とする定数を用いる。

なお、カイ二乗値χ^２（ｔ；ｄ）は、実際の文書数Ｎ_ｉｊと、ある単語とある文書とが独立であると仮定した場合に期待される文書数Ｅ_ｉｊとを用いて次式により定義される。ここでｉ（＝ｅ_ｔ）は１又は０の値をとり、１のとき単語ｔが出現する事象、０のとき単語ｔが出現しないという事象を表す。同様に、ｊ（＝ｅ_ｃ）は１又は０の値をとり、１のとき文書がｄであり、０のとき文書がｄでないという事象を表す。

相互情報量やカイ二乗値を利用する場合においても、各種の閾値と下限とする定数は、正解情報である「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定する。

次に図４及び図５を参照しながら、本発明の実施形態による雑談部分の検出処理の流れを説明する。図４は、単語ごとの特徴量ｒｆ−ｉｄｆを算出する算出処理の流れを示すフローチャートである。図５は、雑談部分の検出処理の流れを示すフローチャートある。

図４に示す算出処理はステップ４００から開始し、雑談抽出システム２００は、対象ドメインのコーパス２１０にアクセスし、対象ドメインのコーパス２１０に含まれる各単語ｗ_iについて、対象ドメインのコーパス２１０におけるｉｄｆ値ＩＤＦ_ｔ（ｗ）と、顧客用コーパス２１５における出現頻度ＣＦ（ｗ）と、担当者用コーパス２２０における出現頻度ＳＦ（ｗ）とを求める。続いて雑談抽出システム２００は、一般コーパス２０５にアクセスし、上記各単語ｗ_iについて、一般コーパス２０５におけるｉｄｆ値ＩＤＦ_ｇ（ｗ）を求める（ステップ４０５）。なおステップ４００及びステップ４０５においてｉｄｆ値は、数式１に従って算出される。

続いて雑談抽出システム２００は、上記各単語ｗ_iについて、ステップ４００で求めたＩＤＦ_ｔ（ｗ_i）とステップ４０５で求めたＩＤＦ_ｇ（ｗ_i）が共に所定の閾値θ_１よりも小さいか否かを判定する（ステップ４１０）。続いて雑談抽出システム２００は、ＩＤＦ_ｔ（ｗ_i）とＩＤＦ_ｇ（ｗ_i）が共に所定の閾値θ_１よりも小さいと判定（ステップ４１０：ＹＥＳ)した全ての単語ｗ_iを下限対象語Ｖ_{Ｓｈａｒｅｄ}として決定し、下限対象語Ｖ_{Ｓｈａｒｅｄ}の単語ｗ_iのスコアｓｃｏｒｅ（ｗ_i）（但し、ｗ_i∈Ｖ_{Ｓｈａｒｅｄ}）に一定値μを設定し、これを統計辞書格納部２３５に格納する（ステップ４１５）。

一方、雑談抽出システム２００は、ＩＤＦ_ｔ（ｗ_i）とＩＤＦ_ｇ（ｗ_i）の少なくとも一方が所定の閾値θ_１以上と判定（ステップ４１０：ＮＯ)した単語ｗ_iについては、ステップ４００で求めた出現頻度ＣＦ（ｗ）、ＳＦ（ｗ）とを用いて数式４に従って出現頻度比ＲＦ（ｗ_i）を算出する（ステップ４２０）。続いて雑談抽出システム２００は、下限対象語Ｖ_{Ｓｈａｒｅｄ}を除く各単語について、ＩＤＦ_ｔ（ｗ_i）とＲＦ（ｗ_i）の積をｓｃｏｒｅ（ｗ_i）に設定し、これを統計辞書格納部２３５に格納する（ステップ４２５）。そして処理は終了する。

図５に示す雑談部分の検出処理はステップ５００から開始し、雑談抽出システム２００は、雑談部分であるか否かを判定する単位長である区間長Ｌ（単語数）を設定し（ステップ５００）、区間インデックスＰに１を代入する（ステップ５０５）。続いて雑談抽出システム２００は、会話データ格納部２４０に格納されるテキストデータの先頭から順に、単語ｗ_ｐから単語ｗ_ｐ＋Ｌ-1までの単語列（「窓」）を選択する（ステップ５１０）。続いて雑談抽出システム２００は、選択した単語列について統計辞書格納部２３５を参照し、選択した単語列に含まれる単語のｓｃｏｒｅ（ｗ_i）の総計Ｔｓｃｏｒｅを算出し（ステップ５１５）、更に次式により移動平均値を求める。

上式においてｍは移動平均窓の幅である。

続いて雑談抽出システム２００は、算出した移動平均値が所定の閾値θよりも大きいか否かを判定する（ステップ５２０）。Ｔｓｃｏｒｅが所定の閾値θ以下の場合（ステップ５２０：ＮＯ）、雑談抽出システム２００は、現在の区間インデックスＰで識別される区間が雑談部分でないと判定する（ステップ５３０）。一方、Ｔｓｃｏｒｅが所定の閾値θよりも大きい場合（ステップ５２０：ＹＥＳ）、雑談抽出システム２００は、現在の区間インデックスＰで識別される区間が雑談部分であると判定する（ステップ５３０）。続いて雑談抽出システム２００は、区間インデックスＰを１インクリメントし（ステップ５３５）、会話データ格納部２４０に格納されるテキストデータから次の単語列が選択可能か否かを判定する（ステップ５４０）。選択可能である場合（ステップ５４０：ＹＥＳ）、処理はステップ５１０に戻る。一方、選択できない場合（ステップ５４０：ＮＯ）、処理は終了する。

実験結果
図６を参照して本発明の実験結果を説明する。なお、実験の条件は次の通りである。
１．一般的なコーパス：約1ヶ月分のtwitter
２．対象ドメインのコーパス：金融会社の営業店における電話対話
- 約１０００コール
- 音声認識によりテキストに変換（エラー修正なし）
３．ベースとして利用する特徴語の検出技術：ｔｆ―ｉｄｆ
４．比較手法
Ａ．ｂａｓｅｌｉｎｅ：通常のｔｆ―ｉｄｆをスコア値として使用
Ｂ．＋Ｓｈａｒｅｄｗｏｒｄｆｌｏｏｒｉｎｇ（１）：２種類のコーパスを用いて求めた下限対象語Ｖ_{Ｓｈａｒｅｄ}については所定の定数μをスコア値とし、それ以外の単語については通常のｔｆ―ｉｄｆをスコア値として使用
Ｃ．（１）＋Ｆｒｅｑｕｅｎｃｙｒａｔｉｏｗｅｉｇｈｔｉｎｇ：上記手法Ｂに加えて、ｔｆ値の代わりに出現頻度比ｒｆを利用するｒｆ―ｉｄｆをスコア値として使用

図６の表に示す数値は上述したprecision、recall、f―measure（Ｆ値）の３種の精度それぞれについての値であり、値の大きいほうが精度がよいことを示す。通常のｔｆ―ｉｄｆをスコア値とする手法Ａと比較すると、本発明を適用した手法Ｂ及び手法Ｃは、いずれの精度に対しても改善された値を示している。特にＦ値については、新たな特徴量ｒｆ−ｉｄｆ値をスコア値とした手法Ｃにおいて顕著な改善が見られることに注目されたい。

以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。例えば、決定部２２５は、更に、対象ドメインのコーパスに含まれる各単語について、一般的なコーパスにおけるｉｄｆ値と対象ドメインのコーパスにおけるｉｄｆ値とがそれぞれ第３の所定の閾値以上となる単語を上限対象語として決定してよい。そしてスコア算出部２３０は、上限対象単語に対してはｔｆ―ｉｄｆ値の代わりに上限とする定数を用いてよい。なお、第３の所定の閾値や上限とする定数は、「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定する。従って、そのような変更又は改良を加えた形態も当然に本発明の技術的範囲に含まれる。

なお、特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り任意の順序で実現しうることに留意すべきである。また、前の処理の出力を後の処理で用いる場合でも、前の処理と後の処理の間に他の処理が入ることは可能である場合があること、又は間に他の処理が入るように記載されていても前の処理を後の処理の直前に行うよう変更することも可能である場合があることも留意されたい。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」、「続いて、」等を用いて説明したとしても、この順で実施することが必須であることを必ずしも意味するとは限らない。

Claims

会話から雑談部分を抽出する雑談抽出システムであって、
複数の分野の文書を含む第１コーパスと、
前記会話が属する分野の文書のみを含む第２コーパスと、
前記第２コーパスに含まれる各単語について、第１コーパスにおけるｉｄｆ値と第２コーパスにおけるｉｄｆ値とがそれぞれ第１の所定の閾値以下となる単語を下限対象語として決定する決定部と、
前記第２コーパスに含まれる各単語についてｔｆ-ｉｄｆ値をスコアとして算出するスコア算出部であって、前記下限対象単語についてはｔｆ-ｉｄｆ値の代わりに下限とする定数を用いる前記スコア算出部と、
前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出す切り出し部と、
切り出した前記区間に含まれる単語の前記スコアの平均値が第２の所定の閾値より大きな区間を雑談部分として抽出する抽出部と、
を含む雑談抽出システム。
前記会話は顧客と営業担当者間の会話であり、前記第２コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記スコア算出部は、各単語ｗのＴＦ値の代わりに、該単語ｗの前記担当者用コーパスにおける出現頻度ＳＦ（ｗ）に対する前記単語ｗの前記顧客用コーパスにおける出現頻度ＣＦ（ｗ）の割合を用いる、請求項１に記載の雑談抽出システム。
前記割合は、式（ＣＦ（ｗ）＋１）／（ＣＦ（ｗ）＋ＳＦ（ｗ））により求められる、請求項２に記載の雑談抽出システム。
前記決定部は、更に、前記第２コーパスに含まれる各単語について、第１コーパスにおけるｉｄｆ値と第２コーパスにおけるｉｄｆ値とがそれぞれ第３の所定の閾値以上となる単語を上限対象語として決定し、前記スコア算出部は、前記上限対象単語に対してはｔｆ-ｉｄｆ値の代わりに上限とする定数を用いる、請求項１に記載の雑談抽出システム。
前記決定部は、前記第２コーパスに含まれる各単語について、第１コーパスにおける相互情報量の値と第２コーパスにおける相互情報量の値とがそれぞれ第４の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、ｉｄｆ値の代わりに相互情報量を利用し、前記下限対象単語については相互情報量の代わりに下限とする定数を用いる、請求項１に記載の雑談抽出システム。
前記決定部は、前記第２コーパスに含まれる各単語について、第１コーパスにおけるカイ二乗値と第２コーパスにおけるカイ二乗値とがそれぞれ第５の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、ｉｄｆ値の代わりにカイ二乗値を利用し、前記下限対象単語についてはカイ二乗値の代わりに下限とする定数を用いる、請求項１に記載の雑談抽出システム。
コンピュータの演算処理によって会話から雑談部分を抽出する雑談抽出方法であって、前記コンピュータは、複数の分野の文書を含む第１コーパスと、前記会話が属する分野の文書のみを含む第２コーパスとにアクセス可能であり、
前記コンピュータが、前記第２コーパスに含まれる各単語について、第１コーパスにおけるｉｄｆ値と第２コーパスにおけるｉｄｆ値とがそれぞれ第１の所定の閾値以下となる単語を下限対象語として決定するステップと、
前記コンピュータが、前記第２コーパスに含まれる各単語についてｔｆ-ｉｄｆ値をスコアとして算出し、前記下限対象単語についてはｔｆ-ｉｄｆ値の代わりに下限とする定数を用いて前記スコアを算出して統計辞書格納部に格納するステップと、
前記コンピュータが、前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出すステップと、
前記コンピュータが、前記統計辞書格納部に格納した情報を参照して、切り出した前記区間に含まれる単語の前記スコアの平均値を求め、該平均値が第２の所定の閾値より大きな区間を雑談部分として抽出するステップと、
を含む雑談抽出方法。
前記会話は顧客と営業担当者間の会話であり、前記第２コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記コンピュータは、各単語ｗのＴＦ値の代わりに、該単語ｗの前記担当者用コーパスにおける出現頻度ＳＦ（ｗ）に対する前記単語ｗの前記顧客用コーパスにおける出現頻度ＣＦ（ｗ）の割合を用いる、請求項７に記載の雑談抽出方法。
会話から雑談部分を抽出する雑談抽出プログラムであって、前記プログラムは、複数の分野の文書を含む第１コーパスと、前記会話が属する分野の文書のみを含む第２コーパスとにアクセス可能なコンピュータに、
前記第２コーパスに含まれる各単語について、第１コーパスにおけるｉｄｆ値と第２コーパスにおけるｉｄｆ値とがそれぞれ第１の所定の閾値以下となる単語を下限対象語として決定するステップと、
前記第２コーパスに含まれる各単語についてｔｆ-ｉｄｆ値をスコアとして算出し、前記下限対象単語についてはｔｆ-ｉｄｆ値の代わりに下限とする定数を用いて前記スコアを算出して統計辞書格納部に格納するステップと、
前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出すステップと、
前記統計辞書格納部に格納した情報を参照して、切り出した前記区間に含まれる単語の前記スコアの平均値を求め、該平均値が第２の所定の閾値より大きな区間を雑談部分として抽出するステップと、
を実行させる、雑談抽出プログラム。
前記会話は顧客と営業担当者間の会話であり、前記第２コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記コンピュータは、各単語ｗのＴＦ値の代わりに、該単語ｗの前記担当者用コーパスにおける出現頻度ＳＦ（ｗ）に対する前記単語ｗの前記顧客用コーパスにおける出現頻度ＣＦ（ｗ）の割合を用いる、請求項９に記載の雑談抽出プログラム。