JP5459203B2 - テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム - Google Patents

テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム Download PDF

Info

Publication number
JP5459203B2
JP5459203B2 JP2010502791A JP2010502791A JP5459203B2 JP 5459203 B2 JP5459203 B2 JP 5459203B2 JP 2010502791 A JP2010502791 A JP 2010502791A JP 2010502791 A JP2010502791 A JP 2010502791A JP 5459203 B2 JP5459203 B2 JP 5459203B2
Authority
JP
Japan
Prior art keywords
difference
document data
extracted
text mining
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010502791A
Other languages
English (en)
Other versions
JPWO2009113457A1 (ja
Inventor
開 石川
晃裕 田村
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010502791A priority Critical patent/JP5459203B2/ja
Publication of JPWO2009113457A1 publication Critical patent/JPWO2009113457A1/ja
Application granted granted Critical
Publication of JP5459203B2 publication Critical patent/JP5459203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよびこのプログラムを記録した記録媒体に関する。具体的には、関連する文書データ間の差異に注目するテキストマイニングに関する。
定型化されない自然文章を自然言語処理技術によって分割したうえで統計解析処理し、その文章の傾向や特徴を分析するテキストマイニングが知られている。
このようなテキストマイニング技術を利用することにより、膨大に蓄積された文書情報から有益な情報を絞り出し、マーケティング等のビジネス手法に有効活用することが期待されている。
例えば、アンケートの回答文書をテキストマイニングで分析する手法が特許文献1、特許文献2に開示されている。
このようなテキストマイニングによって、多くのアンケート回答文書データのなかで出現頻度の高い特徴語を抽出したり、あるいは、特定の単語に対して高い相関性をもって出現する関連語を抽出したりする文書解析が可能となり、マーケティング等に活用されている。
特開2001−266060号公報 特開2006−286026号公報
確かにアンケート回答の処理等にあっては共通語の抽出などは有益であるが、実際の文書分析にあっては、関連がある複数の文書間で違いに注目すべき時もある。
しかしながら、従前のテキストマイニングのごとく自然言語処理(例えば単語に分割)したデータに統計処理を行うだけでは文書間の差異に注目する分析結果を得ることはできない。
そのため、今なお蓄積された文書データに埋もれている有用な情報を活用できないままとなっている。
このような問題のため、複数のテキストデータ間の差異に注目する文書解析を行うテキストマイニングの手法が切望されていた。
本発明の目的は、関連ある複数の文書データ間の差異に関する解析を適切に行うテキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよびこのプログラムを記録した記録媒体を提供することにある。
本発明のテキストマイニング装置は、関連する二以上の文書データのそれぞれから言語要素を抽出する要素抽出部と、前記要素抽出部にて抽出された要素を前記文書データ間で対比して前記文書データ間の差分を抽出する処理を行う差分処理部と、前記差分処理部にて抽出された差分に対して統計処理を行う統計処理部と、を備えることを特徴とする。
このような構成において、関連する文書データ間の差分を抽出したうえでこの差分データに対して統計処理を行うことができる。したがって、複数の文書データ間の差異に注目して情報を取り出すことができ、従来活用されなかった有益な情報を有効に利用することができる。
第1実施形態の構成を示す図。 第1実施形態において、テキストマイニング方法の手順を示すフローチャート。 音声通話記録の一例を示す図。 報告文書の一例を示す図。 第1実施形態において、通話音声記録の要素を抽出した結果を示すテーブル。 第1実施形態において、報告文書の要素を抽出した結果を示すテーブル。 第1実施形態において、通話音声記録の要素と報告文書の要素とを対応付けした結果を示すテーブル。 第1実施形態において、差分要素として抽出された要素のテーブル。 第1実施形態において、差分を記録したデータテーブルの例。 第1実施形態において、特定商品(MP32−Y)を購入した顧客に関する差分データを統計処理した結果の一例を示すテーブル。 第2実施形態の構成を示す図。 第2実施形態において、テキストマイニング方法の手順を示すフローチャート。 第2実施形態において、抽出された差分ブロックのデータテーブル。 第2実施形態において、差分を記録したデータテーブルの例を示すテーブル。 第3実施形態の構成を示す図。 第3実施形態において、テキストマイニング方法の手順を示すフローチャート。 第3実施形態において、対応要素をもつものを抽出した結果を示すテーブル。 第3実施形態において、対応要素無し差分ブロックを抽出した結果を示すテーブル。 第3実施形態において、対応無し差分ブロックを記録したデータテーブル。 第4実施形態の構成を示す図。 第4実施形態において、テキストマイニング方法の手順を示すフローチャート。 第4実施形態において、各要素の差分スコアを計算した結果を示すテーブル。 第4実施形態において、差分要素を抽出した結果を示すテーブル。 第4実施形態において、差分要素を記録したデータテーブルの例。 第5実施形態の構成を示す図。 第5実施形態において、テキストマイニング方法の手順を示すフローチャート。 第5実施形態において、差分要素ごとに算出した差分スコアを示すテーブル。 第5実施形態において、差分要素と差分スコアとを記録したデータテーブル。 本発明を実施する最小限の構成を示す図。
符号の説明
10、100、200、300、400、500…テキストマイニング装置、110…入力部、120…解析部、130…入力データ記憶部、14、140…要素抽出部、15、150、250、350、450、550…差分処理部、151…要素対応付け部、152…差分要素抽出部、153…差分ブロック抽出部、154…対応要素抽出部、155…対応無し差分ブロック抽出部、156…差分スコア計算部、157…差分要素抽出部、160…差分データ記憶部、17、170…統計処理部、180…出力部。
本発明の実施の形態を図示するとともに図中の各要素に付した符号を参照して説明する。
(第1実施形態)
図1は、本発明のテキストマイニング装置100に係る第1実施形態の構成を示す図である。
テキストマイニング装置100は、テキストマイニングの対象となる文書データを入力する入力部110と、入力された文書データを解析してテキストマイニングを行う解析部120と、解析した結果を出力する出力部180と、を備えている。
入力部110は、たとえば、キーボードや音声認識マイク、スキャナー、の他、外部記憶メディアの記憶データを読み込むためのドライブ装置などであってもよい。
本実施形態においてテキストマイニング処理の対象となるのは、関連ある複数の文書データであり、文書データの数は特に限定されるものではない。
説明の都合上、以下においては、関連する二つの文書データからなる組をテキストマイニングの対象として入力部110から入力する場合を例にし、ある組の二つの文書を第1文書データと第2文書データとする。
解析部120は、入力部110から入力された文書データを一時保存する入力データ記憶部130と、入力データ記憶部130に保存された文書データに対して言語処理を行ってテキストの構成要素としての独立単語を抜き出す要素抽出部140と、文書データ間の差分を抽出する差分処理部150と、差分処理されたデータを一時バッファする差分データ記憶部160と、抽出された差分に対して統計処理を行う統計処理部170と、を備える。
入力データ記憶部130は、入力部110から入力されるデータ(第1文書データおよび第2文書データ)を一時的に記憶保存する。
要素抽出部140は、第1文書データおよび第2文書データに対して自然言語処理を行うとともに文の構成要素を抽出する。要素抽出部140が抽出する要素としては、文書データに含まれる文字列、単語、文字Nグラム、単語Nグラム、構文構造、構文構造の部分構造、および、文のうちいずれか一つ以上であり、本実施形態では独立単語を抽出する場合を例にして説明する。
差分処理部150は、二つの文書データのそれぞれから抽出された要素を対比して二つの文書間の要素同士を対応づける要素対応付け部151と、要素対応付け部151による対応付けにおいて、対応する対の要素を持たなかった要素を差分要素として抽出する差分要素抽出部152と、を備える。
要素対応付け部151は、要素抽出部140にて抽出された二つの文書の各要素を対比する。そして、二つの文書の各要素に対し、同一、類似、同義、類義の関係にある要素同士を対応付ける。
差分要素抽出部152は、要素対応付け部151による対応付けにおいて、二つの文書データ間で対応要素を持たなかったものを差分要素として抽出する。さらに、二つの文書データの差分として、一方の文書データには存在しかつ他方の文書データにはない要素に注目する場合には、第1文書データの要素であって第2文書データ中に対応する要素を持たなかったものを差分要素として抽出する。
差分データ記憶部160は、抽出された差分を統計処理の前に一時バッファする。入力部110から互いに関連付けられた文書データの組である第1文書データと第2文書データとが次々に入力され、差分処理を経たのちに差分データ記憶部160に蓄積されていく。
統計処理部170は、抽出された差分要素に対して統計処理を行う。
このような統計処理としては拡張型確率的コンプレキシティなどが例として挙げられる。
出力部180は、プリンタ、モニター等で構成され、統計処理部170による処理結果を表示する。
このような構成を備える第1実施形態の動作について説明する。
図2は、本実施形態におけるテキストマイニング方法の手順を示すフローチャートである。
テキストマイニングにあたって、まず、テキストマイニングの対象となる文書データを入力部110から入力する(入力工程、ST100)。
ここで、ST100の入力工程において入力する文書データについて説明する。
本実施形態のテキストマイニングでは、差分に注目すべき文書データの組を入力する。差分に注目すべき文書データの組としては、例えば、一つの対象に対して異なる方式で作成された関連ドキュメントが例として挙げられる。
このような関連ドキュメントは、互いに共通する部分と、一方の文書データには含まれるが他方の文書データには含まれていない差分の部分と、が存在する。そして、このような差分の部分に価値ある情報を有している場合がある。
コールセンターでの業務を例にして説明する。
コールセンターは、電話応対による商品のセールスを受け持つが、近年では単なる電話応対のみならず、応対結果に基づいた顧客情報のデータベース構築などにより戦略的マーケティング上でも重要な部署になっている。
コールセンターでは、コンピュータに統合された電話、FAXの機能によって通話音声記録、FAX、電子メールといった生データで顧客との応対記録が記録されるとともに、オペレータによって作成される報告文書の形でも顧客対応が記録される。
たとえば、図3は音声通話記録の一例であり、図4は報告文書の一例である。
報告文書は、オペレータの判断により簡潔な形で作成され、顧客応対における主要な内容を含んだ有用性の高いドキュメントとなり、通常はこちらの情報で十分に必要を満たす。
ただし、オペレータが顧客の発言のなかで理解できなかった部分や、セールスの主題から外れたやり取り、顧客との間で交わされる詳細な商品説明やヒヤリングの過程などは報告文書から割愛されることが多くなる。
また、オペレータの状況判断や推測事項、顧客に対して直接に説明する必要がない事項などは通話音声記録には現れず、報告文書にのみ記録されることとなる。
このように一方にのみ記録される情報には顧客の生の声、オペレータの応対の仕方など有用な情報が大いに含まれている。そこで、このような通話音声記録と報告文書との差異を分析する必要が生じてくる。
本実施形態の説明では、入力部110から第1文書データとして通話音声記録(図3)を入力し、第2文書データとして報告文書(図4)を入力する。
入力工程(ST100)にて入力された文書データは、入力データ記憶部130に記憶される(入力データ記憶工程ST110)。このとき、受付インデックスが同じである通話音声記録と報告文書とを組にして記憶していく。
入力データ記憶部130に記憶されたデータは、組ごとに要素抽出部140に出力され、要素抽出部140を用いて要素の抽出が行われる(要素抽出工程ST120)。要素としては、単語を抽出し、特に形態素解析によって得られる形態素から自立語を抽出する。なおここでは、顧客発言のなかにマーケティング上の重要情報が埋もれていると考える趣旨から、通話音声記録に対しては顧客発言から要素を抽出することとする。図5は通話音声記録に対する要素抽出の結果であり、図6は報告文書に対する要素抽出の結果である。
次に、抽出された要素は文書データごとに要素対応付け部151に出力され、同じ組同士の文書間において各要素に対する対応付けが行われる(要素対応付け工程ST130)。
すなわち、同一、類似、同義、類義の関係にある要素同士が対応付けられる。
ここで、要素同士を対応付ける手法については既存の方法を用いることができる。
例えば、同義語辞書を用いてもよく、または報告文書が通話音声記録の抄録に当たる関係から対応関係aを次のように求めることができる。
すなわち、通話音声記録の顧客発言から抽出された要素の集合をD、報告文書から抽出された要素の集合をRとすると、集合Rは集合Dの抄録という関係にある。
このとき、集合Dに対して集合Rが生成される事後確率P(R|D)を最大化するような、集合Dと集合Rとの要素d、r間の対応関係aが次のように求められる(例えば、Stephan Vogel, Hermann Ney, and Christoph Tillmann. 1996. HMM-Based Word Alignment in Statistical Translation. In COLING'96: The 16th Int. Conf. on Computational Linguistics, pages 836-841, Copenhagen, Denmark, August.に開示されている)。
a=argmaxaP(R|D,a)=argmaxaP(D|R,a)P(R)
その結果、図7に示される対応付けが得られる。
このように対応付けされた要素のデータは差分要素抽出部152に出力され、差分要素抽出部152にて差分要素の抽出が行われる(差分要素抽出工程ST140)。図7中において、通話音声記録の要素であって報告文書中に対応する要素を持たなかったものが差分要素として抽出される。図8は、差分要素として抽出された要素の表である。
差分要素抽出部152にて抽出された要素は差分データ記憶部160に出力され、一時バッファされる(差分データ記憶工程ST150)。このとき、抽出された差分要素は、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図9は、差分を記録したデータテーブルの例である。
このようにして収集された差分データに対して統計処理部170により統計処理が行われる(統計処理工程ST160)。図10は、商品MP32−Yを購入した顧客に関する差分データを統計処理した結果の一例である。このような統計結果は、出力部180から出力され、プリンタによる印刷出力もしくはモニターにて表示される(出力工程ST170)。
このような第1実施形態によれば、たとえば、電気ポットMP32のイエローを購入する顧客の中には、「白が良い」という要望が少なからず存在するといった発見が得られる。
従来、上記のような有益な情報があるにも関わらず、通話音声記録と報告文書の双方に共通して頻度が高い表現が目立ってしまい、重要な情報であっても埋もれて利用されないままとなっていた。
この点、本実施形態では、二つの文書データの差分を抽出したうえでこの差分データに対して統計処理を行う構成を採用している。そのため、従来のテキストマイニングでは取り出すことができなかった情報を取り出すことができる。例えば、多くの顧客が色のオーダーをする際に発言する「白が良い」、「黄が良い」、「緑が良い」等の有益な情報を掘り起こすことができる。
(第2実施形態)
次に、本発明の第2実施形態に係るテキストマイニング装置200について説明する。
第2実施形態の基本的な構成は第1実施形態に同様であるが、差分処理部250において差分ブロックを抽出する点に特徴を有する。
図11は、第2実施形態の構成を示す図である。
第2実施形態において、差分処理部250は、要素対応付け部151と、差分要素抽出部152と、差分ブロック抽出部153と、を備えている。
差分ブロック抽出部153は、差分要素抽出部152にて抽出された差分の要素を受け取るとともに、この差分要素を入力データ記憶部130に記憶されている文書データに対比して、差分要素を含むより大きな要素を差分ブロックとして抽出する。ここで、差分ブロック抽出部は、構文構造または構文構造の部分構造を差分ブロックの単位として抽出する。
図12は、第2実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
差分要素抽出工程(ST240)において、通話音声記録と報告文書との間の差分要素が抽出され、図8のテーブルが得られる。
このように抽出された差分要素を含む文が差分ブロックとして通話音声記録から抽出される(差分ブロック抽出工程ST250)。例えば、図8に示される差分要素に対して、これらの要素を含むもとの音声通話記録は、発言インデックスが4、5、9、16、17である(図3を参照)。そこで、この発言インデックス4、5、9、16、17を差分ブロックとして抽出する。
図13は、このようにして抽出された差分ブロックのデータテーブルである。
このように抽出された差分ブロックは差分データ記憶部160にバッファされていく(差分データ記憶工程ST260)。差分ブロックのデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図14は、差分を記録したデータテーブルの例である。このようにして収集された差分データに対して統計処理部170により統計処理が行われ(統計処理工程ST160)、出力部180に出力される(出力工程ST170)。
このような第2実施形態によれば、差分要素からもとのセンテンス(差分ブロック)を抽出することとしているので、差分情報を漏れなく拾うことができ、的確かつ正確な差分データを得ることができる。そして、このように得た差分のデータに対して統計処理を行うことにより、従来は埋もれていた重要な情報をより正確に抽出することができる。
(第3実施形態)
次に、本発明の第3実施形態に係るテキストマイニング装置300について説明する。
第3実施形態の基本的構成は第2実施形態に同様であるが、差分ブロック抽出部153にて抽出される差分ブロックのうち、さらに、対応要素を有しないブロックだけを差分として抽出する点に特徴を有する。
図15は、第3実施形態の構成を示す図である。
第3実施形態において、差分処理部350は、要素対応付け部151と、差分要素抽出部152と、差分ブロック抽出部153と、対応要素抽出部154と、対応無し差分ブロック抽出部155と、を備える。
要素対応付け部151、差分要素抽出部152および差分ブロック抽出部153は、前記実施形態にて説明した構成と同様である。
すなわち、差分ブロック抽出部153は、差分要素を含むブロック(センテンス)を抽出する。
ここで、対応要素抽出部154は、要素対応付け部151にて対応付けられた要素のデータから互いに対応する要素を持つものを抽出する。
対応無し差分ブロック抽出部155は、差分ブロック抽出部153にて抽出された差分ブロックのうち対応要素抽出部154にて抽出された対応要素を含有するものを削除して対応要素を持たない差分ブロックだけを抽出する。
図16は、第3実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
差分ブロック抽出工程(ST333)において差分要素を含む差分ブロックが抽出され、図13に示される差分ブロックのテーブルが得られる。
また、要素対応付け部151による対応付け(ST331)によって図7のテーブルが得られているところ、このテーブル(図7)から互いに対応する要素を持つものが対応要素抽出部154によって抽出される(対応要素抽出工程、ST334)。
図7に示されるテーブルから対応要素を持つものを抽出すると図17に示すテーブルが得られる。そして、差分ブロックのテーブル(図13)から対応要素をもつもの(図17)を削除して対応要素を持たないブロックが抽出される(対応無しブロック抽出工程ST335)。すると、発言インデックス16のブロックだけが対応要素無し差分ブロックとして抽出される(図18)。
このように抽出された対応要素無し差分ブロックは差分データ記憶部160にバッファされていく(差分データ記憶工程ST340)。
差分ブロックのデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。
図19は、対応無し差分ブロックを記録したデータテーブルの例である。
このようにして収集された対応無し差分ブロックのデータに対して統計処理部170により統計処理が行われ(統計処理工程ST350)、出力部180に出力される(出力工程ST360)。
このような構成を備える第3実施形態によれば、両者の差分を差分ブロックとして不足なく抽出したうえで、さらに、対応要素を持たないものだけを抽出するので、一方の文書データにのみ固有に含まれる差分を正確かつ的確に抽出することができる。そして、このように抽出した対応無し差分ブロックに対して統計処理を行うことにより、従来は埋もれていた重要な情報をより正確に抽出することができる。
(第4実施形態)
次に、本発明の第4実施形態に係るテキストマイニング装置400について説明する。
第4実施形態の基本的構成は第1実施形態に同様であるが、差分処理部450において差分要素を抽出する構成に特徴を有する。
図20は、第4実施形態の構成を示す図である。
第4実施形態において、差分処理部450は、差分スコア計算部156と、差分要素抽出部157と、を備えている。
差分スコア計算部は、第1文書データ中の各要素に対して差分らしさを表す差分スコアを計算する。すなわち、要素抽出部140によって第1文書データと第2文書データとからそれぞれの要素が抽出されているところ、第1文書データの要素と第2文書データの要素とを対比して第1文書データの要素ごとに差分スコアを計算する。
ここで、第1文書データ中の任意の要素dに対する差分スコア(d)を次の式(1)で定義する。
なお、βは正の整数である。
Dは第1文書データ中に要素dが出現する確率であり、Rは第2文書データ中に要素rが出現する確率であり、I(D;R)は前記確率変数DとRとの相互情報量である。
Figure 0005459203
差分要素抽出部157には差分要素を抽出するための差分スコア閾値が設定されており、差分要素抽出部157は、差分スコア計算部156にて計算された差分スコアが前記閾値以上である要素を差分要素として抽出する。
図21は、第4実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
要素抽出工程(ST420)にて通話音声記録と報告文書とからそれぞれ要素が抽出され、図5、図6に示される要素のテーブルがそれぞれ得られる。そして、差分スコア計算部によって、音声通話記録中の各要素(図5)に対して差分スコアが計算される(差分スコア計算工程、ST430)。
差分スコアは、通話音声記録中の任意の要素dに対して、前記式(1)を用いて算出される。ここでは前記βを100として、通話音声記録中の各要素に対して差分スコアを算出すると、図22に示す差分スコアのデータが得られる。
算出された差分スコアのデータは差分要素抽出部157に出力され、差分スコアに基づいて差分要素が抽出される(差分要素抽出工程ST440)。
すなわち、差分スコアが閾値以上である要素が差分要素として抽出される。
ここで、差分閾値を0.5に設定した場合、図23のように差分要素が抽出される。
このように抽出された差分要素は差分データ記憶部160にバッファされていく(差分データ記憶工程ST450)。
差分要素のデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図24は、差分要素を記録したデータテーブルの例である。このようにして収集された差分のデータに対して統計処理部170により統計処理が行われ(統計処理工程ST460)、出力部180に出力される(出力工程ST470)。
このような構成を備える第4実施形態によれば、差分スコアの計算値を用いて差分を抽出するので、同義語辞書や単語対応付けの学習データに頼ることなく差分要素の抽出を行うことができる。すなわち、要素同士の同一、類似、同義、類義といった対応を一つ一つ検討する手間が必要ないので、処理効率を高めることができる。また、差分要素抽出部157における差分スコアの閾値を任意に設定することができるため、抽出する差分の範囲を拾い出したい情報の性質に応じて広げたり狭めたりすることも任意となり、所望の情報を的確にマイニングする確度を高めると同時にテキストマイニングの効率を向上させることができる。
(第5実施形態)
次に、本発明の第5実施形態に係るテキストマイニング装置500について説明する。
第5実施形態の基本的構成は第1実施形態に同様であるが、差分処理部550において差分スコア計算部156を備えている点に特徴を有する。
図25は、第5実施形態の構成を示す図である。
第5実施形態において、差分処理部550は、要素対応付け部151と、差分要素抽出部152と、差分スコア計算部156と、を備える。
要素対応付け部151および差分要素抽出部152は、第1実施形態において説明した構成に同様である。
要素対応付け部によって二つの文書データの要素同士が対応付けられる。差分要素抽出部152によって一方の文書データのみに現れ、対応する要素を持たないものが差分要素として抽出される。
差分スコア計算部は、第4実施形態において説明した構成に同様である。
ただし、第5実施形態においては、差分スコア計算部156は、差分要素抽出部157にて抽出された各差分要素に対して差分スコアを計算する。そして、差分要素抽出部152にて抽出された差分要素に差分スコアが付された状態で差分データ記憶部160に記憶されていく。
図26は、第5実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
要素対応付け工程(ST530)によって図7に示される要素対応付けの表が得られ、さらに、差分要素抽出工程(ST540)によって対応要素を持たない差分要素が抽出される(図8参照)。さらに、抽出された各差分要素に対して差分スコアが計算される。すると、図27に示されるように差分要素ごとの差分スコアが得られる。
このように得られた差分要素と差分スコアとは差分データ記憶部160にバッファされていく(差分データ記憶工程ST560)。受付インデックス、担当者、顧客名、注文商品といった関連因子とともに差分要素および差分スコアがデータテーブルに整理されて記憶される(図28参照)。
このようにして収集された差分のデータに対して統計処理部170により統計処理が行われる(統計処理工程ST570)。統計処理部170における統計処理工程(ST570)にあっては、差分要素ごとに算出された差分スコアを差分らしさの重みとして取り扱うことにより、一つのキーワードに対して抜き出される差分を単なる一様な差分集合としてではなく、さらに、確信度の高い差分の部分集合を抜き出す。処理結果は出力部180に出力される(出力工程ST580)。
このような構成を備える第5実施形態によれば、差分要素に対して差分スコアを計算し、差分スコアを考慮に入れて統計処理を行うので、二つの文書データの差分に着目するテキストマイニングにおいて、より確信度の高いテキストマイニングが可能となる。
なお、本発明は上記実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えうることはもちろんである。
上記実施形態においては本発明を実施する場合の詳細な構成を例示したが、上記実施形態に限定されることなく、本発明のテキストマイニング装置10としては例えば図29に示されるように要素抽出部14と、差分処理部15と、統計処理部17と、を備えていればよい。
このような構成において、入力される文書データから要素抽出部によって文書データに含まれる文字列や単語等の要素を抽出し、抽出結果を差分処理部に出力する。
差分処理部は、抽出された要素同士を対比し、文書データ間の差分を抽出する。
そして、差分に対して統計処理部によって統計処理が行われ、結果が得られる。
このような構成によれば、関連する文書データ間の差分を抽出したうえでこの差分データに対して統計処理を行うことができるので、複数の文書データ間の差異に注目して情報を取り出すことができ、従来活用されなかった有益な情報を有効に利用することができる。
差分処理部における差分の生成では、文書間に共通しない要素のみを差分として精度よく抽出可能な構成であることが好ましい。
差分抽出の精度が高いほど、差分に特徴的な情報をより有効に抽出できるという本発明の効果が期待できるからである。
ここで、差分として可読な文を抽出する差分の生成方法は、可読性と引き換えに差分の抽出精度を劣化させる恐れがあるため、本発明では可読性を有する文を差分として抽出する必要はない。本発明においては、差分要素の抽出精度が重要であり、差分の可読性は不要である。
また、あらかじめ特定の観点で重要情報を絞りこむ差分の生成も本発明に適した差分の生成方法とはいえない。テキストマイニングにおける統計量の評価に影響を与えるためである。
要素対応付け部において要素を対応付けるにあたっては、上記に説明した単語対応付けの手法の他、同義語辞書によって同一、類似、同義、類義の単語同士を対応付けてもよい。
上記第2実施形態および第3実施形態において、差分要素を抽出するにあたっては要素対応付け部による要素対応付けの後に対応要素が存在しないものを差分要素抽出部にて抽出する構成を採用したが、これに代えて、第4実施形態にて説明したように要素ごとに差分スコアを算出した後に差分スコアが所定閾値以上である要素を差分要素として抽出する構成を採用してもよい。
上記第3実施形態において、対応無し差分ブロックを抽出するにあたり、まず差分ブロック抽出部において差分要素を内包する差分ブロックを抽出したうえで対応要素をもつ差分ブロックを削除して対応無し差分ブロックを抽出する構成を説明したが、差分ブロック抽出部を備えていなくてもよい。すなわち、差分要素抽出部と対応要素抽出部とで差分要素と対応要素とをそれぞれ抽出しておいて、対応無し差分ブロック抽出部において差分要素を内包しかつ対応要素を内包しないブロックをもとの文書データから直に抽出してもよい。
さらには、第3実施形態において、差分要素抽出部および差分ブロック抽出部を備えずに、対応要素抽出部にて抽出した対応要素に対して、この対応要素を内包しないブロックをもとの文書データから対応無し差分ブロックとして抽出してもよい。
本発明は、各種論理素子等のハードウェアで構成されたものに限らず、CPU(中央処理装置)、メモリ(記憶装置)等を備えたコンピュータに所定のプログラムを組み込んで、このコンピュータを上記実施形態にて説明した各機能部として動作させ、上記各工程の処理を実行させてもよい。すなわち、CPUやメモリを配置してコンピュータとして機能できるように構成し、このメモリに所定のプログラムをインターネット等の通信手段や、CD−ROM、メモリカード等の記録媒体を介してインストールし、このインストールされたプログラムでCPU等を動作させて、各機能部の機能を実現させればよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年3月12日に出願された日本出願特願2008−062667号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、関連付けられた複数の文書データ間にある差異に注目するテキストマイニングに利用でき、例えば、一つの対象に対して複数の意見が収集される場合や、一つの対象に対して電子メール、FAX、電話などの複数チャンネルから情報が得られる場合のテキストマイニングに利用できる。
より具体的には、特定対象に対して複数得られた自由記述のアンケートを分析するテキストマイニングや、コールセンターにおける通話音声記録と報告文書を分析するテキストマイニングなどが例として挙げられる。

Claims (15)

  1. 関連する一の文書データと他の文書データの組を複数入力し、該複数の文書データ組に含まれる各文書データから言語の要素を抽出する要素抽出手段と、
    該要素抽出手段にて一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出し、該差分要素の集合を差分として出力する差分処理手段と、
    該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う統計処理手段と、を備える
    ことを特徴とするテキストマイニング装置。
  2. 請求項1に記載のテキストマイニング装置において、
    前記要素抽出手段は、前記文書データに含まれる文字列、単語、文字Nグラム、単語Nグラム、構文構造、構文構造の部分構造、および、文のうちいずれか一つ以上を前記要素として抽出する
    ことを特徴とするテキストマイニング装置。
  3. 請求項2に記載のテキストマイニング装置において、
    前記差分処理手段は、
    前記要素抽出手段にて一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出する差分スコア計算手段と、
    前記要素抽出手段にて抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出する差分要素抽出手段と、を備え、
    該差分要素の集合を差分として出力する
    ことを特徴とするテキストマイニング装置。
  4. 請求項3に記載のテキストマイニング装置において、
    前記差分スコア計算手段は、一の文書データの要素と他の文書データの要素との相互情報量をパラメータに含む指数関数の逆数に基づいて前記差分スコアを計算することを特徴とするテキストマイニング装置。
  5. 請求項3または請求項4に記載のテキストマイニング装置において、
    前記差分要素抽出手段は、前記要素抽出手段にて抽出された一の文書データの要素のうち、他の文書データに対する前記差分スコアが所定閾値以上であって、かつ、他の文書データに含まれない要素を差分要素として抽出する
    ことを特徴とするテキストマイニング装置。
  6. 請求項3または請求項4に記載のテキストマイニング装置において、
    前記統計処理手段は、前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算する特徴度計算手段を備え、
    さらに、該特徴度計算手段は、該差分要素の差分スコアを加味して前記特徴度を計算する
    ことを特徴とするテキストマイニング装置。
  7. 請求項6に記載のテキストマイニング装置において、
    前記特徴度計算手段は、前記複数の差分に含まれる各差分要素に対して、該差分要素の特徴度を計算する際、該差分要素の、前記複数の一の文書データから抽出された差分における差分スコアの総和と、前記所定の幾つかの一の文書データから抽出された差分における差分スコアの総和とから計算する
    ことを特徴とするテキストマイニング装置。
  8. 請求項2に記載のテキストマイニング装置において、
    前記差分処理手段は、さらに、抽出された前記差分要素を内包しておりこの差分要素よりも大きな要素からなるブロックをもとの前記文書データから差分ブロックとして抽出する差分ブロック抽出手段を備え、
    前記抽出された複数の差分ブロックを、一の文書データの他の文書データに対する差分として抽出する
    ことを特徴とするテキストマイニング装置。
  9. 請求項8に記載のテキストマイニング装置において、
    前記差分ブロック抽出手段は、構文構造、構文構造の部分構造、または文を前記差分ブロックの単位とする
    ことを特徴とするテキストマイニング装置。
  10. 関連する一の文書データと他の文書データの組を複数入力して、該複数の文書データ組に含まれる各文書データから言語の要素を抽出し、
    一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出して、該差分要素の集合を差分として出力し、
    該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う
    ことを特徴とするテキストマイニング方法。
  11. 請求項10に記載のテキストマイニング方法において、
    差分を出力する工程では、
    一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出し、
    抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出し、
    該差分要素の集合を差分として出力する
    ことを特徴とするテキストマイニング方法。
  12. 請求項11に記載のテキストマイニング方法において、
    統計的に計算する処理を含んだテキストマイニング処理を行う工程では、
    前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算し、
    このとき、該差分要素の差分スコアを加味して前記特徴度を計算する
    ことを特徴とするテキストマイニング方法。
  13. コンピュータを、
    関連する一の文書データと他の文書データの組を複数入力し、該複数の文書データ組に含まれる各文書データから言語の要素を抽出する要素抽出手段、
    該要素抽出手段にて一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出し、該差分要素の集合を差分として出力する差分処理手段、
    該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う統計処理手段、として機能させるテキストマイニングプログラム。
  14. 請求項13に記載のテキストマイニングプログラムにおいて、
    前記差分処理手段は、
    前記要素抽出手段にて一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出する差分スコア計算手段と、
    前記要素抽出手段にて抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出する差分要素抽出手段と、を備え、
    該差分要素の集合を差分として出力する
    ことを特徴とするテキストマイニングプログラム。
  15. 請求項14に記載のテキストマイニングプログラムにおいて、
    前記統計処理手段は、
    前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算する特徴度計算手段を備え、
    さらに、該特徴度計算手段は、該差分要素の差分スコアを加味して前記特徴度を計算する
    ことを特徴とするテキストマイニングプログラム。
JP2010502791A 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム Active JP5459203B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010502791A JP5459203B2 (ja) 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008062667 2008-03-12
JP2008062667 2008-03-12
PCT/JP2009/054300 WO2009113457A1 (ja) 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体
JP2010502791A JP5459203B2 (ja) 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Publications (2)

Publication Number Publication Date
JPWO2009113457A1 JPWO2009113457A1 (ja) 2011-07-21
JP5459203B2 true JP5459203B2 (ja) 2014-04-02

Family

ID=41065126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010502791A Active JP5459203B2 (ja) 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Country Status (3)

Country Link
US (1) US8452782B2 (ja)
JP (1) JP5459203B2 (ja)
WO (1) WO2009113457A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012098838A1 (ja) * 2011-01-17 2012-07-26 日本電気株式会社 報告文書作成支援システム、報告文書作成支援方法および報告文書作成支援プログラム
CA2883935C (en) * 2012-09-07 2019-10-22 Tiversa Ip, Inc. Snippet matching in file sharing networks
JP5963312B2 (ja) * 2013-03-01 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及びプログラム
CN110275966B (zh) * 2019-07-01 2021-10-01 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN111078823A (zh) * 2019-12-13 2020-04-28 北京明略软件系统有限公司 文本要素提取方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180057A (ja) * 1994-12-22 1996-07-12 Toshiba Corp 文書検索方法および装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3587120B2 (ja) 2000-03-15 2004-11-10 日本電気株式会社 アンケート回答分析システム
JP4992243B2 (ja) * 2006-01-31 2012-08-08 富士通株式会社 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
JP4539616B2 (ja) 2006-07-28 2010-09-08 日本電気株式会社 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180057A (ja) * 1994-12-22 1996-07-12 Toshiba Corp 文書検索方法および装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CSNG200400584009; 上田芳弘、外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 第J85-D-I巻,第7号, 20020701, p.681-690, 社団法人電子情報通信学会 *
CSNG200500055007; 松永聡彦、外2名: '改版文書翻訳システムにおける文脈を考慮した文対応付け手法' 電子情報通信学会技術研究報告(NLC2003-15〜24) 第103巻,第280号, 20030822, p.43-48, 社団法人電子情報通信学会 *
JPN6009014912; 田村晃裕、外2名: 'コールセンターのコールメモと通話を対象とした差分マイニング' FIT2008(第7回情報科学技術フォーラム)講演論文集[CD-ROM] , 20080820, p.295-298(第2分冊) *
JPN6009014914; 松永聡彦、外2名: '改版文書翻訳システムにおける文脈を考慮した文対応付け手法' 電子情報通信学会技術研究報告(NLC2003-15〜24) 第103巻,第280号, 20030822, p.43-48, 社団法人電子情報通信学会 *
JPN6009014916; 上田芳弘、外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 第J85-D-I巻,第7号, 20020701, p.681-690, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
JPWO2009113457A1 (ja) 2011-07-21
WO2009113457A1 (ja) 2009-09-17
US8452782B2 (en) 2013-05-28
US20110010373A1 (en) 2011-01-13

Similar Documents

Publication Publication Date Title
US10699081B2 (en) Human language analyzer for detecting clauses, clause types, and clause relationships
US11900960B2 (en) System and method for frustration detection
US11216164B1 (en) Server with associated remote display having improved ornamentality and user friendliness for searching documents associated with publicly traded companies
US20090112642A1 (en) Patent information analyzing apparatus, patent information analyzing method, patent information analyzing program, and computer-readable storage medium
WO2021068843A1 (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
JP5459203B2 (ja) テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
Tyagi et al. Sentiment analysis using logistic regression and effective word score heuristic
US20140289253A1 (en) System for management of sentiments and methods thereof
JP2012198684A (ja) 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム
Widyaningrum et al. Sentiment analysis to assess the community’s enthusiasm towards the development chatbot using an appraisal theory
TW201415402A (zh) 取證系統、取證方法及取證程式
Ceballos Delgado et al. Deception detection using machine learning
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及系统
CN107329968A (zh) 一种针对企业官网的数据清洗、整合方法及系统
JP5423380B2 (ja) 情報処理プログラム及び情報処理方法
US20090319514A1 (en) Method and system for assigning scores
Hashfi et al. Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method
Wang et al. A model-driven method for quality reviews detection: An ensemble model of feature selection
Harding BI crucial to making the right decision: business intelligence is all about collecting useful information from multiple sources and then presenting it in an easy to understand format.(Special Report: Business Intelligence)
JP2018067215A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Porntrakoon et al. Text summarization for Thai food reviews using simplified sentiment analysis
Shanmugam et al. Twitter emotion analysis for brand comparison using naive Bayes classifier
Aggarwal Identification of quality parameters associated with 3V's of Big Data
CN112015857A (zh) 用户感知评价方法、装置、电子设备及计算机存储介质
Li et al. Exploring Multi-Document Information Consolidation for Scientific Sentiment Summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131230

R150 Certificate of patent or registration of utility model

Ref document number: 5459203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150