JP5459203B2 - テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム - Google Patents
テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム Download PDFInfo
- Publication number
- JP5459203B2 JP5459203B2 JP2010502791A JP2010502791A JP5459203B2 JP 5459203 B2 JP5459203 B2 JP 5459203B2 JP 2010502791 A JP2010502791 A JP 2010502791A JP 2010502791 A JP2010502791 A JP 2010502791A JP 5459203 B2 JP5459203 B2 JP 5459203B2
- Authority
- JP
- Japan
- Prior art keywords
- difference
- document data
- extracted
- text mining
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このようなテキストマイニング技術を利用することにより、膨大に蓄積された文書情報から有益な情報を絞り出し、マーケティング等のビジネス手法に有効活用することが期待されている。
例えば、アンケートの回答文書をテキストマイニングで分析する手法が特許文献1、特許文献2に開示されている。
このようなテキストマイニングによって、多くのアンケート回答文書データのなかで出現頻度の高い特徴語を抽出したり、あるいは、特定の単語に対して高い相関性をもって出現する関連語を抽出したりする文書解析が可能となり、マーケティング等に活用されている。
しかしながら、従前のテキストマイニングのごとく自然言語処理(例えば単語に分割)したデータに統計処理を行うだけでは文書間の差異に注目する分析結果を得ることはできない。
そのため、今なお蓄積された文書データに埋もれている有用な情報を活用できないままとなっている。
(第1実施形態)
図1は、本発明のテキストマイニング装置100に係る第1実施形態の構成を示す図である。
テキストマイニング装置100は、テキストマイニングの対象となる文書データを入力する入力部110と、入力された文書データを解析してテキストマイニングを行う解析部120と、解析した結果を出力する出力部180と、を備えている。
本実施形態においてテキストマイニング処理の対象となるのは、関連ある複数の文書データであり、文書データの数は特に限定されるものではない。
説明の都合上、以下においては、関連する二つの文書データからなる組をテキストマイニングの対象として入力部110から入力する場合を例にし、ある組の二つの文書を第1文書データと第2文書データとする。
このような統計処理としては拡張型確率的コンプレキシティなどが例として挙げられる。
図2は、本実施形態におけるテキストマイニング方法の手順を示すフローチャートである。
テキストマイニングにあたって、まず、テキストマイニングの対象となる文書データを入力部110から入力する(入力工程、ST100)。
本実施形態のテキストマイニングでは、差分に注目すべき文書データの組を入力する。差分に注目すべき文書データの組としては、例えば、一つの対象に対して異なる方式で作成された関連ドキュメントが例として挙げられる。
このような関連ドキュメントは、互いに共通する部分と、一方の文書データには含まれるが他方の文書データには含まれていない差分の部分と、が存在する。そして、このような差分の部分に価値ある情報を有している場合がある。
コールセンターは、電話応対による商品のセールスを受け持つが、近年では単なる電話応対のみならず、応対結果に基づいた顧客情報のデータベース構築などにより戦略的マーケティング上でも重要な部署になっている。
コールセンターでは、コンピュータに統合された電話、FAXの機能によって通話音声記録、FAX、電子メールといった生データで顧客との応対記録が記録されるとともに、オペレータによって作成される報告文書の形でも顧客対応が記録される。
たとえば、図3は音声通話記録の一例であり、図4は報告文書の一例である。
報告文書は、オペレータの判断により簡潔な形で作成され、顧客応対における主要な内容を含んだ有用性の高いドキュメントとなり、通常はこちらの情報で十分に必要を満たす。
ただし、オペレータが顧客の発言のなかで理解できなかった部分や、セールスの主題から外れたやり取り、顧客との間で交わされる詳細な商品説明やヒヤリングの過程などは報告文書から割愛されることが多くなる。
また、オペレータの状況判断や推測事項、顧客に対して直接に説明する必要がない事項などは通話音声記録には現れず、報告文書にのみ記録されることとなる。
このように一方にのみ記録される情報には顧客の生の声、オペレータの応対の仕方など有用な情報が大いに含まれている。そこで、このような通話音声記録と報告文書との差異を分析する必要が生じてくる。
すなわち、同一、類似、同義、類義の関係にある要素同士が対応付けられる。
ここで、要素同士を対応付ける手法については既存の方法を用いることができる。
例えば、同義語辞書を用いてもよく、または報告文書が通話音声記録の抄録に当たる関係から対応関係aを次のように求めることができる。
すなわち、通話音声記録の顧客発言から抽出された要素の集合をD、報告文書から抽出された要素の集合をRとすると、集合Rは集合Dの抄録という関係にある。
このとき、集合Dに対して集合Rが生成される事後確率P(R|D)を最大化するような、集合Dと集合Rとの要素d、r間の対応関係aが次のように求められる(例えば、Stephan Vogel, Hermann Ney, and Christoph Tillmann. 1996. HMM-Based Word Alignment in Statistical Translation. In COLING'96: The 16th Int. Conf. on Computational Linguistics, pages 836-841, Copenhagen, Denmark, August.に開示されている)。
従来、上記のような有益な情報があるにも関わらず、通話音声記録と報告文書の双方に共通して頻度が高い表現が目立ってしまい、重要な情報であっても埋もれて利用されないままとなっていた。
この点、本実施形態では、二つの文書データの差分を抽出したうえでこの差分データに対して統計処理を行う構成を採用している。そのため、従来のテキストマイニングでは取り出すことができなかった情報を取り出すことができる。例えば、多くの顧客が色のオーダーをする際に発言する「白が良い」、「黄が良い」、「緑が良い」等の有益な情報を掘り起こすことができる。
次に、本発明の第2実施形態に係るテキストマイニング装置200について説明する。
第2実施形態の基本的な構成は第1実施形態に同様であるが、差分処理部250において差分ブロックを抽出する点に特徴を有する。
図11は、第2実施形態の構成を示す図である。
第2実施形態において、差分処理部250は、要素対応付け部151と、差分要素抽出部152と、差分ブロック抽出部153と、を備えている。
差分ブロック抽出部153は、差分要素抽出部152にて抽出された差分の要素を受け取るとともに、この差分要素を入力データ記憶部130に記憶されている文書データに対比して、差分要素を含むより大きな要素を差分ブロックとして抽出する。ここで、差分ブロック抽出部は、構文構造または構文構造の部分構造を差分ブロックの単位として抽出する。
差分要素抽出工程(ST240)において、通話音声記録と報告文書との間の差分要素が抽出され、図8のテーブルが得られる。
このように抽出された差分要素を含む文が差分ブロックとして通話音声記録から抽出される(差分ブロック抽出工程ST250)。例えば、図8に示される差分要素に対して、これらの要素を含むもとの音声通話記録は、発言インデックスが4、5、9、16、17である(図3を参照)。そこで、この発言インデックス4、5、9、16、17を差分ブロックとして抽出する。
図13は、このようにして抽出された差分ブロックのデータテーブルである。
次に、本発明の第3実施形態に係るテキストマイニング装置300について説明する。
第3実施形態の基本的構成は第2実施形態に同様であるが、差分ブロック抽出部153にて抽出される差分ブロックのうち、さらに、対応要素を有しないブロックだけを差分として抽出する点に特徴を有する。
図15は、第3実施形態の構成を示す図である。
第3実施形態において、差分処理部350は、要素対応付け部151と、差分要素抽出部152と、差分ブロック抽出部153と、対応要素抽出部154と、対応無し差分ブロック抽出部155と、を備える。
要素対応付け部151、差分要素抽出部152および差分ブロック抽出部153は、前記実施形態にて説明した構成と同様である。
すなわち、差分ブロック抽出部153は、差分要素を含むブロック(センテンス)を抽出する。
ここで、対応要素抽出部154は、要素対応付け部151にて対応付けられた要素のデータから互いに対応する要素を持つものを抽出する。
対応無し差分ブロック抽出部155は、差分ブロック抽出部153にて抽出された差分ブロックのうち対応要素抽出部154にて抽出された対応要素を含有するものを削除して対応要素を持たない差分ブロックだけを抽出する。
差分ブロック抽出工程(ST333)において差分要素を含む差分ブロックが抽出され、図13に示される差分ブロックのテーブルが得られる。
また、要素対応付け部151による対応付け(ST331)によって図7のテーブルが得られているところ、このテーブル(図7)から互いに対応する要素を持つものが対応要素抽出部154によって抽出される(対応要素抽出工程、ST334)。
図7に示されるテーブルから対応要素を持つものを抽出すると図17に示すテーブルが得られる。そして、差分ブロックのテーブル(図13)から対応要素をもつもの(図17)を削除して対応要素を持たないブロックが抽出される(対応無しブロック抽出工程ST335)。すると、発言インデックス16のブロックだけが対応要素無し差分ブロックとして抽出される(図18)。
差分ブロックのデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。
図19は、対応無し差分ブロックを記録したデータテーブルの例である。
このようにして収集された対応無し差分ブロックのデータに対して統計処理部170により統計処理が行われ(統計処理工程ST350)、出力部180に出力される(出力工程ST360)。
次に、本発明の第4実施形態に係るテキストマイニング装置400について説明する。
第4実施形態の基本的構成は第1実施形態に同様であるが、差分処理部450において差分要素を抽出する構成に特徴を有する。
図20は、第4実施形態の構成を示す図である。
第4実施形態において、差分処理部450は、差分スコア計算部156と、差分要素抽出部157と、を備えている。
差分スコア計算部は、第1文書データ中の各要素に対して差分らしさを表す差分スコアを計算する。すなわち、要素抽出部140によって第1文書データと第2文書データとからそれぞれの要素が抽出されているところ、第1文書データの要素と第2文書データの要素とを対比して第1文書データの要素ごとに差分スコアを計算する。
ここで、第1文書データ中の任意の要素dに対する差分スコア(d)を次の式(1)で定義する。
なお、βは正の整数である。
Dは第1文書データ中に要素dが出現する確率であり、Riは第2文書データ中に要素riが出現する確率であり、I(D;Ri)は前記確率変数DとRiとの相互情報量である。
要素抽出工程(ST420)にて通話音声記録と報告文書とからそれぞれ要素が抽出され、図5、図6に示される要素のテーブルがそれぞれ得られる。そして、差分スコア計算部によって、音声通話記録中の各要素(図5)に対して差分スコアが計算される(差分スコア計算工程、ST430)。
差分スコアは、通話音声記録中の任意の要素dに対して、前記式(1)を用いて算出される。ここでは前記βを100として、通話音声記録中の各要素に対して差分スコアを算出すると、図22に示す差分スコアのデータが得られる。
すなわち、差分スコアが閾値以上である要素が差分要素として抽出される。
ここで、差分閾値を0.5に設定した場合、図23のように差分要素が抽出される。
差分要素のデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図24は、差分要素を記録したデータテーブルの例である。このようにして収集された差分のデータに対して統計処理部170により統計処理が行われ(統計処理工程ST460)、出力部180に出力される(出力工程ST470)。
次に、本発明の第5実施形態に係るテキストマイニング装置500について説明する。
第5実施形態の基本的構成は第1実施形態に同様であるが、差分処理部550において差分スコア計算部156を備えている点に特徴を有する。
図25は、第5実施形態の構成を示す図である。
第5実施形態において、差分処理部550は、要素対応付け部151と、差分要素抽出部152と、差分スコア計算部156と、を備える。
要素対応付け部151および差分要素抽出部152は、第1実施形態において説明した構成に同様である。
要素対応付け部によって二つの文書データの要素同士が対応付けられる。差分要素抽出部152によって一方の文書データのみに現れ、対応する要素を持たないものが差分要素として抽出される。
ただし、第5実施形態においては、差分スコア計算部156は、差分要素抽出部157にて抽出された各差分要素に対して差分スコアを計算する。そして、差分要素抽出部152にて抽出された差分要素に差分スコアが付された状態で差分データ記憶部160に記憶されていく。
要素対応付け工程(ST530)によって図7に示される要素対応付けの表が得られ、さらに、差分要素抽出工程(ST540)によって対応要素を持たない差分要素が抽出される(図8参照)。さらに、抽出された各差分要素に対して差分スコアが計算される。すると、図27に示されるように差分要素ごとの差分スコアが得られる。
このように得られた差分要素と差分スコアとは差分データ記憶部160にバッファされていく(差分データ記憶工程ST560)。受付インデックス、担当者、顧客名、注文商品といった関連因子とともに差分要素および差分スコアがデータテーブルに整理されて記憶される(図28参照)。
このようにして収集された差分のデータに対して統計処理部170により統計処理が行われる(統計処理工程ST570)。統計処理部170における統計処理工程(ST570)にあっては、差分要素ごとに算出された差分スコアを差分らしさの重みとして取り扱うことにより、一つのキーワードに対して抜き出される差分を単なる一様な差分集合としてではなく、さらに、確信度の高い差分の部分集合を抜き出す。処理結果は出力部180に出力される(出力工程ST580)。
上記実施形態においては本発明を実施する場合の詳細な構成を例示したが、上記実施形態に限定されることなく、本発明のテキストマイニング装置10としては例えば図29に示されるように要素抽出部14と、差分処理部15と、統計処理部17と、を備えていればよい。
このような構成において、入力される文書データから要素抽出部によって文書データに含まれる文字列や単語等の要素を抽出し、抽出結果を差分処理部に出力する。
差分処理部は、抽出された要素同士を対比し、文書データ間の差分を抽出する。
そして、差分に対して統計処理部によって統計処理が行われ、結果が得られる。
このような構成によれば、関連する文書データ間の差分を抽出したうえでこの差分データに対して統計処理を行うことができるので、複数の文書データ間の差異に注目して情報を取り出すことができ、従来活用されなかった有益な情報を有効に利用することができる。
差分抽出の精度が高いほど、差分に特徴的な情報をより有効に抽出できるという本発明の効果が期待できるからである。
ここで、差分として可読な文を抽出する差分の生成方法は、可読性と引き換えに差分の抽出精度を劣化させる恐れがあるため、本発明では可読性を有する文を差分として抽出する必要はない。本発明においては、差分要素の抽出精度が重要であり、差分の可読性は不要である。
また、あらかじめ特定の観点で重要情報を絞りこむ差分の生成も本発明に適した差分の生成方法とはいえない。テキストマイニングにおける統計量の評価に影響を与えるためである。
上記第2実施形態および第3実施形態において、差分要素を抽出するにあたっては要素対応付け部による要素対応付けの後に対応要素が存在しないものを差分要素抽出部にて抽出する構成を採用したが、これに代えて、第4実施形態にて説明したように要素ごとに差分スコアを算出した後に差分スコアが所定閾値以上である要素を差分要素として抽出する構成を採用してもよい。
さらには、第3実施形態において、差分要素抽出部および差分ブロック抽出部を備えずに、対応要素抽出部にて抽出した対応要素に対して、この対応要素を内包しないブロックをもとの文書データから対応無し差分ブロックとして抽出してもよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年3月12日に出願された日本出願特願2008−062667号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
より具体的には、特定対象に対して複数得られた自由記述のアンケートを分析するテキストマイニングや、コールセンターにおける通話音声記録と報告文書を分析するテキストマイニングなどが例として挙げられる。
Claims (15)
- 関連する一の文書データと他の文書データの組を複数入力し、該複数の文書データ組に含まれる各文書データから言語の要素を抽出する要素抽出手段と、
該要素抽出手段にて一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出し、該差分要素の集合を差分として出力する差分処理手段と、
該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う統計処理手段と、を備える
ことを特徴とするテキストマイニング装置。 - 請求項1に記載のテキストマイニング装置において、
前記要素抽出手段は、前記文書データに含まれる文字列、単語、文字Nグラム、単語Nグラム、構文構造、構文構造の部分構造、および、文のうちいずれか一つ以上を前記要素として抽出する
ことを特徴とするテキストマイニング装置。 - 請求項2に記載のテキストマイニング装置において、
前記差分処理手段は、
前記要素抽出手段にて一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出する差分スコア計算手段と、
前記要素抽出手段にて抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出する差分要素抽出手段と、を備え、
該差分要素の集合を差分として出力する
ことを特徴とするテキストマイニング装置。 - 請求項3に記載のテキストマイニング装置において、
前記差分スコア計算手段は、一の文書データの要素と他の文書データの要素との相互情報量をパラメータに含む指数関数の逆数に基づいて前記差分スコアを計算することを特徴とするテキストマイニング装置。 - 請求項3または請求項4に記載のテキストマイニング装置において、
前記差分要素抽出手段は、前記要素抽出手段にて抽出された一の文書データの要素のうち、他の文書データに対する前記差分スコアが所定閾値以上であって、かつ、他の文書データに含まれない要素を差分要素として抽出する
ことを特徴とするテキストマイニング装置。 - 請求項3または請求項4に記載のテキストマイニング装置において、
前記統計処理手段は、前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算する特徴度計算手段を備え、
さらに、該特徴度計算手段は、該差分要素の差分スコアを加味して前記特徴度を計算する
ことを特徴とするテキストマイニング装置。 - 請求項6に記載のテキストマイニング装置において、
前記特徴度計算手段は、前記複数の差分に含まれる各差分要素に対して、該差分要素の特徴度を計算する際、該差分要素の、前記複数の一の文書データから抽出された差分における差分スコアの総和と、前記所定の幾つかの一の文書データから抽出された差分における差分スコアの総和とから計算する
ことを特徴とするテキストマイニング装置。 - 請求項2に記載のテキストマイニング装置において、
前記差分処理手段は、さらに、抽出された前記差分要素を内包しておりこの差分要素よりも大きな要素からなるブロックをもとの前記文書データから差分ブロックとして抽出する差分ブロック抽出手段を備え、
前記抽出された複数の差分ブロックを、一の文書データの他の文書データに対する差分として抽出する
ことを特徴とするテキストマイニング装置。 - 請求項8に記載のテキストマイニング装置において、
前記差分ブロック抽出手段は、構文構造、構文構造の部分構造、または文を前記差分ブロックの単位とする
ことを特徴とするテキストマイニング装置。 - 関連する一の文書データと他の文書データの組を複数入力して、該複数の文書データ組に含まれる各文書データから言語の要素を抽出し、
一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出して、該差分要素の集合を差分として出力し、
該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う
ことを特徴とするテキストマイニング方法。 - 請求項10に記載のテキストマイニング方法において、
差分を出力する工程では、
一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出し、
抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出し、
該差分要素の集合を差分として出力する
ことを特徴とするテキストマイニング方法。 - 請求項11に記載のテキストマイニング方法において、
統計的に計算する処理を含んだテキストマイニング処理を行う工程では、
前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算し、
このとき、該差分要素の差分スコアを加味して前記特徴度を計算する
ことを特徴とするテキストマイニング方法。 - コンピュータを、
関連する一の文書データと他の文書データの組を複数入力し、該複数の文書データ組に含まれる各文書データから言語の要素を抽出する要素抽出手段、
該要素抽出手段にて一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出し、該差分要素の集合を差分として出力する差分処理手段、
該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う統計処理手段、として機能させるテキストマイニングプログラム。 - 請求項13に記載のテキストマイニングプログラムにおいて、
前記差分処理手段は、
前記要素抽出手段にて一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出する差分スコア計算手段と、
前記要素抽出手段にて抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出する差分要素抽出手段と、を備え、
該差分要素の集合を差分として出力する
ことを特徴とするテキストマイニングプログラム。 - 請求項14に記載のテキストマイニングプログラムにおいて、
前記統計処理手段は、
前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算する特徴度計算手段を備え、
さらに、該特徴度計算手段は、該差分要素の差分スコアを加味して前記特徴度を計算する
ことを特徴とするテキストマイニングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010502791A JP5459203B2 (ja) | 2008-03-12 | 2009-03-06 | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008062667 | 2008-03-12 | ||
JP2008062667 | 2008-03-12 | ||
PCT/JP2009/054300 WO2009113457A1 (ja) | 2008-03-12 | 2009-03-06 | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体 |
JP2010502791A JP5459203B2 (ja) | 2008-03-12 | 2009-03-06 | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009113457A1 JPWO2009113457A1 (ja) | 2011-07-21 |
JP5459203B2 true JP5459203B2 (ja) | 2014-04-02 |
Family
ID=41065126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010502791A Active JP5459203B2 (ja) | 2008-03-12 | 2009-03-06 | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8452782B2 (ja) |
JP (1) | JP5459203B2 (ja) |
WO (1) | WO2009113457A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012098838A1 (ja) * | 2011-01-17 | 2012-07-26 | 日本電気株式会社 | 報告文書作成支援システム、報告文書作成支援方法および報告文書作成支援プログラム |
CA2883935C (en) * | 2012-09-07 | 2019-10-22 | Tiversa Ip, Inc. | Snippet matching in file sharing networks |
JP5963312B2 (ja) * | 2013-03-01 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及びプログラム |
CN110275966B (zh) * | 2019-07-01 | 2021-10-01 | 科大讯飞(苏州)科技有限公司 | 一种知识抽取方法及装置 |
CN111078823A (zh) * | 2019-12-13 | 2020-04-28 | 北京明略软件系统有限公司 | 文本要素提取方法、装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08180057A (ja) * | 1994-12-22 | 1996-07-12 | Toshiba Corp | 文書検索方法および装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3587120B2 (ja) | 2000-03-15 | 2004-11-10 | 日本電気株式会社 | アンケート回答分析システム |
JP4992243B2 (ja) * | 2006-01-31 | 2012-08-08 | 富士通株式会社 | 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置 |
JP4539616B2 (ja) | 2006-07-28 | 2010-09-08 | 日本電気株式会社 | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム |
-
2009
- 2009-03-06 JP JP2010502791A patent/JP5459203B2/ja active Active
- 2009-03-06 US US12/919,463 patent/US8452782B2/en active Active
- 2009-03-06 WO PCT/JP2009/054300 patent/WO2009113457A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08180057A (ja) * | 1994-12-22 | 1996-07-12 | Toshiba Corp | 文書検索方法および装置 |
Non-Patent Citations (5)
Title |
---|
CSNG200400584009; 上田芳弘、外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 第J85-D-I巻,第7号, 20020701, p.681-690, 社団法人電子情報通信学会 * |
CSNG200500055007; 松永聡彦、外2名: '改版文書翻訳システムにおける文脈を考慮した文対応付け手法' 電子情報通信学会技術研究報告(NLC2003-15〜24) 第103巻,第280号, 20030822, p.43-48, 社団法人電子情報通信学会 * |
JPN6009014912; 田村晃裕、外2名: 'コールセンターのコールメモと通話を対象とした差分マイニング' FIT2008(第7回情報科学技術フォーラム)講演論文集[CD-ROM] , 20080820, p.295-298(第2分冊) * |
JPN6009014914; 松永聡彦、外2名: '改版文書翻訳システムにおける文脈を考慮した文対応付け手法' 電子情報通信学会技術研究報告(NLC2003-15〜24) 第103巻,第280号, 20030822, p.43-48, 社団法人電子情報通信学会 * |
JPN6009014916; 上田芳弘、外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 第J85-D-I巻,第7号, 20020701, p.681-690, 社団法人電子情報通信学会 * |
Also Published As
Publication number | Publication date |
---|---|
JPWO2009113457A1 (ja) | 2011-07-21 |
WO2009113457A1 (ja) | 2009-09-17 |
US8452782B2 (en) | 2013-05-28 |
US20110010373A1 (en) | 2011-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699081B2 (en) | Human language analyzer for detecting clauses, clause types, and clause relationships | |
US11900960B2 (en) | System and method for frustration detection | |
US11216164B1 (en) | Server with associated remote display having improved ornamentality and user friendliness for searching documents associated with publicly traded companies | |
US20090112642A1 (en) | Patent information analyzing apparatus, patent information analyzing method, patent information analyzing program, and computer-readable storage medium | |
WO2021068843A1 (zh) | 一种情绪识别方法及装置、电子设备和可读存储介质 | |
JP5459203B2 (ja) | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム | |
Tyagi et al. | Sentiment analysis using logistic regression and effective word score heuristic | |
US20140289253A1 (en) | System for management of sentiments and methods thereof | |
JP2012198684A (ja) | 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム | |
Widyaningrum et al. | Sentiment analysis to assess the community’s enthusiasm towards the development chatbot using an appraisal theory | |
TW201415402A (zh) | 取證系統、取證方法及取證程式 | |
Ceballos Delgado et al. | Deception detection using machine learning | |
CN114548072A (zh) | 用于合同类文件的自动内容解析与信息评测方法及系统 | |
CN107329968A (zh) | 一种针对企业官网的数据清洗、整合方法及系统 | |
JP5423380B2 (ja) | 情報処理プログラム及び情報処理方法 | |
US20090319514A1 (en) | Method and system for assigning scores | |
Hashfi et al. | Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method | |
Wang et al. | A model-driven method for quality reviews detection: An ensemble model of feature selection | |
Harding | BI crucial to making the right decision: business intelligence is all about collecting useful information from multiple sources and then presenting it in an easy to understand format.(Special Report: Business Intelligence) | |
JP2018067215A (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
Porntrakoon et al. | Text summarization for Thai food reviews using simplified sentiment analysis | |
Shanmugam et al. | Twitter emotion analysis for brand comparison using naive Bayes classifier | |
Aggarwal | Identification of quality parameters associated with 3V's of Big Data | |
CN112015857A (zh) | 用户感知评价方法、装置、电子设备及计算机存储介质 | |
Li et al. | Exploring Multi-Document Information Consolidation for Scientific Sentiment Summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131230 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5459203 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |