JP2016081412A - 情報処理システム、情報処理プログラム、及び、情報処理方法 - Google Patents

情報処理システム、情報処理プログラム、及び、情報処理方法 Download PDF

Info

Publication number
JP2016081412A
JP2016081412A JP2014214334A JP2014214334A JP2016081412A JP 2016081412 A JP2016081412 A JP 2016081412A JP 2014214334 A JP2014214334 A JP 2014214334A JP 2014214334 A JP2014214334 A JP 2014214334A JP 2016081412 A JP2016081412 A JP 2016081412A
Authority
JP
Japan
Prior art keywords
partial
document set
feature word
feature
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014214334A
Other languages
English (en)
Other versions
JP6455068B2 (ja
Inventor
貴士 大西
Takashi Onishi
貴士 大西
弘紀 水口
Hiroki Mizuguchi
弘紀 水口
ダニエル アンドラーデ
Andrade Daniel
ダニエル アンドラーデ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014214334A priority Critical patent/JP6455068B2/ja
Publication of JP2016081412A publication Critical patent/JP2016081412A/ja
Application granted granted Critical
Publication of JP6455068B2 publication Critical patent/JP6455068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正例文書集合において抽出された特徴語が、正例文書集合を構成するいずれかの部分集合に偏って出現していることを判別し、当該特徴語がユーザの意図するものであるか否かの判断を容易にするための技術を提供すること。
【解決手段】文書集合における特徴語であって、前記文書集合の部分文書集合において特徴的に出現するものを部分特徴語として決定する部分特徴語決定手段と、前記部分特徴語決定手段から取得した前記部分特徴語を出力する部分特徴語出力手段と、を備える。
【選択図】 図1

Description

本発明は、テキストマイニングの目的に適う特徴語をユーザに提供する情報処理システム、情報処理装置、情報処理方法に関する。
企業内に存在する様々なテキスト文書、例えば、報告書、アンケート、電子メールなど、を分析し、企業活動におけるリスクや顧客動向を把握し、経営戦略の立案や新製品の開発に反映することが重要になっている。このようなテキスト文書の特徴や傾向を分析することをテキストマイニングと呼ぶ。テキストマイニングにおける基本的な分析技術の一つとして特徴語抽出技術がある。この特徴語抽出技術の一例が特許文献1に記載されている。特許文献1に記載されたテキストマイニング装置は、正例文書集合と負例文書集合の2つの文書集合が与えられたときに、前者の正例文書集合に特に多く出現し、後者の負例文書集合にはあまり出現しない単語もしくはフレーズを特徴語として抽出する。
特開2010−61176号
しかし、このテキストマイニング装置による特徴語抽出では、抽出された特徴語が必ずしも正例文書集合を構成する文書全体の特徴ではなく、正例文書集合に含まれる一部の文書集合の特徴であることがある。例えば、ある特徴語が正例文書集合を構成する文書のうち、ある特定の時期に作成された文書に偏って出現する場合、当該特徴語がその時期特有の出来事等を表している場合がある。いかなる時期にも汎用性のある情報を得ることを目的にユーザがテキストマイニングを行うのであれば、そのような特徴語は有用でない可能性がある。そこで、本発明の目的は、ユーザがテキストマイニングの目的に適った特徴語を容易に得るための技術を提供することにある。
本発明の第一のシステムは、文書集合における特徴語のうち、前記文書集合の部分文書集合における特徴度と、少なくとも一つの他の部分文書集合における特徴度との差が所定値以上である部分文書集合の特徴語、または前記文書集合の部分文書集合における特徴度が所定値以上である部分文書集合の特徴語を、部分特徴語として決定する部分特徴語決定手段と、前記部分特徴語決定手段から取得した前記部分特徴語を出力する部分特徴語出力手段と、を備える。
本発明の第二のシステムは、前記文書集合における特徴語のうち、前記部分特徴語出力手段から取得した前記部分特徴語と重複する特徴語以外を表示する表示手段を備える。
本発明の第三のシステムは、前記部分特徴語出力手段から取得した前記部分特徴語を表示する表示手段を備える。
本発明によれば、ユーザはテキストマイニングの目的に適った特徴語を容易に得ることができる。
第一実施形態の構成を示すブロック図である。 第一実施形態の動作を示すシークエンス図である。 テキストマイニングの対象となる文書の一例である。 特徴語抽出結果の一例を示す説明図である。 部分特徴語抽出結果の一例を示す説明図である。 部分特徴語抽出結果の一例を示す説明図である。 部分特徴語の表示の一例である。 第二実施形態の構成を示すブロック図である。 第二実施形態の動作を示すシークエンス図である。 第二実施形態のユーザによる入力の一例である。 第三実施形態の構成を示すブロック図である。 第三実施形態の動作を示すシークエンス図である。 第三実施形態の動作を示すシークエンス図である。 不要属性DB14に蓄積される情報の一例である。 第四実施形態の構成を示すブロック図である。 第四実施形態のハードウェア構成を示すブロック図である。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらに限定する趣旨のものではない。
(第一実施形態)
<第一実施形態の構成>
第一実施形態の構成例について説明する。図1は第一実施形態の構成例を示すブロック図である。
部分特徴語抽出システム1は、部分特徴語決定手段11と、部分特徴語出力手段12とを含む。部分特徴語決定手段11は、ユーザがユーザ端末3を用いて任意に指定した正例文書集合を、文書集合DB(データベース)21から取得する。そして、部分特徴語決定手段11は、正例文書集合を各文書に付された属性値ごとに分割し、部分文書集合を生成する。その後、部分特徴語決定手段11は、特徴語出力手段23より取得した各特徴語について、各部分文書集合ごとの特徴度を算出し、所定の条件を満たす特徴語を部分特徴語として決定する。部分特徴語出力手段12は、部分特徴語決定手段11から部分特徴語を取得し、ユーザ端末3に送信する。
特徴語抽出システム2は、文書集合DB21と、特徴語決定手段22と、特徴語出力手段23とを含む。文書集合DB21に蓄積される各文書には、予め属性値が付されている。特徴語決定手段22は、ユーザが任意に指定した正例文書集合および負例文書集合を文書集合DB21より取得し、正例文書集合における特徴語を決定する。特徴語出力手段23は、特徴語決定手段22より正例文書集合における特徴語を取得し、部分特徴語抽出システム1に送信する。
ユーザ端末3は、入力手段31と、表示手段32とを含む。入力手段31は、ユーザから正例文書集合および負例文書集合の指定を受け、その情報を部分特徴語抽出システム1および特徴語抽出システム2に送信する。入力手段31は、例えばキーボードやマウス、タッチパネルなどの入力機器である。なお、ユーザは、部分特徴語決定手段11に送信する負例文書集合の指定を、特徴語決定手段22に送信するそれと異なるものとしても良い。表示手段32は、部分特徴語抽出システム1より部分特徴語を取得し、当該部分特徴語をユーザに表示する。表示手段32は、例えばPC(パーソナルコンピュータ)用ディスプレイや携帯端末のディスプレイ、投射スクリーンなどである。
<第一実施形態の動作>
以下、第一実施形態の動作について具体例を用いて詳しく説明する。本実施形態では、ユーザは、営業成績の良い営業所の営業日報から営業成績向上のための有用な情報を得、各営業所に展開するためにテキストマイニングを行うものとする。すなわち、テキストマイニングにおける特徴語抽出の対象となる文書は、複数の営業所から回収された営業日報である。営業日報の構成の一例を、図3に示す。ここで、各営業日報に付されている、それらを分類しうる情報が属性値である。属性値には、例えばその文書を「いつ」「誰が」「何について」書いたものかを示すような情報が該当する。具体的には、図4に示す営業日報における「2014年8月8日」「鈴木 太郎」「T社」等の記載が該当する。各文書の属性値は、予めユーザが各文書に対応付けて文書集合DB21等に登録しても良いし、ユーザが予め属性値記入欄の位置情報を学習させたシステムが、文書をスキャンする際に、自動的に位置情報から属性値を認識し、文書に対応付けて記憶するものとしても良い。また、各属性値の上位概念にあたる情報を、属性カテゴリとする。属性カテゴリには、例えば図3の営業日報における「訪問日」「作成者」「取引先」等の記載が該当する。属性カテゴリついても、属性値と同様に、予めユーザが各文書に対応付けて文書集合DB等に登録しても良いし、文書の位置情報から自動的にシステムが認識して記憶するものとしても良い。あるいは、ユーザが予め各属性値に対応する属性カテゴリをDB等に記憶させ、システムが文書の属性値を認識すると、DB等から自動的に属性カテゴリを割り当てるようにしても良い。
なお、正例文書集合を構成する各文書を部分文書集合に分類する方法は、属性値によるものに限られない。例えば、正例文書集合のうち偶数ページのみを集めたものと、奇数ページを集めたものとでそれぞれ部分文書集合を構成する、などでも良い。その場合、システムはユーザにとって一見意味のない規則(例えば偶数ページ)と特徴語との関係性についても示唆することができるため、ユーザが目的に適った特徴語を得られる可能性が高くなる。
図2は、第一実施形態の動作の例を示すシーケンス図である。
まず、ユーザは、ユーザ端末3内の入力手段31により、特徴語抽出システム2内の文書集合DB21に蓄積されている文書集合から、正例文書集合および負例文書集合を指定する(S1)。本実施形態では、ユーザは営業成績の良い営業所において作成された営業日報の集合を正例文書集合に、それ以外の営業所において作成された営業日報の集合を負例文書集合に、それぞれ指定する。入力手段31は、ユーザが指定した2つの文書集合を特定する情報を、部分特徴語抽出システム1および特徴語抽出システム2に送信する。
特徴語抽出システム2内の特徴語決定手段22は、文書集合DB21からユーザが指定した正例文書集合および負例文書集合を取得する(S2)。次に、特徴語決定手段22は、正例文書集合および負例文書集合に出現する単語またはフレーズについて特徴度を算出し、所定の条件を満たす単語またはフレーズを特徴語として決定する(S3)。特徴度とは、ある単語またはフレーズが特定の文書集合にどれだけ偏って出現しているかを表す指標である。例えば、カイ二乗値や対数尤度比等の独立性の検定に用いる統計量や、拡張型確率的コンプレキシティのような正例文書集合と負例文書集合とを分離するのに有効な統計量等を特徴度として用いることができる。特徴語を決定するための所定の条件は、ユーザやシステム設計者が任意に設定することができる。所定の条件としては、例えば「特徴度が予め設定された閾値以上である」や、「特徴度の大きさが全単語またはフレーズのうち予め設定された順位以上である」、などが設定されうる。図4は、特徴語決定手段22により算出された特徴語の例を示している。例えばユーザが、所定の条件として「特徴度が全単語またはフレーズ中、上位3位以上」と設定した場合には、「新規出店」、「補助金」、「高橋社長」の3語が特徴語として決定される。特徴語出力手段23は、特徴語決定手段22から特徴語を取得し、取得した特徴語を部分特徴語抽出システム1に送信する(S4)。
部分特徴語抽出システム1内の部分特徴語決定手段11は、文書集合DB21からユーザが指定した正例文書集合を取得する(S5)。そして、部分特徴語決定手段11は、取得した正例文書集合を、正例文書集合を構成する各文書に付された属性値ごとに分割し、部分文書集合を生成する(S6)。例えば、正例文書集合のうち、属性カテゴリ「訪問日」に含まれる属性値「2014年8月8日」が付されている文書のみを集めて作成される文書集合は、属性値「2014年8月8日」が付された部分文書集合である。ただし、正例文書集合を構成する全ての文書に付されている属性値は、それによっては正例文書集合を分割することができないため、部分特徴語決定手段11によって部分文書集合生成の対象から除外されても良い。
次に、部分特徴語決定手段11は、特徴語出力手段23から正例文書集合についての特徴語を取得する。そして、部分特徴語決定手段11は、取得した各特徴語について、各部分文書集合における特徴度を算出する(S7)。特徴度には、特徴語決定手段22で用いた統計量と同じものを用いても良いし、カイ二乗値や対数尤度比等の独立性の検定に用いる統計量や、拡張型確率的コンプレキシティのような正例文書集合と負例文書集合とを分離するのに有効な統計量等から、他のものを用いても良い。ただし、特徴度の算出は特徴語が偏って出現するような部分文書集合を特定することが目的であるため、各部分文書集合の大きさを考慮して行われる必要がある。例えば、特徴語の出現回数を部分文書集合の大きさで割るなどして、単位文書量あたりの特徴度の出現数を特徴度とする、などである。なぜなら、他の文書と比較して特徴語の出現回数が多い文書であっても、文書全体に含まれる特徴語以外の単語またはフレーズも同様に多い場合には、当該特徴語が当該文書集合に偏って出現しているとはいえないからである。なお、集合の大きさとは、例えば文書集合に含まれる全ての単語またはフレーズの合計数や、文書集合に含まれる文字の合計数などである。各特徴語について、各部分文書集合ごとに算出される特徴度の一例を、図5および図6に示す。図5は、特徴語「新規出店」について、図6は特徴語「高橋社長」についての特徴度算出の結果である。例えば図5に示す表におけるID AAは、特徴語「新規出店」が、属性値「小西 太郎」の付された部分文書集合において、特徴度が「5.3」と算出されたことを表している。
続けて、部分特徴語決定手段11は、算出された特徴度を参照し、所定の条件を満たす特徴語を部分特徴語として決定する(S8、S9)。所定の条件とは、ある部分文書集合に偏って出現している特徴語と、そうでない特徴語とを分ける条件である。所定の条件はユーザやシステム設計者が任意に設定でき、また、特徴語決定手段22で特徴語を決定する際に用いた条件と同じでも良いし、他の条件でも良い。他の条件としては、例えば、「特徴語決定手段22で決定された特徴語の特徴度のうち、最も小さい値以上」や「部分特徴語決定手段11が算出した他の特徴度のいずれと比較しても3以上大きい」「部分特徴語決定手段11が算出した他の特徴度のいずれと比較しても5倍以上大きい」などが挙げられる。ここで、「特徴語決定手段22で決定された特徴語の特徴度のうち、最も小さい値以上」との条件をユーザが設定したとする。図4より、特徴語決定手段22で決定された特徴語の特徴度のうち、最も小さいのは「高橋社長」の「7.8」である。したがって、部分特徴語決定手段11は、特定の部分文書集合において「特徴度が7.8以上」で算出されるような特徴語を、部分特徴語として決定する。図5に示す表においては、条件を満たす特徴度が算出された部分文書集合がないため、部分特徴語決定手段11は、特徴語「新規出店」を部分特徴語として決定しない。一方、図6に示す表におけるID BAでは、条件を満たす特徴度「42.0」が算出されている。つまり、図6より、特徴語「高橋社長」は、属性値「T社」が付された部分文書集合において特徴度が「42.0」と算出されている。よって、「特徴度が7.8以上」との条件を満たしているため、部分特徴語決定手段11は、特徴語「高橋社長」を部分特徴語として決定する。
正例文書集合における特徴語が、正例文書集合を構成する一部の文書集合においても特徴的であるということは、当該特徴語が当該一部の文書集合に偏って出現していることを意味する。そのため、部分特徴語決定手段11は、特定の部分文書集合に偏って出現している特徴語を部分特徴語として決定する。
部分特徴語出力手段12は、部分特徴語決定手段11から部分特徴語を取得し、取得した部分特徴語をユーザ端末3に送信する(S10)。
ユーザ端末3内の表示手段32は、ユーザに対して部分特徴語を表示する(S11)。表示手段32は、部分特徴語とともに、部分特徴語が特徴的に出現する部分文書集合に付された属性値を表示しても良い。例えば前述の具体例のように、「高橋社長」が部分特徴語として決定された場合、表示手段32は、「高橋社長」とともに属性値「T社」をユーザに表示しても良い。これにより、ユーザは、正例文書集合中に特徴的に出現する「高橋社長」という単語が、属性値「T社」の付された文書集合に偏って出現していることを知ることができる。さらに、表示手段32は、部分特徴語とともに、部分特徴語が特徴的に出現する部分文書集合に付された属性値についての属性カテゴリを表示しても良い。前述の具体例では、属性値「T社」に対して「取引先」が属性カテゴリに該当する。表示手段32による部分特徴語の表示の一例を図7に示す。図7の表示を見たユーザは、特徴語「高橋社長」が、属性カテゴリ「取引先」に含まれる属性値「T社」が付された部分文書集合において、特徴語が「42.0」と算出されており、当該部分文書集合に偏って出現することを知ることができる。
最後に、表示手段32は、正例文書集合における特徴語のうち、部分特徴語と重複しない特徴語をユーザに表示する(S12)。なお、S8において、所定の条件を満たす特徴語がない場合、表示手段32は正例文書集合における全ての特徴語を表示する。
また、表示手段32は、部分特徴語と重複のある特徴語を含む、全ての特徴語を同時にユーザに表示しても良い。その場合、特徴語表示手段32は、別の表にして表示する、同一の表に別の目印をつけて表示する、など、部分特徴語と重複のある特徴語とそうでない特徴語を区別できるようにユーザに表示する。
これにより、ユーザは、「高橋社長」が正例文書集合中に偏りなく出現する特徴語ではなく、「取引先」の一つである「T社」についての文書に偏って出現していることを知ることができる。そして、特徴語「高橋社長」と属性カテゴリ「取引先」、属性値「T社」の関係性から、ユーザは「高橋社長」が特定の取引先に個別的な情報であり、目的に適わない特徴語であると判断することができる。
表示手段32は、部分特徴語と重複しない特徴語のみをユーザに表示するものとしてもよい。すなわち、S11で説明した部分特徴語の表示は行わず、S12で説明したように、部分特徴語と重複しない特徴語の表示のみを行うものとしても良い。これにより、ユーザが正例文書集合中に偏りなく出現する特徴語を有用な情報と捉えている場合は、ユーザはテキストマイニングの目的に沿った特徴語のみを初めから得ることができる。
(第二実施形態)
<第二実施形態の構成>
次に、第二実施形態の構成例について説明する。図8は第二実施形態の構成例を示すブロック図である。本実施形態に係るシステムは、上記第一実施形態と比べると、表示手段32がユーザに表示する特徴語が、入力手段31からの入力により変化する点で異なる。入力手段31は、ユーザが非表示にすべきと判断した特徴語の入力を受け付け、当該特徴語を表示手段32に送信する。表示手段32は、特徴語出力手段23から取得した特徴語のうち、入力手段31から取得した特徴語と重複しない特徴語をユーザに表示する。なお、その他の構成および動作は、第一実施形態と同様のため、入力手段31および表示手段32以外の説明を省略する。
<第二実施形態の動作>
図9は、第二実施形態の動作の例を示すシーケンス図である。図9において、S1〜S11は図2と同様であるので、説明を省略する。
ユーザは、表示手段32による部分特徴語の表示を参照し、非表示にすべきと判断した特徴語を入力手段31に入力する(S22)。第一実施形態と同様の具体例を用いて説明すると、ユーザは部分特徴語「高橋社長」とともに、属性値「T社」や属性カテゴリ「取引先」の表示を表示手段32より受ける。表示を受けたユーザは、「高橋社長」と「T社」、「取引先」との関係性を判断し、「高橋社長」が属性値「T社」に個別的な事情を表す情報であり、有用な特徴語でないと判断する。なぜならば、特定の取引先に個別的な情報は、その取引先と関係のない営業所の営業成績向上には資さない情報である可能性が高く、本具体例におけるユーザの目的に適うものでない可能性が高いからである。すると、ユーザは入力手段31に、特徴語「高橋社長」を入力する。入力手段31は、入力された特徴語を表示手段32に送信する。
表示手段32による表示および入力手段31による入力の受け付けの一例を図10に示す。表示手段32から図10に示すような部分特徴語の表示を受けたユーザは、入力手段31を用い、非表示としたい「高橋社長」が示された行の右端に設けられたチェックボックスにチェックを入力する。これにより、入力手段31は、ユーザからの特徴語「高橋社長」の入力を受け付ける。
表示手段32は、特徴語出力手段23から取得した特徴語のうち、入力手段31から取得した特徴語と重複する特徴語を抽出する(S23)。そして、表示手段32は、重複のない特徴語をユーザに表示する(S24)。
第二実施形態では、ユーザが部分特徴語の有用性をその部分特徴語が特徴的に出現する属性値や属性カテゴリより判断し、判断した結果を特徴語抽出の結果に反映させることができる。すなわち、最終的にユーザに表示される特徴語は、第一実施形態よりさらにユーザの意図を反映したものとなる。
(第三実施形態)
<第三実施形態の構成>
次に、第三実施形態の構成例について説明する。図11は第三実施形態の構成例を示すブロック図である。本実施形態に係るシステムは、上記第二実施形態と比べると、非表示属性決定手段13、非表示属性DB14、表示制御手段33を有する点が異なる。
非表示属性決定手段13は、部分特徴語出力手段11から各特徴語の各部分集合における特徴度の算出結果を取得し、入力手段31からユーザが入力した特徴語を取得する。そして、非表示属性決定手段13は、ユーザが入力した特徴語が特徴的に出現する部分文書集合に付された属性値を非表示属性値として決定する。特徴語が特徴的に出現する部分文書集合とは、すなわち、当該特徴語についての特徴度が所定の条件を満たす値で算出された部分文書集合である。所定の条件とは、前述した部分特徴語決定手段11における部分特徴語の決定に用いた条件である。非表示属性決定手段13における非表示属性決定の条件には、さらに付加的な条件が加えられても良い。例えば、ユーザが複数の特徴語を入力した場合に、それらの特徴語が特徴的に出現する部分文書集合に共通して付されている属性値や、最も多く付されている属性値を、非表示属性決定手段13が非表示属性値として決定することとしても良い。非表示属性決定手段13は、非表示属性を非表示属性DB14に送信し、蓄積させる。
非表示属性決定手段13は、非表示属性値に対して重み付けを行っても良い。各非表示属性値への重み付けは、例えば、ユーザが任意に設定する数値でも良いし、各属性値が非表示属性値として決定された回数に応じた数値でも良い。後者の場合は、属性値が非表示属性決定手段13によって非表示属性値と決定される毎に、非表示属性DB14に蓄積された当該属性値の重み付けが更新されるものとしても良い。各非表示属性値への重み付けは、後述する部分特徴語表示手段11および特徴語表示手段33における処理において参照される。
表示制御手段33は、非表示属性DB14を参照し、非表示属性DB14に蓄積されている属性値が付された部分文書集合において特徴的な特徴語を、表示手段32に表示させないよう制御する。これにより、非表示属性値が付された部分文書集合において特徴的な特徴語は、ユーザに表示されない。非表示属性値に重み付けがされている場合は、表示制御手段33は、重み付けが所定の条件を満たす場合のみ、当該重み付けがされた属性値を参照する。所定の条件は、ユーザやシステム設計者が任意に設定でき、例えば「重み付けが1以上」などと設定することができる。この場合、表示制御手段33は「重み付けが1以上」である非表示属性値のみを参照し、当該属性値が付された部分文書集合において特徴的な特徴語を表示手段32に表示させないよう制御する。
その他の構成および動作は、第二実施形態と同様のため、非表示属性決定手段13、非表示属性DB14、表示制御手段33以外の説明を省略する。
<第三実施形態の動作>
図12および図13は、第三実施形態の動作の例を示すシーケンス図である。
図12は、ユーザが入力した非表示特徴語を、非表示属性DB14に登録するまでの処理を示したシーケンス図である。図12に示すS11およびS22は図9と同様であるので、説明を省略する。
部分特徴語出力手段11は、非表示属性決定手段13に対し、各特徴語の各部分集合における特徴度の算出結果を送信する(S31)。非表示属性決定手段13は、各特徴語の各部分集合における特徴度の算出結果およびユーザが入力した特徴語を取得する(S32)。続いて、非表示属性決定手段13は、ユーザが入力した特徴語が特徴的に出現する部分文書集合に付された属性値を非表示属性値として決定する(S33)。具体的には、非表示属性決定手段13は、各特徴語の各部分集合における特徴度の算出結果を参照し、ユーザが入力した特徴語についての特徴度が所定の条件を満たす値で算出された部分文書集合がある場合、当該部分集合に付された属性値を非表示属性値として決定する。前述の実施形態と同様の具体例で説明すると、非表示属性決定手段13は、ユーザが入力した非表示特徴語「高橋社長」が特徴的に出現する部分文書集合に付された属性値「T社」を、非表示属性値として決定する。そして、非表示属性決定手段13は、非表示属性値を非表示属性DB14に送信し、蓄積させる(S34)。なお、非表示属性決定手段13は非表示属性値に対して重み付けを行っても良い。その場合、非表示属性を非表示属性DB14には、非表示属性値と共に各非表示属性値に対応づけられた重み付けが蓄積される。
なお、ユーザが特徴語を入力しない場合は、非表示属性DB14への新たな非表示属性値の蓄積は行われない。
また、非表示属性決定手段13は、属性カテゴリを非表示属性DBに蓄積させても良い。前述の具体例で説明すると、非表示属性決定手段13は、非表示特徴語「高橋社長」が特徴的に出現する部分文書集合に付された属性値の属性カテゴリである「取引先」を、非表示属性カテゴリとして決定し、非表示属性DB14に蓄積しても良い。非表示属性DB14に蓄積される情報の一例を、図14に示す。図14において、非表示属性カテゴリ「取引先」は、重み「1.0」と共に非表示属性DB14に蓄積されている。
図13は、図12に示す処理が終了した後に、再び新たな特徴語抽出処理を開始した場合のシークエンス図を示している。図13において、S1〜S22は図9と同様であるので、説明を省略する。
表示制御手段33は、非表示属性DB14を参照し、非表示属性値が付された部分文書集合において特徴的な部分特徴語を、表示手段32に表示させないよう制御する。これにより、表示手段32は、非表示属性値が付された部分文書集合において特徴的な部分特徴語以外の部分特徴語をユーザに表示する(S40)。非表示属性DB14に非表示属性カテゴリが蓄積されている場合、表示制御手段33は、非表示属性カテゴリに含まれる属性値が付された部分文書集合において特徴的な部分特徴語を、表示手段32に表示させないよう制御する。また、非表示属性値または非表示属性カテゴリに重み付けがされている場合、表示制御手段33は、重み付けが所定の条件を満たす属性値、属性カテゴリのみを参照し、表示手段32の制御を行う。具体的には、例えば表示制御手段33は、部分特徴語出力手段12から図5および図6に示すようなデータを取得し、非表示属性DB14からは図14に示すようなデータを取得する。そして、表示制御手段33は、図14に示される非表示属性カテゴリのうち、重み付けが所定の条件を満たすものを参照する。ユーザが、所定の条件を「重み付けが0.5以上の属性カテゴリ」と設定したとすると、図14より、表示制御手段33は属性カテゴリ「取引先」および「担当者」を参照する。続いて表示制御手段33は、図5および図6に示す各特徴語についての特徴度算出のデータを参照し、属性カテゴリ「取引先」および「担当者」に含まれる属性値が付された部分文書集合において、特徴度が所定の条件を満たす特徴語があるかを判断する。ユーザが、当該所定の条件を「特徴度が5.0以上」と設定したとすると、図5より、特徴語「新規出店」は属性カテゴリ「担当者」に含まれる属性値「小西太郎」が付された部分文書集合において、特徴度が条件を満たす。図6より、特徴語「高橋社長」は属性カテゴリ「取引先」に含まれる属性値「T社」が付された部分文書集合において、特徴度が条件を満たす。よって、表示制御手段33は、特徴語「新規出店」および「高橋社長」の両方を表示手段32に表示させないよう制御する。
また、表示制御手段33は、ユーザが特徴語を入力した場合、入力された特徴語を表示手段32に表示させないよう制御する(S41)。
さらに、表示制御手段33は、非表示属性DB14を参照し、非表示属性DB14に蓄積されている属性値が付された部分文書集合において特徴的な特徴語を、表示手段32に表示させないよう制御する(S42)。非表示属性DB14に非表示属性カテゴリが蓄積されている場合、表示制御手段33は、非表示属性カテゴリに含まれる属性値が付された部分文書集合において特徴的な部分特徴語を、表示手段32に表示させないよう制御する。また、非表示属性値または非表示属性カテゴリに重み付けがされている場合、表示制御手段33は、重み付けが所定の条件を満たす属性値、属性カテゴリのみを参照し、表示手段32の制御を行う。これにより、最終的にユーザに表示される特徴語は、S41およびS42で表示対象から除外されなかった特徴語となる。
第三実施形態では、ユーザが入力した非表示特徴語の情報を、次回以降の新たな特徴語抽出処理にフィードバックすることができる。すなわち、ユーザが目的に適わないと判断した特徴語が偏って出現する属性値や属性カテゴリをシステムが記憶し、次回以降の処理では自動的にそれらの属性値に特徴的な特徴語を除くことができる。例えば、ユーザは、「T社」という特定の取引先に特徴的な特徴語が不要であれば、属性値「T社」を非表示属性値に設定し、いずれの取引先に特徴的な特徴的であっても不要である場合は、属性カテゴリ「取引先」を非表示属性カテゴリに設定すれば良い。これにより、本実施形態では、第二実施形態よりさらに簡便な操作でユーザの意図を反映した特徴語を提供できる。
(第四実施形態)
<第四実施形態の構成>
第四実施形態の構成例について説明する。図15は第四実施形態の構成例を示すブロック図である。
部分特徴語抽出システム1は、部分特徴語決定手段11と、部分特徴語出力手段12とを含む。部分特徴語決定手段11は、文書集合を、当該文書集合を構成する文書に付された属性値ごとに分割し、部分文書集合を生成する。その後、部分特徴語決定手段11は、文書集合における特徴語を取得し、各部分文書集合ごとに、特徴語の特徴度を算出する。部分特徴語決定手段11は、特定の部分文書集合において所定の条件を満たす特徴度が算出された特徴語がある場合、その特徴語を部分特徴語として決定する。所定の条件とは、例えば「部分特徴語決定手段11が算出した他の特徴度のいずれと比較しても差分が3以上で大きい」「部分特徴語決定手段11が算出した他の特徴度のうち少なくとも一つと比較して差分が5以上で大きい」などが挙げられる。部分特徴語出力手段12は、部分特徴語決定手段11から部分特徴語を取得し、出力する。なお、部分特徴語決定手段11と部分特徴語出力手段12とは別々のハードウェア装置により実現されても良い。
これにより、ユーザは、正例文書集合を構成する一部の文書に偏って出現する特徴語をそうでない特徴語と区別することができるため、テキストマイニングの目的に適った特徴語を容易に得ることができる。
次に、第四実施形態のハードウェア構成について、図16を用いて説明する。CPU41は演算制御用のプロセッサであり、プログラムを実行することで本発明の各機能手段を実現する。ROM42は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部43は、ネットワークを介して外部装置と通信する。なお、本部分特徴語抽出システム1は、通信制御部43を介してユーザが利用するPCやユーザ端末、他のシステムとの情報のやり取りを行う。RAM44は、CPU41が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM44には、本実施形態の実現に必要な種々のデータを記憶する容量が確保される。記憶部45は、本実施形態の実現に必要なデータベース等のデータや、CPU41が実行するアプリケーションプログラムを、不揮発に記憶する。
また、各実施形態にて説明した、各システムおよび端末間の情報の送受信は、通信ネットワークを介して行われる。通信は無線でも有線でも良い。各システムおよび端末間の通信ネットワークは、インターネット等の同一のネットワークでも良い
上述した各実施形態は本発明を具体化した一例に過ぎず、請求の範囲に記載された本発明の趣旨の範囲内であれば、種々変更することができるものである。
1 部分特徴語抽出システム
2 特徴語抽出システム
3 ユーザ端末
11 部分特徴語決定手段
12 部分特徴語出力手段
13 非表示属性決定手段
14 非表示属性DB
21 文書集合DB
22 特徴語決定手段
23 特徴語出力手段
31 入力手段
32 表示手段
33 表示制御手段
41 CPU
42 ROM
43 通信制御部
44 RAM
45 記憶部

Claims (10)

  1. 文書集合における特徴語のうち、
    前記文書集合の部分文書集合における特徴度と、少なくとも一つの他の部分文書集合における特徴度との差が所定値以上である部分文書集合の特徴語、または
    前記文書集合の部分文書集合における特徴度が所定値以上である部分文書集合の特徴語を、部分特徴語として決定する部分特徴語決定手段と、
    前記部分特徴語決定手段から取得した前記部分特徴語を出力する部分特徴語出力手段と、
    を備える情報処理システム。
  2. 前記文書集合における特徴語のうち、前記部分特徴語出力手段から取得した前記部分特徴語と重複する特徴語以外を表示する表示手段
    を備える請求項1記載の情報処理システム。
  3. 前記部分特徴語出力手段から取得した前記部分特徴語を表示する表示手段
    を備える請求項1記載の情報処理システム。
  4. 前記部分文書集合は、前記文書集合を構成する文書のうち、共通の属性値が付された文書を集めて生成される
    請求項1乃至3記載の情報処理システム。
  5. 前記表示手段は、前記部分特徴語が特徴的に出現する部分文書集合を成す文書に共通して付されている属性値、当該属性値を分類する属性カテゴリを表示する
    請求項4記載の情報処理システム。
  6. ユーザが任意の特徴語を入力する入力手段を備え、
    前記表示手段は、前記文書集合における特徴語のうち、前記入力手段から取得した特徴語と重複する特徴語以外を表示する
    請求項2乃至5記載の情報処理システム。
  7. 前記入力手段から取得した特徴語が特徴的に出現する部分文書集合を成す文書に共通して付されている属性値のうち、所定の条件を満たす属性値を非表示属性値として決定する非表示属性決定手段と、
    前記非表示属性値を登録する非表示属性データベースを備え、
    前記表示手段は、前記文書集合における特徴語のうち、前記非表示属性データベースに登録されている属性値が付された文書から成る部分文書集合において特徴的に出現する特徴語以外を表示する
    請求項6記載の情報処理システム。
  8. 前記入力手段から取得した特徴語が特徴的に出現する部分文書集合を成す文書に共通して付されている属性値が分類される属性カテゴリのうち、所定の条件を満たす属性カテゴリを非表示属性カテゴリとして決定する非表示属性決定手段と、
    前記非表示属性カテゴリを登録する非表示属性データベースを備え、
    前記表示手段は、前記文書集合における特徴語のうち、前記非表示属性データベースに登録されている非表示属性カテゴリに分類される属性値が付された文書から成る部分文書集合において特徴的に出現する特徴語以外を表示する
    請求項6または7記載の情報処理システム。
  9. 文書集合における特徴語のうち、
    前記文書集合の部分文書集合における特徴度と、少なくとも一つの他の部分文書集合における特徴度との差が所定値以上である部分文書集合の特徴語、または
    前記文書集合の部分文書集合における特徴度が所定値以上である部分文書集合の特徴語を、部分特徴語として決定する部分特徴語決定処理と、
    前記部分特徴語決定手段から取得した前記部分特徴語を出力する部分特徴語出力処理と、
    をコンピュータに実行させる情報処理プログラム。
  10. 文書集合における特徴語のうち、
    前記文書集合の部分文書集合における特徴度と、少なくとも一つの他の部分文書集合における特徴度との差が所定値以上である部分文書集合の特徴語、または
    前記文書集合の部分文書集合における特徴度が所定値以上である部分文書集合の特徴語を、部分特徴語として決定し、
    前記部分特徴語決定手段から取得した前記部分特徴語を出力する、
    情報処理方法。
JP2014214334A 2014-10-21 2014-10-21 情報処理システム、情報処理プログラム、及び、情報処理方法 Active JP6455068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014214334A JP6455068B2 (ja) 2014-10-21 2014-10-21 情報処理システム、情報処理プログラム、及び、情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014214334A JP6455068B2 (ja) 2014-10-21 2014-10-21 情報処理システム、情報処理プログラム、及び、情報処理方法

Publications (2)

Publication Number Publication Date
JP2016081412A true JP2016081412A (ja) 2016-05-16
JP6455068B2 JP6455068B2 (ja) 2019-01-23

Family

ID=55958730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014214334A Active JP6455068B2 (ja) 2014-10-21 2014-10-21 情報処理システム、情報処理プログラム、及び、情報処理方法

Country Status (1)

Country Link
JP (1) JP6455068B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318939A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
JP2006099423A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
WO2011071174A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318939A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
JP2006099423A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
WO2011071174A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム

Also Published As

Publication number Publication date
JP6455068B2 (ja) 2019-01-23

Similar Documents

Publication Publication Date Title
US10621281B2 (en) Populating values in a spreadsheet using semantic cues
CN105068993B (zh) 一种评估文本难度的方法
US8849649B2 (en) System and method for determining sentiment expressed in documents
US9218568B2 (en) Disambiguating data using contextual and historical information
JP5683037B2 (ja) 取引関係マップ生成システム及びプログラム
US20140195897A1 (en) Text Summarization
US20110161069A1 (en) Method, computer program product and apparatus for providing a threat detection system
US9075870B2 (en) System, method and apparatus for detecting related topics and competition topics based on topic templates and association words
CN103714450A (zh) 自然语言度量条件警告产生
CN103714114A (zh) 自然语言度量条件警告编排
Wang et al. A machine learning analysis of Twitter sentiment to the Sandy Hook shootings
JP6681661B2 (ja) アクセス解析画像提供装置、アクセス解析画像提供方法、及びプログラム
JP2008084151A (ja) 情報表示装置および情報表示方法
JP2015026388A (ja) 取引関係マップ生成システム及びプログラム
WO2015030214A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20140325405A1 (en) Auto-completion of partial line pattern
CN109408502A (zh) 一种数据标准处理方法、装置及其存储介质
JP2016153998A (ja) サービスの評価装置及びサービスの評価方法
US20130268833A1 (en) Apparatus and method for visualizing hyperlinks using color attribute values
US11829421B2 (en) Dynamic graph generation for interactive data analysis
US11776078B2 (en) Systems and methods for generating strategic competitive intelligence data relevant for an entity
JP6455068B2 (ja) 情報処理システム、情報処理プログラム、及び、情報処理方法
CN109242403A (zh) 一种需求管理方法及计算机设备
JP2014041466A (ja) Webサーバシステム、応答制御方法、および、プログラム
EP3942499A1 (en) Analyzing resumes and highlighting non-traditional resumes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181203

R150 Certificate of patent or registration of utility model

Ref document number: 6455068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150