JP6142617B2 - 情報処理装置、情報処理方法及び情報処理用プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理用プログラム Download PDF

Info

Publication number
JP6142617B2
JP6142617B2 JP2013067500A JP2013067500A JP6142617B2 JP 6142617 B2 JP6142617 B2 JP 6142617B2 JP 2013067500 A JP2013067500 A JP 2013067500A JP 2013067500 A JP2013067500 A JP 2013067500A JP 6142617 B2 JP6142617 B2 JP 6142617B2
Authority
JP
Japan
Prior art keywords
text data
information processing
classification
word
classification axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013067500A
Other languages
English (en)
Other versions
JP2014191648A (ja
Inventor
侑吾 西川
侑吾 西川
和久 大野
和久 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2013067500A priority Critical patent/JP6142617B2/ja
Publication of JP2014191648A publication Critical patent/JP2014191648A/ja
Application granted granted Critical
Publication of JP6142617B2 publication Critical patent/JP6142617B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クラスタリングの技術分野に関する。
従来、商品やサービス等に対するアンケートの回答やSNS(social networking service)におけるコメントなどの人の意見が記述されたテキストデータを分析するテキストマイニングが行われている。テキストマイニングでは、例えば、特許文献1及び2に開示されているような、文書解析処理が行われる。
また、分析者は、テキストマイニングを行う際、大量のアンケート結果等について概要を把握するため、まず、テキストデータのクラスタリング(分類)を行う。クラスタリングとは、テキストデータの集合を部分集合(クラスタ)に切り分けて、それぞれの部分集合に含まれるテキストデータがある共通の特徴を持つようにするデータ解析手法である。共通の特徴は主にテキストデータの類似度(距離の近さ)で示される。クラスタリング手法は、最短距離法などの階層的手法と、k-means法などの分割最適化手法に分けられる。
ここで、図1を用いて、最短距離法によるクラスタリングの例を示す。図1では、分類対象であるテキストデータ301、302、303、304、305、306、307が7件ある場合について説明する。最短距離法では、各テキストデータを類似度が高い(距離の近い)テキストデータ同士を順番に統合していく。クラスタは、統合の初期段階ではバラバラであるが、徐々に統合されて大きくなり、最終的には1つに統合される。それを、閾値により分割することで、複数のクラスタを得ることができる。図1では、テキストデータ301で構成されるクラスタと、テキストデータ302、303、304、305で構成されるクラスタと、テキストデータ306、307で構成されるクラスタの計3つのクラスタが得られた例を示している。閾値は、各クラスタに含まれるテキストデータの類似度をどの程度とするかに応じて設定される。
こうした最短距離法によるクラスタリングにおいてテキストデータ間の類似度は、例えば、各テキストデータに含まれる単語の出現回数により作成されるベクトル同士のなす角により計算される。すなわち、テキストデータAとテキストデータBの類似度は下記(1)式により算出することができる。
Figure 0006142617
つまり、単語の出現回数によってテキストデータ間の類似度が定まるので、クラスタリングを行う場合には単語の出現回数が重要なファクターとなる。
一方で、分析者は、分類軸(テキストデータの内容を分類する際の種類(例えば、場所、人、組織等))に沿ってクラスタリングしようとする場合、その分類軸に対応する単語の出現回数に対して重み付けを行うが、そのために分類軸に対応する重み付けすべき単語を可能な限り設定しなければならないという問題がある。
特開平9−319746号公報 特開平8−314931号公報
本発明は、上記の点を鑑みてなされたもので、クラスタリングの対象となるテキストデータに含まれる単語の出現回数に対して、容易に分類軸に応じた重み付けを行うことのできる情報処理装置等を提供することを課題とする。
上記課題を解決するために、請求項1に記載の発明は、複数のテキストデータについて、当該テキストデータに含まれる単語の出現回数に重み付けを行う情報処理装置であって、前記複数のテキストデータを分類するための分類軸に対応する接頭辞又は接尾辞の少なくとも何れか一方を、当該分類軸毎に記憶する記憶手段と、前記テキストデータ毎に、当該テキストデータに含まれる単語の出現回数を集計する集計手段と、前記分類軸毎に、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算する乗算手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の情報処理装置であって、前記分類軸に、前記重み付け係数が乗算された出現回数に基づいて、前記複数のテキストデータをクラスタリングするクラスタリング手段、を更に備えることを特徴とする。
請求項に記載の発明は、請求項1又は2に記載の情報処理装置であって、前記複数のテキストデータにおいて出現する単語のうち、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む単語である寄与語の数を計数する計数手段を、更に備えることを特徴とする。
請求項に記載の発明は、請求項1乃至の何れか一項に記載の情報処理装置であって、前記複数のテキストデータにおいて出現する単語のうち、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む単語である寄与語を抽出する寄与語抽出手段と、前記複数のテキストデータのうち、前記抽出された寄与語を含むテキストデータの割合を算出する割合算出手段を、更に備えることを特徴とする。
請求項に記載の発明は、請求項1乃至の何れか一項に記載の情報処理装置であって、前記記憶手段は、前記分類軸に対応する固有名詞を更に記憶し、前記乗算手段は、前記記憶手段に記憶されている接頭辞、接尾辞又は固有名詞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算することを特徴とする。
請求項に記載の発明は、複数のテキストデータについて、当該テキストデータに含まれる単語の出現回数に重み付けを行い、且つ、前記複数のテキストデータを分類するための分類軸に対応する接頭辞又は接尾辞の少なくとも何れか一方を、当該分類軸毎に記憶する記憶手段を備える情報処理装置による情報処理方法であって、前記テキストデータ毎に、当該テキストデータに含まれる単語の出現回数を集計する集計工程と、前記分類軸毎に、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算する乗算工程と、を含むことを特徴とする。
請求項に記載の発明は、複数のテキストデータについて、当該テキストデータに含まれる単語の出現回数に重み付けを行い、且つ、前記複数のテキストデータを分類するための分類軸に対応する接頭辞又は接尾辞の少なくとも何れか一方を、当該分類軸毎に記憶する記憶手段を備える情報処理装置におけるコンピュータを、前記テキストデータ毎に、当該テキストデータに含まれる単語の出現回数を集計する集計手段、前記分類軸毎に、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算する乗算手段、として機能させることを特徴とする。
本発明によれば、事前に分類軸とそれに対応する接頭辞又は接尾辞を設定しておくことにより、分類軸に応じて単語の出現回数に対する重み付けを容易に行うことができる。また、分類軸に対応する重み付けすべき単語を全て設定することなく、分類軸に対応する接頭辞又は接尾辞を設定するだけで済むとともに、分類軸に対応する単語を検出する際の漏れを少なくすることができる。
最短距離法によるクラスタリングの例を説明するための図である。 アンケート結果分析装置1の構成例を示すブロック図である。 分類軸DB40の内容の一例を示す図である。 アンケート結果DB50の内容の一例を示す図である。 アンケート結果分析装置1の制御部11による重み付け・クラスタリング処理の一例を示すフローチャートである。 標準分類データ60の内容の一例を示す図である。 分類データ(場所)の内容の一例を示す図である。 分類データ(人)の内容の一例を示す図である。 分類データ(組織)の内容の一例を示す図である。 提示画面200の画面例を示す図である。 (A)は標準分類データ60における単語の出現回数を示す図である。(B)は分類データ(場所)における単語の出現回数を示す図である。 分類軸DB70の内容の一例を示す図である。 (A)は分類結果情報80の内容の一例を示す図である。(B)はクラスタ情報90の内容の一例を示す図である。
以下、図面を用いて本発明の実施形態について説明する。なお、本実施形態は、アンケート結果分析装置1について本発明を適用した場合の実施形態である。また、本実施形態は特許請求の範囲にかかる発明を限定するものではなく、また本実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
[1.アンケート結果分析装置1の構成]
図2を用いて、アンケート結果分析装置1の構成について説明する。図2に示すように、アンケート結果分析装置1は、制御部11、記憶部12、インターフェース部13、表示部14、及び操作部15を備えている。
記憶部12は、例えば、HDD(Hard disk drive)等により構成されており、オペレーティングシステムや、アプリケーションプログラム等の各種プログラムを記憶する。特に、本実施形態の記憶部12は、複数のテキストデータをクラスタリングするクラスタリング用プログラムを記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワークを介して取得されるようにしても良いし、記録媒体に記録されて外付けドライブ装置を介して読み込まれるようにしても良い。
また、記憶部12には、分類軸DB40及びアンケート結果DB50が構築されている。ここで、図3及び図4を用いて、分類軸DB40及びアンケート結果DB50の内容について説明する。
分類軸DB40には、図3に示すように、分類軸データとして、分類軸ID41、分類軸42、接尾辞43を示す情報が登録されている。具体的には、分類軸ID41で識別される分類軸42に対応する接尾辞43が登録されている。例えば、「場所」という分類軸42の接尾辞43として「所」、「場」、「室」が登録され、「人」という分類軸42の接尾辞43として「者」、「係」、「員」が登録され、「組織」という分類軸42の接尾辞43として「社」、「庁」が登録されている。なお、図3は各分類軸42に対応する接尾辞43の一例を示すものであり、図3に示した接尾辞43以外の接尾辞43を登録することとしてもよい。また、分類軸42として「場所」、「人」、「組織」以外の分類軸42を登録することもできる。
アンケート結果DB50には、図4に示すように、テキストID51毎に、アンケート結果として得られたテキストデータ52が登録されている。図4では一例として、次のテキストデータ52が登録されている。
<テキストID:0001>
「駐車場に警備員がいなかった。警備員を置いて欲しい。」
<テキストID:0002>
「喫煙所を掃除して欲しい。」
<テキストID:0003>
「待合室にクーラーと扇風機をつけて。」
<テキストID:0004>
「待合室を掃除して下さい。」
<テキストID:0005>
「クーラーが効き過ぎ。」
インターフェース部13は他の装置や機器との間で送受信されるデータの窓口の役割を果たす。
表示部14は、例えば、液晶ディスプレイ等により構成されており、アンケート結果分析装置1の利用者(分析者)がアンケート結果分析装置1を操作する際の操作画面等を表示する。また、操作部15は、例えば、キーボードやマウス等により構成されており、分析者の操作を受け付け、操作内容を示す操作信号を制御部11に送信する。
制御部11は、演算機能を有するCPU(Central Processing Unit)、ROM(Read Only Memory)、作業用のRAM(Random Access Memory)、及び図示しない発振回路等を備えて構成される。制御部11は、操作部15から受信した操作信号に基づいて分析者の操作内容に応じた処理を実行する。
また、制御部11は、クラスタリング用アプリケーションプログラムを実行することで、アンケート結果DB50に登録されているテキストデータ52をクラスタリングする。具体的には、制御部11は、テキストデータ52に含まれる単語の出現回数に対して所定の条件に従って重み付け係数を乗算し、重み付けされた単語の出現回数に基づいてテキストデータ52をクラスタリングする。
[3.制御部11による重み付け・クラスタリング処理]
次に、図5のフローチャートを用いて、制御部11による重み付け・クラスタリング処理について説明する。なお、重み付け・クラスタリング処理は、分析者により重み付け・クラスタリング処理を開始するための開始操作が検出された場合に開始される。
まず、アンケート結果分析装置1の制御部11は、アンケート結果DB50からテキストデータ52を1件取得する(ステップS1)。
次に、制御部11は、取得したテキストデータ52を形態素解析する(ステップS2)。形態素解析には従来公知の方法を採用することができる。
次に、制御部11は、ステップS2の処理結果に基づいて複合語を生成する(ステップS3)。例えば、制御部11は、形態素解析により「駐車」と「場」が得られた場合に、これらを組み合わせて「駐車場」という複合語(単語)を生成し、また、形態素解析により「警備」と「員」が得られた場合に、これらを組み合わせて「警備員」という複合語(単語)を生成する。
次に、制御部11は、ステップS1の処理で取得したテキストデータ52における単語毎の出現回数を集計する(ステップS4)。このとき、制御部11は、ステップS3の処理で生成した複合語(単語)と、ステップS2の処理における形態素解析で検出された単語を抽出して、各単語の出現回数を計数する。
次に、制御部11は、アンケート結果DB50に未取得のテキストデータ52があるか否かを判定する(ステップS5)。このとき、制御部11は、未取得のテキストデータ52があると判定した場合には(ステップS5:YES)、ステップS1の処理に移行する。すなわち、制御部11は、アンケート結果DB50に登録されている全てのテキストデータ52についてステップS1〜ステップS4の処理を行う(但し、アンケート結果DB50にはクラスタリングの対象であるテキストデータ52のみが登録されているものとする)。一方、制御部11は、未取得のテキストデータ52はないと判定した場合には(ステップS5:NO)、ステップS6の処理に移行する。
次に、制御部11は、ステップS1〜ステップ5の処理結果に基づいて標準分類データ60を作成する(ステップS6)。ここで、図4に示したテキストデータ52がアンケート結果DB50に登録されている場合の標準分類データ60を図6に示す。標準分類データ60は、テキストID61(51)毎に各単語62の出現回数63が記述されている。なお、図5のフローチャートでは、ステップS6の処理において、ステップS1〜ステップ5の処理結果に基づいて標準分類データ60を作成することとしたが、制御部11は、ステップS4の処理を行う都度、直近に取得したテキストデータ52のテキストID51と対応付けて、各単語62の出現回数63を標準分類データ60に記述することとしてもよい。
図5に戻り、制御部11は、分類軸DB40から分類軸データを1件取得する(ステップS7)。
次に、制御部11は、ステップS6の処理で作成した標準分類データ60における各単語62と、ステップS7の処理で取得した分類軸データにおける接尾辞43を比較し、接尾辞43を含む単語62の出現回数に重み付け係数α(αは任意に設定することができる)を乗算した分類データを作成する(ステップS8)。ここで、図7を用いて、ステップS6の処理において図6に示した標準分類データ60が作成され、ステップS7の処理において図3に示した分類軸42が「場所」である分類軸データが取得され、ステップS8の処理において重み付け係数「5」が乗算された場合の、分類データ(場所)の一例を示す。この例では、標準分類データ60に「場所」に対応する接尾辞43である「場」、「所」、「室」を含む単語62として「駐車場」、「喫煙所」、「待合室」が存在するので、これらの単語62に対応する出現回数63が「5」倍されている。
次に、制御部11は、ステップS7の処理で取得した分類軸データにおける分類軸42毎に、その分類軸42に対応する接尾辞43を含む単語(「寄与語」という)を抽出して、寄与語の数及び寄与語が含まれるテキストデータ52(文書)の割合を算出する(ステップS9)。例えば、アンケート結果DB50に図4に示すテキストデータ52のみが登録されており、ステップS7の処理において分類軸42が「場所」である分類軸データを取得した場合であれば、寄与語数は、「駐車場」、「喫煙所」、「待合室」の計「3」となる。また、寄与語が含まれる文書の割合は「4/5(80%)」となる。
次に、制御部11は、分類軸DB40に未取得の分類軸データがあるか否かを判定する(ステップS10)。このとき、制御部11は、未取得の分類軸データがあると判定した場合には(ステップS10:YES)、ステップS7の処理に移行する。つまり、制御部11は、分類軸DB40に登録されている全ての分類軸データについてステップS7〜ステップS9の処理を行う。一方、制御部11は、未取得の分類軸データはないと判定した場合には(ステップS10:NO)、ステップS11の処理に移行する。なお、制御部11は、ステップS7〜ステップS9の処理を繰り返すことにより、分類軸DB40に登録されている分類軸42毎に分類データを作成する。
ここで、図8を用いて、ステップS6の処理において図6に示した標準分類データ60が作成され、ステップS7の処理において図3に示した分類軸42が「人」である分類軸データが取得され、ステップS8の処理において重み付け係数「5」が乗算された場合の、分類データ(人)の一例を示す。分類データ(人)では、標準分類データ60に分類軸「人」に対応する接尾辞43「者」、「係」、「員」を含む単語62が「警備員」のみであるので、「警備員」のみの出現回数が5倍され「10」になっている。
次に、図9を用いて、ステップS6の処理において図6に示した標準分類データ60が作成され、ステップS7の処理において図3に示した分類軸42が「組織」である分類軸データが取得され、ステップS8の処理において重み付け係数「5」が乗算された場合の、分類データ(組織)の一例を示す。分類データ(組織)では、標準分類データ60に分類軸「組織」に対応する接尾辞43「社」、「庁」を含む単語62が一つもないことから何れの単語についても出現回数は変化しない。
図5に戻り、制御部11は、ステップS7〜ステップS9の処理を繰り返すことにより、分類軸DB40に登録されている分類軸42毎に作成した分類データ及び標準分類データ60に基づいてクラスタリングを行う(ステップS11)。ステップS11の処理では、出現回数に基づいてクラスタリングを行う従来公知のクラスタリング手法を採用することができる。
次に、制御部11は、後述する提示画面を表示するための提示データを作成し、当該提示データに基づいて提示画面を表示部14に表示させ(ステップS12)、当該フローチャートに示す処理を終了する。
ここで、図10を用いて提示画面200について説明する。提示画面200は図5のフローチャートに示した重み付け・クラスタリング処理により得られた結果を分析者に提示する。具体的には、提示画面200は分類軸42毎に、アンケート結果DB50に登録されているテキストデータ52全件についての、寄与語数、寄与語を含む文書(テキストデータ)の割合、及びステップS11の処理により得られたクラスタ数を提示する。なお、分類軸42として「標準」と記述された行には、標準分類データ60について算出された寄与語数、寄与語を含む文書(テキストデータ)の割合、及びクラスタ数が提示される。また、寄与語が含まれている文書(テキストデータ)の割合が高い分類軸42ほど、その分類軸42が主題になっている可能性が高いため、分析者が分類軸42を選択する際の手がかりとなる。
次に、図4に示したアンケート結果DB50におけるテキストID51が「0002」であるテキストデータ52とテキストID51が「0004」であるテキストデータ52間の類似度と、テキストID51が「0003」であるテキストデータ52とテキストID51が「0004」であるテキストデータ52間の類似度を、それぞれ上記(1)式を用いて、図5のステップS6の処理で得られた標準分類データ60(図6参照)と、ステップS8の処理で得られた分類データ(場所)(図7参照)のそれぞれに基づいて算出する例について説明する。なお、図11(A)は標準分類データ60(図6参照)における単語の出現回数をテキストID51毎に表にまとめたものである。また、図11(B)は分類データ(場所)(図7参照)における単語の出現回数をテキストID51毎に表にまとめたものである。
<標準分類データ>
<テキストID「0002」とテキストID「0004」>
Figure 0006142617
<テキストID「0003」とテキストID「0004」>
Figure 0006142617
つまり、標準分類データ60に基づいて類似度を算出した場合、テキストID「0002」のテキストデータ52とテキストID「0004」のテキストデータ52間の類似度の方が、テキストID「0003」のテキストデータ52とテキストID「0004」のテキストデータ52間の類似度よりも大きくなる。
<分類データ(場所)>
<テキストID「0002」とテキストID「0004」>

Figure 0006142617
<テキストID「0003」とテキストID「0004」>
Figure 0006142617
つまり、分類データ(場所)に基づいて類似度を算出した場合、テキストID「0003」のテキストデータ52とテキストID「0004」のテキストデータ52間の類似度の方が、テキストID「0002」のテキストデータ52とテキストID「0004」のテキストデータ52間の類似度よりも大きくなる。
このように、「場所」に関する単語の重み付けを高くすることにより、「場所」を意味しない単語である「掃除」を含むテキストID「0002」のコメントデータ52とテキストID「0004」のコメントデータ52間の類似度より、「場所」を意味する単語である「待合室」を含むテキストID「0003」のコメントデータ52とテキストID「0004」のコメントデータ52間の類似度の方が高くなる。
以上説明したように、本実施形態におけるアンケート結果分析装置1(「情報処理装置」の一例)は、複数のテキストデータ52について、当該テキストデータ52に含まれる単語の出現回数に重み付けを行う装置であって、記憶部12(「記憶手段」の一例)が、複数のテキストデータ52を分類するための分類軸42に対応する接尾辞43を記憶し、制御部11(「集計手段」、「乗算手段」の一例)が、テキストデータ52毎に、当該テキストデータ52に含まれる単語の出現回数を集計し、記憶部12に記憶されている接尾辞73を含む単語について集計された出現回数に対して重み付け係数αを乗算する。
本実施形態のアンケート結果分析装置1によれば、事前に分類軸42とそれに対応する接尾辞43を設定しておくことにより、分類軸42に応じて単語の出現回数に対する重み付けを行うことができる。また、分類軸42に対応する重み付けすべき単語を全て設定することなく、分類軸42に対応する接尾辞43を設定するだけで済むとともに、分類軸42に対応する単語を検出する際の漏れを少なくすることができる。
また、本実施形態におけるアンケート結果分析装置1は、制御部11(「クラスタリング手段」の一例)が、重み付け係数αが乗算された出現回数に基づいて、複数のテキストデータ52をクラスタリングする。したがって、分類軸42に沿ったクラスタリングを行うことができる。
更に、本実施形態におけるアンケート結果分析装置1は、記憶部12が、分類軸42毎に接尾辞43を記憶し、制御部11が、分類軸42毎に、接尾辞43を含む単語について集計された出現回数に対して重み付け係数αを乗算し、分類軸42毎に、複数のテキストデータ52をクラスタリングする。したがって、分析者は単語の重みを分類軸42毎に調節することなく、各分類軸42に沿ったクラスタリング結果を得ることができる。
更にまた、本実施形態におけるアンケート結果分析装置1は、制御部11(「計数手段」の一例)が複数のテキストデータ52において出現する単語のうち、記憶部12に記憶されている接尾辞43を含む単語である寄与語の数を計数する。したがって、分析者がクラスタリングを行うために分析軸を選択する場合の参考となる寄与語の数を提示することができ、分析者の作業負荷を軽減することができる。
更にまた、本実施形態におけるアンケート結果分析装置1は、制御部11(「寄与語抽出手段」、「割合算出手段」の一例)が複数のテキストデータ52に記述されている単語のうち、記憶部12に記憶されている接尾辞43を含む単語である寄与語を抽出し、複数のテキストデータ52のうち、抽出した寄与語を含むテキストデータ52の割合を算出する。したがって、分析者がクラスタリングを行うために分析軸を選択する場合の参考となる寄与語を含むテキストデータ52の割合を提示することができ、分析者の作業負荷を軽減することができる。
なお、本実施形態では、分類軸42毎に登録された接尾辞43と単語を比較し、接尾辞42を含む単語の出現回数に重み付け係数αを乗算する構成としたが、これに代えて又はこれに加えて、分類軸毎に固有名詞を登録しておき、当該登録された固有名詞と単語を比較し、固有名詞を含む単語の出現回数に重み付け係数αを乗算する構成としてもよい。例えば、図12に示すような分類軸DB70を記憶部12に構築することとする。
分類軸DB70には、分類軸データとして、分類軸ID71、分類軸72、固有名詞73を示す情報が登録されている。具体的には、分類軸ID71で識別される分類軸72に対応する固有名詞73が登録されている。例えば、「場所」という分類軸72の固有名詞73として場所や地域を表す「東京」、「町田」、「東京ドーム」などが登録され、「人」という分類軸72の固有名詞73として人名や役職名を表す「田中一郎」、「田中花子」、「社長」、「部長」、「係長」などが登録され、「組織」という分類軸72の固有名詞73として組織名を表す「財団法人ABC」、「XYZ株式会社」などが登録されている。なお、図12は各分類軸72に対応する固有名詞の一例を示すものであり、ここに示した固有名詞以外の固有名詞を登録することができる。また、分類軸72として「場所」、「人」、「組織」以外の分類軸を登録することもできる。
当該構成とした場合にも、接尾辞43を含む単語の出現回数に重み付け係数αを乗算した場合と同様に、事前に分類軸72とそれに対応する固有名詞73を設定しておくことにより、分類軸72に応じて単語の出現回数に対する重み付けを行うことができる等の効果が得られる。
ここで、図13を用いて、図5のステップS11の処理(クラスタリング)で生成される分類結果情報80とこれに対応するクラスタ情報90について説明する。図13では、上述した接尾辞43に加えて固有名詞73に基づいて単語に重み付けを行った場合の例を示している。図13(A)に示すように、分類結果情報80は、テキストID51で識別されるテキストデータ52が、ステップS11の処理(クラスタリング)により何れのクラスタに分類されたかを示す情報であり、テキストID51毎に分類されたクラスタを示すクラスタNO.が記述されている。一方、クラスタ情報90は、クラスタNO.で識別されるクラスタに対応する寄与語を示す情報である。例えば、テキストID51が「0001」であるテキストデータ52は、「駐車場」、「駐輪場」という単語を含むことにより、クラスタNO.「2」で識別されるクラスタに分類されたことを示している。なお、図13では、分類軸が「場所」である場合における分類結果情報80及びクラスタ情報90の一例を示したが、ステップS11の処理(クラスタリング)では、分類軸毎に分類結果情報80及びクラスタ情報90が生成される。
また、上記実施形態では、分類軸42毎に接尾辞43を登録して、テキストデータ52に記述された単語と比較する構成としたが、これに代えて又はこれに加えて、分類軸42毎に接頭辞を登録して、テキストデータ52に記述された単語と比較し、接頭辞を含む単語の出現回数に重み付け係数αを乗算する構成としてもよい。
ところで、従来のクラスタリング用プログラムでは自動分類が可能であるものの、分析者が分類軸に沿ってクラスタリングしようとする場合、一旦、クラスタリングを行い、その結果を見て分類軸を決め、各単語の重みを調節して再度クラスタリングを行うといった作業を繰り返さなくてはならなかった。これに対して、アンケート結果分析装置1によれば、テキストデータ52に含まれる寄与語数、寄与語を含む文書割合、更に各分類軸42に基づいて重み付けを行った上でクラスタリングをした際の結果が得られる。したがって、分析者は単語の重みを調節することなく分類軸42に沿ったクラスタリング結果を得られる。また、分析者に最適な分類軸(例えば、寄与語数の多かった分類軸や寄与語を含む文書割合の高かった分類軸)が提示され、分析者の作業負荷を軽減することができる。
1 アンケート結果分析装置
11 制御部
12 記憶部
13 インターフェース部
14 表示部
15 操作部
40、70 分類軸DB
50 アンケート結果DB
60 標準分類データ
80 分類結果情報
90 クラスタ情報

Claims (7)

  1. 複数のテキストデータについて、当該テキストデータに含まれる単語の出現回数に重み付けを行う情報処理装置であって、
    前記複数のテキストデータを分類するための分類軸に対応する接頭辞又は接尾辞の少なくとも何れか一方を、当該分類軸毎に記憶する記憶手段と、
    前記テキストデータ毎に、当該テキストデータに含まれる単語の出現回数を集計する集計手段と、
    前記分類軸毎に、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算する乗算手段と、
    を備えることを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記分類軸に、前記重み付け係数が乗算された出現回数に基づいて、前記複数のテキストデータをクラスタリングするクラスタリング手段、
    を更に備えることを特徴とする情報処理装置。
  3. 請求項1又は2に記載の情報処理装置であって、
    前記複数のテキストデータにおいて出現する単語のうち、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む単語である寄与語の数を計数する計数手段を、
    更に備えることを特徴とする情報処理装置。
  4. 請求項1乃至の何れか一項に記載の情報処理装置であって、
    前記複数のテキストデータにおいて出現する単語のうち、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む単語である寄与語を抽出する寄与語抽出手段と、
    前記複数のテキストデータのうち、前記抽出された寄与語を含むテキストデータの割合を算出する割合算出手段を、
    更に備えることを特徴とする情報処理装置。
  5. 請求項1乃至の何れか一項に記載の情報処理装置であって、
    前記記憶手段は、前記分類軸に対応する固有名詞を更に記憶し、
    前記乗算手段は、前記記憶手段に記憶されている接頭辞、接尾辞又は固有名詞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算することを特徴とする情報処理装置。
  6. 複数のテキストデータについて、当該テキストデータに含まれる単語の出現回数に重み付けを行い、且つ、前記複数のテキストデータを分類するための分類軸に対応する接頭辞又は接尾辞の少なくとも何れか一方を、当該分類軸毎に記憶する記憶手段を備える情報処理装置による情報処理方法であって、
    前記テキストデータ毎に、当該テキストデータに含まれる単語の出現回数を集計する集計工程と、
    前記分類軸毎に、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算する乗算工程と、
    を含むことを特徴とする情報処理方法。
  7. 複数のテキストデータについて、当該テキストデータに含まれる単語の出現回数に重み付けを行い、且つ、前記複数のテキストデータを分類するための分類軸に対応する接頭辞又は接尾辞の少なくとも何れか一方を、当該分類軸毎に記憶する記憶手段を備える情報処理装置におけるコンピュータを、
    前記テキストデータ毎に、当該テキストデータに含まれる単語の出現回数を集計する集計手段、
    前記分類軸毎に、前記記憶手段に記憶されている接頭辞又は接尾辞の少なくとも何れか一方を含む前記単語について集計された出現回数に対して重み付け係数を乗算する乗算手段、
    として機能させることを特徴とする情報処理用プログラム。
JP2013067500A 2013-03-27 2013-03-27 情報処理装置、情報処理方法及び情報処理用プログラム Expired - Fee Related JP6142617B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013067500A JP6142617B2 (ja) 2013-03-27 2013-03-27 情報処理装置、情報処理方法及び情報処理用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013067500A JP6142617B2 (ja) 2013-03-27 2013-03-27 情報処理装置、情報処理方法及び情報処理用プログラム

Publications (2)

Publication Number Publication Date
JP2014191648A JP2014191648A (ja) 2014-10-06
JP6142617B2 true JP6142617B2 (ja) 2017-06-07

Family

ID=51837825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013067500A Expired - Fee Related JP6142617B2 (ja) 2013-03-27 2013-03-27 情報処理装置、情報処理方法及び情報処理用プログラム

Country Status (1)

Country Link
JP (1) JP6142617B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739948A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6285341B2 (ja) * 2014-11-19 2018-02-28 日本電信電話株式会社 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177575A (ja) * 1996-10-15 1998-06-30 Ricoh Co Ltd 語句抽出装置および方法、情報記憶媒体
JP2003016105A (ja) * 2001-06-29 2003-01-17 Fuji Xerox Co Ltd 関連度値算出装置
JP4671164B2 (ja) * 2004-11-11 2011-04-13 日本電気株式会社 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739948A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质
CN109739948B (zh) * 2018-12-28 2021-08-03 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2014191648A (ja) 2014-10-06

Similar Documents

Publication Publication Date Title
US11841879B2 (en) Content discovery systems and methods
CN108170692B (zh) 一种热点事件信息处理方法和装置
US20170200205A1 (en) Method and system for analyzing user reviews
KR101735312B1 (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
JP5547669B2 (ja) 関連語抽出装置、関連語抽出方法、関連語抽出プログラム
US11080348B2 (en) System and method for user-oriented topic selection and browsing
JP2017111782A (ja) ソーシャルメディア投稿のキャプションを生成する方法、プログラム及びサーバ装置
JP6653374B2 (ja) ユーザニーズを決定するための方法及び装置
WO2016093837A1 (en) Determining term scores based on a modified inverse domain frequency
JP2014006757A (ja) コンテンツ配信装置
US9792377B2 (en) Sentiment trent visualization relating to an event occuring in a particular geographic region
KR102365429B1 (ko) 불성실응답자를 판별하는 인공지능을 이용한 온라인 모바일 설문조사 플랫폼
US10296924B2 (en) Document performance indicators based on referral context
KR20210148573A (ko) Sns 사용자 채널에 대한 공개 데이터를 수집하고, 수집된 공개 데이터를 기반으로 영향력을 측정하는 시스템 및 방법
US10394804B1 (en) Method and system for increasing internet traffic to a question and answer customer support system
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP6142617B2 (ja) 情報処理装置、情報処理方法及び情報処理用プログラム
US10339559B2 (en) Associating social comments with individual assets used in a campaign
JP7278100B2 (ja) 投稿評価システム及び方法
CN115544369A (zh) 数据搜索方法、装置、计算机设备以及存储介质
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
US11373198B2 (en) Evaluation device, evaluation method, and evaluation program
JP2017151574A (ja) ユーザ情報処理サーバ及びユーザ情報の処理方法
JP5955817B2 (ja) 抽出装置、抽出方法及びプログラム
JP6399828B2 (ja) 画面変化量に基づいてコンピュータ利用行動を推定する装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170424

R150 Certificate of patent or registration of utility model

Ref document number: 6142617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees