JP6173848B2 - Document classification device - Google Patents
Document classification device Download PDFInfo
- Publication number
- JP6173848B2 JP6173848B2 JP2013188860A JP2013188860A JP6173848B2 JP 6173848 B2 JP6173848 B2 JP 6173848B2 JP 2013188860 A JP2013188860 A JP 2013188860A JP 2013188860 A JP2013188860 A JP 2013188860A JP 6173848 B2 JP6173848 B2 JP 6173848B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- word
- feature
- unit
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施形態は、文書分類装置に関する。 Embodiments described herein relate generally to a document classification apparatus.
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された文書を計算機システムに大量に記憶管理して利用することが可能である。ここでいう文書とは、例えば、帳票、企画書、設計書、議事録といった業務文書や、マニュアル、特許、技術文献、法令、規程、ニュース記事、電子メール、ウェブページ、書籍などを指す。大量の文書を未整理のまま計算機のファイルシステムやデータベースに記憶するだけでは、どこにどのような情報が存在するかが分からなくなるため、せっかくの情報が利用できなくなるという問題が生じる。 In recent years, with the increase in performance of computers, the increase in capacity of storage media, and the spread of computer networks, it is possible to store and manage a large amount of electronic documents in a computer system. The document here refers to, for example, business documents such as forms, planning documents, design documents, minutes, manuals, patents, technical literature, laws, regulations, news articles, e-mails, web pages, books, and the like. If only a large number of documents are stored in a computer file system or database without being organized, it becomes impossible to know where and what information is present, which causes a problem that information cannot be used.
このような問題に対し、文書を内容や用途に応じて分類・整理しておくことで、情報の有効活用や共有の促進を図るということが行われている。また、例えば日々作成され、蓄積される日報や週報などの報告書や、顧客から送付されてくる問い合わせ、製品等の不具合情報、特許・技術文献等の知的財産などを、分析・調査して、内容の傾向を把握したり、新たな知見を得たりするためにも、互いに内容が類似した文書同士をグルーピングすることが行われている。このような文書の分類作業を人手で行うには労力がかかるため、従来から、文書を自動的に分類する文書分類技術が開発されている。 In order to deal with such problems, it has been attempted to promote effective utilization and sharing of information by classifying and organizing documents according to contents and uses. For example, analyze and investigate reports such as daily and weekly reports that are created and accumulated daily, inquiries sent from customers, defect information on products, intellectual property such as patents and technical literature, etc. In order to grasp the tendency of contents or to obtain new knowledge, grouping of documents having similar contents is performed. Since it takes labor to perform such document classification work manually, a document classification technique for automatically classifying documents has been developed.
文書分類技術の一例として、ユーザがあらかじめ分類の基準となるルールやカテゴリを用意せずに、分類対象の文書データ集合から、何らかの共通点や類似性のある文書同士のまとまり(すなわちクラスタ)を自動的に生成するクラスタリングがある。このクラスタリングには、代表的な方法が二つある。
クラスタリングの第一の方法では、各々の文書が持つ特徴を特徴ベクトルによって表し、文書同士の類似度を各文書の特徴ベクトル同士の類似度(例えば内積や余弦)によって定義する。そして、定義された類似度が大きい文書同士のまとまりとして、クラスタを生成する(例えば、特許文献1参照)。この方法を文書クラスタリングと呼ぶ。文書の特徴は、文書のテキスト中に出現する単語の頻度を用いて表現することが多く、この場合の特徴ベクトルは、単語ベクトルと呼ばれる。
As an example of document classification technology, a user automatically prepares a group (ie, cluster) of documents that have something in common or similar to each other from a set of document data to be classified without preparing a rule or category as a classification reference in advance. There is a clustering to generate automatically. There are two typical methods for this clustering.
In the first method of clustering, the features of each document are represented by feature vectors, and the similarity between documents is defined by the similarity (for example, inner product or cosine) between feature vectors of each document. Then, a cluster is generated as a group of documents having a high degree of similarity defined (see, for example, Patent Document 1). This method is called document clustering. Document features are often expressed using the frequency of words that appear in the text of the document, and the feature vectors in this case are called word vectors.
クラスタリングの第二の方法は、文書中に出現する単語に着目する方法である。この方法では、分類対象の文書データ集合の中で、各単語が出現する文書数(すなわち出現頻度)や、複数の単語が共通に出現する文書の個数(すなわち共起頻度)に基づいて、まず、その文書の内容をよく表す重要な単語や、単語間の関連、あるいは出現傾向が類似した単語のまとまりなどを抽出する。この抽出結果に基づき、各々の単語と、これが出現する文書を対応付けることで、文書のまとまりを自動的に生成する(例えば、特許文献2参照)。この方法を、単語クラスタリングと呼ぶ。 The second method of clustering is a method that focuses on words appearing in a document. In this method, first, based on the number of documents in which each word appears (that is, the appearance frequency) and the number of documents in which a plurality of words appear in common (ie, the co-occurrence frequency) in the document data set to be classified, Then, important words that well represent the contents of the document, relations between words, or groups of words having similar appearance tendencies are extracted. Based on the extraction result, a group of documents is automatically generated by associating each word with the document in which it appears (see, for example, Patent Document 2). This method is called word clustering.
また、分類構造を利用して、内容の傾向を把握したり、新たな知見を得たりするための分析方法として、2軸マップ(クロス集計とも呼ばれる)がある。この方法によれば、2つの分類軸を選び、各分類軸の項目である各カテゴリ同士で、文書の積集合(すなわち両カテゴリにともに分類されている文書データ集合)を求め、その文書数をマトリックス状に表示する。これにより、文書データ集合の全体像が把握でき、各カテゴリの相関関係などについての知見を得ることができる。2軸マップに関する従来技術としては、文書に含まれる項目の内容ごと(特許文書なら「要約」や「請求項」など)でクラスタリングを行い、そのクラスタリング結果を用いて2軸マップを行うものや(例えば、特許文献3参照)、互いに異なる観点や分類手法で作成した分類階層上で、ユーザが任意の部分を選択して2軸マップを行えるようにしたものがある(例えば、特許文献4参照)。 Further, there is a biaxial map (also referred to as cross tabulation) as an analysis method for grasping a tendency of contents or obtaining new knowledge using a classification structure. According to this method, two classification axes are selected, a product set of documents (that is, a document data set classified in both categories) is obtained for each category as an item of each classification axis, and the number of documents is calculated. Display in a matrix. As a result, an overall image of the document data set can be grasped, and knowledge about the correlation of each category can be obtained. As a conventional technique related to a biaxial map, clustering is performed for each item included in a document (for example, “summary” or “claim” for a patent document), and a biaxial map is performed using the clustering result ( For example, refer to Patent Document 3), and there is one in which a user can select an arbitrary part on a classification hierarchy created by different viewpoints and classification methods and perform a biaxial map (for example, refer to Patent Document 4). .
特許文献1や特許文献2のような単語クラスタリングや文書クラスタリングでは、ある文書集合に対して、単語の有意性や内容の類似性によって分類構造が生成されるが、その際、2軸マップで利用する分類軸は考慮されない。そのため、特許文献3のようにクラスタリング結果を用いて2軸マップを構成しても、必ずしもユーザの目的に合った分類のマップとはならない。例えば、ユーザが横軸を「出願年別」として特許文書集合の2軸マップを見たい場合には、ユーザは、時系列的な出願傾向を把握して技術の潮流を分析したいという要求があると考えられる。また、「出願人別」を横軸とした場合には、ユーザは、各社の強みや弱みといった技術傾向を分析したいという要求があると考えられる。このようなニーズに対しては、それぞれの場合に応じて2軸マップにおける分類軸を考慮してクラスタリングを行う必要があるが、従来技術ではそれができない。
そして、特許文献3や特許文献4では、クラスタリング結果やその時の分類構造を利用して2軸マップの表示を行うという1方向での処理である(ただし、特許文献4では分類軸の絞り込みは可能)。そのため、2軸マップ上で分析の目的やユーザの認識に合わせた分類構造を生成したいというニーズがあるものの、従来技術ではそれができない。
In word clustering and document clustering as in
And in
本発明が解決しようとする課題は、ユーザの観点に適した分類構造を生成し、ユーザの目的にあった分類と分析を可能とする文書分類装置を提供することである。 The problem to be solved by the present invention is to provide a document classification device that generates a classification structure suitable for the user's viewpoint and enables classification and analysis suitable for the user's purpose.
実施形態の文書分類装置は、文書記憶部と、カテゴリ記憶部と、カテゴリ操作部と、特徴度算出部と、傾向ベクトル生成部と、クラスタリング部と、カテゴリ生成処理部と、2軸マップ表示部とを具備する。文書記憶部は、文書データを記憶する。カテゴリ記憶部は、カテゴリの階層構造と、文書データをカテゴリへ分類する際の分類ルールとを記憶する。カテゴリ操作部は、分類の観点とするカテゴリと分類対象のカテゴリである対象カテゴリとの入力を受け、カテゴリ記憶部から分類の観点とするカテゴリの下位のカテゴリである軸カテゴリの集合を軸カテゴリ集合として読み出す。特徴度算出部は、文書記憶部に記憶されている文書データのうち、対象カテゴリの分類ルールを満たす文書データの集合を対象文書データ集合とし、対象文書データ集合に含まれる単語の特徴度を算出する。傾向ベクトル生成部は、特徴度算出部が算出した特徴度に基づいて対象文書データ集合の特徴を表す単語を選択し、選択した単語それぞれについて、当該軸カテゴリ集合中の各軸カテゴリの分類ルールを満たす対象文書データにおける当該単語の出現頻度に基づく統計量を算出し、前記統計量を当該軸カテゴリに対応する要素の値として設定した傾向ベクトルを生成する。クラスタリング部は、傾向ベクトル生成部が生成した傾向ベクトルの類似性に基づいて単語をクラスタリングする。カテゴリ生成処理部は、クラスタリング部によるクラスタリングの結果得られたクラスタごとに、対象カテゴリを上位のカテゴリとし、クラスタに属する単語をフィルタ語に用いた分類ルールを有する特徴語カテゴリを生成してカテゴリ記憶部に登録する。2軸マップ表示部は、軸カテゴリ集合に含まれる各カテゴリを第1軸の分類項目とし、カテゴリ生成処理部によって生成された特徴語カテゴリを第2軸の分類項目とした2軸マップの各セルに、文書記憶部に記憶されている文書データのうち、当該セルに対応した軸カテゴリの分類ルールと当該セルに対応した特徴語カテゴリの分類ルールとを満たす文書データの数を表す情報を表示させる。 A document classification device according to an embodiment includes a document storage unit, a category storage unit, a category operation unit, a feature calculation unit, a trend vector generation unit, a clustering unit, a category generation processing unit, and a biaxial map display unit It comprises. The document storage unit stores document data. The category storage unit stores a hierarchical structure of categories and classification rules for classifying document data into categories. The category operation unit receives an input of a category to be classified and a target category that is a category to be classified, and a set of axis categories that are subordinate categories of the category to be classified from the category storage unit. Read as. The feature degree calculation unit calculates a feature degree of a word included in the target document data set by setting a set of document data satisfying the classification rule of the target category among the document data stored in the document storage unit as the target document data set. To do. The trend vector generation unit selects a word representing the feature of the target document data set based on the feature degree calculated by the feature degree calculation unit, and sets a classification rule for each axis category in the axis category set for each selected word. A statistic based on the appearance frequency of the word in the target document data to be satisfied is calculated, and a trend vector in which the statistic is set as a value of an element corresponding to the axis category is generated. The clustering unit clusters words based on the similarity of the trend vectors generated by the trend vector generation unit. The category generation processing unit generates, for each cluster obtained as a result of clustering by the clustering unit, a feature word category having a classification rule using a target category as a higher category and a word belonging to the cluster as a filter word, and stores the category Register with the department. The biaxial map display unit uses each category included in the axis category set as a classification item for the first axis, and each cell of the biaxial map uses the feature word category generated by the category generation processing unit as the classification item for the second axis. Display information indicating the number of document data satisfying the classification rule of the axis category corresponding to the cell and the classification rule of the feature word category corresponding to the cell among the document data stored in the document storage unit .
以下、本発明の実施形態について、図面を参照しながら説明する。
図1は、本発明の実施形態に係る文書分類装置100の構成を示すブロック図である。同図に示すように、文書分類装置100は、文書記憶部1、カテゴリ記憶部2、文書分類部3、特徴度データ記憶部4、及びユーザインターフェース部5を備えて構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a
文書記憶部1は、文書分類装置100による文書分類処理の対象となる文書データを格納する。文書記憶部1は、例えばファイルシステムや文書データベースなどによって実現される。もしくは計算機ネットワークによって接続した複数の記憶手段によって、文書記憶部1を構成してもよい。
The
カテゴリ記憶部2は、文書データの分類に用いられるカテゴリのデータを記憶する。カテゴリのデータは、カテゴリの名称や、カテゴリの階層構造、カテゴリの分類ルールを示す。カテゴリの階層構造は、カテゴリ間の上位と下位の関係を表す。分類ルールは、文書データをカテゴリに分類する際に用いられるルールであり、例えば、文書データの属性、作成日や作成者、ジャンルといった書誌情報などが利用される。もしくは、既存のクラスタリングによって文書データをカテゴリに分類してもよい。
さらに、カテゴリ記憶部2は、後述する文書分類部3によって生成される特徴語カテゴリのデータも記憶する。特徴語カテゴリは、文書を分類する際の観点となるカテゴリである軸カテゴリ集合に対して出現傾向が類似した特徴語を分類ルールとして分類されるカテゴリである。
The category storage unit 2 stores category data used for document data classification. The category data indicates a category name, a category hierarchy, and a category classification rule. The category hierarchy represents the upper and lower relationships between categories. The classification rule is a rule used when classifying document data into categories. For example, bibliographic information such as document data attributes, creation date, creator, and genre is used. Alternatively, the document data may be classified into categories by existing clustering.
Furthermore, the category storage unit 2 also stores feature word category data generated by the
後述する図19では、カテゴリ記憶部2の初期状態として記憶されたカテゴリの階層構造の全体像を表す画面表示例を示しており、後述する図3では、カテゴリ記憶部2に記憶されるカテゴリのデータを示している。
図19において、ユーザインターフェース部5(具体的には、後述する2軸マップ表示部51)は、上位カテゴリが設定されていないカテゴリデータ300のカテゴリ名303「ルート」(図3)を、ルート階層の「ルート」カテゴリ1600として表示させる。また、ユーザインターフェース部5(後述する2軸マップ表示部51)は、カテゴリデータ300を上位カテゴリとするカテゴリデータ310、320、330のカテゴリ名313、323、333に設定されている「出願人別」、「出願年別」、「内容別」(図3)を、「ルート」カテゴリ1600の下位階層である「出願人別」カテゴリ1601、「出願年別」カテゴリ1602、「内容別」カテゴリ1603として表示させる。このような全体像を表示させる前提で、以下の説明を行なう。
FIG. 19 to be described later shows a screen display example showing an overall image of the hierarchical structure of the categories stored as the initial state of the category storage unit 2, and FIG. 3 to be described later shows the categories stored in the category storage unit 2. Data are shown.
In FIG. 19, the user interface unit 5 (specifically, a biaxial
図1に示す文書分類部3は、軸カテゴリ集合と対象カテゴリを入力として受け取る。軸カテゴリ集合は、2軸マップにおいて一方の軸となるカテゴリの子カテゴリ(軸カテゴリ)の集合であり、上述したように、分類における観点とするカテゴリ集合である。なお、子カテゴリとは、あるカテゴリに対して1つ下位のカテゴリであり、軸カテゴリ集合に含まれる子カテゴリ(軸カテゴリ)の数は1以上である。対象カテゴリは、2軸マップにおける他方の軸となるカテゴリであり、文書分類の観点となるカテゴリに対して分類対象となるカテゴリである。すなわち、本実施形態では、軸カテゴリ集合を分類における観点として、この軸カテゴリ集合に基づいて、対象カテゴリに含まれる文書データを分類する。ここで、文書分類部3は、軸カテゴリに分類された文書データについて、対象カテゴリを用いて分類する。例えば、「内容別」カテゴリに分類された文書データ集合を年代別の観点で分類したい場合、対象カテゴリに「内容別」カテゴリを指定し、観点とするカテゴリには「年代別」カテゴリを指定する。このとき、軸カテゴリ集合は、「年代別」カテゴリの子カテゴリである「2004年」,「2005年」,「2006年」,「2007年」,「2008年」の各集合(図19におけるカテゴリ1621〜1625)となる。そして、この内容を2軸マップで表する場合は、一方の軸が「年代別」カテゴリとなり、他方の軸が「内容別」カテゴリとなる。
この分類に用いられる特徴語を決定するため、文書分類部3は、入力された対象カテゴリに分類される文書データ集合(対象文書データ集合)に出現する単語について特徴度を算出する。特徴度とは、単語が対象文書データ集合の特徴をどの程度表しているかを定量的に示す指標値である。なお、対象文書データ集合に含まれる文書データの数は、1以上である。また、文書分類部3は、対象カテゴリの子カテゴリとして、軸カテゴリ集合に対して出現傾向が類似した特徴語のグループに基づく特徴語カテゴリを生成する。
The
In order to determine a feature word used for this classification, the
文書分類部3は、特徴度算出部31、特徴度補正部32、及び特徴語カテゴリ生成部33を備えて構成される。
特徴度算出部31は、対象カテゴリに分類された文書データの集合である対象文書データ集合に出現する単語について、所定の文書データ集合における出現頻度の統計的有意性に基づき特徴度を算出し、特徴度データ記憶部4に記憶する。
特徴度補正部32は、後述するユーザインターフェース部5の着目語設定部53から、ユーザが選択した着目語を複数集めた着目語集合を入力として受取る。着目語とは、対象カテゴリの子カテゴリとして特徴語カテゴリを生成する際にユーザが着目対象として選択した単語である。特徴度補正部32は、特徴度データ記憶部4に記憶された各単語の特徴度を、該単語と着目語集合との共起度に基づいて補正する。
The
The feature
The
特徴語カテゴリ生成部33は、軸カテゴリ集合に対して出現傾向の類似した特徴語のグループに基づいて特徴語カテゴリを生成し、生成した特徴語カテゴリのデータをカテゴリ記憶部2に記憶する。特徴語カテゴリ生成部33は、傾向ベクトル生成部34、クラスタリング部35、及びカテゴリ生成処理部36を備えて構成される。傾向ベクトル生成部34は、特徴度データ記憶部4に記憶された特徴度が所定の値より大きい単語の集合を特徴語集合とする。傾向ベクトル生成部34は、特徴語集合に含まれる各単語について、対象文書データ集合中での各軸カテゴリにおける出現頻度を算出し、算出した各軸カテゴリにおける出現頻度に基づく統計量を、その軸カテゴリに対応した要素の値とする傾向ベクトルを生成して特徴度データ記憶部4に記憶する。クラスタリング部35は、生成した傾向ベクトルの類似性に基づきクラスタリングを行い、関連の強い単語のグループである特徴語クラスタを抽出する。カテゴリ生成処理部36は、特徴語クラスタに含まれる単語である特徴語をフィルタ語とし、そのフィルタ語を分類の条件とする特徴語カテゴリを生成する。カテゴリ生成処理部36は、生成した特徴語カテゴリのデータをカテゴリ記憶部2に記憶する。
The feature word
特徴度データ記憶部4は、対象文書データ集合に含まれる各単語についての特徴度データを格納する手段である。特徴度データは、文書分類部3によって生成された特徴度と、軸カテゴリ集合に対する傾向ベクトルとを含む。
The
ユーザインターフェース部5は、2軸マップの横軸となるカテゴリ(以下、「横軸カテゴリと記載する)と縦軸となるカテゴリ(以下、「縦軸カテゴリ」と記載する)との2つのカテゴリの入力を受け、ユーザに対して2軸マップを提示する。実際のこの提示の際には、インターネットを介して通信し、パーソナルコンピュータ(PC)のディスプレイ上に表されたブラウザなどの汎用的な機器を用いることが多い。また、ユーザインターフェース部5は、ユーザからの特徴語クラスタリングの実行要求や、着目語集合の設定、特徴語カテゴリの編集操作を受け付ける。ユーザインターフェース部5は、例えば、グラフィカル・ユーザ・インタフェース(以下、「GUI」と記載する)によって実現される。 The user interface unit 5 includes two categories, a category that is the horizontal axis of the biaxial map (hereinafter referred to as “horizontal axis category”) and a category that is the vertical axis (hereinafter referred to as “vertical axis category”). Receives the input and presents the biaxial map to the user. In the actual presentation, a general-purpose device such as a browser that communicates via the Internet and is displayed on a display of a personal computer (PC) is often used. In addition, the user interface unit 5 accepts an execution request for feature word clustering, a setting of a focused word set, and an operation for editing a feature word category from the user. The user interface unit 5 is realized by, for example, a graphical user interface (hereinafter referred to as “GUI”).
ユーザインターフェース部5は、2軸マップ表示部51、カテゴリ操作部52、及び着目語設定部53を備えて構成される。
2軸マップ表示部51は、横軸カテゴリと縦軸カテゴリの2つのカテゴリの入力を受け、それらカテゴリの下位カテゴリをそれぞれ行と列の項目とした2軸マップをパーソナルコンピュータのディスプレイなどに表示させる(例えば、後述する図22や図25)。2軸マップ表示部51は、パーソナルコンピュータ(PC)のディスプレイを通じて2軸マップを表示させる際、2軸マップの各セルに、そのセルが対応する行の項目のカテゴリと列の項目のカテゴリとの両カテゴリに分類された文書データの数に応じたグラフを表示させる。さらに、2軸マップ表示部51は、2軸マップ上において、特徴語カテゴリのタイトル行のセル(例えば、後述する図25のセル2101)に、該特徴語カテゴリのフィルタ語を表示させる。また、2軸マップ表示部51は、2軸マップ上でユーザが選択したフィルタ語の入力を受けると、フィルタ語が選択された行について、横軸カテゴリの各下位カテゴリと、フィルタ語が選択された行の特徴語カテゴリとの両カテゴリに分類された文書データ集合中で、選択されたフィルタ語を含む文書データの数を上記のグラフとは区別して表示させる(例えば、後述する図26)。
The user interface unit 5 includes a biaxial
The biaxial
カテゴリ操作部52は、2軸マップ上でユーザからの特徴語クラスタリングの実行要求を受け付け、この実行要求を文書分類部3に出力する。また、カテゴリ操作部52は、2軸マップ上でユーザによる特徴語カテゴリの選択を受け、選択された特徴語カテゴリの特徴語を表示させる(例えば、後述する図27の特徴語追加画面2310)。さらに、カテゴリ操作部52は、ユーザから特徴語カテゴリに対するフィルタ語の追加・削除といった編集操作を受け付け、カテゴリ記憶部2に記憶されている該特徴語カテゴリのデータをその編集操作に応じて更新する。
The
着目語設定部53は、分類にあたり着目する複数の単語を着目語集合としてユーザから受け付けて、文書分類部3に出力する。文書分類部3は、着目語設定部53から着目語集合の入力を受け、特徴度データ記憶部4に記憶された各単語の特徴度データに対して特徴度の補正を行い、補正された特徴度に基づいて選択した単語を特徴語として特徴語カテゴリを生成する。これにより、文書分類部3は、生成される特徴語カテゴリと、カテゴリ操作部52によって提示されるカテゴリの特徴語とを、ユーザが着目した単語に則したものとすることができる。
The focused
文書分類装置100は上述したように構成され、例えばパーソナルコンピュータ(PC)によって実現される。PCは、例えばCPU(central processing unit)、メモリ、ハードディスクドライブ(HDD)、液晶ディスプレイ、キーボード、マウス等で構成される。
The
図2は、文書記憶部1に記憶される文書データの一例を示す図である。文書記憶部1には複数の文書データが記憶される。各文書データは、図2(a)の文書データ200aに示すように、ユニークな識別子である文書番号201のデータを含む。
さらに、文書データ200aは、その目的や形式に従った属性のデータを含む。例えば、図2(a)は、特許情報を記述した文書の例を示しており、出願日203、出願人204などの属性のデータを含む。また、文書データ200aは、文書のテキストデータ、すなわち、日本語や英語などの自然言語で記述されたデータとして、文書名202、本文205などのテキストを含む。加えて、文書データ200aは、その文書データ200aに含まれる各単語の出現数(出現頻度tf)を要素とする単語ベクトル206のデータを保持する。この単語ベクトル206は、文書分類部3によって算出される。なお、単語ベクトル206は、文書データ200aと対応する形で、元の文書データが保持されている文書データベースとは異なるデータベースに保持されてもよい。
FIG. 2 is a diagram illustrating an example of document data stored in the
Further, the
図2(b)に示す文書データ200bは、図2(a)に示す文書データ200aをXML(extensible markup language)形式で記述した場合の例である。この場合、文書データ200bには、文書データ200aにおける文書番号、各属性、各テキスト、単語ベクトルに相当するデータが、XMLの要素(タグ)や属性を用いて記述される。
The
図3は、カテゴリ記憶部2に記憶されるカテゴリデータの一例を示す図である。なお、後述する図19に、カテゴリの階層構造の一例を示している。
図3においては、カテゴリデータ300、310、320、330、340、350の6つの例を示している。各カテゴリデータはそれぞれ、ユニークな識別子であるカテゴリ番号301、311、321、331、341、351のデータを含む。ここでは、文書記憶部1に記憶された文書データ200a(または文書データ200b)の属性を示す出願人204、出願日203のそれぞれにより、出願人別、出願年別にカテゴリが作成されている。
FIG. 3 is a diagram illustrating an example of category data stored in the category storage unit 2. Note that FIG. 19 described later shows an example of a hierarchical structure of categories.
In FIG. 3, six examples of
本実施形態の文書分類装置100では、複数のカテゴリによってツリー形式の階層構造を構成する(例えば、後述する図19)。そのため、各カテゴリデータはそれぞれ、カテゴリの上位と下位の関係を表すデータとして上位カテゴリ302、312、322、332、342、352のデータを有する。ただし、カテゴリデータ300は階層構造のルートにあたるカテゴリを表すため、上位カテゴリ302には「(なし)」が設定される。また、「出願人別」カテゴリの上位カテゴリは「ルート」カテゴリである。そのため、「出願人別」カテゴリに対応したカテゴリデータ310の上位カテゴリ312には、「ルート」カテゴリに対応したカテゴリデータ300のカテゴリ番号301の設定値「C000」が設定される。また、各カテゴリデータ300、310、320、330、340、350はそれぞれ、カテゴリ名303、313、323、333、343、353のデータを有する。
In the
また、カテゴリの分類の基準は分類ルール304、314、324、334、344、354に記述される。例えば、「ルート」カテゴリのカテゴリデータ300は、階層構造のルートのカテゴリを表すため、その分類基準である分類ルール304は、「true(恒真)」とする。分類ルール304が「true(恒真)」であるとは、全ての文書データが条件を満足するというルールが設定されていることを示す。また、例えば、カテゴリデータ340の分類ルール344は、「./出願人=”A社”」である。この分類ルール344は、文書記憶部1に記憶された文書データ200aが持つ属性の出願人204が「A社」であることを条件としたルールである。
Further, the category classification criteria are described in
なお、分類ルール304、314、324、334、344、354は、XML形式で記述した文書データ200bについての条件の記述、すなわち、XQuery(もしくはXPath)と呼ばれる問い合わせに言語を用いて記述した例である。分類ルール304、314、324、334、344、354の記述形式は、文書記憶部1の実現方法や、文書データの形式に応じて定めればよく、例えばSQLなどを用いてもよい。
The classification rules 304, 314, 324, 334, 344, and 354 are examples in which a description of a condition for the
カテゴリデータ350の分類ルール354もXQueryの条件式を用いて記述した例であり、文書データの「出願日」属性が「2008年」であることを条件としたルールである。この分類ルールは、カテゴリの階層構造に対して、AND条件として作用する。例えば、図3に示す例とは異なるが、カテゴリデータ340に示す「A社」カテゴリの下位カテゴリとして、カテゴリデータ350に示す「2008年」カテゴリが存在した場合を想定する。この場合、「2008年」カテゴリに分類される文書データは、「A社」カテゴリの分類ルール「./出願人=”A社”」と、その下位カテゴリである「2008年」カテゴリの分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」とのAND条件「(./出願人=”A社”) and (./出願日>=”2008/01/01” and ./出願日<=”2008/12/31)」にマッチする文書データ、すなわち、出願人が「A社」であり、かつ、出願年が「2008年」の文書データとなる。
The classification rule 354 of the
図4は、文書分類部3によって生成される特徴語カテゴリのカテゴリデータである特徴語カテゴリデータの一例である。
特徴語カテゴリデータは、図3に示す他のカテゴリデータと同様にカテゴリ記憶部2に格納される。図4には、特徴語カテゴリデータ400、410の2つの例を示している。特徴語カテゴリデータ400、410はそれぞれ、図3に示したような他のカテゴリデータと同様に、カテゴリ番号401、411、上位カテゴリ402、412、カテゴリ名403、413、分類ルール404、414のデータを含む。さらに、特徴語カテゴリデータ400、410は、カテゴリ生成処理部36によって抽出された特徴語クラスタに含まれる特徴語を示すフィルタ語405、415のデータを有する。
FIG. 4 is an example of feature word category data that is category data of the feature word category generated by the
The feature word category data is stored in the category storage unit 2 in the same manner as the other category data shown in FIG. FIG. 4 shows two examples of feature
特徴語カテゴリデータに含まれる分類ルール404、414は、カテゴリ生成処理部36によって、フィルタ語405、415に基づいて生成される。例えば、カテゴリ生成処理部36は、文書データのテキスト情報にフィルタ語405、415が含まれることを示す条件を分類ルールとして生成する。同図に示す特徴語カテゴリデータ400のフィルタ語405には、「分類」と「知識」と「共有」が設定されている。従って、特徴語カテゴリデータ400の分類ルール404には、文書データ200aのテキスト情報である本文205にこれらのフィルタ語405が含まれるという条件、つまり、「contains(./本文,“分析”) and contains(./本文,“知識”) and contains(./本文,“共有”)」が設定される。
The classification rules 404 and 414 included in the feature word category data are generated by the category
図5は、文書分類部3によって生成され、特徴度データ記憶部4に格納される特徴度データの一例である。同図に示す特徴度データ500−1、500−2、…は、文書分類部3において対象文書データ集合から抽出された各単語に対応し、単語510と、文書頻度501と、特徴度502と、補正特徴度503と、軸カテゴリ(カテゴリ番号)に対する頻度ベクトル/傾向ベクトル504のデータを有する。なお、特徴度データ500−1、500−2、…を総称して、特徴度データ500と記載する。
FIG. 5 is an example of feature data generated by the
文書頻度501は、対象文書データ集合中で単語510が出現する文書データの数である文書数(文書頻度df)を示す。特徴度502は、特徴度算出部31によって算出される特徴度を示す。補正特徴度503は、ユーザから指定された着目語集合に基づき特徴度補正部32が特徴度を補正した値を示す。軸カテゴリ(カテゴリ番号)に対する頻度ベクトル/傾向ベクトル504は、頻度ベクトル511及び傾向ベクトル512のデータを有する。特徴度データ500−i(i=1、2、…)の頻度ベクトル511及び傾向ベクトル512をそれぞれ、頻度ベクトル511−i及び傾向ベクトル512−iとする。頻度ベクトル511は、対象文書データ集合と軸カテゴリ集合中の各軸カテゴリとの共通集合中に単語510が出現する文書データの数である文書数(cf)を要素(成分)の値とする。傾向ベクトル512は、対象文書データ集合に対する前述の共通集合中における単語510の出現割合(cp)を各要素の値とする。ただし、傾向ベクトル生成部34は、補正特徴度が所定の値以下の単語は、特徴語クラスタの対象外とするため、頻度ベクトルと傾向ベクトルを求めない。図5においては、単語510「探索」と「メール」とが特徴語クラスタの対象外となった例であり、これらの単語の特徴度データ500−3、500−5の頻度ベクトル511−3、511−5と傾向ベクトル512−3、512−5は空となる。
The
図6は、着目語設定部53が内部に記憶する着目語リストデータの一例を示す図である。図6に示す着目語リストデータ600の着目語候補601には、2軸マップ上でユーザが着目語として選択したフィルタ語、もしくは、ユーザが着目語として入力した文字列のリストが設定される。着目語候補601には、文書分類部3において実際に着目語として適用するか否かを示すフラグである着目語設定602が付与される。本実施形態では、着目語設定602が「1」ならば着目語として適用し、「0」ならば非適用であることを示す。
FIG. 6 is a diagram illustrating an example of attention word list data stored in the attention
以下、図7〜図29を参照して、本発明の実施形態に係る文書分類装置が行う文書分類処理の一例を説明する。
図7は、本実施形態の文書分類装置100が行う文書分類処理の流れの一例を示すフローチャートである。まず、ユーザインターフェース部5の2軸マップ表示部51は、ユーザの操作により、2軸マップの横軸カテゴリ及び縦軸カテゴリの入力を受け、初期2軸マップ表示処理を行う(ステップS1)。初期2軸マップ表示処理において、2軸マップ表示部51は、カテゴリ記憶部2から横軸カテゴリの子カテゴリの集合と縦軸カテゴリの子カテゴリの集合を取得する。2軸マップ表示部51は、横軸カテゴリの子カテゴリ(以下、「横軸子カテゴリ」と記載する)を横軸の各項目とし、縦軸カテゴリの子カテゴリ(以下、「縦軸子カテゴリ」と記載する)を縦軸の各項目とした2軸マップを表示させる。なお、横軸カテゴリに子カテゴリがない場合は、横軸カテゴリを横軸の項目とし、縦軸カテゴリに子カテゴリがない場合は、縦軸カテゴリを縦軸の項目とする(例えば、後述する図22)。
Hereinafter, an example of document classification processing performed by the document classification device according to the embodiment of the present invention will be described with reference to FIGS.
FIG. 7 is a flowchart showing an example of the flow of document classification processing performed by the
続いて、カテゴリ操作部52は、ユーザからクラスタリング要求と対象カテゴリの入力を受ける(ステップS2)。例えば、ユーザは、ステップS1において表示させた2軸マップの横軸カテゴリ、または、縦軸カテゴリの中から対象カテゴリを選択する。カテゴリ操作部52は、入力された対象カテゴリと軸カテゴリ集合を文書分類部3に出力する。軸カテゴリ集合は、対象カテゴリとして選択されなかった横軸カテゴリの下位カテゴリの集合、または、縦軸カテゴリの下位カテゴリの集合である。文書分類部3の特徴度算出部31は、対象カテゴリに分類された文書データの集合である対象文書データ集合から、所定の品詞であり、かつ、不要語ではない単語を抽出して特徴度を算出し、特徴度データ記憶部4に書き込む(ステップS3)。カテゴリ操作部52は、ユーザから着目語の入力を受け(例えば、後述する図23の着目語設定フォーム1910)、文書分類部3に出力する(ステップS4)。文書分類部3の特徴度補正部32は、ステップS3において特徴度データ記憶部4に記憶された各単語の特徴度を、対象文書データ集合における該単語と着目語集合との共起度に基づいて補正する(ステップS5)。
Subsequently, the
傾向ベクトル生成部34は、補正された特徴度が所定の値より大きい単語について傾向ベクトルを生成し、特徴度データ記憶部4に記憶する(ステップS6)。クラスタリング部35は、傾向ベクトルの類似性に基づき単語のクラスタリングを行い、関連の強い単語のグループである特徴語クラスタを抽出する(ステップS7)。カテゴリ生成処理部36は、特徴語クラスタに含まれる単語である特徴語をフィルタ語とし、そのフィルタ語を分類の条件とする特徴語カテゴリを生成する。カテゴリ生成処理部36は、生成した特徴語カテゴリのデータ(例えば、図4の特徴語カテゴリデータ400、410)をカテゴリ記憶部2に記憶する(ステップS8)。これにより、カテゴリ構造が更新される(例えば、後述する図24)。
The trend
2軸マップ表示部51は、軸カテゴリ集合と、ステップS8において生成された特徴語カテゴリ集合とを2軸とする2軸マップを表示させる(ステップS9)。このとき、2軸マップ表示部51は、特徴語カテゴリそれぞれのフィルタ語を表示させる(例えば、後述する図25)。
The biaxial
カテゴリ操作部52は、ユーザからのフィルタ語の追加や削除などの編集操作を受け付け(例えば、後述する図27)、カテゴリ記憶部2に記憶されている特徴語カテゴリデータを更新する(ステップS10)。2軸マップ表示部51は、軸カテゴリ集合と、ステップS10において更新された特徴語カテゴリデータに基づく特徴語カテゴリ集合とを2軸とする2軸マップ(例えば、後述する図28)を表示させる(ステップS11)。
The
続いて、図7の各処理ステップにおける詳細な処理について説明する。
図8は、初期2軸マップを表示させる処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS1における初期2軸マップ表示処理の詳細な処理の一例を示す。
Next, detailed processing in each processing step of FIG. 7 will be described.
FIG. 8 is a flowchart showing the flow of processing for displaying the initial biaxial map. The flowchart shown in the figure shows an example of detailed processing of the initial biaxial map display processing in step S1 of FIG.
最初に、2軸マップ表示部51は、ユーザによる2軸マップの横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatとの入力を受ける(ステップS1001)。この入力のため、本実施形態では、2軸マップ表示部51は、カテゴリ記憶部2に記憶されているカテゴリデータ及び特徴語カテゴリデータに基づいて、カテゴリ構造を表す画面を表示させる。ここでは、図4に示す特徴語カテゴリデータ400、410がまだ生成されていないものとする。
First, the biaxial
図19は、カテゴリ記憶部2の初期状態として記憶されたカテゴリ構造の画面表示例を示す図である。2軸マップ表示部51は、上位カテゴリが設定されていないカテゴリデータ300のカテゴリ名303「ルート」を、ルート階層の「ルート」カテゴリ1600として表示させる。さらに、2軸マップ表示部51は、カテゴリデータ300のカテゴリ番号301「C000」が上位カテゴリに設定されているカテゴリデータ310、320、330を特定する。2軸マップ表示部51は、これらカテゴリデータ310、320、330のカテゴリ名313、323、333に設定されている「出願人別」、「出願年別」、「内容別」を、「ルート」カテゴリ1600の下位階層である「出願人別」カテゴリ1601、「出願年別」カテゴリ1602、「内容別」カテゴリ1603として表示させる。
FIG. 19 is a diagram illustrating a screen display example of the category structure stored as the initial state of the category storage unit 2. The biaxial
さらに、2軸マップ表示部51は、カテゴリデータ310のカテゴリ番号301「C0001」が上位カテゴリに設定されているカテゴリデータを特定する。2軸マップ表示部51は、特定したカテゴリデータが示すカテゴリ名「A社」、「B社」、「C社」、「D社」、「E社」を、「出願人別」カテゴリ1601の下位階層である「A社」カテゴリ1611、「B社」カテゴリ1612、「C社」カテゴリ1613、「D社」カテゴリ1614、「E社」カテゴリ1615として表示させる。
Further, the biaxial
同様に、2軸マップ表示部51は、カテゴリデータ320のカテゴリ番号321「C0002」が上位カテゴリに設定されているカテゴリデータを特定する。2軸マップ表示部51は、特定したカテゴリデータが示すカテゴリ名「2004年」、「2005年」、「2006年」、「2007年」、「2008年」を、「出願年別」カテゴリ1602の下位階層である「2004年」カテゴリ1621、「2005年」カテゴリ1622、「2006年」カテゴリ1623、「2007年」カテゴリ1624、「2008年」カテゴリ1625として表示させる。「A社」カテゴリ1611及び「2008年」カテゴリ1625はそれぞれ、図3に示すカテゴリデータ340、350に対応する。
そして、カテゴリデータ330のカテゴリ番号331「C0003」を上位カテゴリとするカテゴリデータがないため、2軸マップ表示部51は、「内容別」カテゴリ1603には下位カテゴリを表示させない。
Similarly, the biaxial
Since there is no category data having the
さらに、2軸マップ表示部51は、カテゴリ記憶部2に記憶されている各カテゴリのカテゴリデータ(または特徴語カテゴリデータ)から分類ルールを読み出す。2軸マップ表示部51は、読み出した分類ルールを用いて各カテゴリに分類された文書データ数をカウントし、そのカウント数を表示させる。なお、2軸マップ表示部51は、各カテゴリのカテゴリデータ(または特徴語カテゴリデータ)に、当該カテゴリに分類された文書データの文書番号を対応付けて記憶しておいてもよい。
Further, the biaxial
続いて、図19の表示を用いて横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatとを入力する方法の一例について説明する。
図20は、2軸マップ表示の実行画面の表示例を示す図であり、図19の表示を用いて横軸カテゴリxAxisCatと縦軸カテゴリyAxisCatを入力する場合の表示例を示す。まず、ユーザは2軸マップ表示部51が表示させたカテゴリ構造に対して、2軸マップにおいて横軸と縦軸にする2つのカテゴリを選択する。ここでは、ユーザは図20において「出願年別」カテゴリ1602と「内容別」カテゴリ1603を選択する。
Next, an example of a method for inputting the horizontal axis category xAxisCat and the vertical axis category yAxisCat will be described using the display of FIG.
FIG. 20 is a diagram illustrating a display example of the execution screen of the biaxial map display, and illustrates a display example when the horizontal axis category xAxisCat and the vertical axis category yAxisCat are input using the display of FIG. First, the user selects two categories for the horizontal axis and the vertical axis in the biaxial map for the category structure displayed by the biaxial
2軸マップ表示部51は、選択された2つのカテゴリの入力を受けると、これら2つのカテゴリのうち、いずれを分類観点である横軸カテゴリxAxisCatとするかを選択させる画面1710を表示させる。ユーザは、分類観点とするカテゴリのラジオボタン1711を選択して実行ボタン1712を押す。これにより、2軸マップ表示部51は、横軸カテゴリxAxisCatとして、ユーザが選択した「出願年別」カテゴリ1602の入力を受ける。縦軸カテゴリyAxisCatは、ユーザが選択しなかった「内容別」カテゴリ1603となる。
Upon receiving the input of the two selected categories, the biaxial
上記のようにして、2軸マップ表示部51は、ユーザが選択した横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatの入力を受ける。なお、本実施形態では、2軸マップへの入力方法として図19及び図20に示すようなGUIを使用した例を示したが、2軸マップを表示させる上で、カテゴリ記憶部2が記憶しているカテゴリデータまたは特徴語カテゴリデータが示すカテゴリのうちいずれを、横軸カテゴリxAxisCat、および縦軸カテゴリyAxisCatとするかを入力できればよい。そのため、GUIの使用に限らず、コンピュータシステムのコマンドラインからの入力としてもよい。
As described above, the biaxial
図8において、2軸マップ表示部51は、カテゴリ記憶部2に記憶されているカテゴリデータ及び特徴語カテゴリデータに基づいて、横軸カテゴリxAxisCatの子カテゴリの集合である横軸子カテゴリ集合xCatsと、縦軸カテゴリyAxisCatの子カテゴリの集合である縦軸子カテゴリ集合yCatsを取得する(ステップS1002)。なお、横軸カテゴリxAxisCatの子カテゴリを横軸子カテゴリxCatとし、縦軸カテゴリyAxisCatの子カテゴリを縦軸子カテゴリyCatとする。横軸子カテゴリxCatは、横軸カテゴリxAxisCatのカテゴリデータまたは特徴語カテゴリデータのカテゴリ番号が上位カテゴリに設定されているカテゴリデータまたは特徴語カテゴリデータに対応する。同様に、縦軸子カテゴリyCatは、縦軸カテゴリyAxisCatのカテゴリデータまたは特徴語カテゴリデータのカテゴリ番号が上位カテゴリに設定されているカテゴリデータまたは特徴語カテゴリデータに対応する。
In FIG. 8, the biaxial
図20に示す例の場合、2軸マップ表示部51は、横軸子カテゴリ集合xCatsとして、横軸カテゴリxAxisCatである「出願年別」カテゴリ1602の子カテゴリの集合{「2004年」カテゴリ1621、「2005年」カテゴリ1622、「2006年」カテゴリ1623、「2007年」カテゴリ1624、「2008年」カテゴリ1625}を取得する。横軸子カテゴリxCatは、「出願年別」カテゴリ1602に対応したカテゴリデータ320のカテゴリ番号321が、上位カテゴリに設定されているカテゴリデータに対応する。また、縦軸カテゴリyAxisCatである「内容別」カテゴリ1603は子カテゴリを持たないため、2軸マップ表示部51は、縦軸子カテゴリ集合yCatsとして空集合を取得する。つまり、「内容別」カテゴリ1603に対応したカテゴリデータ330のカテゴリ番号331が上位カテゴリに設定されているカテゴリデータや特徴語カテゴリデータは、カテゴリ記憶部2に記憶されていない。
In the case of the example illustrated in FIG. 20, the biaxial
2軸マップ表示部51は、縦軸カテゴリyAxisCatと、縦軸子カテゴリ集合yCatsに含まれる各縦軸子カテゴリyCatとを行とし、横軸子カテゴリ集合xCatsに含まれる各横軸子カテゴリxCatを列として2軸マップ初期テーブルを作成し、表示させる(ステップS1003)。
The biaxial
図21は、ステップS1003で作成される2軸マップ初期テーブル1800を示す。2軸マップ初期テーブル1800は、カテゴリを表示させるタイトル行及びタイトル列も含むため、行数が(1+縦軸カテゴリ数+縦軸子カテゴリ数)、列数が(1+横軸子カテゴリ数)のテーブルである。本実施形態では縦軸子カテゴリがないために行数が(1+縦軸カテゴリ数)となっている。同様に横軸子カテゴリがない場合、列数は(1+横軸カテゴリ数)となる。2軸マップ初期テーブル1800の1行目(セル1802を含む行)がタイトル行であり、1列目(セル1801を含む行)がタイトル列である。 FIG. 21 shows the biaxial map initial table 1800 created in step S1003. Since the biaxial map initial table 1800 also includes title rows and title columns for displaying categories, the number of rows is (1 + vertical category number + vertical child category number) and the number of columns is (1 + horizontal child category number). It is a table. In this embodiment, since there is no vertical axis child category, the number of rows is (1 + the number of vertical axis categories). Similarly, when there is no horizontal axis category, the number of columns is (1 + the number of horizontal axis categories). The first row (row including cell 1802) of the biaxial map initial table 1800 is a title row, and the first column (row including cell 1801) is a title column.
図8において、2軸マップ表示部51は、作成した2軸マップ初期テーブル1800における全てのセル(以下、「cell」と記載する)を1つずつ選択し、選択したcellについてステップS1005〜ステップS1010の処理を繰り返す(ステップS1004−NO)。
In FIG. 8, the biaxial
まず、2軸マップ表示部51は、cellが先頭行(1行目)もしくは先頭列(1列目)であるか否か判定する(ステップS1005)。cellが先頭行(1行目)もしくは先頭列(1列目)であると判定した場合(ステップS1005−YES)、2軸マップ表示部51は、ステップS1006〜ステップS1008の処理を行う。ステップS1006〜ステップS1008の処理では、先頭行や先頭列をテーブルのタイトル行もしくはタイトル列として、cellに対応するカテゴリのカテゴリ名とフィルタ語を表示させる。
First, the biaxial
すなわち、2軸マップ表示部51は、処理中のcellが先頭行もしくは先頭列の場合、当該cellに対応するカテゴリcat(縦軸カテゴリyAxisCat、縦軸子カテゴリyCat、または、横軸子カテゴリxCat)のカテゴリ名を表示させる(ステップS1006)。2軸マップ表示部51は、カテゴリ名を、cellに対応したカテゴリのカテゴリデータまたは特徴語カテゴリデータから読み出す。さらに、2軸マップ表示部51は、cellに対応するカテゴリcatがフィルタ語集合filtersを持つか否か判定する(ステップS1007)。具体的には、2軸マップ表示部51は、カテゴリcatが特徴語カテゴリデータに対応しており、かつ、フィルタ語が設定されているか否かによりフィルタ語集合filtersを持つか否かにより判定する。
That is, when the cell being processed is the first row or the first column, the biaxial
カテゴリcatがフィルタ語集合filtesを持つと判定した場合(ステップS1007−YES)、2軸マップ表示部51は、フィルタ語集合filtersに含まれるフィルタ語をcellに表示させる(ステップS1008)。このフィルタ語集合filtersは、cellに対応したカテゴリcatの特徴語カテゴリデータに設定されているフィルタ語の集合である。カテゴリcatがフィルタ語集合filtesを持たないと判定した場合(ステップS1007−NO)、あるいは、ステップS1008の処理の後、2軸マップ表示部51は、ステップS1004に戻り、未選択のcellを選択して処理を繰り返す。
When it is determined that the category cat has the filter word set filters (step S1007—YES), the biaxial
ステップS1005において、cellが先頭行(1行目)でも先頭列(1列目)でもないと判定した場合(ステップS1005−NO)、2軸マップ表示部51は、cellの行に対応する縦軸カテゴリyAxisCatまたは縦軸子カテゴリyCatと、cellの列に対応する横軸子カテゴリxCatとの両方に分類された文書データの数である文書数dnを求める(ステップS1009)。
When it is determined in step S1005 that the cell is neither the first row (first row) nor the first column (first column) (step S1005-NO), the biaxial
文書数dnは、文書データがXMLの場合は、XQueryにおいて、条件式の積を用いることで求めることができる。例えば、後述する図22のセル1803の場合、対応する縦軸カテゴリyAxisCat=「内容別」カテゴリの分類ルールと横軸子カテゴリxCat=「2004年」カテゴリの分類ルールとの論理積を満たす文書データの数をカウントする。
When the document data is XML, the document number dn can be obtained by using a product of conditional expressions in XQuery. For example, in the case of a
「内容別」カテゴリのカテゴリデータ330に設定されている分類ルール334は「true」であり、その上位カテゴリ「ルート」カテゴリデータ300に設定されている分類ルール304は「true」である。よって、縦軸カテゴリyAxisCat「内容別」カテゴリの分類ルールは、「(true) and (true)」である。
The
一方、「2004年」カテゴリのカテゴリデータに設定されている分類ルールは「./出願日>=”2004/01/01” and ./出願日<=”2004/12/31”」であり、その上位カテゴリ「ルート」のカテゴリデータ300に設定されている分類ルール304は「true」である。よって、横軸子カテゴリxCat「2004年」カテゴリの分類ルールは「(true) and (./出願日>=”2004/01/01” and ./出願日<=”2004/12/31”)」である。
On the other hand, the classification rule set in the category data of the “2004” category is “./application date> =” 2004/01/01 ”and ./application date <=“ 2004/12/31 ””, The classification rule 304 set in the
従って、2軸マップ表示部51は、縦軸カテゴリyAxisCat「内容別」カテゴリの分類ルールと横軸子カテゴリxCat「2004年」カテゴリの分類ルールとの論理積「{(true) and (true)} and {(true) and (./出願日>=”2004/01/01” and ./出願日<=”2004/12/31”)}」を満たす文書データの数をカウントし、文書数dnとする。文書数dnは、XQueryのcount()関数を利用することで算出することができる。
Accordingly, the biaxial
次に、2軸マップ表示部51は、ステップS1003において作成したテーブルのcellに、ステップS1009において算出した文書数dnに応じた大きさの円chartを表示させる(ステップS1010)。2軸マップ表示部51は、ステップS1004に戻り、未選択のcellを選択して処理を繰り返す。
Next, the biaxial
そして、2軸マップ表示部51は、2軸マップ初期テーブル1800における全てのcellに対してステップS1005〜ステップS1010の処理を終了すると(ステップS1004−YES)、図8の処理を終了する。
And the biaxial
図22は、上記の処理終了時に2軸マップ表示部51が表示させる2軸マップの初期表示例を示す図である。ここでは、「内容別」カテゴリの下位に特徴語カテゴリが生成されていない初期状態の2軸マップのため、同図に示すように、縦軸の1列目には「内容別」カテゴリのみが表示されている。
FIG. 22 is a diagram illustrating an initial display example of the biaxial map displayed by the biaxial
図9は、カテゴリ操作部52が実行する2軸マップ上のカテゴリ操作に対する処理の流れを示すフローチャートである。同図に示す処理により、カテゴリ操作部52は、図7のステップS2〜ステップS11の処理の流れを制御する。ユーザは、カテゴリ操作部52を介して対象カテゴリを入力することによって、特徴語クラスタリングの実行を要求する。例えば、カテゴリ操作部52は、2軸マップ表示部51が図9の初期2軸マップ表示処理により表示させた初期2軸マップ上でユーザからの特徴語クラスタリングの実行要求を受け付ける。また、カテゴリ操作部52は、特徴語クラスタリングにより生成された特徴語カテゴリの選択を受ける。カテゴリ操作部52は、選択された特徴語カテゴリにフィルタ語として用いられている特徴語を表示させ(例えば、後述する図27の特徴語追加画面2310)、ユーザから特徴語カテゴリに対するフィルタ語の追加・削除といった編集操作を受け付ける。カテゴリ操作部52は、受け付けた編集操作に応じてカテゴリ記憶部2に記憶された特徴語カテゴリのカテゴリデータを更新する。
FIG. 9 is a flowchart showing a flow of processing for category operations on the biaxial map executed by the
そこで、カテゴリ操作部52は、2軸マップにおいてユーザが選択したカテゴリcatの入力を受けた場合(ステップS1101−YES)、さらに、ユーザからの特徴語クラスタリングの実行要求の入力を受けたか(ステップS1102)、フィルタ語の追加要求の入力を受けたか(ステップS1105)、あるいは、フィルタ語の削除要求の入力を受けたか(ステップS1111)に応じて、それぞれの処理を行う。以下、図9の処理を詳細に説明する。
Therefore, when the
まず、カテゴリ操作部52は、ユーザが選択したカテゴリcatの入力を受ける(ステップS1101−YES)。
図23は、特徴語クラスタリングの実行要求画面及び着目語の設定画面の表示例を示す図である。ここでは、ユーザは、2軸マップ表示部51が初期2軸マップ表示処理において図22のように表示させた2軸マップ初期テーブル上で、クラスタリングの対象カテゴリを選択している。同図では、ユーザは、セル1801を選択することにより、縦軸カテゴリである「内容別」カテゴリを対象カテゴリとして選択している。これにより、カテゴリ操作部52は、カテゴリcatとして、ユーザが選択した「内容別」カテゴリの入力を受ける。さらに、カテゴリ操作部52は、ユーザから特徴語クラスタリングの実行要求の入力を受けると、特徴語クラスタリングの実行確認画面1930を表示させる。
First, the
FIG. 23 is a diagram illustrating a display example of a feature word clustering execution request screen and a focused word setting screen. Here, the user has selected the clustering target category on the biaxial map initial table displayed by the biaxial
図9において、カテゴリ操作部52は、ユーザが実行確認画面1930の「実行」ボタン1931を選択した旨の入力を受けると(ステップS1102−YES)、ステップS1103の処理を行う。つまり、カテゴリ操作部52は、対象カテゴリとして入力されたカテゴリcatと、2軸マップにおいて対象カテゴリとして入力されなかった他の軸の子カテゴリの集合である軸カテゴリ集合を文書分類部3に出力し、特徴語クラスタリングの実行を指示する(ステップS1103)。本実施形態では、対象カテゴリとして縦軸カテゴリが入力されるため、カテゴリ操作部52は、軸カテゴリ集合として、横軸子カテゴリxCatの集合である横軸子カテゴリ集合xCatsを文書分類部3に出力する。横軸子カテゴリ集合xCatsは、分類における観点とする軸カテゴリ集合である。図23に示すように、ユーザが「内容別」カテゴリを選択し、特徴語クラスタリングの実行を選択した場合、カテゴリ操作部52は、文書分類部3にカテゴリcatとして「内容別」カテゴリを出力し、横軸子カテゴリ集合xCatsとして{「2004年」カテゴリ、「2005年」カテゴリ、「2006年」カテゴリ、「2007年」カテゴリ、「2008年」カテゴリ}を出力する。ステップS1101〜ステップS1103の処理は、図7におけるステップS2のカテゴリ操作処理に相当する。
In FIG. 9, upon receiving an input indicating that the user has selected the “execute”
ステップS1103においてカテゴリcatと横軸子カテゴリ集合xCatsの入力を受けた文書分類部3が、特徴語クラスタリングを実行し、図7におけるステップS3〜ステップS8までの処理を終了する。カテゴリ操作部52は、現在の2軸マップの横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatを2軸マップ表示部51に出力し、2軸マップの表示を更新する(ステップS1104)。例えば、図23に示すように、ユーザがセル1801を選択し、特徴語クラスタリングの実行要求を入力した場合、横軸カテゴリxAxisCatは「出願年別」カテゴリであり、縦軸カテゴリyAxisCatは「内容別」カテゴリである。これにより、文書分類部3による特徴語クラスタリングの結果を2軸マップに反映する。ステップS1104の処理は、図7におけるステップS9の処理に相当する。カテゴリ操作部52は、ステップS1101からの処理を繰り返す。
The
そして、カテゴリ操作部52は、ユーザにより選択されたカテゴリcatの入力を受け(ステップS1101−YES)、さらに、フィルタ語の追加要求の入力を受けた場合は(ステップS1102−NO、ステップS1105−YES)、ステップS1106〜ステップS1110の処理を行い、フィルタ語の削除要求の入力を受けた場合は(ステップS1102、ステップS1105−NO、ステップS1111−YES)、ステップS1112の処理を行う。カテゴリ操作部52は、ステップS1110またはステップS1112の処理の終了後、表示させている2軸マップの横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatを2軸マップ表示部51に出力し、2軸マップの表示を更新する(ステップS1104)。ステップS1105〜ステップS1112の処理は、図7におけるステップS10の処理に相当し、その後のステップS1104の処理は、図7におけるステップS11の処理に相当する。カテゴリ操作部52は、ステップS1101からの処理を繰り返す。これらの処理の詳細については、後述する。
Then, the
カテゴリ操作部52は、カテゴリの選択が入力されない場合(ステップS1101−NO)、あるいは、カテゴリの選択が入力された後(ステップS1101−YES)、ユーザから特徴語クラスタリングの実行要求、フィルタ語の追加要求、フィルタ語の削除要求、終了要求のいずれも入力されない場合は(ステップS1102、ステップS1105、ステップS1111、ステップS1113−NO)、ステップS1101からの処理を繰り返し、終了要求が入力された場合は(ステップS1102、ステップS1105、ステップS1111−NO、ステップS1113−YES)、処理を終了する。
When category selection is not input (step S1101-NO), or after category selection is input (step S1101-YES), the
続いて、図7のステップS3〜ステップS9の処理の詳細について説明する。この処理は、図9のステップS1103〜ステップS1104の処理に相当する。 Next, details of the processing in steps S3 to S9 in FIG. 7 will be described. This processing corresponds to the processing in steps S1103 to S1104 in FIG.
図10は、特徴度算出部31が特徴度を算出する処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS3における特徴度算出処理の詳細な処理の一例である。この処理において、特徴度算出部31は、文書記憶部1に記憶されている対象文書データ集合のテキスト情報を形態素解析して単語を抽出し、抽出した単語について算出した特徴度を設定した特徴度データを特徴度データ記憶部4に記憶する。
FIG. 10 is a flowchart showing a flow of processing in which the
まず、文書分類部3は、ユーザインターフェース部5のカテゴリ操作部52から分類の対象カテゴリtgtCatを受信する(ステップS1201)。つまり、文書分類部3は、図9のステップS1103においてカテゴリ操作部52が出力したカテゴリcatを対象カテゴリtgtCatとして受信する。例えば、図23に示すように、ユーザが、セル1801を選択し、特徴語クラスタリングの実行要求を入力した場合、対象カテゴリtgtCatは「内容別」カテゴリとなる。
First, the
特徴度算出部31は、対象カテゴリtgtCatに分類された文書データ集合tgtDocsを取得する。具体的には、特徴度算出部31は、カテゴリ記憶部2を参照し、対象カテゴリtgtCatに対応したカテゴリデータと、そのカテゴリデータの上位カテゴリデータとから分類ルールを読み出す。特徴度算出部31は、文書記憶部1に記憶される文書データの中から、読み出した分類ルールを全て満たす文書データdを選択し、選択した文書データdからなる集合を文書データ集合tgtDocsとする。特徴度算出部31は、文書データ集合tgtDocsに含まれる全ての文書データdから分析対象とするテキスト情報を取得する(ステップS1202)。本実施形態では、文書記憶部1に記憶されている文書データは、図2に示す文書データ200aまたは200bと同様のデータ形式であり、分析対象とするテキスト情報は、本文205とする。
The feature
特徴度算出部31は、ステップS1202において取得したテキスト情報である本文205を形態素解析する(ステップS1203)。特徴度算出部31は、形態素解析の結果得られた全ての単語(形態素)tを1つずつ選択し、選択した単語tについてステップS1205〜ステップS1209の処理を行う(ステップS1204−NO)。
The
特徴度算出部31は、単語tの品詞が、単語ベクトルに含めるべき所定の品詞の単語であり、かつ、不要語ではないか否かを判定する(ステップS1205)。例えば、特徴度算出部31は、単語tの品詞が名詞やサ変名詞、固有名詞などである単語は単語ベクトルに含め、接続詞や副詞などは特徴ベクトルに含めないといった単語の選別を行う。また、特徴度算出部31は、あらかじめ文書データの特徴を示さない単語として登録された不要語と単語tを比較する。例えば、特許文書を処理対象とする場合には、「装置」、「手段」といった単語は文書の特徴を表さないため、不要語とする。選択した単語tの品詞が、単語ベクトルに含めるべき所定の品詞の単語でない、もしくは、不要語であると判定した場合(ステップS1205−NO)、特徴度算出部31は、ステップS1204に戻り、未選択の単語tを選択して処理を繰り返す。
The feature
一方、選択した単語tの品詞が、単語ベクトルに含めるべき所定の品詞の単語であり、かつ、不要語でないと判定した場合(ステップS1205−YES)、特徴度算出部31は、ステップS1202において取得した文書データ集合tgtDocsのテキスト情報に単語tが出現する数である出現頻度tfを算出する(ステップS1206)。さらに、特徴度算出部31は、文書データ集合tgtDocsに含まれる文書データのうち、テキスト情報(本文205)に単語tが出現する文書データの数である文書頻度dfを算出する(ステップS1207)。特徴度算出部31は、単語tの特徴度s(t)を以下の計算式(1)に基づいて算出する(ステップS1208)。
On the other hand, if it is determined that the part of speech of the selected word t is a word of a predetermined part of speech to be included in the word vector and is not an unnecessary word (step S1205—YES), the
s(t)=tf×(log(|tgtDocs|/df)+1) …(1) s (t) = tf × (log (| tgtDocs | / df) +1) (1)
計算式(1)において、|tgtDocs|は、対象文書データ集合tgtDocsに含まれる文書データdの数(文書数)である。この計算式は一般にTF・IDFと呼ばれ、従来から情報検索や文書分類の分野で広く使用されている。すなわち、単語tが文書データdに出現する頻度が多い(tfが大きい)ほど、もしくは、全文書データのうち単語tを含む文書が少ない(dfが小さい)ほど、当該単語tは文書データdの特徴をよく表す単語であるとみなされる。本発明では、このTF・IDFを対象文書データ集合について、単語の特徴度を算出するために用いる。 In the calculation formula (1), | tgtDocs | is the number of document data d (number of documents) included in the target document data set tgtDocs. This calculation formula is generally called TF / IDF and has been widely used in the fields of information retrieval and document classification. That is, the more frequently the word t appears in the document data d (tf is larger), or the fewer the documents that include the word t (all df is smaller) of all document data, the more the word t is in the document data d. It is considered to be a word that well describes the feature. In the present invention, this TF / IDF is used to calculate the word feature degree for the target document data set.
特徴度算出部31は、単語tと、当該単語tについて算出した文書頻度df及び特徴度s(t)とをそれぞれ、単語510、文書頻度501、及び特徴度502に設定した特徴度データを生成し、特徴度データ記憶部4に記憶する(ステップS1209)。特徴度算出部31は、ステップS1204に戻り、未選択の単語tを選択して処理を繰り返す。
そして、形態素解析の結果得られた全ての単語tについてステップS1205〜ステップS1209の処理を行ったと判定した場合(ステップS1204−YES)、特徴度算出部31は、処理を終了する。
The
And when it determines with having processed the process of step S1205-step S1209 about all the words t obtained as a result of the morphological analysis (step S1204-YES), the characteristic
図11は、着目語設定部53が着目語を設定する処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS4における着目語設定処理の詳細な処理の一例を示す。この処理において、着目語設定部53は、特徴語カテゴリを分類するにあたり、着目する複数の単語を着目語としてユーザから受け付けて、文書分類部3に出力する。
FIG. 11 is a flowchart showing a flow of processing in which the attention
まず、着目語設定部53は、例えば、図23に示すように、ユーザが着目語を設定するための着目語設定フォーム1910を表示させる(ステップS1301)。着目語設定フォーム1910には、着目語入力フィールド1911と、着目語リストデータ600の内容の一覧が表示された着目語リスト1913とが含まれる。さらに、着目語設定フォーム1910は、着目語入力フィールド1911に入力された文字列を着目語リストに追加するための「リストに追加」ボタン1912、着目語リスト1913において選択した単語を着目語に設定するための「着目語に設定」ボタン1914、及び、着目語の設定操作をキャンセルするための「キャンセル」ボタン1915を含む。
First, for example, as shown in FIG. 23, the attention
着目語リストデータ600の着目語候補601には、2軸マップ上でユーザが着目語として選択したフィルタ語、もしくは、着目語入力フィールド1911にユーザが入力した文字列のリストが設定される。ただし、着目語リストデータ600の初期値は空のリストである。なお、着目語設定部53は、特徴度データ記憶部4に記憶されている特徴度データに設定された単語のリストを初期値として着目語候補601に設定してもよい。この場合、着目語設定602の初期値は全て「0」としてもよく、全て「1」としてもよい。
In the
着目語リスト1913には、着目語候補601として登録されている単語の前に、実際に着目語とするか否かを示すチェックボックスが表示されている。着目語設定部53は、着目語設定フォーム1910が初期表示される場合、着目語リストデータ600の着目語設定602に「1」が設定されている着目語候補601に対応するチェックボックスにデフォルトでチェックを設定して表示させる。
In the
次に、図11において、着目語設定部53は、ユーザから着目語の入力または着目語の選択を受け付ける(ステップS1302)。ここで、ユーザは、着目語設定フォーム1910の着目語リスト1913に表示されている着目語候補の中から実際に着目語として使用する単語を選択する(チェックボックスにチェックをつける)こともできるし、着目する単語が着目語リスト1913にない場合は直接その単語(文字列)を着目語入力フィールド1911により入力することもできる。
Next, in FIG. 11, the attention
着目語設定部53は、ユーザからの着目語の追加要求を受けた場合、つまり、ユーザが着目語入力フィールド1911に文字列を入力して、「リストに追加」ボタン1912を選択した場合(ステップS1303−YES)、着目語入力フィールド1911に入力された文字列を着目語リスト1913に追加表示させ(ステップS1304)、ステップS1302の処理に遷移する。ユーザからのリストへの着目語の追加要求がない場合、着目語設定部53は、ステップS1305の処理に遷移する(ステップS1303−NO)。
When the focused
リストへの着目語の追加要求がなく(ステップS1303−NO)、かつ、ユーザからの着目語の設定要求を受けた場合、つまり、ユーザが「着目語に設定」ボタン1914を選択した場合、着目語設定部53は、ステップS1306とステップS1307の処理を行う(ステップS1305−[着目語の設定])。
すなわち、着目語設定部53は、着目語リスト1913の内容を着目語リストデータ600として記憶する(ステップS1306)。具体的には、着目語設定部53は、着目語リスト1913に含まれる単語を着目語候補601に設定する。このとき、着目語設定部53は、着目語リスト1913でユーザによってチェックボックスにチェックがつけられた単語には、着目語設定602にフラグを立て(本実施例では「1」)、チェックされなかった単語については、フラグを立てずに(本実施例では「0」)、着目語リストデータ600に格納する。着目語設定部53は、ステップS1306において更新した着目語リストデータ600において、着目語設定602にフラグが立っている着目語候補601に設定された単語を読み出す。着目語設定部53は、読み出した単語の集合を着目語集合として、文書分類部3に出力し(ステップS1307)、図11の着目語設定処理を終了する。
When there is no request for adding a focused word to the list (step S1303-NO), and when a setting request for the focused word is received from the user, that is, when the user selects the “set as focused word”
That is, the attention
なお、ステップS1305において、着目語の設定要求またはキャンセル要求のいずれも入力されない場合、着目語設定部53は、ステップS1302の処理に遷移する(ステップS1305−[要求なし])。あるいは、ステップS1305において、キャンセル要求があった場合、つまり、ユーザが「キャンセル」ボタン1915を選択した場合、着目語設定部53は、図11の着目語設定処理を終了する(ステップS1305−[キャンセル])。
If neither the attention word setting request nor the cancellation request is input in step S1305, the attention
図12は、特徴度補正部32が補正特徴度を求める処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS5における特徴度補正処理の詳細な処理の一例を示す。この処理において、特徴度補正部32は、ユーザインターフェース部5の着目語設定部53から着目語集合を受信し、特徴度データ記憶部4に記憶された特徴度データに補正特徴度を設定する。
FIG. 12 is a flowchart showing a flow of processing in which the
最初に、特徴度補正部32は、ユーザインターフェース部5の着目語設定部53を介してユーザが指定した着目語atの集合である着目語集合atsを受信する(ステップS1401)。具体的には、特徴度補正部32は、図11のステップS1307において着目語設定部53が出力した着目語集合を受信し、着目語集合atsとする。このユーザによる着目語集合atsの入力は、図9のステップS1103における対象カテゴリ(カテゴリcat)の入力と同時でもよいし、別のタイミングで行われてもよい。
First, the
特徴度補正部32は、受信した着目語集合ats中の全ての着目語atを1つずつ選択し、ステップS1403の処理を繰り返す(ステップS1402−NO)。すなわち、特徴度補正部32は、着目語atに対応する特徴度データを取得する特徴度データ取得処理を行う(ステップS1403)。この処理により、特徴度補正部32は、特徴度データ記憶部4に着目語atの特徴度データが登録されている場合にはそれを取得し、登録されていない場合は着目語atの特徴度データを生成して特徴度データ記憶部4に登録する。特徴度データが登録されていない着目語atは、例えば、図10に示す特徴度算出処理において形態素解析により取得されなかった複合語などの単語である。特徴度データ取得処理の詳細については後述する図13のフローチャートにおいて説明する。
The
着目語集合ats中の全ての着目語atについて特徴度データ取得処理が終了すると(ステップS1402−YES)、特徴度補正部32は、特徴度データ記憶部4に特徴度データが登録されている全ての単語tの中から1つずつ選択し、選択した単語tについて以下のステップS1405〜ステップS1410の処理を繰り返す(ステップS1404−NO)。
When the feature degree data acquisition processing is completed for all the attention words at in the attention word set ats (step S1402-YES), the feature
まず、特徴度補正部32は、特徴度データ記憶部4から単語tに対応する特徴度データkdを取得する特徴度データ取得処理を行う(ステップS1405)。特徴度データ取得処理の詳細については後述する図13のフローチャートにおいて説明する。特徴度補正部32は、ステップS1405において取得した特徴度データkdから特徴度s(t)を取得し、以下の計算式(2)のように、単語tの補正特徴度ms(t)の初期値とする(ステップS1406)。
First, the
ms(t)=s(t) …(2) ms (t) = s (t) (2)
続いて、特徴度補正部32は、着目語集合atsに含まれる全ての着目語atを1つずつ選択し、選択した着目語atについて、ステップS1408とステップS1409の処理を繰り返す(ステップS1407−NO)。
まず、特徴度補正部32は、対象カテゴリに分類された文書データ集合tgtDocsにおける単語tと着目語atとの共起度co(t,at)を算出する(ステップS1408)。文書データ集合tgtDocsは、図10のステップS1202と同様の処理により取得するか、図10のステップS1202において特徴度算出部31が取得したものを用いることができる。ここで、文書データ集合tgtDocsにおける単語tと着目語atとの共起度co(t,at)は、以下の計算式(3)〜(7)のいずれかによって算出される値である。
Subsequently, the
First, the
共起数=|t∩at| …(3)
Dice係数D=|t∩at|/(|t|+|at|) …(4)
Jaccard係数J=|t∩at|/|t∪at| …(5)
Simpson係数S=|t∩at|/min(t,at) …(6)
Cosine係数C=|t∩at|/sqrt(|t|×|at|) …(7)
Number of co-occurrence = | t∩at | (3)
Dice coefficient D = | t∩at | / (| t | + | at |) (4)
Jaccard coefficient J = | t∩at | / | t∪at | (5)
Simpson coefficient S = | t∩at | / min (t, at) (6)
Cosine coefficient C = | t∩at | / sqrt (| t | × | at |) (7)
上記では、文書データ集合tgtDocsにおいて、テキスト情報に単語tを含んだ文書データdの数(以下、「生起数」という)を|t|とし、文書データ集合tgtDocsにおける着目語atの生起数を|at|とする。また、文書データ集合tgtDocsにおいて、単語tと着目語atをともにテキスト情報に含んだ文書データdの数(以下、「共起数」という)を|t∩at|とし、単語tと着目語atのうち少なくとも1つをテキスト情報に含んだ文書データdの数を|t∪at|とする。また、min(t,at)は、単語tの生起数と着目語atの生起数のうち少ないほうを示し、sqrtは平方根を求めることを示す。 In the above description, in the document data set tgtDocs, the number of document data d including the word t in the text information (hereinafter referred to as “occurrence number”) is | t |, and the occurrence number of the attention word at in the document data set tgtDocs is | At | In the document data set tgtDocs, the number of document data d including both the word t and the attention word at in the text information (hereinafter referred to as “co-occurrence number”) is | t∩at |, and the word t and the attention word at. Let | t | at | be the number of document data d that includes at least one of them in the text information. Min (t, at) indicates the smaller of the number of occurrences of the word t and the number of occurrences of the attention word at, and sqrt indicates that the square root is obtained.
特徴度補正部32は、ステップS1408において算出した単語tと着目語atとの共起度co(t,at)を用いて、以下の計算式(8)に基づいて、補正特徴度ms(t)を更新する(ステップS1409)。
The
ms(t)=ms(t)×co(t,at)・・・(8) ms (t) = ms (t) × co (t, at) (8)
ステップS1409の処理の後、特徴度補正部32は、ステップS1407からの処理に戻り、着目語集合ats中の未選択の着目語atを選択して処理を繰り返す。そして、全ての着目語atについてステップS1408及びステップS1409の繰り返し処理が終了すると(ステップS1407−YES)、特徴度補正部32は、ステップS1405において取得した特徴度データkdの補正特徴度503に補正特徴度ms(t)を挿入する。特徴度補正部32は、特徴度データ記憶部4に現在記憶されている単語tの特徴度データを、補正特徴度503を設定した特徴度データkdにより更新する(ステップS1410)。
After the process of step S1409, the
ステップS1410の後、特徴度補正部32はステップS1404に戻り、未選択の単語tを選択して処理を繰り返す。全ての単語tについてステップS1405〜ステップS1410の処理が終了すると(ステップS1404−YES)、特徴度補正部32は特徴度補正処理を終了する。
After step S1410, the
上記においては、特徴度補正部32は、着目語設定部53から着目語集合を受信して上記の特徴度補正処理を行っているが、着目語設定部53に着目語が1つ入力されるたびにその着目語を受信することにより、上記の特徴度補正処理を逐次実行してもよい。
In the above, the
図13は、特徴度補正部32が特徴度データを取得する処理の流れを示すフローチャートである。同図に示すフローチャートは、図12のステップS1403及びステップS1405における特徴度データ取得処理の一例を示す。この処理において、特徴度補正部32は、特徴度データ記憶部4から所定の単語kの特徴度データを取得する。単語kは、ステップS1403の処理の場合は着目語atであり、ステップS1405の処理の場合は、単語tである。
FIG. 13 is a flowchart showing a flow of processing in which the
特徴度補正部32は、単語kの特徴度データ取得要求を受信すると(ステップS1501)、特徴度データ記憶部4に単語kの特徴度データが存在するか否かを判定する(ステップS1502)。特徴度データ記憶部4に単語kに対する特徴度データが記憶されていないと判定した場合(ステップS1502−NO)、特徴度補正部32は、以下のステップS1503〜ステップS1507の処理を行い、単語kに対する特徴度データkdを生成する。
When the
ステップS1503〜ステップS1507は、特徴度算出部31による形態素解析では得られなかった単語を特徴語カテゴリの生成に利用するための処理である。形態素解析によって抽出される(対象とする品詞かつ不要語でない)単語tであれば、その単語tに対する特徴度データは、図10示す特徴度算出部31の処理において生成される。しかし、ユーザインターフェース部5の着目語設定部53においてユーザは任意の文字列を着目語atとして設定できる。このとき、ユーザが指定する着目語atは、形態素解析によって抽出される単語tに含まれるとは限らない。例えば、ユーザが”内部統制”という文字列を着目語atとして設定した場合、特徴度算出部31が抽出した形態素が”内部”と”統制”であれば、この2つの単語に対応する特徴度データは生成されているが、”内部統制”という単語としては、特徴度データは生成されない。このような問題は、特に”内部統制”のように複数の単語を1つの単語として扱う複合語において生じる。ステップS1503〜ステップS1507の処理は、この問題に対処するための処理である。
Steps S <b> 1503 to S <b> 1507 are processes for using words that are not obtained by morphological analysis by the
具体的には、特徴度補正部32は、対象カテゴリに分類された文書データ集合tgtDocsの中に含まれる全ての文書データdのテキスト情報(本文205)において単語kが出現する数である出現頻度kfを算出する(ステップS1503)。文書データ集合tgtDocsは、図10のステップS1202と同様の処理により取得するか、図10のステップS1202において特徴度算出部31が取得したものを用いることができる。ここで、単語kは上述の通り形態素解析によって抽出されない単語であるため、特徴度補正部32は、形態素解析結果から出現頻度をカウントするのではなく、文字列検索などを使ってカウントする。
Specifically, the
次に、特徴度補正部32は文書データ集合tgtDocsの中で単語kがテキストデータ(本文205)に出現する文書データdの数である文書頻度dfを算出する(ステップS1504)。特徴度補正部32は、ステップS1209における計算式(1)と同様の以下の計算式(9)を用いて単語kの特徴度s(k)を算出する(ステップS1505)。
Next, the
s(k)=kf×(log(|tgtDocs|/df)+1) …(9) s (k) = kf × (log (| tgtDocs | / df) +1) (9)
特徴度補正部32は、単語kと、算出した文書頻度df及び特徴度s(k)とをそれぞれ、単語510、文書頻度501、及び特徴度502に設定した特徴度データkdを生成し(ステップS1506)、特徴度データ記憶部4に格納する(ステップS1507)。特徴度補正部32は、生成した特徴度データkdを特徴度データ取得要求元に出力する(ステップS1509)。
The
一方、ステップS1502において、単語kの特徴度データが特徴度データ記憶部4に記憶されていると判定した場合(ステップS1502−YES)、特徴度補正部32は、特徴度データ記憶部4から単語kの特徴度データkdを取得する(ステップS1508)。特徴度補正部32は、取得した特徴度データkdを特徴度データ取得要求元に出力する(ステップS1509)。
On the other hand, if it is determined in step S1502 that the feature data of the word k is stored in the feature data storage unit 4 (YES in step S1502), the
図12及び図13の処理により、図7に示す特徴度補正処理(ステップS5)が終了すると、特徴語カテゴリ生成部33において、傾向ベクトル生成部34が、傾向ベクトル生成処理を行い(ステップS6)、クラスタリング部35はクラスタリング処理を行い(ステップS7)、カテゴリ生成処理部36が特徴語カテゴリ生成処理を行う(ステップS8)。このように、ステップS6〜ステップS8において、特徴語カテゴリ生成部33は、特徴度データ記憶部4に記憶されている特徴度データを用いて、軸カテゴリ集合に対して出現傾向の類似した特徴語のグループに基づく特徴語カテゴリを生成する。
When the feature correction processing (step S5) shown in FIG. 7 is completed by the processing of FIG. 12 and FIG. 13, in the feature word
図14は、特徴語カテゴリ生成部33の傾向ベクトル生成部34が傾向ベクトルを求める処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS6における傾向ベクトル生成処理の詳細な処理の一例を示す。この処理において、傾向ベクトル生成部34は、特徴度データ記憶部4に記憶されている特徴度データに基づいて特徴語集合を抽出し、抽出された特徴語集合に含まれる各特徴語について傾向ベクトルを生成して特徴度データ記憶部4に記憶する。
FIG. 14 is a flowchart showing a flow of processing in which the trend
最初に、傾向ベクトル生成部34は、空の特徴語リストtlを生成する(ステップS1601)。傾向ベクトル生成部34は、特徴度データ記憶部4に特徴度データが格納されている全ての単語tを1つずつ選択し、選択した単語tについてステップS1603〜ステップS1605の処理を行う(ステップS1602−NO)。ステップS1603〜ステップS1605において、傾向ベクトル生成部34は、特徴語を抽出し、抽出した特徴語の集合を特徴語リストtlに格納する。
First, the trend
具体的には、傾向ベクトル生成部34は、特徴度データ記憶部4に記憶されている単語tの特徴度データを読み出し、読み出した特徴度データから補正特徴度503に設定されている補正特徴度ms(t)を取得する(ステップS1603)。取得した補正特徴度ms(t)があらかじめ設定された一定のしきい値minmsより大きい(minms<ms(t))場合(ステップS1604−YES)、傾向ベクトル生成部34は、当該単語tを特徴語リストtlに追加する(ステップS1605)。取得した補正特徴度ms(t)がしきい値minms以下(minms≧ms(t))の場合(ステップS1604−NO)、あるいは、ステップS1605の処理の後、傾向ベクトル生成部34は、ステップS1602に戻り、未選択の単語tを選択して処理を繰り返す。
Specifically, the trend
ここで、しきい値minmsは、単語tに対する補正特徴度ms(t)の最小値であり、システム側で事前に設定する値である。このしきい値minmsによって、特徴語が抽出される。ただし、本実施形態ではしきい値を補正特徴度ms(t)の最小値として設定したが、これに限らず、傾向ベクトル生成部34は、ms(t)が上位から所定個の単語tを特徴語とするという個数指定により特徴語を抽出してもよい。 Here, the threshold value minms is the minimum value of the correction feature degree ms (t) for the word t, and is a value set in advance on the system side. Feature words are extracted based on the threshold value minms. However, in the present embodiment, the threshold value is set as the minimum value of the corrected feature value ms (t). However, the present invention is not limited to this. Feature words may be extracted by specifying the number of feature words.
特徴度データ記憶部4に特徴度データが格納されている全て単語tについて繰り返し処理を終了すると(ステップS1602−YES)、傾向ベクトル生成部34は、特徴語リストtlに含まれる全ての特徴語tを1つずつ選択し、選択した特徴語tについて、ステップS1607〜ステップS1612の処理を繰り返す(ステップS1606−NO)。
When the iterative process is completed for all the words t for which the feature degree data is stored in the feature degree data storage unit 4 (step S1602-YES), the tendency
まず、傾向ベクトル生成部34は、特徴度データ記憶部4から特徴語tの特徴度データkdを取得する(ステップS1607)。さらに、傾向ベクトル生成部34は、カテゴリ操作部52から入力された横軸子カテゴリ集合xCatsに含まれるカテゴリ数(横軸子カテゴリxCatの数)と同じ次元数の頻度ベクトルvcfと傾向ベクトルvptnを生成する(ステップS1608)。頻度ベクトルvcf及び傾向ベクトルvptnの各要素は横軸子カテゴリxCatに対応する。
First, the trend
傾向ベクトル生成部34は、横軸子カテゴリ集合xCatsに含まれる全ての横軸子カテゴリxCatを1つずつ選択し、選択した横軸子カテゴリxCatについてステップS1610、及びステップS1611の処理を繰り返す(ステップS1609−NO)。
つまり、傾向ベクトル生成部34は、対象カテゴリtgtCatと横軸子カテゴリxCatに共通して含まれる文書データ集合について、特徴語tがテキスト情報(本文205)に出現する文書データの数(以下、「カテゴリ内頻度」という)cfを算出する(ステップS1610)。対象カテゴリtgtCatと横軸子カテゴリxCatに共通して含まれる文書データ集合は、対象カテゴリtgtCatの分類ルールと横軸子カテゴリxCatの分類ルールとの論理積を満たす文書データであり、図8のステップS1009と同様の処理により得られる。傾向ベクトル生成部34は、特徴度データkdから特徴語tの文書頻度dfとして文書頻度501を取得する。傾向ベクトル生成部34は、頻度ベクトルvcfの横軸子カテゴリxCatに対応した要素の値を、ステップS1610において算出したカテゴリ内頻度cfとし、傾向ベクトルvptnの横軸子カテゴリxCatに対応した要素の値を、cf/(df+1)とする(ステップS1611)。傾向ベクトル生成部34は、ステップS1609に戻り、未選択の横軸子カテゴリxCatを選択して処理を繰り返す。
The trend
In other words, the trend
傾向ベクトル生成部34は、全ての横軸子カテゴリxCatについてステップS1609〜ステップS1611の処理を行ったと判定した場合(ステップS1609−YES)、各横軸子カテゴリxCatについてステップS1611で算出した要素を並べた頻度ベクトルvcfと傾向ベクトルvptnを、特徴度データkdの軸カテゴリ(カテゴリ番号)に対する頻度ベクトル/傾向ベクトル504に格納する。傾向ベクトル生成部34は、特徴度データ記憶部4に現在記憶されている特徴語tの特徴度データを、頻度ベクトルvcfと傾向ベクトルvptnを格納した特徴度データkdにより更新する(ステップS1612)。その後、傾向ベクトル生成部34は、ステップS1606に戻り、未選択の特徴語tを選択して処理を繰り返す。
そして、ステップS1606において、特徴語リストtlに含まれる全ての単語(特徴語)tについて、ステップS1607〜ステップS1612の処理を行ったと判定した場合(ステップS1606−YES)、傾向ベクトル生成部34は傾向ベクトル生成処理を終了する。
When the trend
If it is determined in step S1606 that the processing of steps S1607 to S1612 has been performed for all words (feature words) t included in the feature word list tl (YES in step S1606), the tendency
なお、本実施形態においては、傾向ベクトルの要素の値をcf/(df+1)、つまり対象カテゴリtgtCatに対する横軸子カテゴリxCatでの単語tの「出現割合」としたが、単純に文書頻度(df)やカテゴリ内頻度(cf)としてもよい。もしくは以下のような自己相互情報量やイエーツ補正χ2乗値といった統計量に基づく値でもよい。統計量は従来の技術で算出される。傾向ベクトルの要素の値は、クラスタリング処理において各特徴語の重みづけとなり、クラスタリング結果に反映される。 In this embodiment, the value of the element of the trend vector is cf / (df + 1), that is, the “appearance ratio” of the word t in the horizontal axis category xCat with respect to the target category tgtCat, but the document frequency (df ) Or in-category frequency (cf). Alternatively, values based on statistics such as the following self-mutual information amount and Yates correction χ square value may be used. Statistics are calculated by conventional techniques. The value of the element of the trend vector becomes a weight of each feature word in the clustering process and is reflected in the clustering result.
自己相互情報量PMIは以下の計算式(10)で算出される。 The self mutual information PMI is calculated by the following calculation formula (10).
自己相互情報量PMI=log(an/((a+b)(a+c))) …(10) Self mutual information PMI = log (an / ((a + b) (a + c))) (10)
また、イエーツ補正χ2乗値Yatesは以下の計算式(11)で算出される。 The Yates correction χ square value Yates is calculated by the following calculation formula (11).
Yates’=n(|ad−bc|−n/2)^2/((a+b)(c+d)(a+c)(b+d))
if((ad−bd)<0) Yates=−Yates’
else Yates=Yates’ …(11)
Yates' = n (| ad-bc | -n / 2) ^ 2 / ((a + b) (c + d) (a + c) (b + d))
if ((ad−bd) <0) Yates = −Yates ′
else Yates = Yates' (11)
なお、計算式(10)、(11)において、|xCat|は、横軸子カテゴリxCatに分類された文書数、|tgtCat|は対象カテゴリtgtCatに分類された文書数であり、a、b、c、d、nは以下のとおりである。 In the calculation formulas (10) and (11), | xCat | is the number of documents classified into the horizontal axis category xCat, | tgtCat | is the number of documents classified into the target category tgtCat, and a, b, c, d, and n are as follows.
a=cf
b=df−cf
c=|xCat|−cf
d=|tgtCat|−df)−|xCat|+cf
n=a+b+c+d=|tgtCat|
a = cf
b = df-cf
c = | xCat | -cf
d = | tgtCat | −df) − | xCat | + cf
n = a + b + c + d = | tgtCat |
自己相互情報量PMIでは、対象カテゴリtgtCat中での出現確率と、横軸子カテゴリxCat中での出現確率とで偏りの大きい特徴語を高く評価する。また、低頻度語を過大評価する傾向があるため、自己相互情報量PMIを利用する場合は、文書頻度dfが極端に小さい単語は、特徴語から排除するなどの処理が必要となる。
一方、イエーツ補正χ2乗値Yatesは、対象カテゴリtgtCat中での出現確率に対し、横軸子カテゴリxCat中での出現確率が高い単語を高く評価する。結果として、クラスタリングにおいて比較的低頻度の特徴語が強く重みづけされる。しかし、自己相互情報量PMIと比べるとその傾向は小さい。
In the self-mutual information amount PMI, feature words having a large bias between the appearance probability in the target category tgtCat and the appearance probability in the horizontal axis category xCat are highly evaluated. In addition, since there is a tendency to overestimate low-frequency words, when using the self-mutual information PMI, it is necessary to perform processing such as excluding words with extremely low document frequency df from feature words.
On the other hand, the Yates correction chi-square value Yates highly evaluates words having a high appearance probability in the horizontal axis category xCat with respect to the appearance probability in the target category tgtCat. As a result, relatively low frequency feature words are strongly weighted in clustering. However, the tendency is small compared with the self-mutual information amount PMI.
図15は、特徴語カテゴリ生成部33のクラスタリング部35が実行する特徴語クラスタリングの処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS7におけるクラスタリング処理の詳細な処理の一例である。この処理において、クラスタリング部35は、上述した図14の傾向ベクトル生成処理において生成された傾向ベクトルを用いて、特徴語の類似性に基づく特徴語のクラスタリングを行い、関連の強い特徴語グループである特徴語クラスタを生成する。
FIG. 15 is a flowchart showing a flow of feature word clustering processing executed by the
なお、本実施形態では、クラスタリング手法として、文書クラスタリング手法を応用する。従来の文書クラスタリング手法は、例えば各々の文書データが備える特徴を、特徴ベクトル(ベクトル要素には文書内の単語の出現頻度などが用いられる)によって表し、この特徴ベクトルの類似度(例えば内積や余弦)に基づき、文書同士のまとまりである文書クラスタを生成するという方法である。 In the present embodiment, the document clustering method is applied as the clustering method. In the conventional document clustering method, for example, the features included in each document data are represented by feature vectors (the frequency of appearance of words in the document is used as vector elements), and the similarity (for example, inner product or cosine) of the feature vectors. ) To generate a document cluster that is a group of documents.
本実施形態のクラスタリング部35は、抽出された特徴語の傾向ベクトルの類似度に基づき、特徴語クラスタを生成する。クラスタリングの手法としては、従来から様々なものが考案されているが、本実施形態では、leader−follower法と呼ばれる比較的単純なクラスタリング手法を用いる。ただし、このクラスタリング手法に限定はされない。
The
最初に、クラスタリング部35は、軸カテゴリ(カテゴリ番号)に対する頻度ベクトル/傾向ベクトル504に傾向ベクトル512が設定されている特徴度データkdの集合である特徴度データ集合kdsを特徴度データ記憶部4から取得する(ステップS1701)。クラスタリング部35は、取得した特徴度データ集合kdsに含まれる単語tをクラスタリング対象の単語集合Tとし、分類先である特徴語クラスタ集合Cの初期値を空集合とする(ステップS1702)。特徴度データ集合kdsに含まれる単語tとは、特徴度データkdに単語510として設定されている単語である。クラスタリング部35は、単語集合Tに含まれる全ての単語tを1つずつ選択し、選択した単語tについてステップS1704〜ステップS1715の処理を繰り返す(ステップS1703−NO)。
First, the
まず、クラスタリング部35は、特徴度データ集合kdsから単語tの傾向ベクトルvptnを取得する(ステップS1704)。クラスタリング部35は、単語tの分類先の特徴語クラスタである分類先特徴語クラスタcmaxの初期値を「なし」とし、単語tの類似度の最大値smaxの初期値を0とする(ステップS1705)。
First, the
クラスタリング部35は、特徴語クラスタ集合Cに含まれる全ての特徴語クラスタcを1つずつ選択し、選択した特徴語クラスタcについてステップS1707〜ステップS1709の処理を繰り返す(ステップS1706−NO)。クラスタリング部35は、特徴語クラスタ集合Cに含まれる全ての特徴語クラスタcについて処理を終了すると(ステップS1706−YES)、ステップS1710の処理を行う。
The
ただし、最初の単語tについての処理の場合、Cは初期値の空集合であるため、クラスタリング部35は特徴語クラスタ集合Cに含まれる全ての特徴語クラスタcについて処理が終了したと判定し(ステップS1706−YES)、分類先特徴語クラスタcmaxが存在するか否かを判定する(ステップS1710)。分類先特徴語クラスタcmaxが初期値「なし」であるため(ステップS1710−NO)、クラスタリング部35は、新たな特徴語クラスタcである特徴語クラスタcnewを新規に作成し、作成した特徴語クラスタcnewを特徴語クラスタ集合Cに追加する(ステップS1713)。クラスタリング部35は、作成した特徴語クラスタcnewに、単語tの傾向ベクトルvptnを分類する(ステップS1714)。そして、クラスタリング部35は、特徴語クラスタcnewの特徴ベクトルvcを単語tの傾向ベクトルvptnとする(ステップS1715)。すなわちこの時点では、特徴語クラスタcnewに分類されている単語は単語t1つであるため、特徴語クラスタcnewの特徴ベクトルvcは、単語tの傾向ベクトルvptnと同じとなる。ステップS1715の処理が終了すると、クラスタリング部35は、ステップS1703に戻り、未選択の単語tを選択して処理を繰り返す。
However, in the case of processing for the first word t, since C is an empty set of initial values, the
2回目以降のステップS1703からの繰り返し処理においては特徴語クラスタ集合Cが空き集合ではないため、ステップS1706において、クラスタリング部35は、クラスタリング部35は特徴語クラスタ集合Cに含まれる全ての特徴語クラスタcを1つずつ選択し、ステップS1707〜ステップS1709の処理を繰り返す(ステップS1706−NO)。
Since the feature word cluster set C is not an empty set in the second and subsequent iterations from step S1703, in step S1706, the
具体的には、クラスタリング部35は、単語tの傾向ベクトルvptnと、特徴語クラスタcの特徴ベクトルvcとを用いて、単語tと特徴語クラスタcの類似度sを算出する(ステップS1707)。特徴語クラスタcの特徴ベクトルvcは、ステップS1715においてこの特徴語クラスタcに最初に分類された単語の傾向ベクトルを初期として生成され、後述のステップS1710〜ステップS1715においてこの特徴語クラスタに追加で分類された単語の傾向ベクトルを用いて更新されるベクトルである。クラスタリング部35は、単語tと特徴語クラスタcの類似度sを、単語tの傾向ベクトルvptnと特徴語クラスタcの特徴ベクトルvcとの類似度により算出する。この類似度は、例えばベクトルの余弦、すなわち、(vptn・vc)/(|vptn|×|vc|)を用いて算出される。なお、vptn・vcは傾向ベクトルvptnと特徴ベクトルvcの内積を表し、|vptn|、|vc|はそれぞれ、傾向ベクトルvptn、特徴ベクトルvcのノルムを表す。
Specifically, the
クラスタリング部35は、単語tと特徴語クラスタcの類似度sがあらかじめ設定された所定のしきい値smin以上であり、かつ、単語tの類似度の最大値smaxより大きい場合(ステップS1708−YES)、分類先特徴語クラスタcmaxに特徴語クラスタcを設定し、単語tの類似度の最大値smaxに特徴語クラスタcとの類似度sを設定する(ステップS1709)。クラスタリング部35は、ステップS1706に戻り処理を繰り返す。一方、クラスタリング部35は、単語tと特徴語クラスタcの類似度sがあらかじめ設定された所定のしきい値smin未満である、もしくは、単語tの類似度の最大値smax以下である場合(ステップS1708−NO)、そのままステップS1706に戻り処理を繰り返す。
The
ステップS1706の繰り返し処理の終了後(ステップS1706−YES)、クラスタリング部35は、分類先特徴語クラスタcmaxが存在するか否か判定する(ステップS1710)。クラスタリング部35は、分類先特徴語クラスタcmaxが存在する、すなわち、既存の特徴語クラスタcのうち、単語tとの類似度sが最大であり、かつ、その類似度がしきい値以上のクラスタが存在する場合(ステップS1710−YES)、クラスタリング部35は、分類先特徴語クラスタcmaxに単語tを分類する(ステップS1711)。クラスタリング部35は、分類先特徴語クラスタcmaxの特徴ベクトルvcに単語tの傾向ベクトルvptnを加え、特徴ベクトルvcを再計算する(ステップS1712)。すなわち、分類先特徴語クラスタcmaxとなっている特徴語クラスタcの特徴ベクトルvcは、当該特徴語クラスタcに分類された単語tの傾向ベクトルの和となる。そのため、分類先特徴語クラスタcmaxとなっている特徴語クラスタcの特徴ベクトルvcに単語tの傾向ベクトルvptnを加えた結果が、単語tを分類した後の当該特徴語クラスタcの特徴ベクトルとなる。
After the repetition process of step S1706 is completed (step S1706—YES), the
一方、ステップS1710にて、分類先特徴語クラスタcmaxが存在しない場合(ステップS1710−NO)、クラスタリング部35は、上記と同様にステップS1713〜ステップS1715の処理を行う。すなわち、クラスタリング部35は、特徴語クラスタcnewを新規に作成して特徴語クラスタ集合Cに追加するとともに(ステップS1713)、特徴語クラスタcnewに単語tの傾向ベクトルvptnを分類する(ステップS1714)。クラスタリング部35は、特徴語クラスタcnewの特徴ベクトルvcを単語tの傾向ベクトルvptnとする(ステップS1715)。
On the other hand, if the classification target feature word cluster cmax does not exist in step S1710 (step S1710-NO), the
ステップS1712もしくはステップS1715が終了すると、クラスタリング部35は、ステップS1703に戻り処理を繰り返す。単語集合Tに含まれる全ての単語tについて繰り返し処理が終了すると(ステップS1703−YES)、クラスタリング部35は、図15のクラスタリング処理を終了する。
When step S1712 or step S1715 ends, the
このように、図15に示すクラスタリング部35のクラスタリング処理によって、図14に示す傾向ベクトル生成処理において傾向ベクトルが生成された単語、つまり特徴語として判定された単語について、傾向ベクトルが互いに類似し合う特徴語のまとまりである特徴語クラスタが生成される。
As described above, the tendency vectors of the words for which the trend vector is generated in the trend vector generation process shown in FIG. 14 by the clustering process of the
図10における特徴度算出処理においては形態素解析によって単語を抽出しているため、文書分類部3で自動生成される特徴語(フィルタ語)は形態素単位となる。一方、着目語設定部53において、ユーザが直接入力する着目語は形態素単位である必要はなく、任意の文字列を着目語として設定することが可能である。そして、図11における着目語設定処理においてユーザが着目語として設定した文字列が形態素単位でない場合でも、図13に示す特徴度データ取得処理によって、それ以降は単語として扱われることになる。さらに、図12における特徴度補正処理において、文書分類部3の特徴度補正部32は、着目語設定部53から入力された着目語集合に応じて単語の特徴度を補正し、図15において、クラスタリング部35は、ユーザが着目する単語に則した特徴語クラスタリングを実現する。
In the feature degree calculation processing in FIG. 10, since words are extracted by morphological analysis, feature words (filter words) automatically generated by the
図16は、特徴語カテゴリ生成部33のカテゴリ生成処理部36が特徴語カテゴリを生成する処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS8における特徴語カテゴリ生成処理の詳細な処理の一例を示す。この処理において、カテゴリ生成処理部36は、上述した図15のクラスタリング処理により生成された特徴語クラスタに含まれる単語をフィルタ語とし、フィルタ語を分類の条件とする特徴語カテゴリのデータを生成してカテゴリ記憶部2に記憶する。
FIG. 16 is a flowchart showing a flow of processing in which the category
カテゴリ生成処理部36は、図15に示すクラスタリングにより生成された特徴語クラスタ集合Cを受信する(ステップS1801)。カテゴリ生成処理部36は、特徴語クラスタ集合C中のクラスタに含まれる全ての単語の特徴度データkdの集合である特徴度データ集合kdsを特徴度データ記憶部4から取得する(ステップS1802)。カテゴリ生成処理部36は、特徴語クラスタ集合Cに含まれる全て特徴語クラスタcを1つずつ選択し、選択した特徴語クラスタcについてステップS1804〜ステップS1807の処理を繰り返す(ステップS1803−NO)。
The category
まず、カテゴリ生成処理部36は、特徴語クラスタcに含まれる単語tの集合をフィルタ語集合tsとし、特徴度データ集合kdsを参照してフィルタ語集合tsの中で補正特徴度が最も大きい単語tをカテゴリ名cnとする(ステップS1804)。例えば、特徴語クラスタcの単語tの集合が{“検索”,“分類”,“管理”}であるとする。この場合、カテゴリ生成処理部36は、{“検索”,“分類”,“管理”}を特徴語クラスタcのフィルタ語集合tsとし、フィルタ語集合ts中で最も補正特徴度が大きい単語である“検索”をカテゴリ名cnとする。
First, the category
カテゴリ生成処理部36は、フィルタ語集合tsに基づいて分類ルールrを生成する(ステップS1805)。分類ルールrは、例えば図4の特徴語カテゴリデータ400、410に示すように、「文書データの本文205(テキスト情報)にフィルタ語集合tsが含まれること」を条件として、文書を特徴語カテゴリに分類するためのルールとして生成される。
The category
なお、対象とする文書データが図2の文書データ200bに示すようなXML文書の場合、分類ルールは、XQueryもしくはXPathで表現する。上記の例で文書データ200bの「本文」要素がテキスト情報である場合、特徴語クラスタcの分類ルールは「contains(./本文,“検索”) and contains(./本文,“分類”) and contains(./本文,“管理”)」となる。
When the target document data is an XML document as shown in the
カテゴリ生成処理部36は、生成した分類ルールrに該当する文書データdの集合である文書データ集合docsを文書記憶部1から取得する(ステップS1806)。カテゴリ生成処理部36は、対象カテゴリtgtCat、カテゴリ名cn、フィルタ語集合ts、及び分類ルールrに基づいて、特徴語カテゴリデータを生成し、カテゴリ記憶部2に記憶する(ステップS1807)。すなわち、カテゴリ生成処理部36は、図4に示す特徴語カテゴリデータ400、410と同様の形式で特徴語カテゴリデータを生成する。具体的には、カテゴリ生成処理部36は、特徴語カテゴリデータのカテゴリ番号、上位カテゴリ、カテゴリ名、分類ルール、フィルタ語にそれぞれ、新たに付与した任意の番号、対象カテゴリtgtCatのカテゴリデータまたは特徴語カテゴリデータのカテゴリ番号、カテゴリ名cn、分類ルールr、フィルタ語集合tsを設定する。さらに、カテゴリ生成処理部36は、生成した特徴語カテゴリデータに、文書データ集合docsを対応付けて書き込む。例えば、文書データ集合docsは、文書データの文書番号により示される。その後、カテゴリ生成処理部36は、ステップS1803からの処理に戻り、未選択の特徴語クラスタcを選択して処理を繰り返す。
The category
ステップS1803において、特徴語クラスタ集合C中の特徴語クラスタc全てにステップS1804〜ステップS1807の繰り返し処理が終了すると(ステップS1803−YES)、カテゴリ生成処理部36は、特徴語カテゴリ生成処理を終了する。
In step S1803, when the iterative processing of step S1804 to step S1807 is completed for all the feature word clusters c in the feature word cluster set C (step S1803-YES), the category
図24は、図16の特徴語クラスタリング処理の実行により特徴語カテゴリが生成された後のカテゴリ構造の表示例を示す図である。同図に示すように、「内容別」カテゴリ1603の下位カテゴリには、特徴語カテゴリとして、カテゴリ2031、「検索」カテゴリ2032、及び「マイニング」カテゴリ2033が生成されている。「分析」カテゴリ2031、「マイニング」カテゴリ2033に対応するカテゴリデータはそれぞれ、図4に示す特徴語カテゴリデータ400、410である。
FIG. 24 is a diagram showing a display example of the category structure after the feature word category is generated by executing the feature word clustering process of FIG. As shown in the figure, a
図10〜図16の処理が終了すると、ユーザインターフェース部5のカテゴリ操作部52は、図9のステップS1104の処理を行い、2軸マップ表示部51に2軸マップ表示を指示する。2軸マップ表示部51は、カテゴリ操作部52からの指示を受け、図7のステップS6における2軸マップ表示処理を行う。
When the processes of FIGS. 10 to 16 are completed, the
図17は、2軸マップ表示部51が2軸マップを表示させる処理の流れを示すフローチャートである。同図に示すフローチャートは、図7のステップS9における2軸マップ表示処理の詳細な処理の一例を示す。
FIG. 17 is a flowchart showing a flow of processing in which the biaxial
2軸マップ表示部51は、カテゴリ操作部52から2軸マップの横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatとの入力を受ける(ステップS1901)。2軸マップ表示部51は、図8のステップS1002と同様の処理により、カテゴリ記憶部2に記憶されているカテゴリデータ及び特徴語カテゴリデータに基づいて、横軸カテゴリxAxisCatの横軸子カテゴリxCatの集合である横軸子カテゴリ集合xCatsと、縦軸カテゴリyAxisCatの縦軸子カテゴリyCatの集合である縦軸子カテゴリ集合yCatsを取得する(ステップS1902)。
The biaxial
具体的には、図24のようなカテゴリ構造である場合、2軸マップ表示部51は、横軸子カテゴリ集合xCatsとして、横軸カテゴリxAxisCatである「出願年別」カテゴリ1602の子カテゴリの集合{「2004年」カテゴリ1621、「2005年」カテゴリ1622、「2006年」カテゴリ1623、「2007年」カテゴリ1624、「2008年」カテゴリ1625}を取得する。また、2軸マップ表示部51は、縦軸カテゴリyAxisCatである「内容別」カテゴリ1603の子カテゴリの集合{「分析」カテゴリ2031、「検索」カテゴリ2032、「マイニング」カテゴリ2033}を取得する。
Specifically, in the case of the category structure as shown in FIG. 24, the two-axis
2軸マップ表示部51は、縦軸カテゴリyAxisCatと、縦軸子カテゴリ集合yCatsに含まれる各縦軸子カテゴリyCatを行とし、横軸子カテゴリ集合xCatsに含まれる各横軸子カテゴリxCatを列として2軸マップテーブルを作成し、表示させる(ステップS1903)。2軸マップテーブルは、カテゴリが表示されるタイトル行及びタイトル列も含むため、行数が(1+縦軸カテゴリ数+縦軸子カテゴリ数)、列数が(1+横軸子カテゴリ数)のテーブルである。
The biaxial
2軸マップ表示部51は、作成した2軸マップテーブルにおける全てのcellを1つずつ選択し、選択したcellについてステップS1905〜ステップS1910の処理を繰り返す(ステップS1904−NO)。ステップS1905〜ステップS1910の処理は、図8のステップS1005〜ステップS1010と同様の処理である。
The biaxial
まず、2軸マップ表示部51はcellが先頭行(1行目)もしくは先頭列(1列目)であるか否か判定する(ステップS1905)。cellが先頭行(1行目)もしくは先頭列(1列目)であると判定した場合(ステップS1905−YES)、2軸マップ表示部51は、ステップS1906〜ステップS1908の処理を行う。すなわち、2軸マップ表示部51は、選択したcellに対応するカテゴリcat(縦軸カテゴリyAxisCat、縦軸子カテゴリyCat、または、横軸子カテゴリxCat)のカテゴリ名を表示させる(ステップS1906)。さらに、2軸マップ表示部51は、cellに対応するカテゴリcatがフィルタ語集合filtersを持つか否かを判定する(ステップS1907)。カテゴリcatがフィルタ語集合filtersを持つと判定した場合(ステップS1907−YES)、2軸マップ表示部51は、フィルタ語集合filtersに含まれるフィルタ語を当該cellに表示させる(ステップS1908)。カテゴリcatがフィルタ語集合filtersを持たないと判定した場合(ステップS1907−NO)、あるいは、ステップS1908の処理の後、2軸マップ表示部51は、ステップS1904に戻り、未選択のcellを選択して処理を繰り返す。
First, the biaxial
ステップS1905において、cellが先頭行(1行目)でも先頭列(1列目)でもないと判定した場合(ステップS1905−NO)、2軸マップ表示部51は、cellの行に対応する縦軸カテゴリyAxisCatまたは縦軸子カテゴリyCatと、cellの列に対応する横軸子カテゴリxCatとの両方に分類された文書データの数である文書数dnを求める(ステップS1909)。2軸マップ表示部51は、ステップS1903で作成した2軸マップテーブルのcellに、ステップS1909において算出した文書数dnに応じた大きさの円chartを表示させる(ステップS1910)。その後、2軸マップ表示部51は、ステップS1904に戻り、未選択のcellを選択して処理を繰り返す。
If it is determined in step S1905 that the cell is neither the first row (first row) nor the first column (first column) (NO in step S1905), the biaxial
2軸マップ表示部51は、ステップS1904において全てのcellに対してステップS1905〜ステップS1910の処理を終了すると(ステップS1904−YES)、ステップS1911の処理を行う。
When the biaxial
図25は、図16の特徴語クラスタリング処理の実行により特徴語カテゴリが生成された後に図24に示すカテゴリ構造となった場合に、ステップS1904までの処理の終了時に2軸マップ表示部51が表示させる2軸マップテーブルの表示例を示す図である。同図に示す2軸マップの横軸カテゴリ(軸カテゴリ)は、図22に示す2軸マップと同じである。縦軸には対象カテゴリである「内容別」カテゴリと、「内容別」カテゴリについて生成された下位カテゴリである特徴語カテゴリ「分析」、「検索」、及び「マイニング」とが含まれ、これら特徴語カテゴリそれぞれのフィルタ語が表示されている。例えば、特徴語カテゴリ「マイニング」のセル2101には、フィルタ語「マイニング、解析、関連語」が表示されている。また、2軸マップを表示させる際、2軸マップ表示部51は、2軸マップの各セルに、そのセルが対応する行の項目のカテゴリと列の項目のカテゴリとの両カテゴリに分類された文書数に応じたグラフを表示させている。
FIG. 25 shows the display of the biaxial
ステップS1904の繰り返し終了後、ユーザがあるカテゴリcatのフィルタ語集合filtesの中からフィルタ語fを選択した場合(ステップS1911−YES)、2軸マップ表示部51は、ステップS1912〜ステップS1915の処理を行う。
After the repetition of step S1904, when the user selects a filter word f from the filter word set filters of a certain category cat (step S1911-YES), the biaxial
2軸マップ表示部51は、フィルタ語fが選択されたカテゴリcatの親カテゴリpcatをカテゴリ記憶部2から取得する(ステップS1912)。2軸マップ表示部51は、このカテゴリcatに該当する行内のタイトル列以外の全てのcellを1つずつ選択し、選択したcellについてステップS1914及びステップS1915の処理を繰り返す(ステップS1913−NO)。
The biaxial
2軸マップ表示部51は、選択したcellに対応する横軸子カテゴリxCatのカテゴリデータ(または特徴カテゴリデータ)と横軸子カテゴリxCatの上位カテゴリのカテゴリデータ(または特徴カテゴリデータ)とから分類ルールを読み出し、読み出した分類ルールの論理積を横軸子カテゴリxCatの分類ルールxrとする。さらに、2軸マップ表示部51は、親カテゴリpcatのカテゴリデータ(または特徴カテゴリデータ)から分類ルールprを読み出す。2軸マップ表示部51は、文書記憶部1を参照し、横軸子カテゴリxCatの分類ルールxrと、親カテゴリpcatの分類ルールprと、選択されたフィルタ語fとに基づき、選択したcellにおいてフィルタ語を含んだ対象文書データの数である文書数fdnを求める(ステップS1914)。この文書数fdnは、上述のdn同様に条件式の積で求めることができ、その条件式は「xr and pr and (contains(./本文,f))」となる。
The biaxial
2軸マップ表示部51は、表示させた2軸マップテーブルにおいて選択されたcellに、ステップS1910において表示させた円chartとは異なる色により、文書数fdnに応じた大きさの円chartを表示させる(ステップS1915)。カテゴリ操作部52は、ステップS1913に戻り、未選択のcellを選択して処理を繰り返す。
そして、フィルタ語fが選択されたカテゴリcatに該当する行内のタイトル列以外の全てのcellについて処理を終了すると(ステップS1913−YES)、カテゴリ操作部52は、ステップS1911に戻る。
The biaxial
When the process is finished for all cells other than the title column in the row corresponding to the category cat for which the filter word f is selected (step S1913—YES), the
以上のステップS1912〜ステップS1915の処理では、ユーザが2軸マップ上でフィルタ語を選択した場合に、2軸マップ表示部51は、フィルタ語が選択された行の各列のcellに、フィルタ語を含む文書数の円chartを、ステップS1910において表示させた円chartとは区別して表示させる。
In the processes in steps S1912 to S1915 described above, when the user selects a filter word on the two-axis map, the two-axis
図26は、フィルタ語選択時の2軸マップの表示例を示す図である。図26の例では、図25の表示の後、ユーザが、縦軸子カテゴリ「マイニング」が表示されているセル2201においてフィルタ語「関連語」を選択した場合を示している。2軸マップ表示部51は、フィルタ語が選択されたセル2201が含まれる行については、横軸子カテゴリ「2004年」、「2005年」、「2006年」、「2007年」、「2008年」のそれぞれに対応した列のセルに、網掛けの部分により「関連語」を含む文書データの数を表わしている。例えば、セル2222には、セル2201に対応した特徴語カテゴリ「マイニング」とセル2211に対応した横軸子カテゴリ「2004年」との両カテゴリに含まれる文書データの中で、「関連語」を含む文書データの数を表している。
FIG. 26 is a diagram illustrating a display example of a biaxial map when a filter word is selected. In the example of FIG. 26, after the display of FIG. 25, the user selects the filter word “related word” in the
図17のステップS1911において、2軸マップ表示部51は、フィルタ語の選択が入力されていないと判定した場合(ステップS1911−NO)、ユーザから終了要求が入力されないときには(ステップS1916−NO)、ステップS1911の処理に戻り、終了要求の入力を受けたときには処理を終了する(ステップS1916−YES)。
When the biaxial
続いて、図7のステップS10及びステップS11の詳細な処理について、図9及び後述する図18の処理フローを用いて説明する。
図9のステップS1104において、2軸マップ表示部51が、カテゴリ操作部52からの指示を受け、図17の処理により図25に示すような2軸マップを表示させると、カテゴリ操作部52は、ステップS1101の処理に戻る。カテゴリ操作部52は、現在表示されている2軸マップ上でユーザが選択したカテゴリcatの入力を受け(ステップS1101−YES)、さらに、フィルタ語の追加要求の入力を受けた場合(ステップS1102−NO、ステップS1105−YES)、ステップS1106〜ステップS1110の処理を行う。
Next, detailed processing in step S10 and step S11 in FIG. 7 will be described using the processing flow in FIG. 9 and FIG.
In step S1104 of FIG. 9, when the biaxial
まず、カテゴリ操作部52は、特徴度データ記憶部4に記憶されている特徴度データのうち、傾向ベクトルが設定されている特徴度データkdを読み出し、読み出した特徴度データkdの集合である特徴度データ集合kdsを取得する(ステップS1106)。この特徴度データ集合kdsは、文書分類部3において特徴語と判定された単語の特徴度データの集合である。カテゴリ操作部52は、特徴度データ集合kds中の単語を補正特徴度順に表示させる(ステップS1107)。本実施形態では、上述の通り特徴語の表示を補正特徴度順としたが、これに限らず、単に文書頻度順や特徴度順としてもよい。
First, the
図27は、2軸マップにおける特徴語カテゴリの編集操作とその画面の表示例を示す図である。同図において、カテゴリ操作部52は、ステップS1101において選択されたセル2303に対応した特徴語カテゴリ「マイニング」の特徴語追加画面2310を表示させている。カテゴリ操作部52は、特徴語追加画面2310の特徴語リスト表示フィールド2311に、ステップS1106において取得した特徴度データ集合kdsに含まれる単語である特徴語の一覧を表示させている。このとき、カテゴリ操作部52は、それぞれの特徴語にチェックボックスをつけて表示させる。また、カテゴリ操作部52は、初期表示として、選択されたカテゴリcatのフィルタ語になっている特徴語に対応したチェックボックスにはチェックをつけて表示させる。特徴語追加画面2310は、選択されたcatのフィルタ語としてユーザが任意の文字列を入力するための入力フィールド2312と、ユーザがフィルタ語の追加の実行を要求するための「フィルタ語に追加」ボタン2313を含む。
FIG. 27 is a diagram illustrating an editing operation of a feature word category in a biaxial map and a display example of the screen. In the figure, the
カテゴリ操作部52は、特徴語の表示に対してユーザからのフィルタ語の選択、もしくは入力を受け付ける(ステップS1108)。具体的には、ユーザは、入力フィールド2312にフィルタ語として追加すべき文字列を入力するか、特徴語リスト表示フィールド2311においてフィルタ語として追加すべき特徴語に対応したチェックボックスにチェックをつける。カテゴリ操作部52は、ユーザからフィルタ語fの追加の実行要求が入力されない場合(ステップS1109−NO)、ステップS1105からの処理を繰り返す。
The
ステップS1109において、ユーザからフィルタ語fの追加の実行要求を受けた場合、具体的には、ユーザが図27の「フィルタ語に追加」ボタン2313を選択した場合(ステップS1109−YES)、カテゴリ操作部52は、選択されたカテゴリcatの特徴語カテゴリデータへフィルタ語fを追加する処理を行う(ステップS1110)。フィルタ語fは、ステップS1108において、ユーザが入力フィールド2312に入力した文字列、または、特徴語リスト表示フィールド2311においてチェックをつけた特徴語である。このフィルタ語fの追加処理の詳細については、後述する図18のフィルタ語の追加・削除処理の流れで説明する。
In step S1109, when the execution request for adding the filter word f is received from the user, specifically, when the user selects the “add to filter word” button 2313 in FIG. 27 (step S1109—YES), the category operation is performed. The
ステップS1110の処理の後、カテゴリ操作部52は、上述したステップS1104の処理を行って2軸マップの更新を2軸マップ表示部51に指示する。2軸マップ表示部51は、カテゴリ操作部52から現在表示させている2軸マップの横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatの入力を受けて図17の処理を行い、フィルタ語の追加を2軸マップに反映する。カテゴリ操作部52は、ステップS1101の処理に戻る。
After the process of step S1110, the
カテゴリ操作部52は、ユーザにより選択されたカテゴリcatの入力を受け(ステップS1101−YES)、さらに、ユーザからフィルタ語fの削除要求を受けた場合(ステップS1102、ステップS1105−NO、ステップS1111−YES)、選択されたカテゴリcatの特徴語カテゴリデータからフィルタ語fを削除する処理を行う(ステップS1112)。このフィルタ語fの削除処理の詳細については、後述する図18のフィルタ語の追加・削除処理の流れで説明する。
The
ステップS1112の処理の後、カテゴリ操作部52は、上述したステップS1104の処理を行って2軸マップの更新を2軸マップ表示部51に指示する。2軸マップ表示部51は、カテゴリ操作部52から現在表示させている2軸マップの横軸カテゴリxAxisCatと、縦軸カテゴリyAxisCatの入力を受けて図17の処理を行い、フィルタ語の削除を2軸マップに反映する。カテゴリ操作部52は、ステップS1101の処理に戻る。
After the process of step S1112, the
図18は、カテゴリ操作部52における特徴語カテゴリのフィルタ語の追加または削除の処理の流れを示すフローチャートである。同図に示すフローチャートは、図9のステップS1110及びステップS1112における詳細な処理の一例を示す。
FIG. 18 is a flowchart showing the flow of processing for adding or deleting filter words in the feature word category in the
まず、カテゴリ操作部52は、追加もしくは削除する単語tと、カテゴリcatを入力として受け取る(ステップS2001)。カテゴリcatは、図9のステップS1101において選択されたカテゴリであり、追加する単語tは、図9のステップS1108においてユーザが選択もしくは入力したフィルタ語であり、削除する単語は、図9のステップS1111において削除が要求されたフィルタ語fである。カテゴリ操作部52は、カテゴリ記憶部2に記憶されているカテゴリcatの特徴語カテゴリデータを特定し、特定した特徴語カテゴリデータに設定されているフィルタ語の集合であるフィルタ語集合fsを取得する。
First, the
フィルタ語の追加の場合(ステップS2002−[追加])、カテゴリ操作部52は、フィルタ語集合fsに単語tを追加する(ステップS2003)。ただし、フィルタ語集合fsに、すでに単語tが存在する場合、カテゴリ操作部52は何もしない。一方、フィルタ語の削除の場合(ステップS2002−[削除])、カテゴリ操作部52は、フィルタ語集合fsから単語tを削除する(ステップS2004)。ただし、フィルタ語集合fsに単語tが存在しない場合、カテゴリ操作部52は何もしない。
In the case of adding a filter word (Step S2002- [Add]), the
ステップS2003またはステップS2004の処理の後、カテゴリ操作部52は、フィルタ語集合fsに基づいて分類ルールrを生成し、カテゴリcatの分類ルールを更新する(ステップS2005)。分類ルールの生成方法については、図16のステップS1805の説明を参照されたい。カテゴリ操作部52は、カテゴリ記憶部2に格納されているカテゴリcatの特徴語カテゴリデータに設定されている分類ルール、及びフィルタ語をそれぞれ、ステップS2005に更新した分類ルールr、及びステップS2003またはステップS2004において更新したフィルタ語集合fsに更新する(ステップS2006)。
After the process of step S2003 or step S2004, the
本実施形態では、フィルタ語の追加・削除処理について述べたが、追加・削除を組み合わせることで、カテゴリ操作部52は、あるカテゴリのフィルタ語を他のカテゴリのフィルタ語として移動もしくは複写することが可能となる。
In this embodiment, filter word addition / deletion processing has been described, but by combining addition / deletion, the
図28は、特徴語カテゴリの編集操作後の2軸マップの表示例を示す図であり、図27に示す2軸マップにおいて、ユーザが以下の(1)及び(2)の編集操作を行った後の表示例である。
(1) ユーザが、セル2302に表示されている「検索」カテゴリのフィルタ語“管理”を、セル2301に表示されている「分析」カテゴリに移動する。
(2) ユーザが、セル2303に表示されている「マイニング」カテゴリのフィルタ語“関連語”を削除する。
FIG. 28 is a diagram illustrating a display example of the biaxial map after the feature word category editing operation. In the biaxial map illustrated in FIG. 27, the user performs the following editing operations (1) and (2). It is a later display example.
(1) The user moves the filter word “management” in the “search” category displayed in the
(2) The user deletes the filter word “related word” in the “mining” category displayed in the
上述した図9のステップS1105〜ステップS1112の処理によって、ユーザは2軸マップ上で、文書分類部3で自動生成された特徴語カテゴリに対して、簡単に編集を行うことができる。従って、文書分類装置100は、ユーザの分類・分析の意図や目的に合わせてカテゴリ構造を構成することが可能となる。また、この際にユーザがフィルタ語を選択することによって、文書分類装置100は、図26に示すような表示を行う。この表示により、ユーザは、選択されたフィルタ語に関する出現傾向を把握することができる。従って、文書分類装置100は、ユーザが指定した横軸カテゴリ(図26では「出願年別」カテゴリ)を基軸とした分類・分析作業を支援することが可能となる。
By the processing in steps S1105 to S1112 of FIG. 9 described above, the user can easily edit the feature word category automatically generated by the
なお、本実施形態においては、2軸マップの各セルには、文書数dnを円の大きさで表示させる、いわゆるバブルチャートで表現したが、文書数dnの表示はこれに限らない。例えば、各セルに対応する文書数dnを、折れ線グラフや棒グラフで表現してもよい。 In this embodiment, each cell of the biaxial map is expressed by a so-called bubble chart in which the number of documents dn is displayed in a circle size, but the display of the number of documents dn is not limited to this. For example, the number of documents dn corresponding to each cell may be expressed by a line graph or a bar graph.
図29は、2軸マップを折れ線グラフで表現したときの表示例を示す図である。同図に示すように、折れ線グラフを利用した場合は、特許文献なら出願傾向の遷移の様子を把握するなど、時系列的な傾向変化を捉えるのに有効である。このとき、同図に示すように、フィルタ語については異なる線種のグラフで文書数dnを表現することで、さらに各フィルタ語に対する出現傾向の把握を容易にすることができる。 FIG. 29 is a diagram illustrating a display example when the biaxial map is expressed by a line graph. As shown in the figure, when a line graph is used, a patent document is effective for grasping a time-series trend change, such as grasping a state of transition of application tendency. At this time, as shown in the figure, by expressing the number of documents dn with a graph of different line types for the filter word, it is possible to further easily grasp the appearance tendency for each filter word.
また、上記実施形態においては、特徴語とする単語を補正特徴度に基づいて選択しているが、特徴度に基づいて選択してもよい。この場合、特徴度データは、補正特徴度のデータを有せず、特徴度補正部32は、図12のステップS1404〜ステップS1410までの処理は行わない。そして、図14のステップS1603において、傾向ベクトル生成部34は、特徴度データ記憶部4に記憶されている特徴度データから単語tの特徴度を取得する。ステップS1604において、傾向ベクトル生成部34は、取得した特徴度があらかじめ設定された一定のしきい値より大きい場合は、ステップS1605の処理を行い、しきい値より小さい場合は、ステップS1602に戻る。
Moreover, in the said embodiment, although the word used as a feature word is selected based on correction | amendment feature degree, you may select based on feature degree. In this case, the feature data does not include correction feature data, and the
また、上記実施形態においては、ユーザからの着目語の入力を受けているが、着目語の入力がなくてもよい。着目語の入力がない場合、図12の処理において、特徴度補正部32は、ステップS1401〜ステップS1403、及びステップS1407〜ステップS1409の繰り返し処理を行わない。そして、特徴度補正部32は、ステップS1406で補正特徴度ms(t)を算出すると、算出した補正特徴度ms(t)を特徴度データに格納するステップS1410の処理を行い、ステップS1404に戻る処理となる。
Moreover, in the said embodiment, although the input of the attention word from a user is received, there is no need of input of a attention word. When there is no input of the word of interest, in the process of FIG. 12, the
また、着目語の入力を受けない場合、文書分類装置100が、着目語設定部53を設けない構成とすることもできる。この場合、図12の処理は行われず、図14のステップS1603において、傾向ベクトル生成部34は、特徴度データ記憶部4に記憶されている特徴度データから単語tの特徴度を取得する。そして、ステップS1604において、傾向ベクトル生成部34は、取得した特徴度があらかじめ設定された一定のしきい値より大きい場合は、ステップS1605の処理を行い、しきい値より小さい場合は、ステップS1602に戻る。
In addition, when the target word is not input, the
なお、上記実施形態では横軸を軸カテゴリ、縦軸を対象カテゴリとした例を示しているが、縦軸を軸カテゴリ、横軸を対象カテゴリとしてもよい。 In the above embodiment, an example is shown in which the horizontal axis is the axis category and the vertical axis is the target category, but the vertical axis may be the axis category and the horizontal axis may be the target category.
以上述べた少なくともひとつの実施形態の文書分類装置100によれば、カテゴリ操作部52、及び特徴語カテゴリ生成部33を持つことにより、ユーザが指定した2つのカテゴリを2軸とする2軸マップにおいてユーザが選択した分類軸に対する単語の出現傾向に基づき特徴語を選択し、選択した特徴語を用いて特徴語カテゴリを生成する。これにより、ユーザは、現在生成されているクラスタリング結果や分類構造を利用した2軸マップを見ながら分類軸を選択することができるため、文書分類装置100は、ユーザの観点に適した分類構造を生成し、ユーザの目的にあった分類と分析を支援することが可能となる。
According to the
また、従来の単語クラスタリングでは、クラスタの生成に用いる単語を適切に選定し、比較的小さい計算量によって処理を行っていたが、この単語の選定は、文書に出現する単語の統計的な出現傾向に基づいて自動的に行われていた。そのため、文書集合の内容をあまりよく表さない単語や、ユーザの意図や分析の目的に合わない単語がクラスタの生成に用いる単語として選定されてしまうことも多かった。このような場合には、ユーザは、不要な単語を除外したり、重要な単語を登録したりといった作業を行って、ユーザの目的にあったクラスタの生成に用いるために、分類装置に対して所望の単語が選定されるよう指示する必要があり、この作業には熟練や労力を要していた。
しかし、以上述べた少なくともひとつの実施形態の文書分類装置100によれば、着目語設定部53を持つことによりユーザによる着目語の指定を受け、指定された着目語と関連が強い特徴語に基づき特徴語カテゴリを生成する。さらに、文書分類装置100は、カテゴリ操作部52を持つことにより、生成された特徴語カテゴリに対するフィルタ語の編集を受け、編集語のフィルタ語を用いて2軸マップを更新する。これらにより、クラスタ生成のために重要な単語をユーザが選定するための労力を軽減しながら、ユーザの関心に合わせた特徴語による分類構造の生成と修正を実現する。
In addition, in conventional word clustering, the word used to generate the cluster is appropriately selected and processed with a relatively small amount of calculation. This word selection is based on the statistical appearance tendency of words appearing in the document. Was done automatically based on. For this reason, words that do not express the contents of the document set very well, or words that do not match the user's intention or the purpose of analysis, are often selected as the words used for cluster generation. In such a case, the user performs operations such as removing unnecessary words or registering important words and uses them to generate a cluster suitable for the user's purpose. It is necessary to instruct the user to select a desired word, and this work requires skill and effort.
However, according to the
なお、上述の各実施形態における図1の文書分類装置100の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文書分類装置100として動作させるようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
Note that a program for realizing the function of the
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 As mentioned above, although embodiment of this invention was described, this embodiment is shown as an example and is not intending limiting the range of invention. This embodiment can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. This embodiment and its modifications are included in the scope of the present invention and the gist thereof, and are also included in the invention described in the claims and the equivalent scope thereof.
1…文書記憶部
2…カテゴリ記憶部
3…文書分類部
31…特徴度算出部
32…特徴度補正部
33…特徴語カテゴリ生成部
34…傾向ベクトル生成部
35…クラスタリング部
36…カテゴリ生成処理部
4…特徴度データ記憶部
5…ユーザインターフェース部
51…2軸マップ表示部
52…カテゴリ操作部
53…着目語設定部
100…文書分類装置
DESCRIPTION OF
Claims (5)
カテゴリの階層構造と、前記文書データを前記カテゴリへ分類する際の分類ルールとを記憶するカテゴリ記憶部と、
分類の観点とするカテゴリと分類対象のカテゴリである対象カテゴリとの入力を受け、前記カテゴリ記憶部から分類の観点とする前記カテゴリの下位のカテゴリである軸カテゴリの集合を軸カテゴリ集合として読み出すカテゴリ操作部と、
前記文書記憶部に記憶されている文書データのうち、前記対象カテゴリの前記分類ルールを満たす前記文書データの集合を対象文書データ集合とし、前記対象文書データ集合に含まれる単語の特徴度を算出する特徴度算出部と、
前記特徴度算出部が算出した前記特徴度に基づいて文書の特徴を表す前記単語を選択し、選択した前記単語それぞれについて、前記軸カテゴリ集合中の各軸カテゴリの前記分類ルールを満たす前記対象文書データ集合における前記単語の出現頻度に基づく統計量を算出し、前記統計量を当該軸カテゴリに対応する要素の値として設定した傾向ベクトルを生成する傾向ベクトル生成部と、
前記傾向ベクトル生成部が生成した前記傾向ベクトルの類似性に基づいて前記単語をクラスタリングするクラスタリング部と、
前記クラスタリング部によるクラスタリングの結果得られたクラスタごとに、前記対象カテゴリを上位のカテゴリとし、前記クラスタに属する単語をフィルタ語に用いた分類ルールを有する特徴語カテゴリを生成して前記カテゴリ記憶部に登録するカテゴリ生成処理部と、
前記軸カテゴリを第1軸の分類項目とし、前記特徴語カテゴリを第2軸の分類項目とした2軸マップの各セルに、前記文書記憶部に記憶されている前記文書データのうち、前記セルに対応した前記軸カテゴリの前記分類ルールと前記セルに対応した前記特徴語カテゴリの前記分類ルールとを満たす前記文書データの数を表す情報を表示させる2軸マップ表示部と、
を具備することを特徴とする文書分類装置。 A document storage unit for storing document data;
A category storage unit that stores a hierarchical structure of categories and a classification rule for classifying the document data into the categories;
A category that receives an input of a category as a classification viewpoint and a target category that is a classification target category, and reads a set of axis categories that are lower categories of the category as a classification viewpoint from the category storage unit as an axis category set An operation unit;
Of the document data stored in the document storage unit, a set of the document data satisfying the classification rule of the target category is set as a target document data set, and a feature degree of a word included in the target document data set is calculated. A feature calculation unit;
The target document satisfying the classification rule of each axis category in the axis category set for each of the selected words is selected based on the characteristic degree calculated by the characteristic degree calculation unit. A trend vector generation unit that calculates a statistic based on the appearance frequency of the word in the data set, and generates a trend vector in which the statistic is set as a value of an element corresponding to the axis category;
A clustering unit that clusters the words based on the similarity of the trend vectors generated by the trend vector generation unit;
For each cluster obtained as a result of clustering by the clustering unit, a feature word category having a classification rule using the target category as a higher category and a word belonging to the cluster as a filter word is generated in the category storage unit A category generation processing unit to be registered;
Of the document data stored in the document storage unit, each cell of the biaxial map having the axis category as the first axis classification item and the feature word category as the second axis classification item A biaxial map display unit for displaying information representing the number of the document data satisfying the classification rule of the axis category corresponding to and the classification rule of the feature word category corresponding to the cell;
A document classification apparatus comprising:
前記特徴語カテゴリの前記分類ルールに用いられている前記フィルタ語を表示させ、表示させた前記フィルタ語の中から選択された前記フィルタ語の入力を受けた場合に、前記文書記憶部に記憶されている前記文書データのうち、前記軸カテゴリの前記分類ルールを満たし、かつ、選択された前記フィルタ語を含む前記文書データの数を表す情報を表示させる、
ことを特徴とする請求項1に記載の文書分類装置。 The biaxial map display section
When the filter word used in the classification rule of the feature word category is displayed and the filter word selected from the displayed filter words is received, the filter word is stored in the document storage unit. Displaying information indicating the number of the document data satisfying the classification rule of the axis category and including the selected filter word among the document data.
The document classification apparatus according to claim 1, wherein:
前記特徴語カテゴリの前記分類ルールに用いられている前記フィルタ語を表示させ、前記特徴語カテゴリに対する前記フィルタ語の編集操作を受けた場合に、編集操作を受けた前記特徴語カテゴリの前記分類ルールを前記編集操作に基づいて変更し、
前記2軸マップの各セルに、前記文書記憶部に記憶されている前記文書データのうち、前記セルに対応した前記軸カテゴリの前記分類ルールと前記セルに対応した前記特徴語カテゴリの変更後の前記分類ルールとを満たす前記文書データの数を表す情報を表示させる、
ことを特徴とする請求項1または請求項2のいずれか1項に記載の文書分類装置。 The biaxial map display section
When the filter word used in the classification rule of the feature word category is displayed and the filter word is edited with respect to the feature word category, the classification rule of the feature word category subjected to the editing operation is displayed. Based on the editing operation,
Of the document data stored in the document storage unit in each cell of the two-axis map, the classification rule of the axis category corresponding to the cell and the characteristic word category corresponding to the cell are changed. Displaying information indicating the number of document data satisfying the classification rule;
The document classification device according to claim 1, wherein the document classification device is a document classification device.
前記特徴度算出部が算出した前記単語の特徴度を、前記対象文書データ集合における前記単語と前記着目語との共起度に基づいて補正する特徴度補正部とをさらに備え、
前記傾向ベクトル生成部は、前記特徴度補正部により補正された前記特徴度に基づいて文書の特徴を表す前記単語を選択し、選択した前記単語それぞれについて、前記軸カテゴリ集合中の各軸カテゴリの前記分類ルールを満たす前記対象文書データ集合における前記単語の出現頻度に基づく統計量を算出し、前記統計量を当該軸カテゴリに対応する要素の値として設定した傾向ベクトルを生成する、
ことを特徴とする前記請求項1から請求項3のいずれか1項に記載の文書分類装置。 A focused word setting unit that receives an input of a focused word that is a word focused on when classifying the document data;
A feature correction unit that corrects the feature of the word calculated by the feature calculation unit based on the co-occurrence of the word and the word of interest in the target document data set;
The trend vector generation unit selects the word that represents the feature of the document based on the feature degree corrected by the feature degree correction unit, and for each of the selected word, each axis category in the axis category set. Calculating a statistic based on the appearance frequency of the word in the target document data set satisfying the classification rule, and generating a trend vector in which the statistic is set as a value of an element corresponding to the axis category;
The document classification device according to any one of claims 1 to 3, wherein the document classification device is characterized in that:
前記カテゴリ操作部は、行の項目に対応した前記カテゴリと列の項目に対応した前記カテゴリのいずれを分類の観点とするカテゴリまたは対象カテゴリとするかの入力を受ける、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の文書分類装置。 The biaxial map display unit receives an input of a horizontal axis category and a vertical axis category, reads out a horizontal axis category which is a lower category of the category which is a horizontal axis from the category storage unit, and a vertical axis The vertical axis category which is a lower category of the above category is read out, the horizontal axis category is read out when the horizontal axis category is read out, and the horizontal axis category is read out when the horizontal axis category is not read out. As a column item, if the vertical axis category is read, the vertical axis category is used. If not, the vertical axis category is used as a row item. Information indicating the number of the document data satisfying the classification rule of the category corresponding to the column item of the cell and the classification rule of the category corresponding to the item of the cell row Not shown,
The category operation unit receives an input as to which of the category corresponding to the item of the row and the category corresponding to the item of the column to be a category or a target category as a classification viewpoint,
The document classification apparatus according to claim 1, wherein the document classification apparatus is a document classification apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013188860A JP6173848B2 (en) | 2013-09-11 | 2013-09-11 | Document classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013188860A JP6173848B2 (en) | 2013-09-11 | 2013-09-11 | Document classification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015056020A JP2015056020A (en) | 2015-03-23 |
JP6173848B2 true JP6173848B2 (en) | 2017-08-02 |
Family
ID=52820383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013188860A Active JP6173848B2 (en) | 2013-09-11 | 2013-09-11 | Document classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6173848B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016189606A1 (en) * | 2015-05-22 | 2016-12-01 | 株式会社Ubic | Data analysis system, control method, control program, and recording medium |
CN111738009B (en) * | 2019-03-19 | 2023-10-20 | 百度在线网络技术(北京)有限公司 | Entity word label generation method, entity word label generation device, computer equipment and readable storage medium |
WO2020240831A1 (en) | 2019-05-31 | 2020-12-03 | 株式会社Pfu | File management device, file management method, and program |
US11315551B2 (en) * | 2019-11-07 | 2022-04-26 | Accent Global Solutions Limited | System and method for intent discovery from multimedia conversation |
KR102487571B1 (en) * | 2021-03-09 | 2023-01-12 | 주식회사 마이데이터랩 | Data processing method and apparatus for training neural networks classifing natural language intentions |
KR102471408B1 (en) * | 2021-04-15 | 2022-11-30 | 동국대학교 산학협력단 | Apparatus and method detecting malicious complaint |
JP7272531B2 (en) * | 2021-10-14 | 2023-05-12 | ベクスト株式会社 | TEXT ANALYSIS APPARATUS AND METHOD |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202535A (en) * | 2004-01-14 | 2005-07-28 | Hitachi Ltd | Document tabulation method and device, and storage medium storing program used therefor |
JP2008084151A (en) * | 2006-09-28 | 2008-04-10 | Just Syst Corp | Information display device and information display method |
JP5023176B2 (en) * | 2010-03-19 | 2012-09-12 | 株式会社東芝 | Feature word extraction apparatus and program |
JP5060591B2 (en) * | 2010-06-03 | 2012-10-31 | 株式会社東芝 | Document analysis apparatus and program |
JP5135412B2 (en) * | 2010-10-27 | 2013-02-06 | 株式会社東芝 | Document analysis apparatus and program |
-
2013
- 2013-09-11 JP JP2013188860A patent/JP6173848B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015056020A (en) | 2015-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6173848B2 (en) | Document classification device | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US8473473B2 (en) | Object oriented data and metadata based search | |
US10146878B2 (en) | Method and system for creating filters for social data topic creation | |
US7519589B2 (en) | Method and apparatus for sociological data analysis | |
US8135711B2 (en) | Method and apparatus for sociological data analysis | |
US8392472B1 (en) | Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields | |
JP5879260B2 (en) | Method and apparatus for analyzing content of microblog message | |
US8131779B2 (en) | System and method for interactive multi-dimensional visual representation of information content and properties | |
US20130262449A1 (en) | System and method for search refinement using knowledge model | |
US20210342541A1 (en) | Stable identification of entity mentions | |
CA2617060A1 (en) | An improved method and apparatus for sociological data analysis | |
Desimoni et al. | Empirical evaluation of linked data visualization tools | |
McMahon et al. | Waypoint: an integrated search and retrieval system for engineering documents | |
WO2009009192A2 (en) | Adaptive archive data management | |
JP2013080375A (en) | Personal information anonymizing device and method | |
CN103262106A (en) | Managing content from structured and unstructured data sources | |
CN113407678A (en) | Knowledge graph construction method, device and equipment | |
KR20110133909A (en) | Semantic dictionary manager, semantic text editor, semantic term annotator, semantic search engine and semantic information system builder based on the method defining semantic term instantly to identify the exact meanings of each word | |
US20150058363A1 (en) | Cloud-based enterprise content management system | |
González et al. | Considering unstructured data for OLAP: a feasibility study using a systematic review | |
Dave et al. | Identifying big data dimensions and structure | |
McGee et al. | Towards visual analytics of multilayer graphs for digital cultural heritage | |
KR101132974B1 (en) | Apparatus and method for modeling ontology of multimodal social network | |
Lemieux et al. | Overcoming the digital tsunami in e-discovery: is visual analysis the answer? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6173848 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |