JP2012093966A - Document analysis apparatus and program - Google Patents

Document analysis apparatus and program Download PDF

Info

Publication number
JP2012093966A
JP2012093966A JP2010240873A JP2010240873A JP2012093966A JP 2012093966 A JP2012093966 A JP 2012093966A JP 2010240873 A JP2010240873 A JP 2010240873A JP 2010240873 A JP2010240873 A JP 2010240873A JP 2012093966 A JP2012093966 A JP 2012093966A
Authority
JP
Japan
Prior art keywords
category
word
document
feature
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010240873A
Other languages
Japanese (ja)
Other versions
JP5135412B2 (en
Inventor
Hideki Iwasaki
秀樹 岩崎
Kazuyuki Goto
和之 後藤
Shigeru Matsumoto
茂 松本
Hiroshi Taira
博司 平
Yasunari Miyabe
泰成 宮部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010240873A priority Critical patent/JP5135412B2/en
Publication of JP2012093966A publication Critical patent/JP2012093966A/en
Application granted granted Critical
Publication of JP5135412B2 publication Critical patent/JP5135412B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a document analysis apparatus and program capable of extracting a feature word appropriate for mutually comparing contents of a plurality of categories.SOLUTION: Word extraction means extracts a word contained in a plurality of documents belonging to a first category indicated by category information stored in category information storage means. Document number calculation means calculates a first document number indicating the number of documents in which the extracted word appears in the plurality of documents belonging to the first category, and a second document number indicating the number of documents in which the extracted word appears in a plurality of documents belonging to a second category positioned under the first category. Feature degree calculation means calculates a feature degree of the extracted word on the basis of the number of documents belonging to the first category, the number of document belonging to the second category, the number of the second categories, and the first and second document numbers. Feature word extraction means extracts a feature word for the first category on the basis of the feature degree.

Description

本発明の実施形態は、電子化された大量の文書を分析する文書分析装置およびプログラムに関する。   Embodiments described herein relate generally to a document analysis apparatus and program for analyzing a large number of digitized documents.

近年では、計算機の高性能化、記憶媒体の大容量化および計算機ネットワークの普及等に伴い、電子化された大量の文書を計算機システムで記憶管理して種々の目的のために利用することができる。ここで、文書とは、例えば帳票、企画書、設計書または議事録のような業務文書や、学会論文、製品マニュアル、特許文献等の技術文書、更には、ニュース記事、電子メール、ウェブページのようなネットワーク上で共有されている文書等をいう。   In recent years, with the increase in performance of computers, the increase in capacity of storage media, the spread of computer networks, etc., a large amount of electronic documents can be stored and managed in a computer system and used for various purposes. . Here, for example, documents include business documents such as forms, planning documents, design documents or minutes, technical documents such as academic papers, product manuals, patent documents, news articles, e-mails, web pages, etc. Documents shared on such networks.

しかしながら、このような大量の文書を未整理のまま例えばファイルシステムまたはデータベースに記憶するだけでは、どこにどのような情報(文書)が存在するかが分からなくなり、計算機システムにおいて記憶管理されている当該大量の文書を有効に利用することはできない。   However, simply storing such a large number of documents in an unorganized manner, for example, in a file system or database, makes it impossible to know where and what information (documents) exists, and the large amount of documents stored and managed in the computer system. The document cannot be used effectively.

したがって、情報の有効活用や共有の促進を図るためには、大量の文書を内容または用途に応じて分類(整理)しておくことが好ましい。   Therefore, in order to promote effective use and sharing of information, it is preferable to classify (organize) a large number of documents according to the content or use.

また、このように分類された大量の文書を分析または調査することによって、当該文書の内容の傾向を把握したり、新たな知見を得たりするための技術の開発も行われている。   In addition, by analyzing or investigating a large number of documents classified in this way, a technology for grasping the tendency of the contents of the document or obtaining new knowledge has been developed.

なお、上記したように大量の文書が分類された結果として同じ分類とされた文書集合、例えば各文書に含まれる属性(文書が例えば特許文献等である場合には「出願人」または「出願日」等の情報)を分類基準として分類された文書集合または各文書の内容の類似性によって文書を分類する文書クラスタリングによって生成された文書集合は、カテゴリと呼ばれる。   In addition, as described above, a set of documents classified as a result of the classification of a large number of documents, for example, attributes included in each document (if the document is a patent document, for example, “applicant” or “application date” A document set that is classified using information such as “)” or a document set that is generated by document clustering that classifies documents according to the similarity of the contents of each document is called a category.

ところで、上記したように大量の文書が分類された場合には、その全体像や各カテゴリ(に属する文書集合)の特徴を知りたいというニーズがある。具体的には、例えば特許調査の分野において、出願人(企業)別の技術傾向(出願傾向)を調査する場合には、当該各出願人のカテゴリの特徴を知りたいというニーズがあると考えられる。また、出願年毎の技術の移り変わりを把握したい場合には、各出願年のカテゴリの特徴を知りたいというニーズがあると考えられる。更に、新聞記事等において、ある事件に関連する話題の遷移を知りたい場合には、当該事件に関連する話題のカテゴリの特徴を知りたいというニーズがあると考えられる。   By the way, when a large number of documents are classified as described above, there is a need to know the overall image and the characteristics of each category (document set belonging to). Specifically, for example, in the field of patent search, when searching for technical trends (application trends) by applicant (company), there is a need to know the characteristics of each applicant's category. . In addition, when it is desired to grasp the change in technology for each application year, there is a need to know the characteristics of the category of each application year. Further, in a newspaper article or the like, when it is desired to know a transition of a topic related to a certain case, there is a need to know characteristics of a topic category related to the case.

このようなニーズに応えるために、例えば分析の対象となる文書集合(カテゴリ)において特徴的な単語(以下、特徴語と表記)を抽出する技術(以下、特徴語抽出技術と表記)が知られている。この特徴語抽出技術によれば、カテゴリに分類された文書集合の特徴語を抽出し、当該特徴語を提示することによって、ユーザは、当該カテゴリの特徴(当該カテゴリに分類された文書集合の内容)を容易に理解することができる。   In order to meet such needs, for example, a technique (hereinafter referred to as a feature word extraction technique) for extracting a characteristic word (hereinafter referred to as a feature word) in a document set (category) to be analyzed is known. ing. According to this feature word extraction technology, by extracting feature words of a document set classified into a category and presenting the feature words, the user can select the feature of the category (the contents of the document set classified into the category). ) Can be easily understood.

特開2005−128978号公報JP 2005-128978 A 特開2006−302107号公報JP 2006-302107 A 特開2005−326897号公報JP 2005-326897 A

しかしながら、上記した特徴語抽出技術によって抽出されるカテゴリの特徴語は、異なるカテゴリ間の比較をするには不十分である。   However, the category feature words extracted by the feature word extraction technique described above are insufficient to compare different categories.

上記した特徴語抽出技術によって抽出される特徴語は、当該カテゴリまたは当該カテゴリに分類された文書集合全体から抽出される。このため、異なるカテゴリの特徴語を利用して当該カテゴリ間の比較をするような場合に、当該各カテゴリから抽出されたどの特徴語に着目して当該カテゴリを比較すべきかをユーザが判断することは難しい。特に、比較するカテゴリの数および当該カテゴリの各々から抽出される特徴語の数が多くなれば、その難易度は更に上がる。つまり、単にカテゴリ毎に特徴語を抽出した場合には、例えば各カテゴリにおける当該特徴語を含む文書数等をユーザに提示することによって、当該ユーザは各カテゴリの特徴を把握することはできるが、当該カテゴリ間における共通点または相違点という複数のカテゴリ間の特徴を把握することは困難である。   The feature words extracted by the above feature word extraction technique are extracted from the category or the entire document set classified into the category. For this reason, when comparing feature categories using different category feature words, the user must determine which feature words extracted from each category should be compared with each other. Is difficult. In particular, if the number of categories to be compared and the number of feature words extracted from each of the categories increase, the difficulty level further increases. In other words, when feature words are simply extracted for each category, for example, by presenting the number of documents including the feature words in each category to the user, the user can grasp the features of each category. It is difficult to grasp characteristics between a plurality of categories such as common points or differences between the categories.

また、カテゴリ(に分類された文書集合全体)から抽出された特徴語では、他の各カテゴリ等の傾向(例えば、単語の出現傾向等)を考慮していない。このため、このように抽出された特徴語を利用して例えばクロス集計等をしたとしても、全体的に一様なマップになったり、極端に疎らなマップになったりする場合があり、カテゴリ同士を比較するのには適さない。つまり、上記した特徴語抽出技術によって抽出された特徴語には、カテゴリ間の比較に適さない単語が混在している場合がある。   In addition, the feature words extracted from the categories (the entire document set classified into the categories) do not take into account the trends of other categories (for example, the appearance tendency of words). For this reason, even if cross-tabulation, for example, is performed using feature words extracted in this way, the map may become a uniform map as a whole or an extremely sparse map. It is not suitable for comparing. In other words, the feature words extracted by the above-described feature word extraction technique may include words that are not suitable for comparison between categories.

そこで、本発明が解決しようとする課題は、複数のカテゴリの内容を相互に比較するのに好適な特徴語を抽出することが可能な文書分析装置およびプログラムを提供することにある。   Therefore, the problem to be solved by the present invention is to provide a document analysis apparatus and program capable of extracting feature words suitable for comparing the contents of a plurality of categories with each other.

実施形態に係る文書分析装置は、文書格納手段と、カテゴリ格納手段と、単語抽出手段と、文書数算出手段と、特徴度算出手段と、特徴語抽出手段とを具備する。   The document analysis apparatus according to the embodiment includes a document storage unit, a category storage unit, a word extraction unit, a document number calculation unit, a feature degree calculation unit, and a feature word extraction unit.

文書格納手段は、階層構造を構成する複数のカテゴリに属する単語を含む複数の文書を格納する。   The document storage means stores a plurality of documents including words belonging to a plurality of categories constituting a hierarchical structure.

カテゴリ格納手段は、前記階層構造を構成するカテゴリ毎に、当該カテゴリに属する文書を示すカテゴリ情報を格納する。   The category storage means stores category information indicating documents belonging to the category for each category constituting the hierarchical structure.

単語抽出手段は、前記カテゴリ情報格納手段に格納されているカテゴリ情報によって示されるユーザによって指定された第1のカテゴリに属する複数の文書に含まれる単語を、前記文書格納手段に格納されている当該複数の文書から抽出する。   The word extraction means stores words included in a plurality of documents belonging to the first category designated by the user indicated by the category information stored in the category information storage means. Extract from multiple documents.

文書数算出手段は、前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第1のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第1の文書数および前記階層構造において前記第1のカテゴリの下位に位置する第2のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第2の文書数を算出する。   The document number calculation means is a first document number indicating the number of documents in which the extracted word appears in a plurality of documents belonging to the first category based on the category information stored in the category storage means. In addition, a second document number indicating the number of documents in which the extracted word appears in a plurality of documents belonging to a second category positioned below the first category in the hierarchical structure is calculated.

特徴度算出手段は、前記第1のカテゴリに属する文書の数、前記第2のカテゴリに属する文書の数、前記第2のカテゴリの数、前記算出された第1および第2の文書数に基づいて、前記第1のカテゴリに対する前記抽出された単語の特徴度を算出する。   The feature degree calculating means is based on the number of documents belonging to the first category, the number of documents belonging to the second category, the number of second categories, and the calculated first and second document numbers. Then, the characteristic degree of the extracted word with respect to the first category is calculated.

特徴語抽出手段は、前記特徴度算出手段によって算出された特徴度に基づいて、前記抽出された単語を前記第1のカテゴリに対する特徴語として抽出する。   The feature word extraction unit extracts the extracted word as a feature word for the first category based on the feature degree calculated by the feature degree calculation unit.

第1の実施形態に係る文書分析装置のハードウェア構成を示すブロック図。1 is a block diagram showing a hardware configuration of a document analysis apparatus according to a first embodiment. 図1に示す文書分析装置30の主として機能構成を示すブロック図。The block diagram which mainly shows a function structure of the document analyzer 30 shown in FIG. 図2に示す文書格納部22に格納されている文書のデータ構造の一例を示す図。The figure which shows an example of the data structure of the document stored in the document storage part 22 shown in FIG. XML形式で記述された文書の一例を示す図。The figure which shows an example of the document described in the XML format. 図2に示すカテゴリ格納部23に格納されているカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information stored in the category storage part 23 shown in FIG. 図2に示すカテゴリ格納部23に格納されているカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information stored in the category storage part 23 shown in FIG. 図2に示すカテゴリ格納部23に格納されているカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information stored in the category storage part 23 shown in FIG. 図2に示すカテゴリ格納部23に格納されているカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information stored in the category storage part 23 shown in FIG. 図2に示すカテゴリ格納部23に格納されているカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information stored in the category storage part 23 shown in FIG. 本実施形態に係る文書分析装置30の処理手順を示すフローチャート。6 is a flowchart showing a processing procedure of the document analysis apparatus 30 according to the present embodiment. カテゴリ提示部311によってカテゴリの階層構造が提示された場合のカテゴリ階層構造提示画面の一例を示す図。The figure which shows an example of the category hierarchical structure presentation screen when the hierarchical structure of a category is shown by the category presentation part 311. FIG. 特徴語抽出要求画面の一例を示す図。The figure which shows an example of a feature word extraction request | requirement screen. 単語抽出部321によって実行される単語抽出処理の処理手順を示すフローチャート。The flowchart which shows the process sequence of the word extraction process performed by the word extraction part 321. FIG. 単語抽出処理が実行された後の単語データ格納部のデータ構造の一例を示す図。The figure which shows an example of the data structure of the word data storage part after a word extraction process is performed. 特徴語抽出部322によって実行される特徴語抽出処理の処理手順を示すフローチャート。The flowchart which shows the process sequence of the feature word extraction process performed by the feature word extraction part 322. FIG. 単語データ中の単語毎に算出されたカテゴリ集合CSに対する特徴度が格納された後の単語データ格納部のデータ構造の一例を示す図。The figure which shows an example of the data structure of the word data storage part after the characteristic degree with respect to the category set CS calculated for every word in word data is stored. 第2の実施形態に係る文書分析装置の主として機能構成を示すブロック図。The block diagram which mainly shows the function structure of the document analyzer which concerns on 2nd Embodiment. 本実施形態に係る文書分析装置50の処理手順を示すフローチャート。6 is a flowchart showing a processing procedure of the document analysis apparatus 50 according to the present embodiment. カテゴリ提示部311によってカテゴリの階層構造が提示された場合のカテゴリ階層構造提示画面の一例を示す図。The figure which shows an example of the category hierarchical structure presentation screen when the hierarchical structure of a category is shown by the category presentation part 311. FIG. クロス集計要求画面の一例を示す図。The figure which shows an example of a cross tabulation request | requirement screen. 特徴語特性算出部521によって実行される特徴語特性算出処理の処理手順を示すフローチャート。10 is a flowchart showing a processing procedure of feature word characteristic calculation processing executed by a feature word characteristic calculation unit 521; 特徴語毎に算出されたカテゴリ集合CSに対する共通度が格納された後の単語データ格納部のデータ構造の一例を示す図。The figure which shows an example of the data structure of the word data storage part after the common degree with respect to the category set CS calculated for every feature word is stored. 特徴語カテゴリ生成部522によって実行される特徴語カテゴリ生成処理の処理手順を示すフローチャート。The flowchart which shows the process sequence of the feature word category production | generation process performed by the feature word category production | generation part 522. 中間カテゴリCpに関するカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information regarding the intermediate category Cp. 特徴語「表示」を用いて生成された特徴語カテゴリに関するカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information regarding the feature word category produced | generated using the feature word "display". 特徴語「操作」を用いて生成された特徴語カテゴリに関するカテゴリ情報のデータ構造の一例を示す図。The figure which shows an example of the data structure of the category information regarding the feature word category produced | generated using the feature word "operation". クロス集計部511によって実行されるクロス集計処理の処理手順を示すフローチャート。The flowchart which shows the process sequence of the cross tabulation process performed by the cross tabulation part 511. FIG. ユーザインタフェース部51によってユーザに提示されたクロス集計結果の一例を示す図。The figure which shows an example of the cross tabulation result shown to the user by the user interface part 51. FIG.

以下、図面を参照して、各実施形態について説明する。   Hereinafter, each embodiment will be described with reference to the drawings.

(第1の実施形態)
まず、図1および図2を参照して、第1の実施形態について説明する。図1は、本実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書分析装置30を構成する。
(First embodiment)
First, the first embodiment will be described with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing a hardware configuration of the document analysis apparatus according to the present embodiment. As shown in FIG. 1, the computer 10 is connected to an external storage device 20 such as a hard disk drive (HDD). The external storage device 20 stores a program 21 executed by the computer 10. The computer 10 and the external storage device 20 constitute a document analysis device 30.

図2は、図1に示す文書分析装置30の主として機能構成を示すブロック図である。図2に示すように、文書分析装置30は、ユーザインタフェース部31および分析軸生成部32を含む。本実施形態において、これらの各部31および32は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。   FIG. 2 is a block diagram mainly showing a functional configuration of the document analysis apparatus 30 shown in FIG. As shown in FIG. 2, the document analysis device 30 includes a user interface unit 31 and an analysis axis generation unit 32. In the present embodiment, these units 31 and 32 are realized by the computer 10 illustrated in FIG. 1 executing the program 21 stored in the external storage device 20. This program 21 can be stored in advance in a computer-readable storage medium and distributed. Further, this program 21 may be downloaded to the computer 10 via, for example, a network.

また、文書分析装置30は、文書格納部22およびカテゴリ格納部23を含む。本実施形態において、文書格納部22およびカテゴリ格納部23は、例えば外部記憶装置20に格納される。   Further, the document analysis device 30 includes a document storage unit 22 and a category storage unit 23. In the present embodiment, the document storage unit 22 and the category storage unit 23 are stored in, for example, the external storage device 20.

文書格納部22には、文書分析装置30による分析の対象となる複数の文書(データ)が格納される。文書格納部22に格納される文書の各々は、例えば単語(文字列)を含み、階層構造を構成するカテゴリに属している(分類されている)。   The document storage unit 22 stores a plurality of documents (data) to be analyzed by the document analysis device 30. Each of the documents stored in the document storage unit 22 includes, for example, a word (character string) and belongs (categorized) to a category constituting a hierarchical structure.

カテゴリ格納部23には、文書が属する階層構造を構成するカテゴリ毎に、当該カテゴリに関する情報(カテゴリ情報)が格納される。カテゴリに関するカテゴリ情報には、例えば階層構造において当該カテゴリの上位に位置するカテゴリ(上位カテゴリ)、当該カテゴリに属する文書および当該カテゴリのカテゴリ名等を示す情報が含まれる。   The category storage unit 23 stores information related to the category (category information) for each category constituting the hierarchical structure to which the document belongs. The category information related to the category includes, for example, information indicating a category (upper category) positioned above the category in the hierarchical structure, a document belonging to the category, a category name of the category, and the like.

なお、文書格納部22およびカテゴリ格納部23は、ファイルシステムまたは文書データベース等によって実現されるが、例えば計算機ネットワークによって接続された複数の格納部(図示せず)によって構成されても構わない。   The document storage unit 22 and the category storage unit 23 are realized by a file system, a document database, or the like, but may be configured by a plurality of storage units (not shown) connected by a computer network, for example.

ユーザインタフェース部31は、カテゴリ提示部311を含む。カテゴリ提示部311は、例えばカテゴリ格納部23に格納されているカテゴリ情報を用いて、カテゴリの階層構造をユーザに対して提示する。なお、ユーザは、カテゴリ提示部311によって提示されたカテゴリの中から分析の対象(分析軸)となるカテゴリを指定することができる。   The user interface unit 31 includes a category presentation unit 311. The category presenting unit 311 presents the hierarchical structure of categories to the user using, for example, category information stored in the category storage unit 23. Note that the user can specify a category to be analyzed (analysis axis) from the categories presented by the category presentation unit 311.

分析軸生成部32は、階層構造においてユーザによって指定されたカテゴリ(第1のカテゴリ)の下位に位置するカテゴリ(第2のカテゴリ)の内容を相互に比較するための特徴語を抽出する機能を有する。分析軸生成部32は、単語抽出部321および特徴語抽出部322を含む。以下の説明においては、ユーザによって指定されたカテゴリを分析軸カテゴリCtgtと称する。   The analysis axis generation unit 32 has a function of extracting feature words for comparing the contents of categories (second categories) positioned below the category (first category) designated by the user in the hierarchical structure. Have. The analysis axis generation unit 32 includes a word extraction unit 321 and a feature word extraction unit 322. In the following description, the category designated by the user is referred to as an analysis axis category Ctgt.

単語抽出部321は、カテゴリ格納部23に格納されているカテゴリ情報を参照して、文書格納部22に格納されている分析軸カテゴリCtgtに属する複数の文書を例えば形態素解析する。これにより、単語抽出部321は、分析軸カテゴリCtgtに属する複数の文書に含まれる単語を、当該複数の文書から抽出する。   The word extraction unit 321 refers to the category information stored in the category storage unit 23 and performs, for example, morphological analysis on a plurality of documents belonging to the analysis axis category Ctgt stored in the document storage unit 22. Thereby, the word extraction unit 321 extracts words included in a plurality of documents belonging to the analysis axis category Ctgt from the plurality of documents.

単語抽出部321は、抽出された単語が分析軸カテゴリCtgtに属する複数の文書において出現する文書の数(第1の文書数)を、文書格納部22およびカテゴリ格納部23を参照して算出する。   The word extraction unit 321 calculates the number of documents in which the extracted word appears in a plurality of documents belonging to the analysis axis category Ctgt (first document number) with reference to the document storage unit 22 and the category storage unit 23. .

また、単語抽出部321は、抽出された単語が階層構造において分析軸カテゴリCtgtの下位に位置するカテゴリに属する複数の文書において出現する文書の数(第2の文書数)を、文書格納部22およびカテゴリ格納部23を参照して算出する。   Also, the word extraction unit 321 determines the number of documents (second document number) that appear in a plurality of documents in which the extracted words belong to a category positioned below the analysis axis category Ctgt in the hierarchical structure. And the category storage unit 23 is referred to.

特徴語抽出部322は、分析軸カテゴリCtgtに属する文書の数、階層構造において分析軸カテゴリCtgtの下位に位置するカテゴリに属する文書の数、当該カテゴリの数、単語抽出部321によって算出された文書数(第1および第2の文書数)に基づいて、分析軸カテゴリCtgtに対する単語抽出部321によって抽出された単語の特徴度を算出する。   The feature word extraction unit 322 includes the number of documents that belong to the analysis axis category Ctgt, the number of documents that belong to a category that is positioned below the analysis axis category Ctgt in the hierarchical structure, the number of the categories, and the document calculated by the word extraction unit 321. Based on the number (first and second document numbers), the feature degree of the word extracted by the word extraction unit 321 for the analysis axis category Ctgt is calculated.

特徴語抽出部322は、算出された単語の特徴度に基づいて、単語抽出部321によって抽出された単語を分析軸カテゴリCtgtに対する特徴語として抽出する。   The feature word extraction unit 322 extracts the word extracted by the word extraction unit 321 as a feature word for the analysis axis category Ctgt based on the calculated word feature.

なお、特徴語抽出部322によって抽出された特徴語は、例えばユーザインタフェース部31を介してユーザに提示される。   Note that the feature words extracted by the feature word extraction unit 322 are presented to the user via the user interface unit 31, for example.

図3は、図2に示す文書格納部22に格納されている文書のデータ構造の一例を示す。図2に示す文書221は、特許に関する情報が記述された文書(特許文書)であるものとする。   FIG. 3 shows an example of the data structure of a document stored in the document storage unit 22 shown in FIG. The document 221 shown in FIG. 2 is assumed to be a document (patent document) in which information related to a patent is described.

図3に示すように、文書221には、当該文書221を一意に識別するための識別子である文書番号が含まれる。また、文書221には、当該文書221に関するテキスト、すなわち、例えば自然言語で記述された文書名および本文が含まれる。更に、文書221には、当該文書221の目的または形式に従った属性情報が含まれる。図3に示す文書221には、属性情報として、特許出願に係る出願日および当該特許出願をした出願人が含まれる。   As shown in FIG. 3, the document 221 includes a document number that is an identifier for uniquely identifying the document 221. Further, the document 221 includes text related to the document 221, that is, a document name and a body described in, for example, a natural language. Further, the document 221 includes attribute information according to the purpose or format of the document 221. The document 221 shown in FIG. 3 includes, as attribute information, the filing date related to the patent application and the applicant who filed the patent application.

なお、図4に示すように、文書格納部22に格納される文書221は、例えばXML(eXtensible Markup Language)形式で記述して管理することも可能である。この場合、文書221に含まれるテキスト(文書名および本文)および属性情報(出願日および出願人)は、XMLの要素(タグ)等を用いて記述される。   As shown in FIG. 4, the document 221 stored in the document storage unit 22 can be described and managed in, for example, an XML (eXtensible Markup Language) format. In this case, text (document name and body text) and attribute information (application date and applicant) included in the document 221 are described using XML elements (tags) and the like.

図5〜図9は、図2に示すカテゴリ格納部23に格納されているカテゴリ情報のデータ構造の一例を示す。カテゴリ情報は、階層構造を構成するカテゴリ毎にカテゴリ格納部23に格納されている。   5 to 9 show examples of the data structure of category information stored in the category storage unit 23 shown in FIG. The category information is stored in the category storage unit 23 for each category constituting the hierarchical structure.

図5〜図9に示すように、カテゴリ情報には、カテゴリ番号、上位カテゴリ番号、カテゴリ名および分類ルールが含まれる。   As shown in FIGS. 5 to 9, the category information includes a category number, a higher category number, a category name, and a classification rule.

カテゴリ番号は、カテゴリを一意に識別するための識別子である。上位カテゴリ番号は、階層構造においてカテゴリ番号によって識別されるカテゴリの上位に位置するカテゴリ(上位カテゴリ)を識別するためのカテゴリ番号を示す。カテゴリ名は、カテゴリ番号によって識別されるカテゴリの名称を示す。分類ルールは、カテゴリ番号によって識別されるカテゴリに属する文書を示す。   The category number is an identifier for uniquely identifying the category. The upper category number indicates a category number for identifying a category (upper category) located in the upper level of the category identified by the category number in the hierarchical structure. The category name indicates the name of the category identified by the category number. The classification rule indicates documents belonging to a category identified by a category number.

図5は、カテゴリの階層構造におけるルートのカテゴリ(以下、ルートカテゴリと表記)に関するカテゴリ情報のデータ構造の一例を示す。   FIG. 5 shows an example of the data structure of the category information regarding the category of the root (hereinafter referred to as the root category) in the category hierarchical structure.

図5に示す例では、カテゴリ情報231には、カテゴリ番号「C000」、カテゴリ名「ルート」および分類ルール「true(恒真)」が含まれている。これによれば、カテゴリ番号「C000」によって識別されるルートカテゴリのカテゴリ名が「ルート」であることが示されている。ここで、分類ルール「true(恒真)」は、全ての文書が条件を満足することを表す。すなわち、カテゴリ情報231に含まれるカテゴリ番号「C000」によって識別されるカテゴリ(ルートカテゴリ)には、文書格納部22に格納されている全ての文書が属することが示されている。なお、カテゴリ番号「C000」によって識別されるカテゴリはルートカテゴリであり、階層構造において当該カテゴリの上位カテゴリは存在しないため、カテゴリ情報231に含まれる上位カテゴリ番号は「(なし)」とされている。   In the example illustrated in FIG. 5, the category information 231 includes a category number “C000”, a category name “route”, and a classification rule “true (constant)”. This indicates that the category name of the root category identified by the category number “C000” is “root”. Here, the classification rule “true (constant)” represents that all documents satisfy the condition. That is, it is shown that all the documents stored in the document storage unit 22 belong to the category (root category) identified by the category number “C000” included in the category information 231. Note that the category identified by the category number “C000” is the root category, and there is no higher category of the category in the hierarchical structure. Therefore, the higher category number included in the category information 231 is “(none)”. .

図6は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。   FIG. 6 shows an example of a data structure of category information related to a category located under the root category in the category hierarchical structure.

図6に示す例では、カテゴリ情報232には、カテゴリ番号「C001」、上位カテゴリ番号「C000」、カテゴリ名「出願人別」および分類ルール「true(恒真)」が含まれている。これによれば、カテゴリ番号「C001」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「C000」によって識別されるカテゴリ(つまり、ルートカテゴリ)であることが示されている。また、カテゴリ番号「C001」によって識別されるカテゴリのカテゴリ名が「出願人別」であり、当該カテゴリには文書格納部22に格納されている全ての文書が属することが示されている。   In the example shown in FIG. 6, the category information 232 includes a category number “C001”, a higher category number “C000”, a category name “by applicant”, and a classification rule “true”. This indicates that the upper category of the category identified by the category number “C001” is the category identified by the upper category number “C000” (that is, the root category). Further, the category name of the category identified by the category number “C001” is “By Applicant”, and it is indicated that all the documents stored in the document storage unit 22 belong to the category.

図7は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。   FIG. 7 shows an example of a data structure of category information related to a category located under the root category in the category hierarchical structure.

図7に示す例では、カテゴリ情報233には、カテゴリ番号「C002」、上位カテゴリ番号「C000」、カテゴリ名「出願年別」および分類ルール「true(恒真)」が含まれている。これによれば、カテゴリ番号「C002」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「C000」によって識別されるカテゴリ(つまり、ルートカテゴリ)であることが示されている。また、カテゴリ番号「C002」によって識別されるカテゴリのカテゴリ名が「出願年別」であり、当該カテゴリには文書格納部22に格納されている全ての文書が属することが示されている。   In the example illustrated in FIG. 7, the category information 233 includes a category number “C002”, a higher category number “C000”, a category name “by application year”, and a classification rule “true”. This indicates that the upper category of the category identified by the category number “C002” is the category identified by the upper category number “C000” (that is, the root category). Further, the category name of the category identified by the category number “C002” is “by application year”, which indicates that all documents stored in the document storage unit 22 belong to the category.

図8は、カテゴリの階層構造において図6に示すカテゴリ情報232に含まれるカテゴリ番号「C001」によって識別されるカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。   FIG. 8 shows an example of the data structure of the category information related to the category located under the category identified by the category number “C001” included in the category information 232 shown in FIG. 6 in the category hierarchical structure.

図8に示す例では、カテゴリ情報234には、カテゴリ番号「C101」、上位カテゴリ番号「C001」、カテゴリ名「A社」および分類ルール「./出願人=”A社”」が含まれている。これによれば、カテゴリ番号「C101」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「C001」によって識別されるカテゴリであることが示されている。また、カテゴリ番号「C101」によって識別されるカテゴリのカテゴリ名が「A社」であることが示されている。   In the example illustrated in FIG. 8, the category information 234 includes a category number “C101”, a higher category number “C001”, a category name “Company A”, and a classification rule “./Applicant=“Company A” ”. Yes. This indicates that the upper category of the category identified by the category number “C101” is the category identified by the upper category number “C001”. Further, it is indicated that the category name of the category identified by the category number “C101” is “Company A”.

ここで、カテゴリ情報234に含まれている分類ルール「./出願人=”A社”」は、文書に含まれる属性情報である出願人がA社であることを条件とするルールである。つまり、この分類ルール「./出願人=”A社”」によれば、カテゴリ番号「C101」によって識別されるカテゴリには、出願人がA社である文書(つまり、属性情報として出願人「A社」を含む文書)が属することが示されている。   Here, the classification rule “./applicant=“Company A” ”included in the category information 234 is a rule on condition that the applicant, which is attribute information included in the document, is the company A. That is, according to the classification rule “./applicant=“Company A” ”, the category identified by the category number“ C101 ”includes a document in which the applicant is Company A (that is, the applicant“ Documents including “Company A” belong.

なお、この分類ルール「./出願人=”A社”」は、上記したXML形式で記述された文書についての条件が記述された例である。ここでは、XQuery(またはXPath)と呼ばれる問合せ言語を用いて記述されている。   The classification rule “./applicant=“Company A” ”is an example in which conditions for a document described in the XML format described above are described. Here, it is described using a query language called XQuery (or XPath).

図9は、カテゴリの階層構造において図7に示すカテゴリ情報233に含まれるカテゴリ番号「C002」によって識別されるカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。   FIG. 9 shows an example of the data structure of the category information related to the category located in the lower level of the category identified by the category number “C002” included in the category information 233 shown in FIG. 7 in the category hierarchical structure.

図9に示す例では、カテゴリ情報235には、カテゴリ番号「C206」、上位カテゴリ番号「C002」、カテゴリ名「2008年」および分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」が含まれている。これによれば、カテゴリ番号「C206」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「C002」によって識別されるカテゴリであることが示されている。また、カテゴリ番号「C206」によって識別されるカテゴリのカテゴリ名が「2008年」であることが示されている。   In the example shown in FIG. 9, the category information 235 includes a category number “C206”, a higher category number “C002”, a category name “2008”, and a classification rule “./application date> =” 2008/01/01 ”and ./Application date <= ”2008/12/31” ”is included. This indicates that the upper category of the category identified by the category number “C206” is the category identified by the upper category number “C002”. Further, it is indicated that the category name of the category identified by the category number “C206” is “2008”.

ここで、カテゴリ情報235に含まれている分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」は、文書に含まれる属性情報である出願日が2008年(つまり、2008年1月1日〜2008年12月31)であることを条件とするルールである。つまり、この分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」によれば、カテゴリ番号「C206」によって識別されるカテゴリには、出願日が2008年である文書(つまり、属性情報として出願日「2008/01/01」〜「2008/12/31」を含む文書)が属することが示されている。なお、この分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」は、上記したXQueryと呼ばれる問合せ言語を用いて記述されている。   Here, the classification rules “./application date> =” 2008/01/01 ”and ./application date <=” 2008/12/31 ”included in the category information 235 are attribute information included in the document. Is a rule on condition that the filing date is 2008 (that is, from January 1, 2008 to December 31, 2008). That is, according to this classification rule “./application date> =” 2008/01/01 ”and ./application date <=” 2008/12/31 ”, the category identified by the category number“ C206 ” , A document whose application date is 2008 (that is, a document including application dates “2008/01/01” to “2008/12/31” as attribute information) belongs. The classification rules “./application date> =” 2008/01/01 ”and ./application date <=“ 2008/12/31 ”” are described using the above-described query language called XQuery. .

ここで、例えば図7に示すカテゴリ情報235がカテゴリ番号「C101」によって識別されるカテゴリの下位に位置するカテゴリに関するカテゴリ情報である場合、つまり、カテゴリ情報235に含まれる上位カテゴリ番号が「C101」である場合を想定する。この場合、カテゴリ情報235に含まれるカテゴリ番号「C206」によって識別されるカテゴリには、出願人がA社であり、かつ、出願日が2008年である文書が属する。つまり、階層構造において下位の位置にあるカテゴリには、当該カテゴリに関するカテゴリ情報に含まれる分類ルールと、当該カテゴリの上位カテゴリに関するカテゴリ情報に含まれる分類ルールとのAND条件に合致する文書が属する。換言すれば、カテゴリ情報に含まれる分類ルールは、カテゴリの階層構造に対してAND条件として作用する。これによれば、階層構造において下位の位置にあるカテゴリには、当該カテゴリの上位に位置するカテゴリに属する文書が属することになる。   Here, for example, when the category information 235 shown in FIG. 7 is category information related to a category located under the category identified by the category number “C101”, that is, the upper category number included in the category information 235 is “C101”. Assuming that In this case, the category identified by the category number “C206” included in the category information 235 includes a document whose applicant is company A and whose application date is 2008. That is, a document that matches the AND condition of the classification rule included in the category information related to the category and the classification rule included in the category information related to the upper category of the category belongs to the category at a lower position in the hierarchical structure. In other words, the classification rule included in the category information acts as an AND condition for the hierarchical structure of the category. According to this, a document that belongs to a category that is higher in the category belongs to a category that is lower in the hierarchical structure.

なお、上記した図8および図9に示すカテゴリ情報234および235に含まれる分類ルールはXQueryと呼ばれる問合せ言語を用いて記述されるものとして説明したが、当該分類ルールの記述形式は、上述した文書格納部22の実現方法または当該文書格納部22に格納される文書のデータ形式に応じて定めればよく、例えばSQL等が用いられても構わない。   The classification rules included in the category information 234 and 235 shown in FIGS. 8 and 9 have been described as being described using a query language called XQuery. However, the description format of the classification rules is the document described above. What is necessary is just to determine according to the realization method of the storage part 22, or the data format of the document stored in the said document storage part 22, for example, SQL etc. may be used.

次に、図10のフローチャートを参照して、本実施形態に係る文書分析装置30の処理手順について説明する。   Next, a processing procedure of the document analysis apparatus 30 according to the present embodiment will be described with reference to the flowchart of FIG.

まず、ユーザインタフェース部31に含まれるカテゴリ提示部311は、カテゴリ格納部23に格納されているカテゴリ情報を取得する(ステップS1)。   First, the category presentation unit 311 included in the user interface unit 31 acquires category information stored in the category storage unit 23 (step S1).

次に、カテゴリ提示部311は、取得されたカテゴリ情報に含まれるカテゴリ番号、上位カテゴリ番号およびカテゴリ名に基づいて、カテゴリの階層構造をユーザに提示(表示)する(ステップS2)。   Next, the category presenting unit 311 presents (displays) the category hierarchical structure to the user based on the category number, the upper category number, and the category name included in the acquired category information (step S2).

ここで、図11は、カテゴリ提示部311によってカテゴリの階層構造が提示された場合の画面(以下、カテゴリ階層構造提示画面と表記)の一例を示す。   Here, FIG. 11 shows an example of a screen when a category hierarchy structure is presented by the category presentation unit 311 (hereinafter referred to as a category hierarchy structure presentation screen).

図11に示すように、カテゴリ階層構造提示画面100には、階層構造を構成するカテゴリのカテゴリ名がツリー状(カテゴリツリー)で表示される。以下、例えばカテゴリ名が出願人別であるカテゴリを単にカテゴリ「出願人別」と称する。なお、他のカテゴリについても同様とする。   As shown in FIG. 11, the category hierarchy structure presentation screen 100 displays the category names of the categories constituting the hierarchical structure in a tree form (category tree). Hereinafter, for example, a category having a category name by applicant is simply referred to as a category “by applicant”. The same applies to other categories.

図11に示すカテゴリ階層構造提示画面100おいては、カテゴリ「出願人別」がルートカテゴリの下位に位置するカテゴリであることが示されている。また、カテゴリ階層構造提示画面100においては、カテゴリ「A社」、「B社」、「C社」、…、「J社」がカテゴリ「出願人別」の下位に位置するカテゴリであることが示されている。   In the category hierarchical structure presentation screen 100 shown in FIG. 11, it is shown that the category “by applicant” is a category located under the root category. In the category hierarchical structure presentation screen 100, the categories “Company A”, “Company B”, “Company C”,... It is shown.

同様に、カテゴリ階層構造提示画面100においては、カテゴリ「出願年別」がルートカテゴリの下位に位置するカテゴリであることが示されている。また、カテゴリ階層構造提示画面100においては、カテゴリ「2004年」、「2005年」、「2006年」、「2007年」および「2008年」がカテゴリ「出願年別」の下位に位置するカテゴリであることが示されている。   Similarly, the category hierarchical structure presentation screen 100 indicates that the category “by application year” is a category located under the root category. In the category hierarchical structure presentation screen 100, the categories “2004”, “2005”, “2006”, “2007”, and “2008” are categories that are subordinate to the category “by application year”. It is shown that there is.

なお、図11に示すカテゴリ階層構造提示画面100において、「ルート(3000件)」が表示されているが、当該「3000件」は、ルートカテゴリに属する文書(つまり、文書格納部22に格納されている文書)の数を表す。   In the category hierarchical structure presentation screen 100 shown in FIG. 11, “Root (3000)” is displayed, but the “3000” is stored in the document belonging to the root category (that is, stored in the document storage unit 22). Number of documents).

ここで、上記したカテゴリ階層構造提示画面100がカテゴリ提示部311によって提示されると、ユーザは、当該カテゴリ階層構造提示画面100を参照することによって、当該カテゴリ階層構造提示画面100に表示されている複数のカテゴリの中から分析の対象(分析軸)となるカテゴリ(以下、分析軸カテゴリCtgtと表記)を指定することができる。   When the category hierarchical structure presentation screen 100 is presented by the category presentation unit 311, the user is displayed on the category hierarchical structure presentation screen 100 by referring to the category hierarchical structure presentation screen 100. A category to be analyzed (analysis axis) (hereinafter referred to as an analysis axis category Ctgt) can be designated from a plurality of categories.

カテゴリ階層構造提示画面100において分析軸カテゴリCtgtとして例えばカテゴリ「出願人別」が指定されたものとすると、図12に示すような画面(以下、特徴語抽出要求画面と表記)110が表示される。   If the category “By Applicant” is designated as the analysis axis category Ctgt on the category hierarchical structure presentation screen 100, for example, a screen (hereinafter referred to as a feature word extraction request screen) 110 shown in FIG. 12 is displayed. .

図12に示すように、特徴語抽出要求画面110には、カテゴリの階層構造に加えてサブ画面111が表示されている。このサブ画面111には、例えば「カテゴリ「出願人別」を分析軸として特徴語を抽出します。」が表示されている。   As shown in FIG. 12, the feature word extraction request screen 110 displays a sub screen 111 in addition to the hierarchical structure of categories. In this sub-screen 111, for example, feature words are extracted with the category “By Applicant” as the analysis axis. Is displayed.

また、このサブ画面111には、実行ボタン111aおよびキャンセルボタン111bが設けられている。   The sub-screen 111 is provided with an execution button 111a and a cancel button 111b.

文書分析装置30に対するユーザの操作に応じてサブ画面111に設けられている実行ボタン111aが選択されると、分析軸カテゴリCtgt(ここでは、カテゴリ「出願人別」)に対する特徴語の抽出が文書分析装置30に対して要求される。   When the execution button 111a provided on the sub-screen 111 is selected in response to a user operation on the document analysis apparatus 30, feature word extraction for the analysis axis category Ctgt (here, category “by applicant)” is performed. Required for the analyzer 30.

一方、文書分析装置30に対するユーザの操作に応じてサブ画面111に設けられているキャンセルボタン111bが選択されると、分析軸カテゴリCtgtを選択し直すための画面として例えば図11に示すカテゴリ階層構造提示画面100が表示される。   On the other hand, when a cancel button 111b provided on the sub screen 111 is selected in response to a user operation on the document analysis device 30, a screen for reselecting the analysis axis category Ctgt is displayed as, for example, a category hierarchical structure shown in FIG. A presentation screen 100 is displayed.

なお、サブ画面111には、抽出される特徴語の数を設定する欄111cが設けられており、この欄111cに対してユーザは所望の数値を入力することができる。   The sub-screen 111 is provided with a column 111c for setting the number of feature words to be extracted, and the user can input a desired numerical value in this column 111c.

再び図10に戻ると、ユーザの操作に応じて上記した特徴語の抽出が要求されたか否かが判定される(ステップS3)。   Returning to FIG. 10 again, it is determined whether or not the above feature word extraction is requested in accordance with the user's operation (step S3).

特徴語の抽出が要求されたと判定された場合(ステップS3のYES)、分析軸生成部32に含まれる単語抽出部321は、分析軸カテゴリCtgt(の下位に位置するカテゴリの集合)に属する文書に含まれる単語を抽出し、当該抽出された単語の出現頻度等を算出する処理(以下、単語抽出処理と表記)を実行する。なお、単語抽出処理の詳細については後述する。   If it is determined that feature word extraction is requested (YES in step S3), the word extraction unit 321 included in the analysis axis generation unit 32 is a document that belongs to the analysis axis category Ctgt (a set of categories positioned below the analysis axis category Ctgt). The process of extracting the word contained in (3) and calculating the appearance frequency of the extracted word (hereinafter referred to as word extraction process) is executed. Details of the word extraction process will be described later.

次に、特徴語抽出部322は、単語抽出部321によって抽出された単語の中から分析軸カテゴリCtgt(の下位に位置するカテゴリの集合)に対する特徴語を抽出する処理(以下、特徴語抽出処理と表記)を実行する(ステップS5)。この特徴語抽出処理においては、単語抽出部321によって算出された単語の出現頻度等に基づいて当該単語抽出部321によって抽出された単語の特徴度が算出され、当該特徴度に基づいて特徴語が抽出される。なお、特徴語抽出処理の詳細については後述する。   Next, the feature word extraction unit 322 extracts a feature word for the analysis axis category Ctgt (a set of categories positioned below the analysis axis category Ctgt) from the words extracted by the word extraction unit 321 (hereinafter, feature word extraction process). Is written) (step S5). In the feature word extraction process, the feature degree of the word extracted by the word extraction unit 321 is calculated based on the appearance frequency of the word calculated by the word extraction unit 321, and the feature word is calculated based on the feature degree. Extracted. Details of the feature word extraction process will be described later.

ユーザインタフェース部31(に含まれるカテゴリ提示部311)は、特徴語抽出部322によって抽出された特徴語をユーザに対して提示する(ステップS6)。   The user interface unit 31 (the category presentation unit 311 included therein) presents the feature word extracted by the feature word extraction unit 322 to the user (step S6).

これにより、階層構造において分析軸カテゴリCtgtの下位に位置するカテゴリの内容を相互に比較するのに適した特徴語をユーザに対して提示することができる。   As a result, it is possible to present to the user a feature word that is suitable for comparing the contents of categories that are positioned below the analysis axis category Ctgt in the hierarchical structure.

次に、図13のフローチャートを参照して、上述した単語抽出部321によって実行される単語抽出処理(図10に示すステップS4の処理)の処理手順について説明する。   Next, with reference to the flowchart of FIG. 13, the process procedure of the word extraction process (process of step S4 shown in FIG. 10) performed by the word extraction part 321 mentioned above is demonstrated.

まず、単語抽出部321は、階層構造においてユーザによって指定された分析軸カテゴリCtgtの下位に位置するカテゴリ(当該分析軸カテゴリCtgtを上位カテゴリとするカテゴリ)の集合(以下、カテゴリ集合CSと表記)を特定する(ステップS11)。つまり、このカテゴリ集合CSには、階層構造において分析軸カテゴリCtgtの下位に位置するカテゴリが含まれる。   First, the word extraction unit 321 includes a set of categories (category having the analysis axis category Ctgt as an upper category) positioned below the analysis axis category Ctgt specified by the user in the hierarchical structure (hereinafter referred to as a category set CS). Is specified (step S11). That is, the category set CS includes categories that are positioned below the analysis axis category Ctgt in the hierarchical structure.

なお、カテゴリ集合CSに含まれるカテゴリ(分析軸カテゴリCtgtを上位カテゴリとするカテゴリ)は、分析軸カテゴリCtgtを識別するためのカテゴリ番号を上位カテゴリ番号として含むカテゴリ情報のカテゴリ番号によって識別されるカテゴリである。   A category included in the category set CS (a category having the analysis axis category Ctgt as a higher category) is a category identified by a category number of category information including a category number for identifying the analysis axis category Ctgt as a higher category number. It is.

ここで、単語抽出部321によって特定されたカテゴリ集合CSには、カテゴリC1、C2、…、Caのa個のカテゴリが含まれているものとする。   Here, it is assumed that the category set CS specified by the word extraction unit 321 includes a categories of categories C1, C2,.

単語抽出部321は、以下の処理において用いられる空の文書集合Dallを用意する(ステップS12)。   The word extraction unit 321 prepares an empty document set Dall used in the following processing (step S12).

次に、単語抽出部321は、カテゴリ集合CSに含まれるカテゴリCi(i=1、2、…、a)について以下のステップS13およびS14の処理を実行する。   Next, the word extraction unit 321 performs the following processes of steps S13 and S14 for the category Ci (i = 1, 2,..., A) included in the category set CS.

単語抽出部321は、カテゴリCiに関するカテゴリ情報をカテゴリ格納部23から取得する。ここで、単語抽出部321は、カテゴリCiを識別するためのカテゴリ番号を含むカテゴリ情報を取得する。   The word extraction unit 321 acquires category information regarding the category Ci from the category storage unit 23. Here, the word extraction unit 321 acquires category information including a category number for identifying the category Ci.

単語抽出部321は、取得されたカテゴリ情報に基づいて、カテゴリCiに属する文書の集合(以下、文書集合Diと表記)を文書格納部22から取得する(ステップS13)。この場合、単語抽出部321は、取得されたカテゴリ情報に含まれる分類ルールによって示される条件に合致する文書の集合を文書集合Diとして取得する。   Based on the acquired category information, the word extraction unit 321 acquires a set of documents belonging to the category Ci (hereinafter referred to as document set Di) from the document storage unit 22 (step S13). In this case, the word extraction unit 321 acquires a set of documents that match the condition indicated by the classification rule included in the acquired category information as the document set Di.

単語抽出部321は、取得された文書集合Diおよび文書集合Dallの和集合を後の処理における文書集合Dallとする(ステップS14)。   The word extraction unit 321 sets the union of the acquired document set Di and document set Dall as the document set Dall in the subsequent processing (step S14).

次に、単語抽出部321は、カテゴリ集合CSに含まれる全てのカテゴリ(つまり、カテゴリC1、C2、…、Ca)についてステップS13およびS14の処理が実行されたか否かを判定する(ステップS15)。   Next, the word extraction unit 321 determines whether or not the processing in steps S13 and S14 has been executed for all categories (that is, categories C1, C2,..., Ca) included in the category set CS (step S15). .

全てのカテゴリについて処理が実行されていないと判定された場合(ステップS15のNO)、上記したステップS13に戻って処理が繰り返される。   If it is determined that the process has not been executed for all categories (NO in step S15), the process returns to the above-described step S13 and is repeated.

このようにカテゴリ集合CSに含まれる全てのカテゴリについてステップS13およびS14の処理が繰り返されることによって、単語抽出部321は、当該カテゴリ集合CSに属する全ての文書を含む文書集合Dallを取得する。   As described above, by repeating the processes of steps S13 and S14 for all categories included in the category set CS, the word extracting unit 321 acquires a document set Dall including all the documents belonging to the category set CS.

ステップS15において全てのカテゴリについて処理が実行されたと判定された場合、単語抽出部321は、取得された文書集合Dallに含まれる全ての文書のテキスト情報(当該文書に含まれる文書名および本文)を形態素解析する(ステップS16)。これにより、単語抽出部321は、文書集合Dallに含まれる文書の各々に含まれる単語(形態素)を抽出する。   When it is determined in step S15 that processing has been executed for all categories, the word extraction unit 321 obtains text information (document names and texts included in the document) of all documents included in the acquired document set Dall. Morphological analysis is performed (step S16). As a result, the word extraction unit 321 extracts words (morphemes) included in each of the documents included in the document set Dall.

次に、単語抽出部321は、抽出された単語の各々について以下のステップS17〜S21の処理を実行する。このステップS17〜S21の処理の対象となる単語を単語tと称する。   Next, the word extraction part 321 performs the process of the following steps S17-S21 about each of the extracted word. A word to be processed in steps S17 to S21 is referred to as a word t.

この場合、単語抽出部321は、文書集合Dallにおいて出現する単語tの数(当該文書集合Dallにおける当該単語tの単語頻度)を示すtf(t,Dall)および当該文書集合Dallにおいて単語tが出現する文書の数(当該文書集合Dallにおける当該単語tの文書頻度)を示すdf(t,Dall)を算出する(ステップS17)。   In this case, the word extraction unit 321 generates tf (t, Dall) indicating the number of words t appearing in the document set Dall (word frequency of the word t in the document set Dall) and the word t appears in the document set Dall. Df (t, Dall) indicating the number of documents to be processed (document frequency of the word t in the document set Dall) is calculated (step S17).

単語抽出部321は、算出されたtf(t,Dall)およびdf(t,Dall)を例えば分析軸生成部32の内部の図示しない格納部(以下、単語データ格納部と表記)に格納する(ステップS18)。   The word extraction unit 321 stores the calculated tf (t, Dall) and df (t, Dall) in, for example, a storage unit (not shown) inside the analysis axis generation unit 32 (hereinafter referred to as a word data storage unit) ( Step S18).

次に、単語抽出部321は、カテゴリ集合CSに含まれるカテゴリCiについて以下のステップS19およびS20の処理を実行する。   Next, the word extraction unit 321 executes the following processes of steps S19 and S20 for the category Ci included in the category set CS.

この場合、単語抽出部321は、文書集合Di(カテゴリCiに属する文書集合)において出現する単語tの数(当該文書集合Diにおける単語tの単語頻度)を示すtf(t,Di)および当該文書集合Diにおいて単語tが出現する文書の数(当該文書集合Diにおける当該単語tの文書頻度)を示すdf(t,Di)を算出する(ステップS19)。   In this case, the word extraction unit 321 includes tf (t, Di) indicating the number of words t appearing in the document set Di (document set belonging to the category Ci) (word frequency of the word t in the document set Di) and the document Df (t, Di) indicating the number of documents in which the word t appears in the set Di (document frequency of the word t in the document set Di) is calculated (step S19).

単語抽出部321は、算出されたtf(t,Di)およびdf(t,Di)を単語データ格納部に格納する(ステップS20)。   The word extraction unit 321 stores the calculated tf (t, Di) and df (t, Di) in the word data storage unit (step S20).

次に、単語抽出部321は、カテゴリ集合CSに含まれる全てのカテゴリ(つまり、カテゴリC1、C2、…、Ca)についてステップS19およびS20の処理が実行されたか否かを判定する(ステップS21)。   Next, the word extraction unit 321 determines whether or not the processing in steps S19 and S20 has been executed for all categories included in the category set CS (that is, categories C1, C2,..., Ca) (step S21). .

全てのカテゴリについて処理が実行されていないと判定された場合(ステップS21のNO)、上記したステップS19に戻って処理が繰り返される。   If it is determined that the process has not been executed for all categories (NO in step S21), the process returns to step S19 described above and the process is repeated.

一方、全てのカテゴリについて処理が実行されたと判定された場合(ステップS21のYES)、単語抽出部321は、抽出された全ての単語についてステップS17〜ステップS21の処理が実行されたか否かを判定する(ステップS22)。   On the other hand, when it is determined that the processing has been executed for all categories (YES in step S21), the word extraction unit 321 determines whether the processing in steps S17 to S21 has been executed for all the extracted words. (Step S22).

全ての単語について処理が実行されていないと判定された場合(ステップS22のNO)、上記したステップS17に戻って処理が繰り返される。この場合、ステップS17〜ステップS21の処理が実行されていない単語を単語tとして処理が実行される。   If it is determined that the processing has not been performed for all words (NO in step S22), the process returns to the above-described step S17 and the processing is repeated. In this case, the processing is executed with the word t for which the processing of steps S17 to S21 has not been executed as the word t.

一方、全ての単語について処理が実行されたと判定された場合(ステップS22のYES)、単語抽出処理は終了される。   On the other hand, when it is determined that the process has been executed for all words (YES in step S22), the word extraction process is terminated.

このように単語抽出処理が実行されると、単語データ格納部には、単語抽出部321によって抽出された単語tおよびカテゴリ集合CSに含まれるカテゴリCi(の組)毎に、当該カテゴリCiに属する文書集合Diにおける当該単語tの単語頻度TF(tf(t,Di))および文書頻度DF(df(t,Di))が格納される。また、単語データ格納部には、単語抽出部321によって抽出された単語t毎に、当該カテゴリ集合CSに属する文書集合Dallにおける当該単語tの単語頻度TF(tf(t,Dall))および文書頻度DF(df(t,Dall))が格納される。   When the word extraction process is performed in this way, the word data storage unit belongs to the category Ci for each category Ci (set) included in the word t extracted by the word extraction unit 321 and the category set CS. A word frequency TF (tf (t, Di)) and a document frequency DF (df (t, Di)) of the word t in the document set Di are stored. The word data storage unit stores the word frequency TF (tf (t, Dall)) and document frequency of the word t in the document set Dall belonging to the category set CS for each word t extracted by the word extraction unit 321. DF (df (t, Dall)) is stored.

なお、図13に示す単語抽出処理においては、単語抽出部321によって抽出された全ての単語についてステップS17〜S21の処理が実行されるものとして説明したが、例えば所定の品詞の単語のみを当該処理の対象とする、または、当該抽出された単語から不要語を除くことによって、当該処理の対象となる単語の絞り込みを行っても構わない。具体的には、品詞がサ変名詞および固有名詞を含む名詞である単語のみを対象とし、接続詞および副詞等は処理の対象としない構成であってもよい。また、文書格納部22に格納されている文書が特許文書である場合には、例えば「装置」および「手段」のような単語は文書の特徴を表さないため、不要語として除去しても構わない。   In the word extraction process illustrated in FIG. 13, it has been described that the processes in steps S <b> 17 to S <b> 21 are performed on all the words extracted by the word extraction unit 321. The target words may be narrowed down by removing unnecessary words from the extracted words. Specifically, the configuration may be such that only the words whose part of speech is a noun including sa-variant nouns and proper nouns are considered, and the conjunctions, adverbs and the like are not subject to processing. Further, when the document stored in the document storage unit 22 is a patent document, for example, words such as “device” and “means” do not represent the characteristics of the document and can be removed as unnecessary words. I do not care.

ここで、図14は、単語抽出処理が実行された後の単語データ格納部のデータ構造の一例を示す。   Here, FIG. 14 shows an example of the data structure of the word data storage unit after the word extraction processing is executed.

図14に示すように、単語データ格納部には、単語抽出部321によって抽出された単語およびカテゴリ集合CSに含まれるカテゴリ(の組)に対応づけて当該単語の文書頻度DFおよび単語頻度TFが格納されている。なお、図14に示す例では、便宜的に、単語抽出部321によって抽出された単語として「操作」、「通信」、「パネル」、「レンジ」、「フィルム」および「表示」のみが示されており、カテゴリ集合CSに含まれるカテゴリとしてカテゴリ「A社」、「B社」、「C社」および「D社」のみが示されている。   As shown in FIG. 14, the word data storage unit stores the document frequency DF and word frequency TF of the word in association with the word extracted by the word extraction unit 321 and the category (set) included in the category set CS. Stored. In the example shown in FIG. 14, for convenience, only “operation”, “communication”, “panel”, “range”, “film”, and “display” are shown as words extracted by the word extraction unit 321. Only the categories “Company A”, “Company B”, “Company C”, and “Company D” are shown as categories included in the category set CS.

具体的には、単語データ格納部には、単語「操作」およびカテゴリ「A社」に対応づけて文書頻度DF(当該単語「操作」が単語tであり、カテゴリ「A社」に属する文書集合が文書集合Diである場合のdf(t,Di))として「34」が格納されている。これによれば、単語「操作」は、カテゴリ「A社」に属する文書集合において34の文書に出現することが示されている。   Specifically, in the word data storage unit, the document frequency DF (the word “operation” is the word t and the document set belonging to the category “Company A”) is associated with the word “operation” and the category “Company A”. “34” is stored as df (t, Di)) when is a document set Di. This shows that the word “operation” appears in 34 documents in the document set belonging to the category “Company A”.

同様に、単語データ格納部には、単語「操作」およびカテゴリ「A社」に対応づけて単語頻度TF(当該単語「操作」が単語tであり、「A社」カテゴリに属する文書集合が文書集合Diである場合のtf(t,Di))として「117」が格納されている。これによれば、単語「操作」は、カテゴリ「A社」に属する文書集合において117回出現することが示されている。   Similarly, the word data storage unit associates the word “operation” and the category “Company A” with the word frequency TF (the word “operation” is the word t, and the document set belonging to the “Company A” category is a document. “117” is stored as tf (t, Di)) in the case of the set Di. This shows that the word “operation” appears 117 times in the document set belonging to the category “Company A”.

ここでは、単語「操作」およびカテゴリ「A社」に対応づけて単語データ格納部に格納されている文書頻度DFおよび単語頻度TFについてのみ説明したが、他の文書頻度DFおよび単語頻度TFについても同様であるため、その詳しい説明を省略する。   Although only the document frequency DF and the word frequency TF stored in the word data storage unit in association with the word “operation” and the category “Company A” have been described here, other document frequencies DF and word frequencies TF are also described. Since it is the same, the detailed description is abbreviate | omitted.

また、単語データ格納部には、単語抽出部321によって抽出された各単語の全文書(カテゴリ集合CSに属する文書集合Dall)における文書頻度DFおよび単語頻度TFが格納されている。   Further, the word data storage unit stores the document frequency DF and the word frequency TF in all documents (document set Dall belonging to the category set CS) of each word extracted by the word extraction unit 321.

図14に示す例では、単語データ格納部には、全文書における単語「操作」の文書頻度DF(当該単語「操作」が単語tである場合のdf(t,Dall))として「169」が格納されている。これによれば、単語「操作」は、カテゴリ集合CSに属する文書集合Dallにおいて169の文書に出現することが示されている。   In the example illustrated in FIG. 14, “169” is stored in the word data storage unit as the document frequency DF of the word “operation” in all documents (df (t, Dall) when the word “operation” is the word t). Stored. This indicates that the word “operation” appears in 169 documents in the document set Dall belonging to the category set CS.

同様に、単語データ格納部には、全文書における単語「操作」の単語頻度TF(当該単語「操作」が単語tである場合のtf(t,Dall))として「525」が格納されている。これによれば、単語「操作」は、カテゴリ集合CSに属する文書集合Dallにおいて525回出現することが示されている。   Similarly, the word data storage unit stores “525” as the word frequency TF of the word “operation” in all documents (tf (t, Dall) when the word “operation” is the word t). . This shows that the word “operation” appears 525 times in the document set Dall belonging to the category set CS.

なお、図14においては図示されていないが、単語データ格納部には、カテゴリ集合CSに含まれるカテゴリ毎に当該カテゴリに属する文書の数(つまり、カテゴリCiに属する文書集合Diに含まれる文書の数)および当該カテゴリ集合CSに属する文書の数(つまり、カテゴリ集合CSに属する文書集合Dallに含まれる文書の数)等の情報が格納されている。   Although not shown in FIG. 14, the word data storage unit stores the number of documents belonging to the category for each category included in the category set CS (that is, the number of documents included in the document set Di belonging to the category Ci. Number) and the number of documents belonging to the category set CS (that is, the number of documents included in the document set Dall belonging to the category set CS) are stored.

次に、図15のフローチャートを参照して、上述した特徴語抽出部322によって実行される特徴語抽出処理(図10に示すステップS5の処理)の処理手順について説明する。なお、上記した単語データ格納部に格納されている情報を、便宜的に単語データと称する。   Next, the procedure of the feature word extraction process (the process of step S5 shown in FIG. 10) executed by the feature word extraction unit 322 will be described with reference to the flowchart of FIG. The information stored in the word data storage unit is referred to as word data for convenience.

まず、特徴語抽出部322は、上記した単語データ格納部に格納されている単語データを取得する(ステップS31)。   First, the feature word extraction unit 322 acquires the word data stored in the word data storage unit (step S31).

次に、特徴語抽出部322は、取得された単語データ中の単語の各々について以下のステップS32およびS33の処理を実行する。このステップS32およびS33の処理の対象となる単語を単語tと称する。   Next, the feature word extraction unit 322 performs the following steps S32 and S33 for each word in the acquired word data. A word to be processed in steps S32 and S33 is referred to as a word t.

特徴語抽出部322は、取得された単語データを用いて、分析軸カテゴリCtgt(カテゴリ集合CS)に対する単語tの特徴度を算出する(ステップS32)。   The feature word extraction unit 322 calculates the feature degree of the word t with respect to the analysis axis category Ctgt (category set CS) using the acquired word data (step S32).

ここで、分析軸カテゴリCtgtに対する単語tの特徴度の算出について詳細に説明する。以下の説明においては、カテゴリ集合CS(分析軸カテゴリCtgt)に属する全ての文書の集合を上記したように文書集合Dallとする。また、カテゴリ集合CSにはカテゴリC1、C2、…、Caが含まれるものとし、当該カテゴリ集合CSに含まれるカテゴリの数をaとする。更に、カテゴリ集合CSに含まれるカテゴリのうちのi番目のカテゴリをカテゴリCi(i=1,2,…,a)とする。また、カテゴリCiに属する文書の集合を文書集合Diとする。また、文書集合Dallに含まれる文書の数を文書数|Dall|とし、文書集合Diに含まれる文書の数を文書数|Di|とする。   Here, calculation of the characteristic degree of the word t with respect to the analysis axis category Ctgt will be described in detail. In the following description, the set of all documents belonging to the category set CS (analysis axis category Ctgt) is referred to as the document set Dall as described above. Further, it is assumed that the category set CS includes categories C1, C2,..., Ca, and a is the number of categories included in the category set CS. Further, the i-th category among the categories included in the category set CS is defined as a category Ci (i = 1, 2,..., A). A set of documents belonging to the category Ci is set as a document set Di. Further, the number of documents included in the document set Dall is set as the document number | Dall |, and the number of documents included in the document set Di is set as the number of documents | Di |.

まず、特徴語抽出部322は、文書数|Dall|および文書集合Dallにおける単語tの文書頻度DF(つまり、df(t,Dall))に基づいて、当該文書集合Dallにおける単語tの出現確率に対する当該文書毎の偏りsおよび当該偏りsの自由度φを算出する。具体的には、偏りsおよび自由度φは、以下の式(1)および(2)により算出される。

Figure 2012093966
First, the feature word extraction unit 322 determines the occurrence probability of the word t in the document set Dall based on the number of documents | Dall | and the document frequency DF of the word t in the document set Dall (that is, df (t, Dall)). calculating the degree of freedom phi t deviation s t and the bias s t of the each document. Specifically, the bias s t and the degree of freedom φ t are calculated by the following equations (1) and (2).
Figure 2012093966

Figure 2012093966
Figure 2012093966

また、特徴語抽出部322は、カテゴリ集合CSに含まれるカテゴリの数a、文書数|Di|および文書集合Diにおける単語tの文書頻度DF(つまり、df(t,Di))に基づいて、文書集合Dallにおける単語tの出現確率に対するカテゴリ毎の偏りsおよび当該偏りsの自由度φを算出する。具体的には、偏りsおよび自由度φは、以下の式(3)および(4)により算出される。

Figure 2012093966
Also, the feature word extraction unit 322 is based on the number of categories a included in the category set CS, the number of documents | Di |, and the document frequency DF of the word t in the document set Di (that is, df (t, Di)). A bias s a for each category with respect to the appearance probability of the word t in the document set Dall and a degree of freedom φ a of the bias s a are calculated. Specifically, the bias s a and the degree of freedom φ a are calculated by the following equations (3) and (4).
Figure 2012093966

Figure 2012093966
Figure 2012093966

次に、特徴語抽出部322は、上記したように算出された偏りs、偏りs、文書数|Dall|およびカテゴリ集合CSに含まれるカテゴリの数aに基づいて、当該カテゴリ毎の平均に対する偏りsおよび当該偏りsの自由度φを算出する。具体的には、偏りsおよび自由度φは、以下の式(5)および(6)により算出される。

Figure 2012093966
Next, the feature word extraction unit 322 calculates the average for each category based on the bias s t , the bias s a calculated as described above, the number of documents | Dall |, and the number of categories a included in the category set CS. calculating the degree of freedom phi e deviation s e and the bias s e against. Specifically, the bias s e and the degree of freedom φ e are calculated by the following equations (5) and (6).
Figure 2012093966

Figure 2012093966
Figure 2012093966

更に、特徴語抽出部322は、上記したように算出された偏りs、自由度φ、偏りsおよび自由度φに基づいて、カテゴリ集合CSに含まれるカテゴリ間の分散vおよび誤差の分散vを算出する。具体的には、カテゴリ間の分散vおよび誤差の分散vは、以下の式(7)および(8)により算出される。

Figure 2012093966
Furthermore, the feature word extraction section 322, the calculated deviation s a as described above, the degree of freedom phi a, on the basis of the deviation s e and freedom phi e, and variance v a between categories in the category set CS to calculate the variance v e of error. Specifically, the dispersion v e of dispersion v a and error between categories is calculated by the following equation (7) and (8).
Figure 2012093966

Figure 2012093966
Figure 2012093966

最後に、特徴語抽出部322は、上記したように算出されたカテゴリ間の分散vおよび誤差の分散vに基づいて、カテゴリ集合CSに対する単語tの特徴度score(t,CS)を算出する。具体的には、特徴度score(t,CS)は、以下の式(9)により算出される。

Figure 2012093966
Finally, feature word extraction section 322, based on the variance v a and error of variance v e between categories, which are calculated as described above, calculates the term t features degree score (t, CS) for category set CS To do. Specifically, the feature score (t, CS) is calculated by the following equation (9).
Figure 2012093966

カテゴリ集合CSに含まれるカテゴリを比較する上では、当該比較するカテゴリ集合CSの中で特定のカテゴリに偏って出現する単語が重要となる。このため、特徴語抽出部322では、上記したように分散分析手法を応用し、カテゴリ集合CS(分析軸カテゴリCtgt)についてカテゴリ間での出現確率の偏りの有意性が単語tの特徴度として算出される。   In comparing the categories included in the category set CS, words that appear biased to a specific category in the category set CS to be compared are important. For this reason, the feature word extraction unit 322 applies the analysis of variance method as described above, and calculates the significance of the bias in the appearance probability between categories for the category set CS (analysis axis category Ctgt) as the feature degree of the word t. Is done.

ステップS32の処理が実行されると、特徴語抽出部322は、算出された単語tの特徴度を単語データ格納部に格納する(ステップS33)。   When the process of step S32 is executed, the feature word extraction unit 322 stores the calculated feature degree of the word t in the word data storage unit (step S33).

次に、特徴語抽出部322は、単語データ中の全ての単語についてステップS32およびS33の処理が実行されたか否かを判定する(ステップS34)。   Next, the feature word extraction unit 322 determines whether or not the processes of steps S32 and S33 have been executed for all words in the word data (step S34).

全ての単語について処理が実行されていないと判定された場合(ステップS34のNO)、上記したステップS32に戻って処理が繰り返される。この場合、ステップS32およびS33の処理が実行されていない単語を単語tとして処理が実行される。   If it is determined that the processing has not been executed for all words (NO in step S34), the process returns to the above step S32 and the processing is repeated. In this case, the processing is executed with the word t for which the processing of steps S32 and S33 has not been executed.

このように単語データ中の全ての単語についてステップS32およびS33の処理が繰り返されることによって、当該単語の各々について特徴度が算出され、当該特徴度が当該単語毎に単語データ格納部に格納される。   As described above, by repeating the processes of steps S32 and S33 for all the words in the word data, the feature degree is calculated for each of the words, and the feature degree is stored in the word data storage unit for each word. .

ここで、図16は、単語データ中の単語毎に算出された特徴度が格納された後の単語データ格納部のデータ構造の一例を示す。   Here, FIG. 16 shows an example of the data structure of the word data storage unit after the feature degree calculated for each word in the word data is stored.

図16に示すように、単語データ格納部には、単語データ中の単語毎に特徴度が格納されている。   As illustrated in FIG. 16, the word data storage unit stores a feature degree for each word in the word data.

図16に示す例では、単語データ格納部には、例えば単語「操作」の特徴度として「1.50」が格納されている。   In the example illustrated in FIG. 16, for example, “1.50” is stored as the degree of feature of the word “operation” in the word data storage unit.

ここでは、単語「操作」について説明したが、単語データ格納部には他の単語についても同様に特徴度が格納されている。   Although the word “operation” has been described here, the word data storage unit similarly stores the degree of feature for other words.

ステップS34において全ての単語について処理が実行されたと判定された場合、特徴語抽出部322は、単語データ格納部に単語毎に格納された特徴度を参照して、単語データ中の単語の中から分析軸カテゴリCtgt(カテゴリ集合CS)に対する特徴語を抽出する(ステップS25)。   When it is determined in step S34 that the processing has been executed for all the words, the feature word extraction unit 322 refers to the feature degree stored for each word in the word data storage unit, and from among the words in the word data. A feature word for the analysis axis category Ctgt (category set CS) is extracted (step S25).

この場合、特徴語抽出部322は、例えば単語データ中の単語のうち特徴度が上位n位までの単語を特徴語として抽出する。ここで、nは、例えば図12に示す特徴語抽出要求画面110のサブ画面111に設けられている欄111cにおいてユーザによって指定された数である。なお、nは、例えば文書分析装置30の内部で予め設定されていても構わない。   In this case, the feature word extraction unit 322 extracts, for example, words with the highest degree of feature among the words in the word data as feature words. Here, n is, for example, the number specified by the user in the column 111c provided in the sub screen 111 of the feature word extraction request screen 110 shown in FIG. Note that n may be set in advance in the document analysis apparatus 30, for example.

また、特徴語抽出部322は、特徴度が予め定められた値(閾値)以上である単語を特徴語として抽出する構成であっても構わない。   Further, the feature word extraction unit 322 may be configured to extract a word whose feature degree is equal to or greater than a predetermined value (threshold value) as a feature word.

このように特徴語抽出部322によって抽出されたカテゴリ集合CSに対する特徴語は、上述したようにユーザに対して提示される。この場合、特徴語抽出部322によって抽出された特徴語に加えて、カテゴリ集合CSに含まれる各カテゴリ(つまり、階層構造において分析軸カテゴリCtgtの下位に位置するカテゴリ)に属する文書集合における当該特徴語の文書頻度DF等がともに提示されても構わない。   Thus, the feature words for the category set CS extracted by the feature word extraction unit 322 are presented to the user as described above. In this case, in addition to the feature word extracted by the feature word extraction unit 322, the feature in the document set belonging to each category included in the category set CS (that is, a category positioned below the analysis axis category Ctgt in the hierarchical structure). Both the word document frequency DF and the like may be presented.

上記したように本実施形態においては、ユーザによって指定された分析軸カテゴリCtgt(の下位に位置するカテゴリを含むカテゴリ集合CS)に属する文書集合から単語を抽出し、当該文書集合において当該単語が出現する文書の数を示す文書頻度(第1の文書数)および階層構造において分析軸カテゴリCtgtの下位に位置するカテゴリに属する文書集合において当該単語が出現する文書の数を示す文書頻度(第2の文書数)を算出し、当該分析軸カテゴリCtgtに属する文書集合に含まれる文書の数、当該分析軸カテゴリCtgtの下位に位置するカテゴリの数、当該算出された文書頻度(第1および第2の文書数)に基づいて分析軸カテゴリCtgtに対する当該単語の特徴度を算出し、当該算出された単語の特徴度に基づいて当該単語を分析軸カテゴリCtgtに対する特徴語として抽出する。   As described above, in the present embodiment, a word is extracted from a document set belonging to the analysis axis category Ctgt (category set CS including a category positioned under the analysis axis) specified by the user, and the word appears in the document set. Document frequency indicating the number of documents to be performed (first document number) and document frequency indicating the number of documents in which the word appears in a document set belonging to a category positioned below the analysis axis category Ctgt in the hierarchical structure (second document) The number of documents) is calculated, the number of documents included in the document set belonging to the analysis axis category Ctgt, the number of categories located below the analysis axis category Ctgt, the calculated document frequency (first and second) Based on the number of documents), the feature degree of the word for the analysis axis category Ctgt is calculated, and based on the calculated feature degree of the word Extracting the words as characteristic words for analysis axis category Ctgt.

このように本実施形態においては、分散分析の手法を応用し、分析軸カテゴリCtgt(カテゴリ集合CS)について各単語のカテゴリ間での出現確率の偏りの有意性を単語の特徴度として算出し、当該算出された特徴度に基づいて当該分析軸カテゴリCtgtに対する特徴語を抽出するため、階層構造において当該分析軸カテゴリCtgtの下位に位置する複数のカテゴリ(カテゴリ集合CSに含まれる複数のカテゴリ)の内容を相互に比較するのに好適な特徴語を抽出することが可能となる。   As described above, in the present embodiment, by applying the method of analysis of variance, the significance of the bias in the appearance probability between categories of each word is calculated as the word feature degree for the analysis axis category Ctgt (category set CS). In order to extract feature words for the analysis axis category Ctgt based on the calculated feature degree, a plurality of categories (a plurality of categories included in the category set CS) positioned below the analysis axis category Ctgt in the hierarchical structure. It is possible to extract feature words suitable for comparing contents with each other.

(第2の実施形態)
次に、図17を参照して、第2の実施形態について説明する。図17は、本実施形態に係る文書分析装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
(Second Embodiment)
Next, a second embodiment will be described with reference to FIG. FIG. 17 is a block diagram mainly showing a functional configuration of the document analysis apparatus according to the present embodiment. The same parts as those in FIG. 2 described above are denoted by the same reference numerals, and detailed description thereof is omitted. Here, parts different from FIG. 2 will be mainly described.

また、本実施形態に係る文書分析装置のハードウェア構成は前述した第1の実施形態にと同様であるため、適宜図1を用いて説明する。   The hardware configuration of the document analysis apparatus according to this embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 1 as appropriate.

本実施形態においては、前述した第1の実施形態において説明した処理によって抽出された特徴語を用いて文書が属するカテゴリ(以下、特徴語カテゴリと表記)を生成し、階層構造においてユーザによって指定されたカテゴリ(分析軸カテゴリCtgt)の下位に位置するカテゴリと当該特徴語カテゴリとでクロス集計を行う点が、前述した第1の実施形態とは異なる。   In the present embodiment, a category to which a document belongs (hereinafter referred to as a feature word category) is generated using the feature words extracted by the processing described in the first embodiment, and specified by the user in the hierarchical structure. This is different from the first embodiment described above in that cross tabulation is performed with a category located under the category (analysis axis category Ctgt) and the feature word category.

図17に示すように、本実施形態に係る文書分析装置50は、ユーザインタフェース部51および分析軸生成部52を含む。本実施形態において、これらの各部51および52は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。   As shown in FIG. 17, the document analysis apparatus 50 according to the present embodiment includes a user interface unit 51 and an analysis axis generation unit 52. In the present embodiment, these units 51 and 52 are realized by the computer 10 shown in FIG. 1 executing the program 21 stored in the external storage device 20.

ユーザインタフェース部51は、クロス集計部511を含む。クロス集計部512は、分析軸カテゴリCtgtと特徴語カテゴリとをクロス集計する。なお、特徴語カテゴリとは、後述するように分析軸カテゴリCtgtに対する特徴語を用いて生成されたカテゴリである。   The user interface unit 51 includes a cross tabulation unit 511. The cross tabulation unit 512 cross tabulates the analysis axis category Ctgt and the feature word category. The feature word category is a category generated using a feature word for the analysis axis category Ctgt as will be described later.

クロス集計部511によるクロス集計結果は、ユーザインタフェース部51によってユーザに提示される。なお、クロス集計結果には、階層構造において分析軸カテゴリCtgtの下位に位置するカテゴリ(分析軸カテゴリCtgtを上位カテゴリとするカテゴリ)および特徴語カテゴリの両方に属する文書の数(第3の文書数)が含まれる。   The cross tabulation result by the cross tabulation unit 511 is presented to the user by the user interface unit 51. In the cross tabulation result, the number of documents belonging to both the category (category having the analysis axis category Ctgt as the upper category) and the feature word category in the hierarchical structure (the third document number) ) Is included.

分析軸生成部52は、特徴語特性算出部521および特徴語カテゴリ生成部522を含む。   The analysis axis generation unit 52 includes a feature word characteristic calculation unit 521 and a feature word category generation unit 522.

特徴語特性算出部521は、分析軸カテゴリCtgt(階層構造において当該分析対象カテゴリCtgtの下位に位置するカテゴリを含むカテゴリ集合CS)に対する特徴語抽出部322によって抽出された特徴語の共通度を算出する。この分析軸カテゴリCtgtに対する特徴語の共通度は、例えば分析軸カテゴリCtgt(カテゴリ集合CS)での共通点/相違点を表す尺度として用いられる。分析軸カテゴリCtgtに対する特徴語の共通度は、カテゴリ集合CSに属する文書の数、カテゴリ集合CSに含まれる各カテゴリに属する文書の数、カテゴリ集合CSに属する文書集合における当該特徴語の文書頻度(第1の文書数)およびカテゴリ集合CSに含まれるカテゴリに属する文書集合における当該特徴語の文書頻度(第2の文書数)に基づいて算出される。   The feature word characteristic calculation unit 521 calculates the commonality of the feature words extracted by the feature word extraction unit 322 with respect to the analysis axis category Ctgt (category set CS including a category positioned below the analysis target category Ctgt in the hierarchical structure). To do. The commonality of the feature words with respect to the analysis axis category Ctgt is used as a scale representing, for example, common points / differences in the analysis axis category Ctgt (category set CS). The commonality of feature words for the analysis axis category Ctgt is the number of documents belonging to the category set CS, the number of documents belonging to each category included in the category set CS, and the document frequency of the feature words in the document set belonging to the category set CS ( (First document number) and the document frequency (second document number) of the feature word in the document set belonging to the category included in the category set CS.

特徴語カテゴリ生成部522は、特徴語抽出部322によって抽出された特徴語を用いて当該特徴語をカテゴリ名とするカテゴリ(特徴語カテゴリ)を生成する。この特徴語を用いて生成された特徴語カテゴリには、当該特徴語を含む文書が属する。この場合、特徴語カテゴリ生成部522は、例えば特徴語特性算出部521によって算出された特徴語の共通度が高い順に特徴語を用いて特徴語カテゴリを生成する。なお、特徴語カテゴリ生成部522は、生成された特徴語カテゴリに関するカテゴリ情報をカテゴリ格納部23に格納する。   The feature word category generation unit 522 uses the feature word extracted by the feature word extraction unit 322 to generate a category (feature word category) having the feature word as a category name. A document including the feature word belongs to the feature word category generated using the feature word. In this case, the feature word category generation unit 522 generates feature word categories using the feature words in descending order of the commonality of the feature words calculated by the feature word characteristic calculation unit 521, for example. The feature word category generation unit 522 stores category information related to the generated feature word category in the category storage unit 23.

次に、図18のフローチャートを参照して、本実施形態に係る文書分析装置50の処理手順について説明する。   Next, a processing procedure of the document analysis apparatus 50 according to the present embodiment will be described with reference to the flowchart of FIG.

まず、前述した図10に示すステップS1〜S6の処理に相当するステップS41〜S46の処理が実行される。   First, the processes of steps S41 to S46 corresponding to the processes of steps S1 to S6 shown in FIG. 10 described above are executed.

次に、分析部生成部52に含まれる特徴語特性算出部521は、特徴語抽出部322によって抽出された特徴語について、分析軸カテゴリCtgt(カテゴリ集合CS)での共通点/相違点を表す尺度として共通度を算出する処理(以下、特徴語特性算出処理と表記)を実行する(ステップS47)。この特徴語特性算出処理は、前述した単語データ格納部に格納されている単語データに基づいて実行される。なお、特徴語特性算出処理の詳細については後述する。   Next, the feature word characteristic calculation unit 521 included in the analysis unit generation unit 52 represents common points / differences in the analysis axis category Ctgt (category set CS) for the feature words extracted by the feature word extraction unit 322. A process of calculating a common degree as a scale (hereinafter referred to as a feature word characteristic calculation process) is executed (step S47). This feature word characteristic calculation process is executed based on the word data stored in the word data storage unit described above. Details of the feature word characteristic calculation process will be described later.

特徴語特性算出処理が実行されると、特徴語カテゴリ生成部522は、特徴語抽出部322によって抽出された特徴語の各々を用いて特徴語カテゴリ(当該特徴語のカテゴリ)を生成する処理(以下、特徴語カテゴリ生成処理と表記)を実行する(ステップS48)。この特徴語カテゴリ生成処理においては、例えば特徴語特性算出部521によって算出された特徴語の共通度が高い順に当該特徴語をカテゴリ名とするカテゴリ(つまり、特徴語カテゴリ)が生成される。なお、特徴語カテゴリ生成部522によって生成された特徴語カテゴリは、後述するように階層構造において便宜上配置された中間カテゴリの下位に位置するカテゴリとする。   When the feature word characteristic calculation process is executed, the feature word category generation unit 522 generates a feature word category (the category of the feature word) using each of the feature words extracted by the feature word extraction unit 322 ( Hereinafter, a feature word category generation process is described (step S48). In this feature word category generation process, for example, categories having the feature words as category names (that is, feature word categories) are generated in descending order of the commonality of the feature words calculated by the feature word characteristic calculation unit 521. Note that the feature word category generated by the feature word category generation unit 522 is a category positioned at a lower level of the intermediate category arranged for convenience in the hierarchical structure as will be described later.

特徴語カテゴリ生成部522によって生成された特徴語カテゴリに関するカテゴリ情報は、カテゴリ格納部23に格納される。なお、特徴語カテゴリ生成処理の詳細については後述する。   The category information related to the feature word category generated by the feature word category generation unit 522 is stored in the category storage unit 23. Details of the feature word category generation process will be described later.

特徴語カテゴリ生成処理が実行されると、例えばユーザインタフェース部51に含まれるカテゴリ提示部311は、カテゴリ格納部23に格納されているカテゴリ情報に基づいて、当該特徴語カテゴリが追加されたカテゴリの階層構造をユーザに提示(表示)する。   When the feature word category generation process is executed, for example, the category presenting unit 311 included in the user interface unit 51, based on the category information stored in the category storage unit 23, the category of the category to which the feature word category is added. Present (display) the hierarchical structure to the user.

ここで、図19は、カテゴリ提示部311によってカテゴリの階層構造が提示された場合の画面(カテゴリ階層構造提示画面)の一例を示す。   Here, FIG. 19 shows an example of a screen (category hierarchical structure presentation screen) when a category hierarchical structure is presented by the category presenting unit 311.

図19に示すように、カテゴリ階層構造提示画面200には、階層構造を構成するカテゴリのカテゴリ名がツリー上(カテゴリツリー)で表示される。   As shown in FIG. 19, on the category hierarchical structure presentation screen 200, category names of categories constituting the hierarchical structure are displayed on a tree (category tree).

図19に示すカテゴリ階層構造提示画面200においては、前述した図11に示すカテゴリ階層構造提示画面100に表示されているカテゴリと比較して、特徴語カテゴリが追加されている。   In the category hierarchical structure presentation screen 200 shown in FIG. 19, a feature word category is added as compared with the categories displayed on the category hierarchical structure presentation screen 100 shown in FIG.

具体的には、カテゴリ階層構造提示画面200においては、カテゴリ「『出願人』分析軸」がルートカテゴリの下位に位置するカテゴリであることが示されている。また、カテゴリ階層構造提示画面200においては、カテゴリ「表示」、「操作」、「調理」、「システム」および「通信」を含む複数のカテゴリがカテゴリ「『出願人』分析軸」の下位に位置するカテゴリであることが示されている。   Specifically, the category hierarchical structure presentation screen 200 indicates that the category ““ Applicant ”analysis axis” is a category positioned under the root category. In the category hierarchical structure presentation screen 200, a plurality of categories including the categories “display”, “operation”, “cooking”, “system”, and “communication” are positioned below the category ““ Applicant ”analysis axis”. It is shown that it is a category.

なお、カテゴリ階層構造提示画面200におけるカテゴリ「表示」、「操作」、「調理」、「システム」および「通信」を含む複数のカテゴリが特徴語カテゴリ生成部522によって生成された特徴語カテゴリである。このカテゴリ「表示」、「操作」、「調理」、「システム」および「通信」は、特徴語抽出部322によって抽出された特徴語「表示」、「操作」、「調理」、「システム」および「通信」を用いて生成された特徴語カテゴリである。   A plurality of categories including categories “display”, “operation”, “cooking”, “system”, and “communication” on the category hierarchical structure presentation screen 200 are the feature word categories generated by the feature word category generation unit 522. . The categories “display”, “operation”, “cooking”, “system”, and “communication” include the feature words “display”, “operation”, “cooking”, “system”, and “communication” extracted by the feature word extraction unit 322. This is a feature word category generated using “communication”.

ここで、上記したカテゴリ階層構造提示画面200がカテゴリ提示部311によって提示されると、ユーザは、当該カテゴリ階層構造提示画面200を参照することによって、当該カテゴリ階層構造提示画面200に表示されている複数のカテゴリの中からクロス集計の対象(分析軸)となる2つのカテゴリ(以下、クロス集計対象カテゴリCtgt1および2と表記)を指定することができる。ここでは、クロス集計対象カテゴリCtgt1および2として、前述した分析軸カテゴリCtgtおよび階層構造において特徴語カテゴリの上位に位置するカテゴリ(中間カテゴリ)が指定されるものとする。   Here, when the category hierarchical structure presentation screen 200 is presented by the category presentation unit 311, the user is displayed on the category hierarchical structure presentation screen 200 by referring to the category hierarchical structure presentation screen 200. Two categories (hereinafter referred to as cross tabulation target categories Ctgt1 and 2) that are cross tabulation targets (analysis axes) can be designated from a plurality of categories. Here, as the cross tabulation target categories Ctgt1 and 2, the analysis axis category Ctgt and the category (intermediate category) positioned higher than the feature word category in the hierarchical structure are specified.

カテゴリ階層構造提示画面200においてクロス集計対象カテゴリCtgt1および2として例えばカテゴリ「出願人別」および「『出願人』分析軸」が指定されたものとすると、図20に示すような画面(以下、クロス集計要求画面と表記)210が表示される。   Assuming that, for example, the categories “by applicant” and ““ applicant ”analysis axis” are designated as the cross tabulation target categories Ctgt1 and 2 on the category hierarchical structure presentation screen 200, a screen as shown in FIG. 210 is displayed.

図20に示すように、クロス集計要求画面210には、カテゴリの階層構造に加えてサブ画面211が表示されている。このサブ画面211には、例えば「カテゴリ「出願人別」と「『出願人』分析軸」で2軸マップを表示します。縦軸とするカテゴリを選択して下さい。」が表示されている。ユーザは、このようなサブ画面211を確認することによって、指定されたカテゴリ「出願人別」および「『出願人』分析軸」のうちクロス集計において縦軸とするカテゴリを選択することができる。   As shown in FIG. 20, the cross tabulation request screen 210 displays a sub screen 211 in addition to the hierarchical structure of categories. In this sub-screen 211, for example, a 2-axis map is displayed with "Category" By Applicant "and" "Applicant" Analysis Axis ". Select the category for the vertical axis. Is displayed. By confirming such a sub-screen 211, the user can select a category as a vertical axis in the cross tabulation among the designated categories “by applicant” and ““ applicant ”analysis axis”.

また、このサブ画面211には、実行ボタン211aおよびキャンセルボタン211bが設けられている。   The sub-screen 211 is provided with an execution button 211a and a cancel button 211b.

文書分析装置50に対するユーザの操作に応じてサブ画面211に設けられている実行ボタン211aが選択されると、クロス集計対象カテゴリCtgt1および2(ここでは、カテゴリ「出願人別」および「『出願人』分析軸」)のクロス集計が文書分析装置50に対して要求される。   When the execution button 211a provided on the sub-screen 211 is selected in response to a user operation on the document analysis apparatus 50, the cross tabulation target categories Ctgt1 and 2 (here, categories “by applicant” and ““ applicant ”) are selected. Cross analysis of “Analysis axis”) is requested to the document analysis apparatus 50.

一方、文書分析装置50に対するユーザの操作に応じてサブ画面211に設けられているキャンセルボタン211bが選択されると、クロス集計対象カテゴリCtgt1および2を選択し直すための画面として例えば図19に示すカテゴリ階層構造提示画面200が表示される。   On the other hand, when a cancel button 211b provided on the sub screen 211 is selected in response to a user operation on the document analysis apparatus 50, a screen for reselecting the cross tabulation target categories Ctgt1 and 2 is shown in FIG. 19, for example. A category hierarchical structure presentation screen 200 is displayed.

再び図18に戻ると、ユーザの操作に応じて上記したクロス集計が要求されたか否かが判定される(ステップS49)。   Returning to FIG. 18 again, it is determined whether or not the above-described cross tabulation is requested according to the user's operation (step S49).

クロス集計が要求されたと判定された場合(ステップS49のYES)、ユーザインタフェース部51に含まれるクロス集計部511は、上記したカテゴリ階層構造提示画面200においてユーザによって指定されたクロス集計対象カテゴリCtgt1および2に対するクロス集計処理を実行する(ステップS50)。このクロス集計処理においては、例えばクロス集計対象カテゴリCtgt1を縦軸、クロス集計対象カテゴリCtgt2を横軸とする2軸マップ(クロス集計結果)が生成(取得)される。このクロス集計結果には、階層構造においてクロス集計対象カテゴリCtgt1の下位に位置するカテゴリ(カテゴリ集合CSに含まれるカテゴリ)およびクロス集計対象カテゴリCtgt2の下位に位置するカテゴリ(特徴語カテゴリ)の両方に属する文書の数が含まれる。なお、クロス集計処理およびクロス集計結果の詳細については後述する。   When it is determined that the cross tabulation is requested (YES in step S49), the cross tabulation unit 511 included in the user interface unit 51 includes the cross tabulation target category Ctgt1 designated by the user on the category hierarchy structure presentation screen 200 described above. Cross tabulation processing for 2 is executed (step S50). In this cross tabulation process, for example, a two-axis map (cross tabulation result) is generated (acquired) with the cross tabulation target category Ctgt1 as the vertical axis and the cross tabulation target category Ctgt2 as the horizontal axis. This cross tabulation result includes both a category (category included in the category set CS) located below the cross tabulation target category Ctgt1 and a category (feature word category) located below the cross tabulation target category Ctgt2 in the hierarchical structure. Contains the number of documents to which it belongs. The details of the cross tabulation process and the cross tabulation result will be described later.

クロス集計処理が実行されると、ユーザインタフェース部51は、クロス集計部511によって生成(取得)されたクロス集計結果をユーザに提示する(ステップS51)。   When the cross tabulation process is executed, the user interface unit 51 presents the cross tabulation result generated (acquired) by the cross tabulation unit 511 to the user (step S51).

上記したようにクロス集計対象カテゴリCtgt1および2として、分析対象カテゴリCtgtおよび特徴語カテゴリ生成部522によって生成された特徴語カテゴリの1階層上位のカテゴリが指定されることによって、当該分析対象カテゴリCtgtに対して特徴語の共通性と相違性が明確になるようなクロス集計結果をユーザに対して提示することができる。   As described above, by specifying the category one level higher than the analysis target category Ctgt and the feature word category generated by the feature word category generation unit 522 as the cross tabulation target categories Ctgt1 and 2, the analysis target category Ctgt is assigned to the analysis target category Ctgt. On the other hand, it is possible to present to the user a cross tabulation result that makes the commonality and difference of feature words clear.

次に、図21のフローチャートを参照して、上述した特徴語特性算出部521によって実行される特徴語特性算出処理(図18に示すステップS47の処理)の処理手順について説明する。   Next, a processing procedure of the feature word characteristic calculation process (the process of step S47 shown in FIG. 18) executed by the above-described feature word characteristic calculation unit 521 will be described with reference to the flowchart of FIG.

ここで、特徴語抽出部322によって抽出された特徴語は、分析軸カテゴリCtgt(の下位に位置するカテゴリを含むカテゴリ集合CS)に対して有意な単語であるものの、当該分析軸カテゴリCtgtにおいて共通点を表す特徴語と相違点を表す特徴語とが混在している。したがって、特徴語特性算出処理においては、分析軸カテゴリCtgtでの共通点/相違点を表す尺度として共通度という指標が算出される。   Here, the feature word extracted by the feature word extraction unit 322 is a significant word with respect to the analysis axis category Ctgt (category set CS including a category positioned below the analysis axis category Ctgt), but is common to the analysis axis category Ctgt. Feature words representing points and feature words representing differences are mixed. Therefore, in the feature word characteristic calculation process, an index called “commonness” is calculated as a scale representing common points / differences in the analysis axis category Ctgt.

なお、分析軸カテゴリCtgt(カテゴリ集合CS)において共通点を表す特徴語とは、当該カテゴリ集合CSに含まれる複数のカテゴリにおいて出現確率が有意に高い特徴語である。具体的には、特許文書において分析軸カテゴリCtgtがカテゴリ「出願人」である場合、当該出願人である例えば企業(つまり、分析軸カテゴリCtgtの下位に位置するカテゴリ「A社」、「B社」等)の共通点(つまり、当該企業が共通して取り組んでいる共通の技術)を表す特徴語が当該分析軸カテゴリCtgtにおいて共通点を表す特徴語である。   Note that a feature word representing a common point in the analysis axis category Ctgt (category set CS) is a feature word having a significantly high appearance probability in a plurality of categories included in the category set CS. Specifically, when the analysis axis category Ctgt is the category “applicant” in the patent document, for example, the company that is the applicant (that is, the categories “A company” and “B company” that are positioned below the analysis axis category Ctgt). , Etc.) is a feature word that represents a common point in the analysis axis category Ctgt.

一方、分析軸カテゴリCtgt(カテゴリ集合CS)において相違点を表す特徴語とは、当該カテゴリ集合CSに含まれる特定のカテゴリ(1つまたは少数のカテゴリ)において出現確率が有意に高い特徴語である。具体的には、上記したように特許文書において分析軸カテゴリCtgtがカテゴリ「出願人」である場合、当該出願人である企業(分析軸カテゴリCtgtの下位に位置するカテゴリ「A社」、「B社」等)の相違点(つまり、特定の企業のみが集中的に取り組んでいる技術)を表す特徴語が当該分析軸カテゴリCtgtにおいて相違点を表す特徴語である。   On the other hand, a feature word representing a difference in the analysis axis category Ctgt (category set CS) is a feature word having a significantly high appearance probability in a specific category (one or a small number of categories) included in the category set CS. . Specifically, as described above, when the analysis axis category Ctgt is the category “applicant” in the patent document, the company that is the applicant (category “Company A”, “B” located under the analysis axis category Ctgt). A feature word representing a difference (that is, a technology that only a specific company is working on intensively) is a feature word representing a difference in the analysis axis category Ctgt.

まず、特徴語特性算出部521は、特徴語抽出部322によって抽出された特徴語を含む特徴語集合(以下、特徴語集合KSと表記)を取得する(ステップS61)。   First, the feature word characteristic calculation unit 521 acquires a feature word set (hereinafter referred to as a feature word set KS) including the feature words extracted by the feature word extraction unit 322 (step S61).

次に、特徴語特性算出部521は、取得された特徴語集合KSに含まれる特徴語の各々について以下のステップS62およびS63の処理を実行する。このステップS62およびS63の処理の対象となる特徴語を特徴語kと称する。   Next, the feature word characteristic calculation unit 521 executes the following steps S62 and S63 for each of the feature words included in the acquired feature word set KS. The feature word to be processed in steps S62 and S63 is referred to as a feature word k.

特徴語特性算出部521は、分析軸カテゴリCtgt(カテゴリ集合CS)に対する特徴語kの共通度を算出する(ステップS62)。この特徴語kの共通度は、上記したように分析軸カテゴリCtgtでの共通点/相違点を表す尺度として用いられる。   The feature word characteristic calculation unit 521 calculates the commonality of the feature word k with respect to the analysis axis category Ctgt (category set CS) (step S62). The degree of commonality of the feature word k is used as a scale representing the common point / difference in the analysis axis category Ctgt as described above.

ここで、特徴語kの共通度は、カテゴリ集合CSに属する文書の数、カテゴリ集合CSに含まれる各カテゴリに属する文書の数、カテゴリ集合CSに属する文書集合において特徴語kが出現する文書の数およびカテゴリ集合CSに含まれる各カテゴリに属する文書集合において特徴語kが出現する文書の数に基づいて算出される。具体的には、特徴語kの共通度は、以下の式(10)により算出される。   Here, the commonality of the feature word k is the number of documents belonging to the category set CS, the number of documents belonging to each category included in the category set CS, and the number of documents in which the feature word k appears in the document set belonging to the category set CS. The number and the number of documents in which the feature word k appears in the document set belonging to each category included in the category set CS are calculated. Specifically, the commonality of the feature word k is calculated by the following equation (10).

なお、以下の説明において、カテゴリ集合CSに属する文書の集合を文書集合Dallとする。また、カテゴリ集合CSに含まれるカテゴリの数をa、当該カテゴリ集合CSに含まれるカテゴリのうちのi番目のカテゴリをカテゴリCi(i=1,2,…a)、当該カテゴリCiに属する文書の集合を文書集合Diとする。

Figure 2012093966
In the following description, a set of documents belonging to the category set CS is referred to as a document set Dall. Further, the number of categories included in the category set CS is a, the i-th category among the categories included in the category set CS is the category Ci (i = 1, 2,... A), and the documents belonging to the category Ci Let the set be a document set Di.
Figure 2012093966

なお、式(10)におけるc(k、Di,Dall)は、以下の式(11)のように定義される。

Figure 2012093966
Note that c (k, Di, Dall) in equation (10) is defined as in equation (11) below.
Figure 2012093966

この式(11)におけるdf(k,Di)は、カテゴリ集合CSに含まれるカテゴリCi(i=1,2,…,a)に属する文書集合Di(i=1,2,…,a)において特徴語kが出現する文書の数(つまり、文書集合Diにおける特徴語kの文書頻度)である。また、df(k,Dall)は、カテゴリ集合CSに属する文書集合Dallにおいて特徴語kが出現する文書の数(つまり、文書集合Dallにおける特徴語kの文書頻度)である。なお、df(k,Di)およびdf(k,Dall)は、前述したように単語データ格納部に格納されている単語データから取得される。   In this equation (11), df (k, Di) is the document set Di (i = 1, 2,..., A) belonging to the category Ci (i = 1, 2,..., A) included in the category set CS. This is the number of documents in which the feature word k appears (that is, the document frequency of the feature word k in the document set Di). Df (k, Dall) is the number of documents in which the feature word k appears in the document set Dall belonging to the category set CS (that is, the document frequency of the feature word k in the document set Dall). Note that df (k, Di) and df (k, Dall) are acquired from the word data stored in the word data storage unit as described above.

また、式(11)における|Di|は、文書集合Diに含まれる文書の数(つまり、カテゴリCiに属する文書の数)である。同様に、|Dall|は、文書集合Dallに含まれる文書の数(つまり、カテゴリCSに属する文書の数)である。   In the equation (11), | Di | is the number of documents included in the document set Di (that is, the number of documents belonging to the category Ci). Similarly, | Dall | is the number of documents included in the document set Dall (that is, the number of documents belonging to the category CS).

また、式(11)におけるγは、特徴語kの共通度を算出する上での閾値であり、文書集合Dall全体における出現確率との倍率として指定される。なお、このγ(の値)は、文書分析装置50内で予め設定されていてもよいし、特徴語特性算出処理の度にユーザによって指定されても構わない。   In Expression (11), γ is a threshold for calculating the degree of commonality of the feature word k, and is specified as a magnification with the appearance probability in the entire document set Dall. Note that this γ (value) may be set in advance in the document analysis apparatus 50, or may be specified by the user every time the feature word characteristic calculation process is performed.

上記したように算出される特徴語kの共通度が大きいほど、当該特徴語kが分析軸カテゴリCtgt(カテゴリ集合CS)において共通点をよく表す特徴語であることを表す。一方、特徴語kの共通度が小さいほど、当該特徴語kが当該分析軸カテゴリCtgt(カテゴリ集合CS)において相違点をよく表す特徴語であることを表す。   As the degree of commonality of the feature word k calculated as described above is larger, the feature word k is a feature word that better represents a common point in the analysis axis category Ctgt (category set CS). On the other hand, the smaller the commonality of the feature word k, the more the feature word k is a feature word that better represents the difference in the analysis axis category Ctgt (category set CS).

ステップS62の処理が実行されると、特徴語特性算出部521は、算出された特徴語kの共通度を単語データ格納部に格納する(ステップS63)。   When the process of step S62 is executed, the feature word characteristic calculation unit 521 stores the calculated commonality of the feature word k in the word data storage unit (step S63).

次に、特徴語特性算出部321は、特徴語集合KSに含まれる全ての特徴語についてステップS62およびステップS63の処理が実行されたか否かを判定する(ステップS64)。   Next, the feature word characteristic calculation unit 321 determines whether or not the processing of Step S62 and Step S63 has been executed for all feature words included in the feature word set KS (Step S64).

全ての特徴語について処理が実行されていないと判定された場合(ステップS64のNO)、上記したステップS62に戻って処理が繰り返される。この場合、ステップS62およびS63の処理が実行されていない特徴語を特徴語kとして処理が実行される。   If it is determined that the process has not been executed for all feature words (NO in step S64), the process returns to the above-described step S62 and is repeated. In this case, the process is executed with the feature word for which the processes of steps S62 and S63 have not been executed as the feature word k.

このように特徴語集合KSに含まれる全ての特徴語についてステップS62およびS63の処理が繰り返されることによって、当該特徴語の各々について共通度が算出され、当該特徴度が当該特徴語毎に単語データ格納部に格納される。   As described above, by repeating the processes of steps S62 and S63 for all feature words included in the feature word set KS, the degree of commonality is calculated for each of the feature words, and the feature degree is word data for each feature word. Stored in the storage unit.

ここで、図22は、特徴語毎に算出された共通度が格納された後の単語データ格納部のデータ構造の一例を示す。ここでは、単語データ格納部に格納されている単語データ中の単語のうちの「操作」、「通信」、「パネル」、「フィルム」および「表示」が特徴語であるものとする。   Here, FIG. 22 shows an example of the data structure of the word data storage unit after the degree of commonality calculated for each feature word is stored. Here, it is assumed that “operation”, “communication”, “panel”, “film”, and “display” among the words in the word data stored in the word data storage unit are characteristic words.

図22に示すように、単語データ格納部には、特徴語毎に共通度が格納されている。図22に示す例では、単語データ格納部には、例えば特徴語「操作」の共通度として「6」が格納されている。なお、単語データ格納部には、他の特徴語についても同様に共通度が格納されている。   As shown in FIG. 22, the word data storage unit stores the commonality for each feature word. In the example illustrated in FIG. 22, for example, “6” is stored in the word data storage unit as the commonality of the feature word “operation”. In the word data storage unit, the degree of commonness is similarly stored for other feature words.

また、上記したように共通度は特徴語について算出されるため、例えば特徴語として抽出されていない単語「レンジ」については、カテゴリ集合CSに対する共通度は格納(算出)されない。したがって、図22に示すように、「レンジ」の共通度の項目は空である。   Also, as described above, since the degree of commonality is calculated for the feature word, for example, the degree of commonality with respect to the category set CS is not stored (calculated) for the word “range” not extracted as the feature word. Therefore, as shown in FIG. 22, the item of “commonness” of “range” is empty.

ステップS64において全ての特徴語について処理が実行されたと判定された場合、特徴語特性算出部521は、単語データ格納部に格納されている単語データ(特徴語毎の共通度)を参照して、当該共通度(降順)で特徴語集合KSに含まれる特徴語をソートする(ステップS65)。例えば上記した図22に示す例では、特徴語集合KSに含まれる特徴語は、特徴語「表示」、「操作」、「通信」、「フィルム」および「パネル」の順にソートされる。   When it is determined in step S64 that the processing has been executed for all the feature words, the feature word characteristic calculation unit 521 refers to the word data stored in the word data storage unit (commonness for each feature word), The feature words included in the feature word set KS are sorted in the degree of commonality (descending order) (step S65). For example, in the example shown in FIG. 22 described above, the feature words included in the feature word set KS are sorted in the order of feature words “display”, “operation”, “communication”, “film”, and “panel”.

ステップS65の処理が実行されると、特徴語特性算出処理は終了される。この際、特徴語特性算出部521は、共通度でソートされた特徴語を含む特徴語集合KSを特徴語カテゴリ生成部522に渡す。   When the process of step S65 is executed, the feature word characteristic calculation process ends. At this time, the feature word characteristic calculation unit 521 passes the feature word set KS including the feature words sorted by the commonality to the feature word category generation unit 522.

なお、特徴語カテゴリ生成部522に渡された特徴語集合KSに含まれる特徴語は、共通度について降順でソートされているため、上位であるほど共通点をよく表す特徴語であり、下位であるほど相違点をよく表す特徴語である。   Note that the feature words included in the feature word set KS passed to the feature word category generation unit 522 are sorted in descending order with respect to the degree of commonality. It is a feature word that better expresses the difference.

次に、図23のフローチャートを参照して、上述した特徴語カテゴリ生成部522によって実行される特徴語カテゴリ生成処理(図18に示すステップS48の処理)の処理手順について説明する。この特徴語カテゴリ生成処理においては、上記した共通度でソートされた特徴語を用いて特徴語カテゴリが生成される。   Next, the processing procedure of the feature word category generation process (the process of step S48 shown in FIG. 18) executed by the above-described feature word category generation unit 522 will be described with reference to the flowchart of FIG. In the feature word category generation process, feature word categories are generated using the feature words sorted with the above-mentioned commonality.

まず、特徴語カテゴリ生成部522は、特徴語特性算出部521から渡された特徴語集合KSを取得する(ステップS71)。なお、この特徴語集合KSには、上述した共通度でソートされた特徴語(つまり、当該共通度順の特徴語)が含まれる。   First, the feature word category generation unit 522 acquires the feature word set KS passed from the feature word characteristic calculation unit 521 (step S71). The feature word set KS includes the feature words sorted by the above-mentioned commonality (that is, the feature words in the order of commonality).

次に、特徴語カテゴリ生成部522は、階層構造において特徴語カテゴリ生成処理において生成される特徴語カテゴリの上位に位置するカテゴリ(以下、中間カテゴリCpと表記)を生成する(ステップS72)。なお、ここで生成される中間カテゴリCpは、階層構造において特徴語カテゴリを便宜上配置し、上述したようにクロス集計処理のために当該特徴語カテゴリを指定するための中間カテゴリである。この中間カテゴリCpは、階層構造においてルートカテゴリの下位に位置するカテゴリであるものとする。   Next, the feature word category generation unit 522 generates a category (hereinafter referred to as an intermediate category Cp) positioned higher than the feature word category generated in the feature word category generation process in the hierarchical structure (step S72). The intermediate category Cp generated here is an intermediate category for arranging the feature word categories in the hierarchical structure for convenience and designating the feature word category for the cross tabulation process as described above. This intermediate category Cp is assumed to be a category positioned below the root category in the hierarchical structure.

特徴語カテゴリ生成部522は、生成された中間カテゴリCpに関するカテゴリ情報をカテゴリ格納部23に格納する(ステップS73)。この場合、特徴語カテゴリ生成部522は、中間カテゴリCpを識別するためのカテゴリ番号、中間カテゴリCpの上位に位置するルートカテゴリを識別するための上位カテゴリ番号、中間カテゴリCpのカテゴリ名および中間カテゴリCpに属する文書を示す分類ルールを含むカテゴリ情報をカテゴリ格納部23に格納する。   The feature word category generation unit 522 stores the category information regarding the generated intermediate category Cp in the category storage unit 23 (step S73). In this case, the feature word category generation unit 522 includes a category number for identifying the intermediate category Cp, an upper category number for identifying a root category positioned above the intermediate category Cp, a category name of the intermediate category Cp, and an intermediate category. The category information including the classification rule indicating the document belonging to Cp is stored in the category storage unit 23.

ここで、図24は、中間カテゴリCpに関するカテゴリ情報のデータ構造の一例を示す。図24に示すように、カテゴリ情報236には、カテゴリ番号「C003」、上位カテゴリ番号「C000」、カテゴリ名「『出願人』分類軸」および分類ルール「true(恒真)」が含まれる。   Here, FIG. 24 shows an example of the data structure of the category information related to the intermediate category Cp. As shown in FIG. 24, the category information 236 includes a category number “C003”, a higher category number “C000”, a category name ““ Applicant ”classification axis”, and a classification rule “true (constant)”.

カテゴリ番号「C003」は、中間カテゴリCpを一意に識別するための識別子であり、例えば特徴語カテゴリ生成部522によって中間カテゴリCpが生成される際に自動的に発行される。   The category number “C003” is an identifier for uniquely identifying the intermediate category Cp, and is automatically issued when the intermediate category Cp is generated by the feature word category generation unit 522, for example.

上位カテゴリ番号「C000」は、階層構造において中間カテゴリCpの上位に位置するルートカテゴリを識別するためのカテゴリ番号である。   The upper category number “C000” is a category number for identifying a root category positioned higher than the intermediate category Cp in the hierarchical structure.

カテゴリ名「『出願人』分類軸」は、中間カテゴリCpのカテゴリ名である。なお、中間カテゴリCpのカテゴリ名は、例えば分析対象カテゴリCtgtのカテゴリ名(例えば、カテゴリ名「出願人」)等に基づいて自動的に決定されてもよいし、ユーザによって指定されても構わない。   The category name ““ Applicant ”classification axis” is the category name of the intermediate category Cp. The category name of the intermediate category Cp may be automatically determined based on, for example, the category name of the analysis target category Ctgt (for example, the category name “applicant”) or may be specified by the user. .

また、分類ルール「true(恒真)」は、中間カテゴリCpに属する文書(の条件)を示す。この分類ルール「true(恒真)」によれば、前述したように全ての文書が条件を満足することが示されている。なお、中間カテゴリCpに属する文書を示す分類ルールは、例えば分析対象カテゴリCtgtに関するカテゴリ情報に含まれる分類ルールと同様の分類ルールが自動的に設定されてもよい。   The classification rule “true (constant)” indicates a document (condition) belonging to the intermediate category Cp. According to this classification rule “true (true)”, as described above, it is indicated that all documents satisfy the condition. For example, a classification rule similar to the classification rule included in the category information related to the analysis target category Ctgt may be automatically set as the classification rule indicating the document belonging to the intermediate category Cp.

ここでは、中間カテゴリCpがルートカテゴリの下位に位置するカテゴリであるものとして説明したが、当該中間カテゴリCpは、例えば分析対象カテゴリCtgtの下位に位置するカテゴリとしても構わない。   Here, the intermediate category Cp has been described as being a category positioned below the root category, but the intermediate category Cp may be a category positioned below the analysis target category Ctgt, for example.

再び図23に戻ると、特徴語カテゴリ生成部522は、取得された特徴語集合KSに含まれる特徴語の各々について以下のステップS74およびS75の処理を実行する。なお、特徴語カテゴリ生成部522は、特徴語集合KSに含まれる特徴語の順(つまり共通度で降順にソートされた順)に処理する。このステップS74およびS75の処理の対象となる特徴語を特徴語kと称する。   Returning to FIG. 23 again, the feature word category generation unit 522 executes the following processes of steps S74 and S75 for each of the feature words included in the acquired feature word set KS. Note that the feature word category generation unit 522 performs processing in the order of feature words included in the feature word set KS (that is, the order sorted in descending order by commonality). The feature word to be processed in steps S74 and S75 is referred to as feature word k.

この場合、特徴語カテゴリ生成部522は、特徴語kを用いて特徴語カテゴリ(以下、特徴語カテゴリKCと表記)を生成する(ステップS74)。なお、この特徴語カテゴリKCは、階層構造において上記した中間カテゴリCpの下位に位置するカテゴリである。   In this case, the feature word category generation unit 522 generates a feature word category (hereinafter referred to as a feature word category KC) using the feature word k (step S74). Note that the feature word category KC is a category positioned below the intermediate category Cp described above in the hierarchical structure.

次に、特徴語カテゴリ生成部522は、生成された特徴語カテゴリKCに関するカテゴリ情報をカテゴリ格納部23に格納する(ステップS75)。この場合、特徴語カテゴリ生成部522は、特徴語カテゴリKCを識別するためのカテゴリ番号、特徴語カテゴリKCの上位に位置する中間カテゴリCpを識別するための上位カテゴリ番号、特徴語カテゴリKCのカテゴリ名および特徴語カテゴリKCに属する文書を示す分類ルールを含むカテゴリ情報をカテゴリ格納部23に格納する。   Next, the feature word category generation unit 522 stores category information related to the generated feature word category KC in the category storage unit 23 (step S75). In this case, the feature word category generation unit 522 includes a category number for identifying the feature word category KC, a higher category number for identifying the intermediate category Cp positioned higher than the feature word category KC, and a category of the feature word category KC. The category information including the classification rule indicating the document belonging to the name and the feature word category KC is stored in the category storage unit 23.

なお、特徴語カテゴリKCのカテゴリ名は、例えば特徴語kとする。また、特徴語カテゴリKCに属する文書を示す分類ルールは、特徴語kを含む文書を示す分類ルール、つまり、特徴語kを含むことを条件とした分類ルールとする。換言すれば、特徴語カテゴリ生成部522によって生成された特徴語カテゴリKCは、特徴語kをテキスト(例えば、本文)に含む文書が属する(分類される)カテゴリである。   Note that the category name of the feature word category KC is, for example, the feature word k. A classification rule indicating a document belonging to the feature word category KC is a classification rule indicating a document including the feature word k, that is, a classification rule on condition that the feature word k is included. In other words, the feature word category KC generated by the feature word category generation unit 522 is a category to which a document including the feature word k in the text (for example, the body) belongs (is classified).

次に、特徴語カテゴリ生成部522は、上記したように共通度で降順にソートされた順に処理が実行された結果、特徴語集合KSに含まれる最後の特徴語までステップS74およびS75の処理が実行されたか否かを判定する(ステップS76)。つまり、特徴語カテゴリ生成部522は、特徴語集合KSに含まれる特徴語のうち共通度が最も小さい特徴語まで処理が実行されたか否かを判定する。   Next, the feature word category generation unit 522 performs the processing of steps S74 and S75 up to the last feature word included in the feature word set KS as a result of executing the processing in the descending order sorted by the common degree as described above. It is determined whether it has been executed (step S76). That is, the feature word category generation unit 522 determines whether or not the process has been executed up to the feature word having the lowest degree of commonness among the feature words included in the feature word set KS.

最後の特徴語まで処理が実行されていないと判定されると(ステップS76のNO)、上記したステップS74に戻って処理が繰り返される。この場合、共通度でソートされた特徴語において、ステップS73およびS74の処理が実行された特徴語kの次の特徴語(次に共通度が高い特徴語)を特徴語kとして処理が実行される。   If it is determined that the process has not been executed up to the last feature word (NO in step S76), the process returns to step S74 described above and the process is repeated. In this case, in the feature words sorted by the degree of commonality, the process is executed with the feature word next to the feature word k (the feature word having the next highest degree of commonality) having undergone the processing of steps S73 and S74 as the feature word k. The

このように特徴語集合KSに含まれる共通度でソートされた最後の特徴語までステップS74およびS75の処理が実行されると、特徴語の共通度順に生成された特徴語カテゴリに関するカテゴリ情報がカテゴリ格納部23に格納された状態となる。   As described above, when the processes of steps S74 and S75 are executed up to the last feature word sorted by the commonness included in the feature word set KS, the category information regarding the feature word categories generated in the order of commonality of the feature words is the category. The state is stored in the storage unit 23.

なお、ステップS76において最後の特徴語について処理が実行されたと判定された場合、特徴語カテゴリ生成処理は終了される。   If it is determined in step S76 that the process has been executed for the last feature word, the feature word category generation process ends.

このように特徴語カテゴリ生成処理が実行されることによって、後述するクロス集計処理においてユーザによって指定された分析軸(分析軸カテゴリCtgt)のカテゴリ間を比較するのに好適な他方の分析軸となるカテゴリを生成することができる。   By executing the feature word category generation process in this manner, the analysis axis becomes the other analysis axis suitable for comparing the categories of analysis axes (analysis axis category Ctgt) designated by the user in the cross tabulation process described later. Categories can be generated.

ここで、図25および図26を参照して、カテゴリ格納部23に格納された特徴語カテゴリに関するカテゴリ情報について具体的に説明する。   Here, with reference to FIG. 25 and FIG. 26, the category information regarding the feature word category stored in the category storage unit 23 will be specifically described.

図25は、例えば特徴語「表示」を用いて生成された特徴語カテゴリ(以下、特徴語カテゴリ1と表記)に関するカテゴリ情報のデータ構造の一例を示す。   FIG. 25 shows an example of a data structure of category information related to a feature word category (hereinafter referred to as feature word category 1) generated using, for example, the feature word “display”.

図25に示すように、カテゴリ情報237には、カテゴリ番号「C301」、上位カテゴリ番号「C003」、カテゴリ名「表示」および分類ルール「contains(./本文,”表示”)」が含まれる。   As shown in FIG. 25, the category information 237 includes a category number “C301”, a higher category number “C003”, a category name “display”, and a classification rule “contains (./text,“ display ”)”.

カテゴリ情報237に含まれるカテゴリ番号「C301」は、特徴語カテゴリ1を一意に識別するための識別子であり、例えば特徴語カテゴリ生成部522によって特徴語カテゴリ1が生成される際に自動的に発行される。   The category number “C301” included in the category information 237 is an identifier for uniquely identifying the feature word category 1, and is automatically issued when, for example, the feature word category 1 is generated by the feature word category generation unit 522. Is done.

カテゴリ情報237に含まれる上位カテゴリ番号「C003」は、特徴語カテゴリ1の上位に位置する中間カテゴリCp(図23に示すステップS72において生成された中間カテゴリ)を識別するためのカテゴリ番号である。   The upper category number “C003” included in the category information 237 is a category number for identifying the intermediate category Cp (the intermediate category generated in step S72 shown in FIG. 23) positioned higher than the feature word category 1.

カテゴリ情報237に含まれるカテゴリ名「表示」は、特徴語カテゴリ1のカテゴリ名である。なお、上記したように特徴語カテゴリ1のカテゴリ名には特徴語「表示」が用いられる。   The category name “display” included in the category information 237 is the category name of the feature word category 1. As described above, the feature word “display” is used as the category name of the feature word category 1.

また、カテゴリ情報237に含まれる分類ルール「contains(./本文,”表示”)」は、特徴語カテゴリ1に属する文書(の条件)を示す。この分類ルール「contains(./本文,”表示”)」によれば、特徴語カテゴリ1には本文に特徴語「表示」が含まれる文書が属することが示されている。   Further, the classification rule “contains (./text,“ display ”)” included in the category information 237 indicates a document (condition) belonging to the feature word category 1. According to this classification rule “contains (./ text,“ display ”)”, it is indicated that a document whose feature word “display” is included in the text belongs to the feature word category 1.

図26は、例えば特徴語「操作」を用いて生成された特徴語カテゴリ(以下、特徴語カテゴリ2と表記)に関するカテゴリ情報のデータ構造の一例を示す。   FIG. 26 shows an example of a data structure of category information related to a feature word category (hereinafter referred to as feature word category 2) generated using, for example, a feature word “operation”.

図26に示すように、カテゴリ情報238には、カテゴリ番号「C302」、上位カテゴリ番号「C003」、カテゴリ名「操作」および分類ルール「contains(./本文,”操作”)」が含まれる。   As shown in FIG. 26, the category information 238 includes a category number “C302”, a higher category number “C003”, a category name “operation”, and a classification rule “contains (./text,“ operation ”)”.

カテゴリ情報238に含まれるカテゴリ番号「C302」は、特徴語カテゴリ2を一意に識別するための識別子であり、例えば特徴語カテゴリ生成部522によって特徴語カテゴリ2が生成される際に自動的に発行される。   The category number “C302” included in the category information 238 is an identifier for uniquely identifying the feature word category 2, and is automatically issued when, for example, the feature word category 2 is generated by the feature word category generation unit 522. Is done.

カテゴリ情報238に含まれる上位カテゴリ番号「C003」は、特徴語カテゴリ2の上位に位置する中間カテゴリCpを識別するためのカテゴリ番号である。   The upper category number “C003” included in the category information 238 is a category number for identifying the intermediate category Cp positioned higher than the feature word category 2.

カテゴリ情報238に含まれるカテゴリ名「操作」は、特徴語カテゴリKC2のカテゴリ名である。なお、上記したように特徴語カテゴリ2のカテゴリ名には特徴語「操作」が用いられる。   The category name “operation” included in the category information 238 is the category name of the feature word category KC2. Note that the feature word “operation” is used as the category name of the feature word category 2 as described above.

また、カテゴリ情報238に含まれる分類ルール「contains(./本文,”操作”)」は、特徴語カテゴリ2に属する文書(の条件)を示す。この分類ルール「contains(./本文,”表示”)」によれば、特徴語カテゴリ2には本文に特徴語「操作」が含まれる文書が属することが示されている。   The classification rule “contains (./ text,“ operation ”)” included in the category information 238 indicates a document (condition) belonging to the feature word category 2. According to this classification rule “contains (./ text,“ display ”)”, it is indicated that a document whose feature word “operation” is included in the feature word category 2 belongs.

次に、図27のフローチャートを参照して、上述したクロス集計部511によって実行されるクロス集計処理(図18に示すステップS50の処理)の処理手順について説明する。   Next, the processing procedure of the cross tabulation process (the processing of step S50 shown in FIG. 18) executed by the cross tabulation unit 511 described above will be described with reference to the flowchart of FIG.

ここでは、上述したようにユーザによって指定されたクロス集計(処理)の対象となる2つのカテゴリをクロス集計対象カテゴリCtgt1および2と称する。なお、クロス集計対象カテゴリCtgt1は前述した分析対象カテゴリCtgt(例えば、カテゴリ「出願人別」)であり、クロス集計対象カテゴリCtgt2は上述した特徴語カテゴリ生成処理において生成された特徴語カテゴリの上位に位置する中間カテゴリCp(例えば、カテゴリ「『出願人』分類軸」)であるものとする。また、上述した図20に示すクロス集計要求画面210のサブ画面211においてクロス集計対象カテゴリCtgt1が縦軸として選択されているものとする。   Here, as described above, the two categories to be subjected to cross tabulation (processing) designated by the user are referred to as cross tabulation target categories Ctgt1 and Ctgt2. The cross tabulation target category Ctgt1 is the analysis target category Ctgt (for example, the category “by applicant”), and the cross tabulation target category Ctgt2 is higher in the feature word category generated in the above-described feature word category generation processing. It is assumed that the intermediate category Cp is located (for example, the category “Applicant” classification axis ”). Further, it is assumed that the cross tabulation target category Ctgt1 is selected as the vertical axis on the sub-screen 211 of the cross tabulation request screen 210 shown in FIG.

まず、クロス集計部511は、階層構造においてクロス集計対象カテゴリCtgt1の下位に位置するカテゴリ(クロス集計対象カテゴリCtgt1を上位カテゴリとするカテゴリ)を含むカテゴリ集合(以下、カテゴリ集合CS1と表記)およびクロス集計対象カテゴリCtgt2の下位に位置するカテゴリ(クロス集計対象カテゴリCtgt2を上位カテゴリとするカテゴリ)を含むカテゴリ集合(以下、カテゴリ集合CS2と表記)を特定する(ステップS81)。   First, the cross tabulation unit 511 includes a category set (hereinafter, referred to as a category set CS1) including a category (a category having the cross tabulation target category Ctgt1 as an upper category) located in a lower level of the cross tabulation target category Ctgt1 in the hierarchical structure. A category set (hereinafter, referred to as a category set CS2) including a category (category having the cross-tabulation target category Ctgt2 as an upper category) positioned below the aggregation target category Ctgt2 is specified (step S81).

なお、カテゴリ集合CS1に含まれるカテゴリ(クロス集計対象カテゴリCtgt1の下位に位置するカテゴリ)は、当該クロス集計対象カテゴリCtgt1を識別するためのカテゴリ番号を上位カテゴリ番号として含むカテゴリ情報に含まれるカテゴリ番号によって識別されるカテゴリである。同様に、カテゴリ集合CS2に含まれるカテゴリ(クロス集計対象カテゴリCtgt2の下位に位置するカテゴリ)は、当該クロス集計対象カテゴリCtgt2を識別するためのカテゴリ番号を上位カテゴリ番号として含むカテゴリ情報のカテゴリ番号によって識別されるカテゴリである。   Note that the categories included in the category set CS1 (categories positioned below the cross tabulation target category Ctgt1) are category numbers included in the category information including the category number for identifying the cross tabulation target category Ctgt1 as the upper category number. Is a category identified by. Similarly, the categories included in the category set CS2 (categories positioned below the cross tabulation target category Ctgt2) are determined by the category number of the category information including the category number for identifying the cross tabulation target category Ctgt2 as the upper category number. The category to be identified.

ここで、カテゴリ集合CS1には、カテゴリC11、C12、…、C1aのa個のカテゴリが含まれているものとする。また、カテゴリ集合CS2には、カテゴリC21、C22、…、C2bのb個のカテゴリが含まれているものとする。   Here, it is assumed that the category set CS1 includes a categories of categories C11, C12,..., C1a. Further, it is assumed that the category set CS2 includes b categories of categories C21, C22,..., C2b.

次に、クロス集計部511は、特定されたカテゴリ集合CS1に含まれるカテゴリC1i(i=1,2,…,a)について以下のステップS82〜S86の処理を実行する。   Next, the cross tabulation unit 511 executes the processes of the following steps S82 to S86 for the category C1i (i = 1, 2,..., A) included in the identified category set CS1.

この場合、クロス集計部511は、カテゴリC1iに関するカテゴリ情報を取得する(ステップS82)。   In this case, the cross tabulation unit 511 acquires category information related to the category C1i (step S82).

次に、クロス集計部511は、特定されたカテゴリ集合CS2に含まれるカテゴリC2j(j=1,2,…,b)について以下のステップS83〜S85の処理を実行する。なお、カテゴリ集合CS2に含まれるカテゴリC21〜C2bは、例えば上述した特徴語カテゴリ生成部522によって生成された順(つまり、共通度順)で処理されるものとする。   Next, the cross tabulation unit 511 executes the processes of steps S83 to S85 below for the category C2j (j = 1, 2,..., B) included in the identified category set CS2. Note that the categories C21 to C2b included in the category set CS2 are processed in the order generated by the above-described feature word category generation unit 522 (that is, in order of commonality), for example.

この場合、クロス集計部511は、カテゴリC2jに関するカテゴリ情報を取得する(ステップS83)。   In this case, the cross tabulation unit 511 acquires category information related to the category C2j (step S83).

クロス集計部511は、取得されたカテゴリC1iに関するカテゴリ情報およびカテゴリC2jに関するカテゴリ情報に含まれる分類ルールに基づいて、当該カテゴリC1iおよびC2jの両方に属する文書を含む文書集合Dcmn(C1i,C2j)を取得する(ステップS84)。   The cross tabulation unit 511 selects a document set Dcmn (C1i, C2j) including documents belonging to both the categories C1i and C2j based on the category information included in the acquired category information regarding the category C1i and category information regarding the category C2j. Obtain (step S84).

クロス集計部511は、クロス集計結果のi行j列(のセル)の値を、文書集合Dcmn(C1i,C2j)に含まれる文書の数(以下、文書数|Dcmn(C1i,C2j)|と表記)とする(ステップS85)。   The cross tabulation unit 511 uses the value of the i row and j column (the cell) of the cross tabulation result as the number of documents included in the document set Dcmn (C1i, C2j) (hereinafter, the number of documents | Dcmn (C1i, C2j) | Notation) (step S85).

次に、クロス集計部511は、カテゴリ集合CS2に含まれる全てのカテゴリ(つまり、カテゴリC21、C22、…、C2b)について処理が実行されたか否かを判定する(ステップS86)。   Next, the cross tabulation unit 511 determines whether or not processing has been executed for all categories (that is, categories C21, C22,..., C2b) included in the category set CS2 (step S86).

カテゴリ集合CS2に含まれる全てのカテゴリについて処理が実行されていないと判定された場合(ステップS86のNO)、上記したステップS83に戻って処理が繰り返される。   If it is determined that processing has not been performed for all categories included in category set CS2 (NO in step S86), the process returns to step S83 described above and is repeated.

一方、カテゴリ集合CS2に含まれる全てのカテゴリについて処理が実行されたと判定された場合(ステップS86のYES)、クロス集計部511は、カテゴリ集合CS1に含まれる全てのカテゴリ(つまり、カテゴリC11、C12、…、C1a)について処理が実行されたか否かを判定する(ステップS87)。   On the other hand, when it is determined that processing has been executed for all categories included in the category set CS2 (YES in step S86), the cross tabulation unit 511 displays all categories included in the category set CS1 (that is, categories C11 and C12). ,..., C1a) is determined (step S87).

カテゴリ集合CS1に含まれる全てのカテゴリについて処理が実行されていないと判定された場合(ステップS87のNO)、上記したステップS82に戻って処理が繰り返される。   If it is determined that processing has not been performed for all categories included in category set CS1 (NO in step S87), the process returns to step S82 described above and is repeated.

一方、カテゴリ集合CS1に含まれる全てのカテゴリについて処理が実行されたと判定された場合(ステップS87のYES)、クロス集計処理は終了される。   On the other hand, when it is determined that the process has been executed for all categories included in the category set CS1 (YES in step S87), the cross tabulation process ends.

このようにクロス集計処理が実行されることによって、カテゴリ集合CS1に含まれるカテゴリ(C1i)およびカテゴリ集合CS2に含まれるカテゴリ(C2j)の両方に属する文書の数(文書数|Dcmn(C1i,C2j)|)を含むクロス集計結果を得ることができる。   By performing the cross tabulation process in this way, the number of documents belonging to both the category (C1i) included in the category set CS1 and the category (C2j) included in the category set CS2 (number of documents | Dcmn (C1i, C2j ) |) A cross tabulation result including |) can be obtained.

クロス集計処理によって得られたクロス集計結果は、ユーザインタフェース部51によってユーザに提示される。   The cross tabulation result obtained by the cross tabulation process is presented to the user by the user interface unit 51.

ここで、図28は、ユーザインタフェース部51によってユーザに提示されたクロス集計結果の一例を示す。ここでは、上記したようにクロス集計対象カテゴリCtgt1はカテゴリ「出願人別」(つまり、カテゴリ集合CS1は当該カテゴリ「出願人別」の下位に位置するカテゴリ「A社」〜「J社」の集合)であるものとし、クロス集計対象カテゴリCtgt2はカテゴリ「『出願人』分類軸」(つまり、カテゴリ集合CS2の下位に位置するカテゴリ「表示」、「操作」、「システム」、「通信」、「樹脂」、「フィルム」、「可塑」、「パネル」、「液晶」、「組成」、「光学」、「重合」、「包装」、「偏光」および「セル」の集合)であるものとする。   Here, FIG. 28 shows an example of the cross tabulation result presented to the user by the user interface unit 51. Here, as described above, the cross tabulation target category Ctgt1 is the category “by applicant” (that is, the category set CS1 is a set of categories “A company” to “J company” located under the category “by applicant”. ) And the cross tabulation target category Ctgt2 is the category “Applicant” classification axis ”(that is, the categories“ display ”,“ operation ”,“ system ”,“ communication ”,“ Resin, film, plastic, panel, liquid crystal, composition, optics, polymerization, packaging, polarization, and cell). .

図28に示すように、クロス集計結果においては、カテゴリ集合CS1に含まれるカテゴリ(C1i)およびカテゴリCS2に含まれるカテゴリ(C2j)に対応づけられているセルの値(つまり、当該カテゴリC1iおよびカテゴリC2jの両方に属する文書の数|Dcmn(C1i,C2j)|)に応じた大きさのバブル(円)が表示されている。   As shown in FIG. 28, in the cross tabulation result, the values of the cells associated with the category (C1i) included in the category set CS1 and the category (C2j) included in the category CS2 (that is, the category C1i and the category Bubbles (circles) having a size corresponding to the number of documents belonging to both C2j | Dcmn (C1i, C2j) |) are displayed.

なお、クロス集計結果において、クロス集計対象カテゴリCtgt2であるカテゴリ「『出願人』分類軸」の下位に位置するカテゴリ集合(CS2)に含まれる各カテゴリ(C2j)は、共通度順(特徴語生成カテゴリ部522によって生成された順)に表示される。つまり、クロス集計結果は、クロス集計対象カテゴリCtgt1(ユーザによって指定されたカテゴリ)に対する共通度に応じて提示される。   In the cross tabulation result, each category (C2j) included in the category set (CS2) positioned under the category “Applicant” classification axis, which is the cross tabulation target category Ctgt2, is in the order of commonality (feature word generation In the order generated by the category portion 522). That is, the cross tabulation result is presented according to the degree of commonality with respect to the cross tabulation target category Ctgt1 (category designated by the user).

このようなクロス集計結果がユーザに提示されることによって、クロス集計の対象となるカテゴリの下位に位置するカテゴリ間の共通点または相違点を可視化することができるため、ユーザは、当該カテゴリ間の共通点および相違点を容易に把握することができる。   By presenting such a cross tabulation result to the user, it is possible to visualize the common points or differences between the categories located under the categories to be cross tabulated. Common points and differences can be easily grasped.

また、図28に示すクロス集計結果においては横軸の特徴語カテゴリ(カテゴリ「『出願人』分析軸」の下位に位置するカテゴリ)のカテゴリ名(つまり、特徴語)が共通度順に並べられているため、横軸において左側に多くの出願人(企業)で扱われる共通性の高い技術に関する特徴語「表示」、「操作」および「システム」等が提示されており、右側に特定の出願人によって集中的に扱われている独自性の高い技術に関する特徴語「包装」、「偏光」および「セル」等が提示されている。   In the cross tabulation result shown in FIG. 28, category names (that is, feature words) of feature word categories on the horizontal axis (categories positioned under the category “Applicant” analysis axis ”) are arranged in order of commonality. Therefore, on the left side of the horizontal axis, feature words “display”, “operation”, “system”, etc. related to highly common technologies handled by many applicants (companies) are presented. The characteristic words “packaging”, “polarization”, “cell”, etc. relating to highly unique technologies that are intensively handled by the above are presented.

したがって、このようなクロス集計結果により、ユーザは、例えば「出願人別」という分析軸(カテゴリ)を見たときに、より具体的にその技術傾向を把握することができる。   Therefore, based on such cross tabulation results, for example, when the user looks at the analysis axis (category) “by applicant”, the user can more specifically grasp the technical tendency.

なお、図28においてはクロス集計結果がバブルチャートとして提示されるものとして説明したが、クロス集計結果として例えば各セルの値自身が提示されてもよいし、または棒グラフ等が提示されても構わない。   In FIG. 28, the cross tabulation result is described as being presented as a bubble chart. However, for example, the value of each cell itself may be presented as the cross tabulation result, or a bar graph or the like may be presented. .

上記したように本実施形態においては、特徴語抽出部322によって抽出された特徴語を用いて特徴語カテゴリが生成され、ユーザによって指定されたカテゴリの下位に位置するカテゴリおよび当該生成された特徴語カテゴリの両方に属する文書の数を含むクロス集計結果がユーザに提示される。また、本実施形態においては、ユーザによって指定されたカテゴリ(分析軸カテゴリCtgt)に対する特徴語の共通度が算出され、当該算出された特徴語の共通度に基づいて特徴語カテゴリが並べられたクロス集計結果が提示される。   As described above, in the present embodiment, a feature word category is generated using the feature words extracted by the feature word extraction unit 322, and the category located below the category specified by the user and the generated feature words A cross tabulation result including the number of documents belonging to both categories is presented to the user. In the present embodiment, the commonality of feature words with respect to a category (analysis axis category Ctgt) designated by the user is calculated, and the feature word categories are arranged based on the calculated commonality of feature words. The total result is presented.

これにより、本実施形態においては、ユーザが着目する分析軸(ユーザによって指定されたカテゴリ)に対して特徴語の共通点および相違点が明確になるようなクロス集計結果(集計マップ)を提示することができるため、ユーザは、当該分析軸について効率的に適切な分析を行うことができる。つまり、本実施形態においては、特徴語の共通度に基づいてクロス集計結果を提示することによってユーザが指定した分析軸での共通点または相違点を明確にし、ユーザのカテゴリ間の比較を支援することができる。   Thus, in the present embodiment, a cross tabulation result (tabulation map) is presented so that common points and differences of feature words are clarified with respect to an analysis axis (category designated by the user) focused on by the user. Therefore, the user can efficiently perform an appropriate analysis on the analysis axis. In other words, in the present embodiment, by presenting the cross tabulation results based on the commonality of feature words, the common points or differences in the analysis axis designated by the user are clarified, and the comparison between the categories of the user is supported. be able to.

なお、本実施形態においては上述した図18に示すように処理が実行されるものとして説明したが、例えば既に特徴語カテゴリが生成されているような場合等においては、ステップS42においてカテゴリの階層構造が提示された後に、特徴語の抽出が要求されることなくクロス集計が要求されても構わない。   In the present embodiment, the process is described as being executed as shown in FIG. 18 described above. However, for example, when a feature word category has already been generated, the hierarchical structure of the category in step S42. May be requested without the feature word extraction being requested.

以上説明した少なくとも1つの実施形態によれば、複数のカテゴリの内容を相互に比較するのに好適な特徴語を抽出することができる文書分析装置を提供することができる。   According to at least one embodiment described above, it is possible to provide a document analysis apparatus that can extract feature words suitable for comparing the contents of a plurality of categories with each other.

なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。   Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Moreover, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.

10…コンピュータ、20…外部記憶装置、22…文書格納部、23…カテゴリ格納部、30…文書分析装置、31,51…ユーザインタフェース部、32,52…分析軸生成部、311…カテゴリ提示部、321…単語抽出部、322…特徴語抽出部、511…クロス集計部、521…特徴語特性算出部、522…特徴語カテゴリ生成部。   DESCRIPTION OF SYMBOLS 10 ... Computer, 20 ... External storage device, 22 ... Document storage part, 23 ... Category storage part, 30 ... Document analysis apparatus, 31, 51 ... User interface part, 32, 52 ... Analysis axis generation part, 311 ... Category presentation part 321 ... word extraction unit, 322 ... feature word extraction unit, 511 ... cross tabulation unit, 521 ... feature word characteristic calculation unit, 522 ... feature word category generation unit.

Claims (5)

階層構造を構成する複数のカテゴリに属する単語を含む複数の文書を格納する文書格納手段と、
前記階層構造を構成するカテゴリ毎に、当該カテゴリに属する文書を示すカテゴリ情報を格納するカテゴリ格納手段と、
前記カテゴリ情報格納手段に格納されているカテゴリ情報によって示されるユーザによって指定された第1のカテゴリに属する複数の文書に含まれる単語を、前記文書格納手段に格納されている当該複数の文書から抽出する単語抽出手段と、
前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第1のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第1の文書数および前記階層構造において前記第1のカテゴリの下位に位置する第2のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第2の文書数を算出する文書数算出手段と、
前記第1のカテゴリに属する文書の数、前記第2のカテゴリに属する文書の数、前記第2のカテゴリの数、前記算出された第1および第2の文書数に基づいて、前記第1のカテゴリに対する前記抽出された単語の特徴度を算出する特徴度算出手段と、
前記特徴度算出手段によって算出された特徴度に基づいて、前記抽出された単語を前記第1のカテゴリに対する特徴語として抽出する特徴語抽出手段と
を具備することを特徴とする文書分析装置。
Document storage means for storing a plurality of documents including words belonging to a plurality of categories constituting a hierarchical structure;
Category storage means for storing category information indicating documents belonging to the category for each category constituting the hierarchical structure;
Extract words included in the plurality of documents belonging to the first category designated by the user indicated by the category information stored in the category information storage means from the plurality of documents stored in the document storage means. Word extraction means to
Based on the category information stored in the category storage means, the first document number indicating the number of documents in which the extracted word appears in the plurality of documents belonging to the first category, and the hierarchical structure A document number calculating means for calculating a second document number indicating the number of documents in which the extracted word appears in a plurality of documents belonging to a second category located under the first category;
Based on the number of documents belonging to the first category, the number of documents belonging to the second category, the number of second categories, and the calculated first and second document numbers, Feature degree calculating means for calculating the feature degree of the extracted word with respect to a category;
A document analysis apparatus comprising: a feature word extraction unit that extracts the extracted word as a feature word for the first category based on the feature degree calculated by the feature degree calculation unit.
前記第1のカテゴリに属する複数の文書のうち前記特徴語抽出手段によって抽出された特徴語を含む文書が属する特徴語カテゴリを生成するカテゴリ生成手段と、
前記カテゴリ生成手段によって生成された特徴語カテゴリに属する文書を示すカテゴリ情報を前記カテゴリ格納手段に格納する格納処理手段と、
前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第2のカテゴリおよび前記特徴語カテゴリの両方に属する文書の数を示す第3の文書数を含む集計結果を前記ユーザに提示する提示手段と
を更に具備する請求項1記載の文書分析装置。
Category generating means for generating a feature word category to which a document including a feature word extracted by the feature word extracting means among a plurality of documents belonging to the first category;
Storage processing means for storing category information indicating documents belonging to the feature word category generated by the category generation means in the category storage means;
Presentation that presents the user with a total result including a third document number indicating the number of documents belonging to both the second category and the feature word category based on the category information stored in the category storage means The document analysis apparatus according to claim 1, further comprising: means.
前記第1のカテゴリに属する文書の数、前記第2のカテゴリに属する文書の数、前記文書数算出手段によって算出された前記第1のカテゴリに属する複数の文書において前記特徴語抽出手段によって抽出された特徴語が出現する文書の数を示す第1の文書数および前記第2のカテゴリに属する複数の文書において当該特徴語が出現する文書の数を示す第2の文書数に基づいて、前記第1のカテゴリに対する当該特徴語の共通度を算出する共通度算出手段を更に具備し、
前記提示手段は、前記共通度算出手段によって算出された特徴語の共通度に基づいて、前記集計結果を提示する
ことを特徴とする請求項2記載の文書分析装置。
The number of documents belonging to the first category, the number of documents belonging to the second category, and a plurality of documents belonging to the first category calculated by the document number calculation means are extracted by the feature word extraction means. Based on a first document number indicating the number of documents in which the feature word appears and a second document number indicating the number of documents in which the feature word appears in a plurality of documents belonging to the second category. A common degree calculating means for calculating the common degree of the feature word for one category;
The document analysis apparatus according to claim 2, wherein the presenting unit presents the total result based on the commonality of the feature words calculated by the commonality calculation unit.
前記特徴度算出手段は、
前記第1のカテゴリに属する文書の数および前記文書数算出手段によって算出された第1の文書数に基づいて、当該複数の文書における前記単語抽出手段によって抽出された単語の出現確率に対する当該文書毎の偏りおよび当該偏りの自由度を算出する第1の算出手段と、
前記第2のカテゴリの数、前記第2のカテゴリに属する文書の数および前記文書数算出手段によって算出された第2の文書数に基づいて、前記第1のカテゴリに属する複数の文書における前記単語抽出手段によって抽出された単語の出現確率に対する前記カテゴリ毎の偏りおよび当該偏りの自由度を算出する第2の算出手段と、
前記第1のカテゴリに属する文書の数と、前記第2のカテゴリの数と、前記第1の算出手段によって算出された偏りおよび当該偏りの自由度と、前記第2の算出手段によって算出された偏りおよび当該偏りの自由度とに基づいて、前記カテゴリ毎の平均に対する偏りおよび当該偏りの自由度を算出する第3の算出手段と、
前記第2の算出手段によって算出された偏りおよび当該偏りの自由度と、前記第3の算出手段によって算出された偏りおよび当該偏りの自由度に基づいて、前記カテゴリ間の分散および誤差の分散を算出する第4の算出手段と、
前記第4の算出手段によって算出されたカテゴリ間の分散および誤差の分散に基づいて、前記第1のカテゴリに対する前記単語抽出手段によって抽出された単語の特徴度を算出する第5の算出手段と
を含む
ことを特徴とする請求項1記載の文書分析装置。
The feature degree calculating means includes:
Based on the number of documents belonging to the first category and the number of first documents calculated by the number-of-documents calculation unit, each document with respect to the appearance probability of the word extracted by the word extraction unit in the plurality of documents And a first calculating means for calculating the bias and the degree of freedom of the bias;
The word in the plurality of documents belonging to the first category based on the number of the second category, the number of documents belonging to the second category, and the second document number calculated by the document number calculating means Second calculating means for calculating a bias for each category with respect to the appearance probability of the word extracted by the extracting means and a degree of freedom of the bias;
The number of documents belonging to the first category, the number of the second category, the bias calculated by the first calculation unit and the degree of freedom of the bias, and the second calculation unit Based on the bias and the degree of freedom of the bias, third calculation means for calculating the bias for the average for each category and the degree of freedom of the bias;
Based on the bias calculated by the second calculation means and the degree of freedom of the bias, and the bias calculated by the third calculation means and the degree of freedom of the bias, the variance between the categories and the variance of the error are calculated. A fourth calculating means for calculating;
Fifth calculation means for calculating a feature degree of the word extracted by the word extraction means for the first category based on variance between categories and error variance calculated by the fourth calculation means; The document analysis apparatus according to claim 1, further comprising:
階層構造を構成する複数のカテゴリに属する単語を含む複数の文書を格納する文書格納手段と、前記階層構造を構成するカテゴリ毎に、当該カテゴリに属する文書を示すカテゴリ情報を格納するカテゴリ格納手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書分析装置において、前記コンピュータによって実行されるプログラムであって、
前記コンピュータに、
前記カテゴリ情報格納手段に格納されているカテゴリ情報によって示されるユーザによって指定された第1のカテゴリに属する複数の文書に含まれる単語を、前記文書格納手段に格納されている当該複数の文書から抽出するステップと、
前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第1のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第1の文書数および前記階層構造において前記第1のカテゴリの下位に位置する第2のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第2の文書数を算出するステップと、
前記第1のカテゴリに属する文書の数、前記第2のカテゴリの数、前記算出された第1および第2の文書数に基づいて、前記第1のカテゴリに対する前記抽出された単語の特徴度を算出するステップと、
前記算出された特徴度に基づいて、前記抽出された単語を前記第1のカテゴリに対する特徴語として抽出するステップと
を実行させるためのプログラム。
Document storage means for storing a plurality of documents including words belonging to a plurality of categories constituting a hierarchical structure, and category storage means for storing category information indicating documents belonging to the category for each category constituting the hierarchical structure In a document analysis apparatus composed of an external storage device having a computer and a computer using the external storage device, a program executed by the computer,
In the computer,
Extract words included in the plurality of documents belonging to the first category designated by the user indicated by the category information stored in the category information storage means from the plurality of documents stored in the document storage means. And steps to
Based on the category information stored in the category storage means, the first document number indicating the number of documents in which the extracted word appears in the plurality of documents belonging to the first category, and the hierarchical structure Calculating a second document number indicating the number of documents in which the extracted word appears in a plurality of documents belonging to a second category located under the first category;
Based on the number of documents belonging to the first category, the number of the second category, and the calculated first and second document numbers, the characteristic degree of the extracted word with respect to the first category is calculated. A calculating step;
Extracting the extracted word as a characteristic word for the first category based on the calculated characteristic degree.
JP2010240873A 2010-10-27 2010-10-27 Document analysis apparatus and program Expired - Fee Related JP5135412B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010240873A JP5135412B2 (en) 2010-10-27 2010-10-27 Document analysis apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010240873A JP5135412B2 (en) 2010-10-27 2010-10-27 Document analysis apparatus and program

Publications (2)

Publication Number Publication Date
JP2012093966A true JP2012093966A (en) 2012-05-17
JP5135412B2 JP5135412B2 (en) 2013-02-06

Family

ID=46387221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010240873A Expired - Fee Related JP5135412B2 (en) 2010-10-27 2010-10-27 Document analysis apparatus and program

Country Status (1)

Country Link
JP (1) JP5135412B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134750A (en) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for extracting feature word
WO2014109388A1 (en) * 2013-01-11 2014-07-17 日本電気株式会社 Text mining device, text mining system, text mining method, and recording medium
JP2015053019A (en) * 2013-09-09 2015-03-19 株式会社東芝 Document analysis device
JP2015056020A (en) * 2013-09-11 2015-03-23 株式会社東芝 Document classification device
JP2015060259A (en) * 2013-09-17 2015-03-30 株式会社日立製作所 Data analysis support system
CN104603779A (en) * 2012-08-31 2015-05-06 日本电气株式会社 Text mining device, text mining method, and computer-readable recording medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (en) * 2010-03-19 2011-10-06 Toshiba Corp Feature word extraction device and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (en) * 2010-03-19 2011-10-06 Toshiba Corp Feature word extraction device and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134750A (en) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for extracting feature word
CN104603779A (en) * 2012-08-31 2015-05-06 日本电气株式会社 Text mining device, text mining method, and computer-readable recording medium
US10140361B2 (en) 2012-08-31 2018-11-27 Nec Corporation Text mining device, text mining method, and computer-readable recording medium
WO2014109388A1 (en) * 2013-01-11 2014-07-17 日本電気株式会社 Text mining device, text mining system, text mining method, and recording medium
CN104919458A (en) * 2013-01-11 2015-09-16 日本电气株式会社 Text mining device, text mining system, text mining method, and recording medium
JPWO2014109388A1 (en) * 2013-01-11 2017-01-19 日本電気株式会社 Text mining device, text mining system, text mining method and program
JP2015053019A (en) * 2013-09-09 2015-03-19 株式会社東芝 Document analysis device
JP2015056020A (en) * 2013-09-11 2015-03-23 株式会社東芝 Document classification device
JP2015060259A (en) * 2013-09-17 2015-03-30 株式会社日立製作所 Data analysis support system

Also Published As

Publication number Publication date
JP5135412B2 (en) 2013-02-06

Similar Documents

Publication Publication Date Title
US20210165955A1 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US8131684B2 (en) Adaptive archive data management
US20180173788A1 (en) System And Method For Providing Inclusion-Based Electronically Stored Information Item Classification Suggestions With The Aid Of A Digital Computer
US9020950B2 (en) System and method for generating, updating, and using meaningful tags
JP5551187B2 (en) Literature analysis system
US8983963B2 (en) Techniques for comparing and clustering documents
US7792786B2 (en) Methodologies and analytics tools for locating experts with specific sets of expertise
US9588955B2 (en) Systems, methods, and software for manuscript recommendations and submissions
JP5135412B2 (en) Document analysis apparatus and program
KR101426765B1 (en) System and method for supplying collaboration partner search service
JP2017513134A (en) Ontology mapping method and apparatus
JP2005063332A (en) Information system coordination device, and coordination method
US20120179709A1 (en) Apparatus, method and program product for searching document
JP4324650B2 (en) Information resource search device, information resource search method, and information resource search program
JP5349699B1 (en) Document analysis apparatus and program
Kulczycki The diversity of monographs: Changing landscape of book evaluation in Poland
WO2014084141A1 (en) Document management system, document management method, and document management program
JP2006323517A (en) Text classification device and program
US20090254576A1 (en) System and method for collecting data from an electronic document and storing the data in a dynamically organized data structure
CN109213830B (en) Document retrieval system for professional technical documents
KR20100088892A (en) System for grouping documents
JP2000293537A (en) Data analysis support method and device
JP2011198285A (en) Document processing system and program
WO2023195051A1 (en) Related information display device, program, and related information display method
English An extensible schema for building large weakly-labeled semantic corpora

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5135412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees