JP5450699B2 - Document analysis apparatus and document analysis program - Google Patents
Document analysis apparatus and document analysis program Download PDFInfo
- Publication number
- JP5450699B2 JP5450699B2 JP2012056518A JP2012056518A JP5450699B2 JP 5450699 B2 JP5450699 B2 JP 5450699B2 JP 2012056518 A JP2012056518 A JP 2012056518A JP 2012056518 A JP2012056518 A JP 2012056518A JP 5450699 B2 JP5450699 B2 JP 5450699B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- word
- factor
- document
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明の実施形態は、文書分析装置および文書分析プログラムに関する Embodiments described herein relate generally to a document analysis apparatus and a document analysis program.
近年の情報システムの高度化に伴い、特許文献や新聞記事、ウェブページ、書籍といった文書を大量に記録し蓄積することが可能になっている。ここで、これらの蓄積された文書群を分類・分析して日々の業務などに有効活用していくための技術が求められている。例えば、過去の膨大な量の新聞記事をカテゴリ別に分類して、多くの人が利用しやすいように整理する、あるいは、現在に研究開発をしている技術に関係のある自他社の特許群の傾向を分析し、新しい研究開発分野を発見する、などである。 With the advancement of information systems in recent years, it has become possible to record and accumulate a large amount of documents such as patent documents, newspaper articles, web pages, and books. Here, there is a need for a technique for classifying and analyzing these accumulated document groups and effectively utilizing them for daily work. For example, a huge amount of past newspaper articles are classified into categories and arranged so that many people can use them easily, or patents of other companies related to the technology currently being researched and developed. Analyzing trends and discovering new R & D fields.
このように、大量の文書を分類したカテゴリにおいて、カテゴリ内の文書内容を把握するために、カテゴリの特徴を知りたいというニーズがある。 As described above, in a category in which a large number of documents are classified, there is a need to know the characteristics of the category in order to grasp the document contents in the category.
カテゴリの特徴を調べる技術として、例えば、文書集合間の違いを表す特徴語を統計的に抽出する方法がある。 As a technique for examining the characteristics of a category, for example, there is a method of statistically extracting feature words representing differences between document sets.
しかしながら、この方法はカテゴリにつけられた順位を考慮して抽出していない。例えば、自動車の不具合情報において、不具合の危険度順に「極めて危険」、「やや危険」、「危険」、「安全」と順位付けされたカテゴリに分類された文書集合がある。このとき、危険度1位のカテゴリが「極めて危険」であり、危険度2位のカテゴリが「やや危険」であり、危険度3位のカテゴリが「危険」であり、危険度4位のカテゴリが「安全」であるとする。 However, this method does not extract in consideration of the ranking given to the category. For example, in the defect information of automobiles, there is a document set classified into categories ranked as “extremely dangerous”, “slightly dangerous”, “dangerous”, and “safety” in the order of the risk of failure. At this time, the category with the first risk level is “extremely dangerous”, the category with the second risk level is “slightly dangerous”, the category with the third risk level is “danger”, and the category with the fourth risk level is Is "safe".
このとき文書データが「危険」という順位のカテゴリに分類された要因、すなわち文書データに「危険」という順位が付与された要因を知りたいとき、上記のように統計的な方法では、必ずしも順位付けの要因となる単語を抽出できるとは限らないという問題がある。 At this time, if you want to know the factors that classified the document data into the category of “danger”, that is, the factors that gave the document data a ranking of “danger”, the statistical method as described above is not necessarily ranked. There is a problem that it is not always possible to extract words that cause the problem.
例えば、上述した自動車の不具合情報において、不具合の危険度別に「極めて危険」、「危険」、「安全」という順位付きカテゴリに分類された文書集合において、「極めて危険」カテゴリに分類された要因が、「燃料」、「漏れ」や「タイヤ」、「脱落」といった単語にあるとき、上記のような統計的な方法でカテゴリの特徴語を抽出すると、「ポンプ」、「パイプ」のような、カテゴリ内で出現回数が多い単語が抽出され、「極めて危険」とはいえない単語が抽出されることがある。 For example, in the above-described vehicle defect information, the factors classified into the “very dangerous” category in the document set classified into the ranking categories “very dangerous”, “dangerous”, and “safety” according to the risk level of the failure are as follows. , "Fuel", "Leakage", "Tire", "Dropout", if you extract the feature word of the category by the statistical method as above, like "pump", "pipe", Words that appear frequently in a category are extracted, and words that are not “very dangerous” may be extracted.
本発明が解決しようとする課題は、カテゴリの順位の上昇もしくは下降の要因となる単語を抽出する文書分析装置およびプログラムを提供することである。 The problem to be solved by the present invention is to provide a document analysis apparatus and a program for extracting words that cause an increase or decrease in category ranking.
実施形態の文書分析装置は、文書データを記憶する文書記憶部と、文書データを分類する順位付きの複数のカテゴリおよびカテゴリの階層構造を記憶する分類結果記憶部と、複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリに分類される文書データに含まれる単語群から、当該カテゴリにおける単語の出現頻度が当該カテゴリと同じ階層にある他のカテゴリにおける当該単語の出現頻度よりも多く、かつ、前記他のカテゴリにおける当該単語の出現頻度が当該カテゴリから順位が遠くなるに従って減少する単語を抽出する要因語抽出部と、を備える。 The document analysis apparatus according to the embodiment includes a document storage unit that stores document data, a plurality of categories with rankings that classify document data, and a classification result storage unit that stores a hierarchical structure of categories, and one of the plurality of categories. In one category, from the word group included in the document data classified into the category, the appearance frequency of the word in the category is higher than the appearance frequency of the word in other categories in the same hierarchy as the category, and A factor word extraction unit that extracts words whose frequency of appearance in other categories decreases as the rank becomes farther from the category.
(第1の実施形態)
以下、実施形態の文書分析装置について図1乃至図18を参照して説明する。なお、以下の装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。
(First embodiment)
The document analysis apparatus according to the embodiment will be described below with reference to FIGS. The following apparatus can be implemented with either a hardware configuration or a combined configuration of hardware resources and software. As the software of the combined configuration, a program that is installed in advance on a computer of a corresponding device from a network or a storage medium and that realizes the function of the corresponding device is used.
図1は、本実施形態に係る文書分析装置10の構成を示す模式図である。この計算機10は、主記憶装置11、キーボード12、マウス13、中央演算装置14およびディスプレイ装置15を備えている。なお、文書分析装置10は例えば、本実施形態に係る文書分析プログラムが適用された計算機によって実現される。
FIG. 1 is a schematic diagram illustrating a configuration of a
記憶装置11は、中央演算装置14から読出/書込み可能な記憶装置であり、例えばRAMである。記憶装置11は、あらかじめ本実施形態の文書分析プログラムが記憶されている。
The
キーボード12およびマウス13は、通常の入力装置であり、例えば、操作者の操作により、データ又は命令からなる各種情報を中央演算装置15に入力する。
The
中央演算装置14は、通常のCPUであり、例えば、記憶装置11に記憶された文書分析プログラムを実行する機能と、キーボード12又はマウス13から入力される情報に基づいて各プログラムの実行を制御する機能と、実行結果等をディスプレイ装置15に出力する機能をもつ。
The
ディスプレイ装置15は、通常の表示装置であり、例えば、編集中の各アーキテクチャモデルやフィーチャモデル等を表示して可視化し、他にも中央演算装置14から出力された情報を表示する機能をもっている。
The
図2を参照して、以上のように構成された文書分析装置10の機能構成について説明する。
With reference to FIG. 2, the functional configuration of the
文書分析装置10は、文書記憶部1、分類結果記憶部2、ユーザインタフェース部3、および要因生成部4を備える。
The
文書記憶部1は、文書分析装置10が分析の対象とする複数の文書のデータ(以下、文書データという)を記憶する。本実施形態では、文書記憶部1に記憶された文書データは、自動車の不具合情報に関する文書データであり、階層構造で構成された複数のカテゴリによって分類されている。
The
ここで、図3を参照して、文書記憶部1に記憶される文書データの一例について説明する。文書記憶部1に記憶される文書データ20は、自動車の不具合情報を報告する文書データであり、文書番号21、タイトル22、本文23、不具合の危険度24、開発社25、および購入日26を項目としてもち、各項目に対応した文書データの内容が記憶されている。
Here, an example of document data stored in the
文書番号21はこの文書データ固有のIDを示す。タイトル22は、文書データ20のタイトルである。本文23は、文書データ20の本文である。不具合の危険度24は、この文書データが報告する不具合情報の危険度を示す。開発社25は不具合が起きた自動車の開発社であり、購入日26不具合が起きた自動車が購入された日である。
The
なお、文書データ20の項目名は上記の項目名すべてでなくてもよいし、他の項目名を追加してもよい。また、ここでは一例として文書データを1つ示したが、文書記憶部1には複数の文書データが記憶されていてよい。
Note that the item names of the
分類結果記憶部2は、文書記憶部1に記憶された文書データにおけるカテゴリと、このカテゴリの階層構造とを記憶する。本実施形態では、分類結果記憶部2に記憶されたカテゴリはあらかじめ作成され、文書データが分類されているとする。なお、カテゴリの作成は、文書データをクラスタリングすることによって作成してもよい。
The classification
図4を参照して、分類結果記憶部2に記憶されるカテゴリとこのカテゴリの階層構造とについて説明する。この図4に示すカテゴリ(a)〜(f)は、カテゴリ番号301、親カテゴリ302、カテゴリ名303、文書304を項目として備える。
With reference to FIG. 4, the category memorize | stored in the classification result memory |
カテゴリ番号301は、文書分析装置10がカテゴリを特定するためのユニークなデータを格納する。
The
親カテゴリ302は、このカテゴリの親カテゴリを示すデータを格納する。すなわち、親カテゴリ302は、当該カテゴリの親カテゴリのカテゴリ番号である。例えば、カテゴリ(a)の親カテゴリは、カテゴリ(a)がカテゴリ(a)〜(f)における階層構造の最上位(ルート)に位置するため「(なし)」となる。
The
また、カテゴリ(b)(カテゴリ番号「c02」)の親カテゴリ302はカテゴリ番号「c01」のカテゴリ(カテゴリ(a))である。すなわち、カテゴリ(a)の子カテゴリの1つが、カテゴリ(b)であるといえる。カテゴリ(c)〜(f)についても同様に親カテゴリ302が設定されている。
The
以下、本実施形態では、あるカテゴリの直接の親に位置するカテゴリを親カテゴリ、直接の子に位置するカテゴリを子カテゴリと呼ぶ。あるカテゴリの直接または間接の親に位置するカテゴリを、総じて上位カテゴリと呼び、あるカテゴリの直接または間接の子(子孫)に位置するカテゴリを、総じて下位カテゴリと呼ぶ。 Hereinafter, in the present embodiment, a category located at a direct parent of a category is called a parent category, and a category located at a direct child is called a child category. A category that is located in the direct or indirect parent of a certain category is generally called an upper category, and a category that is located in a direct or indirect child (descendant) of a certain category is generally called a lower category.
カテゴリ名303は、各カテゴリがその内容をユーザに示すための名称を格納する。
The
文書304は、当該カテゴリに含まれる文書データに文書番号を格納する。複数の文書がカテゴリに属する場合は文書番号のデータを複数列挙する。
The
なお、カテゴリ(c)に示すように、当該カテゴリに分類される文書が満たすべき条件305を設定し、この条件305に格納された条件を満たす文書データのみを文書304に列挙してもよい。また、カテゴリ(a)、カテゴリ(b)、カテゴリ(d)は、文書304に格納されている文書データは「なし」であり、すなわち各カテゴリに属する文書は「(なし)」となっている。これは、当該カテゴリに直接分類されている文書がないという意味であり、下位カテゴリを介して間接的に分類されている文書は存在し得る。例えばカテゴリ(a)の間接的に分類されている文書は、カテゴリ(a)の全ての下位カテゴリに分類されている文書の和集合となる。
Note that, as shown in category (c), a
ユーザインタフェース部3は、カテゴリ表示操作部31、2軸マップ可視化部32を備え、ユーザの入力情報や指示情報を受け付ける。
The
カテゴリ表示操作部31は、分類結果記憶部2に記憶されているカテゴリおよびその階層構造をユーザに示す画面(以下、カテゴリ表示画面という)を表示する。また、カテゴリ表示操作部31は、表示したカテゴリ表示画面に対するユーザの操作を受け付ける入力部としての機能も有する。カテゴリ表示画面については後述する。
The category
2軸マップ可視化部32は、ユーザが、カテゴリ表示操作部31を用いて入力したカテゴリの子カテゴリである順位付きカテゴリ全てを第1の分類軸とし、後述する要因語抽出部41と複合要因語抽出部42の抽出結果に基づいて、要因カテゴリ生成部43によって分類された各カテゴリを第2の分類軸とし、それぞれの各カテゴリがクロスした文書数の集計結果を、2軸マップ上に表示する。
The biaxial
続いて要因生成部4について説明する。要因生成部4は、要因語抽出部41、複合要因語抽出部42、要因カテゴリ生成部43を備える。
Next, the
要因語抽出部41は、カテゴリ表示操作部31によってユーザがカテゴリを入力すると、入力されたカテゴリに属する子カテゴリである順位付きカテゴリにおいて、カテゴリの順位の上昇・下降の原因となる単語群(第1の単語群)を抽出する。
When the user inputs a category through the category
複合要因語抽出部42は、要因語抽出部41によって抽出された第1の単語群において、第1の単語群に含まれる単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。
When the words included in the first word group are combined in the first word group extracted by the factor
さらに、複合要因語抽出部42は、要因語抽出部41によって抽出されなかった単語群(第2の単語群)についても同様に、第2の単語群に含まれる単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。
Furthermore, the compound factor
要因カテゴリ生成部43は、要因語抽出部41と複合要因語抽出部42とによって抽出された単語および単語の組み合わせに基づいて新規カテゴリを作成し、分類結果記憶部2に記憶する。この新規カテゴリには、当該単語および単語の組み合わせを含んだ文書データが分類される。
The factor
文書記憶部1および分類結果記憶部2は、計算機の記憶手段である、ファイルシステムやデータベースなどを用いて実現する。ユーザインタフェース部3は、キーボード12、マウス13、およびディスプレイ15によって実現される。要因生成部430は記憶装置11に記憶されたプログラムを中央演算装置14が実行することによって実現される。
The
以下、図3に示す文書記憶部1に記憶された自動車の不具合情報に関する文書データであって、不具合の危険度順に「極めて危険」、「やや危険」、「危険」、「安全」という順位付きカテゴリ毎に文書データが複数格納されている場合であって、ユーザは、文書データが「危険」という順位付きカテゴリに分類された要因、すなわち危険度付与の要因を知りたい場合に、「危険」という順位付きカテゴリに属する文書データに含まれる単語から当該カテゴリに分類された要因を示す単語(以下、要因語という)を抽出する文書分析装置10の動作の一例について図5乃至図18を参照して説明する。
The following is document data relating to vehicle malfunction information stored in the
図5は、文書分析装置10の動作の一例を示すフローチャートである。
FIG. 5 is a flowchart illustrating an example of the operation of the
まず、ユーザインタフェース部3にカテゴリ表示画面が表示される(ステップS401)。 First, a category display screen is displayed on the user interface unit 3 (step S401).
図6にステップS401で表示されるカテゴリ表示画面の一例を示す。図6に示すカテゴリ表示画面50は、当該画面左部501にカテゴリの階層構造が表示され、そのうちの1つのカテゴリを選択すると、当該画面右上部502に選択したカテゴリに属する文書のタイトル一覧が表示される。更に、一覧表示されたタイトルのうちの1つを選択すると、画面右下部503に文2書データの本文が表示される。図6では、ユーザが文書データを確認したいカテゴリとして、ドットで表示された「極めて危険」カテゴリが選択され、画面右上部502に「極めて危険」カテゴリに属する文書データのタイトル一覧が表示されている。また、画面右上部502に表示された「極めて危険」カテゴリに属する文書データのうち、ドットで表示された「燃料漏れ」が選択され、「燃料漏れ」の文書データの本文が、画面右下部503に表示されている。
FIG. 6 shows an example of the category display screen displayed in step S401. The
続いて、ユーザがカテゴリ表示操作部31を介して、カテゴリ表示画面50の画面左部501に表示された親カテゴリのうち、当該親カテゴリに属する順位付きカテゴリの順位付けの要因を分析する(要因語を抽出する)対象の親カテゴリを入力する(ステップS402)。
Subsequently, among the parent categories displayed on the
図7に、ステップS402において入力される親カテゴリを入力する際のカテゴリ表示画面50の一例を示す。図7に示すように、ステップS402でユーザはユーザインタフェース部3を用いて、要因語抽出対象の親カテゴリとして「不具合の危険度別」カテゴリ601を選択する。その後、「選択したカテゴリ直下の各カテゴリの要因を抽出しますか?」というメッセージが表示されたメッセージ画面602が表示されると、ユーザは「YES」ボタン603を押下し後述する要因語抽出処理が実行される。なお、「NO」ボタン604を押下した場合、処理は終了する(図示しない)。
FIG. 7 shows an example of the
親カテゴリが入力されると、要因生成部4が要因生成処理を行う(ステップS403とステップS404)。要因生成処理は、分析対象の親カテゴリの直下に属する各順位付きカテゴリにおける順位の上昇もしくは下降の要因となる単語単体を抽出する要因語抽出処理と、各順位付きカテゴリにおける順位の上昇もしくは下降の要因となる単語の組み合わせを抽出する複合要因語抽出処理とを行なう。
When the parent category is input, the
図8および図9を参照して、ステップS403において要因語抽出部41が行なう要因語抽出処理について説明する。なお、ここでは、図6の「不具合の危険度別」カテゴリについて要因語抽出処理を行う場合について説明する。
With reference to FIGS. 8 and 9, the factor word extraction process performed by the factor
まず、要因語抽出部41は、要因語抽出処理における抽出結果のリストであるlist1を初期化する(ステップS1101)。順位付きの各カテゴリCiについて(ステップS1102)、カテゴリCiの全ての文書内の各単語tについて繰り返し(ステップS1103)、tのCiにおける出現頻度が、統計的に有意に大きいか否かを判定する(ステップS1104)。
First, the factor
統計的に有意に大きいか否かの判定は、例えば、χ二乗検定で有意か否かを判定する。この場合のχ二乗検定によれば、χ二乗統計量(χ)が、自由度2の有意水準5%のχ二乗分布(3.84)や自由度2の有意水準1%のχ二乗分布(6.63)よりも小さい場合には統計的に有意となる。一方、χ二乗統計量(χ)が、自由度2の有意水準5%のχ二乗分布(3.84)や自由度2の有意水準1%のχ二乗分布(6.63)よりも大きい場合には統計的に有意とならない。なお、χ二乗統計量(χ)は、図9に示す式(1)により算出される。 The determination of whether or not it is statistically significant is, for example, whether or not it is significant by a chi-square test. According to the chi-square test in this case, the chi-square statistic (χ) has a chi-square distribution (3.84) with a significance level of 5% and a chi-square distribution (3.84) with a significance level of 2 degrees ( If it is smaller than 6.63), it becomes statistically significant. On the other hand, when the chi-square statistic (χ) is larger than the chi-square distribution (3.84) with a significance level of 5% and the chi-square distribution (6.63) with a significance level of 1% and a significance level of 1%. Is not statistically significant. Note that the χ square statistic (χ) is calculated by the equation (1) shown in FIG.
式(1)において、x11は、カテゴリCiにおける単語tが出現する文書の数である。a1は、全ての文書における単語tが出現する文書の数である。b1は、カテゴリCiの文書の数である。nは、全ての文書の数である。また、x12はa1−x11であり、x21はb1−x11であり、x22はn−a1−x21である。 In Expression (1), x11 is the number of documents in which the word t in the category Ci appears. a1 is the number of documents in which the word t appears in all documents. b1 is the number of documents of category Ci. n is the number of all documents. X12 is a1-x11, x21 is b1-x11, and x22 is n-a1-x21.
このχ二乗検定により、有意であると判定されなければ(ステップS1104がNo)、他の単語について繰り返しを行う。有意と判定されれば(ステップS1104がYes)、単語tのスコアであるscore(Ci,t)を求め、list1にtとそのスコアを代入する(ステップS1105)。score(Ci,t)については後述する。なお、score(Ci,t))は、図9の式(2)により算出される。ただし、順位付きカテゴリは、(C1,C2,…Ci,…,Cm)とする。 If it is not determined to be significant by this χ square test (No in step S1104), the process is repeated for other words. If it is determined to be significant (step S1104 is Yes), score (Ci, t) which is the score of the word t is obtained, and t and its score are substituted into list1 (step S1105). The score (Ci, t) will be described later. Note that score (Ci, t)) is calculated by equation (2) in FIG. However, the ranking category is (C1, C2,... Ci,..., Cm).
式(2)において、df(Ci,t)は、カテゴリCiにおける単語tが出現する文書数とし、Dは全文書集合とする。flag(i,j)は、i<jのとき−1を、i>jのとき+1を取る関数(変数)とする。 In Equation (2), df (Ci, t) is the number of documents in which the word t in the category Ci appears, and D is the total document set. flag (i, j) is a function (variable) that takes −1 when i <j and +1 when i> j.
ここで、図9に示す式(2)の考え方について説明する。順位付きの各カテゴリで、要因となる単語は、そのカテゴリでの単語の出現頻度が多く、そのカテゴリから順位が上昇・下降する(順位が遠くなる)に従って出現頻度が減少していくような単語とし、そのような考えに基づいて、上記の式(2)を定義する。 Here, the concept of equation (2) shown in FIG. 9 will be described. In each category with ranking, the word that becomes a factor has a high appearance frequency of the word in the category, and the appearance frequency decreases as the rank rises or falls (decreases the rank) from the category. Based on such an idea, the above equation (2) is defined.
まず、式(2)のdf(Ci,t)/df(D,t)で、単語tのカテゴリCiでの出現頻度を求める。そして、df(Cj+1,t)−df(Cj,t)で隣り合ったカテゴリの出現頻度の減少具合を計算し、その減少具合が、要因となるカテゴリの近くの順位のカテゴリでの重みを大きくするように、log(m−|j+1−i|)をかける。flag(i,j)は、要因となるカテゴリより手前の順位に関しては、出現頻度が上昇しているときにスコアを加点するために+1を、要因となるカテゴリより後の順位に関しては、出現頻度が下降しているときにスコアを加点するために−1を用いる。 First, the appearance frequency of the word t in the category Ci is obtained by df (Ci, t) / df (D, t) in the expression (2). Then, the degree of decrease in the appearance frequency of the adjacent categories is calculated by df (Cj + 1, t) −df (Cj, t), and the degree of decrease increases the weight in the category of the rank near the factor category. Log (m− | j + 1−i |) is applied. flag (i, j) is +1 for adding a score when the appearance frequency is rising for the rank before the factor category, and for the rank after the category, Use -1 to add a score when is moving down.
図10に、親カテゴリ「不具合の危険度別」に属する全ての文書データに含まれる単語と、各単語のステップS402で入力されたカテゴリの子カテゴリごとの出現頻度の一例を示す。図10に示す表の縦方向の項目が文書データに含まれる単語であり、横方向の項目がステップS402で入力されたカテゴリの子カテゴリである。 FIG. 10 shows an example of words included in all document data belonging to the parent category “according to the risk level of defects” and the appearance frequency of each word in the child category of the category input in step S402. The items in the vertical direction of the table shown in FIG. 10 are words included in the document data, and the items in the horizontal direction are child categories of the category input in step S402.
図10に示すように、「シートベルト」は、「やや危険」カテゴリで出現頻度が39で他の順位付きカテゴリより頻度が多い。更に、「やや危険」カテゴリと「極めて危険」カテゴリでは、頻度の減少具合が、39から14に減っており、「やや危険」カテゴリから「危険」カテゴリへの減少具合も、39から12、「危険」カテゴリから「極めて危険」カテゴリへの減少具合も12から5という結果であり、単語「シートベルト」は、「やや危険」カテゴリでの単語の出現頻度が多く、「やや危険」カテゴリから順位が離れるに従って出現頻度が減少していくような単語である。 As shown in FIG. 10, “seat belt” has an appearance frequency of 39 in the “slightly dangerous” category, and is more frequent than other ranking categories. Furthermore, in the “slightly dangerous” category and the “extremely dangerous” category, the frequency reduction degree is reduced from 39 to 14, and the reduction degree from the “slightly dangerous” category to the “dangerous” category is also 39 to 12, “ The reduction from the “dangerous” category to the “extremely dangerous” category is also a result of 12 to 5, and the word “seat belt” has a high frequency of appearance in the “slightly dangerous” category and ranks from the “slightly dangerous” category. It is a word whose frequency of occurrence decreases with increasing distance.
しかしながら、単語「燃料」は、「やや危険」カテゴリでの出現頻度が、他の順位付きカテゴリの出現頻度と比べて一番多いが、「やや危険」カテゴリから「極めて危険」カテゴリへの減少具合は32から14で、「やや危険」カテゴリから「危険」カテゴリへの減少具合は32から26で、「危険」カテゴリから「極めて危険」カテゴリへは、26から28と増加している。すなわち、単語「シートベルト」と比べ、単語「燃料」は減少具合が少ないため、「やや危険」カテゴリのスコアが低くなり易く、要因として抽出され難い。 However, the word “fuel” has the highest frequency of occurrence in the “slightly dangerous” category compared to the frequency of appearance in the other ranked categories, but the degree of decrease from the “slightly dangerous” category to the “very dangerous” category. 32 to 14, the decrease from the “slightly dangerous” category to the “dangerous” category is 32 to 26, and the “dangerous” category to the “extremely dangerous” category increases from 26 to 28. That is, the word “fuel” is less reduced than the word “seat belt”, so the score of the “slightly dangerous” category is likely to be low and difficult to extract as a factor.
なお、本実施形態では、式(2)を例としてあげたが、式(2)だけに限らなくても良く、要因となる単語は、そのカテゴリでの単語の出現頻度が多く、更にそのカテゴリから順位が離れるに従って出現頻度が減少していくような単語とする考え方に基づいていればよい。例えば、df(D,t)で割る計算を実行しなくてもよいし、log(m−|j+1−i|)のlogを除いてもよい。 In the present embodiment, the expression (2) is taken as an example. However, the expression is not limited to the expression (2). The factor word has a high frequency of appearance of words in the category. It is only necessary to be based on the concept of a word whose appearance frequency decreases with increasing rank. For example, the calculation divided by df (D, t) may not be executed, and the log of log (m− | j + 1−i |) may be excluded.
全ての単語の繰り返しの終了後(ステップS1103の繰り返し終了)、カテゴリCiにおけるlist1(Ci)をscore(Ci,t)順でソートし、上位K個(ユーザが任意に指定、ここでは3個とする)の単語を抽出し、list1(Ci)に残す(ステップS1106)。すなわち、上位K個の単語以外を削除する。 After completion of repetition of all words (repetition end of step S1103), list1 (Ci) in category Ci is sorted in the order of score (Ci, t), and the top K items (specified arbitrarily by the user, here 3) ) Is extracted and left in list1 (Ci) (step S1106). That is, the words other than the top K words are deleted.
全てのCiについて繰り返し終了後(ステップS1102の繰り返し終了)、要因語抽出部41はlist1を複合要因語抽出部42に出力する(ステップS1107)。これにより、要因語抽出処理が終了する。
After the repetition for all Ci (repetition end of step S1102), the factor
図11にステップS1107で出力されるlist1の一例を示す。図11に示すように、list1には「極めて危険」カテゴリでは、要因語として「タイヤ」、「脱落」、「アクセル」が抽出されている。「危険」カテゴリでは「ホース」、「ハブ」、「ハンドル」が抽出されている。「やや危険」カテゴリでは「シートベルト」、「表示灯」が抽出されている。「安全」カテゴリでは、「冷房」、「スピーカー」、「効かない」が抽出されている。このようにそれぞれの順位付きカテゴリにおける要因として、単体の単語が抽出されている。 FIG. 11 shows an example of list1 output in step S1107. As shown in FIG. 11, in the “extremely dangerous” category, “tire”, “drop off”, and “accelerator” are extracted as factor words in list1. In the “danger” category, “hose”, “hub”, and “handle” are extracted. In the “somewhat dangerous” category, “seat belt” and “indicator light” are extracted. In the “safety” category, “cooling”, “speaker”, and “not effective” are extracted. As described above, a single word is extracted as a factor in each ranked category.
図5の説明に戻る。ステップS403において要因生成部41による要因語生成処理が終了すると、複合要因語抽出部42が複合要因語抽出処理を行う(ステップS404)。
Returning to the description of FIG. When the factor word generation processing by the
図12および図13を参照して、図5のステップ404において複合要因語抽出部42によって実行される複合要因語抽出処理の一例について説明する。
With reference to FIG. 12 and FIG. 13, an example of the complex factor word extraction process executed by the complex factor
複合要因語抽出処理はステップS403で抽出された単語のうち、単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。更に、前記要因語抽出部41によって抽出されなかった単語集合についても、同様に単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。
In the compound factor word extraction process, when words are combined among the words extracted in step S403, a combination of words that causes an increase / decrease in the category ranking is extracted. Further, for word sets that are not extracted by the factor
まず、複合要因語抽出部42は、複合要因語抽出処理における抽出結果のリストであるlist2を初期化する(ステップS1301)。続いて、順位付きの各カテゴリCiについて繰り返し(ステップS1302)、ステップS1303〜ステップS1318の処理を行う。
First, the complex factor
複合要因語抽出部42は、ステップS1302において順位付きの各カテゴリから1つのカテゴリを選択すると、単語の組み合わせを数える変数conbCntの初期値に2を、組み合わせ対象の単語の集合を表すtermSetに要因語抽出部41の出力値(複合要因語抽出部42の入力値)を、組み合わせた単語の集合を保持する変数termConbの初期値nullを、それぞれ代入する(ステップS1303)。そして、termSetの各単語に対して、conbCnt個組み合わせる(ステップS1304)。
When one category is selected from each category with ranking in step S1302, the complex factor
ここで、ステップS1304で組み合わせる単語は、カテゴリCiでその単語が出現する文書数(以下、出現文書数という)が所定の閾値以上の単語に限定する。そうすることで組み合わせの処理速度を効率化する。 Here, the words combined in step S1304 are limited to words whose number of documents in which the word appears in category Ci (hereinafter referred to as the number of appearing documents) is equal to or greater than a predetermined threshold. By doing so, the processing speed of the combination is improved.
例えば、出現文書数の閾値が3で、conbCnt=2で、termSetが単語A、単語B、単語C、単語Dとする。単語A、単語B、単語C、単語D、それぞれの単語を含んだカテゴリCiでの出現文書数が、それぞれ3、4、2、4のとき、単語Cはある一定の値よりも少ないので、単語Cを含んだ組み合わせは対象とせず、「単語Aと単語B」、「単語Aと単語D」、「単語Bと単語D」がtermConbになる。 For example, it is assumed that the threshold of the number of appearing documents is 3, conbCnt = 2, and termSet is word A, word B, word C, and word D. When the number of appearing documents in the category Ci including the word A, the word B, the word C, and the word D is 3, 4, 2, and 4, respectively, the word C is less than a certain value. Combinations including the word C are not targeted, and “word A and word B”, “word A and word D”, and “word B and word D” are termComb.
また、conbCnt=3のときも同様に、termSetが「単語Aと単語B」、「単語Aと単語D」、「単語Bと単語D」となり、termConbは「単語Aと単語Bと単語D」が考えられる。ここで、それぞれの単語を含んだカテゴリCiでの出現文書数がそれぞれ、2、3、4のとき、「単語Aと単語B」は満たしていない。よって、「単語Aと単語B」を含んだ、組み合わせ、即ち「単語Aと単語Bと単語D」は組み合わせ対象とならない。なお、このような組み合わせの考えを、アプリオリアルゴリズムという。 Similarly, when conbCnt = 3, termSet becomes “word A and word B”, “word A and word D”, “word B and word D”, and termConb becomes “word A, word B and word D”. Can be considered. Here, when the numbers of appearance documents in the category Ci including the respective words are 2, 3, and 4, respectively, “word A and word B” are not satisfied. Therefore, a combination including “word A and word B”, that is, “word A, word B, and word D” is not a combination target. Such a combination idea is called an a priori algorithm.
アプリオリアルゴリズムの考え方によって、ステップS1304で抽出したtermConbがnullでなければ(ステップS1305)、termConbの各単語tで繰り返し(ステップS1306)、単語tを含んだCiにおける出現文書数が統計的に有意に大きいか否かを判定する(ステップS1307)。この有意に大きいかの判定は、図8のステップS1104の方法と同様である。 If the termComb extracted in step S1304 is not null (step S1305) due to the a priori algorithm concept, the termComb is repeated for each word t (step S1306), and the number of appearing documents in Ci including the word t is statistically significant. It is determined whether it is larger (step S1307). The determination of whether it is significantly large is the same as the method of step S1104 in FIG.
単語tを含んだCiにおける出現文書数が統計的に有意に大きい場合(ステップS1307がYes)、複合要因語抽出部42はscore(Ci,t)を求め、list2にtとそのスコアとを代入する(ステップS1308)。
When the number of appearing documents in Ci including the word t is statistically significantly large (Yes in step S1307), the compound factor
単語tを含んだCiにおける出現文書数が統計的に有意に大きくない場合(ステップS1307がNo)、ステップS1306に戻り、他の単語tで処理を繰り返す。なお、ここでのscore(Ci,t)の算出は、図8のS1105と同様の方法で行なう。 When the number of appearance documents in Ci including the word t is not statistically significantly large (No in step S1307), the process returns to step S1306, and the process is repeated with another word t. The calculation of score (Ci, t) here is performed by the same method as S1105 in FIG.
全ての単語の繰り返しの終了後(ステップS1306の繰り返し終了)、複合要因語抽出部42は、conbCntを1つ増やし、termSetにtermConbを代入する(ステップS1309)。その後、複合要因語抽出部42は、ステップS1304〜S1309の処理をS1305でtermConbがnullと判定されるまで繰り返す。
After the repetition of all words (repetition end of step S1306), the complex factor
termConbがnullと判定された後(ステップS1305がNo)、複合要因語抽出部42は、当該カテゴリCiにおけるlist2(Ci)をscore(Ci,t)順でソートし、上位K個の単語ペア(ここでは2個)を抽出し、抽出した単語ペアをlist2(Ci)に入れ、抽出されなかった単語のみ、単体の要因語として、list(Ci)に残す(ステップS1310)。すなわち、複合要因語抽出処理で単語の組み合わせが抽出された場合、これらの単語を要因語抽出処理の結果、出力されるlist1から削除する。なお、上位K個分の単語ペアが抽出されない場合、抽出された全ての単語ペアlist2(Ci)に入れる。
After termConb is determined to be null (No in step S1305), the complex factor
以上のステップS1301〜S1310の処理によって、要因語抽出部41で抽出した単体の単語を組み合わせた場合にカテゴリの順位の上昇・下降の原因となる単語を抽出する。続くステップS1311〜ステップS1318の処理が、要因語抽出部41で抽出されなかった単語を対象に、それらを組み合わせた場合に、カテゴリの順位の上昇・下降の要因となる単語の組み合わせを抽出する処理である。
Through the processes in steps S1301 to S1310 described above, a word that causes an increase / decrease in the category rank is extracted when a single word extracted by the factor
まず、複合要因語抽出部42は単語の組み合わせを数える変数conbCntの初期値に2を、出力するlist3にnullを、組み合わせ対象の単語の集合を表すtermSetにCiの全ての単語のうち、要因語抽出部41の出力されなかった単語、すなわち複合要因語抽出部42に入力されなかった単語を、組み合わせた単語の集合を保持する変数termConbの初期値にnullを代入する(ステップS1311)。
First, the complex factor
そして、以降のステップS1312〜ステップS1316では、S1304〜S1308と同様の方法で行う。 In subsequent steps S1312-S1316, the same method as S1304-S1308 is performed.
すなわち、複合要因語抽出部42は、termSetの各単語に対して、アプリオリアルゴリズムの考え方により、単語をconbCnt個組み合わせる(ステップS1312)。そして、アプリオリアルゴリズムの考え方によって抽出したtermConbに対し値があれば(ステップS1313がYes)、termConbの各単語tで繰り返し(ステップS1314)、単語tを含んだCiにおける出現文書数が統計的に有意に大きいか判定する(ステップS1315)。
That is, the compound factor
単語tを含んだCiにおける出現文書数が統計的に有意に大きい場合(ステップS1315がYes)、複合要因語抽出部42はscore(Ci,t)を求め、list3にtとそのスコアを代入する(ステップS1316)。
When the number of appearance documents in Ci including the word t is statistically significantly large (Yes in step S1315), the compound factor
単語tを含んだCiにおける出現文書数が統計的に有意に大きくない場合(ステップS1315がNo)、ステップS1314に戻り他の単語で繰り返す。 When the number of documents appearing in Ci including the word t is not statistically significant (No in step S1315), the process returns to step S1314 and is repeated with another word.
termConbの各単語tにおいて全ての単語の繰り返しが終了した後(ステップS1314の繰り返し終了)、複合要因語抽出部42は、conbCntを1つ増やし、termSetにtermConbを代入する(ステップS1317)その後、複合要因語抽出部42は、ステップS1312〜ステップS1317の処理を、S1313でtermConbがnullになるまで繰り返す。
After repetition of all words in each word t of termConb (repetition end of step S1314), the compound factor
termConbがnullである場合(ステップS1313がNo)、複合要因語抽出部42はlist3(Ci)をソートし、上位K個を抽出し(ここでは2つ)、list2(Ci)に入れる。全てのカテゴリCiの繰り返し終了後(ステップS1302の繰り返し終了)、複合要因語抽出部42はlist2を出力する(ステップS1319)。これにより複合要因語抽出処理が終了する。
When termConb is null (No in step S1313), the compound factor
図14に、複合要因語抽出部42がステップS1319で出力したlist2の一例を示す。図14に示すように、list2には、「極めて危険」カテゴリでは、「タイヤ」と「脱落」を組み合わせた単語が抽出されている。「危険」カテゴリでは「ハンドル」、「重くなる」を組み合わせた単語が抽出されている。「やや危険」カテゴリでは「表示灯」と「つかない」を組み合わせた単語が抽出されている。「安全」カテゴリでは、「冷房」と「効かない」を組み合わせた単語が抽出されている。
FIG. 14 shows an example of list2 output by the complex factor
これら複合的な要因である単語の組み合わせをユーザに提示することにより、ユーザは順位付けの要因を把握しやすくなる。 By presenting the combination of words, which are these complex factors, to the user, the user can easily understand the ranking factor.
図14のlist3には、「極めて危険」カテゴリでは、「燃料」と「漏れ」」を組み合わせた単語と、「ブレーキ」と「効かない」を組み合わせた単語が抽出されている。「危険」カテゴリでは「燃料」と「残量」を組み合わせた単語と、「ブレーキ」と「効き辛い」を組み合わせた単語が抽出されている。「やや危険」カテゴリでは「ドア」と「ロック」と「できない」を組み合わせた単語が抽出されている。「安全」カテゴリでは、「ドア」と「開かない」を組み合わせた単語が抽出されている。
In the
list3に示すように、要因語抽出処理で抽出されなかった単語の集合から、組み合わせて要因となる単語を抽出した場合、「燃料」、「ブレーキ」のように、「極めて危険」、「危険」両方のカテゴリでも出現している単語が抽出されることがある。すなわち、「燃料」、「ブレーキ」のように、単語単体では、各カテゴリの要因とならないが、「漏れ」や「残量」、「効かない」や「効き辛い」と組み合わせることで、「極めて危険」や「危険」の要因となるような単語の組み合わせを抽出することが可能となる。
As shown in
図5の説明に戻る。複合要因語抽出処理が終了すると、要因生成部4の要因カテゴリ性セブ43が、ステップS403とステップS404とにおける要因抽出処理の結果、抽出された単語および単語の組み合わせから新規のカテゴリを生成する要因カテゴリ生成処理を行う(ステップS405)。
Returning to the description of FIG. When the complex factor word extraction process is completed, the
図15乃至図16を参照して要因カテゴリ生成部43による要因カテゴリ生成処理について説明する。
The factor category generation processing by the factor
図15は、要因カテゴリ生成部43によって実行される、要因カテゴリ生成処理の一例を示すフローチャートである。要因カテゴリ生成処理が、要因カテゴリ生成部43が、各順位付きカテゴリCiにおいてステップS403とステップS404で抽出された単語に基づいて新規カテゴリを生成し、生成した新規カテゴリに、当該順位付きカテゴリに属する文書データを分類する処理である。
FIG. 15 is a flowchart illustrating an example of a factor category generation process executed by the factor
要因カテゴリ生成部43、各順位付きカテゴリCiについて繰り返し(ステップS1401)、要因語抽出部41と複合要因語抽出部42によって出力されたlist1とlist2に格納された、当該カテゴリに対する各単語および単語の組み合わせについて繰り返し(ステップS1402)、当該単語および単語の組み合わせを含む文書データを集めてカテゴリを生成する(ステップS1403)。このとき生成するカテゴリの名称は、文書データを集める対象の単語もしくは単語の組み合わせとする。
The factor
全てのカテゴリCiについて繰り返し終了後(ステップS1401の繰り返し終了)、生成したカテゴリを分類結果記憶部3に登録する(ステップS1404)。これにより、要因カテゴリ生成処理は終了する。 After repeating for all categories Ci (repeated end of step S1401), the generated category is registered in the classification result storage unit 3 (step S1404). Thereby, the factor category generation process ends.
要因カテゴリ生成処理後、ユーザインタフェース部3に新規に生成されたカテゴリが表示される。
After the factor category generation process, the newly generated category is displayed on the
図16に、要因カテゴリ生成処理後に、ユーザインタフェース部3に表示されるカテゴリ画面の一例を示す。図16に示すカテゴリ表示画面51は、「極めて危険」、「危険」、「やや危険」、「安全」それぞれのカテゴリ直下に、ステップS403、ステップS404で抽出された単語および単語の組み合わせを含む文書を分類したカテゴリ901〜915が生成されている。
FIG. 16 shows an example of a category screen displayed on the
続いて、図5のステップS406について説明する。2軸マップ可視化部32が、ステップS405で生成されたカテゴリと、ステップS401で入力された順位付きカテゴリの集合を軸とした、2軸マップを作成し表示する(ステップS406)。
Next, step S406 in FIG. 5 will be described. The biaxial
ここで、図17および図18を参照して、2軸マップ可視化処理について説明する。 Here, the biaxial map visualization process will be described with reference to FIGS. 17 and 18.
2軸マップ可視化部32は、2軸マップに表示するデータを格納するリストであるviewListを初期化する(ステップS1501)。次に、2軸マップ可視化部32は、順位付きの各カテゴリCiについて繰り返し(ステップS1502)、要因カテゴリ生成部43で生成された新規のカテゴリCfについて繰り返し(ステップS1503)、CiとCfの両方に出現する文書データを取得し、取得した文書データの件数と、順位付きカテゴリCiのカテゴリ名と、新規カテゴリCfのカテゴリ名と関連付けてviewListに記憶する(ステップS1504)。
The biaxial
全ての新規カテゴリCfについて繰り返し後(ステップS1503の繰り返し終了)、他の順位付きカテゴリについても繰り返し、全ての順位付きカテゴリCiについて繰り返し後(ステップS1502の繰り返し終了)、2軸マップ可視化部32は、viewListを出力する(ステップS1505)。これにより、2軸マップ可視化処理は終了する。
After repeating for all new categories Cf (repeated end of step S1503), repeated for other ranked categories and repeated for all ranked categories Ci (repeated end of step S1502), the biaxial
図18に2軸マップ可視化部32が出力したviewListを表示する2軸マップ画面の一例を示す。図18に示すように、2軸マップ画面60は、要因カテゴリ生成部43で生成した新規カテゴリが縦軸であり、要因語抽出部41に入力された順位付きカテゴリが横軸であり、縦軸と横軸とがクロスした欄に、縦軸と横軸の両方のカテゴリ名が含まれる文書データ数が示される。このとき、各順位付きカテゴリにおいて要因抽出処理で抽出された単語および単語の組み合わせであるカテゴリについては、文書データ数を表示する欄を強調表示する。ここでは斜線を表示している。
FIG. 18 shows an example of a biaxial map screen that displays the viewList output by the biaxial
上述のように、本実施形態の文書分析装置10によると、あらかじめ順位が設定された順位付きカテゴリに対し、カテゴリの順位関係に基づいて、順位の上昇・下降の要因となる単語を抽出することにより、ユーザはカテゴリにつけられた順位の要因を把握できる。これによりユーザは、文書データの内容の把握を容易に行なうことが可能となる。
As described above, according to the
また、本実施形態の文書分析装置10によると、要因となる単語単体の抽出だけでなく、要因が複合的な場合、即ち単語を組み合わせた場合であっても抽出することが可能である。このとき、文書分析装置10は、単語単体が要因とならない場合であっても、組み合わせると要因となるような単語の組み合わせを抽出することも可能である。これにより、ユーザは文書データの内容の把握が容易になる。
Further, according to the
また、本実施形態の文書分析装置10は、要因カテゴリ生成部43が生成したカテゴリを分類軸1とし、あらかじめ設定された順位付きの各カテゴリを分類軸2とし、分類軸1の分類項目のカテゴリと、分類軸2の分類項目のカテゴリとの、両方に分類されている文書データの個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行し2軸マップを作成する。これにより、ユーザは文書データの内容の把握が容易になる。
Further, the
なお、本実施形態の文書分析装置10によって分析を行なうその他の例としては、商品情報を分析したい場合などがあげられる。商品情報が、年齢層別の売り上げカテゴリに分類されている場合に、所定の年齢層の売り上げ要因を抽出することが可能となる。
As another example of the analysis by the
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 As mentioned above, although embodiment of this invention was described, this embodiment is shown as an example and is not intending limiting the range of invention. The novel embodiment can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. This embodiment and its modifications are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
例えば、本実施形態の文書分析装置10は、ユーザが所定のカテゴリを選択すると、当該カテゴリに属する子カテゴリである順位付きカテゴリ全てについて、要因語を抽出するが、ユーザが順位付きカテゴリを選択し、当該順位付きカテゴリのみについて要因語を抽出することも可能である。
For example, when the user selects a predetermined category, the
1…文書記憶部、2…分類結果記憶部、3…ユーザインタフェース部、31…カテゴリ表示操作部、32…2軸マップ可視化部、4…要因生成部、41…要因語抽出部、42…複合要因語抽出部、43…要因カテゴリ生成部
DESCRIPTION OF
Claims (6)
前記文書データを分類する順位付きの複数のカテゴリ、および前記カテゴリの階層構造を記憶する分類結果記憶部と、
前記複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリに分類される前記文書データに含まれる単語群から、当該カテゴリにおける単語の出現頻度が当該カテゴリと同じ階層にある他のカテゴリにおける当該単語の出現頻度よりも多く、かつ、前記他のカテゴリにおける当該単語の出現頻度が当該カテゴリから順位が遠くなるに従って減少する単語を抽出する要因語抽出部と、
を備える文書分析装置。 A document analysis apparatus comprising a document storage unit for storing document data and analyzing the document data,
A plurality of categories with ranking for classifying the document data, and a classification result storage unit for storing a hierarchical structure of the categories ;
In one category of the plurality of categories, from the word group included in the document data classified into the category, the appearance frequency of the word in another category in which the appearance frequency of the word in the category is in the same hierarchy as the category A factor word extraction unit that extracts words that are higher in appearance frequency and decrease in frequency as the rank of the appearance frequency of the word in the other category becomes farther from the category;
A document analysis apparatus comprising:
前記文書分析装置のコンピュータに、
前記文書データを分類する順位付きの複数のカテゴリ、および前記カテゴリの階層構造を記憶する機能と、
前記複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリに分類される前記文書データに含まれる単語群から、当該カテゴリにおける単語の出現頻度が当該カテゴリと同じ階層にある他のカテゴリにおける当該単語の出現頻度よりも多く、かつ、前記他のカテゴリにおける当該単語の出現頻度が当該カテゴリから順位が遠くなるに従って減少する単語を抽出する機能と、
を実現させる文書分析プログラム。 A document analysis program of a document analysis apparatus comprising a document storage unit for storing document data and analyzing the document data,
In the computer of the document analysis device,
A plurality of categories with ranking for classifying the document data, and a function of storing a hierarchical structure of the categories;
In one category of the plurality of categories, from the word group included in the document data classified into the category, the appearance frequency of the word in another category in which the appearance frequency of the word in the category is in the same hierarchy as the category A function of extracting words that are more than the appearance frequency and that the appearance frequency of the word in the other category decreases as the rank becomes farther from the category;
Document analysis program that realizes.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012056518A JP5450699B2 (en) | 2012-03-13 | 2012-03-13 | Document analysis apparatus and document analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012056518A JP5450699B2 (en) | 2012-03-13 | 2012-03-13 | Document analysis apparatus and document analysis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013190988A JP2013190988A (en) | 2013-09-26 |
JP5450699B2 true JP5450699B2 (en) | 2014-03-26 |
Family
ID=49391167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012056518A Active JP5450699B2 (en) | 2012-03-13 | 2012-03-13 | Document analysis apparatus and document analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5450699B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6540268B2 (en) * | 2015-06-24 | 2019-07-10 | 富士ゼロックス株式会社 | Object classification device and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4084445B2 (en) * | 1996-07-18 | 2008-04-30 | 松下電器産業株式会社 | Data search support device, data search support method, and medium storing program |
JPH10254883A (en) * | 1997-03-10 | 1998-09-25 | Mitsubishi Electric Corp | Automatic document sorting method |
JP3829506B2 (en) * | 1998-11-27 | 2006-10-04 | セイコーエプソン株式会社 | Document classification method, document classification apparatus, and recording medium on which document classification processing program is recorded |
JP2000285140A (en) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | Device and method for processing document, device and method for classifying document, and computer readable recording medium recorded with program for allowing computer to execute these methods |
-
2012
- 2012-03-13 JP JP2012056518A patent/JP5450699B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013190988A (en) | 2013-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5916947B2 (en) | Online product search method and system | |
Kalmegh | Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news | |
US10354002B2 (en) | Interaction relationship building and explorer for dashboard | |
CN103279513B (en) | The method of generation content tab is, provide the method and device of multimedia content information | |
US20120221553A1 (en) | Methods for electronic document searching and graphically representing electronic document searches | |
KR101565759B1 (en) | Method and system for detecting related topics and competition topics based on topic templates and association words, related topics and competition topics detecting device | |
US9633110B2 (en) | Enrichment of data using a semantic auto-discovery of reference and visual data | |
WO2014094332A1 (en) | Method for creating knowledge base engine for emergency management of sudden event and method for querying in knowledge base engine | |
JPH0991314A (en) | Information search device | |
JP6173848B2 (en) | Document classification device | |
KR20130009987A (en) | Method and system of displaying friend status and computer storage medium for same | |
TW201807597A (en) | Text mining method, text mining program, and text mining apparatus | |
Wang et al. | Evaluating the effectiveness of tree visualization systems for knowledge discovery. | |
JP5450699B2 (en) | Document analysis apparatus and document analysis program | |
JP5827206B2 (en) | Document management system, document management method, and document management program | |
Merčun et al. | FrbrVis: An information visualization approach to presenting FRBR work families | |
JP2013174988A (en) | Similar document retrieval support apparatus and similar document retrieval support program | |
JP7206632B2 (en) | System, method and program for visual exploration of subnetwork patterns in bimodal networks | |
JP2016162357A (en) | Analysis device and program of user's emotion to product | |
CN106873982B (en) | Software search multiplexing method and system based on graphical user interface | |
Fischl et al. | Metadata enriched visualization of keywords in context | |
JP5060601B2 (en) | Document analysis apparatus and program | |
JP7119550B2 (en) | System and method, program, and computer device for visual search of search results in bimodal networks | |
JP2018005554A (en) | Fault tree generation device | |
VINCEK | Trend of the research on digital nomads |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130830 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5450699 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |