JP6173846B2 - Document analyzer - Google Patents
Document analyzer Download PDFInfo
- Publication number
- JP6173846B2 JP6173846B2 JP2013186759A JP2013186759A JP6173846B2 JP 6173846 B2 JP6173846 B2 JP 6173846B2 JP 2013186759 A JP2013186759 A JP 2013186759A JP 2013186759 A JP2013186759 A JP 2013186759A JP 6173846 B2 JP6173846 B2 JP 6173846B2
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- phrase
- axis
- item
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施形態は、文書分析装置に関する。 Embodiments described herein relate generally to a document analysis apparatus.
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された文書を、計算機システムを用いて大量に収集、記憶し、利用することが可能となった。大量の文書には、価値のある知識が埋もれている可能性がある。例えば、企業が提供する商品やサービスに対して顧客から日々寄せられるクレーム情報やアンケート情報、製品の設計や製造に関わる不具合情報、インターネット上の評判情報などには、顧客のニーズや不具合の発生傾向などを知るための貴重な手掛かりが含まれていることが多い。そのため、このような自然言語で記述された非定型なテキスト情報を、その意味内容に応じて分類、分析し、活用するための技術として、文書の自動分類、クラスタリング、テキストマイニングなどの技術が開発されている。 In recent years, it has become possible to collect, store, and use electronic documents in large quantities using a computer system, as computer performance and storage capacity have increased, and computer networks have become popular. . There is a possibility that valuable knowledge is buried in a large amount of documents. For example, customer information and survey information received daily by customers for products and services provided by companies, defect information related to product design and manufacturing, reputation information on the Internet, etc. It often contains valuable clues to know. Therefore, technologies such as automatic document classification, clustering, and text mining have been developed as technologies for classifying, analyzing, and utilizing such atypical text information written in natural language according to its semantic content. Has been.
日本語などの自然言語で記述されたテキスト情報を分析するという目的に対し、文章中に記述された語句の表記や頻度のみに基づいた従来の分析手法では、文章の意味内容を反映した適切な分析結果が得られないという課題がある。そこで近年では、文章中に記述された複数の語句同士の関係、例えば係り受け関係などに基づいた分析手法が考案されている(例えば、特許文献1、特許文献2、特許文献3参照。)。このような手法では、例えば、ある製品の不具合情報を分析する場合、「タンクに亀裂が発生した。」という文章から、「タンク」という部品を表す語句と、「亀裂」という症状を表す語句との関係を抽出するといった処理が行われる。
For the purpose of analyzing text information written in a natural language such as Japanese, conventional analysis methods based only on the notation and frequency of words described in the sentence are appropriate to reflect the semantic content of the sentence. There is a problem that analysis results cannot be obtained. Therefore, in recent years, an analysis method based on the relationship between a plurality of words described in a sentence, such as a dependency relationship, has been devised (see, for example, Patent Document 1,
一方、複数の文書のテキスト情報を分析した結果をユーザが把握しやすい形に提示する方法の一つに、クロス集計がある。これは、2つ以上の分析軸を対象に、各分析軸が持つ複数の分析項目に各々対応する文書集合をもとに、各分析項目の組み合わせに対応する文書の部分集合を求め、その文書数などをマトリックス状に表示する方法である。ユーザは、このクロス集計の結果を用いることで、文書集合の全体的な内容を把握することができるとともに、各々の分析項目の相関関係などについて詳細に調べることができる。例えば、ある商品の不具合情報を分析する場合には、ユーザは、一方の分析軸として「部品」の軸を選び、他方の分析軸として「症状」の軸を選ぶ。これにより、「部品」軸の分析項目である「タンク」、「パイプ」、「配線」などと、「症状」軸の分析項目である「亀裂」、「脱落」、「干渉」などとの間の、全体的な関係を把握することができる。また、このうち例えば、「タンク」の「亀裂」に関する不具合について、両者の関係が記述された文書を詳細に調べることもできる。特許文献1ではこのクロス集計を用いて、係り受け関係を持つ特徴的な概念を表示するよう考案されている。 On the other hand, cross tabulation is one method for presenting the results of analyzing text information of a plurality of documents in a form that is easy for the user to grasp. This is to obtain a subset of documents corresponding to a combination of analysis items based on a set of documents corresponding to a plurality of analysis items of each analysis axis for two or more analysis axes. This is a method of displaying numbers in a matrix. By using the result of the cross tabulation, the user can grasp the entire contents of the document set and can examine the correlation between the analysis items in detail. For example, when analyzing defect information of a certain product, the user selects the “component” axis as one analysis axis and the “symptom” axis as the other analysis axis. As a result, the analysis items on the “parts” axis, such as “tank”, “pipe”, and “wiring”, and the analysis items on the “symptom” axis, such as “crack”, “drop off”, “interference”, etc. Can understand the overall relationship. Of these, for example, a document describing the relationship between the “tank” and “crack” can be examined in detail. In Patent Document 1, it is devised to display a characteristic concept having a dependency relationship using this cross tabulation.
自然言語で記述された大量の文章から、ユーザが所望する複数の分析軸を対象にして、各分析軸に相当する語句と、その語句同士の関係を、過不足なく抽出することができれば、上述のクロス集計などの方法を用いて、文書から様々な知見を得ることができる。しかしながら、大量の文書に記述された語句、および、語句同士の関係(係り受け関係など)の組み合わせの数は膨大であり、その中には、ユーザが所望する分析軸とは関わりのないものも多数存在する。例えば、ある製品の不具合情報を、「部品」の分析軸と「症状」の分析軸によって分析したい場合、「部品」に相当する語句と、「症状」に相当する語句とを全て網羅的に自動抽出することは困難であり、「部品」や「症状」には関わりのない語句が誤って数多く抽出されてしまうという問題がある。そこで、特許文献1や特許文献2に記載されているように、「部品」や「症状」に相当する語句を記述した辞書を事前に用意し、既知の語句のみを対象にして語句同士の関係を抽出することも考えられる。しかし、辞書の作成には労力がかかる上、日々増加する文書に記述される新しい語句には対応しきれないという問題がある。一方で、特許文献1に記載されているように、所望する関係、例えば所定の係り受け関係のみを抽出するルールを用いる方法も考えられるが、自然言語の非定型な文章は多様な表現で記述されている上、ユーザが分析に用いる分析軸の組み合わせも多様である。このため、必要なルールを事前に用意することは困難であり、ルールが不十分なため抽出誤りや抽出漏れが生じることが多いという問題がある。また、特許文献3に記載されているように、抽出された表現(語句とその関係)の重要度に基づいて、重要な表現のみを提示する方法も考えられる。しかし、特許文献3ではこの重要度を単純に「表現の出現回数÷対象とする文書の部分集合の文書数」としているため、この方法によっては、例えば「部品」と「症状」の語句と関係のみを正しく抽出することはできない。
If it is possible to extract a phrase corresponding to each analysis axis and a relationship between the phrases from a large amount of sentences described in a natural language with respect to a plurality of analysis axes desired by the user, the above-mentioned Using various methods such as cross tabulation, various knowledge can be obtained from the document. However, the number of combinations of phrases described in a large number of documents and relations between phrases (such as dependency relations) is enormous, and some of them are not related to the analysis axis desired by the user. There are many. For example, if you want to analyze the defect information of a product using the "parts" analysis axis and the "symptoms" analysis axis, all the words and phrases corresponding to "parts" and "symptoms" are automatically and comprehensively It is difficult to extract, and there is a problem that many words and phrases that are not related to “parts” and “symptoms” are erroneously extracted. Therefore, as described in Patent Document 1 and
本発明が解決しようとする課題は、自然言語で記述された大量の文章から、ユーザがクロス集計に用いる対象として選択した分析軸に相当する語句を抽出することができる文書分析装置を提供することである。 The problem to be solved by the present invention is to provide a document analysis apparatus capable of extracting a phrase corresponding to an analysis axis selected as a target to be used for cross tabulation by a user from a large amount of sentences described in a natural language. It is.
本発明の1つの態様による文書分析装置は、文書記憶部と、分析軸記憶部と、分析項目生成部と、クロス集計部とを具備する。文書記憶部は、複数の文書データを記憶する。分析軸記憶部は、複数の分析軸と、前記分析軸の分析項目と、前記分析項目に対応した語句とを記憶する。分析項目生成部は、第1の分析軸と第2の分析軸との入力を受け、分析軸記憶部から第1の分析軸の分析項目に対応した語句である第1の語句集合と第2の分析軸の分析項目に対応した語句である第2の語句集合とを読み出すとともに、文書記憶部に記憶されている文書データにおいて第1の語句集合に含まれる語句と共起する語句である語句候補を抽出し、これら語句候補の中から、文書データにおいて第1の語句集合に含まれる語句と共起する頻度または表現が第2の語句集合に含まれる語句と所定の基準よりも類似した語句候補を選択し、選択した語句候補を用いた第2の分析軸の新たな分析項目を分析軸記憶部に書き込む。クロス集計部は、複数の分析軸それぞれの分析項目と、この分析項目に対応した語句とを分析軸記憶部から読み出し、複数の分析軸について読み出した分析項目の組み合わせ毎に、文書記憶部に記憶されている文書データのうち、前記組み合わせを構成する分析項目に対応した語句を含んだ文書データの数を計数し、計数結果を表示させる。 A document analysis apparatus according to an aspect of the present invention includes a document storage unit, an analysis axis storage unit, an analysis item generation unit, and a cross tabulation unit. The document storage unit stores a plurality of document data. The analysis axis storage unit stores a plurality of analysis axes, analysis items of the analysis axis, and words / phrases corresponding to the analysis items. The analysis item generation unit receives the input of the first analysis axis and the second analysis axis, and receives from the analysis axis storage unit the first word set and the second word set corresponding to the analysis item of the first analysis axis. A phrase that is a phrase that co-occurs with a phrase included in the first phrase set in the document data stored in the document storage unit while reading out the second phrase set that is a phrase corresponding to the analysis item of the analysis axis Candidates are extracted, and from these word candidates, words or phrases whose frequency or expression co-occurs with the words included in the first word set in the document data are similar to the words included in the second word set than the predetermined criteria A candidate is selected, and a new analysis item of the second analysis axis using the selected word candidate is written in the analysis axis storage unit. The cross tabulation unit reads the analysis items for each of the plurality of analysis axes and the words corresponding to the analysis items from the analysis axis storage unit, and stores them in the document storage unit for each combination of analysis items read for the plurality of analysis axes. The number of document data including words / phrases corresponding to the analysis items constituting the combination is counted, and the counting result is displayed.
以下、本発明の実施形態について、図面を参照しながら説明する。
図1は、本発明の実施形態に係る文書分析装置100の構成を示すブロック図である。同図に示すように、文書分析装置100は、文書記憶部1、分析軸記憶部2、クロス集計部3、分析軸操作部4、および分析項目生成部5を備えて構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a
文書記憶部1は、複数の文書データを記憶する。文書データは、文書分析装置100が分析の対象とする文書を示す。分析軸記憶部2は、分析軸データ、および分析項目データを記憶する。分析軸データ、分析項目データはそれぞれ、文書を分析するために作成される分析軸、分析項目を示す。分析軸は、1以上の分析項目を持つ。文書記憶部1、および分析軸記憶部2は、ファイルシステムやデータベース装置など、従来の計算機の記憶手段を用いて実現することができる。
The document storage unit 1 stores a plurality of document data. The document data indicates a document to be analyzed by the
クロス集計部3は、文書記憶部1に記憶されている文書データの集合を、分析軸記憶部2に記憶されている分析軸データが示す分析軸を複数用いてクロス集計し、そのクロス集計結果を、後述する図10に示すような表示によりユーザに提示する。この提示の際には、インターネットを介して通信し、パーソナルコンピュータのディスプレイを通じたブラウザなどの汎用的な機器を用いることが多い。つまり、クロス集計部3は、分析軸記憶部2に記憶されている分析軸データ、および分析項目データに基づいて複数の分析軸それぞれに含まれる分析項目を読み出す。クロス集計部3は、読み出した各分析軸の分析項目の組み合わせごとに、それら分析項目に同時に分類される文書データの数を計数し、計数結果を表す情報をユーザに対して提示する。分析軸操作部4は、分析軸記憶部2に記憶されている分析軸データや分析項目データが示す分析軸、分析項目に対して、ユーザが作成、削除、移動などの操作を行うことを可能にする。ユーザは、後述する図10に示すようなクロス集計の結果を表示した画面上で、これらの操作を行うことができる。
The
分析項目生成部5は、分析軸記憶部2に記憶されている分析軸データが示す所定の分析軸に対して、その分析項目を自動的に生成する。本実施形態において分析項目生成部5は、語句抽出部51、語句関係抽出部52、および語句関係評価部53を備えて構成される。語句抽出部51は、自然言語で記述された文章から語句を抽出する。語句抽出部51は、例えば従来の形態素解析などの技術を用いて実現することができる。語句関係抽出部52は、自然言語で記述された文章から抽出された複数の語句間の係り受け関係などの関係を抽出する。語句関係抽出部52は、例えば従来の構文解析などの技術を用いて実現することができる。語句関係評価部53は、文書データから抽出された複数の語句間の関係に基づいて語句を分析項目として用いるべきかどうかを評価する。この評価結果に基づいて、分析項目生成部5は、語句に対応する分析項目を生成し、その分析項目データを分析軸記憶部2に登録する。
The analysis
図2は、文書記憶部1に記憶される文書データの例を示す図である。図2(a)に示す文書データ200は、文書番号201、報告日202、対象製品203、および本文204を含み、図2(b)に示す文書データ210は、文書番号211、報告日212、対象製品213、および本文214を含む。図2(c)に示す文書データ220は、文書番号221、報告日222、対象製品223、および本文224を含み、図2(d)に示す文書データ230は、文書番号231、報告日232、対象製品233、および本文234を含む。図2(e)に示す文書データ240は、文書番号241、報告日242、対象製品243、および本文244を含み、図2(f)に示す文書データ250は、文書番号251、報告日252、対象製品253、および本文254を含む。
FIG. 2 is a diagram illustrating an example of document data stored in the document storage unit 1. The
文書番号201、211、221、231、241、251は、文書データを特定するためのユニークなデータである。本文204、214、224、234、244、254は、文書の種類に応じたテキストのデータの例である。このテキストは、日本語など自然言語で記述されており、文書分析装置100の主たる分析対象となる。報告日202、212、222、232、242、252、および対象製品203、213、223、233、243、253は、文書データ200、210、220、230、240、250が製品の不具合情報を表す文書のデータであるために有する属性データである。報告日202、212、222、232、242、252は、不具合の報告日を示すデータであり、対象製品203、213、223、233、243、253は、不具合が報告された対象製品を示すデータである。
図3は、分析軸記憶部2に記憶される分析軸データの例を示す図である。図3(a)に示す分析軸データ300は、分析軸番号301、および名称302を含み、図3(b)に示す分析軸データ310は、分析軸番号311、および名称312を含む。分析軸番号301、311は、文書分析装置100が分析軸データを特定するためのユニークなデータである。名称302、312は、分析軸の名称を示すデータである。図3(a)に示す分析軸データ300は、図2で示した不具合情報の文書データ集合の内容を「部品」の観点で分析するための分析軸のデータの例であり、図3(b)に示す分析軸データ310は、「症状」の観点で分析するための分析軸のデータの例である。以下では、例えば、文書データ集合の内容を分析軸aの観点で分析するための分析軸データに設定されている分析軸番号を「分析軸aの分析軸番号」と記載する。
FIG. 3 is a diagram illustrating an example of analysis axis data stored in the analysis
図4は、分析軸記憶部2に記憶される分析項目データの例を示す図である。図4(a)に示す分析項目データ400は、分析項目番号401、分析軸402、名称403、語句404、および文書405を含み、図4(b)に示す分析項目データ410は、分析項目番号411、分析軸412、名称413、語句414、および文書415を含む。分析項目番号401、411は、文書分析装置100が分析項目データを特定するためのユニークなデータである。
FIG. 4 is a diagram illustrating an example of analysis item data stored in the analysis
分析軸402、412は、分析項目が属する分析軸を特定するデータであり、その分析軸の分析軸番号により示される。図4(a)の分析項目データ400は、分析軸402の値が「p01」であるので、図3(a)の分析軸データ300が示す分析軸の分析項目に対応する。同様に、図4(b)の分析項目データ410は、分析軸412が「p02」であるので、図3(b)の分析軸データ310が示す分析軸の分析項目に対応する。
The analysis axes 402 and 412 are data for specifying the analysis axis to which the analysis item belongs, and are indicated by the analysis axis number of the analysis axis. Since the value of the
名称403、413は、分析項目の名称を示すデータである。語句404、414は、後述するクロス集計などの処理で、分析項目に対応する、すなわち、分析項目に分類する文書データ集合を決定するための語句を示すデータである。図2で示した文書データの例では、語句404、414が示す語句を、そのテキストすなわち「本文」に含む文書データの集合が、当該分析項目に対応する文書データ集合となる。図4(a)に示す分析項目データ400の例では、語句404に設定されている「タンク」を本文に含む文書データの文書番号「d01」、「d02」、「d03」などが文書405に設定されている。なお、図4(b)に示す分析項目データ410の語句414には、複数の語句「亀裂」、「き裂」が設定されているが、このように、同じ意味を表す複数の異なる表記の語句を、分析項目の語句として設定してもよい。文書415には、語句414に設定されている「亀裂」または「き裂」を本文に含む文書データの文書番号が設定される。
図5は、文書分析装置100が実行する処理の全体の流れを表すフローチャートである。文書分析装置100は、分析軸や分析項目に対するユーザの操作をステップS501からS515までで受け付け、ステップS515にて終了の要求を受けると、処理を終了する。同図に示す処理は主に、分析軸操作部4にて実行されるが、ステップS512の処理はクロス集計部3が実行し、ステップS514の処理は分析項目生成部5が実行する。また、ステップS502、S504、S506、S508、S510、S514の処理において、分析軸操作部4または分析項目生成部5は、分析軸または分析項目の作成、削除、移動などを実行し、その結果として、分析軸記憶部2に記憶されている分析軸データや分析項目データ(図3、図4に例を示したデータ)を変更する。
FIG. 5 is a flowchart showing the overall flow of processing executed by the
分析軸操作部4は、ユーザから新しい分析軸を作成する操作の入力を受けると(ステップS501−YES)、新しい分析軸pの分析軸データを作成して分析軸記憶部2に書き込む(ステップS502)。例えば、分析軸操作部4は、作成した分析軸pの分析軸データに、新たに割当てた分析軸番号と、ユーザから入力を受けた分析軸pの名称を設定する。分析軸操作部4は、ステップS501からの処理を繰り返す。 When the analysis axis operation unit 4 receives an input of an operation for creating a new analysis axis from the user (step S501—YES), the analysis axis operation unit 4 creates the analysis axis data of the new analysis axis p and writes it to the analysis axis storage unit 2 (step S502). ). For example, the analysis axis operation unit 4 sets the newly assigned analysis axis number and the name of the analysis axis p received from the user in the generated analysis axis data of the analysis axis p. The analysis axis operation unit 4 repeats the processing from step S501.
分析軸操作部4は、ユーザから分析軸を削除する操作の入力を受けると(ステップS501−NO、ステップS503−YES)、ユーザが指定した分析軸pの分析軸データと、その分析軸pの全ての分析項目の分析項目データを分析軸記憶部2から削除する(ステップS504)。具体的には、分析軸操作部4は、分析軸pの分析軸データを特定して分析軸番号を読み出すと、特定した分析軸pの分析軸データを分析軸記憶部2から削除するとともに、読み出した分析軸pの分析軸番号が設定された分析項目データの全てを分析軸記憶部2から削除する。分析軸操作部4は、ステップS501からの処理を繰り返す。
When the analysis axis operation unit 4 receives an input of an operation for deleting the analysis axis from the user (step S501-NO, step S503-YES), the analysis axis data of the analysis axis p designated by the user and the analysis axis p of the analysis axis p are specified. The analysis item data of all analysis items is deleted from the analysis axis storage unit 2 (step S504). Specifically, when the analysis axis operation unit 4 specifies the analysis axis data of the analysis axis p and reads the analysis axis number, the analysis axis data of the specified analysis axis p is deleted from the analysis
分析軸操作部4は、ユーザから分析項目を作成する操作の入力を受けると(ステップS501、ステップS503−NO、ステップS505−YES)、ユーザが指定した分析軸pに新規に分析項目cを作成する。そして、分析軸操作部4は、ユーザが指定した語句tを含む文書データの集合を、分析項目cに対応する文書集合とする(ステップS506)。具体的には、分析軸操作部4は、新規に分析項目cの分析項目データを作成して分析軸記憶部2に書き込み、新たに割当てた分析項目番号と、分析軸pの分析軸番号とを設定する。さらに、分析軸操作部4は、この分析項目cの分析項目データに、ユーザが入力した分析項目cの名称および語句tと、語句tを本文に含む文書データの文書番号を設定する。分析軸操作部4は、ステップS501からの処理を繰り返す。
When the analysis axis operation unit 4 receives an input of an operation for creating an analysis item from the user (step S501, step S503-NO, step S505-YES), the analysis axis operation unit 4 newly creates an analysis item c on the analysis axis p designated by the user. To do. Then, the analysis axis operation unit 4 sets a set of document data including the word t specified by the user as a document set corresponding to the analysis item c (step S506). Specifically, the analysis axis operation unit 4 newly creates the analysis item data of the analysis item c and writes it into the analysis
分析軸操作部4は、ユーザから分析項目を削除する操作の入力を受けると(ステップS501、ステップS503、ステップS505−NO、ステップS507−YES)、ユーザが指定した分析項目cの分析項目データを分析軸記憶部2から削除する(ステップS508)。分析軸操作部4は、ステップS501からの処理を繰り返す。 When the analysis axis operation unit 4 receives an input of an operation for deleting an analysis item from the user (step S501, step S503, step S505-NO, step S507-YES), the analysis axis data of the analysis item c designated by the user is obtained. It deletes from the analysis axis memory | storage part 2 (step S508). The analysis axis operation unit 4 repeats the processing from step S501.
分析軸操作部4は、ユーザから分析項目を移動する操作の入力を受けると(ステップS501、ステップS503、ステップS505、ステップS507−NO、ステップS509−YES)、ユーザが指定した分析項目cを、元の分析軸p1から、ユーザが指定した分析軸p2に移動する(ステップS510)。具体的には、分析軸操作部4は、分析項目cの分析項目データに現在設定されている分析軸p1の分析軸番号を、移動先の分析軸p2の分析軸番号に書き換える。分析軸操作部4は、ステップS501からの処理を繰り返す。 When the analysis axis operation unit 4 receives an input of an operation for moving the analysis item from the user (step S501, step S503, step S505, step S507-NO, step S509-YES), the analysis item c designated by the user is The original analysis axis p1 is moved to the analysis axis p2 designated by the user (step S510). Specifically, the analysis axis operation unit 4 rewrites the analysis axis number of the analysis axis p1 currently set in the analysis item data of the analysis item c to the analysis axis number of the analysis axis p2 that is the movement destination. The analysis axis operation unit 4 repeats the processing from step S501.
分析軸操作部4が、ユーザからクロス集計の実行要求の入力を受けると(ステップS501、ステップS503、ステップS505、ステップS507、ステップS509−NO、ステップS511−YES)、クロス集計部3は、ユーザが指定した分析軸p1と分析軸p2を対象にクロス集計を実行し、実行結果を表示する(ステップS512)。この処理内容の詳細は、後述の図6において説明する。分析軸操作部4は、ステップS501からの処理を繰り返す。
When the analysis axis operation unit 4 receives a cross tabulation execution request input from the user (step S501, step S503, step S505, step S507, step S509-NO, step S511-YES), the
分析軸操作部4が、ユーザから分析項目の生成要求の入力を受けると(ステップS501、ステップS503、ステップS505、ステップS507、ステップS509、ステップS511−NO、ステップS513−YES)、分析項目生成部5は、ユーザが指定した分析軸p1と分析軸p2を対象に、分析項目を生成する(ステップS514)。この処理内容の詳細については後述の図7と図8において説明する。分析軸操作部4は、ステップS501からの処理を繰り返す。
When the analysis axis operation unit 4 receives an input of an analysis item generation request from the user (step S501, step S503, step S505, step S507, step S509, step S511-NO, step S513-YES), the analysis
分析軸操作部4は、ユーザから分析軸の作成・削除の操作、分析項目の作成・削除・移動の操作、クロス集計の実行要求、あるいは、分析項目の生成要求以外の操作を受ける(ステップS501、ステップS503、ステップS505、ステップS507、ステップS509、ステップS511、ステップS513−NO)。分析軸操作部4は、その操作が終了の要求以外であれば(ステップS515−NO)、ステップS501からの処理を繰り返し、終了の要求であれば(ステップS515−YES)、処理を終了する。 The analysis axis operation unit 4 receives operations other than analysis user creation / deletion operations, analysis item creation / deletion / movement operations, cross tabulation execution requests, or analysis item generation requests from the user (step S501). Step S503, Step S505, Step S507, Step S509, Step S511, Step S513-NO). If the operation is other than an end request (step S515-NO), the analysis axis operation unit 4 repeats the process from step S501. If the operation is an end request (step S515-YES), the analysis axis operation unit 4 ends the process.
図6は、クロス集計部3によって実行されるクロス集計処理の流れを表すフローチャートであり、前述の図5のステップS512における詳細な処理を示す。クロス集計の対象とする分析軸は、図5のステップS512にて、ユーザによって指定された2つの分析軸p1と分析軸p2である。
FIG. 6 is a flowchart showing the flow of the cross tabulation process executed by the
まず、クロス集計部3は、分析軸p1の分析項目の集合を分析項目集合C1とし、分析軸p2の分析項目の集合を分析項目集合C2とする(ステップS601)。具体的には、クロス集計部3は、ユーザからの入力を受けた分析軸p1の分析軸番号が設定されている分析項目データを特定し、特定した各分析項目データが表す分析項目c1i(i=1,2,…)の集合を分析項目集合C1とする。また、クロス集計部3は、ユーザからの入力を受けた分析軸p2の分析軸番号が設定されている分析項目データを特定し、特定した各分析項目データが表す分析項目c2j(j=1,2,…)の集合を分析項目集合C2とする。
First, the
クロス集計部3は、分析項目集合C1中の分析項目c1iを全て選択するまで、iを1から順に1ずつ増加させて選択した分析項目c1iについて、ステップS603からステップS607までの処理を繰り返し行う(ステップS602−繰り返し継続)。
The
クロス集計部3は、分析項目c1iの分析項目データに設定されている語句をt1iとする(ステップS603)。例えば、前述の図4(a)の分析項目データ400であれば、語句404に設定されている語句「タンク」が語句t1iとなる。クロス集計部3は、分析項目集合C2中の分析項目c2jを全て選択するまで、jを1から順に1ずつ増加させて選択した分析項目c2jについて、ステップS605からステップS607までの処理を繰り返し行う(ステップS604−繰り返し継続)。
The
クロス集計部3は、分析項目c2jの分析項目データに設定されている語句をt2jとする(ステップS605)。クロス集計部3は、語句t1iと語句t2jを共に含む文書データ集合D(t1i,t2j)を求める(ステップS606)。例えば、語句t1iが「タンク」であり、語句t2jが「亀裂」である場合、クロス集計部3は、「タンク」と「亀裂」を共に本文に含む文書データ(例えば図2(a)に示す文書データ200)の集合を文書データ集合D(t1i,t2j)とする。クロス集計部3は、クロス集計結果のi行j列目の値を、この文書データ集合D(t1i,t2j)に含まれる文書データの数である文書数|D(t1i,t2j)|とする(ステップS607)。
The
クロス集計部3は、ステップS604の処理に戻り、分析項目集合C2中の全ての分析項目c2jを選択していない場合は現在のjの値を1増加させてステップS650からステップS607までの処理を繰り返す(ステップS604−繰り返し継続)。そして、全ての分析項目c2jを選択すると、クロス集計部3は繰り返し処理を終了し(ステップS604−繰り返し終了)、ステップS602の処理に戻る。
The
クロス集計部3は、ステップS602の処理に戻ると、分析項目集合C1中の全ての分析項目c1iを選択していない場合は現在のiの値に1を加算してステップS603からステップS607までの処理を繰り返す(ステップS602−繰り返し継続)。そして、分析項目集合C1中の全ての分析項目c1iを選択すると、クロス集計部3は繰り返し処理を終了する(ステップS602−繰り返し終了)。クロス集計部3は、分析軸p1の分析項目集合C1と分析軸p2の分析項目集合C2の各々の分析項目の組み合わせに対応するクロス集計の結果をディスプレイに表示するなどしてユーザに提示する(ステップS608)。例えば、クロス集計部3は、分析項目集合C1に含まれる分析項目c1iの数以上を行数とし、分析項目集合C2に含まれる分析項目c2jの数以上を列数とするマトリックスのi行j列に|D(t1i,t2j)|を表す情報を表示する。さらに、クロス集計部3は、このマトリックスのi行の見出しに分析項目c1iの分析項目データに設定されている名称を表示し、j列の見出しに分析項目c2jの分析項目データに設定されている名称を表示する。また、クロス集計部3は、各行の分析項目をまとめた見出しに分析軸p1の分析軸データに設定されている名称を表示し、各列の分析項目をまとめた見出しに分析軸p2の分析軸データに設定されている名称を表示する。
When the
なお、ステップS606の処理では単純に、2つの語句を共に含む文書データ集合を求めるとしたが、図4(b)に示す分析項目データ410の語句414のように、1つの分析項目に対応する語句が複数の場合(例えば、「亀裂」と「き裂」の2つがある場合)がある。その場合、クロス集計部3は、これら複数の語句のうち少なくとも1つを含み、かつ、他方の分析軸の分析項目の語句を含む文書データ集合を求めるようにする。例えば、語句t1iが「タンク」であり、語句t2jが「亀裂」、「き裂」である場合、クロス集計部3は、「タンク」と「亀裂」を共に本文に含む文書データ、および、「タンク」と「き裂」を共に本文に含む文書データの集合を文書データ集合D(t1i,t2j)とする。また、語句t1i、語句t2jとも複数の語句であれば、クロス集計部3は、語句t1iと語句t2jの全ての組み合わせを生成し、生成したいずれかの組み合わせの語句t1iと語句t2jを共に本文に含む文書データの集合を文書データ集合D(t1i,t2j)とする。
In the process of step S606, a document data set including both of two words / phrases is simply obtained. However, as shown in the word /
さらに、このステップS606の処理を変形し、クロス集計部3は、2つの語句が後述する所定の関係(係り受け関係など)を持つような文書データに限るようにして文書データ集合D(t1i,t2j)を求めてもよい。また、ステップS607ではクロス集計結果のi行j列目を文書データ集合の文書データ数としたが、この値は文書データ数に限らず、例えば、全文書データ集合に対する比率(パーセンテージ)としてもよく、その画面上の表示形式についても、例えばバブルチャートなどを用いてもよい。例えば、クロス集計部3は、このようにしてクロス集計を行った結果を、図10に示すような形で表示し、ユーザに提示する。
Further, the processing of step S606 is modified so that the
図10は、クロス集計部3によって表示されるクロス集計の結果と、分析軸操作部4によって操作される分析軸と分析項目、および、分析項目生成部5によって生成される分析項目の例を示す図である。図10(a)は、分析軸「部品」1001と分析軸「症状」1002を対象としたクロス集計の結果を示している。分析軸「部品」1001の分析項目は「タンク」1003であり、分析軸「症状」1002の分析項目は「亀裂」1004、および「脱落」1005である。そして、異なる軸の2つの分析項目に対応する文書データ集合の文書数が、バブルチャートの円の面積によって表現されている。例えば、分析軸「部品」1001の分析項目「タンク」1003と、分析軸「症状」1002の分析項目「亀裂」1004の2つの分析項目に対応する文書データ集合の文書数が、バブルチャートの円906の面積によって表現されている。
FIG. 10 shows examples of cross tabulation results displayed by the
図7は、分析項目生成部5によって実行される分析項目生成処理の流れを表すフローチャートであり、前述の図5のステップS514における詳細な処理を示す。この処理の対象とする分析軸は、図5のステップS514において、ユーザによって指定された2つの分析軸p1と分析軸p2であり、分析軸p1はユーザが指定した所定の分析項目を持つ軸で、分析軸p2が分析項目の生成対象となる軸である。
FIG. 7 is a flowchart showing the flow of analysis item generation processing executed by the analysis
分析項目生成部5は、ユーザによってクロス集計部3で表示されるクロス集計の結果で示された分析項目に関して指示された分析軸p1と分析軸p2を設定すると、分析軸p1の分析項目の集合を分析項目集合C1とし、分析軸p2の分析項目の集合を分析項目集合C2とする。具体的には、分析項目生成部5は、分析軸p1の分析軸番号が設定されている分析項目データを特定し、特定した各分析項目データが表す分析項目の集合を分析項目集合C1とする。また、分析項目生成部5は、分析軸p2の分析軸番号が設定されている分析項目データを特定し、特定した各分析項目データが表す分析項目の集合を分析項目集合C2する。
When the analysis
さらに、分析項目生成部5は、分析項目集合C1の各分析項目に対応する語句の集合を語句集合T1とし、分析項目集合C2の各分析項目に対応する語句の集合を語句集合T2とする。分析項目に対応する語句とは、その分析項目の分析項目データに設定されている語句である。つまり、分析項目生成部5は、分析項目集合C1に含まれる各分析項目の分析項目データから読み出した語句の集合を語句集合T1とし、分析項目集合C2に含まれる各分析項目の分析項目データから読み出した語句の集合を語句集合T2とする。
Further, the analysis
また、分析軸の分析項目は、図5のフローチャートで説明したように、ユーザの操作によって削除または移動が行われることがある。そこで、分析項目生成部5は、図5のステップS503またはステップS509において分析項目集合C2から削除されたことのある各分析項目に対応する語句の集合を削除語句集合T2rmvとする(ステップS701)。つまり、分析項目生成部5は、分析軸p2から削除された、あるいは、分析軸p2から他の分析軸へ移動した各分析項目の分析項目データに設定されていた語句の集合を削除語句集合T2rmvとする。
Further, as described in the flowchart of FIG. 5, the analysis item of the analysis axis may be deleted or moved by a user operation. Therefore, the analysis
分析項目生成部5は、分析軸p2に新規に生成する分析項目に対応する語句の候補の集合である語句候補集合T2newを求める(ステップS702)。語句候補集合T2newに含まれる語句t2newは、語句抽出部51が文書データの本文から抽出した語句のうち、語句集合T1にも、語句集合T2にも、削除語句集合T2rmvにも含まれない語句であることを条件とする。また、語句集合T1に含まれるいずれかの語句と、語句t2newとを本文に共に含む文書データの集合を文書データ集合D(T1,t2new)としたとき、この文書データ集合D(T1,t2new)が空集合でないことも、語句t2newの条件とする。言い換えれば、語句t2newは、文書データにおいて語句集合T1のいずれかの語句と共起する語句、すなわち、語句集合T1のいずれかの語句を含む文書データの集合D(T1)から抽出された語句である。
The analysis
続いて、分析項目生成部5は、語句候補集合T2new中の語句t2newを全て選択するまで未選択の語句t2newを1つずつ選択し、選択した語句t2newについて以下のステップS704からステップS706までの処理を繰り返し実行する(ステップS703−繰り返し継続)。
Subsequently, the analysis
まず、分析項目生成部5は、語句t2newと、語句集合T2に含まれる語句との類似性によるスコアscr(T1,T2,t2new)を求める(ステップS704)。このスコアの算出処理については、後述する図8にて詳細に説明するが、スコアが大きいほど、新規に生成する分析項目としてより適切であることを示す。分析項目生成部5は、ステップS704において算出されたスコアが所定の閾値未満であれば(ステップS705−YES)、この語句に対応する分析項目は生成しないものとして、語句t2newを語句候補集合T2newから除き(ステップS706)、ステップS703からの処理を繰り返す。一方、ステップS704において算出されたスコアが所定の閾値以上であれば(ステップS705−NO)、分析項目生成部5は、そのままステップS703からの処理を繰り返す。
First, the analysis
分析項目生成部5は、語句候補集合T2new中の全ての語句t2newを選択すると、繰り返し処理を終了する(ステップS703−繰り返し終了)。分析項目生成部5は、ステップS703の繰り返しの処理が終了した段階で削除されずに語句候補集合T2newに残っている語句のうち、ステップS704において求めたスコアscr(T1,T2,t2new)が大きい順に所定の個数だけ語句t2newを選び、選ばれなかった語句t2newは語句候補集合T2newから除く(ステップS707)。
When the analysis
そして、分析項目生成部5は、語句候補集合T2new中の語句t2newを全て選択するまで、未選択の語句t2newを1つずつ選択して、以下のステップS709の処理を繰り返し実行する(ステップS708−繰り返し継続)。すなわち、分析項目生成部5は、分析軸p2に分析項目c2newを生成し、選択した語句t2newを分析項目c2newに対応する語句とすると、語句t2newを含む文書データを分析項目c2newに対応する文書集合とする(ステップS709)。具体的には、分析項目生成部5は、新たな分析項目c2newの分析項目データを生成して分析軸記憶部2に登録する。分析項目生成部5は、この分析項目データに、新たな分析項目番号と、分析軸p2の分析軸番号と、語句t2newを示す名称および語句と、語句t2newを本文に含む文書データの文書番号の集合を設定する。分析項目生成部5は、語句候補集合T2new中の全ての語句t2newを選択すると(ステップS708−繰り返し終了)、図7の分析項目生成処理を終了する。
Then, the analysis
図10(b)は、図7で説明した分析項目生成処理の結果の例を示す。例えば図10(a)の分析軸「部品」1001を対象として、分析項目を生成する場合、文書分析装置100は、分析項目の生成要求の入力を受け、さらに、分析軸p1が分析軸「症状」1002であり、分析軸p2が分析軸「部品」1001である旨の入力を受ける。この入力は、例えば、図10(a)の表示において、ユーザが分析軸p1として分析軸「症状」1002を選択し、分析軸p2として分析軸「部品」1001を選択することによって行ってもよい。これにより、分析項目生成部5が、図7の分析項目生成処理を行い、分析軸「部品」1001に分析項目「パイプ」、「ペダル」、「溶接」を生成し、これらの分析項目データを分析軸記憶部2に登録する。その後、文書分析装置100がユーザからクロス集計の実行要求を受けると、クロス集計部3は、図6に示すクロス集計処理を行う。クロス集計部3は、図10(b)に示すように、分析軸「部品」1001に、分析項目「パイプ」1011、「ペダル」1012、「溶接」1013が追加されたクロス集計結果を表示する。
FIG. 10B shows an example of the result of the analysis item generation process described in FIG. For example, when generating an analysis item for the analysis axis “component” 1001 in FIG. 10A, the
なお、文書分析装置100は、図5のステップS514の処理(図7の分析項目生成処理)の実行後、ユーザからクロス集計の実行要求の入力を受けることなく、ステップS512(図6のクロス集計処理)の処理を行うようにしてもよい。
Note that the
図8は、分析項目生成部5の語句関係評価部53によって実行される語句の関係の評価処理の流れを表すフローチャートであり、前述の図7のステップS704において、語句t2newのスコアを求める処理の詳細な処理を示す。図8の処理は、語句関係評価部53が実行するが、ステップS803とステップS807は、語句間の関係を用いた処理であるため、語句関係抽出部52が実行する。
FIG. 8 is a flowchart showing the flow of the phrase relationship evaluation process executed by the phrase
まず、語句関係評価部53は、語句が文書データ集合に含まれる頻度に着目したスコアfscr(T1,T2,t2new)を求める(ステップS801)。スコアfscr(T1,T2,t2new)は、語句t2newの出現頻度と、語句集合T2中の語句の出現頻度との類似性に基づく。本実施形態では、語句関係評価部53は、このスコアfscr(T1,T2,t2new)を、以下の式(1)、式(2)、式(3)で示すような頻度に関する3つの特徴を総合した方法で求める。すなわち、語句関係評価部53は、分析軸p2の既存の分析項目に対応する語句である語句集合T2中の語句t2と、新規に生成する分析項目の候補である語句t2newとの、出現頻度に着目した類似度を表す値を式(1)、式(2)、式(3)によってそれぞれ求める。そして、語句関係評価部53は、式(1)、式(2)、式(3)によって求めたこれらの値を、式(4)に示すように総合した値を語句t2newのスコアとする。しかしながら、本実施形態は、この方法に限定するものではない。
First, the phrase
文書記憶部1に記憶されている文書データの集合を文書データ集合Dとする。まず式(1)では、|D(t)|と|D(T1,t)|の比率をx(T1,t)とする。|D(t)|は、文書データ集合Dにおいて、ある語句tを本文に含む文書データの数であり、|D(T1,t)|は、文書データ集合Dにおいて、語句集合T1中のいずれかの語句と語句tとを共に本文に含む文書データの数である。語句関係評価部53は、語句tを語句t2newとした場合の比率x(T1,t2new)と、語句tを語句集合T2中の各語句t2とした場合の比率x(T1,t2)とを求める。語句関係評価部53は、語句集合T2中の語句t2それぞれについて、比率x(T1,t2new)と比率x(T1,t2)の類似度をfsim1(T1,t2,t2new)として算出する。これにより、fsim1(T1,t2,t2new)の値が大きいほど、語句t2newのスコアが大きくなるようにする。
A set of document data stored in the document storage unit 1 is referred to as a document data set D. First, in Expression (1), the ratio of | D (t) | and | D (T1, t) | is x (T1, t). | D (t) | is the number of document data including a certain word t in the text in the document data set D. | D (T1, t) | is any of the word sets T1 in the document data set D. This is the number of document data including both the phrase and the phrase t in the text. The phrase
次に式(2)では、ある語句tについて、語句集合T1中の語句のうち、語句tと共に本文に含まれる文書データ集合の数が最も大きい語句t1を選択する。そして、|D(t1,t)|と|D(T1,t)|の比率をy(T1,t)とする。|D(t1,t)|は、文書データ集合Dにおいて、選択した語句t1と語句tとを本文に含んだ文書データの数である。|D(T1,t)|は、前述したように、文書データ集合Dにおいて、語句集合T1中のいずれかの語句と語句tとを共に本文に含む文書データの数である。語句関係評価部53は、語句tを語句t2newとした場合の比率y(T1,t2new)と、語句tを語句集合T2中の各語句t2とした場合の比率y(T1,t2)とを求める。語句関係評価部53は、語句集合T2中の語句t2それぞれについて、比率y(T1,t2new)と比率y(T1,t2)の類似度をfsim2(T1,t2,t2new)として算出する。これにより、fsim2(T1,t2,t2new)の値が大きいほど、語句t2newのスコアが大きくなるようにする。
Next, in the expression (2), for a certain phrase t, the phrase t1 having the largest number of document data sets included in the text together with the phrase t is selected from the phrases in the phrase set T1. The ratio of | D (t1, t) | and | D (T1, t) | is y (T1, t). | D (t1, t) | is the number of document data including the selected word t1 and word t in the text in the document data set D. As described above, | D (T1, t) | is the number of document data in the text data set D that includes any word / phrase in the word / phrase set T1 and the word / phrase t in the text. The phrase
続いて式(3)では、ある語句tと、語句集合T1中の各々の語句t1とが共に本文に出現する頻度の度合いをベクトルv(T1,t)で表す。このベクトルv(T1,t)の各要素は語句t1に対応しており、その要素の値w(t1,t)は、|D(t1,t)|と|D(t)|の比率である。|D(t1,t)|は、文書データ集合Dにおいて、語句t1と語句tとを共に本文に含んだ文書データの数であり、|D(t)|は、前述したように、文書データ集合Dにおいてある語句tを本文に含む文書データの数である。語句関係評価部53は、語句tを語句t2newとした場合のベクトルv(T1,t2new)と、語句tを語句集合T2中の各語句t2とした場合のベクトルv(T1,t2)とを算出する。語句関係評価部53は、語句集合T2中の語句t2それぞれについて、ベクトルv(T1,t2new)とベクトルv(T1,t2)のコサイン類似度fsim3(T1,t2,t2new)を算出する。これにより、fsim3(T1,t2,t2new)の値が大きいほど、語句t2newのスコアが大きくなるようにする。
Subsequently, in Expression (3), a vector v (T1, t) represents the degree of frequency that a certain word t and each word t1 in the word set T1 appear in the text. Each element of the vector v (T1, t) corresponds to the phrase t1, and the value w (t1, t) of the element is a ratio of | D (t1, t) | and | D (t) | is there. | D (t1, t) | is the number of document data including both the phrase t1 and the phrase t in the text in the document data set D, and | D (t) | is the document data as described above. This is the number of document data that includes a certain word t in the text in the set D. The phrase
そして式(4)では、語句関係評価部53は、語句集合T2中の語句t2毎に、式(1)〜式(3)で算出した3つの類似度それぞれに所定の正の定数α1、α2、α3を各々乗じて加算した値を算出し、その中の最大値をスコアfscr(T1,T2,t2new)とする。このスコアの値が大きいということは、語句集合T1中の語句と共に出現する頻度という観点で、語句t2newとよく類似した語句が、分析軸p2の既存の分析項目に対応する語句として存在することを意味する。
In the expression (4), the phrase
したがって、語句関係評価部53は、ステップS801にて求めたこのスコアfscr(T1,T2,t2new)が所定の閾値未満であると判定した場合(ステップS802−YES)、語句t2newのスコアscr(T1,T2,t2new)に0を設定し、図8の処理を終了する(ステップS809)。このようにすることで、この語句t2newは、前述の図7のステップS706にて、候補から除かれるようになる。
Therefore, when the phrase
語句関係評価部53が、スコアfscr(T1,T2,t2new)は所定の閾値以上であると判定した場合(ステップS802−NO)、語句関係抽出部52は、語句t2newと語句集合T2中の語句との類似性によるスコアescr(T1,T2,t2new)を算出する(ステップS803)。このスコアescr(T1,T2,t2new)は、語句が自然言語の文章中に記述されている表現に着目したスコアである。語句関係抽出部52は、スコアescr(T1,T2,t2new)を、以下の式(5)と式(6)により、自然言語の表現に関する2つの特徴を総合した方法で求める。すなわち、語句関係抽出部52は、分析軸p2の既存の分析項目に対応する語句であるT2中の語句t2と、新規に生成する分析項目の候補の語句である語句t2newとの表現に着目した類似度を表す値を、これら式(5)、式(6)それぞれにより求める。語句関係抽出部52は、式(5)、式(6)それぞれにより求めたこれらの類似度を表す値を、式(7)と式(8)によって総合した値をt2newのスコアescr(T1,T2,t2new)とする。しかしながら、本実施形態はこの方法に限定するものではない。
When the phrase
図9は、分析項目生成部5の語句関係抽出部52によって抽出される語句の関係の例を示す図である。同図では、語句関係抽出部52が、語句集合T1中の語句t1と語句集合T2中の語句t2との両方の語句を含む文から語句間の関係を抽出した結果の例を示している。本実施形態では、この語句関係抽出部52の処理を、従来の構文解析の技術を用いて実現するが、その場合には、構文木を構成する複数の文節と、文節間の係り受け関係が抽出される。なお、各文節は、形態素で構成される。語句関係抽出部52は、これらの文節と文節間の係り受け関係の中から、語句t1または語句t2を含む文節と、これらの文節を接続する最も少ない関係と、この関係により語句t1を含む文節および語句t2を含む文節に繋がる他の文節とから構成される部分構文木s(t1,t2)を求める。
FIG. 9 is a diagram illustrating an example of a phrase relationship extracted by the phrase
図9(a)は、語句関係抽出部52が、図2(a)で示した文書データ200の本文204から文節と関係を抽出した例である。語句t1を「亀裂」、語句t2を「タンク」とした場合、文節902は語句t1を含み、文節903は語句t2を含んでいる。よって、語句関係抽出部52は、文節902および文節903と、これら文節902および文節903を繋ぐ関係905、906と、関係905、906により文節902および文節903につながる文節904とで構成される矩形部分の部分構文木901を部分構文木s(t1,t2)として求める。一方、語句関係抽出部52は、候補の語句t2newについても同様に、語句t2newと語句t1とを含む文の部分構文木s(t1,t2new)を求める。図9(b)は、図2(d)で示した文書データ230の本文234から文節と関係を抽出した例であり、語句t2newを「パイプ」とした場合、矩形部分の部分構文木911が部分構文木s(t1,t2new)となる。部分構文木911は、語句t2new「パイプ」を含む文節912と、語句t1「亀裂」を含む文節913と、これら文節912および文節913を繋ぐ関係915、916と、関係915、916により文節912および文節913につながる文節914とで構成される。
FIG. 9A shows an example in which the phrase
また、図9(c)および(d)は、図9(a)および(b)と同様に語句t1を「亀裂」、語句t2を「タンク」とし、語句t2newは「溶接」とした例である。図9(c)に示す部分構文木921は、語句t2「タンク」を含む文節922と、語句t1「亀裂」を含む文節923と、これら文節922および文節923を繋ぐ関係925、926と、関係925、926により文節922および文節923につながる文節924とで構成され、部分構文木s(t1,t2)となる。図9(d)に示す部分構文木931は、語句t2new「溶接」を含む文節932と、語句t1「亀裂」を含む文節933と、これら文節932および文節933を繋ぐ関係935、936と、関係935、936により文節932および文節933につながる文節934とで構成され、部分構文木s(t1,t2new)となる。
FIGS. 9C and 9D are examples in which the word t1 is “crack”, the word t2 is “tank”, and the word t2new is “weld”, as in FIGS. 9A and 9B. is there. The
語句t2と語句t2newとを同一の語句とみなして部分構文木s(t1,t2)と部分構文木s(t1,t2new)の各文節および関係を相互に対応付けた場合に、対応付けることが可能な文節同士で重複する形態素の個数、あるいは、対応付けることが可能な関係の個数に基づいて、部分構文木s(t1,t2)と部分構文木s(t1,t2new)の類似度を求める数式が式(5)、式(6)である。式(5)において、count(m∈s)は、部分構文木sに含まれる形態素mの個数を示し、式(6)において、count(r∈s)は、部分構文木sに含まれる関係rの個数を示す。文書データからは、語句関係抽出部52により、語句集合T1中の各語句t1と語句集合T2中の各語句t2との組み合わせ毎に部分構文木s(t1,t2)が0以上得られ、語句集合T1中の各語句t1と語句t2newとの組み合わせ毎に、部分構文木s(t1,t2new)が0以上得られている。
When the phrase t2 and the phrase t2new are regarded as the same phrase and the clauses and relationships of the partial syntax tree s (t1, t2) and the partial syntax tree s (t1, t2new) are associated with each other, they can be associated with each other. Based on the number of morphemes that overlap each other or the number of relationships that can be associated with each other, a mathematical expression for calculating the similarity between the partial syntax tree s (t1, t2) and the partial syntax tree s (t1, t2new) Equations (5) and (6). In equation (5), count (mεs) indicates the number of morphemes m included in the partial syntax tree s. In equation (6), count (rεs) is a relationship included in the partial syntax tree s. The number of r is shown. From the document data, the phrase
まず式(5)では、部分構文木s(t1,t)に含まれる形態素mの個数mn(s(t1,t))と、2つの部分構文木s(t1,ti)と部分構文木s(t1,tj)とに共に含まれる形態素mの個数mc(s(t1,ti),s(t1,tj))を考える。なお、この個数mc(s(t1,ti),s(t1,tj))を数えるときには、語句tiと語句tjに相当する形態素は等しいとみなして数える。語句関係抽出部52は、部分構文木s(t1,t2)各々のmn(s(t1,t2))と、部分構文木s(t1,t2)各々のmn(s(t1,t2new))とを数える。さらに、語句関係抽出部52は、語句t1が共通する部分構文木s(t1,t2)と部分構文木s(t1,t2new)の全ての組み合わせ各々についてmc(s(t1,t2),s(t1,t2new))を数え、mn(s(t1,t2))とmn(s(t1,t2new))のうちどちらか大きな値との比率により、語句t2と語句t2newとの類似度esim1(s(t1,t2),s(t1,t2new))を算出する。
First, in Expression (5), the number mn (s (t1, t)) of morphemes m included in the partial syntax tree s (t1, t), two partial syntax trees s (t1, ti), and the partial syntax tree s. Consider the number mc (s (t1, ti), s (t1, tj)) of morphemes m included in (t1, tj). When counting the number mc (s (t1, ti), s (t1, tj)), the word ti and the morpheme corresponding to the word tj are regarded as being equal and counted. The phrase
一方、式(6)では、部分構文木s(t1,t)に含まれる関係rの個数rn(s(t1,t))と、2つの部分構文木s(t1,ti)と部分構文木s(t1,tj)に共に含まれる関係rの個数rc(s(t1,ti),s(t1,tj))を考える。語句関係抽出部52は、部分構文木s(t1,t2)各々のrn(s(t1,t2))と、部分構文木s(t1,t2)各々のrn(s(t1,t2new))とを数える。さらに、語句関係抽出部52は、語句t1が共通する部分構文木s(t1,t2)と部分構文木s(t1,t2new)の全ての組み合わせ各々について、rc(s(t1,t2),s(t1,t2new))を数え、rn(s(t1,t2))とrn(s(t1,t2new))のうちどちらか大きな値との比率により、語句t2と語句t2newとの類似度esim2(s(t1,t2),s(t1,t2new))を算出する。
On the other hand, in Expression (6), the number rn (s (t1, t)) of the relation r included in the partial syntax tree s (t1, t), two partial syntax trees s (t1, ti), and the partial syntax tree. Consider the number rc (s (t1, ti), s (t1, tj)) of the relation r included in s (t1, tj). The phrase
そして式(7)では、語句関係抽出部52は、語句t1と語句t2newを含む全ての部分構文木s(t1,t2new)の各々について、式(5)と式(6)で求めた2つの類似度に、所定の正の定数β1とβ2各々乗じて加算した値の最大値を、語句t1と語句t2を含む部分構文木s(t1,t2)毎に選ぶ。語句関係抽出部52は、選んだ最大値を加算した結果を部分構文木s(t1,t2new)の個数|s(t1,t2new)|により除算することにより平均した値を、語句t2と語句t2newの類似度esim(t1,t2,t2new)とする。
In the expression (7), the phrase
式(8)では、語句関係抽出部52は、T1中の語句t1とT2中の語句t2との全ての組み合わせについて式(7)で算出した類似度esim(t1,t2,t2new)のうち最大値をスコアescr(T1,T2,t2new)とする。このスコアの値が大きいということは、語句集合T1中の語句と共に出現する表現という観点で、語句t2newとよく類似した語句が、分析軸p2の既存の分析項目に対応する語句として存在することを意味する。
In Expression (8), the phrase
例えば、図9(a)の部分構文木901の形態素は「タンク」「に」「亀裂」「が」「発生」「した」「。」であり、図9(b)の部分構文木911の形態素は「パイプ」「に」「亀裂」「が」「発生」「した」「。」である。よって、図9(a)の部分構文木901と図9(b)の部分構文木911とでは、語句t2「タンク」と語句t2new「パイプ」が等しいとみなした場合、全ての形態素と関係が一致する。従って、類似度esim1(s(t1,t2),s(t1,t2new))=7/7=1、類似度esim2(s(t1, t2),s(t1,t2new))=2/2=1となり、類似度としては最大になる。
For example, the morphemes of the
また、図9(c)の部分構文木921と、図9(d)の部分構文木931とでは、語句t2「タンク」と語句t2new「溶接」が等しいとみなした場合、7個中6個の形態素が一致し(「底部」と「箇所」のみが一致しない)、全ての関係が一致する。よって、類似度esim1(s(t1,t2),s(t1,t2new))=6/7、類似度esim2(s(t1, t2),s(t1,t2new))=2/2=1となり、この場合の類似度もかなり大きいこととなる。
Further, in the
図8において、語句関係評価部53は、ステップS803にて求められたスコアescr(T1,T2,t2new)が、所定の閾値未満であると判定した場合(ステップS804−YES)、語句t2newのスコアscr(T1,T2,t2new)に0を設定し、図8の処理を終了する(ステップS809)。このようにすることで、この語句t2newは、前述の図7のステップS706にて、候補から除かれるようになる。
In FIG. 8, when the phrase
語句関係評価部53は、スコアescr(T1,T2,t2new)が、所定の閾値以上であると判定した場合(ステップS804−NO)、ステップS805からS808までの処理を行い、図7のステップS701に記した削除語句集合T2rmvに類似した語句を除く。つまり、語句関係評価部53は、削除語句集合T2rmvについて、スコアfscr(T1,T2rmv,t2new)を算出し、語句関係抽出部52は、スコアescr(T1,T2rmv,t2new)を算出する。これらの値が大きいほど、語句t2newは、以前に削除された分析項目に対応する語句と類似していることを示すため、分析項目の候補から除かれやすくなるように、t2newのスコアscr(T1,T2,t2new)を0とする。
When the phrase
具体的には、語句関係評価部53は、前述のステップS801と同様の処理により、スコアfscr(T1,T2rmv,t2new)を算出する(ステップS805)。語句関係評価部53が、算出したスコアfscr(T1,T2rmv,t2new)は所定の閾値以上であると判定した場合(ステップS806−YES)、語句関係抽出部52は、前述のステップS803と同様の処理によりスコアescr(T1,T2rmv,t2new)を求める(ステップS807)。語句関係評価部53は、算出されたスコアescr(T1,T2rmv,t2new)が所定の閾値以上であると判定した場合(ステップS808−YES)、語句t2newのスコアscr(T1,T2,t2new)に0を設定し、図8の処理を終了する(ステップS809)。
Specifically, the word / phrase
語句関係評価部53は、ステップS805において算出したスコアfscr(T1,T2rmv,t2new)が所定の閾値未満であると判定した場合(ステップS806−NO)、あるいは、ステップS807で算出されたスコアescr(T1,T2rmv,t2new)が所定の閾値未満であると判定した場合(ステップS808−NO)、語句t2newが分析項目の候補として適切であると判断する。語句関係評価部53は、ステップS801において算出したスコアfscr(T1,T2,t2new)とS803において算出されたスコアescr(T1,T2,t2new)とにそれぞれ、正の定数αとβを乗じて足し合わせた値を、最終的なスコアscr(T1,T2,t2new)として算出し、処理を終了する(ステップS810)。
The phrase
文書分析装置100は、図7と図8を用いて説明した処理を、対象とする分析軸を交互に切り替えて実行しながら、クロス集計を行うことで、図10に示したように、各分析軸の分析項目を段階的に作成していくことができる。例えば、上述したように、文書分析装置100が、図10(a)の状態から、分析軸「部品」1001を対象にして分析項目を生成した例が図10(b)である。しかし、自動的に生成した分析項目は、特に作業の初期の段階では、必ずしも全て適切であるとは限らず、例えば、図10(b)の分析項目「溶接」1013のように、分析軸「部品」1001には相当しない語句によって分析項目が生成されてしまうことがある。このような場合、ユーザは、前述のように分析軸操作部4を用いて不適切な分析項目を削除することができる。つまり、文書分析装置100の分析軸操作部4は、図5のステップS508の処理により、ユーザが不適切であると指定した分析項目「溶接」1013を削除する。あるいは、分析軸操作部4は、図5のステップS510の処理により、分析項目「溶接」1013を別の分析軸の分析項目として使用することも可能である。その例を図11に示す。
The
図11は、分析項目移動後にクロス集計部3によって表示されるクロス集計の結果と、分析軸操作部4によって操作される分析軸および分析項目の例を示す図である。
ユーザは、図11(a)に示すクロス集計結果において分析軸「部品」1100として不適切な分析項目「溶接」1101を、別の分析軸「工程」に移動する。これにより、クロス集計部3は、図11(b)に示すように、分析軸「工程」1111に分析項目「溶接」1112を使用して、クロス集計結果を表示することができる。移動先の分析軸は、例えば、クロス集計部3が表示している別のクロス集計結果において指定してもよい。このように分析項目を移動すると、前述の図7のステップS702および図8のステップS805からS808で説明した処理により、以後の移動元の分析軸(図11の例では「部品」1100)に分析項目を生成する処理では、移動した語句、および、これと類似した語句は抽出されにくくなる。一方で、移動先の分析軸(図11の例では「工程」)を対象にして分析項目を生成する処理では、当該語句に類似した語句は抽出されやすくなる。
FIG. 11 is a diagram illustrating an example of a cross tabulation result displayed by the
The user moves the analysis item “welding” 1101 inappropriate as the analysis axis “component” 1100 in the cross tabulation result shown in FIG. 11A to another analysis axis “process”. Accordingly, the
上記のように、図10(b)の状態で、ユーザが分析軸「部品」1001から分析項目「溶接」1013を削除または移動し、次に分析軸「症状」1002を対象にして分析項目を生成した後のクロス集計結果が、図10(c)である。この例では、分析軸「症状」1002に、「折損」1021、「干渉」1022など、不具合の症状に関する語句が抽出され、これに対応する分析項目が作成されている。 As described above, in the state of FIG. 10B, the user deletes or moves the analysis item “weld” 1013 from the analysis axis “component” 1001, and then selects the analysis item for the analysis axis “symptom” 1002. FIG. 10C shows the cross tabulation result after generation. In this example, words related to the symptom of the malfunction such as “broken” 1021 and “interference” 1022 are extracted on the analysis axis “symptom” 1002 and an analysis item corresponding to this is created.
このように、図10(a)から図10(b)、図10(c)といった形で分析軸を交互に切り替えて分析項目を生成していくこともできるが、例えば図10(c)の状態から、分析軸「部品」1001および分析軸「症状」1002の両方の分析軸を対象にして、分析項目を一度に生成してもよい。図10(d)に示した例では、分析軸「部品」1001に対応する分析項目として「ケーブル」1031と「配線」1032が生成され、同時に、分析軸「症状」1002に対応する分析項目として「断線」1033が生成されている。このように、複数の分析軸の分析項目を一度に生成することも、図7の処理の流れに小さい変形を加えることで、容易に実現できる。例えば、分析項目生成部5は、ユーザによって指示された分析軸p1と分析軸p2について図7の処理を終えた後、分析軸p1と分析軸p2を入れ替えて再び図7の処理を行う。
As described above, the analysis items can be generated by alternately switching the analysis axes in the form of FIG. 10A to FIG. 10B and FIG. 10C. For example, FIG. From the state, analysis items may be generated at once for both the analysis axis “part” 1001 and the analysis axis “symptom” 1002. In the example shown in FIG. 10D, “cable” 1031 and “wiring” 1032 are generated as analysis items corresponding to the analysis axis “component” 1001, and simultaneously as analysis items corresponding to the analysis axis “symptom” 1002. A “break” 1033 is generated. Thus, it is possible to easily generate analysis items for a plurality of analysis axes at once by adding a small modification to the processing flow of FIG. For example, after finishing the processing of FIG. 7 for the analysis axis p1 and the analysis axis p2 instructed by the user, the analysis
上述した実施形態によれば、分析作業の最初の段階では、第1の分析軸および第2の分析軸の各々に対して、既知の語句を用いた分析項目を、例えばユーザが手作業で少数作成しておく。その後、分析項目生成部5により、まず、第2の分析軸に相当する語句を自動的に抽出して新規の分析項目を生成し、ユーザはその結果を、クロス集計部3を用いて確認する。そして、必要ならば、今度は第1の分析軸に相当する語句を自動的に抽出して、新規の分析項目を生成し、ユーザは、その結果を再びクロス集計部3を用いて確認する、といった手順で、分析作業を進めていくことができる。このような作業の繰り返しによって、第1の分析軸と第2の分析軸に対応する分析項目が複数個ずつ、順次作成されていく。ユーザはこれらの分析項目のクロス集計結果を用いて、文書データ集合の全体的な内容を把握することができるとともに、未知の語句すなわち分析項目を発見し、これと別の分析項目との相関関係などを詳細に調べることができる。
According to the above-described embodiment, in the first stage of the analysis work, the analysis items using known words and phrases are reduced manually by the user for each of the first analysis axis and the second analysis axis, for example. Create it. After that, the analysis
また、第1の分析軸や第2の分析軸の分析項目としては不適切な分析項目が分析項目生成部5によって自動生成された場合、ユーザはこれを、クロス集計部3を用いてすぐ確認することができる。また、分析軸操作部4により、不適切な分析項目を削除することはもちろん、別の分析軸の分析項目として利用することも容易に行える。また、分析軸操作部4が、ある分析軸の分析項目として不適切であるとして語句を削除した場合、それ以後、分析項目生成部5は、削除された語句と、その削除された語句に類似した語句を、当該分析軸に対応する語句として抽出することがない。したがって、このような作業を繰り返すことで、各分析軸に対する適切な語句が精度よく抽出されるようになる。
In addition, when an analysis item that is inappropriate as an analysis item of the first analysis axis or the second analysis axis is automatically generated by the analysis
以上で述べた少なくともひとつの実施形態の文書分析装置100によれば、分析項目生成部5を有することにより、大量の文書を複数の分析軸で分析するときに用いる各分析軸の分析項目を作成することができる。ユーザは、大量の文書に記述された個々の文章を調べて分析項目に相当する語句を手作業で探し出す必要がなく、また、事前に辞書などの形で各分析項目に相当する語句を用意する必要も、事前にルールなどの形で抽出すべき語句や語句間の関係を指定する必要もない。従って、分析作業にかかっていたユーザの労力が大幅に軽減されるとともに、未知の語句や関係の表現が記述された非定型な文章であっても、その意味内容を反映した分析が行える。
According to the
また、以上で述べた少なくともひとつの実施形態の文書分析装置100によれば、分析軸操作部4を有することにより、分析項目を生成する過程において、対象としている分析軸としては不適切だが、文書を分析する上では有用であるような分析項目が得られた場合には、これを別の分析軸の分析項目とすることができる。これにより、ユーザは、当初ユーザが対象としていた分析軸とは異なる分析軸を用いた分析も行える。そして、分析項目生成部5は、分析軸から削除された語句と、その削除された語句に類似した語句を用いる分析項目については、当該分析軸に生成しないようにする。これにより、不適切である可能性が高い語句により分析項目が生成されないように、各分析軸に対して適切な語句による分析項目を精度よく生成することができる。
Further, according to the
なお、上述の各実施形態における図1の文書分析装置100の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文書分析装置100として動作させるようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
Note that a program for realizing the function of the
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 As mentioned above, although embodiment of this invention was described, this embodiment is shown as an example and is not intending limiting the range of invention. This embodiment can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. This embodiment and its modifications are included in the scope of the present invention and the gist thereof, and are also included in the invention described in the claims and the equivalent scope thereof.
1…文書記憶部
2…分析軸記憶部
3…クロス集計部
4…分析軸操作部
5…分析項目生成部
51…語句抽出部
52…語句関係抽出部
53…語句関係評価部
100…文書分析装置
DESCRIPTION OF SYMBOLS 1 ...
Claims (3)
複数の分析軸と、前記分析軸の分析項目と、前記分析項目に対応した語句とを記憶する分析軸記憶部と、
第1の分析軸と第2の分析軸との入力を受け、前記分析軸記憶部から前記第1の分析軸の前記分析項目に対応した前記語句である第1の語句集合と前記第2の分析軸の前記分析項目に対応した前記語句である第2の語句集合とを読み出すとともに、前記文書記憶部に記憶されている前記文書データにおいて前記第1の語句集合に含まれる前記語句と共起する語句である語句候補を抽出し、前記語句候補の中から、前記文書データにおいて前記第1の語句集合に含まれる語句と共起する頻度または表現が前記第2の語句集合に含まれる語句と所定の基準よりも類似した前記語句候補を選択し、選択した前記語句候補を用いた前記第2の分析軸の新たな分析項目を前記分析軸記憶部に書き込む分析項目生成部と、
複数の分析軸それぞれの分析項目と前記分析項目に対応した語句とを前記分析軸記憶部から読み出し、前記複数の分析軸について読み出した前記分析項目の組み合わせ毎に、前記文書記憶部に記憶されている前記文書データのうち、前記組み合わせを構成する前記分析項目に対応した語句を含んだ前記文書データの数を計数し、計数結果を表示させるクロス集計部と、
を備えることを特徴とする文書分析装置。 A document storage unit for storing a plurality of document data;
An analysis axis storage unit that stores a plurality of analysis axes, analysis items of the analysis axis, and words corresponding to the analysis items;
The first analysis set and the second analysis axis are input, and the first set of words and phrases corresponding to the analysis item of the first analysis axis from the analysis axis storage unit and the second analysis set A second phrase set that is the phrase corresponding to the analysis item on the analysis axis is read out, and co-occurs with the phrase included in the first phrase set in the document data stored in the document storage unit A phrase that is included in the second phrase set, and a frequency or expression that co-occurs with the phrase included in the first phrase set in the document data from the word candidates. An analysis item generating unit that selects the word candidates that are more similar than a predetermined criterion, and writes a new analysis item of the second analysis axis using the selected word candidates to the analysis axis storage unit;
An analysis item for each of a plurality of analysis axes and a word corresponding to the analysis item are read from the analysis axis storage unit, and each combination of the analysis items read for the plurality of analysis axes is stored in the document storage unit. A cross tabulation unit that counts the number of the document data including words corresponding to the analysis items constituting the combination of the document data, and displays the counting result;
A document analysis apparatus comprising:
前記分析項目生成部は、前記語句候補から、前記第2の分析軸から削除または移動した前記分析項目に対応した削除語句集合に含まれる語句、及び、前記文書データにおいて前記第1の語句集合に含まれる語句と共起する頻度または表現が前記削除語句集合に含まれる前記語句と所定の基準よりも類似した前記語句候補を除外する、
ことを特徴とする請求項1に記載の文書分析装置。 Based on the input instruction to delete or move the analysis item, the analysis axis storage unit performs a process of deleting the analysis item or a process of rewriting the analysis axis to which the analysis item belongs to another analysis axis. An analysis axis operation unit,
The analysis item generation unit includes the phrase included in the deleted phrase set corresponding to the analysis item deleted or moved from the second analysis axis from the phrase candidate, and the first phrase set in the document data. Excluding the word candidate whose frequency or expression co-occurring with the included word is similar to the word included in the deleted word set than a predetermined criterion;
The document analysis apparatus according to claim 1, wherein:
ことを特徴とする請求項1または請求項2に記載の文書分析装置。 The analysis item generation unit is a first analysis axis having a predetermined analysis item selected from the analysis items for which the cross tabulation unit displays the count result, and a first analysis item to be generated. Set 2 analysis axes,
The document analysis apparatus according to claim 1, wherein the document analysis apparatus is a document analysis apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013186759A JP6173846B2 (en) | 2013-09-09 | 2013-09-09 | Document analyzer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013186759A JP6173846B2 (en) | 2013-09-09 | 2013-09-09 | Document analyzer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015053019A JP2015053019A (en) | 2015-03-19 |
JP6173846B2 true JP6173846B2 (en) | 2017-08-02 |
Family
ID=52701982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013186759A Active JP6173846B2 (en) | 2013-09-09 | 2013-09-09 | Document analyzer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6173846B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202535A (en) * | 2004-01-14 | 2005-07-28 | Hitachi Ltd | Document tabulation method and device, and storage medium storing program used therefor |
JP5060591B2 (en) * | 2010-06-03 | 2012-10-31 | 株式会社東芝 | Document analysis apparatus and program |
JP5135412B2 (en) * | 2010-10-27 | 2013-02-06 | 株式会社東芝 | Document analysis apparatus and program |
-
2013
- 2013-09-09 JP JP2013186759A patent/JP6173846B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015053019A (en) | 2015-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5647508B2 (en) | System and method for identifying short text communication topics | |
US9558263B2 (en) | Identifying and displaying relationships between candidate answers | |
US9053418B2 (en) | System and method for identifying one or more resumes based on a search query using weighted formal concept analysis | |
JP6007088B2 (en) | Question answering program, server and method using a large amount of comment text | |
KR101723862B1 (en) | Apparatus and method for classifying and analyzing documents including text | |
CN111753198A (en) | Information recommendation method and device, electronic equipment and readable storage medium | |
US10713291B2 (en) | Electronic document generation using data from disparate sources | |
US11188819B2 (en) | Entity model establishment | |
Laureate et al. | A systematic review of the use of topic models for short text social media analysis | |
JP2010003015A (en) | Document search system | |
US20120143895A1 (en) | Query pattern generation for answers coverage expansion | |
Nualart et al. | How we draw texts: a review of approaches to text visualization and exploration | |
Gowri et al. | Efficacious IR system for investigation in digital textual data | |
JP6346367B1 (en) | Similarity index value calculation device, similarity search device, and similarity index value calculation program | |
CN110110218A (en) | A kind of Identity Association method and terminal | |
CN114141384A (en) | Method, apparatus and medium for retrieving medical data | |
Patil et al. | Novel technique for script translation using NLP: performance evaluation | |
JP5224532B2 (en) | Reputation information classification device and program | |
JP6145562B2 (en) | Information structuring system and information structuring method | |
JP6305630B2 (en) | Document search apparatus, method and program | |
JP6173846B2 (en) | Document analyzer | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JP6173958B2 (en) | Program, apparatus and method for searching using a plurality of hash tables | |
JP2006286026A (en) | Opinion collection/analysis device, opinion collection/analysis method used therefor and its program | |
Er et al. | LLM Prompting Versus Fine-Tuning PLMs: A Comparative Study on Keyword Generation from Customer Feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6173846 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |