JP4940251B2 - Document processing program and document processing apparatus - Google Patents
Document processing program and document processing apparatus Download PDFInfo
- Publication number
- JP4940251B2 JP4940251B2 JP2009001851A JP2009001851A JP4940251B2 JP 4940251 B2 JP4940251 B2 JP 4940251B2 JP 2009001851 A JP2009001851 A JP 2009001851A JP 2009001851 A JP2009001851 A JP 2009001851A JP 4940251 B2 JP4940251 B2 JP 4940251B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- extracted
- sentence
- paraphrase
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003860 storage Methods 0.000 claims description 148
- 239000013598 vector Substances 0.000 claims description 93
- 238000000605 extraction Methods 0.000 claims description 75
- 238000004458 analytical method Methods 0.000 claims description 48
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 13
- 238000000034 method Methods 0.000 description 76
- 230000008569 process Effects 0.000 description 65
- 238000006243 chemical reaction Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 8
- 239000000470 constituent Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Description
本発明は、大量の文書群を分類するための文書処理プログラム及び文書処理装置に関する。 The present invention relates to a document processing program and a document processing apparatus for classifying a large number of document groups.
近年、大量な文書(文章)群を、幾つかの互いに似た文書集合(クラスタ)に分類する文書処理装置が知られている。 In recent years, document processing apparatuses that classify a large number of documents (sentences) into several similar document sets (clusters) are known.
この文書処理装置における文書の分類方法として、例えば文書に出現する単語から構成されるベクトル空間モデルを用いた文書間類似度算出方法がある。 As a document classification method in this document processing apparatus, for example, there is an inter-document similarity calculation method using a vector space model composed of words appearing in a document.
これに関連する技術として、例えばコールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能な技術(以下、先行技術と表記)が開示されている(例えば、特許文献1を参照)。 As a related technology, for example, call centers and mail centers, etc. Electronic texts gathered in companies and local governments, voices of customers and residents, and business reports created by salespeople are automatically classified with high accuracy. Techniques that can be performed (hereinafter referred to as prior art) are disclosed (see, for example, Patent Document 1).
なお、先行技術においては、既に分類されているデータ(正解セット)に基づいて、入力されたデータ(分類すべきデータ)を分類するという考え方、これらのデータを文章(テキストデータ)と非文章データ(狭義のデータ)とに分け、それぞれをマイニング(テキストマイニングとデータマイニング)により類似性を判断する基準値を算出し、その基準値に基づいて分類するという考え方が取り入れられている。 In the prior art, the idea of classifying the input data (data to be classified) based on the already classified data (correct answer set), and these data as text (text data) and non-text data It is divided into (data in a narrow sense), and a concept of calculating a reference value for judging similarity by mining (text mining and data mining) and classifying based on the reference value is adopted.
しかしながら、上記した先行技術においては、文書内で、当該文書に含まれる文の意味を考慮した分類は行われていない。つまり、文書内における「重要な記述部分」と「重要でない部分」とを対等な重みで扱っているため、分類精度が低い。 However, in the above-described prior art, no classification is performed in a document in consideration of the meaning of sentences included in the document. In other words, since “important description part” and “non-important part” in the document are handled with equal weight, the classification accuracy is low.
ところで、分類精度の評価方法としては、同じクラスタに分類された文書が互いに同じ意味であるか、例えば「A(目的語)をB(動詞)する」が同じであるかに基づいて行われるのが一般的である。 By the way, as an evaluation method of classification accuracy, it is performed based on whether documents classified into the same cluster have the same meaning or whether “A (object) B (verb)” is the same. Is common.
このため、分類精度を向上させるためには、「目的語」と「動詞」の組を考慮した分類を行う必要がある。 Therefore, in order to improve the classification accuracy, it is necessary to perform classification in consideration of a set of “object” and “verb”.
そこで、本発明の目的は、文書の分類精度を向上させることができる文書処理プログラム及び文書処理装置を提供することにある。 Accordingly, an object of the present invention is to provide a document processing program and a document processing apparatus capable of improving the document classification accuracy.
本発明の1つの態様によれば、文字列を含む文からなる複数の文書を格納する文書格納手段及び素性格納手段を有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、前記コンピュータに、前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、前記抽出された要旨文に含まれる重要語及び前記解析結果に基づいて、当該要旨文に含まれる重要語以外の表現を単純化することにより、当該重要語を含む当該要旨文の言い換え文を生成するステップと、前記生成された言い換え文に含まれる重要語を含む複数の文字列から構成される素性の組を、当該言い換え文から抽出するステップと、前記抽出された素性の組を、前記素性格納手段に格納するステップと、前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の組の出現頻度に基づいて文書ベクトル成分値を算出するステップと、前記算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成するステップと、前記抽出された重要語及び前記解析結果に基づいて、当該重要語を目的語または動詞とするテンプレートを生成するステップとを実行させ、前記素性の組を抽出するステップにおいて、前記生成された言い換え文に対し、前記生成されたテンプレートをマッチングさせることにより前記素性の組を抽出することを特徴とする文書処理プログラムが提供される。 According to one aspect of the present invention, a document configured by a document storage unit that stores a plurality of documents including sentences including character strings, an external storage device having a feature storage unit, and a computer that uses the external storage device. In a processing apparatus, a document processing program executed by the computer, wherein each document stored in the computer is stored in the computer based on the appearance frequency of the character string in the document. Extracting a character string as an important word, extracting a sentence including the extracted important word from a document from which the important word is extracted as a summary sentence, and characters included in the extracted summary sentence a step of analyzing the dependency between the columns, on the basis of key words and the analysis results are within the spirit sentence the extracted, the gist sentence By simplifying the representation of the non-important word included, composed of a plurality of character strings and generating a paraphrase sentence of the summary sentences including the key words, key words included in the generated paraphrase sentence A feature set to be extracted from the paraphrase sentence, a step of storing the extracted feature set in the feature storage unit, and a document stored in the document storage unit for each document Calculating a document vector component value based on the appearance frequency of the feature set stored in the feature storage means in the summary sentence extracted from the document, and based on the calculated document vector component value, the document storage means generating a document vector for each document that is stored in, based on the extracted important word and the analysis results, and object or verb the important word That template to execute the steps of generating, in the step of extracting a set of feature, wherein the relative generated paraphrase sentence, extracts a set of feature by matching the generated template A document processing program is provided.
本発明によれば、文書の分類精度を向上させることを可能とする。 According to the present invention, it is possible to improve document classification accuracy.
以下、図面を参照して、本発明の各実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
まず、図1及び図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成する。
[First Embodiment]
First, a first embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram showing a hardware configuration of the document processing apparatus according to the present embodiment. As shown in FIG. 1, the
図2は、図1に示す文書処理装置30の主として機能構成を示すブロック図である。図2に示すように、文書処理装置30は、要旨文特定部31、言い換え処理部32及びクラスタリング部33を含む。本実施形態において、これらの各部31乃至33は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
FIG. 2 is a block diagram mainly showing a functional configuration of the
また、文書処理装置30は、文書格納部22、類義句辞書格納部23、言い換え文格納部24及び文書クラスタ格納部25を含む。本実施形態において、文書格納部22、類義句辞書格納部23、言い換え文格納部24及び文書クラスタ格納部25は、例えば外部記憶装置20に格納される。
The
文書格納部22には、複数の文書データ(テキストデータ)が格納されている。この文書データ(以下、文書と表記)は、文字列を含む文からなる。
The
要旨文特定部31は、重要語抽出部311、対象文抽出部312及び係り受け解析部313を含む。
The abstract
重要語抽出部311は、文書格納部22に格納されている文書における文字列(単語)の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出する。
Based on the appearance frequency of the character string (word) in the document stored in the
対象文抽出部312は、重要語抽出部311によって抽出された重要語を含む文(対象文)を、当該重要語が抽出された文書から抽出する。この対象文は、重要語抽出部311によって抽出された重要語を含むため、当該対象文が抽出された文書における重要な記述部分である。よって、対象文抽出部312によって抽出された対象文を(文書の)要旨文と称する。
The target
係り受け解析部313は、対象文抽出部312によって抽出された要旨文に含まれる文字列間の係り受けを解析(係り受け解析)する。この係り受け解析結果の具体例については後述する。なお、この係り受け解析を実行することによって、例えば対象文抽出部312によって抽出された要旨文に含まれる文字列(重要語)の品詞等を取得することができる。
The
類義句辞書格納部23には、単語(文字列)の類義表現が予め格納されている。具体的には、例えば単語「画像」の類義表現として「映像」が類義句辞書格納部23に格納されている。この類義句辞書格納部23は、例えば重要語抽出部311によって抽出された重要語等を統一するための同義語処理において用いられる。
In the synonym phrase
言い換え処理部32は、個数判定部321及び言い換え文生成部322を含む。個数判定部321は、対象文抽出部312によって抽出された要旨文に含まれる重要語の数(個数)が1つであるか、または2つ以上であるか否かを判定する。
The
言い換え文生成部322は、重要語抽出部311によって抽出された重要語、係り受け解析部313による当該要旨文の係り受け解析結果及び類義句辞書格納部23に格納されている類義表現に基づいて、対象文抽出部312によって抽出された要旨文を言い換える。これにより、言い換え文生成部322は、対象文抽出部312によって抽出された要旨文の言い換え文を生成する処理(言い換え処理)を実行する。この言い換え文生成部322によって生成された言い換え文には、重要語抽出部311によって抽出された重要語が含まれる。
The paraphrase
また、言い換え文生成部322は、個数判定部321による判定結果に応じた言い換え処理を実行する。なお、言い換え処理の詳細については後述する。
In addition, the paraphrase
言い換え文生成部322は、生成された要旨文の言い換え文を言い換え文格納部24に格納する。つまり、言い換え文格納部24には、文書格納部22に格納されている各文書から抽出された要旨文の言い換え文、つまり、文書格納部22に格納されている文書毎の言い換え文が格納される。
The paraphrase
クラスタリング部51は、言い換え文格納部24に格納されている言い換え文を分類する。クラスタリング部51は、例えば言い換え文格納部24に格納されている言い換え文に含まれる文字列の出現頻度に基づいて、当該言い換え文を分類する。クラスタリング部51による分類結果は、文書クラスタ格納部27に格納される。
The
次に、図3のフローチャートを参照して、本実施形態に係る文書処理装置30の処理手順について説明する。なお、以下に説明する処理は、例えばユーザに指示(操作)に応じて実行される。
Next, a processing procedure of the
まず、要旨文特定部31に含まれる重要語抽出部311は、文書格納部22に格納されている文書(群)のうちの1つを、当該文書格納部22から取得する(ステップS1)。
First, the important
次に、重要語抽出部311は、取得された文書における文字列(単語)の出現頻度に基づいて、当該文書における重要語を抽出する(ステップS2)。具体的には、重要語抽出部311は、例えばTF/IDFの値(スコア)を基準に特徴的な単語を決定するといった特徴単語抽出方法を用いて重要語を抽出する。重要語抽出部311によって抽出される重要語は、複数であっても構わない。
Next, the
なお、重要語は、重要語抽出部311によって取得された文書全体から抽出される構成であってもよいし、当該文書中の重要な段落(例えば最初の段落等)のような特定の箇所から抽出される構成であっても構わない。つまり、重要語は、重要語抽出部311によって取得された文書中の位置に基づいて抽出されても構わない。
The important word may be extracted from the entire document acquired by the important
対象文抽出部312は、重要語抽出部311によって取得された文書において、当該重要語抽出部311によって抽出された重要語が含まれる要旨文(対象文)を抽出する(ステップS3)。対象文抽出部312によって抽出される要旨文は、複数であっても構わない。
The target
なお、要旨文は、重要語抽出部311によって取得された文書全体から抽出される構成であってもよいし、当該文書中の特定の箇所(重要な段落)から抽出される構成であっても構わない。つまり、要旨文は、重要語抽出部311によって取得された文書中の位置に基づいて抽出されても構わない。
The abstract sentence may be extracted from the entire document acquired by the important
係り受け解析部313は、対象文抽出部312によって抽出された要旨文を係り受け解析する(ステップS4)。
The
ここで、図4は、係り受け解析部313による係り受け解析結果の一例を示す。図4は、例えば重要語抽出部311によって抽出された重要語が「アナログ」及び「変換」であり、対象文抽出部312によって抽出された要旨文が「アナログの画像を入力し変換を実行する」である場合における係り受け解析部313による係り受け解析結果である。
Here, FIG. 4 shows an example of a dependency analysis result by the
なお、係り受け解析部313は、要旨文を係り受け解析することにより、当該要旨文に含まれる文字列(重要語)「アナログ」または「変換」等の品詞等を取得する。
The
次に、言い換え処理部32に含まれる個数判定部321は、対象文抽出部312によって抽出された要旨文に含まれる重要語の数が1つであるか、2つ以上であるかを判定する。
Next, the
言い換え文生成部322は、重要語抽出部311によって抽出された重要語、係り受け解析部313による係り受け解析結果及び個数判定部321による判定結果に基づいて、対象文抽出部312によって抽出された要旨文を言い換える処理(言い換え処理)を実行する。これにより、言い換え文生成部322は、対象文抽出部312によって抽出された要旨文の言い換え文を生成する(ステップS5)。
The paraphrase
このとき、言い換え文生成部322は、類義句辞書格納部23に格納されている類義表現を用いて、対象文抽出部312によって抽出された要旨文に含まれる重要語等の文字列に対して同義語処理を実行する。
At this time, the paraphrase
また、言い換え文生成部322は、生成された言い換え文を言い換え文格納部24に格納する。
In addition, the paraphrase
ここで、上記した言い換え処理とは、対象文抽出部312によって抽出された要旨文の複雑な表現を、より単純な表現に言い換える処理である。この言い換え処理においては、例えば第1〜第4の言い換え処理が行われる。
Here, the paraphrasing process described above is a process for paraphrasing the complicated expression of the abstract sentence extracted by the target
第1の言い換え処理は、名詞句の単純化である。第1の言い換え処理は、具体的には「AのB」の表現を単に「A」の表現に言い換える処理である。つまり、第1の言い換え処理においては、「AのB」の表現における「のB」の表現が省略される。 The first paraphrase process is simplification of noun phrases. Specifically, the first paraphrase process is a process in which the expression “B of A” is simply replaced with the expression “A”. In other words, in the first paraphrase process, the expression “B” in the expression “B of A” is omitted.
第2の言い換え処理は、機能動詞句の単純化である。第2の言い換え処理は、具体的には「Aを実行する」の表現を単に「Aする」の表現に言い換える処理である。 The second paraphrase process is simplification of the functional verb phrase. Specifically, the second paraphrasing process is a process of simply paraphrasing the expression “execute A” to the expression “execute A”.
第3の言い換え処理は、従属句の単純化である。第3の言い換え処理は、具体的には「AをBしたらCする」の表現を単に「AをBしてCする」の表現に言い換える処理である。 The third paraphrase process is simplification of subordinate phrases. Specifically, the third paraphrasing process is a process of simply rephrasing the expression “do A when B is A” and simply “express B as A and C”.
第4の言い換え処理は、格共有構造の単純化である。第4の言い換え処理は、具体的には「AをBしてCする」の表現を単に「AをCする」の表現に言い換える処理である。つまり、第4の言い換え処理においては、「AをBしてCする」の表現における「Bして」の表現が省略される。 The fourth paraphrase process is simplification of the case sharing structure. Specifically, the fourth paraphrasing process is a process of simply paraphrasing the expression “A to B and C” into the expression “A to C”. That is, in the fourth paraphrase process, the expression “B” is omitted in the expression “A to B and C”.
言い換え文生成部322は、上記した第1〜第4の言い換え処理により、対象文抽出部312によって抽出された要旨文の言い換え文を生成する。
The paraphrase
なお、上記した第1〜第4の言い換え処理により言い換え文が生成されるが、当該言い換え文が生成される際に当該要旨文に含まれる重要語は省略されない。換言すれば、全ての要旨文について第1〜第4の言い換え処理が全て適用されるわけではない。 In addition, although a paraphrase sentence is produced | generated by the above-mentioned 1st-4th paraphrase process, when the said paraphrase sentence is produced | generated, the important word contained in the said summary sentence is not abbreviate | omitted. In other words, not all the first to fourth paraphrasing processes are applied to all the abstract sentences.
具体的には、要旨文が例えば「AをBしてCする」である場合、上記第4の言い換え処理によれば「AをCする」の表現に言い換えられるが、「B」が重要語である場合には、第4の言い換え処理が適用されると重要語が省略されてしまうため、当該「AをBしてCする」の要旨文には第4の言い換え処理は適用されない。 Specifically, for example, when the abstract sentence is “A to B and C”, according to the above fourth paraphrasing process, it can be rephrased as “A to C”, but “B” is an important word. In such a case, since the important word is omitted when the fourth paraphrase process is applied, the fourth paraphrase process is not applied to the summary sentence “A to B and C”.
また、言い換え文生成部322による言い換え処理は、上記した第1〜第4の言い換え処理以外に例えば係り受け解析結果(構文木)に対して枝刈り等を行うことにより言い換え処理が実行されても構わない。なお、枝刈りとは、構文木から不要な表現(文字列)を取り除く処理である。
The paraphrase processing by paraphrase
ここで、図5を参照して、要旨文に含まれる重要語が1つである場合における言い換え処理の具体例について説明する。ここでは、重要語抽出部311によって抽出された重要語は「アナログ」であり、対象文抽出部312によって抽出された要旨文は「アナログの画像を入力し変換を実行する」であるものとする。
Here, with reference to FIG. 5, a specific example of the paraphrase process in the case where there is one important word included in the abstract will be described. Here, the important word extracted by the important
なお、図5においては、要旨文101及び当該要旨文101の言い換え文102〜104が上記した図4のような係り受け解析結果の形式で示されている。
In FIG. 5, the
まず、要旨文101に対して上記した第1の言い換え処理を適用すると、要旨文「アナログの画像を入力し変換を実行する」101が言い換え文「アナログを入力し変換を実行する」102に言い換えられる(ステップS11)。
First, when the first paraphrasing process described above is applied to the
次に、言い換え文102に対して上記した第2の言い換え処理を更に適用すると、当該言い換え文「アナログを入力し変換を実行する」102が言い換え文「アナログを入力し変換する」103に言い換えられる(ステップS12)。
Next, when the second paraphrase process described above is further applied to the paraphrase
この言い換え文「アナログを入力し変換する」103から言い換え文「アナログを入力する」及び「アナログを変換する」104が生成される(ステップS13)。 From this paraphrase sentence "input and convert analog" 103, paraphrase sentences "input analog" and "convert analog" 104 are generated (step S13).
このように、言い換え文生成部322は、要旨文「アナログの画像を入力し変換を実行する」101に対して言い換え処理を実行することにより、言い換え文「アナログを入力する」及び「アナログを変換する」104を生成する。この言い換え文生成部322によって生成された言い換え文「アナログを入力する」及び「アナログを変換する」104は、言い換え文格納部24に格納される。
In this way, the paraphrase
なお、図5に示す例では、言い換え文「アナログを入力し変換する」103に対して上記した第4の言い換え処理を適用することで、言い換え文「アナログを変換する」に言い換えることが考えられる。しかしながら、言い換え文「アナログを入力し変換する」103において「入力」及び「変換」は、重要語である「アナログ」に対して並列であり重みは同一であると考えられるため、一方のみを省略するような言い換え処理は行われない。 In the example shown in FIG. 5, the paraphrase sentence “convert analog” can be considered by applying the fourth paraphrase process described above to the paraphrase sentence “input and convert analog” 103. . However, in the paraphrase sentence "input and convert analog" 103, "input" and "conversion" are considered to be parallel to the important word "analog" and have the same weight, so only one is omitted. Such a paraphrase process is not performed.
また、上記したように対象抽出部312によって抽出された要旨文に対する係り受け解析部313による係り受け解析の結果によっては、当該要旨文から生成される言い換え文は1つとは限られず、上記した図5に示すように2つ以上の言い換え文が生成される場合がある。
Moreover, depending on the result of the dependency analysis by the
次に、図6を参照して、要旨文に含まれる重要語が2つである場合における言い換え処理の具体例について説明する。ここでは、重要語抽出部311によって抽出された重要語は「アナログ」及び「変換」であり、対象文抽出部312によって抽出された要旨文は「アナログの画像を入力し変換を実行する」であるものとする。つまり、図6に示す要旨文201は、上記した図5に示す要旨文101と同様である。
Next, a specific example of the paraphrasing process when there are two important words included in the abstract will be described with reference to FIG. Here, the important words extracted by the important
なお、図6においては、上記した図5と同様に、要旨文201及び当該要旨文201の言い換え文202〜204が係り受け解析結果の形式で示されている。
6, similar to FIG. 5 described above, the
まず、要旨文201に対して上記した第1の言い換え処理を適用すると、要旨文「アナログの画像を入力し変換を実行する」201が言い換え文「アナログを入力し変換を実行する」202に言い換えられる(ステップS21)。
First, when the first paraphrase process described above is applied to the
次に、言い換え文202に対して上記した第2の言い換え処理を更に適用すると、当該言い換え文「アナログを入力し変換を実行する」202が言い換え文「アナログを入力し変換する」203に言い換えられる(ステップS22)。
Next, when the second paraphrase process described above is further applied to the paraphrase
ここで、図6に示す例では、上記した要旨文に含まれる重要語が1つである場合と異なり、重要語「アナログ」に対して「入力」及び「変換」は並列であるが当該「変換」は重要語であり、当該重要語である「変換」の方が「入力」より重みが大きいと考えられるため、言い換え文203に対して上記した第4の言い換え処理が適用される。これにより、言い換え文「アナログを入力し変換する」203は言い換え文「アナログを変換する」204に言い換えられる(ステップS23)。
Here, in the example shown in FIG. 6, unlike the case where there is one important word included in the above-described abstract, “input” and “conversion” are parallel to the important word “analog”, but the “ “Conversion” is an important word, and it is considered that “import”, which is the important word, has a higher weight than “input”. Therefore, the above-described fourth paraphrase process is applied to the paraphrase
このように、言い換え文生成部322は、要旨文「アナログの画像を入力し変換を実行する」201に対して言い換え処理を実行することにより、言い換え文「アナログを変換する」204を生成する。この言い換え文生成部322によって生成された言い換え文「アナログを変換する」204は、言い換え文格納部24に格納される。
As described above, the paraphrase
なお、要旨文に重要語が3つ以上である場合には、当該重要語のうちの2つの重要語の組み合わせ毎に、上記した図6に示すような処理が実行される。 When there are three or more important words in the summary sentence, the above-described process shown in FIG. 6 is executed for each combination of two important words of the important words.
再び図3に戻ると、文書格納部22に格納されている全ての文書について上記したステップS1〜ステップS5の処理が実行されたか否かが判定される(ステップS6)。 Returning to FIG. 3 again, it is determined whether or not the processing in steps S1 to S5 described above has been executed for all documents stored in the document storage unit 22 (step S6).
文書格納部22に格納されている全ての文書について上記したステップS1〜ステップS5の処理が実行されていないと判定された場合(ステップS6のNO)、上記したステップS1に戻って処理が繰り返される。この場合、ステップS1においては、ステップS1〜ステップS5の処理が実行されていない文書が文書格納部22から取得される。
When it is determined that the processing in steps S1 to S5 described above has not been executed for all the documents stored in the document storage unit 22 (NO in step S6), the processing returns to the above step S1 and is repeated. . In this case, in step S <b> 1, a document for which the processing in steps S <b> 1 to S <b> 5 has not been executed is acquired from the
一方、文書格納部22に格納されている全ての文書についてステップS1〜ステップS5の処理が実行されたと判定された場合(ステップS6のYES)、クラスタリング部33は、言い換え文格納部24に格納されている言い換え文を分類(クラスタリング)する(ステップS7)。クラスタリング部33は、例えば言い換え文に含まれる文字列の出現頻度に基づいて文書分類を実行する。ここでは、言い換え文に含まれる文字列の出現頻度に基づいて分類処理が実行されるものとして説明したが、言い換え文の分類方法についてはここで説明した方法以外にも種々の方法が考えられる。
On the other hand, when it is determined that the processing of step S1 to step S5 has been executed for all the documents stored in the document storage unit 22 (YES in step S6), the
なお、言い換え文格納部24には、上記したように文書格納部22に格納されている文書毎に言い換え文が格納されている。
The paraphrase
つまり、クラスタリング部51は、言い換え文格納部24に格納されている言い換え文を分類することにより、文書格納部22に格納されている文書群の分類を行う。クラスタリング部33による文書格納部22に格納されている文書群の分類結果は、文書クラスタ格納部27に格納される。
That is, the
上記したように本実施形態においては、文書格納部22に格納されている文書毎に、重要語抽出部311によって抽出された重要語が含まれる要旨文を抽出する。本実施形態においては、抽出された要旨文に対して係り受け解析を実行し、重要語及び係り受け解析結果に基づいて要旨文に対して言い換え処理を行う。したがって、本実施形態においては、文書格納部22に格納されている文書毎の言い換え文を分類することにより、当該文書群の分類を行うことが可能となる。
As described above, in the present embodiment, for each document stored in the
本実施形態においては、例えば文書格納部22に格納されている文書全体に基づいて当該文書の分類を行う場合と比較して、言い換え文のみについて係り受け解析等の分類処理が実行される、つまり、当該文書において重要でない文等については分類処理が実行されないため、分類精度を向上させ、かつ、処理量を軽減することが可能となる。
In the present embodiment, for example, classification processing such as dependency analysis is performed only on a paraphrase sentence, compared to the case where the document is classified based on the entire document stored in the
[第2の実施形態]
次に、図7を参照して、本発明の第2の実施形態について説明する。図7は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
[Second Embodiment]
Next, a second embodiment of the present invention will be described with reference to FIG. FIG. 7 is a block diagram mainly showing a functional configuration of the document processing apparatus according to the present embodiment. The same parts as those in FIG. 2 described above are denoted by the same reference numerals, and detailed description thereof is omitted. Here, parts different from FIG. 2 will be mainly described.
また、本実施形態に係る文書処理装置のハードウェア構成は、前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。以下の実施形態についても同様である。 The hardware configuration of the document processing apparatus according to this embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 1 as appropriate. The same applies to the following embodiments.
本実施形態においては、言い換え文格納部24に格納された言い換え文(言い換え文生成部322によって生成された言い換え文)の文中から後述する素性の組を抽出し、当該素性の組に基づいて文書格納部22に格納されている文書毎に文書ベクトルを生成する点が、前述した第1の実施形態とは異なる。
In the present embodiment, a feature set, which will be described later, is extracted from a sentence of a paraphrase text (paraphrase text generated by the paraphrase text generation unit 322) stored in the paraphrase
図7に示すように、文書処理装置40は、テンプレート生成部41、素性抽出部42、素性出力部43及び文書ベクトル処理部44を含む。本実施形態において、これらの各部41乃至44は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
As illustrated in FIG. 7, the
また、文書処理装置40は、素性格納部26及び文書ベクトル格納部27を含む。本実施形態において、素性格納部26及び文書ベクトル格納部27は、例えば外部記憶装置20に格納される。
The
テンプレート生成部41は、重要語抽出部311によって抽出された重要語及び係り受け解析部313による要旨文の係り受け解析結果に基づいて、当該重要語から構成されるテンプレートを生成する。テンプレート生成部41によって生成されるテンプレートのデータ構造の詳細については後述する。
The
素性抽出部42は、言い換え文格納部24に格納された言い換え文(言い換え文生成部322によって生成された言い換え文)の文中から素性の組を抽出する。素性抽出部42は、言い換え文格納部24に格納された言い換え文に対し、テンプレート生成部41によって生成されたテンプレートをマッチングさせる。これにより、素性抽出部42は、言い換え文格納部24に格納された言い換え文に含まれる重要語を含む素性の組を当該言い換え文から抽出する。素性抽出部42は、抽出された素性の組を素性格納部26に格納する。
The
素性抽出部42によって抽出される素性の組には、例えば「目的語」及び「動詞」の組または「目的語」、「道具格」及び「動詞」の組等が含まれる。
The feature set extracted by the
素性出力部43は、素性抽出部42によって抽出された素性の組をユーザに出力(表示)する。
The
文書ベクトル処理部44は、文書ベクトル成分値算出部441及び文書ベクトル生成部442を含む。
The document
文書ベクトル成分値算出部441は、文書格納部22に格納されている文書毎に、文書ベクトル成分値を算出する。文書ベクトル成分値算出部441は、文書格納部22に格納されている文書から抽出された要旨文(対象文抽出部312によって抽出された要旨文)における素性格納部26に格納されている各素性の組の出現頻度に基づいて文書ベクトル成分値を算出する。文書ベクトル成分値算出部441は、1つの文書につき、素性格納部26に格納されている素性の組の数の文書ベクトル成分値を算出する。
The document vector component
なお、文書ベクトル成分値は、例えば相互情報量のような単語の重み算出方法を用いて算出されてもよい。 The document vector component value may be calculated using a word weight calculation method such as a mutual information amount.
文書ベクトル生成部442は、文書ベクトル成分値算出部441によって算出された文書ベクトル成分値に基づいて、文書格納部22に格納されている文書毎に文書ベクトルを生成する。
The document
文書ベクトル生成部442は、文書格納部22に格納されている文書毎に生成された文書ベクトルを、文書ベクトル格納部27に格納する。この文書ベクトルは、例えば文書格納部22に格納されている文書(群)を分類する際に用いられる。
The document
次に、図8のフローチャートを参照して、本実施形態に係る文書処理装置40の処理手順について説明する。
Next, a processing procedure of the
まず、前述した図3に示すステップS1〜ステップS5の処理に相当するステップS31〜ステップS35の処理が実行される。なお、ステップS35において生成された言い換え文は、前述したように言い換え文格納部24に格納される。
First, the process of step S31-step S35 equivalent to the process of step S1-step S5 shown in FIG. 3 mentioned above is performed. The paraphrase text generated in step S35 is stored in the paraphrase
次に、テンプレート生成部41は、重要語抽出部311によって抽出された重要語及び係り受け解析部313による係り受け解析結果に基づいて、当該重要語から構成されるテンプレートを生成する(ステップS36)。
Next, the
ここで、図9は、例えば重要語抽出部311によって抽出された重要語が「アナログ」である場合にテンプレート生成部41によって生成されるテンプレートの一例を示す。テンプレート生成部41は、係り受け解析部313による係り受け解析結果により、重要語「アナログ」の品詞(ここでは、名詞)を取得する。これにより、テンプレート生成部41は、図9に示すように重要語「アナログ」を「目的語」とするテンプレート301を生成する。
Here, FIG. 9 shows an example of a template generated by the
また、図10は、例えば重要語抽出部311によって抽出された重要語が「アナログ」及び「変換」である場合にテンプレート生成部41によって生成されるテンプレートの一例を示す。テンプレート生成部41は、係り受け解析部313による係り受け解析結果により、重要語「アナログ」及び「変換」の品詞(ここでは、名詞及び動詞)を取得する。これにより、テンプレート生成部41は、図10に示すように重要語「アナログ」を「目的語」、重要語「変換」を「動詞」とするテンプレート302を生成する。
FIG. 10 shows an example of a template generated by the
なお、重要語抽出部311によって抽出された重要語が3つ以上である場合には、当該重要語の中から例えば名詞及び動詞の組がテンプレートとして生成される。また、重要語抽出部311によって抽出された重要語が2つである場合であっても、当該2つの重要語がともに名詞である場合には、それぞれの重要語について上記した図9で説明したようなテンプレート(当該重要語を「目的語」とするテンプレート)が生成される。つまり、重要語抽出部311によって抽出された重要語に応じて、複数のテンプレートが生成される場合がある。
When there are three or more important words extracted by the important
再び図8に戻ると、素性抽出部42は、テンプレート生成部41によって生成されたテンプレートを用いて、言い換え文格納部24に格納された言い換え文の文中から重要語または文字列(素性)から構成される組(素性の組)を抽出する(ステップS37)。素性抽出部42は、言い換え文格納部24に格納された言い換え文に対して、テンプレート生成部41によって生成されたテンプレートをマッチングさせることにより、素性の組を抽出する。素性の組とは、例えば「目的語」及び「動詞」から構成される。
Returning again to FIG. 8, the
なお、言い換え文、重要語及びテンプレートによっては、上記した「目的語」、「道具格」及び「動詞」から構成される素性の組が抽出される場合もある。また、上記したように複数のテンプレートが生成された場合には、当該テンプレート毎に素性の組の抽出処理が実行される。 Depending on the paraphrase text, the key word, and the template, a feature set composed of the above-mentioned “object”, “tool case”, and “verb” may be extracted. In addition, when a plurality of templates are generated as described above, feature set extraction processing is executed for each template.
素性抽出部42によって抽出された素性の組は、素性格納部26に格納される。このとき、素性格納部26においては、例えば異なる言い換え文から抽出された同一の素性の組は1つの素性の組として扱われる。
The feature set extracted by the
また、素性出力部43は、素性抽出部42によって抽出された素性の組を例えばユーザに対して出力(表示)する。これにより、ユーザは、素性抽出部42によって抽出された素性の組、つまり、素性の組に含まれる表現(文字列)を確認することができる。
The
ここで、素性抽出部42による素性の組の抽出処理について具体的に説明する。例えば重要語が「アナログ」の1つであり、当該重要語「アナログ」のテンプレートは上記した図9に示すテンプレート301であり、言い換え文格納部24に格納された言い換え文は、前述した図5において説明したように「アナログを入力する」及び「アナログを変換する」104であるものとする。この場合には、言い換え文「アナログを入力する」及び「アナログを変換する」104において重要語「アナログ」は目的語として用いられているため、素性抽出部42は、「目的語」及び「動詞」から構成される(アナログ,入力)及び(アナログ,変換)の素性の組を抽出する。
Here, the feature set extraction processing by the
一方、重要語が「アナログ」及び「変換」の2つであり、当該重要語「アナログ」及び「変換」のテンプレートは上記した図10に示すテンプレート302であり、言い換え文格納部24に格納された言い換え文は、前述した図6において説明したように「アナログを変換する」204であるものとする。この場合には、言い換え文「アナログを変換する」204において重要語「アナログ」は目的語として用いられており、重要語「変換」は動詞として用いられているため、この言い換え文は図10に示すテンプレート302にマッチする。このため、素性抽出部42は、「目的語」及び「動詞」から構成される(アナログ,変換)の素性の組を抽出する。
On the other hand, there are two important words “analog” and “conversion”, and the templates of the important words “analog” and “conversion” are the
ここでは、重要語が1つ及び2つの場合において言い換え文がテンプレートにマッチする場合について説明したが、以下、図11を参照して、言い換え文がテンプレートにマッチしない場合に抽出される素性の組について説明する。 Here, the case where the paraphrase text matches the template in the case where the number of important words is one or two has been described. However, referring to FIG. 11, a set of features extracted when the paraphrase text does not match the template is described below. Will be described.
例えば重要語が「アナログ」及び「変換」の2つであり、当該重要語「アナログ」及び「変換」のテンプレートは上記した図10に示すテンプレート302であるものとする。
For example, there are two important words “analog” and “conversion”, and the templates of the important words “analog” and “conversion” are the
また、対象文抽出部312によって抽出された要旨文は、「文字を音声に変換しアナログで出力する」であるものとする。
Further, the abstract sentence extracted by the target
なお、図11においては、要旨文「文字を音声に変換しアナログで出力する」402が係り受け解析結果の形式で示されている。 In FIG. 11, a summary sentence “convert characters into speech and output in analog” 402 is shown in the form of dependency analysis results.
図11に示すように、この要旨文402を例えば枝刈りすることにより、要旨文「文字を音声に変換しアナログで出力する」401が言い換え文「変換しアナログで出力する」402に言い換えられたものとする。つまり、言い換え文「変換しアナログで出力する」402が、言い換え文生成部322によって生成されたものとする。
As shown in FIG. 11, by benefit of this
この場合、言い換え文「変換しアナログで出力する」402において重要語「変換」は動詞として用いられているが、重要語「アナログ」は目的語として用いられていないため、当該言い換え文402は、図10に示すテンプレート302にマッチしない。
In this case, in the paraphrase sentence “convert and output in analog” 402, the important word “conversion” is used as a verb, but since the important word “analog” is not used as an object, the paraphrase
この場合、素性抽出部42は、重要語「アナログ」及び「変換」を素性の組とする。つまり、素性抽出部42は、素性の組として例えば(変換,アナログ)及び(アナログ,変換)を抽出する。この場合には、上記したテンプレートにマッチする場合と異なり、「目的語」及び「動詞」が考慮されていない素性の組が抽出されることになる。
In this case, the
上記したように、対象文抽出部312によって抽出された要旨文によっては、言い換え文生成部322によって生成された言い換え文とテンプレート生成部41によって生成されたテンプレートがマッチせず、「目的語」及び「動詞」が考慮されていない素性の組が抽出される。
As described above, depending on the abstract sentence extracted by the target
なお、言い換え文に含まれる重要語が1つである場合に当該言い換え文がテンプレートにマッチしない場合には、重要語を素性の組にすることができないため、素性の組は抽出されない。 Note that if the paraphrase text includes one important word and the paraphrase text does not match the template, the key word cannot be made into a feature set, and the feature set is not extracted.
再び図8に戻ると、文書格納部22に格納されている全ての文書について上記したステップS31〜ステップS37の処理が実行されたか否かが判定される(ステップS38)。 Returning to FIG. 8 again, it is determined whether or not the processing in steps S31 to S37 described above has been executed for all the documents stored in the document storage unit 22 (step S38).
文書格納部22に格納されている全ての文書について上記したステップS31〜ステップS37の処理が実行されていないと判定された場合(ステップS38のNO)、上記したステップS1に戻って処理が繰り返される。この場合、ステップS31においては、ステップS31〜ステップS37の処理が実行されていない文書が文書格納部22から取得される。
If it is determined that the processing in steps S31 to S37 described above has not been executed for all the documents stored in the document storage unit 22 (NO in step S38), the processing returns to the above step S1 and is repeated. . In this case, in step S31, a document for which the processing in steps S31 to S37 has not been executed is acquired from the
一方、文書格納部22に格納されている全ての文書についてステップS31〜ステップS37の処理が実行されたと判定された場合(ステップS38のYES)、文書ベクトル処理部44に含まれる文書ベクトル成分値算出部441は、文書格納部22に格納されている文書の1つを、当該文書格納部22から取得する(ステップS39)。以下、文書ベクトル成分値算出部441によって取得された文書を対象文書と称する。
On the other hand, when it is determined that the processing in steps S31 to S37 has been executed for all the documents stored in the document storage unit 22 (YES in step S38), the document vector component value included in the document
次に、文書ベクトル成分値算出部441は、対象文書の文書ベクトル成分値を、当該対象文書から抽出された要旨文及び素性格納部26に格納されている素性の組に基づいて算出する(ステップS40)。文書ベクトル成分値算出部441は、対象文書から抽出された要旨文における当該素性の組の出現頻度を示す文書ベクトル成分値を、素性格納部26に格納されている素性の組毎に算出する。つまり、文書ベクトル成分値算出部441は、1つの対象文書について、素性格納部26に格納されている素性の組毎の文書ベクトル成分値を算出する。
Next, the document vector component
対象文書から抽出された要旨文において素性の組が出現するとは、当該要旨文において素性の組の例えば「目的語」及び「動詞」の組が出現することを言う。具体的には、例えば素性の組が(アナログ,入力)である場合を想定すると、対象文書から抽出された要旨文中において「アナログ」が目的語として、「入力」が動詞として用いられている場合には、当該要旨文におけるこの素性の組の出現頻度は例えば1となる。なお、1つの要旨文においてこの素性の組が2回以上出現する場合には、出現頻度の値は大きくなる。 A feature set appears in a summary sentence extracted from a target document means that a feature set, for example, a “object” and “verb” set appears in the summary sentence. Specifically, for example, assuming that the feature set is (analog, input), when “analog” is used as the object and “input” is used as the verb in the abstract extracted from the target document The appearance frequency of this feature set in the summary sentence is, for example, 1. In addition, when this feature group appears twice or more in one summary sentence, the value of the appearance frequency becomes large.
ここでは、文書ベクトル成分値算出部441が対象文書の要旨文における素性の組の出現頻度を文書ベクトル成分値として算出するものとして説明したが、上記したように例えば相互情報量のような単語の重み算出方法を用いて文書ベクトル成分値を算出する構成であっても構わない。相互情報量とは、文書中に出現する2つの単語が同時に出現する度合い等により、当該単語間の関連度を表す量である。
Here, the document vector component
文書ベクトル生成部442は、対象文書の文書ベクトルを、当該文書ベクトル成分値算出部441によって算出された文書ベクトル成分値に基づいて生成する(ステップS41)。
The document
文書ベクトル生成部441は、生成された文書ベクトルを文書ベクトル格納部27に格納する。この文書ベクトル格納部27に格納された文書ベクトルは、例えば文書格納部22に格納されている複数の文書を分類する際に用いられる。
The document
例えば素性の組(アナログ、入力)及び(アナログ、変換)が素性格納部26に格納されている場合を想定する。この場合、対象文書から抽出された要旨文中における素性の組(アナログ、入力)の出現頻度が1、素性の組(アナログ、変換)の出現頻度が0であれば、対象文書dの文書ベクトルは、d(1,0)となる。
For example, it is assumed that a feature set (analog, input) and (analog, conversion) are stored in the
なお、この文書ベクトルd(1,0)の1は、対象文書における素性の組(アナログ,入力)の文書ベクトル成分値である。同様に、文書ベクトルd(1,0)の0は、対象文書における素性の組(アナログ,変換)の文書ベクトル成分値である。 Note that 1 in the document vector d (1, 0) is a document vector component value of a feature set (analog, input) in the target document. Similarly, 0 in the document vector d (1, 0) is a document vector component value of a feature set (analog, conversion) in the target document.
上記したように、文書ベクトルは、素性の組毎に算出された文書ベクトル成分値を組み合わせることによって生成される。 As described above, the document vector is generated by combining the document vector component values calculated for each feature set.
上記したようにステップS41の処理が実行されると、文書格納部22に格納されている全ての文書について上記したステップS39〜ステップS41の処理が実行されたか否かが判定される(ステップS42)。 When the process of step S41 is executed as described above, it is determined whether or not the processes of step S39 to step S41 described above have been executed for all the documents stored in the document storage unit 22 (step S42). .
文書格納部22に格納されている全ての文書について上記したステップS39〜ステップS41の処理が実行されていないと判定された場合(ステップS42のNO)、上記したステップS39に戻って処理が繰り返される。この場合、ステップS39においては、ステップS39〜ステップS41の処理が実行されていない文書が文書格納部22から取得される。
If it is determined that the processes in steps S39 to S41 described above have not been executed for all the documents stored in the document storage unit 22 (NO in step S42), the process returns to the above step S39 and is repeated. . In this case, in step S39, a document for which the processes in steps S39 to S41 are not executed is acquired from the
一方、文書格納部22に格納されている全ての文書についてステップS39〜ステップS41の処理が実行されたと判定された場合(ステップS42NOYES)、処理は終了される。 On the other hand, when it is determined that the processes in steps S39 to S41 have been executed for all the documents stored in the document storage unit 22 (NO in step S42), the process ends.
上記したように、文書格納部22に格納されている全ての文書から抽出された素性の組の数(異なり数)を次元数とするベクトルを文書ベクトルとし、当該文書毎に文書ベクトルの値を算出することにより当該各文書に対応する文書ベクトルが生成される。 As described above, a vector whose dimension is the number of feature pairs extracted from all the documents stored in the document storage unit 22 (different number) is a document vector, and the value of the document vector is set for each document. By calculating, a document vector corresponding to each document is generated.
上記したように本実施形態においては、文書格納部22に格納されている文書毎に、重要語抽出部311によって抽出された重要語が含まれる要旨文を抽出する。本実施形態においては、抽出された要旨文に対して係り受け解析を実行し、重要語及び係り受け解析結果に基づいて要旨文に対して言い換え処理を行うことにより、文書分類に対して適切な素性の組の抽出が可能となる。したがって、本実施形態においては、文書分類において適切な素性の組に基づいて文書ベクトルを生成することができるため、当該文書ベクトルを用いて行われる文書分類の精度を向上させることができる。
As described above, in the present embodiment, for each document stored in the
また、本実施形態においては、抽出された要旨文に対してのみ係り受け解析を実行するため、無駄な係り受け解析処理を削減することができる。また、本実施形態においては、抽出された素性の組数を文書ベクトルの次元数とすることで、文書分類精度を低下させることなく当該文書ベクトルの次元数を削減することができるため、文書分類処理の高速化を図ることができる。 Further, in the present embodiment, since dependency analysis is performed only on the extracted summary sentence, useless dependency analysis processing can be reduced. In the present embodiment, the number of feature sets extracted is used as the number of dimensions of the document vector, so that the number of dimensions of the document vector can be reduced without reducing the document classification accuracy. Processing speed can be increased.
[第3の実施形態]
次に、図12を参照して、本発明の第3の実施形態について説明する。図12は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図2及び図7と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2及び図7と異なる部分について主に述べる。
[Third Embodiment]
Next, a third embodiment of the present invention will be described with reference to FIG. FIG. 12 is a block diagram mainly showing a functional configuration of the document processing apparatus according to the present embodiment. The same parts as those in FIGS. 2 and 7 described above are denoted by the same reference numerals, and detailed description thereof is omitted. Here, parts different from FIGS. 2 and 7 will be mainly described.
本実施形態においては、文書ベクトル格納部27に格納された文書ベクトルを用いて文書格納部22に格納されている文書(群)を文書分類(クラスタリング)する点が、前述した第1及び第2の実施形態とは異なる。
In the present embodiment, the document classification (clustering) of the document (group) stored in the
図12に示すように、文書処理装置50は、文書分類処理部51を含む。本実施形態において、文書分類処理部51は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
As shown in FIG. 12, the
文書分類処理部51は、類似度算出部511及びクラスタリング部512を含む。類似度算出部511は、文書ベクトル格納部27に格納されている文書ベクトルを用いて、当該文書ベクトル間の類似度を算出する。
The document
クラスタリング部512は、類似度算出部511によって算出された類似度(の値)に基づいて、文書格納部22に格納されている文書群のクラスタリング(文書群の分類)を行う。
The
クラスタリング部512は、文書格納部22に格納されている文書群の分類結果を文書クラスタ格納部25に格納する。
The
次に、図13に示すフローチャートを参照して、本実施形態に係る文書処理装置50の処理手順について説明する。
Next, a processing procedure of the
まず、前述した図8に示すステップS31〜ステップS42の処理に相当するステップS51〜ステップS62の処理が実行される。なお、ステップS61において生成された文書ベクトルは、前述したように文書ベクトル格納部27に格納される。
First, the process of step S51-step S62 equivalent to the process of step S31-step S42 shown in FIG. 8 mentioned above is performed. The document vector generated in step S61 is stored in the document
次に、文書分類処理部51に含まれる類似度算出部511は、文書ベクトル格納部27に格納された文書毎の文書ベクトルに基づいて、当該文書ベクトル間の類似度を算出する(ステップS63)。類似度算出部511は、文書ベクトルにおける各素性の組毎の文書ベクトル成分値に基づいて、文書ベクトル間の類似度を算出する。
Next, the
クラスタリング部512は、類似度算出部511によって算出された類似度に基づいて文書格納部22に格納されている文書群のクラスタリング処理(分類処理)を実行する(ステップS64)。
The
クラスタリング部512は、類似度算出部511によって算出された文書間の類似度の値が近い(似ている)文書同士を集めることにより、文書格納部22に格納されている文書群をクラスタリング(分類)する。
The
クラスタリング部512は、文書格納部22に格納されている文書群の分類結果を、文書クラスタ格納部25に格納する。
The
上記したように本実施形態においては、前述した第2の実施形態と同様に、文書分類において適切な素性の組に基づいて文書ベクトルを生成することができ、かつ、当該文書ベクトルを用いて文書格納部22に格納されている文書群の分類処理を実行することができる。したがって、本実施形態においては、文書格納部22に格納されている文書群の分類精度を向上させることが可能となる。
As described above, in this embodiment, similarly to the second embodiment described above, a document vector can be generated based on an appropriate feature set in document classification, and a document can be generated using the document vector. The classification process of the document group stored in the
なお、本実施形態においては、図13に示すステップS62において全ての文書について処理が実行されたと判定された場合にステップS63の処理が実行されるものとして説明したが、ステップS62において全ての文書について処理が実行されたと判定された場合、つまり、文書格納部22に格納されている全ての文書について文書ベクトルが生成された後、ユーザの指示があった場合にステップS63の処理が実行される構成であっても構わない。換言すれば、前述した第2の実施形態で説明した文書ベクトルの生成処理と、当該文書ベクトルを用いて行われる文書群の分類処理が別々に実行されてもよい。
In the present embodiment, it has been described that the process of step S63 is executed when it is determined that the process has been executed for all the documents in step S62 shown in FIG. 13, but for all the documents in step S62. When it is determined that the process has been executed, that is, after the document vectors are generated for all the documents stored in the
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。 Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
10…コンピュータ、20…外部記憶装置、22…文書格納部、23…類義句辞書格納部、24…言い換え文格納部、25…文書クラスタ格納部、26…素性格納部、27…文書ベクトル格納部、30,40,50…文書処理装置、31…要旨文特定部、32…言い換え処理部、33…クラスタリング部、41…テンプレート生成部、42…素性抽出部、43…素性出力部、44…文書ベクトル処理部、51…文書分類処理部、311…重用語抽出部、312…対象文抽出部、313…係り受け解析部、321…個数判定部、322…言い換え文生成部、441…文書ベクトル成分値算出部、442…文書ベクトル生成部、511…類似度算出部、512…クラスタリング部。
DESCRIPTION OF
Claims (4)
前記コンピュータに、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、
前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、
前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、
前記抽出された要旨文に含まれる重要語及び前記解析結果に基づいて、当該要旨文に含まれる重要語以外の表現を単純化することにより、当該重要語を含む当該要旨文の言い換え文を生成するステップと、
前記生成された言い換え文に含まれる重要語を含む複数の文字列から構成される素性の組を、当該言い換え文から抽出するステップと、
前記抽出された素性の組を、前記素性格納手段に格納するステップと、
前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の組の出現頻度に基づいて文書ベクトル成分値を算出するステップと、
前記算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成するステップと、
前記抽出された重要語及び前記解析結果に基づいて、当該重要語を目的語または動詞とするテンプレートを生成するステップと
を実行させ、
前記素性の組を抽出するステップにおいて、前記生成された言い換え文に対し、前記生成されたテンプレートをマッチングさせることにより前記素性の組を抽出する
ことを特徴とする文書処理プログラム。 Executed by a computer in a document processing apparatus comprising a document storage means for storing a plurality of documents including sentences including character strings, an external storage device having a feature storage means, and a computer using the external storage device A document processing program,
In the computer,
For each document stored in the document storage means, based on the appearance frequency of the character string in the document, extracting a character string that is important in the document as an important word;
Extracting the sentence including the extracted important word from the document from which the important word is extracted as a summary sentence;
Analyzing a dependency between character strings included in the extracted summary sentence;
Based on the important words contained in the extracted summary sentences and the analysis results, the expression other than the important words contained in the summary sentences is simplified to generate a paraphrase text of the summary sentences including the important words. And steps to
Extracting a feature set composed of a plurality of character strings including important words included in the generated paraphrase text from the paraphrase text;
Storing the extracted feature sets in the feature storage means;
For each document stored in the document storage means, calculating a document vector component value based on the appearance frequency of the feature set stored in the feature storage means in the summary sentence extracted from the document;
Generating a document vector for each document stored in the document storage means based on the calculated document vector component value ;
Generating a template based on the extracted important word and the analysis result, and using the important word as an object or a verb ,
In the step of extracting the feature set, the feature set is extracted by matching the generated template with the generated paraphrase sentence.
A document processing program characterized by that .
前記生成された前記文書格納手段に格納されている文書毎の文書ベクトルに基づいて、当該文書ベクトル間の類似度を算出するステップと、
前記算出された類似度に基づいて、前記文書格納手段に格納されている複数の文書を分類するステップと
を更に実行させることを特徴とする請求項1記載の文書処理プログラム。 In the computer,
Calculating a similarity between the document vectors based on the document vectors for each document stored in the generated document storage means;
The document processing program according to claim 1, further comprising: classifying a plurality of documents stored in the document storage unit based on the calculated similarity.
前記コンピュータに、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、
前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、
前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、
前記抽出された要旨文に含まれる前記抽出された重要語及び前記解析結果に基づいて、当該要旨文に含まれる重要語以外の表現を単純化することにより、当該重要語が抽出された文書に対応する言い換え文を生成するステップと、
前記生成された言い換え文を、前記言い換え文格納手段に格納するステップと、
前記言い換え文格納手段に格納された言い換え文に含まれる文字列に基づいて、当該言い換え文を分類するステップと、
前記言い換え文の分類結果に基づいて、当該言い換え文に対応する前記文書格納手段に格納されている文書を分類するステップと
を実行させるための文書処理プログラム。 In a document processing apparatus comprising a document storage means for storing a plurality of documents composed of sentences including character strings and a paraphrase text storage means, and a computer using the external storage apparatus, the document processing apparatus is executed by the computer. A document processing program,
In the computer,
For each document stored in the document storage means, based on the appearance frequency of the character string in the document, extracting a character string that is important in the document as an important word;
Extracting the sentence including the extracted important word from the document from which the important word is extracted as a summary sentence;
Analyzing a dependency between character strings included in the extracted summary sentence;
Based on the extracted important words included in the extracted summary sentence and the analysis result, by simplifying the expression other than the important words included in the summary sentence , the document in which the important words are extracted Generating a corresponding paraphrase text;
Storing the generated paraphrase text in the paraphrase text storage means;
Classifying the paraphrase text based on a character string included in the paraphrase text stored in the paraphrase text storage means;
Classifying a document stored in the document storage unit corresponding to the paraphrase text based on a classification result of the paraphrase text.
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出する重要語抽出手段と、
前記重要語抽出手段によって抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出する要旨文抽出手段と、
前記要旨文抽出手段によって抽出された要旨文に含まれる文字列間の係り受けを解析する解析手段と、
前記要旨文抽出手段によって抽出された要旨文に含まれる重要語及び前記解析手段による解析結果に基づいて、当該要旨文に含まれる重要語以外の表現を単純化することにより、当該重要語を含む当該要旨文の言い換え文を生成する言い換え文生成手段と、
前記言い換え文生成手段によって生成された言い換え文に含まれる重要語を含む複数の文字列から構成される素性の組を、当該言い換え文から抽出する素性抽出手段と、
前記素性抽出手段によって抽出された素性の組を格納する素性格納手段と、
前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の出現頻度に基づいて文書ベクトル成分値を算出する算出手段と、
前記算出手段によって算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成する文書ベクトル生成手段と、
前記抽出された重要語及び前記解析結果に基づいて、当該重要語を目的語または動詞とするテンプレートを生成するステップと
を具備し、
前記素性抽出手段は、前記生成された言い換え文に対し、前記生成されたテンプレートをマッチングさせることにより前記素性の組を抽出する
ことを特徴とする文書処理装置。 Document storage means for storing a plurality of documents consisting of sentences including character strings;
For each document stored in the document storage means, based on the appearance frequency of the character string in the document, an important word extraction means for extracting a character string that is important in the document as an important word;
A summary sentence extracting means for extracting a sentence including the important word extracted by the important word extracting means as a summary sentence from the document from which the important word is extracted;
Analyzing means for analyzing a dependency between character strings included in the abstract sentence extracted by the abstract sentence extracting means;
Based on the important words included in the abstract sentence extracted by the abstract sentence extraction means and the analysis result by the analysis means , the expression other than the important words included in the abstract sentence is simplified to include the important words. Paraphrase text generating means for generating a paraphrase text of the summary text ;
A feature extraction unit that extracts a set of features composed of a plurality of character strings including important words included in the paraphrase text generated by the paraphrase text generation unit, from the paraphrase text;
Feature storage means for storing a set of features extracted by the feature extraction means;
For each document stored in the document storage unit, a calculation unit that calculates a document vector component value based on the appearance frequency of the feature stored in the feature storage unit in the summary sentence extracted from the document;
Document vector generation means for generating a document vector for each document stored in the document storage means based on the document vector component value calculated by the calculation means ;
Generating a template with the important word as an object or a verb based on the extracted important word and the analysis result ,
The feature extraction unit extracts the feature set by matching the generated template with the generated paraphrase sentence.
A document processing apparatus characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009001851A JP4940251B2 (en) | 2009-01-07 | 2009-01-07 | Document processing program and document processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009001851A JP4940251B2 (en) | 2009-01-07 | 2009-01-07 | Document processing program and document processing apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010160645A JP2010160645A (en) | 2010-07-22 |
JP4940251B2 true JP4940251B2 (en) | 2012-05-30 |
Family
ID=42577764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009001851A Expired - Fee Related JP4940251B2 (en) | 2009-01-07 | 2009-01-07 | Document processing program and document processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4940251B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016180849A (en) * | 2015-03-24 | 2016-10-13 | 日本電信電話株式会社 | Learning data generation unit, language model learning unit, learning data generation method and program |
CN112541344A (en) * | 2019-09-23 | 2021-03-23 | 北京国双科技有限公司 | Method and device for determining target paragraph, storage medium and equipment |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH083815B2 (en) * | 1985-10-25 | 1996-01-17 | 株式会社日立製作所 | Natural language co-occurrence relation dictionary maintenance method |
JP4142881B2 (en) * | 2002-03-07 | 2008-09-03 | 富士通株式会社 | Document similarity calculation device, clustering device, and document extraction device |
JP2008040985A (en) * | 2006-08-09 | 2008-02-21 | Fuji Xerox Co Ltd | Document information extracting device |
-
2009
- 2009-01-07 JP JP2009001851A patent/JP4940251B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010160645A (en) | 2010-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5403696B2 (en) | Language model generation apparatus, method and program thereof | |
JP6955963B2 (en) | Search device, similarity calculation method, and program | |
JP5625827B2 (en) | Morphological analyzer, speech synthesizer, morphological analysis method, and morphological analysis program | |
WO2016143449A1 (en) | Entailment pair expansion device, computer program therefor, and question-answering system | |
WO2012079257A1 (en) | Method and device for machine translation | |
JP7041355B2 (en) | Technical name / service name generator and its method | |
JP4940251B2 (en) | Document processing program and document processing apparatus | |
JP2011227749A (en) | Abbreviation and full-length word restoration device and method thereof, and program | |
JP4361299B2 (en) | Evaluation expression extraction apparatus, program, and storage medium | |
JP5722375B2 (en) | End-of-sentence expression conversion apparatus, method, and program | |
JP6067616B2 (en) | Utterance generation method learning device, utterance generation method selection device, utterance generation method learning method, utterance generation method selection method, program | |
JP2007072610A (en) | Information processing method, apparatus and program | |
JP4478042B2 (en) | Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device | |
JP5506482B2 (en) | Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program | |
JP5528376B2 (en) | Document simplifying apparatus and program | |
JP6309852B2 (en) | Enhanced position prediction apparatus, enhanced position prediction method, and program | |
WO2022181399A1 (en) | Method for generating emotional expression phrase dictionary, method for analyzing emotion in sentences, emotional expression phrase dictionary, program, and system | |
JP4049141B2 (en) | Document processing apparatus, document processing method, and document processing program | |
JP2010117832A (en) | Related information extraction device, related information extraction method, program, and recording medium | |
JP6573839B2 (en) | Sentence generating apparatus, method, and program | |
JP6476638B2 (en) | Specific term candidate extraction device, specific term candidate extraction method, and specific term candidate extraction program | |
JP6569543B2 (en) | Abbreviated sentence generation apparatus, method and program. | |
JP4026480B2 (en) | Representative determination device for syntax analysis results and representative determination device for semantic analysis results | |
JP5116580B2 (en) | Other language concept vector generation apparatus and method, program, and computer-readable recording medium | |
Liang et al. | Semantic information and derivation rules for robust dialogue act detection in a spoken dialogue system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120227 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4940251 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |