JP2006293616A - Document aggregating method, and device and program - Google Patents

Document aggregating method, and device and program Download PDF

Info

Publication number
JP2006293616A
JP2006293616A JP2005112279A JP2005112279A JP2006293616A JP 2006293616 A JP2006293616 A JP 2006293616A JP 2005112279 A JP2005112279 A JP 2005112279A JP 2005112279 A JP2005112279 A JP 2005112279A JP 2006293616 A JP2006293616 A JP 2006293616A
Authority
JP
Japan
Prior art keywords
keyword
document
documents
general
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005112279A
Other languages
Japanese (ja)
Other versions
JP4525433B2 (en
Inventor
Yoshihide Sato
吉秀 佐藤
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005112279A priority Critical patent/JP4525433B2/en
Publication of JP2006293616A publication Critical patent/JP2006293616A/en
Application granted granted Critical
Publication of JP4525433B2 publication Critical patent/JP4525433B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To aggregate documents which deal with the same subject of the input documents and to multiply classify the documents respectively into groups of contained topics even when the documents describing the plurality of topics. <P>SOLUTION: Keywords for subsequent processing are limited by acquiring general words from an input document, choosing keyword candidates from the words according to conditions, such as proper nouns, and obtaining occurrence frequencies of the keyword candidates. Peripheral general words for each of the limited keywords are collected and summed up and the number of occurrence of the general words for each keyword is found, and if the number of occurrence is a predetermined number or more, an aggregation of documents is clustered as having topics with common keywords. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、文書集約方法及び装置及びプログラムに係り、多数の文書の中から同一の題材を扱った文書を取得し、取得した文書群を代表する中心的なキーワードも同時に獲得する技術において、特に、日記や感想などの砕けた文体の文書を対象とする文書集約方法及び装置及びプログラムに関する。   The present invention relates to a document aggregation method, apparatus, and program, and more particularly to a technique for acquiring a document that deals with the same subject from a large number of documents and simultaneously acquiring a central keyword representing the acquired document group. The present invention relates to a document aggregation method, apparatus, and program for documents of broken style such as diaries and impressions.

内容が類似する文書を集約する代表的手法には、クラスタリングがある。例えば、分類対象の要素をベクトルで表現し、ベクトル間の距離が小さい要素同士を同一クラスタに集約するクラスタリング手法の一つであり、広く利用されている。文書の分類に適用する場合は、各単語をTF−IDF(Term Frequency & Inverse Document Frequency)などで重み付けした文書ベクトルを用いる(例えば、非特許文献1参照)。   Clustering is a typical method for collecting documents with similar contents. For example, this is one of the clustering methods for expressing elements to be classified as vectors and aggregating elements having a small distance between vectors into the same cluster, and is widely used. When applied to document classification, a document vector obtained by weighting each word with TF-IDF (Term Frequency & Inverse Document Frequency) or the like is used (for example, see Non-Patent Document 1).

また、単語の重み付けを改良し、特に重要度の高い単語を強調した文書ベクトルを用いてクラスタリング精度を高める手法も提案されている。
尾上守夫監訳「パターン識別」新技術コミュニケーションズpp.528−529
In addition, a technique has been proposed in which word weighting is improved and clustering accuracy is increased by using a document vector in which words having particularly high importance are emphasized.
Translated by Morio Onoe "Pattern Identification" New Technology Communications pp. 528−529

既存の文書分類技術は、ニュース記事や論文などの比較的文体の整った文章に対してはある程度の高い精度が期待できる。しかし、個人の日記や感想のような文書は、文体の揺れや文書の長短の違いがあるばかりではなく、口語や方言が含まれる場合もある。また、ある映画の感想や、あるスポーツ選手の大記録達成を喜ぶ文書など個人の主観が含まれる文書では、同一の話題を扱った文書であっても、記述する人間が異なれば観点が異なるため、文の構成や用いられる単語の特徴などは様々である場合が多い。   Existing document classification techniques can be expected to have a certain level of accuracy for relatively well-written sentences such as news articles and papers. However, documents such as personal diaries and impressions not only have stylistic fluctuations and differences in document length, but may also include spoken language and dialects. Also, in the case of a document that includes individual subjectivity, such as an impression of a movie or a document that pleases a large record of a certain athlete, even if the document deals with the same topic, the viewpoint differs depending on the person who describes it. Often, the composition of the sentence and the characteristics of the words used vary.

これに加え、従来技術では、1文書内に複数の題材が記述された文書に対しても1つの文書ベクトルを与えて分類処理を行うため、含まれる話題の数によっては文書ベクトルが曖昧になり、分類精度が下がることもある。   In addition, according to the conventional technology, a single document vector is given to a document in which multiple subjects are described in one document, and classification processing is performed. Therefore, the document vector may become ambiguous depending on the number of topics included. Classification accuracy may be reduced.

以上の理由により、特に個人の日記や感想のような雑多な文書に対しては、既存の文書分類技術が有効に働かず、内容的に類似する文書集合を正しく形成させることができない。また、得られた文書集合が、実際に同一の話題で構成されるか否かを判断することができない。   For the above reasons, the existing document classification technique does not work effectively for miscellaneous documents such as personal diaries and impressions, and it is impossible to correctly form a set of documents that are similar in content. Also, it cannot be determined whether or not the obtained document set is actually composed of the same topic.

本発明は、上記の点に鑑みなされたもので、膨大な文書群、とりわけ不特定多数の人々が任意の文体で記述した日記や感想などの砕けた文書を対象とし、同一の題材を扱った文書を集約することを可能とし、また、複数の話題について記述された文書が存在しても、含まれる話題のグループ全てに多重分類することが可能な文書集約方法及び装置及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, and has dealt with the same subject matter for a large group of documents, particularly a broken document such as a diary or impression written by an unspecified number of people in an arbitrary style. To provide a document aggregation method, apparatus, and program capable of aggregating documents and capable of multiple classification into all the topic groups included even when documents describing a plurality of topics exist With the goal.

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明(請求項1)は、多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約装置における文書集約方法であって、
入力文書を解析して文書中の語(以下、一般ワードと記す)及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する一般ワード抽出ステップ(ステップ1)と、
入力文書中において、話題の軸をなすキーワードの候補となるキーワード及び該キーワードの出現位置を取得してキーワード記憶手段に格納するキーワード抽出ステップ(ステップ2)と、
キーワード記憶手段からキーワードを読み出して集計した結果に基づいて、キーワードを選別するキーワード選別ステップ(ステップ3)と、
一般ワード記憶手段を参照して、キーワード選別ステップで選別されたキーワードの周辺に出現する一般ワードを集計した結果に基づいて、該キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定ステップ(ステップ4)と、を行う。
The present invention (Claim 1) aggregates documents describing the same topic among a large number of documents, and at the same time, a central keyword representing the aggregated document group, that is, a keyword serving as a topic axis. A document aggregation method in a document aggregation device to obtain,
A general word extraction step (step 1) for analyzing the input document to acquire words (hereinafter referred to as general words) in the document and appearance position information of the general words and storing them in the general word storage means;
A keyword extraction step (step 2) of acquiring a keyword as a keyword candidate that forms a topic axis in the input document and an appearance position of the keyword and storing the keyword in the keyword storage unit;
A keyword selection step (step 3) for selecting keywords based on the results of reading out and summing up the keywords from the keyword storage means;
Whether or not the document group including the keyword is a document group dealing with the same topic based on the result of totaling the general words appearing around the keyword selected in the keyword selection step with reference to the general word storage means And an aggregation determination step (step 4) for determining whether or not.

また、本発明(請求項2)は、キーワード選別ステップ(ステップ3)において、
複数の文書に出現する、高頻度なキーワードを選別するステップを行う。
Further, the present invention (Claim 2) is a keyword selection step (Step 3).
A step of selecting frequently occurring keywords appearing in a plurality of documents is performed.

また、本発明(請求項3)は、集約判定ステップ(ステップ4)において、
入力文書中で選別されたキーワードの周辺に出現する一般ワードを集計し、
一定割合以上の高頻度で出現する一般ワードの数に基づいて、キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定するステップを行う。
Further, according to the present invention (Claim 3), in the aggregation determination step (Step 4),
Aggregate general words that appear around the keywords selected in the input document,
A step of determining whether or not a document group including a keyword is a document group dealing with the same topic is performed based on the number of general words appearing at a high frequency of a certain ratio or more.

また、本発明(請求項4)は、集約判定ステップ(ステップ4)において、
あるキーワードが出現する文書数がXであり、該X個の文書内で該キーワードの周辺から取得されるある一般ワードがY個の文書に出現しているものとすると、
YがXに占める割合が高い一般ワードの数が一定以上多い場合に、X個の文書群がキーワードを話題の軸とする同一話題文書群であると判定するステップを行う。
Further, the present invention (Claim 4), in the aggregation determination step (Step 4),
If the number of documents in which a certain keyword appears is X, and a general word acquired from the periphery of the keyword in the X documents appears in Y documents,
When the number of general words having a high ratio of Y to X is greater than a certain level, a step of determining that X document groups are the same topic document group having a keyword as a topic axis is performed.

また、本発明(請求項5)は、集約判定ステップ(ステップ5)において、
あるキーワードを話題の軸であると判定した場合に、該キーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該キーワードを軸とする同一話題文書群であると判定するステップを行う。
Further, according to the present invention (Claim 5), in the aggregation determination step (Step 5),
When it is determined that a certain keyword is a topic axis, among the X documents including the keyword, only documents including a certain number of general words having a high frequency Y are included in the same topic document group having the keyword as an axis. The step which determines that it is is performed.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項6)は、多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約装置であって、
抽出された一般ワード及び該一般ワードの出現位置情報を格納する一般ワード記憶手段203と、
抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段205と、
入力文書を解析して文書中の語(以下、一般ワードと記す)及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する文書解析手段202と、
入力文書中において、話題の軸をなすキーワードの候補となるキーワード及び該キーワードの出現位置を取得して、キーワード記憶手段に格納するキーワード抽出手段204と、
キーワード記憶手段205からキーワードを読み出して集計し、話題の軸である可能性が特に高いキーワードを選別するキーワード集計手段206と、
一般ワード記憶手段203を参照して、キーワード選別手段206で選別されたキーワードの周辺に出現する一般ワードを集計した結果に基づいて、該キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段207と、を有する。
The present invention (Claim 6) aggregates documents describing the same topic among a large number of documents, and at the same time, a central keyword representing the aggregated document group, that is, a keyword serving as a topic axis. A document aggregating device to acquire,
General word storage means 203 for storing the extracted general word and the appearance position information of the general word;
Keyword storage means 205 for storing the extracted keyword and the appearance position information of the keyword;
A document analysis unit 202 that analyzes an input document to acquire words in the document (hereinafter referred to as a general word) and appearance position information of the general word, and stores the information in a general word storage unit;
A keyword extraction unit 204 that acquires a keyword as a keyword candidate that forms a topic axis in the input document and an appearance position of the keyword, and stores the keyword in the keyword storage unit;
A keyword totaling unit 206 that reads out and aggregates keywords from the keyword storage unit 205 and selects a keyword that is particularly likely to be a topic axis;
Based on the result of aggregating general words appearing around the keywords selected by the keyword selection unit 206 with reference to the general word storage unit 203, the document group including the keyword is a document group that handles the same topic. And an aggregation determination unit 207 for determining whether or not.

また、本発明(請求項7)は、キーワード集計手段206において、
複数の文書に出現する、高頻度なキーワードを選別する手段を含む。
Further, the present invention (Claim 7) is the keyword aggregation means 206,
Means for selecting high-frequency keywords appearing in a plurality of documents are included.

また、本発明(請求項8)は、集約判定手段207において、
入力文書中で選別されたキーワードの周辺に出現する一般ワードを集計する手段と、
一定割合以上の高頻度で出現する一般ワードの数に基づいて、キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する手段と、を有する。
Further, according to the present invention (claim 8), the aggregation determination means 207
Means for counting general words appearing around keywords selected in the input document;
Means for determining whether or not a document group including a keyword is a document group dealing with the same topic based on the number of general words appearing at a high frequency of a certain ratio or more.

また、本発明(請求項9)は、集約判定手段207において、
各キーワードが出現する文書数Xを集計する手段と、
X個の文書内で該キーワードの数が一定以上多い場合に、該X個の文書内で該キーワードの周辺に高い頻度Yで出現した一般ワードを取得する手段と、
YがXに占める割合が高い一般ワードの数が一定以上多い場合に、X個の文書群がキーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む。
Further, according to the present invention (claim 9), the aggregation determination means 207
Means for counting the number of documents X in which each keyword appears;
Means for acquiring a general word appearing at a high frequency Y around the keyword in the X documents when the number of keywords in the X documents is more than a certain value;
Means for determining that X document groups are the same topic document group having a keyword as a topic axis when the number of general words having a high ratio of Y to X is greater than a certain value.

また、本発明(請求項10)は、集約判定手段207において、
あるキーワードを話題の軸であると判定した場合に、該キーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該キーワードを軸とする同一話題文書群であると判定する手段を含む。
Further, according to the present invention (claim 10), the aggregation determination means 207
When it is determined that a certain keyword is a topic axis, among the X documents including the keyword, only documents including a certain number of general words having a high frequency Y are included in the same topic document group having the keyword as an axis. Means for determining that the

本発明(請求項11)は、少なくとも、記憶装置とCPUを備えたコンピュータにおいて、多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約プログラムであって、
記憶装置に、抽出された一般ワード及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、請求項6乃至10記載の手段として機能させるプログラムである。
The present invention (Claim 11) is a centralized system that aggregates documents describing the same topic among a large number of documents and represents an aggregated document group in a computer having at least a storage device and a CPU. Is a document aggregation program that simultaneously acquires various keywords, that is, keywords that become the topic axis,
A computer having, in a storage device, general word storage means for storing the extracted general word and appearance position information of the general word, and keyword storage means for storing the extracted keyword and appearance position information of the keyword, A program that functions as means according to claim 6.

本発明の文書集約方法及び装置及びプログラムは、まず、話題の軸となりうるキーワードを発見し、キーワード周辺に出現する語を集計することでそのキーワードが実際の話題の軸であるか否かを判定する方法である。軸の候補のキーワード及びその周辺の語(一般ワード)の統計情報により判定を行うため、句点がない文章や口語で記述された文書、方言を含む文書などの砕けた文体の文書であっても高精度に分類することができる。特に、地名や人名などの意味を持った語で、かつ、出現頻度の高い語を話題の軸とするため、個人の行動を記しただけの日記や極めて短い文書のように内容に話題性がない文書を除外し、同一の興味を持って記述された有益な文書のみを集約することができる。   The document aggregation method, apparatus and program of the present invention first finds a keyword that can be a topic axis, and determines whether or not the keyword is an actual topic axis by aggregating words appearing around the keyword. It is a method to do. Because the judgment is based on the statistical information of the axis candidate keywords and the surrounding words (general words), even documents with broken style such as sentences without phrases, documents written in spoken language, documents with dialects, etc. It can be classified with high accuracy. In particular, because words that have meanings such as place names and names, and words that occur frequently, are used as the topic axis, the topic is topical, such as a diary or an extremely short document that describes individual actions. It is possible to exclude documents that are not present and aggregate only useful documents that are written with the same interest.

また、1文書中に複数の話題の記述がある場合でも、注目したキーワードの周辺に出現する語を用いて話題を集約するため、例えば、前半が話題A、後半が話題Bについて記述された文書は、前半に出現する語の分布から話題Aのグループ構成文書として集約され、かつ後半に出現する分布から話題Bのグループの構成文書としても集約される、といったように、含む話題に応じて多重に分類することができる。   In addition, even when there are descriptions of a plurality of topics in one document, the topics are aggregated using words appearing around the noted keyword. For example, a document in which the first half is written about topic A and the second half is written about topic B Are aggregated according to the topic they contain, such as grouping documents of topic A from the distribution of words appearing in the first half and grouping documents of group of topics B from the distribution appearing in the second half. Can be classified.

さらに、同一分類を含む文書を集約するばかりでなく、集約の根拠となったキーワードまで取得できるため、本発明の実施結果を用いた文書検索や要約など、様々な応答が可能である。   Furthermore, not only the documents including the same classification are aggregated but also the keywords that are the basis of the aggregation can be acquired, so various responses such as document search and summary using the implementation result of the present invention are possible.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図3は、本発明の一実施の形態における文書集約装置の構成を示す。同図に示す文書集約装置は、入力文書を格納しておく文書格納部201、入力文書解析し、文書を構成する要素毎に分割する文書解析部202、文書解析部202の解析結果を元に取得した一般ワードと文書中での位置を記録する一般ワード格納部203、文書解析部202の解析結果を元に各文書を特徴付けるキーワードを抽出するキーワード抽出部204、キーワード及び文書中での位置を記録するキーワード格納部205、キーワード格納部205に記録されたキーワードを集計し、キーワードの中で話題の軸となりうる特に重要なものを選別するキーワード集計部206、選別されたキーワードを含む文書に出現する一般ワードを集計し、そのキーワードが話題の軸となっているか否かを最終的に判断する集約判定部207、話題の軸であると判断されたキーワード、及び話題を構成する文書を格納する集約文書格納部208から構成される。   FIG. 3 shows a configuration of the document aggregation device according to the embodiment of the present invention. The document aggregation device shown in FIG. 1 is based on a document storage unit 201 that stores an input document, an input document analysis, a document analysis unit 202 that divides the document into elements constituting the document, and an analysis result of the document analysis unit 202. A general word storage unit 203 that records the acquired general word and a position in the document, a keyword extraction unit 204 that extracts a keyword that characterizes each document based on the analysis result of the document analysis unit 202, a keyword and a position in the document The keyword storage unit 205 to record, the keywords recorded in the keyword storage unit 205 are aggregated, and the keyword aggregation unit 206 that selects a particularly important keyword that can be the topic axis, appears in a document including the selected keyword. The aggregation determination unit 207 that aggregates general words to be used and finally determines whether or not the keyword is the axis of the topic, Keyword is determined to be, and a aggregated document storage unit 208 for storing the documents that make up the subject.

図4は、本発明の一実施の形態における文書格納部の文書データの例である。   FIG. 4 is an example of document data in the document storage unit according to the embodiment of the present invention.

同図に示す各文書には、固有のIDが付与され、区別されている。   Each document shown in the figure is given a unique ID for distinction.

文書解析部202は、文書格納部201に記録された文書を取得し、文書を構成する文法的な最小単位である形態素に分割する。その後、全てまたは一部の形態素、あるいは文書中で連続する形態素を連結させた複合語を「一般ワード」として一般ワード格納部203に格納する。このとき、それぞれの一般ワードは文書中での出現位置と共に記録しておく。   The document analysis unit 202 acquires the document recorded in the document storage unit 201 and divides the document into morphemes that are grammatical minimum units constituting the document. After that, all or a part of morphemes or a compound word obtained by concatenating consecutive morphemes in the document is stored in the general word storage unit 203 as a “general word”. At this time, each general word is recorded together with the appearance position in the document.

図5は、本発明の一実施の形態における一般ワード格納部の一般ワードの例である。   FIG. 5 is an example of a general word in the general word storage unit according to the embodiment of the present invention.

同図に示す例では、形態素解析処理した結果、名詞であると判断された形態素を一般ワードとみなし、文書における出現位置と共に記録している。なお、出現位置は一般ワードの先頭と末尾のそれぞれの位置を文書の先頭から数えたバイト数で表す。日本語の全角1文字の情報量は2バイトであるため、全て全角文字の場合、文書の先頭を0バイトとすると、1文字目の始まりは位置「0」、2文字目の始まりは位置「2」、3文字目の始まりは位置「4」となる。文書ID「0001」の文書の例では、0〜3バイトの位置に一般ワード「昨日」が出現し、16〜19バイトの位置に一般ワード「映画」が出現している。   In the example shown in the figure, the morpheme determined to be a noun as a result of the morpheme analysis processing is regarded as a general word and recorded together with the appearance position in the document. The appearance position is represented by the number of bytes obtained by counting the positions of the beginning and end of the general word from the beginning of the document. Since the amount of information for a Japanese double-byte character is 2 bytes, if all double-byte characters are used, assuming that the beginning of the document is 0 bytes, the first character begins at position “0” and the second character begins at position “ 2 ”and the third character starts at position“ 4 ”. In the example of the document with the document ID “0001”, the general word “Yesterday” appears at a position of 0 to 3 bytes, and the general word “movie” appears at a position of 16 to 19 bytes.

以下の説明では、図6のように名詞のみを一般ワードとして登録した例を用いて説明する。   The following description will be made using an example in which only nouns are registered as general words as shown in FIG.

キーワード抽出部204は、文書解析部202の処理結果を利用し、それぞれの文章を特徴付けるキーワードを抽出する。この処理は、以後の処理で同一の話題を扱った文書を集約する際の軸となる語の獲得が目的である。話題集約の軸となる語とは、例えば、あるスポーツ選手に注目して書かれた文書の場合はそのスポーツ選手の名前、企業間の合併について書かれた文書の場合は、当該企業名など、主に固有名詞である。   The keyword extraction unit 204 uses the processing result of the document analysis unit 202 to extract keywords that characterize each sentence. The purpose of this process is to acquire words that serve as an axis for collecting documents that deal with the same topic in subsequent processes. For example, in the case of a document written focusing on a certain athlete, the word that is the axis of topic aggregation is the name of the athlete, in the case of a document written about a merger between companies, the company name, etc. Mainly proper nouns.

なお、キーワードの抽出には、既存技術「磯崎秀樹『メタルールと決定木学習を用いた日本語固有表現抽出』、情報処理学会論文誌、Vol.43, No.5 pp.1481-1491(2002)」を用いることができる。   For keyword extraction, the existing technology “Hideki Isozaki“ Japanese Named Expression Extraction Using Meta-rules and Decision Tree Learning ”, IPSJ Transactions, Vol.43, No.5 pp.1481-1491 (2002) Can be used.

これは、形態素解析処理の結果を利用し、形態素とその品詞情報、さらに、ひらがな、カタカナ、漢字といった文字種などの情報に基づいて、入力文書中から企業名やスポーツチーム名などの「組織名」、「人名」、「地名」、製品名や建物名などの「人工物名」、「金額」などといった固有表現を自動抽出する技術である。   This is based on the results of the morpheme analysis process, and based on the morpheme and its part-of-speech information, and information such as the type of characters such as hiragana, katakana, and kanji, the “organization name” such as the company name and sports team name from the input document , “Person name”, “place name”, “artifact name” such as product name and building name, “property”, etc.

本実施の形態では、これらの固有表現の中で、「組織名」と「人名」のみを上記既存技術により取得したものをキーワードとしてキーワード格納部205に記録するものとする。   In the present embodiment, it is assumed that only the “organization name” and “person name” acquired by the above-described existing technology among these unique expressions are recorded in the keyword storage unit 205 as keywords.

図6は、本発明の一実施の形態におけるキーワード格納部のキーワードの例を示す。キーワード格納部205には、キーワードが、文書ID、文書の先頭からの出現位置と共に記録されている。なお、出現位置はキーワードの先頭と末尾の位置を文書の先頭から数えたバイト数で表す。   FIG. 6 shows an example of keywords in the keyword storage unit according to the embodiment of the present invention. A keyword is recorded in the keyword storage unit 205 together with the document ID and the appearance position from the top of the document. The appearance position is represented by the number of bytes obtained by counting the position of the beginning and end of the keyword from the beginning of the document.

例えば、人名であるとして抽出されたキーワード「×谷○夫」が文書ID「0001」の文書の44〜51バイトの位置にあったことを表す。同様に、文書ID「0002」や「0004」の文書から抽出されたキーワードが記録されている。文書ID「0003」の日記風の文書には「組織名」と「人名」の固有表現が1語も表れなかったものとすると、図7のように文書ID「0003」に関する項は何も出力されない。   For example, it represents that the keyword “× Tanioo” extracted as a person name was located at the position of 44 to 51 bytes in the document with the document ID “0001”. Similarly, keywords extracted from documents with document IDs “0002” and “0004” are recorded. Assuming that no unique expression of “organization name” and “person name” appears in the diary-like document with the document ID “0003”, nothing is output for the section relating to the document ID “0003” as shown in FIG. Not.

キーワード集計部206は、キーワード格納部205に記録された語の出現頻度を集計し、話題の軸として成立する可能性が特に高いキーワード、及びそのキーワードを含む文書のIDのリストを集約判定部207に送出する。一般に、数多くの文書で同一の題材が扱われている場合に、その題材を話題と呼ぶことができる。従って、話題の軸となりうるキーワードとは、出現する文書数が多いキーワードである。そこで、例えば、集計の結果、出現頻度が一定以上であったキーワードを集約判定部207に送出するのがよい。   The keyword totaling unit 206 totals the appearance frequencies of the words recorded in the keyword storage unit 205, and collects a list of keywords that are particularly likely to be established as a topic axis and the IDs of documents that include the keywords. To send. Generally, when the same subject is handled in many documents, the subject can be called a topic. Therefore, a keyword that can be a topic axis is a keyword with a large number of appearing documents. Therefore, for example, keywords whose appearance frequency is a certain level or more as a result of aggregation are preferably sent to the aggregation determination unit 207.

集約判定部207は、キーワード集計部206より取得したキーワード、即ち、話題の軸の候補語が、文書を集約するにあたっての軸であるか否かを判定する。集約判定部207が行う処理を説明する。   The aggregation determination unit 207 determines whether the keyword acquired from the keyword aggregation unit 206, that is, the candidate word for the topic axis is an axis for collecting documents. Processing performed by the aggregation determination unit 207 will be described.

図7は、本発明の一実施の形態における集約判定部の処理のフローチャートである。   FIG. 7 is a flowchart of the process of the aggregation determination unit in one embodiment of the present invention.

ステップ601) キーワード集計部206よりキーワードを取得し、このキーワードが話題の軸であるか否かの判定処理を開始する。   Step 601) A keyword is acquired from the keyword totaling unit 206, and a process for determining whether or not this keyword is a topic axis is started.

ステップ602) キーワードを含む文書において、キーワード周辺に出現している一般ワードを取得・集計する。   Step 602) In a document including a keyword, general words appearing around the keyword are acquired and aggregated.

例えば、人名のキーワードとして取得された「○山」というキーワードを集約判定部207が取得する際には、「○山」を含む文書のID(「0002」や「0004」)、ならびに、それぞれの文書データベースのキーワードの出現位置が取得される。図6のように、「○山」は文書IDが「0002」の文書では20〜23バイト目の位置に、文書IDが「0004」の文書では28〜31バイト目の位置に出現しているため、これらの情報が取得されることになる。   For example, when the aggregation determination unit 207 acquires the keyword “○ mountain” acquired as the keyword of the person name, the ID (“0002” or “0004”) of the document including “○ mountain”, and the respective Appearance positions of keywords in the document database are acquired. As shown in FIG. 6, “○ mountain” appears at the 20th to 23rd bytes of the document with the document ID “0002”, and appears at the 28th to 31st bytes of the document with the document ID “0004”. Therefore, such information is acquired.

当該ステップ602では、キーワード「○山」を含む第1の文書ID「0002」の文書について、キーワードの出現位置を一般ワード格納部203に記録された一般ワードリストに照らし合わせ、文書ID「0002」の文書中でキーワード「○山」の周辺に表れている一般ワードを取得する。   In step 602, for the document with the first document ID “0002” including the keyword “○ mountain”, the appearance position of the keyword is checked against the general word list recorded in the general word storage unit 203, and the document ID “0002”. The general word appearing around the keyword “Yama” in the document is acquired.

注目するキーワードを含む文書から一般ワードを取得する際、取得の範囲は様々な設定が可能である。図8は、一般ワードを収集する範囲の例を説明するための図(その1)である。aは、キーワード「○山」を含む文書ID「0002」の文書である。キーワード格納部205にはキーワード「○山」の出現位置が、一般ワード格納部203には、「衆議院」「解散」などの一般ワードの出現位置が記録されている。   When a general word is acquired from a document including a keyword of interest, various acquisition ranges can be set. FIG. 8 is a diagram (part 1) for explaining an example of a range in which general words are collected. a is a document with the document ID “0002” including the keyword “○ mountain”. The keyword storage unit 205 records the appearance position of the keyword “Oyama”, and the general word storage unit 203 records the appearance position of general words such as “Senior House” and “Dissolution”.

例えば、図8(b)に示す例1では、キーワード「○山」を中心とする前後2語までの一般ワードを収集範囲とする例である。キーワード「○山」より前に出現する「解散」「首相」、後に出現する「決断」「総選挙」が収集対象の一般ワードとなる。   For example, in Example 1 shown in FIG. 8B, the collection range is a general word of up to two words before and after the keyword “Oyama”. “Dissolution” and “Prime Minister” appearing before the keyword “Mt. Yama”, and “decisions” and “general elections” appearing later are general words to be collected.

図8(c)に示す例2では、キーワードを含む文書全体を収集範囲とする例である。この場合「衆議院」「解散」「首相」「決断」「総選挙」「憂鬱」以下、文書ID「0002」の文書中の全ての一般ワードが収集対象となる。   Example 2 shown in FIG. 8C is an example in which the entire document including the keyword is used as the collection range. In this case, “general house”, “dissolution”, “prime”, “decision”, “general election”, “depressed” and all general words in the document with the document ID “0002” are collected.

図8(a)に示した文書ID「0002」の文書の例では、「○山」より前には一般ワードが3語しかないため、例えば、例1で前後5語を収集範囲とした場合は、キーワードより前から3語しか取得できない。この場合はキーワード以前の3語全てとキーワード以後の5語を取得すればよい。   In the example of the document with the document ID “0002” shown in FIG. 8A, there are only three general words before “○ mountain”. Can only get 3 words before the keyword. In this case, all three words before the keyword and five words after the keyword may be acquired.

ここまでの説明では、図5や図6の例のように、「文書ID」「一般ワード(またはキーワード)」「出現位置」のみを記録するものとしたが、文書解析部202が行う形態素解析処理の結果から文書中の句点「。」を取得して文と文の区切りを判断し、どの語とどの語が同じ文から抽出されたかを同時に記録するようにしてもよい。これを用いれば、図8(d)に示す例3のように、キーワード「○山」を含む文を中心とする前後いくつかの文を一般ワードの収集範囲とすることも可能である。図8(d)の例3は、キーワードを含む文のみを収集範囲とする例であるため「衆議院」「解散」「首相」「決断」の4語のみが取得されるが、「キーワードを含む文を中心とする前後2文」というように、範囲を前後の文に拡大してよい。   In the description so far, only “document ID”, “general word (or keyword)”, and “appearance position” are recorded as in the examples of FIGS. 5 and 6, but morphological analysis performed by the document analysis unit 202 is performed. It is also possible to acquire the punctuation mark “.” In the document from the processing result, determine the sentence and sentence breaks, and simultaneously record which words and which words are extracted from the same sentence. If this is used, as shown in Example 3 shown in FIG. 8D, several sentences around the sentence including the keyword “Oyama” can be used as the general word collection range. Example 3 in FIG. 8D is an example in which only sentences including keywords are used as the collection range, and therefore only four words “House of Representatives”, “Dissolution”, “Prime Minister”, and “Decision” are acquired. The range may be expanded to the preceding and following sentences, such as “two sentences before and after the sentence.”

句点「。」に加え、ピリオド「.」やエクスクラメーションマーク「!」、クエスチョンマーク「?」などを文の区切りとみなしてもよい。   In addition to the punctuation mark “.”, A period “.”, An exclamation mark “!”, A question mark “?”, Etc. may be considered as a sentence delimiter.

一方、組織名として取得したキーワード「○○新聞」に注目して周辺の一般ワードを取得する際の範囲指定方法の例を示す。図9は、本発明の一実施の形態における一般ワード収集範囲の例(その2)である。   On the other hand, an example of a range designation method when acquiring a peripheral general word by paying attention to the keyword “XX newspaper” acquired as an organization name is shown. FIG. 9 is an example (part 2) of the general word collection range in the embodiment of the present invention.

本発明の文書集約方法は、注目するキーワードの周辺に特定の一般ワードが高確率で出現する場合に、その文書群は同一の話題について記述された文書であり、かつ、そのキーワードが話題の軸であると判定するものである。図9に示す文中の「(○○新聞発行)」という文字列が○○新聞社から発行される全てのニュース記事の見出しに固定的に用いられる文字列だとすると、「○○新聞」の周辺では極めて高い確率で「発行」という一般ワードが出現することになる。このため、○○新聞社から発行されたあらゆるニュース記事が同一話題だとして誤って集約されてしまう。図9に示した範囲指定の例はこれを回避するための一つの方法である。注目するキーワードに隣接して出現する一般ワードを取得しないことで、同一発行者が高頻度で固定的に用いる語句を軸であると誤判断するのを防ぐ。   According to the document aggregation method of the present invention, when a specific general word appears around a keyword of interest with a high probability, the document group is a document describing the same topic, and the keyword is a topic axis. It is determined that Assuming that the character string “(XX newspaper issue)” in the sentence shown in FIG. 9 is a fixed character string used for the headings of all news articles issued by XX newspaper publishers, The general word “issue” will appear with a very high probability. For this reason, all news articles issued by XX newspaper companies are mistakenly aggregated as being the same topic. The range designation example shown in FIG. 9 is one method for avoiding this. By not acquiring a general word that appears adjacent to the keyword of interest, it is possible to prevent the same issuer from mistakenly determining that the phrase used frequently and fixedly is the axis.

隣接する一般ワードではなく、注目するキーワードから一番近い一般ワードを取得対象から外すようにしてもよい。図9の場合「殺到」及び「発行」が対象から外れることになる。   Instead of the adjacent general word, the general word closest to the keyword of interest may be excluded from the acquisition target. In the case of FIG. 9, “inundation” and “issue” are excluded from the target.

図8及び図9に示した範囲の設定方法に限らず、種々の一般ワード取得方法も利用可能である。例えば、前後1文などのように固定長で指定した範囲内に一般ワードが1語も含まれない場合に探索範囲を拡大し、注目キーワードから近い順に前後M語の一般ワードを取得する、など、複数の方法と組み合わせて取得してもよい。   Not only the range setting method shown in FIGS. 8 and 9, but also various general word acquisition methods can be used. For example, when no general word is included in a range specified by a fixed length, such as one sentence before and after, the search range is expanded, and general words of M words before and after are acquired in order from the keyword of interest, etc. You may acquire in combination with a plurality of methods.

いずれかの方法で、注目するキーワードを含む全ての文書について、周辺から一般ワードを取得し、例えば、「○山」というキーワードでは、「衆議院」が5回、「解散」が7回といった具合で一般ワードが取得された文書数をカウントする。   Use either method to get a general word from the surroundings for all documents that contain the keyword of interest. For example, for the keyword “Yama,” “the House of Representatives” is 5 times, “Dissolution” is 7 times, etc. The number of documents from which general words are acquired is counted.

ステップ603) 注目するキーワードを含む全ての文書について探索が終了したかを判定し、判定した場合にはステップ604に移行し、そうでない場合には、ステップ602を繰り返す。   Step 603) It is determined whether the search has been completed for all documents including the keyword of interest. If it is determined, the process proceeds to Step 604, and if not, Step 602 is repeated.

ステップ604) それぞれのキーワード毎に集計された一般ワードの頻度情報を用い、各キーワードが話題の軸をなす語句であるか否かを判定する。   Step 604) Using the general word frequency information aggregated for each keyword, it is determined whether or not each keyword is a phrase that forms the topic axis.

判定の方法を以下で説明する。   The determination method will be described below.

文書集約を行うにあたり、ある注目キーワードが話題の軸となっているか否かの判断は、そのキーワードの周辺に、特定の語が高頻度で出現するかどうかによって行う。   In performing document aggregation, whether or not a certain keyword is a topic axis is determined based on whether or not a specific word appears frequently around the keyword.

図10は、本発明の一実施の形態におけるキーワード周辺から取得した一般ワードの例を示す。同図では、キーワード「○山」と「○○新聞」の各々に注目して周辺の一般ワードを集計した結果の、出現文書数が多い上位5語の例である。「○山」は全文書中の28文書に出現し、周辺から取得された一般ワードは頻度の高いものから順に「衆議院」(25文書に出現)、「解散」(22文書に出現)、「総理」(21文書に出現)、「明日」(15文書に出現)、「総選挙」(13文書に出現)であったものとする。   FIG. 10 shows an example of a general word acquired from the vicinity of a keyword in an embodiment of the present invention. The figure shows an example of the top five words with the largest number of appearing documents as a result of totaling the general words in the vicinity by paying attention to each of the keywords “XX” and “XX newspaper”. “Oyama” appears in 28 documents in all documents, and general words obtained from the surroundings are listed in descending order of “common house” (appears in 25 documents), “dissolve” (appears in 22 documents), “ It is assumed that “Prime” (appears in 21 documents), “Tomorrow” (appears in 15 documents), and “General Election” (appears in 13 documents).

このとき、集約判定部207は、ここに挙げた上位5位までの一般ワードの出現文書数のうち、注目キーワード「○山」の出現文書数28の半分の14を超えるものの数をカウントする。この例では、14を越える出現文書数を有する一般ワードは「衆議院」「解散」「総理」「明日」の4語である。つまり、周辺から取得した一般ワード上位5語のうち4語が一定以上の高い頻度で出現していたことになる。   At this time, the aggregation determination unit 207 counts the number of appearances of general words up to the top five listed here that exceeds 14 which is half of the number of appearance documents 28 of the keyword of interest “○ mountain”. In this example, the general words having the number of appearing documents exceeding 14 are the four words “the House of Representatives”, “Dissolution”, “Prime Minister”, and “Tomorrow”. In other words, four words out of the top five general words acquired from the periphery appear at a frequency higher than a certain level.

同様にすると、同じく図8に示す「○○新聞」の例では、出現文書数32の半数16を超えるような高い頻度で出現した一般ワードは1語も存在しない。   Similarly, in the example of “XX newspaper” similarly shown in FIG. 8, there is no single general word that appears with a high frequency exceeding half of the number of appearing documents 16.

集約判定部207は、高頻度順に並べた一般ワードの上位の語(例えば上位5語)のうち、条件を満たす時に高い頻度の一般ワードの個数(「○山」の例では4語、「○○新聞」の例では0語)を調べ、その割合が例えば60%以上であった場合に、注目キーワードを話題の軸であると判定する。   The aggregation determination unit 207 counts the number of general words having a high frequency when satisfying the condition among the upper words (for example, the upper five words) of the general words arranged in the order of high frequency (four words in the example of “○ mountain”, “ In the example of “Newspaper”, 0 word) is examined, and when the ratio is 60% or more, for example, it is determined that the keyword of interest is the topic axis.

この結果、「○山」は上位5語のうち条件を満たした4語は80%に相当し、60%を超えるため話題の軸であると判定される。一方、「○○新聞」は条件を満たす語が1語も存在しない(0%)ため、話題の軸ではないと判定する。   As a result, “Yama” is determined to be a topical axis because 4 words satisfying the condition among the top 5 words correspond to 80% and exceed 60%. On the other hand, since there is no word that satisfies the condition for “XX newspaper” (0%), it is determined that it is not the topic axis.

あるキーワードを含む文書群が同一の題材について記述されたものである場合、キーワード周辺の語の出現パターンが文書間で類似するため、周辺の一般ワードの出現回数を集計した結果、高頻度を記録しやすくする。言い換えれば、キーワード周辺に出現する語に偏りがある。一方、あるキーワードの一般性が高く、様々な分野の文書に用いられる語の場合、周辺に出現する語がまちまちであるため、それぞれの出現回数を集計しても高頻度にはなりにくい。言い換えれば、キーワード周辺に出現する語に偏りがない。上記判定は、この特徴を利用したものであり、注目キーワードの周辺での出現回数が多い一般ワードのうち、特に頻度の高い語が占める割合を調べることにより、話題の軸であるか否かを自動判定するものである。   When documents containing a keyword are written on the same subject, the appearance pattern of words around the keyword is similar between documents. Make it easier to do. In other words, words appearing around the keyword are biased. On the other hand, a generality of a certain keyword is high, and in the case of a word used in documents in various fields, words appearing in the vicinity vary, and therefore it is difficult to increase the frequency even if the number of occurrences of each keyword is counted. In other words, the words appearing around the keyword are not biased. The above determination is based on this feature, and it is determined whether or not it is the axis of the topic by examining the ratio of words with a particularly high frequency among general words that frequently appear around the keyword of interest. It is automatically determined.

この特徴に注目した判定方法であれば上記の例に限定されることなく、様々な応用が可能である。   The determination method focusing on this feature is not limited to the above example, and various applications are possible.

例えば、予めあらゆる2つの語句が同時に用いられる可能性を数値化したデータベースを構築しておき、周辺から取得された高頻度な一般ワードが互いに関連するか否かによって判定を行ってもよい。この場合、図9の例でキーワード「○山」の周辺から取得された「衆議院」や「解散」や「総理」などの一般ワードは、上記データベースを参照すれば互いに関連が深い語であることがわかり、「○山」が話題の軸であるとの判定材料とすることができる。逆に、「○○新聞」の周辺から取得された「逮捕」や「震度」や「ホームラン」は相関性が低く、「○○新聞」は一般性の高い語であるために話題の軸とはならないという判定を行うことができる。   For example, it is possible to construct a database in which the possibility that all two words are used at the same time is constructed in advance, and determine whether or not high-frequency general words acquired from the periphery are related to each other. In this case, in the example of FIG. 9, general words such as “the House of Representatives”, “dissolution” and “Prime Minister” acquired from the vicinity of the keyword “Yama” are words closely related to each other by referring to the database. It can be used as a judgment material that “○ mountain” is the topic axis. Conversely, “Arrest”, “Seismic Intensity”, and “Home Run” obtained from the vicinity of “XX Newspaper” have low correlation, and “XX Newspaper” is a highly general word. It can be determined that it should not.

あるいは、あらゆる2つの語句が1文や1文書中に同時に出現する可能性を数値化するデータベースを予め構築するのではなく、入力文書から動的に構築してもよい。この場合は、キーワード「○山」の周辺から取得された「衆議院」や「解散」などの高頻度な一般ワードが同一文中や同一文書中など、一定の範囲内に同時に出現する確率を算出し、その確率が高ければ話題の軸であると判定することができる。   Alternatively, a database that quantifies the possibility of any two words or phrases appearing simultaneously in one sentence or one document may not be constructed in advance, but may be constructed dynamically from an input document. In this case, calculate the probability that high-frequency general words such as “House of Parliament” and “Dissolution” obtained from the keyword “○ Mountain” will appear simultaneously within a certain range, such as in the same sentence or in the same document. If the probability is high, it can be determined that it is the topic axis.

判定処理の結果、注目するキーワードが話題の軸であると判定された場合には、ステップ605に移行し、そうでない場合には、処理を終了する。   As a result of the determination process, if it is determined that the keyword of interest is the topic axis, the process proceeds to step 605. If not, the process ends.

ステップ605) キーワード及びそのキーワードを含む文書のIDを集約文書格納部208に記録する。   Step 605) The keyword and the ID of the document including the keyword are recorded in the aggregated document storage unit 208.

話題構成文書のIDを出力する際、話題の軸であると判定されたキーワードを含む全ての文書のIDを出力するのではなく、キーワードの周辺から取得された一般ワードの上位5位のうち、例えば、3語以上を含むような文書のみのIDを出力してもよい。図10に示したキーワード「○山」の例で、「衆議院」「解散」「総理」「明日」「総選挙」のうち3語以上を含む文書のみを、「○山」を軸とする話題文書群として出力することで、偶然に「○山」というキーワードを含んだ文書を混在させることなく、「衆議院解散に伴う総選挙」というある特定の話題について記述された文書のみを厳選することができる。   When outputting the ID of the topic composition document, instead of outputting the IDs of all the documents including the keyword determined to be the topic axis, out of the top five general words acquired from the periphery of the keyword, For example, the ID of only a document that includes three or more words may be output. In the example of the keyword “Yama” shown in FIG. 10, only a document including three or more words among “the House of Representatives”, “Dissolution”, “Prime Minister”, “Tomorrow”, and “General Election” is a topic centered on “Yama”. By outputting as a group of documents, it is possible to carefully select only documents that describe a specific topic such as “the general election accompanying the dissolution of the House of Representatives” without accidentally mixing documents that contain the keyword “○ mountain”. it can.

以上の処理の結果、上記実施の形態における「○○新聞」のように一般性の高いキーワードではなく、首相の姓である「○山」の例のように話題の中心に位置付けられるキーワードが話題の軸として判定され、同時にその話題を構成する文書群が出力される。   As a result of the above processing, a keyword that is positioned at the center of the topic, such as the example of “Yama”, the surname of the prime minister, is not a topic, but a general keyword such as “XX newspaper” in the above embodiment. A group of documents constituting the topic is output at the same time.

なお、上記の実施の形態では、固有表現と呼ぶ語をキーワード候補とし、名詞を一般ワードとしたがこれに限定するものではなく、様々に変更可能である。   In the above-described embodiment, a word called a specific expression is a keyword candidate and a noun is a general word. However, the present invention is not limited to this, and various changes can be made.

また、上記の実施の形態における文書集約装置の文書解析部202、キーワード抽出部204、キーワード集計部206、集約判定部207の動作をプログラムとして構築し、ハードディスクやメモリ等の記憶手段を有するコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   In addition, the operations of the document analysis unit 202, the keyword extraction unit 204, the keyword aggregation unit 206, and the aggregation determination unit 207 of the document aggregation device in the above embodiment are constructed as programs, and the computer having storage means such as a hard disk and a memory is built. It can be installed and executed, or distributed via a network.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、与えられた文書集合の共通話題を獲得するための技術に適用可能である。   The present invention can be applied to a technique for acquiring a common topic of a given document set.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の一実施の形態における文書集約装置のシステム構成例である。1 is a system configuration example of a document aggregation device according to an embodiment of the present invention. 本発明の一実施の形態における文書格納部の文書データの例である。It is an example of the document data of the document storage part in one embodiment of this invention. 本発明の一実施の形態における一般ワード格納部の一般ワードの例である。It is an example of the general word of the general word storage part in one embodiment of this invention. 本発明の一実施の形態におけるキーワード格納部のキーワードの例である。It is an example of the keyword of the keyword storage part in one embodiment of this invention. 本発明の一実施の形態における集約判定部の処理のフローチャートである。It is a flowchart of the process of the aggregation determination part in one embodiment of this invention. 本発明の一実施の形態における一般ワード収集範囲の例(その1)である。It is an example (the 1) of the general word collection range in one embodiment of this invention. 本発明の一実施の形態における一般ワード収集範囲の例(その2)である。It is an example (the 2) of the general word collection range in one embodiment of this invention. 本発明の一実施の形態におけるキーワード周辺から取得した一般ワードの例である。It is an example of the general word acquired from the keyword periphery in one embodiment of this invention.

符号の説明Explanation of symbols

201 文書格納部
202 文書解析手段、文書解析部
203 一般ワード記憶手段、一般ワード格納部
204 キーワード抽出手段、キーワード抽出部
205 キーワード記憶手段、キーワード格納部
206 キーワード集計手段、キーワード集計部
207 集約判定手段、集約判定部
208 集約文書格納部
201 Document storage unit 202 Document analysis unit, document analysis unit 203 General word storage unit, general word storage unit 204 Keyword extraction unit, keyword extraction unit 205 Keyword storage unit, keyword storage unit 206 Keyword aggregation unit, keyword aggregation unit 207 Aggregation determination unit , Aggregation determination unit 208 Aggregated document storage unit

Claims (11)

多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約装置における文書集約方法であって、
入力文書を解析して文書中の語(以下、一般ワードと記す)及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する一般ワード抽出ステップと、
前記入力文書中において、前記話題の軸をなすキーワードの候補となるキーワード及び該キーワードの出現位置を取得してキーワード記憶手段に格納するキーワード抽出ステップと、
前記キーワード記憶手段からキーワードを読み出して集計した結果に基づいて、キーワードを選別するキーワード選別ステップと、
前記一般ワード記憶手段を参照して、前記キーワード選別ステップで選別されたキーワードの周辺に出現する一般ワードを集計した結果に基づいて、該キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定ステップと、
を行うことを特徴とする文書集約方法。
Document aggregation method in a document aggregation apparatus that aggregates documents that describe the same topic among a large number of documents, and simultaneously acquires a central keyword that represents the aggregated document group, that is, a keyword that is a topic axis. Because
A general word extraction step of analyzing an input document to acquire words in the document (hereinafter referred to as general words) and appearance position information of the general words, and storing them in a general word storage means;
In the input document, a keyword extraction step of acquiring a keyword that is a keyword candidate that forms the topic axis and an appearance position of the keyword and storing the keyword in a keyword storage unit;
A keyword selection step of selecting keywords based on the results of reading out and summing up keywords from the keyword storage means;
Based on the result of totaling the general words appearing around the keyword selected in the keyword selection step with reference to the general word storage means, the document group including the keyword is a document group that handles the same topic. An aggregation determination step for determining whether or not,
A document aggregation method characterized by:
前記キーワード選別ステップにおいて、
複数の文書に出現する、高頻度なキーワードを選別するステップを行う、
請求項1記載の文書集約方法。
In the keyword selection step,
Perform a step of selecting frequently occurring keywords that appear in multiple documents.
The document aggregation method according to claim 1.
前記集約判定ステップにおいて、
前記入力文書中で選別された前記キーワードの周辺に出現する一般ワードを集計し、
一定割合以上の高頻度で出現する一般ワードの数に基づいて、前記キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定するステップを行う、
請求項1または2記載の文書集約方法。
In the aggregation determination step,
Aggregating general words that appear around the keywords selected in the input document,
Performing a step of determining whether or not the document group including the keyword is a document group dealing with the same topic, based on the number of general words appearing at a high frequency of a certain ratio or more;
The document aggregation method according to claim 1 or 2.
前記集約判定ステップにおいて、
あるキーワードが出現する文書数がXであり、該X個の文書内で該キーワードの周辺から取得されるある一般ワードがY個の文書に出現しているものとすると、
前記Yが前記Xに占める割合が高い一般ワードの数が一定以上多い場合に、前記X個の文書群が前記キーワードを話題の軸とする同一話題文書群であると判定するステップを行う、
請求項3記載の文書集約方法。
In the aggregation determination step,
If the number of documents in which a certain keyword appears is X, and a general word acquired from the periphery of the keyword in the X documents appears in Y documents,
A step of determining that the X document group is the same topic document group having the keyword as a topic axis when the number of general words in which the ratio of Y to X is high is more than a certain value;
The document aggregation method according to claim 3.
前記集約判定ステップにおいて、
あるキーワードを話題の軸であると判定した場合に、該キーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該キーワードを軸とする同一話題文書群であると判定するステップを行う、
請求項4記載の文書集約方法。
In the aggregation determination step,
When it is determined that a certain keyword is a topic axis, among the X documents including the keyword, only documents including a certain number of general words having a high frequency Y are included in the same topic document group having the keyword as an axis. Performing the step of determining that
The document aggregation method according to claim 4.
多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約装置であって、
抽出された一般ワード及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、
抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、
入力文書を解析して文書中の語(以下、一般ワードと記す)及び該一般ワードの出現位置情報を獲得し、前記一般ワード記憶手段に格納する文書解析手段と、
前記入力文書中において、前記話題の軸をなすキーワードの候補となるキーワード及び該キーワードの出現位置を取得して、前記キーワード記憶手段に格納するキーワード抽出手段と、
前記キーワード記憶手段からキーワードを読み出して集計し、話題の軸である可能性が特に高いキーワードを選別するキーワード集計手段と、
前記一般ワード記憶手段を参照して、前記キーワード選別手段で選別されたキーワードの周辺に出現する一般ワードを集計した結果に基づいて、該キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段と、
を有することを特徴とする文書集約装置。
A document aggregation device that aggregates documents that describe the same topic among a large number of documents, and that also acquires a central keyword that represents the group of documents, that is, a keyword that is the axis of the topic,
General word storage means for storing the extracted general word and the appearance position information of the general word;
Keyword storage means for storing the extracted keyword and the appearance position information of the keyword;
A document analysis unit that analyzes an input document to acquire words in the document (hereinafter, referred to as a general word) and appearance position information of the general word, and stores the information in the general word storage unit;
In the input document, a keyword extraction unit that acquires a keyword that is a candidate for a keyword that forms the topic axis and an appearance position of the keyword, and stores the keyword in the keyword storage unit;
Keyword totalization means for reading out and totaling keywords from the keyword storage means and selecting keywords that are particularly likely to be topical axes;
Based on the result of totaling the general words appearing around the keyword selected by the keyword selection unit with reference to the general word storage unit, the document group including the keyword is a document group handling the same topic. Aggregation determination means for determining whether or not,
A document aggregating apparatus comprising:
前記キーワード集計手段は、
複数の文書に出現する、高頻度なキーワードを選別する手段を含む、
請求項6記載の文書集約装置。
The keyword counting means is:
Including means for selecting frequently occurring keywords that appear in multiple documents,
The document aggregation device according to claim 6.
前記集約判定手段は、
前記入力文書中で選別された前記キーワードの周辺に出現する一般ワードを集計する手段と、
一定割合以上の高頻度で出現する一般ワードの数に基づいて、前記キーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する手段と、を有する、
請求項6または7記載の文書集約装置。
The aggregation determination means includes
Means for counting general words appearing around the keywords selected in the input document;
Means for determining whether or not the document group including the keyword is a document group that handles the same topic, based on the number of general words that appear at a high frequency of a certain ratio or more,
The document aggregation device according to claim 6 or 7.
前記集約判定手段は、
各キーワードが出現する文書数Xを集計する手段と、
X個の文書内で該キーワードの数が一定以上多い場合に、該X個の文書内で該キーワードの周辺に高い頻度Yで出現した一般ワードを取得する手段と、
前記Yが前記Xに占める割合が高い一般ワードの数が一定以上多い場合に、前記X個の文書群が前記キーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む、
請求項8記載の文書集約装置。
The aggregation determination means includes
Means for counting the number of documents X in which each keyword appears;
Means for acquiring a general word appearing at a high frequency Y around the keyword in the X documents when the number of keywords in the X documents is more than a certain value;
Means for determining that the X document group is the same topic document group having the keyword as a topic axis when the number of general words in which the ratio of Y to X is high is greater than a certain value. ,
The document aggregation device according to claim 8.
前記集約判定手段は、
あるキーワードを話題の軸であると判定した場合に、該キーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該キーワードを軸とする同一話題文書群であると判定する手段を含む、
請求項9記載の文書集約装置。
The aggregation determination means includes
When it is determined that a certain keyword is a topic axis, among the X documents including the keyword, only documents including a certain number of general words having a high frequency Y are included in the same topic document group having the keyword as an axis. Including means for determining that
The document aggregation device according to claim 9.
少なくとも、記憶装置とCPUを備えたコンピュータにおいて、多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約プログラムであって、
前記記憶装置に、抽出された一般ワード及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、
前記請求項6乃至10記載の手段として機能させることを特徴とする文書集約プログラム。
At least in a computer having a storage device and a CPU, documents describing the same topic among many documents are aggregated, and a central keyword representing the aggregated document group, that is, a topic axis. A document aggregation program that also acquires keywords at the same time,
A computer having, in the storage device, general word storage means for storing the extracted general word and appearance position information of the general word; and keyword storage means for storing the extracted keyword and appearance position information of the keyword ,
11. A document aggregation program that functions as the means according to claim 6.
JP2005112279A 2005-04-08 2005-04-08 Document aggregation device and program Expired - Fee Related JP4525433B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005112279A JP4525433B2 (en) 2005-04-08 2005-04-08 Document aggregation device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005112279A JP4525433B2 (en) 2005-04-08 2005-04-08 Document aggregation device and program

Publications (2)

Publication Number Publication Date
JP2006293616A true JP2006293616A (en) 2006-10-26
JP4525433B2 JP4525433B2 (en) 2010-08-18

Family

ID=37414140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005112279A Expired - Fee Related JP4525433B2 (en) 2005-04-08 2005-04-08 Document aggregation device and program

Country Status (1)

Country Link
JP (1) JP4525433B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835290B1 (en) 2006-11-07 2008-06-05 엔에이치엔(주) System and method for classifying document
JP2009211277A (en) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Document data sorting device, document data sorting method, its program, and recording medium
KR101083510B1 (en) 2009-04-16 2011-11-16 엔에이치엔(주) System and method for time series clustering using frequency transform scheme
CN109614606A (en) * 2018-10-23 2019-04-12 中山大学 Long article this case fine range classification prediction technique and device based on document insertion

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Method and device for supporting document retrieval and document retrieving service using the method and device
JPH10340275A (en) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd Information extraction device
JP2000112949A (en) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd Information discrimination supporting device and record medium recording similar information discrimination supporting program
JP2000242647A (en) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> Method and system for retrieving related information
JP2001306596A (en) * 2000-04-17 2001-11-02 Sharp Corp Network information display method, recording medium stored with the method as program, and computer for executing the program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Method and device for supporting document retrieval and document retrieving service using the method and device
JPH10340275A (en) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd Information extraction device
JP2000112949A (en) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd Information discrimination supporting device and record medium recording similar information discrimination supporting program
JP2000242647A (en) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> Method and system for retrieving related information
JP2001306596A (en) * 2000-04-17 2001-11-02 Sharp Corp Network information display method, recording medium stored with the method as program, and computer for executing the program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835290B1 (en) 2006-11-07 2008-06-05 엔에이치엔(주) System and method for classifying document
JP2009211277A (en) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Document data sorting device, document data sorting method, its program, and recording medium
JP4594992B2 (en) * 2008-03-03 2010-12-08 日本電信電話株式会社 Document data classification device, document data classification method, program thereof, and recording medium
KR101083510B1 (en) 2009-04-16 2011-11-16 엔에이치엔(주) System and method for time series clustering using frequency transform scheme
CN109614606A (en) * 2018-10-23 2019-04-12 中山大学 Long article this case fine range classification prediction technique and device based on document insertion
CN109614606B (en) * 2018-10-23 2023-02-03 中山大学 Document embedding-based long text case penalty range classification prediction method and device

Also Published As

Publication number Publication date
JP4525433B2 (en) 2010-08-18

Similar Documents

Publication Publication Date Title
Ahmed et al. Detection of online fake news using n-gram analysis and machine learning techniques
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
JP4595692B2 (en) Time-series document aggregation method and apparatus, program, and storage medium storing program
Stamatatos et al. Clustering by authorship within and across documents
JP5106636B2 (en) System for extracting terms from documents with text segments
US9251248B2 (en) Using context to extract entities from a document collection
JP5273735B2 (en) Text summarization method, apparatus and program
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
Sardinha An assessment of metaphor retrieval methods
JP2002132811A (en) Method and system for answering question and recording medium with recorded question answering program
Xu et al. Using SVM to extract acronyms from text
Simaki et al. Identifying the Authors' National Variety of English in Social Media Texts.
JP4466334B2 (en) Information classification method and apparatus, program, and storage medium storing program
JP4525433B2 (en) Document aggregation device and program
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
WO2016067396A1 (en) Sentence sorting method and computer
Rousseau Graph-of-words: mining and retrieving text with networks of features
JP4428703B2 (en) Information retrieval method and system, and computer program
JP2007293377A (en) Input/output device for separating subjective page and non-subjective page
Suryaningrum Comparison of the TF-IDF method with the count vectorizer to classify hate speech
Bayomi et al. Towards evaluating the impact of anaphora resolution on text summarisation from a human perspective
Litvak et al. Towards multi-lingual summarization: A comparative analysis of sentence extraction methods on English and Hebrew corpora
Khosmood et al. User identification through command history analysis
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
JP2013084216A (en) Fixed phrase discrimination device and fixed phrase discrimination method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140611

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees