JP2006350656A - Time-series document grouping method, device, and program, and recording medium storing program - Google Patents

Time-series document grouping method, device, and program, and recording medium storing program Download PDF

Info

Publication number
JP2006350656A
JP2006350656A JP2005175538A JP2005175538A JP2006350656A JP 2006350656 A JP2006350656 A JP 2006350656A JP 2005175538 A JP2005175538 A JP 2005175538A JP 2005175538 A JP2005175538 A JP 2005175538A JP 2006350656 A JP2006350656 A JP 2006350656A
Authority
JP
Japan
Prior art keywords
keyword
document
subset
documents
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005175538A
Other languages
Japanese (ja)
Other versions
JP4595692B2 (en
Inventor
Yoshihide Sato
吉秀 佐藤
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005175538A priority Critical patent/JP4595692B2/en
Publication of JP2006350656A publication Critical patent/JP2006350656A/en
Application granted granted Critical
Publication of JP4595692B2 publication Critical patent/JP4595692B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To collect documents handling the same subject matter with a document having a plain style, such as a diary and one's thoughts, described in an arbitrary style as a target. <P>SOLUTION: A time-series document grouping device analyzes an input document, acquires a general word that is a word in the document and the appearance position information of the general word, acquires a keyword that becomes the candidate of a main keyword and the appearance position information of the keyword in the input document, totals the keyword, selects a frequent keyword, divides a document including the selected keyword into a subset, determines whether a document in the subset describes the same topic, based on the result of the totalled general word appearing within a predetermined range around the keyword in the document in the subset, integrates the determination result for each subset, and finally determines whether the keyword is the center of the topic. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、多数の文書の中から同一の題材を扱った文書を取得し、取得した文書群を代表する中心的なキーワードも同時に獲得する技術において、特に、日記や感想などの砕けた文体の文書を対象とし、時間と共に話題が徐々に変化する場合にも正確に獲得するための時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。   The present invention relates to a time series document aggregation method and apparatus, a program, and a storage medium storing the program. The present invention acquires a document dealing with the same subject from a large number of documents, and represents a central group representing the acquired document group. Time-series document aggregation method, apparatus, and program for acquiring keywords accurately, especially for documents with broken writing style such as diaries and impressions, even when topics gradually change with time And a storage medium storing the program.

内容が類似する文書を集約する代表的な手法としてクラスタリングがある。クラスタリング方法として、例えば、分類対象の要素をベクトルで表現し、ベクトル間の距離が小さい要素同士を同一クラスタに集約するk-means法があり、広く用いられている。この方法を文書の分類に適用する場合は、各単語をTF-IDF(Term Frequency & Inverse Document Frequency)などで重み付けした文書ベクトルを用いる(例えば、非特許文献1参照)。   Clustering is a typical technique for collecting documents with similar contents. As a clustering method, for example, there is a k-means method in which elements to be classified are expressed as vectors and elements having a small distance between the vectors are aggregated into the same cluster, which is widely used. When this method is applied to document classification, a document vector obtained by weighting each word with TF-IDF (Term Frequency & Inverse Document Frequency) or the like is used (for example, see Non-Patent Document 1).

また、単語の重み付けを改良し、特に重要度の高い単語を強調した文書ベクトルを用いてクラスタリング精度を高める手法も提案されている。
尾上守夫監訳、「パターン識別」新技術コミュニケーションズ pp.528-529
In addition, a technique has been proposed in which word weighting is improved and clustering accuracy is increased by using a document vector in which words having particularly high importance are emphasized.
Translated by Morio Onoe, "Pattern Identification" New Technology Communications pp.528-529

既存の文書分類技術は、ニュース記事や論文などの比較的文体の整った文章に対してはある程度の高い精度が期待できる。しかし、個人の日記や感想のような文書は、文体の揺れや文書の長短の違いがあるばかりでなく、口語や方言が含まれる場合もある。また、ある映画の感想や、あるスポーツ選手の大記録達成を喜ぶ文書など、同一の話題を扱った文書であっても、記述する人間が異なれば観点が異なるため、文の構成や用いられる単語の特徴などは様々である場合が多い。   Existing document classification techniques can be expected to have a certain level of accuracy for relatively well-written sentences such as news articles and papers. However, documents such as personal diaries and impressions not only have stylistic fluctuations and differences in the length of documents, but may also include spoken words and dialects. Also, even if a document deals with the same topic, such as an impression of a movie or a document that is pleasing to achieve a great record for a certain athlete, the viewpoint differs depending on the person who describes it. There are many cases where there are various features.

これに加え、上記の従来技術では、1文書内に複数の題材が記述された文書に対しても1つの文書ベクトルを与えて分類処理を行うため、含まれる話題の数によっては文書ベクトルが曖昧になり、分類精度が下がることもある。   In addition, in the above-described prior art, since one document vector is given to a document in which a plurality of subjects are described in one document and classification processing is performed, the document vector may be ambiguous depending on the number of topics included. And the classification accuracy may be lowered.

以上の理由により、特に個人の日記や感想のような雑多な文書に対しては、既存の文書分類技術が有効に働かず、内容的に類似する文書集合を正しく形成させることができないという問題がある。   For the above reasons, the existing document classification technology does not work effectively for miscellaneous documents such as personal diaries and impressions, and it is difficult to form a set of documents that are similar in content. is there.

本発明は、上記の点に鑑みなされたもので、膨大な文書群、とりわけ不特定多数の人々が任意の文体で記述した日記や感想などの砕けた文体の文書を対象とし、同一の題材を扱った文書を集約することが可能な時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。   The present invention has been made in view of the above points, and targets the same subject matter for enormous document groups, especially documents of broken style such as diaries and impressions written by an unspecified number of people in arbitrary style. It is an object of the present invention to provide a time-series document aggregation method and apparatus capable of aggregating handled documents, a program, and a storage medium storing the program.

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明(請求項1)は、文書解析手段と、キーワード抽出手段と、キーワード集計手段と、部分集合生成手段と、部分集合判定手段と、総合判定手段と、を有する装置において、時刻情報が付与された多数の文書の中で、同一の話題について記述された文書を集約し、かつ、集約した文書群を代表する中心的なキーワードである軸キーワードも同時に獲得する時系列文書集約方法であって、
文書解析手段が、入力文書を解析して、文書中の語である一般ワード及び、該一般ワードの出現位置情報を獲得し、一般ワード格納手段に格納する一般ワード抽出ステップ(ステップ1)と、
キーワード抽出手段が、入力文書中において、軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワード格納手段に格納するキーワード抽出ステップ(ステップ2)と、
キーワード集計手段が、キーワード格納手段に格納されているキーワードを集計し、高頻度のキーワードを選別するキーワード選別ステップ(ステップ3)と、
部分集合生成手段が、キーワード選別ステップで選別されたキーワードを含む文書を文書格納手段から取得して、該文書のそれぞれに対し、時刻情報に基づいて、部分集合に分割する部分集合生成ステップ(ステップ4)と、
部分集合判定手段が、部分集合内の文書の中で、キーワード周辺の予め定められた範囲内に出現する一般ワードを一般ワード格納手段から取得して、集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定する部分集合判定ステップ(ステップ5)と、
総合判定手段が、部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定する総合判定ステップ(ステップ6)と、を行う。
The present invention (Claim 1) provides time information in an apparatus having a document analysis unit, a keyword extraction unit, a keyword aggregation unit, a subset generation unit, a subset determination unit, and a comprehensive determination unit. A time-series document aggregation method that aggregates documents that describe the same topic among a large number of documents that have been collected, and that also acquires axis keywords that are central keywords that represent the aggregated documents. ,
A document analysis unit analyzes the input document, acquires a general word that is a word in the document, and appearance position information of the general word, and stores it in the general word storage unit (step 1);
A keyword extraction step (step 2) in which the keyword extraction unit acquires the keyword as a candidate for the axis keyword and the appearance position information of the keyword in the input document, and stores the keyword in the keyword storage unit
A keyword selection step (step 3) in which the keyword counting means totals the keywords stored in the keyword storage means and selects high-frequency keywords;
A subset generation step (step) in which the subset generation unit acquires a document including the keyword selected in the keyword selection step from the document storage unit and divides each document into subsets based on time information. 4) and
The subset determination means obtains, from the general word storage means, general words that appear within a predetermined range around the keyword in the documents in the subset, and based on the totaled results, A subset determination step (step 5) for determining whether or not documents in the document are described on the same topic;
A comprehensive determination unit performs a comprehensive determination step (step 6) for integrating the determination results for each subset and finally determining whether or not the keyword is the topic axis.

また、本発明(請求項2)は、部分集合生成ステップ(ステップ4)において、
文書の時刻情報が互いに近い文書を集約して部分集合を生成する。
Further, the present invention (Claim 2) provides a subset generation step (Step 4).
A subset is generated by aggregating documents having similar time information.

また、本発明(請求項3)は、部分集合生成ステップ(ステップ4)において、
文書の時刻情報が互いに近く、かつ内容が類似する文書を集約して部分集合を生成する。
Further, according to the present invention (Claim 3), in the subset generation step (Step 4),
A subset is generated by aggregating documents having similar time information and similar contents.

また、本発明(請求項4)は、部分集合判定ステップ(ステップ5)において、
選別されたキーワード周辺の予め定めた範囲内に出現する一般ワードを部分集合毎に集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、該部分集合内の文書が同一話題について記述されているか否かを判定する。
Further, the present invention (Claim 4), in the subset determination step (Step 5),
General words that appear within a predetermined range around the selected keywords are aggregated for each subset, and the documents in the subset are based on the same topic based on the number of common words that appear frequently at a certain rate or higher. Whether or not is described is determined.

また、本発明(請求項5)は、部分集合判定ステップ(ステップ5)において、
部分集合に含まれる文書数Xを集計し、該X個の文書内で該キーワード周辺の予め定められた範囲内に高い頻度Yで出現した一般ワードを取得し、YがXに占める割合が高い一般ワードの数が一定以上多い場合に、該部分集合内の文書が同一話題について記述されていると判定する。
Further, according to the present invention (Claim 5), in the subset determination step (Step 5),
The number of documents X included in the subset is aggregated, and general words appearing at a high frequency Y within a predetermined range around the keyword in the X documents are acquired, and the ratio of Y to X is high When the number of general words is more than a certain value, it is determined that the documents in the subset are described on the same topic.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項6)は、時刻情報が付与された多数の文書の中で、同一の話題について記述された文書を集約し、かつ、集約した文書群を代表する中心的なキーワードである軸キーワードも同時に獲得する時系列文書集約装置であって、
文書を蓄積する文書格納手段201と、
文書格納手段201から読み込まれた入力文書を解析して、文書中の語である一般ワード及び、該一般ワードの出現位置情報を獲得し、一般ワード格納手段203に格納する文書解析手段202と、
入力文書中において、軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワード格納手段205に格納するキーワード抽出手段204と、
キーワード格納手段205に格納されているキーワードを集計し、高頻度のキーワードを選別するキーワード集計手段206と、
キーワード集計手段206で選別されたキーワードを含む文書を文書格納手段201から取得して、該文書のそれぞれに対し、時刻情報に基づいて部分集合に分割する部分集合生成手段2071と、
部分集合内の文書の中で、キーワード周辺の予め定められた範囲内に出現する一般ワードを一般ワード格納手段203から取得して、集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定する部分集合判定手段2072と、
部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定し、話題の軸である場合に、集約文書格納手段208に格納する総合判定手段2073と、
を、有する。
The present invention (Claim 6) is an axis that is a central keyword representing a group of documents that aggregates documents describing the same topic among a large number of documents to which time information is assigned. A time-series document aggregation device that acquires keywords at the same time,
Document storage means 201 for storing documents;
A document analysis unit 202 that analyzes the input document read from the document storage unit 201, acquires a general word that is a word in the document, and appearance position information of the general word, and stores the information in the general word storage unit 203;
A keyword extraction unit 204 that acquires keywords that are candidates for axis keywords and appearance position information of the keywords in the input document and stores them in the keyword storage unit 205;
A keyword totaling unit 206 that totals the keywords stored in the keyword storage unit 205 and selects high-frequency keywords;
A subset generation unit 2071 that acquires documents including keywords selected by the keyword aggregation unit 206 from the document storage unit 201 and divides each document into subsets based on time information;
Among the documents in the subset, general words appearing within a predetermined range around the keyword are obtained from the general word storage means 203, and based on the totaled results, the documents in the subset are Subset determination means 2072 for determining whether or not the same topic is described;
A judgment result for each subset is integrated to finally determine whether or not the keyword is a topic axis, and when the keyword is a topic axis, a comprehensive judgment unit 2073 for storing in the aggregated document storage unit 208;
Have.

また、本発明(請求項7)は、部分集合生成手段2071において、
文書の時刻情報が互いに近い文書を集約して部分集合を生成する手段を含む。
Further, the present invention (Claim 7) is the subset generation means 2071,
Means for generating a subset by aggregating documents whose document time information is close to each other;

また、本発明(請求項8)は、部分集合生成手段2071において、
文書の時刻情報が互いに近く、かつ内容が類似する文書を集約して部分集合を生成する手段を含む。
Further, the present invention (Claim 8) is the subset generation unit 2071,
And means for generating a subset by aggregating documents having similar time information and similar contents.

また、本発明(請求項9)は、部分集合判定手段2072において、
選別されたキーワード周辺の予め定めた範囲内に出現する一般ワードを部分集合毎に集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、該部分集合内の文書が同一話題について記述されているか否かを判定する手段を含む。
Further, the present invention (claim 9) is the subset judging means 2072,
General words that appear within a predetermined range around the selected keywords are aggregated for each subset, and the documents in the subset are based on the same topic based on the number of common words that appear frequently at a certain rate or higher. Means for determining whether or not is described.

また、本発明(請求項10)は、部分集合判定手段2072において、
部分集合に含まれる文書数Xを集計し、該X個の文書内で該キーワード周辺の予め定められた範囲内に高い頻度Yで出現した一般ワードを取得し、YがXに占める割合が高い一般ワードの数が一定以上多い場合に、該部分集合内の文書が同一話題について記述されていると判定する手段を含む。
Further, the present invention (claim 10) is the subset determining unit 2072,
The number of documents X included in the subset is aggregated, and general words appearing at a high frequency Y within a predetermined range around the keyword in the X documents are acquired, and the ratio of Y to X is high Means for determining that the documents in the subset are described for the same topic when the number of general words is greater than a certain value.

本発明(請求項11)は、請求項6乃至10のいずれかに記載された手段を有する時系列文書集約装置として、コンピュータを機能させるプログラムである。   The present invention (Claim 11) is a program that causes a computer to function as a time-series document aggregating apparatus having means according to any one of Claims 6 to 10.

本発明(請求項12)は、請求項6乃至10のいずれかに記載された手段を有する時系列文書集約装置として、コンピュータを機能させるプログラムを格納した記憶媒体である。   The present invention (Claim 12) is a storage medium storing a program for causing a computer to function as a time-series document aggregating apparatus having means according to any one of Claims 6 to 10.

本発明は、まず、軸キーワードの候補を発見し、キーワード周辺に出現する語を集計することで該キーワードが実際に軸キーワードであるか否かを判定する方法である。あるキーワードを含む文書を時刻情報に基づいて分割した部分集合毎に、該キーワードが軸キーワードであるか否かを判定し、この判定結果を統合して該キーワードを含む文書全体が同一話題であるか否かを総合判定するため、時間と共に話題の内容が徐々に変化する場合にも対応可能な集約方法である。   The present invention is a method for determining whether or not a keyword is actually an axis keyword by first finding candidate axis keywords and counting up words appearing around the keyword. For each subset obtained by dividing a document including a keyword based on time information, it is determined whether or not the keyword is an axis keyword, and the determination result is integrated so that the entire document including the keyword is the same topic. This is an aggregation method that can cope with the case where the content of a topic gradually changes with time.

また、各部分集合の判定の際に軸キーワードの候補及びその周辺に出現する語(一般ワード)の統計情報により判定を行うため、句点がない文章や口語で記述された文書、方言を含む文書などの砕けた文体の文書であっても高精度に分類することができる。特に、個人の行動を記しただけの日記や極めて短い文書のように内容に話題性がない文書を除外し、同一の興味を持って記述された有益な文書のみを集約することができる。   In addition, since each of the subsets is determined based on the statistical information of the axis keyword candidates and the words (general words) appearing in the vicinity, documents that contain no punctuation, spoken words, or dialects Even documents with broken style such as can be classified with high accuracy. In particular, it is possible to collect only useful documents written with the same interest by excluding documents that are not topical, such as a diary or an extremely short document that only describes individual actions.

また、1文書中に複数の話題の記述がある場合でも、注目するキーワードの周辺に出現する語を用いて話題を集約するため、例えば、前半が話題A,後半が話題Bについて記述された文書は、前半に出現する語の分布から話題Aの構成文書として集約され、かつ後半に出現する語の分布から話題Bの構成文書としても集約される、といったように、含む話題に応じて多重に分類することができる。   In addition, even when there are descriptions of a plurality of topics in one document, the topics are aggregated using words appearing around the keyword of interest. For example, a document in which the first half is written about topic A and the second half is written about topic B Is aggregated as a constituent document of topic A from the distribution of words appearing in the first half and is also aggregated as a constituent document of topic B from the distribution of words appearing in the second half. Can be classified.

さらに、同一話題を含む文書を集約するばかりでなく、集約の根拠となった軸キーワードも取得できるため、本発明の実施結果を用いた文書検索や要約など、様々な応用が可能である。   Furthermore, not only the documents including the same topic are aggregated, but also the axis keyword that is the basis for the aggregation can be acquired, so various applications such as document search and summarization using the implementation results of the present invention are possible.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[第1の実施の形態]
図3は、本発明の第1の実施の形態における時系列文書集約装置の構成を示す。
[First Embodiment]
FIG. 3 shows the configuration of the time-series document aggregation device according to the first embodiment of the present invention.

同図に示す時系列文書集約装置は、集約対象の文書を時刻情報と共に格納しておく文書格納部201、入力文書を解析し、文章を構成する要素毎に分割する文書解析部202、文書解析部202の解析結果を元に取得した一般ワードと文書中での位置を記録する一般ワード格納部203、文書解析部202の解析結果をもとに、各文書を特徴付けるキーワードを抽出するキーワード抽出部205、キーワード及び文書中での位置を記録するキーワード格納部205、キーワード格納部205に記録されたキーワードを集計し、特に出現頻度が高いキーワードを軸キーワード候補として選別するキーワード集計部206、選別されたキーワードが軸キーワードであるか否かを判断する集約判定部207、軸キーワード、及び話題を構成する文書を格納する集約文書格納部208から構成される。   The time-series document aggregation device shown in FIG. 1 includes a document storage unit 201 that stores documents to be aggregated together with time information, a document analysis unit 202 that analyzes an input document and divides the document into elements that constitute a sentence, and document analysis A general word storage unit 203 that records a general word acquired based on the analysis result of the unit 202 and a position in the document, and a keyword extraction unit that extracts a keyword characterizing each document based on the analysis result of the document analysis unit 202 205, a keyword storage unit 205 that records keywords and positions in the document, a keyword storage unit 205 that totals the keywords recorded in the keyword storage unit 205, and selects keywords that have a particularly high appearance frequency as axis keyword candidates. Aggregation determination unit 207 for determining whether or not a keyword is an axis keyword, an axis keyword, and a document constituting a topic Composed of aggregated document storage unit 208 for storing.

図4は、本発明の第1の実施の形態における文書格納部に記録された文書データの例である。同図に示す文書格納部201において、各文書には、文書固有のID(文書ID)が与えられ、文書の作成時刻を表す時刻情報(タイムスタンプ)と共に記録されている。   FIG. 4 is an example of document data recorded in the document storage unit according to the first embodiment of the present invention. In the document storage unit 201 shown in the figure, each document is given an ID (document ID) unique to the document, and is recorded together with time information (time stamp) indicating the creation time of the document.

文書解析部202は、文書格納部201に記録された文書データのうち、文書ID及び本文のデータを1文書ずつ取得する。取得した本文データを、既存技術である形態素解析処理によって文書を構成する文法的最小単位である形態素に分割する。このとき、形態素解析結果と本文データを照合し、本文データ中での各形態素の出現位置を同時に調べておく。その後、全てまたは、一部の形態素を「一般ワード」として、出現位置、文書IDと共に一般ワード格納部203に格納する。この処理を、文書格納部201に記録された文書データそれぞれについて実施する。   The document analysis unit 202 acquires the document ID and the text data from the document data recorded in the document storage unit 201 one document at a time. The acquired text data is divided into morphemes that are grammatical minimum units constituting a document by morphological analysis processing that is an existing technology. At this time, the morpheme analysis result and the text data are collated, and the appearance position of each morpheme in the text data is checked simultaneously. Thereafter, all or part of the morphemes are stored as “general words” in the general word storage unit 203 together with the appearance position and the document ID. This process is performed for each document data recorded in the document storage unit 201.

「一般ワード」は、文書中で連続する形態素を連結させた複合語であってもよい。   The “general word” may be a compound word obtained by connecting consecutive morphemes in a document.

図5は、本発明の第1の実施の形態における一般ワードの記録例である。同図の一般ワード格納部203には、形態素解析した結果、名詞であると判断された形態素を一般ワードと見做し、文書における出現位置と共に記録している。なお、出現位置は一般ワードの先頭(START)と末尾(END)のそれぞれの位置を文書の先頭から数えたバイト数で表す。日本語の全角1文字の情報量は2バイトであるため、すべて全角文字の場合、文書の先頭を0バイトとすると、1文字目の始まりは位置「0」、2文字目の始まり配置「2」、3文字目の始まりは位置「4」となる。文書ID“0001”の文書の例では、0〜3バイトの位置に一般ワード「昨日」が出現し、16〜19バイトの位置に一般ワード「映画」が出現している。上述の複合語を一般ワードと見做した場合も同様で、一般ワードと見做した複合語を構成する形態素のうち、先頭に位置する形態素の開始位置を該一般ワードの開始位置とし、末尾に位置する形態素の終了位置を該一般ワードの終了位置とする。   FIG. 5 shows an example of recording a general word in the first embodiment of the present invention. The general word storage unit 203 shown in FIG. 6 considers a morpheme determined to be a noun as a result of morphological analysis as a general word, and records it together with the appearance position in the document. Note that the appearance position is represented by the number of bytes obtained by counting the positions of the beginning (START) and the end (END) of the general word from the beginning of the document. Since the amount of information for a Japanese double-byte character is 2 bytes, if all double-byte characters are used, if the beginning of the document is 0 bytes, the first character starts at position “0” and the second character starts at “2”. "The third character starts at position" 4 ". In the example of the document with the document ID “0001”, the general word “Yesterday” appears at a position of 0 to 3 bytes, and the general word “movie” appears at a position of 16 to 19 bytes. The same applies to the case where the above compound word is regarded as a general word. Among the morphemes constituting the compound word regarded as a general word, the start position of the morpheme positioned at the head is set as the start position of the general word, and at the end. The end position of the positioned morpheme is set as the end position of the general word.

以下の説明では、図5のように名詞のみを一般ワードとして一般ワード格納部203に登録した例を用いて説明する。   In the following description, an example in which only nouns are registered as general words in the general word storage unit 203 as shown in FIG. 5 will be described.

キーワード抽出部204は、文書解析部202の内部で行われる形態素解析処理の結果として得られる形態素とその品詞情報と出現位置を用い、各文書を特徴付けるキーワードを抽出する処理部である。抽出処理は文書毎に行い、同時に文書解析部202より取得しておく文書IDと合わせてキーワード格納部205に記録する。   The keyword extraction unit 204 is a processing unit that extracts a keyword characterizing each document using a morpheme obtained as a result of a morpheme analysis process performed in the document analysis unit 202, its part of speech information, and an appearance position. The extraction process is performed for each document, and simultaneously recorded in the keyword storage unit 205 together with the document ID acquired from the document analysis unit 202.

この処理は、以後の処理で同一の話題を扱った文書を集約する際に軸となる語(軸キーワード)の候補の獲得が目的である。軸キーワードは、例えば、あるスポーツ選手に注目して書かれた文書の場合は、そのスポーツ選手の名前、企業間の合併について書かれた文書の場合は、当該企業名など、主に固有名詞である。   The purpose of this process is to acquire candidates for words (axis keywords) that serve as axes when documents that deal with the same topic are collected in subsequent processes. For example, in the case of a document written focusing on a certain athlete, the axis keyword is mainly a proper noun such as the name of the athlete, and in the case of a document written about a merger between companies, is there.

キーワードの抽出には、既存技術「磯崎秀樹:メタルールと決定木学習を用いた日本語固有表現抽出、情報処理学会論文誌 Vol.43, No.5 pp.1481-1491(2002)」を用いる。   To extract keywords, we use the existing technology “Hideki Isozaki: Japanese Named Expression Extraction Using Metarules and Decision Tree Learning, Journal of Information Processing Society of Japan Vol.43, No.5 pp.1481-1491 (2002)”.

これは、形態素解析処理の結果として得られる形態素とその品詞情報と出現位置とに合わせて、ひらがな、カタカナ、漢字といった文字種情報に基づいて、入力文書中から企業名やスポーツチーム名などの「組織名」、「人名」、「地名」、製品名や建造物などの「人工物名」、「金額」などといった固有表現を自動抽出する技術である。   This is based on character type information such as hiragana, katakana, and kanji in accordance with the morpheme obtained as a result of the morpheme analysis process, its part-of-speech information, and the appearance position. This is a technology that automatically extracts specific expressions such as “name”, “person name”, “place name”, “artificial name” such as product name and building, “money amount”, and the like.

本実施の形態では、これらの固有表現の中で、「組織名」と「人名」のみを上記の既存技術により獲得したものを「キーワード」と見做して、出現位置情報と文書IDと共にキーワード格納部205に記録するものとする。以後の処理では、ここで記録されたキーワードを軸キーワードの候補として扱う。   In the present embodiment, among these proper expressions, only the “organization name” and “person name” acquired by the above-described existing technology are regarded as “keywords”, and the keyword is displayed together with the appearance position information and the document ID. It is assumed that it is recorded in the storage unit 205. In the subsequent processing, the keyword recorded here is treated as a candidate for the axis keyword.

なお、この際に同時に記録する各キーワードの出現位置の獲得方法は、文書解析部202における一般ワードの出現位置獲得方法と同様である。   Note that the method for acquiring the appearance position of each keyword recorded simultaneously at this time is the same as the method for acquiring the appearance position of a general word in the document analysis unit 202.

図6は、本発明の第1の実施の形態におけるキーワード格納部に記録されたキーワードの例を示す。キーワードが、文書ID、文書の先頭からの出現位置と共に記録されている。なお、出現位置は、キーワードの先頭(START)と末尾(END)の位置を文書の先頭から数えたバイト数で表す。   FIG. 6 shows an example of keywords recorded in the keyword storage unit in the first embodiment of the present invention. The keyword is recorded together with the document ID and the appearance position from the top of the document. Note that the appearance position is represented by the number of bytes obtained by counting the position of the beginning (START) and the end (END) of the keyword from the beginning of the document.

例えば、人名であるとして抽出されたキーワード「×谷○夫」が文書ID“0001”の44〜51バイトの位置にあったことを表す。同様に文書ID“0002”や“0004”の文書から抽出されたキーワードが記録されている。文書ID“0003”の日記風の文書には「組織名」と「人名」の固有表現が1語も現れなかったものとすると、図6のように文書ID“0003”に関する項は何も出力されない。   For example, this indicates that the keyword “× Tanioo” extracted as a personal name was positioned 44 to 51 bytes in the document ID “0001”. Similarly, keywords extracted from documents with document IDs “0002” and “0004” are recorded. Assuming that none of the unique expressions of “organization name” and “person name” appear in the diary-like document with the document ID “0003”, no section relating to the document ID “0003” is output as shown in FIG. Not.

キーワード集計部206は、キーワード格納部205に記録された文書ID及び該文書中で出現するキーワードを取得して各キーワードの頻度を集計し、一定値以上の高頻度のキーワード、及び該キーワードを含む文書のIDの一覧を集約判定部207に送出する。   The keyword totaling unit 206 acquires the document ID recorded in the keyword storage unit 205 and the keywords appearing in the document and totals the frequency of each keyword, and includes a high-frequency keyword greater than a certain value and the keyword. A list of document IDs is sent to the aggregation determination unit 207.

キーワードの頻度集計方法は、キーワードが1度でも出現する文書数を集計してもよいし、あるキーワードが各文書内で出現する回数を全て加算したものを該キーワードの頻度としてもよい。例えば、図6の例えば、「○山」というキーワードが文書ID“0002”、“0004”という2文書に出現しているため、「○山」の頻度は「2」とする。   The keyword frequency counting method may count the number of documents in which the keyword appears even once, or may add the total number of times a certain keyword appears in each document as the keyword frequency. For example, since the keyword “○ mountain” in FIG. 6 appears in two documents with document IDs “0002” and “0004”, the frequency of “○ mountain” is “2”.

一般に、ある事柄が話題になっている状態とは、数多くの文書で同一の題材が扱われている状態を呼ぶ。上記集計方法により算出した各キーワードの頻度に基づき、高頻度のキーワードのみを集約判定部207への送出対象とすることで、軸キーワードとして成立する可能性が高いキーワードを選択することができる。   In general, a state in which a certain matter is a topic refers to a state in which the same subject is handled in many documents. Based on the frequency of each keyword calculated by the above aggregation method, it is possible to select a keyword that is highly likely to be established as an axis keyword by setting only a high-frequency keyword as a transmission target to the aggregation determination unit 207.

図7は、本発明の第1の実施の形態におけるキーワード集計部が集約判定部に送出するデータの例である。   FIG. 7 is an example of data sent from the keyword totaling unit to the aggregation determining unit according to the first embodiment of the present invention.

キーワード集計部206から集約判定部207に送出されるデータは、「×谷○夫」というキーワードが合計55という頻度を持ち、文書ID「0001,0005,0032,0035,0052,…」の文書中に出現していたことを表す。   The data sent from the keyword totaling unit 206 to the aggregation determining unit 207 has a frequency of “55 x Tanio” as a keyword with a total frequency of 55, and is in the document with the document ID “0001, 0005, 0032, 0035, 0052,. It was appearing in.

集約判定部207は、キーワード集計部206より、図7のようなキーワード一覧を取得し、各キーワードが軸キーワードであるか否かを判定し、軸キーワードであると判定された場合には該キーワード、及び話題を構成する文書の文書IDを集約文書格納部208に記録する。当該判定処理は個々のキーワード毎に実施する。   The aggregation determination unit 207 obtains a keyword list as shown in FIG. 7 from the keyword aggregation unit 206, determines whether each keyword is an axis keyword, and if it is determined that it is an axis keyword, the keyword , And the document ID of the document constituting the topic is recorded in the aggregated document storage unit 208. The determination process is performed for each keyword.

集約判定部207は、部分集合分割部2071、部分集合判定部2072、総合判定部2073から構成される。   The aggregation determining unit 207 includes a subset dividing unit 2071, a subset determining unit 2072, and a comprehensive determining unit 2073.

集約判定部207がある1個のキーワードについて判定処理を実施する流れを説明する。   A flow of performing the determination process for one keyword with the aggregation determination unit 207 will be described.

図8は、本発明の第1の実施の形態における集約判定部の処理のフローチャートである。   FIG. 8 is a flowchart of the process of the aggregation determination unit in the first embodiment of the present invention.

ステップ601) 集約判定部207の部分集合分割部2071が、1個のキーワード及び該キーワードを含む文書ID一覧を取得する。   Step 601) The subset dividing unit 2071 of the aggregation determining unit 207 acquires one keyword and a document ID list including the keyword.

ステップ602) 部分集合分割部2071は、1個のキーワード及び該キーワードを含む文書ID一覧を取得すると、文書IDに基づいて文書格納部201を検索して該キーワードを含む文書群を取得し、当該文書群を時刻情報に基づいて部分集合に分割する。このとき、時刻情報が近い(作成時刻が近い)文書が同一の部分集合に集約されるよう分割する。例えば、時刻情報の日付部分を用い、日付毎に部分集合を形成させると、20XX年3月11日の部分集合、20XX年3月12日の部分集合、…が形成される。   Step 602) Upon obtaining the one keyword and the document ID list including the keyword, the subset dividing unit 2071 searches the document storage unit 201 based on the document ID to acquire the document group including the keyword, A document group is divided into subsets based on time information. At this time, the document is divided so that the documents having the same time information (similar creation time) are aggregated into the same subset. For example, when the date portion of the time information is used and a subset is formed for each date, a subset of March 11, 20XX, a subset of March 12, 20XX, and so on are formed.

例えば、人名として抽出されたキーワード「○山」に注目した場合、「○山」を含む文書である「0002,0004,0021,0021,…」を日別の部分集合に分割し、各部分集合内で「○山」周辺の予め定めた範囲に出現する一般ワードの出現頻度を集計する。本例では、文書“0002”も“0004”も時刻情報が共に、20XX年3月12日であるため、同一の部分集合に分割される。   For example, when focusing on the keyword “○ mountain” extracted as a personal name, the document “0002, 0004, 0021, 0021,...” Including “○ mountain” is divided into daily subsets, and each subset is set. The appearance frequency of general words appearing in a predetermined range around “○ mountain” is counted. In this example, both the documents “0002” and “0004” are divided into the same subset because the time information is both March 12, 20XX.

ステップ603) 部分集合判定部2072が、各部分集合内の文書中で各キーワード周辺の予め定められた範囲に出現する各一般ワードの出現頻度を集計する。   Step 603) The subset determination unit 2072 counts the appearance frequency of each general word appearing in a predetermined range around each keyword in the document in each subset.

部分集合内での一般ワードの集計は次のように行う。   Aggregation of general words in the subset is performed as follows.

図6において、「○山」はIDが“0002”の文書では20〜23バイト目の位置に出現しているため、この出現位置情報を一般ワード格納部203に記録されている一般ワードリストと照合し、文書“0002”中でキーワード「○山」周辺の予め定められた範囲内に出現している一般ワードを取得する。   In FIG. 6, “○ mountain” appears at the 20th to 23rd byte positions in the document whose ID is “0002”. Therefore, this appearance position information is stored in the general word list 203 and the general word list. Collation is performed, and a general word appearing within a predetermined range around the keyword “○ mountain” in the document “0002” is acquired.

各キーワードに対する一般ワードの取得範囲は、様々な設定が可能である。図9は、本発明の第1の実施の形態における一般ワード収集範囲の第1の例である。   Various settings can be made for the general word acquisition range for each keyword. FIG. 9 is a first example of a general word collection range in the first embodiment of the present invention.

同図(a)は、キーワード「○山」を含む文書“0002”である。キーワード格納部205には、キーワード「○山」の出現位置が、一般ワード格納部203には「衆議院」「解散」などの一般ワードの出現位置が記録されている。   FIG. 9A shows a document “0002” including the keyword “○ mountain”. The keyword storage unit 205 stores the appearance position of the keyword “Oyama”, and the general word storage unit 203 stores the appearance position of general words such as “Meeting House” and “Dissolution”.

例えば、同図(b)に示す例1では、キーワード「○山」を中心とする前後2語までの一般ワードを収集範囲とする例である。キーワード「○山」より前に出現する「解散」「首相」、後に出現する「決断」「総選挙」が収集対象の一般ワードとなる。   For example, Example 1 shown in FIG. 5B is an example where the collection range is a general word of up to two words before and after the keyword “Oyama”. “Dissolution” and “Prime Minister” appearing before the keyword “Mt. Yama”, and “decisions” and “general elections” appearing later are general words to be collected.

同図(c)に示す例2では、キーワードを含む文書全体を収集範囲とする例である。この場合、「衆議院」「解散」「首相」「決断」「総選挙」「憂鬱」以下、文書“0002”中の全ての一般ワードが収集対象となる。   In Example 2 shown in FIG. 5C, the entire document including the keyword is an example of the collection range. In this case, “general house”, “dissolution”, “prime”, “decision”, “general election”, “melancholy” and all general words in the document “0002” are collected.

同図(a)に示した文書“0002”の例では、「○山」より前には一般ワードが3語しかないため、例えば、同図(b)例1で前後5語を収集範囲とした場合は、キーワードは前からは3語しか取得できない。この場合はキーワード以前の3語全てとキーワード以後の5語を取得すればよい。   In the example of the document “0002” shown in FIG. 11A, there are only three general words before “○ mountain”. For example, in FIG. In this case, only 3 words can be acquired from the front. In this case, all three words before the keyword and five words after the keyword may be acquired.

ここまでの説明では、図5や図6の例のように、「文書ID」「一般ワード(またはキーワード)」「出現位置」のみを記録するものとしたが、文書解析部202が行う形態素解析の結果から文書中の句点「。」を取得して文と文の区切りを判断し、どの語とどの語が同じ文から抽出されたかを同時に記録するようにしてもよい。これを用いれば、図9(d)の例3に示すように、キーワード「○山」を含む文を中心とする前後幾つかの文を一般ワードの収集範囲とすることも可能である。図9(d)の例3は、キーワードを含む文のみを収集範囲とする例であるため、「衆議院」「解散」「首相」「決断」の4語のみが取得されるが、「キーワードを含む文を中心とする前後2文」というように、範囲を前後の文に拡大してもよい。   In the description so far, only “document ID”, “general word (or keyword)”, and “appearance position” are recorded as in the examples of FIGS. 5 and 6, but morphological analysis performed by the document analysis unit 202 is performed. From the result of the above, it is possible to obtain a punctuation mark “.” In the document, determine a sentence break, and simultaneously record which word and which word are extracted from the same sentence. If this is used, as shown in Example 3 in FIG. 9D, it is possible to set the general word collection range for several sentences around the sentence including the keyword “○ mountain”. Example 3 in FIG. 9D is an example in which only sentences including keywords are used as the collection range, so that only four words of “lower house”, “dissolution”, “prime”, and “decision” are acquired. The range may be expanded to the preceding and following sentences, such as “two sentences before and after the sentence including the center”.

句点「。」に加え、ピリオド「.」やエクスクラメーションマーク「!」、クエスチョンマーク「?」などを文の区切りと見做してもよい。   In addition to the punctuation mark “.”, A period “.”, An exclamation mark “!”, A question mark “?”, Etc. may be regarded as sentence delimiters.

一方、図10は、組織名として取得したキーワード「○○新聞」に注目して周辺の一般ワードを取得する際の範囲指定方法の別の例である。本発明の文書集約方法は、注目するキーワードの周辺に特定の一般ワードが高確率で出現する場合に、その文書群は同一の話題について記述された文書であり、かつそのキーワードが軸キーワードであると判定する方法である。図10にあげた文中の「(○○新聞発行)」という文字列が○○新聞社から発行される全てのニュース記事の見出しに定常的に用いられる文字列であるとすると、「○○新聞」の周辺では極めて高い確率で「発行」という一般ワードが出現することになる。このため、○○新聞社から発行されたあらゆるニュース記事が同一話題だとして誤って集約されてしまう。図10に示した範囲指定の例はこれを回避するための一方法である。注目するキーワードに隣接して出現する一般ワードを取得しないことで、同一発行者が高頻度で定常的に用いる軸であると誤判断するのを防ぐ。   On the other hand, FIG. 10 shows another example of a range designation method when a general word in the vicinity is acquired by paying attention to the keyword “XX newspaper” acquired as the organization name. According to the document aggregation method of the present invention, when a specific general word appears with high probability around a keyword of interest, the document group is a document describing the same topic, and the keyword is an axis keyword. It is the method of judging. Assuming that the character string “(XX newspaper issue)” in the sentence shown in FIG. 10 is a character string regularly used for the headings of all news articles issued by XX newspaper publishers, In the vicinity of “”, a general word “issue” appears with a very high probability. For this reason, all news articles issued by XX newspaper companies are mistakenly aggregated as being the same topic. The range designation example shown in FIG. 10 is one method for avoiding this. By not acquiring a general word that appears adjacent to the keyword of interest, it is possible to prevent the same issuer from mistakenly determining that this is an axis that is frequently used.

隣接する一般ワードではなく、注目するキーワードから一番近い一般ワードを取得対象から外すようにしてもよい。図10の場合、「殺到」及び「発行」が対象から外れることになる。   Instead of the adjacent general word, the general word closest to the keyword of interest may be excluded from the acquisition target. In the case of FIG. 10, “inundation” and “issue” are excluded from the target.

図9及び図10に示した範囲の設定方法に限らず、種々の一般ワード取得方法が利用可能である。例えば、前後1文などのように固定長で指定した範囲内に一般ワードが1語も含まれない場合に探索範囲を拡大し、注目キーワードから近い順に前後M語の一般ワードを取得すると、など、複数の方法と組み合わせて取得してもよい。   Not only the range setting methods shown in FIGS. 9 and 10, but various general word acquisition methods can be used. For example, when a general word is not included in a range specified by a fixed length, such as one sentence before and after, the search range is expanded, and general words of M words before and after are acquired in order from the keyword of interest, etc. You may acquire in combination with a plurality of methods.

上記のいずれかの方法で、部分集合内の全ての文書について、注目キーワード周辺の予め定めた範囲から一般ワードを取得し、例えば、「○山」というキーワードでは、「衆議院」が5回、「解散」が7回といったように、一般ワードが取得された文書数をそれぞれ集計する。   For any document in the subset, a general word is acquired from a predetermined range around the keyword of interest by any one of the above methods. For example, for the keyword “○ mountain”, “the House of Representatives” The number of documents from which general words are acquired is totaled, such as “dissolution” seven times.

ステップ604) 部分集合内の文書について集計が終わると、部分集合判定部2072は、該部分集合内の文書が同一話題について記述されているか否か、即ち、注目キーワード「○山」が軸キーワードであるか否かを判定する。   Step 604) When the aggregation of the documents in the subset is completed, the subset determination unit 2072 determines whether or not the documents in the subset are described for the same topic, that is, the keyword of interest “○ mountain” is the axis keyword. It is determined whether or not there is.

軸キーワードか否かの判断は、該キーワード周辺の予め定めた範囲内に、特定の語が高頻度で出現するかどうかによって行う。図11は、キーワード「○山」に注目した場合、及び「○○新聞」に注目した場合のそれぞれの場合において、周辺の一般ワードを集計した結果の、出現文書数が多い上位5語の例である「○山」を含む文書数28の部分集合について、周辺から取得された一般ワードは頻度の高いものから順に「衆議院」(25文書に出現)、「解散」(22文書に出現)、「総理」(21文書に出現)、「明日」(15文書に出現)、「総選挙」(13文書に出現)であったものとする。   Whether or not the keyword is an axis keyword is determined based on whether or not a specific word frequently appears within a predetermined range around the keyword. FIG. 11 shows an example of the top five words having a large number of appearing documents as a result of aggregating peripheral general words in each case of focusing on the keyword “Yama” and focusing on “XX newspaper”. As for the subset of 28 documents including “○ mountain”, the general words acquired from the periphery are “House of Representatives” (appearing in 25 documents), “Dissolving” (appearing in 22 documents) in descending order of frequency, It is assumed that “Prime” (appears in 21 documents), “Tomorrow” (appears in 15 documents), and “General Election” (appears in 13 documents).

このとき、部分集合判定部2072は、ここに挙げた上位5位までの一般ワードの出現文書数のうち、部分集合の構成文書数28の半分の14を超える一般ワード数を集計する。この例では、14を超える出現文書数を有する一般ワードは、「衆議院」「解散」「総理」「明日」の4語である。つまり、周辺から取得した一般ワード上位5語のうち4語が一定以上の高い頻度で出現していたことになる。   At this time, the subset determination unit 2072 counts the number of general words exceeding 14 that is half of the number of documents constituting the subset, out of the number of appearance documents of the general words up to the top five. In this example, the general words having the number of appearing documents exceeding 14 are four words of “the House of Representatives”, “Dissolution”, “Prime Minister” and “Tomorrow”. In other words, four words out of the top five general words acquired from the periphery appear at a frequency higher than a certain level.

同様にすると、同じく、図11に示す「○○新聞」の例では、部分集合の構成文書数32の版数16を超えるような高い頻度で出現した一般ワードは1語も存在しない。   Similarly, in the example of “XX newspaper” shown in FIG. 11, there is no single general word that appears with a high frequency exceeding the version number 16 of the constituent document number 32 of the subset.

部分集合判定部2072は、高頻度順に並べた一般ワードの上位の語(例えば、上位5語)のうち、条件を満たす時に高い頻度の一般ワードの個数(「○山」の例では4語、「○○新聞」の例では0語)を調べ、その割合が例えば60%以上であった場合に、該部分集合内の文書が同一の話題について記述されていると判定する。「○山」は上位5語のうち条件を満たした4語は80%に相当し、60%を超えるため同一話題であると判定されるが、「○○新聞」は条件を満たす語が1語も存在しない(0%)ため、同一話題ではないと判定される。   The subset determination unit 2072 includes the number of general words having a high frequency when satisfying the condition among the upper words (for example, upper five words) of the general words arranged in the order of high frequency (for example, four words in the case of “○ mountain”, In the example of “XX newspaper”, 0 word) is examined, and when the ratio is 60% or more, for example, it is determined that the documents in the subset are described on the same topic. Of the top five words, “Yama” corresponds to 80% of the four words that satisfy the condition and exceeds 60%, so it is determined that the topic is the same topic. Since there is no word (0%), it is determined that the topics are not the same.

あるキーワードを含む文書群が同一の題材について記述されている場合、キーワード周辺の語の出現パターンが文書間で類似するため、周辺の一般ワードの出現回数を集計した結果、高頻度を記録しやすくなる。言い換えれば、キーワード周辺に出現する語に偏りがある。一方、あるキーワードの一般性が高く、様々な分野の文書に用いられる語の場合、周辺に出現する語がまちまちであるため、それぞれの出現回数を集計しても高頻度にはなりにくい。言い換えれば、キーワード周辺に出現する語に偏りがない。上記判定は、この特徴を利用したものであり、注目キーワードの周辺での出現回数が多い一般ワードのうち、特に頻度の高い語が占める割合を調べることにより、軸キーワードであるか否かを自動判定するものである。   When a group of documents containing a certain keyword is described with respect to the same subject matter, the appearance patterns of words around the keyword are similar between documents. Become. In other words, words appearing around the keyword are biased. On the other hand, a generality of a certain keyword is high, and in the case of a word used in documents in various fields, words appearing in the vicinity vary, and therefore it is difficult to increase the frequency even if the number of occurrences of each keyword is counted. In other words, the words appearing around the keyword are not biased. The above determination uses this feature, and it is automatically determined whether or not it is an axis keyword by examining the proportion of general words that frequently appear around the keyword of interest, occupying a particularly frequent word. Judgment.

この特徴に注目した判定方法であれば、上記の例に限定される必要はなく、様々な応用が可能である。   If it is the determination method which paid its attention to this characteristic, it is not necessary to be limited to said example, and various applications are possible.

例えば、予めあらゆる2つの語句が同時に用いられる可能性を数値化したデータベースを構築しておき、周辺から取得された高頻度な一般ワードが互いに関連するか否かによって判定を行ってもよい。この場合、図11の例でキーワード「○山」の周辺から取得された「衆議院」や「解散」や「総理」などの一般ワードは、上記データベースを参照すれば互いに関連が深い語であることがわかり、「○山」が話題の軸であるとの判定材料とすることができる。逆に「○○新聞」の周辺から取得された「逮捕」や「震度」や「ホームラン」は関連性が低く、「○○新聞」は一般性の高い語であるために軸キーワードとはならないという判定を行うことができる。   For example, it is possible to construct a database in which the possibility that all two words are used at the same time is constructed in advance, and determine whether or not high-frequency general words acquired from the periphery are related to each other. In this case, in the example of FIG. 11, general words such as “the House of Representatives”, “dissolution”, and “Prime Minister” obtained from the vicinity of the keyword “Yama” are words closely related to each other by referring to the database. It can be used as a judgment material that “○ mountain” is the topic axis. Conversely, “Arrest”, “Seismic Intensity”, and “Home Run” obtained from the vicinity of “XX Newspaper” are not related, and “XX Newspaper” is a general word, so it is not an axis keyword. It can be determined.

あるいは、あらゆる2つの語句が1文や1文書中に共に出現する可能性を数値化するデータベースを予め構築するのではなく、入力文書から動的に構築してもよい。この場合は、キーワード「○山」の周辺から取得された「衆議院」や「解散」などの高頻度な一般ワードが同一文中や同一文書中など、一定の範囲内に共に出現する確率を算出し、その確率が高ければ同一話題であると判定することができる。   Alternatively, a database that quantifies the possibility of any two words or phrases appearing together in one sentence or one document may not be built in advance, but dynamically constructed from the input document. In this case, calculate the probability that high-frequency general words such as “Senior House” and “Dissolution” obtained from the keyword “○ Mountain” will appear together in a certain range, such as in the same sentence or in the same document. If the probability is high, it can be determined that the topic is the same.

ステップ605) 注目キーワード「○山」を含む文書の各部分集合の判定を終えた場合は、ステップ606に移行し、まだ、判定を行っていない部分集合があれば、ステップ603に移行する。   Step 605) When the determination of each subset of the document including the keyword of interest “○ mountain” is completed, the process proceeds to Step 606, and if there is a subset that has not been determined yet, the process proceeds to Step 603.

ステップ606) 総合判定部2073が、「○山」を含む文書群を分割して生成した部分集合それぞれの判定結果を用いて、注目キーワード「○山」が軸キーワードであるか否かの最終的な判定を行う。   Step 606) The comprehensive determination unit 2073 finally uses the determination results of the subsets generated by dividing the document group including “○ mountain” to determine whether or not the attention keyword “○ mountain” is an axis keyword. Make a good judgment.

総合判定は、注目キーワード「○山」を含む文書の部分集合のうち、いくつかの部分集合がステップ604で同一話題であると判定されたかによって行う。注目キーワード「○山」を含む文書の部分集合が10個あり、ステップ604で7個が同一話題と判定されたものとすると、同一話題と判定された割合は70%である。このとき、総合判定部2073は、例えば、この割合が50%を超える場合に、注目キーワード「○山」を含む全ての文書が同一の話題で構成され、「○山」が軸キーワードであるという最終判定を下す。   Comprehensive determination is performed based on whether it is determined in step 604 that several subsets of the subset of documents including the keyword of interest “○ mountain” are the same topic. Assuming that there are 10 document subsets including the keyword of interest “Oyama” and 7 are determined to be the same topic in step 604, the ratio determined to be the same topic is 70%. At this time, for example, when this ratio exceeds 50%, the overall determination unit 2073 says that all documents including the keyword of interest “Oyama” are composed of the same topic, and “Oyama” is an axis keyword. Make a final decision.

部分集合の単位で同一話題か否かの判定を行い、各判定結果を統合して最終判定を行う目的は、時間と共に徐々に変化する話題の取得にある。あるキーワードを軸とする話題の注目度が高ければ高いほど、時間と共に次々と別の話題に推移することがある。この場合には、キーワード周辺に出現する一般ワードも時間と共に少しずつ移り変わるため、部分集合への分割を行わずに、ステップ604と同様の判定を行うと、話題の軸であるとは判定されなくなる。時刻情報に基づいて文書を分割し、部分集合単位で判定処理を行うことで、推移する話題にも対応した集約が可能になる。   The purpose of determining whether or not the topics are the same in units of subsets and integrating the determination results to make a final determination is to acquire topics that gradually change with time. As the degree of attention of a topic centered on a certain keyword increases, there may be a transition to another topic over time. In this case, since the general words appearing around the keyword also change gradually with time, if the same determination as in step 604 is performed without dividing into subsets, it is not determined that the word is the topic axis. . By dividing the document based on the time information and performing determination processing in units of subsets, it is possible to perform aggregation corresponding to a changing topic.

総合判定の結果、注目するキーワードが軸キーワードであると判定された場合は、ステップ607に移行し、そうでない場合は、処理を終了する。   As a result of the comprehensive determination, if it is determined that the keyword of interest is an axis keyword, the process proceeds to step 607, and if not, the process ends.

ステップ607) キーワード及び当該キーワードを含む文書のIDを集約文書格納部208に記録し、次のキーワードの判定処理に移る。   Step 607) The keyword and the ID of the document including the keyword are recorded in the aggregated document storage unit 208, and the process proceeds to the next keyword determination process.

[第2の実施の形態]
本実施の形態における時系列文書集約装置の構成は、図3に示す前述の第1の実施の形態における構成と同様である。
[Second Embodiment]
The configuration of the time-series document aggregation device in the present embodiment is the same as the configuration in the first embodiment described above shown in FIG.

また、処理の流れも第1の実施の形態と同じく、文書解析部202による一般ワードの抽出、キーワード抽出部204によるキーワードの抽出、キーワード集計部206によるキーワード出現数の集計及び高頻度キーワードの選定、集約判定部207による同一話題か否かの判定及び文書出力、となる。   Also, the processing flow is the same as in the first embodiment. Extraction of general words by the document analysis unit 202, extraction of keywords by the keyword extraction unit 204, aggregation of keyword appearances by the keyword aggregation unit 206, and selection of high-frequency keywords , The aggregation determination unit 207 determines whether or not the topic is the same and outputs the document.

本実施の形態では、集約判定部207の処理のみが第1の実施の形態と異なる。   In the present embodiment, only the processing of the aggregation determination unit 207 is different from that of the first embodiment.

以下に本実施の形態の集約判定部207における、各キーワードについて行う処理の流れを説明する。   The flow of processing performed for each keyword in the aggregation determination unit 207 of this embodiment will be described below.

第1の実施の形態では、部分集合単位の判定を行った後、それらを一括統合して最終的な判定を行う2段階の判定であったのに対し、本実施の形態では、時間情報のみではなく、文書間の関連性に基づいて分割した部分集合毎に第1の判定を行った後、その結果を用いて一定期間毎に同一話題か否かを判定(第2の判定)し、最後にそれらを統合して最終判定を行う、3段階の判定を行う。   In the first embodiment, the determination is made in units of subsets, and then the determination is made in two stages in which the final determination is performed by integrating them together. In the present embodiment, only time information is used. Instead, after performing the first determination for each subset divided based on the relevance between documents, it is determined (second determination) whether or not it is the same topic at a certain period using the result, Finally, they are integrated to make a final determination, and a three-stage determination is performed.

図12は、本発明の第2の実施の形態における集約判定部の動作のフローチャートである。   FIG. 12 is a flowchart of the operation of the aggregation determination unit according to the second embodiment of the present invention.

ステップ1001) 集約判定部207内部の部分集合分割部2071が、1個のキーワード、及び、該キーワードを含む文書ID一覧を取得する。   Step 1001) The subset dividing unit 2071 in the aggregation determining unit 207 acquires one keyword and a document ID list including the keyword.

ステップ1002) 部分集合分割部2071が、キーワードを含む文書中でキーワード周辺の予め定めた範囲内に出現する一般ワードを集計し、各文書のベクトルを生成する。なお、ベクトル生成方法については後述する。   Step 1002) The subset dividing unit 2071 counts general words appearing within a predetermined range around the keyword in the document including the keyword, and generates a vector of each document. The vector generation method will be described later.

ステップ1003) 部分集合分割部2071は、キーワードを含む文書IDに基づいて文書格納部201を検索し、検索された文書のぞれぞれに対し、文書格納部201に記録されている時刻情報と、以下に述べる文書ベクトルから算出する文書間類似度とに基づいて部分集合に分割する。このとき、時刻情報が近く、かつ類似性の高い文書が同一の部分集合に属すように分割する。部分集合分割には、文書間の距離を例えば、次式d(m,n)で定義したクラスタリング技術を用いる。   Step 1003) The subset dividing unit 2071 searches the document storage unit 201 based on the document ID including the keyword, and for each searched document, the time information recorded in the document storage unit 201 and Then, it is divided into subsets based on the similarity between documents calculated from the document vectors described below. At this time, the document is divided so that documents having close time information and high similarity belong to the same subset. For the subset division, for example, a clustering technique in which the distance between documents is defined by the following formula d (m, n) is used.

d(m,n)=(1−S(m,n))×exp(−│t(m)−t(n)│/T)
S(m,n)が文書m,n巻の内容の類似度である。exp(−│t(m)−t(n)│/T)がこれら2文書間の時間距離であり、各文書の時刻情報t(m),t(n)が近いほど、1に近い大きな値をとる。時間距離は、2文書の時刻情報が同一の場合に最大値1をとる。Tは時間距離の減衰の度合いを決定するパラメータであり、扱う文書データに含まれる話題の時間的推移の速度に応じて固定的に設定すればよい。
d (m, n) = (1-S (m, n)) × exp (− | t (m) −t (n) | / T)
S (m, n) is the similarity of the contents of documents m and n. exp (− | t (m) −t (n) | / T) is the time distance between these two documents, and the closer to the time information t (m) and t (n) of each document, the closer to 1 Takes a value. The time distance takes a maximum value of 1 when the time information of the two documents is the same. T is a parameter that determines the degree of attenuation of the time distance, and may be fixedly set according to the speed of the temporal transition of the topic included in the document data to be handled.

上記の文書距離を用いたクラスタリングを行うことで、時間的に近く、かつ同一話題を構成する文書が同一クラスタに集約される。   By performing clustering using the above document distance, documents that are close in time and constitute the same topic are collected in the same cluster.

以下、ベクトルの生成法、及び、文書間類似度の算出方法について述べる。   Hereinafter, a method for generating vectors and a method for calculating similarity between documents will be described.

文書間類似度S(m,n)は、注目しているキーワード周辺の予め定めた範囲内に出現する一般ワードの出現頻度を比較することで行う。一般ワードの集計方法は、第1の実施の形態における集計方法と同様である。文書における一般ワードの出現頻度で文書ベクトルを定義し、例えば、コサイン距離を文書m,n間の類似度S(m,n)とすればよい。   The similarity S (m, n) between documents is determined by comparing the appearance frequencies of general words that appear within a predetermined range around the keyword of interest. The general word counting method is the same as the counting method in the first embodiment. The document vector is defined by the appearance frequency of the general word in the document, and for example, the cosine distance may be set as the similarity S (m, n) between the documents m and n.

ステップ1004) 続いて、部分集合分割部2071が類似度と時間距離に基づいて分割した部分集合単位で、同一話題か否かの反映を行う。   Step 1004) Subsequently, the subset dividing unit 2071 reflects whether or not the topic is the same in the subset unit divided based on the similarity and the time distance.

ステップ1005) 全ての部分集合の判定が終わるまでステップ1004の処理を行い、全ての部分集合のチェックが終わったら、ステップ1006に移行する。   Step 1005) The processing of Step 1004 is performed until the determination of all the subsets is completed, and when all the subsets are checked, the process proceeds to Step 1006.

ステップ1006) 部分集合毎の判定結果を、例えば1日などの一定期間毎に集約して判定を行う。ステップ1004で同一話題であると判定された部分のみについて、部分集合内の文書の時刻情報を平均して重心の時刻を算出し、その重心時刻に応じて部分集合を日別に分類する。ステップ1004で同一話題ではないと判定された部分集合については、ここで、棄却する。棄却の目的は、クラスタリングの誤差の排除である。クラスタリングを行う際には微小クラスタが生じたり、不正確な(文書間の類似度があまり高くない)クラスタが生成されてしまう場合がある。これらの影響を防ぐため、同一話題と判定された部分集合のみを扱う。   Step 1006) The determination results for each subset are collected and determined every certain period such as one day. For only the parts determined to be the same topic in step 1004, the time information of the centroid is calculated by averaging the time information of the documents in the subset, and the subset is classified by day according to the centroid time. The subsets determined not to be the same topic in step 1004 are rejected here. The purpose of rejection is to eliminate clustering errors. When clustering is performed, a minute cluster may be generated or an inaccurate cluster (a similarity between documents is not so high) may be generated. In order to prevent these effects, only a subset determined to be the same topic is handled.

同一話題と判定された部分集合が、1日などの一定期間内に例えば、3以上含まれる場合、この期間中には3個の話題が同時に存在していた、つまり、この期間に関しては同一話題ではないと判定する。   If a subset determined to be the same topic is included in, for example, three or more within a certain period such as one day, three topics existed simultaneously during this period, that is, the same topic for this period. It is determined that it is not.

例えば、あるキーワード「○○新聞」に注目した場合、ある1日に分類された部分集合数が、4であったとする。しかし、図10に示したように「○○新聞」が様々な文書に含まれる一般的な用語であり、軸キーワードとして適さない語であったとしたとき、クラスタリングを行うと、「○○新聞社が発行した野球の試合結果の文書からなるクラスタ」「○○新聞社が発行した株価下落の文書からなるクラスタ」などのように、内容の違いに応じて文書が分割される。このような場合であっても、個々のクラスタは同一の話題で構成されているとすると、本例の「○○新聞」のようなキーワードが最終的に話題の軸であると判定されてしまう。これを防ぐために、日別などの一定期間毎の集約判定を行い、例えば、1日という期間中で「○○新聞」が軸キーワードであるか否かの中間的な判定処理(第2の判定)を行う。「○○新聞」が様々な話題の文書に共通的に含まれるキーワードであったとすると、1日毎の集約の結果、同時に複数の話題が存在することになり、棄却される。   For example, when attention is paid to a certain keyword “XX newspaper”, it is assumed that the number of subsets classified on a certain day is four. However, as shown in FIG. 10, when “XX newspaper” is a general term included in various documents and is not suitable as an axis keyword, clustering results in “XX newspaper company”. The documents are divided according to the difference in content, such as “cluster consisting of documents of baseball game results issued by” and “cluster consisting of documents of falling stock prices issued by XX newspaper”. Even in such a case, if each cluster is composed of the same topic, a keyword such as “XX newspaper” in this example is finally determined to be the topic axis. . In order to prevent this, an aggregation determination is performed at regular intervals such as daily, for example, an intermediate determination process (second determination) as to whether or not “XX newspaper” is an axis keyword in a period of one day. )I do. Assuming that “XX newspaper” is a keyword that is commonly included in documents of various topics, a plurality of topics are present at the same time as a result of aggregation every day, and are rejected.

ステップ1007) 最後に、一定の期間の判定結果を全て統合し、全期間にわたって注目キーワードの話題の軸と呼ぶのに相応しい語か否かを判定する。   Step 1007) Finally, all the determination results for a certain period are integrated, and it is determined whether the word is suitable for being called the topic axis of the keyword of interest over the entire period.

判定の結果、注目するキーワードが軸キーワードであると判定された場合は、ステップ1008に移行し、そうでない場合は、出力は行わず処理を終了する。   As a result of the determination, if it is determined that the keyword of interest is an axis keyword, the process proceeds to step 1008. If not, output is not performed and the process ends.

ステップ1008) キーワード及び当該キーワードを含む文書のIDを集約文書格納部208に記録する。   Step 1008) The keyword and the ID of the document including the keyword are recorded in the aggregated document storage unit 208.

最終判定の処理は、第1の実施の形態における最終判定と同様に、日別の各判定結果を集計し、同一話題と判定された日数が全体に占める割合によって、例えば、50%を超えた場合に同一話題と判定する。   As in the final determination in the first embodiment, the final determination process totals each determination result for each day, and exceeds 50%, for example, depending on the ratio of the number of days determined as the same topic to the whole. If the same topic is determined.

上記の第1及び第2の実施の形態において、話題構成文書のIDを出力する際に、軸キーワードを含む全ての文書のIDを出力するのではなく、最終的な判定ステップで同一話題であると判定された部分集合の文書のみを出力対象としてもよい。   In the first and second embodiments described above, when outputting the IDs of the topic constituent documents, the IDs of all the documents including the axis keyword are not output, but are the same topic in the final determination step. Only a subset of documents determined to be output may be output.

あるいは、キーワードの周辺から取得された一般ワードの上位5位のうち、例えば、3語以上を含むような文書のみのIDを出力してもよい。図11に示したキーワード「○山」の例で、「衆議院」「解散」「総理」「明日」「総選挙」のうち3語以上を含む文書のみを、「○山」を軸とする話題文書群として出力することで、偶然に「○山」というキーワードを含んだ文書を混在させることなく、「衆議院解散に伴う総選挙」というある特定の話題について記述された文書のみを厳選することができる。   Alternatively, the IDs of only documents including, for example, three or more words among the top five general words acquired from the periphery of the keyword may be output. In the example of the keyword “Yama” shown in FIG. 11, only documents that include three or more words among “the House of Representatives”, “Dissolution”, “Prime Minister”, “Tomorrow”, and “General Election” are the topics centered on “Yama”. By outputting as a group of documents, it is possible to carefully select only documents that describe a specific topic such as “the general election accompanying the dissolution of the House of Representatives” without accidentally mixing documents that contain the keyword “○ mountain”. it can.

当然ながら、上記出力方法の組み合わせで、同一話題であると判定された部分集合の文書であり、かつ一般ワードの上位5位のうちの3語以上を含む文書のみを出力対象としてもよい。   Of course, only documents that are subset documents determined to be the same topic by a combination of the above output methods and that include three or more words in the top five general words may be output.

以上の処理の結果、上記の実施の形態における「○○新聞」のようにあらゆる分野の文書に用いられる一般性の高いキーワードではなく、例えば、首相の名字である「○山」の例のように話題の中心に位置付けられるキーワードが軸キーワードであると判定され、同時にその話題を構成する文書群が出力される。また、時間の推移と共に話題が推移する場合にも、話題の軸として適したキーワードであれば、適切に判定される。   As a result of the above processing, it is not a highly general keyword used for documents in all fields like “XX newspaper” in the above embodiment, but, for example, “Yama”, which is the prime minister ’s last name. It is determined that the keyword positioned at the center of the topic is an axis keyword, and at the same time, a document group constituting the topic is output. Further, even when the topic changes with time, if the keyword is suitable as the topic axis, it is determined appropriately.

なお、上記の実施の形態では、固有表現と呼ぶ語をキーワードと見做し、名詞を一般ワードと見做したが、これに限定するものではなく、様々に変更可能である。   In the above-described embodiment, a word called a proper expression is regarded as a keyword, and a noun is regarded as a general word. However, the present invention is not limited to this, and various changes can be made.

上記のように、本発明は、あるキーワードを含む文書を分割した部分集合を生成し、各部分集合中の文書にてキーワード周辺の予め定めた範囲内に出現する語句(一般キーワード)の頻度を集計することで部分集合内の文書が同一の話題について記述されたものか否かを判定し、各部分集合での判定結果を用いて、該キーワードを含む文書全体が同一の話題について記述されたものか否かを最終的に判定する方法である。例えば、首相の名字である「○山」というキーワードに注目した場合、周辺に「衆議院」や「総選挙」や「回線」などの一般ワードが高確率で出現していれば、それらの文書は政権崩壊による衆議院解散を題材とした文書群であると判定する。   As described above, the present invention generates a subset obtained by dividing a document including a certain keyword, and determines the frequency of words (general keywords) appearing within a predetermined range around the keyword in the document in each subset. It is determined whether or not the documents in the subset are described with respect to the same topic by counting, and the entire document including the keyword is described with respect to the same topic using the determination result in each subset. It is a method of finally determining whether or not the object is a thing. For example, if you pay attention to the prime minister's surname, “Yama”, if there are general words such as “the House of Representatives”, “General Election”, and “Line” appear in the vicinity, those documents will be Judged as a group of documents on the dissolution of the House of Representatives due to the collapse of the administration.

この方法により、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード(軸キーワード)の獲得も同時に行う。   By this method, documents describing the same topic are aggregated, and a central keyword (axis keyword) representing the aggregated document group is simultaneously acquired.

なお、軸キーワードか否かの判定と、該キーワードを軸とする話題の構成文書の集約は同時に行われるものである。言い換えれば、あるキーワードに注目したときに得られる文書集合について、該文書集合内の文書が同一の話題について記述されているとの判定がなされれば、同時に該キーワードが話題の軸と判定されたことになる。   Note that the determination of whether or not the keyword is an axis keyword and the aggregation of topical configuration documents with the keyword as an axis are performed simultaneously. In other words, if it is determined that a document set obtained when attention is paid to a keyword, the documents in the document set describe the same topic, the keyword is simultaneously determined as the topic axis. It will be.

また、上記の図3に示す文書解析部、キーワード抽出部、キーワード集計手段、集約判定部の動作を時系列文書集約装置として機能するコンピュータに実行させるためのプログラムとして構築し、当該コンピュータにインストールして実行する、または、ネットワークを介して流通させることが可能である。   3 is constructed as a program for causing a computer functioning as a time-series document aggregation device to execute the operations of the document analysis unit, the keyword extraction unit, the keyword aggregation unit, and the aggregation determination unit shown in FIG. 3 and is installed in the computer. Or can be distributed via a network.

また、構築されたプログラムをハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk device, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、ネットワーク上、または、記憶手段上の多数の文書の中から同一の題材を扱った文書及び、文書群の中心的なキーワードを獲得する技術に適用可能である。   The present invention can be applied to a technique for acquiring a document that handles the same subject from a large number of documents on a network or storage means and a central keyword of a document group.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の第1の実施の形態における時系列文書集約装置の構成図である。It is a block diagram of the time series document aggregation apparatus in the 1st Embodiment of this invention. 本発明の第1の実施の形態における文書格納部に記録された文書データの例である。It is an example of the document data recorded on the document storage part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における一般ワード格納部に記録された一般ワードの例である。It is an example of the general word recorded on the general word storage part in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるキーワード格納部に記録されたキーワードの例である。It is an example of the keyword recorded on the keyword storage part in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるキーワード集計部が集約判定部に送出するキーワード一覧の例である。It is an example of the keyword list which the keyword total part in the 1st Embodiment of this invention sends out to an aggregation determination part. 本発明の第1の実施の形態における集約判定部の処理のフローチャートである。It is a flowchart of a process of the aggregation determination part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における一般ワード収集範囲の第1の例である。It is a 1st example of the general word collection range in the 1st Embodiment of this invention. 本発明の第1の実施の形態における一般ワード収集範囲の第2の例である。It is a 2nd example of the general word collection | recovery range in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるキーワード周辺から取得した一般ワードの例である。It is an example of the general word acquired from the keyword periphery in the 1st Embodiment of this invention. 本発明の第2の実施の形態における集約判定部の動作のフローチャートである。It is a flowchart of operation | movement of the aggregation determination part in the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

201 文書格納手段、文書格納部
202 文書解析手段、文書解析部
203 一般ワード格納手段、一般ワード格納部
204 キーワード抽出手段、キーワード抽出部
205 キーワード格納手段、キーワード格納部
206 キーワード集計手段、キーワード集計部
207 集約判定部
2071 部分集合生成手段、部分集合分割部
2072 部分集合判定手段、部分集合判定部
2073 総合判定手段、総合判定部
208 集約文書格納手段、集約文書格納部
201 Document storage unit, document storage unit 202 Document analysis unit, document analysis unit 203 General word storage unit, general word storage unit 204 Keyword extraction unit, keyword extraction unit 205 Keyword storage unit, keyword storage unit 206 Keyword totaling unit, keyword totaling unit 207 Aggregation determination unit 2071 Subset generation unit, subset division unit 2072 Subset determination unit, subset determination unit 2073 General determination unit, general determination unit 208 Integrated document storage unit, integrated document storage unit

Claims (12)

文書解析手段と、キーワード抽出手段と、キーワード集計手段と、部分集合生成手段と、部分集合判定手段と、総合判定手段と、を有する装置において、時刻情報が付与された多数の文書の中で、同一の話題について記述された文書を集約し、かつ、集約した文書群を代表する中心的なキーワードである軸キーワードも同時に獲得する時系列文書集約方法であって、
前記文書解析手段が、入力文書を解析して、文書中の語である一般ワード及び、該一般ワードの出現位置情報を獲得し、一般ワード格納手段に格納する一般ワード抽出ステップと、
前記キーワード抽出手段が、前記入力文書中において、前記軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワード格納手段に格納するキーワード抽出ステップと、
前記キーワード集計手段が、前記キーワード格納手段に格納されている前記キーワードを集計し、高頻度のキーワードを選別するキーワード選別ステップと、
前記部分集合生成手段が、前記キーワード選別ステップで選別されたキーワードを含む文書を文書格納手段から取得して、該文書のそれぞれに対し、前記時刻情報度に基づいて、部分集合に分割する部分集合生成ステップと、
部分集合判定手段が、前記部分集合内の文書の中で、前記キーワード周辺の予め定められた範囲内に出現する一般ワードを前記一般ワード格納手段から取得して、集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定する部分集合判定ステップと、
総合判定手段が、前記部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定する総合判定ステップと、
を、行うことを特徴とする時系列文書集約方法。
In a device having document analysis means, keyword extraction means, keyword aggregation means, subset generation means, subset determination means, and overall determination means, among many documents to which time information is given, A time-series document aggregation method that aggregates documents that describe the same topic and also acquires an axis keyword that is a central keyword representing the aggregated document group,
The document analysis unit analyzes the input document, acquires a general word that is a word in the document, and appearance position information of the general word, and stores the general word in the general word storage unit; and
A keyword extracting step in which the keyword extracting means acquires a keyword that is a candidate for the axis keyword and the appearance position information of the keyword in the input document, and stores the keyword in the keyword storing means;
A keyword selection step in which the keyword aggregation means totalizes the keywords stored in the keyword storage means to select high-frequency keywords;
The subset in which the subset generation unit acquires a document including the keyword selected in the keyword selection step from the document storage unit, and divides each document into subsets based on the degree of time information Generation step;
The subset determination means obtains, from the general word storage means, general words that appear within a predetermined range around the keyword in the documents in the subset, and based on the result of aggregation, A subset determination step for determining whether or not documents in the subset are described on the same topic;
Comprehensive determination means integrates the determination results for each subset, and finally determines whether or not the keyword is a topic axis; and
A time-series document aggregation method, characterized by:
前記部分集合生成ステップにおいて、
前記文書の時刻情報が互いに近い文書を集約して部分集合を生成する、請求項1記載の時系列文書集約方法。
In the subset generation step,
The time-series document aggregation method according to claim 1, wherein a subset is generated by aggregating documents whose time information is close to each other.
前記部分集合生成ステップにおいて、
前記文書の時刻情報が互いに近く、かつ内容が類似する文書を集約して部分集合を生成する、請求項1記載の時系列文書集約方法。
In the subset generation step,
The time-series document aggregation method according to claim 1, wherein a subset is generated by aggregating documents having similar time information and similar contents.
前記部分集合判定ステップにおいて、
前記選別されたキーワード周辺の予め定めた範囲内に出現する一般ワードを前記部分集合毎に集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、該部分集合内の文書が同一話題について記述されているか否かを判定する、請求項1記載の時系列文書集約方法。
In the subset determining step,
General words appearing within a predetermined range around the selected keyword are aggregated for each subset, and based on the number of general words appearing frequently at a certain rate or higher, documents in the subset are displayed. The time-series document aggregation method according to claim 1, wherein it is determined whether or not the same topic is described.
前記部分集合判定ステップにおいて、
前記部分集合に含まれる文書数Xを集計し、該X個の文書内で該キーワード周辺の予め定められた範囲内に高い頻度Yで出現した一般ワードを取得し、YがXに占める割合が高い一般ワードの数が一定以上多い場合に、該部分集合内の文書が同一話題について記述されていると判定する、請求項4記載の時系列文書集約方法。
In the subset determining step,
The number of documents X included in the subset is totaled, and general words that appear at a high frequency Y within a predetermined range around the keyword in the X documents are obtained, and the ratio of Y to X is obtained. The time-series document aggregation method according to claim 4, wherein when the number of high general words is greater than a certain value, it is determined that the documents in the subset are described for the same topic.
時刻情報が付与された多数の文書の中で、同一の話題について記述された文書を集約し、かつ、集約した文書群を代表する中心的なキーワードである軸キーワードも同時に獲得する時系列文書集約装置であって、
前記時刻情報が付与された多数の文書を蓄積する文書格納手段と、
前記文書格納手段から読み込まれた入力文書を解析して、文書中の語である一般ワード及び、該一般ワードの出現位置情報を獲得し、一般ワード格納手段に格納する文書解析手段と、
前記入力文書中において、前記軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワード格納手段に格納するキーワード抽出手段と、
前記キーワード格納手段に格納されている前記キーワードを集計し、高頻度のキーワードを選別するキーワード集計手段と、
前記キーワード集計手段で選別されたキーワードを含む文書を文書格納手段から取得して、該文書のそれぞれに対し、前記時刻情報に基づいて、部分集合に分割する部分集合生成手段と、
前記部分集合内の文書の中で、前記キーワード周辺の予め定められた範囲内に出現する一般ワードを前記一般ワード格納手段から取得して、集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定する部分集合判定手段と、
前記部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定する総合判定手段と、
を、有することを特徴とする時系列文書集約装置。
Aggregate documents that describe the same topic among a large number of documents with time information, and collect time-series documents that simultaneously acquire axis keywords that are the central keywords that represent the aggregated documents. A device,
Document storage means for storing a large number of documents to which the time information is attached;
Analyzing the input document read from the document storage means, obtaining a general word that is a word in the document and appearance position information of the general word, and storing the general word storage means in the general word storage means,
In the input document, a keyword extraction unit that acquires the keyword that is a candidate for the axis keyword and the appearance position information of the keyword, and stores the keyword in the keyword storage unit;
A keyword counting means for counting the keywords stored in the keyword storage means and selecting high-frequency keywords;
Subset generation means for acquiring a document containing keywords selected by the keyword aggregation means from the document storage means, and dividing each of the documents into subsets based on the time information;
Of the documents in the subset, the general words appearing within a predetermined range around the keyword are acquired from the general word storage means, and the documents in the subset are calculated based on the totaled results. Are subset determination means for determining whether or not the same topic is described,
Integrated determination means for integrating the determination results for each subset, and finally determining whether or not the keyword is a topic axis;
A time-series document aggregating apparatus.
前記部分集合生成手段は、
前記文書の時刻情報が互いに近い文書を集約して部分集合を生成する手段を含む、請求項6記載の時系列文書集約装置。
The subset generation means includes
The time-series document aggregation device according to claim 6, further comprising means for aggregating documents whose time information of the documents are close to each other to generate a subset.
前記部分集合生成手段は、
前記文書の時刻情報が互いに近く、かつ内容が類似する文書を集約して部分集合を生成する手段を含む、請求項6記載の時系列文書集約装置。
The subset generation means includes
The time-series document aggregation device according to claim 6, further comprising means for aggregating documents having similar time information and similar contents to generate a subset.
前記部分集合判定手段は、
前記選別されたキーワード周辺の予め定めた範囲内に出現する一般ワードを前記部分集合毎に集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、該部分集合内の文書が同一話題について記述されているか否かを判定する手段を含む、請求項6記載の時系列文書集約装置。
The subset determination means includes
General words appearing within a predetermined range around the selected keyword are aggregated for each subset, and based on the number of general words appearing frequently at a certain rate or higher, documents in the subset are displayed. The time-series document aggregation device according to claim 6, further comprising means for determining whether or not the same topic is described.
前記部分集合判定手段は、
前記部分集合に含まれる文書数Xを集計し、該X個の文書内で該キーワード周辺の予め定められた範囲内に高い頻度Yで出現した一般ワードを取得し、YがXに占める割合が高い一般ワードの数が一定以上多い場合に、該部分集合内の文書が同一話題について記述されていると判定する手段を含む、請求項9記載の時系列文書集約装置。
The subset determination means includes
The number of documents X included in the subset is totaled, and general words that appear at a high frequency Y within a predetermined range around the keyword in the X documents are obtained, and the ratio of Y to X is obtained. The time-series document aggregation device according to claim 9, further comprising means for determining that the documents in the subset are described with respect to the same topic when the number of high general words is greater than a certain value.
前記請求項6乃至10のいずれかに記載された手段を有する時系列文書集約装置として、コンピュータを機能させることを特徴とする時系列文書集約プログラム。   A time-series document aggregation program for causing a computer to function as the time-series document aggregation apparatus having the means according to any one of claims 6 to 10. 前記請求項6乃至10のいずれかに記載された手段を有する時系列文書集約装置として、コンピュータを機能させるプログラムを格納したことを特徴とする時系列文書集約プログラムを格納した記憶媒体。   A storage medium storing a time-series document aggregation program, wherein a program for causing a computer to function is stored as the time-series document aggregation device having the means according to any one of claims 6 to 10.
JP2005175538A 2005-06-15 2005-06-15 Time-series document aggregation method and apparatus, program, and storage medium storing program Expired - Fee Related JP4595692B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005175538A JP4595692B2 (en) 2005-06-15 2005-06-15 Time-series document aggregation method and apparatus, program, and storage medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005175538A JP4595692B2 (en) 2005-06-15 2005-06-15 Time-series document aggregation method and apparatus, program, and storage medium storing program

Publications (2)

Publication Number Publication Date
JP2006350656A true JP2006350656A (en) 2006-12-28
JP4595692B2 JP4595692B2 (en) 2010-12-08

Family

ID=37646428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005175538A Expired - Fee Related JP4595692B2 (en) 2005-06-15 2005-06-15 Time-series document aggregation method and apparatus, program, and storage medium storing program

Country Status (1)

Country Link
JP (1) JP4595692B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210024A (en) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> Apparatus for analyzing set of documents, method for analyzing set of documents, program implementing this method, and recording medium storing this program
JP2009015795A (en) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> Text segmentation apparatus, text segmentation method, program, and recording medium
JP2009015796A (en) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> Apparatus and method for extracting multiplex topics in text, program, and recording medium
JP2009211277A (en) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Document data sorting device, document data sorting method, its program, and recording medium
JP2011113333A (en) * 2009-11-27 2011-06-09 Fujitsu Ltd Program, device and method for analyzing retrieval information
JP2011519103A (en) * 2008-04-29 2011-06-30 エヌエイチエヌ ビジネス プラットフォーム コーポレーション Search result providing system and method for providing search result or advertisement based on similarity between contents
JP2013134612A (en) * 2011-12-26 2013-07-08 Hitachi Systems Ltd Attention word analysis method and attention word analysis system
JP2014219853A (en) * 2013-05-09 2014-11-20 株式会社ミクシィ Social service server
CN106372038A (en) * 2015-07-23 2017-02-01 北京国双科技有限公司 Keyword extraction method and device
WO2018110029A1 (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
CN110399601A (en) * 2019-07-26 2019-11-01 北京香侬慧语科技有限责任公司 A kind of method, apparatus, storage medium and electronic equipment identifying document order
WO2021117246A1 (en) * 2019-12-13 2021-06-17 日本電信電話株式会社 Data processing device, data processing method, and data processing program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340275A (en) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd Information extraction device
JP2000112949A (en) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd Information discrimination supporting device and record medium recording similar information discrimination supporting program
JP2000242652A (en) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> Information stream retrieval method and device and storage medium recorded with information stream retrieval program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340275A (en) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd Information extraction device
JP2000112949A (en) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd Information discrimination supporting device and record medium recording similar information discrimination supporting program
JP2000242652A (en) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> Information stream retrieval method and device and storage medium recorded with information stream retrieval program

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210024A (en) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> Apparatus for analyzing set of documents, method for analyzing set of documents, program implementing this method, and recording medium storing this program
JP2009015795A (en) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> Text segmentation apparatus, text segmentation method, program, and recording medium
JP2009015796A (en) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> Apparatus and method for extracting multiplex topics in text, program, and recording medium
JP2009211277A (en) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Document data sorting device, document data sorting method, its program, and recording medium
JP4594992B2 (en) * 2008-03-03 2010-12-08 日本電信電話株式会社 Document data classification device, document data classification method, program thereof, and recording medium
JP2011519103A (en) * 2008-04-29 2011-06-30 エヌエイチエヌ ビジネス プラットフォーム コーポレーション Search result providing system and method for providing search result or advertisement based on similarity between contents
JP2011113333A (en) * 2009-11-27 2011-06-09 Fujitsu Ltd Program, device and method for analyzing retrieval information
JP2013134612A (en) * 2011-12-26 2013-07-08 Hitachi Systems Ltd Attention word analysis method and attention word analysis system
JP2014219853A (en) * 2013-05-09 2014-11-20 株式会社ミクシィ Social service server
CN106372038A (en) * 2015-07-23 2017-02-01 北京国双科技有限公司 Keyword extraction method and device
WO2018110029A1 (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
JP2018097562A (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
CN110399601A (en) * 2019-07-26 2019-11-01 北京香侬慧语科技有限责任公司 A kind of method, apparatus, storage medium and electronic equipment identifying document order
CN110399601B (en) * 2019-07-26 2023-07-07 北京香侬慧语科技有限责任公司 Method and device for identifying document sequence, storage medium and electronic equipment
WO2021117246A1 (en) * 2019-12-13 2021-06-17 日本電信電話株式会社 Data processing device, data processing method, and data processing program

Also Published As

Publication number Publication date
JP4595692B2 (en) 2010-12-08

Similar Documents

Publication Publication Date Title
JP4595692B2 (en) Time-series document aggregation method and apparatus, program, and storage medium storing program
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
JP5273735B2 (en) Text summarization method, apparatus and program
JP6056610B2 (en) Text information processing apparatus, text information processing method, and text information processing program
JP2010211594A (en) Text analysis device and method, and program
JP2002132811A (en) Method and system for answering question and recording medium with recorded question answering program
Xu et al. Using SVM to extract acronyms from text
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
Inches et al. Online conversation mining for author characterization and topic identification
JP4525433B2 (en) Document aggregation device and program
Nguyen et al. Automatic classification of folk narrative genres
Ousirimaneechai et al. Extraction of trend keywords and stop words from thai facebook pages using character n-grams
Sahu et al. Detecting factual and non-factual content in news articles
Khan et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification.
JPH08166965A (en) Method for automatically classifying japanese text
Guadie et al. Amharic text summarization for news items posted on social media
JP6260678B2 (en) Information processing apparatus, information processing method, and information processing program
CN109408808A (en) A kind of appraisal procedure and assessment system of artistic works
JP5214985B2 (en) Text segmentation apparatus and method, program, and computer-readable recording medium
KR20130113250A (en) Classification-extraction system based meaning for text-mining of large data
Yang et al. Mining personality traits from social text messages
Kilroy et al. Finding Short Lived Events on Social Media.
Alabid et al. Summarizing twitter posts regarding COVID-19 based on n-grams
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
JP2013101678A (en) Text segmentation device, method, program, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees