JP4525433B2

JP4525433B2 - 文書集約装置及びプログラム

Info

Publication number: JP4525433B2
Application number: JP2005112279A
Authority: JP
Inventors: 吉秀佐藤; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-04-08
Filing date: 2005-04-08
Publication date: 2010-08-18
Anticipated expiration: 2025-04-08
Also published as: JP2006293616A

Description

本発明は、文書集約装置及びプログラムに係り、多数の文書の中から同一の題材を扱った文書を取得し、取得した文書群を代表する中心的なキーワードも同時に獲得する技術において、特に、日記や感想などの砕けた文体の文書を対象とする文書集約装置及びプログラムに関する。

内容が類似する文書を集約する代表的手法には、クラスタリングがある。例えば、分類対象の要素をベクトルで表現し、ベクトル間の距離が小さい要素同士を同一クラスタに集約するクラスタリング手法の一つであり、広く利用されている。文書の分類に適用する場合は、各単語をＴＦ−ＩＤＦ(Term Frequency & Inverse Document Frequency)などで重み付けした文書ベクトルを用いる（例えば、非特許文献１参照）。

また、単語の重み付けを改良し、特に重要度の高い単語を強調した文書ベクトルを用いてクラスタリング精度を高める手法も提案されている。
尾上守夫監訳「パターン識別」新技術コミュニケーションズpp．528−529

既存の文書分類技術は、ニュース記事や論文などの比較的文体の整った文章に対してはある程度の高い精度が期待できる。しかし、個人の日記や感想のような文書は、文体の揺れや文書の長短の違いがあるばかりではなく、口語や方言が含まれる場合もある。また、ある映画の感想や、あるスポーツ選手の大記録達成を喜ぶ文書など個人の主観が含まれる文書では、同一の話題を扱った文書であっても、記述する人間が異なれば観点が異なるため、文の構成や用いられる単語の特徴などは様々である場合が多い。

これに加え、従来技術では、1文書内に複数の題材が記述された文書に対しても1つの文書ベクトルを与えて分類処理を行うため、含まれる話題の数によっては文書ベクトルが曖昧になり、分類精度が下がることもある。

以上の理由により、特に個人の日記や感想のような雑多な文書に対しては、既存の文書分類技術が有効に働かず、内容的に類似する文書集合を正しく形成させることができない。また、得られた文書集合が、実際に同一の話題で構成されるか否かを判断することができない。

本発明は、上記の点に鑑みなされたもので、膨大な文書群、とりわけ不特定多数の人々が任意の文体で記述した日記や感想などの砕けた文書を対象とし、同一の題材を扱った文書を集約することを可能とし、また、複数の話題について記述された文書が存在しても、含まれる話題のグループ全てに多重分類することが可能な文書集約装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明は、多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約装置における文書集約方法であって、
入力文書を解析して文書中の語（以下、一般ワードと記す）及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する一般ワード抽出ステップ（ステップ１）と、
入力文書中において、話題の軸をなすキーワードの候補となるキーワード及び該キーワードの出現位置を取得してキーワード記憶手段に格納するキーワード抽出ステップ（ステップ２）と、
キーワード記憶手段からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード選別ステップ（ステップ３）と、
一般ワード記憶手段を参照して、キーワード選別ステップで選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定ステップ（ステップ４）と、を行う。

図２は、本発明の原理構成図である。

本発明（請求項１）は、多数の文書の中で、同一の話題について記述された文書を集約する文書集約装置であって、
文書中の語（以下、「一般ワード」と記す）及び該一般ワードの出現位置情報を格納する一般ワード記憶手段２０３と、
キーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段２０５と、
入力文書を解析して文書中の一般ワード及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する文書解析手段２０２と、
入力文書中において、キーワード及び該キーワードの出現位置を取得して、キーワード記憶手段２０５に格納するキーワード抽出手段２０４と、
キーワード記憶手段２０５からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード集計手段２０６と、
一般ワード記憶手段を２０３参照して、キーワード集計手段２０６で選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段２０７と、を有する。

また、本発明（請求項２）は、集約判定手段２０７において、
各選別されたキーワードが出現する文書数Ｘについて、該Ｘ個の文書内で該選別されたキーワードの周辺に高い頻度Ｙで出現した一般ワードを取得する手段と、
ＹがＸに占める割合が高い一般ワードの数が一定以上多い場合に、Ｘ個の文書群が選別されたキーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む。

また、本発明（請求項３）は、集約判定手段２０７において、
あるキーワードを話題の軸であると判定した場合に、該選別されたキーワードを含むＸ個の文書のうち、高い頻度Ｙを持つ一般ワードを一定以上含む文書のみを、該選別されたキーワードを軸とする同一話題文書群であると判定する手段を含む。

本発明（請求項４）は、少なくとも、記憶装置とＣＰＵを備えたコンピュータにおいて、多数の文書の中で、同一の話題について記述された文書を集約する文書集約プログラムであって、
記憶装置に、抽出された文書中の語（以下、「一般ワード」と記す）及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、
請求項１乃至３のいずれか１項に記載の手段として機能させるプログラムである。

本発明の文書集約方法及び装置及びプログラムは、まず、話題の軸となりうるキーワードを発見し、キーワード周辺に出現する語を集計することでそのキーワードが実際の話題の軸であるか否かを判定する方法である。軸の候補のキーワード及びその周辺の語（一般ワード）の統計情報により判定を行うため、句点がない文章や口語で記述された文書、方言を含む文書などの砕けた文体の文書であっても高精度に分類することができる。特に、地名や人名などの意味を持った語で、かつ、出現頻度の高い語を話題の軸とするため、個人の行動を記しただけの日記や極めて短い文書のように内容に話題性がない文書を除外し、同一の興味を持って記述された有益な文書のみを集約することができる。

また、1文書中に複数の話題の記述がある場合でも、注目したキーワードの周辺に出現する語を用いて話題を集約するため、例えば、前半が話題Ａ、後半が話題Ｂについて記述された文書は、前半に出現する語の分布から話題Ａのグループ構成文書として集約され、かつ後半に出現する分布から話題Ｂのグループの構成文書としても集約される、といったように、含む話題に応じて多重に分類することができる。

さらに、同一分類を含む文書を集約するばかりでなく、集約の根拠となったキーワードまで取得できるため、本発明の実施結果を用いた文書検索や要約など、様々な応答が可能である。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における文書集約装置の構成を示す。同図に示す文書集約装置は、入力文書を格納しておく文書格納部２０１、入力文書解析し、文書を構成する要素毎に分割する文書解析部２０２、文書解析部２０２の解析結果を元に取得した一般ワードと文書中での位置を記録する一般ワード格納部２０３、文書解析部２０２の解析結果を元に各文書を特徴付けるキーワードを抽出するキーワード抽出部２０４、キーワード及び文書中での位置を記録するキーワード格納部２０５、キーワード格納部２０５に記録されたキーワードを集計し、キーワードの中で話題の軸となりうる特に重要なものを選別するキーワード集計部２０６、選別されたキーワードを含む文書に出現する一般ワードを集計し、そのキーワードが話題の軸となっているか否かを最終的に判断する集約判定部２０７、話題の軸であると判断されたキーワード、及び話題を構成する文書を格納する集約文書格納部２０８から構成される。

図４は、本発明の一実施の形態における文書格納部の文書データの例である。

同図に示す各文書には、固有のＩＤが付与され、区別されている。

文書解析部２０２は、文書格納部２０１に記録された文書を取得し、文書を構成する文法的な最小単位である形態素に分割する。その後、全てまたは一部の形態素、あるいは文書中で連続する形態素を連結させた複合語を「一般ワード」として一般ワード格納部２０３に格納する。このとき、それぞれの一般ワードは文書中での出現位置と共に記録しておく。

図５は、本発明の一実施の形態における一般ワード格納部の一般ワードの例である。

同図に示す例では、形態素解析処理した結果、名詞であると判断された形態素を一般ワードとみなし、文書における出現位置と共に記録している。なお、出現位置は一般ワードの先頭と末尾のそれぞれの位置を文書の先頭から数えたバイト数で表す。日本語の全角１文字の情報量は２バイトであるため、全て全角文字の場合、文書の先頭を０バイトとすると、１文字目の始まりは位置「０」、２文字目の始まりは位置「２」、３文字目の始まりは位置「４」となる。文書ＩＤ「０００１」の文書の例では、０〜３バイトの位置に一般ワード「昨日」が出現し、１６〜１９バイトの位置に一般ワード「映画」が出現している。

以下の説明では、図６のように名詞のみを一般ワードとして登録した例を用いて説明する。

キーワード抽出部２０４は、文書解析部２０２の処理結果を利用し、それぞれの文章を特徴付けるキーワードを抽出する。この処理は、以後の処理で同一の話題を扱った文書を集約する際の軸となる語の獲得が目的である。話題集約の軸となる語とは、例えば、あるスポーツ選手に注目して書かれた文書の場合はそのスポーツ選手の名前、企業間の合併について書かれた文書の場合は、当該企業名など、主に固有名詞である。

なお、キーワードの抽出には、既存技術「磯崎秀樹『メタルールと決定木学習を用いた日本語固有表現抽出』、情報処理学会論文誌、Vol.43, No.5 pp.1481-1491(2002)」を用いることができる。

これは、形態素解析処理の結果を利用し、形態素とその品詞情報、さらに、ひらがな、カタカナ、漢字といった文字種などの情報に基づいて、入力文書中から企業名やスポーツチーム名などの「組織名」、「人名」、「地名」、製品名や建物名などの「人工物名」、「金額」などといった固有表現を自動抽出する技術である。

本実施の形態では、これらの固有表現の中で、「組織名」と「人名」のみを上記既存技術により取得したものをキーワードとしてキーワード格納部２０５に記録するものとする。

図６は、本発明の一実施の形態におけるキーワード格納部のキーワードの例を示す。キーワード格納部２０５には、キーワードが、文書ＩＤ、文書の先頭からの出現位置と共に記録されている。なお、出現位置はキーワードの先頭と末尾の位置を文書の先頭から数えたバイト数で表す。

例えば、人名であるとして抽出されたキーワード「×谷○夫」が文書ＩＤ「０００１」の文書の４４〜５１バイトの位置にあったことを表す。同様に、文書ＩＤ「０００２」や「０００４」の文書から抽出されたキーワードが記録されている。文書ＩＤ「０００３」の日記風の文書には「組織名」と「人名」の固有表現が１語も表れなかったものとすると、図７のように文書ＩＤ「０００３」に関する項は何も出力されない。

キーワード集計部２０６は、キーワード格納部２０５に記録された語の出現頻度を集計し、話題の軸として成立する可能性が特に高いキーワード、及びそのキーワードを含む文書のＩＤのリストを集約判定部２０７に送出する。一般に、数多くの文書で同一の題材が扱われている場合に、その題材を話題と呼ぶことができる。従って、話題の軸となりうるキーワードとは、出現する文書数が多いキーワードである。そこで、例えば、集計の結果、出現頻度が一定以上であったキーワードを集約判定部２０７に送出するのがよい。

集約判定部２０７は、キーワード集計部２０６より取得したキーワード、即ち、話題の軸の候補語が、文書を集約するにあたっての軸であるか否かを判定する。集約判定部２０７が行う処理を説明する。

図７は、本発明の一実施の形態における集約判定部の処理のフローチャートである。

ステップ６０１）キーワード集計部２０６よりキーワードを取得し、このキーワードが話題の軸であるか否かの判定処理を開始する。

ステップ６０２）キーワードを含む文書において、キーワード周辺に出現している一般ワードを取得・集計する。

例えば、人名のキーワードとして取得された「○山」というキーワードを集約判定部２０７が取得する際には、「○山」を含む文書のＩＤ（「０００２」や「０００４」）、ならびに、それぞれの文書データベースのキーワードの出現位置が取得される。図６のように、「○山」は文書ＩＤが「０００２」の文書では２０〜２３バイト目の位置に、文書ＩＤが「０００４」の文書では２８〜３１バイト目の位置に出現しているため、これらの情報が取得されることになる。

当該ステップ６０２では、キーワード「○山」を含む第１の文書ＩＤ「０００２」の文書について、キーワードの出現位置を一般ワード格納部２０３に記録された一般ワードリストに照らし合わせ、文書ＩＤ「０００２」の文書中でキーワード「○山」の周辺に表れている一般ワードを取得する。

注目するキーワードを含む文書から一般ワードを取得する際、取得の範囲は様々な設定が可能である。図８は、一般ワードを収集する範囲の例を説明するための図（その１）である。ａは、キーワード「○山」を含む文書ＩＤ「０００２」の文書である。キーワード格納部２０５にはキーワード「○山」の出現位置が、一般ワード格納部２０３には、「衆議院」「解散」などの一般ワードの出現位置が記録されている。

例えば、図８（ｂ）に示す例１では、キーワード「○山」を中心とする前後２語までの一般ワードを収集範囲とする例である。キーワード「○山」より前に出現する「解散」「首相」、後に出現する「決断」「総選挙」が収集対象の一般ワードとなる。

図８（ｃ）に示す例２では、キーワードを含む文書全体を収集範囲とする例である。この場合「衆議院」「解散」「首相」「決断」「総選挙」「憂鬱」以下、文書ＩＤ「０００２」の文書中の全ての一般ワードが収集対象となる。

図８（ａ）に示した文書ＩＤ「０００２」の文書の例では、「○山」より前には一般ワードが３語しかないため、例えば、例１で前後５語を収集範囲とした場合は、キーワードより前から３語しか取得できない。この場合はキーワード以前の３語全てとキーワード以後の５語を取得すればよい。

ここまでの説明では、図５や図６の例のように、「文書ＩＤ」「一般ワード（またはキーワード）」「出現位置」のみを記録するものとしたが、文書解析部２０２が行う形態素解析処理の結果から文書中の句点「。」を取得して文と文の区切りを判断し、どの語とどの語が同じ文から抽出されたかを同時に記録するようにしてもよい。これを用いれば、図８（ｄ）に示す例３のように、キーワード「○山」を含む文を中心とする前後いくつかの文を一般ワードの収集範囲とすることも可能である。図８（ｄ）の例３は、キーワードを含む文のみを収集範囲とする例であるため「衆議院」「解散」「首相」「決断」の４語のみが取得されるが、「キーワードを含む文を中心とする前後２文」というように、範囲を前後の文に拡大してよい。

句点「。」に加え、ピリオド「．」やエクスクラメーションマーク「！」、クエスチョンマーク「？」などを文の区切りとみなしてもよい。

一方、組織名として取得したキーワード「○○新聞」に注目して周辺の一般ワードを取得する際の範囲指定方法の例を示す。図９は、本発明の一実施の形態における一般ワード収集範囲の例（その２）である。

本発明の文書集約方法は、注目するキーワードの周辺に特定の一般ワードが高確率で出現する場合に、その文書群は同一の話題について記述された文書であり、かつ、そのキーワードが話題の軸であると判定するものである。図９に示す文中の「（○○新聞発行）」という文字列が○○新聞社から発行される全てのニュース記事の見出しに固定的に用いられる文字列だとすると、「○○新聞」の周辺では極めて高い確率で「発行」という一般ワードが出現することになる。このため、○○新聞社から発行されたあらゆるニュース記事が同一話題だとして誤って集約されてしまう。図９に示した範囲指定の例はこれを回避するための一つの方法である。注目するキーワードに隣接して出現する一般ワードを取得しないことで、同一発行者が高頻度で固定的に用いる語句を軸であると誤判断するのを防ぐ。

隣接する一般ワードではなく、注目するキーワードから一番近い一般ワードを取得対象から外すようにしてもよい。図９の場合「殺到」及び「発行」が対象から外れることになる。

図８及び図９に示した範囲の設定方法に限らず、種々の一般ワード取得方法も利用可能である。例えば、前後１文などのように固定長で指定した範囲内に一般ワードが１語も含まれない場合に探索範囲を拡大し、注目キーワードから近い順に前後Ｍ語の一般ワードを取得する、など、複数の方法と組み合わせて取得してもよい。

いずれかの方法で、注目するキーワードを含む全ての文書について、周辺から一般ワードを取得し、例えば、「○山」というキーワードでは、「衆議院」が５回、「解散」が７回といった具合で一般ワードが取得された文書数をカウントする。

ステップ６０３）注目するキーワードを含む全ての文書について探索が終了したかを判定し、判定した場合にはステップ６０４に移行し、そうでない場合には、ステップ６０２を繰り返す。

ステップ６０４）それぞれのキーワード毎に集計された一般ワードの頻度情報を用い、各キーワードが話題の軸をなす語句であるか否かを判定する。

判定の方法を以下で説明する。

文書集約を行うにあたり、ある注目キーワードが話題の軸となっているか否かの判断は、そのキーワードの周辺に、特定の語が高頻度で出現するかどうかによって行う。

図１０は、本発明の一実施の形態におけるキーワード周辺から取得した一般ワードの例を示す。同図では、キーワード「○山」と「○○新聞」の各々に注目して周辺の一般ワードを集計した結果の、出現文書数が多い上位５語の例である。「○山」は全文書中の２８文書に出現し、周辺から取得された一般ワードは頻度の高いものから順に「衆議院」（２５文書に出現）、「解散」(２２文書に出現)、「総理」（２１文書に出現）、「明日」(１５文書に出現)、「総選挙」（１３文書に出現）であったものとする。

このとき、集約判定部２０７は、ここに挙げた上位５位までの一般ワードの出現文書数のうち、注目キーワード「○山」の出現文書数２８の半分の１４を超えるものの数をカウントする。この例では、１４を越える出現文書数を有する一般ワードは「衆議院」「解散」「総理」「明日」の４語である。つまり、周辺から取得した一般ワード上位５語のうち４語が一定以上の高い頻度で出現していたことになる。

同様にすると、同じく図８に示す「○○新聞」の例では、出現文書数３２の半数１６を超えるような高い頻度で出現した一般ワードは１語も存在しない。

集約判定部２０７は、高頻度順に並べた一般ワードの上位の語（例えば上位５語）のうち、条件を満たす時に高い頻度の一般ワードの個数（「○山」の例では４語、「○○新聞」の例では０語）を調べ、その割合が例えば６０％以上であった場合に、注目キーワードを話題の軸であると判定する。

この結果、「○山」は上位５語のうち条件を満たした４語は８０％に相当し、６０％を超えるため話題の軸であると判定される。一方、「○○新聞」は条件を満たす語が１語も存在しない（０％）ため、話題の軸ではないと判定する。

あるキーワードを含む文書群が同一の題材について記述されたものである場合、キーワード周辺の語の出現パターンが文書間で類似するため、周辺の一般ワードの出現回数を集計した結果、高頻度を記録しやすくする。言い換えれば、キーワード周辺に出現する語に偏りがある。一方、あるキーワードの一般性が高く、様々な分野の文書に用いられる語の場合、周辺に出現する語がまちまちであるため、それぞれの出現回数を集計しても高頻度にはなりにくい。言い換えれば、キーワード周辺に出現する語に偏りがない。上記判定は、この特徴を利用したものであり、注目キーワードの周辺での出現回数が多い一般ワードのうち、特に頻度の高い語が占める割合を調べることにより、話題の軸であるか否かを自動判定するものである。

この特徴に注目した判定方法であれば上記の例に限定されることなく、様々な応用が可能である。

例えば、予めあらゆる２つの語句が同時に用いられる可能性を数値化したデータベースを構築しておき、周辺から取得された高頻度な一般ワードが互いに関連するか否かによって判定を行ってもよい。この場合、図９の例でキーワード「○山」の周辺から取得された「衆議院」や「解散」や「総理」などの一般ワードは、上記データベースを参照すれば互いに関連が深い語であることがわかり、「○山」が話題の軸であるとの判定材料とすることができる。逆に、「○○新聞」の周辺から取得された「逮捕」や「震度」や「ホームラン」は相関性が低く、「○○新聞」は一般性の高い語であるために話題の軸とはならないという判定を行うことができる。

あるいは、あらゆる２つの語句が１文や１文書中に同時に出現する可能性を数値化するデータベースを予め構築するのではなく、入力文書から動的に構築してもよい。この場合は、キーワード「○山」の周辺から取得された「衆議院」や「解散」などの高頻度な一般ワードが同一文中や同一文書中など、一定の範囲内に同時に出現する確率を算出し、その確率が高ければ話題の軸であると判定することができる。

判定処理の結果、注目するキーワードが話題の軸であると判定された場合には、ステップ６０５に移行し、そうでない場合には、処理を終了する。

ステップ６０５）キーワード及びそのキーワードを含む文書のＩＤを集約文書格納部２０８に記録する。

話題構成文書のＩＤを出力する際、話題の軸であると判定されたキーワードを含む全ての文書のＩＤを出力するのではなく、キーワードの周辺から取得された一般ワードの上位５位のうち、例えば、３語以上を含むような文書のみのＩＤを出力してもよい。図１０に示したキーワード「○山」の例で、「衆議院」「解散」「総理」「明日」「総選挙」のうち３語以上を含む文書のみを、「○山」を軸とする話題文書群として出力することで、偶然に「○山」というキーワードを含んだ文書を混在させることなく、「衆議院解散に伴う総選挙」というある特定の話題について記述された文書のみを厳選することができる。

以上の処理の結果、上記実施の形態における「○○新聞」のように一般性の高いキーワードではなく、首相の姓である「○山」の例のように話題の中心に位置付けられるキーワードが話題の軸として判定され、同時にその話題を構成する文書群が出力される。

なお、上記の実施の形態では、固有表現と呼ぶ語をキーワード候補とし、名詞を一般ワードとしたがこれに限定するものではなく、様々に変更可能である。

また、上記の実施の形態における文書集約装置の文書解析部２０２、キーワード抽出部２０４、キーワード集計部２０６、集約判定部２０７の動作をプログラムとして構築し、ハードディスクやメモリ等の記憶手段を有するコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、与えられた文書集合の共通話題を獲得するための技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における文書集約装置のシステム構成例である。本発明の一実施の形態における文書格納部の文書データの例である。本発明の一実施の形態における一般ワード格納部の一般ワードの例である。本発明の一実施の形態におけるキーワード格納部のキーワードの例である。本発明の一実施の形態における集約判定部の処理のフローチャートである。本発明の一実施の形態における一般ワード収集範囲の例（その１）である。本発明の一実施の形態における一般ワード収集範囲の例（その２）である。本発明の一実施の形態におけるキーワード周辺から取得した一般ワードの例である。

符号の説明

２０１文書格納部
２０２文書解析手段、文書解析部
２０３一般ワード記憶手段、一般ワード格納部
２０４キーワード抽出手段、キーワード抽出部
２０５キーワード記憶手段、キーワード格納部
２０６キーワード集計手段、キーワード集計部
２０７集約判定手段、集約判定部
２０８集約文書格納部

Claims

多数の文書の中で、同一の話題について記述された文書を集約する文書集約装置であって、
文書中の語（以下、「一般ワード」と記す）及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、
キーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、
入力文書を解析して文書中の一般ワード及び該一般ワードの出現位置情報を獲得し、前記一般ワード記憶手段に格納する文書解析手段と、
前記入力文書中において、キーワード及び該キーワードの出現位置を取得して、前記キーワード記憶手段に格納するキーワード抽出手段と、
前記キーワード記憶手段からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード集計手段と、
前記一般ワード記憶手段を参照して、前記キーワード集計手段で選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、前記選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段と、
を有することを特徴とする文書集約装置。
前記集約判定手段は、
各選別されたキーワードが出現する文書数Ｘについて、該Ｘ個の文書内で該選別されたキーワードの周辺に高い頻度Ｙで出現した一般ワードを取得する手段と、
前記Ｙが前記Ｘに占める割合が高い一般ワードの数が一定以上多い場合に、前記Ｘ個の文書群が前記選別されたキーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む
請求項１記載の文書集約装置。
前記集約判定手段は、
あるキーワードを話題の軸であると判定した場合に、該選別されたキーワードを含むＸ個の文書のうち、高い頻度Ｙを持つ一般ワードを一定以上含む文書のみを、該選別されたキーワードを軸とする同一話題文書群であると判定する手段を含む、
請求項２記載の文書集約装置。
少なくとも、記憶装置とＣＰＵを備えたコンピュータにおいて、多数の文書の中で、同一の話題について記述された文書を集約する文書集約プログラムであって、
前記記憶装置に、抽出された文書中の語（以下、「一般ワード」と記す）及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、
前記請求項１乃至３のいずれか１項に記載の手段として機能させることを特徴とする文書集約プログラム。