JP4525433B2 - 文書集約装置及びプログラム - Google Patents

文書集約装置及びプログラム Download PDF

Info

Publication number
JP4525433B2
JP4525433B2 JP2005112279A JP2005112279A JP4525433B2 JP 4525433 B2 JP4525433 B2 JP 4525433B2 JP 2005112279 A JP2005112279 A JP 2005112279A JP 2005112279 A JP2005112279 A JP 2005112279A JP 4525433 B2 JP4525433 B2 JP 4525433B2
Authority
JP
Japan
Prior art keywords
document
keyword
words
general
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005112279A
Other languages
English (en)
Other versions
JP2006293616A (ja
Inventor
吉秀 佐藤
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005112279A priority Critical patent/JP4525433B2/ja
Publication of JP2006293616A publication Critical patent/JP2006293616A/ja
Application granted granted Critical
Publication of JP4525433B2 publication Critical patent/JP4525433B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書集約装置及びプログラムに係り、多数の文書の中から同一の題材を扱った文書を取得し、取得した文書群を代表する中心的なキーワードも同時に獲得する技術において、特に、日記や感想などの砕けた文体の文書を対象とする文書集約装置及びプログラムに関する。
内容が類似する文書を集約する代表的手法には、クラスタリングがある。例えば、分類対象の要素をベクトルで表現し、ベクトル間の距離が小さい要素同士を同一クラスタに集約するクラスタリング手法の一つであり、広く利用されている。文書の分類に適用する場合は、各単語をTF−IDF(Term Frequency & Inverse Document Frequency)などで重み付けした文書ベクトルを用いる(例えば、非特許文献1参照)。
また、単語の重み付けを改良し、特に重要度の高い単語を強調した文書ベクトルを用いてクラスタリング精度を高める手法も提案されている。
尾上守夫監訳「パターン識別」新技術コミュニケーションズpp.528−529
既存の文書分類技術は、ニュース記事や論文などの比較的文体の整った文章に対してはある程度の高い精度が期待できる。しかし、個人の日記や感想のような文書は、文体の揺れや文書の長短の違いがあるばかりではなく、口語や方言が含まれる場合もある。また、ある映画の感想や、あるスポーツ選手の大記録達成を喜ぶ文書など個人の主観が含まれる文書では、同一の話題を扱った文書であっても、記述する人間が異なれば観点が異なるため、文の構成や用いられる単語の特徴などは様々である場合が多い。
これに加え、従来技術では、1文書内に複数の題材が記述された文書に対しても1つの文書ベクトルを与えて分類処理を行うため、含まれる話題の数によっては文書ベクトルが曖昧になり、分類精度が下がることもある。
以上の理由により、特に個人の日記や感想のような雑多な文書に対しては、既存の文書分類技術が有効に働かず、内容的に類似する文書集合を正しく形成させることができない。また、得られた文書集合が、実際に同一の話題で構成されるか否かを判断することができない。
本発明は、上記の点に鑑みなされたもので、膨大な文書群、とりわけ不特定多数の人々が任意の文体で記述した日記や感想などの砕けた文書を対象とし、同一の題材を扱った文書を集約することを可能とし、また、複数の話題について記述された文書が存在しても、含まれる話題のグループ全てに多重分類することが可能な文書集約装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明は、多数の文書の中で、同一の話題について記述された文書を集約し、かつ集約した文書群を代表する中心的なキーワード、すなわち話題の軸となるキーワードも同時に獲得する文書集約装置における文書集約方法であって、
入力文書を解析して文書中の語(以下、一般ワードと記す)及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する一般ワード抽出ステップ(ステップ1)と、
入力文書中において、話題の軸をなすキーワードの候補となるキーワード及び該キーワードの出現位置を取得してキーワード記憶手段に格納するキーワード抽出ステップ(ステップ2)と、
キーワード記憶手段からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード選別ステップ(ステップ3)と、
一般ワード記憶手段を参照して、キーワード選別ステップで選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定ステップ(ステップ4)と、を行う。
図2は、本発明の原理構成図である。
本発明(請求項)は、多数の文書の中で、同一の話題について記述された文書を集約する文書集約装置であって、
文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段203と、
ーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段205と、
入力文書を解析して文書中の一般ワード及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する文書解析手段202と、
入力文書中において、キーワード及び該キーワードの出現位置を取得して、キーワード記憶手段205に格納するキーワード抽出手段204と、
キーワード記憶手段205からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード集計手段206と、
一般ワード記憶手段を203参照して、キーワード集計手段206で選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段207と、を有する。
また、本発明(請求項)は、集約判定手段207において、
各選別されたキーワードが出現する文書数Xについて、該X個の文書内で該選別されたキーワードの周辺に高い頻度Yで出現した一般ワードを取得する手段と、
YがXに占める割合が高い一般ワードの数が一定以上多い場合に、X個の文書群が選別されたキーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む。
また、本発明(請求項)は、集約判定手段207において、
あるキーワードを話題の軸であると判定した場合に、該選別されたキーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該選別されたキーワードを軸とする同一話題文書群であると判定する手段を含む。
本発明(請求項)は、少なくとも、記憶装置とCPUを備えたコンピュータにおいて、多数の文書の中で、同一の話題について記述された文書を集約する文書集約プログラムであって、
記憶装置に、抽出された文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、
請求項1乃至3のいずれか1項に記載の手段として機能させるプログラムである。

本発明の文書集約方法及び装置及びプログラムは、まず、話題の軸となりうるキーワードを発見し、キーワード周辺に出現する語を集計することでそのキーワードが実際の話題の軸であるか否かを判定する方法である。軸の候補のキーワード及びその周辺の語(一般ワード)の統計情報により判定を行うため、句点がない文章や口語で記述された文書、方言を含む文書などの砕けた文体の文書であっても高精度に分類することができる。特に、地名や人名などの意味を持った語で、かつ、出現頻度の高い語を話題の軸とするため、個人の行動を記しただけの日記や極めて短い文書のように内容に話題性がない文書を除外し、同一の興味を持って記述された有益な文書のみを集約することができる。
また、1文書中に複数の話題の記述がある場合でも、注目したキーワードの周辺に出現する語を用いて話題を集約するため、例えば、前半が話題A、後半が話題Bについて記述された文書は、前半に出現する語の分布から話題Aのグループ構成文書として集約され、かつ後半に出現する分布から話題Bのグループの構成文書としても集約される、といったように、含む話題に応じて多重に分類することができる。
さらに、同一分類を含む文書を集約するばかりでなく、集約の根拠となったキーワードまで取得できるため、本発明の実施結果を用いた文書検索や要約など、様々な応答が可能である。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における文書集約装置の構成を示す。同図に示す文書集約装置は、入力文書を格納しておく文書格納部201、入力文書解析し、文書を構成する要素毎に分割する文書解析部202、文書解析部202の解析結果を元に取得した一般ワードと文書中での位置を記録する一般ワード格納部203、文書解析部202の解析結果を元に各文書を特徴付けるキーワードを抽出するキーワード抽出部204、キーワード及び文書中での位置を記録するキーワード格納部205、キーワード格納部205に記録されたキーワードを集計し、キーワードの中で話題の軸となりうる特に重要なものを選別するキーワード集計部206、選別されたキーワードを含む文書に出現する一般ワードを集計し、そのキーワードが話題の軸となっているか否かを最終的に判断する集約判定部207、話題の軸であると判断されたキーワード、及び話題を構成する文書を格納する集約文書格納部208から構成される。
図4は、本発明の一実施の形態における文書格納部の文書データの例である。
同図に示す各文書には、固有のIDが付与され、区別されている。
文書解析部202は、文書格納部201に記録された文書を取得し、文書を構成する文法的な最小単位である形態素に分割する。その後、全てまたは一部の形態素、あるいは文書中で連続する形態素を連結させた複合語を「一般ワード」として一般ワード格納部203に格納する。このとき、それぞれの一般ワードは文書中での出現位置と共に記録しておく。
図5は、本発明の一実施の形態における一般ワード格納部の一般ワードの例である。
同図に示す例では、形態素解析処理した結果、名詞であると判断された形態素を一般ワードとみなし、文書における出現位置と共に記録している。なお、出現位置は一般ワードの先頭と末尾のそれぞれの位置を文書の先頭から数えたバイト数で表す。日本語の全角1文字の情報量は2バイトであるため、全て全角文字の場合、文書の先頭を0バイトとすると、1文字目の始まりは位置「0」、2文字目の始まりは位置「2」、3文字目の始まりは位置「4」となる。文書ID「0001」の文書の例では、0〜3バイトの位置に一般ワード「昨日」が出現し、16〜19バイトの位置に一般ワード「映画」が出現している。
以下の説明では、図6のように名詞のみを一般ワードとして登録した例を用いて説明する。
キーワード抽出部204は、文書解析部202の処理結果を利用し、それぞれの文章を特徴付けるキーワードを抽出する。この処理は、以後の処理で同一の話題を扱った文書を集約する際の軸となる語の獲得が目的である。話題集約の軸となる語とは、例えば、あるスポーツ選手に注目して書かれた文書の場合はそのスポーツ選手の名前、企業間の合併について書かれた文書の場合は、当該企業名など、主に固有名詞である。
なお、キーワードの抽出には、既存技術「磯崎秀樹『メタルールと決定木学習を用いた日本語固有表現抽出』、情報処理学会論文誌、Vol.43, No.5 pp.1481-1491(2002)」を用いることができる。
これは、形態素解析処理の結果を利用し、形態素とその品詞情報、さらに、ひらがな、カタカナ、漢字といった文字種などの情報に基づいて、入力文書中から企業名やスポーツチーム名などの「組織名」、「人名」、「地名」、製品名や建物名などの「人工物名」、「金額」などといった固有表現を自動抽出する技術である。
本実施の形態では、これらの固有表現の中で、「組織名」と「人名」のみを上記既存技術により取得したものをキーワードとしてキーワード格納部205に記録するものとする。
図6は、本発明の一実施の形態におけるキーワード格納部のキーワードの例を示す。キーワード格納部205には、キーワードが、文書ID、文書の先頭からの出現位置と共に記録されている。なお、出現位置はキーワードの先頭と末尾の位置を文書の先頭から数えたバイト数で表す。
例えば、人名であるとして抽出されたキーワード「×谷○夫」が文書ID「0001」の文書の44〜51バイトの位置にあったことを表す。同様に、文書ID「0002」や「0004」の文書から抽出されたキーワードが記録されている。文書ID「0003」の日記風の文書には「組織名」と「人名」の固有表現が1語も表れなかったものとすると、図7のように文書ID「0003」に関する項は何も出力されない。
キーワード集計部206は、キーワード格納部205に記録された語の出現頻度を集計し、話題の軸として成立する可能性が特に高いキーワード、及びそのキーワードを含む文書のIDのリストを集約判定部207に送出する。一般に、数多くの文書で同一の題材が扱われている場合に、その題材を話題と呼ぶことができる。従って、話題の軸となりうるキーワードとは、出現する文書数が多いキーワードである。そこで、例えば、集計の結果、出現頻度が一定以上であったキーワードを集約判定部207に送出するのがよい。
集約判定部207は、キーワード集計部206より取得したキーワード、即ち、話題の軸の候補語が、文書を集約するにあたっての軸であるか否かを判定する。集約判定部207が行う処理を説明する。
図7は、本発明の一実施の形態における集約判定部の処理のフローチャートである。
ステップ601) キーワード集計部206よりキーワードを取得し、このキーワードが話題の軸であるか否かの判定処理を開始する。
ステップ602) キーワードを含む文書において、キーワード周辺に出現している一般ワードを取得・集計する。
例えば、人名のキーワードとして取得された「○山」というキーワードを集約判定部207が取得する際には、「○山」を含む文書のID(「0002」や「0004」)、ならびに、それぞれの文書データベースのキーワードの出現位置が取得される。図6のように、「○山」は文書IDが「0002」の文書では20〜23バイト目の位置に、文書IDが「0004」の文書では28〜31バイト目の位置に出現しているため、これらの情報が取得されることになる。
当該ステップ602では、キーワード「○山」を含む第1の文書ID「0002」の文書について、キーワードの出現位置を一般ワード格納部203に記録された一般ワードリストに照らし合わせ、文書ID「0002」の文書中でキーワード「○山」の周辺に表れている一般ワードを取得する。
注目するキーワードを含む文書から一般ワードを取得する際、取得の範囲は様々な設定が可能である。図8は、一般ワードを収集する範囲の例を説明するための図(その1)である。aは、キーワード「○山」を含む文書ID「0002」の文書である。キーワード格納部205にはキーワード「○山」の出現位置が、一般ワード格納部203には、「衆議院」「解散」などの一般ワードの出現位置が記録されている。
例えば、図8(b)に示す例1では、キーワード「○山」を中心とする前後2語までの一般ワードを収集範囲とする例である。キーワード「○山」より前に出現する「解散」「首相」、後に出現する「決断」「総選挙」が収集対象の一般ワードとなる。
図8(c)に示す例2では、キーワードを含む文書全体を収集範囲とする例である。この場合「衆議院」「解散」「首相」「決断」「総選挙」「憂鬱」以下、文書ID「0002」の文書中の全ての一般ワードが収集対象となる。
図8(a)に示した文書ID「0002」の文書の例では、「○山」より前には一般ワードが3語しかないため、例えば、例1で前後5語を収集範囲とした場合は、キーワードより前から3語しか取得できない。この場合はキーワード以前の3語全てとキーワード以後の5語を取得すればよい。
ここまでの説明では、図5や図6の例のように、「文書ID」「一般ワード(またはキーワード)」「出現位置」のみを記録するものとしたが、文書解析部202が行う形態素解析処理の結果から文書中の句点「。」を取得して文と文の区切りを判断し、どの語とどの語が同じ文から抽出されたかを同時に記録するようにしてもよい。これを用いれば、図8(d)に示す例3のように、キーワード「○山」を含む文を中心とする前後いくつかの文を一般ワードの収集範囲とすることも可能である。図8(d)の例3は、キーワードを含む文のみを収集範囲とする例であるため「衆議院」「解散」「首相」「決断」の4語のみが取得されるが、「キーワードを含む文を中心とする前後2文」というように、範囲を前後の文に拡大してよい。
句点「。」に加え、ピリオド「.」やエクスクラメーションマーク「!」、クエスチョンマーク「?」などを文の区切りとみなしてもよい。
一方、組織名として取得したキーワード「○○新聞」に注目して周辺の一般ワードを取得する際の範囲指定方法の例を示す。図9は、本発明の一実施の形態における一般ワード収集範囲の例(その2)である。
本発明の文書集約方法は、注目するキーワードの周辺に特定の一般ワードが高確率で出現する場合に、その文書群は同一の話題について記述された文書であり、かつ、そのキーワードが話題の軸であると判定するものである。図9に示す文中の「(○○新聞発行)」という文字列が○○新聞社から発行される全てのニュース記事の見出しに固定的に用いられる文字列だとすると、「○○新聞」の周辺では極めて高い確率で「発行」という一般ワードが出現することになる。このため、○○新聞社から発行されたあらゆるニュース記事が同一話題だとして誤って集約されてしまう。図9に示した範囲指定の例はこれを回避するための一つの方法である。注目するキーワードに隣接して出現する一般ワードを取得しないことで、同一発行者が高頻度で固定的に用いる語句を軸であると誤判断するのを防ぐ。
隣接する一般ワードではなく、注目するキーワードから一番近い一般ワードを取得対象から外すようにしてもよい。図9の場合「殺到」及び「発行」が対象から外れることになる。
図8及び図9に示した範囲の設定方法に限らず、種々の一般ワード取得方法も利用可能である。例えば、前後1文などのように固定長で指定した範囲内に一般ワードが1語も含まれない場合に探索範囲を拡大し、注目キーワードから近い順に前後M語の一般ワードを取得する、など、複数の方法と組み合わせて取得してもよい。
いずれかの方法で、注目するキーワードを含む全ての文書について、周辺から一般ワードを取得し、例えば、「○山」というキーワードでは、「衆議院」が5回、「解散」が7回といった具合で一般ワードが取得された文書数をカウントする。
ステップ603) 注目するキーワードを含む全ての文書について探索が終了したかを判定し、判定した場合にはステップ604に移行し、そうでない場合には、ステップ602を繰り返す。
ステップ604) それぞれのキーワード毎に集計された一般ワードの頻度情報を用い、各キーワードが話題の軸をなす語句であるか否かを判定する。
判定の方法を以下で説明する。
文書集約を行うにあたり、ある注目キーワードが話題の軸となっているか否かの判断は、そのキーワードの周辺に、特定の語が高頻度で出現するかどうかによって行う。
図10は、本発明の一実施の形態におけるキーワード周辺から取得した一般ワードの例を示す。同図では、キーワード「○山」と「○○新聞」の各々に注目して周辺の一般ワードを集計した結果の、出現文書数が多い上位5語の例である。「○山」は全文書中の28文書に出現し、周辺から取得された一般ワードは頻度の高いものから順に「衆議院」(25文書に出現)、「解散」(22文書に出現)、「総理」(21文書に出現)、「明日」(15文書に出現)、「総選挙」(13文書に出現)であったものとする。
このとき、集約判定部207は、ここに挙げた上位5位までの一般ワードの出現文書数のうち、注目キーワード「○山」の出現文書数28の半分の14を超えるものの数をカウントする。この例では、14を越える出現文書数を有する一般ワードは「衆議院」「解散」「総理」「明日」の4語である。つまり、周辺から取得した一般ワード上位5語のうち4語が一定以上の高い頻度で出現していたことになる。
同様にすると、同じく図8に示す「○○新聞」の例では、出現文書数32の半数16を超えるような高い頻度で出現した一般ワードは1語も存在しない。
集約判定部207は、高頻度順に並べた一般ワードの上位の語(例えば上位5語)のうち、条件を満たす時に高い頻度の一般ワードの個数(「○山」の例では4語、「○○新聞」の例では0語)を調べ、その割合が例えば60%以上であった場合に、注目キーワードを話題の軸であると判定する。
この結果、「○山」は上位5語のうち条件を満たした4語は80%に相当し、60%を超えるため話題の軸であると判定される。一方、「○○新聞」は条件を満たす語が1語も存在しない(0%)ため、話題の軸ではないと判定する。
あるキーワードを含む文書群が同一の題材について記述されたものである場合、キーワード周辺の語の出現パターンが文書間で類似するため、周辺の一般ワードの出現回数を集計した結果、高頻度を記録しやすくする。言い換えれば、キーワード周辺に出現する語に偏りがある。一方、あるキーワードの一般性が高く、様々な分野の文書に用いられる語の場合、周辺に出現する語がまちまちであるため、それぞれの出現回数を集計しても高頻度にはなりにくい。言い換えれば、キーワード周辺に出現する語に偏りがない。上記判定は、この特徴を利用したものであり、注目キーワードの周辺での出現回数が多い一般ワードのうち、特に頻度の高い語が占める割合を調べることにより、話題の軸であるか否かを自動判定するものである。
この特徴に注目した判定方法であれば上記の例に限定されることなく、様々な応用が可能である。
例えば、予めあらゆる2つの語句が同時に用いられる可能性を数値化したデータベースを構築しておき、周辺から取得された高頻度な一般ワードが互いに関連するか否かによって判定を行ってもよい。この場合、図9の例でキーワード「○山」の周辺から取得された「衆議院」や「解散」や「総理」などの一般ワードは、上記データベースを参照すれば互いに関連が深い語であることがわかり、「○山」が話題の軸であるとの判定材料とすることができる。逆に、「○○新聞」の周辺から取得された「逮捕」や「震度」や「ホームラン」は相関性が低く、「○○新聞」は一般性の高い語であるために話題の軸とはならないという判定を行うことができる。
あるいは、あらゆる2つの語句が1文や1文書中に同時に出現する可能性を数値化するデータベースを予め構築するのではなく、入力文書から動的に構築してもよい。この場合は、キーワード「○山」の周辺から取得された「衆議院」や「解散」などの高頻度な一般ワードが同一文中や同一文書中など、一定の範囲内に同時に出現する確率を算出し、その確率が高ければ話題の軸であると判定することができる。
判定処理の結果、注目するキーワードが話題の軸であると判定された場合には、ステップ605に移行し、そうでない場合には、処理を終了する。
ステップ605) キーワード及びそのキーワードを含む文書のIDを集約文書格納部208に記録する。
話題構成文書のIDを出力する際、話題の軸であると判定されたキーワードを含む全ての文書のIDを出力するのではなく、キーワードの周辺から取得された一般ワードの上位5位のうち、例えば、3語以上を含むような文書のみのIDを出力してもよい。図10に示したキーワード「○山」の例で、「衆議院」「解散」「総理」「明日」「総選挙」のうち3語以上を含む文書のみを、「○山」を軸とする話題文書群として出力することで、偶然に「○山」というキーワードを含んだ文書を混在させることなく、「衆議院解散に伴う総選挙」というある特定の話題について記述された文書のみを厳選することができる。
以上の処理の結果、上記実施の形態における「○○新聞」のように一般性の高いキーワードではなく、首相の姓である「○山」の例のように話題の中心に位置付けられるキーワードが話題の軸として判定され、同時にその話題を構成する文書群が出力される。
なお、上記の実施の形態では、固有表現と呼ぶ語をキーワード候補とし、名詞を一般ワードとしたがこれに限定するものではなく、様々に変更可能である。
また、上記の実施の形態における文書集約装置の文書解析部202、キーワード抽出部204、キーワード集計部206、集約判定部207の動作をプログラムとして構築し、ハードディスクやメモリ等の記憶手段を有するコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、与えられた文書集合の共通話題を獲得するための技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における文書集約装置のシステム構成例である。 本発明の一実施の形態における文書格納部の文書データの例である。 本発明の一実施の形態における一般ワード格納部の一般ワードの例である。 本発明の一実施の形態におけるキーワード格納部のキーワードの例である。 本発明の一実施の形態における集約判定部の処理のフローチャートである。 本発明の一実施の形態における一般ワード収集範囲の例(その1)である。 本発明の一実施の形態における一般ワード収集範囲の例(その2)である。 本発明の一実施の形態におけるキーワード周辺から取得した一般ワードの例である。
符号の説明
201 文書格納部
202 文書解析手段、文書解析部
203 一般ワード記憶手段、一般ワード格納部
204 キーワード抽出手段、キーワード抽出部
205 キーワード記憶手段、キーワード格納部
206 キーワード集計手段、キーワード集計部
207 集約判定手段、集約判定部
208 集約文書格納部

Claims (4)

  1. 多数の文書の中で、同一の話題について記述された文書を集約する文書集約装置であって、
    文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、
    ーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、
    入力文書を解析して文書中の一般ワード及び該一般ワードの出現位置情報を獲得し、前記一般ワード記憶手段に格納する文書解析手段と、
    前記入力文書中において、キーワード及び該キーワードの出現位置を取得して、前記キーワード記憶手段に格納するキーワード抽出手段と、
    前記キーワード記憶手段からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード集計手段と、
    前記一般ワード記憶手段を参照して、前記キーワード集計手段で選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、前記選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段と、
    を有することを特徴とする文書集約装置。
  2. 前記集約判定手段は、
    各選別されたキーワードが出現する文書数Xについて、該X個の文書内で該選別されたキーワードの周辺に高い頻度Yで出現した一般ワードを取得する手段と、
    前記Yが前記Xに占める割合が高い一般ワードの数が一定以上多い場合に、前記X個の文書群が前記選別されたキーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む
    請求項記載の文書集約装置。
  3. 前記集約判定手段は、
    あるキーワードを話題の軸であると判定した場合に、該選別されたキーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該選別されたキーワードを軸とする同一話題文書群であると判定する手段を含む、
    請求項記載の文書集約装置。
  4. 少なくとも、記憶装置とCPUを備えたコンピュータにおいて、多数の文書の中で、同一の話題について記述された文書を集約する文書集約プログラムであって、
    前記記憶装置に、抽出された文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、
    前記請求項1乃至3のいずれか1項に記載の手段として機能させることを特徴とする文書集約プログラム。
JP2005112279A 2005-04-08 2005-04-08 文書集約装置及びプログラム Expired - Fee Related JP4525433B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005112279A JP4525433B2 (ja) 2005-04-08 2005-04-08 文書集約装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005112279A JP4525433B2 (ja) 2005-04-08 2005-04-08 文書集約装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006293616A JP2006293616A (ja) 2006-10-26
JP4525433B2 true JP4525433B2 (ja) 2010-08-18

Family

ID=37414140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005112279A Expired - Fee Related JP4525433B2 (ja) 2005-04-08 2005-04-08 文書集約装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4525433B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835290B1 (ko) 2006-11-07 2008-06-05 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
JP4594992B2 (ja) * 2008-03-03 2010-12-08 日本電信電話株式会社 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
KR101083510B1 (ko) 2009-04-16 2011-11-16 엔에이치엔(주) 주파수 변환 기법을 이용한 시계열 클러스터링 시스템 및 방법
CN109614606B (zh) * 2018-10-23 2023-02-03 中山大学 基于文档嵌入的长文本案件罚金范围分类预测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10340275A (ja) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 情報抽出装置
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2000242647A (ja) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2001306596A (ja) * 2000-04-17 2001-11-02 Sharp Corp ネットワーク情報の表示方法およびその方法をプログラムとして格納した記録媒体ならびにそのプログラムを実行するコンピュータ

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10340275A (ja) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 情報抽出装置
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2000242647A (ja) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2001306596A (ja) * 2000-04-17 2001-11-02 Sharp Corp ネットワーク情報の表示方法およびその方法をプログラムとして格納した記録媒体ならびにそのプログラムを実行するコンピュータ

Also Published As

Publication number Publication date
JP2006293616A (ja) 2006-10-26

Similar Documents

Publication Publication Date Title
Ahmed et al. Detection of online fake news using n-gram analysis and machine learning techniques
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
JP6150282B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
Mohammad et al. Semantic role labeling of emotions in tweets
US8983963B2 (en) Techniques for comparing and clustering documents
JP5106636B2 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
US8886661B2 (en) Information extraction system, information extraction method, information extraction program, and information service system
US9251248B2 (en) Using context to extract entities from a document collection
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP2010157178A (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
Sardinha An assessment of metaphor retrieval methods
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Xu et al. Using SVM to extract acronyms from text
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
Simaki et al. Identifying the Authors' National Variety of English in Social Media Texts.
JP4525433B2 (ja) 文書集約装置及びプログラム
JP3735336B2 (ja) 文書要約方法及びシステム
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
Nguyen et al. Automatic classification of folk narrative genres
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140611

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees