JP2003323436A - 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体 - Google Patents

文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体

Info

Publication number
JP2003323436A
JP2003323436A JP2002129463A JP2002129463A JP2003323436A JP 2003323436 A JP2003323436 A JP 2003323436A JP 2002129463 A JP2002129463 A JP 2002129463A JP 2002129463 A JP2002129463 A JP 2002129463A JP 2003323436 A JP2003323436 A JP 2003323436A
Authority
JP
Japan
Prior art keywords
document
theme
folder
classification
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002129463A
Other languages
English (en)
Inventor
Megumi Ishii
恵 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002129463A priority Critical patent/JP2003323436A/ja
Publication of JP2003323436A publication Critical patent/JP2003323436A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書の分類に、ユーザに可読性の高い分類体
系を、単語の数による組み合わせ爆発を起こさないで作
成可能にする。 【解決手段】 文書群の各文書から名詞句を抽出し、そ
れを構成する単語数等をテーマとして抽出し、テーマと
テーマが抽出された文書の対応づけを記憶するテーマイ
ンデックスを作成し(1−2、1−3)、フォルダ内に
分類されている文書群のうち、当該フォルダ名を含むテ
ーマをテーマとして含まない文書をテーマ外文書とし、
テーマ外文書を分類する視点を表す単語をテーマ外文書
を用いて分類視点単語として決定し、各分類視点単語に
対して当該分類視点単語をフォルダ名とするフォルダを
当該フォルダの子フォルダとして作成し、各分類視点単
語とテーマ外文書内の単語の出現情報を用いて、テーマ
外文書を1つ以上の子フォルダへ分類する(1−4、1
−5)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化され蓄積さ
れた文書ファイルを階層的に分類する文書分類装置およ
び文書分類方法に関し、特に、作成された分類体系はユ
ーザが所望の文書を探すときなど、ユーザに提示されて
効率的な利用を可能にする文書分類装置および方法に関
する。
【0002】
【従来の技術】文書集合を階層的に分類するには、文書
集合を複数のクラスタに分割し、各クラスタを再帰的に
分割することにより可能である。文書を計算機で扱う手
法としては、文書が含む単語等、文書の内容を表現する
ような意味要素の頻度や分布状況を用いて、各文書にお
ける各意味要素の重みを数値化し、意味要素とその重み
から構成されるへクトルとして文書を表現するベクトル
空間モデルが広く用いられている。
【0003】クラスタへの分割戦略として、文書の類似
性に着目する手法と単語に着目する手法がある。
【0004】文書の類似性に着目する手法では、文書を
ベクトル表現し、ベクトル間の類似性に基づき、例えば
「単純クラスタリング(simple clustering)情報科学
辞典、岩波書店、pp.451、1990」や「K平均アルゴリ
ズム(K-means algorithm)、情報科学辞典、岩波書
店、pp.211、1990」を用いて文書集合を複数のクラス
タに分割する。
【0005】単語に着目する手法としては、文書群のあ
るキーワードに着目し、そのキーワードが存在するか否
かにより文書を分類する手法(特開平5−324726
号公報)や、データマイニングの分野で利用されている
相関ルールの抽出方式を用いて単語の出現相関を検出
し、単語を階層配置することにより分類階層を構築する
手法(情報処理学会第62回(平成13年前期)全国大
会5W-4,3-133,134)がある。
【0006】
【発明が解決しようとする課題】しかし、前記の文書の
類似性に着目する手法では、文書のベクトルの類似性に
よってのみクラスタが作成されるため、どのような特徴
をもつクラスタが作成されたかを人間が理解することは
難しい。また、文書は1つのクラスタに分類されるた
め、複数分野に関連する文書を複数のクラスタへ分類す
るといった、文書を複数の視点での分類を行なうことが
できない。また、文書は分類体系のリーフのクラスタに
分類されるため、例えば、福祉全般に関係する文書は福
祉に、福祉の制度に関係する文書は福祉の配下の制度に
分類するといった、分類体系の中間ノードへ文書を分類
することができない。
【0007】一方、前記特開平5−324726号公報
の手法では、キーワードの有無を分岐条件とする決定木
により分類体系を表すことができるため、文書の類似性
に着目する手法よりも分類体系の可読性は高くなる。し
かし、キーワードAを含まない文書はキーワードAに関
連していても別のクラスタに分類され、更に複数分野に
関連する文書を1つの視点でしか分類できないので、キ
ーワードAに関連する文書にはキーワードAが現れ、か
つ、ユーザ想定する分類と分類体系が一致しないと、ユ
ーザは効率的に所望の文書を発見できないという問題が
ある。
【0008】前記相関ルールを用いた方法では、各クラ
スタの特徴はルートからのパス上に現れる単語をand
条件で連結した検索条件を表現するため、人間にとって
分類の指標が理解しやすい。各クラスタへの分類は、各
クラスタに対する前記and条件での文書検索により行
なうため、原理的には複数クラスタへの分類が可能であ
る。しかし、単語の全ての組合せの出現情報を計算する
必要があり、単語数が増加すると組合せ爆発を起こす。
そのため、現実には文書全体でなく表題など指定された
範囲から分類階層を作成する。しかしその場合、表題等
の短い文章内での単語の共起への依存となるため、作成
される分類階層は幅広で浅いものとなる傾向があり、可
読性が下がるという問題がある。
【0009】本発明は上述した問題を解決するため、1
つの文書を複数クラスタへの分類と分類体系の中間ノー
ドへの分類ができる適切な階層の深さをもつユーザに可
読性の高い分類体系を、単語の数による組み合わせ爆発
を起こさないで作成可能な文書分類装置、方法、プログ
ラム、記録媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明は、前記の課題を
解決するため、以下の文書分類装置、方法、プログラ
ム、記録媒体を特徴とする。
【0011】(装置の発明) (1)文書群の各文書から名詞句を抽出し、前記抽出し
た名詞句のうち名詞句を構成する単語数または名詞句の
文字列長または名詞句の文書内出現回数または名詞句の
前記文書集合内の出現回数の少なくとも1つを用いて規
定される条件を満たすものをテーマとして抽出し、前記
抽出したテーマとテーマが抽出された文書の対応づけを
記憶するテーマインデックスを作成するテーマ抽出手段
と、フォルダ内に分類されている文書群のうち、当該フ
ォルダ名を含むテーマをテーマとして含まない文書をテ
ーマ外文書とし、前記テーマ外文書を分類する視点を表
す単語を前記テーマ外文書を用いて分類視点単語として
決定し、前記各分類視点単語に対して当該分類視点単語
をフォルダ名とするフォルダを当該フォルダの子フォル
ダとして作成し、前記各分類視点単語と前記テーマ外文
書内の単語の出現情報を用いて、前記テーマ外文書を1
つ以上の子フォルダへ分類する分類手段とを設けたこと
を特徴とする。
【0012】(2)文書群の各文書から名詞句を抽出
し、前記抽出した名詞句のうち名詞句を構成する単語数
または名詞句の文字列長または名詞句の文書内出現回数
または名詞句の前記文書集合内の出現回数の少なくとも
1つを用いて規定される条件を満たすものをテーマとし
て抽出し、前記抽出したテーマとテーマが抽出された文
書の対応づけを記憶するテーマインデックスを作成する
テーマ抽出手段と、前記テーマの後方で1つ以上の単語
を表す単語列から、前記文書群を分類する視点を表す単
語列を決定し、前記各分類視点単語列に対してそれをフ
ォルダ名とするフォルダを作成し、前記各分類視点単語
列と文書内の単語の出現情報を用いて、前記作成された
フォルダのうちの1つ以上のフォルダに分類し、前記名
フォルダに対して、フォルダ内に分類されている文書の
うち、当該フォルダ名が後方一致するテーマをテーマと
して含まない文書をテーマ外文書とし、前記テーマ外文
書を分類する視点を表す単語を前記テーマ外文書を用い
て分類視点単語として決定し、前記各分類視点単語をフ
ォルダ名とするフォルダを子フォルダとして作成し、前
記各分類視点単語と前記テーマ外文書内の単語の出現情
報を用いて、前記テーマ外文書を1つ以上の子フォルダ
へ分類する主題別分類手段と、フォルダ内に分類されて
いる文書のうち、フォルダ名を含む前記テーマをテーマ
として含まない文書をテーマ外文書とし、前記テーマ外
文書を分類する視点を表す単語を前記テーマ外文書を用
いて分類視点単語として決定し、前記各分類視点単語に
対して当該分類視点単語をフォルダ名とするフォルダを
当該フォルダの子フォルダとして作成し、前記各分類視
点単語と前記テーマ外文書内の単語の出現情報を用い
て、前記テーマ外文書を1つ以上の子フォルダへ分類す
る分類手段とを設けたことを特徴とする。
【0013】(方法の発明) (3)文書群の各文書から名詞句を抽出し、前記抽出し
た名詞句のうち名詞句を構成する単語数または名詞句の
文字列長または名詞句の文書内出現回数または名詞句の
前記文書集合内の出現回数の少なくとも1つを用いて規
定される条件を満たすものをテーマとして抽出し、前記
抽出したテーマとテーマが抽出された文書の対応づけを
記憶するテーマインデックスを作成するテーマ抽出過程
と、フォルダ内に分類されている文書群のうち、当該フ
ォルダ名を含むテーマをテーマとして含まない文書をテ
ーマ外文書とし、前記テーマ外文書を分類する視点を表
す単語を前記テーマ外文書を用いて分類視点単語として
決定し、前記各分類視点単語に対して当該分類視点単語
をフォルダ名とするフォルダを当該フォルダの子フォル
ダとして作成し、前記各分類視点単語と前記テーマ外文
書内の単語の出現情報を用いて、前記テーマ外文書を1
つ以上の子フォルダへ分類する分類過程とを設けたこと
を特徴とする。
【0014】(4)文書群の各文書から名詞句を抽出
し、前記抽出した名詞句のうち名詞句を構成する単語数
または名詞句の文字列長または名詞句の文書内出現回数
または名詞句の前記文書集合内の出現回数の少なくとも
1つを用いて規定される条件を満たすものをテーマとし
て抽出し、前記抽出したテーマとテーマが抽出された文
書の対応づけを記憶するテーマインデックスを作成する
テーマ抽出過程と、前記テーマの後方で1つ以上の単語
を表す単語列から、前記文書群を分類する視点を表す単
語列を決定し、前記各分類視点単語列に対してそれをフ
ォルダ名とするフォルダを作成し、前記各分類視点単語
列と文書内の単語の出現情報を用いて、前記作成された
フォルダのうちの1つ以上のフォルダに分類し、前記名
フォルダに対して、フォルダ内に分類されている文書の
うち、当該フォルダ名が後方一致するテーマをテーマと
して含まない文書をテーマ外文書とし、前記テーマ外文
書を分類する視点を表す単語を前記テーマ外文書を用い
て分類視点単語として決定し、前記各分類視点単語をフ
ォルダ名とするフォルダを子フォルダとして作成し、前
記各分類視点単語と前記テーマ外文書内の単語の出現情
報を用いて、前記テーマ外文書を1つ以上の子フォルダ
へ分類する主題別分類過程と、フォルダ内に分類されて
いる文書のうち、フォルダ名を含む前記テーマをテーマ
として含まない文書をテーマ外文書とし、前記テーマ外
文書を分類する視点を表す単語を前記テーマ外文書を用
いて分類視点単語として決定し、前記各分類視点単語に
対して当該分類視点単語をフォルダ名とするフォルダを
当該フォルダの子フォルダとして作成し、前記各分類視
点単語と前記テーマ外文書内の単語の出現情報を用い
て、前記テーマ外文書を1つ以上の子フォルダへ分類す
る分類過程とを設けたことを特徴とする。
【0015】(プログラムの発明) (5)文書群の各文書から名詞句を抽出し、前記抽出し
た名詞句のうち名詞句を構成する単語数または名詞句の
文字列長または名詞句の文書内出現回数または名詞句の
前記文書集合内の出現回数の少なくとも1つを用いて規
定される条件を満たすものをテーマとして抽出し、前記
抽出したテーマとテーマが抽出された文書の対応づけを
記憶するテーマインデックスを作成するテーマ抽出過程
と、前記テーマの後方で1つ以上の単語を表す単語列か
ら、前記文書群を分類する視点を表す単語列を決定し、
前記各分類視点単語列に対してそれをフォルダ名とする
フォルダを作成し、前記各分類視点単語列と文書内の単
語の出現情報を用いて、前記作成されたフォルダのうち
の1つ以上のフォルダに分類し、前記名フォルダに対し
て、フォルダ内に分類されている文書のうち、当該フォ
ルダ名が後方一致するテーマをテーマとして含まない文
書をテーマ外文書とし、前記テーマ外文書を分類する視
点を表す単語を前記テーマ外文書を用いて分類視点単語
として決定し、前記各分類視点単語をフォルダ名とする
フォルダを子フォルダとして作成し、前記各分類視点単
語と前記テーマ外文書内の単語の出現情報を用いて、前
記テーマ外文書を1つ以上の子フォルダへ分類する主題
別分類過程と、フォルダ内に分類されている文書群のう
ち、当該フォルダ名を含むテーマをテーマとして含まな
い文書をテーマ外文書とし、前記テーマ外文書を分類す
る視点を表す単語を前記テーマ外文書を用いて分類視点
単語として決定し、前記各分類視点単語に対して当該分
類視点単語をフォルダ名とするフォルダを当該フォルダ
の子フォルダとして作成し、前記各分類視点単語と前記
テーマ外文書内の単語の出現情報を用いて、前記テーマ
外文書を1つ以上の子フォルダへ分類する分類過程と、
をコンピュータで実行させるためのプログラムとして構
成したことを特徴とする。
【0016】(記録媒体の発明) (6)文書群の各文書から名詞句を抽出し、前記抽出し
た名詞句のうち名詞句を構成する単語数または名詞句の
文字列長または名詞句の文書内出現回数または名詞句の
前記文書集合内の出現回数の少なくとも1つを用いて規
定される条件を満たすものをテーマとして抽出し、前記
抽出したテーマとテーマが抽出された文書の対応づけを
記憶するテーマインデックスを作成するテーマ抽出過程
と、前記テーマの後方で1つ以上の単語を表す単語列か
ら、前記文書群を分類する視点を表す単語列を決定し、
前記各分類視点単語列に対してそれをフォルダ名とする
フォルダを作成し、前記各分類視点単語列と文書内の単
語の出現情報を用いて、前記作成されたフォルダのうち
の1つ以上のフォルダに分類し、前記名フォルダに対し
て、フォルダ内に分類されている文書のうち、当該フォ
ルダ名が後方一致するテーマをテーマとして含まない文
書をテーマ外文書とし、前記テーマ外文書を分類する視
点を表す単語を前記テーマ外文書を用いて分類視点単語
として決定し、前記各分類視点単語をフォルダ名とする
フォルダを子フォルダとして作成し、前記各分類視点単
語と前記テーマ外文書内の単語の出現情報を用いて、前
記テーマ外文書を1つ以上の子フォルダへ分類する主題
別分類過程と、フォルダ内に分類されている文書群のう
ち、当該フォルダ名を含むテーマをテーマとして含まな
い文書をテーマ外文書とし、前記テーマ外文書を分類す
る視点を表す単語を前記テーマ外文書を用いて分類視点
単語として決定し、前記各分類視点単語に対して当該分
類視点単語をフォルダ名とするフォルダを当該フォルダ
の子フォルダとして作成し、前記各分類視点単語と前記
テーマ外文書内の単語の出現情報を用いて、前記テーマ
外文書を1つ以上の子フォルダへ分類する分類過程と、
をコンピュータで実行させるためのプログラムとして構
成し、このプログラムをコンピュータで読み取り実行可
能な記録媒体に記録したことを特徴とする。
【0017】(作用)以上のことより、(1)や(3)
等により、テーマ外文書群を子フォルダへ分類する際、
1つの以上の子フォルダへ分類することにより、1つの
文書の複数クラスタへの分類を可能とする。テーマ外文
書群のみを子フォルダへ分類することにより、分類体系
の中間ノードへの分類を可能とする。分類体系の中間ノ
ードへの分類と、分類視点を表す単語を決定してから文
書群をクラスタリングし、各フォルダに分類視点単語を
付与することにより、ユーザに可読性の高い分類体系の
作成を可能とする。また、クラスタを作成する際、単語
の特徴的な組合せではなく、特徴的な単語を探すことに
より、単語の数による組合せ爆発をなくし適切な階層の
深さもつ分類体系の作成を可能とする。
【0018】また、(2)、(4)等により、日本語で
は句を構成する最後の語は、句内の他の語から修飾され
る語で句の主題を表し、テーマの後方1つ以上の単語を
表す単語列から文書群の特徴を表す特徴単語列を決定す
ることにより、文書のテーマの主題別の分類を可能とす
る。その結果、各種制度(「〜制度」)、各種福祉
(「〜福祉」)の文書を「制度」フォルダ、「福祉」フ
ォルダへ分類といった分類が可能である。前記目的別の
分類を行なった後、テーマ外文書群から分類の視点とな
る分類視点単語を決定し、前記各分類視点単語と文書内
の単語の出現情報を用いて子フォルダへ分類することに
より、「支援に関する制度」といった主題を修飾する分
類を可能とし、ユーザにより理解しやすい分類体系の作
成を可能とする。
【0019】
【発明の実施の形態】(実施形態1)図1は本発明の第
一の実施形態を実現するための構成例を示す図である。
文書DB1−1は分類対象文書を格納する。
【0020】テーマ抽出手段1−2は、文書DB(デー
タベース)1−1に格納されている文書群の各文書から
名詞句を抽出し、前記抽出した名詞句のうち名詞句を構
成する単語数または名詞句の文字列長または名詞句の文
書内出現回数または名詞句の前記文書集合内の出現回数
の少なくとも1つを用いて規定される条件を満たすもの
をテーマとして抽出し、前記抽出したテーマとテーマが
抽出された文書の対応付けをテーマインデックス1−3
として作成する。
【0021】分類手段1−4は、文書DB1−1の文書
群がフォルダに分類された分類体系を作成する。このう
ち、分割フォルダ選択手段1−4−1は、文書DBの文
書が分類されているフォルダの中から、更に細分化して
分類するフォルダを分割対象フォルダとして選択する。
分類視点単語選択手段1−4−2は、前記分割対象フォ
ルダ内に分類されている文書を更に分類する場合の視点
となる単語を選択する。子フォルダ分類手段1−4−3
は、前記分類視点単語をラベルにもつフォルダを作成
し、前記分割対象フォルダに分類されている文書を作成
した子フォルダに分類する。分類体系出力手段1−4−
4は、分類手段1−4が作成した分類体系を外部へ出力
する。
【0022】分類体系DB1−5は、分類手段1−4に
よって作成された分類体系を格納する。以下に本文書分
類装置の動作を説明する。
【0023】図2は、文書DB1−1に格納される文書
情報の例である。テーマ抽出手段1−2は、文書DB1
−1に格納されている各文書に対して形態素解析を行な
い、予め与えられた品詞のパターンに最長マッチする単
語列を名詞句として抽出する。
【0024】例えば、名詞が連続するパターンを予め与
えられた品詞パターンとした場合、文書1の「住宅取得
支援制度は、市内に新築分譲マンションを購入しようと
する方に対して、市が一定期間の利子補給(10年間)
をするものです。」という文章を形態素解析を行なった
結果、「住宅(名詞)、取得(名詞)、支援(名詞)、
制度(名詞)、は(連用助詞)、、(読点)、市内(名
詞)、に(格助詞)、新築(名詞)、分譲(名詞)、マ
ンション(名詞)、を(格助詞)、購入(名詞)、しよ
(動詞活用語尾)、うと(動詞接尾辞)、する(動詞接
尾辞)、方(名詞)、に(格助詞)、対(動詞語幹)、
し(動詞活用語尾)、て(動詞接尾辞)、、(読点)、
市(名詞)、が(格助詞)、一定(連用詞)、期間(名
詞)、の(格助詞)、利子(名詞)、補給(名詞)、
((冠数詞)、1(Number)、0(Nu卿be
r)、年間(助数詞)、)(括弧)、を(格助詞)、す
る(動詞語幹)、もの(名詞)、です(判定詞)、。
(句点)」という結果が得られた場合、抽出される名詞
句は「住宅取得支援制度」、「新築分設マンション」、
「利子補給」となる。
【0025】ここで、例えば、テーマの条件を名詞句を
構成する単語数2以上で文書内出現回数が2回以上のも
のとしたとする。この場合、図2の文書1から抽出され
るテーマは「住宅取得支援制度」、「新築分譲マンショ
ン」となる。テーマの条件は前記条件に限定されるもの
ではなく、名詞句の文字列長(何文字以上、何文字以下
等)や名詞句の文書集合内の出現回数等を用いてテーマ
とする条件を規定することができる。
【0026】図3に、テーマインデックスの例を示す。
同図では、「住宅取得支援制度」が文書1、文書10か
ら、「老人医療制度」が文書23、文書45、文書75
から抽出されたことを示す。
【0027】分類手段1−4では、まず、初期処理とし
てルートフォルダを作成し、文書DB1−1の文書をル
ートフォルダに分類する。ルートフォルダは未分割の状
態である。分割フォルダ選択手段1−4−1は、未分割
のフォルダを1っ選択する。未分割のフォルダがない場
合、分類体系出力手段1−4−4により、作成された分
類体系を分類体系DB1−5に格納し、分類処理を終了
する。分類視点単語選択手段1−4−2は、分割フォル
ダ選択手段1−4−1により選択されたフォルダ(分割
対象フォルダ)の子フォルダ内に分類されている文書を
分類する視点を表す分類視点単語を決定する。分類視点
単語はフォルダのラベルとしてユーザに提示するものな
ので、ユーザにわかりやすいものが良く、例えば、名詞
を利用するのが好ましい。
【0028】分類視点単語選択手段1−4−2は、例え
ば次のようにして分類視点単語を選択する。フォルダ内
に分類されている文書群に対して、フォルダ名を含むテ
ーマをテーマとして含まない文書であるテーマ外文書群
を形態素解析を行ない、文書群に現れる各名詞の出現回
数を求める。ルートフォルダの場合はフォルダ名はない
(付与されている単語はない)ので、全ての文書をテー
マ外文書として扱う。前記名詞のうち、当該フォルダ名
と当該フォルダの祖先フォルダとして出現せず、全ての
文書に出現する名詞以外の名詞から、出現回数の多いも
のから順に前記文書群の文書を全てカバーするまで選択
する。
【0029】ここで、単語群が文書群をカバーすると
は、文書群の各文書は少なくとも1つ、単語群の単語を
含むことを意味する。この際、名詞を選択する際は、選
択した名詞を含まない文書群から次の名詞を選択するよ
うすれば、少ない単語数で文書群をカバーすることが期
待できる。
【0030】単語の選択をテーマ外文書の全ての文書を
カバーするまでではなく、規定割合以上の文書をカバー
するまでとしてもよい。文書内の単語の共起関係を用い
ず、分類の視点を決定するため、相関ルールを用いた分
類体系の作成で発生する、単語の組合せ爆発しないこと
は明らかである。
【0031】子フォルダ分類手段1−4−3は、分類視
点単語選択手段1−4−2により選択された単語をフォ
ルダ名とするフォルダを当該分割対象フォルダの子フォ
ルダとして作成し、当該分割対象フォルダに分類されて
いる文書の中のフォルダに付与されている単語を含むテ
ーマをテーマとして含む文書以外の文書であるテーマ外
文書を、前記子フォルダに分類する。
【0032】テーマ外文書群を子フォルダに分類するこ
とにより、当該分割フォルダにはフォルダのラベルの単
語をテーマとする文書が分類され、フォルダのラベルか
ら分類されている文書の内容が容易に推測でき、ユーザ
にわかりやすい分類となる。例えば、当該分割フォルダ
のラベルが「住宅」の場合、テーマインデックス1−3
に格納されているテーマの中から、「住宅」を含み、か
つ、当該分割フォルダに分類されている文書が、当該分
割フォルダに残ることとなる。
【0033】子フォルダへの分類は、例えば以下のよう
にして行なうことができる。各子フォルダには、そのフ
ォルダ名を含む文書を分類する。複数の分類視点単語を
含む文書は複数のフォルダに分類する。これにより1つ
の文書を複数の視点から分類できる。テーマ外文書群で
分類視点単語を含まない文書は、その文書が含む単語と
共通する単語が最も多い分類済み文書が分類された当該
分割フォルダの子フォルダへ文書を分類する。分類済み
文書と共通する単語が存在しない文書は当該分割対象フ
ォルダへ残す。
【0034】当該分割フォルダおよび作成した子フォル
ダのうち、分割の必要がないフォルダを「分割済み」に
設定する。例えば、あまり文書数が多くないフォルダは
分割したくない場合は、分割の必要がないフォルダの条
件として、分類されている文書数が規定された文書数
(例えば10文書)以下の子フォルダは「分割済み」と
すればよい。
【0035】本装置は、未分割のフォルダがなくなるま
で、分割フォルダ選択、分類視点単語選択、子フォルダ
作成の処理を繰り返す。図4に作成される分類体系を構
成するデータ構造の例を示す。
【0036】作成された分類体系は別途閲覧機構を設け
ることにより、例えば、図5のようにユーザに提示し、
ユーザは各フォルダを選択することにより、そのフォル
ダに分類されている文書一一覧の閲覧が可能となる。図
6は実施形態1の本装置の処理フローの例を示すもので
ある。
【0037】(実施形態2)図7は本発明の第2の実施
形態を実現するための構成例を示す図である。
【0038】主題別分類手段2−1は、文書DB1−1
の文書群をテーマの主題別に分類する。主題分類視点選
択手段2−1−1は、文書DB1−1の文書群を分類す
る視点となる主題分類視点単語列を選択する。具体的に
は、テーマインデックスに格納されているテーマの後方
n単語(nは1以上)を表す単語列から、前記文書群を
分類する視点を表す分類視点単語列を決定する。これに
は、形態素解析により、各テーマをわかち書きにし、各
後方n単語を表す単語列がいくつのテーマの後方n単語
として出現するかをカウントし、テーマに多く出現する
単語列から順に、分類視点単語選択手段1−4−2と同
様、単語列と文書のカバーの関係を用いて選択する。
【0039】例えば、後方1単語を表す単語列の中から
分類の視点となる単語列を選択するとした場合、テーマ
として「住宅取得支援制度」、「健康保険制度」、「育
児福祉」、「高齢者医療制度問題」があり、各々分かち
書きした結果、「住宅、取得、支援、制度」、「健康、
保険、制度」、「育児、福祉」、「高齢者、医療、制
度、問題」となったとすると、選択の対象となる単調列
は、「制度」(出現回数2回)、「福祉」(出現回数1
回)、「問題」(出現回数1回)となる。抽出されたテ
ーマが無く、分類の視点となる単語列が選択できない場
合は、制御は分類手段1−4へ移ることとする。
【0040】主題子フォルダ分類手段2−1−2は、前
記主題分類視点単語列をフォルダ名とするフォルダを主
題フォルダとして作成し、各主題フォルダに文書DB1
−1の文書群を分類する。分類の仕方は、実施形態1記
載の子フォルダ分類手段1−4−3の分類と同様にし
て、文書を分類する。
【0041】分割主題フォルダ選択手段2−1−3は、
主題子フォルダ分類手段2−1−2によって作成された
主題フォルダの中から、未分割となっているフォルダを
選択する。主題フォルダが全て「分割済み」となった時
点で、制御は分類手段1−4へ移る。
【0042】主題依存分類視点単語選択手段2−1−4
は、主題分類視点選択手段2−1−1で選択された主題
分類視点単語列に基づき、選択された主題フォルダを分
類する視点となる分類視点単語を選択する。具体的には
フォルダ名がテーマの後方文字列となっているテーマを
テーマとして含まないフォルダ内に分類されている文書
をテーマ外文書とするして、分類視点単語選択手段1−
4−2と同様の処理を行なうことにより求める。
【0043】例えば、テーマインデックス中のテーマと
して、「住宅取得支援制度」、「健康保険制度」、「高
齢者医療制度問題」があり、それらがテーマとして現れ
た文書がそれぞれ「文書1、文書10」、「文書8
4」、「文書4、文書73」であり、選択されたフォル
ダに「制度」が付与されていた場合、選択されたフォル
ダに分類されている文書のうち、主題分類視点単語列
「制度」がテーマの後方文字列と一致する「住宅取得支
援制度」、「健康保険制度」をテーマとして含む文書、
文書1、文書10、文書84以外の文書がテーマ外文書
となる。
【0044】主題依存子フォルダ分類手段2−1−5
は、主題依存分類視点単語選択手段2−1−4により選
択された分類視点単語を用いて主題分類視点選択手段2
−1−1で選択された主題分類視点単語列にもとづく分
類を行なう。具体的にはフォルダ名がテーマの後方文字
列となっているテーマをテーマとして含まないフォルダ
内に分類されている文書をテーマ外文書として、子フォ
ルダ分類手段1−4−3と同様の処理を行なうことによ
り求める。
【0045】以上の主題別分類手段2−1により、「〜
制度」、「〜福祉」、「〜問題」といったテーマである
句の主題別に文書集合を大きく分類し、その後、分類手
段1−4−3により高齢者に関する制度、住宅に関する
制度といった、主題を修飾する分類が可能となり、ユー
ザにわかりやすい分類が可能となる。
【0046】1つの文書を複数のフォルダに分類できる
ことは、ユーザが複数の観点で文書を探すことができる
利点があるが、冗長に複数のフォルダに分類されると、
分類による文書集合の絞り込み効果が弱くなるので、複
数のフォルダに分類される文書は少ない方が好ましい。
そのためには、分類は相互にオーバーラップがない視点
で分類されることが求められる。
【0047】実施形態1では最初の階層で「制度」、
「福祉」のフォルダに分類した場合、テーマとして福祉
制度があると、前記両方のフォルダへ分類することにな
るが、実施形態2では福祉制度は主題が制度であるとみ
なされ、「制度」のフォルダに分類され、分類の冗長度
が小さい分類体系の作成が可能である。オーバーラップ
がないように分類する視点を選択することは、単語相互
の出現関係を調べる必要があり、計算コストが高いが、
実施形態2では、テーマの後方文字列を分類の視点に用
いるため、単語相互の出現関係を調べる必要がなく、小
さい計算コストで分類の冗長度が小さくなるような分類
の視点の選択が可能である。
【0048】図8に実施形態2の本装置の処理のフロー
の例を示す。
【0049】なお、実施形態1、実施形態2において、
分類視点単語選択手段1−4−2における選択単語数の
上限を設定し、設定数に達した時点で分類視点単語の選
択をやめるようしたり、上記分割フォルダ選択手段にお
いて、未分割となっているフォルダが全て規定の階層数
を超えたり、分割済みフォルダと未分割のフォルダの合
計が規定のフォルダ数を超えた時点で分類処理を終了す
ることにより、作成される分類体系サイズのユーザによ
る制御が可能となり、理解しやすい分類体系の作成が可
能となる。
【0050】また、文書に対して分類できるフォルダ数
の上限が規定される場合、次のようにして対処可能であ
る。子フォルダへの分類において、分類する文書が既に
規定のフォルダ数に分類されていた場合は、分類されて
いるフォルダのうち、当該子フォルダより階層数が大き
い(ルートフォルダに近いほど階層数は小さいとする)
フォルダへの分類を取消し、当該フォルダへ分類を行な
うことにより対処可能である。
【0051】また、本発明は、図1、7に示した装置又
は図6、8に示した方法の一部又は全部の処理機能をプ
ログラムとして構成してコンピュータを用いて実現する
こと、あるいはこれら処理手順をプログラムとして構成
してコンピュータに実行させることができる。また、コ
ンピュータでその各部の処理機能を実現するためのプロ
グラム、あるいはコンピュータにその処理手順を実行さ
せるためのプログラムを、そのコンピュータが読み取り
可能な記録媒体、例えば、FD(フロッピーディスク:
登録商標)、MO、ROM、メモリカード、CD、DV
D、リムーバブルディスクなどに記録して、保存した
り、提供したりすることが可能であり、また、インター
ネットのような通信ネットワークを介して配布したりす
ることが可能である。
【0052】
【発明の効果】以上説明したように、本発明によればユ
ーザに可読性の高い分類体系を効率的に自動作成でき
る。これにより、大量に蓄積された文書に対してもユー
ザに理解しやすい分類体系の作成が可能となる。
【0053】また、作成された分類体系を蓄積されてい
る文書の整理や検索結果の文書の分類に利用することに
より、ユーザは所望の文書の発見が容易になる。
【図面の簡単な説明】
【図1】本発明の実施形態1を実現するための装置構成
例。
【図2】実施形態1における文書DB1−1に格納され
る文書情報の例。
【図3】実施形態1におけるテーマインデックスの例。
【図4】実施形態1における分類体系データ構造例。
【図5】実施形態1における分類体系表示例。
【図6】実施形態1の処理フロー例。
【図7】本発明の実施形態2を実現するための装置構成
例。
【図8】実施形態2の処理フロー例。
【符号の説明】
1−1…文書DB 1−2…テーマ抽出手段 1−3…テーマインデックス 1−4…分類手段 1−5…分類体系DB 2−1…主題別分類手段 1−4−1…分類フォルダ選択手段 1−4−2…分類視点単語選択手段 1−4−3…子フォルダ分類手段 1−4−4…分類体系出力手段 2−1−1…主題分類視点選択手段 2−1−2…主題子フォルダ分類手段 2−1−3…分割主題フォルダ選択手段 2−1−4…主題依存分類視点単語選択手段 2−1−5…主題依存子フォルダ分類手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書群の各文書から名詞句を抽出し、前
    記抽出した名詞句のうち名詞句を構成する単語数または
    名詞句の文字列長または名詞句の文書内出現回数または
    名詞句の前記文書集合内の出現回数の少なくとも1つを
    用いて規定される条件を満たすものをテーマとして抽出
    し、前記抽出したテーマとテーマが抽出された文書の対
    応づけを記憶するテーマインデックスを作成するテーマ
    抽出手段と、 フォルダ内に分類されている文書群のうち、当該フォル
    ダ名を含むテーマをテーマとして含まない文書をテーマ
    外文書とし、前記テーマ外文書を分類する視点を表す単
    語を前記テーマ外文書を用いて分類視点単語として決定
    し、前記各分類視点単語に対して当該分類視点単語をフ
    ォルダ名とするフォルダを当該フォルダの子フォルダと
    して作成し、前記各分類視点単語と前記テーマ外文書内
    の単語の出現情報を用いて、前記テーマ外文書を1つ以
    上の子フォルダへ分類する分類手段と、を設けたことを
    特徴とする文書分類装置。
  2. 【請求項2】 文書群の各文書から名詞句を抽出し、前
    記抽出した名詞句のうち名詞句を構成する単語数または
    名詞句の文字列長または名詞句の文書内出現回数または
    名詞句の前記文書集合内の出現回数の少なくとも1つを
    用いて規定される条件を満たすものをテーマとして抽出
    し、前記抽出したテーマとテーマが抽出された文書の対
    応づけを記憶するテーマインデックスを作成するテーマ
    抽出手段と、 前記テーマの後方で1つ以上の単語を表す単語列から、
    前記文書群を分類する視点を表す単語列を決定し、前記
    各分類視点単語列に対してそれをフォルダ名とするフォ
    ルダを作成し、前記各分類視点単語列と文書内の単語の
    出現情報を用いて、前記作成されたフォルダのうちの1
    つ以上のフォルダに分類し、前記名フォルダに対して、
    フォルダ内に分類されている文書のうち、当該フォルダ
    名が後方一致するテーマをテーマとして含まない文書を
    テーマ外文書とし、前記テーマ外文書を分類する視点を
    表す単語を前記テーマ外文書を用いて分類視点単語とし
    て決定し、前記各分類視点単語をフォルダ名とするフォ
    ルダを子フォルダとして作成し、前記各分類視点単語と
    前記テーマ外文書内の単語の出現情報を用いて、前記テ
    ーマ外文書を1つ以上の子フォルダへ分類する主題別分
    類手段と、 フォルダ内に分類されている文書のうち、フォルダ名を
    含む前記テーマをテーマとして含まない文書をテーマ外
    文書とし、前記テーマ外文書を分類する視点を表す単語
    を前記テーマ外文書を用いて分類視点単語として決定
    し、前記各分類視点単語に対して当該分類視点単語をフ
    ォルダ名とするフォルダを当該フォルダの子フォルダと
    して作成し、前記各分類視点単語と前記テーマ外文書内
    の単語の出現情報を用いて、前記テーマ外文書を1つ以
    上の子フォルダへ分類する分類手段と、を設けたことを
    特徴とする文書分類装置。
  3. 【請求項3】 文書群の各文書から名詞句を抽出し、前
    記抽出した名詞句のうち名詞句を構成する単語数または
    名詞句の文字列長または名詞句の文書内出現回数または
    名詞句の前記文書集合内の出現回数の少なくとも1つを
    用いて規定される条件を満たすものをテーマとして抽出
    し、前記抽出したテーマとテーマが抽出された文書の対
    応づけを記憶するテーマインデックスを作成するテーマ
    抽出過程と、 フォルダ内に分類されている文書群のうち、当該フォル
    ダ名を含むテーマをテーマとして含まない文書をテーマ
    外文書とし、前記テーマ外文書を分類する視点を表す単
    語を前記テーマ外文書を用いて分類視点単語として決定
    し、前記各分類視点単語に対して当該分類視点単語をフ
    ォルダ名とするフォルダを当該フォルダの子フォルダと
    して作成し、前記各分類視点単語と前記テーマ外文書内
    の単語の出現情報を用いて、前記テーマ外文書を1つ以
    上の子フォルダへ分類する分類過程と、を設けたことを
    特徴とする文書分類方法。
  4. 【請求項4】 文書群の各文書から名詞句を抽出し、前
    記抽出した名詞句のうち名詞句を構成する単語数または
    名詞句の文字列長または名詞句の文書内出現回数または
    名詞句の前記文書集合内の出現回数の少なくとも1つを
    用いて規定される条件を満たすものをテーマとして抽出
    し、前記抽出したテーマとテーマが抽出された文書の対
    応づけを記憶するテーマインデックスを作成するテーマ
    抽出過程と、 前記テーマの後方で1つ以上の単語を表す単語列から、
    前記文書群を分類する視点を表す単語列を決定し、前記
    各分類視点単語列に対してそれをフォルダ名とするフォ
    ルダを作成し、前記各分類視点単語列と文書内の単語の
    出現情報を用いて、前記作成されたフォルダのうちの1
    つ以上のフォルダに分類し、前記名フォルダに対して、
    フォルダ内に分類されている文書のうち、当該フォルダ
    名が後方一致するテーマをテーマとして含まない文書を
    テーマ外文書とし、前記テーマ外文書を分類する視点を
    表す単語を前記テーマ外文書を用いて分類視点単語とし
    て決定し、前記各分類視点単語をフォルダ名とするフォ
    ルダを子フォルダとして作成し、前記各分類視点単語と
    前記テーマ外文書内の単語の出現情報を用いて、前記テ
    ーマ外文書を1つ以上の子フォルダへ分類する主題別分
    類過程と、 フォルダ内に分類されている文書のうち、フォルダ名を
    含む前記テーマをテーマとして含まない文書をテーマ外
    文書とし、前記テーマ外文書を分類する視点を表す単語
    を前記テーマ外文書を用いて分類視点単語として決定
    し、前記各分類視点単語に対して当該分類視点単語をフ
    ォルダ名とするフォルダを当該フォルダの子フォルダと
    して作成し、前記各分類視点単語と前記テーマ外文書内
    の単語の出現情報を用いて、前記テーマ外文書を1つ以
    上の子フォルダへ分類する分類過程と、を設けたことを
    特徴とする文書分類方法。
  5. 【請求項5】 文書群の各文書から名詞句を抽出し、前
    記抽出した名詞句のうち名詞句を構成する単語数または
    名詞句の文字列長または名詞句の文書内出現回数または
    名詞句の前記文書集合内の出現回数の少なくとも1つを
    用いて規定される条件を満たすものをテーマとして抽出
    し、前記抽出したテーマとテーマが抽出された文書の対
    応づけを記憶するテーマインデックスを作成するテーマ
    抽出過程と、 前記テーマの後方で1つ以上の単語を表す単語列から、
    前記文書群を分類する視点を表す単語列を決定し、前記
    各分類視点単語列に対してそれをフォルダ名とするフォ
    ルダを作成し、前記各分類視点単語列と文書内の単語の
    出現情報を用いて、前記作成されたフォルダのうちの1
    つ以上のフォルダに分類し、前記名フォルダに対して、
    フォルダ内に分類されている文書のうち、当該フォルダ
    名が後方一致するテーマをテーマとして含まない文書を
    テーマ外文書とし、前記テーマ外文書を分類する視点を
    表す単語を前記テーマ外文書を用いて分類視点単語とし
    て決定し、前記各分類視点単語をフォルダ名とするフォ
    ルダを子フォルダとして作成し、前記各分類視点単語と
    前記テーマ外文書内の単語の出現情報を用いて、前記テ
    ーマ外文書を1つ以上の子フォルダへ分類する主題別分
    類過程と、 フォルダ内に分類されている文書群のうち、当該フォル
    ダ名を含むテーマをテーマとして含まない文書をテーマ
    外文書とし、前記テーマ外文書を分類する視点を表す単
    語を前記テーマ外文書を用いて分類視点単語として決定
    し、前記各分類視点単語に対して当該分類視点単語をフ
    ォルダ名とするフォルダを当該フォルダの子フォルダと
    して作成し、前記各分類視点単語と前記テーマ外文書内
    の単語の出現情報を用いて、前記テーマ外文書を1つ以
    上の子フォルダへ分類する分類過程と、をコンピュータ
    で実行させるためのプログラムとして構成したことを特
    徴とするプログラム。
  6. 【請求項6】 文書群の各文書から名詞句を抽出し、前
    記抽出した名詞句のうち名詞句を構成する単語数または
    名詞句の文字列長または名詞句の文書内出現回数または
    名詞句の前記文書集合内の出現回数の少なくとも1つを
    用いて規定される条件を満たすものをテーマとして抽出
    し、前記抽出したテーマとテーマが抽出された文書の対
    応づけを記憶するテーマインデックスを作成するテーマ
    抽出過程と、 前記テーマの後方で1つ以上の単語を表す単語列から、
    前記文書群を分類する視点を表す単語列を決定し、前記
    各分類視点単語列に対してそれをフォルダ名とするフォ
    ルダを作成し、前記各分類視点単語列と文書内の単語の
    出現情報を用いて、前記作成されたフォルダのうちの1
    つ以上のフォルダに分類し、前記名フォルダに対して、
    フォルダ内に分類されている文書のうち、当該フォルダ
    名が後方一致するテーマをテーマとして含まない文書を
    テーマ外文書とし、前記テーマ外文書を分類する視点を
    表す単語を前記テーマ外文書を用いて分類視点単語とし
    て決定し、前記各分類視点単語をフォルダ名とするフォ
    ルダを子フォルダとして作成し、前記各分類視点単語と
    前記テーマ外文書内の単語の出現情報を用いて、前記テ
    ーマ外文書を1つ以上の子フォルダへ分類する主題別分
    類過程と、 フォルダ内に分類されている文書群のうち、当該フォル
    ダ名を含むテーマをテーマとして含まない文書をテーマ
    外文書とし、前記テーマ外文書を分類する視点を表す単
    語を前記テーマ外文書を用いて分類視点単語として決定
    し、前記各分類視点単語に対して当該分類視点単語をフ
    ォルダ名とするフォルダを当該フォルダの子フォルダと
    して作成し、前記各分類視点単語と前記テーマ外文書内
    の単語の出現情報を用いて、前記テーマ外文書を1つ以
    上の子フォルダへ分類する分類過程と、をコンピュータ
    で実行させるためのプログラムとして構成し、このプロ
    グラムをコンピュータで読み取り実行可能な記録媒体に
    記録したことを特徴とする記録媒体。
JP2002129463A 2002-05-01 2002-05-01 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体 Pending JP2003323436A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002129463A JP2003323436A (ja) 2002-05-01 2002-05-01 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002129463A JP2003323436A (ja) 2002-05-01 2002-05-01 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2003323436A true JP2003323436A (ja) 2003-11-14

Family

ID=29542854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002129463A Pending JP2003323436A (ja) 2002-05-01 2002-05-01 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003323436A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2008204374A (ja) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd クラスタ生成装置およびクラスタ生成プログラム
WO2014061303A1 (ja) * 2012-10-18 2014-04-24 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2014196063A1 (ja) * 2013-06-06 2014-12-11 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JP2017102977A (ja) * 2017-03-06 2017-06-08 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JP2019049909A (ja) * 2017-09-11 2019-03-28 ヤフー株式会社 生成装置、生成方法、及び生成プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2008204374A (ja) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd クラスタ生成装置およびクラスタ生成プログラム
WO2014061303A1 (ja) * 2012-10-18 2014-04-24 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2014081875A (ja) * 2012-10-18 2014-05-08 Fuji Xerox Co Ltd 情報処理装置及びプログラム
AU2013333247B2 (en) * 2012-10-18 2016-11-03 Fujifilm Business Innovation Corp. Information processing apparatus and program
WO2014196063A1 (ja) * 2013-06-06 2014-12-11 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JPWO2014196063A1 (ja) * 2013-06-06 2017-02-23 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
US10176506B2 (en) 2013-06-06 2019-01-08 Nomura Research Institute, Ltd. Product search system and product search program
JP2017102977A (ja) * 2017-03-06 2017-06-08 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JP2019049909A (ja) * 2017-09-11 2019-03-28 ヤフー株式会社 生成装置、生成方法、及び生成プログラム

Similar Documents

Publication Publication Date Title
US11048882B2 (en) Automatic semantic rating and abstraction of literature
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
WO2005096182A1 (ja) 情報抽出システム
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
US9298700B1 (en) Determining similar phrases
Bhaskar et al. A query focused multi document automatic summarization
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP2003323436A (ja) 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
Di Castro et al. Automated extractions for machine generated mail
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
Ahuja et al. Opinion mining and classification of music lyrics using supervised learning algorithms
Umair et al. N-GPETS: Neural Attention Graph-Based Pretrained Statistical Model for Extractive Text Summarization
Laily et al. Mining Indonesia tourism's reviews to evaluate the services through multilabel classification and LDA
Bong et al. Keyphrase extraction in biomedical publications using mesh and intraphrase word co-occurrence information
Anitha et al. An approach for summarizing hindi text through a hybrid fuzzy neural network algorithm
Kriukova et al. Explicit semantic analysis as a means for topic labelling
Subalalitha et al. Query Focused Summary Generation System using Unique Discourse Structure
Waldis et al. Concept recognition with convolutional neural networks to optimize keyphrase extraction
Sarkar et al. Text Summarization
Ali et al. Enhanced feature-based automatic text summarization systemusingsupervised technique
Tyagi et al. A Survey on Text Processing Using Deep Learning Techniques
Li Text Classification Based on Background Knowledge
Pozhidaeva et al. Information Extraction for Modeling Screenplay Evolution of Star Wars Fiction