JP2002304400A - 文書分類装置 - Google Patents

文書分類装置

Info

Publication number
JP2002304400A
JP2002304400A JP2001104817A JP2001104817A JP2002304400A JP 2002304400 A JP2002304400 A JP 2002304400A JP 2001104817 A JP2001104817 A JP 2001104817A JP 2001104817 A JP2001104817 A JP 2001104817A JP 2002304400 A JP2002304400 A JP 2002304400A
Authority
JP
Japan
Prior art keywords
document
information
data input
document data
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001104817A
Other languages
English (en)
Inventor
Atsuo Shimada
敦夫 嶋田
Eiji Kenmochi
栄治 剣持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001104817A priority Critical patent/JP2002304400A/ja
Publication of JP2002304400A publication Critical patent/JP2002304400A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書分類の際に、特定情報のカテゴリ名を強
調して利用できるようにし、特定情報を重視する分類が
欲しい場合に目的に合致した分類を得る。 【解決手段】 文書の分類を行う文書分類装置におい
て、文書データ入力手段1により入力された文書データ
を、言語解析手段2により、解析して複数の文書に含ま
れる語句を得るとともに、情報抽出手段3によって、特
定の情報を抽出する。トークン生成手段4によって、情
報抽出手段3の出力によって言語解析手段2の出力を変
換し、分類計算に用いるトークンを生成する。文書分類
手段5は、トークン生成手段4の出力に基づいて文書を
分類する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を自動的に分
類する文書分類装置,方法、特に、文書分類技術と情報
抽出技術とを併用する際のトークン生成技術に関し、例
えば、文書処理装置、文書検索装置、文書分類装置、テ
キスト情報分析装置に適用可能なものである。
【0002】
【従来の技術】近年、ネットワーク技術の普及により、
国内外の膨大な電子化文書へのアクセスが可能になり、
比例して業務上使用すべき情報の量も飛躍的に増大し
た。その中で収集した大量の文書を自動的に意味あるカ
テゴリーに分類する文書分類技術が提案されるようにな
ってきた。文書分類技術が解決しようとする課題には、
以下の2つがある。
【0003】
【発明が解決しようとする課題】(a)検索の効率化:
所望の文書へ迅速にアクセスするために、膨大な検索結
果の文書集合を内容別の部分集合に分割し、作業者の探
索範囲を狭める。 (b)情報群全体の構造の把握:文書集合全体がどのよ
うな内容(個々の部分集合)で構成されているかを把握
する。
【0004】文書の自動分類を(a)の目的で利用した
ものとして、特開平7−36897号公報,特開平10
−260991号公報,特開平10−171823号公
報,特開平10−260991号公報などに記載されて
いるように、文書を、単語を特徴とする文書ベクトルと
みなし、ベクトル間の類似度に基づき自動分類する方法
がある。また、(b)を利用目的としたものとして、特
開平11−15835号公報があり、同様に類似度測度
に基づき文書を分類することが提案されている。
【0005】ベクトル間の類似度測度に基づく文書の自
動分類には、大別すると2種類の方法がある。第1の方
法は、カテゴライゼーションあるいはクラシフィケーシ
ョンと呼ばれ、個々の分類対象文書が、予め設定された
カテゴリのカテゴリに属するかを判断し、文書を自動的
に分類する技術である。中でも古典的に知られたものと
してSaltonらの装置を解説する(Introdu
ction to modern informati
on retrieval、 G.Salton &
M.J.McGill, 1983, New Yor
k McGraw Hill)。
【0006】Saltonらの装置では、まず、個々の
文書に含まれる語句を抽出し、各々の文書を、文書集合
全体に現れる語句を次元、当該文書内での語句の出現頻
度をノルムとしたベクトルとして表現する。また、所与
のカテゴリには、そのカテゴリを特徴付けるいくつかの
サンプル文書を与え、同様にサンプル文書の文書ベクト
ルを生成して、それらの合成ベクトル(例えば、重心ベ
クトル)としてカテゴリベクトルを求める。分類は、文
書ベクトル毎に各カテゴリベクトルとの類似度を求め、
もっとも類似度の高いカテゴリを当該文書ベクトルの所
属カテゴリとして計算される。
【0007】第2の方法はクラスタリングと呼ばれ、分
類対象文書集合の中で各文書ベクトル同士の類似度を計
算し、互いに類似する文書ベクトルからなるいくつかの
部分集合を生成する方法である。代表的なアルゴリズム
の1つであるk−means法では、以下の手順で計算
が実行される。これはn個の分類対象文書を事前に与え
たk個の部分集合へ分割する方法である。なお、文書ベ
クトルの求め方は、Saltonらの方法と同一であ
る。
【0008】(1)k個のクラスタ(部分集合)の重心
の初期値をn個の文書ベクトルの中から選択する。 (2)n個の各文書ベクトルをもっとも類似するクラス
タ重心を持つクラスタへ帰属させる。 (3)k個の各クラスタについて、含まれる文書ベクト
ルの平均を新たに求め、これを新しいクラスタ重心とす
る。 (4)上記、(2)、(3)を「クラスタ重心の位置が
変化しなくなるまで」等の終了条件を満たすまで繰り返
す。
【0009】これらの方法は、基本的に文書から抽出し
た語句を用いて構成した空間に文書をベクトルとして布
置し、文書間の類似度を計算することで、分類を行うも
のである。したがって、文書がどのように分類されるか
は、空間を構成する際に用いる語句をどのように扱うか
に大きく左右されることになる。
【0010】ここで、企業のニュースリリースなどビジ
ネスに関する文書を分類対象とした例を考える場合、特
に企業名や人名,商品名,地名などの特定情報が分類の
観点として重視されることがある。そのため、こうした
特定情報を抽出するために2つの方法が提案されてい
る。
【0011】まず、SGMLやXMLのような構造化文
書の標準に準拠した文書は、文書中に現れる特定の情報
に予めタグが付与されており、このタグをキーとして容
易に抽出・管理できるようになっている。さらに、通常
のテキストから特定情報を自動的に抽出する「情報抽出
技術(information extractio
n)」と呼ばれる技術も利用可能である。情報抽出技術
ではヒューリスティックスや確率モデルを用いて、テキ
スト中に含まれる人名(e.g.ワシントン大統領)、
組織名(e.g.米軍)、商品名、地名、日時や金額情
報を識別・抽出するものである(Proceeding
s of the 1st Conference on
IREX (Information Retrie
val and Extraction Exerci
se)1999.Tokyo)。いずれの場合も、個々
の特定情報(ワシントン大統領、米軍など)が、それら
が属するカテゴリの識別子(以下カテゴリ名)とともに
抽出されることになる。本特許で言う特定情報の抽出と
は、文法上の解析情報の抽出ではなく、特定の語句群を
上述に示したように日常使用される所属カテゴリ名とと
もに抽出することである。
【0012】文書分類の際に、このような特定情報の抽
出結果を利用し空間を構成することで、重要な特定情報
を強調して分類を行うことが考えられる。期待される分
類結果として、考えうるものを以下に示す。 (I)特定情報を含めた分類(例えば、ワシントン大統
領が支配的な特徴となっている分類)。 (II)特定情報を排除した分類(例えば、ワシントン大
統領のような特定情報は、別途問い合わせ文として検索
できるので、特定情報以外の観点で、例えば、スキャン
ダルなどの語句が支配的な分類が欲しいケース)。 (III)個々の特定情報は含めないが特定情報のカテゴ
リレベルでの情報を含めた分類(例えば、大日本銀行な
どの個別的な情報が支配的な特徴となっている分類は欲
しくないが、汚職に関する記述と何らかの企業名が含ま
れていることを特徴とする分類「企業の汚職」が欲しい
ケース)。 (IV)特定情報および特定情報のカテゴリレベルの情報
をともに含めた分類。
【0013】(1)に関しては、従来技術で説明した通
常の文書分類技術の空間構成で対処することができる
が、情報抽出結果は、通常の語句と同等に扱われるた
め、利用する効果はない。一方、(II)に関しては、従
来技術として、情報抽出技術によって抽出された特定情
報を、文書分類のための空間構成より排除する方式が提
案されている。しかしながら、この方式も空間構成の際
に、情報抽出によるカテゴリーレベルの情報を使用しな
いため(III),(IV)に関しては実現することはでき
ない。(III),(IV)の効果をより詳しく上述の例を
もとに以下に述べる。
【0014】・カテゴライゼーションの場合 予め設定するカテゴリとして「企業の汚職」を指定する
ために、サンプル文書として「A社」「贈賄」を含む文
書、および「贈賄」「B社」を含む文書を与えた場合、
その分類結果として何らかの企業名と「贈賄」という語
句を含む分類を得ることはできない。すなわち、従来技
術では、「C社」もしくは「D社」と「贈賄」を含む文
書を、そのカテゴリに所属させることはできない。
【0015】・クラスタリングの場合 「贈賄」「汚職」「賄賂」等の汚職を示す語句と、個々
の企業名ではなく何らかの企業名とが共起している文書
のグループがクラスタリング結果として得られる。従来
技術では、個々の企業名も「贈賄」「汚職」「賄賂」等
の汚職を示す語句と区別なく空間構成に利用されるた
め、「贈賄」「汚職」「賄賂」「A社」を含むグルー
プ、あるいは「贈賄」「汚職」「賄賂」「B社」を含む
グループが得られやすい。
【0016】
【課題を解決するための手段】請求項1の発明は、文書
の分類を行う文書分類装置において、文書データを入力
する文書データ入力手段と、前記文書データ入力手段に
より入力された文書データを解析して、文書に含まれる
語句情報を得る言語解析手段と、前記文書データ入力手
段により入力された文書データを解析して、特定の情報
を抽出する情報抽出手段と、前記情報抽出手段の出力に
よって言語解析手段の出力を変換し、分類計算に用いる
トークンを生成するトークン生成手段と、前記トークン
生成手段の出力に基づいて文書を分類する文書分類手段
と、を備えたことを特徴としたものである。
【0017】請求項2の発明は、文書の分類を行う文書
分類装置において、文書データを入力する文書データ入
力手段と、前記文書データ入力手段により入力された文
書データを解析して、文書に含まれる語句情報を得る言
語解析手段と、前記文書データ入力手段により入力され
た文書データを解析して、特定のカテゴリーに属する情
報をその情報が属するカテゴリーに対応付けて抽出する
情報抽出手段と、前記言語解析手段によって出力された
語句を、前記情報抽出手段によって抽出された情報のカ
テゴリー識別子を用いて置換し、分類計算に用いるトー
クンを生成するトークン生成手段と、前記トークン生成
手段の出力に基づいて文書を分類する文書分類手段と、
を備えたことを特徴としたものである。
【0018】請求項3の発明は、文書の分類を行う文書
分類装置において、文書データを入力する文書データ入
力手段と、前記文書データ入力手段により入力された文
書データを解析して、文書に含まれる語句情報を得る言
語解析手段と、前記文書データ入力手段により入力され
た文書データを解析して、特定のカテゴリーに属する情
報をその情報が属するカテゴリーに対応付けて抽出する
情報抽出手段と、前記言語解析手段によって出力された
語句に加えて、前記情報抽出手段によって抽出された情
報のカテゴリー識別子を追加して、分類計算に用いるト
ークンを生成するトークン生成手段と、前記トークン生
成手段の出力に基づいて文書を分類する文書分類手段
と、を備えたことを特徴としたものである。
【0019】請求項4の発明は、請求項1乃至3のいず
れかの発明において、情報抽出手段の出力によって言語
解析手段の出力を変換(あるいは置換)するための規則
を1つ以上保持する情報変換規則記憶手段と、前記情報
変換規則記憶手段に格納された情報変換規則を選択する
情報変換規則選択手段と、を備えたことを特徴としたも
のである。
【0020】請求項5の発明は、請求項1乃至4のいず
れかにの発明において、情報抽出手段の出力によって言
語解析手段の出力を変換(あるいは置換)するための規
則を保持する情報変換規則記憶手段と、前記情報変換規
則記憶手段に格納された情報変換規則を変更する情報変
換規則変更手段と、を備えたことを特徴としたものであ
る。
【0021】請求項6の発明は、文書の分類を行う文書
分類方法において、文書データを入力する文書データ入
力ステップと、前記文書データ入力ステップにより入力
された文書データを解析して、文書に含まれる語句情報
を得る言語解析ステップと、前記文書データ入力ステッ
プにより入力された文書データを解析して、特定の情報
を抽出する情報抽出ステップと、前記情報抽出ステップ
によって抽出された特定の情報によって前記言語解析ス
テップによって得た語句を変換し、分類計算に用いるト
ークンを生成するトークン生成ステップと、前記トーク
ン生成ステップによって生成されたトークンに基づいて
文書を分類する文書分類ステップと、から成ることを特
徴としたものである。
【0022】請求項7の発明は、文書の分類を行う文書
分類方法において、文書データを入力する文書データ入
力ステップと、前記文書データ入力ステップにより入力
された文書データを解析して、文書に含まれる語句情報
を得る言語解析ステップと、前記文書データ入力ステッ
プにより入力された文書データを解析して、特定のカテ
ゴリーに属する情報をその情報が属するカテゴリーに対
応付けて抽出する情報抽出ステップと、前記言語解析ス
テップによって出力された語句を、前記情報抽出ステッ
プによって抽出された情報のカテゴリー識別子を用いて
置換し、分類計算に用いるトークンを生成するトークン
生成ステップと、前記トークン生成ステップによって生
成されたトークンに基づいて文書を分類する文書分類ス
テップと、から成ることを特徴としたものである。
【0023】請求項8の発明は、文書の分類を行う文書
分類方法において、文書データを入力する文書データ入
力ステップと、前記文書データ入力ステップにより入力
された文書データを解析して、文書に含まれる語句情報
を得る言語解析ステップと、前記文書データ入力ステッ
プにより入力された文書データを解析して、特定のカテ
ゴリーに属する情報をその情報が属するカテゴリーに対
応付けて抽出する情報抽出ステップと、前記言語解析ス
テップによって出力された語句に加えて、前記情報抽出
ステップによって抽出された情報のカテゴリー識別子を
追加して、分類計算に用いるトークンを生成するトーク
ン生成ステップと、前記トークン生成ステップによって
生成されたトークンに基づいて文書を分類する文書分類
ステップと、を有することを特徴としたものである。
【0024】請求項9の発明は、請求項1乃至3のいず
れかの発明において、情報抽出ステップの出力によって
言語解析ステップの出力を変換(あるいは置換)するた
めの規則を1つ以上保持する情報変換規則記憶ステップ
と、前記情報変換規則記憶ステップに格納された情報変
換規則を選択する情報変換規則選択ステップと、を有す
ることを特徴としたものである。
【0025】請求項10の発明は、請求項6乃至8のい
ずれかに記載の文書分類方法において、情報抽出ステッ
プの出力によって言語解析ステップの出力を変換(ある
いは置換)するための規則を保持する情報変換規則記憶
ステップと、前記情報変換規則記憶ステップに格納され
た情報変換規則を変更する情報変換規則変更ステップ
と、を有することを特徴としたものである。
【0026】請求項11の発明は、請求項1乃至5のい
ずれかに記載の文書分類装置を作動させ、或いは、請求
項6乃至9のいずれかに記載の文書分類方法を実行する
ためのプログラムを記憶したコンピュータ読み取り可能
な記録媒体である。
【0027】
【発明の実施の形態】図1は、本発明の一実施形態(請
求項1,2,3)の構成を示す図で、図中、1は文書デ
ータ入力手段、2は言語解析手段、3は情報抽出手段、
4はトークン生成手段、5は文書分類手段で、それぞれ
の構成要素はバスもしくはネットワークを介して接続さ
れており、必要に応じて各々の構成要素の間で文書デー
タや制御情報のやり取りが可能なように構成されてい
る。
【0028】ここで、特定情報の抽出と、文書分類が重
要になる好適な例として、ニュースリリースを用いて業
界動向を分析する場面を想定する。こうしたニュースリ
リースは、情報検索ロボットやサーチエンジンを用いる
と、インターネットを介して大量に収集することができ
る。収集したニュースリリースにはIDが付与され文書
データベースに保持される。以下の文書データベースに
格納されている文書群の例を示す。
【0029】
【表1】
【0030】分析対象の文書について、言語解析手段2
は、各文書に含まれる単語や複合語を抽出する。この処
理は、形態素解析等の既知の言語解析アルゴリズムを用
いることができる。下記は、言語解析手段2が、形態素
解析結果のうち分類計算に用いる名詞を出力した例であ
るが、実際には言語解析手段2は、各語句のidを出力
すれば良い。
【0031】文書ID1 →高速(名詞,id−1),カラー(名詞,id−
2),プリンター(名詞,id−3),XL1000
(固有名詞,id−4),株式会社(名詞,id−
5),A社(固有名詞,id−6),オフィス(名詞,
id−7),市場(名詞,id−8),投入(名詞,i
d−9),印刷(名詞,id−10),速度(名詞,i
d−11),販売(名詞,id−12),価格(名詞,
id−13),予定(名詞,id−14),全国(名
詞,id−15),代理店(名詞,id−16)。
【0032】文書ID2 →D(固有名詞,id−17),株式会社(名詞,id
−5),中間(名詞,id−18),決算(名詞,id
−19),発表(名詞,id−20),主力(名詞,i
d−21),高速(名詞,id−11),プリンター
(名詞,id−3),DPL−X(固有名詞,id−2
2),好調(名詞,id−23),売上高(名詞,id
−24),景気(名詞,id−25),低迷(名詞,i
d−26),影響(名詞,id−27),企業(名詞,
id−28),投資(名詞,id−29),連続(名
詞,id−30),経常利益(名詞,id−31)。
【0033】文書ID3 →株式会社(名詞,id−5),C社(固有名詞,id
−32),オフィス(名詞,id−7),高速(名詞,
id−11),プリンター(名詞,id−3),OP−
X60(固有名詞,id−33),販売(名詞,id−
12),印刷(名詞,id−10),速度(名詞,id
−11),希望(名詞,id−34),価格(名詞,i
d−13),予定(名詞,id−14)。
【0034】文書IDn →B(固有名詞,id−35),株式会社(名詞,id
−5),役員(名詞,id−36),人事(名詞,id
−37),発表(名詞,id−20),代表(名詞,i
d−28),取締役(名詞,id−39),社長(名
詞,id−40),常務(名詞,id−41),AAA
(固有名詞,id−42),BBB(固有名詞,id−
43),会長(名詞,id−44),就任(名詞,id
−45)。
【0035】次に、文書集合に対して情報抽出手段3は
特定情報の抽出を行う。情報抽出の第一の方法は、既知
である情報抽出技術を用いるもので、テキスト中から、
例えば、「氏という語の前の未知語列は人名が来る」
「社あるいは株式会社の前の未知語句は企業名である」
などのヒューリスティックス等を用いて以下のような固
有名を自動抽出する技術である。 ・企業名、組織名(A社、B社、米軍など) ・人名(鈴木一郎など) ・地名(東京都、港区、青山など) ・商品名(XL−1000など) ・日付(2000年4月1日) ・時間(3時間、40分、9.60秒など) ・金額(810000円、512億ドル) ・割合(5%、4割など)
【0036】また、第2の方法は、構造化文書の場合の
方法である。構造化文書では、例えば、「高速カラープ
リンター「XL1000」発売。株式会社A社は200
0年1月7日より、新型の高速カラープリンター「XL
1000」をオフィス市場へ投入する。印刷速度はフル
カラーで毎分20枚である。販売価格は820000円
を予定しており、全国の代理店から販売する予定であ
る。」という文書は以下のような形式で記述される。
【0037】<document> <h1>プレスリリース 高速カラープリンター「XL
−1000」発売</h1> <p><sendername>株式会社A社</se
ndername>は、<releasedate>2
000年1月7日</releasedate>より、
新型の高速<producttype>カラープリンタ
ー</producttype>「<productn
ame>XL−1000</productname
>」をオフィス市場へ投入する。印刷速度はフルカラー
で毎分20枚である。販売価格は<price>820
000円</price>を予定しており、全国の代理
店から販売する予定である。</p> </document>
【0038】構造化文書では、文書中に現れる重要な語
句が<tagname></tagname>に挟まれ
る形でタグ付けされているため、このタグを識別子とし
て簡単に特定情報を取り出すことが可能になっている。
上述の例では、企業名(sendername),発売
日(releasedate),商品名(produc
tname),価格(price)などのタグが埋め込
まれている。したがって、文書のタグ付けの構造を解析
し、sendernameのようなタグ名と、株式会社
A社のような値とを対応づけて抽出し、(タグ名,値)
のセットで出力する。これは各文書の<tagname
>で始まるところから、</tagname>で終わる
ところまでの部分を抽出すれば良い。
【0039】情報抽出手段3により、抽出された情報抽
出結果を表2に示す。
【0040】
【表2】
【0041】トークン生成手段4は、情報抽出手段3の
情報抽出結果を用いて言語解析手段2の出力を変換する
機能を果たしている。ここでは、2つの実施例について
説明する。
【0042】発明が解決しようとする課題の(III) 個々の特定情報は含めないが特定情報のカテゴリレベル
での情報を含めた分類に対応:請求項2の発明では、言
語解析結果の出力のうち、情報抽出結果と同一と判断さ
れるものを、特定情報のカテゴリID(例えば、企業
名,商品名,あるいは<sendername>,<p
roductname>)で置き換える処理を行う。動
作を説明すると、まず、トークン生成手段4は、情報抽
出結果と同じ文字列を持つ言語解析結果を検索し、語句
idをカテゴリidで置き換える。例えば、文書ID−
1の文書からは、情報抽出手段3により企業名として
「A社」、商品名として「XL1000」、日時として
「2000/1/7」、金額として「820000円」
が抽出されている。一方、言語解析手段2からは、「高
速(名詞,id−1),カラー(名詞,id−2),プ
リンター(名詞,id−3),XL1000(固有名
詞,id−4),株式会社(名詞,id−5),A社
(固有名詞,id−6),オフィス(名詞,id−
7),市場(名詞,id−8),投入(名詞,id−
9),印刷(名詞,id−10),速度(名詞,id−
11),販売(名詞,id−12),価格(名詞,id
−13),予定(名詞,id−14),全国(名詞,i
d−15),代理店(名詞,id−16)」が抽出され
ている。ここで、「A社」と「XL1000」が共通し
ているため、カテゴリidでの置換を行い、企業名のカ
テゴリidを1000、商品名のカテゴリidを100
1とすると、以下のようなデータが得られることにな
る。
【0043】id−1,id−2,id−3,id−1
001,id−5,id−1000,id−7,id−
8,id−9,id−10,id−11,id−12,
id−13,id−14,id−15,id−16
【0044】同様に各文書を処理し、最終的に、トーク
ン生成手段4は、列方向に文書IDを、行方向に語句も
しくはカテゴリ名であるトークンIDを、要素として出
現頻度を持つ、行列を生成する。
【0045】発明が解決しようとする課題の(IV) 特定情報および特定情報のカテゴリレベルの情報をとも
に含めた分類に対応:請求項3の発明では、言語解析手
段2の出力に情報抽出結果と同一と判断されるものがあ
れば、特定情報のカテゴリID(例えば、企業名,商品
名,あるいは<sendername>,<produ
ctname>)を、言語解析手段の出力に加える処理
を行う。トークン生成手段4は、情報抽出結果に含まれ
る語句と同じ文字列を持つ言語解析結果があれば、その
度に当該語句のカテゴリーidを付け加える。例えば、
文書ID−1の文書からは、情報抽出手段3により企業
名として「A社」、商品名として「XL1000」、日
時として「2000/1/7」、金額として「8200
00円」が抽出されている。一方、言語解析手段から
は、「高速(名詞,id−1),カラー(名詞,id−
2),プリンター(名詞,id−3),XL1000
(固有名詞,id−4),株式会社(名詞,id−
5),A社(固有名詞,id−6),オフィス(名詞,
id−7),市場(名詞,id−8),投入(名詞,i
d−9),印刷(名詞,id−10),速度(名詞,i
d−11),販売(名詞,id−12),価格(名詞,
id−13),予定(名詞,id−14),全国(名
詞,id−15),代理店(名詞,id−16)」が抽
出されている。ここで、「A社」と「XL1000」が
共通しているため、カテゴリidの挿入を行い、企業名
のカテゴリidを1000、商品名のカテゴリidを1
001とすると、以下のようなデータが得られることに
なる。
【0046】id−1,id−2,id−3,id−
4,id−1001,id−5,id−6,id−10
00,id−7,id−8,id−9,id−10,i
d−11,id−12,id−13,id−14,id
−15,id−16
【0047】同様に各文書を処理し、最終的にトークン
生成手段4は、列方向に文書IDを、行方向に語句もし
くはカテゴリ名であるトークンIDを、要素として出現
頻度を持つ、行列を生成する。
【0048】なお、この行列を分類計算の高速化や精度
向上のために、様々な変換処理を行うことが提案されて
いるが、本実施例では、以下の3つの方法を実装してい
る。 (1)行列をそのまま利用する方法 (2)各文書の長さや分類対象文書集合内での各トーク
ンの出現頻度を考慮して、要素である出現頻度の値に重
み付けを行う方法 (3)(1)あるいは(2)の行列から文書間の内積行
列を算出し、これに特異値分解を適用して潜在的意味空
間を構成する方法(Projections for
efficient document cluste
ring, H.Schutze & C.Silve
rstone、 1997. Proceedings
of SIGIR 97, 9974−81, AC
M)
【0049】文書分類手段5は、トークン生成手段4に
よる行列の行ベクトルを文書ベクトルと見なし、ベクト
ル間の類似度を用いて文書を分類する。本実施例では、
クラスタリングとカテゴライゼーションの双方を備えて
いる。その動作については従来技術の項で述べた。
【0050】図2は、本発明の他の実施形態(請求項
4)を説明するための図で、図中、6は情報変換規則選
択手段、7は情報変換規則記憶手段で、情報変換規則記
憶手段7はトークン生成手段4に参照される、情報抽出
手段3の出力を用いてどのように言語解析手段2の出力
を変換するかを記述した変換規則を保持する記憶装置で
ある。各変換規則はidで管理されている。本発明で
は、変換規則に次のようなものが実装されている。ここ
で、言語解析手段2の出力である(語句,品詞)をte
rm,part_of_speech情報抽出手段3の
出力である(カテゴリ名,特定情報)をcategor
y,termとすると、 ・replace(all_categories)言
語解析手段2の出力、情報抽出手段3の出力でterm
が共通していれば、termをcategoryに変換
する。 ・replace(category)termをca
tegoryに変換して良いカテゴリ名を選択できる。
例えば、replace(製品名)、replace
(人名)、replace(企業名)のうち目的によっ
ていくつかを選択することができる。 ・add(all_categories)言語解析手
段2の出力、情報抽出手段3の出力でtermが共通し
ていれば、termに加えcategoryもトークン
生成に利用する。 ・add(category)termに加え追加する
カテゴリ名を選択できる。例えば、add(製品名),
add(人名),add(企業名)のうち目的によって
いくつかを選択することができる。がサポートされてい
る。
【0051】また、本発明では編集された変換規則を情
報変換規則記憶手段7に保持できるので、それらも情報
変換規則選択手段6の選択対象とすることができる。
【0052】情報変換規則選択手段6は、情報変換規則
記憶手段7の内部に格納されている規則のうち、トーク
ン生成手段4内で利用したいものをユーザーの入力に基
づき、変換規則のidをトークン生成手段4へ出力する
手段である。トークン生成手段4は、入力された変換規
則のidをもとに、情報変換規則記憶手段7より変換規
則をロードし、トークン生成を行う。
【0053】図3は、本発明の他の実施形態(請求項
5)を説明するための図で、情報変換規則変更手段8
は、新規に変換規則を編集したり、情報変換規則内に保
持されている変換規則を修正したりする装置である。変
換規則を記述するために利用できる演算子には、請求項
4で記述のreplace、addのほかに以下のもの
が実装されている。 ・new(new_category_name,[c
ategory_names])category_n
amesに記述したカテゴリ名に属するtermをne
w_category_nameで与えた新たなカテゴ
リに属するtermとする。(例)new(行為者,
[企業名,組織名,人名])カテゴリ名が企業名,組織
名,人名に属するtermをカテゴリ名「行為者」に属
するtermとする。したがって、replace(行
為者)とすると、企業名、組織名、人名に属するter
mがすべて「行為者」のカテゴリidで置換されること
になる。
【0054】
【発明の効果】以上の説明から明らかなように、本発明
によると以下のような効果がある。文書分類の際に、特
定情報のカテゴリ名を強調して利用できるので、特定情
報を重視する分類が欲しい場合に目的に合致した分類を
得ることができる。
【0055】情報抽出手段により抽出される特定情報の
カテゴリ名を用いた分類ができるので、個々の特定情報
に左右されない分類を得ることができる。
【0056】文書分類の際に、情報抽出手段により抽出
される特定情報のカテゴリ名とともに個々の特定情報も
利用するので、個々の特定情報に基づく分類も、カテゴ
リ名に基づく分類も得ることができる。
【0057】情報変換規則を選択できるので、個々の特
定情報に基づく分類、あるいはカテゴリ名に基づく分類
を、目的に応じて使い分けることができる。
【0058】情報変換規則を編集できるので、より柔軟
な分類を行うことができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態(請求項1,2,3)の
構成を示す図である。
【図2】 本発明の他の実施形態(請求項4)を説明す
るための図である。
【図3】 本発明の他の実施形態(請求項5)を説明す
るための図である。
【符号の説明】
1…文書データ入力手段、2…言語解析手段、3…情報
抽出手段、4…トークン生成手段、5…文書分類手段、
6…情報変換規則選択手段、7…情報変換規則記憶手
段、8…情報変換規則変更手段。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文書の分類を行う文書分類装置におい
    て、文書データを入力する文書データ入力手段と、前記
    文書データ入力手段により入力された文書データを解析
    して、文書に含まれる語句情報を得る言語解析手段と、
    前記文書データ入力手段により入力された文書データを
    解析して、特定の情報を抽出する情報抽出手段と、前記
    情報抽出手段の出力によって言語解析手段の出力を変換
    し、分類計算に用いるトークンを生成するトークン生成
    手段と、前記トークン生成手段の出力に基づいて文書を
    分類する文書分類手段と、を備えたことを特徴とする文
    書分類装置。
  2. 【請求項2】 文書の分類を行う文書分類装置におい
    て、文書データを入力する文書データ入力手段と、前記
    文書データ入力手段により入力された文書データを解析
    して、文書に含まれる語句情報を得る言語解析手段と、
    前記文書データ入力手段により入力された文書データを
    解析して、特定のカテゴリーに属する情報をその情報が
    属するカテゴリーに対応付けて抽出する情報抽出手段
    と、前記言語解析手段によって出力された語句を、前記
    情報抽出手段によって抽出された情報のカテゴリー識別
    子を用いて置換し、分類計算に用いるトークンを生成す
    るトークン生成手段と、前記トークン生成手段の出力に
    基づいて文書を分類する文書分類手段と、を備えたこと
    を特徴とする文書分類装置。
  3. 【請求項3】 文書の分類を行う文書分類装置におい
    て、文書データを入力する文書データ入力手段と、前記
    文書データ入力手段により入力された文書データを解析
    して、文書に含まれる語句情報を得る言語解析手段と、
    前記文書データ入力手段により入力された文書データを
    解析して、特定のカテゴリーに属する情報をその情報が
    属するカテゴリーに対応付けて抽出する情報抽出手段
    と、前記言語解析手段によって出力された語句に加え
    て、前記情報抽出手段によって抽出された情報のカテゴ
    リー識別子を追加して、分類計算に用いるトークンを生
    成するトークン生成手段と、前記トークン生成手段の出
    力に基づいて文書を分類する文書分類手段と、を備えた
    ことを特徴とする文書分類装置。
  4. 【請求項4】 請求項1乃至3のいずれかに記載の文書
    分類装置において、情報抽出手段の出力によって言語解
    析手段の出力を変換(あるいは置換)するための規則を
    1つ以上保持する情報変換規則記憶手段と、前記情報変
    換規則記憶手段に格納された情報変換規則を選択する情
    報変換規則選択手段と、を備えたことを特徴とする文書
    分類装置。
  5. 【請求項5】 請求項1乃至4のいずれかに記載の文書
    分類装置において、情報抽出手段の出力によって言語解
    析手段の出力を変換(あるいは置換)するための規則を
    保持する情報変換規則記憶手段と、前記情報変換規則記
    憶手段に格納された情報変換規則を変更する情報変換規
    則変更手段と、を備えたことを特徴とする文書分類装
    置。
  6. 【請求項6】 文書の分類を行う文書分類方法におい
    て、文書データを入力する文書データ入力ステップと、
    前記文書データ入力ステップにより入力された文書デー
    タを解析して、文書に含まれる語句情報を得る言語解析
    ステップと、前記文書データ入力ステップにより入力さ
    れた文書データを解析して、特定の情報を抽出する情報
    抽出ステップと、前記情報抽出ステップによって抽出さ
    れた特定の情報によって前記言語解析ステップによって
    得た語句を変換し、分類計算に用いるトークンを生成す
    るトークン生成ステップと、前記トークン生成ステップ
    によって生成されたトークンに基づいて文書を分類する
    文書分類ステップと、から成ることを特徴とする文書分
    類方法。
  7. 【請求項7】 文書の分類を行う文書分類方法におい
    て、文書データを入力する文書データ入力ステップと、
    前記文書データ入力ステップにより入力された文書デー
    タを解析して、文書に含まれる語句情報を得る言語解析
    ステップと、前記文書データ入力ステップにより入力さ
    れた文書データを解析して、特定のカテゴリーに属する
    情報をその情報が属するカテゴリーに対応付けて抽出す
    る情報抽出ステップと、前記言語解析ステップによって
    出力された語句を、前記情報抽出ステップによって抽出
    された情報のカテゴリー識別子を用いて置換し、分類計
    算に用いるトークンを生成するトークン生成ステップ
    と、前記トークン生成ステップによって生成されたトー
    クンに基づいて文書を分類する文書分類ステップと、か
    ら成ることを特徴とする文書分類方法。
  8. 【請求項8】 文書の分類を行う文書分類方法におい
    て、文書データを入力する文書データ入力ステップと、
    前記文書データ入力ステップにより入力された文書デー
    タを解析して、文書に含まれる語句情報を得る言語解析
    ステップと、前記文書データ入力ステップにより入力さ
    れた文書データを解析して、特定のカテゴリーに属する
    情報をその情報が属するカテゴリーに対応付けて抽出す
    る情報抽出ステップと、前記言語解析ステップによって
    出力された語句に加えて、前記情報抽出ステップによっ
    て抽出された情報のカテゴリー識別子を追加して、分類
    計算に用いるトークンを生成するトークン生成ステップ
    と、前記トークン生成ステップによって生成されたトー
    クンに基づいて文書を分類する文書分類ステップと、を
    有することを特徴とする文書分類方法。
  9. 【請求項9】 請求項6乃至8のいずれかに記載の文書
    分類方法において、情報抽出ステップの出力によって言
    語解析ステップの出力を変換(あるいは置換)するため
    の規則を1つ以上保持する情報変換規則記憶ステップ
    と、前記情報変換規則記憶ステップに格納された情報変
    換規則を選択する情報変換規則選択ステップと、を有す
    ることを特徴とする文書分類方法。
  10. 【請求項10】 請求項6乃至9のいずれかに記載の文
    書分類方法において、情報抽出ステップの出力によって
    言語解析ステップの出力を変換(あるいは置換)するた
    めの規則を保持する情報変換規則記憶ステップと、前記
    情報変換規則記憶ステップに格納された情報変換規則を
    変更する情報変換規則変更ステップと、を備えたことを
    特徴とする文書分類方法。
  11. 【請求項11】 請求項1乃至5のいずれかに記載の文
    書分類装置を作動させ、或いは、請求項6乃至10のい
    ずれかに記載の文書分類方法を実行するためのプログラ
    ムを記憶したコンピュータ読み取り可能な記録媒体。
JP2001104817A 2001-04-03 2001-04-03 文書分類装置 Pending JP2002304400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001104817A JP2002304400A (ja) 2001-04-03 2001-04-03 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001104817A JP2002304400A (ja) 2001-04-03 2001-04-03 文書分類装置

Publications (1)

Publication Number Publication Date
JP2002304400A true JP2002304400A (ja) 2002-10-18

Family

ID=18957619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001104817A Pending JP2002304400A (ja) 2001-04-03 2001-04-03 文書分類装置

Country Status (1)

Country Link
JP (1) JP2002304400A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100363A (ja) * 2003-08-14 2005-04-14 Internatl Business Mach Corp <Ibm> オンラインならびにオフラインのコンポーネントを介した進展しているデータ・ストリームのクラスタリングのための方法および装置
JP2009098952A (ja) * 2007-10-17 2009-05-07 Mitsubishi Electric Corp 情報検索システム
JP2019211974A (ja) * 2018-06-04 2019-12-12 株式会社野村総合研究所 企業分析装置
JP7491022B2 (ja) 2020-03-31 2024-05-28 大日本印刷株式会社 書類識別装置、書類識別方法及びコンピュータプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100363A (ja) * 2003-08-14 2005-04-14 Internatl Business Mach Corp <Ibm> オンラインならびにオフラインのコンポーネントを介した進展しているデータ・ストリームのクラスタリングのための方法および装置
JP2009098952A (ja) * 2007-10-17 2009-05-07 Mitsubishi Electric Corp 情報検索システム
JP2019211974A (ja) * 2018-06-04 2019-12-12 株式会社野村総合研究所 企業分析装置
JP7491022B2 (ja) 2020-03-31 2024-05-28 大日本印刷株式会社 書類識別装置、書類識別方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
US20190065472A1 (en) Automatic Semantic Rating and Abstraction of Literature
US20080097937A1 (en) Distributed method for integrating data mining and text categorization techniques
Menner et al. Topic detection: identifying relevant topics in tourism reviews
US20020194156A1 (en) Information retrieval apparatus and information retrieval method
Sikdar et al. Differential evolution based feature selection and classifier ensemble for named entity recognition
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Dalal et al. Semantic graph based automatic text summarization for hindi documents using particle swarm optimization
Saeed et al. Optimizing sentiment classification for Arabic opinion texts
González et al. Siamese hierarchical attention networks for extractive summarization
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
Gaanoun et al. Automatic text summarization for moroccan arabic dialect using an artificial intelligence approach
Sarwar et al. Author verification of nahj al-balagha
JP3185167B2 (ja) データ加工システム
JP2002304400A (ja) 文書分類装置
Davody et al. TOKEN is a MASK: Few-shot named entity recognition with pre-trained language models
Sood et al. Reasoning through search: a novel approach to sentiment classification
Sofean Automatic segmentation of big data of patent texts
Felicetti et al. Visual and textual sentiment analysis of daily news social media images by deep learning
Zhang et al. Word embedding-based web service representations for classification and clustering
JP7351502B2 (ja) 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体
Aarts et al. A practical application for sentiment analysis on social media textual data
CN111339303A (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
Wang et al. Content-based weibo user interest recognition
Arivarasan et al. Data mining K-means document clustering using tfidf and word frequency count
Madodonga et al. Izindaba-Tindzaba: Machine learning news categorisation for Long and Short Text for isiZulu and Siswati