JPH0736897A - 文書分類装置 - Google Patents

文書分類装置

Info

Publication number
JPH0736897A
JPH0736897A JP5181264A JP18126493A JPH0736897A JP H0736897 A JPH0736897 A JP H0736897A JP 5181264 A JP5181264 A JP 5181264A JP 18126493 A JP18126493 A JP 18126493A JP H0736897 A JPH0736897 A JP H0736897A
Authority
JP
Japan
Prior art keywords
vector
sentence
document
vectors
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5181264A
Other languages
English (en)
Inventor
Toru Ueda
徹 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP5181264A priority Critical patent/JPH0736897A/ja
Publication of JPH0736897A publication Critical patent/JPH0736897A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書の自動分類を容易に行い得る文書分類装
置を提供することにある。 【構成】 入力される文書に関して形態素解析を行う解
析手段(1,2)と、解析された形態素のうち少なくと
も自立語の特徴を示すベクトルを備えたベクトルテ−ブ
ル(4)と、ベクトルテ−ブル(4)から自立語に対応
するベクトルを抽出し抽出されたベクトルに基づいて文
書の特徴を示す文章ベクトルを生成する文章ベクトル生
成手段(3,5)と、生成された文章ベクトルを群分け
し群分けされた文章ベクトルに基づいて文書を自動的に
分類するクラスタリング手段(6,7)とを含むことを
特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書分類装置に係り、詳
細には文書を保存/自動分類する文書自動分類機やワ−
プロ/ファイリングシステム等の分野に利用される文書
分類装置に係る。
【0002】
【従来の技術】従来、文書の自動分類は困難でありユ−
ザが手動で分類を行ったり、文書中のキ−ワ−ドを抽出
し、あらかじめ作成されたシソ−ラスを用いて分類を行
っていた。
【0003】
【発明が解決しようとする課題】キ−ワ−ドを抽出し、
得られたキ−ワ−ドの関係をシソ−ラスを用いて推定す
る場合、得られるのはキ−ワ−ドと、他のキ−ワ−ドと
の関係であり文書と他の文書との関係ではない。よっ
て、この方式での分類では分類精度が極めて悪い。本発
明の目的は、文書の自動分類を容易に行い得る文書分類
装置を提供することにある。
【0004】
【課題を解決するための手段】入力される文書に関して
形態素解析を行う解析手段と、解析された形態素のうち
少なくとも自立語の特徴を示すベクトルを備えたベクト
ルテ−ブルと、ベクトルテ−ブルから自立語に対応する
ベクトルを抽出し抽出されたベクトルに基づいて文書の
特徴を示す文章ベクトルを生成する文章ベクトル生成手
段と、生成された文章ベクトルを群分けし群分けされた
文章ベクトルに基づいて文書を自動的に分類するクラス
タリング手段とを含むことを特徴とする。
【0005】
【作用】解析手段が入力される文書に関して形態素解析
を行い、ベクトルテ−ブルが解析された形態素のうち少
なくとも自立語の特徴を示すベクトルを備えており、文
章ベクトル生成手段がベクトルテ−ブルから自立語に対
応するベクトルを抽出し抽出されたベクトルに基づいて
文書の特徴を示す文章ベクトルを生成し、クラスタリン
グ手段が生成された文章ベクトルを群分けし群分けされ
た文章ベクトルに基づいて文書を自動的に分類するの
で、文章中に含まれる自立語からその文章の大体の意味
を現す文章ベクトルが抽出され、その文章ベクトルを特
徴としてクラスタリングが行われ、シソ−ラスを使用す
ることなく複数の文章を内容に応じて自動的に分類し得
る。
【0006】
【実施例】図1は本発明の文書分類装置の実施例のブロ
ック図、図2は本発明の文書分類装置の他の実施例のブ
ロック図、図3は本発明の文書分類装置の別の実施例の
ブロック図である。
【0007】図1において、1はあらかじめ入力された
複数の文書を記憶する文章記憶部、2は文章記憶部1と
ともに解析手段を構成し、文章記憶部1に記憶されてい
る複数の文書をひとつひとつ形態素解析を行う文解析
部、3は入力された文章の形態素解析を行い得られた自
立語の特徴を示すベクトルを集計して入力文章の特徴ベ
クトルとする文章ベクトル生成部であって、換言すれ
ば、文解析部2で得られた自立語について後述するベク
トルテ−ブルを参照し、あらかじめ作成されたベクトル
表現された自立語(もしくは自立語および付属語)の特
徴を示すベクトルを登録しているベクトルテ−ブル4に
その要素が存在するならば、該当するベクトルと現文章
ベクトルとの演算(例えば加算)を行う文章ベクトル生
成部、5は文章ベクトル成生部3とともに文書ベクトル
生成手段を構成し、文書毎に文章ベクトル生成部3で求
められた文章ベクトルを記憶する文章ベクトル記憶部、
6は文章ベクトル記憶部5で記憶されている文章ベクト
ルを用いてクラスタリングを行って入力文書に含まれる
自立語(もしくは自立語および付属語)の特徴から複数
の文書を自動的に分類するクラスタリング部、7はクラ
スタリング部とともにクラスタリング手段を構成し、ク
ラスタリング部6によって文書がいくつかの群に分けら
れたので、その結果を記憶する結果記憶部である。な
お、クラスタリングにはK−mean法など種々の方法
が存在するが、ここではその手法は問わない。
【0008】図2の構成の記号は図1と同一のものは同
じ番号を付してある。8は結果記憶部7に記憶されてい
る分類された群毎に、その群のもつ特徴を算出する代表
ベクトル算出部でありこれにより分類された群がもつ特
徴をベクトルの形で表現できる。9は新たな文書の文章
ベクトルと代表ベクトル算出部8で求められた代表ベク
トルとの距離を求める距離計算部である。図2の実施例
においては、クラスタリング部6、結果記憶部7、代表
ベクトル算出部8および距離計算部9がクラスタリング
手段を構成する。新たな文書の文章ベクトルが求められ
ると、そのベクトルと各分類群の代表ベクトルとの距離
が求められ、新たな文書はどの分類に近いか判定されて
最も近い距離の代表ベクトルをもつ群に分類される。
【0009】図3の構成の記号は図1及び図2と同一の
ものは同じ番号を付してある。10は各群の代表ベクト
ルから大きな値の要素を抽出する要素抽出部、11はベ
クトルの各要素が持つ意味付けを示す要素辞書である。
図3の実施例においては、クラスタリング部6、結果記
憶部7、代表ベクトル算出部8、要素抽出部10および
要素辞書11がクラスタリング手段を構成する。代表ベ
クトルの要素が大きいところを取り出して、その言語的
な意味を要素辞書から抽出することで、各分類群がもつ
特徴を言語的に表すことができる。
【0010】以下本発明の実施例の作動を説明する。
【0011】図4はあらかじめ作成されたベクトルテ−
ブルの例を示す図、図5は「国会への証人喚問」という
文章が含まれる場合の文章ベクトルの計算例を説明する
図、図6は「国会の解散に伴う総選挙について」という
文章が含まれる場合の文章ベクトルの計算例を説明する
図、図7は「国際経済における貿易収支の影響」という
文章が含まれる場合の文章ベクトルの計算例を説明する
図、図8は「円高の及ぼす影響」という文章が含まれる
場合の文章ベクトルの計算例を説明する図である。
【0012】図4には「選挙」「経済」「国会」「貿
易」「円高」の5単語の特徴ベクトル(5次元)が記載
されている。図5のように「国会への証人喚問」という
文章が入力されると、文解析部2において形態素解析が
行われ、その文章に含まれる単語の中で図4のベクトル
テ−ブルに登録されている単語(自立語)のベクトルが
抽出される。抽出された単語からベクトルテ−ブルを用
いて単語のベクトルが選ばれる。複数の単語が1文章か
ら抽出された場合には単語のベクトルを平均化すること
で文章ベクトルが計算される(ただし、小数点は切り捨
て)。図4の「国会」のベクトルは12817であるか
ら図5の計算結果は12817、図4の「国会」のベク
トルは12817、「選挙」は10528であるから図
6の計算結果は両者の平均値11617、すなわち(1
+1)÷2=1、(2+0)÷2=1、(8+5)÷2
=6、(1+2)÷2=1、(7+8)÷2=7(ただ
し、小数点以下切り捨て、以下同様の計算を行う)、図
4の「経済」は77025、「貿易」は89105であ
るから図7の計算結果は両者の平均値78015、図4
の「円高」は95102であるから図8の計算結果は9
5102である。このようにして各文章の1つの文章ベ
クトルが求められる。
【0013】文章ベクトルが求められたならば、従来の
クラスタリングの手法を適用する。図5から図8におい
て、図5、図6の2つの文章ベクトルと図7、図8の2
つの文章ベクトルとはそれぞれ計算結果が近いので4つ
の入力文章、「国会への証人喚問」「国会の解散に伴う
総選挙について」「国際経済における貿易収支の影響」
「円高の及ぼす影響」は2つの群、すなわち「国会への
証人喚問」「国会の解散に伴う総選挙について」の群
と、「国際経済における貿易収支の影響」「円高の及ぼ
す影響」の群とに分類される。
【0014】図9は群「国会への証人喚問」「国会の解
散に伴う総選挙について」の文章ベクトルの計算結果か
ら代表ベクトルを計算する例を説明する図、図10は群
「国際経済における貿易収支の影響」「円高の及ぼす影
響」の文章ベクトルの計算結果から代表ベクトルを計算
する例を説明する図である。
【0015】前記群の分類ができたならば、各分類群毎
に代表ベクトルを求める。単純には各分類文に属する文
章の文章ベクトルの平均をとることで代表ベクトルが計
算できる。図9においては、「国会への証人喚問」の1
2817と「国会の解散に伴う総選挙について」の11
617との平均11717が代表ベクトルとして求めら
れる(小数点は切り捨て、以下同様)。また、図10に
おいては、「国際経済における貿易収支の影響」の78
015と「円高の及ぼす影響」の95102との平均8
6003が代表ベクトルとして求められる。
【0016】あらたに未知の文章が入力された場合に
は、その文章ベクトルを求め、文章ベクトルと各文章ベ
クトルとの距離を計算することで、未知の文章と各分類
群との距離が求められる。未知の文章を最も距離の近い
分類群に入れることにより、以前の分類結果を保存した
ままあらたな文章を最も近い分類群に入れることができ
る。
【0017】ベクトルの各要素にその要素がもつ意味を
要素辞書として記憶しておくと、代表ベクトルから分類
群のもつ特徴が得られる。図9の例で第5要素が政治に
関連したものであるとしたならば図9の例では第5要素
が大きいため、この分類群は政治に関連した群であると
いうことが分かる。
【0018】
【発明の効果】解析手段が入力される文書に関して形態
素解析を行い、ベクトルテ−ブルが解析された形態素の
うち少なくとも自立語の特徴を示すベクトルを備えてお
り、文章ベクトル生成手段がベクトルテ−ブルから自立
語に対応するベクトルを抽出し抽出されたベクトルに基
づいて文書の特徴を示す文章ベクトルを生成し、クラス
タリング手段が生成された文章ベクトルを群分けし群分
けされた文章ベクトルに基づいて文書を自動的に分類す
るので、文章中に含まれる自立語からその文章の大体の
意味を現す文章ベクトルが抽出され、その文章ベクトル
を特徴としてクラスタリングが行われ、シソ−ラスを使
用することなく複数の文章を内容に応じて自動的に分類
し得る。
【図面の簡単な説明】
【図1】本発明の文書分類装置の実施例のブロック図で
ある。
【図2】本発明の文書分類装置の他の実施例のブロック
図である。
【図3】本発明の文書分類装置の別の実施例のブロック
図である。
【図4】あらかじめ作成されたベクトルテ−ブルの例を
示す図である。
【図5】国会への証人喚問という文章が含まれている場
合の文章ベクトルの計算例を説明する図である。
【図6】国会の解散に伴う総選挙についてという文章が
含まれている場合の文章ベクトルの計算例を説明する図
である。
【図7】国際経済における貿易収支の影響という文章が
含まれている場合の文章ベクトルの計算例を説明する図
である。
【図8】円高の及ぼす影響という文章が含まれている場
合の文章ベクトルの計算例を説明する図である。
【図9】群の文章ベクトルの計算結果から代表ベクトル
を計算する例を説明する図である。
【図10】他の群の文章ベクトルの計算結果から代表ベ
クトルを計算する例を説明する図である。
【符号の説明】
1 文章記憶部 2 分解析部 3 文章ベクトル生成部 4 ベクトルテ−ブル 5 文章ベクトル記憶部 6 クラスタリング部 7 結果記憶部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力される文書に関して形態素解析を行
    う解析手段と、解析された形態素のうち少なくとも自立
    語の特徴を示すベクトルを備えたベクトルテ−ブルと、
    ベクトルテ−ブルから自立語に対応するベクトルを抽出
    し抽出されたベクトルに基づいて文書の特徴を示す文章
    ベクトルを生成する文章ベクトル生成手段と、生成され
    た文章ベクトルを群分けし群分けされた文章ベクトルに
    基づいて文書を自動的に分類するクラスタリング手段と
    を含むことを特徴とする文書分類装置。
  2. 【請求項2】 前記クラスタリング手段は群分けされた
    文章ベクトルから群を代表する代表ベクトルを算出し算
    出された代表ベクトルに基づいて文書を分類することを
    特徴とする請求項1に記載の文書分類装置。
  3. 【請求項3】 前記クラスタリング手段は代表ベクトル
    を構成する要素を抽出し抽出された要素に基づいて文書
    を分類することを特徴とする請求項2に記載の文書分類
    装置。
JP5181264A 1993-07-22 1993-07-22 文書分類装置 Pending JPH0736897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5181264A JPH0736897A (ja) 1993-07-22 1993-07-22 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5181264A JPH0736897A (ja) 1993-07-22 1993-07-22 文書分類装置

Publications (1)

Publication Number Publication Date
JPH0736897A true JPH0736897A (ja) 1995-02-07

Family

ID=16097665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5181264A Pending JPH0736897A (ja) 1993-07-22 1993-07-22 文書分類装置

Country Status (1)

Country Link
JP (1) JPH0736897A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212236A (ja) * 1995-02-08 1996-08-20 Canon Inc 情報処理方法及びその装置
JPH08249355A (ja) * 1995-03-15 1996-09-27 Fujitsu Ltd ファイル管理装置及び方法及び計算機システム
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
JP2003162606A (ja) * 2001-11-26 2003-06-06 Ricoh Co Ltd アンケート項目生成装置及び方法及び媒体
US7194471B1 (en) 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
JP2010129025A (ja) * 2008-12-01 2010-06-10 Fuji Xerox Co Ltd 単語関係判定装置及びプログラム
JP2019003254A (ja) * 2017-06-12 2019-01-10 ヤフー株式会社 カテゴリ選択装置、広告配信システム、カテゴリ選択方法、およびプログラム
US10992632B2 (en) 2019-01-03 2021-04-27 International Business Machines Corporation Content evaluation
KR20210120236A (ko) * 2020-03-26 2021-10-07 삼성생명보험주식회사 데이터 관리 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212236A (ja) * 1995-02-08 1996-08-20 Canon Inc 情報処理方法及びその装置
JPH08249355A (ja) * 1995-03-15 1996-09-27 Fujitsu Ltd ファイル管理装置及び方法及び計算機システム
US7194471B1 (en) 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
JP2003162606A (ja) * 2001-11-26 2003-06-06 Ricoh Co Ltd アンケート項目生成装置及び方法及び媒体
JP2010129025A (ja) * 2008-12-01 2010-06-10 Fuji Xerox Co Ltd 単語関係判定装置及びプログラム
JP2019003254A (ja) * 2017-06-12 2019-01-10 ヤフー株式会社 カテゴリ選択装置、広告配信システム、カテゴリ選択方法、およびプログラム
US10992632B2 (en) 2019-01-03 2021-04-27 International Business Machines Corporation Content evaluation
KR20210120236A (ko) * 2020-03-26 2021-10-07 삼성생명보험주식회사 데이터 관리 방법

Similar Documents

Publication Publication Date Title
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
JP5587821B2 (ja) 文書トピック抽出装置及び方法及びプログラム
US20160189057A1 (en) Computer implemented system and method for categorizing data
US7162413B1 (en) Rule induction for summarizing documents in a classified document collection
JPH07114572A (ja) 文書分類装置
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
JPH0736897A (ja) 文書分類装置
US11436278B2 (en) Database creation apparatus and search system
JPH10254883A (ja) 文書自動分類方法
JP2812509B2 (ja) 専門用語抽出システム
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007087400A (ja) 規則帰納システムのためのxmlベースのアーキテクチャ
CN116304012A (zh) 一种大规模文本聚类方法及装置
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JPH1139313A (ja) 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体
JP2006293616A (ja) 文書集約方法及び装置及びプログラム
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP2002189754A (ja) 文書検索装置及び文書検索方法
JP2005050239A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JPH0962693A (ja) 確率モデルによる文書分類方法
JPH103478A (ja) 概念の類似性判別方法
JP2004280316A (ja) 分野判定装置及び言語処理装置
JP2002245062A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体