JP2000231560A - 文書自動分類方式 - Google Patents
文書自動分類方式Info
- Publication number
- JP2000231560A JP2000231560A JP11032494A JP3249499A JP2000231560A JP 2000231560 A JP2000231560 A JP 2000231560A JP 11032494 A JP11032494 A JP 11032494A JP 3249499 A JP3249499 A JP 3249499A JP 2000231560 A JP2000231560 A JP 2000231560A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- documents
- directory
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
リー構造の分類を自動的に作成する。 【解決手段】 電子化文書に付与されたキーワードの頻
度を自動計算すると共にキーワード間の関連付けを行
う。この頻度が大きいキーワードに上位ディレクトリ
(例:プリンタ)を付与し、このキーワードに関連する
即ち同一文書に出現するキーワードを下位ディレクトリ
として作成する(例:設計書、議事録、カメラなど)。
これによって関連性を有するキーワードのツリー構造が
得られる。
Description
し、より詳しくは、ツリー構造をもった文書自動分類方
式に関するもので、各種文書処理システム例えば文書フ
ァイリングシステム、光学読取装置を備えたいわゆる光
ファイルシステム、文書データベースなど広く応用が可
能である。
り、文書は書類や冊子体ばかりでなくコンピュータで処
理可能な文書いわゆる電子化文書が広く利用されてい
る。例えば、ワードプロセッサ等で作成された文字コー
ドからなるドキュメント、スキャナ等によるイメージデ
ータをOCR(光学文字読取装置)等で文字コード化し
たドキュメント、商用データベースなどからダウンロー
ドされたテキスト形式ドキュメントなどである。
なため、文書の管理例えば登録、検索、流通、保存、大
量文書の取扱などの各段階で従来の書類よりも利便性が
向上すると期待されている。しかし、実際の利用には多
くの課題が残っている。特に後日の検索の容易性・正確
性(即ち高い適合率および再現率)のために、文書の登
録には書誌的事項の他に分類やキーワードなど内容を表
現する索引を付与することが多い。
化文書を扱う商用データベースなどの大規模データベー
スの管理システムとして発達してきた。このような大規
模データベースでは、メモ程度のキーワード付与では後
の検索時に目的とする文書が呼び出せなくなる恐れが大
きいので、単なるキーワードではなく同義語をまとめて
一つの索引語としたり、上位概念と下位概念との関係に
あるキーワードは、ツリー構造にするなど統制語として
シソーラスにされるのが一般的である。この場合、シソ
ーラスの作成は人手によるしか方法がなかった。またそ
のシソーラスに基づく索引作業も人手に頼らざるをえな
かった。
文書に自動でキーワードや分類を付与したものは多くが
知られている(例えば、特開平5−342272号公
報、特開平8−166965号公報など)。これらは、
所期の目的は達しているが、キーワードを自動的にツリ
ー構造に分類するものは開示していない。
を解決しようとするもので、電子化文書からキーワード
を取得し、この取得したキーワードの関連性を付与する
と共に、関連するキーワード間で、ツリー構造を自動的
に作成することにより、電子化文書の登録や管理を容易
にすることを目的としてなされたものである。
の電子化文書に対して各文書毎のキーワードを抽出し、
各キーワードに対して該キーワードが抽出された文書の
数より該キーワードの出現頻度を求め、各キーワードに
対して該キーワードを含む文書の数から該キーワードに
対する文書間の関連度を求め、前記キーワードの出現頻
度と文書間の関連度とから、前記文書をツリー構造に自
動的に分類するようにしたものである。
て、文書が複数のキーワードを有しかつキーワードが複
数のツリー構造のノードに該当するときは、該当するノ
ードに登録するようにしたものである。
ピュータ等の文書処理機器に適用した例を説明するため
のフローチャートで、以下、順を追って説明する。
字コードからなるドキュメント、スキャナ等によるイメ
ージデータをOCR(光学文字読取装置)等で文字コー
ド化したドキュメント、商用データベースなどからダウ
ンロードされたテキスト形式ドキュメントなどでデータ
形式は問わない。要は、コンピュータで処理可能なデー
タ形式であればよい。
例えば、索引付与者が文書を読解して人手で付与する方
法、キーワード辞書をテーブルとして作成しておきこれ
に合致するキーワードをコンピュータ等で自動的に付与
する方法、漢字、片仮名、アルファベット文字および特
殊文字を語幹として切出し、これらをキーワードとする
方法などがある。本発明では、キーワード抽出方法に特
に限定はなく、それぞれの文書のキーワードが利用可能
であればよい。
て、ツリー構造のディレクトリを作成し、自動的に分類
を付与する。勿論、書誌的事項例えば著者名、所属機
関、所属部署、著者ID番号、作成年月日なども同時に
登録してもよい。この自動分類は、本発明の要点である
ので、詳細は図2以降において説明する。
索する。本発明によって作成したツリー構造のキーワー
ドを用いて、効率のよい検索を行う。検索システムには
特に限定はなく、各種のDBMS(データベース管理シ
ステム)やパーソナルコンピュータ用のデータベースソ
フトウェア、ファイル管理ソフトウェアなどが利用可能
である。要は、ツリー構造での検索が可能であれば良
い。
確認する。なお、この表示装置は必ずしも必要ではな
い。
印刷して出力する。出力は、印刷に限ることなく、転送
など任意に選ぶことができる。
たは追加する例を説明するためのフローチャートであ
る。まず、登録対象の電子化文書の数をカウントする
(S21)。登録すべき文書の有無の確認(S22)が
済んだら、第1番目の文書に付与された第1番目のキー
ワードを取得し、表2に示したキーワード頻度テーブル
にあるかどうか確認する(S23)。なお、文書に付与
されたキーワードは、例えば、表1のようになってい
る。表1の例では8つの文書にそれぞれ数個のキーワー
ドが付与されている。この付与方法は上述のごとく自動
的に付与してもよいし、索引者が付与するようにしても
よい。
登録されていなければ、新たにそのキーワードを登録し
(S24)、頻度を1とする(S25)。キーワード頻
度テーブルは、表2の様に頻度が大きい順に並べて、表
示し得るようにした方が良い。
録されていれば、単に、該当するキーワードの頻度を1
だけカウントアップすればよい(S26)。
確認し(S27)、次のキーワードがあればステップS
23へ進み、なければステップS22に進む。
の処理は終了する。なお、同一キーワードが同一文書に
複数個あった場合も、その個数を数えてその頻度をカウ
ントアップしてもよい。
ックスに作成する例を説明するためのフローチャートで
ある。キーワード関連マトリックスは例えば表3のよう
に作成する。前述のキーワード頻度テーブル(表2参
照)に、登録されたキーワードを軸として表4に示すよ
うな正方行列を作る。ただし、対角成分を境として対称
な成分は数値が同一になるのでこの表では利用しない。
また、対角成分も同一キーワード同志になるので用いな
い(S31)。
ら、文書に付与された全てのキーワードを取得する(S
32)。
合わせがマトリックスにあるかどうか確認する(S3
3)。
置(成分)に一致するものがあれが、表3のマトリック
スの該当する位置(成分)の数値を1増やす(S3
4)。
ば、次の文書のキーワードの組合せ一致を確認するため
にステップS35へ進む。
3)。次の文書がなければ、この処理は終了する。つぎ
の文書があればステップS32へ戻る。
フローチャートである。前記キーワード頻度テーブル
(表2参照)で、最も頻度の高いキーワードを取得し
(S41)、取得カウントを1増やす(S42)。取得
カウントがしきい値に達したかどうかをチェックする
(S43)。しきい値は手動で設定しても良いし、前記
キーワード頻度テーブルなどを参照して自動計算して設
定するなどしても良い。しきい値に達した場合は、この
処理は終了する。
合は、ステップS44へ進み、前記ステップS41で取
得した最上位のキーワードのディレクトリを作成する。
これは上位ディレクトリとなる。ディレクトリ名は任意
に選ぶことができるが、簡単のためにはキーワードと同
じ名称にする(S44)。
位に関連するディレクトリを作成する。下位ディレクト
リとなるキーワードは、前記キーワード関連テーブル
(表3)を参照して作成する。表3の例では、関連が1
以上のもの、即ち、「設計書」、「議事録」、「カメ
ラ」、「設計計画」、「販売計画」、「ライブラリ」、
「テスト」が下位ディレクトリとなる(S45)。
達するまで上記処理を繰り返す。また、さらに下位のデ
ィレクトリを作る場合は、別のしきい値を設定して、上
記と同様に処理すればよい。
ー構造となる。前述の表2の例ではプリンタというキー
ワードが最上位にあるので、「プリンタ」の名称で上位
ディレクトリを作成する(S41)。
は、図5に示すキーワードが関連する。この関連は、表
3のキーワード関連テーブルから求めることができる。
第1行のキーワード「プリンタ」に対する関連度が、頻
度として記録されているので、頻度1以上が「関連度あ
り」となる。関連度がない文書即ち頻度が0(ゼロ)の
文書や、その他「関連度あり」と判定されなかった文書
のID番号を記録できるように「分類不能」というディ
レクトリを作っておく。
イレクトリ番号と上位ディレクトリ番号を示すものであ
る。「プリンタ」ディレクトリは、上位ディレクトリが
ないので、「0(ゼロ)」と表示され、「カメラ」ディ
レクトリの上位ディレクトリは「プリンタ」ディレクト
リであるから、そのディレクトリID「1」が記されて
いる。
対応する文書のID番号を付けて、文書を分類したもの
を概念的に示したものである。図7は、図6に示した分
類処理の例を説明するためのフローチャートで、以下、
図7に示したフローチャートに基づいて説明する。
を取得し(S71)、次の文書があれば次ステップ(S
73)に進み、なければこの処理は終了する。
トリの名称で、一致するものがあるかどうか比較する
(S74)。一致するものがあれば、文書とディレクト
リの関連を付ける。
表5は、文書ID番号とディレクトリIDの関連を示す
文書管理テーブルである。文書とディレクトリの関連付
けは、上記文書管理テーブルにディレクトリIDを記録
することにより行うことができる。表5では文書ID番
号が0001,0002,0003,0005,0007,0008である文書が、デ
ィレクトリID1に記録されていることを示している。
IDとして3が記されているが、これはディレクトリI
D3の「議事録」ディレクトリにも文書ID番号0001が
記録されており、さらにディレクトリID5の「設計計
画」ディレクトリにも記録されていることを示してい
る。
ID2「設計書」に記録され、その下位ディレクトリI
D4「カメラ」にも記録されていることを示している。
リID1または2に記録がないので、文書管理テーブル
には0(ゼロ)と記録されている。下位ディレクトリに
も該当がないのでその記録は0「ゼロ」となっている。
たら(S76)、次の文書のキーワードを取得する(S
71)。比較・関連付け処理が全ては終了していない場
合は、ディレクトリとキーワードの比較・関連付けの処
理を繰り返す(S73−S76)。
うと、図6に示したような関係となる。図6中文書番号
0006が分類不能のディレクトリに記録されているが、こ
れはこの文書には「プリンタ」というキーワードが付与
されていないためである。
レクトリの関連付けがツリー構造で行われ、検索時に
は、上記ディレクトリのツリー構造により関連する文書
が呼び出せるので、ヒット率が向上する。
た文字コードからなるドキュメント、スキャナ等による
イメージデータをOCR(光学文字読取装置)等で文字
コード化したドキュメント、商用データベースなどから
ダウンロードされたテキスト形式ドキュメントの管理に
好適で、ドキュメントの登録、検索に便利である。
索引が作成されるので、文書登録時の索引作業が不要に
なる。
理機器に適用した例を説明するフローチャートである。
る例を説明するフローチャートである。
成する例を説明するフローチャートである。
ートである。
する図である。
である。
Claims (2)
- 【請求項1】 複数の電子化文書に対して各文書毎のキ
ーワードを抽出し、 各キーワードに対して該キーワードが抽出された文書の
数より該キーワードの出現頻度を求め、 各キーワードに対して該キーワードを含む文書の数から
該キーワードに対する文書間の関連度を求め、 前記キーワードの出現頻度と文書間の関連度とから、前
記文書をツリー構造に分類することを特徴とする文書自
動分類方式。 - 【請求項2】 請求項1に記載された文書自動分類方式
において、文書が複数のキーワードを有しかつキーワー
ドが複数のツリー構造のノードに該当するときは、該当
するノードに登録するようにしたことを特徴とする文書
自動分類方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11032494A JP2000231560A (ja) | 1999-02-10 | 1999-02-10 | 文書自動分類方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11032494A JP2000231560A (ja) | 1999-02-10 | 1999-02-10 | 文書自動分類方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000231560A true JP2000231560A (ja) | 2000-08-22 |
Family
ID=12360559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11032494A Pending JP2000231560A (ja) | 1999-02-10 | 1999-02-10 | 文書自動分類方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000231560A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002202905A (ja) * | 2000-10-27 | 2002-07-19 | Canon Inc | データ蓄積方法及び装置、並びに記憶媒体 |
JP2012093927A (ja) * | 2010-10-27 | 2012-05-17 | Hitachi Solutions Ltd | ファイル管理装置及びファイル管理方法 |
JP2013101511A (ja) * | 2011-11-08 | 2013-05-23 | Fujitsu Ltd | 化合物分類装置、化合物分類プログラムおよび化合物分類方法 |
KR102052315B1 (ko) * | 2018-05-28 | 2019-12-04 | 주식회사 에이브레인 | 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템 |
CN110955784A (zh) * | 2018-09-26 | 2020-04-03 | 北京国双科技有限公司 | 电子文书处理方法及装置 |
US20210026874A1 (en) * | 2018-07-24 | 2021-01-28 | Ntt Docomo, Inc. | Document classification device and trained model |
CN112861490A (zh) * | 2021-03-12 | 2021-05-28 | 国网浙江省电力有限公司物资分公司 | 基于openpyxl的工程量清单目录比对系统及方法 |
-
1999
- 1999-02-10 JP JP11032494A patent/JP2000231560A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002202905A (ja) * | 2000-10-27 | 2002-07-19 | Canon Inc | データ蓄積方法及び装置、並びに記憶媒体 |
JP2012093927A (ja) * | 2010-10-27 | 2012-05-17 | Hitachi Solutions Ltd | ファイル管理装置及びファイル管理方法 |
JP2013101511A (ja) * | 2011-11-08 | 2013-05-23 | Fujitsu Ltd | 化合物分類装置、化合物分類プログラムおよび化合物分類方法 |
KR102052315B1 (ko) * | 2018-05-28 | 2019-12-04 | 주식회사 에이브레인 | 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템 |
US20210026874A1 (en) * | 2018-07-24 | 2021-01-28 | Ntt Docomo, Inc. | Document classification device and trained model |
US12118308B2 (en) * | 2018-07-24 | 2024-10-15 | Ntt Docomo, Inc. | Document classification device and trained model |
CN110955784A (zh) * | 2018-09-26 | 2020-04-03 | 北京国双科技有限公司 | 电子文书处理方法及装置 |
CN110955784B (zh) * | 2018-09-26 | 2023-04-07 | 北京国双科技有限公司 | 电子文书处理方法及装置 |
CN112861490A (zh) * | 2021-03-12 | 2021-05-28 | 国网浙江省电力有限公司物资分公司 | 基于openpyxl的工程量清单目录比对系统及方法 |
CN112861490B (zh) * | 2021-03-12 | 2024-02-20 | 国网浙江省电力有限公司物资分公司 | 基于openpyxl的工程量清单目录比对系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8315997B1 (en) | Automatic identification of document versions | |
US9208185B2 (en) | Indexing and search query processing | |
US8156123B2 (en) | Method and apparatus for processing metadata | |
JP4162711B2 (ja) | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 | |
US20040024778A1 (en) | System for indexing textual and non-textual files | |
US20080263033A1 (en) | Indexing and searching product identifiers | |
US20050160115A1 (en) | Document imaging and indexing system | |
US6061478A (en) | Content-based filing and retrieval system for name cards and hankos | |
JP2000231560A (ja) | 文書自動分類方式 | |
US7246107B2 (en) | System and method for creating a data file for use in searching a database | |
JP2535629B2 (ja) | 検索システムの入力文字列正規化方式 | |
JP2000020549A (ja) | 文書データベースシステムへの入力支援装置 | |
JP2002183195A (ja) | 概念検索方式 | |
JPH11184924A (ja) | スケジューリング装置 | |
Downton et al. | Computerising natural history card archives | |
KR20020006223A (ko) | 자동 색인 로봇 시스템 및 이를 이용한 처리 방법 | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
JPH0944521A (ja) | インデックス作成装置および文書検索装置 | |
JPH09259132A (ja) | 情報登録検索装置及びその方法 | |
JP3998201B2 (ja) | 文書検索方法 | |
JPH08249341A (ja) | 文書データベースの文書格納・検索装置 | |
KR20010056171A (ko) | 정보 검색시스템에서의 정보 검색을 위한 부분검색 장치및 그 방법 | |
JPH06215038A (ja) | データベース検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080402 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090402 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090402 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100402 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100402 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110402 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120402 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130402 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130402 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140402 Year of fee payment: 15 |
|
LAPS | Cancellation because of no payment of annual fees |