JP2005182133A - Document classification device and document classification method - Google Patents
Document classification device and document classification method Download PDFInfo
- Publication number
- JP2005182133A JP2005182133A JP2003417901A JP2003417901A JP2005182133A JP 2005182133 A JP2005182133 A JP 2005182133A JP 2003417901 A JP2003417901 A JP 2003417901A JP 2003417901 A JP2003417901 A JP 2003417901A JP 2005182133 A JP2005182133 A JP 2005182133A
- Authority
- JP
- Japan
- Prior art keywords
- category
- list
- document
- classification
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、電子的に作成された電子文書および文字認識された画像文書を含む電子化文書を、所定のカテゴリに分類する文書分類装置および文書分類方法に関するものである。 The present invention relates to a document classification apparatus and a document classification method for classifying electronic documents created electronically and digitized documents including character-recognized image documents into predetermined categories.
コンピュータ及びネットワークの発達に伴って大量の電子化文書のデータベースへの蓄積が進展しつつあり、それに伴って大量の電子化文書データベースに関する電子処理、例えば文書分類への期待が高まってきている。 Along with the development of computers and networks, the accumulation of a large amount of digitized documents in a database is progressing, and along with this, the expectation for electronic processing relating to a large amount of digitized document databases, for example, document classification, has increased.
また、特許文献1では、文書を自動分類して、類似するカテゴリ順に候補を表示した後、分類先のカテゴリをユーザに確定させるものが開示されている。
しかしながら、特許文献1では、文書を1つずつ表示して、分類するカテゴリをユーザが確定していくので、他の文書がどのように分類されているのかなど、複数の文書を分類する際の全体像を把握するのが難しかった。
However, in
本発明は、このような従来の問題点を解消すべく創案されたもので、分類先のカテゴリの判別および誤分類文書のカテゴリ変更を容易にすることを目的とする。 The present invention has been made to solve such a conventional problem, and an object thereof is to facilitate classification of a classification destination category and category change of a misclassified document.
また、本発明は、電子文書を複数のカテゴリに分類可能とすることを目的とする。 Another object of the present invention is to make it possible to classify electronic documents into a plurality of categories.
本発明によれば、複数の文書がどのカテゴリに分類されているのか分かりやすく表示すると共に、誤分類されている文書のカテゴリの修正も容易に行なえるようになる。 According to the present invention, it is possible to easily display in which category a plurality of documents are classified, and it is also possible to easily correct a category of a misclassified document.
本発明の文書分類装置は、入力された電子文書をカテゴリに分類する分類手段と、前記分類手段によって該電子文書を分類する際に候補となったカテゴリを候補リストとして取得する候補カテゴリリスト取得手段と、前記分類手段によって分類された複数の電子文書を、各電子文書が分類されたカテゴリを判別できるようにして一覧表示する表示手段と、前記一覧表示された複数の電子文書の中からユーザ所望の電子文書が修正指示された場合、前記表示手段で表示されている複数の電子文書の一覧を表示したまま、当該指示された電子文書の候補カテゴリリストを表示するように制御する表示制御手段と、前記候補カテゴリリストの中から選択されたカテゴリに基づいて、当該指示された電子文書の分類されているカテゴリを修正する修正手段とを備える。 The document classification apparatus according to the present invention includes a classification unit that classifies an input electronic document into a category, and a candidate category list acquisition unit that acquires, as a candidate list, categories that are candidates when the electronic document is classified by the classification unit. Display means for displaying a list of the plurality of electronic documents classified by the classification means so that the category into which each electronic document is classified can be determined, and a user-desired one of the plurality of electronic documents displayed in the list. Display control means for controlling to display a candidate category list of the instructed electronic document while displaying a list of a plurality of electronic documents displayed on the display means when the electronic document is instructed to be corrected A correction for correcting the classified category of the designated electronic document based on the category selected from the candidate category list And a stage.
本発明の文書分類方法は、入力された電子文書をカテゴリに分類する分類ステップと、前記分類ステップによって該電子文書を分類する際に候補となったカテゴリを候補リストとして取得する候補カテゴリリスト取得ステップと、前記分類ステップによって分類された複数の電子文書を、各電子文書が分類されたカテゴリを判別できるようにして一覧表示する表示ステップと、前記一覧表示された複数の電子文書の中からユーザ所望の電子文書が修正指示された場合、前記表示ステップで表示されている複数の電子文書の一覧を表示したまま、当該指示された電子文書の候補カテゴリリストを表示するように制御する表示制御ステップと、前記候補カテゴリリストの中から選択されたカテゴリに基づいて、当該指示された電子文書の分類されているカテゴリを修正する修正ステップとを備える。 The document classification method of the present invention includes a classification step of classifying an input electronic document into a category, and a candidate category list acquisition step of acquiring a candidate category as a candidate list when the electronic document is classified by the classification step. A display step of displaying a list of the plurality of electronic documents classified in the classification step so that a category into which each electronic document is classified can be determined, and a user-desired one of the plurality of electronic documents displayed in the list A display control step for controlling to display a candidate category list of the instructed electronic document while displaying a list of the plurality of electronic documents displayed in the display step when the electronic document is instructed to be corrected The designated electronic document is classified based on a category selected from the candidate category list. And a correction step of modifying the category you are.
次に本発明に係る文書分類装置および文書分類方法の実施例1を図面に基づいて説明する。
Next,
図1は、本発明に係る文書分類装置の実施例1を示す全体ブロック図、図2は、図1の文書分類装置の機能ブロック図、図3は、図1の文書分類装置で実施される文書分類方法の実施例1を示すフローチャート、図4は、図1の文書分類装置で設定されたカテゴリの例を示す図、図5は、図1の文書分類装置における文書データベースから取得した文書の例を示す図、図6は、図1の文書分類装置の分類結果における文書および分類カテゴリの例を示す図、図7は、図2の分類リスト取得部で分類された電子化文書のカテゴリの一覧よりなる分類リストの例を示す表、図8は、図2の分類リスト取得部で分類されていない電子化文書のカテゴリの一覧よりなる分類リストの例を示す表、図9は、図1の文書分類装置における、電子化文書に対する分類カテゴリおよび候補カテゴリを示す図、図10は、図1の文書分類装置における、候補カテゴリから変更カテゴリを選択する状態を示す図、図11は、図1の文書分類装置における、候補カテゴリから選択された変更カテゴリの表示状態を示す図である。 1 is an overall block diagram showing a first embodiment of a document classification apparatus according to the present invention, FIG. 2 is a functional block diagram of the document classification apparatus of FIG. 1, and FIG. 3 is implemented by the document classification apparatus of FIG. FIG. 4 is a diagram illustrating an example of categories set by the document classification apparatus in FIG. 1, and FIG. 5 is a flowchart of a document acquired from a document database in the document classification apparatus in FIG. FIG. 6 is a diagram showing examples of documents and classification categories in the classification result of the document classification apparatus in FIG. 1. FIG. 7 is a diagram showing categories of digitized documents classified by the classification list acquisition unit in FIG. FIG. 8 is a table showing an example of a classification list composed of a list. FIG. 8 is a table showing an example of a classification list composed of a list of categories of digitized documents not classified by the classification list acquisition unit of FIG. For computerized document classification devices, FIG. 10 is a diagram illustrating a state in which a change category is selected from the candidate categories in the document classification apparatus in FIG. 1, and FIG. 11 is a diagram from the candidate categories in the document classification apparatus in FIG. It is a figure which shows the display state of the selected change category.
図1において、文書分類装置は文書分類処理のための演算、論理判断等を行なうとともに、文書分類表示手段として動作するCPU(マイクロプロセッサ)100を有し、CPU100はバスBを介して、ROM110、RAM120、入力装置130、表示装置140、スキャナ150、HD(ハードディスク)160、外部記憶装置170および通信装置180に接続されている。 In FIG. 1, the document classification apparatus has a CPU (microprocessor) 100 that performs operations for document classification processing, logical determination, and the like, and operates as document classification display means. The RAM 120, the input device 130, the display device 140, the scanner 150, the HD (hard disk) 160, the external storage device 170, and the communication device 180 are connected.
バスBには、アドレス信号ラインおよびコントロール信号ラインが含まれ、CPU100が各構成要素を制御する際のアドレス指定および制御内容指定を行い、また、各構成要素間のデータ転送を行なう。
The bus B includes an address signal line and a control signal line, and performs address designation and control content designation when the
RAM120は、書込み可能なランダムアクセスメモリであって、各構成要素の各種データの一次記憶に使用される。 The RAM 120 is a writable random access memory, and is used for primary storage of various data of each component.
ROM110は、読出し専用の固定メモリであり、CPU100によるブートプログラム等が記憶されている。ブートプログラムは文書分類装置の起動時にHD160に記憶された制御プログラム162をRAM120にロードし、CPU100によって実行させる。文書分類処理を実行するための制御プログラムについては、図3のフローチャートを参照して詳述する。
The
入力装置130はキーボード、マウス等であり、表示装置140はCRT、液晶ディスプレイ等であり、スキャナ150は紙等のシートに記録された文書を読み込んで文字認識などを行なってテキストデータを抽出する。 The input device 130 is a keyboard, a mouse, and the like, the display device 140 is a CRT, a liquid crystal display, and the like. The scanner 150 reads a document recorded on a sheet such as paper, performs character recognition, and extracts text data.
HD160には制御プログラム162の他に、電子的に作成された電子化文書を記憶した文書データベース164、文書を分類するための分類情報を記憶した分類辞書166が格納されている。
In addition to the control program 162, the HD 160 stores a document database 164 that stores electronically created electronic documents, and a
外部記憶装置170はフロップーディスク、CD、DVD等のリムーバブル外部記憶媒体にアクセスするためのドライブ等であり、HD160と同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換が可能である。なお、必要に応じて、HD160に記憶すべき制御プログラム162を外部記憶装置からコピーしてもよい。 The external storage device 170 is a drive for accessing a removable external storage medium such as a floppy disk, CD, DVD, etc., and can be used in the same manner as the HD 160. Data exchange with other document processing apparatuses can be performed through these recording media. Is possible. If necessary, the control program 162 to be stored in the HD 160 may be copied from the external storage device.
通信装置180はネットワークコントローラであり、通信回線を介して外部とのデータ交換を行なう。 The communication device 180 is a network controller and exchanges data with the outside via a communication line.
文書分類装置は、入力装置130からの各種の入力に応じて作動し、入力装置130からの入力が開始されると、まずインタラプト信号がマイクロプロセッサCPU100に送られる。CPU100は、インタラプト信号に呼応して、ROM120またはRAM110内に記憶される各種命令を読み出し、その実行によって構成要素の各種制御が行なわれる。
The document classification device operates in response to various inputs from the input device 130. When input from the input device 130 is started, an interrupt signal is first sent to the microprocessor CPU100. The
図2において、文書分類装置は以下の機能ブロックで示される構成を有する。 In FIG. 2, the document classification apparatus has a configuration indicated by the following functional blocks.
文書分類装置は、文書記憶部202、カテゴリ設定部203、文書分類部204、分類結果記憶部205、分類リスト取得部206、候補リスト取得部207、リスト表示部208、変更カテゴリ選択部209、変更結果記憶部210の機能ブロックを含む。
The document classification device includes a
文書記憶部202は図1の文書データベース164に対応し、電子化文書DDを記憶する。
The
カテゴリ設定部203および文書分類部204はCPU100および分類辞書166に対応し、分類結果記憶部205はRAM120に対応し、分類リスト取得部206、候補リスト取得部207、変更カテゴリ選択部209および変更結果記憶部210はCPU100およびRAM120に対応し、リスト表示部208は表示装置140に対応する。
The
カテゴリ設定部203は、電子化文書DDを分類するためのカテゴリを設定し、文書分類部204は、電子化文書DDをカテゴリ設定部203で設定されたカテゴリに分類する。
The category setting
分類結果記憶部205は、文書分類部204で分類された電子化文書DDのカテゴリを記憶し、分類リスト取得部206は、文書分類部204で分類された電子化文書DDのカテゴリの一覧リストを取得する。
The classification
候補リスト取得部207は、文書分類部204では分類されていない電子化文書DDのカテゴリの一覧リストを取得し、リスト表示部208は、分類リストCLLおよび候補リストCDLの内容を表示する。
The candidate
変更カテゴリ選択部209は、電子化文書DDについて、候補リスト取得部207で取得され、リスト表示部208に表示されたカテゴリの候補リストCDLにおいて、変更カテゴリを選択する。
The change
変更結果記憶部210は、変更カテゴリ選択部209で変更された、電子化文書DDのカテゴリを記憶する。
The change result storage unit 210 stores the category of the digitized document DD changed by the change
分類リストCLLは、文書分類部4で分類された電子化文書DDのカテゴリを、分類リスト取得部206で一覧リストとしたものであり、候補リストCDLは、候補リスト取得部207で取得されたカテゴリ候補のリストである。
The classification list CLL is the category of the digitized document DD classified by the
図3において、文書分類装置は、以下のステップよりなる文書分類方法により、文書分類の処理を実行する。 In FIG. 3, the document classification apparatus executes document classification processing by a document classification method including the following steps.
ステップS301:HD160の文書データベース164で電子化文書DDを分類するためのカテゴリをカテゴリ設定部203で設定する。このとき、表示装置140には図4の画面が表示され、例えば、“政治”、“経済”、“社会”、“スポーツ”等のカテゴリを設定する。画面にはこれらのカテゴリを表示する表示ボックス400、カテゴリを作成するための「作成」ボタン401、作成したカテゴリを確定するための「実行」ボタン402、カテゴリ作成を中止するための「中止」ボタン403が設けられる。
Step S301: The category setting
ステップS302:ステップS301に続いて、文書記憶部2(文書データベース164)から、記憶されている電子化文書DD、例えば、電子化文書「円相場」DD501、電子化文書「補正予算」DD502、電子化文書「サッカー」DD503を取得する。 Step S302: Subsequent to step S301, from the document storage unit 2 (document database 164), the stored electronic document DD, for example, the electronic document “circle market” DD501, the electronic document “corrected budget” DD502, electronic The document “soccer” DD503 is acquired.
ステップS303:ステップS302で取得された電子化文書DD501〜DD503を、文書分類部204によって、ステップS301で設定されたカテゴリで分類し、分類結果を表示装置140の画面に表示する。例えば、図6の画面イメージに示すように、電子化文書「補正予算」はカテゴリ“政治”に分類され、電子化文書「円相場」はカテゴリ“経済”に分類され、電子化文書「サッカー」はカテゴリ“スポーツ”に分類されたものとする。画面にはユーザが分類結果を確認する「OK」ボタン601が設けられる。
Step S303: The digitized documents DD501 to DD503 acquired in step S302 are classified by the
ステップS304:ステップS303の分類結果における、電子化文書DD501〜DD503および各分類カテゴリを分類結果記憶部205で記憶する。
Step S304: The computerized documents DD501 to DD503 and each classification category in the classification result of step S303 are stored in the classification
ステップS305:ステップS303で分類された電子化文書DD501〜DD503のカテゴリの一覧リストを、分類リスト取得部6によって取得する。例えば、図7の表に示すように、電子化文書DD501の文書名「円相場」と対応する分類カテゴリ「経済」、電子化文書DD502の文書名「補正予算」と対応する分類カテゴリ「政治」、電子化文書DD503の文書名「サッカー」に対応する分類カテゴリ名「スポーツ」を取得する。
Step S305: The classification
ステップS306:ステップS303で分類カテゴリとして採用されなかったカテゴリを、候補リスト取得部207によって、採用されなかった候補カテゴリとして取得し、一覧リストを生成する。例えば、文書分類部204によって分類されたときに、文書「円相場」に対しては「経済」と「政治」が候補カテゴリとなり、文書「補正予算」には「政治」が候補カテゴリとなり、文書「サッカー」には「スポーツ」と「社会」と「政治」とが候補カテゴリになっていたものとし、ステップS303ではそれぞれの第1候補が選択されていたものとする。この場合、図8に示すように、電子化文書DD501の文書名「円相場」に対して、採用されなかった候補カテゴリ「政治」を取得し、電子化文書DD502の文書名「サッカー」に対応して、採用されなかった候補カテゴリ「社会」および「政治」を取得する。一方、電子化文書DD503「補正予算」には唯一の分類カテゴリ「政治」が抽出されているので、候補カテゴリは存在しない。
Step S306: The category that has not been adopted as the classification category in Step S303 is obtained as a candidate category that has not been adopted by the candidate
ステップS307:ステップS305で取得したカテゴリの分類リスト(図7)およびステップS306で取得したカテゴリの候補リスト(図8)の内容を、リスト表示部208によって、表示装置140に表示する。例えば、図9に示すように、電子化文書「サッカー」DD503については、分類リストの分類カテゴリ「スポーツ」901に属するとして、文書名表示902が表示され、更に、文書「サッカー」902がユーザにより指定されると、文書「サッカー」の分類時に採用されなかった候補カテゴリ「社会」、「政治」903が候補リストに基づいて画面表示される。
Step S307: The contents of the category classification list (FIG. 7) acquired in step S305 and the category candidate list (FIG. 8) acquired in step S306 are displayed on the display device 140 by the
図9の画面には、「OK」ボタン904が設けられ、その時点のカテゴリを採用する場合には、ユーザは「OK」ボタン904を押す。
The screen of FIG. 9 is provided with an “OK”
ステップS308: 候補カテゴリ903のいずれかのラジオボタンが押下された場合、カテゴリを変更すると判断し、ステップS309に進む。カテゴリを変更しない場合はそのまま処理を終了する。 Step S308: If any radio button of the candidate category 903 is pressed, it is determined that the category is to be changed, and the process proceeds to step S309. If the category is not changed, the process is terminated as it is.
ステップS309:候補カテゴリのラジオボタンが押下された後、「OK」ボタンが押下されたとき、押下されているラジオボタンに対応する候補カテゴリを判別して変更処理を実行する。例えば、図9のように、文書「サッカー」がカーソル等で指定されて、その候補カテゴリを表示しているときに、図10に示すように、いずれかの候補カテゴリ(例えば「社会」)のラジオボタンがユーザにより選択指定されて、「OK」ボタン1003が押下されると、当該選択されている候補カテゴリ「社会」を識別して変更処理を実行する。
Step S309: When the “OK” button is pressed after the candidate category radio button is pressed, the candidate category corresponding to the pressed radio button is determined and the change process is executed. For example, as shown in FIG. 9, when the document “soccer” is designated by a cursor or the like and the candidate category is displayed, as shown in FIG. 10, any candidate category (for example, “society”) is displayed. When the radio button is selected and designated by the user and the “OK”
ステップS310では、ステップS309で変更された電子化文書1のカテゴリを変更結果記憶部12で記憶する(分類リストおよび候補リストが更新される)。この後、ステップS305〜307に戻って、変更後のカテゴリに従った表示が行なわれ、例えば、図11に示すように電子化文書「サッカー」DD503のカテゴリは「スポーツ」から「社会」に変更されて表示されることになる。
In step S310, the category of the digitized
次に、図1の文書分類装置によって実施される文書分類方法の実施例2を図面に基づいて説明する。 Next, a second embodiment of the document classification method performed by the document classification apparatus of FIG. 1 will be described based on the drawings.
図16は、各カテゴリが使用された頻度を示す頻度リストである。 FIG. 16 is a frequency list showing the frequency with which each category is used.
実施例2では電子化文書について、各カテゴリの使用頻度に基づいて分類及びリスト表示を行なう。 In the second embodiment, an electronic document is classified and displayed as a list based on the usage frequency of each category.
また、実施例2では、図3のステップS303〜S307、S310における処理が実施例1と異なる。 In the second embodiment, the processes in steps S303 to S307 and S310 in FIG.
以下、実施例2について、実施例1と異なる処理について説明する。 Hereinafter, processing different from that in the first embodiment will be described in the second embodiment.
実施例2では、図3のステップS303において文書分類を行なう際に、入力された電子文書について候補カテゴリを求め、頻度リストに記載されている各カテゴリの使用頻度順にしたがって、その求めた候補カテゴリを使用頻度の高い順に並べる。そして、第1位のカテゴリを該電子文書の分類カテゴリとしてステップS304で記憶し、また、採用されなかった候補カテゴリをステップS306で候補リストとして取得する。 In the second embodiment, when performing document classification in step S303 in FIG. 3, candidate categories are obtained for the input electronic document, and the obtained candidate categories are determined according to the frequency of use of each category described in the frequency list. Arrange in order of frequency of use. Then, the first category is stored as a classification category of the electronic document in step S304, and candidate categories that have not been adopted are acquired as a candidate list in step S306.
また、ステップS307で、候補カテゴリの表示が指示された場合は、ステップS306で取得した候補リストにしたがって、使用頻度順に候補カテゴリを表示する。 If the display of candidate categories is instructed in step S307, the candidate categories are displayed in order of use frequency according to the candidate list acquired in step S306.
また、カテゴリの変更が行なわれた場合は、ステップS310において、カテゴリを更新するとともに、当該選択されたカテゴリが使用されたとして、頻度リストを更新する。 If the category is changed, in step S310, the category is updated, and the frequency list is updated assuming that the selected category is used.
次に、図1の文書分類装置によって実施される文書分類方法の実施例3を図面に基づいて説明する。 Next, a third embodiment of the document classification method performed by the document classification apparatus in FIG. 1 will be described with reference to the drawings.
本実施例3では、分類に用いられるカテゴリを50音順にならべた五十音リストを使用する。 In the third embodiment, a Japanese syllabary list in which categories used for classification are arranged in the order of 50 tones is used.
そして、ステップS305で分類リストを取得する際、及び、ステップS306で候補リストを取得する際に、五十音リストに基づき50音順にカテゴリを並べて取得する。 Then, when the classification list is acquired in step S305 and when the candidate list is acquired in step S306, the categories are arranged in the order of 50 tones based on the Japanese syllabary list.
そして、図9〜11に示されるような、分類リストを表示する際、及び、候補リストを表示する際に、五十音順でカテゴリが表示されるようにする。 Then, when displaying the classification list as shown in FIGS. 9 to 11 and when displaying the candidate list, the categories are displayed in alphabetical order.
次に、図1の文書分類装置によって実施される文書分類方法の実施例4を図面に基づいて説明する。 Next, a fourth embodiment of the document classification method performed by the document classification apparatus in FIG. 1 will be described with reference to the drawings.
実施例4では、分類リストの内容と候補リストの内容とを表示する際、分類リストとしての分類カテゴリと、候補リスト中の候補カテゴリとを明確に区別できるようにするために、分類カテゴリと候補カテゴリとで表示色を変えて表示する。なお、表示色の代わりにフォントやフォントサイズ等を変えて表示するようにしても良い。 In the fourth embodiment, when displaying the contents of the classification list and the contents of the candidate list, in order to clearly distinguish the classification category as the classification list and the candidate category in the candidate list, the classification category and the candidate Change the display color for each category. It should be noted that instead of the display color, the font or font size may be changed for display.
次に、図1の文書分類装置によって実施される文書分類方法の実施例5を図面に基づいて説明する。 Next, a fifth embodiment of the document classification method performed by the document classification apparatus in FIG. 1 will be described with reference to the drawings.
図12は、本発明に係る文書分類装置の実施例5を示す機能ブロック図、図13は、図12の文書分類装置で実施される文書分類方法の実施例5を示すフローチャート、図14は、図13の処理における最大カテゴリ数設定画面を示す図、図15は、図13の処理における、最大カテゴリ数と、分類リストおよび候補リストの関係を示す図である。図中、実施例1と同一もしくは相当部分には同一符号を付し、説明を省略する。 12 is a functional block diagram showing a fifth embodiment of the document classification apparatus according to the present invention, FIG. 13 is a flowchart showing a fifth embodiment of the document classification method implemented by the document classification apparatus of FIG. 12, and FIG. FIG. 15 is a diagram showing a maximum category number setting screen in the processing of FIG. 13, and FIG. 15 is a diagram showing the relationship between the maximum number of categories and the classification list and candidate list in the processing of FIG. In the figure, the same or corresponding parts as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
実施例5は、1つの電子化文書を複数のカテゴリに分類することを可能とし、また、1つの文書を分類可能な最大カテゴリ数を予め設定する。 In the fifth embodiment, one electronic document can be classified into a plurality of categories, and the maximum number of categories into which one document can be classified is set in advance.
図12において、実施例5は実施例1の構成に加えて、カテゴリ数設定部1200を有する。
In FIG. 12, the fifth embodiment includes a category
電子化文書DDは、最大カテゴリ数設定部1200で設定された最大カテゴリ数に基づいて、文書分類部205において分類される。
The digitized document DD is classified by the
文書分類部205以下の処理は実施例1と同様である。
The processing after the
図13において、ステップS1301、S1305、S1308〜S13011は、実施例1のステップS301、S304、S1307〜S310に対応しており、実施例5では、ステップS1302を付加した点およびステップS1304、S1306、S1307の内容が実施例1と大きく異なる。 In FIG. 13, steps S1301, S1305, and S1308 to S13011 correspond to steps S301, S304, and S1307 to S310 of the first embodiment. In the fifth embodiment, steps S1302, S1306, and S1307 are added. The contents of are significantly different from those of the first embodiment.
以下、図13のステップS1302、S1304、S1306、S1307のみを説明し、他のステップについては説明を省略する。 Hereinafter, only steps S1302, S1304, S1306, and S1307 in FIG. 13 will be described, and description of other steps will be omitted.
ステップS1302:電子化文書DDを分類する最大カテゴリ数をカテゴリ数設定部1200で設定する。
Step S1302: The category
最大カテゴリ数設定に際しては、表示装置140によって例えば図14の画面が表示される。 When setting the maximum number of categories, for example, the screen of FIG.
同画面には、最大カテゴリ数入力ボックス1400、「実行」ボタン1401、「中止」ボタン1402が設けられ、キーボード等の入力装置130によって最大カテゴリ数入力ボックス1400に、最大カテゴリ数(図では「10」が入力されている。)を入力する。 On the same screen, a maximum category number input box 1400, an “execute” button 1401, and a “stop” button 1402 are provided, and the maximum category number (“10” in the figure) is displayed in the maximum category number input box 1400 by an input device 130 such as a keyboard. ”Is entered.)
入力された最大カテゴリ数をそのまま採用する場合には「実行」ボタン1401を押すことによって、最大カテゴリ数が確定する。また一旦入力された最大カテゴリ数を変更するときは、「中止」ボタン1402を押す。 When the inputted maximum category number is adopted as it is, the “execution” button 1401 is pressed to determine the maximum category number. When the maximum number of categories once input is changed, a “stop” button 1402 is pressed.
ステップS1304:ステップS1303で取得された電子化文書を、文書分類部204によって、ステップS1301で設定されたカテゴリで分類する。この際、ステップS1302で設定された電子化文書を分類する最大カテゴリ数の範囲内で分類カテゴリを選択する。
Step S1304: The computerized document acquired in step S1303 is classified by the
ステップS1305:ステップ1304で分類された結果をリストに記憶する。
Step S1305: The results classified in
ステップS1306:ユーザにより文書のいずれかが指定されると、当該指定された電子化文書のカテゴリの分類リストを分類リスト取得部107で取得する。 Step S1306: When any of the documents is designated by the user, the classification list acquisition unit 107 acquires a classification list of the category of the specified digitized document.
ステップS1307:ステップS1304で分類カテゴリとして採用されなかったカテゴリを、候補リスト取得部207によって、採用されなかった候補カテゴリとして取得し、分類リストと候補リストとを含む一覧リストを生成する。この採用されなかった候補カテゴリは、ステップS1302で設定された最大カテゴリ数より順位の低い候補カテゴリである。
Step S1307: The category not adopted as the classification category in step S1304 is obtained as a candidate category not adopted by the candidate
図15において、例えば最大カテゴリ数を「3」に設定したとし、電子化文書「リサイクル」について分類を行なった際、候補カテゴリとして“行政一般”、“環境”、“政治”、“スポーツ”、“社会”の5つが抽出されたとする。このとき、最大カテゴリ数が3なので、分類カテゴリとして、“行政一般”、“環境”、“政治”の上位3つのカテゴリが抽出され、採用されなかった候補カテゴリとして“スポーツ”、“社会”のカテゴリが抽出されることになる。 In FIG. 15, for example, when the maximum number of categories is set to “3”, and classification is performed on the electronic document “recycle”, “administrative general”, “environment”, “politics”, “sports”, Suppose five of “Society” are extracted. At this time, since the maximum number of categories is 3, the top three categories of “administrative general”, “environment”, and “politics” are extracted as classification categories, and “sports” and “society” are not adopted as candidate categories. Categories will be extracted.
例えば、図17は、最大分類数が2と設定されているとき、入力された文書「サッカー」が、カテゴリ「スポーツ」と「政治」とに分類され、分類カテゴリ「スポーツ」に属する文書「サッカー」がユーザにより指定された場合に、ステップS1308にて一覧リストが表示された際の表示画面である。チェックボックスが黒く反転しているカテゴリが、分類カテゴリであり、チェックボックスが空白のカテゴリが候補カテゴリである。このとき、図18のように、カテゴリ「社会」が指定されると、最大カテゴリ数を越えてしまうので、当該指定された文書のカテゴリ「スポーツ」をターンオフする。このように最大カテゴリ数を越えないように制御される。図18の画面でOKボタンが押下されると、当該文書の属するカテゴリが変更され、図19に示すように「社会」と「政治」のカテゴリに属するとして表示される。 For example, FIG. 17 shows that when the maximum classification number is set to 2, the input document “soccer” is classified into the categories “sports” and “politics”, and the document “soccer” belonging to the classification category “sports”. "Is a display screen when a list is displayed in step S1308. A category whose check box is inverted in black is a classification category, and a category whose check box is blank is a candidate category. At this time, as shown in FIG. 18, when the category “society” is designated, the maximum number of categories is exceeded, so the category “sports” of the designated document is turned off. In this way, control is performed so as not to exceed the maximum number of categories. When the OK button is pressed on the screen of FIG. 18, the category to which the document belongs is changed and displayed as belonging to the categories of “society” and “politics” as shown in FIG.
このように構成することにより、1つの文書を複数のカテゴリに分類することが可能となり、また、分類する分類カテゴリの最大数をユーザが調整することが可能となる。 With this configuration, it is possible to classify one document into a plurality of categories, and the user can adjust the maximum number of classification categories to be classified.
202 文書記憶部
203 カテゴリ設定部
204 文書分類部
205 分類結果記憶部
206 分類リスト取得部
207 候補リスト取得部
208 リスト表示部
209 変更カテゴリ選択部
210 変更結果記憶部
CLL 分類リスト
CDL 候補リスト
DD 電子化文書
202
Claims (14)
前記分類手段によって該電子文書を分類する際に候補となったカテゴリを候補リストとして取得する候補カテゴリリスト取得手段と、
前記分類手段によって分類された複数の電子文書を、各電子文書が分類されたカテゴリを判別できるようにして一覧表示する表示手段と、
前記一覧表示された複数の電子文書の中からユーザ所望の電子文書が修正指示された場合、前記表示手段で表示されている複数の電子文書の一覧を表示したまま、当該指示された電子文書の候補カテゴリリストを表示するように制御する表示制御手段と、
前記候補カテゴリリストの中から選択されたカテゴリに基づいて、当該指示された電子文書の分類されているカテゴリを修正する修正手段と、
を備えることを特徴とする文書分類装置。 A classification means for classifying the input electronic document into categories,
Candidate category list acquisition means for acquiring, as a candidate list, categories that are candidates when the electronic document is classified by the classification means;
Display means for displaying a list of the plurality of electronic documents classified by the classification means so that the category into which each electronic document is classified can be determined;
When a user's desired electronic document is instructed to be corrected from among the plurality of displayed electronic documents, the list of the plurality of electronic documents displayed on the display means is displayed and Display control means for controlling to display a candidate category list;
Correcting means for correcting the classified category of the instructed electronic document based on the category selected from the candidate category list;
A document classification apparatus comprising:
前記分類ステップによって該電子文書を分類する際に候補となったカテゴリを候補リストとして取得する候補カテゴリリスト取得ステップと、
前記分類ステップによって分類された複数の電子文書を、各電子文書が分類されたカテゴリを判別できるようにして一覧表示する表示ステップと、
前記一覧表示された複数の電子文書の中からユーザ所望の電子文書が修正指示された場合、前記表示ステップで表示されている複数の電子文書の一覧を表示したまま、当該指示された電子文書の候補カテゴリリストを表示するように制御する表示制御ステップと、
前記候補カテゴリリストの中から選択されたカテゴリに基づいて、当該指示された電子文書の分類されているカテゴリを修正する修正ステップと、
を備えることを特徴とする文書分類方法。 A classification step for classifying the input electronic document into categories,
A candidate category list obtaining step for obtaining a candidate list as a candidate list when the electronic document is classified by the classification step;
A display step of displaying a list of the plurality of electronic documents classified by the classification step so that each electronic document can be classified.
When a user-desired electronic document is instructed to be corrected from among the plurality of electronic documents displayed in the list, the list of the plurality of electronic documents displayed in the display step is displayed and the specified electronic document is displayed. A display control step for controlling to display a candidate category list;
A correction step of correcting a classified category of the designated electronic document based on a category selected from the candidate category list;
A document classification method comprising:
A storage medium for storing a computer-readable program for realizing the document classification method according to claim 7 by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003417901A JP4464122B2 (en) | 2003-12-16 | 2003-12-16 | Document classification apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003417901A JP4464122B2 (en) | 2003-12-16 | 2003-12-16 | Document classification apparatus and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005182133A true JP2005182133A (en) | 2005-07-07 |
JP4464122B2 JP4464122B2 (en) | 2010-05-19 |
Family
ID=34780259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003417901A Expired - Fee Related JP4464122B2 (en) | 2003-12-16 | 2003-12-16 | Document classification apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4464122B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242880A (en) * | 2007-03-28 | 2008-10-09 | Kenwood Corp | Content display system, content display method and onboard information terminal device |
JP2011513810A (en) * | 2008-02-20 | 2011-04-28 | アイティーアイ・スコットランド・リミテッド | Term identification method and apparatus |
-
2003
- 2003-12-16 JP JP2003417901A patent/JP4464122B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242880A (en) * | 2007-03-28 | 2008-10-09 | Kenwood Corp | Content display system, content display method and onboard information terminal device |
JP2011513810A (en) * | 2008-02-20 | 2011-04-28 | アイティーアイ・スコットランド・リミテッド | Term identification method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP4464122B2 (en) | 2010-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7617461B2 (en) | Information processing device, information processing method, program, and storage medium | |
JP2004355392A (en) | Device and method for autonomously optimizing screen, recording medium, and program | |
JP2009152818A (en) | Method for setting output image including image processing information and program for controlling setting | |
CN104915093B (en) | Image display device, image display system and method for displaying image | |
EP0475744A2 (en) | Method of obtaining functions by using pictorial symbols | |
US7346673B1 (en) | Method and apparatus for selecting a device and a computer product | |
US8345304B2 (en) | Image processing apparatus, image processing method, and image processing control program capable of processing document data | |
US20150186460A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP4464122B2 (en) | Document classification apparatus and computer program | |
US10275144B2 (en) | Information processing device and information processing method | |
JP4408108B2 (en) | Setting screen display control device, setting screen display control method, setting screen display control program, and recording medium | |
JP2016007724A (en) | Job processor and controlling method for the same | |
US20070002339A1 (en) | Image processing apparatus and image processing method | |
US20060209311A1 (en) | Image processing apparatus and image processing method | |
JP5092713B2 (en) | Information processing program and information processing apparatus | |
JP2020166387A (en) | Printer driver and recording medium | |
JP7379947B2 (en) | Information processing device and program | |
JP3508446B2 (en) | Function instruction method | |
JP2018032249A (en) | Processing apparatus and program | |
US20090241063A1 (en) | Information processing apparatus, information processing method, and computer readable medium for designing a gui | |
JPH10187425A (en) | User interface screen generation support device | |
JP2021073584A (en) | Processing device | |
JP2021149113A (en) | Information processing apparatus and program | |
JP2015041228A (en) | Data processing apparatus, image forming system, and computer program | |
JP2021149116A (en) | Information processing apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060606 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091109 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100218 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140226 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |