JP5936051B2 - Document processing apparatus and program - Google Patents

Document processing apparatus and program Download PDF

Info

Publication number
JP5936051B2
JP5936051B2 JP2012123056A JP2012123056A JP5936051B2 JP 5936051 B2 JP5936051 B2 JP 5936051B2 JP 2012123056 A JP2012123056 A JP 2012123056A JP 2012123056 A JP2012123056 A JP 2012123056A JP 5936051 B2 JP5936051 B2 JP 5936051B2
Authority
JP
Japan
Prior art keywords
rule
document
classification
unit
classification rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012123056A
Other languages
Japanese (ja)
Other versions
JP2013251610A (en
Inventor
真太郎 安達
真太郎 安達
洋実 北
洋実 北
勝也 小柳
勝也 小柳
清水 淳一
淳一 清水
臻瑞 張
臻瑞 張
徹也 脇山
徹也 脇山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2012123056A priority Critical patent/JP5936051B2/en
Publication of JP2013251610A publication Critical patent/JP2013251610A/en
Application granted granted Critical
Publication of JP5936051B2 publication Critical patent/JP5936051B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Facsimiles In General (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

本発明は、文書処理装置及びプログラムに関する。   The present invention relates to a document processing apparatus and a program.

特許文献1は、帳票の辞書登録操作においてオペレータの作業量を低減し、帳票の識別操作において高精度な識別を実現するシステムを提供するために、スキャナから読んだ帳票のディジタル画像を帳票の傾き補正と帳票周囲の余白除去を行った上で画像メモリに格納する画像入力部と、画像メモリにあるディジタル画像から帳票のサイズを検出すると共に文字パターンを文字列単位で検出して文字列単位で特徴量へ変換して特徴メモリに保持する特徴抽出部と、入力する帳票のフォーマットを登録する場合には特徴メモリにある複数組みの文字列の特徴量から各組共通の特徴量を抽出して辞書メモリに登録する共通特徴抽出部と、入力する帳票のフォーマットの識別を行う場合には特徴メモリにある処理対照の帳票の文字列の特徴量と辞書メモリにある帳票毎の文字列の特徴量とを照合する照合部とを有する構成について開示している。   Patent Document 1 discloses that a digital image of a form read from a scanner is tilted in order to reduce the amount of work for an operator in a form dictionary registration operation and to provide a system that realizes highly accurate identification in a form identification operation. After correcting and removing the margins around the form, the image input unit stores it in the image memory, and detects the size of the form from the digital image in the image memory and also detects the character pattern in character string units. When registering the feature extraction unit that converts to feature values and stores them in the feature memory, and when registering the format of the form to be input, the feature values common to each set are extracted from the feature values of multiple sets of character strings in the feature memory. If the common feature extraction unit to be registered in the dictionary memory and the format of the input form are identified, the feature amount and dictionary of the character string of the processing form in the feature memory It discloses a structure and a collation unit that collates the feature amount of a character string for each document in the memory.

特許文献2は、入力画像データと登録画像との類似性を判定する画像処理装置において、入力画像データに対する処理内容の設定操作に関するユーザの負担を軽減するために、次のような画像処理装置を開示している。   Patent Document 2 discloses an image processing apparatus that determines the similarity between input image data and a registered image, in order to reduce the burden on the user regarding the setting operation of processing contents for input image data. Disclosure.

登録画像の識別情報と当該登録画像に類似していると判定された入力画像データに対してユーザによらず共通に適用する共通処理ルールをサーバー装置に記憶させておく。登録画像に類似していると判定された入力画像データに対して適用する処理内容をユーザ毎に設定した個別処理ルールと上記共通処理ルールとを統合した統合処理ルールをカードに記憶させておく。そして、統合処理情報のバージョンと共通処理情報のバージョンとが一致する場合には入力画像データに対して類似していると判定された登録画像に対応する統合処理情報に基づく処理を行い、一致しない場合には入力画像データに対して統合処理情報に基づく処理を行わない。   A common processing rule that is commonly applied to input image data determined to be similar to the registered image identification information and the registered image is stored in the server device. An integrated processing rule obtained by integrating the individual processing rule set for each user with the processing content to be applied to the input image data determined to be similar to the registered image and the common processing rule is stored in the card. If the version of the integrated processing information matches the version of the common processing information, the processing based on the integrated processing information corresponding to the registered image determined to be similar to the input image data is performed, and does not match In this case, the processing based on the integrated processing information is not performed on the input image data.

特開2002−288675号公報JP 2002-288675 A 特開2009-88712号公報JP 2009-88712 A

本発明の目的は、分類規則に従って文書を分類する処理を高速に行なうことができる文書処理装置及びプログラムを提供することである。   An object of the present invention is to provide a document processing apparatus and program capable of performing a process of classifying a document according to a classification rule at high speed.

[文書処理装置]
請求項1に係る本発明は、第1の規則と該第1の規則に適用する第2の規則との組合せを、文書を分類する分類規則として登録する分類規則登録手段と、前記分類規則登録手段により登録された異なる複数の分類規則について、該異なる複数の分類規則間で重複する内容を排除して統合する分類規則統合手段とを有する文書処理装置である。
[Document Processing Device]
According to a first aspect of the present invention, there is provided a classification rule registration means for registering a combination of a first rule and a second rule applied to the first rule as a classification rule for classifying documents, and the classification rule registration. The document processing apparatus includes a classification rule integration unit that integrates the plurality of different classification rules registered by the unit by excluding contents overlapping between the plurality of different classification rules.

請求項2に係る本発明は、前記分類規則登録手段は、文書の特徴のうち文書の分類に用いられるものを定義する第1の規則と、第1の規則で定義された文書の特徴に対して適用する論理を定義する第2の規則との組み合わせを分類規則として登録し、前記分類規則統合手段は、第1の規則に定義された文書の特徴についての重複を排除して分類規則を統合する請求項1記載の文書処理装置である。   The present invention according to claim 2 is characterized in that the classification rule registering means has a first rule defining what is used for document classification among document features, and a document feature defined by the first rule. The combination with the second rule that defines the logic to be applied is registered as a classification rule, and the classification rule integration means integrates the classification rule by eliminating duplication of the document features defined in the first rule. The document processing apparatus according to claim 1.

請求項3に係る本発明は、前記分類規則登録手段は、文書に含まれる文字、写真、図形、表又は符号化物を文書の分類に用いられる文書の特徴として定義する規則を第1の規則とする請求項2記載の文書処理装置である。   The present invention according to claim 3 is characterized in that the classification rule registration means defines a rule defining a character, a photograph, a figure, a table or an encoded product included in a document as a feature of the document used for classification of the document as the first rule. The document processing apparatus according to claim 2.

請求項4に係る本発明は、前記分類規則登録手段は、文書に含まれる文字、写真、図形、表又は符号化物のうちいずれか2以上の組合せを文書の分類に用いられる文書の特徴として定義する規則を第1の規則とし、該いずれか2以上の組合せに対して適用する論理を定義する規則を第2の規則とする請求項3記載の文書処理装置である。   The present invention according to claim 4 is characterized in that the classification rule registering means defines a combination of two or more of characters, photos, figures, tables, and encoded products included in the document as document features used for document classification. The document processing apparatus according to claim 3, wherein the first rule is the first rule, and the second rule is a rule that defines a logic to be applied to any two or more combinations.

請求項5に係る本発明は、前記分類規則登録手段は、操作者ごとに個別の分類規則と複数の操作者間で共通の分類規則とを登録する請求項1乃至4いずれか記載の文書処理装置である。   The present invention according to claim 5 is the document processing according to any one of claims 1 to 4, wherein the classification rule registration means registers an individual classification rule and a common classification rule among a plurality of operators for each operator. Device.

請求項6に係る本発明は、文書を受付ける文書受付手段と、前記分類規則登録手段により統合された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段とをさらに有する請求項1乃至5いずれか記載の文書処理装置である。   The present invention according to claim 6 further includes document accepting means for accepting documents, and classification means for classifying the documents accepted by the document accepting means based on the classification rules integrated by the classification rule registering means. The document processing apparatus according to claim 1.

[プログラム]
請求項7に係る本発明は、第1の規則と該第1の規則に適用する第2の規則との組合せを、文書を分類する分類規則として登録するステップと、登録された異なる複数の分類規則について、該異なる複数の分類規則間で重複する内容を排除して統合するステップとをコンピュータに実行させるプログラムである。
[program]
The present invention according to claim 7 includes a step of registering a combination of a first rule and a second rule applied to the first rule as a classification rule for classifying a document, and a plurality of registered different classifications. This is a program for causing a computer to execute a step of eliminating and integrating contents overlapping between the plurality of different classification rules.

請求項1に係る本発明によれば、本構成を有していない場合と比べ、分類規則に従って文書を分類する処理を高速に行なうことができる文書処理装置を提供することができる。   According to the first aspect of the present invention, it is possible to provide a document processing apparatus capable of performing a process of classifying a document according to a classification rule at a high speed as compared with the case where the present configuration is not provided.

請求項2に係る本発明によれば、請求項1に係る発明の効果に加え、文書の特徴のうち所望の特徴に基づいて分類することができる文書処理装置を提供することができる。   According to the second aspect of the present invention, in addition to the effect of the first aspect of the invention, it is possible to provide a document processing apparatus that can classify based on a desired feature among document features.

請求項3に係る本発明によれば、請求項2に係る発明の効果に加え、文字、写真、図形、又は符号化物に基づく文書の分類を行うことができる文書処理装置を提供することができる。   According to the present invention of claim 3, in addition to the effect of the invention of claim 2, it is possible to provide a document processing apparatus capable of classifying documents based on characters, photographs, figures, or encoded products. .

請求項4に係る本発明によれば、請求項3に係る本発明の効果に加え、文字、写真、図形、表又は符号化物についての所望の論理による組合せに基づいて文書の分類を行うことができる文書処理装置を提供することができる。   According to the present invention according to claim 4, in addition to the effect of the present invention according to claim 3, it is possible to classify documents based on a combination of characters, photos, figures, tables or encoded products according to a desired logic. It is possible to provide a document processing apparatus that can be used.

請求項5に係る本発明によれば、請求項1乃至4に係る本発明の効果に加え、複数の操作者間で共通した分類規則による分類と、操作者ごとの所望の分類規則による分類とができる文書処理装置を提供することができる。   According to the present invention of claim 5, in addition to the effects of the present invention of claims 1 to 4, a classification based on a classification rule common to a plurality of operators, a classification based on a desired classification rule for each operator, It is possible to provide a document processing apparatus that can

請求項6に係る本発明によれば、請求項1乃至5に係る本発明の効果に加え、本構成を有していない場合と比べ、受付けた文書を高速に分類することができる文書処理装置を提供することができる。   According to the sixth aspect of the present invention, in addition to the effects of the present invention according to the first to fifth aspects, a document processing apparatus capable of classifying received documents at a higher speed than the case without the present configuration. Can be provided.

請求項7に係る本発明によれば、本構成を有していない場合と比べ、分類規則に従って文書を分類する処理を高速に行なうことができるプログラムを提供することができる。   According to the seventh aspect of the present invention, it is possible to provide a program capable of performing processing for classifying documents according to the classification rules at a higher speed than in the case where the present configuration is not provided.

本発明の実施形態に係る文書処理装置の一例である画像形成装置10を示す断面図である。1 is a cross-sectional view illustrating an image forming apparatus 10 that is an example of a document processing apparatus according to an embodiment of the present invention. 画像形成装置10のハードウェア構成を示すブロック図である。2 is a block diagram illustrating a hardware configuration of the image forming apparatus 10. FIG. 画像形成装置10において動作する情報処理プログラム70を示すブロック図である。3 is a block diagram showing an information processing program 70 that operates in the image forming apparatus 10. FIG. 特徴抽出部76の構成を示すブロック図である。3 is a block diagram illustrating a configuration of a feature extraction unit 76. FIG. 分類規則生成部82により生成される分類規則の一例を示す模式図である。6 is a schematic diagram illustrating an example of a classification rule generated by a classification rule generation unit 82. FIG. 規則雛形格納部84に記憶されているテーブルの一例を示す表である。7 is a table showing an example of a table stored in a rule template storage unit 84. UI装置50に表示される分類規則の登録に係る画面の第1の例を示す平面図である。FIG. 10 is a plan view illustrating a first example of a screen related to classification rule registration displayed on the UI device 50. UI装置50に表示される分類規則の登録に係る画面の第2の例を示す平面図である。10 is a plan view showing a second example of a screen related to registration of classification rules displayed on the UI device 50. FIG. UI装置50に表示される分類規則の登録に係る画面の第3の例を示す平面図である。10 is a plan view showing a third example of a screen related to registration of a classification rule displayed on the UI device 50. FIG. UI装置50に表示される分類規則の登録に係る画面の第4の例を示す平面図である。10 is a plan view illustrating a fourth example of a screen related to registration of classification rules displayed on the UI device 50. FIG. 分類規則格納部92に登録されている、分類規則統合部96による統合前の分類規則の模式図である。FIG. 10 is a schematic diagram of classification rules registered in a classification rule storage unit 92 before integration by a classification rule integration unit 96; 分類規則格納部92に登録されている、分類規則統合部96による統合後の分類規則の模式図である。FIG. 10 is a schematic diagram of classification rules registered in a classification rule storage unit 92 after integration by a classification rule integration unit 96; 分類規則の登録についての動作を示すフローチャートの一例である。It is an example of the flowchart which shows the operation | movement about registration of a classification rule. 文書の分類し、分類に応じた処理を行なう動作を示すフローチャートの一例である。It is an example of the flowchart which shows the operation | movement which classify | categorizes a document and performs the process according to a classification | category. 分類に応じた処理をする際に適用される分類ごとの処理規則の一例を示す表である。It is a table | surface which shows an example of the processing rule for every classification | category applied when processing according to a classification | category.

以下、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る文書処理装置の一例である画像形成装置10を示す断面図である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a cross-sectional view showing an image forming apparatus 10 which is an example of a document processing apparatus according to an embodiment of the present invention.

画像形成装置10は、印刷装置12及び読取装置14を有し、印刷装置12は、例えば3段の記録媒体供給カセット16を有し、これら記録媒体供給カセット16のそれぞれには供給ヘッド18が設けられている。   The image forming apparatus 10 includes a printing device 12 and a reading device 14. The printing device 12 includes, for example, a three-stage recording medium supply cassette 16, and each of these recording medium supply cassettes 16 is provided with a supply head 18. It has been.

記録媒体供給カセット16の一つが選択されると、供給ヘッド18が作動して選択された記録媒体供給カセット16から記録媒体供給路20を介して画像形成部22に供給される。   When one of the recording medium supply cassettes 16 is selected, the supply head 18 is operated to supply the selected recording medium supply cassette 16 to the image forming unit 22 through the recording medium supply path 20.

また、画像形成装置10は、ファクシミリ機能(図示せず)を有してもよい。   Further, the image forming apparatus 10 may have a facsimile function (not shown).

画像形成部22は、イエロー、マゼンタ、シアン及びブラックの各感光体24が併設されていると共に、中間転写ベルト26が設けられている。   The image forming unit 22 is provided with yellow, magenta, cyan, and black photoconductors 24 and an intermediate transfer belt 26.

各感光体24の周囲には、帯電装置、露光装置、現像装置、一次転写装置及びクリーニング装置など(図示せず)が配置され、各感光体24に形成されたトナー像が中間転写ベルト26に転写される。白黒設定された場合は、ブラックのみが作動可能であるようにされる。   A charging device, an exposure device, a developing device, a primary transfer device, a cleaning device, and the like (not shown) are arranged around each photoconductor 24, and a toner image formed on each photoconductor 24 is transferred to the intermediate transfer belt 26. Transcribed. When black and white is set, only black is enabled.

中間転写ベルト26のトナー像は、二次転写ロール28により、送られてきた記録媒体に転写され、定着装置30により定着され、このトナー像が定着された記録媒体が記録媒体排出路32を通って排出部34に排出される。   The toner image on the intermediate transfer belt 26 is transferred to the recording medium sent by the secondary transfer roll 28 and fixed by the fixing device 30. The recording medium on which the toner image is fixed passes through the recording medium discharge path 32. And discharged to the discharge unit 34.

ただし、両面印刷が設定された場合は、定着装置30により表面が定着された記録媒体は、記録媒体排出路32から反転装置36に送られ、この反転装置36で反転され、記録媒体反転路38に送られ、再び記録媒体供給路20に戻され、画像形成部22に送られて裏面の印刷がなされる。   However, when duplex printing is set, the recording medium whose surface has been fixed by the fixing device 30 is sent from the recording medium discharge path 32 to the reversing device 36 and is reversed by the reversing device 36, and the recording medium reversing path 38. Is sent back to the recording medium supply path 20 and sent to the image forming unit 22 to print the back surface.

読取装置14は、両面原稿の読み取りが可能な自動原稿送り装置40を有し、この自動原稿送り装置40により原稿はプラテン42に送られ、このプラテン42上でCCD等からなる読取部44により原稿が読み取られる。また、読取装置14は、操作者によりプラテン42に置かれた原稿を読取部44にて読み取ってもよい。   The reading device 14 includes an automatic document feeder 40 capable of reading a double-sided document. The document is fed to the platen 42 by the automatic document feeder 40, and the document is scanned on the platen 42 by a reading unit 44 composed of a CCD or the like. Is read. The reading device 14 may read a document placed on the platen 42 by the operator using the reading unit 44.

自動原稿送り装置40に原稿がセットされたか否かを検出する原稿セット検出器46が設けられている。また、自動原稿送り装置40はプラテンカバーを兼ねており、このプラテンカバーを開けることにより原稿をプラテン42上に置くことができる。このプラテンカバーの開閉は、プラテンカバー開閉検出器48により検出できるようになっている。   A document set detector 46 for detecting whether or not a document is set on the automatic document feeder 40 is provided. The automatic document feeder 40 also serves as a platen cover, and the document can be placed on the platen 42 by opening the platen cover. The opening / closing of the platen cover can be detected by a platen cover opening / closing detector 48.

読取装置14は、読み取り条件を後述する分類規則生成部82に出力する。ここで、読み取り条件とは、例えば、カラーによる読み取りを行なう設定か、白黒(2階調)による読み取りを行なう設定か、文字のみの原稿用の読み取りを行なう設定か、文字と図形とを含む原稿用の読み取りを行なう設定か、といったように読み取り処理における設定が含まれる。なお、文字とは文字又は文字列をいう。また、読み取り条件には、例えば、自動原稿送り装置40による複数枚の連続する原稿の読み取りがなされたという情報など、読み取った原稿に関わる情報も含まれる。   The reading device 14 outputs the reading conditions to the classification rule generation unit 82 described later. Here, the reading condition is, for example, a setting for reading in color, a setting for reading in black and white (two gradations), a setting for reading only a character document, or a document including characters and figures. The setting in the reading process is included such as whether to set for reading. In addition, a character means a character or a character string. The reading conditions also include information related to the read document, such as information that a plurality of continuous documents have been read by the automatic document feeder 40, for example.

ユーザインターフェース装置50(以下「UI装置50」)は、画像形成装置10と一体に、又はネットワークを介して設けられる。また、UI装置50は、例えばタッチパネルなどからなり、操作者からの画像形成装置10への処理内容についての指示を入力として受け付け、又は情報を表示することができるように構成されている。   The user interface device 50 (hereinafter “UI device 50”) is provided integrally with the image forming apparatus 10 or via a network. Further, the UI device 50 includes, for example, a touch panel, and is configured to accept an instruction about processing content from the operator to the image forming apparatus 10 as an input or display information.

また、この画像形成装置10は、公衆回線へ接続されたファクシミリ用のモデムと、LAN等のネットワークに接続されるネットワーク通信装置が設けられている。画像形成装置10に設けられたネットワーク通信装置を用いることで、読取装置14により読み取った画像をネットワークに接続された端末に送信することができる。また、画像形成装置10は、ネットワーク通信装置を介して、ネットワークに接続された端末からデータを受付ける。   The image forming apparatus 10 is provided with a facsimile modem connected to a public line and a network communication device connected to a network such as a LAN. By using a network communication device provided in the image forming apparatus 10, an image read by the reading device 14 can be transmitted to a terminal connected to the network. In addition, the image forming apparatus 10 receives data from a terminal connected to the network via the network communication apparatus.

図2は、画像形成装置10のハードウェア構成を示すブロック図である。   FIG. 2 is a block diagram illustrating a hardware configuration of the image forming apparatus 10.

図2に示すように、画像形成装置10は、図1のUI装置50とともに、CPU52、メモリ54、入出力インターフェース56、スキャンインターフェース58、プリントインターフェース60、ネットワーク通信インターフェース62、ファクシミリ用のモデムインターフェース64、及び記憶装置66がバス接続された構成となっている。   As shown in FIG. 2, the image forming apparatus 10, along with the UI apparatus 50 of FIG. 1, has a CPU 52, a memory 54, an input / output interface 56, a scan interface 58, a print interface 60, a network communication interface 62, and a facsimile modem interface 64. The storage device 66 is connected by a bus.

つまり、画像形成装置10は、情報処理及び他の装置との通信が可能なコンピュータとしての構成部分を有している。   That is, the image forming apparatus 10 includes a component as a computer capable of information processing and communication with other apparatuses.

CPU52は、メモリ54又は記憶装置66に書き込まれた後述する情報処理プログラム70を実行することにより、各回路を制御する。UI装置50を介して受け付けられた入力はCPU52に伝達され、CPU52からの表示情報がUI装置50に伝達するようにしてある。   The CPU 52 controls each circuit by executing an information processing program 70 described later written in the memory 54 or the storage device 66. Input received via the UI device 50 is transmitted to the CPU 52, and display information from the CPU 52 is transmitted to the UI device 50.

なお、CPU52は、CDROM等の記憶媒体に格納された情報処理プログラム70を実行してもよく、又はネットワーク通信インターフェース62を介して提供される情報処理プログラム70を実行してもよい。   The CPU 52 may execute the information processing program 70 stored in a storage medium such as a CD ROM, or may execute the information processing program 70 provided via the network communication interface 62.

入出力インターフェース56には、図1の原稿セット検出器46からの原稿セット検出信号と、図1のプラテンカバー開閉検出器48からのプラテンカバー開閉信号が入力される。   A document set detection signal from the document set detector 46 in FIG. 1 and a platen cover open / close signal from the platen cover open / close detector 48 in FIG. 1 are input to the input / output interface 56.

スキャンインターフェース58は、図1の読取装置14に接続され、プリントインターフェース60は、図1の印刷装置12に接続されている。   The scan interface 58 is connected to the reading device 14 of FIG. 1, and the print interface 60 is connected to the printing device 12 of FIG.

ネットワーク通信インターフェース62は、画像形成装置10に設けられたネットワーク通信装置に接続され、モデムインターフェース64は、画像形成装置10に設けられたファクシミリ用モデムに接続されている。   The network communication interface 62 is connected to a network communication device provided in the image forming apparatus 10, and the modem interface 64 is connected to a facsimile modem provided in the image forming apparatus 10.

また、バスには記憶装置66が接続されており、例えばネットワークに接続された端末から送信された画像を、画像形成装置10に設けられた記憶装置66に記憶することができる。   Further, a storage device 66 is connected to the bus, and for example, an image transmitted from a terminal connected to the network can be stored in the storage device 66 provided in the image forming apparatus 10.

図3は、画像形成装置10において動作する情報処理プログラム70を示すブロック図である。図3に示すように、情報処理プログラム70は、文書受付部72、オブジェクト分離部74、特徴抽出部76、文書種別特定部78、文書種別格納部80、分類規則生成部82、規則雛形格納部84、文字情報受付部86、分類規則提示部88、分類規則登録部90、分類規則格納部92、編集受付部94、分類規則統合部96及び分類部98から構成される。   FIG. 3 is a block diagram showing an information processing program 70 that operates in the image forming apparatus 10. As shown in FIG. 3, the information processing program 70 includes a document reception unit 72, an object separation unit 74, a feature extraction unit 76, a document type identification unit 78, a document type storage unit 80, a classification rule generation unit 82, and a rule template storage unit. 84, a character information reception unit 86, a classification rule presentation unit 88, a classification rule registration unit 90, a classification rule storage unit 92, an editing reception unit 94, a classification rule integration unit 96, and a classification unit 98.

文書受付部72は、画像形成装置10へ入力された文書を受付ける。本実施形態では、文書受付部72は、読取装置14により読み取った文書又はネットワークに接続された端末から送られた文書を受付ける。なお、文書とは、情報が記述されたデータをいい、文字を含むデータ以外にも、文字を含まない図面又は写真なども含まれる。また、本実施形態の説明において、「文字」とは、文字又は文字列を意味する。文書受付部72は、受付けた文書をオブジェクト分離部74へ出力する。   The document receiving unit 72 receives a document input to the image forming apparatus 10. In the present embodiment, the document receiving unit 72 receives a document read by the reading device 14 or a document sent from a terminal connected to the network. Note that a document refers to data in which information is described, and includes not only data including characters but also drawings or photographs that do not include characters. In the description of the present embodiment, “character” means a character or a character string. The document reception unit 72 outputs the received document to the object separation unit 74.

オブジェクト分離部74は、文書を文書中のオブジェクトごとに分離して、特徴抽出部76へ出力する。ここで、オブジェクトとは、文書の内容を構成する物のことをいい、文字と画像とに大別され、画像には、表、写真、符号化物、図などが含まれる。なお、符号化物とは、符号化された情報の画像をいい、例えばバーコード、QRコード(登録商標)が該当する。本実施形態の特徴抽出部76は、文書を文字領域、画像領域(具体的には、表領域、写真領域、及び符号化物領域)に分離し、分離した各領域のデータを特徴抽出部76へ出力する。   The object separation unit 74 separates the document for each object in the document and outputs the document to the feature extraction unit 76. Here, an object refers to an object that constitutes the content of a document, and is broadly divided into a character and an image. The image includes a table, a photograph, an encoded object, a figure, and the like. Note that the encoded product refers to an image of encoded information, and corresponds to, for example, a barcode or a QR code (registered trademark). The feature extraction unit 76 of this embodiment separates a document into a character region and an image region (specifically, a table region, a photographic region, and an encoded product region), and the data of each separated region is sent to the feature extraction unit 76. Output.

特徴抽出部76は、文書に含まれる特徴を抽出する。本実施形態の特徴抽出部76は、オブジェクト分離部74により分離された文書中の各領域のデータについて、それぞれ特徴を抽出する。また、特徴抽出部76は、文書の分類規則を生成する場合には、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力し、文書の分類を行なう場合には、抽出した特徴を分類部98へ出力する。なお、特徴抽出部76の詳細な構成については、後述する。   The feature extraction unit 76 extracts features included in the document. The feature extraction unit 76 of the present embodiment extracts features for each area of data in the document separated by the object separation unit 74. The feature extraction unit 76 outputs the extracted features to the document type identification unit 78 and the classification rule generation unit 82 when generating the document classification rules, and extracts the features when classifying the documents. Is output to the classification unit 98. The detailed configuration of the feature extraction unit 76 will be described later.

文書種別特定部78は、文書から抽出された特徴に基づいて、当該文書が予め定めた文書の種類のうちいずれに該当するかを特定する。本実施形態では、文書種別特定部78は、文書種別格納部80に記憶されている文書種別ごとの特徴と、特徴抽出部76により抽出された特徴とを比較し、文書種別を特定する。文書種別特定部78は、特定した文書種別を分類規則生成部82へ通知する。   The document type identification unit 78 identifies which of the predetermined document types the document corresponds to based on the features extracted from the document. In the present embodiment, the document type identification unit 78 compares the features for each document type stored in the document type storage unit 80 with the features extracted by the feature extraction unit 76, and identifies the document type. The document type identification unit 78 notifies the classification rule generation unit 82 of the identified document type.

文書種別格納部80は、予め定めた文書種別ごとに、文書種別と当該文書種別に共通する特徴とを対応付けて記憶する。本実施形態における文書種別格納部80は、文書種別と当該文書種別に共通する特徴とをテーブルとして格納する。   The document type storage unit 80 stores a document type and a feature common to the document type in association with each other for each predetermined document type. The document type storage unit 80 in the present embodiment stores the document type and features common to the document type as a table.

文書種別格納部80は、例えば、文書種別として、「申請書」文書、「図面」文書、「写真」文書、「バーコード付き書類」文書、「説明書」文書、「稟議書」文書、「教育用書類」文書などといった予め定めた文書種別それぞれに対し、当該文書種別の特徴を対応付けて記憶する。   The document type storage unit 80 includes, for example, “application” document, “drawing” document, “photo” document, “barcode-added document” document, “description” document, “approval document” document, “ For each predetermined document type such as an “educational document” document, the characteristics of the document type are stored in association with each other.

文書種別格納部80が記憶する特徴は、特徴抽出部76により抽出される特徴のうち各文書種別に特有のものであり、例えば、文書種別「申請書」については、文書中の題目(タイトル)位置に「申請書」という文字があることを特徴として記憶する。また、例えば、文書種別「写真」については文書中に写真があることを特徴として記憶し、文書種別「バーコード付き書類」については文書中にバーコードがあることを特徴として記憶する。   The features stored in the document type storage unit 80 are unique to each document type among the features extracted by the feature extraction unit 76. For example, for the document type “application”, the subject (title) in the document It memorize | stores as a characteristic that there exists a character of "application" in a position. Further, for example, the document type “photo” is stored as a feature that there is a photo in the document, and the document type “document with barcode” is stored as a feature that there is a barcode in the document.

なお、文書種別格納部80は、文書種別ごとに1つの特徴ではなく、複数の特徴を組み合わせたものを記憶してもよい。例えば、文書種別「申請書」について、文書中の題目位置に「申請書」という文字があり、且つ、文書中に表画像が含まれることを特徴として記憶してもよい。   The document type storage unit 80 may store a combination of a plurality of features instead of one feature for each document type. For example, the document type “application form” may be stored as a feature that there is a character “application form” at the title position in the document and a table image is included in the document.

分類規則生成部82は、文書を分類する分類規則として、第1の規則と、第1の規則に適用する第2の規則との組合せを生成する。本実施形態における分類規則生成部82は、文書から抽出された特徴のうち分類に用いる特徴を定義する規則を第1の規則とし、第1の規則で定義された文書の特徴に対して適用する論理を定義する規則を第2の規則とし、第1の規則と第2の規則との組合せからなる分類規則を生成する。   The classification rule generation unit 82 generates a combination of a first rule and a second rule applied to the first rule as a classification rule for classifying documents. The classification rule generation unit 82 according to the present embodiment uses, as a first rule, a rule that defines a feature used for classification among features extracted from a document, and applies the rule to the document feature defined by the first rule. A rule that defines logic is set as a second rule, and a classification rule including a combination of the first rule and the second rule is generated.

具体的には、分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。   Specifically, the classification rule generation unit 82 extracts a template and a feature corresponding to the document type specified by the document type specifying unit 78 among the rule templates for each document type stored in the rule template storage unit 84. A classification rule is generated using the features extracted by the unit 76.

また、分類規則生成部82は、文字情報受付部86により受付けられた文字情報に基づいて分類規則を生成してもよい。   Further, the classification rule generation unit 82 may generate a classification rule based on the character information received by the character information reception unit 86.

文字情報受付部86は、UI装置50を介して操作者により入力された文字を受付け、分類規則生成部82へ出力する。操作者は、例えば、特定の文字を分類規則の中に含めたい場合又は特定の文字に関連する文字を分類規則の中に含めたい場合などに、当該特定の文字を入力する。   The character information receiving unit 86 receives characters input by the operator via the UI device 50 and outputs them to the classification rule generating unit 82. For example, when the operator wants to include a specific character in the classification rule or to include a character related to the specific character in the classification rule, the operator inputs the specific character.

分類規則生成部82は、特徴抽出部76が抽出した文字のうち、文字情報受付部86により受付けられた文字に基づいて選択された文字を用いて分類規則を生成する。例えば、分類規則生成部82は、文字情報受付部86により受付けられた文字又は文字情報受付部86により受付けられた文字と関連する文字を用いて分類規則を生成する。   The classification rule generation unit 82 generates a classification rule using characters selected based on the characters received by the character information reception unit 86 among the characters extracted by the feature extraction unit 76. For example, the classification rule generation unit 82 generates a classification rule using a character received by the character information reception unit 86 or a character related to the character received by the character information reception unit 86.

また、分類規則生成部82は、読取装置14からの読み取り条件に基づいて分類規則を生成してもよい。   Further, the classification rule generation unit 82 may generate a classification rule based on a reading condition from the reading device 14.

分類規則生成部82は、生成した分類規則を分類規則提示部88及び分類規則登録部90へ出力する。分類規則生成部82により生成される分類規則についての詳細は、後述する。   The classification rule generation unit 82 outputs the generated classification rule to the classification rule presentation unit 88 and the classification rule registration unit 90. Details of the classification rule generated by the classification rule generation unit 82 will be described later.

なお、分類規則生成部82は、文書から抽出された特徴に基づいて、文書を分類する分類規則を生成すればよく、文書種別特定部78による文書種別の特定を行なわずに特徴抽出部76が抽出した特徴に基づいて分類規則を生成してもよい。   The classification rule generation unit 82 may generate a classification rule for classifying the document based on the features extracted from the document, and the feature extraction unit 76 does not specify the document type by the document type specification unit 78. Classification rules may be generated based on the extracted features.

規則雛形格納部84は、予め定めた文書種別ごとに、文書種別と当該文書種別の分類に用いる規則の雛形とを対応付けて記憶する。本実施形態における規則雛形格納部84は、文書種別と当該文書種別に対応する規則の雛形とをテーブルとして格納する。   The rule template storage unit 84 stores a document type and a rule template used for classification of the document type in association with each other for each predetermined document type. The rule template storage unit 84 in the present embodiment stores document types and rule templates corresponding to the document types as a table.

分類規則提示部88は、分類規則生成部82により生成された分類規則を操作者に提示する。本実施形態の分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に表示して、操作者に提示する。   The classification rule presentation unit 88 presents the classification rule generated by the classification rule generation unit 82 to the operator. The classification rule presentation unit 88 of the present embodiment displays the classification rule generated by the classification rule generation unit 82 on the UI device 50 and presents it to the operator.

分類規則登録部90は、第1の規則と第1の規則に適用する第2の規則との組合せからなる分類規則を分類規則格納部92へ登録する。本実施形態における分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。   The classification rule registration unit 90 registers in the classification rule storage unit 92 a classification rule that is a combination of the first rule and the second rule applied to the first rule. In this embodiment, the classification rule registration unit 90 registers the classification rule generated by the classification rule generation unit 82 or the classification rule edited by the editing reception unit 94 in the classification rule storage unit 92.

分類規則格納部92は、文書の分類に用いる分類規則を記憶するデータベースである。   The classification rule storage unit 92 is a database that stores classification rules used for document classification.

編集受付部94は、分類規則生成部82により生成された分類規則又は分類規則格納部92に記憶されている分類規則に対する編集操作を受付け、編集操作に対応する編集を分類規則に行い、編集された分類規則を分類規則登録部90へ出力する。本実施形態の編集受付部94は、UI装置50を介して、分類規則に対する編集操作を受付け、受付けた編集操作に対応する編集を分類規則に行なう。   The edit accepting unit 94 receives an editing operation on the classification rule generated by the classification rule generating unit 82 or the classification rule stored in the classification rule storage unit 92, and edits corresponding to the editing operation are performed on the classification rule and edited. The obtained classification rule is output to the classification rule registration unit 90. The edit receiving unit 94 of the present embodiment receives an editing operation for the classification rule via the UI device 50, and performs editing corresponding to the received editing operation on the classification rule.

分類規則統合部96は、分類規則登録部90により分類規則格納部92へと登録された異なる複数の分類規則を、これら異なる複数の分類規則間で重複する内容を排除して統合する。本実施形態における分類規則統合部96は、分類規則格納部92に記憶されている分類規則を読み出し、読み出された分類規則間で第1の規則に関して重複する内容を排除して統合し、統合された分類規則を分類規則格納部92へと登録する。なお、分類規則統合部96の詳細については後述する。   The classification rule integration unit 96 integrates a plurality of different classification rules registered in the classification rule storage unit 92 by the classification rule registration unit 90 by eliminating content overlapping between the plurality of different classification rules. The classification rule integration unit 96 according to the present embodiment reads out the classification rules stored in the classification rule storage unit 92, integrates the read out classification rules by excluding duplicate contents regarding the first rule, and integrates them. The classified classification rule is registered in the classification rule storage unit 92. Details of the classification rule integration unit 96 will be described later.

分類部98は、特徴抽出部76により抽出された特徴に対して、分類規則格納部92に格納されている、分類規則統合部96により統合がなされた分類規則を適用し、文書を分類する。   The classification unit 98 applies the classification rule integrated by the classification rule integration unit 96 stored in the classification rule storage unit 92 to the features extracted by the feature extraction unit 76, and classifies the document.

次に、特徴抽出部76の詳細な構成について説明する。
図4は、特徴抽出部76の構成を示すブロック図である。図4に示すように、特徴抽出部76は、第1の特徴抽出部100及び第2の特徴抽出部102から構成されている。
Next, a detailed configuration of the feature extraction unit 76 will be described.
FIG. 4 is a block diagram illustrating a configuration of the feature extraction unit 76. As shown in FIG. 4, the feature extraction unit 76 includes a first feature extraction unit 100 and a second feature extraction unit 102.

第1の特徴中抽出部100は、文書中の文字領域についての特徴を抽出する。本実施形態の第1の特徴抽出部100は、オブジェクト分離部74により分離された文字領域のデータから、文字の抽出を行なう。第1の特徴抽出部100は、文字認識部104及び文字特徴抽出部106から構成されている。   The first feature extraction unit 100 extracts features about character regions in the document. The first feature extraction unit 100 of this embodiment extracts characters from the data of the character area separated by the object separation unit 74. The first feature extraction unit 100 includes a character recognition unit 104 and a character feature extraction unit 106.

文字認識部104は、文書中の文字領域について、文字認識を行い、文字領域に含まれる文字を認識し、文字特徴抽出部106へ出力する。   The character recognition unit 104 performs character recognition on the character region in the document, recognizes the character included in the character region, and outputs it to the character feature extraction unit 106.

文字特徴抽出部106は、文字認識部104により認識された文字について、例えば形態素解析を行ない、名詞などの文字及び当該文字の文書内における位置を特徴として抽出する。また、文字特徴抽出部106は、抽出された文字が複数ある場合には、文書中の出現頻度に応じた優先順位を抽出された文字に対して設定してもよい。以下の説明において、文字特徴抽出部106により抽出された文字をキーワードということがある。   The character feature extraction unit 106 performs, for example, morphological analysis on the characters recognized by the character recognition unit 104, and extracts characters such as nouns and positions of the characters in the document as features. In addition, when there are a plurality of extracted characters, the character feature extraction unit 106 may set a priority order corresponding to the appearance frequency in the document for the extracted characters. In the following description, the characters extracted by the character feature extraction unit 106 may be referred to as keywords.

第2の特徴抽出部102は、画像についての情報として、文書中の画像領域についての特徴を抽出する。本実施形態の第2の特徴抽出部102は、オブジェクト分離部74により分離された表領域、写真領域及び符号化物領域のデータから、特徴の抽出を行なう。第2の特徴抽出部102は、表特徴抽出部108、写真特徴抽出部110及び符号化特徴抽出部112から構成されている。   The second feature extraction unit 102 extracts features about an image region in the document as information about the image. The second feature extraction unit 102 of the present embodiment extracts features from the data of the table area, the photograph area, and the encoded product area separated by the object separation unit 74. The second feature extraction unit 102 includes a table feature extraction unit 108, a photographic feature extraction unit 110, and an encoded feature extraction unit 112.

表特徴抽出部108は、文書中の表画像の特徴を抽出する。本実施形態の表特徴抽出部108は、文書中の表画像の大きさ、文書内における表画像の位置、文書中の表画像の総数などを特徴として抽出する。   A table feature extraction unit 108 extracts features of a table image in a document. The table feature extraction unit 108 of the present embodiment extracts, as features, the size of the table image in the document, the position of the table image in the document, the total number of table images in the document, and the like.

写真特徴抽出部110は、文書中の写真画像の特徴を抽出する。本実施形態の写真特徴抽出部110は、文書中の写真画像の大きさ、文書内における写真画像の位置、文書中の写真画像の総数などを特徴として抽出する。   The photograph feature extraction unit 110 extracts the feature of the photograph image in the document. The photo feature extraction unit 110 of the present embodiment extracts features such as the size of a photo image in the document, the position of the photo image in the document, the total number of photo images in the document, and the like.

符号化物特徴抽出部112は、文書中の符号化物画像の特徴を抽出する。本実施形態の符号化物特徴抽出部112は、文書中の符号化物画像の大きさ、文書内における符号化物画像の位置、文書中の符号化物画像の総数などを特徴として抽出する。なお、符号化物特徴抽出部112は、符号化物画像を復号化して、符号化されていた情報を特徴として抽出してもよい。   The encoded product feature extraction unit 112 extracts features of the encoded product image in the document. The encoded product feature extraction unit 112 of the present embodiment extracts the size of the encoded product image in the document, the position of the encoded product image in the document, the total number of encoded images in the document, and the like as features. The encoded product feature extraction unit 112 may decode the encoded product image and extract the encoded information as a feature.

なお、第2の特徴抽出部102は、画像の特徴として、文書に含まれる図の情報を抽出してもよい。   Note that the second feature extraction unit 102 may extract information of a figure included in the document as the feature of the image.

次に、本実施形態における分類規則生成部82により生成される分類規則について説明する。分類規則生成部82は、文書から抽出された特徴のうち分類に用いる特徴を定義する規則を第1の規則とし、第1の規則で定義された文書の特徴に対して適用する論理を定義する規則を第2の規則とし、第1の規則と第2の規則との組合せからなる分類規則を生成する。   Next, the classification rule generated by the classification rule generation unit 82 in this embodiment will be described. The classification rule generation unit 82 defines, as a first rule, a rule that defines a feature used for classification among features extracted from a document, and defines logic to be applied to the document feature defined by the first rule. The rule is set as the second rule, and a classification rule including a combination of the first rule and the second rule is generated.

本実施形態における第1の規則は、特徴抽出部76により抽出される特徴のうち、いずれの特徴を、分類の判定に用いる特徴とするかを定義する規則である。   The first rule in the present embodiment is a rule that defines which of the features extracted by the feature extraction unit 76 is to be used for classification determination.

ここで、第1の規則に定義される特徴は、1つであっても複数であってもよい。また、第1の規則は、第1の特徴抽出部100により抽出される特徴と第2の特徴抽出部102により抽出される特徴とが組み合わされて定義されていてもよく、第1の特徴抽出部100により抽出された特徴又は第2の特徴抽出部102により抽出された特徴のいずれかが定義されていてよい。   Here, the feature defined in the first rule may be one or plural. In addition, the first rule may be defined by combining the feature extracted by the first feature extraction unit 100 and the feature extracted by the second feature extraction unit 102. Either the feature extracted by the unit 100 or the feature extracted by the second feature extraction unit 102 may be defined.

また、第1の規則は、第2の特徴抽出部102における、表特徴抽出部108、写真特徴抽出部110及び符号化特徴抽出部112により抽出される複数の特徴について定義されていてもよい。   In addition, the first rule may be defined for a plurality of features extracted by the table feature extraction unit 108, the photograph feature extraction unit 110, and the encoded feature extraction unit 112 in the second feature extraction unit 102.

本実施形態における第2の規則は、第1の規則で定義された文書の特徴に対して適用する論理として、否定(NOT)、論理和(OR)、論理積(AND)、否定論理和(NOR)、否定論理積(NAND)などの論理演算を定義する。   The second rule in the present embodiment is a logic applied to the document features defined in the first rule. The logic is negation (NOT), logical sum (OR), logical product (AND), negative logical sum ( NOR) and logical operations such as NAND (NAND) are defined.

図5は、分類規則生成部82により生成される分類規則の一例を示す模式図である。図5に示すように、各分類規則は、分類の判定に用いる特徴を定義した第1の規則と、第1の規則に定義された特徴に対しどのような論理演算を行なうかを示した第2の規則とから構成されている。   FIG. 5 is a schematic diagram illustrating an example of a classification rule generated by the classification rule generation unit 82. As shown in FIG. 5, each classification rule includes a first rule that defines a feature used for classification determination, and a logical operation that is performed on the feature defined in the first rule. It consists of two rules.

なお、図5において、第1の規則における@印は、@印の右側で指定されている文書の位置に、@印の左側の文字が存在する、という特徴を示している。ここで、文書の位置としては、タイトル位置、本文記載位置、文書下部などが含まれ、また、操作者により指定された領域であってもよい。また、第2の規則における×印は論理積(AND)を示し、+印は論理和(OR)を示し、−印は否定(NOT)を示している。   In FIG. 5, the @ mark in the first rule indicates a characteristic that the character on the left side of the @ mark exists at the position of the document designated on the right side of the @ mark. Here, the position of the document includes the title position, the body description position, the lower part of the document, and the like, and may be an area designated by the operator. In the second rule, the x mark indicates a logical product (AND), the + mark indicates a logical sum (OR), and the-mark indicates a negative (NOT).

このような分類規則により、次のように文書の分類がなされる。第1の分類規則に定義された特徴についての真偽を基に、第2の分類規則の論理演算を行った結果が真である場合、当該分類規則の定める分類へと文書が分類される。   According to such a classification rule, documents are classified as follows. If the result of the logical operation of the second classification rule is true based on the authenticity of the feature defined in the first classification rule, the document is classified into the classification defined by the classification rule.

図5(a)に示した、分類1への分類規則では、文書のタイトル位置に"説明書"という文字が存在するという特徴Aと、文書の本文位置に"株式会社abc"という文字が存在するという特徴Bとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA×Bであるから、文書のタイトル位置に"説明書"という文字が存在し、かつ、文書の本文位置に"株式会社abc"という文字が存在するという条件を満たす文書に対して、真となり、当該文書は分類1へと分類する。   In the classification rule for classification 1 shown in FIG. 5 (a), the feature A that the text “instructions” exists at the title position of the document, and the text “abc” exists at the text position of the document. A feature B is defined in the first rule. Here, since the logical operation shown in the second rule is A × B, there is a character “description” at the title position of the document, and a character “abc” in the text position of the document. True for a document that satisfies the condition, and the document is classified into category 1.

図5(b)に示した、分類2への分類規則では、上記特徴Aと、文書に写真画像が存在するという特徴Cとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA×Cであるから、文書のタイトル位置に"説明書"という文字が存在し、かつ、文書に写真画像が存在するという条件を満たす文書に対して、真となり、当該文書は分類2へと分類する。   In the classification rule for classification 2 shown in FIG. 5B, the feature A and the feature C that a photographic image exists in the document are defined in the first rule. Here, since the logical operation shown in the second rule is A × C, for a document that satisfies the condition that the text “explanation” exists at the title position of the document and that a photographic image exists in the document. True, and the document is classified into Category 2.

図5(c)に示した、分類3への分類規則では、上記特徴Aと、上記特徴Bとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA+Bであるから、文書のタイトル位置に"説明書"という文字が存在する文書、又は文書の本文位置に"株式会社abc"という文字が存在する文書に対して、真となり、当該文書は分類3へと分類する。   In the classification rule for classification 3 shown in FIG. 5C, the feature A and the feature B are defined in the first rule. Here, since the logical operation shown in the second rule is A + B, a document in which the characters “instructions” exist at the title position of the document, or a document in which the characters “abc” exists in the text position of the document. On the other hand, the result is true, and the document is classified into classification 3.

図5(d)に示した、分類4への分類規則では、上記特徴Aと、上記特徴Bとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA×(−B)であるから、文書のタイトル位置に"説明書"という文字が存在し、かつ、文書の本文位置に"株式会社abc"という文字が存在しないという条件を満たす文書に対して、真となり、当該文書は分類4へと分類する。   In the classification rule for classification 4 shown in FIG. 5D, the feature A and the feature B are defined in the first rule. Here, since the logical operation shown in the second rule is A × (−B), there is a character “description” at the title position of the document, and “abc” is at the body position of the document. The result is true for a document that satisfies the condition that no character exists, and the document is classified into category 4.

なお、図5に示した例では、文字の存在の特徴に関し、文書中のどの位置に存在するかを@印を用いて特定しているが、位置を特定せずに単に文字(例えば"説明書")の有無を条件としてもよい。   In the example shown in FIG. 5, regarding the character of the presence of the character, the position in the document is specified by using the @ mark, but the character (for example, “Description” is not specified without specifying the position). The presence or absence of a note ") may be a condition.

また、上記の例では、特徴Cでは、文書に写真画像が存在するか否かのみを条件としているが、例えば、N×N画素以上の写真画像が文書中に存在するか否か、写真画像が文書中の指定領域に存在するか否か、又はN×N画素以上の写真画像が文書中の指定領域に存在するか否かなどを条件としてもよい。   In the above example, the feature C only requires whether or not a photographic image exists in the document. For example, whether or not a photographic image having N × N pixels or more exists in the document, May be present in the designated area in the document, or whether a photographic image of N × N pixels or more is present in the designated area in the document.

このように、分類規則生成部82により、特徴抽出部76が抽出する特徴について自由に組み合わされた分類規則が生成され、操作者の要求に沿った分類がなされる。   In this way, the classification rule generation unit 82 generates a classification rule that is freely combined with respect to the features extracted by the feature extraction unit 76, and performs classification according to the operator's request.

次に、本実施形態における分類規則の生成について、詳細に説明する。本実施形態における分類規則生成部82は、上記のとおり、規則雛形格納部84に記憶されている文書種別と文書種別に対応する規則の雛形とを対応付けるテーブルを用いて、分類規則を生成する。   Next, generation of classification rules in the present embodiment will be described in detail. As described above, the classification rule generation unit 82 according to the present embodiment generates a classification rule using the table that associates the document type stored in the rule template storage unit 84 with the rule template corresponding to the document type.

図6は、規則雛形格納部84に記憶されているテーブルの一例を示す表である。図6に示されたテーブルには、文書種別特定部78により特定される文書種別ごとに、分類規則生成部82が生成する規則の雛形が格納されている。   FIG. 6 is a table showing an example of a table stored in the rule template storage unit 84. The table shown in FIG. 6 stores a rule template generated by the classification rule generating unit 82 for each document type specified by the document type specifying unit 78.

なお、図6に一例として示した分類規則の雛型としては、第1の特徴抽出部100による特徴に関する雛形(図6中において、オブジェクトの列が"文字"とされている行の分類規則)と第2の特徴抽出部102による特徴に関する雛形(図6中において、オブジェクトの列が"画像"とされている行の分類規則)とが格納されている。   Note that the template of the classification rule shown as an example in FIG. 6 is a template related to the feature by the first feature extraction unit 100 (the classification rule of the row in which the column of the object is “character” in FIG. 6). And a template related to the feature by the second feature extraction unit 102 (the classification rule of the row in which the object column is “image” in FIG. 6).

図6において、例えば、文書種別特定部78により特定される文書種別が申請書であった場合、分類規則生成部82は分類規則の生成において、文字のオブジェクトについての雛形「"申請書"@タイトル × キーワード@本文」及び画像のオブジェクトについての雛形「表画像」を用いる。   In FIG. 6, for example, when the document type specified by the document type specifying unit 78 is an application form, the classification rule generation unit 82 generates a template ““ application form ”@title for the character object in generating the classification rule. × Use the keyword “text” and the template “table image” for the image object.

ここで、「"申請書"@タイトル」は、上述のとおり、文書中のタイトル位置に"申請書"という文字があることを条件とすることを意味しており、「キーワード@本文」は、文書中の本文位置にキーワードがあることを条件とすることを意味している。また、両条件を繋ぐ「×」は、第2の規則に論理演算に論理積を用いることを意味している。   Here, "" Application Form "@Title" means that, as mentioned above, there is a character "Application Form" at the title position in the document, and "Keyword @ Body" This means that there is a condition that there is a keyword at the text position in the document. In addition, “x” connecting both conditions means that logical product is used for logical operation in the second rule.

また、雛形における「キーワード」とは、第1の特徴抽出部100により抽出された文字のうち、いずれかの文字を当てはめて分類規則を生成することを意味している。例えば、分類規則生成部82は、第1の特徴抽出部100により抽出された文字のうち優先順位の一番高い文字を当てはめて分類規則を生成する。なお、優先順位は、例えば、文書中の出現頻度、上述の文字情報受付部86が受付けた文字との関連性などによって決定される。   Further, the “keyword” in the template means that a classification rule is generated by applying any of the characters extracted by the first feature extraction unit 100. For example, the classification rule generation unit 82 generates a classification rule by applying the character with the highest priority among the characters extracted by the first feature extraction unit 100. The priority order is determined by, for example, the appearance frequency in the document, the relevance with the character received by the character information receiving unit 86 described above, and the like.

本実施形態における分類規則生成部82は、雛形テーブルに示された文字のオブジェクトについての条件と画像のオブジェクトの条件とを論理積で組み合わせて分類規則を生成するが、第2の規則として上述の通り例えば論理和などの他の論理演算などで組み合わせても構わない。   The classification rule generation unit 82 according to the present embodiment generates a classification rule by combining the condition for the character object shown in the template table and the condition for the image object by a logical product. For example, other logical operations such as logical sum may be combined.

上記の例において、例えば、分類規則を生成する基となる文書Pに対し、第1の特徴抽出部100が抽出したキーワードのうち優先順位が最も高いキーワードがキーワードKであるとすると、分類規則生成部82が生成する分類規則は、次のような構成となる。すなわち、分類規則生成部82は、第1の規則として、特徴D「"申請書"@タイトル」、特徴E「"キーワードK"@本文」及び特徴F「文書Pの表画像と大きさ及び位置が同程度の表画像が存在すること」が定義され、第2の規則として論理「D×E×F」が定義された分類規則を生成し、分類規則提示部88へ出力する。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。   In the above example, for example, if the keyword K having the highest priority among the keywords extracted by the first feature extraction unit 100 is the keyword K for the document P that is the basis for generating the classification rule, the classification rule generation is performed. The classification rule generated by the unit 82 has the following configuration. That is, the classification rule generation unit 82 sets, as the first rule, the feature D ““ application form ”@title”, the feature E ““ keyword K ”@text”, and the feature F “table image, size and position of the document P”. Are defined, and a classification rule in which logic “D × E × F” is defined as the second rule is generated and output to the classification rule presentation unit 88. Note that the same degree means that the difference between the two is within a predetermined threshold.

なお、上記特徴Fでは、表画像の大きさ及び位置を要件とするものとしているが、単に画像の有無を要件してもよく、画像の大きさを要件としてもよく、又は画像の位置を要件としてもよい。さらには、画像の有無、大きさ、位置のいずれを要件とするのかについても雛形として記憶していてもよい。   In the feature F, the size and position of the front image are required. However, the presence or absence of the image may be required, the size of the image may be required, or the position of the image is required. It is good. Further, it may be stored as a template whether the presence / absence, size, or position of an image is a requirement.

また、分類規則生成部82は、特徴抽出部76により抽出された特徴以外に、読取装置14からの読み取り条件を分類規則に入れてもよい。例えば、第1の規則として上記特徴D、上記特徴E、上記特徴F及び特徴G「n枚以上の原稿を読み取った文書であること」が定義され、第2の規則として論理「D×E×F×G」が定義された分類規則を生成してもよい。   In addition to the features extracted by the feature extraction unit 76, the classification rule generation unit 82 may put a reading condition from the reading device 14 in the classification rule. For example, the first rule defines the feature D, the feature E, the feature F, and the feature G “a document obtained by reading n or more originals”, and the logic “D × E ×” as the second rule. A classification rule in which “F × G” is defined may be generated.

また、読み取り条件に応じて、雛形テーブルに示された画像オブジェクトの特徴を第1の規則に定義するか否かを決定してもよい。例えば、読み取り条件として、カラーによる読み取りを行なう設定がなされた場合、操作者は文書に含まれる画像を重視している可能性が考えられることから、分類規則生成部82は、少なくとも画像オブジェクトの特徴を第1の規則に定義して分類規則を生成するとしてもよい。   Further, according to the reading condition, it may be determined whether or not the feature of the image object shown in the template table is defined in the first rule. For example, if the reading condition is set to read in color, the operator may consider the image included in the document as important, so the classification rule generation unit 82 at least features the image object. May be defined as a first rule to generate a classification rule.

次に、分類規則提示部88による分類規則の提示について説明する。
図7は、UI装置50に表示される分類規則の登録に係る画面の第1の例を示す平面図である。なお、図7、後述する図8、9及び10に示される画面は、例えば、分類規則提示部88によって表示される。
Next, presentation of classification rules by the classification rule presentation unit 88 will be described.
FIG. 7 is a plan view illustrating a first example of a screen related to registration of classification rules displayed on the UI device 50. Note that the screens shown in FIG. 7 and FIGS. 8, 9, and 10 to be described later are displayed by the classification rule presentation unit 88, for example.

図7に示す画面では、表示切替タブ120及び表示切替タブ群122により表示画面を切り替えることができ、表示切替タブ120では、新規の分類規則を登録する場合の画面が表示され、表示切替タブ群122のいずれかのタブでは、分類規則格納部92に既に格納されている分類規則を編集する場合の画面が表示される。なお、図7に示す例では、表示切替タブ120による表示がなされている状態を示している。   In the screen shown in FIG. 7, the display screen can be switched by the display switching tab 120 and the display switching tab group 122. In the display switching tab 120, a screen for registering a new classification rule is displayed. In any of the tabs 122, a screen for editing a classification rule already stored in the classification rule storage unit 92 is displayed. In the example illustrated in FIG. 7, a state in which display is performed using the display switching tab 120 is illustrated.

また、図7に示す画面には、文書種類名を設定する文書種類名設定部124、文書を分類するための分類規則を設定する文書分類規則設定部126、分類した文書に付けるファイル名を設定するファイル名規則設定部128、グループなど複数の操作者用の分類規則(共通分類規則)か個々の操作者用が分類規則(個別分類規則)かを設定する分類規則種別設定部129がある。   In the screen shown in FIG. 7, a document type name setting unit 124 for setting a document type name, a document classification rule setting unit 126 for setting a classification rule for classifying a document, and a file name to be given to the classified document are set. And a classification rule type setting unit 129 for setting a classification rule (common classification rule) for a plurality of operators such as a group or a classification rule (individual classification rule) for individual operators.

ここで、分類規則提示部88は、分類規則生成部82により生成された分類規則を文書分類規則設定部126に提示する。なお、分類規則生成部82は、分類規則の生成と同様、例えば文書種別特定部78により特定された文書種別に基づいて、文書種類名又はファイル名についても生成し、分類規則提示部88は、分類規則生成部82が生成した文書種類名又はファイル名を文書種類名設定部124又は設定するファイル名規則設定部128に提示する構成としてもよい。   Here, the classification rule presentation unit 88 presents the classification rule generated by the classification rule generation unit 82 to the document classification rule setting unit 126. Similar to the generation of the classification rule, the classification rule generation unit 82 also generates a document type name or file name based on the document type specified by the document type specification unit 78, for example. The document type name or file name generated by the classification rule generation unit 82 may be presented to the document type name setting unit 124 or the file name rule setting unit 128 to be set.

図7に示す画面の例では、分類規則生成部82により生成された分類規則として、次のような分類規則が提示されている。すなわち、図7に示す画面の例では、文書のタイトル部分に"説明書"の文字があり、かつ、文書の本文部分に"株式会社abc"の文字がある文書を文書種類「説明書」に分類する分類規則を提示している。   In the example of the screen shown in FIG. 7, the following classification rule is presented as the classification rule generated by the classification rule generation unit 82. That is, in the example of the screen shown in FIG. 7, a document having the text “instruction” in the title portion of the document and the text “abc” in the body portion of the document is set as the document type “instruction”. A classification rule to classify is presented.

また、図7に示す画面には、文書種類名設定部124、文書分類規則設定部126又はファイル名規則設定部128に提示されている設定に対し、キーボード入力により編集するためのキーボード入力ボタン130、消去する消去ボタン132、分類規則提示部88による提示をさせる自動ボタン134を有する。   Further, the screen shown in FIG. 7 includes a keyboard input button 130 for editing the settings presented in the document type name setting unit 124, the document classification rule setting unit 126, or the file name rule setting unit 128 by keyboard input. , An erasing button 132 for erasing, and an automatic button 134 for causing the classification rule presenting unit 88 to present it.

また、文書種類名設定部124、文書分類規則設定部126及びファイル名規則設定部128に提示されている設定を分類規則格納部92に登録する登録ボタン136と、登録した設定を削除する削除ボタン138を有する。   Also, a registration button 136 for registering the settings presented in the document type name setting unit 124, the document classification rule setting unit 126, and the file name rule setting unit 128 in the classification rule storage unit 92, and a delete button for deleting the registered settings. 138.

ここで、分類規則種別設定部129により、共通分類規則として分類規則が登録された場合、グループなど複数の操作者間で共通に適用する分類規則として登録され、当該複数の操作者のいずれかの者が文書分類をする際にこの分類規則が適用される。一方、分類規則種別設定部129により、個別分類規則として分類規則が登録された場合、操作者ごとに適用する分類規則として登録され、この分類規則は当該操作者が文書分類をする際に適用され、他の操作者による文書分類には適用されない。   Here, when a classification rule is registered as a common classification rule by the classification rule type setting unit 129, it is registered as a classification rule that is commonly applied among a plurality of operators such as a group, and any one of the plurality of operators is registered. This classification rule is applied when a person classifies a document. On the other hand, when a classification rule is registered as an individual classification rule by the classification rule type setting unit 129, it is registered as a classification rule to be applied to each operator, and this classification rule is applied when the operator performs document classification. It does not apply to document classification by other operators.

登録ボタン136が操作者により操作されると、分類規則登録部90は、第1の規則及び第2の規則から構成される分類規則を、共通分類規則又は個別分類規則として分類規則格納部92へ登録する。   When the registration button 136 is operated by the operator, the classification rule registration unit 90 converts the classification rule composed of the first rule and the second rule to the classification rule storage unit 92 as a common classification rule or an individual classification rule. sign up.

さらに図7に示す画面には、分類規則生成部82が生成した分類規則を編集するために、分類規則に用いるキーワードを変更するキーワード変更部140、分類規則に用いる文書中の領域を変更する領域変更部142、分類規則に用いる画像を変更する画像変更部144、分類規則に用いる論理を変更する論理変更部146、及び分類規則生成の基となる文書を表示する文書表示部148を有する。   Further, in the screen shown in FIG. 7, in order to edit the classification rule generated by the classification rule generation unit 82, a keyword changing unit 140 for changing a keyword used for the classification rule, and an area for changing a region in the document used for the classification rule. A change unit 142, an image change unit 144 that changes an image used for a classification rule, a logic change unit 146 that changes a logic used for a classification rule, and a document display unit 148 that displays a document that is a basis for generating a classification rule.

キーワード変更部140には、第1の特徴抽出部100により抽出されたキーワードが列挙されており、操作者は列挙されたキーワードのうちいずれかを選択することにより、当該キーワードを用いるよう分類規則を編集することができる。   In the keyword changing unit 140, the keywords extracted by the first feature extracting unit 100 are listed, and the operator selects a keyword from among the listed keywords and sets a classification rule to use the keyword. Can be edited.

領域変更部142には、文書における位置が列挙されており、操作者は列挙された位置のうちいずれかを選択することにより、当該位置を用いるよう分類規則を編集することができる。   The area changing unit 142 lists positions in the document, and the operator can edit the classification rule to use the position by selecting one of the listed positions.

画像変更部144には、第2の特徴抽出部102により抽出された画像の種類が列挙されており、操作者は列挙された画像の種類のうちいずれかを選択することにより、当該画像の種類を用いるよう分類規則を編集することができる。   The image change unit 144 lists the types of images extracted by the second feature extraction unit 102, and the operator selects one of the listed image types to select the type of the image. The classification rules can be edited to use

論理変更部146には、第2の規則として分類規則に用いることが可能な論理が列挙されており、操作者は、列挙された論理を用いて、分類規則を編集することができる。   The logic changing unit 146 lists logics that can be used as classification rules as the second rule, and the operator can edit the classification rules using the listed logics.

図8は、UI装置50に表示される分類規則の登録に係る画面の第2の例を示す平面図である。   FIG. 8 is a plan view showing a second example of a screen related to registration of classification rules displayed on the UI device 50.

図8に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図8に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書における写真150と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。   In the screen shown in FIG. 8, the feature extracted by the first feature extraction unit 100 and the second feature extraction unit 102 (photo feature extraction unit 110) are extracted as the classification rule generated by the classification rule generation unit 82. A classification rule that combines these features is presented. Specifically, the screen shown in FIG. 8 has characters of “instructions” in the title portion of the document, and is at the same position as the photo 150 in the document displayed on the document display unit 148. A classification rule for classifying a document having a photograph of a size into a document type “instruction” is presented. Note that the same degree means that the difference between the two is within a predetermined threshold.

また、図8に示す画面では、画像についての条件を変更するためのポップアップ表示である画面条件変更部152が表示されており、操作者は、画面条件変更部152に表示された条件のうち所望の条件を選択することにより、画像についての条件を変更することができる。   Further, the screen shown in FIG. 8 displays a screen condition changing unit 152 that is a pop-up display for changing the condition for the image. The operator can select a desired condition among the conditions displayed on the screen condition changing unit 152. By selecting this condition, the condition for the image can be changed.

図9は、UI装置50に表示される分類規則の登録に係る画面の第3の例を示す平面図である。   FIG. 9 is a plan view illustrating a third example of a screen related to registration of classification rules displayed on the UI device 50.

図9に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(符号化物特徴抽出部112)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図9に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書におけるバーコード154と同程度の大きさのバーコードを有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。   The screen shown in FIG. 9 includes the features extracted by the first feature extraction unit 100 and the second feature extraction unit 102 (encoded product feature extraction unit 112) as the classification rules generated by the classification rule generation unit 82. A classification rule that combines the extracted features is presented. Specifically, the screen shown in FIG. 9 has characters of “instructions” in the title portion of the document, and has the same size as the barcode 154 in the document displayed on the document display unit 148. A classification rule for classifying a document having a barcode into a document type “instruction” is presented. Note that the same degree means that the difference between the two is within a predetermined threshold.

図10は、UI装置50に表示される分類規則の登録に係る画面の第4の例を示す平面図である。   FIG. 10 is a plan view illustrating a fourth example of a screen related to registration of classification rules displayed on the UI device 50.

図10に示す画面には、分類規則生成部82により生成された分類規則として、第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴のみからなる分類規則が提示されている。具体的には、図10に示す画面には、文書表示部148に表示されている文書における写真156と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。   In the screen shown in FIG. 10, a classification rule including only the features extracted by the second feature extraction unit 102 (photo feature extraction unit 110) is presented as the classification rule generated by the classification rule generation unit 82. . Specifically, on the screen shown in FIG. 10, a document having a photo of the same size at the same position as the photo 156 in the document displayed on the document display unit 148 is set as the document type “instruction”. A classification rule to classify is presented. Note that the same degree means that the difference between the two is within a predetermined threshold.

次に、分類規則統合部96の詳細について説明する。
図11は、分類規則格納部92に登録されている、分類規則統合部96による統合前の分類規則の模式図である。また、図12は、分類規則格納部92に登録されている、分類規則統合部96による統合後の分類規則の模式図である。
Next, details of the classification rule integration unit 96 will be described.
FIG. 11 is a schematic diagram of classification rules registered in the classification rule storage unit 92 before the integration by the classification rule integration unit 96. FIG. 12 is a schematic diagram of classification rules registered in the classification rule storage unit 92 and integrated by the classification rule integration unit 96.

図11に示すように、統合前の分類規則では、分類ごとに、分類に対応する分類規則が存在している。統合前の分類規則に基づいて、文書の分類を行なう場合、まず、分類規則1に適合するか否かを判定し、次に、分類規則2に適合するか否かを判定し、次に、分類規則3について適合するか否かを判定し、というように順に判定することになる。   As shown in FIG. 11, in the classification rule before integration, a classification rule corresponding to the classification exists for each classification. When the documents are classified based on the classification rule before integration, first, it is determined whether or not the classification rule 1 is satisfied, next, whether or not the classification rule 2 is satisfied, and then, Whether or not the classification rule 3 is satisfied is determined, and so on.

図11に示した例に従って、統合前の分類規則により文書分類を行なう場合について具体的に説明すると、まず、分類規則1に適合するか否かの判定のために、分類規則1の第1の規則に定義された特徴A及び特徴Bが文書中に存在するか否かが判定され、その結果に基づいて第2の規則に定義された論理演算(A×B)が行なわれ、分類規則1に適合するか(論理演算の結果が真となるか)を判定する。   The case where document classification is performed according to the classification rule before integration will be described in detail according to the example shown in FIG. 11. First, in order to determine whether or not the classification rule 1 is met, the first of the classification rule 1 is used. It is determined whether or not the feature A and the feature B defined in the rule exist in the document, and based on the result, the logical operation (A × B) defined in the second rule is performed, and the classification rule 1 (Whether the result of the logical operation is true) is determined.

次に、同様に、分類規則2に適合するか否かの判定のために、分類規則2の第1の規則に定義された特徴A及び特徴Cが文書中に存在するか否かが判定され、その結果に基づいて第2の規則に定義された論理演算(A×C)が行なわれ、分類規則1に適合するか(論理演算の結果が真となるか)を判定する。   Next, similarly, in order to determine whether or not the classification rule 2 is met, it is determined whether or not the feature A and the feature C defined in the first rule of the classification rule 2 exist in the document. Based on the result, the logical operation (A × C) defined in the second rule is performed to determine whether the classification rule 1 is met (whether the result of the logical operation is true).

以降の分類規則についても同様に判定がなされる。また、共通分類規則に属する分類規則のみならず、個別分類規則に属する分類規則についても判定がなされる必要がある。   The same determination is made for the subsequent classification rules. Further, it is necessary to determine not only the classification rule belonging to the common classification rule but also the classification rule belonging to the individual classification rule.

しかし、上記の分類規則1と分類規則2とでは、第1の規則に特徴Aが共通して定義されており、特徴Aの有無について、分類規則1の判定と分類規則2の判定とで繰り返し行なう必要はない。   However, in the classification rule 1 and the classification rule 2 described above, the feature A is commonly defined in the first rule, and the presence or absence of the feature A is repeated in the determination of the classification rule 1 and the determination of the classification rule 2. There is no need to do it.

分類規則統合部96は、各分類規則で定義されている文書の特徴のうち他の分類規則においても定義されている特徴について、重複しないように分類規則を統合する。   The classification rule integration unit 96 integrates the classification rules so that the features defined in other classification rules among the features of the document defined in each classification rule do not overlap.

図12に示すように、分類規則統合部96は、各分類規則の第1の規則を重複のないよう統合する。具体的には、第1の規則に基づいて、被演算子規則を生成して統合する。被演算子規則には、統合前のいずれかの分類規則の第1の規則において定義されていた特徴が1つずつ定義されている。   As shown in FIG. 12, the classification rule integration unit 96 integrates the first rule of each classification rule so as not to overlap. Specifically, operand rules are generated and integrated based on the first rule. In the operand rule, the features defined in the first rule of any of the classification rules before integration are defined one by one.

また、図12に示すように、分類規則統合部96は、各分類規則の第2の規則を、分類と対応させて統合する。具体的には、各分類規則における第2の規則と当該第2の規則による分類とを対応付けて、論理規則を生成して統合する。論理規則には、各文書種別に分類するために用いる第2の規則(図12に例示された"A×B"、"A×C")が、文書の種類(図12に例示された"分類1"、"分類2")と対応させて定義されている。   As shown in FIG. 12, the classification rule integration unit 96 integrates the second rule of each classification rule in association with the classification. Specifically, a logical rule is generated and integrated by associating the second rule in each classification rule with the classification based on the second rule. The logical rule includes the second rule (“A × B” and “A × C” illustrated in FIG. 12) used for classification into each document type, and the document type (exemplified in FIG. 12). They are defined in association with classification 1 "," class 2 ").

なお、被演算子規則は、共通分類規則と個別分類規則とでそれぞれ生成してもよいし、共通分類規則と個別分類規則とで1つの被演算子規則を生成してもよい。   The operand rule may be generated for each of the common classification rule and the individual classification rule, or one operand rule may be generated for the common classification rule and the individual classification rule.

統合後の分類規則によれば、文書中の同一の特徴の有無についての判定を重複して行なうことがなく、分類規則に従った文書の分類処理が、統合前の分類規則に基づいて分類する場合に比べ高速になされる。   According to the classification rules after the integration, the document classification process according to the classification rules is classified based on the classification rules before the integration without redundant determination of the presence or absence of the same feature in the document. It is faster than the case.

次に、以上説明した分類規則の登録について、フローチャートを用いて動作の流れを説明する。
図13は、分類規則の登録についての動作を示すフローチャートの一例である。
Next, an operation flow of registration of the classification rule described above will be described using a flowchart.
FIG. 13 is an example of a flowchart showing an operation for registering a classification rule.

ステップ100において、文書受付部72は、分類規則を生成する基となる文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。   In step 100, the document reception unit 72 receives a document that is a basis for generating a classification rule, and outputs the received document to the object separation unit 74.

ステップ102において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。   In step 102, the object separation unit 74 separates the object in the document and outputs it to the feature extraction unit 76.

ステップ104において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力する。   In step 104, the feature extraction unit 76 extracts features included in the document, and outputs the extracted features to the document type identification unit 78 and the classification rule generation unit 82.

ステップ106において、文書種別特定部78は、抽出された特徴に基づいて、ステップ100で文書受付部72が受け付けた文書が予め定めた文書の種別のうちいずれに該当するかを特定する。   In step 106, the document type specifying unit 78 specifies which of the predetermined document types the document received by the document receiving unit 72 in step 100 corresponds to based on the extracted features.

ステップ108において、分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。   In step 108, the classification rule generation unit 82 selects a template corresponding to the document type identified by the document type identification unit 78 from the rule templates for each document type stored in the rule template storage unit 84 and a feature extraction unit. A classification rule is generated using the features extracted by 76.

ステップ110において、分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に提示する。   In step 110, the classification rule presentation unit 88 presents the classification rule generated by the classification rule generation unit 82 to the UI device 50.

ステップ112において、ステップ110により提示した分類規則に対し、操作者による編集操作がなされたか否かを判定し、編集操作が行なわれた場合はステップ114へ移行し、編集操作が行なわれない場合はステップ116に移行する。   In step 112, it is determined whether or not an editing operation has been performed by the operator for the classification rule presented in step 110. If an editing operation has been performed, the process proceeds to step 114, and if no editing operation has been performed. Control goes to step 116.

ステップ114において、編集受付部94は、操作者による編集操作を受付け、編集操作に対応する編集を分類規則に行なう。   In step 114, the edit receiving unit 94 receives an editing operation by the operator and performs editing corresponding to the editing operation on the classification rule.

ステップ116において、分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。   In step 116, the classification rule registration unit 90 registers the classification rule generated by the classification rule generation unit 82 or the classification rule edited by the editing reception unit 94 in the classification rule storage unit 92.

ステップ118において、分類規則統合部96は、分類規則格納部92に格納された分類規則を統合する。   In step 118, the classification rule integration unit 96 integrates the classification rules stored in the classification rule storage unit 92.

以上の流れにより、文書の分類に用いる統合された分類規則が作成される。   Through the above flow, an integrated classification rule used for document classification is created.

次に、統合された分類規則に基づいて文書を分類し、分類に応じた処理を行なう動作の流れを説明する。
図14は、文書の分類し、分類に応じた処理を行なう動作を示すフローチャートの一例である。
Next, the flow of operations for classifying documents based on the integrated classification rules and performing processing according to the classification will be described.
FIG. 14 is an example of a flowchart illustrating an operation of classifying documents and performing processing according to the classification.

ステップ200において、文書受付部72は、分類対象の文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。   In step 200, the document reception unit 72 receives a document to be classified and outputs the received document to the object separation unit 74.

ステップ202において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。   In step 202, the object separation unit 74 separates the object in the document and outputs it to the feature extraction unit 76.

ステップ204において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を分類部98へ出力する。   In step 204, the feature extraction unit 76 extracts features included in the document and outputs the extracted features to the classification unit 98.

ステップ206において、分類部98は、特徴抽出部76により抽出された特徴に対して、分類規則統合部96により統合された分類規則を適用し、文書を分類する。   In step 206, the classification unit 98 applies the classification rule integrated by the classification rule integration unit 96 to the features extracted by the feature extraction unit 76 to classify the document.

具体的には、分類部98は、共通分類規則及び個別分類規則について、以下の処理を行なう。分類部98は、分類すべき文書が、統合された分類規則の被演算子規則に定義されている各特徴を有するか否かを判定する。各特徴についての判定結果(当該特徴を有する場合は真、当該特徴を有しない場合は偽)に基づき、論理規則を適用する。分類部98は、論理規則において定義された論理演算のうち、演算結果が真となった論理演算に対応する種類へと、文書を分類する。   Specifically, the classification unit 98 performs the following processing for the common classification rule and the individual classification rule. The classification unit 98 determines whether or not the document to be classified has each feature defined in the operand rule of the integrated classification rule. A logical rule is applied based on the determination result for each feature (true if the feature is present, false if the feature is not present). The classifying unit 98 classifies the document into types corresponding to the logical operation whose operation result is true among the logical operations defined in the logic rule.

ステップ208において、ステップ206においてなされた分類に対応する処理が行なわれる。ステップ208では、例えば分類ごとに定められた処理規則に応じて処理が行なわれる。   In step 208, processing corresponding to the classification made in step 206 is performed. In step 208, processing is performed in accordance with, for example, a processing rule determined for each classification.

図15は、分類に応じた処理をする際に適用される分類ごとの処理規則の一例を示す表である。図15(a)は、分類に応じたファイル名を文書データに付与する処理についての規則を示し、図15(b)は、分類に応じた場所に文書データを出力する処理についての規則を示している。   FIG. 15 is a table showing an example of processing rules for each classification applied when processing according to the classification. FIG. 15A shows the rules for the process of assigning the file name corresponding to the classification to the document data, and FIG. 15B shows the rules for the process of outputting the document data to the place corresponding to the classification. ing.

図15(a)に示す処理規則では、分類ごとに、ファイル名を付与する際の規則が定められている。なお、図15(a)に示したファイル名付与規則は、上述のファイル名規則設定部128において設定された規則に対応する。   In the processing rule shown in FIG. 15A, a rule for assigning a file name is defined for each classification. Note that the file name assignment rule shown in FIG. 15A corresponds to the rule set in the file name rule setting unit 128 described above.

図15(b)に示す処理規則では、分類ごとに、送信先のフォルダが定められている。なお、図15(b)に示す送信先フォルダは、例えば操作者が分類ごとに設定する。   In the processing rule shown in FIG. 15B, a transmission destination folder is defined for each classification. Note that the transmission destination folder shown in FIG. 15B is set by the operator for each classification, for example.

また、分類に応じた処理として、印刷装置12による印刷をしてもよい。例えば、分類に応じて印刷における設定を異にして、印刷出力する処理を行なってもよい。   Further, as processing according to the classification, printing by the printing apparatus 12 may be performed. For example, processing for printing out may be performed with different settings in printing according to the classification.

以上の流れにより文書の分類及び分類に応じた処理が行なわれる。   According to the above flow, document classification and processing corresponding to the classification are performed.

なお、上記説明では、分類規則の統合(ステップ118)を分類規則の登録(ステップ116)の次に行なうとしたが、分類規則の統合は、文書の分類処理の前に行なわれてもよい。例えば、分類規則の統合をステップ204とステップ206の間に行なってもよい。分類規則の統合は、予め定められた数の分類規則が分類規則登録部90に登録されるごとに行なわれてもよい。   In the above description, classification rule integration (step 118) is performed after classification rule registration (step 116). However, classification rule integration may be performed before document classification processing. For example, classification rules may be integrated between step 204 and step 206. The integration of the classification rules may be performed each time a predetermined number of classification rules are registered in the classification rule registration unit 90.

また、分類規則統合部96は、他の文書処理装置により同様に生成された統合前又は統合後の分類規則と、自装置の統合前又は統合後の分類規則とを統合してもよい。   In addition, the classification rule integration unit 96 may integrate the classification rules before or after the integration similarly generated by another document processing apparatus and the classification rules before or after the integration of the own apparatus.

上記説明では、分類規則統合部96は、分類規則格納部92に記憶された分類規則を統合し、統合された分類規則を分類規則格納部92に記憶するとしたが、統合された分類規則を分類規則格納部92とは異なる他のデータベースに記憶してもよい。   In the above description, the classification rule integration unit 96 integrates the classification rules stored in the classification rule storage unit 92 and stores the integrated classification rules in the classification rule storage unit 92. However, the integrated classification rules are classified. You may memorize | store in another database different from the rule storage part 92. FIG.

また、統合される前の分類規則又は統合された後の分類規則が、文書処理装置にネットワークで接続された外部のデータベースに記憶されてもよい。この場合、文書処理装置は、分類規則の統合又は文書分類処理に際して外部のデータベースから分類規則を読み込む手段を有する。   Further, the classification rule before integration or the classification rule after integration may be stored in an external database connected to the document processing apparatus via a network. In this case, the document processing apparatus has means for reading the classification rules from an external database during classification rule integration or document classification processing.

10 画像形成装置
14 読取装置
50 UI装置
72 文書受付部
74 オブジェクト分離部
76 特徴抽出部
78 文書特定部
80 文書種別格納部
82 分類規則生成部
84 規則雛形格納部
86 文字情報受付部
88 分類規則提示部
90 分類規則登録部
92 分類規則格納部
94 編集受付部
96 分類規則統合部
98 分類部
100 第1の特徴抽出部
102 第2の特徴抽出部
104 文字認識部
106 文字特徴抽出部
108 表特徴抽出部
110 写真特徴抽出部
112 符号化物特徴抽出部
DESCRIPTION OF SYMBOLS 10 Image forming apparatus 14 Reading apparatus 50 UI apparatus 72 Document reception part 74 Object separation part 76 Feature extraction part 78 Document specification part 80 Document classification storage part 82 Classification rule generation part 84 Rule template storage part 86 Character information reception part 88 Classification rule presentation Unit 90 classification rule registration unit 92 classification rule storage unit 94 edit reception unit 96 classification rule integration unit 98 classification unit 100 first feature extraction unit 102 second feature extraction unit 104 character recognition unit 106 character feature extraction unit 108 table feature extraction Unit 110 photographic feature extraction unit 112 encoded product feature extraction unit

Claims (7)

第1の規則と該第1の規則に適用する第2の規則との組合せを、文書を分類する分類規則として登録する分類規則登録手段と、
前記分類規則登録手段により登録された異なる複数の分類規則について、該異なる複数の分類規則間で重複する内容を基に統合する分類規則統合手段と
を有する文書処理装置。
Classification rule registration means for registering a combination of a first rule and a second rule applied to the first rule as a classification rule for classifying documents;
A document processing apparatus comprising: a classification rule integration unit that integrates a plurality of different classification rules registered by the classification rule registration unit based on content overlapping between the plurality of different classification rules.
前記分類規則登録手段は、文書の特徴のうち文書の分類に用いられるものを定義する第1の規則と、第1の規則で定義された文書の特徴に対して適用する論理を定義する第2の規則との組み合わせを分類規則として登録し、
前記分類規則統合手段は、第1の規則に定義された文書の特徴についての重複を排除して分類規則を統合する
請求項1記載の文書処理装置。
The classification rule registering means defines a first rule that defines a document feature used for document classification, and a second logic that defines logic applied to the document feature defined by the first rule. Register a combination with the rule of as a classification rule,
The document processing apparatus according to claim 1, wherein the classification rule integration unit integrates the classification rules by eliminating duplication of document features defined in the first rule.
前記分類規則登録手段は、文書に含まれる文字、写真、図形、表又は符号化物を文書の分類に用いられる文書の特徴として定義する規則を第1の規則とする
請求項2記載の文書処理装置。
The document processing apparatus according to claim 2, wherein the classification rule registration unit uses, as a first rule, a rule that defines a character, photograph, figure, table, or encoded product included in a document as a feature of the document used for document classification. .
前記分類規則登録手段は、文書に含まれる文字、写真、図形、表又は符号化物のうちいずれか2以上の組合せを文書の分類に用いられる文書の特徴として定義する規則を第1の規則とし、該いずれか2以上の組合せに対して適用する論理を定義する規則を第2の規則とする
請求項3記載の文書処理装置。
The classification rule registration means is a rule that defines a combination of two or more of characters, photos, figures, tables or encoded products included in a document as a document characteristic used for document classification, as a first rule. The document processing apparatus according to claim 3, wherein a rule that defines a logic to be applied to any two or more combinations is set as a second rule.
前記分類規則登録手段は、操作者ごとに個別の分類規則と複数の操作者間で共通の分類規則とを登録する
請求項1乃至4いずれか記載の文書処理装置。
The document processing apparatus according to claim 1, wherein the classification rule registration unit registers an individual classification rule and a common classification rule among a plurality of operators for each operator.
文書を受付ける文書受付手段と、
前記分類規則登録手段により登録された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段と
をさらに有する請求項1乃至5いずれか記載の文書処理装置。
A document receiving means for receiving a document;
The document processing apparatus according to claim 1, further comprising: a classifying unit that classifies the document received by the document receiving unit based on the classification rule registered by the classification rule registering unit.
第1の規則と該第1の規則に適用する第2の規則との組合せを、文書を分類する分類規則として登録するステップと、
登録された異なる複数の分類規則について、該異なる複数の分類規則間で重複する内容を基に統合するステップと
をコンピュータに実行させるプログラム。
Registering a combination of a first rule and a second rule applied to the first rule as a classification rule for classifying documents;
A program for causing a computer to execute a step of integrating a plurality of registered different classification rules on the basis of contents overlapping between the plurality of different classification rules.
JP2012123056A 2012-05-30 2012-05-30 Document processing apparatus and program Active JP5936051B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012123056A JP5936051B2 (en) 2012-05-30 2012-05-30 Document processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012123056A JP5936051B2 (en) 2012-05-30 2012-05-30 Document processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2013251610A JP2013251610A (en) 2013-12-12
JP5936051B2 true JP5936051B2 (en) 2016-06-15

Family

ID=49849929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012123056A Active JP5936051B2 (en) 2012-05-30 2012-05-30 Document processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5936051B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6665498B2 (en) * 2015-11-16 2020-03-13 富士ゼロックス株式会社 Information processing apparatus, image processing system and program
US11971852B2 (en) 2019-05-31 2024-04-30 Pfu Limited File management device, file management method, and non-transitory computer readable medium
JP7270037B2 (en) 2019-05-31 2023-05-09 株式会社Pfu File management device, file management method, and program
JP7492858B2 (en) 2020-05-15 2024-05-30 シャープ株式会社 Image forming device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337971A (en) * 2000-05-29 2001-12-07 Ricoh Co Ltd Device and method for classifying document, and storage medium recorded with program for document classifying method

Also Published As

Publication number Publication date
JP2013251610A (en) 2013-12-12

Similar Documents

Publication Publication Date Title
JP5223284B2 (en) Information retrieval apparatus, method and program
US8726178B2 (en) Device, method, and computer program product for information retrieval
JP2012151722A (en) Image processor, image processing system, image processing method and program
JP5880052B2 (en) Document processing apparatus and program
JP5936051B2 (en) Document processing apparatus and program
JPH0951422A (en) Image edit device
JP2019068134A (en) Image forming apparatus
JP6672668B2 (en) Image processing device and program
CN109479081A (en) Original document reading apparatus
WO2021129289A1 (en) Image processing method and apparatus, electronic device, and storage medium
JP2006093917A (en) Image reading apparatus and image processor, and image forming apparatus
JP2018093306A (en) Image reading device, image formation device, and mage reading method
JP6930455B2 (en) Information processing device
JP6269298B2 (en) Image forming apparatus
JP2018077794A (en) Image processing device and image forming apparatus
US8755061B2 (en) Display input device and display method highlighting characters based upon word data and prediction data and image forming apparatus provided therewith
JP6493328B2 (en) Image processing apparatus and image forming apparatus having the same
JP2007048061A (en) Character processing device, character processing method, and recording medium
US11849086B2 (en) Image processing apparatus capable of extracting portion of document image specified by preset index and subjecting character string in extracted portion to processing associated with index
JP2006295794A (en) Image processor, image processing method, image processing program and computer-readable recording medium recorded with the program
JP6705430B2 (en) Image forming device
US11825041B2 (en) Image processing apparatus and image forming apparatus capable of classifying respective images of plurality of pages of original document based on plurality of topic words
JP7497620B2 (en) Document data generation device, image forming device, and document data generation program
JP7409102B2 (en) Information processing device and image forming device
US11184486B2 (en) Image forming apparatus for reading plural documents placed on document support surface and acquiring characters from images of read documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160427

R150 Certificate of patent or registration of utility model

Ref document number: 5936051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350