JP2007048061A - Character processing device, character processing method, and recording medium - Google Patents

Character processing device, character processing method, and recording medium Download PDF

Info

Publication number
JP2007048061A
JP2007048061A JP2005232102A JP2005232102A JP2007048061A JP 2007048061 A JP2007048061 A JP 2007048061A JP 2005232102 A JP2005232102 A JP 2005232102A JP 2005232102 A JP2005232102 A JP 2005232102A JP 2007048061 A JP2007048061 A JP 2007048061A
Authority
JP
Japan
Prior art keywords
document
character
text
reading
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005232102A
Other languages
Japanese (ja)
Inventor
Eiichiro Toshima
英一朗 戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005232102A priority Critical patent/JP2007048061A/en
Publication of JP2007048061A publication Critical patent/JP2007048061A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To realize an accurate and highly responsive retrieval means in original-document retrieval in which paper documents are scanned and original electronic documents are retrieved. <P>SOLUTION: Texts read by an OCR are classified into similar character groups in which characters are preliminarily grouped according to morphological similarities, and character codes are converted to characters representative of the similar character groups to search similar documents. By this, an accurate original-document retrieval is realized, which is not affected by erroneous identification of a fine symbol such as minus or dash. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、紙文書をスキャンしてコピー、FAX、SEND等の処理を行うための文字処理装置、文字処理方法及び記録媒体に関するものである。   The present invention relates to a character processing apparatus, a character processing method, and a recording medium for scanning a paper document and performing processing such as copying, FAX, and SEND.

近年複写機は、単に紙をコピーする機能だけでなく、多機能化が進み、例えば、PCに接続してプリンタとして使用する機能、スキャンした原稿をFAX転送するFAX機能、メール転送するSEND機能なども提供されている。ドキュメントのデジタル化に伴って、文書管理と連携したドキュメント・ソリューションを実現するポータルとして位置付けられている。   In recent years, copiers are becoming more and more multifunctional than just copying paper, such as the function of connecting to a PC and using it as a printer, the FAX function of faxing scanned documents, the SEND function of forwarding mail, etc. Is also provided. Along with the digitization of documents, it is positioned as a portal for realizing document solutions linked with document management.

コンピュータ(PC)の普及に伴い、文書の作成は、文書作成ソフトなどのPC上のアプリケーションソフトを用いて行われるのが一般的となり、PC上で各種書類等を作成、編集、複写、検索等をすることが広く行われている。また、ネットワークの発展と普及に伴い、このようにPC上で作成された電子的な文書データ(電子文書データ)が、プリンタ等を用いて紙の方の文書(紙文書)として出力されずに、他のPC等からアクセスされ、電子メール等で送信・配布される、ということも行われるようになり、ペーパーレスの文書作成環境が進みつつある。   With the spread of computers (PCs), document creation is generally performed using application software on a PC such as document creation software, and various documents are created, edited, copied, searched, etc. on the PC. It is widely done. Also, with the development and popularization of networks, electronic document data (electronic document data) created on a PC in this way is not output as a paper document (paper document) using a printer or the like. In addition, access from other PCs, etc., and transmission / distribution by e-mail or the like have come to be performed, and a paperless document creation environment is being advanced.

このような電子文書データは、文書管理システムを構築してコンピュータによって体系的に管理されるようになってきたこともあり、共通化による情報量削減、文書間関連付けによるアクセスの容易性、多人数による情報の共有などにおいて極めて効果の高いものである。   Such electronic document data has been managed systematically by computers by building a document management system, reducing the amount of information by sharing, ease of access by associating documents, and increasing the number of people It is extremely effective in sharing information by means of.

一方、紙文書にも、電子文書データと比較して、読みやすさ、扱いやすさ、持ち運びの利便性、直感的分かり易さ等において大きな利点がある。そのため、電子文書データを作成しても、プリンタ装置等を用いて紙文書に出力して利用するほうが効率的な場合も依然として多い。そこで紙文書と電子文書は、互いに補完的関係を築き、両者が併用されて流通しているのが現状である。   On the other hand, paper documents also have significant advantages over electronic document data in terms of readability, ease of handling, convenience in carrying, and intuitive comprehension. For this reason, even when electronic document data is created, it is still more efficient to output and use it on a paper document using a printer device or the like. Thus, paper documents and electronic documents are currently in a complementary relationship and are distributed together.

紙文書は参照に関しては極めて便利なので、様々な局面で配布されるが、単に参照するだけでなく、その文書を再編集/再利用したいと思う場合も多い。従来は、このような場合、別途人手を介して電子ファイルを入手し編集するということが行われており、文書の再利用性を阻害する原因となっていた。   Paper documents are very convenient for reference and are distributed in various ways, but often you want to re-edit / reuse the document rather than just referencing it. Conventionally, in such a case, an electronic file is separately obtained and edited manually, which has been a cause of hindering document reusability.

このような紙文書と電子文書の遊離問題を解決するために、印刷された紙文書をスキャンしてその情報をもとにその紙文書が印刷される元となったオリジナルの電子文書データを検索するという検索手法も提案されている。そのような検索手法を、ここでは原本検索と呼ぶ。この原本検索の機能は、複写機におけるセキュリティ確保にも適用可能で、例えば、スキャン情報の漏洩防止技術としてコピー抑制機能に適用することもできる。   In order to solve the problem of separation between paper documents and electronic documents, scan the printed paper document and search the original electronic document data from which the paper document was printed based on the information. A search method to do is also proposed. Such a search technique is referred to herein as an original search. This original search function can also be applied to ensuring security in a copying machine. For example, it can also be applied to a copy suppression function as a technique for preventing leakage of scan information.

原本検索を実現する工夫は従来から提案されている。例えば、特開2001-25656号公報では、紙文書のラスタ画像データから抽出された特徴量と、予め電子文書データを展開したラスタ画像データから抽出された特徴量との類似性を判断して、元の電子文書データを検索する手法を提案している。この提案においては、画像ベースで文書を比較するので、アプリケーションがラスタ画像を生成する際にある程度厳密な不変性が要求される。ところが、現実のシステム(アプリケーション)においては、レイアウトを厳密に一致させてラスタ画像を生成することが困難である場合も多い。過去には、アプリケーションあるいはOSのバージョンが変わった際にレイアウトが多少崩れる現象がかなり頻繁に発生してきた。このようにレイアウトの不変性が確保できない場合、たとえ内容が全く同じでも元文書が検出できなくなってしまう。   A device for realizing the original search has been proposed. For example, in Japanese Patent Application Laid-Open No. 2001-25656, a similarity between a feature amount extracted from raster image data of a paper document and a feature amount extracted from raster image data obtained by developing electronic document data in advance is determined. We have proposed a method for retrieving original electronic document data. In this proposal, since documents are compared on an image basis, a certain degree of strict invariance is required when an application generates a raster image. However, in an actual system (application), it is often difficult to generate a raster image by precisely matching the layout. In the past, when the application or OS version changed, a phenomenon that the layout slightly collapsed occurred quite frequently. If the invariance of the layout cannot be ensured in this way, the original document cannot be detected even if the contents are exactly the same.

また、例えば、特開平3−263512は、記録用紙に記録されている文書をスキャナで読取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものがある。この提案では、スキャンされ文字認識された文書からユーザが文字列を指定しなければならず、検索範囲の指定というわずらわしさが残るという欠点がある。もちろん、検索範囲として文書全体を指定することもできるが、その場合は文書全体の文字列とのマッチングを行うことになってしまう。文字認識にある程度の誤認識があることを考慮するとそのマッチングはあいまいマッチングとなり、比較の際には相当な処理負担がかかり、現実的応答時間が期待できない。紙文書から文字認識されたテキストをクエリとして検索するには、現実的応答性能を得るために、単純なマッチング処理では解決できない、もう一段の工夫が求められる。   Also, for example, in Japanese Patent Laid-Open No. 3-263512, a document recorded on a recording sheet is read by a scanner and digitized for character recognition, and a character string recognized by the user is used as a search range. There is a method of searching for a document that is specified and has the same content and positional relationship. This proposal has a drawback that the user has to specify a character string from a scanned and character-recognized document, and the trouble of specifying a search range remains. Of course, the entire document can be specified as the search range, but in this case, matching with the character string of the entire document is performed. Considering that there is a certain amount of misrecognition in character recognition, the matching is ambiguous matching, and a considerable processing load is applied in the comparison, and realistic response time cannot be expected. In order to retrieve text recognized from a paper document as a query, in order to obtain realistic response performance, another contrivance that cannot be solved by a simple matching process is required.

このような文字認識の誤認識のあいまい性を許容するためには、予め誤認識の余地が相当少なくなるレベルにまで、類似した文字をグループ化しておき、文字認識としては認識した文字がどのグループに属するかまでを出力し、その出力されたグループコードに基づいてマッチング処理するようにすればよい。
このような類似文字グループへの認識としては、従来からスピードアップのための文字認識の内部処理として提案されており、例えば、特開平08−180138においても文字認識の内部処理として類似する文字群の代表文字の認識方法が述べられているが、これは内部処理として行われており、次の段階で個々の文字への認識処理が行われており、最終的な文字認識処理としては、代表文字ではない個々の文字である。
特開2001−25656号公報 特開平03−263512号公報 特開平08−180138号公報
In order to allow such ambiguity of misrecognition of character recognition, similar characters are grouped in advance up to a level where there is considerably less room for misrecognition. And the matching processing may be performed based on the output group code.
Such recognition of similar character groups has been proposed as internal processing for character recognition for speeding up. For example, in Japanese Patent Laid-Open No. 08-180138, similar character group internal processing is also proposed. A method for recognizing representative characters is described, but this is performed as an internal process, and recognition processing for individual characters is performed at the next stage. Not individual characters.
Japanese Patent Laid-Open No. 2001-25656 Japanese Patent Laid-Open No. 03-263512 Japanese Patent Laid-Open No. 08-180138

本発明は、上記述べた課題を解決しようというものである。
すなわち、現実的応答時間内で精度の高い原本検索を実現する解決手段を提供しようというものである。
The present invention is intended to solve the above-described problems.
That is, it is intended to provide a solution means for realizing an original search with high accuracy within a realistic response time.

上記目的を達成するために本発明による文字処理装置は以下の構成を備える。   In order to achieve the above object, a character processing apparatus according to the present invention comprises the following arrangement.

即ち、文字を処理する文字処理装置であって、文書のコピーを指示するコピー指示手段と,記録用紙に記録された文書内容を読み取る読取手段と,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識手段と,該文字認識されたテキストの類似性に基づいて元文書を検索する検索手段と,該検索された元文書の情報に基づいてコピーを実行するコピー実行手段とを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識手段が出力するテキストに含まれるコードは各類似文字群を表現するコードである。   That is, a character processing apparatus for processing characters, a copy instruction means for instructing copying of a document, a reading means for reading a document content recorded on a recording sheet, and an OCR on a document image read by the reading means. Character recognition means for converting to text, search means for searching for an original document based on similarity of the character-recognized text, copy execution means for executing copy based on information of the searched original document, Each character is previously divided into similar character groups based on morphological similarity, and the code included in the text output by the character recognition means is a code representing each similar character group.

また、文字を処理する文字処理装置であって、文書の移動を指示する文書移動指示手段と,記録用紙に記録された文書内容を読み取る読取手段と,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識手段と,該文字認識されたテキストの類似性に基づいて元文書を検索する検索手段と,該検索された元文書の情報に基づいて文書移動を実行する文書移動実行手段とを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識手段が出力するテキストに含まれるコードは各類似文字群を表現するコードである。   A character processing apparatus for processing characters, a document movement instruction means for instructing movement of a document, a reading means for reading the document contents recorded on the recording paper, and an OCR on the document image read by the reading means. Character recognition means for converting to text, search means for searching for an original document based on similarity of the character-recognized text, and document movement for executing document movement based on information of the searched original document Each character is previously divided into similar character groups based on morphological similarity, and the code included in the text output by the character recognition means is a code representing each similar character group .

上記目的を達成するために本発明による文字処理方法は以下の構成を備える。   In order to achieve the above object, a character processing method according to the present invention comprises the following arrangement.

即ち、文字を処理する文字処理装置に適用される文字処理方法であって、文書のコピーを指示するコピー指示ステップと,記録用紙に記録された文書内容を読み取る読取ステップと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップと,該検索された元文書の情報に基づいてコピーを実行するコピー実行ステップとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップが出力するテキストに含まれるコードは各類似文字群を表現するコードである。   That is, a character processing method applied to a character processing device for processing characters, a copy instruction step for instructing copying of a document, a reading step for reading the document content recorded on a recording sheet, and a reading means by the reading means A character recognition step for converting the obtained document image to OCR and converting it to text, a search step for searching the original document based on the similarity of the character-recognized text, and a copy based on the information of the retrieved original document A copy execution step for executing each of the characters, wherein each character is pre-divided into similar character groups based on morphological similarity, and the code included in the text output by the character recognition step represents each similar character group It is a code to do.

また、文字を処理する文字処理装置に適用される文字処理方法であって、文書の移動を指示する文書移動指示ステップと,記録用紙に記録された文書内容を読み取る読取ステップと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップと,該検索された元文書の情報に基づいて文書移動を実行する文書移動実行ステップとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップが出力するテキストに含まれるコードは各類似文字群を表現するコードである。   A character processing method applied to a character processing apparatus for processing characters, a document movement instruction step for instructing movement of a document, a reading step for reading the contents of a document recorded on a recording sheet, and the reading means A character recognition step for converting the read document image to OCR and converting it to text, a search step for searching the original document based on the similarity of the character-recognized text, and the information on the searched original document A document movement execution step for executing document movement, wherein each character is preliminarily classified into a group of similar characters based on morphological similarity, and the code included in the text output by the character recognition step is each similar character This code represents a group.

上記目的を達成するために本発明による記録媒体は以下の構成を備える。   In order to achieve the above object, a recording medium according to the present invention comprises the following arrangement.

即ち、文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書のコピーを指示するコピー指示ステップのプログラムコードと,記録用紙に記録された文書内容を読み取る読取ステップのプログラムコードと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップのプログラムコードと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップのプログラムコードと,該検索された元文書の情報に基づいてコピーを実行するコピー実行ステップのプログラムコードとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップのプログラムコードが出力するテキストに含まれるコードは各類似文字群を表現するコードである。   That is, a computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus that processes characters, recorded on a recording sheet and a program code of a copy instruction step for instructing copying of a document Based on the similarity between the program code of the reading step for reading the document content, the program code of the character recognition step for converting the document image read by the reading means to OCR and converting it into text, and the text recognized by the character A program code for a search step for searching for a document and a program code for a copy execution step for executing a copy based on information of the searched original document, each character being a group of similar characters based on morphological similarity The text output by the program code of the character recognition step Code contained in is a code representing each similar character group.

また、文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書の移動を指示する文書移動指示ステップのプログラムコードと,記録用紙に記録された文書内容を読み取る読取ステップのプログラムコードと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップのプログラムコードと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップのプログラムコードと,該検索された元文書の情報に基づいて文書移動を実行する文書移動実行ステップのプログラムコードとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップのプログラムコードが出力するテキストに含まれるコードは各類似文字群を表現するコードである。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus for processing characters, recorded on a recording sheet and a program code of a document movement instruction step for instructing movement of the document Based on the similarity between the program code of the reading step for reading the content of the read document, the program code of the character recognition step for converting the document image read by the reading means to OCR and converting it into text, and the text recognized by the character A program code for a search step for searching an original document and a program code for a document move execution step for executing a document move based on information of the searched original document, each character being based on morphological similarity It is divided into similar character groups in advance, and the text output by the character recognition step program code is output. Code included in the list is the code representing each similar character group.

以上の説明から明らかなように、本発明によれば、文章の類似性を判断する際に、OCRの誤認識の影響を最小化するため、予め類似文字群に区分しておき、OCRされた各文字を各文字群の代表文字にマッピングし、それに基づいて一致を判定するので、誤認識に対して耐性の高い類似性判定が可能であり、よりロバストな原本検索を実現できるので、操作性の高い文字処理装置を提供できる。   As is clear from the above description, according to the present invention, when judging the similarity of sentences, in order to minimize the influence of misrecognition of OCR, it is divided into similar character groups in advance and OCR is performed. Since each character is mapped to the representative character of each character group and matching is determined based on it, similarity determination with high resistance to misrecognition is possible, and more robust original search can be realized, so operability Can provide a character processing apparatus with high accuracy.

以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。   DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.

図1は本発明を適用した文字処理装置の構成を示すブロック図である。   FIG. 1 is a block diagram showing the configuration of a character processing apparatus to which the present invention is applied.

図示の構成において、CPUはマイクロプロセッサであり、画像処理、文字処理、検索処理のための演算、論理判断等を行い、バスを介してバスに接続された各構成要素を制御する。   In the configuration shown in the figure, the CPU is a microprocessor, performs calculation for image processing, character processing, search processing, logical determination, and the like, and controls each component connected to the bus via the bus.

BUSはバスであり、マイクロプロセッサCPUの制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。   BUS is a bus and transfers an address signal and a control signal instructing each component to be controlled by the microprocessor CPU. In addition, data transfer between each component is performed.

RAMは読み書き可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶に用いる。   The RAM is a readable / writable random access memory and is used for primary storage of various data from each component.

ROMは読出し専用の不揮発性メモリである。マイクロプロセッサCPUによるブートプログラムを記憶する。ブートプログラムはシステム起動時にハードディスクに記憶された制御プログラムをRAMにロードし、マイクロプロセッサCPUに実行させる。制御プログラムについては、後にフローチャートを参照して詳述する。   ROM is a read-only nonvolatile memory. The boot program by the microprocessor CPU is stored. The boot program loads a control program stored in the hard disk into the RAM when the system is started, and causes the microprocessor CPU to execute it. The control program will be described in detail later with reference to a flowchart.

入力装置はタッチパネル等である。通常のPCの様にキーボード、マウス等で構成することもできる。   The input device is a touch panel or the like. It can be configured with a keyboard, mouse, etc. like a normal PC.

表示装置は液晶ディスプレイ等である。通常のPCの様にCRT等で構成することもできる。   The display device is a liquid crystal display or the like. It can also be configured with a CRT, etc. like a normal PC.

スキャナは原稿である紙文書を読み取ってデジタル化する等の処理を行う装置である。   The scanner is a device that performs processing such as reading and digitizing a paper document as a document.

プリンタは文書を印刷するための装置である。通信回線より送られる電子文書、あるいはHD内に保持されている電子文書を印刷する。コピー機能は、スキャナから読み取られたスキャンイメージをそのままプリンタにより印刷することにより実現される。   A printer is a device for printing a document. An electronic document sent from the communication line or an electronic document held in the HD is printed. The copy function is realized by printing a scan image read from the scanner as it is by a printer.

HDはハードディスクであり、CPUにより実行される制御プログラム、文字を類似する文字群に区分してそれぞれの類似文字群を代表する文字を規定している代表文字テーブル、検索処理及び文書管理のための索引が記憶された文書管理索引、文章内容類似検索を行う際の各文字の重要度に関するデータを格納した文字重要度テーブル等が格納される。   HD is a hard disk, a control program executed by the CPU, a representative character table that divides characters into similar character groups and defines characters that represent each similar character group, search processing and document management A document management index in which the index is stored, a character importance table storing data on the importance of each character when performing a sentence content similarity search, and the like are stored.

リムーバブル外部記憶装置はUSBメモリデバイス、ICカード等の着脱可能な記憶デバイスである。通常のPCと同様に、フレキシブルディスクやCD、DVD等の外部記憶にアクセスするためのドライブ等を配置することもできる。上記HDと同様に使用でき、それらの記録媒体を通じて他の文字処理装置とデータ交換を行う装置である。なお、ハードディスクに記憶される制御プログラムについては、これらの外部記憶装置から必要に応じて全部または一部をHDにコピーすることができる。   The removable external storage device is a removable storage device such as a USB memory device or an IC card. As with a normal PC, a drive for accessing an external storage such as a flexible disk, CD, or DVD can be arranged. It is a device that can be used in the same manner as the HD and exchanges data with other character processing devices through these recording media. Note that the control program stored in the hard disk can be entirely or partially copied from these external storage devices to HD as necessary.

通信装置はネットワークコントローラである。通信回線を介して外部とのデータ交換を行う装置である。   The communication device is a network controller. A device for exchanging data with the outside via a communication line.

かかる各構成要素からなる本発明文字処理装置においては、入力装置等からの各種イベントに応じて作動するものである。入力装置等からのインタラプトが供給されると信号がマイクロプロセッサCPUに送られ、それに伴ってイベントが発生し、イベントに応じてCPUがROMまたはRAM内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。   The character processing apparatus according to the present invention composed of these components operates according to various events from the input device or the like. When an interrupt from an input device is supplied, a signal is sent to the microprocessor CPU, and an event is generated accordingly, and the CPU reads various instructions stored in the ROM or RAM according to the event, Various controls are performed.

図2は本発明における操作の流れの例を示した図である。   FIG. 2 is a diagram showing an example of the operation flow in the present invention.

本発明装置は、文書管理索引中に検索のための索引、セキュリティ管理のための情報を予め格納しておく。紙文書のコピー、あるいはFAX、あるいはSENDが指示されると文書をスキャンしスキャンイメージを得る。スキャンイメージに基づいて文書管理索引を検索することにより元文書が求められ、文書IDと文書操作可否等の文書管理情報を取得する。文書操作可否に応じて操作許可であれば、スキャンイメージをそのまま出力する等の通常の印刷(コピー)処理、あるいはFAX、あるいはSENDが行われる。文書操作不可の場合は、コピー、FAX、SEND等の文書操作動作が抑制され、同時に、文書操作抑制の解除をセキュリティ管理者等に依頼する場合に備えて、元文書の文書IDが表示される。   The apparatus of the present invention stores an index for search and information for security management in advance in the document management index. When a copy of a paper document, FAX, or SEND is instructed, the document is scanned to obtain a scanned image. An original document is obtained by searching the document management index based on the scan image, and document management information such as a document ID and document operation availability is acquired. If the operation is permitted depending on whether or not the document operation is possible, normal printing (copying) processing such as outputting the scan image as it is, or FAX or SEND is performed. When document operation is not possible, document operation operations such as copy, fax, and SEND are suppressed, and at the same time, the document ID of the original document is displayed in case the security administrator is requested to cancel the document operation suppression. .

図3は本発明における複写機の操作パネル等の画面遷移例を示した図である。画面3−1は初期状態の画面である。コピー動作を起動するコピーボタン、FAX動作を起動するFAXボタン、SEND動作を起動するSENDボタン、セキュリティ情報を設定するための設定ボタンの各種ボタンが配置されている。コピーボタンが指示された場合は、コピーの可否が判定され、コピー許可されていれば何事もなくコピー動作が遂行される。もしコピー抑制が設定されていればコピー動作は遂行されない。コピー動作が遂行されない旨通知されると共にコピー抑制に設定されている文書IDが表示される(画面3−2)。本発明においては文書の画像パターンとの比較が直接行われるわけではなく、テキスト内容に基づいて判定されるので、テキスト内容が類似しているだけでコピー抑制されるかもしれない。そのような場合は、コピー抑制の根拠(どの文書のコピーが抑制されているか)が不明なので、コピー抑制の対象となる文書IDを表示するようにしている。そうすることで、文書セキュリティ管理者に相談することによりコピー抑制の解除を依頼することができる。   FIG. 3 is a diagram showing an example of screen transition of the operation panel of the copying machine according to the present invention. Screen 3-1 is a screen in an initial state. Various buttons such as a copy button for starting a copy operation, a FAX button for starting a FAX operation, a SEND button for starting a SEND operation, and a setting button for setting security information are arranged. When the copy button is instructed, it is determined whether copying is permitted. If copying is permitted, the copying operation is performed without any problem. If copy suppression is set, the copy operation is not performed. A notification that the copy operation is not performed is notified, and the document ID set to copy suppression is displayed (screen 3-2). In the present invention, the comparison with the image pattern of the document is not directly performed, but the determination is made based on the text content. Therefore, the copy may be suppressed only when the text content is similar. In such a case, since the basis for copy suppression (which document copy is suppressed) is unknown, the document ID that is the target of copy suppression is displayed. By doing so, it is possible to request cancellation of copy suppression by consulting the document security administrator.

FAXボタン、SENDボタンについてもコピーボタンと同様にFAX機能、SEND機能が実行される。抑制が設定されていた場合も、コピーの場合と同様に、画面3−3、画面3−4のように文書IDが表示される。   As with the copy button, the FAX function and SEND function are executed for the FAX button and SEND button. Even when the suppression is set, the document ID is displayed as in screens 3-3 and 3-4 as in the case of copying.

画面3−1で「設定」を選択すると画面3−5に移り文書のセキュリティ情報が変更できる。セキュリティ情報が誰にでも変更できるのであればセキュリティの意味がないので、文書セキュリティ管理者のみに使用を限定するため、ログイン名とパスワードを要求しユーザ認証を行う。文書IDを入力し、コピー、FAX、SENDの各属性に対して「許可」または「禁止」を選択的に指定して、最後に設定ボタンを指示することで、入力したセキュリティ情報が文書管理索引に設定される。   When “Setting” is selected on the screen 3-1, the screen moves to the screen 3-5, and the security information of the document can be changed. If security information can be changed by anyone, there is no security meaning. Therefore, in order to limit the use to only the document security administrator, a login name and password are requested and user authentication is performed. Entering the document ID, selectively specifying “Allow” or “Prohibit” for each attribute of copy, FAX, and SEND, and instructing the setting button at the end, the entered security information becomes the document management index. Set to

図4は本発明において行われるブロック解析の例を説明した図である。   FIG. 4 is a diagram illustrating an example of block analysis performed in the present invention.

4−1はスキャンイメージであり、紙文書がスキャナによって読み取られデジタル化された文書イメージである。ブロック解析は、この文書イメージに対してブロックの性質に応じた矩形ブロックに分割する処理である。図の場合、ブロック解析の結果、3つのブロックに分割されている。1つのブロック(4−2)は、内部に文章(テキスト)が含まれるためテキストブロックとなり、残りの2つのブロック(4−3、4−4)は、テキスト以外の情報(グラフ、写真など)が含まれるため画像ブロックとなる。テキストブロックに対しては、文字認識がかけられテキストが抽出されるが、画像ブロックからはテキスト情報は抽出されない。   Reference numeral 4-1 denotes a scan image, which is a document image obtained by digitizing a paper document read by a scanner. Block analysis is a process of dividing the document image into rectangular blocks according to the properties of the blocks. In the case of the figure, as a result of block analysis, it is divided into three blocks. One block (4-2) is a text block because sentences (text) are included inside, and the remaining two blocks (4-3, 4-4) are information other than text (graphs, photographs, etc.). Is included in the image block. Character recognition is applied to the text block and text is extracted, but text information is not extracted from the image block.

図5はテキストブロックから抽出されるOCRテキスト情報、及び抽出されるテキスト特徴を説明したものである。   FIG. 5 explains the OCR text information extracted from the text block and the extracted text features.

スキャンイメージのテキストブロックに対して文字認識処理がかけられ、OCRテキスト情報としてテキストデータが抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、一定の誤認識データが含まれることになる。図中“X-100”となるべき文字列は“Xー100”、“ABシリーズ”となるべき文字列は“A8シリーズ”、“超写真画質”となるべき文字列は“超写真直質”となってしまっている。このような誤認識文字はマッチングが取れないことになる。もちろん、OCRの改良により誤認識が発生しないようにできるだけ正確に認識すべきであるが、“-”(マイナス)と“ー”(長音記号)のように認識し分けることに無理があるものも多い。誤認識があるとマッチングがとれなくなるので、本発明においてはできるだけ誤認識とならないに、“B”と“8”、“画”と“直”のような誤認識しやすい文字は予めグループ化しておき、そのグループの代表としての文字コードが出力される。   Character recognition processing is applied to the text block of the scanned image, and text data is extracted as OCR text information. Since it is character recognition processing, 100% accurate recognition is not always performed, and certain erroneous recognition data is included. In the figure, the character string that should be "X-100" is "X-100", the character string that should be "AB series" is "A8 series", and the character string that should be "super photo quality" is "super photo direct quality" It has become. Such a misrecognized character cannot be matched. Of course, it should be recognized as accurately as possible so that misrecognition does not occur by improving OCR, but there are things that cannot be recognized and separated like "-" (minus) and "-" (long sound symbol). Many. If there is a misrecognition, matching cannot be performed. In the present invention, characters that are easily misrecognized, such as “B” and “8”, “Picture”, and “Direct” are grouped in advance. Then, the character code representing the group is output.

なお、このように類似文字群をグループ化しておいたとしてもやはり誤認識は発生するが、より少数に押さえ込めるので、全体としては類似した文章の検出率が向上する。   Even if similar character groups are grouped in this way, erroneous recognition still occurs, but since it can be reduced to a smaller number, the detection rate of similar sentences improves as a whole.

図6は元文書を検索しセキュリティ情報を取得するための文書管理索引の構成を示した図である。   FIG. 6 is a diagram showing a configuration of a document management index for searching an original document and acquiring security information.

文書管理索引には「文書ID」「レイアウト特徴量」「文章内容特徴量」「画像内容特徴量」「文書制御情報」が格納される。   The document management index stores “document ID”, “layout feature amount”, “text content feature amount”, “image content feature amount”, and “document control information”.

「文書ID」には、その文書をユニークに特定できる識別情報である。   The “document ID” is identification information that can uniquely identify the document.

「画像内容特徴量」は各画像ブロックの類似性を計るためのインデックス情報である。例えば、各ブロックを印刷した場合のビットマップイメージを縦n個、横m個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特開平10-260983においても提案されている。   The “image content feature amount” is index information for measuring the similarity of each image block. For example, a bit map image when each block is printed may be divided into n vertical and m horizontal rectangles, and an image feature amount storing average luminance information and color information of each rectangle may be considered. An example of an image feature amount for performing a similarity search is proposed in, for example, Japanese Patent Laid-Open No. 10-260983.

1つの文書に複数の画像ブロックが存在する場合は、各画像ブロックごとに画像内容特徴量が抽出され、処理される。   When a plurality of image blocks exist in one document, the image content feature amount is extracted and processed for each image block.

画像内容の類似性を求める際は、クエリの各画像ブロックの画像内容特徴量に対して、ブロックごとにここに記憶される各文書の画像内容特徴量が比較され、各一致率が調整されて1つの画像内容類似度が計算される。   When calculating the similarity of image contents, the image content feature quantity of each document stored here for each block is compared with the image content feature quantity of each image block of the query, and each matching rate is adjusted. One image content similarity is calculated.

「レイアウト特徴量」は、レイアウトに基づく類似検索を行うためのインデックス情報である。レイアウト全体としての類似性を判定するための情報であり、例えば、1ページ全体を1つの画像としてみた場合の画像特徴量とすることもできる。別の例としては各テキスト、画像ブロックの位置(座標)及びブロックの大きさ(面積、文字数など)に基づく量が考えられる。   The “layout feature amount” is index information for performing a similarity search based on the layout. This is information for determining the similarity of the entire layout, and can be, for example, an image feature amount when the entire page is viewed as one image. Another example is an amount based on each text, the position (coordinates) of the image block, and the size (area, number of characters, etc.) of the block.

電子文書のレイアウト特徴量は、PC等からの印刷時に作成されるラスタイメージ、あるいはコピー・FAX・SEND時のスキャンされデジタル化されたスキャンイメージをベースに加工して作成される。   The layout feature amount of an electronic document is created by processing a raster image created at the time of printing from a PC or the like, or a scanned and digitized scanned image at the time of copying, FAX, SEND.

レイアウト類似性を求める際は、クエリのレイアウト特徴量に対して、ここに記憶される各文書のレイアウト特徴量が比較され、レイアウト類似度が計算される。   When obtaining the layout similarity, the layout feature amount of each document stored here is compared with the layout feature amount of the query, and the layout similarity is calculated.

「文章内容特徴量」「文書制御情報」については図7、図8において詳述する。   The “text content feature amount” and “document control information” will be described in detail with reference to FIGS.

図7は文章内容特徴量の構成を示した図である。   FIG. 7 is a diagram showing the structure of the text content feature amount.

文章内容特徴量は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書IDで識別される各文書に対応して、文章内容に応じた文書ベクトルが記憶される。ここでは、文書ベクトルの次元を文字とし、文書ベクトルの各次元の値をその文字の出現度数とする。ただし、1つ文字を正確に1次元とせず、予め形態的に類似した文字はグループ化されており、この類似文字グループを1つの次元として文書ベクトルを構成する。例えば図では、次元2に対して“8”、“B”の2つの文字が対応している。各文字に対してその文書に含まれる出現度数が記憶される。   The sentence content feature amount is index information for performing a similarity search based on the similarity of sentence contents. Corresponding to each document identified by the document ID, a document vector corresponding to the text content is stored. Here, the dimension of the document vector is a character, and the value of each dimension of the document vector is the appearance frequency of the character. However, one character is not exactly one-dimensional, and morphologically similar characters are grouped in advance, and a document vector is configured with this similar character group as one dimension. For example, in the figure, two characters “8” and “B” correspond to dimension 2. The appearance frequency included in the document is stored for each character.

1つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるテキスト特徴データがすべてのテキストブロックについてまとめて集計され、1つの文書ベクトルが作成される。   When there are a plurality of text blocks in one document, the text feature data extracted from the plurality of text blocks is aggregated for all the text blocks and one document vector is created.

元文書の検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ(クエリベクトル)が作成され、各文書の文書ベクトルに対して1件ずつ文章内容類似度が計算されるのである。   When searching the original document, vector data (query vector) of the same format as the document vector stored here is created from the scanned document that is the search query. The sentence content similarity is calculated one by one.

図8は文書制御情報の構成を示した図である。   FIG. 8 shows the structure of the document control information.

文書IDで識別される各文書に対応して、その文書をどのように管理すべきかセキュリティ情報が記憶される。文書IDに対応して、8−1でコピー、8−2でFAX、8−3でSENDの各動作に対するセキュリティ情報がそれぞれ格納される。各動作に対して許可されるのであれば1、抑制されるのであれば0がそれぞれ格納される。また、ユーザごとに許可/抑制の制御を変更する実施形も考えられるが、そのようなときは、この文書制御情報の構成をユーザ情報の次元を新たに加えて3次元化して構成することにより実現できる。   Corresponding to each document identified by the document ID, security information is stored as to how the document should be managed. Corresponding to the document ID, security information is stored for each of the operations 8-1 for copying, 8-2 for FAX, and 8-3 for SEND. 1 is stored for each operation, and 0 is stored for each operation. In addition, an embodiment in which the permission / restriction control is changed for each user is also conceivable. In such a case, the document control information is configured by adding a dimension of user information to a three-dimensional structure. realizable.

図において、文書ID6947の文書はコピー許可、FAX許可、SEND許可であり、文書ID6948の文書はコピーのみ許可であり、FAXとSENDは抑制である。文書ID6949の文書はSENDのみ許可であり、コピーとFAXは抑制である。   In the figure, the document with document ID 6947 is copy permission, FAX permission, and SEND permission, the document with document ID 6948 is only permitted to copy, and FAX and SEND are suppressed. Only SEND is permitted for the document with document ID 6949, and copying and FAX are inhibited.

図9は文字重要度テーブルである。文章内容の類似性を判定する上での、各文字の重要度を示すテーブルである。このテーブルにおいては、全文書に対して各文字の出現する度数を記憶する。   FIG. 9 is a character importance table. It is a table which shows the importance of each character in determining the similarity of text content. In this table, the frequency of occurrence of each character is stored for all documents.

各文字の重要度は、この度数の逆数で算出される。ただし、度数が0の場合は文字の重要度は0とする。これはどの文書にも出現しない文字は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた文字は文章内容の類似性を判定する上では相対的に重要性が低いからである。   The importance of each character is calculated as the reciprocal of this frequency. However, when the frequency is 0, the importance of the character is 0. This is because characters that do not appear in any document are not useful for similarity determination. The reason why the importance is the reciprocal of the frequency is that common characters that appear in many documents are relatively less important in determining the similarity of the text content.

図10は本発明における文書の類似性判定を行う際の類似度算出の式を示した図である。   FIG. 10 is a diagram showing a formula for calculating similarity when determining similarity of documents in the present invention.

文章内容類似度は、比較する2つの文書について、すべての文字(k=1からk=nまで)の出現度数の差の絶対値にその文字の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするので、出現度数の差が小さいほど文章内容類似度の値が大きくなり、文章内容類似度の値が大きいほど類似性が高いと判定できる。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。   Sentence content similarity is obtained by multiplying the two documents to be compared by multiplying the absolute value of the difference in the frequency of appearance of all characters (from k = 1 to k = n) by the importance of the character, and then subtracting it. Expressed with the value of. Since it is negative, it can be determined that the smaller the difference in appearance frequency, the larger the value of the sentence content similarity, and the higher the value of the sentence content similarity, the higher the similarity. Similarly, the layout similarity is set so that the similarity is higher as the similarity value is larger.

総合類似度は基本的にはレイアウト類似度と文章内容類似度と画像内容類似度を加算したものであるが、それぞれの類似度算出の重要性に応じて、重みα、β、γが乗じて加算される。αはレイアウト情報に対する重み、βは文章内容情報に対する重み、γは画像内容情報に対する重みである。α、β、γの値は可変であり、セキュリティ管理の視点に応じて変更可能である。レイアウトや画像に機密性がなく、文章内容のみチェックすればよいのであれば、レイアウト類似度、画像内容類似度の重みα、γの値を小さくする。例えば、レイアウトを一切無視するのであれば、α=0にすればよい。他方、紙幣・有価証券のようにレイアウトについても一定のセキュリティ上の考慮を払い、文章内容と等しく重視したいのであれば、α=1、β=1、γ=1などと設定する。   The total similarity is basically the sum of layout similarity, sentence content similarity, and image content similarity, but weights α, β, and γ are multiplied according to the importance of each similarity calculation. Is added. α is a weight for layout information, β is a weight for text content information, and γ is a weight for image content information. The values of α, β, and γ are variable and can be changed according to the viewpoint of security management. If the layout or image is not confidential and only the text content needs to be checked, the layout similarity and the image content similarity weights α and γ are reduced. For example, if the layout is completely ignored, α = 0 may be set. On the other hand, if a certain security consideration is given to the layout like banknotes / securities, and if it is desired to place the same importance on the text content, α = 1, β = 1, γ = 1, etc. are set.

上述の動作をフローチャートに従って説明する。   The above operation will be described with reference to a flowchart.

図11は本発明文字処理装置の動作、より具体的にはマイクロプロセッサCPUの処理手順を示すフローチャートである。ステップS11-1はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS11-2はタッチパネル等の入力装置、あるいは直接接続・ネットワーク接続されている機器・デバイスからのリクエストなど、何らかのイベントが発生するのをマイクロプロセッサCPUにおいて待つ処理である。イベントが発生すると、ステップS11-3においてマイクロプロセッサCPUがこのイベントを判別し、イベントの種類に応じて各種の処理に分岐する。各種イベントに対応した分岐先の複数の処理をステップS11-4という形でまとめて表現している。図12の文書登録処理、図14の文書管理情報設定処理、図15の文書操作処理(コピー処理、FAX処理、SEND処理)がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、コピー枚数を設定する処理、FAXやSEND先を指定する処理など通常の複写機の処理がある。ステップS11-5は上記の各処理の処理終了を表示する表示処理である。エラーがあった場合のエラー表示、正常終了の場合の表示処理など通常広く行われる処理である。   FIG. 11 is a flowchart showing the operation of the character processing apparatus of the present invention, more specifically, the processing procedure of the microprocessor CPU. Step S11-1 is a system initialization process that initializes various parameters, displays an initial screen, and the like. Step S11-2 is a process in which the microprocessor CPU waits for some event to occur, such as a request from an input device such as a touch panel or a directly connected / network connected device / device. When an event occurs, the microprocessor CPU determines this event in step S11-3, and branches to various processes according to the type of event. A plurality of branch destination processes corresponding to various events are collectively expressed in the form of step S11-4. The document registration process of FIG. 12, the document management information setting process of FIG. 14, and the document operation process (copy process, FAX process, SEND process) of FIG. 15 are part of this branch destination. As other processing, details are not described, but there are normal copying machine processing such as processing for setting the number of copies and processing for specifying a FAX or SEND destination. Step S11-5 is a display process for displaying the end of each process. This process is generally performed widely, such as an error display when there is an error and a display process when the process ends normally.

図12はステップS11-4の一部である文書登録処理を詳細化したフローチャートである。新規文書を登録する際に実行される。新規文書の登録は通常の文書操作処理と同時に行われる。ステップ12-1において通常の文書操作処理、例えば、印刷、コピー、FAX、SENDなどの処理が行われる。この文書操作処理の過程において、コピー・FAX・SENDであればスキャンによって、印刷であればラスタイメージの作成によって、文書のビットマップイメージが取得される。ステップS12-2において、図13に詳述されるように前記取得されたビットマップイメージがブロック解析等され、レイアウト特徴、文章内容特徴、画像内容特徴等の文書特徴量が抽出される。ステップS12-3において、前記取得された文書特徴量が文書特徴量情報に登録される。ステップS12-4において、前記登録された文書内容特徴量を反映して文字重要度テーブルが更新される。   FIG. 12 is a flowchart detailing the document registration process which is a part of step S11-4. Executed when a new document is registered. Registration of a new document is performed simultaneously with normal document operation processing. In step 12-1, normal document operation processing such as printing, copying, FAX, SEND, etc. is performed. In the course of this document operation process, a bitmap image of a document is acquired by scanning if copying, FAX, SEND, or by creating a raster image if printing. In step S12-2, as described in detail in FIG. 13, the acquired bitmap image is subjected to block analysis or the like, and document feature amounts such as layout features, text content features, image content features, etc. are extracted. In step S12-3, the acquired document feature amount is registered in the document feature amount information. In step S12-4, the character importance table is updated to reflect the registered document content feature amount.

図13はステップS12-2の文書解析処理を詳細化したフローチャートである。ステップS13-1において、ビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。ステップS13-2においてテキストブロック中の文字に対して文字認識処理を行い、OCRテキスト情報を抽出する。ステップ13-3において、該抽出されたOCRテキスト情報の各文字に対して予め定められた類似文字グループの代表文字に変換される。ステップS16-3において、ブロック解析されたブロック構造から各ブロックの座標、大きさ(画像ブロックであれば面積、テキストブロックであれば文字数)などのレイアウト特徴が抽出される。ステップS13-5において、代表文字に変換されたテキスト情報から文字の統計データを抽出し、文章内容特徴量である文書ベクトルを生成する。ステップS13-6において、各画像ブロックに対して画像内容特徴量を抽出する。   FIG. 13 is a flowchart detailing the document analysis processing in step S12-2. In step S13-1, the bitmap image is subjected to block analysis and separated into a text block, an image block, and the like. In step S13-2, character recognition processing is performed on the characters in the text block to extract OCR text information. In step 13-3, each character of the extracted OCR text information is converted into a representative character of a predetermined similar character group. In step S16-3, layout features such as the coordinates and size of each block (area for an image block, number of characters for a text block) are extracted from the block structure subjected to block analysis. In step S13-5, character statistical data is extracted from the text information converted into the representative character, and a document vector which is a sentence content feature amount is generated. In step S13-6, an image content feature amount is extracted for each image block.

図14はステップS11-4の一部である文書管理情報設定処理を詳細化したフローチャートである。まず、ステップS14-1において、画面3-5に示す如く、セキュリティ管理者のログイン名・パスワード(ユーザ認証に使用)、及び各文書に設定すべきセキュリティ情報を、ユーザに入力させ、設定ボタンを指示させる。ステップ14-2において入力されたログイン名・パスワードに基づいてユーザ認証が行われる。ステップ14-3において、ユーザ認証が成功したか、すなわち、ユーザ認証によりセキュリティ情報が変更できる権限が認められたかどうかが判定され、ユーザ認証に失敗すれば、情報が変更されずリターンする。ユーザ認証に成功すれば、ステップ14-4において、入力された情報に従って文書のセキュリティ情報が文書管理索引に反映される。   FIG. 14 is a flowchart detailing the document management information setting process which is a part of step S11-4. First, in step S14-1, as shown in screen 3-5, the security administrator login name / password (used for user authentication) and security information to be set for each document are entered by the user, and the setting button is pressed. Let me tell you. User authentication is performed based on the login name and password input in step 14-2. In step 14-3, it is determined whether or not the user authentication has succeeded, that is, whether or not the right to change the security information is recognized by the user authentication. If the user authentication fails, the information is not changed and the process returns. If the user authentication is successful, in step 14-4, the document security information is reflected in the document management index according to the input information.

図15はステップS11-4の一部である文書操作処理を詳細化したフローチャートである。文書操作にはコピー、FAX、SENDなどの処理がある。まず、ステップS15-1において、現在ログインしているユーザのユーザIDを一時変数の参照により取得する。ステップS15-2において、対象となる文書操作の操作ID(コピー、FAX、SENDなど)を取得する。ステップS15-3において紙文書をスキャナで読み取り、ビットマップイメージ化する。ステップS15-4において、図13に詳述した文書解析処理を行い、ビットマップイメージをブロック解析して文書特徴量(レイアウト特徴量、文章内容特徴量、画像内容特徴量)を抽出する。ステップS18-5において、図16に詳述するように、文書操作制御処理を行い、各権限に従って文書操作を行う。   FIG. 15 is a flowchart detailing the document operation process which is a part of step S11-4. Document operations include processes such as copying, FAX, and SEND. First, in step S15-1, the user ID of the currently logged-in user is acquired by referring to a temporary variable. In step S15-2, the operation ID (copy, FAX, SEND, etc.) of the target document operation is acquired. In step S15-3, the paper document is read by a scanner and converted into a bitmap image. In step S15-4, the document analysis process detailed in FIG. 13 is performed, and the bitmap image is subjected to block analysis to extract document feature values (layout feature value, text content feature value, image content feature value). In step S18-5, as will be described in detail with reference to FIG. 16, document operation control processing is performed, and the document operation is performed according to each authority.

図16はステップS15-5を詳細化した文書操作制御処理である。ステップS16-1において、抽出された特徴量に対して文書管理索引をサーチし、図10に示すようにレイアウト類似度、文章内容類似度、画像内容類似度から総合類似度を算出する。ステップS16-2において、総合類似度に従ってランキングし、元文書の文書IDを決定する。ステップS16-3において、元文書のセキュリティ情報を文書管理索引から抽出する。ステップS16-4において、セキュリティ情報に従って該当文書操作が抑制対象であるかどうかを判定し、特に抑制すべき操作でない場合はステップS16-5に分岐し、通常の文書操作処理を実行しリターンする。分析の結果、抑制対象である場合は、ステップS16-6に分岐し、文書操作を抑制すると共に、決定された元文書の文書ID情報を含むエラーメッセージを表示し、リターンする。   FIG. 16 shows the document operation control process in which step S15-5 is detailed. In step S16-1, the document management index is searched for the extracted feature quantity, and the overall similarity is calculated from the layout similarity, sentence content similarity, and image content similarity as shown in FIG. In step S16-2, ranking is performed according to the overall similarity, and the document ID of the original document is determined. In step S16-3, the security information of the original document is extracted from the document management index. In step S16-4, it is determined whether or not the corresponding document operation is a suppression target according to the security information. If the operation is not to be specifically suppressed, the process branches to step S16-5, executes normal document operation processing, and returns. As a result of the analysis, if it is a suppression target, the process branches to step S16-6, suppresses the document operation, displays an error message including the document ID information of the determined original document, and returns.

(他の実施例)
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
(Other examples)
Note that the present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention.

上述の実施形態においては、類似文字グループの代表文字を求める際に、まず、通常の文字認識を行ってから、テーブルを参照するなどして代表文字を求めているが、文字認識処理において、いきなり、代表文字を求め、出力するように構成することもできる。この場合、本来の目的の文字認識とは異なる別種の文字認識処理をこの原本検索の機構に組み入れることになる。このようにすることで、文字認識処理の処理時間負荷の軽減にもつながり、全体的な処理速度の向上というメリットが得られることになる。   In the above-described embodiment, when obtaining a representative character of a similar character group, first, after performing normal character recognition, the representative character is obtained by referring to a table or the like. The representative character may be obtained and output. In this case, another type of character recognition processing different from the original character recognition is incorporated into the original search mechanism. By doing so, the processing time load of the character recognition process can be reduced, and the merit of improving the overall processing speed can be obtained.

また、類似文字グループの代表文字は通常の文字コードであるとしているが、文字コードとはせず、文字グループを表現する特別なコード体系にマッピングすることもできる。このようにすることでコードセットのサイズが小さくなり、コードを表現するビット数がより少なくて済み、必要なメモリサイズを少なくすることができ、よりコンパクトな装置を実現することができる。   The representative character of the similar character group is assumed to be a normal character code, but it can be mapped to a special code system that expresses the character group instead of the character code. By doing so, the size of the code set can be reduced, the number of bits expressing the code can be reduced, the required memory size can be reduced, and a more compact device can be realized.

上記以外にも、本発明の趣旨を逸脱しない限りにおいて、構成を適宜変更することが可能である。   In addition to the above, the configuration can be changed as appropriate without departing from the spirit of the present invention.

本実施例の文字処理装置の全体構成を示すブロック図である。It is a block diagram which shows the whole structure of the character processing apparatus of a present Example. 本実施例の文字処理装置における操作例を示した図である。It is the figure which showed the example of operation in the character processing apparatus of a present Example. 本実施例の文字処理装置における画面遷移例を示した図である。It is the figure which showed the example of a screen transition in the character processing apparatus of a present Example. ブロック解析の例を示した図である。It is the figure which showed the example of the block analysis. OCRテキストからのテキスト特徴抽出の例を示した図である。It is the figure which showed the example of the text feature extraction from OCR text. 本実施例の文字処理装置における文書管理索引の構成を示した図である。It is the figure which showed the structure of the document management index in the character processing apparatus of a present Example. 本実施例の文字処理装置における文章内容特徴量の構成を示した図である。It is the figure which showed the structure of the text content feature-value in the character processing apparatus of a present Example. 本実施例の文字処理装置における文書制御情報の構成を示した図である。It is the figure which showed the structure of the document control information in the character processing apparatus of a present Example. 本実施例の文字処理装置における文字重要度テーブルの構成を示した図である。It is the figure which showed the structure of the character importance degree table in the character processing apparatus of a present Example. 本実施例の文字処理装置における類似度の算出方法を示した図である。It is the figure which showed the calculation method of the similarity degree in the character processing apparatus of a present Example. 本実施例の文字処理装置全体の処理手順の一例を示すフローチャートであるIt is a flowchart which shows an example of the process sequence of the whole character processing apparatus of a present Example. 文書登録処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a document registration process. 文書解析処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a document analysis process. 文書管理情報設定処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a document management information setting process. 文書操作処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a document operation process. 文書操作制御処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a document operation control process.

Claims (6)

文字を処理する文字処理装置であって、文書のコピーを指示するコピー指示手段と,記録用紙に記録された文書内容を読み取る読取手段と,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識手段と,該文字認識されたテキストの類似性に基づいて元文書を検索する検索手段と,該検索された元文書の情報に基づいてコピーを実行するコピー実行手段とを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識手段が出力するテキストに含まれるコードは各類似文字群を表現するコードであることを特徴とする文字処理装置。   A character processing apparatus for processing characters, comprising: a copy instructing unit for instructing copying of a document; a reading unit for reading a document content recorded on a recording sheet; and subjecting a document image read by the reading unit to OCR Character recognition means for converting into text, search means for searching for an original document based on similarity of the recognized text, and copy execution means for executing copy based on information of the searched original document , Each character is previously divided into similar character groups based on morphological similarity, and the code included in the text output by the character recognition means is a code expressing each similar character group Character processing unit. 文字を処理する文字処理装置であって、文書の移動を指示する文書移動指示手段と,記録用紙に記録された文書内容を読み取る読取手段と,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識手段と,該文字認識されたテキストの類似性に基づいて元文書を検索する検索手段と,該検索された元文書の情報に基づいて文書移動を実行する文書移動実行手段とを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識手段が出力するテキストに含まれるコードは各類似文字群を表現するコードであることを特徴とする文字処理装置。   A character processing apparatus for processing characters, a document movement instructing unit for instructing movement of a document, a reading unit for reading the contents of a document recorded on a recording sheet, and applying OCR to a document image read by the reading unit Character recognition means for converting the text into text, search means for searching for the original document based on the similarity of the character-recognized text, and document movement execution means for executing the document movement based on the information of the searched original document Each character is previously divided into similar character groups based on morphological similarity, and the code included in the text output by the character recognition means is a code representing each similar character group. Character processing device. 文字を処理する文字処理装置に適用される文字処理方法であって、文書のコピーを指示するコピー指示ステップと,記録用紙に記録された文書内容を読み取る読取ステップと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップと,該検索された元文書の情報に基づいてコピーを実行するコピー実行ステップとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップが出力するテキストに含まれるコードは各類似文字群を表現するコードであることを特徴とする文字処理方法。   A character processing method applied to a character processing apparatus for processing characters, a copy instruction step for instructing copying of a document, a reading step for reading the document content recorded on a recording sheet, and a reading means read by the reading means A character recognition step for converting the document image into text by OCR, a search step for searching the original document based on the similarity of the character-recognized text, and copying based on the information of the searched original document A copy execution step, wherein each character is previously divided into similar character groups based on morphological similarity, and the code included in the text output by the character recognition step is a code representing each similar character group The character processing method characterized by being. 文字を処理する文字処理装置に適用される文字処理方法であって、文書の移動を指示する文書移動指示ステップと,記録用紙に記録された文書内容を読み取る読取ステップと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップと,該検索された元文書の情報に基づいて文書移動を実行する文書移動実行ステップとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップが出力するテキストに含まれるコードは各類似文字群を表現するコードであることを特徴とする文字処理方法。   A character processing method applied to a character processing apparatus for processing characters, a document movement instruction step for instructing movement of a document, a reading step for reading the contents of a document recorded on a recording sheet, and read by the reading means Character recognition step for converting the document image to OCR and converting it to text, a search step for searching the original document based on the similarity of the character-recognized text, and document movement based on the information of the retrieved original document A character movement execution step for executing the following: each character is previously divided into similar character groups based on morphological similarity, and the code included in the text output by the character recognition step includes each similar character group. A character processing method characterized by being a code to be expressed. 文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書のコピーを指示するコピー指示ステップのプログラムコードと,記録用紙に記録された文書内容を読み取る読取ステップのプログラムコードと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップのプログラムコードと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップのプログラムコードと,該検索された元文書の情報に基づいてコピーを実行するコピー実行ステップのプログラムコードとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップのプログラムコードが出力するテキストに含まれるコードは各類似文字群を表現するコードであることを特徴とするコンピュータ可読記録媒体。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus for processing characters, the program code of a copy instruction step for instructing copying of a document, and a document recorded on a recording sheet Based on the similarity between the program code of the reading step for reading the content, the program code of the character recognition step for converting the document image read by the reading means to OCR and converting it into text, and the character recognition text A program code for a search step for searching, and a program code for a copy execution step for executing copying based on the information of the searched original document, each character is previously stored in a similar character group based on morphological similarity. Are included in the text output by the program code of the character recognition step. Computer-readable recording medium comprising a code is a code representing each similar character group of. 文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書の移動を指示する文書移動指示ステップのプログラムコードと,記録用紙に記録された文書内容を読み取る読取ステップのプログラムコードと,該読取手段により読み取られた文書イメージにOCRをかけてテキスト化する文字認識ステップのプログラムコードと,該文字認識されたテキストの類似性に基づいて元文書を検索する検索ステップのプログラムコードと,該検索された元文書の情報に基づいて文書移動を実行する文書移動実行ステップのプログラムコードとを備え,各文字は形態的な類似性に基づいて類似文字群に予め区分されており,該文字認識ステップのプログラムコードが出力するテキストに含まれるコードは各類似文字群を表現するコードであることを特徴とするコンピュータ可読記録媒体。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus for processing characters, recorded on a recording sheet and a program code of a document movement instruction step for instructing movement of a document Based on the similarity between the program code of the reading step for reading the document content, the program code of the character recognition step for converting the document image read by the reading means to OCR and converting it into text, and the character recognition text And a program code for a document movement execution step for executing document movement based on the retrieved original document information, each character being a similar character based on morphological similarity Text that is divided into groups and output by the program code of the character recognition step Computer readable recording medium characterized in that code included is a code representing each similar character group.
JP2005232102A 2005-08-10 2005-08-10 Character processing device, character processing method, and recording medium Withdrawn JP2007048061A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005232102A JP2007048061A (en) 2005-08-10 2005-08-10 Character processing device, character processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005232102A JP2007048061A (en) 2005-08-10 2005-08-10 Character processing device, character processing method, and recording medium

Publications (1)

Publication Number Publication Date
JP2007048061A true JP2007048061A (en) 2007-02-22

Family

ID=37850829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005232102A Withdrawn JP2007048061A (en) 2005-08-10 2005-08-10 Character processing device, character processing method, and recording medium

Country Status (1)

Country Link
JP (1) JP2007048061A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009060498A (en) * 2007-09-03 2009-03-19 Fuji Xerox Co Ltd Image processing apparatus and image processing program
WO2010044123A1 (en) 2008-10-14 2010-04-22 三菱電機株式会社 Search device, search index creating device, and search system
JP2019508761A (en) * 2016-03-31 2019-03-28 ドロップボックス, インコーポレイテッド Intelligent identification and presentation of digital documents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009060498A (en) * 2007-09-03 2009-03-19 Fuji Xerox Co Ltd Image processing apparatus and image processing program
WO2010044123A1 (en) 2008-10-14 2010-04-22 三菱電機株式会社 Search device, search index creating device, and search system
JP2019508761A (en) * 2016-03-31 2019-03-28 ドロップボックス, インコーポレイテッド Intelligent identification and presentation of digital documents

Similar Documents

Publication Publication Date Title
US8326090B2 (en) Search apparatus and search method
JP4350414B2 (en) Information processing apparatus, information processing method, storage medium, and program
JP5042562B2 (en) Image processing apparatus, handwritten information recognition method, handwritten information recognition program
US8203732B2 (en) Searching for an image utilized in a print request to detect a device which sent the print request
JP5223284B2 (en) Information retrieval apparatus, method and program
US20080115080A1 (en) Device, method, and computer program product for information retrieval
JP5660100B2 (en) Document management server, document management server control method and program thereof, document management system, document management system control method and program thereof
JP2009169536A (en) Information processor, image forming apparatus, document creating method, and document creating program
JP2007141159A (en) Image processor, image processing method, and image processing program
US20090150359A1 (en) Document processing apparatus and search method
US20220068276A1 (en) Information processor, print system, and control method
JP2008204184A (en) Image processor, image processing method, program and recording medium
JP2006093917A (en) Image reading apparatus and image processor, and image forming apparatus
JP2007048053A (en) Document processing method, document processing device, and program
JP2015187846A (en) Document processing system and document processor
JP2007048061A (en) Character processing device, character processing method, and recording medium
JP2006279545A (en) Information processor, information processing method, and program therefor
JP2004334341A (en) Document retrieval system, document retrieval method, and recording medium
US8451461B2 (en) Information processor, information processing system, and computer readable medium
JP2004348467A (en) Image retrieval apparatus and its control method, program
JP2007018158A (en) Character processor, character processing method, and recording medium
JP2005149323A (en) Image processing system, image processing apparatus, and image processing method
JP2007323415A (en) Information retrieval device, information retrieval system, control method of information retrieval device, and medium for providing control program
JP2001101213A (en) Information processor, document managing device, information processing sysetm, information managing method and storage medium
JP6662108B2 (en) Image conversion program, image conversion apparatus, and image conversion method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081104