JP2006261907A - Character processing device, character processing method, and recording medium - Google Patents

Character processing device, character processing method, and recording medium Download PDF

Info

Publication number
JP2006261907A
JP2006261907A JP2005074880A JP2005074880A JP2006261907A JP 2006261907 A JP2006261907 A JP 2006261907A JP 2005074880 A JP2005074880 A JP 2005074880A JP 2005074880 A JP2005074880 A JP 2005074880A JP 2006261907 A JP2006261907 A JP 2006261907A
Authority
JP
Japan
Prior art keywords
document
copy
text
character processing
document type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005074880A
Other languages
Japanese (ja)
Inventor
Eiichiro Toshima
英一朗 戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005074880A priority Critical patent/JP2006261907A/en
Publication of JP2006261907A publication Critical patent/JP2006261907A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Facsimiles In General (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)
  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To estimate the types of documents from their contents, and to perform prohibitions, such as the prohibition of copy, prohibition of printing, etc, corresponding to the types of the documents. <P>SOLUTION: Page images scanned or rasterized are sent to an OCR for extracting texts, and the type of a document is judged from its layout or its content. Prohibition, such as the prohibition of copy etc, is imposed on the document in accordance with its type. It is judged resting on the number of inherent expressions extracted from the text whether the document is a nominal list or not, and the nominal list is prohibited to be copied or printed. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、紙文書をスキャンしてコピー、FAX、送信等の処理、あるいは電子文書を指定して印刷を行うための文字処理装置、文字処理方法及び記録媒体に関するものである。   The present invention relates to a character processing apparatus, a character processing method, and a recording medium for scanning a paper document and performing processing such as copying, FAX, and transmission, or specifying an electronic document for printing.

近年の複写機は多機能化が進み、単に紙をコピーする機能だけでなく、例えば、PCに接続してプリンタとして電子文書を印刷する機能、スキャンした原稿をFAX転送するFAX機能、メール転送する送信機能なども提供されている。今や、ドキュメントのデジタル化の流れにおいて、文書管理と連携するドキュメント・ソリューションを実現するキーコンポーネントとして位置付けられている。   In recent years, copiers have become more and more multifunctional, not just for copying paper, but for example, connecting to a PC to print electronic documents as a printer, FAX function for faxing scanned documents, and email forwarding A transmission function is also provided. Now, in the flow of digitization of documents, it is positioned as a key component that realizes document solutions that cooperate with document management.

このような中、複写機においてはセキュリティに対する考慮が重視されるようになっており、スキャン情報あるいは印刷情報の漏洩防止技術としてコピー・印刷抑制機能などが提案されている。   Under such circumstances, in the copying machine, security considerations are emphasized, and a copy / print suppression function or the like is proposed as a technique for preventing leakage of scan information or print information.

このようなコピー・印刷抑制機能については、これまでにも様々な機能が提案され、いくつかは複写機に実装されてきた。商品券、有価証券などの特定原稿のコピー抑制を目的として、特定原稿に対して付加情報を付与するなど原稿を加工して出力する技術が提案されている(例えば〔特許文献1〕参照)。この提案においては、特定原稿であるかどうか判定する手段として入力画像を特定原稿画像の画像データ同士を比較して類似度を求める技術が開示されている。このような画像データを直接比較する技術は、紙幣など画像パターンが定まっている場合のコピー・印刷抑制に効果が期待できるが、住所録、名簿などのように文章内容が特定できない場合の抑制には効果が薄い。例えば、住所録にどのような人名や住所が出現するかは網羅することはできない。   Various functions have been proposed for such copy / print suppression functions, and some have been implemented in copiers. For the purpose of suppressing the copy of a specific manuscript such as a gift certificate or securities, a technique for processing and outputting a manuscript such as adding additional information to a specific manuscript has been proposed (see, for example, [Patent Document 1]). In this proposal, as a means for determining whether or not a document is a specific document, a technique is disclosed in which an input image is compared with image data of specific document images to obtain a similarity. Such direct comparison of image data can be expected to be effective in suppressing copying / printing when image patterns are fixed, such as banknotes, but it can also be used in cases where text content cannot be specified, such as address books and directories. Is less effective. For example, it is impossible to cover what names and addresses appear in the address book.

機密性が高い文書の処理に対してオペレータに注意を促す技術を開示している(例えば〔特許文献2〕参照)。機密性が高いかどうかは、原稿画像を文字認識して文字化した上で「極秘」などの特定の記号列が含まれているかどうかで判断している。これは、予め機密文書に特定の文字列を文章中、あるいは表題に付加するなどの運用が必要になり、効果が限定的である。例えば、不正使用者が「極秘」などの文字列を原稿から消すだけで、コピー・印刷抑制機能を容易に回避されてしまう。   A technique for alerting an operator to processing a document with high confidentiality is disclosed (for example, see [Patent Document 2]). Whether the confidentiality is high or not is determined based on whether or not a specific symbol string such as “top secret” is included after character recognition of the original image. This requires an operation such as adding a specific character string to the confidential document in the sentence or the title beforehand, and has a limited effect. For example, if the unauthorized user simply deletes a character string such as “confidential” from the document, the copy / print suppression function can be easily avoided.

次に、紙に予めバーコードなどで著作物名称を付与しておき、ホストコンピュータから著作権情報を入手しコピーを続行するかどうかオペレータに問い合わせる技術を開示している(例えば〔特許文献3〕参照)。この方式ではバーコードなどの付加情報を印刷時に予め付与しておく必要がある。例えば、紙文書配布後にコピー管理が必要になった場合など、臨機応変なセキュリティ管理ができない。   Next, a technique is disclosed in which a copyrighted work name is given to paper in advance using a barcode or the like, and copyright information is obtained from a host computer and an operator is inquired whether to continue copying (for example, [Patent Document 3]). reference). In this method, additional information such as a barcode needs to be given in advance at the time of printing. For example, ad hoc security management is not possible, such as when copy management is required after paper documents are distributed.

最後に、文書に指定キーワードが含まれるかどうかを判定し、指定キーワードを含む文書の検索を抑制する技術を開示している(例えば〔特許文献4〕参照)。このようなキーワードを逐一指定する方法では、住所録や名簿のコピー・印刷を禁止したい場合には、個々の人名・住所などをキーワードとして網羅的に指定する必要があり、現実的には対応できない。   Finally, a technique is disclosed in which it is determined whether or not a specified keyword is included in a document, and a search for a document including the specified keyword is suppressed (see, for example, [Patent Document 4]). In such a method of specifying keywords one by one, if it is desired to prohibit copying / printing of address book or directory, it is necessary to specify each person's name / address as a keyword comprehensively, which is not practical. .

このような過去の提案は、レイアウトが一定であったり、必ずバーコードが付与されていたり、必ず所定のキーワードを含んでいたりする、統制のとれたドキュメントを対象としたものであり、住所録、名簿などの情報漏洩防止に対しては、必ずしも有効ではなかった。このような画像データの直接比較や、固定キーワードの比較や、バーコードなどの付与情報に基づくコピー・印刷抑制ではなく、文章内容の統計など文書特徴に基づいて判断する機能が必要であるが、そのような提案はなかった。
特開平5−110815号公報 特開2001−266112号公報 特開平7−129270号公報 特開平10−187542号公報
These past proposals are for controlled documents that have a consistent layout, are always given barcodes, and always contain certain keywords, It was not always effective in preventing information leakage such as a directory. It is necessary to have a function to make a judgment based on document characteristics such as statistics of text content, not direct comparison of image data, comparison of fixed keywords, and copy / print suppression based on attached information such as barcodes. There was no such proposal.
Japanese Patent Laid-Open No. 5-110815 JP 2001-266112 A JP 7-129270 A Japanese Patent Laid-Open No. 10-187542

本発明は、上記述べた課題を解決しようというものである。   The present invention is intended to solve the above-described problems.

すなわち、コピー抑制するかどうかを、画像パターンや特定キーワードではなく、文書全体から抽出される文書特徴によって判断し、統制されておらず、内容も固定していない、住所録・名簿などの機密文書にあまねく適用可能なコピー・印刷抑制機能を提供しようというものである。   In other words, whether to suppress copying is determined not by image patterns or specific keywords, but by document features extracted from the entire document, and is not controlled and confidential documents such as address books and directories that are not fixed. It is intended to provide a copy / print suppression function that can be applied to a wide range.

上記目的を達成するために本発明による文字処理装置は以下の構成を備える。   In order to achieve the above object, a character processing apparatus according to the present invention comprises the following arrangement.

即ち、文字を処理する文字処理装置であって、文書コピーの指示を受け付けるコピー指示手段と、記録用紙に記録された文書内容を読み取ってテキスト化する文書読取手段と、該テキストに基づいて文書タイプを推定する文書タイプ推定手段と、該文書タイプに基づいてコピーの可否を判断するコピー可否判断手段と、該コピー可否判断手段によりコピー抑制と判断されたときに該文書のコピーを抑制するコピー抑制手段とを備える。   That is, a character processing device for processing characters, a copy instruction means for receiving a document copy instruction, a document reading means for reading a document content recorded on a recording sheet into text, and a document type based on the text A document type estimation unit for estimating the copy, a copy permission determination unit for determining whether copying is possible based on the document type, and a copy suppression that suppresses copying of the document when the copy permission determination unit determines that the copy is suppressed Means.

また、文字を処理する文字処理装置であって、文書印刷の指示を受け付ける印刷指示手段と、文書内容からテキストを抽出するテキスト抽出手段と、該テキストに基づいて文書タイプを推定する文書タイプ推定手段と、該文書タイプに基づいて印刷の可否を判断する印刷可否判断手段と、該印刷可否判断手段により印刷抑制と判断されたときに該文書の印刷を抑制する印刷抑制手段とを備える。   Also, a character processing device for processing characters, a print instruction means for receiving a document print instruction, a text extraction means for extracting text from the document content, and a document type estimation means for estimating the document type based on the text And a print propriety determining unit that determines whether or not printing is possible based on the document type, and a print suppression unit that suppresses printing of the document when the print propriety determining unit determines that printing is to be suppressed.

また、文字を処理する文字処理装置であって、前記テキストから固有表現を抽出する固有表現抽出手段と、前記抽出された固有表現の数を算出する固有表現数算出手段とを更に備え、前記文書タイプ推定手段は前記算出された固有表現数に応じて前記文書タイプが名簿タイプであるかどうかを判定する。   A character processing apparatus for processing characters, further comprising: a specific expression extracting unit that extracts a specific expression from the text; and a specific expression number calculating unit that calculates the number of the extracted specific expressions. The type estimation means determines whether or not the document type is a name list type according to the calculated number of unique expressions.

上記目的を達成するために本発明による文字処理方法は以下の構成を備える。   In order to achieve the above object, a character processing method according to the present invention comprises the following arrangement.

即ち、文字を処理する文字処理装置に適用される文字処理方法であって、文書コピーの指示を受け付けるコピー指示ステップと、記録用紙に記録された文書内容を読み取ってテキスト化する文書読取ステップと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップと、該文書タイプに基づいてコピーの可否を判断するコピー可否判断ステップと、該コピー可否判断ステップによりコピー抑制と判断されたときに該文書のコピーを抑制するコピー抑制ステップとを備える。   That is, a character processing method applied to a character processing apparatus for processing characters, a copy instruction step for receiving a document copy instruction, a document reading step for reading a document content recorded on a recording sheet and converting it into text, A document type estimating step for estimating a document type based on the text, a copy permission determining step for determining whether copying is possible based on the document type, and the document when copy suppression is determined by the copying permission determining step A copy suppression step for suppressing copying of

また、文字を処理する文字処理装置に適用される文字処理方法であって、文書印刷の指示を受け付ける印刷指示ステップと、文書内容からテキストを抽出するテキスト抽出ステップと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップと、該文書タイプに基づいて印刷の可否を判断する印刷可否判断ステップと、該印刷可否判断手段により印刷抑制と判断されたときに該文書の印刷を抑制する印刷抑制ステップとを備える。   A character processing method applied to a character processing apparatus for processing characters, a print instruction step for receiving a document print instruction, a text extraction step for extracting text from document contents, and a document type based on the text A document type estimation step for estimating the printability, a printability determination step for determining whether or not printing is possible based on the document type, and a print suppression that suppresses printing of the document when the printability determination means determines that printing is to be suppressed Steps.

また、文字を処理する文字処理装置に適用される文字処理方法であって、前記テキストから固有表現を抽出する固有表現抽出ステップと、前記抽出された固有表現の数を算出する固有表現数算出ステップとを更に備え、前記文書タイプ推定ステップは前記算出された固有表現数に応じて前記文書タイプが名簿タイプであるかどうかを判定する。   Also, a character processing method applied to a character processing device for processing characters, a specific expression extraction step for extracting a specific expression from the text, and a specific expression number calculation step for calculating the number of the extracted specific expressions The document type estimating step determines whether the document type is a name list type according to the calculated number of unique expressions.

上記目的を達成するために本発明による記録媒体は以下の構成を備える。   In order to achieve the above object, a recording medium according to the present invention comprises the following arrangement.

即ち、文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書コピーの指示を受け付けるコピー指示ステップのプログラムコードと、記録用紙に記録された文書内容を読み取ってテキスト化する文書読取ステップのプログラムコードと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップのプログラムコードと、該文書タイプに基づいてコピーの可否を判断するコピー可否判断ステップのプログラムコードと、該コピー可否判断ステップによりコピー抑制と判断されたときに該文書のコピーを抑制するコピー抑制ステップのプログラムコードとを備える。   That is, a computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus that processes characters, and recorded on a recording sheet and a copy instruction step program code for receiving a document copy instruction The program code of the document reading step for reading the document content into text, the program code of the document type estimating step for estimating the document type based on the text, and the copying permission / non-permission determining whether copying is possible based on the document type And a program code for a copy suppression step for suppressing copying of the document when copy suppression is determined by the copy permission determination step.

また、文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書印刷の指示を受け付ける印刷指示ステップのプログラムコードと、文書内容からテキストを抽出するテキスト抽出ステップのプログラムコードと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップのプログラムコードと、該文書タイプに基づいて印刷の可否を判断する印刷可否判断ステップのプログラムコードと、該印刷可否判断手段により印刷抑制と判断されたときに該文書の印刷を抑制する印刷抑制ステップのプログラムコードとを備える。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus that processes characters, wherein the program code of a print instruction step for receiving a document print instruction and text from the document content A program code of a text extraction step to extract, a program code of a document type estimation step of estimating a document type based on the text, a program code of a print permission determination step of determining whether printing is possible based on the document type, And a program code of a print suppression step for suppressing printing of the document when the print permission determination unit determines that the print is suppressed.

また、文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、前記テキストから固有表現を抽出する固有表現抽出ステップのプログラムコードと、前記抽出された固有表現の数を算出する固有表現数算出ステップのプログラムコードとを更に備え、前記文書タイプ推定ステップは前記算出された固有表現数に応じて前記文書タイプが名簿タイプであるかどうかを判定する。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus that processes characters, the program code of a specific expression extraction step for extracting a specific expression from the text, and the extraction And a program code for calculating a number of unique expressions for calculating the number of unique expressions, wherein the document type estimating step determines whether the document type is a name list type according to the calculated number of specific expressions. To do.

以上の説明から明らかなように、本発明によれば、文章内容から文書の種別を特定し、その文書種別に基づいてコピー、印刷等のアクションの可否を判断できるので、所定の文章種別の文書のコピー禁止、印刷禁止、などを網羅的に設定できるので、セキュリティを柔軟に管理することができるので、操作性の高い文字処理装置を提供できる。   As is clear from the above description, according to the present invention, the document type can be specified from the text content, and whether or not an action such as copying or printing can be determined based on the document type can be determined. Copy prohibition, print prohibition, and the like can be comprehensively set, and security can be flexibly managed, so that a character processing device with high operability can be provided.

<実施形態1>
以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。
<Embodiment 1>
DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.

図1は本発明を適用した文字処理装置の構成を示すブロック図である。   FIG. 1 is a block diagram showing the configuration of a character processing apparatus to which the present invention is applied.

図示の構成において、CPUはマイクロプロセッサであり、画像処理、文字処理、認識処理のための演算、論理判断等を行い、バスを介してバスに接続された各構成要素を制御する。   In the configuration shown in the figure, the CPU is a microprocessor, performs calculation for image processing, character processing, recognition processing, logical determination, and the like, and controls each component connected to the bus via the bus.

BUSはバスであり、マイクロプロセッサCPUの制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。   BUS is a bus and transfers an address signal and a control signal instructing each component to be controlled by the microprocessor CPU. In addition, data transfer between each component is performed.

RAMは読み書き可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶に用いる。   The RAM is a readable / writable random access memory and is used for primary storage of various data from each component.

ROMは読出し専用の不揮発性メモリである。マイクロプロセッサCPUによるブートプログラムを記憶する。ブートプログラムはシステム起動時にハードディスクに記憶された制御プログラムをRAMにロードし、マイクロプロセッサCPUに実行させる。制御プログラムについては、後にフローチャートを参照して詳述する。   ROM is a read-only nonvolatile memory. The boot program by the microprocessor CPU is stored. The boot program loads a control program stored in the hard disk into the RAM when the system is started, and causes the microprocessor CPU to execute it. The control program will be described in detail later with reference to a flowchart.

入力装置はタッチパネル等である。通常のPCの様にキーボード、マウス等で構成することもできる。   The input device is a touch panel or the like. It can be configured with a keyboard, mouse, etc. like a normal PC.

表示装置は液晶ディスプレイ等である。通常のPCの様にCRT等で構成することもできる。   The display device is a liquid crystal display or the like. It can also be configured with a CRT, etc. like a normal PC.

スキャナは原稿である紙文書を読み取ってデジタル化する等の処理を行う装置である。   The scanner is a device that performs processing such as reading and digitizing a paper document as a document.

プリンタは文書を印刷するための装置である。通信回線より送られるPDL(印刷制御言語)形式の電子文書を印刷する。コピー機能は、スキャナから読み取られたスキャン画像をそのままプリンタにより印刷することにより実現される。   A printer is a device for printing a document. An electronic document in PDL (print control language) format sent from the communication line is printed. The copy function is realized by printing a scanned image read from the scanner as it is by a printer.

HDはハードディスクであり、CPUにより実行される制御プログラム、自然言語解析を行うための形態素解析辞書、文書種別をレイアウトに応じて判定するための文書種別レイアウトテーブル、固有表現を記述した固有表現辞書、形態から固有表現を判定するための固有表現ルール、文書に対するアクションを許可すべきか抑制すべきかを判断するための文書制御情報等が格納されて、必要に応じてRAMに示す主記憶にロードされ参照され、必要に応じて変更されHDに書き戻される。   HD is a hard disk, a control program executed by the CPU, a morphological analysis dictionary for performing natural language analysis, a document type layout table for determining a document type according to a layout, a specific expression dictionary describing a specific expression, The unique expression rule for determining the specific expression from the form, the document control information for determining whether the action for the document should be permitted or suppressed, and the like are stored and loaded into the main memory shown in the RAM for reference as necessary. Is changed as necessary and written back to the HD.

なお、形態素解析辞書には一般の自然言語解析で提案されている必要な情報、例えば、単語表記、品詞情報、活用情報、単語共起情報などが格納される。   The morphological analysis dictionary stores necessary information proposed in general natural language analysis, such as word notation, part-of-speech information, utilization information, and word co-occurrence information.

リムーバブル外部記憶装置はUSBメモリデバイス、ICカード等の着脱可能な記憶デバイスである。通常のPCと同様に、フロップーディスクやCD、DVD等の外部記憶にアクセスするためのドライブ等を配置することもできる。上記HDと同様に使用でき、それらの記録媒体を通じて他の文字処理装置とデータ交換を行う装置である。なお、ハードディスクに記憶される制御プログラムについては、これらの外部記憶装置から必要に応じて全部または一部をHDにコピーすることができる。   The removable external storage device is a removable storage device such as a USB memory device or an IC card. As with a normal PC, a drive for accessing an external storage such as a flop-flop disk, CD, or DVD can be arranged. It is a device that can be used in the same manner as the HD and exchanges data with other character processing devices through these recording media. Note that the control program stored in the hard disk can be entirely or partially copied from these external storage devices to HD as necessary.

通信装置はネットワークコントローラである。通信回線を介して外部とのデータ交換を行う装置である。   The communication device is a network controller. A device for exchanging data with the outside via a communication line.

かかる各構成要素からなる本発明文字処理装置においては、入力装置等からの各種イベントに応じて作動するものである。入力装置等からのインタラプトが供給されると信号がマイクロプロセッサCPUに送られ、それに伴ってイベントが発生し、イベントに応じてCPUがROMまたはRAM内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。   The character processing apparatus according to the present invention composed of these components operates according to various events from the input device or the like. When an interrupt from an input device is supplied, a signal is sent to the microprocessor CPU, and an event is generated accordingly, and the CPU reads various instructions stored in the ROM or RAM according to the event, Various controls are performed.

図2は本発明における操作の流れの例を示した図である。   FIG. 2 is a diagram showing an example of the operation flow in the present invention.

MFPは複写機である。MFP上で紙原稿のコピーが指示されると文書をスキャンし文書画像が得られる。あるいはPCからある電子文書が指定されMFPに向かって印刷指示が出されると、電子文書がラスタライズされ、同様な文書画像が得られる。   The MFP is a copying machine. When a copy of a paper document is instructed on the MFP, the document is scanned and a document image is obtained. Alternatively, when a certain electronic document is designated from the PC and a print instruction is issued to the MFP, the electronic document is rasterized and a similar document image is obtained.

MFP上で文書画像が解析され、文書種別が推定され、文書種別に付随した文書制御情報に基づいてコピーの指示が実行されるか、あるいは抑制されるかが判断される。文書制御情報が「アクション許可」の場合は文書画像がそのまま出力され、通常のコピー(印刷)処理が行われる。「アクション抑制」の場合は、コピー(印刷)のアクションが抑制され、アクションが拒絶された旨、MFPの表示面上に表示される。   The document image is analyzed on the MFP, the document type is estimated, and it is determined whether the copy instruction is executed or suppressed based on the document control information attached to the document type. When the document control information is “action permitted”, the document image is output as it is, and normal copy (print) processing is performed. In the case of “action suppression”, a copy (printing) action is suppressed, and a message indicating that the action has been rejected is displayed on the display screen of the MFP.

図3は本発明における複写機の操作パネル等の画面遷移例を示した図である。画面3−1は初期状態の画面である。各種アクションを起動するためのボタン(コピーボタン等)が配置されている。印刷の指示はPCから行われるので、ここには印刷ボタンが配置されていない。コピーボタンがタッチされるとは、コピーの可否が判定され、コピー許可されていれば何事もなくコピー動作が遂行される。コピー動作が正常に遂行され終了した場合は「コピー終了」と表示される(画面3−2)。もしコピー抑制と判定されるとコピー動作は遂行されず、動作が遂行されない根拠が通知される(画面3−3)。   FIG. 3 is a diagram showing an example of screen transition of the operation panel of the copying machine according to the present invention. Screen 3-1 is a screen in an initial state. Buttons (such as a copy button) for starting various actions are arranged. Since the print instruction is issued from the PC, no print button is arranged here. When the copy button is touched, it is determined whether or not copying is possible. If copying is permitted, the copying operation is performed without any problem. When the copy operation is normally completed and completed, “copy completed” is displayed (screen 3-2). If it is determined that the copy is to be suppressed, the copy operation is not performed, and the reason why the operation is not performed is notified (screen 3-3).

本発明においては文書の画像パターンとの比較が直接行われるわけではなく、レイアウトとテキスト内容からの文書種別の推定に基づいて判定されるので、どうしてアクションが抑制されたかがオペレータには理解できないかもしれない。そのような場合も、アクション抑制の根拠が表示されるので、文書セキュリティ管理者等に相談することによりアクション抑制の解除を依頼することができる。   In the present invention, the comparison with the image pattern of the document is not performed directly, and the determination is made based on the estimation of the document type from the layout and the text content. Therefore, the operator may not understand why the action is suppressed. Absent. Even in such a case, since the grounds for action suppression are displayed, it is possible to request cancellation of action suppression by consulting a document security administrator or the like.

図4は本発明において行われるブロック解析の例を説明した図である。   FIG. 4 is a diagram illustrating an example of block analysis performed in the present invention.

4−1は紙原稿がスキャンされたスキャン画像、あるいは電子文書からラスタライズされたラスタライズ画像である。ブロック解析は、この文書画像に対してブロックの性質に応じた矩形ブロックに分割する処理である。図の場合、ブロック解析の結果、3つのブロックに分割されている。1つのブロック(4−2)は、内部に文章(テキスト)が含まれるためテキストブロックとなり、残りの2つのブロック(4−3、4−4)は、テキスト以外の情報(グラフ、写真など)が含まれるため画像ブロックとなる。テキストブロックに対しては、文字認識がかけられテキストが抽出されるが、画像ブロックからはテキスト情報は抽出されない。   Reference numeral 4-1 denotes a scanned image obtained by scanning a paper document or a rasterized image rasterized from an electronic document. Block analysis is a process of dividing the document image into rectangular blocks according to the properties of the blocks. In the case of the figure, as a result of block analysis, it is divided into three blocks. One block (4-2) is a text block because sentences (text) are included inside, and the remaining two blocks (4-3, 4-4) are information other than text (graphs, photographs, etc.). Is included in the image block. Character recognition is applied to the text block and text is extracted, but text information is not extracted from the image block.

図5は住所録の場合のブロック解析の例を示した図である。5−1は文書画像全体である。5−2はタイトルブロックとして抽出された。タイトルブロックとはページの先頭付近にあり文字サイズの比較的大きなテキストブロックのことである。5−3は表と認識されて抽出された表ブロックである。表ブロックに対しては行数、列数などの情報も抽出される。   FIG. 5 is a diagram showing an example of block analysis in the case of an address book. Reference numeral 5-1 denotes the entire document image. 5-2 was extracted as a title block. A title block is a text block near the top of the page and having a relatively large character size. Reference numeral 5-3 denotes a table block extracted by being recognized as a table. Information such as the number of rows and the number of columns is also extracted for the table block.

図6はテキストブロックから抽出されるOCRテキスト情報、及びそれからキーワード抽出により抽出されたキーワードデータを説明したものである。   FIG. 6 explains the OCR text information extracted from the text block and the keyword data extracted by keyword extraction therefrom.

文書画像のテキストブロックに対して文字認識処理がかけられ、OCRテキスト情報としてテキストデータが抽出される。このテキストデータに対して形態素解析がかけられ、キーワードが抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、一定の誤認識データが含まれることになる。図中“BJシリーズ”となるべき文字列は“8○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。このような誤認識文字が含まれると形態素解析において未知語が発生するが、未知語は固有表現辞書との照合が取れないので、予め除去されてしまう。文字認識は100%近い正確な処理なので、誤認識文字は全体から見れば少数である。このように未知語を除外したとしても、文章の統計的な傾向は大差がないと見なせる。   Character recognition processing is applied to the text block of the document image, and text data is extracted as OCR text information. Morphological analysis is applied to the text data, and keywords are extracted. Since it is character recognition processing, 100% accurate recognition is not always performed, and certain erroneous recognition data is included. In the figure, the character string that should be “BJ Series” is “8 Series”, and the character string that should be “Super Photo Quality” is “Super Photo White”. If such a misrecognized character is included, an unknown word is generated in the morphological analysis, but the unknown word cannot be checked against the specific expression dictionary, and is thus removed in advance. Since character recognition is an accurate process that is nearly 100%, there are a small number of erroneously recognized characters. Even if unknown words are excluded in this way, it can be considered that the statistical tendency of sentences is not much different.

図7は文書種別のレイアウト的特徴を記述した文書種別レイアウトテーブルの構成を示した図である。   FIG. 7 is a diagram showing the configuration of a document type layout table describing layout characteristics of document types.

文書種別レイアウトテーブルには7−1「文書種別」、7−2「レイアウト特徴」が格納される。   In the document type layout table, 7-1 “document type” and 7-2 “layout feature” are stored.

「文書種別」は、一群の同類の文書を識別するIDである。文書種別の例としては「住所録(名簿)」「振込伝票」「報告書」などがある。   “Document type” is an ID for identifying a group of similar documents. Examples of document types include “address book (name list)”, “transfer slip”, and “report”.

「レイアウト特徴」は、各文書種別のレイアウト的な特徴を記述した情報である。住所録の場合の例を7−3に示す。レイアウト特徴は各特徴項目に分かれる。特徴項目1の「タイトルブロック=“住所録”」により、タイトルブロックに「住所録」という文字列を含むことを要請する。特徴項目2の「列数=3」により、列数が3の表ブロックを含むことを要請する。特徴項目3の「ブロック数=2」により、全ブロック数が2であることを要請する。これら全ての要請を満たす文書が「住所録」として認識される。別のもっと形態的な特徴の記述例は、特開2000−285187号公報などのような帳票認識の技術においても開示されている。   “Layout characteristics” is information describing layout characteristics of each document type. An example of an address book is shown in 7-3. Layout features are divided into feature items. According to the feature item 1 “title block =“ address book ””, the title block is requested to include the character string “address book”. The feature item 2 “number of columns = 3” requests to include a table block having 3 columns. The feature item 3 “number of blocks = 2” requests that the total number of blocks be two. A document that satisfies all these requirements is recognized as an “address book”. Another description example of more morphological features is also disclosed in a form recognition technique such as Japanese Patent Laid-Open No. 2000-285187.

図8は固有表現辞書の構成を示した図である。   FIG. 8 is a diagram showing the configuration of the specific expression dictionary.

固有表現辞書は、一般に使用される著名な固有表現(人名、地名、企業名等)のリストを保有したものである。「東京都」「大田区」「下丸子」「山田」「田中」「太郎」「花子」等の固有表現が記憶される。   The unique expression dictionary holds a list of well-known unique expressions (person names, place names, company names, etc.) that are generally used. Specific expressions such as “Tokyo,” “Ota-ku,” “Shimomaruko,” “Yamada,” “Tanaka,” “Taro,” and “Hanako” are stored.

図9は固有表現ルールの構成を示した図である。   FIG. 9 is a diagram showing the configuration of the specific expression rule.

上記の固有表現辞書では、1件1件について必ずリストアップしなければならないので、きりがないものもある。例えば、電話番号を1件1件列挙することはばかげた行為である。このような場合のために固有表現の形式を記述できるようにしたのが固有表現ルールである。9−1は固有表現種別であり、どのようなタイプの固有表現であるかを記述する。9−2は正規表現であり、必要な固有表現の形式を正規表現の形態で記述する。なお、正規表現がどのような形態で記述するかは、特開平6−36069などにおいて紹介されているのでここでは詳細を述べない。例えば、この金額の記述により「¥1000」「¥30」などは全て金額と認識可能となる。   In the above-mentioned specific expression dictionary, since there must be a list for each case, there are some that have no limit. For example, listing phone numbers one by one is a silly act. It is the proper expression rule that makes it possible to describe the form of the specific expression for such a case. Reference numeral 9-1 denotes a specific expression type, which describes what type of specific expression it is. Reference numeral 9-2 denotes a regular expression, which describes the format of a necessary specific expression in the form of a regular expression. The form in which the regular expression is described is introduced in Japanese Patent Laid-Open No. 6-36069 and will not be described in detail here. For example, by describing the amount, all of “¥ 1000” and “¥ 30” can be recognized as the amount.

図10は文書制御情報である。文書へのアクション(コピー、印刷、FAX、送信など)に対して種別別に許可すべきかどうかを記述したものである。1は許可、0は抑制を意味する。   FIG. 10 shows document control information. Describes whether or not an action (copy, print, fax, transmission, etc.) on a document should be permitted for each type. 1 means permission, 0 means suppression.

上述の動作をフローチャートに従って説明する。   The above operation will be described with reference to a flowchart.

図11は本発明文字処理装置の動作、より具体的にはマイクロプロセッサCPUの処理手順を示すフローチャートである。ステップS11-1はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS11-2はタッチパネル等の入力装置、あるいは直接接続・ネットワーク接続されている機器・デバイスからのリクエストなど、何らかのイベントが発生するのをマイクロプロセッサCPUにおいて待つ処理である。イベントが発生すると、ステップS11-3においてマイクロプロセッサCPUがこのイベントを判別し、イベントの種類に応じて各種の処理に分岐する。各種イベントに対応した分岐先の複数の処理をステップS11-4という形でまとめて表現している。図12、図13で詳述するコピー処理、印刷処理がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、送信処理、FAX処理、FAXや送信先を指定する処理など通常のMFPの処理がある。ステップS11-5は上記の各処理の処理結果や処理終了を表示する表示処理である。エラーがあった場合のエラー表示、動作が抑制されているときの根拠の表示、正常終了の場合の終了表示など通常広く行われる処理である。   FIG. 11 is a flowchart showing the operation of the character processing apparatus of the present invention, more specifically, the processing procedure of the microprocessor CPU. Step S11-1 is a system initialization process that initializes various parameters, displays an initial screen, and the like. Step S11-2 is a process in which the microprocessor CPU waits for some event to occur, such as a request from an input device such as a touch panel or a directly connected / network connected device / device. When an event occurs, the microprocessor CPU determines this event in step S11-3, and branches to various processes according to the type of event. A plurality of branch destination processes corresponding to various events are collectively expressed in the form of step S11-4. The copy process and print process described in detail in FIGS. 12 and 13 are part of this branch destination. As other processing, details are not described, but there are normal MFP processing such as transmission processing, FAX processing, processing for specifying a FAX and a transmission destination. Step S11-5 is a display process for displaying the processing result of each of the above processes and the end of the process. This is a process that is normally performed widely, such as displaying an error when there is an error, displaying the basis when the operation is suppressed, and displaying the end when the operation ends normally.

図12はステップS11-4の一部であるコピー処理を詳細化したフローチャートである。ステップS12-1において、紙原稿をスキャナから読み込み、文書画像としてスキャン画像を生成する。ステップS12-2において、前記生成された文書画像に対してブロック解析を行う。ステップS12-3においてブロック解析により抽出されたテキストブロック中の画像に対して文字認識処理を行い、OCRテキスト情報を抽出する。ステップS12-4においてOCRテキストに対して形態素解析辞書を参照しながら形態素解析を行い、文節に分割する。ステップS12-5において分割された文節からキーワードを抽出し、文章特徴としてキーワードリストを生成する。ステップS12-6において、ブロック解析されたページから図9で例示したレイアウト特徴を抽出する。ステップS12-7において前記抽出された文章特徴、レイアウト特徴から図14で詳述するように文書種別を推定する。ステップS12-8において前記推定された文書種別に基づいてコピー動作が許可されているかどうか判定し、許可されている場合はステップS12-9において通常のコピー処理を行い、コピー動作が良く際されている場合はステップS12-10において後段でディスプレイに表示すべくコピーが抑制されている根拠情報を出力する。   FIG. 12 is a flowchart detailing the copy process that is a part of step S11-4. In step S12-1, a paper document is read from the scanner, and a scanned image is generated as a document image. In step S12-2, block analysis is performed on the generated document image. In step S12-3, character recognition processing is performed on the image in the text block extracted by the block analysis, and OCR text information is extracted. In step S12-4, morphological analysis is performed on the OCR text while referring to the morphological analysis dictionary, and the OCR text is divided into phrases. In step S12-5, keywords are extracted from the divided clauses, and a keyword list is generated as sentence features. In step S12-6, the layout feature illustrated in FIG. 9 is extracted from the block-analyzed page. In step S12-7, the document type is estimated from the extracted sentence feature and layout feature as described in detail in FIG. In step S12-8, it is determined whether the copying operation is permitted based on the estimated document type. If permitted, the normal copying process is performed in step S12-9, and the copying operation is often performed. If so, in step S12-10, the ground information that the copy is suppressed to be displayed on the display at a later stage is output.

図13はステップS11-4の一部である印刷処理を詳細化したフローチャートである。印刷処理は接続されたPC等の機器からLIPS、PSなどのPDLによる電子文書の印刷が指示されたときに起動される処理である。ステップS13-1において、文書のラスタライズを行って文書画像としてラスタイメージを生成する処理を行う。ステップS13-2において、前記生成された文書画像に対してブロック解析を行う。ステップS13-3においてブロック解析により抽出されたテキストブロック中の画像に対して文字認識処理を行い、OCRテキスト情報を抽出する。ステップS13-4においてOCRテキストに対して形態素解析辞書を参照しながら形態素解析を行い、文節に分割する。ステップS13-5において分割された文節からキーワードを抽出し、文章特徴としてキーワードリストを生成する。ステップS13-6において、ブロック解析されたページから図9で例示したレイアウト特徴を抽出する。ステップS13-7において前記抽出された文章特徴、レイアウト特徴から図14で詳述するように文書種別を推定する。ステップS13-8において前記推定された文書種別に基づいて印刷動作が許可されているかどうか判定し、許可されている場合はステップS13-9において通常の印刷処理を行い、コピー動作が良く際されている場合はステップS13-10において後段でディスプレイに表示すべく印刷が抑制されている根拠情報を出力する。   FIG. 13 is a flowchart detailing the printing process which is a part of step S11-4. The printing process is a process started when a device such as a connected PC is instructed to print an electronic document by PDL such as LIPS or PS. In step S13-1, the document is rasterized to generate a raster image as a document image. In step S13-2, block analysis is performed on the generated document image. In step S13-3, character recognition processing is performed on the image in the text block extracted by the block analysis, and OCR text information is extracted. In step S13-4, morphological analysis is performed on the OCR text while referring to the morphological analysis dictionary, and the OCR text is divided into phrases. In step S13-5, keywords are extracted from the divided clauses, and a keyword list is generated as sentence features. In step S13-6, the layout features illustrated in FIG. 9 are extracted from the block-analyzed page. In step S13-7, the document type is estimated from the extracted sentence feature and layout feature as described in detail in FIG. In step S13-8, it is determined whether the printing operation is permitted based on the estimated document type. If the printing operation is permitted, a normal printing process is performed in step S13-9, and the copying operation is often performed. If yes, in step S13-10, the ground information indicating that printing is suppressed to be displayed on the display in the subsequent stage is output.

図14はステップS12-7、S13-7の文書種別推定を詳細化したフローチャートである。まず、ステップS14-1において図15に詳述するように、入手したレイアウト特徴を文書種別レイアウトテーブルに登録されているレイアウト特徴と照合する。ステップS14-2において照合の結果、一致するものがあれば、文書種別を確定し、ステップS14-6に分岐して文書種別推定を終了する。レイアウト特徴が一致するものがなかったときはステップS14-3に進む。ステップS14-3において文章特徴として抽出されたキーワードを固有表現辞書と照合し、固有表現数をカウントする。ステップS14-4において辞書で記述できない固有表現を抽出するために、固有表現ルールと照合し、ルールで記述された固有表現を抽出し、その数を固有表現数に更に加える。ステップS14-5において上記求められた固有表現数が所定個数(例えば、20)を超えているかどうかを判定し、超えているときはステップS14-7に進んで文書種別として種別1(住所録)を設定して文書種別推定を終了する。ステップS14-5において固有表現数が所定個数を超えていなかった場合は、ステップS14-8に分岐し、文書種別として「不明」を設定して文書種別推定を終了する。   FIG. 14 is a flowchart detailing the document type estimation in steps S12-7 and S13-7. First, in step S14-1, the acquired layout feature is collated with the layout feature registered in the document type layout table, as detailed in FIG. If there is a match as a result of the collation in step S14-2, the document type is determined, and the process branches to step S14-6 to end the document type estimation. If there is no matching layout feature, the process proceeds to step S14-3. The keyword extracted as the sentence feature in step S14-3 is checked against the specific expression dictionary, and the number of specific expressions is counted. In step S14-4, in order to extract a specific expression that cannot be described in the dictionary, a specific expression rule is collated, a specific expression described in the rule is extracted, and the number is further added to the number of specific expressions. In step S14-5, it is determined whether or not the determined number of unique expressions exceeds a predetermined number (for example, 20), and if it exceeds, the process proceeds to step S14-7 and type 1 (address book) is set as the document type. To finish the document type estimation. If the number of unique expressions does not exceed the predetermined number in step S14-5, the process branches to step S14-8, sets “Unknown” as the document type, and ends the document type estimation.

図15はステップS14-1の文書種別レイアウトテーブルとの照合を詳細化したフローチャートである。まず、ステップS15-1において文書種別テーブルのチェックすべき文書種別が残っているかどうかを判定する。残っていれば、ステップS15-2において文書種別の特徴情報を1つ入手する。ステップS15-3において、その文書種別の特徴項目を1つ入手する。ステップS15-4において、全ての特徴項目のチェックが既に終了していて、入手できなかったかどうか判定し、入手できたときはステップS15-5に進み、特徴項目の記述と照合する。例えば、特徴項目としてタイトルブロック=“住所録”と記述されていたときは、ページの上方に存在する全体よりも大きなポイントで記述されたテキストブロックを入手し、そのブロック内のテキストに「住所録」という文字が含まれるかをチェックし、含まれるかどうかを照合する。ステップS14-6において、前記照合の結果、一致するかどうか判定する。先の例では「住所録」を含むときに「一致」と判定する。一致すれば、次の特徴項目をチェックするためにステップS15-3にループし、一致しなければステップS15-7に進む。ステップS14-7において、次の文書種別のチェックを開始するために処理中の文書種別のポインタを次に設定し、ステップS15-1にループする。ステップS15-4で特徴項目終わりと判定されたときはステップS15-9に分岐し、ステップS15-9において、現在処理中の文書種別を該当する文書種別だと設定して、処理を終了する。また、ステップS15-1において文書種別終わりと判定されたときはステップS15-8に分岐し、ステップS15-8において一致する文書種別が存在しないとして処理を終了する。   FIG. 15 is a flowchart detailing the collation with the document type layout table in step S14-1. First, in step S15-1, it is determined whether there are any document types to be checked in the document type table. If it remains, one piece of document type feature information is obtained in step S15-2. In step S15-3, one feature item of the document type is obtained. In step S15-4, it is determined whether or not all feature items have been checked and have not been obtained. If they have been obtained, the process proceeds to step S15-5, where they are collated with the feature item description. For example, when a title block = “address book” is described as a feature item, a text block described at a point larger than the whole existing above the page is obtained, and “address book” is added to the text in the block. "Is included, and whether it is included is checked. In step S14-6, it is determined whether or not they match as a result of the collation. In the previous example, it is determined as “match” when “address book” is included. If they match, the process loops to step S15-3 to check the next feature item, and if they do not match, the process proceeds to step S15-7. In step S14-7, in order to start checking the next document type, the pointer of the document type being processed is set next, and the process loops to step S15-1. If it is determined in step S15-4 that the feature item has ended, the process branches to step S15-9. In step S15-9, the currently processed document type is set as the corresponding document type, and the process ends. If it is determined in step S15-1 that the document type has ended, the process branches to step S15-8, and the process ends in step S15-8 assuming that there is no matching document type.

<実施形態2>
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
<Embodiment 2>
Note that the present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention.

上述の実施形態においては、セキュリティの制御形態として、コピー、印刷、FAX、送信の動作許可/抑制のみを想定しているが、それ以外の実現形態も考えられる。例えば、上記動作の際に文書に透かしを刷り込むかどうか、付加情報(「配布禁止」など)を文書に付加するかどうか、などが考えられる。また、上記動作の際に表示すべきメッセージの指定(「この文書は部外秘です」など)などが考えられる。この場合、文書制御情報に、上記動作のON/OFF情報を格納する列を追加し、その情報に応じて、アクションを行うことになる。このようにすることで、単純に複製物を出力するかどうかだけでなく、複製物の取扱いに伴う注意を喚起することができ、よりきめ細かなセキュリティ管理ができる。   In the above-described embodiment, only the operation permission / suppression of copying, printing, FAX, and transmission is assumed as a security control mode, but other implementation modes are also conceivable. For example, it is conceivable whether a watermark is imprinted on the document during the above operation, or whether additional information (such as “Distribution prohibited”) is added to the document. In addition, it is possible to specify a message to be displayed during the above operation (such as “This document is confidential”). In this case, a column for storing the ON / OFF information of the operation is added to the document control information, and an action is performed according to the information. In this way, not only whether a duplicate is simply output, but also the attention associated with the handling of the duplicate can be alerted, and finer security management can be performed.

また、上述の実施形態においては、レイアウト特徴としてタイトルブロック、列数、ブロック数などの離散的な値のみを記述しているが、ページ全体の色情報の配置などを記憶し判定することで文書種別を推定することもできる。この場合、ページ全体をいくつかの升目に分割して各升目ごとの画像特徴量を記憶し、対応する升目間の類似性を判定することで文書種別を推定することになる。このようにすることで、写真などのような自然画像を含む文書についても文書種別を推定でき、よりきめ細かなセキュリティ管理を実現できる。   In the above-described embodiment, only discrete values such as the title block, the number of columns, and the number of blocks are described as layout features. However, the document is obtained by storing and determining the arrangement of color information on the entire page. The type can also be estimated. In this case, the entire page is divided into several cells, the image feature amount for each cell is stored, and the similarity between corresponding cells is determined to estimate the document type. By doing so, the document type can be estimated even for a document including a natural image such as a photograph, and finer security management can be realized.

上記以外にも、本発明の趣旨を逸脱しない限りにおいて、構成を適宜変更することが可能である。   In addition to the above, the configuration can be changed as appropriate without departing from the spirit of the present invention.

本実施例の文字処理装置の全体構成を示すブロック図である。It is a block diagram which shows the whole structure of the character processing apparatus of a present Example. 本実施例の文字処理装置における操作例を示した図である。It is the figure which showed the example of operation in the character processing apparatus of a present Example. 本実施例の文字処理装置における画面遷移例を示した図である。It is the figure which showed the example of a screen transition in the character processing apparatus of a present Example. ブロック解析の例を示した図である。It is the figure which showed the example of the block analysis. 住所録の場合のブロック解析の例を示した図である。It is the figure which showed the example of the block analysis in the case of an address book. OCRテキストからのキーワード抽出の例を示した図である。It is the figure which showed the example of the keyword extraction from OCR text. 本実施例の文字処理装置における文書種別レイアウトテーブルの構成を示した図である。It is the figure which showed the structure of the document classification layout table in the character processing apparatus of a present Example. 本実施例の文字処理装置における固有表現辞書の構成を示した図である。It is the figure which showed the structure of the specific expression dictionary in the character processing apparatus of a present Example. 本実施例の文字処理装置における固有表現ルールの構成を示した図である。It is the figure which showed the structure of the specific expression rule in the character processing apparatus of a present Example. 本実施例の文字処理装置における文書制御情報の構成を示した図である。It is the figure which showed the structure of the document control information in the character processing apparatus of a present Example. 本実施例の文字処理装置全体の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of the whole character processing apparatus of a present Example. コピー処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a copy process. 印刷処理の処理手順の一例を示すフローチャートである。6 is a flowchart illustrating an example of a processing procedure for print processing. 文書種別推定の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of document classification estimation. 文書種別レイアウトテーブルとの照合の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of collation with a document classification layout table.

Claims (9)

文字を処理する文字処理装置であって、文書コピーの指示を受け付けるコピー指示手段と、記録用紙に記録された文書内容を読み取ってテキスト化する文書読取手段と、該テキストに基づいて文書タイプを推定する文書タイプ推定手段と、該文書タイプに基づいてコピーの可否を判断するコピー可否判断手段と、該コピー可否判断手段によりコピー抑制と判断されたときに該文書のコピーを抑制するコピー抑制手段とを備えることを特徴とする文字処理装置。   A character processing device for processing characters, a copy instruction means for receiving a document copy instruction, a document reading means for reading a document content recorded on a recording sheet into text, and estimating a document type based on the text A document type estimation unit that performs copying, a copy propriety determination unit that determines whether copying is possible based on the document type, and a copy suppression unit that suppresses copying of the document when the copy permission determination unit determines copy suppression. A character processing device comprising: 文字を処理する文字処理装置であって、文書印刷の指示を受け付ける印刷指示手段と、文書内容からテキストを抽出するテキスト抽出手段と、該テキストに基づいて文書タイプを推定する文書タイプ推定手段と、該文書タイプに基づいて印刷の可否を判断する印刷可否判断手段と、該印刷可否判断手段により印刷抑制と判断されたときに該文書の印刷を抑制する印刷抑制手段とを備えることを特徴とする文字処理装置。   A character processing apparatus for processing characters, a print instruction unit that receives a document print instruction, a text extraction unit that extracts text from document content, a document type estimation unit that estimates a document type based on the text, A printing availability determination unit that determines whether printing is possible based on the document type; and a printing suppression unit that suppresses printing of the document when the printing availability determination unit determines that printing is suppressed. Character processing unit. 文字を処理する文字処理装置であって、前記テキストから固有表現を抽出する固有表現抽出手段と、前記抽出された固有表現の数を算出する固有表現数算出手段とを更に備え、前記文書タイプ推定手段は前記算出された固有表現数に応じて前記文書タイプが名簿タイプであるかどうかを判定することを特徴とする請求項1または2に記載の文字処理装置。   A character processing apparatus for processing characters, further comprising: a specific expression extracting unit that extracts a specific expression from the text; and a specific expression number calculating unit that calculates the number of the extracted specific expressions, the document type estimation The character processing apparatus according to claim 1, wherein the means determines whether the document type is a name list type according to the calculated number of unique expressions. 文字を処理する文字処理装置に適用される文字処理方法であって、文書コピーの指示を受け付けるコピー指示ステップと、記録用紙に記録された文書内容を読み取ってテキスト化する文書読取ステップと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップと、該文書タイプに基づいてコピーの可否を判断するコピー可否判断ステップと、該コピー可否判断ステップによりコピー抑制と判断されたときに該文書のコピーを抑制するコピー抑制ステップとを備えることを特徴とする文字処理方法。   A character processing method applied to a character processing device for processing characters, a copy instruction step for receiving a document copy instruction, a document reading step for reading a document content recorded on a recording sheet into text, and the text A document type estimating step for estimating the document type based on the document type, a copy permission determining step for determining whether copying is possible based on the document type, and a copy of the document when the copy suppression determining step determines that the copy is suppressed And a copy suppressing step for suppressing the character. 文字を処理する文字処理装置に適用される文字処理方法であって、文書印刷の指示を受け付ける印刷指示ステップと、文書内容からテキストを抽出するテキスト抽出ステップと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップと、該文書タイプに基づいて印刷の可否を判断する印刷可否判断ステップと、該印刷可否判断手段により印刷抑制と判断されたときに該文書の印刷を抑制する印刷抑制ステップとを備えることを特徴とする文字処理方法。   A character processing method applied to a character processing apparatus that processes characters, a print instruction step for receiving a document print instruction, a text extraction step for extracting text from the document contents, and a document type is estimated based on the text A document type estimation step to be performed, a print permission determination step for determining whether printing is possible based on the document type, and a print suppression step for suppressing printing of the document when the printing permission determination means determines that printing is to be suppressed. A character processing method comprising: 文字を処理する文字処理装置に適用される文字処理方法であって、前記テキストから固有表現を抽出する固有表現抽出ステップと、前記抽出された固有表現の数を算出する固有表現数算出ステップとを更に備え、前記文書タイプ推定ステップは前記算出された固有表現数に応じて前記文書タイプが名簿タイプであるかどうかを判定することを特徴とする請求項4または5に記載の文字処理方法。   A character processing method applied to a character processing device for processing characters, comprising: a unique expression extracting step for extracting a specific expression from the text; and a specific expression number calculating step for calculating the number of the extracted specific expressions. The character processing method according to claim 4, further comprising: determining whether the document type is a name list type according to the calculated number of unique expressions. 文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書コピーの指示を受け付けるコピー指示ステップのプログラムコードと、記録用紙に記録された文書内容を読み取ってテキスト化する文書読取ステップのプログラムコードと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップのプログラムコードと、該文書タイプに基づいてコピーの可否を判断するコピー可否判断ステップのプログラムコードと、該コピー可否判断ステップによりコピー抑制と判断されたときに該文書のコピーを抑制するコピー抑制ステップのプログラムコードとを備えることを特徴とするコンピュータ可読記録媒体。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus that processes characters, and a copy instruction step program code for receiving a document copy instruction, and a document recorded on a recording sheet Program code for document reading step for reading contents into text, program code for document type estimating step for estimating document type based on the text, and copy permission / non-permission determining step for determining whether copying is possible based on the document type And a copy suppression step program code for suppressing copy of the document when it is determined that copy suppression is determined by the copy permission determination step. 文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、文書印刷の指示を受け付ける印刷指示ステップのプログラムコードと、文書内容からテキストを抽出するテキスト抽出ステップのプログラムコードと、該テキストに基づいて文書タイプを推定する文書タイプ推定ステップのプログラムコードと、該文書タイプに基づいて印刷の可否を判断する印刷可否判断ステップのプログラムコードと、該印刷可否判断手段により印刷抑制と判断されたときに該文書の印刷を抑制する印刷抑制ステップのプログラムコードとを備えることを特徴とするコンピュータ可読記録媒体。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus for processing characters, wherein the text is extracted from the program code of a print instruction step for receiving a document print instruction and the document content Program code for text extraction step, program code for document type estimation step for estimating document type based on the text, program code for print permission determination step for determining whether printing is possible based on the document type, and the printing What is claimed is: 1. A computer-readable recording medium comprising: a print suppression step program code for suppressing printing of a document when it is determined that printing is suppressed by an admissibility determining unit. 文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、前記テキストから固有表現を抽出する固有表現抽出ステップのプログラムコードと、前記抽出された固有表現の数を算出する固有表現数算出ステップのプログラムコードとを更に備え、前記文書タイプ推定ステップは前記算出された固有表現数に応じて前記文書タイプが名簿タイプであるかどうかを判定することを特徴とする請求項7または8に記載のコンピュータ可読記録媒体。   A computer-readable recording medium storing a program code of a character processing method applied to a character processing apparatus for processing characters, the program code of a specific expression extracting step for extracting a specific expression from the text, and the extracted And a program code of a specific expression number calculating step for calculating the number of specific expressions, and the document type estimating step determines whether the document type is a name list type according to the calculated number of specific expressions. The computer-readable recording medium according to claim 7 or 8.
JP2005074880A 2005-03-16 2005-03-16 Character processing device, character processing method, and recording medium Withdrawn JP2006261907A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005074880A JP2006261907A (en) 2005-03-16 2005-03-16 Character processing device, character processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005074880A JP2006261907A (en) 2005-03-16 2005-03-16 Character processing device, character processing method, and recording medium

Publications (1)

Publication Number Publication Date
JP2006261907A true JP2006261907A (en) 2006-09-28

Family

ID=37100674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005074880A Withdrawn JP2006261907A (en) 2005-03-16 2005-03-16 Character processing device, character processing method, and recording medium

Country Status (1)

Country Link
JP (1) JP2006261907A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152631A (en) * 2006-12-19 2008-07-03 Canon Inc Image forming apparatus, method for controlling image forming apparatus, management apparatus for managing image forming apparatus, and method for controlling management apparatus for managing image forming apparatus
US8050505B2 (en) 2007-08-01 2011-11-01 Sharp Kabushiki Kaisha Image processing apparatus, image processing system, image processing method, and image forming apparatus
US8208163B2 (en) 2007-09-27 2012-06-26 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
US8467106B2 (en) 2007-03-02 2013-06-18 Brother Kogyo Kabushiki Kaisha Image processing apparatus and information writing apparatus
WO2016053366A1 (en) * 2014-10-04 2016-04-07 Hewlett-Packard Development Company, L. P. Modified document generation
EP3842960A3 (en) * 2020-09-29 2021-11-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for processing information, electronic device, and storage medium

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152631A (en) * 2006-12-19 2008-07-03 Canon Inc Image forming apparatus, method for controlling image forming apparatus, management apparatus for managing image forming apparatus, and method for controlling management apparatus for managing image forming apparatus
US8467106B2 (en) 2007-03-02 2013-06-18 Brother Kogyo Kabushiki Kaisha Image processing apparatus and information writing apparatus
US8050505B2 (en) 2007-08-01 2011-11-01 Sharp Kabushiki Kaisha Image processing apparatus, image processing system, image processing method, and image forming apparatus
US8208163B2 (en) 2007-09-27 2012-06-26 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
WO2016053366A1 (en) * 2014-10-04 2016-04-07 Hewlett-Packard Development Company, L. P. Modified document generation
EP3842960A3 (en) * 2020-09-29 2021-11-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for processing information, electronic device, and storage medium
US11908219B2 (en) 2020-09-29 2024-02-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for processing information, electronic device, and storage medium

Similar Documents

Publication Publication Date Title
US7920286B2 (en) Image output apparatus, history management method, and history management program
US7596271B2 (en) Image processing system and image processing method
US20060008113A1 (en) Image processing system and image processing method
JP2011077705A (en) Image processing device and image processing method
JP2006261907A (en) Character processing device, character processing method, and recording medium
JP2007079901A (en) Log information management system and method
JP2005175773A (en) Device and method for forming image
JP4783441B2 (en) Image processing apparatus and scanner apparatus
JP4189515B2 (en) Image forming apparatus
JP2007048053A (en) Document processing method, document processing device, and program
US7626726B2 (en) Apparatus and system for image processing based on extracted image portion
JP2006279545A (en) Information processor, information processing method, and program therefor
JP2006093917A (en) Image reading apparatus and image processor, and image forming apparatus
JP2009212555A (en) Paper document processing apparatus and program
JP2009171314A (en) Image processing device, picture processing system and image processing program
JP6767651B2 (en) Information processing system and its processing method and program
JP2006186656A (en) Image processor, managing method of transfer job, program, and recording medium
JP2004355244A (en) Image forming apparatus
JP2004104411A (en) Image forming device
JP2006174183A (en) Recording condition setting device
JP2007048061A (en) Character processing device, character processing method, and recording medium
JP4665865B2 (en) Image processing apparatus and document storage processing program
JP2009070106A (en) Image forming apparatus, data processing method and data processing program
JP2006258898A (en) Image forming apparatus and image forming method
JP2010109653A (en) Image reader, image forming apparatus, image reading method, and image reading program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080603