JP2006279545A - Information processor, information processing method, and program therefor - Google Patents
Information processor, information processing method, and program therefor Download PDFInfo
- Publication number
- JP2006279545A JP2006279545A JP2005095619A JP2005095619A JP2006279545A JP 2006279545 A JP2006279545 A JP 2006279545A JP 2005095619 A JP2005095619 A JP 2005095619A JP 2005095619 A JP2005095619 A JP 2005095619A JP 2006279545 A JP2006279545 A JP 2006279545A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- processing
- character
- control target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、原稿をスキャンした後にコピー処理、FAX処理、及びSEND処理(電子メールでの送信処理)等の処理を行うことが可能な情報処理装置、情報処理方法及びそのプログラムに関するものである。 The present invention relates to an information processing apparatus, an information processing method, and a program thereof capable of performing processing such as copy processing, FAX processing, and SEND processing (e-mail transmission processing) after scanning a document.
近年、複写機は、単に原稿をコピー(複写)する機能だけでなく、多機能化がすすんでいる。例えば、PC(パーソナルコンピュータ)と接続して、PCからの印刷指示に応じて印刷を行うプリンタ機能、原稿をスキャンしてFAX転送するFAX機能、及び原稿をスキャンしてメール転送するSEND機能などを備える複写機が提供されている。このように多機能な複写機は、ドキュメントのデジタル化の流れの中で、文書管理と連携したドキュメント・ソリューションを実現するポータルとして位置付けられている。 In recent years, copying machines have become more multifunctional than just the function of copying (copying) originals. For example, a printer function that connects to a PC (Personal Computer) and performs printing in response to a print instruction from the PC, a FAX function that scans and faxes a document, and a SEND function that scans and mails a document. A copier is provided. Such a multifunctional copying machine is positioned as a portal for realizing a document solution linked with document management in the flow of digitization of documents.
更に、複写機においてはセキュリティに対する考慮が重視されるようになっており、スキャン情報の漏洩防止技術としてコピー抑制機能などが提案されている。 Furthermore, security considerations have become important in copying machines, and a copy suppression function has been proposed as a technique for preventing leakage of scan information.
コピー抑制機能については、これまでにも様々な機能が提案され、いくつかは複写機に実装されてきた。例えば、商品券、有価証券などの特定原稿のコピー抑制を目的として、特定原稿に対して付加情報をいれるなど原稿を加工して出力する技術が提案されている(例えば、特許文献1を参照)。この特許文献1においては、特定原稿であるかどうか判定する手段として入力画像を特定原稿画像の画像データ同士を比較して類似度を求めることで、コピー抑制を行っている。
Various copy suppression functions have been proposed so far, and some have been implemented in copiers. For example, for the purpose of suppressing the copy of a specific manuscript such as a gift certificate or a securities, a technique for processing and outputting a manuscript such as adding additional information to the specific manuscript has been proposed (see, for example, Patent Document 1). . In
また、機密性が高い文書の処理に対してオペレータに注意を促す技術が開示されている(例えば、特許文献2を参照)。この特許文献2において、機密性が高いかどうかは、原稿画像を文字認識して文字化した上で「極秘」などの特定の記号列が含まれているかどうかで判断している。
In addition, a technique for alerting an operator to processing a highly confidential document is disclosed (for example, see Patent Document 2). In
また、紙に予めバーコードなどで著作物名称を付与しておき、ホストコンピュータから著作権情報を入手しコピーを続行するかどうかオペレータに問い合わせる技術が開示されている(例えば、特許文献3を参照)。 In addition, a technique is disclosed in which a copyrighted work name is given to paper in advance using a barcode or the like, and copyright information is obtained from a host computer and an operator is inquired whether to continue copying (for example, see Patent Document 3). ).
他にも、複写抑制画像が読み取り画像に含まれる場合に複写出力を抑制する装置において、その判定を外部装置で行う技術が開示されている(例えば、特許文献4を参照)。 In addition, in a device that suppresses copy output when a copy-suppressed image is included in a read image, a technique is disclosed in which the determination is performed by an external device (see, for example, Patent Document 4).
しかし、特許文献1のような画像データを直接比較する技術は、紙幣など画像パターンが定まっている場合のコピー抑制に効果が期待できるが、一般ドキュメントのように文章内容が重要である場合には効果は薄い。例えば、単語の並びを変更しただけで容易にこのコピー抑制機能を回避することができてしまう。
However, the technique of directly comparing image data as in
また、特許文献2は、予め機密文書に特定の文字列を文章中、あるいは表題に付加するなどの運用が必要になり、その様な特定文字列を含まない一般ドキュメントのコピー抑制を行うことができない。
また、特許文献3の方式では、バーコードなどの付加情報を印刷時に予め付与しておく必要があり、例えば、紙文書配布後にコピー管理が必要になった場合など、臨機応変にセキュリティ管理することはできない。
In addition, in the method of
また、特許文献4の装置においても、複写抑制かどうかの判断は画像データの比較で行っているので、文章内容の類似する文書のコピー抑制については効果が薄い。
Also in the apparatus of
このように、上記従来技術では、文書にバーコードや所定のキーワードが付与された原稿が対象であったり、紙幣のような統制のとれた図柄を含む原稿が対象であったりして、オフィスで作成や利用されている一般的なドキュメントのコピー抑制に対しては、必ずしも有効ではないという問題がある。すなわち、画像データの直接比較や、固定キーワードの比較や、バーコードなどの付与情報に基づくコピー抑制以外の方法によるコピー抑制が必要である。 As described above, in the above-described prior art, a document in which a barcode or a predetermined keyword is given to a document is a target, or a document including a controlled pattern such as a banknote is a target. There is a problem that it is not always effective for suppressing copy of a general document being created or used. That is, it is necessary to perform copy suppression by a method other than direct comparison of image data, comparison of fixed keywords, and copy suppression based on attached information such as a barcode.
本発明は、上述した事情を考慮してなされたもので、オフィスで作成及び利用されている一般文書を含む種々の種類の原稿に対して複写処理やFAX処理の適切な抑制を行うことが可能な情報処理装置、情報処理方法及びそのプログラムを提供することを目的とする。 The present invention has been made in consideration of the above-described circumstances, and can appropriately suppress copying processing and FAX processing for various types of manuscripts including general documents created and used in an office. An information processing apparatus, an information processing method, and a program therefor are provided.
この発明は、上述した課題を解決すべくなされたもので、本発明による情報処理装置においては、入力手段により入力された処理要求に応じて原稿を読み取り、該読取られた原稿をイメージデータとして出力する読取手段と、読取手段が出力するイメージデータの中から文字掲載部分を特定して文字認識処理を行い、認識した文字データを基に第1の文字情報を出力する文字情報抽出手段と、文書処理を制御する対象となる制御対象文書に関する情報として、制御対象文書に含まれる文字に関する情報である第2の文字情報と、制御対象文書に対して一つまたは複数種類ある文書処理の内のどの処理を制御するかを定める制御情報とを少なくとも格納する情報格納手段と、文字情報抽出手段が出力する第1の文字情報と、情報格納手段から参照する制御対象文書の第2の文字情報とを基に、原稿と制御対象文書の文書内容が類似しているか否かを判断する類似判断手段と、類似判断手段の判断に応じて原稿と文書内容が類似する制御対象文書を特定し、情報格納手段から特定した制御対象文書の制御情報を参照して、原稿に対する処理要求に応じた文書処理の可否を判断する処理判断手段とを具備することを特徴とする。 The present invention has been made to solve the above-described problems. In the information processing apparatus according to the present invention, a document is read in response to a processing request input by the input means, and the read document is output as image data. A character information extracting means for identifying a character insertion portion from image data output by the reading means, performing character recognition processing, and outputting first character information based on the recognized character data, and a document As information about the control target document that is the target of control processing, the second character information that is information about the characters included in the control target document, and any one of one or more types of document processing for the control target document Information storage means for storing at least control information for determining whether to control processing, first character information output from the character information extraction means, and information storage means Similarity determination means for determining whether or not the document content of the document and the control target document is similar based on the second character information of the control target document to be processed, and the document and document content according to the determination of the similarity determination means A process determination unit that identifies similar control target documents, refers to the control information of the control target document specified from the information storage unit, and determines whether or not document processing is possible in response to a processing request for a document. Features.
また、本発明による情報処理方法においては、入力手段により入力された処理要求に応じて原稿を読み取り、該読取られた原稿をイメージデータとして出力する読取ステップと、読取ステップで出力するイメージデータの中から文字掲載部分を特定して文字認識処理を行い、認識した文字データを基に第1の文字情報を出力する文字情報抽出ステップと、文書処理を制御する対象となる制御対象文書に関する情報として、制御対象文書に含まれる文字に関する情報である第2の文字情報と、制御対象文書に対して一つまたは複数種類ある文書処理の内のどの処理を制御するかを定める制御情報とを少なくとも格納する情報格納手段から、制御対象文書の第2の文字情報を参照し、記文字情報抽出ステップで出力する第1の文字情報と比較することで、原稿と制御対象文書の文書内容が類似しているか否かを判断する類似判断ステップと、類似判断ステップの判断に応じて原稿と文書内容が類似する制御対象文書を特定し、情報格納手段から特定した制御対象文書の制御情報を参照して、原稿に対する処理要求に応じた文書処理の可否を判断する処理判断ステップとを有することを特徴とする。 In the information processing method according to the present invention, a document is read in response to a processing request input by the input means, the reading document is output as image data, and the image data output in the reading step is included. The character information extraction step for identifying the character posting portion and performing the character recognition processing, outputting the first character information based on the recognized character data, and the information on the control target document to be controlled for document processing, Stores at least second character information, which is information relating to characters included in the control target document, and control information for determining which of one or more types of document processing is to be controlled for the control target document. The second character information of the control target document is referred to from the information storage means and compared with the first character information output in the character information extraction step. The similarity determination step for determining whether or not the document content of the manuscript and the control target document are similar, and the control target document whose document content is similar to the manuscript according to the determination in the similarity determination step are specified and stored as information. And a process determination step of determining whether or not the document process can be performed in response to the process request for the document with reference to the control information of the control target document specified by the means.
また、本発明によるプログラムは、情報処理装置用のプログラムであって、入力手段により入力された処理要求に応じて原稿を読み取りイメージデータを出力する読取ステップと、読取ステップで出力するイメージデータの中から文字掲載部分を特定して文字認識処理を行い、認識した文字データを基に第1の文字情報を出力する文字情報抽出ステップと、文書処理を制御する対象となる制御対象文書に関する情報として、制御対象文書に含まれる文字に関する情報である第2の文字情報と、制御対象文書に対して一つまたは複数種類ある文書処理の内のどの処理を制御するかを定める制御情報とを少なくとも格納する情報格納手段から、制御対象文書の第2の文字情報を参照し、記文字情報抽出ステップで出力する第1の文字情報と比較することで、原稿と制御対象文書の文書内容が類似しているか否かを判断する類似判断ステップと、類似判断ステップの判断に応じて原稿と文書内容が類似する制御対象文書を特定し、情報格納手段から特定した制御対象文書の制御情報を参照して、原稿に対する処理要求に応じた文書処理の可否を判断する処理判断ステップとをコンピュータに実行させるためのプログラムである。 A program according to the present invention is a program for an information processing apparatus, and includes a reading step for reading a document in accordance with a processing request input by an input unit and outputting image data, and image data output in the reading step. The character information extraction step for identifying the character posting portion and performing the character recognition processing, outputting the first character information based on the recognized character data, and the information on the control target document to be controlled for document processing, Stores at least second character information, which is information relating to characters included in the control target document, and control information for determining which of one or more types of document processing is to be controlled for the control target document. The second character information of the control object document is referred to from the information storage means and compared with the first character information output in the character information extraction step. Thus, the similarity determination step for determining whether the document content of the manuscript and the control target document are similar, and the control target document whose document content is similar to the manuscript are specified according to the determination of the similarity determination step, and information is stored. A program for causing a computer to execute a process determination step for determining whether or not to process a document in response to a processing request for a document with reference to control information of a control target document specified by means.
本発明による情報処理装置、情報処理方法及びそのプログラムは、オフィスで作成及び利用されている一般文書を含む種々の種類の原稿に対して複写処理やFAX処理の適切な抑制を行うことができる。 The information processing apparatus, information processing method, and program therefor according to the present invention can appropriately suppress copy processing and FAX processing for various types of manuscripts including general documents created and used in an office.
以下、図面を参照して本発明の実施形態について詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の一実施形態における複写機(情報処理装置)の概略構成を示すブロック図である。図1において、1は複写機であり、CPU10、ROM12、RAM13、入力装置14、表示装置15、スキャナ16、プリンタ17、ハードディスク(HD)18、リムーバブル外部記憶装置19、及び通信装置20から構成される。複写機1は、原稿を読み取り複写するコピー機能(複写機能)、原稿を読み取りFAXするFAX処理機能、原稿を読み取り電子メールで送信するSEND処理機能などを備える多機能な複写機である。
FIG. 1 is a block diagram showing a schematic configuration of a copying machine (information processing apparatus) according to an embodiment of the present invention. In FIG. 1,
CPU10は、例えばマイクロプロセッサであり、種々のプログラムを読み込み実行することで画像処理、文字処理、検索処理のための演算、論理判断等を行い、バス11を介してバス11に接続された各構成要素を制御する。
The
バス11は、バスであり、CPU10の制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。RAM13は、CPU10が読み書き可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶として利用されるメモリである。ROM(Read Only Memory)12は、読出し専用の不揮発性メモリである。ROM12は、例えばCPU10が起動時に実行するブートプログラムを記憶する。具体的には、CPU10は、システム起動時にブートプログラムを実行すると、HD18に記憶された制御プログラムをRAM13にロードして実行する。この制御プログラムについては、後にフローチャートを参照して詳述する。
The bus 11 is a bus, and transfers an address signal and a control signal instructing each component to be controlled by the
入力装置14は、タッチパネルや操作ボタン等である。尚、入力装置14は、タッチパネルや操作ボタンに限定されるものではなく、通常のPC(パーソナルコンピュータ)の様にキーボードや、マウス等で構成してもよい。表示装置15は、例えば液晶ディスプレイやCRT等である。本実施形態では、表示装置15の上に入力装置14の一部が形成されることで、表示装置15の画面に表示したボタンによる入力等が可能なタッチパネルを実現している。
The
スキャナ16は、原稿である紙文書を読み取ってデジタル画像データ化する等の処理を行う装置である。プリンタ17は、複写機1内で保持する文書データやイメージデータを印刷処理するための装置である。具体的には、プリンタ17は、通信装置20が通信回線(ネットワーク)経由で受信する電子文書、HD18内に保持されている電子文書を印刷する。また、複写機1のコピー機能は、スキャナ16から読み取られたスキャンイメージデータをそのままプリンタ17により印刷することにより実現される。
The
HD18はハードディスクであり、CPU10により実行される制御プログラム18a、文章内容及び文書レイアウトの類似検索を行う検索処理及び文書管理のための索引に関する情報である文書管理索引データ18b、文章内容の類似検索を行う際の各単語の重要度に関するデータである単語重要度テーブル18c等が格納されている。ここで、文章内容及び文書レイアウトの類似検索とは、スキャナ16においてスキャンした原稿に含まれる文章の内容と類似するものを、文書管理索引データ18bにおいて管理対象とする文章内容から検索する処理及び、スキャナ16においてスキャンした原稿に含まれる文章や図柄のレイアウトと類似するものを、文書管理索引データ18bにおいて管理対象とするレイアウトから検索する処理である。尚、文書管理索引データ18bにおいて管理対象となる文章内容やレイアウトは、複写機1においてコピー処理、FAX処理、及びSEND処理を制限する必要があるものである。
An
リムーバブル外部記憶装置19は、例えばUSB(Universal Serial Bus)メモリデバイス、ICカード等の複写機1に着脱可能な記録媒体に対するインタフェースを有する装置である。リムーバブル外部記憶装置19は、上記構成に限定されるものではなく、例えばフレキシブルディスクやCD、DVD等のディスク状の記録媒体を設置してアクセスするためのドライブ等を備える構成でもよい。CPU10は、リムーバブル外部記憶装置19を、上記HD18と同様に利用することができる。リムーバブル外部記憶装置19は、着脱可能な記録媒体を通じて他の複写機とのデータ交換を実現する。尚、HD18に記憶される制御プログラムについては、リムーバブル外部記憶装置19から必要に応じて全部または一部を複写したものであってもよい。
The removable
通信装置20は、ネットワークコントローラであり、通信回線を介して外部とのデータ交換を行う装置である。複写機1は、入力装置14等から入力される各種イベントに応じて作動する。具体的には、入力装置14等からのインタラプトが供給されると、入力信号がCPU10に送られ、それに伴ってイベントが発生し、イベントに応じてCPU10がROM12またはRAM13内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
The
以上の構成により、本実施形態における複写機1は、スキャンした原稿の文章内容やレイアウトが文書管理索引データ18bにおいて管理対象となる文書の文書内容やレイアウトと類似しているか否かを判断し、類似していると判断した場合に、スキャンイメージデータを基にコピー処理、FAX処理、又はSEND処理を行うことを制限することができる。
With the above configuration, the copying
図2は、図1に示した複写機1における操作の流れの例を示した図である。
図2に示すように、複写機1は、文書管理索引データ18b中に文章内容及びレイアウトの類似検索を行うための索引データと、セキュリティ管理のための情報を予め格納しておく。具体的には、例えばある議事録の文書Aと同じ形式で同じ議題となる他の議事録の文書に対してコピー処理を制限したい場合には、その文書Aの文章内容及びレイアウトに関する情報を文書管理索引データ18bに登録する。尚、登録処理の詳細については後述する。これにより文書管理索引データ18bに格納されているデータを利用して、複写機1は、文書Aと文章内容及びレイアウトが類似する文書に対してコピー処理を制限することができる。
FIG. 2 is a diagram showing an example of the operation flow in the copying
As shown in FIG. 2, the copying
例えば、複写機1の原稿台にセットされた紙文書である原稿2のコピーが指示されると、複写機1のスキャナ16は、原稿2をスキャンしてスキャンイメージを出力する。このスキャンイメージを基に、複写機1は、原稿2のレイアウト情報や文章内容を抽出して、文書管理索引データ18bを検索することにより、コピー処理、FAX処理、及びSEND処理(以下、コピー処理等とする)の制限に関する情報である文書管理情報を生成する。そして、複写機1は、この文書管理情報に応じて、スキャンイメージをプリンタ17で出力するコピー処理等を行うか否かを判断する。ここで、コピー処理等行うと判断した場合には、複写機1は、スキャンイメージを基にしたコピー処理等を行う。
For example, when an instruction to copy a
また、コピー処理等を行わないと判断した場合には、複写機1は、スキャンイメージを基にしたコピー処理等を抑制し、かつ、コピー処理等の抑制の解除をセキュリティ管理者等に依頼する場合に備えて、類似していると判断した文書管理索引データ18bにおいて管理対象の文書に関する情報(例えば、後述する文書ID)を表示装置15に表示する。
If it is determined that the copy process is not performed, the copying
図3は、図1に示した複写機1の表示装置15の画面遷移例を示した図である。図3において画面3−1は初期状態の画面である。画面3−1には、コピー処理動作を起動するコピーボタン31、FAX処理動作を起動するFAXボタン32、SEND処理動作を起動するSENDボタン33、セキュリティ情報を設定するための設定ボタン34の各種ボタンが配置されている。
FIG. 3 is a diagram showing a screen transition example of the
例えば、コピーボタン31が押下された場合は、原稿台にある原稿に対するコピー処理の可否が判定され、コピー処理可と判定した場合には、複写機1は、コピー処理動作を遂行する。また、コピー処理不可と判定した場合には、複写機1は、コピー処理動作を遂行しない。この場合には、複写機1は、画面3−2に示すような画面を表示装置15に表示することで、コピー処理動作を遂行しない旨を利用者に通知すると共に文書管理索引データ18bにおいてコピー処理抑制に設定されている文書の文書ID(例えば、上述した例の文書Aの文書ID)を示すことができる。
For example, when the
尚、複写機1は、従来技術のように文書の画像パターンを直接比較するのではなく、文書に含まれる文章内容及びレイアウトを比較することで、コピー処理等の制限対象となる文書であるか否かを判断する。このため、偶然、原稿(コピー処理の制限の必要ないもの)の文書に含まれる文章内容が文書管理索引データ18bで管理している文書(以下、管理対象文書とする)の文章内容と類似しているだけでコピー処理を制限されてしまう場合があるかもしない。そのような場合は、コピー処理抑制の根拠(どの管理対象文書を基にコピー処理の制限が行われているか)をはっきりさせるために、画面3−2に示すように、コピー処理抑制の根拠となる管理対象文書の文書IDを表示するようにしている。そうすることで、利用者は、文書セキュリティ管理者に相談することによりコピー処理の制限解除や、制限設定の変更を依頼することができる。
Whether the copying
図3のFAXボタン32、SENDボタン33についても、押下されることでコピーボタン31と同様に、複写機1は、FAX機能、SEND機能を実行する。また、文書管理索引データ18bを参照することで、FAX処理やSEND処理を制限すると判断した場合には、複写機1は、図3の画面3−3、画面3−4に示すように、FAX処理やSEND処理を制限した旨と共に文書管理索引データ18bにおいて参照された管理対象文書の文書IDを表示装置15に表示する。
When the
また、図3の画面3−1で設定ボタン34を押下すると、複写機1は、図3に示す画面3−5を表示装置15に表示する。この画面3−5においては、利用者は文書管理索引データ18bにおいて管理する文書のセキュリティ情報を変更することができる。尚、セキュリティ情報が誰にでも変更できるのであればセキュリティの意味がないので、複写機1は、画面3−5に示すように、文書セキュリティ管理者のみに設定変更の権限を限定するため、入力欄35及び36にログイン名及びパスワードの入力を要求し、それらの情報を利用してユーザ認証を行う。
When the setting button 34 is pressed on the screen 3-1 in FIG. 3, the copying
また、画面3−5に示すように、入力欄37は、登録対象の文書IDを入力する入力欄である。また、利用者(文書セキュリティ管理者)は、入力欄37に入力した文書IDで特定される文書に対して、コピー処理、FAX処理、SEND処理に対して「許可」または「禁止」の属性を選択的に設定できる。図3の画面3−5では、全て「禁止」が選択されている。最後に設定ボタン38を押下することで、入力したセキュリティ情報が文書管理索引データ18bに設定される。また、取消ボタン39を押下することで、画面3−5における設定入力は無効となる。
Further, as shown on the screen 3-5, the
図4は、本実施形態の複写機1が備える文書解析機能の例を示す図である。
図4の上段に示すように、イメージデータ4−1は、スキャナ16でスキャンされたスキャンイメージ例を示すものであり、原稿の紙文書がスキャナ16によって読み取られデジタルデータ化された文書イメージである。このイメージデータ4−1に対して、まず、複写機1は、ブロック解析を行う。ブロック解析は、文書イメージ4−1に対してブロックの性質に応じた矩形ブロックに分割する処理である。文書イメージ4−1に対するブロック解析の結果、複写機1は、図4の下段に示すようにテキストブロック4−2、画像ブロック4−3、及び画像ブロック4−4の3つのブロックに分割する。テキストブロック4−2は、内部に文章(テキスト)が含まれていることを検出してテキストブロックと判断したブロックである。また、残りの画像ブロック4−3、4−4は、テキスト以外の情報(グラフ、写真など)が含まれていることを検出して画像ブロックと判断したブロックである。
FIG. 4 is a diagram illustrating an example of a document analysis function provided in the copying
As shown in the upper part of FIG. 4, the image data 4-1 shows an example of a scan image scanned by the
尚、本実施形態では、テキストブロックや画像ブロックの検出(判断)方法については、特に説明しないが、市販のOCR(Optical Character Reader)ソフトなどで一般的に利用されている種々の方法を用いてよい。また、複写機1は、テキストブロック4−2に対しては、文字認識処理を行い、テキストの抽出処理を行うが、画像ブロック4−3,4−4に対しては、文字認識処理やテキストの抽出処理を行わない。
In this embodiment, a method for detecting (determining) a text block or an image block is not particularly described, but various methods generally used in commercially available OCR (Optical Character Reader) software or the like are used. Good. The copying
また、複写機1は、テキストブロック4−2に対して行った文字認識処理の結果として得られたテキスト情報を基に、当該テキスト情報の特徴となるキーワードを抽出する処理を行う。図5は、複写機1におけるテキストブロック4−2から抽出したテキスト情報例、及びテキスト情報から抽出されたキーワードデータ例を示す図である。
Further, the copying
まず、複写機1は、図4に示したスキャンイメージ4−1のテキストブロック4−2に対して文字認識処理を行い、OCRテキスト情報としてテキスト情報5−2を出力する。文字認識処理であるため100%正確な認識が行われるとは限らず、一定の誤認識データが含まれることになる。図中“BXシリーズ”となるべき文字列は“8○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。このような誤認識文字はマッチングが取れないので、予め除去されてしまう。現時点でのワープロ文字に対する文字認識処理における文字認識率は100%近い正確な処理なので、誤認識文字は全体から見れば少数である。このように誤認識単語を除外したとしても、本実施形態によるマッチング処理においては、誤差の範囲内にとどまり、全体としては類似した文章を抽出できる。
First, the
誤認識除去の手法は多々考えられるが、ここではキーワード抽出に基づく誤認識除去の例が示されている。複写機1には、解析可能なキーワードのリスト(キーワード辞書)が予め用意されており、このキーワードリストに基づき、テキスト情報5−2に含まれるキーワードが抽出キーワードデータ5−3としてリストアップされる。キーワード辞書に載っているキーワードのみがリストアップされるので、未知語などはなくなり、この段階で誤認識の大多数は除去される。なお、キーワード辞書は、ドキュメントの特徴を把握しやすいように特定の品詞(名詞、固有名詞、サ変名詞)の単語のみが登録されている。図5示の例では、キーワードデータ5−3に示すように「写真」「追求」などがピックアップされ、キーワード辞書にない「8○」は除外されている。
There are many methods for removing erroneous recognition. Here, an example of erroneous recognition removal based on keyword extraction is shown. The
次に、複写機1は、抽出したキーワードデータ5−3を基に、文章内容が文書管理索引データ18bで管理している管理対象文書の文章内容と類似しているいか否かを判断する。すなわち、複写機1は、文書管理索引データ18bにおいて、文書内容に関する情報として各管理対象文書のテキスト情報から抽出したキーワードに関する情報を格納する。
Next, the copying
ここで、文書管理索引データ18bの詳細について説明する。図6は、図1に示した文書管理索引データ18bの構成例を示す図である。図6に示すように、文書管理索引データ18bは、管理対象文書を特定する「文書ID」6−1に関連付けて「レイアウト特徴量」6−2、「文章内容特徴量」6−3、「文書制御情報」6−4を格納している。
Here, details of the document
「文書ID」6−1は、その文書(管理対象文書)をユニークに特定できる識別情報である。「レイアウト特徴量」6−2は、「文書ID」6−1で特定される文書のレイアウトに関する情報である。「レイアウト特徴量」6−2は、上述した文書レイアウトの類似検索を行うための各文書のレイアウトに関するインデックス情報である。複写機1は、「レイアウト特徴量」6−2を基にレイアウトの類似性を判定する。例えば、複写機1は、文書のイメージデータをビットマップイメージに変換して、そのビットマップイメージを縦n個、横m個の矩形に分割し、各矩形の平均の輝度情報と色情報を「レイアウト特徴量」6−2として文書管理索引データ18bに格納する。また、類似検索を行うための画像特徴量の例については、例えば、特開平10−260983においても提案されており、これを用いてもよい。
The “document ID” 6-1 is identification information that can uniquely identify the document (management target document). The “layout feature amount” 6-2 is information relating to the layout of the document specified by the “document ID” 6-1. The “layout feature” 6-2 is index information relating to the layout of each document for performing the above-described similarity search of document layouts. The copying
「レイアウト特徴量」6−2は、複写機1がネットワークを介してPC等から印刷時に受信するラスタイメージ、コピー・FAX・SEND時のスキャンされデジタル化されたスキャンイメージを基に作成される。以上により、複写機1は、文書レイアウトの類似検索を行う際は、原稿のレイアウト特徴量を抽出して、文書管理索引データ18bに格納する各管理対象文書の「レイアウト特徴量」6−2と比較して、レイアウト類似度を求める。
The “layout feature value” 6-2 is created based on a raster image received by the copying
次に、図6に示した「文章内容特徴量」6−3、「文書制御情報」6−4について、図7、図8を用いて詳述する。図7は、図6に示した「文章内容特徴量」6−3の構成例を示す図である。図7に示すように、「文章内容特徴量」6−3は、文章内容の類似検索を行うためのインデックス情報として、文書IDで識別される各管理対象文書の文章内容に応じた文書ベクトルを格納する。この文書ベクトルとは、キーワード辞書に含まれる単語(キーワード)を次元として、文書ベクトルの各次元の値をその単語の出現度数とする。また、図7に示すように、各次元には1、2、3、…と識別番号が付与されており、例えば次元「2」は、「写真」、次元「5」は「追求」、次元「8」は「モデル」という単語が対応している。これらの単語は、図5のキーワードデータ5−3に示すようにキーワード辞書に含まれる単語である。
Next, “text content feature amount” 6-3 and “document control information” 6-4 shown in FIG. 6 will be described in detail with reference to FIGS. FIG. 7 is a diagram illustrating a configuration example of the “text content feature amount” 6-3 illustrated in FIG. As shown in FIG. 7, the “text content feature amount” 6-3 is a document vector corresponding to the text content of each management target document identified by the document ID, as index information for performing a similar search of text content. Store. The document vector is a word (keyword) included in the keyword dictionary as a dimension, and the value of each dimension of the document vector is the frequency of appearance of the word. As shown in FIG. 7,
ただし、本実施形態の「文章内容特徴量」6−3においては、1単語を正確に1次元とせず、同一あるいは類似の単語群を1つの次元として文書ベクトルを構成する。例えば図7では、次元「2」に対して「写真」以外に「フォト」の単語も対応させている。「文章内容特徴量」6−3は、各次元に対応する単語が文書IDで特定される文書に含まれる出現度数を、次元ごとに記憶する。 However, in the “text content feature amount” 6-3 of the present embodiment, one word is not exactly one-dimensional, and the document vector is configured with the same or similar word group as one dimension. For example, in FIG. 7, the word “photo” is associated with the dimension “2” in addition to “photo”. The “text content feature amount” 6-3 stores, for each dimension, the appearance frequency included in the document in which the word corresponding to each dimension is specified by the document ID.
また、図4に示した文書では一つのテキストブロック4−2のみを含んでいたが、1つの文書に複数のテキストブロックが存在する場合は、複写機1は、全てのテキストブロックから抽出されるキーワードデータについてまとめて集計して、1つの文書ベクトルに関する情報(文書内容特徴量)を作成して、文書管理索引データ18bに格納する。また、複写機1は、文書の検索を行う際には、検索クエリとなるスキャンされた文書からも、文書管理索引データ18bに格納する文書ベクトルと同じ形式のベクトルデータ(クエリベクトル)を作成する。これにより、複写機1は、スキャンした原稿のベクトルデータと、文書管理索引データ18bに格納される「文章内容特徴量」6−3から参照する各管理対象文書の文書ベクトルを比較し類似度を求めることで、文章内容の類似検索を行う。
Further, the document shown in FIG. 4 includes only one text block 4-2, but when a plurality of text blocks exist in one document, the copying
次に、図6に示した「文書制御情報」6−4について説明する。図8は、図6に示した「文書制御情報」6−4の構成例を示す図である。「文書制御情報」6−4は、文書IDで識別される各管理対象文書に対応して、その文書をどのように管理すべきかを示すセキュリティ情報を格納する。具体的にはセキュリティ情報として、図8に示すように、文書IDに対応して、複写機1における3種類の動作を制御する情報としてコピー処理制御情報8−1、FAX処理制御情報8−2、SEND処理制御情報8−3を格納する。
Next, the “document control information” 6-4 shown in FIG. 6 will be described. FIG. 8 is a diagram showing a configuration example of the “document control information” 6-4 shown in FIG. The “document control information” 6-4 stores security information indicating how to manage the document corresponding to each management target document identified by the document ID. Specifically, as security information, as shown in FIG. 8, copy processing control information 8-1 and FAX processing control information 8-2 are information that controls three types of operations in the copying
本実施形態では、「文書制御情報」6−4は、コピー処理制御情報8−1、FAX処理制御情報8−2、SEND処理制御情報8−3として、複写機1における各動作を制御する情報として「0」又は「1」をそれぞれ格納する。各動作に対して許可するのであれば「1」、抑制するのであれば「0」をそれぞれ格納する。尚、ユーザごとに許可/抑制の制御を変更する実施形態を実現する場合には、例えば、この「文書制御情報」6−4の構成に、ユーザ情報の次元を新たに加えて3次元化して構成することにより実現できる。
In the present embodiment, the “document control information” 6-4 is information that controls each operation in the copying
図8の例においては、文書ID6947の文書はコピー処理許可、FAX処理許可、SEND処理許可であり、文書ID6948の文書はコピー処理のみ許可であり、FAX処理とSEND処理は抑制である。文書ID6949の文書はSEND処理のみ許可であり、コピー処理とFAX処理は抑制である。
In the example of FIG. 8, the document with
次に、複写機1がスキャンした原稿のベクトルデータと、文書管理索引データ18bに格納される「文章内容特徴量」6−3から参照する各管理対象文書の文書ベクトルを比較し類似度(文書内容類似度)を求める際に、参照する単語重要度テーブルについて説明する。図9は、本実施形態における単語重要度テーブルの一例を示す図である。図9において、単語重要度テーブル91は、文書中における各単語の出現度数(出現頻度数)を示すテーブルである。図9に示すように、各単語の特定には「文章内容特徴量」6−3に示した各単語(次元)の識別番号を利用している。複写機1は、文書管理索引データ18bにて管理する全管理対象文書において、各単語の出現する頻度を基にこの単語重要度テーブル91を作成し、文章内容の類似性を判定する上で利用する。
Next, the vector data of the original scanned by the copying
複写機1は、各単語の重要度を単語重要度テーブル91の出現度数の逆数で算出する。具体的には、単語kの重要度wkを以下の式で求める。
wk=1/(単語kの出現度数)
ここで、k=1、2、3、…、nであり、「文章内容特徴量」6−3に示した各単語(次元)の識別番号を示す数字である。
The copying
w k = 1 / (frequency of word k)
Here, k = 1, 2, 3,..., N, and is a number indicating the identification number of each word (dimension) shown in “text content feature amount” 6-3.
ただし、出現度数が0の場合は単語の重要度も0とする。文書管理索引データ18bにて管理する全管理対象文書のいずれにも出現しない単語は類似性判定には役に立たないと判断したためである。重要度が出現度数の逆数をとる理由は、多くの文書に多頻度で出現するようなありふれた単語は文章内容の類似性を判定する上では相対的に重要性が低いからである。
However, when the appearance frequency is 0, the importance of the word is also 0. This is because it is determined that a word that does not appear in any of the all management target documents managed by the document
また、複写機1は、文書の類似性判定を行うために文書管理索引データ18bにて管理する管理対象文書Aと原稿Bの文章内容類似度TS(X,Q)を以下の式を利用して算出する。
但し、管理対象文書Aの文書ベクトルX=(x1,x2,x3,…,xn)とし、原稿BのクエリベクトルQ=(q1,q2,q3,…,qn)とする。ここで1〜nの数字は、「文章内容特徴量」6−3に示した各単語(次元)の識別番号である。また、wkは単語kの重要度である。
However, the document vector X of the management target document A = (x 1 , x 2 , x 3 ,..., X n ) and the query vector Q of the document B = (q 1 , q 2 , q 3 ,..., Q n ) And Here, the
文章内容類似度TSは、上記式に示すように、比較する2つの文書(管理対象文書Aと原稿B)について、すべての単語(k=1からk=nまで)の出現度数の差の絶対値にその単語の重要度wkを乗じたものを積算し、そのマイナスの値で表現する。マイナスにすることで、出現度数の差が小さいほど文章内容類似度TSの値が大きくなる。すなわち、文章内容類似度TSの値が大きいほど、比較する2つの文書の類似性が高いことを示す。 As shown in the above formula, the sentence content similarity TS is the absolute difference in the frequency of appearance of all the words (from k = 1 to k = n) for the two documents to be compared (managed document A and manuscript B). The value multiplied by the importance w k of the word is added and expressed as a negative value. By making it negative, the value of the sentence content similarity TS increases as the difference in appearance frequency decreases. That is, the larger the value of the sentence content similarity TS, the higher the similarity between the two documents to be compared.
また、複写機1は、管理対象文書Aと原稿Bのレイアウト類似度LSについても、同様に双方の文書(管理対象文書Aと原稿B)の類似性が高いほど、レイアウト類似度LSの値が大きくなる計算式を用いて求める。
In the copying
更に、複写機1は、上述した文章内容類似度TSとレイアウト類似度LSとから、総合類似度Sを以下の式により求める。
S=α×TS+β×LS
Further, the copying
S = α × TS + β × LS
上記式により求めた総合類似度は基本的には文章内容類似度TSとレイアウト類似度LSを加算したものであるが、文章内容類似度TSとレイアウト類似度LSの重要性に応じて、重みαとβを乗じて加算している。αは文章内容類似度に対する重みであり、βはレイアウト類似度に対する重みである。αとβの値は可変であり、セキュリティ管理などの視点から適宜変更可能である。レイアウトと機密性の関係が薄く、文章内容のみチェックすればよいのであれば、レイアウト類似度の重みβの値を小さくする。例えば、レイアウトを一切無視するのであれば、α=1、β=0などとすればよい。他方、紙幣・有価証券のようにレイアウトについても一定のセキュリティ上の考慮を払い、文章内容と等しく重視したいのであれば、α=1、β=1などと設定する。 The total similarity obtained by the above formula is basically the sum of the text content similarity TS and the layout similarity LS, but the weight α depends on the importance of the text content similarity TS and the layout similarity LS. And β are added. α is a weight for the sentence content similarity, and β is a weight for the layout similarity. The values of α and β are variable and can be appropriately changed from the viewpoint of security management. If the relationship between the layout and confidentiality is low and only the text content needs to be checked, the layout similarity weight β is decreased. For example, if the layout is completely ignored, α = 1, β = 0, etc. On the other hand, if a certain security consideration is given to the layout like banknotes / securities, and if it is desired to place the same importance on the text content, α = 1, β = 1, etc. are set.
上述の複写機1の動作をフローチャートに従って説明する。
The operation of the copying
図10は、複写機1の動作、より具体的にはCPU10の処理手順を示すフローチャートである。図10に示すように、まず、ステップS11−1において、CPU10は、システムの初期化処理を行う。具体的には、CPU10は、各種パラメータの初期化や初期画面の表示等を行う。
FIG. 10 is a flowchart showing the operation of the copying
次に、ステップS11−2において、CPU10は、タッチパネル等の入力装置14からの入力、あるいは通信装置20を介して直接接続又はネットワーク接続されている機器/デバイスからのリクエストなど、何らかのイベントが発生するのをマイクロプロセッサCPUにおいて待つ処理である。イベントが発生すると、ステップS11−3において、CPU10は、発生したイベントを判別し、ステップS11−4においてイベントの種類に応じて各種の処理に分岐する。図10においては、各種イベントに対応した分岐先の複数の処理をステップS11−4という形でまとめて表現している。
Next, in step S <b> 11-2, the
上記ステップS11−4の具体的な処理としては、図11、図12、図13、図14、図15で詳述する印刷処理、文書管理情報設定処理、コピー処理、FAX処理、SEND処理がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、コピー枚数を設定する処理、FAX先やSEND先を指定する処理など通常の複写機の処理がある。次に、ステップS11−5において、複写機1は、上記の各処理の処理終了を例えば表示装置15に表示する表示処理を行う。エラーがあった場合のエラー表示、正常終了の場合の表示処理など通常広く行われる処理である。
Specific processing in step S11-4 includes print processing, document management information setting processing, copy processing, FAX processing, and SEND processing, which will be described in detail with reference to FIGS. 11, 12, 13, 14, and 15. It becomes a part of the branch destination. As other processing, although details are not described, there are normal copying machine processing such as processing for setting the number of copies and processing for specifying a FAX destination and a SEND destination. Next, in step S11-5, the copying
次に、複写機1における印刷処理について説明する。図11は、図10に示したステップS11−4の処理の一部である印刷処理の詳細を示すフローチャートである。複写機1における印刷処理は、通信装置20を介してネットワークの先に接続されたPC等の機器から電子ファイル(文書ファイル)の印刷が指示されたときに起動する処理である。尚、複写機1は、印刷指示と合わせて、印刷対象となる文書のラスタイメージ(ビットマップイメージ)を受信する。
Next, a printing process in the copying
図11に示すように、まず、ステップS12−1において、複写機1は、受信した文書のラスタイメージをプリンタ17により印刷処理する通常の印刷処理を行う。次に、ステップS12−2において、複写機1は、印刷処理したラスタイメージに対してブロック解析を行い、テキストブロックと画像ブロックを特定する。
As shown in FIG. 11, first, in step S <b> 12-1, the copying
次に、ステップS12−3において、複写機1は、テキストブロック中の文字に対して文字認識処理を行い、テキスト情報を抽出する。次に、ステップS12−4において、複写機1は、抽出されたテキスト情報からキーワード辞書を基にキーワードを抽出し、文章内容特徴量である文書ベクトルを生成する。次に、ステップS12−5において、複写機1は、ラスタイメージから、画像の特徴量などを含むレイアウト特徴量を抽出する。次に、ステップS12−6において、複写機1は、ステップS12−4において抽出した文章内容特徴量及び、ステップS12−5で抽出したレイアウト特徴量を、文書管理索引データ18bに、印刷処理した文書を特定する文書IDに関連付けて登録する。以上に示したように、複写機1は、印刷処理時に、文書管理索引データ18bに印刷処理した文書に関する文書特徴情報(文章内容特徴量、レイアウト特徴量)を登録する処理を行うことができる。
Next, in step S12-3, the
次に、複写機1における文書管理情報設定処理について説明する。
図12は、図10に示したステップS11−4の処理の一部である文書管理情報設定処理の詳細を示すフローチャートである。図12に示すように、まず、ステップS13−1において、複写機1は、図3に示した画面3−5を表示装置15に表示することで、セキュリティ管理者のログイン名・パスワード(ユーザ認証に使用)、及び各文書に設定すべきセキュリティ情報の入力を、利用者に促す。次に、ステップS13−2において、複写機1は、入力されたログイン名・パスワードに基づいてユーザ認証を行う。
Next, document management information setting processing in the copying
FIG. 12 is a flowchart showing details of the document management information setting process which is a part of the process of step S11-4 shown in FIG. As shown in FIG. 12, first, in step S13-1, the copying
次に、ステップS13−3において、複写機1は、ステップS13−2におけるユーザ認証が成功したか、すなわち、ユーザ認証によりセキュリティ情報が変更できる権限が認められたかどうかを判定する。ここで、ユーザ認証に失敗した場合には、複写機1は、文書管理索引データ18bの情報を変更せずに文書管理情報設定処理を終了する。また、ユーザ認証に成功した場合には、複写機1は、ステップS13−4において、入力された情報に従って文書のセキュリティ情報を文書管理索引データ18bの「文書制御情報」6−4に登録し、登録処理後に文書管理情報設定処理を終了する。
Next, in step S13-3, the copying
次に、複写機1におけるコピー処理について説明する。
図13は、図10に示したステップS11−4の処理の一部であるコピー処理の詳細を示すフローチャートである。図13に示すように、まず、ステップS14−1において、複写機1は、原稿台上の紙文書をスキャナ16で読み取り、ビットマップイメージ化する。次に、ステップS14−2において、複写機1は、スキャンされたビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。
Next, a copy process in the copying
FIG. 13 is a flowchart showing details of the copy process which is a part of the process of step S11-4 shown in FIG. As shown in FIG. 13, first, in step S14-1, the copying
次に、ステップS14−3において、複写機1は、テキストブロック中の文字に対して文字認識処理を行い、テキスト情報を抽出する。次に、ステップS14−4において、複写機1は、抽出したテキスト情報からキーワードを抽出し、文章内容特徴量であるクエリベクトルを生成する。次に、ステップS14−5において、複写機1は、ビットマップイメージに対して画像特徴量などのレイアウト特徴量を抽出する。次に、ステップS14−6において、複写機1は、抽出された特徴量から、上述したようにレイアウト類似度、文章内容類似度を求めて総合類似度を算出し、最も類似している管理対象文書の文書IDを特定する。
Next, in step S14-3, the copying
次に、ステップS14−7において、複写機1は、特定した文書IDのセキュリティ情報(図8に示した「文書制御情報」6−4)を文書管理索引データ18bから参照する。次に、ステップS14−8において、複写機1は、参照したセキュリティ情報がコピー処理許可になっているか否かを判定する。ここで、コピー処理が許可されていると判定した場合には、複写機1は、ステップS14−9に進み、通常のコピー処理を行い、ステップS14−10に進み、抽出された文書特徴情報(文章内容特徴量、レイアウト特徴量)を後述の図16に示す文書登録処理により、文書管理索引データ18bに登録する処理を行う。また、ステップS14−8でコピー処理が禁止(抑制)されていると判定した場合は、複写機1は、ステップS14−11に進み、コピー処理抑制の根拠となった管理対象文書の文書IDを表示装置15に表示する処理を行う。
Next, in step S14-7, the copying
次に、複写機1におけるFAX処理について説明する。
図14は、図10に示したステップS11−4の処理の一部であるFAX処理の詳細を示すフローチャートである。尚、図14におけるステップS15−1〜S15−7に示す処理は、上述した図13におけるステップS14−1〜S14−7の処理と同等であるので、説明を省略する。
Next, FAX processing in the copying
FIG. 14 is a flowchart showing details of the FAX process that is a part of the process of step S11-4 shown in FIG. The processes shown in steps S15-1 to S15-7 in FIG. 14 are the same as the processes in steps S14-1 to S14-7 in FIG.
ステップS15−7の次に、ステップS15−8において、複写機1は、セキュリティ情報においてFAX処理が許可になっているか否かを判定し、許可されていればステップS15−9において通常のFAX処理を行った後、ステップS15−10において、抽出された文書特徴情報を後述する図16に示す文書登録処理により、文書管理索引データ18bに登録する処理を行う。また、ステップS15−8においてFAX処理が禁止(抑制)されている場合は、複写機1は、ステップS15−11に進み、FAX処理抑制の根拠となった管理対象文書の文書IDを表示装置15に表示する処理を行う。
Following step S15-7, in step S15-8, the copying
次に、複写機1におけるSEND処理について説明する。
図15は、図10に示したステップS11−4の処理の一部であるSEND処理の詳細を示すフローチャートである。尚、図15におけるステップS16−1〜S16−7に示す処理は、上述した図13におけるステップS14−1〜S14−7の処理と同等であるので、説明を省略する。
Next, the SEND process in the copying
FIG. 15 is a flowchart showing details of the SEND process which is a part of the process of step S11-4 shown in FIG. The processes shown in steps S16-1 to S16-7 in FIG. 15 are the same as the processes in steps S14-1 to S14-7 in FIG.
ステップS16−7の次に、ステップS16−8において、複写機1は、セキュリティ情報がSEND処理許可になっているか否かを判定し、許可されていればステップS16−9において通常のSEND処理を行った後、ステップS16−10において、抽出された文書特徴情報を後述する図16に示す文書登録処理により、文書管理索引データ18bに登録する処理を行う。また、ステップS16−8においてSEND処理が禁止(抑制)されている場合は、ステップS16−11に進み、複写機1は、SEND処理抑制の根拠となった管理対象文書の文書IDを表示装置15に表示する処理を行う。
After step S16-7, in step S16-8, the copying
次に、図13〜図15に示したステップS14−10、S15−10、S16−10で行う、複写機1における文書登録処理について説明する。
図16は、複写機1において抽出した文書特徴情報(レイアウト特徴量、文章内容特徴量)を文書管理索引データ18bに登録する処理(文書登録処理)を示すフローチャートである。まず、ステップS17−1において、複写機1は、抽出した文書特徴情報を、文書管理索引データ18bに所定のフォーマットに従って登録する。次に、ステップS17−2において、複写機1は、文書特徴情報に含まれる文章内容特徴量を基に単語重要度テーブル91を更新する。
Next, document registration processing in the copying
FIG. 16 is a flowchart showing processing (document registration processing) for registering document feature information (layout feature amount, text content feature amount) extracted in the copying
以上に示した構成により、本実施形態の複写機1は、文章内容の類似性に基づいてコピー処理等の可否を判断できるので、所定の文章内容をもつ文書のコピー処理等禁止を網羅的に文書管理索引データ18bに登録しておけば、内容が類似している文書のコピー処理等を禁止できる。すなわち、文書管理索引データ18bに登録する文書に応じてセキュリティを柔軟に管理することができるので、操作性の高い複写機(文字処理装置)を提供できる。更に、複写機1は、コピー処理等禁止の際には、コピー処理等禁止の根拠となった文書の文書IDを表示できるので、コピー処理等の禁止に対する対処も適切に行うことができる。例えば、セキュリティ管理者にコピー処理等の禁止の解除を依頼する場合に、文書IDが特定されていれば、依頼に応じた解決策を迅速に推進することができる。また、このように、利用者の変更希望(依頼)を簡便に反映可能な柔軟なシステムを構築できる。
With the configuration described above, the copying
(他の実施形態)
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
(Other embodiments)
The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the gist of the present invention.
上述の実施形態においては、セキュリティの制御形態として、コピー処理、FAX処理、及びSEND処理の動作許可/禁止のみを想定しているが、それ以外の実現形態も考えられる。例えば、上記各処理動作の際に文書に透かしを刷り込むか否か、付加情報(「配布禁止」など)を文書に付加するか否か、をセキュリティ制御の選択肢に加えても良い。 In the above-described embodiment, only the operation permission / prohibition of copy processing, FAX processing, and SEND processing is assumed as a security control mode, but other implementation modes are also conceivable. For example, whether or not a watermark is imprinted on the document during each processing operation and whether or not additional information (such as “Distribution prohibited”) is added to the document may be added to the security control options.
また、上記動作禁止の際に表示装置15に表示するメッセージを指定(「この文書は部外秘です」など)できるようにしてもよい。この場合、文書制御情報に、上記メッセージ指定動作のON/OFF情報を追加し、その情報に応じて、印刷処理、FAX処理、SEND処理、あるいはメッセージの表示処理を行う。このようにすることで、単純に複製を作成しうるかどうかだけでなく、複製物の取扱いに伴う注意を喚起することができ、よりきめ細かなセキュリティ管理を行うことができる。
In addition, a message to be displayed on the
また、上述の実施形態においては、レイアウト類似度LSと文章内容類似度TSから求める総合類似度Sに基づいて文書管理索引データ18bで管理する全ての管理対象文書との類似性を判定し、最も類似性の高い文書を特定しているが、この際、文章内容類似度TSに掛ける重みαと、レイアウト類似度LSに積算する重みβは、適時変更可能としたが、その具体例を以下に説明する。
Further, in the above-described embodiment, the similarity with all the management target documents managed by the document
例えば、ある状況では文書のレイアウト情報(レイアウト特徴量)はセキュリティ制御に関係がない場合もある。また、逆にレイアウト情報が重要で、文章内容は重要でない場合もある。前者の例は会社内の一般の機密文書、例えば戦略的新製品の企画書、未出願の特許明細書などであり、このような場合、文書に貼り付けられたイラスト、ロゴ、写真などの位置は重要でないことが多い。また、後者の例は紙幣であり、レイアウトの異なるものは一切無視して差し支えない。このような場合、類似性判定の重み付けパラメータα、βを文書ごとに変更することで、セキュリティを考慮した類似性の判断を実現できる。具体的には、パラメータ情報(重み付けパラメータα、βの値)を文書管理索引データ18bに文書ごとに登録して、これを利用するようにすることで実現できる。尚、文書管理索引データ18bに登録するα、βの具体的な値は、文書の登録時にユーザに指定させる。このようにすることで、紙幣から一般文書まで性質の異なる文書に対するコピー処理、FAX処理、及びSEND処理などを、適切に制御でき、よりきめ細かなセキュリティ管理を実現できる。
For example, in some circumstances, document layout information (layout feature amount) may not be related to security control. Conversely, there are cases where layout information is important and sentence content is not important. Examples of the former are general confidential documents in the company, such as plans for strategic new products, unpatented patent specifications, etc.In such cases, the location of illustrations, logos, photographs, etc. attached to the documents Is often not important. Moreover, the latter example is a banknote, and those with different layouts can be ignored. In such a case, similarity determination in consideration of security can be realized by changing the weighting parameters α and β for similarity determination for each document. Specifically, this can be realized by registering the parameter information (values of the weighting parameters α and β) in the document
また、上述した実施形態において図10〜16に示した複写機1の各処理は、各処理の機能を実現する為のプログラムをメモリ(ROM12又はRAM13など)から読み出してCPU10が実行することによりその機能を実現させるものである。
In the above-described embodiment, each process of the copying
尚、複写機1において図10〜16に示した各処理を実現するためには、上述した構成に限定されるものではなく、複写機1の各処理の全部または一部の機能を専用のハードウェアにより実現してもよい。また、上述したメモリは、ROM12又はRAM13に限定されるものではなく、光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記録媒体、RAM以外の揮発性のメモリ、あるいはこれらの組合せによるコンピュータ読み取り、書き込み可能な記録媒体より構成されてもよい。
In order to implement the processes shown in FIGS. 10 to 16 in the copying
また、複写機1の各処理の機能を実現する為のプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各処理を行っても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェア(スキャナ16やプリンタ17など)を含むものとする。具体的には、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書きこまれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含む。
Further, a program for realizing the function of each process of the copying
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in the computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding a program for a certain period of time are also included.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現する為のものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
また、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体等のプログラムプロダクトも本発明の実施形態として適用することができる。上記のプログラム、記録媒体、伝送媒体およびプログラムプロダクトは、本発明の範疇に含まれる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
Further, a program product such as a computer-readable recording medium in which the above program is recorded can also be applied as an embodiment of the present invention. The above program, recording medium, transmission medium, and program product are included in the scope of the present invention.
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1 複写機
10 CPU
11 バス
12 ROM
13 RAM
14 入力装置
15 表示装置
16 スキャナ
17 プリンタ
18 HD(ハードディスク)
19 リムーバブル外部記憶装置
20 通信装置
1 Copying
11
13 RAM
14
19 Removable
Claims (8)
前記読取手段が出力する前記イメージデータの中から文字掲載部分を特定して文字認識処理を行い、認識した文字データを基に第1の文字情報を出力する文字情報抽出手段と、
前記文書処理を制御する対象となる制御対象文書に関する情報として、前記制御対象文書に含まれる文字に関する情報である第2の文字情報と、前記制御対象文書に対して一つまたは複数種類ある前記文書処理の内のどの処理を制御するかを定める制御情報とを少なくとも格納する情報格納手段と、
前記文字情報抽出手段が出力する前記第1の文字情報と、前記情報格納手段から参照する前記制御対象文書の前記第2の文字情報とを基に、前記原稿と前記制御対象文書の文書内容が類似しているか否かを判断する類似判断手段と、
前記類似判断手段の判断に応じて前記原稿と文書内容が類似する制御対象文書を特定し、前記情報格納手段から特定した制御対象文書の制御情報を参照して、前記原稿に対する前記処理要求に応じた文書処理の可否を判断する処理判断手段と
を具備することを特徴とする情報処理装置。 Reading means for reading a document in response to a processing request input by the input means, and outputting the read document as image data;
Character information extraction means for performing character recognition processing by specifying a character posting portion from the image data output by the reading means, and outputting first character information based on the recognized character data;
As information related to the control target document that is a target for controlling the document processing, second character information that is information related to characters included in the control target document, and one or more types of the document for the control target document Information storage means for storing at least control information for determining which of the processes is to be controlled;
Based on the first character information output by the character information extraction unit and the second character information of the control target document referenced from the information storage unit, the document contents of the manuscript and the control target document are Similarity determination means for determining whether or not they are similar;
A control target document whose document content is similar to that of the original is specified in accordance with the determination of the similarity determination unit, and the control information of the control target document specified from the information storage unit is referred to in response to the processing request for the original. An information processing apparatus comprising: processing determination means for determining whether or not document processing is possible.
前記情報格納手段は、前記制御対象文書のレイアウトに関する情報である第2のレイアウト情報を更に格納し、
前記類似判断手段は、前記文書内容の類似の判断と合わせて、前記レイアウト情報抽出手段が出力する第1のレイアウト情報と、前記情報格納手段より参照する前記第2のレイアウト情報とを基に、レイアウトの類似についても判断すること
を特徴とする請求項1に記載の情報処理装置。 Layout information extracting means for extracting information relating to the layout of the document from the image data output by the reading means and outputting first layout information;
The information storage means further stores second layout information which is information relating to a layout of the control target document;
The similarity determination means is based on the first layout information output by the layout information extraction means and the second layout information referred to by the information storage means together with the similarity determination of the document contents. The information processing apparatus according to claim 1, wherein similarities of layouts are also determined.
前記処理判断手段が前記処理要求に応じた文書処理を禁止すると判断した場合に、前記処理判断手段が前記類似判断手段の判断に応じて特定した制御対象文書を識別する情報である文書識別情報を前記表示手段に表示する表示制御手段と
を更に具備することを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。 Display means;
Document identification information, which is information for identifying the control target document specified by the process determining unit according to the determination by the similarity determining unit when the process determining unit determines to prohibit the document processing according to the processing request. The information processing apparatus according to claim 1, further comprising display control means for displaying on the display means.
前記読取ステップで出力された前記イメージデータの中から文字掲載部分を特定して文字認識処理を行い、認識した文字データを基に第1の文字情報を出力する文字情報抽出ステップと、
前記文書処理を制御する対象となる制御対象文書に関する情報として、前記制御対象文書に含まれる文字に関する情報である第2の文字情報と、前記制御対象文書に対して一つまたは複数種類ある前記文書処理の内のどの処理を制御するかを定める制御情報とを少なくとも格納する情報格納手段から、前記制御対象文書の前記第2の文字情報を参照し、記文字情報抽出ステップで出力する前記第1の文字情報と比較することで、前記原稿と前記制御対象文書の文書内容が類似しているか否かを判断する類似判断ステップと、
前記類似判断ステップの判断に応じて前記原稿と文書内容が類似する制御対象文書を特定し、前記情報格納手段から特定した制御対象文書の制御情報を参照して、前記原稿に対する前記処理要求に応じた文書処理の可否を判断する処理判断ステップと
を有することを特徴とする情報処理方法。 A reading step of reading a document in response to a processing request input by the input means, and outputting the read document as image data;
A character information extraction step of performing character recognition processing by specifying a character placement portion from the image data output in the reading step, and outputting first character information based on the recognized character data;
As information related to the control target document that is a target for controlling the document processing, second character information that is information related to characters included in the control target document, and one or more types of the document for the control target document The first character information is output in the character information extraction step by referring to the second character information of the control target document from an information storage means for storing at least control information for determining which of the processing is to be controlled. A similarity determination step for determining whether or not the document content of the document to be controlled is similar to the character information of
In response to the determination of the similarity determination step, a control target document whose document content is similar to that of the original is specified, and the control information of the control target document specified from the information storage unit is referred to in response to the processing request for the original. An information processing method comprising: a process determination step for determining whether or not document processing is possible.
入力手段により入力された処理要求に応じて原稿を読み取りイメージデータを出力する読取ステップと、
前記読取ステップで出力された前記イメージデータの中から文字掲載部分を特定して文字認識処理を行い、認識した文字データを基に第1の文字情報を出力する文字情報抽出ステップと、
前記文書処理を制御する対象となる制御対象文書に関する情報として、前記制御対象文書に含まれる文字に関する情報である第2の文字情報と、前記制御対象文書に対して一つまたは複数種類ある前記文書処理の内のどの処理を制御するかを定める制御情報とを少なくとも格納する情報格納手段から、前記制御対象文書の前記第2の文字情報を参照し、記文字情報抽出ステップで出力する前記第1の文字情報と比較することで、前記原稿と前記制御対象文書の文書内容が類似しているか否かを判断する類似判断ステップと、
前記類似判断ステップの判断に応じて前記原稿と文書内容が類似する制御対象文書を特定し、前記情報格納手段から特定した制御対象文書の制御情報を参照して、前記原稿に対する前記処理要求に応じた文書処理の可否を判断する処理判断ステップと
をコンピュータに実行させるためのプログラム。 A program for an information processing device,
A reading step of reading an original in accordance with a processing request input by an input means and outputting image data;
A character information extraction step of performing character recognition processing by specifying a character placement portion from the image data output in the reading step, and outputting first character information based on the recognized character data;
As information related to the control target document that is a target for controlling the document processing, second character information that is information related to characters included in the control target document, and one or more types of the document for the control target document The first character information is output in the character information extraction step by referring to the second character information of the control target document from an information storage means for storing at least control information for determining which of the processing is to be controlled. A similarity determination step for determining whether or not the document content of the document to be controlled is similar to the character information of
In response to the determination of the similarity determination step, a control target document whose document content is similar to that of the original is specified, and the control information of the control target document specified from the information storage unit is referred to in response to the processing request for the original. A program for causing a computer to execute a process determination step for determining whether document processing is possible.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005095619A JP2006279545A (en) | 2005-03-29 | 2005-03-29 | Information processor, information processing method, and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005095619A JP2006279545A (en) | 2005-03-29 | 2005-03-29 | Information processor, information processing method, and program therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006279545A true JP2006279545A (en) | 2006-10-12 |
Family
ID=37213819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005095619A Pending JP2006279545A (en) | 2005-03-29 | 2005-03-29 | Information processor, information processing method, and program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006279545A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008211403A (en) * | 2007-02-23 | 2008-09-11 | Konica Minolta Business Technologies Inc | Image forming apparatus, specific original determination method, and specific original determination program |
JP2009253771A (en) * | 2008-04-08 | 2009-10-29 | Canon Inc | Output device and its control method |
JP2013509632A (en) * | 2009-10-28 | 2013-03-14 | イタンセル | How to process documents about shipped items |
US8467106B2 (en) | 2007-03-02 | 2013-06-18 | Brother Kogyo Kabushiki Kaisha | Image processing apparatus and information writing apparatus |
JP2020523667A (en) * | 2017-06-16 | 2020-08-06 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | Vector format small image generation |
-
2005
- 2005-03-29 JP JP2005095619A patent/JP2006279545A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008211403A (en) * | 2007-02-23 | 2008-09-11 | Konica Minolta Business Technologies Inc | Image forming apparatus, specific original determination method, and specific original determination program |
US8467106B2 (en) | 2007-03-02 | 2013-06-18 | Brother Kogyo Kabushiki Kaisha | Image processing apparatus and information writing apparatus |
JP2009253771A (en) * | 2008-04-08 | 2009-10-29 | Canon Inc | Output device and its control method |
US8310711B2 (en) | 2008-04-08 | 2012-11-13 | Canon Kabushiki Kaisha | Output device and its control method for managing and reusing a job history |
JP2013509632A (en) * | 2009-10-28 | 2013-03-14 | イタンセル | How to process documents about shipped items |
US9330371B2 (en) | 2009-10-28 | 2016-05-03 | Itinsell | Method of processing documents relating to shipped articles |
JP2020523667A (en) * | 2017-06-16 | 2020-08-06 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | Vector format small image generation |
US11270472B2 (en) | 2017-06-16 | 2022-03-08 | Hewlett-Packard Development Company, L.P. | Small vector image generation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4704010B2 (en) | Image forming apparatus, image forming system, security management apparatus, and security management method | |
US8326090B2 (en) | Search apparatus and search method | |
US8045228B2 (en) | Image processing apparatus | |
JP2005044356A (en) | Apparatus and method for processing document, control program for same apparatus, and computer readable recording medium | |
US8315424B2 (en) | Image processing apparatus, image processing method, and program product | |
JP2014056556A (en) | Document management server, control method for document management server, program therefor, document management system, control method for document management system, and program therefor | |
JP2005175773A (en) | Device and method for forming image | |
JP2008141678A (en) | Image processing apparatus, control method of image processing apparatus, program, and storage medium | |
JP4783441B2 (en) | Image processing apparatus and scanner apparatus | |
JP2006279545A (en) | Information processor, information processing method, and program therefor | |
JP2006261907A (en) | Character processing device, character processing method, and recording medium | |
US7626726B2 (en) | Apparatus and system for image processing based on extracted image portion | |
JP4809198B2 (en) | Image processing device, article image selection method, program, and recording medium | |
JP2007048053A (en) | Document processing method, document processing device, and program | |
JP4424379B2 (en) | Image forming apparatus, image forming method, and image forming program | |
JP2006093917A (en) | Image reading apparatus and image processor, and image forming apparatus | |
JP2009212555A (en) | Paper document processing apparatus and program | |
JP2007201639A (en) | Image processing apparatus and control method thereof, image processing system, program, and recording medium | |
US8194982B2 (en) | Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program | |
JP2007048061A (en) | Character processing device, character processing method, and recording medium | |
JP6767651B2 (en) | Information processing system and its processing method and program | |
JP4455358B2 (en) | Image processing apparatus and method | |
JP2004104411A (en) | Image forming device | |
JP7114948B2 (en) | Information processing device and information processing program | |
JP3720769B2 (en) | Received document processing apparatus, received document processing method, program, and storage medium |