JP2005167522A - Printing system - Google Patents
Printing system Download PDFInfo
- Publication number
- JP2005167522A JP2005167522A JP2003402361A JP2003402361A JP2005167522A JP 2005167522 A JP2005167522 A JP 2005167522A JP 2003402361 A JP2003402361 A JP 2003402361A JP 2003402361 A JP2003402361 A JP 2003402361A JP 2005167522 A JP2005167522 A JP 2005167522A
- Authority
- JP
- Japan
- Prior art keywords
- information
- area
- text
- ocr
- printing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、スキャナ・プリンタ・FAXなどの情報入力/印刷装置からなる印刷システムに関する。 The present invention relates to a printing system including an information input / printing apparatus such as a scanner, a printer, and a FAX.
スキャナなどによるOCR(Optical Character Reader)技術としては、下記特許文献1などが知られているが、一般に、OCRにおいては、局所的な文章の認識処理は、比較的効率良く行われるものの、テキスト領域と図表領域の切り分けや、テキスト領域どうしの意味的なつながりや、論理構造に即した読み取りの自動認識は困難であった。
As an OCR (Optical Character Reader) technique using a scanner or the like, the following
このため、組版の複雑な文章に対する簡易的なOCRでは、改行による単語や文や段落の分断により、知識データベースを利用した間違い訂正が効率良く機能できないなどの問題で、認識効率が低下する問題があった。 For this reason, in simple OCR for complex text in typesetting, there is a problem that recognition efficiency decreases due to the fact that error correction using a knowledge database cannot function efficiently due to division of words, sentences and paragraphs due to line breaks. there were.
一方で、下記非特許文献1に開示されているように、2値の画像データ、特に印刷物に対して、ある程度の情報を電子透かしとして埋め込むことが可能であることが知られている。
On the other hand, as disclosed in Non-Patent
本発明が解決しようとする課題は、組版により分断された単語や文さらには、段落のような文章の意味的なつながりが、OCRで認識することができないことによる文字認識の効率の低下を防止することである。 The problem to be solved by the present invention is to prevent a reduction in character recognition efficiency due to the fact that the semantic connection of words and sentences separated by typesetting, as well as paragraphs, cannot be recognized by OCR. It is to be.
また、上記問題によりOCR時に作業者に対して発生するOCR領域指定などの作業負荷を軽減することである。 Another object of the present invention is to reduce the work load such as OCR area designation generated for the worker during OCR due to the above problem.
上記課題は、印刷レイアウト上のテキスト領域要素と、その連結関係や順序関係などのOCR補助情報を、自動的に生成するか、印刷物作成者の作業として印刷時に生成し、印刷物上の電子透かしとして埋め込むことにより解決される。 The above problem is that the text area element on the print layout and the OCR auxiliary information such as the connection relation and the order relation thereof are automatically generated or generated at the time of printing as the work of the print creator, and used as a digital watermark on the print It is solved by embedding.
本発明のプリントシステムでは、文章領域要素中に電子透かしとして埋め込んだOCR補助情報により、組版により分断された単語・文・段落などの、文章の意味的なつながりが復元され、OCR認識効率の低下を防止することが可能となる。 In the printing system of the present invention, the semantic connection of sentences such as words, sentences, and paragraphs divided by typesetting is restored by the OCR auxiliary information embedded as a digital watermark in the sentence area element, and the OCR recognition efficiency is reduced. Can be prevented.
また、OCRを支援する印刷物を提供するサービスを想定した場合には、OCR補助情報を生成する作業負荷が、OCR時から印刷物生成時に移ったことは、サービス向上のメリットとなる。 In addition, when assuming a service that provides a printed material that supports OCR, the shift in the workload for generating the OCR auxiliary information from the OCR time to the printed material generation time is a merit for improving the service.
本発明の実施例としては、電子情報に基づいて印刷画像データを生成する情報処理装置、印刷画像データをプレビューする画像表示装置、プレビュー画像上で、テキスト領域や画像領域などの領域属性を指示する領域指示手段、領域属性を電子透かし情報として画像データに埋め込む情報処理装置上の手続き、印刷画像データの印刷を行う印刷装置および、前記印刷装置により印刷された印刷物から、OCR補助情報を抽出し、OCRにおけるヒント情報として利用するOCRシステムとにより構築されるOCR補助情報埋め込み印刷システムである。 As an embodiment of the present invention, an information processing apparatus that generates print image data based on electronic information, an image display apparatus that previews print image data, and an area attribute such as a text area and an image area are indicated on the preview image OCR auxiliary information is extracted from an area instruction means, a procedure on an information processing apparatus that embeds area attributes in image data as digital watermark information, a printing apparatus that prints print image data, and a printed matter printed by the printing apparatus, This is an OCR auxiliary information embedded printing system constructed by an OCR system used as hint information in OCR.
OCRは一般には光学文字認識処理のことであるが、ここでは、図表・写真などの非テキスト領域を切り分け、ビットマップ情報として読み込む処理もOCRの処理の一部として含めるものとする。 OCR is generally an optical character recognition process, but here, a process of separating non-text areas such as charts and photographs and reading it as bitmap information is also included as part of the OCR process.
図1は、A4(210mm×297mm)を想定した本発明の対象となる印刷物の概念図である。図1に示すように、通常ビジネスドキュメントは、幾つかのテキスト領域(領域2〜領域13)と、図表、写真などの非テキスト領域(領域14)から構成される。
FIG. 1 is a conceptual diagram of a printed matter that is an object of the present invention assuming A4 (210 mm × 297 mm). As shown in FIG. 1, a normal business document is composed of several text regions (
本実施例では、単純化のために、それぞれの構成要素の領域は、それを取り囲む矩形要素で分離されるものとする。一般的なビジネス文書は、大抵の場合この前提を満たしている。また、図1で破線により示した各領域は、意味的な区切りではなく、物理的なレイアウトに基づく領域分割の例を示している。 In the present embodiment, for the sake of simplicity, it is assumed that each component region is separated by a surrounding rectangular element. Common business documents often meet this assumption. Further, each area indicated by a broken line in FIG. 1 is an example of area division based on a physical layout, not a semantic division.
テキスト領域である領域2〜領域13には、一連の文脈に従う本文と、表題領域3や、図表のキャプション領域7、脚注領域9などの独立な本文の流れとは直接には関係しない浮動要素などがある。
The
このうち、一連の文脈に従う本文と、本文の流れに組み込み可能な浮動要素に対しては、文脈に従った順番を付けることが可能である。例えば、図1の場合では、日付領域2、表題領域3、執筆者名領域4、アブストラクト領域5、本文領域6、8、10、12、13が、この順に順序づけ可能である。
Of these, the body according to a series of contexts and the floating elements that can be incorporated into the body flow can be given an order according to the context. For example, in the case of FIG. 1, the
このうち、日付領域2、表題領域3、執筆者名領域4、アブストラクト領域5の順序は、必ずしもこの順である必要性は無いが、本文の順序関係は、正確に守る必要がある。図1では、領域の順序づけの例を各要素領域に○囲みの数字で示している。
Among these, the order of the
図2に、これらの領域情報を表現する情報テーブル40の例を示す。図2では、先頭のヘッダ20として、バージョン情報23、付加情報31へのバイトオフセット24がそれぞれ1バイトづつ用意される。以後5バイト毎の固定長で、各領域情報エントリ21が、各領域の順序付けに従って、第1エントリ21a、第2エントリ22b、…の様に逐次記述される。
FIG. 2 shows an example of the information table 40 expressing these area information. In FIG. 2, a
また、それぞれの領域情報エントリ21は、先頭上位4bitの型識別子25、先頭下位4bitの補助情報26、および、それに続く各1バイトの左端座標値27、右端座標値28、上端座標値29、下端座標値30、の計5 バイトで構成される。これらの要素の詳細に関しては後ほど説明する。
Also, each
図2の例では付加情報31として、4バイト文書識別番号を与えているが、この他に日時、印刷者識別コードなどを埋め込むのも有効である。付加情報量31を情報テーブル40の末尾に配置したのは、バージョン、あるいは用途による付加情報の変更に柔軟に対応可能とするためである。
In the example of FIG. 2, a 4-byte document identification number is given as the
例えば、幾つかの情報の組み合わせの型を付加情報31として定義しておき、バージョン情報23の値に応じて情報テーブル40に埋め込まれる付加情報31の実装を切り換えるようにしておくことで、文書目的や埋め込み可能データ量に応じた柔軟な対応が可能となる。
For example, by defining a combination type of some information as
ここで、埋め込みに要するデータ量を図1の場合で見積もると、ヘッダ(2バイト)+(エントリ5バイト)×13+(文書識別番号4バイト)=71バイトの情報量となっている。これに対して、電子透かしとして印刷物に埋め込み可能な情報量は、非特許文献1によれば、およそ70文字当たり8バイトであるから、620文字程度の文書であれば、上記情報を埋め込むことが可能なことが分かる。これは、例えば1ページ当たり25文字×50行×2カラムの特許公報では、実質1/3ページの文章量に相当する。
Here, when the amount of data required for embedding is estimated in the case of FIG. 1, the information amount is header (2 bytes) + (
従って、付加情報31としてさらに多く情報を付加することも文書によっては十分可能である。透かしを埋め込んだ印刷物の印字品質が問題にならず、むしろ埋め込み情報量が優先される場合には、付加情報31に多くの情報を実装したバージョンを用意すると良い。また、透かし情報の増加に伴う画質劣化を最小限に抑える目的では、付加情報領域31を実装せず、領域情報エントリ21も文字認識を前提とするテキスト領域に限定し、情報をできる限り少なくするといった対応が実用上有効となる。
Accordingly, it is possible to add more information as the
次に、領域情報エントリ21の詳細を説明する。図1に示したようにそれぞれの領域は矩形で定義される。領域情報エントリ21の各左端座標値27、右端座標値28、上端座標値29、下端座標値30は、図1の用紙左上端1を基準に1.2mmを最小単位として8bit符号無し整数で記述する(但し、型識別子25の値が図3のa〜dの場合は、後述するように基準点が変更される)。
Next, details of the
従って、図1の領域5を例とした場合、印刷上での領域5の左上端部17と基準点1のx方向距離(mm単位)を1.2mmで割って小数点以下を切り捨てた値が情報テーブル40の5番目のエントリ21における左端座標値27の値となる。
Accordingly, when the
同様に、領域5の右下端部18と基準点1のx方向実寸から右端座標値28の値、領域5の左上端部17と基準点1のy方向実寸から右端座標値29の値、領域5の右下端部17と基準点1のy方向実寸から右端座標値30の値がそれぞれ決定される。
Similarly, the value of the right
領域情報エントリ21の型識別子25には、各領域の内容に従って、図3に示した分類の型識別子を登録する。図3では、型識別子の値を0〜fの16進数で表記し、括弧内に2進数で表記している。
In the
図1の例の場合、日付領域2に対応する領域情報エントリ21の型識別子25の値として、横書きテキストを表す「2(0010)」を対応させる。次いで表題領域3を日付領域2に継続するテキスト領域として登録するためには、表題領域3に対応する領域情報エントリ21の型識別子25の値として、継続テキストを表す「3(0011)」を対応させる。
In the case of the example of FIG. 1, “2 (0010)” representing horizontal text is associated as the value of the
型識別子25により継続テキスト属性を与えられた領域は、OCR時には、先行する最後のテキスト属性(型識別子値1〜4)をもつ領域情報エントリ21に対応する領域に継続するテキスト領域として解釈する。従って、継続テキスト属性を与えられた領域が、縦書きか横書きかは、先行するテキスト属性領域の縦・横に従う。
The region given the continuation text attribute by the
同様に、図1の領域4〜領域6、領域8、領域10〜領域13には、継続テキスト属性を与え、この順番に情報テーブル40の領域情報エントリ21に登録する。
Similarly, the continuation text attribute is given to the
図表領域14に対応する領域情報エントリ21の型識別子の値としては、図1の例の場合、線画を表す「5(0101)」を指定する。型識別子値が線画属性5の領域は、OCRで取り込む際、解像度を優先した取り込みを行う。これに対して解像度よりは階調性を重視して読み込むことが適切と考えられる場合には、型式別子の値として、写真を表す「7(0111)」を指定する。
As the value of the type identifier of the
この他、罫線により行列構造が明確にされている表領域の場合には、型識別子の値として表を表す「6(0110)」を指定する。この場合、OCR時には、罫線認識を優先することで行列構造を解析し、認識処理のヒントとして利用する。 In addition, in the case of a table region whose matrix structure is clarified by ruled lines, “6 (0110)” representing the table is designated as the value of the type identifier. In this case, during OCR, the matrix structure is analyzed by prioritizing ruled line recognition and used as a hint for recognition processing.
図表に付随するキャプション領域7および脚注領域9は、本文の文脈には自然に順序付けて挿入されない独立な文なので、対応する領域情報エントリの型識別子としては、継続属性の無い横書きテキスト属性「1(0001)」を指定する。
The
図3の強継続テキスト属性「4(0100)」は、もともと一つの段落であるにもかかわらず、レイアウト構造上分断されたテキスト領域のように、文脈の結合関係が強いことを強調する場合に使用する。図1の例では、領域10、領域12、領域13が、継続する直前の領域の末尾の段落がレイアウト上分断されていることを想定している。
The strong continuation text attribute “4 (0100)” in FIG. 3 is used when emphasizing that the context is strongly connected like a text area divided in the layout structure, although it is originally one paragraph. use. In the example of FIG. 1, it is assumed that the last paragraph of the
この場合、領域10、領域12、領域13の型識別子値に「4(0100)」を指定することで、論理的な継続を特に強調することができる。これは、特にもともとの領域分割をレイアウト基準でなく、段落境界とレイアウト境界の両方に沿った分割で与えておくと、後のOCR時に段落単位の構造を認識結果に付加することが可能になるので、特に有効な情報となる。
In this case, logical continuity can be particularly emphasized by designating “4 (0100)” as the type identifier values of the
領域情報エントリ21の4bitの補助情報26には、レイアウト上の補助情報として、上位bitから順に、領域の上下左右の空白状況を登録する。
In the 4-bit
例えば、図1の領域2の様に領域情報エントリ21に対応する領域上方が空白の領域場合に補助情報26の3bit目(最上位bit)を1とし、そうでなければ同bitは0とする。同様に領域下方が空白になる領域9や領域3では、補助情報26の2bit目を1とする。補助情報26の1bit目(左方空白)、0bit目(右方空白)についても同様である。
For example, when the upper area of the area corresponding to the
これらの補助情報26は、OCR時の原稿の移動・回転・拡大/縮小・ゆがみ等の補正ヒントとして利用される他、スキャン不要な領域を明確にして処理速度を向上させる効果もある。但し、より確実な位置決め情報が必要な場合には、位置決め基準マーカ15、16を併用することも有効である。特にカラーのシステムの場合には、位置決め基準マーカ15、16の色をイエローにすると目立たないので良い。
The
図1の例は、既に印刷されている文書に対するOCRの補助情報埋め込みの例であったが、本発明は、印刷時に印刷されない領域に対して読み取り指示を文書に埋め込む方法としても有効である。図4に例を示す。 The example of FIG. 1 is an example of embedding OCR auxiliary information in a document that has already been printed. However, the present invention is also effective as a method for embedding a reading instruction in an area that is not printed during printing. An example is shown in FIG.
図4の例では、案内文であるテキスト領域51は、OCRの対象ではなく、文面を受け取った第三者対する写真56貼り付け用の写真領域55および、手書き記入用の領域52、53、54をOCRの対象とすることを想定している。
In the example of FIG. 4, the
この場合、印刷物50のテキスト領域51に電子透かしとして埋め込む情報テーブル40には、テキスト領域51の領域情報エントリ21の他に領域52〜領域55の領域情報エントリ21を登録する。
In this case, the
このときそれぞれの領域情報エントリ21の型識別子25値として、領域51には図3の相対座標基準属性「0(0000)」を指定し、領域52〜54には、白黒ビットマップ相対座標読み取り領域属性「c(1100)」を指示し、領域55には、カラービットマップ相対座標読み取り領域属性「d(1101)」を指示する。
At this time, the relative coordinate reference attribute “0 (0000)” of FIG. 3 is designated in the
さらに領域52〜54に対しては、文字認識による相対座標読み取り領域属性「b(1011)」を指示する領域情報エントリ21を重複させて登録することにより、画像としての読み込みと文字認識の両方を指示することができる。
ここで、図3における、相対座標読み取り領域とは、情報テーブル40における直前の相対座標基準属性(型識別子25の値として「0(0000)」)をもつ領域情報エントリ21の左端座標値27および下端座標値30を基点とした相対座標値で領域を定義することを意味する。これに対して、絶対座標読み取り領域とは、これまでの説明にある型識別子値0〜7と同様に、座標基準点1(用紙角部)を基準とする座標値で領域を定義することである。
Furthermore, by registering the
Here, the relative coordinate reading area in FIG. 3 is the left end coordinate
相対座標基準属性の領域は、その領域座標情報である左端座標値27〜下端座標値30から得られる領域サイズ情報の他に、その領域に埋め込まれた電子透かし情報の組み合わせから、座標基準点1に依存しないで領域の位置をスキャン画像の中で特定するために使用される。
In addition to the region size information obtained from the left end coordinate
また、図4の印刷物50を印刷する場合において、個々の印刷物毎に、電子透かしとして埋め込む情報テーブル40の付加情報31の文書識別番号を変えておくことにより、個々の印刷物50と読み込みデータを1対1に対応付けることが可能となる。
Further, when printing the printed
これにより、図5の様に複数の印刷物50を1ページにレイアウトして同時にスキャンしても、 OCRすべき領域を各印刷物に対応付けて正しく認識することが可能となる。
As a result, even if a plurality of printed
なお、先の図3の型識別子25の値8〜dは、印刷時には印刷情報の無い領域属性を示すものであり、その領域にデータが存在しない、あるいはその領域の画像品質が保証されない可能性を想定している点で型識別子値0〜7とは異なる領域属性として扱われる。
Note that the
図6には、本発明のシステムにおけるOCR補助情報を埋め込んだ印刷物生成の流れを示す。 FIG. 6 shows a flow of print generation in which OCR auxiliary information is embedded in the system of the present invention.
ここでは、本発明の実施形態として図9に示すような、情報処理装置102、光学読み取り装置100、画像表示装置101、情報入力装置103、領域指示装置104、印刷装置105で構成されるシステムを想定する。なお、光学読み取り装置100は、情報処理装置101に搭載されるOCRソフトウエアとの組み合わせで、OCRシステムを構築している。
Here, as an embodiment of the present invention, a system including an
まず、ステップ60では、情報処理装置102上のアプリケーションソフトウエアにより印刷するべきドキュメントデータを作成する。
First, in step 60, document data to be printed is created by application software on the
ステップ61では、情報処理装置102上で動作するプリンタドライバにより、用紙サイズ、余白設定、印刷枚数等、各種印刷条件を設定する。
In step 61, various printing conditions such as paper size, margin setting, number of prints, and the like are set by a printer driver operating on the
ステップ62では、プリンタドライバに対して、OCR補助情報埋め込みを行うかどうかの指示を与える。OCR補助情報埋め込み処理を行う場合には、画像表示装置101上に、印刷プレビュー画像106が表示される。
In
ステップ64でユーザは、印刷プレビュー画像106に対して、領域指示装置104を用いて、図1の各領域に相当するような個々の領域とその属性指定を行うことで、情報テーブル40を生成する。
In
次いでステップ65の印刷命令の発効により、プリンタドライバは、ドキュメントデータを印刷画像データに展開し、ステップ66で、先の情報テーブル40を電子透かしとしてこの印刷画像データに付加した後、ステップ67で印刷画像データをプリンタへと送信する。
Next, when the print command is issued in
先のステップ62で、OCR補助情報の埋め込み処理を行わない指示を与える場合には、ステップ68の印刷命令により、ステップ69の通常の印刷画像データ生成のみを行い、ステップ67でプリンタへ生成された印刷画像データを送信する。
If an instruction not to perform the OCR auxiliary information embedding process is given in the
図6の例は、ユーザが対話的に情報テーブル40を生成する例であるが、文書データ70の形態によっては、これを自動生成することも可能である。このような文書データ70の形態としては、論理構造がレイアウト構造とは独立に記述され提供されるTeXのようなマークアップ言語が適している。図7に情報テーブル40を自動生成する場合の処理の流れを示す。
The example of FIG. 6 is an example in which the user interactively generates the information table 40. However, depending on the form of the
図7では文書データ70に対して、ステップ72で領域情報エントリ21を作成しつつステップ71で文書データをビットマップに展開することで情報テーブル40を自動的に生成する。ステップ73で、情報テーブル40を電子透かし情報としてビットマップデータに付加し、ステップ74で、プリンタエンジンへデータを送信する。
In FIG. 7, the information table 40 is automatically generated by developing the
この場合、上記ステップ71〜73の処理は、自動処理なので、印刷装置105に組み込みのコントローラでも処理は可能である。ステップ74におけるプリンタエンジンは、印刷装置105における組み込みコントローラを除く部分を意味する。
In this case, since the processing in
図8には、本発明のシステムのOCR側処理の流れを示す。
ステップ80では、情報処理装置102により、写真領域の解像度指定や、カラー/モノクロ指定などのスキャン条件設定を行う。
ステップ81では、光学読み取り装置100により原稿をスキャンし、ビットマップデータ化する。
FIG. 8 shows the flow of OCR side processing of the system of the present invention.
In
In step 81, the original is scanned by the
ステップ82では、スキャンされたビットマップデータに、電子透かしとして埋め込まれたOCR補助情報としての、情報テーブル40の有無を検出する。情報テーブル40が無い場合には、情報処理装置102において通常の文字認識処理92を行う。
In
情報テーブル40がある場合には、ステップ83で情報テーブル40を抽出する。
If there is an information table 40, the information table 40 is extracted in
ステップ84では、抽出された情報テーブル40の情報と、簡易的なビットマップデータの認識情報に基づいて、原稿の平行移動、回転、拡大/縮小、ゆがみなどを検出し、これを補正する。
In
ステップ85では、情報テーブル40のテキスト領域属性のエントリに基づいて、テキスト領域と、テキスト領域間の継続関係を抽出する。その後、ステップ86で、文字認識を行う。文字認識は、文脈に対するデータベースの利用が認識率を上げる上で効果的に作用するため、継続するテキスト領域にまたがる部分の認識処理は同時に解析を行う。
In step 85, based on the text area attribute entry of the information table 40, the text area and the continuation relationship between the text areas are extracted. Thereafter, in
文字認識が完了すると、ステップ87で、情報テーブル40のエントリに出現する最初の図表・写真など非文字領域の抽出を行う。
When the character recognition is completed, in
読み取り属性として、高解像度読み取りや、カラーとしての読み取りなどで、再スキャンが必要な場合には、ステップ89で、光学読み取り装置100のスキャン条件を再設定し、該当領域の再スキャンを行う。
If rescanning is necessary for high resolution reading or color reading as a reading attribute, the scanning condition of the
非文字列領域処理が残っている場合には、情報テーブル40に出現する次の非文字列領域に対して、ステップ87〜ステップ91の処理を反復する。
全ての処理対象のエントリの処理が終了するとステップ93でデータを出力あるいはファイル保存する。
When the non-character string area process remains, the processes of
When processing of all entries to be processed is completed, data is output or saved in a file in
以上の説明では、図9のハードウエア構成のシステムを想定したが、印刷データ生成、印刷、OCRは同時に行う物ではないので、これらの光学読み取り装置100、情報処理装置102、印刷装置106は、複数で構成されても、どのような組み合わせで一体化された装置であっても良い。また、時間的空間的に離れたシステムであっても問題はない。
In the above description, the system having the hardware configuration shown in FIG. 9 is assumed. However, since print data generation, printing, and OCR are not performed at the same time, the
本発明の印刷システムでは、テキスト領域要素中に電子透かしとして埋め込まれた情報テーブルから、OCR時にテキスト領域およびテキスト領域の継続関係を正確に予測することができる。
このため、テキスト改行やテキスト領域の分断による単語・文・段落の分割に対しても、正確な語順を予測することができるため、OCR効率を高めることが可能となり、OCR作業者の作業負荷が軽減される。
In the printing system of the present invention, the continuation relationship between the text area and the text area can be accurately predicted from the information table embedded as a digital watermark in the text area element during OCR.
For this reason, since it is possible to predict the exact word order even for word / sentence / paragraph division due to text line breaks or text area divisions, it is possible to increase OCR efficiency and reduce the workload of OCR workers. It is reduced.
また、印刷時には存在しない印刷物の利用者によって挿入される情報をOCRすべき領域として相対的に指示することも可能であるため、アンケートなどの情報整理の一括処理に効果的である。 Further, since information inserted by a user of a printed matter that does not exist at the time of printing can be relatively designated as an area to be OCRed, it is effective for collective processing of information organization such as a questionnaire.
1…座標基準点、2…日付領域、3…表題領域、4…執筆者名領域、5…領域、6…領域、15、16…位置決め基準マーカ、20…ヘッダ、21…領域情報エントリ、23…バージョン情報、24…付加情報オフセット、25…型識別子、26…補助情報、27…左端座標値、28…右端座標値、29…上端座標値、30…下端座標値、31…付加情報、40…情報テーブル、50…印刷物、51…テキスト領域、52…領域、53…領域、54…領域、55…写真領域、100…光学読み取り装置、101…画像表示装置、102…情報処理装置、103…情報入力装置、104…領域指示装置、105…印刷装置、106…プレビュー画像。
DESCRIPTION OF
Claims (8)
前記情報処理装置は、テキスト領域情報および、テキスト領域の順序情報を電子透かし情報として印刷画像データ中に埋め込み、
前記OCRシステムは、前記印刷装置により印刷された印刷物に再現された電子透かし情報を補助情報として用いて文字認識処理を行うことを特徴とする印刷システム。 An information processing apparatus that generates print image data based on electronic information, a printing apparatus that prints print image data, and a print that includes an OCR system that optically reads information printed on printed matter and performs recognition processing A system,
The information processing apparatus embeds text area information and text area order information as digital watermark information in print image data,
The OCR system performs character recognition processing using digital watermark information reproduced on a printed matter printed by the printing apparatus as auxiliary information.
前記テキスト領域の順序情報は、前記テキスト領域情報のエントリの順序として与えることを特徴とする印刷システム。 The printing system according to claim 1,
The printing system according to claim 1, wherein the text area order information is given as an order of entries of the text area information.
テキスト領域情報の他に、図表、写真領域などの非テキスト属性の領域に対しても、領域属性情報および領域情報をテキスト中に電子透かし情報として埋め込むことを特徴とする印刷システム。 The printing system according to claim 1,
A printing system characterized by embedding area attribute information and area information as electronic watermark information in a text, as well as non-text attribute areas such as charts and photo areas.
前記情報処理装置は、画像表示装置および画像領域指示装置を備え、
該画像表示装置上に表示する印刷プレビュー画像に対して、テキスト領域、非テキスト領域、およびこれらの順序関係をユーザとの対話環境で指示可能とするユーザインタフェースを備えたことを特徴とする印刷システム。 A printing system according to claim 1 or claim 3, wherein
The information processing apparatus includes an image display device and an image area instruction device,
A printing system comprising a user interface that allows a print preview image to be displayed on the image display apparatus to be instructed in an interactive environment with a user in a text area, a non-text area, and their order relationship. .
前記情報処理装置は、前記テキスト領域、非テキスト領域、およびこれらの順序関係を該電子情報から、直接、あるいは間接的に推定することを特徴とする印刷システム。 A printing system according to claim 1 or claim 3, wherein
The information processing apparatus estimates the text region, the non-text region, and their order relationship directly or indirectly from the electronic information.
前記テキスト領域は、文章の段落境界等の論理構造に沿って分割されると共に、文書のレイアウト上、複数のテキスト領域に分割された同一論理構造上のテキスト領域に対しては、接続情報を電子透かし情報に付加することを特徴とする印刷システム。 The printing system according to claim 5, wherein
The text area is divided along a logical structure such as a paragraph boundary of a sentence, and connection information is electronically connected to a text area on the same logical structure divided into a plurality of text areas in the document layout. A printing system characterized by being added to watermark information.
前記情報処理装置は、該画像表示装置上に表示する印刷プレビュー画像に対して、OCRとして読み込むべき、テキスト領域情報、非テキスト領域情報、およびこれらの順序情報をユーザとの対話環境で指示可能とするユーザインタフェースを備え、該テキスト領域情報、非テキスト領域情報、順序情報を電子透かし情報として、前記印刷画像データに埋め込み、
前記OCRシステムは、当該電子透かし情報が埋め込まれた印刷物に対しては、電子透かし情報に指示されたテキスト領域、又は非テキスト領域の読み込みを行うことを特徴とする印刷システム。 An information processing device that generates print image data based on electronic information, an image display device, an image area instruction device, a printing device that prints print image data, and optically reads information printed on printed matter A printing system having an OCR system for performing recognition processing,
The information processing apparatus can specify text area information, non-text area information, and order information thereof to be read as OCR for a print preview image displayed on the image display apparatus in an interactive environment with a user. And embedding the text area information, non-text area information, and order information as digital watermark information in the print image data,
The OCR system reads a text area or a non-text area instructed in the digital watermark information for a printed matter in which the digital watermark information is embedded.
前記OCRシステムは、テキスト領域、非テキスト領域の属性に応じて、カラー/モノクロ、解像度、認識処理の有無などの処理方法を切り換えることを特徴とする印刷システム。 The printing system according to claim 7,
The OCR system switches a processing method such as color / monochrome, resolution, presence / absence of recognition processing according to attributes of a text region and a non-text region.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003402361A JP2005167522A (en) | 2003-12-02 | 2003-12-02 | Printing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003402361A JP2005167522A (en) | 2003-12-02 | 2003-12-02 | Printing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005167522A true JP2005167522A (en) | 2005-06-23 |
Family
ID=34725943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003402361A Pending JP2005167522A (en) | 2003-12-02 | 2003-12-02 | Printing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005167522A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008003647A (en) * | 2006-06-20 | 2008-01-10 | Fuji Xerox Co Ltd | Postscript information processing method, postscript information processor, and program |
CN108881665A (en) * | 2017-05-15 | 2018-11-23 | 富士施乐株式会社 | Information processing equipment and information processing method |
-
2003
- 2003-12-02 JP JP2003402361A patent/JP2005167522A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008003647A (en) * | 2006-06-20 | 2008-01-10 | Fuji Xerox Co Ltd | Postscript information processing method, postscript information processor, and program |
CN108881665A (en) * | 2017-05-15 | 2018-11-23 | 富士施乐株式会社 | Information processing equipment and information processing method |
JP2018195899A (en) * | 2017-05-15 | 2018-12-06 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
US11074418B2 (en) | 2017-05-15 | 2021-07-27 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
CN108881665B (en) * | 2017-05-15 | 2022-05-10 | 富士胶片商业创新有限公司 | Information processing apparatus, information processing method, and computer program |
US11670067B2 (en) | 2017-05-15 | 2023-06-06 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101443790B (en) | Efficient processing of non-reflow content in a digital image | |
US8203748B2 (en) | Image processing apparatus, control method therefor, and program | |
EP2162859B1 (en) | Image processing apparatus, image processing method, and computer program | |
JP4854491B2 (en) | Image processing apparatus and control method thereof | |
US8520006B2 (en) | Image processing apparatus and method, and program | |
US20050278624A1 (en) | Image processing apparatus, control method therefor, and program | |
JP2004005453A (en) | Method and system for breaking up and re-displaying document image layout | |
JP2006023945A (en) | Image processing system and image processing method | |
US7965293B2 (en) | Image processing device, image processing method, and image processing program for reconstructing data | |
US8144988B2 (en) | Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program | |
JP4673200B2 (en) | Print processing system and print processing method | |
JP4232679B2 (en) | Image forming apparatus and program | |
JP2007148486A (en) | Method for supporting document browsing, system for the same, document processor, and program | |
EP0585074A2 (en) | Automatic image creation by merging text image and form image | |
JP4310023B2 (en) | Reduced image creation method and apparatus, and storage medium | |
JP5098614B2 (en) | Method for controlling sentence processing apparatus and sentence processing apparatus | |
JP2005167522A (en) | Printing system | |
JP2002232679A (en) | Method and device for image processing, computer program, and storage medium | |
JPH05108716A (en) | Machine translation system | |
JP2005157928A (en) | Stamp processor, electronic approval system, program and recording medium | |
JP2001202362A (en) | Character editing processor | |
US11693825B2 (en) | Information processing apparatus, control method, and recording medium storing program | |
JP2008244612A (en) | Image processing apparatus and method | |
US20050188301A1 (en) | Method for providing data for a sheet, in particular for creating a print, and sheet provided thereby | |
JP3424942B2 (en) | Bilingual image forming device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060607 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060707 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080201 |