JP6390858B2 - Apparatus and method for comparing two data including graphic element and text element - Google Patents

Apparatus and method for comparing two data including graphic element and text element Download PDF

Info

Publication number
JP6390858B2
JP6390858B2 JP2015509304A JP2015509304A JP6390858B2 JP 6390858 B2 JP6390858 B2 JP 6390858B2 JP 2015509304 A JP2015509304 A JP 2015509304A JP 2015509304 A JP2015509304 A JP 2015509304A JP 6390858 B2 JP6390858 B2 JP 6390858B2
Authority
JP
Japan
Prior art keywords
text
data
graphic
difference
raster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015509304A
Other languages
Japanese (ja)
Other versions
JP2015520891A (en
Inventor
カウップ,アンスガー
リュートイェンス,ディルク
シュプリングマン,ゾーレン
Original Assignee
オイエク ゲーエムベーハー
オイエク ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オイエク ゲーエムベーハー, オイエク ゲーエムベーハー filed Critical オイエク ゲーエムベーハー
Publication of JP2015520891A publication Critical patent/JP2015520891A/en
Application granted granted Critical
Publication of JP6390858B2 publication Critical patent/JP6390858B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Description

本発明は、グラフィックエレメントおよびテキストエレメントを含む2つのデータの比較装置に関する。   The present invention relates to an apparatus for comparing two data including a graphic element and a text element.

対応の装置は、テキスト検証ツール(TVT;text verification tools)またはオブジェクト検証ツール(OVT;object verification tools)として従来技術から公知である。ここでOVTの場合は、オブジェクト比較が、場合により前もってそのためにレンダリングされる2つのデータのピクセルごとの比較によって行われる。この種のデータが純粋なグラフィック構成要素の場合は、これにより非常に良好な結果が得られる。なぜならそれぞれ相違するピクセルは直接的にエラーとして識別され、表示することができるからである。テキスト比較に対してはこの種のOVTは適さないことが判明している。なぜなら、テキストが修正されると、改行が発生し、あるいは文字間隔ないし単語間隔が変化し、このことは、何ら修正が行われていないにもかかわらず、直接的にそれぞれのピクセルの相違となり、エラーとして指示されるからである。このことはテキスト検証では生じない。ここではそれぞれデータからまずテキストが抽出されるが、そのために例えばそれ自体公知のOCRプログラムを利用することができる。同じようにテキスト識別のために、テキストとして定義された対応の構成要素を備える例えばpdfデータ、PostScriptデータ、wordデータのような複合データから、まず抽出によってテキストを分離することができる。さらにTVTではデータ形式に応じて、段組ないしテキストフローを適合することさえできる。このことは、とりわけテキストが複数の段にわたる場合、またはテキストの前に段落番号または行番号がセットされている場合、あるいは上または下にヘッダまたはフッタが配置されていて、例えばページ番号がある場合には、内容的ないし文章的な比較を可能にするために必要である。しかしこれにより、この種のテキスト比較ツールによってテキスト修正を高速かつ正確に識別し、指示することができる。しかしながらこの種のテキスト比較ツールは、グラフィックを比較することができないという欠点を有する。そのため最終的にはせいぜい全体比較が、すなわち同じ画像が存在するか否かの比較が可能なだけである。   Corresponding devices are known from the prior art as text verification tools (TVT; text verification tools) or object verification tools (OVT). Here, in the case of OVT, the object comparison is performed by a pixel-by-pixel comparison of the two data rendered for it in advance. This gives very good results if this kind of data is a pure graphic component. This is because each different pixel is directly identified as an error and can be displayed. This type of OVT has proven unsuitable for text comparisons. Because when the text is modified, a line break occurs or the character spacing or word spacing changes, which is the difference between the pixels directly, even though no modification has been made. This is because it is indicated as an error. This does not occur with text verification. Here, text is first extracted from each data, and for this purpose, for example, a publicly known OCR program can be used. Similarly, for text identification, text can be first extracted by extraction from complex data such as pdf data, PostScript data, word data with corresponding components defined as text. Furthermore, TVT can even adapt columns or text flows depending on the data format. This is especially true if the text spans multiple lines, or if the text or paragraph number or line number is set before the text, or if a header or footer is placed above or below the page number, for example Is necessary to enable content and textual comparisons. However, this allows text corrections to be identified and directed quickly and accurately by this type of text comparison tool. However, this type of text comparison tool has the disadvantage that graphics cannot be compared. Therefore, finally, it is only possible to make an overall comparison, that is, whether or not the same image exists.

したがって2つの方法では下位のエラーの閉塞が生じ、そのため正確なエラーをもはや識別することができない。それに対応して本発明の課題は、上位概念による方法および装置においてこの欠点を回避することである。   Thus, the two methods result in subordinate error blockage, so that the correct error can no longer be identified. Correspondingly, the object of the invention is to avoid this drawback in the method and apparatus according to the superordinate concept.

解決手段として、独立請求項の特徴を備える装置ないし方法が提案される。   As a solution, an apparatus or method with the features of the independent claims is proposed.

したがって、グラフィックエレメントおよびテキストエレメントを含む2つのデータを比較するための装置は、当該2つのデータに対するメモリと、当該2つのデータをグラフィックエレメントとテキストエレメントに分割するための手段と、テキスト識別のための手段と、グラフィックエレメントからラスタ化された画像を形成するためのラスタグラフィック手段と、抽出されたテキストを比較するための手段と、ラスタ化された画像を比較するための手段と、2つの比較結果を好ましくは共通に出力するための手段と、を特徴とすることができる。   Accordingly, an apparatus for comparing two data including a graphic element and a text element includes a memory for the two data, a means for dividing the two data into a graphic element and a text element, and for text identification. Two means: a raster graphic means for forming a rasterized image from graphic elements; a means for comparing extracted text; a means for comparing rasterized images; Means for preferably outputting the results in common.

グラフィックエレメントおよびテキストエレメントを含む2つのデータを比較するための方法も、当該2つのデータにおいてグラフィックエレメントとテキストエレメントを分割し、グラフィックエレメントから場合によりそれぞれ1つのラスタ画像を形成し、ラスタグラフィックを互いにグラフィック的に比較し、テキストエレメントから場合によりそれぞれのテキストを識別し、テキストを互いにテキスト的に比較する、ことを特徴とすることができる。   A method for comparing two data including a graphic element and a text element also divides the graphic element and the text element in the two data, and forms a raster image from the graphic element as the case may be. It can be characterized by comparing graphically, possibly identifying each text from a text element, and comparing the text textually to each other.

したがってグラフィックエレメントとテキストエレメントに前もって分割することにより、各エレメントに対して、そのための適切な検査ないしそのための適切な比較を別個に行うことが初めて可能になる。このことは、対応の比較が、相応に意味のある結果、および意味のある解釈をすべき結果にもつながるという利点を有する。   Therefore, by dividing in advance into graphic elements and text elements, it is possible for the first time to make an appropriate examination or an appropriate comparison for each element separately. This has the advantage that the comparison of correspondences also leads to correspondingly meaningful results and results to be meaningfully interpreted.

ここでラスタ画像の形成は、対応のデータがまだラスタ形式を有していない場合にだけ必要であることが理解されよう。同様にデータが純粋な形式のテキストとしてすでに存在している場合には、対応のテキスト識別を省略することができる。しかしこれはとりわけ職業的な通常の業務の場合、例えばゲラ刷りの作成およびその議論の場合ではむしろ例外である。なぜならそこで使用されるデータは、しばしばグラフィックコンテナ形式、例えばpdfデータまたはPostScriptデータだからである。   It will be appreciated that the formation of a raster image is only necessary if the corresponding data does not already have a raster format. Similarly, if the data already exists as pure form text, the corresponding text identification can be omitted. However, this is rather an exception, especially in the case of normal professional work, for example in the production of galley and its discussion. This is because the data used there is often in a graphic container format, such as pdf data or PostScript data.

グラフィックエレメントとテキストエレメントを分割するために、まずテキストエレメントを分離し、好ましくは別個のレベルに置くことが基本的に有利である。このことは例えば、ラスタ形式で存在するデータに対してテキスト識別プログラム、例えばOCRを適用することにより行うことができる。ここで識別されたテキストは、相応にして別個のレベルに置かれ、好ましくはグラフィックレベルから除去される。場合により他のやり方で、例えばテキストエレメントではないエレメント全体を対応のグラフィックレベルに移行することにより、グラフィックだけを含むレベルを作成することもできる。テキストがグラフィックコンテナ形式で存在する場合、例えばテキストエレメントとして標識付けられたグラフィックコンテナ形式の領域をそれ相応にフラグ付けし、引き続き別個のテキストレベルに置くことができる。   In order to separate graphic and text elements, it is basically advantageous to first separate the text elements and preferably put them on separate levels. This can be done, for example, by applying a text identification program, such as OCR, to the data present in raster format. The text identified here is correspondingly placed at a separate level and is preferably removed from the graphic level. It is possible to create a level that contains only graphics, possibly in other ways, for example by migrating entire elements that are not text elements to the corresponding graphic level. If the text exists in a graphic container format, for example, a graphic container format region labeled as a text element can be flagged accordingly and subsequently placed on a separate text level.

引き続き直接的なテキスト識別が行われる。そのために場合により、グラフィックコンテナ形式で存在するグリフを、それ自体公知のテーブルを介して文字に割り当て、これによりテキストをそれとして識別し、引き続きテキストフローによりテキストをnhroテキスト(natural human reading order)に変換する。これによりテキストが段組書式またはテーブル書式等において、内容的に意味のある統一体につなぎ合わされる。このことは、TVTでの従来技術からすでに十分に公知である。とりわけ、このテキストの読み方向ないし経過方向は、例えば左から右そして上から下、また上から下それから初めて右から左でもあるそれぞれの言語に適合できることが理解されよう。場合により生じ得るテキストの変化が、ヒトにとって直接的に理解可能に、かつ分かりやすく把握され、表示される。   Direct text identification continues. For this purpose, glyphs that exist in the form of graphic containers may be assigned to characters via a table known per se, thereby identifying the text as it, and subsequently by text flow to make the text into nro text (natural human reading order). Convert. As a result, the text is connected to a unity which is meaningful in terms of a column format or a table format. This is already well known from the prior art in TVT. In particular, it will be understood that the reading direction or progress direction of this text can be adapted to each language, for example left to right and top to bottom, top to bottom and then for the first time also right to left. Changes in text that may occur in some cases are understood and displayed in a manner that is directly understandable and understandable for humans.

したがって対応のテキスト識別手段が、テキストエレメントからテキストを抽出するための手段およびテキストフローを表示するための手段を含むことも有利である。   Therefore, it is also advantageous that the corresponding text identification means includes means for extracting text from the text element and means for displaying the text flow.

ここでテキスト識別は、テキストレベルでのテキストに、または別個のnhroテキストレベルでのテキストにも通ずることができる。   Here, the text identification can be either text at the text level or text at a separate nhro text level.

すでに別個のテキストを含む相応のコンテナ形式では、これらのテキストを所期のようにそれぞれのコンテナ形式から抽出することにより、複雑なテキスト識別を省略できることが理解されよう。しかし実際には、比較すべきデータの少なくとも1つがこの種の形式で存在しない、あるいは場合によってはこの種の形式で存在するが別個のテキストを含まないことがあり、したがって前に説明した複雑なテキスト識別をまず実行すべきである。   It will be appreciated that in corresponding container formats that already contain separate text, complex text identification can be omitted by extracting these texts from their respective container formats as expected. In practice, however, at least one of the data to be compared does not exist in this type of format, or in some cases exists in this type of format but does not contain separate text, and thus the complexities described above Text identification should be performed first.

グラフィックエレメントがまだラスタ形式で存在していない場合、これをラスタ画像にレンダリングする、すなわちラスタ画像に変換すると有利である。ここでは、対応のラスタ画像を、場合によりそれぞれのデータのメインレベルに、またはグラフィックレベルに、または付加的なラスタ画像レベルに表示できることが理解されよう。   If the graphic element does not already exist in raster form, it is advantageous to render it into a raster image, ie convert it to a raster image. It will be understood here that the corresponding raster image can optionally be displayed at the main level of the respective data, or at the graphic level, or at an additional raster image level.

レンダリングのためにラスタグラフィック手段は、とりわけラスタグラフィックエンジンおよび/またはラスタグラフィックプロセッサを含むことができる。これにより対応のラスタ化ないし対応のレンダリングが、高速にかつ所望の精度により安定した動作で実行される。   The raster graphic means for rendering can include a raster graphic engine and / or a raster graphic processor, among others. Accordingly, corresponding rasterization or corresponding rendering is executed at high speed and with a stable operation with a desired accuracy.

好ましくは比較結果は共通に表示される。このことは例えば対応のレベルを重ね合わせることにより行うことができる。とりわけ比較結果は、出力手段としてのモニタに出力することができる。   Preferably, the comparison results are displayed in common. This can be done, for example, by superimposing corresponding levels. In particular, the comparison result can be output to a monitor as output means.

同様に比較結果を好ましくは共通にデータに記憶することも考えられる。そしてこのデータは例えば顧客に、例えばゲラ刷りで実行された修正を検証するために提供することができる。したがって出力手段が、比較結果をメモリ中の結果データに記憶するためにメモリおよび記憶手段を含むと有利である。   Similarly, it is also conceivable to store the comparison results in data, preferably in common. This data can then be provided, for example, to a customer, for example, to verify corrections made by galling. It is therefore advantageous if the output means includes a memory and storage means for storing the comparison results in result data in the memory.

記憶手段が結果データを、2つの比較すべきデータの少なくとも1つの形式で記憶すると、比較結果が特に有利にさらに処理される。これにより、この結果データをオープンするのに、および場合により評価するのに必要な所属のプログラムを、比較すべきデータの少なくとも1つを準備した人物に提供することもできる。   If the storage means stores the result data in the form of at least one of the two data to be compared, the comparison results are particularly advantageously further processed. This makes it possible to provide the person who has prepared at least one of the data to be compared with the program to which he belongs in order to open and optionally evaluate the result data.

前記ないし請求項に記載された解決手段の特徴は、利点を相応に累積的に実現できるようにするために、場合により組み合わせることができることは理解されよう。   It will be appreciated that the features of the solutions recited in the claims can be combined in some cases so that the advantages can be realized correspondingly cumulatively.

本発明のさらなる利点、目的、特性を、実施例の以下の記述に基づいて説明する。実施例はとりわけ添付図面にも示されている。   Further advantages, objects and characteristics of the present invention will be explained on the basis of the following description of examples. Examples are shown in particular in the accompanying drawings.

図1は、下方領域に本発明の方法形態を、上方領域の従来技術による方法形態を示す図である。FIG. 1 is a diagram showing a method configuration of the present invention in a lower region and a conventional method configuration in an upper region. 図2は、グラフィックエレメントおよびテキストエレメントを含む比較すべき2つのデータおよび従来のオブジェクト検証による比較結果を示す図である。FIG. 2 is a diagram showing two data to be compared including a graphic element and a text element, and a comparison result by conventional object verification. 図3は、本発明による方法形態および図2の比較すべきデータに基づくその結果を示す図である。FIG. 3 is a diagram illustrating a method configuration according to the present invention and the results based on the data to be compared in FIG. 図4は、例としてグラフィックエレメントとテキストエレメントを含むpdfデータの印刷画像を示す図である。FIG. 4 is a diagram showing a print image of pdf data including a graphic element and a text element as an example. 図5は、図4の印刷画像に示したデータの構造を示す図である。FIG. 5 is a diagram showing the structure of data shown in the print image of FIG. 図6は、図4と5に示したデータをテキスト形式で示す図である。FIG. 6 is a diagram showing the data shown in FIGS. 4 and 5 in a text format. 図7は、アラビア語テキストエレメントを含むデータの比較例を示す図である。FIG. 7 is a diagram illustrating a comparative example of data including an Arabic text element. 図8は、中国語テキストエレメントを含むデータの比較例を示す図である。FIG. 8 is a diagram showing a comparative example of data including Chinese text elements. 図9は、グラフィックエレメントを含むデータの比較例を示す図である。FIG. 9 is a diagram illustrating a comparative example of data including graphic elements.

それぞれグラフィックレベル11,21とテキストレベル12,22に分離されるグラフィックエレメントとテキストエレメントを有する比較すべきデータ10,20を分割することにより、まず別個のテキスト比較と別個のグラフィック比較を実行することができる。このことは相応に妥当で理解可能な結果につながる。場合により第1のステップで、比較すべき2つのデータ10,20またはこれらのデータ10,20の1つだけに、例えばOCRのようなテキスト識別を施すことができる。またはテキストを含むオブジェクトを検索するか、ないしテキストを含むオブジェクトを創作するその他の過程を施すことができる。このようにして、まず純粋なグラフィックデータ10,20から、コンテナ形式でテキストエレメントも見つけ出されるデータ10,20が提供される。   First, separate text comparisons and separate graphic comparisons are performed by dividing the data 10 and 20 to be compared having graphic elements and text elements separated into graphic levels 11 and 21 and text levels 12 and 22, respectively. Can do. This leads to reasonably reasonable and understandable results. In some cases, in the first step, text identification such as OCR can be applied to the two data 10, 20 to be compared or to only one of these data 10, 20. Or you can search for objects that contain text, or take other steps to create objects that contain text. In this way, firstly, data 10 and 20 in which text elements are also found in a container format from pure graphic data 10 and 20 are provided.

グラフィックレベル11,21は、分離後にレンダリングされ比較される。そしてグラフィック比較の結果は別個のレベル32に表示される。   Graphic levels 11 and 21 are rendered and compared after separation. The result of the graphic comparison is then displayed on a separate level 32.

テキストレベル12,22では、まずテキスト識別とテキストフローが実行される。これによりそれぞれのテキスト13,23がテキスト比較のために使用され、その結果がレベル31に表示される。   In the text levels 12 and 22, text identification and text flow are first executed. Thus, the respective texts 13 and 23 are used for text comparison, and the result is displayed at level 31.

このようにして、とりわけこれが顧客固有の修正の希望を修正の文書記録の下で行うべきゲラ刷りの場合には、文書比較とりわけデータ比較を高速かつ安定した動作で実行することができる。   In this way, document comparisons, especially data comparisons, can be performed in a fast and stable manner, especially if this is a galley to make customer-specific correction wishes under the correction document record.

レベル31と32を重ね合わせることにより、対応のエラーを一体的に文書記録する画像32を場合により反転して、全体画像を簡単に作成することができる。   By superimposing the levels 31 and 32, it is possible to easily create an entire image by inverting the image 32 in which the corresponding errors are integrally recorded in the document.

後者は、図2に示すようにオブジェクト検証の場合は不可能である。なぜならそこではエラーの閉塞が生じるからである。同じように、テキスト検証がグラフィック比較を可能にすることができないことも直ぐに理解される。   The latter is not possible in the case of object verification as shown in FIG. This is because there is an error blockage. Similarly, it is readily understood that text validation cannot enable graphic comparisons.

ここではデータを例えばpdfのようなコンテナ形式に移行することができ、この種の形式ではテキストエレメント43とグラフィックエレメント44を探り出すことができる。例えば図4の印刷画像に示したデータが、グラフィックエレメント44として円を、テキストエレメント43として「Hello World」を有する場合、テキストをグラフィックとは別個に見つけ出すことができ、とりわけ図5に示したこのデータの構造表示から読み取ることができる。対応の情報がそれぞれのデータのテキスト表示(図6参照)にも含まれているか否かが必ずしも明白ではない場合には、テキストエレメントを相応にグラフィックエレメントから機械的に分離し、前に示したように検査することができる。   Here, the data can be transferred to a container format such as pdf, and the text element 43 and the graphic element 44 can be found in this type of format. For example, if the data shown in the printed image of FIG. 4 has a circle as the graphic element 44 and “Hello World” as the text element 43, the text can be found separately from the graphic, and in particular this It can be read from the data structure display. If it is not always clear whether the corresponding information is also included in the textual representation of the respective data (see FIG. 6), the text element is mechanically separated from the graphic element accordingly and shown above. Can be inspected as follows.

ここでテキストエレメントが、必ずしもローマ文字に制限されるものではないことは自明である。アラビア文字または中国文字のような他の文字言語も対応して調査し、比較することができる。このことは図7と8に例として示されており、ここでは言語ないし書体に応じて読み方向が適合される。しかしこのことはテキストを相応に埋め込むことにより通常は問題とならない。ここでも、場合により相応の欠けている部分またはエラーのある部分45をマーキングすることができ、これにより単純かつ動作の安定した比較を行うことができる。   It is obvious that the text element is not necessarily limited to Roman letters. Other character languages such as Arabic or Chinese can also be investigated and compared correspondingly. This is illustrated by way of example in FIGS. 7 and 8, where the reading direction is adapted according to the language or typeface. However, this is usually not a problem by embedding the text accordingly. Again, if appropriate, the corresponding missing or errored part 45 can be marked, so that a simple and stable comparison can be made.

グラフィックでのエラーのある部分または欠けている部分45も相応にマーキングすることができる。これは図9に例として示されている。   Errored or missing portions 45 in the graphic can be marked accordingly. This is shown as an example in FIG.

10 データ
11 グラフィックレベル
12 テキストレベル
13 テキスト
20 データ
21 グラフィックレベル
22 テキストレベル
23 テキスト
31 テキスト比較の結果に対するレベル
32 グラフィック比較の結果に対するレベル
43 データのテキスト領域
44 データのグラフィック領域
45 欠けている部分またはエラーのある部分
10 data 11 graphic level 12 text level 13 text 20 data 21 graphic level 22 text level 23 text 31 level for text comparison result 32 level for graphic comparison result 43 text area for data 44 graphic area for data 45 missing part or Error part

Claims (11)

グラフィックエレメントおよびテキストエレメントを含む2つのデータを比較し、差異を出力するための装置において、当該2つのデータに対するメモリと、当該2つのデータをグラフィックエレメントとテキストエレメントに分割するための手段と、テキスト識別のための手段と、グラフィックエレメントからラスタ化された画像を形成するためのラスタグラフィック手段と、抽出されたテキストを比較するための手段と、ラスタ化された画像を比較するための手段と、2つのデータの、テキストの差異を示すレベルとラスタ化された画像の差異を示すレベルを重ね合わせることによって、抽出されたテキストの差異とラスタ化された画像の差異を同一画面に表示するための出力手段とを備えること、を特徴とする装置。 In an apparatus for comparing two data including a graphic element and a text element and outputting a difference, a memory for the two data, means for dividing the two data into a graphic element and a text element, text Means for identifying; raster graphic means for forming a rasterized image from graphic elements; means for comparing extracted text; means for comparing rasterized images; To display the difference between the extracted text and the rasterized image on the same screen by superimposing the level indicating the difference between the text and the level indicating the difference between the rasterized images of the two data. And an output means. 前記ラスタグラフィック手段は、ラスタグラフィックエンジンおよび/またはラスタグラフィックプロセッサを含む、ことを特徴とする請求項1に記載の装置。   The apparatus of claim 1, wherein the raster graphic means comprises a raster graphic engine and / or a raster graphic processor. 前記出力手段は、テキストの差異と画像の差異をメモリ中の結果データに記憶するためにメモリおよび記憶手段を含む、ことを特徴とする請求項1または2に記載の装置。 3. An apparatus according to claim 1 or 2 , wherein said output means includes a memory and storage means for storing text differences and image differences in result data in the memory. 前記記憶手段は前記テキストの差異と画像の差異のデータを、2つの比較すべきデータの少なくとも一方の形式で記憶する、ことを特徴とする請求項に記載の装置。 4. The apparatus according to claim 3 , wherein the storage means stores the text difference data and the image difference data in the form of at least one of two data to be compared. 前記出力手段はモニタを含む、ことを特徴とする請求項1からのいずれか一項に記載の装置。 Apparatus according to any one of claims 1 to 4 wherein the output means including a monitor, it is characterized. 前記テキスト識別手段は、テキストエレメントからテキストを抽出するための手段、およびテキストフローを表示するための手段を含む、ことを特徴とする請求項1からのいずれか一項に記載の装置。 It said text identifying means, means for extracting the text from the text element, and means for displaying the text flow, that the device according to any one of claims 1 to 5, characterized in. グラフィックエレメントおよびテキストエレメントを含む2つのデータを比較し、差異を出力するための方法において、当該2つのデータにおいてグラフィックエレメントとテキストエレメントとを分離し、グラフィックエレメントから必要な場合はそれぞれ1つのラスタ画像を形成し、ラスタ画像を互いにグラフィック的に比較し、テキストエレメントから必要な場合はそれぞれのテキストを識別し、テキストを互いにテキスト的に比較し、ラスタ画像の差異を示すレベルとテキストの差異を示すレベルとを重ね合わせることによって、2つのデータのラスタ画像の差異と識別されたテキストの差異とを同一画面に表示する、ことを特徴とする方法。 In a method for comparing two data including a graphic element and a text element and outputting a difference, the graphic element and the text element are separated from each other in the two data, and if necessary, one raster image is obtained from each graphic element. Graphically compare raster images with each other, identify each text if necessary from text elements, compare text textually with each other, and show differences in levels and text indicating raster image differences A method of displaying a difference between raster images of two data and a difference between identified texts on the same screen by superimposing levels . 前記ラスタ画像の差異とテキストの差異とを一つのファイルに出力する、ことを特徴とする請求項に記載の方法。 The method according to claim 7 , wherein the raster image difference and the text difference are output to one file. グラフィックエレメントの少なくとも1つをラスタ画像にレンダリングする、ことを特徴とする請求項7または8に記載の方法。 9. A method according to claim 7 or 8 , wherein at least one of the graphic elements is rendered into a raster image. グラフィックエレメントとテキストエレメントを分離するために、まずテキストエレメントを別個のレベルに置く、ことを特徴とする請求項7から9のいずれか一項に記載の方法。 10. A method according to any one of claims 7 to 9 , characterized in that the text elements are first placed on separate levels in order to separate the graphic elements and the text elements. テキスト識別のために、テキストフローによって読みやすい書式のテキストを形成する、ことを特徴とする請求項7から10のいずれか一項に記載の方法。 11. A method according to any one of claims 7 to 10 , characterized in that for text identification, text in a form that is easy to read is formed by a text flow.
JP2015509304A 2012-05-02 2013-05-02 Apparatus and method for comparing two data including graphic element and text element Active JP6390858B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102012008512.5 2012-05-02
DE102012008512A DE102012008512A1 (en) 2012-05-02 2012-05-02 Apparatus and method for comparing two graphics and text elements containing files
PCT/DE2013/000233 WO2013163978A1 (en) 2012-05-02 2013-05-02 Apparatus and method for comparing two files containing graphics elements and text elements

Publications (2)

Publication Number Publication Date
JP2015520891A JP2015520891A (en) 2015-07-23
JP6390858B2 true JP6390858B2 (en) 2018-09-19

Family

ID=48576665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015509304A Active JP6390858B2 (en) 2012-05-02 2013-05-02 Apparatus and method for comparing two data including graphic element and text element

Country Status (8)

Country Link
US (1) US10102223B2 (en)
EP (1) EP2845145B1 (en)
JP (1) JP6390858B2 (en)
CN (1) CN104412277B (en)
CA (1) CA2872830C (en)
DE (2) DE102012008512A1 (en)
PL (1) PL2845145T3 (en)
WO (1) WO2013163978A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2921989A1 (en) 2014-03-17 2015-09-23 Université de Genève Method for object recognition and/or verification on portable devices
DE102015108236A1 (en) 2015-05-26 2016-12-01 Briends GmbH Method for linking printed texts with digital content

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3414455C2 (en) * 1983-04-26 1996-04-25 Wollang Peter Michael Method and device for reading and processing information consisting of decodable font information and / or non-decodable graphic information
US5142619A (en) * 1990-02-21 1992-08-25 International Business Machines Corporation Method and apparatus for visually comparing files in a data processing system
IL103016A (en) * 1992-09-01 1996-11-14 Scitex Corp Ltd System and method for graphics separation
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
KR100548983B1 (en) 2000-11-02 2006-02-02 (주)마크텍 Computer system and method for verifying the authenticity of digital documents
DE10132625A1 (en) 2001-07-05 2003-01-23 Oce Printing Systems Gmbh Process, computer program product and device system for visually checking image data
US7236632B2 (en) 2003-04-11 2007-06-26 Ricoh Company, Ltd. Automated techniques for comparing contents of images
JP3862694B2 (en) 2003-11-20 2006-12-27 キヤノン株式会社 Image processing apparatus, control method therefor, and program
US7257771B2 (en) * 2004-05-26 2007-08-14 Texterity, Inc. System and method for converting a page description file to a composite representation thereof for fast Web viewing
JP2006065477A (en) 2004-08-25 2006-03-09 Fuji Xerox Co Ltd Character recognition device
JP2007026386A (en) * 2005-07-21 2007-02-01 Fuji Xerox Co Ltd Image search system and method
JP2007172077A (en) * 2005-12-19 2007-07-05 Fuji Xerox Co Ltd Image search system, method thereof, and program thereof
US7801392B2 (en) * 2005-07-21 2010-09-21 Fuji Xerox Co., Ltd. Image search system, image search method, and storage medium
JP2008054147A (en) * 2006-08-28 2008-03-06 Fuji Xerox Co Ltd Image processor and image processing program
US8019882B2 (en) * 2008-06-27 2011-09-13 Microsoft Corporation Content identification for peer-to-peer content retrieval
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
US9514103B2 (en) 2010-02-05 2016-12-06 Palo Alto Research Center Incorporated Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
US8769392B2 (en) * 2010-05-26 2014-07-01 Content Catalyst Limited Searching and selecting content from multiple source documents having a plurality of native formats, indexing and aggregating the selected content into customized reports
CN101853246B (en) 2010-06-14 2012-05-23 深圳市万兴软件有限公司 Document format conversion method and device
US8917275B2 (en) * 2010-06-14 2014-12-23 Microsoft Corporation Automated contrast verifications
US8223189B2 (en) * 2010-07-09 2012-07-17 Dialogic Corporation Systems and methods of providing video features in a standard telephone system
US8472727B2 (en) * 2011-01-07 2013-06-25 Yuval Gronau Document comparison and analysis for improved OCR

Also Published As

Publication number Publication date
CN104412277B (en) 2021-08-27
DE112013002295A5 (en) 2015-04-23
JP2015520891A (en) 2015-07-23
CA2872830A1 (en) 2013-11-07
WO2013163978A1 (en) 2013-11-07
EP2845145B1 (en) 2019-04-17
US20150213060A1 (en) 2015-07-30
CN104412277A (en) 2015-03-11
US10102223B2 (en) 2018-10-16
PL2845145T3 (en) 2019-10-31
CA2872830C (en) 2021-05-11
EP2845145A1 (en) 2015-03-11
DE102012008512A1 (en) 2013-11-07

Similar Documents

Publication Publication Date Title
US8718364B2 (en) Apparatus and method for digitizing documents with extracted region data
JP5121599B2 (en) Image processing apparatus, image processing method, program thereof, and storage medium
US8595614B2 (en) Document generating apparatus, document generating method, computer program and recording medium
US20080172637A1 (en) Method and system for using image globalization in dynamic text generation and manipulation
JP5526874B2 (en) Image processing apparatus and image processing program
CN103425466A (en) Color matching processing method and color matching processing device
CN109726369B (en) Intelligent templated bibliography technology implementation method based on standard documents
JP6390858B2 (en) Apparatus and method for comparing two data including graphic element and text element
US8467082B1 (en) Print compound conserving font production method
JP5950700B2 (en) Image processing apparatus, image processing method, and program
JP6080586B2 (en) Character recognition system, character recognition program, and character recognition method
JPH08129550A (en) Image processor and method for image processing
JP2009087270A (en) Image processing device and program
JP6074893B2 (en) Information processing apparatus and program
JP6356924B2 (en) Inspection device, inspection method, recording medium, and program
US20160371233A1 (en) Assistive technology for the impaired
US9619438B2 (en) Embedding bitmap fonts in PDF files
JP2008158643A (en) Display inspection method, display inspection apparatus and display inspection program
JP6614857B2 (en) Image processing apparatus, image processing method, and program
JP2013161375A (en) Edition system
JP4399296B2 (en) DTP data editing system, DTP data editing method, and DTP data editing program
JP6206835B2 (en) Electronic book data creation method and markup language data creation method
JP2008040773A (en) Image output device and image output program
JP5875498B2 (en) Print data processing apparatus, print data processing method, and print data processing program.
US20150363658A1 (en) Visualization of a computer-generated image of a document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170919

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180522

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180807

R150 Certificate of patent or registration of utility model

Ref document number: 6390858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250