JP2013090262A - Document character difference detection device - Google Patents

Document character difference detection device Download PDF

Info

Publication number
JP2013090262A
JP2013090262A JP2011231472A JP2011231472A JP2013090262A JP 2013090262 A JP2013090262 A JP 2013090262A JP 2011231472 A JP2011231472 A JP 2011231472A JP 2011231472 A JP2011231472 A JP 2011231472A JP 2013090262 A JP2013090262 A JP 2013090262A
Authority
JP
Japan
Prior art keywords
character
difference
print
characters
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011231472A
Other languages
Japanese (ja)
Inventor
Miyuki Oda
美由紀 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2011231472A priority Critical patent/JP2013090262A/en
Publication of JP2013090262A publication Critical patent/JP2013090262A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

PROBLEM TO BE SOLVED: To enable a difference between printed characters in a plurality of document images to be easily grasped.SOLUTION: Difference regions of parts having a difference in two images to be compared are extracted by a difference region extraction unit 101. Characters of two character images in character regions having a difference are respectively recognized by a character recognition unit 102. Specifically, it is determined which character image is close to the input character images with reference to data in a character pattern database 105 to obtain corresponding character codes. Next, the character codes are compared by a character comparison unit 103, and when the character codes are the same, a result is output as a font difference. When the character codes are not the same, a result is output as a difference in characters themselves.

Description

本発明は、文書文字差異検出装置に関するものである。   The present invention relates to a document character difference detection apparatus.

ビジネス分野において、帳票は欠かすことのできないツールである。帳票とは、帳簿や伝票類の総称であり、流通、経理など様々な場所で利用されている。この帳票は膨大な数となり、帳票を管理する管理方法が重要となってくる。現在は帳票もデジタル化が進み、デジタルデータとして保存されているが、デジタルデータに基づいて帳票を印刷する機会も多い。例えば帳票の種類によってはデジタルデータに基づいて印刷した帳票に署名や捺印を行うことがある。この帳票の印刷は一度だけに限らず、複数回行われることがあり、異なるプリンタによって帳票を印刷することもある。各プリンタでは出力フォーマットやプログラム言語であるページ記述言語の変換方法が異なる。このため、同じ帳票データであっても各プリンタ毎で出力した帳票である印刷物の間で位置ずれなどが発生することがある。例えば各プリンタの出力フォーマットの違いによって印刷文字の出力位置が変わったり、ページ記述言語に変換する方法が異なることによって別の印刷文字や空白に変換されたりすることがある。このような印刷文字の差異は、管理者が目視検査により検出していた。この管理者による目視検査は時間を要すると共に、2つの印刷物の印刷文字を相互に目視で比較する作業は管理者への負担も大きい。そのため、2つの印刷物の間で印刷文字の差異を検出できる文書文字差異検出装置が求められている。   Forms are an indispensable tool in the business field. A form is a general term for books and slips, and is used in various places such as distribution and accounting. There are an enormous number of forms, and a management method for managing the forms becomes important. Currently, forms are also digitized and stored as digital data, but there are many opportunities to print forms based on digital data. For example, depending on the type of form, a form printed on the basis of digital data may be signed or stamped. The printing of the form is not limited to one time but may be performed a plurality of times, and the form may be printed by different printers. Each printer has a different output format and page description language conversion method as a program language. For this reason, even with the same form data, misalignment may occur between printed materials that are forms output by each printer. For example, the output position of a print character may change depending on the output format of each printer, or may be converted to another print character or blank due to a different method of conversion to a page description language. Such a difference in printed characters has been detected by an administrator by visual inspection. This visual inspection by the manager takes time, and the work of visually comparing the printed characters of the two printed materials with each other also places a heavy burden on the manager. Therefore, there is a need for a document character difference detection device that can detect a difference in print characters between two printed materials.

その文書文字差異検出装置として、特許文献1に記載のものが知られている。この特許文献1の文書文字差異検出装置の構成を図5に示す。同図にように、2つの互いに異なるプリンタ(図示せず)によって同じ帳票データに基づいて2つの印刷物201、202を出力する。その印刷物201、202をスキャナ203でそれぞれ光学的に読み込んでデジタル画像データにそれぞれ変換する。そして、変換された2つのデジタル画像データの差異を表示する差異表示画像を文書文字差異検出装置204によって作成する。ここで、文書文字差異検出装置204の構成を図6に示す。同図に示すように文書文字差異検出装置204は、印刷画像取得部301、二値化部302、画像補正部303、差異表示画像作成部304及び差異表示画像出力部305を含んで構成されている。そして、印刷画像取得部301によって同じ帳票データに基づいて図示していない2つのプリンタによって印刷された2つの印刷物を図5のスキャナ20により光学的に読み込んで変換された2つのデジタル画像データを取得する。二値化部302では、印刷画像取得部301が取得した2つのデジタル画像データをそれぞれ二値化する。例えば一定の明度を閾値とし、この閾値より明るい画素を白、暗い画素を黒とする。そして、画像補正部303では、2つの画像の上下左右のずれ、回転、拡大縮小などの位置合わせ及びサイズ合わせの補正を行う。差異表示画像作成部304では補正後の2つの画像における画素を互いに比較し差分がある画素を画像の差異とする。そして、その画像の差異の画素には例えば色を使ってわかりやすく表示する差異表示画像を作成する。差異表示画像出力部305は、作成された差異表示画像を図5の出力装置205に出力する。   As the document character difference detection device, the one described in Patent Document 1 is known. FIG. 5 shows the configuration of the document character difference detection apparatus disclosed in Patent Document 1. As shown in the figure, two printed products 201 and 202 are output based on the same form data by two different printers (not shown). The printed materials 201 and 202 are optically read by the scanner 203 and converted into digital image data. Then, a difference display image for displaying a difference between the two converted digital image data is created by the document character difference detection device 204. Here, the configuration of the document character difference detection apparatus 204 is shown in FIG. As shown in the figure, the document character difference detection device 204 includes a print image acquisition unit 301, a binarization unit 302, an image correction unit 303, a difference display image creation unit 304, and a difference display image output unit 305. Yes. The print image acquisition unit 301 acquires two digital image data obtained by optically reading and converting two prints printed by two printers (not shown) based on the same form data by the scanner 20 of FIG. To do. The binarization unit 302 binarizes the two digital image data acquired by the print image acquisition unit 301. For example, a certain lightness is set as a threshold, pixels brighter than the threshold are white, and dark pixels are black. Then, the image correction unit 303 corrects alignment and size alignment such as misalignment, rotation, and enlargement / reduction of two images. In the difference display image creation unit 304, the pixels in the two corrected images are compared with each other, and pixels having a difference are determined as image differences. Then, a difference display image that is displayed in an easy-to-understand manner using, for example, color is created for the difference pixels of the image. The difference display image output unit 305 outputs the created difference display image to the output device 205 of FIG.

文書文字差異検出装置における差異表示画像作成部によって作成された差異表示画像の一例を図7に示す。図7の画像401及び画像402は、同じ帳票データに基づいて異なるプリンタでそれぞれ印刷した印刷物である。画像403は、画像401及び画像402をそれぞれスキャナで光学的に読み込み、デジタル画像データにそれぞれ変換すると共に各画像の位置合わせ等の補正を施した2つのデジタル画像データを重ね、印刷したり、あるいはモニタ等の表示部に表示したものである。そして、その出力された画像403では、少なくとも、第1画像のみ黒画素の部分、第2画像のみ黒画素の部分、第1画像及び第2画像の黒画素が重なっている部分、の3種類の画像を例えば複数色で色分けすることによって2つの印刷物における画像の差異部分404〜407を容易に把握することができる。   An example of the difference display image created by the difference display image creation unit in the document character difference detection apparatus is shown in FIG. An image 401 and an image 402 in FIG. 7 are printed materials printed by different printers based on the same form data. The image 403 is obtained by optically reading the image 401 and the image 402 with a scanner, converting the digital image data into digital image data, and superimposing and printing two pieces of digital image data subjected to correction such as alignment of each image, or It is displayed on a display unit such as a monitor. In the output image 403, at least three types of the first image, that is, the black pixel portion, the second image, the black pixel portion, and the black portion of the first image and the second image overlap each other. For example, by dividing the image into a plurality of colors, it is possible to easily grasp the difference portions 404 to 407 of the images in the two printed materials.

しかしながら、上記特許文献1の文書文字差異検出装置では、図8に示すような複数の文書画像における印刷文字の差異部分を特定できても以下のような理由で印刷文字の差異が、文字自体の違いであるのか、あるいはフォントの違いであるのかは判別できない。図8の文字群1は、「あ」「い」「う」のゴシック体で印刷した3つの印刷文字からなる文字群である。文字群2は、「あ」「い」「え」のゴシック体で印刷した3つの印刷文字からなる文字群である。文字群3は、「あ」「い」「う」の明朝体で印刷した3つの印刷文字からなる文字群である。これらの文字群を光学的に読み込み位置合わせやサイズ合わせの補正を施して画素の比較を行ったとき、文字群1と文字群2とを比較した結果を示す結果画像1のように、3文字目の印刷文字の文字自体で差異があることが明らかにわかる。一方、文字群1と文字群3とを比較した場合、その結果を示す結果画像2のように、3文字の印刷文字全ての文字自体は互いに同じであると判別できるが、文字群3の印刷文字のフォントの特徴部分が文字群1の印刷文字に隠れてしまい印刷文字のフォントの違いを判別することが難しくなっている。上記特許文献1の文書文字差異検出装置では、複数の文書画像における印刷文字の文字自体の違いを特定できても、印刷文字のフォントの違いを特定することができなかった。   However, in the document character difference detection apparatus of Patent Document 1 described above, even if a difference portion between the print characters in a plurality of document images as shown in FIG. Whether it is a difference or a font difference cannot be determined. The character group 1 in FIG. 8 is a character group composed of three printed characters printed in a Gothic style of “A”, “I”, and “U”. The character group 2 is a character group composed of three print characters printed in a Gothic style of “A”, “I”, and “E”. The character group 3 is a character group composed of three printed characters printed in the Mincho style of “A”, “I”, and “U”. When these character groups are optically read and subjected to position alignment and size adjustment and pixel comparison is performed, a result image 1 showing the result of comparing character group 1 and character group 2 is displayed as three characters. It can be clearly seen that there is a difference between the printed characters of the eyes. On the other hand, when the character group 1 and the character group 3 are compared, it can be determined that all three printed characters themselves are the same as the result image 2 showing the result. Characteristic features of the character font are hidden behind the print characters of the character group 1, making it difficult to determine the difference between the print character fonts. In the document character difference detection device of Patent Document 1, even if the difference between the characters of the print characters in a plurality of document images can be specified, the difference between the fonts of the print characters cannot be specified.

本発明は以上の問題点に鑑みなされたものであり、その目的は、複数の文書画像における印刷文字の差異が文字自体の違いであるのか、あるいはフォントの違いであるかを容易に判別できる文書文字差異検出装置を提供することである。   SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and an object of the present invention is to easily determine whether a difference between printed characters in a plurality of document images is a difference between characters or a font. A character difference detection device is provided.

上記目的を達成するために、請求項1の発明は、印刷文字データを含む同じ帳票データに基づいて異なる複数の印刷装置によって出力した複数の帳票を光学的に読み取って各デジタル文書画像データを取得する文書画像取得手段と、各デジタル文書画像データをそれぞれ二値化する二値化手段と、二値化された各画像データに互いの位置合わせ及びサイズ合わせを行う補正を施す補正手段と、補正後の各画像データの画素同士を比較する比較手段と、比較結果により画素の差分がある部分を各画像データの差異部分とし、当該差分部分内に含まれている印刷文字を特定するように表示する差異表示画像を作成する差異表示画像作成手段と、作成された差異表示画像を出力する差異表示画像出力手段とを備える文書文字差異検出装置において、前記差異部分の各印刷文字を文字認識した結果に基づいて、前記差異部分の各印刷文字を差異が文字自体の違いであるのか、あるいはフォントの違いであるかを判別する差異判別手段と、該差異判別手段による判別結果を出力する判別結果出力手段とを備えることを特徴とするものである。   In order to achieve the above object, the first aspect of the present invention obtains each digital document image data by optically reading a plurality of forms output by a plurality of different printing devices based on the same form data including print character data. A document image acquisition unit, a binarization unit that binarizes each digital document image data, a correction unit that corrects each of the binarized image data to perform alignment and size adjustment, and correction Comparison means for comparing pixels of each subsequent image data, and a portion where there is a pixel difference based on the comparison result is set as a difference portion of each image data, and display is performed so as to specify a print character included in the difference portion In a document character difference detection apparatus comprising: a difference display image creating unit that creates a difference display image to be output; and a difference display image output unit that outputs the created difference display image. A difference discriminating means for discriminating whether the difference is a difference between the characters themselves or a difference between the fonts based on the result of character recognition of each printed character in the difference portion; It comprises a discrimination result output means for outputting a discrimination result by the difference discrimination means.

本発明においては、帳票データに基づいて印刷装置から出力した帳票では、印刷装置が異なると、同じ帳票データであっても、出力された各帳票における印刷文字の文字自体あるいはフォントが変わることがある。各印刷文字の文字自体は同じであるにもかかわらず各画像では差異部分があるということは各印刷文字のフォントが違う場合が考えられる。それ以外の場合では各印刷文字の文字自体が違う場合である。各印刷文字の文字自体が互いに同じか否かを検出するために各印刷文字の文字認識を行うことにより、その文字認識の結果によって文字が異なっていれば差異部分の各印刷文字の差異が文字自体の違いであり、文字が同じであれば差異部分の各印刷文字の差異がフォントの違いであることが判別できる。そして、その判別結果を判別結果出力手段によって出力する。これにより、複数の文書画像における印刷文字の差異が文字自体の違いであるのか、あるいはフォントの違いであるのかを容易に判別することができる。   In the present invention, in the form output from the printing apparatus based on the form data, if the printing apparatus is different, even if the form data is the same, the characters or fonts of the printed characters in each output form may change. . Even though the characters of each print character are the same, the fact that there is a difference in each image may be that the font of each print character is different. In other cases, the character of each print character is different. By performing character recognition of each print character in order to detect whether or not the characters of each print character are the same as each other, if the character is different depending on the result of the character recognition, the difference between each print character in the difference portion is the character. If the characters are the same, it can be determined that the difference between the printed characters in the difference portion is a difference in font. The discrimination result is output by the discrimination result output means. Thereby, it is possible to easily determine whether the difference between the print characters in the plurality of document images is the difference between the characters themselves or the difference between the fonts.

本発明によれば、複数の文書画像における印刷文字の差異が文字自体の違いであるのか、あるいはフォントの違いであるのかを容易に判別できるという特有な効果が得られる。   According to the present invention, it is possible to obtain a unique effect that it is possible to easily determine whether a difference between printed characters in a plurality of document images is a difference between characters or a font.

本発明の実施形態に係る文書文字差異検出装置の一構成例を示すブロック図である。It is a block diagram which shows the example of 1 structure of the document character difference detection apparatus which concerns on embodiment of this invention. 図1の差異判別部の一構成例を示すブロック図である。It is a block diagram which shows the example of 1 structure of the difference determination part of FIG. 文字パターンデータベースの特徴量と文字コードの一例を示す図である。It is a figure which shows an example of the feature-value and character code of a character pattern database. 本実施形態の文書文字差異検出装置における差異判別処理を示すフローチャートである。It is a flowchart which shows the difference discrimination | determination process in the document character difference detection apparatus of this embodiment. 従来の文書文字差異検出システムの構成例を示す概略図である。It is the schematic which shows the structural example of the conventional document character difference detection system. 図5の文書文字差異検出装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the document character difference detection apparatus of FIG. 差異表示画像の一例を示す図である。It is a figure which shows an example of a difference display image. 印刷文字の差異判別の結果を示す図である。It is a figure which shows the result of the difference determination of a printing character.

以下、本発明の実施形態を図面に基づき説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は本発明の実施形態に係る文書文字差異検出装置の一構成例を示すブロック図である。同図において、図6と同じ参照符号は同じ構成要素を示す。本実施形態の文書文字差異検出装置1は、印刷画像取得部301、二値化部302、画像補正部303、差異判別部100、差異表示画像作成部304及び差異表示画像出力部305を含んで構成されている。図6の文書文字差異検出装置204と異なる構成としての差異判別部100は、2つの文書画像における印刷文字の差異が文字のフォントの違いによるものか、文字自体の違いによるものかを判別する。   FIG. 1 is a block diagram showing a configuration example of a document character difference detection apparatus according to an embodiment of the present invention. In the figure, the same reference numerals as those in FIG. 6 denote the same components. The document character difference detection apparatus 1 of this embodiment includes a print image acquisition unit 301, a binarization unit 302, an image correction unit 303, a difference determination unit 100, a difference display image creation unit 304, and a difference display image output unit 305. It is configured. A difference determination unit 100 having a configuration different from that of the document character difference detection device 204 in FIG. 6 determines whether a difference between print characters in two document images is due to a difference in character font or a difference in character itself.

この印刷文字の差異を判別する差異判別部について詳細に説明する。図2は図1の差異判別部の一構成例を示すブロック図である。差異判別部100は、差異領域抽出部101、文字認識部102、文字比較部103、差異出力部104及び文字パターンデータベース105を含んで構成されている。そして、差異領域抽出部101は、2つの文書画像における印刷文字の差異がある部分の文字領域を抽出する。文字領域の抽出は、例えば2つの文書画像の画素を互いに比較し、画素に差分がある画素をもとにその画素から連続する画素を連結成分として抽出し、抽出した連結成分をもとに外接する外接矩形を設定しその外接矩形を差分領域とするなどの方法で行う。あるいは、黒ランのヒストグラムによる文字切出し方法を用いてもよい。印刷文字は所定の矩形領域内に印刷されているので連結成分抽出によって設定された外接矩形が重なるようであればその各差分領域は1つの差分領域にまとめるなどしても良い。   The difference determination unit for determining the difference between the printed characters will be described in detail. FIG. 2 is a block diagram illustrating a configuration example of the difference determination unit in FIG. The difference determination unit 100 includes a difference area extraction unit 101, a character recognition unit 102, a character comparison unit 103, a difference output unit 104, and a character pattern database 105. Then, the difference area extraction unit 101 extracts a character area of a portion where there is a difference in print characters between the two document images. For example, the character region is extracted by comparing pixels of two document images with each other, extracting consecutive pixels from the pixels based on the pixels having a difference in pixels, and circumscribing based on the extracted connected components. A circumscribed rectangle is set, and the circumscribed rectangle is set as a difference area. Alternatively, a character extraction method using a black run histogram may be used. Since the print characters are printed in a predetermined rectangular area, the difference areas may be combined into one difference area as long as the circumscribed rectangles set by the connected component extraction overlap.

そして、2つのスキャン画像の濃度差やノイズなどの影響により、同じフォント、同じ文字であっても微少な差異が出ることがある。この場合は、差異領域抽出部101では設定した閾値より小さい差異がある文字は差異がある文字から除くなどの処理を行ってもよい。次に、文字認識部102では、印刷文字の画像を入力として受け取り、文字コードのような、どの文字かを表す値を出力する。例えば文字コードと印刷文字画像を対向づけたテーブルを文字パターンデータベース105に格納しておき、入力された印刷文字画像がどの文字画像に近いかを判断し対応する文字コードを出力する。文字パターンデータベース105に登録しておくのは印刷文字画像以外の文字の特徴量でも良い。この場合は入力画像の特徴量と近いものを探すことになる。文字パターンデータベース105の一例を図3に示す。同図に示す文字パターンデータベースの例では、印刷文字の特徴量の集合と文字コードを対応づけたものである。そして、文字パターンデータベースは必要な文字分だけのデータを持つ。文字認識処理では認識したい文字画像と文字パターンデータベースとを比較して最も近いデータを特定し、特定したデータの文字コードを出力する。   Even if the same font and the same character are used, there may be a slight difference due to the density difference between the two scanned images, noise, and the like. In this case, the different area extraction unit 101 may perform processing such as removing a character having a difference smaller than the set threshold from the character having a difference. Next, the character recognition unit 102 receives an image of a print character as an input, and outputs a value representing which character such as a character code. For example, a table in which the character code and the print character image are opposed to each other is stored in the character pattern database 105, the character image that the input print character image is close to is determined, and the corresponding character code is output. What is registered in the character pattern database 105 may be a feature amount of characters other than the printed character image. In this case, a search is made for a feature close to the feature amount of the input image. An example of the character pattern database 105 is shown in FIG. In the example of the character pattern database shown in the figure, a set of feature amounts of print characters is associated with a character code. The character pattern database has data for only the necessary characters. In the character recognition process, the character image to be recognized is compared with the character pattern database to identify the closest data, and the character code of the specified data is output.

文字認識によって対応する文字コードが得られないこともある。ノイズなどの影響でスキャナ画像の品質が悪かったりすると文字画像と文字コードの対応付けに失敗してしまう可能性がある。このような場合には文字コードを出力する代わりに、文字認識に失敗したという結果を出力する。また、文字認識には別の印刷文字と認識してしまう認識誤りが起こることもあるので、文字認識の確からしさを調節できるようになっていてもよい。入力された文字画像と文字パターンデータベースの画像を比較する際に、類似度のようなものの算出を行い、その類似度が最も高いものを認識結果として出力する。この場合に、その最も高い類似度が予め設定した閾値より低かったときには認識失敗とされるので、信頼性の高い認識結果だけを後の処理での比較に回すことになる。これにより、この認識誤りのまま次の比較結果に回すことを減らすことができるという利点がある。また、類似度に対する閾値はユーザが手動で指定してもよいし、画像の特性から自動で設定するようにしてもよい。次に、図2の文字比較部103では、文字認識部102からの文字コードが同じあれば同じ文字であるのでフォントが違うだけであると判断し、文字コードが異なっていれば文字自体が違うと判別する。また、文字認識部102で文字認識に失敗したという結果が出力されていた場合には差異不明と判断する。そして、差異出力部104は、文字比較部103による判別結果を図1の差異表示画像作成部304に出力する。   A character code corresponding to the character recognition may not be obtained. If the quality of the scanner image is poor due to noise or the like, there is a possibility that the association between the character image and the character code may fail. In such a case, instead of outputting a character code, a result indicating that character recognition has failed is output. In addition, since a recognition error that recognizes another print character may occur in character recognition, the probability of character recognition may be adjusted. When comparing the input character image with the image of the character pattern database, the similarity is calculated, and the highest similarity is output as the recognition result. In this case, when the highest similarity is lower than a preset threshold value, it is determined that the recognition has failed. Therefore, only a highly reliable recognition result is sent for comparison in later processing. As a result, there is an advantage that it is possible to reduce the use of this recognition error in the next comparison result. Further, the threshold value for the similarity may be manually designated by the user, or may be automatically set from the characteristics of the image. Next, in the character comparison unit 103 in FIG. 2, if the character code from the character recognition unit 102 is the same, it is determined that the font is different because it is the same character. If the character code is different, the character itself is different. Is determined. If the character recognition unit 102 outputs a result indicating that the character recognition has failed, it is determined that the difference is unknown. Then, the difference output unit 104 outputs the determination result by the character comparison unit 103 to the difference display image creation unit 304 of FIG.

次に、本実施形態の文書文字差異検出装置における差異判別処理について当該処理フローを示す図4に従って説明する。
先ず、図2の差異領域抽出部101によって比較対象の2つの画像の差異がある部分の差分領域を抽出する(ステップS101)。差異がある文字領域にある2つの文字画像の文字を文字認識部102によってそれぞれ認識する(ステップS102)。具体的には文字パターンデータベース105のデータを参照して入力された文字画像がどの文字画像に近いかを判断し対応する文字コードを得る。そして、文字認識が成功したか否かを判断し(ステップS103)、文字認識が成功していれば、それぞれの文字コードを得る(ステップS103;YES)。次に、文字比較部103によって各文字コードを比較し(ステップS104)、同じ文字コードであればフォント違いとして結果を出力する(ステップS105;YES、ステップS106)。同じ文字コードでなければ文字自体の違いとして結果を出力する(ステップS105;NO、ステップS107)。また、ステップS103で文字認識が成功しなかったならば差異不明として結果を出力する(ステップS103;NO、ステップS108)。各結果を出力したら、文字認識した差異領域が最後の差異領域かを判定し(ステップS109)最後の差異領域となるまでステップS102に戻って差異判別を繰り返す。
Next, the difference determination process in the document character difference detection apparatus of this embodiment will be described with reference to FIG. 4 showing the process flow.
First, the difference area extraction unit 101 in FIG. 2 extracts a difference area of a portion where there is a difference between two images to be compared (step S101). Characters of two character images in a character area having a difference are recognized by the character recognition unit 102 (step S102). Specifically, referring to data in the character pattern database 105, it is determined which character image is close to the input character image, and a corresponding character code is obtained. Then, it is determined whether or not the character recognition is successful (step S103). If the character recognition is successful, each character code is obtained (step S103; YES). Next, each character code is compared by the character comparison unit 103 (step S104), and if the character code is the same, the result is output as a font difference (step S105; YES, step S106). If the character code is not the same, the result is output as the difference between the characters (step S105; NO, step S107). If character recognition is not successful in step S103, the result is output as an unknown difference (step S103; NO, step S108). When each result is output, it is determined whether the character-recognized difference area is the last difference area (step S109), and the process returns to step S102 until the difference area becomes the last difference area, and the difference determination is repeated.

以上に説明したものは一例であり、本発明は、次の態様毎に特有の効果を奏する。
(態様A)
差異部分の各印刷文字を文字認識した結果に基づいて、差異部分の各印刷文字の差異が文字自体の違いであるのか、あるいはフォントの違いであるかを判別する差異判別手段と、該差異判別手段による判別結果を出力する判別結果出力手段とを備える。これによれば、上記実施形態について説明したように、帳票データに基づいて印刷装置から出力した帳票では、印刷装置が異なると、同じ帳票データであっても、出力された各帳票における印刷文字の文字自体あるいはフォントが変わることがある。各印刷文字の文字自体は同じであるにもかかわらず各画像では差異部分があるということは各印刷文字のフォントが違う場合が考えられる。それ以外の場合では各印刷文字の文字自体が違う場合である。各印刷文字の文字自体が互いに同じか否かを検出するために差異判別部100における文字認識部102によって各印刷文字の文字認識を行うことにより、その文字認識の結果によって文字が異なっていれば差異部分の各印刷文字の差異が文字自体の違いであり、文字が同じであれば差異部分の各印刷文字の差異がフォントの違いであることが差異判別部100における文字比較部103によって判別できる。これにより、複数の文書画像における印刷文字の差異が文字自体の違いであるのか、あるいはフォントの違いであるのかを容易に判別できる。
(態様B)
(態様A)において、差異判別手段は、印刷文字の特徴量と印刷文字に付された規定の文字コードを対応付けさせて格納されたデータベースを参照して抽出された部分内の各印刷文字の特徴量にそれぞれ対応する文字コードをそれぞれ読み出して各印刷文字を認識する文字認識手段と、読み出した各文字コードを互いに比較する文字比較手段とを有している。これによれば、上記実施形態について説明したように、差異判別部100における差異領域抽出部101によって比較対象の2つの画像の差異がある部分の差分領域を抽出する。差異がある文字領域にある2つの文字画像の文字を文字認識部102によってそれぞれ認識する。具体的には文字パターンデータベース105のデータを参照して入力された文字画像がどの文字画像に近いかを判断し対応する文字コードを得る。次に、文字比較部103によって各文字コードを比較し、同じ文字コードであればフォント違いとして判別結果を出力する。同じ文字コードでなければ文字自体の違いとして判別結果を出力する。これにより、複数の文書画像における印刷文字の差異が文字自体の違いであるのか、あるいはフォントの違いであるのかを容易に判別して印刷文字の差異を特定できる。
(態様C)
(態様A)において、文字認識手段で各印刷文字のいずれか1つでもデータベースから文字コードの読み出しができなかったときは、差異判別手段の判別結果は差異不明とする。これによれば、上記実施形態について説明したように、認識誤りのまま次の比較結果に回すことを減らすことができる。
What has been described above is merely an example, and the present invention has a specific effect for each of the following modes.
(Aspect A)
Based on the result of character recognition of each print character in the difference portion, a difference determination means for determining whether the difference between the print characters in the difference portion is a difference between the characters themselves or a font, and the difference determination Discrimination result output means for outputting a discrimination result by the means. According to this, as described in the above embodiment, in the form output from the printing apparatus based on the form data, if the printing apparatus is different, even if the form data is the same, the print character of each output form The character itself or the font may change. Even though the characters of each print character are the same, the fact that there is a difference in each image may be that the font of each print character is different. In other cases, the character of each print character is different. If characters of each print character are recognized by the character recognition unit 102 in the difference determination unit 100 in order to detect whether or not the characters of the print characters are the same as each other, if the characters are different depending on the result of the character recognition The difference between the printed characters in the difference portion is the difference between the characters themselves. If the characters are the same, it can be determined by the character comparison unit 103 in the difference determination unit 100 that the difference between the printed characters in the difference portion is a font difference. . Thereby, it can be easily determined whether the difference between the print characters in the plurality of document images is the difference between the characters themselves or the difference between the fonts.
(Aspect B)
In (Aspect A), the difference determination means is configured to determine the print character of each print character in the portion extracted by referring to the database stored by associating the characteristic amount of the print character with the specified character code attached to the print character. Character recognition means for recognizing each print character by reading out character codes respectively corresponding to the feature amounts, and character comparison means for comparing the read character codes with each other. According to this, as described in the above embodiment, the difference area extraction unit 101 in the difference determination unit 100 extracts a difference area of a portion where there is a difference between the two images to be compared. Characters of two character images in a character area having a difference are recognized by the character recognition unit 102, respectively. Specifically, referring to data in the character pattern database 105, it is determined which character image is close to the input character image, and a corresponding character code is obtained. Next, the character comparison unit 103 compares the character codes, and if the character codes are the same, the determination result is output as a font difference. If the character code is not the same, the discrimination result is output as the difference between the characters themselves. Accordingly, it is possible to easily determine whether the difference between the print characters in the plurality of document images is the difference between the characters themselves or the difference between the fonts, thereby specifying the difference between the print characters.
(Aspect C)
In (Aspect A), if any one of the printed characters cannot be read from the database by the character recognizing unit, the determination result of the difference determining unit is unknown. According to this, as described in the above embodiment, it is possible to reduce the use of the recognition result as the next comparison result with the recognition error.

100 差異判別部
101 差異領域抽出部
102 文字認識部
103 文字比較部
104 差異出力部
105 文字パターンデータベース
201 印刷物
202 印刷物
203 スキャナ
204 文書文字差異検出装置
205 出力装置
301 印刷画像取得部
302 二値化部
303 画像補正部
304 差異表示画像作成部
305 差異表示画像出力部
401〜403 画像
404〜407 差異部分
DESCRIPTION OF SYMBOLS 100 Difference discrimination | determination part 101 Difference area extraction part 102 Character recognition part 103 Character comparison part 104 Difference output part 105 Character pattern database 201 Printed matter 202 Printed matter 203 Scanner 204 Document character difference detection apparatus 205 Output device 301 Print image acquisition part 302 Binarization part 303 Image correction unit 304 Difference display image creation unit 305 Difference display image output unit 401 to 403 Image 404 to 407 Difference portion

特開2007−293809号公報JP 2007-293809 A

Claims (3)

印刷文字データを含む同じ帳票データに基づいて異なる複数の印刷装置によって出力した複数の帳票を光学的に読み取って各デジタル文書画像データを取得する文書画像取得手段と、各デジタル文書画像データをそれぞれ二値化する二値化手段と、二値化された各画像データに互いの位置合わせ及びサイズ合わせを行う補正を施す補正手段と、補正後の各画像データの画素同士を比較する比較手段と、比較結果により画素の差分がある部分を各画像データの差異部分とし、当該差分部分内に含まれている印刷文字を特定するように表示する差異表示画像を作成する差異表示画像作成手段と、作成された差異表示画像を出力する差異表示画像出力手段とを備える文書文字差異検出装置において、
前記差異部分の各印刷文字を文字認識した結果に基づいて、前記差異部分の各印刷文字の差異が文字自体の違いであるのか、あるいはフォントの違いであるかを判別する差異判別手段と、
該差異判別手段による判別結果を出力する判別結果出力手段と
を備えることを特徴とする文書文字差異検出装置。
Document image acquisition means for optically reading a plurality of forms output by a plurality of different printing devices based on the same form data including print character data and acquiring each digital document image data, and each digital document image data Binarization means for binarization, correction means for correcting each of the binarized image data for alignment and size adjustment, comparison means for comparing the pixels of each image data after correction, A difference display image creating means for creating a difference display image for displaying a portion having a pixel difference based on a comparison result as a difference portion of each image data and specifying a print character included in the difference portion, and creation In a document character difference detection device comprising difference display image output means for outputting a difference display image that has been
Based on the result of character recognition of each printed character of the difference portion, a difference determining means for determining whether the difference between the printed characters of the difference portion is a difference between the characters themselves or a difference between fonts;
A document character difference detection apparatus comprising: a discrimination result output means for outputting a discrimination result by the difference discrimination means.
請求項1記載の文書文字差異検出装置において、
前記差異判別手段は、印刷文字の特徴量と印刷文字に付された規定の文字コードを対応付けさせて格納されたデータベースを参照して抽出された部分内の各印刷文字の特徴量にそれぞれ対応する文字コードをそれぞれ読み出して各印刷文字を認識する文字認識手段と、読み出した各文字コードを互いに比較する文字比較手段とを有し、前記文字認識手段によって読み出した各印刷文字の各文字コードを前記文字比較手段によって互いに比較し各文字コードが同じであれば各印刷文字の差異がフォントの違いであると判別し、各文字コードが同じでなければ各印刷文字の差異が文字自体の違いであると判別し、各判別結果を前記判別結果出力手段によって出力することを特徴とする文書文字差異検出装置。
The document character difference detecting apparatus according to claim 1,
The difference discriminating unit corresponds to the feature amount of each print character in the part extracted by referring to the database stored by associating the feature amount of the print character with the specified character code attached to the print character. Character recognition means for recognizing each print character by reading the character code to be read, and character comparison means for comparing each read character code with each other, and each character code of each print character read by the character recognition means is If each character code is the same by the character comparison means and the character code is the same, it is determined that the difference between the print characters is a difference in the font. If the character code is not the same, the difference between the print characters is a difference in the character itself. A document character difference detection apparatus, characterized in that it is determined that there is one and each determination result is output by the determination result output means.
請求項2記載の文書文字差異検出装置において、
前記文字認識手段で各印刷文字のいずれか1つでも前記データベースから文字コードの読み出しができなかったときは、前記差異判別手段による判別結果は差異不明とすることを特徴とする文書文字差異検出装置。
In the document character difference detection device according to claim 2,
A document character difference detection apparatus characterized in that, when any one of the printed characters cannot be read from the database by the character recognition means, the determination result by the difference determination means is unclear. .
JP2011231472A 2011-10-21 2011-10-21 Document character difference detection device Pending JP2013090262A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011231472A JP2013090262A (en) 2011-10-21 2011-10-21 Document character difference detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011231472A JP2013090262A (en) 2011-10-21 2011-10-21 Document character difference detection device

Publications (1)

Publication Number Publication Date
JP2013090262A true JP2013090262A (en) 2013-05-13

Family

ID=48533732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011231472A Pending JP2013090262A (en) 2011-10-21 2011-10-21 Document character difference detection device

Country Status (1)

Country Link
JP (1) JP2013090262A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207903A (en) * 2014-04-21 2015-11-19 富士ゼロックス株式会社 Image processing apparatus, image forming apparatus, and program
KR20220005965A (en) 2019-05-17 2022-01-14 가부시키가이샤 히타치 시스테무즈 Character matching system, character matching device, character matching checking method and character matching checking program
KR20220006446A (en) 2019-05-17 2022-01-17 가부시키가이샤 히타치 시스테무즈 Character matching system, character matching device, character matching checking method and character matching checking program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207903A (en) * 2014-04-21 2015-11-19 富士ゼロックス株式会社 Image processing apparatus, image forming apparatus, and program
KR20220005965A (en) 2019-05-17 2022-01-14 가부시키가이샤 히타치 시스테무즈 Character matching system, character matching device, character matching checking method and character matching checking program
KR20220006446A (en) 2019-05-17 2022-01-17 가부시키가이샤 히타치 시스테무즈 Character matching system, character matching device, character matching checking method and character matching checking program

Similar Documents

Publication Publication Date Title
US8619278B2 (en) Printed matter examination apparatus, printed matter examination method, and printed matter examination system
KR101783337B1 (en) Methods and apparatus to extract text from imaged documents
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
JP5559619B2 (en) A method for detecting changes in printed documents using image comparison analysis
US20050271275A1 (en) Text character identification system and method thereof
US8027539B2 (en) Method and apparatus for determining an orientation of a document including Korean characters
JP5830338B2 (en) Form recognition method and form recognition apparatus
US8712166B2 (en) Difference detecting apparatus, difference output apparatus, and medium
JP2013090262A (en) Document character difference detection device
US11430235B2 (en) Image processing apparatus, image processing method, and storage medium
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
US9215344B2 (en) Image forming apparatus, image processing apparatus, image forming method, image processing method, and non-transitory computer readable medium
WO2002003240A1 (en) Proofreading system of chinese characters by means of one-to-one comparison
JP6852359B2 (en) Image processing equipment and programs
JP5381225B2 (en) Information processing apparatus and program
US8125691B2 (en) Information processing apparatus and method, computer program and computer-readable recording medium for embedding watermark information
JP2013152523A (en) Document character difference detection device
JP7532124B2 (en) Information processing device, information processing method, and program
JP5146199B2 (en) Difference extraction apparatus and difference extraction program
JP2024107598A (en) Information processing system, method and program
JP2024107599A (en) Information processing system, method and program
JP2021128444A (en) Information processing device and program
JP2005175565A (en) Image processing apparatus
JP2008124975A (en) Image data creating apparatus, image output device, and program
JP2017142606A (en) Form design and read setting assist device, form design and read setting assist method, and optical character recognition system