JP2006092345A - Equipment, method, and program for character recognition - Google Patents

Equipment, method, and program for character recognition Download PDF

Info

Publication number
JP2006092345A
JP2006092345A JP2004278132A JP2004278132A JP2006092345A JP 2006092345 A JP2006092345 A JP 2006092345A JP 2004278132 A JP2004278132 A JP 2004278132A JP 2004278132 A JP2004278132 A JP 2004278132A JP 2006092345 A JP2006092345 A JP 2006092345A
Authority
JP
Japan
Prior art keywords
character
handwritten
characters
unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004278132A
Other languages
Japanese (ja)
Inventor
Toshiya Koyama
俊哉 小山
Teruka Saito
照花 斎藤
Shoichi Tateno
昌一 舘野
Kei Tanaka
圭 田中
Masayoshi Sakakibara
正義 榊原
Kotaro Nakamura
浩太郎 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004278132A priority Critical patent/JP2006092345A/en
Publication of JP2006092345A publication Critical patent/JP2006092345A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide equipment, a method, and a program for character recognition which can improve a recognition rate of hand-written letters in documents in which printed characters and hand-written characters mixedly exist. <P>SOLUTION: After an image input part 11 creates an input image of a document in which printed characters and hand-written characters mixedly exist, a binarization part 12 binarizes the input image. A character cut-out part 15 performs a cut-out to the binarized data, character by character, and a characteristic amount calculation part 16 calculates two or more different characteristic amounts for each character. A recognition rate of hand-written characters can be improved thanks to a printed, hand-written characters separation part 19 separating printed characters and hand-written characters using the obtained characteristic amount. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文書の文字認識装置、文字認識方法および文字認識プログラムに関し、特に、活字と手書き文字が混在した文書における手書き文字の認識率を高めることが可能な文字認識装置、文字認識方法および文字認識プログラムに関する。   The present invention relates to a character recognition device, a character recognition method, and a character recognition program for a document, and in particular, a character recognition device, a character recognition method, and a character capable of increasing the recognition rate of handwritten characters in a document in which type characters and handwritten characters are mixed. It relates to recognition programs.

近年、Eメールなど電子による文書の流通が増加しているが、その一方で、紙として出力される文書も多く存在する。これは、紙面への手書きによる追記が容易であるということが、理由の一つになっている。例えば、パーソナルコンピュータ(PC)などで作成した草案原稿に対する追加修正や、会議などで配布した文書に対する追記を手書きで行うことは、しばしば発生する。さらに、手書き文字が追記された文書をスキャナなどでスキャンし、OCR(Optical Character Reader:光学的文字認識)ソフトを用いて文字認識を行い、この手書き文字の認識結果を含む文書の再構成に利用するといったニーズもある。   In recent years, the distribution of electronic documents such as e-mail has increased. On the other hand, there are many documents output as paper. One of the reasons for this is that it is easy to add by handwriting on paper. For example, it is often the case that additional correction to a draft manuscript created by a personal computer (PC) or the like, or additional writing to a document distributed at a meeting or the like is performed by handwriting. Furthermore, a document with handwritten characters added is scanned with a scanner, etc., and character recognition is performed using OCR (Optical Character Reader) software, which is used to reconstruct a document that includes the recognition results of these handwritten characters. There is also a need to do.

しかし、手書きで記述した文字情報は、従来、マス目指定、数字のみ等の条件を厳しく制限しなければ、実用的な認識率が得られず、オンライン/オフライン情報変換の妨げとなっていた。そこで、活字/手書き文字両方の認識精度を向上させるため、活字部と手書き部を分離し、それぞれに対応するOCRを実行することが行われている。   However, for character information written by hand, a practical recognition rate cannot be obtained unless conditions such as grid designation and numbers are strictly limited, which has hindered online / offline information conversion. Therefore, in order to improve the recognition accuracy of both type / handwritten characters, the type part and the handwritten part are separated and OCR corresponding to each is executed.

活字部と手書き部を分離して文字認識を行う従来技術として、読み取りデータからフィールド(文字列)単位で文字データを切り出しフィールドバッファに格納するとともに、文字データの文字種を文字種判定部で判定し、この判定結果に基づいて認識部により、手書き辞書または活字辞書を参照してフィールドバッファ内の文字データの認識を行う光学的文字読取装置が知られている(例えば、特許文献1参照。)。   As a conventional technique for performing character recognition by separating a type part and a handwritten part, character data is cut out from read data in a field (character string) unit and stored in a field buffer, and a character type of the character data is determined by a character type determination unit. An optical character reader that recognizes character data in a field buffer by referring to a handwritten dictionary or a print dictionary based on the determination result is known (for example, see Patent Document 1).

また、印刷文字認識手段と手書き文字認識手段を備え、これらにより文字データのOCRを個別に行い、確度(確からしさ)の高い方を採用する光学式文字読み取り装置も知られている(例えば、特許文献2参照。)。   There is also known an optical character reader that includes a printed character recognition unit and a handwritten character recognition unit, which individually perform OCR of character data and adopts the one with higher accuracy (probability) (for example, patents). Reference 2).

また、2値化された文字情報の周囲に、それぞれ1ドット分の白画素を追加して白枠付パターンを形成し、この白枠付パターンに、2×2ドットの4画素からなり、白画素と黒画素の異なる組み合わせよりなる16種の2×2パターンをそれぞれ対応させ、白枠付パターンの2×2パターンごとの発生頻度を計数し、各2×2パターンの非直線成分と直線成分との比率より文字種を判別し、常に、文字種に適した辞書を用いて認識が行えるようにした文字種判別装置も知られている(例えば、特許文献3参照。)   In addition, a white frame for each dot is added around the binarized character information to form a white framed pattern, and this white framed pattern is composed of 4 pixels of 2 × 2 dots. 16 types of 2 × 2 patterns consisting of different combinations of pixels and black pixels are made to correspond to each other, and the frequency of occurrence of each 2 × 2 pattern of white framed patterns is counted, and the non-linear component and linear component of each 2 × 2 pattern There is also known a character type discriminating apparatus that discriminates the character type from the ratio of the above and always allows recognition using a dictionary suitable for the character type (see, for example, Patent Document 3).

また、文字切り出しを行う前段階の文字行の状態で手書き文字・活字文字の判別を行い、文字種判別後に文字毎の画像切り出しを行うとともに、縦書き・横書きの区別で、文字認識の方法を変更し、文字切り出しの誤りを無視することができ、高速かつ高精度に手書き文字・活字文字の判別を行えるようにした宛名文字認識方法も知られている(例えば、特許文献4参照。)。
特開平5−189604号公報([0008]〜[0011]、図1) 特開平7−37034号公報([0019]〜[0038]、図1〜図3) 特開平7−93466号公報([0036]〜[0053]、図4) 特開平9−212579号公報([0006]〜[0008]、図1)
In addition, handwritten and typed characters are distinguished in the state of the character line before character extraction, and after character type identification, image extraction is performed for each character, and the character recognition method is changed by distinguishing between vertical writing and horizontal writing. In addition, there is also known an addressed character recognition method that can ignore errors in character segmentation and can distinguish between handwritten characters and printed characters at high speed and with high accuracy (see, for example, Patent Document 4).
Japanese Unexamined Patent Publication No. 5-189604 ([0008] to [0011], FIG. 1) JP 7-37034 A ([0019] to [0038], FIGS. 1 to 3) JP-A-7-93466 ([0036] to [0053], FIG. 4) JP-A-9-212579 ([0006] to [0008], FIG. 1)

しかし、従来の文字認識装置によると、特許文献1の場合、フォントの種類や人の書き癖によっては、判定閾値にばらつきが生じ、手書き文字の認識率が低下する。また、特許文献2によると、2種類の文字認識を行うため、処理に時間がかかる。さらに、特許文献3,4によると、フォントの種類によっては、活字/手書き文字の直線比率が大きく変動するため、手書き文字の認識率が低下する。   However, according to the conventional character recognition device, in the case of Patent Document 1, the determination threshold value varies depending on the type of font or the writing of a person, and the recognition rate of handwritten characters decreases. Further, according to Patent Document 2, since two types of character recognition are performed, the processing takes time. Furthermore, according to Patent Documents 3 and 4, depending on the type of font, the straight line ratio of type / handwritten characters varies greatly, so the recognition rate of handwritten characters decreases.

従って、本発明の目的は、活字と手書き文字が混在した文書における手書き文字の認識率を高めることが可能な文字認識装置、文字認識方法および文字認識プログラムを提供することにある。   Accordingly, an object of the present invention is to provide a character recognition device, a character recognition method, and a character recognition program capable of increasing the recognition rate of handwritten characters in a document in which printed characters and handwritten characters are mixed.

本発明は、上記目的を達成するため、活字と手書き文字が混在した文書の入力画像に対し、1文字単位で文字の切り出しを行う文字切り出し部と、切り出された文字について1文字単位の特徴量を算出する特徴量算出部と、算出された前記1文字単位の特徴量を前記入力画像の所定の範囲に渡って集計する特徴量集計部と、前記特徴量集計部による集計結果に基づいて活字と手書き文字とを分離するための分離係数を算出する分離係数算出部と、算出された前記分離係数に基づいて前記入力画像に係る文字を前記活字と前記手書文字に分離する活字手書文字分離部とを備えたことを特徴とする文字認識装置を提供する。   In order to achieve the above object, the present invention provides a character cutout unit that cuts out characters on a character-by-character basis for an input image of a document in which printed characters and handwritten characters are mixed, and a feature amount in units of one character for the cut-out characters A feature amount calculation unit that calculates the feature amount, a feature amount aggregation unit that aggregates the calculated feature amount of each character unit over a predetermined range of the input image, and a type based on the aggregation result by the feature amount aggregation unit A separation coefficient calculation unit for calculating a separation coefficient for separating a handwritten character and a handwritten character that separates a character related to the input image into the type and the handwritten character based on the calculated separation coefficient There is provided a character recognition device including a separation unit.

1文字単位の特徴量を所定の範囲に渡って集計することにより、当該入力画像に係る文字を活字と手書き文字に分離するための分離係数を得ることができる。   By summing up the feature amount of one character unit over a predetermined range, it is possible to obtain a separation coefficient for separating a character related to the input image into a printed character and a handwritten character.

上記特徴量算出部は、少なくとも文字の濃度の均一性および文字線分の直線性について特徴量を算出する構成としてもよい。文字の濃度の均一性および文字線分の直線性の特徴量は、活字と手書き文字で大きくことなることから、これらの特徴量を用いることで精度の高い分離係数を得ることができる。   The feature amount calculation unit may be configured to calculate feature amounts for at least uniformity of character density and linearity of character line segments. Since the character density uniformity and the linearity feature amount of the character line segment are large for printed characters and handwritten characters, a high-accuracy separation coefficient can be obtained by using these feature amounts.

また、上記特徴量算出部は、文字の大きさや高さ、幅の均一性、文字の濃度の均一性、濃度ヒストグラム、文字線分の直線性、文字線幅の均一性、および文字の傾きのうちの複数少なくとも1つについて前記特徴量を算出する構成としてもよい。多くの特徴量を用いることで精度の高い分離係数を得ることができる。   Further, the feature amount calculation unit calculates the character size, height, width uniformity, character density uniformity, density histogram, character line segment linearity, character line width uniformity, and character inclination. The feature amount may be calculated for at least one of the plurality. By using many feature amounts, a highly accurate separation coefficient can be obtained.

上記特徴量集計部は、入力画像全体について1文字単位の特徴量を集計してもよい。サンプル数を多くすることにより精度の高い分離係数を得ることができる。   The feature amount totaling unit may total feature amounts in units of one character for the entire input image. By increasing the number of samples, a highly accurate separation factor can be obtained.

上記活字手書文字分離部は、入力画像に係る文字を活字と手書き文字に分離した後、分離した各文字の周囲の分離結果を用いて活字/手書き文字の再判定を行うことが好ましい。この場合、その再判定を、文章の章または段落ごとに行ってもよい。   The type handwritten character separation unit preferably separates the character relating to the input image into a type and a handwritten character, and then re-determines the type / handwritten character using a separation result around each separated character. In this case, the re-determination may be performed for each chapter or paragraph of the sentence.

上記活字手書文字分離部は、入力画像または入力画像を2値化した画像に対して活字と手書き文字の分離を行ってもよい。   The type handwritten character separating unit may separate the typed characters and the handwritten characters from the input image or an image obtained by binarizing the input image.

上記特徴量算出部は、1文字単位の複数種の特徴量を算出し、上記分離係数算出部は、分離係数として複数種の特徴量についてそれぞれ活字らしいあるいは手書き文字らしいという複数の中間的評価を含み、上記活字手書文字分離部は、複数の中間的評価に基づいて活字と手書き文字の分離を行うようにしてもよい。これにより、閾値によって明確に活字か手書き文字かを分離できない場合でも、分離が可能となる。例えば、複数種の特徴量の集計結果から手書き文字らしいという中間的評価が複数現れた場合は、手書き文字と決定することができる。   The feature amount calculation unit calculates a plurality of types of feature amounts in units of one character, and the separation coefficient calculation unit performs a plurality of intermediate evaluations on the plurality of types of feature amounts as a separation coefficient, each of which seems to be a type or a handwritten character. In addition, the printed handwritten character separating unit may separate the printed characters from the handwritten characters based on a plurality of intermediate evaluations. As a result, even if it is not possible to clearly separate the printed characters or the handwritten characters according to the threshold, the separation is possible. For example, when a plurality of intermediate evaluations that are likely to be handwritten characters appear from the result of counting a plurality of types of feature amounts, it can be determined as a handwritten character.

本発明は、上記目的を達成するため、活字と手書き文字が混在した文書の入力画像に対し、1文字単位で文字の切り出しを行い、切り出された文字について1文字単位の特徴量を算出し、算出された前記1文字単位の特徴量を前記入力画像の所定の範囲に渡って集計し、前記1文字単位の特徴量の集計結果に基づいて活字と手書き文字とを分離するための分離係数を算出し、算出された前記分離係数に基づいて前記入力画像に係る文字を前記活字と前記手書文字に分離することを特徴とする文字認識方法を提供する。   In order to achieve the above object, the present invention cuts out characters in units of one character from an input image of a document in which type letters and handwritten characters are mixed, calculates a feature amount in units of one character for the cut out characters, Separation coefficients for separating the calculated feature values in units of one character over a predetermined range of the input image and separating the printed characters from the handwritten characters based on the total results of the feature amounts in units of one character. A character recognition method is provided that calculates and separates a character related to the input image into the printed character and the handwritten character based on the calculated separation coefficient.

本発明は、上記目的を達成するため、活字と手書き文字が混在した文書の入力画像に対し、1文字単位で文字の切り出しを行う文字切り出し手段と、切り出された文字について1文字単位の特徴量を算出する特徴量算出手段と、算出された前記1文字単位の特徴量を前記入力画像の所定の範囲に渡って集計する特徴量集計手段と、前記特徴量集計手段による集計結果に基づいて活字と手書き文字とを分離するための分離係数を算出する分離係数算出手段と、算出された前記分離係数に基づいて前記入力画像に係る文字を前記活字と前記手書文字に分離する活字手書文字分離手段とをコンピュータに実行させるための文字認識プログラムを提供する。   In order to achieve the above object, the present invention provides a character cutout means for cutting out characters in units of characters from an input image of a document in which printed characters and handwritten characters are mixed, and a feature amount in units of characters for the cut out characters. Based on the result of counting by the feature amount calculating means, the feature amount calculating means for calculating the calculated feature amount for each character over a predetermined range of the input image, A separation coefficient calculation means for calculating a separation coefficient for separating a handwritten character from a handwritten character, and a typed handwritten character that separates a character related to the input image into the type letter and the handwritten character based on the calculated separation coefficient There is provided a character recognition program for causing a computer to execute the separating means.

本発明によれば、活字と手書き文字が混在した文書における手書き文字の認識率を向上させることができる。   ADVANTAGE OF THE INVENTION According to this invention, the recognition rate of the handwritten character in the document in which the type | mold and the handwritten character were mixed can be improved.

(文字認識装置の構成)
図1は、本発明の実施の形態に係る文字認識装置を示す。原稿等の文書を読み取る画像入力部11と、画像入力部11による画像データを2値化する2値化部12と、2値化出力を連続する画素群の単位にまとめるラベリング部13と、ラベリング部13の結果に対して1文字を特定するラベル削除統合部14と、ラベル削除統合部14による結果から1文字単位で文字の切り出しを行う文字切り出し部15と、切り出した文字の特徴量を1文字単位で算出する特徴量算出部16と、特徴量を画像全体で集計する特徴量集計部17と、特徴量集計結果から活字/手書き文字の分離係数を算出する分離係数算出部18と、分離係数算出部18の算出結果に基づいて画像入力部11から入力された原稿画像または2値化以後の画像を活字部と手書き部に分離する活字手書文字分離部19と、分離された活字部に対してOCR処理を実行する活字認識部20と、分離された手書き部に対してOCR処理を実行する手書き認識部21と、活字認識部20の認識処理に用いられる活字辞書22と、手書き認識部21の認識処理に用いられる手書き辞書23と、活字認識部20の認識結果と手書き認識部21の認識結果を1つのファイルや、1枚の画像に合成する合成部24とを有する。
(Configuration of character recognition device)
FIG. 1 shows a character recognition apparatus according to an embodiment of the present invention. An image input unit 11 that reads a document such as a document, a binarization unit 12 that binarizes image data from the image input unit 11, a labeling unit 13 that collects binarized outputs in units of continuous pixel groups, and a labeling A label deletion integration unit 14 that identifies one character with respect to the result of the unit 13, a character extraction unit 15 that extracts characters in units of one character from the result of the label deletion integration unit 14, and a feature amount of the extracted character of 1 A feature amount calculating unit 16 that calculates character units, a feature amount totaling unit 17 that totals feature amounts over the entire image, a separation coefficient calculating unit 18 that calculates a separation factor of type / handwritten characters from the feature amount totaling results, and a separation Based on the calculation result of the coefficient calculation unit 18, the original handwritten character separation unit 19 that separates the original image input from the image input unit 11 or the binarized image into a type part and a handwriting part, and a separated type letter Type recognition unit 20 that performs OCR processing on the part, handwriting recognition unit 21 that performs OCR processing on the separated handwriting unit, type dictionary 22 used for recognition processing of the type recognition unit 20, and handwriting It has the handwriting dictionary 23 used for the recognition process of the recognition part 21, and the synthetic | combination part 24 which synthesize | combines the recognition result of the type recognition part 20, and the recognition result of the handwriting recognition part 21 to one file or one image.

画像入力部11は、原稿が載置される透明のプラテンガラスからなる原稿台と、原稿台に載置された原稿から画像を光学的に読み取るCCD(Charge Coupled Device)等の固体撮像素子とを備える。   The image input unit 11 includes an original platen made of transparent platen glass on which an original is placed, and a solid-state image sensor such as a CCD (Charge Coupled Device) that optically reads an image from the original placed on the original platen. Prepare.

2値化部12は、画像入力部11から出力される画像データを、例えば、濃度に対して設定された閾値を用いて2値化する機能を有する。   The binarization unit 12 has a function of binarizing the image data output from the image input unit 11 using, for example, a threshold set for the density.

ラベリング部13は、1文字単位の切り出しを容易にするため、2値化出力を連続する画素群単位にまとめて番号付けをするラベリングを行う機能を有する。   The labeling unit 13 has a function of performing labeling that numbers the binarized outputs in units of continuous pixel groups in order to facilitate the extraction of character units.

また、ラベル削除統合部14は、偏(へん)、つくり等を考慮し、どれとどれが1組の文字を形成しているかを判断する機能を有し、また、文字の切り出しが正確に行えるようにするため、文字から離れているブロックをゴミと見なして除去する処理を行う機能も有する。   In addition, the label deletion integration unit 14 has a function of determining which one forms a set of characters in consideration of unevenness, creation, and the like, and can accurately cut out characters. Therefore, it also has a function of performing a process of removing blocks that are separated from characters as dust.

特徴量算出部16は、次の要素について特徴量を算出する。
(1)切り出された文字の幅や高さによる大きさ。活字の場合、高さや幅はポイント数を変えない限り概ね一定であるのに対し、手書き文字はバラバラになることから、特徴量の1つになる。
(2)画素値のばらつき(ヒストグラム)。活字では概ね一定になるのに対し、手書き文字ではばらつきが生じるので、特徴量の1つになる。
(3)線分の直線性。手書き文字は、水平や垂直の線が書き癖により直線にならない場合が多いため、特徴量の1つになる。
(4)線幅。活字は、フォントが同じであれば線幅がほぼ一定であるのに対し、手書き文字は筆圧等によって様々になるため、特徴量の1つになる。
(5)文字の傾き。活字は、斜体文字等では傾きをもつが、傾きが一定であるのに対し、手書き文字は書いた人の癖により傾きが生じ易く、かつ傾きが様々になり易いため、これも特徴量の1つになる。
The feature amount calculation unit 16 calculates feature amounts for the following elements.
(1) The size according to the width and height of the extracted character. In the case of type characters, the height and width are generally constant unless the number of points is changed, whereas handwritten characters are scattered, and thus become one of the feature values.
(2) Pixel value variation (histogram). This is one of the feature quantities because it is generally constant for printed characters, but varies for handwritten characters.
(3) Linearity of line segment. A handwritten character is one of the feature quantities because a horizontal or vertical line often does not become a straight line due to writing.
(4) Line width. A type character is one of features because the line width is almost constant if the font is the same, whereas handwritten characters vary depending on the writing pressure or the like.
(5) Character inclination. The typeface has an inclination in italic characters and the like, but the inclination is constant. On the other hand, the handwritten character tends to be inclined due to the wrinkle of the person who wrote it, and the inclination tends to vary. Become one.

特徴量集計部17は、特徴量算出部16で取得した特徴量を画像全体で集計する機能を有する。なお、予めレイアウト解析を実施しておき、文章単位等の所定の単位で集計する構成であってもよい。   The feature amount totaling unit 17 has a function of totaling the feature amounts acquired by the feature amount calculating unit 16 over the entire image. In addition, a configuration in which layout analysis is performed in advance and tabulated in a predetermined unit such as a sentence unit may be used.

分離係数算出部18は、特徴量集計部17で集計した特徴量に対し、それが活字であるか手書き文字であるかを判定するための分離係数を算出する機能を有する。   The separation coefficient calculation unit 18 has a function of calculating a separation coefficient for determining whether the feature amount aggregated by the feature amount aggregation unit 17 is a type or a handwritten character.

(分離係数算出の原理)
図2は、分離係数算出部18における分離係数算出の原理を示す。ここでは、特徴量のうち、線幅について説明する。一般に、文書や本に用いられている活字の大きさは、10.5〜12ポイントの明朝体であり、線幅は比較的細い。これに対し、手書き文字は、字が大きくなりやすいとともに、通常用いるボールペンやシャープペンシルの太さは0.5ミリ以上であるため、活字と手書き文字の線幅は明瞭に異なる場合が多い。従って、画像全体について両者を集計すれば、図2(a)に示すように、2つのピークを持った特性になる。しかし、活字と手書き文字の線幅が近似していると、図2(b)に示すように、1つの緩やかな山を持ち、活字と手書き文字の区別がつかない特性になる。そこで、特徴量の評価には、図2(a)に示すような特性を有する特徴量を採用し、図2(b)に示すような特性を有する特徴量は採用しない。
(Principle of separation factor calculation)
FIG. 2 shows the principle of the separation coefficient calculation in the separation coefficient calculation unit 18. Here, the line width among the feature amounts will be described. In general, the size of characters used in documents and books is Mincho in the range of 10.5 to 12 points, and the line width is relatively thin. On the other hand, handwritten characters tend to be large, and since the thickness of normally used ballpoint pens and mechanical pencils is 0.5 mm or more, the line widths of printed characters and handwritten characters often clearly differ. Therefore, if both are totaled for the entire image, the characteristic has two peaks as shown in FIG. However, when the line widths of the printed characters and the handwritten characters are approximated, as shown in FIG. 2B, there is a characteristic that there is one gentle mountain and the printed characters and the handwritten characters cannot be distinguished. Therefore, for the evaluation of the feature quantity, a feature quantity having characteristics as shown in FIG. 2A is adopted, and a feature quantity having characteristics as shown in FIG. 2B is not adopted.

また、図2(a)において、ピーク間の谷部分(グレーゾーン)の幅sを数値化し、活字側と手書き文字側の境界を活字らしいか手書き文字らしいかをファジィに判定することにより、特徴量では判定できないグレーゾーンにあるものを、活字か手書き文字かを決定することができる。このように、グレーゾーンを閾値によらず数値化していることから、ここでは分離係数と称している。なお、線幅以外の他の特徴量も、線幅と同様にして求めることができる。例えば、それぞれの特徴量の集計結果がそれぞれグレーゾーンに存在するが、いずれの特徴量も活字らいいという結果が得られれば、活字と決定することができる。   Further, in FIG. 2A, the width s of the valley portion (gray zone) between the peaks is digitized, and the boundary between the printed character side and the handwritten character side is fuzzy to determine whether it is a printed character or a handwritten character. It is possible to determine whether the characters in the gray zone that cannot be determined by the quantity are printed or handwritten. Thus, since the gray zone is quantified regardless of the threshold value, it is referred to as a separation coefficient here. Note that other feature quantities other than the line width can be obtained in the same manner as the line width. For example, although the total result of each feature amount exists in the gray zone, if a result that any feature amount is good is obtained, it can be determined as a type.

活字手書文字分離部19は、画像入力部11、ラベル削除統合部14、あるいは図示はしていないが2値化部12やラベリング部13のいずれかからの画像を、特徴量算出部16によって算出された特徴量および分離係数算出部18によって算出された分離係数に基づいて活字部と手書き部とに分離する機能を有する。   The printed handwritten character separation unit 19 uses the feature amount calculation unit 16 to generate an image from the image input unit 11, the label deletion integration unit 14, or the binarization unit 12 or the labeling unit 13 (not shown). Based on the calculated feature amount and the separation coefficient calculated by the separation coefficient calculation unit 18, the type part and the handwriting part are separated.

活字認識部20は、切り出された活字の文字パターンと活字辞書22に登録されている活字パターンとを、例えば、パターンマッチング法により比較し、類似度の最も高いものを活字の認識結果(文字コード)として出力するものである。   The type recognition unit 20 compares the extracted type character pattern and the type pattern registered in the type dictionary 22 by, for example, a pattern matching method, and determines the type having the highest similarity as a result of the type recognition (character code). ).

手書き認識部21は、切り出された手書き文字の文字パターンと手書き辞書23に登録されている手書き文字パターンとを、例えば、パターンマッチング法により比較し、類似度の最も高いものを活字の認識結果(文字コード)として出力するものである。   The handwriting recognition unit 21 compares the extracted handwritten character pattern and the handwritten character pattern registered in the handwriting dictionary 23 by, for example, a pattern matching method, and recognizes the type with the highest similarity as a result of recognition of the type ( Character code).

活字辞書22と手書き辞書23は、例えば、ハードディスク等の記憶媒体に格納した電子辞書を用いることができる。   As the type dictionary 22 and the handwriting dictionary 23, for example, an electronic dictionary stored in a storage medium such as a hard disk can be used.

合成部24は、活字認識部20の認識結果と、手書き認識部21の認識結果を、例えば1つのファイルや、1つの画像に合成する。   The synthesizing unit 24 synthesizes the recognition result of the type recognition unit 20 and the recognition result of the handwriting recognition unit 21 into, for example, one file or one image.

(文字認識装置の動作)
図3は、図1の各部における処理を模式的に示し、図4は原稿の部分拡大図、および分離して得られた活字画像と手書き画像を示す。図1〜図4を参照して、以下に文字認識装置1の動作を説明する。
(Operation of character recognition device)
FIG. 3 schematically shows processing in each part of FIG. 1, and FIG. 4 shows a partially enlarged view of a document, and a printed image and a handwritten image obtained by separation. The operation of the character recognition device 1 will be described below with reference to FIGS.

画像入力部11によって活字による文書中に手書き文字が記入れた原稿が読み取られる。ここで、原稿の内容がカラー画像かグレー画像かに応じて、色変換処理が実施される。カラー画像の場合、R,G,Bをグレーに変換する処理を実施し、後工程での処理に時間がとられないようにする。R,G,Bをグレーに変換するに際しては、次のいずれかを採用する。   The image input unit 11 reads a manuscript in which handwritten characters are written in a printed document. Here, color conversion processing is performed depending on whether the content of the document is a color image or a gray image. In the case of a color image, processing for converting R, G, and B into gray is performed so that time is not required for processing in a later process. When converting R, G, and B into gray, one of the following is employed.

(a)上記グレーの値をカラー画像のGの値にする。
(b)グレーの値=0.30r+0.59g+0.11bにする。ここで、r,g,bはそれぞれカラー画像のR,G,Bの値である。
(c)グレーの値=α×r+β×g+γ×bにする。ここで、α,β,γは係数であり、このα,β,γは色判定に伴う判定色に応じて変化させる。
(A) The gray value is set to the G value of the color image.
(B) Gray value = 0.30r + 0.59g + 0.11b. Here, r, g, and b are the R, G, and B values of the color image, respectively.
(C) Gray value = α × r + β × g + γ × b. Here, α, β, and γ are coefficients, and α, β, and γ are changed according to the determination color associated with the color determination.

次に、2値化部12によって2値化が行われる。この2値化処理には、例えば、以下の方法を用いる。
(i)固定閾値2値化処理:所定閾値で2値化する。
(ii)動的閾値2値化処理:周囲画素平均値で2値化する。
Next, binarization is performed by the binarization unit 12. For example, the following method is used for the binarization process.
(I) Fixed threshold binarization process: binarization with a predetermined threshold.
(Ii) Dynamic threshold binarization processing: binarization is performed using an average value of surrounding pixels.

次に、ラベリング部13によってラベリング処理を実施する。ここでは、2値化部12によって2値化された画像に対し、文字などの前景に相当する画素値をもつ連続画素群ごとにラベル付けをする。   Next, a labeling process is performed by the labeling unit 13. Here, the image binarized by the binarization unit 12 is labeled for each continuous pixel group having pixel values corresponding to the foreground such as characters.

次に、ラベル削除統合部14によって、ラベルの削除や統合がおこなわれる。ここでは、ノイズに相当するラベルの除去、複数ラベルに分割された同一文字のラベルの統合等が行われる。   Next, the label deletion / integration unit 14 deletes and integrates the labels. Here, removal of a label corresponding to noise, integration of labels of the same character divided into a plurality of labels, and the like are performed.

次に、文字切り出し部15により、文字以外の領域、例えば、図/写真等を除外して、図3(a)のように、1文字単位で文字の切り出しを行う。ここでは、原稿画像30の中の活字31と手書き文字32が、ラベル33によってラベリングされている。   Next, the character cutout unit 15 cuts out characters in units of one character, as shown in FIG. 3A, excluding regions other than characters, for example, figures / photos. Here, the printed characters 31 and the handwritten characters 32 in the document image 30 are labeled with a label 33.

次に、特徴量算出部16によって、文字の大きさ(幅、高さ)、画素値のばらつき(ヒストグラム)、線分の直線性、線幅、および文字の傾きについて1文字単位で特徴量が算出される。   Next, the feature amount calculation unit 16 calculates the feature amount in character units for character size (width, height), pixel value variation (histogram), line segment linearity, line width, and character inclination. Calculated.

次に、特徴量集計部17は、レイアウト解析結果により判定された文章の章や段落ごとに、あるいは画像全体で、1文字単位の特徴量を画像全体で集計する。   Next, the feature amount totaling unit 17 totals the feature amount in units of one character for the entire image for each chapter or paragraph of the sentence determined from the layout analysis result or for the entire image.

次に、分離係数算出部18は、特徴量集計部17で集計した特徴量に基づいて、図2(a)に示したような特性を把握し、活字/手書文字分離係数を算出する。   Next, the separation coefficient calculation unit 18 grasps the characteristics as shown in FIG. 2A based on the feature amounts totaled by the feature amount totalization unit 17 and calculates a type / handwritten character separation coefficient.

活字手書文字分離部19は、活字/手書文字分離係数に基づいて、文字ごとに活字か手書き文字かを判定し、図3(b)のように、分離を行う。図3において斜線を施した文字が手書き文字と認識されたことを示す。また、図3(c)のように、元画像(ラベル画像)への展開を実施する。この結果に対しては、文字ごとに判定された結果に基づいて、文章単位、段落単位、あるいは文字の周囲の判定結果をもとに再判定を行い、図3(d)のような補正を実施する。   The printed handwritten character separation unit 19 determines whether each character is a printed character or a handwritten character based on the printed character / handwritten character separation coefficient, and performs separation as shown in FIG. FIG. 3 shows that a hatched character is recognized as a handwritten character. Further, as shown in FIG. 3C, the original image (label image) is developed. For this result, based on the result determined for each character, re-determination is performed based on the determination result for each sentence, for each paragraph, or around the character, and correction as shown in FIG. carry out.

例えば、図3(c)の2行目の「、」の部分は、手書き文字と判定されているが、その前後は活字の判定であり、活字列の中に1文字だけ手書き文字があるのは不自然である。そこで、「、」を活字と再判定し、図3(d)のように補正する。同様に、図3(c)の3行目の「の」は、活字と判定されたが、その前後はすべて手書き文字と判定されており、活字が1文字だけ入るのは不自然である。そこで、「の」は活字ではなく、手書き文字であると再判定し、図3(d)のように補正する。なお、この補正は、レイアウト解析を行い、文章領域単位で補正を行ってもよい。この場合、文章領域内の文字の多数が活字判定であれば、手書き判定の文字を活字とし、同様に、文章領域内の文字の多数が手書き判定であれば、活字判定の文字を手書き文字とする。   For example, the “,” part of the second line in FIG. 3C is determined to be a handwritten character, but before and after that, it is a determination of a type character, and there is only one character in the type string. Is unnatural. Therefore, “,” is re-determined as a type and is corrected as shown in FIG. Similarly, “no” on the third line in FIG. 3C is determined to be a type, but it is determined to be a handwritten character before and after that, and it is unnatural to enter only one type. Therefore, “no” is re-determined as a handwritten character, not a type, and is corrected as shown in FIG. In this correction, layout analysis may be performed and correction may be performed in units of text areas. In this case, if a large number of characters in the text area are type determination, the character for handwriting determination is a type, and similarly, if a large number of characters in the text area are handwriting determination, the type determination character is a handwritten character. To do.

次に、図3(d)のような補正が完了した画像に対して、活字認識部20と手書き認識部21により、活字辞書22および手書き辞書23を用い、活字および手書き文字のOCR処理を行い、それぞれの認識結果や認識画像を生成する。   Next, the type recognition unit 20 and the handwriting recognition unit 21 use the type dictionary 22 and the handwriting dictionary 23 to perform OCR processing on the typed characters and the handwritten characters on the image that has been corrected as shown in FIG. Each recognition result or recognition image is generated.

例えば、図4(a)のような活字41と手書き文字42を含む原稿40が、画像入力部11から入力されたとすると、活字認識部20では図4(b)に示すような活字部52のみによる活字画像51が得られ、手書き認識部21では図4(c)に示すような手書き部54のみによる手書き画像53が得られる。なお、図4(c)では、手書き認識部21の認識・出力結果を、手書き部54のように手書き文字に近いフォントの活字で出力しているが、一般的な活字フォントを用いて出力してもよい。活字画像51と手書き画像53は、合成部24によって合成され、図4(a)の原稿40と同様のレイアウトによる認識画像が生成される。この認識画像をプリンタ等で出力すれば、手書き文字が活字化された文書が得られる。なお、活字認識部20および手書き認識部21での認識結果を文字情報(コード情報)として出力し、合成部24ではそれらを合成しても良い   For example, if a manuscript 40 including type 41 and handwritten characters 42 as shown in FIG. 4A is input from the image input unit 11, only the type 52 shown in FIG. 4 is obtained, and the handwriting recognition unit 21 obtains a handwritten image 53 including only the handwriting unit 54 as shown in FIG. In FIG. 4C, the recognition / output result of the handwriting recognition unit 21 is output in a font type similar to a handwritten character like the handwriting unit 54, but is output using a general type font. May be. The printed image 51 and the handwritten image 53 are combined by the combining unit 24, and a recognition image having the same layout as that of the original 40 in FIG. 4A is generated. If this recognition image is output by a printer or the like, a document in which handwritten characters are converted into letters can be obtained. The recognition results in the type recognition unit 20 and the handwriting recognition unit 21 may be output as character information (code information), and the combining unit 24 may combine them.

(実施の形態の効果)
この実施の形態によれば、下記の効果を奏する。
(イ)1文字ごとに特徴量を算出し、この特徴量に基づいて活字/手書き文字の分離判定を行うようにしたため、文字認識率を高めることができる。
(ロ)異なる内容の複数の特徴量を用いているため、特徴量を確実に算出することができ、活字/手書き文字の分離判定を確実に行えるようにすることができる。
(ハ)特徴量を画像全体または所定範囲単位で集計し、これに基づいて分離係数を算出しているため、文字単位で活字/手書き文字分離が行えるため、手書き文字の文字認識率を高めることができる。
(ニ)活字手書文字分離部19では、文字切り出し部15による1文字単位の切り出した結果に対し、上下、左右等の文字周囲の判定結果を用い、あるいは文字が含む文章や段落ごとに活字/手書き文字の再判定をし、その結果に基づいて補正を行うことにより、活字と手書き文字の分離が高精度に行える結果、OCRの認識率を高めることができる。
(Effect of embodiment)
According to this embodiment, the following effects can be obtained.
(A) Since the feature amount is calculated for each character and the separation determination of type / handwritten characters is performed based on the feature amount, the character recognition rate can be increased.
(B) Since a plurality of feature quantities having different contents are used, the feature quantities can be calculated with certainty, and the type / handwritten character separation determination can be reliably performed.
(C) Since the feature values are aggregated over the entire image or in units of a predetermined range, and the separation coefficient is calculated based on this, the character / handwritten character separation can be performed in units of characters, so that the character recognition rate of handwritten characters is increased. Can do.
(D) In the handwritten character separation unit 19, the character segmentation result obtained by the character segmentation unit 15 is used as a result of determination of the surroundings of characters such as up and down, left and right, or for each sentence or paragraph included in the character. / By re-determining handwritten characters and performing correction based on the results, it is possible to separate the printed characters from the handwritten characters with high accuracy, thereby increasing the OCR recognition rate.

[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、その要旨を変更しない範囲内で種々の変形が可能である。例えば、活字手書文字分離部19に入力する画像は、2値化部12の出力画像を含む構成にすることもできる。これにより、白黒画像に対する活字/手書文字の分離が可能になる。
[Other embodiments]
In addition, this invention is not limited to the said embodiment, A various deformation | transformation is possible within the range which does not change the summary. For example, the image input to the printed handwritten character separation unit 19 may include an output image of the binarization unit 12. This makes it possible to separate type / handwritten characters from black and white images.

本発明の実施の形態に係る文字認識装置を示すブロック図である。It is a block diagram which shows the character recognition apparatus which concerns on embodiment of this invention. 図1の分離係数算出部における分離係数算出の原理を示し、(a)は活字と手書き文字の線幅が明瞭に異なるときの分離係数算出のための線幅−度数特性図、(b)は活字と手書き文字の線幅が不明瞭なときの線幅−度数特性図である。1 shows the principle of calculation of a separation coefficient in the separation coefficient calculation unit of FIG. 1, (a) is a line width-frequency characteristic diagram for calculating a separation coefficient when the line widths of type characters and handwritten characters are clearly different, and (b) It is a line width-frequency characteristic figure when the line width of a type letter and a handwritten character is unclear. 図1の各部における処理を模式的に示し、(a)は原稿画像の一例を示す拡大図、(b)は活字/手書き文字分離後の原稿画像図、(c)は(b)の画像を元画像に展開した状態を示す画像図、(d)は(c)の画像に補正を施した後の画像図である。1 schematically shows the processing in each part of FIG. 1, (a) is an enlarged view showing an example of a document image, (b) is a document image diagram after separation of type / handwritten characters, and (c) is an image of (b). The image figure which shows the state expand | deployed to the original image, (d) is an image figure after correct | amending the image of (c). 活字手書文字分離部における処理過程を示し、(a)は画像入力部で読み取られる原稿の平面図、(b)は活字手書文字分離部で分離して得られた活字画像の画像図、(c)は活字手書文字分離部で分離して得られた手書き画像の画像図である。FIG. 4 shows a processing process in a type letter hand separating unit, (a) is a plan view of a document read by an image input unit, (b) is an image diagram of a type image obtained by being separated by a type hand letter separating unit, (C) is an image diagram of a handwritten image obtained by separation by a printed handwritten character separation unit.

符号の説明Explanation of symbols

1 文字認識装置
11 画像入力部
12 2値化部
13 ラベリング部
14 ラベル削除統合部
15 文字切り出し部
16 特徴量算出部
17 特徴量集計部
18 分離係数算出部
19 活字手書文字分離部
20 活字認識部
21 手書き認識部
22 活字辞書
23 手書き辞書
24 合成部
30 原稿画像
31 活字
32 手書き文字
33 ラベル
40 原稿
41 活字
42 手書き文字
51 活字画像
52 活字部
53 手書き画像
54 手書き部
DESCRIPTION OF SYMBOLS 1 Character recognition apparatus 11 Image input part 12 Binarization part 13 Labeling part 14 Label deletion integration part 15 Character extraction part 16 Feature-value calculation part 17 Feature-value totaling part 18 Separation coefficient calculation part 19 Type-letter hand-character separation part 20 Type recognition Unit 21 Handwriting recognition unit 22 Type dictionary 23 Handwritten dictionary 24 Composition unit 30 Original image 31 Type 32 Handwritten character 33 Label 40 Original 41 Type 42 Handwritten character 51 Type image 52 Type unit 53 Handwritten image 54 Handwritten unit

Claims (10)

活字と手書き文字が混在した文書の入力画像に対し、1文字単位で文字の切り出しを行う文字切り出し部と、
切り出された文字について1文字単位の特徴量を算出する特徴量算出部と、
算出された前記1文字単位の特徴量を前記入力画像の所定の範囲に渡って集計する特徴量集計部と、
前記特徴量集計部による集計結果に基づいて活字と手書き文字とを分離するための分離係数を算出する分離係数算出部と、
算出された前記分離係数に基づいて前記入力画像に係る文字を前記活字と前記手書文字に分離する活字手書文字分離部とを備えたことを特徴とする文字認識装置。
A character cutout unit that cuts out characters on a character-by-character basis for an input image of a document in which printed characters and handwritten characters are mixed;
A feature amount calculation unit that calculates a feature amount in units of one character for the extracted character;
A feature amount totaling unit that totalizes the calculated feature amount in units of one character over a predetermined range of the input image;
A separation factor calculation unit that calculates a separation factor for separating a type letter and a handwritten character based on a counting result by the feature amount counting unit;
A character recognition apparatus, comprising: a printed handwritten character separating unit that separates a character related to the input image into the printed character and the handwritten character based on the calculated separation coefficient.
前記特徴量算出部は、少なくとも文字の濃度の均一性および文字線分の直線性について前記特徴量を算出することを特徴とする請求項1に記載の文字認識装置。   The character recognition device according to claim 1, wherein the feature amount calculation unit calculates the feature amount at least with respect to uniformity of character density and linearity of character line segments. 前記特徴量算出部は、文字の大きさや高さ、幅の均一性、文字の濃度の均一性、濃度ヒストグラム、文字線分の直線性、文字線幅の均一性、および文字の傾きのうちの複数少なくとも1つについて前記特徴量を算出することを特徴とする請求項1に記載の文字認識装置。   The feature amount calculation unit includes a character size, height, width uniformity, character density uniformity, density histogram, character line segment linearity, character line width uniformity, and character slope. The character recognition device according to claim 1, wherein the feature amount is calculated for at least one of a plurality. 前記特徴量集計部は、前記入力画像全体について前記1文字単位の特徴量を集計することを特徴とする請求項1に記載の文字認識装置。   The character recognition device according to claim 1, wherein the feature amount totaling unit totalizes the feature amounts in units of one character for the entire input image. 前記活字手書文字分離部は、前記入力画像に係る文字を前記活字と前記手書き文字に分離した後、分離した各文字の周囲の分離結果を用いて活字/手書き文字の再判定を行うことを特徴とする請求項1に記載の文字認識装置。   The type handwritten character separation unit separates the character related to the input image into the type and the handwritten character, and then performs re-determination of the type / handwritten character using a separation result around each separated character. The character recognition device according to claim 1. 前記活字手書文字分離部は、前記再判定を、文章の章または段落ごとに行うことを特徴とする請求項5に記載の文字認識装置。   The character recognition apparatus according to claim 5, wherein the character handwriting character separation unit performs the re-determination for each chapter or paragraph of the sentence. 前記活字手書文字分離部は、前記入力画像または前記入力画像を2値化した画像に対して活字と手書き文字の分離を行うことを特徴とする請求項1記載の文字認識装置。   The character recognition apparatus according to claim 1, wherein the printed handwritten character separating unit separates printed characters and handwritten characters from the input image or an image obtained by binarizing the input image. 前記特徴量算出部は、前記1文字単位の複数種の前記特徴量を算出し、
前記分離係数算出部は、前記分離係数として前記複数種の特徴量についてそれぞれ活字らしいあるいは手書き文字らしいという複数の中間的評価を含み、
前記活字手書文字分離部は、前記複数の中間的評価に基づいて活字と手書き文字の分離を行うことを特徴とする請求項1記載の文字認識装置。
The feature amount calculation unit calculates the plurality of types of feature amounts in units of one character,
The separation factor calculation unit includes a plurality of intermediate evaluations that are likely to be printed or handwritten characters for the plurality of types of feature quantities as the separation factor,
The character recognition apparatus according to claim 1, wherein the printed handwritten character separating unit separates printed characters and handwritten characters based on the plurality of intermediate evaluations.
活字と手書き文字が混在した文書の入力画像に対し、1文字単位で文字の切り出しを行い、
切り出された文字について1文字単位の特徴量を算出し、
算出された前記1文字単位の特徴量を前記入力画像の所定の範囲に渡って集計し、
前記1文字単位の特徴量の集計結果に基づいて活字と手書き文字とを分離するための分離係数を算出し、
算出された前記分離係数に基づいて前記入力画像に係る文字を前記活字と前記手書文字に分離することを特徴とする文字認識方法。
For the input image of a document containing both type and handwritten characters, cut out the characters in units of one character,
Calculate the feature value of each character for the extracted characters,
The calculated feature amount of each character unit is totaled over a predetermined range of the input image,
Calculating a separation coefficient for separating a type letter and a handwritten character based on the total result of the feature amount of one character unit;
A character recognition method, wherein a character related to the input image is separated into the printed character and the handwritten character based on the calculated separation coefficient.
活字と手書き文字が混在した文書の入力画像に対し、1文字単位で文字の切り出しを行う文字切り出し手段と、
切り出された文字について1文字単位の特徴量を算出する特徴量算出手段と、
算出された前記1文字単位の特徴量を前記入力画像の所定の範囲に渡って集計する特徴量集計手段と、
前記特徴量集計手段による集計結果に基づいて活字と手書き文字とを分離するための分離係数を算出する分離係数算出手段と、
算出された前記分離係数に基づいて前記入力画像に係る文字を前記活字と前記手書文字に分離する活字手書文字分離手段とをコンピュータに実行させるための文字認識プログラム。
A character cutout unit that cuts out characters in units of characters for an input image of a document in which printed characters and handwritten characters are mixed;
A feature amount calculating means for calculating a feature amount in character units for the cut out character;
A feature amount totalizing unit that totalizes the calculated feature amount of each character unit over a predetermined range of the input image;
A separation coefficient calculating means for calculating a separation coefficient for separating a type letter and a handwritten character based on a counting result by the feature amount counting means;
A character recognition program for causing a computer to execute type handwritten character separating means for separating a character relating to the input image into the type and the handwritten character based on the calculated separation coefficient.
JP2004278132A 2004-09-24 2004-09-24 Equipment, method, and program for character recognition Withdrawn JP2006092345A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004278132A JP2006092345A (en) 2004-09-24 2004-09-24 Equipment, method, and program for character recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004278132A JP2006092345A (en) 2004-09-24 2004-09-24 Equipment, method, and program for character recognition

Publications (1)

Publication Number Publication Date
JP2006092345A true JP2006092345A (en) 2006-04-06

Family

ID=36233238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004278132A Withdrawn JP2006092345A (en) 2004-09-24 2004-09-24 Equipment, method, and program for character recognition

Country Status (1)

Country Link
JP (1) JP2006092345A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218106A (en) * 2009-03-16 2010-09-30 Ricoh Co Ltd Image processing apparatus, image processing method and program
WO2011074067A1 (en) 2009-12-15 2011-06-23 富士通フロンテック株式会社 Character recognition method, character recognition device, and character recognition program
JP2012022359A (en) * 2010-07-12 2012-02-02 Fuji Xerox Co Ltd Image processing device and image processing program
US8189921B2 (en) 2008-03-31 2012-05-29 Fujitsu Frontech Limited Character recognition device
JP2022104498A (en) * 2020-12-28 2022-07-08 キヤノンマーケティングジャパン株式会社 Information processing system, information processing method and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8189921B2 (en) 2008-03-31 2012-05-29 Fujitsu Frontech Limited Character recognition device
JP2010218106A (en) * 2009-03-16 2010-09-30 Ricoh Co Ltd Image processing apparatus, image processing method and program
WO2011074067A1 (en) 2009-12-15 2011-06-23 富士通フロンテック株式会社 Character recognition method, character recognition device, and character recognition program
US8588520B2 (en) 2009-12-15 2013-11-19 Fujitsu Frontech Limited Character recognition method, character recognition apparatus, and character recognition program
JP2012022359A (en) * 2010-07-12 2012-02-02 Fuji Xerox Co Ltd Image processing device and image processing program
JP2022104498A (en) * 2020-12-28 2022-07-08 キヤノンマーケティングジャパン株式会社 Information processing system, information processing method and program

Similar Documents

Publication Publication Date Title
US7469063B2 (en) Apparatus, method and storage medium storing program for recognizing characters
US7054485B2 (en) Image processing method, apparatus and system
Shamilian et al. A retargetable table reader
US9542752B2 (en) Document image compression method and its application in document authentication
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
JP5379085B2 (en) Method and system for classifying connected groups of foreground pixels in a scanned document image based on marking type
US6351559B1 (en) User-enclosed region extraction from scanned document images
US20050271275A1 (en) Text character identification system and method thereof
US20120120453A1 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
Borovikov A survey of modern optical character recognition techniques
JPH07282253A (en) Threshold processing method of document image
JP5335581B2 (en) Image processing apparatus, image processing method, and program
StevensÝ et al. Automatic processing of document annotations
JP2006092345A (en) Equipment, method, and program for character recognition
JP5601027B2 (en) Image processing apparatus and image processing program
Chakraborty et al. Marginal Noise Reduction in Historical Handwritten Documents--A Survey
Kumar et al. Line based robust script identification for indianlanguages
JP3142986B2 (en) Document information retrieval device
Aparna et al. A complete OCR system development of Tamil magazine documents
JP4117648B2 (en) Form, form processing method, form processing program, recording medium recording form processing program, and form processing apparatus
Dhandra et al. Morphological reconstruction for word level script identification
JP3268542B2 (en) Enlargement method of fine character image
JP2011034454A (en) Character recognition device, character recognition method, program and recording medium
Kaur Classification of printed and handwritten Gurmukhi text using labeling and segmentation technique
Leishman Shape-free statistical information in optical character recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070816

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100312