JP5353325B2 - Document data generation apparatus and document data generation method - Google Patents

Document data generation apparatus and document data generation method Download PDF

Info

Publication number
JP5353325B2
JP5353325B2 JP2009056380A JP2009056380A JP5353325B2 JP 5353325 B2 JP5353325 B2 JP 5353325B2 JP 2009056380 A JP2009056380 A JP 2009056380A JP 2009056380 A JP2009056380 A JP 2009056380A JP 5353325 B2 JP5353325 B2 JP 5353325B2
Authority
JP
Japan
Prior art keywords
data
character
document data
data generation
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009056380A
Other languages
Japanese (ja)
Other versions
JP2010211470A (en
Inventor
多聞 貞末
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2009056380A priority Critical patent/JP5353325B2/en
Publication of JP2010211470A publication Critical patent/JP2010211470A/en
Application granted granted Critical
Publication of JP5353325B2 publication Critical patent/JP5353325B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、文書データ生成装置と文書データ生成方法に関する。   The present invention relates to a document data generation apparatus and a document data generation method.

近年、紙文書などに印刷された状態で管理されていた文字情報は、光学的読み取り装置などにより電子データとして画像データに変換し、その画像データに対して光学文字認識(Optical Character Recognition:OCR)処理を施すことにより、画像データ中の各文字を文字データに変換して電子ファイル化することが行われている。
しかしながら、OCRによる文字認識処理には誤認識があるため、スキャンした画像データを捨てて代わりにOCRで認識された文字データのみから成る文書データに変換すると、誤認識された文字に関しては元の正しい情報が失われてしまう。
そのため、スキャンした画像データをそのまま残し、その画像データにOCRによって得られた文字データを加え、透明なテキストデータとすることで、画像データによる視認性と、文字データによる検索性を兼ね備えた電子データに変換することが行われている。
In recent years, character information that has been managed in a printed state on a paper document or the like is converted into image data as electronic data by an optical reader or the like, and optical character recognition (OCR) is performed on the image data. By performing processing, each character in the image data is converted into character data and converted into an electronic file.
However, since the character recognition processing by OCR has misrecognition, if the scanned image data is discarded and converted to document data consisting only of character data recognized by OCR instead, the original correct character will be correct. Information is lost.
Therefore, the scanned image data is left as it is, and the character data obtained by OCR is added to the image data to form transparent text data, thereby providing electronic data that has both visibility by image data and searchability by character data. The conversion is done.

従来、文書イメージに含まれるテキストイメージ部分を文字認識して生成したテキストデータと、文書イメージにおける対応位置を示す座標情報とを関連付けるテーブルを生成し、文書イメージにおける対応位置に基づいて検索結果を表示する文書データ生成装置(例えば、特許文献1参照)があった。
また、イメージ文書を対象とした文字認識処理を実行した結果出力されるテキストによる文書データについて、検索文字列を所定数の文字単位の部分に分割し、その各部分ごとに誤認識される可能性の高い文字形状の類似した類似文字列を格納し、その類似文字列を組み合わせて検索結果の展開語を生成する文書データ生成装置(例えば、特許文献2参照)があった。
Conventionally, a table that associates text data generated by character recognition of a text image part included in a document image and coordinate information indicating a corresponding position in the document image is generated, and a search result is displayed based on the corresponding position in the document image. There is a document data generation device (see, for example, Patent Document 1).
In addition, for text document data output as a result of executing character recognition processing for image documents, the search character string may be divided into a predetermined number of character units, and each part may be erroneously recognized. There is a document data generation device (see, for example, Patent Document 2) that stores similar character strings having a high character shape and generates similar words as search results by combining the similar character strings.

しかしながら、上述した従来の文書データ生成装置では、前者の文書データ生成装置では、OCRが誤認識した場合は、誤った文字データを生成してしまうので、当然のことながら正しいキーワードでは検索することが出来ない文書データを生成してしまうという問題があった。
また、後者の文書データ生成装置では、検索時に検索タームを拡張するため、特別な検索システムが必要となってしまう点や、文書ファイルと別に検索用の類似文字列を格納しておかなくてはならないため、管理が容易でないという問題があった。
この発明は上記の点に鑑みてなされたものであり、文字認識確度の低いテキストの検索精度を高めた文書データを作成できるようにすることを目的とする。
However, in the above-described conventional document data generation apparatus, if the former document data generation apparatus erroneously recognizes the OCR, erroneous character data is generated. There was a problem of generating unusable document data.
In the latter document data generation device, the search term is expanded at the time of search, so that a special search system is required, and a similar character string for search must be stored separately from the document file. Therefore, there is a problem that management is not easy.
The present invention has been made in view of the above points, and an object of the present invention is to make it possible to create document data with improved text search accuracy with low character recognition accuracy.

この発明は上記の目的を達成するため、画像データと上記画像データから文字認識した文字データとを含む文書データを生成する文書データ生成装置であって、上記文字認識において、上記画像データの所定区切り単位で複数の認識候補の文字データが得られた場合、その複数の認識候補の文字データを非可視データにして上記画像データの対応する所定区切り単位の位置又は近傍に、それぞれ異なるレイヤで付加して文書データを生成する文書データ生成手段を備えた文書データ生成装置を提供する。
また、上記複数の認識候補の文字データに、最も確度の高い文字データが含まれるようにするとよい。
さらに、上記複数の認識候補の文字データから予め登録された辞書に登録されていない文字データを除外する手段を設けるとよい。
In order to achieve the above object, the present invention provides a document data generation apparatus that generates document data including image data and character data recognized from the image data. when character data for the plurality of recognition candidate obtained in units, and character data for the plurality of recognition candidate invisible data, at or near the corresponding predetermined separator unit of the image data, adds at different layers Thus, a document data generation apparatus provided with document data generation means for generating document data is provided.
The character data with the highest accuracy may be included in the character data of the plurality of recognition candidates.
Furthermore, it is preferable to provide means for excluding character data not registered in a dictionary registered in advance from the plurality of recognition candidate character data.

また、上記所定区切り単位を、単語、空白によって区切られた単語、属性の異なる文字を区切りとする文字列、行、段落、連続するn(nは正の整数)文字を重複的に区切る単位のいずれかにするとよい。
さらに、画像データと上記画像データから文字認識した文字データとを含む文書データを生成する文書データ生成方法であって、上記文字認識において、上記画像データの所定区切り単位で複数の認識候補の文字データが得られた場合、その複数の認識候補の文字データを非可視データにして上記画像データの対応する所定区切り単位の位置又は近傍に、それぞれ異なるレイヤで付加して文書データを生成する文書データ生成工程を備えた文書データ生成方法も提供する。
In addition, the predetermined delimiter unit is a unit that delimits a word, a word delimited by a space, a character string, a line, a paragraph, and a continuous n (n is a positive integer) character delimited by different characters. Either one is good.
Further, a document data generation method for generating document data including image data and character data recognized from the image data, wherein, in the character recognition, a plurality of recognition candidate character data in a predetermined delimiter unit of the image data. If is obtained, by the character data of the plurality of recognition candidate invisible data, at or near the corresponding predetermined separator unit of the image data, document data to generate the document data by adding at different layers A document data generation method including a generation process is also provided.

この発明による文書データ生成装置と文書データ生成方法は、文字認識確度の低いテキストの検索精度を高めた文書データを作成することができる。   The document data generation apparatus and the document data generation method according to the present invention can create document data with improved text search accuracy with low character recognition accuracy.

この発明の文書データ生成装置における主要部分の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the principal part in the document data production | generation apparatus of this invention. この文書データ生成装置における文書データ生成処理を示すフローチャート図である。It is a flowchart figure which shows the document data generation process in this document data generation apparatus. 文字領域抽出の説明図である。It is explanatory drawing of character area extraction. 単語単位の区切り単位の一例を示す図である。It is a figure which shows an example of the division unit of a word unit. 透明テキストデータの付加の説明図である。It is explanatory drawing of addition of transparent text data.

透明テキストデータの他の付加例の説明図である。It is explanatory drawing of the other example of addition of transparent text data. 透明テキストデータのまた他の付加例の説明図である。It is explanatory drawing of the other additional example of transparent text data. 異なる属性の文字を区切り単位にしたときに生成した文書データの一例を示す図である。It is a figure which shows an example of the document data produced | generated when the character of a different attribute was made into the delimiter unit. “的”という文字だけ“的”と“助”の二つの候補が存在した場合に生成した文書データの一例を示す図である。It is a figure which shows an example of the document data produced | generated when only the character of "target" has two candidates of "target" and "help".

以下、この発明を実施するための形態を図面に基づいて具体的に説明する。
〔実施例〕
図1は、この発明の文書データ生成装置における主要部分の機能構成を示すブロック図である。
図2は、この文書データ生成装置における文書データ生成処理を示すフローチャート図である。
図3は、文字領域抽出の説明図である。
図4は、単語単位の区切り単位の一例を示す図である。
図5は、透明テキストデータの付加の説明図である。
図6は、透明テキストデータの他の付加例の説明図である。
図7は、透明テキストデータのまた他の付加例の説明図である。
Hereinafter, embodiments for carrying out the present invention will be specifically described with reference to the drawings.
〔Example〕
FIG. 1 is a block diagram showing a functional configuration of main parts in the document data generating apparatus of the present invention.
FIG. 2 is a flowchart showing document data generation processing in this document data generation apparatus.
FIG. 3 is an explanatory diagram of character area extraction.
FIG. 4 is a diagram illustrating an example of a delimiter unit in units of words.
FIG. 5 is an explanatory diagram of addition of transparent text data.
FIG. 6 is an explanatory diagram of another example of addition of transparent text data.
FIG. 7 is an explanatory diagram of still another example of addition of transparent text data.

この文書データ生成装置は、ファクシミリ装置,プリンタ,複写機,複合機,コンピュータを含む文書データを扱う装置であり、CPU,ROM及びRAMからなるマイクロコンピュータを備えており、CPUがROMに格納されたプログラムの手順を実行することによって文書作成方法の工程を実施し、図1に示すように、1〜6の各機能部の機能を実現する。
まず、図2のステップ(図中「S」と記載する)1で、図示を省略したスキャナなどの画像読取部で読み取られた画像データを画像入力部1に入力する。
その画像データは、文字情報などを持たない、いわゆるラスタ画像、ビットマップ画像と呼ばれる形式のデータである。
図2のステップ2では、画像入力部1は入力された画像データに対して最初に前処理を施す。
その前処理とは、文字認識処理の精度を向上させるための画像処理であり、エッジ強調や、画像の二値化、向き補正などの処理である。
This document data generating apparatus is a device that handles document data including a facsimile machine, a printer, a copier, a multifunction machine, and a computer. The document data generating apparatus includes a microcomputer including a CPU, a ROM, and a RAM, and the CPU is stored in the ROM. By executing the procedure of the program, the steps of the document creation method are implemented, and the functions of the respective functional units 1 to 6 are realized as shown in FIG.
First, in step (denoted as “S” in the drawing) 1 in FIG. 2, image data read by an image reading unit such as a scanner (not shown) is input to the image input unit 1.
The image data is data in a format called a so-called raster image or bitmap image that does not have character information or the like.
In step 2 of FIG. 2, the image input unit 1 first performs preprocessing on the input image data.
The preprocessing is image processing for improving the accuracy of character recognition processing, and includes processing such as edge enhancement, image binarization, and orientation correction.

次に、図2のステップ3で、文字領域抽出部2によって画像データから文字領域を抽出する。
その文字領域の抽出方法は、例えば、二値化を施した画像データに収縮処理を行い、輪郭線を追跡することによって求まる画素の固まりの外接矩形の大きさから文字領域か否かを判別する技術(例えば、特開2004−64664号公報に記載された技術参照)がある。
例えば、図3に示す画像データの場合、図中矩形枠10で示す文字領域の画像データを抽出する。
Next, in step 3 of FIG. 2, the character region extraction unit 2 extracts a character region from the image data.
The character region extraction method is, for example, performing a contraction process on the binarized image data, and determining whether or not the character region is based on the size of the circumscribed rectangle of the cluster of pixels obtained by tracing the outline. There is a technique (for example, refer to the technique described in Japanese Patent Application Laid-Open No. 2004-64664).
For example, in the case of the image data shown in FIG. 3, the image data of the character region indicated by the rectangular frame 10 in the figure is extracted.

次に、図2のステップ4で、文字認識部3によって抽出された文字領域データから文字列部分を切り出し、文字認識対象となる言語の文字辞書の画像パターンとパターンマッチングを行うことで文字認識を行う。
その時、文字認識において複数の文字データが認識候補として挙がった場合、それらの文字データを後述のテキストデータ生成に用いる。
例えば、実際には“l”という文字を表す画像であるが、マッチングの結果、類似度が大きい順に“t”“l”“i”“j”…と認識されたとする。
そのうち、ある閾値以上の類似度のものが“t”と“l”であったとすると、認識結果の候補は“t”と“l”である。
Next, in step 4 in FIG. 2, character recognition is performed by cutting out the character string portion from the character area data extracted by the character recognition unit 3 and performing pattern matching with the image pattern of the character dictionary of the language that is the character recognition target. Do.
At that time, when a plurality of character data are listed as recognition candidates in character recognition, these character data are used for generating text data to be described later.
For example, it is actually an image representing the character “l”, but as a result of matching, “t” “l” “i” “j”... Are recognized in descending order of similarity.
Of these, if the similarity of a certain threshold value or higher is “t” and “l”, the recognition result candidates are “t” and “l”.

次に、図2のステップ5で、文字認識部3によって文字領域データに含まれる文字を単語単位で分割する。
その場合、文字認識処理の対象を英語として処理することを要求された場合、空白を検出することで、空白によって区切られた単語単位に分割する。
空白は、文字領域とされた矩形内で、文字連続方向に垂直に走査した場合に画素のないラインがある長さだけ連続した箇所を空白とすることで容易に検出できる。
この処理は、文字領域検出の処理段階で分割を行うようにしてもよい。
例えば、図4に示すように、英文を空白によって区切られた単語単位で分割した場合、図中それぞれ矩形枠11〜18で示すように、“He”“lied”“when”“he”“said”“he”“loved”“me.”の各英単語毎に分割される。
Next, in step 5 of FIG. 2, the character recognition unit 3 divides the characters included in the character area data in units of words.
In that case, when it is requested to process the target of character recognition processing as English, a blank is detected to divide into word units delimited by the blank.
A blank can be easily detected by setting a portion where a line having no pixels continues for a certain length as a blank in a rectangle defined as a character area when scanned vertically in the character continuous direction.
In this process, the division may be performed in the character area detection process.
For example, as shown in FIG. 4, when an English sentence is divided in units of words separated by spaces, as shown by rectangular frames 11 to 18 in the figure, “He” “lied” “where” “he” “side” It is divided for each English word “he” “loved” “me.”.

次に、図2のステップ6で、テキストデータ生成部4によって文字認識候補からテキストデータを生成する。
テキストデータ生成部4は、画像データから認識された複数の認識候補の文字データを全て一つのテキストデータオブジェクトに入れるとすると、生成されたテキストデータ中の、連続する文字列全てを検索の対象とすることが可能だが(例えば“Heli”のような検索に対してもヒットさせることができる)、複数の文字認識候補が存在した場合、その候補を用いて対象となる画像全域のテキストデータを生成しなくてはならない。
例えば“l”を“l”と認識した場合のテキストデータを全域で生成し、かつ“l”を“t”と認識した場合のテキストデータを全域で生成しなくてはならない。
Next, in step 6 of FIG. 2, the text data generating unit 4 generates text data from the character recognition candidates.
When the text data generation unit 4 puts all the character data of a plurality of recognition candidates recognized from the image data into one text data object, all the continuous character strings in the generated text data are searched. If you have multiple character recognition candidates, you can use the candidates to generate text data for the entire target image. I have to do it.
For example, text data when “l” is recognized as “l” must be generated in the entire area, and text data when “l” is recognized as “t” must be generated in the entire area.

さらに、文字認識候補が複数存在する文字がいくつもあると、その候補の組み合わせが、文字の数に応じて膨大になってしまう。
逆に、文字の認識結果の複数の候補を、そのまま文字単位でテキストデータとして埋め込むと、例えば、図6では、単語“lied”の各文字“l”“i”“e”“d”について、“l”という文字に対して“t”と“l”の候補があったため両方埋め込むことが出来るが、このように生成されたテキストデータは、“lie”というキーワード検索に対してヒットしない。また、“d”の文字についても“d”と“q”の候補があったため上述と同じ理由でヒットしないキーワードができてしまう。図6の各文字には矩形枠30〜35を付して示す。
Further, if there are a large number of characters having a plurality of character recognition candidates, the combinations of the candidates become enormous according to the number of characters.
Conversely, when a plurality of candidates for character recognition results are embedded as text data in units of characters, for example, in FIG. 6, for each character “l” “i” “e” “d” of the word “lied”, Since there are “t” and “l” candidates for the character “l”, both can be embedded, but the text data generated in this way does not hit the keyword search “lie”. In addition, since there are candidates for “d” and “q” for the character “d”, a keyword that does not hit is created for the same reason as described above. Each character in FIG. 6 is shown with a rectangular frame 30-35.

そこで、検索の容易性とデータ容量抑制を両立させるために、前述した区切りの単位である単語単位でテキストデータ生成を行う。
空白によって区切られた単位である“lied”領域のテキストデータとして、“lied”領域から文字と認識された候補を組み合わせてテキストデータを生成する。
例えば“l”の文字の認識候補が“t”と“l”であり、“d”の文字の認識候補が“d”と“q”であり、“i”と“e”はそれぞれ正しく認識した文字のみが候補であったとすると、図7に示すように、各候補を網羅的に組み合わせて“tied”“lied”“tieq”“lieq”の4つのテキストデータを生成する。図7の各テキストデータを矩形枠36〜39で示す。
Therefore, in order to achieve both ease of search and data volume reduction, text data is generated in units of words, which are the delimiter units described above.
Text data is generated by combining candidates recognized as characters from the “lied” area as text data of the “lied” area, which is a unit delimited by white space.
For example, “l” character recognition candidates are “t” and “l”, “d” character recognition candidates are “d” and “q”, and “i” and “e” are recognized correctly. Assuming that only the selected character is a candidate, as shown in FIG. 7, four candidates of “tied”, “lied”, “tieq”, and “lieq” are generated by comprehensively combining the candidates. Each text data in FIG. 7 is indicated by rectangular frames 36-39.

次に、図2のステップ7で、透明テキストデータ生成部5によって透明テキストデータを生成する。
この透明テキストデータは、画像データから認識された文字から成るテキストデータを、文字領域抽出処理もしくは単語への分割処理の際に検出した画像データ中の対応する部分の座標データに対応させて付加(付与)するデータであり、後に、文書ファイルをビューアで表示させた際には、画像データとテキストデータは、表示上ではおなじ場所に異なるレイヤとして存在することになり、画像データの閲覧を妨げないために、テキストデータに透明色の色情報を付与して、透明(非可視データ)にしている。
透明テキストデータ生成部5では、前段で生成されたテキストデータのそれぞれに、文字領域抽出部2から受け取った対応する画像データ中の座標データと、テキストの描画色のデータ、さらに必要に応じてフォントデータなどを加えて透明テキストデータを生成する。上記描画色は通常は透過色にするが、異なる色を割り当てても構わない。また、かすかに見える程度の色にしても同様の効果を有する。
Next, in step 7 in FIG. 2, transparent text data is generated by the transparent text data generation unit 5.
This transparent text data is added in correspondence with the coordinate data of the corresponding part in the image data detected during the character region extraction process or the word segmentation process. If the document file is later displayed in the viewer, the image data and text data will exist as different layers at the same location on the display, and will not hinder the browsing of the image data. Therefore, transparent color information is added to the text data to make it transparent (invisible data).
In the transparent text data generation unit 5, the coordinate data in the corresponding image data received from the character area extraction unit 2, the text drawing color data, and fonts as necessary are added to each of the text data generated in the previous stage. Generate transparent text data by adding data. The drawing color is usually a transparent color, but a different color may be assigned. In addition, the same effect can be obtained even if the color looks faint.

次に、図2のステップ8で、文書ファイル生成部6は文書ファイルを生成し、図示を省略した記憶部に記憶する。
文書ファイル生成部6は、画像入力部1から受け取った最後にラスタ画像である入力の画像データと、透明テキストデータ生成部5から受け取った透明テキストデータを用いて、文書データ中の該当する位置又は近傍に透明テキストデータ(文字コードとしてのベクトルデータ)を埋め込むことによって付加し、文書ファイル(文書データ)を生成する。
例えば、図5に示すように、図中それぞれ矢印11〜18で示すように、“He”“lied”“when”“he”“said”“he”“loved”“me.”の各画像部分の位置又は近傍には、図中それぞれ矩形枠21〜28で示すように、それぞれの認識候補の透明テキストデータが付与(付加)される。
このような構造を持つ文書フォーマットとしてPDFが良く知られている。
このようにして、文字認識確度の低いテキストでも複数の認識候補が付加されているので、文字認識確度の低いテキストの検索精度を高めることができる。
Next, in step 8 of FIG. 2, the document file generation unit 6 generates a document file and stores it in a storage unit (not shown).
The document file generation unit 6 uses the input image data that is the last raster image received from the image input unit 1 and the transparent text data received from the transparent text data generation unit 5 to use the corresponding position in the document data or A text file (document data) is generated by adding transparent text data (vector data as a character code) in the vicinity.
For example, as shown in FIG. 5, as indicated by arrows 11 to 18 in the figure, each image portion of “He” “lied” “where” “he” “side” “he” “loved” “me.” The transparent text data of each recognition candidate is given (added) at or near the position, as indicated by rectangular frames 21 to 28 in the figure.
PDF is well known as a document format having such a structure.
In this way, since a plurality of recognition candidates are added even for text with low character recognition accuracy, the search accuracy of text with low character recognition accuracy can be increased.

次に、日本語などの文章中を空白で区切らない言語の場合には、ユーザが検索時に独立して検索する可能性の高い区切りをもって、テキストデータを埋め込むと良い。
例えば、上述の処理において、所定の区切り単位として、漢字、数字、英字、カタカナ、ひらがなといった文字の属性が変化する箇所を区切り単位にする。
図8は、ひらがなから漢字に文字属性が変化する箇所を区切り単位にした例を示す図であり、図中に矢印40〜42で示すように“寒さ”“忘れる”“詩的空間”の各画像の対応する位置に、図中矩形枠43〜48で示すように、それぞれ透明テキストデータが付加される。
Next, in the case of a language that does not separate a sentence such as Japanese with a space, it is preferable to embed text data with a break that is highly likely to be searched independently by the user during the search.
For example, in the above-described processing, as a predetermined delimiter unit, a place where a character attribute such as a Chinese character, a number, an English letter, a katakana, or a hiragana character changes is used as the delimiter unit.
FIG. 8 is a diagram showing an example in which a part where the character attribute changes from hiragana to kanji is used as a delimiter unit. As shown by arrows 40 to 42 in the figure, each of “cold”, “forget”, and “poetic space” is shown. Transparent text data is added to the corresponding position of the image, as indicated by the rectangular frames 43 to 48 in the figure.

同図では、見易くするために、画像部分に対して付加された各透明テキストデータの位置をずらして示しているが、同一レイヤあるいは異なるレイヤで画像部分に完全に重なるように付加してよい。
また、漢字からひらがなに変化する箇所も区切りとするのであれば、さらに寒、さ、忘、れる、詩的空間と分割するとよい。
さらに、“る”を“3”と認識する候補が存在した場合には、“れる”というテキストデータに加えて、“れ”+“3”という、異なる区切りによるテキストデータを生成するとよい。
In the figure, for the sake of clarity, the position of each transparent text data added to the image portion is shifted, but it may be added so as to completely overlap the image portion in the same layer or different layers.
In addition, if the place where the hiragana characters change from kanji is also used as a break, it is better to divide it into a poetic space that is cold, cold, forgetful.
In addition, when there is a candidate for recognizing “ru” as “3”, in addition to the text data “re”, text data with different delimiters “re” + “3” may be generated.

次に、図9は“的”という文字だけ“的”と“助”の二つの候補が存在した場合の例である。
まず、文字認識結果から最も確度が高い認識文字のみを用いて検出された文字領域全体でのテキストデータを生成する。
つまり、図中矢印50で示す画像データ“寒さ忘れる詩的空間”から、図中矩形枠51で示す“寒さ忘れる詩的空間”というテキストデータを生成する。
続いて、複数の認識候補が存在する文字を含むn(nは正の整数)文字単位で、その候補を用いて重複してテキストデータを生成する。
Next, FIG. 9 shows an example in which two candidates “target” and “help” exist only for the character “target”.
First, text data is generated for the entire character region detected using only the recognized character with the highest accuracy from the character recognition result.
In other words, text data “poetic space forgetting cold” shown by a rectangular frame 51 in the figure is generated from image data “poetic space forgetting cold” in the figure.
Subsequently, text data is generated by duplication using n (n is a positive integer) character unit including a character having a plurality of recognition candidates.

例えば、n=2の場合、最も確度の高い候補を除いた候補を用いて前後2文字の認識文字と組み合わせてテキストデータを生成するので、図中矩形枠52,53で示すように、“詩助”と“助空”の二つが追加のテキストデータとして生成される。
そして、それぞれ画像データ中の座標に対応して透明テキストデータを埋め込む。
さらに、上述の処理は、所定の区切り単位として単語,空白で区切られた単語,属性の異なる文字列,連続するn文字を重複的に区切る単位の他に、行単位,段落単位でも同様にして実施することができる。
For example, in the case of n = 2, text data is generated using a candidate excluding a candidate with the highest degree of accuracy and combined with two recognized characters before and after, so that “poetry” is indicated by rectangular frames 52 and 53 in the figure. “Assist” and “Auxiliary” are generated as additional text data.
Then, transparent text data is embedded corresponding to the coordinates in the image data.
Further, the above processing is performed in the same manner in units of lines and paragraphs as well as units of words, words separated by spaces, character strings having different attributes, units of overlapping n consecutive characters as predetermined delimiters. Can be implemented.

次に、文字認識処理には、単語辞書などの知識を用いて文字列単位で認識する方法がある。
これは、辞書に存在しない文字列、例えば“lied”を“lieq”と誤認識するケースを減らせるため、それだけでも認識率を向上させる効果があるが、“lied”を“tied”,“lied”の順に類似度が大きいと誤認識する可能性もある。すなわち、文字認識処理において、予め登録された辞書に登録されていない文字データを除外するのである。
このような辞書をベースに文字列で認識を行う場合は、認識した文字列の候補が複数存在した場合は、それぞれを辞書中でマッチングされた単位で、それぞれテキストデータを生成し、透明テキストデータとして埋め込む。
Next, in the character recognition process, there is a method of recognizing in units of character strings using knowledge such as a word dictionary.
This can reduce the number of cases where a character string that does not exist in the dictionary, for example, “lied” is erroneously recognized as “lieq”, so that it alone has the effect of improving the recognition rate, but “lied” is changed to “tied”, “lied”. There is a possibility of misrecognizing that the degree of similarity is large in the order of " That is, in the character recognition process, character data not registered in a previously registered dictionary is excluded.
When recognizing a character string based on such a dictionary, if there are multiple recognized character string candidates, text data is generated in units that are matched in the dictionary, and transparent text data is generated. Embed as

この実施例の文書生成装置は、OCRの認識結果によって文字認識候補が複数存在した場合に、候補を複数同時にテキストデータとして埋め込むことが出来るため、特別な検索システムを用いずとも、通常の完全一致の検索システムを用いて、正しい認識のテキストデータが生成される可能性が高くなる。
また、それぞれ画像データの対応する位置に埋め込むため、ユーザがテキスト検索を行う際に、検索結果のハイライト表示を文書中の望ましい位置に行える。
さらに、文字認識候補が複数存在する場合には、テキストデータを重複して埋め込むことになるが、文字認識候補を含む単語や行などの単位でテキストデータを複数生成するため、付与すべきテキストデータをいたずらに増加させないまま、単語や行などの単位での検索をより効率的に行うことができる。
The document generation apparatus according to this embodiment can embed a plurality of candidates as text data at the same time when there are a plurality of character recognition candidates based on the recognition result of the OCR. There is a high possibility that text data with correct recognition will be generated using the above search system.
In addition, since each is embedded at a corresponding position in the image data, when the user performs a text search, the search result can be highlighted at a desired position in the document.
Furthermore, if there are multiple character recognition candidates, the text data will be embedded in duplicate. However, since multiple text data are generated in units such as words and lines that contain the character recognition candidates, the text data to be given It is possible to search more efficiently in units of words, lines, etc. without unnecessarily increasing.

この発明による文書データ生成装置と文書データ生成方法は、ファクシミリ装置,プリンタ,複写機,複合機,コンピュータを含む文書データを扱う装置全般において適用することができる。   The document data generating apparatus and the document data generating method according to the present invention can be applied to all apparatuses that handle document data, including facsimile machines, printers, copiers, multifunction machines, and computers.

1:画像入力部 2:文字領域抽出部 3:文字認識部 4:テキストデータ生成部 5:透明テキストデータ生成部 6:文書ファイル生成部 1: Image input unit 2: Character region extraction unit 3: Character recognition unit 4: Text data generation unit 5: Transparent text data generation unit 6: Document file generation unit

特開平7−93374号公報JP-A-7-93374 特開2002−189747号公報JP 2002-189747 A

Claims (10)

画像データと前記画像データから文字認識した文字データとを含む文書データを生成する文書データ生成装置であって、
前記文字認識において、前記画像データの所定区切り単位で複数の認識候補の文字データが得られた場合、該複数の認識候補の文字データを非可視データにして前記画像データの対応する所定区切り単位の位置又は近傍に、それぞれ異なるレイヤで付加して文書データを生成する文書データ生成手段を備えたことを特徴とする文書データ生成装置。
A document data generation device that generates document data including image data and character data recognized from the image data,
In the character recognition, the case where character data of a plurality of recognition candidates at a predetermined separator unit of image data is obtained, and the character data of the recognition candidates of the plurality of invisible data, the corresponding predetermined separator unit of the image data A document data generation apparatus comprising: document data generation means for generating document data by adding different layers at or in the vicinity of each other .
前記複数の認識候補の文字データに、最も確度の高い文字データが含まれるようにしたことを特徴とする請求項1記載の文書データ生成装置。   2. The document data generation apparatus according to claim 1, wherein character data having the highest accuracy is included in the plurality of recognition candidate character data. 前記複数の認識候補の文字データから予め登録された辞書に登録されていない文字データを除外する手段を設けたことを特徴とする請求項1又は2記載の文書データ生成装置。   3. The document data generation apparatus according to claim 1, further comprising means for excluding character data not registered in a dictionary registered in advance from the plurality of recognition candidate character data. 前記所定区切り単位は、単語であることを特徴とする請求項1乃至3のいずれか一項に記載の文書データ生成装置。   The document data generation apparatus according to claim 1, wherein the predetermined delimiter unit is a word. 前記所定区切り単位は、空白によって区切られた単語であることを特徴とする請求項1乃至3のいずれか一項に記載の文書データ生成装置。   The document data generation apparatus according to claim 1, wherein the predetermined delimiter unit is a word delimited by a blank. 前記所定区切り単位は、属性の異なる文字を区切りとする文字列であることを特徴とする請求項1乃至3のいずれか一項に記載の文書データ生成装置。   The document data generation apparatus according to claim 1, wherein the predetermined delimiter unit is a character string that delimits characters having different attributes. 前記所定区切り単位は、行であることを特徴とする請求項1乃至3のいずれか一項に記載の文書データ生成装置。   The document data generation apparatus according to claim 1, wherein the predetermined delimiter unit is a line. 前記所定区切り単位は、段落であることを特徴とする請求項1乃至3のいずれか一項に記載の文書データ生成装置。   The document data generation apparatus according to claim 1, wherein the predetermined delimiter unit is a paragraph. 前記所定区切り単位は、連続するn(nは正の整数)文字を重複的に区切る単位であることを特徴とする請求項1乃至3のいずれか一項に記載の文書データ生成装置。   4. The document data generation apparatus according to claim 1, wherein the predetermined delimiter unit is a unit that delimits consecutive n (n is a positive integer) characters in an overlapping manner. 5. 画像データと前記画像データから文字認識した文字データとを含む文書データを生成する文書データ生成方法であって、前記文字認識において、前記画像データの所定区切り単位で複数の認識候補の文字データが得られた場合、該複数の認識候補の文字データを非可視データにして前記画像データの対応する所定区切り単位の位置又は近傍に、それぞれ異なるレイヤで付加して文書データを生成する文書データ生成工程を備えたことを特徴とする文書データ生成方法。 A document data generation method for generating document data including image data and character data that has been character-recognized from the image data. In the character recognition, a plurality of recognition candidate character data is obtained in a predetermined unit of the image data. If obtained, and the character data of the recognition candidates of the plurality of invisible data, at or near the corresponding predetermined separator unit of the image data, document data generation step of generating document data by adding at different layers A document data generation method characterized by comprising:
JP2009056380A 2009-03-10 2009-03-10 Document data generation apparatus and document data generation method Expired - Fee Related JP5353325B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009056380A JP5353325B2 (en) 2009-03-10 2009-03-10 Document data generation apparatus and document data generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009056380A JP5353325B2 (en) 2009-03-10 2009-03-10 Document data generation apparatus and document data generation method

Publications (2)

Publication Number Publication Date
JP2010211470A JP2010211470A (en) 2010-09-24
JP5353325B2 true JP5353325B2 (en) 2013-11-27

Family

ID=42971563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009056380A Expired - Fee Related JP5353325B2 (en) 2009-03-10 2009-03-10 Document data generation apparatus and document data generation method

Country Status (1)

Country Link
JP (1) JP5353325B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5672953B2 (en) * 2010-10-26 2015-02-18 株式会社リコー Image processing apparatus, image processing method, and image processing program
JP6201686B2 (en) * 2013-11-26 2017-09-27 コニカミノルタ株式会社 Text data embedding apparatus, image processing apparatus including the apparatus, text data embedding method, and embedding program
JP6070809B1 (en) * 2015-12-03 2017-02-01 国立大学法人静岡大学 Natural language processing apparatus and natural language processing method
JP7379876B2 (en) 2019-06-17 2023-11-15 株式会社リコー Character recognition device, document file generation method, document file generation program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535801A (en) * 1991-07-30 1993-02-12 Toshiba Corp Image storing and retrieving device
JP4421134B2 (en) * 2001-04-18 2010-02-24 富士通株式会社 Document image search device
JP2004078672A (en) * 2002-08-20 2004-03-11 Canon Inc Scanning device using document format to be retrieved
JP2009009307A (en) * 2007-06-27 2009-01-15 Canon Inc Document image processor and processing method
JP2009020567A (en) * 2007-07-10 2009-01-29 Mitsubishi Electric Corp Document retrieval device
JP5090983B2 (en) * 2008-03-25 2012-12-05 シャープ株式会社 Information processing apparatus, information processing method, information processing program, and computer-readable recording medium recording the program

Also Published As

Publication number Publication date
JP2010211470A (en) 2010-09-24

Similar Documents

Publication Publication Date Title
JP5274305B2 (en) Image processing apparatus, image processing method, and computer program
US8588528B2 (en) Systems and methods for displaying scanned images with overlaid text
JP5528121B2 (en) Image processing apparatus, image processing method, and program
JP5511450B2 (en) Image processing apparatus, image processing method, and program
US8412705B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
US8965125B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
JP4854491B2 (en) Image processing apparatus and control method thereof
US20060285748A1 (en) Document processing device
JP2011221701A (en) Image processing apparatus, image processing method and computer program
JP2004265384A (en) Image processing system, information processing device, control method, computer program, and computer-readable storage medium
JP4785655B2 (en) Document processing apparatus and document processing method
JPH0798765A (en) Direction-detecting method and image analyzer
JPH10149410A (en) Method for generating user interface form
CN111401099A (en) Text recognition method, device and storage medium
JP2019016350A (en) Identification of emphasized text in electronic documents
JP5353325B2 (en) Document data generation apparatus and document data generation method
JP2008129793A (en) Document processing system, apparatus and method, and recording medium with program recorded thereon
JP2010061471A (en) Character recognition device and program
JP4983526B2 (en) Data processing apparatus and data processing program
JP2008028716A (en) Image processing method and apparatus
JP2013152564A (en) Document processor and document processing method
CN108875570B (en) Information processing apparatus, storage medium, and information processing method
US9483694B2 (en) Image text search and retrieval system
JP7172343B2 (en) Document retrieval program
US20170249299A1 (en) Non-transitory computer readable medium and information processing apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130812

R151 Written notification of patent or utility model registration

Ref document number: 5353325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees