JP2013246721A - Character string recognition device, character string recognition program, and storage medium - Google Patents

Character string recognition device, character string recognition program, and storage medium Download PDF

Info

Publication number
JP2013246721A
JP2013246721A JP2012121172A JP2012121172A JP2013246721A JP 2013246721 A JP2013246721 A JP 2013246721A JP 2012121172 A JP2012121172 A JP 2012121172A JP 2012121172 A JP2012121172 A JP 2012121172A JP 2013246721 A JP2013246721 A JP 2013246721A
Authority
JP
Japan
Prior art keywords
character string
character
image
matching
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012121172A
Other languages
Japanese (ja)
Inventor
Satoshi Suzuki
敏 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012121172A priority Critical patent/JP2013246721A/en
Publication of JP2013246721A publication Critical patent/JP2013246721A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a character string recognition device capable of recognizing a character string more accurately, a character string recognition program, and a storage medium.SOLUTION: The character string recognition device extracts, from an input image, a character string image including a plurality of character images (step 102). The device collates each of the character images included in the extracted character string image with character information previously stored in a character database, and outputs, for each character image, a character indicated by the character information having the highest coincidence with each character image (step 104). The device performs natural language processing based on a character string consisting of the output characters, and estimates a plurality of character string candidates (step 106). For each of the estimated character string candidates, the device collates the extracted character string image with the character information that is stored in the character database and corresponds to each character included in the character string candidate, and calculates the coincidence of each character included in the character string (step 108). Based on the calculated coincidence, the device determines the most reasonable character string (step 112).

Description

本発明は、画像に含まれる文字列を認識する文字列認識装置、文字列認識プログラム、及び文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体に関する。   The present invention relates to a character string recognition device that recognizes a character string included in an image, a character string recognition program, and a computer-readable recording medium that records the character string recognition program.

従来の文字認識技術として、図6の例1に示すように、まず、入力された画像から文字列領域の画像(以下、文字列画像という)を特定して切り出し、文字列画像から各文字の画像(以下、文字画像)を切り出して、文字データベース(文字DB)に記憶されている文字情報と照合し、一致度の最も高い文字を正解として出力する技術が一般的に知られている(例えば、非特許文献1参照)。このように、従来の文字認識技術は、1文字レベルで認識するため、単語或いは文として意味を持たない文字列が出力される場合が多い。   As a conventional character recognition technique, as shown in Example 1 of FIG. 6, first, an image of a character string area (hereinafter referred to as a character string image) is specified and cut out from an input image, and each character is extracted from the character string image. A technique is generally known in which an image (hereinafter referred to as a character image) is cut out, collated with character information stored in a character database (character DB), and the character with the highest matching score is output as a correct answer (for example, Non-Patent Document 1). Thus, since the conventional character recognition technology recognizes at the level of one character, a character string having no meaning as a word or sentence is often output.

そこで、文字列を単語或いは文として推定する機能を持つ認識技術も提案されている。例えば、図6の例2に示すように、上記従来技術の例1に加えて、上記例1により認識された一致度の最も高い文字からなる文字列から、一般的な(自然な)文字列候補を推定し、推定した文字列候補の中から最も高い指標を示した文字列を出力する技術が知られている(例えば、非特許文献2参照)。   Therefore, a recognition technique having a function of estimating a character string as a word or a sentence has been proposed. For example, as shown in Example 2 of FIG. 6, in addition to the above-described prior art example 1, a general (natural) character string from a character string made up of the characters with the highest degree of matching recognized in Example 1 above. A technique for estimating a candidate and outputting a character string indicating the highest index among the estimated character string candidates is known (see, for example, Non-Patent Document 2).

Ray Smith, An Overview of the Tesseract OCR Engine, http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseracticdar2007.pdfRay Smith, An Overview of the Tesseract OCR Engine, http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseracticdar2007.pdf Takafumi Yamazoe, Minoru Etoh, Takeshi Yoshimura and Kousuke Tsujino. Hypothesis Preservation Approach to Scene Text Recognition with Weighted Finite-State Transducer, ICDAR, 2011.Takafumi Yamazoe, Minoru Etoh, Takeshi Yoshimura and Kousuke Tsujino.Hypothesis Preservation Approach to Scene Text Recognition with Weighted Finite-State Transducer, ICDAR, 2011.

しかしながら、上記従来技術において、最も高い指標を示した文字列が必ずしも正解であるとは限らない。また、固有名詞など辞書或いは学習データに含まれていない文字列を認識する場合には、推定機能を持たない文字認識結果に劣る場合がある。   However, in the above prior art, the character string showing the highest index is not always correct. Moreover, when recognizing a character string that is not included in a dictionary or learning data such as proper nouns, a character recognition result without an estimation function may be inferior.

本発明は、上記問題を解決するためになされたもので、従来技術に比べてより高精度に文字列を認識することができる文字列認識装置、文字列認識プログラム、及び文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体を提供することを目的とする。   The present invention has been made to solve the above-described problem, and records a character string recognition device, a character string recognition program, and a character string recognition program that can recognize a character string with higher accuracy than conventional techniques. An object of the present invention is to provide a computer-readable recording medium.

上記目的を達成するために、本発明の文字列認識装置は、入力画像から複数の文字画像を含む文字列画像を抽出する抽出手段と、前記抽出手段により抽出された文字列画像に含まれる文字画像の各々と、予めデータベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する第1照合手段と、前記第1照合手段から出力された文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定する文字列推定手段と、前記文字列推定手段により推定された複数の文字列候補について、前記データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出手段により抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算する第2照合手段と、前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補から、尤もらしい文字列を決定する文字列決定手段と、を備えている。   In order to achieve the above object, a character string recognition device according to the present invention includes an extraction unit that extracts a character string image including a plurality of character images from an input image, and a character included in the character string image extracted by the extraction unit. A first collation unit that collates each image with character information stored in advance in a database, and outputs a character indicated by character information having the highest degree of coincidence with the character image for each character image; Character string estimation means for performing a natural language process based on a character string composed of characters output from the means to estimate a plurality of character string candidates, and a plurality of character string candidates estimated by the character string estimation means, The character information corresponding to each character included in the character string candidate stored in the database is collated with the character string image extracted by the extracting means, and included in the character string candidate. Based on the matching degree calculated by the second matching means for calculating the matching degree of the character and the second matching means, a likely character string is determined from the plurality of character string candidates estimated by the character string estimating means. And a character string determining means.

このように、入力画像から抽出された文字列画像に含まれる文字画像の各々と文字データベースに記憶されている文字情報とを照合して得られた文字列に基づいて、自然言語処理により複数の文字列候補を推定し、推定した複数の文字列候補の各々と、文字列画像とを照合するようにしたため、言語処理的な文字列の確からしさと、画像処理による文字列画像との一致度の双方を満たす文字列が、尤もらしい文字列として決定され、従来技術に比べてより高精度に文字列を認識することができる。なお、文字列推定手段により推定される文字列候補は、人が日常的なコミュニケーションにおいて使用する文字列であって、日本語や英語などの自然言語の文字列をいう。   Thus, based on the character string obtained by collating each of the character images included in the character string image extracted from the input image with the character information stored in the character database, a plurality of natural language processing is performed. Since character string candidates are estimated and each of the estimated character string candidates is collated with the character string image, the accuracy of the linguistic character string and the degree of coincidence with the character string image by image processing A character string satisfying both of the above is determined as a plausible character string, and the character string can be recognized with higher accuracy than in the prior art. Note that the character string candidates estimated by the character string estimation means are character strings used by humans in daily communication, and are character strings in natural languages such as Japanese and English.

なお、前記第2照合手段は、前記推定された複数の文字列候補について、前記文字列候補に含まれる各文字の一致度を計算し、当該計算した一致度を用いて、前記文字列推定手段により推定された文字列候補毎の一致度を計算し、前記文字列決定手段は、前記第2照合手段により計算された文字列候補毎の一致度に基づいて、前記尤もらしい文字列を決定することができる。   The second collating unit calculates the degree of matching of each character included in the character string candidate for the estimated plurality of character string candidates, and uses the calculated degree of matching to calculate the character string estimating unit. The degree of coincidence for each character string candidate estimated by the above is calculated, and the character string determining means determines the likely character string based on the degree of coincidence for each character string candidate calculated by the second collating means. be able to.

また、前記文字列決定手段は、前記文字列候補毎の一致度の各々が、予め設定した閾値以下となる場合には、前記第1照合手段から出力された文字からなる文字列を前記尤もらしい文字列として決定するようにしてもよい。   In addition, the character string determination unit is more likely to use a character string composed of characters output from the first matching unit when each of the matching degrees for each of the character string candidates is equal to or less than a preset threshold value. It may be determined as a character string.

また、前記文字列決定手段は、前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補のうち、少なくとも1つの文字の一致度が閾値以下となる文字列以外の文字列から、尤もらしい文字列を決定するようにしてもよい。   Further, the character string determining means has a matching degree of at least one character out of a plurality of character string candidates estimated by the character string estimating means based on the matching degree calculated by the second matching means. A plausible character string may be determined from a character string other than the following character string.

また、前記文字列決定手段は、前記文字列推定手段により推定された文字列候補毎の一致度、及び前記第1照合手段から出力された文字からなる文字列の一致度の各々が、予め設定した閾値以下となる場合には、前記抽出手段により前記文字列画像として抽出された画像から前記尤もらしい文字列を決定せず、当該文字列画像として抽出された画像の領域を、文字列画像以外の非文字列画像の領域であると判断し、当該非文字列画像の領域に関する情報を所定の保存部に保存し、非文字列画像の領域であると判断されなかった文字列画像の領域については、当該文字列画像の領域に関する情報を前記非文字列画像の領域に関する情報と区別して前記保存部に保存するようにしてもよい。   In addition, the character string determination unit sets in advance each of the degree of coincidence for each character string candidate estimated by the character string estimation unit and the degree of coincidence of character strings made up of characters output from the first matching unit. If the value is equal to or less than the threshold value, the likelihood of the character string is not determined from the image extracted as the character string image by the extraction unit, and the region of the image extracted as the character string image About a region of a character string image that is determined not to be a region of a non-character string image, and is stored in a predetermined storage unit. May store the information related to the area of the character string image in the storage unit separately from the information related to the area of the non-character string image.

また、本発明のプログラムは、コンピュータを上記文字列認識装置の各手段として機能させるための文字列認識プログラムである。   Moreover, the program of this invention is a character string recognition program for functioning a computer as each means of the said character string recognition apparatus.

また、本発明の記録媒体は、コンピュータを上記文字列認識装置の各手段として機能させるための文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体である。   The recording medium of the present invention is a computer-readable recording medium on which a character string recognition program for causing a computer to function as each means of the character string recognition device is recorded.

以上説明したように、本発明の文字列認識装置、文字列認識プログラム、及び記録媒体によれば、従来技術に比べてより高精度に文字列を認識することができる、という効果が得られる。   As described above, according to the character string recognition device, the character string recognition program, and the recording medium of the present invention, it is possible to obtain an effect that a character string can be recognized with higher accuracy than in the related art.

実施の形態に係る文字列認識装置の構成の一例を示す図である。It is a figure which shows an example of a structure of the character string recognition apparatus which concerns on embodiment. 文字列認識処理ルーチンのフローチャートの一例である。It is an example of the flowchart of a character string recognition process routine. 文字列認識処理ルーチンのフローチャートの他の例である。It is another example of the flowchart of a character string recognition processing routine. 文字列認識処理の具体例を模式的に説明する説明図である。It is explanatory drawing which illustrates the specific example of a character string recognition process typically. 文字列認識装置の他の構成例を示す図である。It is a figure which shows the other structural example of a character string recognition apparatus. 従来の文字認識技術について説明する説明図である。It is explanatory drawing explaining the conventional character recognition technique.

以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本実施の形態に係る文字列認識装置の構成の一例を示す図である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram illustrating an example of a configuration of a character string recognition apparatus according to the present embodiment.

文字列認識装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、CPUが後述する各処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。また、文字列認識装置10を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにCPUが実行するプログラムが記憶されていてもよい。CPUがROMやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。   The character string recognition device 10 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), and a ROM (Read Only Memory) that stores a program for the CPU to execute each processing routine described later. It consists of The computer constituting the character string recognition device 10 may include a storage unit such as a hard disk drive, a communication interface, and the like. A program executed by the CPU may be stored in the hard disk drive. When the CPU reads and executes a program stored in a storage unit such as a ROM or a hard disk, functions described below are realized by cooperating the hardware and the program.

このコンピュータは、機能的には、図1に示すように、文字列画像抽出部12、第1照合部14、文字列推定部16、第2照合部18、文字列決定部20、文字DB(データベース)22、言語DB24、及びページフォーマット保存部26を含んだ構成で表わすことができる。   As shown in FIG. 1, this computer functionally includes a character string image extraction unit 12, a first collation unit 14, a character string estimation unit 16, a second collation unit 18, a character string determination unit 20, a character DB ( Database) 22, language DB 24, and page format storage unit 26.

文字DB22には、様々な書体(フォント)、サイズ、及び太さの文字を示す文字情報が予め文字毎に登録されている。なお、文字情報は、例えば、個々の文字の文字パターン画像情報であってもよいし、個々の文字の特徴を示す特徴値であってもよい。言語DB24には、人が日常的に使用する日本語や英語などの自然言語の大量の言語データが、コンピュータによる検索が可能な状態で記憶されている。   In the character DB 22, character information indicating characters of various typefaces (fonts), sizes, and thicknesses is registered in advance for each character. Note that the character information may be, for example, character pattern image information of each character, or may be a feature value indicating a feature of each character. The language DB 24 stores a large amount of natural language data such as Japanese and English that are used by people on a daily basis in a state that can be searched by a computer.

なお、ここでは、文字列認識装置10が文字DB22及び言語DB24を備えている場合について説明したが、例えば文字DB22及び言語DB24が文字列認識装置10の外部装置に設けられ、文字列認識装置10は、外部装置と通信手段を用いて通信することにより、文字DB22、及び言語DB24を参照するようにしてもよい。   Although the case where the character string recognition device 10 includes the character DB 22 and the language DB 24 has been described here, for example, the character DB 22 and the language DB 24 are provided in an external device of the character string recognition device 10, and the character string recognition device 10. May refer to the character DB 22 and the language DB 24 by communicating with an external device using communication means.

文字列画像抽出部12は、文字列認識対象としての入力画像を取得し、画像処理により、入力画像から文字列領域の画像(以下、文字列画像)を抽出する。文字列画像は、複数の文字画像を含むものである。   The character string image extraction unit 12 acquires an input image as a character string recognition target, and extracts an image of a character string region (hereinafter, a character string image) from the input image by image processing. The character string image includes a plurality of character images.

第1照合部14は、文字列画像抽出部12により抽出された文字列画像に含まれる文字画像の各々と、予め文字DB22に記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する。以下、第1照合部14から出力された文字からなる文字列を、便宜上、仮認識文字列と呼称する。   The first collation unit 14 collates each character image included in the character string image extracted by the character string image extraction unit 12 with character information stored in the character DB 22 in advance, and for each character image, the character The character indicated by the character information having the highest degree of coincidence with the image is output. Hereinafter, a character string composed of characters output from the first verification unit 14 is referred to as a temporary recognition character string for convenience.

文字列推定部16は、仮認識文字列に基づいて、言語DB24を用いた周知の自然言語処理を行ない、複数の文字列候補を推定する。ここで推定される文字列候補は、人が日常的なコミュニケーションにおいて使用する文字列であって、日本語や英語などの自然言語の文字列をいう。以下、文字列推定部16により推定された文字列候補の集合を文字列候補群と呼称する。   The character string estimation unit 16 performs known natural language processing using the language DB 24 based on the temporarily recognized character string, and estimates a plurality of character string candidates. The character string candidate estimated here is a character string that a person uses in daily communication, and refers to a character string in a natural language such as Japanese or English. Hereinafter, a set of character string candidates estimated by the character string estimation unit 16 is referred to as a character string candidate group.

第2照合部18は、文字列候補群の各文字列候補と、文字列画像抽出部12により抽出された文字列画像とを照合する。ここでは、文字列候補の各々に含まれる文字単位で照合を行なう。具体的には、第2照合部18は、文字列候補に含まれる文字に対応する文字情報を文字DB22から選択し、当該選択した文字情報の各々と、文字列画像抽出部12により抽出された文字列画像に含まれる文字画像の各々とを照合する。   The second collating unit 18 collates each character string candidate in the character string candidate group with the character string image extracted by the character string image extracting unit 12. Here, collation is performed in units of characters included in each of the character string candidates. Specifically, the second collation unit 18 selects character information corresponding to the character included in the character string candidate from the character DB 22, and the selected character information and the character string image extraction unit 12 extract the selected character information. Each character image included in the character string image is collated.

文字列決定部20は、第2照合部18による照合結果に基づいて、尤もらしい文字列を決定する。ここで決定された文字列が文字列認識結果として出力される。   The character string determination unit 20 determines a likely character string based on the collation result by the second collation unit 18. The character string determined here is output as a character string recognition result.

また、文字列決定部20は、第1照合部14による照合結果及び第2照合部18による照合結果を参照し、仮認識文字列及び文字列候補の各々の文字列単位の一致度が全て、予め設定された閾値以下の場合には、文字列画像抽出部12により抽出された画像は、文字列領域の画像ではなく、挿絵や写真など、文字列以外の非文字列領域の画像であると判断し、当該画像からの文字列の決定は行なわず、入力画像における当該非文字列領域に関する情報(例えば、当該非文字列領域の座標及びサイズを示す情報)をページフォーマット情報としてページフォーマット保存部26に保存する。   Further, the character string determination unit 20 refers to the collation result by the first collation unit 14 and the collation result by the second collation unit 18, and the matching degree of each character string unit of the temporary recognition character string and the character string candidate is all When the threshold value is equal to or lower than a preset threshold, the image extracted by the character string image extraction unit 12 is not a character string region image but an image of a non-character string region other than a character string, such as an illustration or a photograph. The page format storage unit determines and determines the character string from the image, and uses information about the non-character string region in the input image (for example, information indicating the coordinates and size of the non-character string region) as page format information. 26.

また、文字列決定部20は、非文字列領域の画像であると判断されなかった画像については、ページフォーマット情報として当該文字列画像の領域(文字列領域)に関する情報(例えば、当該文字列領域の座標、サイズ、及びフォントの情報)を、前記非文字列領域に関する情報と区別してページフォーマット保存部26に保存する。   In addition, for an image that is not determined to be an image of a non-character string area, the character string determination unit 20 includes information related to the area (character string area) of the character string image (for example, the character string area) as page format information. Are stored in the page format storage unit 26 separately from the information related to the non-character string region.

次に、文字列認識装置10の作用について図2を参照して詳細に説明する。   Next, the operation of the character string recognition device 10 will be described in detail with reference to FIG.

ステップ100において、文字列画像抽出部12は、文字列認識対象としての入力画像を取得する。   In step 100, the character string image extraction unit 12 acquires an input image as a character string recognition target.

ステップ102において、文字列画像抽出部12は、取得した入力画像から文字列画像を抽出する。   In step 102, the character string image extraction unit 12 extracts a character string image from the acquired input image.

ステップ104において、第1照合部14は、文字列画像抽出部12により抽出された文字列画像から個々の文字画像を切り出す。そして、第1照合部14は、該切り出した文字画像の各々と、予め文字DB22に記憶されている文字情報とを照合し、文字画像毎に当該文字画像との一致度が最も高い文字情報が示す文字(テキストデータ)を出力する。なお、ここで、例えば文字情報が文字パターン画像ではなく、文字の特徴を示すベクトル等の特徴値であった場合には、第1照合部14は、文字情報を画像に展開して文字列画像の文字画像と照合する。なお、文字画像を文字情報と同様の形式に変換して照合するようにしてもよい。   In step 104, the first matching unit 14 cuts out individual character images from the character string image extracted by the character string image extraction unit 12. And the 1st collation part 14 collates each of the cut-out character image with the character information previously memorize | stored in character DB22, and character information with the highest matching degree with the said character image for every character image is obtained. Output the indicated character (text data). Here, for example, when the character information is not a character pattern image but a feature value such as a vector indicating the feature of the character, the first collation unit 14 develops the character information into an image and displays the character string image. Match with the character image of. The character image may be converted into the same format as the character information and collated.

なお、第1照合部14は、文字列画像抽出部12により抽出された文字列画像が、横書きの文字列画像であれば、左から右に向かう(認識言語によっては右から左であってもよい)配列順に各文字画像と文字情報とを照合し、上記抽出された文字列画像が、縦書きの文字列画像であれば、上から下に向かう配列順に各文字画像と文字情報とを順に照合していく。照合して出力された文字を出力順に並べることで仮認識文字列が得られる。   If the character string image extracted by the character string image extraction unit 12 is a horizontally written character string image, the first matching unit 14 moves from left to right (depending on the recognition language, from right to left). Good) Each character image and character information are collated in the order of arrangement, and if the extracted character string image is a vertically written character string image, each character image and character information are arranged in order from the top to the bottom. We will collate. A temporary recognition character string is obtained by arranging characters output after collation in the order of output.

ステップ100からステップ104までの処理は、周知の従来手法(例えば、図4に例示した例1の手法)と同様の技術を利用できる。   For the processing from step 100 to step 104, a technique similar to a known conventional method (for example, the method of Example 1 illustrated in FIG. 4) can be used.

次に、ステップ106において、文字列推定部16は、仮認識文字列をもとに自然言語処理を行なって、複数の文字列候補を推定する。この自然言語処理では、言語DB24に登録されている言語データが参照される。文字列推定部16は、推定結果を1つの文字列に絞らず、尤もらしい順に複数の文字列候補を出力する。   Next, in step 106, the character string estimation unit 16 performs natural language processing based on the temporarily recognized character string to estimate a plurality of character string candidates. In this natural language processing, language data registered in the language DB 24 is referred to. The character string estimation unit 16 outputs a plurality of character string candidates in a probable order without narrowing the estimation result to one character string.

なお、ここで用いる言語処理技術には、単語推定、共起語推定、誤り訂正法(例えば、非参考文献3:永田. 文字類似度と統計的言語モデルを用いた日本語文字認識誤り訂正法. 情処論, 81(11):2624−2634, 1998.参照)等、様々な手法を適用できる。   The language processing techniques used here include word estimation, co-occurrence word estimation, and error correction methods (eg, Non-reference 3: Nagata. Japanese character recognition error correction method using character similarity and statistical language model). Various methods such as Information Processing, 81 (11): 2624-2634, 1998) can be applied.

ステップ108において、第2照合部18は、複数の文字列候補と、文字列画像抽出部12により抽出された文字列画像とを順次照合する。本実施形態において、この照合は、文字DB22を再度利用して、文字毎に行なう。   In step 108, the second collation unit 18 sequentially collates the plurality of character string candidates with the character string image extracted by the character string image extraction unit 12. In this embodiment, this collation is performed for each character by using the character DB 22 again.

以下、第2照合部18による処理を詳述する。第2照合部18は、各文字列候補に含まれる複数の文字の各々に対応する複数の文字情報を、文字DB22に記憶されている文字情報から選択する。そして、第2照合部18は、該選択した文字情報の各々と、文字列画像抽出部12により抽出された文字列画像に含まれる文字画像の各々とを照合し、各文字列候補に含まれる文字毎に文字画像との一致度を計算する。なお、文字情報が示す文字の文字列候補における位置と、当該文字情報と照合される個々の文字画像の文字列画像における位置とは、互いに対応しているものとする。また、ここでも、ステップ104における第1照合部14の処理と同様に、文字情報が特徴値等により表わされており、照合する文字画像と文字情報とが異なる形式である場合には、文字情報を画像に展開して文字列画像の文字画像と照合する。或いは、文字画像を文字情報の形式に変換して照合してもよい。   Hereinafter, the process by the 2nd collation part 18 is explained in full detail. The second matching unit 18 selects a plurality of character information corresponding to each of a plurality of characters included in each character string candidate from the character information stored in the character DB 22. Then, the second collating unit 18 collates each of the selected character information with each of the character images included in the character string image extracted by the character string image extracting unit 12, and is included in each character string candidate. The degree of coincidence with the character image is calculated for each character. In addition, the position in the character string candidate of the character which character information shows, and the position in the character string image of each character image collated with the said character information shall mutually respond | correspond. Also here, as in the processing of the first collation unit 14 in step 104, character information is represented by feature values and the like, and if the character image to be collated and the character information are in a different format, the character information The information is developed into an image and collated with the character image of the character string image. Alternatively, the character image may be converted into a character information format and collated.

ここで、第2照合部18による照合処理について詳述する。第2照合部18は、推定された文字列候補に文字DB22に登録されているフォントを順次適用、或いは複数のフォントを組み合わせてできる新しい字体を適用し、文字列候補を構成する各文字の文字画像を生成した後、第1照合部14と同様に、生成した文字画像と文字列画像に含まれる各文字画像と照合し、文字毎の一致度を計算する。   Here, the verification process by the second verification unit 18 will be described in detail. The second collation unit 18 sequentially applies the font registered in the character DB 22 to the estimated character string candidate, or applies a new font that is a combination of a plurality of fonts, and the character of each character constituting the character string candidate After the image is generated, the generated character image is compared with each character image included in the character string image, and the matching degree for each character is calculated in the same manner as the first matching unit 14.

照合の結果、文字列候補に一致度の極めて低い文字が含まれていると、当該文字列候補について次のステップ110において計算される文字列候補毎の一致度も低い値となる。なお、一致度が予め設定された閾値より小さい文字が含まれている文字列候補については、当該文字列候補に含まれる他の文字の一致度に拘わらず、文字列候補群から除外してもよい。   As a result of the collation, if the character string candidate includes characters with a very low matching score, the matching score for each character string candidate calculated in the next step 110 for the character string candidate is also a low value. It should be noted that a character string candidate that includes a character whose matching degree is smaller than a preset threshold value may be excluded from the character string candidate group regardless of the matching degree of other characters included in the character string candidate. Good.

ステップ110において、第2照合部18は、上記ステップ108において計算された文字毎の一致度に基づいて、文字列候補毎の一致度を計算する。例えば、文字列候補に含まれる文字毎の一致度の総和を、当該文字列候補の一致度としてもよいし、当該総和に予め定められた係数を乗じた値を当該文字列候補の一致度としてもよい。   In step 110, the second matching unit 18 calculates the degree of coincidence for each character string candidate based on the degree of coincidence for each character calculated in step 108. For example, the sum of the matching degrees for each character included in the character string candidate may be used as the matching degree of the character string candidate, or a value obtained by multiplying the sum by a predetermined coefficient is used as the matching degree of the character string candidate. Also good.

ステップ112において、文字列決定部20は、文字列候補毎の一致度に基づいて、尤もらしい文字列を決定し、出力する。具体的には、例えば、文字列候補毎の一致度が最も高い文字列候補を、尤もらしい文字列として決定することができる。   In step 112, the character string determination unit 20 determines and outputs a plausible character string based on the matching degree for each character string candidate. Specifically, for example, the character string candidate having the highest degree of matching for each character string candidate can be determined as a likely character string.

また、文字列候補毎の一致度を予め設定した閾値と比較して決定してもよい。具体的には、文字列決定部20は、文字列候補群の中に、予め設定した閾値を超える一致度の文字列候補がある場合には、閾値を超える最も高い一致度の文字列候補を尤もらしい文字列として決定し、上記予め設定した閾値を超える一致度の文字列候補がない場合には、文字列画像から直接取り出された仮認識文字列を尤もらしい文字列として決定してもよい。   Further, the matching degree for each character string candidate may be determined by comparing with a preset threshold value. Specifically, when there is a character string candidate having a matching degree exceeding a preset threshold in the character string candidate group, the character string determining unit 20 selects the character string candidate having the highest matching degree exceeding the threshold. If it is determined as a plausible character string and there is no character string candidate with a matching degree exceeding the preset threshold, a temporarily recognized character string directly extracted from the character string image may be determined as a plausible character string. .

更にまた、文字列決定部20は、上記予め設定した閾値を超える一致度の文字列候補がない場合において、第1照合部14による照合結果から仮認識文字列の文字列単位の一致度を更に計算し、当該一致度も上記予め設定した閾値を超えないときには、文字列画像抽出部12により抽出された画像は、文字列領域の画像ではなく、挿絵や写真など、文字列以外の非文字列領域の画像であると判断し、当該画像からの文字列の決定は行なわず、入力画像における当該非文字列領域の座標(例えば当該領域の左上頂点の座標としてもよい)及びサイズを示す情報等をページフォーマット情報としてページフォーマット保存部26に保存する。なお、仮認識文字列の文字列単位の一致度は、第1照合部14で予め計算するようにしてもよい。   Furthermore, when there is no character string candidate with a matching degree exceeding the preset threshold, the character string determining unit 20 further determines the matching degree of the character string unit of the temporarily recognized character string from the matching result by the first matching unit 14. When the calculated degree of coincidence does not exceed the preset threshold, the image extracted by the character string image extraction unit 12 is not an image of the character string region, but a non-character string other than a character string, such as an illustration or a photograph. Information indicating the coordinates of the non-character string area in the input image (for example, the coordinates of the upper left vertex of the area) and the size are determined without determining the character string from the image and determining that the image is an area image. Is stored in the page format storage unit 26 as page format information. Note that the matching degree of the temporarily recognized character string in character string units may be calculated in advance by the first matching unit 14.

また、文字列決定部20は、非文字列領域の画像であると判断されなかった文字列画像については、当該文字列画像の領域の座標、サイズ、及びフォントの情報等をページフォーマット情報として前記非文字列領域に関する情報と区別してページフォーマット保存部26に保存する。例えば、文字列領域に関する情報には、文字列領域であることを示すフラグを付与する等により区別する。   For the character string image that is not determined to be a non-character string region image, the character string determination unit 20 uses the coordinates, size, font information, and the like of the character string image region as page format information. The information is stored in the page format storage unit 26 separately from the information related to the non-character string region. For example, the information related to the character string area is distinguished by adding a flag indicating that it is a character string area.

従来は、文字列画像抽出において、入力画像から可能な限り全ての部分領域を文字列領域であると仮定し、文字列画像の抽出を行なうのが一般的であった。上記手法によれば、文字列領域と非文字列領域とを区別してページフォーマット情報として保存されるため、これを利用すれば、更なる文字認識処理、或いは文字認識以外の画像処理などを効率よく行うことができる。   Conventionally, in character string image extraction, it has been common to extract character string images assuming that all partial regions from the input image are character string regions as much as possible. According to the above method, the character string area and the non-character string area are distinguished and stored as page format information. By using this, further character recognition processing or image processing other than character recognition can be efficiently performed. It can be carried out.

例えば、同じようなページフォーマットの複数ページからなる書籍や書類のページの読取画像を入力画像として文字列抽出を行なう場合、文字列画像抽出部12は、最初の数ページ分のページフォーマット情報が得られた段階で、それ以降のページの画像については、ページフォーマット保存部26に記憶されたページフォーマット情報を参照して文字列画像の抽出を行なうことができる。具体的には、文字列画像抽出部12は、ページフォーマット情報として記憶されている非文字列領域以外の文字列領域の座標及びサイズに従って、文字列画像を抽出することができる。これにより文字列画像の抽出処理が効率化する。また、第1照合部14において、ページフォーマット情報として記憶されているフォントの情報に従って、文字DB22から該当の文字情報を選択して照合に用いることができる。これにより、照合処理が効率化する。   For example, when a character string is extracted using a read image of a book or document page composed of a plurality of pages having the same page format as an input image, the character string image extraction unit 12 obtains page format information for the first several pages. At this stage, the character string image can be extracted with reference to the page format information stored in the page format storage unit 26 for the subsequent page images. Specifically, the character string image extraction unit 12 can extract a character string image according to the coordinates and size of a character string area other than the non-character string area stored as page format information. This increases the efficiency of the character string image extraction process. Further, in the first verification unit 14, the corresponding character information can be selected from the character DB 22 and used for verification in accordance with the font information stored as the page format information. Thereby, the collation process becomes efficient.

また、ページフォーマット保存部26の情報を、挿絵や写真等のイメージを抽出する際に参照することもできる。これにより、文字列ではなく、挿絵や写真等のイメージを抽出する処理を効率化できる。   The information in the page format storage unit 26 can be referred to when extracting an image such as an illustration or a photograph. Thereby, it is possible to improve the efficiency of extracting an image such as an illustration or a photograph instead of a character string.

なお、上記ステップ106における自然言語処理による文字列の推定については、周知の従来手法(例えば、図4に示した例2の手法)を利用できる。また、第2照合部18による文字列候補と文字列画像との文字毎の照合も、従来技術の照合と同じ技術で実現できる。すなわち、文字DB22から文字列候補の文字に対応する文字のデータ(様々な書体、サイズ、太さの画像情報)を取り出し、文字列画像の各文字画像と照合すればよい。文字毎の一致度の計算も同様である。   For the estimation of the character string by the natural language processing in step 106, a known conventional method (for example, the method of Example 2 shown in FIG. 4) can be used. Further, collation for each character between the character string candidate and the character string image by the second collation unit 18 can be realized by the same technique as the collation of the prior art. That is, character data (image information of various typefaces, sizes, and thicknesses) corresponding to the character string candidate character is extracted from the character DB 22 and compared with each character image of the character string image. The same applies to the calculation of the matching degree for each character.

なお、上記では、文字列候補毎の一致度を全ての文字列候補について予め求めておき、これら文字列候補毎の一致度に基づいて尤もらしい文字列を決定する例について説明したが、これに限定されない。   In the above description, an example has been described in which the degree of matching for each character string candidate is obtained in advance for all character string candidates, and a plausible character string is determined based on the degree of matching for each character string candidate. It is not limited.

例えば、文字毎の照合結果と文字列候補の推定度(仮認識文字列を元に文字列候補を推定したときの確からしさ)とを加味して、出力となる文字列を決定するようにしてもよい。例えば、推定度の高い順に文字列候補と文字列画像との照合を行い、文字毎の一致度が予め設定した閾値を下回る文字を含まない最初の文字列候補を尤もらしい文字列として決定し、出力することもできる。以下、図3のフローチャートを参照して説明する。なお、図3において、図2と同じ処理については同一のステップ番号を付して説明を省略する。   For example, the character string to be output is determined in consideration of the collation result for each character and the estimation degree of the character string candidate (the probability when the character string candidate is estimated based on the temporarily recognized character string). Also good. For example, character string candidates and character string images are collated in descending order of estimation, and the first character string candidate that does not include characters whose matching degree for each character is lower than a preset threshold is determined as a plausible character string. It can also be output. This will be described below with reference to the flowchart of FIG. In FIG. 3, the same steps as those in FIG. 2 are denoted by the same step numbers and description thereof is omitted.

ステップ120において、第2照合部18は、ステップ106において推定された文字列候補群に含まれる文字列候補の中から最も推定度の高い文字列候補を1つ選択する。ステップ122において、第2照合部18は、選択した文字列候補と文字列画像とを照合する。この照合は、上記ステップ108と同様、文字単位での照合とされる。ステップ124において、第2照合部18は、文字列候補に含まれる各文字について、文字毎の一致度を計算する。ステップ126において、文字列決定部20は、一致度が予め設定した閾値以下の文字が文字列候補に存在するか否かを判断する。ステップ126で否定判断された場合には、ステップ130において、文字列決定部20は、現在選択中の文字列候補を尤もらしい文字列として決定し、出力する。   In step 120, the second matching unit 18 selects one character string candidate with the highest estimation degree from the character string candidates included in the character string candidate group estimated in step 106. In step 122, the second collating unit 18 collates the selected character string candidate with the character string image. This collation is performed in character units as in step 108. In step 124, the second matching unit 18 calculates the degree of matching for each character for each character included in the character string candidate. In step 126, the character string determination unit 20 determines whether or not a character having a matching degree equal to or less than a preset threshold value exists in the character string candidate. If a negative determination is made in step 126, in step 130, the character string determination unit 20 determines and outputs the currently selected character string candidate as a likely character string.

一方、文字列決定部20は、ステップ124で肯定判断した場合には、ステップ128で、文字列候補群の全文字列候補についての照合が終了したか否かを判定する。ステップ128で否定判断した場合には、現在選択中の文字列候補を破棄し、ステップ120に戻り、次に推定度の高い文字列候補を選択して照合を行なう。また、文字列決定部20は、ステップ128で肯定判断した場合には、ステップ130において、仮認識文字列を尤もらしい文字列として決定して出力する。   On the other hand, if an affirmative determination is made in step 124, the character string determination unit 20 determines in step 128 whether or not collation for all character string candidates in the character string candidate group has been completed. If a negative determination is made in step 128, the currently selected character string candidate is discarded, and the process returns to step 120, where the character string candidate with the next highest estimate is selected and collated. If the determination in step 128 is affirmative, the character string determination unit 20 determines and outputs the temporary recognition character string as a likely character string in step 130.

次に、図4を参照して、図1の構成図と比較しながらより具体的な例を挙げて文字列認識装置10による作用を説明する。なお、ここでは、図3を参照して説明した、推定度の高い順に照合を行なう場合を例に挙げて説明する。
(1)入力画像が取得される(図1(A))。
(2)文字列画像が切り出される(図1(B))。一点鎖線により囲まれた部分が文字列領域である。
(3)文字列画像の文字画像毎に文字DB22の文字情報と照合され(図1(C))、最も一致度が高い文字情報の文字がそれぞれ出力として取り出される(図1(D))。このとき、文字の切り分けや背景などの影響により、必ずしも正しい文字列が取り出されるとは限らない。
(4)取り出された文字列(仮認識文字列)を元に自然言語処理を行ない、複数の文字列候補を推定し(図1(E))、尤もらしい順に(推定度が高い順に)複数の文字列候補を出力する(図1(F))。前述したように、ここで用いる言語処理技術には、単語推定、共起語推定、誤り訂正法等、様々な手法を適用できる。図3では、DRY CLEANER、DRY CLEANING、DERBY CLOTHINGという3つの文字列候補が推定された状態が示されている。
(5)推定度の高い文字列候補から順に文字列画像と照合する。ここでの照合は、文字DBから該当する文字情報を取り出し、文字毎に行なう(図1(G))。この照合結果から、尤もらしい文字列を決定し(図1(H))、出力する(図1(I))。
Next, the operation of the character string recognition device 10 will be described with reference to FIG. 4 by giving a more specific example while comparing with the configuration diagram of FIG. Here, the case where collation is performed in descending order of estimation described with reference to FIG. 3 will be described as an example.
(1) An input image is acquired (FIG. 1A).
(2) A character string image is cut out (FIG. 1B). A portion surrounded by a one-dot chain line is a character string region.
(3) Each character image of the character string image is collated with the character information in the character DB 22 (FIG. 1C), and the character information having the highest matching degree is extracted as an output (FIG. 1D). At this time, a correct character string is not always extracted due to the influence of character segmentation or background.
(4) Natural language processing is performed based on the extracted character string (temporarily recognized character string), and a plurality of character string candidates are estimated (FIG. 1E). Is output (FIG. 1 (F)). As described above, various methods such as word estimation, co-occurrence word estimation, and error correction can be applied to the language processing technique used here. FIG. 3 shows a state in which three character string candidates DRY CLEANER, DRY CLEANING, and DERBY CLOTHING are estimated.
(5) The character string image is collated in order from the character string candidate with the highest estimation. The collation here is performed for each character by extracting the corresponding character information from the character DB (FIG. 1G). From this collation result, a plausible character string is determined (FIG. 1 (H)) and output (FIG. 1 (I)).

例えば、予め設定された閾値以下の文字が現れればこの文字列候補を破棄し、次の文字列候補の照合へ移る。閾値以下の文字が現れなければこの文字列候補を尤もらしい文字列として決定し、出力とする。すなわち、ここでは、文字毎の一致度が全て閾値を上回る文字列候補のうち推定度が最も高い文字列候補が、尤もらしい文字列として決定される。また、全ての文字列候補で各文字の一致度が閾値以下となる場合は、上記(3)の出力を最終出力として採用する。なお、一致度計算及び文字列決定の方法としては、図2を参照して説明したように、文字列候補毎に当該文字列候補に含まれる文字毎の一致度の総和等を文字列候補毎の一致度として計算し、最大の一致度を示した文字列候補を尤もらしい文字列として決定して出力する方法も適用できる。   For example, if a character that is equal to or smaller than a preset threshold appears, the character string candidate is discarded, and the process proceeds to the next character string candidate collation. If no character below the threshold appears, this character string candidate is determined as a plausible character string and is output. That is, here, the character string candidate having the highest estimation degree among the character string candidates whose matching degree for each character exceeds all the threshold values is determined as a likely character string. Further, when the matching degree of each character is less than or equal to the threshold value in all character string candidates, the output of (3) is adopted as the final output. Note that, as described with reference to FIG. 2, as a method of calculating the degree of coincidence and character string determination, the sum of the degree of coincidence for each character included in the character string candidate is calculated for each character string candidate. It is also possible to apply a method in which the character string candidate showing the maximum degree of coincidence is determined as a plausible character string and output.

以上説明したように、画像処理により取り出された(第1照合部14の照合により得られた)文字列を文字列推定部16の自然言語処理により一般的な文字列候補へ変換し、再びこれら文字列候補を文字列画像と照合することにより、言語処理的な文字列の確からしさ、及び画像処理的な文字列画像との一致度の双方を満たす文字列が最終的な文字列認識結果として得られるため、より精度の高い文字列認識機能を実現することが可能となる。   As described above, the character strings extracted by the image processing (obtained by the collation of the first collation unit 14) are converted into general character string candidates by the natural language processing of the character string estimation unit 16, and again these By matching the character string candidates with the character string image, the final character string recognition result is a character string that satisfies both the accuracy of the linguistic processing character string and the matching degree with the image processing character string image. As a result, a more accurate character string recognition function can be realized.

なお、文字列認識装置の構成は、上記例に限定されず、例えば、図5に示すような構成とすることもできる。図5に示す文字列認識装置11は、文字列画像抽出部12、第1照合部14、文字画像照合部15、文字列推定部16、文字列決定部20、文字DB22、言語DB24、及びページフォーマット保存部26を含んだ構成で表わすことができる。ここで、図5に示す符号と、図1に示す符号が同一の構成要素は、それぞれ、同一の機能を有する構成要素を意味するため説明を省略する。   The configuration of the character string recognition device is not limited to the above example, and for example, a configuration as shown in FIG. The character string recognition device 11 shown in FIG. 5 includes a character string image extraction unit 12, a first collation unit 14, a character image collation unit 15, a character string estimation unit 16, a character string determination unit 20, a character DB 22, a language DB 24, and a page. It can be expressed by a configuration including the format storage unit 26. Here, the constituent elements having the same reference numerals shown in FIG. 5 and FIG. 1 mean the constituent elements having the same functions, and the description thereof will be omitted.

図5に示す文字列認識装置11では、第1照合部14と文字画像生成部15とで第2照合部19が構成されている。文字画像生成部15は、文字列推定部16により推定された文字列候補に文字DB22に登録されているフォントを順次適用、或いは複数のフォントを組み合わせてできる新しい字体を適用し、文字列候補を構成する各文字の文字画像を生生成する。第1照合部14は、第2照合部19の機能として動作する場合には、文字画像生成部15で生成した文字画像と、文字列画像に含まれる各文字画像とを照合し、文字毎の一致度を計算する。計算された一致度は、文字列決定部20に出力される。第1照合部14及び文字画像生成部15により、図1を用いて例示した第2照合部18と同等の機能が実現される。   In the character string recognition device 11 shown in FIG. 5, the first verification unit 14 and the character image generation unit 15 constitute a second verification unit 19. The character image generation unit 15 sequentially applies the fonts registered in the character DB 22 to the character string candidates estimated by the character string estimation unit 16, or applies a new font that is a combination of a plurality of fonts. A character image of each character constituting the image is generated. When the first collating unit 14 operates as a function of the second collating unit 19, the first collating unit 14 collates the character image generated by the character image generating unit 15 with each character image included in the character string image. Calculate the degree of match. The calculated degree of coincidence is output to the character string determination unit 20. The first collation unit 14 and the character image generation unit 15 realize a function equivalent to that of the second collation unit 18 illustrated with reference to FIG.

また、上述の文字列認識装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   Moreover, although the above-mentioned character string recognition apparatus has a computer system inside, if the computer system is using the WWW system, it shall also include a homepage provision environment (or display environment).

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10、11 文字列認識装置
12 文字列画像抽出部
14 第1照合部
16 文字列推定部
18 第2照合部
20 文字列決定部
22 文字DB
24 言語DB
26 ページフォーマット保存部
DESCRIPTION OF SYMBOLS 10, 11 Character string recognition apparatus 12 Character string image extraction part 14 1st collation part 16 Character string estimation part 18 2nd collation part 20 Character string determination part 22 Character DB
24 Language DB
26 Page format storage

Claims (7)

入力画像から複数の文字画像を含む文字列画像を抽出する抽出手段と、
前記抽出手段により抽出された文字列画像に含まれる文字画像の各々と、予めデータベースに記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字を出力する第1照合手段と、
前記第1照合手段から出力された文字からなる文字列に基づいて自然言語処理を行なって、複数の文字列候補を推定する文字列推定手段と、
前記文字列推定手段により推定された複数の文字列候補について、前記データベースに記憶されている前記文字列候補に含まれる各文字に対応する文字情報と、前記抽出手段により抽出された文字列画像とを照合して、前記文字列候補に含まれる各文字の一致度を計算する第2照合手段と、
前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補から、尤もらしい文字列を決定する文字列決定手段と、
を備えた文字列認識装置。
Extracting means for extracting a character string image including a plurality of character images from the input image;
Each character image included in the character string image extracted by the extraction means is collated with character information stored in advance in the database, and character information having the highest degree of coincidence with the character image is indicated for each character image. First collation means for outputting characters;
Character string estimation means for performing natural language processing based on a character string composed of characters output from the first collating means, and estimating a plurality of character string candidates;
For a plurality of character string candidates estimated by the character string estimating means, character information corresponding to each character included in the character string candidates stored in the database, a character string image extracted by the extracting means, and Second matching means for calculating the matching degree of each character included in the character string candidate,
A character string determining means for determining a plausible character string from a plurality of character string candidates estimated by the character string estimating means based on the degree of coincidence calculated by the second matching means;
A character string recognition device.
前記第2照合手段は、前記推定された複数の文字列候補について、前記文字列候補に含まれる各文字の一致度を計算し、当該計算した一致度を用いて、前記文字列推定手段により推定された文字列候補毎の一致度を計算し、
前記文字列決定手段は、前記第2照合手段により計算された文字列候補毎の一致度に基づいて、前記尤もらしい文字列を決定する
請求項1に記載の文字列認識装置。
The second collating unit calculates a matching degree of each character included in the character string candidate for the estimated plurality of character string candidates, and uses the calculated matching degree to estimate by the character string estimating unit. Calculate the degree of matching for each of the string candidates
The character string recognition apparatus according to claim 1, wherein the character string determination unit determines the likely character string based on a degree of matching for each character string candidate calculated by the second matching unit.
前記文字列決定手段は、前記文字列候補毎の一致度の各々が、予め設定した閾値以下となる場合には、前記第1照合手段から出力された文字からなる文字列を前記尤もらしい文字列として決定する
請求項2に記載の文字列認識装置。
The character string determining means determines that the character string consisting of characters output from the first matching means is the likely character string when each matching degree for each character string candidate is equal to or less than a preset threshold value. The character string recognition device according to claim 2.
前記文字列決定手段は、前記文字列推定手段により推定された文字列候補毎の一致度、及び前記第1照合手段から出力された文字からなる文字列の一致度の各々が、予め設定した閾値以下となる場合には、前記抽出手段により前記文字列画像として抽出された画像から前記尤もらしい文字列を決定せず、当該文字列画像として抽出された画像の領域を、文字列画像以外の非文字列画像の領域であると判断し、当該非文字列画像の領域に関する情報を所定の保存部に保存し、非文字列画像の領域であると判断されなかった文字列画像の領域については、当該文字列画像の領域に関する情報を前記非文字列画像の領域に関する情報と区別して前記保存部に保存する
請求項2に記載の文字列認識装置。
The character string determining means has a preset threshold value for each of the matching degree for each character string candidate estimated by the character string estimating means and the matching degree of the character string composed of characters output from the first matching means. In the following cases, the plausible character string is not determined from the image extracted as the character string image by the extraction means, and the region of the image extracted as the character string image is determined as a non-character string image. It is determined that the area of the character string image, information on the area of the non-character string image is stored in a predetermined storage unit, and the area of the character string image that is not determined to be the area of the non-character string image, The character string recognition device according to claim 2, wherein information relating to the area of the character string image is stored in the storage unit in a manner different from information relating to the area of the non-character string image.
前記文字列決定手段は、前記第2照合手段によって計算された一致度に基づいて、前記文字列推定手段により推定された複数の文字列候補のうち、少なくとも1つの文字の一致度が閾値以下となる文字列候補以外の文字列候補から、尤もらしい文字列を決定する
請求項1〜請求項4の何れか1項記載の文字列認識装置。
The character string determination means has a matching degree of at least one character of a plurality of character string candidates estimated by the character string estimation means based on the matching degree calculated by the second matching means as a threshold value or less. The character string recognition device according to claim 1, wherein a plausible character string is determined from character string candidates other than the character string candidates.
コンピュータを請求項1〜請求項5の何れか1項記載の文字列認識装置の各手段として機能させるための文字列認識プログラム。   The character string recognition program for functioning a computer as each means of the character string recognition apparatus in any one of Claims 1-5. コンピュータを請求項1〜請求項5の何れか1項記載の文字列認識装置の各手段として機能させるための文字列認識プログラムを記録したコンピュータ読取り可能な記録媒体。   A computer-readable recording medium on which is recorded a character string recognition program for causing a computer to function as each means of the character string recognition device according to any one of claims 1 to 5.
JP2012121172A 2012-05-28 2012-05-28 Character string recognition device, character string recognition program, and storage medium Pending JP2013246721A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012121172A JP2013246721A (en) 2012-05-28 2012-05-28 Character string recognition device, character string recognition program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012121172A JP2013246721A (en) 2012-05-28 2012-05-28 Character string recognition device, character string recognition program, and storage medium

Publications (1)

Publication Number Publication Date
JP2013246721A true JP2013246721A (en) 2013-12-09

Family

ID=49846413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012121172A Pending JP2013246721A (en) 2012-05-28 2012-05-28 Character string recognition device, character string recognition program, and storage medium

Country Status (1)

Country Link
JP (1) JP2013246721A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102048638B1 (en) * 2018-08-31 2019-11-25 망고슬래브 주식회사 Method and system for recognizing content

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59128681A (en) * 1983-01-12 1984-07-24 Comput Basic Mach Technol Res Assoc Character reader
JPS6491288A (en) * 1987-09-30 1989-04-10 Toshiba Corp Character reader
JPH04349581A (en) * 1991-05-27 1992-12-04 Dainippon Printing Co Ltd Text data file generating system
JPH06111079A (en) * 1992-09-30 1994-04-22 Nippon Telegr & Teleph Corp <Ntt> Word reader
JP2006139659A (en) * 2004-11-15 2006-06-01 Fujitsu Ltd Word recognition apparatus, method, and program
JP2011081454A (en) * 2009-10-02 2011-04-21 Sharp Corp Information processing apparatus, information processing method, program and recording medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59128681A (en) * 1983-01-12 1984-07-24 Comput Basic Mach Technol Res Assoc Character reader
JPS6491288A (en) * 1987-09-30 1989-04-10 Toshiba Corp Character reader
JPH04349581A (en) * 1991-05-27 1992-12-04 Dainippon Printing Co Ltd Text data file generating system
JPH06111079A (en) * 1992-09-30 1994-04-22 Nippon Telegr & Teleph Corp <Ntt> Word reader
JP2006139659A (en) * 2004-11-15 2006-06-01 Fujitsu Ltd Word recognition apparatus, method, and program
JP2011081454A (en) * 2009-10-02 2011-04-21 Sharp Corp Information processing apparatus, information processing method, program and recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102048638B1 (en) * 2018-08-31 2019-11-25 망고슬래브 주식회사 Method and system for recognizing content
WO2020045714A1 (en) * 2018-08-31 2020-03-05 망고슬래브 주식회사 Method and system for recognizing contents

Similar Documents

Publication Publication Date Title
Novikova et al. Large-lexicon attribute-consistent text recognition in natural images
Wshah et al. Script independent word spotting in offline handwritten documents based on hidden markov models
US7515770B2 (en) Information processing method and apparatus
US8509537B2 (en) Learning weights of fonts for typed samples in handwritten keyword spotting
WO2017177809A1 (en) Word segmentation method and system for language text
CN111046660B (en) Method and device for identifying text professional terms
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
US20230177266A1 (en) Sentence extracting device and sentence extracting method
CN109983473A (en) Flexible integrated identification and semantic processes
Zhu et al. DocBed: A multi-stage OCR solution for documents with complex layouts
JP2021501387A (en) Methods, computer programs and computer systems for extracting expressions for natural language processing
CN110610006B (en) Morphological double-channel Chinese word embedding method based on strokes and fonts
JP2008225695A (en) Character recognition error correction device and program
Ghosh et al. R-phoc: segmentation-free word spotting using cnn
Wshah et al. Multilingual word spotting in offline handwritten documents
Feild Improving text recognition in images of natural scenes
Khosrobeigi et al. A rule-based post-processing approach to improve Persian OCR performance
JP2013246721A (en) Character string recognition device, character string recognition program, and storage medium
Chamchong et al. A combined method of segmentation for connected handwritten on palm leaf manuscripts
CN110533035B (en) Student homework page number identification method based on text matching
Edwards et al. Searching for character models
JPH11328315A (en) Character recognizing device
Sturgeon Unsupervised extraction of training data for pre-modern Chinese OCR
CN117194818B (en) Image-text webpage generation method and device based on video
Lamb et al. Predicting the Ordering of Characters in Japanese Historical Documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151013