JP2011065646A - Apparatus and method for recognizing character string - Google Patents

Apparatus and method for recognizing character string Download PDF

Info

Publication number
JP2011065646A
JP2011065646A JP2010204966A JP2010204966A JP2011065646A JP 2011065646 A JP2011065646 A JP 2011065646A JP 2010204966 A JP2010204966 A JP 2010204966A JP 2010204966 A JP2010204966 A JP 2010204966A JP 2011065646 A JP2011065646 A JP 2011065646A
Authority
JP
Japan
Prior art keywords
character string
character
recognition
candidate
delimiter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010204966A
Other languages
Japanese (ja)
Inventor
Hong Liang Bai
洪亮 白
Danian Zheng
大念 鄭
Shun Son
俊 孫
Misako Suwa
美佐子 諏訪
Hiroaki Takebe
浩明 武部
Yoshinobu Hotta
悦伸 堀田
Hao Yu
浩 于
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2011065646A publication Critical patent/JP2011065646A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To efficiently recognize a character string constituted of various types of characters. <P>SOLUTION: A method for recognizing a character string includes the steps of: dividing a character string image into a plurality of segments; performing OCR recognition on the plurality of segments to acquire candidate characters; acquiring statistical information of candidate characters and/or statistical information of character combinations formed from the candidate characters; and merging the statistical information with reliability of OCR recognition on the candidate characters to decide a candidate character string. An apparatus for recognizing a character string is also disclosed. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、文字列画像から文字列を認識する文字列認識装置及び文字列認識方法に関する。   The present invention relates to a character string recognition device and a character string recognition method for recognizing a character string from a character string image.

現在、OCR技術を用いて各種の文字情報を認識することは一般的である。例えば、ユーザが紙又はタッチパネルに一連の文字を書いた後、書かれた文字列は、スキャン、撮影又は磁気誘導などによって文字列画像に変換される。そして、認識システムは、変換された文字列画像を認識し、認識した文字列を出力する。   Currently, it is common to recognize various types of character information using OCR technology. For example, after a user writes a series of characters on paper or a touch panel, the written character string is converted into a character string image by scanning, photographing, magnetic induction, or the like. Then, the recognition system recognizes the converted character string image and outputs the recognized character string.

認識システムには、各種の文字から構成された文字列が画像として入力される。例えば、文字列として、字母のみから構成されるもの、字母と数字が混合したもの、デリミタ(区切り文字)である「.」を含むもの、デリミタである「@」を含むものなどがある。   A character string composed of various characters is input to the recognition system as an image. For example, the character string includes a character string only, a character string mixed with a numeral, a character string including “.” As a delimiter (delimiter), a character string including “@” as a delimiter, and the like.

また、インターネットの急速な発展に伴い、情報を伝送する際には、各種の文字から構成される文字列が用いられる場合が頻繁にあり、とりわけ、認識システムは、手書きされた文字列を認識することがより重要となっている。例えば、認識システムは、ユーザによってタッチパネルに手書きされたEmailアドレスを認識する場合がある。   In addition, with the rapid development of the Internet, when information is transmitted, a character string composed of various characters is often used. In particular, the recognition system recognizes a handwritten character string. Is becoming more important. For example, the recognition system may recognize an Email address handwritten on the touch panel by the user.

特開平9−330377号公報JP-A-9-330377 特開2002−183664号公報JP 2002-183664 A 特開2010−140162号公報JP 2010-140162 A 中国特許出願公開第200810080950号明細書Chinese Patent Application No. 2008080080950 Specification

W.K. Pratt、John Wiley、Sons Inc,Digital Image Processing (4th Edition),2007年W.K. Pratt, John Wiley, Sons Inc, Digital Image Processing (4th Edition), 2007 Danian Zheng,「Handwritten Email Address Recognition with Syntax and Lexicons」,ICFHR2008Danian Zheng, “Handwritten Email Address Recognition with Syntax and Lexicons”, ICFHR2008 F. Kimura、K. Takashina、S. Tsuruoka、Y. Miyake,「Modified Quadratic Discriminant Functions and the Application to Chinese Character Recognition」,IEEE Trans,Pattern Analysis and Machine Intelligence,1987年1月,第9巻,第1号,p.149−153F. Kimura, K. Takashina, S. Tsuruoka, Y. Miyake, “Modified Quadratic Discriminant Functions and the Application to Chinese Character Recognition”, IEEE Trans, Pattern Analysis and Machine Intelligence, January 1987, Vol. 9, Vol. No., p. 149-153

しかしながら、上述した従来の技術では、各種の文字から構成される文字列を効率的に認識することができないという課題があった。   However, the above-described conventional technique has a problem that it cannot efficiently recognize a character string composed of various characters.

開示の技術は、上記に鑑みてなされたものであって、文字列を認識する装置及び方法を提供することを目的とする。以下、開示技術に対する基本理解を深めるように、開示技術の概略を説明する。だが、この概略の説明は、開示技術を十分に説明するものではない。また、開示技術のキーポイント又は重要な部分を限定するものでもなく、開示技術の範囲を限定するものでもない。ただ、簡潔な形態で概念を与えることで、後述する更に詳しい説明の前置部分とする。   The disclosed technology has been made in view of the above, and an object thereof is to provide an apparatus and a method for recognizing a character string. The outline of the disclosed technology will be described below so as to deepen the basic understanding of the disclosed technology. However, this summary description does not fully describe the disclosed technology. Further, it does not limit key points or important parts of the disclosed technology, and does not limit the scope of the disclosed technology. However, by giving the concept in a concise form, it is used as a front part of a more detailed description to be described later.

開示技術の一側面によると、文字列認識装置が、文字列画像を複数のセグメントに分割するステップと、複数のセグメントに対してOCR認識を行って、候補文字を取得するステップと、候補文字の統計情報及び/又は候補文字によって形成される文字組み合わせの統計情報を取得するステップと、統計情報と候補文字のOCR認識の信頼度を統合して、候補文字列を確定するステップと、を含む文字列認識方法を提供する。   According to one aspect of the disclosed technology, the character string recognition device divides the character string image into a plurality of segments, performs OCR recognition on the plurality of segments, acquires candidate characters, Characters including a step of acquiring statistical information and / or statistical information of a character combination formed by candidate characters, and a step of determining candidate character strings by integrating statistical information and reliability of OCR recognition of candidate characters A column recognition method is provided.

開示技術の他の形態によると、文字列画像を複数のセグメントに分割するセグメント分割部と、複数のセグメントに対してOCR認識を行って、候補文字を取得するOCR認識部と、候補文字の統計情報及び/又は候補文字によって形成される文字組み合わせの統計情報を取得する統計情報取得部と、統計情報と候補文字のOCR認識の信頼度を統合して、候補文字列を確定する第1の文字列確定部と、を含む文字列認識装置を提供する。   According to another aspect of the disclosed technology, a segment division unit that divides a character string image into a plurality of segments, an OCR recognition unit that performs OCR recognition on the plurality of segments and obtains candidate characters, and candidate character statistics A statistical information acquisition unit that acquires statistical information of a character combination formed by information and / or candidate characters, and a first character that determines the candidate character string by integrating the statistical information and the reliability of OCR recognition of the candidate characters A character string recognizing device including a column determining unit is provided.

また、開示技術の実施例によると、文字列認識方法を実現するコンピュータプログラムを提供する。   According to an embodiment of the disclosed technology, a computer program for realizing a character string recognition method is provided.

また、開示技術の実施例によると、文字列認識方法を実現するためのコンピュータプログラムコードが記録されており、少なくともコンピュータが読み取り可能な形態であるコンピュータプログラム製品を提供する。   In addition, according to an embodiment of the disclosed technology, a computer program product for realizing a character string recognition method is recorded, and a computer program product in a computer-readable form is provided.

本願の開示する文字列認識装置及び文字列認識方法の一つの態様によれば、各種の文字から構成される文字列を効率的に認識することができるという効果を奏する。   According to one aspect of the character string recognition device and the character string recognition method disclosed in the present application, there is an effect that a character string composed of various characters can be efficiently recognized.

図1は、開示技術の第1の実施例に係わる方法を模式的に示すフローチャートである。FIG. 1 is a flowchart schematically showing a method according to the first embodiment of the disclosed technique. 図2は、開示技術の第2の実施例に係わる方法を模式的に示すフローチャートである。FIG. 2 is a flowchart schematically showing a method according to the second embodiment of the disclosed technique. 図3は、文字列の認識結果の一例を示す図である。FIG. 3 is a diagram illustrating an example of a character string recognition result. 図4は、右側に、OCR認識の結果に対して選別を行った後の選別結果を示し、左側に、対応するパスを示す図である。FIG. 4 is a diagram showing a sorting result after sorting the result of OCR recognition on the right side, and a corresponding path on the left side. 図5は、一般的な二つの文字からなる音節及び/又は三つの文字からなる音節を示す図である。FIG. 5 is a diagram showing a general syllable composed of two characters and / or a syllable composed of three characters. 図6は、音節のシミュレーション及び統計結果を示す図である。FIG. 6 is a diagram showing syllable simulation and statistical results. 図7は、開示技術の第3の実施例に係わる方法を模式的に示すフローチャートである。FIG. 7 is a flowchart schematically showing a method according to the third embodiment of the disclosed technique. 図8、数字と字母によって構成される三次元組の統計結果を示す図である。FIG. 8 is a diagram showing a statistical result of a three-dimensional set composed of numbers and letters. 図9は、開示技術の第4の実施例に係わる方法を模式的に示すフローチャートである。FIG. 9 is a flowchart schematically showing a method according to the fourth embodiment of the disclosed technique. 図10は、開示技術の第5の実施例に係わる既に把握したデータベースを利用してOCR認識結果を補正する方法を模式的に示すフローチャートである。FIG. 10 is a flowchart schematically showing a method of correcting the OCR recognition result using the already grasped database according to the fifth embodiment of the disclosed technology. 図11は、開示技術の第6の実施例に係わる方法を模式的に示すフローチャートである。FIG. 11 is a flowchart schematically showing a method according to the sixth embodiment of the disclosed technique. 図12は、開示技術の第7の実施例に係わる文字列認識装置を示す図である。FIG. 12 is a diagram illustrating a character string recognition apparatus according to a seventh embodiment of the disclosed technology. 図13は、開示技術の第8の実施例に係わる文字列認識装置を示す図である。FIG. 13 is a diagram illustrating a character string recognition apparatus according to an eighth embodiment of the disclosed technology. 図14は、開示技術の第9の実施例に係わる文字列認識装置を示す図である。FIG. 14 is a diagram illustrating a character string recognition apparatus according to a ninth embodiment of the disclosed technology. 図15は、開示技術の第10の実施例に係わる文字列認識装置のデリミタ認識部を示す図である。FIG. 15 is a diagram illustrating a delimiter recognition unit of the character string recognition apparatus according to the tenth embodiment of the disclosed technique. 図16は、開示技術の第11の実施例に係わる文字列認識装置を示す図である。FIG. 16 is a diagram illustrating a character string recognition apparatus according to an eleventh embodiment of the disclosed technology. 図17は、開示技術の実施例を実施するコンピュータを示すブロック図である。FIG. 17 is a block diagram illustrating a computer that implements an embodiment of the disclosed technology.

以下、図面を通して、開示技術の代表的な実施例を説明する。説明を明確で簡潔にするために、明細書において実際の実施形態のすべての特徴を記載しているわけではない。このようないかなる実施例を実用化する過程において、開発者の具体的な目的を実現するように、実用化する実施形態に特定された決定が行なわれる。また、異なる実施形態によって、このような決定も異なる。   Hereinafter, typical examples of the disclosed technology will be described with reference to the drawings. In the description, not all features of actual embodiments are described in the specification for clarity and brevity. In the process of putting any example into practical use, a decision specific to the embodiment to be put into practice is made so as to realize the specific purpose of the developer. Also, such determinations are different for different embodiments.

開示技術は、以下の部分において、図面を通した記述を参照することにより、更によく理解することができる。なお、すべての図面において、同一又は類似の符号で同一又は類似の部品を表示する。図面は下記の詳細な説明とともに本明細書に含まれ且つ本明細書の一部になり、しかもさらに例を挙げて本発明の好ましい実施例を説明し、本発明の動作と効果を解釈するために用いられる。   The disclosed technology can be better understood in the following part by referring to the description through the drawings. In all the drawings, the same or similar parts are indicated by the same or similar reference numerals. The drawings are included in and constitute a part of this specification with the following detailed description, and further illustrate the preferred embodiment of the invention by way of example and to interpret the operation and effect of the invention. Used for.

ここで、図面において、開示技術が不明確になることを防ぐため、開示技術に係る技術的思想と直接関係する装置の構造及び/又は処理ステップのみを示し、開示技術と直接関係しない他のものについては、詳細な説明を省略していることを補足する。   Here, in order to prevent the disclosed technology from becoming unclear in the drawings, only the structure and / or processing steps of the apparatus that are directly related to the technical idea related to the disclosed technology are shown, and others that are not directly related to the disclosed technology. It is supplemented that the detailed explanation is omitted.

以下、具体的な実施例に基づいて、開示技術を詳しく説明する。   Hereinafter, the disclosed technology will be described in detail based on specific examples.

一般的なOCR認識技術自体は公知技術であるが、後述の説明及び理解の便宜を図るために、OCR認識のプロセスを簡単に説明する。   A general OCR recognition technique itself is a well-known technique, but the process of OCR recognition will be briefly described for convenience of explanation and understanding later.

入力された認識対象である文字列画像は、ユーザによって紙又はタッチパネルに書かれた後スキャン、撮影又は磁気誘導などによって変換して得られる文字列画像であってもよい。例えば、ユーザがタッチパネルに手書きで「hanashiro」と入力された文字列の画像であってもよい。   The input character string image to be recognized may be a character string image obtained by being written on paper or a touch panel by a user and then converted by scanning, photographing, magnetic induction, or the like. For example, an image of a character string in which “hanashiro” is input by handwriting on the touch panel may be used.

通常、入力された文字列画像を取得した後、手書きで入力された文字列画像に対して前処理、例えば2値化処理を行う。例えば、模擬画像、カラーデジタル画像、階調レベル画像を2値化画像に変換させる。その後、連結領域の解析を行う。連結領域とは、お互いに隣り合う同類の画素(例えば、前景画素)によって形成される画像領域である。同類の画素は、2値化画像の場合に、前景画素(例えば、黒画素)を指すこともでき、背景画素(例えば、白画素)を指すこともできる。また、同類の画素は、階調レベル画像の場合に、階調レベルが一定の範囲内に入る画素を指すことができる。通常の連結領域には、4隣接領域の連結領域と8隣接領域の連結領域などがある。連結領域は当業者には周知の概念であるので、ここでは説明を省略する。また、各種の公知の方法によって、連結領域を検出することができ、例えば、8隣接領域の連結領域の解析によって、文字画像におけるすべての連結領域を検出することができる。   Usually, after the input character string image is acquired, preprocessing, for example, binarization processing is performed on the character string image input by handwriting. For example, a simulated image, a color digital image, and a gradation level image are converted into a binarized image. Thereafter, the connected region is analyzed. A connected area is an image area formed by similar pixels (for example, foreground pixels) adjacent to each other. In the case of a binarized image, the similar pixel can indicate a foreground pixel (for example, a black pixel) and can also indicate a background pixel (for example, a white pixel). In the case of a gradation level image, a similar pixel can indicate a pixel whose gradation level falls within a certain range. The normal connection area includes a connection area of 4 adjacent areas and a connection area of 8 adjacent areas. Since the connection region is a concept well known to those skilled in the art, the description thereof is omitted here. Moreover, a connection area | region can be detected by various well-known methods, for example, all the connection area | regions in a character image can be detected by the analysis of the connection area | region of 8 adjacent areas.

8隣接領域の連結領域の解析において、まず、一つの前景点を検出してそれを起点とし、起点の8隣接領域内において、アクセスされていない前景点を検出して、これらを新規の起点とする。そして、次の新規の起点を検出すことができなくなるまで、この検出プロセスを再帰的に繰り返し、検出を終了してすべてのアクセスされた前景点を出力して一つの連結領域とする。新規のアクセスされていない前景点を検出して、それを起点として他の連結領域を検出すことができる。すべての点がアクセスされるまでにこのような処理を行う。8隣接領域の連結領域の解析について、例えば非特許文献1を参照することができる。   In the analysis of the connected region of the eight adjacent regions, first, one foreground point is detected and used as a starting point, and foreground points that are not accessed are detected in the eight adjacent regions of the starting point, and these are set as new starting points. To do. This detection process is repeated recursively until the next new starting point cannot be detected, and the detection is terminated and all accessed foreground points are output as one connected region. A new non-accessed foreground point can be detected, and other connected regions can be detected from that point. This process is performed until all points are accessed. For example, Non-Patent Document 1 can be referred to for the analysis of the connection region of the eight adjacent regions.

そして、連結領域の解析(文字の分割を行うこともできる)の結果に基づいて、特徴を抽出し、分類装置によってOCR認識を行うことができる。   Then, features can be extracted based on the result of analysis of connected regions (characters can be divided), and OCR recognition can be performed by the classification device.

しかし、文字列に対するOCR認識のみだけでは、望みの結果を得ることができない。開示技術の発明者は、多くの場合、文字列においてある組み合わせの法則を含むことを発見した。大量の文字列に対する統計を取得することでこの法則を得て、この法則を文字列の認識に利用することによって、認識率の精度を大幅に向上させることが可能となった。   However, a desired result cannot be obtained only by OCR recognition for a character string alone. The inventors of the disclosed technology have discovered that they often contain a certain combination of rules in a string. By obtaining statistics for a large number of character strings and obtaining this rule, and using this rule for character string recognition, the accuracy of the recognition rate can be greatly improved.

開示技術の一実施例において、文字組み合わせの統計情報とOCR認識を統合して認識対象である文字列を特定する方法を提案する。   In one embodiment of the disclosed technology, a method for specifying a character string to be recognized by integrating character combination statistical information and OCR recognition is proposed.

多くの場合に、認識対象である文字列は、一般的又は日常的に用いられる文字列である。例えば、日本語の文字列の「hanashiro」について、大量の日本語に対して統計を行うと、先頭に「ha」の文字組み合わせが出現した場合、その後に「na」の文字組み合わせが出現する確率を得ることができる。そうすると、認識を行う場合、OCR認識の結果とこの統計情報を統合すると、さらに優れた結果を得ることができる。   In many cases, the character string to be recognized is a character string that is generally or routinely used. For example, for the Japanese character string “hanashiro”, if statistics are performed for a large amount of Japanese characters, the probability that the character combination “na” will appear after the character combination “ha” at the beginning appears. Can be obtained. Then, when recognition is performed, a better result can be obtained by integrating the result of OCR recognition and this statistical information.

図1は、開示技術の第1の実施例に係わる方法を模式的に示すフローチャートである。   FIG. 1 is a flowchart schematically showing a method according to the first embodiment of the disclosed technique.

ステップS110において、文字列認識装置は、文字列画像を複数のセグメントに分割する。各種の既存技術によってこの分割ステップを行うことができる。「hanashiro」を例とすると、連結領域の解析結果に基づいて、分割及び認識を行うことができる。まず、前景の連結領域を幾つかの隣り合うセグメントに分割することができ、この中の1〜3個の隣り合うセグメントによって一つの完全な文字が構成できる。文字列認識装置は、通常、ダブル弾性マッチングアルゴリズムによって、すべての可能な分割点を検出した後、動的計画によって最適な分割点を検出する。連結領域の分割について、具体的には、特許文献4及び非特許文献2を参照することができる。   In step S110, the character string recognition device divides the character string image into a plurality of segments. This division step can be performed by various existing techniques. Taking “hanashiro” as an example, division and recognition can be performed based on the analysis result of the connected region. First, the foreground connected area can be divided into several adjacent segments, and one to three adjacent segments can form one complete character. The character string recognizing device usually detects all possible dividing points by a double elastic matching algorithm and then detects an optimum dividing point by dynamic programming. Regarding the division of the connection region, specifically, Patent Document 4 and Non-Patent Document 2 can be referred to.

ステップS120において、文字列認識装置は、分割した複数のセグメントに対してOCR認識を実行し、候補文字を取得する。当業者にとって、文字画像に対して認識を行う場合に、認識対象の文字画像は、ある文字として取得される確率であることは自明なことである。例えば、文字画像「h」はOCR認識において「h」又は「b」として認識される可能性があるが、「h」又は「b」として認識される確率はそれぞれ異なる。なお、この確率は、認識信頼度と呼ばれる。したがって、各セグメントは、少なくとも一つの候補文字に対応する。   In step S120, the character string recognition apparatus performs OCR recognition on the plurality of divided segments to obtain candidate characters. It is obvious to those skilled in the art that when a character image is recognized, the character image to be recognized has a probability of being acquired as a certain character. For example, the character image “h” may be recognized as “h” or “b” in OCR recognition, but the probability of being recognized as “h” or “b” is different. This probability is called recognition reliability. Thus, each segment corresponds to at least one candidate character.

ステップS130において、文字列認識装置は、セグメントの候補文字の統計情報及び/又はセグメントの候補文字によって形成された文字組み合わせの統計情報を取得する。例えば、文字列認識装置は、文字組み合わせ「ha」について、大量の語彙に対して予め統計を行い、文字組み合わせ「ha」を含む確率を取得する。同様に、文字列認識装置は、文字組み合わせ「han」が語彙において出現する確率を取得することができる。ここで、統計を行うための語彙の範囲を限定することができることは当然である。例えば、文字列認識装置は、すべての会社名を統計する、すべての姓名を統計する等して、対応する確率を取得することができる。文字列認識装置は、ある文字列を認識する際に、文字列がある分野又はある範囲に所属することが分かると、対応する確率を利用して、さらに良好な結果を得ることができる。ここで、統計プロセスは予め完成したものであって、ステップS130においては統計結果を直接に入力として利用することができる。   In step S <b> 130, the character string recognition apparatus acquires statistical information of segment candidate characters and / or statistical information of character combinations formed by the segment candidate characters. For example, for the character combination “ha”, the character string recognition device performs statistics on a large amount of vocabulary in advance, and acquires the probability of including the character combination “ha”. Similarly, the character string recognition device can acquire the probability that the character combination “han” appears in the vocabulary. Here, it is natural that the range of vocabulary for performing statistics can be limited. For example, the character string recognition device can obtain the corresponding probabilities by statistically analyzing all company names, statistically analyzing all first and last names, and the like. When the character string recognition device recognizes that a character string belongs to a certain field or a certain range when recognizing a character string, the character string recognition device can obtain a better result by using the corresponding probability. Here, the statistical process is completed in advance, and the statistical result can be directly used as an input in step S130.

文字列認識装置は、上述した各文字組み合わせの統計情報に基づいて、以下の結果を得ることができる。文字列認識装置は、ある文字又は文字組み合わせが出現すると、その後にある文字又は文字組み合わせが出現する確率が幾つであるかという結果を得ることができる。例えば、文字列認識装置は、「ha」の文字の出現する確率が分かって、「han」の出現する確率も分かると、条件確率式P(B|A)=P(AB)/P(A)にしたがって、「ha」が出現した場合その後に「n」が出現する確率が幾つであるかを得ることができる。また、逆に、文字列認識装置は、「h」が「an」の前に出現する確率が幾つであるかも得ることができる。   The character string recognition device can obtain the following results based on the statistical information of each character combination described above. When a certain character or character combination appears, the character string recognition device can obtain a result of how many probabilities that a certain character or character combination appears after that. For example, when the probability that the character “ha” appears and the probability that “han” appears is also known, the character string recognition device P (B | A) = P (AB) / P (A ), When “ha” appears, the probability of “n” appearing after that can be obtained. Conversely, the character string recognizing device can also obtain how many probabilities that “h” appears before “an”.

ステップS140において、文字列認識装置は、統計情報と候補文字のOCR認識の信頼度とを統合して候補文字列を文字列に確定する。例えば、文字列認識装置は、同一セグメントの複数のOCR候補文字について、統計情報に基づいて、現在のコンテキストにおける出現確率が高い候補文字を選択する。また、文字列認識装置は、統計確率とOCR認識の信頼度にそれぞれ一定の重みを加えて候補文字を選択する。また、文字列認識装置は、統計情報に基づいてOCR信頼度が一定の閾値を超える候補文字の中から選択する。   In step S140, the character string recognizing device integrates the statistical information and the reliability of OCR recognition of the candidate character to determine the candidate character string as a character string. For example, the character string recognition apparatus selects candidate characters having a high appearance probability in the current context based on statistical information for a plurality of OCR candidate characters in the same segment. Further, the character string recognition device selects candidate characters by adding a certain weight to the statistical probability and the reliability of OCR recognition. Further, the character string recognition device selects from among candidate characters whose OCR reliability exceeds a certain threshold based on the statistical information.

本実施例に係わる方法によると、文字列認識装置は、OCR認識の信頼度以外に、複数のセグメントの候補文字組み合わせの統計情報を用いるので、認識率の精度をさらに向上させることができる。   According to the method according to the present embodiment, the character string recognition apparatus uses the statistical information of the candidate character combinations of a plurality of segments in addition to the reliability of OCR recognition, so that the recognition rate accuracy can be further improved.

ここで、説明しておきたいことは、統計情報は、一つの文字、文字類型及び/又は文字組み合わせと当該一つの文字、文字類型及び/または文字組み合わせと、他の、一つの文字、文字類型及び/又は文字組み合わせとが一緒に出現する確率を含む。例えば、文字列認識装置は、文字列の「hanashiro123」について、「h」と「a」が一緒に出現する確率、「ha」と「n」が一緒に出現する確率、「h」と「an」が一緒に出現する確率、「ha」と「na」が一緒に出現する確率、「ro」と「12」が一緒に出現する確率、字母と数字が一緒に出現する確率、複数の(例えば三つの)数字が連続して出現する確率、複数の連続する字母と複数の連続する数字が出現する確率などを統計することができる。すなわち、文字列認識装置は、いずれも、前(又は後)に出現する文字/文字類型/文字組み合わせに基づいて統計して、後(又は前)に出現する文字/文字類型/文字組み合わせが出現する確率を得て、認識に用いる。   Here, it is important to explain that statistical information includes one character, character type and / or character combination, one character, character type and / or character combination, and one other character, character type. And / or the probability that a character combination will appear together. For example, for the character string “hanashiro123”, the character string recognition device has the probability of “h” and “a” appearing together, the probability of “ha” and “n” appearing together, “h” and “an” ”, The probability of“ ha ”and“ na ”appearing together, the probability of“ ro ”and“ 12 ”appearing together, the probability of the letter and number appearing together, It is possible to statistic the probability that three) numbers appear consecutively, the probability that multiple consecutive letters and multiple consecutive numbers appear. That is, all character recognition devices perform statistics based on the character / character type / character combination that appears before (or after), and the character / character type / character combination that appears after (or before) appears. The probability of doing is obtained and used for recognition.

文字列認識装置は、統計情報が文字組み合わせに係わる場合に、OCR信頼度を統合すると共に文字組み合わせに係わる複数のセグメントの候補文字組み合わせを確定することができ、その方法は上述の方法と同様である。また、文字列認識装置は、文字組み合わせに係わる確率を一つの文字に係わる確率に変換して用いてもよい。   When the statistical information relates to the character combination, the character string recognition device can integrate the OCR reliability and determine candidate character combinations of a plurality of segments related to the character combination, and the method is the same as the above method. is there. Further, the character string recognition apparatus may convert the probability related to the character combination into the probability related to one character and use it.

第1の実施例に基づいて、発明者は、全ての言語において、音節が統計的な関連を持っていることを発見した。日本のユーザ名を例にすると、通常幾つかの音節が含まれ、これらの音節が統計的に一定の関連を持っているので、このような関連を利用してさらに良好な認識効果を実現することができる。例えば、日本のユーザ名「hanashiro」の場合、「ha」と「na」と「shi」と「ro」との四つの音節が含まれるので、文字列認識装置は、これらの音節によって上述した方法の文字組み合わせを構成することができる。例えば、文字組み合わせには、「ha」、「na」などの一つの音節を含むことができ、「hana」、「nashi」などの二つの音節を含むこともでき、さらに「hanashi」などの三つの音節を含むこともできる。したがって、文字列認識装置は、文字列を認識するために、例えば、n−次元シソーラスから、隣り合う音節からなるn−次元組を検出する。そして、文字列認識装置は、隣り合う音節からなるn−次元組を検出した場合、この音節はさらに高いスコアを得る。一方、文字列認識装置は、隣り合う音節からなるn−次元組を検出しない場合、この音節はただのOCR認識確率である。以下の第2の実施例において、続けて「hanashiro」を例とし、この音節に基づくn−次元組の方法を具体的に説明する(三次元組の方法を例とする)。図2は、開示技術の第2の実施例に係わる方法を模式的に示すフローチャートである。   Based on the first example, the inventor has found that syllables have a statistical association in all languages. Taking Japanese user names as an example, there are usually several syllables, and these syllables have a statistically constant relationship, so a better recognition effect is realized by using such a relationship. be able to. For example, in the case of the Japanese user name “hanashiro”, four syllables “ha”, “na”, “shi”, and “ro” are included. Can be configured. For example, a character combination can include one syllable such as “ha” and “na”, two syllables such as “hana” and “nashi”, and three syllables such as “hanashi”. It can also contain two syllables. Therefore, in order to recognize a character string, the character string recognition device detects, for example, an n-dimensional set composed of adjacent syllables from an n-dimensional thesaurus. When the character string recognition device detects an n-dimensional set of adjacent syllables, this syllable obtains a higher score. On the other hand, if the character string recognition device does not detect an n-dimensional set of adjacent syllables, this syllable is just an OCR recognition probability. In the following second embodiment, “hanashiro” will be taken as an example, and an n-dimensional group method based on this syllable will be specifically described (three-dimensional group method is taken as an example). FIG. 2 is a flowchart schematically showing a method according to the second embodiment of the disclosed technique.

ステップS210において、文字列認識装置は、第1の実施例で説明したように、まず、文字列「hanashiro」の画像を複数のセグメントに分割する。ここでは、ちょうど「h」、「a」、「n」、「a」…の画像のセグメントに分割されることを想定する。その後、ステップS220において、文字列認識装置は、各セグメントに対してOCR認識を実行して、「hanashiro」における各文字のOCR認識の確率を確定する。図3に該認識の結果を示した。図3において、行ごとに対応する文字のOCR認識の確率をそれぞれ示した。例えば、文字列認識装置は、第1の画像セグメントについて、「h」に認識するOCR認識の確率は0.114で、「n」に認識する確率は0.101で、「k」に認識する確率は0.101で、「m」に認識する確率は0.074等である。文字列認識装置は、第2の画像セグメントに対して、「a」に認識する確率は0.132で、「u」に認識する確率は0.082である。   In step S210, as described in the first embodiment, the character string recognition device first divides the image of the character string “hanashiro” into a plurality of segments. Here, it is assumed that the image is divided into “h”, “a”, “n”, “a”. Thereafter, in step S220, the character string recognition device performs OCR recognition on each segment, and determines the probability of OCR recognition of each character in “hanashiro”. FIG. 3 shows the result of the recognition. In FIG. 3, the probability of OCR recognition of the character corresponding to each line is shown. For example, the character string recognition apparatus recognizes the first image segment as “k” with an OCR recognition probability of 0.114, “n” as 0.101, and “k”. The probability is 0.101, and the probability of recognizing “m” is 0.074 or the like. For the second image segment, the character string recognition device has a probability of recognizing “a” of 0.132 and a probability of recognizing “u” of 0.082.

ステップS230において、文字列認識装置は、各文字のOCR認識の結果を選別する。文字列認識装置は、認識の信頼度の低い認識結果を除去し、認識の信頼度の高い認識結果を残す原則にしたがって選別を行う。例えば、文字列認識装置は、式Cer/Max(Cer)>Tを利用して選別を実行する。ここで、iは、認識結果の番号を示し、例として挙げた図3に示す認識結果において、各文字に対して10個ずつの候補文字が掲げられているので、ここで、iは1〜10とする。Ceriはi個目の候補文字のOCR確率である。Tは閾値であり、例えば0.75に設定することができる。この式によると、文字列認識装置は、ある候補文字の信頼度が全ての候補文字における最大の信頼度よりかなり小さいと、認識対象である文字が候補文字であることは不可能であると判定する。そして、文字列認識装置は、継続する算出において、この候補文字を算出しないので、算出量を大幅に低減することができる。このような形態によって、図4の右側に示す選別結果を得る。図4に示すように、第1の文字は、「h」、「n」と「k」の三つの候補文字が残され、第2の文字は、ただ「a」の一つの候補文字が残され、第3の文字は、「n」、「h」と「m」の三つの候補文字が残される。なお、例えば、最大の信頼度と関係ない閾値を直接に確定することによって選別を行ったり、最大の信頼度を有する予定量の候補文字を直接に利用したりする他の選別形態によって選別を行うこともできる。 In step S230, the character string recognition device sorts the result of OCR recognition for each character. The character string recognition device performs selection according to the principle of removing recognition results with low recognition reliability and leaving recognition results with high recognition reliability. For example, the character string recognizing device performs selection using the expression Cer i / Max (Cer i )> T. Here, i indicates the number of the recognition result, and in the recognition result shown in FIG. 3 taken as an example, ten candidate characters are listed for each character. 10 is assumed. Ceri is the OCR probability of the i-th candidate character. T is a threshold and can be set to 0.75, for example. According to this equation, the character string recognition device determines that a character to be recognized cannot be a candidate character if the reliability of a candidate character is much smaller than the maximum reliability of all candidate characters. To do. And since a character string recognition apparatus does not calculate this candidate character in the calculation which continues, the amount of calculation can be reduced significantly. In such a form, the sorting result shown on the right side of FIG. 4 is obtained. As shown in FIG. 4, three candidate characters “h”, “n”, and “k” are left as the first character, and only one candidate character “a” is left as the second character. As a result, three candidate characters “n”, “h”, and “m” are left as the third character. Note that, for example, the selection is performed by directly determining a threshold value that is not related to the maximum reliability, or the selection is performed by another selection mode that directly uses a predetermined amount of candidate characters having the maximum reliability. You can also.

ステップS240において、文字列認識装置は、日本語のスペリング法則に基づいて、候補文字を二文字からなる音節及び/又は三文字からなる音節に組み合わせる。したがって、文字列認識装置は、予め大量の日本語のユーザ名に対して解析を行っておき、例えば図5に示す結果を取得する。図5の左側に一般的な二文字からなる音節が示されており、図5の右側に一般的な三文字からなる音節が示されている。このように、文字列認識装置は、第1の候補文字が「h」、「n」と「k」であって、第2の候補文字が「a」であるので、第1の候補音節は「ha」と「na」と「ka」であると確定することができ、その後も同様に推定することができる。文字列認識装置は、音節に含まれない候補文字を依然として独立した文字として保持する。例えば、文字列認識装置は、第5〜第7の文字の候補文字がそれぞれ「s」、「h」/「k」、「i」であって、これらの組み合わせ形態を「shi」、「s」-「hi」又は「s」-「ki」とする。   In step S240, the character string recognition device combines candidate characters with syllables composed of two characters and / or syllables composed of three characters based on the spelling law of Japanese. Therefore, the character string recognition apparatus performs analysis on a large number of Japanese user names in advance, and acquires, for example, the result shown in FIG. A general two-character syllable is shown on the left side of FIG. 5, and a general three-character syllable is shown on the right side of FIG. Thus, since the first candidate character is “h”, “n”, and “k” and the second candidate character is “a”, the character string recognition device has the first candidate syllable It can be determined that “ha”, “na”, and “ka”, and can be similarly estimated thereafter. The character string recognition device still retains candidate characters not included in the syllable as independent characters. For example, the character string recognizing apparatus has candidate characters for the fifth to seventh characters “s”, “h” / “k”, “i”, and combinations of these are “shi”, “s” "-" Hi "or" s "-" ki ".

ステップS250において、文字列認識装置は、上述の音節に基づく処理結果に基づいて、全ての可能なパス(つまり、候補文字の可能な組み合わせ)を掲げる。各パスについて、パスの各ノードに対応する「音節」又は「文字」には幾つかの候補認識結果があるので、文字列認識装置は、幾つかの同じ長さの候補文字列を組み合わせることができる。図4の左側に、「hanashiro」を認識するための全てのパスが含まれる図を示した。   In step S250, the character string recognition device lists all possible paths (that is, possible combinations of candidate characters) based on the processing result based on the above syllables. For each path, there are several candidate recognition results for “syllables” or “characters” corresponding to each node of the path, so the character string recognition device can combine several candidate character strings of the same length. it can. The left side of FIG. 4 shows a diagram including all paths for recognizing “hanashiro”.

続いて、ステップS260において、文字列認識装置は、図4に示す各ノードについて、統計情報とOCR認識の信頼度を統合してスコアを算出する。文字列認識装置は、第1のノードの前には他のノードが存在しないので、第1のノードに対して、統計的に単独に出現する確率とOCR認識の確率を直接的に利用して直接的にスコアを算出する。文字列認識装置は、第2のノードからは、その前のノードとの間に統計的な関連を持っているので、その前のノードのスコアと、その前のノードが出現した場合に現在のノードが出現する確率と、現在のノードのOCR認識の確率に基づいて現在のノードの認識確率を算出する。文字列認識装置は、この技術的思想を利用して各ノードについて確率を算出する。   Subsequently, in step S260, the character string recognition apparatus calculates a score for each node shown in FIG. 4 by integrating the statistical information and the reliability of OCR recognition. Since there is no other node before the first node, the character string recognition device directly uses the probability of appearing independently and the probability of OCR recognition for the first node. Calculate the score directly. Since the character string recognition device has a statistical relationship with the previous node from the second node, the score of the previous node and the current node when the previous node appears The recognition probability of the current node is calculated based on the probability that the node appears and the probability of OCR recognition of the current node. The character string recognition device calculates the probability for each node using this technical idea.

例えば、文字列認識装置は、以下の式(1)にしたがって、各パスのノード毎にスコアを算出する。ここで、式(1)は、「Score(Sp)=Score(Sp-1)+logPnlo(Sp|hp−1)+logPocr(Sp)」である。 For example, the character string recognition device calculates a score for each node of each path according to the following equation (1). Here, the expression (1) is “Score (S p ) = Score (S p−1 ) + logP nlo (S p | h p−1 ) + logP ocr (S p )”.

式(1)において、Sは音節を示し、文字から構成される。pは音節の番号を示し、例えば、第1の音節haは、p=1とする。式(1)において、第1の項目Score(Sp−1)はパスにおける現在のノードの前のノードのスコアを示し、パスにおける第1のノードは、その前のノードが存在しないので、この項はゼロである。第2の項目におけるPnlp(S|hp−1)は自然の言語において、履歴情報hp−1が存在する場合で統計を経て得た現在の音節が出現する確率(即ち、その前のノードが出現した場合に現在のノードが出現する確率)を示す。パスにおける第1のノードは、その前のノードが存在しないと、履歴情報が存在しないので、この項は直接に第1のノードの自然言語における出現確率を直接に示す。Pocr(S)は、音節のOCR認識の確率を示し、例えば、音節を構成する各文字のOCR認識の確率をそれぞれ乗ずることによって得られる。この方法によって算出した各パスの最後のノードのスコアがこのパスのスコアであって、スコアが最大のパスを最高の信頼度を有する文字列の文字列認識結果として選択することができる。なお、式(1)において確率の対数値を利用しており、前ノードのスコア及び自然言語の確率とOCR認識の確率とを組み合わせる際に加算を利用する。当業者にとっては、各ノード、各パスのスコアにおいて上述の要素を共に考えれば、いかなる数学形態によって確率と前ノードのスコアを利用してもよいことは明らかである。 In Equation (1), S indicates a syllable and is composed of characters. p indicates a syllable number. For example, the first syllable ha is p = 1. In equation (1), the first item Score (S p−1 ) indicates the score of the node before the current node in the path, and the first node in the path is The term is zero. P nlp (S p | h p-1 ) in the second item is the probability that the current syllable obtained through statistics in the natural language when history information h p-1 is present (ie, before that) The probability of the current node appearing when the node appears). Since the first node in the path has no history information if there is no previous node, this term directly indicates the probability of appearance of the first node in the natural language. P ocr (S p ) indicates the probability of OCR recognition of a syllable, and is obtained, for example, by multiplying the probability of OCR recognition of each character constituting the syllable. The score of the last node of each path calculated by this method is the score of this path, and the path having the maximum score can be selected as the character string recognition result of the character string having the highest reliability. Note that the logarithmic value of probability is used in Equation (1), and addition is used when combining the score of the previous node and the probability of natural language with the probability of OCR recognition. For those skilled in the art, it is obvious that the probability and the score of the previous node may be used in any mathematical form, considering the above factors together in the score of each node and each path.

各音節の単独の確率と若干の音節が一緒である確率、即ち、コンテキストにおけるPnlpは、さまざまな方法によって得ることができ、外部からの入力として、本実施例による方法を直接に利用することができる。例えば、文字列認識装置は、SRILMツールキットを利用して大量の関連する文字列に対してシミュレーション及び統計を実行することによって、各音節の単独の確率と若干の音節が一緒である確率を取得することができる。例えば、図6に、音節に対するシミュレーション及び統計の結果を示している。図6は、数十万個の有効の日本のEmailアドレスのユーザ名を利用して統計を行っている。図6に示すように、統計結果には、単一の音節(1−grams)、2音節組(2−grams)と3音節組(3−grams)の確率が含まれる(ここでの確率に10を底とする対数算出を行っており、以下、該算出結果を直接に確率と称する)。説明を容易にするために、3音節の確率の具体的な統計結果のみを示した。このように、ユーザ名に「ka-ha-ta」が出現する確率は−1.873356であって、「ke-ha-ra」が出現する確率は−0.001828611である。例として利用されたSRILMツールキットは、当業者にはよく知られた言語統計ツールである。具体的に、SRILMツールキットは、「http://www.speech.sri.com/projects/srilm/」を参照することができるので、ここでは詳しく説明しない。本実施例において、文字列認識装置は、統計結果における対応する確率の値を直接に利用して算出を行う。 The probability that each syllable is unique and some syllables, that is, P nlp in the context, can be obtained by various methods, and the method according to the present embodiment is directly used as an external input. Can do. For example, the string recognizer uses the SRILM toolkit to perform simulations and statistics on a large number of related strings to obtain a single probability of each syllable and the probability that some syllables are together can do. For example, FIG. 6 shows simulation and statistical results for syllables. FIG. 6 shows statistics using user names of hundreds of thousands of valid Japanese Email addresses. As shown in FIG. 6, the statistical result includes the probabilities of a single syllable (1-grams), a two-syllable group (2-grams), and a three-syllable group (3-grams). The logarithm calculation is performed with a base of 10, and the calculation result is hereinafter referred to as a probability directly). For ease of explanation, only specific statistical results for the probability of three syllables are shown. Thus, the probability that “ka-ha-ta” appears in the user name is −1.8873356, and the probability that “ke-ha-ra” appears is −0.001828611. The SRILM toolkit utilized as an example is a language statistics tool well known to those skilled in the art. Specifically, the SRILM toolkit can be referred to “http://www.speech.sri.com/projects/srilm/” and will not be described in detail here. In the present embodiment, the character string recognition apparatus performs calculation by directly using the corresponding probability value in the statistical result.

文字列認識装置は、図4に示す第1のパス「ha-na-shi-ro」における第1のノード「ha」に対して、第1のノードのスコアScore(S1)を算出する。ここで、文字列認識装置は、さまざまな形態によって、音節「ha」の自然言語の確率とOCR認識の確率情報を利用することができる。例えば、文字列認識装置は、加重方法によって組み合わせることができる。ここでは、上述の式(1)を例として算出する。p=1であって、その前にノードが存在しないので、文字列認識装置は、式(1)にしたがって、音節「ha」の自然言語の確率とOCR認識の確率を足して第1のノードのスコアScore(S1)を得る。このパスにおける第2のノード、即ち、音節「na」について、そのスコアが前ノードのスコアと、前ノードが出現した場合に現在のノードが出現する確率と、現在のノードのOCR認識の確率とに関連する。したがって、文字列認識装置は、同様に様々な組み合わせ又は算出法則を用いて、このノードのスコアを特定することができる。ここでは依然として式(1)を例とする。式(1)から分かるように、音節のスコアは現在のノード自体と関連するばかりではなく、その前の音節、即ち、「ha」と関連する。文字列認識装置は、SRILMツールキットの統計結果に基づいて、その中の条件確率logPnlp(S|hp−1)を簡単に算出することができる。この技術的思想は、大量の実施例に対する統計結果を利用して言語の内在法則を確定することによって、前のノードが例えば「ha」であることを確定すると、現在のノードが「na」である確率が幾つであるかを示す。ここで、hp−1は、ただその前の音節の履歴情報のみを利用したことを示すではなく、その前のさらに多くの音節の履歴情報を利用することができることを示す。開示技術の現在の方法において、第3のノードからそれぞれその前の二つの音節の履歴情報を利用するので、音節に基づく3次元組方法と呼ばれる。文字列認識装置は、さらに多くの音節が一緒である情報を統計して算出に利用できることは当然である。Score(Sp−1)は、関連パスにおける現在のノードの前のノードのスコアを示し、開示技術においてはその前の一つのノードのスコアのみを利用することができる。 The character string recognition device calculates the score Score (S1) of the first node for the first node “ha” in the first path “ha-na-shi-ro” shown in FIG. Here, the character string recognition apparatus can use the natural language probability of the syllable “ha” and the probability information of OCR recognition in various forms. For example, character string recognition devices can be combined by a weighting method. Here, the above-described equation (1) is calculated as an example. Since p = 1 and there is no previous node, the character string recognition device adds the probability of the natural language of the syllable “ha” and the probability of OCR recognition according to the equation (1) to the first node. Score (S1) is obtained. For the second node in this path, ie the syllable “na”, the score is the score of the previous node, the probability that the current node will appear if the previous node appears, the probability of OCR recognition of the current node is connected with. Therefore, the character string recognition apparatus can specify the score of this node similarly using various combinations or calculation rules. Here, equation (1) is still taken as an example. As can be seen from equation (1), the syllable score is not only associated with the current node itself, but also with the previous syllable, ie “ha”. The character string recognition device can easily calculate the conditional probability logP nlp (S p | h p−1 ) therein based on the statistical result of the SRILM toolkit. This technical idea is that if the previous node is determined to be “ha”, for example, if the previous node is “ha” by using the statistical results for a large number of examples to determine the underlying laws of the language, the current node is “na”. Indicates how many a certain probability is. Here, hp -1 does not indicate that only history information of the previous syllable is used, but indicates that history information of more previous syllables can be used. In the current method of the disclosed technology, since the history information of the two previous syllables is used from the third node, it is called a three-dimensional composition method based on syllables. Naturally, the character string recognition apparatus can use the statistics of more syllables together for calculation. Score (S p-1 ) indicates the score of the node before the current node in the related path, and in the disclosed technique, only the score of one node before that can be used.

式(1)によると、第1のパスにおける各音節のスコアを算出して得ることができるので、文字列認識装置は、第1のパスのスコアを得ることもできる。同様に、文字列認識装置は、第2のパス、例えば「ha-ha-shi-ro」と、第3のパス、例えば「na-na-shi-ro」などのスコアを得て、スコアが最大のパスを確定することができる。そしてステップS270において、文字列認識装置は、認識された確率が最大の候補文字列を確定することができる。   According to Expression (1), the score of each syllable in the first pass can be calculated and obtained, so the character string recognition device can also obtain the score of the first pass. Similarly, the character string recognition device obtains scores of the second pass, for example, “ha-ha-shi-ro”, and the third pass, for example, “na-na-shi-ro”. The maximum path can be determined. In step S270, the character string recognizing device can determine a candidate character string having the highest recognized probability.

この実施例において、文字列認識装置は、音節に基づいて、認識対象である文字列を分割して、統計によるこれらの音節の自然言語における互いの関連確率を利用したので、認識率の精度を大幅に向上させることができる。   In this embodiment, the character string recognition device divides the character strings to be recognized based on the syllables, and uses the correlation probability of these syllables in the natural language based on statistics, so the accuracy of the recognition rate is improved. It can be greatly improved.

実際には、例えば「hanashiro123」のような字母と数字が混合した状況がよくある。このような場合、既存技術には有効な認識方法が開示されていない。発明者は、このような状況が、例えば「Email」のユーザ名のようなユーザによる自己定義の名称によく現われることを発見した。大量のこのような文字列を統計することによって、字母と数字との組み合わせを存在する一定の法則を得ることができる。例えば、前のa個の文字が字母であると、後のb個の文字が字母又は数字である確率を統計することができ、又は、前のc個の文字が数字であると、後のd個の文字が字母又は数字である確率(a、b、c、dはいずれも自然数である)を統計することができる。開示技術の第1の実施例の考え方に基づいて、文字のn−次元組方法によってこの課題を解決する方法を提案する。図7は、開示技術の第3の実施例に係わる方法を模式的に示すフローチャートである(3次元組方法を例とする)。   In practice, there are often situations where letters and numbers are mixed, such as “hanashiro123”. In such a case, an effective recognition method is not disclosed in the existing technology. The inventor has discovered that this situation often appears in self-defined names by users, such as the user name “Email”. By statistically analyzing a large number of such character strings, it is possible to obtain a certain law in which combinations of letters and numbers exist. For example, if the preceding a characters are letters, then the probability that the following b letters are letters or numbers can be statistics, or if the preceding c letters are numbers, The probability that d characters are letters or numbers (a, b, c, d are all natural numbers) can be statistics. Based on the idea of the first embodiment of the disclosed technology, a method for solving this problem by an n-dimensional character combination method is proposed. FIG. 7 is a flowchart schematically showing a method according to the third embodiment of the disclosed technology (a three-dimensional composition method is taken as an example).

まず、ステップS710において、文字列認識装置は、上述した実施例と同様に入力された文字列画像を複数のセグメントに分割する。   First, in step S710, the character string recognition device divides the input character string image into a plurality of segments as in the above-described embodiment.

ステップS720において、文字列認識装置は、まず、字母と数字が混合している文字列における各セグメントに対してOCR認識を行って、OCR認識の確率を確定する。図3に示すのと同様にして、文字列認識装置は、各文字に対する一連の確率を得ることができる。   In step S720, the character string recognition device first performs OCR recognition on each segment in a character string in which a character and a number are mixed to determine the probability of OCR recognition. In the same manner as shown in FIG. 3, the character string recognition apparatus can obtain a series of probabilities for each character.

ステップS730において、文字列認識装置は、各文字のOCR認識の結果について選別を行う。選別の原則は、認識信頼度の低い認識結果を除去し、認識信頼度の高い認識結果を残すことである。例えば、文字列認識装置は、式Cer/Max(Cer)>Tを利用して選別を行うことができる。この式のiは、認識結果の番号を示し、例として挙げた図3に示す認識結果において、各文字に対して10個ずつの候補文字が掲げられているので、ここで、iは1〜10とする。Ceriは第i個の候補文字のOCR確率であって、Tは閾値で例えば0.75に設定することができる。この式によると、ある候補文字の信頼度が全ての候補文字における最大の信頼度よりかなり小さい場合、文字列認識装置は、認識対象である文字が候補文字であることが不可能であると判定する。そして、文字列認識装置は、継続する算出において、この候補文字を算出しないので、算出量を大幅に低減することができる。このような形態によって、文字列認識装置は、図4の右側に示す選別結果に類似するものを得ることができる。なお、文字列認識装置は、例えば、最大の信頼度と関係ない閾値を直接に確定して選別を行ったり、最大の信頼度を有する予定量の候補文字を直接に利用したりする他の選別形態によって選別を行うこともできる。 In step S730, the character string recognizing device sorts the result of OCR recognition of each character. The principle of selection is to remove recognition results with low recognition reliability and leave recognition results with high recognition reliability. For example, the character string recognition device can perform selection using the formula Cer i / Max (Cer i )> T. I in this equation indicates the number of the recognition result, and in the recognition result shown in FIG. 3 taken as an example, ten candidate characters are listed for each character. 10 is assumed. Ceri is the OCR probability of the i-th candidate character, and T can be set to a threshold value of 0.75, for example. According to this equation, if the reliability of a certain candidate character is much smaller than the maximum reliability of all candidate characters, the character string recognition device determines that the character to be recognized cannot be a candidate character. To do. And since a character string recognition apparatus does not calculate this candidate character in the calculation which continues, the amount of calculation can be reduced significantly. With such a form, the character string recognition device can obtain a similar one to the sorting result shown on the right side of FIG. Note that the character string recognition device performs other selection, for example, by directly determining and selecting a threshold value not related to the maximum reliability, or directly using a predetermined amount of candidate characters having the maximum reliability. Sorting can also be performed according to the form.

ステップS740において、文字列認識装置は、選別結果に基づいて、全ての可能なパスを掲げる。文字列認識装置は、各パスについて、パスの各ノードに対応する「文字」には若干の候補認識結果があるので、若干の同じ長さの認識語を組み合わせることができる。したがって、文字列認識装置は、図4に示したパス図と同様のパス図を得る。   In step S740, the character string recognition device lists all possible paths based on the selection result. For each path, the character string recognition device has a few candidate recognition results for “characters” corresponding to each node of the path, so that recognition words having the same length can be combined. Therefore, the character string recognition apparatus obtains a path diagram similar to the path diagram shown in FIG.

ステップ750において、文字列認識装置は、パス図における各ノードについて、統計情報とOCR認識の信頼度を統合してノードのスコアを算出する。ここでは以下の式(2)を利用する。ここで、式(2)は、「Score(Cp)=Score(Cp-1)+logPnlo(Cp|hp-1)+logPocr(Cp)」である。 In step 750, for each node in the path diagram, the character string recognition device integrates the statistical information and the reliability of OCR recognition to calculate a score of the node. Here, the following equation (2) is used. Here, the expression (2) is “Score (C p ) = Score (C p−1 ) + logP nlo (C p | h p−1 ) + logP ocr (C p )”.

式(2)において、式(1)との相違点は、式(1)は音節Sの確率に基づいて算出を行うのに対して、式(2)は文字又は文字組み合わせCの確率に基づいて算出を行うことである。式から分かるように、開示技術によって提案される字母と数字が混合した文字列の認識方法において、同様に自然言語における統計による確率Pnlpと、OCR認識の確率POCRと、履歴情報hp−1と、を用いる。 The difference between the expression (2) and the expression (1) is that the expression (1) is calculated based on the probability of the syllable S, whereas the expression (2) is based on the probability of the character or the character combination C. To calculate. As can be seen from the equation, in the method for recognizing character strings mixed with letters and numbers proposed by the disclosed technology, the probability P nlp by statistics in natural language, the probability P OCR of OCR recognition, and the history information h p− 1 is used.

文字列認識装置は、各ノードに対して算出を行う場合、SRILMツールキットを用いて大量の類似する文字列に対してシミュレーションと統計を行うことによって、各文字列が単独で出現する確率と、字母と数字の各種組み合わせ順の確率を得ることができる。同様に、文字列認識装置は、様々な既存の方法によってこの確率を得ることができ、開示技術はその統計結果を直接に利用すればよい。しかし、理解を容易にするために、以下、シミュレーションと統計のプロセスを例に挙げて説明する。   When performing the calculation for each node, the character string recognition apparatus performs simulation and statistics on a large number of similar character strings using the SRILM toolkit, and thus the probability that each character string appears alone, Probability of various combinations of letters and numbers can be obtained. Similarly, the character string recognition apparatus can obtain this probability by various existing methods, and the disclosed technique may directly use the statistical result. However, in order to facilitate understanding, a simulation and statistical process will be described below as an example.

まず、大量のEmailアドレスのユーザ名をサンプルライブラリとして統計する。例えば、開示技術の発明者は、696818個の有効なEmailアドレスのユーザ名を利用して統計を行った。「mp2003@abc...xyz.ac.jp」を例にして、ユーザ名「mp2003」を抽出した。   First, a large number of email address user names are statistically analyzed as a sample library. For example, the inventors of the disclosed technology performed statistics using 696818 valid Email address usernames. Using “mp2003 @ abc ... xyz.ac.jp” as an example, the user name “mp2003” was extracted.

その後、全てのユーザ名を以下のとおり入れ替えた。   Thereafter, all user names were replaced as follows.

ユーザ名における字母を「a」で入れ替え、   Replace the letter in the username with "a"

ユーザ名における数字を「0」で入れ替えた。   The number in the user name was replaced with “0”.

例えば、「mp2003」を「aa0000」に入れ替えた。   For example, “mp2003” is replaced with “aa0000”.

続いて、SRILMツールキットを利用して、全てのサンプルに対して統計解析を行った。   Subsequently, statistical analysis was performed on all samples using the SRILM toolkit.

統計解析の結果には、一次元組と、二次元組と、三次元組等の統計結果が含まれる。図8には、三次元組の統計結果のみを示す。図8において、「<s>」は開始を示し、「</s>」は終了を示す。この統計結果は、三つの数字が一緒に出る(「000」)確率は−0.4126034であり、二つの数字が一緒に出た後に終了する(「00</s>」)確率は−0.4345168であること等を示す。   The result of statistical analysis includes statistical results such as a one-dimensional group, a two-dimensional group, and a three-dimensional group. FIG. 8 shows only the three-dimensional group statistical results. In FIG. 8, “<s>” indicates start and “</ s>” indicates end. This statistical result shows that the probability of three numbers appearing together (“000”) is −0.4126034, and the probability of ending after two numbers appearing together (“00 </ s>”) is −0. .4345168 or the like.

この統計結果によると、文字列認識装置は、例えば、以下のような条件確率を得ることができる。即ち、第1の文字が字母/数字である場合、第2の文字が字母/数字である確率は幾つであり、第1の文字が字母/数字であって、第2の文字が字母/数字である場合、第3の文字が字母/数字である確率は幾つである。つまり、式(2)におけるlogPnlp(C|hp−1)項を得ることができる。式(1)で説明したように、hp−1は、ここでその前の一つの文字の履歴情報のみを利用するのではなく、その前のさらに多くの文字の履歴情報を利用することができることを示す。本願による現在の方法において、第3の文字からそれぞれその前の二つの文字の履歴情報を利用するので、文字に基づく三次元組方法と呼ばれる。当業者であればその前のさらに多くの音節の履歴情報を利用することができることを容易に想到するが、これは開示技術に提案された思想に基づくものである。 According to this statistical result, the character string recognition device can obtain the following conditional probabilities, for example. That is, if the first character is a letter / number, there is a probability that the second character is a letter / number, the first character is a letter / number, and the second character is a letter / number. If so, there is a probability that the third character is a letter / number. That is, the term logP nlp (C p | h p−1 ) in the equation (2) can be obtained. As described in the equation (1), hp-1 does not use only the history information of one character before that, but can use history information of more characters before that. Show what you can do. In the present method according to the present application, since the history information of the two characters before the third character is used, it is called a three-dimensional composition method based on characters. A person skilled in the art can easily conceive that the history information of more syllables before that can be used, which is based on the idea proposed in the disclosed technology.

式(2)による他の算出は式(1)による算出と同様であるので、ここでは説明を省略する。   Since the other calculation by Formula (2) is the same as the calculation by Formula (1), description is abbreviate | omitted here.

最後に、ステップS760において、文字列認識装置は、各文字のスコア及びスコアが最大であるパスを得て、認識した確率が最大の候補文字列を確定する。   Finally, in step S760, the character string recognizing device obtains each character's score and the path having the maximum score, and determines the candidate character string having the highest recognized probability.

この実施例において、文字に基づく三次元組を利用した。ここで、文字列認識装置は、統計による字母と数字の組み合わせが出現する確率を利用して、即ち、大量のユーザの命名習慣という情報を利用した。よって、文字列認識装置は、数字と字母が混合している文字列の認識率の精度を大幅に向上した。ここで、本実施例において、通常の数字と字母の組み合わせの各種確率情報のみを統計した。当業者であれば、異なる数字と異なる字母の各種の組み合わせの確率情報を具体的に統計してもよいことを容易に想到する。例えば、ただ二つの字母と一つの数字又は二つの数字と一つの字母等の通常の情報のみを統計するのではなく、「ab1」、「12b」の組み合わせ情報を統計することもできる。これは開示技術に提案された思想を離脱していない。   In this example, a three-dimensional set based on characters was used. Here, the character string recognizing device uses the probability that a combination of a letter and a number appears based on statistics, that is, uses information on a large number of user naming habits. Therefore, the character string recognition apparatus has greatly improved the accuracy of the recognition rate of character strings in which numbers and letters are mixed. Here, in the present example, only various pieces of probability information of combinations of normal numbers and letters are statistically calculated. Those skilled in the art will readily conceive that the probability information of various combinations of different numbers and different letters may be specifically statistics. For example, it is possible to statistic the combined information of “ab1” and “12b”, not just the usual information such as two letters and one number or two numbers and one letter. This does not depart from the idea proposed for the disclosed technology.

発明者は、認識対象である文字列において、デリミタ「.」が出現する頻度はますます多くなっていることを発見した。インターネットの普及に伴って、ホームページアドレスであれ、Emailのアドレスであれ、いずれもこのようなデリミタ「.」を含む。デリミタ「.」は、ドメイン名部分において各レベルのドメイン名を分割する作用を果たし、Emailにおいて出現する頻度が高い。よって、このようなデリミタの認識はますます重要となっている。開示技術の第4の実施例によると、デリミタを認識する方法を提案する。図9は、開示技術の第4の実施例に係わる方法を模式的に示すフローチャートである。   The inventor has found that the delimiter “.” Appears more frequently in the character string to be recognized. With the spread of the Internet, both homepage addresses and Email addresses include such a delimiter “.”. The delimiter “.” Serves to divide the domain name at each level in the domain name portion, and frequently appears in Email. Therefore, recognition of such delimiters is becoming increasingly important. According to a fourth embodiment of the disclosed technique, a method for recognizing a delimiter is proposed. FIG. 9 is a flowchart schematically showing a method according to the fourth embodiment of the disclosed technique.

ステップS910において、文字列認識装置は、入力された文字列画像に対して連結領域の解析を実行する。文字列認識装置は、文字列画像の連結領域の解析に基づいて、各連結領域CCについて、該連結領域の各パラメータを得ることができる。例えば、文字列認識装置は、連結領域の位置の座標、連結領域における画素数等を確定する。   In step S <b> 910, the character string recognition device performs a connected region analysis on the input character string image. The character string recognition device can obtain each parameter of the connected region for each connected region CC based on the analysis of the connected region of the character string image. For example, the character string recognition device determines the coordinates of the position of the connected area, the number of pixels in the connected area, and the like.

ステップS920において、文字列認識装置は、デリミタを認識するために、閾値を確定する。例えば、文字列認識装置は、連結領域の画素数に基づいて、連結領域における画素数が小さい連結領域から順に複数の連結領域を選択し、選択したこれらの連結領域の画素数の平均値を算出して、算出した平均値に基づいて閾値を設定する。例えば、文字列認識装置は、ここでは最も前の三つの連結領域を利用して算出を行い、平均値Av3を得る。続いて、文字列認識装置は、T1=aAv3を閾値として設定する。aは状況に応じて選択して調整できるパラメータであり、その目的は最高の認識効果を得るためである。例えば、文字列認識装置は、a=3を設定することができる。閾値の確定は以上の形態に限定されないことは自明なことである。例えば、大量のサンプルに対してシミュレーションを行った結果に基づいて閾値を直接確定する、又は現在のユーザのサンプルを利用してシミュレーションを行って得た結果に基づいて閾値を確定することもできる。   In step S920, the character string recognition apparatus determines a threshold value in order to recognize the delimiter. For example, the character string recognition device selects a plurality of connected regions in order from the connected region having the smallest number of pixels in the connected region based on the number of pixels in the connected region, and calculates an average value of the number of pixels in the selected connected region. Then, a threshold is set based on the calculated average value. For example, the character string recognizing device performs calculation using the three previous connected regions, and obtains an average value Av3. Subsequently, the character string recognition device sets T1 = aAv3 as a threshold value. a is a parameter that can be selected and adjusted according to the situation, and its purpose is to obtain the best recognition effect. For example, the character string recognition device can set a = 3. It is obvious that the determination of the threshold value is not limited to the above form. For example, the threshold value can be directly determined based on a result of simulation performed on a large number of samples, or can be determined based on a result obtained by performing simulation using a sample of the current user.

その後、ステップS930において、文字列認識装置は、各連結領域の画素数がT1未満であるか否かを判定する。文字列認識装置は、画素数がT1未満である場合、ステップS950において、該連結領域は候補のデリミタ「.」であると確定する。ユーザ毎の筆記習慣は異なるので、デリミタ「.」のサイズも異なるユーザの筆記において大きい差異が存在する可能性がある。最小の複数の連結領域に応じて画素数の平均値を算出する方法は、異なるユーザの筆記習慣の違い(異なるユーザが書いた点のサイズは異なる)を考慮し、「自己適応」の形態でデリミタ「.」を認識した。   Thereafter, in step S930, the character string recognition device determines whether or not the number of pixels in each connected region is less than T1. When the number of pixels is less than T1, the character string recognition device determines that the connected region is a candidate delimiter “.” In step S950. Since the writing habits for each user are different, there is a possibility that a large difference exists in the writing of the user whose delimiter “.” Size is different. The method of calculating the average value of the number of pixels according to the minimum number of connected regions is based on the “self-adaptation” form, taking into account the difference in writing habits of different users (the size of points written by different users is different) Recognized delimiter “.”.

文字「i」、「j」の中にも点「.」が存在するので、ステップS940において、文字列認識装置は、さらに、認識した点「.」が文字行の下部に位置するか否かを判定する。文字列認識装置は、認識した点「.」が文字行の下部に位置する場合、この点はデリミタであると確定する。文字列認識装置は、この判定を各連結領域の座標パラメータに基づいて実行することができる。   Since the point “.” Also exists in the characters “i” and “j”, in step S940, the character string recognition apparatus further determines whether or not the recognized point “.” Is positioned below the character line. Determine. When the recognized point “.” Is located at the lower part of the character line, the character string recognizing device determines that this point is a delimiter. The character string recognition apparatus can perform this determination based on the coordinate parameters of each connected area.

開示技術の発明者は、認識対象である文字列について、この文字がどのデータベースに所属するかが分かると、文字列の候補文字列と予め定義したデータベースにおける文字列との間の類似度を利用して、認識率の精度をさらに向上できることを発見した。例えば、外部から取得した情報(例えば、ユーザから提供された情報、本実施例の環境を応用する等)又は文字列自体の構造的特徴に基づいて、認識対象である文字列がどのデータベース(例えば、人名、会社名、大学と研究機構の名等)に所属するかを推定又は確定することができる。例えば、認識対象である文字列が「fujitsu」である場合、他の手段、例えばユーザから提案された情報によって文字列が日本のある会社の名称であると確定する。そして、予め定義した日本会社名のデータベースを利用して、データベースにおける各文字列と候補文字列との類似度を算出することによって、文字列とデータベースにおける「fujitsu」との類似度が最も高いことを取得し、これを「fujitsu」に認識する。以下、この実施例を詳しく説明する。   When the inventor of the disclosed technology knows which database a character string to be recognized belongs to, it uses the similarity between the character string candidate character string and the character string in the predefined database. And found that the accuracy of the recognition rate can be further improved. For example, based on the information acquired from the outside (for example, information provided by the user, applying the environment of this embodiment, etc.) or the structural characteristics of the character string itself, which database (for example, the character string to be recognized is , Personal names, company names, names of universities and research institutions, etc.). For example, when the character string to be recognized is “fujitsu”, the character string is determined to be the name of a company in Japan by other means, for example, information proposed by the user. The similarity between the character string and “fujitsu” in the database must be the highest by calculating the similarity between each character string in the database and the candidate character string using a database of predefined Japanese company names. And recognize this as “fujitsu”. This embodiment will be described in detail below.

認識対象である文字列に対して、幾つかの候補文字列が存在し、各文字列における各文字はいずれも一定の信頼度を持っている。したがって、本実施例による方法において、文字列認識装置は、候補文字列とデータベースにおける文字列との類似度を算出する場合に、候補文字列におけるOCR認識の信頼度を利用する。   There are several candidate character strings for the character string to be recognized, and each character in each character string has a certain reliability. Therefore, in the method according to the present embodiment, the character string recognition apparatus uses the reliability of OCR recognition in the candidate character string when calculating the similarity between the candidate character string and the character string in the database.

図10は、開示技術の第5の実施例に係わる既に把握したデータベースを利用してOCR認識結果を補正する方法を模式的に示すフローチャートである。   FIG. 10 is a flowchart schematically showing a method of correcting the OCR recognition result using the already grasped database according to the fifth embodiment of the disclosed technology.

ステップS1010において、文字列認識装置は、文字列のOCR認識の結果に基づいて、予め定義されたデータベースにOCR認識の結果と類似する文字列を検出する。文字列の比較及び検出は様々な公知の既存技術を利用することができ、例えば、TDAG(三次元有向無環図)を利用することができる。TDAGは、データベースから文字列に類似する文字列を検出す方法であり、当業者には公知の技術であるので、ここでは説明を省略する。   In step S1010, the character string recognition device detects a character string similar to the result of OCR recognition in a predefined database based on the result of OCR recognition of the character string. For comparison and detection of character strings, various known existing techniques can be used. For example, TDAG (three-dimensional directed acyclic diagram) can be used. TDAG is a method for detecting a character string similar to a character string from a database, and since it is a technique known to those skilled in the art, description thereof is omitted here.

ステップS1020において、文字列認識装置は、OCR認識を経て得た幾つかの結果とステップS1010において検出したデータベースにおける類似する特殊のドメイン名との間の類似度を算出する。例えば、文字列認識装置は、LD(Levenshtein Distance)アルゴリズムによって類似度を算出する。文字列認識装置は、効率性の観点から、全ての候補の認識結果を比較するとは限らない。例えば、文字列認識装置は、OCR認識の確率が最大の二つの候補文字列を利用して算出を行うことができる。文字列認識装置は、一つの文字が文字を挿入したり、文字を削除したり、文字を入れ替えたりして他の文字列を構成することができる。文字列Aを文字列Bに変換すれば、三種類の操作における実行回数が最も少ないのをABのLD距離と称し、文字列の長さでLD距離を割ると、ABの類似度を得ることができる。既存技術において、LD距離の標準算出式は以下のとおりである。   In step S1020, the character string recognizing apparatus calculates the similarity between some results obtained through OCR recognition and similar special domain names in the database detected in step S1010. For example, the character string recognizing device calculates the similarity using an LD (Levenshtein Distance) algorithm. The character string recognition device does not always compare the recognition results of all candidates from the viewpoint of efficiency. For example, the character string recognition apparatus can perform calculation using two candidate character strings having the maximum probability of OCR recognition. The character string recognition apparatus can form another character string by inserting a character into one character, deleting a character, or replacing a character. If character string A is converted to character string B, the least number of executions in the three types of operations is called the AB LD distance, and the AB distance is obtained by dividing the LD distance by the length of the character string. Can do. In the existing technology, the standard formula for calculating the LD distance is as follows.

Figure 2011065646
Figure 2011065646

式(3)において、LD(i,j)は、第1の文字列(OCR認識した候補文字列に対応することができる)における第i個の文字C(i)(又は、第i個の文字までの一部の文字列)と第2の文字列(データベースにおける比較対象になる文字列に対応することができる)における対応する第j個の文字C(j)(又は、第j個の文字までの一部の文字列)の間の距離を示し、i、jはそれぞれ自然数である。第1の文字列と第2の文字列の最後の一つの文字について、LD(i,j)は、該二つの文字列間の距離を示す。式(3)における第1の式は、第1の文字列における第i個の文字を削除した後に第2文字列と比較すると、第1の文字列(第i個の文字まで)と第2文字列との距離はLD(i−1,j)に1を加算することを示す。式(3)における第2式は、第1式と相反して、即ち第2の文字列における第j個の文字を削除した後に第1の文字列と比較すると、該第2の文字列(第j個の文字まで)と第1の文字列との間の距離はLD(i,j−1)に1を加算することを示す。逆にして、該第2式は第1の文字列に一つの文字を挿入することに相当する。式(3)における第3式は、第1の文字列における第i個の文字又は第2の文字列における第j個の文字を他の文字に入れ替えた後比較すると、その間の距離はLD(i−1,j−1)にCOSTを加算することを示す。   In equation (3), LD (i, j) is the i-th character C (i) (or i-th number of characters) in the first character string (which can correspond to the candidate character string recognized by OCR). A part of the character string up to the character) and the corresponding jth character C (j) in the second character string (which can correspond to the character string to be compared in the database) (or jth character string) (Part of the character string up to the character)), i and j are natural numbers. For the last character of the first character string and the second character string, LD (i, j) indicates the distance between the two character strings. The first expression in Expression (3) is obtained by comparing the first character string (up to the i-th character) and the second character string when compared with the second character string after deleting the i-th character in the first character string. The distance from the character string indicates that 1 is added to LD (i-1, j). The second expression in the expression (3) is contrary to the first expression, that is, when the jth character in the second character string is deleted and then compared with the first character string, the second character string ( The distance between the first character string and the first character string indicates that 1 is added to LD (i, j-1). Conversely, the second expression corresponds to inserting one character into the first character string. The third equation in the equation (3) is obtained by comparing the i-th character in the first character string or the j-th character in the second character string with another character and then comparing them with the distance LD ( This indicates that COST is added to i-1, j-1).

ここで、第1の文字列を補正して得た第2の文字列の形態は多種類である。各種類の形態について、いずれもLD(i,j)値を得ることができ、その中の最小の値を最終のLD値とする。   Here, there are many types of second character strings obtained by correcting the first character string. For each type of form, any LD (i, j) value can be obtained, and the smallest value among them is taken as the final LD value.

式(4)において、C(j)は、第2の文字列の第j個の文字を示し、CG(i)は、第1の文字列における第i個の文字に対応する画像セグメントの全てのOCR認識の候補文字の集合を示す。式(4)は、データベースにおける比較対象になる文字列(つまり、第2の文字列)における第j個の文字(つまり、第1の文字列における第i個の文字が入れ替えられる目標)が、第1の文字列の第i個の文字に対応する画像セグメントの候補文字の集合に存在すると、入れ替えの代価は0であことを意味する。式(4)は、第1の文字列の第i個の文字に対応する画像セグメントの候補文字の集合に存在しなければ、代価は1であることを意味する。   In Expression (4), C (j) represents the jth character of the second character string, and CG (i) represents all of the image segments corresponding to the ith character in the first character string. A set of candidate characters for OCR recognition. Formula (4) is the jth character in the character string to be compared in the database (that is, the second character string) (that is, the target for replacing the i-th character in the first character string): If it exists in the set of candidate characters of the image segment corresponding to the i-th character of the first character string, it means that the replacement price is 0. Equation (4) means that the price is 1 if it does not exist in the set of image segment candidate characters corresponding to the i-th character in the first character string.

しかし、このような既存技術には、文字のOCR認識の候補文字の集合に存在するか否かのみを考慮し、文字のOCR認識の信頼度を考慮していないので、OCR認識した文字列とデータベースにおける複数の文字列との距離が同一(または、相反して、複数の候補文字列がデータベースにおけるある文字列との距離が同一)となり、距離を利用した認識の最適化に不利になる。   However, such an existing technique considers only whether or not it exists in a set of candidate characters for character OCR recognition, and does not consider the reliability of character OCR recognition. The distance to a plurality of character strings in the database is the same (or, conversely, the plurality of candidate character strings have the same distance to a certain character string in the database), which is disadvantageous for optimization of recognition using the distance.

この問題を鑑み、開示技術の本実施例によると、COST関数を改善する。具体的には、ある候補文字に対応する文字列の距離から、該候補文字の対応するセグメントがデータベースにおける比較対象となる文字列における対応する位置の文字に認識される認識信頼度に対応する値を減少する。例えば、COST関数を以下の式(5)に補正する。   In view of this problem, according to the present embodiment of the disclosed technology, the COST function is improved. Specifically, the value corresponding to the recognition reliability that the segment corresponding to the candidate character is recognized by the character at the corresponding position in the character string to be compared in the database from the distance of the character string corresponding to a certain candidate character Decrease. For example, the COST function is corrected to the following equation (5).

Figure 2011065646
Figure 2011065646

COST関数の上式は、1)OCR認識した第1の文字列の第i個の文字C(i)(即ち、CG(i)におけるある候補文字CG(i,k)、kは|CG(i)|以下の自然数)がデータベースにおける第2の文字列の第j個の文字C(j)と同一である。つまりC(i)=CG(i,k)=C(j)であると、第1の文字列がデータベースにおける第2の文字列である可能性が最も高いと判定するので、対応する距離から、一つの候補文字のOCR認識の信頼度p(CG(i,k))を減算する。つまり、p(C(j))又はp(C(i))であることを意味する。2)OCR認識した第1の文字列の第i個の文字C(i)(即ち、CG(i)におけるある候補文字符CG(i,k))がデータベースにおける第2の文字列の第j個の文字と異なる。つまり、C(i)=CG(i,k)!=C(j)であるが、第2文字列の第j個の文字がCG(i)にも存在する。即ち、C(j)∈CG(i)であると、対応する距離から、候補文字の対応するセグメントがデータベースにおける比較対象になる第2の文字列における対応する位置の文字(つまり、C(j))に認識される認識の信頼度に対応する値P(C(j))を減少することを意味する。第(1)の場合、C(j)=CG(i,k)は、C(j)∈CG(i)のうちの一つであるから、第(1)と第(2)はいずれもC(j)∈CG(i)の場合である。つまり、ある候補文字に対応する文字列の距離から、候補文字の対応するセグメントがデータベース中の比較対象になる文字列における対応する位置の文字に認識された信頼度に対応する値を減少する。   The above formula for the COST function is as follows: 1) The i-th character C (i) of the first character string recognized by OCR (that is, a certain candidate character CG (i, k) in CG (i), k is | CG ( i) | the following natural number) is the same as the jth character C (j) of the second character string in the database. That is, if C (i) = CG (i, k) = C (j), it is determined that the first character string is most likely the second character string in the database. Then, the OCR recognition reliability p (CG (i, k)) of one candidate character is subtracted. That is, it means p (C (j)) or p (C (i)). 2) The i-th character C (i) of the first character string recognized by OCR (that is, a candidate character code CG (i, k) in CG (i)) is the j-th character of the second character string in the database. Different from the characters. That is, C (i) = CG (i, k)! = C (j), but the jth character of the second character string is also present in CG (i). That is, if C (j) εCG (i), from the corresponding distance, the corresponding segment of the candidate character is the character at the corresponding position in the second character string to be compared in the database (ie, C (j )) Means that the value P (C (j)) corresponding to the recognition reliability recognized is decreased. In the case of (1), C (j) = CG (i, k) is one of C (j) εCG (i), so both (1) and (2) This is the case when C (j) εCG (i). That is, the value corresponding to the reliability of the segment corresponding to the candidate character recognized by the character at the corresponding position in the character string to be compared in the database is reduced from the distance of the character string corresponding to a certain candidate character.

式(5)におけるCOST関数の下式は、第2の文字列の第j個の文字C(j)がCG(i)に存在しない(この時、OCR認識した第1の文字列の第i個の文字C(i)(即ち、CG(i)におけるある候補文字CG(i,k))とC(j)は異なる)と、既存のアルゴリズムにしたがって算出することを意味する。   In the following expression of the COST function in Expression (5), the j-th character C (j) of the second character string does not exist in CG (i) (at this time, the i-th character of the first character string recognized by OCR This means that the number of characters C (i) (that is, a certain candidate character CG (i, k) in CG (i) is different from C (j)) is calculated according to an existing algorithm.

式(3)と式(5)を統合すると、OCR認識した第1の文字列とデータベースにおける第2の文字列の距離を算出する場合に、対応するOCR認識の確率を考慮する。候補のOCR認識した第1の文字列における第i個の文字がデータベースにおける比較対象になる第2の文字列における対応する位置の文字に認識されるOCR認識の確率が高いほど、該文字がデータベースにおける第2の文字列における対応する文字である可能性があることを示す。したがって、その間の距離は小さい。   When Equation (3) and Equation (5) are integrated, the corresponding OCR recognition probability is taken into account when calculating the distance between the first character string recognized by OCR and the second character string in the database. The higher the probability of OCR recognition that the i-th character in the first character string recognized by the OCR recognition is recognized by the character at the corresponding position in the second character string to be compared in the database, the more the character is in the database. Indicates that it may be a corresponding character in the second character string. Therefore, the distance between them is small.

他の最適な実施形態において、式(5)を改善することができ、例えば、以下の式(6)に改善することができる。   In other optimal embodiments, equation (5) can be improved, for example, improved to equation (6) below.

Figure 2011065646
Figure 2011065646

式(6)も式(5)の効果を生じることができる。式(6)の下式において、(A)であるので、C(j)のOCR信頼度は0であると認めることができる。したがって、下式を上式に統一することができ、次の式(7)を得ることができる。ここで、式(7)は、「COST=1-p(C(j))」である。   Equation (6) can also produce the effect of Equation (5). In the following formula (6), since it is (A), it can be recognized that the OCR reliability of C (j) is zero. Therefore, the following expression can be unified with the above expression, and the following expression (7) can be obtained. Here, Expression (7) is “COST = 1−p (C (j))”.

他の最適な実施形態において、COST関数に対して更なる改善を行うことができる。具体的には、候補文字列におけるあるセグメントのいずれかの一つの候補文字(即ち、第1の文字列における第i個の文字C(i)=CG(i,k))がデータベースにおける比較対象になる文字列における対応する位置の文字(即ち、第2の文字列の第j個の文字C(j))と異なる時に、候補文字に対応する文字列の距離に、候補文字の認識の信頼度に対応する値P(C(i))を増加することができる。この技術的思想は、ある候補文字の認識の信頼度が高いほど、OCR認識の観点から見ると、データベースにおける文字列の対応する文字に入れ替えられる可能性は低く、距離を反映すると、対応する文字列の距離を大きくする必要がある。C(i)=C(j)である場合に、第1の文字列にC(j)と異なる文字が存在しないので、「異なる文字」が「空き」であると認めることができ、そのOCR認識の確率が0であると認めることができる。したがって、さらに補正されたCOST関数が式(8)であると、式(9)に書き直すことができる。   In other optimal embodiments, further improvements can be made to the COST function. Specifically, one candidate character of any one segment in the candidate character string (that is, the i-th character C (i) = CG (i, k) in the first character string) is compared in the database. When the character string corresponding to the candidate character is different from the character at the corresponding position (that is, the jth character C (j) of the second character string), the distance of the character string corresponding to the candidate character is The value P (C (i)) corresponding to the degree can be increased. From the viewpoint of OCR recognition, this technical idea is less likely to be replaced with the corresponding character in the character string in the database as the reliability of recognition of a candidate character is higher. The distance between the columns needs to be increased. When C (i) = C (j), since there is no character different from C (j) in the first character string, it can be recognized that “different character” is “empty”, and its OCR It can be recognized that the recognition probability is zero. Therefore, if the further corrected COST function is Expression (8), it can be rewritten into Expression (9).

Figure 2011065646
Figure 2011065646

ここで、P(C(i))は、第1の文字列におけるC(i)と第2の文字列におけるC(j)が異なる場合のC(i)のOCR認識の信頼度を示す。P(C(i)|(C(i)≠C(j))は、C(i)≠C(j)である場合のみにP(C(i))値を加算し、C(i)=C(j)である場合には、C(j)と異なるC(i)が存在しないので、0をとることを意味する。   Here, P (C (i)) indicates the reliability of OCR recognition of C (i) when C (i) in the first character string is different from C (j) in the second character string. P (C (i) | (C (i) ≠ C (j)) adds a P (C (i)) value only when C (i) ≠ C (j), and C (i) When = C (j), C (i) different from C (j) does not exist, which means that 0 is taken.

式(3)もさらに簡易化することができる。第1の文字列に挿入する場合と第1の文字列から削除する場合を、それぞれ、第1の文字列は文字が欠けている(つまり、対応する位置に「空き」文字がある)、第2の文字列は文字が欠けている(つまり、対応する位置に「空き」文字がある)と理解する。そして、空き文字について、式(9)において、p(C(i))であれp(C(j))であれ、いずれも0である。そうすると、式(3)における挿入、削除と入れ替え操作時のLD距離の算出は、式(9)に基づくCOST式の下式(10)に統一させることができる。ここで、式(10)は、「LD(i,j)=LD(i-1,j-1)+COST」である。   Equation (3) can be further simplified. When inserting into the first character string and when deleting from the first character string, the first character string is missing a character (that is, there is an “empty” character at the corresponding position). It is understood that the character string of 2 is missing characters (that is, there is an “empty” character at the corresponding position). With respect to empty characters, in equation (9), both p (C (i)) and p (C (j)) are 0. Then, the calculation of the LD distance at the time of insertion, deletion, and replacement operation in Expression (3) can be unified with the following Expression (10) of the COST expression based on Expression (9). Here, Expression (10) is “LD (i, j) = LD (i−1, j−1) + COST”.

ステップS1030において、文字列認識装置は、二つの文字列の間の距離が予め確定した閾値未満であるか否かを判定する。文字列認識装置は、距離が予め確定した閾値未満であると判定した場合、ステップS1040において、OCR認識した文字を対応するデータベースにおける文字列に入れ替える。文字列認識装置は、距離が予め確定した閾値未満ではないと判定した場合、ステップS1050において、OCR認識の結果を用いて出力する。   In step S1030, the character string recognition apparatus determines whether the distance between the two character strings is less than a predetermined threshold value. If the character string recognition device determines that the distance is less than the predetermined threshold, in step S1040, the character string recognition device replaces the OCR recognized character with the character string in the corresponding database. If the character string recognition device determines that the distance is not less than a predetermined threshold value, in step S1050, the character string recognition device outputs the result using the result of OCR recognition.

文字列認識装置は、認識対象である文字列を含むデータベースを利用して補正を行うので、このような文字列の認識率の精度をさらに向上させることができる。   Since the character string recognition apparatus performs correction using a database including a character string to be recognized, the accuracy of the recognition rate of such a character string can be further improved.

第1〜第5の実施例は任意に組み合わせることができる。一つの最適な形態は、各実施例による方法を組み合わせることができる。例えば、文字列認識装置は、デリミタによって複数のセグメントに分割され、少なくとも一部分のフィールドが固定のモードを有する文字列、例えば、Emailアドレス、ネットワークアドレス等を効率的で正確に認識する。特に、手書きの文字列に効率的で正確な認識を行うことができる。   The first to fifth embodiments can be arbitrarily combined. One optimal form can combine the methods according to each embodiment. For example, a character string recognition apparatus efficiently and accurately recognizes a character string divided into a plurality of segments by a delimiter and having at least a part of fields having a fixed mode, for example, an Email address, a network address, and the like. In particular, efficient and accurate recognition can be performed on a handwritten character string.

以下、Emailアドレス「hanashiro@abc...xyz.or.jp」の認識を例に説明する。   Hereinafter, the recognition of the Email address “hanashiro @ abc ... xyz.or.jp” will be described as an example.

有効のEmailアドレス、例えば、「hanashiro@abc...xyz.or.jp」は、ユーザ名「hanashiro」と、中間の「@」文字と、ドメイン名「abc...xyz.or.jp」の三つの部分からなる。この中、ドメイン名は階層構造に所属し、通常ドメイン名と特殊ドメイン名とに分けられる。通常ドメイン名は、汎用されるもので、例えば「or」と「jp」がある。特殊ドメイン名は、ドメイン名を有する組織又は集団を示し、例えば、「abc...xyz」がある。点「.」文字は、通常、ユーザ名とドメイン名における複数のセグメントの間のデリミタとして利用される。   A valid email address, for example, “hanashiro @ abc ... xyz.or.jp” is the username “hanashiro”, the middle “@” character, and the domain name “abc ... xyz.or.jp”. It consists of three parts. Among these, domain names belong to a hierarchical structure, and are usually divided into domain names and special domain names. The domain name is generally used and includes, for example, “or” and “jp”. The special domain name indicates an organization or a group having the domain name, for example, “abc ... xyz”. The dot “.” Character is typically used as a delimiter between multiple segments in the username and domain name.

図11は、開示技術の第6の実施例に係わる方法を模式的に示すフローチャートである。   FIG. 11 is a flowchart schematically showing a method according to the sixth embodiment of the disclosed technique.

実際の認識を行う場合に、当業者であれば公知のように、Emailアドレスの文字列に対して連結領域の解析を行うが、既に説明したので、ここでは説明を省略する。   As is known to those skilled in the art, when actually recognizing, a concatenated area is analyzed with respect to a character string of an Email address, but since it has already been described, description thereof is omitted here.

連結領域の解析の結果に基づいて、ステップS1110において、文字列認識装置は、Emailにおけるデリミタを認識する。文字列認識装置は、「.」文字以外、「@」文字も、ユーザ名とドメイン名とを分割するのでデリミタと見なす。文字列認識装置は、「.」の文字について、開示技術の第4の実施例による方法にしたがって認識を行うことができるので、ここでは説明を省略する。文字列認識装置は、「@」文字の認識に対して、現在の全ての文字認識方法にしたがって認識する。しかし、「@」文字の特殊性のため、非特許文献3において、「@」文字を認識する方法が提案されており、以下、この方法を簡単に説明する。   Based on the result of the analysis of the connected region, in step S1110, the character string recognition device recognizes a delimiter in Email. The character string recognition device regards the “@” character other than the “.” Character as a delimiter because it divides the user name and the domain name. Since the character string recognition apparatus can recognize the character “.” According to the method according to the fourth embodiment of the disclosed technology, the description thereof is omitted here. The character string recognition device recognizes the “@” character according to all current character recognition methods. However, due to the peculiarity of the “@” character, Non-Patent Document 3 proposes a method for recognizing the “@” character, and this method will be briefly described below.

まず、文字列認識装置は、「@」である可能性があるセグメントを検出するが、「@」のサイズが大きいので、サイズから「@」である可能性がないセグメントを除去する。具体的には、文字列認識装置は、セグメントの幅と高さがそれぞれ予定閾値を超えるか否かを判定し、その幅又は高さが予定閾値を超えていないと、セグメントは「@」である可能性がないと判定する。その後、文字列認識装置は、通過したセグメントについて、それらの「@」の修正2次識別関数(modified quadratic discriminant function,MQDF)における出力値をテストし、信頼度に変換する(クラス条件確率)。この場合に、文字列認識装置は、「@」のシミュレーションサンプリングライブラリによって、一つの修正2次識別関数をシミュレーションすることは当然である。Emailアドレスには一つかつただ一つの「@」文字が含まれるので、文字列認識装置は、全ての信頼度において、最大の値に対応するセグメントを「@」文字として判定する。   First, the character string recognition apparatus detects a segment that may be “@”, but since the size of “@” is large, a segment that is not likely to be “@” is removed from the size. Specifically, the character string recognition device determines whether or not the width and height of the segment exceed the scheduled threshold value, respectively, and if the width or height does not exceed the planned threshold value, the segment is “@”. It is determined that there is no possibility. Thereafter, the character string recognition device tests the output values of the “@” modified quadratic discriminant function (MQDF) for the passed segments and converts them into reliability (class condition probability). In this case, the character string recognizing device naturally simulates one modified secondary discriminant function using the “@” simulation sampling library. Since the email address includes one and only one “@” character, the character string recognition apparatus determines the segment corresponding to the maximum value as the “@” character in all the reliability levels.

この処理を経て、文字列認識装置は、Emailアドレスにおける重要なデリミタ「@」と「.」とを得る。これらのデリミタは、Emailアドレスを異なる部分に分割する。例えば、「hanashiro@abc...xyz.or.jp」に対して、ユーザ名部分である「hanashiro」と、特殊ドメイン名部分である「abc...xyz」と、通常ドメイン名部分である「or」、「jp」に分割される。   Through this processing, the character string recognition apparatus obtains important delimiters “@” and “.” In the Email address. These delimiters divide the Email address into different parts. For example, for “hanashiro @ abc ... xyz.or.jp”, the user name part “hanashiro”, the special domain name part “abc ... xyz”, and the normal domain name part Divided into “or” and “jp”.

続いて、文字列認識装置は、デリミタを境界として、各部分にそれぞれ処理を行う。文字列認識装置は、各部分に文字毎の認識を行うことができ、全体の認識を行うこともでき、各実施例をそれぞれ単独又は組み合わせて利用することができる。処理中において、文字列認識装置は、認識対象の先験的な知識を利用して、各デリミタによって分割された各部分の性質を確定して、各実施例に対応するステップにおいて、辞書又はデータベース及び/又は対応する統計データを適切に利用することができる。例えば、文字列認識装置は、メールアドレスについて、後ろから前の方に、「.」によって、通常ドメイン名(通常は1〜2層)と、特殊ドメイン名(ユーザドメイン名)と、その後は「@」の後のユーザ名とに分割する。したがって、文字列認識装置は、それぞれ、通常ドメイン名の辞書(例えば、トップレベルドメイン名辞書及び/又はセカンドレベルドメイン辞書)と、特殊ドメイン名のデータベースと、ユーザ名のデータベースなどを利用する。ホームページアドレスに対しても、同様の法則がある。   Subsequently, the character string recognition apparatus performs processing on each part with the delimiter as a boundary. The character string recognizing apparatus can perform recognition for each character in each part, can also perform overall recognition, and can use each embodiment individually or in combination. During processing, the character string recognizing device uses the a priori knowledge of the recognition target to determine the property of each part divided by each delimiter, and in the step corresponding to each embodiment, a dictionary or database And / or corresponding statistical data can be used appropriately. For example, the character string recognizing device, for the mail address, from the back to the front, “.” Indicates a normal domain name (usually 1 to 2 layers), a special domain name (user domain name), and thereafter “ It is divided into the user name after “@”. Therefore, each of the character string recognition devices uses a normal domain name dictionary (for example, a top level domain name dictionary and / or a second level domain dictionary), a special domain name database, a user name database, and the like. The same rule applies to homepage addresses.

一実施例として、文字列認識装置は、後ろから前の方へ処理を行うことができる。よって、例えば、メールアドレスの認識において、ステップS1120において、文字列認識装置は、通常ドメイン名を認識する。ここで、文字列認識装置は、全体の認識も可能であって、文字毎の認識も可能である。   As an example, the character string recognition apparatus can perform processing from the back to the front. Thus, for example, when recognizing a mail address, the character string recognition device recognizes a normal domain name in step S1120. Here, the character string recognition apparatus can also recognize the whole and can recognize each character.

ステップS1120において、文字列認識装置は、例えば、連結領域を後ろから前の方へ走査し、第1のデリミタ「.」を検出した場合、デリミタの後ろの全ての連結領域をサブ画像として全体の認識を実行する。文字列認識装置は、第2のデリミタ「.」を検出した場合、第1のデリミタと第2のデリミタとの間の連結領域をサブ画像として全体認識を実行する。文字列認識装置は、この認識に、例えば常用の修正2次分類器MQDF(前においてすでに説明した)を利用することができる。   In step S1120, for example, when the character string recognition apparatus scans the connected area from the back to the front and detects the first delimiter “.”, The entire character string recognition apparatus uses all the connected areas after the delimiter as sub-images. Perform recognition. When the character string recognition device detects the second delimiter “.”, The character string recognition device performs overall recognition using the connection area between the first delimiter and the second delimiter as a sub-image. The character string recognizing device can use, for example, a conventional modified secondary classifier MQDF (which has already been described above) for this recognition.

通常ドメイン名は、レベル構造(トップレベルドメイン名とセカンドレベルドメイン)を有し、一定の内在的法則を有する。したがって、開示技術による通常ドメイン名の認識において、文字列認識装置は、このような法則を利用して認識の正確率及び認識の処理速度をさらに向上することができる。例えば、最後のドメイン名の認識の結果、即ち、一番目の認識結果が「com」、「edu」、「org」、「net」のうちの一つであると、ドメイン名の定義の法則によると、その前は必ずユーザドメイン名であるから、通常ドメイン名の認識プロセスは終了する。一番目の認識の結果が例えば国家又は地域のドメイン名、例えば、「jp」であると、続いて認識対象である通常ドメイン名は必ず、「ac」、「ad」、「co」、「ne」、「or」などのセカンドレベルドメインのうちの一つである。これもドメイン名の定義の法則に基づいて決定されることである。したがって、認識したその後のトメイン名が「ac」、「ad」、「co」、「ne」、「or」のうちの一つである確率がある閾値Tr、例えば、Tr=0.7を超えると、通常ドメイン名の認識は終了する。これはこのドメイン名の後は必ずユーザドメイン名であるからである。   A domain name usually has a level structure (a top level domain name and a second level domain), and has certain inherent laws. Therefore, in the recognition of the normal domain name by the disclosed technique, the character string recognition device can further improve the recognition accuracy rate and the recognition processing speed by using such a rule. For example, if the recognition result of the last domain name, that is, the first recognition result is one of “com”, “edu”, “org”, and “net”, the domain name definition rule is used. Since it is always the user domain name before that, the domain name recognition process normally ends. If the result of the first recognition is, for example, a national or regional domain name, such as “jp”, then the normal domain name to be recognized is always “ac”, “ad”, “co”, “ne” ”,“ Or ”, etc., one of the second level domains. This is also determined based on the domain name definition rule. Accordingly, the recognized domain name has a probability that it is one of “ac”, “ad”, “co”, “ne”, “or”, and exceeds a threshold value Tr, for example, Tr = 0.7. Then, recognition of the domain name usually ends. This is because this domain name is always followed by a user domain name.

ここでは、ドメイン名を定義する法則のような先験的な知識を利用したので、全体認識の結果は通常の認識の結果より明らかに優れている。なお、文字列認識装置は、全体の認識を行わずに、文字毎の認識を実行してもよい。同様に、文字列認識装置は、先験的な知識に基づいて選択した辞書(又はデータベース)及び/又は対応する統計データを利用して、第1〜第6の実施例を単独又は統合して利用することができることはいうまでもない。   Here, a priori knowledge such as the rule that defines the domain name is used, so the overall recognition result is clearly superior to the normal recognition result. Note that the character string recognition device may perform recognition for each character without performing overall recognition. Similarly, the character string recognition apparatus uses the dictionary (or database) selected based on a priori knowledge and / or the corresponding statistical data, alone or in combination with the first to sixth embodiments. Needless to say, it can be used.

続いて、ステップS1130において、文字列認識装置は、特殊ドメイン名とユーザ名を認識する。ここでは、第1、第2と第3の実施例による方法にしたがって認識を実行することができる。   Subsequently, in step S1130, the character string recognition device recognizes the special domain name and the user name. Here, recognition can be performed according to the methods according to the first, second and third embodiments.

最後に、ステップS1140において、文字列認識装置は、既に存在するデータベースを利用して認識した結果を補正することができる。例えば、日本のEmailアドレスの場合、通常ドメイン名の認識結果が「.ac.jp」であると、その前の特殊ドメイン名は、必ず、大学又は研究機構のドメイン名である。よって、文字列認識装置は、大学又は研究機構のドメイン名のデータベースを利用して認識結果のスペリングの検査及び補正を実行する。そして、文字列認識装置は、一般的なユーザ名(会社名を含む)のデータベースを利用して特殊ドメイン名の認識結果を検査及び補正を実行する。この検査及び補正は、実施例5による方法にしたがって処理することができ、例えば、文字列認識装置は、OCR認識した文字列とデータベースにおける文字列との距離を算出する。一方、この検査及び補正において、文字列認識装置は、事実的に、利用可能なデータベースさえあれば、文字列、例えばEmailアドレスのいかなる部分に適用することができることは言うまでもない。   Finally, in step S1140, the character string recognition device can correct the recognition result using an already existing database. For example, in the case of an email address in Japan, if the recognition result of a normal domain name is “.ac.jp”, the special domain name before that is always the domain name of a university or research organization. Therefore, the character string recognition apparatus performs the spelling inspection and correction of the recognition result using the domain name database of the university or research organization. Then, the character string recognition device performs inspection and correction on the recognition result of the special domain name using a database of general user names (including company names). This inspection and correction can be processed in accordance with the method according to the fifth embodiment. For example, the character string recognition apparatus calculates the distance between the character string recognized by OCR and the character string in the database. On the other hand, it goes without saying that in this inspection and correction, the character string recognition device can be applied to any part of a character string, for example, an Email address, as long as there is an available database.

開示技術に係わる方法によると、文字列認識装置は、デリミタによって複数のフィールドに分割され、少なくとも一部分のフィールドが固定モードを有する文字列、例えばEmailアドレス、ホームページアドレス等を効率的且つ正確に認識することができる。特に、文字列認識装置は、手書きの文字列を効率的で正確に認識することができる。   According to the method related to the disclosed technique, the character string recognition device is divided into a plurality of fields by a delimiter, and at least a part of the fields has a fixed mode, for example, an e-mail address, a homepage address, etc. are recognized efficiently and accurately. be able to. In particular, the character string recognition device can recognize a handwritten character string efficiently and accurately.

開示技術の第7の実施例は、開示技術の第1の実施例に対応する。   The seventh embodiment of the disclosed technique corresponds to the first embodiment of the disclosed technique.

図12は、開示技術の第7の実施例に係わる文字列認識装置を示す図である。図12に示すように、文字列認識装置は、セグメント分割部1202と、OCR認識部1204と、統計情報取得部1206と、第1の文字列確定部1208と、を備える。   FIG. 12 is a diagram illustrating a character string recognition apparatus according to a seventh embodiment of the disclosed technology. As illustrated in FIG. 12, the character string recognition device includes a segment division unit 1202, an OCR recognition unit 1204, a statistical information acquisition unit 1206, and a first character string determination unit 1208.

セグメント分割部1202は、文字列画像を複数のセグメントに分割するように設置される。この分割は、様々な既存技術に基づいて行うことができる。「hanashiro」画像を例にすると、セグメント分割部1202は、連結領域の解析結果に基づいて分割して認識することができる。セグメント分割部1202は、分割した後、複数の画像セグメント「h」、「a」、「n」、「a」、…、「o」を得ることができる。   The segment dividing unit 1202 is installed so as to divide the character string image into a plurality of segments. This division can be performed based on various existing technologies. Taking the “hanashiro” image as an example, the segment dividing unit 1202 can recognize the divided image based on the analysis result of the connected region. The segment dividing unit 1202 can obtain a plurality of image segments “h”, “a”, “n”, “a”,.

OCR認識部1204は、複数のセグメントに対してOCR認識を行って、候補文字を取得するように設置される。当業者であれば、文字を認識する場合、認識対象である文字画像がある文字である確率を得ることは自明なことである。例えば、文字「h」は、OCR認識において、「h」又は「b」に認識される可能性があるが、それらの確率は異なり、認識の信頼度とも呼ばれる。したがって、各セグメントは少なくとも一つの候補文字に対応する。   The OCR recognition unit 1204 is installed to perform OCR recognition on a plurality of segments and acquire candidate characters. It is self-evident that a person skilled in the art obtains the probability that a character image to be recognized is a character when the character is recognized. For example, the letter “h” may be recognized as “h” or “b” in OCR recognition, but their probabilities differ and are also referred to as recognition confidence. Thus, each segment corresponds to at least one candidate character.

統計情報取得部1206は、セグメントの候補文字の統計情報及び/又はセグメントの候補文字によって構成される文字組み合わせの統計情報を取得するように設置される。例えば、文字組み合わせ「ha」に対して、予め大量の語彙に対して統計を行っておき、該文字組み合わせを含む確率を得る。同様に、文字組み合わせ「han」が語彙において出現する確率を得ることもできる。ここで、統計するための語彙の範囲を限定することができる。たとえば、全ての会社名を統計する、全ての姓名を統計するなどと限定することによって、対応する確率を得ることができる。ある文字列を認識するとき、統計情報取得部1206は、認識する文字列がある分野又は範囲(第1〜第6の実施例の説明を参照)に所属することが分かった場合、対応する確率を利用して、さらに優れた結果を得ることができる。ここで、統計プロセスは事前に準備されたものであってもよく、統計情報取得部1206はただ、統計結果を直接に利用するようにしてもよい。   The statistical information acquisition unit 1206 is installed so as to acquire statistical information of segment candidate characters and / or statistical information of character combinations configured by segment candidate characters. For example, with respect to the character combination “ha”, statistics for a large amount of vocabulary are obtained in advance, and the probability of including the character combination is obtained. Similarly, the probability that the character combination “han” appears in the vocabulary can also be obtained. Here, the range of vocabulary for statistics can be limited. For example, the corresponding probabilities can be obtained by limiting all company names or statistics to all first and last names. When recognizing a certain character string, the statistical information acquisition unit 1206, when it is found that the character string to be recognized belongs to a certain field or range (see the description of the first to sixth embodiments), the corresponding probability Can be used to obtain even better results. Here, the statistical process may be prepared in advance, or the statistical information acquisition unit 1206 may directly use the statistical result.

第1の文字列確定部1208は、統計情報と候補文字のOCR認識の信頼度を統合して、候補文字列を確定するように設置される。例えば、第1の文字列確定部1208は、同一のセグメントの複数のOCR候補文字について、統計情報に基づいて、現在のコンテキストで出現する確率が高い候補文字を選択し、又は、統計確率とOCR認識の信頼度にそれぞれ一定の重みを与えて候補文字を選択し、又は、OCR認識の信頼度が一定の閾値を超える候補文字の中から統計情報に基づいて選択する。   The first character string determining unit 1208 is installed so as to determine the candidate character string by integrating the statistical information and the reliability of OCR recognition of the candidate character. For example, the first character string determination unit 1208 selects a candidate character that has a high probability of appearing in the current context based on statistical information for a plurality of OCR candidate characters of the same segment, or the statistical probability and the OCR. A candidate character is selected by giving a certain weight to the reliability of recognition, or selected from candidate characters whose reliability of OCR recognition exceeds a certain threshold based on statistical information.

本実施例による文字列認識装置は、OCR認識の信頼度を利用する以外、複数のセグメントの候補文字組み合わせの統計情報も利用しているので、認識率の精度をさらに向上させることができる。   Since the character string recognition apparatus according to the present embodiment uses statistical information of candidate character combinations of a plurality of segments in addition to using the reliability of OCR recognition, the accuracy of the recognition rate can be further improved.

開示技術の第8の実施例は、開示技術の第2の実施例に対応する。   The eighth embodiment of the disclosed technique corresponds to the second embodiment of the disclosed technique.

図13は、開示技術の第8の実施例に係わる文字列認識装置を示す図で、図13に示すように、文字列認識装置は、セグメント分割部1302と、OCR認識部1304と、選別部1306と、音節組み合わせ部1308と、パス生成部1310と、スコア算出部1312と、第1の文字列確定部1314と、を備える。   FIG. 13 is a diagram showing a character string recognition apparatus according to an eighth embodiment of the disclosed technology. As shown in FIG. 13, the character string recognition apparatus includes a segment division unit 1302, an OCR recognition unit 1304, and a selection unit. 1306, a syllable combination unit 1308, a path generation unit 1310, a score calculation unit 1312, and a first character string determination unit 1314.

セグメント分割部1302は、文字列画像を複数のセグメントに分割するように設置される。例えば、第2の実施例のように、文字列「hanashiro」を例にすると、セグメント分割部1302は、文字列「hanashiro」画像を複数のセグメントに分割する。ここでは、文字列認識装置が文字列「hanashiro」を「h」、「a」、「n」、「a」、…の画像セグメントに分割したと場合を例に説明する。   The segment dividing unit 1302 is installed so as to divide the character string image into a plurality of segments. For example, when the character string “hanashiro” is taken as an example as in the second embodiment, the segment dividing unit 1302 divides the character string “hanashiro” image into a plurality of segments. Here, a case where the character string recognition apparatus divides the character string “hanashiro” into image segments “h”, “a”, “n”, “a”,... Will be described as an example.

OCR認識部1304は、各セグメントに対してOCR認識を行って、「hanashiro」画像における各画像セグメントに対してOCR認識の確率を確定するように設置される。図3に対応する認識結果を示した。具体的な説明は第2の実施例を参照することができ、ここでは説明を省略する。   The OCR recognition unit 1304 is installed so as to perform OCR recognition for each segment and to determine the probability of OCR recognition for each image segment in the “hanashiro” image. The recognition result corresponding to FIG. 3 is shown. For a specific description, the second embodiment can be referred to, and the description is omitted here.

選別部1306は、各文字のOCR認識の結果を選別するように設置される。選別は、認識の信頼度が低い認識結果を除去し、認識の信頼度の高い認識結果を残す原則にしたがって行う。例えば、式Cer/Max(Cer)>Tにしたがって選別を行うことができ、その中、iは認識結果の番号を示し、例として挙げられた図3に示す認識結果において、文字毎に10個ずつの候補文字が掲げられているので、iは1〜10をとる。Ceriは、第i個の候補文字のOCR確率を示し、Tは閾値で、例えば、0.75に設定することができる。この式によると、ある候補文字の信頼度が全ての候補文字における最大の信頼度よりかなり小さいと、認識対象である文字が該候補文字である可能性はないと判定し、続きの算出において候補文字は考慮しないので、算出量を大幅に低減させることができる。このような形態によって、図4の右側に示す選別結果を得る。同様に、具体的な説明は第2の実施例を参照することができる。同様に、他の選別形態によって選別を行うことが可能なことは当然である。例えば、最大の信頼度と関係のない閾値に基づいて直接選別を行うこともでき、又は直接に、信頼度が最大の所定量の候補文字を利用して選別することもできる。 The sorting unit 1306 is installed so as to sort the result of OCR recognition of each character. The selection is performed according to the principle of removing recognition results with low recognition reliability and leaving recognition results with high recognition reliability. For example, sorting can be performed according to the formula Cer i / Max (Cer i )> T, where i indicates the number of the recognition result, and in the recognition result shown in FIG. Since 10 candidate characters are listed, i takes 1 to 10. Ceri indicates the OCR probability of the i-th candidate character, and T is a threshold value, which can be set to 0.75, for example. According to this formula, if the reliability of a certain candidate character is considerably smaller than the maximum reliability of all candidate characters, it is determined that there is no possibility that the character to be recognized is the candidate character, and the candidate in the subsequent calculation Since the characters are not considered, the amount of calculation can be greatly reduced. In such a form, the sorting result shown on the right side of FIG. 4 is obtained. Similarly, the second embodiment can be referred to for a specific description. Similarly, it is natural that sorting can be performed by other sorting modes. For example, it is possible to directly select based on a threshold value not related to the maximum reliability, or to directly select using a predetermined amount of candidate characters having the maximum reliability.

音節組み合わせ部1308は、候補文字を複数の文字からなる音節に組み合わせるように設置される(通常、二つ又は三つの文字からなる)。したがって、音節組み合わせ部1308は、予め大量の日本ユーザ名を解析して、図5に示す結果を得る。図5の左側には一般的な二つの文字からなる音節を示し、右側には一般的な三つの文字からなる音節を示した。同様に、具体的には第2の実施例を参照することができる。   The syllable combination unit 1308 is installed so as to combine candidate characters with a syllable composed of a plurality of characters (usually composed of two or three characters). Therefore, the syllable combination unit 1308 analyzes a large number of Japanese user names in advance and obtains the result shown in FIG. The left side of FIG. 5 shows a syllable composed of two general letters, and the right side shows a syllable composed of three general letters. Similarly, the second embodiment can be specifically referred to.

パス生成部1310は、前記の音節による処理結果に基づいて、全ての可能なパス(つまり、候補文字の可能な組み合わせ)を掲げ、各パスについて、パスの各ノードに対応する「音節」又は「文字」は幾つかの候補認識結果があるので、幾つかの長さが同一の候補文字列を組み合わせることができる。図4において、左側に「hanashiro」画像を認識するための全てのパスを含む図を示した。   The path generation unit 1310 lists all possible paths (that is, possible combinations of candidate characters) based on the processing result by the syllable, and for each path, a “syllable” or “ Since “character” has several candidate recognition results, several candidate character strings having the same length can be combined. FIG. 4 shows a diagram including all paths for recognizing the “hanashiro” image on the left side.

スコア算出部1312は、図4における各ノードについて、統計情報とOCR認識の信頼度を統合してスコアを算出するように設置される。その中、該統計情報は、各音節の単独の確率と幾つかの音節が一緒に出る確率の情報である。具体的には、第2の実施例の説明を参照することができる。スコア算出部1312は、第1のノードの前には他のノードがないので、第1のノードに対して、統計的に単独で出現する確率とOCR認識の確率を直接に利用してスコアを算出する。スコア算出部1312は、第2のノードからのものは、その前のノードと統計上の関連を持っているので、その前のノードのスコアと、その前のノードが出現された状況下で現在のノードが出現する確率と、現在のノードのOCR認識の確率に基づいて、現在のノードの認識確率を算出する。上述の技術的思想によって、スコア算出部1312は、各ノードに対して確率を算出することができる。スコアの具体的な算出プロセスについては、第2の実施例を参照することができ、ここでは説明を省略する。   The score calculation unit 1312 is installed so as to calculate the score for each node in FIG. 4 by integrating the statistical information and the reliability of OCR recognition. Among them, the statistical information is information on a single probability of each syllable and a probability of several syllables appearing together. Specifically, the description of the second embodiment can be referred to. Since there is no other node before the first node, the score calculation unit 1312 directly uses the probability of statistically appearing alone and the probability of OCR recognition for the first node. calculate. Since the score calculation unit 1312 has a statistical relationship with the previous node from the second node, the score calculation unit 1312 presents the score of the previous node and the current node under the situation where the previous node appears. The recognition probability of the current node is calculated based on the probability of the occurrence of the current node and the probability of OCR recognition of the current node. Based on the technical idea described above, the score calculation unit 1312 can calculate the probability for each node. For a specific score calculation process, the second embodiment can be referred to, and the description is omitted here.

第1の文字列確定部1314は、スコアの算出結果に基づいて、認識した確率が最大の候補文字列を確定するように設置される。   The first character string determination unit 1314 is installed so as to determine the candidate character string having the highest recognized probability based on the score calculation result.

本実施例に係わる文字列認識装置によると、音節に基づいて、認識対象である文字列を分割して、かつ、統計に基づいて得られる、自然言語においてこれらの音節が互いに関連する確率を利用するので、認識の正確性を大幅に向上させることができる。   According to the character string recognition apparatus according to the present embodiment, the character strings to be recognized are divided based on syllables, and the probability that these syllables are related to each other in natural language is obtained based on statistics. Therefore, the accuracy of recognition can be greatly improved.

開示技術の第9の実施例は、開示技術の第3の実施例に対応する。   The ninth embodiment of the disclosed technique corresponds to the third embodiment of the disclosed technique.

図14は、開示技術の第9の実施例に係わる文字列認識装置を示す図で、文字列認識装置は、セグメント分割部1402と、OCR認識部1404と、選別部1406と、パス生成部1408と、スコア算出部1410と、第1の文字列確定部1412と、を備える。第3の実施例において説明したように、この文字列認識装置は、特に字母と数字が混合した場合、例えば、「hanashiro123」に適用する。   FIG. 14 is a diagram illustrating a character string recognition apparatus according to the ninth embodiment of the disclosed technology. The character string recognition apparatus includes a segment division unit 1402, an OCR recognition unit 1404, a selection unit 1406, and a path generation unit 1408. And a score calculation unit 1410 and a first character string determination unit 1412. As described in the third embodiment, this character string recognition apparatus is applied to, for example, “hanashiro123”, particularly when the characters and numbers are mixed.

セグメント分割部1402は、入力された文字列画像を複数のセグメントに分割するように設置される。   The segment dividing unit 1402 is installed so as to divide the input character string image into a plurality of segments.

OCR認識部1404は、字母と数字が混合している文字列における各セグメントに対してOCR認識を行って、OCR認識の確率を確定するように設置される。図3に示すように、ここでは同様に各文字の一連の確率を得ることができる。   The OCR recognition unit 1404 is installed to perform OCR recognition on each segment in a character string in which a character and a number are mixed to determine the probability of OCR recognition. As shown in FIG. 3, a series of probabilities for each character can be similarly obtained here.

選別部1406は、各文字のOCR認識結果を選別するように設置される。選別は、認識の信頼度が小さい認識結果を除去し、認識の信頼度が高い認識結果を残す原則にしたがって行う。例えば、式Cer/Max(Cer)>Tにしたがって選別を行うことができる。ここで、iは認識結果の番号を示し、例として掲げられた図3に示す認識結果において、文字毎に10個ずつの候補文字が掲げられているので、iは1〜10をとることができる。Ceriは、第i個の候補文字のOCR確率を示し、Tは閾値で、例えば、0.75に設定することができる。このような形態によって、選別部1406は、図4の右側に示す選別結果を得ることができる。ここで、他の選別形態によって選別を行うことが可能なことは言うまでもない。例えば、最大の信頼度と関係のない閾値を直接確定して選別を行う、又は、直接に信頼度が最大の所定量の候補文字を利用して選別することができる。 The sorting unit 1406 is installed so as to sort the OCR recognition result of each character. Sorting is performed according to the principle of removing recognition results with low recognition reliability and leaving recognition results with high recognition reliability. For example, sorting can be performed according to the formula Cer i / Max (Cer i )> T. Here, i indicates the number of the recognition result, and in the recognition result shown in FIG. 3 taken as an example, since 10 candidate characters are listed for each character, i can take 1 to 10 it can. Ceri indicates the OCR probability of the i-th candidate character, and T is a threshold value, which can be set to 0.75, for example. With such a configuration, the sorting unit 1406 can obtain the sorting result shown on the right side of FIG. Here, it goes without saying that sorting can be performed by other sorting modes. For example, a threshold value unrelated to the maximum reliability can be directly determined and selected, or can be selected using a predetermined amount of candidate characters with the maximum reliability.

パス生成部1408は、選別結果に基づいて、全ての可能なパスを掲げるように設置される。各パスについて、パスの各ノードに対応する「文字」は幾つかの候補認識結果があるので、パス生成部1408は、幾つかの長さが同一の認識用語を組み合わせることができる。したがって、パス生成部1408は、図4におけるパス図に類似する図を得ることができる。   The path generation unit 1408 is installed to list all possible paths based on the selection result. For each path, the “character” corresponding to each node of the path has several candidate recognition results, so that the path generation unit 1408 can combine several recognition terms having the same length. Therefore, the path generation unit 1408 can obtain a diagram similar to the path diagram in FIG.

スコア算出部1410は、パス図における各ノードに対して、統計情報及びOCR認識の信頼度を統合してノードのスコアを算出する。ここでの統計情報は、特に、字母と数字の各種の組み合わせが出現する確率の統計情報である。該統計情報の取得及びスコアの算出プロセスは第3の実施例を参照することができ、ここでは説明を省略する。   The score calculation unit 1410 calculates the score of the node by integrating the statistical information and the reliability of OCR recognition for each node in the path diagram. The statistical information here is statistical information on the probability that various combinations of letters and numbers appear. The process of obtaining the statistical information and calculating the score can refer to the third embodiment, and will not be described here.

第1の文字列確定部1412は、得られた各文字のスコア及びスコアが最大のパスに基づいて、認識した確率が最大である候補文字列を確定するように設置される。   The first character string determination unit 1412 is installed so as to determine a candidate character string having the highest recognized probability based on the obtained score of each character and the path having the maximum score.

本実施例に係わる文字列認識装置によると、統計による字母と数字のある組み合わせが出現する確率を利用して、即ち、大量のユーザの命名習慣という情報を利用して、数字と字母が混合した文字列の認識の正確性を大幅に向上させる。   According to the character string recognizing apparatus according to the present embodiment, the number and the letter are mixed using the probability that a certain combination of the letter and the number appears based on statistics, that is, using a large number of user naming habits. Significantly improve the accuracy of string recognition.

開示技術の第10の実施例は、開示技術の第4の実施例に対応する。   The tenth embodiment of the disclosed technique corresponds to the fourth embodiment of the disclosed technique.

図15に、開示技術の第10の実施例に係わるデリミタ認識部を示している。デリミタ認識部は、連結領域解析部1502とデリミタ確定部1504とを備える。   FIG. 15 shows a delimiter recognition unit according to the tenth embodiment of the disclosed technique. The delimiter recognition unit includes a connected region analysis unit 1502 and a delimiter determination unit 1504.

連結領域解析部1502は、入力された文字列画像に対して連結領域の解析を行うように設置される。連結領域解析部1502は、文字列画像に対する連結領域の解析に基づいて、各連結領域CCに対して、連結領域の各パラメータを得ることができる。例えば、連結領域解析部1502は、連結領域の位置の座標、連結領域における画素数などを確定することができる。   The connected area analysis unit 1502 is installed so as to analyze the connected area for the input character string image. The connected region analysis unit 1502 can obtain each parameter of the connected region for each connected region CC based on the analysis of the connected region with respect to the character string image. For example, the connected area analysis unit 1502 can determine the coordinates of the position of the connected area, the number of pixels in the connected area, and the like.

デリミタ確定部1504は、連結領域の解析結果に基づいて、デリミタを確定するように設置される。その中、デリミタ確定部1504は、デリミタを確定するため、まず閾値を確定する。例えば、デリミタ確定部1504は、連結領域の画素数に基づいて、連結領域における画素数が小さい連結領域から順に複数の連結領域を選択し、選択したこれらの連結領域の画素数の平均値を算出して、算出した平均値に基づいて閾値を設定する。例えば、ここでは、最も先頭の三つの連結領域を利用して算出して、平均値Av3を得る。続いて、T1=aAv3を閾値として設定する。aは、状況に応じて調節可能なパラメータであって、その目的は、さらに優れた認識効果を実現するためである。例えば、a=3を選択することができる。ここで、閾値の確定は上述の形態に限定されないことは言うまでもない。例えば、大量のサンプルを利用してシミュレーションを行った結果に基づいて直接に閾値を確定する、又は、現在のユーザのサンプルを利用してシミュレーションを行った結果に基づいて閾値を確定することができるなどである。   The delimiter determination unit 1504 is installed to determine the delimiter based on the analysis result of the connected area. Among them, the delimiter determination unit 1504 first determines a threshold value in order to determine the delimiter. For example, the delimiter determination unit 1504 selects a plurality of connected regions in order from the connected region having the smallest number of pixels in the connected region based on the number of pixels in the connected region, and calculates an average value of the number of pixels in the selected connected region. Then, a threshold is set based on the calculated average value. For example, here, the average value Av3 is obtained by calculating using the top three connected regions. Subsequently, T1 = aAv3 is set as a threshold value. a is a parameter that can be adjusted according to the situation, and its purpose is to realize a further excellent recognition effect. For example, a = 3 can be selected. Here, it goes without saying that the determination of the threshold is not limited to the above-described form. For example, the threshold value can be determined directly based on the result of simulation using a large number of samples, or the threshold value can be determined based on the result of simulation using a sample of the current user. Etc.

続いて、デリミタ確定部1504は、各連結領域の画素数の値がT1未満であるか否かを判定し、画素数の値がT1未満であると、該連結領域は候補のデリミタ「.」であると判定する。ユーザ毎の筆記習慣は異なるので、デリミタ「.」のサイズも異なるユーザの間で大きい相違がある。最小の複数の連結領域に基づいて画素数の平均値を算出する方法は、ユーザ毎の筆記習慣が異なることを考慮し(したがって、ユーザによって書いた点のサイズが異なる)、「自己適応」に相当する形態で、デリミタ「.」を認識した。   Subsequently, the delimiter determination unit 1504 determines whether or not the value of the number of pixels in each connected region is less than T1, and if the value of the number of pixels is less than T1, the connected region has a candidate delimiter “.”. It is determined that Since the writing habits for each user are different, there is a great difference between users with different delimiter “.” Sizes. The method of calculating the average value of the number of pixels based on a plurality of minimum connected areas is considered to be “self-adaptation” in consideration of the writing habits of each user being different (and thus the size of the point written by the user is different). In the corresponding form, the delimiter “.” Was recognized.

文字「i」、「j」にも「.」が存在する。したがって、デリミタ確定部1504は、認識した「.」が文字行の下部に位置するか否かをさらに判定し、認識した「.」が文字行の下部に位置すれば、認識した「.」がデリミタであると確定する。このような判定は、各連結領域の座標パラメータに基づいて行うことができる。   The characters “i” and “j” also have “.”. Therefore, the delimiter determination unit 1504 further determines whether or not the recognized “.” Is positioned at the bottom of the character line. If the recognized “.” Is positioned at the bottom of the character line, the recognized “.” Is determined. Confirm that it is a delimiter. Such a determination can be made based on the coordinate parameters of each connected region.

開示技術の第11の実施例は、開示技術の第6の実施例に対応する。   The eleventh embodiment of the disclosed technology corresponds to the sixth embodiment of the disclosed technology.

図16は、開示技術の第11の実施例に係わる文字列認識装置を示す図である。文字列認識装置は、例えばデリミタによって複数のフィールドに分割され、かつ少なくとも一部のフィールドが固定モードを有する文字列、例えばEmailアドレス、ホームページアドレス等に対して効率的で正確な認識を行うことができる。特に、文字列認識装置は、手書きの文字列に対して効率的で正確な認識を行うことができる。文字列認識装置は、デリミタ認識部1602と、通常ドメイン名認識部1604と、特殊ドメイン名及びユーザ名認識部1606と、第2の文字列確定部1608と、を備える。   FIG. 16 is a diagram illustrating a character string recognition apparatus according to an eleventh embodiment of the disclosed technology. The character string recognition device can efficiently and accurately recognize a character string that is divided into a plurality of fields by, for example, a delimiter, and at least some of the fields have a fixed mode, such as an Email address, a homepage address, and the like. it can. In particular, the character string recognition device can efficiently and accurately recognize a handwritten character string. The character string recognition device includes a delimiter recognition unit 1602, a normal domain name recognition unit 1604, a special domain name and user name recognition unit 1606, and a second character string determination unit 1608.

以下、Emailアドレスである「hanashiro@abc...xyz.or.jp」の認識を例として説明する。   Hereinafter, the recognition of the email address “hanashiro @ abc ... xyz.or.jp” will be described as an example.

実際に認識を行う前、当業者は公知の方法を用いて、Emailアドレスの文字列に対して連結領域の解析を行うが、これは上述の実施例において説明したので、ここでは説明を省略する。   Before actually recognizing, a person skilled in the art uses a known method to analyze a linked region for a character string of an Email address, but since this has been described in the above embodiment, description thereof is omitted here. .

連結領域の解析の結果に基づいて、デリミタ認識部1602は、文字列におけるデリミタを認識するように設置される。文字列認識装置は、Emailアドレスについて、「.」のデリミタの以外、「@」文字もデリミタと見なす。「.」文字の認識プロセスについては、開示技術の第4の実施例において説明し、「@」文字の認識プロセスについては、開示技術の第6の実施例において説明したので、ここでは説明を省略する。   Based on the analysis result of the connected area, the delimiter recognition unit 1602 is installed so as to recognize the delimiter in the character string. The character string recognition device regards an “@” character as a delimiter in addition to a “.” Delimiter for an Email address. The “.” Character recognition process has been described in the fourth embodiment of the disclosed technology, and the “@” character recognition process has been described in the sixth embodiment of the disclosed technology. To do.

これらのデリミタはEmailアドレスを異なる部分に分割する。例えば、「hanashiro@abc...xyz.or.jp」について、これをユーザ名部分である「hanashiro」と、特殊ドメイン名部分である「abc...xyz」と、通常ドメイン名部分である「or」、「jp」に分割する。   These delimiters divide the Email address into different parts. For example, for “hanashiro @ abc ... xyz.or.jp”, this is the user name part “hanashiro”, the special domain name part “abc ... xyz”, and the normal domain name part. Divide into “or” and “jp”.

通常ドメイン名認識部1604は、通常ドメイン名を認識するように設置される。通常ドメイン名認識部1604は、通常ドメイン名について、全体認識を行うことができ、文字毎の認識を行うこともできる。通常ドメイン名は、階層構造を有し、その中には一定の内在の法則があるので、開示技術による通常ドメイン名の認識においてこのような法則を利用して認識率及び認識の速度を向上することができる。通常ドメイン名の認識の具体的な内容は、開示技術の第6の実施例を参照することができ、ここでは説明しない。   The normal domain name recognition unit 1604 is installed so as to recognize the normal domain name. The normal domain name recognizing unit 1604 can recognize the entire normal domain name and can also recognize each character. Usually domain names have a hierarchical structure, and there are certain inherent laws in them, so that the recognition rate and speed of recognition are improved by using such rules in recognition of ordinary domain names by the disclosed technology. be able to. The specific content of domain name recognition can be referred to the sixth embodiment of the disclosed technology and will not be described here.

特殊ドメイン名及びユーザ名認識部1606は、特殊ドメイン名及びユーザ名に認識を行うように設置される。ここでは、前記の第1、第2と第3の実施例による方法にしたがって認識を行うことができるので、説明しない。   The special domain name / user name recognition unit 1606 is installed to recognize the special domain name and user name. Here, since the recognition can be performed according to the method according to the first, second and third embodiments, it will not be described.

第2の文字列確定部1608は、既存のデータベースを利用して認識結果を検査及び補正するように設置される。例えば、日本のEmailアドレスについて、認識した通常ドメイン名が「.ac.jp」であると、その前の特殊ドメイン名は必ず大学又は研究機構のドメインであることを示す。したがって、大学又は研究機構のドメイン名のデータベースを利用して認識結果に対してスペリングの検査及び補正を行うことができる。そして、一般的な特殊ドメイン名、例えば、「fujitsu」または一般的なユーザ名などに対して、対応するデータベースを利用して認識結果の検査及び補正を行うことができる。この検査及び補正は、第5の実施例による方法にしたがって実行することができる。例えば、OCR認識した文字列とデータベース中の文字列との距離を算出することによって実行することができ、ここでは説明を省略する。   The second character string determination unit 1608 is installed to check and correct the recognition result using an existing database. For example, for a Japanese email address, if the recognized normal domain name is “.ac.jp”, it indicates that the special domain name before that is always a university or research institution domain. Therefore, it is possible to perform spelling inspection and correction on the recognition result by using the domain name database of the university or research organization. Then, for a general special domain name such as “fujitsu” or a general user name, the recognition result can be inspected and corrected using a corresponding database. This inspection and correction can be performed according to the method according to the fifth embodiment. For example, it can be executed by calculating the distance between the character string recognized by OCR and the character string in the database, and the description thereof is omitted here.

本実施例による文字列認識装置によると、デリミタによって複数のフィールドに分割され、かつ少なくとも一部のセグメントが固定モードを有する文字列、例えばEmailアドレス、ホームページアドレス等に対して効率的で正確な認識を行うことができる。特に、本実施例による文字列認識装置によると、手書きの文字列に対して効率的で正確な認識を行うことができる。   According to the character string recognizing apparatus according to the present embodiment, efficient and accurate recognition is performed on a character string divided into a plurality of fields by a delimiter and at least a part of segments having a fixed mode, such as an Email address, a homepage address, and the like. It can be performed. In particular, according to the character string recognition apparatus of the present embodiment, it is possible to efficiently and accurately recognize a handwritten character string.

一方、本明細書に記載した各種例及び実施例は、例示に過ぎず、開示技術を限定するためのものではない。本明細書において、「第1」、「第2」などは、開示技術をさらに明確に説明するように、特徴を区別するためのものであって、開示技術を限定するものと見なしてはいけない。   On the other hand, the various examples and examples described in this specification are merely examples, and are not intended to limit the disclosed technology. In this specification, “first”, “second”, and the like are for distinguishing features so as to more clearly describe the disclosed technology, and should not be regarded as limiting the disclosed technology. .

装置における各部は、ソフトウェア、ファームウェア、ハードウェア又はその組み合わせの形態で配置することができる。利用可能な具体的な手段又は形態に配置することは当業者には公知のことであるので、ここでは説明しない。ソフトウェア又はファームウェアによって実現する場合、記憶媒体又はネットワークから、専用のハードウェア構造を有するコンピュータ(例えば、図17に示す汎用コンピュータ1700)に該ソフトウェアを構成するプログラムを装着し、コンピュータに各種プログラムが装着されている場合、各種の機能を実現することができる。   Each unit in the apparatus can be arranged in the form of software, firmware, hardware, or a combination thereof. Arranging in specific means or forms available is known to those skilled in the art and will not be described here. When implemented by software or firmware, a program that configures the software is mounted from a storage medium or a network to a computer having a dedicated hardware structure (for example, the general-purpose computer 1700 shown in FIG. 17), and various programs are mounted to the computer. If so, various functions can be realized.

図17において、中央処理ユニット(CPU)1701は、読取専用記憶装置(ROM)1702に記憶されているプログラム又は記憶部1708からランダムアクセスメモリ(RAM)1703にロードしたプログラムにしたがって各処理を実行する。RAM1703には、CPU1701が各処理等の実行に使用するデータを必要に応じて記憶する。CPU1701、ROM1702、RAM1703は、バス1704を介して互いに接続される。入力/出力インターフェース1705もバス1704に接続される。   In FIG. 17, a central processing unit (CPU) 1701 executes each process according to a program stored in a read-only storage device (ROM) 1702 or a program loaded from a storage unit 1708 to a random access memory (RAM) 1703. . In the RAM 1703, data used by the CPU 1701 for executing each process is stored as necessary. The CPU 1701, the ROM 1702, and the RAM 1703 are connected to each other via a bus 1704. An input / output interface 1705 is also connected to the bus 1704.

入力部1706(キーボート、マウスなどを含む)と、出力部1707(ブラウン管(CRT)と液晶ディスプレイ(LCD)等のディスプレイとスピーカ等を含む)と、記憶部1708(ハードディスク等を含む)と、通信部1709(LANカード等のネットワークインターフェースカードと変復調装置等を含む)とは、入力/出力インターフェース1705に接続される。通信部1709は、インターネット等のネットワークを介して通信処理を行う。必要に応じて、ドライバ1710も入力/出力インターフェース1705に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等の脱着可能な媒体1711は、必要に応じてドライバ1710に装着され、その中から読取られるコンピュータプログラムが必要に応じて記憶部1708に装着されるようにする。   Communication with an input unit 1706 (including a keyboard, a mouse, etc.), an output unit 1707 (including a display such as a cathode ray tube (CRT) and a liquid crystal display (LCD) and a speaker), and a storage unit 1708 (including a hard disk) A unit 1709 (including a network interface card such as a LAN card and a modem) is connected to the input / output interface 1705. A communication unit 1709 performs communication processing via a network such as the Internet. A driver 1710 is also connected to the input / output interface 1705 as needed. A removable medium 1711 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is mounted on the driver 1710 as necessary, and a computer program read from the medium 1711 is mounted on the storage unit 1708 as necessary. To.

ソフトウェアを介して一連の処理を実行する場合、インターネット等のネットワーク又は着脱可能な媒体1711等の記憶媒体から、ソフトウェアを構成するプログラムを装着する。   When executing a series of processing via software, a program constituting the software is loaded from a network such as the Internet or a storage medium such as a removable medium 1711.

記憶媒体が、図17に示すプロラムが記憶されていると共に装置と分離して配分することによって、ユーザにプログラムを提供する着脱可能な媒体1711に限定されないことは当業者にとって自明なことである。着脱可能な媒体1711の例には、磁気ディスク(フロッピー(登録商標)ディスクを含む)と、光ディスク(光ディスクROM(CD−ROM)とデジタル・バーサタイル・ディスク(DVD)を含む)と、光磁気ディスク(ミニディスク(MD)(登録商標))と、半導体メモリと、が含まれる。あるいは、記憶媒体は、ROM1702、記憶部1708に含まれたハードディスク等であってもよく、これらの中にはプログラムが記憶され、ハードディスク等を含む装置と共にユーザに配分される。   It is obvious to those skilled in the art that the storage medium is not limited to the removable medium 1711 that stores the program shown in FIG. 17 and distributes the program separately from the apparatus to provide a program to the user. Examples of the removable medium 1711 include a magnetic disk (including a floppy (registered trademark) disk), an optical disk (including an optical disk ROM (CD-ROM) and a digital versatile disk (DVD)), and a magneto-optical disk. (Mini Disc (MD) (registered trademark)) and semiconductor memory. Alternatively, the storage medium may be a hard disk or the like included in the ROM 1702 and the storage unit 1708, in which a program is stored and distributed to users together with devices including the hard disk and the like.

開示技術は、装置が読み取り可能な指令コードが記憶されているプログラム製品を提供する。装置によって指令コードを読み取って実行する際、開示技術の実施例による方法を実行することができる。   The disclosed technology provides a program product in which a command code that can be read by the apparatus is stored. When the command code is read and executed by the apparatus, the method according to the embodiment of the disclosed technique can be executed.

対応して、装置が読み取り可能な指令コードが記憶されているプログラム製品が記憶される記憶媒体も開示技術によって開示された。記憶媒体は、フロッピー(登録商標)ディスクと、光ディスクと、光磁気ディスクと、メモリと、メモリースティックなどを含むが、これらに限定されない。   Correspondingly, a storage medium in which a program product in which a command code readable by the apparatus is stored is also disclosed by the disclosed technology. The storage medium includes, but is not limited to, a floppy (registered trademark) disk, an optical disk, a magneto-optical disk, a memory, a memory stick, and the like.

最後に、「含む」、「備える」又は同義の他の表現形態は、「非排他的に含む」ということを示す。そして、一連の要素を含むプロセス、方法又は装置は、それらの要素を含むだけではなく、明確に記載していない他の要素も含み、また、これらのプロセス、方法又は装置に固有の要素を含む。さらに限定していない場合、「…を含む」によって限定される要素は、要素を含むプロセス、方法又は装置に他の同様な要素が存在する場合を排除しない。   Finally, “including”, “comprising” or other synonymous forms of expression indicate “including non-exclusively”. In addition, a process, method, or apparatus that includes a series of elements includes not only those elements, but also other elements that are not explicitly described, and includes elements that are specific to these processes, methods, or apparatuses. . Unless further limited, an element defined by "including" does not exclude the case where other similar elements exist in the process, method, or apparatus that includes the element.

以上、図面を参照して開示技術の実施例を詳しく説明したが、上述した実施例は開示技術を説明するためのものであって、開示技術を限定するものではない。当業者であれば、開示技術の保護範囲内で、実施例に各種の補正及び変更を行うことができる。よって、開示技術の範囲は、特許請求の範囲及び等同の意味によって限定される。   The embodiments of the disclosed technology have been described in detail above with reference to the drawings. However, the embodiments described above are for explaining the disclosed technology and do not limit the disclosed technology. Those skilled in the art can make various corrections and modifications to the embodiments within the scope of protection of the disclosed technology. Therefore, the scope of the disclosed technology is limited by the meanings of the claims and the like.

また、前記実施例における日本のユーザ名は例に過ぎない。また、ユーザ名は実施例における例に限定されなく、いかなる言語のユーザ名であってもよい。   Moreover, the Japanese user name in the said Example is only an example. The user name is not limited to the example in the embodiment, and may be a user name in any language.

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。   The following supplementary notes are further disclosed with respect to the embodiments including the above examples.

(付記1)文字列認識装置が、
文字列画像を複数のセグメントに分割するステップと、
前記複数のセグメントに対してOCR認識を行って、候補文字を取得するステップと、
前記候補文字の統計情報及び/又は前記候補文字によって形成される文字組み合わせの統計情報を取得するステップと、
前記統計情報と前記候補文字のOCR認識の信頼度を統合して、候補文字列を確定するステップと
を含む文字列認識方法。
(Supplementary note 1) The character string recognition device is
Dividing the string image into a plurality of segments;
Performing OCR recognition on the plurality of segments to obtain candidate characters;
Obtaining statistical information of the candidate characters and / or statistical information of character combinations formed by the candidate characters;
And integrating the statistical information and the reliability of OCR recognition of the candidate character to determine a candidate character string.

(付記2)前記統計情報は、一つの文字、文字類型及び/または文字組み合わせと、前記一つの文字、文字類型及び/または文字組み合わせと、一つの文字、文字類型及び/または文字組み合わせとが一緒に出現する確率を含む付記1に記載の文字列認識方法。 (Supplementary Note 2) The statistical information includes one character, character type and / or character combination, one character, character type and / or character combination, and one character, character type and / or character combination. The character string recognition method according to appendix 1, including the probability of appearing in

(付記3)前記文字組み合わせは、音節を構成する文字の組み合わせ又は字母と数字の組み合わせである付記1又は2に記載の文字列認識方法。 (Additional remark 3) The said character combination is a character string recognition method of Additional remark 1 or 2 which is the combination of the character which comprises a syllable, or the combination of a character name and a number.

(付記4)前記文字列画像における文字列は、デリミタを含み、
前記デリミタを認識するステップをさらに含む付記1又は2に記載の文字列認識方法。
(Supplementary Note 4) The character string in the character string image includes a delimiter,
The character string recognition method according to appendix 1 or 2, further comprising the step of recognizing the delimiter.

(付記5)前記デリミタを認識するステップは、
前記文字列画像に対して連結領域の解析を実行して、前景画素の連結領域の画素数を取得するステップと、
前記連結領域の画素数に基づいて、デリミタを確定するステップと、を含む付記4に記載の文字列認識方法。
(Supplementary Note 5) The step of recognizing the delimiter includes
Performing a connected region analysis on the character string image to obtain the number of connected region of foreground pixels;
The character string recognition method according to supplementary note 4, comprising: determining a delimiter based on the number of pixels in the connection area.

(付記6)前記連結領域の画素数に基づいてデリミタを確定するステップは、
前記画素数が小さい連結領域から順に複数の連結領域を選択し、選択した連結領域の画素数の平均値を算出することで閾値を確定して、連結領域の画素数が該閾値未満であって、且つ該連結領域が文字列画像の下部に位置する場合、該連結領域をデリミタに確定するステップを含む付記5に記載の文字列認識方法。
(Supplementary Note 6) The step of determining the delimiter based on the number of pixels in the connected region is as follows:
A plurality of connected regions are selected in order from the connected region with the smallest number of pixels, and a threshold value is determined by calculating an average value of the number of pixels in the selected connected region, and the number of pixels in the connected region is less than the threshold value. The character string recognition method according to appendix 5, further comprising a step of determining the connection area as a delimiter when the connection area is positioned below the character string image.

(付記7)文字列認識装置が、
OCR認識の信頼度に基づいて、前記候補文字列と予め定義したデータベースにおける文字列との距離を算出して、前記候補文字列を確定するステップをさらに含む付記1に記載の文字列認識方法。
(Supplementary note 7) The character string recognition device is
The character string recognition method according to supplementary note 1, further comprising a step of calculating a distance between the candidate character string and a character string in a predefined database based on the reliability of OCR recognition and determining the candidate character string.

(付記8)前記候補文字とデータベースにおける比較対象になる文字列との距離から、該候補文字の対応するセグメントがデータベースにおける比較対象になる文字列における対応位置の文字に認識される信頼度に対応する値を減算する付記7に記載の文字列認識方法。 (Supplementary Note 8) Corresponding to the reliability that the segment corresponding to the candidate character is recognized as the character at the corresponding position in the character string to be compared in the database from the distance between the candidate character and the character string to be compared in the database The character string recognition method according to appendix 7, wherein a value to be subtracted is subtracted.

(付記9)前記候補文字列におけるセグメントのいずれか一つの候補文字と前記データベースにおける比較対象になる文字列における対応する位置の文字が異なる場合、該候補文字と前記データベースにおける比較対象になる文字列との距離に、該候補文字の認識信頼度に対応する値を加算する付記7又は8に記載の文字列認識方法。 (Supplementary note 9) When any one candidate character of the segment in the candidate character string is different from the character at the corresponding position in the character string to be compared in the database, the candidate character and the character string to be compared in the database The character string recognition method according to appendix 7 or 8, wherein a value corresponding to the recognition reliability of the candidate character is added to the distance to the character string.

(付記10)文字列画像を複数のセグメントに分割するセグメント分割部と、
前記複数のセグメントに対してOCR認識を行って、候補文字を取得するOCR認識部と、
前記候補文字の統計情報及び/又は前記候補文字によって形成される文字組み合わせの統計情報を取得する統計情報取得部と、
前記統計情報と前記候補文字のOCR認識の信頼度を統合して、候補文字列を確定する第1の文字列確定部と、
を含む文字列認識装置。
(Supplementary Note 10) a segment dividing unit that divides a character string image into a plurality of segments;
An OCR recognition unit that performs OCR recognition on the plurality of segments to obtain candidate characters;
Statistical information acquisition unit for acquiring statistical information of the candidate characters and / or statistical information of character combinations formed by the candidate characters;
A first character string determination unit that determines the candidate character string by integrating the statistical information and the reliability of OCR recognition of the candidate character;
A character string recognition device.

(付記11)前記統計情報は、一つの文字、文字類型及び/または文字組み合わせと、前記一つの文字、文字類型及び/または文字組み合わせと、一つの文字、文字類型及び/または文字組み合わせとが一緒に出現する確率を含む付記10に記載の文字列認識装置。 (Supplementary Note 11) The statistical information includes one character, character type and / or character combination, one character, character type and / or character combination, and one character, character type and / or character combination. The character string recognition device according to appendix 10, including the probability of appearing in

(付記12)前記文字組み合わせは、音節を構成する文字の組み合わせ又は字母と数字の組み合わせである付記10又は11に記載の文字列認識装置。 (Additional remark 12) The said character combination is a character string recognition apparatus of Additional remark 10 or 11 which is the combination of the character which comprises a syllable, or the combination of a character name and a number.

(付記13)前記文字列画像における文字列は、デリミタを含み、
前記デリミタを認識するデリミタ認識部をさらに含む付記10又は11に記載の文字列認識装置。
(Supplementary note 13) The character string in the character string image includes a delimiter,
The character string recognition device according to appendix 10 or 11, further comprising a delimiter recognition unit that recognizes the delimiter.

(付記14)前記デリミタ認識部は、
前記文字列画像に対して連結領域の解析を実行して、前景画素の連結領域の画素数を取得する連結領域解析部と、
前記連結領域の画素数に基づいて、デリミタを確定するデリミタ確定部とを、含む付記13に記載の文字列認識装置。
(Supplementary Note 14) The delimiter recognition unit
A connected region analysis unit that performs a connected region analysis on the character string image and obtains the number of connected region of foreground pixels;
The character string recognition device according to appendix 13, including a delimiter determination unit that determines a delimiter based on the number of pixels in the connection region.

(付記15)前記デリミタ確定部は、
前記連結領域の画素数に基づいてデリミタを確定する場合、前記画素数が小さい連結領域から順に複数の連結領域を選択し、選択した連結領域の画素数の平均値を算出することで閾値を確定して、連結領域の画素数が該閾値未満であって、且つ該連結領域が文字列画像の下部に位置する場合、該連結領域をデリミタに確定するように配置される付記14に記載の文字列認識装置。
(Supplementary Note 15) The delimiter determination unit
When determining the delimiter based on the number of pixels in the connected region, a plurality of connected regions are selected in order from the connected region having the smallest number of pixels, and the threshold value is determined by calculating an average value of the number of pixels in the selected connected region. Then, when the number of pixels in the connected area is less than the threshold value and the connected area is located at the lower part of the character string image, the character according to appendix 14, which is arranged to determine the connected area as a delimiter Column recognition device.

(付記16)OCR認識の信頼度に基づいて、前記候補文字列と予め定義したデータベースにおける文字列との間の距離を算出して、前記候補文字列を確定する第2の文字列確定部をさらに含む付記10に記載の文字列認識装置。 (Supplementary Note 16) A second character string determination unit that calculates a distance between the candidate character string and a character string in a predefined database based on the reliability of OCR recognition, and determines the candidate character string Furthermore, the character string recognition apparatus of Additional remark 10 containing.

(付記17)前記第2の文字列確定部は、前記候補文字とデータベースにおける比較対象になる文字列との距離から、該候補文字の対応するセグメントがデータベースにおける比較対象になる文字列における対応する位置の文字に認識される信頼度に対応する値を減算するように配置される付記16に記載の文字列認識装置。 (Supplementary Note 17) From the distance between the candidate character and the character string to be compared in the database, the second character string determining unit corresponds to the character string to which the segment corresponding to the candidate character is to be compared in the database. Item 17. The character string recognition device according to supplementary note 16, arranged to subtract a value corresponding to the degree of reliability recognized for the character at the position.

(付記18)前記第2の文字列確定部は、前記候補文字列におけるあるセグメントのいずれか一つの候補文字と前記データベースにおける比較対象になる文字列における対応する位置の文字が異なる場合、該候補文字と前記データベースにおける比較対象になる文字列との距離に、該候補文字の認識信頼度に対応する値を加算するように配置される付記16又は17に記載の文字列認識装置。 (Additional remark 18) When the said 2nd character string determination part differs in the character of the corresponding position in the character string used as the comparison object in the said database in any one candidate character of the said candidate character string, this candidate 18. The character string recognition device according to appendix 16 or 17, arranged to add a value corresponding to the recognition reliability of the candidate character to the distance between the character and the character string to be compared in the database.

(付記19)文字列認識装置に、
文字列画像を複数のセグメントに分割させ、
前記複数のセグメントに対してOCR認識を行って、候補文字を取得させ、
前記候補文字の統計情報及び/又は前記候補文字によって形成される文字組み合わせの統計情報を取得させ、
前記統計情報と前記候補文字のOCR認識の信頼度を統合して、候補文字列を確定させる
処理を実行させる文字列認識プログラム。
(Supplementary note 19)
Split a string image into multiple segments,
Performing OCR recognition on the plurality of segments to obtain candidate characters;
Obtaining the statistical information of the candidate characters and / or the statistical information of the character combination formed by the candidate characters,
A character string recognition program that executes a process of determining the candidate character string by integrating the statistical information and the reliability of OCR recognition of the candidate character.

(付記20)文字列認識装置に、
文字列画像を複数のセグメントに分割させ、
前記複数のセグメントに対してOCR認識を行って、候補文字を取得させ、
前記候補文字の統計情報及び/又は前記候補文字によって形成される文字組み合わせの統計情報を取得させ、
前記統計情報と前記候補文字のOCR認識の信頼度を統合して、候補文字列を確定させる
処理を実行させる文字列認識プログラムを記録した記憶媒体。
(Supplementary note 20)
Split a string image into multiple segments,
Performing OCR recognition on the plurality of segments to obtain candidate characters;
Obtaining the statistical information of the candidate characters and / or the statistical information of the character combination formed by the candidate characters,
A storage medium storing a character string recognition program for executing a process of determining the candidate character string by integrating the statistical information and the reliability of OCR recognition of the candidate character.

1202 セグメント分割部
1204 OCR認識部
1206 統計情報取得部
1208 第1の文字列確定部
1302 セグメント分割部
1304 OCR認識部
1306 選別部
1308 音節組み合わせ部
1310 パス生成部
1312 スコア算出部
1314 第1の文字列確定部
1402 セグメント分割部
1404 OCR認識部
1406 選別部
1408 パス生成部
1410 スコア算出部
1412 第1の文字列確定部
1502 連結領域解析部
1504 デリミタ確定部
1602 デリミタ認識部
1604 通常ドメイン名認識部
1606 特殊ドメイン名及びユーザ名認識部
1608 第2の文字列確定部
1700 汎用コンピュータ
1701 CPU
1702 ROM
1703 RAM
1704 バス
1705 入力/出力インターフェース
1706 入力部
1707 出力部
1708 記憶部
1709 通信部
1710 ドライバ
1711 着脱可能な媒体
1202 Segment division unit 1204 OCR recognition unit 1206 Statistical information acquisition unit 1208 First character string determination unit 1302 Segment division unit 1304 OCR recognition unit 1306 Selection unit 1308 Syllable combination unit 1310 Path generation unit 1312 Score calculation unit 1314 First character string Determination unit 1402 Segment division unit 1404 OCR recognition unit 1406 Selection unit 1408 Path generation unit 1410 Score calculation unit 1412 First character string determination unit 1502 Connection region analysis unit 1504 Delimiter determination unit 1602 Delimiter recognition unit 1604 Normal domain name recognition unit 1606 Special Domain name and user name recognition unit 1608 Second character string determination unit 1700 General-purpose computer 1701 CPU
1702 ROM
1703 RAM
1704 Bus 1705 Input / output interface 1706 Input unit 1707 Output unit 1708 Storage unit 1709 Communication unit 1710 Driver 1711 Removable medium

Claims (10)

文字列認識装置が、
文字列画像を複数のセグメントに分割するステップと、
前記複数のセグメントに対してOCR認識を行って、候補文字を取得するステップと、
前記候補文字の統計情報及び/又は前記候補文字によって形成される文字組み合わせの統計情報を取得するステップと、
前記統計情報と前記候補文字のOCR認識の信頼度を統合して、候補文字列を確定するステップと
を含む文字列認識方法。
The string recognition device
Dividing the string image into a plurality of segments;
Performing OCR recognition on the plurality of segments to obtain candidate characters;
Obtaining statistical information of the candidate characters and / or statistical information of character combinations formed by the candidate characters;
And integrating the statistical information and the reliability of OCR recognition of the candidate character to determine a candidate character string.
文字列画像を複数のセグメントに分割するセグメント分割部と、
前記複数のセグメントに対してOCR認識を行って、候補文字を取得するOCR認識部と、
前記候補文字の統計情報及び/又は前記候補文字によって形成される文字組み合わせの統計情報を取得する統計情報取得部と、
前記統計情報と前記候補文字のOCR認識の信頼度を統合して、候補文字列を確定する第1の文字列確定部と
を含む文字列認識装置。
A segment dividing unit that divides the character string image into a plurality of segments;
An OCR recognition unit that performs OCR recognition on the plurality of segments to obtain candidate characters;
Statistical information acquisition unit for acquiring statistical information of the candidate characters and / or statistical information of character combinations formed by the candidate characters;
A character string recognition device comprising: a first character string determination unit that determines the candidate character string by integrating the statistical information and the reliability of OCR recognition of the candidate character.
前記統計情報は、一つの文字、文字類型及び/または文字組み合わせと、前記一つの文字、文字類型及び/または文字組み合わせと、一つの文字、文字類型及び/または文字組み合わせとが一緒に出現する確率を含む請求項2に記載の文字列認識装置。   The statistical information includes a probability that one character, character type and / or character combination, one character, character type and / or character combination, and one character, character type and / or character combination appear together. The character string recognition device according to claim 2, including: 前記文字組み合わせは、音節を構成する文字の組み合わせ又は字母と数字の組み合わせである請求項2又は3に記載の文字列認識装置。   The character string recognition device according to claim 2 or 3, wherein the character combination is a combination of characters constituting a syllable or a combination of a letter and a number. 前記文字列画像における文字列は、デリミタを含み、
前記デリミタを認識するデリミタ認識部をさらに含む請求項2又は3に記載の文字列認識装置。
The character string in the character string image includes a delimiter,
The character string recognition device according to claim 2, further comprising a delimiter recognition unit that recognizes the delimiter.
前記デリミタ認識部は、
前記文字列画像に対して連結領域の解析を実行して、前景画素の連結領域の画素数を取得する連結領域解析部と、
前記連結領域の画素数に基づいて、デリミタを確定するデリミタ確定部とを、含む請求項5に記載の文字列認識装置。
The delimiter recognition unit
A connected region analysis unit that performs a connected region analysis on the character string image and obtains the number of connected region of foreground pixels;
The character string recognition apparatus according to claim 5, further comprising: a delimiter determining unit that determines a delimiter based on the number of pixels in the connection area.
前記デリミタ確定部は、
前記連結領域の画素数に基づいてデリミタを確定する場合、前記画素数が小さい連結領域から順に複数の連結領域を選択し、選択した連結領域の画素数の平均値を算出することで閾値を確定して、連結領域の画素数が該閾値未満であって、且つ該連結領域が文字列画像の下部に位置する場合、該連結領域をデリミタに確定するように配置される請求項6に記載の文字列認識装置。
The delimiter determination unit
When determining the delimiter based on the number of pixels in the connected region, a plurality of connected regions are selected in order from the connected region having the smallest number of pixels, and the threshold value is determined by calculating an average value of the number of pixels in the selected connected region. When the number of pixels in the connected area is less than the threshold value and the connected area is located at the lower part of the character string image, the connected area is disposed so as to be determined as a delimiter. Character string recognition device.
OCR認識の信頼度に基づいて、前記候補文字列と予め定義したデータベースにおける文字列との間の距離を算出して、前記候補文字列を確定する第2の文字列確定部をさらに含む請求項2に記載の文字列認識装置。   And a second character string determination unit configured to calculate a distance between the candidate character string and a character string in a predefined database based on the reliability of OCR recognition, and to determine the candidate character string. 2. The character string recognition device according to 2. 前記第2の文字列確定部は、前記候補文字とデータベースにおける比較対象になる文字列との距離から、該候補文字の対応するセグメントがデータベースにおける比較対象になる文字列における対応する位置の文字に認識される信頼度に対応する値を減算するように配置される請求項8に記載の文字列認識装置。   From the distance between the candidate character and the character string to be compared in the database, the second character string determination unit converts the corresponding segment of the candidate character to the character at the corresponding position in the character string to be compared in the database. The character string recognition device according to claim 8, wherein the character string recognition device is arranged to subtract a value corresponding to the recognized reliability. 前記第2の文字列確定部は、前記候補文字列におけるあるセグメントのいずれか一つの候補文字と前記データベースにおける比較対象になる文字列における対応する位置の文字が異なる場合、該候補文字と前記データベースにおける比較対象になる文字列との距離に、該候補文字の認識信頼度に対応する値を加算するように配置される請求項8又は9に記載の文字列認識装置。   The second character string determining unit, when any one candidate character of a certain segment in the candidate character string is different from a character at a corresponding position in a character string to be compared in the database, the candidate character and the database The character string recognition device according to claim 8 or 9, wherein the character string recognition device is arranged so as to add a value corresponding to the recognition reliability of the candidate character to a distance from the character string to be compared.
JP2010204966A 2009-09-18 2010-09-13 Apparatus and method for recognizing character string Withdrawn JP2011065646A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101738708A CN102024139A (en) 2009-09-18 2009-09-18 Device and method for recognizing character strings

Publications (1)

Publication Number Publication Date
JP2011065646A true JP2011065646A (en) 2011-03-31

Family

ID=43865420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010204966A Withdrawn JP2011065646A (en) 2009-09-18 2010-09-13 Apparatus and method for recognizing character string

Country Status (2)

Country Link
JP (1) JP2011065646A (en)
CN (1) CN102024139A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191825A (en) * 2013-03-27 2014-10-06 Fujitsu Ltd Image processing method and image processing device
CN105488504A (en) * 2015-12-28 2016-04-13 四川长虹网络科技有限责任公司 Chinese character identification method based on camera
CN111539383A (en) * 2020-05-22 2020-08-14 浙江蓝鸽科技有限公司 Formula knowledge point identification method and device
CN111832554A (en) * 2019-04-15 2020-10-27 顺丰科技有限公司 Image detection method, device and storage medium
CN113312525A (en) * 2021-06-07 2021-08-27 浙江工业大学 Method for reversely calibrating steel seal code through java

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2645305A3 (en) * 2012-03-26 2014-05-14 Tata Consultancy Services Limited A system and method for processing image for identifying alphanumeric characters present in a series
CN103714316B (en) * 2013-12-10 2017-03-01 小米科技有限责任公司 Image-recognizing method, device and electronic equipment
CN104951779B (en) * 2014-03-24 2019-01-18 中国银联股份有限公司 A kind of method and system identifying sales slip character
CN104268540A (en) * 2014-09-05 2015-01-07 宇龙计算机通信科技(深圳)有限公司 Equation processing method and device based on images and terminal
CN104281830B (en) * 2014-09-26 2017-02-08 合肥京东方显示光源有限公司 Two-dimension code identification method and device
CN104766077B (en) * 2015-04-03 2017-04-12 北京奇虎科技有限公司 Method and device for recognizing characters in picture
CN106709489B (en) * 2015-07-13 2020-03-03 腾讯科技(深圳)有限公司 Character recognition processing method and device
CN105184289B (en) * 2015-10-10 2019-06-28 北京百度网讯科技有限公司 Character identifying method and device
CN107688803B (en) 2016-08-05 2020-04-03 腾讯科技(深圳)有限公司 Method and device for verifying recognition result in character recognition
CN107239733A (en) * 2017-04-19 2017-10-10 上海嵩恒网络科技有限公司 Continuous hand-written character recognizing method and system
CN108021918B (en) * 2017-12-13 2021-11-30 北京小米移动软件有限公司 Character recognition method and device
JP7032692B2 (en) * 2018-01-31 2022-03-09 セイコーエプソン株式会社 Image processing equipment and image processing program
CN109086651B (en) * 2018-06-04 2023-04-18 平安科技(深圳)有限公司 Handwriting model training method, handwritten character recognition method, device, equipment and medium
CN109345593B (en) * 2018-09-04 2022-04-26 海信集团有限公司 Camera posture detection method and device
CN112818976B (en) * 2021-01-29 2024-03-26 北京秒针人工智能科技有限公司 Character determining method and device, electronic equipment and readable medium

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191825A (en) * 2013-03-27 2014-10-06 Fujitsu Ltd Image processing method and image processing device
CN105488504A (en) * 2015-12-28 2016-04-13 四川长虹网络科技有限责任公司 Chinese character identification method based on camera
CN111832554A (en) * 2019-04-15 2020-10-27 顺丰科技有限公司 Image detection method, device and storage medium
CN111539383A (en) * 2020-05-22 2020-08-14 浙江蓝鸽科技有限公司 Formula knowledge point identification method and device
CN111539383B (en) * 2020-05-22 2023-05-05 浙江蓝鸽科技有限公司 Formula knowledge point identification method and device
CN113312525A (en) * 2021-06-07 2021-08-27 浙江工业大学 Method for reversely calibrating steel seal code through java
CN113312525B (en) * 2021-06-07 2024-02-09 浙江工业大学 Method for reversely calibrating seal code through java

Also Published As

Publication number Publication date
CN102024139A (en) 2011-04-20

Similar Documents

Publication Publication Date Title
JP2011065646A (en) Apparatus and method for recognizing character string
CN111723807B (en) End-to-end deep learning recognition machine for typing characters and handwriting characters
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
US8509537B2 (en) Learning weights of fonts for typed samples in handwritten keyword spotting
RU2421810C2 (en) Parsing of document visual structures
JP3822277B2 (en) Character template set learning machine operation method
US8566349B2 (en) Handwritten document categorizer and method of training
CN110135414B (en) Corpus updating method, apparatus, storage medium and terminal
US8731300B2 (en) Handwritten word spotter system using synthesized typed queries
US10133965B2 (en) Method for text recognition and computer program product
US9711117B2 (en) Method and apparatus for recognising music symbols
US8755604B1 (en) Using shape similarity methods to improve OCR speed and accuracy
US8233726B1 (en) Image-domain script and language identification
CN111198948A (en) Text classification correction method, device and equipment and computer readable storage medium
JP5653817B2 (en) Form recognition device, form recognition method, and program therefor
KR102504635B1 (en) Image processing method and image processing system
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
KR101379128B1 (en) Dictionary generation device, dictionary generation method, and computer readable recording medium storing the dictionary generation program
CN113673294B (en) Method, device, computer equipment and storage medium for extracting document key information
CN107092902B (en) Character string recognition method and system
CN112560849B (en) Neural network algorithm-based grammar segmentation method and system
US11270153B2 (en) System and method for whole word conversion of text in image
US20230045871A1 (en) Character recognition method, computer program product with stored program and computer readable medium with stored program
US20230359826A1 (en) Computer-implemented system and method to perform natural language processing entity research and resolution
CN115298707A (en) Information processing apparatus, information processing method, program, and sequence information

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20131203