JP4802502B2 - Word recognition device and word recognition method - Google Patents
Word recognition device and word recognition method Download PDFInfo
- Publication number
- JP4802502B2 JP4802502B2 JP2005013475A JP2005013475A JP4802502B2 JP 4802502 B2 JP4802502 B2 JP 4802502B2 JP 2005013475 A JP2005013475 A JP 2005013475A JP 2005013475 A JP2005013475 A JP 2005013475A JP 4802502 B2 JP4802502 B2 JP 4802502B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- character string
- image
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Description
本発明は、文字列認識を利用する単語入力手段に関する技術分野に属する。 The present invention belongs to a technical field related to word input means using character string recognition.
従来より、紙に印刷ないし手書きされた文字を読取る装置はOCRとして知られている。主な応用分野は、帳票処理、郵便物の区分、文書のテキスト化などである。典型的なOCRでは、以下のような手順で文字を読取る。まず紙面をスキャナを用いて光電変換して計算機に取り込み(画像入力)、読取りの対象の領域を推定して個々の文字を切出し(文字切出し)、個々の文字が何であるかを識別し(文字識別)、言語情報などを利用して読取った文字群を文字列として解釈する(後処理)。こうしたOCRで日本語を認識する際には、特に言語情報を記憶するための手段(言語辞書)に多くの記憶容量が必要である。また、紙面上に複数の文字行があり、読取り対象となるものはその一部であることがある。このような場合、応用分野に応じて予め定められた規則に従い、自動的に装置が読取り対象となる文字行を判別する。 Conventionally, an apparatus that reads characters printed or handwritten on paper is known as OCR. The main application fields are form processing, mail classification, and text conversion of documents. In typical OCR, characters are read in the following procedure. First, the paper is photoelectrically converted into a computer using a scanner (image input), the area to be read is estimated, individual characters are cut out (character cutout), and the individual characters are identified (characters). The character group read using (identification) and language information is interpreted as a character string (post-processing). When recognizing Japanese by such OCR, a large amount of storage capacity is required especially for the means (language dictionary) for storing language information. In addition, there are a plurality of character lines on the page, and a part to be read may be a part thereof. In such a case, the apparatus automatically determines a character line to be read in accordance with a rule predetermined according to the application field.
一般に文字切出しの段階では、どの部分画像が正しい文字に対応するか特定するのが困難である。このため、様々な仮説に基づいて文字を切り出し、後処理で文字の切り出し方を特定する手法が広く用いられている。
また、類似した形状の文字がある場合には、文字識別処理単独では文字種を特定するのが困難なことがある。こうした場合には、文字識別は複数の候補文字を出力する。
In general, it is difficult to specify which partial image corresponds to a correct character at the stage of character extraction. For this reason, a method of cutting out characters based on various hypotheses and specifying how to cut out characters by post-processing is widely used.
In addition, when there are characters with similar shapes, it may be difficult to specify the character type by the character identification process alone. In such a case, character identification outputs a plurality of candidate characters.
近年は、携帯電話、PDA(personal digital assistant)などの携帯機器に搭載されたカメラを画像入力の手段として、文書、看板、標識などの文字を読取る試みが現われている。これらの機器での認識対象は、電話番号、メールアドレス、URL、英単語などである。また、認識結果は電話やメールの発信、WEBへのアクセス、単語の翻訳などのサービスに用いられる。このような用途では、利用者が携帯機器により身の回りにある文書、看板、標識などを自在に読取り、サービスを受けることを想定している。このため、操作の容易さ、待ち時間の短さなどを実現することが必要となっている。 In recent years, attempts have been made to read characters such as documents, signboards, signs, and the like using a camera mounted on a portable device such as a mobile phone or a PDA (personal digital assistant) as an image input means. The recognition targets on these devices are phone numbers, e-mail addresses, URLs, English words, and the like. The recognition results are used for services such as telephone and e-mail transmission, web access, and word translation. In such an application, it is assumed that the user can freely read documents, signboards, signs, etc. around him / her with a portable device and receive a service. For this reason, it is necessary to realize ease of operation, short waiting time, and the like.
従来の技術の認識対象の場合、画像中から読取対象の文字列を特定するのが比較的容易であった。例えば、電話番号の場合には、通常直前に「Tel.」などの文字列が記載されている上、全体の桁数や括弧、ハイフンのつけ方に規則性がある。また、メールアドレスやURLなどでも、冒頭に「http:」がある、途中に「@」が現れる、「.com」「.jp」などで終わる、などの規則性がある。こうした規則性を利用して、自動的に認識対象の文字列を検出することは従来の技術でも可能である。また、英単語の場合には単語の前後に空白がある。このため、大まかな位置の指定に基づいて認識対象の単語を特定することは容易であった。例えば、山崎正裕他、「OCR機能を応用した携帯電話向け電子辞書機能の開発」(電子情報通信学会2004年総合大会講演論文集D-12-35)(非特許文献1)では、操作者が画面中央のマークに読み取りたい英単語を合わせることで、その近辺の英単語を読み取り、単語の翻訳結果を表示する応用例が記載されている。 In the case of the recognition target of the conventional technology, it is relatively easy to specify the character string to be read from the image. For example, in the case of a telephone number, a character string such as “Tel.” Is usually written immediately before, and the number of digits, parentheses, and hyphens are regular. Also, email addresses and URLs have regularity such as “http:” at the beginning, “@” in the middle, and “.com”, “.jp”, etc. The conventional technique can automatically detect the character string to be recognized using such regularity. In the case of English words, there are spaces before and after the word. For this reason, it is easy to specify a word to be recognized based on a rough position specification. For example, in Masahiro Yamazaki et al., "Development of an electronic dictionary function for mobile phones using the OCR function" (Proceedings of the 2004 IEICE General Conference Proceedings D-12-35) (Non-patent Document 1) An application example is described in which an English word to be read is matched with a mark at the center of the screen, and an English word in the vicinity is read and a translation result of the word is displayed.
しかし、日本語や中国語など、単語間に空白を空けることなく記述される言語の文字列から単語を認識する場合には、読取対象の文字列を特定するのが困難である。これは、日本語の場合、単語間に空白を置かずに印刷したり書いたりするからである。例えば「臨時営繕費用請求」という文字行中の「営繕」という単語を読取るために、操作者がマークを「営繕」の中央に合わせても、どの範囲が操作者の期待する読取範囲かを自動的に特定することは困難である。代案として、読み取り領域を矩形で指定する方式があるが、これは著しく操作量を増加させ、機器の利便性が低下する。 However, when recognizing a word from a character string written in a language such as Japanese or Chinese without a space between words, it is difficult to specify the character string to be read. This is because Japanese prints and writes without spaces between words. For example, even if the operator aligns the mark with the center of “repair” to read the word “repair” in the text “temporary repair cost claim”, it automatically determines which range is expected by the operator. It is difficult to specify it. As an alternative, there is a method of designating a reading area with a rectangle, but this significantly increases the amount of operation and reduces the convenience of the device.
また、こうした文字認識機能を有する携帯機器では、後処理における辞書の記憶容量の問題が生じる。従来の方式では、単語辞書の情報を用いて制約をかけながら、文字切り出しや文字識別の結果にあいまい性がある中で尤もらしい単語を検出するのが一般的である。日本語一般の単語、時事単語などを読み取り対象とすると、単語数は膨大となり、携帯機器に格納することは困難である。この問題の解決法として、辞書をサーバなど外部の計算機に記憶し、携帯機器と通信機能で接続することが考えられる。しかし、こうした後処理では頻繁に単語辞書にアクセスする必要があり、辞書を外部に置くと処理時間が長くなるという問題がある。 Further, in a portable device having such a character recognition function, a problem of dictionary storage capacity in post-processing occurs. In the conventional method, it is common to detect a probable word while there is ambiguity in the result of character segmentation or character identification while applying restrictions using information in the word dictionary. When reading general Japanese words, current affairs words, etc., the number of words becomes enormous and it is difficult to store them in a portable device. As a solution to this problem, it is conceivable to store the dictionary in an external computer such as a server and connect it to a portable device with a communication function. However, in such post-processing, it is necessary to frequently access the word dictionary, and if the dictionary is placed outside, there is a problem that the processing time becomes long.
本発明が解決しようとする第一の課題は、日本語や中国語など、単語間に空白を空けることなく記述される言語の文書中から、簡単な操作で読み取りたい単語を指定できるようにすることである。上に述べたとおり、日本語の場合は単語間の空白がないため、位置を1点だけ指定しても、単語の範囲を自動的に特定することが困難である。本発明では、この問題を解決し、英単語などを認識するのと同等の操作で読み取り対象の単語を指定可能とする。
本発明が解決しようとする第二の課題は、後処理における単語辞書へのアクセス頻度を低減し、単語辞書がサーバ上にあっても実用的な処理時間で単語の読取を可能とすることである。
The first problem to be solved by the present invention is to make it possible to specify a word to be read by a simple operation from a document in a language such as Japanese or Chinese that is described without a space between words. That is. As described above, since there is no space between words in Japanese, it is difficult to automatically specify a word range even if only one position is specified. In the present invention, this problem is solved and a word to be read can be designated by an operation equivalent to recognizing an English word or the like.
The second problem to be solved by the present invention is to reduce the frequency of access to the word dictionary in post-processing, and to enable word reading in a practical processing time even if the word dictionary is on the server. is there.
上記の課題を解決するための第一の手段として、本発明では、操作者の指定する位置情報にもっとも近接するものを、単語照合の結果得られる候補単語の集合から選択する手段を設ける。ここで、単語照合とは、あらかじめ辞書に格納した単語として尤もらしい部分画像の配列を、文字識別結果に基づいて検出する処理である。辞書には1つ以上の単語をあらかじめ記憶しておく。もし、単語として尤もらしい部分画像配列が複数見出された場合には、それらを候補単語として出力する。指定の位置と候補単語の近接の度合いの尺度としては、例えば、候補単語の外接矩形の重心と指定位置の距離を用いる。これにより、単語間の空白がない場合にも、操作者が指定する位置近辺の単語を読み取ることが可能となる。 As a first means for solving the above-described problem, the present invention provides means for selecting the closest one to the position information designated by the operator from a set of candidate words obtained as a result of word matching. Here, word collation is a process of detecting an arrangement of partial images that are likely to be words stored in a dictionary in advance based on a character identification result. The dictionary stores one or more words in advance. If a plurality of partial image sequences that are likely to be words are found, these are output as candidate words. As a measure of the degree of proximity between the designated position and the candidate word, for example, the distance between the center of gravity of the circumscribed rectangle of the candidate word and the designated position is used. As a result, even when there is no space between words, it is possible to read a word near the position designated by the operator.
上記の課題を解決するための第二の手段として、本発明では、文字識別後に単語情報を用いずに尤もらしい文字列の候補を出力する文字列出力手段を設ける。この文字列出力手段は、文字識別の結果得られる確信度、部分画像の間隔の均一性などの情報を基準に尤もらしい文字列を出力する。尤もらしい文字列が複数ある場合には、複数の文字列を候補文字列として出力する。 As a second means for solving the above problem, the present invention provides a character string output means for outputting a plausible character string candidate without using word information after character identification. The character string output means outputs a plausible character string based on information such as the certainty factor obtained as a result of character identification and the uniformity of the interval between partial images. When there are a plurality of likely character strings, the plurality of character strings are output as candidate character strings.
文字列出力手段では、繰り返し処理によって尤もらしさを最適にする方式を採用する。従来は、部分画像の位置関係をネットワークで表現し(文字切り出しネットワーク)、個々の部分画像の文字としての確信度を求め、ネットワーク上で確信度の和が最大となる経路を求める方式が広く使われている。しかし、この方式では、部分画像の間隔の均一性を最適化することはできない。そこで、文字の切り出し方を少しずつ繰り返し変化させ、文字列としての尤もらしさを最適化するようにする。 The character string output means adopts a method for optimizing likelihood by iterative processing. Conventionally, a method is widely used in which the positional relationship of partial images is represented by a network (character segmentation network), the confidence level of each partial image as a character is obtained, and the route that maximizes the sum of confidence levels on the network is obtained. It has been broken. However, this method cannot optimize the uniformity of the interval between the partial images. Therefore, the character cutout method is repeatedly changed little by little to optimize the likelihood as a character string.
上に述べたような文字切り出し方式、単語照合方式、データ形式を用いることにより、単語間に空白を空けることなく記述される日本語や中国語などの言語の文字列中から、操作者の指定する位置に近接する単語を自動的に切り出すことが可能となる。これにより、単語を認識させるための操作者の操作量は大幅に減り、機器の利便性が向上する。 By using the character segmentation method, word collation method, and data format as described above, the operator can specify from character strings in languages such as Japanese and Chinese that are described without spaces between words. It is possible to automatically cut out a word close to the position to be performed. Thereby, the operation amount of the operator for recognizing the word is greatly reduced, and the convenience of the device is improved.
また、単語辞書が遠隔のサーバに有っても、頻繁なネットワークアクセスを行う必要がなく、処理速度が向上する。本発明では、文字列を一括してサーバに転送することができ、転送時間は短縮される。転送する文字列は、文字識別の確信度、文字間隔の分散などよって厳選されており、転送時間は短縮される。さらに文字の切り出しの曖昧さはこの時点で解消されており、サーバでの単語照合処理も簡便なもので済む。 Even if the word dictionary is in a remote server, it is not necessary to perform frequent network access, and the processing speed is improved. In the present invention, character strings can be collectively transferred to a server, and the transfer time is shortened. The character string to be transferred is carefully selected according to the certainty of character identification, the dispersion of character intervals, and the like, and the transfer time is shortened. Furthermore, the ambiguity of character segmentation has been resolved at this point, and the word matching process at the server can be simplified.
図1に本発明の一実施例を示す。本実施例は2つの計算機100、101で実現する。画像入力手段102は、文字の像を光電変換して計算機に取り込む。位置指定手段103は、操作者により入力された読み取り対象の単語の位置の指定を特定する。ここでは、位置は画像上のX座標値とY座標値で指定するものとする。文字切り出し手段104は、個々の文字に対応すると思われる部分画像を切出す。文字識別手段105は、切り出した部分画像各々が何の文字であるかを識別し、確信度とともに出力する。この際、各文字の形状を記憶するための手段(文字識別辞書109)を参照する。文字列出力手段106は、文字識別の結果得られる確信度、部分画像の間隔の均一性などの情報を基準に尤もらしい文字列を出力する。尤もらしい文字列が複数ある場合には、複数の文字列を候補文字列として出力する。単語照合手段107は、候補文字列と単語辞書110にあらかじめ記憶してある単語を照合し、一致するものを検出する。単語選択手段108は、単語照合手段107の出力と、位置指定手段103の出力とを元に、指定位置に近い単語を選択し、単語認識結果として出力する。最後に認識結果表示手段111にて、単語認識結果を表示する。
FIG. 1 shows an embodiment of the present invention. This embodiment is realized by two
計算機1は携帯情報端末、例えばカメラ付き携帯電話やカメラ付きPDAなどである。計算機2は、無線又は有線により計算機1と直接又は間接的に通信可能な計算機であり、例えばセルラ通信のネットワークに接続されるサーバなどである。認識結果表示手段112は、計算機1が有する表示部である。計算機1の画像入力手段111はカメラなどの画像入力装置により実現される。位置指定手段103、文字切り出し手段104、文字識別手段105、および文字列出力手段106は、計算機1の記憶部に格納されたプログラムを演算部で実行することにより実現される。文字識別辞書109は計算機1の記憶部に格納される。単語照合手段107、および単語選択手段108は、計算機2の記憶部に格納されたプログラムを演算部で実行することにより実現される。単語辞書110は計算機2の記憶部に格納される。計算機1および2は通信機能を有し、この通信機能を用いて単語の位置指定、文字列出力手段の出力、単語認識結果などの送受信を行う。
The
計算機1(100)の外観(表側及び裏側))の例を図10に示す。画像入力手段102のカメラは、表示部111と反対側に設置すると、ユーザが画像を視認しながら入力する際などに便利である。表示部111の側には、表示部の表示内容の操作や、画像入力の指定に用いられる入力ボタン112が設けられる。
An example of the external appearance (front side and back side) of the computer 1 (100) is shown in FIG. If the camera of the image input means 102 is installed on the side opposite to the display unit 111, it is convenient when the user inputs an image while viewing the image. On the display unit 111 side, an
図2は、入力画像および位置指定の操作を模式的に表すものである。201は、表示部111上に入力画像を表示するウインドウである。入力画像には、操作者が読ませようとする単語が撮られているものとする。202は、位置指定のためのマークである。操作者がこのマークを認識させたい単語にあわせて画像の入力を行うことで、このマークの位置に相当する入力画像の位置が、位置指定手段103で特定すべき位置として指定される。この例では、「経済」の文字列を読ませるために、その近辺にマークをあわせた状態で画像を入力する。
FIG. 2 schematically shows an input image and position specifying operation. A
202に示すように、入力画像の中にへんとつくりに分かれている文字が多い場合、文字と文字の境界を一意に決めることが困難である。このような場合は、この段階では様々な仮説に基づいて文字を切り出しておく。図3は、文字切り出し手段103の出力の例を模式的に表している。ここでは文字切り出し結果は特開平11-085909号公報(特許文献1)にあるようなネットワークの形式となっている。図中で丸印によって表されたネットワークの頂点は、文字間の境界の候補を表す。丸の中の数字は、各境界候補の識別子を表す。また、折れ線は、切り出された部分画像を表す。こうしたネットワークによる表現により、文字の切り出し方は、ネットワーク中の経路で表されることとなる。
As shown in 202, when there are many characters that are divided in the input image, it is difficult to uniquely determine the boundary between the characters. In such a case, characters are cut out at this stage based on various hypotheses. FIG. 3 schematically illustrates an example of the output of the
文字識別手段105としては、例えば、H. Bunke、 P.S.P. Wang、 “Handbook of Character Recognition and Document Image Analysis、” (World Scientific、 1997)(非特許文献2)にあるような手法を用いる。類似した形状の文字があると、文字識別処理単独では文字種を特定するのが困難なことがある。こうした場合には、文字識別手段105は、複数の候補文字を確信度とついにして出力する。 As the character identification means 105, for example, a technique as described in H. Bunke, P.S.P. Wang, “Handbook of Character Recognition and Document Image Analysis,” (World Scientific, 1997) (Non-patent Document 2) is used. If there are characters with similar shapes, it may be difficult to specify the character type by the character identification process alone. In such a case, the character identification means 105 outputs a plurality of candidate characters together with the certainty factor.
図4は、文字列出力手段106の出力の例を模式的に表している。文字の切り出し方がこの段階では決定できないため、様々な文字の切り出し方を仮定して文字列を出力している。図中では6つの文字列を示しているが、これは6つの候補文字列が出力される場合を示す。また、候補文字列の順序は、以下に示す文字列確信度の値が大きい順に並べるようにする。 FIG. 4 schematically shows an output example of the character string output means 106. Since how to cut out characters cannot be determined at this stage, character strings are output assuming various ways of cutting out characters. Although six character strings are shown in the figure, this indicates a case where six candidate character strings are output. In addition, the candidate character strings are arranged in descending order of the character string certainty values shown below.
(文字列確信度) = a×(文字識別結果の一位の確信度の平均値)- b×(文字の中心座標間隔の分散値)
(a、bは正の定数)
これは、できるだけ文字として尤もらしく、かつ、文字列として文字のピッチが整っているような文字の切り出し方を、上位の候補とするためのものである。
(Character string certainty factor) = a x (Average value of the first certainty factor of the character identification result)-b x (Distribution value of the center coordinate interval of the character)
(A and b are positive constants)
This is intended to make a character candidate that is as plausible as possible and has a good character pitch as a character string as a top candidate.
図5は、文字列出力手段107における処理の手順の例を示している。まず、ステップ501にて文字識別確信度の総和が最大となる経路をネットワーク上で探索する。これはダイキストラのアルゴリズムなど通常の経路探索アルゴリズムで実現可能である。次に、ステップ502にて、ステップ501で得られた経路にしたがって、文字列確信度を計算し、変数aとbに代入する。
FIG. 5 shows an example of a processing procedure in the character string output means 107. First, in
次にループ503にて、以下の処理を繰り返す。まず、ループ504にて、全ての境界候補について、その境界候補を逆転した文字列確信度を計算し、その値を変数cに代入する。もし、変数cの値が変数bの値より大きい場合には、cの値をbに代入する。
Next, in the
上記のループ503の処理の中で、境界候補の逆転とは以下のような処理を示す。もし、境界候補iが経路に含まれている場合には、iの直前、直後の境界候補を両端とする文字の切り出し方を選択し、iが含まれないように経路を修正する。もし、境界候補iが経路に含まれていない場合には、iを含むように経路を修正する。図6の(B)の例では、図6(A)の境界候補3番を逆転しており、図6の(C)では、境界候補5番を逆転している。
In the processing of the
次にステップ505にて、変数aの値がbの値未満かどうか判定し、もし判定結果が真であれば、aにbの値を代入する。もし偽であれば、ループ503を終了し、その時点での経路にしたがって文字列に対応する部分画像の配列を確定し、文字列として出力する。上記の処理は、最適な文字の切り出し方を1つだけ出力する例である。上記の処理と同様に、常に上n個の文字の経路を記憶し、それらを繰り替えし少しずつ修正することで、上位n個の最適な文字の切り出し方を出力することも可能となる。
In
文字列出力手段の出力としては、得られた部分画像配列の各部分画像に対する文字識別結果の一位候補文字をつなぎ合わせたものを用いる。また、別の実施例として、後述するような各部分画像に対し複数の候補文字を格納したもの(ラティス)を用いてもよい。
単語照合手段107には、通常の文字列比較手法を用いる。また、入力としてラティスを用いる場合には、丸川勝美他「手書き漢字住所認識のためのエラー修正アルゴリズム」(情報処理学会論文誌、Vol. 35、 No. 6、 1994-6、 pp. 1101-1110)(非特許文献3)のような手法を用いる。
As the output of the character string output means, a combination of the first candidate characters of the character identification result for each partial image of the obtained partial image array is used. As another example, a plurality of candidate characters (lattices) stored for each partial image as described later may be used.
The word matching means 107 uses a normal character string comparison method. Also, when using lattice as input, Katsumi Marukawa et al. “Error Correction Algorithm for Handwritten Kanji Address Recognition” (IPSJ Journal, Vol. 35, No. 6, 1994-6, pp. 1101-1110) ) (Non-Patent Document 3) is used.
図7に、単語選択手段108の出力を認識結果表示手段111で表示した結果を模式的に示す。201は位置指定に用いた画面である。701は単語認識結果を表示するウインドウである。ウインドウの上の方ほど、単語として尤もらしいものを表示している。単語の尤もらしさには、認識された単語の外接矩形の画像上での重心と、操作者が指定した読み取り位置の距離を用いる。また、外接矩形が指定した読み取り位置を含むような単語候補を表示するようにしてもよい。さらに、操作者が希望する単語候補を指定できるよう、認識結果表示手段111ではカーソル702を表示する。操作者はボタンなどを操作してカーソルを上下し、列挙された候補単語から希望するものを選択する。また、ウインドウ701中の文字のX座標は、ウインドウ201に示す入力画像中で対応する文字のX座標に合わせて表示する。
FIG. 7 schematically shows the result of displaying the output of the word selection means 108 by the recognition result display means 111.
図8は、文字列出力手段106の出力形式をラティスとした際のデータ形式である。表の各行すなわち1レコードが、文字列中の1文字に対応する。はじめの2変数BLとBRには、ネットワーク上での左と右の境界の識別子を記憶する。次の4つの変数L、T、R、Bには、切り出された部分画像の左端、右端、上端、下端の座標を記憶する。次の変数Nには、出力する候補文字の数を記憶する。配列C[1]からC[N]には、文字識別結果得られた候補文字の文字コードを記憶する。配列Lk[1]からLk[N]には、各候補文字の確信度を格納する。このように、文字識別結果を部分画像の座標と共に記憶しておくことにより、単語選択手段108にて、位置指定結果に応じた候補単語を選択することが可能となる。
FIG. 8 shows a data format when the output format of the character string output means 106 is a lattice. Each row of the table, that is, one record corresponds to one character in the character string. The first two variables BL and BR store the identifiers of the left and right boundaries on the network. The following four variables L, T, R, and B store the coordinates of the left end, right end, upper end, and lower end of the cut out partial image. The next variable N stores the number of candidate characters to be output. In the arrays C [1] to C [N], character codes of candidate characters obtained as a result of character identification are stored. In arrays Lk [1] to Lk [N], the certainty factor of each candidate character is stored. As described above, by storing the character identification result together with the coordinates of the partial image, the
図9は、単語照合107の出力のデータ形式を示す。第一の変数LENには、単語の文字数を記憶する。次の4つの変数L、T、R、Bには、単語の左端、右端、上端、下端の座標を記憶する。変数C[i]には、単語のi番目の文字の文字コードを記憶する。変数P[i]には、単語のi番目の文字に対応する図8のテーブル中のレコードへのポインタを示す。こうした記憶形式を用いることにより、図7に示すような表示が可能となる。
FIG. 9 shows an output data format of the
100:第一の計算機、101:第二の計算機、102:画像入力手段、103:位置指定、104:文字切出し、105:文字識別、106:文字列出力、107:単語照合、108:単語選択、109:文字識別辞書、110:単語辞書、111:認識結果表示、201:入力画像表示ウインドウ、202:位置指定用カーソル、701:単語認識結果表示ウインドウ、702:単語選択カーソル。 100: first computer, 101: second computer, 102: image input means, 103: position designation, 104: character extraction, 105: character identification, 106: character string output, 107: word matching, 108: word selection 109: character identification dictionary, 110: word dictionary, 111: recognition result display, 201: input image display window, 202: cursor for position designation, 701: word recognition result display window, 702: word selection cursor.
Claims (2)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005013475A JP4802502B2 (en) | 2005-01-21 | 2005-01-21 | Word recognition device and word recognition method |
CNB2005100897272A CN100530217C (en) | 2005-01-21 | 2005-08-05 | Word identifier |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005013475A JP4802502B2 (en) | 2005-01-21 | 2005-01-21 | Word recognition device and word recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006202068A JP2006202068A (en) | 2006-08-03 |
JP4802502B2 true JP4802502B2 (en) | 2011-10-26 |
Family
ID=36840359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005013475A Expired - Fee Related JP4802502B2 (en) | 2005-01-21 | 2005-01-21 | Word recognition device and word recognition method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4802502B2 (en) |
CN (1) | CN100530217C (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5232449B2 (en) * | 2007-11-21 | 2013-07-10 | Kddi株式会社 | Information retrieval apparatus and computer program |
JP5729260B2 (en) * | 2011-11-01 | 2015-06-03 | 富士通株式会社 | Computer program for character recognition, character recognition device, and character recognition method |
CN111144191B (en) * | 2019-08-14 | 2024-03-22 | 广东小天才科技有限公司 | Font identification method, font identification device, electronic equipment and storage medium |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06149881A (en) * | 1992-11-09 | 1994-05-31 | Ricoh Co Ltd | Dictionary consultant device, document processor, and digital copying machine |
JP3623998B2 (en) * | 1995-01-27 | 2005-02-23 | キヤノン株式会社 | Image processing method and image processing apparatus |
JPH08329190A (en) * | 1995-03-24 | 1996-12-13 | Fuji Xerox Co Ltd | Character recognition device |
JP3514085B2 (en) * | 1997-08-27 | 2004-03-31 | 日本電信電話株式会社 | Character string input method and apparatus, and storage medium storing character string input program |
JPH11203406A (en) * | 1998-01-20 | 1999-07-30 | Ricoh Co Ltd | Character segmenting method, character recognizing method, character recognition device, and recording medium |
JP2000207491A (en) * | 1999-01-12 | 2000-07-28 | Hitachi Ltd | Reading method and device for character string |
JP2000348142A (en) * | 1999-06-08 | 2000-12-15 | Nippon Telegr & Teleph Corp <Ntt> | Character recognizing device, method therefor and recording medium for recording program executing the method |
JP4240859B2 (en) * | 2001-09-05 | 2009-03-18 | 株式会社日立製作所 | Portable terminal device and communication system |
JP4102153B2 (en) * | 2002-10-09 | 2008-06-18 | 富士通株式会社 | Post-processing device for character recognition using the Internet |
-
2005
- 2005-01-21 JP JP2005013475A patent/JP4802502B2/en not_active Expired - Fee Related
- 2005-08-05 CN CNB2005100897272A patent/CN100530217C/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006202068A (en) | 2006-08-03 |
CN1808466A (en) | 2006-07-26 |
CN100530217C (en) | 2009-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4995554B2 (en) | Retrieval method of personal information using knowledge base for optical character recognition correction | |
US9357098B2 (en) | System and methods for use of voice mail and email in a mixed media environment | |
US8600989B2 (en) | Method and system for image matching in a mixed media environment | |
US7991778B2 (en) | Triggering actions with captured input in a mixed media environment | |
US8838591B2 (en) | Embedding hot spots in electronic documents | |
US9405751B2 (en) | Database for mixed media document system | |
US7917554B2 (en) | Visibly-perceptible hot spots in documents | |
US8335789B2 (en) | Method and system for document fingerprint matching in a mixed media environment | |
US8521737B2 (en) | Method and system for multi-tier image matching in a mixed media environment | |
US8949287B2 (en) | Embedding hot spots in imaged documents | |
US7885955B2 (en) | Shared document annotation | |
EP1917636B1 (en) | Method and system for image matching in a mixed media environment | |
US20070050360A1 (en) | Triggering applications based on a captured text in a mixed media environment | |
CN106056114A (en) | Business card content identification method and business card content identification device | |
KR101606469B1 (en) | Method for image analysis, especially for mobile stations | |
JP2007317022A (en) | Handwritten character processor and method for processing handwritten character | |
US20150293975A1 (en) | Method and device for searching for contact object, and storage medium | |
WO2007023993A1 (en) | Data organization and access for mixed media document system | |
JP4802502B2 (en) | Word recognition device and word recognition method | |
CN114677700A (en) | Identification method and device of identity, storage medium and electronic equipment | |
CN110377167B (en) | Font generating method and font generating device | |
JP4597644B2 (en) | Character recognition device, program and recording medium | |
KR101176963B1 (en) | System for character recognition and post-processing in document image captured | |
JP4800144B2 (en) | Character string determination device, character string determination method, character string determination program, and computer-readable recording medium | |
JP2014006758A (en) | Preserved document delivery management system and preserved document delivery management method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060425 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110725 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |