JP2002279352A - Character recognition device and method, and recording medium - Google Patents

Character recognition device and method, and recording medium

Info

Publication number
JP2002279352A
JP2002279352A JP2001077280A JP2001077280A JP2002279352A JP 2002279352 A JP2002279352 A JP 2002279352A JP 2001077280 A JP2001077280 A JP 2001077280A JP 2001077280 A JP2001077280 A JP 2001077280A JP 2002279352 A JP2002279352 A JP 2002279352A
Authority
JP
Japan
Prior art keywords
character
result
recognition
candidate
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001077280A
Other languages
Japanese (ja)
Other versions
JP4245820B2 (en
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001077280A priority Critical patent/JP4245820B2/en
Publication of JP2002279352A publication Critical patent/JP2002279352A/en
Application granted granted Critical
Publication of JP4245820B2 publication Critical patent/JP4245820B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a character recognition device which provides correct recognition result, without making a user work, when recognizing a URL(uniform resource locator) in a character image. SOLUTION: This character recognition device, connected to the Internet 90, is provided with a character recognition part 20 for recognizing characters in the inputted character image, an internet connection part 40 connected to a connection target expressed in the URL via the Internet 90 and obtaining the result, and a result verification part 30, giving a character column to the internet connection part 40, when the character column recognized by the character recognition part 20 is URL, and verifying whether the character recognition result is right.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字認識装置、文
字認識方法および記録媒体に関し、特に、文字認識処理
によって得られた文字列がURLの場合に、誤変換した
ときの検証および修正に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device, a character recognition method, and a recording medium, and more particularly, to verification and correction when erroneous conversion is performed when a character string obtained by character recognition processing is a URL.

【0002】[0002]

【従来の技術】最近の書籍等の記載内容には記事ととも
にURL(Uniform Resource Locator)も一緒に紹介され
ていものが多くなっている。このような書籍等の文書を
スキャナで読み取り、文字認識するときには、当然UR
Lをも認識しなければならないが、URLを誤認識する
とまったく役に立たないものとなってしまうので、正確
を期さなければならない。しかしながら、認識結果と文
書にあるURLとを照合する作業は面倒なものである。
このような書籍等に記述されているURLを構成する文
字を自動認識する技術として、特開平9−274646
号公報の技術がある。この方法は、URLに使用されう
る文字およびテンプレート(固定されたプロトコル、ド
メイン名の先頭と種別等の部分についていくつか用意す
る。)に対する画像を保持して、URL部分を抽出した
後、保持した文字画像と抽出した部分画像とを比較する
ことにより文字列として認識している。この方法による
と、テンプレート部分については比較的誤変換はないも
のの、他の部分の認識処理には認識速度が遅く、しかも
誤認識も多くなるという問題がある。一方、世界中のホ
ームページへのアクセスや電子メールサービスなどのイ
ンターネットを介した情報の収集および発信に対して、
インターネット接続機能およびブラウザー機能(ホーム
ページを閲覧する機能)を備えたコンピュータやネット
ワーク端末機等が普及している。特開平10−3340
17号公報の技術では、インターネットテレビを使って
テレビ番組を見ていたとき、その番組のホームページや
番組内容に関連したホームページが紹介される場合があ
る。このような場合に、紹介されたホームページを見た
いと指示したときに、テレビ画面に表示されているUR
L部分の画像を抽出し、その画像を文字認識した結果の
URLを用いてアクセスできるようにしている。
2. Description of the Related Art Recently, many books and the like include URLs (Uniform Resource Locators) together with articles. When a document such as a book is read by a scanner and character recognition is performed, the
Although L must be recognized, misrecognition of the URL becomes useless at all, so accuracy must be ensured. However, the task of matching the recognition result with the URL in the document is troublesome.
As a technique for automatically recognizing characters constituting a URL described in such a book or the like, Japanese Patent Laid-Open No. 9-274646 discloses a technique.
There is the technology of the publication. In this method, an image for characters and templates (a fixed protocol, several parts such as a head and a type of a domain name are prepared) that can be used for a URL is stored, and after the URL part is extracted, the image is stored. A character string is recognized as a character string by comparing the character image with the extracted partial image. According to this method, although there is relatively no erroneous conversion for the template part, there is a problem that the recognition processing of the other parts is slow in recognition speed and erroneous recognition increases. On the other hand, for access to homepages around the world and collection and transmission of information via the Internet, such as e-mail services,
2. Description of the Related Art Computers and network terminals having an Internet connection function and a browser function (a function of browsing a homepage) have become widespread. JP-A-10-3340
In the technology disclosed in Japanese Patent Publication No. 17, when watching a television program using Internet television, a homepage of the program or a homepage related to the program contents may be introduced. In such a case, when the user instructs to view the introduced homepage, the UR displayed on the television screen is displayed.
The image of the L portion is extracted, and the image can be accessed using the URL obtained as a result of character recognition.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、URL
部分を文字認識するのであれば、その認識率は文字認識
装置の性能に頼るのみとなってしまう。これを解決する
ために、上記の従来技術では、文字認識した結果の候補
が複数検出された場合、これらの複数のURLを順次表
示させて、ユーザーに選択させていた。この方法では、
入力された画像のURLと順次表示される候補のURL
とをいちいち照合しなければならず、ユーザーの苦労は
一向に減少しない。本発明は、このような問題を解決す
るためのものであり、文字画像中のURLを認識する際
に、ユーザーに労力をかけないで正しい認識結果を得る
文字認識装置、文字認識方法および記録媒体を提供する
ことを目的とする。
However, the URL
If the part is character-recognized, the recognition rate depends only on the performance of the character recognition device. In order to solve this problem, in the above-described related art, when a plurality of candidates as a result of character recognition are detected, the plurality of URLs are sequentially displayed to allow the user to select the URL. in this way,
URL of input image and URL of candidate displayed sequentially
Must be checked one by one, and the user's effort will not be reduced at all. The present invention is intended to solve such a problem, and when recognizing a URL in a character image, a character recognizing device, a character recognizing method, and a recording medium for obtaining a correct recognizing result without labor for a user. The purpose is to provide.

【0004】[0004]

【課題を解決するための手段】上記の問題を解決するた
めに、請求項1の発明は、インターネットに接続された
文字認識装置において、入力された文字画像を文字認識
する文字認識部と、前記インターネットを経由してUR
Lで示される接続先へ接続し、その結果を得るインター
ネット接続部と、前記文字認識部で認識された文字列が
URLのとき、前記インターネット接続部へこの文字列
を与えて、認識結果を検証する結果検証部とを備え、文
字認識された結果が正しいかどうかを検証することを特
徴とする。また、本発明の請求項2は、請求項1に記載
の文字認識装置において、前記結果検証部で認識結果の
前記文字列が存在しないURLである場合、その文字列
を修正する結果修正部を備え、前記結果検証部は、前記
結果修正部で修正された文字列で再度検証することを特
徴とする。また、本発明の請求項3は、請求項2に記載
の文字認識装置において、前記文字認識部は、認識結果
として候補文字とその確からしさとを求め、前記結果修
正部は、認識結果の前記文字列の候補文字のうち確から
しさの低い文字から修正するようにしたことを特徴とす
る。また、本発明の請求項4は、請求項3に記載された
文字認識装置において、前記結果修正部は、認識結果の
前記文字列の候補文字のうち確からしさの低い文字を他
の候補文字と置き換えることを特徴とする。また、本発
明の請求項5は、請求項3または請求項4に記載の文字
認識装置において、前記結果修正部は、認識結果の前記
文字列の候補文字のうち確からしさの低い文字を候補文
字以外の文字で置き換えることを特徴とする。また、本
発明の請求項6は、請求項5に記載の文字認識装置にお
いて、認識結果の文字と誤って認識されやすい文字の候
補とを対応させて保持する候補ラティスを備え、前記結
果修正部は、認識結果の前記文字列の候補文字のうち確
からしさの低い文字が前記候補ラティスに登録された文
字の場合、その文字を前記候補ラティスから選択して置
き換え、誤認識しやすい文字を修正するようにしたこと
を特徴とする。
According to a first aspect of the present invention, there is provided a character recognition device connected to the Internet, wherein the character recognition unit recognizes characters of an input character image. UR via the Internet
An Internet connection unit that connects to the connection destination indicated by L and obtains the result; and when the character string recognized by the character recognition unit is a URL, the character string is given to the Internet connection unit to verify the recognition result. And a verification unit that verifies whether the result of character recognition is correct. According to a second aspect of the present invention, in the character recognition apparatus according to the first aspect, when the result verification unit recognizes the character string as a URL that does not exist, the result verification unit corrects the character string. The result verification unit may verify again with the character string corrected by the result correction unit. According to a third aspect of the present invention, in the character recognition device according to the second aspect, the character recognition unit obtains a candidate character and its likelihood as a recognition result, and the result correction unit determines the candidate character. It is characterized in that correction is performed from a character with low probability among candidate characters of a character string. According to a fourth aspect of the present invention, in the character recognition device according to the third aspect, the result correction unit sets a character with low probability among candidate characters of the character string of the recognition result as another candidate character. It is characterized by being replaced. According to a fifth aspect of the present invention, in the character recognition device according to the third or fourth aspect, the result correction unit determines a character having a low probability from among candidate characters of the character string of the recognition result as a candidate character. It is characterized by replacing with characters other than. According to a sixth aspect of the present invention, there is provided the character recognition apparatus according to the fifth aspect, further comprising a candidate lattice for holding a character of a recognition result and a character candidate that is likely to be erroneously recognized in association with each other; In the case where a character with low probability among the candidate characters of the character string of the recognition result is a character registered in the candidate lattice, the character is selected from the candidate lattice and replaced to correct a character that is easily misrecognized. It is characterized by doing so.

【0005】また、本発明の請求項7は、入力された文
字画像に対して文字認識する文字認識方法において、入
力された文字画像を文字認識し、その認識された文字列
がURLのとき、インターネットを経由してその文字列
で示される接続先へ接続し、その結果によって、認識結
果が正しいかどうかを検証することを特徴とする。ま
た、本発明の請求項8は、請求項7に記載の文字認識方
法において、前記文字列が存在しないURLの場合、そ
の文字列を修正して再度検証するようにしたことを特徴
とする。また、本発明の請求項9は、請求項8に記載の
文字認識方法において、文字認識した認識結果として候
補文字とその確からしさとを求め、前記文字列が存在し
ないURLの場合、認識結果の前記文字列の候補文字の
うち確からしさの低いものから修正するようにしたこと
を特徴とする。また、本発明の請求項10は、請求項9
に記載された文字認識方法において、認識結果の前記文
字列の候補文字のうち確からしさの低い文字を他の候補
文字と置き換えることを特徴とする。また、本発明の請
求項11は、請求項9または請求項10に記載の文字認
識方法において、認識結果の前記文字列の候補文字のう
ち確からしさの低い文字を候補文字以外の文字で置き換
えることを特徴とする。また、本発明の請求項12は、
請求項11に記載の文字認識方法において、認識結果の
文字と誤って認識されやすい文字の候補とを対応させて
保持する候補ラティスを備え、認識結果の前記文字列の
候補文字のうち確からしさの低い文字が前記候補ラティ
スに登録された文字の場合、その文字を前記候補ラティ
スから選択して置き換え、誤認識しやすい文字を修正す
るようにしたことを特徴とする。また、本発明の請求項
13は、インターネットに接続されたコンピュータから
入力された文字画像に対して文字認識する文字認識装置
として機能させるためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体であって、入力された文字
画像を文字認識する文字認識部と、前記インターネット
を経由してURLで示される接続先へ接続し、その結果
を得るインターネット接続部と、前記文字認識部で認識
された文字列がURLのとき、前記インターネット接続
部へこの文字列を与えて、認識結果を検証する結果検証
部とを備え、文字認識された結果が正しいかどうかを検
証するプログラムを記録したことを特徴とする。また、
本発明の請求項14は、請求項13に記載の記録媒体に
おいて、前記結果検証部で認識結果の前記文字列が存在
しないURLである場合、その文字列を修正する結果修
正部を備え、前記結果検証部は、前記結果修正部で修正
された文字列で再度検証するようにしたプログラムを記
録したことを特徴とする。
According to a seventh aspect of the present invention, there is provided a character recognition method for character recognition of an input character image, wherein the input character image is subjected to character recognition, and when the recognized character string is a URL, It connects to the connection destination indicated by the character string via the Internet, and verifies whether or not the recognition result is correct based on the result. According to an eighth aspect of the present invention, in the character recognition method according to the seventh aspect, in the case where the URL does not include the character string, the character string is corrected and verified again. According to a ninth aspect of the present invention, in the character recognition method according to the eighth aspect, a candidate character and its likelihood are obtained as a recognition result of the character recognition. It is characterized in that the candidate character of the character string is corrected from a character with low probability. Claim 10 of the present invention relates to claim 9
In the character recognition method described above, among the candidate characters of the character string of the recognition result, a character with low probability is replaced with another candidate character. According to a eleventh aspect of the present invention, in the character recognition method according to the ninth or tenth aspect, a character having low probability among candidate characters of the character string of the recognition result is replaced with a character other than the candidate character. It is characterized by. Claim 12 of the present invention is:
12. The character recognition method according to claim 11, further comprising a candidate lattice for holding a character of a recognition result and a character candidate that is likely to be erroneously recognized in association with each other, and determining a certainty among the candidate characters of the character string of the recognition result. When the low character is a character registered in the candidate lattice, the character is selected from the candidate lattice and replaced, and a character that is easily misrecognized is corrected. According to a thirteenth aspect of the present invention, there is provided a computer-readable recording medium recording a program for causing a computer to function as a character recognition device that recognizes a character image input from a computer connected to the Internet, A character recognition unit for character recognition of an input character image, an Internet connection unit for connecting to a connection destination indicated by a URL via the Internet and obtaining the result, and a character string recognized by the character recognition unit In the case of a URL, a character verification unit is provided with a result verification unit that verifies the recognition result by giving the character string to the Internet connection unit, and records a program for verifying whether the character recognition result is correct. Also,
According to a fourteenth aspect of the present invention, in the recording medium according to the thirteenth aspect, when the result verification unit recognizes the character string as a URL that does not exist, the result verification unit includes a result correction unit that corrects the character string. The result verification unit is characterized by recording a program for performing verification again with the character string corrected by the result correction unit.

【0006】[0006]

【発明の実施の形態】以下に、図面を用いて本発明の実
施例の構成および動作を詳細に述べる。 <実施例> (1)構成 図1は、本発明の一実施例である文字認識装置の構成を
あらわすブロック図である。実施例の文字認識装置は、
画像入力部10、文字認識部20、結果検証部30、イ
ンターネット接続部40、結果修正部50、表示部6
0、画像メモリ70、認識結果メモリ80、ネットワー
ク90とから構成されている。ユーザーは、スキャナや
CCDカメラ等で文書を読み取らせた文書画像またはテ
レビ画面やファイルの画像を取り込む。画像入力部10
は、その画像の中から認識する文字画像を取り込む。ユ
ーザーがマウス等によって認識すべき領域を指示した
り、または、領域識別等の技術を使って文字画像領域を
特定し、その画像データは画像メモリ70へ格納する。
文字認識部20は、画像メモリ70の画像データを個々
の文字画像に切り出し、大きさを正規化し、この正規化
された文字画像の特徴量を抽出し、この特徴量を標準パ
ターンを保持する認識辞書と比較し、認識の確からしさ
の値(以下、確信度という)の大きい順に一定個数(例
えば、10個)の候補文字を求め、候補文字とその確信
度とを認識結果メモリ80へ格納する。結果検証部30
は、認識対象となった文書画像がURLを表す文字列で
あるかどうかを判断する。この判断は、予め、文字認識
する前にURLに当たる文字列であることをディスプレ
イ等に表示させたときにマウス等のポインティングデバ
イスを用いて指示してもよい。または、「http」等のト
リガーとなる文字を画像の段階で検出してもよいし、認
識結果から検出してもよい。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The construction and operation of an embodiment of the present invention will be described below in detail with reference to the drawings. Embodiment (1) Configuration FIG. 1 is a block diagram showing a configuration of a character recognition device according to an embodiment of the present invention. The character recognition device of the embodiment is
Image input unit 10, character recognition unit 20, result verification unit 30, Internet connection unit 40, result correction unit 50, display unit 6
0, an image memory 70, a recognition result memory 80, and a network 90. The user captures a document image obtained by reading a document with a scanner or a CCD camera, or an image of a television screen or a file. Image input unit 10
Captures a character image to be recognized from the image. The user designates an area to be recognized with a mouse or the like, or specifies a character image area using a technique such as area identification, and stores the image data in the image memory 70.
The character recognition unit 20 cuts out the image data in the image memory 70 into individual character images, normalizes the size, extracts the feature amount of the normalized character image, and recognizes the feature amount as a standard pattern. Compared with the dictionary, a certain number (for example, 10) of candidate characters are obtained in ascending order of the value of the probability of recognition (hereinafter referred to as the certainty factor), and the candidate characters and their certainty factors are stored in the recognition result memory 80. . Result verification unit 30
Determines whether the document image to be recognized is a character string representing a URL. This determination may be made in advance using a pointing device such as a mouse when a character string corresponding to a URL is displayed on a display or the like before character recognition. Alternatively, a trigger character such as “http” may be detected at the stage of an image, or may be detected from a recognition result.

【0007】URLを表す文字列を検出したとき、この
文字列をインターネット接続部40へ渡すことによっ
て、URL文字列に相当するアドレスにインターネット
90を介して接続する。この結果、インターネット接続
部40から正常に接続されたことが分かれば、この認識
結果のURL文字列は正しく認識されたとして、この文
字列で認識結果メモリ80を更新する。しかし、正常に
接続されなかったことが分かれば、この認識結果のUR
L文字列を修正するために、このURL文字列を結果修
正部50へ渡し、修正されたURL文字列をもう一度イ
ンターネット接続部40へ渡して、再度検証する。これ
を正しくなるまで繰り返すか、または、所定回数繰り返
しても正しく修正されないときには、ユーザーに修正さ
せる。インターネット接続部40は、インターネット接
続用のソフトウェアとWWWブラウザーとからなり、イ
ンターネットへ接続し、WWWサーバーにあるホームペ
ージの閲覧に関する処理を行う。結果検証部30からU
RLを渡されると、このURLを持つWWWサーバーに
アクセスする。この時、URL文字列が正しいアドレス
であれば、相手先のWWWサーバーからHTML文書が送ら
れてくる。しかし、正しいアドレスでなければ、「Not
Found」のようなエラーコードが返ってくる。この結
果、即ち、正常に与えられたURLのWWWサーバーに
接続できたか否かを結果検証部40へ戻す。
When a character string representing a URL is detected, the character string is passed to the Internet connection unit 40 to connect to an address corresponding to the URL character string via the Internet 90. As a result, if it is found that the connection is normally made from the Internet connection unit 40, it is determined that the URL character string of the recognition result is correctly recognized, and the recognition result memory 80 is updated with this character string. However, if it is found that the connection has not been made normally, the UR of this recognition result
In order to correct the L character string, the URL character string is passed to the result correction unit 50, and the corrected URL character string is passed again to the Internet connection unit 40 and verified again. This is repeated until it is correct, or if the correction is not correct even after repeating the predetermined number of times, the user is made to correct it. The Internet connection unit 40 includes software for Internet connection and a WWW browser, connects to the Internet, and performs processing related to browsing homepages on a WWW server. U from the result verification unit 30
When the RL is passed, it accesses the WWW server having the URL. At this time, if the URL character string is a correct address, an HTML document is sent from the destination WWW server. However, if the address is not correct, "Not
An error code like "Found" is returned. The result, that is, whether the connection to the WWW server of the given URL has been normally made is returned to the result verification unit 40.

【0008】例えば、図2に示したように、入力画像
「http://www.ricoh.co.jp」に対して、「http://www.r
ic0h.co.jp」という認識結果が得られたとする。また、
この「ric0h」というドメイン名がないとすれば、この
ままインターネット接続しても、このアドレスは存在し
ないため、エラーコードが返ってくることになる。結果
修正部50は、結果検証部30から渡された認識結果の
URL文字列を修正して戻す。これは、渡された認識結
果のURL文字列の中で確信度の低い文字に対して修正
するようにする。例えば、図2を参照すると、入力画像
「http://www.ricoh.co.jp」に対して、認識結果のUR
L文字列「http://www.ric0h.co.jp」の確信度は、
「0」以外の文字の確信度は99であり、「0」のみ50の確
信度を持っている。このような場合、確信度が一番低い
「0」のところに注目して、以下に示す修正を行う。こ
れらの修正は、いずれか一つであっても、それらを順次
実行してもかまわない。 (a)修正対象文字の2位以下の候補文字と置き換える。
上の例の場合、「0」の2位以降の候補文字を使って再
びURLを構成する。例えば、2位の候補であるO(大
文字のオー)、それでだめなら3位の候補であるo(小
文字のオー)、……という具合に置き換えて修正する。 (b)誤認識しやすい文字に対して、その元になる文字を
予め候補文字ラティスとしてテーブル等に保持し、その
いずれかの文字が認識結果に現れたときには、この候補
文字ラティスから修正対象文字と置き換える(図3参
照)。o(小文字のオー)、0(ゼロ)、O(大文字のオー)
や1(イチ)、l(エル)等といった文字は、誤認識しやすい
文字については、候補文字ラティスとして予めテーブル
等に保持し、その中の文字が修正対象となったときに
は、この候補文字ラティスにある候補文字を順次置き換
える。 (c)文字切り出しの誤りが発生しやすい文字パターンを
登録しておき、これらの文字が現れたときには、登録さ
れた別の文字パターンに置き換える(図5参照)。
For example, as shown in FIG. 2, for an input image “http://www.ricoh.co.jp”, “http: //www.r
Suppose that the recognition result of "ic0h.co.jp" was obtained. Also,
Assuming that there is no domain name "ric0h", even if you connect to the Internet as it is, this address does not exist and an error code will be returned. The result correction unit 50 corrects and returns the URL character string of the recognition result passed from the result verification unit 30. This corrects a character with a low degree of certainty in the URL character string of the passed recognition result. For example, referring to FIG. 2, the UR of the recognition result is input to the input image
The confidence of the L string "http://www.ric0h.co.jp"
Characters other than “0” have a certainty of 99, and only “0” has a certainty of 50. In such a case, the following correction is performed while paying attention to the point “0” having the lowest certainty factor. Any one of these modifications may be performed sequentially. (a) Replace with the second or lower candidate character of the correction target character.
In the case of the above example, the URL is formed again using the second and subsequent candidate characters of “0”. For example, the second candidate is replaced with O (capital letter O), and if that is not the case, the third candidate is replaced with o (lowercase letter O), and so on. (b) For a character that is likely to be erroneously recognized, the original character is stored in advance as a candidate character lattice in a table or the like, and when any of the characters appears in the recognition result, the correction target character (See FIG. 3). o (lowercase o), 0 (zero), O (uppercase o)
Characters such as, 1 (Ichi), l (L), etc. are stored in a table or the like as candidate character lattices in advance for characters that are easily misrecognized, and when the characters in them are to be Are sequentially replaced. (c) Register a character pattern in which an error in character segmentation is likely to occur, and when these characters appear, replace them with another registered character pattern (see FIG. 5).

【0009】例えば、図4を参照すると、入力画像「ht
tp://www.ricoh.co.jp」に対して、認識結果「http://w
ww.ncoh.co.jp」となっている。これは入力画像の文字
切り出しのとき「ri」を誤って1文字とみてしまったた
めに起きている。このような場合には、図5のような切
り出しミスを犯しやすい文字に対して切り出し候補ラテ
ィスを予めテーブル等に保持しておく。この場合にも
「n」の認識時の確信度は低いはずであるから、切り出
し候補ラティスを参照して「n」に対する候補文字を順
次取り出して置き換える。この場合、「n」は「ri」と
いうパターンに置き換えて、「http://www.ricoh.co.j
p」という修正されたUTL文字列を生成する。 (d)URLは、プロトコル(Protocol)と、アドレスを
表すドメイン名と、パス(Path)、またはファイル名と
からなっている。これらの文字は概ね英文字、数字およ
び記号の一部で構成されている。従って、修正対象文字
を、このURLを構成し得るいずれかの文字で置き換え
る。上記のような置き換えは、文字認識結果の修正を行
なう確信度について、予めしきい値を設けるなどして組
み合わせの増加を抑えることもできる。表示部60は、
スキャナ等で入力された画像をディスプレイ等の表示装
置へ表示させたり、この表示させた画像の中から認識対
象の文字画像をユーザーに選定してもらうときに使った
り、文字認識結果を元の画像と対比させて表示させたり
する。画像メモリ70は、入力した画像を格納する記憶
手段(例えば、メモリまたは磁気ディスクのような記憶
装置)である。この画像は、文字認識部20の認識対象
の画像であり、また、認識結果と対比されて表示され、
その認識結果を修正する時等に使われる。認識結果メモ
リ80は、認識対象となったすべての文字画像に対し
て、確信度の高い候補文字から所定の個数(例えば、1
0個)について、少なくとも文字コードと確信度を格納
している。ネットワーク90は、本発明の文字認識装置
とWWW(World Wide Web)サーバーとを結合するため
の伝送路であって、一般には、ケーブルで実現され、通
信プロトコルにはTCP/IPが使われる。但し、伝送
路としてはケーブルだけではなく、それらの間の通信プ
ロトコルが一致するものであれば無線LAN等を使った
ものであってもよい。
For example, referring to FIG. 4, an input image "ht
tp: //www.ricoh.co.jp ”and the recognition result“ http: // w
ww.ncoh.co.jp ". This occurs because “ri” was mistakenly regarded as one character when extracting characters from the input image. In such a case, a cutout candidate lattice is stored in a table or the like in advance for a character that is likely to make a cutout error as shown in FIG. In this case, too, the certainty at the time of recognizing “n” should be low, so candidate characters for “n” are sequentially extracted and replaced with reference to the extraction candidate lattice. In this case, replace "n" with the pattern "ri" and use "http: //www.ricoh.co.j
Generate a modified UTL string "p". (d) The URL includes a protocol, a domain name representing an address, a path, or a file name. These characters generally consist of letters, numbers and symbols. Therefore, the character to be corrected is replaced with any character that can constitute this URL. In the replacement as described above, an increase in the number of combinations can be suppressed by setting a threshold value in advance for the certainty factor for correcting the character recognition result. The display unit 60
An image input by a scanner or the like is displayed on a display device such as a display, or used when a user selects a character image to be recognized from among the displayed images. And display it. The image memory 70 is a storage unit (for example, a storage device such as a memory or a magnetic disk) that stores an input image. This image is an image to be recognized by the character recognition unit 20 and is displayed in comparison with the recognition result.
It is used when correcting the recognition result. The recognition result memory 80 stores a predetermined number (for example, 1) of candidate characters having a high degree of certainty for all the character images to be recognized.
0), at least the character code and the certainty factor are stored. The network 90 is a transmission path for connecting the character recognition device of the present invention and a WWW (World Wide Web) server, and is generally realized by a cable, and uses TCP / IP as a communication protocol. However, the transmission path is not limited to the cable, and may use a wireless LAN or the like as long as the communication protocol between them is the same.

【0010】このような構成において、実施例の文字認
識装置は次のように動作する。ユーザーは文字認識した
い文書をスキャナやCCDカメラから入力するか、また
はファイルから画像を入力する。画像入力部10は、こ
の入力された画像を表示させて文字認識したい領域の画
像を画像メモリ70へ格納する。次に、文字認識手段2
0は、画像メモリ70の画像データを個々の文字画像に
切り出し、大きさを正規化し、この正規化された文字画
像の特徴量を抽出し、この特徴量と認識辞書と比較を行
なって、認識の確からしさ(確信度)が大きい順に一定
個数の候補文字を求め、それらの候補文字と確信度を認
識結果データとして認識結果メモリ80に格納する。次
に、結果検証部30が呼び出される。結果検証部30
は、認識対象となった文書画像にURLを表す文字列を
検出したとき、この文字列をインターネット接続部40
へ渡すことによって、URL文字列に相当するアドレス
にインターネット90を介して接続する。インターネッ
ト接続部40は、結果検証部30からURLを渡される
と、このURLを持つWWWサーバーにアクセスして、
相手先のWWWサーバーからHTML文書またはエラーコー
ドが送られてくるかを監視し、正常に接続できたか否か
を結果検証部40へ戻す。この結果を結果検証部40が
受け取って、正常に接続されたことが分かれば、この認
識結果のURL文字列は正しく認識されたとして、認識
結果メモリ80を更新して、検証を終了する。しかし、
正常に接続されなかった場合には、この認識結果のUR
L文字列を修正するために、このURL文字列を結果修
正部50へ渡し、修正されたURL文字列をもう一度イ
ンターネット接続部40へ渡して、再度検証する。これ
を正しくなるまで繰り返すか、または、所定回数繰り返
しても正しく修正されないときには、ユーザーに修正さ
せる。結果修正部50は、結果検証部30から渡された
認識結果のURL文字列を修正して戻す。これは、渡さ
れた認識結果のURL文字列の中で確信度の低い文字に
対して、以下のような修正を順次行う。(a)修正対象文
字の2位以下の候補文字と置き換える。(b)誤認識しや
すい文字に対して、その元になる文字を予め候補文字ラ
ティスとしてテーブル等に保持し、そのいずれかの文字
が認識結果に現れたときには、この候補文字ラティスか
ら修正対象文字と置き換える。(c)文字切り出しの誤り
が発生しやすい文字パターンを登録しておき、これらの
文字が現れたときには、登録された別の文字パターンに
置き換える。(d)修正対象文字を、URLを構成し得る
いずれかの文字で置き換える。最後に表示部60は、こ
のように検証の終わった認識結果を認識結果メモリ80
から取り出して、入力された画像と対比してディスプレ
イ等の表示装置へ表示させる。
In such a configuration, the character recognition device of the embodiment operates as follows. The user inputs a document to be recognized by a scanner or a CCD camera, or inputs an image from a file. The image input unit 10 displays the input image and stores an image of an area where character recognition is desired in the image memory 70. Next, character recognition means 2
0 indicates that the image data in the image memory 70 is cut out into individual character images, the size is normalized, the feature amount of the normalized character image is extracted, and the feature amount is compared with the recognition dictionary to perform recognition. A certain number of candidate characters are obtained in the order of increasing likelihood (certainty) of the candidate characters, and the candidate characters and the certainty are stored in the recognition result memory 80 as recognition result data. Next, the result verification unit 30 is called. Result verification unit 30
When a character string representing a URL is detected in a document image to be recognized, the character string is
To connect to the address corresponding to the URL character string via the Internet 90. Upon receiving the URL from the result verification unit 30, the Internet connection unit 40 accesses the WWW server having the URL, and
It monitors whether an HTML document or an error code is sent from the destination WWW server, and returns to the result verification unit 40 whether or not the connection was normally established. This result is received by the result verification unit 40, and if it is determined that the connection has been made normally, it is determined that the URL character string of the recognition result has been correctly recognized, the recognition result memory 80 is updated, and the verification ends. But,
If the connection is not successful, the UR of this recognition result
In order to correct the L character string, the URL character string is passed to the result correction unit 50, and the corrected URL character string is passed again to the Internet connection unit 40 and verified again. This is repeated until it is correct, or if the correction is not correct even after repeating the predetermined number of times, the user is made to correct it. The result correction unit 50 corrects and returns the URL character string of the recognition result passed from the result verification unit 30. In this case, the following correction is sequentially performed on characters having a low degree of certainty in the URL character string of the passed recognition result. (a) Replace with the second or lower candidate character of the correction target character. (b) For a character that is likely to be erroneously recognized, the original character is stored in advance as a candidate character lattice in a table or the like, and when any of the characters appears in the recognition result, the character to be corrected is extracted from the candidate character lattice. Replace with (c) A character pattern in which an error in character segmentation is likely to be registered is registered, and when these characters appear, the character pattern is replaced with another registered character pattern. (d) The character to be corrected is replaced with any character that can constitute a URL. Finally, the display unit 60 stores the recognition result thus verified in the recognition result memory 80.
And displays it on a display device such as a display in comparison with the input image.

【0011】上記のような構成にすることにより、文書
画像にURL文字列があったとき、その認識を正確に且
つユーザーの労力を少なく行なえる。また、不確かな状
態のまま、実際に相手先に接続するという行為も、電話
や電子メールでは間違い相手にとって迷惑であるが、W
WWサービスに関してはネットワークトラフィックの増
加はあるものの、直接的な迷惑をかけずに検証ができ
る。
With the above-described structure, when a URL character string is present in a document image, the recognition of the URL character string can be performed accurately and the user's labor can be reduced. Also, the act of actually connecting to the other party in an uncertain state is annoying to the wrong party by telephone or e-mail.
Regarding the WW service, although there is an increase in network traffic, verification can be performed without direct trouble.

【0012】(2)処理の流れ図6は、本実施例の文字
認識装置の処理の流れを説明するためのフローチャート
である。ユーザーは文字認識したい文書をスキャナやC
CDカメラから入力するか、またはファイルから画像を
入力する。この入力された画像を表示させて文字認識し
たい領域の画像を画像メモリへ70へ格納する(ステッ
プS100)。画像メモリ70の画像データを個々の文
字画像に切り出し、大きさを正規化し、この正規化され
た文字画像の特徴量を抽出し、この特徴量と認識辞書と
比較を行なって、認識の確からしさ(確信度)が大きい
順に一定個数の候補文字を求め、それらの候補文字と確
信度を認識結果データとして認識結果メモリ80に格納
する(ステップS110)。認識対象となった文書画像
にURLを表す文字列を検出し、この文字列をインター
ネット90を介して相手のWWWサーバーを呼び出す。
アクセスして、相手先のWWWサーバーからHTML文
書またはエラーコードが送られてくるかを監視する(ス
テップS120)。WWWサーバーから応答が返ってき
たとき、正常に接続されたかどうかを判断し(ステップ
S130)、正常に接続されたときには、認識結果メモ
リ80を更新して、この検証は終了し、ステップS15
0へ進む。しかし、正常に接続されなかった場合には、
この認識結果のURL文字列を修正するためにステップ
S140へ進む。ステップS140では、認識結果のU
RL文字列を修正して戻す。これは、渡された認識結果
のURL文字列の中で確信度の低い文字に対して、以下
のような修正を順次行って、ステップS120へ戻っ
て、修正されたURL文字列をもう一度インターネット
を介して再度検証する。 (a)修正対象文字の2位以下の候補文字と置き換える。 (b)誤認識しやすい文字に対して、予めテーブルとして
保持する候補文字ラティスに登録されたいずれかの文字
が認識結果に現れたとき、この候補文字ラティスの候補
文字と置き換える。 (c)文字切り出しの誤りが発生しやすい文字パターンを
登録しておき、これらの文字が現れたときには、登録さ
れた別の文字パターンに置き換える。 (d)修正対象文字を、URLを構成し得るいずれかの文
字で置き換える。最後に、ステップS150では、この
ように検証の終わった認識結果を認識結果メモリ80か
ら取り出して、入力された画像と対比してディスプレイ
等の表示装置へ表示させる。
(2) Processing Flow FIG. 6 is a flowchart for explaining the processing flow of the character recognition device of this embodiment. The user scans a document to be recognized by a scanner or C
Input from a CD camera or input an image from a file. The input image is displayed, and the image of the area where character recognition is desired is stored in the image memory 70 (step S100). The image data in the image memory 70 is cut out into individual character images, the size is normalized, the feature amount of the normalized character image is extracted, and the feature amount is compared with a recognition dictionary to confirm the recognition accuracy. A certain number of candidate characters are obtained in descending order of (certainty), and the candidate characters and the certainty are stored in the recognition result memory 80 as recognition result data (step S110). A character string representing a URL is detected in the document image to be recognized, and this character string is called to the partner WWW server via the Internet 90.
It accesses and monitors whether an HTML document or an error code is sent from the destination WWW server (step S120). When a response is returned from the WWW server, it is determined whether or not the connection has been made normally (step S130). When the connection has been made normally, the recognition result memory 80 is updated, and this verification ends, and step S15 is performed.
Go to 0. However, if the connection is not successful,
The process proceeds to step S140 to correct the URL character string of the recognition result. In step S140, the recognition result U
Modify the RL string and return. This is because the following corrections are sequentially performed on characters having a low degree of certainty in the URL character string of the passed recognition result, and the process returns to step S120, where the corrected URL character string is again transmitted to the Internet. To verify again. (a) Replace with the second or lower candidate character of the correction target character. (b) When any of the characters registered in the candidate character lattice previously stored as a table with respect to the character that is likely to be erroneously recognized appears in the recognition result, the character is replaced with the candidate character of the candidate character lattice. (c) A character pattern in which an error in character segmentation is likely to be registered is registered, and when these characters appear, the character pattern is replaced with another registered character pattern. (d) The character to be corrected is replaced with any character that can constitute a URL. Finally, in step S150, the recognition result that has been verified in this way is retrieved from the recognition result memory 80, and displayed on a display device such as a display in comparison with the input image.

【0013】<コンピュータによる実施例>さらに、本
発明は上記の実施の形態のみに限定されたものではな
い。例えば、図1の文字認識装置は、図7に示したよう
なコンピュータ装置の構成によっても実現が可能であ
る。図7のコンピュータ装置は、入力装置1、出力装置
2、CPU(Central Processing Unit;中央処理装
置)3、メモリ4、記憶装置5、媒体駆動装置6、ネッ
トワーク接続装置7を備え、それらはバス8により互い
に接続されている。入力装置1は、キーボード、マウ
ス、タッチパネル、スキャナ等により構成され、テキス
トや画像の情報を入力するのに使用される。出力装置2
は、種々の出力情報や入力装置1からの入力された情報
などを出力させるものであって、ディスプレイ装置やプ
リンタ装置である。CPU3は、種々のプログラムを動
作させる。メモリ4は、画像メモリ70、認識結果メモ
リ80やプログラム自身を保持し、またそのプログラム
がCPU3によって実行されるときに一時的に作成され
る情報等を保持する。記憶装置5は、プログラムやプロ
グラム実行時の一時的な情報等を保持する。本発明の文
字認識装置で扱う画像メモリ70、認識結果メモリ80
をこの記憶装置5に格納し、プログラム実行時にメモリ
4へ取り出すようにしてもよい。媒体駆動装置6は、プ
ログラムやデータ等を記憶した記録媒体を装着してそれ
らを読み込み、メモリ4または記憶装置5へ格納するの
に用いられる。また、直接データの入出力やプログラム
実行するのに使ってもよい。尚、記録媒体としては半導
体媒体(例えば、ROM、ICメモリカード等)、光媒
体(例えば、DVD、MO、MD、CD−R等)、磁気
媒体(例えば、磁気テープ、フレキシブルディスク等)
のいずれであってもよい。ネットワーク接続装置7は、
コンピュータ装置をネットワーク90を介してWWWサ
ーバーへ接続させる。
<Example by Computer> Further, the present invention is not limited to only the above-described embodiment. For example, the character recognition device of FIG. 1 can be realized by the configuration of a computer device as shown in FIG. 7 includes an input device 1, an output device 2, a CPU (Central Processing Unit) 3, a memory 4, a storage device 5, a medium drive device 6, and a network connection device 7. Are connected to each other. The input device 1 includes a keyboard, a mouse, a touch panel, a scanner, and the like, and is used to input text and image information. Output device 2
Is a device for outputting various output information, information input from the input device 1, and the like, and is a display device or a printer device. The CPU 3 operates various programs. The memory 4 holds the image memory 70, the recognition result memory 80, and the program itself, and also holds information temporarily created when the program is executed by the CPU 3. The storage device 5 stores a program, temporary information at the time of executing the program, and the like. Image memory 70 and recognition result memory 80 handled by the character recognition device of the present invention
May be stored in the storage device 5 and taken out to the memory 4 when the program is executed. The medium drive device 6 is used to mount a recording medium storing programs, data, and the like, read them, and store them in the memory 4 or the storage device 5. Further, it may be used for directly inputting / outputting data or executing a program. As a recording medium, a semiconductor medium (for example, ROM, IC memory card, etc.), an optical medium (for example, DVD, MO, MD, CD-R, etc.), a magnetic medium (for example, magnetic tape, flexible disk, etc.)
Any of these may be used. The network connection device 7
The computer device is connected to the WWW server via the network 90.

【0014】図1に示した文字認識装置を構成する各機
能をそれぞれプログラム化し、予めCD−ROM等の記
録媒体に書き込んでおき、このCD−ROMをCD−R
OMドライブのような媒体駆動装置6を搭載したコンピ
ュータに装着して、これらのプログラムをそれぞれのコ
ンピュータ装置のメモリ4あるいは記憶装置5に格納
し、それを実行することによって、上述した実施の形態
と同様な機能を実現することができる。また、ロードし
たプログラムを実行することにより前述した実施の形態
の機能が実現されるだけでなく、そのプログラムの指示
に基づき、オペレーティングシステム等が実際の処理の
一部または全部を行い、その処理によって上述した実施
の形態の機能が実現される場合も含まれる。また、上述
した実施の形態を実現するプログラムがROM等のよう
な半導体の記録媒体である場合には、媒体駆動装置6か
らではなく、直接、メモリ4へロードして実行される。
さらに、上述した実施の形態の機能を実現するプログラ
ムが、機能拡張ボードや機能拡張ユニットに備わるメモ
リにロードされ、そのプログラムの指示に基づき、その
機能拡張ボードや機能拡張ユニットに備わるCPUなど
が実際の処理の一部または全部を行い、その処理によっ
て、上述した実施の形態の機能が実現される場合も含ま
れる。
Each function constituting the character recognition apparatus shown in FIG. 1 is programmed and written in advance on a recording medium such as a CD-ROM.
By installing these programs in a computer equipped with a medium drive device 6 such as an OM drive, and storing these programs in the memory 4 or the storage device 5 of each computer device, and executing them, A similar function can be realized. Further, not only the functions of the above-described embodiments are realized by executing the loaded program, but also the operating system or the like performs part or all of the actual processing based on the instructions of the program, and the processing performs The case where the functions of the above-described embodiments are realized is also included. Further, when the program for realizing the above-described embodiment is a semiconductor recording medium such as a ROM, the program is directly loaded into the memory 4 and executed not from the medium driving device 6.
Further, a program for realizing the functions of the above-described embodiment is loaded into the memory provided on the function expansion board or the function expansion unit, and the CPU or the like provided on the function expansion board or the function expansion unit is actually executed based on the instructions of the program. And a part of the entire process is performed, and the function of the above-described embodiment is realized by the process.

【0015】<本発明のネットワーク環境での運用>図
8は、本発明をネットワーク接続して運用する形態の構
成を示している。図7で示したようなコンピュータ装置
からなるユーザーの端末110とサーバー120とをネ
ットワーク90を介して接続し、ユーザーの端末110
は、文字認識プログラムを保持するサーバー120から
その文字認識プログラムを受信して、画像を入力し、受
信した文字認識プログラムを端末110で実行させ、そ
の実行結果を出力するようにする。このようにすること
で、文字認識プログラムが常に最新のものを使え、認識
辞書はユーザー固有のものとすることができるという利
点がある。また、図8のようなサーバー120と端末1
10とをネットワーク90で接続し、サーバー120の
磁気ディスク等の記憶装置に本発明の機能を実現する文
字認識プログラムを格納しておき、ダウンロード等の形
式で頒布することも可能である。さらに、本発明の機能
を実現するプログラムを放送波によって配布することで
提供するようにしてもよい。
<Operation in Network Environment of the Present Invention> FIG. 8 shows a configuration of a mode in which the present invention is connected to a network and operated. A user terminal 110 composed of a computer device as shown in FIG.
Receives the character recognition program from the server 120 holding the character recognition program, inputs an image, causes the terminal 110 to execute the received character recognition program, and outputs the execution result. This has the advantage that the latest character recognition program can always be used, and the recognition dictionary can be unique to the user. The server 120 and the terminal 1 as shown in FIG.
10 can be connected via a network 90, and a character recognition program for realizing the functions of the present invention can be stored in a storage device such as a magnetic disk of the server 120 and distributed in a form such as download. Further, the program for realizing the functions of the present invention may be provided by distributing it by broadcast waves.

【0016】[0016]

【発明の効果】以上説明したように、本発明によれば、
文書画像にURL文字列があったとき、その認識を正確
に且つユーザーの労力を少なく行なえる。
As described above, according to the present invention,
When there is a URL character string in a document image, the recognition can be performed accurately and with less user effort.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例である文字認識装置の構成を
示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a character recognition device according to an embodiment of the present invention.

【図2】誤認識したときの画像と認識結果を説明するた
めの図である。
FIG. 2 is a diagram for explaining an image and a recognition result when erroneous recognition is performed.

【図3】誤認識しやすい文字に関する候補文字ラティス
の図である。
FIG. 3 is a diagram of a candidate character lattice relating to characters that are easily misrecognized.

【図4】切り出しミスのときの画像と認識結果を説明す
るための図である。
FIG. 4 is a diagram for explaining an image and a recognition result when a cutout error occurs.

【図5】切り出しミスのときの候補ラティスを説明する
ための図である。
FIG. 5 is a diagram for explaining a candidate lattice in the case of a cutout error.

【図6】実施例の処理を説明するためのフローチャート
である。
FIG. 6 is a flowchart illustrating a process according to the embodiment;

【図7】本発明の画像処理装置をコンピュータで実現す
るときのハードウェアの構成を示す図である。
FIG. 7 is a diagram illustrating a hardware configuration when the image processing apparatus of the present invention is implemented by a computer.

【図8】本発明をネットワークで運用する形態の構成を
示す図である。
FIG. 8 is a diagram showing a configuration of a mode in which the present invention is operated in a network.

【符号の説明】[Explanation of symbols]

1 入力装置 2 出力装置 3 CPU 4 メモリ 5 記憶装置 6 媒体駆動装置 7 ネットワーク接続装置 8 バス10 画像入力部 20 文字認識部 30 結果検証部 40 インターネット接続部 50 結果修正部 60 表示部 70 画像メモリ 80 認識結果メモリ 90 インターネット 110 端末 120 サーバー Reference Signs List 1 input device 2 output device 3 CPU 4 memory 5 storage device 6 medium drive device 7 network connection device 8 bus 10 image input portion 20 character recognition portion 30 result verification portion 40 internet connection portion 50 result correction portion 60 display portion 70 image memory 80 Recognition result memory 90 Internet 110 Terminal 120 Server

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 インターネットに接続された文字認識装
置において、 入力された文字画像を文字認識する文字認識部と、 前記インターネットを経由してURLで示される接続先
へ接続し、その結果を得るインターネット接続部と、 前記文字認識部で認識された文字列がURLのとき、前
記インターネット接続部へこの文字列を与えて、認識結
果を検証する結果検証部とを備え、 文字認識された結果が正しいかどうかを検証することを
特徴とする文字認識装置。
1. A character recognition device connected to the Internet, a character recognition unit for character recognition of an input character image, and an Internet connected to a connection destination indicated by a URL via the Internet to obtain a result. A connection unit, and a result verification unit that, when the character string recognized by the character recognition unit is a URL, gives the character string to the Internet connection unit and verifies the recognition result, and the character recognition result is correct. A character recognition device for verifying whether or not a character is recognized.
【請求項2】 請求項1に記載の文字認識装置におい
て、 前記結果検証部で認識結果の前記文字列が存在しないU
RLである場合、その文字列を修正する結果修正部を備
え、 前記結果検証部は、前記結果修正部で修正された文字列
で再度検証することを特徴とする文字認識装置。
2. The character recognition device according to claim 1, wherein the character string of the recognition result in the result verification unit does not exist.
A character recognition device comprising: a result correction unit that corrects a character string in the case of RL, wherein the result verification unit performs verification again with the character string corrected by the result correction unit.
【請求項3】 請求項2に記載の文字認識装置におい
て、 前記文字認識部は、認識結果として候補文字とその確か
らしさとを求め、 前記結果修正部は、認識結果の前記文字列の候補文字の
うち確からしさの低い文字から修正するようにしたこと
を特徴とする文字認識装置。
3. The character recognition device according to claim 2, wherein the character recognition unit obtains a candidate character and its certainty as a recognition result, and wherein the result correction unit obtains a candidate character of the character string of the recognition result. A character recognition device characterized by correcting characters having low probability among the characters.
【請求項4】 請求項3に記載された文字認識装置にお
いて、 前記結果修正部は、認識結果の前記文字列の候補文字の
うち確からしさの低い文字を他の候補文字と置き換える
ことを特徴とする文字認識装置。
4. The character recognition device according to claim 3, wherein the result correction unit replaces a character with low probability among candidate characters of the character string of the recognition result with another candidate character. Character recognition device.
【請求項5】 請求項3または請求項4に記載の文字認
識装置において、 前記結果修正部は、認識結果の前記文字列の候補文字の
うち確からしさの低い文字を候補文字以外の文字で置き
換えることを特徴とする文字認識装置。
5. The character recognition device according to claim 3, wherein the result correction unit replaces a character with low probability among candidate characters of the character string of the recognition result with a character other than the candidate character. A character recognition device characterized in that:
【請求項6】 請求項5に記載の文字認識装置におい
て、 認識結果の文字と誤って認識されやすい文字の候補とを
対応させて保持する候補ラティスを備え、 前記結果修正部は、認識結果の前記文字列の候補文字の
うち確からしさの低い文字が前記候補ラティスに登録さ
れた文字の場合、その文字を前記候補ラティスから選択
して置き換え、誤認識しやすい文字を修正するようにし
たことを特徴とする文字認識装置。
6. The character recognition device according to claim 5, further comprising: a candidate lattice that holds a character of a recognition result and a character candidate that is likely to be erroneously recognized in association with each other; In the case where a character with low probability among the candidate characters of the character string is a character registered in the candidate lattice, the character is selected from the candidate lattice and replaced, and a character that is easily misrecognized is corrected. Character recognition device.
【請求項7】 入力された文字画像に対して文字認識す
る文字認識方法において、 入力された文字画像を文字認識し、その認識された文字
列がURLのとき、インターネットを経由してその文字
列で示される接続先へ接続し、その結果によって、認識
結果が正しいかどうかを検証することを特徴とする文字
認識方法。
7. A character recognition method for recognizing a character from an input character image, comprising the steps of: (a) recognizing a character of an input character image; A character recognition method comprising: connecting to a connection destination indicated by, and verifying whether or not the recognition result is correct based on the result.
【請求項8】 請求項7に記載の文字認識方法におい
て、 前記文字列が存在しないURLの場合、その文字列を修
正して再度検証するようにしたことを特徴とする文字認
識方法。
8. The character recognition method according to claim 7, wherein in the case of a URL where the character string does not exist, the character string is corrected and verified again.
【請求項9】 請求項8に記載の文字認識方法におい
て、 文字認識した認識結果として候補文字とその確からしさ
とを求め、 前記文字列が存在しないURLの場合、認識結果の前記
文字列の候補文字のうち確からしさの低いものから修正
するようにしたことを特徴とする文字認識方法。
9. The character recognition method according to claim 8, wherein a candidate character and its certainty are obtained as a recognition result of the character recognition, and in the case of a URL where the character string does not exist, a candidate for the character string of the recognition result is obtained. A character recognition method characterized by correcting characters having low certainty among characters.
【請求項10】 請求項9に記載された文字認識方法に
おいて、 認識結果の前記文字列の候補文字のうち確からしさの低
い文字を他の候補文字と置き換えることを特徴とする文
字認識方法。
10. The character recognition method according to claim 9, wherein among the candidate characters of the character string of the recognition result, a character with low probability is replaced with another candidate character.
【請求項11】 請求項9または請求項10に記載の文
字認識方法において、 認識結果の前記文字列の候補文字のうち確からしさの低
い文字を候補文字以外の文字で置き換えることを特徴と
する文字認識方法。
11. The character recognition method according to claim 9, wherein a character with low probability among candidate characters of the character string of the recognition result is replaced with a character other than the candidate character. Recognition method.
【請求項12】 請求項11に記載の文字認識方法にお
いて、 認識結果の文字と誤って認識されやすい文字の候補とを
対応させて保持する候補ラティスを備え、 認識結果の前記文字列の候補文字のうち確からしさの低
い文字が前記候補ラティスに登録された文字の場合、そ
の文字を前記候補ラティスから選択して置き換え、誤認
識しやすい文字を修正するようにしたことを特徴とする
文字認識方法。
12. The character recognition method according to claim 11, further comprising a candidate lattice for holding a character of a recognition result and a character candidate that is likely to be erroneously recognized in association with each other, wherein the candidate character of the character string of the recognition result is provided. A character having a low likelihood is a character registered in the candidate lattice, the character is selected from the candidate lattice and replaced, and a character which is easily misrecognized is corrected. .
【請求項13】 インターネットに接続されたコンピュ
ータから入力された文字画像に対して文字認識する文字
認識装置として機能させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体であって、 入力された文字画像を文字認識する文字認識部と、 前記インターネットを経由してURLで示される接続先
へ接続し、その結果を得るインターネット接続部と、 前記文字認識部で認識された文字列がURLのとき、前
記インターネット接続部へこの文字列を与えて、認識結
果を検証する結果検証部とを備え、 文字認識された結果が正しいかどうかを検証するプログ
ラムを記録したことを特徴とするコンピュータ読み取り
可能な記録媒体。
13. A computer-readable recording medium recording a program for causing a character recognition device to function as a character recognition device for character images input from a computer connected to the Internet, comprising: A character recognition unit that recognizes a character, an Internet connection unit that connects to a connection destination indicated by a URL via the Internet and obtains a result, and a character string recognized by the character recognition unit is a URL. A computer-readable recording medium, comprising: a result verification unit that verifies a recognition result by providing the character string to an Internet connection unit, and records a program that verifies whether the character recognition result is correct. .
【請求項14】 請求項13に記載の記録媒体におい
て、 前記結果検証部で認識結果の前記文字列が存在しないU
RLである場合、その文字列を修正する結果修正部を備
え、 前記結果検証部は、前記結果修正部で修正された文字列
で再度検証するようにしたプログラムを記録したことを
特徴とするコンピュータ読み取り可能な記録媒体。
14. The recording medium according to claim 13, wherein the character string of the recognition result in the result verification unit does not exist.
A computer that has a result correction unit that corrects the character string in the case of the RL, wherein the result verification unit records a program that verifies again with the character string corrected by the result correction unit; A readable recording medium.
JP2001077280A 2001-03-16 2001-03-16 Character recognition device, character recognition method, and recording medium Expired - Fee Related JP4245820B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001077280A JP4245820B2 (en) 2001-03-16 2001-03-16 Character recognition device, character recognition method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001077280A JP4245820B2 (en) 2001-03-16 2001-03-16 Character recognition device, character recognition method, and recording medium

Publications (2)

Publication Number Publication Date
JP2002279352A true JP2002279352A (en) 2002-09-27
JP4245820B2 JP4245820B2 (en) 2009-04-02

Family

ID=18934061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001077280A Expired - Fee Related JP4245820B2 (en) 2001-03-16 2001-03-16 Character recognition device, character recognition method, and recording medium

Country Status (1)

Country Link
JP (1) JP4245820B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366463A (en) * 2001-06-12 2002-12-20 Sony Corp Portable terminal and advertising system
JP2007089166A (en) * 2005-09-19 2007-04-05 Tektronix Inc System for collecting and utilizing end user correlated data record and method for detecting correctable condition
JP2009015813A (en) * 2007-06-29 2009-01-22 Nhn Corp Method and system for controlling browser by use of image
JP2015032239A (en) * 2013-08-06 2015-02-16 富士ゼロックス株式会社 Information processor and information processing program
JP2021009625A (en) * 2019-07-02 2021-01-28 コニカミノルタ株式会社 Information processing device, character recognition method, and character recognition program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366463A (en) * 2001-06-12 2002-12-20 Sony Corp Portable terminal and advertising system
JP4655415B2 (en) * 2001-06-12 2011-03-23 ソニー株式会社 Mobile terminal and advertising system
JP2007089166A (en) * 2005-09-19 2007-04-05 Tektronix Inc System for collecting and utilizing end user correlated data record and method for detecting correctable condition
JP4718404B2 (en) * 2005-09-19 2011-07-06 テクトロニクス・インコーポレイテッド End-user correlation data record collection and utilization system and correctable state detection method
JP2009015813A (en) * 2007-06-29 2009-01-22 Nhn Corp Method and system for controlling browser by use of image
JP2015032239A (en) * 2013-08-06 2015-02-16 富士ゼロックス株式会社 Information processor and information processing program
JP2021009625A (en) * 2019-07-02 2021-01-28 コニカミノルタ株式会社 Information processing device, character recognition method, and character recognition program
US11115544B2 (en) * 2019-07-02 2021-09-07 Konica Minolta, Inc. Information processing apparatus, character recognition method and non-transitory computer-readable recording medium encoded with character recognition instructions

Also Published As

Publication number Publication date
JP4245820B2 (en) 2009-04-02

Similar Documents

Publication Publication Date Title
JP5387124B2 (en) Method and system for performing content type search
US6718337B1 (en) Apparatus with extended markup language date capture capability
WO2020218512A1 (en) Learning model generating device, character recognition device, learning model generating method, character recognition method, and program
US20110142344A1 (en) Browsing system, server, and text extracting method
JP2009110444A (en) Image recognition program, image recognition apparatus, and image recognition method
JP4453016B2 (en) Portable terminal, character reading method, and character reading program
US20080024834A1 (en) Information registration apparatus for registering information onto registering destination on network and method thereof
JP2002279352A (en) Character recognition device and method, and recording medium
US20160269586A1 (en) System, control method, and recording medium
JP2004013813A (en) Information management system and method
JP4800144B2 (en) Character string determination device, character string determination method, character string determination program, and computer-readable recording medium
CN108881665B (en) Information processing apparatus, information processing method, and computer program
JP6763173B2 (en) Document correction methods, document correction devices, and computer programs
JP2020087112A (en) Document processing apparatus and document processing method
US20180075136A1 (en) Method and associated processor for adaptive linkify
JP2008052698A (en) Apparatus and method for identifying language format
CN110781664A (en) File repair method and device
JP2003178261A (en) Character recognizing device and program
JP4791641B2 (en) Candidate character output device, candidate character output method, program, and computer-readable recording medium
US20240203148A1 (en) Workflow approval system, approval order setting method, and non-transitory computer-readable storage medium
JP2002099555A (en) Apparatus and method for document classification
JP2002117373A (en) Address automatic input device and its method, and communication terminal device
JP4091308B2 (en) Information processing apparatus and character recognition method
JP5060334B2 (en) Character recognition device, character recognition program, and character learning method and character recognition method in character recognition device
JP2002279343A (en) Recognition result correction device and method, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060526

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090107

R150 Certificate of patent or registration of utility model

Ref document number: 4245820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees