JP2005038431A - Portable terminal and communication system - Google Patents

Portable terminal and communication system Download PDF

Info

Publication number
JP2005038431A
JP2005038431A JP2004210924A JP2004210924A JP2005038431A JP 2005038431 A JP2005038431 A JP 2005038431A JP 2004210924 A JP2004210924 A JP 2004210924A JP 2004210924 A JP2004210924 A JP 2004210924A JP 2005038431 A JP2005038431 A JP 2005038431A
Authority
JP
Japan
Prior art keywords
image
character
character line
character string
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004210924A
Other languages
Japanese (ja)
Inventor
Tatsuhiko Kagehiro
達彦 影広
Minenobu Seki
峰伸 関
Yutaka Sako
裕 酒匂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004210924A priority Critical patent/JP2005038431A/en
Publication of JP2005038431A publication Critical patent/JP2005038431A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Transfer Between Computers (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To photograph an object on which an arbitrary character row is written and to obtain information based on the character row by using a portable terminal incorporating an image pickup element. <P>SOLUTION: A portable terminal enables an operator to easily select an object character row by displaying a character row extraction process at a display part of the terminal as desired and by rendering the image to be inputted to recognition processing with a high resolution, and raises the character recognition precision by realizing high resolution. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

今後,携帯端末や携帯電話に内蔵するCPUの高性能化や,CCD等の低価格化によって,撮像素子を内蔵した携帯端末が普及する。撮像素子を内蔵した携帯端末を用いて,ユーザーが着目した文字列を含んだ景観画像を採取し,その文字列を認識することにより,ネットワーク上から関連情報を引き出す事が可能になる。景観画像中から目的の文字列を選択するためには,携帯端末上の限られたユーザーインタフェースを用い,かつ,操作者が直感的に理解し易い指示方法が必要である。   In the future, mobile terminals with built-in image sensors will become more popular due to higher performance of CPUs built into mobile terminals and mobile phones and lower prices for CCDs. Using a mobile terminal with a built-in image sensor, it is possible to extract relevant information from the network by collecting a landscape image that includes a character string focused by the user and recognizing the character string. In order to select a target character string from a landscape image, an instruction method that uses a limited user interface on a portable terminal and is easy for an operator to understand intuitively is required.

また,携帯端末には構造上,高解像度画像の採取可能なデバイスを格納することは難しい。そのため携帯端末のカメラで採取した低解像度の画像を用いて,文字認識を行う。しかし,解像度と認識精度はトレードオフの関係にあり,高い認識精度を要求する場合,入力画像を加工する必要がある。   In addition, it is difficult to store a device capable of collecting high-resolution images in the mobile terminal due to its structure. Therefore, character recognition is performed using low-resolution images collected by the camera of the mobile terminal. However, resolution and recognition accuracy are in a trade-off relationship, and when high recognition accuracy is required, it is necessary to process the input image.

景観画像中からの文字認識結果を用いた情報検索は,特開2000-331006,特開平10-254622に記載がある。また,特開2000-23012は携帯端末を用いた翻訳機について記載されており,この発明中のGUIに対象文字行を当てはめる線分が画像表示部に表示される。しかし,線分は固定で,操作者が景観画像を採取する際の目安として利用するのみで,文字行の位置やサイズを操作者が合わせる必要がある。また,携帯端末内の低解像度撮像系で採取した画像を対象とする文字認識に関する発明は存在しない。   Information retrieval using character recognition results from landscape images is described in JP-A-2000-331006 and JP-A-10-254622. Japanese Patent Laid-Open No. 2000-23012 describes a translator using a portable terminal, and a line segment for applying the target character line to the GUI in the present invention is displayed on the image display unit. However, the line segments are fixed, and the operator needs to adjust the position and size of the character line only for use as a guide when the operator collects a landscape image. Further, there is no invention related to character recognition for an image collected by a low-resolution imaging system in a portable terminal.

特開2000-331006JP2000-331006

特開平10-254622号JP 10-254622 A 特開2000-23012JP2000-23012

携帯電話または携帯端末にCCDカメラを内蔵し,景観画像をキャプチャして文字認識を行い,翻訳機能,検索機能などを搭載する手段は,特開2000-23012で述べられている。しかし,操作者が景観画像中から対象文字行を容易に選択する手段は存在しない。そこで本発明は,操作者に対し入力画像中からの文字行抽出結果を随時提示し,任意の対象文字行を容易に選択する事を可能にする。   Japanese Patent Laid-Open No. 2000-23012 describes a means of incorporating a CCD camera in a mobile phone or a mobile terminal, capturing a landscape image, performing character recognition, and installing a translation function, a search function, and the like. However, there is no means for the operator to easily select the target character line from the landscape image. Therefore, the present invention presents to the operator the character line extraction result from the input image at any time, and makes it possible to easily select any target character line.

また,携帯端末などに内蔵する撮像素子は,コストや設置容積の点から,高解像度の画像を採取可能に設計することは困難である。低解像度の画像を用いて認識処理を行うと,認識精度に悪影響が生じ,操作者の目的が阻害される。そこで本発明では,採取した低解像度の画像から,文字行位置の抽出処理を行った後,その文字行位置の部分画像に対し拡大処理を行うことにより,文字行部分画像を高解像度化し,認識精度の向上を図る。   In addition, it is difficult to design an image sensor incorporated in a portable terminal or the like so as to collect a high-resolution image from the viewpoint of cost and installation volume. When recognition processing is performed using a low-resolution image, the recognition accuracy is adversely affected and the operator's purpose is hindered. Therefore, in the present invention, after extracting the character line position from the collected low-resolution image, the character line partial image is increased in resolution by performing enlargement processing on the partial image at the character line position. Improve accuracy.

本願において開示される発明のうち、代表的なものの概要は以下の通りである。取得画像中の文字行記載領域を抽出する手段を有する携帯端末であって、確定手段に入力があるまで上記文字行記載領域を変動させながら連続して抽出し、かつ上記抽出した文字行記載領域を表示手段上に常に表示することで抽出する文字行記載領域を確定し、上記確定された文字行記載領域に記載される文字行を認識する手段と、上記認識結果をネットワークを介して転送する手段と、上記認識結果に基づくコンテンツを受信する手段とを有する携帯端末。   Among the inventions disclosed in the present application, outlines of typical ones are as follows. A portable terminal having means for extracting a character line description area in an acquired image, wherein the character line description area is continuously extracted while changing the character line description area until an input is made to the confirmation means, and the extracted character line description area Is always displayed on the display means, the character line description area to be extracted is determined, the means for recognizing the character line described in the determined character line description area, and the recognition result is transferred via the network. A portable terminal having means and means for receiving content based on the recognition result.

さらに取得画像の高精細化手段を有し、上記確定された文字行記載領域を画素補完し、上記画素補完された部分画像を平滑化し、さらに2値化を行うことを特徴とする携帯端末。   Furthermore, the portable terminal which has the refinement means of the acquired image, the said character line description area | region is pixel-complemented, the said pixel-complemented partial image is smoothed, and also binarization is performed.

又、上記携帯端末と、ネットワークを介して上記携帯端末と接続される計算機からなる通信システムであって、上記形態端末で取得した認識結果若しくは上記文字行抽出領域を上記ネットワークを介して上記計算機に転送し、上記計算機が転送された上記認識結果若しくは上記文字行抽出領域の情報をもとにネットワーク上の情報検索をおこなって、検索結果を上記携帯端末に転送する手段を有することを特徴とする通信システム。   A communication system comprising the mobile terminal and a computer connected to the mobile terminal via a network, wherein the recognition result or the character line extraction area acquired by the form terminal is transmitted to the computer via the network. And a means for performing an information search on the network based on the recognition result or the information of the character line extraction area transferred by the computer and transferring the search result to the portable terminal. Communications system.

本発明を用いると撮像素子を内蔵した携帯端末を用いて,任意の文字行が記載された物体を撮影し,その文字行を元にした情報を入手する事が可能になる。また,任意の文字行を操作者が選択する際に,携帯端末の操作を容易にする事が出来る。また,解像度の低い撮像素子を用いた場合でも,擬似的に高解像度画像を生成し文字認識処理を行う事により,認識精度を高める事が可能となる。   When the present invention is used, it is possible to capture an object in which an arbitrary character line is described using a portable terminal incorporating an image sensor and obtain information based on the character line. Further, when the operator selects an arbitrary character line, the operation of the portable terminal can be facilitated. Even when an image sensor with a low resolution is used, it is possible to improve recognition accuracy by generating a pseudo high resolution image and performing character recognition processing.

図1に本発明に用いる携帯端末と,入力データとなる文字行が記載された物体を示している。101は,携帯端末の1形態であり,102に画像表示部があり,反対側の面には撮像素子を用いたカメラが格納されている。103は操作レバーで,104はボタンである。また画像表示部はタッチパネルになっており,操作者が直接指示できるようになっている。この携帯端末を用いて,105のように物体に記載されたURLアドレスや文字行画像を採取し,文字行記載領域の抽出,文字行認識を行い106のような無線通信回線を用いてデータを転送し,107のようにネットワークに接続された計算機を用いて,ネットワーク上の対象コンテンツを選択し転送,表示する。表示されたコンテンツを操作者が参照し,再度指示を行うことにより,双方向の通信が行われる。   FIG. 1 shows a portable terminal used in the present invention and an object on which a character line serving as input data is described. 101 is one form of a portable terminal, 102 has an image display unit, and a camera using an image sensor is stored on the opposite surface. 103 is an operation lever, and 104 is a button. The image display unit is a touch panel so that an operator can directly instruct. Using this mobile terminal, the URL address or character line image written on the object as in 105 is sampled, the character line description area is extracted, the character line is recognized, and the data is transmitted using the wireless communication line like 106. Using a computer connected to the network as in 107, the target content on the network is selected, transferred, and displayed. Bidirectional communication is performed by referring to the displayed content and giving an instruction again.

図2と図3に本発明の画像表示例を示す。図2は撮像された物体に記載されたURL文字行に対し文字認識処理を行い,その認識結果からURLに対応したホームページを受信し表示した例である。まず,201の画像表示部で撮像素子により採取された物体を表示し,画像表示部内には202のようにマーカーが表示されている。マーカーは操作者が指示する事により移動可能である。このマーカーに最も近い位置に記載されているURL文字行に対し,文字行矩形抽出処理が連続して行われ,203のように抽出結果の矩形が随時更新されて表示が繰り返される。このことにより,操作者は端末を動かすか,マーカーを移動させる事により,認識対象文字行を容易に選択する事が可能となる。目的の文字行を矩形が正しく囲んだ際にユーザーが確定指示を行い,その後,確定されて矩形内の文字行に対し文字認識が行われ,204のように認識結果がポップアップで表示される。この認識結果が妥当な場合,操作者が確定指示を行い,その結果,205のようにネットワーク上の計算機から認識結果のURLに対応したコンテンツが携帯端末に転送される。その後,操作者は表示部のコンテンツを参照し,ボタン操作か206のような表示部のボタンの接触操作により,双方向の通信が可能になる。   2 and 3 show image display examples of the present invention. FIG. 2 shows an example in which character recognition processing is performed on a URL character line written on an imaged object, and a homepage corresponding to the URL is received and displayed from the recognition result. First, an object collected by the image sensor is displayed on the image display unit 201, and a marker is displayed as 202 in the image display unit. The marker can be moved by an instruction from the operator. The character line rectangle extraction process is continuously performed on the URL character line described at the position closest to the marker, and the extraction result rectangle is updated at any time as indicated by 203, and the display is repeated. As a result, the operator can easily select the recognition target character line by moving the terminal or moving the marker. When the rectangle correctly surrounds the target character line, the user issues a confirmation instruction. After that, the character line is confirmed and character recognition is performed for the character line in the rectangle, and the recognition result is displayed in a pop-up as shown at 204. If this recognition result is valid, the operator gives a confirmation instruction, and as a result, content corresponding to the URL of the recognition result is transferred from the computer on the network to the portable terminal as in 205. Thereafter, the operator refers to the contents of the display unit, and bidirectional communication is possible by a button operation or a button operation of the display unit such as 206.

図3は撮像された物体に記載された文字行に文字認識処理を行い,その認識結果を元にネットワーク上のコンテンツを検索し,検索結果を表示した例である。図2の場合と同様に,301で撮像された画像表示し,302のマーカーに最近傍の文字行が抽出され,303のように連続表示された文字行矩形をユーザーが確定指示すると,認識処理の後に304のように認識結果がポップアップで表示される。この認識結果が妥当な場合,操作者は確定指示を行う。その後,認識結果をネットワーク上の検索エンジンに入力し,得られた検索結果を携帯端末が受信し,305のように表示する。操作者は,表示された検索結果を参照し,ボタン操作か表示部の接触操作により,新たにコンテンツを受信することが可能である。   FIG. 3 shows an example in which character recognition processing is performed on a character line written on an imaged object, content on the network is searched based on the recognition result, and the search result is displayed. As in the case of FIG. 2, when the image captured at 301 is displayed, the nearest character line is extracted by the marker 302, and the user confirms the character line rectangle displayed continuously as 303, the recognition process is performed. The recognition result is displayed in a pop-up like 304. If this recognition result is valid, the operator gives a confirmation instruction. Thereafter, the recognition result is input to a search engine on the network, and the obtained search result is received by the portable terminal and displayed as 305. The operator can receive new content by referring to the displayed search result and by operating a button or touching the display unit.

図4に携帯端末内のハードウエア構成を示す。携帯端末内には,制御や画像処理,文字認識を行うCPU(401),メモリ(402),表示部(403),入力データを採取するため撮像素子(404),無線通信に用いる通信部(405),スピーカー(406),マイク(407),電源部(408),ボタン(409),表示部に重ねて組み込まれるタッチパネル(410)がバスで結合されている。   Fig. 4 shows the hardware configuration in the mobile terminal. In the portable terminal, there are a CPU (401) that performs control, image processing, character recognition, a memory (402), a display unit (403), an image sensor (404) for collecting input data, and a communication unit used for wireless communication ( 405), a speaker (406), a microphone (407), a power supply unit (408), a button (409), and a touch panel (410) that is incorporated in a display unit are connected by a bus.

図5に本発明における全体処理フローを示す。まず携帯端末において,撮像素子を用いたCCDによって501で対象物体を撮像し,撮像した画像を501において表示部で操作者に表示する。その後,図2,図3で示したようにマーカーから最近傍の文字を核として,502で文字行抽出処理を行う。その結果得られた抽出結果を矩形として503で表示部に画像と重ねて表示し,操作者が504で確定指示を行うまで501の画像採取に戻り,繰り返す。   FIG. 5 shows an overall processing flow in the present invention. First, in the portable terminal, the target object is imaged by the CCD using the image sensor at 501 and the captured image is displayed to the operator on the display unit at 501. Thereafter, as shown in FIG. 2 and FIG. 3, character line extraction processing is performed at 502 with the nearest character from the marker as the nucleus. The extraction result obtained as a result is displayed as a rectangle in the form of a rectangle superimposed on the display unit at 503, and the process returns to 501 and repeats until the operator gives a confirmation instruction at 504.

操作者が確定指示を出した後,表示された矩形内の部分画像を用いて画像処理を行い,認識処理に入力する。撮像素子により採取した低解像度の入力画像に対し,505によって高精細化処理を行い,高精細化された部分画像を,506の文字行認識に入力する。その後,文字認識結果を507で操作者に提示し指示を仰ぎ,操作者が妥当な認識結果であると判断した場合,確定指示を行い,無線通信によりネットワーク上の計算機に転送される。妥当な認識結果でないと操作者が判断した場合は,501で撮像素子から再度画像を採取して処理をやり直す。   After the operator issues a confirmation instruction, image processing is performed using the partial image within the displayed rectangle and input to the recognition processing. The low resolution input image collected by the image sensor is subjected to high definition processing by 505, and the high definition partial image is input to the 506 character line recognition. Thereafter, the character recognition result is presented to the operator at 507 and an instruction is given. If the operator determines that the result is a valid recognition result, a confirmation instruction is given and transferred to a computer on the network by wireless communication. If the operator determines that the recognition result is not valid, the image is collected again from the image sensor at 501 and the process is performed again.

計算機に送られた文字行は,509で受信され,510で文字行がURLアドレスか,その他の文字行か判別される。文字行がURLアドレスであった場合,511においてインターネット上でそのURLアドレスのホームページコンテンツを採取し,512で端末に送信する。次に513で文字行がE-mailアドレス化判別し,E-mailアドレスの場合,514でそのアドレスを宛先フィールドに挿入したメール送信プログラムを端末に送信する。このメール送信プログラムはJAVA(登録商標)等により記述されたアプリケーションを用いることで実現できる。また一度送信されたメール送信用プログラムは携帯端末内に保管され,再度用いることも可能である。また,文字行がURLアドレスでもE-mailアドレスでもない場合,515でインターネット上のコンテンツ検索エンジンに入力し,文字行をキーワードとして検索を行う。その検索結果を,516で端末に送信し操作者に提示する。   The character line sent to the computer is received at 509, and at 510, it is determined whether the character line is a URL address or another character line. If the character line is a URL address, the home page content of the URL address is collected on the Internet at 511 and sent to the terminal at 512. Next, in 513, the character line is determined to be an E-mail address. If it is an E-mail address, a mail transmission program in which the address is inserted in the destination field is transmitted to the terminal in 514. This mail transmission program can be realized by using an application described in JAVA (registered trademark) or the like. Also, the mail transmission program once transmitted can be stored in the portable terminal and used again. If the character line is neither a URL address nor an e-mail address, it is input to a content search engine on the Internet at 515 and a search is performed using the character line as a keyword. The search result is transmitted to the terminal at 516 and presented to the operator.

携帯端末側では517でコンテンツを受信し,操作者が518でコンテンツを参照し,表示部の接触指示かボタン操作により,希望のコンテンツを選ぶか,メール送信等を行い,目的を達成する。   On the mobile terminal side, the content is received at 517, and the operator refers to the content at 518, and selects the desired content or sends an e-mail by a touch instruction or button operation on the display unit, thereby achieving the purpose.

また,上記の携帯端末とネットワーク上の計算機とのデータ転送手順と,処理分担は他にも考えられる。例えば,携帯端末上で対象となる文字行記載領域を選択した後,部分画像のみネットワーク上の計算機に転送し,計算機上で画像処理と文字認識を行う。この転送手段としては,メールに部分画像を添付して送信する手段などが考えられる。文字認識処理の結果得られた複数の候補を元に,候補順位順にネットワーク上のコンテンツを検索する。複数候補を用いて検索し,妥当なコンテンツが見つかった場合,そのコンテンツを端末に送信し表示する。また,全ての候補を用いて検索しても妥当なコンテンツが見つからなかった場合,再度パラメータを変えて文字認識処理を繰り返す。   In addition, there are other possible data transfer procedures and processing sharing between the mobile terminal and the computer on the network. For example, after selecting a target character line description area on a portable terminal, only a partial image is transferred to a computer on the network, and image processing and character recognition are performed on the computer. As this transfer means, means for attaching a partial image to an e-mail and transmitting it can be considered. Based on a plurality of candidates obtained as a result of the character recognition process, content on the network is searched in the order of candidates. Searching using multiple candidates, if valid content is found, the content is sent to the terminal and displayed. Also, if no valid content is found even after searching using all candidates, the character recognition process is repeated with the parameters changed again.

上記処理手順を用いれば,操作者が文字記載領域確定指示のみによって,希望のコンテンツを参照可能なる。ただし,文字認識結果が誤っていた場合でもコンテンツが存在すると,操作者の意図と異なったコンテンツが表示される場合がある。   If the above processing procedure is used, the operator can refer to the desired content only by a character description area confirmation instruction. However, even if the character recognition result is incorrect, if content exists, content different from the operator's intention may be displayed.

また,上記のような携帯端末と計算機との送受信の際に,課金を行うサービスも考えられる。本サービスは,ネットワーク上に繋がった計算機を管理する会社が,携帯端末から認識結果である文字列や,認識対象となる部分画像を受信し携帯端末側にコンテンツを送信する際に,操作者に対してサービス料として課金を行う。操作者は,対象となる文字列の認識結果を確認後,コンテンツを受信することが可能になり,安定したサービスが可能になる。   In addition, there may be a service for charging when transmitting / receiving data between the mobile terminal and the computer as described above. This service is provided to the operator when a company that manages computers connected to the network receives a character string as a recognition result or a partial image to be recognized from a mobile terminal and sends the content to the mobile terminal. The service fee is charged. The operator can receive the content after confirming the recognition result of the target character string, thereby enabling a stable service.

図6に文字行抽出処理の概念図を示す。まず,601が携帯端末のカメラで採取した画像であり,602は対象文字行が記載されている物体である。画面の真中の603はマーカーであり,このマーカーの位置から最近傍に記載された文字行を抽出する処理が行われる。マーカーは操作者により,タッチパネルかボタン操作により画面上の位置を移動させる事が可能である。次に,604は入力画像を2値化した後,黒画素の塊である連結成分を生成し,それぞれの連結成分の外接矩形を表示した画像である。処理高速化のために,文字行抽出処理は連結成分の外接矩形位置情報を用いて行う。次に,マーカーの最近傍の位置にある連結成分の外接矩形を選択し,605のように太い矩形で表している。この連結成分を文字行抽出の初期状態の「核」として用いる。この「核」となる連結成分は操作者には表示されない。606は文字行抽出の途中経過を表しており,605で示した「核」を元に横方向に近傍の連結成分を統合していくことにより,文字行矩形を形成する。次に607は横方向に統合した結果,連結成分により構成された文字行矩形を表示している。   FIG. 6 shows a conceptual diagram of the character line extraction process. First, 601 is an image collected by the camera of the portable terminal, and 602 is an object in which the target character line is described. 603 in the middle of the screen is a marker, and a process of extracting a character line written in the nearest vicinity from the position of this marker is performed. The position of the marker can be moved by the operator by touch panel or button operation. Next, 604 is an image that binarizes the input image, generates connected components that are black pixel blocks, and displays the circumscribed rectangle of each connected component. In order to increase processing speed, character line extraction processing is performed using circumscribed rectangle position information of connected components. Next, the circumscribed rectangle of the connected component at the nearest position of the marker is selected and is represented by a thick rectangle such as 605. This connected component is used as the “core” of the initial state of character line extraction. The connected component that is the “nucleus” is not displayed to the operator. Reference numeral 606 represents the progress of character line extraction, and a character line rectangle is formed by integrating neighboring connected components in the horizontal direction based on the “core” indicated by 605. Next, as a result of integration in the horizontal direction, 607 displays a character line rectangle composed of connected components.

608は操作者から見た文字行矩形抽出結果の表示であり,点線の矩形が文字行抽出結果である。この矩形を操作者が参照し,対象文字行を矩形が正しく囲んでいる場合,確定指示をボタンで行い,そうでない場合は端末を動かすかマーカーを移動させることにより,随時文字行抽出結果矩形が変動する。   Reference numeral 608 denotes a display of a character line rectangle extraction result viewed from the operator, and a dotted rectangle is the character line extraction result. If the operator refers to this rectangle and the target character line correctly surrounds the rectangle, the confirmation instruction is given with the button, otherwise the terminal is moved or the marker is moved, so that the character line extraction result rectangle can be fluctuate.

図7は,文字行抽出処理の処理フローを示している。文字行抽出処理は,まず撮像素子から701で画像を採取し,入力画像を702で2値化し,次に703でノイズ除去を行う。その後,704で2値画像から連結成分の生成を行い,705でマーカーから最近傍の連結成分を初期値の「核」として選択する。次に706で「核」となる連結成分からある一定の近距離の連結成分を統合して,文字行矩形を形成し,矩形座標が出力される。この矩形を707の表示部において動的に表示し,708でユーザーが確定指示を出すまで701の画像採取へ戻り処理を繰り返す。ユーザーが確定指示を出した場合,高精細行抽出処理へ矩形座標が入力される。   FIG. 7 shows a process flow of the character line extraction process. In the character line extraction process, first, an image is collected from the image sensor with 701, the input image is binarized with 702, and then noise is removed with 703. Thereafter, in 704, a connected component is generated from the binary image, and in 705, the nearest connected component from the marker is selected as the initial “core”. Next, in 706, a certain short-distance connected component is integrated from the connected component that becomes the “core” to form a character line rectangle, and rectangular coordinates are output. This rectangle is dynamically displayed on the display unit 707, and the process returns to 701 image collection until the user issues a confirmation instruction in 708, and the process is repeated. When the user issues a confirmation instruction, rectangular coordinates are input to the high-definition line extraction process.

図8は,高精細行画像生成の概念図を示している。文字行画像を認識処理に入力する前に,対象となる部分画像に対し画素補完を行い,高解像度の部分画像を生成し,認識精度の向上を狙う。801は操作者が文字行矩形を確定指示した時点での表示部を示している。この文字行矩形位置情報を元に,画像採取時に得られた濃淡画像から部分画像をくり貫いたのが802の画像である。この濃淡部分画像に対し画素補完処理を行い,高解像度化したのが803の画像である。このように画素補完により高解像度化を行うと,斜め線分に階段状の形状が現れる。そこで,画像に平滑化を施すと,804のようにノイズが減り,斜め線分の輪郭も滑らかになる。次に,2値化処理を施すと805の画像のようにノイズも無く,輪郭も鮮明な高精細文字パターン画像が生成される。この高精細行画像を認識処理に入力することにより,低解像度の撮像系を用いても高精度な認識結果が得られる。   FIG. 8 shows a conceptual diagram of high-definition row image generation. Before inputting a character line image to recognition processing, pixel interpolation is performed on the target partial image to generate a high-resolution partial image, aiming to improve recognition accuracy. Reference numeral 801 denotes a display unit at the time when the operator gives an instruction to confirm the character line rectangle. Based on this character line rectangle position information, 802 images are obtained by cutting through partial images from the grayscale image obtained at the time of image collection. A pixel complementation process is performed on the grayscale partial image to obtain a high resolution image 803. When the resolution is increased by pixel interpolation in this way, a staircase shape appears in the diagonal line segment. Therefore, when the image is smoothed, noise is reduced as in 804, and the outline of the diagonal line segment is also smoothed. Next, when binarization processing is performed, a high-definition character pattern image having no noise and a clear outline as in the image 805 is generated. By inputting this high-definition row image to the recognition process, a highly accurate recognition result can be obtained even with a low-resolution imaging system.

図9に高精細行画像生成の処理フローを示す。まず文字行抽出処理で決定された文字行矩形の座標を元に,901で画像採取時に得られた濃淡画像から部分画像をくり貫く。部分画像に対して,902で画素補完により画像を拡大する。次に,903で拡大した画像に対し平滑化を行い,904で2値化を施す。その結果,高精細な2値画像が生成される。   FIG. 9 shows a processing flow of high-definition row image generation. First, based on the coordinates of the character line rectangle determined by the character line extraction process, a partial image is cut out from the grayscale image obtained at the time of image collection in 901. The partial image is enlarged at 902 by pixel interpolation. Next, the image enlarged at 903 is smoothed, and binarized at 904. As a result, a high-definition binary image is generated.

図10に文字行認識処理の概念図を示す。1001は入力された文字行画像であり,この文字行画像に対し連結成分ごとに文字パターン候補の組み合わせを生成しネットワーク表現したのが1002である。1003は「h」のみ切出したパターンで,1004は「ht」を組み合わせたパターンである。これらの組み合わせのうち,正しい文字パターンを選んでネットワーク上をルート探索すると,文字行の認識結果が得られる。このネットワーク上のパターンを文字認識モジュールに入力した結果が,1005である。1003の「h」のパターンには1006のように「h」の認識結果が得られ,1004の「ht」の2つ文字を組み合わせたパターンに対する認識結果は1007のように「n」になっていることが分かる。このように全てのパターンに対する文字認識結果と,文字認識に用いたテンプレートとの類似度をネットワーク上に記録しておく。1008は,認識結果の記録が付加されているネットワークに対し,単語知識と認識結果の類似度を元にルート探索をした結果である。この例ではURLとして頻発する単語(http,://,www,co.jp,comなど)は単語知識でルートの制約を行い,それ以外の単語は認識結果の類似度を指標としてルートを決定する。単語知識はDNS(ドメインネームサーバ)からURLアドレスを得て活用するか,看板等を対象物とする際には地理的位置情報を用いて存在単語を限定する手段も考えられる。決定されたルート上の文字をつなぎ合わせたのが1009の文字行であり,これが文字行画像に対する認識結果である。   FIG. 10 shows a conceptual diagram of the character line recognition process. Reference numeral 1001 denotes an input character line image, and 1002 is a network expression that generates a combination of character pattern candidates for each connected component of the character line image. 1003 is a pattern in which only “h” is cut out, and 1004 is a pattern in which “ht” is combined. When a correct character pattern is selected from these combinations and a route search is performed on the network, the recognition result of the character line is obtained. The result of inputting this network pattern to the character recognition module is 1005. The 1003 “h” pattern gives a recognition result of “h” like 1006, and the recognition result for the pattern combining two characters “100” of “1004” becomes “n” like 1007. I understand that. In this way, the similarity between the character recognition results for all patterns and the template used for character recognition is recorded on the network. 1008 is a result of route search based on the similarity between the word knowledge and the recognition result for the network to which the record of the recognition result is added. In this example, the words that occur frequently as URLs (http,: //, www, co.jp, com, etc.) are route-constrained based on word knowledge, and other words are routed using the similarity of the recognition results as an index. To do. The word knowledge can be used by obtaining URL addresses from DNS (Domain Name Server), or by using geographical location information to limit existing words when signboards are used as objects. 1009 character lines are obtained by connecting the characters on the determined route, and this is the recognition result for the character line image.

図11に文字行認識の処理フローを示す。まず,入力された文字行画像に対し,1101で文字パターンの候補になる組み合わせを生成しネットワークを構築する。次に1102でそれぞれの文字パターンの候補に対し文字認識を行い,それぞれに対応した認識結果と類似度を情報として付加しておく。次に1103で予め蓄積されている単語知識を用いて,ネットワーク上のルート制約を行う。次に1104で単語知識制約と,文字認識結果の類似度を用いてネットワーク上の最適なルートを決定する。その結果,文字行の認識結果が得られる。   FIG. 11 shows a process flow of character line recognition. First, a combination of character pattern candidates is generated in 1101 for the input character line image to construct a network. Next, at 1102, character recognition is performed on each character pattern candidate, and the recognition result and similarity corresponding to each candidate are added as information. Next, route restriction on the network is performed using word knowledge stored in advance in 1103. Next, in 1104, the optimal route on the network is determined using the word knowledge constraint and the similarity of the character recognition result. As a result, the recognition result of the character line is obtained.

上記の手段を用いることにより,操作者が着目する文字行を選択し,文字認識結果から情報コンテンツを得ることが可能になる。   By using the above means, the operator can select a character line of interest and obtain information content from the character recognition result.

認識機能付き携帯端末を用いた情報収集の概念図である。It is a conceptual diagram of the information collection using the portable terminal with a recognition function. 本発明を用いた携帯端末の表示画面の図である。It is a figure of the display screen of the portable terminal using this invention. 本発明を用いた携帯端末の表示画面の図である。It is a figure of the display screen of the portable terminal using this invention. 携帯端末のハードウエア構成図である。It is a hardware block diagram of a portable terminal. 携帯端末内とネットワーク上計算機の処理フローの図である。It is a figure of the processing flow of the computer in a portable terminal and a network. 文字行抽出の概念図である。It is a conceptual diagram of character line extraction. 文字行抽出の処理フローである。It is a processing flow of character line extraction. 高解像度画像生成の概念図である。It is a conceptual diagram of high resolution image generation. 高解像度画像生成の処理フローである。It is a processing flow of high-resolution image generation. 文字行認識の概念図である。It is a conceptual diagram of character line recognition. 文字行認識の処理フローである。It is a processing flow of character line recognition.

符号の説明Explanation of symbols

201・・・画面表示部 202・・・マーカー 203・・・文字行抽出矩形 204・・・文字行認識結果 205・・・画面表示部 206・・・操作キー。 201: Screen display unit 202 ... Marker 203 ... Character line extraction rectangle 204 ... Character line recognition result 205 ... Screen display unit 206 ... Operation key

Claims (7)

携帯端末によりネットワークを介して入手される情報を検索する情報検索方法であって、
携帯端末の画像取得手段により画像を取得する第1のステップと、
上記取得画像中の文字行記載領域を確定する第2のステップと、
上記確定された文字行記載領域に記載される文字行を認識する第3のステップと、
上記認識結果がアドレス情報を示す文字列かその他の文字列かを判別する第4のステップと、
上記判別結果がその他の文字列であった場合には、該文字列をもとに上記ネートワーク内の情報を検索し、該検索結果を上記端末にて受信する第5のステップとを有することを特徴とする情報検索方法。
An information search method for searching for information obtained from a mobile terminal via a network,
A first step of acquiring an image by the image acquisition means of the mobile terminal;
A second step of determining a character line description area in the acquired image;
A third step of recognizing a character line described in the determined character line description area;
A fourth step of determining whether the recognition result is a character string indicating address information or another character string;
A fifth step of searching for information in the network based on the character string when the determination result is another character string and receiving the search result at the terminal; Information search method characterized by
請求項1記載の情報検索方法であって、上記第3のステップの後に該認識結果を表示してユーザによる確定入力を受け付けるステップを有することを特徴とする情報検索方法。 The information search method according to claim 1, further comprising a step of displaying the recognition result and accepting a confirmed input by a user after the third step. 携帯端末と、ネットワークを介して上記携帯端末と接続される計算機からなる通信システムであって、
上記携帯端末は、
画像取得手段と該取得画像の表示手段と、
上記取得画像中の文字行記載領域を確定する手段と、
上記確定された領域中の文字行認識を行う手段と、
上記認識結果を上記ネットワークを介して上記計算機に転送する手段とを有し、
上記計算機は、
上記取得した認識結果がアドレス情報を示す文字列であるかその他の文字列であるかを判別する手段と、
上記判別結果がその他の文字列であった場合には、該文字列をもとに検索プログラムを起動して上記ネートワーク内の情報を検索し、該検索結果を上記端末に送信する手段とを有することを特徴とする通信システム。
A communication system comprising a mobile terminal and a computer connected to the mobile terminal via a network,
The mobile device
Image acquisition means and display means for the acquired image;
Means for determining a character line description area in the acquired image;
Means for recognizing character lines in the determined area;
Means for transferring the recognition result to the computer via the network,
The above calculator
Means for determining whether the acquired recognition result is a character string indicating address information or another character string;
Means for starting a search program based on the character string, searching for information in the network, and transmitting the search result to the terminal if the determination result is another character string; A communication system comprising:
請求項3記載の通信システムであって、上記携帯端末は、上記文字行認識結果を表示してユーザによる確定入力を受け付ける手段を有することを特徴とする通信システム。 4. The communication system according to claim 3, wherein the portable terminal has means for displaying the character line recognition result and receiving a confirmed input by a user. 上記計算機から転送される上記検索結果を上記携帯端末が受信する際に課金を行う手段を有することを特徴とする請求項3のいずれかに記載の通信システム。 4. The communication system according to claim 3, further comprising means for charging when the mobile terminal receives the search result transferred from the computer. ネットワークを介して携帯端末と通信可能なサーバ装置であって、
上記携帯端末の画像取得手段により取得された画像に基づく文字認識結果を受信する手段と、上記携帯端末の画像取得手段により取得された画像中の文字行を含む部分画像を受信して受信画像に基づき文字認識を行う手段との少なくともいずれかと、
該認識結果がアドレス情報を示す文字列であるかその他の文字列であるかを判別する手段と、
上記判別結果がその他の文字列であった場合には、該文字列をもとに検索プログラムを起動して上記ネートワーク内の情報を検索し、該検索結果を上記端末に送信する手段とを有することを特徴とするサーバ装置。
A server device capable of communicating with a mobile terminal via a network,
A means for receiving a character recognition result based on the image acquired by the image acquisition means of the portable terminal, and a partial image including a character line in the image acquired by the image acquisition means of the portable terminal, At least one of means for performing character recognition based on,
Means for determining whether the recognition result is a character string indicating address information or another character string;
Means for starting a search program based on the character string, searching for information in the network, and transmitting the search result to the terminal if the determination result is another character string; A server device comprising:
請求項6記載のサーバ装置であって、上記検索結果を上記携帯端末に送信する際に課金を行う手段を有することを特徴とするサーバ装置。 7. The server device according to claim 6, further comprising means for charging when the search result is transmitted to the mobile terminal.
JP2004210924A 2004-07-20 2004-07-20 Portable terminal and communication system Pending JP2005038431A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004210924A JP2005038431A (en) 2004-07-20 2004-07-20 Portable terminal and communication system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004210924A JP2005038431A (en) 2004-07-20 2004-07-20 Portable terminal and communication system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001268194A Division JP4240859B2 (en) 2001-09-05 2001-09-05 Portable terminal device and communication system

Publications (1)

Publication Number Publication Date
JP2005038431A true JP2005038431A (en) 2005-02-10

Family

ID=34214334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004210924A Pending JP2005038431A (en) 2004-07-20 2004-07-20 Portable terminal and communication system

Country Status (1)

Country Link
JP (1) JP2005038431A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244211A (en) * 2009-04-02 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> Information input device and information input method
JP2012042985A (en) * 2010-05-28 2012-03-01 Yahoo Inc System and method for online handwriting recognition in web query
WO2017141802A1 (en) * 2016-02-15 2017-08-24 日本電気株式会社 Image processing device, character recognition device, image processing method, and program recording medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244211A (en) * 2009-04-02 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> Information input device and information input method
JP2012042985A (en) * 2010-05-28 2012-03-01 Yahoo Inc System and method for online handwriting recognition in web query
JP2014013584A (en) * 2010-05-28 2014-01-23 Yahoo Inc System and method for online handwriting recognition in web queries
WO2017141802A1 (en) * 2016-02-15 2017-08-24 日本電気株式会社 Image processing device, character recognition device, image processing method, and program recording medium
US11341739B2 (en) 2016-02-15 2022-05-24 Nec Corporation Image processing device, image processing method, and program recording medium

Similar Documents

Publication Publication Date Title
JP4240859B2 (en) Portable terminal device and communication system
US8880338B2 (en) Portable electronic device, and method for operating portable electronic device
CN101667251B (en) OCR recognition method and device with auxiliary positioning function
CN110188365B (en) Word-taking translation method and device
KR100983912B1 (en) Apparatus and Method for inputing and searching information for augumented reality
KR101335617B1 (en) Method and device for implementing augmented reality in mobile environment
KR20060083102A (en) Image file management system having location information and method thereof, mobile terminal apparatus
US20090063129A1 (en) Method and system for instantly translating text within image
US20080137958A1 (en) Method of utilizing mobile communication device to convert image character into text and system thereof
CN1700646B (en) Device and method for utilizing a scannable URL (universal resource locator)
KR20160118198A (en) Real time auto translation system and method, terminal capable of real time translating
JP2007018166A (en) Information search device, information search system, information search method, and information search program
WO2012144124A1 (en) Captured image processing system, captured image processing method, mobile terminal and information processing apparatus
US20110305406A1 (en) Business card recognition system
JP2005038431A (en) Portable terminal and communication system
TWI404400B (en) Mobile communication apparatus and operating method thereof
KR20100124952A (en) Ar contents providing system and method providing a portable terminal real-time by using letter recognition
CN106650727B (en) Information display method and AR equipment
JP5562814B2 (en) Map information providing apparatus, map information providing system, map information providing method, and map information providing program
JP5366130B2 (en) POSITIONING DEVICE AND POSITIONING PROGRAM
JP2016025625A (en) Information processor, information processing method, and program
KR100861133B1 (en) System for providing offline object information by using mobile device and method thereof
JP2005135210A (en) Portable device with character recognition function
CN102087654A (en) Network retrieval system combined with image scanning module as well as method
JP6115673B2 (en) Apparatus and program

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090929