JP6408055B2 - Information processing apparatus, method, and program - Google Patents

Information processing apparatus, method, and program Download PDF

Info

Publication number
JP6408055B2
JP6408055B2 JP2017055368A JP2017055368A JP6408055B2 JP 6408055 B2 JP6408055 B2 JP 6408055B2 JP 2017055368 A JP2017055368 A JP 2017055368A JP 2017055368 A JP2017055368 A JP 2017055368A JP 6408055 B2 JP6408055 B2 JP 6408055B2
Authority
JP
Japan
Prior art keywords
recognition
image
displayed
target
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017055368A
Other languages
Japanese (ja)
Other versions
JP2018159978A (en
Inventor
洋次郎 登内
洋次郎 登内
一成 大内
一成 大内
梅木 秀雄
秀雄 梅木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017055368A priority Critical patent/JP6408055B2/en
Priority to US15/694,594 priority patent/US10528852B2/en
Priority to EP17189256.5A priority patent/EP3379452A1/en
Publication of JP2018159978A publication Critical patent/JP2018159978A/en
Application granted granted Critical
Publication of JP6408055B2 publication Critical patent/JP6408055B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/222Character recognition characterised by the type of writing of characters separated by spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Description

本発明の実施形態は、情報処理装置、方法及びプログラムに関する。   Embodiments described herein relate generally to an information processing apparatus, a method, and a program.

近年では、例えば画像から特定の認識対象を認識することが可能な情報処理装置が開発されている。このような情報処理装置の一例としては、例えば文字が記載されている被写体の画像を撮像することによって当該画像から文字を認識する文字認識装置がある。   In recent years, for example, information processing apparatuses capable of recognizing a specific recognition target from an image have been developed. As an example of such an information processing apparatus, for example, there is a character recognition apparatus that recognizes a character from the image by capturing an image of a subject on which the character is described.

ここで、上記したように撮像された画像から文字を認識するためには、文字認識装置において一定の処理時間を必要とする。   Here, in order to recognize a character from the image captured as described above, a certain processing time is required in the character recognition device.

しかしながら、このような文字を認識する処理(以下、文字認識処理と表記)が実行されている間の文字認識装置の画面には例えば撮像された画像が表示されているのみであり、ユーザは、文字認識処理の結果が画面に表示されるまで、文字認識装置において適切に文字認識処理が実行されているか否かを把握することができない。   However, for example, a captured image is only displayed on the screen of the character recognition device while such character recognition processing (hereinafter referred to as character recognition processing) is being performed. Until the result of the character recognition process is displayed on the screen, it is impossible to grasp whether or not the character recognition process is properly executed in the character recognition device.

また、例えば複数の文字認識結果の結果が表示されるような場合には、当該結果に対するユーザの視認性が低下する可能性がある。   For example, when the result of a several character recognition result is displayed, the user's visibility with respect to the result may fall.

このような文字認識装置はユーザにとって使い勝手が悪く、利便性が低い。このため、例えば文字を含む認識対象に対する画像認識に関してユーザの利便性を向上させるような表示を実現することが望まれている。   Such a character recognition device is not user-friendly and is not convenient. For this reason, for example, it is desired to realize a display that improves user convenience with respect to image recognition for a recognition target including characters.

特開2013−122747号公報JP 2013-122747 A 特開2003−078640号公報JP 2003-078640 A 特開2000−207487号公報JP 2000-207487 A

そこで、本発明が解決しようとする課題は、画像認識に関してユーザの利便性を向上させるような表示を実現することが可能な情報処理装置、方法及びプログラムを提供することにある。   Therefore, the problem to be solved by the present invention is to provide an information processing apparatus, method, and program capable of realizing a display that improves user convenience with respect to image recognition.

実施形態に係る情報処理装置は、第1認識手段と、第1表示処理手段と、第2認識手段と、第2表示処理手段とを具備する。前記第1認識手段は、第1画像に含まれる第1認識対象を認識する。前記第1表示処理手段は、前記第1認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示する。前記第2認識手段は、前記第1画像とは異なる第2画像に含まれる第2認識対象を認識する。前記第2表示処理手段は、前記第2認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示する。前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示される。前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される。 The information processing apparatus according to the embodiment includes first recognition means, first display processing means, second recognition means, and second display processing means. The first recognition means recognizes a first recognition target included in the first image. The first display processing means displays feedback information indicating that the recognition process is being executed before the recognition process in the first recognition means is completed, and the first recognition target is displayed after the recognition process is completed. The recognition result of is displayed. The second recognition unit recognizes a second recognition target included in a second image different from the first image. The second display processing means displays feedback information indicating that the recognition process is being executed before the recognition process in the second recognition means is completed, and the second recognition target is displayed after the recognition process is completed. The recognition result of is displayed. The recognition result of the first recognition target and the recognition result of the second recognition target are displayed as a history of recognition results. When the recognition result of the first recognition target is selected from the recognition result of the first recognition target and the recognition result of the second recognition target displayed as the history, the first image and the first image are captured. When the recognized position is displayed and the recognition result of the second recognition target is selected, the second image and the position where the second image is captured are displayed.

実施形態に係る文字認識装置の構成の一例を示すブロック図。The block diagram which shows an example of a structure of the character recognition apparatus which concerns on embodiment. 文字認識装置の処理手順の一例を示すフローチャート。The flowchart which shows an example of the process sequence of a character recognition apparatus. カメラによって撮像された画像が表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen when the image imaged with the camera is displayed. フォードバック情報として尤度マップ画像が表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen in case a likelihood map image is displayed as Fordback information. 尤度マップ画像の代わりに文字候補領域の各々を表す枠線が表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen in case the frame line showing each of a character candidate area | region is displayed instead of the likelihood map image. フィードバック情報として文字列領域の枠線が表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen in case the frame line of a character string area | region is displayed as feedback information. 文字認識結果が表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen in case a character recognition result is displayed. テキストの取得に応じて枠線が強調表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen when a frame line is highlighted according to acquisition of a text. テキストの取得に応じて枠線が強調表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen when a frame line is highlighted according to acquisition of a text. 文字を認識することができない旨の結果が表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen when the result that the character cannot be recognized is displayed. 文字を認識することができない文字列領域を包含する枠線が破線で表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen in case the frame line containing the character string area | region which cannot recognize a character is displayed with the broken line. 文字認識結果を検索処理に用いる場合の文字認識装置の処理手順の一例を示すフローチャート。The flowchart which shows an example of the process sequence of the character recognition apparatus in the case of using a character recognition result for a search process. 認識対象となっている領域に対してモザイク処理が施された場合における表示画面の一例を示す図。The figure which shows an example of the display screen when a mosaic process is performed with respect to the area | region used as recognition object. 認識対象となっている領域上に特定の文字列が表示された場合における表示画面の一例を示す図。The figure which shows an example of the display screen when a specific character string is displayed on the area | region used as recognition object.

以下、図面を参照して、実施形態について説明する。
図1は、本実施形態に係る情報処理装置の構成の一例を示すブロック図である。本実施形態に係る情報処理装置は、画像から認識対象を認識することが可能な機能を有し、例えばスマートフォン及びタブレットコンピュータ等の携帯型の電子機器として実現され得る。以下の説明においては、上記した認識対象として文字を認識する情報処理装置(以下、文字認識装置と表記)について主に説明する。
Hereinafter, embodiments will be described with reference to the drawings.
FIG. 1 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the present embodiment. The information processing apparatus according to the present embodiment has a function capable of recognizing a recognition target from an image, and can be realized as a portable electronic device such as a smartphone or a tablet computer. In the following description, an information processing apparatus that recognizes characters as the above-described recognition targets (hereinafter referred to as a character recognition apparatus) will be mainly described.

図1に示すように、文字認識装置10は、カメラ11、格納部12、処理部13及び表示部14を含む。   As shown in FIG. 1, the character recognition device 10 includes a camera 11, a storage unit 12, a processing unit 13, and a display unit 14.

カメラ11は、上記したスマートフォンのような文字認識装置10の背面等に搭載されており、当該文字認識装置10を把持するユーザの周辺に配置されている被写体の画像を撮像する。なお、被写体は、例えば文字(から構成される文字列)が記載されている街中の看板等を含む。すなわち、本実施形態において、カメラ11は、複数の文字を含む画像を撮像する。   The camera 11 is mounted on the back surface of the character recognition device 10 such as the smartphone described above, and captures an image of a subject arranged around the user who holds the character recognition device 10. The subject includes, for example, a signboard in the city where characters (a character string made up of) are written. That is, in this embodiment, the camera 11 captures an image including a plurality of characters.

格納部12は、文字認識装置10に備えられる例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)、ROM(Read Only Memory)またはRAM(Random Access Memory)等の記憶装置を用いて実現される。また、格納部12には、例えばカメラ11によって撮像された画像等を格納することが可能である。   The storage unit 12 is realized by using a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), a ROM (Read Only Memory), or a RAM (Random Access Memory) provided in the character recognition device 10. . The storage unit 12 can store, for example, an image captured by the camera 11.

処理部13は、記憶装置に格納されたプログラムを実行する文字認識装置10に備えられるコンピュータ(例えば、プロセッサ等)によって実現される。なお、コンピュータによって実行されるプログラムには、オペレーティングシステム及び画像から文字を認識するためのアプリケーションプログラム(以下、文字認識アプリケーションと表記)等が含まれる。   The processing unit 13 is realized by a computer (for example, a processor) provided in the character recognition device 10 that executes a program stored in the storage device. Note that the program executed by the computer includes an operating system and an application program for recognizing characters from an image (hereinafter referred to as a character recognition application).

処理部13は、第1表示処理部131、文字認識処理部132、第2表示処理部133、第3表示処理部134及び検索処理部135を含む。処理部13に含まれる各部131〜135の一部または全ては、例えばコンピュータに上記した文字認識アプリケーションを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、これらの各部131〜135の一部または全ては、例えばIC(Integrated Circuit)等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。コンピュータに実行させる文字認識アプリケーションは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて文字認識装置10にダウンロードされてもよい。   The processing unit 13 includes a first display processing unit 131, a character recognition processing unit 132, a second display processing unit 133, a third display processing unit 134, and a search processing unit 135. A part or all of each of the units 131 to 135 included in the processing unit 13 is realized, for example, by causing a computer to execute the character recognition application described above, that is, by software. Note that some or all of these units 131 to 135 may be realized by hardware such as an IC (Integrated Circuit) or may be realized as a combined configuration of software and hardware. The character recognition application to be executed by the computer may be stored in a computer-readable storage medium and distributed, or may be downloaded to the character recognition device 10 through a network.

第1表示処理部131は、カメラ11によって撮像された画像を取得する。なお、第1表示処理部131は、例えば格納部12に格納されている画像を取得しても構わない。また、第1表示処理部131は、例えば文字認識装置10の外部のサーバ装置等から画像を取得してもよい。第1表示処理部131は、取得された画像を表示部14に表示する。   The first display processing unit 131 acquires an image captured by the camera 11. Note that the first display processing unit 131 may acquire an image stored in the storage unit 12, for example. In addition, the first display processing unit 131 may acquire an image from, for example, a server device external to the character recognition device 10. The first display processing unit 131 displays the acquired image on the display unit 14.

文字認識処理部132は、第1表示処理部131によって表示された画像(カメラ11によって撮像された画像)から文字を認識する処理(以下、文字認識処理と表記)を実行する。   The character recognition processing unit 132 executes processing for recognizing characters from the image (image captured by the camera 11) displayed by the first display processing unit 131 (hereinafter referred to as character recognition processing).

第2表示処理部133は、文字認識処理部132による文字認識処理の実行の開始から、当該文字認識処理の結果が取得されるまでの間(つまり、文字認識処理の実行中)に、当該文字認識処理が実行中であることを表す情報(以下、フィードバック情報と表記)を表示部14に表示する。なお、フィードバック情報は、例えば画像に含まれる文字の位置を示す情報を含み、上記したように文字認識処理が終了する前に表示される。   The second display processing unit 133 starts the character recognition processing by the character recognition processing unit 132 until the result of the character recognition processing is acquired (that is, during execution of the character recognition processing). Information indicating that the recognition process is being executed (hereinafter referred to as feedback information) is displayed on the display unit 14. Note that the feedback information includes, for example, information indicating the position of the character included in the image, and is displayed before the character recognition process ends as described above.

第3表示処理部134は、文字認識処理部132による文字認識処理が終了した場合に、当該文字認識処理の結果を表示部14に表示する。   The third display processing unit 134 displays the result of the character recognition processing on the display unit 14 when the character recognition processing by the character recognition processing unit 132 is completed.

検索処理部135は、第3の表示処理部134によって表示された文字認識処理の結果を用いた検索処理を実行する。なお、検索処理部135による検索処理の結果は、表示部14に表示される。   The search processing unit 135 executes a search process using the result of the character recognition process displayed by the third display processing unit 134. Note that the result of the search processing by the search processing unit 135 is displayed on the display unit 14.

表示部14は、文字認識装置10に備えられる例えばタッチパネルディスプレイ等を用いて実現される。   The display unit 14 is realized using, for example, a touch panel display provided in the character recognition device 10.

なお、上記したタッチパネルディスプレイには、当該タッチパネルディスプレイの画面上の指(またはペン)の接触位置を検出することが可能な例えば静電容量方式のタッチパネル等が組み込まれている。これによれば、ユーザは、タッチパネルディスプレイの画面に指を接触させる(タッチする)ことにより文字認識装置10に対する操作を行うことが可能である。   The touch panel display described above incorporates, for example, a capacitive touch panel that can detect the contact position of a finger (or pen) on the screen of the touch panel display. According to this, the user can operate the character recognition device 10 by bringing a finger into contact with (touching) the screen of the touch panel display.

次に、図2のフローチャートを参照して、本実施形態に係る文字認識装置10の処理手順の一例について説明する。   Next, an example of a processing procedure of the character recognition device 10 according to the present embodiment will be described with reference to the flowchart of FIG.

なお、図2に示す処理は、例えば文字認識装置10において上記した文字認識アプリケーションが起動された際に処理部13によって実行されるものとする。   2 is executed by the processing unit 13 when the character recognition application described above is activated in the character recognition device 10, for example.

まず、文字認識装置10において文字認識アプリケーションが起動されると、第1表示処理部131は、カメラ11によって撮像された画像を取得する。ここで、上記したように文字認識装置10がスマートフォン等であるものとすると、当該文字認識装置10には、ユーザがカメラ11に対して画像の撮像を指示するためのボタン(例えば、シャッターボタン)が設けられている。この場合、第1表示処理部131は、例えばユーザがシャッターボタンを押下することによってカメラ11によって撮像された静止画像を取得する。第1表示処理部131は、このように取得された画像を表示部14に表示する(ステップS1)。なお、第1表示処理部131によって取得された画像は、例えば格納部12に格納(蓄積)されるものとする。ここでは、カメラ11によって撮像された静止画像が取得されて表示部14に表示されるものとして説明するが、カメラ11によって撮像された動画像が取得されて表示部14に表示されても構わない。   First, when a character recognition application is activated in the character recognition device 10, the first display processing unit 131 acquires an image captured by the camera 11. Here, if the character recognition device 10 is a smartphone or the like as described above, a button (for example, a shutter button) for the user to instruct the camera 11 to take an image is provided on the character recognition device 10. Is provided. In this case, the first display processing unit 131 acquires a still image captured by the camera 11 when the user presses the shutter button, for example. The first display processing unit 131 displays the image acquired in this way on the display unit 14 (step S1). It is assumed that the image acquired by the first display processing unit 131 is stored (accumulated) in the storage unit 12, for example. Here, a description will be given assuming that a still image captured by the camera 11 is acquired and displayed on the display unit 14, but a moving image captured by the camera 11 may be acquired and displayed on the display unit 14. .

次に、文字認識処理部132は、ステップS1において表示された画像に含まれる文字(列)を認識するために文字認識処理を実行する(ステップS2)。   Next, the character recognition processing unit 132 executes character recognition processing to recognize the character (string) included in the image displayed in step S1 (step S2).

ここで、文字認識処理においては、ステップS1において表示された画像から文字列を含む一部の領域(以下、文字列領域と表記)を検出する処理が実行される。次に、検出された文字列領域に含まれる文字列を認識する処理が実行され、文字認識処理の結果(以下、文字認識結果と表記)として、当該文字列を表すテキストが取得される。   Here, in the character recognition process, a process of detecting a partial area including a character string (hereinafter referred to as a character string area) from the image displayed in step S1 is executed. Next, a process for recognizing a character string included in the detected character string area is executed, and text representing the character string is acquired as a result of the character recognition process (hereinafter referred to as a character recognition result).

なお、文字認識処理部132は、上記したように取得されたテキストに対して翻訳処理を実行しても構わない。この翻訳処理によれば、テキストが予め設定された言語に翻訳された結果(つまり、当該テキストの翻訳文)を取得することができる。   Note that the character recognition processing unit 132 may perform translation processing on the text acquired as described above. According to this translation process, it is possible to obtain a result of text being translated into a preset language (that is, a translation of the text).

すなわち、本実施形態における文字認識結果は、上記した画像(文字列領域)に含まれる文字列を表すテキストであってもよいし、当該テキストが翻訳された翻訳文であっても構わない。   That is, the character recognition result in the present embodiment may be a text representing a character string included in the above-described image (character string region), or may be a translated sentence obtained by translating the text.

また、本実施形態においては、上記した画像から文字列領域を検出する処理及び当該検出された文字列領域に含まれる文字列を認識する処理(当該文字列を表すテキストを取得する処理)を含む処理を文字認識処理として主に説明するが、これらの処理に上記したテキストに対する翻訳処理を加えた一連の処理を文字認識処理としても構わない。   Further, the present embodiment includes a process for detecting a character string area from the above-described image and a process for recognizing a character string included in the detected character string area (a process for acquiring text representing the character string). Although the processing is mainly described as character recognition processing, a series of processing obtained by adding the above-described translation processing to the text may be used as the character recognition processing.

ここで、上記した文字認識処理において文字認識結果を取得するまでには一定の処理時間が必要である。このため、第2表示処理部133は、文字認識処理部132による文字認識処理が実行されている間(つまり、文字認識結果が取得されるまでの間)に、当該文字認識処理が実行中であることを表すフィードバック情報を表示する(ステップS3)。なお、フィードバック情報は、文字認識に関する処理状況を、当該文字認識装置10を使用するユーザにフィードバックするための情報である。   Here, a certain processing time is required until a character recognition result is acquired in the character recognition processing described above. For this reason, the second display processing unit 133 is executing the character recognition processing while the character recognition processing by the character recognition processing unit 132 is being executed (that is, until the character recognition result is acquired). Feedback information representing the presence is displayed (step S3). The feedback information is information for feeding back the processing status related to character recognition to the user who uses the character recognition device 10.

具体的には、第2表示処理部133は、フィードバック情報として、例えば上記した文字認識処理(文字列領域を検出する処理)において文字があると推定された画像上の一部領域(つまり、画像上の文字があるらしい領域)を表示するものとする。なお、表示部14に表示されるフィードバック情報の具体例については後述する。   Specifically, the second display processing unit 133 uses, for example, a partial area (that is, an image) on the image that is estimated to include characters in the character recognition process (process for detecting a character string area) as feedback information. It is assumed that a region where there is a character above) is displayed. A specific example of feedback information displayed on the display unit 14 will be described later.

ステップS3の処理が実行されると、上記した文字認識処理部132による文字認識処理が終了したか否かが判定される(ステップS4)。   When the process of step S3 is executed, it is determined whether or not the character recognition process by the character recognition processing unit 132 is completed (step S4).

文字認識処理が終了したと判定された場合(ステップS4のYES)、文字認識処理部132によって上記した文字認識結果が取得される。第3表示処理部134は、文字認識処理部132によって取得された文字認識結果を表示部14に表示する(ステップS5)。なお、上記したように文字認識処理に翻訳処理が含まれる場合には、当該翻訳処理が完了した(翻訳文が取得された)時点で文字認識処理が終了したと判定されるものとする。   When it is determined that the character recognition process is completed (YES in step S4), the character recognition processing unit 132 acquires the character recognition result described above. The third display processing unit 134 displays the character recognition result acquired by the character recognition processing unit 132 on the display unit 14 (step S5). As described above, when the translation process is included in the character recognition process, it is determined that the character recognition process is completed when the translation process is completed (a translated sentence is acquired).

一方、文字認識処理が終了していないと判定された場合(ステップS4のNO)、ステップS3に戻って処理が繰り返される。すなわち、図2に示す処理においては、文字認識処理が終了するまで、上記したフィードバック情報の表示が維持される。なお、フィードバック情報は、例えば文字認識処理の進捗(処理状況)に応じて更新される(つまり、異なるフィードバック情報が表示される)ような構成であってもよい。   On the other hand, if it is determined that the character recognition process has not ended (NO in step S4), the process returns to step S3 and the process is repeated. That is, in the process shown in FIG. 2, the display of the feedback information described above is maintained until the character recognition process is completed. The feedback information may be configured to be updated (that is, different feedback information is displayed) according to the progress (processing status) of the character recognition process, for example.

以下、文字認識装置10において文字認識処理が実行される際の表示部14に表示される画面(以下、表示画面と表記)の遷移例について具体的に説明する。   Hereinafter, a transition example of a screen (hereinafter referred to as a display screen) displayed on the display unit 14 when the character recognition process is executed in the character recognition device 10 will be specifically described.

上記したように文字認識装置10において文字認識アプリケーションが起動され、カメラ11によって画像が撮像された場合、表示部14には、当該画像(を含む表示画面)が表示される。   As described above, when the character recognition application is activated in the character recognition device 10 and an image is captured by the camera 11, the image (including the display screen) is displayed on the display unit 14.

ここで、図3は、上記したカメラ11によって撮像された画像(以下、撮像画像と表記)が表示された場合における表示画面の一例を示す。   Here, FIG. 3 shows an example of a display screen in a case where an image captured by the camera 11 (hereinafter referred to as a captured image) is displayed.

図3に示すように、表示画面には、第1の領域141及び第2の領域142が設けられている。   As shown in FIG. 3, the display screen is provided with a first area 141 and a second area 142.

第1の領域141は、撮像画像(静止画像)が表示される領域である。図3に示す例では、第1の領域141には、「○○駅 この先右折」の文字(列)が記載された看板を含む撮像画像300が表示されている。   The first area 141 is an area where a captured image (still image) is displayed. In the example illustrated in FIG. 3, the first region 141 displays a captured image 300 including a signboard on which characters (columns) of “XX station this right turn” are described.

第2の領域142は、例えば第1の領域141に表示された撮像画像に対して文字認識処理が実行された結果(文字認識結果)が表示される領域である。文字認識処理が実行される前の時点では、図3に示すように、第2の領域142は空欄となっている。   The second area 142 is an area in which, for example, a result (character recognition result) obtained by performing character recognition processing on the captured image displayed in the first area 141 is displayed. At a point before the character recognition process is executed, the second area 142 is blank as shown in FIG.

次に、図3に示す画像300に対して文字認識処理が実行される。この文字認識処理においては、例えば上記したように文字列領域を検出する処理及び当該文字列領域に含まれる文字列を表すテキストを取得する処理等が実行される。   Next, a character recognition process is performed on the image 300 shown in FIG. In this character recognition process, for example, as described above, a process of detecting a character string area, a process of acquiring text representing a character string included in the character string area, and the like are executed.

ここで、本実施形態において、上記した文字認識処理が実行されている間には、当該文字認識処理が実行中であることを表すフィードバック情報が表示される。   Here, in the present embodiment, while the character recognition process described above is being executed, feedback information indicating that the character recognition process is being executed is displayed.

以下、このフィードバック情報について具体的に説明する。本実施形態において、フィードバック情報には、例えば撮像画像を構成する画素毎の文字があるらしい度合い(以下、尤度と表記)を表す尤度マップ画像(尤度情報に基づく情報)が含まれる。   Hereinafter, this feedback information will be specifically described. In the present embodiment, the feedback information includes, for example, a likelihood map image (information based on likelihood information) representing a degree that there is a character for each pixel constituting the captured image (hereinafter referred to as likelihood).

この場合、第2表示処理部133は、例えば撮像画像(元画像)から複数の文字候補領域を抽出し、当該文字候補領域の各々に含まれる各画素の尤度に例えば1を加算する(即ち、画素の尤度を高くする)。なお、文字候補領域とは、例えば撮像画像中の文字が存在する可能性のある画像の一部領域をいう。この文字候補領域の抽出は、例えば撮像画像の各画素の輝度値に基づいてエッジ等の特徴部分を抽出し、文字らしさの特徴を有する領域を特定することによって行われる。なお、上記したように文字候補領域は複数抽出されるが、文字候補領域として抽出される回数の多い画素の尤度は高くなり、当該文字候補領域として抽出される回数の低い画素の尤度は低くなる。第2表示処理部133は、このような処理により得られる各画素の尤度に応じた色彩を当該各画素に付与することによって尤度マップ画像を生成する。すなわち、本実施形態において、フィードバック情報は色彩情報を含む。上記尤度マップの作成方法は一例であり、他の公知技術を用いて尤度マップを作成してもよい。   In this case, the second display processing unit 133 extracts, for example, a plurality of character candidate areas from the captured image (original image), and adds, for example, 1 to the likelihood of each pixel included in each of the character candidate areas (that is, , Increase the likelihood of the pixel). In addition, a character candidate area | region means the partial area | region of the image in which the character in a captured image may exist, for example. The extraction of the character candidate area is performed by extracting a characteristic part such as an edge based on the luminance value of each pixel of the captured image and specifying an area having character-like characteristics. As described above, a plurality of character candidate areas are extracted, but the likelihood of a pixel that is extracted many times as a character candidate area is high, and the likelihood of a pixel that is extracted as a character candidate area is low. Lower. The 2nd display process part 133 produces | generates a likelihood map image by providing the color according to the likelihood of each pixel obtained by such a process to each said pixel. That is, in the present embodiment, the feedback information includes color information. The method of creating the likelihood map is an example, and the likelihood map may be created using another known technique.

本実施形態において、第2表示処理部133によって生成された尤度マップ画像は、例えば文字認識処理の実行が開始された後、文字列領域が検出されるまでの間、表示部14に表示される。   In the present embodiment, the likelihood map image generated by the second display processing unit 133 is displayed on the display unit 14 until, for example, the character string region is detected after the execution of the character recognition process is started. The

ここで、図4は、フィードバック情報として尤度マップ画像が表示された場合における表示画面の一例を示す。   Here, FIG. 4 shows an example of a display screen when a likelihood map image is displayed as feedback information.

図4に示すように、尤度マップ画像400は、例えば第1の領域141に表示されている撮像画像300上に表示される。なお、図4に示す尤度マップ画像400中の領域401は、尤度の低い画素を含む領域(つまり、文字の存在する可能性の低い領域)を示す。一方、尤度マップ画像400中の領域402は、尤度の高い画素を含む領域(つまり、文字の存在する可能性の高い領域)を示す。   As shown in FIG. 4, the likelihood map image 400 is displayed on the captured image 300 displayed in the first region 141, for example. Note that an area 401 in the likelihood map image 400 illustrated in FIG. 4 indicates an area including pixels with low likelihood (that is, an area where there is a low possibility that a character exists). On the other hand, a region 402 in the likelihood map image 400 indicates a region including pixels with a high likelihood (that is, a region having a high possibility that a character exists).

具体的には、尤度マップ画像400において、例えば尤度が予め定められた値よりも低い領域401は黒(またはグレー等)で表され、尤度が予め定められた値よりも高い領域402は白で表されるものとする。   Specifically, in the likelihood map image 400, for example, a region 401 whose likelihood is lower than a predetermined value is represented by black (or gray or the like), and a region 402 whose likelihood is higher than a predetermined value. Shall be represented in white.

なお、ここでは例えば領域402が1つの色(白色)で表されるものとして説明したが、当該領域402は、例えば各画素の尤度に応じた複数の色彩(カラー)で表されても構わない。   Here, for example, the region 402 has been described as being represented by one color (white), but the region 402 may be represented by a plurality of colors (colors) according to the likelihood of each pixel, for example. Absent.

これによれば、文字認識装置10を使用するユーザは、文字認識装置10において文字認識処理が実行中であること、及び領域402が当該文字認識装置10によって文字があると推定されている領域であること(つまり、文字認識装置10が文字らしいと認識している画像中の箇所)を把握することができる。   According to this, the user who uses the character recognition device 10 is that the character recognition process is being executed in the character recognition device 10, and the region 402 is an area where the character recognition device 10 is estimated to have a character. It is possible to grasp the fact (that is, the part in the image that the character recognition device 10 recognizes as being a character).

なお、図4においては尤度マップ画像400が撮像画像300上に重畳表示されるものとして説明したが、例えば文字認識処理が開始された時点で当該撮像画像300は非表示とし、尤度マップ画像400のみが表示されるような構成としても構わない。   In FIG. 4, the likelihood map image 400 is described as being superimposed on the captured image 300. However, for example, when the character recognition process is started, the captured image 300 is not displayed, and the likelihood map image is displayed. It may be configured such that only 400 is displayed.

また、ここでは尤度マップ画像400が表示されるものとして説明したが、当該尤度マップ画像400の代わりに、例えば図5に示す複数の文字候補領域(画像の一部領域)の各々を表す枠線(つまり、撮像画像300上の文字が存在する可能性のある領域を包含する枠線)500がフィードバック情報として撮像画像300上に表示されても構わない。なお、上記した尤度マップ画像400上に図5に示す枠線500を更に表示するようにしてもよい。このような枠線500を表示することによって、検出される文字列のおおよその大きさをユーザに対して提示することができる。なお、図5において枠線500は矩形形状を有しているが、当該枠線500は他の形状(例えば、円形状等)であっても構わない。   Further, here, the likelihood map image 400 has been described as being displayed, but instead of the likelihood map image 400, for example, each of a plurality of character candidate regions (partial regions of the image) illustrated in FIG. A frame line (that is, a frame line including a region where a character on the captured image 300 may be present) 500 may be displayed on the captured image 300 as feedback information. Note that a frame 500 shown in FIG. 5 may be further displayed on the likelihood map image 400 described above. By displaying such a frame 500, the approximate size of the detected character string can be presented to the user. In FIG. 5, the frame line 500 has a rectangular shape, but the frame line 500 may have another shape (for example, a circular shape).

すなわち、本実施形態において、フィートバック情報(認識対象の位置を示す情報)は、画像の一部領域を示す情報または画像の一部領域を包含する枠線の情報等を含む。   That is, in the present embodiment, the footback information (information indicating the position of the recognition target) includes information indicating a partial area of the image, information on a frame line including the partial area of the image, and the like.

ここで、文字認識処理部132によって上記した文字列領域が検出された場合を想定する。   Here, it is assumed that the character string region described above is detected by the character recognition processing unit 132.

この場合、第2表示処理部133は、上記した尤度マップ画像400を非表示とし、フィードバック情報として、文字認識処理部132によって検出された文字列領域(の外接矩形)を表す枠線(以下、文字列領域の枠線と表記)を表示する。   In this case, the second display processing unit 133 hides the likelihood map image 400 described above, and uses a frame line (hereinafter referred to as a circumscribed rectangle) representing the character string region (the circumscribed rectangle) detected by the character recognition processing unit 132 as feedback information. , Displayed as a frame line of the character string area).

図6は、フィードバック情報として文字列領域の枠線が表示された場合における表示画面の一例を示す。   FIG. 6 shows an example of a display screen when a frame line of a character string area is displayed as feedback information.

図6に示すように、文字列領域の枠線は、例えば撮像画像300上に表示される。図6に示す例では、撮像画像300に含まれる看板に記載されている「○○駅」の文字列を含む文字列領域の枠線601及び「この先右折」の文字列を含む文字列領域の枠線602が表示されている。   As shown in FIG. 6, the frame line of the character string area is displayed on the captured image 300, for example. In the example shown in FIG. 6, the frame line 601 of the character string region including the character string “XXX station” described on the signboard included in the captured image 300 and the character string region including the character string “turn right” are displayed. A frame line 602 is displayed.

図6に示す文字列領域の枠線601及び602は、例えば上記した文字認識処理において文字認識結果が取得されるまでの間、表示部14(第1の領域141)に表示される。   The frame lines 601 and 602 of the character string area shown in FIG. 6 are displayed on the display unit 14 (first area 141) until, for example, a character recognition result is acquired in the character recognition process described above.

これによれば、文字認識装置10を使用するユーザは、文字認識装置10において文字認識処理が実行中であること、及び枠線601及び602によって包含される領域が文字列領域として検出された領域であることを把握することができる。   According to this, the user who uses the character recognition device 10 is that the character recognition process is being executed in the character recognition device 10 and that the region included by the frame lines 601 and 602 is detected as the character string region. Can be understood.

なお、図6に示す枠線601及び602の各々によって包含される文字列領域の検出精度(確からしさ)に応じて、当該枠線601及び602の各々の表示態様(例えば、形状または色彩等)を変化させても構わない。文字列領域の検出精度としては、上記した撮像画像300を構成する画素の各々の尤度のうち、例えば当該文字列領域に含まれる画素の尤度の合計値を用いることができる。   In addition, according to the detection accuracy (certainty) of the character string area included by each of the frame lines 601 and 602 shown in FIG. 6, each display mode (for example, shape or color) of the frame lines 601 and 602 May be changed. As the detection accuracy of the character string region, for example, the total likelihood of the pixels included in the character string region among the likelihoods of the pixels constituting the captured image 300 can be used.

また、図6においては枠線601及び602の双方が表示された状態を示しているが、当該枠線601及び602は、全ての文字列領域の検出が終了した時点で表示されてもよいし、例えば各文字列領域が検出される度に順次表示されるようにしてもよい。   FIG. 6 shows a state in which both the frame lines 601 and 602 are displayed. However, the frame lines 601 and 602 may be displayed when the detection of all the character string regions is completed. For example, each character string area may be sequentially displayed each time it is detected.

なお、図6において枠線601及び602は矩形形状を有しているが、当該枠線601及び602は他の形状(例えば、円形状等)であっても構わない。   In FIG. 6, the frame lines 601 and 602 have a rectangular shape, but the frame lines 601 and 602 may have other shapes (for example, a circular shape).

ここで、文字認識処理が終了し、文字認識処理部132によって文字認識結果(例えば、文字列領域に含まれる文字列を表すテキスト)が取得された場合を想定する。   Here, it is assumed that the character recognition process ends and a character recognition result (for example, text representing a character string included in the character string area) is acquired by the character recognition processing unit 132.

この場合、第3表示処理部134は、上記した文字列領域の枠線を非表示とし、文字認識処理部132によって取得された文字認識結果を表示する。   In this case, the third display processing unit 134 displays the character recognition result acquired by the character recognition processing unit 132 while hiding the frame line of the character string area.

図7は、文字認識結果が表示された場合における表示画面の一例を示す。図7に示すように、文字認識結果は、表示画面に設けられている第2の領域142に表示される。   FIG. 7 shows an example of a display screen when a character recognition result is displayed. As shown in FIG. 7, the character recognition result is displayed in the second area 142 provided on the display screen.

図7に示す例では、撮像画像300に対する文字認識結果として「○○駅 この先右折」の文字列(を表すテキスト)が第2の領域142に表示されている。   In the example illustrated in FIG. 7, the character string “(representing text) of“ XX station this right turn ”” is displayed in the second region 142 as the character recognition result for the captured image 300.

ここでは文字列領域に含まれる文字列を表すテキストが文字認識結果として取得されたものとして説明するが、当該テキストが翻訳された結果(テキストの翻訳文)が文字認識結果として取得された場合には、当該テキストの翻訳文が第2の領域142に表示される。なお、テキスト及び当該テキストの翻訳文の双方が第2の領域142に表示されるようにしてもよい。   Here, the description will be made assuming that the text representing the character string included in the character string area is acquired as the character recognition result. However, when the translation result of the text (translated text) is acquired as the character recognition result The translation of the text is displayed in the second area 142. Note that both the text and the translation of the text may be displayed in the second area 142.

また、本実施形態においては表示画面に第1の領域141及び第2の領域142が設けられているものとして説明したが、例えば文字認識結果が取得されるまでは表示画面全体に第1の領域141が設けられており、上記した文字認識結果が取得された(つまり、文字認識結果が表示される)際に、第2の領域142を当該画面上に出現させるような構成としてもよい。   In the present embodiment, the first area 141 and the second area 142 are described as being provided on the display screen. However, for example, the first area is displayed on the entire display screen until a character recognition result is acquired. 141 is provided, and the second region 142 may appear on the screen when the character recognition result is acquired (that is, the character recognition result is displayed).

なお、文字列領域に含まれる文字列を表すテキストを取得する処理は、当該文字列領域毎に順次実行されるものとする。具体的には、例えば図6に示す枠線601によって表される文字列領域に含まれる文字列を表すテキストが取得された後に、枠線602によって表される文字列領域に含まれる文字列を表すテキストが取得される。   Note that the process of acquiring text representing a character string included in the character string area is sequentially executed for each character string area. Specifically, for example, after the text representing the character string included in the character string region represented by the frame line 601 illustrated in FIG. 6 is acquired, the character string included in the character string region represented by the frame line 602 is changed. The representing text is obtained.

ここで、図7に示す例では文字認識結果が取得された場合には文字列領域の枠線601及び602が非表示とされるものとして説明したが、文字認識結果が取得された場合であっても当該文字列領域の枠線601及び602の表示が維持されていても構わない。この場合、上記したように例えば図6に示す枠線601によって包含される文字列領域に含まれる文字列を表すテキストが取得された場合には当該枠線601が強調表示され、枠線602によって包含される文字列領域に含まれる文字列を表すテキストが取得された場合には当該枠線602が強調表示されるような構成とすることができる。具体的には、枠線601によって包含される文字列領域に含まれる文字列「○○駅」を表すテキストが取得された場合には、図8に示すように当該枠線601が強調表示される。その後、枠線602によって包含される文字列領域に含まれる文字列「この先右折」を表すテキストが取得された場合には、図9に示すように当該枠線602が強調表示される。   Here, in the example illustrated in FIG. 7, it is described that the frame lines 601 and 602 of the character string area are not displayed when the character recognition result is acquired, but this is the case where the character recognition result is acquired. However, the display of the frame lines 601 and 602 of the character string area may be maintained. In this case, as described above, for example, when the text representing the character string included in the character string region included by the frame line 601 illustrated in FIG. 6 is acquired, the frame line 601 is highlighted, and the frame line 602 When the text representing the character string included in the included character string region is acquired, the frame line 602 can be highlighted. Specifically, when the text representing the character string “XXX station” included in the character string region included by the frame line 601 is acquired, the frame line 601 is highlighted as shown in FIG. The Thereafter, when the text representing the character string “this turn right ahead” included in the character string area included by the frame line 602 is acquired, the frame line 602 is highlighted as shown in FIG.

なお、第2の領域142に表示された文字列(を表すテキスト)がユーザによって指定(選択)された場合に、当該指定された文字列に対応する文字列領域を包含する枠線が強調表示されるような構成であってもよい。具体的には、第2の領域142に表示された文字列「○○駅」が指定された場合には枠線601が強調表示され、一方、文字列「この先右折」が指定された場合には枠線602が強調表示される。   When a character string (representing text) displayed in the second area 142 is designated (selected) by the user, a frame line that includes the character string area corresponding to the designated character string is highlighted. It may be configured as described above. Specifically, when the character string “XX station” displayed in the second area 142 is designated, the frame line 601 is highlighted, while when the character string “this right turn” is designated. The frame line 602 is highlighted.

また、第2の領域142に表示された文字列「○○駅」が指定された場合には、枠線601のみが表示される(つまり、枠線602を非表示とする)ようにしてもよい。一方、文字列「この先右折」が指定された場合には、枠線602のみが表示される(つまり、枠線601は非表示とする)。   When the character string “XXX station” displayed in the second area 142 is designated, only the frame line 601 is displayed (that is, the frame line 602 is not displayed). Good. On the other hand, when the character string “turn right ahead” is designated, only the frame line 602 is displayed (that is, the frame line 601 is not displayed).

上記したような構成によれば、ユーザは、文字認識結果に対応する文字列領域(つまり、テキストが取得された文字列を含む文字列領域)を容易に把握することが可能となる。   According to the configuration described above, the user can easily grasp the character string region corresponding to the character recognition result (that is, the character string region including the character string from which the text is acquired).

また、文字列領域は検出されたが、当該文字列領域に含まれる文字列が認識可能な言語ではない(例えば、当該文字列が認識可能な言語の単語ではない文字の並びである)ような場合には、図10に示すように、当該文字(列)を認識することができない旨の結果が例えば第2の領域142に表示されるものとする。   In addition, the character string area is detected, but the character string included in the character string area is not a recognizable language (for example, the character string is a sequence of characters that are not recognizable language words). In this case, as shown in FIG. 10, a result indicating that the character (column) cannot be recognized is displayed in, for example, the second area 142.

なお、上記したように文字列領域を包含する枠線が表示されている場合には、文字列を認識することができない文字列領域を包含する枠線を例えば破線のような他の態様で表示するような構成としても構わない。例えば上記した枠線601によって包含される文字列領域に含まれる文字列は認識することが可能であるが、枠線602によって包含される文字列領域に含まれる文字列は認識することができないような場合には、図11に示すように、枠線602を破線で表示することができる。なお、ここでは文字列を認識することができない文字列領域を包含する枠線602を破線で表しているが、当該枠線602は、例えば異なる色彩(文字を認識することができないことを表す色彩)で表示してもよいし、非表示としてもよい。   In addition, when the frame line including the character string region is displayed as described above, the frame line including the character string region that cannot recognize the character string is displayed in another manner such as a broken line. It does not matter if such a configuration is used. For example, it is possible to recognize a character string included in the character string region included by the frame line 601 described above, but not to recognize a character string included in the character string region included by the frame line 602. In such a case, the frame line 602 can be displayed as a broken line as shown in FIG. Here, a frame line 602 that includes a character string region in which a character string cannot be recognized is indicated by a broken line. However, the frame line 602 may have, for example, different colors (colors indicating that a character cannot be recognized). ) Or may be hidden.

なお、上記した図2に示す処理は、例えばユーザがシャッターボタンを押下することによってカメラ11によって画像が撮像される度に実行されるものとする。このような場合において、例えばカメラ11によって第1の画像が撮像された場合には第2の領域142に当該第1の画像に対する文字認識結果が表示され、その後、カメラ11によって第2の画像が撮像された場合には第2の領域142に当該第2の画像に対する文字認識結果が表示される。ここで、例えば第2の画像が撮像された後に第1の画像に対する文字認識結果を確認したい場合には、再度第1の画像をカメラ11で撮像して文字認識処理を実行する(または、第1の画像を例えば格納部12から取得して文字認識処理を実行する)必要がある。これは、ユーザにとっては非常に煩雑である。   Note that the above-described processing illustrated in FIG. 2 is executed each time an image is captured by the camera 11 when the user presses a shutter button, for example. In such a case, for example, when a first image is captured by the camera 11, a character recognition result for the first image is displayed in the second area 142, and then the second image is displayed by the camera 11. When the image is captured, a character recognition result for the second image is displayed in the second area 142. Here, for example, when it is desired to confirm the character recognition result for the first image after the second image is captured, the first image is captured again by the camera 11 and the character recognition process is executed (or the first image is recognized). For example, it is necessary to acquire one image from the storage unit 12 and execute character recognition processing). This is very cumbersome for the user.

このため、本実施形態において、第2の領域142には、文字認識結果の履歴が表示されるものとする。具体的には、上記したように第1の画像が撮像された後に第2の画像が撮像されたような場合には、第2の領域142には、第1の画像に対する文字認識結果及び第2の画像に対する文字認識結果の双方が表示される。他の画像に対する文字認識処理が更に実行された場合には、当該他の画像に対する文字認識結果が第2の領域142に追加される。この場合、第2の領域142には、第1の画像に対する文字認識結果に対応づけて第1の画像(のサムネイル画像)、第2の画像に対する文字認識結果に対応づけて第2の画像(のサムネイル画像)が更に表示されるようにしてもよい。   For this reason, in the present embodiment, it is assumed that a history of character recognition results is displayed in the second area 142. Specifically, when the second image is captured after the first image is captured as described above, the second region 142 includes the character recognition result and the first image for the first image. Both character recognition results for the second image are displayed. When the character recognition process for another image is further executed, the character recognition result for the other image is added to the second area 142. In this case, in the second area 142, the first image (the thumbnail image thereof) is associated with the character recognition result for the first image, and the second image (the thumbnail image) is associated with the character recognition result for the second image. (Thumbnail image) may be further displayed.

なお、上記した第1の画像及び第2の画像は、上記したように静止画像であってもよいし、例えば表示部14(第1の領域141)にリアルタイムに表示される動画像を構成する画像であっても構わない。   The first image and the second image described above may be still images as described above. For example, the first image and the second image constitute a moving image displayed in real time on the display unit 14 (first region 141). It may be an image.

また、主として表示部14にリアルタイムに表示される動画像を構成する画像の各々に対して文字認識処理が実行される場合には、同一の文字認識結果が重複して取得される場合がある。このような場合に、同一の文字認識結果が文字認識結果の履歴として第2の領域142に表示されることは、ユーザにとって有用ではない。このため、本実施形態においては、過去に取得された文字認識結果(テキスト)と同一の文字認識結果が取得された場合には、当該文字認識結果はまとめて(つまり、1つの文字認識結果として)第2の領域142に表示するものとする。   Further, when the character recognition process is performed on each of the images constituting the moving image displayed mainly on the display unit 14 in real time, the same character recognition result may be obtained in duplicate. In such a case, it is not useful for the user that the same character recognition result is displayed in the second area 142 as a history of character recognition results. For this reason, in this embodiment, when the same character recognition result as the character recognition result (text) acquired in the past is acquired, the said character recognition result is put together (that is, as one character recognition result). ) It shall be displayed in the second area 142.

なお、単に同一の文字認識結果をまとめて表示するのではなく、例えば画像同士のマッチングまたは文字認識装置10(カメラ11)の位置等に基づく撮像対象(つまり、被写体)等の情報に基づいて、同一の文字列領域(または同一の被写体を含む撮像画像)に対する文字認識結果のみをまとめて表示するような構成としても構わない。具体的には、例えばサイズが正規化された複数の画像間で相関をとることによって当該複数の画像の類似を判定し、類似と判定された複数の画像から取得された文字認識結果はまとめて表示するというような構成とすることができる。   Instead of simply displaying the same character recognition results together, for example, based on information such as matching between images or an imaging target (that is, a subject) based on the position of the character recognition device 10 (camera 11), etc. Only the character recognition results for the same character string area (or captured images including the same subject) may be displayed together. Specifically, for example, the similarity of the plurality of images is determined by correlating the plurality of images whose sizes are normalized, and the character recognition results obtained from the plurality of images determined to be similar are collected together. It can be configured to display.

同様に、例えば文字認識装置10の位置及びカメラ11の向きの情報等に基づいて撮像対象の同一性を判別することによって同一の文字列領域に対する文字認識結果をまとめて表示するような構成とすることも可能である。   Similarly, for example, it is configured such that the character recognition results for the same character string region are collectively displayed by determining the identity of the imaging target based on the information of the position of the character recognition device 10 and the orientation of the camera 11, for example. It is also possible.

すなわち、本実施形態においては、複数の画像の各々に含まれる撮像対象(第1認識対象及び第2認識対象)が同一である場合、当該複数の画像の各々に対する文字認識結果の何れか一つの表示処理(例えば第1認識対象の認識結果の表示処理)が実行される構成とすることができる。   That is, in this embodiment, when the imaging target (the first recognition target and the second recognition target) included in each of the plurality of images is the same, any one of the character recognition results for each of the plurality of images. It can be set as the structure by which a display process (For example, the display process of the recognition result of the 1st recognition object) is performed.

なお、撮像対象の同一性を判別する構成の場合、当該判別処理は、文字認識処理が実行される前に実行されても構わない。このような構成によれば、撮像対象が同一である場合には、当該撮像対象(文字列領域)に対する文字認識処理を省略することが可能となり、文字認識装置10における処理量を低減することが可能となる。   In the case of the configuration for determining the identity of the imaging target, the determination process may be executed before the character recognition process is executed. According to such a configuration, when the imaging target is the same, it is possible to omit the character recognition processing for the imaging target (character string region), and to reduce the processing amount in the character recognition device 10. It becomes possible.

上記した文字認識装置10の位置は、例えば文字認識装置10(例えば、スマートフォン)に備えられるGPS機能等により取得することが可能である。また、カメラ11の向きの情報は、例えば文字認識装置10に備えられる加速度センサ等によって判別(検出)することが可能である。   The position of the character recognition device 10 described above can be acquired by, for example, a GPS function provided in the character recognition device 10 (for example, a smartphone). Further, the orientation information of the camera 11 can be determined (detected) by an acceleration sensor or the like provided in the character recognition device 10, for example.

なお、複数の文字認識結果が第2の領域142に表示されていることによって、当該第2の領域142に新たな文字認識結果を追加(表示)することができない(つまり、新たな文字認識結果を追加するスペースが第2の領域142にない)場合には、過去の文字認識結果が取得された順に第2の領域142から削除されるようにしてもよい。   In addition, since a plurality of character recognition results are displayed in the second area 142, a new character recognition result cannot be added (displayed) to the second area 142 (that is, a new character recognition result). In the second area 142), it may be deleted from the second area 142 in the order in which past character recognition results are acquired.

また、本実施形態においては第1の領域141に表示されている画像(撮像画像)に対する文字認識結果及び文字認識結果の履歴の双方が第2の領域142に表示されるものとして説明したが、当該第1の領域141に表示されている画像に対する文字認識結果が表示される領域と、文字認識結果の履歴が表示される領域とは別個に設けられていてもよい。   In the present embodiment, it has been described that both the character recognition result for the image (captured image) displayed in the first region 141 and the history of the character recognition result are displayed in the second region 142. The area where the character recognition result for the image displayed in the first area 141 is displayed and the area where the history of the character recognition result is displayed may be provided separately.

なお、本実施形態においては第2の領域142に文字認識結果の履歴が表示されるものとして説明したが、表示部14にリアルタイムに動画像が表示されているような場合には、当該動画像(リアルタイムに表示されている画像)に対する文字認識結果のみが表示され、文字認識結果の履歴(つまり、過去の文字認識結果)は表示されないようにしてもよい。すなわち、文字認識の対象となる画像の種類(静止画像または動画像)等に応じて文字認識結果の履歴の表示及び非表示灯が切り替えられるような構成とすることも可能である。   In the present embodiment, the history of character recognition results is described as being displayed in the second area 142. However, when a moving image is displayed on the display unit 14 in real time, the moving image is displayed. Only the character recognition result for the (image displayed in real time) may be displayed, and the history of character recognition results (that is, past character recognition results) may not be displayed. That is, it is also possible to adopt a configuration in which the display of the history of character recognition results and the non-indicating lamp can be switched in accordance with the type of image (a still image or a moving image) to be subjected to character recognition.

ここで、上記したように文字認識処理が実行されることによって取得される文字認識結果は第2の領域142に表示されるが、本実施形態においては、当該第2の領域142に表示された文字認識結果を検索処理に用いることができる。   Here, the character recognition result obtained by executing the character recognition process as described above is displayed in the second area 142, but in the present embodiment, the character recognition result is displayed in the second area 142. Character recognition results can be used for search processing.

以下、図12のフローチャートを参照して、文字認識結果を検索処理に用いる場合の文字認識装置10の処理手順の一例について説明する。   Hereinafter, an example of a processing procedure of the character recognition device 10 when the character recognition result is used for the search process will be described with reference to the flowchart of FIG.

ここでは、上記した図2に示す処理が実行されることによって、第2の領域142に文字認識結果が表示されている場合を想定する。この場合、文字認識装置10を使用するユーザは、第2の領域142に表示された文字認識結果を指定する操作(以下、指定操作と表記)を行うことができる。なお、文字認識装置10がタッチパネルディスプレイを備える構成の場合、指定操作は、例えば第2の領域142に表示されている文字認識結果を指でタッチする操作等を含む。   Here, it is assumed that the character recognition result is displayed in the second area 142 by executing the process shown in FIG. In this case, a user who uses the character recognition device 10 can perform an operation (hereinafter referred to as a designation operation) for designating the character recognition result displayed in the second area 142. When the character recognition device 10 includes a touch panel display, the designation operation includes, for example, an operation of touching a character recognition result displayed in the second region 142 with a finger.

このような指定操作がユーザによって行われた場合、処理部13に含まれる検索処理部135は、当該指定操作によって指定された文字認識結果を取得する(ステップS11)。なお、ステップS11において取得された文字認識結果は、例えば上述した撮像画像に含まれる文字列を表すテキスト等を含む。   When such a designation operation is performed by the user, the search processing unit 135 included in the processing unit 13 acquires a character recognition result designated by the designation operation (step S11). Note that the character recognition result acquired in step S11 includes, for example, text representing a character string included in the captured image described above.

次に、検索処理部135は、ステップS11において取得された文字認識結果に基づいて検索処理を実行する(ステップS12)。この検索処理においては、例えば文字認識結果(テキスト)を検索キーワードとしてインターネットを介してWebページ(サイト)が検索される。   Next, the search processing unit 135 executes a search process based on the character recognition result acquired in step S11 (step S12). In this search process, for example, a Web page (site) is searched via the Internet using a character recognition result (text) as a search keyword.

ステップS12における検索処理の結果(以下、検索結果と表記)は、表示部14に表示される(ステップS13)。この場合、検索結果は、例えば第2の領域142に表示されるものとする。   The result of the search process in step S12 (hereinafter referred to as search result) is displayed on the display unit 14 (step S13). In this case, the search result is displayed in the second area 142, for example.

ここで、上記した図12に示す処理について具体的に説明する。ここでは、上記した撮像画像300に対する文字認識結果として「○○駅 この先右折」を表すテキストが第2の領域142に表示されているものとする。   Here, the process shown in FIG. 12 will be specifically described. Here, it is assumed that text representing “XX station this right turn” is displayed in the second area 142 as a result of character recognition for the captured image 300 described above.

この場合、ユーザは、例えば第2の領域142に表示されているテキストを構成する複数の単語のうちの少なくとも1つを指定する指定操作を行うことができるものとする。この場合、ユーザは、例えば「○○駅」の部分を検索キーワードとして指定する(タッチする)ことができる。   In this case, it is assumed that the user can perform a designation operation for designating at least one of a plurality of words constituting the text displayed in the second area 142, for example. In this case, for example, the user can designate (touch) the part of “XX station” as a search keyword.

これによれば、検索処理部135は、「○○駅」を検索キーワードとしてWebページを検索する。この場合、第2の領域142には、例えば○○駅の時刻表(を含むWebページ)等を含む検索結果が例えばサムネイル形式で表示される。なお、検索結果としては、例えば検索キーワードに合致する度合い(スコア)が上位の予め定められた数のWebページが表示されればよい。   According to this, the search processing unit 135 searches the Web page using “XX station” as a search keyword. In this case, in the second area 142, for example, search results including a timetable (including a web page) of XX station are displayed in, for example, a thumbnail format. As a search result, for example, a predetermined number of Web pages having a higher degree of matching (score) with a search keyword may be displayed.

ユーザは、このような検索結果(サムネイル)を第2の領域142において指定することにより、例えば○○駅の時刻表(を含むWebページ)を表示部14(第1の領域141または画面全体等)に表示させることができる。   The user designates such a search result (thumbnail) in the second area 142 to display, for example, a timetable (including a Web page) of the station XX (including the first area 141 or the entire screen). ) Can be displayed.

なお、本実施形態において、文字認識結果は撮像画像に含まれる文字列を表すテキストの翻訳文であってもよい。このような文字認識結果(翻訳文)を用いてWebページを検索する場合には、当該翻訳文に基づいて検索処理が実行されてもよいし、翻訳前のテキストに基づいて検索処理が実行されてもよい。   In the present embodiment, the character recognition result may be a translation of a text representing a character string included in the captured image. When searching for a Web page using such a character recognition result (translated sentence), the search process may be executed based on the translated sentence, or the search process may be executed based on the text before translation. May be.

ここではWebページが検索されるものとして説明したが、例えば文字認識装置10にインストールされているアプリケーション(プログラム)等が検索されるような構成でもよい。上記したように「○○駅」が検索キーワードとして指定された場合には、例えば鉄道の乗換案内等に用いられるアプリケーションが検索され、当該アプリケーションが自動的に起動されるような構成であってもよい。また、例えば地図(情報)を表示するアプリケーションが検索され、検索キーワードとして指定された○○駅の周辺の地図が自動的に表示されても構わない。   Here, the description has been made assuming that the Web page is searched. However, for example, a configuration in which an application (program) installed in the character recognition device 10 is searched may be used. As described above, when “XX station” is designated as a search keyword, an application used for, for example, railway transfer guidance is searched, and the application is automatically started. Good. In addition, for example, an application for displaying a map (information) may be searched, and a map around the station designated as a search keyword may be automatically displayed.

また、アプリケーション以外にも、例えば格納部12に格納されている各種コンテンツ等が検索される構成であってもよい。上記したように格納部12にカメラ11によって撮像された画像が格納(蓄積)されているような場合には、ユーザによって指定された文字認識結果が取得された画像が当該格納部12から検索されて、表示部14(例えば、第1の領域141)に表示されても構わない。この場合、画像と当該画像に対する文字認識結果とは、文字認識装置10(格納部12)において対応づけられていればよい。   In addition to the application, for example, various contents stored in the storage unit 12 may be searched. When the image captured by the camera 11 is stored (accumulated) in the storage unit 12 as described above, an image from which the character recognition result designated by the user is acquired is retrieved from the storage unit 12. Then, it may be displayed on the display unit 14 (for example, the first region 141). In this case, the image and the character recognition result for the image may be associated with each other in the character recognition device 10 (storage unit 12).

なお、格納部12において画像に対応づけて当該画像が撮像された位置を示す位置情報を格納しておくことにより、文字認識結果が指定された場合に、当該文字認識結果が取得された画像とともに当該画像が撮像された位置を表示することができる。このような構成によれば、例えば飲食店の名称等が記載された看板の画像を複数枚撮像していたような場合において、第2の領域142においてユーザが希望する飲食店の名称を指定した場合には、当該飲食店の名称が記載された看板の画像及び当該看板の位置(当該画像が撮像された位置)を把握することができる。   In addition, when the character recognition result is designated by storing position information indicating the position where the image is captured in the storage unit 12 in association with the image, the character recognition result is acquired together with the acquired image. The position where the image is captured can be displayed. According to such a configuration, for example, when a plurality of signboard images in which names of restaurants are written are captured, the name of the restaurant desired by the user is specified in the second area 142. In this case, it is possible to grasp the image of the signboard in which the name of the restaurant is described and the position of the signboard (position where the image is captured).

ここでは、格納部12から画像が検索されるものとして説明したが、例えば外部のサーバ装置に格納されている各種コンテンツ等が検索されるような構成であっても構わない。   Here, the description has been made on the assumption that the image is searched from the storage unit 12, but for example, a configuration in which various contents stored in an external server device and the like are searched may be employed.

なお、上記したように検索結果が第2の領域142に表示される場合、例えば上記した図7等に示す第2の領域142の範囲(大きさ)では当該検索結果を十分に表示することができない可能性がある。このため、上記した検索処理が実行される(つまり、検索結果が第2の領域142に表示される)場合には、第2の領域142(の範囲)が拡大されるようにしてもよい。また、第2の領域142が拡大される場合には第1の領域141は小さくなるが、この場合には、例えば少なくとも文字列領域(に含まれる文字列)が第1の領域141に表示されるように撮像画像300の表示範囲が調整されるようにしてもよい。   When the search result is displayed in the second area 142 as described above, for example, the search result can be sufficiently displayed in the range (size) of the second area 142 shown in FIG. It may not be possible. For this reason, when the above-described search process is executed (that is, the search result is displayed in the second area 142), the second area 142 (range) may be enlarged. In addition, when the second area 142 is enlarged, the first area 141 becomes smaller. In this case, for example, at least the character string area (a character string included in) is displayed in the first area 141. In this way, the display range of the captured image 300 may be adjusted.

上記したように本実施形態においては、画像から文字列領域を検出する処理(第1の処理)及び当該検出された領域に含まれている文字を認識する処理(第2の処理)を含む文字認識処理を実行し、当該文字認識処理が実行されている間に当該文字認識処理が実行中であることを表すフィードバック情報を表示し、当該文字認識処理が終了した場合に当該文字認識処理の結果を表示する。なお、本実施形態においては、文字列領域を検出する処理において文字があると推定された(つまり、文字があるらしい)画像上の領域がフィードバック情報として表示される。   As described above, in the present embodiment, a character including a process for detecting a character string area from an image (first process) and a process for recognizing a character included in the detected area (second process). When the recognition process is executed, feedback information indicating that the character recognition process is being executed is displayed while the character recognition process is being executed, and the result of the character recognition process when the character recognition process ends. Is displayed. In the present embodiment, an area on an image that is estimated to have a character in the process of detecting a character string area (that is, a character seems to be present) is displayed as feedback information.

具体的には、画像を構成する画素毎の尤度(文字があるらしい度合い)に応じた色彩が当該画素に付与された尤度マップ画像または画像中の文字が存在する可能性がある領域を包含する枠線がフィードバック情報として表示される。   Specifically, a likelihood map image in which a color corresponding to the likelihood of each pixel constituting the image (the degree to which there is a character) is given to the pixel or a region in which a character in the image may exist The included frame is displayed as feedback information.

本実施形態においては、このような構成により、文字認識に関する処理状況をユーザに提示することが可能であるため、画像に対する文字認識処理が実行されていることをユーザが把握することができるとともに、例えば応答時間(待ち時間)が長いとユーザに感じさせないようにすることができる。すなわち、本実施形態においては、画像認識に関してユーザの利便性を向上させるような表示を実現することが可能となる。   In the present embodiment, with such a configuration, it is possible to present to the user the processing status related to character recognition, so that the user can grasp that the character recognition processing for the image is being executed, For example, when the response time (waiting time) is long, it is possible to prevent the user from feeling. That is, in the present embodiment, it is possible to realize a display that improves user convenience with respect to image recognition.

なお、本実施形態においては、文字があると文字認識装置10が認識している領域(の位置)をユーザに提示することができるため、ユーザは、文字認識処理が適切に実行されている(つまり、ユーザの意図する文字が認識されている)か否かについても把握することができる。具体的には、例えば図4に示すような尤度マップ画像400が表示された場合には、ユーザは、撮像画像300に含まれる文字の位置が適切に認識されていることを把握することができる。一方、例えば全体的に領域401となるような尤度マップ画像が表示された場合には、ユーザは、文字の位置が適切に認識されていないことを把握することができ、例えば画像を再度撮像するまたは文字認識処理を再度実行するといった操作を行うことができる。   In the present embodiment, since the region (position) recognized by the character recognition device 10 when there is a character can be presented to the user, the user is appropriately performing the character recognition process ( That is, it is possible to grasp whether or not the character intended by the user is recognized. Specifically, for example, when a likelihood map image 400 as shown in FIG. 4 is displayed, the user can grasp that the position of the character included in the captured image 300 is properly recognized. it can. On the other hand, for example, when a likelihood map image that entirely becomes the region 401 is displayed, the user can grasp that the position of the character is not properly recognized. For example, the image is captured again. It is possible to perform an operation such as performing character recognition processing again.

なお、本実施形態においては、フィードバック情報の一例について説明したが、フィードバック情報は文字認識処理が実行中であることを表すものであればよく、例えば文字認識処理の途中経過等が異なる態様で表示されても構わない。具体的には、図13に示すように例えば認識対象となっている領域(文字の存在する可能性の高い領域)700に対してモザイク処理が施された状態の画像が表示されてもよいし、図14に示すように当該領域700上に例えば「処理中」のような特定の文字列(文字認識処理が実行中であることを示す文字列に関する情報)が表示されてもよい。また、図示しないが、画像を変化させる(動き)によって文字認識処理が実行中であることを表現しても構わない。   In the present embodiment, an example of feedback information has been described. However, the feedback information only needs to indicate that the character recognition process is being executed. For example, the feedback information may be displayed in a different manner. It does not matter. Specifically, as shown in FIG. 13, for example, an image in a state where mosaic processing has been performed on a region 700 that is a recognition target (a region where a character is likely to exist) may be displayed. As shown in FIG. 14, for example, a specific character string such as “processing in progress” (information regarding a character string indicating that the character recognition process is being executed) may be displayed on the area 700. Although not shown, it may be expressed that the character recognition process is being executed by changing (moving) the image.

また、本実施形態においては、文字認識装置10(表示部14)の画面上の第1の領域141に画像を表示し、当該画面上の第2の領域142に文字認識結果(文字認識処理の結果)を表示する構成により、ユーザの文字認識結果に対する視認性を向上させることができる。   In the present embodiment, an image is displayed in the first area 141 on the screen of the character recognition device 10 (display unit 14), and the character recognition result (character recognition processing result) is displayed in the second area 142 on the screen. With the configuration for displaying (result), it is possible to improve the visibility of the character recognition result of the user.

なお、本実施形態においては、第2の領域142が第1の領域141の下側に設けられるものとして説明したが、当該第2の領域142は、例えば第1の領域141の上側に設けられてもよいし、当該第1の領域141の左側または右側に設けられてもよい。また、第2の領域142の画面上の位置は、第1の領域141に表示される画像に含まれる文字(文字列領域)の位置等に応じて変更されるような構成であっても構わない。具体的には、例えば文字列領域の近傍に設けられるように第2の領域142の位置を変更するような構成としてもよい。   In the present embodiment, the second region 142 is described as being provided below the first region 141. However, the second region 142 is provided above the first region 141, for example. Alternatively, it may be provided on the left side or the right side of the first region 141. Further, the position of the second area 142 on the screen may be changed according to the position of the character (character string area) included in the image displayed in the first area 141. Absent. Specifically, for example, the position of the second area 142 may be changed so as to be provided in the vicinity of the character string area.

また、本実施形態においては、画像が表示される領域(第1の領域141)と文字認識結果が表示される領域(第2の領域142)とが別個に設けられるものとして説明したが、例えば画面全体に画像が表示され、当該画像に含まれる文字(列)上に文字認識結果が表示されるような構成であってもよい。   In the present embodiment, the area where the image is displayed (first area 141) and the area where the character recognition result is displayed (second area 142) are described as being provided separately. An image may be displayed on the entire screen, and a character recognition result may be displayed on a character (column) included in the image.

更に、本実施形態においては、複数の画像(第1の画像及び第2の画像)の各々に含まれている文字を認識する文字認識処理を実行し、第2の領域142には、複数の文字認識処理(第1の文字認識処理及び第2の文字認識処理)の結果が履歴として表示される。本実施形態においては、このような構成により、例えば過去にカメラ11によって撮像された画像に対する文字認識結果を確認したいような場合であっても、ユーザは、当該画像を再度撮像することなく、当該文字認識結果を容易に確認することが可能となる。   Furthermore, in the present embodiment, a character recognition process for recognizing characters included in each of a plurality of images (first image and second image) is executed, and a plurality of images are displayed in the second region 142. The result of the character recognition process (the first character recognition process and the second character recognition process) is displayed as a history. In the present embodiment, with such a configuration, for example, even when it is desired to confirm a character recognition result for an image captured by the camera 11 in the past, the user can capture the image without capturing the image again. The character recognition result can be easily confirmed.

また、本実施形態においては、上記したように履歴として表示される複数の文字認識結果が同一である場合、当該複数の文字認識結果をまとめて表示する(つまり、当該複数の文字認識結果の何れか1つを表示する処理を実行する)構成により、当該履歴が表示される領域(第2の領域142)を有効に利用することが可能となる。   Further, in the present embodiment, when a plurality of character recognition results displayed as histories are the same as described above, the plurality of character recognition results are displayed together (that is, any of the plurality of character recognition results). With the configuration in which the process of displaying one of them is executed), it is possible to effectively use the area where the history is displayed (second area 142).

また、本実施形態においては、第2の領域142に表示された文字認識結果がユーザによって指定された場合、当該文字認識結果が取得された画像を表示する。本実施形態においては、このような構成により、ユーザは、文字認識結果を指定することによって、例えば過去に撮像された画像であっても当該文字認識結果が取得された画像を容易に確認することが可能となる。   In the present embodiment, when the character recognition result displayed in the second area 142 is designated by the user, an image from which the character recognition result is acquired is displayed. In the present embodiment, with such a configuration, the user can easily confirm an image from which the character recognition result has been acquired, for example, even if the image has been captured in the past, by specifying the character recognition result. Is possible.

また、本実施形態においては、第2の領域142に表示された文字認識結果がユーザによって指定された場合、当該文字認識結果(テキスト)を用いた検索処理を実行し、当該検索結果(検索処理の結果)を表示する。本実施形態においては、このような構成により、ユーザは文字認識結果に関する情報を容易に検索する(取得する)ことが可能となるため、当該ユーザに対する利便性を向上させることが可能となる。   In the present embodiment, when the character recognition result displayed in the second area 142 is designated by the user, a search process using the character recognition result (text) is executed, and the search result (search process) Result). In the present embodiment, with such a configuration, the user can easily search (acquire) information related to the character recognition result, and thus the convenience for the user can be improved.

上記したように本実施形態においては画像認識(文字認識)に関してユーザの利便性を向上させるような表示の様々な例について説明したが、本実施形態に係る文字認識装置10は、本実施形態において説明した表示例の少なくとも1つを含む構成であればよいが、当該表示例のいくつかを組み合わせた構成としてもよい。   As described above, in the present embodiment, various examples of display that improve user convenience with respect to image recognition (character recognition) have been described. However, the character recognition apparatus 10 according to the present embodiment is not limited to this embodiment. A configuration including at least one of the described display examples may be used, but a configuration in which some of the display examples are combined may be used.

なお、本実施形態においては、例えば街中に配置されている看板等を含む画像がカメラ11によって撮像されるものとして説明したが、カメラ11によって撮像される被写体は、文字が記載されているものであれば、例えば案内板、メニュー、商品のタグ及び書籍等であってもよいし、例えば文字が表示されたディスプレイ等であっても構わない。   In the present embodiment, for example, an image including a signboard arranged in a city is described as being captured by the camera 11. However, the subject captured by the camera 11 is written with characters. For example, it may be a guide board, a menu, a product tag, a book, or the like, or a display on which characters are displayed, for example.

また、本実施形態に係る文字認識装置10は例えばスマートフォン及びタブレットコンピュータ等の携帯型の電子機器として実現されるものとして説明したが、当該文字認識装置10は、例えばカメラ11等を備える電子機器と通信可能に接続されるサーバ装置として実現されても構わない。   Moreover, although the character recognition apparatus 10 which concerns on this embodiment was demonstrated as what is implement | achieved as portable electronic devices, such as a smart phone and a tablet computer, for example, the said character recognition device 10 is an electronic device provided with the camera 11 grade | etc., For example. You may implement | achieve as a server apparatus connected so that communication is possible.

また、本実施形態においては画像から文字を認識する文字認識装置について説明したが、本実施形態は、画像から文字以外の認識対象を認識する場合に適用されても構わない。具体的には、本実施形態は、画像から顔、人物、標識、記号、移動体または他の物体等を認識する情報処理装置(認識装置)に適用されても構わない。上記物体等の認識には、統計学習等を用いた公知技術を用いることができる。   Moreover, although the character recognition apparatus which recognizes a character from an image was demonstrated in this embodiment, this embodiment may be applied when recognizing recognition objects other than a character from an image. Specifically, the present embodiment may be applied to an information processing apparatus (recognition apparatus) that recognizes a face, a person, a sign, a symbol, a moving object, or another object from an image. A known technique using statistical learning or the like can be used for recognizing the object or the like.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。   Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. These embodiments and their modifications are included in the scope and gist of the invention, and are also included in the invention described in the claims and the equivalents thereof.

10…文字認識装置(情報処理装置)、11…カメラ、12…格納部、13…処理部、14…表示部、131…第1表示処理部、132…文字認識処理部、133…第2表示処理部、134…第3表示処理部、135…検索処理部。   DESCRIPTION OF SYMBOLS 10 ... Character recognition apparatus (information processing apparatus), 11 ... Camera, 12 ... Storage part, 13 ... Processing part, 14 ... Display part, 131 ... 1st display processing part, 132 ... Character recognition processing part, 133 ... 2nd display Processing unit 134... Third display processing unit 135.

Claims (11)

第1画像に含まれる第1認識対象を認識する第1認識手段と、
前記第1認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示する第1表示処理手段と、
前記第1画像とは異なる第2画像に含まれる第2認識対象を認識する第2認識手段と、
前記第2認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示する第2表示処理手段と
を具備し、
前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示され、
前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される
情報処理装置。
First recognition means for recognizing a first recognition target included in the first image;
First, feedback information indicating that the recognition process is being executed is displayed before the recognition process in the first recognition unit is completed, and a recognition result of the first recognition target is displayed after the recognition process is completed. Display processing means;
Second recognition means for recognizing a second recognition target included in a second image different from the first image;
The feedback information indicating that the recognition process is being executed is displayed before the recognition process in the second recognition unit is finished, and the recognition result of the second recognition target is displayed after the recognition process is finished. Display processing means and
Comprising
The recognition result of the first recognition target and the recognition result of the second recognition target are displayed as a history of recognition results,
When the recognition result of the first recognition target is selected from the recognition result of the first recognition target and the recognition result of the second recognition target displayed as the history, the first image and the first image are captured. If the recognition result of the second recognition target is selected, the second image and the position where the second image was captured are displayed.
Information processing device.
前記第1表示処理手段によって表示されるフィードバック情報は、前記第1認識対象の位置を示す情報を含み、
前記第2表示処理手段によって表示されるフィードバック情報は、前記第2認識対象の位置を示す情報を含む
請求項1記載の情報処理装置。
The feedback information displayed by the first display processing means includes information indicating the position of the first recognition target,
The information processing apparatus according to claim 1 , wherein the feedback information displayed by the second display processing unit includes information indicating a position of the second recognition target .
前記第1認識対象の位置を示す情報は、前記第1画像の一部領域を示す情報であり、
前記第2認識対象の位置を示す情報は、前記第2画像の一部領域を示す情報である
請求項2記載の情報処理装置。
Information indicating the position of the first recognition target is Ri information der showing a part region of the first image,
The information indicating the position of the second recognition target is information indicating a partial region of the second image.
The information processing apparatus according to claim 2 .
前記第1認識対象の位置を示す情報は、前記第1画像の一部領域を包含する枠線の情報であり、
前記第2認識対象の位置を示す情報は、前記第2画像の一部領域を包含する枠線の情報である
請求項2または3に記載の情報処理装置。
Information indicating the position of the first recognition target is Ri information der encompassing border part region of the first image,
The information indicating the position of the second recognition target is information on a frame line that includes a partial region of the second image.
The information processing apparatus according to claim 2 or 3 .
前記第1認識対象の位置を示す情報及び前記第2認識対象の位置を示す情報は、色彩情報である請求項乃至の何れか一項に記載の情報処理装置。 Said first information indicating the position of the recognition target and the information indicating the position of the second recognition target, the information processing apparatus according to any one of claims 2 to 4 which is the color information. 前記第1認識対象の位置を示す情報は、前記第1認識手段における認識処理が実行中であることを示す文字列に関する情報であり、
前記第2認識対象の位置を示す情報は、前記第2認識手段における認識処理が実行中であることを示す文字列に関する情報である
請求項記載の情報処理装置。
Information indicating the position of the first recognition target is Ri information der related to the character string indicating that the recognition processing in the first recognition unit is running,
The information indicating the position of the second recognition target is information relating to a character string indicating that the recognition process in the second recognition unit is being executed.
The information processing apparatus according to claim 2 .
前記第1認識対象の位置を示す情報は、前記第1認識手段における検出の尤度情報に基づく情報であり、
前記第2認識対象の位置を示す情報は、前記第2認識手段における検出の尤度情報に基づく情報である
請求項2記載の情報処理装置。
Information indicating the position of the first recognition target is Ri information der based on the likelihood information of the detection in the first recognition unit,
The information indicating the position of the second recognition target is information based on detection likelihood information in the second recognition means.
The information processing apparatus according to claim 2.
記第1認識対象及び前記第2認識対象が同一対象である場合、前記第1認識対象の認識結果及び前記第2認識対象の認識結果はまとめて表示される請求項記載の情報処理装置。 Before SL when the first recognition target and the second recognition target is the same object, the first recognition target recognition result and the second recognition target recognition result information processing apparatus according to claim 1 wherein the displayed together . 前記フィードバック情報及び前記認識結果を表示する表示手段を更に備える請求項1乃至の何れか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 8 , further comprising display means for displaying the feedback information and the recognition result . 情報処理装置のコンピュータが実行するプログラムであって、
前記コンピュータに、
第1画像に含まれる第1認識対象を認識するステップと、
前記第1認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示するステップと、
前記第1画像とは異なる第2画像に含まれる第2認識対象を認識するステップと、
前記第2認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示するステップと
を実行させ
前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示され、
前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される
プログラム。
A program executed by a computer of an information processing device,
In the computer,
Recognizing a first recognition target included in the first image;
Displaying feedback information indicating that the recognition process is being executed before the recognition process for the first recognition object is completed, and displaying a recognition result of the first recognition object after the recognition process is completed; ,
Recognizing a second recognition target included in a second image different from the first image;
Displaying feedback information indicating that the recognition process is being executed before the recognition process for the second recognition target is completed, and displaying a recognition result of the second recognition target after the recognition process is completed; was executed,
The recognition result of the first recognition target and the recognition result of the second recognition target are displayed as a history of recognition results,
When the recognition result of the first recognition target is selected from the recognition result of the first recognition target and the recognition result of the second recognition target displayed as the history, the first image and the first image are captured. If the recognition result of the second recognition target is selected, the second image and the position where the second image was captured are displayed.
program.
情報処理装置が実行する方法であって、
第1画像に含まれる第1認識対象を認識するステップと、
前記第1認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示するステップと、
前記第1画像とは異なる第2画像に含まれる第2認識対象を認識するステップと、
前記第2認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示するステップと
を備え
前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示され、
前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される
方法。
A method executed by an information processing apparatus,
Recognizing a first recognition target included in the first image;
Displaying feedback information indicating that the recognition process is being executed before the recognition process for the first recognition object is completed, and displaying a recognition result of the first recognition object after the recognition process is completed; ,
Recognizing a second recognition target included in a second image different from the first image;
Displaying feedback information indicating that the recognition process is being executed before the recognition process for the second recognition target is completed, and displaying a recognition result of the second recognition target after the recognition process is completed; equipped with a,
The recognition result of the first recognition target and the recognition result of the second recognition target are displayed as a history of recognition results,
When the recognition result of the first recognition target is selected from the recognition result of the first recognition target and the recognition result of the second recognition target displayed as the history, the first image and the first image are captured. If the recognition result of the second recognition target is selected, the second image and the position where the second image was captured are displayed.
Method.
JP2017055368A 2017-03-22 2017-03-22 Information processing apparatus, method, and program Active JP6408055B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017055368A JP6408055B2 (en) 2017-03-22 2017-03-22 Information processing apparatus, method, and program
US15/694,594 US10528852B2 (en) 2017-03-22 2017-09-01 Information processing apparatus, method and computer program product
EP17189256.5A EP3379452A1 (en) 2017-03-22 2017-09-04 Information processing apparatus,method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017055368A JP6408055B2 (en) 2017-03-22 2017-03-22 Information processing apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2018159978A JP2018159978A (en) 2018-10-11
JP6408055B2 true JP6408055B2 (en) 2018-10-17

Family

ID=59955337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017055368A Active JP6408055B2 (en) 2017-03-22 2017-03-22 Information processing apparatus, method, and program

Country Status (3)

Country Link
US (1) US10528852B2 (en)
EP (1) EP3379452A1 (en)
JP (1) JP6408055B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091748A (en) * 2018-12-06 2020-06-11 トッパン・フォームズ株式会社 Terminal device, program, and image management method

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2746904B2 (en) * 1988-03-24 1998-05-06 株式会社東芝 Document reader
JPH05282091A (en) 1992-04-02 1993-10-29 Mitsubishi Electric Corp Input device for arbitrary size character
JP4128275B2 (en) 1998-07-06 2008-07-30 オリンパス株式会社 Camera with translation function
JP2000207487A (en) 1999-01-20 2000-07-28 Sony Corp Device and method for information processing and providing medium
JP2001357355A (en) 2000-06-13 2001-12-26 Fujitsu Ltd Device and method for input of handwritten character and recording medium with program for execution of the method recorded therein
JP2002358523A (en) * 2001-05-31 2002-12-13 Canon Inc Device and method for recognizing and processing pattern, and image input device
JP4240859B2 (en) 2001-09-05 2009-03-18 株式会社日立製作所 Portable terminal device and communication system
JP2004341977A (en) 2003-05-19 2004-12-02 Mitsubishi Electric Corp Character recognition device and portable information terminal
JP2005018507A (en) 2003-06-27 2005-01-20 Hitachi Ltd Personal digital assistant and method of recognizing character using it
JP4383790B2 (en) * 2003-08-06 2009-12-16 日立オムロンターミナルソリューションズ株式会社 Portable information terminal
JP2005135210A (en) * 2003-10-31 2005-05-26 Hitachi Ltd Portable device with character recognition function
JP2007140684A (en) * 2005-11-15 2007-06-07 Toshiba Corp Image processor, method and program
JP2007266873A (en) 2006-03-28 2007-10-11 Toshiba Corp Photographing device and method
JP2009296533A (en) 2008-06-09 2009-12-17 Kyocera Mita Corp Scanner apparatus and image forming apparatus
US20110090253A1 (en) 2009-10-19 2011-04-21 Quest Visual, Inc. Augmented reality language translation system and method
JP2012222581A (en) 2011-04-08 2012-11-12 Canon Inc Image processing device, image processing method, program, and storage medium
CA2842427A1 (en) * 2011-08-05 2013-02-14 Blackberry Limited System and method for searching for text and displaying found text in augmented reality
JP5631362B2 (en) 2011-08-08 2014-11-26 キヤノン株式会社 Image processing apparatus, image processing method, and program
US9336456B2 (en) * 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
US9165406B1 (en) * 2012-09-21 2015-10-20 A9.Com, Inc. Providing overlays based on text in a live camera view
JP6317772B2 (en) 2013-03-15 2018-04-25 トランスレート アブロード,インコーポレイテッド System and method for real-time display of foreign language character sets and their translations on resource-constrained mobile devices
US8965129B2 (en) 2013-03-15 2015-02-24 Translate Abroad, Inc. Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices
JP6419421B2 (en) * 2013-10-31 2018-11-07 株式会社東芝 Image display device, image display method, and program
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9367766B2 (en) 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images
JP6208094B2 (en) 2014-08-26 2017-10-04 株式会社東芝 Information processing apparatus, information processing system, information processing method, and program thereof
JP6371662B2 (en) 2014-10-07 2018-08-08 富士通フロンテック株式会社 Character recognition support device, character recognition support program, and character recognition support method
US9760792B2 (en) * 2015-03-20 2017-09-12 Netra, Inc. Object detection and classification
JP6530432B2 (en) 2017-02-03 2019-06-12 株式会社東芝 Image processing apparatus, image processing method and program

Also Published As

Publication number Publication date
EP3379452A1 (en) 2018-09-26
US20180276506A1 (en) 2018-09-27
US10528852B2 (en) 2020-01-07
JP2018159978A (en) 2018-10-11

Similar Documents

Publication Publication Date Title
US10032072B1 (en) Text recognition and localization with deep learning
EP4057163B1 (en) Facilitating use of images as search queries
JP4759638B2 (en) Real-time camera dictionary
JP2007034847A5 (en)
US20150242684A1 (en) Method and system for linking printed objects with electronic content
EP2806336A1 (en) Text prediction in a text input associated with an image
US9639603B2 (en) Electronic device, display method, and storage medium
JP6408055B2 (en) Information processing apparatus, method, and program
JP2010205121A (en) Information processor and portable terminal
CN111079777B (en) Page positioning-based click-to-read method and electronic equipment
CN110851631A (en) Retrieval system
US20160004789A1 (en) Visual Search Engine
US20110294522A1 (en) Character recognizing system and method for the same
JP6828421B2 (en) Desktop camera-calculation execution method, program and calculation processing system for visualizing related documents and people when viewing documents on a projector system.
JP5991323B2 (en) Image processing apparatus, image processing method, and image processing program
JP4474231B2 (en) Document link information acquisition system
US11593570B2 (en) System and method for translating text
US11010978B2 (en) Method and system for generating augmented reality interactive content
JP5489478B2 (en) Image display device and image display method
JP5541868B2 (en) Image search command system and operation control method thereof
JP7231529B2 (en) Information terminal device, server and program
CN110543238A (en) Desktop interaction method based on artificial intelligence
JP2016062307A (en) Information display apparatus, information display program and information display method
KR20190020281A (en) Processing visual input
CN104463086B (en) A kind of information processing method and equipment

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180919

R151 Written notification of patent or utility model registration

Ref document number: 6408055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350