JP5989479B2 - Character recognition device, method for controlling character recognition device, control program, and computer-readable recording medium on which control program is recorded - Google Patents
Character recognition device, method for controlling character recognition device, control program, and computer-readable recording medium on which control program is recorded Download PDFInfo
- Publication number
- JP5989479B2 JP5989479B2 JP2012207588A JP2012207588A JP5989479B2 JP 5989479 B2 JP5989479 B2 JP 5989479B2 JP 2012207588 A JP2012207588 A JP 2012207588A JP 2012207588 A JP2012207588 A JP 2012207588A JP 5989479 B2 JP5989479 B2 JP 5989479B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- gesture
- finger
- unit
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、画像に含まれる文字を認識する文字認識装置等に関する。 The present invention relates to a character recognition device that recognizes characters included in an image.
文字認識装置は、光学式文字認識などの技術を用いて、画像に含まれる文字を文字認識する。文字認識装置がカメラを搭載することにより、ユーザは、外出中に見かけた店舗の看板、書類などに記載された文字を該カメラを用いて撮像し、該文字を文字認識させることができる。 The character recognition device recognizes characters included in an image using a technique such as optical character recognition. By installing the camera in the character recognition device, the user can use the camera to capture images of characters written on store signs, documents, etc. that he sees while he is out and recognize the characters.
しかしながら、この場合、ユーザは、撮像された画像における、どの領域が文字認識の対象となる文字領域に該当するのかを文字認識装置に対して指定する必要がある。 However, in this case, the user needs to specify to the character recognition device which region in the captured image corresponds to the character region to be character-recognized.
文字領域を指定する機能を搭載した文字認識装置としては、例えば、撮像した画像を表示画面に表示し、該画像の一部の領域をマーカーで囲む、塗りつぶすなどのユーザからの操作を操作部にて受け付けることにより、上記文字領域を指定する機能を搭載した文字認識装置が公開されている。 As a character recognition device equipped with a function for designating a character area, for example, a captured image is displayed on a display screen, and a part of the image is surrounded by a marker, or a user operation such as painting is performed on the operation unit. The character recognition device equipped with the function of designating the character area by accepting it is disclosed.
また、カメラが備えているモニター画面に表示される枠内に、文字認識の対象となる文字を含むようにしてユーザが撮像することにより、上記文字領域を指定する機能を搭載した文字認識装置が公開されている。 In addition, a character recognition device equipped with a function for designating the character area by allowing the user to capture an image so that the character recognition target character is included in the frame displayed on the monitor screen of the camera is disclosed. ing.
また、撮像された画像に対して、ユーザが何も指定せずに、文字認識装置が自動的に上記文字領域を抽出する機能を搭載した文字認識装置が公開されている。 In addition, a character recognition device having a function of automatically extracting the character region by the character recognition device without specifying anything for the captured image is disclosed.
また、文字領域を指定する機能を搭載した文字認識装置として、下記の特許文献1〜3が開示されている。 Moreover, the following patent documents 1-3 are disclosed as a character recognition device equipped with a function for designating a character area.
特許文献1には、CCDカメラから撮像画像を入力し、撮像画像を表示器に表示し、タッチパネルから入力ペンにより画像範囲を指定させ、指定された範囲の表示画像から文字をパターン認識処理する端末装置が開示されている。 Japanese Patent Application Laid-Open No. 2004-228867 is a terminal that inputs a captured image from a CCD camera, displays the captured image on a display, specifies an image range with an input pen from a touch panel, and performs pattern recognition processing of characters from the display image in the specified range An apparatus is disclosed.
特許文献2には、カメラによって取り込まれた文書の画像、および文書の領域を指し示しているカメラ視野内の指の画像を処理して、該画像から、該文書中の指し示されている領域で参照されているウェブページを判別する装置が開示されている。
In
特許文献3には、月を意味する文字列を文字認識することで紙カレンダーの月を認識し、認識した月に対応する予定データを取得し、指領域の先端部で直線が遮られている日付枠を検出することで、予定データの表示形式及び表示期間を決定するカレンダー装置が開示されている。 In Patent Document 3, the character of a character string that represents the month is recognized to recognize the month of the paper calendar, schedule data corresponding to the recognized month is acquired, and the straight line is blocked at the tip of the finger region. A calendar apparatus that determines the display format and display period of schedule data by detecting a date frame is disclosed.
特許文献1に係る文字認識装置は、カメラによって画像が撮像された後、文字認識の対象となる文字領域をユーザが入力ペンにより指定する必要がある。したがって、文字認識を実行するまでの手順が煩雑になるという問題がある。 In the character recognition device according to Patent Literature 1, after an image is captured by a camera, the user needs to specify a character region to be character-recognized by an input pen. Therefore, there is a problem that the procedure until the character recognition is executed becomes complicated.
特許文献2、3に係る文字認識装置は、カメラの被写体にユーザの指が置かれ、該指によって指定される範囲を上記文字領域として取得するため、撮像後にユーザが上記文字領域を指定するための操作を省略することができる。しかしながら、特許文献2、3に係る発明は、文字認識された文字を利用して行う処理の内容が予め決まっている。したがって、ユーザが、文字認識された文字を利用して、上記処理以外の処理を実行させたい場合、不都合である。
In the character recognition devices according to
また、仮に、文字認識された文字を利用する処理の種類を選択することができる機能が文字認識装置に搭載されていたとしても、ユーザは、上記文字領域を指定する操作と、上記処理の種類を指定する操作の2つの操作を続けて行う必要がある。したがって、文字認識の後に続けて、文字認識された文字を利用した作業を行いたい場合、手順が煩雑になるという問題がある。 In addition, even if a function that can select the type of processing that uses a character-recognized character is installed in the character recognition device, the user can specify an operation for specifying the character area and the type of the processing. It is necessary to continuously perform two operations of specifying “ Therefore, there is a problem that the procedure becomes complicated when it is desired to perform an operation using the character recognized character after the character recognition.
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、手軽な操作で、文字認識およびユーザの所望の処理を実行することができる文字認識装置等を提供することにある。 The present invention has been made in view of the above problems, and an object thereof is to provide a character recognition device and the like that can execute character recognition and user-desired processing with a simple operation. .
上記の課題を解決するために、本発明の一態様に係る文字認識装置は、画像に含まれる文字を認識する文字認識装置であって、指および文字を含む画像を取得する画像取得手段と、上記画像取得手段が取得した画像から、指部分と、当該指部分と隣接する文字部分との位置情報からジェスチャーを認識するジェスチャー認識手段と、上記ジェスチャー認識手段が認識した指のジェスチャーが、予め記憶している複数のジェスチャーのいずれと一致しているかを判定する指ジェスチャー判定手段と、上記ジェスチャー認識手段が認識した指によって示される位置の文字または一連の文字群を認識する文字認識手段と、上記指ジェスチャー判定手段が一致していると判定したジェスチャーと対応付けられた処理を、上記文字認識手段によって認識された文字または一連の文字群に対し実行する処理実行手段と、を備えている。 In order to solve the above problems, a character recognition device according to an aspect of the present invention is a character recognition device that recognizes characters included in an image, and an image acquisition unit that acquires an image including a finger and characters; Gesture recognition means for recognizing a gesture from position information of a finger part and a character part adjacent to the finger part from the image acquired by the image acquisition means, and a finger gesture recognized by the gesture recognition means are stored in advance. A finger gesture determination unit that determines which of the plurality of gestures matches, a character recognition unit that recognizes a character or a series of character groups at a position indicated by the finger recognized by the gesture recognition unit, and The character recognition means recognizes the process associated with the gesture determined to be the same as the finger gesture determination means. And a, a process execution means for executing relative character or stream of characters.
また、本発明の一態様に係る文字認識装置の制御方法は、画像に含まれる文字を認識する文字認識装置の制御方法であって、指および文字を含む画像を取得する画像取得ステップと、上記画像取得ステップが取得した画像から、指部分と、当該指部分と隣接する文字部分との位置情報からジェスチャーを認識するジェスチャー認識ステップと、上記ジェスチャー認識ステップが認識した指のジェスチャーが、予め記憶している複数のジェスチャーのいずれと一致しているかを判定する指ジェスチャー判定ステップと、上記ジェスチャー認識ステップが認識した指によって示される位置の文字または一連の文字群を認識する文字認識ステップと、上記指ジェスチャー判定ステップが一致していると判定したジェスチャーと対応付けられた処理を、上記文字認識ステップによって認識された文字または一連の文字群に対し実行する処理実行ステップと、を含む。 A control method for a character recognition device according to an aspect of the present invention is a control method for a character recognition device that recognizes characters included in an image, the image acquisition step for acquiring an image including a finger and characters, A gesture recognition step for recognizing a gesture from position information of a finger portion and a character portion adjacent to the finger portion, and a finger gesture recognized by the gesture recognition step from an image acquired by the image acquisition step are stored in advance. A finger gesture determination step for determining which of the plurality of gestures matches, a character recognition step for recognizing a character or a series of characters at the position indicated by the finger recognized by the gesture recognition step, and the finger The process associated with the gesture determined to match the gesture determination step Including a processing execution step of executing to recognized characters or stream of characters by the character recognition step.
なお、上記ジェスチャー認識手段が認識する指部分、上記ジェスチャー認識ステップで認識する指部分は、指の形状であってもよいし、指の動きであってもよい。 The finger part recognized by the gesture recognition unit and the finger part recognized in the gesture recognition step may be a finger shape or a finger movement.
本発明の一態様によれば、ユーザは、ジェスチャーで所望の文字領域を示すという手軽かつ直感的な操作のみで、文字認識および認識した文字に対する所望の処理を実行させることができるという効果を奏する。 According to an aspect of the present invention, there is an effect that a user can execute a desired process on a recognized character and recognized character only by a simple and intuitive operation of showing a desired character area with a gesture. .
本発明の一実施形態について、図1〜図5に基づいて以下に詳細に説明する。 One embodiment of the present invention will be described below in detail with reference to FIGS.
(文字認識装置1の構成)
図1は、本実施形態に係る文字認識装置1の構成を示す概略ブロック図である。文字認識装置1は、図1に示すように、制御部2、記憶部3、カメラ(画像取得手段)4、通信部(通信手段)5、表示部6、および、操作部7を備えている。
(Configuration of character recognition device 1)
FIG. 1 is a schematic block diagram showing the configuration of the character recognition device 1 according to this embodiment. As shown in FIG. 1, the character recognition device 1 includes a
文字認識装置1は、撮像によって取得した画像が含む文字を文字認識する機能を備えた情報処理装置である。文字認識装置1は、パーソナルコンピュータ、携帯電話、スマートフォン、タブレットPC、ゲーム機器などの情報処理装置であってもよい。 The character recognition device 1 is an information processing device having a function of recognizing characters included in an image acquired by imaging. The character recognition device 1 may be an information processing device such as a personal computer, a mobile phone, a smartphone, a tablet PC, or a game device.
制御部2は、文字認識装置1の全体を統括して制御するものであり、例えばCPU(Central Processing Unit)等で構成することができる。制御部2は、記憶部3、カメラ4、通信部5、および、表示部6のそれぞれを制御する。制御部2の詳細な構成については後述する。
The
記憶部3は、制御部2が実行する(1)各部の制御プログラム、(2)OS(Operation System)プログラム、(3)アプリケーションプログラム、および、(4)これらプログラムを実行するときに読み出す各種データを記憶するものである。記憶部3は、フラッシュメモリなどの不揮発性の記憶装置によって構成される。また、記憶部3は、制御部2が上述の各種プログラムを実行する過程でデータを一時的に保持するための作業領域として、RAM(Random Access Memory)などの揮発性の記憶装置によって構成される領域を有している。なお、記憶部3は、必ずしも文字認識装置1内に備えられる必要はなく、文字認識装置1に着脱可能な外部記憶装置、または、通信部5を介して通信可能なネットワーク上の外部記憶装置として、文字認識装置1に接続される構成であってもよい。
The storage unit 3 is executed by the control unit 2 (1) a control program for each unit, (2) an OS (Operation System) program, (3) an application program, and (4) various data read when executing these programs. Is memorized. The storage unit 3 is configured by a nonvolatile storage device such as a flash memory. In addition, the storage unit 3 is configured by a volatile storage device such as a RAM (Random Access Memory) as a work area for temporarily storing data in the process of executing the various programs described above by the
そして、記憶部3は、特に、指画像パターン、指画像ジェスチャー対応テーブル、辞書データベース、メモ(文字)などを記憶する。 The storage unit 3 particularly stores a finger image pattern, a finger image gesture correspondence table, a dictionary database, a memo (character), and the like.
カメラ4は、操作部7にて受け付けるユーザの操作に基づき、文字、背景、人物などの物体を被写体として撮像する、通常のカメラが有する機能を備えている。特に、カメラ4は、指および文字を含む対象を被写体として撮像する。そして、カメラ4は、上記撮像によって取得した画像を制御部2に出力する。また、カメラ4は、複数の画像を定期的に撮像する機能を備えていてもよい。また、カメラ4は、映像を撮像する機能を備えていてもよい。この場合、操作部7にて受け付けるユーザの操作に従い、カメラ4は、複数の画像、または、映像を撮像する。なお、カメラ4は、背景、人物などを撮像する場合と、文字認識を目的として文字を撮像するための撮像の場合とで、処理の一部を切り替える機能を備えていてもよい。
The camera 4 has a function of a normal camera that captures an image of an object such as a character, background, or person as a subject based on a user operation received by the
また、カメラ4は、取得した映像をリアルタイムに制御部2に出力してもよい。
The camera 4 may output the acquired video to the
通信部5は、文字認識装置1が通信ネットワークを介してインターネット通信を行うための通信インターフェースである。文字認識装置1では、通信部5を介して、文字認識された文字をキーとして、インターネットから情報を検索するようになっている。 The communication unit 5 is a communication interface for the character recognition device 1 to perform Internet communication via a communication network. In the character recognition device 1, information is retrieved from the Internet using the character recognized character as a key via the communication unit 5.
表示部6は、制御部2の指示に基づいて画像を表示する表示装置である。LC(Liquid Crystal)表示パネル、EL(Electro Luminescence)表示パネル等を表示部6として適用することができる。なお、図示していないが、制御部2または表示部6の内部には、VDP(Video Display Processor)およびVRAM(Video RAM)等の画像を表示するために必要な構成が適宜設けられている。また、表示部6は、画像表示と操作入力との両機能を備えるタッチパネルであってもよい。文字認識装置1では、表示部6は、文字認識された文字を利用した処理を実行した結果を表示するようになっている。また、表示部6は、カメラ4のモニター画面を兼ねる構成である。
The display unit 6 is a display device that displays an image based on an instruction from the
操作部7は、文字認識装置1のユーザの操作を受け付けるものであり、典型的には、物理キー、キーボード、タッチパネルなどである。なお、表示部6がタッチパネルである場合、表示部6が操作部7の機能を兼ねる構成である。
The
(制御部2の詳細な構成)
制御部2の構成について詳細に説明する。制御部2は、ジェスチャー判別部(ジェスチャー認識手段、指ジェスチャー判定手段)10、画像結合部(結合手段)11、文字切出部(文字認識手段)12、文字認識処理部(文字認識手段)13、キーワード検索部(処理実行手段)14、辞書検索部(処理実行手段)15、および、記憶処理部(処理実行手段)16を備えている。
(Detailed configuration of the control unit 2)
The configuration of the
ジェスチャー判別部10は、カメラ4によって指および文字を含む対象が被写体として撮像されたとき、カメラ4から、該物体が被写体として写っている画像を取得し、該画像から、該指が示しているジェスチャーが、予め文字認識装置1に登録されたジェスチャーであるか否かを決定する。
When an object including a finger and characters is imaged as a subject by the camera 4, the
具体的には、ジェスチャー判別部10は、上記画像から指の輪郭に沿った領域である指領域を画像として切り出し、該指領域が示している指のジェスチャーをパターン認識などの技術を用いて判別する。
Specifically, the
例えば、記憶部3は、指のジェスチャーの外観を示す指画像パターンを記憶している。そして、記憶部3は、上記指画像パターンと、上記指画像パターンに対応する指のジェスチャーの種類とを対応付けた指画像ジェスチャー対応テーブルを記憶している。このとき、文字認識処理部13は、切り出された上記指領域の画像と最も類似度が高い画像パターンを上記指画像パターンから検索する。そして、文字認識処理部13は、上記指画像ジェスチャー対応テーブルを参照し、最も類似度が高いと判定された画像パターンに対応するジェスチャーを上記指領域が示す指のジェスチャーの候補である判定する。そして、ジェスチャー判別部10は、上記候補の類似度が所定の値を下回っている場合、上記候補が予め文字認識装置1に登録されていないジェスチャーであると決定する。一方、上記候補の類似度が所定の値以上である場合、上記候補が予め文字認識装置1に登録されているジェスチャーであると決定する。
For example, the storage unit 3 stores a finger image pattern indicating the appearance of a finger gesture. The storage unit 3 stores a finger image gesture correspondence table in which the finger image pattern is associated with the type of finger gesture corresponding to the finger image pattern. At this time, the character
なお、記憶部3は、上記指領域と文字領域との相対的な位置を記憶部3に記憶してもよい。この場合、ジェスチャー判別部10は、上記指のジェスチャーと、上記指および隣接する文字領域の相対的な位置とから、ジェスチャーを判定する。上記の構成によれば、指のみによる判定、または、文字領域のみによる判定よりも、判定精度を高めることができる。
The storage unit 3 may store the relative positions of the finger area and the character area in the storage unit 3. In this case, the
本実施形態において、予め文字認識装置1に登録されているジェスチャーは、ジェスチャーA(第2ジェスチャー)、ジェスチャーB(第2ジェスチャー)、ジェスチャーC(第3ジェスチャー)、ジェスチャーD(第1ジェスチャー)の4種類である。ジェスチャーA〜Dの外観などの詳細については後述する。なお、本実施形態では登録されているジェスチャーは4つとして説明するが、ジェスチャーの数は4つに限られるものではなく、いくつであってもよい。 In the present embodiment, gestures registered in advance in the character recognition device 1 are gesture A (second gesture), gesture B (second gesture), gesture C (third gesture), and gesture D (first gesture). There are four types. Details of the appearance of the gestures A to D will be described later. In the present embodiment, the number of registered gestures is described as four. However, the number of gestures is not limited to four and may be any number.
なお、ジェスチャー判別部10がジェスチャーの種類を判別する方法は、上述のようなパターン認識の方法に限定されない。
Note that the method by which the
また、ジェスチャー判別部10がジェスチャーの種類を判別するための画像は、カメラ4によって撮像された画像に限られず、ウェブページから取得した画像などであってもよい。
In addition, the image for the
また、ジェスチャー判別部10が備える機能をカメラ4が備えていてもよい。この場合、カメラ4は、上記指がしばらく静止している状態をトリガとして、指および文字を含む対象を被写体として撮像する機能をさらに備えていてもよい。
Further, the camera 4 may have a function that the
画像結合部11は、ジェスチャー判別部10によって予め文字認識装置1に登録されたジェスチャーであると決定されたジェスチャーが、文字領域を囲むジェスチャーであった場合、カメラ4によって撮像された複数の画像または映像をカメラ4から取得し、該画像または映像を結合する。ここで、文字領域を囲む動作を開始する上記ジェスチャーは、上記ジェスチャーDに対応する。画像結合部11が実行する具体的な処理の内容については、後述する。
When the gesture determined to be a gesture registered in advance in the character recognition device 1 by the
文字切出部12は、ジェスチャー判別部10によって、上記指領域が示すジェスチャーが予め文字認識装置1に登録されたジェスチャーであると決定された場合、上記ジェスチャーの種類に応じて、異なる方法で、上記画像から一部の領域を切り出す。文字切出部12が実行する上記切り出し処理の詳細については、後述する。
When the
文字認識処理部13は、文字切出部12が取得した文字領域を含む画像に対し、文字認識処理を実行する。そして、文字認識処理部13は、文字認識された文字または一連の文字群を文字コードとして取得する。上記一連の文字群は上記文字領域が含む英単語などである。文字認識処理部13は、文字認識の方法として、光学式文字認識(以下、OCR(Optical Character Recognition)と称する)などの技術を用いる。
The character
キーワード検索部14は、ジェスチャー判別部10によって予め文字認識装置1に登録されたジェスチャーであると決定されたジェスチャーが、指で上部から文字を指図するジェスチャーであった場合、上記文字コードに対応する文字または一連の文字群をキーとして、通信部5を介し、インターネットから情報を検索する(以下、キーワード検索と称する)。ここで、指で上部から文字を指図する上記ジェスチャーは、上記ジェスチャーAに対応する。そして、キーワード検索部14は、得られたキーワード検索の結果を表示部6に表示する。
The
辞書検索部15は、ジェスチャー判別部10によって予め文字認識装置1に登録されたジェスチャーであると決定されたジェスチャーが、指で下部から文字を指図するジェスチャーであった場合、記憶部3に記憶されており、用語と用語の説明とを対応付けて作成された辞書データベースから、上記文字コードに対応する文字または一連の文字群をキーとして用語を検索する(以下、辞書検索と称する)。ここで、指で下部から文字を指図する上記ジェスチャーは、上記ジェスチャーBに対応する。そして、辞書検索部15は、得られた辞書検索の結果を表示部6に表示する。なお、記憶部3に格納されている辞書データベースの種類は、特に限定されず、国語辞典、英和辞典、和英辞典、百科事典、または、技術用語辞典などの用語を含むデータベースであってもよい。
The
記憶処理部16は、ジェスチャー判別部10によって予め文字認識装置1に登録されたジェスチャーであると決定されたジェスチャーが、2本の指で文字を挟むジェスチャーであった場合、または、上記ジェスチャーDであった場合、上記文字コードに対応する文字または一連の文字群をメモとして記憶部3に記憶する(以下、メモ記録と称する)。ここで、2本の指で文字を挟む上記ジェスチャーは、上記ジェスチャーCに対応する。なお、記憶処理部16は、操作部7にて受け付けるユーザの操作に基づき、ユーザが指定する任意のタイミングで、上記メモの内容を記憶部3から読み出し、表示部6に表示してもよい。
The
(文字切出部12)
文字切出部12が実行する上記切り出し処理の詳細について説明する。
(Character cutout 12)
Details of the cutout process executed by the
図2の(a)〜(c)は、それぞれ、文字認識装置1に登録されているジェスチャーの一例を示す外観図である。図4の(a)〜(c)に示す各ジェスチャーは、文字認識装置1の表示部6に表示されている。 2A to 2C are external views showing examples of gestures registered in the character recognition device 1, respectively. Each gesture shown in (a) to (c) of FIG. 4 is displayed on the display unit 6 of the character recognition device 1.
図2の(a)は、指で上部から文字を指図するジェスチャーを示したものであり、上記ジェスチャーAに対応するものである。この場合、文字切出部12は、上記指の先端の直下にある文字または一連の文字群を切り出すことにより生成した画像を、文字認識の対象となる文字領域として、文字認識処理部13に出力する。
FIG. 2A shows a gesture for directing a character from above with a finger, and corresponds to the gesture A described above. In this case, the
図2の(b)は、指で下部から文字を指図するジェスチャーを示したものであり、上記ジェスチャーBに対応するものである。この場合、文字切出部12は、上記指の先端の直上にある文字または一連の文字群を切り出すことにより生成した画像を、文字認識の対象となる文字領域として、文字認識処理部13に出力する。
FIG. 2B shows a gesture for directing a character from below with a finger, and corresponds to the gesture B described above. In this case, the
図2の(c)は、2本の指で文字を挟むジェスチャーを示したものであり、上記ジェスチャーCに対応するものである。この場合、文字切出部12は、2本の指の先端に挟まれた部分にある文字または一連の文字群を切り出すことにより生成した画像を、文字認識の対象となる文字領域として、文字認識処理部13に出力する。
(C) of FIG. 2 shows a gesture for sandwiching a character with two fingers, and corresponds to the gesture C described above. In this case, the
(画像結合部11)
画像結合部11が実行する具体的な処理の内容について説明する。
(Image combiner 11)
Details of specific processing executed by the image combining unit 11 will be described.
図3は、文字認識装置1に登録されているジェスチャーの一例を示す外観図であり、ユーザが、指、または、指およびカメラ4を移動させることにより、文字領域を囲むジェスチャーを示したものである。 FIG. 3 is an external view showing an example of a gesture registered in the character recognition device 1, and shows a gesture surrounding a character area when a user moves a finger or a finger and the camera 4. is there.
まず、領域指定により文字領域の取り込みを行うとき、ユーザは、カメラ4に対して領域を指で囲む動作を開始するジェスチャーを提示する。このとき、ジェスチャー判別部10は、上記ジェスチャーが、予め文字認識装置1に登録されたジェスチャーDの一部であると判定する。
First, when capturing a character area by specifying an area, the user presents a gesture for starting the operation of surrounding the area with a finger to the camera 4. At this time, the
次に、ユーザは、図3に示すように、新聞紙50の上でカメラ4を移動させながら指を移動させ、文字領域を囲むことにより、文字認識の対象となる文字領域を指定する。カメラ4は、上記移動の際、上記文字領域の一部を定期的に画像として撮像、または、映像として撮像することにより、上記文字領域の一部をそれぞれ含む複数の画像または映像を取得する。そして、ユーザは、領域を指で囲む動作を終了することを示すジェスチャーをカメラ4に対して提示する。このとき、カメラ4は、上記画像または映像の取得を終了する。
Next, as shown in FIG. 3, the user moves the finger while moving the camera 4 on the
一方、画像結合部11は、上記複数の画像または映像を結合する。具体的には、画像結合部11は、上記複数の画像、または、上記映像をサンプリングすることにより取得した複数の画像の間で、重複した領域をマッチングさせ、マッチングした領域を基に、該複数の画像を繋ぎ合わせる。上記領域を繋ぎ合わせる際に、画像結合部11は、上記ジェスチャーDを含む画像を始点に、領域指定が終了したことを示す上記ジェスチャーを含む画像を終点にして、それぞれの画像を繋ぎ合わせる。そして、画像結合部11は、上記複数の画像または映像を結合することによって生成した1枚の画像を文字切出部12に出力する。
On the other hand, the image combining unit 11 combines the plurality of images or videos. Specifically, the image combining unit 11 matches overlapping regions between the plurality of images or the plurality of images obtained by sampling the video, and based on the matched regions, the plurality of images Of images. When connecting the regions, the image combining unit 11 connects the images using the image including the gesture D as a starting point and the image including the gesture indicating that the region designation has been completed as an end point. Then, the image combining unit 11 outputs one image generated by combining the plurality of images or videos to the
(変形例)
上記の構成では、文字認識装置1は、カメラ4によって指および文字を含む対象が被写体として撮像されたとき、カメラ4から該物体が被写体として写っている画像を取得し、該画像からジェスチャーを判別する。したがって、制御部2が備える各ブロックが指のジェスチャーを判別するためには、予め、カメラ4にて画像または映像が撮像されている必要があった。
(Modification)
In the above configuration, when the object including a finger and a character is captured as a subject by the camera 4, the character recognition device 1 acquires an image in which the object is captured as a subject from the camera 4 and discriminates a gesture from the image. To do. Therefore, in order for each block included in the
そこで、カメラ4が写している映像をリアルタイムに制御部2に出力し、制御部2は、入力された映像を連続的に判別するように構成してもよい。
Therefore, the video captured by the camera 4 may be output to the
上記の構成によれば、例えば、カメラ4に写しながら文字に指をかざすと同時に、リアルタイムで、辞書検索部15にて翻訳された単語を表示させることができる。
According to the above configuration, for example, a word translated by the
また、上記の構成によれば、細かい指の動きのパターン(指の上下往復、左右往復など)をジェスチャーの種類として判断できるようになる。例えば、上記の領域を指で囲む動作を開始するジェスチャー、上記の領域を指で囲む動作を終了することを示すジェスチャーは、特別な指の形状だけでなく、細かい指の動き(紙面等を人差指で叩く動作など)で定義することができ、ジェスチャー判別部10によって判定することができる。また、指の形状は変わらないが、その周りの文字領域の位置が相対的に変化することをもって、囲む動作中、という判定をジェスチャー判別部10が行うことができる。
Further, according to the above configuration, a fine finger movement pattern (finger vertical reciprocation, left-right reciprocation, etc.) can be determined as the type of gesture. For example, the gesture for starting the movement of surrounding the above area with a finger and the gesture for ending the movement of surrounding the above area with a finger are not only special finger shapes but also a fine finger movement (such as a finger And the like can be determined by the
さらに、上記の構成によれば、カメラ4がリアルタイムで指を認識することにより、操作部7にて受け付けるユーザの操作の一部を代替することができる。
Furthermore, according to said structure, when the camera 4 recognizes a finger in real time, a part of user's operation received in the
(ジェスチャーと処理との対応関係)
図4は、文字認識装置1に登録されているジェスチャーの種類と、該ジェスチャーに応じて、文字認識装置1が実行する処理との対応関係を示すテーブルである。
(Correspondence between gesture and processing)
FIG. 4 is a table showing the correspondence between the types of gestures registered in the character recognition device 1 and the processing executed by the character recognition device 1 in accordance with the gestures.
図4に示すように、上部から文字を指図するジェスチャー(ジェスチャーAに対応)がカメラ4によって撮像された場合、キーワード検索部14は、キーワード検索を実行する。また、下部から文字を指図するジェスチャー(ジェスチャーBに対応)がカメラ4によって撮像された場合、辞書検索部15は、辞書検索を実行する。また、2本の指で文字を挟むジェスチャー(ジェスチャーCに対応)、または、領域を指で囲むジェスチャー(ジェスチャーDに対応)がカメラ4によって撮像された場合、記憶処理部16は、文字または一連の文字群をメモに記録する。
As illustrated in FIG. 4, when a gesture (corresponding to gesture A) that instructs a character from the top is captured by the camera 4, the
なお、文字認識装置1は、文字をメモとして記録する場合、例えば、新聞の切り抜きのように、画像レイアウトを保持してもよいし、文字認識後のテキスト文字のみを記録してもよい。また、文字認識装置1は、2本の指で文字を挟むジェスチャー、または、領域を指で囲むジェスチャーを認識した後に、特別な指のパターンを判別し、その判別結果に基づいて、上記のような異なる記録方法を選択することができるように構成されていてもよい。 In addition, when recording a character as a memo, the character recognition device 1 may hold an image layout, for example, as a cutout of a newspaper, or may record only a text character after character recognition. In addition, the character recognition device 1 determines a special finger pattern after recognizing a gesture of sandwiching a character with two fingers or a gesture surrounding a region with a finger, and based on the determination result, as described above. Different recording methods may be selected.
このように、文字認識装置1は、ジェスチャー判別手段によって判別された上記ジェスチャーの種類に応じて、文字認識処理部13によって文字認識された文字を利用した、異なる処理を実行するようになっている。
As described above, the character recognition device 1 performs different processing using the character recognized by the character
なお、本実施形態において、文字認識装置1に予め登録されているジェスチャーは、上記ジェスチャーA〜Dであるが、文字認識装置1に登録可能なジェスチャーの種類は、上記ジェスチャーA〜Dに限定されない。 In the present embodiment, the gestures registered in advance in the character recognition device 1 are the gestures A to D. However, the types of gestures that can be registered in the character recognition device 1 are not limited to the gestures A to D. .
また、文字認識装置1が実行する処理は、上述の各処理に限定されない。 Moreover, the process which the character recognition apparatus 1 performs is not limited to each above-mentioned process.
また、上記ジェスチャーの種類と、該ジェスチャーに応じて文字認識装置1が実行する処理との対応関係は、一例を示したものであり、本発明の適用範囲はこれらの対応関係に限定されない。 The correspondence relationship between the types of gestures and the processing executed by the character recognition device 1 according to the gestures is an example, and the scope of application of the present invention is not limited to these correspondence relationships.
(処理の流れ)
図5は、文字認識装置1における処理の流れの一例を示したフローチャートである。
(Process flow)
FIG. 5 is a flowchart illustrating an example of a process flow in the character recognition device 1.
まず、カメラ4によって指および文字を含む対象が被写体として撮像される(S1)。このとき、ジェスチャー判別部10は上記指および文字を含む対象が被写体として写っている画像を取得する。
First, an object including a finger and characters is imaged as a subject by the camera 4 (S1). At this time, the
次に、ジェスチャー判別部10は、上記画像から指の輪郭に沿った領域である指領域を切り出す(S2)。
Next, the gesture discrimination |
そして、ジェスチャー判別部10は、上記指領域が示すジェスチャーが、予め文字認識装置1に登録されたジェスチャーであるか否かを判定する(S3)。すなわち、上記指領域が示すジェスチャーが、ジェスチャーA、ジェスチャーB、ジェスチャーC、ジェスチャーDの4種類のうち、何れか1つに該当するか、もしくは、上記4種類のジェスチャーの何れにも該当しないかを判定する。
And the gesture discrimination |
上記ジェスチャーが、予め文字認識装置1に登録されたジェスチャーであった場合(S3でYes)、すなわち、上記指領域が示すジェスチャーが、上記4種類のジェスチャーの何れか1つに該当する場合、処理はステップS4に進む。 If the gesture is a gesture registered in advance in the character recognition device 1 (Yes in S3), that is, if the gesture indicated by the finger area corresponds to one of the four types of gestures, Advances to step S4.
一方、上記ジェスチャーが、予め文字認識装置1に登録されていなかった場合(S3でNo)、すなわち、上記指領域が示すジェスチャーが、上記4種類のジェスチャーの何れにも該当しない場合、処理はステップS1に戻る。 On the other hand, if the gesture is not registered in the character recognition device 1 in advance (No in S3), that is, if the gesture indicated by the finger area does not correspond to any of the four types of gestures, Return to S1.
そして、画像結合部11は、ジェスチャー判別部10によって判別されたジェスチャーが、文字領域を囲むジェスチャー(すなわち、ジェスチャーD)であるか否かを判定する(S4)。
Then, the image combining unit 11 determines whether or not the gesture determined by the
上記ジェスチャーが、文字領域を囲むジェスチャーであった場合(S4でYes)、処理はステップS5に進む。 If the gesture is a gesture surrounding the character area (Yes in S4), the process proceeds to step S5.
一方、上記ジェスチャーが、文字領域を囲むジェスチャーでなかった場合(S4でNo)、処理はステップS6に進む。 On the other hand, when the gesture is not a gesture surrounding the character area (No in S4), the process proceeds to step S6.
そして、画像結合部11は、撮像された複数の画像または映像をカメラ4から取得し、該画像または映像を結合する(S5)。 Then, the image combining unit 11 acquires a plurality of captured images or videos from the camera 4 and combines the images or videos (S5).
そして、文字切出部12は、ジェスチャー判別部10によって判別されたジェスチャーの種類に応じて、異なる方法で、上記画像から一部の領域を切り出す(S6)。例えば、上記指領域が示すジェスチャーがジェスチャーAであった場合、文字切出部12は、画像に含まれる指の先端の直下にある文字または一連の文字群を文字領域として切り出す。
Then, the
そして、文字認識処理部13は、文字切出部12によって切り出された文字領域に対し、文字認識を実行する(S7)。そして、文字認識処理部13は、文字認識された文字または一連の文字群を文字コードとして取得する。
And the character
続けて、ジェスチャー判別部10は、判別したジェスチャーの種類に応じて、上記文字コードを利用する処理を選択する(S8)。
Subsequently, the
具体的には、ジェスチャー判別部10によって判別されたジェスチャーが、指で上部から文字を指図するものであった場合(S8でジェスチャーA)、ジェスチャー判別部10は、キーワード検索部14に対し、キーワード検索の実行を指示する。
Specifically, when the gesture discriminated by the
そして、キーワード検索部14は、ジェスチャー判別部10からの上記指示をトリガとして、上記文字コードに対応する文字または一連の文字群を用いて、キーワード検索を実行する(S9)。
And the
また、ジェスチャー判別部10によって判別されたジェスチャーが、指で下部から文字を指図するものであった場合(S8でジェスチャーB)、ジェスチャー判別部10は、辞書検索部15に対し、辞書検索の実行を指示する。
Further, when the gesture determined by the
そして、辞書検索部15は、ジェスチャー判別部10からの上記指示をトリガとして、上記文字コードに対応する文字または一連の文字群および記憶部3に記憶されている辞書データベースを用いて、単語検索を実行する(S10)。
Then, the
また、ジェスチャー判別部10によって判別されたジェスチャーが、2本の指で文字を挟むものであった場合(S8でジェスチャーC)、または、文字領域を指で囲むものであった場合(S8でジェスチャーD)、ジェスチャー判別部10は、記憶処理部16に対し、メモ記録の実行を指示する。
Also, when the gesture determined by the
そして、記憶処理部16は、ジェスチャー判別部10からの上記指示をトリガとして、上記文字コードに対応する文字または一連の文字群をメモとして記憶部3に格納する(S11)。
And the memory |
(まとめ)
本発明の一態様に係る文字認識装置は、画像に含まれる文字を認識する文字認識装置であって、指および文字を含む画像を取得する画像取得手段(カメラ4)と、上記画像取得手段が取得した画像から、指部分と、当該指部分と隣接する文字部分との位置情報からジェスチャーを認識するジェスチャー認識手段(ジェスチャー判別部10)と、上記ジェスチャー認識手段が認識した指のジェスチャーが、予め記憶している複数のジェスチャーのいずれと一致しているかを判定する指ジェスチャー判定手段(ジェスチャー判別部10)と、上記ジェスチャー認識手段が認識した指によって示される位置の文字または一連の文字群を認識する文字認識手段(文字認識処理部13)と、上記指ジェスチャー判定手段が一致していると判定したジェスチャーと対応付けられた処理を、上記文字認識手段によって認識された文字または一連の文字群に対し実行する処理実行手段(キーワード検索部14、辞書検索部15、記憶処理部16)と、を備えている。
(Summary)
A character recognition device according to an aspect of the present invention is a character recognition device that recognizes characters included in an image, and includes an image acquisition unit (camera 4) that acquires an image including a finger and characters, and the image acquisition unit includes: From the acquired image, a gesture recognition unit (gesture determination unit 10) that recognizes a gesture from position information of a finger part and a character part adjacent to the finger part, and a finger gesture recognized by the gesture recognition unit Recognizes a character or a series of characters at the position indicated by the finger recognized by the finger recognition unit (gesture determination unit 10) for determining which of the plurality of stored gestures matches, and the gesture recognition unit Character recognition means (character recognition processing unit 13) that performs the gesture determination that the finger gesture determination means matches. A process execution unit (
また、本発明の一態様に係る文字認識装置の制御方法は、画像に含まれる文字を認識する文字認識装置の制御方法であって、指および文字を含む画像を取得する画像取得ステップ(S1)と、
上記画像取得ステップが取得した画像から、指部分と、当該指部分と隣接する文字部分との位置情報からジェスチャーを認識するジェスチャー認識ステップ(S2、S3)と、上記ジェスチャー認識ステップが認識した指のジェスチャーが、予め記憶している複数のジェスチャーのいずれと一致しているかを判定する指ジェスチャー判定ステップ(S3、S4)と、上記ジェスチャー認識ステップが認識した指によって示される位置の文字または一連の文字群を認識する文字認識ステップ(S7)と、上記指ジェスチャー判定ステップが一致していると判定したジェスチャーと対応付けられた処理を、上記文字認識ステップによって認識された文字または一連の文字群に対し実行する処理実行ステップ(S9、S10、S11)と、を含む。
A control method for a character recognition device according to an aspect of the present invention is a control method for a character recognition device that recognizes characters included in an image, and an image acquisition step (S1) for acquiring an image including a finger and characters. When,
A gesture recognition step (S2, S3) for recognizing a gesture from position information of a finger portion and a character portion adjacent to the finger portion from the image acquired by the image acquisition step, and the finger recognition recognized by the gesture recognition step. A finger gesture determination step (S3, S4) for determining which of the plurality of gestures is stored in advance, and a character or a series of characters at the position indicated by the finger recognized by the gesture recognition step The character recognition step (S7) for recognizing a group and the processing associated with the gesture determined to match the finger gesture determination step are performed on the character or series of characters recognized by the character recognition step. Process execution steps (S9, S10, S11) to be executed.
なお、上記ジェスチャー認識手段が認識する指部分、上記ジェスチャー認識ステップで認識する指部分は、指の形状であってもよいし、指の動きであってもよい。 The finger part recognized by the gesture recognition unit and the finger part recognized in the gesture recognition step may be a finger shape or a finger movement.
上記の構成によれば、上記文字認識装置は、指および文字を含む画像において、指によって示される位置の文字(または一連の文字群)を認識し、指のジェスチャーと対応付けられた処理を、認識した文字(または一連の文字群)に対して実行する。ここで、一連の文字群とは、例えば英語の文章における英単語等である。 According to said structure, the said character recognition apparatus recognizes the character (or series of character group) of the position shown with a finger | toe in the image containing a finger | toe and a character, The process matched with the gesture of the finger | toe, Execute on a recognized character (or set of characters). Here, the series of character groups is, for example, English words in English sentences.
これにより、上記文字認識装置は、指のジェスチャーのみによって所望の文字を認識し、認識した文字に対し所望の処理を実行することができる。 Thereby, the said character recognition apparatus can recognize a desired character only with a finger gesture, and can perform a desired process with respect to the recognized character.
よって、ユーザは、ジェスチャーで所望の文字領域を示すという手軽かつ直感的な操作のみで、文字認識および認識した文字に対する所望の処理を連続的に実行させることができるという効果を奏する。 Therefore, the user can perform the character recognition and the desired processing for the recognized character continuously by simple and intuitive operation of showing the desired character area with the gesture.
さらに、上記画像取得手段は互いの画像の一部に共通部分がある複数の画像を取得し、上記文字認識装置は、上記複数の画像のそれぞれに含まれる指のジェスチャーが、上記複数のジェスチャーのうちの1つである第1ジェスチャー(ジェスチャーD)と一致していると上記指ジェスチャー判定手段が判定した場合、上記共通部分を重ね合わせることにより上記複数の画像を結合する結合手段(画像結合部11)を備えていてもよい。 Further, the image acquisition means acquires a plurality of images having a common part in a part of each other image, and the character recognition device is configured such that a finger gesture included in each of the plurality of images is the one of the plurality of gestures. When the finger gesture determination unit determines that the first gesture (gesture D), which is one of them, matches, a combining unit (image combining unit) that combines the plurality of images by superimposing the common parts 11) may be provided.
上記の構成によれば、上記文字認識装置は、互いの画像の一部に共通部分がある複数の画像を取得し、上記複数の画像のそれぞれに含まれる指のジェスチャーが、上記複数のジェスチャーのうちの1つであった場合、上記共通部分を重ね合わせることにより上記複数の画像を結合する。 According to the above configuration, the character recognition device acquires a plurality of images having a common part in a part of each other image, and a finger gesture included in each of the plurality of images is the plurality of gestures. If it is one of them, the plurality of images are combined by superimposing the common parts.
よって、ユーザは、一度の撮像では撮像範囲に収まらないような撮像対象についても、容易に文字認識の対象範囲を設定することができるという効果を奏する。 Therefore, the user can easily set the target range for character recognition even for an imaging target that does not fit in the imaging range by one imaging.
さらに、上記文字認識装置は、通信ネットワークを介して外部の機器と通信する通信手段(通信部5)を備え、上記処理実行手段(キーワード検索部14)は、上記ジェスチャー認識手段が認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つである第2ジェスチャー(ジェスチャーA)と一致していると上記指ジェスチャー判定手段が判定した場合、上記文字認識手段によって認識された文字または一連の文字群をキーとして、上記通信手段を介して上記通信ネットワークから情報を検索してもよい。 Further, the character recognition device includes a communication unit (communication unit 5) that communicates with an external device via a communication network, and the processing execution unit (keyword search unit 14) detects the finger recognized by the gesture recognition unit. A character or a series of characters recognized by the character recognition means when the finger gesture determination means determines that a gesture matches a second gesture (gesture A) which is one of the plurality of gestures. Information may be retrieved from the communication network via the communication means using a group as a key.
上記の構成によれば、上記文字認識装置は、認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つであった場合、認識された文字(または一連の文字群)をキーとして、通信ネットワークから情報を検索する。 According to the above configuration, when the recognized finger gesture is one of the plurality of gestures, the character recognition device communicates using the recognized character (or a series of characters) as a key. Retrieve information from the network.
よって、ユーザは、ジェスチャーで所望の文字を示すという手軽かつ直感的な操作のみで、文字認識および認識した文字をキーとして通信ネットワークから情報を検索することができるという効果を奏する。 Therefore, the user can retrieve information from the communication network using the recognized character and the recognized character as a key only by a simple and intuitive operation of showing a desired character with a gesture.
さらに、上記文字認識装置は、用語と用語の説明とを対応付けて作成された辞書データベースを備え、上記処理実行手段(辞書検索部15)は、上記ジェスチャー認識手段が認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つである第3ジェスチャー(ジェスチャーB)と一致していると上記指ジェスチャー判定手段が判定した場合、上記文字認識手段によって認識された文字または一連の文字群をキーとして、上記辞書データベースの用語を検索してもよい。 Furthermore, the character recognition device includes a dictionary database created by associating terms with explanations of terms, and the processing execution means (dictionary search unit 15) is configured such that the finger gesture recognized by the gesture recognition means is When the finger gesture determination unit determines that the third gesture (gesture B), which is one of the plurality of gestures, matches a character or a series of characters recognized by the character recognition unit As an alternative, the dictionary database term may be searched.
上記の構成によれば、上記文字認識装置は、認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つであった場合、認識された文字(または一連の文字群)をキーとして、用語と用語の説明とを対応付けて作成された辞書データベースから用語を検索する。 According to the above configuration, when the recognized finger gesture is one of the plurality of gestures, the character recognition device uses the recognized character (or a series of characters) as a key. A term is searched from a dictionary database created by associating a term with a description of the term.
よって、ユーザは、ジェスチャーで所望の文字を示すという手軽かつ直感的な操作のみで、文字認識および認識した文字をキーとして辞書検索することができるという効果を奏する。 Therefore, the user can perform a dictionary search using the recognized character and the recognized character as a key only by a simple and intuitive operation of showing a desired character with a gesture.
さらに、上記文字認識装置は、文字を記憶する記憶部を備え、上記処理実行手段(記憶処理部16)は、上記ジェスチャー認識手段が認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つである第4ジェスチャー(ジェスチャーC)と一致していると上記指ジェスチャー判定手段が判定した場合、上記文字認識手段によって認識された文字または一連の文字群を上記記憶部に記憶してもよい。 The character recognition device further includes a storage unit for storing characters, and the processing execution unit (storage processing unit 16) is configured such that the finger gesture recognized by the gesture recognition unit is one of the plurality of gestures. When the finger gesture determination unit determines that the fourth gesture (gesture C) is the same, the character or the series of characters recognized by the character recognition unit may be stored in the storage unit.
上記の構成によれば、上記文字認識装置は、認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つであった場合、認識された文字(または一連の文字群)記憶する。 According to the above configuration, when the recognized finger gesture is one of the plurality of gestures, the character recognition device stores the recognized character (or a series of character groups).
よって、ユーザは、ジェスチャーで所望の文字を示すという手軽かつ直感的な操作のみで、文字認識および認識した文字を記憶することができるという効果を奏する。 Therefore, the user can recognize the character and memorize the recognized character only by a simple and intuitive operation of showing a desired character with a gesture.
なお、上記文字認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記文字認識装置をコンピュータにて実現させる上記文字認識装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The character recognition device may be realized by a computer. In this case, a control program for the character recognition device that causes the character recognition device to be realized by the computer by causing the computer to operate as each of the means, and A computer-readable recording medium on which it is recorded also falls within the scope of the present invention.
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope shown in the claims. That is, embodiments obtained by combining technical means appropriately modified within the scope of the claims are also included in the technical scope of the present invention.
(ソフトウェアによる実現例)
最後に、文字認識装置1の各ブロック、特に制御部2は、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
(Example of software implementation)
Finally, each block of the character recognition device 1, particularly the
後者の場合、文字認識装置1は、各機能を実現するプログラムの命令を実行するCPU、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである文字認識装置1の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記文字認識装置1に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。 In the latter case, the character recognition device 1 includes a CPU that executes instructions of a program that realizes each function, a ROM (Read Only Memory) that stores the program, a RAM (Random Access Memory) that expands the program, the program, A storage device (recording medium) such as a memory for storing various data is provided. An object of the present invention is a recording medium on which a program code (execution format program, intermediate code program, source program) of a control program of the character recognition device 1 which is software for realizing the functions described above is recorded so as to be readable by a computer. This can also be achieved by supplying the character recognition apparatus 1 and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU).
上記記録媒体としては、一時的でない有形の媒体(non-transitory tangible medium)、例えば、磁気テープやカセットテープ等のテープ類、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク類、ICカード(メモリカードを含む)/光カード等のカード類、マスクROM/EPROM/EEPROM(登録商標)/フラッシュROM等の半導体メモリ類、あるいはPLD(Programmable logic device)やFPGA(Field Programmable Gate Array)等の論理回路類などを用いることができる。 Examples of the recording medium include non-transitory tangible medium, such as magnetic tape and cassette tape, magnetic disk such as floppy (registered trademark) disk / hard disk, and CD-ROM / MO. Discs including optical discs such as / MD / DVD / CD-R, cards such as IC cards (including memory cards) / optical cards, semiconductor memories such as mask ROM / EPROM / EEPROM (registered trademark) / flash ROM Alternatively, logic circuits such as PLD (Programmable Logic Device) and FPGA (Field Programmable Gate Array) can be used.
また、文字認識装置1を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(Asymmetric Digital Subscriber Line)回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、IEEE802.11無線、HDR(High Data Rate)、NFC(Near Field Communication)、DLNA(Digital Living Network Alliance)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。 The character recognition device 1 may be configured to be connectable to a communication network, and the program code may be supplied via the communication network. The communication network is not particularly limited as long as it can transmit the program code. For example, the Internet, intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication network, and the like can be used. The transmission medium constituting the communication network may be any medium that can transmit the program code, and is not limited to a specific configuration or type. For example, even with wired lines such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, and ADSL (Asymmetric Digital Subscriber Line) line, infrared rays such as IrDA and remote control, Bluetooth (registered trademark), IEEE 802.11 wireless, HDR ( It can also be used by radio such as High Data Rate (NFC), Near Field Communication (NFC), Digital Living Network Alliance (DLNA), mobile phone network, satellite line, and digital terrestrial network. The present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.
本発明は、画像に含まれる文字を文字認識する文字認識機能を搭載した情報処理装置に利用することができる。特に、パーソナルコンピュータ、携帯電話、スマートフォン、タブレットPC、ゲーム機器などの様々な情報処理装置に幅広く適用することができる。 The present invention can be used for an information processing apparatus equipped with a character recognition function for recognizing characters included in an image. In particular, it can be widely applied to various information processing apparatuses such as a personal computer, a mobile phone, a smartphone, a tablet PC, and a game machine.
1 文字認識装置
3 記憶部
4 カメラ(画像取得手段)
5 通信部(通信手段)
10 ジェスチャー判別部(ジェスチャー認識手段、指ジェスチャー判定手段)
11 画像結合部(結合手段)
12 文字切出部(文字認識手段)
13 文字認識処理部(文字認識手段)
14 キーワード検索部(処理実行手段)
15 辞書検索部(処理実行手段)
16 記憶処理部(処理実行手段)
1 character recognition device 3 storage unit 4 camera (image acquisition means)
5 Communication part (communication means)
10 Gesture discriminating unit (gesture recognition means, finger gesture judgment means)
11 Image combiner (combination means)
12 Character extraction part (character recognition means)
13 Character recognition processing unit (character recognition means)
14 Keyword search part (process execution means)
15 Dictionary search unit (process execution means)
16 Storage processing unit (processing execution means)
Claims (8)
指および文字を含む画像を取得する画像取得手段と、
上記画像取得手段が取得した画像から、指部分と、当該指部分と隣接する文字部分との位置情報からジェスチャーを認識するジェスチャー認識手段と、
上記ジェスチャー認識手段が認識した指のジェスチャーが、予め記憶している複数のジェスチャーのいずれと一致しているかを判定する指ジェスチャー判定手段と、
上記ジェスチャー認識手段が認識した指によって示される位置の文字または一連の文字群を認識する文字認識手段と、
上記指ジェスチャー判定手段が一致していると判定したジェスチャーと対応付けられた処理を、上記文字認識手段によって認識された文字または一連の文字群に対し実行する処理実行手段と、を備え、
上記ジェスチャー認識手段が認識した指によって示される位置は、
指で表示部の上部から文字を指図する場合、該表示部における上記指の先端の直下にある文字または一連の文字群であり、
指で表示部の下部から文字を指図する場合、該表示部における上記指の先端の直上にある文字または一連の文字群であり、
2本の指で文字を挟む場合、2本の指の先端に挟まれた部分にある文字または一連の文字群である、
ことを特徴とする文字認識装置。 A character recognition device for recognizing characters included in an image,
Image acquisition means for acquiring an image including a finger and a character;
Gesture recognition means for recognizing a gesture from position information of a finger part and a character part adjacent to the finger part from the image acquired by the image acquisition means;
Finger gesture determination means for determining which of the plurality of gestures stored in advance is a finger gesture recognized by the gesture recognition means;
A character recognition means for recognizing a character or a series of characters at a position indicated by the finger recognized by the gesture recognition means;
Processing execution means for executing processing associated with the gesture determined to match the finger gesture determination means on the character or series of characters recognized by the character recognition means ,
The position indicated by the finger recognized by the gesture recognition means is
When directing a character from the top of the display unit with a finger, it is a character or a series of characters directly under the tip of the finger in the display unit,
When directing a character from the lower part of the display unit with a finger, a character or a series of character groups immediately above the tip of the finger in the display unit,
When a character is sandwiched between two fingers, it is a character or a series of characters in a portion sandwiched between the tips of two fingers.
A character recognition device.
上記複数の画像のそれぞれに含まれる指のジェスチャーが、上記複数のジェスチャーのうちの1つである第1ジェスチャーと一致していると上記指ジェスチャー判定手段が判定した場合、上記共通部分を重ね合わせることにより上記複数の画像を結合する結合手段をさらに備えていることを特徴とする請求項1に記載の文字認識装置。 The image acquisition means acquires a plurality of images having a common part in a part of each other image,
When the finger gesture determination unit determines that a finger gesture included in each of the plurality of images matches a first gesture that is one of the plurality of gestures, the common portion is superimposed. The character recognition apparatus according to claim 1, further comprising a combining unit that combines the plurality of images.
上記処理実行手段は、上記ジェスチャー認識手段が認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つである第2ジェスチャーと一致していると上記指ジェスチャー判定手段が判定した場合、上記文字認識手段によって認識された文字または一連の文字群をキーとして、上記通信手段を介して上記通信ネットワークから情報を検索することを特徴とする請求項1または2に記載の文字認識装置。 A communication means for communicating with an external device via a communication network;
When the finger gesture determination unit determines that the finger gesture recognized by the gesture recognition unit matches a second gesture that is one of the plurality of gestures, the processing execution unit 3. The character recognition apparatus according to claim 1, wherein information is retrieved from the communication network via the communication unit using a character or a series of character groups recognized by the recognition unit as a key.
上記処理実行手段は、上記ジェスチャー認識手段が認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つである第3ジェスチャーと一致していると上記指ジェスチャー判定手段が判定した場合、上記文字認識手段によって認識された文字または一連の文字群をキーとして、上記辞書データベースの用語を検索することを特徴とする請求項1から3のいずれか1項に記載の文字認識装置。 A dictionary database created by associating terms with term descriptions;
When the finger gesture determination unit determines that the finger gesture recognized by the gesture recognition unit matches a third gesture that is one of the plurality of gestures, the processing execution unit 4. The character recognition apparatus according to claim 1, wherein a term in the dictionary database is searched using a character or a series of character groups recognized by a recognition means as a key.
上記処理実行手段は、上記ジェスチャー認識手段が認識した指のジェスチャーが、上記複数のジェスチャーのうちの1つである第4ジェスチャーと一致していると上記指ジェスチャー判定手段が判定した場合、上記文字認識手段によって認識された文字または一連の文字群を上記記憶部に記憶することを特徴とする請求項1から4のいずれか1項に記載の文字認識装置。 A storage unit for storing characters;
When the finger gesture determination unit determines that the finger gesture recognized by the gesture recognition unit matches a fourth gesture that is one of the plurality of gestures, the processing execution unit The character recognition device according to any one of claims 1 to 4, wherein a character or a series of character groups recognized by a recognition unit is stored in the storage unit.
指および文字を含む画像を取得する画像取得ステップと、
上記画像取得ステップが取得した画像から、指部分と、当該指部分と隣接する文字部分との位置情報からジェスチャーを認識するジェスチャー認識ステップと、
上記ジェスチャー認識ステップが認識した指のジェスチャーが、予め記憶している複数のジェスチャーのいずれと一致しているかを判定する指ジェスチャー判定ステップと、
上記ジェスチャー認識ステップが認識した指によって示される位置の文字または一連の文字群を認識する文字認識ステップと、
上記指ジェスチャー判定ステップが一致していると判定したジェスチャーと対応付けられた処理を、上記文字認識ステップによって認識された文字または一連の文字群に対し実行する処理実行ステップと、を含み、
上記ジェスチャー認識ステップにて認識した指によって示される位置とは、
指で表示部の上部から文字を指図する場合、該表示部における上記指の先端の直下にある文字または一連の文字群であり、
指で表示部の下部から文字を指図する場合、該表示部における上記指の先端の直上にある文字または一連の文字群であり、
2本の指で文字を挟む場合、2本の指の先端に挟まれた部分にある文字または一連の文字群である、
ことを特徴とする文字認識装置の制御方法。 A method for controlling a character recognition device that recognizes characters included in an image,
An image acquisition step of acquiring an image including a finger and a character;
A gesture recognition step for recognizing a gesture from position information of a finger part and a character part adjacent to the finger part from the image acquired by the image acquisition step;
A finger gesture determination step for determining which of the plurality of gestures stored in advance is the finger gesture recognized by the gesture recognition step;
A character recognition step for recognizing a character or a series of characters at the position indicated by the finger recognized by the gesture recognition step;
The process of the finger gesture determination step is associated with the gesture is determined that they coincide, see containing and a process executing step of executing to recognized characters or stream of characters by the character recognition step,
The position indicated by the finger recognized in the gesture recognition step is
When directing a character from the top of the display unit with a finger, it is a character or a series of characters directly under the tip of the finger in the display unit,
When directing a character from the lower part of the display unit with a finger, a character or a series of character groups immediately above the tip of the finger in the display unit,
When a character is sandwiched between two fingers, it is a character or a series of characters in a portion sandwiched between the tips of two fingers.
A control method for a character recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012207588A JP5989479B2 (en) | 2012-09-20 | 2012-09-20 | Character recognition device, method for controlling character recognition device, control program, and computer-readable recording medium on which control program is recorded |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012207588A JP5989479B2 (en) | 2012-09-20 | 2012-09-20 | Character recognition device, method for controlling character recognition device, control program, and computer-readable recording medium on which control program is recorded |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014063318A JP2014063318A (en) | 2014-04-10 |
JP5989479B2 true JP5989479B2 (en) | 2016-09-07 |
Family
ID=50618504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012207588A Expired - Fee Related JP5989479B2 (en) | 2012-09-20 | 2012-09-20 | Character recognition device, method for controlling character recognition device, control program, and computer-readable recording medium on which control program is recorded |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5989479B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016095795A (en) | 2014-11-17 | 2016-05-26 | 株式会社東芝 | Recognition device, method, and program |
JP2016099743A (en) * | 2014-11-19 | 2016-05-30 | 日本電信電話株式会社 | Object region detecting device, method, and program |
JP6483556B2 (en) | 2015-07-15 | 2019-03-13 | 株式会社東芝 | Operation recognition device, operation recognition method and program |
CN110032994B (en) * | 2019-06-10 | 2019-09-20 | 上海肇观电子科技有限公司 | Character detecting method, reading aids, circuit and medium |
KR20220027081A (en) | 2019-06-10 | 2022-03-07 | 넥스트브이피유 (상하이) 코포레이트 리미티드 | Text detection method, reading support device and medium |
CN112784663A (en) * | 2020-05-08 | 2021-05-11 | 珠海金山办公软件有限公司 | Character recognition method and device |
KR102597069B1 (en) * | 2021-04-23 | 2023-11-01 | 네이버 주식회사 | Method and system for providing information based on pointing |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3355708B2 (en) * | 1993-06-29 | 2002-12-09 | カシオ計算機株式会社 | Command processing device |
JP4164568B2 (en) * | 2001-10-01 | 2008-10-15 | 独立行政法人産業技術総合研究所 | Character information input device, character information input method, and recording medium |
DE60330484D1 (en) * | 2002-08-07 | 2010-01-21 | Panasonic Corp | CHARACTER DETECTION PROCESSING DEVICE, CHARACTER RECOGNITION PROCESSING AND MOBILE TERMINAL |
JP4019063B2 (en) * | 2003-04-18 | 2007-12-05 | 光雄 中山 | Optical terminal device, image processing method and system |
JP4104605B2 (en) * | 2005-03-29 | 2008-06-18 | 株式会社東芝 | Image processing device |
JP2008027220A (en) * | 2006-07-21 | 2008-02-07 | Matsushita Electric Ind Co Ltd | Information input device and information input method |
JP2008217660A (en) * | 2007-03-07 | 2008-09-18 | Matsushita Electric Ind Co Ltd | Retrieval method and device |
-
2012
- 2012-09-20 JP JP2012207588A patent/JP5989479B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014063318A (en) | 2014-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5989479B2 (en) | Character recognition device, method for controlling character recognition device, control program, and computer-readable recording medium on which control program is recorded | |
US20130120548A1 (en) | Electronic device and text reading guide method thereof | |
US10909308B2 (en) | Information processing apparatus, information processing method, and program | |
US20130120430A1 (en) | Electronic device and text reading guide method thereof | |
KR102147935B1 (en) | Method for processing data and an electronic device thereof | |
EP2306270B1 (en) | Character input method and system | |
US9172879B2 (en) | Image display control apparatus, image display apparatus, non-transitory computer readable medium, and image display control method | |
KR20140030361A (en) | Apparatus and method for recognizing a character in terminal equipment | |
US9207808B2 (en) | Image processing apparatus, image processing method and storage medium | |
JP5294818B2 (en) | Information processing apparatus and information processing method | |
US20110016398A1 (en) | Slide Show | |
US20150146265A1 (en) | Method and apparatus for recognizing document | |
JP2015069365A (en) | Information processing equipment and control program | |
US10152472B2 (en) | Apparatus and method for generating summary data of E-book or E-note | |
JP2018097580A (en) | Information processing device and program | |
EP2634690A1 (en) | Method and apparatus for setting user interface | |
WO2019155853A1 (en) | Electronic album device, and operation method and operation program thereof | |
JPWO2015163118A1 (en) | Character identification device and control program | |
US9690393B2 (en) | Information processing device, program, recording medium, and information processing system | |
US20140078093A1 (en) | Information processing apparatus, information processing method and computer program | |
US10915778B2 (en) | User interface framework for multi-selection and operation of non-consecutive segmented information | |
JP5991323B2 (en) | Image processing apparatus, image processing method, and image processing program | |
JP2012108609A (en) | Display device, display method, computer program and recording medium | |
KR20150125778A (en) | User terminal device and method of managing data of the user terminal device | |
US20200193209A1 (en) | Information processing apparatus for generating schedule data from camera-captured image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5989479 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |