JP6408055B2 - 情報処理装置、方法及びプログラム - Google Patents

情報処理装置、方法及びプログラム Download PDF

Info

Publication number
JP6408055B2
JP6408055B2 JP2017055368A JP2017055368A JP6408055B2 JP 6408055 B2 JP6408055 B2 JP 6408055B2 JP 2017055368 A JP2017055368 A JP 2017055368A JP 2017055368 A JP2017055368 A JP 2017055368A JP 6408055 B2 JP6408055 B2 JP 6408055B2
Authority
JP
Japan
Prior art keywords
recognition
image
displayed
target
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017055368A
Other languages
English (en)
Other versions
JP2018159978A (ja
Inventor
洋次郎 登内
洋次郎 登内
一成 大内
一成 大内
梅木 秀雄
秀雄 梅木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017055368A priority Critical patent/JP6408055B2/ja
Priority to US15/694,594 priority patent/US10528852B2/en
Priority to EP17189256.5A priority patent/EP3379452A1/en
Publication of JP2018159978A publication Critical patent/JP2018159978A/ja
Application granted granted Critical
Publication of JP6408055B2 publication Critical patent/JP6408055B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/222Character recognition characterised by the type of writing of characters separated by spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Description

本発明の実施形態は、情報処理装置、方法及びプログラムに関する。
近年では、例えば画像から特定の認識対象を認識することが可能な情報処理装置が開発されている。このような情報処理装置の一例としては、例えば文字が記載されている被写体の画像を撮像することによって当該画像から文字を認識する文字認識装置がある。
ここで、上記したように撮像された画像から文字を認識するためには、文字認識装置において一定の処理時間を必要とする。
しかしながら、このような文字を認識する処理(以下、文字認識処理と表記)が実行されている間の文字認識装置の画面には例えば撮像された画像が表示されているのみであり、ユーザは、文字認識処理の結果が画面に表示されるまで、文字認識装置において適切に文字認識処理が実行されているか否かを把握することができない。
また、例えば複数の文字認識結果の結果が表示されるような場合には、当該結果に対するユーザの視認性が低下する可能性がある。
このような文字認識装置はユーザにとって使い勝手が悪く、利便性が低い。このため、例えば文字を含む認識対象に対する画像認識に関してユーザの利便性を向上させるような表示を実現することが望まれている。
特開2013−122747号公報 特開2003−078640号公報 特開2000−207487号公報
そこで、本発明が解決しようとする課題は、画像認識に関してユーザの利便性を向上させるような表示を実現することが可能な情報処理装置、方法及びプログラムを提供することにある。
実施形態に係る情報処理装置は、第1認識手段と、第1表示処理手段と、第2認識手段と、第2表示処理手段とを具備する。前記第1認識手段は、第1画像に含まれる第1認識対象を認識する。前記第1表示処理手段は、前記第1認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示する。前記第2認識手段は、前記第1画像とは異なる第2画像に含まれる第2認識対象を認識する。前記第2表示処理手段は、前記第2認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示する。前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示される。前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される。
実施形態に係る文字認識装置の構成の一例を示すブロック図。 文字認識装置の処理手順の一例を示すフローチャート。 カメラによって撮像された画像が表示された場合における表示画面の一例を示す図。 フォードバック情報として尤度マップ画像が表示された場合における表示画面の一例を示す図。 尤度マップ画像の代わりに文字候補領域の各々を表す枠線が表示された場合における表示画面の一例を示す図。 フィードバック情報として文字列領域の枠線が表示された場合における表示画面の一例を示す図。 文字認識結果が表示された場合における表示画面の一例を示す図。 テキストの取得に応じて枠線が強調表示された場合における表示画面の一例を示す図。 テキストの取得に応じて枠線が強調表示された場合における表示画面の一例を示す図。 文字を認識することができない旨の結果が表示された場合における表示画面の一例を示す図。 文字を認識することができない文字列領域を包含する枠線が破線で表示された場合における表示画面の一例を示す図。 文字認識結果を検索処理に用いる場合の文字認識装置の処理手順の一例を示すフローチャート。 認識対象となっている領域に対してモザイク処理が施された場合における表示画面の一例を示す図。 認識対象となっている領域上に特定の文字列が表示された場合における表示画面の一例を示す図。
以下、図面を参照して、実施形態について説明する。
図1は、本実施形態に係る情報処理装置の構成の一例を示すブロック図である。本実施形態に係る情報処理装置は、画像から認識対象を認識することが可能な機能を有し、例えばスマートフォン及びタブレットコンピュータ等の携帯型の電子機器として実現され得る。以下の説明においては、上記した認識対象として文字を認識する情報処理装置(以下、文字認識装置と表記)について主に説明する。
図1に示すように、文字認識装置10は、カメラ11、格納部12、処理部13及び表示部14を含む。
カメラ11は、上記したスマートフォンのような文字認識装置10の背面等に搭載されており、当該文字認識装置10を把持するユーザの周辺に配置されている被写体の画像を撮像する。なお、被写体は、例えば文字(から構成される文字列)が記載されている街中の看板等を含む。すなわち、本実施形態において、カメラ11は、複数の文字を含む画像を撮像する。
格納部12は、文字認識装置10に備えられる例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)、ROM(Read Only Memory)またはRAM(Random Access Memory)等の記憶装置を用いて実現される。また、格納部12には、例えばカメラ11によって撮像された画像等を格納することが可能である。
処理部13は、記憶装置に格納されたプログラムを実行する文字認識装置10に備えられるコンピュータ(例えば、プロセッサ等)によって実現される。なお、コンピュータによって実行されるプログラムには、オペレーティングシステム及び画像から文字を認識するためのアプリケーションプログラム(以下、文字認識アプリケーションと表記)等が含まれる。
処理部13は、第1表示処理部131、文字認識処理部132、第2表示処理部133、第3表示処理部134及び検索処理部135を含む。処理部13に含まれる各部131〜135の一部または全ては、例えばコンピュータに上記した文字認識アプリケーションを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、これらの各部131〜135の一部または全ては、例えばIC(Integrated Circuit)等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。コンピュータに実行させる文字認識アプリケーションは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて文字認識装置10にダウンロードされてもよい。
第1表示処理部131は、カメラ11によって撮像された画像を取得する。なお、第1表示処理部131は、例えば格納部12に格納されている画像を取得しても構わない。また、第1表示処理部131は、例えば文字認識装置10の外部のサーバ装置等から画像を取得してもよい。第1表示処理部131は、取得された画像を表示部14に表示する。
文字認識処理部132は、第1表示処理部131によって表示された画像(カメラ11によって撮像された画像)から文字を認識する処理(以下、文字認識処理と表記)を実行する。
第2表示処理部133は、文字認識処理部132による文字認識処理の実行の開始から、当該文字認識処理の結果が取得されるまでの間(つまり、文字認識処理の実行中)に、当該文字認識処理が実行中であることを表す情報(以下、フィードバック情報と表記)を表示部14に表示する。なお、フィードバック情報は、例えば画像に含まれる文字の位置を示す情報を含み、上記したように文字認識処理が終了する前に表示される。
第3表示処理部134は、文字認識処理部132による文字認識処理が終了した場合に、当該文字認識処理の結果を表示部14に表示する。
検索処理部135は、第3の表示処理部134によって表示された文字認識処理の結果を用いた検索処理を実行する。なお、検索処理部135による検索処理の結果は、表示部14に表示される。
表示部14は、文字認識装置10に備えられる例えばタッチパネルディスプレイ等を用いて実現される。
なお、上記したタッチパネルディスプレイには、当該タッチパネルディスプレイの画面上の指(またはペン)の接触位置を検出することが可能な例えば静電容量方式のタッチパネル等が組み込まれている。これによれば、ユーザは、タッチパネルディスプレイの画面に指を接触させる(タッチする)ことにより文字認識装置10に対する操作を行うことが可能である。
次に、図2のフローチャートを参照して、本実施形態に係る文字認識装置10の処理手順の一例について説明する。
なお、図2に示す処理は、例えば文字認識装置10において上記した文字認識アプリケーションが起動された際に処理部13によって実行されるものとする。
まず、文字認識装置10において文字認識アプリケーションが起動されると、第1表示処理部131は、カメラ11によって撮像された画像を取得する。ここで、上記したように文字認識装置10がスマートフォン等であるものとすると、当該文字認識装置10には、ユーザがカメラ11に対して画像の撮像を指示するためのボタン(例えば、シャッターボタン)が設けられている。この場合、第1表示処理部131は、例えばユーザがシャッターボタンを押下することによってカメラ11によって撮像された静止画像を取得する。第1表示処理部131は、このように取得された画像を表示部14に表示する(ステップS1)。なお、第1表示処理部131によって取得された画像は、例えば格納部12に格納(蓄積)されるものとする。ここでは、カメラ11によって撮像された静止画像が取得されて表示部14に表示されるものとして説明するが、カメラ11によって撮像された動画像が取得されて表示部14に表示されても構わない。
次に、文字認識処理部132は、ステップS1において表示された画像に含まれる文字(列)を認識するために文字認識処理を実行する(ステップS2)。
ここで、文字認識処理においては、ステップS1において表示された画像から文字列を含む一部の領域(以下、文字列領域と表記)を検出する処理が実行される。次に、検出された文字列領域に含まれる文字列を認識する処理が実行され、文字認識処理の結果(以下、文字認識結果と表記)として、当該文字列を表すテキストが取得される。
なお、文字認識処理部132は、上記したように取得されたテキストに対して翻訳処理を実行しても構わない。この翻訳処理によれば、テキストが予め設定された言語に翻訳された結果(つまり、当該テキストの翻訳文)を取得することができる。
すなわち、本実施形態における文字認識結果は、上記した画像(文字列領域)に含まれる文字列を表すテキストであってもよいし、当該テキストが翻訳された翻訳文であっても構わない。
また、本実施形態においては、上記した画像から文字列領域を検出する処理及び当該検出された文字列領域に含まれる文字列を認識する処理(当該文字列を表すテキストを取得する処理)を含む処理を文字認識処理として主に説明するが、これらの処理に上記したテキストに対する翻訳処理を加えた一連の処理を文字認識処理としても構わない。
ここで、上記した文字認識処理において文字認識結果を取得するまでには一定の処理時間が必要である。このため、第2表示処理部133は、文字認識処理部132による文字認識処理が実行されている間(つまり、文字認識結果が取得されるまでの間)に、当該文字認識処理が実行中であることを表すフィードバック情報を表示する(ステップS3)。なお、フィードバック情報は、文字認識に関する処理状況を、当該文字認識装置10を使用するユーザにフィードバックするための情報である。
具体的には、第2表示処理部133は、フィードバック情報として、例えば上記した文字認識処理(文字列領域を検出する処理)において文字があると推定された画像上の一部領域(つまり、画像上の文字があるらしい領域)を表示するものとする。なお、表示部14に表示されるフィードバック情報の具体例については後述する。
ステップS3の処理が実行されると、上記した文字認識処理部132による文字認識処理が終了したか否かが判定される(ステップS4)。
文字認識処理が終了したと判定された場合(ステップS4のYES)、文字認識処理部132によって上記した文字認識結果が取得される。第3表示処理部134は、文字認識処理部132によって取得された文字認識結果を表示部14に表示する(ステップS5)。なお、上記したように文字認識処理に翻訳処理が含まれる場合には、当該翻訳処理が完了した(翻訳文が取得された)時点で文字認識処理が終了したと判定されるものとする。
一方、文字認識処理が終了していないと判定された場合(ステップS4のNO)、ステップS3に戻って処理が繰り返される。すなわち、図2に示す処理においては、文字認識処理が終了するまで、上記したフィードバック情報の表示が維持される。なお、フィードバック情報は、例えば文字認識処理の進捗(処理状況)に応じて更新される(つまり、異なるフィードバック情報が表示される)ような構成であってもよい。
以下、文字認識装置10において文字認識処理が実行される際の表示部14に表示される画面(以下、表示画面と表記)の遷移例について具体的に説明する。
上記したように文字認識装置10において文字認識アプリケーションが起動され、カメラ11によって画像が撮像された場合、表示部14には、当該画像(を含む表示画面)が表示される。
ここで、図3は、上記したカメラ11によって撮像された画像(以下、撮像画像と表記)が表示された場合における表示画面の一例を示す。
図3に示すように、表示画面には、第1の領域141及び第2の領域142が設けられている。
第1の領域141は、撮像画像(静止画像)が表示される領域である。図3に示す例では、第1の領域141には、「○○駅 この先右折」の文字(列)が記載された看板を含む撮像画像300が表示されている。
第2の領域142は、例えば第1の領域141に表示された撮像画像に対して文字認識処理が実行された結果(文字認識結果)が表示される領域である。文字認識処理が実行される前の時点では、図3に示すように、第2の領域142は空欄となっている。
次に、図3に示す画像300に対して文字認識処理が実行される。この文字認識処理においては、例えば上記したように文字列領域を検出する処理及び当該文字列領域に含まれる文字列を表すテキストを取得する処理等が実行される。
ここで、本実施形態において、上記した文字認識処理が実行されている間には、当該文字認識処理が実行中であることを表すフィードバック情報が表示される。
以下、このフィードバック情報について具体的に説明する。本実施形態において、フィードバック情報には、例えば撮像画像を構成する画素毎の文字があるらしい度合い(以下、尤度と表記)を表す尤度マップ画像(尤度情報に基づく情報)が含まれる。
この場合、第2表示処理部133は、例えば撮像画像(元画像)から複数の文字候補領域を抽出し、当該文字候補領域の各々に含まれる各画素の尤度に例えば1を加算する(即ち、画素の尤度を高くする)。なお、文字候補領域とは、例えば撮像画像中の文字が存在する可能性のある画像の一部領域をいう。この文字候補領域の抽出は、例えば撮像画像の各画素の輝度値に基づいてエッジ等の特徴部分を抽出し、文字らしさの特徴を有する領域を特定することによって行われる。なお、上記したように文字候補領域は複数抽出されるが、文字候補領域として抽出される回数の多い画素の尤度は高くなり、当該文字候補領域として抽出される回数の低い画素の尤度は低くなる。第2表示処理部133は、このような処理により得られる各画素の尤度に応じた色彩を当該各画素に付与することによって尤度マップ画像を生成する。すなわち、本実施形態において、フィードバック情報は色彩情報を含む。上記尤度マップの作成方法は一例であり、他の公知技術を用いて尤度マップを作成してもよい。
本実施形態において、第2表示処理部133によって生成された尤度マップ画像は、例えば文字認識処理の実行が開始された後、文字列領域が検出されるまでの間、表示部14に表示される。
ここで、図4は、フィードバック情報として尤度マップ画像が表示された場合における表示画面の一例を示す。
図4に示すように、尤度マップ画像400は、例えば第1の領域141に表示されている撮像画像300上に表示される。なお、図4に示す尤度マップ画像400中の領域401は、尤度の低い画素を含む領域(つまり、文字の存在する可能性の低い領域)を示す。一方、尤度マップ画像400中の領域402は、尤度の高い画素を含む領域(つまり、文字の存在する可能性の高い領域)を示す。
具体的には、尤度マップ画像400において、例えば尤度が予め定められた値よりも低い領域401は黒(またはグレー等)で表され、尤度が予め定められた値よりも高い領域402は白で表されるものとする。
なお、ここでは例えば領域402が1つの色(白色)で表されるものとして説明したが、当該領域402は、例えば各画素の尤度に応じた複数の色彩(カラー)で表されても構わない。
これによれば、文字認識装置10を使用するユーザは、文字認識装置10において文字認識処理が実行中であること、及び領域402が当該文字認識装置10によって文字があると推定されている領域であること(つまり、文字認識装置10が文字らしいと認識している画像中の箇所)を把握することができる。
なお、図4においては尤度マップ画像400が撮像画像300上に重畳表示されるものとして説明したが、例えば文字認識処理が開始された時点で当該撮像画像300は非表示とし、尤度マップ画像400のみが表示されるような構成としても構わない。
また、ここでは尤度マップ画像400が表示されるものとして説明したが、当該尤度マップ画像400の代わりに、例えば図5に示す複数の文字候補領域(画像の一部領域)の各々を表す枠線(つまり、撮像画像300上の文字が存在する可能性のある領域を包含する枠線)500がフィードバック情報として撮像画像300上に表示されても構わない。なお、上記した尤度マップ画像400上に図5に示す枠線500を更に表示するようにしてもよい。このような枠線500を表示することによって、検出される文字列のおおよその大きさをユーザに対して提示することができる。なお、図5において枠線500は矩形形状を有しているが、当該枠線500は他の形状(例えば、円形状等)であっても構わない。
すなわち、本実施形態において、フィートバック情報(認識対象の位置を示す情報)は、画像の一部領域を示す情報または画像の一部領域を包含する枠線の情報等を含む。
ここで、文字認識処理部132によって上記した文字列領域が検出された場合を想定する。
この場合、第2表示処理部133は、上記した尤度マップ画像400を非表示とし、フィードバック情報として、文字認識処理部132によって検出された文字列領域(の外接矩形)を表す枠線(以下、文字列領域の枠線と表記)を表示する。
図6は、フィードバック情報として文字列領域の枠線が表示された場合における表示画面の一例を示す。
図6に示すように、文字列領域の枠線は、例えば撮像画像300上に表示される。図6に示す例では、撮像画像300に含まれる看板に記載されている「○○駅」の文字列を含む文字列領域の枠線601及び「この先右折」の文字列を含む文字列領域の枠線602が表示されている。
図6に示す文字列領域の枠線601及び602は、例えば上記した文字認識処理において文字認識結果が取得されるまでの間、表示部14(第1の領域141)に表示される。
これによれば、文字認識装置10を使用するユーザは、文字認識装置10において文字認識処理が実行中であること、及び枠線601及び602によって包含される領域が文字列領域として検出された領域であることを把握することができる。
なお、図6に示す枠線601及び602の各々によって包含される文字列領域の検出精度(確からしさ)に応じて、当該枠線601及び602の各々の表示態様(例えば、形状または色彩等)を変化させても構わない。文字列領域の検出精度としては、上記した撮像画像300を構成する画素の各々の尤度のうち、例えば当該文字列領域に含まれる画素の尤度の合計値を用いることができる。
また、図6においては枠線601及び602の双方が表示された状態を示しているが、当該枠線601及び602は、全ての文字列領域の検出が終了した時点で表示されてもよいし、例えば各文字列領域が検出される度に順次表示されるようにしてもよい。
なお、図6において枠線601及び602は矩形形状を有しているが、当該枠線601及び602は他の形状(例えば、円形状等)であっても構わない。
ここで、文字認識処理が終了し、文字認識処理部132によって文字認識結果(例えば、文字列領域に含まれる文字列を表すテキスト)が取得された場合を想定する。
この場合、第3表示処理部134は、上記した文字列領域の枠線を非表示とし、文字認識処理部132によって取得された文字認識結果を表示する。
図7は、文字認識結果が表示された場合における表示画面の一例を示す。図7に示すように、文字認識結果は、表示画面に設けられている第2の領域142に表示される。
図7に示す例では、撮像画像300に対する文字認識結果として「○○駅 この先右折」の文字列(を表すテキスト)が第2の領域142に表示されている。
ここでは文字列領域に含まれる文字列を表すテキストが文字認識結果として取得されたものとして説明するが、当該テキストが翻訳された結果(テキストの翻訳文)が文字認識結果として取得された場合には、当該テキストの翻訳文が第2の領域142に表示される。なお、テキスト及び当該テキストの翻訳文の双方が第2の領域142に表示されるようにしてもよい。
また、本実施形態においては表示画面に第1の領域141及び第2の領域142が設けられているものとして説明したが、例えば文字認識結果が取得されるまでは表示画面全体に第1の領域141が設けられており、上記した文字認識結果が取得された(つまり、文字認識結果が表示される)際に、第2の領域142を当該画面上に出現させるような構成としてもよい。
なお、文字列領域に含まれる文字列を表すテキストを取得する処理は、当該文字列領域毎に順次実行されるものとする。具体的には、例えば図6に示す枠線601によって表される文字列領域に含まれる文字列を表すテキストが取得された後に、枠線602によって表される文字列領域に含まれる文字列を表すテキストが取得される。
ここで、図7に示す例では文字認識結果が取得された場合には文字列領域の枠線601及び602が非表示とされるものとして説明したが、文字認識結果が取得された場合であっても当該文字列領域の枠線601及び602の表示が維持されていても構わない。この場合、上記したように例えば図6に示す枠線601によって包含される文字列領域に含まれる文字列を表すテキストが取得された場合には当該枠線601が強調表示され、枠線602によって包含される文字列領域に含まれる文字列を表すテキストが取得された場合には当該枠線602が強調表示されるような構成とすることができる。具体的には、枠線601によって包含される文字列領域に含まれる文字列「○○駅」を表すテキストが取得された場合には、図8に示すように当該枠線601が強調表示される。その後、枠線602によって包含される文字列領域に含まれる文字列「この先右折」を表すテキストが取得された場合には、図9に示すように当該枠線602が強調表示される。
なお、第2の領域142に表示された文字列(を表すテキスト)がユーザによって指定(選択)された場合に、当該指定された文字列に対応する文字列領域を包含する枠線が強調表示されるような構成であってもよい。具体的には、第2の領域142に表示された文字列「○○駅」が指定された場合には枠線601が強調表示され、一方、文字列「この先右折」が指定された場合には枠線602が強調表示される。
また、第2の領域142に表示された文字列「○○駅」が指定された場合には、枠線601のみが表示される(つまり、枠線602を非表示とする)ようにしてもよい。一方、文字列「この先右折」が指定された場合には、枠線602のみが表示される(つまり、枠線601は非表示とする)。
上記したような構成によれば、ユーザは、文字認識結果に対応する文字列領域(つまり、テキストが取得された文字列を含む文字列領域)を容易に把握することが可能となる。
また、文字列領域は検出されたが、当該文字列領域に含まれる文字列が認識可能な言語ではない(例えば、当該文字列が認識可能な言語の単語ではない文字の並びである)ような場合には、図10に示すように、当該文字(列)を認識することができない旨の結果が例えば第2の領域142に表示されるものとする。
なお、上記したように文字列領域を包含する枠線が表示されている場合には、文字列を認識することができない文字列領域を包含する枠線を例えば破線のような他の態様で表示するような構成としても構わない。例えば上記した枠線601によって包含される文字列領域に含まれる文字列は認識することが可能であるが、枠線602によって包含される文字列領域に含まれる文字列は認識することができないような場合には、図11に示すように、枠線602を破線で表示することができる。なお、ここでは文字列を認識することができない文字列領域を包含する枠線602を破線で表しているが、当該枠線602は、例えば異なる色彩(文字を認識することができないことを表す色彩)で表示してもよいし、非表示としてもよい。
なお、上記した図2に示す処理は、例えばユーザがシャッターボタンを押下することによってカメラ11によって画像が撮像される度に実行されるものとする。このような場合において、例えばカメラ11によって第1の画像が撮像された場合には第2の領域142に当該第1の画像に対する文字認識結果が表示され、その後、カメラ11によって第2の画像が撮像された場合には第2の領域142に当該第2の画像に対する文字認識結果が表示される。ここで、例えば第2の画像が撮像された後に第1の画像に対する文字認識結果を確認したい場合には、再度第1の画像をカメラ11で撮像して文字認識処理を実行する(または、第1の画像を例えば格納部12から取得して文字認識処理を実行する)必要がある。これは、ユーザにとっては非常に煩雑である。
このため、本実施形態において、第2の領域142には、文字認識結果の履歴が表示されるものとする。具体的には、上記したように第1の画像が撮像された後に第2の画像が撮像されたような場合には、第2の領域142には、第1の画像に対する文字認識結果及び第2の画像に対する文字認識結果の双方が表示される。他の画像に対する文字認識処理が更に実行された場合には、当該他の画像に対する文字認識結果が第2の領域142に追加される。この場合、第2の領域142には、第1の画像に対する文字認識結果に対応づけて第1の画像(のサムネイル画像)、第2の画像に対する文字認識結果に対応づけて第2の画像(のサムネイル画像)が更に表示されるようにしてもよい。
なお、上記した第1の画像及び第2の画像は、上記したように静止画像であってもよいし、例えば表示部14(第1の領域141)にリアルタイムに表示される動画像を構成する画像であっても構わない。
また、主として表示部14にリアルタイムに表示される動画像を構成する画像の各々に対して文字認識処理が実行される場合には、同一の文字認識結果が重複して取得される場合がある。このような場合に、同一の文字認識結果が文字認識結果の履歴として第2の領域142に表示されることは、ユーザにとって有用ではない。このため、本実施形態においては、過去に取得された文字認識結果(テキスト)と同一の文字認識結果が取得された場合には、当該文字認識結果はまとめて(つまり、1つの文字認識結果として)第2の領域142に表示するものとする。
なお、単に同一の文字認識結果をまとめて表示するのではなく、例えば画像同士のマッチングまたは文字認識装置10(カメラ11)の位置等に基づく撮像対象(つまり、被写体)等の情報に基づいて、同一の文字列領域(または同一の被写体を含む撮像画像)に対する文字認識結果のみをまとめて表示するような構成としても構わない。具体的には、例えばサイズが正規化された複数の画像間で相関をとることによって当該複数の画像の類似を判定し、類似と判定された複数の画像から取得された文字認識結果はまとめて表示するというような構成とすることができる。
同様に、例えば文字認識装置10の位置及びカメラ11の向きの情報等に基づいて撮像対象の同一性を判別することによって同一の文字列領域に対する文字認識結果をまとめて表示するような構成とすることも可能である。
すなわち、本実施形態においては、複数の画像の各々に含まれる撮像対象(第1認識対象及び第2認識対象)が同一である場合、当該複数の画像の各々に対する文字認識結果の何れか一つの表示処理(例えば第1認識対象の認識結果の表示処理)が実行される構成とすることができる。
なお、撮像対象の同一性を判別する構成の場合、当該判別処理は、文字認識処理が実行される前に実行されても構わない。このような構成によれば、撮像対象が同一である場合には、当該撮像対象(文字列領域)に対する文字認識処理を省略することが可能となり、文字認識装置10における処理量を低減することが可能となる。
上記した文字認識装置10の位置は、例えば文字認識装置10(例えば、スマートフォン)に備えられるGPS機能等により取得することが可能である。また、カメラ11の向きの情報は、例えば文字認識装置10に備えられる加速度センサ等によって判別(検出)することが可能である。
なお、複数の文字認識結果が第2の領域142に表示されていることによって、当該第2の領域142に新たな文字認識結果を追加(表示)することができない(つまり、新たな文字認識結果を追加するスペースが第2の領域142にない)場合には、過去の文字認識結果が取得された順に第2の領域142から削除されるようにしてもよい。
また、本実施形態においては第1の領域141に表示されている画像(撮像画像)に対する文字認識結果及び文字認識結果の履歴の双方が第2の領域142に表示されるものとして説明したが、当該第1の領域141に表示されている画像に対する文字認識結果が表示される領域と、文字認識結果の履歴が表示される領域とは別個に設けられていてもよい。
なお、本実施形態においては第2の領域142に文字認識結果の履歴が表示されるものとして説明したが、表示部14にリアルタイムに動画像が表示されているような場合には、当該動画像(リアルタイムに表示されている画像)に対する文字認識結果のみが表示され、文字認識結果の履歴(つまり、過去の文字認識結果)は表示されないようにしてもよい。すなわち、文字認識の対象となる画像の種類(静止画像または動画像)等に応じて文字認識結果の履歴の表示及び非表示灯が切り替えられるような構成とすることも可能である。
ここで、上記したように文字認識処理が実行されることによって取得される文字認識結果は第2の領域142に表示されるが、本実施形態においては、当該第2の領域142に表示された文字認識結果を検索処理に用いることができる。
以下、図12のフローチャートを参照して、文字認識結果を検索処理に用いる場合の文字認識装置10の処理手順の一例について説明する。
ここでは、上記した図2に示す処理が実行されることによって、第2の領域142に文字認識結果が表示されている場合を想定する。この場合、文字認識装置10を使用するユーザは、第2の領域142に表示された文字認識結果を指定する操作(以下、指定操作と表記)を行うことができる。なお、文字認識装置10がタッチパネルディスプレイを備える構成の場合、指定操作は、例えば第2の領域142に表示されている文字認識結果を指でタッチする操作等を含む。
このような指定操作がユーザによって行われた場合、処理部13に含まれる検索処理部135は、当該指定操作によって指定された文字認識結果を取得する(ステップS11)。なお、ステップS11において取得された文字認識結果は、例えば上述した撮像画像に含まれる文字列を表すテキスト等を含む。
次に、検索処理部135は、ステップS11において取得された文字認識結果に基づいて検索処理を実行する(ステップS12)。この検索処理においては、例えば文字認識結果(テキスト)を検索キーワードとしてインターネットを介してWebページ(サイト)が検索される。
ステップS12における検索処理の結果(以下、検索結果と表記)は、表示部14に表示される(ステップS13)。この場合、検索結果は、例えば第2の領域142に表示されるものとする。
ここで、上記した図12に示す処理について具体的に説明する。ここでは、上記した撮像画像300に対する文字認識結果として「○○駅 この先右折」を表すテキストが第2の領域142に表示されているものとする。
この場合、ユーザは、例えば第2の領域142に表示されているテキストを構成する複数の単語のうちの少なくとも1つを指定する指定操作を行うことができるものとする。この場合、ユーザは、例えば「○○駅」の部分を検索キーワードとして指定する(タッチする)ことができる。
これによれば、検索処理部135は、「○○駅」を検索キーワードとしてWebページを検索する。この場合、第2の領域142には、例えば○○駅の時刻表(を含むWebページ)等を含む検索結果が例えばサムネイル形式で表示される。なお、検索結果としては、例えば検索キーワードに合致する度合い(スコア)が上位の予め定められた数のWebページが表示されればよい。
ユーザは、このような検索結果(サムネイル)を第2の領域142において指定することにより、例えば○○駅の時刻表(を含むWebページ)を表示部14(第1の領域141または画面全体等)に表示させることができる。
なお、本実施形態において、文字認識結果は撮像画像に含まれる文字列を表すテキストの翻訳文であってもよい。このような文字認識結果(翻訳文)を用いてWebページを検索する場合には、当該翻訳文に基づいて検索処理が実行されてもよいし、翻訳前のテキストに基づいて検索処理が実行されてもよい。
ここではWebページが検索されるものとして説明したが、例えば文字認識装置10にインストールされているアプリケーション(プログラム)等が検索されるような構成でもよい。上記したように「○○駅」が検索キーワードとして指定された場合には、例えば鉄道の乗換案内等に用いられるアプリケーションが検索され、当該アプリケーションが自動的に起動されるような構成であってもよい。また、例えば地図(情報)を表示するアプリケーションが検索され、検索キーワードとして指定された○○駅の周辺の地図が自動的に表示されても構わない。
また、アプリケーション以外にも、例えば格納部12に格納されている各種コンテンツ等が検索される構成であってもよい。上記したように格納部12にカメラ11によって撮像された画像が格納(蓄積)されているような場合には、ユーザによって指定された文字認識結果が取得された画像が当該格納部12から検索されて、表示部14(例えば、第1の領域141)に表示されても構わない。この場合、画像と当該画像に対する文字認識結果とは、文字認識装置10(格納部12)において対応づけられていればよい。
なお、格納部12において画像に対応づけて当該画像が撮像された位置を示す位置情報を格納しておくことにより、文字認識結果が指定された場合に、当該文字認識結果が取得された画像とともに当該画像が撮像された位置を表示することができる。このような構成によれば、例えば飲食店の名称等が記載された看板の画像を複数枚撮像していたような場合において、第2の領域142においてユーザが希望する飲食店の名称を指定した場合には、当該飲食店の名称が記載された看板の画像及び当該看板の位置(当該画像が撮像された位置)を把握することができる。
ここでは、格納部12から画像が検索されるものとして説明したが、例えば外部のサーバ装置に格納されている各種コンテンツ等が検索されるような構成であっても構わない。
なお、上記したように検索結果が第2の領域142に表示される場合、例えば上記した図7等に示す第2の領域142の範囲(大きさ)では当該検索結果を十分に表示することができない可能性がある。このため、上記した検索処理が実行される(つまり、検索結果が第2の領域142に表示される)場合には、第2の領域142(の範囲)が拡大されるようにしてもよい。また、第2の領域142が拡大される場合には第1の領域141は小さくなるが、この場合には、例えば少なくとも文字列領域(に含まれる文字列)が第1の領域141に表示されるように撮像画像300の表示範囲が調整されるようにしてもよい。
上記したように本実施形態においては、画像から文字列領域を検出する処理(第1の処理)及び当該検出された領域に含まれている文字を認識する処理(第2の処理)を含む文字認識処理を実行し、当該文字認識処理が実行されている間に当該文字認識処理が実行中であることを表すフィードバック情報を表示し、当該文字認識処理が終了した場合に当該文字認識処理の結果を表示する。なお、本実施形態においては、文字列領域を検出する処理において文字があると推定された(つまり、文字があるらしい)画像上の領域がフィードバック情報として表示される。
具体的には、画像を構成する画素毎の尤度(文字があるらしい度合い)に応じた色彩が当該画素に付与された尤度マップ画像または画像中の文字が存在する可能性がある領域を包含する枠線がフィードバック情報として表示される。
本実施形態においては、このような構成により、文字認識に関する処理状況をユーザに提示することが可能であるため、画像に対する文字認識処理が実行されていることをユーザが把握することができるとともに、例えば応答時間(待ち時間)が長いとユーザに感じさせないようにすることができる。すなわち、本実施形態においては、画像認識に関してユーザの利便性を向上させるような表示を実現することが可能となる。
なお、本実施形態においては、文字があると文字認識装置10が認識している領域(の位置)をユーザに提示することができるため、ユーザは、文字認識処理が適切に実行されている(つまり、ユーザの意図する文字が認識されている)か否かについても把握することができる。具体的には、例えば図4に示すような尤度マップ画像400が表示された場合には、ユーザは、撮像画像300に含まれる文字の位置が適切に認識されていることを把握することができる。一方、例えば全体的に領域401となるような尤度マップ画像が表示された場合には、ユーザは、文字の位置が適切に認識されていないことを把握することができ、例えば画像を再度撮像するまたは文字認識処理を再度実行するといった操作を行うことができる。
なお、本実施形態においては、フィードバック情報の一例について説明したが、フィードバック情報は文字認識処理が実行中であることを表すものであればよく、例えば文字認識処理の途中経過等が異なる態様で表示されても構わない。具体的には、図13に示すように例えば認識対象となっている領域(文字の存在する可能性の高い領域)700に対してモザイク処理が施された状態の画像が表示されてもよいし、図14に示すように当該領域700上に例えば「処理中」のような特定の文字列(文字認識処理が実行中であることを示す文字列に関する情報)が表示されてもよい。また、図示しないが、画像を変化させる(動き)によって文字認識処理が実行中であることを表現しても構わない。
また、本実施形態においては、文字認識装置10(表示部14)の画面上の第1の領域141に画像を表示し、当該画面上の第2の領域142に文字認識結果(文字認識処理の結果)を表示する構成により、ユーザの文字認識結果に対する視認性を向上させることができる。
なお、本実施形態においては、第2の領域142が第1の領域141の下側に設けられるものとして説明したが、当該第2の領域142は、例えば第1の領域141の上側に設けられてもよいし、当該第1の領域141の左側または右側に設けられてもよい。また、第2の領域142の画面上の位置は、第1の領域141に表示される画像に含まれる文字(文字列領域)の位置等に応じて変更されるような構成であっても構わない。具体的には、例えば文字列領域の近傍に設けられるように第2の領域142の位置を変更するような構成としてもよい。
また、本実施形態においては、画像が表示される領域(第1の領域141)と文字認識結果が表示される領域(第2の領域142)とが別個に設けられるものとして説明したが、例えば画面全体に画像が表示され、当該画像に含まれる文字(列)上に文字認識結果が表示されるような構成であってもよい。
更に、本実施形態においては、複数の画像(第1の画像及び第2の画像)の各々に含まれている文字を認識する文字認識処理を実行し、第2の領域142には、複数の文字認識処理(第1の文字認識処理及び第2の文字認識処理)の結果が履歴として表示される。本実施形態においては、このような構成により、例えば過去にカメラ11によって撮像された画像に対する文字認識結果を確認したいような場合であっても、ユーザは、当該画像を再度撮像することなく、当該文字認識結果を容易に確認することが可能となる。
また、本実施形態においては、上記したように履歴として表示される複数の文字認識結果が同一である場合、当該複数の文字認識結果をまとめて表示する(つまり、当該複数の文字認識結果の何れか1つを表示する処理を実行する)構成により、当該履歴が表示される領域(第2の領域142)を有効に利用することが可能となる。
また、本実施形態においては、第2の領域142に表示された文字認識結果がユーザによって指定された場合、当該文字認識結果が取得された画像を表示する。本実施形態においては、このような構成により、ユーザは、文字認識結果を指定することによって、例えば過去に撮像された画像であっても当該文字認識結果が取得された画像を容易に確認することが可能となる。
また、本実施形態においては、第2の領域142に表示された文字認識結果がユーザによって指定された場合、当該文字認識結果(テキスト)を用いた検索処理を実行し、当該検索結果(検索処理の結果)を表示する。本実施形態においては、このような構成により、ユーザは文字認識結果に関する情報を容易に検索する(取得する)ことが可能となるため、当該ユーザに対する利便性を向上させることが可能となる。
上記したように本実施形態においては画像認識(文字認識)に関してユーザの利便性を向上させるような表示の様々な例について説明したが、本実施形態に係る文字認識装置10は、本実施形態において説明した表示例の少なくとも1つを含む構成であればよいが、当該表示例のいくつかを組み合わせた構成としてもよい。
なお、本実施形態においては、例えば街中に配置されている看板等を含む画像がカメラ11によって撮像されるものとして説明したが、カメラ11によって撮像される被写体は、文字が記載されているものであれば、例えば案内板、メニュー、商品のタグ及び書籍等であってもよいし、例えば文字が表示されたディスプレイ等であっても構わない。
また、本実施形態に係る文字認識装置10は例えばスマートフォン及びタブレットコンピュータ等の携帯型の電子機器として実現されるものとして説明したが、当該文字認識装置10は、例えばカメラ11等を備える電子機器と通信可能に接続されるサーバ装置として実現されても構わない。
また、本実施形態においては画像から文字を認識する文字認識装置について説明したが、本実施形態は、画像から文字以外の認識対象を認識する場合に適用されても構わない。具体的には、本実施形態は、画像から顔、人物、標識、記号、移動体または他の物体等を認識する情報処理装置(認識装置)に適用されても構わない。上記物体等の認識には、統計学習等を用いた公知技術を用いることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10…文字認識装置(情報処理装置)、11…カメラ、12…格納部、13…処理部、14…表示部、131…第1表示処理部、132…文字認識処理部、133…第2表示処理部、134…第3表示処理部、135…検索処理部。

Claims (11)

  1. 第1画像に含まれる第1認識対象を認識する第1認識手段と、
    前記第1認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示する第1表示処理手段と、
    前記第1画像とは異なる第2画像に含まれる第2認識対象を認識する第2認識手段と、
    前記第2認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示する第2表示処理手段と
    を具備し、
    前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示され、
    前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される
    情報処理装置。
  2. 前記第1表示処理手段によって表示されるフィードバック情報は、前記第1認識対象の位置を示す情報を含み、
    前記第2表示処理手段によって表示されるフィードバック情報は、前記第2認識対象の位置を示す情報を含む
    請求項1記載の情報処理装置。
  3. 前記第1認識対象の位置を示す情報は、前記第1画像の一部領域を示す情報であり、
    前記第2認識対象の位置を示す情報は、前記第2画像の一部領域を示す情報である
    請求項2記載の情報処理装置。
  4. 前記第1認識対象の位置を示す情報は、前記第1画像の一部領域を包含する枠線の情報であり、
    前記第2認識対象の位置を示す情報は、前記第2画像の一部領域を包含する枠線の情報である
    請求項2または3に記載の情報処理装置。
  5. 前記第1認識対象の位置を示す情報及び前記第2認識対象の位置を示す情報は、色彩情報である請求項乃至の何れか一項に記載の情報処理装置。
  6. 前記第1認識対象の位置を示す情報は、前記第1認識手段における認識処理が実行中であることを示す文字列に関する情報であり、
    前記第2認識対象の位置を示す情報は、前記第2認識手段における認識処理が実行中であることを示す文字列に関する情報である
    請求項記載の情報処理装置。
  7. 前記第1認識対象の位置を示す情報は、前記第1認識手段における検出の尤度情報に基づく情報であり、
    前記第2認識対象の位置を示す情報は、前記第2認識手段における検出の尤度情報に基づく情報である
    請求項2記載の情報処理装置。
  8. 記第1認識対象及び前記第2認識対象が同一対象である場合、前記第1認識対象の認識結果及び前記第2認識対象の認識結果はまとめて表示される請求項記載の情報処理装置。
  9. 前記フィードバック情報及び前記認識結果を表示する表示手段を更に備える請求項1乃至の何れか一項に記載の情報処理装置。
  10. 情報処理装置のコンピュータが実行するプログラムであって、
    前記コンピュータに、
    第1画像に含まれる第1認識対象を認識するステップと、
    前記第1認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示するステップと、
    前記第1画像とは異なる第2画像に含まれる第2認識対象を認識するステップと、
    前記第2認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示するステップと
    を実行させ
    前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示され、
    前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される
    プログラム。
  11. 情報処理装置が実行する方法であって、
    第1画像に含まれる第1認識対象を認識するステップと、
    前記第1認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第1認識対象の認識結果を表示するステップと、
    前記第1画像とは異なる第2画像に含まれる第2認識対象を認識するステップと、
    前記第2認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第2認識対象の認識結果を表示するステップと
    を備え
    前記第1認識対象の認識結果と前記第2認識対象の認識結果とは、認識結果の履歴として表示され、
    前記履歴として表示された前記第1認識対象の認識結果及び前記第2認識対象の認識結果のうち前記第1認識対象の認識結果が選択された場合、前記第1画像及び前記第1画像が撮像された位置が表示され、前記第2認識対象の認識結果が選択された場合、前記第2画像及び前記第2画像が撮像された位置が表示される
    方法。
JP2017055368A 2017-03-22 2017-03-22 情報処理装置、方法及びプログラム Active JP6408055B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017055368A JP6408055B2 (ja) 2017-03-22 2017-03-22 情報処理装置、方法及びプログラム
US15/694,594 US10528852B2 (en) 2017-03-22 2017-09-01 Information processing apparatus, method and computer program product
EP17189256.5A EP3379452A1 (en) 2017-03-22 2017-09-04 Information processing apparatus,method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017055368A JP6408055B2 (ja) 2017-03-22 2017-03-22 情報処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018159978A JP2018159978A (ja) 2018-10-11
JP6408055B2 true JP6408055B2 (ja) 2018-10-17

Family

ID=59955337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017055368A Active JP6408055B2 (ja) 2017-03-22 2017-03-22 情報処理装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US10528852B2 (ja)
EP (1) EP3379452A1 (ja)
JP (1) JP6408055B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091748A (ja) * 2018-12-06 2020-06-11 トッパン・フォームズ株式会社 端末装置、プログラム、画像管理方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2746904B2 (ja) * 1988-03-24 1998-05-06 株式会社東芝 文書読取り装置
JPH05282091A (ja) 1992-04-02 1993-10-29 Mitsubishi Electric Corp 任意サイズ文字の入力装置
JP4128275B2 (ja) 1998-07-06 2008-07-30 オリンパス株式会社 翻訳機能付カメラ
JP2000207487A (ja) 1999-01-20 2000-07-28 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001357355A (ja) 2000-06-13 2001-12-26 Fujitsu Ltd 手書き文字入力装置と方法及びそれを実現するためのプログラムを記録した記録媒体
JP2002358523A (ja) * 2001-05-31 2002-12-13 Canon Inc パターン認識処理装置及びその方法、画像入力装置
JP4240859B2 (ja) 2001-09-05 2009-03-18 株式会社日立製作所 携帯端末装置及び通信システム
JP2004341977A (ja) 2003-05-19 2004-12-02 Mitsubishi Electric Corp 文字認識装置及び携帯情報端末
JP2005018507A (ja) 2003-06-27 2005-01-20 Hitachi Ltd 携帯情報端末及びそれを用いた文字認識方法
JP4383790B2 (ja) * 2003-08-06 2009-12-16 日立オムロンターミナルソリューションズ株式会社 携帯情報端末
JP2005135210A (ja) * 2003-10-31 2005-05-26 Hitachi Ltd 文字認識機能を有する携帯機器
JP2007140684A (ja) * 2005-11-15 2007-06-07 Toshiba Corp 画像処理装置、方法、プログラム
JP2007266873A (ja) 2006-03-28 2007-10-11 Toshiba Corp 撮影装置および撮影方法
JP2009296533A (ja) 2008-06-09 2009-12-17 Kyocera Mita Corp スキャナ装置及び画像形成装置
US20110090253A1 (en) 2009-10-19 2011-04-21 Quest Visual, Inc. Augmented reality language translation system and method
JP2012222581A (ja) 2011-04-08 2012-11-12 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
CN103718174A (zh) * 2011-08-05 2014-04-09 黑莓有限公司 用于搜索文本和以增强现实的方式显示发现的文本的系统和方法
JP5631362B2 (ja) 2011-08-08 2014-11-26 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
US9336456B2 (en) * 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
US9165406B1 (en) * 2012-09-21 2015-10-20 A9.Com, Inc. Providing overlays based on text in a live camera view
US8965129B2 (en) 2013-03-15 2015-02-24 Translate Abroad, Inc. Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices
US8761513B1 (en) 2013-03-15 2014-06-24 Translate Abroad, Inc. Systems and methods for displaying foreign character sets and their translations in real time on resource-constrained mobile devices
JP6419421B2 (ja) 2013-10-31 2018-11-07 株式会社東芝 画像表示装置、画像表示方法およびプログラム
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9367766B2 (en) 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images
JP6208094B2 (ja) 2014-08-26 2017-10-04 株式会社東芝 情報処理装置、情報処理システム、情報処理方法及びそのプログラム
JP6371662B2 (ja) 2014-10-07 2018-08-08 富士通フロンテック株式会社 文字認識支援装置、文字認識支援プログラム及び文字認識支援方法
US9760792B2 (en) * 2015-03-20 2017-09-12 Netra, Inc. Object detection and classification
JP6530432B2 (ja) 2017-02-03 2019-06-12 株式会社東芝 画像処理装置、画像処理方法及びプログラム

Also Published As

Publication number Publication date
EP3379452A1 (en) 2018-09-26
JP2018159978A (ja) 2018-10-11
US10528852B2 (en) 2020-01-07
US20180276506A1 (en) 2018-09-27

Similar Documents

Publication Publication Date Title
US10032072B1 (en) Text recognition and localization with deep learning
EP4057163B1 (en) Facilitating use of images as search queries
JP4759638B2 (ja) リアルタイムなカメラ辞書
JP2007034847A5 (ja)
US20150242684A1 (en) Method and system for linking printed objects with electronic content
US9639603B2 (en) Electronic device, display method, and storage medium
EP2806336A1 (en) Text prediction in a text input associated with an image
JP2018097580A (ja) 情報処理装置およびプログラム
CN105204752B (zh) 投影式阅读中实现交互的方法和系统
JP6408055B2 (ja) 情報処理装置、方法及びプログラム
JP2010205121A (ja) 情報処理装置および携帯端末
US20200334421A1 (en) System and method for translating text
JP2015187846A (ja) 文書処理システム、及び文書処理装置
CN110851631A (zh) 一种检索系统
US20160004789A1 (en) Visual Search Engine
JP6828421B2 (ja) 卓上カメラ−プロジェクタシステムでの文書閲覧時における関連文書及び人物を可視化するための計算実行方法、プログラムおよび計算処理システム
JP5991323B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP4474231B2 (ja) 文書リンク情報取得システム
JP3164748U (ja) 情報処理装置
US11010978B2 (en) Method and system for generating augmented reality interactive content
JP5489478B2 (ja) 画像表示装置及び画像表示方法
JP5541868B2 (ja) 画像検索指令システムおよびその動作制御方法
JP7231529B2 (ja) 情報端末装置、サーバ及びプログラム
JP2016062307A (ja) 情報表示装置、情報表示プログラムおよび情報表示方法
KR20190020281A (ko) 시각적 입력의 처리

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180919

R151 Written notification of patent or utility model registration

Ref document number: 6408055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350