JP6364182B2 - 文字列認識装置および文字列認識方法 - Google Patents

文字列認識装置および文字列認識方法 Download PDF

Info

Publication number
JP6364182B2
JP6364182B2 JP2013246527A JP2013246527A JP6364182B2 JP 6364182 B2 JP6364182 B2 JP 6364182B2 JP 2013246527 A JP2013246527 A JP 2013246527A JP 2013246527 A JP2013246527 A JP 2013246527A JP 6364182 B2 JP6364182 B2 JP 6364182B2
Authority
JP
Japan
Prior art keywords
character string
rectangular area
image
rectangular
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013246527A
Other languages
English (en)
Other versions
JP2015106182A (ja
Inventor
賢一 堀内
賢一 堀内
石川 博一
博一 石川
岸本 達雄
達雄 岸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2013246527A priority Critical patent/JP6364182B2/ja
Priority to US15/038,746 priority patent/US9740954B2/en
Priority to PCT/JP2014/075069 priority patent/WO2015079790A1/ja
Publication of JP2015106182A publication Critical patent/JP2015106182A/ja
Priority to US15/642,367 priority patent/US9852350B2/en
Application granted granted Critical
Publication of JP6364182B2 publication Critical patent/JP6364182B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Description

本発明は、動画を構成する画像に含まれる文字列を認識する文字列認識装置および文字列認識方法に関する。
従来、撮像動画に含まれる文字列をOCR(Optical Character Recognition)によって認識し、得られた文字列を翻訳して撮影動画にリアルタイムに重畳して表示する技術が知られている。例えば特許文献1には、カメラで撮像された文書や看板等に含まれる文字列を、辞書を用いて翻訳語、あるいは関連情報に変換し、元の文字列を置換、あるいは元の文字列に重畳して表示する情報表示装置が開示されている。
特開2011−134144号公報(2011年7月7日公開)
しかしながら、特許文献1の技術には、撮影動画に本来は含まれない文字列を誤って認識しかねないという問題がある。特に、手振れなどを原因として上記情報表示装置が動作中に揺れるときに、この誤認識が発生しやすい。誤認識が起こると意味不明な翻訳文字列が動画に重畳して表示されるので、ユーザに不満を与える。
本発明は、上記問題に鑑みてなされたものであり、その目的は、動画に本来は含まれない文字列を、誤って認識することを防止でき、その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる文字列認識装置および文字列認識方法を提供することにある。
上記の課題を解決するために、本発明の一態様に係る文字列認識装置は、対象を撮影することによってその動画を生成する撮影手段と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えている。
また、本発明の他の態様に係る文字列認識方法は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影工程と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽と判定する判定工程と、上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいる。
また、本発明の他の態様に係る文字列認識装置は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影手段と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定手段と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えている。
本発明の一態様によれば、動画に本来は含まれない文字列を、誤って認識することを防止でき、その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができるという効果を奏する。
本発明の実施形態1に係る端末装置の要部構成を示すブロック図である。 本発明の実施形態1に係る動画を構成する画像を表す図である。 本発明の実施形態1に係る画像から抽出された5つの矩形領域を示す図である。 本発明の実施形態1に係る画像にあらかじめ設定された左端部領域および右端部領域を表す図である。 本発明の実施形態1に係る前回翻訳処理対象となった画像に含まれる、実際に文字列が認識された矩形領域を表す図である。 本発明の実施形態1に係る画像にあらかじめ設定された左端部領域および右端部領域を示す図である。 本発明の実施形態1に係る画像において文字列認識の対象として確定された矩形領域を表す図である。 本発明の実施形態1に係る左端部領域に重畳するが文字列認識の対象となる矩形領域を含む画像を表す図である。 本発明の実施形態2に係る5つの矩形領域が抽出された画像を表す図である。
〔実施形態1〕
本発明に係る第1の実施形態について、図1〜図8に基づいて以下に説明する。
(端末装置1の構成)
まず、本実施形態に係る端末装置1(文字列認識装置)の要部構成について、図1を参照して説明する。図1は、本発明の第1の実施形態に係る端末装置1の要部構成を示すブロック図である。この図に示すように、端末装置1は、カメラ2、ディスプレイ4、および制御部6を備えている。制御部6は、カメラ2およびディスプレイ4を含めた端末装置1内の全部材の動作を統括的に制御する。制御部6は、撮影部10(撮影手段)、矩形領域抽出部12(抽出手段)、認識可否判定部14(判定手段)、文字列認識部18(認識手段)、翻訳部20(翻訳手段)、画像処理部22、および表示部24(表示手段)を備えている。
本実施形態では、端末装置1は、ユーザが手に持って操作することができる、いわゆる携帯端末装置である。端末装置1は、たとえば、スマートフォンまたはタブレット端末として実現される。しかし、これらには制限されない。
(処理の詳細)
本実施形態に係る端末装置1における処理の詳細について、図2〜図8を参照して説明する。
端末装置1では、まず、撮影部10が、カメラ2を制御することによって、被写体(対象)を撮影する。これにより、被写体を表す動画を生成する。撮影部10は、生成した動画を矩形領域抽出部12および表示部24に出力する。
矩形領域抽出部12は、入力された動画を構成するいずれかの画像(通常は現フレームの画像)から、文字列を認識するための矩形領域を抽出する。図2は、本実施形態において端末装置1によって撮影された動画を構成する一つの画像30を表す図である。本実施形態では、図2に示す画像30が、矩形領域抽出の対象である。
矩形領域抽出部12は、所定のアルゴリズムに基づき、画像30から少なくとも一つの矩形領域を抽出する。本実施形態では、図3に示すように、5つの矩形領域32a〜32eが抽出される。図3は、本実施形態に係る画像30から抽出された5つの矩形領域32a〜32eを示す図である。矩形領域抽出部12は、抽出した矩形領域32a〜32eを、認識可否判定部14に出力する。
認識可否判定部14は、入力された矩形領域ごとに、文字列認識の対象にするか否かを判定する。その手順は次の通りである。
図4は、画像30にあらかじめ設定された左端部領域34aおよび右端部領域34bを表す図である。この図に示すように、画像30には、左端部領域34aおよび右端部領域34bが、あらかじめ定められている。左端部領域34aは画像30の左端部(一方の端部)にあり、右端部領域34bは画像30の右端部(一方の端部)にある。左端部領域34aおよび右端部領域34bは、互いに同じ所定幅を有している。本実施形態では所定幅は10ピクセルであるが、本発明はこれに限定されない。また、両者は必ずしも同じ幅である必要もない。
認識可否判定部14は、まず、矩形領域が、左端部領域34aまたは右端部領域34bに重畳するか否かを判定する。図4に示すように、本実施形態では、認識可否判定部14は、矩形領域32dが右端部領域34bに重畳しており、また、矩形領域32eが左端部領域34aに重畳していると判定する。この結果、認識可否判定部14は、これらの矩形領域32dおよび32eを、本来なら画像30から抽出されるべきではないノイズの候補としてみなす。一方、矩形領域32a〜32cは、左端部領域34aおよび右端部領域34bのいずれにも重畳していないので、ノイズの候補とみなさない。
認識可否判定部14は、次に、矩形領域32dおよび矩形領域32eがノイズであるか否かを、動画における文字列の認識履歴に基づいて判定する。この認識履歴は、認識履歴記憶部16に格納されている。本実施形態では、認識履歴とは、動画において前回翻訳処理対象となった、画像30とは異なる画像40(他の画像)に含まれ、かつ、実際に文字列が認識された少なくとも一つの矩形領域(他の矩形領域)を特定する情報(たとえば座標情報)のことである。図5は、本実施形態において前回翻訳処理対象となった画像40に含まれる、実際に文字列が認識された矩形領域40a〜40cを表す図である。
画像40は、画像30よりも時間的に前に位置する(すなわち前のフレームの)画像である。必ずしも直前のフレームであるとは限らない。前回の翻訳処理が、現在よりも2つ以上前のフレームの画像に対して行われた場合、画像40はそのフレームの画像である。
認識可否判定部14は、認識履歴に基づき、矩形領域32dおよび矩形領域32eのそれぞれについて、矩形領域40a〜40cと、一定割合以上重畳するか否かを判定する。本実施形態では、一定割合以上の重畳とは、画像30における縦方向に75%以上重畳するか、または横方向に75%以上重畳することを意味する。しかし、一定割合はこれらに限定されない。
図5に示すように、矩形領域32dおよび矩形領域32eは、矩形領域40a〜40cのいずれとも、一定割合以上重畳していない。そのため、認識可否判定部14は、矩形領域32dおよび矩形領域32eを依然としてノイズの候補とみなす。
認識可否判定部14は、最後に、矩形領域32dが、画像30に設定されている所定の左端部領域36aに重畳するか否かを判定し、かつ、矩形領域32eが、画像30に設定されている所定の右端部領域36bに重畳するか否かを判定する。このような手順によって、抽出された矩形領域を文字列認識処理の対象とするか否かを、効率的に判定できる。図6は、画像30にあらかじめ設定された左端部領域36aおよび右端部領域36bを示す図である。左端部領域36aおよび右端部領域36bは、所定幅を有している。本実施形態では、画像30の横幅の7分の1であるが、これに限定されない。
認識可否判定部14は、矩形領域32eが左端部領域34aに重畳しているので、左端部領域34aが設定される左端部とは逆側である右端部(他方の端部)にある右端部領域36bに、矩形領域32eがさらに重畳するか否かを判定する。また、矩形領域32dが右端部領域34bに重畳しているので、右端部領域34bが設定される右端部とは逆側である左端部(他方の端部)にある左端部領域36aに、矩形領域32dがさらに重畳するか否かを判定する。たとえば、画像30の横幅が720ピクセルであり、かつ、抽出された矩形領域が、画像30の左端部から5ピクセル離れた位置と、100ピクセル離れた位置との間に存在する場合、当該矩形領域は、画像30の右端部における約102ピクセルの幅の右端部領域には重畳しない。したがって認識可否判定部14は、このような矩形領域は、ノイズであると判定する。
図6に示すように、矩形領域32eは右端部領域36bに重畳していない。すなわち矩形領域32eは、画像30の左右方向における左端部にある左端部領域34aと、左端部に対向する右端部にある右端部領域36bとのうち、いずれか一方のみに重畳している。この結果、認識可否判定部14は、矩形領域32eはノイズである(真である)と判定する。また、図6に示すように、矩形領域32dは左端部領域36aに重畳していない。すなわち矩形領域32dは、画像30の右端部にある右端部領域34bと、右端部に対向する左端部にある左端部領域36aとのうち、いずれか一方のみに重畳している。この結果、認識可否判定部14は、矩形領域32dはノイズである(真である)と判定する。一方、認識可否判定部14は、矩形領域32a〜32cについては、すべて、ノイズでない(偽である)と判定する。
認識可否判定部14は、矩形領域ごとの判定結果を、文字列認識部18に出力する。また、ノイズではない、すなわち文字列認識の対象であると判定した矩形領域32a〜32cを特定する情報を、最新の認識履歴として認識履歴記憶部16に格納する。図7は、本実施形態において画像30において文字列認識の対象として確定された矩形領域32a〜32cを表す図である。この図に示すように、抽出された5つの矩形領域32a〜32eのうち、英語の文字列が実際に含まれる矩形領域32a〜32cのみが、文字列認識する対象として選択される。端末装置1が次の画像に対して文字列認識および翻訳処理を行うとき、認識可否判定部14は、矩形領域32a〜32cを特定する情報を、認識履歴として認識履歴記憶部16から取得する。
文字列認識部18は、認識可否判定部14から入力された判定結果に基づき、矩形領域32a〜32cからそれぞれ文字列を認識する。文字列認識部18は、認識した文字列を翻訳部20に出力する。翻訳部20は、入力された文字列を翻訳することによって、翻訳文字列を生成し、画像処理部22に出力する。画像処理部22は、画像30に、翻訳された文字列を重畳する画像処理を行うことによって、翻訳動画を生成する。画像処理部22は、生成した翻訳動画を表示部24に出力する。表示部24に翻訳動画をディスプレイ4に出力することによって、動画を再生(表示)する。この結果、ユーザは、翻訳文字列がリアルタイムに重畳された動画を視認することができる。
(本実施形態の利点)
以上のように、本実施形態の端末装置1では、抽出された矩形領域32dおよび32eが、画像30内の左端部領域34aおよび右端部領域34bのうちいずれか一方のみに重畳し、かつ、前回翻訳対象となった画像40に含まれる実際に文字列認識の対象となったいずれの矩形領域40a〜40cとも一定割合以上重畳しないと判定された場合、これらの矩形領域32dおよび32eは文字列認識の対象から外される。
撮影された動画では、文字列は画像30の中央近辺に現れることが多い。そのため、画像30内の左端部領域34aおよび右端部領域34bのうちいずれか一方のみに重畳する矩形領域32dおよび32eは、文字列を含まない可能性が高い。また、端末装置1が、動画の撮影中に手振れなどを原因として振動してしまうと、動画が、本来得られるはずのものから大きくゆがめられてしまう。その結果、文字列が本来存在する箇所とは異なる箇所が、矩形領域として誤って抽出されてしまう。このような矩形領域もまた、文字列を含まない可能性が高い。
したがって、本実施形態によれば、端末装置1は、動画に本来は含まれない文字列を、誤って認識することを防止できる。その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。さらには、動画撮影中に端末装置1が手振れなどを原因として振動したとしても、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。
(レストランメニュー動画の例)
図8は、本実施形態に係る、左端部領域54に重畳するが文字列認識の対象となる矩形領域52a〜52iを含む画像50を表す図である。画像50は、レストランのメニューを撮影した結果として生成される動画を構成する画像の一つである。
この図に示す例では、矩形領域抽出部12は、画像50から矩形領域52a〜52iを抽出する。これらの矩形領域52a〜52iは、すべて、画像50の左端部にある所定幅の左端部領域54に重畳している。したがって、文字列認識の対象から外される候補となる。しかし、図8に示すように、矩形領域52a〜52iはすべて、画像50の右端部にある所定幅の右端部領域56にも重畳している。したがって認識可否判定部14は、矩形領域52a〜52iはノイズではなく、文字列認識の対象とすべきであると判定する。この結果、文字列認識部18は、矩形領域52a〜52iから文字列を認識する。
通常、画像の左端から右端にかけて長い矩形領域は、文字列を含んでいる可能性が高い。矩形領域52a〜52iは、このような条件を満たす領域である。したがって、端末装置1は、文字列を含んでいる可能性が高い矩形領域52a〜52iを、確実に文字列認識の対象とすることができる。
〔実施形態2〕
本発明に係る第2の実施形態について、図9を参照して以下に説明する。なお、上述した第1の実施形態と共通する各部材には同じ符号を付し、詳細な説明を省略する。
本実施形態に係る端末装置1は、認識可否判定部14の挙動が異なる点を除き、第2の実施形態に係る端末装置1と同じである。第1の実施形態に係る認識可否判定部14は、認識履歴を用いるが、本実施形態に係る端末装置1は用いない。その代りに、本実施形態に係る端末装置1は、画像30から抽出された各矩形領域が、細長い形状を有するか否かを判定する。そして、この判定結果が真である矩形領域からは、文字列を認識せず、一方、偽である矩形領域からは、文字列を認識する。この工夫によって、端末装置1は、動画には本来含まれない横書き文字列を、誤って認識することを防止することができる。
(処理の詳細)
本実施形態に係る端末装置1における処理の詳細について、図9を参照して説明する。図9は、本実施形態において、5つの矩形領域が抽出された画像30を表す図である。
この図に示すように、本実施形態では、矩形領域抽出部12は、画像30から5つの矩形領域を抽出する。矩形領域32a、32b、および32cは、英語の文字列を含んだ、正しく抽出された矩形領域である。一方、矩形領域32gおよび32hは、文字列を含まず、縦方向に配置された複数のアイコン画像を含む矩形領域である。すなわち矩形領域32gおよび32hは、誤って抽出された、文字列認識の対象とすべきでないものである。
認識可否判定部14は、抽出された矩形領域ごとに、文字列認識の対象とすべきか否かを判定する。その手順は以下の通りである。認識可否判定部14は、まず、矩形領域の横幅が、画像30の横幅の所定数分の一以下の大きさであるか否かを判定する。本実施形態では、所定数分の一は10分の1であるが、本発明はこれに限定されない。次に、認識可否判定部14は、矩形領域の縦幅が当該矩形領域の横幅の所定数倍以上の大きさであるか否かを判定する。本実施形態では所定数倍は3倍であるが、本発明は、これに限定されない。
図9に示す例では、文字列認識部18は、矩形領域32gおよび32hは真である(ノイズである)と判定する。一方、矩形領域32a、32b、および32cは偽である(ノイズではない)と判定する。したがって、文字列認識部18は、矩形領域32gおよび32cからは文字列を認識せず、一方、矩形領域32a、32b、および32cからは文字列を認識する。この結果、アイコン画像のみを含み文字列を含まない矩形領域32gおよび32hは、文字列認識およびそれに続く翻訳の対象にならない。
(利点)
本実施形態の端末装置1では、抽出された矩形領域32gおよび32hが、縦に細長い矩形領域であると判定された場合、文字列認識の対象から外される。一般に、英語などの横書き言語では、縦に細長い矩形領域は実際には何ら文字列を含まず、誤って抽出されたものである可能性が高い。したがって、本実施形態に係る端末装置1は、動画には本来含まれない文字列を、誤って認識することを防止することができる。その結果、当該動画に含まれる文字列を翻訳して当該動画に重畳して表示するとき、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。
〔実施形態3〕
端末装置1の制御部6は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、端末装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る文字列認識装置(端末装置1)は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影手段(撮影部10)と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段(矩形領域抽出部12)と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段(認識可否判定部14)と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段(文字列認識部18)と、を備えている。
上記の構成によれば、抽出された矩形領域が、画像の両端のうちいずれか一方のみに重畳し、かつ、前回翻訳対象となった画像に含まれる実際に文字列認識の対象となったいずれの矩形領域と一定割合以上重畳しないと判定された場合、この矩形領域は文字列認識の対象から外される。
撮影された動画では、文字列は画像の中央近辺に現れることが多い。そのため、画像の両端のうちいずれか一方のみに重畳する矩形領域は、文字列を含まない可能性が高い。また、文字列認識装置が、動画の撮影中に手振れなどを原因として振動してしまうと、動画が本来得られるはずのものから大きくゆがめられてしまう。その結果、文字列が本来存在する箇所とは異なる箇所が、矩形領域として誤って抽出されてしまう。このような矩形領域もまた、文字列を含まない可能性が高い。
したがって、上記の構成によれば、動画に本来は含まれない文字列を、誤って認識することを防止できる。その結果、当該動画に含まれる文字列を翻訳して当該動画に重畳して表示する情報表示装置において、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。さらには、動画撮影中に文字列認識装置が手振れなどを原因として振動したとしても、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。
本発明の態様2に係る文字列認識装置では、上記態様1において、上記判定手段は、まず、上記矩形領域が、上記第1の端部領域に重畳するか否かを判定し、次に、上記第1の端部領域に重畳すると判定した上記矩形領域が、いずれかの上記他の矩形領域と一定割合以上重畳するか否かを判定し、最後に、いずれの上記他の矩形領域とも一定割合以上重畳しないと判定した上記矩形領域が、上記第2の端部領域に重畳するか否かを判定してもよい。
上記の構成によれば、抽出された矩形領域を文字列認識処理の対象とするか否かを、効率的に判定することができる。
本発明の態様3に係る文字列認識装置では、上記態様1または2において、上記一方の端部は、上記画像の左右方向におけるいずれかの端部であり、上記他方の端部は、上記画像の左右方向において当該いずれかの端部と対向する端部であってもよい。
上記の構成によれば、翻訳対象が横書きの文字列である動画に、意味不明な翻訳文字列が重畳して表示されることを防止することができる。
本発明の態様4に係る文字列認識方法は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影工程と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽と判定する判定工程と、上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいる。
上記の構成によれば、上記態様1に係る文字列認識装置と同様の作用効果を奏する。
本発明の態様5に係る文字列認識装置(端末装置1)は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影手段(撮影部10)と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段(矩形領域抽出部12)と、上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定手段と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段(文字列認識部18)と、を備えている。
上記の構成によれば、抽出された矩形領域が、縦に細長い矩形領域であると判定された場合、この矩形領域は文字列認識の対象から外される。一般に、英語などの横書き言語では、縦に細長い矩形領域は実際には何ら文字列を含まず、誤って抽出されたものである可能性が高い。したがって、上記の構成によれば、動画には本来含まれない文字列を、誤って認識することを防止することができる。その結果、当該動画に含まれる文字列を翻訳して当該動画に重畳して表示する情報表示装置において、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。
本発明の態様6に係る文字列認識方法は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影工程と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定工程と、上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいる。
上記の構成によれば、上記態様5に係る文字列認識装置と同様の作用効果を奏する。
本発明の態様7に係る情報処理装置は、上記の課題を解決するために、上記態様1、2、3、および5のいずれかに係る文字列認識装置と、認識された上記文字列を翻訳することによって、翻訳文字列を生成する翻訳手段と、上記翻訳文字列が重畳された上記動画を表示する表示手段と、を備えていることを特徴とする。
上記の構成によれば、動画に本来は含まれない文字列を、誤って認識することを防止でき、その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。
本発明の各態様に係る文字列認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記文字列認識装置が備える各手段として動作させることにより上記文字列認識装置をコンピュータにて実現させる文字列認識装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
たとえば、上述した実施形態1では、端末装置1は、横書きされる言語(英語)の文字列を、横書きされる異なる言語(日本語)の文字列に翻訳する。しかし端末装置1は、縦書きされる言語(たとえば中国語)の文字列を、縦書きされる言語(たとえば日本語)の文字列に翻訳する構成であってもよい。したがって、特許請求の範囲に記載の一方の端部および他方の端部は、それぞれ画像30の上下方向における端部であってもよい。
本発明は、動画内の文字列を認識する文字列認識装置、およびそれを備えかつ認識文字列を翻訳して動画に重畳しリアルタイム再生する各種の情報処理装置(たとえばスマートフォン、タブレット端末等)として、幅広く利用することができる。
1 端末装置(文字列認識装置、情報処理装置)
2 カメラ
4 ディスプレイ
6 制御部
10 撮影部(撮影手段)
12 矩形領域抽出部(抽出手段)
14 認識可否判定部(判定手段)
16 認識履歴記憶部
18 文字列認識部(認識手段)
20 翻訳部(翻訳手段)
22 画像処理部
24 表示部(表示手段)

Claims (5)

  1. 対象を撮影することによってその動画を生成する撮影手段と、
    上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、
    上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段と、
    上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えていることを特徴とする文字列認識装置。
  2. 上記判定手段は、
    まず、上記矩形領域が、上記第1の端部領域に重畳するか否かを判定し、
    次に、上記第1の端部領域に重畳すると判定した上記矩形領域が、いずれかの上記他の矩形領域と一定割合以上重畳するか否かを判定し、
    最後に、いずれの上記他の矩形領域とも一定割合以上重畳しないと判定した上記矩形領域が、上記第2の端部領域に重畳するか否かを判定することを特徴とする請求項1に記載の文字列認識装置。
  3. 上記一方の端部は、上記画像の左右方向におけるいずれかの端部であり、上記他方の端部は、上記画像の左右方向において当該いずれかの端部と対向する端部であることを特徴とする請求項1に記載の文字列認識装置。
  4. 対象を撮影することによってその動画を生成する撮影工程と、
    上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、
    上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽と判定する判定工程と、
    上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいることを特徴とする文字列認識方法。
  5. 対象を撮影することによってその動画を生成する撮影手段と、
    上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、
    上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定手段と、
    上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えていることを特徴とする文字列認識装置。
JP2013246527A 2013-11-28 2013-11-28 文字列認識装置および文字列認識方法 Active JP6364182B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013246527A JP6364182B2 (ja) 2013-11-28 2013-11-28 文字列認識装置および文字列認識方法
US15/038,746 US9740954B2 (en) 2013-11-28 2014-09-22 Character string recognition device and character string recognition method
PCT/JP2014/075069 WO2015079790A1 (ja) 2013-11-28 2014-09-22 文字列認識装置および文字列認識方法
US15/642,367 US9852350B2 (en) 2013-11-28 2017-07-06 Character string recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013246527A JP6364182B2 (ja) 2013-11-28 2013-11-28 文字列認識装置および文字列認識方法

Publications (2)

Publication Number Publication Date
JP2015106182A JP2015106182A (ja) 2015-06-08
JP6364182B2 true JP6364182B2 (ja) 2018-07-25

Family

ID=53198744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013246527A Active JP6364182B2 (ja) 2013-11-28 2013-11-28 文字列認識装置および文字列認識方法

Country Status (3)

Country Link
US (2) US9740954B2 (ja)
JP (1) JP6364182B2 (ja)
WO (1) WO2015079790A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118781305A (zh) * 2017-03-17 2024-10-15 麦克赛尔株式会社 Ar显示装置和ar显示方法
CN107133592B (zh) * 2017-05-05 2021-04-02 国网江苏省电力公司无锡供电公司 电力变电站采用红外热成像及可见光成像技术融合的人体目标特征检测算法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160810A (ja) * 1993-12-09 1995-06-23 Matsushita Electric Ind Co Ltd 文字認識装置
JP3692018B2 (ja) * 2000-01-24 2005-09-07 株式会社東芝 テロップ情報処理装置
JP4759638B2 (ja) 2009-12-25 2011-08-31 株式会社スクウェア・エニックス リアルタイムなカメラ辞書
KR101052207B1 (ko) * 2010-05-12 2011-07-27 엠텍비젼 주식회사 물체의 속도에 따른 카메라 모듈의 영상 녹화 속성 조절 방법 및 장치
JP2012221095A (ja) * 2011-04-06 2012-11-12 Sony Corp 情報処理装置および方法、プログラム、並びに撮像装置
US9277129B2 (en) * 2013-06-07 2016-03-01 Apple Inc. Robust image feature based video stabilization and smoothing

Also Published As

Publication number Publication date
US20170004373A1 (en) 2017-01-05
US20170300772A1 (en) 2017-10-19
WO2015079790A1 (ja) 2015-06-04
US9852350B2 (en) 2017-12-26
JP2015106182A (ja) 2015-06-08
US9740954B2 (en) 2017-08-22

Similar Documents

Publication Publication Date Title
WO2018028583A1 (zh) 字幕提取方法及装置、存储介质
US9354711B2 (en) Dynamic hand-gesture-based region of interest localization
US9807300B2 (en) Display apparatus for generating a background image and control method thereof
US10789914B2 (en) Computer system, screen sharing method, and program
JP6170241B2 (ja) 文字特定装置、および制御プログラム
US9256792B2 (en) Image processing apparatus, image processing method, and program
EP3193279A1 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
WO2021084797A1 (ja) 物体検出装置、物体検出方法、物体検出プログラム及び学習装置
JP6364182B2 (ja) 文字列認識装置および文字列認識方法
US8891833B2 (en) Image processing apparatus and image processing method
WO2016063570A1 (ja) 撮像抽出装置
US10990802B2 (en) Imaging apparatus providing out focusing and method for controlling the same
US11263759B2 (en) Image processing apparatus, image processing method, and storage medium
JP6328409B2 (ja) 翻訳装置
JP6651675B1 (ja) 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
JP6251075B2 (ja) 翻訳装置
US20170069137A1 (en) Information processing device, information processing method, and information processing program
US20240265729A1 (en) Information processing apparatus, information processing system, information processing method, and storage medium
WO2017016073A1 (zh) 一种图片处理方法、装置、终端及存储介质
JP6410329B2 (ja) 映像記録作成装置、映像記録作成方法およびプログラム
US20130057564A1 (en) Image processing apparatus, image processing method, and image processing program
JP2016194835A (ja) 情報抽出方法、情報抽出プログラム及び情報抽出装置
JP6504708B2 (ja) 前景領域における被写体の重なりを識別する識別装置、識別方法及びコンピュータ可読記憶媒体
US9940510B2 (en) Device for identifying digital content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180702

R150 Certificate of patent or registration of utility model

Ref document number: 6364182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150