JP6364182B2 - 文字列認識装置および文字列認識方法 - Google Patents
文字列認識装置および文字列認識方法 Download PDFInfo
- Publication number
- JP6364182B2 JP6364182B2 JP2013246527A JP2013246527A JP6364182B2 JP 6364182 B2 JP6364182 B2 JP 6364182B2 JP 2013246527 A JP2013246527 A JP 2013246527A JP 2013246527 A JP2013246527 A JP 2013246527A JP 6364182 B2 JP6364182 B2 JP 6364182B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- rectangular area
- image
- rectangular
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Description
本発明に係る第1の実施形態について、図1〜図8に基づいて以下に説明する。
まず、本実施形態に係る端末装置1(文字列認識装置)の要部構成について、図1を参照して説明する。図1は、本発明の第1の実施形態に係る端末装置1の要部構成を示すブロック図である。この図に示すように、端末装置1は、カメラ2、ディスプレイ4、および制御部6を備えている。制御部6は、カメラ2およびディスプレイ4を含めた端末装置1内の全部材の動作を統括的に制御する。制御部6は、撮影部10(撮影手段)、矩形領域抽出部12(抽出手段)、認識可否判定部14(判定手段)、文字列認識部18(認識手段)、翻訳部20(翻訳手段)、画像処理部22、および表示部24(表示手段)を備えている。
本実施形態に係る端末装置1における処理の詳細について、図2〜図8を参照して説明する。
以上のように、本実施形態の端末装置1では、抽出された矩形領域32dおよび32eが、画像30内の左端部領域34aおよび右端部領域34bのうちいずれか一方のみに重畳し、かつ、前回翻訳対象となった画像40に含まれる実際に文字列認識の対象となったいずれの矩形領域40a〜40cとも一定割合以上重畳しないと判定された場合、これらの矩形領域32dおよび32eは文字列認識の対象から外される。
図8は、本実施形態に係る、左端部領域54に重畳するが文字列認識の対象となる矩形領域52a〜52iを含む画像50を表す図である。画像50は、レストランのメニューを撮影した結果として生成される動画を構成する画像の一つである。
本発明に係る第2の実施形態について、図9を参照して以下に説明する。なお、上述した第1の実施形態と共通する各部材には同じ符号を付し、詳細な説明を省略する。
本実施形態に係る端末装置1における処理の詳細について、図9を参照して説明する。図9は、本実施形態において、5つの矩形領域が抽出された画像30を表す図である。
本実施形態の端末装置1では、抽出された矩形領域32gおよび32hが、縦に細長い矩形領域であると判定された場合、文字列認識の対象から外される。一般に、英語などの横書き言語では、縦に細長い矩形領域は実際には何ら文字列を含まず、誤って抽出されたものである可能性が高い。したがって、本実施形態に係る端末装置1は、動画には本来含まれない文字列を、誤って認識することを防止することができる。その結果、当該動画に含まれる文字列を翻訳して当該動画に重畳して表示するとき、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。
端末装置1の制御部6は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
本発明の態様1に係る文字列認識装置(端末装置1)は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影手段(撮影部10)と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段(矩形領域抽出部12)と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段(認識可否判定部14)と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段(文字列認識部18)と、を備えている。
2 カメラ
4 ディスプレイ
6 制御部
10 撮影部(撮影手段)
12 矩形領域抽出部(抽出手段)
14 認識可否判定部(判定手段)
16 認識履歴記憶部
18 文字列認識部(認識手段)
20 翻訳部(翻訳手段)
22 画像処理部
24 表示部(表示手段)
Claims (5)
- 対象を撮影することによってその動画を生成する撮影手段と、
上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、
上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段と、
上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えていることを特徴とする文字列認識装置。 - 上記判定手段は、
まず、上記矩形領域が、上記第1の端部領域に重畳するか否かを判定し、
次に、上記第1の端部領域に重畳すると判定した上記矩形領域が、いずれかの上記他の矩形領域と一定割合以上重畳するか否かを判定し、
最後に、いずれの上記他の矩形領域とも一定割合以上重畳しないと判定した上記矩形領域が、上記第2の端部領域に重畳するか否かを判定することを特徴とする請求項1に記載の文字列認識装置。 - 上記一方の端部は、上記画像の左右方向におけるいずれかの端部であり、上記他方の端部は、上記画像の左右方向において当該いずれかの端部と対向する端部であることを特徴とする請求項1に記載の文字列認識装置。
- 対象を撮影することによってその動画を生成する撮影工程と、
上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、
上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第1の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第2の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽と判定する判定工程と、
上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいることを特徴とする文字列認識方法。 - 対象を撮影することによってその動画を生成する撮影手段と、
上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、
上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定手段と、
上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えていることを特徴とする文字列認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013246527A JP6364182B2 (ja) | 2013-11-28 | 2013-11-28 | 文字列認識装置および文字列認識方法 |
US15/038,746 US9740954B2 (en) | 2013-11-28 | 2014-09-22 | Character string recognition device and character string recognition method |
PCT/JP2014/075069 WO2015079790A1 (ja) | 2013-11-28 | 2014-09-22 | 文字列認識装置および文字列認識方法 |
US15/642,367 US9852350B2 (en) | 2013-11-28 | 2017-07-06 | Character string recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013246527A JP6364182B2 (ja) | 2013-11-28 | 2013-11-28 | 文字列認識装置および文字列認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015106182A JP2015106182A (ja) | 2015-06-08 |
JP6364182B2 true JP6364182B2 (ja) | 2018-07-25 |
Family
ID=53198744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013246527A Active JP6364182B2 (ja) | 2013-11-28 | 2013-11-28 | 文字列認識装置および文字列認識方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US9740954B2 (ja) |
JP (1) | JP6364182B2 (ja) |
WO (1) | WO2015079790A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118781305A (zh) * | 2017-03-17 | 2024-10-15 | 麦克赛尔株式会社 | Ar显示装置和ar显示方法 |
CN107133592B (zh) * | 2017-05-05 | 2021-04-02 | 国网江苏省电力公司无锡供电公司 | 电力变电站采用红外热成像及可见光成像技术融合的人体目标特征检测算法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160810A (ja) * | 1993-12-09 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JP3692018B2 (ja) * | 2000-01-24 | 2005-09-07 | 株式会社東芝 | テロップ情報処理装置 |
JP4759638B2 (ja) | 2009-12-25 | 2011-08-31 | 株式会社スクウェア・エニックス | リアルタイムなカメラ辞書 |
KR101052207B1 (ko) * | 2010-05-12 | 2011-07-27 | 엠텍비젼 주식회사 | 물체의 속도에 따른 카메라 모듈의 영상 녹화 속성 조절 방법 및 장치 |
JP2012221095A (ja) * | 2011-04-06 | 2012-11-12 | Sony Corp | 情報処理装置および方法、プログラム、並びに撮像装置 |
US9277129B2 (en) * | 2013-06-07 | 2016-03-01 | Apple Inc. | Robust image feature based video stabilization and smoothing |
-
2013
- 2013-11-28 JP JP2013246527A patent/JP6364182B2/ja active Active
-
2014
- 2014-09-22 WO PCT/JP2014/075069 patent/WO2015079790A1/ja active Application Filing
- 2014-09-22 US US15/038,746 patent/US9740954B2/en not_active Expired - Fee Related
-
2017
- 2017-07-06 US US15/642,367 patent/US9852350B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170004373A1 (en) | 2017-01-05 |
US20170300772A1 (en) | 2017-10-19 |
WO2015079790A1 (ja) | 2015-06-04 |
US9852350B2 (en) | 2017-12-26 |
JP2015106182A (ja) | 2015-06-08 |
US9740954B2 (en) | 2017-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018028583A1 (zh) | 字幕提取方法及装置、存储介质 | |
US9354711B2 (en) | Dynamic hand-gesture-based region of interest localization | |
US9807300B2 (en) | Display apparatus for generating a background image and control method thereof | |
US10789914B2 (en) | Computer system, screen sharing method, and program | |
JP6170241B2 (ja) | 文字特定装置、および制御プログラム | |
US9256792B2 (en) | Image processing apparatus, image processing method, and program | |
EP3193279A1 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
WO2021084797A1 (ja) | 物体検出装置、物体検出方法、物体検出プログラム及び学習装置 | |
JP6364182B2 (ja) | 文字列認識装置および文字列認識方法 | |
US8891833B2 (en) | Image processing apparatus and image processing method | |
WO2016063570A1 (ja) | 撮像抽出装置 | |
US10990802B2 (en) | Imaging apparatus providing out focusing and method for controlling the same | |
US11263759B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP6328409B2 (ja) | 翻訳装置 | |
JP6651675B1 (ja) | 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6251075B2 (ja) | 翻訳装置 | |
US20170069137A1 (en) | Information processing device, information processing method, and information processing program | |
US20240265729A1 (en) | Information processing apparatus, information processing system, information processing method, and storage medium | |
WO2017016073A1 (zh) | 一种图片处理方法、装置、终端及存储介质 | |
JP6410329B2 (ja) | 映像記録作成装置、映像記録作成方法およびプログラム | |
US20130057564A1 (en) | Image processing apparatus, image processing method, and image processing program | |
JP2016194835A (ja) | 情報抽出方法、情報抽出プログラム及び情報抽出装置 | |
JP6504708B2 (ja) | 前景領域における被写体の重なりを識別する識別装置、識別方法及びコンピュータ可読記憶媒体 | |
US9940510B2 (en) | Device for identifying digital content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160923 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180702 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6364182 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |