JP6611346B2 - 文字列認識装置、方法、及びプログラム - Google Patents
文字列認識装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6611346B2 JP6611346B2 JP2016110270A JP2016110270A JP6611346B2 JP 6611346 B2 JP6611346 B2 JP 6611346B2 JP 2016110270 A JP2016110270 A JP 2016110270A JP 2016110270 A JP2016110270 A JP 2016110270A JP 6611346 B2 JP6611346 B2 JP 6611346B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- candidate
- image
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Discrimination (AREA)
Description
入力画像から、文字の領域を切り出すことを検出と言う。検出された文字の領域の画像から、どの単語に該当するか、判断する過程を認識とよぶ。このように画像内文字認識の過程として、以下の3つのタスクが考えられる。
<文字列認識装置のシステム構成>
図1は、本発明の第1の実施の形態に係る文字列認識装置100を示すブロック図である。この文字列認識装置100は、CPUと、RAMと、後述する文字列認識処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。
次に、本実施の形態に係る文字列認識装置100の作用について説明する。縦の画素数が所定数となるように大きさが正規化されている文字列画像が、文字列認識装置100に入力されると、文字列認識装置100によって、図5に示す文字列認識処理ルーチンが実行される。
<文字列認識装置のシステム構成>
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る文字列認識装置は、第1の実施の形態と同様の構成であるため、同一符号を付して説明を省略する。
次に第2の実施の形態における文字列認識処理ルーチンについて、図8を用いて説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
既存のICDAR 2003のデータセット、SVT-WORDのデータセット、IIIT5Kのデータセットを用いて上述した第2の実施の形態の手法による文字列認識の効果を検証する評価実験を行った。比較対象は従来のICCV2011(非特許文献3)、BMVC2012(非特許文献4)、ICPR2012(非特許文献5)、CVPR2014(非特許文献6)、ICLR2014(非特許文献7)、ECCV2014(非特許文献8)、PAMI2014(非特許文献9)に記載の各手法とした。
[非特許文献4]:Anand Mishra, Karteek Alahari, and CV Jawahar,“Scene text recognition using higher order language priors,”in BMVC, 2012
[非特許文献5]:Tao Wang, David J Wu, Andrew Coates, and Andrew Y Ng, “End-to-end text recognition with convolutional neural networks,” in Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012, pp. 3304-3308.
[非特許文献6]:Cong Yao, Xiang Bai, Baoguang Shi, and Wenyu Liu,“Strokelets: A learned multi-scale representation for scene text recognition,” in Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014, pp. 4042-4049.
[非特許文献7]:Ouais Alsharif and Joelle Pineau, “End-to-end text recognition with hybrid HMM maxout models,” in ICLR, 2014.
[非特許文献8]: Max Jaderberg, Andrea Vedaldi, and Andrew Zisserman, “Deep features for text spotting,” in Computer Vision-ECCV 2014, pp. 512-528. Springer, 2014.
[非特許文献9]: Jon Almazan, Albert Gordo, Alicia Forn´es, and Ernest Valveny, “Word spotting and recognition with embedded attributes,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 36, no. 12, pp. 2552-2566, 2014.
20 演算部
22 文字認識部
24 文字列候補認識部
26 文字列認識部
40 出力部
100 文字列認識装置
Claims (4)
- 文字列画像が表す文字列を認識する文字列認識装置であって、
前記文字列画像に対して部分画像を切り出すための窓を走査して、前記窓で切り出された部分画像の各々を、文字を認識するための予め学習されたCNN(Convolutional Neural Network)に入力して、前記部分画像の各々についての各文字の文字スコアを表すCNNスコア行列を求める文字認識部と、
前記文字認識部によって求められた前記CNNスコア行列を、文字列候補を認識するための予め学習されたRNN(Recurrent Neural Network)に入力して、前記文字列画像が表す文字列候補を認識する文字列候補認識部と、
前記文字列候補認識部によって認識された文字列候補の各々について、前記CNNスコア行列を用いて再検証し、誤った文字列候補を取り除くことにより、前記文字列画像が表す文字列を認識する文字列認識部と、
を含み、
前記文字列認識部は、前記再検証する際に、前記文字列候補に含まれる各文字について、前記CNNスコア行列における、前記文字の順番に応じて定められる文字の中心位置に対応して得られる複数の文字スコアの最大値を、前記文字の最大文字スコアとして取得し、前記文字列候補に含まれる各文字について取得された最大文字スコアの和と、前記文字列候補の文字数とから、前記文字列候補に対する文字列スコア関数の値を計算し、前記文字列スコア関数の値が最大となる前記文字列候補を、前記文字列画像が表す文字列として認識する
文字列認識装置。 - 前記文字列スコア関数は、以下の式で表される請求項1記載の文字列認識装置。
ただし、Wは、前記文字列候補を表し、W={c 1 ,c 2 ,…,c N }であり、Mは、前記CNNスコア行列であり、M(c、p)は、p番目の前記部分画像での文字cの文字スコアを表す要素であり、p i は、i番目の文字c i について予め定められた中心位置を示す番号であり、B=[−δ,δ]は、−δからδまでの整数の集合であり、δは予め定められた整数であり、Nは、前記文字列候補の文字数である。 - 文字列画像が表す文字列を認識する文字列認識装置における文字列認識方法であって、
文字認識部が、前記文字列画像に対して部分画像を切り出すための窓を走査して、前記窓で切り出された部分画像の各々を、文字を認識するための予め学習されたCNN(Convolutional Neural Network)に入力して、前記部分画像の各々についての各文字の文字スコアを表すCNNスコア行列を求め、
文字列候補認識部が、前記文字認識部によって求められた前記CNNスコア行列を、文字列候補を認識するための予め学習されたRNN(Recurrent Neural Network)に入力して、前記文字列画像が表す文字列候補を認識し、
文字列認識部が、前記文字列候補認識部によって認識された文字列候補の各々について、前記CNNスコア行列を用いて再検証し、誤った文字列候補を取り除くことにより、前記文字列画像が表す文字列を認識する
ことを含み、
前記文字列認識部が、前記再検証する際に、前記文字列候補に含まれる各文字について、前記CNNスコア行列における、前記文字の順番に応じて定められる文字の中心位置に対応して得られる複数の文字スコアの最大値を、前記文字の最大文字スコアとして取得し、前記文字列候補に含まれる各文字について取得された最大文字スコアの和と、前記文字列候補の文字数とから、前記文字列候補に対する文字列スコア関数の値を計算し、前記文字列スコア関数の値が最大となる前記文字列候補を、前記文字列画像が表す文字列として認識する
文字列認識方法。 - コンピュータを、請求項1又は2記載の文字列認識装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016110270A JP6611346B2 (ja) | 2016-06-01 | 2016-06-01 | 文字列認識装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016110270A JP6611346B2 (ja) | 2016-06-01 | 2016-06-01 | 文字列認識装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017215859A JP2017215859A (ja) | 2017-12-07 |
JP6611346B2 true JP6611346B2 (ja) | 2019-11-27 |
Family
ID=60575753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016110270A Active JP6611346B2 (ja) | 2016-06-01 | 2016-06-01 | 文字列認識装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6611346B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427953A (zh) * | 2018-02-26 | 2018-08-21 | 北京易达图灵科技有限公司 | 一种文字识别方法及装置 |
KR101951595B1 (ko) * | 2018-05-18 | 2019-02-22 | 한양대학교 산학협력단 | 모듈형 순환 신경망 구조 기반 차량 경로 예측 시스템 및 방법 |
JP7172351B2 (ja) * | 2018-09-21 | 2022-11-16 | 富士フイルムビジネスイノベーション株式会社 | 文字列認識装置及び文字列認識プログラム |
KR102235506B1 (ko) * | 2018-10-05 | 2021-04-02 | 주식회사 한글과컴퓨터 | 문자 인식 장치 및 방법 |
CA3115746C (en) | 2018-10-24 | 2023-08-29 | Fujitsu Frontech Limited | Banknote inspection device, banknote inspection method, and banknote inspection program |
JP7343585B2 (ja) * | 2019-07-17 | 2023-09-12 | 富士フイルム富山化学株式会社 | 識別支援システム、識別支援クライアント、識別支援サーバ、及び識別支援方法 |
CN111507353B (zh) * | 2020-04-17 | 2023-10-03 | 新分享科技服务(深圳)有限公司 | 一种基于文字识别的中文字段检测方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0830728A (ja) * | 1994-07-12 | 1996-02-02 | Suzuki Motor Corp | 画像の二値化装置 |
JP5300000B2 (ja) * | 2008-09-19 | 2013-09-25 | 国立大学法人豊橋技術科学大学 | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム |
US8484154B2 (en) * | 2009-12-14 | 2013-07-09 | Intel Corporation | Methods and systems to traverse graph-based networks |
JP5536687B2 (ja) * | 2011-01-31 | 2014-07-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム |
CN105247540B (zh) * | 2013-06-09 | 2018-10-16 | 苹果公司 | 管理实时手写识别 |
JP6303671B2 (ja) * | 2014-03-20 | 2018-04-04 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
-
2016
- 2016-06-01 JP JP2016110270A patent/JP6611346B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017215859A (ja) | 2017-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6611346B2 (ja) | 文字列認識装置、方法、及びプログラム | |
EP3620956B1 (en) | Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same | |
JP6678778B2 (ja) | 画像内の物体を検出する方法及び物体検出システム | |
CN106548127B (zh) | 图像识别方法 | |
US8306327B2 (en) | Adaptive partial character recognition | |
JP4905931B2 (ja) | 人体領域抽出方法および装置並びにプログラム | |
IL273446A (en) | Method and system for identifying content in an image | |
US20060239560A1 (en) | Recognition graph | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
JP2004054956A (ja) | 顔/類似顔映像で学習されたパターン分類器を利用した顔検出方法及びシステム | |
US10373028B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
Hussain et al. | Nastalique segmentation-based approach for Urdu OCR | |
JP6170860B2 (ja) | 文字認識装置及び識別関数生成方法 | |
Mor et al. | Confidence prediction for lexicon-free OCR | |
CN109033321B (zh) | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 | |
JP2018206252A (ja) | 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム | |
Liu et al. | Scene text recognition with high performance CNN classifier and efficient word inference | |
Liu et al. | Scene text recognition with CNN classifier and WFST-based word labeling | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
Sirigineedi et al. | Deep Learning Approaches for Autonomous Driving to Detect Traffic Signs | |
JP6393495B2 (ja) | 画像処理装置および物体認識方法 | |
Duth et al. | Recognition of hand written and printed text of cursive writing utilizing optical character recognition | |
JP6235368B2 (ja) | パターン認識装置、パターン認識方法およびプログラム | |
Meena et al. | Hybrid neural network architecture for multi-label object recognition using feature fusion | |
Hassan et al. | SCAN: Sequence-character Aware Network for Text Recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20160622 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6611346 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |