JP7198350B2 - 文字検出装置、文字検出方法及び文字検出システム - Google Patents
文字検出装置、文字検出方法及び文字検出システム Download PDFInfo
- Publication number
- JP7198350B2 JP7198350B2 JP2021515507A JP2021515507A JP7198350B2 JP 7198350 B2 JP7198350 B2 JP 7198350B2 JP 2021515507 A JP2021515507 A JP 2021515507A JP 2021515507 A JP2021515507 A JP 2021515507A JP 7198350 B2 JP7198350 B2 JP 7198350B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- character
- character detection
- word
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 255
- 238000012549 training Methods 0.000 claims description 96
- 238000000034 method Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
)、子音、母音及び子音が結合された文字(例えば、(外2)
)、単独で記載された子音(例
えば、(外3)
)、単独で記載された母音(例えば、(外4)
)が文字に該当しうる。
Claims (13)
- 文字検出装置による文字検出方法において、
神経網を含む文字検出モデルを訓練させる段階と、
前記訓練された文字検出モデルに、入力イメージを入力し、前記文字検出モデルから出力される1以上の出力イメージを獲得する段階と、を含み、
前記出力イメージは、前記入力イメージ内において、文字が存在する確率を示す確率値イメージを含み、
前記訓練させる段階は、
少なくとも1の文字を含む単語領域の位置値が確認された第1学習用イメージから前記単語領域内の文字領域の位置値を決定する段階と、
前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得する段階と、を含み、
前記第1学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出方法。 - 前記確率値イメージは、前記入力イメージ内で文字が存在する確率を前記入力イメージと対応する位置のイメージ空間上に示すことを特徴とする請求項1に記載の文字検出方法。
- 前記出力イメージは、
前記入力イメージから検出された文字の連結性を示すリンクイメージをさらに含むことを特徴とする請求項1に記載の文字検出方法。 - 前記リンクイメージは、前記入力イメージから検出された隣接文字の中心を連結したラインを含み、
前記ラインの太さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする請求項3に記載の文字検出方法。 - 前記訓練させる段階は、
文字領域の位置値が確認された第2学習用イメージからGTイメージを獲得する段階を含み、
前記第2学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする請求項1に記載の文字検出方法。 - 前記疑似GTイメージを獲得する段階は、
前記第1学習用イメージから、前記単語領域の位置値に対応する単語領域イメージを抽出する段階と、
前記抽出された単語領域イメージを前記文字検出モデルに入力し、前記単語領域イメージに対応する中間出力イメージを獲得する段階と、
前記中間出力イメージから検出された各文字領域から、前記単語領域イメージ内の各文字領域の位置値を決定する段階と、
前記単語領域イメージ内の前記文字領域の位置値を利用し、前記第1学習用イメージ内の文字領域の位置値を決定する段階と、
前記決定された文字領域の位置値に基づき、前記第1学習用イメージに対応する疑似GTイメージを獲得する段階と、を含むことを特徴とする請求項1に記載の文字検出方法。 - 前記訓練させる段階は、
前記第1学習用イメージ内の前記単語領域に含まれた文字の正解個数情報を獲得する段階と、
前記単語領域に含まれた文字の正解個数と、前記単語領域の位置値に対応する単語領域イメージに基づいて獲得された中間出力イメージから検出された文字の個数とを比較し、補正ウェート値を決定する段階と、
前記決定された補正ウェート値を、前記文字検出モデルから出力される前記出力イメージと、前記疑似GTイメージとの比較結果に適用する段階と、をさらに含むことを特徴とする請求項1に記載の文字検出方法。 - 前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
前記中間出力イメージから検出された文字の個数が所定個数未満である場合、前記単語領域イメージを前記文字の正解個数によって分割する段階と、
前記単語領域イメージから分割された各分割領域の位置値を、前記単語領域イメージ内の前記各文字領域の位置値と決定する段階と、を含むことを特徴とする請求項6に記載の文字検出方法。 - 前記中間出力イメージを獲得する段階は、
前記抽出された単語領域イメージをイメージ処理アルゴリズムによって変形する段階と、
前記変形された単語領域イメージを前記文字検出モデルに入力し、前記変形された単語領域イメージに対応する中間出力イメージを獲得する段階と、を含み、
前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
前記変形された単語領域イメージ内の各文字領域の位置値を決定する段階を含み、
前記第1学習用イメージ内の文字領域の位置値を決定する段階は、
前記変形された単語領域イメージ内の前記文字領域の位置値を利用し、前記第1学習用イメージ内の前記文字領域の位置値を決定する段階を含むことを特徴とする請求項6に記載の文字検出方法。 - 前記文字検出方法は、
前記確率値イメージにおいて、第1臨界値以上の確率値を有する少なくとも1つの地点を決定する段階と、
前記決定された少なくとも1つの地点それぞれから、前記第1臨界値より小さい第2臨界値以上の確率値を有する地点までバウンディング領域を増大させる段階と、
前記増大されたバウンディング領域に対応するバウンディングボックスを、前記入力イメージ上に表示する段階と、をさらに含むことを特徴とする請求項2に記載の文字検出方法。 - プロセッサと、
少なくとも1つのインストラクションを保存するメモリと、を含み、
前記プロセッサは、前記少なくとも1つのインストラクションにより、
神経網を含む文字検出モデルを訓練させ、
前記訓練された文字検出モデルに入力イメージを入力し、前記文字検出モデルから出力される1つ以上の出力イメージを獲得し、
前記出力イメージは、前記入力イメージ内から文字が存在する確率を示す確率値イメージを含み、
前記プロセッサは、前記文字検出モデルの訓練のために、少なくとも1つの文字を含む単語領域の位置値が確認された第1学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得し、
前記第1学習用イメージに対応して前記文字検出モデルで出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出装置。 - 少なくとも1つの文字を含む単語領域の位置値が確認された第1学習用イメージを利用し、神経網を含む文字検出モデルを訓練させるサーバ装置と、
前記サーバ装置から、前記文字検出モデルの実行のためのデータを受信し、入力イメージが獲得されれば、前記文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも1つの出力イメージを獲得するクライアント装置と、を含むが、
前記出力イメージは、前記入力イメージ内において、文字が存在する確率を示す確率値イメージを含み、
前記サーバ装置は、前記文字検出モデルの訓練のために、前記第1学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得し、
前記第1学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出システム。 - 文字検出装置による文字検出方法において、
神経網を含む文字検出モデルに入力イメージを入力する段階と、
前記文字検出モデルから1以上の出力イメージを獲得する段階と、を含み、
前記出力イメージは、前記入力イメージ内で文字が存在する確率を示す確率値イメージ、及び前記入力イメージで検出された文字の連結性を示すリンクイメージを含み、
前記リンクイメージは、前記入力イメージで検出された隣接した文字の中心を連結したラインを含み、
前記ラインの厚さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする文字検出方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0114369 | 2018-09-21 | ||
KR1020180114369A KR102211763B1 (ko) | 2018-09-21 | 2018-09-21 | 글자 검출 장치, 방법 및 시스템 |
PCT/KR2019/008820 WO2020060019A1 (ko) | 2018-09-21 | 2019-07-17 | 글자 검출 장치, 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022501719A JP2022501719A (ja) | 2022-01-06 |
JP7198350B2 true JP7198350B2 (ja) | 2022-12-28 |
Family
ID=69887389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021515507A Active JP7198350B2 (ja) | 2018-09-21 | 2019-07-17 | 文字検出装置、文字検出方法及び文字検出システム |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP7198350B2 (ja) |
KR (1) | KR102211763B1 (ja) |
CN (1) | CN112868021A (ja) |
WO (1) | WO2020060019A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639717A (zh) * | 2020-06-04 | 2020-09-08 | 网易(杭州)网络有限公司 | 图像字符识别方法、装置、设备及存储介质 |
KR102270198B1 (ko) * | 2020-06-08 | 2021-06-28 | 주식회사 에스아이에이 | 앵커-프리 rpn 기반의 물체 검출 방법 |
KR102436814B1 (ko) * | 2020-09-29 | 2022-08-25 | 이용재 | 광학 문자 인식 장치 및 그 제어방법 |
KR102535054B1 (ko) * | 2021-09-07 | 2023-05-26 | 서울대학교산학협력단 | 패치기반의 딥러닝 알고리즘을 통한 실내도면 이미지에서의 실내공간정보 자동추출방법 및 그 장치 |
KR102646607B1 (ko) * | 2021-10-15 | 2024-03-13 | 한국딥러닝 주식회사 | 딥러닝 기반의 문자 인식 시스템 |
WO2024043485A1 (ko) * | 2022-08-26 | 2024-02-29 | 삼성전자주식회사 | 텍스트를 포함하는 이미지를 처리하기 위한 전자 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574513A (zh) | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
KR101805318B1 (ko) | 2016-11-01 | 2017-12-06 | 포항공과대학교 산학협력단 | 텍스트 영역 식별 방법 및 장치 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8674855B2 (en) * | 2006-01-13 | 2014-03-18 | Essex Pa, L.L.C. | Identification of text |
JP2012164051A (ja) * | 2011-02-04 | 2012-08-30 | Jvc Kenwood Corp | ナンバープレート文字認識装置及びナンバープレート文字認識方法 |
KR20120127000A (ko) * | 2011-05-13 | 2012-11-21 | 삼성전자주식회사 | 문자인식을 이용한 이미지 관리 장치 및 그 방법 |
KR101403876B1 (ko) * | 2012-03-19 | 2014-06-09 | 한밭대학교 산학협력단 | 차량 번호판 인식 방법과 그 장치 |
-
2018
- 2018-09-21 KR KR1020180114369A patent/KR102211763B1/ko active IP Right Grant
-
2019
- 2019-07-17 CN CN201980061869.8A patent/CN112868021A/zh active Pending
- 2019-07-17 WO PCT/KR2019/008820 patent/WO2020060019A1/ko active Application Filing
- 2019-07-17 JP JP2021515507A patent/JP7198350B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574513A (zh) | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
KR101805318B1 (ko) | 2016-11-01 | 2017-12-06 | 포항공과대학교 산학협력단 | 텍스트 영역 식별 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR102211763B1 (ko) | 2021-02-03 |
JP2022501719A (ja) | 2022-01-06 |
WO2020060019A1 (ko) | 2020-03-26 |
CN112868021A (zh) | 2021-05-28 |
KR20200036098A (ko) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7198350B2 (ja) | 文字検出装置、文字検出方法及び文字検出システム | |
US10354168B2 (en) | Systems and methods for recognizing characters in digitized documents | |
US11810374B2 (en) | Training text recognition systems | |
US20210398294A1 (en) | Video target tracking method and apparatus, computer device, and storage medium | |
WO2022148192A1 (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
WO2020192433A1 (zh) | 多语言文本检测识别方法和设备 | |
WO2018010657A1 (zh) | 结构化文本检测方法和系统、计算设备 | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US8442327B2 (en) | Application of classifiers to sub-sampled integral images for detecting faces in images | |
WO2021137946A1 (en) | Forgery detection of face image | |
CN110210480B (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
US20130322758A1 (en) | Image processing apparatus, image processing method, and program | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
JP7297910B2 (ja) | 文字認識装置及び文字認識装置による文字認識方法 | |
KR102351578B1 (ko) | 글자 인식 장치 및 이에 의한 글자 인식 방법 | |
RU2453919C1 (ru) | Способ выявления спама в растровом изображении | |
US20230237662A1 (en) | Dual-level model for segmentation | |
CN114120305B (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
CN111753575A (zh) | 文本识别方法、装置及设备 | |
WO2021142765A1 (en) | Text line detection | |
Pang et al. | Robust eye center localization through face alignment and invariant isocentric patterns | |
Chang et al. | Re-Attention is all you need: Memory-efficient scene text detection via re-attention on uncertain regions | |
US20220171959A1 (en) | Method and apparatus with image processing | |
CN113971671A (zh) | 实例分割方法、装置、电子设备及存储介质 | |
KR20240067765A (ko) | 초해상화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210319 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7198350 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |