JP2022522425A - 文字認識装置及び文字認識装置による文字認識方法 - Google Patents
文字認識装置及び文字認識装置による文字認識方法 Download PDFInfo
- Publication number
- JP2022522425A JP2022522425A JP2021549641A JP2021549641A JP2022522425A JP 2022522425 A JP2022522425 A JP 2022522425A JP 2021549641 A JP2021549641 A JP 2021549641A JP 2021549641 A JP2021549641 A JP 2021549641A JP 2022522425 A JP2022522425 A JP 2022522425A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character recognition
- data
- stage
- score map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
Description
」)、子音、母音及び子音が結合された文字(例えば、「(外2)
」)、単独で記載された子音(例えば、「(外3)
」)、単独で記載された母音(例えば、「(外4)
」)が文字に該当しうる。また、文字は、記号(例えば、「/」、「-」など)を含んでもよい。
文字認識装置100は、サーバ装置1510に具現されるとかまたはクライアント装置1520に具現されることができる。
Claims (14)
- 文字認識装置による入力データ内における文字認識方法であって、
入力データを、文字検出モデルに入力する段階と、
前記文字検出モデルから出力される出力データに基づき、前記入力データ内における単語領域の位置情報を獲得する段階と、
前記獲得した位置情報に対応する部分データを、前記入力データから抽出する段階と、
前記部分データを、文字認識モデルに入力し、前記部分データ内において、文字を認識する段階と、を含むことを特徴とする、
文字認識方法。 - 前記出力データは、
前記入力データ内において、文字が存在する確率を、前記入力データに対応するデータ空間上に示す第1スコアマップ、及び前記入力データ内における文字間の連結性を、前記入力データに対応するデータ空間上に示す第2スコアマップを含むことを特徴とする、
請求項1に記載の文字認識方法。 - 前記単語領域の位置情報を獲得する段階は、
前記第1スコアマップ内及び前記第2スコアマップ内の値と、臨界値との比較結果により、前記第1スコアマップ及び前記第2スコアマップを二進化する段階と、
二進化された前記第1スコアマップと二進化された前記第2スコアマップとを併合する段階と、
併合マップ内において、所定値を有する領域を決定する段階と、
前記決定された領域を含む単語領域の位置情報を決定する段階と、を含むことを特徴とする、
請求項2に記載の文字認識方法。 - 前記単語領域の位置情報を決定する段階は、
前記決定された領域を含む最小サイズの単語ボックスを決定する段階と、
前記決定された単語ボックスの位置情報を、前記単語領域の位置情報と決定する段階と、を含むことを特徴とする、
請求項3に記載の文字認識方法。 - 前記文字認識方法は、
学習用データ内において、文字が存在する確率をデータ空間上に示す第1GTスコアマップ、及び前記学習用データ内における文字間の連結性をデータ空間上に示す第2GTスコアマップを獲得する段階と、
前記学習用データを、前記文字検出モデルに入力する段階と、をさらに含むが、
前記学習用データに対応し、前記文字検出モデルから出力される第1スコアマップ及び第2スコアマップのそれぞれと、前記第1GTスコアマップ及び前記第2GTスコアマップとの比較結果により、前記文字検出モデルの内部加重値が更新されることを特徴とする、
請求項2に記載の文字認識方法。 - 前記第1GTスコアマップを獲得する段階は、
前記学習用データ内の単語を含む単語ボックスを決定する段階と、
前記決定された単語ボックスに含まれた文字の個数により、前記単語ボックスを複数の文字ボックスに分割する段階と、
前記複数の文字ボックスのそれぞれに所定のイメージを合成し、前記第1GTスコアマップを生成する段階と、を含むことを特徴とする、
請求項5に記載の文字認識方法。 - 前記第2GTスコアマップを生成する段階は、
前記複数の文字ボックスにおいて、互いに隣接した文字ボックス間の境目上に位置する連結ボックスを決定する段階と、
前記連結ボックスに所定のイメージを合成し、前記第2GTスコアマップを生成する段階と、を含むことを特徴とする、
請求項6に記載の文字認識方法。 - 当該文字認識方法は、
前記部分データ内で認識された文字グループに所定の記号が含まれている場合、前記文字グループを、第1種類の情報と決定する段階をさらに含むことを特徴とする、
請求項1に記載の文字認識方法。 - 前記入力データから抽出された部分データの個数は複数個であるが、
当該文字認識方法は、
複数の部分データのそれぞれで認識された文字グループを、前記入力データ内における前記複数の部分データの位置によって整列する段階をさらに含むことを特徴とする、
請求項1に記載の文字認識方法。 - 当該文字認識方法は、
前記整列された文字グループにおいて、連続して整列された所定個数の文字グループに含まれた文字の個数に基づき、文字再認識が必要であるか否かということを決定する段階をさらに含むことを特徴とする、
請求項9に記載の文字認識方法。 - 前記文字を認識する段階は、
前記文字検出モデルから出力される出力データを、前記文字認識モデルとしてさらに入力させ、前記部分データ内において、文字を認識する段階を含むことを特徴とする、
請求項1に記載の文字認識方法。 - 前記入力データは、
原本イメージに対応し、特徴抽出モデルから出力された特徴マップを含むことを特徴とする、
請求項1に記載の文字認識方法。 - ハードウェアと結合し、請求項1に記載の文字認識方法を実行するために、媒体に保存された、プログラム。
- プロセッサと、
少なくとも1つのインストラクションを保存するメモリと、を含むが、
前記プロセッサは、前記少なくとも1つのインストラクションにより、
入力データを、文字検出モデルに入力し、
前記文字検出モデルから出力される出力データに基づき、前記入力データ内における単語領域の位置情報を獲得し、
前記獲得した位置情報に対応する部分データを、前記入力データから抽出し、
前記部分データを、文字認識モデルに入力し、前記部分データ内において、文字を認識することを特徴とする、
文字認識装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190022102A KR102206604B1 (ko) | 2019-02-25 | 2019-02-25 | 글자 인식 장치 및 이에 의한 글자 인식 방법 |
KR10-2019-0022102 | 2019-02-25 | ||
PCT/KR2020/001333 WO2020175806A1 (ko) | 2019-02-25 | 2020-01-29 | 글자 인식 장치 및 이에 의한 글자 인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022522425A true JP2022522425A (ja) | 2022-04-19 |
JP7297910B2 JP7297910B2 (ja) | 2023-06-26 |
Family
ID=72240107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021549641A Active JP7297910B2 (ja) | 2019-02-25 | 2020-01-29 | 文字認識装置及び文字認識装置による文字認識方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7297910B2 (ja) |
KR (1) | KR102206604B1 (ja) |
WO (1) | WO2020175806A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024013864A1 (ja) * | 2022-07-13 | 2024-01-18 | 株式会社東芝 | 文字認識装置、文字認識方法、及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102386162B1 (ko) * | 2020-11-13 | 2022-04-15 | 주식회사 와들 | 이미지로부터 상품 정보 데이터를 생성하기 위한 시스템 및 그에 관한 방법 |
KR102548826B1 (ko) * | 2020-12-11 | 2023-06-28 | 엔에이치엔클라우드 주식회사 | 딥러닝 기반의 메뉴판 제공 방법 및 그 시스템 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005014237A (ja) * | 2003-06-23 | 2005-01-20 | Toshiba Corp | 複写機における翻訳方法、プログラム及び外部翻訳機能部を有する複写機 |
JP2010191724A (ja) * | 2009-02-18 | 2010-09-02 | Seiko Epson Corp | 画像処理装置および制御プログラム |
US20120148101A1 (en) * | 2010-12-14 | 2012-06-14 | Electronics And Telecommunications Research Institute | Method and apparatus for extracting text area, and automatic recognition system of number plate using the same |
US20150347859A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Credit Card Auto-Fill |
US20170068867A1 (en) * | 2015-09-08 | 2017-03-09 | Sk Planet Co., Ltd. | System and method for recognizing credit card number and expiration date using terminal device |
JP2017058950A (ja) * | 2015-09-16 | 2017-03-23 | 大日本印刷株式会社 | 認識装置、撮像システム、撮像装置並びに認識方法及び認識用プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101295000B1 (ko) * | 2013-01-22 | 2013-08-09 | 주식회사 케이지모빌리언스 | 카드 번호의 영역 특성을 이용하는 신용 카드의 번호 인식 시스템 및 신용 카드의 번호 인식 방법 |
US20150100537A1 (en) * | 2013-10-03 | 2015-04-09 | Microsoft Corporation | Emoji for Text Predictions |
KR101805318B1 (ko) * | 2016-11-01 | 2017-12-06 | 포항공과대학교 산학협력단 | 텍스트 영역 식별 방법 및 장치 |
KR102376201B1 (ko) * | 2017-04-04 | 2022-03-18 | 한국전자통신연구원 | 멀티미디어 지식 베이스 구축 시스템 및 방법 |
-
2019
- 2019-02-25 KR KR1020190022102A patent/KR102206604B1/ko active IP Right Grant
-
2020
- 2020-01-29 JP JP2021549641A patent/JP7297910B2/ja active Active
- 2020-01-29 WO PCT/KR2020/001333 patent/WO2020175806A1/ko active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005014237A (ja) * | 2003-06-23 | 2005-01-20 | Toshiba Corp | 複写機における翻訳方法、プログラム及び外部翻訳機能部を有する複写機 |
JP2010191724A (ja) * | 2009-02-18 | 2010-09-02 | Seiko Epson Corp | 画像処理装置および制御プログラム |
US20120148101A1 (en) * | 2010-12-14 | 2012-06-14 | Electronics And Telecommunications Research Institute | Method and apparatus for extracting text area, and automatic recognition system of number plate using the same |
US20150347859A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Credit Card Auto-Fill |
US20170068867A1 (en) * | 2015-09-08 | 2017-03-09 | Sk Planet Co., Ltd. | System and method for recognizing credit card number and expiration date using terminal device |
JP2017058950A (ja) * | 2015-09-16 | 2017-03-23 | 大日本印刷株式会社 | 認識装置、撮像システム、撮像装置並びに認識方法及び認識用プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024013864A1 (ja) * | 2022-07-13 | 2024-01-18 | 株式会社東芝 | 文字認識装置、文字認識方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20200106110A (ko) | 2020-09-11 |
WO2020175806A1 (ko) | 2020-09-03 |
KR102206604B1 (ko) | 2021-01-22 |
JP7297910B2 (ja) | 2023-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11443559B2 (en) | Facial liveness detection with a mobile device | |
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
JP6351689B2 (ja) | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 | |
CN111950424B (zh) | 一种视频数据处理方法、装置、计算机及可读存储介质 | |
JP2022522425A (ja) | 文字認識装置及び文字認識装置による文字認識方法 | |
US20110150324A1 (en) | Method and apparatus for recognizing and localizing landmarks from an image onto a map | |
JP7198350B2 (ja) | 文字検出装置、文字検出方法及び文字検出システム | |
JP2011198268A (ja) | 情報処理装置および方法、並びにプログラム | |
Anwar et al. | Deep ancient Roman Republican coin classification via feature fusion and attention | |
JP6969663B2 (ja) | ユーザの撮影装置を識別する装置及び方法 | |
CN114465737A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN111859002B (zh) | 兴趣点名称生成方法及装置、电子设备和介质 | |
US12118787B2 (en) | Localization of narrations in image data | |
KR102351578B1 (ko) | 글자 인식 장치 및 이에 의한 글자 인식 방법 | |
CN110351094B (zh) | 字符验证方法、装置、计算机设备及存储介质 | |
CN111738199A (zh) | 图像信息验证方法、装置、计算装置和介质 | |
KR102542174B1 (ko) | 디지털 참고서 제공 시스템 및 그 방법 | |
CN111638792A (zh) | Ar效果的呈现方法、装置、计算机设备及存储介质 | |
CN115004261A (zh) | 文本行检测 | |
JP2023021946A (ja) | データ検索方法及びシステム | |
Li et al. | A platform for creating Smartphone apps to enhance Chinese learning using augmented reality | |
Seegehalli et al. | Deep hybrid architectures and DenseNet35 in speaker-dependent visual speech recognition | |
CN111325194A (zh) | 一种文字识别方法、装置及设备、存储介质 | |
Krause et al. | Language-focused Deepfake Detection Using Phonemes, Mouth Movements, and Video Features | |
CN105279526B (zh) | 分割轨迹的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7297910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |