JP7282989B2 - テキスト分類 - Google Patents
テキスト分類 Download PDFInfo
- Publication number
- JP7282989B2 JP7282989B2 JP2022561639A JP2022561639A JP7282989B2 JP 7282989 B2 JP7282989 B2 JP 7282989B2 JP 2022561639 A JP2022561639 A JP 2022561639A JP 2022561639 A JP2022561639 A JP 2022561639A JP 7282989 B2 JP7282989 B2 JP 7282989B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- class
- classes
- classifier
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
別の側面によれば、テキスト分類装置であって、画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、テキストの前記複数の行からテキストの行を選択するように構成された選択部と、テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部と、テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置を備える光学式文字認識装置が提供される。
‐テキストの文字体系(文字体系属性)、
‐テキストの言語(言語属性)、
‐テキストのフォント(フォント属性)、
‐テキストがイタリックであるかどうか(イタリック属性)、
‐テキストがボールドであるかどうか(ボールド属性)、
‐テキストが下線付きかどうか(下線属性)、
‐テキストの傾斜(傾斜属性)、
‐テキストの方向(方向属性)、及び
‐テキストのセグメント化された行が水平であるか垂直であるか(水平/垂直属性)。
‐文字体系属性と方向属性との両方の識別、及び
‐方向属性と垂直/水平属性との両方の識別。
行の信頼性= arctan(アスペクト比)×2/π
(文字体系、方向)=(ラテン語、0°)、(ラテン語、0°)、(句読文字、0°)、(ラテン語、180°)、 及び(ラテン語、0°)。
(文字体系、方向)=(キリル語、90度)、(キリル語、90度)、(キリル語、90度)、(ラテン語、90度)、及び(キリル語、90度)。
(文字体系、方向)=(韓国語、180度)、(韓国語、180度)、(中国語、180度)、(韓国語、180度)、及び(韓国語、180度)。
(文字体系、方向)=(中国語、270度)、(中国語、270度)、(中国語、270度)、(中国語、270度)、及び(中国語、270度)。
‐クラス(ラテン語、0度)について、3の頻度が記録され、
‐クラス(句読文字、0度)について、1の頻度が記録され、
‐クラス(ラテン語、180度)について、1の頻度が記録される。
‐クラス(キリル語、90度)について、4の頻度が記録され、
‐クラス(ラテン語、90度)について、1の頻度が記録される。
‐クラス(韓国語、180度)について、5の頻度が記録される。
‐クラス(中国語、270度)について、5の頻度が記録される。
‐行1について、(19-18)/18=5.5%。
‐行2について、(35-25)/25=40%。
‐行3について、(53-34)/34=55.8%。
‐行4について、(63-45)/45=40%。
‐行5について、(72-45)/45=60%。
Claims (14)
- テキスト分類装置であって、
画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、
テキストの前記複数の行からテキストの行を選択するように構成された選択部と、
テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部であって、各クラスは、文字体系と方向との両方を含む、識別部と、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
前記記録部は、テキストの前記選択された行について、
クラスの前記シーケンス内のクラスのそれぞれに関連付けられた頻度と、
前記大域クラスがクラスの前記シーケンスのうちの最高頻度のクラスに対応するかどうかを確立する前記信頼レベルと、を記録するように構成される、テキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
前記選択部は、前記信頼レベルが閾値よりも下であるならば、テキストの別の行を選択するように構成され、
前記識別部は、テキストの前記選択された行に対応するクラスの複数のシーケンスを識別するように構成され、
前記記録部は、テキストの前記選択された行について、クラスの前記複数のシーケンスのうちのクラスに対応する前記大域クラスを記録するように構成される、テキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
前記分類部は、前記信頼レベルが閾値よりも上であるならば、前記大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
前記分類部は、前記信頼レベルが閾値よりも下であるならば、複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
前記選択部は、テキストの前記行のアスペクト比に基づいてテキストの前記行を選択するように構成される、テキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
前記テキストの前記方向に基づいて、ユーザに提示される前に画像の前記方向が修正される、テキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
テキストの複数のサンプルを含むデータセットを使用して前記クラスを認識するように訓練されたニューラル・ネットワークをさらに備える、テキスト分類装置。 - 請求項8に記載のテキスト分類装置であって、
前記データセットは、テキストの前記複数のサンプルの複数の方向を含む、テキスト分類装置。 - 請求項8に記載のテキスト分類装置であって、前記ニューラル・ネットワークは、
テキストの前記行の画像認識を実行するように構成された畳み込みニューラル・ネットワークと、
テキストの前記行のシーケンス認識を実行するように構成された再帰型ニューラル・ネットワークと、を含む、テキスト分類装置。 - 請求項1に記載のテキスト分類装置であって、
前記記録部は、テキストの前記選択された行について、複数の大域クラスを記録するように構成され、前記複数の大域クラスのそれぞれの大域クラスは、クラスの前記シーケンスのうちのクラスに対応し、
前記分類部は、前記複数の大域クラスのそれぞれの信頼レベルに基づいて、前記複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。 - 光学式文字認識装置であって、
テキスト分類装置であって、
画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、
テキストの前記複数の行からテキストの行を選択するように構成された選択部と、
テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部であって、各クラスは、文字体系と方向との両方を含む、識別部と、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置と、
前記画像を分類する前記大域クラスを適用することによって、前記画像に対して光学式文字認識を実行するように構成された光学式文字認識部と、を備える、光学式文字認識装置。 - テキスト分類方法であって、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することであって、各クラスは、文字体系と方向との両方を含む、ことと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有するテキスト分類方法。 - テキスト分類装置によって実行される場合に、前記テキスト分類装置にテキスト分類方法を実行させるプログラムであって、前記テキスト分類方法は、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することであって、各クラスは、文字体系と方向との両方を含む、ことと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有する、プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/845,720 US11551461B2 (en) | 2020-04-10 | 2020-04-10 | Text classification |
US16/845,720 | 2020-04-10 | ||
PCT/EP2021/059315 WO2021205007A1 (en) | 2020-04-10 | 2021-04-09 | Text classification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023511791A JP2023511791A (ja) | 2023-03-22 |
JP7282989B2 true JP7282989B2 (ja) | 2023-05-29 |
Family
ID=75441938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022561639A Active JP7282989B2 (ja) | 2020-04-10 | 2021-04-09 | テキスト分類 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11551461B2 (ja) |
EP (1) | EP4133410A1 (ja) |
JP (1) | JP7282989B2 (ja) |
KR (1) | KR102572180B1 (ja) |
CN (1) | CN115428041A (ja) |
WO (1) | WO2021205007A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240177285A1 (en) * | 2022-11-28 | 2024-05-30 | L&T Technology Services Limited | Method and system for evaluating quality of a document |
CN115830613A (zh) * | 2023-01-09 | 2023-03-21 | 广州佰锐网络科技有限公司 | 文档智能采集分拣方法、调取方法、存储介质和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019535082A (ja) | 2016-10-03 | 2019-12-05 | エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc | 言語検出のためのシステムおよび方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07296109A (ja) * | 1994-04-20 | 1995-11-10 | Canon Inc | 画像処理方法とその装置 |
JPH1091792A (ja) * | 1996-07-12 | 1998-04-10 | Seiko Epson Corp | 文書セグメント化方法、装置、カラー印刷システムおよびコンピュータプログラム製品 |
US8139894B2 (en) * | 2007-12-20 | 2012-03-20 | Intel Corporation | Automatic dominant orientation estimation in text images based on steerable filters |
US8744171B1 (en) * | 2009-04-29 | 2014-06-03 | Google Inc. | Text script and orientation recognition |
CN103383732B (zh) * | 2012-05-04 | 2016-12-14 | 富士通株式会社 | 图像处理方法和装置 |
CN103455806B (zh) * | 2012-05-31 | 2017-06-13 | 富士通株式会社 | 文档处理装置、文档处理方法以及扫描仪 |
US9495620B2 (en) * | 2013-06-09 | 2016-11-15 | Apple Inc. | Multi-script handwriting recognition using a universal recognizer |
US9984471B2 (en) * | 2016-07-26 | 2018-05-29 | Intuit Inc. | Label and field identification without optical character recognition (OCR) |
US11450125B2 (en) * | 2018-12-04 | 2022-09-20 | Leverton Holding Llc | Methods and systems for automated table detection within documents |
-
2020
- 2020-04-10 US US16/845,720 patent/US11551461B2/en active Active
-
2021
- 2021-04-09 WO PCT/EP2021/059315 patent/WO2021205007A1/en unknown
- 2021-04-09 KR KR1020227038896A patent/KR102572180B1/ko active IP Right Grant
- 2021-04-09 EP EP21717874.8A patent/EP4133410A1/en active Pending
- 2021-04-09 JP JP2022561639A patent/JP7282989B2/ja active Active
- 2021-04-09 CN CN202180027675.3A patent/CN115428041A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019535082A (ja) | 2016-10-03 | 2019-12-05 | エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc | 言語検出のためのシステムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115428041A (zh) | 2022-12-02 |
KR102572180B1 (ko) | 2023-08-28 |
EP4133410A1 (en) | 2023-02-15 |
US20210319247A1 (en) | 2021-10-14 |
JP2023511791A (ja) | 2023-03-22 |
WO2021205007A1 (en) | 2021-10-14 |
KR20230008731A (ko) | 2023-01-16 |
US11551461B2 (en) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11715014B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
EP2166488B1 (en) | Handwritten word spotter using synthesized typed queries | |
Haralick | Document image understanding: Geometric and logical layout | |
JP3640972B2 (ja) | ドキュメントの解読又は解釈を行う装置 | |
KR101122854B1 (ko) | 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치 | |
EP2144188B1 (en) | Word detection method and system | |
JPH11120293A (ja) | 文字認識/修正方式 | |
JP7282989B2 (ja) | テキスト分類 | |
CN110942074A (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
JP2730665B2 (ja) | 文字認識装置および方法 | |
Malkadi et al. | A study on the accuracy of ocr engines for source code transcription from programming screencasts | |
JP2000315247A (ja) | 文字認識装置 | |
Singh et al. | Document layout analysis for Indian newspapers using contour based symbiotic approach | |
Ghosh et al. | Development of an Assamese OCR using Bangla OCR | |
Kumar et al. | Line based robust script identification for indianlanguages | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
JP3467437B2 (ja) | 文字認識装置及びその方法とプログラム記録媒体 | |
Al-Barhamtoshy et al. | Arabic OCR segmented-based system | |
Mukherjee et al. | An unsupervised and robust line and word segmentation method for handwritten and degraded printed document | |
Kaur et al. | Adverse conditions and techniques for cross-lingual text recognition | |
JP4087191B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
Bjerregaard et al. | Detection of Furigana text in images | |
Puri et al. | Sentence detection and extraction in machine printed imaged document using matching technique | |
Fermanian et al. | Deep recognition-based character segmentation in handwritten syriac manuscripts | |
Djaghbellou et al. | A survey on text-line segmentation process in historical Arab manuscripts. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221130 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230407 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230517 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7282989 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |