JP7201299B2 - コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム - Google Patents
コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム Download PDFInfo
- Publication number
- JP7201299B2 JP7201299B2 JP2020526307A JP2020526307A JP7201299B2 JP 7201299 B2 JP7201299 B2 JP 7201299B2 JP 2020526307 A JP2020526307 A JP 2020526307A JP 2020526307 A JP2020526307 A JP 2020526307A JP 7201299 B2 JP7201299 B2 JP 7201299B2
- Authority
- JP
- Japan
- Prior art keywords
- microblock
- key
- microblocks
- engine
- macroblock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/43—Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Description
(付記)
以下に、本明細書に記載した技術的事項の範囲に含まれる発明の態様の一部を確認的に例示する。
1.
コンピュータの情報処理により、文書イメージからデータを抽出する方法であって、
テーブル形式のオブジェクト・クラスタを含む前記文書イメージを取得することと、
前記テーブル形式オブジェクト・クラスタ内の複数のマクロブロックを識別することであって、それぞれのマクロブロックは共線性オブジェクトを含む、識別することと、
各マクロブロック内で、それぞれのマイクロブロックから1つ又は複数の候補セルを特定することと、
前記特定した候補セルに基づいて、前記テーブル形式オブジェクト・クラスタを、テーブル・クラスの所定のセットからの1つのテーブル・クラスに分類することと、
前記テーブル・クラスに従って、各マクロブロックについての前記1つ又は複数の候補セルからデータを抽出することであって、前記抽出されたデータは、コンピュータ・プログラムにより計算可能である、抽出することと、
前記抽出されたデータから1つ又は複数の2次元(2D)アレイを作成することであって、前記1つ又は複数の2Dアレイは、第1の次元に、前記テーブル形式オブジェクト・クラスタ内の複数のマクロブロックを有する、作成することと、
を含む、方法。
2.
前記テーブル形式オブジェクト・クラスタのマクロブロックは、テーブルの列に対応し、列は、各列の同じ行内にそれぞれの見出しを有し得る、上記1.に記載の方法。
3.
前記識別することは、
前記テーブル形式オブジェクト・クラスタから垂直方向の共線性オブジェクトの2つ又それより多いグループの列定義属性を分析することにより、前記複数のマクロブロックから各マクロブロックを判断することであって、前記列定義属性は、いずれかの2つの隣接するマクロブロック間の絶対距離、いずれかの2つの隣接うるマクロブロック間の相対距離、意味的補間、及び各マクロブロックについての相対スタイルを含む、判断することを含む、上記1.に記載の方法。
4.
上記いずれかの方法において、前記特定することは、
それぞれのシーケンス番号を各マクロブロック内のそれぞれのマイクロブロックに割り当てることにより、前記テーブル形式オブジェクト・クラスタの各マクロブロック内のそれぞれのマイクロブロックを順序付けることであって、各マイクロブロックは、文字及び/又は記号内に表される1つ又は複数の単語のブロックに対応する、順序付けることと、
全てのマクロブロックにわたって前記同じシーケンス番号を有するマイクロブロックの間の位置関係を分析することと、
を含む、上記1.に記載の方法。
5.
前記分類することは、
前記識別されたマクロブロックと前記特定された候補セルとの間の位置関係に基づいて、前記テーブル・クラスを前記テーブル形式オブジェクト・クラスタに割り当てることであって、前記テーブル・クラスの所定のセットは、併合したセルを有するテーブルの第1のテーブル・クラス、不明確なセル境界線を有するテーブルの第2のテーブル・クラス、及びネストしたセルを有するテーブルの第3のテーブル・クラスを含む、割り当てることを含む、上記1.に記載の方法。
6.
前記抽出することは、
候補セルに対応するキー値ペアを作成することであって、前記キー値ペアのキーは、前記候補セルが特定するマクロブロックの見出しであり、前記マクロブロックの前記見出しは、前記見出しが前記候補セルについての正しいキーである尤度を示す信頼性レベルと関連付けられる、作成することを含む、上記1.に記載の方法。
7.
上記1.から6.までのいずれかに記載の方法をコンピュータに実行させるコンピュータ・プログラム。
8.
上記7.に記載のコンピュータ・プログラムを格納したコンピュータ可読ストレージ媒体。
9.
メモリと、
前記メモリと通信する少なくとも1つのプロセッサと、
前記メモリを介して前記少なくとも1つのプロセッサにより実行可能な、上記1.から6.までのいずれかに記載の方法を実行するためのプログラム命令と、
を含む、システム。
12:コンピューティング・システム
16:プロセッサ
18:バス
28:システム・メモリ
42:プログラム・プロセス
50:コンピューティング環境
100:システム
101:ユーザ
110:ユーザ・デバイス
120:コグニティブな文書デジタル化エンジン
130:意味データベース
131:文書クラス
133:キー・クラス
135:キー・エイリアス
137:キー・オントロジ・データ
138:キー
140:文書メタデータ
145:マイクロブロック特徴
150:リレーショナル・データベース
155:キー値ペア(KVP)
170:外部ツール
181:文書イメージ
500:文書
550、580、620、625:テーブル形式オブジェクト・クラスタ
560:層状ボックス・セクション
570、600、630:テーブル
Claims (7)
- コンピュータの情報処理により、文書イメージからデータを抽出する方法であって、
複数のオブジェクトを含む前記文書イメージを取得することと、
前記複数のオブジェクトにそれぞれ対応する複数のマイクロブロックを識別することであって、前記マイクロブロックの各々は、コンテンツ、位置及びスタイルと関連付けられる、識別することと、
第1のマイクロブロック及び第2のマイクロブロックのそれぞれの位置特徴、並びに調整可能な共線性パラメータに基づいて、第1のマイクロブロックが第2のマイクロブロックと共線性を有することを発見することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックを有するマクロブロックを識別することであって、前記マクロブロックは、コンピュータ・プログラムにより計算可能なキー値ペアを構成する、識別することと、
発見的手法に基づいて信頼性レベルを前記キー値ペアと関連付けることと、
前記キー値ペア及び前記関連付けられた信頼性レベルをユーザに通信することと、
を含み、
前記発見することは、
前記第1のマイクロブロック及び前記第2のマイクロブロックの前記それぞれの位置特徴の分析に基づいて、前記第1のマイクロブロック及び前記第2のマイクロブロックが互いに直ぐ隣接していることを確認することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックの両方とも、別のマイクロブロックを囲んでいない特定の幾何学領域内に囲まれていることを確認することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックが共線性を有すると判断することと、
を含む、方法。 - コンピュータの情報処理により、文書イメージからデータを抽出する方法であって、
複数のオブジェクトを含む前記文書イメージを取得することと、
前記複数のオブジェクトにそれぞれ対応する複数のマイクロブロックを識別することであって、前記マイクロブロックの各々は、コンテンツ、位置及びスタイルと関連付けられる、識別することと、
第1のマイクロブロック及び第2のマイクロブロックのそれぞれの位置特徴、並びに調整可能な共線性パラメータに基づいて、第1のマイクロブロックが第2のマイクロブロックと共線性を有することを発見することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックを有するマクロブロックを識別することであって、前記マクロブロックは、コンピュータ・プログラムにより計算可能なキー値ペアを構成する、識別することと、
発見的手法に基づいて信頼性レベルを前記キー値ペアと関連付けることと、
前記キー値ペア及び前記関連付けられた信頼性レベルをユーザに通信することと、
を含み、
前記発見することは、
前記第1のマイクロブロック及び前記第2のマイクロブロックの前記それぞれの位置特徴の分析に基づいて、前記第1のマイクロブロック及び前記第2のマイクロブロックが互いに直ぐ隣接していることを確認することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックの両方のそれぞれの意味コンテンツを分析することであって、前記意味コンテンツは、前記調整可能な共線性パラメータのメンバーである、分析することと、
前記第1のマイクロブロックの第1の意味コンテンツがキー名と関連付けられることを確認することと、
前記キー名に対応するキー・オントロジ・データから、前記第2のマイクロブロックの第2の意味コンテンツが前記キー名に対応するデータ・タイプのものであることを発見することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックが共線性を有すると判断することと、
を含む、方法。 - コンピュータの情報処理により、文書イメージからデータを抽出する方法であって、
複数のオブジェクトを含む前記文書イメージを取得することと、
前記複数のオブジェクトにそれぞれ対応する複数のマイクロブロックを識別することであって、前記マイクロブロックの各々は、コンテンツ、位置及びスタイルと関連付けられる、識別することと、
第1のマイクロブロック及び第2のマイクロブロックのそれぞれの位置特徴、並びに調整可能な共線性パラメータに基づいて、第1のマイクロブロックが第2のマイクロブロックと共線性を有することを発見することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックを有するマクロブロックを識別することであって、前記マクロブロックは、コンピュータ・プログラムにより計算可能なキー値ペアを構成する、識別することと、
発見的手法に基づいて信頼性レベルを前記キー値ペアと関連付けることと、
前記キー値ペア及び前記関連付けられた信頼性レベルをユーザに通信することと、
を含み、
前記スタイルは、フォント・タイプ、フォント・サイズ、段落アラインメント、及びゼロ又はそれより多い句読区切り文字を含み、前記調整可能な共線性パラメータは、前記スタイルを含む、方法。 - コンピュータの情報処理により、文書イメージからデータを抽出する方法であって、
複数のオブジェクトを含む前記文書イメージを取得することと、
前記複数のオブジェクトにそれぞれ対応する複数のマイクロブロックを識別することであって、前記マイクロブロックの各々は、コンテンツ、位置及びスタイルと関連付けられる、識別することと、
第1のマイクロブロック及び第2のマイクロブロックのそれぞれの位置特徴、並びに調整可能な共線性パラメータに基づいて、第1のマイクロブロックが第2のマイクロブロックと共線性を有することを発見することと、
前記第1のマイクロブロック及び前記第2のマイクロブロックを有するマクロブロックを識別することであって、前記マクロブロックは、コンピュータ・プログラムにより計算可能なキー値ペアを構成する、識別することと、
発見的手法に基づいて信頼性レベルを前記キー値ペアと関連付けることと、
前記キー値ペア及び前記関連付けられた信頼性レベルをユーザに通信することと、
を含み、
前記文書イメージの文書クラスを確認することと、
前記文書クラスにおいて指定されたクラス・キーが前記文書イメージについてのマクロブロックのセットから欠落していると判断することと、
前記欠落しているクラス・キーに対応するエイリアスを探して前記識別されたマクロブロックから前記マイクロブロックのそれぞれのコンテンツを検索することと、
前記エイリアスをコンテンツとして有する前記マイクロブロックの1つと関連付けられた別のマクロブロックを選択することと、
前記欠落しているクラス・キーについてのキー値ペアの代わりに前記選択された別のマクロブロックにおける別のキー値ペアを識別することと、
をさらに含む、方法。 - 請求項1から請求項4までのいずれか1項に記載の方法をコンピュータに実行させるコンピュータ・プログラム。
- 請求項5に記載のコンピュータ・プログラムを格納したコンピュータ可読ストレージ媒体。
- メモリと、
前記メモリと通信する少なくとも1つのプロセッサと、
前記メモリを介して前記少なくとも1つのプロセッサにより実行可能な、請求項1から請求項4までのいずれか1項に記載の方法を実行するためのプログラム命令と、
を含む、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/829,304 | 2017-12-01 | ||
US15/829,304 US10592738B2 (en) | 2017-12-01 | 2017-12-01 | Cognitive document image digitalization |
PCT/IB2018/059248 WO2019106505A1 (en) | 2017-12-01 | 2018-11-23 | Cognitive document image digitization |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021504787A JP2021504787A (ja) | 2021-02-15 |
JP7201299B2 true JP7201299B2 (ja) | 2023-01-10 |
Family
ID=66659260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020526307A Active JP7201299B2 (ja) | 2017-12-01 | 2018-11-23 | コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US10592738B2 (ja) |
JP (1) | JP7201299B2 (ja) |
CN (1) | CN111406262B (ja) |
DE (1) | DE112018005418T5 (ja) |
GB (1) | GB2582722B (ja) |
WO (1) | WO2019106505A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452904B2 (en) * | 2017-12-01 | 2019-10-22 | International Business Machines Corporation | Blockwise extraction of document metadata |
US10824805B2 (en) * | 2018-10-22 | 2020-11-03 | Astute Review, LLC | Systems and methods for automated review and editing of presentations |
US11113095B2 (en) | 2019-04-30 | 2021-09-07 | Automation Anywhere, Inc. | Robotic process automation system with separate platform, bot and command class loaders |
US11481304B1 (en) | 2019-12-22 | 2022-10-25 | Automation Anywhere, Inc. | User action generated process discovery |
US20220108106A1 (en) * | 2020-10-05 | 2022-04-07 | Automation Anywhere, Inc. | Machined learning supporting document data extraction |
CN112906572B (zh) * | 2021-02-20 | 2024-02-27 | 广联达科技股份有限公司 | 施工图中纵断面的识别方法及识别装置 |
KR102655430B1 (ko) * | 2021-02-22 | 2024-04-08 | 네이버 주식회사 | 테이블 생성 방법 및 시스템 |
WO2022182111A1 (ko) * | 2021-02-23 | 2022-09-01 | 네이버 주식회사 | 테이블 생성 방법 및 시스템, 그리고 테이블 인식 방법 및 시스템 |
EP4099215B1 (en) | 2021-06-03 | 2024-01-10 | Telefonica Cibersecurity & Cloud Tech S.L.U. | Computer vision method for detecting document regions that will be excluded from an embedding process and computer programs thereof |
US11881042B2 (en) | 2021-11-30 | 2024-01-23 | International Business Machines Corporation | Semantic template matching |
CN114548219A (zh) * | 2022-01-13 | 2022-05-27 | 河北汉光重工有限责任公司 | 基于微块差异特征提取及svm的图像分类方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092226A (ja) | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 |
JP2011150466A (ja) | 2010-01-20 | 2011-08-04 | Fujitsu Ltd | 文字列認識装置、文字列認識プログラムおよび文字列認識方法 |
JP2012208589A (ja) | 2011-03-29 | 2012-10-25 | Hitachi Omron Terminal Solutions Corp | 帳票認識装置、帳票認識方法およびそのためのプログラム |
JP2013196479A (ja) | 2012-03-21 | 2013-09-30 | Toshiba Corp | 情報処理システム、情報処理プログラム、情報処理方法 |
US20140369602A1 (en) | 2013-06-14 | 2014-12-18 | Lexmark International Technology S.A. | Methods for Automatic Structured Extraction of Data in OCR Documents Having Tabular Data |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721938A (en) | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
JP3814320B2 (ja) * | 1995-12-14 | 2006-08-30 | キヤノン株式会社 | 画像処理方法及び装置 |
JPH09231291A (ja) * | 1996-02-27 | 1997-09-05 | Mitsubishi Electric Corp | 帳票読取方法及びその装置 |
US20010032218A1 (en) * | 2000-01-31 | 2001-10-18 | Huang Evan S. | Method and apparatus for utilizing document type definition to generate structured documents |
US6778995B1 (en) | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
US8571809B2 (en) | 2003-12-19 | 2013-10-29 | Bio informatics Systems Ltd. | Apparatus for calculating scores for chains of sequence alignments |
US7849048B2 (en) | 2005-07-05 | 2010-12-07 | Clarabridge, Inc. | System and method of making unstructured data available to structured data analysis tools |
CN101305366B (zh) | 2005-11-29 | 2013-02-06 | 国际商业机器公司 | 从非结构化文本提取和显现图表结构化关系的方法和系统 |
US9043197B1 (en) | 2006-07-14 | 2015-05-26 | Google Inc. | Extracting information from unstructured text using generalized extraction patterns |
US8073865B2 (en) | 2009-09-14 | 2011-12-06 | Etsy, Inc. | System and method for content extraction from unstructured sources |
US9110882B2 (en) | 2010-05-14 | 2015-08-18 | Amazon Technologies, Inc. | Extracting structured knowledge from unstructured text |
CN102375978A (zh) * | 2010-08-17 | 2012-03-14 | 富士通株式会社 | 处理图像的方法和设备 |
US20130205202A1 (en) * | 2010-10-26 | 2013-08-08 | Jun Xiao | Transformation of a Document into Interactive Media Content |
US8645819B2 (en) | 2011-06-17 | 2014-02-04 | Xerox Corporation | Detection and extraction of elements constituting images in unstructured document files |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US9251180B2 (en) | 2012-05-29 | 2016-02-02 | International Business Machines Corporation | Supplementing structured information about entities with information from unstructured data sources |
US9471550B2 (en) * | 2012-10-16 | 2016-10-18 | Linkedin Corporation | Method and apparatus for document conversion with font metrics adjustment for format compatibility |
US9268823B2 (en) | 2013-05-10 | 2016-02-23 | International Business Machines Corporation | Partial match derivation using text analysis |
US9424524B2 (en) | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
US20150331936A1 (en) | 2014-05-14 | 2015-11-19 | Faris ALQADAH | Method and system for extracting a product and classifying text-based electronic documents |
US9280831B1 (en) * | 2014-10-23 | 2016-03-08 | International Business Machines Corporation | Image segmentation |
CN106663207A (zh) * | 2014-10-29 | 2017-05-10 | 微软技术许可有限责任公司 | 白板和文档图像检测方法和系统 |
US9569733B2 (en) | 2015-02-20 | 2017-02-14 | International Business Machines Corporation | Extracting complex entities and relationships from unstructured data |
US9704104B2 (en) | 2015-02-20 | 2017-07-11 | International Business Machines Corporation | Confidence weighting of complex relationships in unstructured data |
US10360294B2 (en) | 2015-04-26 | 2019-07-23 | Sciome, LLC | Methods and systems for efficient and accurate text extraction from unstructured documents |
CN104978742B (zh) | 2015-06-12 | 2017-12-05 | 北京邮电大学 | 基于级联结构的图像配准方法及装置 |
CN105279484B (zh) | 2015-10-10 | 2019-08-06 | 北京旷视科技有限公司 | 对象检测方法和对象检测装置 |
CN105487774B (zh) | 2015-11-27 | 2019-04-19 | 小米科技有限责任公司 | 图像分组方法及装置 |
CN105379484A (zh) * | 2015-11-30 | 2016-03-09 | 巴州良佳农机制造有限公司 | 一种移栽机取苗装置 |
-
2017
- 2017-12-01 US US15/829,304 patent/US10592738B2/en active Active
-
2018
- 2018-11-23 JP JP2020526307A patent/JP7201299B2/ja active Active
- 2018-11-23 GB GB2009558.4A patent/GB2582722B/en active Active
- 2018-11-23 DE DE112018005418.7T patent/DE112018005418T5/de active Pending
- 2018-11-23 CN CN201880077088.3A patent/CN111406262B/zh active Active
- 2018-11-23 WO PCT/IB2018/059248 patent/WO2019106505A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092226A (ja) | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 |
JP2011150466A (ja) | 2010-01-20 | 2011-08-04 | Fujitsu Ltd | 文字列認識装置、文字列認識プログラムおよび文字列認識方法 |
JP2012208589A (ja) | 2011-03-29 | 2012-10-25 | Hitachi Omron Terminal Solutions Corp | 帳票認識装置、帳票認識方法およびそのためのプログラム |
JP2013196479A (ja) | 2012-03-21 | 2013-09-30 | Toshiba Corp | 情報処理システム、情報処理プログラム、情報処理方法 |
US20140369602A1 (en) | 2013-06-14 | 2014-12-18 | Lexmark International Technology S.A. | Methods for Automatic Structured Extraction of Data in OCR Documents Having Tabular Data |
Non-Patent Citations (2)
Title |
---|
Koichi KISE et al.,"Visiting card understanding system",9th International Conference on Pattern Recognition,米国,IEEE,1988年11月17日,pp.425-429 |
祖父江 恒夫、渡邉 豊英,"検証処理に基づいた帳票の構造認識法とその評価",第55回(平成9年後期)全国大会講演論文集(2),日本,社団法人情報処理学会,1997年09月26日,pp.200-201 |
Also Published As
Publication number | Publication date |
---|---|
JP2021504787A (ja) | 2021-02-15 |
CN111406262B (zh) | 2023-09-22 |
GB2582722A (en) | 2020-09-30 |
GB2582722B (en) | 2021-03-03 |
US20190171873A1 (en) | 2019-06-06 |
US10592738B2 (en) | 2020-03-17 |
CN111406262A (zh) | 2020-07-10 |
WO2019106505A1 (en) | 2019-06-06 |
GB202009558D0 (en) | 2020-08-05 |
DE112018005418T5 (de) | 2020-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7201299B2 (ja) | コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム | |
JP7289047B2 (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
US11887010B2 (en) | Data classification for data lake catalog | |
US10643135B2 (en) | Linkage prediction through similarity analysis | |
JP7488006B2 (ja) | 機械学習を使用した表形式データの内容特定方法、システム、プログラム | |
US11042581B2 (en) | Unstructured data clustering of information technology service delivery actions | |
JP6964383B2 (ja) | 文書デジタル化における意味正規化のための方法、コンピュータ・プログラム及びシステム | |
AU2021257649B2 (en) | Vision-based cell structure recognition using hierarchical neural networks and cell boundaries to structure clustering | |
US20200133970A1 (en) | Mining locations and other context information from construction documents | |
US11500840B2 (en) | Contrasting document-embedded structured data and generating summaries thereof | |
US20150046443A1 (en) | Document-based search with facet information | |
WO2023093259A1 (en) | Iteratively updating a document structure to resolve disconnected text in element blocks | |
US20230266966A1 (en) | User support content generation | |
US11881042B2 (en) | Semantic template matching | |
US11841909B2 (en) | Text analytics views for web site sources | |
US20230419710A1 (en) | Information extraction from documents containing handwritten text | |
US20230409806A1 (en) | Permutation invariance for representing linearized tabular data | |
US11163954B2 (en) | Propagation of annotation metadata to overlapping annotations of synonymous type | |
US20230315980A1 (en) | Content association in file editing | |
US20160062974A1 (en) | Recording reasons for metadata changes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200602 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200512 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210423 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220502 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220607 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220906 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7201299 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |