JP2022052716A - 非構造化文書からのセマンティックデータの照会 - Google Patents
非構造化文書からのセマンティックデータの照会 Download PDFInfo
- Publication number
- JP2022052716A JP2022052716A JP2021117559A JP2021117559A JP2022052716A JP 2022052716 A JP2022052716 A JP 2022052716A JP 2021117559 A JP2021117559 A JP 2021117559A JP 2021117559 A JP2021117559 A JP 2021117559A JP 2022052716 A JP2022052716 A JP 2022052716A
- Authority
- JP
- Japan
- Prior art keywords
- document
- decoder
- character
- segmentation mask
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
Description
100B 文書処理環境
110A 文書処理システム
110B 文書処理システム
120 文書
130 光学式文字認識(OCR)スキャナ
140A 畳み込みニューラルネットワーク(CNN)
140B 畳み込みニューラルネットワーク(CNN)
142A クエリエンコーダ
142B 文書エンコーダ
144 デコーダ
144A デコーダ
144B デコーダ
150 境界ボックス検出器
160 セマンティックセグメンテーションジェネレータ
170 クエリ文字列
200A 文書
200C セグメンテーションマスク
200D セグメンテーションマスク
205A 文字列
205B 文字列
210 識別子
215 値
220 識別子
225 値
230 識別子
235 値
240A バックグラウンドクラス
240B バックグラウンドクラス
245 ターゲットデータクラス
240 バックグラウンドクラス
250 キー
255 値
260 キー
265 値
270 キー
275 値
300 方法
400 方法
500 コンピュータシステム
502 ユーザ入力/出力インターフェース
503 ユーザ入力/出力デバイス
504 プロセッサ
506 通信インフラストラクチャまたはバス
508 メインメモリまたはプライマリメモリ
510 セカンダリストレージデバイスまたはメモリ
512 ハードディスクドライブ
514 リムーバブルストレージデバイスまたはドライブ
518 リムーバブルストレージユニット
520 インターフェース
522 リムーバブルストレージユニット
524 通信またはネットワークインターフェース
526 通信経路
528 外部または遠隔デバイス
Claims (20)
- 文書に対して光学式文字認識を実行するステップと、
前記光学式文字認識から取得された文字情報を使用して文字グリッドを生成するステップであって、前記文字グリッドが、前記文書の2次元のダウンサンプリングされたバージョンである、ステップと、
畳み込みニューラルネットワーク(CNN)を前記文字グリッドとクエリ文字列に適用するステップと、
前記適用に応じて、前記クエリ文字列に対応する前記文書のターゲットデータを識別するセグメンテーションマスクを生成するステップと
を備える、コンピュータ実装方法。 - 適用する前記ステップが、
前記CNNの第1のエンコーダを前記文字グリッドに適用することによって、符号化された文字グリッドを生成するステップと、
前記CNNの第2のエンコーダを前記クエリ文字列に適用することによって、特徴ベクトルを生成するステップと
をさらに備える、請求項1に記載のコンピュータ実装方法。 - 前記特徴ベクトルを生成するステップが、
前記クエリ文字列に対応する特徴ベクトルのシーケンスをプールするステップをさらに備える、請求項2に記載のコンピュータ実装方法。 - 適用する前記ステップが、
ターゲットデータを識別する前記セグメンテーションマスクを生成するために、前記符号化された文字グリッドと前記特徴ベクトルにデコーダを適用するステップをさらに備える、請求項2に記載のコンピュータ実装方法。 - 適用する前記ステップが、
前記符号化された文字グリッドに第1のデコーダを適用することによって、中間セグメンテーションマスクを生成するステップと、
ターゲットデータを識別する前記セグメンテーションマスクを生成するために、前記CNNの第2のデコーダを、前記文字グリッド、前記中間セグメンテーションマスク、および前記特徴ベクトルに適用するステップと
をさらに備える、請求項2に記載のコンピュータ実装方法。 - 前記中間セグメンテーションマスクが、前記文書から1つまたは複数のキーと値のデータのペアを識別する、請求項5に記載のコンピュータ実装方法。
- 前記第2のデコーダが単一の畳み込み層を備える、請求項5に記載のコンピュータ実装方法。
- メモリと、
前記メモリに結合され、
文書に対して光学式文字認識を実行することと、
前記光学式文字認識から取得された文字情報を使用して文字グリッドを生成することであって、前記文字グリッドが、前記文書の2次元のダウンサンプリングされたバージョンである、生成することと、
畳み込みニューラルネットワーク(CNN)を前記文字グリッドとクエリ文字列に適用することと、
前記適用に応じて、前記クエリ文字列に対応する前記文書のターゲットデータを識別するセグメンテーションマスクを生成することと
を行うように構成される少なくとも1つのプロセッサと
を備えるシステム。 - 前記CNNを適用するために、前記少なくとも1つのプロセッサが、
前記CNNの第1のエンコーダを前記文字グリッドに適用することによって、符号化された文字グリッドを生成することと、
前記CNNの第2のエンコーダを前記クエリ文字列に適用することによって、特徴ベクトルを生成することと
を行うようにさらに構成される、請求項8に記載のシステム。 - 前記特徴ベクトルを生成するために、前記少なくとも1つのプロセッサが、
前記クエリ文字列に対応する特徴ベクトルのシーケンスをプールするようにさらに構成される、請求項9に記載のシステム。 - 前記CNNを適用するために、前記少なくとも1つのプロセッサが、
ターゲットデータを識別する前記セグメンテーションマスクを生成するために、前記符号化された文字グリッドと前記特徴ベクトルにデコーダを適用するようにさらに構成される、請求項9に記載のシステム。 - 前記CNNを適用するために、前記少なくとも1つのプロセッサが、
前記符号化された文字グリッドに第1のデコーダを適用することによって、中間セグメンテーションマスクを生成することと、
ターゲットデータを識別する前記セグメンテーションマスクを生成するために、前記CNNの第2のデコーダを、前記文字グリッド、前記中間セグメンテーションマスク、および前記特徴ベクトルに適用することと
を行うようにさらに構成される、請求項9に記載のシステム。 - 前記中間セグメンテーションマスクが、前記文書から1つまたは複数のキーと値のデータのペアを識別する、請求項12に記載のシステム。
- 前記第2のデコーダが単一の畳み込み層を備える、請求項12に記載のシステム。
- 少なくとも1つのコンピューティングデバイスによって実行されると、前記少なくとも1つのコンピューティングデバイスに、
文書に対して光学式文字認識を実行することと、
前記光学式文字認識から取得された文字情報を使用して文字グリッドを生成することであって、前記文字グリッドが、前記文書の2次元のダウンサンプリングされたバージョンである、生成することと、
畳み込みニューラルネットワーク(CNN)を前記文字グリッドとクエリ文字列に適用することと、
前記適用に応じて、前記クエリ文字列に対応する前記文書のターゲットデータを識別するセグメンテーションマスクを生成することと
を備える動作を実行させる命令が記憶された非一時的なコンピュータ可読記録媒体。 - 前記適用することが、
前記CNNの第1のエンコーダを前記文字グリッドに適用することによって、符号化された文字グリッドを生成することと、
前記CNNの第2のエンコーダを前記クエリ文字列に適用することによって、特徴ベクトルを生成することと
をさらに備える、請求項15に記載の非一時的なコンピュータ可読記録媒体。 - 前記特徴ベクトルを生成することが、
前記クエリ文字列に対応する特徴ベクトルのシーケンスをプールすることをさらに備える、請求項16に記載の非一時的なコンピュータ可読記録媒体。 - 前記適用することが、
ターゲットデータを識別する前記セグメンテーションマスクを生成するために、前記符号化された文字グリッドと前記特徴ベクトルにデコーダを適用することをさらに備える、請求項16に記載の非一時的なコンピュータ可読記録媒体。 - 前記適用することが、
前記符号化された文字グリッドに第1のデコーダを適用することによって、中間セグメンテーションマスクを生成することと、
ターゲットデータを識別する前記セグメンテーションマスクを生成するために、前記CNNの第2のデコーダを、前記文字グリッド、前記中間セグメンテーションマスク、および前記特徴ベクトルに適用することと
をさらに備える、請求項16に記載の非一時的なコンピュータ可読記録媒体。 - 前記中間セグメンテーションマスクが、前記文書から1つまたは複数のキーと値のデータのペアを識別し、前記第2のデコーダが単一の畳み込み層を備える、請求項19に記載の非一時的なコンピュータ可読記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/029,180 US11281928B1 (en) | 2020-09-23 | 2020-09-23 | Querying semantic data from unstructured documents |
US17/029,180 | 2020-09-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022052716A true JP2022052716A (ja) | 2022-04-04 |
JP7174812B2 JP7174812B2 (ja) | 2022-11-17 |
Family
ID=77316844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021117559A Active JP7174812B2 (ja) | 2020-09-23 | 2021-07-16 | 非構造化文書からのセマンティックデータの照会 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11281928B1 (ja) |
EP (1) | EP3975139A1 (ja) |
JP (1) | JP7174812B2 (ja) |
CN (1) | CN114254071A (ja) |
AU (1) | AU2021203227A1 (ja) |
CA (1) | CA3119249C (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514489B2 (en) * | 2021-01-06 | 2022-11-29 | Sap Se | Targeted document information extraction |
US11830264B2 (en) * | 2022-01-31 | 2023-11-28 | Intuit Inc. | End to end trainable document extraction |
CN114692085A (zh) * | 2022-03-30 | 2022-07-01 | 北京字节跳动网络技术有限公司 | 特征提取方法、装置、存储介质及电子设备 |
US11544943B1 (en) * | 2022-05-31 | 2023-01-03 | Intuit Inc. | Entity extraction with encoder decoder machine learning model |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325258A (ja) * | 2000-05-15 | 2001-11-22 | Mitsubishi Electric Corp | 書類管理システム |
US20200117961A1 (en) * | 2018-05-18 | 2020-04-16 | Sap Se | Two-dimensional document processing |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026177A (en) * | 1995-08-29 | 2000-02-15 | The Hong Kong University Of Science & Technology | Method for identifying a sequence of alphanumeric characters |
EP1449190B1 (en) * | 2001-05-02 | 2013-07-10 | Bitstream, Inc. | Methods, systems, and programming for producing and displaying subpixel-optimized images and digital content including such images |
US7499588B2 (en) * | 2004-05-20 | 2009-03-03 | Microsoft Corporation | Low resolution OCR for camera acquired documents |
US8261200B2 (en) * | 2007-04-26 | 2012-09-04 | Fuji Xerox Co., Ltd. | Increasing retrieval performance of images by providing relevance feedback on word images contained in the images |
US7792850B1 (en) * | 2007-07-27 | 2010-09-07 | Sonicwall, Inc. | On-the-fly pattern recognition with configurable bounds |
WO2016079868A1 (ja) * | 2014-11-21 | 2016-05-26 | 楽天株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
US10043231B2 (en) * | 2015-06-30 | 2018-08-07 | Oath Inc. | Methods and systems for detecting and recognizing text from images |
JP6756916B2 (ja) * | 2016-10-26 | 2020-09-16 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したテキストシーケンスの処理 |
US10565498B1 (en) * | 2017-02-28 | 2020-02-18 | Amazon Technologies, Inc. | Deep neural network-based relationship analysis with multi-feature token model |
US10599924B2 (en) * | 2017-07-21 | 2020-03-24 | Adobe Inc. | Semantic page segmentation of vector graphics documents |
US10613726B2 (en) * | 2017-12-22 | 2020-04-07 | Adobe Inc. | Removing and replacing objects in images according to a directed user conversation |
US10395772B1 (en) * | 2018-10-17 | 2019-08-27 | Tempus Labs | Mobile supplementation, extraction, and analysis of health records |
US10937169B2 (en) * | 2018-12-18 | 2021-03-02 | Qualcomm Incorporated | Motion-assisted image segmentation and object detection |
CN110399798B (zh) * | 2019-06-25 | 2021-07-20 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN111507328A (zh) * | 2020-04-13 | 2020-08-07 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、系统、设备及可读存储介质 |
-
2020
- 2020-09-23 US US17/029,180 patent/US11281928B1/en active Active
-
2021
- 2021-05-19 AU AU2021203227A patent/AU2021203227A1/en active Pending
- 2021-05-20 CA CA3119249A patent/CA3119249C/en active Active
- 2021-07-16 JP JP2021117559A patent/JP7174812B2/ja active Active
- 2021-08-12 EP EP21190955.1A patent/EP3975139A1/en active Pending
- 2021-08-18 CN CN202110947380.XA patent/CN114254071A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325258A (ja) * | 2000-05-15 | 2001-11-22 | Mitsubishi Electric Corp | 書類管理システム |
US20200117961A1 (en) * | 2018-05-18 | 2020-04-16 | Sap Se | Two-dimensional document processing |
Also Published As
Publication number | Publication date |
---|---|
JP7174812B2 (ja) | 2022-11-17 |
US11281928B1 (en) | 2022-03-22 |
CA3119249C (en) | 2023-01-03 |
US20220092328A1 (en) | 2022-03-24 |
CN114254071A (zh) | 2022-03-29 |
AU2021203227A1 (en) | 2022-04-07 |
CA3119249A1 (en) | 2022-03-23 |
EP3975139A1 (en) | 2022-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10915788B2 (en) | Optical character recognition using end-to-end deep learning | |
US11244208B2 (en) | Two-dimensional document processing | |
US10846553B2 (en) | Recognizing typewritten and handwritten characters using end-to-end deep learning | |
Kang et al. | Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition | |
RU2691214C1 (ru) | Распознавание текста с использованием искусственного интеллекта | |
US10754851B2 (en) | Question answering for data visualizations | |
JP7174812B2 (ja) | 非構造化文書からのセマンティックデータの照会 | |
CN111406262A (zh) | 认知文档图像数字化 | |
JP7239533B2 (ja) | 文書処理のための位置埋め込み | |
US20120054601A1 (en) | Methods and systems for automated creation, recognition and display of icons | |
WO2021248492A1 (en) | Semantic representation of text in document | |
WO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN112269872B (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
Ríos-Vila et al. | On the use of transformers for end-to-end optical music recognition | |
Li et al. | Layer similarity guiding few-shot Chinese style transfer | |
CN113762109A (zh) | 一种文字定位模型的训练方法及文字定位方法 | |
Bhatt et al. | Pho (SC)-CTC—a hybrid approach towards zero-shot word image recognition | |
CN116030295A (zh) | 物品识别方法、装置、电子设备及存储介质 | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
Neitthoffer et al. | Knowledge integration inside multitask network for analysis of unseen id types | |
CN116502625B (zh) | 一种简历解析方法和系统 | |
Xie et al. | Enhancing multimodal deep representation learning by fixed model reuse | |
US20230376687A1 (en) | Multimodal extraction across multiple granularities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220713 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7174812 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |