JP7453731B2 - 半構造化ドキュメントから情報を取り出す方法及びシステム - Google Patents
半構造化ドキュメントから情報を取り出す方法及びシステム Download PDFInfo
- Publication number
- JP7453731B2 JP7453731B2 JP2022062744A JP2022062744A JP7453731B2 JP 7453731 B2 JP7453731 B2 JP 7453731B2 JP 2022062744 A JP2022062744 A JP 2022062744A JP 2022062744 A JP2022062744 A JP 2022062744A JP 7453731 B2 JP7453731 B2 JP 7453731B2
- Authority
- JP
- Japan
- Prior art keywords
- type
- words
- category
- tokens
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000012015 optical character recognition Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 description 23
- 230000009471 action Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 244000000626 Daucus carota Species 0.000 description 8
- 235000002767 Daucus carota Nutrition 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 241000227653 Lycopersicon Species 0.000 description 6
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002250 progressing effect Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Description
Claims (13)
- コンピュータシステムが半構造化ドキュメントから情報を取り出す方法であって、
前記コンピュータシステムにおけるプロセッサが、対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、
前記プロセッサが、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、
前記プロセッサが、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、
を含み、
前記複数のトークンは、範疇の属性を有する第1のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第2のタイプのトークンのうちのどちらか一方のタイプを有し、
前記複数の言葉は、前記範疇の属性を有する第1のタイプに対応する第1のタイプの言葉及び前記データ属性を有する第2のタイプの言葉のうちの少なくとも一方のタイプを有し、
前記複数のトークンを並べるステップにおいては、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べ、
前記第2のタイプに仕分けされた特定の第2のタイプの言葉が属する第1の範疇に対応する第1のタイプのトークンと、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンとを順番に並べ、
前記特定の第2のタイプの言葉が複数である場合には、
複数の前記特定の第2のタイプの言葉のそれぞれに対応する複数の第2のタイプのトークンを順番に並べ、
順番に並べられた前記複数の第2のタイプのトークンの並べ順は、複数の前記特定の第2のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められる、
ことを特徴とする、方法。 - 前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップは、
前記複数の言葉のそれぞれの意味に基づいて、前記範疇の属性を有する第1のタイプのトークン及び前記データ属性を有する第2のタイプのトークンのうちの少なくとも一方を生成するステップ、を含む、
ことを特徴とする、請求項1に記載の方法。 - 前記方法は、さらに、
前記プロセッサが、前記複数の言葉のそれぞれの意味及び前記対象ドキュメントにおける複数の言葉のそれぞれに関する位置情報に基づいて、前記複数の言葉を前記第1のタイプの言葉及び前記第2のタイプの言葉のうちの少なくとも一方に仕分けするステップ、を含む、
ことを特徴とする、請求項2に記載の方法。 - 前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記複数の言葉のうち、前記第1のタイプに仕分けされた前記第1のタイプの言葉にそれぞれ対応するように、少なくとも一つの第1のタイプのトークンを生成し、
前記第2のタイプに仕分けされた前記第2のタイプの言葉にそれぞれ対応するように、少なくとも一つの第2のタイプのトークンを生成する、
ことを特徴とする、請求項3に記載の方法。 - 前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記第2のタイプに仕分けされた第2のタイプの言葉が属する範疇のそれぞれに対する第1のタイプのトークンを生成する、
ことを特徴とする、請求項4に記載の方法。 - 前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップは、
前記複数の言葉に特定の範疇の範疇値に相当する特定の第2のタイプの言葉が存在し、前記特定の範疇に相当する言葉が存在しない場合に、
前記特定の範疇の範疇値に相当する前記特定の第2のタイプの言葉に基づいて、前記特定の範疇に対応する特定の第1のタイプのトークンを生成するステップ、
をさらに含む、
ことを特徴とする、請求項5に記載の方法。 - 前記複数のトークンを並べるステップにおいては、
前記第1の範疇に対応する第1のタイプのトークンと、前記第1の範疇とは異なる第2の範疇に対応する第1のタイプのトークンとを順番に並べ、
前記第1の範疇に対応する第1のタイプのトークンと、前記第2の範疇に対応する第2のタイプのトークンとの間には、前記第1の範疇及び前記第2の範疇のそれぞれに対応するトークンを区別するための第3のタイプのトークンが並べられる、
ことを特徴とする、請求項1に記載の方法。 - 前記複数のトークンを並べるステップにおいては、
前記第1の範疇に対応する第1のタイプのトークン及び前記特定の第2のタイプの言葉に対応する第2のタイプのトークンのうち、前記第1の範疇に対応する第1のタイプのトークンを最初に並べ、
前記第1の範疇に対応する第1のタイプのトークンに続けて、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンを順番に並べ、
前記特定の第2のタイプの言葉に対応する第2のタイプのトークンのうち、最後に並べられた特定の第2のタイプのトークンに続けて、前記第3のタイプのトークンを並べる、
ことを特徴とする、請求項7に記載の方法。 - 前記方法は、さらに、
前記プロセッサが、前記複数のトークンを用いて、前記対象ドキュメントと対応する構造を有するデータを生成するステップ、を含み、
前記データを生成するステップにおいては、
前記複数のトークンのうち、前記第3のタイプのトークンが検出された場合に、
前記第3のタイプのトークンが検出される直前に検出された特定のトークンと、前記第3のタイプのトークンに続く特定のトークンとを互いに異なる範疇にそれぞれ対応するトークンとして捉える、
ことを特徴とする、請求項8に記載の方法。 - 前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記第1の範疇の上位概念に対応する範疇が存在する場合に、
前記上位概念に対応する範疇を第3の範疇と特定し、前記特定された第3の範疇に対応する前記第1のタイプのトークンを生成する、
ことを特徴とする、請求項9に記載の方法。 - 前記第3の範疇に対応する第1のタイプのトークン、前記第1の範疇に対応する第1のタイプのトークン、及び前記第1の範疇に対応する第2のタイプのトークンは、順番に並べられる、
ことを特徴とする、請求項10に記載の方法。 - 半構造化ドキュメントから情報を取り出すシステムであって、
対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すOCR部と、
前記複数の言葉のそれぞれに対応する複数のトークンを生成し、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べる制御部と、
を備え、
前記複数のトークンは、範疇の属性を有する第1のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第2のタイプのトークンのうちのどちらか一方のタイプを有し、
前記複数の言葉は、前記範疇の属性を有する第1のタイプに対応する第1のタイプの言葉及び前記データ属性を有する第2のタイプの言葉のうちの少なくとも一方のタイプを有し、
前記制御部は、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べ、
前記第2のタイプに仕分けされた特定の第2のタイプの言葉が属する第1の範疇に対応する第1のタイプのトークンと、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンとを順番に並べ、
前記特定の第2のタイプの言葉が複数である場合には、
複数の前記特定の第2のタイプの言葉のそれぞれに対応する複数の第2のタイプのトークンを順番に並べ、
順番に並べられた前記複数の第2のタイプのトークンの並べ順は、複数の前記特定の第2のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められる、
ことを特徴とする、システム。 - コンピューターにて起動する、複数の指令を含むコンピュータープログラムであって、
前記指令が前記コンピューターによって実行されると、
対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、
前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、
を実施し、
前記複数のトークンは、範疇の属性を有する第1のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第2のタイプのトークンのうちのどちらか一方のタイプを有し、
前記複数の言葉は、前記範疇の属性を有する第1のタイプに対応する第1のタイプの言葉及び前記データ属性を有する第2のタイプの言葉のうちの少なくとも一方のタイプを有し、
前記複数のトークンを並べるステップにおいては、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べ、
前記第2のタイプに仕分けされた特定の第2のタイプの言葉が属する第1の範疇に対応する第1のタイプのトークンと、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンとを順番に並べ、
前記特定の第2のタイプの言葉が複数である場合には、
複数の前記特定の第2のタイプの言葉のそれぞれに対応する複数の第2のタイプのトークンを順番に並べ、
順番に並べられた前記複数の第2のタイプのトークンの並べ順は、複数の前記特定の第2のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められる、
ことを特徴とする、コンピュータープログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0049464 | 2021-04-15 | ||
KR20210049464 | 2021-04-15 | ||
KR1020210070404A KR102649429B1 (ko) | 2021-04-15 | 2021-05-31 | 반정형 문서로부터 정보를 추출하는 방법 및 시스템 |
KR10-2021-0070404 | 2021-05-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022164593A JP2022164593A (ja) | 2022-10-27 |
JP7453731B2 true JP7453731B2 (ja) | 2024-03-21 |
Family
ID=83743267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022062744A Active JP7453731B2 (ja) | 2021-04-15 | 2022-04-05 | 半構造化ドキュメントから情報を取り出す方法及びシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7453731B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004164218A (ja) | 2002-11-12 | 2004-06-10 | Seiko Epson Corp | レシート処理装置およびその方法、並びにコンピュータプログラム |
JP2016126356A (ja) | 2014-12-26 | 2016-07-11 | ブラザー工業株式会社 | 画像処理プログラム、画像処理方法、及び画像処理装置 |
US10229314B1 (en) | 2015-09-30 | 2019-03-12 | Groupon, Inc. | Optical receipt processing |
JP2019168857A (ja) | 2018-03-22 | 2019-10-03 | セイコーエプソン株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
-
2022
- 2022-04-05 JP JP2022062744A patent/JP7453731B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004164218A (ja) | 2002-11-12 | 2004-06-10 | Seiko Epson Corp | レシート処理装置およびその方法、並びにコンピュータプログラム |
JP2016126356A (ja) | 2014-12-26 | 2016-07-11 | ブラザー工業株式会社 | 画像処理プログラム、画像処理方法、及び画像処理装置 |
US10229314B1 (en) | 2015-09-30 | 2019-03-12 | Groupon, Inc. | Optical receipt processing |
JP2019168857A (ja) | 2018-03-22 | 2019-10-03 | セイコーエプソン株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022164593A (ja) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6629942B2 (ja) | 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別 | |
Tkaczyk et al. | CERMINE: automatic extraction of structured metadata from scientific literature | |
US20230206000A1 (en) | Data-driven structure extraction from text documents | |
Baviskar et al. | Efficient automated processing of the unstructured documents using artificial intelligence: A systematic literature review and future directions | |
US20150331936A1 (en) | Method and system for extracting a product and classifying text-based electronic documents | |
Tkaczyk et al. | Cermine--automatic extraction of metadata and references from scientific literature | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
JP2014067154A (ja) | 文書分類支援装置、方法及びプログラム | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
Al-Barhamtoshy et al. | Arabic documents information retrieval for printed, handwritten, and calligraphy image | |
Wick et al. | Staff, symbol and melody detection of medieval manuscripts written in square notation using deep fully convolutional networks | |
Meuschke et al. | A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents | |
WO2021131324A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
JP2016027493A (ja) | 文書分類支援装置、方法及びプログラム | |
AU2015204339A1 (en) | Information processing apparatus and information processing program | |
US20210182549A1 (en) | Natural Language Processing (NLP) Pipeline for Automated Attribute Extraction | |
Tomovic et al. | Aligning document layouts extracted with different OCR engines with clustering approach | |
US20230153335A1 (en) | Searchable data structure for electronic documents | |
JP7453731B2 (ja) | 半構造化ドキュメントから情報を取り出す方法及びシステム | |
Bhatt et al. | Pho (SC)-CTC—a hybrid approach towards zero-shot word image recognition | |
KR102649429B1 (ko) | 반정형 문서로부터 정보를 추출하는 방법 및 시스템 | |
Wieprecht et al. | Word spotting in historical document collections with online-handwritten queries | |
KR20230013849A (ko) | 테이블에 포함된 정보를 인식하는 문자 인식 에러에 강인한 글자 인식 방법 및 시스템 | |
JPWO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220405 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220407 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230621 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20230817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7453731 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |