JP6896260B1 - レイアウト解析装置、その解析プログラムおよびその解析方法 - Google Patents
レイアウト解析装置、その解析プログラムおよびその解析方法 Download PDFInfo
- Publication number
- JP6896260B1 JP6896260B1 JP2020070113A JP2020070113A JP6896260B1 JP 6896260 B1 JP6896260 B1 JP 6896260B1 JP 2020070113 A JP2020070113 A JP 2020070113A JP 2020070113 A JP2020070113 A JP 2020070113A JP 6896260 B1 JP6896260 B1 JP 6896260B1
- Authority
- JP
- Japan
- Prior art keywords
- item
- document image
- area
- layout
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
Description
本実施形態に係るレイアウト解析装置では、解析対象として帳票を例に挙げたが、解析対象は任意の文書であってもよい。
2 項目抽出部
3 手書き領域抽出部
4 フィルタ処理部
5 レイアウト解析部
6 学習処理部
7 学習モデル
8 対応規則テーブル
Claims (8)
- 文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する項目抽出部と、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析するレイアウト解析部と、
を備え、
前記項目抽出部は、文書画像に対し、当該文書画像における項目名の部分に対応するピクセルを指定した教師データの学習により構築された学習モデル、若しくは、文書画像に対し、当該文書画像における項目名の部分をバウンディングボックスで指定するとともに当該文書画像における項目名の部分に対応するピクセルを指定した教師データによる学習により構築された学習モデルを用いて、前記文書画像の入力に応じて前記文書画像における前記項目領域の抽出と属性とを出力する、
レイアウト解析装置。 - 文書上に手書き文字で記入された文字列を含む手書き文字領域を文書画像中から抽出する手書き領域抽出部をさらに有し、
前記レイアウト解析部は、前記手書き文字領域に対して、前記項目抽出部によって抽出された属性を割り当てる、
請求項1に記載されたレイアウト解析装置。 - 前記レイアウト解析部は、予め設定された対応規則にしたがって、前記項目領域と、当該項目領域から所定距離内に位置する前記手書き文字領域とを対応付けて前記項目領域の属性を割り当てる、
請求項2に記載されたレイアウト解析装置。 - 前記項目抽出部は、前記属性の分類確度を出力し
前記分類確度が所定のしきい値よりも小さい前記属性をノイズとして除去するフィルタ処理部をさらに有する、
請求項1から3のいずれか1項に記載されたレイアウト解析装置。 - 前記レイアウト解析部は、文書画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示する
請求項1から4のいずれか1項に記載されたレイアウト解析装置。 - 文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する項目抽出部と、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析し、文書画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示するレイアウト解析部と、
を備え、
前記レイアウト解析部は、複数の項目領域と文字領域とが所定距離内に位置し、当該文字領域に前記各項目領域の属性が割り当てられる場合、当該文字領域の属性の候補として前記各項目領域の属性をユーザに提示する、
レイアウト解析装置。 - 文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する第1のステップと、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析する第2のステップと、
を有し、
前記第1のステップは、文書画像に対し、当該文書画像における項目名の部分に対応するピクセルを指定した教師データの学習により構築された学習モデル、若しくは、文書画像に対し、当該文書画像における項目名の部分をバウンディングボックスで指定するとともに当該文書画像における項目名の部分に対応するピクセルを指定した教師データによる学習により構築された学習モデルを用いて、前記文書画像の入力に応じて前記文書画像における前記項目領域の抽出と属性とを出力する、
処理をコンピュータに実行させる、レイアウト解析プログラム。 - 文書画像中の、活字で印刷された項目名を含む項目領域、及び当該項目領域の属性を前記項目名に対応させて抽出する第1のステップと、
前記文書画像上における項目領域の位置およびその属性に基づいて、前記文書画像のレイアウトを解析する第2のステップと、
を有し、
前記第1のステップは、文書画像に対し、当該文書画像における項目名の部分に対応するピクセルを指定した教師データの学習により構築された学習モデル、若しくは、文書画像に対し、当該文書画像における項目名の部分をバウンディングボックスで指定するとともに当該文書画像における項目名の部分に対応するピクセルを指定した教師データによる学習により構築された学習モデルを用いて、前記文書画像の入力に応じて前記文書画像における前記項目領域の抽出と属性とを出力する、
レイアウト解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020070113A JP6896260B1 (ja) | 2020-04-08 | 2020-04-08 | レイアウト解析装置、その解析プログラムおよびその解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020070113A JP6896260B1 (ja) | 2020-04-08 | 2020-04-08 | レイアウト解析装置、その解析プログラムおよびその解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6896260B1 true JP6896260B1 (ja) | 2021-06-30 |
JP2021167990A JP2021167990A (ja) | 2021-10-21 |
Family
ID=76540428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020070113A Active JP6896260B1 (ja) | 2020-04-08 | 2020-04-08 | レイアウト解析装置、その解析プログラムおよびその解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6896260B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102555809B1 (ko) * | 2022-09-30 | 2023-07-13 | 에스케이 주식회사 | 문서 양식을 웹폼으로 변환하는 방법 및 시스템 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231291A (ja) * | 1996-02-27 | 1997-09-05 | Mitsubishi Electric Corp | 帳票読取方法及びその装置 |
JP3573945B2 (ja) * | 1998-03-12 | 2004-10-06 | 沖電気工業株式会社 | フォーマット認識装置及び文字読み取り装置 |
JP4867941B2 (ja) * | 2008-03-24 | 2012-02-01 | 沖電気工業株式会社 | 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム |
JP6904249B2 (ja) * | 2015-03-19 | 2021-07-14 | 日本電気株式会社 | オブジェクト検出装置、オブジェクト検出方法およびプログラム |
JP6590355B1 (ja) * | 2019-04-26 | 2019-10-16 | Arithmer株式会社 | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム |
-
2020
- 2020-04-08 JP JP2020070113A patent/JP6896260B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021167990A (ja) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200074169A1 (en) | System And Method For Extracting Structured Information From Image Documents | |
JP7396568B2 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
US6996295B2 (en) | Automatic document reading system for technical drawings | |
Elnagar et al. | Segmentation of connected handwritten numeral strings | |
CN109685052A (zh) | 文本图像处理方法、装置、电子设备及计算机可读介质 | |
US20100303356A1 (en) | Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images | |
Lu et al. | Automated analysis of images in documents for intelligent document search | |
CN109685065B (zh) | 试卷内容自动分类的版面分析方法、系统 | |
CN102177520A (zh) | 将印刷媒体页面分割成文章 | |
CN109389050B (zh) | 一种流程图连接关系识别方法 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 | |
JPWO2020071558A5 (ja) | ||
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
Rigaud et al. | What do we expect from comic panel extraction? | |
Bhattacharya et al. | Understanding contents of filled-in Bangla form images | |
Mörzinger et al. | Visual Structure Analysis of Flow Charts in Patent Images. | |
JP6896260B1 (ja) | レイアウト解析装置、その解析プログラムおよびその解析方法 | |
Ghosh et al. | Textual content retrieval from filled-in form images | |
Lue et al. | A novel character segmentation method for text images captured by cameras | |
CN114359912B (zh) | 基于图神经网络的软件页面关键信息提取方法及系统 | |
Tran et al. | A deep learning-based system for document layout analysis | |
US11900705B2 (en) | Intelligent engineering data digitization | |
US11335108B2 (en) | System and method to recognise characters from an image | |
Lin et al. | Multilingual corpus construction based on printed and handwritten character separation | |
Kumar et al. | Line based robust script identification for indianlanguages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200811 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200811 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210518 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210601 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6896260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |