JP7420578B2 - 帳票仕分システム、帳票仕分方法、及びプログラム - Google Patents
帳票仕分システム、帳票仕分方法、及びプログラム Download PDFInfo
- Publication number
- JP7420578B2 JP7420578B2 JP2020018985A JP2020018985A JP7420578B2 JP 7420578 B2 JP7420578 B2 JP 7420578B2 JP 2020018985 A JP2020018985 A JP 2020018985A JP 2020018985 A JP2020018985 A JP 2020018985A JP 7420578 B2 JP7420578 B2 JP 7420578B2
- Authority
- JP
- Japan
- Prior art keywords
- type
- classification
- unit
- target
- subspecies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000000605 extraction Methods 0.000 claims description 37
- 238000007621 cluster analysis Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 description 68
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 19
- 230000005856 abnormality Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 13
- 238000002360 preparation method Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007417 hierarchical cluster analysis Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Description
種別分類装置10は、事前準備として、学習済みモデルを生成する。学習済みモデルは、学習用の帳票(以下、学習用帳票ともいう)と、その種別との対応関係を学習することにより、入力された未学習の帳票の種別を予測できるように学習されたモデルである。すなわち、学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである。
種別分類装置10は、分類実行の段階において、対象帳票の種別を分類する。
亜種分類装置20は、事前準備として、代表帳票を選択する。代表帳票は、OCR文字認識を行う場合に用いられるOCR定義体が生成される帳票である。代表帳票を基準として、代表帳票と似た特徴を有する亜種を、同じグループに分類することにより、その代表帳票に対応するOCR定義体を用いてOCR文字認識ができるようにする。
亜種分類装置20は、分類実行の段階において、対象帳票を亜種ごとに分類する。
10 種別分類装置
11 対象画像取得部
16 種別分類部
20 亜種分類装置
21 対象画像取得部
23 罫線抽出部
27 亜種分類部
30 文字認識装置
Claims (7)
- 仕分対象の帳票である対象帳票を取得する取得部と、
学習済みモデルを用いて、前記対象帳票の種別を分類する種別分類部と、
前記対象帳票の特徴を抽出する特徴抽出部と、
前記種別分類部による分類結果、及び前記特徴抽出部による抽出結果に基づき、予め登録された文字認識の定義体に対応する帳票の特徴との類似度合いを用いて機械学習を行うことにより前記対象帳票を分類する亜種分類部と、
を備え、
前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、
ことを特徴とする帳票仕分システム。 - 前記亜種分類部は、前記特徴抽出部によって抽出された罫線の特徴と、前記定義体に対応する帳票における罫線の特徴との類似度合いを用いたクラスタ分析を行うことにより前記対象帳票を分類する、
請求項1に記載の帳票仕分システム。 - 前記定義体に対応する帳票は、登録用帳票に上記クラスタ分析を行うことにより得られるクラスタ内の帳票から選択された帳票である、
請求項2に記載の帳票仕分システム。 - 前記亜種分類部による分類結果に基づき、前記定義体に対応する帳票と同一グループに分類された前記対象帳票が、前記定義体を用いた文字認識に適合するか否かを判定する適合判定部を更に備える、
請求項1から請求項3のいずれか一項に記載の帳票仕分システム。 - 前記適合判定部は、前記定義体に対応する帳票と同一グループに分類された前記対象帳票における罫線の特徴と、前記定義体に対応する帳票における罫線の特徴との類似度合いに基づき、前記定義体を用いた文字認識に適合するか否かを判定する、
請求項4に記載の帳票仕分システム。 - 取得部が、仕分対象の帳票である対象帳票を取得し、
種別分類部が、学習済みモデルを用いて、前記対象帳票の種別を分類し、
特徴抽出部が、前記対象帳票における罫線の特徴を抽出し、
亜種分類部が、前記種別分類部による分類結果、及び前記特徴抽出部による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票との類似度合を用いて機械学習を行うことにより前記対象帳票を分類する、
帳票仕分方法であって、
前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、
ことを特徴とする帳票仕分方法。 - コンピュータを、
仕分対象の帳票である対象帳票を取得する取得手段、
学習済みモデルを用いて、前記対象帳票の種別を分類する種別分類手段、
前記対象帳票における罫線の特徴を抽出する特徴抽出手段、
前記種別分類手段による分類結果、及び前記特徴抽出手段による抽出結果に基づき、予め定義された文字認識の定義体に対応する帳票との類似度合を用いて機械学習を行うことにより前記対象帳票を分類する亜種分類手段、
として機能させるためのプログラムであって、
前記学習済みモデルは、学習用帳票を入力させることにより得られる出力が、当該学習用帳票に対応する種別に近づくように学習されたモデルであって、入力された帳票の種別を予測するモデルである、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018985A JP7420578B2 (ja) | 2020-02-06 | 2020-02-06 | 帳票仕分システム、帳票仕分方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018985A JP7420578B2 (ja) | 2020-02-06 | 2020-02-06 | 帳票仕分システム、帳票仕分方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021125040A JP2021125040A (ja) | 2021-08-30 |
JP7420578B2 true JP7420578B2 (ja) | 2024-01-23 |
Family
ID=77459189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018985A Active JP7420578B2 (ja) | 2020-02-06 | 2020-02-06 | 帳票仕分システム、帳票仕分方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7420578B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511861B (zh) * | 2021-12-20 | 2024-09-06 | 杭州未名信科科技有限公司 | 一种表格线定位方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056432A (ja) | 1996-12-27 | 2005-03-03 | Fujitsu Ltd | フォーム識別装置および方法 |
JP2012198684A (ja) | 2011-03-18 | 2012-10-18 | Pfu Ltd | 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム |
JP2016048444A (ja) | 2014-08-27 | 2016-04-07 | 沖電気工業株式会社 | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 |
JP2016126796A (ja) | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | 活字ocrシステム |
JP2019061550A (ja) | 2017-09-27 | 2019-04-18 | 株式会社ミラボ | 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム |
JP2019109562A (ja) | 2017-12-15 | 2019-07-04 | 京セラドキュメントソリューションズ株式会社 | フォーム種別学習システムおよび画像処理装置 |
-
2020
- 2020-02-06 JP JP2020018985A patent/JP7420578B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056432A (ja) | 1996-12-27 | 2005-03-03 | Fujitsu Ltd | フォーム識別装置および方法 |
JP2012198684A (ja) | 2011-03-18 | 2012-10-18 | Pfu Ltd | 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム |
JP2016048444A (ja) | 2014-08-27 | 2016-04-07 | 沖電気工業株式会社 | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 |
JP2016126796A (ja) | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | 活字ocrシステム |
JP2019061550A (ja) | 2017-09-27 | 2019-04-18 | 株式会社ミラボ | 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム |
JP2019109562A (ja) | 2017-12-15 | 2019-07-04 | 京セラドキュメントソリューションズ株式会社 | フォーム種別学習システムおよび画像処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021125040A (ja) | 2021-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501061B2 (en) | Extracting structured information from a document containing filled form images | |
Diem et al. | cBAD: ICDAR2017 competition on baseline detection | |
US7120318B2 (en) | Automatic document reading system for technical drawings | |
EP1854051B1 (en) | Intelligent importation of information from foreign application user interface using artificial intelligence | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
US20120134576A1 (en) | Automatic recognition of images | |
Singh et al. | A study of moment based features on handwritten digit recognition | |
CN103761221B (zh) | 用于识别敏感文本信息的系统和方法 | |
CN113963147B (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
CN113762326A (zh) | 一种数据识别方法、装置、设备及可读存储介质 | |
CN112784111A (zh) | 视频分类方法、装置、设备及介质 | |
CN114971294A (zh) | 数据采集方法、装置、设备及存储介质 | |
AU2015204339B2 (en) | Information processing apparatus and information processing program | |
JP7420578B2 (ja) | 帳票仕分システム、帳票仕分方法、及びプログラム | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN117709317A (zh) | 报表文件的处理方法、装置及电子设备 | |
CN112241470A (zh) | 一种视频分类方法及系统 | |
JP7293658B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム | |
Shahin et al. | Deploying Optical Character Recognition to Improve Material Handling and Processing | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
Ali et al. | Urdu text in natural scene images: a new dataset and preliminary text detection | |
Yue | Automated Receipt Image Identification, Cropping, and Parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221115 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20230908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7420578 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |