JP7504674B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7504674B2 JP7504674B2 JP2020103763A JP2020103763A JP7504674B2 JP 7504674 B2 JP7504674 B2 JP 7504674B2 JP 2020103763 A JP2020103763 A JP 2020103763A JP 2020103763 A JP2020103763 A JP 2020103763A JP 7504674 B2 JP7504674 B2 JP 7504674B2
- Authority
- JP
- Japan
- Prior art keywords
- cell
- unit
- image data
- item
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 25
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000605 extraction Methods 0.000 claims description 35
- 239000000284 extract Substances 0.000 claims description 17
- 238000010586 diagram Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 240000000220 Panda oleosa Species 0.000 description 5
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Description
図1を参照して、本実施形態に係る帳票読取システム1のシステム構成例を説明する。
図2を参照して、本実施形態に係るサーバ装置100の機能構成例を説明する。
取得部111は、帳票の画像データを取得する。
セル抽出部112は、取得部111により取得された画像データ上の罫線と当該罫線に囲まれた文字列とによって構成されるセルを抽出する。セル抽出部112は、例えば、OCRを用いて、帳票の画像データ上の文字列や罫線(例えば、表の横線や縦線など)を認識し、文字列を囲う罫線からなる四角枠を認識してもよい。セル抽出部112は、この認識した四角枠と四角枠が囲う文字列をセルとして抽出してもよい。
図2に戻って説明を続ける。第1受付部113は、セル抽出部112により抽出されたセルの中から、アンカとして、所定の項目名を含むセルの指定を、ユーザから受け付ける。
第1登録部114は、第1受付部113で指定されたセルに対して、所定の項目名を検出するための条件(検出条件)と、他のアンカがすでに指定されているとき、他のアンカの少なくとも1つと第1受付部113で指定されたセルとの位置関係を示す条件(以下、「位置制約条件」ともいう)とを登録する。
第2受付部115は、セル抽出部112により抽出されたセルの中から、データセルとして、特定の項目名に対応する項目値を含むセルの指定を、ユーザから受け付ける。
第2登録部116は、第2受付部115で指定されたセルに対して、複数のアンカの少なくとも1つ及び/又は他の項目値を含むセルの少なくとも1つとの間の位置関係を示す条件を登録する。
出力部117は、例えば、図10(a)に示すように、セル抽出部112により抽出されたセルに関する情報を帳票読取画面等に出力してもよい。この「セルに関する情報」とは、例えば、セルそれぞれのレイアウト番号、行番号、列番号、セルを構成する文字列(図10(a)では、「認識結果」と表記)、セルの左上の頂点のx座標の値及びy座標の値、幅、高さ等を含んでもよい。出力部117は、例えば、帳票読取画面を出力するための出力情報を生成して、通信部130を介して端末200に送信してもよい。
図20を参照して、上述してきたサーバ装置100をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
なお、本発明を上記実施の形態に基づいて説明してきたが、以下のような場合も本発明に含まれる。
(1)本変形例では、新たな帳票の画像データが第1登録部114及び第2登録部116で登録された条件に合致しても当該帳票を出力させないためのセル(以下、「Notセル」ともいう)の条件を登録する例を説明する。このNotセルは、例えば、画像データを読み込んで出力させたい帳票と似たようなレイアウトの他の帳票(以下、「類似帳票」ともいう)があった場合、この帳票に対して登録された条件が類似帳票にも合致してしまい誤って出力されてしまうことを回避する。
(2)本変形例では、帳票の罫線が複数行の文字列を囲う場合、それぞれの行の文字列で構成されたセル(以下、「仮想セル」ともいう)の指定を受け付けて、仮想セルの行を示す条件を登録する例を説明する。
(3)上記実施形態では示していないが、第2受付部115は、ユーザから指定されたデータセルに対して、項目値の文字列が空白またはNULL値だった場合、代替するフィールド(以下、「代替フィールド」ともいう)のフィールド名の指定を受け付けてもよい。この「代替フィールド」とは、項目値が所定の値(空白またはNULL値)だった場合、そのまま所定の値を出力せずに代わりに出力させるために参照するフィールドである。
(4)上記実施形態では示していないが、第1受付部113、第2受付部115及び/又は第3受付部は、登録された条件それぞれについて、ユーザから、Notで逆転させる、すなわちNot条件(Not関数)の指定を受け付けてよい。第1登録部114、第2登録部116及び/又は第3登録部は、ユーザから指定されたセルの条件に対して、これらの受付部で指定されたNot条件を登録する。
(5)上記実施形態では示していないが、第1受付部113、第2受付部115及び/又は第3受付部は、画像データに含まれるレイアウトの空白行を出力しない指定を受け付けてもよい。第1登録部114、第2登録部116及び/又は第3登録部は、この指定を登録する。出力部117は、この登録に基づいて、画像データに含まれるレイアウトに空白行が含まれる場合、この空白行を出力しない。
Claims (14)
- 帳票の画像データを取得する取得部と、
画像データ上の罫線と前記罫線に囲まれた文字列とによって構成されるセルを抽出するセル抽出部と、
前記セルの中から、アンカとして、所定の項目名を含むセルの指定を、ユーザから受け付ける第1受付部と、
前記第1受付部で指定されたセルに対して、前記所定の項目名を検出するための条件と、他のアンカがすでに指定されているとき、前記他のアンカの少なくとも1つと前記第1受付部で指定されたセルとの位置関係を示す条件とを登録する第1登録部と、
前記セルの中から、特定の項目名に対応する項目値を含むセルの指定を、前記ユーザから受け付ける第2受付部と、
前記第2受付部で指定されたセルに対して、複数のアンカの少なくとも1つ及び/又は他の項目値を含むセルの少なくとも1つとの間の位置関係を示す条件を登録する第2登録部と、
前記取得部において、新たな帳票の画像データが取得されたとき、前記第1登録部及び前記第2登録部で登録された条件に基づいて、当該画像データから項目名と項目値とを関連付けて出力する出力部と、
前記セルの中から、アンカとして、前記新たな帳票の画像データが前記第1登録部及び前記第2登録部で登録された条件に合致しても当該帳票を出力させないためのセルの指定を、前記ユーザから受け付ける第3受付部と、
前記第3受付部で指定されたセルに対して、前記所定の項目名を検出するための条件と、他のアンカがすでに指定されているとき、前記他のアンカの少なくとも1つと前記第3受付部で指定されたセルとの位置関係を示す条件とを登録する第3登録部と、を備え、
前記出力部はさらに、前記取得部において、新たな帳票の画像データが取得されたとき、前記第3登録部で登録された条件に基づいて、当該画像データから項目名と項目値とを出力しない、
情報処理装置。 - 前記第1登録部及び/又は前記第3登録部が登録する前記位置関係は、前記画像データ上において、前記第1受付部及び/又は前記第3受付部で指定されたセルの座標に対して前記他のアンカの少なくとも1つの座標が取りうる範囲を規定する、
請求項1に記載の情報処理装置。 - 前記第2登録部が登録する前記位置関係は、前記画像データ上において、前記第2受付部で指定されたセルに対して前記複数のアンカの少なくとも1つ及び/又は他の項目値を含むセルの少なくとも1つの座標が取りうる範囲を規定する、
請求項1又は2に記載の情報処理装置。 - 前記第1受付部及び/又は前記第3受付部は、前記所定の項目名のセルに含まれる1つ以上の文字、又は前記所定の項目名のセルに含まれない1つ以上の文字の指定を前記ユーザから受け付け、
前記所定の項目名を検出するための条件は、前記所定の項目名のセルに含まれると指定された文字を含むこと、又は前記所定の項目名のセルに含まれないと指定された文字を含まないことを含む、
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記第1登録部、前記第2登録部及び/又は第3登録部はさらに、指定されたセルの文字長に関する条件を登録する、
請求項1から4のいずれか一項に記載の情報処理装置。 - 前記第1登録部、前記第2登録部及び/又は前記第3登録部はさらに、指定されたセルが存在しうる前記画像データ上の範囲に関する条件を登録する、
請求項1から5のいずれか一項に記載の情報処理装置。 - 前記セル抽出部は、互いに接する複数のセルの集合ごとにレイアウト番号を採番し、抽出したセルに、当該セルが属する集合の前記レイアウト番号を付与する、
請求項1から6のいずれか一項に記載の情報処理装置。 - 前記出力部はさらに、前記画像データに含まれるセルから読み出された項目値に対して、当該セルに予め定義されたフィールド名を割り当てて出力する、
請求項1から7のいずれか一項に記載の情報処理装置。 - 前記出力部はさらに、前記フィールド名に予め定義された表番号を割り当てて、前記画像データに含まれるセルから読み出された項目値を、表ごとに出力する、
請求項8に記載の情報処理装置。 - 前記出力部はさらに、前記画像データに含まれるセルから読み出された項目値又は当該セルの位置もしくは大きさを、前記画像データの他のセルに含まれる文字又は他のセルの位置もしくは大きさに基づいて変更して出力する、
請求項1から9のいずれか一項に記載の情報処理装置。 - 前記セルに対する前記項目値のセルとして出力できる出力回数の指定を、前記ユーザから受け付ける第4受付部をさらに備え、
前記出力部は、さらに前記出力回数に基づいて、前記画像データから項目値を出力する、
請求項1から10のいずれか一項に記載の情報処理装置。 - 前記セル抽出部は、前記罫線が複数行の文字列を囲う場合、それぞれの行の文字列で構成された仮想セルを抽出し、
前記第1受付部は、前記仮想セルの中から、アンカとして、前記所定の項目名を含むセルの指定を、前記ユーザから受け付け、
前記第1登録部は、前記第1受付部で指定された仮想セルに対して、前記仮想セルの行を示す条件を登録し、
前記第2受付部は、前記仮想セルの中から、特定の項目名に対応する項目値を含むセルの指定を、前記ユーザから受け付け、
前記第2登録部は、前記第2受付部で指定された仮想セルに対して、前記仮想セルの行を示す条件を登録し、
前記第3受付部は、前記仮想セルの中から、アンカとして、前記新たな帳票の画像データが前記第1登録部及び前記第2登録部で登録された条件に合致しても当該帳票を出力させないための仮想セルの指定を、前記ユーザから受け付け、
前記第3登録部は、前記第3受付部で指定された仮想セルに対して、前記仮想セルの行を示す条件を登録する、
請求項1から11のいずれか一項に記載の情報処理装置。 - コンピュータに、
帳票の画像データを取得する取得機能と、
画像データ上の罫線と前記罫線に囲まれた文字列とによって構成されるセルを抽出するセル抽出機能と、
前記セルの中から、アンカとして、所定の項目名を含むセルの指定を、ユーザから受け付ける第1受付機能と、
前記第1受付機能で指定されたセルに対して、前記所定の項目名を検出するための条件と、他のアンカがすでに指定されているとき、前記他のアンカの少なくとも1つと前記第1受付機能で指定されたセルとの位置関係を示す条件とを登録する第1登録機能と、
前記セルの中から、特定の項目名に対応する項目値を含むセルの指定を、前記ユーザから受け付ける第2受付機能と、
前記第2受付機能で指定されたセルに対して、複数のアンカの少なくとも1つ及び/又は他の項目値を含むセルの少なくとも1つとの間の位置関係を示す条件を登録する第2登録機能と、
前記取得機能において、新たな帳票の画像データが取得されたとき、前記第1登録機能及び前記第2登録機能で登録された条件に基づいて、当該画像データから項目名と項目値とを関連付けて出力する出力機能と、
前記セルの中から、アンカとして、前記新たな帳票の画像データが前記第1登録機能及び前記第2登録機能で登録された条件に合致しても当該帳票を出力させないためのセルの指定を、前記ユーザから受け付ける第3受付機能と、
前記第3受付機能で指定されたセルに対して、前記所定の項目名を検出するための条件と、他のアンカがすでに指定されているとき、前記他のアンカの少なくとも1つと前記第3受付機能で指定されたセルとの位置関係を示す条件とを登録する第3登録機能と、を実現し、
前記出力機能はさらに、前記取得機能において、新たな帳票の画像データが取得されたとき、前記第3登録機能で登録された条件に基づいて、当該画像データから項目名と項目値とを出力しない、
プログラム。 - コンピュータが、
帳票の画像データを取得する取得ステップと、
画像データ上の罫線と前記罫線に囲まれた文字列とによって構成されるセルを抽出するセル抽出ステップと、
前記セルの中から、アンカとして、所定の項目名を含むセルの指定を、ユーザから受け付ける第1受付ステップと、
前記第1受付ステップで指定されたセルに対して、前記所定の項目名を検出するための条件と、他のアンカがすでに指定されているとき、前記他のアンカの少なくとも1つと前記第1受付ステップで指定されたセルとの位置関係を示す条件とを登録する第1登録ステップと、
前記セルの中から、特定の項目名に対応する項目値を含むセルの指定を、前記ユーザから受け付ける第2受付ステップと、
前記第2受付ステップで指定されたセルに対して、複数のアンカの少なくとも1つ及び/又は他の項目値を含むセルの少なくとも1つとの間の位置関係を示す条件を登録する第2登録ステップと、
前記取得ステップにおいて、新たな帳票の画像データが取得されたとき、前記第1登録ステップ及び前記第2登録ステップで登録された条件に基づいて、当該画像データから項目名と項目値とを関連付けて出力する出力ステップと、
前記セルの中から、アンカとして、前記新たな帳票の画像データが前記第1登録ステップ及び前記第2登録ステップで登録された条件に合致しても当該帳票を出力させないためのセルの指定を、前記ユーザから受け付ける第3受付ステップと、
前記第3受付ステップで指定されたセルに対して、前記所定の項目名を検出するための条件と、他のアンカがすでに指定されているとき、前記他のアンカの少なくとも1つと前記第3受付ステップで指定されたセルとの位置関係を示す条件とを登録する第3登録ステップと、を有し、
前記出力ステップはさらに、前記取得ステップにおいて、新たな帳票の画像データが取得されたとき、前記第3登録ステップで登録された条件に基づいて、当該画像データから項目名と項目値とを出力しない、
情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020103763A JP7504674B2 (ja) | 2020-06-16 | 2020-06-16 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020103763A JP7504674B2 (ja) | 2020-06-16 | 2020-06-16 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021196944A JP2021196944A (ja) | 2021-12-27 |
JP7504674B2 true JP7504674B2 (ja) | 2024-06-24 |
Family
ID=79195635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020103763A Active JP7504674B2 (ja) | 2020-06-16 | 2020-06-16 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7504674B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005173730A (ja) | 2003-12-08 | 2005-06-30 | Fuji Photo Film Co Ltd | 帳票ocrプログラム、方法及び装置 |
JP2009288994A (ja) | 2008-05-29 | 2009-12-10 | Hitachi Ltd | 帳票出力管理装置及び帳票出力管理方法 |
JP2012194879A (ja) | 2011-03-17 | 2012-10-11 | Pfu Ltd | 情報処理装置、情報処理方法及びプログラム |
JP2015052864A (ja) | 2013-09-06 | 2015-03-19 | 株式会社東芝 | 帳票読取装置およびプログラム |
JP2016051339A (ja) | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置及び方法 |
JP2020021461A (ja) | 2018-07-20 | 2020-02-06 | 株式会社リコー | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2020
- 2020-06-16 JP JP2020103763A patent/JP7504674B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005173730A (ja) | 2003-12-08 | 2005-06-30 | Fuji Photo Film Co Ltd | 帳票ocrプログラム、方法及び装置 |
JP2009288994A (ja) | 2008-05-29 | 2009-12-10 | Hitachi Ltd | 帳票出力管理装置及び帳票出力管理方法 |
JP2012194879A (ja) | 2011-03-17 | 2012-10-11 | Pfu Ltd | 情報処理装置、情報処理方法及びプログラム |
JP2015052864A (ja) | 2013-09-06 | 2015-03-19 | 株式会社東芝 | 帳票読取装置およびプログラム |
JP2016051339A (ja) | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置及び方法 |
JP2020021461A (ja) | 2018-07-20 | 2020-02-06 | 株式会社リコー | 情報処理装置、情報処理方法及び情報処理プログラム |
Non-Patent Citations (2)
Title |
---|
Junichi Hirayama et al.,"Development of Template-Free Form Recognition System",2011 International Conference on Document Analysis and Recognition,米国,IEEE,2011年09月18日,pp.237-241 |
高木 郁子、外2名,"多様なレイアウトの帳票からのデータ抽出・反映のための項目名と項目値の自動関連付け手法",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2019年02月28日,Vol.118, No.483,pp.89-94 |
Also Published As
Publication number | Publication date |
---|---|
JP2021196944A (ja) | 2021-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
US8892990B2 (en) | Automatic creation of a table and query tools | |
JP6507472B2 (ja) | 処理方法、処理システム及びコンピュータプログラム | |
JP5665125B2 (ja) | 画像処理方法、及び、画像処理システム | |
US20190179885A1 (en) | Automated Generation of Web Forms Using Fillable Electronic Documents | |
JP2011150466A (ja) | 文字列認識装置、文字列認識プログラムおよび文字列認識方法 | |
JP5380040B2 (ja) | 文書処理装置 | |
JP2021043478A (ja) | 情報処理装置、その制御方法及びプログラム | |
CN110245570B (zh) | 扫描文本分段方法、装置、计算机设备和存储介质 | |
JP5612557B2 (ja) | 表のセルの高さを決定する方法、コンピューター読取可能媒体及びシステム | |
JP7035474B2 (ja) | 文書処理装置およびプログラム | |
JP7504674B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6322086B2 (ja) | 表示制御装置、表示装置、プログラム、記録媒体 | |
JP2009093389A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2014174709A (ja) | 情報処理装置、情報処理装置の制御方法、プログラム | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
KR20110021714A (ko) | 전자 문서를 페이지별로 컴퓨터 그래픽스로서 공급하는 방법 및 장치 | |
CN115145461A (zh) | 基于平板电脑的病历录入方法及相关设备 | |
JP7317612B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP4466241B2 (ja) | 文書処理手法及び文書処理装置 | |
JP2021039429A (ja) | 情報処理装置及び情報処理プログラム | |
JP2020030722A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
JP7430219B2 (ja) | 文書情報構造化装置、文書情報構造化方法およびプログラム | |
JP2023102136A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP4213558B2 (ja) | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240325 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240530 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7504674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |