JP2021179896A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP2021179896A JP2021179896A JP2020085865A JP2020085865A JP2021179896A JP 2021179896 A JP2021179896 A JP 2021179896A JP 2020085865 A JP2020085865 A JP 2020085865A JP 2020085865 A JP2020085865 A JP 2020085865A JP 2021179896 A JP2021179896 A JP 2021179896A
- Authority
- JP
- Japan
- Prior art keywords
- item
- unit
- character
- characters
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
図1は、本実施形態に係る情報処理サーバ1(情報処理装置)のハード構成の一例を示す図である。図1に示すように、情報処理サーバ1は、通信IF100A、記憶装置100B及びCPU100Cがバス100Dを介して接続された構成を備える。
補正パタンDB1は、書類の画像データを補正するための補正パタンが複数記憶されている。図3(a)は、補正パタンDB1に記憶されている情報の一例を示す図である。図3(a)に示すように、複数の補正パタンは、それぞれ1以上の補正を組み合わせて構成されている。例えば、補正パタン1は、補正1及び3を組み合わせて構成される。また、補正パタン2は、補正1、2及び4を組み合わせて構成される。また、補正パタン3は、補正1、2及び3を組み合わせて構成される。また、補正パタン4は、補正1、3及び5を組み合わせて構成される。また、補正パタン5は、補正1及び4を組み合わせて構成される。なお、補正パタンの数は5に限られず3以上であればよい。
分類用DB2には、書類を分類するための情報が記憶されている。図3(b)は、分類用DB2に記憶されている情報の一例を示す図である。図3(b)に示すように、分類用DB2には、書類の種別ごとに特有のパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)が関連付けて記憶されている。なお、図3(b)に示すパタンマッチ用データやキーワードはあくまで一例であり、書類を分類するための情報として、どのようなパタンマッチ用データやキーワードとするかは任意である。後述の分類部106は、分類用DB2を参照し、文書の画像データにパタンマッチ用データやキーワードが含まれているが否かに基づいて、書類の画像データを分類する。
取得する項目の情報が書類の種別ごとに記憶されている。図3(c)は、項目マスタDB3に記憶されている情報の一例を示す図である。図3(c)に示すように、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されている。なお、書類からどのような項目の情報を取得するかは任意である。
図5は、実施形態に係る情報処理サーバの書類分別処理の一例を示すフローチャートである。
情報処理サーバ1の補正部104は、補正パタンDB1を参照し、文書の画像データを補正する。具体的には、補正部104は、書類の画像データを、補正パタンDB1に記憶されている複数の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する複数の補正後の画像を生成する。
情報処理サーバ1の認識部105は、書類の画像データから文字を認識する。具体的には、認識部105は、補正部104で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部105は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。
情報処理サーバ1の認識部105は、認識した文字に位置情報を付与する。図7は、認識部105による位置情報付与の一例を示す図である(図中の破線、矢印、Top、Left、Bottom、Rightの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない)。図7(a)は、認識対象である書類の画像データの一例、図7(b)は、図7(a)を認識した文字に付与された位置情報の一例である。図7に示すように、認識部105は、書類の左上をゼロ点としたXY座標により表される位置情報を認識した文字に付与する。図7(b)に示す例では、Topは文字の上端、Leftは文字の左端、Bottomは、文字の下端、Rightは文字の右端、Wordは認識した文字である。なお、上述したように、本実施形態では、位置情報は書類の左上をゼロ点としたXY座標により表され、座標の数値には画素数が利用されている。
分類部106は、分類用DB2を参照し、書類の画像データを分類する。具体的には、分類部106は、分類用DB2を参照し、認識部105で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定する。認識部105で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、分類部106は、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類する。また、分類部106は、分類した情報(書類の種別情報)を書類の画像データに付与する。
判定部107は、項目マスタDB3を参照し、分類部106で分類された書類の種別に対応する項目が存在するか否かを項目ごとに判定する。判定部107が存在すると判定しない項目がある場合(YES)、情報処理サーバ1は、ステップS106の処理へ移行する。また、判定部107が存在すると判定しない項目がない場合(NO)、情報処理サーバ1は、ステップS108の処理へ移行する。
探索部108は、判定部107により存在しないとされた項目を構成する各文字を認識部105が認識した文字から探索する。ここで、探索部108は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。
結合部109は、探索部108により探索された書類の画像データ上の文字を、項目として認識可能なようにデータ的に結合する。より具体的には、結合部109は、探索部108により探索された文字を結合して、項目として認識できるようにデータ的に結合する処理を行う。図9は、結合部109による横方向の文字の結合の一例を示す図である(図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない)。図9(a)は、結合前の文字の画像データの一例を示す図である。図9(b)は、認識部105で認識された「氏」及び「名」の文字に各々付与された位置情報の一例である。図9(c)は、結合部109による結合後の文字の画像データの一例を示す図である。図9(d)は、結合後の「氏名」の文字に付与された位置情報の一例である。図9(c)及び図9(d)に示すように結合部109は、「氏」の左端(Left)の位置情報を「氏名」の左端(Left)の位置情報とし、「名」の右端(Right)の位置情報を「氏名」の右端(Right)の位置情報とすることで、「氏」「名」の文字を一つの項目「氏名」として認識可能なようにデータ的に結合する。
このように、結合部109は、探索部108により探索された文字を結合し、一つの情報として取り扱うことができるように結合処理を行う。
取得部110は、各項目に対応する文字を取得する。具体的には、取得部110は、項目の第1側(本実施形態では右側)に存在する次の項目(次項目)又は改行までの文字を項目に対応する文字として取得する(図9に示す例では「山田太郎」の文字、図10に示す例では「201375」の文字)。また、取得部110は、項目の第1側(本実施形態では右側:横書きに対応)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側:縦書きに対応)に存在する次の項目(次項目)又は改行までの文字を、項目に対応する文字として取得する。
以上のように、実施形態に係る情報処理サーバ1は、書類の画像から文字を認識する認識部105と、書類から取得する項目の情報を参照し、認識部105が認識した文字に項目が存在するか否かを判定する判定部107と、判定部107が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部105が認識した文字から探索する探索部108と、探索部108により探索された各文字を項目として認識可能に処理する結合部109と、各項目に対応する文字を取得する取得部110とを備える。このため、文書を効果的に読み取ることができ、文書の文字認識率が向上する。
上記実施形態では、分類部106は、分類用DB2を参照し、認識部105で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部105で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類している。
また、上記実施形態では、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されているが、書類の種別ごとに取得する情報の項目の名称に、統一された項目の名称を関連付けて記憶するようにしてもよい。書類の種別によって同じ内容であるにも関わらず項目の名称が異なる場合がある。例えば、ある種別の書類では項目が「氏名」となっているが、他の種別の書類では項目が「名前」となっていることが考えられる。また、ある種別の書類では項目が「住所」となっているが、他の種別の書類では項目が「住まい」となっていることが考えられる。
100A 通信IF
100B 記憶装置
100C CPU
100D バス(BUS)
101 受信部
102 送信部
103 記憶装置制御部
104 補正部
105 認識部
106 分類部
107 判定部
108 探索部
109 結合部
110 取得部
DB1 補正パタンデータベース
DB2 帳票データベース
DB3 項目マスタデータベース
Claims (8)
- 書類の画像から文字を認識する認識部と、
前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する判定部と、
前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する探索部と、
前記探索部により探索された各文字を項目として認識可能に処理する結合部と、
前記項目に対応する文字を取得する取得部と、
を備えることを特徴とする情報処理装置。 - 前記探索部は、
前記各文字のうちの1文字を起点とした所定範囲内に前記項目を構成する他の文字が存在するか探索することを特徴とする請求項1に記載の情報処理装置。 - 前記取得部は、
前記項目の第1側に存在する文字を、前記項目に対応する文字として取得することを特徴とする請求項1又は請求項2に記載の情報処理装置。 - 前記取得部は、
前記項目の第1側の所定範囲内に文字が存在しない場合、前記項目の第1側とは異なる第2側に存在する文字を、前記項目に対応する文字として取得することを特徴とする請求項3に記載の情報処理装置。 - 前記書類の画像を複数の補正パタンにより補正し、各補正パタンに対応する複数の補正後の画像を生成する補正部を備え、
前記認識部は、
前記補正部で生成された各補正パタンに対応する複数の補正後の画像から文字を認識し、
前記複数の補正後の画像から認識した文字のうち最も多いものを選択する
ことを特徴とする請求項1乃至請求項4のいずれかに記載の情報処理装置。 - 前記補正パタンは、
各々1以上の異なる補正を含むことを特徴とする
請求項5に記載の情報処理装置。 - 認識部が、書類の画像から文字を認識する工程と、
判定部が、前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する工程と、
探索部が、前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する工程と、
結合部が、前記探索部により探索された各文字を項目として認識可能に処理する工程と、
取得部が、前記項目に対応する文字を取得する工程と、
を有することを特徴とする情報処理方法。 - コンピュータを、
書類の画像から文字を認識する認識部、
前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する判定部、
前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する探索部、
前記探索部により探索された各文字を項目として認識可能に処理する結合部、
前記項目に対応する文字を取得する取得部、
として機能させることを特徴とする情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020085865A JP6899603B1 (ja) | 2020-05-15 | 2020-05-15 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2021094043A JP2021179999A (ja) | 2020-05-15 | 2021-06-04 | 情報処理装置、情報処理方法及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020085865A JP6899603B1 (ja) | 2020-05-15 | 2020-05-15 | 情報処理装置、情報処理方法及び情報処理プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021094043A Division JP2021179999A (ja) | 2020-05-15 | 2021-06-04 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6899603B1 JP6899603B1 (ja) | 2021-07-07 |
JP2021179896A true JP2021179896A (ja) | 2021-11-18 |
Family
ID=76650069
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020085865A Active JP6899603B1 (ja) | 2020-05-15 | 2020-05-15 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2021094043A Pending JP2021179999A (ja) | 2020-05-15 | 2021-06-04 | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021094043A Pending JP2021179999A (ja) | 2020-05-15 | 2021-06-04 | 情報処理装置、情報処理方法及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP6899603B1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233913A (ja) * | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2017151639A (ja) * | 2016-02-23 | 2017-08-31 | 大日本印刷株式会社 | 書類撮像装置、書類撮像方法、および、書類撮像装置用のプログラム |
JP2018037036A (ja) * | 2016-09-02 | 2018-03-08 | 株式会社東芝 | 帳票読取装置、帳票読取方法、プログラム、および帳票読取システム |
JP2019079147A (ja) * | 2017-10-20 | 2019-05-23 | 株式会社エスピック | 表認識処理装置 |
-
2020
- 2020-05-15 JP JP2020085865A patent/JP6899603B1/ja active Active
-
2021
- 2021-06-04 JP JP2021094043A patent/JP2021179999A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233913A (ja) * | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2017151639A (ja) * | 2016-02-23 | 2017-08-31 | 大日本印刷株式会社 | 書類撮像装置、書類撮像方法、および、書類撮像装置用のプログラム |
JP2018037036A (ja) * | 2016-09-02 | 2018-03-08 | 株式会社東芝 | 帳票読取装置、帳票読取方法、プログラム、および帳票読取システム |
JP2019079147A (ja) * | 2017-10-20 | 2019-05-23 | 株式会社エスピック | 表認識処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021179999A (ja) | 2021-11-18 |
JP6899603B1 (ja) | 2021-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960223B (zh) | 基于票据智能识别自动生成凭证的方法 | |
US11348330B2 (en) | Key value extraction from documents | |
US10546206B2 (en) | Methods for mobile image capture of vehicle identification numbers in a non-document | |
CN108984578B (zh) | 计算机、文档识别方法以及系统 | |
US8064703B2 (en) | Property record document data validation systems and methods | |
US9384389B1 (en) | Detecting errors in recognized text | |
CN103995904B (zh) | 一种影像档案电子资料的识别系统 | |
CN109685052A (zh) | 文本图像处理方法、装置、电子设备及计算机可读介质 | |
WO2019225157A1 (ja) | 帳票認識システム | |
CN106485243A (zh) | 一种票据识别纠错方法及装置 | |
CN103996055B (zh) | 基于影像档案电子资料识别系统中分类器的识别方法 | |
JP4661921B2 (ja) | 文書処理装置およびプログラム | |
CN101641721A (zh) | 生物特征匹配方法和设备 | |
US20210019511A1 (en) | Systems and methods for extracting data from an image | |
US8577826B2 (en) | Automated document separation | |
CN114529933A (zh) | 一种合同数据差异性的比对方法、装置、设备和介质 | |
JP2020181369A (ja) | 書類読取システム | |
JP6899603B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN109214362A (zh) | 单据处理方法及相关设备 | |
CN101520788B (zh) | 图像文件分类方法、图像文件分类设备和计算机程序产品 | |
WO2014068770A1 (ja) | データ抽出方法、データ抽出装置及びそのプログラム | |
JP5134383B2 (ja) | Ocr装置、証跡管理装置及び証跡管理システム | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP6928401B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210218 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210218 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6899603 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |