JP2022029077A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP2022029077A JP2022029077A JP2020132195A JP2020132195A JP2022029077A JP 2022029077 A JP2022029077 A JP 2022029077A JP 2020132195 A JP2020132195 A JP 2020132195A JP 2020132195 A JP2020132195 A JP 2020132195A JP 2022029077 A JP2022029077 A JP 2022029077A
- Authority
- JP
- Japan
- Prior art keywords
- information
- image data
- correction
- unit
- notation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
図1は、実施形態に係る情報処理システム1の概要構成の一例を示す図である。情報処理システム1は、サーバ2及びユーザ端末3がネットワーク4を介して接続された構成を有する。なお、情報処理システム1が具備するサーバ2、ユーザ端末3の数は任意である。また、ネットワーク4をどのような通信網で構成するかは任意である。
補正パタンDB1は、マイナンバーカードの画像データを補正するための補正パタンが2以上記憶されている。図4(a)は、補正パタンDB1に記憶されている情報の一例を示す図である。図4(a)に示すように、2以上の補正パタンは、それぞれ1以上の補正フィルタを組み合わせて構成されている。例えば、補正パタン1は、補正フィルタ1及び3を組み合わせて構成される。また、補正パタン2は、補正フィルタ1、2及び4を組み合わせて構成される。また、補正パタン3は、補正フィルタ1、2及び3を組み合わせて構成される。また、補正パタン4は、補正フィルタ1、3及び5を組み合わせて構成される。また、補正パタン5は、補正フィルタ1及び4を組み合わせて構成される。なお、各補正パタンに含まれる補正フィルタの数は任意である。
識別用DB2には、マイナンバーカードを識別するための情報が記憶されている。図4(b)は、識別用DB2に記憶されている情報の一例を示す図である。図4(b)に示すように、識別用DB2には、マイナンバーカードを識別するための情報、例えば、マイナンバーカードに特有のパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)が記憶されている。なお、図4(b)に示すパタンマッチ用データやキーワードはあくまで一例であり、マイナンバーカードを識別するための情報として、どのようなパタンマッチ用データやキーワードとするかは任意である。後述の識別部207は、識別用DB2を参照し、画像データにパタンマッチ用データやキーワードが含まれているが否かに基づいて、画像データがマイナンバーカードの画像データであることを識別する。2以上のパタンマッチ用データやキーワードを利用することで画像データがマイナンバーカードの画像データであることを識別する精度の向上が期待できる。
項目マスタDB3には、取得する項目と該項目の位置の情報(正規の書式レイアウト情報ともいう)とが記憶されている。本実施形態では、項目マスタDB3には、マイナンバーカードから取得する項目と該項目の位置の情報が記憶されている。マイナンバーカードは、所定の書式に沿って作成されている。このため、マイナンバーカードの書式レイアウトは決まっている。書式レイアウト情報は、マイナンバーカードのどの項目がどの位置(領域)に配置されているかを示す情報である。図4(c)は、項目マスタDB3に記憶されている情報の一例を示す図である。図4(c)に示すように、項目マスタDB3には、マイナンバーカードから取得する項目及び位置の情報が記憶されている。なお、位置の情報は、マイナンバーカードの左上をゼロ点としたXY座標により表され、マイナンバーカードに向かって横方向がX軸(右方向が正)、縦方向がY軸(下方向が正)となっている。なお、座標を表す数値に画素数を利用してもよい。また、マイナンバーカードのどの位置をゼロ点とするかは任意である。また、座標を表す数値に画素数以外の数値を利用してもよい。さらに、マイナンバーカードからどのような項目の情報を取得するかは任意である。
表記変更用DB4には、サーバ2が取得したマイナンバーカードの画像データに記載された情報の表記を所定の表記に変更するための情報が記憶されている。具体的には、表記変更用DB4には、ロジック処理用の情報及び第1,第2マスタ処理用の情報が記憶されている。
図6は、実施形態に係るユーザ端末3のハード構成及び機能構成の一例を示す図である。図6(a)は、ユーザ端末3のハード構成の一例を示す図、図6(b)は、ユーザ端末3の機能構成の一例を示す図である。ユーザ端末3は、PC(Personal Computer)や携帯端末(例えば、タブレット端末)などである。図6(a)に示すように、ユーザ端末3は、通信IF300A、記憶装置300B、入力装置300C、表示装置300D、CPU300Eなどを備える。
図7は、実施形態に係るサーバの文字認識処理の一例を示すフローチャートである。
サーバ2の補正部204は、補正パタンDB1を参照し、文書の画像データを補正する。具体的には、補正部204は、マイナンバーカードの画像データを、補正パタンDB1に記憶されている2以上の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する2以上の補正後の画像を生成する。
サーバ2のOCR処理部206は、マイナンバーカードの正規の書式レイアウト情報に基づき、2以上の補正後の画像データに記載された情報を読み取り、読み取った情報をテキスト化する。具体的には、OCR処理部206は、マイナンバーカードの正規の書式レイアウト情報に基づき、2以上の補正後の画像データに記載された情報を所定の項目ごとに読み取り、各補正パタンに対応する2以上の補正後の画像データをテキスト化した各項目の情報のうち、最も多いものを各項目の正式なテキスト化された情報として選択する。
サーバ2の識別部207は、識別用DB2を参照し、画像データを識別する。具体的には、識別部207は、識別用DB2を参照し、OCR処理部206で認識された文字に、パタンマッチ用データやキーワードが存在するか否かを判定する。OCR処理部206で認識された文字に、パタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、識別部207は、画像データがマイナンバーカードの画像であることを識別する。
サーバ2の取得部208は、項目マスタDB3を参照し、項目に対応する文字を、項目ごとに取得する。例えば、取得部208は、OCR処理部206がテキスト化した項目の第1側(本実施形態では右側)に存在する次の項目(次項目)までの文字又は改行までの文字を項目に対応する文字として取得する。また、取得部208は、項目の第1側(本実施形態では右側)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側)に存在する次の項目(次項目)までの文字又は改行までの文字を、項目に対応する文字をマイナンバーカードの画像データに記載された情報として取得する。なお、取得部208が文字を取得する範囲(どこからどこまで)を画素数に基いて決めておくようにしてもよい。この場合、項目ごとに文字を取得する範囲を定めておくとよい。
表記変更部209は、取得部208で取得されたマイナンバーカードの画像データに記載された情報の表記を所定の表記に変更する。具体的には、表記変更部209は、表記変更用DB4を参照し、表記変更用DB4に記憶されているロジック処理用の情報及び第1,第2マスタ処理用の情報に基づいて、取得部208で取得されたマイナンバーカードの画像データに記載された情報の表記を所定の表記に変更する。また、表記変更部209は、表記変更用DB4を参照し、表記変更用DB4に記憶されている第1,第2マスタ処理用の情報に基づいて、誤記を正しい表記に修正したり、不要な文字データを認識して、該不要な文字データを削除する。
上記実施形態では、識別部207は、識別用DB2を参照し、OCR処理部206で認識された文字に、マイナンバーカードに特有のパタンマッチ用データやキーワードが存在するか否かを判定し、書類の画像データをマイナンバーカードの画像データであると識別している。
また、上記実施形態において、書類の種別に応じて異なる処理を行うようにしてもよい。例えば、書類の種別に応じた補正パタンを補正パタンDB1に記憶し、補正部204は、書類の種別に応じた補正パタンにより書類の画像データを補正するようにしてもよい。また、書類の種別だけでなく、書類の種別及び書類の項目ごとに補正パタンを補正パタンDB1に記憶し、補正部204は、書類の種別及び書類の項目に応じた補正パタンにより書類の画像データを項目ごとに補正するようにしてもよい。例えば、書類がマイナンバーカードの場合、氏名や住所の項目の背景色は「ピンク」、転入など備考の項目の背景色は「ブルー」、マイナンバーの項目の背景色は「グレー」となっているが、このようなは池色を考慮した補正パタンを準備し、書類の種別及び書類の項目に応じた補正パタンにより書類の画像データを項目ごとに補正するようにしてもよい。
2 サーバ(情報処理装置)
200A 通信IF
200B 記憶装置
200C CPU
201 受信部
202 送信部
203 記憶装置制御部
204 補正部
205 除去部
206 OCR処理部
207 識別部
208 取得部
209 表記変更部
3 ユーザ端末
300A 通信IF
300B 記憶装置
300C 入力装置
300D 表示装置
300E CPU
301 受信部
302 送信部
303 記憶装置制御部
304 操作受付部
305 表示装置制御部
4 ネットワーク
DB1 補正パタンデータベース
DB2 識別用データベース
DB3 項目マスタデータベース
DB4 表記変更用データベース
Claims (11)
- 入力された書類の画像データを2以上の補正パタンにより補正し、各補正パタンに対応する2以上の補正後の画像データを生成する補正部と、
前記2以上の補正後の画像データに記載された情報を読み取り、読み取った情報をテキスト化するOCR処理部と、
を備えることを特徴とする情報処理装置。 - 前記補正パタンには、
前記画像データに含まれる前記書類の輪郭を強調させるフィルタが含まれる、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記補正パタンには、
前記画像データの色調を変化させる2以上のフィルタが含まれる、
ことを特徴とする請求項1又は請求項2に記載の情報処理装置。 - 前記OCR処理部で読み取る情報が記載された第1領域以外の第2領域を前記画像データから除去する除去部を備える、
ことを特徴とする請求項1乃至請求項3のいずれかに記載の情報処理装置。 - 前記OCR処理部は、
前記2以上の補正後の画像データに記載された情報を所定の項目ごとに読み取り、
各補正パタンに対応する2以上の補正後の画像データをテキスト化した各項目の情報のうち、最も多いものを各項目の正式なテキスト化された情報として選択する、
ことを特徴とする請求項1乃至請求項4のいずれかに記載の情報処理装置。 - 前記画像データに記載された情報と、該情報の表記を変更する処理ルールとを関連付けた情報を参照し、前記処理ルールに基づいて、前記テキスト化された情報の表記を前記所定の表記に変更する表記変更部を備える、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記表記変更部は、
前記画像データに記載された情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報を参照し、前記処理内容に基づいて、前記テキスト化された情報の表記を前記所定の表記に変更する、
ことを特徴とする請求項6に記載の情報処理装置。 - 前記補正パタンは、
各々1以上の異なる補正フィルタが含まれる
ことを特徴とする請求項1乃至請求項7のいずれかに記載の情報処理装置。 - 前記OCR処理部は、
前記書類の正規の書式レイアウト情報に基づき、前記2以上の補正後の画像データに記載された情報を読み取り、読み取った情報をテキスト化する、
ことを特徴とする請求項1乃至請求項8のいずれかに記載の情報処理装置。 - 補正部が、入力された書類の画像データを2以上の補正パタンにより補正し、各補正パタンに対応する2以上の補正後の画像データを生成する工程と、
OCR処理部が、前記2以上の補正後の画像データに記載された情報を読み取り、読み取った情報をテキスト化する工程と、
を有することを特徴とする情報処理方法。 - コンピュータを、
入力された書類の画像データを2以上の補正パタンにより補正し、各補正パタンに対応する2以上の補正後の画像データを生成する補正部、
前記2以上の補正後の画像データに記載された情報を読み取り、読み取った情報をテキスト化するOCR処理部、
として機能させることを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020132195A JP6928401B1 (ja) | 2020-08-04 | 2020-08-04 | 情報処理装置、情報処理方法及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020132195A JP6928401B1 (ja) | 2020-08-04 | 2020-08-04 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6928401B1 JP6928401B1 (ja) | 2021-09-01 |
JP2022029077A true JP2022029077A (ja) | 2022-02-17 |
Family
ID=77456301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020132195A Active JP6928401B1 (ja) | 2020-08-04 | 2020-08-04 | 情報処理装置、情報処理方法及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6928401B1 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62212871A (ja) * | 1986-03-14 | 1987-09-18 | Fujitsu Ltd | 文章読み上げ校正装置 |
JPH10261045A (ja) * | 1997-03-17 | 1998-09-29 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
JPH11353417A (ja) * | 1998-06-08 | 1999-12-24 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
JP2000259765A (ja) * | 1999-03-09 | 2000-09-22 | Sumitomo Electric Ind Ltd | 文字認識装置 |
JP2014153939A (ja) * | 2013-02-08 | 2014-08-25 | Sansan Inc | 名刺管理サーバ、名刺画像取得装置、名刺管理方法、名刺画像取得方法、およびプログラム |
JP2017091383A (ja) * | 2015-11-13 | 2017-05-25 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置、画像形成方法及び画像形成プログラム |
JP2019169026A (ja) * | 2018-03-26 | 2019-10-03 | 株式会社Pfu | 情報処理装置、文字認識エンジン最適化方法及びプログラム |
JP2020009323A (ja) * | 2018-07-11 | 2020-01-16 | ネオス株式会社 | 配達顧客管理システム |
JP2020095374A (ja) * | 2018-12-11 | 2020-06-18 | 沖電気工業株式会社 | 文字認識システム、文字認識装置、プログラム及び文字認識方法 |
-
2020
- 2020-08-04 JP JP2020132195A patent/JP6928401B1/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62212871A (ja) * | 1986-03-14 | 1987-09-18 | Fujitsu Ltd | 文章読み上げ校正装置 |
JPH10261045A (ja) * | 1997-03-17 | 1998-09-29 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
JPH11353417A (ja) * | 1998-06-08 | 1999-12-24 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
JP2000259765A (ja) * | 1999-03-09 | 2000-09-22 | Sumitomo Electric Ind Ltd | 文字認識装置 |
JP2014153939A (ja) * | 2013-02-08 | 2014-08-25 | Sansan Inc | 名刺管理サーバ、名刺画像取得装置、名刺管理方法、名刺画像取得方法、およびプログラム |
JP2017091383A (ja) * | 2015-11-13 | 2017-05-25 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置、画像形成方法及び画像形成プログラム |
JP2019169026A (ja) * | 2018-03-26 | 2019-10-03 | 株式会社Pfu | 情報処理装置、文字認識エンジン最適化方法及びプログラム |
JP2020009323A (ja) * | 2018-07-11 | 2020-01-16 | ネオス株式会社 | 配達顧客管理システム |
JP2020095374A (ja) * | 2018-12-11 | 2020-06-18 | 沖電気工業株式会社 | 文字認識システム、文字認識装置、プログラム及び文字認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6928401B1 (ja) | 2021-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7623710B2 (en) | Document content and structure conversion | |
KR101027851B1 (ko) | 이미지-기반 문서 인덱싱 및 검색 | |
US8131081B2 (en) | Image processing apparatus, and computer program product | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
CN113011144B (zh) | 表单信息的获取方法、装置和服务器 | |
CN111753717B (zh) | 用于提取文本的结构化信息的方法、装置、设备及介质 | |
CN109753968A (zh) | 字符识别模型的生成方法、装置、设备及介质 | |
US11023764B2 (en) | Method and system for optical character recognition of series of images | |
CN106648569B (zh) | 目标序列化实现方法和装置 | |
US11727701B2 (en) | Techniques to determine document recognition errors | |
KR20210128907A (ko) | 정보 추출 방법, 장치, 기기 및 저장 매체 | |
CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
JP6928401B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
KR20220149028A (ko) | 이미지 기반 테이블 정보 생성 방법 | |
CN105096239A (zh) | 图像配准方法及其装置以及图像拼接方法及其装置 | |
CN101261684B (zh) | 图像处理方法、图像处理装置及图像形成装置 | |
CN111079771B (zh) | 点读图像的特征提取方法、系统、终端设备及存储介质 | |
CN112101356A (zh) | 一种图片中特定文本的定位方法、装置及存储介质 | |
JP2012190357A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2021018520A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20210319273A1 (en) | Information processing apparatus, non-transitory computer readable medium, and character recognition system | |
US20220383023A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
US20210056301A1 (en) | Information processing apparatus and non-transitory computer readable medium storing information processing program | |
JP4294456B2 (ja) | 特定キャラクタ列検索装置、特定キャラクタ列検索方法、特定キャラクタ列検索プログラム、および記録媒体 | |
AU2021412659A9 (en) | Architecture for digitalizing documents using multi-model deep learning, and document image processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210218 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210218 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210702 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210720 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6928401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |