JP7396620B2 - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP7396620B2 JP7396620B2 JP2019150021A JP2019150021A JP7396620B2 JP 7396620 B2 JP7396620 B2 JP 7396620B2 JP 2019150021 A JP2019150021 A JP 2019150021A JP 2019150021 A JP2019150021 A JP 2019150021A JP 7396620 B2 JP7396620 B2 JP 7396620B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- feature amount
- processing device
- image data
- setting information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 56
- 230000006870 function Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 27
- 238000000034 method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Description
・座標位置
のほか、さらに、
・サイズ(面積:縦の長さhと横の長さwとの積w・h)
・アスペクト(比率:縦の長さhと横の長さwとの比、例えばw/h)
・枠線の太さ
などの図形的な特徴量を生成する。
・座標位置
・サイズ(面積:縦の長さhと横の長さwとの積w・h)
・アスペクト(比率:縦の長さhと横の長さwとの比、例えばw/h)
・枠線の太さ
・数(矩形領域の数)
などの情報を含む。
Dri,j,k=|ri-rj,k|
DAi,j,k=|Ai-Aj,k|
DTi,j,k=|Ti-Tj,k|
なお、|x|は、xの絶対値を演算することを意味する。
Sj=1/log(Σ_i(min(α・Di,j,k+β・Dri,j,k+γ・DAi,j,k+ε・DTi,j,k))+1)
として求める。ここで、α、β、γ、εは、正の定数であり、予め実験的に定めておく。なお、ここでΣ_iは、iについて総和を求めることを意味し、min(xik)は、i,kの組み合わせで得られる(α・Di,j,k+β・Dri,j,k+γ・DAi,j,k+ε・DTi,j,k)の値のうち最小の値を選択することを意味する。また、log(x)はxの対数(底は10など適宜定めてよい)を意味する。
本発明の実施の形態に係る情報処理装置1は以上の構成を備えてなり、次のように動作する。ユーザがスキャナ2を操作して検索の対象となる帳票を読み取らせると、情報処理装置1が、このスキャナ2で読み取った画像を含む画像データを受け入れて、当該画像データに含まれる帳票部分の画像を抽出する。
またここまでの説明では、情報処理装置1は、帳票の特徴量として帳票に含まれる矩形領域Rに関する図形的な特徴量を得て、帳票間の比較に用いることとしていたが本実施の形態はこれに限られない。
Dri,j,k=|ri-rj,k|
DAi,j,k=|Ai-Aj,k|
DTi,j,k=|Ti-Tj,k|
を用い、また、この矩形領域Ri,Rj,kのそれぞれに係る文字列の認識結果に基づく類似度(後から説明する)ΔCi,j,kとを求め、検索対象の帳票Pに対するPjの類似度Sjを、例えば
Sj=(κ・ΔCi,j,k)/log(Σ_i(min(α・Di,j,k+β・Dri,j,k+γ・DAi,j,k+ε・DTi,j,k))+1)
として求める。ここでκは、α、β、γ、εと同様、正の定数であり、予め実験的に定めておく。
ΔCi,j,k=n/N
とする。このΔCi,j,kは、大きいほど類似していると判断される値である。
DAi,j,k=|Ai-Aj,k|
を用いていたが、本実施の形態はこれに限られず、比を用いてもよい。すなわち、
DAi,j,k=[Ai/Aj,k,Aj,k/Ai]
としてもよい。ただしここで、[ξ,η]は、ξとη(η=1/ξ)とのうち、「1」より小さいほうの値をとることを意味する。
情報処理装置1は、検索対象となった帳票Pの特徴量に含まれる各矩形領域Ri(i=1,2,…)ごとの座標位置(Xi,Yi)と、比較の対象となる帳票Pj(j=1,2…)についての、矩形領域Rj,k(k=1,2…)の座標位置の情報(Xj,k,Yj,k)との距離Di,j,k及び、アスペクトri,サイズAi,枠線太さTiの各々と、それに対応するアスペクトrj,k,サイズAj,k,枠線太さTj,kとの比:
Dri,j,k=[ri/rj,k,rj,k/ri]
DAi,j,k=[Ai/Aj,k,Aj,k/Ai]
DTi,j,k=[Ti/Tj,k,Tj,k/Ti]
を用い、また、この矩形領域Ri,Rj,kのそれぞれに係る文字列の認識結果に基づく類似度ΔCi,j,kを求め、検索対象の帳票Pに対するPjの類似度Sjを、例えば
Sj=(κ・ΔCi,j,k)/log(Σ_i(min(α・Di,j,k+β・Dri,j,k+γ・DAi,j,k+ε・DTi,j,k))+1)
として求めればよい。ここでも、κ、α、β、γ、εは正の定数であり、予め実験的に定めておく。なお、文字列の認識結果に基づく類似度ΔCi,j,kを用いない場合は、κ=0とする。
また帳票には、文字を一文字ずつ記入するための記入欄が配列されたものがある。一例として図5に例示するように、氏名の文字を一文字ずつ区切って記入させる記入欄など、文字を一文字ずつ記入する矩形欄が設けられている場合、本発明の実施の形態に係る情報処理装置1の制御部11は、各文字に対応する欄の矩形領域Rを認識することとなる。
・座標位置
・サイズ(面積:縦の長さhと横の長さwとの積w・h)
・アスペクト(比率:縦の長さhと横の長さwとの比、例えばw/h)
のうち少なくとも一つの情報を帳票の特徴量として追加する。
さらに本実施の形態の情報処理装置1は、画像受入部21が受け入れた画像データ(スキャナ2等により光学的に読み取られた画像に係る画像データ)の読み取り方向(上下の方向など回転角度)が必ずしも定まっていないことを考慮して、次の処理を行ってもよい。
・座標情報
のほか、
・サイズ(面積:縦の長さ(回転角度によって縦横の方向は変化し得る)hと横の長さwとの積w・h)
・アスペクト(比率:縦の長さhと横の長さwとの比、例えばw/h)
・枠線の太さ
などの図形的な特徴量を生成する。以下では、回転角度θで回転処理した後の画像データIM(θ)から抽出して得られた各矩形領域の情報を、Riθ(i=1,2,…)と書く。ここでθとθ′とが互いに異なる回転角度であるときに、Riθと、Riθ′は、同じ矩形領域(一方の画像データをθ-θ′またはθ′-θに相当する角度だけ回転させれば互いに重なり合うものとなる矩形領域)であるものとする。
また本実施の形態の別の例では、画像受入部21が受け入れた画像データ(スキャナ2等により光学的に読み取られた画像に係る画像データ)と、データベースサーバ3に保持されている帳票との間で縮尺や比率が相違する場合があり得ることを考慮して、次のような処理を行ってもよい。
rwj,k=XSj,k/XS、
rhj,k=YSj,k/YS
を求める。
Xi′=rwj,k・Xi、
Yi′=rhj,k・Yi
と補正する。そして類似帳票検索部24は、上記取り出された座標位置の情報(Xk,Yk)と、ここで補正した座標位置(Xi′,Yi′)の距離(ユークリッド距離でよい)Di,j,kを求める。また類似帳票検索部24は、検索対象となった特徴量のアスペクトri,サイズAiを、
ri′=ri×(rwj,k/rhj,k) (riがw/hで定義される場合)
Ai′=Ai×rwj,k×rhj,k
と補正する。なお類似帳票検索部24は、枠線太さTiについては、縦向きの枠線か横向きの枠線かに応じて縦向きの枠線であるときに
Ti′=Ti×rwj,k、
横向きの枠線であるときに、
Ti′=Ti×rhj,k、
と補正してもよい(この場合、生成する特徴量のうちに、枠線の向きを表す情報を含めておく)。
Dri,j,k=|ri′-rj,k|
DAi,j,k=|Ai′-Aj,k|
DTi,j,k=|Ti′-Tj,k|
なお、|x|は、xの絶対値を演算することを意味する。
Sj=1/log(Σ_i(min(α・Di,j,k+β・Dri,j,k+γ・DAi,j,k+ε・DTi,j,k))+1)
として求める。ここでもα、β、γ、εは、正の定数であり、予め実験的に定めておく。
DAi,j,k=[Ai/Aj,k,Aj,k/Ai]
(ただし[ξ,η]は、ξとη(η=1/ξ)とのうち、「1」より小さいほうの値をとることを意味する)に代えて、
DAi,j,k=Ai/Aj,k
と一方の比に固定してもよい(180度回転したときの類似度については異なる回転角度において得られることがあるため)。
Claims (6)
- 帳票に係る所定の特徴量の情報と、帳票に関連して定められた設定情報とを保持するデータベースに接続され、
帳票の画像データを受け入れる手段、
前記受け入れた画像データから帳票上の情報記入欄を認識する手段、
前記認識の結果に基づいて、前記受け入れた画像データが表す帳票に係る特徴量の情報を生成する手段、
前記生成した特徴量の情報を用いて、前記データベースに格納された帳票に係る情報のうち、所定の基準値よりも類似度の高い帳票に関連する設定情報を取得する手段、及び
設定情報をユーザに提示する手段であって、前記取得した設定情報が複数ある場合には、関連する帳票ごとの設定情報をユーザに提示する手段、
を有し、
前記帳票に係る特徴量の情報は、前記情報記入欄ごとの位置、サイズ、アスペクトのうち少なくとも一つの情報を含む情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記設定情報を取得する手段は、前記データベースに格納された帳票ごとに、当該帳票と、前記受け入れた画像データが表す帳票との拡大縮小率により、当該受け入れた画像データが表す帳票に係る特徴量の情報を補正して、類似度を求める情報処理装置。 - 請求項1または2に記載の情報処理装置であって、
前記帳票に係る特徴量の情報は、前記情報記入欄に係る文字列の認識結果の情報を含む情報処理装置。 - 請求項1から3のいずれか一項に記載の情報処理装置であって、
前記設定情報は、各情報記入欄と当該情報記入欄に記入されるべき情報の種類を表す情報とを関連付けた関連付け情報を含む情報処理装置。 - 請求項1から4のいずれか一項に記載の情報処理装置であって、
前記特徴量の情報を生成する手段は、互いに共通するサイズの情報記入欄が周期的に配列されている領域を特定し、当該領域に外接する矩形の位置、サイズ、アスペクトのうち少なくとも一つの情報を前記帳票に係る特徴量の情報として追加的に生成する情報処理装置。 - 帳票に係る所定の特徴量の情報と、帳票に関連して定められた設定情報とを保持するデータベースに接続されるコンピュータを、
帳票の画像データを受け入れる手段、
前記受け入れた画像データから帳票上の情報記入欄を認識する手段、
前記認識の結果に基づいて、前記受け入れた画像データが表す帳票に係る特徴量の情報であって、前記情報記入欄ごとの位置、サイズ、アスペクトのうち少なくとも一つの情報を含む特徴量の情報を生成する手段、
前記生成した特徴量の情報を用いて、前記データベースに格納された帳票に係る情報のうち、所定の基準値よりも類似度の高い帳票に関連する設定情報を取得する手段、及び
設定情報をユーザに提示する手段であって、前記取得した設定情報が複数ある場合には、関連する帳票ごとの設定情報をユーザに提示する手段、
として機能させるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019121992 | 2019-06-28 | ||
JP2019121992 | 2019-06-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021009659A JP2021009659A (ja) | 2021-01-28 |
JP7396620B2 true JP7396620B2 (ja) | 2023-12-12 |
Family
ID=74200103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019150021A Active JP7396620B2 (ja) | 2019-06-28 | 2019-08-19 | 情報処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7396620B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007108830A (ja) | 2005-10-11 | 2007-04-26 | Seiko Epson Corp | 帳票処理装置 |
JP2019057235A (ja) | 2017-09-22 | 2019-04-11 | カシオ計算機株式会社 | 帳票管理装置及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02230366A (ja) * | 1989-03-03 | 1990-09-12 | N T T Data Tsushin Kk | 帳票認識装置 |
-
2019
- 2019-08-19 JP JP2019150021A patent/JP7396620B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007108830A (ja) | 2005-10-11 | 2007-04-26 | Seiko Epson Corp | 帳票処理装置 |
JP2019057235A (ja) | 2017-09-22 | 2019-04-11 | カシオ計算機株式会社 | 帳票管理装置及びプログラム |
Non-Patent Citations (1)
Title |
---|
椋木雅之、外3名,電子申請のための対話型文書電子化支援システム,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2006年11月23日,Vol.106, No.396,p35-40 |
Also Published As
Publication number | Publication date |
---|---|
JP2021009659A (ja) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325110B (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
JP4308342B2 (ja) | 手書き文書中の単語を特定する方法及び装置 | |
US9767353B2 (en) | System and method for transcribing historical records into digitized text | |
US5799115A (en) | Image filing apparatus and method | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
US5539841A (en) | Method for comparing image sections to determine similarity therebetween | |
US20070168382A1 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
US6621941B1 (en) | System of indexing a two dimensional pattern in a document drawing | |
CN1492377A (zh) | 表格处理系统及方法 | |
US6321232B1 (en) | Method for creating a geometric hash tree in a document processing system | |
EP1374148B1 (en) | Method and device for recognition of a handwritten pattern | |
Khurshid et al. | Word spotting in historical printed documents using shape and sequence comparisons | |
JP3452774B2 (ja) | 文字認識方法 | |
JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
RU2640322C2 (ru) | Способы и системы эффективного автоматического распознавания символов | |
CN109947273B (zh) | 一种点读定位方法及装置 | |
US20150213313A1 (en) | Methods and systems for efficient automated symbol recognition using multiple clusters of symbol patterns | |
US9519404B2 (en) | Image segmentation for data verification | |
JPH06301781A (ja) | コンピュータによるパターン認識のためのイメージ変換方法及び装置 | |
CN114782974A (zh) | 表格识别方法、系统、智能终端及计算机可读存储介质 | |
WO2021143058A1 (zh) | 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质 | |
CN109766893A (zh) | 适于购物小票的图片文字识别方法 | |
JPH1173475A (ja) | 行方向判定装置、画像傾き検出装置及び画像傾き補正装置 | |
JP7396620B2 (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190905 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7396620 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |