JP2014137605A - レシート定義データ作成装置およびそのプログラム - Google Patents

レシート定義データ作成装置およびそのプログラム Download PDF

Info

Publication number
JP2014137605A
JP2014137605A JP2013004279A JP2013004279A JP2014137605A JP 2014137605 A JP2014137605 A JP 2014137605A JP 2013004279 A JP2013004279 A JP 2013004279A JP 2013004279 A JP2013004279 A JP 2013004279A JP 2014137605 A JP2014137605 A JP 2014137605A
Authority
JP
Japan
Prior art keywords
receipt
character string
item
definition
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013004279A
Other languages
English (en)
Other versions
JP6100532B2 (ja
Inventor
Seiji Takahashi
清治 高橋
Hiroyuki Suzuki
博之 鈴木
Junya Suzuki
惇也 鈴木
Kazuki Takiguchi
和輝 滝口
Kazunari Nozaki
一成 野崎
Hisataka Wakabayashi
久孝 若林
Shotaro Fukase
正太郎 深瀬
Yasuhiro Umemura
泰広 梅村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Computer Technologies Ltd
Fujitsu Marketing Ltd
Original Assignee
Fujitsu Computer Technologies Ltd
Fujitsu Marketing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Computer Technologies Ltd, Fujitsu Marketing Ltd filed Critical Fujitsu Computer Technologies Ltd
Priority to JP2013004279A priority Critical patent/JP6100532B2/ja
Publication of JP2014137605A publication Critical patent/JP2014137605A/ja
Application granted granted Critical
Publication of JP6100532B2 publication Critical patent/JP6100532B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】レシートからOCR認識により必要なデータを正確に抽出するためのレシート定義データを簡単な操作で効率よく作成できるようにする。
【解決手段】確信度算出部12は,レシート2のOCR処理による認識結果の文字列の認識の安定性を示す確信度を算出する。定義入力画面表示部13は,定義入力画面を表示するときに,レシート画像の表示における読取項目対象の文字列を,確信度に応じた表示態様で表示する。入力データ処理部14および定義データ作成部16は,ドラッグ・アンド・ドロップ操作によって,読取項目として選択された文字列が誤認識であっても,誤認識された文字列のままレシート定義データを作成する。
【選択図】図1

Description

本発明は,レシート定義データ作成装置およびそのプログラムに関し,特に,例えばショッピングモールなどの複数の店舗の売上を管理するために,文字認識により読み取ったレシートデータから必要なデータを正確に抽出するときに必要となる定義データの作成を支援する技術に関するものである。
ショッピングセンター,ショッピングモール等に出店するテナント(店舗を運営する会社など)の店舗を管理するテナント管理部門では,各店舗の一日の売上を収集し,現金売上,クーポン売上,…といった売上内訳(売上管理項目)を作成している。この売上内訳作成の際には,各店舗から提供される精算レシートが集められて,売上管理項目の数値を算出することが行われる。しかし,各店舗から提供される精算レシートの形式は,店舗ごとに導入されているPOSシステムに依存するため,さまざまな形式で作成されているのが現状である。そのため,テナント管理部門が処理する精算レシートは,項目の種類,項目名,印字サイズ,印字字体などにおいて多種多様である。
例えば,精算レシートの項目の名称について,売上合計,売上計,合計売上,総売上,…等は,同等の内容を示すものであっても,POSシステムによって異なる名称が印字されている。また,出店するテナントの店舗の入れ替えなどが頻繁に行われるため,新たな精算レシートの形式にも対応しなければならない。そのため,テナント管理部門では,精算レシートを統一された売上管理データとして集計する売上集計作業に莫大な労力を要し,そのための人的および時間的負担に多大なコストを要しているのが現状である。
この課題を解決するための技術として,例えば特許文献1には,ショッピングセンターの管理会社が各店舗から精算レシートを収集し,その精算レシートをOCR(Optical Character Recognition )技術により認識させ,売上データの集計やチェックを行う仕組みが記載されている。
特許文献1において開示されているように,レシートデータのような帳票から印字されている項目に対応する文字列をOCR認識により読み取る場合,読取定義データに読み取りたい項目の文字列をあらかじめ定義しておき,定義されている項目情報に基づいて,OCR認識された処理結果から,項目情報を抽出して読み取るといった方法が行われている。
ここで,OCR認識された処理結果から,項目情報を抽出して読み取るといった方法としては,従来から種々の手法が考えられている。例えば,特許文献2には,帳票を読み取るための,処理項目,処理領域,および処理内容を含む定義情報が定義された定義データに基づき,読み取った帳票を処理する装置が開示されている。このような帳票読取装置においては,OCRの認識精度により項目名の文字列が正しく読み取れずに,読取定義データに定義されている文字列と異なる文字列として認識してしまうことがあるという問題がある。
このような誤認識の問題を解決するために,例えば特許文献3においては,定義項目の近傍にある文字列との位置関係を併せて定義することによって,所望の項目の文字位置を認識する技術が開示されている。
特開2012−032979号公報 特開2012−059226号公報 特開2005−165978号公報
レシートの文字画像を認識して,売上管理データを自動で作成する場合,売上管理データとして必要な売上管理項目とレシートの読取項目とがどのように対応しているかの対応情報,また,レシートの読取項目の文字列(項目名称)およびその読取項目に対応する金額欄の画像上の位置情報を,レシート定義データとして事前に用意する必要がある。
このレシート定義データを一度作成して,レシート認識装置に登録すれば,OCR機能を有する読取装置等によりレシート画像を読み取り,その読み取ったレシート画像から売上管理データの作成に必要なレシート項目を抽出し,毎日の売上管理データをある程度自動で収集することができる。
従来,レシートなどの帳票の項目をOCR認識するための読取定義データにおいては,定義データに帳票に記載された文字の何れかが正しくOCR認識されることを前提として定義が行われている。しかし,最近の技術ではOCR処理による認識の精度が向上しているとはいうものの,必ずしも帳票内の文字列が常に正しく認識されるとは限らない。
例えば,特許文献3に記載されている方法では,定義項目名が正しく認識できない場合であっても,定義項目の近傍にある項目名が正しく認識されれば,読取位置を正しく取得することができるようにしている。しかし,定義項目の近傍にある項目名が正しく認識できなかった場合には,読取位置を取得することができない。
ところで,前述したレシート認識による売上管理データの自動収集では,レシート項目の項目名を正しく読み取ることができたかどうかよりも,売上管理データとして収集すべき項目の金額を正しく読み取ることができたかどうかが重要である。仮にレシート項目の項目名が実際には誤って認識されたとしても,それに対応する本来の項目の金額を正しく読み取ることができれば,売上管理データの収集の目的は達成される。
本発明は,この点に着目して,レシートからOCR認識により必要なデータを正確に抽出するための実用的な新しいレシート定義データを作成する技術を提供することを目的とする。
本発明は,上記課題を解決するため,レシート定義データでは,レシートに記載されている本来の文字列で項目定義を行うのではなく,誤認識であるか否かにかかわらず,OCRによって認識されるであろう文字列で項目定義を行う。OCRによって認識されるであろう文字列によって,読取項目の定義データを作成することによって,たとえOCRによる認識が誤認識であっても,その誤認識の文字列で定義データに項目定義がされているため,確実に読取項目を認識することができる。
この際に,OCRによりどの文字がどのように誤認識されるかを事前に把握することは,OCRエンジンの機能に左右されるため困難である。さらには,常に同じ文字が同じ誤認識の結果になるかどうかも不明確である。そのため,誤認識されるであろう文字で事前に読取定義データを作成するにあたって,認識対象文字列の安定性・信頼性を示す確信度という尺度の概念を導入し,予め誤認識されるであろう文字列を予測し,予測結果に基づいて,たとえ誤認識された文字列であっても読取精度の高い文字列を項目定義文字とする読取定義データを作成し,レシートイメージのOCR認識結果の読取を行うことによって,高い精度でのレシートイメージからのレシート項目の読取を可能とする。
すなわち,本発明は,レシート定義データを作成するにあたって,レシートの認識文字列の確信度を算出し,確信度に応じて,誤認識した文字を含んでいてもそのままその認識文字列を用いて,レシートの読取定義データであるレシート定義データを作成する。
例えば,レシートに「総売上 ¥500,000」と印字されていたとする。レシート定義データとしては,売上管理データの収集のために,少なくともレシート内の読取項目の文字列と,それに対応する金額欄の相対的な位置情報が必要になる。この場合,読取項目は「総売上」であり,金額欄の相対的な位置情報は,レシート画像における「総売上」と「¥500,000」の金額欄の相対的な位置情報(距離情報)である。
従来のレシート定義データでは,読取項目の文字列の定義データとして,「総売上」の文字列が定義されていた。もし,レシート定義データの作成時に,「総売上」を「総亮上」というように誤認識したことが分かると,定義データの作成者は,「総亮上」の文字列を「総売上」の文字列に手入力により修正し,読取項目の定義データを作成していた。
しかし,レシートの印字特性やOCRの特性などにより,ある店舗のレシートについて,認識の第1候補が「総売上」ではなく「総亮上」であることがほとんどであるような場合,実際には誤認識であっても読取項目の定義データを「総亮上」としたほうが精度よく金額データを読み取ることができる。
そこで,本発明では,認識した「総亮上」という文字列の確信度を算出し,例えば確信度が所定の閾値より大きかったならば,誤認識であるか否かにかかわらず,「総亮上」という文字列で読取項目の定義データを作成することができるようにする。ここで,確信度とは,認識結果の正しさではなく,認識対象レシートにおける認識対象文字列が常に定義データと同じ文字列に認識されるという認識の安定性を示す値であり,OCRによる読取項目を構成する各文字の認識の確からしさから算出される。すなわち,確信度は,同種の他のレシートにおいても,OCRが同じ文字列として認識する可能性の高さを示す値であり,例えば,認識時に用いられた認識用辞書の文字と認識対象文字との類似度(距離の逆数など)から算出される。
以上を踏まえ,レシート定義データの作成は,例えば以下のように行う。
1.レシートをスキャナーで画像として読み込み画面上にレシートイメージ画像を表示する。
2.レシートイメージ画像の文字列項目をOCR機能により認識し,略矩形にて文字列項目を囲んで表示する。
3.認識結果の文字列の認識の安定性を示す確信度を,文字列を構成する各文字の認識の確からしさを示す値によって算出し,算出された確信度に応じて,前記略短形の表示色を変える。例えば,確信度が高い場合,青色で表示し,確信度が中の場合,黄色で表示し,確信度が低い場合,赤色で表示する。
4.操作員がレシートイメージ画像上の項目文字列をドラッグし,定義項目表示欄にドロップすると,その項目文字列を読取項目として定義する。
5.操作員がレシートイメージ画像上の読取項目に対応するデータ項目(例えば金額)をドラッグし,データ項目表示欄にドロップすると,読取項目に対応するデータ項目の位置を定義する。
6.同じ認識文字列が複数ある文字列を選択した場合や,確信度の低い文字を選択した場合には,読取項目を代替する文字列の代替項目を指定することを推奨するメッセージを出力する。または,レシート内においてその読取項目の近くに存在する確信度の高い文字列を代替項目として自動で設定する。
以上述べた本技術の主要な点は,(1)誤認識した文字列であっても,それが適切であればその文字列を用いて読取項目の定義データを作ること,(2)確信度に基づいて,読取項目を定義する文字列を選択できること,(3)ドラッグ・アンド・ドロップなどの簡単な操作で読取項目の定義データを作成できること,である。
本発明によれば,文字単位ではなく文字列単位で認識の信頼度(同じ文字として認識する確度)の算出を行うことにより,認識精度(同じ文字として認識される可能性が高い文字)を項目定義文字として定義することができる。
したがって,誤認識文字であっても,信頼度の高い文字であれば,ドラッグ・アンド・ドロップなどの簡単な操作で容易に定義データを作成することができる。
レシート定義データ作成装置の構成例を示すブロック図である。 レシート定義データ作成装置の処理の概要を示すフローチャートである。 読取機によって読み取られるレシートの例を示す図である。 画像データ記憶部に格納される画像データの例を示す図である。 基本データ記憶部に格納される基本テーブルの例を示す図である。 店舗マスタの例を示す図である。 レシート定義データの例を示す図である。 確信度算出の処理フローチャートである。 確信度算出の処理フローチャートである。 確信度データのデータ構造を示す図である。 「総売上」の各文字のリジェクト/アクセプトの判定例を示す図である。 定義入力画面の構成例を示す図である。 読取項目の定義の入力例を示す図である。 定義入力処理のフローチャートである。 読取項目設定処理のフローチャート(その1)である。 読取項目設定処理のフローチャート(その2)である。 代替項目の設定例を示す図である。
以下,図面を用いながら,本発明の実施の形態について詳細に説明する。なお,以下では,主に店舗売上を集計する装置の例について説明するが,本発明は売上集計に限られるわけではなく,仕入集計データやその他の伝票などに印字された実績データを集計するための装置などにも同様に適用することができる。
図1は,本発明の概要を説明するための装置構成例を示す。図1において,1はCPUおよびハードディスクやメモリ等の記憶装置等から構成され,レシートから読み取った画像データをもとに,レシート定義データを作成する処理を実行するレシート定義データ作成装置,2はレシート定義データの作成対象となるレシート,3は光学方式などによる画像のスキャンニングによりレシート2の画像を読み取る読取機,4は表示装置,5はキーボードやマウス等の入力装置である。
レシート2は,透明なキャリアシート等に挟まれた状態で読取機3に読み取られる。画像データ読込部10は,周知のOCR処理機能を持ち,読取機3により読み取った画像を所定の画像データに変換する。なお,読取機3がOCR処理機能を有する場合には,画像データ読込部10は,OCR処理機能を持たなくてもよい。画像データは,例えばイメージデータが格納された画像ファイル,OCRによる認識文字データを含む。画像データ読込部10は,OCR処理結果の画像データを画像データ記憶部101に保存する。
確信度算出部12は,レシートのイメージデータに対するOCR処理により認識した文字列の確信度を,その文字列を構成する各文字の認識結果の信頼度から算出する。各文字の信頼度とは,例えばOCR処理において用いた認識候補文字と認識対象文字とのパターンの違いを示す距離(非類似度)である。確信度算出部12は,算出した各文字列の確信度を確信度データ記憶部104に記憶する。
定義入力画面表示部13は,店舗マスタ103を参照し,レシート定義データを作成するために,基本データ記憶部102に格納されている基本的な売上管理項目の情報と,画像データ記憶部101に格納されているレシートのイメージデータを含む画像データの表示領域を有する定義入力画面を,表示装置4に表示する。このとき,後に詳述するように,確信度データ記憶部104に記憶されている各文字列の確信度を用いて,読取項目の定義入力および設定の支援を行う。
入力データ処理部14は,表示された定義入力画面から,レシートの読取項目と,イメージデータにおける読取項目に対応する金額欄の位置情報と,読取項目と売上管理項目との対応情報とを入力する。座標取得部15は,入力データ処理部14の配下で動作し,イメージデータにおける読取項目の位置の座標およびそれに対応する金額欄の位置の座標を入力装置5から取得する。
また,入力データ処理部14は,入力した読取項目について確信度が低い値であった場合に,読取項目に代替する他のレシート項目を代替項目として設定することを推奨するメッセージを出力したり,代替項目を自動で選択する処理機能を持つ。
定義データ作成部16は,入力データ処理部14によって入力した情報をもとに,店舗ごとのレシート定義データを作成し,定義データ記憶部105に格納する。作成されるレシート定義データの具体例については後述する。レシート定義データは,レシートの読取項目における項目名称とそれに対応する金額項目の相対位置(相対的な金額欄の位置)などの情報を含むとともに,売上管理項目との対応関係情報を含んでいる。
図2は,図1に示すレシート定義データ作成装置1の処理の概要を示すフローチャートである。
画像データ読込部10は,読取機3が読み取ったレシート2のレシート画像を読み込み,そのレシート画像のイメージデータを画像データ記憶部101に格納する(ステップS1)。この例のレシート2は,各店舗における1日分の売上情報の集計データであり,レシート項目は各店舗が使用しているPOSシステムによって異なっている。精算レシートと呼ばれることもある。
次に,画像データ読込部10は,レシート画像についてOCR処理により文字認識を行い(ステップS2),得られた認識文字列とその認識文字列の画像内の位置を画像データ記憶部101に格納する(ステップS3)。
確信度算出部12は,レシート画像について認識した各文字列の確信度を,文字列を構成する各文字の信頼度から算出し(ステップS4),算出した確信度を確信度データ記憶部104に格納する(ステップS5)。
定義入力画面表示部13は,画像データ記憶部101,基本データ記憶部102,店舗マスタ103のデータから定義入力画面を作成し,表示装置4に表示する(ステップS6)。定義入力画面には,レシートの全体イメージの表示も行われる。このレシートのイメージの表示において,認識した文字列の各項目を略矩形で囲んで表示し,確信度算出部12により算出された確信度に応じて,各項目を囲む略矩形の表示色を変更する。例えば,確信度が高い項目は青色で表示し,確信度が中の項目は黄色で表示し,確信度が低い項目は赤色で表示する。
入力データ処理部14は,定義入力画面からの入力により,レシートの項目について,読取項目および演算式などを設定し,読取項目と売上管理項目との対応関係,読取項目とその読取項目に対応する金額欄の位置関係を定める(ステップS7)。この入力において,同じ認識文字列が複数ある文字列が選択されたり,確信度の低い文字列の項目が選択さたりした場合には,入力データ処理部14は,代替文字列を指定するように操作員にメッセージを表示して促す。
定義データ作成部16は,入力データ処理部14により入力した情報をもとに,レシート定義データを作成し,定義データ記憶部105に格納する(ステップS8)。
以上,レシート定義データ作成装置1が実行する大まかな処理を説明したが,以下では,具体的な処理内容やデータ構造について詳しく説明する。
図3は,読取機3によって読み取られるレシート2の例を示す図である。読取機3が図3に示すようなレシート2を読み取ると,読取機3または画像データ読込部10のOCR処理により,画像の解析による文字認識が行われる。この文字認識では,図3に示すレシート2における文字列#1,#2,…,#14,…のように,一連の文字列ごとに,文字列を構成する各認識文字の候補とその位置情報とが画像データとして抽出され,画像データ記憶部101に格納される。
図4は,画像データ記憶部101に格納される画像データの例を示す図である。画像データ記憶部101には,図4(A)に示すように,レシート画像のイメージデータに関するデータと,図4(B)に示すように,レシートの文字認識結果のデータ(以下,認識文字データという)とが格納される。
レシート画像のイメージデータは,例えばレシート全体またはレシートにおける文字が印字された部分全体の矩形領域の画像イメージがビットマップ形式の画像ファイルとして格納され,また,このレシート2を発行した店舗を識別する店舗コードが付与される。この店舗コードは,入力装置5から事前に入力してもよいし,また,レシート2を読取機3に読み取らせるときのレシート挟持用シート(キャリアシート)に付与された各店舗識別用の2次元コード等を解析して入力するようにしてもよい。
図4(B)に示す認識文字データは,一連の文字列#n(n=1,2,…)についての文字認識の結果が格納されるが,その内容を図3に示す文字列#14の例を用いて説明する。まず,文字列#14がレシート2における14番目の文字列であり,識別番号がそれを示している。文字列#14の文字数は3(第1候補の並びは「総亮上」)であり,文字列#14の座標は,(x,y)−(x’,y’)である。この座標は,あらかじめ定められたレシート2の画像の基準位置(例えばレシート画像の左上角または文字列群を囲む矩形領域の左上角など)を原点とした座標である。なお,この例では実際には「売」の文字について「亮」を第1候補として認識している。
さらに,認識文字データは,文字列#14を構成する各文字#141,#142,#143の3文字について,各々の座標情報を持つ。また,認識結果の文字と認識用の辞書の文字との相違度の小さい順に,認識結果のいくつかの文字が相違度とともに格納される。例えば,文字#141の認識結果の第1番目の候補は「総」(相違度=1571)であり,第2番目の候補は「脆」(相違度=1581),第3番目の候補は「聡」(相違度=1640)である。この相違度は,辞書の文字との距離であるが,この相違度が小さいほど認識の信頼度が高いことになる。
図5は,基本データ記憶部102に格納される基本テーブルの例を示す図である。この基本テーブルは,テナント管理部門が集計する売上管理項目の情報を格納している。具体的には,ショッピングセンターにおける売上管理データの管理を対象とした場合,ショッピングセンターを識別するショッピングセンターコード,ショッピングセンターの名称および所在地,ショッンピングセンター内の店舗数の情報を格納している。また,テナント管理に必要な各売上管理項目の項目名称が格納される。
この例では,売上管理項目として4個の項目があり,これらの各項目の名称が「総売上」,「消費税」,「現金売上」,「その他売上」である。なお,実際には「クレジット売上」などもっと多くあるが,ここでは説明を簡単にするため,4個の項目の例を示している。本システムは,各店舗ごとに異なる各種のレシートの項目の中から,これらの売上管理項目の情報を自動で抽出するための認識精度のよいレシート定義データを,単純な操作で作成することができるようにすることを目的としている。
図6は,店舗マスタ103の例を示す図である。店舗マスタ103は,レシートを発行する個別の店舗の情報を格納するテーブルであり,あらかじめ用意される。1番目の設定項目である店舗コードは,店舗を識別する番号である。2番目の店舗名称は,店舗の名称である。3番目の業種コードは,店舗の業種を表すコードである。4番目の業種名は,業種の名称である。続いてPOSシステム情報1,2,3として,順に,導入されているPOSシステムの識別コード(例:F001),POSシステムのメーカー(例:AAAAA),POSシステムの導入年月日(例:2000年1月1日)などの情報が格納される。また,精算レシート情報1,2,3,4として,順に,精算レシートの長さ,読込形式,精算レシート中の印字項目数,その他の必要な情報が格納される。読込形式の欄には,読取機3がレシート2をそのままの形で読み込む場合には“0”,レシート2が長過ぎるため,レシート2を複数片にカットして読み込む場合には“1”の値が設定される。
本システムは,以上の画像データ記憶部101,基本データ記憶部102,店舗マスタ103に格納されているデータをもとに,レシート定義データを作成する。なお,店舗マスタ103は,店舗情報が既知であるか入力装置5から事前に入力される場合には必須ではない。
図7は,本システムにより作成するレシート定義データの例を示している。店舗コードは,どの店舗のレシート定義データであるかを示す店舗の識別コードである。続いて,レシートから読み取るレシート項目の情報が,各項目ごとに格納される。読取項目1識別コードは,1番目の読取項目1の識別コードであり,レシート定義データ内で読取項目を一意に識別するコードである。
項目属性には,読取項目の属性が設定される。通常の読取項目の場合,属性値=1である。レシート内に同一名称の読取項目が存在したり,読取項目の文字列の確信度が低いために,代替項目を設定した場合には,属性値=2である。
図7(A)のレシート定義データは,項目属性の属性値が1であり,通常の項目の場合の例である。ここで,従来技術と異なるのは,例えば,実際にレシートに印字された文字列が「総売上」であっても,OCR処理による認識の結果,「総売上」の文字列よりも「総亮上」の文字列のほうの認識の確信度が高い場合,読取文字として「総亮上」の文字列が設定されることである。
金額欄の相対読取位置1は,「総亮上」に対応する金額の文字列がどの部分に印字されているかを「総亮上」の文字列の位置からの相対位置で示す。ここで相対位置とは,例えば「総亮上」の文字列領域の左上角を原点としたときの金額欄の位置の座標である。金額欄の位置を読取文字1の位置からの相対位置で示すのは,同じレシートであっても,日によって実際にレシートに印字される行数が異なり,読取文字1の位置が可変であるからである。
2番目の読取項目の読取文字2「外税計」,3番目の読取項目の読取文字3「現計」についても,同様に識別コード,項目属性,読取文字,金額欄の相対読取位置のデータがレシート定義データとして格納される。
図7(B)のレシート定義データは,読取項目の文字列の確信度が低い場合の例であり,項目属性の属性値は2となっている。この場合,読取項目(例えば消費税)の認識の代わりとなる項目を代替項目(例えば小計)として定義し,「消費税」の金額欄の相対読取位置として代替項目である「小計」からの相対距離を設定する。「小計!消費税」の文字列中,「小計」が代替項目であり,「!」は区切り記号であり,「消費税」が本来の読取項目である。
次に,レシート定義データ作成装置1が実行する処理において特に本技術に関連する部分について,さらに詳しく説明する。
図8は,確信度算出部12が実行する確信度算出処理のフローチャートである。確信度は,認識文字列ごとに他の同種のレシートにおいても同じ文字列として認識されるであろうと推定される認識結果の安定性を示す値である。すなわち,確信度が高いほど,レシートを何枚認識しても同じ結果がでることが期待できるということを表す量である。この場合,認識結果が本来の文字列であるか誤認識であるかは問わない。
まず,ステップS401では,確信度算出部12は,確信度の算出対象となる項目の文字列の長さをLとし,リジェクト数Rを0に初期化する。次に,項目を構成する文字列ごとに,以下のステップS403〜S410の処理を繰り返す(ステップS402)。この例では,項目を構成する各文字ごとに,その文字が認識結果として適切であるか否かを判定し,適切である場合にはアクセプト,不適切である場合にはリジェクトとして,これをもとに確信度を算出する。
ステップS403では,認識文字(以下,カテゴリという)が存在するかどうかを判定する。カテゴリが存在しない場合,ステップS409へ進む。カテゴリが存在する場合,カテゴリに含まれる文字種によって,第1の閾値1と第2の閾値2を次のように設定する(ステップS404)。
・カテゴリに漢字を含む場合:閾値1=1800,閾値2=15
・カテゴリにカナを含む場合:閾値1=1800,閾値2=50
・カテゴリに数字を含む場合:閾値1=1570,閾値2=210
・カテゴリに他の文字を含む場合:閾値1=1700,閾値2=90
1位の認識候補の距離値(辞書の文字との相違度)と閾値1とを比較し,距離値のほうが大きい場合,ステップS409へ進む。そうでない場合,2位の認識候補が存在するかどうかを判定する(ステップS405)。2位の認識候補が存在しない場合,ステップS408へ進む。存在する場合,1位の認識候補の距離値と2位の認識候補の距離値との差の絶対値が閾値2より小さいかどうかを判定する。小さい場合,ステップS409へ進み,そうでない場合,ステップS408へ進む。
ステップS408では,その文字に対してアクセプトを記録する。一方,ステップS409では,その文字に対してリジェクトを記録し,リジェクト数Rに1を加算する。
以上の処理を項目のすべての文字について処理したならば,次のステップS411へ進み,そうでないならば,ステップS402へ戻る(ステップS410)。
ステップS411では,文字列のリジェクト数Rが確定するので,リジェクト数に応じて確信度を決定する処理に移る。
まず,リジェクト数Rが0かどうかを判定し(ステップS412),リジェクト数Rが0であれば,確信度を「安全」に設定する(ステップS413)。リジェクト数Rが0でない場合,リジェクトされた文字が2文字以上連続しているかどうかを判定し(ステップS414),2文字以上連続している場合には,確信度を「危険」に設定する(ステップS415)。そうでない場合,リジェクト数Rと文字列の長さLとの比(R/L)が,第3の閾値3(この例では,閾値3=0.4)より小さいかどうかを判定する(ステップS416)。閾値3より小さい場合,確信度を「注意」に設定し(ステップ417),そうでない場合,確信度を「危険」に設定する。
図10は,以上の確信度算出部12の処理によって確信度データ記憶部104に格納される確信度データのデータ構造の例を示している。図10の例において,判定状況のAはアクセプト,Rはリジェクトを表している。識別番号が文字列#14の項目は,認識文字列が「総売上」で,リジェクト数Rが0なので,確信度が「安全」に認定されている。一方,文字列#15の項目は,認識文字列が「丙悦計」で,リジェクトされた文字が2文字以上連続しているので,確信度が「危険」に認定されている。
以上の確信度の考え方は,以下のとおりである。
(1)リジェクト文字があれば,認識結果は信頼できない。ここでは,認識候補が1位の距離値の閾値1と,1位−2位の距離差の閾値2を用いて,アクセプトするかリジェクトするかを決める。アクセプトした認識結果は,ある意味で安定していると言え,リジェクトした認識結果は,不安定と言える。
(2)文字列長は,長いほど信頼できる。2文字の単語,5文字の単語について,ともにリジェクトした文字が1文字だけであるとすると,5文字の単語の認識結果のほうが信頼できる。
(3)数字より,漢字のほうが信頼できる。特徴量の少ない文字(数字など)は,距離値が相対的に小さくなるため,特徴量の多い文字(漢字など)と比べて,たとえ同じ距離値であるとしても,特徴量の多い文字(漢字など)のほうが信頼できる。
(4)連続してリジェクトの場合には,信頼できない。この場合,文字の切り出しが失敗している可能性が高いので信頼できない。
なお,この例では,確信度を「安全」,「注意」,「危険」の3種類に分類しているが,もちろん2種類だけでも,4種類以上に分類しても考え方は同じであり,同様に実施することができる。
図11は,「総売上」の各文字のリジェクト/アクセプトの判定例を示している。この例では,「総」の文字については,図11(A)に示すように,1位の認識文字の距離値(1571)と2位の認識文字の距離値(1581)との差(10)が,閾値2(15)より小さいので,図8のステップS407の判定により,リジェクトとなっている。
2番目の「売」の文字については,図11(B)に示すように,1位の認識文字の距離値(841)と2位の認識文字の距離値(1129)との差(288)が,閾値2(15)より大きいので,ステップS407の判定により,アクセプトとなっている。この場合,1位の認識文字は「亮」であり,実際には誤認識であるが,認識結果に安定性があると考えられるのでアクセプトと判定されている。
3番目の「上」の文字については,図11(C)に示すように,1位の認識文字の距離値(1641)と2位の認識文字の距離値(1785)との差(144)が,閾値2(15)より大きいので,ステップS407の判定により,アクセプトとなっている。
この認識結果が1位の文字列「総亮上」は,文字列長Lが3で,リジェクト数Rが1であり,リジェクト数Rと文字列長Lとの比(R/L=1/3)が,閾値3=0.4より小さいので,図9のステップS416の判定により,確信度が「注意」と設定されることになる。
本実施形態では,認識文字列の確信度を,認識文字列を構成する各文字のアクセプト/リジェクトを判定することにより決定しているが,本発明の実施は必ずしもこれに限られるわけではない。例えば,各文字の認識距離値を文字種により重み付けしたものの和や,それを文字数で除算して正規化したものなどを確信度として定義してもよい。要は,認識文字列の認識の安定性を示す値であることが重要であり,認識文字列の認識の安定性を示す値であれば,それを確信度として定義して用いることができる。
図12に,定義入力画面の構成例を示す。定義入力画面40には,レシート定義データを作成する施設とテナント(店舗)情報の表示領域の下に,売上管理項目一覧表示領域41,OCR読取定義一覧表示領域42,レシート画像表示領域43,計算式入力用領域44が設けられる。
売上管理項目一覧表示領域41には,売上管理項目一覧が表示される。売上管理項目一覧は,図5で説明した基本テーブルに格納されている売上管理項目の項目名称と,売上管理項目と読取項目とを対応づける計算式(演算式)が確定したときに,その計算式が表示される欄を持つ。
また,OCR読取定義一覧表示領域42には,操作員の入力操作によって入力されるOCRの読取項目や,レシート画像内においてその項目の領域情報が設定されたかどうかを示す情報(項目領域),その項目に対応する金額欄の領域情報が設定されたかどうかを示す情報(金額領域)が表示される。
レシート画像表示領域43には,読取機3で読み取ったレシートの画像(イメージデータ)が表示される。この領域の表示においては,スクロール,拡大/縮小などの機能が設けられている。
また,計算式入力用領域44には,入力された売上管理項目と読取項目とを対応づける計算式が操作員の入力によって表示される。
本実施形態では,定義入力画面表示部13が,レシート画像表示領域43にレシートのイメージを表示する際に,認識した文字列の確信度を示す情報を重畳させた表示を行う。図12の例では,読取項目の対象となる文字列を各々矩形の線で囲み,確信度に応じて表示色を変えている。例えば,「値引」,「総売上」,「現計」,「お買い物券」の文字列の確信度が「安全」であれば,これらの矩形が青色で表示され,「値引合計」,「商品券」の文字列の確信度が「注意」であれば,これらの矩形が黄色で表示され,「外税計」の文字列の確信度が「危険」であれば,この矩形が赤色で表示される。
OCR読取項目の定義は,レシート画像表示領域43におけるレシートイメージ内の矩形で囲まれた文字列を,OCR読取定義一覧表示領域42内のOCR読取定義一覧における項目領域(または読取項目)の欄にドラッグすることによって行われる。OCR読取定義一覧における読取項目のIDは,読取項目を一意に識別する識別子であり,自動で付与される。レシートイメージにおける項目領域が定まれば,項目領域の欄に○印が付けられる。その後に,読取項目に対応するレシートイメージにおける金額領域がクリックやドラッグ操作等により指定されると,OCR読取定義一覧における金額領域の欄にも○印が付けられて,1つの読取項目が定義されることになる。この操作を必要なすべての読取項目ごとに繰り返す。
なお,多くのレシートでは,読取項目の文字列の領域と,それに対応する金額の領域とが同じ行にあり,異なる行にあることは少ない。そこで,金額領域の入力操作を簡易化するために,入力データ処理部14の入力において,選択された読取項目と同じ行にある金額を示す文字列を金額の領域として仮に設定し,簡単な確認操作で,その金額の領域を本設定とするような実施も可能である。同じ行にない場合にだけ,OCR読取定義一覧における金額領域への金額を示す文字列のドラッグ・アンド・ドロップ操作により,操作された金額の領域を読取項目に対応する金額領域として設定する。
次に,計算式入力用領域44における計算式の入力により,売上管理項目一覧表示領域41内に表示されている売上管理項目一覧の各管理項目と,1または複数の読取項目との対応関係が定義される。例えば,売上管理項目の管理項目の名称は「消費税」であるが,レシート発行元の店舗によって「外税計」というように異なる名称を用いていることがある。図12の例の場合,「外税計」のIDは「b」であるので,売上管理項目の管理項目「消費税」を選択した後に,計算式入力用領域44に「b」の計算式を入力する。これにより,管理項目の「消費税」とレシート内の「外税計」とは同じものであることが認識されることになる。なお,計算式は,例えば「c+d」,「a×0.05」などというように複数のIDや定数と,所定の演算記号とを用いて指定することもできる。
図13は,定義入力画面40を用いた読取項目の定義の入力例を示している。例えば,レシート画像表示領域43におけるレシートイメージ内の「総売上」の文字列に,マウスポインタ45を合わせると,その文字列についてのOCR認識結果のポップアップ表示46が行われる。この例では,認識結果の「総亮上」がポップアップ表示されている。これを,OCR読取定義一覧表示領域42における項目領域の欄にドラッグ・アンド・ドロップすると,その認識結果の文字列「総亮上」が読取項目の欄に表示されることになる。
従来の方法では,「総亮上」は誤認識であるので,操作員はこれを本来の正しい「総売上」の文字列に修正することが一般的であるが,本実施形態では,「総亮上」が誤認識であっても,認識結果としての安定性があるので,このままレシート定義データとして用いられることになる。
図14は,入力データ処理部14による定義入力処理のフローチャートである。定義入力画面表示部13が前述したような定義入力画面40の初期画面を表示した後,入力データ処理部14は,操作員の入力を待ち合わせる(ステップS701)。操作員によって,レシートイメージにおける文字列領域がドラッグされると(ステップS702),ドラッグされた文字列情報を,図4で説明した認識文字列データ構造から読込んで,メモリ内に保持する(ステップS703)。
また,ドラッグ文字列のドロップであれば,ドロップ先がOCR読取定義一覧内の項目領域の欄かどうかを判定する(ステップS705)。ドロップ先が項目領域の場合,ステップS706へ進み,後述する読取項目設定処理を行う(ステップS706)。そうでない場合,ドロップ先がOCR読取定義一覧内の金額領域の欄かどうかを判定する(ステップS707)。ドロップ先が金額領域でない場合,何もしないでステップS701へ戻る。
ドロップ先が金額領域の場合,対応する項目領域がすでに設定されているかどうかを判定する(ステップS708)。未設定の場合,何もしないでステップS701へ戻る。設定されていれば,設定された読取項目について代替項目が設定されているかどうかを判定する(ステップS709)。代替項目が設定されていなければ,レシートイメージにおける項目領域の文字列からの金額領域の相対座標を算出し,OCR読取定義一覧内の金額領域の欄に○を表示する(ステップS710)。一方,代替項目が設定されている場合,レシートイメージにおける項目領域の代替項目の文字列からの金額領域の相対座標を算出し,OCR読取定義一覧内の金額領域の欄に○を表示する(ステップS711)。その後に,ステップS701へ戻る。
ドラッグやドロップの操作以外の操作であった場合(ステップS712),保存処理等の操作に対応した処理を行う。例えば,すべての項目の入力が終わり,操作員が「定義確定」のキーを押した場合には,定義データ作成部16によるレシート定義データの作成に移る。
図15は,図14に示したステップS706における読取項目設定処理の第1の例のフローチャートである。まず,保持する文字列情報の確信度を確信度データ記憶部104から取得する(ステップS721)。取得した確信度が安全かどうかを判定し(ステップS722),安全であれば,保持する文字列情報の認識文字列をOCR読取定義一覧内の読取項目欄に表示し,項目領域に○を表示する(ステップS723)。確信度が安全でなければ,操作員に対し,「注意」または「危険」の確信度に応じた警告メッセージを出力し(ステップS724),操作員の応答が「OK」であれば,ステップS723へ進む。操作員の応答が「OK」でなければ,何もしないで読取項目設定処理を終了する(ステップS725)。
図16は,図14に示したステップS706における読取項目設定処理の第2の例のフローチャートである。第2の例は,確信度に応じて,読取項目の代替項目を自動で選択する場合の例である。まず,保持する文字列情報の確信度を確信度データ記憶部104から取得する(ステップS731)。取得した確信度が安全かどうかを判定し(ステップS732),安全であれば,保持する文字列情報の認識文字列をOCR読取定義一覧内の読取項目欄に表示し,項目領域に○を表示する(ステップS733)。確信度が安全でなければ,レシートイメージ内において,保持する文字列の最も近くにある確信度が安全の文字列を取得する(ステップS734)。次に,取得した文字列の認識文字列を代替項目として読取項目欄に表示し,項目領域に○を表示する(ステップS735)。
図17は,代替項目の設定例を示す図である。前述した代替項目の設定について,さらに詳しく説明する。
今,図17(A)に示すように,OCR読取定義一覧表示領域42において,レシート画像表示領域43から,消費税の文字列のドラッグ・アンド・ドロップ操作が行われたとする。この文字列「消費税」の認識結果の確信度が調べられる。その確信度が「安全」の場合,そのまま読取項目の設定処理が続けられ,次に「消費税」に対応する金額「¥7,234」の項目の金額領域へのドラッグ・アンド・ドロップ操作(または選択操作でもよい)によって,「消費税」の読取項目が定義される。
文字列「消費税」の確信度が「安全」でない場合,図17(B)に示すように,「確信度が低い文字列が設定されました。代替項目での設定を推奨します。」というような警告メッセージを出力し,操作員の応答を待つ。操作員が「OK」のボタンを押した場合,そのまま「消費税」を読取項目として設定する。一方,操作員が「代替項目設定」のボタンを押した場合,代替項目の設定処理に移行する。
確信度が低い「消費税」の文字列に対する代替項目を設定する場合,操作員は,図17(C)のレシート画像表示領域43における「小計」のような確信度が「安全」で読取が容易なレシート項目を代替項目として指定する。代替項目は,本来の読取項目(消費税)の上側であっても下側であってもどちらでもよいが,行が近いほうが望ましい。この例のように,「小計」が代替項目として指定されると,消費税に対応する金額「¥7,234」の相対読取位置の情報は,レシート定義データ内において,「消費税」からの相対位置ではなく,読取が容易な「小計」からの相対位置が定義される。
また,代替項目によって定義されたことを示すために,OCR読取定義一覧表示領域42内では,図17(D)に示すように,代替項目「小計」と本来の読取項目「消費税」とが所定の区切記号「!」で連結されて表示される。レシート定義データ内においても,図7(B)で説明したように,読取項目が「小計!消費税」と定義され,代替項目によって定義されたことが示される。
なお,選択された読取項目の文字列の確信度が「注意」であった場合に,図15で説明した第1の例の読取項目設定処理を行い,選択された読取項目の文字列の確信度が「危険」であった場合に,図16で説明した第2の例の読取項目設定処理を行うというように,確信度に応じて設定処理を変えるような実施も可能である。
すなわち,入力データ処理部14は,確信度に応じて,レシートイメージにおいて選択された読取項目の文字列の確信度よりも大きい確信度を持つ他の文字列が所定の範囲内に存在する場合に,前記他の文字列を,選択された読取項目の文字列の代替文列として設定することを推奨するメッセージを表示したり,または,前記他の文字列を前記読取項目の文字列の代替文字列として設定するようなこともできる。
以上のような定義入力画面40からの入力によって,定義データ作成部16は,図7で説明したようなレシート定義データを作成し,定義データ記憶部105に保存することができる。
以上のレシート定義データを作成する処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。
1 レシート定義データ作成装置
2 レシート
3 読取機
4 表示装置
5 入力装置
10 画像データ読込部
12 確信度算出部
13 定義入力画面表示部
14 入力データ処理部
15 座標取得部
16 定義データ作成部
101 画像データ記憶部
102 基本データ記憶部
103 店舗マスタ
104 確信度データ記憶部
105 定義データ記憶部

Claims (5)

  1. レシート認識システムがレシートの認識に用いる,少なくともレシート内の読取項目の文字列を定義する情報を含むレシート定義データを作成するレシート定義データ作成装置であって,
    レシートのイメージデータを含む画像データを記憶する画像データ記憶手段と,
    前記レシートのイメージデータに対する文字認識処理により認識した文字列の認識安定性を示す確信度を,前記文字列を構成する各文字の認識結果の確かさを示す値から算出する確信度算出手段と,
    前記画像データ記憶手段に記憶されたレシートのイメージデータにおいて前記認識した文字列の確信度を示す情報をレシート内の文字画像に重畳させたイメージ表示画面を含む定義入力画面を表示する定義入力画面表示手段と,
    前記イメージ表示画面において選択された文字列を読取項目として入力する入力データ処理手段と,
    前記入力データ処理手段が入力した読取項目の文字列が誤認識であるか否かにかかわらず,認識結果の文字列を読取項目とするレシート定義データを作成する定義データ作成手段と,
    作成されたレシート定義データを記憶する定義データ記憶手段とを備える
    ことを特徴とするレシート定義データ作成装置。
  2. 請求項1記載のレシート定義データ作成装置において,
    前記定義入力画面は,レシートにおいて読取対象となる読取項目の文字列を表示する読取定義画面を含み,
    前記入力データ処理手段は,前記イメージ表示画面における文字列に対する前記読取定義画面への操作員によるドラッグ・アンド・ドロップ操作により,読取項目を入力する
    ことを特徴とするレシート定義データ作成装置。
  3. 請求項2記載のレシート定義データ作成装置において,
    前記読取定義画面は,前記読取項目に対応する金額の領域の設定を示す金額領域表示画面を有し,
    前記入力データ処理手段は,入力された読取項目と同じ行にある金額を示す文字列を金額の領域として仮に設定し,確認操作があった場合にその金額の領域を本設定とし,または,前記金額領域表示画面への金額を示す文字列のドラッグ・アンド・ドロップ操作があった場合に,操作された金額の領域を本設定とし,
    前記定義データ作成手段は,前記読取項目とそれに対応する金額の領域を示す情報を含むレシート定義データを作成する
    ことを特徴とするレシート定義データ作成装置。
  4. 請求項1,請求項2または請求項3記載のレシート定義データ作成装置において,
    前記入力データ処理手段は,前記イメージ表示画面において選択された第1の文字列の確信度がある基準の値よりも小さい場合に,前記第1の文字列の代替文字列を設定することを推奨するメッセージを表示するか,または,前記第1の文字列よりも確信度の大きいレシート内の第2の文字列を前記第1の文字列の代替文字列として設定し,
    前記定義データ作成手段は,前記第2の文字列が前記第1の文字列の代替文字列として設定された場合に,前記第1の文字列の代わりに前記第2の文字列を読取項目とするレシート定義データを作成する
    ことを特徴とするレシート定義データ作成装置。
  5. コンピュータを,請求項1から請求項4までのいずれか1項に記載されたレシート定義データ作成装置が備える前記画像データ記憶手段,前記確信度算出手段,前記定義入力画面表示手段,前記入力データ処理手段,前記定義データ作成手段,および,前記定義データ記憶手段として機能させるためのレシート定義データ作成プログラム。
JP2013004279A 2013-01-15 2013-01-15 レシート定義データ作成装置およびそのプログラム Active JP6100532B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013004279A JP6100532B2 (ja) 2013-01-15 2013-01-15 レシート定義データ作成装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013004279A JP6100532B2 (ja) 2013-01-15 2013-01-15 レシート定義データ作成装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2014137605A true JP2014137605A (ja) 2014-07-28
JP6100532B2 JP6100532B2 (ja) 2017-03-22

Family

ID=51415094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013004279A Active JP6100532B2 (ja) 2013-01-15 2013-01-15 レシート定義データ作成装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6100532B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126356A (ja) * 2014-12-26 2016-07-11 ブラザー工業株式会社 画像処理プログラム、画像処理方法、及び画像処理装置
JP2018018465A (ja) * 2016-07-29 2018-02-01 セイコーエプソン株式会社 情報処理装置、情報処理装置の制御方法、及び、プログラム
JPWO2016186137A1 (ja) * 2015-05-18 2018-03-08 株式会社スキャる 会計支援システム
JP6462930B1 (ja) * 2018-03-28 2019-01-30 AI inside株式会社 文字認識装置、方法およびプログラム
JP2019133379A (ja) * 2018-01-31 2019-08-08 セイコーエプソン株式会社 画像処理装置および画像処理プログラム
WO2019194028A1 (ja) * 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
WO2019194026A1 (ja) * 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP2020042316A (ja) * 2018-09-06 2020-03-19 富士ゼロックス株式会社 情報処理装置及びプログラム
US11528387B2 (en) 2020-07-22 2022-12-13 Ricoh Company, Ltd. Information processing apparatus, method and non-transitory recording medium storing program codes for replacing color of character pixel based on selection of first and second processing methods

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014041442A (ja) * 2012-08-22 2014-03-06 Fujitsu Marketing Ltd レシート定義データ作成装置およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014041442A (ja) * 2012-08-22 2014-03-06 Fujitsu Marketing Ltd レシート定義データ作成装置およびプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126356A (ja) * 2014-12-26 2016-07-11 ブラザー工業株式会社 画像処理プログラム、画像処理方法、及び画像処理装置
JPWO2016186137A1 (ja) * 2015-05-18 2018-03-08 株式会社スキャる 会計支援システム
JP2018018465A (ja) * 2016-07-29 2018-02-01 セイコーエプソン株式会社 情報処理装置、情報処理装置の制御方法、及び、プログラム
JP7081179B2 (ja) 2018-01-31 2022-06-07 セイコーエプソン株式会社 画像処理装置および画像処理プログラム
JP2019133379A (ja) * 2018-01-31 2019-08-08 セイコーエプソン株式会社 画像処理装置および画像処理プログラム
JP6462930B1 (ja) * 2018-03-28 2019-01-30 AI inside株式会社 文字認識装置、方法およびプログラム
JP2019175037A (ja) * 2018-03-28 2019-10-10 AI inside株式会社 文字認識装置、方法およびプログラム
WO2019194028A1 (ja) * 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP2019185138A (ja) * 2018-04-02 2019-10-24 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
US11328504B2 (en) 2018-04-02 2022-05-10 Nec Corporation Image-processing device for document image, image-processing method for document image, and storage medium on which program is stored
WO2019194026A1 (ja) * 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
US11514700B2 (en) 2018-04-02 2022-11-29 Nec Corporation Image-processing device, image-processing method, and storage medium on which program is stored
JP2020042316A (ja) * 2018-09-06 2020-03-19 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7268311B2 (ja) 2018-09-06 2023-05-08 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11528387B2 (en) 2020-07-22 2022-12-13 Ricoh Company, Ltd. Information processing apparatus, method and non-transitory recording medium storing program codes for replacing color of character pixel based on selection of first and second processing methods

Also Published As

Publication number Publication date
JP6100532B2 (ja) 2017-03-22

Similar Documents

Publication Publication Date Title
JP6100532B2 (ja) レシート定義データ作成装置およびそのプログラム
JP5385349B2 (ja) レシート定義データ作成装置およびそのプログラム
JP5204208B2 (ja) レシートデータ照合支援装置およびレシートデータ照合支援プログラム
JP5216890B2 (ja) レシートデータ認識装置およびそのプログラム
JP6874729B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP5202677B2 (ja) レシートデータ認識装置およびそのプログラム
JP5702342B2 (ja) レシート定義データ作成装置およびプログラム
US11514700B2 (en) Image-processing device, image-processing method, and storage medium on which program is stored
Nurminen Algorithmic extraction of data in tables in PDF documents
JP2019185137A (ja) 画像処理装置、画像処理方法およびプログラム
JP2019159898A (ja) 計算機及びテンプレート管理方法
JP2016177383A (ja) 識別番号検索システム及び識別番号検索方法
WO2019194052A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
CN111428725A (zh) 数据结构化处理方法、装置和电子设备
JP6507459B2 (ja) 会計処理システム
JP7111143B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN114913537A (zh) 一种生成结构化数据的方法及装置
JP2001005804A (ja) 文字認識装置を利用したデータベース登録方法
JPH1131046A (ja) 筆記データ入力装置およびそのプログラム記録媒体
WO2019193923A1 (ja) 画像処理装置、画像処理方法および記録媒体
JP7160432B2 (ja) 画像処理装置、画像処理方法、プログラム
JP3732254B2 (ja) フォーマット情報生成方法及びフォーマット情報生成装置
CN112434997A (zh) 日期生成装置、控制方法和非暂时性计算机可读介质
JP2007280413A (ja) 財務諸表自動入力装置
JP2001312694A (ja) 多種類の帳票認識方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170223

R150 Certificate of patent or registration of utility model

Ref document number: 6100532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350