JP2012226402A - Receipt data recognition device and program therefor - Google Patents

Receipt data recognition device and program therefor Download PDF

Info

Publication number
JP2012226402A
JP2012226402A JP2011090594A JP2011090594A JP2012226402A JP 2012226402 A JP2012226402 A JP 2012226402A JP 2011090594 A JP2011090594 A JP 2011090594A JP 2011090594 A JP2011090594 A JP 2011090594A JP 2012226402 A JP2012226402 A JP 2012226402A
Authority
JP
Japan
Prior art keywords
receipt
item name
data
character
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011090594A
Other languages
Japanese (ja)
Other versions
JP5216890B2 (en
Inventor
Kazunari Nozaki
一成 野崎
Yasuhiro Umemura
泰広 梅村
Kiichiro Watanabe
起一郎 渡邊
Rie Hasada
理恵 羽佐田
Junya Suzuki
惇也 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Computer Technologies Ltd
Fujitsu Marketing Ltd
Original Assignee
Fujitsu Computer Technologies Ltd
Fujitsu Marketing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Computer Technologies Ltd, Fujitsu Marketing Ltd filed Critical Fujitsu Computer Technologies Ltd
Priority to JP2011090594A priority Critical patent/JP5216890B2/en
Priority to CN201110292415.7A priority patent/CN102737224B/en
Publication of JP2012226402A publication Critical patent/JP2012226402A/en
Application granted granted Critical
Publication of JP5216890B2 publication Critical patent/JP5216890B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To correctly and efficiently collect sales management data from an individual tenant shop and improve a speed and efficiency in sales management work at the tenant.SOLUTION: For a recognition character read from a receipt image, a receipt data extraction part 141 extracts a recognition character matching a character string of an item name registered in definition data different for each shop; a same-name determination part 140 obtains a position of a recognition character matching an anchor character or plural keywords, both of which are registered in the definition data, if an item name corresponding to the extracted recognition character is defined, in the definition data, that another character string having the same item name exists in the receipt; a receipt data identification part 144 extracts a recognition character representing a money-amount item using that position and the position of the extracted recognition characters; and a sale management data generation part 15 outputs, or stores, data of the recognition result based on a recognition character matching the item name and a recognition character representing the money-amount item.

Description

本発明は,レシートデータ認識装置およびそのプログラムに関し,特に,例えばショッピングモールなどの複数の店舗の売上を管理するために,文字認識により読み取ったレシートデータから必要なデータを正確に抽出する技術に関するものである。   The present invention relates to a receipt data recognition apparatus and a program thereof, and more particularly to a technique for accurately extracting necessary data from receipt data read by character recognition in order to manage sales at a plurality of stores such as a shopping mall. It is.

ショッピングセンター,ショッピングモール等に出店するテナント(店舗を運営する会社など)の店舗を管理するテナント管理部門では,各店舗の一日の売上を収集し,現金売上,クーポン売上,…といった売上内訳(売上管理項目)を作成している。この売上内訳作成の際には,各店舗から提供される精算レシートが集められて,売上管理項目の数値を算出することが行われる。しかし,各店舗から提供される精算レシートの形式は,店舗ごとに導入されているPOSシステムに依存するため,さまざまな形式で作成されているのが現状である。そのため,テナント管理部門が処理する精算レシートは,項目の種類,項目名,印字サイズ,印字字体などにおいて多種多様である。   The tenant management department that manages stores of tenants (such as companies that operate stores) that open stores in shopping centers, shopping malls, etc. collects daily sales for each store, and breakdowns of sales such as cash sales, coupon sales, etc. ( Sales management item). When creating the sales breakdown, payment receipts provided from each store are collected and the numerical value of the sales management item is calculated. However, since the format of the payment receipt provided from each store depends on the POS system installed in each store, it is currently created in various formats. Therefore, the payment receipt processed by the tenant management department has a wide variety of items, item names, print sizes, print fonts, and the like.

例えば,精算レシートの項目の名称について,売上合計,売上計,合計売上,総売上,…等は,同等の内容を示すものであっても,POSシステムによって異なる名称が印字されている。また,出店するテナントの店舗の入れ替えなどが頻繁に行われるため,新たな精算レシートの形式にも対応しなければならない。そのため,テナント管理部門では,精算レシートを統一された売上データとして集計する売上集計作業に莫大な労力を要し,そのための人的および時間的負担に多大なコストを要しているのが現状である。   For example, regarding the names of the items on the payment receipt, even though the total sales, total sales, total sales, total sales, etc. indicate the same contents, different names are printed depending on the POS system. In addition, since the tenant's store that opens a store is frequently replaced, a new payment receipt format must also be supported. For this reason, the tenant management department currently requires enormous labor for the work of totaling the payment receipts as unified sales data, and the human and time burden for that is enormous. is there.

なお,特許文献1には,文書画像認識装置が開示されている。この文書画像認識装置では,文書画像を参照して文字を構成する成分の集合を抽出し,これをもとに横および縦の行候補を抽出し,行候補に対して信頼度を推定する。その後,推定した行信頼度に基づいて確度の高い行の集合を抽出し,その結果をもとに確度の高い行の集合の文字成分の配置を用いて傾きを推定する。そして,文書画像を構成する基礎要素の集合から行方向の確定した行集合を抽出し,行同士の関連付けによる段抽出と段を制約とした行抽出とを相互に実行して行と段を抽出する。   Note that Patent Document 1 discloses a document image recognition apparatus. In this document image recognition apparatus, a set of components constituting a character is extracted with reference to a document image, horizontal and vertical line candidates are extracted based on the set, and reliability is estimated for the line candidates. Thereafter, a set of lines with high accuracy is extracted based on the estimated line reliability, and the inclination is estimated using the arrangement of the character components of the set of lines with high accuracy based on the result. Then, a line set with a fixed line direction is extracted from the set of basic elements that make up the document image, and a line and a stage are extracted by associating the lines with each other and performing a line extraction with a stage as a constraint. To do.

また,特許文献2には,レシート処理装置が開示されている。このレシート処理装置では,レシートの画像から文字を認識してテキストデータを生成し,テキストデータから所定の文字列を選択し,選択された所定の文字列が含まれる行位置を検出する。そして,検出された行位置に基づいて定まるテキストデータ上の所定の行範囲から行を単位とするラインデータを順に選択し,ラインデータから品目に関わるデータを抽出する。   Patent Document 2 discloses a receipt processing apparatus. In this receipt processing apparatus, text data is generated by recognizing characters from the receipt image, a predetermined character string is selected from the text data, and a line position including the selected predetermined character string is detected. Then, line data in units of lines is sequentially selected from a predetermined line range on the text data determined based on the detected line position, and data relating to the item is extracted from the line data.

特開平11−219407号公報JP 11-219407 A 特開2004−164218号公報JP 2004-164218 A

前述したような,ショッピングセンター等の各店舗から提供される精算レシート(以下,レシートという)を集計するために,ショッピングセンター等を運営する会社(組織)のテナント管理部門では,従来,事務員が目視でレシートを読み取り,読み取ったデータを手作業でデータ処理装置に入力していた。この売上集計作業の作業量は,店舗数が100店舗以上に及ぶこともあり,しかも毎日行わなければならない作業であるため,非常に負担が大きいものであった。   In the tenant management department of a company (organization) that operates a shopping center or the like, the clerk has traditionally used to collect the payment receipts (hereinafter referred to as receipts) provided by each store such as a shopping center. The receipt was read visually, and the read data was manually input to the data processing device. The work amount of the sales totaling work is very heavy because the number of stores may reach 100 stores or more and must be performed every day.

この負担を軽減するための一案としては,各店舗の売上データ(レシートデータ)を,各店舗の端末からネットワークを介して自動収集することが考えられる。しかし,一般に各店舗は企業体が異なるため,個々にネットワーク開設の許諾を得る必要があり,さらに導入されているシステムによって接続するネットワーク種類やアプリケーションの追加・修正の難易度が異なるなど,解決が困難な問題が存在する。   As a proposal for reducing this burden, it is conceivable to automatically collect sales data (receipt data) of each store from a terminal of each store via a network. However, in general, each store has a different corporate body, so it is necessary to obtain permission to open the network individually, and the type of network to be connected and the difficulty of adding / modifying applications differ depending on the installed system. There are difficult problems.

既存のシステムの変更,特に各店舗における端末などの情報機器の変更をできるだけ行わないで,前述した作業負担を軽減する他の案としては,レシートデータを人間が読み取るのではなく,文字画像の認識によって読み取る方法が考えられる。すなわち,各店舗のレシートを,例えばOCR(Optical Character Recognition )機能を有する読取装置,スキャナー等で読み取り,読み取ったレシート項目とその数値データについて売上管理項目に必要なものを抽出し,売上管理データに入力し直す方法である。   Another way to reduce the above-mentioned work load by changing the existing system, especially information devices such as terminals in each store as much as possible, is to recognize character images instead of reading receipt data by humans. The reading method can be considered. That is, the receipt of each store is read by, for example, a reader or scanner having an OCR (Optical Character Recognition) function, and the necessary receipt items and their numerical data are extracted as sales management items, and the sales management data is extracted. This is a method to re-enter.

しかし,この方法の場合にも,一般的な従来の文字画像の認識では解決できない問題を解決しなければならない。次に,この問題について説明する。   However, even in this method, it is necessary to solve a problem that cannot be solved by the conventional recognition of character images. Next, this problem will be described.

OCR機能を有する読取装置等によりレシートを読み取らせる場合,売上管理データを集計するために必要なレシートに印字されるレシート項目と,売上管理項目との対応関係を予め登録し,読取装置等から読み取ったレシート画像から必要なレシート項目を抽出する必要がある。例えば,その場合の解決できない問題を,図16および図17に従って,以下に説明する。   When a receipt is read by a reading device or the like having an OCR function, the correspondence between the receipt item printed on the receipt necessary for collecting sales management data and the sales management item is registered in advance and read from the reading device or the like. It is necessary to extract necessary receipt items from the receipt image. For example, problems that cannot be solved in that case will be described below with reference to FIGS.

図16および図17は,レシート項目と売上管理項目との対応関係の一例を説明する図である。特に,図16では,レシート内にレシート項目の項目名称に同一名称がない場合の例を示し,図17では,レシート内にレシート項目の項目名称(レシート項目名称)に同一名称が複数存在する場合の例を示す。   16 and 17 are diagrams for explaining an example of the correspondence between receipt items and sales management items. In particular, FIG. 16 shows an example in which the receipt item name does not have the same name in the receipt, and FIG. 17 shows that there are a plurality of receipt item names (receipt item names) in the receipt. An example of

例えば,図16に示すように,印字されたレシート22uには,売上管理項目1001uの「総売上」に対応するレシート項目名称「総売上」が,レシート22u内の行Line#101のみに印字されている。また,同様に,売上管理項目1001uの「商品券」に対応するレシート項目名称「商品券」が,レシート22u内の行Line#102のみに印字されている。売上管理項目1001uのその他の「クレジット売上」および「消費税」に対応するレシート項目名称についても,レシート22u内の行Line#103および行Line#104にのみ,各々,「クレジット」および「税合計」が印字されている。すなわち,図16に示すレシート22uには,売上管理項目の対象となるレシート項目について,同一名称のレシート項目名称が存在しない。   For example, as shown in FIG. 16, on the printed receipt 22u, the receipt item name “total sales” corresponding to “total sales” of the sales management item 1001u is printed only on the line Line # 101 in the receipt 22u. ing. Similarly, the receipt item name “gift certificate” corresponding to “gift certificate” of the sales management item 1001u is printed only on the line Line # 102 in the receipt 22u. As for other receipt item names corresponding to “credit sales” and “consumption tax” of the sales management item 1001u, only “line” # 103 and line # 104 in the receipt 22u are “credit” and “tax total”, respectively. "Is printed. That is, in the receipt 22u shown in FIG. 16, there is no receipt item name with the same name for the receipt item that is the target of the sales management item.

一方,図17に示すレシート22vでは,売上管理項目1001vの「総売上」に対応するレシート項目名称「総売上」が,レシート22v内の行Line#201,#204,#206の複数の箇所(異なる行)に印字されている。また,売上管理項目1001v の「商品券」に対応するレシート項目名称「商品券在高」が,レシート22v内の行Line#202のみに印字されている。売上管理項目1001v の「クレジット売上」については,レシート22v内の行Line#203,#205,#207に,「クレジット在高」という名称で複数の箇所(3箇所)に印字されている。すなわち,図17に示すレシート22vには,売上管理項目の対象となるレシート項目について同一名称のレシート項目名称が複数存在している。なお,売上管理項目1001vの「消費税」に対応するレシート項目名称は,レシート22vに印字されていないものとする。   On the other hand, in the receipt 22v shown in FIG. 17, the receipt item name “total sales” corresponding to “total sales” of the sales management item 1001v has a plurality of locations (line # 201, # 204, # 206 in the receipt 22v ( It is printed on a different line. In addition, the receipt item name “gift certificate stock” corresponding to “gift certificate” in the sales management item 1001v is printed only on the line Line # 202 in the receipt 22v. The “credit sales” of the sales management item 1001v is printed at a plurality of locations (three locations) with the name “credit amount” on the lines Line # 203, # 205, # 207 in the receipt 22v. That is, in the receipt 22v shown in FIG. 17, there are a plurality of receipt item names having the same name for the receipt item that is the target of the sales management item. Note that the receipt item name corresponding to “consumption tax” in the sales management item 1001v is not printed on the receipt 22v.

図17では,売上管理項目として本来抽出すべきレシート項目名称に対応する金額項目は,グループG#1の行Line#201〜203にある金額項目である。グループG#2およびG#3の行Line#204〜207にある「総売上」および「クレジット在高」は,店舗内の担当者グループごとの内訳を示しており,これらは,テナント管理部門が売上管理項目として必要とするレシート項目ではない。レシート項目名称が同一の名称で,かつ,金額内容が異なるものが複数存在する場合,例えば図17に示すレシート22vでは,複数の段落ごとの小計として印字されており,売上管理項目1001vの「総売上」に対応するレシート項目名称「総売上」として,OCR処理による文字認識だけでは,その中の抽出すべきレシート項目と区別できない。すなわち,レシート項目名称だけでは,売上管理項目として抽出すべきレシートデータか否かを判断できない。   In FIG. 17, the amount item corresponding to the receipt item name that should be extracted as the sales management item is the amount item in the line Line # 201 to 203 of the group G # 1. The “total sales” and “credit balance” in the line Line # 204 to 207 of the groups G # 2 and G # 3 indicate the breakdown for each person in charge group in the store. It is not a receipt item required as a sales management item. If there are a plurality of receipt item names having the same name and different monetary contents, for example, the receipt 22v shown in FIG. 17 is printed as a subtotal for each of the plurality of paragraphs. The receipt item name “total sales” corresponding to “sales” cannot be distinguished from the receipt item to be extracted only by character recognition by OCR processing. That is, it is not possible to determine whether or not the receipt data is to be extracted as a sales management item only by the receipt item name.

これらを区別するために,例えば上端のレシート印字位置を基準とした位置データを用いることも考えられる。しかし,固定位置を基準とする位置データを用いる場合には,その日のレシートの印字内容で,空行や複数のレシート項目の増減が生じるような,位置データが変わるPOSシステムには対応できない。実際には,店舗ごとの精算レシートは,その日の印字内容で,空行や複数のレシート項目の増減する場合が多い。   In order to distinguish these, for example, it is conceivable to use position data based on the receipt print position at the upper end. However, when using position data with a fixed position as a reference, it is not possible to cope with a POS system in which position data changes such that a blank line or a plurality of receipt items increase or decrease depending on the printed contents of the receipt of the day. Actually, the payment receipt for each store often increases or decreases the number of blank items or a plurality of receipt items depending on the printing contents of the day.

上述したように,レシートに印字されるレシート項目名称に,同一名称が複数存在し,その各々に対応する金額が異なる内容の金額項目である場合に,このようなレシートを読取装置等で読み取り,レシートの数値データをOCR処理すると,本来抽出すべきレシート項目名称と対応しない金額項目が抽出されて処理されることがあり,売上管理データに集計エラーが発生することになる。これを回避するために,上述したような同一名称のレシート項目が存在するような店舗の精算レシートは,売上管理項目を手作業で集計しなければならず,またそのように手作業で集計した場合でも,同一名称であるため,作業者が集計箇所を誤認することもある。そのために,精算レシートを照合する作業が必要となり,人的負担が軽減されない。   As described above, when a receipt item name printed on a receipt has a plurality of identical names, and the amount corresponding to each of the receipt item names is different, the receipt is read by a reading device or the like. When the receipt numerical data is subjected to OCR processing, a monetary item that does not correspond to the receipt item name that should be extracted may be extracted and processed, resulting in an aggregation error in the sales management data. In order to avoid this, the sales receipts for stores where there are receipt items with the same name as described above must be manually counted for sales management items. Even in this case, since the names are the same, the worker may misidentify the counting points. For this reason, it is necessary to check the settlement receipt, and the human burden is not reduced.

本発明は,以上の点に鑑み,各店舗の情報機器などの現状のシステムを大幅に変えることなく,各テナントの店舗のレシートから売上管理データを正確かつ効率よく収集し,売上管理業務におけるスピード化,効率化を図ることを目的としている。   In view of the above, the present invention collects sales management data accurately and efficiently from the receipts of each tenant's store without significantly changing the current system of each store's information device, etc. The purpose is to improve efficiency and efficiency.

本発明は,例えば店舗ごとに印刷されたレシートを,統一された売上管理項目に集計し直すために,レシート画像を読み取り得られた認識文字について,レシートを発行した店舗ごとに異なる定義データに登録されたレシート内の項目名称の文字列と,読取り対象の項目名称と同一の名称が存在するか否かの情報と,レシート内に同一の項目名称を持つ他の文字列が存在する場合に,当該項目名称とレシート印字位置が関連付けられている他の項目名称の文字列との位置情報とから,レシート内の項目名称において同一である項目名称が複数存在する場合に,売上管理項目として抽出すべきレシートデータか否かを判断して,必要な認識文字を抽出し,抽出された認識文字の位置データから,認識文字とその位置データから金額項目を表す認識文字を抽出し,項目名称に一致する認識文字と金額項目を表す認識文字とから,認識結果のデータを出力または記憶することを特徴とする。   In the present invention, for example, in order to recalculate receipts printed for each store into a unified sales management item, recognition characters obtained by reading receipt images are registered in different definition data for each store that issued the receipt. If there is a character string of the item name in the received receipt, information on whether or not the same name as the item name to be read exists, and another character string with the same item name in the receipt, Extracted as a sales management item when there are multiple item names that are the same in the item name in the receipt from the position information of the item name and the character string of the other item name associated with the receipt print position. Judgment is made on receipt data, and necessary recognition characters are extracted, and from the extracted recognition character position data, the recognition character and the authorization item representing the monetary item from the position data are extracted. It extracts character, from the recognized character representing the recognized character and amount fields that match the item name, and outputs or stores the data of the recognition result.

すなわち,レシート画像を読取機で読み取るときに,正確にレシート内の項目と金額を読み取ることができるようにしたものであり,複数の異なる形式で印刷されたレシートから,読取り対象となる項目名称と同一の項目名称が複数存在した場合であっても,売上管理項目として必要な項目のみを正確に抽出して,売上管理に必要なレシート内の項目と金額を,認識結果のデータとして出力または記憶することができるようにしている。詳しくは,本発明は以下の手段を備える。   In other words, when the receipt image is read by a reader, the items and the amount in the receipt can be read accurately. From the receipts printed in a plurality of different formats, the name of the item to be read Even if there are multiple items with the same item name, only the items necessary for sales management are accurately extracted, and the items and amounts in the receipt necessary for sales management are output or stored as recognition result data. To be able to. Specifically, the present invention includes the following means.

(1)本発明は,レシートデータ認識装置が,レシート画像を文字認識することにより得られた認識文字とその位置データとを記憶する画像データ記憶部と,レシートに印字される項目名称の文字列と,レシート内に同一の項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート内に同一の項目名称を持つ他の文字列が存在する場合に,前記項目名称とレシート印字位置が関連付けられている他の項目名称の文字列であるアンカー文字と,前記項目名称の文字列と前記アンカー文字間の距離の情報とを,レシートにおける読取り対象となる各項目名称ごとに定義した定義データを記憶する定義データ記憶部と,前記画像データ記憶部に記憶された認識文字から前記定義データに定義された項目名称の文字列に一致する認識文字を抽出するレシートデータ抽出部と,抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,対応する前記アンカー文字に一致する認識文字の位置を取得し,その位置と前記抽出された認識文字の位置との距離を算出する同一名称判定部と,前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,前記算出された距離と,前記定義データにおいて定義されている距離の情報とを比較し,最も近い距離の認識文字を,読取り対象の項目名称として特定し,前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在しないと定義されている場合に,前記抽出された認識文字を,読取り対象の項目名称として特定するレシートデータ特定部と,前記読取り対象の項目名称と,その項目名称に一致する認識文字に対応する金額項目を表す認識文字とから,認識結果のデータを生成し,認識結果のデータを出力または記憶するデータ生成部とを備えることを特徴とする。   (1) The present invention provides an image data storage unit for storing a recognized character obtained by character recognition of a receipt image and its position data, and a character string of an item name printed on the receipt. Information indicating whether there is another character string having the same item name in the receipt, and the item name and receipt when there is another character string having the same item name in the receipt. Define anchor characters, which are character strings of other item names associated with print positions, and information on the distance between the character string of the item name and the anchor character for each item name to be read in a receipt. A definition data storage unit for storing the definition data, and a recognition character that matches the character string of the item name defined in the definition data from the recognition character stored in the image data storage unit. Corresponds when the receipt data extraction unit to be issued and the item name corresponding to the extracted recognized character are defined in the definition data that there is another character string having the same item name in the receipt The same name determination unit that obtains the position of the recognized character that matches the anchor character, calculates the distance between the position and the position of the extracted recognized character, and the item name corresponding to the extracted recognized character is: When it is defined that another character string having the same item name exists in the receipt in the definition data, the calculated distance is compared with the distance information defined in the definition data. , Identify the closest recognized character as the item name to be read, and the item name corresponding to the extracted recognized character is the same item name in the receipt in the definition data. If the other character string is defined not to exist, the receipt data specifying unit for specifying the extracted recognized character as the item name to be read, the item name to be read, and the item name A data generation unit that generates recognition result data from the recognized character representing the money item corresponding to the matching recognized character and outputs or stores the recognition result data is provided.

これによって,レシートを読み取り得られるレシート画像について,読取り対象となる各項目名称ごとに,レシート内の項目名称の文字列と,読取り対象の項目名称と同一の名称が存在するか否かの情報と,レシート内の項目名称において同一である項目名称が複数存在する場合に,定義データにレシート内の項目名称と関連付けられたユニークな項目名称であるアンカー文字との位置情報の関連付けとが定義データに登録されているため,レシート内の項目名称において同一である項目名称が複数存在する場合であっても,レシート画像を読み取り得られた認識文字について,アンカー文字に一致する認識文字を抽出することにより,抽出された認識文字と読取り対象の項目名称と一致する認識文字の位置データの関係を用いて,読取り対象の項目名称とそれに対応する金額項目を表す認識文字を正確に抽出し,認識結果のデータを出力または記憶することができる。   Thus, for a receipt image from which a receipt can be read, for each item name to be read, a character string of the item name in the receipt and information on whether or not the same name as the item name to be read exists. When there are multiple item names that are the same among the item names in the receipt, the definition data includes the association of position information with the anchor character that is a unique item name associated with the item name in the receipt in the definition data. Even if there are multiple item names that are the same among the item names in the receipt, by extracting the recognized characters that match the anchor characters for the recognized characters obtained by reading the receipt image , Using the relationship between the extracted recognized character and the position data of the recognized character that matches the item name to be read. It can be of the item name and recognized character representing the amount fields corresponding thereto accurately extracted, and outputs or stores the data of the recognition result.

(2)また,本発明は,レシートデータ認識装置が,レシート画像を文字認識することにより得られた認識文字とその位置データとを記憶する画像データ記憶部と,レシートに印字される項目名称の文字列と,レシート内に同一の項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート内に同一の項目名称を持つ他の文字列が存在する場合に,前記項目名称とレシート印字位置が関連付けられている他の項目名称の文字列である複数のキーワードの情報とを,レシートにおける読取り対象となる各項目名称ごとに定義した定義データを記憶する定義データ記憶部と,前記画像データ記憶部に記憶された認識文字から前記定義データに定義された項目名称の文字列に一致する認識文字を抽出するレシートデータ抽出部と,抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,その項目名称に対して定義されている前記複数のキーワードに一致する複数の認識文字が存在するか否かを判定する同一名称判定部と,前記複数のキーワードに一致する複数の認識文字が存在する場合に,前記複数のキーワードに一致する複数の認識文字の中の前記定義データに定義された項目名称の文字列に一致する認識文字を,読取り対象の項目名称として特定し,前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在しないと定義されている場合に,前記抽出された認識文字を,読取り対象の項目名称として特定するレシートデータ特定部と,前記読取り対象の項目名称と,その項目名称に一致する認識文字に対応する金額項目を表す認識文字とから,認識結果のデータを生成し,認識結果のデータを出力または記憶するデータ生成部とを備えることを特徴とする。   (2) Further, according to the present invention, the receipt data recognition apparatus stores an image data storage unit for storing a recognized character obtained by character recognition of a receipt image and its position data, and an item name printed on the receipt. If a character string, information indicating whether there is another character string having the same item name in the receipt, and another character string having the same item name in the receipt, the item name A definition data storage unit for storing definition data defined for each item name to be read in a receipt, and information on a plurality of keywords that are character strings of other item names associated with receipt print positions; A receipt data extracting unit that extracts a recognized character that matches the character string of the item name defined in the definition data from the recognized character stored in the image data storage unit; If the item name corresponding to the recognized character is defined in the definition data as another character string having the same item name in the receipt, the plurality of items defined for the item name A plurality of recognitions that match the plurality of keywords when there are a plurality of recognition characters that match the plurality of keywords and the same name determination unit that determines whether or not there are a plurality of recognition characters that match the keywords A recognized character that matches the character string of the item name defined in the definition data in the character is identified as the item name to be read, and the item name corresponding to the extracted recognized character is in the definition data. A receipt that identifies the extracted recognized character as the item name to be read when it is defined that no other character string having the same item name exists in the receipt A recognition result data is generated from the data identification unit, the item name to be read, and the recognition character representing the monetary item corresponding to the recognition character matching the item name, and the recognition result data is output or stored And a data generation unit.

これによって,レシート内の項目名称の文字列と,読取り対象の項目名称と同一の名称が存在するか否かの情報と,レシート内の項目名称において同一である項目名称が複数存在する場合に,定義データにレシート内の項目名称と関連付けられた複数のキーワードの一群との位置情報の関連付けとが定義データに登録されているため,レシート内の項目名称において同一である項目名称が複数存在する場合であっても,レシート画像を読み取り得られた認識文字について,複数のキーワードに一致する認識文字を抽出することにより,抽出された認識文字と読取り対象の項目名称と一致する認識文字の位置データの関係を用いて,読取り対象の項目名称とそれに対応する金額項目を表す認識文字を正確に抽出し,認識結果のデータを出力または記憶することができる。   As a result, when there are multiple item names that are the same in the item name character string in the receipt, information on whether or not the same name as the item name to be read exists, and the item name in the receipt, When there is more than one item name that is the same in the item name in the receipt, because the definition data has registered in the definition data the positional information association with a group of keywords associated with the item name in the receipt Even so, by extracting the recognized characters that match a plurality of keywords for the recognized characters obtained by reading the receipt image, the position data of the recognized characters that match the extracted recognized characters and the item name to be read Using the relationship, the recognition character representing the item name to be read and the corresponding monetary item is extracted accurately, and the recognition result data is output or It can be stored.

(3)また,本発明は,さらに前記発明のいずれかにおいて,前記レシートは,店舗ごとに異なるフォーマットで印刷されたレシートであり,前記定義データ記憶部には,店舗ごとに前記定義データが記憶され,レシートを発行した店舗ごとに異なる定義データを用いて,前記レシートデータ抽出部と,前記同一名称判定部と,前記レシートデータ特定部と,前記データ生成部とによる処理を実行することを特徴とする。   (3) Further, according to the present invention, in any one of the above inventions, the receipt is a receipt printed in a different format for each store, and the definition data storage unit stores the definition data for each store. The receipt data extraction unit, the same name determination unit, the receipt data identification unit, and the data generation unit execute processing using different definition data for each store that issued the receipt. And

これによって,店舗ごとに印刷されたレシートの項目名称や印字位置が異なる場合であっても,店舗ごとに項目名称とそれに対応する金額欄の相対位置とを定義データに登録するため,店舗ごとのレシート項目名称およびそれに対応する金額欄の位置の相違に関係なく,レシート画像から必要なレシートデータを読み取ることができる。   As a result, even if the item name and print position of the receipt printed at each store are different, the item name and the relative position of the corresponding amount field are registered in the definition data for each store. The necessary receipt data can be read from the receipt image regardless of the difference between the receipt item name and the position of the corresponding money amount column.

(4)また,本発明は,さらに前記発明において,前記定義データ記憶部に記憶される定義データは,前記レシートに印字される項目名称の文字列に対応して,複数の店舗の売上管理に共通に用いられる管理項目名称のデータを含み,前記データ生成部は,前記項目名称に一致する認識文字を,前記定義データに定義された対応する管理項目名称に変換した認識結果のデータを生成することを特徴とする。   (4) Further, according to the present invention, in the above invention, the definition data stored in the definition data storage unit corresponds to the character string of the item name printed on the receipt and is used for sales management of a plurality of stores. The data generation unit includes data of a management item name used in common, and the data generation unit generates recognition result data obtained by converting a recognition character matching the item name into a corresponding management item name defined in the definition data. It is characterized by that.

これによって,店舗ごとに印刷されたレシートの項目名称や印字位置が異なる場合であっても,事前に入力された売上管理項目に変換すべきレシート項目について,店舗ごとに項目名称とそれに対応する金額欄の相対位置とを定義データに登録するため,店舗ごとのレシート項目名称およびそれに対応する金額欄の位置の相違に関係なく,レシート画像から必要なレシートデータを読み取り,統一した売上管理データを生成することができる。   As a result, even if the item name and print position of the receipt printed at each store are different, the item name and the corresponding amount for each receipt item to be converted into the sales management item input in advance. Regardless of the difference between the receipt item name for each store and the position of the corresponding monetary amount column, the necessary receipt data is read from the receipt image and unified sales management data is generated to register the relative position of the column in the definition data. can do.

本発明の効果は以下のとおりである。
(1)レシートから売上管理項目に必要なレシート項目を予め定義データに登録することにより,それらを用いて自動的に必要なレシートデータを抽出することができるため,売上情報の入力作業の省力化およびスピード化が達成できる。
(2)レシートから売上管理項目に必要なレシート項目について項目名称に同一の名称が複数存在する場合に,その中で売上管理項目に必要な金額に関する相対位置を,他のユニークな項目名称または複数のキーワードとなる項目名称の一群の位置情報に関連付けて定義データに登録できるため,レシートデータの抽出の誤認識を回避し,正しいレシートデータを抽出することができる。このため,チェック作業の省力化およびスピード化が達成できる。
(3)予め店舗ごとに登録,設定された定義データによって,どのような種類のレシートであるか,どのような項目名称を有し,金額に関する相対位置などの情報を画像の解析に利用することができ,文字認識などを含めて読み取りの精度を高めることができる。
(4)また,レシートの項目が異なる各店舗のレシートデータから,売上管理部門が必要とする基本的なデータを統一的に収集し,売上管理データベースなどに保存することができるようになる。
The effects of the present invention are as follows.
(1) By registering the receipt items necessary for sales management items from the receipt in advance in the definition data, the necessary receipt data can be automatically extracted using them. And speeding up can be achieved.
(2) Receipt items required for sales management items from receipts When there are multiple item names with the same name, the relative position of the amount required for the sales management item is changed to another unique item name or multiple items. Since it can be registered in the definition data in association with a group of position information of the item name as a keyword, it is possible to avoid erroneous recognition of receipt data extraction and to extract correct receipt data. For this reason, labor and speed of the check work can be achieved.
(3) Using the definition data registered and set in advance for each store, what kind of receipt it has, what item name it has, and information such as the relative position with respect to the amount of money is used for image analysis Reading accuracy, including character recognition.
(4) Further, basic data required by the sales management department can be uniformly collected from the receipt data of each store having different receipt items, and stored in a sales management database or the like.

本発明の実施形態の装置構成例を示す図である。It is a figure which shows the apparatus structural example of embodiment of this invention. レシート挟持用シートを説明する図である。It is a figure explaining the sheet | seat for receipt clamping. 売上管理項目とレシート項目との対応関係の例を示す図である。It is a figure which shows the example of the correspondence of a sales management item and a receipt item. 本発明の実施形態に係るレシートデータ認識装置の処理フローチャートである。It is a process flowchart of the receipt data recognition apparatus which concerns on embodiment of this invention. レシート画像の例を示す図である。It is a figure which shows the example of a receipt image. 認識文字データの一例を示す図である。It is a figure which shows an example of recognition character data. 認識文字テーブルの例を示す図である。It is a figure which shows the example of a recognition character table. 定義データテーブルを説明する図である。It is a figure explaining a definition data table. レシートデータ処理のフローチャートである。It is a flowchart of a receipt data process. 同一名称判定処理のフローチャートである。It is a flowchart of the same name determination process. 同一名称判定処理のフローチャートである。It is a flowchart of the same name determination process. レシートとそれに対応する定義データの一例を示す図である。It is a figure which shows an example of a receipt and the definition data corresponding to it. レシートとそれに対応する定義データの一例を示す図である。It is a figure which shows an example of a receipt and the definition data corresponding to it. 売上管理データ生成処理のフローチャートである。It is a flowchart of a sales management data generation process. 売上管理DBの例を示す図である。It is a figure which shows the example of sales management DB. 本発明の課題を説明する図である。It is a figure explaining the subject of this invention. 本発明の課題を説明する図である。It is a figure explaining the subject of this invention.

以下,図面を用いながら,本発明の実施の形態について詳細に説明する。なお,以下では,主に店舗売上を集計する装置の例について説明するが,本発明は売上集計に限られるわけではなく,仕入集計データやその他の伝票などに印字された実績データを集計するための装置などにも同様に適用することができる。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the following, an example of an apparatus for totalizing store sales will be described. However, the present invention is not limited to sales totalization, and totals actual data printed on purchase total data or other slips. The present invention can be applied to a device for the same.

図1は,本発明の概要を説明するための装置構成例を示す。図1において,1はCPUおよびハードディスクやメモリ等の記憶装置等から構成され,レシートから読み取ったデータをもとに売上の集計に関する処理を実行するレシートデータ認識装置,20は各店舗に対応付けられた識別コード21(図2に示す)がマーキングされ,各店舗のレシート22を挟持するレシート挟持用シートである。レシート22は,店舗ごとに異なるフォーマットで印刷されたレシートである。   FIG. 1 shows an apparatus configuration example for explaining the outline of the present invention. In FIG. 1, reference numeral 1 is composed of a CPU and a storage device such as a hard disk and a memory, etc., and a receipt data recognition device for executing processing relating to sales aggregation based on data read from a receipt, and 20 is associated with each store. This is a receipt holding sheet that is marked with the identification code 21 (shown in FIG. 2) and holds the receipt 22 of each store. The receipt 22 is a receipt printed in a different format for each store.

なお,レシート22は,テナントの店舗ごとに,例えば一日の店舗の売上を各店舗に備えられたキャッシュレジスタなどで集計した結果が印刷されたものである。また,これらのレシート22は,売上集計に関する一例として示したものであり,売上集計以外にも,仕入集計,その他帳票処理に関するものであってもよい。   The receipt 22 is printed for each tenant's store, for example, the result of totaling the sales of the store in one day using a cash register provided in each store. Further, these receipts 22 are shown as an example related to sales aggregation, and may be related to purchase aggregation and other form processing in addition to sales aggregation.

最初に,レシート挟持用シート20について説明する。図2は,レシート挟持用シート20の一実施態様の構成を示す図である。特に,図2(A)は,レシート挟持用シート20を透明フィルム231側から見た上面図であり,図2(B)は,レシート挟持用シート20においてレシート22が透明シート23に挟持される前の状態を説明する斜視図である。   First, the receipt clamping sheet 20 will be described. FIG. 2 is a diagram showing a configuration of one embodiment of the receipt clamping sheet 20. 2A is a top view of the receipt sandwiching sheet 20 as viewed from the transparent film 231 side, and FIG. 2B is a receipt sandwiching sheet 20 in which the receipt 22 is sandwiched by the transparent sheet 23. FIG. It is a perspective view explaining the previous state.

図2(A)に示すように,例えばレシート挟持用シート20は各店舗のレシート22を台紙付の透明シート23に挟持する。透明シート23の上右端隅には,当該店舗に対応する識別コード21(QRコード(登録商標)などの2次元コード等)が印刷,またはシールなどでマーキングされる。   As shown in FIG. 2A, for example, the receipt holding sheet 20 holds a receipt 22 of each store on a transparent sheet 23 with a mount. In the upper right corner of the transparent sheet 23, an identification code 21 (two-dimensional code such as QR code (registered trademark)) corresponding to the store is printed or marked with a seal or the like.

図2(B)に示すように,透明シート23は,例えば透明フィルム(シート)231と台紙232とが一端233で接続(粘着等)されており,レシート22を挟持する前の状態では透明シート23が半開封状態にある。この半開封状態の透明シート23の台紙232上にレシート22が載せられ,例えば密着面が多少粘着性を有する透明フィルム231と台紙232とが貼り合わされることにより,レシート22が挟持される。なお,前述の識別コード21は,例えば台紙232の上右端隅に位置決めされた範囲で,印刷,シールなどによりマーキングされる。   As shown in FIG. 2B, the transparent sheet 23 is, for example, a transparent film (sheet) 231 and a mount 232 connected (adhesive or the like) at one end 233, and in a state before the receipt 22 is sandwiched, 23 is in a half-opened state. The receipt 22 is placed on the mount 232 of the transparent sheet 23 in the semi-opened state, and the receipt 22 is sandwiched, for example, by adhering the mount 232 and the transparent film 231 having a slightly adhesive surface. The above-described identification code 21 is marked by printing, sticking, or the like within a range positioned at the upper right corner of the mount 232, for example.

次に,レシートデータ認識装置1が処理する,店舗ごとのレシート22におけるレシート項目と,テナント管理部門が集計する売上管理項目との対応関係について説明する。   Next, the correspondence relationship between the receipt items in the receipt 22 for each store and the sales management items counted by the tenant management department, which is processed by the receipt data recognition apparatus 1, will be described.

図3は,売上管理項目とレシート項目との対応関係の一例を示す図である。図3の例では,テナント管理部門が店舗の売上管理に実際に必要な売上集計のデータは,No.1の現金売上からNo.11の客数までの11個の売上管理項目である。しかし,これらの売上管理項目が各店舗のレシート22のレシート項目として,そのまま1対1の関係で印字されていることはない。そこで,店舗ごとの対応関係情報1022(1022a)を用いて,各店舗のレシート項目から11個の各売上管理項目を算出する処理を行う。   FIG. 3 is a diagram illustrating an example of a correspondence relationship between sales management items and receipt items. In the example of FIG. 3, the sales summary data actually required by the tenant management department for store sales management is “No. No. 1 cash sales 11 sales management items up to 11 customers. However, these sales management items are not printed as a one-to-one relationship as receipt items of the receipt 22 of each store. Therefore, processing for calculating each of the eleven sales management items from the receipt item of each store is performed using correspondence information 1022 (1022a) for each store.

図3に示すレシート22aの場合,14番目のレシート項目の「現金売上金額」が,No.1の売上管理項目の「現金売上」に相当することが,対応関係情報1022(1022a)に示されている。その他の売上管理項目についても,それぞれ対応関係情報1022によって対応付けられる。なお,図3に示すような店舗ごとの売上管理項目とレシート項目との対応関係情報1022(1022a)は,定義データ記憶部102(図1に示す)に予め登録され,格納される。   In the case of the receipt 22 a shown in FIG. 3, the “cash sales amount” of the 14th receipt item is “No. Correspondence information 1022 (1022a) indicates that it corresponds to “cash sales” of one sales management item. Other sales management items are also associated with each other by the correspondence information 1022. The correspondence information 1022 (1022a) between the sales management item and the receipt item for each store as shown in FIG. 3 is registered and stored in advance in the definition data storage unit 102 (shown in FIG. 1).

図3では,レシート22aに示すレシート項目が,例えば14番目に「現金売上金額」等と示しているが,実際には,14番目(n番目)がレシート内の最上段の位置から固定した行の位置にあるわけではない。店舗の当日のレシート集計結果により,n番目以前のレシート項目で印字行数が増えたり,また印刷時に省かれるレシート項目などがある。このため,レシートデータ認識装置1では,レシート項目におけるレシート項目名称とそれに対応する金額項目の相対位置(相対的な金額欄の位置)とを含む定義データを予め登録し,対応関係情報1022(1022a)と共に用いることで,上記課題の解決を図っている。   In FIG. 3, the receipt item shown in the receipt 22a is, for example, 14th “cash sales amount” or the like, but in actuality, the 14th (nth) row is fixed from the top position in the receipt. Is not in the position. Depending on the result of receipt collection on the day of the store, the number of print lines increases in the nth or earlier receipt items, or there are receipt items that are omitted during printing. Therefore, in the receipt data recognition apparatus 1, definition data including the receipt item name in the receipt item and the relative position (position of the relative amount column) of the corresponding amount item is registered in advance, and correspondence information 1022 (1022a) ) Is used to solve the above problems.

レシートデータ認識装置1は,以上のような定義データおよび対応関係情報1022(1022a)に従って,店舗コードごとに,「売上日付」,売上管理項目No.1「現金売上」,No.2「掛売上」,No.3「クレジット売上」,…などの売上に関する項目に対応する金額を集計し,売上管理データ記憶部103に格納する。そのために,レシートデータ認識装置1は,以下に説明する処理を実行する。   The receipt data recognizing device 1 determines the “sales date”, the sales management item No., for each store code in accordance with the definition data and the correspondence information 1022 (1022a) as described above. 1 “Cash Sales”, No. 1 2 “Multiple sales”, No. 2 3 Amounts corresponding to items related to sales such as “credit sales”,... Are aggregated and stored in the sales management data storage unit 103. For this purpose, the receipt data recognition apparatus 1 executes processing described below.

レシートデータ認識装置1は,レシート挟持用シート20からレシート22を読み取る。レシートデータ認識装置1は,レシート22についての定義データを用いて,レシート項目中の項目名称および金額を含むレシートデータを抽出する。レシートデータ認識装置1は,売上管理項目とレシート項目との対応関係情報1022(1022a)を用いて,抽出したレシートデータの項目を売上管理データに変換する。すなわち,売上管理データに必要となるレシート項目が抽出され,レシート項目の金額が売上管理データとして集計される。   The receipt data recognition device 1 reads a receipt 22 from a receipt holding sheet 20. The receipt data recognition device 1 uses the definition data for the receipt 22 to extract receipt data including the item name and amount in the receipt item. The receipt data recognition apparatus 1 converts the extracted receipt data item into sales management data using the correspondence information 1022 (1022a) between the sales management item and the receipt item. That is, receipt items necessary for the sales management data are extracted, and the amounts of the receipt items are aggregated as sales management data.

以上のように,レシートデータ認識装置1は,レシート22を発行した店舗ごとに定義データを用いて,レシートデータ認識処理を実行する。   As described above, the receipt data recognition device 1 executes the receipt data recognition process using the definition data for each store that issued the receipt 22.

以下,上述したレシートデータ認識処理を実行するための,図1に示すレシートデータ認識装置1の構成について,具体的に説明する。   The configuration of the receipt data recognition apparatus 1 shown in FIG. 1 for executing the receipt data recognition process described above will be specifically described below.

画像データ記憶部101は,読取機10により読み取られたレシート挟持用シート20の画像データを記憶する。画像データは,レシート22の画像をOCR処理することにより得られた認識文字およびその座標(位置データ)を含むデータである。さらに,画像データは,識別コード21を含んでもよい。また,画像データ記憶部101は,画像データに関連付けて,レシート挟持用シート20の画像ファイル,例えばビットマップ形式ファイル等を格納してもよい。   The image data storage unit 101 stores the image data of the receipt sandwiching sheet 20 read by the reader 10. The image data is data including a recognized character and its coordinates (position data) obtained by performing OCR processing on the image of the receipt 22. Furthermore, the image data may include an identification code 21. The image data storage unit 101 may store an image file of the receipt sandwiching sheet 20 such as a bitmap format file in association with the image data.

定義データ記憶部102は,レシートデータ認識装置1に用いられる定義データを格納する記憶手段である。定義データは,店舗ごとにレシート22のレシート項目および金額の位置などの情報を含む。   The definition data storage unit 102 is a storage unit that stores definition data used in the receipt data recognition apparatus 1. The definition data includes information such as the receipt item of the receipt 22 and the position of the amount for each store.

具体的には,定義データには,レシート22に印字されるレシート項目名称の文字列に対応して,複数の店舗の売上管理に共通に用いられる売上管理項目名称が登録される。例えば,定義データは,レシート22に印字されるレシート項目名称の文字列と,レシート項目名称のレシート内位置からの,そのレシート項目名称に対応する金額項目の相対位置データとを含み,レシート22における読取り対象となるレシート項目の項目名称(レシート項目名称)ごとに定義される。このような定義データは,集計する店舗のレシート22ごとに,予め作成され,定義データ記憶部102に格納される。なお,定義データの詳細は,図8を用いて後述する。   Specifically, in the definition data, sales management item names that are commonly used for sales management of a plurality of stores are registered corresponding to the character string of the receipt item name printed on the receipt 22. For example, the definition data includes a receipt item name character string printed on the receipt 22 and a relative position data of a monetary item corresponding to the receipt item name from the position in the receipt of the receipt item name. It is defined for each item name (receipt item name) of a receipt item to be read. Such definition data is created in advance for each receipt 22 of the store to be tabulated and stored in the definition data storage unit 102. Details of the definition data will be described later with reference to FIG.

さらに,定義データには,レシート22に印字されるレシート項目名称の文字列と,レシート22内に同一のレシート項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート22内に同一のレシート項目名称を持つ他の文字列が存在する場合に,レシート項目名称とレシート印字位置が関連付けられている他のレシート項目名称の文字列であるアンカー文字と,レシート項目名称の文字列とアンカー文字間の距離の情報とが,レシートにおける読取り対象となるレシート項目名称ごとに,登録される。   Further, the definition data includes a character string of the receipt item name printed on the receipt 22, information indicating whether another character string having the same receipt item name exists in the receipt 22, and the receipt 22 If there is another character string with the same receipt item name, the anchor character that is the character string of the other receipt item name associated with the receipt item name and the receipt print position, and the character string of the receipt item name And information on the distance between anchor characters are registered for each receipt item name to be read in the receipt.

もしくは,定義データには,レシート22に印字されるレシート項目名称の文字列と,レシート22内に同一のレシート項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート22内に同一のレシート項目名称を持つ他の文字列が存在する場合に,レシート項目名称とレシート印字位置が関連付けられている他のレシート項目名称の文字列である複数のキーワードの情報とが,レシート22における読取り対象となるレシート項目名称ごとに,登録される。   Alternatively, the definition data includes a character string of the receipt item name printed on the receipt 22, information indicating whether another character string having the same receipt item name exists in the receipt 22, and the receipt 22 If there is another character string having the same receipt item name in the receipt 22, the receipt item name and the information of a plurality of keywords that are character strings of other receipt item names associated with the receipt print position are the receipt 22. Is registered for each receipt item name to be read.

売上管理データ記憶部103は,レシートデータ認識装置1が生成する売上管理データを保存する記憶手段である。売上管理データは,店舗ごとに異なるレシート項目を統一した売上管理項目に対応させて,各店舗のレシート項目の金額を収集した結果のデータである。なお,売上管理データの詳細は,図15を用いて後述する。   The sales management data storage unit 103 is a storage unit that stores sales management data generated by the receipt data recognition apparatus 1. The sales management data is data obtained as a result of collecting the amounts of the receipt items of each store in association with the sales management items in which the receipt items different for each store are unified. Details of the sales management data will be described later with reference to FIG.

読取機10は,画像のスキャンニングに光学方式などを用いて,レシート挟持用シート20の画像を読み取る装置である。読取機10は,レシート挟持用シート20が入力されると,レシート挟持用シート20を画像データに変換する。画像データは,例えば画像ファイル,OCRによる認識文字データを含む。読取機10は,変換した画像データを画像データ記憶部101に保存する。例えば,読取機10は,スキャナー,OCR処理装置などの周知の技術によるものである。   The reader 10 is an apparatus that reads an image on the receipt sandwiching sheet 20 by using an optical method or the like for image scanning. When the receipt holding sheet 20 is input, the reader 10 converts the receipt holding sheet 20 into image data. The image data includes, for example, an image file and character data recognized by OCR. The reader 10 stores the converted image data in the image data storage unit 101. For example, the reader 10 is based on a known technique such as a scanner or an OCR processing device.

画像データ読込部11は,画像データ記憶部101に保存された画像データを読み出す。なお,画像データ読込部11が,レシートデータ認識装置1の外部の入力装置から画像データを入力してもよい。外部の入力装置は,読取装置,ネットワーク装置などである。この場合には,例えばネットワーク等を介して,レシートデータ認識装置1の設置場所以外に設置されている読取装置で入力されたレシート挟持用シート20の画像データを,入力装置(図示しない)が入力し,画像データ記憶部101に保存する。   The image data reading unit 11 reads the image data stored in the image data storage unit 101. Note that the image data reading unit 11 may input image data from an input device external to the receipt data recognition device 1. The external input device is a reading device, a network device, or the like. In this case, an input device (not shown) inputs the image data of the receipt sandwiching sheet 20 input by a reading device installed at a location other than the installation location of the receipt data recognition device 1 via a network or the like. And stored in the image data storage unit 101.

店舗特定部12は,レシート挟持用シート20の識別コード21を識別して,店舗コード(または店舗)を特定する。なお,図1の構成例では,店舗コードのための識別コード21がレシート挟持用シート20上に認識マーク化されているが,店舗コードの読み取り方法は本実施例に限定されない。例えば,レシート22の読み取りの際に,ユーザが,店舗コードをテンキー,カードリーダなどの外部の入力装置を介して入力してもよい。その場合には,外部の入力装置から入力された店舗コードを店舗特定部12が受ける。また,読取機10がレシート挟持用シート20の識別コード21を読み取り,店舗特定部12がその読み取られた識別コード21から店舗コードを特定してもよい。   The store specifying unit 12 specifies the store code (or store) by identifying the identification code 21 of the receipt sandwiching sheet 20. In the configuration example of FIG. 1, the identification code 21 for the store code is formed as a recognition mark on the receipt sandwiching sheet 20, but the method of reading the store code is not limited to this embodiment. For example, when reading the receipt 22, the user may input the store code via an external input device such as a numeric keypad or a card reader. In that case, the store specifying unit 12 receives a store code input from an external input device. Alternatively, the reader 10 may read the identification code 21 of the receipt holding sheet 20 and the store specifying unit 12 may specify the store code from the read identification code 21.

定義データ読込部13は,店舗特定部12により特定された店舗コードを受けると,定義データ記憶部102から店舗コードに対応付けられた定義データを検索する。定義データ読込部13は,定義データ記憶部102から検索した定義データを読み出し,読み出した定義データをレシートデータ処理部14に送る。   When the definition data reading unit 13 receives the store code specified by the store specifying unit 12, the definition data reading unit 13 searches the definition data storage unit 102 for definition data associated with the store code. The definition data reading unit 13 reads the definition data retrieved from the definition data storage unit 102 and sends the read definition data to the receipt data processing unit 14.

レシートデータ処理部14は,店舗コードごとの定義データを用いて,画像データからレシート項目名称およびその金額を含むレシートデータを抽出し,抽出したレシートデータから売上管理項目に必要となるレシートデータを特定する。そのために,レシートデータ処理部14は,図1に示すように,以下の機能部を含む。   The receipt data processing unit 14 uses the definition data for each store code to extract receipt data including the receipt item name and its amount from the image data, and specifies the receipt data required for the sales management item from the extracted receipt data. To do. For this purpose, the receipt data processing unit 14 includes the following functional units as shown in FIG.

レシートデータ抽出部141は,画像データ記憶部101に記憶された画像データの認識文字データから,定義データに定義されたレシート項目名称の文字列に一致する認識文字を検索し,その認識文字データを抽出する。認識文字データは,予めレシートデータ認識装置1が備える辞書(図示しない)による候補文字と,OCR処理による認識文字との相違度を示す値と,文字の範囲を示す相対的な座標位置(相対位置)を含む。なお,認識文字データについては,図6を用いて後述する。   The receipt data extraction unit 141 searches the recognized character data of the image data stored in the image data storage unit 101 for a recognized character that matches the character string of the receipt item name defined in the definition data, and uses the recognized character data. Extract. The recognized character data includes a value indicating a difference between a candidate character by a dictionary (not shown) provided in the receipt data recognition device 1 in advance and a recognized character by OCR processing, and a relative coordinate position (relative position) indicating a character range. )including. The recognized character data will be described later with reference to FIG.

同一名称判定部140は,レシートデータ抽出部141により画像データから抽出された認識文字について,該当するレシート項目名称がレシート22内に同一名称の項目名称を含むか否か,定義データを用いて判定する。   The same name determination unit 140 determines whether the corresponding receipt item name includes the item name of the same name in the receipt 22 for the recognized characters extracted from the image data by the receipt data extraction unit 141 using the definition data. To do.

具体的には,同一名称判定部140は,抽出された認識文字に該当するレシート項目名称が,定義データ中でレシート22内に同一のレシート項目名称を持つ他の文字列が存在すると定義されている場合に,そのレシート項目名称に対して定義されている,例えばアンカー文字または複数のキーワードに一致する認識文字が存在するか否かを判定する。   Specifically, the same name determination unit 140 is defined such that the receipt item name corresponding to the extracted recognized character exists in the definition data as another character string having the same receipt item name in the receipt 22. If there is a recognized character that matches the anchor character or a plurality of keywords defined for the receipt item name, for example.

ここで,アンカー文字とは,売上管理項目の対象となるレシート項目名称に,レシート印字位置などの位置情報と関連付けられた,他のレシート項目名称の中でユニークな項目名称である。複数のキーワードとは,売上管理項目の対象となるレシート項目名称を含み,かつレシート印字位置などの位置情報と関連付けられた,他のレシート項目名称を1または複数含むキーワードの一群であり,当該キーワードの一群が,例えばレシート行として連続となるものである。   Here, the anchor character is a unique item name among other receipt item names associated with the position information such as the receipt printing position, etc., on the receipt item name to be the target of the sales management item. The plurality of keywords are a group of keywords including one or a plurality of other receipt item names that include a receipt item name to be a sales management item and are associated with position information such as a receipt printing position. For example, one group is continuous as a receipt line.

同一名称判定部140は,画像データからアンカー文字および複数のキーワードを検出するために,アンカー文字検出部142およびキーワード検出部143を有する。以下,アンカー文字検出部142およびキーワード検出部143について説明する。   The same name determination unit 140 includes an anchor character detection unit 142 and a keyword detection unit 143 in order to detect an anchor character and a plurality of keywords from image data. Hereinafter, the anchor character detection unit 142 and the keyword detection unit 143 will be described.

(1)アンカー文字検出処理
アンカー文字検出部142は,読み取ったレシート22に対応する定義データについて,読取り対象のレシート項目の項目名称が,定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義され,かつアンカー文字が定義されている場合に,以下のように,アンカー文字の検出処理を実行する。
(1) Anchor character detection processing The anchor character detection unit 142 determines whether the item name of the receipt item to be read has the same item name in the receipt in the definition data for the definition data corresponding to the read receipt 22. When a character string is defined to exist and an anchor character is defined, anchor character detection processing is executed as follows.

アンカー文字検出部142は,定義データの読取文字に関連付けられてアンカー文字が設定されている場合に,画像データ記憶部101に記憶された画像データから,設定されているアンカー文字に一致する認識文字の位置を取得し,その位置と抽出された認識文字の位置との距離を算出する。   The anchor character detection unit 142 recognizes a recognition character that matches the set anchor character from the image data stored in the image data storage unit 101 when the anchor character is set in association with the read character of the definition data. And the distance between the position and the extracted recognized character position is calculated.

(2)複数のキーワード検出処理
キーワード検出部143は,読み取ったレシート22に対応する定義データについて,読取り対象のレシート項目の項目名称が,定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義され,かつ複数のキーワードが定義されている場合に,以下のように,複数のキーワード検出処理を実行する。
(2) Multiple Keyword Detection Processes The keyword detection unit 143 determines whether the item name of the receipt item to be read has the same item name in the receipt in the definition data for the definition data corresponding to the read receipt 22. When a character string is defined to exist and a plurality of keywords are defined, a plurality of keyword detection processes are executed as follows.

キーワード検出部143は,定義データの読取文字に関連付けられて複数のキーワードが設定されている場合に,画像データ記憶部101に記憶された画像データから,設定されている複数のキーワードに一致する複数の認識文字が存在するか否かを判定する。   When a plurality of keywords are set in association with the read characters of the definition data, the keyword detection unit 143 matches a plurality of set keywords from the image data stored in the image data storage unit 101. It is determined whether or not a recognized character exists.

(3)レシート22内に同一名称が存在し,かつアンカー文字が検出された場合
レシートデータ特定部144は,アンカー文字検出部142によりアンカー文字が検出された場合に,算出された距離と,定義データにおいて設定されている距離の情報とを比較し,検出されたアンカー文字の認識文字に最も近い距離の認識文字を,読取り対象のレシート項目の項目名称(レシート項目名称)として特定する。
(3) When the same name exists in the receipt 22 and an anchor character is detected The receipt data specifying unit 144 defines the calculated distance and definition when the anchor character is detected by the anchor character detecting unit 142 The distance information set in the data is compared, and the recognized character closest to the detected anchor character is identified as the item name (receipt item name) of the receipt item to be read.

(4)レシート22内に同一名称が存在し,かつ複数キーワードが検出された場合
レシートデータ特定部144は,キーワード検出部143により複数のキーワードが検出された場合に,複数のキーワードの中で一つのレシート項目名称の文字列に一致する認識文字を,読取り対象のレシート項目の項目名称として特定する。
(4) When the same name exists in the receipt 22 and a plurality of keywords are detected When the keyword detection unit 143 detects a plurality of keywords, the receipt data specifying unit 144 selects one of the keywords. A recognized character that matches the character string of one receipt item name is specified as the item name of the receipt item to be read.

(5)レシート22内に同一名称が存在しない場合
一方,レシートデータ特定部144は,レシートデータ抽出部141により抽出された認識文字に該当するレシート項目名称が,定義データ中でレシート内に同一のレシート項目名称を持つ他の文字列が存在しないと定義されている場合に,抽出された認識文字を,読取り対象のレシート項目の項目名称として特定する。
(5) When the same name does not exist in the receipt 22 On the other hand, the receipt data specifying unit 144 has the same receipt item name corresponding to the recognized character extracted by the receipt data extracting unit 141 in the receipt in the definition data. When it is defined that there is no other character string having the receipt item name, the extracted recognized character is specified as the item name of the receipt item to be read.

(6)特定された認識文字をレシートデータとして特定
レシートデータ特定部144は,(3)〜(5)のいずれかで特定した認識文字の位置データと,読取り対象のレシート項目の項目名称に対応する金額項目の相対位置データとから,その金額項目を表す認識文字を抽出する。
(6) Specify the identified recognized character as receipt data The receipt data specifying unit 144 corresponds to the position data of the recognized character specified in any of (3) to (5) and the item name of the receipt item to be read. From the relative position data of the amount item to be recognized, a recognition character representing the amount item is extracted.

以上説明したように,レシートデータ特定部144は,レシートデータ抽出部141または同一名称判定部140から,レシート項目名称に対応する金額項目の相対位置を受けると,画像データ記憶部101に記憶された認識文字の中から,その金額項目の相対位置に対応する認識文字を抽出する。これにより,レシートデータ特定部144は,レシート項目名称に対応する金額項目を正確に特定することができる。すなわち,レシート項目に関する,レシート項目名称の文字列と,それに対応する金額欄の金額項目の文字列とを含むレシートデータを特定することができる。   As described above, the receipt data specifying unit 144 receives the relative position of the amount item corresponding to the receipt item name from the receipt data extraction unit 141 or the same name determination unit 140, and stores it in the image data storage unit 101. A recognition character corresponding to the relative position of the monetary item is extracted from the recognition characters. Thereby, the receipt data specifying unit 144 can accurately specify the amount item corresponding to the receipt item name. That is, it is possible to specify receipt data that includes a receipt item name character string and a corresponding money amount item character string in relation to the receipt item.

以上のように,レシート22に印字される読取り対象のレシート項目名称に同一の名称が複数存在する場合であっても,定義データに設定されるアンカー文字または複数のキーワードの情報により,これらの他の項目名称との相対位置を判定することにより,読取り対象のレシート項目名称に対応する金額項目を正確に読み取ることができる。   As described above, even when there are a plurality of the same names in the receipt item names to be read printed on the receipt 22, these other items are determined by the anchor character or the plurality of keyword information set in the definition data. The amount item corresponding to the receipt item name to be read can be accurately read by determining the relative position to the item name.

売上管理データ生成部15は,レシートデータ処理部14により特定されたレシートデータを用いて,売上管理データを生成する。具体的には,売上管理データ生成部15は,レシート項目名称に一致する認識文字と,定義データに定義された対応する売上管理項目名称とに対応付けられる対応関係情報1022とを用いて,認識結果における金額項目の数値データを演算(変換)し,売上管理データを生成する。売上管理データは,店舗コード,売上管理項目および売上管理項目に対応する金額を含む。   The sales management data generation unit 15 generates sales management data using the receipt data specified by the receipt data processing unit 14. Specifically, the sales management data generation unit 15 recognizes using the recognition character that matches the receipt item name and the correspondence information 1022 that is associated with the corresponding sales management item name defined in the definition data. Calculate (convert) the numerical data of the monetary item in the result to generate sales management data. The sales management data includes a store code, a sales management item, and an amount corresponding to the sales management item.

例えば,売上管理データ生成部15は,売上管理項目とレシート項目との対応関係情報1022に従って,店舗コードごとに,「売上日付」,売上管理項目No.1「現金売上」,No.2「掛売上」,No.3「クレジット売上」,…などの売上に関する項目に対応する金額に変換し,これらを売上管理データ記憶部103に記憶する。   For example, the sales management data generation unit 15 sets the “sales date”, the sales management item No., for each store code in accordance with the correspondence information 1022 between the sales management item and the receipt item. 1 “Cash Sales”, No. 1 2 “Multiple sales”, No. 2 3 Converts the amount corresponding to the item related to sales such as “credit sales”,... And stores them in the sales management data storage unit 103.

以下に,図4,図9,図10,図11および図14の処理フローチャートに従って,その他の図も用いながら,図1に示すレシートデータ認識装置1の詳細な機能について説明する。   In the following, the detailed functions of the receipt data recognition apparatus 1 shown in FIG. 1 will be described with reference to the processing flowcharts of FIGS. 4, 9, 10, 11, and 14, using other figures.

図4は,本発明の実施形態に係るレシートデータ認識装置1の処理フローチャートである。図4に従って,レシートデータ認識装置1が実行する処理について具体的に説明する。   FIG. 4 is a process flowchart of the receipt data recognition apparatus 1 according to the embodiment of the present invention. The processing executed by the receipt data recognition apparatus 1 will be specifically described with reference to FIG.

レシートデータ認識装置1が起動されて,本処理が開始される。読取機10にレシート挟持用シート20が入力されると,読取機10がレシート挟持用シート20を読み取り,読み取ったレシート挟持用シート20の画像データを,画像データ記憶部101に保存する(ステップS11)。   The receipt data recognition apparatus 1 is activated and this process is started. When the receipt holding sheet 20 is input to the reader 10, the reader 10 reads the receipt holding sheet 20, and stores the read image data of the receipt holding sheet 20 in the image data storage unit 101 (step S11). ).

具体的に説明するために,図5〜図7を用いて,レシートの画像データからOCR処理される文字列を説明する。   For specific description, a character string that is OCR processed from receipt image data will be described with reference to FIGS.

図5は,読取機10により読み取られたレシート22bの画像の例を示している。読取機10により生成された画像データは,OCR処理による認識文字データを含む。読取機10は,レシート22(22b)の画像をOCR処理すると,認識文字データを生成し,画像データ読込部11に記憶する。認識文字データは,認識文字からなる文字列の文字数および文字列の座標,文字列を構成する文字の座標および辞書からの候補文字とされる認識文字リストを含む。OCR処理による認識文字の対象は,レシート22bに印刷されている文字列#1,文字列#2,…,文字列#14,…等である。例えば,文字列#14は,「総売上」である。   FIG. 5 shows an example of an image of the receipt 22b read by the reader 10. The image data generated by the reader 10 includes recognized character data by OCR processing. When the image of the receipt 22 (22b) is OCR processed, the reader 10 generates recognized character data and stores it in the image data reading unit 11. The recognized character data includes the number of characters of the character string composed of the recognized characters and the coordinates of the character string, the coordinates of the characters constituting the character string, and a recognized character list that is a candidate character from the dictionary. Recognized characters by the OCR process are character string # 1, character string # 2,..., Character string # 14,. For example, the character string # 14 is “total sales”.

図6は,OCR処理による認識文字データの一例を示す図である。特に,図6には,図5に示す文字列#14「総売上」の認識文字データ110について示す。   FIG. 6 is a diagram showing an example of recognized character data by OCR processing. In particular, FIG. 6 shows the recognized character data 110 of the character string # 14 “total sales” shown in FIG.

図6において,認識文字データ110は,文字列#14「総売上」の文字数3,座標(x,y)−(x’,y’)を含む。また,認識文字データ110は,文字列#14を構成する文字#141「総」,#142「売」および#143「上」の3文字について,各々の座標を含む。例えば,文字#141「総」の座標は,(x1,y1)−(x’1,y’1)であり,その他の文字についても,図示のとおりである。なお,(x,y)−(x’,y’)等は,図示の長方形枠の座標を表すものであり,紙面上から見て(x,y)が左上,(x’,y’)が右下に対応する座標である。例えば,左上が座標原点へ向かう方向であり,右下が原点座標から離れる方向である。座標原点は,例えばレシート挟持用シート20における画像の特定位置とされる。   In FIG. 6, the recognized character data 110 includes the number of characters 3 and the coordinates (x, y) − (x ′, y ′) of the character string # 14 “total sales”. The recognized character data 110 also includes the coordinates of the three characters of character # 141 “total”, # 142 “sell”, and # 143 “upper” that constitute character string # 14. For example, the coordinates of the character # 141 “total” are (x1, y1) − (x′1, y′1), and the other characters are as illustrated. Note that (x, y) − (x ′, y ′) and the like represent the coordinates of the illustrated rectangular frame, and (x, y) is the upper left as viewed from the paper, and (x ′, y ′). Is the coordinate corresponding to the lower right. For example, the upper left is the direction toward the coordinate origin, and the lower right is the direction away from the origin coordinates. The coordinate origin is, for example, a specific position of the image on the receipt holding sheet 20.

さらに,認識文字データ110は,文字#141「総」,#142「売」および#143「上」の3文字の認識文字リストを含む。認識文字リストは,辞書からの候補文字とされる認識順位に応じて,その候補とされる認識文字と,その認識文字と読み取られた文字の相違度(または一致度)とが格納される。例えば,文字#141「総」の認識文字リストでは,順位「1」が,認識文字「総」,相違度「1311」であり,順位「2」が,「脆」,相違度「1581」であり,その他の順位についても同様に示される。相違度は,例えば0に近い数値ほど,予め備えられた辞書(図示しない)の候補文字と一致する度合いが大きく,その値が大きいほど,辞書の候補文字と相違する度合いが大きいことを示す。文字#142「売」および#143「上」の認識文字リストについても,図6に示すとおりである。   Further, the recognized character data 110 includes a recognized character list of three characters of character # 141 “total”, # 142 “sell”, and # 143 “upper”. The recognized character list stores the recognized characters that are candidates and the degree of difference (or degree of coincidence) between the recognized characters and the read characters in accordance with the recognition order that is the candidate character from the dictionary. For example, in the recognized character list of the character # 141 “total”, the rank “1” is the recognized character “total” and the dissimilarity “1311”, the rank “2” is “fragile”, and the dissimilarity is “1581”. Yes, other rankings are shown in the same way. The degree of difference indicates that, for example, a numerical value closer to 0 indicates a higher degree of matching with a candidate character (not shown) provided in advance, and a higher value indicates a higher degree of difference from the dictionary candidate character. The recognized character lists of the characters # 142 “Sell” and # 143 “Up” are also as shown in FIG.

図7は,画像データ記憶部101に保存される認識文字テーブル1011の一例を示す図である。認識文字テーブル1011は,読み込まれた画像データごとに,認識文字データを格納するテーブルである。さらに,認識文字テーブル1011は,レシート22の認識された文字列ごとに,認識文字データを含む。認識文字データは,前述したとおりである。   FIG. 7 is a diagram illustrating an example of the recognized character table 1011 stored in the image data storage unit 101. The recognized character table 1011 is a table that stores recognized character data for each read image data. Further, the recognized character table 1011 includes recognized character data for each recognized character string of the receipt 22. The recognized character data is as described above.

図7に示す認識文字テーブル1011は,図5で示す文字列#1〜#14,…等の認識文字データを格納する。例えば,前述した文字列#14「総売上」,文字列#14を構成する文字#141「総」,#142「売」および#143「上」が,認識文字テーブル1011に格納されている。その他の文字列についても同様に格納されている。なお,図7に示す認識文字テーブル1011における項目,設定等の定義は,図6の認識文字データのそれらと同様であるため,ここでは説明を省く。   The recognized character table 1011 shown in FIG. 7 stores recognized character data such as character strings # 1 to # 14,... Shown in FIG. For example, the character string # 14 “total sales” and the characters # 141 “total”, # 142 “sell”, and # 143 “upper” constituting the character string # 14 are stored in the recognized character table 1011. Other character strings are stored in the same manner. Note that the definitions of items, settings, etc. in the recognized character table 1011 shown in FIG. 7 are the same as those of the recognized character data in FIG.

次に,画像データ読込部11が,画像データ記憶部101から画像データを読み込むと,店舗特定部12は,画像データからレシート挟持用シート20の識別コード21を判別し,判別した識別コード21から店舗コードを読み取る(ステップS12)。   Next, when the image data reading unit 11 reads the image data from the image data storage unit 101, the store specifying unit 12 determines the identification code 21 of the receipt sandwiching sheet 20 from the image data, and from the determined identification code 21. The store code is read (step S12).

具体的には,店舗特定部12は,例えばQRコード等を復号し,復号したデータから店舗コード,もしくは,店舗コードに対応付けられた識別番号などを特定する。なお,読取機10によりQRコードを復号し,店舗特定部12が復号したデータから店舗コードを特定してもよく,その特定方法は限定されない。   Specifically, the store specifying unit 12 decodes a QR code or the like, for example, and specifies a store code or an identification number associated with the store code from the decoded data. The QR code may be decoded by the reader 10 and the store code may be specified from the data decoded by the store specifying unit 12, and the specifying method is not limited.

次に,定義データ読込部13は,店舗特定部12により特定された店舗コードを受けると,店舗コードに対応付けられた定義データを,定義データ記憶部102から取得する(ステップS13)。   Next, upon receiving the store code specified by the store specifying unit 12, the definition data reading unit 13 acquires definition data associated with the store code from the definition data storage unit 102 (step S13).

図8は,定義データテーブル1021を説明する図である。以下,図8を用いて,定義データ読込部13が取得する定義データの一例を説明する。   FIG. 8 is a diagram for explaining the definition data table 1021. Hereinafter, an example of the definition data acquired by the definition data reading unit 13 will be described with reference to FIG.

図8に示すレシート22tは,ある店舗の定義データの作成のために用意されるレシート22(基準レシートとする)の画像の一部である。また,図8において,定義データテーブル1021は,予め作成された定義データを格納し,定義データ記憶部102に記憶されるデータである。なお,レシート22tには,行番号と,レシート項目名称と,金額とが表示されている。このレシート22tから,14行目(BX14)の「現金売上金額」と,18行目(BX18)の「その他金券金額」とが抽出対象のレシート項目であるとする。   A receipt 22t shown in FIG. 8 is a part of an image of a receipt 22 (referred to as a reference receipt) prepared for creating definition data of a certain store. In FIG. 8, a definition data table 1021 stores definition data created in advance and is stored in the definition data storage unit 102. The receipt 22t displays the line number, receipt item name, and amount. From this receipt 22t, it is assumed that “cash sales amount” on the 14th line (BX14) and “other voucher amount” on the 18th line (BX18) are the receipt items to be extracted.

定義データテーブル1021では,抽出対象のレシート項目が,定義データとして登録される。定義データを予め作成するために,店舗ごとの基準とされる基準レシート(レシート22t)が用いられ,基準レシートをもとにして店舗ごとのレシート22に対する定義データが作成される。   In the definition data table 1021, receipt items to be extracted are registered as definition data. In order to create the definition data in advance, a reference receipt (receipt 22t) used as a reference for each store is used, and definition data for the receipt 22 for each store is created based on the reference receipt.

定義データテーブル1021には,対象の店舗コードと,抽出するレシート項目ごとに,「読取項目」,「項目属性」,「読取文字」および「金額欄の読取位置」とが格納される。「店舗コード」は,対象となるレシートの店舗に対応する店舗ごとの識別番号である。「読取項目」は,売上管理項目の名称である。「項目属性」は,読み取るべきレシート項目名称の属性である。その属性は,例えば“1”,“2”または“3”のいずれかの値である。“1”は売上管理項目に対応するレシート項目名称が基準レシートに重複していない(通常の項目)場合,“2”は重複している同一名称がありかつアンカー文字を設定する場合,“3”は重複している同一名称がありかつ複数キーワードを設定する場合の属性とされる。「読取文字」は,売上管理項目に対応する基準レシート上に印字されるレシート項目名称である。「金額欄の読取位置」は,読取文字からのレシート項目の金額(数値文字,通貨記号などを含む)の相対位置である。   The definition data table 1021 stores “read item”, “item attribute”, “read character”, and “read position of the money amount column” for each target store code and receipt item to be extracted. “Store code” is an identification number for each store corresponding to the store of the target receipt. “Read item” is the name of a sales management item. “Item attribute” is an attribute of a receipt item name to be read. The attribute is, for example, a value of “1”, “2”, or “3”. “1” indicates that the receipt item name corresponding to the sales management item is not duplicated in the standard receipt (ordinary item), “2” indicates that there is an identical duplicate name and an anchor character is set, and “3” "" Is an attribute when there are duplicate names and multiple keywords are set. “Reading character” is a receipt item name printed on the reference receipt corresponding to the sales management item. The “reading position in the amount field” is a relative position of the amount (including numerical characters, currency symbols, etc.) of the receipt item from the reading character.

図8に示す基準レシートとされるレシート22tにおいて,画像位置BX14には,「現金売上金額」および「¥139,639」とされる文字列Str#1およびDat#1がある。また,文字列Str#1と文字列Dat#1との相対距離は,Dis#1とする。画像位置BX18には,「その他金券金額」および「¥8,000」とされる文字列Str#2およびDat#2がある。また,文字列Str#2と文字Dat#2との相対距離は,Dis#2とする。   In the receipt 22t that is the reference receipt shown in FIG. 8, the image position BX14 includes character strings Str # 1 and Dat # 1 that are “cash sales amount” and “¥ 139,639”. The relative distance between the character string Str # 1 and the character string Dat # 1 is set to Dis # 1. In the image position BX18, there are character strings Str # 2 and Dat # 2 that are “other money voucher amount” and “¥ 8,000”. The relative distance between the character string Str # 2 and the character Dat # 2 is set to Dis # 2.

図8に示す定義データテーブル1021は,図8に示すレシート22tから作成される定義データを格納する。図8に示すように,定義データテーブル1021には,「店舗コード」:“100001”が,基準レシートの対象となる店舗コードとして設定される。「読取項目#1」:“現金売上”は,売上管理項目No.1の項目名称“現金売上”が設定された結果である。「項目属性#1」:“1”は,前述した通常の項目が設定された結果である。「読取文字#1」:“現金売上金額”は,レシート22tの画像位置BX14における文字列Str#1が設定された結果である。「金額欄の読取位置#1」:“(x11,y11)−(x’11,y’11)”は,文字列Str#1と文字列Dat#1との相対距離Dis#1として,文字列Str#1の位置から文字列Dat#1の位置の相対位置が設定された結果である。なお,相対位置として,図示された文字列Dat#1の長方形枠の左上の座標(x11,y11),同じく右下の座標(x’11,y’11)が格納されていることを示す。なお,これらの座標は,相対的な座標である。その他の定義データについても同様に格納されている。なお,図8に示す定義データテーブル1021における#nは,複数の定義データの設定項目を区別するための識別子であり,nは1,2,…等の整数とする。   The definition data table 1021 shown in FIG. 8 stores definition data created from the receipt 22t shown in FIG. As shown in FIG. 8, “store code”: “100001” is set in the definition data table 1021 as a store code that is a target of the reference receipt. “Reading item # 1”: “Cash sales” is a sales management item No. This is the result of setting the item name “cash sales” of 1. “Item attribute # 1”: “1” is a result of setting the above-described normal item. “Reading character # 1”: “cash sales amount” is a result of setting the character string Str # 1 at the image position BX14 of the receipt 22t. “Money amount reading position # 1”: “(x11, y11) − (x′11, y′11)” is a character as a relative distance Dis # 1 between the character string Str # 1 and the character string Dat # 1. This is a result of setting the relative position of the position of the character string Dat # 1 from the position of the string Str # 1. As relative positions, the upper left coordinates (x11, y11) and the lower right coordinates (x'11, y'11) of the rectangular frame of the illustrated character string Dat # 1 are stored. These coordinates are relative coordinates. Other definition data is stored in the same manner. Note that #n in the definition data table 1021 shown in FIG. 8 is an identifier for distinguishing a plurality of definition data setting items, and n is an integer such as 1, 2,.

以上説明した定義データテーブル1021は,レシートデータ抽出部141がレシートデータを抽出する際に,定義データ読込部13を介して参照される。レシートデータ抽出部141は,定義データテーブル1021に格納された定義データに基づき,読み込んだ画像データ(レシート22の認識文字)について,レシート項目を抽出する。すなわち,レシートデータ抽出部141は,基準レシートの定義データにより,抽出すべきレシート項目を判断することができる。   The definition data table 1021 described above is referred to via the definition data reading unit 13 when the receipt data extraction unit 141 extracts receipt data. The receipt data extraction unit 141 extracts receipt items for the read image data (recognized characters of the receipt 22) based on the definition data stored in the definition data table 1021. That is, the receipt data extraction unit 141 can determine the receipt item to be extracted based on the definition data of the reference receipt.

なお,実際には,精算レシート(レシート22)は,同じPOSシステムで印刷した場合であっても,その時々の出力により,途中のレシート項目の一部を飛ばして(抜かして)印刷する場合がある。従って,定義データテーブル1021における「金額欄の読取位置」を固定座標で作成すると,このような一部のレシート項目を飛ばして印刷する場合に対応できない。そのため,図8に示す定義データテーブル1021のように,レシート項目名称の文字列位置からの相対位置の座標位置を定義データとして用いることにより,このような一部のレシート項目を飛ばして印刷する場合に対応することができる。また,図8においては,レシート項目の項目名称とそれに対応する金額が,同じ行に印刷されている例で説明しているが,レシート項目の項目名称とそれに対応する金額が,異なる行であっても良い。その場合には,定義データにその異なる行の金額の相対位置などが登録される。   Actually, even when the payment receipt (receipt 22) is printed by the same POS system, some receipt items in the middle may be skipped (dropped) depending on the output at that time. is there. Accordingly, if the “reading position of the amount column” in the definition data table 1021 is created with fixed coordinates, it is not possible to cope with a case where such a part of receipt item is skipped and printed. Therefore, as in the definition data table 1021 shown in FIG. 8, by using the coordinate position of the relative position from the character string position of the receipt item name as the definition data, printing such a part of the receipt items is skipped. It can correspond to. In FIG. 8, the item name of the receipt item and the amount corresponding to the receipt item are described on the same line. However, the item name of the receipt item and the corresponding amount of money are different. May be. In that case, the relative position of the amount of money in the different rows is registered in the definition data.

次に,レシートデータ処理部14は,定義データ読込部13から店舗コードに対応付けられた定義データを受けると,レシートデータ処理を実行する(ステップS14)。このレシートデータ処理の詳細なフローについては,図9を用いて後述する。   Next, when the receipt data processing unit 14 receives the definition data associated with the store code from the definition data reading unit 13, the receipt data processing unit 14 executes receipt data processing (step S14). A detailed flow of the receipt data processing will be described later with reference to FIG.

レシートデータ処理部14によりレシートデータ処理された後に,売上管理データ生成部15は,処理されたレシートデータから売上管理データを生成する。売上管理データ生成部15は,生成した売上管理データを売上管理データ記憶部103に保存する(ステップS15)。売上管理データを保存後,レシートデータ認識装置1は,本処理を終了する。なお,ステップS15の詳細な処理フローについては,図14を用いて後述する。   After receipt data processing is performed by the receipt data processing unit 14, the sales management data generating unit 15 generates sales management data from the processed receipt data. The sales management data generation unit 15 stores the generated sales management data in the sales management data storage unit 103 (step S15). After storing the sales management data, the receipt data recognition apparatus 1 ends this processing. A detailed processing flow of step S15 will be described later with reference to FIG.

以上説明した処理フローが,レシートデータ認識装置1が実行する処理全体のフローである。   The processing flow described above is the overall processing flow executed by the receipt data recognition apparatus 1.

図9は,図4に示すステップS14におけるレシートデータ処理の詳細な処理フローチャートである。図9に従って,レシートデータ処理部14が実行するレシートデータ処理について具体的に説明する。   FIG. 9 is a detailed process flowchart of the receipt data process in step S14 shown in FIG. The receipt data processing executed by the receipt data processing unit 14 will be specifically described with reference to FIG.

レシートデータ抽出部141は,画像データの中からレシート22の対象とする行の項目名称のみを抽出する(ステップS21)。   The receipt data extraction unit 141 extracts only the item name of the line targeted for the receipt 22 from the image data (step S21).

具体的には,レシートデータ抽出部141は,画像データ読込部11から画像データ(認識文字データ)を受けると,レシート22の1行目から項目名称のみを抽出する。例えば,図5の画像データである場合,レシート22bの文字列#1「2010年10月10日(日) 22:30 No:0002」が抽出され,文字列#2「**」,…,文字列#7「売計」,文字列#8「297点」,文字列#9「¥226,701」,…等が抽出され,空行などは抽出されない。なお,このステップS21では,項目名称として,レシート項目名称,金額,記号(例えば「**」)なども含めて抽出される。   Specifically, upon receipt of image data (recognized character data) from the image data reading unit 11, the receipt data extraction unit 141 extracts only the item name from the first line of the receipt 22. For example, in the case of the image data of FIG. 5, the character string # 1 “Sunday, October 10, 2010 22:30 No: 0002” of the receipt 22b is extracted, and the character string # 2 “**”,. Character string # 7 “sales”, character string # 8 “297 points”, character string # 9 “¥ 226,701”,... Are extracted, and blank lines are not extracted. In step S21, the item name including the receipt item name, amount, symbol (for example, “**”) is extracted.

次に,レシートデータ抽出部141は,定義データテーブル1021に格納された定義データを参照する(ステップS22)。   Next, the receipt data extraction unit 141 refers to the definition data stored in the definition data table 1021 (step S22).

具体的には,定義データ読込部13が,定義データ記憶部102に格納された定義データテーブル1021から店舗コードに対応する定義データを読み出す。定義データ読込部13は,読み出した定義データをレシートデータ抽出部141に送る。レシートデータ抽出部141は,ステップS23以降の処理において,定義データ読込部13から送られた定義データを用いる。なお,レシートデータ抽出部141は,定義データ読込部13から送られた定義データを,ワークメモリ(図示しない)に保存し,ワークメモリ上で定義データを参照する。   Specifically, the definition data reading unit 13 reads definition data corresponding to the store code from the definition data table 1021 stored in the definition data storage unit 102. The definition data reading unit 13 sends the read definition data to the receipt data extraction unit 141. The receipt data extraction unit 141 uses the definition data sent from the definition data reading unit 13 in the processing from step S23. The receipt data extraction unit 141 stores the definition data sent from the definition data reading unit 13 in a work memory (not shown), and refers to the definition data on the work memory.

次に,レシートデータ抽出部141は,抽出した項目名称が定義データに設定されているかをチェックする(ステップS23)。   Next, the receipt data extraction unit 141 checks whether or not the extracted item name is set in the definition data (step S23).

具体的には,レシートデータ抽出部141は,図5に示す文字列#14「総売上」について,定義データテーブル1021の読取文字#n(nは整数)の中に一致するものがあるかをチェックする。   Specifically, the receipt data extraction unit 141 determines whether there is a match among the read characters #n (n is an integer) in the definition data table 1021 for the character string # 14 “total sales” shown in FIG. To check.

次に,抽出した項目名称が定義データに設定されている場合(ステップS23:Yes),同一名称判定部140は,読取り対象のレシート項目名称の項目属性を参照する(ステップS24)。一方,抽出した項目名称が定義データに設定されていない場合(ステップS23:No),ステップS28に処理を移す。   Next, when the extracted item name is set in the definition data (step S23: Yes), the same name determination unit 140 refers to the item attribute of the receipt item name to be read (step S24). On the other hand, if the extracted item name is not set in the definition data (step S23: No), the process proceeds to step S28.

次に,同一名称判定部140は,定義データに同一名称のレシート項目名称があると定義されているか否かチェックする(ステップS25)。定義データに同一名称のレシート項目名称があると定義されている場合に(ステップS25:Yes),同一名称判定部140は,同一名称判定処理を実行する(ステップS26)。一方,定義データに同一名称のレシート項目名称がないと定義されている場合に(ステップS25:No),同一名称判定部140は,ステップS27に処理を移す。   Next, the same name determination unit 140 checks whether or not it is defined that there is a receipt item name with the same name in the definition data (step S25). When it is defined that there is a receipt item name with the same name in the definition data (step S25: Yes), the same name determination unit 140 executes the same name determination process (step S26). On the other hand, when it is defined that there is no receipt item name with the same name in the definition data (step S25: No), the same name determination unit 140 moves the process to step S27.

図10および図11は,ステップS26における同一名称判定処理の詳細な処理フローチャートである。以下,図10および図11に従って,同一名称判定部140が実行する同一名称判定処理について具体的に説明する。   10 and 11 are detailed process flowcharts of the same name determination process in step S26. Hereinafter, the same name determination process executed by the same name determination unit 140 will be specifically described with reference to FIGS. 10 and 11.

アンカー文字検出部142は,定義データから,読取り対象のレシート項目名称の項目属性がアンカー文字か否か判定する(ステップS261)。項目属性がアンカー文字である場合に(ステップS261:Yes),ステップS262に処理を移す。一方,項目属性がアンカー文字でない場合(ステップS261:No),すなわち,項目属性が複数のキーワードである場合に,ステップS267に処理を移す。   The anchor character detection unit 142 determines from the definition data whether the item attribute of the receipt item name to be read is an anchor character (step S261). If the item attribute is an anchor character (step S261: Yes), the process proceeds to step S262. On the other hand, if the item attribute is not an anchor character (step S261: No), that is, if the item attribute is a plurality of keywords, the process proceeds to step S267.

ステップS261から処理が移ると,アンカー文字検出部142は,レシート項目名称に一致する認識文字の位置データを取得する(ステップS262)。   When the process moves from step S261, the anchor character detection unit 142 acquires the position data of the recognized character that matches the receipt item name (step S262).

具体的に説明するため,図12に,レシート22cと,それに対応するアンカー文字が設定された定義データテーブル1021cとの例を示す。なお,図12に示すレシート22cでは,例えばレシート項目名称「総売上」に一致する認識文字として,レシート22c上に文字列Str#11,Str#21,Str#31がある場合を示している。また,その各々に対応する金額項目(金額の文字列)Dat#11「¥168,735」,Dat#21「¥48,195」およびDat#31「¥32,025」とする。以下,図12を用いて,ステップS262〜S266の処理を,具体例と共に説明する。   For concrete explanation, FIG. 12 shows an example of a receipt 22c and a definition data table 1021c in which anchor characters corresponding to the receipt 22c are set. In the receipt 22c shown in FIG. 12, for example, a character string Str # 11, Str # 21, Str # 31 is present on the receipt 22c as a recognized character that matches the receipt item name “total sales”. Further, it is assumed that the money amount items (a character string of money amounts) Dat # 11 “¥ 168,735”, Dat # 21 “¥ 48,195”, and Dat # 31 “¥ 32,025” correspond to each. Hereinafter, the processing of steps S262 to S266 will be described with specific examples using FIG.

図12に示す定義データテーブル1021cは,例えば店舗コード「100001」に対応する定義データが格納されたテーブルである。図12に示す定義データテーブル1021cにおいて,読取項目#1:「総売上」は,売上管理項目No.5の項目名称であり,レシート22cのレシート項目名称「総売上」に対応する。そして,項目属性#1:「2」は,読取項目の属性として,読取り対象のレシート項目名称に同一名称があり,アンカー文字が設定されていることを示す。読取文字#1:「総売上」は,レシート22cのレシート項目名称「総売上」が読取文字として設定されている。金額欄の読取位置#1は,(x11,y11)−(x’11,y’11)であり,レシート22c上では,例えば文字列Str#11「総売上」から金額欄にある金額項目Dat#11「¥168,735」までの相対距離を示す。   The definition data table 1021c illustrated in FIG. 12 is a table in which definition data corresponding to, for example, the store code “100001” is stored. In the definition data table 1021 c shown in FIG. 12, the reading item # 1: “total sales” is the sales management item No. 5 corresponding to the receipt item name “total sales” of the receipt 22c. Item attribute # 1: “2” indicates that the receipt item name to be read has the same name and the anchor character is set as the read item attribute. In the reading character # 1: “total sales”, the receipt item name “total sales” of the receipt 22c is set as a reading character. The reading position # 1 in the amount column is (x11, y11) − (x′11, y′11), and on the receipt 22c, for example, the amount item Dat in the amount column from the character string Str # 11 “total sales”. The relative distance to # 11 “¥ 168,735” is shown.

また,図12に示す定義データテーブル1021cにおいて,アンカー文字は,レシート22c内の他のレシート項目名称であり,かつ,ユニークな文字である。例えば,アンカー文字「貸在高」は,読取文字#1:「総売上」に関連付けられたユニークな文字である。アンカー文字の距離は,レシート22上のアンカー文字とされる文字列から,レシート22上のレシート項目名称に該当する読取文字#1までのy座標を基準とする距離である。例えば,アンカー文字の距離「+100」は,アンカー文字とされるレシート22c上の文字列Str#41「貸在高」から,レシート22c上のレシート項目名称の文字列Str#11「総売上」までのy座標を基準とする距離「+100」であり,文字列Str#11「総売上」が,文字列Str#41「貸在高」よりも行の上端側にy座標の差として相対値「100」であることを意味する。   In the definition data table 1021c shown in FIG. 12, the anchor character is another receipt item name in the receipt 22c and is a unique character. For example, the anchor character “loan amount” is a unique character associated with the read character # 1: “total sales”. The distance of the anchor character is a distance based on the y coordinate from the character string that is the anchor character on the receipt 22 to the read character # 1 corresponding to the receipt item name on the receipt 22. For example, the anchor character distance “+100” is from the character string Str # 41 “loan amount” on the receipt 22c, which is the anchor character, to the character string Str # 11 “total sales” of the receipt item name on the receipt 22c. Is a distance “+100” based on the y coordinate of the character string Str # 11 “total sales”, and a relative value “ 100 ”.

例えば,前述のステップS262においては,アンカー文字検出部142は,図12に示すレシート22cの画像データから,レシート項目名称「総売上」に一致する認識文字として,文字列Str#11,Str#21,Str#31の位置データを取得する。   For example, in step S262 described above, the anchor character detection unit 142 uses the character strings Str # 11 and Str # 21 as recognition characters that match the receipt item name “total sales” from the image data of the receipt 22c shown in FIG. , Str # 31 position data is acquired.

次に,アンカー文字検出部142は,画像データからアンカー文字に一致する認識文字の位置データを取得する(ステップS263)。   Next, the anchor character detection unit 142 acquires the position data of the recognized character that matches the anchor character from the image data (step S263).

具体的には,アンカー文字検出部142は,画像データ読込部11を介して,画像データ記憶部101に格納されたレシート22cの画像データから,アンカー文字に一致する文字列Str#41「貸在高」に該当する認識文字の位置データを取得する。   Specifically, the anchor character detection unit 142, from the image data of the receipt 22c stored in the image data storage unit 101 via the image data reading unit 11, reads the character string Str # 41 that matches the anchor character. The position data of the recognized character corresponding to “high” is acquired.

次に,アンカー文字検出部142は,レシート項目名称に一致する認識文字の位置と,アンカー文字に一致する認識文字の位置とから,各々の距離を算出する(ステップS264)。   Next, the anchor character detection unit 142 calculates each distance from the position of the recognized character that matches the receipt item name and the position of the recognized character that matches the anchor character (step S264).

具体的には,図12に示すように,定義データテーブル1021cでは,金額欄の読取位置#1は,(x11,y11)−(x’11,y’11)であり,レシート22c内の文字列Str#11「総売上」から金額項目Dat#11までの相対距離を示す。アンカー文字「貸在高」は,読取文字#1「総売上」に関連付けられたユニークな文字である。アンカー文字の距離Ref#1は,レシート22c上のレシート項目名称に該当する読取文字#1までのy座標を基準とする距離である。   Specifically, as shown in FIG. 12, in the definition data table 1021c, the reading position # 1 in the amount column is (x11, y11) − (x′11, y′11), and the characters in the receipt 22c. The relative distance from the column Str # 11 “total sales” to the money amount item Dat # 11 is shown. The anchor character “loan amount” is a unique character associated with the read character # 1 “total sales”. The anchor character distance Ref # 1 is a distance based on the y coordinate to the read character # 1 corresponding to the receipt item name on the receipt 22c.

例えば,アンカー文字の距離Ref#1は,レシート22c上の文字列Str#41「貸在高」から,レシート22c上の文字列Str#11「総売上」までのy座標を基準とする距離「+100」であるとする。すなわち,文字列Str#11「総売上」が,文字列Str#41「貸在高」よりも行の上端側にy座標の差として相対値「100」であることを意味する。その他の認識文字については,例えば,文字列Str#21「総売上」とアンカー文字Str#41「貸在高」と間の距離Ref#2であり,文字列Str#31「総売上」とアンカー文字Str#41「貸在高」と間の距離Ref#3である。距離Ref#2およびRef#3は,図12に示すように,文字列Str#41「貸在高」の行よりも下端側のy座標である。   For example, the distance Ref # 1 of the anchor character is a distance “based on the y coordinate from the character string Str # 41“ Lending ”on the receipt 22c to the character string Str # 11“ Total sales ”on the receipt 22c. +100 ". That is, it means that the character string Str # 11 “total sales” is a relative value “100” as a difference of the y-coordinates on the upper end side of the line from the character string Str # 41 “loan amount”. For other recognized characters, for example, the distance Ref # 2 between the character string Str # 21 “total sales” and the anchor character Str # 41 “loan amount”, and the character string Str # 31 “total sales” and the anchor This is the distance Ref # 3 between the character Str # 41 and the amount of lending. As shown in FIG. 12, the distances Ref # 2 and Ref # 3 are y coordinates on the lower end side of the line of the character string Str # 41 “loan amount”.

次に,アンカー文字検出部142は,定義データに設定されたアンカー文字との距離と,算出した各々の距離とを比較し,差分が小さいものを該当する(売上管理項目の対象となる)レシート項目の項目名称と判定する(ステップS265)。   Next, the anchor character detection unit 142 compares the calculated distance with the distance from the anchor character set in the definition data, and applies the one that has a small difference (subject to sales management items). It is determined as the item name of the item (step S265).

具体的には,図12に示すように,アンカー文字検出部142は,距離Ref#2および距離Ref#3については負の距離であり,「+100」に近い値ではないと判断し,文字列Str#21「総売上」およびStr#31「総売上」は,読取文字#1「総売上」の読取り対象でないと判断する。一方,アンカー文字検出部142は,距離Ref#1が距離「+100」に最も近い値であるため,文字列Str#11「総売上」が,読取文字#1「総売上」の読取り対象であると判断する。すなわち,アンカー文字検出部142は,アンカー文字Str#41「貸在高」およびアンカー文字との距離「+100」から,文字列Str#11「総売上」が,読取り対象のレシート項目名称であることを検出する。   Specifically, as shown in FIG. 12, the anchor character detection unit 142 determines that the distance Ref # 2 and the distance Ref # 3 are negative distances and are not close to “+100”. It is determined that Str # 21 “total sales” and Str # 31 “total sales” are not read objects of the read character # 1 “total sales”. On the other hand, since the distance Ref # 1 is the closest value to the distance “+100”, the anchor character detection unit 142 has the character string Str # 11 “total sales” as the reading target of the read character # 1 “total sales”. Judge. That is, the anchor character detection unit 142 determines that the character string Str # 11 “total sales” is the receipt item name to be read from the anchor character Str # 41 “rented amount” and the distance “+100” from the anchor character. Is detected.

次に,レシートデータ特定部144は,該当すると判定されたレシート項目名称の位置情報を用いて,画像データから金額項目を表す認識文字を抽出する(ステップS266)。   Next, the receipt data specifying unit 144 extracts the recognized character representing the money amount item from the image data using the position information of the receipt item name determined to be applicable (step S266).

具体的には,レシートデータ特定部144は,アンカー文字検出部142により該当すると判定されたレシート項目名称の位置データと,定義データに設定されたそのレシート項目名称に対応する金額項目の相対位置データとから,画像データの中から金額項目を表す認識文字を抽出する。   Specifically, the receipt data specifying unit 144 includes the position data of the receipt item name determined to be applicable by the anchor character detection unit 142, and the relative position data of the amount item corresponding to the receipt item name set in the definition data. From the image data, a recognition character representing a monetary item is extracted from the image data.

例えば,図12に示すように,定義データテーブル1021cでは,金額欄の読取位置#1は,(x11,y11)−(x’11,y’11)であり,レシート22c内の文字列Str#11「総売上」から金額項目Dat#11までの相対距離を示す。レシートデータ特定部144は,この相対距離を,定義データテーブル1021cから取得する。また,レシートデータ特定部144は,文字列Str#11「総売上」に対応する認識文字の位置データを,画像データ記憶部101に記憶されている画像データから取得する。これにより,レシートデータ特定部144は,この相対距離と,文字列Str#11「総売上」に対応する認識文字の位置データとを用いて,画像データ記憶部101に記憶されている画像データから,文字列Str#11「総売上」からの距離Dis#11にある金額項目Dat#11「¥168,735」を抽出する。   For example, as shown in FIG. 12, in the definition data table 1021c, the reading position # 1 in the amount column is (x11, y11)-(x′11, y′11), and the character string Str # in the receipt 22c. 11 indicates the relative distance from “total sales” to the monetary item Dat # 11. The receipt data specifying unit 144 acquires this relative distance from the definition data table 1021c. Further, the receipt data specifying unit 144 acquires the position data of the recognized character corresponding to the character string Str # 11 “total sales” from the image data stored in the image data storage unit 101. As a result, the receipt data specifying unit 144 uses the relative distance and the position data of the recognized character corresponding to the character string Str # 11 “total sales” from the image data stored in the image data storage unit 101. , The amount item Dat # 11 “¥ 168,735” at the distance Dis # 11 from the character string Str # 11 “total sales” is extracted.

この金額項目を表す認識文字を抽出後,本処理を終了する。すなわち,ステップS26(ステップS261〜S2610)の処理が終了する。   After extracting the recognition character representing this monetary item, this process is terminated. That is, the process of step S26 (steps S261 to S2610) ends.

他方,ステップS261から処理が移ると,キーワード検出部143は,定義データの設定から複数のキーワードを取得する(ステップS267)。   On the other hand, when the process moves from step S261, the keyword detecting unit 143 acquires a plurality of keywords from the definition data setting (step S267).

具体的に説明するため,図13に,レシート22dと,それに対応する複数のキーワードが設定された定義データテーブル1021dとの例を示す。なお,図13に示すレシート22dでは,例えばレシート項目名称「総売上」に一致する認識文字として,レシート22d上に文字列Str#12,Str#22,Str#32がある場合を示している。また,その各々に対応する金額項目(金額の文字列)Dat#12「¥168,735」,Dat#22「¥48,195」およびDat#32「¥32,025」とする。以下,図13を用いて,ステップS268〜S2610の処理を,具体例と共に説明する。   For concrete explanation, FIG. 13 shows an example of a receipt 22d and a definition data table 1021d in which a plurality of keywords corresponding to the receipt 22d are set. In the receipt 22d shown in FIG. 13, for example, a character string Str # 12, Str # 22, Str # 32 is present on the receipt 22d as a recognized character that matches the receipt item name “total sales”. Further, it is assumed that the money amount items (a character string of money amounts) Dat # 12 “¥ 168,735”, Dat # 22 “¥ 48,195”, and Dat # 32 “¥ 32,025” correspond to each. Hereinafter, the processing in steps S268 to S2610 will be described with specific examples using FIG.

例えば,キーワード検出部143は,図13に示すように,定義データテーブル1021dの項目属性#1:「3」であることから,読取文字#1:「総売上」,「純売上」,「現金在高」および「貸在高」を含む複数のキーワードKey#1を取得する。   For example, as shown in FIG. 13, the keyword detection unit 143 has item attribute # 1: “3” in the definition data table 1021d, so that the read character # 1: “total sales”, “net sales”, “cash” A plurality of keywords Key # 1 including “sales amount” and “rental amount” are acquired.

次に,キーワード検出部143は,画像データの中で,複数のキーワードと一致する認識文字の一群を検索する(ステップS268)。   Next, the keyword detection unit 143 searches the image data for a group of recognized characters that match a plurality of keywords (step S268).

具体的には,キーワード検出部143は,画像データ読込部11を介して,画像データ記憶部101に格納されたレシート22dの画像データから,複数のキーワードKey#1「総売上」,「純売上」,「現金在高」および「貸在高」に一致する認識文字の一群を検索する。キーワード検出部143は,検索したこれらの認識文字データを取得する。   Specifically, the keyword detection unit 143 receives a plurality of keyword keys # 1 “total sales”, “net sales” from the image data of the receipt 22d stored in the image data storage unit 101 via the image data reading unit 11. ”,“ Cash balance ”and“ lending balance ”are searched for a group of recognized characters. The keyword detection unit 143 acquires the retrieved recognized character data.

次に,キーワード検出部143は,検索した複数のキーワードと一致する認識文字の一群の中から,レシート項目名称に一致する認識文字を該当するレシート項目の項目名称であると判定する(ステップS269)。   Next, the keyword detecting unit 143 determines that the recognized character that matches the receipt item name is the item name of the corresponding receipt item from the group of recognized characters that match the searched keywords (step S269). .

具体的には,図13に示すように,キーワード検出部143は,文字列Str#22「総売上」に一致する認識文字の位置データと,複数のキーワードKey#1に含まれる認識文字の位置データとの関係から,文字列Str#22「総売上」が複数のキーワードKey#1と一群とされる行でないと判定する。同様に,文字列Str#32「総売上」についても,一群とされる行でないと判定する。   Specifically, as illustrated in FIG. 13, the keyword detection unit 143 includes the position data of the recognized characters that match the character string Str # 22 “total sales” and the positions of the recognized characters included in the plurality of keywords Key # 1. Based on the relationship with the data, it is determined that the character string Str # 22 “total sales” is not a line grouped with the plurality of keywords Key # 1. Similarly, it is determined that the character string Str # 32 “total sales” is not a grouped row.

一方,キーワード検出部143は,文字列Str#12「総売上」に一致する認識文字の位置データと,複数のキーワードKey#1に含まれる認識文字の位置データとの関係から,文字列Str#12「総売上」が複数のキーワードKey#1の一群に含まれる行の位置にあると判定する。すなわち,キーワード検出部143は,複数のキーワードKey#1「総売上」,「純売上」,「現金在高」および「貸在高」から,文字列Str#12「総売上」が,読取り対象のレシート項目の項目名称であることを検出する。   On the other hand, the keyword detection unit 143 determines the character string Str # from the relationship between the position data of the recognized character that matches the character string Str # 12 “total sales” and the position data of the recognized character included in the plurality of keywords Key # 1. 12 It is determined that “total sales” is in the position of a row included in a group of a plurality of keywords Key # 1. That is, the keyword detection unit 143 reads the character string Str # 12 “total sales” from the plurality of keywords Key # 1 “total sales”, “net sales”, “cash balance”, and “lending balance”. It is detected that it is the item name of the receipt item.

なお,図13に示すレシート22dでは,複数のキーワードKey#1の一群のキーワード間に,空行がない場合を示したが,一群のキーワード間に空行やレシート項目名称の存在しない行等を含んでもよい。その場合には,空行やレシート項目名称の存在しない(印字されない)行等を除いて,複数のキーワードKey#1を一群のキーワードと見なしてもよい。また,図13に示す定義データテーブル1021dでは,読取り文字#1:「総売上」を上段の行に位置するものとして,複数のキーワードの一群を設定する例を示したが,複数のキーワードの一群の中で上から2段目の行であってもよく,その他の行であってもよい。その場合には,複数のキーワードの中のいずれの項目名称が売上管理項目に対応する項目名称かの情報を有すればよい。   The receipt 22d shown in FIG. 13 shows a case where there is no blank line between a group of keywords of a plurality of keywords Key # 1, but a blank line or a line in which no receipt item name exists between a group of keywords. May be included. In that case, a plurality of keywords Key # 1 may be regarded as a group of keywords except for blank lines and lines in which no receipt item name exists (not printed). In the definition data table 1021d shown in FIG. 13, an example in which a group of a plurality of keywords is set on the assumption that the reading character # 1: “total sales” is located in the upper row is shown. It may be the second row from the top or other rows. In that case, it is only necessary to have information indicating which item name among the plurality of keywords is the item name corresponding to the sales management item.

次に,レシートデータ特定部144は,該当すると判定されたレシート項目名称の位置情報を用いて,画像データから金額項目を表す認識文字を抽出する(ステップS2610)。   Next, the receipt data specifying unit 144 extracts a recognition character representing the amount item from the image data using the position information of the receipt item name determined to be applicable (step S2610).

具体的には,レシートデータ特定部144は,キーワード検出部143により該当すると判定したレシート項目名称の位置データと,定義データに設定されたそのレシート項目名称に対応する金額項目の相対位置データとから,画像データの中から金額項目を表す認識文字を抽出する。   Specifically, the receipt data specifying unit 144 uses the position data of the receipt item name determined to be applicable by the keyword detection unit 143 and the relative position data of the amount item corresponding to the receipt item name set in the definition data. , Recognize a character representing a monetary item from the image data.

例えば,図13に示すように,定義データテーブル1021dでは,金額欄の読取位置#1は,(x11,y11)−(x’11,y’11)であり,レシート22d内の文字列Str#12「総売上」から金額項目Dat#12までの相対距離を示す。レシートデータ特定部144は,この相対距離を,定義データテーブル1021dから取得する。また,レシートデータ特定部144は,文字列Str#12「総売上」に対応する認識文字の位置データを,画像データ記憶部101に記憶されている画像データから取得する。これにより,レシートデータ特定部144は,この相対距離と,文字列Str#12「総売上」に対応する認識文字の位置データとを用いて,画像データ記憶部101に記憶されている画像データから,文字列Str#12「総売上」からの距離Dis#12にある金額項目Dat#12「¥168,735」を抽出する。   For example, as shown in FIG. 13, in the definition data table 1021d, the reading position # 1 in the amount column is (x11, y11) − (x′11, y′11), and the character string Str # in the receipt 22d. 12 indicates a relative distance from “total sales” to the monetary item Dat # 12. The receipt data specifying unit 144 acquires this relative distance from the definition data table 1021d. Further, the receipt data specifying unit 144 acquires the position data of the recognized character corresponding to the character string Str # 12 “total sales” from the image data stored in the image data storage unit 101. As a result, the receipt data specifying unit 144 uses the relative distance and the position data of the recognized character corresponding to the character string Str # 12 “total sales” from the image data stored in the image data storage unit 101. , The amount item Dat # 12 “¥ 168,735” at the distance Dis # 12 from the character string Str # 12 “total sales” is extracted.

この金額項目を表す認識文字を抽出後,本処理を終了する。すなわち,ステップS26(ステップS261〜S2610)の処理が終了する。   After extracting the recognition character representing this monetary item, this process is terminated. That is, the process of step S26 (steps S261 to S2610) ends.

次に,レシートデータ抽出部141は,レシート項目の最終行の処理が終了したかを判断する(ステップS28)。レシート項目の最終行の処理が終了していない場合(ステップS28:No),ステップS21に処理を戻し,次のレシート項目の行からのステップS21〜S27の処理を繰り返す。一方,レシート項目の最終行の処理が終了した場合(ステップS28:Yes),本処理を終了する。   Next, the receipt data extraction unit 141 determines whether the processing of the last line of the receipt item has been completed (step S28). When the process of the last line of the receipt item is not completed (step S28: No), the process returns to step S21, and the processes of steps S21 to S27 from the line of the next receipt item are repeated. On the other hand, when the process on the last line of the receipt item is completed (step S28: Yes), this process is terminated.

以上の同一名称判定処理などにより,図12または図13に示すように,レシートデータ特定部144は,例えばレシート項目名称「総売上」に対応する金額項目「¥168,735」を特定することができる。   As shown in FIG. 12 or FIG. 13, the receipt data specifying unit 144 may specify, for example, the amount item “¥ 168,735” corresponding to the receipt item name “total sales” by the above-described identical name determination process or the like. it can.

以上のように,レシートデータ処理部14は,登録された定義データを用いて,レシート画像から読み取ったレシート項目の認識文字に対して,必要なレシートデータを抽出することができる。   As described above, the receipt data processing unit 14 can extract necessary receipt data for the recognized character of the receipt item read from the receipt image using the registered definition data.

また,レシートデータ処理部14は,売上管理データに必要なレシートデータを抽出することができ,抽出したレシートデータのレシート項目名称および金額を,予め定めた対応関係で売上管理項目の売上管理データに変換(集計)することができる。   The receipt data processing unit 14 can extract the receipt data necessary for the sales management data, and the receipt item name and the amount of the extracted receipt data are converted into the sales management data of the sales management item in a predetermined correspondence relationship. Can be converted (aggregated).

以上説明したレシートデータ認識処理によって,レシート22内に読取り対象となるレシート項目の項目名称と同一名称が存在する場合であっても,定義データを用いて,項目名称に関連付けられたユニークなアンカー文字,または,複数のキーワードを検索することにより,売上管理項目に必要なレシート項目の項目名称および対応する金額項目を正確に抽出することができる。これにより,売上管理データを正確に集計することができる。   Even if the receipt data recognition process described above has the same name as the item name of the receipt item to be read in the receipt 22, the unique anchor character associated with the item name is defined using the definition data. Alternatively, by retrieving a plurality of keywords, it is possible to accurately extract the item name of the receipt item necessary for the sales management item and the corresponding monetary item. Thereby, sales management data can be correctly totaled.

図14は,ステップS15における売上管理データ生成処理の詳細な処理フローチャートを示す。図14に従って,売上管理データ生成部15が実行する売上管理データ生成処理について具体的に説明する。   FIG. 14 shows a detailed process flowchart of the sales management data generation process in step S15. The sales management data generation process executed by the sales management data generation unit 15 will be specifically described with reference to FIG.

売上管理データ生成部15は,レシートデータ特定部144から売上集計に必要となるレシートデータを取得する(ステップS31)。   The sales management data generation unit 15 acquires receipt data necessary for sales aggregation from the receipt data specifying unit 144 (step S31).

具体的には,売上管理データ生成部15は,店舗コードと,認識文字データから特定したレシート項目名称およびその金額を含むデータと,図3に示す対応関係情報1022(1022a)とを含むレシートデータを,レシートデータ特定部144から取得する。   Specifically, the sales management data generation unit 15 receives data including a store code, data including a receipt item name and its amount specified from the recognized character data, and correspondence information 1022 (1022a) shown in FIG. Is acquired from the receipt data specifying unit 144.

次に,売上管理データ生成部15は,対応関係情報1022(1022a)を用いて,売上管理項目の売上管理データを集計する(ステップS32)。   Next, the sales management data generation unit 15 aggregates the sales management data of the sales management items by using the correspondence relationship information 1022 (1022a) (step S32).

具体的には,売上管理データ生成部15は,対応関係情報1022(1022a)から売上管理項目とレシート項目の対応関係に基づいて,レシート項目名称に対応する金額を,売上管理項目の売上管理データとして集計する。以上により,レシート項目の金額(数値データ)が,売上管理項目の数値データに変換される。   Specifically, the sales management data generation unit 15 calculates the amount corresponding to the receipt item name from the correspondence information 1022 (1022a) based on the correspondence between the sales management item and the receipt item, and the sales management data of the sales management item. As As described above, the amount (numerical data) of the receipt item is converted into the numerical data of the sales management item.

次に,売上管理データ生成部15は,保存対象となる店舗コードの売上管理データを,売上管理データ記憶部103の売上管理DB1031に保存する(ステップS33)。   Next, the sales management data generation unit 15 stores the sales management data of the store code to be stored in the sales management DB 1031 of the sales management data storage unit 103 (step S33).

例えば,図15に,売上管理DB(データベース)1031の例を示す。売上管理DB1031には,図15に示すように,店舗コードごとに,「売上日付」,売上管理項目No.1「現金売上」,No.2「掛売上」,No.3「クレジット売上」,…などの売上に関する精算項目に対応する数値(金額)が格納される。   For example, FIG. 15 shows an example of a sales management DB (database) 1031. In the sales management DB 1031, as shown in FIG. 15, “sales date”, sales management item No. 1 “Cash Sales”, No. 1 2 “Multiple sales”, No. 2 3 A numerical value (amount) corresponding to a settlement item relating to sales such as “credit sales”,... Is stored.

以上により,売上管理DB1031には,店舗ごとにまったく異なるフォーマット(シート形式)であったレシート22のレシート項目が一元化され,各テナントの店舗により出力されたレシートで統一の取れないレシート項目,名称,数値などが,統一性のとれた売上管理項目による売上管理データとして,手入力による作業なしに自動的に収集できるようになる。これにより,テナント管理部門の業務担当者は,自動的に店舗ごとの売上を集計することができるため,店舗の売上管理業務を効率よく,スピーディに行うことができる。   As described above, in the sales management DB 1031, the receipt items of the receipt 22, which have a completely different format (sheet format) for each store, are unified, and the receipt item, name, Numerical values can be automatically collected without any manual input as sales management data based on unified sales management items. As a result, the person in charge of the tenant management department can automatically count the sales for each store, so that the store sales management business can be performed efficiently and speedily.

また,各店舗に備えられたキャッシュレジスタなどのレシート出力装置を変更する必要がないため,テナント側にとっては余計な出費を抑えることができる。   In addition, since there is no need to change a receipt output device such as a cash register provided in each store, an extra expense can be suppressed for the tenant.

以上のレシートデータ認識装置が行う処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。   The processing performed by the above receipt data recognition apparatus can be realized by a computer and a software program, and the program can be recorded on a computer-readable recording medium or provided through a network.

1 レシートデータ認識装置
10 読取機
11 画像データ読込部
12 店舗特定部
13 定義データ読込部
14 レシートデータ処理部
15 売上管理データ生成部
20 レシート挟持用シート
22 レシート
101 画像データ記憶部
102 定義データ記憶部
103 売上管理データ記憶部
140 同一名称判定部
141 レシートデータ抽出部
142 アンカー文字検出部
143 キーワード検出部
144 レシートデータ特定部
DESCRIPTION OF SYMBOLS 1 Receipt data recognition apparatus 10 Reader 11 Image data reading part 12 Store specification part 13 Definition data reading part 14 Receipt data processing part 15 Sales management data generation part 20 Receipt clamping sheet 22 Receipt 101 Image data storage part 102 Definition data storage part 103 Sales Management Data Storage Unit 140 Same Name Determination Unit 141 Receipt Data Extraction Unit 142 Anchor Character Detection Unit 143 Keyword Detection Unit 144 Receipt Data Identification Unit

Claims (6)

レシート画像を文字認識することにより得られた認識文字とその位置データとを記憶する画像データ記憶部と,
レシートに印字される項目名称の文字列と,レシート内に同一の項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート内に同一の項目名称を持つ他の文字列が存在する場合に,前記項目名称とレシート印字位置が関連付けられている他の項目名称の文字列であるアンカー文字と,前記項目名称の文字列と前記アンカー文字間の距離の情報とを,レシートにおける読取り対象となる各項目名称ごとに定義した定義データを記憶する定義データ記憶部と,
前記画像データ記憶部に記憶された認識文字から前記定義データに定義された項目名称の文字列に一致する認識文字を抽出するレシートデータ抽出部と,
抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,対応する前記アンカー文字に一致する認識文字の位置を取得し,その位置と前記抽出された認識文字の位置との距離を算出する同一名称判定部と,
前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,前記算出された距離と,前記定義データにおいて定義されている距離の情報とを比較し,最も近い距離の認識文字を,読取り対象の項目名称として特定し,前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在しないと定義されている場合に,前記抽出された認識文字を,読取り対象の項目名称として特定するレシートデータ特定部と,
前記読取り対象の項目名称と,その項目名称に一致する認識文字に対応する金額項目を表す認識文字とから,認識結果のデータを生成し,認識結果のデータを出力または記憶するデータ生成部とを備える
ことを特徴するレシートデータ認識装置。
An image data storage unit for storing a recognized character obtained by character recognition of the receipt image and its position data;
The character string of the item name printed on the receipt, the information indicating whether there is another character string with the same item name in the receipt, and the other character string with the same item name in the receipt If present, an anchor character, which is a character string of another item name associated with the item name and the receipt print position, and information on the distance between the character string of the item name and the anchor character are displayed in the receipt. A definition data storage unit for storing definition data defined for each item name to be read;
A receipt data extracting unit that extracts a recognized character that matches the character string of the item name defined in the definition data from the recognized character stored in the image data storage unit;
A recognized character that matches the corresponding anchor character when the item name corresponding to the extracted recognized character is defined in the definition data as another character string having the same item name in the receipt The same name determination unit that calculates the distance between the position and the position of the extracted recognized character;
When the item name corresponding to the extracted recognized character is defined in the definition data as another character string having the same item name in the receipt, the calculated distance and the definition Compare the distance information defined in the data, identify the closest recognized character as the item name to be read, and the item name corresponding to the extracted recognized character is the receipt in the definition data A receipt data specifying unit for specifying the extracted recognized character as an item name to be read when it is defined that no other character string having the same item name exists in
A data generation unit that generates recognition result data from the item name to be read and a recognition character that represents a monetary item corresponding to the recognition character that matches the item name, and outputs or stores the recognition result data; A receipt data recognition device characterized by comprising:
レシート画像を文字認識することにより得られた認識文字とその位置データとを記憶する画像データ記憶部と,
レシートに印字される項目名称の文字列と,レシート内に同一の項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート内に同一の項目名称を持つ他の文字列が存在する場合に,前記項目名称とレシート印字位置が関連付けられている他の項目名称の文字列である複数のキーワードの情報とを,レシートにおける読取り対象となる各項目名称ごとに定義した定義データを記憶する定義データ記憶部と,
前記画像データ記憶部に記憶された認識文字から前記定義データに定義された項目名称の文字列に一致する認識文字を抽出するレシートデータ抽出部と,
抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,その項目名称に対して定義されている前記複数のキーワードに一致する複数の認識文字が存在するか否かを判定する同一名称判定部と,
前記複数のキーワードに一致する複数の認識文字が存在する場合に,前記複数のキーワードに一致する複数の認識文字の中の前記定義データに定義された項目名称の文字列に一致する認識文字を,読取り対象の項目名称として特定し,前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在しないと定義されている場合に,前記抽出された認識文字を,読取り対象の項目名称として特定するレシートデータ特定部と,
前記読取り対象の項目名称と,その項目名称に一致する認識文字に対応する金額項目を表す認識文字とから,認識結果のデータを生成し,認識結果のデータを出力または記憶するデータ生成部とを備える
ことを特徴するレシートデータ認識装置。
An image data storage unit for storing a recognized character obtained by character recognition of the receipt image and its position data;
The character string of the item name printed on the receipt, the information indicating whether there is another character string with the same item name in the receipt, and the other character string with the same item name in the receipt If there is, definition data that defines information about a plurality of keywords that are character strings of other item names associated with the item name and the receipt print position for each item name to be read in the receipt. A definition data storage unit to be stored;
A receipt data extracting unit that extracts a recognized character that matches the character string of the item name defined in the definition data from the recognized character stored in the image data storage unit;
The item name corresponding to the extracted recognized character is defined for the item name when it is defined in the definition data that there is another character string with the same item name in the receipt. The same name determination unit for determining whether or not there are a plurality of recognized characters that match the plurality of keywords;
When there are a plurality of recognized characters that match the plurality of keywords, a recognized character that matches the character string of the item name defined in the definition data among the plurality of recognized characters that match the plurality of keywords, When the item name corresponding to the extracted recognized character is defined as no other character string having the same item name in the receipt in the definition data, specified as the item name to be read A receipt data specifying unit for specifying the extracted recognized character as an item name to be read;
A data generation unit that generates recognition result data from the item name to be read and a recognition character that represents a monetary item corresponding to the recognition character that matches the item name, and outputs or stores the recognition result data; A receipt data recognition device characterized by comprising:
請求項1または請求項2記載のレシートデータ認識装置において,
前記レシートは,店舗ごとに異なるフォーマットで印刷されたレシートであり,
前記定義データ記憶部には,店舗ごとに前記定義データが記憶され,
レシートを発行した店舗ごとに異なる定義データを用いて,前記レシートデータ抽出部と,前記同一名称判定部と,前記レシートデータ特定部と,前記データ生成部とによる処理を実行する
ことを特徴とするレシートデータ認識装置。
In the receipt data recognition device according to claim 1 or 2,
The receipt is a receipt printed in a different format for each store,
The definition data storage unit stores the definition data for each store,
The processing by the receipt data extraction unit, the same name determination unit, the receipt data identification unit, and the data generation unit is executed using different definition data for each store that issued the receipt. Receipt data recognition device.
請求項3記載のレシートデータ認識装置において,
前記定義データ記憶部に記憶される定義データは,前記レシートに印字される項目名称の文字列に対応して,複数の店舗の売上管理に共通に用いられる管理項目名称のデータを含み,
前記データ生成部は,前記項目名称に一致する認識文字を,前記定義データに定義された対応する管理項目名称に変換した認識結果のデータを生成する
ことを特徴とするレシートデータ認識装置。
In the receipt data recognition device according to claim 3,
The definition data stored in the definition data storage unit includes management item name data commonly used for sales management of a plurality of stores corresponding to the character string of the item name printed on the receipt,
The receipt data recognition apparatus, wherein the data generation unit generates recognition result data obtained by converting a recognition character that matches the item name into a corresponding management item name defined in the definition data.
コンピュータを,
レシート画像を文字認識することにより得られた認識文字とその位置データとを記憶する画像データ記憶手段と,
レシートに印字される項目名称の文字列と,レシート内に同一の項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート内に同一の項目名称を持つ他の文字列が存在する場合に,前記項目名称とレシート印字位置が関連付けられている他の項目名称の文字列であるアンカー文字と,前記項目名称の文字列と前記アンカー文字間の距離の情報とを,レシートにおける読取り対象となる各項目名称ごとに定義した定義データを記憶する定義データ記憶手段と,
前記画像データ記憶手段に記憶された認識文字から前記定義データに定義された項目名称の文字列に一致する認識文字を抽出するレシートデータ抽出手段と,
抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,対応する前記アンカー文字に一致する認識文字の位置を取得し,その位置と前記抽出された認識文字の位置との距離を算出する同一名称判定手段と,
前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,前記算出された距離と,前記定義データにおいて定義されている距離の情報とを比較し,最も近い距離の認識文字を,読取り対象の項目名称として特定し,前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在しないと定義されている場合に,前記抽出された認識文字を,読取り対象の項目名称として特定するレシートデータ特定手段と,
前記読取り対象の項目名称と,その項目名称に一致する認識文字に対応する金額項目を表す認識文字とから,認識結果のデータを生成し,認識結果のデータを出力または記憶するデータ生成手段として
機能させるためのレシートデータ認識プログラム。
Computer
Image data storage means for storing a recognized character obtained by character recognition of a receipt image and its position data;
The character string of the item name printed on the receipt, the information indicating whether there is another character string with the same item name in the receipt, and the other character string with the same item name in the receipt If present, an anchor character, which is a character string of another item name associated with the item name and the receipt print position, and information on the distance between the character string of the item name and the anchor character are displayed in the receipt. Definition data storage means for storing definition data defined for each item name to be read;
Receipt data extracting means for extracting a recognized character that matches the character string of the item name defined in the definition data from the recognized character stored in the image data storage means;
A recognized character that matches the corresponding anchor character when the item name corresponding to the extracted recognized character is defined in the definition data as another character string having the same item name in the receipt And the same name determination means for calculating the distance between the position and the position of the extracted recognized character,
When the item name corresponding to the extracted recognized character is defined in the definition data as another character string having the same item name in the receipt, the calculated distance and the definition Compare the distance information defined in the data, identify the closest recognized character as the item name to be read, and the item name corresponding to the extracted recognized character is the receipt in the definition data Receipt data specifying means for specifying the extracted recognized character as an item name to be read when it is defined that no other character string having the same item name exists in
Function as data generation means for generating recognition result data from the item name to be read and a recognition character representing a monetary item corresponding to the recognition character matching the item name, and outputting or storing the recognition result data Receipt data recognition program.
コンピュータを,
レシート画像を文字認識することにより得られた認識文字とその位置データとを記憶する画像データ記憶手段と,
レシートに印字される項目名称の文字列と,レシート内に同一の項目名称を持つ他の文字列が存在するか否かを示す情報と,レシート内に同一の項目名称を持つ他の文字列が存在する場合に,前記項目名称とレシート印字位置が関連付けられている他の項目名称の文字列である複数のキーワードの情報とを,レシートにおける読取り対象となる各項目名称ごとに定義した定義データを記憶する定義データ記憶手段と,
前記画像データ記憶手段に記憶された認識文字から前記定義データに定義された項目名称の文字列に一致する認識文字を抽出するレシートデータ抽出手段と,
抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在すると定義されている場合に,その項目名称に対して定義されている前記複数のキーワードに一致する複数の認識文字が存在するか否かを判定する同一名称判定手段と,
前記複数のキーワードに一致する複数の認識文字が存在する場合に,前記複数のキーワードに一致する複数の認識文字の中の前記定義データに定義された項目名称の文字列に一致する認識文字を,読取り対象の項目名称として特定し,前記抽出された認識文字に該当する項目名称が,前記定義データ中でレシート内に同一の項目名称を持つ他の文字列が存在しないと定義されている場合に,前記抽出された認識文字を,読取り対象の項目名称として特定するレシートデータ特定手段と,
前記読取り対象の項目名称と,その項目名称に一致する認識文字に対応する金額項目を表す認識文字とから,認識結果のデータを生成し,認識結果のデータを出力または記憶するデータ生成手段として
機能させるためのレシートデータ認識プログラム。
Computer
Image data storage means for storing a recognized character obtained by character recognition of a receipt image and its position data;
The character string of the item name printed on the receipt, the information indicating whether there is another character string with the same item name in the receipt, and the other character string with the same item name in the receipt If there is, definition data that defines information about a plurality of keywords that are character strings of other item names associated with the item name and the receipt print position for each item name to be read in the receipt. Definition data storage means for storing;
Receipt data extracting means for extracting a recognized character that matches the character string of the item name defined in the definition data from the recognized character stored in the image data storage means;
The item name corresponding to the extracted recognized character is defined for the item name when it is defined in the definition data that there is another character string with the same item name in the receipt. The same name determination means for determining whether or not there are a plurality of recognized characters that match the plurality of keywords;
When there are a plurality of recognized characters that match the plurality of keywords, a recognized character that matches the character string of the item name defined in the definition data among the plurality of recognized characters that match the plurality of keywords, When the item name corresponding to the extracted recognized character is defined as no other character string having the same item name in the receipt in the definition data, specified as the item name to be read Receipt data specifying means for specifying the extracted recognized character as an item name to be read;
Function as data generation means for generating recognition result data from the item name to be read and a recognition character representing a monetary item corresponding to the recognition character matching the item name, and outputting or storing the recognition result data Receipt data recognition program.
JP2011090594A 2011-04-15 2011-04-15 Receipt data recognition device and program thereof Active JP5216890B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011090594A JP5216890B2 (en) 2011-04-15 2011-04-15 Receipt data recognition device and program thereof
CN201110292415.7A CN102737224B (en) 2011-04-15 2011-09-29 Receipt data identifying device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011090594A JP5216890B2 (en) 2011-04-15 2011-04-15 Receipt data recognition device and program thereof

Publications (2)

Publication Number Publication Date
JP2012226402A true JP2012226402A (en) 2012-11-15
JP5216890B2 JP5216890B2 (en) 2013-06-19

Family

ID=46992697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011090594A Active JP5216890B2 (en) 2011-04-15 2011-04-15 Receipt data recognition device and program thereof

Country Status (2)

Country Link
JP (1) JP5216890B2 (en)
CN (1) CN102737224B (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186435A (en) * 2013-03-22 2014-10-02 Ntt Data Corp Data processing device, data processing method, and program
JP2015075905A (en) * 2013-10-08 2015-04-20 富士通株式会社 Data processing program and data processing method
JP2016126356A (en) * 2014-12-26 2016-07-11 ブラザー工業株式会社 Image processing program, image processing method, and image processing apparatus
JP2017120529A (en) * 2015-12-28 2017-07-06 セイコーエプソン株式会社 Program, information processor, control method for information processor, and information processing system
JP2018018466A (en) * 2016-07-29 2018-02-01 セイコーエプソン株式会社 Information processing device, control method for the same, and control program
CN111428599A (en) * 2020-03-17 2020-07-17 北京公瑾科技有限公司 Bill identification method, device and equipment
US10719887B2 (en) 2014-02-27 2020-07-21 Brother Kogyo Kabushiki Kaisha Non-transitory computer-readable medium, data management system and data management server
WO2020224131A1 (en) * 2019-05-09 2020-11-12 杭州睿琪软件有限公司 Receipt recognition method and apparatus, electronic device, and computer readable storage medium
JP7456580B2 (en) 2020-03-10 2024-03-27 グローリー株式会社 Information processing device, information processing system, and information processing method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5991538B2 (en) * 2013-02-20 2016-09-14 富士ゼロックス株式会社 Data processing apparatus, data processing system, and program
CN110991456B (en) * 2019-12-05 2023-07-07 北京百度网讯科技有限公司 Bill identification method and device
CN113269126A (en) * 2021-06-10 2021-08-17 上海云扩信息科技有限公司 Key information extraction method based on coordinate transformation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219407A (en) * 1997-11-28 1999-08-10 Fujitsu Ltd Document image recognizing device and storage medium for document image recognizing program
JP2004164218A (en) * 2002-11-12 2004-06-10 Seiko Epson Corp Receipt processor and its method and computer program
JP2005100079A (en) * 2003-09-25 2005-04-14 Casio Comput Co Ltd Form data inputting device and program
JP2006146510A (en) * 2004-11-18 2006-06-08 Oki Electric Ind Co Ltd Money processing apparatus
JP2008204226A (en) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd Form recognition device and its program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251012A (en) * 1999-03-01 2000-09-14 Hitachi Ltd Method and system for document processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219407A (en) * 1997-11-28 1999-08-10 Fujitsu Ltd Document image recognizing device and storage medium for document image recognizing program
JP2004164218A (en) * 2002-11-12 2004-06-10 Seiko Epson Corp Receipt processor and its method and computer program
JP2005100079A (en) * 2003-09-25 2005-04-14 Casio Comput Co Ltd Form data inputting device and program
JP2006146510A (en) * 2004-11-18 2006-06-08 Oki Electric Ind Co Ltd Money processing apparatus
JP2008204226A (en) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd Form recognition device and its program

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186435A (en) * 2013-03-22 2014-10-02 Ntt Data Corp Data processing device, data processing method, and program
JP2015075905A (en) * 2013-10-08 2015-04-20 富士通株式会社 Data processing program and data processing method
US10719887B2 (en) 2014-02-27 2020-07-21 Brother Kogyo Kabushiki Kaisha Non-transitory computer-readable medium, data management system and data management server
JP2016126356A (en) * 2014-12-26 2016-07-11 ブラザー工業株式会社 Image processing program, image processing method, and image processing apparatus
JP2017120529A (en) * 2015-12-28 2017-07-06 セイコーエプソン株式会社 Program, information processor, control method for information processor, and information processing system
JP2018018466A (en) * 2016-07-29 2018-02-01 セイコーエプソン株式会社 Information processing device, control method for the same, and control program
WO2020224131A1 (en) * 2019-05-09 2020-11-12 杭州睿琪软件有限公司 Receipt recognition method and apparatus, electronic device, and computer readable storage medium
US11361570B2 (en) 2019-05-09 2022-06-14 Hangzhou Glorify Software Limited Receipt identification method, apparatus, device and storage medium
JP7456580B2 (en) 2020-03-10 2024-03-27 グローリー株式会社 Information processing device, information processing system, and information processing method
CN111428599A (en) * 2020-03-17 2020-07-17 北京公瑾科技有限公司 Bill identification method, device and equipment
CN111428599B (en) * 2020-03-17 2023-10-20 北京子敬科技有限公司 Bill identification method, device and equipment

Also Published As

Publication number Publication date
JP5216890B2 (en) 2013-06-19
CN102737224A (en) 2012-10-17
CN102737224B (en) 2014-11-05

Similar Documents

Publication Publication Date Title
JP5216890B2 (en) Receipt data recognition device and program thereof
JP5202677B2 (en) Receipt data recognition device and program thereof
JP5204208B2 (en) Receipt data collation support device and receipt data collation support program
US8879846B2 (en) Systems, methods and computer program products for processing financial documents
JP6100532B2 (en) Receipt definition data creation device and program thereof
US9027833B2 (en) Commodity information display apparatus and method for displaying commodity information in different forms
JP6504514B1 (en) Document classification system and method and accounting system and method.
JP5810568B2 (en) Information processing apparatus, program, and data extraction method
JP6108927B2 (en) Sales data management system by store and sales data management program by store
JP5253462B2 (en) Receipt data collection device for each store and its program
JP2013164740A (en) Accounting information reading system, accounting information reading method, and program
JP5865316B2 (en) Product registration device and program
US20190043033A1 (en) Point-of-sale terminal
JP2022125220A (en) Image processing apparatus, image processing method, and program
JP6477467B2 (en) Information generation method and information processing apparatus
TW202018616A (en) Intelligent accounting system and identification method for accounting documents
CN111428725A (en) Data structuring processing method and device and electronic equipment
CN101174349A (en) Method for network tax controller processing bill data
JP6507459B2 (en) Accounting system
TWM575887U (en) Intelligent accounting system
JP5664337B2 (en) POS system, POS device, barcode misreading detection method and program thereof
TWM626292U (en) Business-oriented key item key-value identification system
JP2001312694A (en) Method and device for recognizing many kinds of slips
JP5654627B2 (en) Receipt data collection device for each store and its program
JP2019008559A (en) Information processing device and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121227

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20121227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

R150 Certificate of patent or registration of utility model

Ref document number: 5216890

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350