JP6213513B2 - Information identification program and information identification method - Google Patents
Information identification program and information identification method Download PDFInfo
- Publication number
- JP6213513B2 JP6213513B2 JP2015069744A JP2015069744A JP6213513B2 JP 6213513 B2 JP6213513 B2 JP 6213513B2 JP 2015069744 A JP2015069744 A JP 2015069744A JP 2015069744 A JP2015069744 A JP 2015069744A JP 6213513 B2 JP6213513 B2 JP 6213513B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- issuer
- text data
- specifying
- indicating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、情報特定プログラム、及び情報特定方法に関する。 The present invention relates to an information specifying program and an information specifying method.
従来、店舗毎に異なるフォーマットで印刷されたレシート等の帳票のデータを収集する店舗別レシートデータ収集装置が知られている。特許文献1に開示されたレシートデータ収集装置は、レシートの印刷レイアウト情報とレシートに印刷される項目名称とを含む店舗情報を、店舗ごとの識別コードに対応付けて記憶する。レシートデータ収集装置は、店舗ごとの識別コードを示すコード画像が表示されたレシート挟持用シートに挟まれたレシートをスキャナで読み取ることで、店舗情報とレシートの画像情報とを取得する。取得されたレシートの画像情報に対し、Optical Character Recognition(OCR)処理及び店舗情報に応じた処理がなされる。
2. Description of the Related Art Conventionally, a store-specific receipt data collection device that collects form data such as receipts printed in a format different for each store is known. The receipt data collection device disclosed in
特許文献1に記載のレシートデータ収集装置を使用するには、店舗情報を特定するために、店舗ごとのレシート挟持用シートを準備する必要がある。テナント管理部門ではなく、例えば個人ユーザがレシートデータ収集装置を使用する場合が考えられるが、個人ユーザが利用する店舗は、テナント管理部門の管理対象店舗ように、予め定められているとは限らない。このため、個人ユーザが、レシート挟持用シートを、それぞれの店舗に対して準備するのは繁雑である。このため、レシート挟持用シートに表示された店舗毎の識別コードを用いずに、帳票の画像情報から直接に店舗情報を特定できるのが望ましい。店舗情報の特定において、帳票の画像情報に対してOCR処理を行い、処理結果に基づいて店舗名等を抽出することにより、店舗情報を特定することが考えられる。しかしながら、帳票に印刷される店舗名は店舗毎に固有のものであり、店舗名の印刷に特殊なフォントが使用されていたり、ロゴマーク等の飾り文字で店舗名が印刷されていたりすることがある。このような店舗名をOCR処理によって特定することは、金額を表す数字列やレシートに印刷される項目名称としてありふれたものの文字列(例えば「合計金額」、「消費税金額」等)を特定することと比較して非常に困難であるといった問題がある。
In order to use the receipt data collection device described in
本発明は、帳票の印刷内容に対応する画像データから帳票の発行元を自動的に特定できる情報特定プログラム、及び情報特定方法を提供することを目的とする。 An object of the present invention is to provide an information specifying program and an information specifying method capable of automatically specifying a form issuer from image data corresponding to the print contents of a form.
本明細書に例示する情報特定プログラムは、情報特定装置を構成するコンピュータによって実行される情報特定プログラムであって、前記コンピュータに、前記情報特定装置に接続された画像読取装置から、発行元毎に異なるフォーマットで発行された帳票を読み取った画像データを取得する画像データ取得ステップと、前記画像データからテキストデータを取得するテキストデータ取得ステップと、前記テキストデータにおける文字の配列を解析することで、前記テキストデータの一部を検索キーとして抽出する抽出ステップと、前記情報特定装置にネットワークを介して接続されるデータベースに前記検索キーを送信する送信ステップと、前記検索キーに対応する、前記発行元を識別可能な情報を含む識別情報を前記データベースから受信する受信ステップと、前記識別情報に基づいて前記発行元を特定する特定ステップと、帳票の印刷レイアウト情報及び前記帳票に印刷される項目を示す項目情報を前記発行元に対応付けた帳票テンプレートを複数記憶する記憶手段から、前記特定ステップにおいて特定された前記発行元に対応する帳票テンプレートを取得するテンプレート取得ステップと、前記テンプレート取得ステップにおいて取得された前記帳票テンプレートを参照して、前記テキストデータ取得ステップにおいて取得された前記テキストデータを解析することによって、前記項目情報に対応する値である項目値を取得する項目値取得ステップと、前記項目値取得ステップにおいて取得された前記項目値を、前記特定ステップにおいて特定された前記発行元に対応付けて記憶する項目値記憶ステップとを実行させることを特徴とする。 The information specifying program exemplified in this specification is an information specifying program executed by a computer constituting the information specifying device, and is sent from the image reading device connected to the information specifying device to the computer for each issuer. An image data acquisition step of acquiring image data obtained by reading a form issued in a different format, a text data acquisition step of acquiring text data from the image data, and analyzing an array of characters in the text data, An extraction step of extracting a part of text data as a search key, a transmission step of transmitting the search key to a database connected to the information specifying device via a network, and the publisher corresponding to the search key Identification information including identifiable information is received from the database. A plurality of form templates in which the issuer is associated with the receiving step, the specifying step of specifying the issuer based on the identification information, and the print layout information of the form and item information indicating items to be printed on the form A template acquisition step for acquiring a form template corresponding to the issuer specified in the specifying step from the storage means for storing, and the text data acquisition step with reference to the form template acquired in the template acquisition step By analyzing the text data acquired in step, an item value acquisition step of acquiring an item value that is a value corresponding to the item information, and the item value acquired in the item value acquisition step Corresponds to the publisher specified in Characterized in that to execute the item value storage step of storing.
本明細書に例示する情報特定プログラムによれば、コンピュータは、帳票の印刷内容に対応する画像データからテキストデータを取得すると、帳票の発行元を識別可能な情報を含む識別情報を検索するための検索キーを抽出する。コンピュータは、検索キーに基づいてデータベースから識別情報を取得し、識別情報から発行元を特定する。コンピュータは、特定した発行元に対応付けられた帳票テンプレートを用いて、帳票に印刷される項目情報に対応する項目値を自動的に収集できる。従って、本発明の第一態様に係る情報特定プログラムは、帳票の印刷内容に対応する画像データから帳票の発行元を自動的に特定できる。 According to the information specifying program exemplified in this specification, when the computer acquires text data from the image data corresponding to the print contents of the form, the computer searches for identification information including information that can identify the issuer of the form. Extract the search key. The computer acquires identification information from the database based on the search key, and identifies the issuer from the identification information. The computer can automatically collect item values corresponding to the item information printed on the form, using the form template associated with the specified issuer. Therefore, the information specifying program according to the first aspect of the present invention can automatically specify the form issuer from the image data corresponding to the print contents of the form.
本発明の実施形態について、図面を参照して説明する。まず、図1を参照して、情報特定システム100のシステム構成を説明する。情報特定システム100は、情報特定装置1、画像読取装置(以下、「スキャナ」という)2、管理サーバ3、及びサービスサーバ4を含む。情報特定装置1は、インターネット8を介して、LAN9に接続された管理サーバ3及びサービスサーバ4、またはインターネット8に接続されたサービスサーバ4と、データ及びコマンドを送受信可能である。
Embodiments of the present invention will be described with reference to the drawings. First, the system configuration of the
情報特定装置1の構成について説明する。情報特定装置1は、発行元毎に異なるフォーマットで発行された帳票の印刷内容に対応する画像データから、帳票の発行元を特定可能な装置である。ここでいう帳票は、レシート、領収書、携帯電話・ガス・水道・電気等の料金明細書等、消費活動の内容を示す伝票であればよい。特に断らない限り、以下、帳票はレシートであるとして説明する。情報特定装置1は、情報特定専用の装置であってもよいし、所謂パーソナルコンピュータ等の汎用型の装置であってもよい。本実施形態では、汎用型の情報特定装置1を例示する。図1に示すように、情報特定装置1は、情報特定装置1の制御を司るコントローラであるCPU10を備えている。CPU10は、ROM11、RAM12、ハードディスクドライブ(以下、「HDD」という。)13、及び入出力インターフェース(以下、「入出力I/F」という。)14と、データバスを介して電気的に接続する。ROM11は、情報特定装置1を動作させるためのBIOS等のプログラム、及び初期値等を記憶している。RAM12は、CPU10による演算処理で得られた演算結果等、各種のデータを一時的に記憶する。
The configuration of the
HDD13は、不揮発性の記憶装置であり、CPU10に後述の情報特定処理(図5及び図6参照)を実行させるプログラムを記憶する。HDD13は、各種情報を管理するためのデータベース(以下、「DB」という。)として、後述のテンプレートDB50(図3参照)及びレシート解析結果DB(図4参照)を記憶する。HDD13は、非一時的な記憶媒体の一例である。非一時的な記憶媒体は、情報を記憶する期間に関わらず、情報を記憶可能な記憶媒体であればよい。非一時的な記憶媒体は、一時的な記憶媒体(例えば、伝送される信号)を含まなくてもよい。本実施形態における記憶装置はHDD13であるが、記憶装置は、情報を記憶する時間の長さに関わらずデータを保持できる、他の非一時的な記憶媒体、例えば、フラッシュメモリ、RAM等で構成されてもよい。
The
入出力I/F14は、データの受け渡しの仲介を行う。入出力I/F14には、外部通信インターフェース(以下、「外部通信I/F」という。)15と、画像を表示する表示部16と、キーボード及びマウス等の操作部17と、汎用の画像読取装置であるスキャナ2とが電気的に接続されている。外部通信I/F15は、情報特定装置1をインターネット8に接続する。
O I / F1 4 performs mediation of transfer of data. The input-output I / F1 4 is an external communication interface (hereinafter, "external communication I / F" hereinafter.) 15, a
情報特定処理(図5及び図6参照)は、家計簿の管理を行う家計簿管理ソフトウェアの処理の一部である。入出力I/F14は、情報特定装置1とスキャナ2等の外部機器とを接続するための、所定の規格(例えば、Universal Serial Bus (USB))に適合したインターフェース素子である。CPU10は、入出力I/F14を介して、スキャナ2等の外部機器とのデータの送受信を行う。スキャナ2は、情報特定装置1からの指示によって、レシート110等の画像を撮像する読取動作を行い、画像データを形成して、情報特定装置1に送信する。スキャナ2は、シートフィードスキャナ、又は、フラットベッドスキャナである。なお、スキャナ2は、レシート110の読取専用のスキャナであってもよいし、汎用のスキャナであってもよい。
The information specifying process (see FIGS. 5 and 6) is a part of the process of the household account book management software for managing the household account book. O I / F1 4 is for connecting the external device such as
管理サーバ3は、汎用のサーバであってもよい。管理サーバ3は、管理サーバ3の制御を司るCPU30を備えている。CPU30は、ROM31、RAM32、HDD33、及び入出力I/F34と、データバスを介して電気的に接続する。ROM11は、管理サーバ3を動作させるためのBIOS等のプログラム、及び初期値等を記憶している。RAM32は、CPU30による演算処理で得られた演算結果等、各種のデータを一時的に記憶する。HDD33は、各種設定等を記憶する。入出力I/F34には、外部通信I/F35が接続されている。外部通信I/F35は、管理サーバ3をLAN9に接続する。
The
サービスサーバ4は、各種のウェブサービスを提供する汎用のサーバである。サービスサーバ4は、位置情報サービスサーバ41、検索サービスサーバ42等の外部サービスサーバを含む。位置情報サービスサーバ41は、文字列に対応する位置情報を提供可能な位置情報サービスを提供する外部サービスサーバである。位置情報サービスの一例として、例えばGoogle(登録商標)の提供するGoogle Places APIがある。Google Places APIは、電話番号等を示す任意の文字列に対応する施設、地理的位置、有名なスポットについて情報を、インターネットユーザに送信可能な外部アプリケーション・プログラミング・インターフェース(API)である。検索サービスサーバ42は、任意の文字列に対応する情報をインターネット8でアクセス可能なウェブページから検索する検索サービスを提供する外部サービスサーバである。検索サービスの一例として、例えばGoogle(登録商標)の提供する検索エンジンがある。検索エンジンによる検索結果として、検索エンジンが検索に用いられた検索文字列に合致すると判断したウェブページが提示される他、検索文字列に合致すると検索エンジンが判断したウェブページの数に対応する検索ヒット数が提示される。
The
図2を参照して、レシート110について説明する。レシート110は、ユーザが店舗名「XXX STORE」である店舗で買い物をした場合に、店舗の店員から受け取るレシートの一例である。レシート110には、消費活動の内容を示す様々な項目情報が含まれている。ロゴ欄111は、店舗のロゴマークを示す。レシート110のロゴ欄111は、「XXX STORE」という店舗名の店舗で買い物がされたことを示している。住所欄112は店舗の住所、電話番号欄113は店舗の電話番号をそれぞれ示す。日付欄114は、購入日付を示す。品目欄115は購入商品名、単価欄116は商品毎の購入価格を示す。支払総額欄117は支払総額、税額欄118は消費税等の税額を示す。支払方法欄119は、支払方法を示す。宣伝欄121,122は、消費者に対する宣伝、お知らせ等を示す。レシート110では、宣伝欄122に店舗のURLを示すURL情報123が含まれている。
The
図3を参照して、HDD13に記憶されるテンプレートDB50について説明する。テンプレートDB50には、レシート110に印刷される項目を示す項目情報を、レシート110の発行元である店舗名に対応付けたレシートテンプレート(以下、単に「テンプレート」という。)が複数登録されている。図3に示す例では、テンプレートDB50には、レシート110に含まれる項目情報のうち、家計簿管理に必要な項目情報である「支払総額」、「税額」、「日付」、「支払方法」が登録されている。テンプレートDB50は、図3に示す例以外の項目情報を登録内容に含んでもよい。なお、T−IDは、テンプレートDB50にテンプレートが登録される毎にCPU10によって付与されるIDである。
A
レシート110の発行元毎に、レシート110に項目情報「支払総額」を印刷する様式は様々である。テンプレートDB50において、図2に示すように、店舗名「XXX STORE」のレシート110において、「支払総額」は「合計」の項目名称で印刷されている。このため、図3に示すように、T−IDが「T0001」のテンプレートには、項目情報「支払総額」に項目名称「合計」が対応付けられている。T−IDが「T0002」〜「T0005」のテンプレートについても同様に、項目情報「支払総額」に項目名称「Total」、「AMOUNT」、「total」、「合計」が、それぞれ対応付けられている。項目情報「税額」、「日付」、「支払方法」についても同様に、それぞれの店舗発行のレシート110において項目情報に対応して印刷される項目名称が登録されている。
For each issuer of the
なお、テンプレートDB50は、項目情報「日付」については、対応する項目名称である日付の印刷様式を正規表現で表現することとして、レシート110からの日付の読み取りを正確に行えるように工夫している。具体的には、T−ID「T0001」には、項目情報「日付」がレシート110に「(4桁の数字)/(1桁又は2桁の数字)/(1桁又は2桁の数字)」の様式(例えば、「西暦/月/日」の様式)で印刷されることが対応付けられている。T−ID「T0002」には、項目情報「日付」がレシート110に「(4桁の数字) (1桁又は2桁の数字) (1桁又は2桁の数字) (2桁の数字):(2桁の数字):(2桁の数字)」の様式(例えば、「西暦 月 日 時:分:秒」の様式)で印刷されることが対応付けられている。また、項目情報「支払方法」については、現金、BBカード、CCカード、DDカード等の複数の支払方法のうちのいずれがレシート110に印刷され得るかが対応付けられている。ここで、「BBカード」「CCカード」「DDカード」は、クレジットカードの種別を示している。
Note that the
レシート110の印刷レイアウトは、一般に「レジ」等と呼ばれる金銭登録機のメーカによって異なる場合がある。また、レシート110の発行元毎に、レシート110に含まれる項目情報の種類、及びそれぞれの項目情報の印刷位置が異なる場合がある。図示しないが、テンプレートDB50は、レシート110の印刷開始位置、レシート110から画像を読み取る読取範囲、読取範囲における各項目情報の印刷位置等の印刷レイアウト情報を、テンプレート毎に設定している。
The print layout of the
図4を参照して、HDD13に記憶されるレシート解析結果DB60について説明する。レシート解析結果DB60には、後述する情報特定処理(図5及び図6参照)の中で行われるレシート解析処理(図7参照)においてレシート110の項目情報に対応する項目値として取得された各値が、レシート110毎に記憶される。レシート解析結果DB60には、R−ID、T−ID、支払総額、税額、日付、及び支払方法が対応付けられて記憶されている。R−IDは、レシート解析結果DB60に情報が記憶される場合に、レシート110毎にCPU10によって付与されるIDである。T−IDは、レシート110の発行元を示す店舗名に対応するテンプレートがいずれのテンプレートであるかを示す。T−IDの替わりに、レシート110の発行元の店舗名が記憶されてもよい。支払総額は、レシート110に印刷された支払総額の値である。税額は、レシート110に印刷された税額の値である。日付は、レシート110に印刷された日付である。支払方法は、レシート110に印刷された支払方法である。この他、レシート解析結果DB60には、レシート110毎にレシート110をスキャナ2で読み取った画像データが、R−ID等とともに対応付けられて記憶されてもよい。
The receipt
図5から図10を参照して、本実施形態における情報特定処理について説明する。情報特定処理は、レシート110が撮像されたレシート画像の画像データに基づき、レシート110に記載されている情報からレシート110の発行元である店舗名を特定する処理である。また、情報特定処理は、特定された店舗名に対応するテンプレートを参照して項目情報に対応する項目値をレシート110から取得し、取得した各項目値をレシート110毎にレシート解析結果DB60に記憶する処理である。以下では、レシート110(図2参照)をスキャナ2で読み取り、各項目値をレシート110毎にレシート解析結果DB60に記憶する場合を具体例として説明する。具体例では、レシート解析結果DB60に情報が記憶されていない状態から、図4に示すR−ID「R0001」に対応付けられた情報を記憶する過程を示す。
With reference to FIG. 5 to FIG. 10, information specifying processing in the present embodiment will be described. The information specifying process is a process of specifying the store name that is the issuer of the
図5に示すように、情報特定処理が開始されると、CPU10は画像読取を実行する(S1)。具体的には、CPU10はスキャナ2に対して画像読取動作を行う指示を送信する。指示を受信したスキャナ2は、レシート110を撮像して、レシート画像の画像データを生成し、CPU10に送信する。CPU10は、スキャナ2から送信された画像データを受信し、RAM12に記憶する。
As shown in FIG. 5, when the information specifying process is started, the
CPU10は、受信した画像データからテキストデータを取得する(S2)。テキストデータは、レシート110の画像データに含まれる文字を示し、且つ、レシート110の項目情報に対応する情報を示すデータである。即ち、CPU10は、文字の輪郭に対応する特徴を画像から抽出し、文字の標準パターンとの比較を行う公知のOCR処理を実行することによって、RAM12に記憶された画像データから文字を抽出する。CPU10は、抽出された文字を分析して、レシート110に印刷されている文字を特定する。CPU10は、特定した文字を示すテキストデータを生成し、RAM12に記憶する。また、この時、CPU10は、特定されたテキストデータに対応するテキスト開始座標とテキスト終了座標を取得する。OCR処理においては、周知のエッジ検出技術等の特徴抽出ステップと、抽出した特徴を文字のテンプレートと比較するマッチングステップとを含む、周知のライブラリを利用可能である。
The
図2に示すように、ロゴ欄111において、店舗名「XXX STORE」を示す文字のうち「XXX」の部分について、それぞれの文字に縁取りの設けられた特殊なフォントが使用されている。また、「STORE」の部分について、手書き風の特殊なフォントが使用されている。また、「STORE」の文字の一部に、弓形の図柄が重なるように配置されている。文字に特殊なフォントが使用されたり、文字と図柄とが結合されたりするこのようなロゴマークについてOCR処理が行われた場合、店舗名を示す「XXX STORE」の文字がロゴマークから特定され難いことがある。以下では、ロゴ欄111のロゴマークからOCR処理によって店舗名を示す「XXX STORE」の文字が特定されておらず、テキストデータに「XXX STORE」を示す文字が含まれていないとして説明する。 As shown in FIG. 2, in the logo column 111, a special font in which each character has a border is used for the portion of “XXX” among characters indicating the store name “XXX STORE”. For the “STORE” portion, a handwritten-style special font is used. Further, an arcuate pattern is arranged so as to overlap a part of the characters “STORE”. When a special font is used for a character or an OCR process is performed for such a logo mark in which a character and a design are combined, the character “XXX STORE” indicating the store name is difficult to be identified from the logo mark. Sometimes. In the following description, it is assumed that the character “XXX STORE” indicating the store name is not specified by the OCR process from the logo mark in the logo column 111 and that the character indicating “XXX STORE” is not included in the text data.
CPU10は、取得されたテキストデータに含まれる文字列のうち、所定範囲の文字列を切り出して取得する(S3)。CPU10は、取得した文字列をRAM12に記憶する。本実施形態において所定範囲は、テキストデータのテキスト開始座標からテキスト終了座標方向における所定の範囲、及びテキスト終了座標からテキスト開始座標方向における所定の範囲である。即ち、CPU10は、テキストデータに含まれる文字列のうち、レシート110の上端に近い側に印刷された情報に基づく文字列、及びレシート110の下端に近い側に印刷された情報に基づく文字列を切り出す。本実施形態において、CPU10が切り出した文字列を含むデータを、第一テキストデータとする。
CPU10 cuts out and acquires the character string of the predetermined range among the character strings contained in the acquired text data (S3). The
S3の処理は、レシート110の画像データから得られたテキスト情報から、レシート110の発行元である店舗名を特定するための前処理として行われる。図2に示すように、レシート110の品目欄115、単価欄116、支払総額欄117、税額欄118、支払方法欄119に印刷される情報は、店舗名とは関連しない情報であることが多く、これらの欄の情報からは、店舗名は特定されにくい。レシート110の印刷レイアウトは様々であるが、これら品目欄115、単価欄116、支払総額欄117、税額欄118、支払方法欄119は、レシート110において上下方向(例えば、長手方向)の中央部に印刷されることが比較的多い。このため、レシート110の中央部以外に印刷される項目情報に基づいて、以降の店舗名を特定するための処理を行うことが好ましい。このため、CPU10は、S2の処理において取得したテキストデータのうち、レシート110の中央部に印刷される文字列を除外した第一テキストデータを、S3の処理において取得する。なお、テキストデータから第一テキストデータを取得する手法はこれに限られない。例えば、CPU10は、テキストデータを取得する際に、テキストデータにおける文字列の行数を合わせて取得してもよい。この場合、CPU10は、テキストデータの開始位置から終了位置に向けた所定行数に含まれる文字列、及びテキストデータの終了位置から開始位置に向けた所定行数に含まれる文字列に対応するデータを、第一テキストデータとして取得できる。
The process of S3 is performed as a pre-process for identifying the store name that is the issuer of the
CPU10は、RAM12に記憶された第一テキストデータを参照して、第一テキストデータから電話番号を示す文字列を検索する(S4)。図2に示すように、レシート110の電話番号欄113には、「052−333−XXXX」の様式で発行元の電話番号が印刷されている。レシート110毎に、電話番号欄113における電話番号の印刷様式は、「−(ハイフン)」の有無、「()(カッコ)」の有無、用いるカッコの種類等によって様々である。本実施形態では、CPU10は、電話番号を表記するための数字を含む文字列における特有の文字の配列を用いて、第一テキストデータから電話番号を示す文字列を検索する。CPU10は、例えば、
(\d{2,4})-(\d{2,4})-(\d{4})
(\d{2,4}) (\d{2,4}) (\d{4})
(\d{2,4})-(\d{2,4})-(\d{4})
[(\d{2,4})](\d{2,4})-(\d{4})
等の、正規表現を用いたパターンマッチングによって、第一テキストデータに含まれる文字列から、電話番号を示す文字列を検索する。CPU10は、電話番号を示す文字列を検索できた場合には、第一テキストデータから電話番号を示す文字列を抽出し、RAM12に記憶する。以下、電話番号を示す文字列を、「電話番号列」という。即ち、CPU10は、位置情報サービスを用いて店舗名を識別可能な位置情報を取得するための検索キーとして、第一テキストデータから電話番号列を抽出する。
The
(\ D {2,4})-(\ d {2,4})-(\ d {4})
(\ D {2,4}) (\ d {2,4}) (\ d {4})
(\ D {2,4})-(\ d {2,4})-(\ d {4})
[(\ D {2,4})] (\ d {2,4})-(\ d {4})
A character string indicating a telephone number is searched from a character string included in the first text data by pattern matching using a regular expression such as. When the character string indicating the telephone number can be retrieved, the
レシート110によっては、電話番号欄113が設けられていないので、CPU10は、第一テキストデータから、電話番号列を必ず抽出できるとは限らない。CPU10は、電話番号列を抽出できたか否かを判断する(S5)。CPU10は、電話番号列を抽出できた場合(S5:YES)、抽出した電話番号列を位置情報サービスサーバ41へ送信する(S6)。例えば、位置情報サービスサーバ41が前述のGoogle Places APIを提供するサービスサーバ4の場合、CPU10は、電話番号列に基づくHTTPリクエストを、位置情報サービスサーバ41を示す所定のURLへ送信する。
Depending on the
位置情報サービスサーバ41は、例えば、電話番号列等の文字列にかかるHTTPリクエストに対するHTTPレスポンスとして、XML形式のデータファイル(以下、「XMLファイル」という。)を出力する。このXMLファイルには、HTTPリクエストに対応する位置情報が含まれる。CPU10は、位置情報サービスサーバ41からHTTPレスポンスとして位置情報を含むXMLファイルが送信された場合、送信されたXMLファイルを受信する。
The location
電話番号列の示す電話番号に誤りがある場合、位置情報サービスサーバ41に電話番号列の示す電話番号に対応する情報が記憶されていない場合等、電話番号列に基づくHTTPリクエストに対応する有効な位置情報を含むXMLファイルが、位置情報サービスサーバ41からCPU10に送信されないことがある。また、何らかの理由で、電話番号列に対応する位置情報が、APIによって複数件検出されることがある。CPU10は、HTTPリクエストに対応する有効な位置情報を含むXMLファイルを受信したか否かを判断する(S7)。CPU10は、RAM12に記憶したXMLファイルを参照し、有効な位置情報を含むXMLファイルを受信した場合(S7:YES)、CPU10は、受信したXMLファイルに複数件の位置情報が含まれるか否かを判断する(S8)。
When there is an error in the telephone number indicated by the telephone number string, or when the information corresponding to the telephone number indicated by the telephone number string is not stored in the location
XMLファイルに複数件の位置情報が含まれる場合(S8:YES)、CPU10は、複数件の位置情報を含むXMLファイルを取得する(S9)。CPU10は、取得したXMLファイルをRAM12に記憶する。即ち、CPU10は、店舗名を識別するための識別情報として、複数件の位置情報を含むXMLファイルを取得する。次いで、CPU10は、現在位置の位置情報を示す現在位置情報を取得する(S10)。情報特定装置1の現在位置情報は、ウェブの標準化団体であるW3C(登録商標)が規定するGeolocation API等を利用する等の周知の手法によって、無線LAN、WiFi、携帯電話基地局、GPS、IPアドレス等を介して取得できる。CPU10は、XMLファイルを解析して、複数件の位置情報のうち、S10の処理において特定した現在位置情報に対して最も近い位置を示す位置情報に対応するレシート110の発行元である店舗名を特定する(S11)。その後、CPU10は、処理をS20へ移行する。
When a plurality of pieces of position information are included in the XML file (S8: YES), the
一方、XMLファイルに含まれる位置情報が1件の場合(S8:NO)、CPU10は、1件の位置情報を含むXMLファイルを取得する(S12)。CPU10は、取得したXMLファイルをRAM12に記憶する。即ち、CPU10は、店舗名を識別するための識別情報として、1件の位置情報を含むXMLファイルを取得する。CPU10は、XMLファイルを解析して、XMLファイルに含まれる位置情報に対応するレシート110の発行元である店舗名を特定する(S13)。その後、CPU10は、処理をS20へ移行する。
On the other hand, when the position information included in the XML file is one (S8: NO), the
S6からS13の処理における電話番号列を用いた店舗名特定について、具体的に説明する。図8は、CPU10が位置情報サービスサーバ41に送信した電話番号列に基づくHTTPリクエストに対して、位置情報サービスサーバ41から送信されるHTTPレスポンスであるXMLファイルの内容を示すXML文書70の一例である。XML文書70は、S6の処理においてCPU10が位置情報サービスサーバ41へ送信した電話番号列に対応する有効な位置情報を含むXMLファイルの内容を示すものとする。XML文書70は、電話番号列に対応してAPIが検索した検索結果を示す。
The store name identification using the telephone number string in the processing from S6 to S13 will be specifically described. FIG. 8 is an example of an
XMLファイルが有効な位置情報を含む場合、XML文書70には、「<name>」と「</name>」とに囲まれたname要素71、「<geometry>」と「</geometry>」とに囲まれたgeometry要素72が、それぞれ含まれる。name要素71及びgeometry要素72は、電話番号列に対応する位置情報の検索結果の一部を示す要素である。name要素71には、位置情報の検索結果に対応する店舗、サービス等の名称が主に含まれる。geometry要素72には、電話番号列に対応する位置情報の経度及び緯度を示す値が含まれる。図8に示すように、name要素71は、電話番号列に対応してAPIが検索した店舗名である「XXX STORE」が含まれている。また、geometry要素72は、電話番号列に対応してAPIが検索した位置情報の経度及び緯度を示す値が含まれている。CPU10は、位置情報を含むXMLファイルを取得する(S12)。CPU10は、取得したXMLファイルをRAM12に記憶する。CPU10は、取得したXMLファイルを参照し、name要素71及びgeometry要素72の記載に着目して、位置情報に対応するレシート110の発行元である店舗名を特定する(S13)。
When the XML file includes valid position information, the
また、XML文書70に、複数のname要素71及びgeometry要素72が含まれることがある。このような場合、CPU10は、XMLファイルに複数件の位置情報が含まれると判断する(S8:YES)。CPU10は、複数件の位置情報を含むXMLファイルを取得する(S9)。CPU10は、取得したXMLファイルをRAM12に記憶する。CPU10は、取得したXMLファイルを参照して、複数のgeometry要素72の示す経緯を示す値のうち、現在地から最も近い経緯を示すgeometry要素72を抽出する。CPU10は、抽出したgeometry要素72に対応するname要素71から、店舗名を特定する(S11)。
Further, the
本実施形態では、CPU10は、name要素71及びgeometry要素72に着目して、レシート110の発行元である店舗名を特定しているが、XML文書70には、これら以外にも電話番号列に対応する様々な要素情報が含まれている。CPU10は、XML文書70に含まれる他の要素情報に基づいて、店舗名を特定してよい。
In this embodiment, the
なお、XML文書70のフォーマットは、位置情報サービス毎に異なる場合がある。また、位置情報サービスサーバ41は、XML形式以外の形式で位置情報検索結果をCPU10に送信する場合がある。CPU10は、位置情報サービスサーバ41から送信される位置情報検索結果に応じて、検索結果内容を解析して、レシート110の店舗名を特定すればよい。位置情報サービスサーバ41には様々なものが存在する。CPU10は、S6の処理において電話番号列を送信する位置情報サービスサーバ41を、予め特定のものに統一しておくことで、店舗名特定のための位置情報検索結果の解析を画一的に行うことができる。
The format of the
図5の説明に戻る。一方、CPU10は、第一テキストデータから電話番号列を抽出できなかった場合(S5:NO)、又は電話番号列に対応する有効な位置情報を含むXMLファイルを受信できなかった場合(S7:NO)、処理をS14に移行する。以下では、CPU10が、第一テキストデータから電話番号列が抽出できなかったか、電話番号列に対応する有効な位置情報を含むXMLファイルを受信できなかったとして説明する。CPU10は、RAM12に記憶された第一テキストデータを参照して、第一テキストデータからURLを示す文字列を検索する(S14)。図2に示すように、レシート110の宣伝欄122は、URL情報123を含む。一般に、URLの表記には、「http://」、「https://」、「www.」等の、特有の文字列が用いられる。CPU10は、このようなURLの表記に用いられる特有の文字列を用いて、第一テキストデータからURL情報123を検索する。CPU10は、URL情報123を検索できた場合には、第一テキストデータからURL情報123の示すURLを示す文字列を抽出し、RAM12に記憶する。即ち、CPU10は、ウェブサービスを用いて店舗名を識別可能なHTTPレスポンスを取得するための検索キーとして、第一テキストデータからURLを示す文字列を抽出する。
Returning to the description of FIG. On the other hand, when the telephone number string cannot be extracted from the first text data (S5: NO), or the
レシート110によっては、URL情報123が印刷されていないので、CPU10は、第一テキストデータから、URL情報123を必ず抽出できるとは限らない。CPU10は、URL情報123を抽出できたか否かを判断する(S15)。CPU10は、URL情報123を抽出できた場合(S15:YES)、抽出したURL情報123の示すURLへアクセスするため、URLに対応するサービスサーバ4へHTTPリクエストを送信する(S16)。
Depending on the
URL情報123の示すURLに対応するサービスサーバ4が有効に動作している場合、サービスサーバ4はCPU10にHTTPレスポンスを送信する。CPU10は、URLに対応するサービスサーバ4からHTTPレスポンスが送信された場合、送信されたHTTPレスポンスを受信する。
When the
CPU10は、URLに対応するサービスサーバ4からHTTPレスポンスを受信したか否かを判断する(S17)。CPU10は、HTTPレスポンスを受信した場合(S17:YES)、HTTPレスポンスのヘッダ情報を取得する(S18)。CPU10は、取得したHTTPレスポンスのヘッダ情報をRAM12に記憶する。即ち、CPU10は、店舗名を識別するための識別情報として、HTTPレスポンスのヘッダ情報を取得する。CPU10は、取得したHTTPレスポンスのヘッダ情報を参照して、レシート110の発行元である店舗名を特定する(S19)。その後、CPU10は、処理をS20へ移行する。
The
S19の処理におけるHTTPレスポンスのヘッダ情報に基づく店舗名特定について、具体的に説明する。図9は、CPU10がURLに対応するサービスサーバ4に送信したHTTPリクエストに対して、サービスサーバ4から送信されるHTTPレスポンスに対応するHTML形式のデータファイル(以下、「HTMLファイル」という。)の内容を示すHTML文書80の一例である。HTML文書80は、S15の処理においてCPU10がURLに対応するサービスサーバ4に送信したHTTPリクエストに対して、有効に動作するサービスサーバ4から送信されたHTTPレスポンスに対応するHTMLファイルの内容を示すものとする。なお、図9において、HTML文書80は、HTTPレスポンスを構成するHTMLファイルのうち、主にウェブページ表示のために必要な情報を格納する部分であるレスポンスボディ(「<body>」と「</body>」とに囲まれた部分)については記載を省略している。
The store name identification based on the header information of the HTTP response in the process of S19 will be specifically described. FIG. 9 shows an HTML format data file (hereinafter referred to as “HTML file”) corresponding to an HTTP response transmitted from the
図9に示すように、HTTPレスポンスのヘッダ情報は、HTMLファイルのうち「<head>」と「</head>」とに囲まれた部分である。ヘッダ情報は、HTTPレスポンスの内容、属性等を示すものである。ヘッダ情報には、原則としてtitle要素81が含まれる。ヘッダ情報のtitle要素81は、ウェブページのタイトルを表す要素であり、検索エンジンでの検索結果に示されたり、ブラウザのタイトルバーに表示されたりする文言に対応する。このため、店舗の紹介のためのウェブページを開設する者は、title要素81について、title要素81に店舗名を盛り込む等の工夫をしていると考えられる。このため、本実施形態では、CPU10は、ヘッダ情報のtitle要素81に着目して、title要素81に記載の「XXX STORE」をレシート110の発行元である店舗名と特定する。
As shown in FIG. 9, the header information of the HTTP response is a portion surrounded by “<head>” and “</ head>” in the HTML file. The header information indicates the contents, attributes, etc. of the HTTP response. The header information includes a
なお、ウェブページには様々なものがあるので、レスポンスボディに含まれる画像等のデータを検索することで、レシート110の発行元である店舗名を特定できる場合も考えられる。このため、CPU10は、HTTPレスポンスのHTMLファイルのうち、レスポンスボディを参照し、内容を解析することで、レシート110の発行元である店舗名を特定してもよい。
Since there are various web pages, it may be possible to specify the name of the store from which the
図5の説明に戻る。一方、CPU10は、第一テキストデータからURL情報123を抽出できなかった場合(S15:NO)、又はHTTPレスポンスを受信できなかった場合(S17:NO)、処理をS21(図6参照)に移行する。以下では、CPU10が、第一テキストデータからURL情報123を抽出できなかったか、抽出したURL情報123に対応するURLに対応するサービスサーバ4からHTTPレスポンスを受信できなかったとして説明する。
Returning to the description of FIG. On the other hand, when the
図6に示すように、CPU10は、第一テキストデータのうち、上部テキストデータから単語を示す文字列を複数抽出する(S21)。前述したように、本実施形態において、第一テキストデータは、テキストデータに含まれる文字列のうち、レシート110の上端に近い側に印刷された情報に基づく文字列、及びレシート110の下端に近い側に印刷された情報に基づく文字列を含む。上部テキストデータは、第一テキストデータのうち、レシート110の上端に近い側に印刷された情報に基づく文字列からなるデータをいう。
As shown in FIG. 6, the
図2に示すように、レシート110の上端に近い側には、宣伝欄121、住所欄112等、店舗についての直接的な内容が印刷される場合がある。一方、レシート110の下端に近い側には、宣伝欄122等、店舗についての間接的な内容が印刷される場合がある。このため、本実施形態では、上部テキストデータに着目して、上部テキストデータに含まれる文字列から単語を示す複数の文字列を切り出し、切り出した単語を示す複数の文字列を用いて、店舗名の特定を試みている。なお、上部テキストデータから単語を示す文字列を切り出す手法については、公知の形態素解析ツールを用いて文字列を意味のある単語毎に区切る、また、正規表現を用いて文字列を漢字、ひらがな、カタカナ、英数字の境目で区切る等、種々の手法を採用できる。即ち、CPU10は、検索サービスを用いて店舗名を識別可能な検索結果を取得するための検索キーとして、上部テキストデータから複数の単語を抽出する。
As shown in FIG. 2, on the side close to the upper end of the
なお、レシート110の印刷フォーマットは様々であり、上部テキストデータ以外のテキストデータから、レシート110発行店舗名を特定するための有効な単語が得られやすい場合もある。このため、単語を切り出す対象とするテキストデータは上部テキストデータに限られない。情報特定装置1の開発者は、事前の実験等に基づいて、単語を切り出す対象とするテキストデータの範囲を定めてよい。
Note that the print format of the
図2の示すレシート110の場合、CPU10は、上部テキストデータから、例えば宣伝欄122から「洋菓子」「XXX STORE」、住所欄112に印刷されている店舗の住所等を単語として抽出できる。CPU10は、S21の処理において抽出したこれらの単語のそれぞれを、検索サービスサーバ42へ送信する(S22)。CPU10は、それぞれの単語に対応する検索サービスによる検索結果を受信し、単語毎に取得する(S23)。CPU10は、単語毎に取得した検索結果をRAM12に記憶する。即ち、CPU10は、店舗名を識別するための識別情報として、それぞれの単語に対応する検索サービスによる検索結果を取得する。CPU10は、S21の処理において抽出したすべての単語を検索サービスサーバ42へ送信したか否かを判断する(S24)。CPU10は、抽出したすべての単語を検索サービスサーバ42へ送信していない場合(S24:NO)、S22及びS23の処理を繰り返す。
In the case of the
CPU10は、抽出したすべての単語を検索サービスサーバ42へ送信した場合(S24:YES)、単語毎の検索結果を参照して、検索ヒット数が最大である検索結果に対応する単語を、レシート110の発行元である店舗名と特定する(S25)。本実施形態において、上部テキストデータから「XXX STORE」の単語が抽出されており、単語「XXX STORE」に対応する検索ヒット数が、抽出された他の単語よりも高い場合、CPU10は、「XXX STORE」を店舗名と特定する。その後、CPU10は、処理をS19(図5参照)へ移行する。
When all the extracted words are transmitted to the search service server 42 (S24: YES), the
図5の説明に戻る。CPU10は、レシート解析処理を実行する(S19)。レシート解析処理は、S11、S12、S18、S25のいずれかの処理において特定された店舗名に対応するテンプレートに基づいて、テキストデータを解析して、解析結果をレシート解析結果DB60に登録する処理である。
Returning to the description of FIG. The
図7を参照して、レシート解析処理(S20、図5参照)について説明する。図7に示すように、レシート解析処理が開始されると、CPU10は、HDD13に記憶されているテンプレートDB50を参照して、S11、S12、S18、S25(図5参照)のいずれかの処理で特定された店舗名に対応するテンプレートを取得する(S41)。CPU10は、取得したテンプレートをRAM12に記憶する。本実施形態では、S11、S12、S18、S25(図5参照)のいずれかの処理で店舗名「XXX STORE」が特定されているとする。この場合、CPU10は、テンプレートDB50から、店舗名「XXX STORE」に対応付けられているT−ID「T0001」のテンプレートを取得する。
The receipt analysis process (S20, see FIG. 5) will be described with reference to FIG. As shown in FIG. 7, when the receipt analysis process is started, the
CPU10は、テキストデータに含まれる文字列のうち、テンプレートの項目情報に対応する文字、数字等の値である項目値のそれぞれを、取得したT−ID「T0001」のテンプレートに基づいて取得する(S42)。CPU10は、S42で取得した項目値のそれぞれを対応付けて、HDD13のレシート解析結果DB60に格納する(S43)。この場合、CPU10は、R−ID「R0001」に対応したデータ領域をレシート解析結果DB60に作成する。
CPU10 acquires each item value which is values, such as a character corresponding to the item information of a template, and a number among the character strings contained in text data based on the acquired template of T-ID "T0001" ( S42). The
CPU10は、HDD13のレシート解析結果DB60に格納されたR−ID「R0001」に対応した項目値を表示するための読取完了画面130(図10参照)を、表示部16に表示する(S44)。図10に示すように、読取完了画面130は、結果表示欄131、OKボタン133、及び修正ボタン134とを含む。CPU10は、レシート110から取得されてレシート解析結果DB60に格納された項目値のそれぞれを、結果表示欄131に表示する。CPU10は、操作部17を介した修正ボタン134の操作によって、レシート解析結果DB60のR−ID「R0001」に対応したデータ領域について、項目値の修正等の編集操作を受け付ける。CPU10は、操作部17を介したOKボタン133の操作によって、レシート解析結果DB60への項目値の保存を終了する。CPU10は、処理を情報特定処理(図5参照)へ戻す。その後、CPU10は、情報特定処理を終了する。
The
以上説明したように、情報特定装置1のCPU10は、スキャナ2に対して画像読取動作を行う指示を送信し、レシート110が撮像されたレシート画像の画像データをスキャナ2から受信する(S1)。CPU10は、画像データからOCR処理によってテキストデータを取得すると(S2)、レシート110の発行元の店舗名を識別可能な位置情報を取得するための検索キーとして、第一テキストデータから電話番号列を抽出する(S4)。また、CPU10は、ウェブサービスを用いて店舗名を識別可能なHTTPレスポンスを取得するための検索キーとして、第一テキストデータからURLを示す文字列を抽出する(S14)。また、CPU10は、検索サービスを用いて店舗名を識別可能な検索結果を取得するための検索キーとして、上部テキストデータから複数の単語を抽出する(S21)。CPU10は、それぞれの検索キーに基づいて、レシート110の発行元である店舗名を識別可能な識別情報を取得し(S9、S12、S18、S23)、識別情報から店舗名を特定する(S11、S13、S19、S25)。従って、情報特定装置1は、帳票の印刷内容に対応する画像データから、レシート110の発行元の店舗名を自動的に特定できる。
As described above, the
レシート110には、レシート110の発行元の電話番号が印刷されていることがある。電話番号は、特定の配列を有する数字列を含む文字列として印刷されることがある。CPU10は、レシート110の画像データに対応するテキストデータから、特定の配列を有する数字列を含む文字列を検索することで、電話番号を示す文字列を検索キーとして抽出できる(S4)。従って、情報特定装置1は、電話番号を示す文字列を検索キーとして位置情報サービスを利用することで、レシート110の発行元を特定できる。
The
レシート110には、レシート110の発行元を示すURLが印刷されていることがある。URLは、例えば、「http://」、「www」等、特定の配列を有する文字列を含んだ文字列として印刷されることがある。CPU10は、レシート110の画像データに対応するテキストデータから、URLを示す特定の配列の文字列を検索することで、URLを示す文字列を検索キーとして抽出できる(S14)。CPU10は、抽出したURLへHTTPリクエストを送信し(S16)、HTTPレスポンスを受信する(S17)。従って、情報特定装置1は、HTTPレスポンスのヘッダ情報を解析して、レシート110の発行元を特定できる。
The
レシート110には、レシート110の発行元を示す種々の文字(例えば、店舗名)が印刷されていることがある。特に、レシート110の発行元店舗名に関連する文字列は、レシート110の上端に近い側に印刷されることが比較的多い。CPU10は、第一テキストデータのうち、レシート110の上端に近い側に印刷された情報に基づく文字列からなる上部テキストデータから、単語を示す文字列を検索キーとして複数抽出する(S21)。CPU10は、抽出した単語のそれぞれを、検索サービスサーバ42へ送信し(S22)、それぞれの単語に対応する検索サービスによる検索結果を受信して、検索結果を単語毎に取得する(S23)。従って、情報特定装置1は、単語毎の検索結果を参照して、検索ヒット数が最大である検索結果に対応する単語を、レシート110の発行元である店舗名と特定できる。
Various characters (for example, store names) indicating the issuer of the
情報特定装置1は、インターネット8又はLAN9を介して取得可能な様々な情報を、レシート110の発行元の店舗名を識別可能なするための識別情報として用いることができる。
The
情報特定装置1のCPU10は、レシート110の発行元を特定するための識別情報として、検索キーとして抽出した電話番号列に対応する位置情報を含むXMLファイルを、位置情報サービスサーバ41から受信して取得できる(S9、S12)。
The
レシート110に印刷される電話番号列の配列は、定型的である場合がある。また、URLは、電話番号列よりもレシート110に印刷されることが少ない可能性がある。CPU10は、URLを示す文字列に優先して電話番号列を検索キーとして抽出する(S5:NO、又はS7:NO、S13)。従って、情報特定装置1は、レシート110の発行元特定の精度を向上できる。
The arrangement of telephone number strings printed on the
情報特定装置1のCPU10は、レシート110の発行元を特定するための識別情報として、検索キーとして抽出した単語を示す複数の文字列のそれぞれに対応する検索結果を、検索サービスサーバ42から受信して取得できる(S23)。
The
CPU10は、検索キーとして抽出したURLを示す文字列に対応するサービスサーバ4へHTTPリクエストを送信することで(S16)、HTTPレスポンスをサービスサーバ4から受信する(S17)。従って、情報特定装置1は、受信したHTTPレスポンスのヘッダ情報をレシート110の発行元を特定するための識別情報として取得できる。
The
検索キーとして第一テキストデータから抽出される単語を示す複数の文字列には、レシート110の発行元の特定に寄与しない文字列も含まれる可能性がある。一方、レシート110に印刷されたURLを示す文字列は、レシート110の発行元についての情報を示す可能性がある。CPU10は、単語を示す複数の文字列に優先してURLを示す文字列を検索キーとして抽出する(S15:NO、又はS17:NO、S21)。従って、情報特定装置1は、レシート110の発行元特定の精度を向上できる。
The plurality of character strings indicating words extracted from the first text data as the search key may include character strings that do not contribute to specifying the issuer of the
サービスサーバ4は、レシート110の発行元についての情報を提供するウェブページを開設していることがある。単語を示す文字列がレシート110の発行元を示す店舗名等に対応する文字列である場合、単語を示す文字列が発行元を示さない場合よりも、検索結果情報の示す検索ヒット数が高くなると考えられる。CPU10は、複数の検索結果情報のうち検索ヒット数が最大の検索結果情報から発行元を特定する(S25)。従って、情報特定装置1は、レシート110の発行元特定の精度を向上できる。
The
位置情報サービスサーバ41から送信されるXMLファイルには、CPU10が送信した電話番号列に対応する位置情報が含まれる。従って、情報特定装置1は、位置情報サービスを利用して、レシート110の発行元特定の精度を向上できる。
The XML file transmitted from the position
レシート110の発行元を特定しようとするユーザは、現在位置から最も近い位置関係を示す位置情報に対応する店舗名を有する発行元からレシート110の発行を受けた可能性がある。このため、CPU10は、情報特定装置1の現在位置情報を取得し(S10)、取得した現在位置情報に対して最も近い位置関係を示す位置情報から発行元を特定する(S11)。従って、情報特定装置1は、レシート110の発行元特定の精度を向上できる。
There is a possibility that the user who wants to specify the issuer of the
HTTPレスポンスのヘッダ情報は、例えば、ウェブページのタイトルを指定するtitle要素81等の情報を含む。情報特定装置1は、HTTPレスポンスのヘッダ情報からレシート110の発行元を特定することで、発行元特定の精度を向上できる。
The header information of the HTTP response includes information such as a
CPU10は、S11、S13、S19、S25の各ステップにおいて特定した店舗名に対応するテンプレートをテンプレートDB50から取得する(S41)。CPU10は、取得したテンプレートに基づいて、テンプレートの項目情報に対応する項目値を取得する(S42)。CPU10は、取得した項目値をレシート解析結果DBに格納する(S43)。
従って、情報特定装置1は、レシート110に印刷されている項目情報に対応する項目値を、特定した店舗名に対応付けて自動的に収集できる。
CPU10 acquires the template corresponding to the store name specified in each step of S11, S13, S19, S25 from template DB50 (S41). CPU10 acquires the item value corresponding to the item information of a template based on the acquired template (S42). The
Therefore, the
情報特定装置1のCPU10は、上記の実施形態の情報特定方法に倣って、スキャナ2から受信したレシート110の印刷内容に対応する画像データからレシート110の発行元を特定することができる。
The
上記実施形態において、情報特定装置1が、本発明の「情報特定装置」に相当する。スキャナ2が、本発明の「画像読取装置」に相当する。テンプレートDB50及びレシート解析結果DB60を記憶するHDD13が、本発明の「記憶手段」に相当する。インターネット8及びLAN9が、本発明の「ネットワーク」に相当する。サービスサーバ4が、本発明の「データベース」に相当し、位置情報サービスサーバ41が、本発明の「位置情報サービスサーバ」に相当し、検索サービスサーバ42が、本発明の「検索サービスサーバ」に相当する。
In the above embodiment, the
S1の処理が、本発明の「画像データ取得ステップ」に相当する。S2の処理が、本発明の「テキストデータ取得ステップ」に相当する。S4、S14、S21の処理が、本発明の「抽出ステップ」に相当し、S4の処理が、本発明の「電話番号検索ステップ」に相当し、S14の処理が、本発明の「URL検索ステップ」に相当し、S21の処理が、本発明の「単語抽出ステップ」に相当する。S6〜S13、S16〜S19、S22及びS23の処理が、本発明の「識別情報取得ステップ」に相当する。S6、S16、S22の処理が、本発明の「送信ステップ」に相当し、S6の処理が、本発明の「電話番号送信ステップ」に相当し、S16の処理が、本発明の「HTTPリクエスト送信ステップ」に相当し、S22の処理が、本発明の「単語送信ステップ」に相当する。S7、S8、S17、S23の処理が、本発明の「受信ステップ」に相当し、S7、S8の処理が、本発明の「位置情報受信ステップ」に相当し、S17の処理が、本発明の「HTTPレスポンス受信ステップ」に相当し、S23の処理が、本発明の「検索結果受信ステップ」に相当する。S11、S13、S19、S25の処理が、本発明の「特定ステップ」に相当する。S10の処理が、本発明の「現在地取得ステップ」に相当する。S41の処理が、本発明の「テンプレート取得ステップ」に相当する。S42の処理が、本発明の「項目値取得ステップ」に相当する。S43の処理が、本発明の「項目値記憶ステップ」に相当する。 The process of S1 corresponds to the “image data acquisition step” of the present invention. The process of S2 corresponds to the “text data acquisition step” of the present invention. The processes of S4, S14, and S21 correspond to the “extraction step” of the present invention, the process of S4 corresponds to the “telephone number search step” of the present invention, and the process of S14 corresponds to the “URL search step of the present invention. The process of S21 corresponds to the “word extraction step” of the present invention. The processes of S6 to S13, S16 to S19, S22, and S23 correspond to the “identification information acquisition step” of the present invention. The processes of S6, S16, and S22 correspond to the “transmission step” of the present invention, the process of S6 corresponds to the “telephone number transmission step” of the present invention, and the process of S16 corresponds to the “HTTP request transmission of the present invention. Step S22 corresponds to the “word transmission step” of the present invention. The processing of S7, S8, S17, and S23 corresponds to the “reception step” of the present invention, the processing of S7 and S8 corresponds to the “location information reception step” of the present invention, and the processing of S17 is the processing of the present invention. This corresponds to an “HTTP response receiving step”, and the process of S23 corresponds to a “search result receiving step” of the present invention. The processing of S11, S13, S19, and S25 corresponds to the “specific step” of the present invention. The process of S10 corresponds to the “present location acquisition step” of the present invention. The process of S41 corresponds to the “template acquisition step” of the present invention. The process of S42 corresponds to the “item value acquisition step” of the present invention. The process of S43 corresponds to the “item value storage step” of the present invention.
なお、本発明は上記の実施形態に限定されるものではなく、種々の変更が可能である。本発明の情報特定装置1は、上記実施形態のパーソナルコンピュータ等の汎用型の装置に限られない。例えば、情報特定装置1は、携帯端末であってもよい。携帯端末は、携帯端末に内蔵されたカメラ等の撮像装置でレシート110を撮像して画像データを取得し(S1)、S2以降の処理を実行してもよい。また、帳票の印刷内容に対応する画像データを取得する手法は、スキャナ2による帳票の読み取りを行うことに限られず、帳票の印刷内容を撮像可能なカメラ等の撮像装置を用いて帳票画像データを取得してもよい。
In addition, this invention is not limited to said embodiment, A various change is possible. The
また、管理サーバ3が情報特定装置1として機能してもよい。この場合、管理サーバ3のCPU30は、上記実施形態においてパーソナルコンピュータである情報特定装置1、又はその他の装置からインターネット8及びLAN9を介して送信されるレシート110を撮像した画像データを受信することで取得してもよい(S1)。CPU30は、画像データに対して公知の文字認識処理を実行することで、画像データからテキストデータを取得して(S2)、S3以降の処理を実行してもよい。
Further, the
上記実施形態では、CPU10は、店舗名を識別可能な位置情報、HTTPレスポンス、検索エンジンの検索結果を取得するための検索キーを、第一テキストデータから抽出している(S4、S13、S21)。抽出された検索キーは、位置情報サービスサーバ41、検索サービスサーバ42等の外部のサービスサーバ4に送信されるが、本発明の構成はこれに限られない。例えば、情報特定装置1は、予めHDD13に記憶されているデータベースから、検索キーに対応する店舗名を識別可能な識別情報を取得してもよい。この場合、HDD13に記憶されるデータベースとして、レシート110の発行店舗の電話番号リスト、レシート110の発行店舗のURLリスト、レシート110の発行店舗が必ずレシート110に印刷している特定の文字列を発行店舗毎に対応付けたリスト等が該当する。これらのデータベースは、位置情報サービスサーバ41、検索サービスサーバ42等から提供される情報と同等の情報を記憶するものでもよいし、レシート110の発行元を特定するためにカスタマイズされた情報を記憶するものでもよい。また、このようなデータベースが管理サーバ3のHDD33等に記憶されていてもよい。CPU10は、検索キーを管理サーバ3のCPU30に送信することで、インターネット8又はLAN9を介して識別情報を取得してもよい。
In the above embodiment, the
テンプレートDB50及びレシート解析結果DB60のいずれか一方又は両方が、管理サーバ3のHDD33に記憶されていてもよい。
Either one or both of the
上記実施形態では、S21の処理において、CPU10は、取得した第一テキストデータのうち上部テキストデータから単語を示す文字列を抽出しているが、これに限られず、第一テキストデータの全体から単語を示す文字列を抽出してもよい。また、S4、S14、S21のそれぞれの処理において、CPU10は、検索キーの抽出を第一テキストデータから行っているが、これに限られず、S2の処理で取得したテキストデータの全体から検索キーを抽出してもよい。
In the above embodiment, in the process of S21, the
上記実施形態では、CPU10は、S25の処理において、検索ヒット数が最大である検索結果に対応する単語を、レシート110の発行元である店舗名と特定している。この処理において、CPU10は、例えば、検索結果のうち最上位の検索結果を示すウェブページのHTMLファイルのヘッダ情報等に基づいて、店舗名を特定してもよい。
In the above embodiment, the
上記実施形態では、検索キーとして電話番号列を用いる店舗名特定を、検索キーとしてURLを示す文字列を用いる店舗名特定よりも優先して行っている。また、検索キーとしてURLを示す文字列を用いる店舗名特定を、検索キーとしてURLを示す文字列を用いる店舗名特定よりも優先して行っている。これらの優先順位は、レシート110の印刷内容の傾向等に応じて適宜変更できる。また、情報特定装置1は、これらそれぞれの特定方法の全てを実行する必要はなく、特定方法を適宜取捨選択してよい。
In the above-described embodiment, store name specification using a telephone number string as a search key is performed in preference to store name specification using a character string indicating a URL as a search key. Further, store name identification using a character string indicating a URL as a search key is prioritized over store name identification using a character string indicating a URL as a search key. These priorities can be appropriately changed according to the tendency of the print contents of the
CPU10は、HDD13に記憶されたプログラムをRAM12上で展開することで、情報特定処理を実行するプロセッサとして機能する。CPU10として、汎用的なプロセッサが用いられてもよい。マイクロコンピュータ、ASIC、FPGA等が、CPU10の代わりにプロセッサとして用いられてもよい。管理サーバ3が情報特定装置1として機能する場合には、CPU30は、HDD33に記憶されたプログラムをRAM32上で展開することで、情報特定処理を実行するプロセッサとして機能する。上記と同様に、マイクロコンピュータ、ASIC、FPGA等が、CPU30の代わりにプロセッサとして用いられてもよい。
The
情報特定処理は、複数の電子機器(つまり、複数のCPU)によって分散処理されてもよい。例えば、情報特定処理の一部が、インターネット8に接続した管理サーバ3等の他のサーバで実行されてもよい。プログラムは、例えば、インターネット8に接続した管理サーバ3等の他のサーバからダウンロードされて、情報特定装置1のHDD13に記憶されてもよい。
The information specifying process may be distributed by a plurality of electronic devices (that is, a plurality of CPUs). For example, a part of the information specifying process may be executed by another server such as the
1 情報特定装置
2 スキャナ
3 管理サーバ
4 サービスサーバ
8 インターネット
9 LAN
10 CPU
13 HDD
41 位置情報サービスサーバ
42 検索サービスサーバ
50 テンプレートDB
60 レシート解析結果DB
1
10 CPU
13 HDD
41 Location
60 Receipt analysis result DB
Claims (17)
前記コンピュータに、
前記情報特定装置に接続された画像読取装置から、発行元毎に異なるフォーマットで発行された帳票を読み取った画像データを取得する画像データ取得ステップと、
前記画像データからテキストデータを取得するテキストデータ取得ステップと
を実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、特定の配列を有する数字列を含む文字列を検索することで、電話番号を示す文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された電話番号を示す文字列を、電話番号に対応する地理的位置を示す位置情報を含むデータファイルを提供可能な位置情報サービスを提供するサーバであり、前記画像読取装置及び前記情報特定プログラムにとって専用のサーバではない外部の位置情報サービスサーバに送信する送信ステップと、
前記送信ステップにおいて送信された電話番号を示す文字列に対応する位置情報を含むデータファイルを前記位置情報サービスサーバから受信する受信ステップと、
前記受信ステップにおいて受信されたデータファイルに含まれる位置情報に基づいて前記発行元を特定する特定ステップと、
帳票の印刷レイアウト情報及び前記帳票に印刷される項目を示す項目情報を前記発行元に対応付けた帳票テンプレートを複数記憶する記憶手段から、前記特定ステップにおいて特定された前記発行元に対応する帳票テンプレートを取得するテンプレート取得ステップと、
前記テンプレート取得ステップにおいて取得された前記帳票テンプレートを参照して、前記テキストデータ取得ステップにおいて取得された前記テキストデータを解析することによって、前記項目情報に対応する値である項目値を取得する項目値取得ステップと、
前記項目値取得ステップにおいて取得された前記項目値を、前記特定ステップにおいて特定された前記発行元に対応付けて記憶する項目値記憶ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information identification program executed by a computer constituting the information identification device,
In the computer,
An image data acquisition step of acquiring image data obtained by reading a form issued in a different format for each issuer from an image reading device connected to the information specifying device;
A text data acquisition step for acquiring text data from the image data ;
And execute
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a character string indicating a telephone number by searching a character string including a numeric string having a specific sequence from the text data extracted from the third region ;
A server providing a location information service capable of providing a data file including location information indicating a geographical location corresponding to a telephone number, the character string indicating the phone number extracted in the extraction step; A transmission step of transmitting to an external location information service server that is not a dedicated server for the information identification program ;
A receiving step of receiving, from the location information service server, a data file including location information corresponding to the character string indicating the telephone number transmitted in the transmission step ;
A specifying step of specifying the issuer based on position information included in the data file received in the receiving step ;
A form template corresponding to the issuer specified in the specifying step, from storage means for storing a plurality of form templates in which the print layout information of the form and item information indicating items printed on the form are associated with the issuer A template acquisition step for acquiring
Item value for acquiring an item value corresponding to the item information by analyzing the text data acquired in the text data acquisition step with reference to the form template acquired in the template acquisition step An acquisition step;
An information specifying program that further executes an item value storing step of storing the item value acquired in the item value acquiring step in association with the issuer specified in the specifying step.
前記コンピュータに、
前記情報特定装置に接続された画像読取装置から、発行元毎に異なるフォーマットで発行された帳票を読み取った画像データを取得する画像データ取得ステップと、
前記画像データからテキストデータを取得するテキストデータ取得ステップと
を実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、URLを示す特定の配列の文字列を前記テキストデータから検索することで、前記テキストデータからURLを示す文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された文字列に示されるURLに対応し、インターネットに接続されてウェブサービスを提供するサーバであり、前記画像読取装置及び前記情報特定プログラムにとって専用のサーバではない外部のウェブサーバにHTTPリクエストを送信する送信ステップと、
前記送信ステップにおいて送信されたHTTPリクエストに対応するHTTPレスポンスを前記ウェブサーバから受信する受信ステップと、
前記受信ステップにおいて受信されたHTTPレスポンスに含まれるHTML要素に基づいて前記発行元を特定する特定ステップと、
帳票の印刷レイアウト情報及び前記帳票に印刷される項目を示す項目情報を前記発行元に対応付けた帳票テンプレートを複数記憶する記憶手段から、前記特定ステップにおいて特定された前記発行元に対応する帳票テンプレートを取得するテンプレート取得ステップと、
前記テンプレート取得ステップにおいて取得された前記帳票テンプレートを参照して、前記テキストデータ取得ステップにおいて取得された前記テキストデータを解析することによって、前記項目情報に対応する値である項目値を取得する項目値取得ステップと、
前記項目値取得ステップにおいて取得された前記項目値を、前記特定ステップにおいて特定された前記発行元に対応付けて記憶する項目値記憶ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information identification program executed by a computer constituting the information identification device,
In the computer,
An image data acquisition step of acquiring image data obtained by reading a form issued in a different format for each issuer from an image reading device connected to the information specifying device;
A text data acquisition step for acquiring text data from the image data;
And execute
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a character string indicating a URL from the text data by searching the text data for a character string of a specific sequence indicating a URL from the text data extracted from the third region;
An external web server that corresponds to the URL indicated in the character string extracted in the extraction step and is connected to the Internet and provides a web service and is not a dedicated server for the image reading apparatus and the information specifying program A transmission step of transmitting an HTTP request to
A receiving step of receiving an HTTP response corresponding to the HTTP request transmitted in the transmitting step from the web server;
A specifying step of specifying the issuer based on an HTML element included in the HTTP response received in the receiving step;
A form template corresponding to the issuer specified in the specifying step, from storage means for storing a plurality of form templates in which the print layout information of the form and item information indicating items printed on the form are associated with the issuer A template acquisition step for acquiring
Item value for acquiring an item value corresponding to the item information by analyzing the text data acquired in the text data acquisition step with reference to the form template acquired in the template acquisition step An acquisition step;
An item value storing step for storing the item value acquired in the item value acquiring step in association with the issuer specified in the specifying step;
It characterized by further executing the information identification program.
前記コンピュータに、
前記情報特定装置に接続された画像読取装置から、発行元毎に異なるフォーマットで発行された帳票を読み取った画像データを取得する画像データ取得ステップと、
前記画像データからテキストデータを取得するテキストデータ取得ステップと
を実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、単語を示す複数の文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された単語を示す複数の文字列を、インターネットを介してアクセス可能なウェブページから任意の文字列に対応する情報を検索する検索サービスを提供するインターネットに接続されたサーバであり、前記画像読取装置及び前記情報特定プログラムにとって専用のサーバではない外部の検索サービスサーバに送信する送信ステップと、
前記送信ステップにおいて送信された単語を示す複数の文字列に対して検索されたウェブページの数を示す検索ヒット数を特定可能な検索結果情報を前記検索サービスサーバから受信する受信ステップと、
前記受信ステップにおいて受信された検索結果情報のうち、前記検索ヒット数が最大である検索結果情報に対応する単語を前記発行元と特定する特定ステップと、
帳票の印刷レイアウト情報及び前記帳票に印刷される項目を示す項目情報を前記発行元に対応付けた帳票テンプレートを複数記憶する記憶手段から、前記特定ステップにおいて特定された前記発行元に対応する帳票テンプレートを取得するテンプレート取得ステップと、
前記テンプレート取得ステップにおいて取得された前記帳票テンプレートを参照して、前記テキストデータ取得ステップにおいて取得された前記テキストデータを解析することによって、前記項目情報に対応する値である項目値を取得する項目値取得ステップと、
前記項目値取得ステップにおいて取得された前記項目値を、前記特定ステップにおいて特定された前記発行元に対応付けて記憶する項目値記憶ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information identification program executed by a computer constituting the information identification device,
In the computer,
An image data acquisition step of acquiring image data obtained by reading a form issued in a different format for each issuer from an image reading device connected to the information specifying device;
A text data acquisition step for acquiring text data from the image data;
And execute
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a plurality of character strings indicating words from the text data extracted from the third region;
A server connected to the Internet that provides a search service for searching for information corresponding to an arbitrary character string from a web page accessible via the Internet for a plurality of character strings indicating the words extracted in the extraction step Transmitting to an external search service server that is not a dedicated server for the image reading device and the information specifying program;
A receiving step of receiving, from the search service server, search result information capable of specifying a search hit number indicating the number of web pages searched for a plurality of character strings indicating the words transmitted in the transmitting step;
Of the search result information received in the receiving step, a specifying step of specifying the word corresponding to the search result information having the maximum number of search hits as the issuer,
A form template corresponding to the issuer specified in the specifying step, from storage means for storing a plurality of form templates in which the print layout information of the form and item information indicating items printed on the form are associated with the issuer A template acquisition step for acquiring
Item value for acquiring an item value corresponding to the item information by analyzing the text data acquired in the text data acquisition step with reference to the form template acquired in the template acquisition step An acquisition step;
An item value storing step for storing the item value acquired in the item value acquiring step in association with the issuer specified in the specifying step;
It characterized by further executing the information identification program.
前記コンピュータに、
前記情報特定装置に接続された画像読取装置から、発行元毎に異なるフォーマットで発行された帳票を読み取った画像データを取得する画像データ取得ステップと、
前記画像データからテキストデータを取得するテキストデータ取得ステップと
を実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、単語を示す複数の文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された単語を示す複数の文字列を、インターネットを介してアクセス可能なウェブページから任意の文字列に対応する情報を検索する検索サービスを提供するインターネットに接続されたサーバであり、前記画像読取装置及び前記情報特定プログラムにとって専用のサーバではない外部の検索サービスサーバに送信する送信ステップと、
前記送信ステップにおいて送信された単語を示す複数の文字列に対する検索結果を示す検索結果情報を前記検索サービスサーバから受信する受信ステップと、
前記受信ステップにおいて受信された検索結果情報のうち、最上位の検索結果を示す検索結果情報に対応する単語を前記発行元と特定する特定ステップと、
帳票の印刷レイアウト情報及び前記帳票に印刷される項目を示す項目情報を前記発行元に対応付けた帳票テンプレートを複数記憶する記憶手段から、前記特定ステップにおいて特定された前記発行元に対応する帳票テンプレートを取得するテンプレート取得ステップと、
前記テンプレート取得ステップにおいて取得された前記帳票テンプレートを参照して、前記テキストデータ取得ステップにおいて取得された前記テキストデータを解析することによって、前記項目情報に対応する値である項目値を取得する項目値取得ステップと、
前記項目値取得ステップにおいて取得された前記項目値を、前記特定ステップにおいて特定された前記発行元に対応付けて記憶する項目値記憶ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information identification program executed by a computer constituting the information identification device,
In the computer,
An image data acquisition step of acquiring image data obtained by reading a form issued in a different format for each issuer from an image reading device connected to the information specifying device;
A text data acquisition step for acquiring text data from the image data;
And execute
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a plurality of character strings indicating words from the text data extracted from the third region;
A server connected to the Internet that provides a search service for searching for information corresponding to an arbitrary character string from a web page accessible via the Internet for a plurality of character strings indicating the words extracted in the extraction step Transmitting to an external search service server that is not a dedicated server for the image reading device and the information specifying program;
A reception step of receiving search result information indicating search results for a plurality of character strings indicating the words transmitted in the transmission step from the search service server;
Of the search result information received in the reception step, a specifying step of specifying a word corresponding to the search result information indicating the highest search result as the issuer,
A form template corresponding to the issuer specified in the specifying step, from storage means for storing a plurality of form templates in which the print layout information of the form and item information indicating items printed on the form are associated with the issuer A template acquisition step for acquiring
Item value for acquiring an item value corresponding to the item information by analyzing the text data acquired in the text data acquisition step with reference to the form template acquired in the template acquisition step An acquisition step;
An item value storing step for storing the item value acquired in the item value acquiring step in association with the issuer specified in the specifying step;
It characterized by further executing the information identification program.
前記コンピュータに、
前記情報特定装置に接続された画像読取装置から、発行元毎に異なるフォーマットで発行された帳票を読み取った画像データを取得する画像データ取得ステップと、
前記画像データからテキストデータを取得するテキストデータ取得ステップと
を実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、特定の配列を有する数字列を含む文字列を検索することで、電話番号を示す文字列を抽出する第一抽出ステップ、前記第三領域から抽出された前記テキストデータから、URLを示す特定の配列の文字列を前記テキストデータから検索することで、前記テキストデータからURLを示す文字列を抽出する第二抽出ステップ、前記第三領域から抽出された前記テキストデータから、単語を示す複数の文字列を抽出する第三抽出ステップを含む抽出ステップと、
前記第一抽出ステップにおいて抽出された電話番号を示す文字列を、電話番号に対応する地理的位置を示す位置情報を含むデータファイルを提供可能な位置情報サービスを提供するサーバであり、前記画像読取装置及び前記情報特定プログラムにとって専用のサーバではない外部の位置情報サービスサーバに送信する第一送信ステップ、前記第二抽出ステップにおいて抽出された文字列に示されるURLに対応し、インターネットに接続されてウェブサービスを提供するサーバであり、前記画像読取装置及び前記情報特定プログラムにとって専用のサーバではない外部のウェブサーバにHTTPリクエストを送信する第二送信ステップ、前記第三抽出ステップにおいて抽出された単語を示す複数の文字列を、インターネットを介してアクセス可能なウェブページから任意の文字列に対応する情報を検索する検索サービスを提供するインターネットに接続されたサーバであり、前記画像読取装置及び前記情報特定プログラムにとって専用のサーバではない外部の検索サービスサーバに送信する第三送信ステップとを含む送信ステップと、
前記第一送信ステップにおいて送信された電話番号を示す文字列に対応する位置情報を含むデータファイルを前記位置情報サービスサーバから受信する第一受信ステップ、前記第二送信ステップにおいて送信されたHTTPリクエストに対応するHTTPレスポンスを前記ウェブサーバから受信する第二受信ステップ、前記第三送信ステップにおいて送信された単語を示す複数の文字列に対して検索されたウェブページの数を示す検索ヒット数を特定可能な検索結果情報を前記検索サービスサーバから受信する第三受信ステップ、前記第三送信ステップにおいて送信された単語を示す複数の文字列に対する検索結果を示す検索結果情報を前記検索サービスサーバから受信する第四受信ステップを含む受信ステップと、
前記第一受信ステップにおいて受信されたデータファイルに含まれる位置情報に基づいて前記発行元を特定する第一特定ステップ、前記第二受信ステップにおいて受信されたHTTPレスポンスに含まれるHTML要素に基づいて前記発行元を特定する第二特定ステップ、前記第三受信ステップにおいて受信された検索結果情報のうち、前記検索ヒット数が最大である検索結果情報に対応する単語を前記発行元と特定する第三特定ステップ、前記第四受信ステップにおいて受信された検索結果情報のうち、最上位の検索結果を示す検索結果情報に対応する単語を前記発行元と特定する第四特定ステップとを含む特定ステップと、
帳票の印刷レイアウト情報及び前記帳票に印刷される項目を示す項目情報を前記発行元に対応付けた帳票テンプレートを複数記憶する記憶手段から、前記特定ステップにおいて特定された前記発行元に対応する帳票テンプレートを取得するテンプレート取得ステップと、
前記テンプレート取得ステップにおいて取得された前記帳票テンプレートを参照して、前記テキストデータ取得ステップにおいて取得された前記テキストデータを解析することによって、前記項目情報に対応する値である項目値を取得する項目値取得ステップと、
前記項目値取得ステップにおいて取得された前記項目値を、前記特定ステップにおいて特定された前記発行元に対応付けて記憶する項目値記憶ステップと
をさらに実行させ、
前記画像データ取得ステップを実行させた後に前記第一抽出ステップを実行させ、前記第一抽出ステップの実行が成功した場合、前記第一送信ステップを実行させ、前記第一送信ステップの実行の後に前記第一受信ステップを実行させ、前記第一受信ステップの実行が成功した場合、前記第一特定ステップを実行させ、
前記第一抽出ステップの実行が失敗した場合、又は前記第一受信ステップの実行が失敗した場合、前記第二抽出ステップを実行させ、前記第二抽出ステップの実行が成功した場合、前記第二送信ステップを実行させ、前記第二送信ステップの後に前記第二受信ステップを実行させ、前記第二受信ステップの実行が成功した場合、前記第二特定ステップを実行させ、
前記第二抽出ステップの実行が失敗した場合、又は前記第二受信ステップの実行が失敗した場合、前記第三抽出ステップを実行させ、前記第三抽出ステップの実行の後に前記第三送信ステップを実行させ、前記第三送信ステップの実行の後に前記第三受信ステップ及び前記第三特定ステップを実行させるか、又は、前記第四受信ステップ及び前記第四特定ステップを実行させることを特徴とする情報特定プログラム。 An information identification program executed by a computer constituting the information identification device,
In the computer,
An image data acquisition step of acquiring image data obtained by reading a form issued in a different format for each issuer from an image reading device connected to the information specifying device;
A text data acquisition step for acquiring text data from the image data;
And execute
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
A first extraction step of extracting a character string indicating a telephone number by searching for a character string including a numeric string having a specific sequence from the text data extracted from the third region, extracted from the third region A second extraction step of extracting a character string indicating a URL from the text data by searching the text data for a character string having a specific sequence indicating the URL from the text data thus extracted. An extraction step including a third extraction step of extracting a plurality of character strings indicating words from the text data;
A server providing a location information service capable of providing a data file including location information indicating a geographical location corresponding to a telephone number, the character string indicating the phone number extracted in the first extraction step; Corresponding to the URL shown in the character string extracted in the first transmission step and the second extraction step to be transmitted to an external location information service server that is not a dedicated server for the device and the information specifying program, connected to the Internet A second providing step of sending an HTTP request to an external web server that is a server that provides a web service and is not a dedicated server for the image reading device and the information specifying program, and the words extracted in the third extracting step Access multiple strings shown via the Internet External search service server that is connected to the Internet and provides a search service for searching for information corresponding to an arbitrary character string from an active web page, and is not a dedicated server for the image reading device and the information specifying program A third transmission step for transmitting to the transmission step;
A first reception step of receiving a data file including location information corresponding to a character string indicating a telephone number transmitted in the first transmission step from the location information service server; an HTTP request transmitted in the second transmission step; It is possible to specify the number of search hits indicating the number of web pages searched for a plurality of character strings indicating words transmitted in the second reception step and the third transmission step of receiving a corresponding HTTP response from the web server. Receiving a search result information from the search service server; receiving a search result information indicating a search result for a plurality of character strings indicating a word transmitted in the third transmission step from the search service server; A receiving step including four receiving steps;
A first identifying step for identifying the issuer based on location information included in the data file received in the first receiving step; and an HTML element included in an HTTP response received in the second receiving step. Second identification step for identifying the issuer, and third identification for identifying the word corresponding to the search result information having the maximum number of search hits as the issuer among the search result information received in the third reception step A step of identifying, among the search result information received in the fourth reception step, a fourth specification step of specifying a word corresponding to the search result information indicating the highest-order search result as the issuer;
A form template corresponding to the issuer specified in the specifying step, from storage means for storing a plurality of form templates in which the print layout information of the form and item information indicating items printed on the form are associated with the issuer A template acquisition step for acquiring
Item value for acquiring an item value corresponding to the item information by analyzing the text data acquired in the text data acquisition step with reference to the form template acquired in the template acquisition step An acquisition step;
An item value storing step for storing the item value acquired in the item value acquiring step in association with the issuer specified in the specifying step;
Is executed further,
The first extraction step is executed after the image data acquisition step is executed, and if the execution of the first extraction step is successful, the first transmission step is executed, and after the execution of the first transmission step, the first transmission step is executed. When the first reception step is executed and the execution of the first reception step is successful, the first specific step is executed,
When the execution of the first extraction step fails or when the execution of the first reception step fails, the second extraction step is executed, and when the execution of the second extraction step is successful, the second transmission Step, execute the second reception step after the second transmission step, and if the second reception step is successful, execute the second specifying step,
If execution of the second extraction step fails or execution of the second reception step fails, execute the third extraction step, and execute the third transmission step after execution of the third extraction step is allowed, the third or to execute the third receiving step and the third specifying step after the execution of the transmission step, or information you characterized in that to execute the fourth receiving step and said fourth specific step Information identification program.
前記コンピュータに、
前記画像データからテキストデータを取得するテキストデータ取得ステップを実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、特定の配列を有する数字列を含む文字列を検索することで、電話番号を示す文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された電話番号を示す文字列を、電話番号に対応する地理的位置を示す位置情報を含むデータファイルを提供可能な位置情報サービスを提供するサーバであり、前記情報特定装置及び前記情報特定プログラムにとって専用のサーバではない外部の位置情報サービスサーバに送信することで、電話番号を示す文字列に対応する位置情報を含むデータファイルを取得する識別情報取得ステップと、
前記識別情報取得ステップにおいて取得されたデータファイルに基づいて、前記抽出ステップにおいて抽出された電話番号を示す文字列に対応する前記発行元を特定する特定ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information specifying program executed by a computer constituting the information specifying device for specifying the issuer from image data corresponding to the print contents of the form issued in a format different for each issuer,
In the computer,
Executing a text data acquisition step of acquiring text data from the image data;
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a character string indicating a telephone number by searching a character string including a numeric string having a specific sequence from the text data extracted from the third region;
A server providing a location information service capable of providing a data file including location information indicating a geographical location corresponding to a telephone number, the character string indicating the phone number extracted in the extraction step; An identification information acquisition step of acquiring a data file including location information corresponding to a character string indicating a telephone number by transmitting to an external location information service server that is not a dedicated server for the information identification program;
A specifying step of specifying the issuer corresponding to the character string indicating the telephone number extracted in the extraction step based on the data file acquired in the identification information acquisition step;
It characterized by further executing the information identification program.
前記コンピュータに、
前記画像データからテキストデータを取得するテキストデータ取得ステップを実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、URLを示す特定の配列の文字列を前記テキストデータから検索することで、前記テキストデータからURLを示す文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された文字列に示されるURLに対応し、インターネットに接続されてウェブサービスを提供するサーバであり、前記情報特定装置及び前記情報特定プログラムにとって専用のサーバではない外部のウェブサーバにHTTPリクエストを送信することで、HTTPリクエストに対応するHTTPレスポンスを取得する識別情報取得ステップと、
前記識別情報取得ステップによって取得されたHTTPレスポンスに含まれるHTML要素に基づいて前記発行元を特定する特定ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information specifying program executed by a computer constituting the information specifying device for specifying the issuer from image data corresponding to the print contents of the form issued in a format different for each issuer,
In the computer,
Executing a text data acquisition step of acquiring text data from the image data;
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a character string indicating a URL from the text data by searching the text data for a character string of a specific sequence indicating a URL from the text data extracted from the third region;
An external web server that corresponds to the URL indicated in the character string extracted in the extraction step and that is connected to the Internet and provides a web service, and is not a dedicated server for the information identification device and the information identification program An identification information acquisition step of acquiring an HTTP response corresponding to the HTTP request by transmitting an HTTP request to
A specifying step of specifying the issuer based on an HTML element included in the HTTP response acquired by the identification information acquiring step;
Further execute a you wherein Rukoto information identification program.
前記コンピュータに、
前記画像データからテキストデータを取得するテキストデータ取得ステップを実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、単語を示す複数の文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された単語を示す複数の文字列を、インターネットを介してアクセス可能なウェブページから任意の文字列に対応する情報を検索する検索サービスを提供するインターネットに接続されたサーバであり、前記情報特定装置及び前記情報特定プログラムにとって専用のサーバではない外部の検索サービスサーバに送信することで、単語を示す複数の文字列に対して検索されたウェブページの数を示す検索ヒット数を特定可能な検索結果情報を取得する識別情報取得ステップと、
前記識別情報取得ステップによって取得された検索結果情報のうち、前記検索ヒット数が最大である検索結果情報に対応する単語を前記発行元と特定する特定ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information specifying program executed by a computer constituting the information specifying device for specifying the issuer from image data corresponding to the print contents of the form issued in a format different for each issuer,
In the computer,
Executing a text data acquisition step of acquiring text data from the image data;
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a plurality of character strings indicating words from the text data extracted from the third region;
A server connected to the Internet that provides a search service for searching for information corresponding to an arbitrary character string from a web page accessible via the Internet for a plurality of character strings indicating the words extracted in the extraction step The number of search hits indicating the number of web pages searched for a plurality of character strings indicating words is transmitted to an external search service server that is not a dedicated server for the information specifying device and the information specifying program. An identification information acquisition step of acquiring identifiable search result information;
Of the search result information acquired by the identification information acquisition step, a specifying step of specifying a word corresponding to the search result information having the maximum number of search hits as the publisher
It characterized by further executing the information identification program.
前記コンピュータに、
前記画像データからテキストデータを取得するテキストデータ取得ステップを実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、単語を示す複数の文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された単語を示す複数の文字列を、インターネットを介してアクセス可能なウェブページから任意の文字列に対応する情報を検索する検索サービスを提供するインターネットに接続されたサーバであり、前記情報特定装置及び前記情報特定プログラムにとって専用のサーバではない外部の検索サービスサーバに送信することで、単語を示す複数の文字列に対する検索結果を示す検索結果情報を取得する識別情報取得ステップと、
前記識別情報取得ステップによって取得された検索結果情報のうち、最上位の検索結果を示す検索結果情報に対応する単語を前記発行元と特定する特定ステップと
をさらに実行させることを特徴とする情報特定プログラム。 An information specifying program executed by a computer constituting the information specifying device for specifying the issuer from image data corresponding to the print contents of the form issued in a format different for each issuer,
In the computer,
Executing a text data acquisition step of acquiring text data from the image data;
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
An extraction step of extracting a plurality of character strings indicating words from the text data extracted from the third region;
A server connected to the Internet that provides a search service for searching for information corresponding to an arbitrary character string from a web page accessible via the Internet for a plurality of character strings indicating the words extracted in the extraction step An identification information acquisition step of acquiring search result information indicating search results for a plurality of character strings indicating words by transmitting to an external search service server that is not a dedicated server for the information specifying device and the information specifying program; ,
Of the search result information acquired by the identification information acquisition step, a specifying step of specifying a word corresponding to the search result information indicating the highest search result as the issuer,
It characterized by further executing the information identification program.
前記コンピュータに、
前記画像データからテキストデータを取得するテキストデータ取得ステップを実行させ、
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより前記テキストデータ取得ステップにおいて前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
前記第三領域から抽出された前記テキストデータから、特定の配列を有する数字列を含む文字列を検索することで、電話番号を示す文字列を抽出する第一抽出ステップ、前記第三領域から抽出された前記テキストデータから、URLを示す特定の配列の文字列を前記テキストデータから検索することで、前記テキストデータからURLを示す文字列を抽出する第二抽出ステップ、前記第三領域から抽出された前記テキストデータから、単語を示す複数の文字列を抽出する第三抽出ステップを含む抽出ステップと、
前記第一抽出ステップにおいて抽出された電話番号を示す文字列を、電話番号に対応する地理的位置を示す位置情報を含むデータファイルを提供可能な位置情報サービスを提供するサーバであり、前記情報特定装置及び前記情報特定プログラムにとって専用のサーバではない外部の位置情報サービスサーバに送信することで、電話番号を示す文字列に対応する位置情報を含むデータファイルを取得する第一識別情報取得ステップ、前記第二抽出ステップにおいて抽出された文字列に示されるURLに対応し、インターネットに接続されてウェブサービスを提供するサーバであり、前記情報特定装置及び前記情報特定プログラムにとって専用のサーバではない外部のウェブサーバにHTTPリクエストを送信することで、HTTPリクエストに対応するHTTPレスポンスを取得する第二識別情報取得ステップ、前記第三抽出ステップにおいて抽出された単語を示す複数の文字列を、インターネットを介してアクセス可能なウェブページから任意の文字列に対応する情報を検索する検索サービスを提供するインターネットに接続されたサーバであり、前記情報特定装置及び前記情報特定プログラムにとって専用のサーバではない外部の検索サービスサーバに送信することで、単語を示す複数の文字列に対して検索されたウェブページの数を示す検索ヒット数を特定可能な検索結果情報を取得する第三識別情報取得ステップを含む識別情報取得ステップと、
前記第一識別情報取得ステップによって取得されたデータファイルに基づいて、前記抽出ステップにおいて抽出された電話番号を示す文字列に対応する前記発行元を特定する第一特定ステップ、前記第二識別情報取得ステップによって取得されたHTTPレスポンスに含まれるHTML要素に基づいて前記発行元を特定する第二特定ステップ、前記第三識別情報取得ステップによって取得された検索結果情報のうち、前記検索ヒット数が最大である検索結果情報に対応する単語を前記発行元と特定する第三特定ステップ、前記第三識別情報取得ステップによって取得された検索結果情報のうち、最上位の検索結果を示す検索結果情報に対応する単語を前記発行元と特定する第四特定ステップとを含む特定ステップと
をさらに実行させ、
前記テキストデータ取得ステップを実行させた後に前記第一抽出ステップを実行させ、前記第一抽出ステップの実行が成功した場合、前記第一識別情報取得ステップを実行させ、前記第一識別情報取得ステップの実行が成功した場合、前記第一特定ステップを実行させ、
前記第一抽出ステップの実行が失敗した場合、又は前記第一識別情報取得ステップの実行が失敗した場合、前記第二抽出ステップを実行させ、前記第二抽出ステップの実行が成功した場合、前記第二識別情報取得ステップを実行させ、前記第二識別情報取得ステップの実行が成功した場合、前記第二特定ステップを実行させ、
前記第二抽出ステップの実行が失敗した場合、又は前記第二識別情報取得ステップの実行が失敗した場合、前記第三抽出ステップを実行させ、前記第三抽出ステップの実行の後に前記第三識別情報取得ステップ及び前記第三特定ステップを実行させるか、又は、前記第三識別情報取得ステップ及び前記第四特定ステップを実行させることを特徴とする情報特定プログラム。 An information specifying program executed by a computer constituting the information specifying device for specifying the issuer from image data corresponding to the print contents of the form issued in a format different for each issuer,
In the computer,
Executing a text data acquisition step of acquiring text data from the image data;
The form includes at least one of a special font and a graphic, and the first area in which the issuer is indicated in a manner in which it is difficult to acquire the text data indicating the issuer in the text data acquisition step, A second area in which at least one of a unit price, a total payment amount, a tax amount, and a payment method is shown, and a third area different from the first area and the second area,
A first extraction step of extracting a character string indicating a telephone number by searching for a character string including a numeric string having a specific sequence from the text data extracted from the third region, extracted from the third region A second extraction step of extracting a character string indicating a URL from the text data by searching the text data for a character string having a specific sequence indicating the URL from the text data thus extracted. An extraction step including a third extraction step of extracting a plurality of character strings indicating words from the text data;
A server providing a location information service capable of providing a data file including location information indicating a geographical location corresponding to a telephone number, the character string indicating the phone number extracted in the first extraction step; A first identification information acquisition step of acquiring a data file including position information corresponding to a character string indicating a telephone number by transmitting to an external position information service server that is not a dedicated server for the apparatus and the information specifying program; An external web corresponding to the URL indicated in the character string extracted in the second extraction step, connected to the Internet and providing a web service, and not a dedicated server for the information identification device and the information identification program By sending an HTTP request to the server, A second identification information acquisition step of acquiring a corresponding HTTP response, and a plurality of character strings indicating the words extracted in the third extraction step corresponding to an arbitrary character string from a web page accessible via the Internet A plurality of character strings indicating words by being transmitted to an external search service server which is a server connected to the Internet which provides a search service for searching for information and which is not a dedicated server for the information specifying device and the information specifying program An identification information acquisition step including a third identification information acquisition step of acquiring search result information capable of specifying the number of search hits indicating the number of web pages searched for,
Based on the data file acquired in the first identification information acquisition step, a first specification step for specifying the issuer corresponding to the character string indicating the telephone number extracted in the extraction step, the second identification information acquisition Of the search result information acquired by the second identification step and the third identification information acquisition step that specify the issuer based on the HTML element included in the HTTP response acquired by the step, the search hit number is the maximum. Corresponds to the search result information indicating the highest search result among the search result information acquired by the third specifying step for specifying a word corresponding to certain search result information as the issuer and the third identification information acquiring step. A specifying step including a fourth specifying step of specifying a word as the publisher;
Is executed further,
The first extraction step is executed after the text data acquisition step is executed, and when the first extraction step is executed successfully, the first identification information acquisition step is executed, and the first identification information acquisition step is executed. If the execution is successful, the first specific step is executed,
When the execution of the first extraction step fails, or when the execution of the first identification information acquisition step fails, the second extraction step is executed, and when the execution of the second extraction step is successful, the first Second identification information acquisition step is executed, and when the second identification information acquisition step is successfully executed, the second identification step is executed,
When the execution of the second extraction step fails or when the execution of the second identification information acquisition step fails, the third extraction step is executed, and the third identification information is executed after the execution of the third extraction step. whether to execute the acquisition step and the third specifying step, or, the third identification information acquiring step and information specific program that is characterized in that to execute the fourth specific step.
前記特定ステップは、前記データファイルに複数の位置情報が含まれる場合、前記複数の位置情報のうち前記現在位置情報に対して最も近い位置関係を示す位置情報から前記発行元を特定することを特徴とする請求項1又は6に記載の情報特定プログラム。 A current location acquisition step for acquiring current location information indicating location information of the current location;
In the identifying step, when the data file includes a plurality of pieces of position information, the issuer is identified from position information indicating a position relationship closest to the current position information among the plurality of pieces of position information. The information specifying program according to claim 1 or 6 .
前記テンプレート取得ステップにおいて取得された前記帳票テンプレートを参照して、前記テキストデータ取得ステップにおいて取得された前記テキストデータを解析することによって、前記項目情報に対応する値である項目値を取得する項目値取得ステップと、
前記項目値取得ステップにおいて取得された前記項目値を、前記特定ステップにおいて特定された前記発行元に対応付けて記憶する項目値記憶ステップと
を備えたことを特徴とする請求項6から10のいずれかに記載の情報特定プログラム。 A form template corresponding to the issuer specified in the specifying step, from storage means for storing a plurality of form templates in which the print layout information of the form and item information indicating items printed on the form are associated with the issuer A template acquisition step for acquiring
Item value for acquiring an item value corresponding to the item information by analyzing the text data acquired in the text data acquisition step with reference to the form template acquired in the template acquisition step An acquisition step;
The item value obtained in the item value acquiring step, one of claims 6 10, characterized in that a item value storage step of storing in association with said issuer identified in the identifying step Information identification program described in
前記帳票は、特殊なフォント及び図形の少なくとも一つを含むことにより文字認識処理によって前記発行元を示すテキストデータを取得困難な態様で前記発行元が示された第一領域と、品目、単価、支払総額、税額及び支払方法の少なくとも一つが示された第二領域と、前記第一領域及び前記第二領域とは異なる第三領域とを含み、
画像読取装置から前記帳票を読み取った画像データを取得する画像データ取得ステップと、
前記画像データから文字認識処理によってテキストデータを取得するテキストデータ取得ステップと、
前記第三領域から抽出された前記テキストデータから、特定の配列を有する数字列を含む文字列を検索することで、電話番号を示す文字列を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された電話番号を示す文字列を、電話番号に対応する地理的位置を示す位置情報を含むデータファイルを提供可能な位置情報サービスを提供するサーバであり、前記画像読取装置にとって専用のサーバではない外部の位置情報サービスサーバに送信することで、電話番号を示す文字列に対応する位置情報を含むデータファイルを取得する識別情報取得ステップと、
前記識別情報取得ステップにおいて取得されたデータファイルに基づいて、前記抽出ステップにおいて抽出された電話番号を示す文字列に対応する前記発行元を特定する特定ステップと
を備えたことを特徴とする情報特定方法。 An information specifying method executed by a computer constituting the information specifying device for specifying the issuer from image data corresponding to the print contents of a form printed in a format different for each issuer,
The form includes at least one of a special font and a graphic, and includes a first area in which the publisher is indicated in a manner in which it is difficult to obtain text data indicating the publisher by character recognition processing, an item, a unit price, A second area in which at least one of a total payment amount, a tax amount, and a payment method is indicated; and a third area different from the first area and the second area;
An image data acquisition step of acquiring image data obtained by reading the document from the image reading apparatus,
A text data acquisition step of acquiring text data from the image data by character recognition processing;
An extraction step of extracting a character string indicating a telephone number by searching a character string including a numeric string having a specific sequence from the text data extracted from the third region ;
A server that provides a location information service that can provide a data file that includes location information that indicates a geographic location corresponding to a telephone number, using a character string that indicates the phone number extracted in the extraction step, for the image reading device An identification information acquisition step of acquiring a data file including location information corresponding to a character string indicating a telephone number by transmitting to an external location information service server that is not a dedicated server ;
A specification step of specifying the issuer corresponding to the character string indicating the telephone number extracted in the extraction step based on the data file acquired in the identification information acquisition step. Method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015069744A JP6213513B2 (en) | 2015-03-30 | 2015-03-30 | Information identification program and information identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015069744A JP6213513B2 (en) | 2015-03-30 | 2015-03-30 | Information identification program and information identification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016189174A JP2016189174A (en) | 2016-11-04 |
JP6213513B2 true JP6213513B2 (en) | 2017-10-18 |
Family
ID=57240331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015069744A Active JP6213513B2 (en) | 2015-03-30 | 2015-03-30 | Information identification program and information identification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6213513B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4099189A1 (en) * | 2021-05-31 | 2022-12-07 | Ricoh Company, Ltd. | Information processing apparatus, information processing system, and computer-implemented method for information processing |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124705A (en) * | 2017-01-31 | 2018-08-09 | 日本Ics株式会社 | Voucher management program |
JPWO2019008766A1 (en) * | 2017-07-07 | 2020-08-20 | 株式会社クラビス | Voucher processing system and voucher processing program |
CN107391668A (en) * | 2017-07-20 | 2017-11-24 | 深圳大普微电子科技有限公司 | A kind of picture character hunting system and method |
JP7032692B2 (en) | 2018-01-31 | 2022-03-09 | セイコーエプソン株式会社 | Image processing equipment and image processing program |
JP6830689B1 (en) * | 2019-12-19 | 2021-02-17 | 株式会社Ikedaホールディングス | Vehicle allocation management server |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067379A (en) * | 2001-08-24 | 2003-03-07 | Sony Corp | Processor and method for processing information, program storage medium, and program |
JP4102153B2 (en) * | 2002-10-09 | 2008-06-18 | 富士通株式会社 | Post-processing device for character recognition using the Internet |
JP2005031972A (en) * | 2003-07-11 | 2005-02-03 | Seiko Epson Corp | Commodity information tabulation device, program, and commodity information tabulation system |
JP4859447B2 (en) * | 2005-11-28 | 2012-01-25 | 富士通株式会社 | Navigation device |
JP5514165B2 (en) * | 2011-04-28 | 2014-06-04 | 有限会社アイ・アール・ディー | Database construction device, trademark infringement detection device, database construction method, and program |
JP6108927B2 (en) * | 2013-04-16 | 2017-04-05 | 株式会社富士通マーケティング | Sales data management system by store and sales data management program by store |
-
2015
- 2015-03-30 JP JP2015069744A patent/JP6213513B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4099189A1 (en) * | 2021-05-31 | 2022-12-07 | Ricoh Company, Ltd. | Information processing apparatus, information processing system, and computer-implemented method for information processing |
Also Published As
Publication number | Publication date |
---|---|
JP2016189174A (en) | 2016-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6213513B2 (en) | Information identification program and information identification method | |
CN108171610B (en) | Page generation method, page generation equipment, storage medium and device | |
US10032154B2 (en) | Method for processing a purchase transaction using a plurality of transaction systems | |
US20220215368A1 (en) | Electronic receipt management system | |
US20170103623A1 (en) | Server and point-of-sale terminal configured for higher throughput processing of returned merchandise | |
US20170039542A1 (en) | Sales data processing apparatus and sales data processing method | |
US20150356541A1 (en) | Electronic receipt management server, merchandise sales data processing apparatus, print control apparatus, and program | |
US10872324B2 (en) | Shopping support computing device | |
US20200151695A1 (en) | Point-of-sale data processing apparatus that processes data using multiple user codes | |
US20170293965A1 (en) | Shopping support device and shopping support method | |
US20150356689A1 (en) | Data processing system in which data received from data collection terminals are converted for efficient searching | |
US20220156712A1 (en) | Transaction data processing apparatus connected to an external device for data communication | |
JPWO2016158121A1 (en) | Information processing apparatus, information processing method, and information processing system | |
US20150108213A1 (en) | Shopping support device and shopping support method | |
US20170185987A1 (en) | Product information print device and product information print system | |
JP7070745B2 (en) | Information processing equipment, information display method and program | |
CN106558158B (en) | Work management device and work management method | |
US20160260178A1 (en) | Commodity management system, information processing apparatus and terminal device for managing commodity | |
US20150348100A1 (en) | Search engine server that searches data based on criteria included in an electronic record received from a computing device | |
JP2009059114A (en) | Coupon information output device and coupon information output program | |
JP2023029413A (en) | Electronic receipt management server and program | |
US20160260076A1 (en) | Commodity information processing apparatus and system | |
JP6010656B2 (en) | system | |
JP5933074B2 (en) | Transaction data processing apparatus, transaction data processing method and program | |
JP7244759B2 (en) | Information processing system, information processing method, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6213513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |