JP5229102B2 - Form search device, form search program, and form search method - Google Patents
Form search device, form search program, and form search method Download PDFInfo
- Publication number
- JP5229102B2 JP5229102B2 JP2009117979A JP2009117979A JP5229102B2 JP 5229102 B2 JP5229102 B2 JP 5229102B2 JP 2009117979 A JP2009117979 A JP 2009117979A JP 2009117979 A JP2009117979 A JP 2009117979A JP 5229102 B2 JP5229102 B2 JP 5229102B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- candidate
- heading
- headline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 102
- 238000000605 extraction Methods 0.000 claims description 54
- 238000011156 evaluation Methods 0.000 claims description 43
- 238000012937 correction Methods 0.000 description 62
- 238000010586 diagram Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 25
- 239000000284 extract Substances 0.000 description 17
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、帳票検索装置、帳票検索プログラムおよび帳票検索方法に関する。 The present invention relates to a form search device, a form search program, and a form search method.
従来から、商品の受発注を記録する管理表や各種申込書等を電子帳票として管理する電子帳票管理システムが広く用いられている。 2. Description of the Related Art Conventionally, an electronic form management system that manages a management table for recording product orders and various application forms as electronic forms has been widely used.
この電子帳票管理システムにおける電子帳票のデータの記録方式には、例えば以下の3種類がある。第1の記録方式の電子帳票管理システムでは、紙帳票をスキャナによって取り込まれた画像データを記録するものである。第2の記録方式の電子帳票管理システムでは、帳票上の各項目(見出し)とその内容との関係を示したデータベースを用いて、帳票のデータを記録するものである。第3の記録方式の電子帳票管理システムでは、帳票を構成するデータの文字列や描画位置を含む描画データを記録するものである。 For example, there are the following three types of recording methods for electronic form data in this electronic form management system. In the electronic document management system of the first recording method, image data obtained by capturing a paper form by a scanner is recorded. In an electronic form management system of the second recording method, form data is recorded using a database showing the relationship between each item (heading) on the form and its contents. In an electronic form management system of the third recording method, drawing data including a character string and a drawing position of data constituting the form is recorded.
ここで、電子帳票管理システムに記録されている電子帳票の中から特定の電子帳票を検索する場合に、検索対象を特定の項目に限定して検索する場合が多い。 Here, when searching for a specific electronic form from the electronic forms recorded in the electronic form management system, the search target is often limited to a specific item.
この場合に、第1の記録方式の電子帳票管理システムでは、電子帳票を画像データとして記録しているため、文字コード情報を認識できず、検索対象を特定の項目に限定して電子帳票を検索することができない。 In this case, since the electronic form management system of the first recording method records the electronic form as image data, the character code information cannot be recognized, and the electronic form is searched by limiting the search target to a specific item. Can not do it.
また、第2の記録方式の電子帳票管理システムでは、電子帳票を構成する各項目とその内容との関係が構造化しているデータベースを用いているため、検索対象を特定の項目に限定して電子帳票を容易に検索することができる。なお、項目を指定しない場合であっても、項目の内容とデータベース内の全データとを比較して、一致するデータに対応する項目を探索する。その結果、かかる電子帳票管理システムは、探索された項目とその内容とを検索条件とした帳票を検索することができる。 In the second recording type electronic form management system, a database in which the relationship between each item constituting the electronic form and its contents is structured is used. You can easily search for forms. Even when the item is not specified, the content of the item is compared with all data in the database, and the item corresponding to the matching data is searched. As a result, the electronic form management system can search for forms using the searched items and their contents as search conditions.
さらに、第3の記録方式の電子帳票管理システムでは、帳票上の各文字列の文字コード情報を認識できるが、その文字列が項目であるか否かが不明であるため、検索条件となる特定の項目とその内容との関係を認識できない。そのため、項目とその内容との関係を示す情報(以降、「項目定義情報」という。)が、事前に人手によって帳票ごとに定義されている。 Furthermore, in the electronic document management system of the third recording method, the character code information of each character string on the form can be recognized, but since it is unknown whether the character string is an item or not, it is specified as a search condition. The relationship between the item and its contents cannot be recognized. For this reason, information indicating the relationship between items and their contents (hereinafter referred to as “item definition information”) is manually defined for each form in advance.
また、かかる電子帳票管理システムでは、帳票を構成するデータの文字列を、項目名が定義された項目定義情報と照合して、照合に成功した文字列を項目名文字列とし、照合に失敗した文字列をデータ文字列とし、これらの位置関係からデータ文字列の項目を探索している。 Also, in such an electronic form management system, the character string of the data constituting the form is collated with the item definition information in which the item name is defined, and the character string that has been successfully collated is used as the item name character string. A character string is used as a data character string, and a data character string item is searched from these positional relationships.
しかしながら、電子帳票管理システムに記録されている複数の電子帳票の中から、検索対象を特定の項目(見出し)に限定して特定の電子帳票を検索する場合、事前に項目定義情報を定義する従来の技術では、手間がかかるという問題がある。 However, when a specific electronic form is searched by limiting the search target to a specific item (heading) from a plurality of electronic forms recorded in the electronic form management system, item definition information is defined in advance. However, there is a problem that it takes time and effort.
すなわち、人手によって項目定義情報が定義される場合には、例えば電子帳票管理システムの管理者が、請求書等の様々な書式を有する全帳票について項目定義情報を事前に定義する作業が必要なため、非常に手間がかかることになる。 That is, when the item definition information is manually defined, for example, the administrator of the electronic form management system needs to define the item definition information in advance for all forms having various formats such as invoices. It will be very time consuming.
また、電子帳票管理システムは、項目定義情報を用いてデータ文字列の項目を探索する従来の技術を用いても、項目名文字列とそれに対応するデータ文字列との位置関係によっては、データ文字列の項目を100%の精度で探索することができず、その結果、検索要求に合致した電子帳票を正確に検索することができない。そのため、事前に項目定義情報そのものを含めた検索確認が目視によって行われることが必要となり、手間がかかることとなる。 In addition, even if the electronic form management system uses a conventional technique for searching for an item of a data character string using item definition information, depending on the positional relationship between the item name character string and the corresponding data character string, the data character string A column item cannot be searched with 100% accuracy, and as a result, an electronic form that matches the search request cannot be accurately searched. For this reason, it is necessary to visually check the item definition information including the item definition information itself in advance, which is troublesome.
本発明は、上記に鑑みてなされたものであって、複数の電子帳票の中から、検索対象を特定の項目(見出し)に限定して特定の電子帳票を検索する場合に、事前作業に手間がかからない帳票検索装置、帳票検索プログラムおよび帳票検索方法を提供することを目的とする。 The present invention has been made in view of the above, and when searching for a specific electronic form by limiting a search target to a specific item (heading) from a plurality of electronic forms, it is troublesome in advance work. It is an object of the present invention to provide a form search device, a form search program, and a form search method that do not cost.
上述した問題を解決し、目的を達成するために、帳票検索装置は、帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する記憶手段と、前記記憶手段に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手段と、前記抽出手段によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手段と、前記探索手段によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手段と、前記出力手段によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手段から検索する帳票検索手段とを備える構成を採る。 In order to solve the above-described problems and achieve the object, the form retrieval apparatus stores a plurality of character strings in the form and drawing positions of the character strings for each form, and the storage means Extraction means for extracting a character string including a search keyword that forms a part of a condition for searching for a form and a drawing position of the character string from character strings in each form, and a character string extracted by the extraction means Search means for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted based on the drawing position; a heading candidate searched by the searching means; and a character string corresponding to the heading candidate Generating heading candidate information for associating with each form, outputting the generated heading candidate information, and a predetermined operation from the heading candidate information output by the output means. The form containing the string associated with the selected heading candidate by taking a structure and a form retrieval means for retrieving from the storage means.
以上により、帳票検索装置、帳票検索プログラムおよび帳票検索方法は、複数の帳票の中から、検索対象を特定の見出し項目に限定して特定の帳票を検索する場合に、事前作業に手間がかからないという効果を奏する。 As described above, the form search device, the form search program, and the form search method do not require time and effort in advance when searching for a specific form by limiting the search target to a specific heading item from a plurality of forms. There is an effect.
以下に、本発明に係る帳票検索装置、帳票検索プログラムおよび帳票検索方法の実施例を図面に基づいて詳細に説明する。なお、本実施例によりこの発明が限定されるものではない。 Hereinafter, embodiments of a form search apparatus, a form search program, and a form search method according to the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited by the present Example.
図1は、本実施例1に係る帳票検索装置の構成を示す機能ブロック図である。図1に示すように、帳票検索装置1は、入力部10と、制御部20と、記憶部30と、出力部40とを備える。
FIG. 1 is a functional block diagram illustrating the configuration of the form retrieval apparatus according to the first embodiment. As illustrated in FIG. 1, the
ここで、帳票検索装置1の処理概要について説明する。帳票検索装置1は、記憶されている全電子帳票の中から検索対象を特定の見出し項目に限定して特定の電子帳票を検索する場合に、事前に項目定義情報を定義しなくても特定の電子帳票を検索できる。具体的には、帳票検索装置1は、電子帳票を検索する条件の一部を成す検索キーワードを含む文字列を、各電子帳票を構成する文字列の中から抽出して、抽出した文字列の描画位置に基づいて、当該文字列に対応する見出し候補を探索する。また、帳票検索装置1は、探索された見出し候補と、その見出し候補に対応する文字列とを対応付けた見出し候補情報を生成し、当該見出し候補情報をモニターに表示出力する。さらに、帳票検索装置1は、表示出力された見出し候補情報から所定の操作によって選択された見出し候補に関わる文字列を含む電子帳票を検索することができる。
Here, an outline of processing of the
なお、全電子帳票の中から検索対象となる見出し項目を限定して特定の電子帳票を検索することを、「項目限定検索」と呼ぶことにする。また、電子帳票は、以降「帳票」と略記するものとする。また、帳票検索装置1が行う処理については、順次詳述する。
It should be noted that searching for a specific electronic form by limiting heading items to be searched from all electronic forms is referred to as “item limited search”. Further, the electronic form is hereinafter abbreviated as “form”. The processing performed by the
入力部10は、各種要求を検出する機能部であり、キーワード入力部11および見出し選択部12を備える。
The
キーワード入力部11は、例えばユーザによって入力された検索キーワードを含む検索要求を検出すると、後述するキーワード抽出部21に出力する。ここで、検索キーワードとは、ユーザが帳票を検索する条件の一部を成すキーワードである。例えば、ユーザが「住所に川崎を含む帳票の検索」を行うとき、検索する条件は「住所に川崎を含むこと」であり、検索範囲は「住所」という項目となり、検索キーワードは「川崎」となる。
For example, when the
見出し選択部12は、後述する出力部40によって出力された見出し候補情報の中から、所定の操作によって選択された見出し候補を検出すると、検出した見出し候補を、後述する帳票検索部24に出力する。なお、所定の操作とは、例えば、ユーザが、キーボードの該当キーを押下すること、またはモニターがタッチパネルの場合には、タッチパネルの該当領域を触れることである。
When the heading
制御部20は、帳票検索機能を制御する機能部であり、キーワード抽出部21と、見出し候補探索部22と、見出し候補一覧作成部23と、帳票検索部24とを備える。
The
記憶部30は、情報を記憶する機能部であり、帳票データ情報記憶部31と、帳票検索結果情報記憶部32とを備える。
The
キーワード抽出部21は、記憶部30に記憶されている全帳票データについて、各帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する。具体的には、キーワード抽出部21は、キーワード入力部11から検索キーワードを含む検索要求を取得すると、後述する帳票データ情報記憶部31から全ての帳票データを読み出す。また、キーワード抽出部21は、読み出した各帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出して、抽出した文字列の描画位置および当該文字列の抽出元の帳票データを見出し候補探索部22に出力する。
The
ここで、帳票データ情報記憶部31に記憶される帳票データの構造について図2を参照しながら説明する。図2は、帳票データ情報記憶部31のデータ構造の一例を示す図である。図2に示すように、帳票データ情報記憶部31には、帳票の描画データが帳票ごとに記憶されている。
Here, the structure of the form data stored in the form data
この描画データとは、帳票を構成する各要素の描画属性を指す。例えば、帳票を構成する要素が文字列31cの場合には、当該文字の文字コードとその描画位置、例えば描画座標が描画属性となる。帳票を構成する要素が直線31bの場合には、当該直線の始点および終点の描画位置が描画属性となる。帳票を構成する要素が円弧31dの場合には、当該円弧の中心位置(中心座標)、半径、開始角度および終了角度が描画属性となる。なお、描画位置は、例えば帳票が印刷された紙の左上を原点として、右方向をX座標、下方向をY座標とした場合には、X座標およびY座標から表される2次元座標としても良い。また、帳票が表形式である場合には、描画位置は、行数および列数から表される2次元行列としても良い。
This drawing data refers to the drawing attribute of each element constituting the form. For example, when the element constituting the form is the
図2の例では、帳票Aおよび帳票Bの帳票データがそれぞれ記憶され、各帳票データは、帳票を識別するための帳票識別子31aとその帳票の描画データとを含んで構成されている。なお、帳票Aは、後記する図3(A)に記載される帳票であるものとする。 In the example of FIG. 2, form data of form A and form B is stored, and each form data includes a form identifier 31a for identifying the form and drawing data of the form. Note that the form A is a form described in FIG. 3A described later.
図1に戻って、見出し候補探索部22は、帳票データから抽出された、検索キーワードを含む文字列の見出し候補を探索する。具体的には、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置および当該文字列の抽出元の帳票データを取得すると、抽出された文字列の描画位置に基づいて、当該文字列の抽出元の帳票データから当該文字列の見出し候補を探索する。
Returning to FIG. 1, the headline
例えば、見出し候補探索部22は、X軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。
また、見出し候補探索部22は、Y軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。
For example, the heading
In addition, the heading
なお、見出し候補探索部22は、表形式である場合には、キーワード抽出部21によって抽出された文字列の描画位置から行方向の最前方に描画位置を持つ他の文字列または列方向の最前方に描画位置を持つ他の文字列を探索して見出し候補としても良い。なお、見出し候補検索部22は、見出し候補の探索方法を、これらに限定するものではない。
In the case of a tabular format, the headline
ここで、見出し候補探索部22によって行われる見出し候補の探索方法について、図3を参照して説明する。図3は、見出し候補の探索方法を示す図である。(A)では、順方向に配列された文字列のうちX軸(横)方向の前方またはY軸(縦)方向の前方に配列された文字列を探索する方法について説明し、(B)では、帳票が表形式である場合の探索方法について説明する。なお、以降の説明では、検索キーワードは「川崎」であるものとする。
Here, the headline candidate search method performed by the headline
(A)では、見出し候補探索部22は、検索キーワード「川崎」を含む文字列「神奈川県川崎市・・・」の描画位置からX軸(横)方向の前方を探索し、その探索した結果に基づいて「住所」を見出し候補とする。具体的には、見出し候補探索部22は、検索キーワード「川崎」を含む描画データを用いて、検索キーワード「川崎」を含む文字列「神奈川県川崎市・・・」の描画座標のうちY座標の値と同じY座標の値を持ち、且つX軸上の前方座標のX座標の値を持つ文字列「住所」を検索して、見出し候補とする。
In (A), the headline
また、検索キーワード「川崎」を含む同じ文字列「神奈川県川崎市・・・」に関して、見出し候補探索部22は、検索キーワード「川崎」を含む文字列の描画位置からY軸(縦)方向の前方を探索し、その探索した結果に基づいて郵便番号を示す「123−4567」を見出し候補とする。具体的には、見出し候補探索部22は、検索キーワード「川崎」を含む描画データを用いて、検索キーワード「川崎」を含む文字列の描画座標のうちX座標の値により近いX座標の値を持ち、且つY軸上の前方座標のY座標の値を持つ文字列(「郵便番号」ではなく「123−4567」)を検索して、見出し候補とする。
Further, for the same character string “Kawasaki City, Kanagawa Prefecture” including the search keyword “Kawasaki”, the heading
(B)では、見出し候補探索部22は、検索キーワード「川崎」を含む文字列「川崎次郎」がある描画位置(セル)から行方向の最前方を探索し、その探索した結果に基づいて項番「3」を見出し候補とする。また、検索キーワード「川崎」を含む同じ文字列「川崎次郎」に関して、見出し候補探索部22は、検索キーワード「川崎」を含む文字列がある描画位置(セル)から列方向の最前方を探索し、その探索した結果に基づいて「氏名」を見出し候補とする。
In (B), the headline
さらに、見出し候補探索部22は、検索キーワード「川崎」を含む文字列「神奈川県川崎市」がある描画位置(セル)から行方向の最前方を探索し、その探索した結果に基づいて項番「2」を見出し候補とする。また、検索キーワード「川崎」を含む同じ文字列「神奈川県川崎市」に関して、見出し候補探索部22は、検索キーワード「川崎」を含む文字列がある描画位置(セル)から列方向の最前方を探索し、その探索した結果に基づいて「住所」を見出し候補とする。
Further, the heading
これにより、検索キーワードを含む文字列に対応する見出し候補が限定されることになる。なお、上記の見出し候補の探索方法では、検索キーワードを含む文字列に対応する見出し候補が複数存在する場合もあるが、これ以降の処理によって、さらに検索要求に合致した見出し候補が限定されることになる。 As a result, headline candidates corresponding to the character string including the search keyword are limited. In the above-described heading candidate search method, there may be a plurality of heading candidates corresponding to the character string including the search keyword, but the heading candidates that match the search request are further limited by the subsequent processing. become.
図1に戻って、見出し候補探索部22は、探索した見出し候補と検索キーワードを含む文字列とをこれらの抽出元である帳票データごとに組にして、見出し候補一覧作成部23に出力する。
Returning to FIG. 1, the heading
見出し候補一覧作成部23は、検索キーワードを含む文字列の見出し候補を一覧情報にして出力する。具体的には、見出し候補一覧作成部23は、見出し候補探索部22から帳票データごとに組にされた見出し候補と検索キーワードを含む文字列とを取得すると、帳票データの帳票識別子、見出し候補および検索キーワードを含む文字列を1つの一覧とした見出し候補一覧表を作成する。
The heading candidate
また、見出し候補一覧作成部23は、ユーザが検索要求に合致した見出しを選択できるように、見出し候補一覧表を見出し候補ごとにチェック欄を設けた見出し候補情報に編集する。さらに、見出し候補一覧作成部23は、編集した見出し候補情報を出力部40に出力するとともに、見出し候補情報の編集元である見出し候補一覧表を帳票検索部24に出力する。
Further, the heading candidate
ここで、見出し候補一覧作成部23によって編集される見出し候補情報の例について、図4を参照して説明する。図4は、見出し候補情報の例を示す図である。なお、以降の説明では、検索キーワードに「川崎」が含まれる帳票から探索された見出し候補に関わる見出し候補情報であるものとする。
Here, an example of the heading candidate information edited by the heading candidate
図4の例では、帳票A、帳票Bおよび帳票Cに検索キーワード「川崎」が含まれている。そして、検索キーワード「川崎」の見出し候補として、帳票Aでは「住所」が探索され、帳票Bでは「氏名」が探索され、帳票Cでは「住所」と「平成」とが探索されている。 In the example of FIG. 4, the search keyword “Kawasaki” is included in the form A, the form B, and the form C. As a candidate for the search keyword “Kawasaki”, “address” is searched for in form A, “name” is searched for in form B, and “address” and “Heisei” are searched in form C.
このような状況下において、見出し候補一覧作成部23は、帳票Aに関して、見出し候補「住所」と検索キーワードを含む文字列「神奈川県川崎市・・・」とを見出し候補一覧表に追加する。また、見出し候補一覧作成部23は、帳票Bに関して、見出し候補「氏名」と検索キーワードを含む文字列「川崎次郎」とを見出し候補一覧表に追加する。さらに、見出し候補一覧作成部23は、帳票Cに関して、見出し候補「住所」および「平成」と検索キーワードを含む文字列「川崎市中原区・・・」とを見出し候補一覧表に追加する。
Under such circumstances, the headline candidate
そして、見出し候補一覧作成部23は、見出し候補一覧表を編集して、見出し候補ごとにチェック欄を設けた見出し候補情報23aを作成する。見出し候補情報23aには、検索キーワード「川崎」を持つ帳票の数(3件)が含まれ、見出し候補ごとに検索キーワード「川崎」が探索された帳票の件数が含まれている。なお、見出し候補情報23aは、検索キーワード「川崎」を含む文字列の見出し候補が探索されなかった場合には、「見出し不明」とする見出し候補を含んでも良い。
Then, the heading candidate
これにより、見出し候補情報23aが、後述する出力部40によって出力されると、検索キーワード「川崎」に対応する見出し候補を、ユーザによって確認させることができる。
Thereby, when the heading
また、見出し候補情報の変形例について、図5を参照して説明する。図5は、見出し候補情報の変形例を示す図である。図5に示すように、見出し候補情報23bには、見出し候補とともに、当該見出し候補が存在する帳票データの縮小画像(サムネイル)が含まれている。
A modification of the heading candidate information will be described with reference to FIG. FIG. 5 is a diagram illustrating a modification of the heading candidate information. As shown in FIG. 5, the heading
これにより、仮にユーザが、「住所に川崎を含む帳票」であったか「氏名に川崎を含む帳票」であったかを忘れてしまった場合であっても、見出し候補情報23bが後述する出力部40によって出力されると、どちらの場合であったかを想起させることができ、素早く検索要求に合致した見出し候補を確認することができる。
As a result, even if the user forgets whether “the form includes Kawasaki in the address” or “the form includes Kawasaki in the name”, the heading
帳票検索部24は、見出し候補に対応する帳票を検索する。具体的には、帳票検索部24は、見出し選択部12から見出し候補を取得すると、見出し候補一覧作成部23から出力された見出し候補一覧表の中から当該見出し候補に対応する全帳票識別子を抽出する。また、帳票検索部24は、抽出した全帳票識別子に対応する各帳票データを帳票データ情報記憶部31から検索する。さらに、帳票検索部24は、検索した各帳票データを纏めて検索結果として帳票検索結果情報記憶部32に格納する。これにより、ユーザは、自己の検索要求に合致した帳票を見つけることができたことになる。
The
出力部40は、見出し候補情報を表示出力する。具体的には、出力部40は、見出し候補一覧作成部23から見出し候補情報を取得すると、取得した見出し候補情報を、モニターに表示出力する。これにより、ユーザは、自己の検索要求に合致した見出し候補を確認することができ、仮に誤った見出し候補があったとしても、正しい見出し候補を選択することによって、自己の検索要求に合致した帳票を検索することができる。
The
ここで、モニターに表示出力された見出し候補情報からユーザによって見出し候補が選択された結果を、図6を参照して説明する。図6は、ユーザによって見出し候補が選択された結果を示す図である。なお、見出し候補情報は、検索キーワードが「川崎」である場合であるものとする。 Here, the result of the headline candidate being selected by the user from the headline candidate information displayed and output on the monitor will be described with reference to FIG. FIG. 6 is a diagram illustrating a result of selecting a headline candidate by the user. The heading candidate information is assumed to be a case where the search keyword is “Kawasaki”.
図6の例では、見出し候補情報には、検索キーワード「川崎」を含む帳票が3件存在していることが示されている。そして、それらの帳票には、検索キーワード「川崎」を含む文字列の見出し候補として、「見出し不明」以外に「住所」、「氏名」および「平成」が探索されたことが示されている。ここで、ユーザの検索要求が「住所に川崎を含む帳票の検索」である場合、ユーザは見出し候補「住所」をチェックすることにより自己の検索要求に合致した見出し候補を選択する。 In the example of FIG. 6, the heading candidate information indicates that there are three forms including the search keyword “Kawasaki”. These forms indicate that “address”, “name”, and “Heisei” have been searched for in addition to “heading unknown” as the heading candidates for the character string including the search keyword “Kawasaki”. Here, when the user's search request is “search for a form including Kawasaki in the address”, the user selects a headline candidate that matches the search request by checking the headline candidate “address”.
これにより、ユーザは、仮に検索キーワードに対して複数の見出し候補が探索されたとしても、自己の検索要求に合致した見出し候補を限定して、自己の検索要求に合致した帳票に関する「項目限定検索」を行うことができる。 As a result, even if a plurality of headline candidates are searched for the search keyword, the user restricts headline candidates that match the search request of the user and performs “item limited search” regarding the form that matches the search request. "It can be performed.
ところで、見出し候補探索部22が検索キーワードを含む文字列の見出し候補を複数の帳票から探索するとき、見出しとしては不適当な文字列を誤って見出し候補として探索する場合がある。このような場合であっても、誤って見出し候補として探索された文字列がユーザの検索要求に合致した帳票に含まれていることが認識されるものであれば、当該文字列を見出し候補とみなしても良い。
By the way, when the heading
例えば、図7は、見出し候補の探索に誤りが生じた場合の例を示す図である。なお、図7の例では、検索キーワードが「川崎」である場合であるものとする。図7に示すように、帳票Aでは、見出し候補探索部22が、検索キーワード「川崎」の見出し候補として、誤って「神奈川県」を探索している。この場合に、見出し候補情報には、本来見出しとしては不適当である「神奈川県」が見出し候補として含まれることになる。
For example, FIG. 7 is a diagram illustrating an example when an error occurs in the search for a heading candidate. In the example of FIG. 7, it is assumed that the search keyword is “Kawasaki”. As shown in FIG. 7, in the form A, the heading
しかし、「神奈川県」が本来見出しとして適切な「住所」に属する文字列であることがユーザによって認識される場合には、「神奈川県」を見出し候補とみなしても良い。その結果、ユーザが、見出し候補「神奈川県」を選択することにより、ユーザ自身の検索要求に合致した帳票を検索することができる。 However, in the case where the user recognizes that “Kanagawa Prefecture” is a character string that originally belongs to an “address” appropriate as a headline, “Kanagawa Prefecture” may be regarded as a headline candidate. As a result, the user can search for a form that matches the user's own search request by selecting the headline candidate “Kanagawa”.
次に、実施例1に係る帳票検索装置1の処理手順を、図8を参照して説明する。図8は、実施例1に係る帳票検索装置の処理手順を示すフローチャートである。
Next, a processing procedure of the
まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出すると(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。
First, when the
次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票データを選択する(ステップS12)。
Next, the
そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。
Then, the
さらに、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。例えば、見出し候補探索部22は、X軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。また、見出し候補探索部22は、Y軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。なお、見出し候補探索部22は、見出し候補の探索方法を、これに限定するものではない。
Further, based on the drawing position of the character string extracted by the
その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。
Thereafter, the heading
一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。
On the other hand, if the headline
具体的には、見出し候補一覧作成部23は、帳票データの帳票識別子と見出し候補と検索キーワードを含む文字列とを一覧にした見出し候補一覧表を、見出し候補ごとにチェック欄を設けた見出し候補情報に編集し、編集した見出し候補情報を出力部40に表示出力する。
Specifically, the heading candidate
引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。
Subsequently, the
そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。
Then, the
以上のように本実施例1によれば、帳票検索装置1は、帳票データ内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する。そして、帳票検索装置1は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置1は、探索された見出し候補と当該見出し候補に対応する文字列とを帳票データごとに対応付けた見出し候補情報を生成し、生成された見出し候補情報を表示出力する。さらに、帳票検索装置1は、表示出力された見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票データを、帳票データ情報記憶部31から検索する。
As described above, according to the first embodiment, the
かかる構成によれば、帳票検索装置1は、帳票データ内の複数の文字列に対して見出しの文字列とこれに対応する文字列との関係を示す項目定義情報がなくても、検索要求に合致した帳票データを検索することができ、事前に項目定義情報を生成する手間がかからないという効果がある。特に、帳票データには、例えば「住所」、「お住まい」等の表記に揺れのある見出しが一般的に多数存在するため、これらを事前に項目定義情報に定義する手間がなくなり、事前に行うべき作業が軽減される。
According to such a configuration, the
また、帳票検索装置1は、検索キーワードに対応する見出し候補の探索を、仮に誤った場合であっても、検索要求に合致した見出し候補を1度選択させるだけで、検索要求に合致した帳票を検索することができ、事前に項目定義情報を生成する場合と比較して、格段に作業を軽減できるだけでなく、帳票の検索精度を向上させることができる。
In addition, even if the search for the headline candidate corresponding to the search keyword is wrong, the
さらに、帳票検索装置1は、項目定義情報を用いて、検索要求どおりの見出しの文字列を探索するか否か、さらに探索要求どおりの帳票を検索するか否かを、事前に確認する手間がなくなるため、事前に行うべき作業を軽減できる。
Furthermore, the
ところで、上記の実施例1では、帳票検索装置1は、検索キーワードに対応する見出し候補が帳票に存在する場合に、検索キーワードに対応する見出し候補を探索する場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置2は、検索キーワードに対応する見出し候補が帳票に存在しない場合であっても、検索キーワードに対応する仮想的な見出し候補を推定しても良い。
By the way, in the first embodiment, the case where the
そこで、実施例2では、帳票検索装置2が、検索キーワードに対応する見出し候補が帳票に存在しない場合であっても、検索キーワードに対応する仮想的な見出し候補を推定する場合を説明する。
Therefore, in the second embodiment, a case will be described in which the
まず、実施例2に係る帳票検索装置2の構成について図9を参照しながら説明する。図9は、実施例2に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例2とが異なるところは、制御部20に見出し候補推定部41を追加した点にある。
First, the configuration of the
見出し候補推定部41は、帳票データから抽出された検索キーワードを含む文字列の見出し候補が存在しない場合に、当該文字列に対応する仮想的な見出し候補を推定する。具体的には、見出し候補推定部41は、文字列の描画位置と仮想的な見出し候補との関係があらかじめ定義された関係表を用いて、見出し候補探索部22から取得された検索キーワードを含む文字列の描画位置に対応する見出し候補を推定する。
The heading
例えば、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票のX軸(横)方向の中心且つY軸(縦)方向の最前方である場合には、「帳票タイトル」を見出し候補と推定する。また、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票のX軸(横)方向の後方且つY軸(縦)方向の前方である場合には、「帳票発行元」を見出し候補と推定する。さらに、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票のY軸(縦)方向の最後方である場合には、「帳票通し番号」を見出し候補と推定する。
For example, if the drawing position of the character string including the search keyword is the center in the X-axis (horizontal) direction and the forefront in the Y-axis (vertical) direction, the headline
また別の例として、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票の縦方向(Y軸)の前方1/4にあり、且つ、当該文字列のフォントが帳票を構成する他の文字列のフォントより大きいものである場合には、「帳票タイトル」を見出し候補と推定する。
As another example, the headline
また、見出し候補推定部41は、検索キーワードを含む文字列の描画位置に基づいて、当該文字列の仮想的な見出し候補が推定できない場合には、「見出し不明」を見出し候補と推定する。
In addition, based on the drawing position of the character string including the search keyword, the heading
また、見出し候補探索部41は、推定した見出し候補と検索キーワードを含む文字列とを検索キーワードの抽出元である帳票データごとに組にして、見出し候補一覧作成部23に出力する。
Further, the heading
次に、実施例2に係る帳票検索装置2の処理手順を、図10を参照して説明する。図10は、実施例2に係る帳票検索装置2の処理手順を示すフローチャートである。なお、図10において、実施例1に係る帳票検索装置1の処理手順(図8)と同じ部分には同じ符号を付し、詳しい説明を省略する。
Next, the processing procedure of the
まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出すると(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。
First, when the
次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票データを選択する(ステップS12)。
Next, the
そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。
Then, the
さらに、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。
Further, based on the drawing position of the character string extracted by the
そして、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の見出し候補が存在したか否かを判定する(ステップS21)。見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の見出し候補が存在すると判定する場合には(ステップS21Yes)、ステップS15に遷移する。
Then, the headline
一方、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の見出し候補が存在しないと判定する場合には(ステップS21No)、見出し候補推定部41が当該文字列の見出し候補を推定する(ステップS22)。
On the other hand, when the headline
具体的には、見出し候補推定部41は、文字列の描画位置と仮想的な見出し候補との関係があらかじめ定義された関係表を用いて、キーワード抽出部21によって抽出された文字列の描画位置に対応する見出し候補を推定する。
Specifically, the headline
例えば、見出し候補推定部41は、キーワード抽出部21によって抽出された文字列の描画位置が帳票のX軸(横)方向の中心且つY軸(縦)方向の最前方である場合には、「帳票タイトル」を見出し候補と推定する。また、見出し候補推定部41は、キーワード抽出部21によって抽出された文字列の描画位置が帳票のX軸(横)方向の後方且つY軸(縦)方向の前方である場合には、「帳票発行元」を見出し候補と推定する。さらに、見出し候補推定部41は、キーワード抽出部21によって抽出された文字列の描画位置が帳票のY軸(縦)方向の最後方である場合には、「帳票通し番号」を見出し候補と推定する。なお、見出し候補推定部41は、見出し候補の推定方法を、これらに限定するものではない。
For example, when the drawing position of the character string extracted by the
その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。
Thereafter, the heading
一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。
On the other hand, if the headline
具体的には、見出し候補一覧作成部23は、帳票データの帳票識別子、見出し候補および検索キーワードを含む文字列を一覧にした見出し候補一覧表を、見出し候補ごとにチェック欄を設けた見出し候補情報に編集し、編集した見出し候補情報を出力部40に表示出力する。
Specifically, the heading candidate
引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。
Subsequently, the
そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。
Then, the
以上のように本実施例2によれば、帳票検索装置2は、帳票データ内の複数の文字列およびその文字列の描画位置を帳票データごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置2は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。このとき、帳票検索装置2は、見出し候補が探索できなかった場合には、当該文字列に対応する仮想的な見出し候補を推定する。そして、帳票検索装置2は、探索または推定された見出し候補と当該見出し候補に対応する文字列とを帳票データごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を表示出力する。さらに、帳票検索装置1は、出力された見出し候補情報の中から所定の操作によって選択された見出し候補に対応付けられた文字列を含む帳票データを、情報データ情報31から検索する。
As described above, according to the second embodiment, the
かかる構成によれば、帳票検索装置2は、帳票データに、検索キーワードに対応する見出し候補が存在しない場合であっても、仮想的な見出し候補を推定するため、見出し候補が存在する場合と同様に帳票検索処理を実行することができ、検索要求に合致した帳票を漏れがなく検索することができる。
According to such a configuration, the
ところで、上記の実施例1では、帳票検索装置1は、検索キーワードを含む文字列の見出し候補を探索した結果、探索に失敗した見出し候補がある場合であっても正しい見出し候補に訂正しない場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置3は、検索キーワードを含む文字列の見出し候補を探索した結果、探索に失敗した見出し候補がある場合には正しい見出し候補に訂正しても良い。
By the way, in the first embodiment described above, the
そこで、実施例3では、帳票検索装置3が、検索キーワードを含む文字列の見出し候補を探索した結果、探索に失敗した見出し候補がある場合には正しい見出し候補に訂正する場合を説明する。 Therefore, in the third embodiment, a case will be described in which the form search device 3 corrects a headline candidate that has failed to be searched as a result of searching for a headline candidate of a character string including the search keyword.
まず、実施例3に係る帳票検索装置3の構成について図11を参照しながら説明する。図11は、実施例3に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例3とが異なるところは、入力部10に見出し訂正部51、制御部20に見出し訂正情報作成部52および記憶部30に見出し訂正情報記憶部53を追加した点にある。
First, the configuration of the form retrieval apparatus 3 according to the third embodiment will be described with reference to FIG. FIG. 11 is a functional block diagram illustrating the configuration of the form search apparatus according to the third embodiment. Note that the same components as those in the
見出し訂正部51は、出力部40によって表示出力された見出し候補情報のうち探索に失敗した見出し候補を訂正するために、当該見出し候補に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を検出して、見出し訂正情報作成部52に出力する。
The
具体的には、見出し訂正部51は、出力部40によって表示出力された見出し候補情報の中から、ユーザによって選択された、探索に失敗した見出し候補を検出する。そして、見出し訂正部51は、検出した見出し候補に関する帳票を出力部40に表示出力させるために、当該見出し候補を見出し訂正情報作成部52に出力する。また、見出し訂正部51は、出力部40によって表示出力された帳票からユーザによって選択された、正しい見出し候補および当該見出し候補に対応する文字列それぞれのデータ領域の矩形情報を検出して、見出し訂正情報作成部52に出力する。なお、矩形情報とは、データ領域を矩形としたときの当該矩形の頂点の描画位置を指すものとする。
Specifically, the
ここで、出力部40に出力された見出し候補情報23dからユーザによって見出しが訂正される場合を、図12を参照して説明する。図12は、ユーザによって見出し訂正される場合を示す図である。なお、見出し候補情報23dは、検索キーワードが「川崎」である場合であるものとする。
Here, a case where the headline is corrected by the user from the
図12の例では、帳票Aでは、検索キーワード「川崎」の見出し候補として、本来見出し候補として不適当である「神奈川県」が誤って探索されている。この場合に、ユーザは、誤って探索された見出し候補を含む「神奈川県 1件」(d1)を選択(例えばクリック)する。
In the example of FIG. 12, in the form A, “Kanagawa Prefecture”, which is originally inappropriate as a heading candidate, is erroneously searched as a heading candidate for the search keyword “Kawasaki”. In this case, the user selects (for example, clicks) “
すると、選択された見出し候補とそれに対応する文字列とを含む帳票Aが、モニターに表示出力される。そして、ユーザは、モニターに表示出力された帳票A上に配置されている文字列「神奈川県川崎市中原区・・・」(d3)およびそれに対応する正しい見出し候補「住所」(d2)のそれぞれのデータ領域を指定する。例えば、ユーザは、マウスクリックによって、各文字列を含む矩形の左上と右下の頂点を指定する。 Then, the form A including the selected headline candidate and the corresponding character string is displayed and output on the monitor. Then, the user selects each of the character string “Nakahara-ku, Kawasaki-shi, Kanagawa Prefecture” (d3) and the corresponding correct heading candidate “address” (d2) arranged on the form A displayed and output on the monitor. Specify the data area. For example, the user designates the upper left and lower right vertices of a rectangle including each character string by clicking the mouse.
図11に戻って、見出し候補一覧作成部23は、ユーザが検索要求に合致した見出しを選択できるように見出し候補一覧表を編集した見出し候補情報を出力部40に表示出力するとともに、見出し候補一覧表を見出し訂正情報作成部52および帳票検索部24に出力する。
Returning to FIG. 11, the heading candidate
見出し訂正情報作成部52は、探索に失敗した見出し候補に対応する帳票を出力部40に表示出力する。具体的には、見出し訂正情報作成部52は、見出し訂正部51によって探索に失敗した見出し候補を取得すると、当該見出し候補に対応する帳票データの帳票識別子を見出し候補一覧表から抽出して、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索する。また、見出し訂正情報作成部52は、検索された帳票データに含まれた各描画データに基づいて展開させた帳票を出力部40に表示出力する。
The headline correction
また、見出し訂正情報作成部52は、正しい見出し候補およびそれに対応する文字列のそれぞれのデータ領域の矩形情報を、帳票の訂正データとして見出し訂正情報記憶部53に格納する。
In addition, the headline correction
ここで、見出し訂正情報記憶部53に記憶される訂正データの構造について図13を参照しながら説明する。図13は、見出し訂正情報記憶部53のデータ構造の一例を示す図である。図13に示すように、見出し訂正情報記憶部53には、見出し訂正データが帳票ごとに記憶されている。
Here, the structure of the correction data stored in the headline correction
この見出し訂正データには、帳票識別子53aと、見出し文字列の矩形情報53bと、見出しに対応する文字列の矩形情報53cと、を含んでいる。帳票識別子53aは、訂正された見出し候補を含む帳票の識別子である。見出し文字列の矩形情報53bは、訂正された見出し候補のデータ領域の矩形情報であり、帳票上に配置された見出し候補文字列の左上および右下の矩形頂点の描画位置を示す。見出しに対応する文字列の矩形情報53cは、訂正された見出し候補に対応する文字列のデータ領域の矩形情報であり、帳票上に配置された当該文字列の左上および右下の矩形頂点の描画位置を示す。
The headline correction data includes a
なお、見出し情報作成部52は、帳票の訂正データを見出し訂正情報記憶部53に格納するものとして説明したが、帳票データ情報記憶部31に追加して格納するものとしても良い。
Although the headline
見出し候補探索部22は、帳票データから抽出された、検索キーワードを含む文字列の見出し候補を探索する。このとき、見出し候補探索部22は、当該検索キーワードを含む文字列の見出し候補が過去に訂正されている場合には、訂正された見出し候補を探索結果とする。
The heading
具体的には、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置および当該文字列の抽出元の帳票データを取得すると、見出し訂正情報記憶部53を参照して、当該帳票データの見出し訂正データがあるか否かを判定する。
Specifically, when the headline
また、見出し候補探索部22は、当該帳票データの見出し訂正データがあると判定された場合には、キーワード抽出部21によって抽出された文字列の描画位置が、当該見出し訂正データの「見出しに対応する文字列の矩形情報」53cの内部に存在するか否かを判定する。
Further, when it is determined that there is heading correction data of the form data, the heading
また、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置が、当該見出し訂正データの「見出しに対応する文字列の矩形情報」53cの内部に存在する場合には、「見出しに対応する文字列の矩形情報」53cに対応する「見出し文字列の矩形情報」53bから見出し候補を探索する。例えば、見出し候補探索部22は、見出し訂正情報記憶部53に含まれる「見出し文字列の矩形情報」53bの内部に存在する文字列の描画位置を、抽出元の帳票データから探索して、探索した文字列を見出し候補とする。
In addition, the headline
次に、実施例3に係る帳票検索装置3の処理手順を、図14を参照して説明する。図14は、実施例3に係る帳票検索装置の処理手順を示すフローチャートである。なお、図14において、実施例1に係る帳票検索装置1の処理手順(図8)と同じ部分には同じ符号を付し、詳しい説明を省略する。
Next, a processing procedure of the form retrieval apparatus 3 according to the third embodiment will be described with reference to FIG. FIG. 14 is a flowchart illustrating the processing procedure of the form search apparatus according to the third embodiment. In FIG. 14, the same parts as those in the processing procedure (FIG. 8) of the
まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出して(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。
First, the
次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票識別子に対応する帳票データを選択する(ステップS12)。
Next, the
そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。
Then, the
さらに、見出し候補探索部22は、検索キーワードを含む文字列の見出し候補が過去に訂正されているか否か調べるために、キーワード抽出部21によって選択された帳票データの帳票識別子が見出し訂正情報記憶部53に記憶されているか否かを判定する(ステップS31)。
Furthermore, the headline
選択された帳票データの帳票識別子が見出し訂正情報記憶部53に記憶されている場合には(ステップS31Yes)、見出し候補探索部22は、抽出された検索キーワードを含む文字列の描画位置が、見出しに対応する文字列の矩形情報53cの内部に存在するか否かを判定する(ステップS32)。
When the form identifier of the selected form data is stored in the headline correction information storage unit 53 (step S31 Yes), the headline
抽出された検索キーワードを含む文字列の描画位置が、見出しに対応する文字列の矩形情報53cの内部に存在する場合には(ステップS32Yes)、見出し候補探索部22は、見出し訂正情報記憶部53に含まれる見出し文字列の矩形情報53bから見出し候補を探索する(ステップS33)。
When the drawing position of the character string including the extracted search keyword exists inside the
一方、選択された帳票識別子が見出し訂正情報記憶部53に記憶されていない場合(ステップS31No)、または抽出された検索キーワードを含む文字列の描画位置が見出しに対応する文字列の矩形情報53cの内部に存在しない場合(ステップS32No)には、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。
On the other hand, when the selected form identifier is not stored in the headline correction information storage unit 53 (No in step S31), or the drawing position of the character string including the extracted search keyword is the character
その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。
Thereafter, the heading
一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。
On the other hand, if the headline
そして、見出し訂正情報作成部52は、見出し候補一覧情報の中の探索に失敗した見出し候補を見出し訂正部51から取得すると、当該見出し候補に対応する帳票データに基づいて展開させた帳票を出力部40に表示出力する(ステップS34)。
When the headline correction
そして、見出し訂正情報作成部52は、訂正された見出し候補およびそれに対応する文字列のそれぞれのデータ領域の矩形情報を見出し訂正部51から検出すると、これらの矩形情報を帳票の見出し訂正データとして見出し訂正情報記憶部53に格納する(ステップS35)。
Then, the headline correction
引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。
Subsequently, the
そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。
Then, the
以上のように本実施例3によれば、帳票検索装置3は、帳票データ内の複数の文字列およびその文字列の描画位置を帳票データごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置3は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置3は、探索された見出し候補と当該見出し候補に対応する文字列とを対応付けた見出し候補情報を生成し、生成された見出し候補情報を出力する。さらに、帳票検索装置3は、出力された見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置をユーザに選択させ、見出し訂正情報記憶部53に格納する。そして、帳票検索装置3は、出力された見出し候補情報の中から所定の操作によって選択された見出し候補に対応付けられた文字列を含む帳票データを、帳票データ情報記憶部31から検索する。
As described above, according to the third embodiment, the form retrieval apparatus 3 includes the form data
かかる構成によれば、帳票検索装置3は、見出し候補情報の中に誤った見出し候補が含まれている場合であっても、正しい見出し候補が見出し訂正情報記憶部53に記憶されているため、次回からの同一の検索キーワードの検索要求に対して、高い精度で正しい見出し候補を探索することができる。
According to such a configuration, the form retrieval apparatus 3 stores the correct headline candidate in the headline correction
ところで、上記の実施例1では、帳票検索装置1は、検索キーワードを含む文字列の見出し候補を探索した結果、探索した見出し候補の正当性の評価をしない場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置4は、検索キーワードを含む文字列の見出し候補を探索した結果、探索した見出し候補の探索の正当性を評価しても良い。
By the way, in the first embodiment described above, the
そこで、実施例4では、帳票検索装置4が、検索キーワードを含む文字列の見出し候補を探索した結果、探索した見出し候補の探索の正当性を評価する場合を説明する。 Thus, in the fourth embodiment, a case will be described in which the form search device 4 evaluates the validity of searching for a searched heading candidate as a result of searching for a heading candidate for a character string including a search keyword.
まず、実施例4に係る帳票検索装置4の構成について図15を参照しながら説明する。図15は、実施例4に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例4とが異なるところは、制御部20に見出し候補評価部61および記憶部30に正規表現対応情報記憶部62を追加した点にある。
First, the configuration of the form retrieval apparatus 4 according to the fourth embodiment will be described with reference to FIG. FIG. 15 is a functional block diagram illustrating the configuration of the form search apparatus according to the fourth embodiment. Note that the same components as those in the
見出し候補評価部61は、見出し候補探索部22によって探索された見出し候補の探索の正当性を評価する。なお、探索の正当性とは、探索に誤りがなかったことの確からしさであるものとする。
The headline
具体的には、見出し候補の探索の正当性の評価方法として、見出し候補評価部61は、見出し候補探索部22から帳票データごとに組にされた見出し候補と検索キーワードを含む文字列とを取得すると、取得した見出し候補の文字列と同じ文字列が、当該見出し候補の描画位置以外に存在するか否か判定する。
Specifically, as a method for evaluating the validity of a search for a headline candidate, the headline
そして、見出し候補評価部61は、取得した見出し候補の文字列と同じ文字列が、当該見出し候補の描画位置以外に存在すると判定する場合には、真の見出し候補が、取得した見出し候補と異なる描画位置に存在する文字列の可能性もあるため、取得した見出し候補における探索の正当性は低いものとする。一方、見出し候補評価部61は、取得した見出し候補の文字列と同じ文字列が、当該見出し候補の描画位置以外に存在しないと判定する場合には、取得した見出し候補における探索の正当性は高いものとする。
When the headline
また、別の探索の確からしさの評価方法として、見出し候補評価部61は、見出し候補探索部22から帳票データごとに組にされた見出し候補と検索キーワードを含む文字列とを取得すると、検索キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現で表されているか否かを判定する。例えば、見出し候補評価部61は、見出し文字列に対応するデータの正規表現をあらかじめ記憶する正規表現対応情報記憶部62を用いて、検索キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現を満足するか否かを判定する。
As another method for evaluating the likelihood of searching, the headline
ここで、正規表現対応情報記憶部62に記憶されるデータ構造について図16を参照しながら説明する。図16は、正規表現対応情報記憶部62のデータ構造の一例を示す図である。図16に示すように、正規表現対応情報記憶部62には、見出し文字列62aおよび対応するデータの正規表現62bが含まれており、見出し文字列62aごとに対になって記憶されている。
Here, the data structure stored in the regular expression correspondence
例えば、見出し文字列62aが「日付」である場合には、「日付」に対応するデータの正規表現は、「平成99年[1−12]月[1−31]日」である。ここで、正規表現内の「9」は任意の一桁の数字、[1−12]は1から12までの数字および[1−31]は1から31までの任意の数字を表す。
For example, when the heading
また、見出し文字列62aが「発注番号」である場合には、「発注番号」に対応するデータの正規表現は、「ZZZ99999−999−Z」である。ここで、正規表現内の「Z」は任意の1桁のアルファベット、「9」は任意の1桁の数字を表す。
When the heading
また、見出し文字列62aが「電話番号」である場合には、「電話番号」に対応するデータの正規表現は、「0999999999」である。ここで、正規表現内の「9」は任意の1桁の数字を表す。
When the heading
さらに、見出し文字列62aが「区分」である場合には、「区分」に対応するデータの正規表現は、「普通」、「当座」、「総合」、「定期」または「積立」である。
Furthermore, when the heading
図15に戻って、見出し候補評価部61は、キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現を満たさないと判定する場合には、真の見出し候補である可能性が低いと判断して、見出し候補の探索の正当性が低いものとする。一方、見出し候補評価部61は、キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現を満たすと判定する場合には、真の見出し候補である可能性が高いと判断して、見出し候補の探索の正当性が高いものとする。
Returning to FIG. 15, if the headline
また、見出し候補評価部61は、探索の正当性の評価結果を含んだ見出し候補と検索キーワードを含む文字列とを、これらの抽出元である帳票データごとに組にして、見出し候補一覧作成部23に出力する。なお、見出し候補評価部61は、探索の正当性が低い見出し候補を除外して、見出し候補に関する組を見出し候補一覧作成部23に出力するものとしても良い。
In addition, the headline
その結果、見出し候補一覧作成部23は、探索の正当性の評価結果を含んだ見出し候補情報を出力部40に出力する。
As a result, the heading candidate
ここで、見出し候補一覧作成部23によって編集される見出し候補情報23eの例について、図17を参照して説明する。図17は、見出し候補情報の例を示す図である。図17に示すように、見出し候補情報23eには、見出し候補「住所」の中に探索の正当性が低いものがあることを知らせる警告メッセージe1が出力されている。
Here, an example of the heading candidate information 23e edited by the heading candidate
なお、図17の例では、見出し候補情報23eには、探索の正当性が低い見出し候補があることを知らせる警告メッセージを出力するものとしたが、探索の正当性が低い見出し候補を含む帳票の帳票識別子を同時に出力するものとしても良い。 In the example of FIG. 17, the heading candidate information 23e outputs a warning message informing that there is a heading candidate with a low search validity. However, the form candidate including a heading candidate with a low search validity is output. The form identifier may be output at the same time.
これにより、見出し候補一覧作成部23は、探索の正当性が低い見出し候補をユーザに知らせることができ、当該見出し候補を含んだ帳票の確認を促すことができる。
Thereby, the heading candidate
次に、実施例4に係る帳票検索装置4の処理手順を、図18を参照して説明する。図18は、実施例4に係る帳票検索装置の処理手順を示すフローチャートである。なお、図18において、実施例1に係る帳票検索装置1の処理手順(図8)と同じ部分には同じ符号を付し、詳しい説明を省略する。
Next, the processing procedure of the form retrieval apparatus 4 according to the fourth embodiment will be described with reference to FIG. FIG. 18 is a flowchart illustrating the processing procedure of the form search apparatus according to the fourth embodiment. In FIG. 18, the same parts as those in the processing procedure (FIG. 8) of the
まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出すると(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。
First, when the
次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票データを選択する(ステップS12)。
Next, the
そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。
Then, the
さらに、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。
Further, based on the drawing position of the character string extracted by the
そして、見出し候補評価部61は、探索された見出し候補が探索に失敗したか否かの可能性、すなわち見出し候補の探索の正当性を評価する(ステップS41)。例えば、見出し候補評価部61は、探索された見出し候補の文字列と同じ文字列が、同じ帳票データ内の当該見出し候補の描画位置以外に存在するか否かによって判定する。
Then, the headline
探索された見出し候補が探索に失敗した可能性がある場合には(ステップS42Yes)、見出し候補評価部61は、当該見出し候補が、探索の正当性が低い見出し候補であると判断し、目視確認の必要性のある帳票データと判定する。そして、見出し候補評価部61は、例えば、当該帳票データ、探索の正当性が低いという評価結果を含んだ見出し候補および当該見出し候補に対応する検索キーワードを含む文字列を組にして記憶部30に格納する(ステップS43)。
When there is a possibility that the searched headline candidate has failed in the search (Yes in step S42), the headline
一方、探索された見出し候補が探索に失敗した可能性がない場合には(ステップS42No)、見出し候補評価部61は、当該見出し候補が、探索の正当性が高い見出し候補であると判断し、目視確認の必要性のない帳票データと判定する。そして、見出し候補評価部61は、例えば、当該帳票データ、探索の正当性が高いという評価結果を含んだ見出し候補および当該見出し候補に対応する検索キーワードを含む文字列を組にして記憶部30に格納する。
On the other hand, when there is no possibility that the searched headline candidate has failed in the search (No in step S42), the headline
その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。
Thereafter, the heading
一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された、確からしさの評価結果を含んだ見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。
On the other hand, if the headline
引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。
Subsequently, the
そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。
Then, the
以上のように本実施例4によれば、帳票検索装置4は、帳票データ内の複数の文字列および描画位置を帳票データごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置3は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置4は、探索された見出し候補における探索の正当性を評価して、当該見出し候補における探索の正当性が低いと評価された場合には、当該見出し候補に対応する見出し候補情報に警告メッセージを含んで表示出力する。さらに、帳票検索装置4は、表示出力された見出し候補情報の中から所定の操作によって選択された見出し候補に関わる文字列を含む帳票データを、情報データ情報31から検索する。
As described above, according to the fourth embodiment, the form retrieval apparatus 4 includes the form data
かかる構成によれば、帳票検索装置4は、検索キーワードに対応する見出し候補を探索した後、探索の正当性が低い見出し候補をユーザに知らせることができ、当該見出し候補を含んだ帳票の確認を促すことができる。 According to such a configuration, after searching for a heading candidate corresponding to the search keyword, the form search device 4 can notify the user of a heading candidate with low validity of the search, and confirm the form including the heading candidate. Can be urged.
ところで、上記の実施例1では、帳票検索装置1は、帳票データ情報記憶部31に、帳票を構成するデータの文字列や描画位置を含む描画データをあらかじめ記憶した帳票データ情報記憶部31を用いる場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置5は、紙帳票を文書スキャナでスキャンされた画像データから作成された描画データを格納した帳票データ情報記憶部31を用いても良い。
By the way, in the first embodiment, the
そこで、実施例5では、帳票検索装置5が、紙帳票を文書スキャナでスキャンされた画像データから作成された描画データを格納した帳票データ情報記憶部31を用いる場合を説明する。
Thus, in the fifth embodiment, a case will be described in which the
まず、実施例5に係る帳票検索装置5の構成について図19を参照しながら説明する。図19は、実施例5に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例5とが異なるところは、制御部20に帳票データ情報作成部71および記憶部30に帳票画像情報記憶部72を追加した点にある。
First, the configuration of the
帳票データ情報作成部71は、例えばOCR技術を用いて、帳票画像情報記憶部72に含まれた各帳票の画像データから複数の描画データを抽出して、抽出した各描画データを帳票データ情報記憶部31の形式に変換して、帳票データを作成する。ここで、描画データは、例えば、文字列の文字コードおよび描画位置や、罫線の始点および終点の描画位置を指す。
The form data information creation unit 71 extracts a plurality of drawing data from the image data of each form included in the form image
また、帳票データ情報作成部71は、作成した帳票データを帳票データ情報記憶部31に格納する。
In addition, the form data information creation unit 71 stores the created form data in the form data
帳票画像情報記憶部72には、紙帳票を文書スキャナでスキャンされた画像データが帳票ごとに記憶されている。例えば、画像データは、JPEG(Joint Photographic Experts Group)、ビットマップまたはPDF(Portable Document Format)で表された帳票である。
The form image
以上のように本実施例5によれば、帳票検索装置5は、帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する帳票データ情報記憶部31を備え、OCR技術を用いて帳票画像情報記憶部72に記憶されている画像データから複数の文字列およびその文字列の描画位置を含む描画情報を作成して、作成した描画情報を帳票データ情報記憶部31に帳票ごとに格納する。そして、帳票検索装置5は、この情報データ情報31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置5は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置5は、探索された見出し候補と当該見出し候補に対応する文字列とを対応付けた見出し候補情報を生成し、生成された見出し候補情報を表示出力する。さらに、帳票検索装置5は、表示出力された見出し候補情報の中から所定の操作によって選択された見出し候補に関わる文字列を含む帳票データを、情報データ情報31から検索する。
As described above, according to the fifth embodiment, the
かかる構成によれば、帳票検索装置5は、帳票のファイル形式が例えばPDF等画像データであったとしても、画像データから作成された描画情報を帳票データ情報記憶部31に記憶しているため、帳票のファイル形式がテキストである場合と同様に帳票検索処理を実行することができ、検索要求に合致した帳票を漏れがなく検索することができる。
According to such a configuration, the
また、帳票検索装置5は、帳票データ内の複数の文字列に対して見出しの文字列とこれに対応する文字列との関係を示す項目定義情報がなくても、検索要求に合致した帳票データを検索することができ、事前に項目定義情報を生成する手間がかからないという効果がある。特に、帳票データには、例えば「住所」、「お住まい」等の表記に揺れのある見出しが一般的に多数存在するため、これらを事前に項目定義情報に定義する手間がなくなり、事前に行うべき作業が軽減される。
Further, the
また、帳票検索装置5は、検索キーワードに対応する見出し候補の探索を、仮に誤った場合であっても、検索要求に合致した見出し候補を1度選択させるだけで、検索要求に合致した帳票を検索することができ、事前に項目定義情報を生成する場合と比較して、格段に作業を軽減できるだけでなく、帳票の検索精度を向上させることができる。
Moreover, even if the search for the headline candidate corresponding to the search keyword is erroneous, the
さらに、帳票検索装置5は、項目定義情報を用いて、検索要求どおりの見出しの文字列を探索するか否か、さらに探索要求どおりの帳票を検索するか否かを、事前に確認する手間がなくなるため、事前に行うべき作業を軽減できる。
Furthermore, the
なお、上記実施例において、見出し候補探索部22は、検索キーワードを含む文字列の描画位置に基づいて、見出し候補を探索するようにしたが、見出し候補となり得る文字列群を示す見出し文字列リストを事前に記憶部30に格納しておいても良い。見出し候補となり得る文字列は、例えば、「住所」、「現住所」、「お住まい」、「氏名」、「お名前」等がある。この場合、見出し候補探索部22は、検索キーワードを含む文字列の描画位置の周辺に存在する文字列のうち、当該見出し文字列リストに含まれる文字列を見出し候補とする。
In the above embodiment, the headline
また、上記実施例において、見出し候補探索部22は、検索キーワードを含む文字列の描画位置に基づいて、見出し候補を探索するようにしたが、人名辞書、住所辞書および商品名辞書等の辞書と、それらの辞書に対応する見出し候補の文字列を事前に記憶部30に格納しておいても良い。この場合、見出し候補探索部22は、検索キーワードがそれらの辞書に登録されている単語を含んでいるとき、その単語に対応する見出し文字列を検索キーワードを含む文字列の描画位置の周辺から探索して、探索した文字列を見出し候補とする。
In the above embodiment, the headline
以上、本発明の実施例について説明したが、本実施例によって本発明の技術的思想の範囲が限定されるものではなく、特許請求の範囲に記載した技術的範囲の範囲を逸脱しない限り、各種様々な実施例が実施可能であることは言うまでもない。また、本実施例に記載した効果は、これに限定されるものではない。 As mentioned above, although the Example of this invention was described, the range of the technical idea of this invention is not limited by this Example, and unless it deviates from the range of the technical scope described in the claim, it is various. It goes without saying that various embodiments can be implemented. Moreover, the effect described in the present Example is not limited to this.
また、図示した帳票検索装置1の各構成要素は機能概念的に記載したものであって、必ずしも物理的に図示のように構成されるものではなく、その帳票検索装置1の具体的な態様は図示のものに限縮されるものでは到底ないことは言うまでもない。
Each component of the illustrated
なお、帳票検索装置1〜5にて行われる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されても良い。
It should be noted that all or some of the processing functions performed in the
また、帳票検索装置1〜5にて行われる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行させるために、コンピュータ読み取り可能な記録媒体に記録されるものであっても良く、この場合でも、上記実施例と同様の効果が得られることは言うまでもない。
The processing functions performed by the
以上の実施例に係る実施形態に関し、さらに以下の付記を開示する。 The following additional remarks are disclosed regarding the embodiment according to the above example.
(付記1)帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する記憶手段と、
前記記憶手段に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手段と、
前記抽出手段によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手段と、
前記探索手段によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手段と、
前記出力手段によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手段から検索する帳票検索手段と、
を有することを特徴とする帳票検索装置。
(Supplementary note 1) Storage means for storing a plurality of character strings in a form and the drawing positions of the character strings for each form,
Extraction means for extracting a character string including a search keyword that forms part of a condition for searching for a form from among character strings in each form stored in the storage means, and a drawing position of the character string;
Search means for searching for a heading candidate corresponding to the character string from the form from which the character string is extracted based on the drawing position of the character string extracted by the extracting means;
Output means for generating heading candidate information for associating the heading candidate searched by the search means and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search means for searching for a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output means, from the storage means;
A form retrieval apparatus characterized by comprising:
(付記2)前記探索手段は
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする付記1に記載の帳票検索装置。
(Additional remark 2) The said search means is a character string arranged in the predetermined forward direction, Comprising: From the character string on the same line as the character string extracted by the said extraction means, from the drawing position of the said extracted character string The form search device according to
(付記3)前記探索手段は、
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出手段によって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする付記1に記載の帳票検索装置。
(Supplementary note 3) The search means includes
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction means The form search device according to
(付記4)前記所定の操作は、
前記出力手段によって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする付記1から付記3のいずれか1つに記載の帳票検索装置。
(Appendix 4) The predetermined operation is:
4. The form search apparatus according to any one of
(付記5)前記探索手段によって探索された見出し候補における探索の正当性を評価する見出し候補評価手段を有し、
前記出力手段は、
前記見出し候補評価手段の評価の結果、前記探索手段によって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする付記1に記載の帳票検索装置。
(Additional remark 5) It has the headline candidate evaluation means which evaluates the correctness of the search in the headline candidate searched by the said search means,
The output means includes
As a result of the evaluation by the heading candidate evaluation means, if the heading candidate searched by the searching means is evaluated as having low validity, the heading candidate information corresponding to the heading candidate includes a warning message and is output. The form search device according to
(付記6)前記見出し候補評価手段は、
前記見出し候補と同一の文字列が、当該見出し候補を含む帳票に、当該見出し候補の描画位置以外に存在するか否かを判定して、前記見出し候補と同一の文字列が、当該見出し候補の描画位置以外に存在すると判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記5に記載の帳票検索装置。
(Appendix 6) The headline candidate evaluation means
It is determined whether the same character string as the heading candidate exists in a form including the heading candidate other than the drawing position of the heading candidate, and the same character string as the heading candidate is 6. The form search device according to
(付記7)前記見出し候補評価手段は、
前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現であるか否かを判定して、前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現でないと判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記5に記載の帳票検索装置。
(Appendix 7) The headline candidate evaluation means
It is determined whether the character string including the search keyword is a predetermined regular expression corresponding to the heading candidate, and the character string including the search keyword is not a predetermined regular expression corresponding to the heading candidate. The form search device according to
(付記8)前記出力手段によって出力された前記見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を選択させる訂正選択手段と、
前記訂正選択手段によって選択された見出し候補の文字列に関わる複数の描画位置を、当該見出し候補に対応する文字列に関わる複数の描画位置と対応付けて記憶する訂正情報記憶手段とを有することを特徴とする付記1に記載の帳票検索装置。
(Supplementary note 8) In order to correct a heading candidate having an error in the heading candidate information output by the output means, a plurality of drawing positions related to the character string of the heading candidate and a character string corresponding to the heading candidate Correction selection means for selecting a plurality of drawing positions related to
Correction information storage means for storing a plurality of drawing positions related to a character string of a heading candidate selected by the correction selection means in association with a plurality of drawing positions related to a character string corresponding to the heading candidate. The form search device according to
(付記9)前記探索手段は、
前記抽出手段によって抽出された文字列の描画位置が、前記訂正記憶手段に記憶された見出し候補に対応する文字列に関わる複数の描画位置から表される閉領域に含まれている場合には、当該文字列に対応付けられた見出し候補を探索することを特徴とする付記8に記載の帳票検索装置。
(Supplementary note 9) The search means includes:
When the drawing position of the character string extracted by the extracting means is included in a closed region represented by a plurality of drawing positions related to the character string corresponding to the heading candidate stored in the correction storage means, The form search device according to appendix 8, wherein a headline candidate associated with the character string is searched.
(付記10)帳票の画像データからOCR技術を用いて、複数の文字列およびその文字列の描画位置を含む描画情報を生成して、生成された描画情報を前記記憶手段に記憶する描画情報生成手段を有することを特徴とする付記1に記載の帳票検索装置。
(Supplementary Note 10) Drawing information generation that generates drawing information including a plurality of character strings and drawing positions of the character strings from the image data of the form using the OCR technique, and stores the generated drawing information in the storage unit The form retrieval device according to
(付記11)前記出力手段は、
前記見出し候補情報に各見出し候補情報に対応付けられた帳票の縮小画像を含むことを特徴とする付記1に記載の帳票探索装置。
(Supplementary Note 11) The output means includes:
The form search device according to
(付記12)帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶媒体に記憶する記憶手順と、
前記記憶手順に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手順と、
前記抽出手順によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手順と、
前記探索手順によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手順と、
前記出力手順によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手順によって記憶された前記記憶媒体から検索する帳票検索手順と、
をコンピュータに実行させることを特徴とする帳票検索プログラム。
(Supplementary Note 12) A storage procedure for storing a plurality of character strings in a form and a drawing position of the character string in a storage medium for each form,
An extraction procedure for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage procedure;
Based on the drawing position of the character string extracted by the extraction procedure, a search procedure for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
An output procedure for generating heading candidate information for associating the heading candidate searched by the search procedure and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search procedure for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output procedure from the storage medium stored by the storage procedure; ,
A form search program characterized by causing a computer to execute.
(付記13)前記探索手順は、
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする付記12に記載の帳票検索プログラム。
(Supplementary note 13) The search procedure is as follows.
Among the character strings arranged in a predetermined forward direction and on the same string as the character string extracted by the extraction unit, other characters arranged forward from the drawing position of the extracted character string The form search program according to
(付記14)前記探索手順は、
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出手順によって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする付記12に記載の帳票検索プログラム。
(Supplementary Note 14) The search procedure is as follows.
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction procedure The form search program according to
(付記15)前記所定の操作は、
前記出力手順によって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする付記12から付記14のいずれか1つに記載の帳票検索プログラム。
(Supplementary Note 15) The predetermined operation is:
15. The form search program according to any one of
(付記16)前記探索手順によって探索された見出し候補における探索の正当性を評価する見出し候補評価手順を含み、
前記出力手順は、
前記見出し候補評価手段の評価の結果、前記探索手順によって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする付記12に記載の帳票検索プログラム。
(Additional remark 16) The headline candidate evaluation procedure which evaluates the correctness of the search in the headline candidate searched by the said search procedure,
The output procedure is as follows:
As a result of the evaluation by the heading candidate evaluation means, when it is evaluated that the search legitimacy of the heading candidate searched by the search procedure is low, the heading candidate information corresponding to the heading candidate is output including a warning message. The form search program according to
(付記17)前記見出し候補評価手順は、
前記見出し候補と同一の文字列が、当該見出し候補を含む帳票に、当該見出し候補の描画位置以外に存在するか否かを判定して、前記見出し候補と同一の文字列が、当該見出し候補の描画位置以外に存在すると判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記16に記載の帳票検索プログラム。
(Supplementary Note 17) The headline candidate evaluation procedure is as follows.
It is determined whether the same character string as the heading candidate exists in a form including the heading candidate other than the drawing position of the heading candidate, and the same character string as the heading candidate is The form search program according to supplementary note 16, wherein when it is determined that it exists at a position other than the drawing position, the validity of the search for the heading candidate is evaluated to be low.
(付記18)前記見出し候補評価手順は、
前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現であるか否かを判定して、前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現でないと判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記16に記載の帳票検索プログラム。
(Supplementary Note 18) The headline candidate evaluation procedure is as follows:
It is determined whether the character string including the search keyword is a predetermined regular expression corresponding to the heading candidate, and the character string including the search keyword is not a predetermined regular expression corresponding to the heading candidate. The form search program according to supplementary note 16, wherein if judged, the validity of the search for the heading candidate is evaluated to be low.
(付記19)前記出力手順によって出力された前記見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を選択させる訂正選択手順と、
前記訂正選択手順によって選択された見出し候補の文字列に関わる複数の描画位置を、当該見出し候補に対応する文字列に関わる複数の描画位置と対応付けて記憶媒体に記憶する訂正情報記憶手順とを含むことを特徴とする付記12に記載の帳票検索プログラム。
(Supplementary note 19) In order to correct a heading candidate having an error in the heading candidate information output by the output procedure, a plurality of drawing positions related to the character string of the heading candidate and a character string corresponding to the heading candidate Correction selection procedure for selecting a plurality of drawing positions related to
A correction information storage procedure for storing a plurality of drawing positions related to a character string of a heading candidate selected by the correction selection procedure in association with a plurality of drawing positions related to a character string corresponding to the heading candidate in a storage medium; The form search program according to
(付記20)前記探索手順は、
前記抽出手順によって抽出された文字列の描画位置が、前記訂正記憶手順によって記憶された前記記憶媒体に記憶された見出し候補に対応する文字列に関わる複数の描画位置から表される閉領域に含まれている場合には、当該文字列に対応付けられた見出し候補を探索することを特徴とする付記19に記載の帳票検索プログラム。
(Supplementary note 20) The search procedure is as follows.
The drawing position of the character string extracted by the extraction procedure is included in a closed region represented by a plurality of drawing positions related to the character string corresponding to the heading candidate stored in the storage medium stored by the correction storage procedure. If it is, the form search program according to appendix 19, wherein a headline candidate associated with the character string is searched.
(付記21)帳票の画像データからOCR技術を用いて、複数の文字列およびその文字列の描画位置を含む描画情報を生成して、生成された描画情報を、前記記憶手順によって記憶された前記記憶媒体に記憶する描画情報生成手順を含むことを特徴とする付記12に記載の帳票検索プログラム。
(Appendix 21) Using OCR technology from image data of a form, drawing information including a plurality of character strings and drawing positions of the character strings is generated, and the generated drawing information is stored in the storage procedure. 13. The form search program according to
(付記22)前記出力手順は、
前記見出し候補情報に各見出し候補情報に対応付けられた帳票の縮小画像を含むことを特徴とする付記12に記載の帳票検索プログラム。
(Appendix 22) The output procedure is as follows:
13. The form search program according to
(付記23)帳票検索装置が帳票を検索する帳票検索方法であって、
帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶媒体に記憶する記憶ステップと、
前記記憶ステップに記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出ステップと、
前記抽出ステップによって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索ステップと、
前記探索ステップによって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力ステップと、
前記出力ステップによって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶ステップによって記憶された前記記憶媒体から検索する帳票検索ステップと、
を含むことを特徴とする帳票検索方法。
(Supplementary note 23) A form retrieval method in which a form retrieval apparatus retrieves a form,
A storage step of storing a plurality of character strings in the form and a drawing position of the character string in a storage medium for each form;
An extraction step for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage step;
Based on the drawing position of the character string extracted by the extraction step, a search step for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
Generating heading candidate information that associates the heading candidate searched by the searching step and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search step for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output step from the storage medium stored in the storage step; ,
A form search method characterized by including:
(付記24)前記探索ステップは、
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 24) The search step includes:
Among the character strings arranged in a predetermined forward direction and on the same string as the character string extracted by the extraction unit, other characters arranged forward from the drawing position of the extracted character string The form search method according to
(付記25)前記探索ステップは、
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出ステップによって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 25) The search step includes:
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction step The form search method according to
(付記26)前記所定の操作は、
前記出力ステップによって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする付記23から付記25のいずれか1つに記載の帳票検索方法。
(Supplementary Note 26) The predetermined operation is:
26. The form search method according to any one of
(付記27)前記探索ステップによって探索された見出し候補における探索の正当性を評価する見出し候補評価ステップを含み、
前記出力ステップは、
前記見出し候補評価手段の評価の結果、前記探索ステップによって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする付記23に記載の帳票検索方法。
(Additional remark 27) The headline candidate evaluation step which evaluates the correctness of the search in the headline candidate searched by the said search step,
The output step includes
As a result of the evaluation of the heading candidate evaluation means, if it is evaluated that the search candidate in the heading candidate searched by the searching step is low, the heading candidate information corresponding to the heading candidate includes a warning message and is output. The form search method according to
(付記28)前記見出し候補評価ステップは、
前記見出し候補と同一の文字列が、当該見出し候補を含む帳票に、当該見出し候補の描画位置以外に存在するか否かを判定して、前記見出し候補と同一の文字列が、当該見出し候補の描画位置以外に存在すると判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記27に記載の帳票検索方法。
(Supplementary Note 28) The heading candidate evaluation step includes:
It is determined whether the same character string as the heading candidate exists in a form including the heading candidate other than the drawing position of the heading candidate, and the same character string as the heading candidate is 28. The form search method according to appendix 27, wherein, when it is determined that it exists at a position other than the drawing position, the validity of the search for the heading candidate is evaluated to be low.
(付記29)前記見出し候補評価ステップは、
前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現であるか否かを判定して、前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現でないと判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記27に記載の帳票検索方法。
(Supplementary Note 29) The heading candidate evaluation step includes:
It is determined whether the character string including the search keyword is a predetermined regular expression corresponding to the heading candidate, and the character string including the search keyword is not a predetermined regular expression corresponding to the heading candidate. 28. The form search method according to appendix 27, wherein if it is determined, the validity of the search for the heading candidate is evaluated to be low.
(付記30)前記出力ステップによって出力された前記見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を選択させる訂正選択ステップと、
前記訂正選択ステップによって選択された見出し候補の文字列に関わる複数の描画位置を、当該見出し候補に対応する文字列に関わる複数の描画位置と対応付けて記憶する訂正情報記憶ステップとを含むことを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 30) In order to correct a heading candidate having an error in the heading candidate information output by the output step, a plurality of drawing positions related to the character string of the heading candidate and a character string corresponding to the heading candidate A correction selection step for selecting a plurality of drawing positions related to
A correction information storing step of storing a plurality of drawing positions related to the character string of the heading candidate selected in the correction selection step in association with a plurality of drawing positions related to the character string corresponding to the heading candidate. The form search method according to
(付記31)前記探索ステップは、
前記抽出ステップによって抽出された文字列の描画位置が、前記訂正記憶ステップによって記憶された前記記憶媒体に記憶された見出し候補に対応する文字列に関わる複数の描画位置から表される閉領域に含まれている場合には、当該文字列に対応付けられた見出し候補を探索することを特徴とする付記30に記載の帳票検索方法。
(Supplementary Note 31) The search step includes:
The drawing position of the character string extracted by the extraction step is included in a closed region represented by a plurality of drawing positions related to the character string corresponding to the heading candidate stored in the storage medium stored in the correction storage step. If it is, the form search method according to
(付記32)帳票の画像データからOCR技術を用いて、複数の文字列およびその文字列の描画位置を含む描画情報を生成して、生成された描画情報を、前記記憶ステップによって記憶された前記記憶媒体に記憶する描画情報生成ステップを含むことを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 32) Using OCR technology from image data of a form, drawing information including a plurality of character strings and drawing positions of the character strings is generated, and the generated drawing information is stored in the storage step. 24. The form search method according to
(付記33)前記出力ステップは、
前記見出し候補情報に各見出し候補情報に対応付けられた帳票の縮小画像を含むことを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 33) The output step includes:
The form search method according to
1 帳票検索装置
10 入力部
11 キーワード入力部
12 見出し選択部
20 制御部
21 キーワード抽出部
22 見出し候補探索部
23 見出し候補一覧作成部
24 帳票検索部
30 記憶部
31 帳票データ情報記憶部
32 帳票検索結果情報記憶部
41 見出し候補推定部
51 見出し訂正部
52 見出し訂正情報作成部
53 見出し訂正情報記憶部
61 見出し候補評価部
62 正規表現対応情報記憶部
71 帳票データ情報作成部
72 帳票画像情報記憶部
DESCRIPTION OF
Claims (7)
前記記憶手段に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手段と、
前記抽出手段によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手段と、
前記探索手段によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手段と、
前記出力手段によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手段から検索する帳票検索手段と、
を有することを特徴とする帳票検索装置。 Storage means for storing a plurality of character strings in a form and the drawing position of the character string for each form;
Extraction means for extracting a character string including a search keyword that forms part of a condition for searching for a form from among character strings in each form stored in the storage means, and a drawing position of the character string;
Search means for searching for a heading candidate corresponding to the character string from the form from which the character string is extracted based on the drawing position of the character string extracted by the extracting means;
Output means for generating heading candidate information for associating the heading candidate searched by the search means and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search means for searching for a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output means, from the storage means;
A form retrieval apparatus characterized by comprising:
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする請求項1に記載の帳票検索装置。 The search means is a character string arranged in a predetermined forward direction and is arranged forward from a drawing position of the extracted character string among character strings on the same column as the character string extracted by the extraction means. The form search device according to claim 1, wherein the other character string is searched as a heading candidate.
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出手段によって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする請求項1に記載の帳票検索装置。 The search means includes
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction means The form search device according to claim 1, wherein the column is searched as a heading candidate.
前記出力手段によって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする請求項1から請求項3のいずれか1つに記載の帳票検索装置。 The predetermined operation is:
The form search apparatus according to claim 1, wherein the form search device is a selection operation for selecting a headline candidate from the heading candidate information output by the output unit.
前記出力手段は、
前記見出し候補評価手段の評価の結果、前記探索手段によって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする請求項1に記載の帳票検索装置。 Headline candidate evaluation means for evaluating the validity of the search in the headline candidate searched by the search means,
The output means includes
As a result of the evaluation by the heading candidate evaluation means, if the heading candidate searched by the searching means is evaluated as having low validity, the heading candidate information corresponding to the heading candidate includes a warning message and is output. The form retrieval apparatus according to claim 1, wherein:
前記記憶手順に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手順と、
前記抽出手順によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手順と、
前記探索手順によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手順と、
前記出力手順によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手順によって記憶された前記記憶媒体から検索する帳票検索手順と、
をコンピュータに実行させることを特徴とする帳票検索プログラム。 A storage procedure for storing a plurality of character strings in a form and a drawing position of the character string in a storage medium for each form;
An extraction procedure for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage procedure;
Based on the drawing position of the character string extracted by the extraction procedure, a search procedure for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
An output procedure for generating heading candidate information for associating the heading candidate searched by the search procedure and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search procedure for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output procedure from the storage medium stored by the storage procedure; ,
A form search program characterized by causing a computer to execute.
前記帳票検索装置が、
帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶媒体に記憶する記憶ステップと、
前記記憶ステップに記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出ステップと、
前記抽出ステップによって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索ステップと、
前記探索ステップによって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力ステップと、
前記出力ステップによって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶ステップによって記憶された前記記憶媒体から検索する帳票検索ステップと、
を含むことを特徴とする帳票検索方法。 A form search method in which a form search device searches for a form,
The form search device
A storage step of storing a plurality of character strings in the form and a drawing position of the character string in a storage medium for each form;
An extraction step for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage step;
Based on the drawing position of the character string extracted by the extraction step, a search step for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
Generating heading candidate information that associates the heading candidate searched by the searching step and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search step for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output step from the storage medium stored in the storage step; ,
A form search method characterized by including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117979A JP5229102B2 (en) | 2009-05-14 | 2009-05-14 | Form search device, form search program, and form search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117979A JP5229102B2 (en) | 2009-05-14 | 2009-05-14 | Form search device, form search program, and form search method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010267083A JP2010267083A (en) | 2010-11-25 |
JP5229102B2 true JP5229102B2 (en) | 2013-07-03 |
Family
ID=43364002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009117979A Active JP5229102B2 (en) | 2009-05-14 | 2009-05-14 | Form search device, form search program, and form search method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5229102B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5664481B2 (en) * | 2011-06-30 | 2015-02-04 | 富士通株式会社 | Table structure automatic recognition program, table structure automatic recognition method, and table structure automatic recognition apparatus |
JP6256079B2 (en) * | 2014-02-14 | 2018-01-10 | 富士通株式会社 | Search program, search method, and search device |
JP6442962B2 (en) * | 2014-10-01 | 2018-12-26 | 富士通株式会社 | Form generation program and form generation apparatus |
WO2019004363A1 (en) * | 2017-06-29 | 2019-01-03 | 株式会社ビズオーシャン | Information inputting method, information inputting device, and information inputting system |
US11055481B2 (en) | 2017-06-29 | 2021-07-06 | Spalo Co., Ltd. | Information input method, information input apparatus, and information input system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10269305A (en) * | 1997-03-28 | 1998-10-09 | Hitachi Software Eng Co Ltd | Method for outputting slip retrieval result |
JP4488656B2 (en) * | 2000-07-05 | 2010-06-23 | 株式会社東芝 | Data server, information processing system and method, storage medium, facility-related service providing method, and facility data management method |
JP4848221B2 (en) * | 2006-07-31 | 2011-12-28 | 富士通株式会社 | Form processing program, recording medium recording the program, form processing apparatus, and form processing method |
-
2009
- 2009-05-14 JP JP2009117979A patent/JP5229102B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010267083A (en) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868717B2 (en) | Multi-page document recognition in document capture | |
US10120537B2 (en) | Page-independent multi-field validation in document capture | |
JP4682284B2 (en) | Document difference detection device | |
US20140304579A1 (en) | Understanding Interconnected Documents | |
JP4867941B2 (en) | Form processing method, form processing program, form processing apparatus, and form processing system | |
US20090049375A1 (en) | Selective processing of information from a digital copy of a document for data entry | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
US20240012822A1 (en) | Error identification, indexing and linking construction documents | |
JP5229102B2 (en) | Form search device, form search program, and form search method | |
JP2021043775A (en) | Information processing device and program | |
US20140177951A1 (en) | Method, apparatus, and storage medium having computer executable instructions for processing of an electronic document | |
JP5550959B2 (en) | Document processing system and program | |
CN112149402B (en) | Document matching method, device, electronic equipment and computer readable storage medium | |
JP4518212B2 (en) | Image processing apparatus and program | |
US10331948B1 (en) | Rules based data extraction | |
JP6325218B2 (en) | Character recognition result verification device and character reading system | |
EP3287952A1 (en) | Input control program, input control device, input control method, character correction program, character correction device, and character correction method | |
JP5752073B2 (en) | Data correction device | |
JP7377565B2 (en) | Drawing search device, drawing database construction device, drawing search system, drawing search method, and program | |
US11914654B2 (en) | Document management apparatus, document management system, and non-transitory computer readable medium storing program | |
JP2006134079A (en) | Image processing device and program | |
JP2012089042A (en) | Form creation device and form creation method | |
US20140244685A1 (en) | Method of searching and generating a relevant search string | |
JP2005050175A (en) | Image data document retrieval system | |
JP2009230658A (en) | Character retrieval system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5229102 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |