JP5229102B2 - Form search device, form search program, and form search method - Google Patents

Form search device, form search program, and form search method Download PDF

Info

Publication number
JP5229102B2
JP5229102B2 JP2009117979A JP2009117979A JP5229102B2 JP 5229102 B2 JP5229102 B2 JP 5229102B2 JP 2009117979 A JP2009117979 A JP 2009117979A JP 2009117979 A JP2009117979 A JP 2009117979A JP 5229102 B2 JP5229102 B2 JP 5229102B2
Authority
JP
Japan
Prior art keywords
search
character string
candidate
heading
headline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009117979A
Other languages
Japanese (ja)
Other versions
JP2010267083A (en
Inventor
勇作 藤井
悦伸 堀田
正博 栗島
雄一 若山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009117979A priority Critical patent/JP5229102B2/en
Publication of JP2010267083A publication Critical patent/JP2010267083A/en
Application granted granted Critical
Publication of JP5229102B2 publication Critical patent/JP5229102B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、帳票検索装置、帳票検索プログラムおよび帳票検索方法に関する。   The present invention relates to a form search device, a form search program, and a form search method.

従来から、商品の受発注を記録する管理表や各種申込書等を電子帳票として管理する電子帳票管理システムが広く用いられている。   2. Description of the Related Art Conventionally, an electronic form management system that manages a management table for recording product orders and various application forms as electronic forms has been widely used.

この電子帳票管理システムにおける電子帳票のデータの記録方式には、例えば以下の3種類がある。第1の記録方式の電子帳票管理システムでは、紙帳票をスキャナによって取り込まれた画像データを記録するものである。第2の記録方式の電子帳票管理システムでは、帳票上の各項目(見出し)とその内容との関係を示したデータベースを用いて、帳票のデータを記録するものである。第3の記録方式の電子帳票管理システムでは、帳票を構成するデータの文字列や描画位置を含む描画データを記録するものである。   For example, there are the following three types of recording methods for electronic form data in this electronic form management system. In the electronic document management system of the first recording method, image data obtained by capturing a paper form by a scanner is recorded. In an electronic form management system of the second recording method, form data is recorded using a database showing the relationship between each item (heading) on the form and its contents. In an electronic form management system of the third recording method, drawing data including a character string and a drawing position of data constituting the form is recorded.

ここで、電子帳票管理システムに記録されている電子帳票の中から特定の電子帳票を検索する場合に、検索対象を特定の項目に限定して検索する場合が多い。   Here, when searching for a specific electronic form from the electronic forms recorded in the electronic form management system, the search target is often limited to a specific item.

この場合に、第1の記録方式の電子帳票管理システムでは、電子帳票を画像データとして記録しているため、文字コード情報を認識できず、検索対象を特定の項目に限定して電子帳票を検索することができない。   In this case, since the electronic form management system of the first recording method records the electronic form as image data, the character code information cannot be recognized, and the electronic form is searched by limiting the search target to a specific item. Can not do it.

また、第2の記録方式の電子帳票管理システムでは、電子帳票を構成する各項目とその内容との関係が構造化しているデータベースを用いているため、検索対象を特定の項目に限定して電子帳票を容易に検索することができる。なお、項目を指定しない場合であっても、項目の内容とデータベース内の全データとを比較して、一致するデータに対応する項目を探索する。その結果、かかる電子帳票管理システムは、探索された項目とその内容とを検索条件とした帳票を検索することができる。   In the second recording type electronic form management system, a database in which the relationship between each item constituting the electronic form and its contents is structured is used. You can easily search for forms. Even when the item is not specified, the content of the item is compared with all data in the database, and the item corresponding to the matching data is searched. As a result, the electronic form management system can search for forms using the searched items and their contents as search conditions.

さらに、第3の記録方式の電子帳票管理システムでは、帳票上の各文字列の文字コード情報を認識できるが、その文字列が項目であるか否かが不明であるため、検索条件となる特定の項目とその内容との関係を認識できない。そのため、項目とその内容との関係を示す情報(以降、「項目定義情報」という。)が、事前に人手によって帳票ごとに定義されている。   Furthermore, in the electronic document management system of the third recording method, the character code information of each character string on the form can be recognized, but since it is unknown whether the character string is an item or not, it is specified as a search condition. The relationship between the item and its contents cannot be recognized. For this reason, information indicating the relationship between items and their contents (hereinafter referred to as “item definition information”) is manually defined for each form in advance.

また、かかる電子帳票管理システムでは、帳票を構成するデータの文字列を、項目名が定義された項目定義情報と照合して、照合に成功した文字列を項目名文字列とし、照合に失敗した文字列をデータ文字列とし、これらの位置関係からデータ文字列の項目を探索している。   Also, in such an electronic form management system, the character string of the data constituting the form is collated with the item definition information in which the item name is defined, and the character string that has been successfully collated is used as the item name character string. A character string is used as a data character string, and a data character string item is searched from these positional relationships.

特開2003−22271号公報JP 2003-22271 A 特開2008−204226号公報JP 2008-204226 A

しかしながら、電子帳票管理システムに記録されている複数の電子帳票の中から、検索対象を特定の項目(見出し)に限定して特定の電子帳票を検索する場合、事前に項目定義情報を定義する従来の技術では、手間がかかるという問題がある。   However, when a specific electronic form is searched by limiting the search target to a specific item (heading) from a plurality of electronic forms recorded in the electronic form management system, item definition information is defined in advance. However, there is a problem that it takes time and effort.

すなわち、人手によって項目定義情報が定義される場合には、例えば電子帳票管理システムの管理者が、請求書等の様々な書式を有する全帳票について項目定義情報を事前に定義する作業が必要なため、非常に手間がかかることになる。   That is, when the item definition information is manually defined, for example, the administrator of the electronic form management system needs to define the item definition information in advance for all forms having various formats such as invoices. It will be very time consuming.

また、電子帳票管理システムは、項目定義情報を用いてデータ文字列の項目を探索する従来の技術を用いても、項目名文字列とそれに対応するデータ文字列との位置関係によっては、データ文字列の項目を100%の精度で探索することができず、その結果、検索要求に合致した電子帳票を正確に検索することができない。そのため、事前に項目定義情報そのものを含めた検索確認が目視によって行われることが必要となり、手間がかかることとなる。   In addition, even if the electronic form management system uses a conventional technique for searching for an item of a data character string using item definition information, depending on the positional relationship between the item name character string and the corresponding data character string, the data character string A column item cannot be searched with 100% accuracy, and as a result, an electronic form that matches the search request cannot be accurately searched. For this reason, it is necessary to visually check the item definition information including the item definition information itself in advance, which is troublesome.

本発明は、上記に鑑みてなされたものであって、複数の電子帳票の中から、検索対象を特定の項目(見出し)に限定して特定の電子帳票を検索する場合に、事前作業に手間がかからない帳票検索装置、帳票検索プログラムおよび帳票検索方法を提供することを目的とする。   The present invention has been made in view of the above, and when searching for a specific electronic form by limiting a search target to a specific item (heading) from a plurality of electronic forms, it is troublesome in advance work. It is an object of the present invention to provide a form search device, a form search program, and a form search method that do not cost.

上述した問題を解決し、目的を達成するために、帳票検索装置は、帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する記憶手段と、前記記憶手段に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手段と、前記抽出手段によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手段と、前記探索手段によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手段と、前記出力手段によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手段から検索する帳票検索手段とを備える構成を採る。   In order to solve the above-described problems and achieve the object, the form retrieval apparatus stores a plurality of character strings in the form and drawing positions of the character strings for each form, and the storage means Extraction means for extracting a character string including a search keyword that forms a part of a condition for searching for a form and a drawing position of the character string from character strings in each form, and a character string extracted by the extraction means Search means for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted based on the drawing position; a heading candidate searched by the searching means; and a character string corresponding to the heading candidate Generating heading candidate information for associating with each form, outputting the generated heading candidate information, and a predetermined operation from the heading candidate information output by the output means. The form containing the string associated with the selected heading candidate by taking a structure and a form retrieval means for retrieving from the storage means.

以上により、帳票検索装置、帳票検索プログラムおよび帳票検索方法は、複数の帳票の中から、検索対象を特定の見出し項目に限定して特定の帳票を検索する場合に、事前作業に手間がかからないという効果を奏する。   As described above, the form search device, the form search program, and the form search method do not require time and effort in advance when searching for a specific form by limiting the search target to a specific heading item from a plurality of forms. There is an effect.

図1は、実施例1に係る帳票検索装置の構成を示す機能ブロック図である。FIG. 1 is a functional block diagram illustrating the configuration of the form retrieval apparatus according to the first embodiment. 図2は、帳票データ情報記憶部のデータ構造の一例を示す図である。FIG. 2 is a diagram illustrating an example of a data structure of the form data information storage unit. 図3は、見出し候補の探索方法を示す図である。FIG. 3 is a diagram illustrating a heading candidate search method. 図4は、見出し候補情報の例を示す図である。FIG. 4 is a diagram illustrating an example of heading candidate information. 図5は、見出し候補情報の変形例を示す図である。FIG. 5 is a diagram illustrating a modification of the heading candidate information. 図6は、ユーザによって見出しが選択された結果を示す図である。FIG. 6 is a diagram illustrating a result of selecting a headline by the user. 図7は、見出し候補の探索に誤りが生じた場合の例を示す図である。FIG. 7 is a diagram illustrating an example when an error occurs in the search for a heading candidate. 図8は、実施例1に係る帳票検索装置の処理手順を示すフローチャートである。FIG. 8 is a flowchart illustrating the processing procedure of the form search apparatus according to the first embodiment. 図9は、実施例2に係る帳票検索装置の構成を示す機能ブロック図である。FIG. 9 is a functional block diagram illustrating the configuration of the form search apparatus according to the second embodiment. 図10は、実施例2に係る帳票検索装置の処理手順を示すフローチャートである。FIG. 10 is a flowchart illustrating the processing procedure of the form search apparatus according to the second embodiment. 図11は、実施例3に係る帳票検索装置の構成を示す機能ブロック図である。FIG. 11 is a functional block diagram illustrating the configuration of the form search apparatus according to the third embodiment. 図12は、ユーザによって見出しが訂正される場合を示す図である。FIG. 12 is a diagram illustrating a case where the headline is corrected by the user. 図13は、見出し訂正情報記憶部のデータ構造の一例を示す図である。FIG. 13 is a diagram illustrating an example of the data structure of the headline correction information storage unit. 図14は、実施例3に係る帳票検索装置の処理手順を示すフローチャートである。FIG. 14 is a flowchart illustrating the processing procedure of the form search apparatus according to the third embodiment. 図15は、実施例4に係る帳票検索装置の構成を示す機能ブロック図である。FIG. 15 is a functional block diagram illustrating the configuration of the form search apparatus according to the fourth embodiment. 図16は、正規表現対応情報記憶部のデータ構造の一例を示す図である。FIG. 16 is a diagram illustrating an example of a data structure of the regular expression correspondence information storage unit. 図17は、見出し候補情報の例を示す図である。FIG. 17 is a diagram illustrating an example of heading candidate information. 図18は、実施例4に係る帳票検索装置の処理手順を示すフローチャートである。FIG. 18 is a flowchart illustrating the processing procedure of the form search apparatus according to the fourth embodiment. 図19は、実施例5に係る帳票検索装置の構成を示す機能ブロック図である。FIG. 19 is a functional block diagram illustrating the configuration of the form search apparatus according to the fifth embodiment.

以下に、本発明に係る帳票検索装置、帳票検索プログラムおよび帳票検索方法の実施例を図面に基づいて詳細に説明する。なお、本実施例によりこの発明が限定されるものではない。   Hereinafter, embodiments of a form search apparatus, a form search program, and a form search method according to the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited by the present Example.

図1は、本実施例1に係る帳票検索装置の構成を示す機能ブロック図である。図1に示すように、帳票検索装置1は、入力部10と、制御部20と、記憶部30と、出力部40とを備える。   FIG. 1 is a functional block diagram illustrating the configuration of the form retrieval apparatus according to the first embodiment. As illustrated in FIG. 1, the form retrieval apparatus 1 includes an input unit 10, a control unit 20, a storage unit 30, and an output unit 40.

ここで、帳票検索装置1の処理概要について説明する。帳票検索装置1は、記憶されている全電子帳票の中から検索対象を特定の見出し項目に限定して特定の電子帳票を検索する場合に、事前に項目定義情報を定義しなくても特定の電子帳票を検索できる。具体的には、帳票検索装置1は、電子帳票を検索する条件の一部を成す検索キーワードを含む文字列を、各電子帳票を構成する文字列の中から抽出して、抽出した文字列の描画位置に基づいて、当該文字列に対応する見出し候補を探索する。また、帳票検索装置1は、探索された見出し候補と、その見出し候補に対応する文字列とを対応付けた見出し候補情報を生成し、当該見出し候補情報をモニターに表示出力する。さらに、帳票検索装置1は、表示出力された見出し候補情報から所定の操作によって選択された見出し候補に関わる文字列を含む電子帳票を検索することができる。   Here, an outline of processing of the form retrieval apparatus 1 will be described. The form retrieval apparatus 1 is configured to search for a specific electronic form by limiting a search target to a specific heading item from all stored electronic forms without specifying item definition information in advance. Search electronic forms. Specifically, the form retrieval apparatus 1 extracts a character string including a search keyword that forms a part of a condition for retrieving an electronic form from character strings constituting each electronic form, and extracts the extracted character string. Based on the drawing position, a heading candidate corresponding to the character string is searched. Further, the form retrieval apparatus 1 generates heading candidate information in which the searched heading candidate is associated with the character string corresponding to the heading candidate, and displays and outputs the heading candidate information on the monitor. Further, the form retrieval apparatus 1 can retrieve an electronic form including a character string related to a heading candidate selected by a predetermined operation from the displayed heading candidate information.

なお、全電子帳票の中から検索対象となる見出し項目を限定して特定の電子帳票を検索することを、「項目限定検索」と呼ぶことにする。また、電子帳票は、以降「帳票」と略記するものとする。また、帳票検索装置1が行う処理については、順次詳述する。   It should be noted that searching for a specific electronic form by limiting heading items to be searched from all electronic forms is referred to as “item limited search”. Further, the electronic form is hereinafter abbreviated as “form”. The processing performed by the form retrieval apparatus 1 will be described in detail sequentially.

入力部10は、各種要求を検出する機能部であり、キーワード入力部11および見出し選択部12を備える。   The input unit 10 is a functional unit that detects various requests, and includes a keyword input unit 11 and a headline selection unit 12.

キーワード入力部11は、例えばユーザによって入力された検索キーワードを含む検索要求を検出すると、後述するキーワード抽出部21に出力する。ここで、検索キーワードとは、ユーザが帳票を検索する条件の一部を成すキーワードである。例えば、ユーザが「住所に川崎を含む帳票の検索」を行うとき、検索する条件は「住所に川崎を含むこと」であり、検索範囲は「住所」という項目となり、検索キーワードは「川崎」となる。   For example, when the keyword input unit 11 detects a search request including a search keyword input by the user, the keyword input unit 11 outputs the request to the keyword extraction unit 21 described later. Here, the search keyword is a keyword that forms part of the condition for the user to search for a form. For example, when a user performs a “search for a form including Kawasaki in the address”, the search condition is “include Kawasaki in the address”, the search range is an item “address”, and the search keyword is “Kawasaki” Become.

見出し選択部12は、後述する出力部40によって出力された見出し候補情報の中から、所定の操作によって選択された見出し候補を検出すると、検出した見出し候補を、後述する帳票検索部24に出力する。なお、所定の操作とは、例えば、ユーザが、キーボードの該当キーを押下すること、またはモニターがタッチパネルの場合には、タッチパネルの該当領域を触れることである。   When the heading selection unit 12 detects a heading candidate selected by a predetermined operation from the heading candidate information output by the output unit 40 described later, the heading selection unit 12 outputs the detected heading candidate to the form search unit 24 described later. . The predetermined operation is, for example, that the user presses the corresponding key on the keyboard, or touches the corresponding area on the touch panel when the monitor is a touch panel.

制御部20は、帳票検索機能を制御する機能部であり、キーワード抽出部21と、見出し候補探索部22と、見出し候補一覧作成部23と、帳票検索部24とを備える。   The control unit 20 is a functional unit that controls the form search function, and includes a keyword extraction unit 21, a headline candidate search unit 22, a headline candidate list creation unit 23, and a form search unit 24.

記憶部30は、情報を記憶する機能部であり、帳票データ情報記憶部31と、帳票検索結果情報記憶部32とを備える。   The storage unit 30 is a functional unit that stores information, and includes a form data information storage unit 31 and a form search result information storage unit 32.

キーワード抽出部21は、記憶部30に記憶されている全帳票データについて、各帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する。具体的には、キーワード抽出部21は、キーワード入力部11から検索キーワードを含む検索要求を取得すると、後述する帳票データ情報記憶部31から全ての帳票データを読み出す。また、キーワード抽出部21は、読み出した各帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出して、抽出した文字列の描画位置および当該文字列の抽出元の帳票データを見出し候補探索部22に出力する。   The keyword extraction unit 21 extracts a character string including a search keyword from character strings constituting each form data for all the form data stored in the storage unit 30. Specifically, when acquiring a search request including a search keyword from the keyword input unit 11, the keyword extraction unit 21 reads all the form data from a form data information storage unit 31 described later. In addition, the keyword extraction unit 21 extracts a character string including a search keyword from the character strings constituting each read form data, and obtains the drawing position of the extracted character string and the form data from which the character string is extracted. The data is output to the heading candidate search unit 22.

ここで、帳票データ情報記憶部31に記憶される帳票データの構造について図2を参照しながら説明する。図2は、帳票データ情報記憶部31のデータ構造の一例を示す図である。図2に示すように、帳票データ情報記憶部31には、帳票の描画データが帳票ごとに記憶されている。   Here, the structure of the form data stored in the form data information storage unit 31 will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of the data structure of the form data information storage unit 31. As shown in FIG. 2, the form data information storage unit 31 stores form drawing data for each form.

この描画データとは、帳票を構成する各要素の描画属性を指す。例えば、帳票を構成する要素が文字列31cの場合には、当該文字の文字コードとその描画位置、例えば描画座標が描画属性となる。帳票を構成する要素が直線31bの場合には、当該直線の始点および終点の描画位置が描画属性となる。帳票を構成する要素が円弧31dの場合には、当該円弧の中心位置(中心座標)、半径、開始角度および終了角度が描画属性となる。なお、描画位置は、例えば帳票が印刷された紙の左上を原点として、右方向をX座標、下方向をY座標とした場合には、X座標およびY座標から表される2次元座標としても良い。また、帳票が表形式である場合には、描画位置は、行数および列数から表される2次元行列としても良い。   This drawing data refers to the drawing attribute of each element constituting the form. For example, when the element constituting the form is the character string 31c, the character code of the character and the drawing position thereof, for example, the drawing coordinates are the drawing attributes. When the element constituting the form is a straight line 31b, the drawing position of the start point and the end point of the straight line is a drawing attribute. When the element constituting the form is an arc 31d, the center position (center coordinate), radius, start angle, and end angle of the arc are drawing attributes. The drawing position may be a two-dimensional coordinate represented by the X coordinate and the Y coordinate when the upper left corner of the paper on which the form is printed is the origin, the right direction is the X coordinate, and the lower direction is the Y coordinate. good. When the form is in a table format, the drawing position may be a two-dimensional matrix represented by the number of rows and the number of columns.

図2の例では、帳票Aおよび帳票Bの帳票データがそれぞれ記憶され、各帳票データは、帳票を識別するための帳票識別子31aとその帳票の描画データとを含んで構成されている。なお、帳票Aは、後記する図3(A)に記載される帳票であるものとする。   In the example of FIG. 2, form data of form A and form B is stored, and each form data includes a form identifier 31a for identifying the form and drawing data of the form. Note that the form A is a form described in FIG. 3A described later.

図1に戻って、見出し候補探索部22は、帳票データから抽出された、検索キーワードを含む文字列の見出し候補を探索する。具体的には、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置および当該文字列の抽出元の帳票データを取得すると、抽出された文字列の描画位置に基づいて、当該文字列の抽出元の帳票データから当該文字列の見出し候補を探索する。   Returning to FIG. 1, the headline candidate searching unit 22 searches for a headline candidate for a character string including a search keyword extracted from the form data. Specifically, when the headline candidate search unit 22 acquires the drawing position of the character string extracted by the keyword extraction unit 21 and the form data from which the character string is extracted, the heading candidate search unit 22 is based on the drawing position of the extracted character string. The heading candidate of the character string is searched from the form data from which the character string is extracted.

例えば、見出し候補探索部22は、X軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。
また、見出し候補探索部22は、Y軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。
For example, the heading candidate search unit 22 is a character string arranged in the forward direction of the X-axis, and among the character strings that are on the same column as the character string extracted by the keyword extraction unit 21, the extracted character string Other character strings having a drawing position in front of the drawing position are searched for as heading candidates.
In addition, the heading candidate search unit 22 is a character string arranged in the forward direction of the Y-axis, and among the character strings that are on the same column as the character string extracted by the keyword extraction unit 21, the extracted character string Other character strings having a drawing position in front of the drawing position are searched for as heading candidates.

なお、見出し候補探索部22は、表形式である場合には、キーワード抽出部21によって抽出された文字列の描画位置から行方向の最前方に描画位置を持つ他の文字列または列方向の最前方に描画位置を持つ他の文字列を探索して見出し候補としても良い。なお、見出し候補検索部22は、見出し候補の探索方法を、これらに限定するものではない。   In the case of a tabular format, the headline candidate searching unit 22 has another character string having the drawing position in the forefront in the row direction from the drawing position of the character string extracted by the keyword extracting unit 21 or the top in the column direction. Another character string having a drawing position ahead may be searched for as a heading candidate. The headline candidate search unit 22 does not limit the headline candidate search method to these.

ここで、見出し候補探索部22によって行われる見出し候補の探索方法について、図3を参照して説明する。図3は、見出し候補の探索方法を示す図である。(A)では、順方向に配列された文字列のうちX軸(横)方向の前方またはY軸(縦)方向の前方に配列された文字列を探索する方法について説明し、(B)では、帳票が表形式である場合の探索方法について説明する。なお、以降の説明では、検索キーワードは「川崎」であるものとする。   Here, the headline candidate search method performed by the headline candidate search unit 22 will be described with reference to FIG. FIG. 3 is a diagram illustrating a heading candidate search method. (A) explains a method of searching for a character string arranged in the forward direction in the X-axis (horizontal) direction or in the front direction in the Y-axis (vertical) direction among the character strings arranged in the forward direction, and (B). A search method when the form is in a table format will be described. In the following description, it is assumed that the search keyword is “Kawasaki”.

(A)では、見出し候補探索部22は、検索キーワード「川崎」を含む文字列「神奈川県川崎市・・・」の描画位置からX軸(横)方向の前方を探索し、その探索した結果に基づいて「住所」を見出し候補とする。具体的には、見出し候補探索部22は、検索キーワード「川崎」を含む描画データを用いて、検索キーワード「川崎」を含む文字列「神奈川県川崎市・・・」の描画座標のうちY座標の値と同じY座標の値を持ち、且つX軸上の前方座標のX座標の値を持つ文字列「住所」を検索して、見出し候補とする。   In (A), the headline candidate searching unit 22 searches forward in the X-axis (horizontal) direction from the drawing position of the character string “Kawasaki-shi, Kanagawa ...” including the search keyword “Kawasaki”, and the search result Based on the above, “address” is set as a headline candidate. Specifically, the headline candidate searching unit 22 uses the drawing data including the search keyword “Kawasaki” and uses the Y coordinate among the drawing coordinates of the character string “Kawasaki City, Kanagawa ...” including the search keyword “Kawasaki”. A character string “address” having the same Y-coordinate value as the value of X and the X-coordinate value of the forward coordinate on the X-axis is searched for as a heading candidate.

また、検索キーワード「川崎」を含む同じ文字列「神奈川県川崎市・・・」に関して、見出し候補探索部22は、検索キーワード「川崎」を含む文字列の描画位置からY軸(縦)方向の前方を探索し、その探索した結果に基づいて郵便番号を示す「123−4567」を見出し候補とする。具体的には、見出し候補探索部22は、検索キーワード「川崎」を含む描画データを用いて、検索キーワード「川崎」を含む文字列の描画座標のうちX座標の値により近いX座標の値を持ち、且つY軸上の前方座標のY座標の値を持つ文字列(「郵便番号」ではなく「123−4567」)を検索して、見出し候補とする。   Further, for the same character string “Kawasaki City, Kanagawa Prefecture” including the search keyword “Kawasaki”, the heading candidate search unit 22 starts from the drawing position of the character string including the search keyword “Kawasaki” in the Y-axis (vertical) direction. A forward search is performed, and “123-4567” indicating a zip code based on the search result is set as a heading candidate. Specifically, the headline candidate search unit 22 uses the drawing data including the search keyword “Kawasaki” to calculate an X coordinate value closer to the X coordinate value among the drawing coordinates of the character string including the search keyword “Kawasaki”. A character string (“123-4567” instead of “zip code”) having the Y coordinate value of the forward coordinate on the Y axis is searched for as a headline candidate.

(B)では、見出し候補探索部22は、検索キーワード「川崎」を含む文字列「川崎次郎」がある描画位置(セル)から行方向の最前方を探索し、その探索した結果に基づいて項番「3」を見出し候補とする。また、検索キーワード「川崎」を含む同じ文字列「川崎次郎」に関して、見出し候補探索部22は、検索キーワード「川崎」を含む文字列がある描画位置(セル)から列方向の最前方を探索し、その探索した結果に基づいて「氏名」を見出し候補とする。   In (B), the headline candidate search unit 22 searches the forefront in the row direction from the drawing position (cell) where the character string “Jiro Kawasaki” including the search keyword “Kawasaki” is present, and based on the result of the search, The number “3” is set as a heading candidate. For the same character string “Jiro Kawasaki” including the search keyword “Kawasaki”, the heading candidate search unit 22 searches the forefront in the column direction from the drawing position (cell) where the character string including the search keyword “Kawasaki” is present. Based on the search result, “name” is set as a heading candidate.

さらに、見出し候補探索部22は、検索キーワード「川崎」を含む文字列「神奈川県川崎市」がある描画位置(セル)から行方向の最前方を探索し、その探索した結果に基づいて項番「2」を見出し候補とする。また、検索キーワード「川崎」を含む同じ文字列「神奈川県川崎市」に関して、見出し候補探索部22は、検索キーワード「川崎」を含む文字列がある描画位置(セル)から列方向の最前方を探索し、その探索した結果に基づいて「住所」を見出し候補とする。   Further, the heading candidate searching unit 22 searches the forefront in the row direction from the drawing position (cell) having the character string “Kawasaki city, Kanagawa” including the search keyword “Kawasaki”, and the item number is based on the search result. Let “2” be a headline candidate. For the same character string “Kawasaki City, Kanagawa” including the search keyword “Kawasaki”, the heading candidate search unit 22 moves the forefront in the column direction from the drawing position (cell) where the character string including the search keyword “Kawasaki” exists. A search is performed, and “address” is set as a heading candidate based on the search result.

これにより、検索キーワードを含む文字列に対応する見出し候補が限定されることになる。なお、上記の見出し候補の探索方法では、検索キーワードを含む文字列に対応する見出し候補が複数存在する場合もあるが、これ以降の処理によって、さらに検索要求に合致した見出し候補が限定されることになる。   As a result, headline candidates corresponding to the character string including the search keyword are limited. In the above-described heading candidate search method, there may be a plurality of heading candidates corresponding to the character string including the search keyword, but the heading candidates that match the search request are further limited by the subsequent processing. become.

図1に戻って、見出し候補探索部22は、探索した見出し候補と検索キーワードを含む文字列とをこれらの抽出元である帳票データごとに組にして、見出し候補一覧作成部23に出力する。   Returning to FIG. 1, the heading candidate search unit 22 sets the searched heading candidate and the character string including the search keyword for each form data as a source of extraction, and outputs the pair to the heading candidate list creation unit 23.

見出し候補一覧作成部23は、検索キーワードを含む文字列の見出し候補を一覧情報にして出力する。具体的には、見出し候補一覧作成部23は、見出し候補探索部22から帳票データごとに組にされた見出し候補と検索キーワードを含む文字列とを取得すると、帳票データの帳票識別子、見出し候補および検索キーワードを含む文字列を1つの一覧とした見出し候補一覧表を作成する。   The heading candidate list creation unit 23 outputs the heading candidates of the character string including the search keyword as list information. Specifically, when the heading candidate list creation unit 23 obtains a heading candidate grouped for each form data from the heading candidate search unit 22 and a character string including a search keyword, the form identifier of the form data, the heading candidate, A heading candidate list in which character strings including the search keywords are included in one list is created.

また、見出し候補一覧作成部23は、ユーザが検索要求に合致した見出しを選択できるように、見出し候補一覧表を見出し候補ごとにチェック欄を設けた見出し候補情報に編集する。さらに、見出し候補一覧作成部23は、編集した見出し候補情報を出力部40に出力するとともに、見出し候補情報の編集元である見出し候補一覧表を帳票検索部24に出力する。   Further, the heading candidate list creation unit 23 edits the heading candidate list into heading candidate information provided with a check column for each heading candidate so that the user can select a heading that matches the search request. Further, the heading candidate list creation unit 23 outputs the edited heading candidate information to the output unit 40 and outputs the heading candidate list that is the editing source of the heading candidate information to the form search unit 24.

ここで、見出し候補一覧作成部23によって編集される見出し候補情報の例について、図4を参照して説明する。図4は、見出し候補情報の例を示す図である。なお、以降の説明では、検索キーワードに「川崎」が含まれる帳票から探索された見出し候補に関わる見出し候補情報であるものとする。   Here, an example of the heading candidate information edited by the heading candidate list creation unit 23 will be described with reference to FIG. FIG. 4 is a diagram illustrating an example of heading candidate information. In the following description, it is assumed that the heading candidate information is related to a heading candidate searched from a form including “Kawasaki” in the search keyword.

図4の例では、帳票A、帳票Bおよび帳票Cに検索キーワード「川崎」が含まれている。そして、検索キーワード「川崎」の見出し候補として、帳票Aでは「住所」が探索され、帳票Bでは「氏名」が探索され、帳票Cでは「住所」と「平成」とが探索されている。   In the example of FIG. 4, the search keyword “Kawasaki” is included in the form A, the form B, and the form C. As a candidate for the search keyword “Kawasaki”, “address” is searched for in form A, “name” is searched for in form B, and “address” and “Heisei” are searched in form C.

このような状況下において、見出し候補一覧作成部23は、帳票Aに関して、見出し候補「住所」と検索キーワードを含む文字列「神奈川県川崎市・・・」とを見出し候補一覧表に追加する。また、見出し候補一覧作成部23は、帳票Bに関して、見出し候補「氏名」と検索キーワードを含む文字列「川崎次郎」とを見出し候補一覧表に追加する。さらに、見出し候補一覧作成部23は、帳票Cに関して、見出し候補「住所」および「平成」と検索キーワードを含む文字列「川崎市中原区・・・」とを見出し候補一覧表に追加する。   Under such circumstances, the headline candidate list creating unit 23 adds a headline candidate “address” and a character string “Kawasaki City, Kanagawa,... In addition, the heading candidate list creation unit 23 adds the heading candidate “name” and the character string “Jiro Kawasaki” including the search keyword to the heading candidate list for the form B. Further, the heading candidate list creating unit 23 adds the heading candidates “address” and “Heisei” and the character string “Nakahara-ku, Kawasaki-shi ...” including the search keyword to the heading candidate list for the form C.

そして、見出し候補一覧作成部23は、見出し候補一覧表を編集して、見出し候補ごとにチェック欄を設けた見出し候補情報23aを作成する。見出し候補情報23aには、検索キーワード「川崎」を持つ帳票の数(3件)が含まれ、見出し候補ごとに検索キーワード「川崎」が探索された帳票の件数が含まれている。なお、見出し候補情報23aは、検索キーワード「川崎」を含む文字列の見出し候補が探索されなかった場合には、「見出し不明」とする見出し候補を含んでも良い。   Then, the heading candidate list creation unit 23 edits the heading candidate list, and creates heading candidate information 23a in which a check column is provided for each heading candidate. The heading candidate information 23a includes the number of forms having the search keyword “Kawasaki” (three), and the number of forms in which the search keyword “Kawasaki” has been searched for each heading candidate. The heading candidate information 23a may include a heading candidate of “heading unknown” when a heading candidate of a character string including the search keyword “Kawasaki” is not searched.

これにより、見出し候補情報23aが、後述する出力部40によって出力されると、検索キーワード「川崎」に対応する見出し候補を、ユーザによって確認させることができる。   Thereby, when the heading candidate information 23a is output by the output unit 40 described later, the heading candidate corresponding to the search keyword “Kawasaki” can be confirmed by the user.

また、見出し候補情報の変形例について、図5を参照して説明する。図5は、見出し候補情報の変形例を示す図である。図5に示すように、見出し候補情報23bには、見出し候補とともに、当該見出し候補が存在する帳票データの縮小画像(サムネイル)が含まれている。   A modification of the heading candidate information will be described with reference to FIG. FIG. 5 is a diagram illustrating a modification of the heading candidate information. As shown in FIG. 5, the heading candidate information 23b includes a headline candidate and a reduced image (thumbnail) of the form data in which the heading candidate exists.

これにより、仮にユーザが、「住所に川崎を含む帳票」であったか「氏名に川崎を含む帳票」であったかを忘れてしまった場合であっても、見出し候補情報23bが後述する出力部40によって出力されると、どちらの場合であったかを想起させることができ、素早く検索要求に合致した見出し候補を確認することができる。   As a result, even if the user forgets whether “the form includes Kawasaki in the address” or “the form includes Kawasaki in the name”, the heading candidate information 23b is output by the output unit 40 described later. When this is done, it can be recalled which case it was, and headline candidates that match the search request can be quickly confirmed.

帳票検索部24は、見出し候補に対応する帳票を検索する。具体的には、帳票検索部24は、見出し選択部12から見出し候補を取得すると、見出し候補一覧作成部23から出力された見出し候補一覧表の中から当該見出し候補に対応する全帳票識別子を抽出する。また、帳票検索部24は、抽出した全帳票識別子に対応する各帳票データを帳票データ情報記憶部31から検索する。さらに、帳票検索部24は、検索した各帳票データを纏めて検索結果として帳票検索結果情報記憶部32に格納する。これにより、ユーザは、自己の検索要求に合致した帳票を見つけることができたことになる。   The form search unit 24 searches for a form corresponding to the heading candidate. Specifically, when the form search unit 24 obtains a heading candidate from the heading selection unit 12, it extracts all form identifiers corresponding to the heading candidate from the heading candidate list output from the heading candidate list creation unit 23. To do. In addition, the form search unit 24 searches the form data information storage unit 31 for each form data corresponding to the extracted all form identifiers. Further, the form search unit 24 collects each searched form data and stores it in the form search result information storage unit 32 as a search result. As a result, the user can find a form that matches his search request.

出力部40は、見出し候補情報を表示出力する。具体的には、出力部40は、見出し候補一覧作成部23から見出し候補情報を取得すると、取得した見出し候補情報を、モニターに表示出力する。これにより、ユーザは、自己の検索要求に合致した見出し候補を確認することができ、仮に誤った見出し候補があったとしても、正しい見出し候補を選択することによって、自己の検索要求に合致した帳票を検索することができる。   The output unit 40 displays and outputs the headline candidate information. Specifically, when acquiring the heading candidate information from the heading candidate list creation unit 23, the output unit 40 displays and outputs the acquired heading candidate information on the monitor. As a result, the user can check the heading candidate that matches the search request, and even if there is an incorrect heading candidate, by selecting the correct heading candidate, the form that matches the search request. Can be searched.

ここで、モニターに表示出力された見出し候補情報からユーザによって見出し候補が選択された結果を、図6を参照して説明する。図6は、ユーザによって見出し候補が選択された結果を示す図である。なお、見出し候補情報は、検索キーワードが「川崎」である場合であるものとする。   Here, the result of the headline candidate being selected by the user from the headline candidate information displayed and output on the monitor will be described with reference to FIG. FIG. 6 is a diagram illustrating a result of selecting a headline candidate by the user. The heading candidate information is assumed to be a case where the search keyword is “Kawasaki”.

図6の例では、見出し候補情報には、検索キーワード「川崎」を含む帳票が3件存在していることが示されている。そして、それらの帳票には、検索キーワード「川崎」を含む文字列の見出し候補として、「見出し不明」以外に「住所」、「氏名」および「平成」が探索されたことが示されている。ここで、ユーザの検索要求が「住所に川崎を含む帳票の検索」である場合、ユーザは見出し候補「住所」をチェックすることにより自己の検索要求に合致した見出し候補を選択する。   In the example of FIG. 6, the heading candidate information indicates that there are three forms including the search keyword “Kawasaki”. These forms indicate that “address”, “name”, and “Heisei” have been searched for in addition to “heading unknown” as the heading candidates for the character string including the search keyword “Kawasaki”. Here, when the user's search request is “search for a form including Kawasaki in the address”, the user selects a headline candidate that matches the search request by checking the headline candidate “address”.

これにより、ユーザは、仮に検索キーワードに対して複数の見出し候補が探索されたとしても、自己の検索要求に合致した見出し候補を限定して、自己の検索要求に合致した帳票に関する「項目限定検索」を行うことができる。   As a result, even if a plurality of headline candidates are searched for the search keyword, the user restricts headline candidates that match the search request of the user and performs “item limited search” regarding the form that matches the search request. "It can be performed.

ところで、見出し候補探索部22が検索キーワードを含む文字列の見出し候補を複数の帳票から探索するとき、見出しとしては不適当な文字列を誤って見出し候補として探索する場合がある。このような場合であっても、誤って見出し候補として探索された文字列がユーザの検索要求に合致した帳票に含まれていることが認識されるものであれば、当該文字列を見出し候補とみなしても良い。   By the way, when the heading candidate search unit 22 searches for a heading candidate of a character string including a search keyword from a plurality of forms, a character string inappropriate as a heading may be erroneously searched as a heading candidate. Even in such a case, if it is recognized that the character string erroneously searched as a headline candidate is included in the form that matches the user's search request, the character string is regarded as a headline candidate. You may consider it.

例えば、図7は、見出し候補の探索に誤りが生じた場合の例を示す図である。なお、図7の例では、検索キーワードが「川崎」である場合であるものとする。図7に示すように、帳票Aでは、見出し候補探索部22が、検索キーワード「川崎」の見出し候補として、誤って「神奈川県」を探索している。この場合に、見出し候補情報には、本来見出しとしては不適当である「神奈川県」が見出し候補として含まれることになる。   For example, FIG. 7 is a diagram illustrating an example when an error occurs in the search for a heading candidate. In the example of FIG. 7, it is assumed that the search keyword is “Kawasaki”. As shown in FIG. 7, in the form A, the heading candidate search unit 22 erroneously searches for “Kanagawa Prefecture” as a heading candidate for the search keyword “Kawasaki”. In this case, the headline candidate information includes “Kanagawa Prefecture”, which is originally inappropriate as a headline, as a headline candidate.

しかし、「神奈川県」が本来見出しとして適切な「住所」に属する文字列であることがユーザによって認識される場合には、「神奈川県」を見出し候補とみなしても良い。その結果、ユーザが、見出し候補「神奈川県」を選択することにより、ユーザ自身の検索要求に合致した帳票を検索することができる。   However, in the case where the user recognizes that “Kanagawa Prefecture” is a character string that originally belongs to an “address” appropriate as a headline, “Kanagawa Prefecture” may be regarded as a headline candidate. As a result, the user can search for a form that matches the user's own search request by selecting the headline candidate “Kanagawa”.

次に、実施例1に係る帳票検索装置1の処理手順を、図8を参照して説明する。図8は、実施例1に係る帳票検索装置の処理手順を示すフローチャートである。   Next, a processing procedure of the form retrieval apparatus 1 according to the first embodiment will be described with reference to FIG. FIG. 8 is a flowchart illustrating the processing procedure of the form search apparatus according to the first embodiment.

まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出すると(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。   First, when the keyword input unit 11 detects a search request including a search keyword input by the user (step S11), the keyword input unit 11 outputs the detected search keyword to the keyword extraction unit 21.

次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票データを選択する(ステップS12)。   Next, the keyword extraction unit 21 reads all the form data from the form data information storage unit 31, and selects one form data from all the read form data (step S12).

そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。   Then, the keyword extracting unit 21 extracts a character string including the search keyword from the character strings constituting the selected form data (step S13).

さらに、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。例えば、見出し候補探索部22は、X軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。また、見出し候補探索部22は、Y軸の順方向に配列された文字列であってキーワード抽出部21によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に描画位置を持つ他の文字列を探索して見出し候補とする。なお、見出し候補探索部22は、見出し候補の探索方法を、これに限定するものではない。   Further, based on the drawing position of the character string extracted by the keyword extracting unit 21, the headline candidate searching unit 22 searches the form data for a headline candidate corresponding to the character string (step S14). For example, the heading candidate search unit 22 is a character string arranged in the forward direction of the X-axis, and among the character strings that are on the same column as the character string extracted by the keyword extraction unit 21, the extracted character string Other character strings having a drawing position in front of the drawing position are searched for as heading candidates. In addition, the heading candidate search unit 22 is a character string arranged in the forward direction of the Y-axis, and among the character strings that are on the same column as the character string extracted by the keyword extraction unit 21, the extracted character string Other character strings having a drawing position in front of the drawing position are searched for as heading candidates. The headline candidate search unit 22 does not limit the headline candidate search method to this.

その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。   Thereafter, the heading candidate search unit 22 determines whether or not all the form data has been processed (step S15). If the headline candidate search unit 22 has not processed all the form data (No in step S15), the process proceeds to step S12 in order to process unprocessed form data.

一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。   On the other hand, if the headline candidate search unit 22 has processed all the form data (step S15 Yes), the headline candidate list creation unit 23 creates list information of the headline candidates searched from all the form data, A display is output to the output unit 40 (step S16).

具体的には、見出し候補一覧作成部23は、帳票データの帳票識別子と見出し候補と検索キーワードを含む文字列とを一覧にした見出し候補一覧表を、見出し候補ごとにチェック欄を設けた見出し候補情報に編集し、編集した見出し候補情報を出力部40に表示出力する。   Specifically, the heading candidate list creation unit 23 creates a heading candidate list in which form identifiers of the form data, heading candidates, and character strings including search keywords are listed, and a heading candidate having a check column for each heading candidate. The information is edited into information, and the edited heading candidate information is displayed and output on the output unit 40.

引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。   Subsequently, the headline selection unit 12 detects the headline candidate selected from the headline candidate information (step S17), and outputs it to the form search unit 24.

そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。   Then, the form retrieval unit 24 extracts the form identifier corresponding to the heading candidate acquired from the heading selection unit 12 from the heading candidate list created by the heading candidate list creation unit 23. Then, the form search unit 24 searches the form data information storage unit 31 for form data corresponding to the extracted form identifier, and stores the searched form data in the form search result information storage unit 32 as a search result. (Step S18).

以上のように本実施例1によれば、帳票検索装置1は、帳票データ内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する。そして、帳票検索装置1は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置1は、探索された見出し候補と当該見出し候補に対応する文字列とを帳票データごとに対応付けた見出し候補情報を生成し、生成された見出し候補情報を表示出力する。さらに、帳票検索装置1は、表示出力された見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票データを、帳票データ情報記憶部31から検索する。   As described above, according to the first embodiment, the form retrieval apparatus 1 includes the form data information storage unit 31 that stores a plurality of character strings in the form data and the drawing positions of the character strings for each form. From a character string in each form data stored in the data information storage unit 31, a character string including a search keyword that forms a part of a condition for searching for a form and a drawing position of the character string are extracted. Then, the form search device 1 searches for headline candidates corresponding to the character string from the form data from which the character string is extracted based on the drawing position of the extracted character string. Then, the form retrieval apparatus 1 generates heading candidate information in which the searched heading candidate and a character string corresponding to the heading candidate are associated with each other for the form data, and displays and outputs the generated heading candidate information. Further, the form search device 1 searches the form data information storage unit 31 for form data including a character string related to a headline candidate selected by a predetermined operation from among the displayed headline candidate information.

かかる構成によれば、帳票検索装置1は、帳票データ内の複数の文字列に対して見出しの文字列とこれに対応する文字列との関係を示す項目定義情報がなくても、検索要求に合致した帳票データを検索することができ、事前に項目定義情報を生成する手間がかからないという効果がある。特に、帳票データには、例えば「住所」、「お住まい」等の表記に揺れのある見出しが一般的に多数存在するため、これらを事前に項目定義情報に定義する手間がなくなり、事前に行うべき作業が軽減される。   According to such a configuration, the form retrieval apparatus 1 makes a search request even if there is no item definition information indicating the relationship between the character string of the heading and the character string corresponding to the plurality of character strings in the form data. The matched form data can be searched, and there is an effect that it does not take time to generate item definition information in advance. In particular, in the form data, for example, there are generally a large number of headlines that are swayed in the notation such as “address”, “home”, etc., so there is no need to define these items in the item definition information in advance, and this is done in advance. Work to be reduced.

また、帳票検索装置1は、検索キーワードに対応する見出し候補の探索を、仮に誤った場合であっても、検索要求に合致した見出し候補を1度選択させるだけで、検索要求に合致した帳票を検索することができ、事前に項目定義情報を生成する場合と比較して、格段に作業を軽減できるだけでなく、帳票の検索精度を向上させることができる。   In addition, even if the search for the headline candidate corresponding to the search keyword is wrong, the form search device 1 selects a headline candidate that matches the search request once, and selects a form that matches the search request. Compared with the case where the item definition information is generated in advance, not only can the work be remarkably reduced, but also the search accuracy of the form can be improved.

さらに、帳票検索装置1は、項目定義情報を用いて、検索要求どおりの見出しの文字列を探索するか否か、さらに探索要求どおりの帳票を検索するか否かを、事前に確認する手間がなくなるため、事前に行うべき作業を軽減できる。   Furthermore, the form retrieval apparatus 1 uses the item definition information to find out in advance whether or not to search for a headline character string as requested by the search request and whether or not to retrieve a form as requested by the search request. This eliminates the work that needs to be done in advance.

ところで、上記の実施例1では、帳票検索装置1は、検索キーワードに対応する見出し候補が帳票に存在する場合に、検索キーワードに対応する見出し候補を探索する場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置2は、検索キーワードに対応する見出し候補が帳票に存在しない場合であっても、検索キーワードに対応する仮想的な見出し候補を推定しても良い。   By the way, in the first embodiment, the case where the form search apparatus 1 searches for a headline candidate corresponding to the search keyword when the headline candidate corresponding to the search keyword exists in the form has been described. The present invention is not limited to this, and the form search device 2 estimates a virtual headline candidate corresponding to the search keyword even if the headline candidate corresponding to the search keyword does not exist in the form. Also good.

そこで、実施例2では、帳票検索装置2が、検索キーワードに対応する見出し候補が帳票に存在しない場合であっても、検索キーワードに対応する仮想的な見出し候補を推定する場合を説明する。   Therefore, in the second embodiment, a case will be described in which the form search device 2 estimates a virtual headline candidate corresponding to a search keyword even when the headline candidate corresponding to the search keyword does not exist in the form.

まず、実施例2に係る帳票検索装置2の構成について図9を参照しながら説明する。図9は、実施例2に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例2とが異なるところは、制御部20に見出し候補推定部41を追加した点にある。   First, the configuration of the form retrieval apparatus 2 according to the second embodiment will be described with reference to FIG. FIG. 9 is a functional block diagram illustrating the configuration of the form search apparatus according to the second embodiment. Note that the same components as those in the form retrieval apparatus 1 shown in FIG. 1 are denoted by the same reference numerals, and the description of the overlapping configuration and operation is omitted. The difference between the first embodiment and the second embodiment is that a heading candidate estimation unit 41 is added to the control unit 20.

見出し候補推定部41は、帳票データから抽出された検索キーワードを含む文字列の見出し候補が存在しない場合に、当該文字列に対応する仮想的な見出し候補を推定する。具体的には、見出し候補推定部41は、文字列の描画位置と仮想的な見出し候補との関係があらかじめ定義された関係表を用いて、見出し候補探索部22から取得された検索キーワードを含む文字列の描画位置に対応する見出し候補を推定する。   The heading candidate estimation unit 41 estimates a virtual heading candidate corresponding to the character string when there is no heading candidate for the character string including the search keyword extracted from the form data. Specifically, the headline candidate estimation unit 41 includes a search keyword acquired from the headline candidate search unit 22 using a relation table in which a relationship between a character string drawing position and a virtual headline candidate is defined in advance. A heading candidate corresponding to the drawing position of the character string is estimated.

例えば、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票のX軸(横)方向の中心且つY軸(縦)方向の最前方である場合には、「帳票タイトル」を見出し候補と推定する。また、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票のX軸(横)方向の後方且つY軸(縦)方向の前方である場合には、「帳票発行元」を見出し候補と推定する。さらに、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票のY軸(縦)方向の最後方である場合には、「帳票通し番号」を見出し候補と推定する。   For example, if the drawing position of the character string including the search keyword is the center in the X-axis (horizontal) direction and the forefront in the Y-axis (vertical) direction, the headline candidate estimation unit 41 selects “form title”. Presumed to be a headline candidate. Further, the headline candidate estimation unit 41 selects “form issuer” when the drawing position of the character string including the search keyword is behind the X axis (horizontal) direction and forward of the Y axis (vertical) direction of the form. Presumed to be a headline candidate. Further, the headline candidate estimation unit 41 estimates “form serial number” as a headline candidate when the drawing position of the character string including the search keyword is the last position in the Y-axis (vertical) direction of the form.

また別の例として、見出し候補推定部41は、検索キーワードを含む文字列の描画位置が帳票の縦方向(Y軸)の前方1/4にあり、且つ、当該文字列のフォントが帳票を構成する他の文字列のフォントより大きいものである場合には、「帳票タイトル」を見出し候補と推定する。   As another example, the headline candidate estimation unit 41 has the drawing position of the character string including the search keyword at the front 1/4 in the vertical direction (Y axis) of the form, and the font of the character string forms the form. If it is larger than the font of the other character string, the “form title” is estimated as a heading candidate.

また、見出し候補推定部41は、検索キーワードを含む文字列の描画位置に基づいて、当該文字列の仮想的な見出し候補が推定できない場合には、「見出し不明」を見出し候補と推定する。   In addition, based on the drawing position of the character string including the search keyword, the heading candidate estimation unit 41 estimates “heading unknown” as a heading candidate when a virtual heading candidate of the character string cannot be estimated.

また、見出し候補探索部41は、推定した見出し候補と検索キーワードを含む文字列とを検索キーワードの抽出元である帳票データごとに組にして、見出し候補一覧作成部23に出力する。   Further, the heading candidate search unit 41 sets the estimated heading candidate and the character string including the search keyword for each form data from which the search keyword is extracted, and outputs the set to the heading candidate list creation unit 23.

次に、実施例2に係る帳票検索装置2の処理手順を、図10を参照して説明する。図10は、実施例2に係る帳票検索装置2の処理手順を示すフローチャートである。なお、図10において、実施例1に係る帳票検索装置1の処理手順(図8)と同じ部分には同じ符号を付し、詳しい説明を省略する。   Next, the processing procedure of the form retrieval apparatus 2 according to the second embodiment will be described with reference to FIG. FIG. 10 is a flowchart illustrating the processing procedure of the form search apparatus 2 according to the second embodiment. In FIG. 10, the same parts as those in the processing procedure (FIG. 8) of the form search apparatus 1 according to the first embodiment are denoted by the same reference numerals and detailed description thereof is omitted.

まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出すると(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。   First, when the keyword input unit 11 detects a search request including a search keyword input by the user (step S11), the keyword input unit 11 outputs the detected search keyword to the keyword extraction unit 21.

次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票データを選択する(ステップS12)。   Next, the keyword extraction unit 21 reads all the form data from the form data information storage unit 31, and selects one form data from all the read form data (step S12).

そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。   Then, the keyword extracting unit 21 extracts a character string including the search keyword from the character strings constituting the selected form data (step S13).

さらに、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。   Further, based on the drawing position of the character string extracted by the keyword extracting unit 21, the headline candidate searching unit 22 searches the form data for a headline candidate corresponding to the character string (step S14).

そして、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の見出し候補が存在したか否かを判定する(ステップS21)。見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の見出し候補が存在すると判定する場合には(ステップS21Yes)、ステップS15に遷移する。   Then, the headline candidate search unit 22 determines whether there is a headline candidate for the character string extracted by the keyword extraction unit 21 (step S21). If the headline candidate search unit 22 determines that there is a headline candidate for the character string extracted by the keyword extraction unit 21 (Yes in step S21), the process proceeds to step S15.

一方、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の見出し候補が存在しないと判定する場合には(ステップS21No)、見出し候補推定部41が当該文字列の見出し候補を推定する(ステップS22)。   On the other hand, when the headline candidate search unit 22 determines that there is no headline candidate for the character string extracted by the keyword extraction unit 21 (No in step S21), the headline candidate estimation unit 41 estimates the headline candidate for the character string. (Step S22).

具体的には、見出し候補推定部41は、文字列の描画位置と仮想的な見出し候補との関係があらかじめ定義された関係表を用いて、キーワード抽出部21によって抽出された文字列の描画位置に対応する見出し候補を推定する。   Specifically, the headline candidate estimation unit 41 uses the relation table in which the relationship between the character string drawing position and the virtual heading candidate is defined in advance, and the character string drawing position extracted by the keyword extraction unit 21. The heading candidate corresponding to is estimated.

例えば、見出し候補推定部41は、キーワード抽出部21によって抽出された文字列の描画位置が帳票のX軸(横)方向の中心且つY軸(縦)方向の最前方である場合には、「帳票タイトル」を見出し候補と推定する。また、見出し候補推定部41は、キーワード抽出部21によって抽出された文字列の描画位置が帳票のX軸(横)方向の後方且つY軸(縦)方向の前方である場合には、「帳票発行元」を見出し候補と推定する。さらに、見出し候補推定部41は、キーワード抽出部21によって抽出された文字列の描画位置が帳票のY軸(縦)方向の最後方である場合には、「帳票通し番号」を見出し候補と推定する。なお、見出し候補推定部41は、見出し候補の推定方法を、これらに限定するものではない。   For example, when the drawing position of the character string extracted by the keyword extracting unit 21 is the center in the X-axis (horizontal) direction and the forefront in the Y-axis (vertical) direction of the form, The “form title” is estimated as a headline candidate. In addition, the headline candidate estimation unit 41 determines that “form” is used when the drawing position of the character string extracted by the keyword extraction unit 21 is behind the X axis (horizontal) direction and forward of the Y axis (vertical) direction. "Publisher" is estimated as a headline candidate. Further, the headline candidate estimation unit 41 estimates “form serial number” as a headline candidate when the drawing position of the character string extracted by the keyword extraction unit 21 is the last position in the Y-axis (vertical) direction of the form. . The headline candidate estimation unit 41 is not limited to the headline candidate estimation method.

その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。   Thereafter, the heading candidate search unit 22 determines whether or not all the form data has been processed (step S15). If the headline candidate search unit 22 has not processed all the form data (No in step S15), the process proceeds to step S12 in order to process unprocessed form data.

一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。   On the other hand, if the headline candidate search unit 22 has processed all the form data (step S15 Yes), the headline candidate list creation unit 23 creates list information of the headline candidates searched from all the form data, A display is output to the output unit 40 (step S16).

具体的には、見出し候補一覧作成部23は、帳票データの帳票識別子、見出し候補および検索キーワードを含む文字列を一覧にした見出し候補一覧表を、見出し候補ごとにチェック欄を設けた見出し候補情報に編集し、編集した見出し候補情報を出力部40に表示出力する。   Specifically, the heading candidate list creation unit 23 displays a heading candidate list in which character strings including form identifiers, heading candidates, and search keywords of the form data are listed, and heading candidate information including a check column for each heading candidate. The edited heading candidate information is displayed and output to the output unit 40.

引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。   Subsequently, the headline selection unit 12 detects the headline candidate selected from the headline candidate information (step S17), and outputs it to the form search unit 24.

そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。   Then, the form retrieval unit 24 extracts the form identifier corresponding to the heading candidate acquired from the heading selection unit 12 from the heading candidate list created by the heading candidate list creation unit 23. Then, the form search unit 24 searches the form data information storage unit 31 for form data corresponding to the extracted form identifier, and stores the searched form data in the form search result information storage unit 32 as a search result. (Step S18).

以上のように本実施例2によれば、帳票検索装置2は、帳票データ内の複数の文字列およびその文字列の描画位置を帳票データごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置2は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。このとき、帳票検索装置2は、見出し候補が探索できなかった場合には、当該文字列に対応する仮想的な見出し候補を推定する。そして、帳票検索装置2は、探索または推定された見出し候補と当該見出し候補に対応する文字列とを帳票データごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を表示出力する。さらに、帳票検索装置1は、出力された見出し候補情報の中から所定の操作によって選択された見出し候補に対応付けられた文字列を含む帳票データを、情報データ情報31から検索する。   As described above, according to the second embodiment, the form search device 2 includes the form data information storage unit 31 that stores a plurality of character strings in the form data and the drawing positions of the character strings for each form data. A character string including a search keyword that forms a part of a condition for searching for a form is extracted from character strings in each form data stored in the form data information storage unit 31. Then, the form search device 2 searches for a headline candidate corresponding to the character string from the form data from which the character string is extracted based on the drawing position of the extracted character string. At this time, when the headline candidate cannot be searched, the form search device 2 estimates a virtual headline candidate corresponding to the character string. Then, the form search device 2 generates heading candidate information that associates the searched or estimated heading candidate and the character string corresponding to the heading candidate for each form data, and displays and outputs the generated heading candidate information. Further, the form search device 1 searches the information data information 31 for form data including a character string associated with a heading candidate selected by a predetermined operation from the output heading candidate information.

かかる構成によれば、帳票検索装置2は、帳票データに、検索キーワードに対応する見出し候補が存在しない場合であっても、仮想的な見出し候補を推定するため、見出し候補が存在する場合と同様に帳票検索処理を実行することができ、検索要求に合致した帳票を漏れがなく検索することができる。   According to such a configuration, the form retrieval apparatus 2 estimates a virtual headline candidate even when there is no headline candidate corresponding to the search keyword in the form data. Thus, the form search process can be executed, and the form that matches the search request can be searched without omission.

ところで、上記の実施例1では、帳票検索装置1は、検索キーワードを含む文字列の見出し候補を探索した結果、探索に失敗した見出し候補がある場合であっても正しい見出し候補に訂正しない場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置3は、検索キーワードを含む文字列の見出し候補を探索した結果、探索に失敗した見出し候補がある場合には正しい見出し候補に訂正しても良い。   By the way, in the first embodiment described above, the form retrieval apparatus 1 searches the character string heading candidate including the search keyword and, as a result, does not correct the heading candidate even if there is a heading candidate that has failed in the search. explained. The present invention is not limited to this, and the form retrieval apparatus 3 corrects the headline candidate that has failed in the search as a correct headline candidate as a result of searching for the headline candidate of the character string including the search keyword. Also good.

そこで、実施例3では、帳票検索装置3が、検索キーワードを含む文字列の見出し候補を探索した結果、探索に失敗した見出し候補がある場合には正しい見出し候補に訂正する場合を説明する。   Therefore, in the third embodiment, a case will be described in which the form search device 3 corrects a headline candidate that has failed to be searched as a result of searching for a headline candidate of a character string including the search keyword.

まず、実施例3に係る帳票検索装置3の構成について図11を参照しながら説明する。図11は、実施例3に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例3とが異なるところは、入力部10に見出し訂正部51、制御部20に見出し訂正情報作成部52および記憶部30に見出し訂正情報記憶部53を追加した点にある。   First, the configuration of the form retrieval apparatus 3 according to the third embodiment will be described with reference to FIG. FIG. 11 is a functional block diagram illustrating the configuration of the form search apparatus according to the third embodiment. Note that the same components as those in the form retrieval apparatus 1 shown in FIG. 1 are denoted by the same reference numerals, and the description of the overlapping configuration and operation is omitted. The difference between the first embodiment and the third embodiment is that a headline correction unit 51 is added to the input unit 10, a headline correction information creation unit 52 is added to the control unit 20, and a headline correction information storage unit 53 is added to the storage unit 30.

見出し訂正部51は、出力部40によって表示出力された見出し候補情報のうち探索に失敗した見出し候補を訂正するために、当該見出し候補に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を検出して、見出し訂正情報作成部52に出力する。   The headline correction unit 51 corrects a headline candidate that has failed to be searched out of the headline candidate information displayed and output by the output unit 40, to a plurality of drawing positions related to the headline candidate and a character string corresponding to the headline candidate. A plurality of related drawing positions are detected and output to the headline correction information creation unit 52.

具体的には、見出し訂正部51は、出力部40によって表示出力された見出し候補情報の中から、ユーザによって選択された、探索に失敗した見出し候補を検出する。そして、見出し訂正部51は、検出した見出し候補に関する帳票を出力部40に表示出力させるために、当該見出し候補を見出し訂正情報作成部52に出力する。また、見出し訂正部51は、出力部40によって表示出力された帳票からユーザによって選択された、正しい見出し候補および当該見出し候補に対応する文字列それぞれのデータ領域の矩形情報を検出して、見出し訂正情報作成部52に出力する。なお、矩形情報とは、データ領域を矩形としたときの当該矩形の頂点の描画位置を指すものとする。   Specifically, the headline correction unit 51 detects a headline candidate selected by the user and failed in the search from the headline candidate information displayed and output by the output unit 40. Then, the headline correction unit 51 outputs the headline candidate to the headline correction information creation unit 52 in order to cause the output unit 40 to display and output a form related to the detected headline candidate. Further, the headline correction unit 51 detects the rectangular information in the data area of each of the correct headline candidate and the character string corresponding to the headline candidate selected by the user from the form displayed and output by the output unit 40 to correct the headline. The data is output to the information creation unit 52. The rectangle information refers to the drawing position of the vertex of the rectangle when the data area is a rectangle.

ここで、出力部40に出力された見出し候補情報23dからユーザによって見出しが訂正される場合を、図12を参照して説明する。図12は、ユーザによって見出し訂正される場合を示す図である。なお、見出し候補情報23dは、検索キーワードが「川崎」である場合であるものとする。   Here, a case where the headline is corrected by the user from the headline candidate information 23d output to the output unit 40 will be described with reference to FIG. FIG. 12 is a diagram illustrating a case where the headline is corrected by the user. The heading candidate information 23d is assumed to be a case where the search keyword is “Kawasaki”.

図12の例では、帳票Aでは、検索キーワード「川崎」の見出し候補として、本来見出し候補として不適当である「神奈川県」が誤って探索されている。この場合に、ユーザは、誤って探索された見出し候補を含む「神奈川県 1件」(d1)を選択(例えばクリック)する。   In the example of FIG. 12, in the form A, “Kanagawa Prefecture”, which is originally inappropriate as a heading candidate, is erroneously searched as a heading candidate for the search keyword “Kawasaki”. In this case, the user selects (for example, clicks) “Kanagawa prefecture 1 case” (d1) including the headline candidate searched by mistake.

すると、選択された見出し候補とそれに対応する文字列とを含む帳票Aが、モニターに表示出力される。そして、ユーザは、モニターに表示出力された帳票A上に配置されている文字列「神奈川県川崎市中原区・・・」(d3)およびそれに対応する正しい見出し候補「住所」(d2)のそれぞれのデータ領域を指定する。例えば、ユーザは、マウスクリックによって、各文字列を含む矩形の左上と右下の頂点を指定する。   Then, the form A including the selected headline candidate and the corresponding character string is displayed and output on the monitor. Then, the user selects each of the character string “Nakahara-ku, Kawasaki-shi, Kanagawa Prefecture” (d3) and the corresponding correct heading candidate “address” (d2) arranged on the form A displayed and output on the monitor. Specify the data area. For example, the user designates the upper left and lower right vertices of a rectangle including each character string by clicking the mouse.

図11に戻って、見出し候補一覧作成部23は、ユーザが検索要求に合致した見出しを選択できるように見出し候補一覧表を編集した見出し候補情報を出力部40に表示出力するとともに、見出し候補一覧表を見出し訂正情報作成部52および帳票検索部24に出力する。   Returning to FIG. 11, the heading candidate list creation unit 23 displays and outputs heading candidate information obtained by editing the heading candidate list so that the user can select a heading that matches the search request, and outputs the heading candidate list. The table is output to the headline correction information creation unit 52 and the form search unit 24.

見出し訂正情報作成部52は、探索に失敗した見出し候補に対応する帳票を出力部40に表示出力する。具体的には、見出し訂正情報作成部52は、見出し訂正部51によって探索に失敗した見出し候補を取得すると、当該見出し候補に対応する帳票データの帳票識別子を見出し候補一覧表から抽出して、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索する。また、見出し訂正情報作成部52は、検索された帳票データに含まれた各描画データに基づいて展開させた帳票を出力部40に表示出力する。   The headline correction information creation unit 52 displays and outputs on the output unit 40 a form corresponding to the headline candidate for which the search has failed. Specifically, when the headline correction information creation unit 52 acquires a headline candidate that has failed to be searched by the headline correction unit 51, the headline correction information generation unit 52 extracts and extracts the form identifier of the form data corresponding to the heading candidate from the headline candidate list. The form data information storage unit 31 is searched for form data corresponding to the form identifier. Further, the headline correction information creation unit 52 displays and outputs a form developed based on each drawing data included in the retrieved form data on the output unit 40.

また、見出し訂正情報作成部52は、正しい見出し候補およびそれに対応する文字列のそれぞれのデータ領域の矩形情報を、帳票の訂正データとして見出し訂正情報記憶部53に格納する。   In addition, the headline correction information creation unit 52 stores the correct headline candidate and the rectangular information of each data area of the corresponding character string in the headline correction information storage unit 53 as form correction data.

ここで、見出し訂正情報記憶部53に記憶される訂正データの構造について図13を参照しながら説明する。図13は、見出し訂正情報記憶部53のデータ構造の一例を示す図である。図13に示すように、見出し訂正情報記憶部53には、見出し訂正データが帳票ごとに記憶されている。   Here, the structure of the correction data stored in the headline correction information storage unit 53 will be described with reference to FIG. FIG. 13 is a diagram illustrating an example of the data structure of the headline correction information storage unit 53. As shown in FIG. 13, the headline correction information storage unit 53 stores headline correction data for each form.

この見出し訂正データには、帳票識別子53aと、見出し文字列の矩形情報53bと、見出しに対応する文字列の矩形情報53cと、を含んでいる。帳票識別子53aは、訂正された見出し候補を含む帳票の識別子である。見出し文字列の矩形情報53bは、訂正された見出し候補のデータ領域の矩形情報であり、帳票上に配置された見出し候補文字列の左上および右下の矩形頂点の描画位置を示す。見出しに対応する文字列の矩形情報53cは、訂正された見出し候補に対応する文字列のデータ領域の矩形情報であり、帳票上に配置された当該文字列の左上および右下の矩形頂点の描画位置を示す。   The headline correction data includes a form identifier 53a, headline character string rectangle information 53b, and character string rectangle information 53c corresponding to the headline. The form identifier 53a is an identifier of the form including the corrected heading candidate. The rectangular information 53b of the heading character string is rectangular information of the corrected heading candidate data area, and indicates the drawing positions of the upper left and lower right rectangular vertices of the heading candidate character string arranged on the form. The rectangular information 53c of the character string corresponding to the headline is rectangular information of the data area of the character string corresponding to the corrected heading candidate, and the upper left and lower right rectangular vertices of the character string arranged on the form are drawn. Indicates the position.

なお、見出し情報作成部52は、帳票の訂正データを見出し訂正情報記憶部53に格納するものとして説明したが、帳票データ情報記憶部31に追加して格納するものとしても良い。   Although the headline information creating unit 52 has been described as storing the correction data of the form in the headline correction information storage unit 53, it may be additionally stored in the form data information storage unit 31.

見出し候補探索部22は、帳票データから抽出された、検索キーワードを含む文字列の見出し候補を探索する。このとき、見出し候補探索部22は、当該検索キーワードを含む文字列の見出し候補が過去に訂正されている場合には、訂正された見出し候補を探索結果とする。   The heading candidate search unit 22 searches for a heading candidate for a character string including a search keyword extracted from the form data. At this time, the heading candidate search unit 22 uses the corrected heading candidate as a search result when the heading candidate of the character string including the search keyword has been corrected in the past.

具体的には、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置および当該文字列の抽出元の帳票データを取得すると、見出し訂正情報記憶部53を参照して、当該帳票データの見出し訂正データがあるか否かを判定する。   Specifically, when the headline candidate search unit 22 obtains the drawing position of the character string extracted by the keyword extraction unit 21 and the form data from which the character string is extracted, the headline candidate search unit 22 refers to the headline correction information storage unit 53, It is determined whether there is heading correction data of the form data.

また、見出し候補探索部22は、当該帳票データの見出し訂正データがあると判定された場合には、キーワード抽出部21によって抽出された文字列の描画位置が、当該見出し訂正データの「見出しに対応する文字列の矩形情報」53cの内部に存在するか否かを判定する。   Further, when it is determined that there is heading correction data of the form data, the heading candidate search unit 22 determines that the drawing position of the character string extracted by the keyword extraction unit 21 corresponds to “heading” of the heading correction data. It is determined whether or not the character string rectangle information 53c exists.

また、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置が、当該見出し訂正データの「見出しに対応する文字列の矩形情報」53cの内部に存在する場合には、「見出しに対応する文字列の矩形情報」53cに対応する「見出し文字列の矩形情報」53bから見出し候補を探索する。例えば、見出し候補探索部22は、見出し訂正情報記憶部53に含まれる「見出し文字列の矩形情報」53bの内部に存在する文字列の描画位置を、抽出元の帳票データから探索して、探索した文字列を見出し候補とする。   In addition, the headline candidate search unit 22, when the drawing position of the character string extracted by the keyword extraction unit 21 exists within the “rectangular information of the character string corresponding to the headline” 53 c of the headline correction data, A headline candidate is searched from the “rectangular information of the character string corresponding to the heading” 53c corresponding to the “rectangular information of the character string corresponding to the heading” 53c. For example, the heading candidate search unit 22 searches the drawing data of the character string existing in the “rectangular information of the heading character string” 53b included in the heading correction information storage unit 53, and searches for the drawing position. The selected character string is set as a heading candidate.

次に、実施例3に係る帳票検索装置3の処理手順を、図14を参照して説明する。図14は、実施例3に係る帳票検索装置の処理手順を示すフローチャートである。なお、図14において、実施例1に係る帳票検索装置1の処理手順(図8)と同じ部分には同じ符号を付し、詳しい説明を省略する。   Next, a processing procedure of the form retrieval apparatus 3 according to the third embodiment will be described with reference to FIG. FIG. 14 is a flowchart illustrating the processing procedure of the form search apparatus according to the third embodiment. In FIG. 14, the same parts as those in the processing procedure (FIG. 8) of the form retrieval apparatus 1 according to the first embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.

まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出して(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。   First, the keyword input unit 11 detects a search request including a search keyword input by the user (step S11), and outputs the detected search keyword to the keyword extraction unit 21.

次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票識別子に対応する帳票データを選択する(ステップS12)。   Next, the keyword extraction unit 21 reads all the form data from the form data information storage unit 31, and selects form data corresponding to one form identifier from all the read form data (step S12).

そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。   Then, the keyword extracting unit 21 extracts a character string including the search keyword from the character strings constituting the selected form data (step S13).

さらに、見出し候補探索部22は、検索キーワードを含む文字列の見出し候補が過去に訂正されているか否か調べるために、キーワード抽出部21によって選択された帳票データの帳票識別子が見出し訂正情報記憶部53に記憶されているか否かを判定する(ステップS31)。   Furthermore, the headline candidate search unit 22 uses the form identifier of the form data selected by the keyword extraction unit 21 as the headline correction information storage unit in order to check whether or not the headline candidate of the character string including the search keyword has been corrected in the past. It is determined whether or not it is stored in 53 (step S31).

選択された帳票データの帳票識別子が見出し訂正情報記憶部53に記憶されている場合には(ステップS31Yes)、見出し候補探索部22は、抽出された検索キーワードを含む文字列の描画位置が、見出しに対応する文字列の矩形情報53cの内部に存在するか否かを判定する(ステップS32)。   When the form identifier of the selected form data is stored in the headline correction information storage unit 53 (step S31 Yes), the headline candidate search unit 22 indicates that the drawing position of the character string including the extracted search keyword is the headline. It is determined whether or not it exists inside the rectangular information 53c of the character string corresponding to (step S32).

抽出された検索キーワードを含む文字列の描画位置が、見出しに対応する文字列の矩形情報53cの内部に存在する場合には(ステップS32Yes)、見出し候補探索部22は、見出し訂正情報記憶部53に含まれる見出し文字列の矩形情報53bから見出し候補を探索する(ステップS33)。   When the drawing position of the character string including the extracted search keyword exists inside the rectangle information 53c of the character string corresponding to the headline (Yes in step S32), the headline candidate search unit 22 includes the headline correction information storage unit 53. A headline candidate is searched for from the rectangular information 53b of the headline character string included in (step S33).

一方、選択された帳票識別子が見出し訂正情報記憶部53に記憶されていない場合(ステップS31No)、または抽出された検索キーワードを含む文字列の描画位置が見出しに対応する文字列の矩形情報53cの内部に存在しない場合(ステップS32No)には、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。   On the other hand, when the selected form identifier is not stored in the headline correction information storage unit 53 (No in step S31), or the drawing position of the character string including the extracted search keyword is the character string rectangle information 53c corresponding to the headline. If it does not exist inside (No in step S32), the headline candidate search unit 22 searches the form data for a headline candidate corresponding to the character string based on the drawing position of the character string extracted by the keyword extraction unit 21. (Step S14).

その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。   Thereafter, the heading candidate search unit 22 determines whether or not all the form data has been processed (step S15). If the headline candidate search unit 22 has not processed all the form data (No in step S15), the process proceeds to step S12 in order to process unprocessed form data.

一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。   On the other hand, if the headline candidate search unit 22 has processed all the form data (step S15 Yes), the headline candidate list creation unit 23 creates list information of the headline candidates searched from all the form data, A display is output to the output unit 40 (step S16).

そして、見出し訂正情報作成部52は、見出し候補一覧情報の中の探索に失敗した見出し候補を見出し訂正部51から取得すると、当該見出し候補に対応する帳票データに基づいて展開させた帳票を出力部40に表示出力する(ステップS34)。   When the headline correction information creation unit 52 acquires from the headline correction unit 51 a headline candidate that has failed to be searched in the headline candidate list information, the headline correction information creation unit 52 outputs a form developed based on the form data corresponding to the headline candidate. 40 is displayed and output (step S34).

そして、見出し訂正情報作成部52は、訂正された見出し候補およびそれに対応する文字列のそれぞれのデータ領域の矩形情報を見出し訂正部51から検出すると、これらの矩形情報を帳票の見出し訂正データとして見出し訂正情報記憶部53に格納する(ステップS35)。   Then, the headline correction information creation unit 52 detects the rectangular information of the corrected heading candidate and the data area of each of the character strings corresponding thereto from the headline correction unit 51, so that the rectangular information is headed as the headline correction data of the form. The correction information is stored in the correction information storage unit 53 (step S35).

引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。   Subsequently, the headline selection unit 12 detects the headline candidate selected from the headline candidate information (step S17), and outputs it to the form search unit 24.

そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。   Then, the form retrieval unit 24 extracts the form identifier corresponding to the heading candidate acquired from the heading selection unit 12 from the heading candidate list created by the heading candidate list creation unit 23. Then, the form search unit 24 searches the form data information storage unit 31 for form data corresponding to the extracted form identifier, and stores the searched form data in the form search result information storage unit 32 as a search result. (Step S18).

以上のように本実施例3によれば、帳票検索装置3は、帳票データ内の複数の文字列およびその文字列の描画位置を帳票データごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置3は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置3は、探索された見出し候補と当該見出し候補に対応する文字列とを対応付けた見出し候補情報を生成し、生成された見出し候補情報を出力する。さらに、帳票検索装置3は、出力された見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置をユーザに選択させ、見出し訂正情報記憶部53に格納する。そして、帳票検索装置3は、出力された見出し候補情報の中から所定の操作によって選択された見出し候補に対応付けられた文字列を含む帳票データを、帳票データ情報記憶部31から検索する。   As described above, according to the third embodiment, the form retrieval apparatus 3 includes the form data information storage unit 31 that stores a plurality of character strings in the form data and the drawing positions of the character strings for each form data. A character string including a search keyword that forms a part of a condition for searching for a form is extracted from character strings in each form data stored in the form data information storage unit 31. Then, the form search device 3 searches for a headline candidate corresponding to the character string from the form data from which the character string is extracted based on the drawing position of the extracted character string. Then, the form search device 3 generates heading candidate information in which the searched heading candidate is associated with the character string corresponding to the heading candidate, and outputs the generated heading candidate information. Furthermore, in order to correct the headline candidate having an error in the output heading candidate information, the form search device 3 uses a plurality of drawing positions related to the character string of the heading candidate and the character string corresponding to the heading candidate. The user is made to select a plurality of drawing positions involved and is stored in the headline correction information storage unit 53. Then, the form search device 3 searches the form data information storage unit 31 for form data including a character string associated with a heading candidate selected by a predetermined operation from the output heading candidate information.

かかる構成によれば、帳票検索装置3は、見出し候補情報の中に誤った見出し候補が含まれている場合であっても、正しい見出し候補が見出し訂正情報記憶部53に記憶されているため、次回からの同一の検索キーワードの検索要求に対して、高い精度で正しい見出し候補を探索することができる。   According to such a configuration, the form retrieval apparatus 3 stores the correct headline candidate in the headline correction information storage unit 53 even when the headline candidate information includes an incorrect headline candidate. In response to a search request for the same search keyword from the next time, a correct heading candidate can be searched with high accuracy.

ところで、上記の実施例1では、帳票検索装置1は、検索キーワードを含む文字列の見出し候補を探索した結果、探索した見出し候補の正当性の評価をしない場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置4は、検索キーワードを含む文字列の見出し候補を探索した結果、探索した見出し候補の探索の正当性を評価しても良い。   By the way, in the first embodiment described above, the form retrieval apparatus 1 has been described as a result of searching for a heading candidate for a character string including a search keyword, and as a result, does not evaluate the validity of the searched heading candidate. The present invention is not limited to this, and the form search device 4 may evaluate the validity of the search for the searched headline candidate as a result of searching for the headline candidate of the character string including the search keyword.

そこで、実施例4では、帳票検索装置4が、検索キーワードを含む文字列の見出し候補を探索した結果、探索した見出し候補の探索の正当性を評価する場合を説明する。   Thus, in the fourth embodiment, a case will be described in which the form search device 4 evaluates the validity of searching for a searched heading candidate as a result of searching for a heading candidate for a character string including a search keyword.

まず、実施例4に係る帳票検索装置4の構成について図15を参照しながら説明する。図15は、実施例4に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例4とが異なるところは、制御部20に見出し候補評価部61および記憶部30に正規表現対応情報記憶部62を追加した点にある。   First, the configuration of the form retrieval apparatus 4 according to the fourth embodiment will be described with reference to FIG. FIG. 15 is a functional block diagram illustrating the configuration of the form search apparatus according to the fourth embodiment. Note that the same components as those in the form retrieval apparatus 1 shown in FIG. 1 are denoted by the same reference numerals, and the description of the overlapping configuration and operation is omitted. The difference between the first embodiment and the fourth embodiment is that a headline candidate evaluation unit 61 is added to the control unit 20 and a regular expression correspondence information storage unit 62 is added to the storage unit 30.

見出し候補評価部61は、見出し候補探索部22によって探索された見出し候補の探索の正当性を評価する。なお、探索の正当性とは、探索に誤りがなかったことの確からしさであるものとする。   The headline candidate evaluation unit 61 evaluates the validity of the search for the headline candidate searched by the headline candidate search unit 22. Note that the validity of the search is the certainty that there was no error in the search.

具体的には、見出し候補の探索の正当性の評価方法として、見出し候補評価部61は、見出し候補探索部22から帳票データごとに組にされた見出し候補と検索キーワードを含む文字列とを取得すると、取得した見出し候補の文字列と同じ文字列が、当該見出し候補の描画位置以外に存在するか否か判定する。   Specifically, as a method for evaluating the validity of a search for a headline candidate, the headline candidate evaluation unit 61 acquires a headline candidate grouped for each form data from the headline candidate search unit 22 and a character string including a search keyword. Then, it is determined whether or not the same character string as the obtained character string of the heading candidate exists at a position other than the drawing position of the heading candidate.

そして、見出し候補評価部61は、取得した見出し候補の文字列と同じ文字列が、当該見出し候補の描画位置以外に存在すると判定する場合には、真の見出し候補が、取得した見出し候補と異なる描画位置に存在する文字列の可能性もあるため、取得した見出し候補における探索の正当性は低いものとする。一方、見出し候補評価部61は、取得した見出し候補の文字列と同じ文字列が、当該見出し候補の描画位置以外に存在しないと判定する場合には、取得した見出し候補における探索の正当性は高いものとする。   When the headline candidate evaluation unit 61 determines that the same character string as the acquired character string of the heading candidate exists at a position other than the drawing position of the heading candidate, the true heading candidate is different from the acquired heading candidate. Since there is a possibility of a character string existing at the drawing position, it is assumed that the legitimacy of the search for the acquired heading candidate is low. On the other hand, if the headline candidate evaluation unit 61 determines that there is no character string that is the same as the acquired character string of the heading candidate other than the drawing position of the heading candidate, the legitimacy of the search for the acquired heading candidate is high. Shall.

また、別の探索の確からしさの評価方法として、見出し候補評価部61は、見出し候補探索部22から帳票データごとに組にされた見出し候補と検索キーワードを含む文字列とを取得すると、検索キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現で表されているか否かを判定する。例えば、見出し候補評価部61は、見出し文字列に対応するデータの正規表現をあらかじめ記憶する正規表現対応情報記憶部62を用いて、検索キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現を満足するか否かを判定する。   As another method for evaluating the likelihood of searching, the headline candidate evaluation unit 61 obtains a headline candidate grouped for each form data and a character string including the search keyword from the headline candidate search unit 22. It is determined whether or not a character string including the character string is represented by a regular expression corresponding to the heading candidate paired therewith. For example, the headline candidate evaluation unit 61 uses the regular expression correspondence information storage unit 62 that stores in advance a regular expression of data corresponding to the headline character string, and the character string including the search keyword is paired with the headline candidate. It is determined whether or not the corresponding regular expression is satisfied.

ここで、正規表現対応情報記憶部62に記憶されるデータ構造について図16を参照しながら説明する。図16は、正規表現対応情報記憶部62のデータ構造の一例を示す図である。図16に示すように、正規表現対応情報記憶部62には、見出し文字列62aおよび対応するデータの正規表現62bが含まれており、見出し文字列62aごとに対になって記憶されている。   Here, the data structure stored in the regular expression correspondence information storage unit 62 will be described with reference to FIG. FIG. 16 is a diagram illustrating an example of a data structure of the regular expression correspondence information storage unit 62. As shown in FIG. 16, the regular expression correspondence information storage unit 62 includes a heading character string 62a and a regular expression 62b of the corresponding data, and is stored in pairs for each heading character string 62a.

例えば、見出し文字列62aが「日付」である場合には、「日付」に対応するデータの正規表現は、「平成99年[1−12]月[1−31]日」である。ここで、正規表現内の「9」は任意の一桁の数字、[1−12]は1から12までの数字および[1−31]は1から31までの任意の数字を表す。   For example, when the heading character string 62a is “date”, the regular expression of the data corresponding to “date” is “1999 [1-12] month [1-31] day”. Here, “9” in the regular expression represents an arbitrary single digit, [1-12] represents a number from 1 to 12, and [1-31] represents an arbitrary number from 1 to 31.

また、見出し文字列62aが「発注番号」である場合には、「発注番号」に対応するデータの正規表現は、「ZZZ99999−999−Z」である。ここで、正規表現内の「Z」は任意の1桁のアルファベット、「9」は任意の1桁の数字を表す。   When the heading character string 62a is “order number”, the regular expression of the data corresponding to “order number” is “ZZZ99999-999-Z”. Here, “Z” in the regular expression represents an arbitrary one-digit alphabet, and “9” represents an arbitrary one-digit number.

また、見出し文字列62aが「電話番号」である場合には、「電話番号」に対応するデータの正規表現は、「0999999999」である。ここで、正規表現内の「9」は任意の1桁の数字を表す。   When the heading character string 62a is “telephone number”, the regular expression of the data corresponding to “telephone number” is “0999999999”. Here, “9” in the regular expression represents an arbitrary single-digit number.

さらに、見出し文字列62aが「区分」である場合には、「区分」に対応するデータの正規表現は、「普通」、「当座」、「総合」、「定期」または「積立」である。   Furthermore, when the heading character string 62a is “classification”, the regular expression of the data corresponding to “classification” is “normal”, “current”, “general”, “periodic”, or “funded”.

図15に戻って、見出し候補評価部61は、キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現を満たさないと判定する場合には、真の見出し候補である可能性が低いと判断して、見出し候補の探索の正当性が低いものとする。一方、見出し候補評価部61は、キーワードを含む文字列が、それと組にされた見出し候補に対応する正規表現を満たすと判定する場合には、真の見出し候補である可能性が高いと判断して、見出し候補の探索の正当性が高いものとする。   Returning to FIG. 15, if the headline candidate evaluation unit 61 determines that the character string including the keyword does not satisfy the regular expression corresponding to the headline candidate paired therewith, the headline candidate evaluation unit 61 may be a true headline candidate. It is determined that the search for headline candidates is low. On the other hand, if the headline candidate evaluation unit 61 determines that the character string including the keyword satisfies the regular expression corresponding to the headline candidate paired with the keyword, the headline candidate evaluation unit 61 determines that the possibility of being a true headline candidate is high. Therefore, it is assumed that the legitimacy of searching for a headline candidate is high.

また、見出し候補評価部61は、探索の正当性の評価結果を含んだ見出し候補と検索キーワードを含む文字列とを、これらの抽出元である帳票データごとに組にして、見出し候補一覧作成部23に出力する。なお、見出し候補評価部61は、探索の正当性が低い見出し候補を除外して、見出し候補に関する組を見出し候補一覧作成部23に出力するものとしても良い。   In addition, the headline candidate evaluation unit 61 combines a headline candidate including a search legitimacy evaluation result and a character string including a search keyword for each form data as a source of extraction, and generates a headline candidate list creation unit. To 23. Note that the headline candidate evaluation unit 61 may exclude a headline candidate having a low search legitimacy and output a group related to the headline candidate to the headline candidate list creation unit 23.

その結果、見出し候補一覧作成部23は、探索の正当性の評価結果を含んだ見出し候補情報を出力部40に出力する。   As a result, the heading candidate list creation unit 23 outputs the heading candidate information including the evaluation result of the search validity to the output unit 40.

ここで、見出し候補一覧作成部23によって編集される見出し候補情報23eの例について、図17を参照して説明する。図17は、見出し候補情報の例を示す図である。図17に示すように、見出し候補情報23eには、見出し候補「住所」の中に探索の正当性が低いものがあることを知らせる警告メッセージe1が出力されている。   Here, an example of the heading candidate information 23e edited by the heading candidate list creation unit 23 will be described with reference to FIG. FIG. 17 is a diagram illustrating an example of heading candidate information. As shown in FIG. 17, the heading candidate information 23e outputs a warning message e1 informing that there is a heading candidate “address” that has a low legitimacy of search.

なお、図17の例では、見出し候補情報23eには、探索の正当性が低い見出し候補があることを知らせる警告メッセージを出力するものとしたが、探索の正当性が低い見出し候補を含む帳票の帳票識別子を同時に出力するものとしても良い。   In the example of FIG. 17, the heading candidate information 23e outputs a warning message informing that there is a heading candidate with a low search validity. However, the form candidate including a heading candidate with a low search validity is output. The form identifier may be output at the same time.

これにより、見出し候補一覧作成部23は、探索の正当性が低い見出し候補をユーザに知らせることができ、当該見出し候補を含んだ帳票の確認を促すことができる。   Thereby, the heading candidate list creation unit 23 can notify the user of heading candidates whose search validity is low, and can prompt confirmation of a form including the heading candidate.

次に、実施例4に係る帳票検索装置4の処理手順を、図18を参照して説明する。図18は、実施例4に係る帳票検索装置の処理手順を示すフローチャートである。なお、図18において、実施例1に係る帳票検索装置1の処理手順(図8)と同じ部分には同じ符号を付し、詳しい説明を省略する。   Next, the processing procedure of the form retrieval apparatus 4 according to the fourth embodiment will be described with reference to FIG. FIG. 18 is a flowchart illustrating the processing procedure of the form search apparatus according to the fourth embodiment. In FIG. 18, the same parts as those in the processing procedure (FIG. 8) of the form retrieval apparatus 1 according to the first embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.

まず、キーワード入力部11は、ユーザによって入力された検索キーワードを含む検索要求を検出すると(ステップS11)、検出した検索キーワードをキーワード抽出部21に出力する。   First, when the keyword input unit 11 detects a search request including a search keyword input by the user (step S11), the keyword input unit 11 outputs the detected search keyword to the keyword extraction unit 21.

次に、キーワード抽出部21は、帳票データ情報記憶部31から全ての帳票データを読み出して、読み出した全帳票データの中から1個の帳票データを選択する(ステップS12)。   Next, the keyword extraction unit 21 reads all the form data from the form data information storage unit 31, and selects one form data from all the read form data (step S12).

そして、キーワード抽出部21は、選択した帳票データを構成する文字列の中から検索キーワードを含む文字列を抽出する(ステップS13)。   Then, the keyword extracting unit 21 extracts a character string including the search keyword from the character strings constituting the selected form data (step S13).

さらに、見出し候補探索部22は、キーワード抽出部21によって抽出された文字列の描画位置に基づいて、当該文字列に対応する見出し候補を、帳票データから探索する(ステップS14)。   Further, based on the drawing position of the character string extracted by the keyword extracting unit 21, the headline candidate searching unit 22 searches the form data for a headline candidate corresponding to the character string (step S14).

そして、見出し候補評価部61は、探索された見出し候補が探索に失敗したか否かの可能性、すなわち見出し候補の探索の正当性を評価する(ステップS41)。例えば、見出し候補評価部61は、探索された見出し候補の文字列と同じ文字列が、同じ帳票データ内の当該見出し候補の描画位置以外に存在するか否かによって判定する。   Then, the headline candidate evaluation unit 61 evaluates whether or not the searched headline candidate has failed in the search, that is, the validity of the search for the headline candidate (step S41). For example, the heading candidate evaluation unit 61 determines whether the same character string as the searched character string of the heading candidate exists at a position other than the drawing position of the heading candidate in the same form data.

探索された見出し候補が探索に失敗した可能性がある場合には(ステップS42Yes)、見出し候補評価部61は、当該見出し候補が、探索の正当性が低い見出し候補であると判断し、目視確認の必要性のある帳票データと判定する。そして、見出し候補評価部61は、例えば、当該帳票データ、探索の正当性が低いという評価結果を含んだ見出し候補および当該見出し候補に対応する検索キーワードを含む文字列を組にして記憶部30に格納する(ステップS43)。   When there is a possibility that the searched headline candidate has failed in the search (Yes in step S42), the headline candidate evaluation unit 61 determines that the headline candidate is a headline candidate having a low search validity, and is visually confirmed. It is determined that the form data is necessary. Then, the headline candidate evaluation unit 61 sets, for example, the form data, a headline candidate including an evaluation result indicating that the search validity is low, and a character string including a search keyword corresponding to the headline candidate in the storage unit 30. Store (step S43).

一方、探索された見出し候補が探索に失敗した可能性がない場合には(ステップS42No)、見出し候補評価部61は、当該見出し候補が、探索の正当性が高い見出し候補であると判断し、目視確認の必要性のない帳票データと判定する。そして、見出し候補評価部61は、例えば、当該帳票データ、探索の正当性が高いという評価結果を含んだ見出し候補および当該見出し候補に対応する検索キーワードを含む文字列を組にして記憶部30に格納する。   On the other hand, when there is no possibility that the searched headline candidate has failed in the search (No in step S42), the headline candidate evaluation unit 61 determines that the headline candidate is a headline candidate with high search validity, Judge as form data that does not require visual confirmation. Then, the headline candidate evaluation unit 61 sets, for example, the form data, a headline candidate including an evaluation result indicating that the search validity is high, and a character string including a search keyword corresponding to the headline candidate in the storage unit 30. Store.

その後、見出し候補探索部22は、全ての帳票データについて処理したか否かを判定する(ステップS15)。見出し候補探索部22が、全ての帳票データについて処理していない場合には(ステップS15No)、未処理の帳票データについて処理するために、ステップS12に遷移する。   Thereafter, the heading candidate search unit 22 determines whether or not all the form data has been processed (step S15). If the headline candidate search unit 22 has not processed all the form data (No in step S15), the process proceeds to step S12 in order to process unprocessed form data.

一方、見出し候補探索部22が、全ての帳票データについて処理した場合には(ステップS15Yes)、見出し候補一覧作成部23は、全ての帳票データから探索された、確からしさの評価結果を含んだ見出し候補の一覧情報を作成して、出力部40に表示出力する(ステップS16)。   On the other hand, if the headline candidate search unit 22 has processed all the form data (Yes in step S15), the headline candidate list creation unit 23 includes the headline including the probability evaluation results searched from all the form data. Candidate list information is created and displayed on the output unit 40 (step S16).

引き続き、見出し選択部12は、見出し候補情報から選択された見出し候補を検出して(ステップS17)、帳票検索部24に出力する。   Subsequently, the headline selection unit 12 detects the headline candidate selected from the headline candidate information (step S17), and outputs it to the form search unit 24.

そして、帳票検索部24は、見出し選択部12から取得された見出し候補に対応する帳票識別子を、見出し候補一覧作成部23によって作成された見出し候補一覧表から抽出する。そして、帳票検索部24は、抽出した帳票識別子に対応する帳票データを帳票データ情報記憶部31から検索して、検索した帳票データを纏めて検索結果として、帳票検索結果情報記憶部32に格納する(ステップS18)。   Then, the form retrieval unit 24 extracts the form identifier corresponding to the heading candidate acquired from the heading selection unit 12 from the heading candidate list created by the heading candidate list creation unit 23. Then, the form search unit 24 searches the form data information storage unit 31 for form data corresponding to the extracted form identifier, and stores the searched form data in the form search result information storage unit 32 as a search result. (Step S18).

以上のように本実施例4によれば、帳票検索装置4は、帳票データ内の複数の文字列および描画位置を帳票データごとに記憶する帳票データ情報記憶部31を備え、この帳票データ情報記憶部31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置3は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置4は、探索された見出し候補における探索の正当性を評価して、当該見出し候補における探索の正当性が低いと評価された場合には、当該見出し候補に対応する見出し候補情報に警告メッセージを含んで表示出力する。さらに、帳票検索装置4は、表示出力された見出し候補情報の中から所定の操作によって選択された見出し候補に関わる文字列を含む帳票データを、情報データ情報31から検索する。   As described above, according to the fourth embodiment, the form retrieval apparatus 4 includes the form data information storage unit 31 that stores a plurality of character strings and drawing positions in the form data for each form data. A character string including a search keyword that forms a part of the condition for searching for a form is extracted from the character strings in each form data stored in the unit 31. Then, the form search device 3 searches for a headline candidate corresponding to the character string from the form data from which the character string is extracted based on the drawing position of the extracted character string. Then, the form retrieval device 4 evaluates the validity of the search for the searched headline candidate, and if it is evaluated that the validity of the search for the headline candidate is low, the headline candidate information corresponding to the headline candidate Display and output a warning message. Further, the form search device 4 searches the information data information 31 for form data including a character string related to a heading candidate selected by a predetermined operation from the displayed heading candidate information.

かかる構成によれば、帳票検索装置4は、検索キーワードに対応する見出し候補を探索した後、探索の正当性が低い見出し候補をユーザに知らせることができ、当該見出し候補を含んだ帳票の確認を促すことができる。   According to such a configuration, after searching for a heading candidate corresponding to the search keyword, the form search device 4 can notify the user of a heading candidate with low validity of the search, and confirm the form including the heading candidate. Can be urged.

ところで、上記の実施例1では、帳票検索装置1は、帳票データ情報記憶部31に、帳票を構成するデータの文字列や描画位置を含む描画データをあらかじめ記憶した帳票データ情報記憶部31を用いる場合を説明した。本発明はこれに限定されるものではなく、帳票検索装置5は、紙帳票を文書スキャナでスキャンされた画像データから作成された描画データを格納した帳票データ情報記憶部31を用いても良い。   By the way, in the first embodiment, the form retrieval apparatus 1 uses the form data information storage unit 31 in which drawing data including character strings and drawing positions of data constituting the form is stored in advance. Explained the case. The present invention is not limited to this, and the form retrieval apparatus 5 may use a form data information storage unit 31 that stores drawing data created from image data obtained by scanning a paper form with a document scanner.

そこで、実施例5では、帳票検索装置5が、紙帳票を文書スキャナでスキャンされた画像データから作成された描画データを格納した帳票データ情報記憶部31を用いる場合を説明する。   Thus, in the fifth embodiment, a case will be described in which the form retrieval apparatus 5 uses a form data information storage unit 31 that stores drawing data created from image data obtained by scanning a paper form with a document scanner.

まず、実施例5に係る帳票検索装置5の構成について図19を参照しながら説明する。図19は、実施例5に係る帳票検索装置の構成を示す機能ブロック図である。なお、図1に示す帳票検索装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例5とが異なるところは、制御部20に帳票データ情報作成部71および記憶部30に帳票画像情報記憶部72を追加した点にある。   First, the configuration of the form retrieval apparatus 5 according to the fifth embodiment will be described with reference to FIG. FIG. 19 is a functional block diagram illustrating the configuration of the form search apparatus according to the fifth embodiment. Note that the same components as those in the form retrieval apparatus 1 shown in FIG. 1 are denoted by the same reference numerals, and the description of the overlapping configuration and operation is omitted. The difference between the first embodiment and the fifth embodiment is that a form data information creation unit 71 is added to the control unit 20 and a form image information storage unit 72 is added to the storage unit 30.

帳票データ情報作成部71は、例えばOCR技術を用いて、帳票画像情報記憶部72に含まれた各帳票の画像データから複数の描画データを抽出して、抽出した各描画データを帳票データ情報記憶部31の形式に変換して、帳票データを作成する。ここで、描画データは、例えば、文字列の文字コードおよび描画位置や、罫線の始点および終点の描画位置を指す。   The form data information creation unit 71 extracts a plurality of drawing data from the image data of each form included in the form image information storage unit 72 using, for example, OCR technology, and stores each extracted drawing data in the form data information storage. The data is converted into the format of the section 31 and form data is created. Here, the drawing data indicates, for example, the character code and drawing position of the character string, and the drawing position of the start point and end point of the ruled line.

また、帳票データ情報作成部71は、作成した帳票データを帳票データ情報記憶部31に格納する。   In addition, the form data information creation unit 71 stores the created form data in the form data information storage unit 31.

帳票画像情報記憶部72には、紙帳票を文書スキャナでスキャンされた画像データが帳票ごとに記憶されている。例えば、画像データは、JPEG(Joint Photographic Experts Group)、ビットマップまたはPDF(Portable Document Format)で表された帳票である。   The form image information storage unit 72 stores image data obtained by scanning a paper form with a document scanner for each form. For example, the image data is a form represented by JPEG (Joint Photographic Experts Group), bitmap, or PDF (Portable Document Format).

以上のように本実施例5によれば、帳票検索装置5は、帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する帳票データ情報記憶部31を備え、OCR技術を用いて帳票画像情報記憶部72に記憶されている画像データから複数の文字列およびその文字列の描画位置を含む描画情報を作成して、作成した描画情報を帳票データ情報記憶部31に帳票ごとに格納する。そして、帳票検索装置5は、この情報データ情報31に記憶された各帳票データ内の文字列の中から帳票を検索する条件の一部を成す検索キーワードを含む文字列を抽出する。そして、帳票検索装置5は、抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票データから、当該文字列に対応する見出し候補を探索する。そして、帳票検索装置5は、探索された見出し候補と当該見出し候補に対応する文字列とを対応付けた見出し候補情報を生成し、生成された見出し候補情報を表示出力する。さらに、帳票検索装置5は、表示出力された見出し候補情報の中から所定の操作によって選択された見出し候補に関わる文字列を含む帳票データを、情報データ情報31から検索する。   As described above, according to the fifth embodiment, the form retrieval apparatus 5 includes the form data information storage unit 31 that stores a plurality of character strings in the form and the drawing positions of the character strings for each form, and uses the OCR technique. Using the image data stored in the form image information storage unit 72 to create drawing information including a plurality of character strings and drawing positions of the character strings, the created drawing information is stored in the form data information storage unit 31 for each form. To store. Then, the form retrieval apparatus 5 extracts a character string including a search keyword that forms a part of the condition for retrieving the form from the character strings in each form data stored in the information data information 31. Then, the form search device 5 searches for the heading candidate corresponding to the character string from the form data from which the character string is extracted based on the drawing position of the extracted character string. The form retrieval apparatus 5 generates heading candidate information in which the searched heading candidate is associated with the character string corresponding to the heading candidate, and displays and outputs the generated heading candidate information. Further, the form search device 5 searches the information data information 31 for form data including a character string related to a heading candidate selected by a predetermined operation from the displayed heading candidate information.

かかる構成によれば、帳票検索装置5は、帳票のファイル形式が例えばPDF等画像データであったとしても、画像データから作成された描画情報を帳票データ情報記憶部31に記憶しているため、帳票のファイル形式がテキストである場合と同様に帳票検索処理を実行することができ、検索要求に合致した帳票を漏れがなく検索することができる。   According to such a configuration, the form search device 5 stores the drawing information created from the image data in the form data information storage unit 31 even if the form file format is image data such as PDF. A form search process can be executed in the same manner as when the form file format is text, and a form that matches the search request can be searched without omission.

また、帳票検索装置5は、帳票データ内の複数の文字列に対して見出しの文字列とこれに対応する文字列との関係を示す項目定義情報がなくても、検索要求に合致した帳票データを検索することができ、事前に項目定義情報を生成する手間がかからないという効果がある。特に、帳票データには、例えば「住所」、「お住まい」等の表記に揺れのある見出しが一般的に多数存在するため、これらを事前に項目定義情報に定義する手間がなくなり、事前に行うべき作業が軽減される。   Further, the form retrieval device 5 does not have item definition information indicating the relationship between the character string of the heading and the corresponding character string for a plurality of character strings in the form data, and the form data that matches the search request. This is advantageous in that it does not take time to generate item definition information in advance. In particular, in the form data, for example, there are generally a large number of headlines that are swayed in the notation such as “address”, “home”, etc., so there is no need to define these items in the item definition information in advance, and this is done in advance. Work to be reduced.

また、帳票検索装置5は、検索キーワードに対応する見出し候補の探索を、仮に誤った場合であっても、検索要求に合致した見出し候補を1度選択させるだけで、検索要求に合致した帳票を検索することができ、事前に項目定義情報を生成する場合と比較して、格段に作業を軽減できるだけでなく、帳票の検索精度を向上させることができる。   Moreover, even if the search for the headline candidate corresponding to the search keyword is erroneous, the form search device 5 selects a headline candidate that matches the search request once, and selects a form that matches the search request. Compared with the case where the item definition information is generated in advance, not only can the work be remarkably reduced, but also the search accuracy of the form can be improved.

さらに、帳票検索装置5は、項目定義情報を用いて、検索要求どおりの見出しの文字列を探索するか否か、さらに探索要求どおりの帳票を検索するか否かを、事前に確認する手間がなくなるため、事前に行うべき作業を軽減できる。   Furthermore, the form retrieval apparatus 5 uses the item definition information to find out in advance whether or not to search for a headline character string as requested by the search and whether or not to retrieve a form as requested by the search. This eliminates the work that needs to be done in advance.

なお、上記実施例において、見出し候補探索部22は、検索キーワードを含む文字列の描画位置に基づいて、見出し候補を探索するようにしたが、見出し候補となり得る文字列群を示す見出し文字列リストを事前に記憶部30に格納しておいても良い。見出し候補となり得る文字列は、例えば、「住所」、「現住所」、「お住まい」、「氏名」、「お名前」等がある。この場合、見出し候補探索部22は、検索キーワードを含む文字列の描画位置の周辺に存在する文字列のうち、当該見出し文字列リストに含まれる文字列を見出し候補とする。   In the above embodiment, the headline candidate search unit 22 searches for a headline candidate based on the drawing position of the character string including the search keyword. However, the headline character string list showing character string groups that can be headline candidates. May be stored in the storage unit 30 in advance. Examples of character strings that can be headline candidates include “address”, “current address”, “home”, “name”, “name”, and the like. In this case, the heading candidate search unit 22 sets a character string included in the heading character string list among the character strings existing around the drawing position of the character string including the search keyword as a heading candidate.

また、上記実施例において、見出し候補探索部22は、検索キーワードを含む文字列の描画位置に基づいて、見出し候補を探索するようにしたが、人名辞書、住所辞書および商品名辞書等の辞書と、それらの辞書に対応する見出し候補の文字列を事前に記憶部30に格納しておいても良い。この場合、見出し候補探索部22は、検索キーワードがそれらの辞書に登録されている単語を含んでいるとき、その単語に対応する見出し文字列を検索キーワードを含む文字列の描画位置の周辺から探索して、探索した文字列を見出し候補とする。   In the above embodiment, the headline candidate search unit 22 searches for headline candidates based on the drawing position of the character string including the search keyword. However, the headline candidate search unit 22 includes a dictionary such as a personal name dictionary, an address dictionary, and a product name dictionary. The character strings of the heading candidates corresponding to these dictionaries may be stored in the storage unit 30 in advance. In this case, when the search keyword includes a word registered in those dictionaries, the heading candidate search unit 22 searches for the heading character string corresponding to the word from the vicinity of the drawing position of the character string including the search keyword. Then, the searched character string is used as a heading candidate.

以上、本発明の実施例について説明したが、本実施例によって本発明の技術的思想の範囲が限定されるものではなく、特許請求の範囲に記載した技術的範囲の範囲を逸脱しない限り、各種様々な実施例が実施可能であることは言うまでもない。また、本実施例に記載した効果は、これに限定されるものではない。   As mentioned above, although the Example of this invention was described, the range of the technical idea of this invention is not limited by this Example, and unless it deviates from the range of the technical scope described in the claim, it is various. It goes without saying that various embodiments can be implemented. Moreover, the effect described in the present Example is not limited to this.

また、図示した帳票検索装置1の各構成要素は機能概念的に記載したものであって、必ずしも物理的に図示のように構成されるものではなく、その帳票検索装置1の具体的な態様は図示のものに限縮されるものでは到底ないことは言うまでもない。   Each component of the illustrated form search apparatus 1 is functionally described, and is not necessarily physically configured as illustrated. The specific form of the form search apparatus 1 is as follows. Needless to say, the present invention is not limited to the illustrated one.

なお、帳票検索装置1〜5にて行われる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されても良い。   It should be noted that all or some of the processing functions performed in the form retrieval apparatuses 1 to 5 are micro-processors such as a CPU (Central Processing Unit) (or MPU (Micro Processing Unit), MCU (Micro Controller Unit), etc. -It is implement | achieved by the program analyzed and executed by the said computer (or microcomputers, such as MPU and MCU), or may be implement | achieved as hardware by a wired logic.

また、帳票検索装置1〜5にて行われる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行させるために、コンピュータ読み取り可能な記録媒体に記録されるものであっても良く、この場合でも、上記実施例と同様の効果が得られることは言うまでもない。   The processing functions performed by the form search apparatuses 1 to 5 are all or any part of the processing functions such as CPU (Central Processing Unit) (or MPU (Micro Processing Unit), MCU (Micro Controller Unit), etc. The computer may be recorded on a computer-readable recording medium so as to be analyzed and executed by the CPU (or a microcomputer such as an MPU or MCU). Needless to say, similar effects can be obtained.

以上の実施例に係る実施形態に関し、さらに以下の付記を開示する。   The following additional remarks are disclosed regarding the embodiment according to the above example.

(付記1)帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する記憶手段と、
前記記憶手段に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手段と、
前記抽出手段によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手段と、
前記探索手段によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手段と、
前記出力手段によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手段から検索する帳票検索手段と、
を有することを特徴とする帳票検索装置。
(Supplementary note 1) Storage means for storing a plurality of character strings in a form and the drawing positions of the character strings for each form,
Extraction means for extracting a character string including a search keyword that forms part of a condition for searching for a form from among character strings in each form stored in the storage means, and a drawing position of the character string;
Search means for searching for a heading candidate corresponding to the character string from the form from which the character string is extracted based on the drawing position of the character string extracted by the extracting means;
Output means for generating heading candidate information for associating the heading candidate searched by the search means and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search means for searching for a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output means, from the storage means;
A form retrieval apparatus characterized by comprising:

(付記2)前記探索手段は
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする付記1に記載の帳票検索装置。
(Additional remark 2) The said search means is a character string arranged in the predetermined forward direction, Comprising: From the character string on the same line as the character string extracted by the said extraction means, from the drawing position of the said extracted character string The form search device according to appendix 1, wherein another character string arranged in front is searched for as a heading candidate.

(付記3)前記探索手段は、
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出手段によって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする付記1に記載の帳票検索装置。
(Supplementary note 3) The search means includes
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction means The form search device according to appendix 1, wherein a column is searched as a heading candidate.

(付記4)前記所定の操作は、
前記出力手段によって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする付記1から付記3のいずれか1つに記載の帳票検索装置。
(Appendix 4) The predetermined operation is:
4. The form search apparatus according to any one of appendix 1 to appendix 3, wherein the form search operation is a selection operation for selecting a headline candidate from the heading candidate information output by the output unit.

(付記5)前記探索手段によって探索された見出し候補における探索の正当性を評価する見出し候補評価手段を有し、
前記出力手段は、
前記見出し候補評価手段の評価の結果、前記探索手段によって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする付記1に記載の帳票検索装置。
(Additional remark 5) It has the headline candidate evaluation means which evaluates the correctness of the search in the headline candidate searched by the said search means,
The output means includes
As a result of the evaluation by the heading candidate evaluation means, if the heading candidate searched by the searching means is evaluated as having low validity, the heading candidate information corresponding to the heading candidate includes a warning message and is output. The form search device according to Supplementary Note 1, wherein:

(付記6)前記見出し候補評価手段は、
前記見出し候補と同一の文字列が、当該見出し候補を含む帳票に、当該見出し候補の描画位置以外に存在するか否かを判定して、前記見出し候補と同一の文字列が、当該見出し候補の描画位置以外に存在すると判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記5に記載の帳票検索装置。
(Appendix 6) The headline candidate evaluation means
It is determined whether the same character string as the heading candidate exists in a form including the heading candidate other than the drawing position of the heading candidate, and the same character string as the heading candidate is 6. The form search device according to appendix 5, wherein when it is determined that the image exists at a position other than the drawing position, the validity of the search for the heading candidate is evaluated to be low.

(付記7)前記見出し候補評価手段は、
前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現であるか否かを判定して、前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現でないと判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記5に記載の帳票検索装置。
(Appendix 7) The headline candidate evaluation means
It is determined whether the character string including the search keyword is a predetermined regular expression corresponding to the heading candidate, and the character string including the search keyword is not a predetermined regular expression corresponding to the heading candidate. The form search device according to appendix 5, wherein, when determined, the validity of the search for the heading candidate is evaluated to be low.

(付記8)前記出力手段によって出力された前記見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を選択させる訂正選択手段と、
前記訂正選択手段によって選択された見出し候補の文字列に関わる複数の描画位置を、当該見出し候補に対応する文字列に関わる複数の描画位置と対応付けて記憶する訂正情報記憶手段とを有することを特徴とする付記1に記載の帳票検索装置。
(Supplementary note 8) In order to correct a heading candidate having an error in the heading candidate information output by the output means, a plurality of drawing positions related to the character string of the heading candidate and a character string corresponding to the heading candidate Correction selection means for selecting a plurality of drawing positions related to
Correction information storage means for storing a plurality of drawing positions related to a character string of a heading candidate selected by the correction selection means in association with a plurality of drawing positions related to a character string corresponding to the heading candidate. The form search device according to Supplementary Note 1, which is a feature.

(付記9)前記探索手段は、
前記抽出手段によって抽出された文字列の描画位置が、前記訂正記憶手段に記憶された見出し候補に対応する文字列に関わる複数の描画位置から表される閉領域に含まれている場合には、当該文字列に対応付けられた見出し候補を探索することを特徴とする付記8に記載の帳票検索装置。
(Supplementary note 9) The search means includes:
When the drawing position of the character string extracted by the extracting means is included in a closed region represented by a plurality of drawing positions related to the character string corresponding to the heading candidate stored in the correction storage means, The form search device according to appendix 8, wherein a headline candidate associated with the character string is searched.

(付記10)帳票の画像データからOCR技術を用いて、複数の文字列およびその文字列の描画位置を含む描画情報を生成して、生成された描画情報を前記記憶手段に記憶する描画情報生成手段を有することを特徴とする付記1に記載の帳票検索装置。 (Supplementary Note 10) Drawing information generation that generates drawing information including a plurality of character strings and drawing positions of the character strings from the image data of the form using the OCR technique, and stores the generated drawing information in the storage unit The form retrieval device according to appendix 1, further comprising: means.

(付記11)前記出力手段は、
前記見出し候補情報に各見出し候補情報に対応付けられた帳票の縮小画像を含むことを特徴とする付記1に記載の帳票探索装置。
(Supplementary Note 11) The output means includes:
The form search device according to appendix 1, wherein the heading candidate information includes a reduced image of the form associated with each heading candidate information.

(付記12)帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶媒体に記憶する記憶手順と、
前記記憶手順に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手順と、
前記抽出手順によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手順と、
前記探索手順によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手順と、
前記出力手順によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手順によって記憶された前記記憶媒体から検索する帳票検索手順と、
をコンピュータに実行させることを特徴とする帳票検索プログラム。
(Supplementary Note 12) A storage procedure for storing a plurality of character strings in a form and a drawing position of the character string in a storage medium for each form,
An extraction procedure for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage procedure;
Based on the drawing position of the character string extracted by the extraction procedure, a search procedure for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
An output procedure for generating heading candidate information for associating the heading candidate searched by the search procedure and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search procedure for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output procedure from the storage medium stored by the storage procedure; ,
A form search program characterized by causing a computer to execute.

(付記13)前記探索手順は、
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする付記12に記載の帳票検索プログラム。
(Supplementary note 13) The search procedure is as follows.
Among the character strings arranged in a predetermined forward direction and on the same string as the character string extracted by the extraction unit, other characters arranged forward from the drawing position of the extracted character string The form search program according to appendix 12, wherein a column is searched as a heading candidate.

(付記14)前記探索手順は、
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出手順によって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする付記12に記載の帳票検索プログラム。
(Supplementary Note 14) The search procedure is as follows.
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction procedure The form search program according to appendix 12, wherein a column is searched as a heading candidate.

(付記15)前記所定の操作は、
前記出力手順によって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする付記12から付記14のいずれか1つに記載の帳票検索プログラム。
(Supplementary Note 15) The predetermined operation is:
15. The form search program according to any one of Supplementary Note 12 to Supplementary Note 14, which is a selection operation for selecting a headline candidate from the heading candidate information output by the output procedure.

(付記16)前記探索手順によって探索された見出し候補における探索の正当性を評価する見出し候補評価手順を含み、
前記出力手順は、
前記見出し候補評価手段の評価の結果、前記探索手順によって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする付記12に記載の帳票検索プログラム。
(Additional remark 16) The headline candidate evaluation procedure which evaluates the correctness of the search in the headline candidate searched by the said search procedure,
The output procedure is as follows:
As a result of the evaluation by the heading candidate evaluation means, when it is evaluated that the search legitimacy of the heading candidate searched by the search procedure is low, the heading candidate information corresponding to the heading candidate is output including a warning message. The form search program according to supplementary note 12, characterized by:

(付記17)前記見出し候補評価手順は、
前記見出し候補と同一の文字列が、当該見出し候補を含む帳票に、当該見出し候補の描画位置以外に存在するか否かを判定して、前記見出し候補と同一の文字列が、当該見出し候補の描画位置以外に存在すると判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記16に記載の帳票検索プログラム。
(Supplementary Note 17) The headline candidate evaluation procedure is as follows.
It is determined whether the same character string as the heading candidate exists in a form including the heading candidate other than the drawing position of the heading candidate, and the same character string as the heading candidate is The form search program according to supplementary note 16, wherein when it is determined that it exists at a position other than the drawing position, the validity of the search for the heading candidate is evaluated to be low.

(付記18)前記見出し候補評価手順は、
前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現であるか否かを判定して、前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現でないと判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記16に記載の帳票検索プログラム。
(Supplementary Note 18) The headline candidate evaluation procedure is as follows:
It is determined whether the character string including the search keyword is a predetermined regular expression corresponding to the heading candidate, and the character string including the search keyword is not a predetermined regular expression corresponding to the heading candidate. The form search program according to supplementary note 16, wherein if judged, the validity of the search for the heading candidate is evaluated to be low.

(付記19)前記出力手順によって出力された前記見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を選択させる訂正選択手順と、
前記訂正選択手順によって選択された見出し候補の文字列に関わる複数の描画位置を、当該見出し候補に対応する文字列に関わる複数の描画位置と対応付けて記憶媒体に記憶する訂正情報記憶手順とを含むことを特徴とする付記12に記載の帳票検索プログラム。
(Supplementary note 19) In order to correct a heading candidate having an error in the heading candidate information output by the output procedure, a plurality of drawing positions related to the character string of the heading candidate and a character string corresponding to the heading candidate Correction selection procedure for selecting a plurality of drawing positions related to
A correction information storage procedure for storing a plurality of drawing positions related to a character string of a heading candidate selected by the correction selection procedure in association with a plurality of drawing positions related to a character string corresponding to the heading candidate in a storage medium; The form search program according to appendix 12, characterized in that it includes:

(付記20)前記探索手順は、
前記抽出手順によって抽出された文字列の描画位置が、前記訂正記憶手順によって記憶された前記記憶媒体に記憶された見出し候補に対応する文字列に関わる複数の描画位置から表される閉領域に含まれている場合には、当該文字列に対応付けられた見出し候補を探索することを特徴とする付記19に記載の帳票検索プログラム。
(Supplementary note 20) The search procedure is as follows.
The drawing position of the character string extracted by the extraction procedure is included in a closed region represented by a plurality of drawing positions related to the character string corresponding to the heading candidate stored in the storage medium stored by the correction storage procedure. If it is, the form search program according to appendix 19, wherein a headline candidate associated with the character string is searched.

(付記21)帳票の画像データからOCR技術を用いて、複数の文字列およびその文字列の描画位置を含む描画情報を生成して、生成された描画情報を、前記記憶手順によって記憶された前記記憶媒体に記憶する描画情報生成手順を含むことを特徴とする付記12に記載の帳票検索プログラム。 (Appendix 21) Using OCR technology from image data of a form, drawing information including a plurality of character strings and drawing positions of the character strings is generated, and the generated drawing information is stored in the storage procedure. 13. The form search program according to appendix 12, including a drawing information generation procedure to be stored in a storage medium.

(付記22)前記出力手順は、
前記見出し候補情報に各見出し候補情報に対応付けられた帳票の縮小画像を含むことを特徴とする付記12に記載の帳票検索プログラム。
(Appendix 22) The output procedure is as follows:
13. The form search program according to appendix 12, wherein the heading candidate information includes a reduced image of the form associated with each heading candidate information.

(付記23)帳票検索装置が帳票を検索する帳票検索方法であって、
帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶媒体に記憶する記憶ステップと、
前記記憶ステップに記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出ステップと、
前記抽出ステップによって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索ステップと、
前記探索ステップによって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力ステップと、
前記出力ステップによって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶ステップによって記憶された前記記憶媒体から検索する帳票検索ステップと、
を含むことを特徴とする帳票検索方法。
(Supplementary note 23) A form retrieval method in which a form retrieval apparatus retrieves a form,
A storage step of storing a plurality of character strings in the form and a drawing position of the character string in a storage medium for each form;
An extraction step for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage step;
Based on the drawing position of the character string extracted by the extraction step, a search step for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
Generating heading candidate information that associates the heading candidate searched by the searching step and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search step for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output step from the storage medium stored in the storage step; ,
A form search method characterized by including:

(付記24)前記探索ステップは、
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 24) The search step includes:
Among the character strings arranged in a predetermined forward direction and on the same string as the character string extracted by the extraction unit, other characters arranged forward from the drawing position of the extracted character string The form search method according to appendix 23, wherein the column is searched as a heading candidate.

(付記25)前記探索ステップは、
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出ステップによって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 25) The search step includes:
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction step The form search method according to appendix 23, wherein the column is searched as a heading candidate.

(付記26)前記所定の操作は、
前記出力ステップによって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする付記23から付記25のいずれか1つに記載の帳票検索方法。
(Supplementary Note 26) The predetermined operation is:
26. The form search method according to any one of appendix 23 to appendix 25, wherein the form search operation is a selection operation for selecting a headline candidate from the headline candidate information output in the output step.

(付記27)前記探索ステップによって探索された見出し候補における探索の正当性を評価する見出し候補評価ステップを含み、
前記出力ステップは、
前記見出し候補評価手段の評価の結果、前記探索ステップによって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする付記23に記載の帳票検索方法。
(Additional remark 27) The headline candidate evaluation step which evaluates the correctness of the search in the headline candidate searched by the said search step,
The output step includes
As a result of the evaluation of the heading candidate evaluation means, if it is evaluated that the search candidate in the heading candidate searched by the searching step is low, the heading candidate information corresponding to the heading candidate includes a warning message and is output. The form search method according to supplementary note 23, wherein

(付記28)前記見出し候補評価ステップは、
前記見出し候補と同一の文字列が、当該見出し候補を含む帳票に、当該見出し候補の描画位置以外に存在するか否かを判定して、前記見出し候補と同一の文字列が、当該見出し候補の描画位置以外に存在すると判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記27に記載の帳票検索方法。
(Supplementary Note 28) The heading candidate evaluation step includes:
It is determined whether the same character string as the heading candidate exists in a form including the heading candidate other than the drawing position of the heading candidate, and the same character string as the heading candidate is 28. The form search method according to appendix 27, wherein, when it is determined that it exists at a position other than the drawing position, the validity of the search for the heading candidate is evaluated to be low.

(付記29)前記見出し候補評価ステップは、
前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現であるか否かを判定して、前記検索キーワードを含む文字列が、前記見出し候補に対応する所定の正規表現でないと判定された場合に、当該見出し候補における探索の正当性が低いと評価することを特徴とする付記27に記載の帳票検索方法。
(Supplementary Note 29) The heading candidate evaluation step includes:
It is determined whether the character string including the search keyword is a predetermined regular expression corresponding to the heading candidate, and the character string including the search keyword is not a predetermined regular expression corresponding to the heading candidate. 28. The form search method according to appendix 27, wherein if it is determined, the validity of the search for the heading candidate is evaluated to be low.

(付記30)前記出力ステップによって出力された前記見出し候補情報のうち誤りがあった見出し候補を訂正するために、当該見出し候補の文字列に関わる複数の描画位置および当該見出し候補に対応する文字列に関わる複数の描画位置を選択させる訂正選択ステップと、
前記訂正選択ステップによって選択された見出し候補の文字列に関わる複数の描画位置を、当該見出し候補に対応する文字列に関わる複数の描画位置と対応付けて記憶する訂正情報記憶ステップとを含むことを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 30) In order to correct a heading candidate having an error in the heading candidate information output by the output step, a plurality of drawing positions related to the character string of the heading candidate and a character string corresponding to the heading candidate A correction selection step for selecting a plurality of drawing positions related to
A correction information storing step of storing a plurality of drawing positions related to the character string of the heading candidate selected in the correction selection step in association with a plurality of drawing positions related to the character string corresponding to the heading candidate. The form search method according to supplementary note 23, which is a feature.

(付記31)前記探索ステップは、
前記抽出ステップによって抽出された文字列の描画位置が、前記訂正記憶ステップによって記憶された前記記憶媒体に記憶された見出し候補に対応する文字列に関わる複数の描画位置から表される閉領域に含まれている場合には、当該文字列に対応付けられた見出し候補を探索することを特徴とする付記30に記載の帳票検索方法。
(Supplementary Note 31) The search step includes:
The drawing position of the character string extracted by the extraction step is included in a closed region represented by a plurality of drawing positions related to the character string corresponding to the heading candidate stored in the storage medium stored in the correction storage step. If it is, the form search method according to Supplementary Note 30, wherein a heading candidate associated with the character string is searched.

(付記32)帳票の画像データからOCR技術を用いて、複数の文字列およびその文字列の描画位置を含む描画情報を生成して、生成された描画情報を、前記記憶ステップによって記憶された前記記憶媒体に記憶する描画情報生成ステップを含むことを特徴とする付記23に記載の帳票検索方法。 (Supplementary Note 32) Using OCR technology from image data of a form, drawing information including a plurality of character strings and drawing positions of the character strings is generated, and the generated drawing information is stored in the storage step. 24. The form search method according to appendix 23, further comprising a drawing information generation step of storing in a storage medium.

(付記33)前記出力ステップは、
前記見出し候補情報に各見出し候補情報に対応付けられた帳票の縮小画像を含むことを特徴とする付記23に記載の帳票検索方法。
(Supplementary Note 33) The output step includes:
The form search method according to appendix 23, wherein the heading candidate information includes a reduced image of the form associated with each heading candidate information.

1 帳票検索装置
10 入力部
11 キーワード入力部
12 見出し選択部
20 制御部
21 キーワード抽出部
22 見出し候補探索部
23 見出し候補一覧作成部
24 帳票検索部
30 記憶部
31 帳票データ情報記憶部
32 帳票検索結果情報記憶部
41 見出し候補推定部
51 見出し訂正部
52 見出し訂正情報作成部
53 見出し訂正情報記憶部
61 見出し候補評価部
62 正規表現対応情報記憶部
71 帳票データ情報作成部
72 帳票画像情報記憶部
DESCRIPTION OF SYMBOLS 1 Form search device 10 Input part 11 Keyword input part 12 Headline selection part 20 Control part 21 Keyword extraction part 22 Headline candidate search part 23 Headline candidate list creation part 24 Form search part 30 Storage part 31 Form data information storage part 32 Form search result Information storage unit 41 Heading candidate estimation unit 51 Heading correction unit 52 Heading correction information creation unit 53 Heading correction information storage unit 61 Heading candidate evaluation unit 62 Regular expression correspondence information storage unit 71 Form data information creation unit 72 Form image information storage unit

Claims (7)

帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶する記憶手段と、
前記記憶手段に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手段と、
前記抽出手段によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手段と、
前記探索手段によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手段と、
前記出力手段によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手段から検索する帳票検索手段と、
を有することを特徴とする帳票検索装置。
Storage means for storing a plurality of character strings in a form and the drawing position of the character string for each form;
Extraction means for extracting a character string including a search keyword that forms part of a condition for searching for a form from among character strings in each form stored in the storage means, and a drawing position of the character string;
Search means for searching for a heading candidate corresponding to the character string from the form from which the character string is extracted based on the drawing position of the character string extracted by the extracting means;
Output means for generating heading candidate information for associating the heading candidate searched by the search means and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search means for searching for a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output means, from the storage means;
A form retrieval apparatus characterized by comprising:
前記探索手段は
所定順方向に配列された文字列であって前記抽出手段によって抽出された文字列と同一列上にある文字列のうち、当該抽出された文字列の描画位置から前方に配列された他の文字列を、見出し候補として探索することを特徴とする請求項1に記載の帳票検索装置。
The search means is a character string arranged in a predetermined forward direction and is arranged forward from a drawing position of the extracted character string among character strings on the same column as the character string extracted by the extraction means. The form search device according to claim 1, wherein the other character string is searched as a heading candidate.
前記探索手段は、
前記帳票が2次元の行および列によって描画位置が表されるとき、前記抽出手段によって抽出された文字列の描画位置から行方向の最前方の描画位置または列方向の最前方の描画位置の文字列を、見出し候補として探索することを特徴とする請求項1に記載の帳票検索装置。
The search means includes
When the drawing position of the form is represented by two-dimensional rows and columns, the character at the foremost drawing position in the row direction or the foremost drawing position in the column direction from the drawing position of the character string extracted by the extraction means The form search device according to claim 1, wherein the column is searched as a heading candidate.
前記所定の操作は、
前記出力手段によって出力された前記見出し候補情報の中から、見出し候補を選択させる選択操作であることを特徴とする請求項1から請求項3のいずれか1つに記載の帳票検索装置。
The predetermined operation is:
The form search apparatus according to claim 1, wherein the form search device is a selection operation for selecting a headline candidate from the heading candidate information output by the output unit.
前記探索手段によって探索された見出し候補における探索の正当性を評価する見出し候補評価手段を有し、
前記出力手段は、
前記見出し候補評価手段の評価の結果、前記探索手段によって探索された見出し候補における探索の正当性が低いと評価された場合に、前記見出し候補に対応する見出し候補情報に警告メッセージを含んで出力することを特徴とする請求項1に記載の帳票検索装置。
Headline candidate evaluation means for evaluating the validity of the search in the headline candidate searched by the search means,
The output means includes
As a result of the evaluation by the heading candidate evaluation means, if the heading candidate searched by the searching means is evaluated as having low validity, the heading candidate information corresponding to the heading candidate includes a warning message and is output. The form retrieval apparatus according to claim 1, wherein:
帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶媒体に記憶する記憶手順と、
前記記憶手順に記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出手順と、
前記抽出手順によって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索手順と、
前記探索手順によって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力手順と、
前記出力手順によって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶手順によって記憶された前記記憶媒体から検索する帳票検索手順と、
をコンピュータに実行させることを特徴とする帳票検索プログラム。
A storage procedure for storing a plurality of character strings in a form and a drawing position of the character string in a storage medium for each form;
An extraction procedure for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage procedure;
Based on the drawing position of the character string extracted by the extraction procedure, a search procedure for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
An output procedure for generating heading candidate information for associating the heading candidate searched by the search procedure and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search procedure for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output procedure from the storage medium stored by the storage procedure; ,
A form search program characterized by causing a computer to execute.
帳票検索装置が帳票を検索する帳票検索方法であって、
前記帳票検索装置が、
帳票内の複数の文字列およびその文字列の描画位置を帳票ごとに記憶媒体に記憶する記憶ステップと、
前記記憶ステップに記憶された各帳票内の文字列の中から、帳票を検索する条件の一部を成す検索キーワードを含む文字列およびその文字列の描画位置を抽出する抽出ステップと、
前記抽出ステップによって抽出された文字列の描画位置に基づいて、当該文字列が抽出された帳票から、当該文字列に対応する見出し候補を探索する探索ステップと、
前記探索ステップによって探索された見出し候補と当該見出し候補に対応する文字列とを帳票ごとに対応付ける見出し候補情報を生成し、生成された見出し候補情報を出力する出力ステップと、
前記出力ステップによって出力された前記見出し候補情報の中から、所定の操作によって選択された見出し候補に関わる文字列を含む帳票を、前記記憶ステップによって記憶された前記記憶媒体から検索する帳票検索ステップと、
を含むことを特徴とする帳票検索方法。
A form search method in which a form search device searches for a form,
The form search device
A storage step of storing a plurality of character strings in the form and a drawing position of the character string in a storage medium for each form;
An extraction step for extracting a character string including a search keyword that forms part of a condition for searching for a form and a drawing position of the character string from character strings in each form stored in the storage step;
Based on the drawing position of the character string extracted by the extraction step, a search step for searching for a heading candidate corresponding to the character string from the form from which the character string has been extracted;
Generating heading candidate information that associates the heading candidate searched by the searching step and the character string corresponding to the heading candidate for each form, and outputting the generated heading candidate information;
A form search step for searching a form including a character string related to a headline candidate selected by a predetermined operation from the heading candidate information output by the output step from the storage medium stored in the storage step; ,
A form search method characterized by including:
JP2009117979A 2009-05-14 2009-05-14 Form search device, form search program, and form search method Active JP5229102B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009117979A JP5229102B2 (en) 2009-05-14 2009-05-14 Form search device, form search program, and form search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009117979A JP5229102B2 (en) 2009-05-14 2009-05-14 Form search device, form search program, and form search method

Publications (2)

Publication Number Publication Date
JP2010267083A JP2010267083A (en) 2010-11-25
JP5229102B2 true JP5229102B2 (en) 2013-07-03

Family

ID=43364002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009117979A Active JP5229102B2 (en) 2009-05-14 2009-05-14 Form search device, form search program, and form search method

Country Status (1)

Country Link
JP (1) JP5229102B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5664481B2 (en) * 2011-06-30 2015-02-04 富士通株式会社 Table structure automatic recognition program, table structure automatic recognition method, and table structure automatic recognition apparatus
JP6256079B2 (en) * 2014-02-14 2018-01-10 富士通株式会社 Search program, search method, and search device
JP6442962B2 (en) * 2014-10-01 2018-12-26 富士通株式会社 Form generation program and form generation apparatus
WO2019004363A1 (en) * 2017-06-29 2019-01-03 株式会社ビズオーシャン Information inputting method, information inputting device, and information inputting system
US11055481B2 (en) 2017-06-29 2021-07-06 Spalo Co., Ltd. Information input method, information input apparatus, and information input system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269305A (en) * 1997-03-28 1998-10-09 Hitachi Software Eng Co Ltd Method for outputting slip retrieval result
JP4488656B2 (en) * 2000-07-05 2010-06-23 株式会社東芝 Data server, information processing system and method, storage medium, facility-related service providing method, and facility data management method
JP4848221B2 (en) * 2006-07-31 2011-12-28 富士通株式会社 Form processing program, recording medium recording the program, form processing apparatus, and form processing method

Also Published As

Publication number Publication date
JP2010267083A (en) 2010-11-25

Similar Documents

Publication Publication Date Title
US11868717B2 (en) Multi-page document recognition in document capture
US10120537B2 (en) Page-independent multi-field validation in document capture
JP4682284B2 (en) Document difference detection device
US20140304579A1 (en) Understanding Interconnected Documents
JP4867941B2 (en) Form processing method, form processing program, form processing apparatus, and form processing system
US20090049375A1 (en) Selective processing of information from a digital copy of a document for data entry
US20220222292A1 (en) Method and system for ideogram character analysis
US20240012822A1 (en) Error identification, indexing and linking construction documents
JP5229102B2 (en) Form search device, form search program, and form search method
JP2021043775A (en) Information processing device and program
US20140177951A1 (en) Method, apparatus, and storage medium having computer executable instructions for processing of an electronic document
JP5550959B2 (en) Document processing system and program
CN112149402B (en) Document matching method, device, electronic equipment and computer readable storage medium
JP4518212B2 (en) Image processing apparatus and program
US10331948B1 (en) Rules based data extraction
JP6325218B2 (en) Character recognition result verification device and character reading system
EP3287952A1 (en) Input control program, input control device, input control method, character correction program, character correction device, and character correction method
JP5752073B2 (en) Data correction device
JP7377565B2 (en) Drawing search device, drawing database construction device, drawing search system, drawing search method, and program
US11914654B2 (en) Document management apparatus, document management system, and non-transitory computer readable medium storing program
JP2006134079A (en) Image processing device and program
JP2012089042A (en) Form creation device and form creation method
US20140244685A1 (en) Method of searching and generating a relevant search string
JP2005050175A (en) Image data document retrieval system
JP2009230658A (en) Character retrieval system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5229102

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150