JP5423470B2 - Name identification check support device, name identification check support program, and name identification check support method - Google Patents

Name identification check support device, name identification check support program, and name identification check support method Download PDF

Info

Publication number
JP5423470B2
JP5423470B2 JP2010039332A JP2010039332A JP5423470B2 JP 5423470 B2 JP5423470 B2 JP 5423470B2 JP 2010039332 A JP2010039332 A JP 2010039332A JP 2010039332 A JP2010039332 A JP 2010039332A JP 5423470 B2 JP5423470 B2 JP 5423470B2
Authority
JP
Japan
Prior art keywords
web page
information
name identification
corporation
identification target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010039332A
Other languages
Japanese (ja)
Other versions
JP2011175486A (en
Inventor
豊 光石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010039332A priority Critical patent/JP5423470B2/en
Publication of JP2011175486A publication Critical patent/JP2011175486A/en
Application granted granted Critical
Publication of JP5423470B2 publication Critical patent/JP5423470B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は名寄せチェックを支援する名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法に関する。   The present invention relates to a name identification check support device, a name identification check support program, and a name identification check support method that support name identification check.

データベース(以下、DBという)には、例えば法人テーブルのように、ある法人を表すレコードが複数含まれているものがあった。異なる営業所のレコードがあるなど、異なるレコードが同一法人を表している場合のある法人テーブルには、同一法人を表しているレコードを同定する処理(名寄せ)へのニーズがあった。   Some databases (hereinafter referred to as DBs) include a plurality of records representing a certain corporation, such as a corporation table. There is a need for a process (name identification) for identifying a record representing the same corporation in a corporation table in which different records represent the same corporation, such as records of different sales offices.

自動的又は半自動的に名寄せを行う既存の名寄せ技術には、レコード対や複数レコード間の類似度を計算して類似度の高い複数レコードを同一法人と確定し、同一法人と確定された複数レコードに対して中程度の類似度を持つレコードを同一法人候補として出力するものがあった。   In existing name identification technology that automatically or semi-automatically performs name identification, the degree of similarity between record pairs and multiple records is calculated, multiple records with high similarity are confirmed as the same corporation, and multiple records that are confirmed as the same corporation In contrast, some records with a medium similarity are output as candidates for the same corporation.

既存の名寄せ技術を用いた名寄せ処理を行う名寄せプログラムや名寄せ装置では、例えば図1に示すように、法人テーブル1が入力されると、確定テーブル2と候補テーブル3とを出力する。図1は、法人テーブル,確定テーブル及び候補テーブルの一例の構成図である。   In a name identification program or name identification device that performs name identification processing using an existing name identification technology, for example, as shown in FIG. 1, when a corporate table 1 is input, a confirmation table 2 and a candidate table 3 are output. FIG. 1 is a configuration diagram of an example of a corporation table, a confirmation table, and a candidate table.

法人テーブル1は異なるレコードが同一法人を表している場合があるものとする。確定テーブル2は名寄せ処理により同一法人であると確定されたレコードに同じグループIDが付与されている。   In the corporation table 1, different records may represent the same corporation. In the confirmation table 2, the same group ID is assigned to records that are confirmed to be the same corporation by the name identification process.

なお、確定テーブル2は同一法人が無いレコードにも単独でグループIDが付与されている。つまり、確定テーブル2において異なるグループIDが付与されたレコードは別の法人であると確定されたことになる。以下では、確定テーブルの各レコードを確定レコードと呼び、同じグループIDを持つ確定レコードを確定レコード群と呼ぶ。   In the determination table 2, a group ID is independently assigned to a record that does not have the same corporation. That is, the record to which a different group ID is assigned in the confirmation table 2 is confirmed to be another corporation. Hereinafter, each record in the confirmation table is referred to as a confirmation record, and a confirmation record having the same group ID is referred to as a confirmation record group.

候補テーブル3は、名寄せ処理により同一法人であると確定できなかったが、確定テーブル2で同一法人と確定されている確定レコード群と同一法人の可能性があるレコードに、確定レコード群と同じグループIDが付与されている。以下では、候補テーブルの各レコードを候補レコードと呼ぶ。   Candidate table 3 could not be confirmed to be the same corporation by the name identification process, but the same group as the confirmed record group is included in the record that may be the same corporation as the confirmed record group confirmed as the same corporation in the confirmation table 2 An ID is assigned. Below, each record of a candidate table is called a candidate record.

例えば図1の候補テーブル3のレコードID「007」の候補レコードは、確定テーブル2のレコードID「004」の確定レコードの法人と同一法人の可能性があることを表している。   For example, the candidate record with the record ID “007” in the candidate table 3 in FIG. 1 indicates that there is a possibility of being the same corporation as the corporation with the record ID “004” in the confirmation table 2.

名寄せ処理を行ったDB管理者等のユーザは、名寄せ処理後、候補レコードの名寄せも遂行したい場合、候補レコードと確定レコード群とを閲覧し、人手によって候補レコードと確定レコード群とが同一法人か否かを判定する。例えばユーザは図2に示すGUIを備えたシステム(以下、名寄せチェックシステム)を利用し、人手によって候補レコードと確定レコード群とが同一法人か否かを判定する。   If a user such as a DB administrator who has performed name identification processing wants to perform name identification of candidate records after name identification processing, the candidate records and confirmed record groups are browsed and whether the candidate records and confirmed record groups are the same corporation manually Determine whether or not. For example, a user uses a system (hereinafter referred to as a name identification check system) having a GUI shown in FIG. 2 and manually determines whether the candidate record and the confirmed record group are the same corporation.

図2は人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。ユーザは候補レコード11と確定レコード群12とが同一法人か否かを様々な方法を用いて判定する。例えば候補レコード11と確定レコード群12とが同一法人か否かを判定する方法の一例としては、候補レコード11と確定レコード群12の両者の情報を共に含むウェブページを閲覧することにより、ユーザが同一法人か否かを判定する方法がある。   FIG. 2 is an image diagram of an example of a GUI for manually determining whether a candidate record and a confirmed record group are the same corporation. The user determines whether the candidate record 11 and the confirmed record group 12 are the same corporation using various methods. For example, as an example of a method for determining whether the candidate record 11 and the confirmed record group 12 are the same corporation, by browsing a web page including both information of the candidate record 11 and the confirmed record group 12, the user can There is a method for determining whether or not they are the same corporation.

そこで、候補レコード11と確定レコード群12の両者の情報を共に含むウェブページの閲覧を容易とするため、名寄せチェックシステムは候補レコード11と確定レコード群12の両者の情報を含んだクエリを自動的に生成して検索エンジンで検索し、検索結果を例えば図3に示すように提示することが考えられる。   Therefore, in order to facilitate browsing of a web page including both information of the candidate record 11 and the confirmed record group 12, the name identification check system automatically performs a query including information of both the candidate record 11 and the confirmed record group 12. It is conceivable that the search results are generated and searched by a search engine, and the search results are presented as shown in FIG. 3, for example.

図3は候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一例のイメージ図である。クエリ13は候補レコード11と確定レコード群12の両者の情報を含んでいる。検索結果としてリンク情報14で示されたウェブページは候補レコード11と確定レコード群12の両者の情報を含んでいる。   FIG. 3 is an image diagram of an example of a GUI including a search result based on a query including information on both candidate records and a confirmed record group. The query 13 includes information on both the candidate record 11 and the confirmed record group 12. The web page indicated by the link information 14 as a search result includes information on both the candidate record 11 and the confirmed record group 12.

しかし、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13により検索を行った場合、検索結果としてリンク情報14で示されるウェブページの数は多くなることがある。したがって、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13により検索を行った場合、ユーザは検索結果としてリンク情報14で示されるウェブページを順に見ていく必要があり、作業に無駄があった。   However, when a search is performed using a query 13 including information on both the candidate record 11 and the confirmed record group 12, the number of web pages indicated by the link information 14 as a search result may increase. Therefore, when a search is performed using the query 13 including information on both the candidate record 11 and the confirmed record group 12, the user needs to sequentially view the web pages indicated by the link information 14 as a search result. There was no use.

ユーザの作業の無駄を削減するためには、例えば検索結果としてリンク情報14で示されるウェブページを、ウェブページから得ることのできるスコアや信頼度に応じて並び替えること又は抽出することが考えられる。   In order to reduce the waste of the user's work, for example, the web page indicated by the link information 14 as a search result may be rearranged or extracted according to the score or reliability that can be obtained from the web page. .

ウェブページに含まれる電話番号や住所の個数を数え、数えた個数をウェブページのスコアとする技術は従来から知られている(例えば特許文献1参照)。また、予め設定されたキーワードがウェブページに含まれるか否かによってウェブページの信頼度を決定する技術も従来から知られている(例えば特許文献2参照)。   A technique for counting the number of telephone numbers and addresses included in a web page and using the counted number as the score of the web page has been conventionally known (see, for example, Patent Document 1). A technique for determining the reliability of a web page based on whether or not a keyword set in advance is included in the web page is also known (see, for example, Patent Document 2).

特開2003−108595号公報JP 2003-108595 A 国際公開第2006/027973号International Publication No. 2006/027973

しかし、検索結果としてリンク情報14で示されるウェブページを、ウェブページから得ることのできるスコアや信頼度に応じて並び替え又は抽出するだけでは、同一法人か否かの判定という観点から有用なウェブページの順番が先になるように並び替えること又は抽出することはできないという問題があった。   However, if the web page indicated by the link information 14 as a search result is only rearranged or extracted according to the score or reliability that can be obtained from the web page, it is useful from the viewpoint of determining whether or not they are the same corporation. There has been a problem that it is not possible to rearrange or extract pages in order.

例えばウェブページに含まれる電話番号や住所の個数を数えてウェブページのスコアとする技術では、同一法人か否かの判定という観点から有用なウェブページを抽出することができない。また、予め設定されたキーワードがウェブページに含まれるか否かによってウェブページの信頼度を決定する技術では、同一法人か否かの判定という観点から有用なウェブページを決定するようなキーワードを予め網羅しておくことが現実的でなく、精度の良いキーワードを見つけることも難しい。   For example, with the technology that counts the number of phone numbers and addresses included in a web page and sets the score of the web page, it is not possible to extract a useful web page from the viewpoint of determining whether or not they are the same corporation. Further, in the technology for determining the reliability of a web page based on whether or not a preset keyword is included in the web page, a keyword that determines a useful web page is determined in advance from the viewpoint of determining whether or not the web page is the same corporation. It is not realistic to cover them, and it is difficult to find accurate keywords.

本発明の一実施形態は、同一法人か否かの判定に有用なコンテンツを容易に抽出できる名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法を提供することを目的とする。   An object of one embodiment of the present invention is to provide a name collation check support device, a name collation check support program, and a name collation check support method that can easily extract contents useful for determining whether or not they are the same corporation.

上記課題を解決するため、本発明の一実施形態の名寄せチェック支援装置は、名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段とを有する。   In order to solve the above-described problem, the name collation check support device according to an embodiment of the present invention determines that the name identification target information and the name identification target output are output by the process of identifying the name identification target to the corporation to which the name identification target belongs. And a candidate information storage unit that associates the information on the name identification target with the information on the corporate entity that is estimated to belong to the name identification target. The information of the name identification target determined to belong to the corporation and the information of the name identification target estimated to belong to the one corporation are extracted, and the information of the name identification target confirmed to belong to the one corporation and the one corporation Content acquisition means for acquiring the first content by a search engine using both of the target information that is estimated to belong to the search engine as a key, and the link information of the acquired first content When the second content at the storage position that approximates the link information is acquired and the name identification target described in the first content and the second content belongs to the one corporation, the first content Content type determination means for recording information on the content in the content type information storage unit as content for determining whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target; Have

なお、本発明の一実施形態の構成要素、表現又は構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。   In addition, what applied the component, the expression, or the arbitrary combinations of the component of one Embodiment of this invention to a method, an apparatus, a system, a computer program, a recording medium, a data structure, etc. is also effective as an aspect of this invention. .

本発明の一実施形態によれば、同一法人か否かの判定に有用なコンテンツを容易に抽出できる名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法を提供可能である。   According to an embodiment of the present invention, it is possible to provide a name collation check support device, a name collation check support program, and a name collation check support method that can easily extract content useful for determining whether or not they are the same corporation.

法人テーブル,確定テーブル及び候補テーブルの一例の構成図である。It is a block diagram of an example of a corporation table, a confirmation table, and a candidate table. 人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。It is an image figure of an example of GUI which determines whether a candidate record and a fixed record group are the same corporations manually. 候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一例のイメージ図である。It is an image figure of an example of GUI including the search result by the query containing the information of both a candidate record and a fixed record group. 候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一実施例のイメージ図である。It is an image figure of one Example of GUI containing the search result by the query containing the information of both a candidate record and a fixed record group. タイプ1のウェブページについて説明するための説明図である。It is explanatory drawing for demonstrating a type 1 web page. タイプ2のウェブページについて説明するための説明図である。It is explanatory drawing for demonstrating the type 2 web page. タイプ3のウェブページについて説明するための説明図である。It is explanatory drawing for demonstrating the type 3 web page. 名寄せチェック支援装置の一例のハードウェア構成図である。It is a hardware block diagram of an example of a name collation check assistance apparatus. 名寄せチェック支援装置の一例の処理ブロック構成図である。It is a process block block diagram of an example of a name collation check assistance apparatus. ウェブページタイプテーブルの一例の構成図である。It is a block diagram of an example of a web page type table. 名寄せチェック支援装置の処理手順を表した一例のフローチャートである。It is a flowchart of an example showing the process sequence of the name collation check assistance apparatus. ステップS3で候補テーブルから取り出す候補レコードを表した一例の説明図である。It is explanatory drawing of an example showing the candidate record taken out from a candidate table by step S3. ステップS4で確定テーブルから取り出す確定レコード群を表した一例の説明図である。It is explanatory drawing of an example showing the fixed record group taken out from a fixed table at step S4. ステップS5で取得したウェブページ群を表した一例の説明図である。It is explanatory drawing of an example showing the web page group acquired by step S5. ステップS2〜S6で形成される処理ループの1周目にステップS6で決定した各ウェブページのタイプを表す一例の説明図である。It is explanatory drawing of an example showing the type of each web page determined by step S6 in the 1st round of the processing loop formed by step S2-S6. 人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。It is an image figure of an example of GUI which determines whether a candidate record and a fixed record group are the same corporations manually. ステップS5の処理手順を表した一例のフローチャートである。It is a flowchart of an example showing the process sequence of step S5. 候補レコード及び確定レコード群からクエリを生成する処理を説明するための説明図である。It is explanatory drawing for demonstrating the process which produces | generates a query from a candidate record and a fixed record group. ステップS6の処理手順を表した一例のフローチャートである。It is a flowchart of an example showing the process sequence of step S6. ステップS64の処理手順を表した一例のフローチャートである。It is a flowchart of an example showing the process sequence of step S64. ステップS64の処理の第1のフローを説明するための説明図である。It is explanatory drawing for demonstrating the 1st flow of the process of step S64. ステップS64の処理の第2のフローを説明するための説明図である。It is explanatory drawing for demonstrating the 2nd flow of a process of step S64. ステップS64の処理の第3のフローを説明するための説明図である。It is explanatory drawing for demonstrating the 3rd flow of the process of step S64. ステップS64の処理の第4のフローを説明するための説明図である。It is explanatory drawing for demonstrating the 4th flow of the process of step S64. ステップS64の処理の第5のフローを説明するための説明図である。It is explanatory drawing for demonstrating the 5th flow of a process of step S64. ステップS64の処理の第6のフローを説明するための説明図である。It is explanatory drawing for demonstrating the 6th flow of the process of step S64.

次に、本発明を実施するための形態を、以下の実施例に基づき図面を参照しつつ説明していく。   Next, modes for carrying out the present invention will be described based on the following embodiments with reference to the drawings.

図4は候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一実施例のイメージ図である。本実施例の名寄せチェック支援装置は、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13を自動的に生成して検索エンジンで検索し、検索結果を得る。   FIG. 4 is an image diagram of an embodiment of a GUI including a search result by a query including information on both candidate records and a confirmed record group. The name identification check support device according to the present embodiment automatically generates a query 13 including information on both the candidate record 11 and the confirmed record group 12, searches the search engine, and obtains a search result.

名寄せチェック支援装置は、検索結果のウェブページの中から、同一法人か否かの判定に有用なウェブページのリンク情報20を抽出し、ユーザに提示する。なお、リンク情報とはURLなどのコンピュータ上の格納位置を示す情報である。ウェブページはコンテンツの一例である。   The name collation check support device extracts link information 20 of a web page useful for determining whether or not the same corporation is found from the web page of the search result, and presents it to the user. The link information is information indicating a storage location on a computer such as a URL. A web page is an example of content.

同一法人か否かの判定に有用なウェブページのリンク情報20には同一法人の情報のみが載っているウェブページ(以下、タイプ1のウェブページという)のリンク情報21と同一法人の情報が重複して載っていないウェブページ(以下、タイプ2のウェブページという)のリンク情報22とが含まれる。   The link information 20 of the web page useful for determining whether or not the same corporation is the same as the link information 21 of the web page containing only the information of the same corporation (hereinafter referred to as a type 1 web page) is duplicated. Link information 22 of a web page (hereinafter referred to as a type 2 web page) that is not listed.

なお、タイプ1のウェブページは同一法人と判定しやすい、言い換えれば名寄せ可と判定しやすいウェブページである。また、タイプ2のウェブページは同一法人でないと判定しやすい、言い換えれば名寄せ不可と判定しやすいウェブページである。   Note that the type 1 web page is easy to determine as the same corporation, in other words, it is easy to determine that name identification is possible. In addition, the type 2 web page is easy to determine that it is not the same corporation, in other words, it is easy to determine that name identification is impossible.

そこで、ユーザの作業の無駄を削減するため、名寄せチェック支援装置はユーザが検索結果のウェブページをやみくもに見ることがないように、検索結果のウェブページの中からタイプ1及び2のウェブページを同定してユーザに提示している。   Therefore, in order to reduce the waste of the user's work, the name identification check support device selects type 1 and type 2 web pages from the search result web pages so that the user does not see the search result web pages indiscriminately. It is identified and presented to the user.

図5はタイプ1のウェブページについて説明するための説明図である。ここではSSS社の店舗リストのウェブページ31がタイプ1のウェブページであるとする。図5のGUIにはタイプ1のウェブページ31のリンク情報21が含まれる。SSS社の店舗リストのウェブページ31に載っているSSS銀座店,TTT有楽町店及びTTT池袋店は何れもSSS社の店舗である。   FIG. 5 is an explanatory diagram for explaining a type 1 web page. Here, it is assumed that the web page 31 of the store list of SSS is a type 1 web page. The GUI in FIG. 5 includes link information 21 of a type 1 web page 31. The SSS Ginza store, the TTT Yurakucho store, and the TTT Ikebukuro store on the web page 31 of the SSS store list are all SSS stores.

このように、SSS社の店舗リストのウェブページ31は、SSS社の情報(同一法人の情報)のみが載っている。したがって、ユーザはタイプ1のウェブページとしてSSS社の店舗リストのウェブページ31を見ることで、候補レコード11及び確定レコード群12の法人が同一法人であると判定できる。   As described above, the web page 31 of the store list of the SSS company contains only the information of the SSS company (information of the same corporation). Therefore, the user can determine that the corporations of the candidate record 11 and the confirmed record group 12 are the same corporation by viewing the web page 31 of the store list of SSS as a type 1 web page.

図6はタイプ2のウェブページについて説明するための説明図である。ここでは銀座周辺W会法人リストのウェブページ32がタイプ2のウェブページであるとする。図6のGUIにはタイプ2のウェブページ32のリンク情報22が含まれる。銀座周辺W会法人リストのウェブページ32に載っているSSS銀座店,TTT有楽町店及びUUU銀座店は何れも別法人の店舗である。   FIG. 6 is an explanatory diagram for explaining a type 2 web page. Here, it is assumed that the web page 32 of the Ginza neighborhood W corporation list is a type 2 web page. The GUI of FIG. 6 includes link information 22 of a type 2 web page 32. The SSS Ginza store, the TTT Yurakucho store, and the UUU Ginza store, which are listed on the web page 32 of the Ginza neighborhood W association corporation list, are all stores of different companies.

このように、銀座周辺W会法人リストのウェブページ32は、同一法人の情報が重複して載っていない。したがって、ユーザはタイプ2のウェブページとして銀座周辺W会法人リストのウェブページ32を見ることで、候補レコード11及び確定レコード群12の法人が同一法人でないと判定できる。   Thus, the web page 32 of the Ginza neighborhood W association corporation list does not include the same corporation information redundantly. Therefore, the user can determine that the corporations of the candidate record 11 and the confirmed record group 12 are not the same corporation by viewing the web page 32 of the Ginza neighborhood W association corporation list as a type 2 web page.

図7はタイプ3のウェブページについて説明するための説明図である。ここでは銀座周辺店舗リストのウェブページ33がタイプ3のウェブページであるとする。ここでタイプ3のウェブページとはタイプ1のウェブページでもタイプ2のウェブページでもないウェブページとする。タイプ3のウェブページは、複数法人の情報が載っていると共に、同一法人の情報が重複して載っているウェブページである。   FIG. 7 is an explanatory diagram for explaining a type 3 web page. Here, it is assumed that the web page 33 of the Ginza neighborhood store list is a type 3 web page. The type 3 web page is a web page that is neither a type 1 web page nor a type 2 web page. The type 3 web page is a web page on which information on a plurality of corporations is listed and information on the same corporation is duplicated.

図7のGUIにはタイプ3のウェブページ33のリンク情報23が含まれる。銀座周辺店舗リストのウェブページ33に載っているUUU銀座店とVVV有楽町店とは同一法人の店舗である。また、銀座周辺店舗リストのウェブページ33に載っているXXX有楽町店はUUU銀座店及びVVV有楽町店の法人と別法人の店舗である。   The GUI of FIG. 7 includes link information 23 of a type 3 web page 33. The UUU Ginza store and the VVV Yurakucho store on the web page 33 of the Ginza neighborhood store list are stores of the same corporation. Further, the XXX Yurakucho store on the web page 33 of the Ginza neighborhood store list is a store separate from the UUU Ginza store and the VVV Yurakucho store.

このように、銀座周辺店舗リストのウェブページ33は、複数法人の情報が載っていると共に、同一法人の情報が重複して載っている。したがって、ユーザはタイプ3のウェブページである銀座周辺店舗リストのウェブページ33を見ても、同一法人か否かを判定するための参考情報として適していないため、候補レコード11及び確定レコード群12の法人が同一法人であるか否かを判定できない。   As described above, the web page 33 of the Ginza neighborhood store list includes information on a plurality of corporations and information on the same corporation in duplicate. Accordingly, even if the user sees the web page 33 of the Ginza neighborhood store list, which is a type 3 web page, it is not suitable as reference information for determining whether or not the same corporation, the candidate record 11 and the confirmed record group 12 It cannot be determined whether or not the same corporation is the same corporation.

このように、本実施例の名寄せチェック支援装置は、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13を生成し、クエリ13によりウェブ検索された検索結果のウェブページ群の各ウェブページを、タイプ1のウェブページ,タイプ2のウェブページ及びタイプ3のウェブページに、自動的に同定するものである。   As described above, the name collation check support device according to the present embodiment generates a query 13 including information on both the candidate record 11 and the confirmed record group 12, and each of the web page groups of the search results retrieved from the web by the query 13. Web pages are automatically identified as type 1 web pages, type 2 web pages, and type 3 web pages.

図8は名寄せチェック支援装置の一例のハードウェア構成図である。名寄せチェック支援装置40は、バス49で相互に接続された入力装置41,出力装置42,ドライブ装置43,補助記憶装置44,主記憶装置45,演算処理装置46及びインターフェース装置47を有する。   FIG. 8 is a hardware configuration diagram of an example of the name identification check support apparatus. The name identification check support device 40 includes an input device 41, an output device 42, a drive device 43, an auxiliary storage device 44, a main storage device 45, an arithmetic processing device 46, and an interface device 47 that are mutually connected by a bus 49.

入力装置41はキーボードやマウス等である。入力装置41は、各種信号を入力するために用いられる。出力装置42はディスプレイ装置等である。出力装置42は、各種ウインドウやデータ等を表示するために用いられる。インターフェース装置47は、モデム又はLANカード等である。インターフェース装置47は、ネットワークに接続するために用いられる。   The input device 41 is a keyboard or a mouse. The input device 41 is used for inputting various signals. The output device 42 is a display device or the like. The output device 42 is used for displaying various windows and data. The interface device 47 is a modem or a LAN card. The interface device 47 is used for connecting to a network.

名寄せチェック支援装置40を制御する名寄せチェック支援プログラムは記録媒体48の配布やネットワークからのダウンロードなどによって提供される。名寄せチェック支援プログラムは、補助記憶装置44にインストールされる。また、補助記憶装置44は名寄せチェック支援プログラムの他、必要なファイル,データ等を格納する。   The name identification check support program for controlling the name identification check support device 40 is provided by distributing the recording medium 48 or downloading it from the network. The name identification check support program is installed in the auxiliary storage device 44. The auxiliary storage device 44 stores necessary files and data in addition to the name identification check support program.

主記憶装置45は、名寄せチェック支援装置40の起動時に補助記憶装置44から名寄せチェック支援プログラムを読み出して格納する。演算処理装置46は主記憶装置45に格納された名寄せチェック支援プログラムに従って、後述するような各種処理を実現している。   The main storage device 45 reads and stores the name identification check support program from the auxiliary storage device 44 when the name identification check support device 40 is activated. The arithmetic processing unit 46 implements various processes as described later in accordance with the name identification check support program stored in the main storage unit 45.

図9は名寄せチェック支援装置の一例の処理ブロック構成図である。名寄せチェック支援装置40は全体処理部51,ウェブページ群取得部52,ウェブページ群タイプ決定部53を有する。ウェブページ群タイプ決定部53はウェブページタイプ決定部54を有している。   FIG. 9 is a process block configuration diagram of an example of the name identification check support device. The name identification check support device 40 includes an overall processing unit 51, a web page group acquisition unit 52, and a web page group type determination unit 53. The web page group type determination unit 53 includes a web page type determination unit 54.

名寄せチェック支援装置40は、例えば図1の法人テーブル1を名寄せ処理した名寄せ結果である確定テーブル2と候補テーブル3とが入力される。なお、各テーブルはDBの形式の一例であり、上記した補助記憶装置44又は主記憶装置45に記憶される。   The name identification check support device 40 receives, for example, a confirmation table 2 and a candidate table 3 which are name identification results obtained by name identification processing of the corporate table 1 of FIG. Each table is an example of a DB format and is stored in the auxiliary storage device 44 or the main storage device 45 described above.

名寄せチェック支援装置40の全体処理部51は、ウェブページ群取得部52及びウェブページ群タイプ決定部53を制御し、候補テーブル3中の各候補レコードについて以下の処理を行わせる。   The overall processing unit 51 of the name collation check support device 40 controls the web page group acquisition unit 52 and the web page group type determination unit 53 to perform the following processing for each candidate record in the candidate table 3.

ウェブページ群取得部52は、候補レコードと同じグループIDを持った確定レコード群を確定テーブル2から読み出す。ウェブページ群取得部52は候補レコード及び確定レコード群の両者の情報を含んだクエリを作成し、検索エンジン55で検索する。以下ではクエリにより検索された検索結果の複数のウェブページをウェブページ群と呼ぶ。   The web page group acquisition unit 52 reads a confirmed record group having the same group ID as the candidate record from the confirmed table 2. The web page group acquisition unit 52 creates a query including information on both the candidate record and the confirmed record group, and searches the search engine 55 for the query. Hereinafter, a plurality of web pages obtained as a result of the query are referred to as a web page group.

ウェブページ群タイプ決定部53は、ウェブページタイプ決定部54を制御し、ウェブページ群中の各ウェブページについて以下の処理を行う。ウェブページタイプ決定部54は処理対象として選択された選択ウェブページがタイプ1又はタイプ2のウェブページである可能性があるか否かを後述のように調べる。   The web page group type determination unit 53 controls the web page type determination unit 54 to perform the following processing for each web page in the web page group. The web page type determination unit 54 checks whether there is a possibility that the selected web page selected as the processing target is a type 1 or type 2 web page, as will be described later.

ウェブページタイプ決定部54は、選択ウェブページがタイプ1又はタイプ2のウェブページである可能性があれば、選択ウェブページの類似ウェブページをインターネット56から取得する。なお、ウェブページタイプ決定部54は選択ウェブページの類似ウェブページを、格納位置を示す文字列の類似で判断する。URLのように格納位置を示す文字列が階層化されている場合には、上位階層を示す文字列が一致するが、下位階層の文字列が異なるものを類似と判断する。例えば、選択ウェブページの類似ウェブページは選択ウェブページのURLに対して末尾のファイル名が異なるURL(例えば「http://www.aaa.z/12.html」に対して「http://www.aaa.z/13.html」)を持つウェブページである。   If there is a possibility that the selected web page is a type 1 or type 2 web page, the web page type determination unit 54 acquires a similar web page of the selected web page from the Internet 56. The web page type determination unit 54 determines a similar web page of the selected web page based on the similarity of the character string indicating the storage position. When the character string indicating the storage position is hierarchized as in the URL, the character strings indicating the upper hierarchy match, but those having different character strings in the lower hierarchy are determined to be similar. For example, a similar web page of the selected web page has a different file name at the end of the URL of the selected web page (for example, “http: //www.aaa.z/12.html” www.aaa.z / 13.html ").

ウェブページタイプ決定部54は、選択ウェブページがタイプ1のウェブページである可能性があれば、類似ウェブページが全てタイプ1か調べる。類似ウェブページが全てタイプ1であれば、ウェブページタイプ決定部54は選択ウェブページもタイプ1のウェブページである可能性が高いと判定し、選択ウェブページをタイプ1のウェブページと決定する。   If there is a possibility that the selected web page is a type 1 web page, the web page type determination unit 54 checks whether all similar web pages are type 1. If all similar web pages are of type 1, the web page type determination unit 54 determines that the selected web page is likely to be a type 1 web page, and determines the selected web page as a type 1 web page.

ウェブページタイプ決定部54は、選択ウェブページがタイプ2のウェブページである可能性があれば、類似ウェブページが全てタイプ2か調べる。類似ウェブページが全てタイプ2であれば、ウェブページタイプ決定部54は選択ウェブページもタイプ2のウェブページである可能性が高いと判定し、選択ウェブページをタイプ2のウェブページと決定する。   If there is a possibility that the selected web page is a type 2 web page, the web page type determination unit 54 checks whether all similar web pages are type 2. If all similar web pages are of type 2, the web page type determination unit 54 determines that the selected web page is likely to be a type 2 web page, and determines the selected web page as a type 2 web page.

ウェブページタイプ決定部54は、選択ウェブページをタイプ1のウェブページともタイプ2のウェブページとも決定しなければ、選択ウェブページをタイプ3のウェブページと決定する。   If the selected web page is neither a type 1 web page nor a type 2 web page, the web page type determining unit 54 determines the selected web page as a type 3 web page.

ウェブページ群タイプ決定部53はウェブページ群中の各ウェブページがタイプ1〜3の何れのウェブページであるかを決定したあと、図10に示すようなウェブページタイプテーブルに記録する。   The web page group type determination unit 53 determines which web page of each of the web pages in the web page group is of types 1 to 3, and then records it in a web page type table as shown in FIG.

図10はウェブページタイプテーブルの一例の構成図である。図10のウェブページタイプテーブル57はデータ項目として、候補レコードのレコードID,ウェブページのタイプ,ウェブページのURLを有する。なお、ウェブページタイプテーブル57はタイプ3のウェブページに関する記録を省略してもよい。   FIG. 10 is a configuration diagram of an example of the web page type table. The web page type table 57 of FIG. 10 has record IDs of candidate records, web page types, and web page URLs as data items. Note that the web page type table 57 may omit records relating to type 3 web pages.

ウェブページタイプテーブル57は例えば図4に示すようなGUIを作成するために利用される。名寄せチェック支援装置40はGUIを作成する画面作成部を設ければ、ウェブページタイプテーブル57を利用して、タイプ1の選択ウェブページのリンク情報21とタイプ2の選択ウェブページのリンク情報22とを参考情報として含む図4に示すようなGUIを作成できる。なお、名寄せチェック支援装置40はウェブページタイプテーブル57を他の装置へ出力し、他の装置に図4に示すようなGUIを作成させてもよい。   The web page type table 57 is used, for example, to create a GUI as shown in FIG. If the name collation check support device 40 is provided with a screen creation unit for creating a GUI, the web page type table 57 is used to link the type 1 selected web page link information 21 and the type 2 selected web page link information 22. 4 as reference information can be created. The name identification check support device 40 may output the web page type table 57 to another device and cause the other device to create a GUI as shown in FIG.

このように、名寄せチェック支援装置40は法人テーブルを名寄せ処理した名寄せ結果である確定テーブル2と候補テーブル3とを利用して、タイプを同定したいウェブページの類似ウェブページ群が全てタイプ1のウェブページか、全てタイプ2のウェブページかを調べる。   As described above, the name identification check support device 40 uses the confirmation table 2 and the candidate table 3 which are the result of name identification of the corporate table, and all the similar web page groups of the web pages whose types are to be identified are type 1 webs. Check whether the page is a type 2 web page.

類似ウェブページ群が全てタイプ1のウェブページであれば名寄せチェック支援装置40はタイプを同定したいウェブページのタイプをタイプ1と決定する。類似ウェブページ群が全てタイプ2のウェブページであれば、名寄せチェック支援装置40はタイプを同定したいウェブページのタイプをタイプ2と決定する。   If all the similar web page groups are type 1 web pages, the name identification check support device 40 determines the type of the web page whose type is to be identified as type 1. If all the similar web page groups are type 2 web pages, the name collation check support device 40 determines the type of the web page whose type is to be identified as type 2.

本実施例の名寄せチェック支援装置40は、ウェブサイトの管理者が複数の法人情報を載せる複数のウェブページを作成する際、類似ウェブページ間のタイプが同じとなるように作成するケースが、ある程度以上存在することを仮定している。この仮定により、名寄せチェック支援装置40はウェブページタイプ決定部54において、上記のウェブサイトに属するウェブページのタイプを決定できる。   In the name collation check support device 40 of the present embodiment, when a website administrator creates a plurality of web pages on which a plurality of corporate information is placed, the case where the types of similar web pages are the same is created to some extent. It is assumed that the above exists. Based on this assumption, the name identification check support device 40 can determine the type of the web page belonging to the above-described website in the web page type determination unit 54.

なお、類似ウェブページ間のタイプが同じとなるように作成するケースとして、例えばタイプ1の複数のウェブページを含むウェブサイトとしては、1つの法人の店舗リストを1つのウェブページに記載し、複数法人分のウェブページをまとめたウェブサイトが挙げられる。   In addition, as a case where it creates so that the type between similar web pages may become the same, for example, as a website containing a plurality of web pages of type 1, a store list of one corporation is described on one web page, and a plurality A website that summarizes the corporate web pages.

また、タイプ2の複数のウェブページを含むウェブサイトとしては、例えば、ある区域に存在する法人を名称の頭文字別に、あ行の法人リスト,か行の法人リスト,……,わ行の法人リストのように別のウェブページにしてまとめたウェブサイトが挙げられる。   In addition, as a website including a plurality of type 2 web pages, for example, corporations existing in a certain area, with the initials of the name, the corporation list of the bank, the corporation list of the bank, ..., the corporation of the bank A website that is organized into separate web pages, such as a list.

以下では、本実施例の名寄せチェック支援装置40の処理手順について説明する。図11は名寄せチェック支援装置の処理手順を表した一例のフローチャートである。   Below, the process sequence of the name collation check assistance apparatus 40 of a present Example is demonstrated. FIG. 11 is a flowchart illustrating an example of a processing procedure of the name identification check support apparatus.

ステップS1に進み、全体処理部51は確定テーブル2と候補テーブル3とを入力として受け付ける。ここでは、図1に示す確定テーブル2及び候補テーブル3を例として説明する。なお、図1に示す確定テーブル2及び候補テーブル3は同一法人の店舗を名寄せ対象とする例を表したものであるが、同一法人の支店,営業所,工場などを名寄せ対象とするものであってもよい。   In step S1, the overall processing unit 51 receives the confirmation table 2 and the candidate table 3 as inputs. Here, the determination table 2 and the candidate table 3 shown in FIG. 1 will be described as an example. In addition, although the fixed table 2 and the candidate table 3 shown in FIG. 1 represent an example in which stores of the same corporation are targeted for name identification, branches, sales offices, factories, etc. of the same corporation are targeted for name identification. May be.

また、図1に示す確定テーブル2及び候補テーブル3は名称,電話番号をデータ項目として有しているが、住所や社長名など、ウェブページ上で名寄せ対象と関連付けられて表示される情報をデータ項目として有していればよい。   In addition, although the confirmation table 2 and candidate table 3 shown in FIG. 1 have names and telephone numbers as data items, information such as addresses and president names that are displayed in association with the name identification target on the web page is data. It only has to have as an item.

ステップS2に進み、全体処理部51は図1の候補テーブル3に未処理の候補レコードがあるか否かを判定する。全体処理部51は候補テーブル3に未処理の候補レコードがあれば、ステップS3に進み、候補テーブル3から未処理の候補レコードを1つ取り出す。全体処理部51は候補テーブル3に未処理の候補レコードがなければ、図11のフローチャートの処理を終了する。   In step S2, the overall processing unit 51 determines whether there is an unprocessed candidate record in the candidate table 3 of FIG. If there is an unprocessed candidate record in the candidate table 3, the overall processing unit 51 proceeds to step S3, and extracts one unprocessed candidate record from the candidate table 3. If there is no unprocessed candidate record in the candidate table 3, the overall processing unit 51 ends the process of the flowchart of FIG.

図12はステップS3で候補テーブルから取り出す候補レコードを表した一例の説明図である。図12はステップS2〜S6で形成される処理ループの1〜3周目にステップS3で取り出す候補レコードを具体的に表している。   FIG. 12 is an explanatory diagram showing an example of candidate records extracted from the candidate table in step S3. FIG. 12 specifically shows candidate records extracted in step S3 in the first to third rounds of the processing loop formed in steps S2 to S6.

ステップS4に進み、全体処理部51は候補レコードと同じグループIDを持つ確定レコードを確定テーブル2から全て取り出し、確定レコード群とする。   In step S4, the overall processing unit 51 extracts all confirmed records having the same group ID as the candidate record from the confirmed table 2 and sets them as a confirmed record group.

図13はステップS4で確定テーブルから取り出す確定レコード群を表した一例の説明図である。図13はステップS2〜S6で形成される処理ループの1〜3周目にステップS4で取り出す確定レコード群を具体的に表している。   FIG. 13 is an explanatory diagram illustrating an example of a confirmed record group extracted from the confirmation table in step S4. FIG. 13 specifically shows the confirmed record group extracted in step S4 in the first to third rounds of the processing loop formed in steps S2 to S6.

ステップS5に進み、全体処理部51はウェブページ群取得部52を制御し、取り出した候補レコード及び確定レコード群を入力として、クエリを生成し、クエリを用いて検索エンジン55で検索して、検索結果から一定数のウェブページ群を取得する。図14はステップS5で取得したウェブページ群を表した一例の説明図である。   In step S5, the overall processing unit 51 controls the web page group acquisition unit 52 to generate a query using the extracted candidate records and the confirmed record group as input, and search the search engine 55 using the query. A certain number of web page groups are acquired from the result. FIG. 14 is an explanatory diagram illustrating an example of the web page group acquired in step S5.

ステップS6に進み、全体処理部51はウェブページ群タイプ決定部53を制御し、ウェブページ群タイプ決定部53はウェブページタイプ決定部54を制御し、ウェブページ群,確定レコード群及び確定テーブルを用いて、ウェブページ群の各ウェブページに対してタイプ1〜3を決定する。ウェブページ群タイプ決定部53は決定したウェブページ群の各ウェブページのタイプをウェブページタイプテーブル57に記録する。   In step S6, the overall processing unit 51 controls the web page group type determining unit 53, the web page group type determining unit 53 controls the web page type determining unit 54, and stores the web page group, the confirmed record group, and the confirmed table. Use to determine types 1-3 for each web page in the web page group. The web page group type determination unit 53 records the web page type of the determined web page group in the web page type table 57.

図15はステップS2〜S6で形成される処理ループの1周目にステップS6で決定した各ウェブページのタイプを表す一例の説明図である。なお、ステップS2〜S6で形成される処理ループの2,3周目にステップS6で決定した各ウェブページのタイプについては省略する。   FIG. 15 is an explanatory diagram illustrating an example of the type of each web page determined in step S6 in the first round of the processing loop formed in steps S2 to S6. Note that the types of web pages determined in step S6 in the second and third rounds of the processing loop formed in steps S2 to S6 are omitted.

ウェブページタイプテーブル57は例えば図16に示すようなGUIを作成するために利用される。図16は人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。   The web page type table 57 is used, for example, to create a GUI as shown in FIG. FIG. 16 is an image diagram of an example of a GUI for manually determining whether a candidate record and a confirmed record group are the same corporation.

名寄せチェック支援装置40はGUIを作成する画面作成部を設ければ、候補レコード11,確定レコード群12,ウェブページタイプテーブル57を利用することで、タイプ1のウェブページのリンク情報21とタイプ2のウェブページのリンク情報22とを参考情報として含む図16に示すようなGUIを作成できる。なお、名寄せチェック支援装置40はウェブページタイプテーブル57を他の装置へ出力し、他の装置に図16に示すようなGUIを作成させてもよい。   If the name collation check support device 40 is provided with a screen creation unit for creating a GUI, the candidate information 11, the confirmed record group 12, and the web page type table 57 are used to link the link information 21 and the type 2 of the type 1 web page. A GUI as shown in FIG. 16 including the link information 22 of the web page as reference information can be created. Note that the name identification check support device 40 may output the web page type table 57 to another device and cause the other device to create a GUI as shown in FIG.

図17はステップS5の処理手順を表した一例のフローチャートである。ステップS51に進み、ウェブページ群取得部52はステップS3,S4で取り出した候補レコード及び確定レコード群を入力として受け付ける。なお、ウェブページ群取得部52はステップS2〜S6で形成される処理ループの1周目に図18(A)に示す候補レコード及び確定レコード群を受け付け、2周目に図18(B)に示す候補レコード及び確定レコード群を受け付ける。図18ではステップS2〜S6で形成される処理ループの3周目に受け付ける候補レコード及び確定レコード群を省略している。図18は、候補レコード及び確定レコード群からクエリを生成する処理を説明するための説明図である。   FIG. 17 is a flowchart illustrating an example of the processing procedure of step S5. In step S51, the web page group acquisition unit 52 receives the candidate record and the confirmed record group extracted in steps S3 and S4 as inputs. The web page group acquisition unit 52 accepts the candidate record and the confirmed record group shown in FIG. 18A in the first round of the processing loop formed in steps S2 to S6, and in FIG. 18B in the second round. The candidate record and the confirmed record group to be shown are received. In FIG. 18, candidate records and confirmed record groups that are accepted in the third round of the processing loop formed in steps S2 to S6 are omitted. FIG. 18 is an explanatory diagram for explaining a process of generating a query from a candidate record and a confirmed record group.

ステップS52に進み、ウェブページ群取得部52は受け付けた候補レコード及び確定レコード群からクエリを生成する。クエリは、候補レコードから得られる部分クエリと確定レコード群から得られる部分クエリとをAND(論理積)で繋げて生成される。   In step S52, the web page group acquisition unit 52 generates a query from the accepted candidate record and confirmed record group. The query is generated by connecting a partial query obtained from the candidate record and a partial query obtained from the confirmed record group by AND (logical product).

例えば候補レコードから得られる部分クエリは、名称と電話番号とをANDで繋げて生成される。また、確定レコード群から得られる部分クエリは、各確定レコードの名称と電話番号とをANDで繋げた各確定レコードの部分クエリを更にOR(論理和)で繋げて生成される。   For example, a partial query obtained from a candidate record is generated by connecting a name and a telephone number with AND. Further, the partial query obtained from the confirmed record group is generated by further connecting the partial queries of each confirmed record in which the names of the confirmed records and the telephone numbers are connected by AND (OR).

なお、ウェブページ群取得部52は、ステップS2〜S6で形成される処理ループの1周目に図18(A)に示したクエリを生成し、2周目に図18(B)に示したクエリを生成する。   The web page group acquisition unit 52 generates the query shown in FIG. 18A in the first round of the processing loop formed in steps S2 to S6, and shows the query shown in FIG. 18B in the second round. Generate a query.

ステップS53に進み、ウェブページ群取得部52は生成したクエリを用いて検索エンジン55で検索を行う。   In step S53, the web page group acquisition unit 52 performs a search with the search engine 55 using the generated query.

ステップS54に進み、ウェブページ群取得部52は検索結果から一定数のウェブページ群を取得する。なお、検索結果から取得するウェブページ群の数はユーザが予め指定しておいてもよいし、検索結果の全ウェブページを使用するようにしてもよい。   In step S54, the web page group acquisition unit 52 acquires a certain number of web page groups from the search result. Note that the number of web page groups acquired from the search results may be specified in advance by the user, or all web pages of the search results may be used.

また、ステップS5の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のように行われる。ステップS52においてクエリを生成する場合は、候補レコード及び確定レコード群の住所の文字列を、そのまま使用すると、検索エンジン55が完全一致の検索結果を返す仕様のとき、ステップS53において完全一致の検索結果が返される。   In the process of step S5, when “address” is used as the data item of the candidate record and the confirmed record group, it is performed as follows. When generating a query in step S52, if the search engine 55 is designed to return an exact match search result by using the address character strings of the candidate record and the confirmed record group as they are, the complete match search result in step S53. Is returned.

例えば「東京都港区東新橋1−5−2」と「東京都港区東新橋一丁目5番2号」とのような住所の異表記の問題のために、検索結果からウェブページ群を十分に取得できない可能性がある。   For example, because of the problem of different addressing, such as “1-5-2 Higashi Shimbashi, Minato-ku, Tokyo” and “Higashi Shimbashi 1-5-2, Minato-ku, Tokyo” You may not be able to get enough.

そこで、ステップS5の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のような対応を行う。第1の対応は、ステップS53で用いる検索エンジン55を、完全一致以外に曖昧検索も自動的に行って検索結果を返す仕様とする。また、第2の対応は、住所クレンジング(住所表記の正規化)を行う技術を適用し、住所のクレンジングを行う。住所のクレンジング後、ウェブページ群取得部52は予め定めた適当な階層から適当な階層(例えば都道府県名より後から町名)までに短縮してクエリに使用する。例えば「東京都港区東新橋1−5−2」と「東京都港区東新橋一丁目5番2号」との異表記の例では「港区東新橋」に短縮してクエリに使用する。   Therefore, when “address” is used as the data item of the candidate record and the confirmed record group in the process of step S5, the following measures are taken. The first correspondence is such that the search engine 55 used in step S53 automatically performs an ambiguous search in addition to a perfect match and returns a search result. Moreover, the 2nd response | compatibility applies the technique which performs address cleansing (normalization of an address notation), and cleanses an address. After the address is cleansed, the web page group acquisition unit 52 shortens the web page group from a predetermined hierarchy to an appropriate hierarchy (for example, the town name after the prefecture name) and uses it for the query. For example, in the example of different notation between “1-5-2 Higashishinbashi, Minato-ku, Tokyo” and “Higashishinbashi 1-5-2, Minato-ku, Tokyo”, it will be shortened to “Higashishinbashi, Minato-ku” and used for queries .

住所クレンジングを行う技術の一例として、特許第4185399号には、住所を階層ごとに区切り、コードを割り当てる技術が示されている。例えば特許第4185399号に示されている技術は「東京都荒川区南千住1−10−1」に対して「13/118/007/001/010/0001」が得られる。特許第4185399号に示されている技術を利用すれば、住所を適当な階層から適当な階層までに短縮可能であるし、コードから文字列に変換できることは自明であるため、短縮した住所文字列を生成することも可能である。   As an example of a technique for performing address cleansing, Japanese Patent No. 4185399 discloses a technique in which addresses are divided into hierarchies and codes are assigned. For example, the technology disclosed in Japanese Patent No. 4185399 can be obtained as “13/118/007/001/010/0001” for “1-10-1 Minamisenju, Arakawa-ku, Tokyo”. If the technique shown in Japanese Patent No. 4185399 is used, it is obvious that the address can be shortened from an appropriate hierarchy to an appropriate hierarchy, and the code can be converted into a character string. Can also be generated.

図19はステップS6の処理手順を表した一例のフローチャートである。ステップS61に進み、ウェブページ群タイプ決定部53はウェブページ群,確定レコード群及び確定テーブルを入力として受け付ける。   FIG. 19 is a flowchart illustrating an example of the processing procedure of step S6. In step S61, the web page group type determination unit 53 receives a web page group, a confirmed record group, and a confirmed table as inputs.

ステップS62に進み、ウェブページ群タイプ決定部53はウェブページ群に未処理のウェブページがあるか否かを判定する。ウェブページ群に未処理のウェブページがあればウェブページ群タイプ決定部53はステップS63に進み、未処理のウェブページを一つ選択して選択ウェブページとする。なお、ウェブページ群に未処理のウェブページがなければウェブページ群タイプ決定部53は図19のフローチャートの処理を終了する。   In step S62, the web page group type determination unit 53 determines whether there is an unprocessed web page in the web page group. If there is an unprocessed web page in the web page group, the web page group type determining unit 53 proceeds to step S63, and selects one unprocessed web page as a selected web page. If there is no unprocessed web page in the web page group, the web page group type determining unit 53 ends the process of the flowchart of FIG.

ステップS64に進み、ウェブページ群タイプ決定部53はウェブページタイプ決定部54を制御し、選択ウェブページ,確定レコード群及び確定テーブルを入力として、選択ウェブページがタイプ1,タイプ2,タイプ3の何れであるかを決定する。ウェブページ群タイプ決定部53は決定した選択ウェブページのタイプをウェブページタイプテーブル57に記録する。   In step S64, the web page group type determining unit 53 controls the web page type determining unit 54 to input the selected web page, the confirmed record group, and the confirmed table, and the selected web page is of type 1, type 2, type 3. Determine which one. The web page group type determination unit 53 records the determined type of the selected web page in the web page type table 57.

図20はステップS64の処理手順を表した一例のフローチャートである。ステップS6401に進み、ウェブページタイプ決定部54は選択ウェブページ,確定レコード群及び確定テーブルを入力として受け付ける。   FIG. 20 is a flowchart illustrating an example of the processing procedure of step S64. In step S6401, the web page type determination unit 54 receives the selected web page, the confirmed record group, and the confirmed table as inputs.

ステップS6402に進み、ウェブページタイプ決定部54は確定テーブルを利用して選択ウェブページに複数法人の情報が現れているか否かを判定する。なお、ステップS6402の処理の詳細は後述する。選択ウェブページに複数法人の情報が現れていなければ選択ウェブページがタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページの類似ウェブページを複数取得して類似ウェブページ群とする。なお、ステップS6403の処理の詳細は後述する。   Proceeding to step S6402, the web page type determination unit 54 determines whether or not information of a plurality of corporations appears on the selected web page using the confirmation table. Details of the process in step S6402 will be described later. If information on multiple corporations does not appear on the selected web page, there is a possibility that the selected web page is a type 1 web page. Therefore, the web page type determining unit 54 proceeds to step S6403 and selects a similar web page of the selected web page. A plurality of similar web page groups are acquired. Details of the process in step S6403 will be described later.

ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54はステップS6402と同様、確定テーブルを利用して類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。なお、ステップS6404の処理の詳細は後述する。   Progressing to step S6404 following step S6403, the web page type determination unit 54 uses the determination table to determine whether there is a similar web page in which information on multiple corporations appears in the group of similar web pages as in step S6402. Determine. Details of the process in step S6404 will be described later.

ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しなければステップS6405に進み、選択ウェブページをタイプ1と決定する。   If there is no similar web page in which information of multiple corporations appears in the similar web page group, the web page type determination unit 54 proceeds to step S6405 and determines the selected web page as type 1.

また、ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。   Further, if there is a similar web page in which information of a plurality of corporations appears in the similar web page group, the web page type determining unit 54 may not select the type web page as a type 1 web page, and the process advances to step S6408. move on.

ステップS6402において、選択ウェブページに複数法人の情報が現れていれば選択ウェブページがタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、確定テーブルを利用して選択ウェブページに2つ以上の情報が現れる法人が存在するか否かを判定する。なお、ステップS6406の処理の詳細は後述する。   In step S6402, if information on multiple corporations appears on the selected web page, there is no possibility that the selected web page is a type 1 web page. Therefore, the web page type determination unit 54 proceeds to step S6406 and uses the confirmation table. Then, it is determined whether or not there is a corporation in which two or more pieces of information appear on the selected web page. Details of the process in step S6406 will be described later.

ステップS6406において、選択ウェブページに2つ以上の情報が現れる法人が存在しなければ選択ウェブページがタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、ステップS6403と同様、選択ウェブページの類似ウェブページを複数取得して類似ウェブページ群とする。   In step S6406, if there is no corporation in which two or more pieces of information appear in the selected web page, the selected web page may be a type 2 web page. Therefore, the web page type determination unit 54 proceeds to step S6407, Similar to step S6403, a plurality of similar web pages of the selected web page are acquired and set as a similar web page group.

ステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブルを利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。なお、ステップS6408の処理の詳細は後述する。ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければステップS6409に進み、選択ウェブページをタイプ2と決定する。   In step S6408, the web page type determination unit 54 determines whether or not there is a similar web page in which there is a corporation in which two or more pieces of information appear in the similar web page group using the confirmation table, similarly to step S6406. To do. Details of the process in step S6408 will be described later. If there is no similar web page in which there is a corporation in which two or more pieces of information appear in the similar web page group, the web page type determination unit 54 proceeds to step S6409 and determines the selected web page as type 2.

また、ステップS6408において、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すればタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。   In step S6408, if there is a similar web page in which there is a corporation in which two or more pieces of information appear in the similar web page group, there is no possibility that the web page type determining unit 54 is a type 2 web page. Proceeding to S6410, the selected web page is determined as type 3.

また、ステップS6406において、選択ウェブページに2つ以上の情報が現れる法人が存在すれば選択ウェブページがタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。   In step S6406, if there is a corporation in which two or more pieces of information appear in the selected web page, the selected web page is not likely to be a type 2 web page, and the web page type determination unit 54 proceeds to step S6410. The selected web page is determined as type 3.

図20に示したフローチャートは、6通りのフローを有している。そこで、以下では6つの選択ウェブページを用いて6通りのフローを順次説明する。なお、以下では説明に使用しないフローや確定テーブルの確定レコードについて図示や説明を省略する。   The flowchart shown in FIG. 20 has six flows. Therefore, in the following, six flows will be described in order using six selected web pages. In the following, illustrations and explanations of flows that are not used in the description and confirmation records in the confirmation table are omitted.

図21はステップS64の処理の第1のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ101,確定レコード群100及び確定テーブル2を入力として受け付ける。   FIG. 21 is an explanatory diagram for explaining a first flow of the process of step S64. In step S6401, the web page type determination unit 54 receives the selected web page 101, the confirmed record group 100, and the confirmed table 2 as inputs.

ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ101に複数法人の情報(名称、電話番号)が現れているか否かを調べる。   In step S6402, the web page type determination unit 54 uses the confirmation table 2 to check whether information (name, phone number) of a plurality of corporations appears on the selected web page 101.

選択ウェブページ101に複数法人の情報が現れていなければ、言い換えれば単独法人の情報しか現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページである可能性があると判定する。また、選択ウェブページ101に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。   If information on a plurality of corporations does not appear on the selected web page 101, in other words, if only information on a single corporation appears, the web page type determination unit 54 determines that there is a possibility of a type 1 web page. Further, if information on a plurality of corporations appears on the selected web page 101, the web page type determination unit 54 determines that there is no possibility of a type 1 web page.

具体的に、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が選択ウェブページ101に現れるか否かをチェックする。異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が選択ウェブページ101に現れれば、ウェブページタイプ決定部54は選択ウェブページ101に複数法人の情報が現れていると判定する。   Specifically, the web page type determination unit 54 checks whether or not both the name and the telephone number character string appear on the selected web page 101 for each confirmed record in the confirmed table 2. If the information of the confirmed records having different group IDs, that is, different corporations appears on the selected web page 101, the web page type determination unit 54 determines that the information on multiple corporations appears on the selected web page 101.

図21の例では、確定テーブル2の全確定レコードのうち、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」のみが選択ウェブページ101に現れている。言い換えれば、選択ウェブページ101には単独法人の情報しか現れていない。したがって、ウェブページタイプ決定部54は選択ウェブページ101に複数法人の情報が現れていないと判定する。   In the example of FIG. 21, only the name “SSS Ginza store” and the telephone number “03-xxx2-0404” that are information of the confirmed record with the record ID “004” out of all the confirmed records in the confirmed table 2 are selected web pages 101. It is appearing in. In other words, only the information of a single corporation appears on the selected web page 101. Therefore, the web page type determination unit 54 determines that the information on multiple corporations does not appear on the selected web page 101.

選択ウェブページ101がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ101からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ101のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ102,103として取得する。なお、リンクを辿る回数は、ユーザが予め指定しておいてもよい。ウェブページタイプ決定部54は取得した類似ウェブページ102及び103を類似ウェブページ群とする。   Since there is a possibility that the selected web page 101 is a type 1 web page, the web page type determination unit 54 proceeds to step S6403 and selects the selected web from the web pages obtained by following links from the selected web page 101 a certain number of times. Web pages having URLs having different file names at the end of the URL of the page 101 are acquired as similar web pages 102 and 103. Note that the number of times to follow the link may be specified in advance by the user. The web page type determination unit 54 sets the acquired similar web pages 102 and 103 as similar web page groups.

ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ1であると判定する。   Progressing to step S6404 following step S6403, the web page type determination unit 54 determines whether or not there is a similar web page in which information of a plurality of corporations appears in the similar web page group. The web page type determination unit 54 determines that all similar web pages are of type 1 if there is no similar web page in which information of a plurality of corporations appears in the similar web page group.

なお、ステップS6402における処理と同様に、各類似ウェブページの判定において、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が類似ウェブページに現れるか否かをチェックする。異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が類似ウェブページに現れれば、ウェブページタイプ決定部54は類似ウェブページに複数法人の情報が現れていると判定する。   As in the process in step S6402, in determining each similar web page, the web page type determination unit 54 determines whether both the name and the telephone number character string appear in the similar web page for each confirmed record in the confirmation table 2. Check whether or not. If the information of the confirmed records having different group IDs, that is, different corporations appears on the similar web page, the web page type determination unit 54 determines that the information on the plurality of corporations appears on the similar web page.

図21の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「003」の確定レコードの情報である名称「RRR青山店」及び電話番号「03−xxx1−0303」とが類似ウェブページ102に現れている。レコードID「002」及び「003」の確定レコードが共にグループID「2」であるので、ウェブページタイプ決定部54は類似ウェブページ102に複数法人の情報が現れていないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ103も類似ウェブページ102と同様、複数法人の情報が現れていないと判定する。   In the example of FIG. 21, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “003”. “RRR Aoyama store” and telephone number “03-xxx1-0303” appear on the similar web page 102. Since the confirmed records with the record IDs “002” and “003” are both the group ID “2”, the web page type determination unit 54 determines that the information on multiple corporations does not appear on the similar web page 102. Note that the web page type determination unit 54 determines that the similar web page 103 does not show information on a plurality of corporations, similarly to the similar web page 102.

ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しない、言い換えれば全ての類似ウェブページ102,103がタイプ1であることから、ステップS6405に進み、選択ウェブページ101もタイプ1であると決定する。   The web page type determination unit 54 proceeds to step S6405 because there is no similar web page in which information of multiple corporations appears in the similar web page group, in other words, all the similar web pages 102 and 103 are of type 1. The selected web page 101 is also determined to be of type 1.

図22はステップS64の処理の第2のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ104,確定レコード群100及び確定テーブル2を入力として受け付ける。   FIG. 22 is an explanatory diagram for explaining a second flow of the process of step S64. In step S6401, the web page type determination unit 54 receives the selected web page 104, the confirmed record group 100, and the confirmed table 2 as inputs.

ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ104に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ104に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。   In step S6402, the web page type determination unit 54 checks whether or not information of multiple corporations (name, telephone number) appears on the selected web page 104 using the confirmation table 2. If multiple corporate information appears on the selected web page 104, the web page type determination unit 54 determines that there is no possibility of a type 1 web page.

具体的に、ウェブページタイプ決定部54は、異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が選択ウェブページ104に現れれば、ウェブページタイプ決定部54は選択ウェブページ104に複数法人の情報が現れていると判定する。   Specifically, the web page type determining unit 54 has different group IDs, that is, if the information of the confirmed records of different corporations appears on the selected web page 104, the web page type determining unit 54 displays the plurality of corporations on the selected web page 104. It is determined that information appears.

図22の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ104に現れている。レコードID「002」及び「004」の確定レコードのグループIDは、それぞれ「2」及び「3」であるため、選択ウェブページ104には複数法人の情報が現れている。   In the example of FIG. 22, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “004”. “SSS Ginza store” and telephone number “03-xxx2-0404” appear on the selected web page 104. Since the group IDs of the confirmed records with the record IDs “002” and “004” are “2” and “3”, respectively, information on multiple corporations appears on the selected web page 104.

選択ウェブページ104がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ104に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。   Since there is no possibility that the selected web page 104 is a type 1 web page, the web page type determination unit 54 proceeds to step S 6406 and determines whether or not there is a corporation in which two or more information items appear in the selected web page 104. The determination is made using the fixed table 2.

選択ウェブページ104に2つ以上の情報が現れる法人が存在していなければ、ウェブページタイプ決定部54はタイプ2のウェブページの可能性があると判定する。また、選択ウェブページ104に2つ以上の情報が現れる法人が存在していれば、ウェブページタイプ決定部54は、タイプ2のウェブページの可能性がないと判定する。   If there is no corporation in which two or more pieces of information appear in the selected web page 104, the web page type determination unit 54 determines that there is a possibility of a type 2 web page. If there is a corporation in which two or more pieces of information appear on the selected web page 104, the web page type determination unit 54 determines that there is no possibility of a type 2 web page.

具体的に、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が選択ウェブページ104に現れるか否かをチェックする。同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、選択ウェブページ104に現れれば、ウェブページタイプ決定部54は選択ウェブページ104に2つ以上の情報が現れる法人が存在していると判定する。   Specifically, the web page type determination unit 54 checks whether or not both the name and the telephone number character string appear on the selected web page 104 for each confirmed record in the confirmed table 2. If two or more confirmed record information of the same corporation appears in the selected web page 104 with the same group ID, the web page type determination unit 54 has a corporation in which two or more information appears in the selected web page 104. It is determined that

図22の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ104に現れている。レコードID「002」及び「004」の確定レコードのグループIDは、それぞれ「2」及び「3」である。   In the example of FIG. 22, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “004”. “SSS Ginza store” and telephone number “03-xxx2-0404” appear on the selected web page 104. The group IDs of the confirmed records with the record IDs “002” and “004” are “2” and “3”, respectively.

したがって、選択ウェブページ104には同一法人の情報が2つ以上現れていないことになる。ウェブページタイプ決定部54は選択ウェブページ104に同一法人の情報が2つ以上現れていないと判定する。   Therefore, two or more pieces of information on the same corporation do not appear on the selected web page 104. The web page type determination unit 54 determines that two or more pieces of information on the same corporation do not appear on the selected web page 104.

選択ウェブページ104がタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、選択ウェブページ104からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ104のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ105,106として取得する。なお、リンクを辿る回数は、ユーザが予め指定しておいてもよい。ウェブページタイプ決定部54は取得した類似ウェブページ105及び106を類似ウェブページ群とする。   Since there is a possibility that the selected web page 104 is a type 2 web page, the web page type determination unit 54 proceeds to step S6407, and among the web pages obtained by following links from the selected web page 104 a predetermined number of times, the selected web page 104 is determined. Web pages having URLs having different file names at the end of the URL of the page 104 are acquired as similar web pages 105 and 106. Note that the number of times to follow the link may be specified in advance by the user. The web page type determination unit 54 sets the acquired similar web pages 105 and 106 as similar web page groups.

ステップS6407に続いてステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。   Following step S6407, the process proceeds to step S6408, and the web page type determination unit 54 uses the determination table 2 to present a similar web page in which two or more pieces of information appear in the similar web page group, as in step S6406. It is determined whether or not to do.

ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ2であると判定する。   The web page type determination unit 54 determines that all similar web pages are of type 2 if there is no similar web page in which there is a corporation in which two or more pieces of information appear in the similar web page group.

なお、ステップS6406における処理と同様に、各類似ウェブページの判定において、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が類似ウェブページに現れるか否かをチェックする。同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、類似ウェブページに現れれば、ウェブページタイプ決定部54は類似ウェブページに2つ以上の情報が現れる法人が存在していると判定する。   Similar to the processing in step S 6406, in determining each similar web page, the web page type determination unit 54 determines whether both the name and the telephone number character string appear in the similar web page for each confirmed record in the confirmation table 2. Check whether or not. If two or more confirmed record information of the same corporation appears in the same web page with the same group ID, the web page type determination unit 54 has a corporation in which two or more information appears in the similar web page. Is determined.

図22の例では、類似ウェブページ105に、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが現れている。   In the example of FIG. 22, the similar web page 105 includes a name “YYY Yurakucho store” and a telephone number “03-xxx3-0909” which are information of a confirmed record with a record ID “009”, and a confirmed record with a record ID “010”. The name “ZZZ Yurakucho store” and the telephone number “03-xxx3-1010” appear.

レコードID「009」及び「010」の確定レコードがグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ105に2つ以上の情報が現れる法人が存在していないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ106も類似ウェブページ105と同様、2つ以上の情報が現れる法人が存在していないと判定する。   Since the confirmed records with the record IDs “009” and “010” are the group IDs “6” and “7”, the web page type determination unit 54 has a corporation in which two or more pieces of information appear on the similar web page 105. Judge that there is no. Note that the web page type determination unit 54 determines that there is no corporation in which two or more pieces of information appear in the similar web page 106 as in the similar web page 105.

ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在していない、言い換えれば全ての類似ウェブページ105,106がタイプ2であることから、ステップS6409に進み、選択ウェブページ104もタイプ2であると決定する。   The web page type determination unit 54 proceeds to step S6409 because there is no corporation in which two or more pieces of information appear in the similar web page group, in other words, all the similar web pages 105 and 106 are type 2. The selected web page 104 is also determined to be of type 2.

図23はステップS64の処理の第3のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ107,確定レコード群100及び確定テーブル2を入力として受け付ける。   FIG. 23 is an explanatory diagram for explaining a third flow of the process of step S64. In step S6401, the web page type determination unit 54 receives the selected web page 107, the confirmed record group 100, and the confirmed table 2 as inputs.

ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ107に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ107に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。   In step S6402, the web page type determination unit 54 checks whether or not information on multiple corporations (name and telephone number) appears on the selected web page 107 using the confirmation table 2. If information on a plurality of corporations appears on the selected web page 107, the web page type determination unit 54 determines that there is no possibility of a type 1 web page.

図23の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「003」の確定レコードの情報である名称「RRR青山店」及び電話番号「03−xxx1−0303」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ107に現れている。   In the example of FIG. 23, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “003”. The name “SSS Ginza store” and the telephone number “03-xxx2-0404”, which are information of the confirmed record with the record ID “004”, and the telephone number “03-xxx2-0404” are displayed on the selected web page 107 Appears.

レコードID「002」,「003」及び「004」の確定レコードのグループIDは、それぞれ「2」,「2」及び「3」である。したがって、選択ウェブページ107にはグループID「2」,「3」の確定レコードの情報が現れている、即ち複数法人の情報が現れている。   The group IDs of the confirmed records with the record IDs “002”, “003”, and “004” are “2”, “2”, and “3”, respectively. Therefore, the selected web page 107 shows the information of the confirmed records of the group IDs “2” and “3”, that is, the information of a plurality of corporations.

選択ウェブページ107がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ107に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。ウェブページタイプ決定部54は、選択ウェブページ107に2つ以上の情報が現れる法人が存在していれば、タイプ2のウェブページの可能性がないと判定する。   Since there is no possibility that the selected web page 107 is a type 1 web page, the web page type determination unit 54 proceeds to step S 6406 and determines whether or not there is a corporation in which two or more information items appear in the selected web page 107. The determination is made using the fixed table 2. The web page type determination unit 54 determines that there is no possibility of a type 2 web page if there is a corporation in which two or more pieces of information appear on the selected web page 107.

同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、選択ウェブページ107に現れれば、ウェブページタイプ決定部54は選択ウェブページ107に2つ以上の情報が現れる法人が存在すると判定する。   If two or more confirmed record information of the same corporation appears in the selected web page 107 with the same group ID, the web page type determination unit 54 indicates that there is a corporation in which two or more information appears in the selected web page 107. judge.

図23の例では、上記したように、レコードID「002」,「003」及び「004」の確定レコードの情報が選択ウェブページ107に現れている。レコードID「002」,「003」及び「004」の確定レコードのグループIDは、それぞれ「2」,「2」及び「3」である。   In the example of FIG. 23, as described above, the information of the confirmed records having the record IDs “002”, “003”, and “004” appears on the selected web page 107. The group IDs of the confirmed records with the record IDs “002”, “003”, and “004” are “2”, “2”, and “3”, respectively.

したがって、選択ウェブページ107には同一法人(グループID「2」の法人)の情報が2つ以上現れていることになる。ウェブページタイプ決定部54は選択ウェブページ107に同一法人の情報が2つ以上現れていると判定する。選択ウェブページ107がタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。   Accordingly, two or more pieces of information on the same corporation (corporation with the group ID “2”) appear on the selected web page 107. The web page type determination unit 54 determines that two or more pieces of information on the same corporation appear on the selected web page 107. Since there is no possibility that the selected web page 107 is a type 2 web page, the web page type determination unit 54 proceeds to step S6410 and determines the selected web page as type 3.

図24はステップS64の処理の第4のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ108,確定レコード群100及び確定テーブル2を入力として受け付ける。   FIG. 24 is an explanatory diagram for explaining a fourth flow of the process of step S64. In step S6401, the web page type determination unit 54 receives the selected web page 108, the confirmed record group 100, and the confirmed table 2 as inputs.

ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ108に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ108に複数法人の情報が現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページの可能性があると判定する。   In step S6402, the web page type determination unit 54 checks whether or not information of multiple corporations (name, telephone number) appears on the selected web page 108 using the confirmation table 2. If information on multiple corporations does not appear on the selected web page 108, the web page type determination unit 54 determines that there is a possibility of a type 1 web page.

図24の例では、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ108に現れているため、言い換えれば単独法人の情報しか現れていない。したがって、ウェブページタイプ決定部54は選択ウェブページ108に複数法人の情報が現れていないと判定する。   In the example of FIG. 24, the name “SSS Ginza store” and the telephone number “03-xxx2-0404”, which are information of the confirmed record with the record ID “004”, appear on the selected web page 108. In other words, Only information appears. Therefore, the web page type determination unit 54 determines that the information on multiple corporations does not appear on the selected web page 108.

選択ウェブページ108がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ108からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ108のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ109,110として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ109及び110を類似ウェブページ群とする。   Since there is a possibility that the selected web page 108 is a type 1 web page, the web page type determining unit 54 proceeds to step S6403, and among the web pages obtained by following links from the selected web page 108 a certain number of times, the selected web page 108 is selected. Web pages having URLs with different file names at the end of the URL of the page 108 are acquired as similar web pages 109 and 110. The web page type determination unit 54 sets the acquired similar web pages 109 and 110 as similar web page groups.

ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。   Progressing to step S6404 following step S6403, the web page type determination unit 54 determines whether or not there is a similar web page in which information of a plurality of corporations appears in the similar web page group. The web page type determination unit 54 proceeds to step S6408 because there is no possibility that the selected web page is a type 1 web page if there is a similar web page in which information of multiple corporations appears in the similar web page group.

図24の例では、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが類似ウェブページ109に現れている。レコードID「009」及び「010」の確定レコードがそれぞれグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ109に複数法人の情報が現れていると判定する。   In the example of FIG. 24, the name “YYY Yurakucho store” and the telephone number “03-xxx3-0909”, which are information of the confirmed record with the record ID “009”, and the name “3”, which is the information of the confirmed record with the record ID “010”. “ZZZ Yurakucho Store” and telephone number “03-xxx3-1010” appear on the similar web page 109. Since the confirmed records with the record IDs “009” and “010” are the group IDs “6” and “7”, respectively, the web page type determination unit 54 determines that information on multiple corporations appears on the similar web page 109. .

ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在することから、ステップS6408に進み、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。   The web page type determination unit 54 proceeds to step S6408 because there are similar web pages in which information of a plurality of corporations appears in the similar web page group, and two or more in the similar web page group using the confirmation table 2 It is determined whether or not there is a similar web page in which there is a corporation in which the information appears.

ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ2であると判定する。   The web page type determination unit 54 determines that all similar web pages are of type 2 if there is no similar web page in which there is a corporation in which two or more pieces of information appear in the similar web page group.

図24の例では、類似ウェブページ109に、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが現れている。   In the example of FIG. 24, the similar web page 109 has a name “YYY Yurakucho store” and a telephone number “03-xxx3-0909” which are information of a confirmed record with a record ID “009”, and a confirmed record with a record ID “010”. The name “ZZZ Yurakucho store” and the telephone number “03-xxx3-1010” appear.

レコードID「009」及び「010」の確定レコードがグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ109に2つ以上の情報が現れる法人が存在していないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ110も類似ウェブページ109と同様、2つ以上の情報が現れる法人が存在していないと判定する。   Since the confirmed records with the record IDs “009” and “010” are the group IDs “6” and “7”, the web page type determination unit 54 has a corporation in which two or more pieces of information appear on the similar web page 109. Judge that there is no. Note that the web page type determination unit 54 determines that there is no corporation in which two or more pieces of information are present in the similar web page 110 as in the similar web page 109.

ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していない、言い換えれば全ての類似ウェブページ109,110がタイプ2であることから、ステップS6409に進み、選択ウェブページ108もタイプ2であると決定する。   The web page type determination unit 54 proceeds to step S6409 because there is no corporation in which two or more pieces of information appear in the similar web page group, in other words, all the similar web pages 109 and 110 are of type 2. The web page 108 is also determined to be of type 2.

図25はステップS64の処理の第5のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ111,確定レコード群100及び確定テーブル2を入力として受け付ける。   FIG. 25 is an explanatory diagram for explaining a fifth flow of the process of step S64. In step S6401, the web page type determination unit 54 receives the selected web page 111, the confirmed record group 100, and the confirmed table 2 as inputs.

ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ111に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ111に複数法人の情報が現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページの可能性があると判定する。   In step S6402, the web page type determination unit 54 uses the confirmation table 2 to check whether information (name, telephone number) of multiple corporations appears on the selected web page 111. If information on multiple corporations does not appear on the selected web page 111, the web page type determination unit 54 determines that there is a possibility of a type 1 web page.

図25の例では、選択ウェブページ111が図24の選択ウェブページ108と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ111に複数法人の情報が現れていないと判定する。   In the example of FIG. 25, the selected web page 111 is the same as the selected web page 108 of FIG. Therefore, the web page type determination unit 54 determines that the information on multiple corporations does not appear on the selected web page 111.

選択ウェブページ111がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ111からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ111のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ112,113として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ112及び113を類似ウェブページ群とする。   Since there is a possibility that the selected web page 111 is a type 1 web page, the web page type determining unit 54 proceeds to step S6403, and the selected web page among the web pages obtained by following the link from the selected web page 111 a predetermined number of times. Web pages having URLs with different file names at the end of the URL of the page 111 are acquired as similar web pages 112 and 113. The web page type determination unit 54 sets the acquired similar web pages 112 and 113 as similar web page groups.

ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。   Progressing to step S6404 following step S6403, the web page type determination unit 54 determines whether or not there is a similar web page in which information of a plurality of corporations appears in the similar web page group. The web page type determination unit 54 proceeds to step S6408 because there is no possibility that the selected web page is a type 1 web page if there is a similar web page in which information on multiple corporations appears in the similar web page group.

図25の例では、レコードID「001」の確定レコードの情報である名称「QQQ渋谷店」及び電話番号「03−xxx1−0101」と、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」とが類似ウェブページ113に現れている。レコードID「001」及び「002」の確定レコードがそれぞれグループID「1」及び「2」であるので、ウェブページタイプ決定部54は類似ウェブページ113に複数法人の情報が現れていると判定する。   In the example of FIG. 25, the name “QQQ Shibuya store” and the telephone number “03-xxx1-0101”, which are information on the confirmed record with the record ID “001”, and the name “Q” which is the information on the confirmed record with the record ID “002”. “RRR Shibuya store” and telephone number “03-xxx1-0202” appear on the similar web page 113. Since the confirmed records with the record IDs “001” and “002” are the group IDs “1” and “2”, respectively, the web page type determination unit 54 determines that information on multiple corporations appears on the similar web page 113. .

ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在することから、ステップS6408に進み、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。   The web page type determination unit 54 proceeds to step S6408 because there are similar web pages in which information of a plurality of corporations appears in the similar web page group, and two or more in the similar web page group using the confirmation table 2 It is determined whether or not there is a similar web page in which there is a corporation in which the information appears.

ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すれば、選択ウェブページ111がタイプ2のウェブページである可能性がないと判定する。   The web page type determination unit 54 determines that there is no possibility that the selected web page 111 is a type 2 web page if there is a similar web page in which a corporation in which two or more information appears in the similar web page group exists. To do.

図25の例では、類似ウェブページ112に、レコードID「005」の確定レコードの情報である名称「UUU銀座店」及び電話番号「03−xxx2−0505」と、レコードID「006」の確定レコードの情報である名称「VVV有楽町店」及び電話番号「03−xxx3−0606」とが現れている。   In the example of FIG. 25, the similar web page 112 includes a name “UUU Ginza store” and a telephone number “03-xxx2-0505”, which are information of a confirmed record with a record ID “005”, and a confirmed record with a record ID “006”. The name “VVV Yurakucho store” and the telephone number “03-xxx3-0606” appear.

レコードID「005」及び「006」の確定レコードが共にグループID「4」であるので、ウェブページタイプ決定部54は類似ウェブページ112に2つ以上の情報が現れる法人が存在していると判定する。   Since the confirmed records with the record IDs “005” and “006” are both the group ID “4”, the web page type determination unit 54 determines that there is a corporation in which two or more pieces of information appear on the similar web page 112. To do.

ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していることから、ステップS6410に進み、選択ウェブページ111をタイプ3と決定する。   Since there is a corporation in which two or more pieces of information appear in the similar web page group, the web page type determination unit 54 proceeds to step S6410 and determines the selected web page 111 as type 3.

図26はステップS64の処理の第6のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ114,確定レコード群100及び確定テーブル2を入力として受け付ける。   FIG. 26 is an explanatory diagram for explaining a sixth flow of the process of step S64. In step S6401, the web page type determination unit 54 receives the selected web page 114, the confirmed record group 100, and the confirmed table 2 as inputs.

ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ114に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ114に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。   In step S6402, the web page type determination unit 54 uses the confirmation table 2 to check whether information (name, telephone number) of a plurality of corporations appears on the selected web page 114. If multiple corporate information appears in the selected web page 114, the web page type determination unit 54 determines that there is no possibility of a type 1 web page.

図26の例では、選択ウェブページ114が図22の選択ウェブページ104と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ114に複数法人の情報が現れていると判定する。   In the example of FIG. 26, the selected web page 114 is the same as the selected web page 104 of FIG. Therefore, the web page type determination unit 54 determines that information on a plurality of corporations appears on the selected web page 114.

選択ウェブページ114がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ114に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。   Since there is no possibility that the selected web page 114 is a type 1 web page, the web page type determination unit 54 proceeds to step S 6406 and determines whether or not there is a corporation in which two or more information items appear in the selected web page 114. The determination is made using the fixed table 2.

選択ウェブページ114に2つ以上の情報が現れる法人が存在していなければ、ウェブページタイプ決定部54はタイプ2のウェブページの可能性があると判定する。図26の例では、選択ウェブページ114が図22の選択ウェブページ104と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ114に同一法人の情報が2つ以上現れていないと判定する。   If there is no corporation in which two or more pieces of information appear in the selected web page 114, the web page type determination unit 54 determines that there is a possibility of a type 2 web page. In the example of FIG. 26, the selected web page 114 is the same as the selected web page 104 of FIG. Therefore, the web page type determination unit 54 determines that two or more pieces of the same corporation information do not appear on the selected web page 114.

選択ウェブページ114がタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、選択ウェブページ114からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ114のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ115,116として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ115及び116を類似ウェブページ群とする。   Since there is a possibility that the selected web page 114 is a type 2 web page, the web page type determination unit 54 proceeds to step S6407, and the selected web page out of the web pages obtained by following the link from the selected web page 114 a predetermined number of times. Web pages having URLs having different file names at the end of the URL of the page 114 are acquired as similar web pages 115 and 116. The web page type determining unit 54 sets the acquired similar web pages 115 and 116 as a group of similar web pages.

ステップS6407に続いてステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。   Following step S6407, the process proceeds to step S6408, and the web page type determination unit 54 uses the determination table 2 to present a similar web page in which two or more pieces of information appear in the similar web page group, as in step S6406. It is determined whether or not to do.

ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すれば、選択ウェブページ114がタイプ2のウェブページである可能性がないと判定する。   The web page type determination unit 54 determines that there is no possibility that the selected web page 114 is a type 2 web page if there is a similar web page in which there is a corporation in which two or more information appears in the similar web page group. .

図26の例では、類似ウェブページ115,116が図25の類似ウェブページ112,113と同一である。したがって、ウェブページタイプ決定部54は類似ウェブページ115に2つ以上の情報が現れる法人が存在していると判定する。   In the example of FIG. 26, the similar web pages 115 and 116 are the same as the similar web pages 112 and 113 of FIG. Accordingly, the web page type determination unit 54 determines that there is a corporation in which two or more pieces of information appear on the similar web page 115.

ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していることから、ステップS6410に進み、選択ウェブページ114をタイプ3と決定する。   Since there is a corporation in which two or more pieces of information appear in the similar web page group, the web page type determination unit 54 proceeds to step S6410 and determines the selected web page 114 as type 3.

なお、ステップS6402,S6404,S6406,S6408の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のように行われる。ステップS6402,S6404,S6406,S6408の処理においては法人の情報の一つである住所がウェブページに現れるか否かをチェックするときに完全一致でチェックしていては、クエリを生成する場合と同様、住所の異表記の問題で本来同じである住所が同じでないと判定される。   Note that, in the processes of steps S6402, S6404, S6406, and S6408, when “address” is used as the data item of the candidate record and the confirmed record group, it is performed as follows. In the processes of steps S6402, S6404, S6406, and S6408, when checking whether or not an address, which is one of corporate information, appears on the web page, it is checked with a perfect match, as in the case of generating a query. , It is determined that the address which is originally the same due to the problem of different address notation is not the same.

そこで、ステップS6402,S6404,S6406,S6408の処理においては住所の一致を判定する際、次の処理を行う。まず、ウェブページタイプ決定部54は、テキストから住所を抽出する技術を使用し、ウェブページに現れる住所を全て抽出する。次にウェブページタイプ決定部54は、確定テーブル2の全ての住所と、抽出した全ての住所とに対して、住所クレンジングを行う技術を適用し、住所のクレンジングを行う。   Therefore, in the processing of steps S6402, S6404, S6406, and S6408, the following processing is performed when determining whether the addresses match. First, the web page type determination unit 54 uses a technique for extracting an address from text, and extracts all addresses appearing on the web page. Next, the web page type determination unit 54 applies the address cleansing technique to all the addresses in the confirmation table 2 and all the extracted addresses, and cleans the addresses.

住所のクレンジング後、ウェブページタイプ決定部54は予め定めた適当な階層から適当な階層(例えば都道府県名より後から号)までに短縮して、短縮された住所に対して完全一致でチェックする。   After cleansing the address, the web page type determination unit 54 shortens from an appropriate predetermined hierarchy to an appropriate hierarchy (for example, a post-prefecture name) and checks the shortened address with an exact match. .

なお、ここでは確定テーブル2の住所に対して使用時に住所クレンジングを適用しているが、確定テーブル2を受け付けた段階で住所クレンジングを1回適用し、別テーブルに保存して利用するようにしてもよい。   Here, address cleansing is applied to the address of the fixed table 2 at the time of use. However, address cleansing is applied once when the fixed table 2 is received, and is stored and used in a separate table. Also good.

テキストから住所を抽出する技術の一例として、特開2004−280659号公報及び特開2007−179329号公報には、テキストから住所の文字列を抽出する技術が示されている。   As an example of a technique for extracting an address from text, Japanese Patent Application Laid-Open Nos. 2004-280659 and 2007-179329 disclose a technique for extracting a character string of an address from text.

以上、本実施例の名寄せチェック支援装置40は、候補レコード11と確定レコード群12との両者の情報を含んだクエリ13による検索結果から、同一法人か否かの判定に役立つ可能性の高いウェブページとして、タイプ1及び2のウェブページを抽出してユーザに提示している。同一法人か否かの判定に役立つ可能性の高いウェブページは名寄せ処理後のチェック作業(名寄せチェック)においてユーザに利用される。   As described above, the name identification check support device 40 according to the present embodiment is a web that is highly likely to be useful for determining whether or not they are the same corporation from the search result by the query 13 including information on both the candidate record 11 and the confirmed record group 12. As pages, web pages of type 1 and 2 are extracted and presented to the user. Web pages that are likely to be useful for determining whether or not they are the same corporation are used by the user in a check operation after name identification processing (name identification check).

ユーザはタイプ1のウェブページを見ることで候補レコード11が名寄せ可であるかを容易に判定できる。また、ユーザはタイプ2のウェブページを見ることで候補レコード11が名寄せ不可であるかを容易に判定できる。   The user can easily determine whether the candidate record 11 can be identified by looking at the type 1 web page. Further, the user can easily determine whether the candidate record 11 cannot be identified by looking at the type 2 web page.

したがって、ユーザは検索結果のウェブページをやみくもに見る必要がなくなり、同一法人か否かの判定に役立つ可能性の高いウェブページを見て名寄せ処理後のチェック作業を行うことができるので、検索結果のウェブページを順に見ていくというようなチェック作業における無駄を軽減できる。   Therefore, the user does not need to look at the web page of the search result indiscriminately, and can perform a check operation after the name identification process by looking at the web page that is likely to be useful for determining whether or not it is the same corporation. It is possible to reduce the waste of checking work such as sequentially browsing the web pages.

本発明は、以下に記載する付記のような構成が考えられる。
(付記1)
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
を有する名寄せチェック支援装置。
(付記2)
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記1記載の名寄せチェック支援装置。
(付記3)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段を更に有する
付記1又は2記載の名寄せチェック支援装置。
(付記4)
コンピュータを、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
して機能させるための名寄せチェック支援プログラム。
(付記5)
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記4記載の名寄せチェック支援プログラム。
(付記6)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段
として更に機能させるための付記4又は5記載の名寄せチェック支援プログラム。
(付記7)
コンピュータによって実行される名寄せチェック支援方法であって、
前記コンピュータが、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出する抽出ステップと、
前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得ステップと、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定ステップと
を実行する名寄せチェック支援方法。
(付記8)
前記コンテンツタイプ決定ステップは、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないか否かを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記7記載の名寄せチェック支援方法。
(付記9)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成ステップを更に実行する
付記7又は8記載の名寄せチェック支援方法。
The present invention may have the following configurations as described below.
(Appendix 1)
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support device comprising content type determination means for recording in an information storage unit.
(Appendix 2)
The content type determination means, when the name identification described in the first content and the second content do not overlap and belong to different corporations, the information of the first content is the candidate information The name identification check support device according to appendix 1, wherein the name identification target of the storage unit is recorded in the content type information storage unit as content for determining whether the name identification target belongs to a corporation estimated to belong to the name identification target.
(Appendix 3)
When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name collation check support device according to appendix 1 or 2, further comprising a screen creation means for placing content information.
(Appendix 4)
Computer
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support program for functioning as a content type determination unit to be recorded in an information storage unit.
(Appendix 5)
The content type determination means, when the name identification described in the first content and the second content do not overlap and belong to different corporations, the information of the first content is the candidate information The name identification check support program according to appendix 4, wherein the name identification target in the storage unit is recorded in the content type information storage unit as content for determining whether or not the name identification target belongs to a corporation estimated to belong to the name identification target.
(Appendix 6)
When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name identification check support program according to supplementary note 4 or 5 for further functioning as a screen creation means for placing content information.
(Appendix 7)
A name checking support method executed by a computer,
The computer is
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation An extraction step of extracting information on the name identification target,
A content acquisition step of acquiring the first content by a search engine using both the information of the name identification target determined to belong to the one corporation and the information of the name identification target estimated to belong to the one corporation;
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support method for executing a content type determination step to be recorded in an information storage unit.
(Appendix 8)
In the content type determination step, when the name identification targets described in the first content and the second content do not overlap and belong to different corporations, the information on the first content is converted into the candidate information. The name identification check support method according to appendix 7, wherein the name identification target in the storage unit is recorded in the content type information storage unit as content for determining whether or not the name identification target belongs to a corporation estimated to belong to the name identification target.
(Appendix 9)
When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name collation check support method according to appendix 7 or 8, further executing a screen creation step for placing content information.

本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。   The present invention is not limited to the specifically disclosed embodiments, and various modifications and changes can be made without departing from the scope of the claims.

1 法人テーブル
2 確定テーブル
3 候補テーブル
11 候補レコード
12,100 確定レコード群
13 クエリ
20〜23 リンク情報
31〜33 ウェブページ
40 名寄せチェック支援装置
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 主記憶装置
46 演算処理装置
47 インターフェース装置
48 記録媒体
49 バス
51 全体処理部
52 ウェブページ群取得部
53 ウェブページ群タイプ決定部
54 ウェブページタイプ決定部
55 検索エンジン
56 インターネット
57 ウェブページタイプテーブル
101,104,107,108,111,114 選択ウェブページ
102,103,105,106,109,110,112,113,115,116 類似ウェブページ
DESCRIPTION OF SYMBOLS 1 Corporation table 2 Confirmation table 3 Candidate table 11 Candidate record 12,100 Confirmed record group 13 Query 20-23 Link information 31-33 Web page 40 Name checking support device 41 Input device 42 Output device 43 Drive device 44 Auxiliary storage device 45 Main Storage device 46 Arithmetic processing device 47 Interface device 48 Recording medium 49 Bus 51 Overall processing unit 52 Web page group acquisition unit 53 Web page group type determination unit 54 Web page type determination unit 55 Search engine 56 Internet 57 Web page type table 101, 104 , 107, 108, 111, 114 Select web page 102, 103, 105, 106, 109, 110, 112, 113, 115, 116 Similar web pages

Claims (5)

名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
を有する名寄せチェック支援装置。
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support device comprising content type determination means for recording in an information storage unit.
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
請求項1記載の名寄せチェック支援装置。
The content type determination means, when the name identification described in the first content and the second content do not overlap and belong to different corporations, the information of the first content is the candidate information The name identification check support apparatus according to claim 1, wherein the name identification target of the storage unit is recorded in the content type information storage unit as content for determining whether the name identification target belongs to a corporation estimated to belong to the name identification target.
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段を更に有する
請求項1又は2記載の名寄せチェック支援装置。
When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name collation check support device according to claim 1, further comprising screen creation means for placing content information.
コンピュータを、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
して機能させるための名寄せチェック支援プログラム。
Computer
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support program for functioning as a content type determination unit to be recorded in an information storage unit.
コンピュータによって実行される名寄せチェック支援方法であって、
前記コンピュータが、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出する抽出ステップと、
前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得ステップと、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定ステップと
を実行する名寄せチェック支援方法。
A name checking support method executed by a computer,
The computer is
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation An extraction step of extracting information on the name identification target,
A content acquisition step of acquiring the first content by a search engine using both the information of the name identification target determined to belong to the one corporation and the information of the name identification target estimated to belong to the one corporation;
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support method for executing a content type determination step to be recorded in an information storage unit.
JP2010039332A 2010-02-24 2010-02-24 Name identification check support device, name identification check support program, and name identification check support method Active JP5423470B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010039332A JP5423470B2 (en) 2010-02-24 2010-02-24 Name identification check support device, name identification check support program, and name identification check support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010039332A JP5423470B2 (en) 2010-02-24 2010-02-24 Name identification check support device, name identification check support program, and name identification check support method

Publications (2)

Publication Number Publication Date
JP2011175486A JP2011175486A (en) 2011-09-08
JP5423470B2 true JP5423470B2 (en) 2014-02-19

Family

ID=44688277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010039332A Active JP5423470B2 (en) 2010-02-24 2010-02-24 Name identification check support device, name identification check support program, and name identification check support method

Country Status (1)

Country Link
JP (1) JP5423470B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6019187B1 (en) * 2015-08-03 2016-11-02 株式会社インフォマート Company information matching apparatus and company information matching program
JP6652237B2 (en) * 2015-12-01 2020-02-19 株式会社データン Corporate number search device, system, method, program and corporate number addition program
JP7120875B2 (en) * 2018-10-16 2022-08-17 Nttテクノクロス株式会社 Management device, management method and program
JP6840808B1 (en) * 2019-09-11 2021-03-10 デジタル・アドバタイジング・コンソーシアム株式会社 Programs and information processing equipment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3662866B2 (en) * 2001-09-04 2005-06-22 株式会社みずほ銀行 Name identification processing method and name identification processing program
JP3803961B2 (en) * 2001-12-05 2006-08-02 日本電信電話株式会社 Database generation apparatus, database generation processing method, and database generation program
JP2004139237A (en) * 2002-10-16 2004-05-13 Toshiba Corp Name matching method, name matching system, accounting method and accounting system
JP2004303117A (en) * 2003-04-01 2004-10-28 Hitachi Ltd Name sorting database design support method and system

Also Published As

Publication number Publication date
JP2011175486A (en) 2011-09-08

Similar Documents

Publication Publication Date Title
Li et al. Here's what I did: Sharing and reusing web activity with ActionShot
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
US20060173819A1 (en) System and method for grouping by attribute
US20090119268A1 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
JP2007122732A (en) Method for searching dates efficiently in collection of web documents, computer program, and service method (system and method for searching dates efficiently in collection of web documents)
US8560518B2 (en) Method and apparatus for building sales tools by mining data from websites
JP2003076715A (en) Method and system for retrieving web pages, program and recording medium
CN104391978A (en) Method and device for storing and processing web pages of browsers
JP5423470B2 (en) Name identification check support device, name identification check support program, and name identification check support method
CN105808605B (en) A kind of search log merging method and system
JP2010049372A (en) Content search apparatus
CN102591897A (en) Apparatus and method for searching document
JP5284064B2 (en) Product ID server device and method for controlling product ID server device
JP4912384B2 (en) Document search device, document search method, and document search program
KR101556714B1 (en) Method, system and computer readable recording medium for providing search results
WO2007129660A1 (en) Static web page generation method, program, recording medium, and static web page generation management system
US20090248673A1 (en) Method of sorting web pages, search terminal and client terminal
JP2017117021A (en) Keyword extraction device, content generation system, keyword extraction method, and program
JP2010272006A (en) Relation extraction apparatus, relation extraction method and program
JP2006236221A (en) Management server for web page retrieval
Fung et al. Discover information and knowledge from websites using an integrated summarization and visualization framework
JP2006195535A (en) Information extractor, information extraction method, and information extraction program
JP2005056223A (en) Text data retrieval system, method therefor and its program
JP2010186474A (en) Retrieval modeling system using association degree dictionary and method
KR101057997B1 (en) Search engines and search methods using initial text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5423470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150