JP5423470B2 - Name identification check support device, name identification check support program, and name identification check support method - Google Patents
Name identification check support device, name identification check support program, and name identification check support method Download PDFInfo
- Publication number
- JP5423470B2 JP5423470B2 JP2010039332A JP2010039332A JP5423470B2 JP 5423470 B2 JP5423470 B2 JP 5423470B2 JP 2010039332 A JP2010039332 A JP 2010039332A JP 2010039332 A JP2010039332 A JP 2010039332A JP 5423470 B2 JP5423470 B2 JP 5423470B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- information
- name identification
- corporation
- identification target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は名寄せチェックを支援する名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法に関する。 The present invention relates to a name identification check support device, a name identification check support program, and a name identification check support method that support name identification check.
データベース(以下、DBという)には、例えば法人テーブルのように、ある法人を表すレコードが複数含まれているものがあった。異なる営業所のレコードがあるなど、異なるレコードが同一法人を表している場合のある法人テーブルには、同一法人を表しているレコードを同定する処理(名寄せ)へのニーズがあった。 Some databases (hereinafter referred to as DBs) include a plurality of records representing a certain corporation, such as a corporation table. There is a need for a process (name identification) for identifying a record representing the same corporation in a corporation table in which different records represent the same corporation, such as records of different sales offices.
自動的又は半自動的に名寄せを行う既存の名寄せ技術には、レコード対や複数レコード間の類似度を計算して類似度の高い複数レコードを同一法人と確定し、同一法人と確定された複数レコードに対して中程度の類似度を持つレコードを同一法人候補として出力するものがあった。 In existing name identification technology that automatically or semi-automatically performs name identification, the degree of similarity between record pairs and multiple records is calculated, multiple records with high similarity are confirmed as the same corporation, and multiple records that are confirmed as the same corporation In contrast, some records with a medium similarity are output as candidates for the same corporation.
既存の名寄せ技術を用いた名寄せ処理を行う名寄せプログラムや名寄せ装置では、例えば図1に示すように、法人テーブル1が入力されると、確定テーブル2と候補テーブル3とを出力する。図1は、法人テーブル,確定テーブル及び候補テーブルの一例の構成図である。 In a name identification program or name identification device that performs name identification processing using an existing name identification technology, for example, as shown in FIG. 1, when a corporate table 1 is input, a confirmation table 2 and a candidate table 3 are output. FIG. 1 is a configuration diagram of an example of a corporation table, a confirmation table, and a candidate table.
法人テーブル1は異なるレコードが同一法人を表している場合があるものとする。確定テーブル2は名寄せ処理により同一法人であると確定されたレコードに同じグループIDが付与されている。 In the corporation table 1, different records may represent the same corporation. In the confirmation table 2, the same group ID is assigned to records that are confirmed to be the same corporation by the name identification process.
なお、確定テーブル2は同一法人が無いレコードにも単独でグループIDが付与されている。つまり、確定テーブル2において異なるグループIDが付与されたレコードは別の法人であると確定されたことになる。以下では、確定テーブルの各レコードを確定レコードと呼び、同じグループIDを持つ確定レコードを確定レコード群と呼ぶ。 In the determination table 2, a group ID is independently assigned to a record that does not have the same corporation. That is, the record to which a different group ID is assigned in the confirmation table 2 is confirmed to be another corporation. Hereinafter, each record in the confirmation table is referred to as a confirmation record, and a confirmation record having the same group ID is referred to as a confirmation record group.
候補テーブル3は、名寄せ処理により同一法人であると確定できなかったが、確定テーブル2で同一法人と確定されている確定レコード群と同一法人の可能性があるレコードに、確定レコード群と同じグループIDが付与されている。以下では、候補テーブルの各レコードを候補レコードと呼ぶ。 Candidate table 3 could not be confirmed to be the same corporation by the name identification process, but the same group as the confirmed record group is included in the record that may be the same corporation as the confirmed record group confirmed as the same corporation in the confirmation table 2 An ID is assigned. Below, each record of a candidate table is called a candidate record.
例えば図1の候補テーブル3のレコードID「007」の候補レコードは、確定テーブル2のレコードID「004」の確定レコードの法人と同一法人の可能性があることを表している。 For example, the candidate record with the record ID “007” in the candidate table 3 in FIG. 1 indicates that there is a possibility of being the same corporation as the corporation with the record ID “004” in the confirmation table 2.
名寄せ処理を行ったDB管理者等のユーザは、名寄せ処理後、候補レコードの名寄せも遂行したい場合、候補レコードと確定レコード群とを閲覧し、人手によって候補レコードと確定レコード群とが同一法人か否かを判定する。例えばユーザは図2に示すGUIを備えたシステム(以下、名寄せチェックシステム)を利用し、人手によって候補レコードと確定レコード群とが同一法人か否かを判定する。 If a user such as a DB administrator who has performed name identification processing wants to perform name identification of candidate records after name identification processing, the candidate records and confirmed record groups are browsed and whether the candidate records and confirmed record groups are the same corporation manually Determine whether or not. For example, a user uses a system (hereinafter referred to as a name identification check system) having a GUI shown in FIG. 2 and manually determines whether the candidate record and the confirmed record group are the same corporation.
図2は人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。ユーザは候補レコード11と確定レコード群12とが同一法人か否かを様々な方法を用いて判定する。例えば候補レコード11と確定レコード群12とが同一法人か否かを判定する方法の一例としては、候補レコード11と確定レコード群12の両者の情報を共に含むウェブページを閲覧することにより、ユーザが同一法人か否かを判定する方法がある。
FIG. 2 is an image diagram of an example of a GUI for manually determining whether a candidate record and a confirmed record group are the same corporation. The user determines whether the
そこで、候補レコード11と確定レコード群12の両者の情報を共に含むウェブページの閲覧を容易とするため、名寄せチェックシステムは候補レコード11と確定レコード群12の両者の情報を含んだクエリを自動的に生成して検索エンジンで検索し、検索結果を例えば図3に示すように提示することが考えられる。
Therefore, in order to facilitate browsing of a web page including both information of the
図3は候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一例のイメージ図である。クエリ13は候補レコード11と確定レコード群12の両者の情報を含んでいる。検索結果としてリンク情報14で示されたウェブページは候補レコード11と確定レコード群12の両者の情報を含んでいる。
FIG. 3 is an image diagram of an example of a GUI including a search result based on a query including information on both candidate records and a confirmed record group. The
しかし、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13により検索を行った場合、検索結果としてリンク情報14で示されるウェブページの数は多くなることがある。したがって、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13により検索を行った場合、ユーザは検索結果としてリンク情報14で示されるウェブページを順に見ていく必要があり、作業に無駄があった。
However, when a search is performed using a
ユーザの作業の無駄を削減するためには、例えば検索結果としてリンク情報14で示されるウェブページを、ウェブページから得ることのできるスコアや信頼度に応じて並び替えること又は抽出することが考えられる。
In order to reduce the waste of the user's work, for example, the web page indicated by the
ウェブページに含まれる電話番号や住所の個数を数え、数えた個数をウェブページのスコアとする技術は従来から知られている(例えば特許文献1参照)。また、予め設定されたキーワードがウェブページに含まれるか否かによってウェブページの信頼度を決定する技術も従来から知られている(例えば特許文献2参照)。 A technique for counting the number of telephone numbers and addresses included in a web page and using the counted number as the score of the web page has been conventionally known (see, for example, Patent Document 1). A technique for determining the reliability of a web page based on whether or not a keyword set in advance is included in the web page is also known (see, for example, Patent Document 2).
しかし、検索結果としてリンク情報14で示されるウェブページを、ウェブページから得ることのできるスコアや信頼度に応じて並び替え又は抽出するだけでは、同一法人か否かの判定という観点から有用なウェブページの順番が先になるように並び替えること又は抽出することはできないという問題があった。
However, if the web page indicated by the
例えばウェブページに含まれる電話番号や住所の個数を数えてウェブページのスコアとする技術では、同一法人か否かの判定という観点から有用なウェブページを抽出することができない。また、予め設定されたキーワードがウェブページに含まれるか否かによってウェブページの信頼度を決定する技術では、同一法人か否かの判定という観点から有用なウェブページを決定するようなキーワードを予め網羅しておくことが現実的でなく、精度の良いキーワードを見つけることも難しい。 For example, with the technology that counts the number of phone numbers and addresses included in a web page and sets the score of the web page, it is not possible to extract a useful web page from the viewpoint of determining whether or not they are the same corporation. Further, in the technology for determining the reliability of a web page based on whether or not a preset keyword is included in the web page, a keyword that determines a useful web page is determined in advance from the viewpoint of determining whether or not the web page is the same corporation. It is not realistic to cover them, and it is difficult to find accurate keywords.
本発明の一実施形態は、同一法人か否かの判定に有用なコンテンツを容易に抽出できる名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法を提供することを目的とする。 An object of one embodiment of the present invention is to provide a name collation check support device, a name collation check support program, and a name collation check support method that can easily extract contents useful for determining whether or not they are the same corporation.
上記課題を解決するため、本発明の一実施形態の名寄せチェック支援装置は、名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段とを有する。 In order to solve the above-described problem, the name collation check support device according to an embodiment of the present invention determines that the name identification target information and the name identification target output are output by the process of identifying the name identification target to the corporation to which the name identification target belongs. And a candidate information storage unit that associates the information on the name identification target with the information on the corporate entity that is estimated to belong to the name identification target. The information of the name identification target determined to belong to the corporation and the information of the name identification target estimated to belong to the one corporation are extracted, and the information of the name identification target confirmed to belong to the one corporation and the one corporation Content acquisition means for acquiring the first content by a search engine using both of the target information that is estimated to belong to the search engine as a key, and the link information of the acquired first content When the second content at the storage position that approximates the link information is acquired and the name identification target described in the first content and the second content belongs to the one corporation, the first content Content type determination means for recording information on the content in the content type information storage unit as content for determining whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target; Have
なお、本発明の一実施形態の構成要素、表現又は構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。 In addition, what applied the component, the expression, or the arbitrary combinations of the component of one Embodiment of this invention to a method, an apparatus, a system, a computer program, a recording medium, a data structure, etc. is also effective as an aspect of this invention. .
本発明の一実施形態によれば、同一法人か否かの判定に有用なコンテンツを容易に抽出できる名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法を提供可能である。 According to an embodiment of the present invention, it is possible to provide a name collation check support device, a name collation check support program, and a name collation check support method that can easily extract content useful for determining whether or not they are the same corporation.
次に、本発明を実施するための形態を、以下の実施例に基づき図面を参照しつつ説明していく。 Next, modes for carrying out the present invention will be described based on the following embodiments with reference to the drawings.
図4は候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一実施例のイメージ図である。本実施例の名寄せチェック支援装置は、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13を自動的に生成して検索エンジンで検索し、検索結果を得る。
FIG. 4 is an image diagram of an embodiment of a GUI including a search result by a query including information on both candidate records and a confirmed record group. The name identification check support device according to the present embodiment automatically generates a
名寄せチェック支援装置は、検索結果のウェブページの中から、同一法人か否かの判定に有用なウェブページのリンク情報20を抽出し、ユーザに提示する。なお、リンク情報とはURLなどのコンピュータ上の格納位置を示す情報である。ウェブページはコンテンツの一例である。
The name collation check support device extracts link
同一法人か否かの判定に有用なウェブページのリンク情報20には同一法人の情報のみが載っているウェブページ(以下、タイプ1のウェブページという)のリンク情報21と同一法人の情報が重複して載っていないウェブページ(以下、タイプ2のウェブページという)のリンク情報22とが含まれる。
The
なお、タイプ1のウェブページは同一法人と判定しやすい、言い換えれば名寄せ可と判定しやすいウェブページである。また、タイプ2のウェブページは同一法人でないと判定しやすい、言い換えれば名寄せ不可と判定しやすいウェブページである。
Note that the
そこで、ユーザの作業の無駄を削減するため、名寄せチェック支援装置はユーザが検索結果のウェブページをやみくもに見ることがないように、検索結果のウェブページの中からタイプ1及び2のウェブページを同定してユーザに提示している。
Therefore, in order to reduce the waste of the user's work, the name identification check support device selects
図5はタイプ1のウェブページについて説明するための説明図である。ここではSSS社の店舗リストのウェブページ31がタイプ1のウェブページであるとする。図5のGUIにはタイプ1のウェブページ31のリンク情報21が含まれる。SSS社の店舗リストのウェブページ31に載っているSSS銀座店,TTT有楽町店及びTTT池袋店は何れもSSS社の店舗である。
FIG. 5 is an explanatory diagram for explaining a
このように、SSS社の店舗リストのウェブページ31は、SSS社の情報(同一法人の情報)のみが載っている。したがって、ユーザはタイプ1のウェブページとしてSSS社の店舗リストのウェブページ31を見ることで、候補レコード11及び確定レコード群12の法人が同一法人であると判定できる。
As described above, the
図6はタイプ2のウェブページについて説明するための説明図である。ここでは銀座周辺W会法人リストのウェブページ32がタイプ2のウェブページであるとする。図6のGUIにはタイプ2のウェブページ32のリンク情報22が含まれる。銀座周辺W会法人リストのウェブページ32に載っているSSS銀座店,TTT有楽町店及びUUU銀座店は何れも別法人の店舗である。
FIG. 6 is an explanatory diagram for explaining a
このように、銀座周辺W会法人リストのウェブページ32は、同一法人の情報が重複して載っていない。したがって、ユーザはタイプ2のウェブページとして銀座周辺W会法人リストのウェブページ32を見ることで、候補レコード11及び確定レコード群12の法人が同一法人でないと判定できる。
Thus, the
図7はタイプ3のウェブページについて説明するための説明図である。ここでは銀座周辺店舗リストのウェブページ33がタイプ3のウェブページであるとする。ここでタイプ3のウェブページとはタイプ1のウェブページでもタイプ2のウェブページでもないウェブページとする。タイプ3のウェブページは、複数法人の情報が載っていると共に、同一法人の情報が重複して載っているウェブページである。
FIG. 7 is an explanatory diagram for explaining a
図7のGUIにはタイプ3のウェブページ33のリンク情報23が含まれる。銀座周辺店舗リストのウェブページ33に載っているUUU銀座店とVVV有楽町店とは同一法人の店舗である。また、銀座周辺店舗リストのウェブページ33に載っているXXX有楽町店はUUU銀座店及びVVV有楽町店の法人と別法人の店舗である。
The GUI of FIG. 7 includes link information 23 of a
このように、銀座周辺店舗リストのウェブページ33は、複数法人の情報が載っていると共に、同一法人の情報が重複して載っている。したがって、ユーザはタイプ3のウェブページである銀座周辺店舗リストのウェブページ33を見ても、同一法人か否かを判定するための参考情報として適していないため、候補レコード11及び確定レコード群12の法人が同一法人であるか否かを判定できない。
As described above, the
このように、本実施例の名寄せチェック支援装置は、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13を生成し、クエリ13によりウェブ検索された検索結果のウェブページ群の各ウェブページを、タイプ1のウェブページ,タイプ2のウェブページ及びタイプ3のウェブページに、自動的に同定するものである。
As described above, the name collation check support device according to the present embodiment generates a
図8は名寄せチェック支援装置の一例のハードウェア構成図である。名寄せチェック支援装置40は、バス49で相互に接続された入力装置41,出力装置42,ドライブ装置43,補助記憶装置44,主記憶装置45,演算処理装置46及びインターフェース装置47を有する。
FIG. 8 is a hardware configuration diagram of an example of the name identification check support apparatus. The name identification
入力装置41はキーボードやマウス等である。入力装置41は、各種信号を入力するために用いられる。出力装置42はディスプレイ装置等である。出力装置42は、各種ウインドウやデータ等を表示するために用いられる。インターフェース装置47は、モデム又はLANカード等である。インターフェース装置47は、ネットワークに接続するために用いられる。
The
名寄せチェック支援装置40を制御する名寄せチェック支援プログラムは記録媒体48の配布やネットワークからのダウンロードなどによって提供される。名寄せチェック支援プログラムは、補助記憶装置44にインストールされる。また、補助記憶装置44は名寄せチェック支援プログラムの他、必要なファイル,データ等を格納する。
The name identification check support program for controlling the name identification
主記憶装置45は、名寄せチェック支援装置40の起動時に補助記憶装置44から名寄せチェック支援プログラムを読み出して格納する。演算処理装置46は主記憶装置45に格納された名寄せチェック支援プログラムに従って、後述するような各種処理を実現している。
The
図9は名寄せチェック支援装置の一例の処理ブロック構成図である。名寄せチェック支援装置40は全体処理部51,ウェブページ群取得部52,ウェブページ群タイプ決定部53を有する。ウェブページ群タイプ決定部53はウェブページタイプ決定部54を有している。
FIG. 9 is a process block configuration diagram of an example of the name identification check support device. The name identification
名寄せチェック支援装置40は、例えば図1の法人テーブル1を名寄せ処理した名寄せ結果である確定テーブル2と候補テーブル3とが入力される。なお、各テーブルはDBの形式の一例であり、上記した補助記憶装置44又は主記憶装置45に記憶される。
The name identification
名寄せチェック支援装置40の全体処理部51は、ウェブページ群取得部52及びウェブページ群タイプ決定部53を制御し、候補テーブル3中の各候補レコードについて以下の処理を行わせる。
The
ウェブページ群取得部52は、候補レコードと同じグループIDを持った確定レコード群を確定テーブル2から読み出す。ウェブページ群取得部52は候補レコード及び確定レコード群の両者の情報を含んだクエリを作成し、検索エンジン55で検索する。以下ではクエリにより検索された検索結果の複数のウェブページをウェブページ群と呼ぶ。
The web page
ウェブページ群タイプ決定部53は、ウェブページタイプ決定部54を制御し、ウェブページ群中の各ウェブページについて以下の処理を行う。ウェブページタイプ決定部54は処理対象として選択された選択ウェブページがタイプ1又はタイプ2のウェブページである可能性があるか否かを後述のように調べる。
The web page group
ウェブページタイプ決定部54は、選択ウェブページがタイプ1又はタイプ2のウェブページである可能性があれば、選択ウェブページの類似ウェブページをインターネット56から取得する。なお、ウェブページタイプ決定部54は選択ウェブページの類似ウェブページを、格納位置を示す文字列の類似で判断する。URLのように格納位置を示す文字列が階層化されている場合には、上位階層を示す文字列が一致するが、下位階層の文字列が異なるものを類似と判断する。例えば、選択ウェブページの類似ウェブページは選択ウェブページのURLに対して末尾のファイル名が異なるURL(例えば「http://www.aaa.z/12.html」に対して「http://www.aaa.z/13.html」)を持つウェブページである。
If there is a possibility that the selected web page is a
ウェブページタイプ決定部54は、選択ウェブページがタイプ1のウェブページである可能性があれば、類似ウェブページが全てタイプ1か調べる。類似ウェブページが全てタイプ1であれば、ウェブページタイプ決定部54は選択ウェブページもタイプ1のウェブページである可能性が高いと判定し、選択ウェブページをタイプ1のウェブページと決定する。
If there is a possibility that the selected web page is a
ウェブページタイプ決定部54は、選択ウェブページがタイプ2のウェブページである可能性があれば、類似ウェブページが全てタイプ2か調べる。類似ウェブページが全てタイプ2であれば、ウェブページタイプ決定部54は選択ウェブページもタイプ2のウェブページである可能性が高いと判定し、選択ウェブページをタイプ2のウェブページと決定する。
If there is a possibility that the selected web page is a
ウェブページタイプ決定部54は、選択ウェブページをタイプ1のウェブページともタイプ2のウェブページとも決定しなければ、選択ウェブページをタイプ3のウェブページと決定する。
If the selected web page is neither a
ウェブページ群タイプ決定部53はウェブページ群中の各ウェブページがタイプ1〜3の何れのウェブページであるかを決定したあと、図10に示すようなウェブページタイプテーブルに記録する。
The web page group
図10はウェブページタイプテーブルの一例の構成図である。図10のウェブページタイプテーブル57はデータ項目として、候補レコードのレコードID,ウェブページのタイプ,ウェブページのURLを有する。なお、ウェブページタイプテーブル57はタイプ3のウェブページに関する記録を省略してもよい。
FIG. 10 is a configuration diagram of an example of the web page type table. The web page type table 57 of FIG. 10 has record IDs of candidate records, web page types, and web page URLs as data items. Note that the web page type table 57 may omit records relating to
ウェブページタイプテーブル57は例えば図4に示すようなGUIを作成するために利用される。名寄せチェック支援装置40はGUIを作成する画面作成部を設ければ、ウェブページタイプテーブル57を利用して、タイプ1の選択ウェブページのリンク情報21とタイプ2の選択ウェブページのリンク情報22とを参考情報として含む図4に示すようなGUIを作成できる。なお、名寄せチェック支援装置40はウェブページタイプテーブル57を他の装置へ出力し、他の装置に図4に示すようなGUIを作成させてもよい。
The web page type table 57 is used, for example, to create a GUI as shown in FIG. If the name collation
このように、名寄せチェック支援装置40は法人テーブルを名寄せ処理した名寄せ結果である確定テーブル2と候補テーブル3とを利用して、タイプを同定したいウェブページの類似ウェブページ群が全てタイプ1のウェブページか、全てタイプ2のウェブページかを調べる。
As described above, the name identification
類似ウェブページ群が全てタイプ1のウェブページであれば名寄せチェック支援装置40はタイプを同定したいウェブページのタイプをタイプ1と決定する。類似ウェブページ群が全てタイプ2のウェブページであれば、名寄せチェック支援装置40はタイプを同定したいウェブページのタイプをタイプ2と決定する。
If all the similar web page groups are
本実施例の名寄せチェック支援装置40は、ウェブサイトの管理者が複数の法人情報を載せる複数のウェブページを作成する際、類似ウェブページ間のタイプが同じとなるように作成するケースが、ある程度以上存在することを仮定している。この仮定により、名寄せチェック支援装置40はウェブページタイプ決定部54において、上記のウェブサイトに属するウェブページのタイプを決定できる。
In the name collation
なお、類似ウェブページ間のタイプが同じとなるように作成するケースとして、例えばタイプ1の複数のウェブページを含むウェブサイトとしては、1つの法人の店舗リストを1つのウェブページに記載し、複数法人分のウェブページをまとめたウェブサイトが挙げられる。
In addition, as a case where it creates so that the type between similar web pages may become the same, for example, as a website containing a plurality of web pages of
また、タイプ2の複数のウェブページを含むウェブサイトとしては、例えば、ある区域に存在する法人を名称の頭文字別に、あ行の法人リスト,か行の法人リスト,……,わ行の法人リストのように別のウェブページにしてまとめたウェブサイトが挙げられる。
In addition, as a website including a plurality of
以下では、本実施例の名寄せチェック支援装置40の処理手順について説明する。図11は名寄せチェック支援装置の処理手順を表した一例のフローチャートである。
Below, the process sequence of the name collation
ステップS1に進み、全体処理部51は確定テーブル2と候補テーブル3とを入力として受け付ける。ここでは、図1に示す確定テーブル2及び候補テーブル3を例として説明する。なお、図1に示す確定テーブル2及び候補テーブル3は同一法人の店舗を名寄せ対象とする例を表したものであるが、同一法人の支店,営業所,工場などを名寄せ対象とするものであってもよい。
In step S1, the
また、図1に示す確定テーブル2及び候補テーブル3は名称,電話番号をデータ項目として有しているが、住所や社長名など、ウェブページ上で名寄せ対象と関連付けられて表示される情報をデータ項目として有していればよい。 In addition, although the confirmation table 2 and candidate table 3 shown in FIG. 1 have names and telephone numbers as data items, information such as addresses and president names that are displayed in association with the name identification target on the web page is data. It only has to have as an item.
ステップS2に進み、全体処理部51は図1の候補テーブル3に未処理の候補レコードがあるか否かを判定する。全体処理部51は候補テーブル3に未処理の候補レコードがあれば、ステップS3に進み、候補テーブル3から未処理の候補レコードを1つ取り出す。全体処理部51は候補テーブル3に未処理の候補レコードがなければ、図11のフローチャートの処理を終了する。
In step S2, the
図12はステップS3で候補テーブルから取り出す候補レコードを表した一例の説明図である。図12はステップS2〜S6で形成される処理ループの1〜3周目にステップS3で取り出す候補レコードを具体的に表している。 FIG. 12 is an explanatory diagram showing an example of candidate records extracted from the candidate table in step S3. FIG. 12 specifically shows candidate records extracted in step S3 in the first to third rounds of the processing loop formed in steps S2 to S6.
ステップS4に進み、全体処理部51は候補レコードと同じグループIDを持つ確定レコードを確定テーブル2から全て取り出し、確定レコード群とする。
In step S4, the
図13はステップS4で確定テーブルから取り出す確定レコード群を表した一例の説明図である。図13はステップS2〜S6で形成される処理ループの1〜3周目にステップS4で取り出す確定レコード群を具体的に表している。 FIG. 13 is an explanatory diagram illustrating an example of a confirmed record group extracted from the confirmation table in step S4. FIG. 13 specifically shows the confirmed record group extracted in step S4 in the first to third rounds of the processing loop formed in steps S2 to S6.
ステップS5に進み、全体処理部51はウェブページ群取得部52を制御し、取り出した候補レコード及び確定レコード群を入力として、クエリを生成し、クエリを用いて検索エンジン55で検索して、検索結果から一定数のウェブページ群を取得する。図14はステップS5で取得したウェブページ群を表した一例の説明図である。
In step S5, the
ステップS6に進み、全体処理部51はウェブページ群タイプ決定部53を制御し、ウェブページ群タイプ決定部53はウェブページタイプ決定部54を制御し、ウェブページ群,確定レコード群及び確定テーブルを用いて、ウェブページ群の各ウェブページに対してタイプ1〜3を決定する。ウェブページ群タイプ決定部53は決定したウェブページ群の各ウェブページのタイプをウェブページタイプテーブル57に記録する。
In step S6, the
図15はステップS2〜S6で形成される処理ループの1周目にステップS6で決定した各ウェブページのタイプを表す一例の説明図である。なお、ステップS2〜S6で形成される処理ループの2,3周目にステップS6で決定した各ウェブページのタイプについては省略する。 FIG. 15 is an explanatory diagram illustrating an example of the type of each web page determined in step S6 in the first round of the processing loop formed in steps S2 to S6. Note that the types of web pages determined in step S6 in the second and third rounds of the processing loop formed in steps S2 to S6 are omitted.
ウェブページタイプテーブル57は例えば図16に示すようなGUIを作成するために利用される。図16は人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。 The web page type table 57 is used, for example, to create a GUI as shown in FIG. FIG. 16 is an image diagram of an example of a GUI for manually determining whether a candidate record and a confirmed record group are the same corporation.
名寄せチェック支援装置40はGUIを作成する画面作成部を設ければ、候補レコード11,確定レコード群12,ウェブページタイプテーブル57を利用することで、タイプ1のウェブページのリンク情報21とタイプ2のウェブページのリンク情報22とを参考情報として含む図16に示すようなGUIを作成できる。なお、名寄せチェック支援装置40はウェブページタイプテーブル57を他の装置へ出力し、他の装置に図16に示すようなGUIを作成させてもよい。
If the name collation
図17はステップS5の処理手順を表した一例のフローチャートである。ステップS51に進み、ウェブページ群取得部52はステップS3,S4で取り出した候補レコード及び確定レコード群を入力として受け付ける。なお、ウェブページ群取得部52はステップS2〜S6で形成される処理ループの1周目に図18(A)に示す候補レコード及び確定レコード群を受け付け、2周目に図18(B)に示す候補レコード及び確定レコード群を受け付ける。図18ではステップS2〜S6で形成される処理ループの3周目に受け付ける候補レコード及び確定レコード群を省略している。図18は、候補レコード及び確定レコード群からクエリを生成する処理を説明するための説明図である。
FIG. 17 is a flowchart illustrating an example of the processing procedure of step S5. In step S51, the web page
ステップS52に進み、ウェブページ群取得部52は受け付けた候補レコード及び確定レコード群からクエリを生成する。クエリは、候補レコードから得られる部分クエリと確定レコード群から得られる部分クエリとをAND(論理積)で繋げて生成される。
In step S52, the web page
例えば候補レコードから得られる部分クエリは、名称と電話番号とをANDで繋げて生成される。また、確定レコード群から得られる部分クエリは、各確定レコードの名称と電話番号とをANDで繋げた各確定レコードの部分クエリを更にOR(論理和)で繋げて生成される。 For example, a partial query obtained from a candidate record is generated by connecting a name and a telephone number with AND. Further, the partial query obtained from the confirmed record group is generated by further connecting the partial queries of each confirmed record in which the names of the confirmed records and the telephone numbers are connected by AND (OR).
なお、ウェブページ群取得部52は、ステップS2〜S6で形成される処理ループの1周目に図18(A)に示したクエリを生成し、2周目に図18(B)に示したクエリを生成する。
The web page
ステップS53に進み、ウェブページ群取得部52は生成したクエリを用いて検索エンジン55で検索を行う。
In step S53, the web page
ステップS54に進み、ウェブページ群取得部52は検索結果から一定数のウェブページ群を取得する。なお、検索結果から取得するウェブページ群の数はユーザが予め指定しておいてもよいし、検索結果の全ウェブページを使用するようにしてもよい。
In step S54, the web page
また、ステップS5の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のように行われる。ステップS52においてクエリを生成する場合は、候補レコード及び確定レコード群の住所の文字列を、そのまま使用すると、検索エンジン55が完全一致の検索結果を返す仕様のとき、ステップS53において完全一致の検索結果が返される。
In the process of step S5, when “address” is used as the data item of the candidate record and the confirmed record group, it is performed as follows. When generating a query in step S52, if the
例えば「東京都港区東新橋1−5−2」と「東京都港区東新橋一丁目5番2号」とのような住所の異表記の問題のために、検索結果からウェブページ群を十分に取得できない可能性がある。 For example, because of the problem of different addressing, such as “1-5-2 Higashi Shimbashi, Minato-ku, Tokyo” and “Higashi Shimbashi 1-5-2, Minato-ku, Tokyo” You may not be able to get enough.
そこで、ステップS5の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のような対応を行う。第1の対応は、ステップS53で用いる検索エンジン55を、完全一致以外に曖昧検索も自動的に行って検索結果を返す仕様とする。また、第2の対応は、住所クレンジング(住所表記の正規化)を行う技術を適用し、住所のクレンジングを行う。住所のクレンジング後、ウェブページ群取得部52は予め定めた適当な階層から適当な階層(例えば都道府県名より後から町名)までに短縮してクエリに使用する。例えば「東京都港区東新橋1−5−2」と「東京都港区東新橋一丁目5番2号」との異表記の例では「港区東新橋」に短縮してクエリに使用する。
Therefore, when “address” is used as the data item of the candidate record and the confirmed record group in the process of step S5, the following measures are taken. The first correspondence is such that the
住所クレンジングを行う技術の一例として、特許第4185399号には、住所を階層ごとに区切り、コードを割り当てる技術が示されている。例えば特許第4185399号に示されている技術は「東京都荒川区南千住1−10−1」に対して「13/118/007/001/010/0001」が得られる。特許第4185399号に示されている技術を利用すれば、住所を適当な階層から適当な階層までに短縮可能であるし、コードから文字列に変換できることは自明であるため、短縮した住所文字列を生成することも可能である。 As an example of a technique for performing address cleansing, Japanese Patent No. 4185399 discloses a technique in which addresses are divided into hierarchies and codes are assigned. For example, the technology disclosed in Japanese Patent No. 4185399 can be obtained as “13/118/007/001/010/0001” for “1-10-1 Minamisenju, Arakawa-ku, Tokyo”. If the technique shown in Japanese Patent No. 4185399 is used, it is obvious that the address can be shortened from an appropriate hierarchy to an appropriate hierarchy, and the code can be converted into a character string. Can also be generated.
図19はステップS6の処理手順を表した一例のフローチャートである。ステップS61に進み、ウェブページ群タイプ決定部53はウェブページ群,確定レコード群及び確定テーブルを入力として受け付ける。
FIG. 19 is a flowchart illustrating an example of the processing procedure of step S6. In step S61, the web page group
ステップS62に進み、ウェブページ群タイプ決定部53はウェブページ群に未処理のウェブページがあるか否かを判定する。ウェブページ群に未処理のウェブページがあればウェブページ群タイプ決定部53はステップS63に進み、未処理のウェブページを一つ選択して選択ウェブページとする。なお、ウェブページ群に未処理のウェブページがなければウェブページ群タイプ決定部53は図19のフローチャートの処理を終了する。
In step S62, the web page group
ステップS64に進み、ウェブページ群タイプ決定部53はウェブページタイプ決定部54を制御し、選択ウェブページ,確定レコード群及び確定テーブルを入力として、選択ウェブページがタイプ1,タイプ2,タイプ3の何れであるかを決定する。ウェブページ群タイプ決定部53は決定した選択ウェブページのタイプをウェブページタイプテーブル57に記録する。
In step S64, the web page group
図20はステップS64の処理手順を表した一例のフローチャートである。ステップS6401に進み、ウェブページタイプ決定部54は選択ウェブページ,確定レコード群及び確定テーブルを入力として受け付ける。
FIG. 20 is a flowchart illustrating an example of the processing procedure of step S64. In step S6401, the web page
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブルを利用して選択ウェブページに複数法人の情報が現れているか否かを判定する。なお、ステップS6402の処理の詳細は後述する。選択ウェブページに複数法人の情報が現れていなければ選択ウェブページがタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページの類似ウェブページを複数取得して類似ウェブページ群とする。なお、ステップS6403の処理の詳細は後述する。
Proceeding to step S6402, the web page
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54はステップS6402と同様、確定テーブルを利用して類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。なお、ステップS6404の処理の詳細は後述する。
Progressing to step S6404 following step S6403, the web page
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しなければステップS6405に進み、選択ウェブページをタイプ1と決定する。
If there is no similar web page in which information of multiple corporations appears in the similar web page group, the web page
また、ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。
Further, if there is a similar web page in which information of a plurality of corporations appears in the similar web page group, the web page
ステップS6402において、選択ウェブページに複数法人の情報が現れていれば選択ウェブページがタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、確定テーブルを利用して選択ウェブページに2つ以上の情報が現れる法人が存在するか否かを判定する。なお、ステップS6406の処理の詳細は後述する。
In step S6402, if information on multiple corporations appears on the selected web page, there is no possibility that the selected web page is a
ステップS6406において、選択ウェブページに2つ以上の情報が現れる法人が存在しなければ選択ウェブページがタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、ステップS6403と同様、選択ウェブページの類似ウェブページを複数取得して類似ウェブページ群とする。
In step S6406, if there is no corporation in which two or more pieces of information appear in the selected web page, the selected web page may be a
ステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブルを利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。なお、ステップS6408の処理の詳細は後述する。ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければステップS6409に進み、選択ウェブページをタイプ2と決定する。
In step S6408, the web page
また、ステップS6408において、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すればタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。
In step S6408, if there is a similar web page in which there is a corporation in which two or more pieces of information appear in the similar web page group, there is no possibility that the web page
また、ステップS6406において、選択ウェブページに2つ以上の情報が現れる法人が存在すれば選択ウェブページがタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。
In step S6406, if there is a corporation in which two or more pieces of information appear in the selected web page, the selected web page is not likely to be a
図20に示したフローチャートは、6通りのフローを有している。そこで、以下では6つの選択ウェブページを用いて6通りのフローを順次説明する。なお、以下では説明に使用しないフローや確定テーブルの確定レコードについて図示や説明を省略する。 The flowchart shown in FIG. 20 has six flows. Therefore, in the following, six flows will be described in order using six selected web pages. In the following, illustrations and explanations of flows that are not used in the description and confirmation records in the confirmation table are omitted.
図21はステップS64の処理の第1のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ101,確定レコード群100及び確定テーブル2を入力として受け付ける。
FIG. 21 is an explanatory diagram for explaining a first flow of the process of step S64. In step S6401, the web page
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ101に複数法人の情報(名称、電話番号)が現れているか否かを調べる。
In step S6402, the web page
選択ウェブページ101に複数法人の情報が現れていなければ、言い換えれば単独法人の情報しか現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページである可能性があると判定する。また、選択ウェブページ101に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
If information on a plurality of corporations does not appear on the selected
具体的に、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が選択ウェブページ101に現れるか否かをチェックする。異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が選択ウェブページ101に現れれば、ウェブページタイプ決定部54は選択ウェブページ101に複数法人の情報が現れていると判定する。
Specifically, the web page
図21の例では、確定テーブル2の全確定レコードのうち、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」のみが選択ウェブページ101に現れている。言い換えれば、選択ウェブページ101には単独法人の情報しか現れていない。したがって、ウェブページタイプ決定部54は選択ウェブページ101に複数法人の情報が現れていないと判定する。
In the example of FIG. 21, only the name “SSS Ginza store” and the telephone number “03-xxx2-0404” that are information of the confirmed record with the record ID “004” out of all the confirmed records in the confirmed table 2 are selected
選択ウェブページ101がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ101からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ101のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ102,103として取得する。なお、リンクを辿る回数は、ユーザが予め指定しておいてもよい。ウェブページタイプ決定部54は取得した類似ウェブページ102及び103を類似ウェブページ群とする。
Since there is a possibility that the selected
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ1であると判定する。
Progressing to step S6404 following step S6403, the web page
なお、ステップS6402における処理と同様に、各類似ウェブページの判定において、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が類似ウェブページに現れるか否かをチェックする。異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が類似ウェブページに現れれば、ウェブページタイプ決定部54は類似ウェブページに複数法人の情報が現れていると判定する。
As in the process in step S6402, in determining each similar web page, the web page
図21の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「003」の確定レコードの情報である名称「RRR青山店」及び電話番号「03−xxx1−0303」とが類似ウェブページ102に現れている。レコードID「002」及び「003」の確定レコードが共にグループID「2」であるので、ウェブページタイプ決定部54は類似ウェブページ102に複数法人の情報が現れていないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ103も類似ウェブページ102と同様、複数法人の情報が現れていないと判定する。
In the example of FIG. 21, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “003”. “RRR Aoyama store” and telephone number “03-xxx1-0303” appear on the
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しない、言い換えれば全ての類似ウェブページ102,103がタイプ1であることから、ステップS6405に進み、選択ウェブページ101もタイプ1であると決定する。
The web page
図22はステップS64の処理の第2のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ104,確定レコード群100及び確定テーブル2を入力として受け付ける。
FIG. 22 is an explanatory diagram for explaining a second flow of the process of step S64. In step S6401, the web page
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ104に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ104に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
In step S6402, the web page
具体的に、ウェブページタイプ決定部54は、異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が選択ウェブページ104に現れれば、ウェブページタイプ決定部54は選択ウェブページ104に複数法人の情報が現れていると判定する。
Specifically, the web page
図22の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ104に現れている。レコードID「002」及び「004」の確定レコードのグループIDは、それぞれ「2」及び「3」であるため、選択ウェブページ104には複数法人の情報が現れている。
In the example of FIG. 22, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “004”. “SSS Ginza store” and telephone number “03-xxx2-0404” appear on the selected
選択ウェブページ104がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ104に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。
Since there is no possibility that the selected
選択ウェブページ104に2つ以上の情報が現れる法人が存在していなければ、ウェブページタイプ決定部54はタイプ2のウェブページの可能性があると判定する。また、選択ウェブページ104に2つ以上の情報が現れる法人が存在していれば、ウェブページタイプ決定部54は、タイプ2のウェブページの可能性がないと判定する。
If there is no corporation in which two or more pieces of information appear in the selected
具体的に、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が選択ウェブページ104に現れるか否かをチェックする。同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、選択ウェブページ104に現れれば、ウェブページタイプ決定部54は選択ウェブページ104に2つ以上の情報が現れる法人が存在していると判定する。
Specifically, the web page
図22の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ104に現れている。レコードID「002」及び「004」の確定レコードのグループIDは、それぞれ「2」及び「3」である。
In the example of FIG. 22, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “004”. “SSS Ginza store” and telephone number “03-xxx2-0404” appear on the selected
したがって、選択ウェブページ104には同一法人の情報が2つ以上現れていないことになる。ウェブページタイプ決定部54は選択ウェブページ104に同一法人の情報が2つ以上現れていないと判定する。
Therefore, two or more pieces of information on the same corporation do not appear on the selected
選択ウェブページ104がタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、選択ウェブページ104からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ104のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ105,106として取得する。なお、リンクを辿る回数は、ユーザが予め指定しておいてもよい。ウェブページタイプ決定部54は取得した類似ウェブページ105及び106を類似ウェブページ群とする。
Since there is a possibility that the selected
ステップS6407に続いてステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
Following step S6407, the process proceeds to step S6408, and the web page
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ2であると判定する。
The web page
なお、ステップS6406における処理と同様に、各類似ウェブページの判定において、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が類似ウェブページに現れるか否かをチェックする。同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、類似ウェブページに現れれば、ウェブページタイプ決定部54は類似ウェブページに2つ以上の情報が現れる法人が存在していると判定する。
Similar to the processing in
図22の例では、類似ウェブページ105に、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが現れている。 In the example of FIG. 22, the similar web page 105 includes a name “YYY Yurakucho store” and a telephone number “03-xxx3-0909” which are information of a confirmed record with a record ID “009”, and a confirmed record with a record ID “010”. The name “ZZZ Yurakucho store” and the telephone number “03-xxx3-1010” appear.
レコードID「009」及び「010」の確定レコードがグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ105に2つ以上の情報が現れる法人が存在していないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ106も類似ウェブページ105と同様、2つ以上の情報が現れる法人が存在していないと判定する。
Since the confirmed records with the record IDs “009” and “010” are the group IDs “6” and “7”, the web page
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在していない、言い換えれば全ての類似ウェブページ105,106がタイプ2であることから、ステップS6409に進み、選択ウェブページ104もタイプ2であると決定する。
The web page
図23はステップS64の処理の第3のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ107,確定レコード群100及び確定テーブル2を入力として受け付ける。
FIG. 23 is an explanatory diagram for explaining a third flow of the process of step S64. In step S6401, the web page
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ107に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ107に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
In step S6402, the web page
図23の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「003」の確定レコードの情報である名称「RRR青山店」及び電話番号「03−xxx1−0303」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ107に現れている。
In the example of FIG. 23, the name “RRR Shibuya store” and the telephone number “03-xxx1-0202”, which are information on the confirmed record with the record ID “002”, and the name “3”, which is information on the confirmed record with the record ID “003”. The name “SSS Ginza store” and the telephone number “03-xxx2-0404”, which are information of the confirmed record with the record ID “004”, and the telephone number “03-xxx2-0404” are displayed on the selected
レコードID「002」,「003」及び「004」の確定レコードのグループIDは、それぞれ「2」,「2」及び「3」である。したがって、選択ウェブページ107にはグループID「2」,「3」の確定レコードの情報が現れている、即ち複数法人の情報が現れている。
The group IDs of the confirmed records with the record IDs “002”, “003”, and “004” are “2”, “2”, and “3”, respectively. Therefore, the selected
選択ウェブページ107がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ107に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。ウェブページタイプ決定部54は、選択ウェブページ107に2つ以上の情報が現れる法人が存在していれば、タイプ2のウェブページの可能性がないと判定する。
Since there is no possibility that the selected
同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、選択ウェブページ107に現れれば、ウェブページタイプ決定部54は選択ウェブページ107に2つ以上の情報が現れる法人が存在すると判定する。
If two or more confirmed record information of the same corporation appears in the selected
図23の例では、上記したように、レコードID「002」,「003」及び「004」の確定レコードの情報が選択ウェブページ107に現れている。レコードID「002」,「003」及び「004」の確定レコードのグループIDは、それぞれ「2」,「2」及び「3」である。
In the example of FIG. 23, as described above, the information of the confirmed records having the record IDs “002”, “003”, and “004” appears on the selected
したがって、選択ウェブページ107には同一法人(グループID「2」の法人)の情報が2つ以上現れていることになる。ウェブページタイプ決定部54は選択ウェブページ107に同一法人の情報が2つ以上現れていると判定する。選択ウェブページ107がタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。
Accordingly, two or more pieces of information on the same corporation (corporation with the group ID “2”) appear on the selected
図24はステップS64の処理の第4のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ108,確定レコード群100及び確定テーブル2を入力として受け付ける。
FIG. 24 is an explanatory diagram for explaining a fourth flow of the process of step S64. In step S6401, the web page
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ108に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ108に複数法人の情報が現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページの可能性があると判定する。
In step S6402, the web page
図24の例では、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ108に現れているため、言い換えれば単独法人の情報しか現れていない。したがって、ウェブページタイプ決定部54は選択ウェブページ108に複数法人の情報が現れていないと判定する。
In the example of FIG. 24, the name “SSS Ginza store” and the telephone number “03-xxx2-0404”, which are information of the confirmed record with the record ID “004”, appear on the selected
選択ウェブページ108がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ108からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ108のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ109,110として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ109及び110を類似ウェブページ群とする。
Since there is a possibility that the selected
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。
Progressing to step S6404 following step S6403, the web page
図24の例では、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが類似ウェブページ109に現れている。レコードID「009」及び「010」の確定レコードがそれぞれグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ109に複数法人の情報が現れていると判定する。
In the example of FIG. 24, the name “YYY Yurakucho store” and the telephone number “03-xxx3-0909”, which are information of the confirmed record with the record ID “009”, and the name “3”, which is the information of the confirmed record with the record ID “010”. “ZZZ Yurakucho Store” and telephone number “03-xxx3-1010” appear on the
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在することから、ステップS6408に進み、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
The web page
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ2であると判定する。
The web page
図24の例では、類似ウェブページ109に、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが現れている。
In the example of FIG. 24, the
レコードID「009」及び「010」の確定レコードがグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ109に2つ以上の情報が現れる法人が存在していないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ110も類似ウェブページ109と同様、2つ以上の情報が現れる法人が存在していないと判定する。
Since the confirmed records with the record IDs “009” and “010” are the group IDs “6” and “7”, the web page
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していない、言い換えれば全ての類似ウェブページ109,110がタイプ2であることから、ステップS6409に進み、選択ウェブページ108もタイプ2であると決定する。
The web page
図25はステップS64の処理の第5のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ111,確定レコード群100及び確定テーブル2を入力として受け付ける。
FIG. 25 is an explanatory diagram for explaining a fifth flow of the process of step S64. In step S6401, the web page
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ111に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ111に複数法人の情報が現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページの可能性があると判定する。
In step S6402, the web page
図25の例では、選択ウェブページ111が図24の選択ウェブページ108と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ111に複数法人の情報が現れていないと判定する。
In the example of FIG. 25, the selected web page 111 is the same as the selected
選択ウェブページ111がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ111からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ111のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ112,113として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ112及び113を類似ウェブページ群とする。
Since there is a possibility that the selected web page 111 is a
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。
Progressing to step S6404 following step S6403, the web page
図25の例では、レコードID「001」の確定レコードの情報である名称「QQQ渋谷店」及び電話番号「03−xxx1−0101」と、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」とが類似ウェブページ113に現れている。レコードID「001」及び「002」の確定レコードがそれぞれグループID「1」及び「2」であるので、ウェブページタイプ決定部54は類似ウェブページ113に複数法人の情報が現れていると判定する。
In the example of FIG. 25, the name “QQQ Shibuya store” and the telephone number “03-xxx1-0101”, which are information on the confirmed record with the record ID “001”, and the name “Q” which is the information on the confirmed record with the record ID “002”. “RRR Shibuya store” and telephone number “03-xxx1-0202” appear on the
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在することから、ステップS6408に進み、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
The web page
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すれば、選択ウェブページ111がタイプ2のウェブページである可能性がないと判定する。
The web page
図25の例では、類似ウェブページ112に、レコードID「005」の確定レコードの情報である名称「UUU銀座店」及び電話番号「03−xxx2−0505」と、レコードID「006」の確定レコードの情報である名称「VVV有楽町店」及び電話番号「03−xxx3−0606」とが現れている。
In the example of FIG. 25, the
レコードID「005」及び「006」の確定レコードが共にグループID「4」であるので、ウェブページタイプ決定部54は類似ウェブページ112に2つ以上の情報が現れる法人が存在していると判定する。
Since the confirmed records with the record IDs “005” and “006” are both the group ID “4”, the web page
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していることから、ステップS6410に進み、選択ウェブページ111をタイプ3と決定する。
Since there is a corporation in which two or more pieces of information appear in the similar web page group, the web page
図26はステップS64の処理の第6のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ114,確定レコード群100及び確定テーブル2を入力として受け付ける。
FIG. 26 is an explanatory diagram for explaining a sixth flow of the process of step S64. In step S6401, the web page
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ114に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ114に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
In step S6402, the web page
図26の例では、選択ウェブページ114が図22の選択ウェブページ104と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ114に複数法人の情報が現れていると判定する。
In the example of FIG. 26, the selected
選択ウェブページ114がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ114に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。
Since there is no possibility that the selected
選択ウェブページ114に2つ以上の情報が現れる法人が存在していなければ、ウェブページタイプ決定部54はタイプ2のウェブページの可能性があると判定する。図26の例では、選択ウェブページ114が図22の選択ウェブページ104と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ114に同一法人の情報が2つ以上現れていないと判定する。
If there is no corporation in which two or more pieces of information appear in the selected
選択ウェブページ114がタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、選択ウェブページ114からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ114のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ115,116として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ115及び116を類似ウェブページ群とする。
Since there is a possibility that the selected
ステップS6407に続いてステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
Following step S6407, the process proceeds to step S6408, and the web page
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すれば、選択ウェブページ114がタイプ2のウェブページである可能性がないと判定する。
The web page
図26の例では、類似ウェブページ115,116が図25の類似ウェブページ112,113と同一である。したがって、ウェブページタイプ決定部54は類似ウェブページ115に2つ以上の情報が現れる法人が存在していると判定する。
In the example of FIG. 26, the
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していることから、ステップS6410に進み、選択ウェブページ114をタイプ3と決定する。
Since there is a corporation in which two or more pieces of information appear in the similar web page group, the web page
なお、ステップS6402,S6404,S6406,S6408の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のように行われる。ステップS6402,S6404,S6406,S6408の処理においては法人の情報の一つである住所がウェブページに現れるか否かをチェックするときに完全一致でチェックしていては、クエリを生成する場合と同様、住所の異表記の問題で本来同じである住所が同じでないと判定される。 Note that, in the processes of steps S6402, S6404, S6406, and S6408, when “address” is used as the data item of the candidate record and the confirmed record group, it is performed as follows. In the processes of steps S6402, S6404, S6406, and S6408, when checking whether or not an address, which is one of corporate information, appears on the web page, it is checked with a perfect match, as in the case of generating a query. , It is determined that the address which is originally the same due to the problem of different address notation is not the same.
そこで、ステップS6402,S6404,S6406,S6408の処理においては住所の一致を判定する際、次の処理を行う。まず、ウェブページタイプ決定部54は、テキストから住所を抽出する技術を使用し、ウェブページに現れる住所を全て抽出する。次にウェブページタイプ決定部54は、確定テーブル2の全ての住所と、抽出した全ての住所とに対して、住所クレンジングを行う技術を適用し、住所のクレンジングを行う。
Therefore, in the processing of steps S6402, S6404, S6406, and S6408, the following processing is performed when determining whether the addresses match. First, the web page
住所のクレンジング後、ウェブページタイプ決定部54は予め定めた適当な階層から適当な階層(例えば都道府県名より後から号)までに短縮して、短縮された住所に対して完全一致でチェックする。
After cleansing the address, the web page
なお、ここでは確定テーブル2の住所に対して使用時に住所クレンジングを適用しているが、確定テーブル2を受け付けた段階で住所クレンジングを1回適用し、別テーブルに保存して利用するようにしてもよい。 Here, address cleansing is applied to the address of the fixed table 2 at the time of use. However, address cleansing is applied once when the fixed table 2 is received, and is stored and used in a separate table. Also good.
テキストから住所を抽出する技術の一例として、特開2004−280659号公報及び特開2007−179329号公報には、テキストから住所の文字列を抽出する技術が示されている。 As an example of a technique for extracting an address from text, Japanese Patent Application Laid-Open Nos. 2004-280659 and 2007-179329 disclose a technique for extracting a character string of an address from text.
以上、本実施例の名寄せチェック支援装置40は、候補レコード11と確定レコード群12との両者の情報を含んだクエリ13による検索結果から、同一法人か否かの判定に役立つ可能性の高いウェブページとして、タイプ1及び2のウェブページを抽出してユーザに提示している。同一法人か否かの判定に役立つ可能性の高いウェブページは名寄せ処理後のチェック作業(名寄せチェック)においてユーザに利用される。
As described above, the name identification
ユーザはタイプ1のウェブページを見ることで候補レコード11が名寄せ可であるかを容易に判定できる。また、ユーザはタイプ2のウェブページを見ることで候補レコード11が名寄せ不可であるかを容易に判定できる。
The user can easily determine whether the
したがって、ユーザは検索結果のウェブページをやみくもに見る必要がなくなり、同一法人か否かの判定に役立つ可能性の高いウェブページを見て名寄せ処理後のチェック作業を行うことができるので、検索結果のウェブページを順に見ていくというようなチェック作業における無駄を軽減できる。 Therefore, the user does not need to look at the web page of the search result indiscriminately, and can perform a check operation after the name identification process by looking at the web page that is likely to be useful for determining whether or not it is the same corporation. It is possible to reduce the waste of checking work such as sequentially browsing the web pages.
本発明は、以下に記載する付記のような構成が考えられる。
(付記1)
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
を有する名寄せチェック支援装置。
(付記2)
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記1記載の名寄せチェック支援装置。
(付記3)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段を更に有する
付記1又は2記載の名寄せチェック支援装置。
(付記4)
コンピュータを、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
して機能させるための名寄せチェック支援プログラム。
(付記5)
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記4記載の名寄せチェック支援プログラム。
(付記6)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段
として更に機能させるための付記4又は5記載の名寄せチェック支援プログラム。
(付記7)
コンピュータによって実行される名寄せチェック支援方法であって、
前記コンピュータが、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出する抽出ステップと、
前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得ステップと、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定ステップと
を実行する名寄せチェック支援方法。
(付記8)
前記コンテンツタイプ決定ステップは、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないか否かを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記7記載の名寄せチェック支援方法。
(付記9)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成ステップを更に実行する
付記7又は8記載の名寄せチェック支援方法。
The present invention may have the following configurations as described below.
(Appendix 1)
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support device comprising content type determination means for recording in an information storage unit.
(Appendix 2)
The content type determination means, when the name identification described in the first content and the second content do not overlap and belong to different corporations, the information of the first content is the candidate information The name identification check support device according to
(Appendix 3)
When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name collation check support device according to
(Appendix 4)
Computer
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support program for functioning as a content type determination unit to be recorded in an information storage unit.
(Appendix 5)
The content type determination means, when the name identification described in the first content and the second content do not overlap and belong to different corporations, the information of the first content is the candidate information The name identification check support program according to
(Appendix 6)
When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name identification check support program according to
(Appendix 7)
A name checking support method executed by a computer,
The computer is
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation An extraction step of extracting information on the name identification target,
A content acquisition step of acquiring the first content by a search engine using both the information of the name identification target determined to belong to the one corporation and the information of the name identification target estimated to belong to the one corporation;
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support method for executing a content type determination step to be recorded in an information storage unit.
(Appendix 8)
In the content type determination step, when the name identification targets described in the first content and the second content do not overlap and belong to different corporations, the information on the first content is converted into the candidate information. The name identification check support method according to appendix 7, wherein the name identification target in the storage unit is recorded in the content type information storage unit as content for determining whether or not the name identification target belongs to a corporation estimated to belong to the name identification target.
(Appendix 9)
When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name collation check support method according to
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 The present invention is not limited to the specifically disclosed embodiments, and various modifications and changes can be made without departing from the scope of the claims.
1 法人テーブル
2 確定テーブル
3 候補テーブル
11 候補レコード
12,100 確定レコード群
13 クエリ
20〜23 リンク情報
31〜33 ウェブページ
40 名寄せチェック支援装置
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 主記憶装置
46 演算処理装置
47 インターフェース装置
48 記録媒体
49 バス
51 全体処理部
52 ウェブページ群取得部
53 ウェブページ群タイプ決定部
54 ウェブページタイプ決定部
55 検索エンジン
56 インターネット
57 ウェブページタイプテーブル
101,104,107,108,111,114 選択ウェブページ
102,103,105,106,109,110,112,113,115,116 類似ウェブページ
DESCRIPTION OF
Claims (5)
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
を有する名寄せチェック支援装置。 A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support device comprising content type determination means for recording in an information storage unit.
請求項1記載の名寄せチェック支援装置。 The content type determination means, when the name identification described in the first content and the second content do not overlap and belong to different corporations, the information of the first content is the candidate information The name identification check support apparatus according to claim 1, wherein the name identification target of the storage unit is recorded in the content type information storage unit as content for determining whether the name identification target belongs to a corporation estimated to belong to the name identification target.
請求項1又は2記載の名寄せチェック支援装置。 When creating a screen that allows a user to determine whether the name identification target of the candidate information storage unit belongs to a corporation estimated to belong to the name identification target, the first type recorded in the content type information storage unit The name collation check support device according to claim 1, further comprising screen creation means for placing content information.
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
して機能させるための名寄せチェック支援プログラム。 Computer
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation The name identification target information extracted is extracted, and the search engine first uses both the name identification target information determined to belong to the one corporation and the name identification target information estimated to belong to the one corporation as a key. Content acquisition means for acquiring the content of
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support program for functioning as a content type determination unit to be recorded in an information storage unit.
前記コンピュータが、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出する抽出ステップと、
前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得ステップと、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定ステップと
を実行する名寄せチェック支援方法。 A name checking support method executed by a computer,
The computer is
A finalized information storage unit that associates the information of the name identification target and the information of the legal entity that is determined to belong to the name identification target, output by the process of identifying the name identification target to the corporate name to which the name identification target belongs, and the name identification target With reference to the candidate information storage unit that associates information with the information of the corporation that the name identification target is estimated to belong to, it is estimated that the information of the name identification target determined to belong to one corporation and the one corporation An extraction step of extracting information on the name identification target,
A content acquisition step of acquiring the first content by a search engine using both the information of the name identification target determined to belong to the one corporation and the information of the name identification target estimated to belong to the one corporation;
Based on the acquired link information of the first content, the second content at the storage position approximate to the link information is acquired, and the name identification target described in the first content and the second content is the When belonging to one corporation, the content type is used as content for determining whether the name identification target of the candidate information storage unit belongs to the corporation estimated to belong to the name identification object. A name identification check support method for executing a content type determination step to be recorded in an information storage unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010039332A JP5423470B2 (en) | 2010-02-24 | 2010-02-24 | Name identification check support device, name identification check support program, and name identification check support method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010039332A JP5423470B2 (en) | 2010-02-24 | 2010-02-24 | Name identification check support device, name identification check support program, and name identification check support method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011175486A JP2011175486A (en) | 2011-09-08 |
JP5423470B2 true JP5423470B2 (en) | 2014-02-19 |
Family
ID=44688277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010039332A Active JP5423470B2 (en) | 2010-02-24 | 2010-02-24 | Name identification check support device, name identification check support program, and name identification check support method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5423470B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6019187B1 (en) * | 2015-08-03 | 2016-11-02 | 株式会社インフォマート | Company information matching apparatus and company information matching program |
JP6652237B2 (en) * | 2015-12-01 | 2020-02-19 | 株式会社データン | Corporate number search device, system, method, program and corporate number addition program |
JP7120875B2 (en) * | 2018-10-16 | 2022-08-17 | Nttテクノクロス株式会社 | Management device, management method and program |
JP6840808B1 (en) * | 2019-09-11 | 2021-03-10 | デジタル・アドバタイジング・コンソーシアム株式会社 | Programs and information processing equipment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3662866B2 (en) * | 2001-09-04 | 2005-06-22 | 株式会社みずほ銀行 | Name identification processing method and name identification processing program |
JP3803961B2 (en) * | 2001-12-05 | 2006-08-02 | 日本電信電話株式会社 | Database generation apparatus, database generation processing method, and database generation program |
JP2004139237A (en) * | 2002-10-16 | 2004-05-13 | Toshiba Corp | Name matching method, name matching system, accounting method and accounting system |
JP2004303117A (en) * | 2003-04-01 | 2004-10-28 | Hitachi Ltd | Name sorting database design support method and system |
-
2010
- 2010-02-24 JP JP2010039332A patent/JP5423470B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011175486A (en) | 2011-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Here's what I did: Sharing and reusing web activity with ActionShot | |
US20070198727A1 (en) | Method, apparatus and system for extracting field-specific structured data from the web using sample | |
US20060173819A1 (en) | System and method for grouping by attribute | |
US20090119268A1 (en) | Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis | |
JP2007122732A (en) | Method for searching dates efficiently in collection of web documents, computer program, and service method (system and method for searching dates efficiently in collection of web documents) | |
US8560518B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
JP2003076715A (en) | Method and system for retrieving web pages, program and recording medium | |
CN104391978A (en) | Method and device for storing and processing web pages of browsers | |
JP5423470B2 (en) | Name identification check support device, name identification check support program, and name identification check support method | |
CN105808605B (en) | A kind of search log merging method and system | |
JP2010049372A (en) | Content search apparatus | |
CN102591897A (en) | Apparatus and method for searching document | |
JP5284064B2 (en) | Product ID server device and method for controlling product ID server device | |
JP4912384B2 (en) | Document search device, document search method, and document search program | |
KR101556714B1 (en) | Method, system and computer readable recording medium for providing search results | |
WO2007129660A1 (en) | Static web page generation method, program, recording medium, and static web page generation management system | |
US20090248673A1 (en) | Method of sorting web pages, search terminal and client terminal | |
JP2017117021A (en) | Keyword extraction device, content generation system, keyword extraction method, and program | |
JP2010272006A (en) | Relation extraction apparatus, relation extraction method and program | |
JP2006236221A (en) | Management server for web page retrieval | |
Fung et al. | Discover information and knowledge from websites using an integrated summarization and visualization framework | |
JP2006195535A (en) | Information extractor, information extraction method, and information extraction program | |
JP2005056223A (en) | Text data retrieval system, method therefor and its program | |
JP2010186474A (en) | Retrieval modeling system using association degree dictionary and method | |
KR101057997B1 (en) | Search engines and search methods using initial text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5423470 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |