JP2011253232A

JP2011253232A - 名寄せ処理プログラム、名寄せ処理方法、および名寄せ処理装置

Info

Publication number: JP2011253232A
Application number: JP2010124867A
Authority: JP
Inventors: Aya Yamaguchi; 彩山口; Yoshimi Toyoshima; 良美豊島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-05-31
Filing date: 2010-05-31
Publication date: 2011-12-15
Also published as: US20110295881A1

Abstract

【課題】作業者による関与を削減し、名寄せ処理効率の向上を図ること。
【解決手段】指定部３０１は、データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する。特定部３０２は、第１のデータと名寄せしあう第３のデータを特定する。この場合、決定部３０３は、第２のデータと第３のデータを、名寄せしあうデータの組み合わせに決定する。また、決定部３０３は、第２のデータを含むグループのデータと、第３のデータを含むグループのデータを名寄せ元／先データとする組み合わせのデータどうしを、名寄せしあうデータの組み合わせに決定する。
【選択図】図３

Description

この発明は、名寄せ処理プログラム、名寄せ処理方法、および名寄せ処理装置に関する。

従来、金融機関において複数口座を所有する預金者の同一性を確認する名寄せが公知である。広義に解釈して、名寄せは、企業合併などにより企業内データを統合する場合や、重複する顧客情報などを統合または削除する場合に、データベースに蓄積されたデータ群の中から統合または削除可能なデータを特定することも含まれる。

従来の名寄せでは、まず、たとえばデータベースから名寄せをおこなうデータを取得し、このデータに対して、表記の統一、表記ゆれの補正、文字列の分離および分割などをおこなう（標準化，クレンジング）。具体的には、たとえば半角と全角や、（株）と株式会社などの表記を統一したり、キョーやキョウなどの表記ゆれを統一したり、企業の名称から株式会社などを分離する作業をおこなう。

その後、予め設定された抽出条件に基づいて、標準化されたデータから、名寄せする候補となるデータを抽出する。たとえば、名寄せされるデータ（以下、名寄せ元データとする）の照合先となるデータ（以下、名寄せ先データとする）を抽出する。そして、名寄せ元データと名寄せ先データとのたとえば類似度合いを示す度数などを算出し、名寄せ元データと名寄せ先データとを比較する。

名寄せ元データと名寄せ先データとの比較結果に基づいて、名寄せ元データを名寄せ先データと名寄せしあうことができるか否かを判定し、この判定結果を名寄せ結果とする。名寄せ結果は、たとえば市販のデータ統合装置などに入力される。そして、データ統合装置の記憶領域に記憶された名寄せ処理のプログラムなどによって、名寄せ結果に基づいた名寄せがおこなわれる。名寄せのための同一視の判定方法として、たとえば、下記特許文献１，２がある。

特開２００６−０１８３４０号公報特許第３７２１３１５号公報

しかしながら、従来の名寄せでは、作業者が、コンピュータによって作成された名寄せ結果に目を通し、名寄せ元データと名寄せ先データが名寄せしあう組み合わせのデータであるか否かを判定している。作業者が確認する必要のあるデータ件数は、数百万件程度と膨大な件数となるため、作業者がすべての比較結果に目を通すことは現実的には難しい。

また、作業者のミスにより誤った判定がおこなわれた場合、名寄せ結果データに矛盾が生じてしまう。したがって、作業者が確認すべきデータ件数を、現実的なデータ件数にまで絞る必要がある。

また、作業者の確認するデータ件数が膨大であるため、現状では、コンピュータによって機械的に、名寄せしあう組み合わせのデータであるか否かを比較した結果を、そのまま名寄せ結果データとして用いらざるを得ない。この場合、名寄せできない組み合わせのデータを名寄せ結果に含めないために、比較条件を厳しくする必要がある。

また、従来の名寄せでは、名寄せしあう複数のデータごとにグループに分けることは可能であるが、複数のデータに対して１つの名寄せ先データを決定することは難しい。

本開示技術は、上述した従来技術による問題点を解消するため、作業者による名寄せ作業の工数を軽減することができる名寄せ処理プログラム、名寄せ処理方法、および名寄せ処理装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本名寄せ処理プログラム、名寄せ処理方法、および名寄せ処理装置では、一例として、データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定し、かつ第１のデータと名寄せしあう第３のデータを特定した場合、第２のデータと第３のデータを、名寄せしあうデータの組み合わせに決定する。

本開示技術によれば、作業者による名寄せ作業の工数を軽減し、かつ名寄せ結果に矛盾が生じることを防止することができる。

本名寄せ処理プログラム、名寄せ処理方法、および名寄せ処理装置によれば、作業者による名寄せ作業の工数を軽減することができるという効果を奏する。

実施の形態１にかかる名寄せ処理装置のハードウェア構成を示すブロック図である。実施の形態１にかかるデータ運用の一例を示す説明図である。実施の形態１にかかる名寄せ処理装置の機能的構成を示すブロック図である。実施の形態１にかかる名寄せ処理の一例を示す説明図である。実施の形態１にかかる名寄せ処理前の名寄せ候補レコードの一例を示す説明図である。実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの一例を示す説明図である。実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの一例を示す説明図である。実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの一例を示す説明図である。実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの一例を示す説明図である。実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの一例を示す説明図である。実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの一例を示す説明図である。実施の形態１にかかる名寄せ元／先データを示す説明図である。実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの別の一例を示す説明図である。実施の形態１にかかる名寄せ処理手順の一例を示すフローチャートである。実施の形態１にかかる名寄せ処理手順の一例を示すフローチャートである。実施の形態１にかかる名寄せ処理手順の別の一例を示すフローチャートである。実施の形態１にかかる名寄せ処理手順の別の一例を示すフローチャートである。実施の形態１にかかるグループ統合処理手順の一例を示すフローチャートである。実施の形態２にかかる名寄せ処理装置の機能的構成を示すブロック図である。実施の形態２にかかる名寄せ処理の一例を示す説明図である。実施の形態２にかかる名寄せ相手レコードの一例を示す説明図である。実施の形態２にかかる名寄せ処理による決定結果の一例を示す説明図である。実施の形態２にかかる名寄せ処理手順の一例を示すフローチャートである。実施の形態２にかかる評価値算出処理手順の一例を示すフローチャートである。

以下に添付図面を参照して、この発明にかかる名寄せ処理プログラム、名寄せ処理方法、および名寄せ処理装置の好適な実施の形態を詳細に説明する。

・実施の形態１
（名寄せ処理装置のハードウェア構成）
図１は、実施の形態１にかかる名寄せ処理装置のハードウェア構成を示すブロック図である。図１において、名寄せ処理装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１と、ＲＯＭ（Ｒｅａｄ‐ＯｎｌｙＭｅｍｏｒｙ）１０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３と、磁気ディスクドライブ１０４と、磁気ディスク１０５と、光ディスクドライブ１０６と、光ディスク１０７と、ディスプレイ１０８と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１０９と、キーボード１１０と、マウス１１１と、スキャナ１１２と、プリンタ１１３と、を備えている。また、各構成部はバス１００によってそれぞれ接続されている。

ここで、ＣＰＵ１０１は、名寄せ処理装置の全体の制御を司る。ＲＯＭ１０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用される。磁気ディスクドライブ１０４は、ＣＰＵ１０１の制御にしたがって磁気ディスク１０５に対するデータのリード／ライトを制御する。磁気ディスク１０５は、磁気ディスクドライブ１０４の制御で書き込まれたデータを記憶する。

光ディスクドライブ１０６は、ＣＰＵ１０１の制御にしたがって光ディスク１０７に対するデータのリード／ライトを制御する。光ディスク１０７は、光ディスクドライブ１０６の制御で書き込まれたデータを記憶したり、光ディスク１０７に記憶されたデータをコンピュータに読み取らせたりする。

ディスプレイ１０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ１０８は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

インターフェース（以下、「Ｉ／Ｆ」と略する。）１０９は、通信回線を通じてＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク１１４に接続され、このネットワーク１１４を介して他の装置に接続される。そして、Ｉ／Ｆ１０９は、ネットワーク１１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ１０９には、たとえばモデムやＬＡＮアダプタなどを採用することができる。

キーボード１１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス１１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

スキャナ１１２は、画像を光学的に読み取り、名寄せ処理装置内に画像データを取り込む。なお、スキャナ１１２は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を持たせてもよい。また、プリンタ１１３は、画像データや文書データを印刷する。プリンタ１１３には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。

（データ運用方法）
つぎに、データベースから取得したデータを名寄せするときのデータ運用方法について、図２を参照して説明する。図２は、実施の形態１にかかるデータ運用方法の一例を示す説明図である。まず、名寄せ処理装置２００は、データベース２１１にアクセスし、たとえば、データベース２１１に記憶された整理対象のデータ群（以下、整理対象データ群とする）２０１の中からデータを取り出し、名寄せ候補となるデータを抽出する。

具体的には、たとえば、名寄せ処理装置２００は、整理対象データ群２０１の中から、名寄せされるデータ（名寄せ元データ）と、名寄せ元データの照合先となるデータ（名寄せ先データ）を抽出する。抽出されたデータは、たとえばレコード（以下、名寄せ候補レコードとする）単位で記憶され、１テーブルにまとまられたデータ（以下、名寄せ候補データとする）２０２として出力される。

整理対象データ群２０１は、たとえば重複や類似したデータを含むデータ群であってもよいし、実際には重複や類似したデータは含まれないが、所定の名寄せ条件に基づいて名寄せさせるデータを含むデータ群であってもよい。また、整理対象データ群の中のデータは、標準化やクレンジングがおこなわれていてもよい。

ここで、データとは、たとえばロゴマークなどの静止画データ、単語や文章などの文字列データ、音声データなど、コンピュータで処理可能な二進数で記号化することができるデータである。具体的には、データとは、文字列データを一例として説明すると、会社名，氏名，住所，商品名，国名，地名などである。

また、名寄せとは、整理対象データ群の中の１つ以上の整理対象データを、１つの整理対象データに関連付けることである。たとえば、「株式会社○○」，「株式会社 ○○」，「（株）○○」，「株○○」が同一の会社名である場合、これら会社名をあらわす文字列を、たとえば「株式会社○○」に関連付けることである。また、「東京」，「とうきょう」，「トウキョウ（全角文字列）」，「トウキョウ（半角文字列）」「Ｔｏｋｙｏ」が同一の地名である場合、これら地名をあらわす文字列を、たとえば「東京」に関連付けることである。

また、名寄せは、たとえば文字列の類似度数に基づいて、コンピュータによって処理されてもよいし、文字列が類似しているか否かによらず、作業者の入力によって処理されてもよい。

名寄せ候補レコードは、たとえば名寄せ元データの識別記号（以下、名寄せ元ＩＤとする）と、名寄せ先データの識別記号（名寄せ先ＩＤとする）から構成される。また、名寄せ候補レコードには、名寄せ元データと名寄せ先データの比較結果が記憶されていてもよい。また、名寄せ元データを照合する名寄せ先データが抽出されない場合、この名寄せ元データに対応する名寄せ候補レコードは作成されなくてもよい。

比較結果とは、名寄せ元データと名寄せ先データを比較するための情報であり、名寄せ元データと名寄せ先データが類似している度合いを示す度数（以下、類似度数とする）であってもよいし、名寄せ元データと名寄せ先データが相違している度合いを示す度数（以下、相違度数とする）であってもよい。

また、整理対象データ群２０１のうち、名寄せ元データとして抽出されたデータは、グループに登録されていてもよい。具体的には、たとえば、１つのグループ（以下、名寄せ元グループとする）には、１つの名寄せ元データが登録される。

グループとしてデータを扱うことで、異なるグループが統合されたときに、名寄せしあう組み合わせのデータのみを確実に同一グループに含めることができる。これにより、決定結果に矛盾が生じることを防止することができる。

ついで、名寄せ処理装置２００は、複数の名寄せ候補レコードに記憶された情報に基づいて、名寄せ元データと名寄せ先データが名寄せしあう組み合わせか否かを決定する。名寄せしあう組み合わせか否かを決定する詳細な方法の説明は、後述する。

名寄せ処理装置２００により決定された結果は、たとえば決定結果データ２０３に書き込まれる。決定結果データ２０３は、たとえば、名寄せ候補データ２０２に決定結果が書き込まれたデータである。名寄せ候補データ２０２および決定結果データ２０３は、たとえばデータベース２１１などに記憶されてもよい。

名寄せ元データの照合先は、名寄せ元データ自身であってもよい。つまり、名寄せ元データおよび名寄せ先データは、ともに整理対象データ群２０１の中から指定されてもよい。また、名寄せ元データの照合先は、たとえば整理対象データ群２０１のマスターデータであってもよい。つまり、名寄せ元データおよび名寄せ先データは、異なるデータ群の中からそれぞれ指定されてもよい。

ついで、名寄せ処理装置２００は、決定結果データ２０３に基づいて、一般的なデータ統合装置２１２の入力形式に対応した名寄せ結果データ２０４を作成する。具体的には、たとえば、名寄せ処理装置２００は、１つ以上の名寄せ元データに対して１つの名寄せ先データが関連付けられたレコードを、名寄せ結果データ２０４として出力する。

名寄せ結果データ２０４は、データ統合装置２１２に入力される。データ統合装置２１２は、名寄せ結果データ２０４に基づいて、整理対象データ群２０１の中の各データを名寄せする。名寄せ処理後の整理対象データ群２０１は、たとえばデータベース２１１に記憶される。名寄せ処理装置２００は、データ統合装置２１２の機能を有していてもよい。

（名寄せ処理装置の機能的構成）
つぎに、実施の形態１にかかる名寄せ処理装置の機能的構成について説明する。図３は、実施の形態１にかかる名寄せ処理装置の機能的構成を示すブロック図である。名寄せ処理装置３００は、指定部３０１と、特定部３０２と、決定部３０３と、統合部３０４と、出力部３０５と、を含む構成である。この制御部となる機能（指定部３０１〜出力部３０５）は、具体的には、たとえば、図１に示したＲＯＭ１０２、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記憶装置に記憶されたプログラムをＣＰＵ１０１に実行させることにより、または、Ｉ／Ｆ１０９により、その機能を実現する。

指定部３０１は、データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する機能を有する。具体的には、たとえば、指定部３０１は、データベースＤＢに記憶された整理対象データ群の中から、名寄せ元データ（または名寄せ先データ）と名寄せしあう可能性のあるデータの組み合わせを指定する。

特定部３０２は、データ群の中から、指定部３０１によって指定された第１のデータと名寄せしあう第３のデータを特定する機能を有する。また、特定部３０２は、データ群の中から、指定部３０１によって指定された第１のデータと名寄せできない第３のデータを特定する機能を有する。

具体的には、たとえば、特定部３０２は、データベースＤＢに記憶された整理対象データ群の中から、名寄せ先データ（または名寄せ元データ）と、指定部３０１によって指定された第１のデータとが名寄せしあうデータの組み合わせであるか、または名寄せできないデータの組み合わせであるかを特定する。

決定部３０３は、指定部３０１によって指定された第２のデータと特定部３０２によって特定された第３のデータを、名寄せしあうデータの組み合わせに決定する機能を有する。具体的には、たとえば、決定部３０３は、名寄せ元データと名寄せ先データを名寄せしあうデータの組み合わせに決定する（以下、第１の決定方法とする）。

決定部３０３により決定された決定結果は、たとえば名寄せ候補レコードの決定結果に記憶される。なお、決定されたデータは、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記憶領域に記憶される。図４は、実施の形態１にかかる名寄せ処理の一例を示す説明図である。

具体的には、たとえば、名寄せ元データおよび名寄せ先データ以外のデータの名寄せ元／先ＩＤ＝１、名寄せ元ＩＤ＝２、名寄せ先ＩＤ＝３としたときに、名寄せ候補レコード（名寄せ元ＩＤ，名寄せ先ＩＤ）＝名寄せ候補レコード（２，３）の決定結果が○（マル）または×（バツ）になる一例について、図４を参照して説明する。

ここで、決定結果○は、２つのデータが名寄せしあうデータの組み合わせであることを意味し、決定結果×は、２つのデータが名寄せできないデータの組み合わせであることを意味する。まず、名寄せ候補レコード（２，３）の決定結果が○になる一例について説明する。

指定部３０１は、たとえば名寄せ元ＩＤ＝２の名寄せ候補レコードの中から、名寄せ元データと名寄せしあう第１のデータＸ１を指定する。具体的には、指定部３０１は、決定結果が○である名寄せ候補レコード（２，１）を第１のデータＸ１として指定する。また、指定部３０１は、名寄せ候補レコード（１，２）の決定結果が○であることにより、指定するデータを第１のデータＸ１としてもよい。つまり、第１のデータＸ１と第２のデータＸ２は、名寄せしあうデータの組み合わせであり、第１のデータＸ１と第２のデータＸ２の決定結果ａ１２は○である（図４−（ａ）参照）。

さらに、特定部３０２は、たとえば名寄せ先ＩＤ＝３の名寄せ候補レコードの中から、名寄せ先データと第１のデータＸ１が名寄せしあうデータの組み合わせであることを特定する。具体的には、特定部３０２は、名寄せ候補レコード（１，３）の決定結果が○であることを特定する。また、特定部３０２は、名寄せ候補レコード（３，１）の決定結果が○であることを特定してもよい。つまり、第１のデータＸ１と第３のデータＸ３は、名寄せしあうデータの組み合わせであり、第１のデータＸ１と第３のデータＸ３の決定結果ａ１３は○である（図４−（ｂ）参照）。

決定結果ａ１２＝○であり、かつ決定結果ａ１３＝○であることにより、決定部３０３は、第２のデータＸ２と第３のデータＸ３の決定結果ａ２３を○に決定する（図４−（ｃ）参照）。具体的には、決定部３０３は、名寄せ候補レコード（２，３）の決定結果を○にする。つまり、第２，３のデータにそれぞれ共通する第１のデータＸ１の決定結果ａ１２，ａ１３が○であることにより、第２のデータＸ２と第３のデータＸ３の決定結果ａ２３は一意に○に決定される。

つぎに、名寄せ候補レコード（２，３）の決定結果が×になる場合について説明する。指定部３０１は、たとえば名寄せ元ＩＤ＝２の名寄せ候補レコードの中から、名寄せ元データと名寄せしあう第１のデータＸ１を指定する。つまり、第１のデータＸ１と第２のデータＸ２の決定結果ａ１２は○である（図４−（ｄ）参照）。

さらに、特定部３０２は、たとえば名寄せ元ＩＤ＝３の名寄せ候補レコードの中から、名寄せ先データと第１のデータＸ１が名寄せできないデータの組み合わせであることを特定する。つまり、第１のデータＸ１と第３のデータＸ３は、名寄せできないデータの組み合わせであり、第１のデータＸ１と第３のデータＸ３の決定結果ａ１３は×である（図４−（ｅ）参照）。

決定結果ａ１２＝○であり、かつ決定結果ａ１３＝×であることにより、決定部３０３は、第２のデータＸ２と第３のデータＸ３の決定結果ａ２３を×に決定する（図４−（ｆ）参照）。つまり、決定結果ａ１２，ａ１３のいずれかが×であることにより、第２のデータＸ２と第３のデータＸ３の決定結果ａ２３は一意に×に決定される。

また、名寄せ候補レコード（２，３）と名寄せ候補レコード（３，２）の決定結果は、同じ結果となる。このため、決定部３０３は、たとえば名寄せ候補レコード（２，３），・・・，名寄せ候補レコード（３，２）の順で決定結果が決定される場合、名寄せ候補レコード（３，２）の決定結果を、名寄せ候補レコード（２，３）の決定結果を決定したときに決定してもよいし、順次名寄せ候補レコードを読み込んでいき、名寄せ候補レコード（３，２）を読み込んだときに決定してもよい。

指定部３０１および特定部３０２が参照する名寄せ候補レコードの決定結果は、所定の名寄せ条件に基づいて予め決定された決定結果であってもよいし、決定部３０３による決定処理中に決定された決定結果であってもよい。

決定結果を予め設定する場合、名寄せ処理前に、作業者がたとえば可視化された名寄せ候補レコードを確認し、名寄せ候補レコードの決定結果に○や×を書き込んでもよい。図５は、実施の形態１にかかる名寄せ処理前の名寄せ候補レコードの一例を示す説明図である。

図５において、名寄せ候補レコードは、名寄せ元ＩＤおよび名寄せ先ＩＤから構成される。名寄せ候補レコード（名寄せ元ＩＤ，名寄せ先ＩＤ）には、たとえば類似度数、作業者により書き込まれた決定結果（初期条件に中黒の星印★の書き込まれたレコード）、および名寄せ元グループなど名寄せ処理に用いる主要なデータがそれぞれ書き込まれている。図５では、名寄せ候補レコードの主要な部分のみを示す（以下、図６〜１１,２０においても同様）。

具体的には、たとえば、名寄せ候補レコード（１，２）は、次のデータを記憶する。名寄せ元ＩＤ＝１である。名寄せ先ＩＤ＝２である。名寄せ元／先ＩＤ＝１，２のデータの組み合わせを比較した類似度数＝５０である。名寄せ元／先ＩＤ＝１，２のデータの組み合わせは、作業者により、名寄せしあうデータの組み合わせに決定されている。つまり、名寄せ候補レコード（１，２）の決定結果には、名寄せ処理前に予め決定結果○が書き込まれている。名寄せ元ＩＤ＝１のデータは、グループＧ１に登録されている。

なお、名寄せ候補レコードの初期条件（★）または閾値（☆）は、名寄せ候補レコードの構成要素ではない。名寄せ候補レコードの決定結果が、第１の決定方法に基づいた決定結果ではないことを明確にするものである。

つまり、初期条件または閾値＝星印★の場合、作業者により決定結果が書き込まれている。初期条件または閾値＝星印☆の場合、比較結果の閾値に基づいて決定結果が書き込まれている。また、初期条件または閾値＝ＮＵＬＬの場合、名寄せ候補レコードの決定結果は、第１の決定方法に基づいて名寄せされている（以下、図６〜１１，２０においても同様）。

また、図５では、名寄せ処理に用いる主要なデータのすべてを１テーブルに記憶させているが、これに限らず、名寄せ処理に用いる主要なデータをそれぞれ異なるテーブルに記憶させてもよい。たとえば、名寄せ元グループを、図５に示す名寄せ候補レコードには書き込まず、図５に示すテーブルとは異なるテーブルに書き込んでもよい。図１２は、実施の形態１にかかる名寄せ元／先データを示す説明図である。

たとえば、図１２に示すように、名寄せ元／先ＩＤごとに名寄せ元／先データが記憶されたテーブルに、名寄せ元／先ＩＤごとに名寄せ元グループを書き込んでもよいし、図１２に示すテーブルとは異なるテーブルに、名寄せ元／先ＩＤごとに名寄せ元グループのみを書き込んでもよい。

つまり、名寄せ処理に用いる主要なデータは、名寄せ処理装置２００が記録および参照することができればよく、１テーブルに記憶されていてもよいし、名寄せ処理に用いる主要なデータごとに異なるテーブルに記憶されていてもよい。ここでは、各データの書き込まれる順序を明確にするために、名寄せ処理に用いる主要なデータを１テーブルに記憶した場合を例に説明する。

決定部３０３は、名寄せ元データと名寄せ先データの比較結果に基づいて、名寄せ元データと名寄せ先データを名寄せしあうデータの組み合わせに決定してもよい（以下、第２の決定方法とする）。

具体的には、たとえば、類似度数の閾値の上限値を９０とし、下限値を３０とした場合、決定部３０３は、名寄せ候補レコードの類似度数が９０以上である場合に、この名寄せ候補レコードの決定結果を○に決定する。また、決定部３０３は、名寄せ候補レコードの類似度数が３０以下である場合に、この名寄せ候補レコードの決定結果を×に決定する。図６〜図１１は、実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの一例を示す説明図である。

図６において、たとえば、名寄せ候補レコード（１，６）の類似度数は、１００である。このため、決定部３０３は、名寄せ候補レコード（１，６）の決定結果を○に決定する（中抜きの星印☆の書き込まれたレコード）。

また、決定部３０３は、名寄せ元データと名寄せ先データが同一グループに含まれる場合に、名寄せ元データと名寄せ先データを名寄せしあうデータの組み合わせに決定してもよい（以下、第３の決定方法とする）。

具体的には、たとえば、決定部３０３は、名寄せ候補レコード（６，１）の決定結果を決定する場合、名寄せ元ＩＤ＝１，６の名寄せ元グループがともにグループＧ１であることにより、名寄せ候補レコード（６，１）の決定結果を○に決定する（図１１参照）。

統合部３０４は、決定部３０３により、名寄せ元データと名寄せ先データを名寄せしあう組み合わせに決定した場合、名寄せ元データを含むグループと名寄せ先データを含むグループを統合する機能を有する。具体的には、たとえば、図６において、統合部３０４は、決定部３０３により名寄せ候補レコード（１，６）の決定結果が○に決定された場合、名寄せ元ＩＤ＝６の名寄せ元グループをグループＧ６からグループＧ１に変更する。なお、統合された結果は、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記憶領域に記憶される。

たとえば、図４−ｃにおいて、第１，２のデータが同一グループであるとする。この場合、決定部３０３により、第２のデータＸ２と第３のデータＸ３が名寄せしあう組み合わせのデータに決定されると、統合部３０４は、第１のデータＸ１を含むグループに、第３のデータＸ３を含むグループを統合する。

さらに、決定部３０３が、第１のデータＸ１と、図示省略する第４のデータを名寄せしあう組み合わせに決定した場合、統合部３０４は、第１のデータＸ１を含むグループにさらに、第４のデータを含むグループを統合する。つまり、第１〜第４のデータは、同一グループとなる。

一方、図４−ｆでは、決定部３０３により、第２のデータＸ２と第３のデータＸ３が名寄せできない組み合わせのデータに決定されている。このため、図示省略する第４のデータが第３のデータＸ３と同一グループである場合、決定部３０３は、第１のデータＸ１と第４のデータを名寄せできないデータの組み合わせに決定する。

つまり、異なるグループ間のデータの組み合わせの中に、１つでも名寄せできないデータの組み合わせがある場合、この異なるグループ間のデータの組み合わせは、決定部３０３により、名寄せできないデータの組み合わせに決定される。

つぎに、決定部３０３により決定結果が作成されるまでの処理過程の一例を、図５〜図１１を参照して説明する。図５に示す名寄せ候補レコードには、名寄せ処理前に、作業者により書き込まれた決定結果のみが示されている（中黒の星印★のレコード）。ここで、決定部３０３は、名寄せ候補データ中の名寄せ候補レコードを先頭レコードから順に読み込むこととする。

まず、決定部３０３は、名寄せ候補レコード（１，６）を取得する。ついで、決定部３０３は、名寄せ元ＩＤ＝１，６の名寄せ候補レコードの名寄せ元グループが同一グループであるか否かを判断する（第３の決定方法）。具体的には、決定部３０３は、名寄せ元ＩＤ＝１のデータのグループＧ１と名寄せ元ＩＤ＝６のデータのグループＧ６が異なるため、続けて第１の決定方法をおこなう。

第１の決定方法では、指定部３０１は、名寄せ元／先ＩＤ＝１の名寄せ候補レコードの中から、名寄せ元ＩＤ＝１のデータと名寄せしあうデータ（または名寄せできないデータ）を指定する。具体的には、指定部３０１は、名寄せ元ＩＤ＝１のデータと名寄せしあうデータとして、名寄せ候補レコード（１，２），（１，３），（１，４）を指定する。

そして、特定部３０２は、指定部３０１によって指定された名寄せ元／先ＩＤ＝２，３，４のデータと名寄せしあう名寄せ元ＩＤ＝６のデータ（または名寄せできない名寄せ元ＩＤ＝６のデータ）を特定する。具体的には、特定部３０２は、名寄せ候補レコード（２，６），（３，６），（４，６），（６，２），（６，３），（６，４）の中で、決定結果が○となる名寄せ候補レコードを特定する。

しかし、特定部３０２は、上記名寄せ候補レコードの中から、名寄せ先ＩＤ＝６のデータと名寄せしあうデータを特定することができない。このため、決定部３０３は、続けて第２の決定方法をおこなう。

第２の決定方法では、決定部３０３は、名寄せ候補レコード（１，６）の類似度数に基づいて、名寄せをおこなう。名寄せ候補レコード（１，６）の類似度数は、類似度数の閾値の上限値９０以上であるため、決定部３０３は、名寄せ候補レコード（１，６）の決定結果に○を書き込む（図６参照）。図６〜１１,２０の名寄せ候補レコードにおいて、名寄せ処理または統合処理により、書き換えられた部分を二重線で囲む。

決定部３０３によって名寄せ候補レコード（１，６）の決定結果に○が書き込まれるとともに、統合部３０４は、名寄せ元ＩＤ＝６と同じグループＧ６が書き込まれているすべての名寄せ候補レコードの名寄せ元グループをグループＧ６からグループＧ１に変更する。なお、図６〜１２,２０においては、名寄せ元グループの変更された経緯を矢印で示す。具体的には、名寄せ候補レコード（１，６）では、グループＧ１がグループＧ６に変更されているため、Ｇ１→Ｇ６となる。

以下、決定部３０３は、すべての名寄せ候補レコードに対して、上述した名寄せ候補レコード（１，６）に対する名寄せ処理と同様の手順で名寄せ処理をおこなうが、以下、詳細な説明は省略する。

ついで、決定部３０３は、すでに決定結果の書き込まれている名寄せ候補レコード（１，２），（１，３）, （１，４）を飛ばし、名寄せ候補レコード（１，７）に対する名寄せ処理をおこなう。しかし、この段階では、決定部３０３は、第１〜第３の決定方法に基づいて、名寄せ候補レコード（１，７）の決定結果を得ることができない。

このため、決定部３０３は、名寄せ候補レコード（１，７）の決定結果には何も書き込まず、続けて次の名寄せ候補レコード（１，５）の名寄せ処理をおこなう。そして、決定部３０３は、第２の決定方法に基づいて、名寄せ候補レコード（１，５）の決定結果に×を書き込む（図７参照）。以下、統合部３０４によるグループ統合処理の伴わない名寄せ処理については、説明を省略する。

決定部３０３は、第１の決定方法に基づいて、名寄せ候補レコード（２，１）,（２，３）,（２，４）,（３，７）の決定結果にこの順に○を書き込む。そして、統合部３０４は、名寄せ候補レコード（２，１）の決定結果に○が書き込まれるとともに、名寄せ元ＩＤ＝２と同じグループＧ３が書き込まれているすべての名寄せ元グループをグループＧ２からグループＧ１に変更する（図７参照）。

また、統合部３０４は、名寄せ候補レコード（２，３）の決定結果に○が書き込まれるとともに、名寄せ元ＩＤ＝３と同じグループＧ３が書き込まれているすべての名寄せ元グループをグループＧ３からグループＧ１に変更する（図８参照）。

また、統合部３０４は、名寄せ候補レコード（２，４）の決定結果に○が書き込まれるとともに、名寄せ元ＩＤ＝４と同じグループＧ３が書き込まれているすべての名寄せ元グループをグループＧ４からグループＧ１に変更する（図９参照）。

また、統合部３０４は、名寄せ候補レコード（３，７）の決定結果に○が書き込まれるとともに、名寄せ元ＩＤ＝７と同じグループＧ３が書き込まれているすべての名寄せ元グループをグループＧ７からグループＧ１に変更する（図１０参照）。以下、決定部３０３および統合部３０４は、同様の処理を繰り返す。これにより、ほぼすべての名寄せ候補レコードの決定結果に○または×が書き込まれ、決定結果データが完成する（図１１参照）。

これにより、図１２に示すように、名寄せ処理前のグループＧ２，Ｇ３、Ｇ４，Ｇ６，Ｇ７は、グループＧ１に変更される。つまり、上述した統合部３０４によるグループ統合処理により、グループＧ２，Ｇ３、Ｇ４，Ｇ６，Ｇ７は消滅する。

ここでは、統合部３０４により、グループＧ２〜Ｇ７が順にグループＧ１に変更されているが、名寄せ候補レコードの読み込まれる順番により、名寄せ元グループの変更される順番は変わる。たとえば、グループＧ７がグループＧ３に変更された後、グループＧ３がグループＧ１に変更され、名寄せ処理が終了した場合、名寄せ処理前のグループＧ７は、名寄せ処理が終了した時点でグループＧ１に変更されている。つまり、名寄せ元ＩＤ＝７の名寄せ候補レコードの名寄せ元グループは、Ｇ７→Ｇ３→Ｇ１と変更される（不図示）。

名寄せ処理がすべて終了し、決定結果データが完成した後に、図示省略した他の名寄せ候補レコードの名寄せ元グループを手作業により書き換えてもよい。具体的には、たとえば、作業者は、名寄せ候補レコードの名寄せ元グループをグループＧ１１からグループＧ１に書き換える。

これにより、名寄せ処理前のグループＧ１１，Ｇ１２は、グループＧ１に変更され、グループＧ１１，Ｇ１２は消滅する。つまり、決定部３０３による名寄せ処理後においても、グループを統合することができる。図１３〜図１９は、実施の形態１にかかるグループの統合される過程の一例を順に示す説明図である。上述した図５〜図１２に示すようにグループを統合した状態を、図１３〜図１９を参照して説明する。

図１３において、名寄せ元データＸ１〜Ｘ３１は、それぞれ異なるグループＧ１〜Ｇ３１に登録される。図１３に示す状態は、名寄せ候補レコードの名寄せ先グループに、グループＧ１〜Ｇ３１が書き込まれた状態である（図５参照）。ここで、名寄せ元データＸ１〜Ｘ３１は、図５における名寄せ元ＩＤ＝１〜３１のデータに該当する（以下、図１４〜図１９においても同様）。なお、図５では、名寄せ元ＩＤ＝８〜３１は図示省略している。

図１４において、まず、統合部３０４により、グループＧ６は、グループＧ１に統合されて消滅する。決定部３０３により、名寄せ候補レコード（１，６）の決定結果が○に決定されたことによるものである（図６参照）。これにより、名寄せ元データＸ６は、グループＧ１に登録される。

ついで、図１５〜図１８において、統合部３０４により、グループＧ２，Ｇ３，Ｇ４，Ｇ７は、この順でグループＧ１に順次統合されて消滅する。決定部３０３により、名寄せ候補レコード（２，１），（２，３），（２，４），（３，７）の決定結果が順次○に決定されたことによるものである（図７〜１０参照）。これにより、名寄せ元データＸ２，Ｘ３，Ｘ４，Ｘ７は、グループＧ１に順次登録される。

また、図１９において、グループＧ１１が、グループＧ１に統合されて消滅する。作業者により、名寄せ元ＩＤ＝１１のデータの名寄せ元グループが、グループＧ１１からグループＧ１に変更されたことによるものである（図１２参照）。これにより、名寄せ元データＸ１１,Ｘ１２は、グループＧ１に登録される。

次に、決定結果データが作成されるまでの処理過程の別の一例を、図２０を参照して説明する。図２０は、実施の形態１にかかる名寄せ処理中の名寄せ候補レコードの別の一例を示す説明図である。まず、決定部３０３は、図５に示す名寄せ処理と同様に、名寄せ候補レコード（１，６）を取得する。

ついで、図２０において、決定部３０３は、図６に示す名寄せ処理と同様に、第２の決定方法に基づいて、名寄せ候補レコード（１，６）の決定結果を○に決定する。そして、統合部３０４は、図６に示すグループ統合処理と同様に、名寄せ元ＩＤ＝６のすべての名寄せ候補レコードの名寄せ元グループをグループＧ６からグループＧ１に変更する。

ついで、指定部３０１は、決定部３０３により決定結果を○に決定された名寄せ候補レコード（１，６）を指定する。そして、特定部３０２は、指定部３０１によって指定された名寄せ元／先ＩＤ＝１，６のデータと名寄せしあう名寄せ候補レコード（１，２），（１，３）, （１，４）を特定する。

これにより、決定部３０３は、指定部３０１により指定された名寄せ元／先ＩＤ＝１，６と、特定部３０２により特定された名寄せ元／先ＩＤ＝２，３，４のデータの、すべての組み合わせのデータを、名寄せしあうデータの組み合わせに決定する。

具体的には、決定部３０３は、名寄せ候補レコード（２，１）, （２，３），（２，４），（２，６）,（３，１），（３，２），（３，４），（３，６）, （４，１）,（４，２），（４，３），（４，６）, （６，１），（６，２），（６，３），（６，４）の決定結果を○に決定する。

つまり、指定部３０１は、グループＧ１内の、名寄せしあうデータの組み合わせを順に指定する。そして、特定部３０２は、指定部３０１がデータを指定する都度、指定部３０１により指定されたデータと名寄せしあうデータを特定する。これにより、決定部３０３は、グループＧ１内のすべての組み合わせのデータを、名寄せ候補レコード（１，６）の決定結果を○に決定すると同時に名寄せしあうデータの組み合わせに決定する。

その後、統合部３０４により、グループ統合処理がおこなわれ、グループＧ２，Ｇ３，Ｇ４，Ｇ６は同時にグループＧ１に統合される。このように、ある名寄せ候補レコードの決定結果が決定することで決定結果が確定する名寄せ候補レコードの決定結果を、ある名寄せ候補レコードの決定結果と同時に決定してもよい。

出力部３０５は、決定部３０３により決定された名寄せ結果を出力する機能を有する。具体的には、たとえば、出力部３０５は、決定結果データに基づいて、一般的なデータ統合装置２１２の入力形式に対応した名寄せ結果データを作成する。出力形式としては、たとえば、ディスプレイ１０８への表示、プリンタ１１３への印刷出力、Ｉ／Ｆ１０９による外部装置への送信がある。また、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記憶領域に記憶することとしてもよい。

実施の形態１によれば、作業者による名寄せ作業の工数を軽減することができる。これにより、作業者のミスにより、誤った名寄せ結果が作成されることを回避することができる。また、名寄せしあう組み合わせのデータ、および名寄せすることができない組み合わせのデータを正確に特定することができる。これにより、名寄せ結果に矛盾が生じることを防止することができる。

（名寄せ処理手順）
つぎに、実施の形態１にかかる名寄せ処理手順の一例について説明する。図２１−１，２１−２は、実施の形態１にかかる名寄せ処理手順の一例を示すフローチャートである。図２１−１において、まず、名寄せ処理装置により、名寄せ元の整理対象データ（名寄せ元データ）および名寄せ先の整理対象データ（名寄せ先データ）を抽出し、名寄せ元データを１グループ１データでグループに登録する（ステップＳ２１０１）。ついで、決定部３０３により、名寄せ元データ数ｎを取得する（ステップＳ２１０２）。そして、初期値をＩ＝１とし、変数ｉ＝名寄せ元データ（Ｉ）のＩＤとする（ステップＳ２１０３）。

ついで、決定部３０３により、名寄せ元ＩＤ＝ｉの名寄せ候補レコードのレコード数ｍを取得する（ステップＳ２１０４）。名寄せ元ＩＤ＝ｉの名寄せ候補レコードがある場合（ステップＳ２１０５：Ｙｅｓ）、決定部３０３により、初期値をＪ＝１とし、変数ｊ＝名寄せ先データ（Ｉ，Ｊ）のＩＤとする（ステップＳ２１０６）。

ついで、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）を取得する（ステップＳ２１０７）。そして、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の決定結果＝ＮＵＬＬであるか否かを判定する（ステップＳ２１０８）。つまり、決定部３０３は、名寄せ候補レコード（ｉ，ｊ）の決定結果が決定済みであるか否かを判定する。

名寄せ候補レコード（ｉ，ｊ）の決定結果＝ＮＵＬＬである場合（ステップＳ２１０８：Ｙｅｓ）、決定部３０３により、ＩＤ＝ｉの名寄せ元データの登録されたグループＧ（ｉ）を取得する（ステップＳ２１０９）。つまり、名寄せ元データ（Ｉ）の登録されたグループを取得する。また、決定部３０３により、ＩＤ＝ｊの名寄せ元データの登録されたグループＧ（ｊ）を取得する（ステップＳ２１１０）。つまり、名寄せ先データ（Ｉ，Ｊ）のＩＤと同じＩＤの名寄せ元データの登録されたグループを取得する。

グループＧ（ｉ）＝グループＧ（ｊ）である場合（ステップＳ２１１１：Ｙｅｓ）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の決定結果に○を書き込む（ステップＳ２１１２）。ついで、Ｊをインクリメントして（ステップＳ２１１３）、Ｊ＞ｍでない場合（ステップＳ２１１４：Ｎｏ）、ステップＳ２１０７に移行し、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）を取得する。

一方、グループＧ（ｉ）＝グループＧ（ｊ）でない場合（ステップＳ２１１１：Ｎｏ）、指定部３０１および特定部３０２により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを名寄せ元／先データとする組み合わせの、名寄せ候補レコードの決定結果を○に決定したことがあるか否かを判定する（ステップＳ２１１７）。

つまり、ステップＳ２１１７において、指定部３０１および特定部３０２は、グループＧ（ｉ）の整理対象データのＩＤとグループＧ（ｊ）の整理対象データのＩＤを名寄せ元／先ＩＤとする名寄せ候補レコードに、決定結果○の名寄せ候補レコードが少なくとも１レコードあるか否か判定する。

決定結果○の名寄せ候補レコードがある場合（ステップＳ２１１７：Ｙｅｓ）、統合部３０４により、グループ統合処理をおこない（ステップＳ２１１８）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の決定結果に○を書き込む（ステップＳ２１１２）。

一方、決定結果○の名寄せ候補レコードがない場合（ステップＳ２１１７：Ｎｏ）、指定部３０１および特定部３０２により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを名寄せ元／先データとする組み合わせの、名寄せ候補レコードの決定結果を×に決定したことがあるか否かを判定する（ステップＳ２１１９）。

つまり、ステップＳ２１１９において、指定部３０１および特定部３０２は、グループＧ（ｉ）の整理対象データのＩＤとグループＧ（ｊ）の整理対象データのＩＤを名寄せ元／先ＩＤとする名寄せ候補レコードに、決定結果×の名寄せ候補レコードが少なくとも１レコードあるか否か判定する。

決定結果×の名寄せ候補レコードがない場合（ステップＳ２１１９：Ｎｏ）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の上限値以上であるか否かを判定する（ステップＳ２１２０）。

一方、決定結果×の名寄せ候補レコードがある場合（ステップＳ２１１９：Ｙｅｓ）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の決定結果に×を書き込む（ステップＳ２１２２）。

ステップＳ２１２０において、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の上限値以上である場合（ステップＳ２１２０：Ｙｅｓ）、統合部３０４によりグループ統合処理をおこない（ステップＳ２１１８）、決定部３０３により名寄せ候補レコード（ｉ，ｊ）の決定結果に○を書き込む（ステップＳ２１１２）。

一方、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の上限値以上でない場合（ステップＳ２１２０：Ｎｏ）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の下限値以下であるか否かを判定する（ステップＳ２１２１）。

名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の下限値以下である場合（ステップＳ２１２１：Ｙｅｓ）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の決定結果に×を書き込む（ステップＳ２１２２）。

一方、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の下限値以下でない場合（ステップＳ２１２１：Ｎｏ）、Ｊをインクリメントし（ステップＳ２１１３）、Ｊ＞ｍでない場合（ステップＳ２１１４：Ｎｏ）、ステップＳ２１０７に移行し、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）を取得する。

ステップＳ２１０８において、名寄せ候補レコード（ｉ，ｊ）の決定結果＝ＮＵＬＬでない場合（ステップＳ２１０８：Ｎｏ）、ステップＳ２１０９〜ステップＳ２１２２の処理はおこなわずに、ステップＳ２１１３に移行する。

また、ステップＳ２１０５において、名寄せ元ＩＤ＝ｉの名寄せ候補レコードがない場合においても同様に（ステップＳ２１０５：Ｎｏ）、ステップＳ２１１３に移行する。

また、ステップＳ２１１４において、Ｊ＞ｍである場合（ステップＳ２１１４：Ｙｅｓ）、Ｉをインクリメントし（ステップＳ２１１５）、Ｉ＞ｎでない場合（ステップＳ２１１６：Ｎｏ）、ステップＳ２１０４に移行し、決定部３０３により、名寄せ元ＩＤ＝ｉの名寄せ候補レコードのレコード数ｍを取得する。

一方、ステップＳ２１１６において、Ｉ＞ｎである場合（ステップＳ２１１６：Ｙｅｓ）、名寄せ処理装置は一連の処理を終了する。

つぎに、実施の形態１にかかる名寄せ処理手順の別の一例について説明する。図２２−１，２２−２は、実施の形態１にかかる名寄せ処理手順の別の一例を示すフローチャートである。図２２−１において、まず、名寄せ処理装置により、名寄せ元データを１グループ１データでグループに登録する（ステップＳ２２０１）。ついで、名寄せ元の整理対象データ数ｎを取得する（ステップＳ２２０２）。そして、初期値をＩ＝１とし、変数ｉ＝名寄せ元データ（Ｉ）のＩＤとする（ステップＳ２２０３）。

ついで、決定部３０３により、名寄せ元ＩＤ＝ｉの名寄せ候補レコードのレコード数ｍを取得する（ステップＳ２２０４）。名寄せ元ＩＤ＝ｉの名寄せ候補レコードがある場合（ステップＳ２２０５：Ｙｅｓ）、決定部３０３により、初期値をＪ＝１とし、変数ｊ＝名寄せ先データ（Ｉ，Ｊ）のＩＤとする（ステップＳ２２０６）。

ついで、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）を取得する（ステップＳ２２０７）。そして、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の決定結果＝ＮＵＬＬであるか否かを判定する（ステップＳ２２０８）。つまり、決定部３０３は、名寄せ候補レコード（ｉ，ｊ）の決定結果が決定済みであるか否かを判定する。

名寄せ候補レコード（ｉ，ｊ）の決定結果＝ＮＵＬＬである場合（ステップＳ２２０８：Ｙｅｓ）、決定部３０３により、ＩＤ＝ｉの名寄せ元データの登録されたグループＧ（ｉ）を取得する（ステップＳ２２０９）。つまり、名寄せ元データ（Ｉ）の登録されたグループを取得する。また、決定部３０３により、ＩＤ＝ｊの名寄せ元データの登録されたグループＧ（ｊ）を取得する（ステップＳ２２１０）。つまり、名寄せ先データ（Ｉ，Ｊ）のＩＤと同じＩＤの名寄せ元データの登録されたグループを取得する。

グループＧ（ｉ）＝グループＧ（ｊ）である場合（ステップＳ２２１１：Ｙｅｓ）、決定部３０３により、グループＧ（ｉ）の整理対象データを名寄せ元／先データとする組み合わせの、すべての名寄せ候補レコードの決定結果に○を書き込む（ステップＳ２２１２）。つまり、決定部３０３により、グループＧ（ｉ）内の整理対象データの全組み合わせは、名寄せしあうデータの組み合わせに決定される。

ついで、Ｊをインクリメントして（ステップＳ２２１３）、Ｊ＞ｍでない場合（ステップＳ２２１４：Ｎｏ）、ステップＳ２２０７に移行し、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）を取得する。

一方、グループＧ（ｉ）＝グループＧ（ｊ）でない場合（ステップＳ２２１１：Ｎｏ）、指定部３０１および特定部３０２により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを１組の名寄せ元／先データとする組み合わせの、名寄せ候補レコードの決定結果を○に決定したことがあるか否かを判定する（ステップＳ２２１７）。

ステップＳ２２１７において、決定結果○の名寄せ候補レコードがある場合（ステップＳ２２１７：Ｙｅｓ）、統合部３０４により、グループ統合処理をおこない（ステップＳ２２１８）、決定部３０３により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを１組の名寄せ元／先データとする組み合わせの、すべての名寄せ候補レコードの決定結果に○を書き込む（ステップＳ２２１９）。つまり、ステップＳ２２１９において、グループＧ（ｉ）の整理対象データのＩＤとグループＧ（ｊ）の整理対象データのＩＤを名寄せ元／先ＩＤとするすべての名寄せ候補レコードの決定結果が○になる。

一方、ステップＳ２２１７において、決定結果○の名寄せ候補レコードがない場合（ステップＳ２２１７：Ｎｏ）、指定部３０１および特定部３０２により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを１組の名寄せ元／先データとする組み合わせの、名寄せ候補の決定結果を×に決定したことがあるか否かを判定する（ステップＳ２２２０）。

ステップＳ２２２０において、決定結果×の名寄せ候補レコードがない場合（ステップＳ２２２０：Ｎｏ）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の上限値以上であるか否かを判定する（ステップＳ２２２１）。

一方、ステップＳ２２２０において、決定結果×の名寄せ候補レコードがある場合（ステップＳ２２２０：Ｙｅｓ）、決定部３０３により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを１組の名寄せ元／先データとする組み合わせの、すべての名寄せ候補の決定結果に×を書き込む（ステップＳ２２２２）。つまり、グループＧ（ｉ）の整理対象データのＩＤとグループＧ（ｊ）の整理対象データのＩＤを名寄せ元／先ＩＤとするすべての名寄せ候補レコードの決定結果が×になる。

ステップＳ２２２１において、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の上限値以上である場合（ステップＳ２２２１：Ｙｅｓ）、統合部３０４によりグループ統合処理をおこない（ステップＳ２２１８）、決定部３０３により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを１組の名寄せ元／先データとする組み合わせの、すべての名寄せ候補レコードの決定結果に○を書き込む（ステップＳ２２１９）。

一方、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の上限値以上でない場合（ステップＳ２２２１：Ｎｏ）、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の下限値以下であるか否かを判定する（ステップＳ２２２３）。

名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の下限値以下である場合（ステップＳ２２２３：Ｙｅｓ）、決定部３０３により、グループＧ（ｉ）の整理対象データとグループＧ（ｊ）の整理対象データを１組の名寄せ元／先データとする組み合わせの、すべての名寄せ候補レコードの決定結果に×を書き込む（ステップＳ２２２２）。

一方、名寄せ候補レコード（ｉ，ｊ）の類似度数が閾値の下限値以下でない場合（ステップＳ２２２３：Ｎｏ）、Ｊをインクリメントし（ステップＳ２２１３）、Ｊ＞ｍでない場合（ステップＳ２２１４：Ｎｏ）、ステップＳ２２０７に移行し、決定部３０３により、名寄せ候補レコード（ｉ，ｊ）を取得する。

ステップＳ２２０８において、名寄せ候補レコード（ｉ，ｊ）の決定結果＝ＮＵＬＬでない場合（ステップＳ２２０８：Ｎｏ）、ステップＳ２２０９〜ステップＳ２２２３の処理はおこなわずに、ステップＳ２２１３に移行する。

また、ステップＳ２２０５において、名寄せ元ＩＤ＝ｉの名寄せ候補レコードがない場合においても同様に（ステップＳ２２０５：Ｎｏ）、ステップＳ２２１３に移行する。

また、ステップＳ２２１４において、Ｊ＞ｍである場合（ステップＳ２２１４：Ｙｅｓ）、Ｉをインクリメントし（ステップＳ２２１５）、Ｉ＞ｎでない場合（ステップＳ２２１６：Ｎｏ）、ステップＳ２２０４に移行し、決定部３０３により、名寄せ元ＩＤ＝ｉの名寄せ候補レコードのレコード数ｍを取得する。

一方、ステップＳ２２１６において、Ｉ＞ｎである場合（ステップＳ２２１６：Ｙｅｓ）、名寄せ処理装置は一連の処理を終了する。

（グループ統合処理手順）
つぎに、実施の形態１にかかるグループ統合処理手順の一例について説明する。図２３は、実施の形態１にかかるグループ統合処理手順の一例を示すフローチャートである。図２３において、まず、統合部３０４により、グループＧ（ｊ）の名寄せ候補レコードを取得する（ステップＳ２３０１）。

ついで、統合部３０４により、グループＧ（ｊ）の名寄せ候補レコード数ｌを取得し、初期値をｋ＝１とする（ステップＳ２３０２，Ｓ２３０３）。ついで、統合部３０４により、グループＧ（ｊ）の名寄せ候補レコードのグループをグループＧ（ｉ）に書き換える（ステップＳ２３０４）。

ｋをインクリメントし（ステップＳ２３０５）、ｋ＞ｌでない場合（ステップＳ２３０６：Ｎｏ）、ステップＳ２３０４に移行する。ｋ＞ｌである場合（ステップＳ２３０６：Ｙｅｓ）、統合部３０４は一連の処理を終了する。

・実施の形態２
（名寄せ処理装置の機能的構成）
つぎに、実施の形態２にかかる名寄せ処理装置の機能的構成について説明する。図２４は、実施の形態２にかかる名寄せ処理装置の機能的構成を示すブロック図である。名寄せ処理装置４００は、指定部４０１と、算出部４０２と、決定部４０３と、出力部３０５と、を含む構成である。名寄せ処理装置４００のハードウェア構成は、実施の形態１と同様である。

名寄せ処理装置４００は、データベースＤＢにアクセスし、整理対象データ群２０１の中から、名寄せされるデータ（名寄せ元データ）と、名寄せしあう組み合わせに決定したデータ（名寄せ先データ）を抽出する。抽出されたデータは、たとえばレコード（以下、名寄せ相手レコードとする）単位で記憶される。

名寄せ処理装置４００は、たとえば、予め設定された抽出条件に基づいて、名寄せ相手レコードを作成してもよいし、実施の形態１に示す名寄せ処理により出力された名寄せ結果によって名寄せ相手レコードを作成してもよい。名寄せ相手レコードは、たとえば名寄せ元データの識別記号（名寄せ元ＩＤ）と、名寄せ先データの識別番号（名寄せ先ＩＤ）から構成される。

名寄せ元データは、たとえば名寄せ元データ間の関連度に基づいて、グループに登録されている。具体的には、１グループに複数の名寄せ元データが登録されている。ここで、関連度とは、たとえば類似度数や相違度数など、整理対象データ間の似ている度合いを点数化したものである。

図２５において、第１〜第９の名寄せ元データＸ４１〜Ｘ４９は、たとえば類似度数に基づいてそれぞれ異なるグループＧ４１，Ｇ４２に登録される。具体的には、たとえば、第１〜第６の名寄せ元データＸ４１〜Ｘ４６は、グループＧ４１に登録されている。第７〜第９の名寄せ元データＸ４７〜Ｘ４９は、グループＧ４２に登録されている。

名寄せ元データと他の名寄せ元データとの間の関連度が算出されている場合、名寄せ元データと他の名寄せ元データは、それぞれ関連度に基づく関係（以下、関係線とする）で結ばれている。具体的には、たとえば、図２５において、第１の名寄せ元データと第２の名寄せ元データは、関係線ａ１２で結ばれている。

指定部４０１は、データ群の中から対象データを順次指定する機能を有する。具体的には、たとえば、指定部４０１は、１つのグループに登録された名寄せ元データ群の中から名寄せ元データを順次指定する。なお、指定結果は、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記憶領域に記憶される。

算出部４０２は、指定部４０１によって対象データが指定される都度、対象データとデータ群内の他のデータとの関連度に基づいて、対象データごとにデータ群内での評価値を算出する機能を有する。具体的には、たとえば、算出部４０２は、指定部４０１によって名寄せ元データが指定される都度、グループ内の他の名寄せ元データとの関連度に基づいて、名寄せ元データごとにグループ内での評価値を算出する。

算出部４０２は、たとえば名寄せ相手レコードに記憶された名寄せ元データ間の関連度に基づいて、名寄せ元データのグループ内での評価値を算出する。算出部４０２は、複数の方法で評価値を算出してもよい。算出した評価値は、たとえば名寄せ元ＩＤごとに１レコードに記憶される。なお、算出結果は、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記憶領域に記憶される。図２６は、実施の形態２にかかる名寄せ相手レコードの一例を示す説明図である。

図２６において、名寄せ相手レコードは、名寄せ元ＩＤおよび名寄せ先ＩＤから構成される。名寄せ相手レコード（名寄せ元ＩＤ，名寄せ先ＩＤ）には、たとえば名寄せ元グループがそれぞれ記憶されていてもよい。

具体的には、たとえば、名寄せ相手レコード（１，２）は、次のデータを記憶する。名寄せ元ＩＤ＝１である。名寄せ先ＩＤ＝２である。第１の名寄せ元データＸ４１と第２の名寄せ元デーダＸ４２間の関連度（比較結果）＝６５である。図２６では、関連度として類似度数を示しているが、これに限らず、名寄せ元データと名寄せ先データを比較するための情報であればよく、他の方法で算出された関連度であってもよい。

算出部４０２は、たとえば図２６に示すような名寄せ相手レコードから、名寄せ元データの関連度を取得する。図２７は、実施の形態２にかかる名寄せ処理による決定結果の一例を示す説明図である。

図２７において、決定結果レコードは、たとえば名寄せ元ＩＤから構成される。決定結果レコード（名寄せ元ＩＤ）には、たとえば名寄せ元グループ、算出部４０２により算出される評価値、および決定部４０３により決定される決定結果がそれぞれ記憶されている。

また、算出部４０２は、対象データと関連度を有する他のデータの数に基づいて、対象データごとにデータ群内での評価値を算出する。具体的には、たとえば、算出部４０２は、評価値として、名寄せ元データから他のデータに伸びる関係線の本数を算出する（以下、第１の評価値とする）。

図２７において、グループＧ４１の第１の名寄せ元データＸ４１は、第２の名寄せ元データＸ４２〜第４の名寄せ元データＸ４４および第６の名寄せ元データＸ４６と、それぞれ関係線ａ１２，ａ１３，ａ１４，ａ１６で結ばれている。このため、算出部４０２は、第１の名寄せ元データＸ４１の第１の評価値＝４と算出する。

また、算出部４０２は、対象データと関連度を有する他のデータの関連度の総和に基づいて、対象データごとにデータ群内での評価値を算出する。具体的には、たとえば、算出部４０２は、評価値として、名寄せ元データ間の関連度の総和を算出する（以下、第２の評価値とする）。

図２７において、グループＧ４１の第１の名寄せ元データＸ４１は、第２の名寄せ元データＸ４２〜第４の名寄せ元データＸ４４および第６の名寄せ元データＸ４６との間に類似度数が設定されている。このため、算出部４０２は、第１の名寄せ元データＸ４１の第２の評価値＝６５＋７７＋６５＋７０＝２７７と算出する。

また、算出部４０２は、対象データと関連度を有する他のデータの数と当該他のデータの関連度の総和に基づいて、対象データごとにデータ群内での評価値を算出する。具体的には、たとえば、算出部４０２は、評価値として、名寄せ元データ間の関連度の総和の平均値を算出する（以下、第３の評価値とする）。

図２７において、算出部４０２は、第１の名寄せ元データＸ４１の第３の評価値＝第１の評価値／第２の評価値＝６９．３と算出する。

また、算出部４０２は、対象データと関連度を有する他のデータの関連度の中の最大関連度に基づいて、対象データごとにデータ群内での評価値を算出する。具体的には、たとえば、算出部４０２は、評価値として、対象の名寄せ元データと、他のデータ間の関連度のうち最大値を選択する（以下、第４の評価値とする）。

たとえば関連度がデータ間の類似度数である場合、第４の評価値が高い値であるほど、対象の名寄せ元データがグループ内の他のデータと名寄せしあう可能性が高いことを示す。また、たとえば関連度がデータ間の相違度数である場合、第４の評価値が高い値であるほど、対象の名寄せ元データがグループ内の他のデータと名寄せできない可能性が高いことを示す。

図２７において、第１の名寄せ元データＸ４１と、第２の名寄せ元データＸ４２〜第４の名寄せ元データＸ４４および第６の名寄せ元データＸ４６間の関連度は、それぞれ６５，７７，６５および７０である。このため、算出部４０２は、第１の名寄せ元データＸ４１の第４の評価値＝７７と算出する。

また、算出部４０２は、対象データと関連度を有する他のデータの関連度の中の最小関連度に基づいて、対象データごとにデータ群内での評価値を算出する。具体的には、たとえば、算出部４０２は、評価値として、名寄せ元データと他のデータ間の関連度のうち最小値を選択する（以下、第５の評価値とする）。

たとえば関連度がデータ間の類似度数である場合、第５の評価値が低い値であるほど、対象の名寄せ元データがグループ内の他のデータと名寄せできない可能性が高いことを示す。また、たとえば関連度がデータ間の相違度数である場合、第５の評価値が低い値であるほど、対象の名寄せ元データがグループ内の他のデータと名寄せしあう可能性が高いことを示す。

たとえば、関連度がデータ間の類似度数である場合に、算出部４０２は、第５の評価値を次のように算出する。図２６において、第１の名寄せ元データＸ４１と、第２の名寄せ元データＸ４２〜第４の名寄せ元データＸ４４および第６の名寄せ元データＸ４６間の関連度は、それぞれ６５，７７，６５および７０である。このため、算出部４０２は、第１の名寄せ元データＸ４１の第５の評価値＝６５と算出する。

また、算出部４０２は、第１〜第５の評価値を２つ以上組み合わせて、評価値を算出してもよい（以下、第６の評価値とする）。具体的には、たとえば、算出部４０２は、第１の評価値に第２の評価値を組み合わせることができない場合は、第１の評価値と第３の評価値を組み合わせるなど、評価値の算出方法に合わせて種々変更可能である。

第６の評価値の算出方法は、理論上、₅Ｃ₂＋₅Ｃ₃＋₅Ｃ₄＋₅Ｃ₅＝２６種類である。このため、評価値の計算方法の総数は、理論上、第１〜第５の評価値の５種類＋第６の評価値の２６種類＝３１種類となる。評価値の算出方法は一例であり、上述した算出方法に限らず、種々の方法で算出可能である。また、評価値の数は一例であり、評価値をさらに増やしてもよいし、減らしてもよい。

決定部４０３は、算出部４０２によって算出された評価値に基づいて、データ群の中から代表的な名寄せ元データを決定する機能を有する。具体的には、たとえば、決定部４０３は、算出部４０２によって算出された評価値に基づいて、グループ内の名寄せ元データ群の中から、他の名寄せ元データのすべてと名寄せしあう代表的な名寄せ元データ（以下、代表的な名寄せ元データとする）を決定する。なお、決定結果は、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記憶領域に記憶される。

また、決定部４０３は、関連度がデータ間の類似度数である場合、評価値が最大となる対象データを、代表的な名寄せ元データに決定する。具体的には、たとえば、決定部４０３は、名寄せ元データ間の関連度が類似度数である場合、名寄せ元データ間の関連度が最大となる名寄せ元データを、代表的な名寄せ元データに決定する。

また、決定部４０３は、第１〜第６の決定結果をさらに組み合わせて、グループ内の名寄せ元データ群の中から代表的な名寄せ元データを決定してもよい。

図２７において、第１〜第６の決定結果○は、たとえば最も評価値の高いことを意味し、決定結果×は最も評価値の低いことを意味する。たとえば第２の評価値を用いてグループＧ１内の代表的な名寄せ元データを決定する場合、第３の名寄せ元データＸ４３の第２の評価値＝２９３が最大であるため、決定部４０３は、代表的な名寄せ元データを第３の名寄せ元データＸ４３に決定する。

また、決定部４０３は、評価値が最小となる対象データを、決定部４０３は、評価値が最小となる対象データを、代表的な名寄せ元データと名寄せできないデータ候補に決定する。代表的な名寄せ元データと名寄せできないデータ候補とは、代表的な名寄せ元データと名寄せできない可能性の高いデータの候補である。さらに、決定部４０３は、評価値が所定値以下となる対象データを、代表的な名寄せ元データと名寄せできないデータ候補に決定してもよい。

具体的には、たとえば、決定部４０３は、各名寄せ元データ間の関連度が類似度数である場合、名寄せ元データ間の関連度が最小または所定値以下となる名寄せ元データを、決定部４０３により決定した代表的な名寄せ元データに名寄せできないデータ候補に決定する。作業者により確認の必要なデータを評価値の低いデータに絞ることで、名寄せの効率が向上する。

また、決定部４０３は、関連度がデータ間の相違度である場合、評価値が最小となる対象データを、代表的な名寄せ元データに決定する。具体的には、たとえば、決定部４０３は、名寄せ元データ間の関連度が相違度数である場合、名寄せ元データ間の関連度が最小となる名寄せ元データを、代表的な名寄せ元データに決定する。

また、決定部４０３は、関連度がデータ間の相違度である場合、評価値が最大となる対象データを、代表的な名寄せ元データと名寄せできないデータ候補に決定する。さらに、決定部４０３は、関連度がデータ間の相違度である場合、評価値が所定値以上となる対象データを、代表的な名寄せ元データと名寄せできないデータ候補に決定してもよい。作業者により確認の必要なデータを評価値の高いデータに絞ることで、名寄せの効率が向上する。

本実施の形態２によれば、名寄せ結果のデータ件数を、作業者が確認することができる現実的な件数にまで減らすことができる。このため、あいまいな名寄せ条件に基づいて名寄せ処理がおこなわれたとしても、作業者が、名寄せしあう可能性の高い結果または怪しい名寄せ結果に絞って確認することができるため、名寄せ処理の効率が向上する。

また、名寄せしあうデータ群の中のデータごとに評価値を算出するため、評価値の大小によりデータごとに、名寄せしあうデータ群に含めてもよいデータであるか否かを確認することができる。つまり、名寄せしあうデータ群の中の各データが、このデータ群に含まれてよいデータであるか、または含まれてはいけないデータであるかを視覚化できる。このため、作業者は、従来の名寄せ処理では名寄せ結果として露出しなかった予想外の名寄せ結果を、評価値を確認することにより確認することができる。

また、作業者は、確認したい名寄せ結果を、評価値により絞り込むことができる。たとえば、関連度が類似度数である場合に、名寄せしあうデータ候補を確認したい場合には、作業者は評価値の高いデータに絞り込んでデータを確認することができる。また、名寄せできないデータ候補を確認したい場合には、作業者は評価値の低いデータに絞り込んでデータを確認することができる。

（名寄せ処理手順）
つぎに、実施の形態２にかかる名寄せ処理手順の一例について説明する。図２８は、実施の形態２にかかる名寄せ処理手順の一例を示すフローチャートである。図２８において、まず、名寄せ処理装置により、複数の名寄せ元データをグループに登録する（ステップＳ２８０１）。ついで、指定部４０１により、グループ数Ｎを取得し、初期値をｉ＝１とする（ステップＳ２８０２，Ｓ２８０３）。

ついで、指定部４０１により、グループＧ（ｉ）内の名寄せ元データ数ｎを取得し、初期値ｊ＝１とする（ステップＳ２８０４，Ｓ２８０５）。ついで、算出部４０２により、名寄せ元ＩＤ（ｊ）のすべての名寄せ相手レコードを取得する（ステップＳ２８０６）。

ついで、算出部４０２により、評価値算出処理をおこなう（ステップＳ２８０７）。そして、ｊをインクリメントし（ステップＳ２８０８）、ｊ＞ｎでない場合（ステップＳ２８０９：Ｎｏ）、ステップＳ２８０６に移行し、算出部４０２により、名寄せ元ＩＤ（ｊ）のすべての名寄せ相手レコードを取得する。

ステップＳ２８０９において、ｊ＞ｎである場合（ステップＳ２８０９：Ｙｅｓ）、決定部４０３により、評価値の計算方法の個数ｊとし、初期値ｊ＝１とする（ステップＳ２８１０）。ついで、決定部４０３により、第ｊの評価値が最も高い名寄せ元データの第ｊの決定結果に○を書き込む（ステップＳ２８１１）。

さらに、決定部４０３により、第ｊの評価値が最も低い名寄せ元データの第ｊの決定結果に×を書き込む（ステップＳ２８１２）。そして、ｊをインクリメントし（ステップＳ２８１３）、ｊ＞評価値の数（たとえば図２７においては、評価値の数＝６）でない場合（ステップＳ２８１４：Ｎｏ）、ステップＳ２８１１に移行する。

ステップＳ２８１４において、ｊ＞評価値の数となるまで（ステップＳ２８１４：Ｙｅｓ）、ステップＳ２８１１〜Ｓ２８１３を繰り返し、決定部４０３により、評価値の計算方法ごとの決定結果を、名寄せ元データの決定結果に書き込む（図２７参照）。ここでは、評価値の計算方法を６種類としたが、さらに評価値の計算方法を増やしてもよいし、減らしてもよい。

ステップＳ２８１４において、ｊ＞評価値の数である場合（ステップＳ２８１４：Ｙｅｓ）、ｉをインクリメントし（ステップＳ２８１５）、ｉ＞ｎでない場合（ステップＳ２８１６：Ｎｏ）、ステップＳ２８０４に移行し、グループＧ（ｉ）内の名寄せ元データ数ｎを取得し、初期値ｊ＝１とする（ステップＳ２８０４，Ｓ２８０５）。

ステップＳ２８１６において、ｉ＞ｎである場合（ステップＳ２８１６：Ｙｅｓ）、名寄せ処理装置は一連の処理を終了する。一連の名寄せ処理が終了した後、たとえば決定結果に○の最も多い名寄せ元データを、代表的な名寄せ元データとしてもよい。

（評価値算出処理手順）
つぎに、実施の形態２にかかる評価値算出処理手順の一例について説明する。図２９は、実施の形態２にかかる評価値算出処理手順の一例を示すフローチャートである。算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコード数ｍを取得する（ステップＳ２９０１）。そして、算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの第１の評価値に、名寄せ元ＩＤ（ｊ）の名寄せ相手レコード数を書き込む（ステップＳ２９０２）。

ステップＳ２９０２では、算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの第１の評価値に、名寄せ元ＩＤ（ｊ）の名寄せ元データの関係線の数が書き込まれる（図２６では図示省略）。ここでは、評価値を名寄せ相手レコードに書き込んでいるが、上述したように、評価値および決定結果を、新たに作成した構成の異なる他のレコードに書き込んでもよい（図２７参照）。

算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの類似度数の総和Ｔを算出する（ステップＳ２９０３）。そして、算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの第２の評価値に、類似度数の総和Ｔを書き込む（ステップＳ２９０４）。

算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの類似度数の平均値Ｔ／ｍを算出する（ステップＳ２９０５）。そして、算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの第３の評価値に、類似度数の平均値Ｔ／ｍを書き込む（ステップＳ２９０６）。

算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの類似度数のうち、最も高い類似度数Ｆｍａｘを取得する（ステップＳ２９０７）。そして、算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの第４の評価値に、類似度数Ｆｍａｘを書き込む（ステップＳ２９０８）。

算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの類似度数のうち、最も低い類似度数Ｆｍｉｎを取得する（ステップＳ２９０９）。そして、算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの第５の評価値に、類似度数Ｆｍｉｎを書き込む（ステップＳ２９１０）。

算出部４０２により、第１〜第５の評価値の少なくとも２つ以上を組み合わせて、第６の評価値を算出する（ステップＳ２９１１）。そして、算出部４０２により、名寄せ元ＩＤ（ｊ）の名寄せ相手レコードの第６の評価値に、算出した第６の評価値を書き込む（ステップＳ２９１２）。これにより、算出部４０２は一連の処理を終了する。

図２９に示す評価値算出処理では、第１〜第６の評価値のすべてを順番に算出しているが、この算出処理は一例であり、種々変更可能である。たとえば、算出部４０２により、すべての評価値を算出してもよいし、すべての評価値のうち少なくとも１つ以上の評価値を算出してもよい。具体的には、算出部４０２により、第１〜第６の評価値のすべてを算出してもよいし、例えば第１の評価値のみを算出してもよい。

また、算出部４０２により、複数の評価値を組み合わせて評価値を算出する場合、算出部４０２により、複数の評価値を組み合わせて算出された１つの評価値のみを、名寄せ相手レコードに書き込んでもよい。具体的には、算出部４０２により、第１〜第５の評価値は名寄せ相手レコードに書き込まず、第６の評価値のみを名寄せ相手レコードに書き込んでもよい。

実施の形態２にかかる名寄せ処理は、図２６に示す名寄せ相手レコードに対して適用する場合に限らず、複数のデータを含むグループが作成される場合に適用することができる。たとえば、実施の形態１において、統合部により統合されたグループに対して適用してもよい。

以上説明したように、名寄せ処理プログラム、名寄せ処理方法、および名寄せ処理装置によれば、名寄せしあう（または名寄せできない）データの組み合わせを効率よく特定することにより、作業者の関与する作業を減らすことができ、名寄せ結果の精度を向上するができる。

また、データ群の中のデータごとにデータ群内での評価値を算出することにより、作業者の確認する名寄せ結果の件数を減らし、かつ名寄せ結果の効率を向上することができる。

なお、本実施の形態で説明した名寄せ処理法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本名寄せ処理プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本名寄せ処理プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）データ群を記憶するデータベースにアクセス可能なコンピュータに、
前記データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せしあう第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せしあうデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行させることを特徴とする名寄せ処理プログラム。

（付記２）前記特定工程は、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せしあう第４のデータを特定し、
決定工程は、
前記第２のデータと前記特定工程によって特定された第４のデータとを、名寄せしあうデータの組み合わせに決定するとともに、前記第３のデータと前記第４のデータを、名寄せしあうデータの組み合わせに決定することを特徴とする付記１に記載の名寄せ処理プログラム。

（付記３）前記特定工程は、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せできない第４のデータを特定し、
決定工程は、
前記第２のデータと前記特定工程によって特定された第４のデータとを、名寄せできないデータの組み合わせに決定するとともに、前記第３のデータと前記第４のデータを、名寄せできないデータの組み合わせに決定することを特徴とする付記１に記載の名寄せ処理プログラム。

（付記４）名寄せしあうデータ群を記憶するデータベースにアクセス可能なコンピュータに、
前記データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せできない第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せできないデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行させることを特徴とする名寄せ処理プログラム。

（付記５）データ間の関連性を示す関連度を有するデータ群を記憶するデータベースにアクセス可能なコンピュータに、
前記データ群の中から対象データを順次指定する指定工程と、
前記指定工程によって対象データが指定される都度、前記対象データと前記データ群内の他のデータとの関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出する算出工程と、
前記算出工程によって算出された評価値に基づいて、前記データ群の中から前記他のデータのすべてと名寄せしあう代表的なデータを決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行させることを特徴とする名寄せ処理プログラム。

（付記６）前記算出工程は、
前記対象データと関連度を有する前記他のデータの数に基づいて、前記対象データごとに前記データ群内での評価値を算出することを特徴とする付記５に記載の名寄せ処理プログラム。

（付記７）前記対象データと関連度を有する前記他のデータの関連度の総和に基づいて、前記対象データごとに前記データ群内での評価値を算出することを特徴とする付記５に記載の名寄せ処理プログラム。

（付記８）前記対象データと関連度を有する前記他のデータの数と当該他のデータの関連度の総和に基づいて、前記対象データごとに前記データ群内での評価値を算出することを特徴とする付記５に記載の名寄せ処理プログラム。

（付記９）前記関連度が前記データ間の類似度である場合、前記対象データと関連度を有する前記他のデータの関連度の中の最大関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出することを特徴とする付記５に記載の名寄せ処理プログラム。

（付記１０）前記関連度が前記データ間の相違度である場合、前記対象データと関連度を有する前記他のデータの関連度の中の最小関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出することを特徴とする付記５に記載の名寄せ処理プログラム。

（付記１１）前記決定工程は、
前記関連度が前記データ間の類似度である場合、前記評価値が最大となる対象データを、前記代表的なデータに決定することを特徴とする付記５〜９のいずれか一つに記載の名寄せ処理プログラム。

（付記１２）前記決定工程は、
前記評価値が最小となる対象データを、前記代表的なデータと名寄せできないデータ候補に決定することを特徴とする付記１１に記載の名寄せ処理プログラム。

（付記１３）前記決定工程は、
前記評価値が所定値以下となる対象データを、前記代表的なデータと名寄せできないデータ候補に決定することを特徴とする付記１２に記載の名寄せ処理プログラム。

（付記１４）前記決定工程は、
前記関連度が前記データ間の相違度である場合、前記評価値が最小となる対象データを、前記代表的なデータに決定することを特徴とする付記５〜８、１０のいずれか一つに記載の名寄せ処理プログラム。

（付記１５）前記決定工程は、
前記評価値が最大となる対象データを、前記代表的なデータと名寄せできないデータ候補に決定することを特徴とする付記１４に記載の名寄せ処理プログラム。

（付記１６）前記決定工程は、
前記評価値が所定値以上となる対象データを、前記代表的なデータと名寄せできないデータ候補に決定することを特徴とする付記１５に記載の名寄せ処理プログラム。

（付記１７）データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せしあう第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せしあうデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を含むことを特徴とする名寄せ処理方法。

（付記１８）名寄せしあうデータ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せできない第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せできないデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を含むことを特徴とする名寄せ処理方法。

（付記１９）データ間の関連性を示す関連度を有するデータ群の中から対象データを順次指定する指定工程と、
前記指定工程によって対象データが指定される都度、前記対象データと前記データ群内の他のデータとの関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出する算出工程と、
前記算出工程によって算出された評価値に基づいて、前記データ群の中から前記他のデータのすべてと名寄せしあう代表的なデータを決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を含むことを特徴とする名寄せ処理方法。

（付記２０）データ群を記憶するデータベースにアクセス可能な名寄せ処理装置であって、
前記データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定手段と、
前記データ群の中から、前記指定手段によって指定された第１のデータと名寄せしあう第３のデータを特定する特定手段と、
前記指定手段によって指定された第２のデータと前記特定手段によって特定された第３のデータを、名寄せしあうデータの組み合わせに決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする名寄せ処理装置。

（付記２１）名寄せしあうデータ群を記憶するデータベースにアクセス可能な名寄せ処理装置であって、
前記データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定手段と、
前記データ群の中から、前記指定手段によって指定された第１のデータと名寄せできない第３のデータを特定する特定手段と、
前記指定手段によって指定された第２のデータと前記特定手段によって特定された第３のデータを、名寄せできないデータの組み合わせに決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする名寄せ処理装置。

（付記２２）データ間の関連性を示す関連度を有するデータ群を記憶するデータベースにアクセス可能な名寄せ処理装置であって、
前記データ群の中から対象データを順次指定する指定手段と、
前記指定手段によって対象データが指定される都度、前記対象データと前記データ群内の他のデータとの関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出する算出手段と、
前記算出手段によって算出された評価値に基づいて、前記データ群の中から前記他のデータのすべてと名寄せしあう代表的なデータを決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする名寄せ処理装置。

３００名寄せ処理装置
３０１指定部
３０２特定部
３０３決定部
３０４統合部
３０５出力部

Claims

データ群を記憶するデータベースにアクセス可能なコンピュータに、
前記データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せしあう第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せしあうデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行させることを特徴とする名寄せ処理プログラム。
名寄せしあうデータ群を記憶するデータベースにアクセス可能なコンピュータに、
前記データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せできない第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せできないデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行させることを特徴とする名寄せ処理プログラム。
データ間の関連性を示す関連度を有するデータ群を記憶するデータベースにアクセス可能なコンピュータに、
前記データ群の中から対象データを順次指定する指定工程と、
前記指定工程によって対象データが指定される都度、前記対象データと前記データ群内の他のデータとの関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出する算出工程と、
前記算出工程によって算出された評価値に基づいて、前記データ群の中から前記他のデータのすべてと名寄せしあう代表的なデータを決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行させることを特徴とする名寄せ処理プログラム。
データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せしあう第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せしあうデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を含むことを特徴とする名寄せ処理方法。
名寄せしあうデータ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定工程と、
前記データ群の中から、前記指定工程によって指定された第１のデータと名寄せできない第３のデータを特定する特定工程と、
前記指定工程によって指定された第２のデータと前記特定工程によって特定された第３のデータを、名寄せできないデータの組み合わせに決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を含むことを特徴とする名寄せ処理方法。
データ間の関連性を示す関連度を有するデータ群の中から対象データを順次指定する指定工程と、
前記指定工程によって対象データが指定される都度、前記対象データと前記データ群内の他のデータとの関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出する算出工程と、
前記算出工程によって算出された評価値に基づいて、前記データ群の中から前記他のデータのすべてと名寄せしあう代表的なデータを決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を含むことを特徴とする名寄せ処理方法。
データ群を記憶するデータベースにアクセス可能な名寄せ処理装置であって、
前記データ群の中から、名寄せしあう第１のデータおよび第２のデータを指定する指定手段と、
前記データ群の中から、前記指定手段によって指定された第１のデータと名寄せしあう第３のデータを特定する特定手段と、
前記指定手段によって指定された第２のデータと前記特定手段によって特定された第３のデータを、名寄せしあうデータの組み合わせに決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする名寄せ処理装置。
データ間の関連性を示す関連度を有するデータ群を記憶するデータベースにアクセス可能な名寄せ処理装置であって、
前記データ群の中から対象データを順次指定する指定手段と、
前記指定手段によって対象データが指定される都度、前記対象データと前記データ群内の他のデータとの関連度に基づいて、前記対象データごとに前記データ群内での評価値を算出する算出手段と、
前記算出手段によって算出された評価値に基づいて、前記データ群の中から前記他のデータのすべてと名寄せしあう代表的なデータを決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする名寄せ処理装置。