JP5167202B2

JP5167202B2 - カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム

Info

Publication number: JP5167202B2
Application number: JP2009149622A
Authority: JP
Inventors: 章子杉浦; 伸也舟木
Original assignee: Hitachi Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 2009-06-24
Filing date: 2009-06-24
Publication date: 2013-03-21
Anticipated expiration: 2029-06-24
Also published as: JP2011008389A

Description

本発明は、データベースに登録されている複数の人物データを、その属性情報に基づいて相互に関連付けて統合する場合の名寄せ技術に係り、特に、属性情報が一部不明な人物データに対しても相互に関連付けて同一人とみなして統合することが可能な名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラムに関するものである。

人物データの代表的な属性情報としては、氏名データ（漢字氏名，カナ氏名）、住所、電話番号などがあげられるが、本発明は、特に“氏名データ”に着目し、そのうち特に“漢字氏名”の欠損したデータについて、“カナ氏名”を元に名寄せを行う技術に関する。

データベース中の人物データの属性情報に基づいて、その属性が一部不明なデータを相互に関連付けて管理を行う名寄せ処理方法および名寄せ処理プログラムに関する従来技術としては数多くの特許が出願され公開公報として頒布されている。その代表的なものとして人物データの属性情報のうち漢字氏名で名寄せする方法がある。

例えば、特開２００３−７６８３８号公報（特許文献１）に記載の従来技術においては、複数の顧客データに対して効率的に名寄せを行ない、顧客データの相互関係を把握することができる名寄せ処理技術を提供するために、第１の識別子（個人番号）に関連づけられた顧客属性（漢字氏名、カナ氏名、住所コード、電話番号、生年月日など）を記録した顧客データ記憶手段と、データ処理を行なう管理コンピュータとを有するシステムを用い、該管理コンピュータが、一部が共通する顧客属性に関連づけられた個人番号に対して、共通する第２の識別子（識別子Ａ）を付与し、次に、共通する第１の識別子（個人番号）に関連づけられた第２の識別子（識別子Ａ）に対して、数値の小さい第２の識別子（識別子Ａ）を第３の識別子（識別子Ｂ）として付与し、さらに、共通する第２の識別子（識別子Ａ）に関連づけられた第３の識別子（識別子Ｂ）を、数値の小さい第３の識別子（識別子Ｂ）に置き換え、同じ個人番号と第３の識別子（識別子Ｂ）との組み合わせがなくなるまで繰り返すことにより、効率的に名寄せ処理を行なうようにしたものであるが、その実施例の説明から明らかなように、特許文献１では、第１の識別子（個人番号）が異なり、カナ氏名も異なっている２つの顧客データについて、漢字氏名が一致していることを根拠にして氏名に関しては一致すると判断して名寄せを行うようにしたものである。

特開２００３−７６８３８号公報

上述したように、特開２００３−７６８３８号公報（特許文献１）に記載された従来技術では、他の要素（個人番号、カナ氏名など）が異なっている複数の顧客データについて「漢字氏名」が一致しているデータを同一人としてみなす手法を使用している。

このことは、逆に言えば、特許文献１のものは「漢字氏名」を属性情報として持ち合わせていない場合には同一人とみなして名寄せを行うことができなくなる、という問題がある。

本発明は、保持している人物データの属性情報が少なく、そのうち漢字氏名を持たず、かつ漢字氏名の他に保持しているカナ氏名を読み間違えて格納されている可能性のあるデータについて、漢字氏名の有無に関係なく名寄せを実現可能にするものであり、特開２００３−７６８３８号公報に記載の従来技術で実現されていない点を補完するものである。

そこで、本発明の目的は、マスタデータベース上に存在するデータと同一人と思われるデータの対象を広げ、マスタデータベースにより多くのデータを名寄せすることが可能で、一段と確度の高い名寄せを実現することが可能なカナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラムを提供することである。

上記の課題を解決するために、本発明は、漢字氏名に対応するカナ氏名の出現頻度が格納されているパッケージ辞書と未統合データの統合先であるマスタデータベースを有し、パッケージ辞書からカナ氏名読替変換用辞書を作成し、未統合データに丸め後カナ氏名を付与した変換後未統合データを用いてマスタデータベースとの突合を行い、丸め後カナ氏名で突合させることにより漢字氏名や丸め前カナ氏名で突合しなかったデータについて同一人と思われるデータの対象を広げるための手段を備えることを特徴としている。

より具体的には、
（ａ）本発明に係る名寄せ処理方法は、少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップとを有することを特徴としている。

（ｂ）また、上記名寄せ処理方法において、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、前記丸め変換ステップは、特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出し、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名（漢字氏名）に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成するステップ（図１．２のステップＳ１）と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成するステップ（同ステップＳ３）とを有し、前記統合ステップは、前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力するステップ（同ステップＳ５）を有することを特徴としている。

（ｃ）また、上記名寄せ処理方法において、前記カナ氏名に対する各処理は、まず、カナ氏名をカナ氏とカナ名に分割し、カナ氏とカナ名のそれぞれに対して別々に実行される（図１．２のステップＳ２）ことを特徴としている。

（ｄ）また、本発明に係る名寄せ処理システムは、少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する名寄せ処理システムであって、漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換手段と、該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合手段とを有することを特徴としている。

（ｅ）また、上記名寄せ処理システムにおいて、さらに、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、前記丸め変換手段は、特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出し、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名（漢字氏名）に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成する手段（図１，１のカナ氏名変換辞書作成部２００９）と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成する手段（同読違い変換処理部３０１）を有し、前記統合手段は、前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力する手段（同突合結果編集処理部４０１）を有することを特徴としている。

（ｆ）また、上記名寄せ処理システムにおいて、前記カナ氏名に対する各処理は、カナ氏名を構成するカナ氏とカナ名のそれぞれに対して別々に実行されることを特徴としている。

（ｇ）また、上記名寄せ処理システムにおいて、前記突合結果を出力する手段（同突合結果編集処理部４０１）は、突合結果とともに名寄せの確度も出力することを特徴としている。

（ｈ）また、本発明に係るプログラムは、コンピュータを、上記（ｄ）から（ｇ）のいずれかに記載の名寄せ処理システムにおける各手段として機能させるプログラムである。

本発明によると、人物データを特定する属性情報として最も代表的な項目の１つである漢字氏名が欠損し、かつ、カナ氏名についても正しく格納されていない未統合データに対して、漢字氏名の有無に関わらずカナ氏名の読違いを正すためのデータ候補（丸め後カナ氏名）を付与した変換後未統合データを作成することにより、マスタデータベース上に存在するデータと同一人と思われるデータの対象を広げ、マスタデータベースにより多くのデータを名寄せすることが可能となる。これは、いくつか情報が欠損していることにより従来には断念せざるを得なかった未統合データについて、新たにマスタデータベースに名寄せできる可能性を広げることを意味する。

さらに、本発明による丸め後カナ氏名と通常名寄せ処理時に用いられる住所や電話番号、生年月日などの人物を特定するための属性データを組合せて突合の確度を計測することにより、一段と確度の高い名寄せを実現することが可能となる。

本発明に係る名寄せ処理システムの全体構成図である。本発明に係る名寄せ処理システムの全体処理手順を示すフロー図である。本発明に係る実施形態におけるカナ氏名変換辞書作成処理部（２００）の処理を説明するための構成図である。図２．１の漢字グルーピング処理部（２０１）の処理を説明するためのテーブルデータ図である。図２．１のカナグルーピング処理部（２０２）の処理を説明するためのテーブルデータ図である。本発明に係る実施形態における読違い変換処理部（３０１）の処理を説明するための構成図である。図３．１の読違い変換処理部（３０１）の処理を説明するためのテーブルデータ図である。実施形態における突合結果編集処理部（４０１）を説明するための構成図である。図４．１の突合結果編集処理部（４０１）の処理を説明するためのテーブルデータ図である。

以下、本発明に係る名寄せ処理システムの実施形態を、図面を用いて詳細に説明する。

図１．１は、本発明に係る名寄せ処理システム全体構成図、図１．２は、名寄せ処理システム全体の処理手順を示すフローチャート、図２．１，図３．１，および４．１は、図１．２の各処理ステップに対する処理構成図、さらに図２．２、図２．３、図３．２、図４．２は、それぞれ図２．１，３．１，４．１の各処理に伴いテーブルで保持しているデータの動きを具体例によって示す図である。

図１．１は、本発明に係る名寄せ処理システム全体の構成図である。
本発明に係る名寄せ処理システムは、データ管理装置としてのコンピュータ（１１）と、該コンピュータに接続されているパッケージ辞書（２１、２２）およびマスタデータベース（４２）から構成される。

データ管理装置としてのコンピュータ（１１）は、カナ氏名変換辞書（２５、２６）を生成するカナ氏名変換辞書作成部２００と、カナ氏名変換辞書（２５、２６）を用いて未統合データ（３１、３２）を変換後未統合データ（３５、３６）に変換する読違い変換処理部（３０１）と、変換後未統合データ（３５、３６）とマスタデータベース（４２）との突合結果（４３）を出力する突合結果編集処理部（４０１）とから構成される。なお、カナ氏名変換辞書作成部２００は、漢字グルーピング処理部２０１とカナグルーピング処理部２０２から構成される。

また、上記パッケージ辞書、カナ氏名変換辞書、未統合データ、変換後未統合データにおいて、上記２１，２５，３１，３５は“氏”に関する部分であり、２２，２６，３２，３６は“名”に関する部分である。

次に、本発明に係る名寄せ処理システムの実施の形態における全体の流れを説明する。
図１．２は、本発明にかかる名寄せ処理システムの実施形態における全体の処理の流れを示すフローチャートである。

同図に示すように、カナ氏名変換辞書作成部（２００）にパッケージ辞書を入力し、丸め変換後カナ氏名を得るためのカナ氏名変換辞書を作成する（ステップＳ１）。なお、単純化のため、以下では“丸め変換”を単に“丸め”という。

次に、読違い変換処理部（３０１）において、未統合データ（３１、３２）とカナ氏名変換辞書（２５、２６）との突合処理を実施し、丸め後カナ氏名を付与した変換後未統合データ（３５、３６）を作成し出力する（ステップＳ３）。

次に、突合結果編集処理部（４０１）において、変換後未統合データ（３５、３６）をマスタデータベース（４２）と突合し、突合結果（４３）を編集出力する（ステップＳ５）。

なお、カナ氏名の氏と名を別々に処理するために、未統合データのカナ氏名を氏と名に分割する処理（ステップＳ２）と、最終的に変換後未統合データのカナ氏名の氏と名を結合する処理（ステップＳ４）を行っている。ステップＳ２は氏名分割処理部（図１．１では不図示）において行われ、ステップＳ４は氏名結合処理部（図１．１では不図示）で行われる。

以下、図１．２のカナ氏名変換辞書作成部（２００）で行われるステップＳ１の処理を、図２．１によって具体例を用いながら説明する。また、テーブルデータの更新が関わる内部動作の説明については、随時、図２．２，図２．３を用いる。

図２．１は、図１．２におけるカナ氏名変換辞書作成部（２００）の処理（ステップＳ１）の処理要素を示す構成図である。

同図に示すように、パッケージ辞書（氏）（２１）が保持するカナ（氏）の出現頻度に基づき、丸め前後カナ（氏）の組合せパターン候補を決定する処理を実行し、グルーピングデータ（氏）（２３）を出力する漢字グルーピング処理部（２０１ａ）と、丸め前後カナ（氏）の組合せパターン候補をユニークに集約し、カナ変換辞書（氏）（２５）を出力する処理を実行するカナグルーピング処理部（２０２ａ）と、パッケージ辞書（名）（２２）が保持するカナ（名）の出現頻度に基づき、丸め前後カナ（名）の組合せパターン候補を決定する処理を実行し、グルーピングデータ（名）（２４）を出力する漢字グルーピング処理部（２０１ｂ）と、丸め前後カナ（名）の組合せパターン候補をユニークに集約し、カナ変換辞書（名）（２６）を出力する処理を実行するカナグルーピング処理部（２０２ｂ）を有する。

＜実施形態；漢字グルーピング処理＞
図２．２は、漢字グルーピング処理部（２０１ａ）のテーブルデータの動きについて具体例を用いて示した図である。

図２．２で示されているパッケージ辞書（氏）（２１１）の漢字（氏）「上場」には対応するカナ（氏）として「カミジョウ」，「ウエバ」の２種類が存在している。

パッケージ辞書（氏）が保持するカナ（氏）出現頻度に従うと「カミジョウ」の出現頻度は５０ポイントであり、他方「ウエバ」の出現頻度は３２ポイントであるため、出現頻度の高い「カミジョウ」を「ウエバ」に対する丸め後カナ（氏）としてグルーピングデータ（氏）（２１２）に設定する。

同様にして漢字（氏）「上城」に対応するカナ（氏）「カミジョウ」，「カミシロ」についても出現頻度の高い「カミジョウ」を丸め後カナ（氏）として設定する。

処理後の状態はグルーピングデータ（氏）（２１２）で示されているように、「上場」に対応するカナ（氏）は丸め前が「ウエバ」で丸め後は「カミジョウ」と設定され、同様にして「上城」に対応するカナ（氏）は丸め前が「カミシロ」、丸め後は「カミジョウ」と設定される。

このようにしてひとつの漢字（氏）に対応する丸め前後カナ（氏）の組合せパターン候補を得ることができる。なお、カナ（名）についても同様の処理を実施する。
なお、これは丸めによって未統合データの突合候補を増やすことを目的としたものである。

＜実施形態；カナグルーピング処理＞
図２．３は、カナグルーピング処理部（２０２ａ）のテーブルデータの動きについて具体例を用いて示した図である。漢字グルーピング処理部（２０１ａ）で作成されたグルーピングデータ（氏）（２２１）には、丸め前後カナ（氏）の組合せパターンが同一のものが複数存在している。

そのため、これらのパターンをユニークになるよう集約する。集約に伴ってそれぞれのパターンに付随する異なる漢字（氏）を１つ選択する必要が出てくる。この漢字（氏）の選択にもパッケージ辞書（氏）の保持するカナ（氏）の出現頻度を使用する。

グルーピングデータ（氏）（２２１）において、丸め前カナ（氏）が「カミジョウ」で丸め後カナ（氏）が「カミジョウ」となるパターンは４つあり、それらにはそれぞれ異なる４つの漢字（氏）が対応しているが、そのうち出現頻度の最も高いパターンに残りのパターンを集約する。

その結果、カナ氏名変換辞書（氏）（２２２）で示されるように丸め前カナ（氏）が「カミジョウ」で丸め後カナ（氏）が「カミジョウ」となるパターンについては、４つ存在していた漢字（氏）「上條」，「上場」，「上城」，「上条」のうち出現頻度のもっとも高い「上城」を設定する。

このようにして、ひとつの漢字（氏）に対応する丸め変換前カナ（氏）および丸め変換後カナ（氏）の組合せパターンがユニークに確定したカナ氏名変換辞書（氏）を得ることができる。なお、カナ（名）についても同様の処理を実施する。

次に、図１．２の読違い変換処理部（３０１）の処理ステップＳ３について、図３によって具体例を用いながら説明する。また、テーブルデータの更新がかかわる内部動作の説明については、随時、図３．１を用いる。

図３．１は、図１．２における読違い変換処理部（３０１）の処理（ステップＳ３）の処理要素を示す構成図である。
同図に示すように、未統合データ（氏）（３１）をカナ氏名変換辞書（氏）（３３）と突合し、突合した場合は未統合データが持つデータに丸め後カナ（氏）を付与し、変換後未統合データ（氏）（３５）として出力する処理を行う読違い変換（氏）処理部（３０１ａ）と、未統合データ（名）（３２）をカナ氏名変換辞書（名）（３４）と突合し、突合した場合未統合データが持つデータに丸め後カナ（氏）を付与し、変換後未統合データ（名）（３６）として出力する処理を行う読違い変換（名）処理部（３０１ｂ）を有する。

＜実施形態；読違い変換処理＞
図３．２は、読違い変換処理（氏）部（３０１ａ）のテーブルデータの動きについて具体例を用いて示した図である。図３．２で示されている未統合データ（３１１）のカナ（氏）「カミジョウ」，「ウエバ」，「カミシロ」は、カナ氏名変換辞書（氏）（３１２）における丸め前カナ（氏）と合致するため、これらはすべて丸め後カナ（氏）「カミジョウ」に読み替えられる。結果、変換後未統合データ（氏）（３１３）の丸め後カナ（氏）には「カミジョウ」と設定される。カナ（名）についても同様の処理を実施する。

これによって、漢字氏名がないデータ、かつカナ氏名についても読み間違いの危険性のあるデータについて名寄せの可能性を広げるための候補としての丸め後カナ氏（名）を得ることができる。

これまでの処理によって得られた変換後未統合データ（氏）および変換後未統合データ（名）を結合した変換後未統合データ（氏名）とマスタデータベースとの突合処理を実施する。突合処理そのものについては本発明の独自性等が特にないため、ここでは実施形態の詳細説明は割愛する。

次に、図１．２の突合結果編集処理部（４０１）の処理（ステップＳ５）について、図４．１によって具体例を用いながら説明する。また、テーブルデータの更新がかかわる内部動作の説明については、随時、図４．２を用いる。

図４．１は、図１．２における突合結果編集処理部（４０１）の処理（ステップＳ５）を行う際の要素を示す構成図である。変換後未統合データ（氏名）（４１）とマスタデータベース（４２）を突合し、突合結果（４３）を出力する突合結果編集処理部（４０１）を有する。

＜実施形態；突合結果編集処理＞
図４．２は、突合結果編集処部（４０１）のテーブルデータの動きについて具体例を用いて示した図である。図４．２で示されている変換後未統合データ（氏名）（４１１）の項番２のデータは漢字氏名がなく、その丸め前カナ（氏名）とマスタデータベース（４１２）のカナ（氏名）とが合致するため、突合結果（４１３）のＢ（名寄せ条件の確度が上から２番目）に分類される。

同様の処理により、項番４は突合結果のＤ（名寄せ条件の確度が最も低い）にそれぞれ分類される。なお、項番３については未統合データに漢字氏名が存在する例であり、突合結果のＣ（名寄せ条件の確度が下から２番目）に分類される。

以上本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されるものではなく、本発明の範囲内において自由に修正、変更を加えることが可能である。例えば本文であげている例のうち、ファイルによる操作を実施している部分について、他の処理方法や媒体を用いることでもよい。

また、最終成果物である突合結果から、未統合データの各データについてマスタデータベース上に存在するデータと同一人である可能性の確度を把握することができるが、データを名寄せする上でその確度をいかに評価し、使用するかは使用者が自由に決定できるものである。

なお、図１に示したデータ管理装置（コンピュータ）１１の各処理部（各手段）で行われる処理（図１．２のステップＳ１〜５とそれ以降の図面で説明した処理）や機能は、データ管理装置（コンピュータ）１１に内蔵されるＣＰＵやメモリなどのハードウェア資源を用いて、各処理部（各手段）で実施される処理に対応するプログラムを実行することによって実現される。また、該プログラムは、ＦＤ，ＣＤ−ＲＯＭ、ＤＶＤなどの記録媒体や、インターネットなどのネットワークを介して市場に流通させることができる。

１１：データ管理装置（コンピュータ）
２１：パッケージ辞書（氏）
２２：パッケージ辞書（名）
２３：グルーピングデータ（氏）
２４：グルーピングデータ（名）
２５，３３：カナ氏名変換辞書（氏）
２６，３４：カナ氏名変換辞書（名）
３１：未統合データ(氏)
３２：未統合データ(名)
３５：変換後未統合データ（氏）
３６：変換後未統合データ（名）
４１：変換後未統合データ(氏名)
４２：マスタデータベース
４３：突合結果
２００：カナ氏名変換辞書作成部
２０１：漢字グルーピング処理部
２０２：カナグルーピング処理部
３０１：読違い変換処理部
４０１：突合結果編集処理部
Ｓ１：カナ氏名変換辞書作成部の処理
Ｓ２：氏名分割処理部の処理
Ｓ３：読違い変換処理部の処理
Ｓ４：氏名結合処理部の処理
Ｓ５：突合結果編集処理部の処理
２１１：パッケージ辞書（氏）（テーブルデータ）
２１２：グルーピングデータ（氏）（テーブルデータ）
２２１：グルーピングデータ（氏）（テーブルデータ）
２２２：カナ氏名変換辞書（氏）（テーブルデータ）
３１１：未統合データ（テーブルデータ）
３１２：カナ氏名変換辞書（氏）（テーブルデータ）
３１３：変換後未統合データ（氏）（テーブルデータ）
４０１：突合結果編集処理部（Ｓ５と同一）
４１１：変換後未統合データ（氏名）（テーブルデータ）
４１２：マスタデータベース（テーブルデータ）
４１３：突合結果（テーブルデータ）

Claims

少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、
漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、
該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップと
を有することを特徴とする名寄せ処理方法。
請求項１記載の名寄せ処理方法において、
漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
前記丸め変換ステップは、
特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出するステップと、
丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名（漢字氏名）に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成するステップと、
前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成するステップとを有し、
前記統合ステップは、
前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を編集して出力するステップを有する
ことを特徴とする名寄せ処理方法。
請求項１または２記載の名寄せ処理方法において、
前記カナ氏名に対する各処理は、まず、カナ氏名をカナ氏とカナ名に分割し、カナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理方法。
少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する名寄せ処理システムであって、
漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して一定の法則により丸め変換を行う丸め変換手段と、
該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合手段と
を有することを特徴とする名寄せ処理システム。
請求項４記載の名寄せ処理システムにおいて、
さらに、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
前記丸め変換手段は、
特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出する手段と、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名（漢字氏名）に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成する手段と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成する手段を有し、
前記統合手段は、
前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力する手段を有することを特徴とする名寄せ処理システム。
請求項４または５記載の名寄せ処理システムにおいて、
前記カナ氏名に対する各処理は、カナ氏名を構成するカナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理システム。
請求項４から６のいずれかに記載の名寄せ処理システムにおいて、
前記突合結果編集処理手段は、突合結果とともに名寄せの確度も出力することを特徴とする名寄せ処理システム。
コンピュータを、請求項４から７のいずれかに記載の名寄せ処理システムにおける各手段として機能させるプログラム。