JP5167202B2 - カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム - Google Patents

カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム Download PDF

Info

Publication number
JP5167202B2
JP5167202B2 JP2009149622A JP2009149622A JP5167202B2 JP 5167202 B2 JP5167202 B2 JP 5167202B2 JP 2009149622 A JP2009149622 A JP 2009149622A JP 2009149622 A JP2009149622 A JP 2009149622A JP 5167202 B2 JP5167202 B2 JP 5167202B2
Authority
JP
Japan
Prior art keywords
name
kana
conversion
rounding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009149622A
Other languages
English (en)
Other versions
JP2011008389A (ja
Inventor
章子 杉浦
伸也 舟木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2009149622A priority Critical patent/JP5167202B2/ja
Publication of JP2011008389A publication Critical patent/JP2011008389A/ja
Application granted granted Critical
Publication of JP5167202B2 publication Critical patent/JP5167202B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、データベースに登録されている複数の人物データを、その属性情報に基づいて相互に関連付けて統合する場合の名寄せ技術に係り、特に、属性情報が一部不明な人物データに対しても相互に関連付けて同一人とみなして統合することが可能な名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラムに関するものである。
人物データの代表的な属性情報としては、氏名データ(漢字氏名,カナ氏名)、住所、電話番号などがあげられるが、本発明は、特に“氏名データ”に着目し、そのうち特に“漢字氏名”の欠損したデータについて、“カナ氏名”を元に名寄せを行う技術に関する。
データベース中の人物データの属性情報に基づいて、その属性が一部不明なデータを相互に関連付けて管理を行う名寄せ処理方法および名寄せ処理プログラムに関する従来技術としては数多くの特許が出願され公開公報として頒布されている。その代表的なものとして人物データの属性情報のうち漢字氏名で名寄せする方法がある。
例えば、特開2003−76838号公報(特許文献1)に記載の従来技術においては、複数の顧客データに対して効率的に名寄せを行ない、顧客データの相互関係を把握することができる名寄せ処理技術を提供するために、第1の識別子(個人番号)に関連づけられた顧客属性(漢字氏名、カナ氏名、住所コード、電話番号、生年月日など)を記録した顧客データ記憶手段と、データ処理を行なう管理コンピュータとを有するシステムを用い、該管理コンピュータが、一部が共通する顧客属性に関連づけられた個人番号に対して、共通する第2の識別子(識別子A)を付与し、次に、共通する第1の識別子(個人番号)に関連づけられた第2の識別子(識別子A)に対して、数値の小さい第2の識別子(識別子A)を第3の識別子(識別子B)として付与し、さらに、共通する第2の識別子(識別子A)に関連づけられた第3の識別子(識別子B)を、数値の小さい第3の識別子(識別子B)に置き換え、同じ個人番号と第3の識別子(識別子B)との組み合わせがなくなるまで繰り返すことにより、効率的に名寄せ処理を行なうようにしたものであるが、その実施例の説明から明らかなように、特許文献1では、第1の識別子(個人番号)が異なり、カナ氏名も異なっている2つの顧客データについて、漢字氏名が一致していることを根拠にして氏名に関しては一致すると判断して名寄せを行うようにしたものである。
特開2003−76838号公報
上述したように、特開2003−76838号公報(特許文献1)に記載された従来技術では、他の要素(個人番号、カナ氏名など)が異なっている複数の顧客データについて「漢字氏名」が一致しているデータを同一人としてみなす手法を使用している。
このことは、逆に言えば、特許文献1のものは「漢字氏名」を属性情報として持ち合わせていない場合には同一人とみなして名寄せを行うことができなくなる、という問題がある。
本発明は、保持している人物データの属性情報が少なく、そのうち漢字氏名を持たず、かつ漢字氏名の他に保持しているカナ氏名を読み間違えて格納されている可能性のあるデータについて、漢字氏名の有無に関係なく名寄せを実現可能にするものであり、特開2003−76838号公報に記載の従来技術で実現されていない点を補完するものである。
そこで、本発明の目的は、マスタデータベース上に存在するデータと同一人と思われるデータの対象を広げ、マスタデータベースにより多くのデータを名寄せすることが可能で、一段と確度の高い名寄せを実現することが可能なカナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラムを提供することである。
上記の課題を解決するために、本発明は、漢字氏名に対応するカナ氏名の出現頻度が格納されているパッケージ辞書と未統合データの統合先であるマスタデータベースを有し、パッケージ辞書からカナ氏名読替変換用辞書を作成し、未統合データに丸め後カナ氏名を付与した変換後未統合データを用いてマスタデータベースとの突合を行い、丸め後カナ氏名で突合させることにより漢字氏名や丸め前カナ氏名で突合しなかったデータについて同一人と思われるデータの対象を広げるための手段を備えることを特徴としている。
より具体的には、
(a)本発明に係る名寄せ処理方法は、少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップとを有することを特徴としている。
(b)また、上記名寄せ処理方法において、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、前記丸め変換ステップは、特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出し、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成するステップ(図1.2のステップS1)と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成するステップ(同ステップS3)とを有し、前記統合ステップは、前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力するステップ(同ステップS5)を有することを特徴としている。
(c)また、上記名寄せ処理方法において、前記カナ氏名に対する各処理は、まず、カナ氏名をカナ氏とカナ名に分割し、カナ氏とカナ名のそれぞれに対して別々に実行される(図1.2のステップS2)ことを特徴としている。
(d)また、本発明に係る名寄せ処理システムは、少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する名寄せ処理システムであって、漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換手段と、該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合手段とを有することを特徴としている。
(e)また、上記名寄せ処理システムにおいて、さらに、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、前記丸め変換手段は、特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出し、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成する手段(図1,1のカナ氏名変換辞書作成部2009)と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成する手段(同読違い変換処理部301)を有し、前記統合手段は、前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力する手段(同突合結果編集処理部401)を有することを特徴としている。
(f)また、上記名寄せ処理システムにおいて、前記カナ氏名に対する各処理は、カナ氏名を構成するカナ氏とカナ名のそれぞれに対して別々に実行されることを特徴としている。
(g)また、上記名寄せ処理システムにおいて、前記突合結果を出力する手段(同突合結果編集処理部401)は、突合結果とともに名寄せの確度も出力することを特徴としている。
(h)また、本発明に係るプログラムは、コンピュータを、上記(d)から(g)のいずれかに記載の名寄せ処理システムにおける各手段として機能させるプログラムである。
本発明によると、人物データを特定する属性情報として最も代表的な項目の1つである漢字氏名が欠損し、かつ、カナ氏名についても正しく格納されていない未統合データに対して、漢字氏名の有無に関わらずカナ氏名の読違いを正すためのデータ候補(丸め後カナ氏名)を付与した変換後未統合データを作成することにより、マスタデータベース上に存在するデータと同一人と思われるデータの対象を広げ、マスタデータベースにより多くのデータを名寄せすることが可能となる。これは、いくつか情報が欠損していることにより従来には断念せざるを得なかった未統合データについて、新たにマスタデータベースに名寄せできる可能性を広げることを意味する。
さらに、本発明による丸め後カナ氏名と通常名寄せ処理時に用いられる住所や電話番号、生年月日などの人物を特定するための属性データを組合せて突合の確度を計測することにより、一段と確度の高い名寄せを実現することが可能となる。
本発明に係る名寄せ処理システムの全体構成図である。 本発明に係る名寄せ処理システムの全体処理手順を示すフロー図である。 本発明に係る実施形態におけるカナ氏名変換辞書作成処理部(200)の処理を説明するための構成図である。 図2.1の漢字グルーピング処理部(201)の処理を説明するためのテーブルデータ図である。 図2.1のカナグルーピング処理部(202)の処理を説明するためのテーブルデータ図である。 本発明に係る実施形態における読違い変換処理部(301)の処理を説明するための構成図である。 図3.1の読違い変換処理部(301)の処理を説明するためのテーブルデータ図である。 実施形態における突合結果編集処理部(401)を説明するための構成図である。 図4.1の突合結果編集処理部(401)の処理を説明するためのテーブルデータ図である。
以下、本発明に係る名寄せ処理システムの実施形態を、図面を用いて詳細に説明する。
図1.1は、本発明に係る名寄せ処理システム全体構成図、図1.2は、名寄せ処理システム全体の処理手順を示すフローチャート、図2.1,図3.1,および4.1は、図1.2の各処理ステップに対する処理構成図、さらに図2.2、図2.3、図3.2、図4.2は、それぞれ図2.1,3.1,4.1の各処理に伴いテーブルで保持しているデータの動きを具体例によって示す図である。
図1.1は、本発明に係る名寄せ処理システム全体の構成図である。
本発明に係る名寄せ処理システムは、データ管理装置としてのコンピュータ(11)と、該コンピュータに接続されているパッケージ辞書(21、22)およびマスタデータベース(42)から構成される。
データ管理装置としてのコンピュータ(11)は、カナ氏名変換辞書(25、26)を生成するカナ氏名変換辞書作成部200と、カナ氏名変換辞書(25、26)を用いて未統合データ(31、32)を変換後未統合データ(35、36)に変換する読違い変換処理部(301)と、変換後未統合データ(35、36)とマスタデータベース(42)との突合結果(43)を出力する突合結果編集処理部(401)とから構成される。なお、カナ氏名変換辞書作成部200は、漢字グルーピング処理部201とカナグルーピング処理部202から構成される。
また、上記パッケージ辞書、カナ氏名変換辞書、未統合データ、変換後未統合データにおいて、上記21,25,31,35は“氏”に関する部分であり、22,26,32,36は“名”に関する部分である。
次に、本発明に係る名寄せ処理システムの実施の形態における全体の流れを説明する。
図1.2は、本発明にかかる名寄せ処理システムの実施形態における全体の処理の流れを示すフローチャートである。
同図に示すように、カナ氏名変換辞書作成部(200)にパッケージ辞書を入力し、丸め変換後カナ氏名を得るためのカナ氏名変換辞書を作成する(ステップS1)。なお、単純化のため、以下では“丸め変換”を単に“丸め”という。
次に、読違い変換処理部(301)において、未統合データ(31、32)とカナ氏名変換辞書(25、26)との突合処理を実施し、丸め後カナ氏名を付与した変換後未統合データ(35、36)を作成し出力する(ステップS3)。
次に、突合結果編集処理部(401)において、変換後未統合データ(35、36)をマスタデータベース(42)と突合し、突合結果(43)を編集出力する(ステップS5)。
なお、カナ氏名の氏と名を別々に処理するために、未統合データのカナ氏名を氏と名に分割する処理(ステップS2)と、最終的に変換後未統合データのカナ氏名の氏と名を結合する処理(ステップS4)を行っている。ステップS2は氏名分割処理部(図1.1では不図示)において行われ、ステップS4は氏名結合処理部(図1.1では不図示)で行われる。
以下、図1.2のカナ氏名変換辞書作成部(200)で行われるステップS1の処理を、図2.1によって具体例を用いながら説明する。また、テーブルデータの更新が関わる内部動作の説明については、随時、図2.2,図2.3を用いる。
図2.1は、図1.2におけるカナ氏名変換辞書作成部(200)の処理(ステップS1)の処理要素を示す構成図である。
同図に示すように、パッケージ辞書(氏)(21)が保持するカナ(氏)の出現頻度に基づき、丸め前後カナ(氏)の組合せパターン候補を決定する処理を実行し、グルーピングデータ(氏)(23)を出力する漢字グルーピング処理部(201a)と、丸め前後カナ(氏)の組合せパターン候補をユニークに集約し、カナ変換辞書(氏)(25)を出力する処理を実行するカナグルーピング処理部(202a)と、パッケージ辞書(名)(22)が保持するカナ(名)の出現頻度に基づき、丸め前後カナ(名)の組合せパターン候補を決定する処理を実行し、グルーピングデータ(名)(24)を出力する漢字グルーピング処理部(201b)と、丸め前後カナ(名)の組合せパターン候補をユニークに集約し、カナ変換辞書(名)(26)を出力する処理を実行するカナグルーピング処理部(202b)を有する。
<実施形態;漢字グルーピング処理>
図2.2は、漢字グルーピング処理部(201a)のテーブルデータの動きについて具体例を用いて示した図である。
図2.2で示されているパッケージ辞書(氏)(211)の漢字(氏)「上場」には対応するカナ(氏)として「カミジョウ」,「ウエバ」の2種類が存在している。
パッケージ辞書(氏)が保持するカナ(氏)出現頻度に従うと「カミジョウ」の出現頻度は50ポイントであり、他方「ウエバ」の出現頻度は32ポイントであるため、出現頻度の高い「カミジョウ」を「ウエバ」に対する丸め後カナ(氏)としてグルーピングデータ(氏)(212)に設定する。
同様にして漢字(氏)「上城」に対応するカナ(氏)「カミジョウ」,「カミシロ」についても出現頻度の高い「カミジョウ」を丸め後カナ(氏)として設定する。
処理後の状態はグルーピングデータ(氏)(212)で示されているように、「上場」に対応するカナ(氏)は丸め前が「ウエバ」で丸め後は「カミジョウ」と設定され、同様にして「上城」に対応するカナ(氏)は丸め前が「カミシロ」、丸め後は「カミジョウ」と設定される。
このようにしてひとつの漢字(氏)に対応する丸め前後カナ(氏)の組合せパターン候補を得ることができる。なお、カナ(名)についても同様の処理を実施する。
なお、これは丸めによって未統合データの突合候補を増やすことを目的としたものである。
<実施形態;カナグルーピング処理>
図2.3は、カナグルーピング処理部(202a)のテーブルデータの動きについて具体例を用いて示した図である。漢字グルーピング処理部(201a)で作成されたグルーピングデータ(氏)(221)には、丸め前後カナ(氏)の組合せパターンが同一のものが複数存在している。
そのため、これらのパターンをユニークになるよう集約する。集約に伴ってそれぞれのパターンに付随する異なる漢字(氏)を1つ選択する必要が出てくる。この漢字(氏)の選択にもパッケージ辞書(氏)の保持するカナ(氏)の出現頻度を使用する。
グルーピングデータ(氏)(221)において、丸め前カナ(氏)が「カミジョウ」で丸め後カナ(氏)が「カミジョウ」となるパターンは4つあり、それらにはそれぞれ異なる4つの漢字(氏)が対応しているが、そのうち出現頻度の最も高いパターンに残りのパターンを集約する。
その結果、カナ氏名変換辞書(氏)(222)で示されるように丸め前カナ(氏)が「カミジョウ」で丸め後カナ(氏)が「カミジョウ」となるパターンについては、4つ存在していた漢字(氏)「上條」,「上場」,「上城」,「上条」のうち出現頻度のもっとも高い「上城」を設定する。
このようにして、ひとつの漢字(氏)に対応する丸め変換前カナ(氏)および丸め変換後カナ(氏)の組合せパターンがユニークに確定したカナ氏名変換辞書(氏)を得ることができる。なお、カナ(名)についても同様の処理を実施する。
次に、図1.2の読違い変換処理部(301)の処理ステップS3について、図3によって具体例を用いながら説明する。また、テーブルデータの更新がかかわる内部動作の説明については、随時、図3.1を用いる。
図3.1は、図1.2における読違い変換処理部(301)の処理(ステップS3)の処理要素を示す構成図である。
同図に示すように、未統合データ(氏)(31)をカナ氏名変換辞書(氏)(33)と突合し、突合した場合は未統合データが持つデータに丸め後カナ(氏)を付与し、変換後未統合データ(氏)(35)として出力する処理を行う読違い変換(氏)処理部(301a)と、未統合データ(名)(32)をカナ氏名変換辞書(名)(34)と突合し、突合した場合未統合データが持つデータに丸め後カナ(氏)を付与し、変換後未統合データ(名)(36)として出力する処理を行う読違い変換(名)処理部(301b)を有する。
<実施形態;読違い変換処理>
図3.2は、読違い変換処理(氏)部(301a)のテーブルデータの動きについて具体例を用いて示した図である。図3.2で示されている未統合データ(311)のカナ(氏)「カミジョウ」,「ウエバ」,「カミシロ」は、カナ氏名変換辞書(氏)(312)における丸め前カナ(氏)と合致するため、これらはすべて丸め後カナ(氏)「カミジョウ」に読み替えられる。結果、変換後未統合データ(氏)(313)の丸め後カナ(氏)には「カミジョウ」と設定される。カナ(名)についても同様の処理を実施する。
これによって、漢字氏名がないデータ、かつカナ氏名についても読み間違いの危険性のあるデータについて名寄せの可能性を広げるための候補としての丸め後カナ氏(名)を得ることができる。
これまでの処理によって得られた変換後未統合データ(氏)および変換後未統合データ(名)を結合した変換後未統合データ(氏名)とマスタデータベースとの突合処理を実施する。突合処理そのものについては本発明の独自性等が特にないため、ここでは実施形態の詳細説明は割愛する。
次に、図1.2の突合結果編集処理部(401)の処理(ステップS5)について、図4.1によって具体例を用いながら説明する。また、テーブルデータの更新がかかわる内部動作の説明については、随時、図4.2を用いる。
図4.1は、図1.2における突合結果編集処理部(401)の処理(ステップS5)を行う際の要素を示す構成図である。変換後未統合データ(氏名)(41)とマスタデータベース(42)を突合し、突合結果(43)を出力する突合結果編集処理部(401)を有する。
<実施形態;突合結果編集処理>
図4.2は、突合結果編集処部(401)のテーブルデータの動きについて具体例を用いて示した図である。図4.2で示されている変換後未統合データ(氏名 )(411)の項番2のデータは漢字氏名がなく、その丸め前カナ(氏名)とマスタデータベース(412)のカナ(氏名)とが合致するため、突合結果(413)のB(名寄せ条件の確度が上から2番目)に分類される。
同様の処理により、項番4は突合結果のD(名寄せ条件の確度が最も低い)にそれぞれ分類される。なお、項番3については未統合データに漢字氏名が存在する例であり、突合結果のC(名寄せ条件の確度が下から2番目)に分類される。
以上本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されるものではなく、本発明の範囲内において自由に修正、変更を加えることが可能である。例えば本文であげている例のうち、ファイルによる操作を実施している部分について、他の処理方法や媒体を用いることでもよい。
また、最終成果物である突合結果から、未統合データの各データについてマスタデータベース上に存在するデータと同一人である可能性の確度を把握することができるが、データを名寄せする上でその確度をいかに評価し、使用するかは使用者が自由に決定できるものである。
なお、図1に示したデータ管理装置(コンピュータ)11の各処理部(各手段)で行われる処理(図1.2のステップS1〜5とそれ以降の図面で説明した処理)や機能は、データ管理装置(コンピュータ)11に内蔵されるCPUやメモリなどのハードウェア資源を用いて、各処理部(各手段)で実施される処理に対応するプログラムを実行することによって実現される。また、該プログラムは、FD,CD−ROM、DVDなどの記録媒体や、インターネットなどのネットワークを介して市場に流通させることができる。
11:データ管理装置(コンピュータ)
21: パッケージ辞書(氏)
22: パッケージ辞書(名)
23: グルーピングデータ(氏)
24: グルーピングデータ(名)
25,33: カナ氏名変換辞書(氏)
26,34: カナ氏名変換辞書(名)
31:未統合データ(氏)
32:未統合データ(名)
35:変換後未統合データ(氏)
36:変換後未統合データ(名)
41: 変換後未統合データ(氏名)
42: マスタデータベース
43:突合結果
200:カナ氏名変換辞書作成部
201:漢字グルーピング処理部
202: カナグルーピング処理部
301:読違い変換処理部
401:突合結果編集処理部
S1:カナ氏名変換辞書作成部の処理
S2:氏名分割処理部の処理
S3:読違い変換処理部の処理
S4:氏名結合処理部の処理
S5:突合結果編集処理部の処理
211:パッケージ辞書(氏)(テーブルデータ)
212:グルーピングデータ(氏)(テーブルデータ)
221:グルーピングデータ(氏)(テーブルデータ)
222:カナ氏名変換辞書(氏)(テーブルデータ)
311:未統合データ(テーブルデータ)
312:カナ氏名変換辞書(氏)(テーブルデータ)
313:変換後未統合データ(氏)(テーブルデータ)
401:突合結果編集処理部(S5と同一)
411:変換後未統合データ(氏名)(テーブルデータ)
412:マスタデータベース(テーブルデータ)
413:突合結果(テーブルデータ)

Claims (8)

  1. 少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、
    漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、
    該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップと
    を有することを特徴とする名寄せ処理方法。
  2. 請求項1記載の名寄せ処理方法において、
    漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
    前記丸め変換ステップは、
    特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出するステップと、
    丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成するステップと、
    前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成するステップとを有し、
    前記統合ステップは、
    前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を編集して出力するステップを有する
    ことを特徴とする名寄せ処理方法。
  3. 請求項1または2記載の名寄せ処理方法において、
    前記カナ氏名に対する各処理は、まず、カナ氏名をカナ氏とカナ名に分割し、カナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理方法。
  4. 少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する名寄せ処理システムであって、
    漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して一定の法則により丸め変換を行う丸め変換手段と、
    該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合手段と
    を有することを特徴とする名寄せ処理システム。
  5. 請求項4記載の名寄せ処理システムにおいて、
    さらに、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
    前記丸め変換手段は、
    特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出する手段と、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成する手段と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成する手段を有し、
    前記統合手段は、
    前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力する手段を有することを特徴とする名寄せ処理システム。
  6. 請求項4または5記載の名寄せ処理システムにおいて、
    前記カナ氏名に対する各処理は、カナ氏名を構成するカナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理システム。
  7. 請求項4から6のいずれかに記載の名寄せ処理システムにおいて、
    前記突合結果編集処理手段は、突合結果とともに名寄せの確度も出力することを特徴とする名寄せ処理システム。
  8. コンピュータを、請求項4から7のいずれかに記載の名寄せ処理システムにおける各手段として機能させるプログラム。
JP2009149622A 2009-06-24 2009-06-24 カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム Expired - Fee Related JP5167202B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009149622A JP5167202B2 (ja) 2009-06-24 2009-06-24 カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009149622A JP5167202B2 (ja) 2009-06-24 2009-06-24 カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム

Publications (2)

Publication Number Publication Date
JP2011008389A JP2011008389A (ja) 2011-01-13
JP5167202B2 true JP5167202B2 (ja) 2013-03-21

Family

ID=43565004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009149622A Expired - Fee Related JP5167202B2 (ja) 2009-06-24 2009-06-24 カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム

Country Status (1)

Country Link
JP (1) JP5167202B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6136142B2 (ja) 2012-08-24 2017-05-31 富士通株式会社 文字列置換装置、方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192053A (ja) * 1993-12-27 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 顧客名の読みを決定する方法およびこの方法を実施する顧客名集約方法
JP4195780B2 (ja) * 2001-04-16 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション プログラム、データ処理システム及び記憶媒体
JP2004362353A (ja) * 2003-06-05 2004-12-24 Benetsuse Corp:Kk 照合処理システム
JP4687089B2 (ja) * 2004-12-08 2011-05-25 日本電気株式会社 重複レコード検出システム、および重複レコード検出プログラム

Also Published As

Publication number Publication date
JP2011008389A (ja) 2011-01-13

Similar Documents

Publication Publication Date Title
US10565498B1 (en) Deep neural network-based relationship analysis with multi-feature token model
JP4918937B2 (ja) 帳票種識別プログラム、帳票種識別方法および帳票種識別装置
JP5087261B2 (ja) データ要素命名システムおよび方法
JP6850806B2 (ja) 電子データ構造から属性を抽出するための注釈システム
US9811449B2 (en) Test scenario generation support device and test scenario generation support method
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
CN103617047A (zh) 一种业务流程开发方法、装置及处理器
JP7287699B2 (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
JP5526057B2 (ja) データ分析支援装置およびプログラム
CN114840531A (zh) 基于血缘关系的数据模型重构方法、装置、设备及介质
JP2022082523A (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置
JP5747698B2 (ja) 要件管理支援装置
CN110008445A (zh) 事件抽取方法及装置、电子设备
JP5167202B2 (ja) カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム
JP7275591B2 (ja) 評価支援プログラム、評価支援方法および情報処理装置
CN109657013A (zh) 一种系统化生成标签的方法和系统
JP6422346B2 (ja) プログラム生成装置、及び、プログラム生成方法
JP2013008237A (ja) 関連情報抽出プログラム、関連情報抽出方法及び関連情報抽出装置
JP5504212B2 (ja) テストケース自動生成システム、テストケース自動生成方法、およびテストケース自動生成プログラム
JP4387324B2 (ja) プロパティ変換装置
JP4867229B2 (ja) 情報処理装置及びプログラム
CN117522485B (zh) 一种广告推荐方法、装置、设备及计算机可读存储介质
JP2013254421A (ja) 固有表現タイプ推定装置、方法、及びプログラム
JP6827610B1 (ja) 開発支援装置、プログラム及び開発支援方法
JP2007034807A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110926

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5167202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees