JP5167202B2 - カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム - Google Patents
カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム Download PDFInfo
- Publication number
- JP5167202B2 JP5167202B2 JP2009149622A JP2009149622A JP5167202B2 JP 5167202 B2 JP5167202 B2 JP 5167202B2 JP 2009149622 A JP2009149622 A JP 2009149622A JP 2009149622 A JP2009149622 A JP 2009149622A JP 5167202 B2 JP5167202 B2 JP 5167202B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- kana
- conversion
- rounding
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(a)本発明に係る名寄せ処理方法は、少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップとを有することを特徴としている。
本発明に係る名寄せ処理システムは、データ管理装置としてのコンピュータ(11)と、該コンピュータに接続されているパッケージ辞書(21、22)およびマスタデータベース(42)から構成される。
図1.2は、本発明にかかる名寄せ処理システムの実施形態における全体の処理の流れを示すフローチャートである。
図2.2は、漢字グルーピング処理部(201a)のテーブルデータの動きについて具体例を用いて示した図である。
なお、これは丸めによって未統合データの突合候補を増やすことを目的としたものである。
図2.3は、カナグルーピング処理部(202a)のテーブルデータの動きについて具体例を用いて示した図である。漢字グルーピング処理部(201a)で作成されたグルーピングデータ(氏)(221)には、丸め前後カナ(氏)の組合せパターンが同一のものが複数存在している。
同図に示すように、未統合データ(氏)(31)をカナ氏名変換辞書(氏)(33)と突合し、突合した場合は未統合データが持つデータに丸め後カナ(氏)を付与し、変換後未統合データ(氏)(35)として出力する処理を行う読違い変換(氏)処理部(301a)と、未統合データ(名)(32)をカナ氏名変換辞書(名)(34)と突合し、突合した場合未統合データが持つデータに丸め後カナ(氏)を付与し、変換後未統合データ(名)(36)として出力する処理を行う読違い変換(名)処理部(301b)を有する。
図3.2は、読違い変換処理(氏)部(301a)のテーブルデータの動きについて具体例を用いて示した図である。図3.2で示されている未統合データ(311)のカナ(氏)「カミジョウ」,「ウエバ」,「カミシロ」は、カナ氏名変換辞書(氏)(312)における丸め前カナ(氏)と合致するため、これらはすべて丸め後カナ(氏)「カミジョウ」に読み替えられる。結果、変換後未統合データ(氏)(313)の丸め後カナ(氏)には「カミジョウ」と設定される。カナ(名)についても同様の処理を実施する。
図4.2は、突合結果編集処部(401)のテーブルデータの動きについて具体例を用いて示した図である。図4.2で示されている変換後未統合データ(氏名 )(411)の項番2のデータは漢字氏名がなく、その丸め前カナ(氏名)とマスタデータベース(412)のカナ(氏名)とが合致するため、突合結果(413)のB(名寄せ条件の確度が上から2番目)に分類される。
21: パッケージ辞書(氏)
22: パッケージ辞書(名)
23: グルーピングデータ(氏)
24: グルーピングデータ(名)
25,33: カナ氏名変換辞書(氏)
26,34: カナ氏名変換辞書(名)
31:未統合データ(氏)
32:未統合データ(名)
35:変換後未統合データ(氏)
36:変換後未統合データ(名)
41: 変換後未統合データ(氏名)
42: マスタデータベース
43:突合結果
200:カナ氏名変換辞書作成部
201:漢字グルーピング処理部
202: カナグルーピング処理部
301:読違い変換処理部
401:突合結果編集処理部
S1:カナ氏名変換辞書作成部の処理
S2:氏名分割処理部の処理
S3:読違い変換処理部の処理
S4:氏名結合処理部の処理
S5:突合結果編集処理部の処理
211:パッケージ辞書(氏)(テーブルデータ)
212:グルーピングデータ(氏)(テーブルデータ)
221:グルーピングデータ(氏)(テーブルデータ)
222:カナ氏名変換辞書(氏)(テーブルデータ)
311:未統合データ(テーブルデータ)
312:カナ氏名変換辞書(氏)(テーブルデータ)
313:変換後未統合データ(氏)(テーブルデータ)
401:突合結果編集処理部(S5と同一)
411:変換後未統合データ(氏名)(テーブルデータ)
412:マスタデータベース(テーブルデータ)
413:突合結果(テーブルデータ)
Claims (8)
- 少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、
漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、
該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップと
を有することを特徴とする名寄せ処理方法。 - 請求項1記載の名寄せ処理方法において、
漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
前記丸め変換ステップは、
特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出するステップと、
丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成するステップと、
前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成するステップとを有し、
前記統合ステップは、
前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を編集して出力するステップを有する
ことを特徴とする名寄せ処理方法。 - 請求項1または2記載の名寄せ処理方法において、
前記カナ氏名に対する各処理は、まず、カナ氏名をカナ氏とカナ名に分割し、カナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理方法。 - 少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する名寄せ処理システムであって、
漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して一定の法則により丸め変換を行う丸め変換手段と、
該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合手段と
を有することを特徴とする名寄せ処理システム。 - 請求項4記載の名寄せ処理システムにおいて、
さらに、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
前記丸め変換手段は、
特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出する手段と、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成する手段と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成する手段を有し、
前記統合手段は、
前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力する手段を有することを特徴とする名寄せ処理システム。 - 請求項4または5記載の名寄せ処理システムにおいて、
前記カナ氏名に対する各処理は、カナ氏名を構成するカナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理システム。 - 請求項4から6のいずれかに記載の名寄せ処理システムにおいて、
前記突合結果編集処理手段は、突合結果とともに名寄せの確度も出力することを特徴とする名寄せ処理システム。 - コンピュータを、請求項4から7のいずれかに記載の名寄せ処理システムにおける各手段として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009149622A JP5167202B2 (ja) | 2009-06-24 | 2009-06-24 | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009149622A JP5167202B2 (ja) | 2009-06-24 | 2009-06-24 | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011008389A JP2011008389A (ja) | 2011-01-13 |
JP5167202B2 true JP5167202B2 (ja) | 2013-03-21 |
Family
ID=43565004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009149622A Expired - Fee Related JP5167202B2 (ja) | 2009-06-24 | 2009-06-24 | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5167202B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6136142B2 (ja) | 2012-08-24 | 2017-05-31 | 富士通株式会社 | 文字列置換装置、方法及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07192053A (ja) * | 1993-12-27 | 1995-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 顧客名の読みを決定する方法およびこの方法を実施する顧客名集約方法 |
JP4195780B2 (ja) * | 2001-04-16 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | プログラム、データ処理システム及び記憶媒体 |
JP2004362353A (ja) * | 2003-06-05 | 2004-12-24 | Benetsuse Corp:Kk | 照合処理システム |
JP4687089B2 (ja) * | 2004-12-08 | 2011-05-25 | 日本電気株式会社 | 重複レコード検出システム、および重複レコード検出プログラム |
-
2009
- 2009-06-24 JP JP2009149622A patent/JP5167202B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011008389A (ja) | 2011-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565498B1 (en) | Deep neural network-based relationship analysis with multi-feature token model | |
JP4918937B2 (ja) | 帳票種識別プログラム、帳票種識別方法および帳票種識別装置 | |
JP5087261B2 (ja) | データ要素命名システムおよび方法 | |
JP6850806B2 (ja) | 電子データ構造から属性を抽出するための注釈システム | |
US9811449B2 (en) | Test scenario generation support device and test scenario generation support method | |
JP6505421B2 (ja) | 情報抽出支援装置、方法およびプログラム | |
CN103617047A (zh) | 一种业务流程开发方法、装置及处理器 | |
JP7287699B2 (ja) | 機械学習を通じての学習モデルを使った情報提供方法および装置 | |
JP5526057B2 (ja) | データ分析支援装置およびプログラム | |
CN114840531A (zh) | 基于血缘关系的数据模型重构方法、装置、设备及介质 | |
JP2022082523A (ja) | 機械学習基盤類似アイテムに関する情報を提供する方法および装置 | |
JP5747698B2 (ja) | 要件管理支援装置 | |
CN110008445A (zh) | 事件抽取方法及装置、电子设备 | |
JP5167202B2 (ja) | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム | |
JP7275591B2 (ja) | 評価支援プログラム、評価支援方法および情報処理装置 | |
CN109657013A (zh) | 一种系统化生成标签的方法和系统 | |
JP6422346B2 (ja) | プログラム生成装置、及び、プログラム生成方法 | |
JP2013008237A (ja) | 関連情報抽出プログラム、関連情報抽出方法及び関連情報抽出装置 | |
JP5504212B2 (ja) | テストケース自動生成システム、テストケース自動生成方法、およびテストケース自動生成プログラム | |
JP4387324B2 (ja) | プロパティ変換装置 | |
JP4867229B2 (ja) | 情報処理装置及びプログラム | |
CN117522485B (zh) | 一种广告推荐方法、装置、设备及计算机可读存储介质 | |
JP2013254421A (ja) | 固有表現タイプ推定装置、方法、及びプログラム | |
JP6827610B1 (ja) | 開発支援装置、プログラム及び開発支援方法 | |
JP2007034807A (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110926 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20111227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121221 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5167202 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |