JP2011008389A - カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム - Google Patents
カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム Download PDFInfo
- Publication number
- JP2011008389A JP2011008389A JP2009149622A JP2009149622A JP2011008389A JP 2011008389 A JP2011008389 A JP 2011008389A JP 2009149622 A JP2009149622 A JP 2009149622A JP 2009149622 A JP2009149622 A JP 2009149622A JP 2011008389 A JP2011008389 A JP 2011008389A
- Authority
- JP
- Japan
- Prior art keywords
- name
- kana
- conversion
- rounding
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】カナ氏名を有する未統合データを、漢字氏名とカナ氏名により登録されているマスタデータベースに統合するために、丸め変換手段(パッケージ辞書21(氏),22(名)、カナ氏名変換辞書作成部200,読違い変換処理部301)により、漢字で表記された漢字氏名が欠損しかつカナ氏名の読み間違いの可能性があってマスタデータベースに統合できない未統合データ31(氏),32(名)に対して一定の法則により丸めを行い、突合結果編集処理部401により、丸められた丸め変換後の未統合データ35(氏),36(名)をマスタデータベース42に統合して出力する。
【選択図】図1.1
Description
(a)本発明に係る名寄せ処理方法は、少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップとを有することを特徴としている。
本発明に係る名寄せ処理システムは、データ管理装置としてのコンピュータ(11)と、該コンピュータに接続されているパッケージ辞書(21、22)およびマスタデータベース(42)から構成される。
図1.2は、本発明にかかる名寄せ処理システムの実施形態における全体の処理の流れを示すフローチャートである。
図2.2は、漢字グルーピング処理部(201a)のテーブルデータの動きについて具体例を用いて示した図である。
なお、これは丸めによって未統合データの突合候補を増やすことを目的としたものである。
図2.3は、カナグルーピング処理部(202a)のテーブルデータの動きについて具体例を用いて示した図である。漢字グルーピング処理部(201a)で作成されたグルーピングデータ(氏)(221)には、丸め前後カナ(氏)の組合せパターンが同一のものが複数存在している。
同図に示すように、未統合データ(氏)(31)をカナ氏名変換辞書(氏)(33)と突合し、突合した場合は未統合データが持つデータに丸め後カナ(氏)を付与し、変換後未統合データ(氏)(35)として出力する処理を行う読違い変換(氏)処理部(301a)と、未統合データ(名)(32)をカナ氏名変換辞書(名)(34)と突合し、突合した場合未統合データが持つデータに丸め後カナ(氏)を付与し、変換後未統合データ(名)(36)として出力する処理を行う読違い変換(名)処理部(301b)を有する。
図3.2は、読違い変換処理(氏)部(301a)のテーブルデータの動きについて具体例を用いて示した図である。図3.2で示されている未統合データ(311)のカナ(氏)「カミジョウ」,「ウエバ」,「カミシロ」は、カナ氏名変換辞書(氏)(312)における丸め前カナ(氏)と合致するため、これらはすべて丸め後カナ(氏)「カミジョウ」に読み替えられる。結果、変換後未統合データ(氏)(313)の丸め後カナ(氏)には「カミジョウ」と設定される。カナ(名)についても同様の処理を実施する。
図4.2は、突合結果編集処部(401)のテーブルデータの動きについて具体例を用いて示した図である。図4.2で示されている変換後未統合データ(氏名 )(411)の項番2のデータは漢字氏名がなく、その丸め前カナ(氏名)とマスタデータベース(412)のカナ(氏名)とが合致するため、突合結果(413)のB(名寄せ条件の確度が上から2番目)に分類される。
21: パッケージ辞書(氏)
22: パッケージ辞書(名)
23: グルーピングデータ(氏)
24: グルーピングデータ(名)
25,33: カナ氏名変換辞書(氏)
26,34: カナ氏名変換辞書(名)
31:未統合データ(氏)
32:未統合データ(名)
35:変換後未統合データ(氏)
36:変換後未統合データ(名)
41: 変換後未統合データ(氏名)
42: マスタデータベース
43:突合結果
200:カナ氏名変換辞書作成部
201:漢字グルーピング処理部
202: カナグルーピング処理部
301:読違い変換処理部
401:突合結果編集処理部
S1:カナ氏名変換辞書作成部の処理
S2:氏名分割処理部の処理
S3:読違い変換処理部の処理
S4:氏名結合処理部の処理
S5:突合結果編集処理部の処理
211:パッケージ辞書(氏)(テーブルデータ)
212:グルーピングデータ(氏)(テーブルデータ)
221:グルーピングデータ(氏)(テーブルデータ)
222:カナ氏名変換辞書(氏)(テーブルデータ)
311:未統合データ(テーブルデータ)
312:カナ氏名変換辞書(氏)(テーブルデータ)
313:変換後未統合データ(氏)(テーブルデータ)
401:突合結果編集処理部(S5と同一)
411:変換後未統合データ(氏名)(テーブルデータ)
412:マスタデータベース(テーブルデータ)
413:突合結果(テーブルデータ)
Claims (8)
- 少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する、コンピュータを用いた名寄せ処理方法であって、
漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して予め決められた法則により丸め変換を行う丸め変換ステップと、
該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合ステップと
を有することを特徴とする名寄せ処理方法。 - 請求項1記載の名寄せ処理方法において、
漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
前記丸め変換ステップは、
特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出するステップと、
丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成するステップと、
前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成するステップとを有し、
前記統合ステップは、
前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を編集して出力するステップを有する
ことを特徴とする名寄せ処理方法。 - 請求項1または2記載の名寄せ処理方法において、
前記カナ氏名に対する各処理は、まず、カナ氏名をカナ氏とカナ名に分割し、カナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理方法。 - 少なくともカナで表記されたカナ氏名を有する未統合データを、漢字で表記された漢字氏名とカナで表記されたカナ氏名により登録されているマスタデータベースに統合する名寄せ処理システムであって、
漢字で表記された漢字氏名が欠損しかつ前記カナ氏名の読み間違いの可能性があって前記マスタデータベースに統合できない未統合データに対して一定の法則により丸め変換を行う丸め変換手段と、
該丸め変換ステップにより丸め変換された丸め変換後の未統合データを前記マスタデータベースに統合する統合手段と
を有することを特徴とする名寄せ処理システム。 - 請求項4記載の名寄せ処理システムにおいて、
さらに、漢字氏名に対応するカナ氏名の出現頻度を保持するパッケージ辞書を有し、
前記丸め変換手段は、
特定の漢字氏名に対応するカナ氏名候補の中から、カナ氏名を丸めるための変換パターン候補を前記パッケージ辞書に保持された出現頻度を利用して抽出する手段と、丸め変換前および丸め変換後のカナ氏名の組合せパターンをユニークに集約し、人名(漢字氏名)に対応する丸め変換前および丸め変換後のカナ氏名の組合せパターンを保持するカナ氏名変換辞書を作成する手段と、前記未統合データと前記カナ氏名変換辞書を突合することにより、未統合データが保持している丸め変換前のカナ氏名に加えて、丸め変換後のカナ氏名を名寄せ突合時の候補として未統合データ側に設定保持させることにより、丸め変換前のカナ氏名および丸め変換後のカナ氏名を保持する丸め変換後未統合データを作成する手段を有し、
前記統合手段は、
前記丸め変換後未統合データと前記マスタデータベースを突合し、漢字氏名、丸め変換前のカナ氏名、丸め変換後のカナ氏名のそれぞれの項目について項目毎に突合結果を出力する手段を有することを特徴とする名寄せ処理システム。 - 請求項4または5記載の名寄せ処理システムにおいて、
前記カナ氏名に対する各処理は、カナ氏名を構成するカナ氏とカナ名のそれぞれに対して別々に実行されることを特徴とする名寄せ処理システム。 - 請求項4から6のいずれかに記載の名寄せ処理システムにおいて、
前記突合結果編集処理手段は、突合結果とともに名寄せの確度も出力することを特徴とする名寄せ処理システム。 - コンピュータを、請求項4から7のいずれかに記載の名寄せ処理システムにおける各手段として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009149622A JP5167202B2 (ja) | 2009-06-24 | 2009-06-24 | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009149622A JP5167202B2 (ja) | 2009-06-24 | 2009-06-24 | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011008389A true JP2011008389A (ja) | 2011-01-13 |
JP5167202B2 JP5167202B2 (ja) | 2013-03-21 |
Family
ID=43565004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009149622A Expired - Fee Related JP5167202B2 (ja) | 2009-06-24 | 2009-06-24 | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5167202B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165020B2 (en) | 2012-08-24 | 2015-10-20 | Fujitsu Limited | String substitution apparatus, string substitution method and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07192053A (ja) * | 1993-12-27 | 1995-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 顧客名の読みを決定する方法およびこの方法を実施する顧客名集約方法 |
JP2002328950A (ja) * | 2001-04-16 | 2002-11-15 | Internatl Business Mach Corp <Ibm> | プログラム、データ処理システム及び記憶媒体 |
JP2004362353A (ja) * | 2003-06-05 | 2004-12-24 | Benetsuse Corp:Kk | 照合処理システム |
JP2006163941A (ja) * | 2004-12-08 | 2006-06-22 | Nec Corp | 重複レコード検出システム、および重複レコード検出プログラム |
-
2009
- 2009-06-24 JP JP2009149622A patent/JP5167202B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07192053A (ja) * | 1993-12-27 | 1995-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 顧客名の読みを決定する方法およびこの方法を実施する顧客名集約方法 |
JP2002328950A (ja) * | 2001-04-16 | 2002-11-15 | Internatl Business Mach Corp <Ibm> | プログラム、データ処理システム及び記憶媒体 |
JP2004362353A (ja) * | 2003-06-05 | 2004-12-24 | Benetsuse Corp:Kk | 照合処理システム |
JP2006163941A (ja) * | 2004-12-08 | 2006-06-22 | Nec Corp | 重複レコード検出システム、および重複レコード検出プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165020B2 (en) | 2012-08-24 | 2015-10-20 | Fujitsu Limited | String substitution apparatus, string substitution method and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5167202B2 (ja) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5087261B2 (ja) | データ要素命名システムおよび方法 | |
JP6045706B2 (ja) | データ処理システム、データ処理方法およびデータ処理装置 | |
Dixit et al. | Interactive data-driven process model construction | |
JP6850806B2 (ja) | 電子データ構造から属性を抽出するための注釈システム | |
US9811449B2 (en) | Test scenario generation support device and test scenario generation support method | |
JP5535062B2 (ja) | ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム | |
CN112199951A (zh) | 一种事件信息生成的方法及装置 | |
Jin et al. | CLX: Towards verifiable PBE data transformation | |
JP2022082524A (ja) | 機械学習を通じての学習モデルを使った情報提供方法および装置 | |
JP5747698B2 (ja) | 要件管理支援装置 | |
JP2012181605A (ja) | データ分析支援装置およびプログラム | |
CN110008445A (zh) | 事件抽取方法及装置、电子设备 | |
KR102153259B1 (ko) | 데이터 도메인 추천 방법 및 추천된 도메인을 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법 | |
JP2007535009A (ja) | リレーショナルデータベースの超集合のためのデータ構造と管理システム | |
JP7275591B2 (ja) | 評価支援プログラム、評価支援方法および情報処理装置 | |
JP2012164148A (ja) | リバースエンジニアリング支援装置、リバースエンジニアリング支援方法及びそのプログラム | |
JP5167202B2 (ja) | カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム | |
JP6682754B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2015191418A (ja) | ルール管理支援装置、およびルール管理支援方法 | |
JP6677624B2 (ja) | 分析装置、分析方法、および分析プログラム | |
CN109657013A (zh) | 一种系统化生成标签的方法和系统 | |
KR102660914B1 (ko) | 대용량 데이터 활용을 위한 공통 코드 정비 및 정제와 설계 방법 및 서버 | |
CN117522485B (zh) | 一种广告推荐方法、装置、设备及计算机可读存储介质 | |
JP6777907B1 (ja) | 業務支援装置、及び業務支援システム | |
JP5512817B2 (ja) | 情報処理装置、情報処理方法、プログラム、および媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110926 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20111227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121221 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5167202 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |