JP6123372B2 - 情報処理システム、名寄せ判定方法及びプログラム - Google Patents

情報処理システム、名寄せ判定方法及びプログラム Download PDF

Info

Publication number
JP6123372B2
JP6123372B2 JP2013049566A JP2013049566A JP6123372B2 JP 6123372 B2 JP6123372 B2 JP 6123372B2 JP 2013049566 A JP2013049566 A JP 2013049566A JP 2013049566 A JP2013049566 A JP 2013049566A JP 6123372 B2 JP6123372 B2 JP 6123372B2
Authority
JP
Japan
Prior art keywords
index
item
customer
processing target
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013049566A
Other languages
English (en)
Other versions
JP2014174921A (ja
Inventor
清水 信行
信行 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2013049566A priority Critical patent/JP6123372B2/ja
Publication of JP2014174921A publication Critical patent/JP2014174921A/ja
Application granted granted Critical
Publication of JP6123372B2 publication Critical patent/JP6123372B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、情報処理システム、名寄せ判定方法及びプログラムに関する。
顧客情報の管理において、異なる主体により管理されていた顧客情報を一元化して管理する場合、顧客情報の名寄せ(顧客情報の同一性判断)が行われることがある。例えば特許文献1には、顧客を特定する顧客特定情報を含まない顧客情報の名寄せを行う技術が開示されている。
名寄せでは、顧客の名称など特定のキー項目を用いて行うことが一般的であるが、名寄せの精度を向上させる上で改善の余地がある。
本発明は、上記事情に鑑みてなされたものであり、名寄せの精度を向上させることができる情報処理システム、名寄せ判定方法及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の一態様にかかる情報処理システムは、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータを記憶する顧客マスタ記憶部と、前記顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータを記憶するインデックスマスタ記憶部と、顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が1バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する1以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が2バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成部と、作成された前記インデックスと前記インデックスマスタデータとを比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込み部と、前記処理対象データに含まれる複数の項目のうち2以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較部と、前記2以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定部と、を備える。
本発明によれば、名寄せの精度を向上させることができるという効果を奏する。
図1は、本実施形態の情報処理システムの構成の一例を示すブロック図である。 図2は、本実施形態の名寄せ処理で用いる項目及び分類の一例を示す説明図である。 図3は、本実施形態の処理対象ファイルの一例を示す図である。 図4は、本実施形態の顧客マスタファイルの一例を示す図である。 図5は、本実施形態のインデックスマスタファイルの一例を示す図である。 図6は、本実施形態のインデックス定義ファイルの一例を示す図である。 図7は、本実施形態のインデックス作成方法の方法1の具体例を示す図である。 図8は、本実施形態のインデックス作成方法の方法2の具体例を示す図である。 図9は、本実施形態のインデックス作成結果の一例を示す図である。 図10は、本実施形態の顧客マスタファイルの絞込結果の一例を示す図である。 図11は、本実施形態の比較定義ファイルの一例を示す図である。 図12は、本実施形態の項目の比較方法の方法1の具体例を示す図である。 図13は、本実施形態の項目の比較方法の方法2の具体例を示す図である。 図14は、本実施形態の項目の比較方法の方法3の具体例を示す図である。 図15は、本実施形態の項目の比較方法の方法4の具体例を示す図である。 図16は、本実施形態の判定定義ファイルの一例を示す図である。 図17は、本実施形態の情報処理システムで実行される名寄せ処理の一例を示すフローチャート図である。 図18は、本実施形態の情報処理システムのハードウェア構成の一例を示す図である。
以下、添付図面を参照しながら、本発明にかかる情報処理システム、名寄せ判定方法及びプログラムの実施形態を詳細に説明する。
図1は、本実施形態の情報処理システム1の構成の一例を示すブロック図である。図1に示すように、情報処理システム1は、顧客マスタ記憶部11と、インデックスマスタ記憶部13と、インデックス定義データ記憶部15と、比較定義データ記憶部17と、判定定義データ記憶部19と、入力部21と、クレンジング部23と、作成部25と、絞込み部27と、比較部29と、判定部31と、登録部33とを、備える。
顧客マスタ記憶部11、インデックスマスタ記憶部13、インデックス定義データ記憶部15、比較定義データ記憶部17、及び判定定義データ記憶部19は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、光ディスク、ROM(Read Only Memory)、及びRAM(Random Access Memory)などの磁気的、光学的、又は電気的に記憶可能な記憶装置により実現できる。入力部21は、マウス、キーボード、タッチパッド、及びタッチパネルなどの入力装置により実現できる。クレンジング部23、作成部25、絞込み部27、比較部29、判定部31、及び登録部33は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現できる。
まず、本実施形態の名寄せ処理で用いる項目及び分類について説明する。図2は、本実施形態の名寄せ処理で用いる項目及び分類の一例を示す説明図である。図2に示すように、本実施形態の名寄せ処理で用いる項目としては、企業名現地語、企業名英語、企業国コード、企業郵便番号、企業住所現地語、企業住所英語、企業代表TEL、企業DUNS(Data Universal Numbering System)ナンバー、事業所名現地語、事業所名英語、事業所国コード、事業所郵便番号、事業所住所現地語、事業所住所英語、事業所代表TEL、事業所DUNSナンバー、サイト名現地語、及びサイト名英語などが挙げられる。
なお、現地語とは、企業、事業所、又はサイトが所属する国や地域の言語である。また、DUNSナンバーとは、米国のダンアンドブラッドストリートによって各企業に付与された番号である。
項目の分類としては、企業名現地語、企業名英語、企業住所現地語、企業住所英語、事業所名現地語、事業所名英語、事業所住所現地語、事業所住所英語、サイト名現地語、及びサイト名英語が、名称となり、企業国コード及び事業所国コードが、コードとなり、企業郵便番号、企業代表TEL、企業DUNSナンバー、事業所郵便番号、事業所代表TEL、及び事業所DUNSナンバーが、番号となる。
コード及び番号は、記号や数字などで特定される識別子であり、本実施形態では、コードは、識別子自体が意味を持たないもの、番号は、識別子自体が意味を持つものとしている。但し、コード及び番号の解釈はこれに限定されるものではなく、例えば、コードと番号とを区分けせず同様の意味で解釈するようにしてもよい。
図1に戻り、入力部21は、顧客に関する複数の項目を有する処理対象データを入力する。本実施形態では、処理対象データは、名寄せ処理の処理対象ファイルであり、図2で説明した項目のうち2以上の項目を有するレコードの集合であるものとするが、これに限定されるものではない。
図3は、本実施形態の処理対象ファイルの一例を示す図である。図3に示す例では、処理対象ファイルのレコードは、企業IDと、企業住所現地語とを、有している。企業IDは、情報処理システム1の開発者などが企業毎に付与したIDであり、企業DUNSナンバーとは異なる情報である。なお図3に示す例では、説明の関係上、図2で説明した項目については、企業住所現地語のみを示しているが、実際には、他の項目も有している。
クレンジング部23は、入力部21により入力された処理対象ファイルに対し、クレンジング処理を行う。クレンジング処理は、入力された処理対象ファイルの各レコードが有する各項目のフォーマットを標準化する処理であり、予め定められた規則に従って各項目の文字列を変換する。文字列の変換としては、例えば、記号の削除や半角文字の全角文字への変換などが挙げられる。
ここで、顧客マスタ記憶部11、インデックスマスタ記憶部13、及びインデックス定義データ記憶部15について説明する。
顧客マスタ記憶部11は、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータを記憶する。本実施形態では、顧客マスタデータは、顧客に関する情報が定義された顧客マスタファイルであり、図2で説明した項目のうち2以上の項目を有するレコードの集合であるものとするが、これに限定されるものではない。
図4は、本実施形態の顧客マスタファイルの一例を示す図である。図4に示す例では、顧客マスタファイルの各レコードは、企業IDと、企業住所現地語とを、有している。なお図4に示す例でも、説明の関係上、図2で説明した項目については、企業住所現地語のみを示しているが、実際には、他の項目も有している。
インデックスマスタ記憶部13は、顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータを記憶する。本実施形態では、インデックスマスタデータは、顧客マスタファイルの顧客毎のインデックスが定義されたインデックスマスタファイルであり、インデックスを有するレコードの集合であるものとするが、これに限定されるものではない。インデックスは、顧客マスタファイルの各レコードが有する2以上の項目のうちの所定項目のインデックスである。本実施形態では、所定項目は、企業名現地語、企業名英語、企業住所現地語、及び企業住所英語であるものとするが、これに限定されるものではない。
図5は、本実施形態のインデックスマスタファイルの一例を示す図である。図5に示す例では、インデックスマスタファイルの各レコードは、企業IDと、インデックスとを、有している。なお、インデックスは、図5に示すように、1つの企業IDに対し、複数存在する場合もある。インデックスの詳細については、後述する。
インデックス定義データ記憶部15は、インデックス定義データを記憶する。本実施形態では、インデックス定義データは、処理対象ファイルの各レコードのインデックスの作成に関する規則、及び当該インデックスを用いた顧客マスタファイルの絞り込みに関する規則を定義したインデックス定義ファイルとするが、これに限定されるものではない。
図6は、本実施形態のインデックス定義ファイルの一例を示す図である。図6に示す例では、図2で説明した項目のうち企業名現地語、企業名英語、企業住所現地語、及び企業住所英語が、インデックス作成対象の項目に設定されている。
また図6に示す例では、インデックス作成対象の項目及び言語区分に応じて異なる規則(インデックス作成方法、インデックス文字数、最大インデックス数、一致数)が定義されている。なお、言語区分1は、日本語、中国語、及び韓国語など文字が2バイトで定義される言語を使用する企業を想定しており、言語区分2は、英語、ドイツ語、及びフランス語など文字が1バイトで定義される言語を使用する企業を想定している。このため、例えば、日本の企業であれば、言語区分1が適用され、米国の企業であれば、言語区分2が適用される。
インデックス作成方法は、言語に応じて異なる作成方法が用意されており、本実施形態では、文字が2バイトで定義される言語用の方法1と、文字が1バイトで定義される言語用の方法2とがある。2バイトで定義される言語には、単語の区切りに空白やカンマなどの記号が必要ない、文字種が多いなどの特性があり、1バイトで定義される言語には、単語の区切りに空白やカンマなどの記号が必要であり、文字種が少ないなどの特性がある。本実施形態では、このような言語の特性を考慮してインデックスを作成するため、方法1と方法2とを用意している。方法1及び方法2の詳細については、後述する。
インデックス文字数は、インデックスの文字の数を示している。最大インデックス数は、1レコード当たりの最大インデックス数を示している。一致数は、顧客マスタファイルの顧客を絞り込むために必要なインデックスマスタファイルのインデックスとの一致数を示している。
ここで、インデックス作成方法の方法1と方法2について説明する。
方法1は、該当する項目の文字列の先頭から順にインデックスを作成する方法である。方法1では、まず、文字列から数字を削除する。続いて、文字列の先頭からインデックス文字数分の文字を取得し、1つ目のインデックスとする。続いて、前回取得した文字列の先頭から1文字ずらした文字からインデックス文字数分の文字を取得し、2つ目のインデックスとする。以降、インデックスの数が最大インデックス数となるまで同様の処理を繰り返す。
図7は、本実施形態のインデックス作成方法の方法1の具体例を示す図である。図7は、“千葉県浦安市高洲”という文字列からインデックスを作成する例である。なお、“千葉県浦安市高洲”という文字列は、図6に示すインデックス定義ファイルの言語区分1かつ企業住所現地語の規則が適用されるとする。このため、インデックス作成方法は方法1、インデックス文字数は3、最大インデックス数は5となる。
方法1では、まず、文字列から数字を削除するが、“千葉県浦安市高洲”という文字列には数字が存在しないため、このままとなる。続いて、文字列の先頭からインデックス文字数分の文字を取得し、1つ目のインデックスとするため、1つ目のインデックスは、“千葉県”となる。続いて、前回取得した文字列の先頭から1文字ずらした文字からインデックス文字数分の文字を取得し、2つ目のインデックスとするため、2つ目のインデックスは、“葉県浦”となる。以降、インデックスの数が最大インデックス数である5となるまで同様の処理を繰り返すと、3つ目のインデックスは“県浦安”、4つ目のインデックスは“浦安市”、5つ目のインデックスは“安市高”となる。
方法2は、該当する項目の文字列の後方から順にインデックスを作成する方法である。方法2では、まず、文字列から数字を削除する。続いて、文字列を構成する最後の単語の先頭の文字から、インデックス文字数分の文字を取得し、1つ目のインデックスとする。続いて、前回取得した単語の1つ前の単語の先頭の文字から、インデックス文字数分の文字を取得し、2つ目のインデックスとする。以降、インデックスの数が最大インデックス数となるまで同様の処理を繰り返す。但し、該当する単語の文字数がインデックス文字数未満である場合、該当する単語の文字数分の文字を取得し、インデックスとする。
図8は、本実施形態のインデックス作成方法の方法2の具体例を示す図である。図8は、“5 DEDRICK PLACE WEST CALDWELL NEW JERSEY 07006 USA”という文字列からインデックスを作成する例である。なお、“5 DEDRICK PLACE WEST CALDWELL NEW JERSEY 07006 USA”という文字列は、図6に示すインデックス定義ファイルの言語区分2かつ企業住所英語の規則が適用されるとする。このため、インデックス作成方法は方法2、インデックス文字数は5、最大インデックス数は5となる。
方法2では、まず、文字列から数字を削除するため、“DEDRICK PLACE WEST CALDWELL NEW JERSEY USA”となる。続いて、文字列を構成する最後の単語の先頭の文字から、インデックス文字数分の文字を取得し、1つ目のインデックスとするため、1つ目のインデックスは、“USA”となる。続いて、前回取得した単語の1つ前の単語の先頭の文字から、インデックス文字数分の文字を取得し、2つ目のインデックスとするため、2つ目のインデックスは、“JERSE”となる。以降、インデックスの数が最大インデックス数である5となるまで同様の処理を繰り返すと、3つ目のインデックスは“NEW”、4つ目のインデックスは“CALDW”、5つ目のインデックスは“WEST”となる。
作成部25は、クレンジング部23によりクレンジング処理が施された処理対象ファイルのインデックスを作成する。インデックスは、処理対象ファイルが有する2以上の項目のうちの所定項目のインデックスである。本実施形態では、所定項目は、前述の通り、企業名現地語、企業名英語、企業住所現地語、及び企業住所英語であるものとするが、これに限定されるものではない。なお作成部25は、処理対象ファイルの所定項目の言語に応じた作成方法でインデックスを作成する。
具体的には、作成部25は、インデックス定義データ記憶部15に記憶されているインデックス定義ファイルを参照して、クレンジング部23によりクレンジング処理が施された処理対象ファイルのインデックスを作成する。
以下、図3に示す処理対象ファイルを例に取り、処理対象ファイルのインデックスの作成について説明する。図3に示す例では、企業住所現地語が“東京都江東区永大123シティプレイス”であり、企業IDが“1000”である。
ここで、企業ID“1000”の企業住所現地語は、日本語であるため、“東京都江東区永大123シティプレイス”という文字列は、図6に示すインデックス定義ファイルの言語区分1かつ企業住所現地語の規則が適用される。この場合、インデックス定義ファイルを参照すると、インデックス作成方法は方法1、インデックス文字数は3、最大インデックス数は5となるため、作成部25は、図9に示すように、企業ID“1000”に対し、“東京都”、“京都江”、“都江東”、“江東区”、及び“東区永”という5つのインデックスを作成する。
絞込み部27は、作成部25により作成されたインデックスとインデックスマスタデータとを比較して、処理対象データとの比較対象となる顧客を顧客マスタデータ内で絞り込む。具体的には、絞込み部27は、インデックスマスタデータが有するインデックスのうち作成されたインデックスと一致するインデックスの顧客に絞り込む。
例えば、絞込み部27は、作成部25により作成されたインデックス“東京都”、“京都江”、“都江東”、“江東区”、及び“東区永”それぞれを、図5に示すインデックスマスタファイル内のインデックスそれぞれと比較する。この結果、“東京都”及び“京都江”というインデックスが、インデックスマスタファイル内のインデックスと一致し、企業ID“1000”のインデックスの一致数は2(“東京都”及び“京都江”)、企業ID“3000”のインデックスの一致数は1(“東京都”)となる。
そして絞込み部27は、図6に示すインデックス定義ファイルを参照して、顧客の絞り込みに必要な一致数を確認する。なお、作成部25により作成されたインデックスには、図6に示すインデックス定義ファイルの言語区分1かつ企業住所現地語の規則が適用されたため、絞り込みにも当該規則が適用され、一致数は1となる。
このため、絞込み部27は、図10に示すように、顧客マスタファイル内の顧客のうち後段の処理対象となる顧客を、インデックスの一致数が1以上である企業ID“1000”及び“3000”の顧客に絞り込む。
なお、一致数が2となる場合であれば、顧客マスタファイル内の顧客のうち後段の処理対象となる顧客を、インデックスの一致数が2以上である企業ID“1000”の顧客に絞り込むことになる。
また、絞込み部27は、作成部25により作成されたインデックスのうちインデックスマスタデータが有するインデックスと一致しなかったインデックスのレコードを、インデックスマスタデータに登録する。
ここで、比較定義データ記憶部17について説明する。比較定義データ記憶部17は、比較定義データを記憶する。本実施形態では、比較定義データは、図2で説明した項目毎の比較方法及び比較結果のランク分け規則を定義した比較定義ファイルとするが、これに限定されるものではない。
図11は、本実施形態の比較定義ファイルの一例を示す図である。図11に示す例では、項目“住所”は、企業住所現地語、企業住所英語、事業所住所現地語、及び事業所住所英語などが該当し、項目“事業所名”は、事業所名現地語及び事業所名英語などが該当し、項目“電話番号”は、企業代表TEL及び事業所代表TELなどが該当する。
また図11に示す例では、項目の比較方法は、項目に応じて異なる比較方法が用意されており、本実施形態では、方法1〜方法4がある。方法1〜方法4は、大きく2つに大別される。方法1及び方法2は、項目の分類が名称以外である場合の比較方法であり、文字列の一致の有無を確認する方法である。方法3及び方法4は、項目の分類が名称である場合の比較方法であり、文字列の一致割合を算出する方法である。
つまり、図2に示す例において、分類が名称以外となる企業国コード、事業所国コード、企業郵便番号、企業代表TEL、企業DUNSナンバー、事業所郵便番号、事業所代表TEL、及び事業所DUNSナンバーなどの項目については、比較方法は、方法1又は方法2となる。同様に、分類が名称となる企業名現地語、企業名英語、企業住所現地語、企業住所英語、事業所名現地語、事業所名英語、事業所住所現地語、事業所住所英語、サイト名現地語、及びサイト名英語などについては、比較方法は、方法3又は方法4となる。
分類が名称となる場合、文字列の順序が互いに異なったり、一方の文字列において一部の文字が省略されていたりすることがあるので、文字列が完全一致するようなケースは少ないが、分類がコードや番号など名称以外となる場合、文字列が完全一致するようなケースも多くある。このため本実施形態では、このような項目の分類の特性を考慮して項目を比較するため、方法1〜方法4を用意している。
以下、項目の比較方法の方法1〜方法4について説明する。
方法1は、処理対象ファイルの項目の文字列が顧客マスタファイルの対応する項目の文字列と完全一致するか否かを確認する比較方法である。方法1は、文字列の完全一致が必要となるため、一致率は低いが、比較結果の信頼度は高く、処理効率も高いという特徴を有する。
図12は、本実施形態の項目の比較方法の方法1の具体例を示す図である。なお、図12では、説明の関係上、項目の分類が名称となる文字列を例に取り方法1について説明しているが、実際には、項目の分類が名称以外となる文字列が対象となる。図12では、処理対象ファイルの項目の文字列“東京都江東区永代12345澁澤シティプレイス永代”と、顧客マスタファイルの対応する項目の文字列“東京都江東区永代12345澁澤ビル”とを比較しているが、両文字列は完全一致しないため、比較結果は、不一致となる。
方法2は、処理対象ファイルの項目の文字列と顧客マスタファイルの対応する項目の文字列とが先頭からN(N≧2)文字目まで完全一致するか否かを確認する比較方法である。方法2は、文字列の部分的な完全一致が必要となるため、一致率は中くらいで、比較結果の信頼度は低いが、処理効率も高いという特徴を有する。
図13は、本実施形態の項目の比較方法の方法2の具体例を示す図である。なお、図13では、説明の関係上、項目の分類が名称となる文字列を例に取り方法2について説明しているが、実際には、項目の分類が名称以外となる文字列が対象となる。図13では、処理対象ファイルの項目の文字列“東京都江東区永代12345澁澤シティプレイス永代”と、顧客マスタファイルの対応する項目の文字列“東京都江東区永代12345澁澤ビル”との先頭から13文字までを比較しているため、両文字列は完全一致し、比較結果は、一致するとなる。
なお、方法2は、郵便番号の比較などに適するという特徴がある。日本国の郵便番号は3桁から7桁に変更されたため、処理対象ファイルが古い場合、郵便番号が3桁の可能性がある。この場合、顧客マスタファイルの郵便番号が7桁であれば、方法1では、全ての比較結果が不一致となるが、方法2では、先頭から3文字目までを比較対象とすれば、このようなケースにも対応できる。
方法3は、処理対象ファイルの項目の文字列と顧客マスタファイルの対応する項目の文字列とを先頭からN(N≧1)文字目ずつ比較し、不一致となるまで繰り返す。そして、マスタファイルの対応する項目の文字数に対する一致した文字数の割合を算出する。方法3は、一致率は高いが、比較結果の信頼度は中くらいで、処理効率が低いという特徴を有する。
図14は、本実施形態の項目の比較方法の方法3の具体例を示す図である。図14では、処理対象ファイルの項目の文字列“東京都江東区永代12345澁澤シティプレイス永代”と、顧客マスタファイルの対応する項目の文字列“東京都江東区永代12345澁澤ビル”とを、先頭から1文字ずつ比較した結果、先頭から15文字目までは一致し、16文字目が不一致となっている。顧客マスタファイルの対応する項目の文字列の文字数は、17であるため、比較結果は、一致率0.88(15/17)となる。
方法4は、処理対象ファイルの項目の文字列の文字種毎の文字数を算出するとともに、顧客マスタファイルの対応する項目の文字列の文字種毎の文字数を算出し、処理対象ファイルの項目の文字列の文字種毎の文字数と顧客マスタファイルの対応する項目の文字列の文字種毎の文字数との一致割合を算出する。方法4は、一致率は高いが、比較結果の信頼度は中くらいで、処理効率が低いという特徴を有する。
前述したように、分類が名称となる場合、文字列の順序が互いに異なったり、一方の文字列において一部の文字が省略されていたりするケースも想定されるため、このようなケースを想定すると、方法4が適する。
図15は、本実施形態の項目の比較方法の方法4の具体例を示す図である。図15では、処理対象ファイルの項目の文字列“東京都江東区永代12321”の文字種毎の文字数を算出するとともに、顧客マスタファイルの対応する項目の文字列“東京都江東区永代9879”の文字種毎の文字数を算出し、両文字種毎の文字数の一致割合を算出している。ここで、文字種“東”、“京”、“都”、“江”、“区”、“永”、及び“代”については、文字数まで一致しているが、他は、一致していない。そして、“東京都江東区永代12321”の文字数は13、“東京都江東区永代9879”の文字数は12、一致した文字数は16となるため、比較結果は、一致率0.64(16/(13+12))となる。
また図11に示す例では、比較結果のランク分け規則は、項目毎に定義されており、比較結果に応じて4ランクにランク分けするようになっている。例えば、項目“住所”であれば、比較結果の一致率が0.8以上であればAランク、比較結果の一致率が0.6以上0.8未満であればBランク、比較結果の一致率が0.2以上0.6未満であればCランク、比較結果の一致率が0.2未満であればDランクにランク分けするようになっている。
ここで、Aランクは、両項目が同一である可能性が極めて高いことを示し、Bランクは、両項目は同一と思われるが、同一でない可能性もあることを示し、Cランクは、両項目は同一と思われないが、同一である可能性もあることを示し、Dランクは、両項目が同一である可能性が極めて低いことを示す。
なお、方法1や方法2のように、比較結果が一致する、しないの2通りである場合には、4ランクのうちの2ランクにランク分けすればよい。例えば、方法1であれば、一致率は低いが、比較結果の信頼度は高いという特徴を有するので、比較結果が一致するであればAランク、比較結果が一致しないであればDランクにランク分けすればよい。
比較部29は、クレンジング部23によりクレンジング処理が施された処理対象データを取得し、当該処理対象データに含まれる複数の項目のうち2以上の項目それぞれについて、当該項目に応じた比較方法で顧客マスタデータの対応する項目との比較を行う。具体的には、比較部29は、処理対象データに含まれる複数の項目のうち2以上の項目それぞれについて、顧客マスタデータ内の顧客のうち絞込み部27により絞り込まれた顧客の対応する項目との比較を行う。そして比較部29は、2以上の項目それぞれの比較結果をランク分けする。
本実施形態では、項目に応じた比較方法は、項目の分類に応じて定まる。項目の分類が名称である場合、項目に応じた比較方法は、項目の文字列との一致割合を算出する方法であり、項目の分類が名称以外である場合、項目に応じた比較方法は、項目の文字列との一致の有無を確認する方法である。
具体的には、比較部29は、比較定義データ記憶部17に記憶されている比較定義ファイルを参照して、クレンジング部23によりクレンジング処理が施された処理対象ファイルのレコードに含まれる複数の項目のうち2以上の項目それぞれについて、顧客マスタファイル内の顧客のうち絞込み部27により絞り込まれた顧客の対応する項目との比較を行う。
例えば、比較部29は、図3に示す処理対象ファイルのレコードの企業住所現地語“東京都江東区永大123シティプレイス”について、顧客マスタファイル内の顧客のうち絞込み部27により絞り込まれた顧客(図10参照)の企業所住所現地語“東京都江東区永大9999”、企業住所現地語“東京都品川区東品川3−32−3”との比較を行う。
この場合、企業住所現地語は、図11に示す比較定義ファイルの項目“住所”に該当するため、比較部29は、図11に示す比較定義ファイルを参照して、方法4を用いて比較を行う。そして比較部29は、図11に示す比較定義ファイルを参照して、比較結果を一致率に応じてAランク〜Dランクにランク分けする。
そして、比較部29は、処理対象ファイルのレコードに含まれる2以上の項目の他の項目についても、図11に示す比較定義ファイルに従って、比較し、比較結果を一致率に応じてAランク〜Dランクにランク分けする。
この結果、比較部29は、処理対象ファイルに含まれるレコードの複数の項目のうち2以上の項目それぞれのランクを得る。
ここで、判定定義データ記憶部19について説明する。判定定義データ記憶部19は、判定定義データを記憶する。本実施形態では、判定定義データは、図2で説明した項目毎の比較結果のランクに応じた総合判定結果を定義した判定定義ファイルとするが、これに限定されるものではない。
図16は、本実施形態の判定定義ファイルの一例を示す図である。なお図16に示す例では、説明の関係上、図2で説明した項目については、企業名現地語、企業名英語、企業国コード、企業郵便番号、企業住所現地語、企業住所英語、企業代表TEL、企業DUNSナンバーのみを示しているが、実際には、他の項目も有している。
図16に示す判定定義ファイルは、項目それぞれのランクと総合判定ランクとの対応パターンを示している。例えば、パターン1の場合、企業名現地語のランクがAかつ企業DUNSナンバーのランクがAという条件を満たせば、総合判定ランクもAであることを示している。つまり、パターン1の場合、企業名現地語のランクがAかつ企業DUNSナンバーのランクがAであれば、他の項目のランクに関係なく、総合判定ランクはAとなる。
本実施形態では、総合判定ランクも、Aランク、Bランク、Cランク、Dランクの4ランク用意されている。ここで、Aランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一である可能性が極めて高いことを示し、Bランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一と思われるが、同一でない可能性もあることを示し、Cランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一と思われないが、同一である可能性もあることを示し、Dランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一である可能性が極めて低いことを示す。
判定部31は、比較部29による処理対象データに含まれる複数の項目のうち2以上の項目それぞれの比較結果(詳細には、比較結果のランク)に基づいて、処理対象データを名寄せするか否かを判定する。
具体的には、判定部31は、判定定義データ記憶部19に記憶されている判定定義ファイルを参照して、比較部29によりランク分けされた処理対象ファイルのレコードに含まれる複数の項目のうち2以上の項目それぞれの比較結果のランクから総合判定ランクを求める。そして判定部31は、総合判定ランクに基づいて、処理対象データのレコードを名寄せするか否かを判定する。
例えば、判定部31が図16に示す判定定義ファイルを用いて総合判定ランクを求めた場合、総合判定ランクは、AランクからDランクのいずれかとなる。
ここで本実施形態では、判定部31は、総合判定ランクがAランク又はBランクの場合、処理対象ファイルのレコードを名寄せする、つまり、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一であると判定する。但し、Bランクの場合、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一でない可能性もあるため、情報処理システム1の管理者等による目視での確認も行うことが好ましい。
同様に、判定部31は、総合判定ランクがCランク又はDランクの場合、処理対象ファイルのレコードを名寄せしない、つまり、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一でないと判定する。但し、Cランクの場合、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一である可能性もあるため、情報処理システム1の管理者等による目視での確認も行うことが好ましい。
なお、判定定義ファイル内の総合判定ランクについては、情報処理システム1の管理者等による目視での確認結果をふまえて変更するようにしてもよい。例えば、総合判定ランクがBランクであっても、情報処理システム1の管理者等による目視での確認の結果、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客とが同一である確率が高ければ、総合判定ランクをAランクに変更してもよい。総合判定ランクの変更は、例えば、情報処理システム1の管理者が入力部21から操作入力を行うことで実現できる。
登録部33は、判定部31により処理対象データを名寄せしないと判定された場合、処理対象データの内容を顧客マスタデータに登録する。具体的には、登録部33は、判定部31により処理対象ファイルのレコードを名寄せしないと判定された場合、当該レコードを顧客マスタファイルに登録する。
図17は、本実施形態の情報処理システム1で実行される名寄せ処理の一例を示すフローチャート図である。
まず、入力部21は、処理対象ファイルを入力する(ステップS101)。
続いて、クレンジング部23は、入力部21により入力された処理対象ファイルに対し、クレンジング処理を行う(ステップS103)。
続いて、作成部25は、インデックス定義データ記憶部15に記憶されているインデックス定義ファイルを参照して、クレンジング部23によりクレンジング処理が施された処理対象ファイルのレコードのインデックスを作成する(ステップS105)。
続いて、絞込み部27は、作成部25により作成されたインデックスとインデックスマスタファイルとを比較して、処理対象データとの比較対象となる顧客のレコードを顧客マスタファイル内で絞り込む(ステップS107)。
続いて、比較部29は、クレンジング部23によりクレンジング処理が施された処理対象データを取得する。そして比較部29は、比較定義データ記憶部17に記憶されている比較定義ファイルを参照して、当該処理対象データのレコードに含まれる複数の項目のうち2以上の項目それぞれについて、顧客マスタファイル内のレコードのうち絞込み部27により絞り込まれたレコードの対応する項目との比較を行い、2以上の項目それぞれの比較結果をランク分けする(ステップS109)。
続いて、判定部31は、判定定義データ記憶部19に記憶されている判定定義ファイルを参照して、比較部29によりランク分けされた処理対象ファイルのレコードに含まれる複数の項目のうち2以上の項目それぞれの比較結果のランクから総合判定ランクを求める。そして判定部31は、総合判定ランクに基づいて、処理対象データのレコードを名寄せするか否かを判定する(ステップS111)。
続いて、判定部31により名寄せすると判定された場合(ステップS113でYes)、名寄せ処理は終了となる。
一方、判定部31により名寄せしないと判定された場合(ステップS113でNo)、登録部33は、判定部31により名寄せしないと判定されたレコードを顧客マスタファイルに登録し(ステップS115)、名寄せ処理は終了となる。
以上のように本実施形態によれば、処理対象ファイル内の顧客に関する2以上の項目について、2以上の項目それぞれに応じた比較方法で顧客マスタファイルとの比較を行い、2以上の項目それぞれの比較結果の総合判定結果から、名寄せするか否かを判定するので、名寄せの精度を向上させることができる。
また本実施形態によれば、処理対象ファイル内の顧客に関する所定項目についてインデックスを作成し、作成したインデックスをインデックスマスタファイルと比較することで、処理対象ファイルとの比較対象となる顧客マスタファイルの顧客を絞り込むので、名寄せ処理の処理速度を向上させることができる。
(変形例)
なお、本発明は、上記実施形態に限定されるものではなく、種々の変形が可能である。例えば、上記実施形態において、情報処理システム1が備える構成は、1つの装置内に備えられていてもよいし、複数の装置に分散されて備えられていてもよい。また、情報処理システム1が備える各記憶部が記憶する情報の少なくともいずれかを情報処理システム1内で記憶せず、外部(例えば、クラウド上)に記憶するようにしてもよい。
(ハードウェア構成)
図18は、本実施形態の情報処理システム1のハードウェア構成の一例を示す図である。本実施形態の各装置は、CPUなどの制御装置801と、ROMやRAMなどの記憶装置802と、HDDなどの外部記憶装置803と、ディスプレイなどの表示装置804と、キーボードやマウスなどの入力装置805と、通信I/F(インタフェース)806と、を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の情報処理システム1で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、CD−R、メモリカード、DVD(Digital Versatile Disk)、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されて提供される。
また、本実施形態の情報処理システム1を、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、本実施形態の情報処理システム1で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。また、本実施形態の情報処理システム1で実行されるプログラムを、ROM等に予め組み込んで提供するようにしてもよい。
本実施形態の情報処理システム1で実行されるプログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、CPUがHDDからプログラムをRAM上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。
1 情報処理システム
11 顧客マスタ記憶部
13 インデックスマスタ記憶部
15 インデックス定義データ記憶部
17 比較定義データ記憶部
19 判定定義データ記憶部
21 入力部
23 クレンジング部
25 作成部
27 絞込み部
29 比較部
31 判定部
33 登録部
特許第3721315号公報

Claims (8)

  1. 顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータを記憶する顧客マスタ記憶部と、
    前記顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータを記憶するインデックスマスタ記憶部と、
    顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が1バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する1以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が2バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成部と、
    作成された前記インデックスと前記インデックスマスタデータとを比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込み部と、
    前記処理対象データに含まれる複数の項目のうち2以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較部と、
    前記2以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定部と、
    を備える情報処理システム。
  2. 前記項目に応じた比較方法は、項目の分類に応じて定まる請求項1に記載の情報処理システム。
  3. 前記項目の分類が名称である場合、前記項目に応じた比較方法は、前記項目の文字列との一致割合を算出する方法であり、
    前記項目の分類が名称以外である場合、前記項目に応じた比較方法は、前記項目の文字列との一致の有無を確認する方法である請求項2に記載の情報処理システム。
  4. 前記比較部は、前記2以上の項目それぞれの比較結果をランク分けし、
    前記判定部は、前記2以上の項目それぞれの比較結果のランクに基づいて、前記処理対象データを名寄せするか否かを判定する請求項1〜3のいずれか1つに記載の情報処理システム。
  5. 前記処理対象データを名寄せしないと判定された場合、前記処理対象データの内容を前記顧客マスタデータに登録する登録部を更に備える請求項1〜4のいずれか1つに記載の情報処理システム。
  6. 前記絞込み部は、前記インデックスマスタデータが有するインデックスのうち作成された前記インデックスと一致するインデックスの顧客に絞り込む請求項1〜5のいずれか1つに記載の情報処理システム。
  7. 作成部が、顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が1バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する1以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が2バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成ステップと、
    絞込み部が、作成された前記インデックスと、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータと、を比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込みステップと、
    比較部が、前記処理対象データに含まれる複数の項目のうち2以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較ステップと、
    判定部が、前記2以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定ステップと、
    を含む名寄せ判定方法。
  8. 顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が1バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する1以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が2バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成ステップと、
    作成された前記インデックスと、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータと、を比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込みステップと、
    前記処理対象データに含まれる複数の項目のうち2以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較ステップと、
    前記2以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定ステップと、
    をコンピュータに実行させるためのプログラム。
JP2013049566A 2013-03-12 2013-03-12 情報処理システム、名寄せ判定方法及びプログラム Active JP6123372B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013049566A JP6123372B2 (ja) 2013-03-12 2013-03-12 情報処理システム、名寄せ判定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013049566A JP6123372B2 (ja) 2013-03-12 2013-03-12 情報処理システム、名寄せ判定方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014174921A JP2014174921A (ja) 2014-09-22
JP6123372B2 true JP6123372B2 (ja) 2017-05-10

Family

ID=51696041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013049566A Active JP6123372B2 (ja) 2013-03-12 2013-03-12 情報処理システム、名寄せ判定方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6123372B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6772606B2 (ja) * 2016-07-13 2020-10-21 富士通株式会社 データ処理プログラム、データ処理方法、及びデータ処理装置
US11449495B2 (en) 2017-02-01 2022-09-20 United Parcel Service Of America, Inc. Indexable database profiles comprising multi-language encoding data and methods for generating the same

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5585472B2 (ja) * 2011-01-28 2014-09-10 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム

Also Published As

Publication number Publication date
JP2014174921A (ja) 2014-09-22

Similar Documents

Publication Publication Date Title
JP2017224184A (ja) 機械学習装置
EP3218811B1 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
US20200073863A1 (en) System and method for facilitating efficient indexing in a database system
CN108319661A (zh) 一种备件信息的结构化存储方法及装置
US20160246705A1 (en) Data fabrication based on test requirements
JP6242540B1 (ja) データ変換システム及びデータ変換方法
US7885985B2 (en) System and method for building a datastore for storing and retrieving regression testing data for a complex application
JP6123372B2 (ja) 情報処理システム、名寄せ判定方法及びプログラム
JP5952441B2 (ja) 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体
JP6684233B2 (ja) テスト入力情報検索装置及び方法
JP7278100B2 (ja) 投稿評価システム及び方法
US20200125592A1 (en) Attribute extraction apparatus and attribute extraction method
CN104424300A (zh) 个性化搜索提示方法及装置
US11113314B2 (en) Similarity calculating device and method, and recording medium
KR101828466B1 (ko) 파일시스템을 기반으로 하는 저장장치에서 객체기반 스토리지 인터페이스를 제공하는 방법 및 장치
JP2018109898A (ja) データマイグレーションシステム
CN107408104A (zh) 样式的声明级联重新排序
JP5487078B2 (ja) ソフトウェア資産整理方法及び装置
JP6870454B2 (ja) 分析装置、分析プログラム及び分析方法
JP6677624B2 (ja) 分析装置、分析方法、および分析プログラム
JP6413597B2 (ja) 分析プログラム、分析方法及び分析装置
JP6455087B2 (ja) 帳票情報処理プログラム、帳票情報処理装置、および帳票情報処理方法
JPWO2019171537A1 (ja) 意味推定システム、方法およびプログラム
JPWO2019171538A1 (ja) 意味推定システム、方法およびプログラム
US20240086179A1 (en) Software component update system, and software component update method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170320

R151 Written notification of patent or utility model registration

Ref document number: 6123372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151