JP6123372B2

JP6123372B2 - 情報処理システム、名寄せ判定方法及びプログラム

Info

Publication number: JP6123372B2
Application number: JP2013049566A
Authority: JP
Inventors: 清水　信行; 信行清水
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-03-12
Filing date: 2013-03-12
Publication date: 2017-05-10
Anticipated expiration: 2033-03-12
Also published as: JP2014174921A

Description

本発明は、情報処理システム、名寄せ判定方法及びプログラムに関する。

顧客情報の管理において、異なる主体により管理されていた顧客情報を一元化して管理する場合、顧客情報の名寄せ（顧客情報の同一性判断）が行われることがある。例えば特許文献１には、顧客を特定する顧客特定情報を含まない顧客情報の名寄せを行う技術が開示されている。

名寄せでは、顧客の名称など特定のキー項目を用いて行うことが一般的であるが、名寄せの精度を向上させる上で改善の余地がある。

本発明は、上記事情に鑑みてなされたものであり、名寄せの精度を向上させることができる情報処理システム、名寄せ判定方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一態様にかかる情報処理システムは、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータを記憶する顧客マスタ記憶部と、前記顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータを記憶するインデックスマスタ記憶部と、顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が１バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する１以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が２バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成部と、作成された前記インデックスと前記インデックスマスタデータとを比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込み部と、前記処理対象データに含まれる複数の項目のうち２以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較部と、前記２以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定部と、を備える。

本発明によれば、名寄せの精度を向上させることができるという効果を奏する。

図１は、本実施形態の情報処理システムの構成の一例を示すブロック図である。図２は、本実施形態の名寄せ処理で用いる項目及び分類の一例を示す説明図である。図３は、本実施形態の処理対象ファイルの一例を示す図である。図４は、本実施形態の顧客マスタファイルの一例を示す図である。図５は、本実施形態のインデックスマスタファイルの一例を示す図である。図６は、本実施形態のインデックス定義ファイルの一例を示す図である。図７は、本実施形態のインデックス作成方法の方法１の具体例を示す図である。図８は、本実施形態のインデックス作成方法の方法２の具体例を示す図である。図９は、本実施形態のインデックス作成結果の一例を示す図である。図１０は、本実施形態の顧客マスタファイルの絞込結果の一例を示す図である。図１１は、本実施形態の比較定義ファイルの一例を示す図である。図１２は、本実施形態の項目の比較方法の方法１の具体例を示す図である。図１３は、本実施形態の項目の比較方法の方法２の具体例を示す図である。図１４は、本実施形態の項目の比較方法の方法３の具体例を示す図である。図１５は、本実施形態の項目の比較方法の方法４の具体例を示す図である。図１６は、本実施形態の判定定義ファイルの一例を示す図である。図１７は、本実施形態の情報処理システムで実行される名寄せ処理の一例を示すフローチャート図である。図１８は、本実施形態の情報処理システムのハードウェア構成の一例を示す図である。

以下、添付図面を参照しながら、本発明にかかる情報処理システム、名寄せ判定方法及びプログラムの実施形態を詳細に説明する。

図１は、本実施形態の情報処理システム１の構成の一例を示すブロック図である。図１に示すように、情報処理システム１は、顧客マスタ記憶部１１と、インデックスマスタ記憶部１３と、インデックス定義データ記憶部１５と、比較定義データ記憶部１７と、判定定義データ記憶部１９と、入力部２１と、クレンジング部２３と、作成部２５と、絞込み部２７と、比較部２９と、判定部３１と、登録部３３とを、備える。

顧客マスタ記憶部１１、インデックスマスタ記憶部１３、インデックス定義データ記憶部１５、比較定義データ記憶部１７、及び判定定義データ記憶部１９は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、光ディスク、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）などの磁気的、光学的、又は電気的に記憶可能な記憶装置により実現できる。入力部２１は、マウス、キーボード、タッチパッド、及びタッチパネルなどの入力装置により実現できる。クレンジング部２３、作成部２５、絞込み部２７、比較部２９、判定部３１、及び登録部３３は、例えば、ＣＰＵ（Central Processing Unit）などの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現できる。

まず、本実施形態の名寄せ処理で用いる項目及び分類について説明する。図２は、本実施形態の名寄せ処理で用いる項目及び分類の一例を示す説明図である。図２に示すように、本実施形態の名寄せ処理で用いる項目としては、企業名現地語、企業名英語、企業国コード、企業郵便番号、企業住所現地語、企業住所英語、企業代表ＴＥＬ、企業ＤＵＮＳ（Data Universal Numbering System）ナンバー、事業所名現地語、事業所名英語、事業所国コード、事業所郵便番号、事業所住所現地語、事業所住所英語、事業所代表ＴＥＬ、事業所ＤＵＮＳナンバー、サイト名現地語、及びサイト名英語などが挙げられる。

なお、現地語とは、企業、事業所、又はサイトが所属する国や地域の言語である。また、ＤＵＮＳナンバーとは、米国のダンアンドブラッドストリートによって各企業に付与された番号である。

項目の分類としては、企業名現地語、企業名英語、企業住所現地語、企業住所英語、事業所名現地語、事業所名英語、事業所住所現地語、事業所住所英語、サイト名現地語、及びサイト名英語が、名称となり、企業国コード及び事業所国コードが、コードとなり、企業郵便番号、企業代表ＴＥＬ、企業ＤＵＮＳナンバー、事業所郵便番号、事業所代表ＴＥＬ、及び事業所ＤＵＮＳナンバーが、番号となる。

コード及び番号は、記号や数字などで特定される識別子であり、本実施形態では、コードは、識別子自体が意味を持たないもの、番号は、識別子自体が意味を持つものとしている。但し、コード及び番号の解釈はこれに限定されるものではなく、例えば、コードと番号とを区分けせず同様の意味で解釈するようにしてもよい。

図１に戻り、入力部２１は、顧客に関する複数の項目を有する処理対象データを入力する。本実施形態では、処理対象データは、名寄せ処理の処理対象ファイルであり、図２で説明した項目のうち２以上の項目を有するレコードの集合であるものとするが、これに限定されるものではない。

図３は、本実施形態の処理対象ファイルの一例を示す図である。図３に示す例では、処理対象ファイルのレコードは、企業ＩＤと、企業住所現地語とを、有している。企業ＩＤは、情報処理システム１の開発者などが企業毎に付与したＩＤであり、企業ＤＵＮＳナンバーとは異なる情報である。なお図３に示す例では、説明の関係上、図２で説明した項目については、企業住所現地語のみを示しているが、実際には、他の項目も有している。

クレンジング部２３は、入力部２１により入力された処理対象ファイルに対し、クレンジング処理を行う。クレンジング処理は、入力された処理対象ファイルの各レコードが有する各項目のフォーマットを標準化する処理であり、予め定められた規則に従って各項目の文字列を変換する。文字列の変換としては、例えば、記号の削除や半角文字の全角文字への変換などが挙げられる。

ここで、顧客マスタ記憶部１１、インデックスマスタ記憶部１３、及びインデックス定義データ記憶部１５について説明する。

顧客マスタ記憶部１１は、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータを記憶する。本実施形態では、顧客マスタデータは、顧客に関する情報が定義された顧客マスタファイルであり、図２で説明した項目のうち２以上の項目を有するレコードの集合であるものとするが、これに限定されるものではない。

図４は、本実施形態の顧客マスタファイルの一例を示す図である。図４に示す例では、顧客マスタファイルの各レコードは、企業ＩＤと、企業住所現地語とを、有している。なお図４に示す例でも、説明の関係上、図２で説明した項目については、企業住所現地語のみを示しているが、実際には、他の項目も有している。

インデックスマスタ記憶部１３は、顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータを記憶する。本実施形態では、インデックスマスタデータは、顧客マスタファイルの顧客毎のインデックスが定義されたインデックスマスタファイルであり、インデックスを有するレコードの集合であるものとするが、これに限定されるものではない。インデックスは、顧客マスタファイルの各レコードが有する２以上の項目のうちの所定項目のインデックスである。本実施形態では、所定項目は、企業名現地語、企業名英語、企業住所現地語、及び企業住所英語であるものとするが、これに限定されるものではない。

図５は、本実施形態のインデックスマスタファイルの一例を示す図である。図５に示す例では、インデックスマスタファイルの各レコードは、企業ＩＤと、インデックスとを、有している。なお、インデックスは、図５に示すように、１つの企業ＩＤに対し、複数存在する場合もある。インデックスの詳細については、後述する。

インデックス定義データ記憶部１５は、インデックス定義データを記憶する。本実施形態では、インデックス定義データは、処理対象ファイルの各レコードのインデックスの作成に関する規則、及び当該インデックスを用いた顧客マスタファイルの絞り込みに関する規則を定義したインデックス定義ファイルとするが、これに限定されるものではない。

図６は、本実施形態のインデックス定義ファイルの一例を示す図である。図６に示す例では、図２で説明した項目のうち企業名現地語、企業名英語、企業住所現地語、及び企業住所英語が、インデックス作成対象の項目に設定されている。

また図６に示す例では、インデックス作成対象の項目及び言語区分に応じて異なる規則（インデックス作成方法、インデックス文字数、最大インデックス数、一致数）が定義されている。なお、言語区分１は、日本語、中国語、及び韓国語など文字が２バイトで定義される言語を使用する企業を想定しており、言語区分２は、英語、ドイツ語、及びフランス語など文字が１バイトで定義される言語を使用する企業を想定している。このため、例えば、日本の企業であれば、言語区分１が適用され、米国の企業であれば、言語区分２が適用される。

インデックス作成方法は、言語に応じて異なる作成方法が用意されており、本実施形態では、文字が２バイトで定義される言語用の方法１と、文字が１バイトで定義される言語用の方法２とがある。２バイトで定義される言語には、単語の区切りに空白やカンマなどの記号が必要ない、文字種が多いなどの特性があり、１バイトで定義される言語には、単語の区切りに空白やカンマなどの記号が必要であり、文字種が少ないなどの特性がある。本実施形態では、このような言語の特性を考慮してインデックスを作成するため、方法１と方法２とを用意している。方法１及び方法２の詳細については、後述する。

インデックス文字数は、インデックスの文字の数を示している。最大インデックス数は、１レコード当たりの最大インデックス数を示している。一致数は、顧客マスタファイルの顧客を絞り込むために必要なインデックスマスタファイルのインデックスとの一致数を示している。

ここで、インデックス作成方法の方法１と方法２について説明する。

方法１は、該当する項目の文字列の先頭から順にインデックスを作成する方法である。方法１では、まず、文字列から数字を削除する。続いて、文字列の先頭からインデックス文字数分の文字を取得し、１つ目のインデックスとする。続いて、前回取得した文字列の先頭から１文字ずらした文字からインデックス文字数分の文字を取得し、２つ目のインデックスとする。以降、インデックスの数が最大インデックス数となるまで同様の処理を繰り返す。

図７は、本実施形態のインデックス作成方法の方法１の具体例を示す図である。図７は、“千葉県浦安市高洲”という文字列からインデックスを作成する例である。なお、“千葉県浦安市高洲”という文字列は、図６に示すインデックス定義ファイルの言語区分１かつ企業住所現地語の規則が適用されるとする。このため、インデックス作成方法は方法１、インデックス文字数は３、最大インデックス数は５となる。

方法１では、まず、文字列から数字を削除するが、“千葉県浦安市高洲”という文字列には数字が存在しないため、このままとなる。続いて、文字列の先頭からインデックス文字数分の文字を取得し、１つ目のインデックスとするため、１つ目のインデックスは、“千葉県”となる。続いて、前回取得した文字列の先頭から１文字ずらした文字からインデックス文字数分の文字を取得し、２つ目のインデックスとするため、２つ目のインデックスは、“葉県浦”となる。以降、インデックスの数が最大インデックス数である５となるまで同様の処理を繰り返すと、３つ目のインデックスは“県浦安”、４つ目のインデックスは“浦安市”、５つ目のインデックスは“安市高”となる。

方法２は、該当する項目の文字列の後方から順にインデックスを作成する方法である。方法２では、まず、文字列から数字を削除する。続いて、文字列を構成する最後の単語の先頭の文字から、インデックス文字数分の文字を取得し、１つ目のインデックスとする。続いて、前回取得した単語の１つ前の単語の先頭の文字から、インデックス文字数分の文字を取得し、２つ目のインデックスとする。以降、インデックスの数が最大インデックス数となるまで同様の処理を繰り返す。但し、該当する単語の文字数がインデックス文字数未満である場合、該当する単語の文字数分の文字を取得し、インデックスとする。

図８は、本実施形態のインデックス作成方法の方法２の具体例を示す図である。図８は、“5 DEDRICK PLACE WEST CALDWELL NEW JERSEY 07006 USA”という文字列からインデックスを作成する例である。なお、“5 DEDRICK PLACE WEST CALDWELL NEW JERSEY 07006 USA”という文字列は、図６に示すインデックス定義ファイルの言語区分２かつ企業住所英語の規則が適用されるとする。このため、インデックス作成方法は方法２、インデックス文字数は５、最大インデックス数は５となる。

方法２では、まず、文字列から数字を削除するため、“DEDRICK PLACE WEST CALDWELL NEW JERSEY USA”となる。続いて、文字列を構成する最後の単語の先頭の文字から、インデックス文字数分の文字を取得し、１つ目のインデックスとするため、１つ目のインデックスは、“USA”となる。続いて、前回取得した単語の１つ前の単語の先頭の文字から、インデックス文字数分の文字を取得し、２つ目のインデックスとするため、２つ目のインデックスは、“JERSE”となる。以降、インデックスの数が最大インデックス数である５となるまで同様の処理を繰り返すと、３つ目のインデックスは“NEW”、４つ目のインデックスは“CALDW”、５つ目のインデックスは“WEST”となる。

作成部２５は、クレンジング部２３によりクレンジング処理が施された処理対象ファイルのインデックスを作成する。インデックスは、処理対象ファイルが有する２以上の項目のうちの所定項目のインデックスである。本実施形態では、所定項目は、前述の通り、企業名現地語、企業名英語、企業住所現地語、及び企業住所英語であるものとするが、これに限定されるものではない。なお作成部２５は、処理対象ファイルの所定項目の言語に応じた作成方法でインデックスを作成する。

具体的には、作成部２５は、インデックス定義データ記憶部１５に記憶されているインデックス定義ファイルを参照して、クレンジング部２３によりクレンジング処理が施された処理対象ファイルのインデックスを作成する。

以下、図３に示す処理対象ファイルを例に取り、処理対象ファイルのインデックスの作成について説明する。図３に示す例では、企業住所現地語が“東京都江東区永大１２３シティプレイス”であり、企業ＩＤが“１０００”である。

ここで、企業ＩＤ“１０００”の企業住所現地語は、日本語であるため、“東京都江東区永大１２３シティプレイス”という文字列は、図６に示すインデックス定義ファイルの言語区分１かつ企業住所現地語の規則が適用される。この場合、インデックス定義ファイルを参照すると、インデックス作成方法は方法１、インデックス文字数は３、最大インデックス数は５となるため、作成部２５は、図９に示すように、企業ＩＤ“１０００”に対し、“東京都”、“京都江”、“都江東”、“江東区”、及び“東区永”という５つのインデックスを作成する。

絞込み部２７は、作成部２５により作成されたインデックスとインデックスマスタデータとを比較して、処理対象データとの比較対象となる顧客を顧客マスタデータ内で絞り込む。具体的には、絞込み部２７は、インデックスマスタデータが有するインデックスのうち作成されたインデックスと一致するインデックスの顧客に絞り込む。

例えば、絞込み部２７は、作成部２５により作成されたインデックス“東京都”、“京都江”、“都江東”、“江東区”、及び“東区永”それぞれを、図５に示すインデックスマスタファイル内のインデックスそれぞれと比較する。この結果、“東京都”及び“京都江”というインデックスが、インデックスマスタファイル内のインデックスと一致し、企業ＩＤ“１０００”のインデックスの一致数は２（“東京都”及び“京都江”）、企業ＩＤ“３０００”のインデックスの一致数は１（“東京都”）となる。

そして絞込み部２７は、図６に示すインデックス定義ファイルを参照して、顧客の絞り込みに必要な一致数を確認する。なお、作成部２５により作成されたインデックスには、図６に示すインデックス定義ファイルの言語区分１かつ企業住所現地語の規則が適用されたため、絞り込みにも当該規則が適用され、一致数は１となる。

このため、絞込み部２７は、図１０に示すように、顧客マスタファイル内の顧客のうち後段の処理対象となる顧客を、インデックスの一致数が１以上である企業ＩＤ“１０００”及び“３０００”の顧客に絞り込む。

なお、一致数が２となる場合であれば、顧客マスタファイル内の顧客のうち後段の処理対象となる顧客を、インデックスの一致数が２以上である企業ＩＤ“１０００”の顧客に絞り込むことになる。

また、絞込み部２７は、作成部２５により作成されたインデックスのうちインデックスマスタデータが有するインデックスと一致しなかったインデックスのレコードを、インデックスマスタデータに登録する。

ここで、比較定義データ記憶部１７について説明する。比較定義データ記憶部１７は、比較定義データを記憶する。本実施形態では、比較定義データは、図２で説明した項目毎の比較方法及び比較結果のランク分け規則を定義した比較定義ファイルとするが、これに限定されるものではない。

図１１は、本実施形態の比較定義ファイルの一例を示す図である。図１１に示す例では、項目“住所”は、企業住所現地語、企業住所英語、事業所住所現地語、及び事業所住所英語などが該当し、項目“事業所名”は、事業所名現地語及び事業所名英語などが該当し、項目“電話番号”は、企業代表ＴＥＬ及び事業所代表ＴＥＬなどが該当する。

また図１１に示す例では、項目の比較方法は、項目に応じて異なる比較方法が用意されており、本実施形態では、方法１〜方法４がある。方法１〜方法４は、大きく２つに大別される。方法１及び方法２は、項目の分類が名称以外である場合の比較方法であり、文字列の一致の有無を確認する方法である。方法３及び方法４は、項目の分類が名称である場合の比較方法であり、文字列の一致割合を算出する方法である。

つまり、図２に示す例において、分類が名称以外となる企業国コード、事業所国コード、企業郵便番号、企業代表ＴＥＬ、企業ＤＵＮＳナンバー、事業所郵便番号、事業所代表ＴＥＬ、及び事業所ＤＵＮＳナンバーなどの項目については、比較方法は、方法１又は方法２となる。同様に、分類が名称となる企業名現地語、企業名英語、企業住所現地語、企業住所英語、事業所名現地語、事業所名英語、事業所住所現地語、事業所住所英語、サイト名現地語、及びサイト名英語などについては、比較方法は、方法３又は方法４となる。

分類が名称となる場合、文字列の順序が互いに異なったり、一方の文字列において一部の文字が省略されていたりすることがあるので、文字列が完全一致するようなケースは少ないが、分類がコードや番号など名称以外となる場合、文字列が完全一致するようなケースも多くある。このため本実施形態では、このような項目の分類の特性を考慮して項目を比較するため、方法１〜方法４を用意している。

以下、項目の比較方法の方法１〜方法４について説明する。

方法１は、処理対象ファイルの項目の文字列が顧客マスタファイルの対応する項目の文字列と完全一致するか否かを確認する比較方法である。方法１は、文字列の完全一致が必要となるため、一致率は低いが、比較結果の信頼度は高く、処理効率も高いという特徴を有する。

図１２は、本実施形態の項目の比較方法の方法１の具体例を示す図である。なお、図１２では、説明の関係上、項目の分類が名称となる文字列を例に取り方法１について説明しているが、実際には、項目の分類が名称以外となる文字列が対象となる。図１２では、処理対象ファイルの項目の文字列“東京都江東区永代１２３４５澁澤シティプレイス永代”と、顧客マスタファイルの対応する項目の文字列“東京都江東区永代１２３４５澁澤ビル”とを比較しているが、両文字列は完全一致しないため、比較結果は、不一致となる。

方法２は、処理対象ファイルの項目の文字列と顧客マスタファイルの対応する項目の文字列とが先頭からＮ（Ｎ≧２）文字目まで完全一致するか否かを確認する比較方法である。方法２は、文字列の部分的な完全一致が必要となるため、一致率は中くらいで、比較結果の信頼度は低いが、処理効率も高いという特徴を有する。

図１３は、本実施形態の項目の比較方法の方法２の具体例を示す図である。なお、図１３では、説明の関係上、項目の分類が名称となる文字列を例に取り方法２について説明しているが、実際には、項目の分類が名称以外となる文字列が対象となる。図１３では、処理対象ファイルの項目の文字列“東京都江東区永代１２３４５澁澤シティプレイス永代”と、顧客マスタファイルの対応する項目の文字列“東京都江東区永代１２３４５澁澤ビル”との先頭から１３文字までを比較しているため、両文字列は完全一致し、比較結果は、一致するとなる。

なお、方法２は、郵便番号の比較などに適するという特徴がある。日本国の郵便番号は３桁から７桁に変更されたため、処理対象ファイルが古い場合、郵便番号が３桁の可能性がある。この場合、顧客マスタファイルの郵便番号が７桁であれば、方法１では、全ての比較結果が不一致となるが、方法２では、先頭から３文字目までを比較対象とすれば、このようなケースにも対応できる。

方法３は、処理対象ファイルの項目の文字列と顧客マスタファイルの対応する項目の文字列とを先頭からＮ（Ｎ≧１）文字目ずつ比較し、不一致となるまで繰り返す。そして、マスタファイルの対応する項目の文字数に対する一致した文字数の割合を算出する。方法３は、一致率は高いが、比較結果の信頼度は中くらいで、処理効率が低いという特徴を有する。

図１４は、本実施形態の項目の比較方法の方法３の具体例を示す図である。図１４では、処理対象ファイルの項目の文字列“東京都江東区永代１２３４５澁澤シティプレイス永代”と、顧客マスタファイルの対応する項目の文字列“東京都江東区永代１２３４５澁澤ビル”とを、先頭から１文字ずつ比較した結果、先頭から１５文字目までは一致し、１６文字目が不一致となっている。顧客マスタファイルの対応する項目の文字列の文字数は、１７であるため、比較結果は、一致率０．８８（１５／１７）となる。

方法４は、処理対象ファイルの項目の文字列の文字種毎の文字数を算出するとともに、顧客マスタファイルの対応する項目の文字列の文字種毎の文字数を算出し、処理対象ファイルの項目の文字列の文字種毎の文字数と顧客マスタファイルの対応する項目の文字列の文字種毎の文字数との一致割合を算出する。方法４は、一致率は高いが、比較結果の信頼度は中くらいで、処理効率が低いという特徴を有する。

前述したように、分類が名称となる場合、文字列の順序が互いに異なったり、一方の文字列において一部の文字が省略されていたりするケースも想定されるため、このようなケースを想定すると、方法４が適する。

図１５は、本実施形態の項目の比較方法の方法４の具体例を示す図である。図１５では、処理対象ファイルの項目の文字列“東京都江東区永代１２３２１”の文字種毎の文字数を算出するとともに、顧客マスタファイルの対応する項目の文字列“東京都江東区永代９８７９”の文字種毎の文字数を算出し、両文字種毎の文字数の一致割合を算出している。ここで、文字種“東”、“京”、“都”、“江”、“区”、“永”、及び“代”については、文字数まで一致しているが、他は、一致していない。そして、“東京都江東区永代１２３２１”の文字数は１３、“東京都江東区永代９８７９”の文字数は１２、一致した文字数は１６となるため、比較結果は、一致率０．６４（１６／（１３＋１２））となる。

また図１１に示す例では、比較結果のランク分け規則は、項目毎に定義されており、比較結果に応じて４ランクにランク分けするようになっている。例えば、項目“住所”であれば、比較結果の一致率が０．８以上であればＡランク、比較結果の一致率が０．６以上０．８未満であればＢランク、比較結果の一致率が０．２以上０．６未満であればＣランク、比較結果の一致率が０．２未満であればＤランクにランク分けするようになっている。

ここで、Ａランクは、両項目が同一である可能性が極めて高いことを示し、Ｂランクは、両項目は同一と思われるが、同一でない可能性もあることを示し、Ｃランクは、両項目は同一と思われないが、同一である可能性もあることを示し、Ｄランクは、両項目が同一である可能性が極めて低いことを示す。

なお、方法１や方法２のように、比較結果が一致する、しないの２通りである場合には、４ランクのうちの２ランクにランク分けすればよい。例えば、方法１であれば、一致率は低いが、比較結果の信頼度は高いという特徴を有するので、比較結果が一致するであればＡランク、比較結果が一致しないであればＤランクにランク分けすればよい。

比較部２９は、クレンジング部２３によりクレンジング処理が施された処理対象データを取得し、当該処理対象データに含まれる複数の項目のうち２以上の項目それぞれについて、当該項目に応じた比較方法で顧客マスタデータの対応する項目との比較を行う。具体的には、比較部２９は、処理対象データに含まれる複数の項目のうち２以上の項目それぞれについて、顧客マスタデータ内の顧客のうち絞込み部２７により絞り込まれた顧客の対応する項目との比較を行う。そして比較部２９は、２以上の項目それぞれの比較結果をランク分けする。

本実施形態では、項目に応じた比較方法は、項目の分類に応じて定まる。項目の分類が名称である場合、項目に応じた比較方法は、項目の文字列との一致割合を算出する方法であり、項目の分類が名称以外である場合、項目に応じた比較方法は、項目の文字列との一致の有無を確認する方法である。

具体的には、比較部２９は、比較定義データ記憶部１７に記憶されている比較定義ファイルを参照して、クレンジング部２３によりクレンジング処理が施された処理対象ファイルのレコードに含まれる複数の項目のうち２以上の項目それぞれについて、顧客マスタファイル内の顧客のうち絞込み部２７により絞り込まれた顧客の対応する項目との比較を行う。

例えば、比較部２９は、図３に示す処理対象ファイルのレコードの企業住所現地語“東京都江東区永大１２３シティプレイス”について、顧客マスタファイル内の顧客のうち絞込み部２７により絞り込まれた顧客（図１０参照）の企業所住所現地語“東京都江東区永大９９９９”、企業住所現地語“東京都品川区東品川３−３２−３”との比較を行う。

この場合、企業住所現地語は、図１１に示す比較定義ファイルの項目“住所”に該当するため、比較部２９は、図１１に示す比較定義ファイルを参照して、方法４を用いて比較を行う。そして比較部２９は、図１１に示す比較定義ファイルを参照して、比較結果を一致率に応じてＡランク〜Ｄランクにランク分けする。

そして、比較部２９は、処理対象ファイルのレコードに含まれる２以上の項目の他の項目についても、図１１に示す比較定義ファイルに従って、比較し、比較結果を一致率に応じてＡランク〜Ｄランクにランク分けする。

この結果、比較部２９は、処理対象ファイルに含まれるレコードの複数の項目のうち２以上の項目それぞれのランクを得る。

ここで、判定定義データ記憶部１９について説明する。判定定義データ記憶部１９は、判定定義データを記憶する。本実施形態では、判定定義データは、図２で説明した項目毎の比較結果のランクに応じた総合判定結果を定義した判定定義ファイルとするが、これに限定されるものではない。

図１６は、本実施形態の判定定義ファイルの一例を示す図である。なお図１６に示す例では、説明の関係上、図２で説明した項目については、企業名現地語、企業名英語、企業国コード、企業郵便番号、企業住所現地語、企業住所英語、企業代表ＴＥＬ、企業ＤＵＮＳナンバーのみを示しているが、実際には、他の項目も有している。

図１６に示す判定定義ファイルは、項目それぞれのランクと総合判定ランクとの対応パターンを示している。例えば、パターン１の場合、企業名現地語のランクがＡかつ企業ＤＵＮＳナンバーのランクがＡという条件を満たせば、総合判定ランクもＡであることを示している。つまり、パターン１の場合、企業名現地語のランクがＡかつ企業ＤＵＮＳナンバーのランクがＡであれば、他の項目のランクに関係なく、総合判定ランクはＡとなる。

本実施形態では、総合判定ランクも、Ａランク、Ｂランク、Ｃランク、Ｄランクの４ランク用意されている。ここで、Ａランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一である可能性が極めて高いことを示し、Ｂランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一と思われるが、同一でない可能性もあることを示し、Ｃランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一と思われないが、同一である可能性もあることを示し、Ｄランクは、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客が同一である可能性が極めて低いことを示す。

判定部３１は、比較部２９による処理対象データに含まれる複数の項目のうち２以上の項目それぞれの比較結果（詳細には、比較結果のランク）に基づいて、処理対象データを名寄せするか否かを判定する。

具体的には、判定部３１は、判定定義データ記憶部１９に記憶されている判定定義ファイルを参照して、比較部２９によりランク分けされた処理対象ファイルのレコードに含まれる複数の項目のうち２以上の項目それぞれの比較結果のランクから総合判定ランクを求める。そして判定部３１は、総合判定ランクに基づいて、処理対象データのレコードを名寄せするか否かを判定する。

例えば、判定部３１が図１６に示す判定定義ファイルを用いて総合判定ランクを求めた場合、総合判定ランクは、ＡランクからＤランクのいずれかとなる。

ここで本実施形態では、判定部３１は、総合判定ランクがＡランク又はＢランクの場合、処理対象ファイルのレコードを名寄せする、つまり、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一であると判定する。但し、Ｂランクの場合、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一でない可能性もあるため、情報処理システム１の管理者等による目視での確認も行うことが好ましい。

同様に、判定部３１は、総合判定ランクがＣランク又はＤランクの場合、処理対象ファイルのレコードを名寄せしない、つまり、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一でないと判定する。但し、Ｃランクの場合、処理対象ファイルのレコードの顧客は、顧客マスタファイルのレコードの顧客と同一である可能性もあるため、情報処理システム１の管理者等による目視での確認も行うことが好ましい。

なお、判定定義ファイル内の総合判定ランクについては、情報処理システム１の管理者等による目視での確認結果をふまえて変更するようにしてもよい。例えば、総合判定ランクがＢランクであっても、情報処理システム１の管理者等による目視での確認の結果、処理対象ファイルのレコードの顧客と顧客マスタファイルのレコードの顧客とが同一である確率が高ければ、総合判定ランクをＡランクに変更してもよい。総合判定ランクの変更は、例えば、情報処理システム１の管理者が入力部２１から操作入力を行うことで実現できる。

登録部３３は、判定部３１により処理対象データを名寄せしないと判定された場合、処理対象データの内容を顧客マスタデータに登録する。具体的には、登録部３３は、判定部３１により処理対象ファイルのレコードを名寄せしないと判定された場合、当該レコードを顧客マスタファイルに登録する。

図１７は、本実施形態の情報処理システム１で実行される名寄せ処理の一例を示すフローチャート図である。

まず、入力部２１は、処理対象ファイルを入力する（ステップＳ１０１）。

続いて、クレンジング部２３は、入力部２１により入力された処理対象ファイルに対し、クレンジング処理を行う（ステップＳ１０３）。

続いて、作成部２５は、インデックス定義データ記憶部１５に記憶されているインデックス定義ファイルを参照して、クレンジング部２３によりクレンジング処理が施された処理対象ファイルのレコードのインデックスを作成する（ステップＳ１０５）。

続いて、絞込み部２７は、作成部２５により作成されたインデックスとインデックスマスタファイルとを比較して、処理対象データとの比較対象となる顧客のレコードを顧客マスタファイル内で絞り込む（ステップＳ１０７）。

続いて、比較部２９は、クレンジング部２３によりクレンジング処理が施された処理対象データを取得する。そして比較部２９は、比較定義データ記憶部１７に記憶されている比較定義ファイルを参照して、当該処理対象データのレコードに含まれる複数の項目のうち２以上の項目それぞれについて、顧客マスタファイル内のレコードのうち絞込み部２７により絞り込まれたレコードの対応する項目との比較を行い、２以上の項目それぞれの比較結果をランク分けする（ステップＳ１０９）。

続いて、判定部３１は、判定定義データ記憶部１９に記憶されている判定定義ファイルを参照して、比較部２９によりランク分けされた処理対象ファイルのレコードに含まれる複数の項目のうち２以上の項目それぞれの比較結果のランクから総合判定ランクを求める。そして判定部３１は、総合判定ランクに基づいて、処理対象データのレコードを名寄せするか否かを判定する（ステップＳ１１１）。

続いて、判定部３１により名寄せすると判定された場合（ステップＳ１１３でＹｅｓ）、名寄せ処理は終了となる。

一方、判定部３１により名寄せしないと判定された場合（ステップＳ１１３でＮｏ）、登録部３３は、判定部３１により名寄せしないと判定されたレコードを顧客マスタファイルに登録し（ステップＳ１１５）、名寄せ処理は終了となる。

以上のように本実施形態によれば、処理対象ファイル内の顧客に関する２以上の項目について、２以上の項目それぞれに応じた比較方法で顧客マスタファイルとの比較を行い、２以上の項目それぞれの比較結果の総合判定結果から、名寄せするか否かを判定するので、名寄せの精度を向上させることができる。

また本実施形態によれば、処理対象ファイル内の顧客に関する所定項目についてインデックスを作成し、作成したインデックスをインデックスマスタファイルと比較することで、処理対象ファイルとの比較対象となる顧客マスタファイルの顧客を絞り込むので、名寄せ処理の処理速度を向上させることができる。

（変形例）
なお、本発明は、上記実施形態に限定されるものではなく、種々の変形が可能である。例えば、上記実施形態において、情報処理システム１が備える構成は、１つの装置内に備えられていてもよいし、複数の装置に分散されて備えられていてもよい。また、情報処理システム１が備える各記憶部が記憶する情報の少なくともいずれかを情報処理システム１内で記憶せず、外部（例えば、クラウド上）に記憶するようにしてもよい。

（ハードウェア構成）
図１８は、本実施形態の情報処理システム１のハードウェア構成の一例を示す図である。本実施形態の各装置は、ＣＰＵなどの制御装置８０１と、ＲＯＭやＲＡＭなどの記憶装置８０２と、ＨＤＤなどの外部記憶装置８０３と、ディスプレイなどの表示装置８０４と、キーボードやマウスなどの入力装置８０５と、通信Ｉ／Ｆ（インタフェース）８０６と、を備えており、通常のコンピュータを利用したハードウェア構成となっている。

本実施形態の情報処理システム１で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、メモリカード、ＤＶＤ（Digital Versatile Disk）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されて提供される。

また、本実施形態の情報処理システム１を、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、本実施形態の情報処理システム１で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。また、本実施形態の情報処理システム１で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するようにしてもよい。

本実施形態の情報処理システム１で実行されるプログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、ＣＰＵがＨＤＤからプログラムをＲＡＭ上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。

１情報処理システム
１１顧客マスタ記憶部
１３インデックスマスタ記憶部
１５インデックス定義データ記憶部
１７比較定義データ記憶部
１９判定定義データ記憶部
２１入力部
２３クレンジング部
２５作成部
２７絞込み部
２９比較部
３１判定部
３３登録部

特許第３７２１３１５号公報

Claims

顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータを記憶する顧客マスタ記憶部と、
前記顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータを記憶するインデックスマスタ記憶部と、
顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が１バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する１以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が２バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成部と、
作成された前記インデックスと前記インデックスマスタデータとを比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込み部と、
前記処理対象データに含まれる複数の項目のうち２以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較部と、
前記２以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定部と、
を備える情報処理システム。
前記項目に応じた比較方法は、項目の分類に応じて定まる請求項１に記載の情報処理システム。
前記項目の分類が名称である場合、前記項目に応じた比較方法は、前記項目の文字列との一致割合を算出する方法であり、
前記項目の分類が名称以外である場合、前記項目に応じた比較方法は、前記項目の文字列との一致の有無を確認する方法である請求項２に記載の情報処理システム。
前記比較部は、前記２以上の項目それぞれの比較結果をランク分けし、
前記判定部は、前記２以上の項目それぞれの比較結果のランクに基づいて、前記処理対象データを名寄せするか否かを判定する請求項１〜３のいずれか１つに記載の情報処理システム。
前記処理対象データを名寄せしないと判定された場合、前記処理対象データの内容を前記顧客マスタデータに登録する登録部を更に備える請求項１〜４のいずれか１つに記載の情報処理システム。
前記絞込み部は、前記インデックスマスタデータが有するインデックスのうち作成された前記インデックスと一致するインデックスの顧客に絞り込む請求項１〜５のいずれか１つに記載の情報処理システム。
作成部が、顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が１バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する１以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が２バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成ステップと、
絞込み部が、作成された前記インデックスと、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータと、を比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込みステップと、
比較部が、前記処理対象データに含まれる複数の項目のうち２以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較ステップと、
判定部が、前記２以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定ステップと、
を含む名寄せ判定方法。
顧客に関する複数の項目を有する処理対象データを取得し、前記処理対象データが有する複数の項目のうちインデックス作成対象の項目の言語が１バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する１以上の単語のうち、最後尾から順番にインデックス数分までの各単語について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成し、前記インデックス作成対象の項目の言語が２バイトで定義される言語である場合、前記インデックス作成対象の項目を構成する文字列のうち、先頭から順番にインデックス数分までの各文字について、先頭の文字から順番にインデックス文字数分の文字列を取得して、前記処理対象データのインデックスを作成する作成ステップと、
作成された前記インデックスと、顧客毎に当該顧客に関する複数の項目を有する顧客マスタデータの顧客毎のインデックスを有するインデックスマスタデータと、を比較して、前記処理対象データとの比較対象となる顧客を前記顧客マスタデータ内で絞り込む絞込みステップと、
前記処理対象データに含まれる複数の項目のうち２以上の項目それぞれについて、当該項目に応じた比較方法で前記顧客マスタデータ内の絞込まれた顧客の対応する項目との比較を行う比較ステップと、
前記２以上の項目それぞれの比較結果に基づいて、前記処理対象データを名寄せするか否かを判定する判定ステップと、
をコンピュータに実行させるためのプログラム。