JP7392840B2

JP7392840B2 - 名称データ対応付け装置、名称データ対応付け方法及びプログラム

Info

Publication number: JP7392840B2
Application number: JP2022518539A
Authority: JP
Inventors: まな美小川; 正崇佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-12-06
Anticipated expiration: 2040-04-30
Also published as: JPWO2021220463A1; WO2021220463A1

Description

この発明の実施形態は、名称データ対応付け装置、名称データ対応付け方法及びプログラムに関する。

データベースを用いた業務には、異なる管理下にあるデータベースを統合し、格納されていた名称データを横並びで使用することで、より多角的・包括的な分析を行うことがある。そのためには、統合するデータベースの間で同一の事柄を表している名称データに対し、同一の識別情報を付与するなどして、名称データを統合する、所謂「名寄せ」という作業が必要になる。

しかしながら、名称データの入力方法は、データベースの管理元に依る。そのため、統合するデータベースの間で同一の事柄を表しているにもかかわらず、その表記が異なるという状況（表記ゆれ）はしばしば存在する。表記ゆれを含むデータベースを統合してしまうと、前述のような分析を行う際に、一つの事柄に関連する情報が表記ゆれを起こした部分だけ不足してしまう事態が発生してしまう。

このような表記ゆれに対処する技術として、特許文献１及び特許文献２は、検索対象の文字列同士の類似度を定量的に計算することで、最も似ている文字列を検索する手法を提案している。また、特許文献３は、ＴＦ－ＩＤＦ（Term Frequency - Inverse Document Frequency）を用いて検索文字列から特徴量を算出することで、一定閾値以上の類似度を持つ文字列と対応付ける手法を提案している。さらに、特許文献４は、検索文字列に対応する測定日時や測定値といった文字列別データを比較することにより文字列同士の対応関係を判定して検索用の辞書を作成することで、正確且つ効率良く同一の事柄を表す文字列を探し出す方法を提案している。

日本国特開２００５－１１０７８号公報日本国特開平８－０６９４７４号公報日本国特開２００６－２４４１０５号公報日本国特開２０１４－２３２３８９号公報

表記のゆれ方には、登録データ名を省略した表記と、使用者同士でのローカルルールに基づく呼び名（通称）による表記と、が存在する。

特許文献１及び２に開示されているような手法は、前者の省略表記のみが表記ゆれとして存在する場合には、ポピュラー且つ有効な手段である。しかしながら、後者の通称表記が混在している状況下では、各通称に対してその通称と文字列的に類似した名称が紐付けられるため、誤った結果を提示する可能性が高い。なぜならば、通称表記は、本来紐付けられるべき名称と著しくかけ離れているケースが多いためである。

また、前者の省略表記のみを扱う場合であっても、特許文献１及び２に開示の手法は、日本語に対して使用されることを想定して作られているので、技術の適用範囲が限定的である。日本語における省略表記の特徴と他言語における特徴は全てが一致するわけではないので、特許文献１及び２に開示の手法が、他言語で入力された名称データに対して問題なく適用可能とは限らないためである。

同様に、特許文献３に開示されているような形態素を用いた手法も、通称に対しては、有効であるとはいえない。なぜならば、前述の理由に加え、ＴＦ－ＩＤＦのような類似度算出手法は、「頻出する単語（形態素）は重要度が低い（高い）」という極めて一般的な思考を元にしている一方で、通称とは、局所的規則によって名付けられているため、形態素による通称の検索は非常に相性が悪いからである。

よって、通称表記に対しては、特許文献４に開示されているような辞書を作成することが最適な手法だと考えられている。しかしながら、この辞書の作成については、特許文献４に開示の手法は、名称データに対応する文字列別データが、統合するデータベース間で対応関係を有していることが前提となっており、そのような対応関係を有していない場合には辞書を作成することができない。よって、統合するデータベース間で文字列別データが対応関係を有していない同義の名称データであっても対応付けすることができる技術が望まれている。

この発明は、統合するデータベース間で表記ゆれが存在する同義の名称データを、名称データに対応する文字列別データがデータベース間で対応関係を有していなくとも、人的稼働を掛けず正確に対応付けることができる技術を提供しようとするものである。

上記課題を解決するために、この発明の一態様に係る名称データ対応付け装置は、複数の名称データ及びそれら名称データの隣接関係を示す隣接情報を保持する第１のデータベースと、複数の名称データ、それら名称データの隣接情報及びそれら名称データが属するパスを表すパス識別情報を保持する第２のデータベースとの間で異なる表記を有する同義の名称データを対応付ける名称データ対応付け装置であって、前記第１のデータベースと前記第２のデータベースとの間で同じ表記である名称データを共通データとして抽出する共通データ抽出部と、前記第２のデータベースが保持する情報に基づいて、前記共通データ抽出部が抽出した前記共通データのうち１つを始点とし、前記第２のデータベースが保持する前記名称データを頂点とする、全てのパスを生成し、それらのパスそれぞれについて、頂点数、含まれる共通データ及びその位置を含むパス情報を抽出するパス情報抽出部と、前記第１のデータベースが保持する情報に基づいて、前記パス情報抽出部が抽出した各パスの前記パス情報に含まれる前記始点の名称データ、前記頂点数、前記含まれる共通データ及び前記位置と一致する全てのパスを生成するパス作成部と、前記パス作成部が生成した各パスから、通過する頂点数がより多く且つ重複する箇所がより少ないパスの組み合わせを抽出し、その抽出された各パスの頂点と前記パス情報抽出部が生成した各パスの頂点とを対応付けることで、前記第１のデータベースが保持する前記名称データと前記第２のデータベースが保持する前記名称データとを対応付ける対応付け部と、を具備し、前記対応付け部は、前記第１のデータベースの前記名称データと前記第２のデータベースの前記名称データとの対応付け結果として複数の結果が得られた場合、各結果における名称データ同士の文字列類似度を計算し、より類似している方の結果を選択する。

この発明の一態様によれば、パス識別情報を保持する第２のデータベースの情報から生成される、第１のデータベースと第２のデータベースとの共通データのうち１つを始点とし、第２のデータベースが保持する名称データを頂点とする全てのパスそれぞれについて、パス情報を抽出し、そのパス情報と同条件のパスを、第１のデータベースが保持する情報から全て生成し、これら生成したパスの中から、通過する頂点数がより多く且つ重複する箇所がより少ないパスの組み合わせを最適なパスとして選択することで、第１のデータベースの名称データと第２のデータベースの名称データとを対応付け、ここで対応付け結果として複数の結果が得られた場合には、各結果における名称データ同士の文字列類似度を計算し、より類似している方の結果を選択するようにしているので、統合するデータベース間で表記ゆれが存在する同義の名称データを、名称データに対応する文字列別データがデータベース間で対応関係を有していなくとも、人的稼働を掛けず正確に対応付けることができる技術を提供することができる。

図１は、この発明の一実施形態に係る名称データ対応付け装置の構成の一例を示すブロック図である。図２は、名称データ対応付け装置のハードウェア構成の一例を示す図である。図３は、基礎データベース記憶部に記憶される基礎データベースが保持する情報の一例を示す図である。図４は、派生データベース記憶部に記憶される派生データベースが保持する情報の一例を示す図である。図５は、名称データ対応付け装置における名称データの対応付けに係わる処理動作の一例を示すフローチャートである。図６は、図５中の基礎ＤＢの閉路グラフからの閉路作成処理の詳細の一例を示すフローチャートである。図７は、図５中の最適組み合わせ抽出処理の詳細の一例を示すフローチャートである。図８は、図５中の名称データ対応付け処理の詳細の一例を示すフローチャートである。図９は、動作例において基礎データベースが保持する情報の一例を示す図である。図１０は、動作例において派生データベースが保持する情報の一例を示す図である。図１１は、動作例においてグラフ作成部によって派生データベースが保持する情報から作成された閉路グラフの一例を示す模式図である。図１２は、動作例においてグラフ作成部によって基礎データベースが保持する情報から作成された閉路グラフの一例を示す模式図である。図１３は、動作例においてパス情報抽出部によって作成された閉路の例を示す模式図である。図１４は、動作例においてスルー頂点抽出のために作成された省略グラフの一例を示す模式図である。図１５Ａは、動作例においてパス作成部によって生成された閉路の一例を示す模式図である。図１５Ｂは、動作例においてパス作成部によって生成された閉路の一例を示す模式図である。図１５Ｃは、動作例においてパス作成部によって生成された閉路の一例を示す模式図である。図１５Ｄは、動作例においてパス作成部によって生成された閉路の一例を示す模式図である。図１５Ｅは、動作例においてパス作成部によって生成された閉路の一例を示す模式図である。図１５Ｆは、動作例においてパス作成部によって生成された閉路の一例を示す模式図である。図１６は、動作例においてパス作成部によって作成されたスルー頂点を始点とした閉路の例を示す模式図である。図１７Ａは、動作例においてパス作成部によって結合された閉路の一例を示す模式図である。図１７Ｂは、動作例においてパス作成部によって結合された閉路の一例を示す模式図である。図１８は、対応付け結果に基づく閉路グラフの一例を示す模式図である。図１９は、動作例において出力情報記憶部に記憶される出力情報の一例を示す図である。

以下、図面を参照して、この発明に係わる実施形態を説明する。

本実施形態において、複数のデータベースは、異なる表記を有する同義の名称データを保持しており、これらデータベースで名称データを対応付けしたいデータカラムは、既知であるとする。各データカラムは、名称データと、例えば測定値や測定日時、売上日時や売上金額、などといった、名称データに対応する文字列別データを含むことができる。また、各データベースは、名称データの隣接関係を示す論理的あるいは物理的な隣接情報を保持していることを想定する。ここで、名称データの隣接関係を示す隣接情報とは、例えば、人脈（人物Ａと人物Ｂが知り合いである）や、ネットワーク上の接続関係（ビルＡとビルＢがケーブルによって接続されている）といった、データ同士の繋がり方の情報を指す。また、各データベース内の名称データ間には、ネットワーク上の接続関係があるとする。具体的には、各データベースに「上位ビル」「下位ビル」という名前のカラムがあり、「上位ビル」に格納された名称データと「下位ビル」に格納された名称データは、あるネットワーク上で隣接していることを表す。加えて、複数のデータベースのうち少なくとも１つには、隣接情報に加えて、名称データが属するパスを表すパス識別情報が追加されていると想定する。

（構成例）
図１は、この発明の一実施形態に係る名称データ対応付け装置の構成の一例を示すブロック図である。なお、この発明は、名称データを対応付けするデータベースの個数に制限は特にないが、本一実施形態では、説明の簡単化のため、対象とするデータベースは２つであるとしている。

名称データ対応付け装置は、基礎データベース（図では、データベースをＤＢと略記する。）１、派生データベース２、グラフ作成部３、共通データ抽出部４、パス情報抽出部５、スルー頂点抽出部６、パス作成部７、対応付け部８及びデータ出力部９を有する。

基礎データベース１は、複数の名称データと、それら名称データの隣接関係を示す隣接情報と、を保持する第１のデータベースである。また、派生データベース２は、複数の名称データと、それら名称データの隣接情報と、それら名称データが属するパスを表すパス識別情報と、を保持する第２のデータベースである。

グラフ作成部３は、基礎データベース１及び派生データベース２が保持する情報に基づいて、名称データを頂点とする無向グラフを作成する。

共通データ抽出部４は、基礎データベース１と派生データベース２との間で同じ表記である名称データを、共通データとして抽出する。

パス情報抽出部５は、派生データベース２が保持する情報に基づいて、共通データ抽出部４が抽出した共通データのうち１つを始点とし、派生データベース２が保持する名称データを頂点とする、全てのパスを生成し、それらのパスそれぞれについて、頂点数、含まれる共通データ及びその位置を含むパス情報を抽出する。例えば、パス情報抽出部５は、グラフ作成部３が作成した無向グラフと派生データベース２が保持するパス識別情報とに基づいて、パス情報を抽出することができる。

スルー頂点抽出部６は、グラフ作成部３が作成した無向グラフの頂点の中からスルー頂点を抽出する。スルー頂点とは、無向グラフにおいて、そこを２度通るが、辺は少なくとも１度しか通らないような頂点を指す。

パス作成部７は、基礎データベース１が保持する情報に基づいて、パス情報抽出部５が抽出した各パスのパス情報に含まれる始点の名称データ、頂点数、含まれる共通データ及び位置と一致する全てのパスを生成する。例えば、パス作成部７は、グラフ作成部３が作成した無向グラフに基づいて、パスを生成することができる。さらに、パス作成部７は、生成したパスからスルー頂点を始点とするパスを作成して、両方のパスを結合する。

対応付け部８は、パス作成部７が生成して結合した各パスから、通過する頂点数がより多く且つ重複する箇所がより少ないパスの組み合わせを抽出し、その抽出された各パスの頂点とパス情報抽出部５が生成した各パスの頂点とを対応付けることで、基礎データベース１が保持する名称データと派生データベース２が保持する名称データとを対応付ける。

データ出力部９は、対応付け部８での対応付けの結果に基づいて、出力情報を生成し、それを出力する。例えば、データ出力部９は、対応付け部８での対応付けの結果に基づいて、名称データの対応関係を表す対応表を、出力情報として生成することができる。また、データ出力部９は、対応付け部８での対応付けの結果に基づいて基礎データベース１が保持している情報について名称データを変換して、新たなデータベースを作成し、これを出力情報とするようにしても良い。あるいは、データ出力部９は、対応付け部８での対応付けの結果に基づいて基礎データベース１及び派生データベース２が保持している情報を統合して、新たなデータベースを作成し、これを出力情報とするようにしても良い。

以下、説明の簡単化のために、パスは、始点と終点が同一の頂点である閉路であると想定して説明する。

この場合、グラフ作成部３は、無向グラフとして閉路グラフを作成する閉路グラフ作成部となる。すなわち、グラフ作成部３は、基礎データベース１及び派生データベース２が保持する隣接情報に基づいて、名称データを頂点とする閉路グラフを作成する。

パス情報抽出部５は、パスとして閉路を生成し、パス情報として閉路情報を生成する閉路情報抽出部となる。すなわち、パス情報抽出部５は、グラフ作成部３が作成した閉路グラフと派生データベース２が保持するパス識別情報である閉路識別情報とに基づいて、共通データのうち１つを始点且つ終点とし、派生データベース２が保持する名称データを頂点とする、全ての閉路を生成し、その生成した全ての閉路それぞれについて、頂点数、含まれる共通データ及び位置を含む閉路情報を抽出する。

パス作成部７は、パスとして閉路を生成する閉路作成部となる。すなわち、パス作成部７は、グラフ作成部３が作成した閉路グラフに基づいて、パス情報抽出部５が抽出した各閉路の閉路情報に含まれる始点且つ終点の名称データ、頂点数、含まれる共通データ及び位置が一致する全ての閉路を生成する。

対応付け部８は、パス作成部７が生成した各閉路から、通過する頂点数がより多く且つ重複する箇所がより少ない閉路の組み合わせを抽出し、その抽出された各閉路の頂点とパス情報抽出部５が生成した各閉路の頂点とを対応付けることで、基礎データベース１が保持する名称データと派生データベース２が保持する名称データとを対応付ける。

図２は、名称データ対応付け装置のハードウェア構成の一例を示す図である。

名称データ対応付け装置は、図２に示すように、例えばサーバコンピュータ（Server computer）やパーソナルコンピュータ（Personal computer）などのコンピュータにより構成され、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサ１０１を有する。そして、名称データ対応付け装置では、このプロセッサ１０１に対し、プログラムメモリ１０２と、データメモリ１０３と、通信インタフェース１０４と、入出力インタフェース（図２では入出力ＩＦと記す）１０５とが、バス１０６を介して接続される。

通信インタフェース１０４は、例えば一つ以上の有線または無線の通信モジュールを含むことができる。通信インタフェース１０４は、基礎データベース１及び／または派生データベース２が、ＬＡＮ（Local Area Network）やインターネットなどのネットワークを介して接続されるデータサーバなどに構成される場合には、そのデータサーバなどとの間で通信を行い、それらデータサーバからデータを取得することができる。また、通信インタフェース１０４は、外部のデータ処理装置などと通信して、そのデータ処理装置からの要求を受信したり、その要求に応じたデータ処理結果をデータ処理装置に返信したりすることもできる。

入出力インタフェース１０５には、入力部１０７及び表示部１０８が接続されている。入力部１０７及び表示部１０８は、例えば液晶または有機ＥＬ（Electro Luminescence）を使用した表示デバイスの表示画面上に、静電方式または圧力方式を採用した入力検知シートを配置した、いわゆるタブレット型の入力・表示デバイスを用いたものが用いられることができる。なお、入力部１０７及び表示部１０８は独立するデバイスにより構成されてもよい。入出力インタフェース１０５は、上記入力部１０７において入力された操作情報をプロセッサ１０１に入力すると共に、プロセッサ１０１で生成された表示情報を表示部１０８に表示させる。

なお、入力部１０７及び表示部１０８は、入出力インタフェース１０５に接続されていなくてもよい。入力部１０７及び表示部１０８は、通信インタフェース１０４と直接またはネットワークを介して接続するための通信ユニットを備えることで、プロセッサ１０１との間で情報の授受を行い得る。

また、入出力インタフェース１０５は、フラッシュメモリなどの半導体メモリといった記録媒体のリード／ライト機能を有しても良いし、あるいは、そのような記録媒体のリード／ライト機能を持ったリーダライタとの接続機能を有しても良い。これにより、名称データ対応付け装置に対して着脱自在な記録媒体を、名称データを保持するデータベースとすることができる。入出力インタフェース１０５は、さらに、他の機器との接続機能を有して良い。

プログラムメモリ１０２は、非一時的な有形のコンピュータ可読記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込み及び読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリとが組合せて使用されたものである。このプログラムメモリ１０２には、プロセッサ１０１が一実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。すなわち、上記のグラフ作成部３、共通データ抽出部４、パス情報抽出部５、スルー頂点抽出部６、パス作成部７、対応付け部８及びデータ出力部９の各部における処理機能部は、いずれも、プログラムメモリ１０２に格納されたプログラムを上記プロセッサ１０１により読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路（ＡＳＩＣ：Application Specific Integrated Circuit）またはＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式によって実現されても良い。

データメモリ１０３は、有形のコンピュータ可読記憶媒体として、例えば、上記の不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとが組合せて使用されたものである。このデータメモリ１０３は、各種処理が行われる過程で取得及び作成された各種データが記憶されるために用いられる。すなわち、データメモリ１０３には、各種処理が行われる過程で、適宜、各種データを記憶するための領域が確保される。そのような領域として、データメモリ１０３には、例えば、基礎データベース記憶部１０３１、派生データベース記憶部１０３２、一時記憶部１０３３及び出力情報記憶部１０３４を設けることができる。

基礎データベース記憶部１０３１は、基礎データベース１の情報を記憶し、派生データベース記憶部１０３２は、派生データベース２の情報を記憶する。すなわち、基礎データベース１及び派生データベース２が、この基礎データベース記憶部１０３１及び派生データベース記憶部１０３２に構成されることができる。

図３は、基礎データベース記憶部１０３１に記憶される基礎データベース１が保持する情報の一例を示す図であり、図４は、派生データベース記憶部１０３２に記憶される派生データベース２が保持する情報の一例を示す図である。ここでは、名称データがビルの名称である例を示す。基礎データベース記憶部１０３１に記憶される基礎データベース１では、上位ビルと下位ビルは、隣接関係にある。派生データベース記憶部１０３２に記憶される派生データベース２では、同一の閉路識別子（図では、識別子をＩＤと略記する）を持つビルの組み合わせが、１つの閉路（新宿ビル→南新宿ビル→外苑ビル→四ツ谷ビル→新宿ビル）を構成している。以降、派生データベース２にあるビル名をｃ_i（ｉ∈｛１，２，…，ｎ｝）で表し、基礎データベース１にあるビル名をｄ_j（ｊ∈｛１，２，…，ｍ｝）で表す。ここで、ｎ及びｍは、それぞれのデータベースにおけるビル名数である。

これら基礎データベース記憶部１０３１及び派生データベース記憶部１０３２に記憶される情報は、例えば、プロセッサ１０１が入出力インタフェース１０５を介して受け取った、入力部１０７から入力された基礎データベース１及び派生データベース２の情報とすることができる。すなわち、基礎データベース１及び派生データベース２が、データメモリ１０３に構築されることができる。また、外部のデータサーバに構築された基礎データベース１及び派生データベース２が保持する情報の全部または一部を、基礎データベース記憶部１０３１及び派生データベース記憶部１０３２に記憶させるようにしても良い。この場合は、例えば、プロセッサ１０１は、入力部１０７からのユーザ操作による指示に応じて、データベースサーバに蓄積された情報を通信インタフェース１０４を介して取得して、それらを記憶部１０３１、１０３２に記憶させる。あるいは、プロセッサ１０１は、記録媒体に記録された情報を、入出力インタフェース１０５を介して取得しても良い。また、プロセッサ１０１は、外部のデータ処理装置などから基礎データベース１及び派生データベース２の情報と名称データの対応付け要求とを通信インタフェース１０４を介して受信して、それら受信したデータベースの情報を、処理対象の情報として記憶部１０３１、１０３２に記憶させるようにしても良い。

一時記憶部１０３３は、プロセッサ１０１が、上記グラフ作成部３としての動作を実施した際に作成する無向グラフ、上記共通データ抽出部４としての動作を実施した際に抽出した共通データ、上記パス情報抽出部５としての動作を実施した際に作成した全ての閉路及びそれらの閉路それぞれについて抽出した閉路情報、上記パス作成部７としての動作を実施した際に生成した閉路、上記対応付け部８としての動作を実施した際に得られる名称データの対応付け結果、などを記憶する。

出力情報記憶部１０３４は、プロセッサ１０１が上記データ出力部９としての動作を実施した際に得られる出力情報を記憶する。

（動作）
次に、名称データ対応付け装置の動作を説明する。

図５は、名称データ対応付け装置における名称データの対応付けに係わる処理動作の一例を示すフローチャートである。ここでは、すでに、基礎データベース記憶部１０３１には基礎データベース１の情報が記憶され、派生データベース記憶部１０３２には派生データベース２の情報が記憶されているものとする。入出力インタフェース１０５を介して入力部１０７から、あるいは、通信インタフェース１０４を介して外部のデータ処理装置から、名称データの対応付けの実施を指示されると、名称データ対応付け装置のプロセッサ１０１は、このフローチャートに示す動作を開始する。

まず、プロセッサ１０１は、グラフ作成部３としての動作を実行する。すなわち、プロセッサ１０１は、基礎データベース記憶部１０３１に記憶された基礎データベース１の情報と派生データベース記憶部１０３２に記憶された派生データベース２の情報のそれぞれについて、隣接情報を使用して、名称データを頂点とする閉路グラフＧ_c及びＧ_dを生成する（ステップＳ１）。生成された閉路グラフＧ_c及びＧ_dは、データメモリ１０３の一時記憶部１０３３に記憶される。

ｃ_i及びｄ_jをそれぞれ頂点とし、隣接関係にある頂点同士は辺で結ばれていると解釈すると、以下のように、無向グラフである閉路グラフＧ_c及びＧ_dが構築できる。

Ｅ_c：派生データベース２の隣接情報から得られる辺の集合
ｇ_c：Ｅ_c→Ｐ（Ｖ_c）Ｅ_cの元に頂点集合Ｖ_cの部分集合を対応させる写像。ただし、Ｐ（Ｖ_c）はＶ_cの冪集合である
Ｇ_c :＝（ｇ_c，Ｖ_c，Ｅ_c）

Ｅ_d：基礎データベース１の隣接情報から得られる辺の集合
ｇ_d：Ｅ_d→Ｐ（Ｖ_d）Ｅ_dの元に頂点集合Ｖ_dの部分集合を対応させる写像。ただし、Ｐ（Ｖ_d）はＶ_dの冪集合である
Ｇ_d :＝（ｇ_d，Ｖ_d，Ｅ_d）

また、プロセッサ１０１は、パス情報抽出部５としての動作を実行する。すなわち、プロセッサ１０１は、共通する名称データに基づいて、派生データベース２の閉路グラフＧ_cから閉路Γ_k（ｋ∈｛１，２，…，Ｋ｝、Ｋは閉路グラフＧ_c内の閉路の総数）を生成し、それら生成した閉路Γ_kそれぞれについて閉路情報を抽出する（ステップＳ２）。生成された閉路Γ_k及び抽出された閉路情報は、データメモリ１０３の一時記憶部１０３３に記憶される。

ここで、閉路Γ_kとは、閉路グラフＧ_cの部分グラフであり、始点と終点が同一頂点であるようなパスを指す。すなわち、閉路Γ_kは、閉路グラフＧ_cにおける頂点ｓ_k∈Ｖ_cを始点とする閉路である。
Γ_k［l］： Γ_kを構成する頂点のうちｌ番目の頂点（第ｌ要素）
｜Γ_k｜：ベクトルΓ_kの長さ（Γ_kを構成する頂点の個数）
Γ_k＝（ｓ_k，…，ｓ_k）
（Γ_k［l］，Γ_k［l+1］）∈Ｅ_c
ｌ∈｛１，２，…，｜Γ_k｜｝

閉路グラフＧ_cに対し閉路はいくつあっても良いとするが、いずれの閉路も、以下の３条件を満たすとする。
１．全てのｓ_kに対してｓ_k＝ｄ_jを満たすｄ_j∈Ｖ_dが存在する。
２．閉路を構成する全ての辺は、Ｅ_cに存在する。
３．∀ｃ_i∈Ｖ_cは、いずれかの閉路に所属している。

次に、名称データ対応付け装置のプロセッサ１０１は、スルー頂点抽出部６としての動作を実行する。すなわち、プロセッサ１０１は、データメモリ１０３の一時記憶部１０３３に記憶された基礎データベース１の閉路グラフＧ_dの頂点の中からスルー頂点候補Ｖ_tを抽出する（ステップＳ３）。抽出されたスルー頂点候補Ｖ_tは、データメモリ１０３の一時記憶部１０３３に記憶される。

閉路グラフＧ_cにおいて同一の頂点を２度通るが、辺は少なくとも１度しか通らない閉路が存在すると想定する。ただし、派生データベース２における閉路情報は、１度通った頂点は省略するため、どの頂点が複数回使用されたかは判らないとする。スルー頂点は、この２度通る頂点を指す。プロセッサ１０１は、閉路グラフＧ_dの頂点Ｖ_dからスルー頂点候補Ｖ_tを選択する。

閉路グラフＧ_dにおいて、スルー頂点Ｖ_tは、少なくとも次数が４以上である必要がある。なぜならば、パスの経路は同一の辺を２度通らないので、スルー頂点に入る辺と出る辺が重複せずにそれぞれ２本ずつ必要であるからである。

一方で、閉路グラフＧ_dで次数４以上の頂点すべてを候補にすると、候補数が膨大になり得るので、頂点の絞り込みを行う。まず、閉路グラフＧ_dで次数が２の頂点を省略する。具体的には、次数が２の頂点を取り除き、その頂点の両端辺を１つの辺にまとめる。この操作で得られるグラフを、以下、省略グラフと称する。

プロセッサ１０１は、この省略グラフにおいて、次の２条件のいずれか１つを満たす頂点集合を、スルー頂点候補Ｖ_tとして抽出する。
条件１：自己ループを持つ
条件２：頂点を省略してできた辺が２本以上接続されており、次数が４以上

次に、名称データ対応付け装置のプロセッサ１０１は、共通データ抽出部４としての動作を実行する。すなわち、プロセッサ１０１は、基礎データベース記憶部１０３１に記憶された基礎データベース１の情報と派生データベース記憶部１０３２に記憶された派生データベース２の情報とで、共通する名称データを抽出する（ステップＳ４）。抽出され共通する名称データは、データメモリ１０３の一時記憶部１０３３に記憶される。

ここで、ステップＳ４で抽出された、Ｖ_cとＶ_dで同一表記であるようなビル名の集合をＳ :＝｛ｃ_i∈Ｖ_c｜∃ｄ_j∈Ｖ_d s.t. ｃ_i＝ｄ_j｝とする。名称データ対応付け装置は、この集合Ｓの要素ではない各ｃ_i，ｄ_jに対し、以下のようにして、閉路グラフＧ_c及びＧ_dを用いた対応付けを行う。ここで、閉路グラフＧ_cにおける頂点ｓ_kを始点とする閉路Γ_kを構成する頂点のうち、集合Ｓに含まれる頂点のインデックス集合をＩ_kとし、以下で定義する。
Ｉ_k :＝｛ｘ｜Γ_k［ｘ］∈Ｓ，Γ_k［ｘ］≠ｓ_k｝

次に、プロセッサ１０１は、パス作成部７としての動作を実行する。すなわち、プロセッサ１０１は、抽出された閉路情報に基づいて、基礎データベース１の閉路グラフＧ_dから閉路集合を作成する、基礎ＤＢの閉路グラフからの閉路作成処理を実行する（ステップＳ５）。

図６は、上記ステップＳ５で実行される基礎ＤＢの閉路グラフからの閉路作成処理の詳細の一例を示すフローチャートである。

この基礎ＤＢの閉路グラフからの閉路作成処理において、プロセッサ１０１は、まず、閉路グラフＧ_dにおいて始点が、閉路グラフＧ_cにおける頂点ｓ_kであるような閉路をすべて作成する（ステップＳ５０１）。ただし、原則として同じ頂点及び辺を２回通ることはないが、次数が１である頂点（接合する辺が１本である頂点）が存在する場合には、接続辺を２度通る閉路を許容する。作成された閉路α_iの集合をＡ_kと表記する。作成された閉路α_iは、データメモリ１０３の一時記憶部１０３３に記憶される。

次に、プロセッサ１０１は、上記ステップＳ５０１において作成した各閉路α_i∈Ａ_k（ｉ∈｛１，２，…，｜Ａ_k｜｝）において、閉路α_iを構成する頂点にスルー頂点候補Ｖ_tの要素ｖ_k∈Ｖ_tが含まれているか否か判断する（ステップＳ５０２）。なお、｜Ａ_k｜は、閉路集合Ａ_kの要素数である。ここで、閉路α_iを構成する頂点にスルー頂点候補要素ｖ_kが含まれていないと判断した場合（ステップＳ５０２のＮＯ）には、プロセッサ１０１は、後述するステップＳ５０６の処理へ進む。

これに対して、閉路α_iを構成する頂点にスルー頂点候補要素ｖ_kが含まれていると判断した場合（ステップＳ５０２のＹＥＳ）には、プロセッサ１０１は、そのスルー頂点候補要素ｖ_kを始点とする閉路を作成する（ステップＳ５０３）。ただし、作成される閉路は、
条件１：次数が１である頂点を除き、同じ頂点及び辺は２回以上通らない
条件２：始点ｓ_kを通過しない
を満たす必要がある。ここで、作成された閉路の集合をＢ_iと表記する。作成された閉路は、データメモリ１０３の一時記憶部１０３３に記憶される。

次に、プロセッサ１０１は、スルー頂点候補要素ｖ_kが重複しないように、閉路α_iと上記ステップＳ５０３で得られた閉路集合Ｂ_iの各閉路ｂ_jとを結合する（ステップＳ５０４）。結合された閉路は、データメモリ１０３の一時記憶部１０３３に記憶される。ここで、以下のように、閉路α_iにおいて頂点候補要素ｖ_kが出現するインデックスをＩ_jとする。
α_i［Ｉ_j］＝ｖ_k

プロセッサ１０１は、各閉路ｂ_j∈Ｂ_i，j∈｛１，２，…，｜Ｂ_i｜｝において、始点と終点が頂点候補要素ｖ_kであり、同じ頂点は２度表示しないことから頂点候補要素ｖ_kが重複しないように以下の結合した閉路ｂ_j1'～ｂ_j4'を得る。
ｂ_j1'＝α_i［１：Ｉ_j－１］＋ｂ_j［２：］＋α_i［Ｉ_j＋１：］
ｂ_j2'＝α_i［１：Ｉ_j－１］＋ｒｅｖ（ｂ_j）［２：］＋α_i［Ｉ_j＋１：］
ｂ_j3'＝rev（ｂ_j1'）
ｂ_j4'＝rev（ｂ_j2'）
ここで、＋はパスを結合させる演算子、ｒｅｖ（ｂ'）はパスｂ'を逆順にする関数である。また、α_i［ｘ：ｙ］及びα_i［ｘ：］は、
α_i［ｘ：ｙ］＝α_iの第ｘ要素から第ｙ要素までの配列（ｘ≦ｙ）
α_i［ｘ：］＝α_iの第ｘ要素から第｜α_i｜要素までの配列（｜α_i｜：α_iの要素数）
である。

プロセッサ１０１は、上記ステップＳ５０４で得られた閉路ｂ_j1'～ｂ_j4'のうち、同一の頂点及び辺を２度通らない閉路を選択して、閉路集合Ａ_kに追加する（ステップＳ５０５）。

そして、プロセッサ１０１は、上記ステップＳ５０１で作成した閉路α_iの全てに対して上記ステップＳ５０２乃至ステップＳ５０５の処理を行ったか否か判断する（ステップＳ５０６）。ここで、未だ処理していない閉路が存在する場合（ステップＳ５０６のＮＯ）には、プロセッサ１０１は、未処理の閉路について上記ステップＳ５０２の処理から繰り返す。

これに対して、未処理の閉路がない場合（ステップＳ５０６のＹＥＳ）には、プロセッサ１０１は、閉路集合Ａ_kの要素である各閉路α_iで以下の２条件を見たす閉路を抽出し、その抽出した閉路の集合をＡ_k'とする（ステップＳ５０７）。
条件１： |α_i|＝｜Γ_k｜
条件２： α_i［ｘ］＝Γ_k［ｘ］ｘ∈Ｉ_k
そして、プロセッサ１０１は、この基礎ＤＢの閉路グラフからの閉路作成処理を終了して、上位のルーチンに戻る。

プロセッサ１０１は、対応付け部８としての動作を実行する。すなわち、プロセッサ１０１は、上記ステップＳ５で作成された閉路集合Ａ_k'の中から、通過する頂点数がより多く且つ重複する箇所がより少ない組み合わせを最適組み合わせとして抽出する、最適組み合わせ抽出処理を実行する（ステップＳ６）。

図７は、上記ステップＳ６で実行される最適組み合わせ抽出処理の詳細の一例を示すフローチャートである。

この最適組み合わせ抽出処理において、プロセッサ１０１は、まず、作成された閉路集合Ａ_k'において閉路が１つであるか否か判断する（ステップＳ６０１）。作成された閉路集合Ａ_k'が複数の閉路を含むと判断した場合（ステップＳ６０１のＮＯ）には、プロセッサ１０１は、重複する箇所を以下のようにして算出する。

まず、プロセッサ１０１は、算出すべき個数分の閉路を選択する（ステップＳ６０２）。すなわち、プロセッサ１０１は、上記ステップＳ５で作成された閉路集合Ａ_k'から、始点ｓ_kを持つ閉路の個数分、閉路を任意に選択する。例えば、始点ｓ_kを持つ閉路が２つならば、異なる閉路集合Ａ_k'から２つの閉路を選択する。プロセッサ１０１は、選択された閉路の集合を、cycle setとして、データメモリ１０３の一時記憶部１０３３に記憶する。

集合cycle setが通る頂点数unionを、以下のように定義する。プロセッサ１０１は、この頂点数unionを求め、データメモリ１０３の一時記憶部１０３３に記憶する（ステップＳ６０３）。
union :＝｜｛∪_iα_i │α_i∈cycle set｝｜
ただし、∪_iα_iは、閉路α_iを構成する頂点ｄ_lの集合のｉについての和集合を表す。
α_i :＝｛ｄ_l ｜ｄ_l∈α_i，α_i∈cycle set｝
∪_iα_i :＝∪_i｛ｄ_l ｜ｄ_l∈α_i，α_i∈cycle set｝

次に、プロセッサ１０１は、以下のようにして、集合cycle set間で重複する頂点数insertを定義する。
まず、プロセッサ１０１は、初期値として、集合cycle setから異なる２つの閉路α_i及びα_jを選択する（ステップＳ６０４）。
α_i，αj∈cycle set

次に、プロセッサ１０１は、閉路α_i及びα_jが共に通過する頂点集合をshared vertexとして求め、これをデータメモリ１０３の一時記憶部１０３３に記憶する（ステップＳ６０５）。
shared vertex :＝α_i∩α_j
α_i∩α_j :＝｛ｄ_l ｜ｄ_l∈α_i，ｄ_l∈α_j｝

次に、プロセッサ１０１は、その頂点集合shared vertexの要素数が１以下であるか判断する（ステップＳ６０６）。

頂点集合shared vertexの要素数が１以下でないと判断した場合（ステップＳ６０６のＮＯ）は、プロセッサ１０１は、頂点集合shared vertexから任意の２頂点a_point及びz_pointを選択し、このとき、それら２頂点a_point及びz_pointを繋ぐパスは、閉路α_i及びα_jのそれぞれに２通り存在するので、以下のように４本のパスｐを作成する（ステップＳ６０７）。プロセッサ１０１は、選択された２頂点a_point及びz_pointと作成した４本のパスｐを、データメモリ１０３の一時記憶部１０３３に記憶する。
∃ｘ_ai，ｘ_zi s.t. α_i［ｘ_ai］＝a_point， α_i［ｘ_zi］＝z_point
∃ｘ_aj，ｘ_zj s.t. α_j［ｘ_aj］＝a_point， α_j［ｘ_zj］＝z_point
ｐ_i1 :＝α_i［ｘ_ai: ｘ_zi］
ｐ_i2 :＝α_i［ｘ_zi: ｘ_ai］
ｐ_j1 :＝α_j［ｘ_aj: ｘ_zj］
ｐ_j2 :＝α_j［ｘ_zj: ｘ_aj］
ただし、α_l［ｘ:ｙ］は以下の通りである。ここで、ｌ∈｛ｉ，ｊ｝である。

なお、ｘ＞ｙの場合に、第２要素からの配列を結合するのは、各α_lにおいて第１要素と最後の要素は重複しているからである。

次に、プロセッサ１０１は、上記ステップＳ６０７で作成した４本のパスｐについて、頂点集合shared vertexに含まれる頂点を全て通過する組み合わせのうち、頂点数が最小となるようなパスｐのインデックスinsert_x，insert_yを求め、それに基づいて、２本のパスを結合して、新たな閉路insert cycle_ijを作成する（ステップＳ６０８）。プロセッサ１０１は、作成した新たな閉路insert cycle_ijを、データメモリ１０３の一時記憶部１０３３に記憶する。
insert_x，insert_y＝argmin_x,y｛｜ｐ_x∪ｐ_y｜｜shared vertex⊆ｐ_x∩ｐ_y∩ｓ_k｝，ｘ，ｙ∈｛ｉ1，ｉ2，ｊ1，ｊ2｝
insert cycle_ij :＝ｐ_{insert_x}＋ｐ_{insert_y}
ｐ_{insert_x}＋ｐ_{insert_y}：ｐ_{insert_x}とｐ_{insert_y}の第２要素以降の部分を結合させた配列

また、上記ステップＳ６０６において、頂点集合shared vertexの要素数が１以下であると判断した場合（ステップＳ６０６のＹＥＳ）には、プロセッサ１０１は、空である新たな閉路insert cycle_ijを生成して、データメモリ１０３の一時記憶部１０３３に記憶する（ステップＳ６０９）。

こうして、上記ステップＳ６０８または上記ステップＳ６０９で新たな閉路insert cycle_ijを生成したならば、プロセッサ１０１は、上記ステップＳ６０２で選択した閉路の集合cycle setの全ての要素を選択して処理したか判断する（ステップＳ６１０）。

未だ全ての要素を処理していないと判断した場合（ステップＳ６１０のＮＯ）には、プロセッサ１０１は、上記ステップＳ６０４の処理に戻り、集合cycle setの要素でα_i及びα_j以外の閉路を２つ新たに選択して、上記ステップＳ６０５乃至ステップＳ６０９の処理を繰り返す。ただし、未選択の要素が残り１つのみの場合には、上記ステップＳ６０４において、プロセッサ１０１は、ステップＳ６０８またはステップＳ６０９で生成した閉路insert cycle_ijと未選択の閉路を選択して、上記ステップＳ６０５乃至ステップＳ６０９の処理を繰り返す。

こうして、閉路の集合cycle setの全ての要素について処理が行われると、上記ステップＳ６１０で集合cycle setの全ての要素を選択して処理したと判断される。この場合（ステップＳ６１０のＹＥＳ）には、プロセッサ１０１は、得られた閉路insert cycle_ijについて、頂点数insertを、以下の定義に従い計算し、その結果をデータメモリ１０３の一時記憶部１０３３に記憶する（ステップＳ６１１）。
insert cycle_ijが１つである場合は、
insert :＝｜insert cycle_ij｜
であり、insert cycle_ijが複数ある場合は、
insert :＝｜∪_ijinsert cycle_ij｜
である。ただし、∪_ijinsert cycle_ijは、閉路insert cycle_ijを構成する頂点集合のｉｊについての和集合である。

そして、プロセッサ１０１は、閉路の集合cycle setに関する評価値scoreを、集合cycle setが通る頂点数unionと閉路insert cycle_ijについての頂点数insertとより、
score :＝union－insert
として得、得られた評価値scoreをデータメモリ１０３の一時記憶部１０３３に記憶する（ステップＳ６１２）。

その後、プロセッサ１０１は、上記ステップＳ５で作成された閉路集合Ａ_k'の全ての閉路について処理したか判断する（ステップＳ６１３）。そして、未だ全ての閉路について処理していないと判断した場合（ステップＳ６１３のＮＯ）には、プロセッサ１０１は、上記ステップＳ６０２の処理に戻り、算出すべき個数分の未処理の閉路を選択して、上記ステップＳ６０３乃至ステップＳ６１２の処理を繰り返す。

そして、作成された閉路集合Ａ_k'の閉路の全てについての処理が行われると、プロセッサ１０１は、ステップＳ６１３において、閉路の全てについて処理したと判断する（ステップＳ６１３のＹＥＳ）。この場合、プロセッサ１０１は、データメモリ１０３の一時記憶部１０３３に記憶している全ての評価値scoreを参照して、全ての閉路の集合cycle setの中で最大の評価値scoreを示すcycle setを、最適な閉路の組み合わせとして選択する（ステップＳ６１４）。選択される最適な閉路の組み合わせは、最大の評価値scoreを示すcycle setが１つの場合は１つの閉路であり、最大の評価値scoreを示すcycle setが複数ある場合には複数の閉路の組み合わせとなる。プロセッサ１０１は、選択した最適な閉路の組み合わせを、抽出された最適組み合わせとして、データメモリ１０３の一時記憶部１０３３に記憶する。そして、プロセッサ１０１は、この最適組み合わせ抽出処理を終了する。

また、上記ステップＳ６０１において、作成された閉路集合Ａ_k'が１つの閉路のみを含むと判断した場合（ステップＳ６０１のＹＥＳ）には、プロセッサ１０１は、その閉路集合Ａ_k'の閉路Ａを、最適な閉路の組み合わせとして選択する（ステップＳ６１５）。そして、プロセッサ１０１は、この最適組み合わせ抽出処理を終了する。

こうして、最適組み合わせ抽出処理を終了したならば、プロセッサ１０１は、最適組み合わせ抽出処理によって抽出された最適組み合わせに従って、基礎データベース１の名称データと派生データベース２の名称データとを対応付ける、名称データ対応付け処理を実行する（ステップＳ７）。

図８は、上記ステップＳ７で実行される名称データ対応付け処理の詳細の一例を示すフローチャートである。

すなわち、プロセッサ１０１は、最適組み合わせ抽出処理によって抽出された閉路の組み合わせ（１つの閉路のみの場合を含む）と、上記ステップＳ２で派生データベース２の閉路グラフＧ_cから生成した閉路Γ_kと、を照らし合わせることで、名称データの対応付けを得る（ステップＳ７０１）。プロセッサ１０１は、対応付け結果を、データメモリ１０３の一時記憶部１０３３に記憶する。

ここで、上記ステップＳ６の最適組み合わせ抽出処理によって抽出された候補の閉路の組み合わせ（または閉路）が複数ある場合は、複数の名称の組み合わせが得られてしまう。そこで、プロセッサ１０１は、候補の閉路と閉路Γ_kとを照らし合わせることでできる名称の組み合わせ同士の文字列類似度をそれぞれ計算し、その総和が最も小さくなる組み合わせを選択する。

すなわち、プロセッサ１０１は、名称の組み合わせが複数有るか否かを判断する（ステップＳ７０２）。ここで、名称の組み合わせが１つだけである場合（ステップＳ７０２のＮＯ）には、プロセッサ１０１は、この名称データ対応付け処理を終了する。

これに対して、名称の組み合わせが複数有る場合（ステップＳ７０２のＹＥＳ）には、プロセッサ１０１は、名称の組み合わせ同士の文字列類似度をそれぞれ計算する（ステップＳ７０３）。この文字列類似度としては、これに限定しないが、例えば、D. Gusfield. "Algorithms on strings, trees and sequences: computer science and computational biology." Cambridge university press, 1998.に開示されているような、編集距離を採用することができる。

プロセッサ１０１は、この計算した名称の組み合わせ同士の文字列類似度の総和が最も小さくなる組み合わせを、名称データの対応付け結果として選択して、データメモリ１０３の一時記憶部１０３３に記憶する（ステップＳ７０４）。そして、プロセッサ１０１は、この名称データ対応付け処理を終了する。

こうして名称データ対応付け処理を終了したならば、プロセッサ１０１は、上記ステップＳ２において派生データベース２の閉路グラフＧ_cから生成した閉路Γ_k（ｋ＝｛１，２，…，Ｋ}）の全てについて処理が終了したか否か判断する（ステップＳ８）。ここで、未処理の閉路が有る場合（ステップＳ８のＮＯ）には、プロセッサ１０１は、その未処理の閉路について、上記ステップＳ４乃至ステップＳ７の処理を繰り返す。

そして、派生データベース２の閉路グラフＧ_cから生成した閉路Γ_kの全てについて処理が終了した（ステップＳ８のＹＥＳ）ならば、プロセッサ１０１は、データ出力部９としての動作を実行することで、名称データの対応付け結果を出力する（ステップＳ９）。すなわち、プロセッサ１０１は、入力部１０７からまたは外部のデータ処理装置から指示された形態の出力情報をデータメモリ１０３の一時記憶部１０３３に記憶された対応付け結果から生成し、その生成した出力情報をデータメモリ１０３の出力情報記憶部１０３４に記憶させる。そして、プロセッサ１０１は、この出力情報を、入出力インタフェース１０５を介して表示部１０８により表示したり、通信インタフェース１０４を介して外部のデータ処理装置に送信したりする。

以上に説明した一実施形態に係る名称データ対応付け装置は、対象とする２つのデータベースにおいて、各隣接情報を使用して、名称データを頂点とする閉路グラフが描画できるので、閉路識別情報が付与されていない基礎データベース１の閉路グラフ上で、派生データベース２の閉路グラフから得られた閉路情報と同条件（頂点数、始点、終点が同一）の閉路を作成し、その中から最適な閉路を選択することで、名称データの対応付けを行い、この際に、複数の対応付け結果が得られた場合には、各結果における名称データ同士の文字列類似度を計算し、より類似している方の結果を選択する。これにより、統合するデータベース間で表記ゆれが存在する同義の名称データを、名称データに対応する文字列別データがデータベース間で対応関係を有していなくとも、人的稼働を掛けず正確に対応付けることができる。よって、人的稼働の削減により業務効率を上げる効果が期待できる。

また、一実施形態に係る名称データ対応付け装置は、閉路識別情報が付与されていない基礎データベース１の閉路グラフ上で、派生データベース２の閉路グラフから得られた閉路情報と同条件の閉路を全て作成するだけでなく、それら生成した閉路からスルー頂点を始点とする閉路を作成して、それら全ての閉路とこれらスルー頂点を始点とする閉路とを結合するようにしている。これにより、同じ頂点（始点とは異なっても良い）を２回以上通るパス（例えば、八の字（８）や九の字（９）の形）も含めた中から最適な閉路を選択して、名称データの対応付けを行うことが可能となる。

また、一実施形態に係る名称データ対応付け装置は、抽出した閉路情報に一致する閉路が基礎データベース１の情報から１つだけしか生成できなかった場合には、直ちに、それを最適な閉路の組み合わせとして利用するので、処理の高速化が図れる。

一方、抽出した閉路情報に一致する閉路が基礎データベース１の情報から複数生成された場合には、一実施形態に係る名称データ対応付け装置は、それら複数の閉路の中から、閉路情報抽出の際に派生データベース２の情報から生成した閉路の個数ずつ、閉路の組み合わせを選択し、それぞれの閉路の組み合わせについて、通過する頂点数及び重複する箇所を判別することで、通過する頂点数がより多く且つ重複する箇所がより少ない閉路の組み合わせを選択する。これにより、最適な閉路の組み合わせを抽出することができる。

また、一実施形態に係る名称データ対応付け装置は、名称データの対応付けの結果に基づいて、名称データの対応表を含む出力情報を生成する。よって、この出力情報を利用して、データベースの統合処理を実施することが可能となる。また、一実施形態に係る名称データ対応付け装置は、出力情報として、統合したデータベースの情報を生成しても良い。

［動作例］
本実施形態の動作例として、適用した名称データの概要と結果を説明する。

図９は、動作例において基礎データベース記憶部１０３１に記憶される基礎データベース１が保持する情報の一例を示す図であり、図１０は、動作例において派生データベース記憶部１０３２に記憶される派生データベース２が保持する情報の一例を示す図である。この例では、閉路ＩＤ＝２の名称データに関して、頂点集合Ｖ_c及びＶ_dは、以下の通りである。
Ｖ_c＝｛いわきビル、沼ノ内ビル、常磐ビル、小名浜ビル、内郷ビル、窪田ビル、泉ビル、小川ビル、若葉台ビル、江名ビル、田人ビル｝
Ｖ_d＝｛いわきビル、沼之内ビル、いわき常磐ビル、小名浜ビル、梨花の里ビル、いわき窪田ビル、いわき泉ビル、いわき小川ビル、いわき若葉台ビル、江名ビル、田人ビル｝

この例では、名称データの正確な表記の組み合わせ、すなわち名称データの対応付けは次の通りであり、実施形態に係る名称データ対応付け装置がこの対応付けを正しく行うことができるか確認した。
｛（いわきビル、いわきビル）、（沼ノ内ビル、沼之内ビル）、（常磐ビル、いわき常磐ビル）、（小名浜ビル、小名浜ビル）、（内郷ビル、梨花の里ビル）、（窪田ビル、いわき窪田ビル）、（泉ビル、いわき泉ビル）、（小川ビル、いわき小川ビル）、（若葉台ビル、いわき若葉台ビル）、（江名ビル、江名ビル）、（田人ビル、田人ビル）｝

名称データ対応付け装置のプロセッサ１０１は、ステップＳ１において、グラフ作成部３としての動作を実施し、閉路グラフを作成する。図１１は、動作例において派生データベース２が保持する情報から作成された閉路グラフの一例を示す模式図であり、図１２は、動作例において基礎データベース１が保持する情報から作成された閉路グラフの一例を示す模式図である。

各データベースの隣接情報から得られる辺集合Ｅ_c，Ｅ_dは、以下の通りである。
Ｅ_c＝｛（いわきビル、沼ノ内ビル）、（沼ノ内ビル、小川ビル）、（小川ビル、江名ビル）、（江名ビル、いわきビル）、（いわきビル、若葉台ビル）、（若葉台ビル、小名浜ビル）、（小名浜ビル、窪田ビル）、（窪田ビル、田人ビル）、（田人ビル、常磐ビル）、（常磐ビル、泉ビル）、（泉ビル、小名浜ビル）、（小名浜ビル、内郷ビル）、（内郷ビル、いわきビル）｝
Ｅ_d＝｛（いわきビル、沼之内ビル）、（いわきビル、江名ビル）、（いわきビル、いわき小川ビル）、（沼之内ビル、いわき小川ビル）、（江名ビル、いわき小川ビル）、（いわきビル、いわき若葉台ビル）、（小名浜ビル、いわき若葉台ビル）、（梨花の里ビル、小名浜ビル）、（梨花の里ビル、いわきビル）、（梨花の里ビル、いわき常磐ビル）、（いわき泉ビル、いわき常磐ビル）、（田人ビル、いわき常磐ビル）、（小名浜ビル、いわき窪田ビル）、（田人ビル、いわき窪田ビル）、（小名浜ビル、いわき泉ビル）｝

また、プロセッサ１０１は、ステップＳ２において、パス情報抽出部５としての動作を実施し、データベース２と基礎データベース１で共通する一つの頂点、例えばｓ₁＝ｓ₂＝いわきビルを始点として、派生データベース２から作成した閉路グラフにおける閉路を生成して、閉路情報を抽出する。この場合、以下のような頂点数が９の閉路Γ₁と頂点数が５の閉路Γ₂が得られる。図１３は、動作例においてパス情報抽出部５によって作成された閉路の例を示す模式図である。
Γ₁＝（いわきビル、内郷ビル、小名浜ビル、窪田ビル、田人ビル、常磐ビル、泉ビル、若葉台ビル、いわきビル）
Γ₂＝（いわきビル、沼ノ内ビル、小川ビル、江名ビル、いわきビル）

この場合、各閉路の始点は、ｓ₁＝ｓ₂＝いわきビルであり。２回通る頂点は、小名浜ビルである。

また、プロセッサ１０１は、ステップＳ３において、スルー頂点抽出部６としての動作を実施し、基礎データベース１の閉路グラフＧ_dの頂点の中からスルー頂点候補Ｖ_tを抽出する。図１４は、この動作例においてスルー頂点抽出のために作成された省略グラフの一例を示す模式図である。
省略グラフにおける頂点：{いわきビル、梨花の里ビル、いわき常磐ビル、小名浜ビル、いわき小川ビル}
辺：{（いわきビル、梨花の里ビル）、（梨花の里ビル、小名浜ビル）、（小名浜ビル、いわき常磐ビル）、（小名浜ビル、いわき常磐ビル）、（小名浜ビル、いわきビル）、（梨花の里ビル、いわき常磐ビル）、（いわきビル、いわき小川ビル）、（いわきビル、いわき小川ビル）、（いわきビル、いわき小川ビル）}
頂点の省略により作成された辺：{（いわきビル、いわき小川ビル）、（いわきビル、いわき小川ビル）、（いわき常磐ビル、小名浜ビル）、（いわき常磐ビル、小名浜ビル）、（いわきビル、小名浜ビル）}

ここで、重複している辺は多重辺である。また、図１４では、頂点の省略により作成された辺を太線で示している。

この動作例においては、プロセッサ１０１は、スルー頂点の候補Ｖ_tとして、
Ｖ_t :＝{小名浜ビル}
を抽出する。

また、プロセッサ１０１は、ステップＳ４において、共通データ抽出部４としての動作を実施し、共通する名称データを抽出する。ここで、同一表記であるような名称データつまりビル名の集合Ｓは、以下の通りである。図１１乃至図１４、及び後述する各図では、これら共通のビル名にハッチングをして示している。
Ｓ＝｛いわきビル、小名浜ビル、江名ビル、田人ビル｝

また、閉路Γ₁，Γ₂において集合Ｓの要素が出現するインデックスＩ₁,Ｉ₂は、以下の通りである。
Ｉ₁＝｛３，５｝
Ｉ₂＝｛４｝

次に、プロセッサ１０１は、ステップＳ５において、パス作成部７としての動作を実施し、基礎データベース１から作成した閉路グラフＧ_dから閉路集合を作成する。まず、プロセッサ１０１は、ステップＳ５０１において、閉路グラフＧ_dにおける始点が「いわきビル」であるような閉路α_iを作成する。図１５Ａ乃至図１５Ｆは、生成された閉路α₁～α₆を示す模式図である。
α₁＝（いわきビル、江名ビル、いわき小川ビル、いわきビル）
α₂＝（いわきビル、沼之内ビル、いわき小川ビル、江名ビル、いわきビル）
α₃＝（いわきビル、沼之内ビル、いわき小川ビル、いわきビル）
α₄＝（いわきビル、いわき若葉台ビル、小名浜ビル、梨花の里ビル、いわきビル）
α₅＝（いわきビル、いわき若葉台ビル、小名浜ビル、いわき泉ビル、いわき常磐ビル、梨花の里ビル、いわきビル）
α₆＝（いわきビル、いわき若葉台ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、梨花の里ビル、いわきビル）

以上の閉路からなる集合がＡ₁＝Α₂＝{α₁，…，α₆}である。

ここで、作成した閉路α_i（ｉ＝｛４，５，６｝）に対してはスルー頂点「小名浜ビル」を含む。図１５Ｄ乃至図１５Ｆでは、このスルー頂点「小名浜ビル」を格子のハッチングを付して示している。このように、閉路α_iを構成する頂点にスルー頂点が含まれているので、プロセッサ１０１は、ステップS５０３において、この頂点を始点とする閉路を作成する。図１６は、作成されたスルー頂点を始点とした閉路ｂ₁，ｂ₂の例を示す模式図である。
ｂ₁＝（小名浜ビル、いわき泉ビル、いわき常磐ビル、田人ビル、いわき窪田ビル、小名浜ビル）
ｂ₂＝（小名浜ビル、いわき泉ビル、いわき常磐ビル、梨花の里ビル、小名浜ビル）

ステップＳ５０３では、この２経路が得られる。よって、Ｂ_i＝｛ｂ₁，ｂ₂｝、ｉ＝｛４，５，６｝である。

次に、プロセッサ１０１は、ステップＳ５０４において、α_i（ｉ＝｛４，５，６｝）に対し閉路集合Ｂ_iの各要素を結合する。スルー頂点が共通しているので、全ｉ，ｊについて、結合された閉路は、以下のようになる。

まず、ｉ＝４，ｊ＝１であり、ｌ_i＝３の場合は、結合した閉路ｂ_j1'～ｂ_j4'は、
ｂ_j1'＝（いわきビル、いわき若葉台ビル、いわき泉ビル、いわき常磐ビル、田人ビル、いわき窪田ビル、小名浜ビル、梨花の里ビル、いわきビル）
ｂ_j2'＝（いわきビル、いわき若葉台ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、いわき泉ビル、梨花の里ビル、いわきビル）
ｂ_j3'＝rev（ｂ_j1'）
ｂ_j4'＝rev（ｂ_j2'）
となる。図１７Ａは結合された閉路ｂ_j1'を、また、図１７Ｂは結合された閉路ｂ_j2'を、それぞれ示す模式図である。

これに対して、ｉ＝４，ｊ＝２であり、ｌ_i＝３の場合には、いずれの閉路も（小名浜ビル、梨花の里ビル）が重複してしまう。

また、ｉ＝５，ｊ＝１及びｌ_i＝３の場合は、いずれの閉路も（小名浜ビル、いわき泉ビル）、（いわき泉ビル、いわき常磐ビル）が重複してしまう。

また、ｉ＝５，ｊ＝２及びｌ_i＝３の場合は、いずれの閉路も（小名浜ビル、いわき泉ビル）、（いわき泉ビル、いわき常磐ビル）、（いわき常磐ビル、梨花の里ビル）が重複してしまう。

また、ｉ＝６，ｊ＝１及びｌ_i＝３の場合は、いずれの閉路も（小名浜ビル、いわき窪田ビル）、（いわき窪田ビル、いわき常磐ビル）が重複してしまう。

また、ｉ＝６，ｊ＝２及びｌ_i＝３の場合は、いずれの閉路も（いわき常磐ビル、梨花の里ビル）が重複してしまう。

以上より、プロセッサ１０１は、ステップＳ５０５において、同一の頂点及び辺を２度通らない閉路である、ｉ＝４，ｊ＝１における閉路ｂ_j1'～ｂ_j4'を、閉路集合Ａ₁，Α₂に追加する。

そして、プロセッサ１０１は、ステップＳ５０７において、閉路集合Ａ_kの要素である各閉路α_iで以下の２つの条件
条件１： |α_i|＝｜Γ_k｜
条件２： α_i［ｘ］＝Γ_k［ｘ］ｘ∈Ｉ_k
を見たす閉路を抽出する。

すなわち、閉路集合Ａ₁においては、
｜α_i｜＝｜Γ₁｜＝９
且つ
α_i［３］＝小名浜ビル、α_i［５］＝田人ビル
を満たすような要素を抽出し、それを閉路Ａ₁'とする。
Ａ₁'＝｛（いわきビル、梨花の里ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、いわき泉ビル、いわき若葉台ビル、いわきビル），（いわきビル、いわき若葉台ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、いわき泉ビル、梨花の里ビル、いわきビル）｝

同様に、閉路集合Α₂においては、
｜α_i｜＝｜Γ₂｜＝５
且つ
α_i［４］＝江名ビル
を満たすような要素を抽出し、それを閉路Α₂'とする。
Α₂'＝｛（いわきビル、沼之内ビル、いわき小川ビル、江名ビル、いわきビル）｝

次に、プロセッサ１０１は、ステップＳ６において、対応付け部８としての動作を実施し、最適組み合わせを抽出する。例えば、プロセッサ１０１は、ステップＳ６０２において、２つの閉路Ａ₁'，Ａ₂'を選択する。ここで、｜Ａ₁'｜＝２より、閉路Ａ₁'の各要素をそれぞれＡ₁₀'，Ａ₁₁'と表記すると、プロセッサ１０１は、閉路Ａ₁'の要素Ａ₁₀'と閉路Ａ₂'の要素Ａ₂₀'及び閉路Ａ₁'の要素Ａ₁₁'と閉路Ａ₂'の要素Ａ₂₀'を選択する。
cycle set＝Ａ₁₀'∪Ａ₂₀'
cycle set＝Ａ₁₁'∪Ａ₂₀'

そして、プロセッサ１０１は、ステップＳ６０３において、cycle set＝Ａ₁₀'∪Ａ₂₀'に対し、
union :＝｜｛（いわきビル、梨花の里ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、いわき泉ビル、いわき若葉台ビル、沼之内ビル、いわき小川ビル、江名ビル）｝｜＝１１
を得、cycle set＝Ａ₁₁'∪Ａ₂₀'に対し、
union :＝｜｛（いわきビル、梨花の里ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、いわき泉ビル、いわき若葉台ビル、沼之内ビル、いわき小川ビル、江名ビル）｝｜＝１１

すなわち、閉路Ａ₁'のいずれの閉路に対しても、
union＝１１
を得、ステップＳ６０５において、
shared vertex＝｛いわきビル｝
を得ることができる。

ここで、shared vertexの要素数が１以下なので、プロセッサ１０１は、ステップＳ６０９において、
insert cycle_ij＝φ
を生成する。

この作成した閉路insert cycleより、プロセッサ１０１は、ステップＳ６１１及びステップＳ６１２において、
insert :＝｜insert cycle_ij｜＝０
score :＝union－insert＝１１
を求めることができる。

そして、プロセッサ１０１は、ステップＳ７において、ステップＳ６の処理で得られた閉路Ａ₁'、Α₂'の要素と、ステップＳ２で生成した閉路Γ₁、Γ₂とを照らし合わせることで、名称データの組み合わせを得る。

すなわち、プロセッサ１０１は、ステップＳ７０１において、ｋ＝１について、閉路Ａ₁'の要素Ａ₁₀'である
（いわきビル、梨花の里ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、いわき泉ビル、いわき若葉台ビル、いわきビル））
と、
Γ₁＝（いわきビル、内郷ビル、小名浜ビル、窪田ビル、田人ビル、常磐ビル、泉ビル、若葉台ビル、いわきビル）
より、
｛（内郷ビル、梨花の里ビル）、（窪田ビル、いわき窪田ビル）、（常磐ビル、いわき常磐ビル）、（泉ビル、いわき泉ビル）、（若葉台ビル、いわき若葉台ビル）｝
を得る。

一方、閉路Ａ₁'の要素Ａ₁₁'である
（いわきビル、いわき若葉台ビル、小名浜ビル、いわき窪田ビル、田人ビル、いわき常磐ビル、いわき泉ビル、梨花の里ビル、いわきビル））
と、
Γ₁＝（いわきビル、内郷ビル、小名浜ビル、窪田ビル、田人ビル、常磐ビル、泉ビル、若葉台ビル、いわきビル）
より、
｛（内郷ビル、いわき若葉台ビル）、（窪田ビル、いわき窪田ビル）、（常磐ビル、いわき常磐ビル）、（泉ビル、いわき泉ビル）、（若葉台ビル、梨花の里ビル）｝
を得る。

どちらも｛（窪田ビル、いわき窪田ビル）、（常磐ビル、いわき常磐ビル）、（泉ビル、いわき泉ビル）｝の組み合わせは共通しているので、プロセッサ１０１は、ステップＳ７０３及びステップＳ７０４において、
｛（内郷ビル、梨花の里ビル）、（若葉台ビル、いわき若葉台ビル）｝
と、
｛（若葉台ビル、梨花の里ビル）、（内郷ビル、いわき若葉台ビル）｝
のうち、文字列類似度の総和が小さい方を選択する。

本動作例では、文字列類似度として、編集距離を使用する。ここで、
「内郷ビル」と「梨花の里ビル」の距離＝１．０
「若葉台ビル」と「いわき若葉台ビル」の距離＝０．５
より、総和は１．５が求められる。これに対して、
「若葉台ビル」と「梨花の里ビル」の距離＝１．０
「内郷ビル」と「いわき若葉台ビル」の距離＝１．０
より、総和は２．０となる。

よって、プロセッサ１０１は、
｛（内郷ビル、梨花の里ビル）、（若葉台ビル、いわき若葉台ビル）｝
を含む、
｛（（内郷ビル、梨花の里ビル）、（窪田ビル、いわき窪田ビル）、（常磐ビル、いわき常磐ビル）、（泉ビル、いわき泉ビル）、（若葉台ビル、いわき若葉台ビル）｝
を選択する。

また、プロセッサ１０１は、ｋ＝２については、閉路Α₂'の要素Ａ₂₀'である
（いわきビル、沼之内ビル、いわき小川ビル、江名ビル、いわきビル）
と、
Γ₂＝（いわきビル、沼ノ内ビル、小川ビル、江名ビル、いわきビル）
より、
｛（沼ノ内ビル、沼之内ビル）、（小川ビル、いわき小川ビル）｝
を得る。

図１８は、この対応付け結果に基づく閉路グラフの一例を示す模式図である。すなわち、対応付け結果に基づいて、図１２の閉路グラフを書き換えると、図１８のようになり、図１１の閉路グラフにおける頂点と比較して、全頂点の正確な対応付けが得られていることが判る。

その後、プロセッサ１０１は、データメモリ１０３の一時記憶部１０３３に記憶された上記対応付けの結果に基づいて出力情報を生成し、データメモリ１０３の出力情報記憶部１０３４に記憶させる。図１９は、この出力情報記憶部１０３４に記憶される出力情報の一例を示す図である。なお、ここでは、出力情報を名称データの対応関係を表す対応表として示しているが、これに限定されないことは勿論である。

以上より、名称データ対応付け装置により、閉路情報を使用することで、正確な名称データの対応付けが可能であることが検証できた。

［比較例］
比較として、既存の文字列検索手法（特許文献１または２）を使用した対応付けを、動作例で扱ったデータに対して行った。

使用手法：編集距離（Levenshitein距離）
比較実験概要：頂点集合Ｖ_c，Ｖ_dを単なる名称データの集合と見なし、Ｖ_dの各データからＶ_cのデータの編集距離をそれぞれ計算し、距離が最小となるデータを選択する
結果：１１頂点中５頂点の正確な対応付けに成功（いわきビル、小名浜ビル、江名ビル、田人ビル、沼之内ビル）

この結果より、正確な対応付け可能であったのは、ほぼデータベース間で同一表記の名称だけであった（５頂点中４頂点）。「内郷ビル」と「梨花の里ビル」のような互いに著しく異なる文字列の対応付けや、「いわき泉ビル」と「泉ビル」のように一方の文字列の大部分が省略（「いわき泉ビル」にとって「いわきビル」は４文字中３文字を占める）されている文字列に対して、高い類似度を示すことは困難であった。

［他の実施形態］
前記一実施形態では、始点と終点が同一の頂点である閉路を例に説明したが、始点と終点が異なる頂点であるパスを利用しても良い。すなわち、名称データ対応付け装置では、対象とする２つのデータベースにおいて、各隣接情報を使用して、名称データを頂点とするパスを描画することができるので、パス識別情報が付与されていない基礎データベース１のパス上で、派生データベース２のパスから得られたパス情報と同条件（頂点数、始点が同一）のパスを作成し、その中から最適なパスを選択することで、名称データの対応付けを行う。これにより、統合するデータベース間で表記ゆれが存在する同義の名称データを、名称データに対応する文字列別データがデータベース間で対応関係を有していなくとも、人的稼働を掛けず正確に対応付けることができる。またこの場合、データベースの情報に基づいて、名称データを頂点とする無向グラフを作成し、この無向グラフを利用することで、容易にパスを生成することができる。

また、対象とするデータベースも２つの場合を例に説明したが、３つ以上であっても良い。すなわち、３つ以上のデータベースのうち、少なくとも１つのデータベースがパス識別情報（閉路識別情報）を保持していれば、残りの２つ以上のデータベースとの間で名称データの対応付けを行うことが可能となる。

また、前記一実施形態では、データメモリ１０３の基礎データベース記憶部１０３１及び派生データベース記憶部１０３２に基礎データベース１及び派生データベース２が保持する情報の全部または一部を記憶して処理を進める例を説明したが、それに限定するものではない。プロセッサ１０１は、通信インタフェース１０４により外部のデータサーバに適宜アクセスして、そこに構築された基礎データベース１及び派生データベース２に蓄積されている情報を使用して処理を進め、各ステップの処理結果のみを一時記憶部１０３３に記憶するようにしても良い。これにより、名称データ対応付け装置が備えるデータメモリ１０３の容量を抑えることができ、安価に名称データ対応付け装置を構成することが可能となる。

また、前記一実施形態では、出力情報を生成して、表示部１０８または外部のデータ処理装置に出力する例を説明したが、出力情報を生成することなく、一時記憶部１０３３に記憶した対応付け結果を出力するようにしても良い。これにより、名称データ対応付け装置が備えるデータメモリ１０３の容量を抑えることができ、安価に名称データ対応付け装置を構成することが可能となる。また、データベースの統合処理を行うデータ処理装置に対して、名称データの対応付けのみを行うサービスを提供することが可能となる。

また、フローチャートに示したステップＳ２の処理とステップＳ３の処理とは、処理の順番を入れ替えても良いし、並行して実行しても良い。これに限らず、図５乃至図８に示したフローチャートの各処理は、当該処理がそれ以前の処理の結果を利用しない限りは、順番を入れ替えたり、並行して処理したりするようにしてもかまわない。

また、各実施形態に記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウェア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段（実行プログラムのみならずテーブル、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

要するに、この発明は上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組合せて実施してもよく、その場合組合せた効果が得られる。さらに、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。

１…基礎データベース
２…派生データベース
３…グラフ作成部
４…共通データ抽出部
５…パス情報抽出部
６…スルー頂点抽出部
７…パス作成部
８…対応付け部
９…データ出力部
１０１…プロセッサ
１０２…プログラムメモリ
１０３…データメモリ
１０４…通信インタフェース
１０５…入出力インタフェース
１０６…バス
１０７…入力部
１０８…表示部
１０３１…基礎データベース記憶部
１０３２…派生データベース記憶部
１０３３…一時記憶部
１０３４…出力情報記憶部

Claims

複数の名称データ及びそれら名称データの隣接関係を示す隣接情報を保持する第１のデータベースと、複数の名称データ、それら名称データの隣接情報及びそれら名称データが属するパスを表すパス識別情報を保持する第２のデータベースとの間で異なる表記を有する同義の名称データを対応付ける名称データ対応付け装置であって、
前記第１のデータベースと前記第２のデータベースとの間で同じ表記である名称データを共通データとして抽出する共通データ抽出部と、
前記第２のデータベースが保持する情報に基づいて、前記共通データ抽出部が抽出した前記共通データのうち１つを始点とし、前記第２のデータベースが保持する前記名称データを頂点とする、全てのパスを生成し、それらのパスそれぞれについて、頂点数、含まれる共通データ及びその位置を含むパス情報を抽出するパス情報抽出部と、
前記第１のデータベースが保持する情報に基づいて、前記パス情報抽出部が抽出した各パスの前記パス情報に含まれる前記始点の名称データ、前記頂点数、前記含まれる共通データ及び前記位置と一致する全てのパスを生成するパス作成部と、
前記パス作成部が生成した各パスから、通過する頂点数がより多く且つ重複する箇所がより少ないパスの組み合わせを抽出し、その抽出された各パスの頂点と前記パス情報抽出部が生成した各パスの頂点とを対応付けることで、前記第１のデータベースが保持する前記名称データと前記第２のデータベースが保持する前記名称データとを対応付ける対応付け部と、
を具備し、
前記対応付け部は、前記第１のデータベースの前記名称データと前記第２のデータベースの前記名称データとの対応付け結果として複数の結果が得られた場合、各結果における名称データ同士の文字列類似度を計算し、より類似している方の結果を選択する、名称データ対応付け装置。
前記第１及び第２のデータベースが保持する前記情報に基づいて、前記名称データを頂点とする無向グラフを作成するグラフ作成部と、
前記グラフ作成部が作成した前記無向グラフが含む頂点の中から、そこを２度通るが、辺は少なくとも１度しか通らない頂点である、スルー頂点を抽出するスルー頂点抽出部と、
をさらに具備し、
前記パス情報抽出部は、前記グラフ作成部が作成した前記無向グラフと前記第２のデータベースが保持する前記パス識別情報とに基づいて、前記共通データのうち１つを前記始点とし、前記第２のデータベースが保持する前記名称データを頂点とする、全てのパスを生成し、それらのパスそれぞれについて、前記パス情報を抽出し、
前記パス作成部は、前記グラフ作成部が作成した前記無向グラフに基づいて、前記パス情報抽出部が抽出した前記各パスの前記パス情報に含まれる前記始点の前記名称データ、前記頂点数、前記含まれる共通データ及び前記位置が一致する全てのパスを生成すると共に、それら生成したパスから前記スルー頂点を始点とするパスを作成して、前記全てのパスと前記スルー頂点を始点とするパスとを結合する、請求項１に記載の名称データ対応付け装置。
前記グラフ作成部は、前記無向グラフとして、前記第１及び第２のデータベースが保持する前記隣接情報に基づいて、前記名称データを頂点とする閉路グラフを作成する、閉路グラフ作成部を含み、
スルー頂点抽出部は、前記閉路グラフ作成部が作成した前記閉路グラフが含む頂点の中から前記スルー頂点を抽出し、
前記パス情報抽出部は、前記パスとして、前記閉路グラフ作成部が作成した前記閉路グラフと前記第２のデータベースが保持する前記パス識別情報である閉路識別情報とに基づいて、前記共通データのうち１つを前記始点且つ終点とし、前記第２のデータベースが保持する前記名称データを頂点とする、全ての閉路を生成し、前記パス情報として、前記生成した全ての閉路それぞれについて、前記頂点数、前記含まれる共通データ及び前記位置を含む閉路情報を抽出する、閉路情報抽出部を含み、
前記パス作成部は、前記パスとして、前記閉路グラフ作成部が作成した前記閉路グラフに基づいて、前記閉路情報抽出部が抽出した前記各閉路の前記閉路情報に含まれる前記始点且つ前記終点の前記名称データ、前記頂点数、前記含まれる共通データ及び前記位置が一致する全ての閉路を生成すると共に、それら生成した閉路から前記スルー頂点を始点とする閉路を作成して、前記全ての閉路と前記スルー頂点を始点とする閉路とを結合する閉路作成部を含み、
前記対応付け部は、前記閉路作成部が生成した各閉路から、通過する頂点数がより多く且つ重複する箇所がより少ない閉路の組み合わせを抽出し、その抽出された各閉路の頂点と前記閉路情報抽出部が生成した各閉路の頂点とを対応付けることで、前記第１のデータベースが保持する前記名称データと前記第２のデータベースが保持する前記名称データとを対応付ける、請求項２に記載の名称データ対応付け装置。
前記対応付け部は、前記閉路作成部が生成した閉路が１つだけであるとき、その閉路の頂点と前記閉路情報抽出部が抽出した各閉路の頂点とを対応付けることで、前記第１のデータベースが保持する前記名称データと前記第２のデータベースが保持する前記名称データとを対応付ける、請求項３に記載の名称データ対応付け装置。
前記対応付け部は、前記閉路作成部が生成した閉路が複数あるとき、それら複数の閉路の中から、前記閉路情報抽出部が生成した閉路の個数ずつ閉路の組み合わせを選択し、それぞれの閉路の組み合わせについて、通過する頂点数及び重複する箇所を判別することで、前記通過する頂点数がより多く且つ前記重複する箇所がより少ない前記閉路の組み合わせを抽出する最適組み合わせ抽出部を含む、請求項３に記載の名称データ対応付け装置。
前記対応付け部による対応付けの結果に基づいて、名称データの対応表を含む出力情報を生成する出力部をさらに具備する、請求項１乃至５のいずれかに記載の名称データ対応付け装置。
プロセッサと、複数の名称データ及びそれら名称データの隣接関係を示す隣接情報を保持する第１のデータベースと、複数の名称データ、それら名称データの隣接情報及びそれら名称データが属するパスを表すパス識別情報を保持する第２のデータベースとを記憶したメモリと、を備え、前記第１のデータベースと前記第２のデータベースとの間で異なる表記を有する同義の名称データを対応付ける名称データ対応付け装置における名称データ対応付け方法であって、
前記プロセッサにより、前記メモリに記憶されている前記第１のデータベースと前記第２のデータベースとの間で同じ表記である名称データを共通データとして抽出し、
前記プロセッサにより、前記第２のデータベースが保持する情報に基づいて、前記抽出した前記共通データのうち１つを始点とし、前記第２のデータベースが保持する前記名称データを頂点とする、全てのパスを生成し、
前記プロセッサにより、前記第２のデータベースが保持する情報に基づいて生成したパスそれぞれについて、頂点数、含まれる共通データ及びその位置を含むパス情報を抽出し、
前記プロセッサにより、前記第１のデータベースが保持する情報に基づいて、前記抽出した各パスの前記パス情報に含まれる前記始点の名称データ、前記頂点数、前記含まれる共通データ及び前記位置と一致する全てのパスを生成し、
前記プロセッサにより、前記第１のデータベースが保持する情報に基づいて生成した各パスから、通過する頂点数がより多く且つ重複する箇所がより少ないパスの組み合わせを抽出し、
前記プロセッサにより、前記抽出されたパスの組み合わせにおける各パスの頂点と、前記第２のデータベースが保持する情報に基づいて生成した各パスの頂点とを対応付けることで、前記第１のデータベースが保持する前記名称データと前記第２のデータベースが保持する前記名称データとを対応付け、
前記第１のデータベースの前記名称データと前記第２のデータベースの前記名称データとの対応付け結果として複数の結果が得られた場合、前記プロセッサにより、各結果における名称データ同士の文字列類似度を計算し、より類似している方の結果を選択する、
名称データ対応付け方法。
請求項１乃至６のいずれかに記載の名称データ対応付け装置の前記各部としてプロセッサを機能させる名称データ対応付け処理プログラム。