JP6925665B1

JP6925665B1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP6925665B1
Application number: JP2020078358A
Authority: JP
Inventors: 門　洋一; 洋一門; 浩二松村; 崇広方
Original assignee: アットホームラボ株式会社
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2021-08-25
Anticipated expiration: 2040-04-27
Also published as: JP2021174300A

Abstract

【課題】同じ棟と見なせる物件データの名寄せ精度を向上させる情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】情報処理装置１は、名寄せ済みの複数の第１の物件データ及び名寄せ未処理の複数の第２の物件データを取得する第１の取得部１１０１と、複数の第１の物件データに含まれる複数の棟名及び第２の物件データに含まれる複数の棟名をクレンジングするクレンジング部１１０２と、クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する変換部１１０３と、複数の第１の物件データ及び複数の第２の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する第２の取得部１１０６と、を備える。【選択図】図１

Description

本発明は、物件データの名寄せ処理を行う情報処理装置、情報処理方法及び情報処理プログラムに関する。

アパート・マンションといった集合住宅などの各部屋（物件）が賃貸または売買に出される際、各不動産会社は物件情報を不動産の取引サイトに登録する。例えば、物件情報は、賃貸または売買に出される物件の情報及び物件の属する棟情報などを含む。棟情報は、棟の名称、所在地(都道府県・市区町村・町丁目・番地・号)、階建て、築年・築月などを属性とする棟を特定する情報である。

同じアパート・マンションの棟における部屋の特徴の違いによる比較や、時期による価格・賃料や成約までの期間の違い、及び、それらの推移などを分析するために、実体として同じ棟に属する物件情報については集約することが望まれる。

物件情報において、棟情報に相違があって、実際は同一棟であるにもかかわらず、異なる棟・建物とみなされている状況が生じる。棟情報が相違する原因は、不動産の物件の広告・売買履歴の元となる物件情報を不動産会社それぞれが作成しており、物件の属する棟情報の記載についても揺れや漏れ、誤りがあったりするためである。

例えば、棟の名称が入力される際に、同じ読みであっても一方ではアルファベット表記、他方ではカタカナ表記と入り交じっていたり、名称の欄なのにセールスコピーや特徴といった名称ではない記載があったりする。また，番地・号といった所在地や、階建て、築年・築月が省略・誤入力されているケースも多数みられる。

特許文献１には、入力されたデータの住所情報を解析し、住所コード、番地・号、建物名、棟・階・部屋番号などに分解し、一致関係にあるデータには同一の一致ＩＤを付与することが開示されている。

特開２００３−１７３３４５号公報

しかしながら、特許文献１の開示は、入力された建物名自体を評価している。棟の名称は、上述のように、揺れ、漏れ、誤り、表記の入り交じり、不要な記載の付加などを多く含む。そのため、特許文献１の開示では、精度よく物件情報を名寄せすることができない。

そこで、本発明は、同じ棟と見なせる物件データの名寄せ精度を向上させる技術を提供することを目的とする。

実施形態によれば、情報処理装置は、名寄せ済みの複数の第１の物件データ及び名寄せ未処理の複数の第２の物件データを取得する第１の取得部と、前記複数の第１の物件データに含まれる複数の棟名及び前記第２の物件データに含まれる複数の棟名をクレンジングするクレンジング部と、クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する変換部と、前記複数の第１の物件データ及び前記複数の第２の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する第２の取得部と、前記複数の第１の物件データのそれぞれの前記比較対象データと前記複数の第２の物件データのそれぞれの前記比較対象データとを比較する比較部と、前記複数の第１の物件データと前記複数の第２の物件データとの比較に基づく第１の比較結果データを取得する第３の取得部と、前記第１の比較結果データに基づいて、前記複数の第１の物件データのそれぞれに対する前記複数の第２の物件データのそれぞれについての第１の一致度を推定する推定部と、前記第１の一致度を用いて、前記複数の第１の物件データに対する前記複数の第２の物件データの紐付けを行う紐付け部と、を備える。

実施形態によれば、同じ棟と見なせる物件データの名寄せ精度を向上させる技術を提供することができる。

図１は、実施形態に係る情報処理装置の構成例を示すブロック図である。図２は、実施形態に係る第２の物件レコードを例示する図である。図３は、実施形態に係る比較対象項目及び比較結果を例示する図である。図４は、実施形態に係る推定モデルを例示する図である。図５は、実施形態に係る１回目の紐付け処理を例示する図である。図６は、実施形態に係る２回目の紐付け処理を例示する図である。図７は、実施形態に係る３回目の紐付け処理を例示する図である。図８は、実施形態に係る名寄せ処理を例示するフローチャートである。

以下、図面を参照しながら実施形態について詳細に説明する。

図１は、実施形態に係る情報処理装置１の構成例を示すブロック図である。
情報処理装置１は、物件データの名寄せ処理を行うコンピュータである。物件データは、各不動産会社によって登録された各物件の物件情報に対応するデータである。物件は、賃貸または売買に出される部屋などの不動産である。物件情報は、物件の情報及び物件の属する棟情報などを含む。物件の情報は、物件自体の詳細な情報である。棟情報は、棟の名称（以下、棟名ともいう）、所在地(都道府県・市区町村・町丁目・番地・号)、階建て、築年・築月などを属性とする棟を特定する情報である。棟名は、各不動産会社によって適宜入力される文字列で構成される。棟は、建物の意味を含む。

情報処理装置１は、プロセッサ１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、補助記憶デバイス１４及び通信インタフェース１５を備えるコンピュータである。プロセッサ１１、ＲＯＭ１２、ＲＡＭ１３、補助記憶デバイス１４及び通信インタフェース１５は、データバスなどを介して互いに接続される。図１では、通信インタフェースは、「通信Ｉ／Ｆ」と記載されている。

プロセッサ１１は、情報処理装置１全体の動作を制御する。例えば、プロセッサ１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であるが、これに限定されない。プロセッサ１１は、種々の回路で構成されていてもよい。プロセッサ１１は、ＲＯＭ１２または補助記憶デバイス１４に予め記憶されている物件データの名寄せ処理のための情報処理プログラムをＲＡＭ１３に展開する。プロセッサ１１は、ＲＡＭ１３に展開された情報処理プログラムを実行することで、後述する各部を実装し、種々の動作を実行する。情報処理プログラムは、情報処理装置１に、プロセッサ１１に実装される後述する各部の機能を実現させるためのプログラムである。

ＲＯＭ１２は、予め各種プログラム及び制御データなどを記憶する不揮発性のメモリである。例えば、ＲＯＭ１２は、プロセッサ１１で実行される情報処理プログラムを記憶する。

ＲＡＭ１３は、プロセッサ１１の処理中のデータなどを一時的に格納する揮発性のメモリである。

補助記憶デバイス１４は、データ及びプログラムなどを記憶する不揮発性メモリで構成される装置である。例えば、補助記憶デバイス１４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などで構成されるが、これらに限定されない。補助記憶デバイス１４は、記憶部の一例である。

例えば、補助記憶デバイス１４は、プロセッサ１１で実行される情報処理プログラムを記憶する。情報処理プログラムは、ネットワークを介して情報処理装置１にダウンロードされてもよい。情報処理プログラムは、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲａａｄＯｎｌｙＭｅｍｏｒｙ）などのコンピュータ可読記憶媒体に記憶されたものが情報処理装置１にインストールされたものでもよい。

補助記憶デバイス１４は、名寄せ済みＤＢ（データベース）１４１及び名寄せ未処理ＤＢ１４２を記憶する。

名寄せ済みＤＢ１４１は、名寄せ済みの複数の物件レコードを管理するデータベースである。名寄せ済みの複数の物件レコードは、名寄せ済みの複数の物件データの一例である。名寄せ済みの複数の物件データは、複数の第１の物件データともいう。以下では、名寄せ済みの物件レコードは、第１の物件レコードという。

例えば、物件レコードは、「棟ＩＤ」項目、「棟名」項目、「１１桁住所コード」項目、「番地」項目、「号」項目、「階建て」、「築年」項目及び「築月」項目のデータなどを含む。

「棟ＩＤ」項目のデータは、各不動産会社によって任意に物件情報に付与される棟を識別するＩＤのデータである。例えば、ある不動産会社は、同じ棟の異なる部屋の物件情報を登録する場合、同じ棟ＩＤを物件情報に付与する。例えば、異なる不動産会社が同じ棟の物件情報を登録する場合、異なる不動産会社は、異なる棟ＩＤを物件情報に付与する。「棟名」項目のデータは、物件情報のうち棟情報に含まれる棟名に対応するデータである。

「１１桁住所コード」項目のデータは、物件情報のうち棟情報に含まれる所在地の都道府県・市区町村・町丁目までを一意に識別する住所コードである。住所コードは、情報処理装置１によって棟情報に含まれる所在地の都道府県・市区町村・町丁目から変換され得る。「番地」項目のデータは、物件情報のうち棟情報に含まれる所在地の番地に対応するデータである。「号」項目のデータは、物件情報のうち棟情報に含まれる所在地の号に対応するデータである。「階建て」項目のデータは、物件情報のうち棟情報に含まれる階建てに対応するデータである。「築年」項目のデータは、物件情報のうち棟情報に含まれる築年に対応するデータである。「築月」項目のデータは、物件情報のうち棟情報に含まれる築月に対応するデータである。

第１の物件レコードは、目検により実体の棟に名寄せされた物件レコードである。名寄せ済みＤＢ１４１は、実体の棟毎に１つの第１の物件レコードを管理する。名寄せ済みＤＢ１４１で管理されている第１の物件レコードは、ｒ−ＤＢ（ＲｅｓｏｌｖｅｄＤＢ）レコードともいう。名寄せ済みＤＢ１４１は、適宜更新され得る。

名寄せ未処理ＤＢ１４２は、名寄せ未処理の複数の物件レコードを管理するデータベースである。名寄せ未処理の複数の物件レコードは、名寄せ未処理の複数の物件データの一例である。名寄せ未処理の複数の物件データは、複数の第２の物件データともいう。以下では、名寄せ未処理の物件レコードは、第２の物件レコードという。第２の物件レコードは、情報処理装置１により名寄せ処理を施されていない物件レコードである。第２の物件レコードは、上述の第１の物件レコードと同様に構成され得る。名寄せ未処理ＤＢ１４２は、各不動産会社による物件情報の登録に基づく情報処理装置１による第２の物件レコードの追加に応じて更新され得る。名寄せ未処理ＤＢ１４２は、情報処理装置１による名寄せ処理が行われた第２の物件レコードの削除に応じて更新され得る。名寄せ未処理ＤＢ１４２で管理されている第２の物件レコードは、ｕ−ＤＢ（ＵｎｒｅｓｏｌｖｅｄＤＢ）レコードともいう。

通信インタフェース１５は、有線または無線で通信するためのインタフェースである。例えば、通信インタフェース１５は、有線または無線の種々の規格に対応するインタフェースを含む。通信インタフェース１５は、情報処理装置１と他の装置との間のデータ通信を可能にする。

なお、情報処理装置１のハードウェア構成は、上述の構成に限定されるものではない。情報処理装置１は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。

プロセッサ１１に実装される各部について説明する。
プロセッサ１１は、第１の取得部１１０１、クレンジング部１１０２、変換部１１０３、抽出部１１０４、検出部１１０５、第２の取得部１１０６、比較部１１０７、第３の取得部１１０８、推定部１１０９及び紐付け部１１１０を実装する。第１の取得部１１０１、クレンジング部１１０２、変換部１１０３、抽出部１１０４、検出部１１０５、第２の取得部１１０６、比較部１１０７及び第３の取得部１１０８をまとめて前処理部ということもある。

第１の取得部１１０１は、補助記憶デバイス１４から複数の第１の物件レコード及び複数の第２の物件レコードを取得する。第１の取得部１１０１は、名寄せ済みＤＢ１４１から複数の第１の物件レコードを取得する。第１の取得部１１０１は、名寄せ未処理ＤＢ１４２から複数の第２の物件レコードを取得する。ここでは、第１の取得部１１０１は、共通の住所コードに関連付けられている複数の第１の物件レコード及び複数の第２の物件レコードを取得するものとする。これは、物件レコードの数を限定することで、情報処理装置１の処理負荷を軽くするためである。

クレンジング部１１０２は、第１の取得部１１０１により取得された複数の第１の物件レコードに含まれる複数の棟名をクレンジングする。クレンジング部１１０２は、第１の取得部１１０１により取得された複数の第２の物件レコードに含まれる複数の棟名をクレンジングする。クレンジングは、棟名の文字列内において、不要な文字列を除去することである。例えば、不要な文字列は、電話暗号、部屋番号、ペット飼育に関する文言、セールスコピー及び物件の特徴などの棟または不動産に関連しない文字列である。

変換部１１０３は、クレンジング部１１０２によりクレンジングされた後の棟名を複数の異なる観点で複数の文字列に変換する。クレンジング部１１０２によりクレンジングされた後の棟名は、クレンジング後の棟名ともいう。
例えば、変換部１１０３は、クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する。

１つ目の表音上の観点での変換は、ローマ字からカタカナへの変換である。この例では、変換部１１０３は、クレンジング後の棟名に含まれるローマ字の文字列をカタカナの文字列に変換する。例えば、変換部１１０３は、変換辞書を用いてローマ字からカタカナへ変換する。なお、変換部１１０３は、クレンジング後の棟名に含まれるローマ字以外の文字列を変換することはない。以下では、クレンジング後の棟名にローマ字からカタカナへの変換を施した後の文字列で構成される棟名は、羅片棟名ともいう。クレンジング後の棟名がローマ字の文字列を含まない場合、羅片棟名は、クレンジング後の棟名と同じ文字列で構成される。

２つ目の表音上の観点での変換は、英語からカタカナへの変換である。この例では、変換部１１０３は、クレンジング後の棟名に含まれる英語の文字列（英単語など）をカタカナの文字列に変換する。例えば、変換部１１０３は、Ｅｎｃｏｄｅｒ−Ｄｅｃｏｄｅｒを用いて英語からカタカナへ変換する。これにより、変換部１１０３は、英語の文字列をクレンジング後の棟名に応じた固有のカタカナ読み（英語読みまたはフランス語読みなど）の文字列へ変換することができる。なお、変換部１１０３は、クレンジング後の棟名に含まれる英語以外の文字列を変換することはない。以下では、クレンジング後の棟名に英語からカタカナへの変換を施した後の文字列で構成される棟名は、英片棟名ともいう。クレンジング後の棟名が英語の文字列を含まない場合、英片棟名は、クレンジング後の棟名と同じ文字列で構成される。

３つ目の表音上の観点での変換は、漢字からカタカナへの変換である。この例では、変換部１１０３は、クレンジング後の棟名に含まれる漢字の文字列をカタカナの文字列に変換する。例えば、変換部１１０３は、Ｐｙｔｈｏｎのライブラリを用いて、漢字からカタカナへ変換する。これにより、変換部１１０３は、漢字の文字列をクレンジング後の棟名に応じた固有のカタカナ読みの文字列へ変換することができる。なお、変換部１１０３は、クレンジング後の棟名に含まれる漢字以外の文字列を変換することはない。以下では、クレンジング後の棟名に漢字からカタカナへの変換を施した後の文字列で構成される棟名は、漢片棟名ともいう。クレンジング後の棟名が漢字の文字列を含まない場合、漢片棟名は、クレンジング後の棟名と同じ文字列で構成される。

なお、変換部１１０３は、クレンジング後の棟名を表音上の異なる観点で複数のカタカタの文字列に変換しているが、ひらがなの文字列に変換してもよい。

例えば、変換部１１０３は、クレンジング後の棟名を住所コードで特定される地名の観点で変換する。この例では、変換部１１０３は、クレンジング後の棟名を、第１の取得部１１０１により取得された複数の第１の物件レコード及び複数の第２の物件レコードに関連付けられている共通の住所コードと関連する地名を除外した文字列に変換する。住所コードと関連する地名は、住所コード毎に予め決められている。例えば、住所コードと関連する地名は、住所コードで特定される町丁目の地名の文字列である。住所コードと関連する地名は、住所コードで特定される町丁目の地名を含む文字列でもよい。住所コードと関連する地名は、住所コードで特定される町丁目の地名の一部を除いた文字列でもよい。住所コードと関連する地名を除外するのは、クレンジング後の棟名に含まれる住所コードと関連する地名は、棟名の特定に寄与する文字列ではないからである。以下では、クレンジング後の棟名から住所コードと関連する地名を除外した文字列で構成される棟名は、頻抜棟名ともいう。クレンジング後の棟名が住所コードと関連する地名を含まない場合、頻抜棟名は、クレンジング後の棟名と同じ文字列で構成される。

抽出部１１０４は、クレンジング後の棟名から補助名称を抽出する。
補助名称は、ある領域に複数棟が存在する場合に、同一名（ブランド名またはシリーズ名など）の各棟を区別する名称である。
例えば、補助名称は、序数、数番、英番及び方位である。

序数は、「第１○○マンション」など主に建物名の前部に加えられ建物名の一部となって用いられている補助名称である。序数は、「第」などの文字と「１」などの算用数字、「二」などの漢数字及び「参」などの漢数字の大字などが結びついたものである。序数と結びつく数字は、ローマ数字でもよい。例えば、抽出部１１０４は、クレンジング後の棟名から「第」などの文字と結び付いて序数となる文字列を検出し、検出した文字列内の数字を序数として抽出することができる。

数番は、「○○マンション１号棟」など棟名の後方に付く補助名称である。数番は、「１」などの算用数字、「二」などの漢数字及び「参」などの漢数字の大字などである。数番は、ローマ数字でもよい。例えば、抽出部１１０４は、クレンジング後の棟名から「号棟」、「番館」及び「番街」などの数番と結び付く文字を検出し、検出した文字の前に付く数字を数番として抽出することができる。

英番は、「○○マンションＡ号棟」など棟名の後方に付く補助名称である。英番は、「Ａ」などのアルファベットである。例えば、抽出部１１０４は、クレンジング後の棟名から「号棟」及び「棟」などの英番と結び付く文字を検出し、検出した文字の前に付くアルファベットを英番として抽出することができる。なお、アルファベットのＩは算用数字の１または１を意味するローマ数字の記号の代わりに使われている可能性がある。アルファベットのＶは５を意味するローマ数字の記号の代わりに使われている可能性がある。そのため、抽出部１１０４は、アルファベットのＩ及びＶを英番として抽出しなくてもよい。

方位は、「○○マンション東棟」など棟名の後方に付く補助名称である。方位は、「東」などの漢字である。例えば、抽出部１１０４は、クレンジング後の棟名から「棟」などの方位と結び付く文字を検出し、検出した文字の前に付く漢字を方位として抽出することができる。

検出部１１０５は、クレンジング後の棟名から検出対象となる複数の不動産関連用語のそれぞれを検出する。不動産関連用語は、不動産に関連する用語である。不動産関連用語は、「番館」、「マンション」、「貸家」及び「仮称」などの種々の用語を含む。不動産関連用語は、「ＥＡＳＴ」などの方位を意図する英語表記を含む。不動産関連用語は、「イースト」などの方位を意図する英語の日本語読み表記を含む。検出対象となる複数の不動産関連用語は予め決められていてもいいし、適宜更新されてもよい。検出部１１０５は、検出対象となる複数の不動産関連用語のそれぞれについてクレンジング後の棟名の文字列から検出する。検出部１１０５は、検出結果に基づいて検出対象となる複数の不動産関連用語のそれぞれについて存否フラグを登録する。例えば、存否フラグ「１」は、クレンジング後の棟名の文字列内に不動産関連用語が存在することを意味する。存否フラグ「０」は、クレンジング後の棟名の文字列内に不動産関連用語が存在しないことを意味する。存否フラグは、不動産関連用語の有無を示すデータの一例である。

第２の取得部１１０６は、複数の第１の物件レコード及び複数の第２の物件レコードのそれぞれについて、比較対象データを取得する。比較対象データは、物件レコード間の比較に用いられるデータである。

比較対象データは、クレンジング後の棟名を含む。

比較対象データは、変換部１１０３により表音上の異なる観点で変換された複数の文字列を含む。例えば、比較対象データは、変換部１１０３によりクレンジング後の棟名から変換された羅片棟名を含む。比較対象データは、変換部１１０３によりクレンジング後の棟名から変換された英片棟名を含む。比較対象データは、変換部１１０３によりクレンジング後の棟名から変換された漢片棟名を含む。

比較対象データは、変換部１１０３により変換された頻抜棟名を含む。

比較対象データは、抽出部１１０４により抽出された補助名称を含む。

比較対象データは、検出対象となる複数の不動産関連用語のそれぞれの存否フラグを含む。

なお、比較対象データは、上述のような棟名に基づくデータ以外に、物件レコードに含まれる番地、号、階建て、築年及び築月などを含んでいてもよい。

比較部１１０７は、２つの物件レコード間で比較対象データを比較する。例えば、比較部１１０７は、複数の第１の物件レコードのそれぞれの比較対象データと複数の第２の物件レコードのそれぞれの比較対象データとを比較する。比較部１１０７は、複数の比較対象項目のそれぞれについて比較対象データ同士を比較する。

複数の比較対象項目は、クレンジング後の棟名を含む。比較部１１０７は、比較対象項目となるクレンジング後の棟名について、２つの物件レコードのそれぞれの比較対象データに含まれるクレンジング後の棟名同士を比較する。例えば、比較部１１０７は、Ｐｙｔｈｏｎのｄｉｆｆｌａｂライブラリ内ＳｅｑｕｅｎｃｅＭａｔｃｈｅｒクラスのｒａｔｉｏ関数で返される類似度の数値を用いて、クレンジング後の棟名同士の類似度を算出する。

複数の比較対象項目は、クレンジング後の棟名を表音上の異なる観点で変換された複数の文字列を含む。比較部１１０７は、比較対象項目となる表音上の異なる観点で変換された複数の文字列のそれぞれについて、２つの物件レコードのそれぞれの比較対象データに含まれる対応する文字列同士を比較する。例えば、比較部１１０７は、上記同様に、表音上の異なる観点で変換された文字列同士の類似度を算出する。複数の比較対象項目は、羅片棟名を含む。比較部１１０７は、比較対象項目となる羅片棟名について、２つの物件レコードのそれぞれの比較対象データに含まれる羅片棟名同士を比較する。例えば、比較部１１０７は、上記同様に、羅片棟名同士の類似度を算出する。複数の比較対象項目は、英片棟名を含む。比較部１１０７は、比較対象項目となる英片棟名について、２つの物件レコードのそれぞれの比較対象データに含まれる英片棟名同士を比較する。例えば、比較部１１０７は、上記同様に、英片棟名同士の類似度を算出する。複数の比較対象項目は、漢片棟名を含む。比較部１１０７は、比較対象項目となる漢片棟名について、２つの物件レコードのそれぞれの比較対象データに含まれる漢片棟名同士を比較する。例えば、比較部１１０７は、上記同様に、漢片棟名同士の類似度を算出する。

複数の比較対象項目は、頻抜棟名を含む。比較部１１０７は、比較対象項目となる頻抜について、２つの物件レコードのそれぞれの比較対象データに含まれる頻抜棟名同士を比較する。例えば、比較部１１０７は、上記同様に、頻抜棟名同士の類似度を算出する。

複数の比較対象項目は、複数の補助名称を含む。比較部１１０７は、比較対象項目となる複数の補助名称のそれぞれについて、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部１１０７は、比較対象項目となる複数の補助名称のそれぞれについて、「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れか１つのパターンと判断する。「一致」は、比較する２つの物件レコード間で一致することを意味する。「不一致」は、比較する２つの物件レコード間で不一致であることを意味する。「有無」は、比較する２つの物件レコードの何れか一方に存在し、他方に存在しないことを意味する。「無無」は、比較する２つの物件レコードで不存在であることを意味する。

複数の比較対象項目は、補助名称となる序数を含む。比較部１１０７は、比較対象項目となる序数について、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部１１０７は、序数について、「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れか１つのパターンと判断する。比較する２つの物件レコードのそれぞれの比較対象データが序数を含み、互いの序数が同内容を指している場合、比較部１１０７は、序数について、「一致」パターンと判断する。比較する２つの物件レコードのそれぞれの比較対象データが序数を含み、互いの序数が異なる内容を指している場合、比較部１１０７は、序数について、「不一致」パターンと判断する。比較する２つの物件レコードの何れか一方の比較対象データが序数を含み、他方の比較対象データが序数を含まない場合、比較部１１０７は、序数について、「有無」パターンと判断する。比較する２つの物件レコードの両方の比較対象データが序数を含まない場合、比較部１１０７は、序数について、「無無」パターンと判断する。

複数の比較対象項目は、補助名称となる数番を含む。比較部１１０７は、比較対象項目となる数番について、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部１１０７は、上記同様に、数番について、「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れか１つのパターンと判断する。

複数の比較対象項目は、補助名称となる方位を含む。比較部１１０７は、比較対象項目となる方位について、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部１１０７は、上記同様に、方位について、「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れか１つのパターンと判断する。

複数の比較対象項目は、複数の不動産関連用語を含む。比較部１１０７は、比較対象項目となる複数の不動産関連用語のそれぞれについて、２つの物件レコードのそれぞれの比較対象データに含まれる対応する不動産関連用語の存否フラグを比較する。比較部１１０７は、比較対象項目となる複数の不動産関連用語のそれぞれについて、「有有」、「有無」及び「無無」の３つのパターンのうちの何れか１つのパターンと判断する。「有有」は、比較する２つの物件レコードで存在することを意味する。「有無」及び「無無」は、上記同様である。

例えば、比較部１１０７は、比較対象項目となる不動産関連用語「番館」について、２つの物件レコードのそれぞれの比較対象データに含まれる不動産関連用語「番館」の存否フラグを比較する。比較部１１０７は、不動産関連用語「番館」について、「有有」、「有無」及び「無無」の３つのパターンのうちの何れか１つのパターンと判断する。比較する２つの物件レコードの両方の比較対象データが不動産関連用語「番館」の存否フラグ「１」を含む場合、比較部１１０７は、不動産関連用語「番館」について、「有有」パターンと判断する。比較する２つの物件レコードの何れか一方の比較対象データが不動産関連用語「番館」の存否フラグ「１」を含み、他方の比較対象データが不動産関連用語「番館」の存否フラグ「０」を含む場合、比較部１１０７は、不動産関連用語「番館」について、「有無」パターンと判断する。比較する２つの物件レコードの両方の比較対象データが不動産関連用語「番館」の存否フラグ「０」を含む場合、比較部１１０７は、不動産関連用語「番館」について、「無無」パターンと判断する。

複数の比較対象項目は、複数の方位を意図する表記を含む。複数の方位を意図する表記は、東を意図する表記、西を意図する表記及び北を意図する表記を含む。

例えば、東を意図する表記は、補助名称となる東を意図するアルファベット表記の英番「Ｅ」、補助名称となる東を意図する漢字表記の方位「東」、東を意図する英語表記の不動産関連用語「Ｅａｓｔ」または東を意図する英語の日本語読み表記の不動産関連用語「イースト」である。これらは、東を意図する表記として互いに対応するものとみなされる。比較部１１０７は、比較対象項目となる東を意図する表記について、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び東を意図する英語表記の不動産関連用語「Ｅａｓｔ」の存否フラグ及び東を意図する英語の日本語読み表記の不動産関連用語「イースト」の存否フラグを比較する。比較部１１０７は、東を意図する表記について、「有有」、「有無」、及び、「無無」の３つのパターンのうちの何れか１つのパターンと判断する。比較する２つの物件レコードの両方の比較対象データが補助名称の英番「Ｅ」、補助名称の方位「東」、不動産関連用語「Ｅａｓｔ」の存否フラグ「１」または不動産関連用語「イースト」の存否フラグ「１」を含む場合、比較部１１０７は、東を意図する表記について、「有有」パターンと判断する。比較する２つの物件レコードの何れか一方の比較対象データが補助名称の英番「Ｅ」、補助名称の方位「東」、不動産関連用語「Ｅａｓｔ」の存否フラグ「１」または不動産関連用語「イースト」の存否フラグ「１」を含み、他方の比較対象データがこれらの何れも含まない場合、比較部１１０７は、東を意図する表記について、「有無」パターンと判断する。比較する２つの物件レコードの両方の比較対象データが補助名称の英番「Ｅ」、補助名称の方位「東」、不動産関連用語「Ｅａｓｔ」の存否フラグ「１」または不動産関連用語「イースト」の存否フラグ「１」の何れも含まない場合、比較部１１０７は、東を意図する表記について、「無無」パターンと判断する。

例えば、南を意図する表記は、補助名称となる南を意図するアルファベット表記の英番「Ｓ」、補助名称となる南を意図する漢字表記の方位「南」、南を意図する英語表記の不動産関連用語「Ｓｏｕｔｈ」または南を意図する英語の日本語読み表記の不動産関連用語「サウス」である。これらは、南を意図する表記として互いに対応するものとみなされる。比較部１１０７は、比較対象項目となる南を意図する表記について、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び南を意図する英語表記の不動産関連用語「Ｓｏｕｔｈ」の存否フラグ及び南を意図する英語の日本語読み表記の不動産関連用語「サウス」の存否フラグを比較する。比較部１１０７は、南を意図する表記について、上記同様に、「有有」、「有無」、及び、「無無」の３つのパターンのうちの何れか１つのパターンと判断する。

例えば、西を意図する表記は、補助名称となる西を意図するアルファベット表記の英番「Ｗ」、補助名称となる西を意図する漢字表記の方位「西」、西を意図する英語表記の不動産関連用語「Ｗｅｓｔ」または西を意図する英語の日本語読み表記の不動産関連用語「ウエスト」もしくは「ウェスト」である。これらは、西を意図する表記として互いに対応するものとみなされる。比較部１１０７は、比較対象項目となる西を意図する表記について、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び西を意図する英語表記の不動産関連用語「Ｗｅｓｔ」の存否フラグ並びに西を意図する英語の日本語読み表記の不動産関連用語「ウエスト」の存否フラグ及び「ウェスト」の存否フラグを比較する。比較部１１０７は、西を意図する表記について、上記同様に、「有有」、「有無」及び「無無」の３つのパターンのうちの何れか１つのパターンを判断する。

例えば、北を意図する表記は、補助名称となる北を意図するアルファベット表記の英番「Ｎ」、補助名称となる北を意図する漢字表記の方位「北」、北を意図する英語表記の不動産関連用語「Ｎｏｒｔｈ」または北を意図する英語の日本語読み表記の不動産関連用語「ノース」である。これらは、北を意図する表記として互いに対応するものとみなされる。比較部１１０７は、比較対象項目となる北を意図する表記について、２つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び北を意図する英語表記の不動産関連用語「Ｎｏｒｔｈ」の存否フラグ及び北を意図する英語の日本語読み表記の不動産関連用語「ノース」の存否フラグを比較する。比較部１１０７は、北を意図する表記について、上記同様に、「有有」、「有無」及び「無無」の３つのパターンのうちの何れか１つのパターンと判断する。

第３の取得部１１０８は、比較部１１０７による２つの物件レコード間での比較対象データの比較に基づく比較結果データを取得する。比較結果データは、複数の比較対象項目のそれぞれについての比較結果で構成されるデータである。例えば、第３の取得部１１０８は、比較部１１０７による複数の第１の物件レコードのそれぞれの比較対象データと複数の第２の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データを取得する。複数の第１の物件レコードのそれぞれの比較対象データと複数の第２の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データは、第１の比較結果データともいう。

比較結果データは、比較対象項目となるクレンジング後の棟名の比較結果として、比較部１１０７により算出された類似度を含む。

比較結果データは、比較対象項目となるクレンジング後の棟名を表音上の異なる観点で変換された複数の文字列のそれぞれの比較結果として、比較部１１０７により算出された類似度を含む。例えば、比較結果データは、比較対象項目となる羅片棟名の比較結果として、比較部１１０７により算出された類似度を含む。比較結果データは、比較対象項目となる英片棟名の比較結果として、比較部１１０７により算出された類似度を含む。比較結果データは、比較対象項目となる漢片棟名の比較結果として、比較部１１０７により算出された類似度を含む。

比較結果データは、比較対象項目となる頻抜棟名の比較結果として、比較部１１０７により算出された類似度を含む。

比較結果データは、比較対象項目となる複数の補助名称のそれぞれの比較結果として、比較部１１０７により判断された「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れかのパターンを示すデータを含む。例えば、第３の取得部１１０８は、「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうち、比較部１１０７により判断された何れか１つのパターンを「１」、他の３つのパターンを「０」とするｏｎｅ−ｈｏｔベクトルを生成する。例えば、比較結果データは、比較対象項目となる序数の比較結果として、比較部１１０７により判断された「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる数番の比較結果として、比較部１１０７により判断された「一致」、「不一致」、「有無」、及び、「無無」の４つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる英番の比較結果として、比較部１１０７により判断された「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる方位の比較結果として、比較部１１０７により判断された「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れかのパターンを示すデータを含む。

比較結果データは、比較対象項目となる複数の不動産関連用語のそれぞれの比較結果として、比較部１１０７により判断された「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータを含む。例えば、第３の取得部１１０８は、「有有」、「有無」及び「無無」の３つのパターンのうち、比較部１１０７により判断された何れか１つのパターンを「１」、他の２つのパターンを「０」とするｏｎｅ−ｈｏｔベクトルを生成する。

比較結果データは、比較対象項目となる複数の方位を意図する表記のそれぞれの比較結果として、比較部１１０７により判断された「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータを含む。例えば、第３の取得部１１０８は、上記同様に、ｏｎｅ−ｈｏｔベクトルを生成する。例えば、比較結果データは、比較対象項目となる東を意図する表記の比較結果として、比較部１１０７により判断された「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる南を意図する表記の比較結果として、比較部１１０７により判断された「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる西を意図する表記の比較結果として、比較部１１０７により判断された「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる北を意図する表記の比較結果として、比較部１１０７により判断された「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータを含む。

推定部１１０９は、第３の取得部１１０８により取得された比較結果データに基づいて、２つの物件レコード間の一致度を推定する。一致度は、比較する２つの物件レコードが同じ実体の棟のものとする確信度である。例えば、推定部１１０９は、第３の取得部１１０８により取得された第１の比較結果データに基づいて、複数の第１の物件レコードのそれぞれに対する複数の第２の物件レコードのそれぞれについての一致度を推定する。複数の第１の物件レコードのそれぞれに対する複数の第２の物件レコードのそれぞれについての一致度は、第１の一致度ともいう。

推定部１１０９は、機械学習による一致度の推定モデルを用いる。推定モデルは、２つの物件レコード間での比較結果データに基づいて、２つの物件レコード間の一致度を推定する学習済モデルである。推定モデルは、補助記憶デバイス１４に記憶されている。推定モデルの構成例については後述する。

紐付け部１１１０は、推定部１１０９により推定された一致度を用いて、２つの物件レコード間の紐付けを行う。例えば、紐付け部１１１０は、推定部１１０９により推定された第１の一致度を用いて、複数の第１の物件レコードに対する複数の第２の物件レコードの紐付けを行う。紐付け部１１１０による紐付け処理については後述する。

上述の第２の物件レコードの構成例について説明する。
図２は、第２の物件レコードを例示する図である。
第２の物件レコードは、「棟ＩＤ」項目、「棟名」項目、「１１桁住所コード」項目、「番地」項目、「号」項目、「階建て」、「築年」項目及び「築月」項目のデータなどを含むことができる。

上述の比較対象項目及び比較結果の例について説明する。
図３は、比較対象項目及び比較結果を例示する図である。
比較対象項目となる各棟名の比較結果は、類似度である。比較対象項目となる各補助名称の比較結果は、「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れかのパターンを示すデータである。比較対象項目となる不動産関連用語の比較結果は、「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータである。比較対象項目となる各方位を意図する表記の比較結果は、「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータである。

上述の推定モデルの構成例について説明する。
図４は、推定モデルを例示する図である。
推定モデルは、ニューラルネットワークで構成することができる。

例えば、ニューラルネットワークの層数は、全４層である。推定モデルの入力は、２つの物件レコード間での比較結果データに含まれる各比較結果の値群である。推定モデルの出力は、２つの物件レコード間の一致度及び不一致度である。

プロセッサ１１は、住所コードが一致する複数の物件レコードのうちの相互に比較する２つの物件レコード間での比較結果データ、及び、比較する２つの物件レコードが同じ実体の棟のものか否かを示すデータ（正解値）を含む教師データに基づいてニューラルネットワークにより学習し、推定モデルを生成する。教師データは、適宜追加され得る。これに応じて、推定モデルは、更新され得る。ここでは、ニューラルネットワークを機械学習の例として説明しているが、これに限定されない。

比較結果データに含まれる各比較結果と、比較する２つの物件レコードの一致度との間には、一定の相関関係がある。

例えば、比較結果は、クレンジング後の棟名の類似度である。クレンジング後の棟名の文字列は、実体の棟の名称の読みに近い文字列を含む可能性が高い。クレンジング後の棟名の類似度が高くなるにつれ、比較する２つの物件レコードは同じ実体の棟のものである可能性が高くなる。そのため、クレンジング後の棟名の類似度が高くなるにつれ、比較する２つの物件レコード間の一致度は上がる傾向にあり得る。比較結果が羅片棟名の類似度、英片棟名の類似度、漢片棟名の類似度及び頻抜棟名の類似度の場合も同様である。

例えば、比較結果は、各補助名称についての「一致」、「不一致」、「有無」及び「無無」の４つのパターンのうちの何れかのパターンを示すデータである。補助名称は、ある領域に存在する同一名の異なる棟を区別する。ある補助名称が「一致」パターンである場合、「不一致」、「有無」及び「無無」パターンの場合よりも、比較する２つの物件レコードは同じ実体の棟のものである可能性が高くなる。他方、ある補助名称が「不一致」パターンである場合、「一致」、「有無」及び「無無」パターンの場合よりも、比較する２つの物件レコードは異なる実体の棟のものである可能性が高くなる。そのため、各補助名称のパターンに応じて、比較する２つの物件レコード間の一致度は変わる傾向にあり得る。

例えば、比較結果は、各不動産関連用語についての「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータである。不動産関連用語の多くは、「番館」、「マンション」、「貸家」及び「仮称」などの棟の名称の固有性と相容れない用語である。このような不動産関連用語は、入力された棟名に含まれる可能性が高い。このような不動産関連用語が「有有」パターンである場合、比較する２つの物件レコード間の一致度は下がる方向に補正される傾向にあり得る。

なお、「Ｅａｓｔ」及び「イースト」などの方位を意図する不動産関連用語などは、ある領域に存在する同一名の異なる棟を区別する可能性が高い。このような不動産関連用語が「有有」パターンである場合、「有無」及び「無無」パターンの場合よりも、比較する２つの物件レコードは同じ実体の棟のものである可能性が高くなる。そのため、このような不動産関連用語のパターンに応じて、比較する２つの物件レコード間の一致度は変わる傾向にあり得る。

例えば、比較結果は、各方位を意図する表記についての「有有」、「有無」及び「無無」の３つのパターンのうちの何れかのパターンを示すデータである。方位を意図する表記は、ある領域に存在する同一名の異なる棟を区別する。ある方位を意図する表記が「有有」パターンである場合、「有無」及び「無無」パターンの場合よりも、比較する２つの物件レコードは同じ実体の棟のものである可能性が高くなる。そのため、各方位を意図する表記のパターンに応じて、比較する２つの物件レコード間の一致度は変わる傾向にあり得る。

紐付け部１１１０による紐付け処理について説明する。
まず、１回目の紐付け処理について説明する。
図５は、１回目の紐付け処理を例示する図である。

推定部１１０９は、第３の取得部１１０８により取得された第１の比較結果データに基づいて、複数の第１の物件レコードのそれぞれに対する複数の第２の物件レコードのそれぞれについての第１の一致度を推定する。ある共通の住所コードに関連付けられている第１の取得部１１０１により取得された複数の複数の第１の物件レコードの数をｒｉ個とする。ある共通の住所コードに関連付けられている第１の取得部１１０１により取得された複数の複数の第２の物件レコードの数をｕｉ個とする。推定部１１０９は、複数の第１の物件レコードと複数の第２の物件レコードを総当たりで比較し、ｒｉｘｕｉ個の第１の一致度を推定する。

紐付け部１１１０は、第１の条件に基づいて、複数の第１の物件レコードに対する複数の第２の物件レコードの紐付けを行う。第１の条件は、第１の一致度が第１の閾値以上であること、並びに、補助名称が比較する２つの物件レコード間で一致、比較する２つの物件レコードの何れか一方に存在、及び、比較する２つの物件レコードの両方での不存在のうちの何れかとなることを含む条件である。補助名称が比較する２つの物件レコード間で一致、比較する２つの物件レコードの何れか一方に存在、及び、比較する２つの物件レコードの両方での不存在のうちの何れかとなることは、第１の比較結果データが補助名称の比較結果として、「一致」、「有無」及び「無無」のうちの何れかのパターンを示すデータを含むことに対応する。なお、第１の条件は、複数の補助名称の全てを対象としてもいいし、複数の補助名称の何れかを対象としてもよい。第１の閾値は、適宜変更可能である。

第１の条件のように「一致」、「有無」及び「無無」パターンが許容されており、「不一致」パターンが許容されていないのは、以下のような理由による。例えば、実体の棟に補助名称が存在し、比較する２つの物件レコードの棟名に正しく補助名称が入力されている場合、第１の比較結果データは、「一致」パターンを示すデータを含む。そのため、「一致」パターンの場合、比較する２つの物件レコードは同じ棟を指している可能性が高い。例えば、実体の棟に補助名称が存在し、比較する２つの物件レコードのうちの一方の物件レコードの棟名に正しく補助名称が入力され、他方の物件レコードの棟名に補助名称が入力されていない場合、第１の比較結果データは、「有無」パターンを示すデータを含む。「有無」パターンの場合、比較する２つの物件レコードが同じ棟を指している可能性は否定できない。例えば、実体の棟に補助名称が存在し、比較する２つの物件レコードの棟名に補助名称が入力されていない場合、第１の比較結果データは、「無無」パターンを示すデータを含む。実体の棟に補助名称が存在せず、比較する２つの物件レコードの棟名に補助名称が入力されていない場合、第１の比較結果データは、「無無」パターンを示すデータを含む。「無無」パターンの場合、比較する２つの物件レコードが同じ棟を指している可能性は否定できない。例えば、実体の棟に補助名称が存在し、比較する２つの物件レコードのそれぞれの棟名に異なる補助名称が入力されている場合、第１の比較結果データは、「不一致」パターンを示すデータを含む。「不一致」パターンの場合、比較する２つの物件レコードが異なる棟を指している可能性が高い。

さらに、第１の条件は、上述の第１の一致度に関する条件及び補助名称に関する条件に加えて、複数の方位を意図する表記のうち比較する２つの物件レコードの何れか一方に存在する表記が１以下となることを含んでいてもよい。この例では、第１の条件は、比較する２つの物件レコード間で、第１の一致度に関する条件、補助名称に関する条件及び複数の方位を意図する表記に関する条件の全てを満たすことを必要とする条件である。複数の方位を意図する表記のうち比較する２つの物件レコードの何れか一方に存在する表記が１以下となることは、第１の比較結果データが複数の方位を意図する表記のうちの何れか１つの方位を意図する表記の比較結果として、「有無」パターンを示すデータを含むこと、または、複数の方位を意図する表記の全ての比較結果として、「有無」パターンを示すデータを含まないこと、に対応する。

第１の条件のように複数の方位を意図する表記についての「有無」パターンの数を１以下に制限するのは、以下のような理由による。「有無」パターンの数が１である場合、比較する２つの物件レコードのうちの一方の物件レコードは方位を意図する表記を含むが、他方の物件レコードは方位を意図する表記を含まない。「有無」パターンの数が０である場合、比較する２つの物件レコードの両方は、方位を意図する表記を含まない。そのため、「有無」パターンの数が１以下である場合、比較する２つの物件レコードが同じ棟を指している可能性は否定できない。

「有無」パターンの数が２以上である場合、比較する２つの物件レコードは、互いに異なる方位を意図する表記を含む。例えば、比較する２つの物件レコードのうちの一方の物件レコードはある方位（例えば東）を意図する表記を含むが、他方の物件レコードはある方位（例えば東）を意図する表記を含まない。他方、比較する２つの物件レコードのうちの一方の物件レコードは別の方位（例えば南）を意図する表記を含まないが、他方の物件レコードは別の方位（例えば南）を意図する表記を含む。そのため、「有無」パターンの数が２以上である場合、上述の補助名称の「不一致」パターンの場合と同様に、比較する２つの物件レコードが異なる棟を指している可能性が高い。

第１の条件が複数の方位を意図する表記に関する条件を含むことにより、物件レコード間の一致度の推定精度は向上する。

紐付け部１１１０は、第１の条件を満たす第１の物件レコードと第２の物件レコードとを紐付ける。つまり、第１の物件レコードと第２の物件レコードとの間の第１の一致度が第１の閾値以上であっても、これらの間の比較結果データが補助名称の比較結果として「不一致」パターンを示すデータを含む場合、紐付け部１１１０は、第１の物件レコードに対して第２の物件レコードを紐付けない。ある第２の物件レコードが２以上の第１の物件レコードのそれぞれとの間で第１の条件を満たす場合、紐付け部１１１０は、２以上の第１の物件レコードの中で第１の一致度の最も高い第１の物件レコードに対してこの第２の物件レコードを紐付けてもよい。１つの第１の物件レコードに複数の第２の物件レコードが紐付くこともある。紐付け部１１１０は、第１の物件レコードと第２の物件レコードとの紐付けにより、第１の物件レコードとこれに紐づく１以上の第２の物件レコードを名寄せ（グループ化）する。

第１の取得部１１０１により取得された複数の第１の物件レコードのうち第２の物件レコードの少なくとも１つが紐付く第１の物件レコードは、Ｌｅｖｅｌ０レコードともいう。第１の取得部１１０１により取得された複数の第２の物件レコードのうち複数の第１の物件レコードの何れかに紐付く第２の物件レコードは、Ｌｅｖｅｌ１レコードまたは第３の物件レコードともいう。第１の取得部１１０１により取得された複数の第２の物件レコードのうち複数の第１の物件レコードの何れにも紐付かない第２の物件レコードは、第４の物件レコードともいう。

情報処理装置１は、１回目の紐付け処理において第１の条件を用いることにより、第１の一致度が第１の閾値以上となる物件レコード同士を紐付けることができる。さらに、情報処理装置１は、第１の条件を用いることにより、異なる補助名称を棟名に含む物件レコード同士が紐づけることを防止することができる。

次に、２回目の紐付け処理について説明する。
図６は、２回目の紐付け処理を例示する図である。

比較部１１０７は、複数の第３の物件レコードのそれぞれの比較対象データと複数の第４の物件レコードのそれぞれの比較対象データとを上記同様に比較する。第３の取得部１１０８は、比較部１１０７による複数の第３の物件レコードのそれぞれの比較対象データと複数の第４の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データを上記同様に取得する。複数の第３の物件レコードのそれぞれの比較対象データと複数の第４の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データは、第２の比較結果データともいう。

推定部１１０９は、第３の取得部１１０８により取得された第２の比較結果データに基づいて、複数の第３の物件レコードのそれぞれに対する複数の第４の物件レコードのそれぞれについての一致度を上記同様に推定する。推定部１１０９は、複数の第３の物件レコードと複数の第４の物件レコードを総当たりで比較し、一致度を推定する。複数の第３の物件レコードのそれぞれに対する複数の第４の物件レコードのそれぞれについての一致度は、第２の一致度ともいう。

紐付け部１１１０は、第２の条件に基づいて、複数の第３の物件レコードに対する複数の第４の物件レコードの紐付けを行う。第２の条件は、第２の一致度が第２の閾値以上であること、及び、補助名称が比較する２つの物件レコード間で一致、及び、比較する２つの物件レコードの両方での不存在のうちの何れかとなることを含む条件である。補助名称が比較する２つの物件レコード間で一致、及び、比較する２つの物件レコードの両方での不存在のうちの何れかとなることは、第２の比較結果データが補助名称の比較結果として、「一致」及び「無無」のうちの何れかのパターンを示すデータを含むことに対応する。第２の条件は、複数の補助名称の全てを対象としてもいいし、複数の補助名称の何れかを対象としてもよい。第２の閾値は、第１の閾値と同じ値でもいいし、異なっていてもよい。第２の閾値は、適宜変更可能である。

第２の条件のように「一致」及び「無無」パターンが許容されており、「有無」及び「不一致」パターンが許容されていないのは、以下のような理由による。

「有無」パターンの場合、棟名に異なる補助名称を含む第１の物件レコードと第４の物件レコードとが第３の物件レコードを介して間接的に紐付いてしまう可能性がある。例えば、第１の物件レコードの棟名が補助名称を含み、この第１の物件レコードに紐づく第３の物件レコードの棟名が補助名称を含んでいないとする。「有無」パターンが許容されていると、この第１の物件レコードの棟名に含まれる補助名称とは異なる補助名称を含む第４の物件レコードが、この第３の物件レコードに紐付いてしまう。「不一致」パターンの場合、比較する２つの物件レコードが異なる棟を指している可能性が高い。「一致」パターンの場合、上記同様の理由により、比較する２つの物件レコードは同じ棟を指している可能性が高い。「無無」パターンの場合、上記同様の理由により、比較する２つの物件レコードが同じ棟を指している可能性は否定できない。なお、「一致」パターン及び「無無」パターンの場合、棟名に異なる補助名称を含む第１の物件レコードと第４の物件レコードとが第３の物件レコードを介して間接的に紐付いてしまう可能性はない。

さらに、第２の条件は、上述の第２の一致度に関する条件及び補助名称に関する条件に加えて、第１の条件と同様に、複数の方位を意図する表記のうち比較する２つの物件レコードの何れか一方に存在する表記が１以下となることを含んでいてもよい。この例では、第２の条件は、比較する２つの物件レコード間で、第２の一致度に関する条件、補助名称に関する条件及び複数の方位を意図する表記に関する条件の全てを満たすことを必要とする条件である。第２の条件が複数の方位を意図する表記に関する条件を含むのは、第１の条件で説明した理由と同様の理由である。

第２の条件が複数の方位を意図する表記に関する条件を含むことにより、物件レコード間の一致度の推定精度は向上する。

紐付け部１１１０は、第２の条件を満たす第３の物件レコードと第４の物件レコードとを紐付ける。つまり、第３の物件レコードと第４の物件レコードとの間の第２の一致度が閾値以上であっても、これらの間の比較結果データが補助名称の比較結果として「不一致」パターンまたは「有無」パターンを示すデータを含む場合、紐付け部１１１０は、第３の物件レコードに対して第４の物件レコードを紐付けない。ある第４の物件レコードが２以上の第３の物件レコードのそれぞれとの間で第２の条件を満たす場合、紐付け部１１１０は、２以上の第３の物件レコードの中で第２の一致度の最も高い第３の物件レコードに対してこの第４の物件レコードを紐付けてもよい。１つの第３の物件レコードに複数の第４の物件レコードが紐付くこともある。紐付け部１１１０は、第３の物件レコードと第４の物件レコードとの紐付けにより、第３の物件レコードとこれに紐づく１以上の第４の物件レコードを名寄せ（グループ化）する。

複数の第４の物件レコードうち複数の第３の物件レコードの何れかに紐付く第４の物件レコードは、Ｌｅｖｅｌ２レコードともいう。複数の第４の物件レコードのうち複数の第３の物件レコードの何れにも紐付かない第４の物件レコードは、複数の第１の物件レコード及び複数の第３の物件レコードの何れにも紐付かない物件レコードである。複数の第４の物件レコードのうち複数の第３の物件レコードの何れにも紐付かない第４の物件レコードは、第５の物件レコードともいう。

情報処理装置１は、２回目の紐付け処理において第２の条件を用いることにより、第２の一致度が第２の閾値以上となる物件レコード同士を紐付けることができる。さらに、情報処理装置１は、第２の条件を用いることにより、第３の物件レコードを介して棟名に異なる補助名称を含む第１の物件レコードと第４の物件レコードとを間接的に紐付けることを防ぐことができる。

次に、３回目の紐付け処理について説明する。
図７は、３回目の紐付け処理を例示する図である。

比較部１１０７は、複数の第５の物件レコード同士の比較対象データを上記同様に比較する。第３の取得部１１０８は、比較部１１０７による複数の第５の物件レコード同士の比較対象データとの比較に基づく比較結果データを上記同様に取得する。複数の第５の物件レコード同士の比較対象データとの比較に基づく比較結果データは、第３の比較結果データともいう。

推定部１１０９は、第３の取得部１１０８により取得された第３の比較結果データに基づいて、複数の第５の物件レコード同士の一致度を上記同様に推定する。推定部１１０９は、複数の第５の物件レコード同士を総当たりで比較し、一致度を推定する。複数の第５の物件レコード同士の一致度は、第３の一致度ともいう。

紐付け部１１１０は、第３の条件に基づいて、複数の第５の物件レコード同士の紐付けを行う。第３の条件は、第３の一致度が第３の閾値以上であることを含む。第３の閾値は、第１の閾値または第２の閾値と同じ値でもいいし、異なっていてもよい。第３の閾値は、適宜変更可能である。第３の条件は、第１の条件と同様の補助名称に関する条件を含んでいてもよい。第３の条件は、第２の条件と同様の補助名称に関する条件を含んでいてもよい。第３の条件は、第１の条件と同様に複数の方位を意図する表記に関する条件を含んでいてもよい。

紐付け部１１１０は、第３の条件を満たす第５の物件レコード同士を紐付ける。１つの第５の物件レコードに別の複数の第５の物件レコードが紐付くこともある。紐付け部１１１０は、第５の物件レコード同士の紐付けにより、第５の物件レコードとこれに紐づく別の１以上の第５の物件レコードを名寄せ（グループ化）する。

第５の物件レコード同士で紐付く第５の物件レコードは、Ｌｅｖｅｌ３レコードともいう。第５の物件レコード同士で紐付く第５の物件レコードのグループは、名寄せ済みＤＢ１４１に登録されていない新規の棟に関する物件レコードのグループとなり得る。第５の物件レコード同士でも紐付かない第５の物件レコードは、Ｌｅｖｅｌ（−１）レコードともいう。Ｌｅｖｅｌ（−１）レコードは、第１の物件レコードにも紐付かず、第２の物件レコード同士でも紐付かない物件レコードである。

情報処理装置１は、３回目の紐付け処理において第３の条件を用いることにより、第３の一致度が第３の閾値以上となる第５の物件レコード同士を紐付けることができる。これにより、情報処理装置１は、新規の棟に関する可能性の高い第５の物件レコード同士を紐付けることができる。

図８は、情報処理装置１による名寄せ処理を例示するフローチャートである。
情報処理装置１は、住所コード毎に図８に例示する名寄せ処理を繰り返す。

第１の取得部１１０１は、補助記憶デバイス１４から複数の第１の物件レコード及び複数の第２の物件レコードを取得する（ステップＳ１）。クレンジング部１１０２は、第１の取得部１１０１により取得された複数の第１の物件レコード及び複数の第２の物件レコードに含まれる複数の棟名をクレンジングする（ステップＳ２）。変換部１１０３は、クレンジング後の棟名を複数の異なる観点で複数の文字列に変換する（ステップＳ３）。抽出部１１０４は、クレンジング後の棟名から補助名称を抽出する（ステップＳ４）。検出部１１０５は、クレンジング後の棟名から検出対象となる複数の不動産関連用語のそれぞれを検出する（ステップＳ５）。第２の取得部１１０６は、複数の第１の物件レコード及び複数の第２の物件レコードのそれぞれについて、比較対象データを取得する（ステップＳ６）。

比較部１１０７は、複数の第１の物件レコードのそれぞれの比較対象データと複数の第２の物件レコードのそれぞれの比較対象データとを比較する（ステップＳ７）。第３の取得部１１０８は、比較部１１０７による複数の第１の物件レコードのそれぞれの比較対象データと複数の第２の物件レコードのそれぞれの比較対象データとの比較に基づく第１の比較結果データを取得する（ステップＳ８）。推定部１１０９は、第３の取得部１１０８により取得された第１の比較結果データに基づいて、複数の第１の物件レコードのそれぞれに対する複数の第２の物件レコードのそれぞれについての第１の一致度を推定する（ステップＳ９）。紐付け部１１１０は、第１の条件に基づいて、複数の第１の物件レコードに対する複数の第２の物件レコードの紐付けを行う（ステップＳ１０）。

比較部１１０７は、複数の第３の物件レコードのそれぞれの比較対象データと複数の第４の物件レコードのそれぞれの比較対象データとを比較する（ステップＳ１１）。第３の取得部１１０８は、比較部１１０７による複数の第３の物件レコードのそれぞれの比較対象データと複数の第４の物件レコードのそれぞれの比較対象データとの比較に基づく第２の比較結果データを取得する（ステップＳ１２）。推定部１１０９は、第３の取得部１１０８により取得された第２の比較結果データに基づいて、複数の第３の物件レコードのそれぞれに対する複数の第４の物件レコードのそれぞれについての第２の一致度を推定する（ステップＳ１３）。紐付け部１１１０は、第２の条件に基づいて、複数の第３の物件レコードに対する複数の第４の物件レコードの紐付けを行う（ステップＳ１４）。

比較部１１０７は、複数の第５の物件レコード同士の比較対象データを比較する（ステップＳ１５）。第３の取得部１１０８は、比較部１１０７による複数の第５の物件レコード同士の比較対象データとの比較に基づく第３の比較結果データを取得する（ステップＳ１６）。推定部１１０９は、第３の取得部１１０８により取得された第３の比較結果データに基づいて、複数の第５の物件レコード同士の第３の一致度を推定する（ステップＳ１７）。紐付け部１１１０は、第３の条件に基づいて、複数の第５の物件レコード同士の紐付けを行う（ステップＳ１８）。

このように、情報処理装置１は、羅片棟名、英片棟名及び漢片棟名といった表音上の異なる観点で変換された複数の文字列を用いて物件レコード間の一致度を推定することができる。これにより、情報処理装置１は、比較する２つの物件レコードに同じ表音で異なる表記の棟名が含まれていても、物件レコード間の一致度の推定精度を上げることができる。

情報処理装置１は、頻抜棟名を用いて物件レコード間の一致度を推定することができる。頻抜棟名は棟名の特定に寄与しない文字列を除外しているので、情報処理装置１は、頻抜棟名により棟名の特定に寄与する文字列を評価することができる。これにより、情報処理装置１は、物件レコード間の一致度の推定精度を上げることができる。

情報処理装置１は、補助名称を用いて物件レコード間の一致度を推定することができる。比較する２つの物件レコードの棟名に含まれる補助名称が異なれば、比較する２つの物件レコードは、異なる棟を指している可能性が高い。補助名称は棟名の文字列の中の数文字程度でしかないので、異なる補助名称を含む棟名同士であっても、棟名の文字列自体の類似度は高くなる傾向にある。情報処理装置１は、補助名称を用いることで、このような誤判定を防止し、物件レコード間の一致度の推定精度を上げることができる。

情報処理装置１は、不動産関連用語を用いて物件レコード間の一致度を推定することができる。不動産関連用語は、棟の名称の固有性と相容れないものであれば、比較する２つの物件レコード間の一致度を下げる方向に補正するものとなる。不動産関連用語は、棟の名称の固有性と関連するものであれば、比較する２つの物件レコード間の一致度を上げる方向に補正するものとなる。情報処理装置１は、不動産関連用語を用いることで、物件レコード間の一致度の推定精度を上げることができる。

情報処理装置１は、方位を意図する表記を用いて物件レコード間の一致度を推定することができる。比較する２つの物件レコードの棟名に含まれる方位を意図する表記が異なれば、比較する２つの物件レコードは、異なる棟を指している可能性が高い。方位を意図する表記は棟名の文字列の中の数文字程度でしかないので、異なる方位を意図する表記を含む棟名同士であっても、棟名の文字列自体の類似度は高くなる傾向にある。情報処理装置１は、方位を意図する表記を用いることで、このような誤判定を防止し、物件レコード間の一致度の推定精度を上げることができる。

本実施形態によれば、情報処理装置１は、同じ棟と見なせる物件レコードの名寄せ精度を向上させることができる。

なお、名寄せ済みＤＢ１４１及び名寄せ未処理ＤＢ１４２は、情報処理装置１に記憶されている例について説明したが、これに限定されない。名寄せ済みＤＢ１４１及び名寄せ未処理ＤＢ１４２は、情報処理装置１とは異なる装置に記憶されていてもよい。この例では、情報処理装置１は、情報処理装置１とは異なる装置に記憶されている名寄せ済みＤＢ１４１及び名寄せ未処理ＤＢ１４２から物件レコードを取得する。

なお、情報処理装置１は、１つの装置で構成される例について説明したが、これに限定されない。情報処理装置１は、それぞれプロセッサを備える複数の装置で構成されていてもよい。この例では、上述の第１の取得部１１０１、クレンジング部１１０２、変換部１１０３、抽出部１１０４、検出部１１０５、第２の取得部１１０６、比較部１１０７、第３の取得部１１０８、推定部１１０９及び紐付け部１１１０は、複数の装置に分散して実装され得る。例えば、情報処理装置１に含まれる第１の装置が前処理部を実装し、情報処理装置１に含まれる第２の装置が推定部１１０９を実装し、情報処理装置１に含まれる第３の装置が紐付け部１１１０を実装してもよい。

要するにこの発明は、本実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、本実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、本実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合わせてもよい。

１…情報処理装置、１１…プロセッサ、１２…ＲＯＭ、１３…ＲＡＭ、１４…補助記憶デバイス、１５…通信インタフェース、１１０１…第１の取得部、１１０２…クレンジング部、１１０３…変換部、１１０４…抽出部、１１０５…検出部、１１０６…第２の取得部、１１０７…比較部、１１０８…第３の取得部、１１０９…推定部、１１１０…紐付け部、１４１…名寄せ済みＤＢ、１４２…名寄せ未処理ＤＢ。

Claims

名寄せ済みの複数の第１の物件データ及び名寄せ未処理の複数の第２の物件データを取得する第１の取得部と、
前記複数の第１の物件データに含まれる複数の棟名及び前記第２の物件データに含まれる複数の棟名をクレンジングするクレンジング部と、
クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する変換部と、
前記複数の第１の物件データ及び前記複数の第２の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する第２の取得部と、
前記複数の第１の物件データのそれぞれの前記比較対象データと前記複数の第２の物件データのそれぞれの前記比較対象データとを比較する比較部と、
前記複数の第１の物件データと前記複数の第２の物件データとの比較に基づく第１の比較結果データを取得する第３の取得部と、
前記第１の比較結果データに基づいて、前記複数の第１の物件データのそれぞれに対する前記複数の第２の物件データのそれぞれについての第１の一致度を推定する推定部と、
前記第１の一致度を用いて、前記複数の第１の物件データに対する前記複数の第２の物件データの紐付けを行う紐付け部と、
を備える情報処理装置。
前記第１の取得部は、共通の住所コードに関連付けられている前記複数の第１の物件データ及び前記複数の第２の物件データを取得し、
前記変換部は、前記クレンジング後の棟名を、前記住所コードと関連する地名を除外した文字列に変換し、
前記比較対象データは、前記住所コードと関連する地名を除外した文字列を含む、
請求項１に記載の情報処理装置。
前記クレンジング後の棟名から補助名称を抽出する抽出部をさらに備え、
前記比較対象データは、前記抽出部により抽出された前記補助名称を含む、
請求項１または２に記載の情報処理装置。
前記クレンジング後の棟名から複数の不動産関連用語のそれぞれを検出する検出部をさらに備え、
前記比較対象データは、前記複数の不動産関連用語のそれぞれの有無を示すデータを含む、
請求項１から３の何れか一項に記載の情報処理装置。
前記紐付け部は、前記第１の一致度が第１の閾値以上であること、並びに、前記補助名称が比較する２つの物件データ間で一致、比較する２つの物件データの何れか一方に存在、及び、比較する２つの物件データの両方での不存在のうちの何れかとなることを含む第１の条件に基づいて、前記複数の第１の物件データに対する前記複数の第２の物件データの紐付けを行う、請求項３に記載の情報処理装置。
前記比較部は、前記複数の第２の物件データのうち前記複数の第１の物件データの何れかに紐付く複数の第３の物件データのそれぞれの前記比較対象データと前記複数の第２の物件データのうち前記複数の第１の物件データの何れにも紐付かない複数の第４の物件データのそれぞれの前記比較対象データとを比較し、
前記第３の取得部は、前記複数の第３の物件データのそれぞれの前記比較対象データと前記複数の第４の物件データのそれぞれの前記比較対象データとの比較に基づく第２の比較結果データを取得し、
前記推定部は、前記第２の比較結果データに基づいて、前記複数の第３の物件データのそれぞれに対する前記複数の第４の物件データのそれぞれについての第２の一致度を推定し、
前記紐付け部は、前記第２の一致度が第２の閾値以上であること、及び、前記補助名称が比較する２つの物件データ間で一致、または、比較する２つの物件データの両方での不存在のうちの何れかとなることを含む第２の条件に基づいて、前記複数の第３の物件データに対する前記複数の第４の物件データの紐付けを行う、
請求項５に記載の情報処理装置。
前記比較部は、前記複数の第４の物件データのうち前記複数の第３の物件データの何れにも紐付かない複数の第５の物件データ同士の前記比較対象データを比較し、
前記第３の取得部は、前記複数の第５の物件データ同士の前記比較対象データの比較に基づく第３の比較結果データを取得し、
前記推定部は、前記第３の比較結果データに基づいて、前記複数の第５の物件データ同士の第３の一致度を推定し、
前記紐付け部は、前記第３の一致度が第３の閾値以上であることを含む第３の条件に基づいて、前記複数の第５の物件データ同士の紐付けを行う、
請求項６に記載の情報処理装置。
名寄せ済みの複数の第１の物件データ及び名寄せ未処理の複数の第２の物件データを取得することと、
前記複数の第１の物件データに含まれる複数の棟名及び前記第２の物件データに含まれる複数の棟名をクレンジングすることと、
クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換することと、
前記複数の第１の物件データ及び前記複数の第２の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得することと、
前記複数の第１の物件データのそれぞれの前記比較対象データと前記複数の第２の物件データのそれぞれの前記比較対象データとを比較することと、
前記複数の第１の物件データと前記複数の第２の物件データとの比較に基づく第１の比較結果データを取得することと、
前記第１の比較結果データに基づいて、前記複数の第１の物件データのそれぞれに対する前記複数の第２の物件データのそれぞれについての第１の一致度を推定することと、
前記第１の一致度を用いて、前記複数の第１の物件データに対する前記複数の第２の物件データの紐付けを行うことと、
を備える情報処理方法。
コンピュータに、
名寄せ済みの複数の第１の物件データ及び名寄せ未処理の複数の第２の物件データを取得する機能と、
前記複数の第１の物件データに含まれる複数の棟名及び前記第２の物件データに含まれる複数の棟名をクレンジングする機能と、
クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する機能と、
前記複数の第１の物件データ及び前記複数の第２の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する機能と、
前記複数の第１の物件データのそれぞれの前記比較対象データと前記複数の第２の物件データのそれぞれの前記比較対象データとを比較する機能と、
前記複数の第１の物件データと前記複数の第２の物件データとの比較に基づく第１の比較結果データを取得する機能と、
前記第１の比較結果データに基づいて、前記複数の第１の物件データのそれぞれに対する前記複数の第２の物件データのそれぞれについての第１の一致度を推定する機能と、
前記第１の一致度を用いて、前記複数の第１の物件データに対する前記複数の第２の物件データの紐付けを行う機能と、
を実現させるための情報処理プログラム。