JP6925665B1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP6925665B1 JP6925665B1 JP2020078358A JP2020078358A JP6925665B1 JP 6925665 B1 JP6925665 B1 JP 6925665B1 JP 2020078358 A JP2020078358 A JP 2020078358A JP 2020078358 A JP2020078358 A JP 2020078358A JP 6925665 B1 JP6925665 B1 JP 6925665B1
- Authority
- JP
- Japan
- Prior art keywords
- property data
- data
- property
- name
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 74
- 238000003672 processing method Methods 0.000 title claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 abstract description 15
- 238000000034 method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000010276 construction Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】同じ棟と見なせる物件データの名寄せ精度を向上させる情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】情報処理装置1は、名寄せ済みの複数の第1の物件データ及び名寄せ未処理の複数の第2の物件データを取得する第1の取得部1101と、複数の第1の物件データに含まれる複数の棟名及び第2の物件データに含まれる複数の棟名をクレンジングするクレンジング部1102と、クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する変換部1103と、複数の第1の物件データ及び複数の第2の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する第2の取得部1106と、を備える。【選択図】図1
Description
本発明は、物件データの名寄せ処理を行う情報処理装置、情報処理方法及び情報処理プログラムに関する。
アパート・マンションといった集合住宅などの各部屋(物件)が賃貸または売買に出される際、各不動産会社は物件情報を不動産の取引サイトに登録する。例えば、物件情報は、賃貸または売買に出される物件の情報及び物件の属する棟情報などを含む。棟情報は、棟の名称、所在地(都道府県・市区町村・町丁目・番地・号)、階建て、築年・築月などを属性とする棟を特定する情報である。
同じアパート・マンションの棟における部屋の特徴の違いによる比較や、時期による価格・賃料や成約までの期間の違い、及び、それらの推移などを分析するために、実体として同じ棟に属する物件情報については集約することが望まれる。
物件情報において、棟情報に相違があって、実際は同一棟であるにもかかわらず、異なる棟・建物とみなされている状況が生じる。棟情報が相違する原因は、不動産の物件の広告・売買履歴の元となる物件情報を不動産会社それぞれが作成しており、物件の属する棟情報の記載についても揺れや漏れ、誤りがあったりするためである。
例えば、棟の名称が入力される際に、同じ読みであっても一方ではアルファベット表記、他方ではカタカナ表記と入り交じっていたり、名称の欄なのにセールスコピーや特徴といった名称ではない記載があったりする。また,番地・号といった所在地や、階建て、築年・築月が省略・誤入力されているケースも多数みられる。
特許文献1には、入力されたデータの住所情報を解析し、住所コード、番地・号、建物名、棟・階・部屋番号などに分解し、一致関係にあるデータには同一の一致IDを付与することが開示されている。
しかしながら、特許文献1の開示は、入力された建物名自体を評価している。棟の名称は、上述のように、揺れ、漏れ、誤り、表記の入り交じり、不要な記載の付加などを多く含む。そのため、特許文献1の開示では、精度よく物件情報を名寄せすることができない。
そこで、本発明は、同じ棟と見なせる物件データの名寄せ精度を向上させる技術を提供することを目的とする。
実施形態によれば、情報処理装置は、名寄せ済みの複数の第1の物件データ及び名寄せ未処理の複数の第2の物件データを取得する第1の取得部と、前記複数の第1の物件データに含まれる複数の棟名及び前記第2の物件データに含まれる複数の棟名をクレンジングするクレンジング部と、クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する変換部と、前記複数の第1の物件データ及び前記複数の第2の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する第2の取得部と、前記複数の第1の物件データのそれぞれの前記比較対象データと前記複数の第2の物件データのそれぞれの前記比較対象データとを比較する比較部と、前記複数の第1の物件データと前記複数の第2の物件データとの比較に基づく第1の比較結果データを取得する第3の取得部と、前記第1の比較結果データに基づいて、前記複数の第1の物件データのそれぞれに対する前記複数の第2の物件データのそれぞれについての第1の一致度を推定する推定部と、前記第1の一致度を用いて、前記複数の第1の物件データに対する前記複数の第2の物件データの紐付けを行う紐付け部と、を備える。
実施形態によれば、同じ棟と見なせる物件データの名寄せ精度を向上させる技術を提供することができる。
以下、図面を参照しながら実施形態について詳細に説明する。
図1は、実施形態に係る情報処理装置1の構成例を示すブロック図である。
情報処理装置1は、物件データの名寄せ処理を行うコンピュータである。物件データは、各不動産会社によって登録された各物件の物件情報に対応するデータである。物件は、賃貸または売買に出される部屋などの不動産である。物件情報は、物件の情報及び物件の属する棟情報などを含む。物件の情報は、物件自体の詳細な情報である。棟情報は、棟の名称(以下、棟名ともいう)、所在地(都道府県・市区町村・町丁目・番地・号)、階建て、築年・築月などを属性とする棟を特定する情報である。棟名は、各不動産会社によって適宜入力される文字列で構成される。棟は、建物の意味を含む。
情報処理装置1は、物件データの名寄せ処理を行うコンピュータである。物件データは、各不動産会社によって登録された各物件の物件情報に対応するデータである。物件は、賃貸または売買に出される部屋などの不動産である。物件情報は、物件の情報及び物件の属する棟情報などを含む。物件の情報は、物件自体の詳細な情報である。棟情報は、棟の名称(以下、棟名ともいう)、所在地(都道府県・市区町村・町丁目・番地・号)、階建て、築年・築月などを属性とする棟を特定する情報である。棟名は、各不動産会社によって適宜入力される文字列で構成される。棟は、建物の意味を含む。
情報処理装置1は、プロセッサ11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、補助記憶デバイス14及び通信インタフェース15を備えるコンピュータである。プロセッサ11、ROM12、RAM13、補助記憶デバイス14及び通信インタフェース15は、データバスなどを介して互いに接続される。図1では、通信インタフェースは、「通信I/F」と記載されている。
プロセッサ11は、情報処理装置1全体の動作を制御する。例えば、プロセッサ11は、CPU(Central Processing Unit)であるが、これに限定されない。プロセッサ11は、種々の回路で構成されていてもよい。プロセッサ11は、ROM12または補助記憶デバイス14に予め記憶されている物件データの名寄せ処理のための情報処理プログラムをRAM13に展開する。プロセッサ11は、RAM13に展開された情報処理プログラムを実行することで、後述する各部を実装し、種々の動作を実行する。情報処理プログラムは、情報処理装置1に、プロセッサ11に実装される後述する各部の機能を実現させるためのプログラムである。
ROM12は、予め各種プログラム及び制御データなどを記憶する不揮発性のメモリである。例えば、ROM12は、プロセッサ11で実行される情報処理プログラムを記憶する。
RAM13は、プロセッサ11の処理中のデータなどを一時的に格納する揮発性のメモリである。
補助記憶デバイス14は、データ及びプログラムなどを記憶する不揮発性メモリで構成される装置である。例えば、補助記憶デバイス14は、HDD(Hard Disk Drive)またはSSD(Solid State Drive)などで構成されるが、これらに限定されない。補助記憶デバイス14は、記憶部の一例である。
例えば、補助記憶デバイス14は、プロセッサ11で実行される情報処理プログラムを記憶する。情報処理プログラムは、ネットワークを介して情報処理装置1にダウンロードされてもよい。情報処理プログラムは、CD−ROM(Compact Disc Raad Only Memory)などのコンピュータ可読記憶媒体に記憶されたものが情報処理装置1にインストールされたものでもよい。
補助記憶デバイス14は、名寄せ済みDB(データベース)141及び名寄せ未処理DB142を記憶する。
名寄せ済みDB141は、名寄せ済みの複数の物件レコードを管理するデータベースである。名寄せ済みの複数の物件レコードは、名寄せ済みの複数の物件データの一例である。名寄せ済みの複数の物件データは、複数の第1の物件データともいう。以下では、名寄せ済みの物件レコードは、第1の物件レコードという。
例えば、物件レコードは、「棟ID」項目、「棟名」項目、「11桁住所コード」項目、「番地」項目、「号」項目、「階建て」、「築年」項目及び「築月」項目のデータなどを含む。
「棟ID」項目のデータは、各不動産会社によって任意に物件情報に付与される棟を識別するIDのデータである。例えば、ある不動産会社は、同じ棟の異なる部屋の物件情報を登録する場合、同じ棟IDを物件情報に付与する。例えば、異なる不動産会社が同じ棟の物件情報を登録する場合、異なる不動産会社は、異なる棟IDを物件情報に付与する。「棟名」項目のデータは、物件情報のうち棟情報に含まれる棟名に対応するデータである。
「11桁住所コード」項目のデータは、物件情報のうち棟情報に含まれる所在地の都道府県・市区 町村・町丁目までを一意に識別する住所コードである。住所コードは、情報処理装置1によって棟情報に含まれる所在地の都道府県・市区 町村・町丁目から変換され得る。「番地」項目のデータは、物件情報のうち棟情報に含まれる所在地の番地に対応するデータである。「号」項目のデータは、物件情報のうち棟情報に含まれる所在地の号に対応するデータである。「階建て」項目のデータは、物件情報のうち棟情報に含まれる階建てに対応するデータである。「築年」項目のデータは、物件情報のうち棟情報に含まれる築年に対応するデータである。「築月」項目のデータは、物件情報のうち棟情報に含まれる築月に対応するデータである。
第1の物件レコードは、目検により実体の棟に名寄せされた物件レコードである。名寄せ済みDB141は、実体の棟毎に1つの第1の物件レコードを管理する。名寄せ済みDB141で管理されている第1の物件レコードは、r−DB(Resolved DB)レコードともいう。名寄せ済みDB141は、適宜更新され得る。
名寄せ未処理DB142は、名寄せ未処理の複数の物件レコードを管理するデータベースである。名寄せ未処理の複数の物件レコードは、名寄せ未処理の複数の物件データの一例である。名寄せ未処理の複数の物件データは、複数の第2の物件データともいう。以下では、名寄せ未処理の物件レコードは、第2の物件レコードという。第2の物件レコードは、情報処理装置1により名寄せ処理を施されていない物件レコードである。第2の物件レコードは、上述の第1の物件レコードと同様に構成され得る。名寄せ未処理DB142は、各不動産会社による物件情報の登録に基づく情報処理装置1による第2の物件レコードの追加に応じて更新され得る。名寄せ未処理DB142は、情報処理装置1による名寄せ処理が行われた第2の物件レコードの削除に応じて更新され得る。名寄せ未処理DB142で管理されている第2の物件レコードは、u−DB(Unresolved DB)レコードともいう。
通信インタフェース15は、有線または無線で通信するためのインタフェースである。例えば、通信インタフェース15は、有線または無線の種々の規格に対応するインタフェースを含む。通信インタフェース15は、情報処理装置1と他の装置との間のデータ通信を可能にする。
なお、情報処理装置1のハードウェア構成は、上述の構成に限定されるものではない。情報処理装置1は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。
プロセッサ11に実装される各部について説明する。
プロセッサ11は、第1の取得部1101、クレンジング部1102、変換部1103、抽出部1104、検出部1105、第2の取得部1106、比較部1107、第3の取得部1108、推定部1109及び紐付け部1110を実装する。第1の取得部1101、クレンジング部1102、変換部1103、抽出部1104、検出部1105、第2の取得部1106、比較部1107及び第3の取得部1108をまとめて前処理部ということもある。
プロセッサ11は、第1の取得部1101、クレンジング部1102、変換部1103、抽出部1104、検出部1105、第2の取得部1106、比較部1107、第3の取得部1108、推定部1109及び紐付け部1110を実装する。第1の取得部1101、クレンジング部1102、変換部1103、抽出部1104、検出部1105、第2の取得部1106、比較部1107及び第3の取得部1108をまとめて前処理部ということもある。
第1の取得部1101は、補助記憶デバイス14から複数の第1の物件レコード及び複数の第2の物件レコードを取得する。第1の取得部1101は、名寄せ済みDB141から複数の第1の物件レコードを取得する。第1の取得部1101は、名寄せ未処理DB142から複数の第2の物件レコードを取得する。ここでは、第1の取得部1101は、共通の住所コードに関連付けられている複数の第1の物件レコード及び複数の第2の物件レコードを取得するものとする。これは、物件レコードの数を限定することで、情報処理装置1の処理負荷を軽くするためである。
クレンジング部1102は、第1の取得部1101により取得された複数の第1の物件レコードに含まれる複数の棟名をクレンジングする。クレンジング部1102は、第1の取得部1101により取得された複数の第2の物件レコードに含まれる複数の棟名をクレンジングする。クレンジングは、棟名の文字列内において、不要な文字列を除去することである。例えば、不要な文字列は、電話暗号、部屋番号、ペット飼育に関する文言、セールスコピー及び物件の特徴などの棟または不動産に関連しない文字列である。
変換部1103は、クレンジング部1102によりクレンジングされた後の棟名を複数の異なる観点で複数の文字列に変換する。クレンジング部1102によりクレンジングされた後の棟名は、クレンジング後の棟名ともいう。
例えば、変換部1103は、クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する。
例えば、変換部1103は、クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する。
1つ目の表音上の観点での変換は、ローマ字からカタカナへの変換である。この例では、変換部1103は、クレンジング後の棟名に含まれるローマ字の文字列をカタカナの文字列に変換する。例えば、変換部1103は、変換辞書を用いてローマ字からカタカナへ変換する。なお、変換部1103は、クレンジング後の棟名に含まれるローマ字以外の文字列を変換することはない。以下では、クレンジング後の棟名にローマ字からカタカナへの変換を施した後の文字列で構成される棟名は、羅片棟名ともいう。クレンジング後の棟名がローマ字の文字列を含まない場合、羅片棟名は、クレンジング後の棟名と同じ文字列で構成される。
2つ目の表音上の観点での変換は、英語からカタカナへの変換である。この例では、変換部1103は、クレンジング後の棟名に含まれる英語の文字列(英単語など)をカタカナの文字列に変換する。例えば、変換部1103は、Encoder−Decoderを用いて英語からカタカナへ変換する。これにより、変換部1103は、英語の文字列をクレンジング後の棟名に応じた固有のカタカナ読み(英語読みまたはフランス語読みなど)の文字列へ変換することができる。なお、変換部1103は、クレンジング後の棟名に含まれる英語以外の文字列を変換することはない。以下では、クレンジング後の棟名に英語からカタカナへの変換を施した後の文字列で構成される棟名は、英片棟名ともいう。クレンジング後の棟名が英語の文字列を含まない場合、英片棟名は、クレンジング後の棟名と同じ文字列で構成される。
3つ目の表音上の観点での変換は、漢字からカタカナへの変換である。この例では、変換部1103は、クレンジング後の棟名に含まれる漢字の文字列をカタカナの文字列に変換する。例えば、変換部1103は、Pythonのライブラリを用いて、漢字からカタカナへ変換する。これにより、変換部1103は、漢字の文字列をクレンジング後の棟名に応じた固有のカタカナ読みの文字列へ変換することができる。なお、変換部1103は、クレンジング後の棟名に含まれる漢字以外の文字列を変換することはない。以下では、クレンジング後の棟名に漢字からカタカナへの変換を施した後の文字列で構成される棟名は、漢片棟名ともいう。クレンジング後の棟名が漢字の文字列を含まない場合、漢片棟名は、クレンジング後の棟名と同じ文字列で構成される。
なお、変換部1103は、クレンジング後の棟名を表音上の異なる観点で複数のカタカタの文字列に変換しているが、ひらがなの文字列に変換してもよい。
例えば、変換部1103は、クレンジング後の棟名を住所コードで特定される地名の観点で変換する。この例では、変換部1103は、クレンジング後の棟名を、第1の取得部1101により取得された複数の第1の物件レコード及び複数の第2の物件レコードに関連付けられている共通の住所コードと関連する地名を除外した文字列に変換する。住所コードと関連する地名は、住所コード毎に予め決められている。例えば、住所コードと関連する地名は、住所コードで特定される町丁目の地名の文字列である。住所コードと関連する地名は、住所コードで特定される町丁目の地名を含む文字列でもよい。住所コードと関連する地名は、住所コードで特定される町丁目の地名の一部を除いた文字列でもよい。住所コードと関連する地名を除外するのは、クレンジング後の棟名に含まれる住所コードと関連する地名は、棟名の特定に寄与する文字列ではないからである。以下では、クレンジング後の棟名から住所コードと関連する地名を除外した文字列で構成される棟名は、頻抜棟名ともいう。クレンジング後の棟名が住所コードと関連する地名を含まない場合、頻抜棟名は、クレンジング後の棟名と同じ文字列で構成される。
抽出部1104は、クレンジング後の棟名から補助名称を抽出する。
補助名称は、ある領域に複数棟が存在する場合に、同一名(ブランド名またはシリーズ名など)の各棟を区別する名称である。
例えば、補助名称は、序数、数番、英番及び方位である。
補助名称は、ある領域に複数棟が存在する場合に、同一名(ブランド名またはシリーズ名など)の各棟を区別する名称である。
例えば、補助名称は、序数、数番、英番及び方位である。
序数は、「第1○○マンション」など主に建物名の前部に加えられ建物名の一部となって用いられている補助名称である。序数は、「第」などの文字と「1」などの算用数字、「二」などの漢数字及び「参」などの漢数字の大字などが結びついたものである。序数と結びつく数字は、ローマ数字でもよい。例えば、抽出部1104は、クレンジング後の棟名から「第」などの文字と結び付いて序数となる文字列を検出し、検出した文字列内の数字を序数として抽出することができる。
数番は、「○○マンション1号棟」など棟名の後方に付く補助名称である。数番は、「1」などの算用数字、「二」などの漢数字及び「参」などの漢数字の大字などである。数番は、ローマ数字でもよい。例えば、抽出部1104は、クレンジング後の棟名から「号棟」、「番館」及び「番街」などの数番と結び付く文字を検出し、検出した文字の前に付く数字を数番として抽出することができる。
英番は、「○○マンションA号棟」など棟名の後方に付く補助名称である。英番は、「A」などのアルファベットである。例えば、抽出部1104は、クレンジング後の棟名から「号棟」及び「棟」などの英番と結び付く文字を検出し、検出した文字の前に付くアルファベットを英番として抽出することができる。なお、アルファベットのIは算用数字の1または1を意味するローマ数字の記号の代わりに使われている可能性がある。アルファベットのVは5を意味するローマ数字の記号の代わりに使われている可能性がある。そのため、抽出部1104は、アルファベットのI及びVを英番として抽出しなくてもよい。
方位は、「○○マンション東棟」など棟名の後方に付く補助名称である。方位は、「東」などの漢字である。例えば、抽出部1104は、クレンジング後の棟名から「棟」などの方位と結び付く文字を検出し、検出した文字の前に付く漢字を方位として抽出することができる。
検出部1105は、クレンジング後の棟名から検出対象となる複数の不動産関連用語のそれぞれを検出する。不動産関連用語は、不動産に関連する用語である。不動産関連用語は、「番館」、「マンション」、「貸家」及び「仮称」などの種々の用語を含む。不動産関連用語は、「EAST」などの方位を意図する英語表記を含む。不動産関連用語は、「イースト」などの方位を意図する英語の日本語読み表記を含む。検出対象となる複数の不動産関連用語は予め決められていてもいいし、適宜更新されてもよい。検出部1105は、検出対象となる複数の不動産関連用語のそれぞれについてクレンジング後の棟名の文字列から検出する。検出部1105は、検出結果に基づいて検出対象となる複数の不動産関連用語のそれぞれについて存否フラグを登録する。例えば、存否フラグ「1」は、クレンジング後の棟名の文字列内に不動産関連用語が存在することを意味する。存否フラグ「0」は、クレンジング後の棟名の文字列内に不動産関連用語が存在しないことを意味する。存否フラグは、不動産関連用語の有無を示すデータの一例である。
第2の取得部1106は、複数の第1の物件レコード及び複数の第2の物件レコードのそれぞれについて、比較対象データを取得する。比較対象データは、物件レコード間の比較に用いられるデータである。
比較対象データは、クレンジング後の棟名を含む。
比較対象データは、変換部1103により表音上の異なる観点で変換された複数の文字列を含む。例えば、比較対象データは、変換部1103によりクレンジング後の棟名から変換された羅片棟名を含む。比較対象データは、変換部1103によりクレンジング後の棟名から変換された英片棟名を含む。比較対象データは、変換部1103によりクレンジング後の棟名から変換された漢片棟名を含む。
比較対象データは、変換部1103により変換された頻抜棟名を含む。
比較対象データは、抽出部1104により抽出された補助名称を含む。
比較対象データは、検出対象となる複数の不動産関連用語のそれぞれの存否フラグを含む。
なお、比較対象データは、上述のような棟名に基づくデータ以外に、物件レコードに含まれる番地、号、階建て、築年及び築月などを含んでいてもよい。
比較部1107は、2つの物件レコード間で比較対象データを比較する。例えば、比較部1107は、複数の第1の物件レコードのそれぞれの比較対象データと複数の第2の物件レコードのそれぞれの比較対象データとを比較する。比較部1107は、複数の比較対象項目のそれぞれについて比較対象データ同士を比較する。
複数の比較対象項目は、クレンジング後の棟名を含む。比較部1107は、比較対象項目となるクレンジング後の棟名について、2つの物件レコードのそれぞれの比較対象データに含まれるクレンジング後の棟名同士を比較する。例えば、比較部1107は、Pythonのdifflabライブラリ内SequenceMatcherクラスのratio関数で返される類似度の数値を用いて、クレンジング後の棟名同士の類似度を算出する。
複数の比較対象項目は、クレンジング後の棟名を表音上の異なる観点で変換された複数の文字列を含む。比較部1107は、比較対象項目となる表音上の異なる観点で変換された複数の文字列のそれぞれについて、2つの物件レコードのそれぞれの比較対象データに含まれる対応する文字列同士を比較する。例えば、比較部1107は、上記同様に、表音上の異なる観点で変換された文字列同士の類似度を算出する。複数の比較対象項目は、羅片棟名を含む。比較部1107は、比較対象項目となる羅片棟名について、2つの物件レコードのそれぞれの比較対象データに含まれる羅片棟名同士を比較する。例えば、比較部1107は、上記同様に、羅片棟名同士の類似度を算出する。複数の比較対象項目は、英片棟名を含む。比較部1107は、比較対象項目となる英片棟名について、2つの物件レコードのそれぞれの比較対象データに含まれる英片棟名同士を比較する。例えば、比較部1107は、上記同様に、英片棟名同士の類似度を算出する。複数の比較対象項目は、漢片棟名を含む。比較部1107は、比較対象項目となる漢片棟名について、2つの物件レコードのそれぞれの比較対象データに含まれる漢片棟名同士を比較する。例えば、比較部1107は、上記同様に、漢片棟名同士の類似度を算出する。
複数の比較対象項目は、頻抜棟名を含む。比較部1107は、比較対象項目となる頻抜について、2つの物件レコードのそれぞれの比較対象データに含まれる頻抜棟名同士を比較する。例えば、比較部1107は、上記同様に、頻抜棟名同士の類似度を算出する。
複数の比較対象項目は、複数の補助名称を含む。比較部1107は、比較対象項目となる複数の補助名称のそれぞれについて、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部1107は、比較対象項目となる複数の補助名称のそれぞれについて、「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れか1つのパターンと判断する。「一致」は、比較する2つの物件レコード間で一致することを意味する。「不一致」は、比較する2つの物件レコード間で不一致であることを意味する。「有無」は、比較する2つの物件レコードの何れか一方に存在し、他方に存在しないことを意味する。「無無」は、比較する2つの物件レコードで不存在であることを意味する。
複数の比較対象項目は、補助名称となる序数を含む。比較部1107は、比較対象項目となる序数について、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部1107は、序数について、「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れか1つのパターンと判断する。比較する2つの物件レコードのそれぞれの比較対象データが序数を含み、互いの序数が同内容を指している場合、比較部1107は、序数について、「一致」パターンと判断する。比較する2つの物件レコードのそれぞれの比較対象データが序数を含み、互いの序数が異なる内容を指している場合、比較部1107は、序数について、「不一致」パターンと判断する。比較する2つの物件レコードの何れか一方の比較対象データが序数を含み、他方の比較対象データが序数を含まない場合、比較部1107は、序数について、「有無」パターンと判断する。比較する2つの物件レコードの両方の比較対象データが序数を含まない場合、比較部1107は、序数について、「無無」パターンと判断する。
複数の比較対象項目は、補助名称となる数番を含む。比較部1107は、比較対象項目となる数番について、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部1107は、上記同様に、数番について、「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れか1つのパターンと判断する。
複数の比較対象項目は、補助名称となる方位を含む。比較部1107は、比較対象項目となる方位について、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称同士を比較する。比較部1107は、上記同様に、方位について、「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れか1つのパターンと判断する。
複数の比較対象項目は、複数の不動産関連用語を含む。比較部1107は、比較対象項目となる複数の不動産関連用語のそれぞれについて、2つの物件レコードのそれぞれの比較対象データに含まれる対応する不動産関連用語の存否フラグを比較する。比較部1107は、比較対象項目となる複数の不動産関連用語のそれぞれについて、「有有」、「有無」及び「無無」の3つのパターンのうちの何れか1つのパターンと判断する。「有有」は、比較する2つの物件レコードで存在することを意味する。「有無」及び「無無」は、上記同様である。
例えば、比較部1107は、比較対象項目となる不動産関連用語「番館」について、2つの物件レコードのそれぞれの比較対象データに含まれる不動産関連用語「番館」の存否フラグを比較する。比較部1107は、不動産関連用語「番館」について、「有有」、「有無」及び「無無」の3つのパターンのうちの何れか1つのパターンと判断する。比較する2つの物件レコードの両方の比較対象データが不動産関連用語「番館」の存否フラグ「1」を含む場合、比較部1107は、不動産関連用語「番館」について、「有有」パターンと判断する。比較する2つの物件レコードの何れか一方の比較対象データが不動産関連用語「番館」の存否フラグ「1」を含み、他方の比較対象データが不動産関連用語「番館」の存否フラグ「0」を含む場合、比較部1107は、不動産関連用語「番館」について、「有無」パターンと判断する。比較する2つの物件レコードの両方の比較対象データが不動産関連用語「番館」の存否フラグ「0」を含む場合、比較部1107は、不動産関連用語「番館」について、「無無」パターンと判断する。
複数の比較対象項目は、複数の方位を意図する表記を含む。複数の方位を意図する表記は、東を意図する表記、西を意図する表記及び北を意図する表記を含む。
例えば、東を意図する表記は、補助名称となる東を意図するアルファベット表記の英番「E」、補助名称となる東を意図する漢字表記の方位「東」、東を意図する英語表記の不動産関連用語「East」または東を意図する英語の日本語読み表記の不動産関連用語「イースト」である。これらは、東を意図する表記として互いに対応するものとみなされる。比較部1107は、比較対象項目となる東を意図する表記について、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び東を意図する英語表記の不動産関連用語「East」の存否フラグ及び東を意図する英語の日本語読み表記の不動産関連用語「イースト」の存否フラグを比較する。比較部1107は、東を意図する表記について、「有有」、「有無」、及び、「無無」の3つのパターンのうちの何れか1つのパターンと判断する。比較する2つの物件レコードの両方の比較対象データが補助名称の英番「E」、補助名称の方位「東」、不動産関連用語「East」の存否フラグ「1」または不動産関連用語「イースト」の存否フラグ「1」を含む場合、比較部1107は、東を意図する表記について、「有有」パターンと判断する。比較する2つの物件レコードの何れか一方の比較対象データが補助名称の英番「E」、補助名称の方位「東」、不動産関連用語「East」の存否フラグ「1」または不動産関連用語「イースト」の存否フラグ「1」を含み、他方の比較対象データがこれらの何れも含まない場合、比較部1107は、東を意図する表記について、「有無」パターンと判断する。比較する2つの物件レコードの両方の比較対象データが補助名称の英番「E」、補助名称の方位「東」、不動産関連用語「East」の存否フラグ「1」または不動産関連用語「イースト」の存否フラグ「1」の何れも含まない場合、比較部1107は、東を意図する表記について、「無無」パターンと判断する。
例えば、南を意図する表記は、補助名称となる南を意図するアルファベット表記の英番「S」、補助名称となる南を意図する漢字表記の方位「南」、南を意図する英語表記の不動産関連用語「South」または南を意図する英語の日本語読み表記の不動産関連用語「サウス」である。これらは、南を意図する表記として互いに対応するものとみなされる。比較部1107は、比較対象項目となる南を意図する表記について、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び南を意図する英語表記の不動産関連用語「South」の存否フラグ及び南を意図する英語の日本語読み表記の不動産関連用語「サウス」の存否フラグを比較する。比較部1107は、南を意図する表記について、上記同様に、「有有」、「有無」、及び、「無無」の3つのパターンのうちの何れか1つのパターンと判断する。
例えば、西を意図する表記は、補助名称となる西を意図するアルファベット表記の英番「W」、補助名称となる西を意図する漢字表記の方位「西」、西を意図する英語表記の不動産関連用語「West」または西を意図する英語の日本語読み表記の不動産関連用語「ウエスト」もしくは「ウェスト」である。これらは、西を意図する表記として互いに対応するものとみなされる。比較部1107は、比較対象項目となる西を意図する表記について、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び西を意図する英語表記の不動産関連用語「West」の存否フラグ並びに西を意図する英語の日本語読み表記の不動産関連用語「ウエスト」の存否フラグ及び「ウェスト」の存否フラグを比較する。比較部1107は、西を意図する表記について、上記同様に、「有有」、「有無」及び「無無」の3つのパターンのうちの何れか1つのパターンを判断する。
例えば、北を意図する表記は、補助名称となる北を意図するアルファベット表記の英番「N」、補助名称となる北を意図する漢字表記の方位「北」、北を意図する英語表記の不動産関連用語「North」または北を意図する英語の日本語読み表記の不動産関連用語「ノース」である。これらは、北を意図する表記として互いに対応するものとみなされる。比較部1107は、比較対象項目となる北を意図する表記について、2つの物件レコードのそれぞれの比較対象データに含まれる補助名称及び北を意図する英語表記の不動産関連用語「North」の存否フラグ及び北を意図する英語の日本語読み表記の不動産関連用語「ノース」の存否フラグを比較する。比較部1107は、北を意図する表記について、上記同様に、「有有」、「有無」及び「無無」の3つのパターンのうちの何れか1つのパターンと判断する。
第3の取得部1108は、比較部1107による2つの物件レコード間での比較対象データの比較に基づく比較結果データを取得する。比較結果データは、複数の比較対象項目のそれぞれについての比較結果で構成されるデータである。例えば、第3の取得部1108は、比較部1107による複数の第1の物件レコードのそれぞれの比較対象データと複数の第2の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データを取得する。複数の第1の物件レコードのそれぞれの比較対象データと複数の第2の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データは、第1の比較結果データともいう。
比較結果データは、比較対象項目となるクレンジング後の棟名の比較結果として、比較部1107により算出された類似度を含む。
比較結果データは、比較対象項目となるクレンジング後の棟名を表音上の異なる観点で変換された複数の文字列のそれぞれの比較結果として、比較部1107により算出された類似度を含む。例えば、比較結果データは、比較対象項目となる羅片棟名の比較結果として、比較部1107により算出された類似度を含む。比較結果データは、比較対象項目となる英片棟名の比較結果として、比較部1107により算出された類似度を含む。比較結果データは、比較対象項目となる漢片棟名の比較結果として、比較部1107により算出された類似度を含む。
比較結果データは、比較対象項目となる頻抜棟名の比較結果として、比較部1107により算出された類似度を含む。
比較結果データは、比較対象項目となる複数の補助名称のそれぞれの比較結果として、比較部1107により判断された「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れかのパターンを示すデータを含む。例えば、第3の取得部1108は、「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうち、比較部1107により判断された何れか1つのパターンを「1」、他の3つのパターンを「0」とするone−hotベクトルを生成する。例えば、比較結果データは、比較対象項目となる序数の比較結果として、比較部1107により判断された「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる数番の比較結果として、比較部1107により判断された「一致」、「不一致」、「有無」、及び、「無無」の4つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる英番の比較結果として、比較部1107により判断された「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる方位の比較結果として、比較部1107により判断された「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れかのパターンを示すデータを含む。
比較結果データは、比較対象項目となる複数の不動産関連用語のそれぞれの比較結果として、比較部1107により判断された「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータを含む。例えば、第3の取得部1108は、「有有」、「有無」及び「無無」の3つのパターンのうち、比較部1107により判断された何れか1つのパターンを「1」、他の2つのパターンを「0」とするone−hotベクトルを生成する。
比較結果データは、比較対象項目となる複数の方位を意図する表記のそれぞれの比較結果として、比較部1107により判断された「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータを含む。例えば、第3の取得部1108は、上記同様に、one−hotベクトルを生成する。例えば、比較結果データは、比較対象項目となる東を意図する表記の比較結果として、比較部1107により判断された「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる南を意図する表記の比較結果として、比較部1107により判断された「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる西を意図する表記の比較結果として、比較部1107により判断された「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータを含む。比較結果データは、比較対象項目となる北を意図する表記の比較結果として、比較部1107により判断された「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータを含む。
推定部1109は、第3の取得部1108により取得された比較結果データに基づいて、2つの物件レコード間の一致度を推定する。一致度は、比較する2つの物件レコードが同じ実体の棟のものとする確信度である。例えば、推定部1109は、第3の取得部1108により取得された第1の比較結果データに基づいて、複数の第1の物件レコードのそれぞれに対する複数の第2の物件レコードのそれぞれについての一致度を推定する。複数の第1の物件レコードのそれぞれに対する複数の第2の物件レコードのそれぞれについての一致度は、第1の一致度ともいう。
推定部1109は、機械学習による一致度の推定モデルを用いる。推定モデルは、2つの物件レコード間での比較結果データに基づいて、2つの物件レコード間の一致度を推定する学習済モデルである。推定モデルは、補助記憶デバイス14に記憶されている。推定モデルの構成例については後述する。
紐付け部1110は、推定部1109により推定された一致度を用いて、2つの物件レコード間の紐付けを行う。例えば、紐付け部1110は、推定部1109により推定された第1の一致度を用いて、複数の第1の物件レコードに対する複数の第2の物件レコードの紐付けを行う。紐付け部1110による紐付け処理については後述する。
上述の第2の物件レコードの構成例について説明する。
図2は、第2の物件レコードを例示する図である。
第2の物件レコードは、「棟ID」項目、「棟名」項目、「11桁住所コード」項目、「番地」項目、「号」項目、「階建て」、「築年」項目及び「築月」項目のデータなどを含むことができる。
図2は、第2の物件レコードを例示する図である。
第2の物件レコードは、「棟ID」項目、「棟名」項目、「11桁住所コード」項目、「番地」項目、「号」項目、「階建て」、「築年」項目及び「築月」項目のデータなどを含むことができる。
上述の比較対象項目及び比較結果の例について説明する。
図3は、比較対象項目及び比較結果を例示する図である。
比較対象項目となる各棟名の比較結果は、類似度である。比較対象項目となる各補助名称の比較結果は、「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れかのパターンを示すデータである。比較対象項目となる不動産関連用語の比較結果は、「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータである。比較対象項目となる各方位を意図する表記の比較結果は、「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータである。
図3は、比較対象項目及び比較結果を例示する図である。
比較対象項目となる各棟名の比較結果は、類似度である。比較対象項目となる各補助名称の比較結果は、「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れかのパターンを示すデータである。比較対象項目となる不動産関連用語の比較結果は、「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータである。比較対象項目となる各方位を意図する表記の比較結果は、「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータである。
上述の推定モデルの構成例について説明する。
図4は、推定モデルを例示する図である。
推定モデルは、ニューラルネットワークで構成することができる。
図4は、推定モデルを例示する図である。
推定モデルは、ニューラルネットワークで構成することができる。
例えば、ニューラルネットワークの層数は、全4層である。推定モデルの入力は、2つの物件レコード間での比較結果データに含まれる各比較結果の値群である。推定モデルの出力は、2つの物件レコード間の一致度及び不一致度である。
プロセッサ11は、住所コードが一致する複数の物件レコードのうちの相互に比較する2つの物件レコード間での比較結果データ、及び、比較する2つの物件レコードが同じ実体の棟のものか否かを示すデータ(正解値)を含む教師データに基づいてニューラルネットワークにより学習し、推定モデルを生成する。教師データは、適宜追加され得る。これに応じて、推定モデルは、更新され得る。ここでは、ニューラルネットワークを機械学習の例として説明しているが、これに限定されない。
比較結果データに含まれる各比較結果と、比較する2つの物件レコードの一致度との間には、一定の相関関係がある。
例えば、比較結果は、クレンジング後の棟名の類似度である。クレンジング後の棟名の文字列は、実体の棟の名称の読みに近い文字列を含む可能性が高い。クレンジング後の棟名の類似度が高くなるにつれ、比較する2つの物件レコードは同じ実体の棟のものである可能性が高くなる。そのため、クレンジング後の棟名の類似度が高くなるにつれ、比較する2つの物件レコード間の一致度は上がる傾向にあり得る。比較結果が羅片棟名の類似度、英片棟名の類似度、漢片棟名の類似度及び頻抜棟名の類似度の場合も同様である。
例えば、比較結果は、各補助名称についての「一致」、「不一致」、「有無」及び「無無」の4つのパターンのうちの何れかのパターンを示すデータである。補助名称は、ある領域に存在する同一名の異なる棟を区別する。ある補助名称が「一致」パターンである場合、「不一致」、「有無」及び「無無」パターンの場合よりも、比較する2つの物件レコードは同じ実体の棟のものである可能性が高くなる。他方、ある補助名称が「不一致」パターンである場合、「一致」、「有無」及び「無無」パターンの場合よりも、比較する2つの物件レコードは異なる実体の棟のものである可能性が高くなる。そのため、各補助名称のパターンに応じて、比較する2つの物件レコード間の一致度は変わる傾向にあり得る。
例えば、比較結果は、各不動産関連用語についての「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータである。不動産関連用語の多くは、「番館」、「マンション」、「貸家」及び「仮称」などの棟の名称の固有性と相容れない用語である。このような不動産関連用語は、入力された棟名に含まれる可能性が高い。このような不動産関連用語が「有有」パターンである場合、比較する2つの物件レコード間の一致度は下がる方向に補正される傾向にあり得る。
なお、「East」及び「イースト」などの方位を意図する不動産関連用語などは、ある領域に存在する同一名の異なる棟を区別する可能性が高い。このような不動産関連用語が「有有」パターンである場合、「有無」及び「無無」パターンの場合よりも、比較する2つの物件レコードは同じ実体の棟のものである可能性が高くなる。そのため、このような不動産関連用語のパターンに応じて、比較する2つの物件レコード間の一致度は変わる傾向にあり得る。
例えば、比較結果は、各方位を意図する表記についての「有有」、「有無」及び「無無」の3つのパターンのうちの何れかのパターンを示すデータである。方位を意図する表記は、ある領域に存在する同一名の異なる棟を区別する。ある方位を意図する表記が「有有」パターンである場合、「有無」及び「無無」パターンの場合よりも、比較する2つの物件レコードは同じ実体の棟のものである可能性が高くなる。そのため、各方位を意図する表記のパターンに応じて、比較する2つの物件レコード間の一致度は変わる傾向にあり得る。
紐付け部1110による紐付け処理について説明する。
まず、1回目の紐付け処理について説明する。
図5は、1回目の紐付け処理を例示する図である。
まず、1回目の紐付け処理について説明する。
図5は、1回目の紐付け処理を例示する図である。
推定部1109は、第3の取得部1108により取得された第1の比較結果データに基づいて、複数の第1の物件レコードのそれぞれに対する複数の第2の物件レコードのそれぞれについての第1の一致度を推定する。ある共通の住所コードに関連付けられている第1の取得部1101により取得された複数の複数の第1の物件レコードの数をri個とする。ある共通の住所コードに関連付けられている第1の取得部1101により取得された複数の複数の第2の物件レコードの数をui個とする。推定部1109は、複数の第1の物件レコードと複数の第2の物件レコードを総当たりで比較し、ri x ui個の第1の一致度を推定する。
紐付け部1110は、第1の条件に基づいて、複数の第1の物件レコードに対する複数の第2の物件レコードの紐付けを行う。第1の条件は、第1の一致度が第1の閾値以上であること、並びに、補助名称が比較する2つの物件レコード間で一致、比較する2つの物件レコードの何れか一方に存在、及び、比較する2つの物件レコードの両方での不存在のうちの何れかとなることを含む条件である。補助名称が比較する2つの物件レコード間で一致、比較する2つの物件レコードの何れか一方に存在、及び、比較する2つの物件レコードの両方での不存在のうちの何れかとなることは、第1の比較結果データが補助名称の比較結果として、「一致」、「有無」及び「無無」のうちの何れかのパターンを示すデータを含むことに対応する。なお、第1の条件は、複数の補助名称の全てを対象としてもいいし、複数の補助名称の何れかを対象としてもよい。第1の閾値は、適宜変更可能である。
第1の条件のように「一致」、「有無」及び「無無」パターンが許容されており、「不一致」パターンが許容されていないのは、以下のような理由による。例えば、実体の棟に補助名称が存在し、比較する2つの物件レコードの棟名に正しく補助名称が入力されている場合、第1の比較結果データは、「一致」パターンを示すデータを含む。そのため、「一致」パターンの場合、比較する2つの物件レコードは同じ棟を指している可能性が高い。例えば、実体の棟に補助名称が存在し、比較する2つの物件レコードのうちの一方の物件レコードの棟名に正しく補助名称が入力され、他方の物件レコードの棟名に補助名称が入力されていない場合、第1の比較結果データは、「有無」パターンを示すデータを含む。「有無」パターンの場合、比較する2つの物件レコードが同じ棟を指している可能性は否定できない。例えば、実体の棟に補助名称が存在し、比較する2つの物件レコードの棟名に補助名称が入力されていない場合、第1の比較結果データは、「無無」パターンを示すデータを含む。実体の棟に補助名称が存在せず、比較する2つの物件レコードの棟名に補助名称が入力されていない場合、第1の比較結果データは、「無無」パターンを示すデータを含む。「無無」パターンの場合、比較する2つの物件レコードが同じ棟を指している可能性は否定できない。例えば、実体の棟に補助名称が存在し、比較する2つの物件レコードのそれぞれの棟名に異なる補助名称が入力されている場合、第1の比較結果データは、「不一致」パターンを示すデータを含む。「不一致」パターンの場合、比較する2つの物件レコードが異なる棟を指している可能性が高い。
さらに、第1の条件は、上述の第1の一致度に関する条件及び補助名称に関する条件に加えて、複数の方位を意図する表記のうち比較する2つの物件レコードの何れか一方に存在する表記が1以下となることを含んでいてもよい。この例では、第1の条件は、比較する2つの物件レコード間で、第1の一致度に関する条件、補助名称に関する条件及び複数の方位を意図する表記に関する条件の全てを満たすことを必要とする条件である。複数の方位を意図する表記のうち比較する2つの物件レコードの何れか一方に存在する表記が1以下となることは、第1の比較結果データが複数の方位を意図する表記のうちの何れか1つの方位を意図する表記の比較結果として、「有無」パターンを示すデータを含むこと、または、複数の方位を意図する表記の全ての比較結果として、「有無」パターンを示すデータを含まないこと、に対応する。
第1の条件のように複数の方位を意図する表記についての「有無」パターンの数を1以下に制限するのは、以下のような理由による。「有無」パターンの数が1である場合、比較する2つの物件レコードのうちの一方の物件レコードは方位を意図する表記を含むが、他方の物件レコードは方位を意図する表記を含まない。「有無」パターンの数が0である場合、比較する2つの物件レコードの両方は、方位を意図する表記を含まない。そのため、「有無」パターンの数が1以下である場合、比較する2つの物件レコードが同じ棟を指している可能性は否定できない。
「有無」パターンの数が2以上である場合、比較する2つの物件レコードは、互いに異なる方位を意図する表記を含む。例えば、比較する2つの物件レコードのうちの一方の物件レコードはある方位(例えば東)を意図する表記を含むが、他方の物件レコードはある方位(例えば東)を意図する表記を含まない。他方、比較する2つの物件レコードのうちの一方の物件レコードは別の方位(例えば南)を意図する表記を含まないが、他方の物件レコードは別の方位(例えば南)を意図する表記を含む。そのため、「有無」パターンの数が2以上である場合、上述の補助名称の「不一致」パターンの場合と同様に、比較する2つの物件レコードが異なる棟を指している可能性が高い。
第1の条件が複数の方位を意図する表記に関する条件を含むことにより、物件レコード間の一致度の推定精度は向上する。
紐付け部1110は、第1の条件を満たす第1の物件レコードと第2の物件レコードとを紐付ける。つまり、第1の物件レコードと第2の物件レコードとの間の第1の一致度が第1の閾値以上であっても、これらの間の比較結果データが補助名称の比較結果として「不一致」パターンを示すデータを含む場合、紐付け部1110は、第1の物件レコードに対して第2の物件レコードを紐付けない。ある第2の物件レコードが2以上の第1の物件レコードのそれぞれとの間で第1の条件を満たす場合、紐付け部1110は、2以上の第1の物件レコードの中で第1の一致度の最も高い第1の物件レコードに対してこの第2の物件レコードを紐付けてもよい。1つの第1の物件レコードに複数の第2の物件レコードが紐付くこともある。紐付け部1110は、第1の物件レコードと第2の物件レコードとの紐付けにより、第1の物件レコードとこれに紐づく1以上の第2の物件レコードを名寄せ(グループ化)する。
第1の取得部1101により取得された複数の第1の物件レコードのうち第2の物件レコードの少なくとも1つが紐付く第1の物件レコードは、Level0レコードともいう。第1の取得部1101により取得された複数の第2の物件レコードのうち複数の第1の物件レコードの何れかに紐付く第2の物件レコードは、Level1レコードまたは第3の物件レコードともいう。第1の取得部1101により取得された複数の第2の物件レコードのうち複数の第1の物件レコードの何れにも紐付かない第2の物件レコードは、第4の物件レコードともいう。
情報処理装置1は、1回目の紐付け処理において第1の条件を用いることにより、第1の一致度が第1の閾値以上となる物件レコード同士を紐付けることができる。さらに、情報処理装置1は、第1の条件を用いることにより、異なる補助名称を棟名に含む物件レコード同士が紐づけることを防止することができる。
次に、2回目の紐付け処理について説明する。
図6は、2回目の紐付け処理を例示する図である。
図6は、2回目の紐付け処理を例示する図である。
比較部1107は、複数の第3の物件レコードのそれぞれの比較対象データと複数の第4の物件レコードのそれぞれの比較対象データとを上記同様に比較する。第3の取得部1108は、比較部1107による複数の第3の物件レコードのそれぞれの比較対象データと複数の第4の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データを上記同様に取得する。複数の第3の物件レコードのそれぞれの比較対象データと複数の第4の物件レコードのそれぞれの比較対象データとの比較に基づく比較結果データは、第2の比較結果データともいう。
推定部1109は、第3の取得部1108により取得された第2の比較結果データに基づいて、複数の第3の物件レコードのそれぞれに対する複数の第4の物件レコードのそれぞれについての一致度を上記同様に推定する。推定部1109は、複数の第3の物件レコードと複数の第4の物件レコードを総当たりで比較し、一致度を推定する。複数の第3の物件レコードのそれぞれに対する複数の第4の物件レコードのそれぞれについての一致度は、第2の一致度ともいう。
紐付け部1110は、第2の条件に基づいて、複数の第3の物件レコードに対する複数の第4の物件レコードの紐付けを行う。第2の条件は、第2の一致度が第2の閾値以上であること、及び、補助名称が比較する2つの物件レコード間で一致、及び、比較する2つの物件レコードの両方での不存在のうちの何れかとなることを含む条件である。補助名称が比較する2つの物件レコード間で一致、及び、比較する2つの物件レコードの両方での不存在のうちの何れかとなることは、第2の比較結果データが補助名称の比較結果として、「一致」及び「無無」のうちの何れかのパターンを示すデータを含むことに対応する。第2の条件は、複数の補助名称の全てを対象としてもいいし、複数の補助名称の何れかを対象としてもよい。第2の閾値は、第1の閾値と同じ値でもいいし、異なっていてもよい。第2の閾値は、適宜変更可能である。
第2の条件のように「一致」及び「無無」パターンが許容されており、「有無」及び「不一致」パターンが許容されていないのは、以下のような理由による。
「有無」パターンの場合、棟名に異なる補助名称を含む第1の物件レコードと第4の物件レコードとが第3の物件レコードを介して間接的に紐付いてしまう可能性がある。例えば、第1の物件レコードの棟名が補助名称を含み、この第1の物件レコードに紐づく第3の物件レコードの棟名が補助名称を含んでいないとする。「有無」パターンが許容されていると、この第1の物件レコードの棟名に含まれる補助名称とは異なる補助名称を含む第4の物件レコードが、この第3の物件レコードに紐付いてしまう。「不一致」パターンの場合、比較する2つの物件レコードが異なる棟を指している可能性が高い。「一致」パターンの場合、上記同様の理由により、比較する2つの物件レコードは同じ棟を指している可能性が高い。「無無」パターンの場合、上記同様の理由により、比較する2つの物件レコードが同じ棟を指している可能性は否定できない。なお、「一致」パターン及び「無無」パターンの場合、棟名に異なる補助名称を含む第1の物件レコードと第4の物件レコードとが第3の物件レコードを介して間接的に紐付いてしまう可能性はない。
さらに、第2の条件は、上述の第2の一致度に関する条件及び補助名称に関する条件に加えて、第1の条件と同様に、複数の方位を意図する表記のうち比較する2つの物件レコードの何れか一方に存在する表記が1以下となることを含んでいてもよい。この例では、第2の条件は、比較する2つの物件レコード間で、第2の一致度に関する条件、補助名称に関する条件及び複数の方位を意図する表記に関する条件の全てを満たすことを必要とする条件である。第2の条件が複数の方位を意図する表記に関する条件を含むのは、第1の条件で説明した理由と同様の理由である。
第2の条件が複数の方位を意図する表記に関する条件を含むことにより、物件レコード間の一致度の推定精度は向上する。
紐付け部1110は、第2の条件を満たす第3の物件レコードと第4の物件レコードとを紐付ける。つまり、第3の物件レコードと第4の物件レコードとの間の第2の一致度が閾値以上であっても、これらの間の比較結果データが補助名称の比較結果として「不一致」パターンまたは「有無」パターンを示すデータを含む場合、紐付け部1110は、第3の物件レコードに対して第4の物件レコードを紐付けない。ある第4の物件レコードが2以上の第3の物件レコードのそれぞれとの間で第2の条件を満たす場合、紐付け部1110は、2以上の第3の物件レコードの中で第2の一致度の最も高い第3の物件レコードに対してこの第4の物件レコードを紐付けてもよい。1つの第3の物件レコードに複数の第4の物件レコードが紐付くこともある。紐付け部1110は、第3の物件レコードと第4の物件レコードとの紐付けにより、第3の物件レコードとこれに紐づく1以上の第4の物件レコードを名寄せ(グループ化)する。
複数の第4の物件レコードうち複数の第3の物件レコードの何れかに紐付く第4の物件レコードは、Level2レコードともいう。複数の第4の物件レコードのうち複数の第3の物件レコードの何れにも紐付かない第4の物件レコードは、複数の第1の物件レコード及び複数の第3の物件レコードの何れにも紐付かない物件レコードである。複数の第4の物件レコードのうち複数の第3の物件レコードの何れにも紐付かない第4の物件レコードは、第5の物件レコードともいう。
情報処理装置1は、2回目の紐付け処理において第2の条件を用いることにより、第2の一致度が第2の閾値以上となる物件レコード同士を紐付けることができる。さらに、情報処理装置1は、第2の条件を用いることにより、第3の物件レコードを介して棟名に異なる補助名称を含む第1の物件レコードと第4の物件レコードとを間接的に紐付けることを防ぐことができる。
次に、3回目の紐付け処理について説明する。
図7は、3回目の紐付け処理を例示する図である。
図7は、3回目の紐付け処理を例示する図である。
比較部1107は、複数の第5の物件レコード同士の比較対象データを上記同様に比較する。第3の取得部1108は、比較部1107による複数の第5の物件レコード同士の比較対象データとの比較に基づく比較結果データを上記同様に取得する。複数の第5の物件レコード同士の比較対象データとの比較に基づく比較結果データは、第3の比較結果データともいう。
推定部1109は、第3の取得部1108により取得された第3の比較結果データに基づいて、複数の第5の物件レコード同士の一致度を上記同様に推定する。推定部1109は、複数の第5の物件レコード同士を総当たりで比較し、一致度を推定する。複数の第5の物件レコード同士の一致度は、第3の一致度ともいう。
紐付け部1110は、第3の条件に基づいて、複数の第5の物件レコード同士の紐付けを行う。第3の条件は、第3の一致度が第3の閾値以上であることを含む。第3の閾値は、第1の閾値または第2の閾値と同じ値でもいいし、異なっていてもよい。第3の閾値は、適宜変更可能である。第3の条件は、第1の条件と同様の補助名称に関する条件を含んでいてもよい。第3の条件は、第2の条件と同様の補助名称に関する条件を含んでいてもよい。第3の条件は、第1の条件と同様に複数の方位を意図する表記に関する条件を含んでいてもよい。
紐付け部1110は、第3の条件を満たす第5の物件レコード同士を紐付ける。1つの第5の物件レコードに別の複数の第5の物件レコードが紐付くこともある。紐付け部1110は、第5の物件レコード同士の紐付けにより、第5の物件レコードとこれに紐づく別の1以上の第5の物件レコードを名寄せ(グループ化)する。
第5の物件レコード同士で紐付く第5の物件レコードは、Level3レコードともいう。第5の物件レコード同士で紐付く第5の物件レコードのグループは、名寄せ済みDB141に登録されていない新規の棟に関する物件レコードのグループとなり得る。第5の物件レコード同士でも紐付かない第5の物件レコードは、Level(−1)レコードともいう。Level(−1)レコードは、第1の物件レコードにも紐付かず、第2の物件レコード同士でも紐付かない物件レコードである。
情報処理装置1は、3回目の紐付け処理において第3の条件を用いることにより、第3の一致度が第3の閾値以上となる第5の物件レコード同士を紐付けることができる。これにより、情報処理装置1は、新規の棟に関する可能性の高い第5の物件レコード同士を紐付けることができる。
図8は、情報処理装置1による名寄せ処理を例示するフローチャートである。
情報処理装置1は、住所コード毎に図8に例示する名寄せ処理を繰り返す。
情報処理装置1は、住所コード毎に図8に例示する名寄せ処理を繰り返す。
第1の取得部1101は、補助記憶デバイス14から複数の第1の物件レコード及び複数の第2の物件レコードを取得する(ステップS1)。クレンジング部1102は、第1の取得部1101により取得された複数の第1の物件レコード及び複数の第2の物件レコードに含まれる複数の棟名をクレンジングする(ステップS2)。変換部1103は、クレンジング後の棟名を複数の異なる観点で複数の文字列に変換する(ステップS3)。抽出部1104は、クレンジング後の棟名から補助名称を抽出する(ステップS4)。検出部1105は、クレンジング後の棟名から検出対象となる複数の不動産関連用語のそれぞれを検出する(ステップS5)。第2の取得部1106は、複数の第1の物件レコード及び複数の第2の物件レコードのそれぞれについて、比較対象データを取得する(ステップS6)。
比較部1107は、複数の第1の物件レコードのそれぞれの比較対象データと複数の第2の物件レコードのそれぞれの比較対象データとを比較する(ステップS7)。第3の取得部1108は、比較部1107による複数の第1の物件レコードのそれぞれの比較対象データと複数の第2の物件レコードのそれぞれの比較対象データとの比較に基づく第1の比較結果データを取得する(ステップS8)。推定部1109は、第3の取得部1108により取得された第1の比較結果データに基づいて、複数の第1の物件レコードのそれぞれに対する複数の第2の物件レコードのそれぞれについての第1の一致度を推定する(ステップS9)。紐付け部1110は、第1の条件に基づいて、複数の第1の物件レコードに対する複数の第2の物件レコードの紐付けを行う(ステップS10)。
比較部1107は、複数の第3の物件レコードのそれぞれの比較対象データと複数の第4の物件レコードのそれぞれの比較対象データとを比較する(ステップS11)。第3の取得部1108は、比較部1107による複数の第3の物件レコードのそれぞれの比較対象データと複数の第4の物件レコードのそれぞれの比較対象データとの比較に基づく第2の比較結果データを取得する(ステップS12)。推定部1109は、第3の取得部1108により取得された第2の比較結果データに基づいて、複数の第3の物件レコードのそれぞれに対する複数の第4の物件レコードのそれぞれについての第2の一致度を推定する(ステップS13)。紐付け部1110は、第2の条件に基づいて、複数の第3の物件レコードに対する複数の第4の物件レコードの紐付けを行う(ステップS14)。
比較部1107は、複数の第5の物件レコード同士の比較対象データを比較する(ステップS15)。第3の取得部1108は、比較部1107による複数の第5の物件レコード同士の比較対象データとの比較に基づく第3の比較結果データを取得する(ステップS16)。推定部1109は、第3の取得部1108により取得された第3の比較結果データに基づいて、複数の第5の物件レコード同士の第3の一致度を推定する(ステップS17)。紐付け部1110は、第3の条件に基づいて、複数の第5の物件レコード同士の紐付けを行う(ステップS18)。
このように、情報処理装置1は、羅片棟名、英片棟名及び漢片棟名といった表音上の異なる観点で変換された複数の文字列を用いて物件レコード間の一致度を推定することができる。これにより、情報処理装置1は、比較する2つの物件レコードに同じ表音で異なる表記の棟名が含まれていても、物件レコード間の一致度の推定精度を上げることができる。
情報処理装置1は、頻抜棟名を用いて物件レコード間の一致度を推定することができる。頻抜棟名は棟名の特定に寄与しない文字列を除外しているので、情報処理装置1は、頻抜棟名により棟名の特定に寄与する文字列を評価することができる。これにより、情報処理装置1は、物件レコード間の一致度の推定精度を上げることができる。
情報処理装置1は、補助名称を用いて物件レコード間の一致度を推定することができる。比較する2つの物件レコードの棟名に含まれる補助名称が異なれば、比較する2つの物件レコードは、異なる棟を指している可能性が高い。補助名称は棟名の文字列の中の数文字程度でしかないので、異なる補助名称を含む棟名同士であっても、棟名の文字列自体の類似度は高くなる傾向にある。情報処理装置1は、補助名称を用いることで、このような誤判定を防止し、物件レコード間の一致度の推定精度を上げることができる。
情報処理装置1は、不動産関連用語を用いて物件レコード間の一致度を推定することができる。不動産関連用語は、棟の名称の固有性と相容れないものであれば、比較する2つの物件レコード間の一致度を下げる方向に補正するものとなる。不動産関連用語は、棟の名称の固有性と関連するものであれば、比較する2つの物件レコード間の一致度を上げる方向に補正するものとなる。情報処理装置1は、不動産関連用語を用いることで、物件レコード間の一致度の推定精度を上げることができる。
情報処理装置1は、方位を意図する表記を用いて物件レコード間の一致度を推定することができる。比較する2つの物件レコードの棟名に含まれる方位を意図する表記が異なれば、比較する2つの物件レコードは、異なる棟を指している可能性が高い。方位を意図する表記は棟名の文字列の中の数文字程度でしかないので、異なる方位を意図する表記を含む棟名同士であっても、棟名の文字列自体の類似度は高くなる傾向にある。情報処理装置1は、方位を意図する表記を用いることで、このような誤判定を防止し、物件レコード間の一致度の推定精度を上げることができる。
本実施形態によれば、情報処理装置1は、同じ棟と見なせる物件レコードの名寄せ精度を向上させることができる。
なお、名寄せ済みDB141及び名寄せ未処理DB142は、情報処理装置1に記憶されている例について説明したが、これに限定されない。名寄せ済みDB141及び名寄せ未処理DB142は、情報処理装置1とは異なる装置に記憶されていてもよい。この例では、情報処理装置1は、情報処理装置1とは異なる装置に記憶されている名寄せ済みDB141及び名寄せ未処理DB142から物件レコードを取得する。
なお、情報処理装置1は、1つの装置で構成される例について説明したが、これに限定されない。情報処理装置1は、それぞれプロセッサを備える複数の装置で構成されていてもよい。この例では、上述の第1の取得部1101、クレンジング部1102、変換部1103、抽出部1104、検出部1105、第2の取得部1106、比較部1107、第3の取得部1108、推定部1109及び紐付け部1110は、複数の装置に分散して実装され得る。例えば、情報処理装置1に含まれる第1の装置が前処理部を実装し、情報処理装置1に含まれる第2の装置が推定部1109を実装し、情報処理装置1に含まれる第3の装置が紐付け部1110を実装してもよい。
要するにこの発明は、本実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、本実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、本実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合わせてもよい。
1…情報処理装置、11…プロセッサ、12…ROM、13…RAM、14…補助記憶デバイス、15…通信インタフェース、1101…第1の取得部、1102…クレンジング部、1103…変換部、1104…抽出部、1105…検出部、1106…第2の取得部、1107…比較部、1108…第3の取得部、1109…推定部、1110…紐付け部、141…名寄せ済みDB、142…名寄せ未処理DB。
Claims (9)
- 名寄せ済みの複数の第1の物件データ及び名寄せ未処理の複数の第2の物件データを取得する第1の取得部と、
前記複数の第1の物件データに含まれる複数の棟名及び前記第2の物件データに含まれる複数の棟名をクレンジングするクレンジング部と、
クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する変換部と、
前記複数の第1の物件データ及び前記複数の第2の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する第2の取得部と、
前記複数の第1の物件データのそれぞれの前記比較対象データと前記複数の第2の物件データのそれぞれの前記比較対象データとを比較する比較部と、
前記複数の第1の物件データと前記複数の第2の物件データとの比較に基づく第1の比較結果データを取得する第3の取得部と、
前記第1の比較結果データに基づいて、前記複数の第1の物件データのそれぞれに対する前記複数の第2の物件データのそれぞれについての第1の一致度を推定する推定部と、
前記第1の一致度を用いて、前記複数の第1の物件データに対する前記複数の第2の物件データの紐付けを行う紐付け部と、
を備える情報処理装置。 - 前記第1の取得部は、共通の住所コードに関連付けられている前記複数の第1の物件データ及び前記複数の第2の物件データを取得し、
前記変換部は、前記クレンジング後の棟名を、前記住所コードと関連する地名を除外した文字列に変換し、
前記比較対象データは、前記住所コードと関連する地名を除外した文字列を含む、
請求項1に記載の情報処理装置。 - 前記クレンジング後の棟名から補助名称を抽出する抽出部をさらに備え、
前記比較対象データは、前記抽出部により抽出された前記補助名称を含む、
請求項1または2に記載の情報処理装置。 - 前記クレンジング後の棟名から複数の不動産関連用語のそれぞれを検出する検出部をさらに備え、
前記比較対象データは、前記複数の不動産関連用語のそれぞれの有無を示すデータを含む、
請求項1から3の何れか一項に記載の情報処理装置。 - 前記紐付け部は、前記第1の一致度が第1の閾値以上であること、並びに、前記補助名称が比較する2つの物件データ間で一致、比較する2つの物件データの何れか一方に存在、及び、比較する2つの物件データの両方での不存在のうちの何れかとなることを含む第1の条件に基づいて、前記複数の第1の物件データに対する前記複数の第2の物件データの紐付けを行う、請求項3に記載の情報処理装置。
- 前記比較部は、前記複数の第2の物件データのうち前記複数の第1の物件データの何れかに紐付く複数の第3の物件データのそれぞれの前記比較対象データと前記複数の第2の物件データのうち前記複数の第1の物件データの何れにも紐付かない複数の第4の物件データのそれぞれの前記比較対象データとを比較し、
前記第3の取得部は、前記複数の第3の物件データのそれぞれの前記比較対象データと前記複数の第4の物件データのそれぞれの前記比較対象データとの比較に基づく第2の比較結果データを取得し、
前記推定部は、前記第2の比較結果データに基づいて、前記複数の第3の物件データのそれぞれに対する前記複数の第4の物件データのそれぞれについての第2の一致度を推定し、
前記紐付け部は、前記第2の一致度が第2の閾値以上であること、及び、前記補助名称が比較する2つの物件データ間で一致、または、比較する2つの物件データの両方での不存在のうちの何れかとなることを含む第2の条件に基づいて、前記複数の第3の物件データに対する前記複数の第4の物件データの紐付けを行う、
請求項5に記載の情報処理装置。 - 前記比較部は、前記複数の第4の物件データのうち前記複数の第3の物件データの何れにも紐付かない複数の第5の物件データ同士の前記比較対象データを比較し、
前記第3の取得部は、前記複数の第5の物件データ同士の前記比較対象データの比較に基づく第3の比較結果データを取得し、
前記推定部は、前記第3の比較結果データに基づいて、前記複数の第5の物件データ同士の第3の一致度を推定し、
前記紐付け部は、前記第3の一致度が第3の閾値以上であることを含む第3の条件に基づいて、前記複数の第5の物件データ同士の紐付けを行う、
請求項6に記載の情報処理装置。 - 名寄せ済みの複数の第1の物件データ及び名寄せ未処理の複数の第2の物件データを取得することと、
前記複数の第1の物件データに含まれる複数の棟名及び前記第2の物件データに含まれる複数の棟名をクレンジングすることと、
クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換することと、
前記複数の第1の物件データ及び前記複数の第2の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得することと、
前記複数の第1の物件データのそれぞれの前記比較対象データと前記複数の第2の物件データのそれぞれの前記比較対象データとを比較することと、
前記複数の第1の物件データと前記複数の第2の物件データとの比較に基づく第1の比較結果データを取得することと、
前記第1の比較結果データに基づいて、前記複数の第1の物件データのそれぞれに対する前記複数の第2の物件データのそれぞれについての第1の一致度を推定することと、
前記第1の一致度を用いて、前記複数の第1の物件データに対する前記複数の第2の物件データの紐付けを行うことと、
を備える情報処理方法。 - コンピュータに、
名寄せ済みの複数の第1の物件データ及び名寄せ未処理の複数の第2の物件データを取得する機能と、
前記複数の第1の物件データに含まれる複数の棟名及び前記第2の物件データに含まれる複数の棟名をクレンジングする機能と、
クレンジング後の棟名を表音上の異なる観点で複数の文字列に変換する機能と、
前記複数の第1の物件データ及び前記複数の第2の物件データのそれぞれについて、表音上の異なる観点で変換された複数の文字列を含む比較対象データを取得する機能と、
前記複数の第1の物件データのそれぞれの前記比較対象データと前記複数の第2の物件データのそれぞれの前記比較対象データとを比較する機能と、
前記複数の第1の物件データと前記複数の第2の物件データとの比較に基づく第1の比較結果データを取得する機能と、
前記第1の比較結果データに基づいて、前記複数の第1の物件データのそれぞれに対する前記複数の第2の物件データのそれぞれについての第1の一致度を推定する機能と、
前記第1の一致度を用いて、前記複数の第1の物件データに対する前記複数の第2の物件データの紐付けを行う機能と、
を実現させるための情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020078358A JP6925665B1 (ja) | 2020-04-27 | 2020-04-27 | 情報処理装置、情報処理方法及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020078358A JP6925665B1 (ja) | 2020-04-27 | 2020-04-27 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6925665B1 true JP6925665B1 (ja) | 2021-08-25 |
JP2021174300A JP2021174300A (ja) | 2021-11-01 |
Family
ID=77364588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020078358A Active JP6925665B1 (ja) | 2020-04-27 | 2020-04-27 | 情報処理装置、情報処理方法及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6925665B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023162206A1 (ja) * | 2022-02-28 | 2023-08-31 | 日本電気株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6744702B2 (ja) * | 2015-08-17 | 2020-08-19 | 株式会社リブセンス | 不動産情報処理装置、算定方法情報生成装置、不動産情報処理、算定方法情報生成方法、およびプログラム |
JP6470249B2 (ja) * | 2016-12-20 | 2019-02-13 | ソフトバンク株式会社 | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム |
-
2020
- 2020-04-27 JP JP2020078358A patent/JP6925665B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021174300A (ja) | 2021-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9489371B2 (en) | Detection of data in a sequence of characters | |
US8190538B2 (en) | Methods and systems for matching records and normalizing names | |
WO2020218512A1 (ja) | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム | |
US8249399B2 (en) | Optical character recognition verification | |
CN112686036B (zh) | 风险文本识别方法、装置、计算机设备及存储介质 | |
US20230161819A1 (en) | Genealogy item ranking and recommendation | |
CN108053545A (zh) | 证件验真方法和装置、服务器、存储介质 | |
CN110110325B (zh) | 一种重复案件查找方法和装置、计算机可读存储介质 | |
JP6925665B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
KR102133950B1 (ko) | 지오로케이트된 이미지를 이용한 사업체 앵커링 | |
CN108959609B (zh) | 店铺地址的更新方法及装置 | |
JP4706379B2 (ja) | 住所認識装置 | |
CN110738050A (zh) | 基于分词和命名实体识别的文本重组方法及装置、介质 | |
CN106156595A (zh) | 一种通过验证码图片进行验证的方法、装置及系统 | |
JP3812818B2 (ja) | データベース生成装置、データベース生成方法及びデータベース生成処理プログラム | |
CN110427496B (zh) | 用于文本处理的知识图谱扩充方法及装置 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN108170838B (zh) | 话题演变的可视化展现方法、应用服务器及计算机可读存储介质 | |
CN105608205A (zh) | 结构化数据的指纹校验方法及装置 | |
CN115455922A (zh) | 表单校验方法、装置、电子设备和存储介质 | |
JP5443788B2 (ja) | 正式名称判定システム及び正式名称判定プログラム | |
CN101425056A (zh) | 使用处理系统解析地址的方法和系统 | |
JP6123372B2 (ja) | 情報処理システム、名寄せ判定方法及びプログラム | |
Groom | Using legacy botanical literature as a source of phytogeographical data | |
JP6759955B2 (ja) | 地名抽出プログラム、地名抽出装置および地名抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6925665 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |