JP2016515697A - ビジネスエンティティ用の地理的ロケールのデータの非決定性曖昧さ排除と質的エンティティマッチングのためのシステム - Google Patents

ビジネスエンティティ用の地理的ロケールのデータの非決定性曖昧さ排除と質的エンティティマッチングのためのシステム Download PDF

Info

Publication number
JP2016515697A
JP2016515697A JP2016503046A JP2016503046A JP2016515697A JP 2016515697 A JP2016515697 A JP 2016515697A JP 2016503046 A JP2016503046 A JP 2016503046A JP 2016503046 A JP2016503046 A JP 2016503046A JP 2016515697 A JP2016515697 A JP 2016515697A
Authority
JP
Japan
Prior art keywords
address
attribute
identifying
polygon
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016503046A
Other languages
English (en)
Other versions
JP6205477B2 (ja
Inventor
ジェイ. スクリフィグナノ、アンソニー
ジェイ. スクリフィグナノ、アンソニー
マシューズ、ウォリック
クライン、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dun and Bradstreet Corp
Original Assignee
Dun and Bradstreet Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun and Bradstreet Corp filed Critical Dun and Bradstreet Corp
Publication of JP2016515697A publication Critical patent/JP2016515697A/ja
Application granted granted Critical
Publication of JP6205477B2 publication Critical patent/JP6205477B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Generation (AREA)
  • Navigation (AREA)

Abstract

(a)ロケーションを表すデータを受信し、(b)前記データから、前記ロケーションに関連付けられたアドレスを推定し、(c)前記アドレスを含む幹線道路の区分(セグメント)を識別し、(d)前記区分(セグメント)の付近にある地理的な範囲を取り囲む境界を有するポリゴン(多角形)を定義し、(e)前記ポリゴン(多角形)内の一地点の地理的座標を取得し、(f)前記地理的座標におけるアドレスを識別し、(g)前記地理的座標におけるアドレスに関連付けられたエンティティを識別する、ことを含む方法が提供される。また、前記方法を実現するシステムと、前記方法を実現するプロセッサを制御する命令を含む記憶装置と、が提供される。【選択図】図1A

Description

本出願は、2013年3月15日に出願された米国仮特許出願61/792,762の優先権を主張し、その内容を参照として含む。
本開示は、物理的なロケール(場所(locale))に対するビジネス(事業)の関連づけを定義するため、新しいアドレスベースのビジネス(new address-based business)の識別の様相性(モダリティ(modalities))(様相性(モダリティ(modalities)は、受容性(ケイパビリティ(capabilities))とも言われる。)を、標準のアドレスに関連づけられた受容性(standard address-related capabilities)を超えたメソッドを使用して、作成することに関連する。この場合、「様相性(モダリティ(modality))」の語は、異なって定義されたアドレスの様態(様相(manner))をいう。異なって定義されたアドレスとは、例えば、番地と通りの名前、緯度/横座標、またはビルの名前であり、同じ物理的なロケール(場所(locale))、またはロケーション(場所(location))に関連づけることができるものである。この受容性(ケイパビリティ(capability))は、エンドユーザ、システム、アプリケーション、または他のメソッド(method)によって開始された問い合わせに応えるために利用される。問い合わせは、アドレス情報を使用して、ビジネスエンティティを識別することを意図されたものである。アドレス情報は、問い合わせ属性であり、例えば、通りの名前、番地といった、データフィールドを1つ以上含む。この受容性(ケイパビリティ(capability))は、異なる非決定性アプローチを使用して達成される。異なる非決定性アプローチは、例えば、範囲、名前、ポリゴン(多角形)ベースの地理空間の曖昧さ回避を含む。ここでは、「非決定性」の語は、問い合わせの中で定義されるアドレス(住所(addresses))の様態(様相(manner))を意味する。様態(様相(manner))は、異なるデータコンポーネントを使用する複数の様態(様相(manner))の使用を含む。異なるデータコンポーネントは、フレキシブルで型にはまらない証明(しるし(indicia))として言及される。物理的なロケール(場所(locale))に関連づけられるアプローチは、予め定義されておらず、限定されていない。このような問い合わせの処理の結果は、問い合わせアドレスと関連する物理的なロケール(場所(locale))に対するビジネスのコネクション(つながり)を決定するため、推定される質(クオリティ(quality))、適合の様相性(modality of match)、他の属性を表すフィードバックを含む。
受容性(ケイパビリティ(capability))の一例は、ビジネスの物理的なロケーション(場所(location))とアドレスとは異なるロケール(場所(locale))と、ビジネスとの関連づけを可能にすることである。例えば、(a)物理的に横方向(水平)のロケーション(場所(location))とみなされるショッピングモール内のビジネス、(b)物理的に縦方向(垂直)のロケーション(場所(location))とみなされる複数階のオフィスビル内のビジネス、または(c)例えば、特定の税法上の土地の区画(tax lot)といった、境界ベースのエリア(perimeter-based area)に関連づけられたビジネスである。
このセクションで説明されるアプローチは、追求されるアプローチではあるものの、必ずしも、前もって、示され、または追求されたアプローチではない。このようなわけで、他の方法で示されるまでもなく、これらのアプローチは、この出願の請求項に対する従来技術ではなく、このセクションの内容により従来技術であるとみなされない。
効果的なデータベースアクセスと受容性(ケイパビリティ(capability))の探索は、参照データベース内に維持されているデータの効果的な利用のため重要である。この目的にとって重大なのは、適合結果、即ち、ロケール(場所(locale))の証明(しるし(indicia))を含む問い合わせに対する参照データの適合の結果、の効率的な検索に、効率的で効果的な様態(様相(manner))の適合結果を識別し、選択させ、そして、適合の結果の利用を考慮した決定をするために使用されるフィードバックを供給させることを可能にすることである。
地理的なロケール(場所(locale))におけるビジネスエンティティを識別することに特有の、従来技術は、データフィールドの特有で有限の数を考慮する。データフィールドは、例えば、登録され、発行され、あるいは関連づけられた、ビジネスエンティティの物理的な「通りのアドレス」である。従来技術では、一般的に、(a)ビジネスエンティティアドレス、即ち、ロケール情報、が一貫して表現され、そして、(b)複数のテナントがいるビルの1つの通りのアドレスといったロケール(場所(locale))の特定の表現のための検索手法は、上述の地理的なロケール(場所(locale))の表現を共有するこれらの候補を検索することに必然的に限定されるということを前提としている。例えば、従来技術は、一般的に、「番地+通りの名前+市」の発見的比較(heuristic comparisons)に基づいている。発見的比較(heuristic comparisons)は、(a)問い合わせと候補との間の文字の類似、(b)適合する文字の数、または、予め定義された正字法のバリエーションに起因する他の基本的な相関の情報(ハイフネーション、大文字への変換、単語の分割、句読点による区切り、知られている省略化、類義語の使用、を含む特定の言葉を綴る複数の方法といったもの)、あるいは、(c)データコンポーネントを比較するために使用される他のアプローチ、に基づいて生じる正確性の見解である。結果として、従来技術では、ロケール(場所(locale))が異なる方法で表記できるとき、例えば、1つのロケーション(場所(location))が複数のアドレスを持つとき、満足のいく結果がもたらされないおそれがある。
他の例として、従来技術は、同じ物理的なロケール(場所(locale))に対して異なるアドレスを関連づけるため、緯度と経度とを使用しうる。これでは、あるロケール(場所(locale))が、広い地理的エリア、例えば、ショッピングセンターまたはモール、にまたがっているときに、満足のいく結果がもたらされず、そして、識別子としての緯度/経度の使用は、モールに関連付けられていないが同じ地理的エリア内にある不正確なエンティティを関連付けてしまうおそれがある。
従来の検索と適合のシステムと方法を向上させるため、(1)満足のいく候補を識別する機会を最大限とするための問い合わせの証明(しるし(indicia))を監督し、統合するために、問い合わせを扱うプロセス、(2)問い合わせ用の候補の適合を識別するために、1つまたは一連のデータベース上に維持されている参照データに、アクセスし、評価し、利用するプロセス、(3)候補を評価し、選択し、候補の優先順位を決めるプロセス、(4)問い合わせ者または問い合わせシステムに供給される適合の結果と適合経験を考慮したデータであり、問い合わせに対する適合の相対的な強度と、適合を伝播するために使用されるデータのフィードバックを指す属性と、を含むものを、問い合わせ者または問い合わせシステムに供給するプロセス、を含むニーズがある。
これらのニーズを満たすため、提供される方法は、(a)ロケーション(場所(location))を表すデータを受信すること、(b)前記データから、前記ロケーション(場所(location))に関連付けられたアドレスを推定すること、(c)前記アドレスを含む幹線道路の区分(セグメント(segment))を識別すること、(d)前記区分(セグメント(segment))の付近にある地理的な範囲(region)を取り囲む境界を有するポリゴン(多角形(polygon))を定義すること、(e)前記ポリゴン内の一地点の地理的座標を取得すること、(f)前記地理的座標におけるアドレスを識別すること、(g)前記地理的座標におけるアドレスに関連付けられたエンティティを識別すること、を含む。また、前記方法を実現するシステムと、前記方法を実現するプロセッサを制御する命令を含む記憶装置と、が提供される。
本開示は、先行技術から発展したものであり、ここで開示されるプロセスの目的は、属性として問い合わせロケール(場所(locale))を有しているこれらのビジネスエンティティを識別することである。1以上のビジネスエンティティにおいて、入力問い合わせデータが、推定上のアドレスエンティティ「ロケール」の説明であるときに、範囲、名前、地理空間の曖昧さ回避、フレキシブルで型にはまらない証明(しるし(indicia))といった値に基づくような識別が、なされる。
本ドキュメントは、人の介在なしの、機械的な適合、即ち、問い合わせに対する参照データの適合、において差別化するための自動化システムと方法を開示する。よって、一貫性と拡張性が可能となり、正確なデータの受託責任に効果的な洞察的な、または、追加のリサーチが要求される状況に人を集中させることできる。「拡張性(scalability)」の語は、このアプローチが、技術解決のための特定の技術により限定されないことを意味する。
ここで説明される技術は、先行技術により対処されなかった受容性(ケイパビリティ(capability))を含む。とりわけ、ここで説明される技術は、地理上のロケール(場所(locale))に関連づけられた予測されるデータ要素または他の生成された証明(しるし(indicia))の、アクセス(access)、リテンション(保持力(retention))、高価値の利用(use of high-value)、のフレキシビリティ(柔軟性)を提供する。予測されるデータ要素または他の生成された証明(しるし(indicia))は、適合プロセスで使用されるため、前もって、有効とされ、ロケール(場所(locale))と、ロケール(場所(locale))の特定の文字列、証明(しるし)、またはトークン、のデータベースに集計されたものである。ここで説明される技術は、データ要素が、データの相対価値を考慮して、データベースに対していつ利用可能となるか、データが適合と関連づけられた属性を識別する適合経験にどのように使用されるか、が決定されるためのフレキシビリティ(柔軟性)を許容する。適合と関連づけられた属性の識別は、エンドユーザにより、データと生成された証明の使用の決定がなされるため使用される。
地理的な場所に関連づけられたエンティティを検索する方法のフローを示す図である。 地理的な場所に関連づけられたエンティティを検索する方法のフローを示す図である。
実施の形態で説明する方法を採用するシステムのブロック図を示す。
続くいくつかの段落では、ここで使用されるいくつかの語を説明する。
ロケール(場所(locale))は、物理的な場所であり、異なる様態(様相(manner))において表される複数のアドレスを含み得る。また、ビジネスまた住居といったエンティティに関連づけられたアドレス、物理的な建物または運用されているビジネスがないアドレス、あるいは、物理的なロケーション(場所(location))の組み合わせを含み得る。
範囲(range)は、“123 - 131 Main Street”といった、物理的なアドレス間の地理的な距離に基づくアドレスの関連づけの様態(様相(manner))である。
名前は、例えば、“1 New York Plaza”、 “The Mall at Short Hills”といった、標準的なアドレスを超えたビルの名前によるビジネスのロケール(場所(locale))を識別する様態(様相(manner))である。
ポリゴン(多角形)ベースの地理的な曖昧さ回避は、数式とアルゴリズムとを使用して、複数のアドレス間の地理的な近接の決定方法である。これは、全地球測位システム(GPS)といった地理情報システム(GIS)の背景となる基本的なコンセプトである。
境界ベースのエリア(セグメンテーションとも言われる)は、異なるアドレスを共通のロケール(場所(locale))の識別子に関連づけるためのアプローチである。例えば、複数のビジネスを備える団地またはビジネスキャンパス(ビジネスエリア)、複数のビル、特定の税法上の土地の区画(tax lot)、オープンエリア、または同様のユニットである。
様相性(モダリティ(modality))の識別は、番地と通りの名前とに基づいた問い合わせアドレスと特定の緯度と経度とを有するアドレスと、といった異なる2つの値の類似度の決定方法である。これは、両方のデータの値自体だけでなく、それらの値を考慮したメタデータも含む。データについての記述的なデータであるメタデータの一例は、この場合、問い合わせの名前と番号とが通りのアドレスであることを示す。
適合の様相性(モダリティ(modality))は、その分野の経験者によく知られているプロセスを使用して、データベースあるいは他のソースからのデータを識別するため、問い合わせからのデータを使用して実行される異なるプロセスに関連する。これは、「適合」、「検索」、「ルックアップ」または問い合わせとデータベースまたは他のソースとを関連づける他のプロセスを含む。
証明(しるし(indicia))は、データを引き合いに出す一般的な語である。代替の証明(alternative indicia)は、特徴を識別するために使用され得る異なるデータであり、例えば、「州(プロヴィンス(province))」は「州(ステート(state))」の代替値として使用され得る。生成された証明は、他のデータから、求められ、または、推測される情報である。例えば、緯度と経度は、通りのアドレス、都市、州から生成される。
柔軟さは、エンティティの特徴またはエンティティについての問い合わせを識別するために使用される証明のタイプが、異なる問い合わせまたはエンティティによって異なってもよいということを意味する。
フィードバックは、適合経験の結果に関する情報であり、適合経験の推測される質と結果である。フィードバックは、経験の結果の開示についての決定をエンドユーザが行うことを可能にするために使用され得る。
参考用のデータベースは、例えば、データの整合性、完璧さ、正確さ、瞬時性(適時性)といったデータを考慮した質ベースの基準に見合ったデータの保管場所である。「参照データベース」の語は、1以上のこのような保管場所に関連し得る。
計画(strategy)は、問い合わせの受け付け、参照データベースからの候補を識別するための問い合わせデータの使用、エンドユーザが受付可能な参照データべースからの候補の提供、のためのアプローチである。
ここで使用される「ビジネス」のコンセプトは、あるロケール(場所)におけるエンティティのタイプの例である。しかし、本開示では、エンドユーザが興味を持ち得るエンティティのタイプに限定されるものではない。他の例として、住宅、特定の税法上の土地の区画(tax lot)、住宅団地を伴わないオープンエリア等が含まれる。
ここで説明されるシステムは、(a)特定の地理的なロケール(場所)に関連づけられたエンティティの検索を開始するための問い合わせを受信し、(b)検索を実行する計画を決定するため問い合わせを使用し、(c)地理的なロケール(場所)に関連づけられた候補のエンティティを識別し、(d)問い合わせに関連する候補の程度と質を含むプロセスについての、エンティティと関連する情報を出力する。
ここで説明される例は、エンティティ名とアドレスデータの両方を含む問い合わせを想定する。これは例であり、この受容性(ケイパビリティ(capability))は、問い合わせアドレスに関連づけられた他のアドレスを識別するためのアドレスのみを含む問い合わせ、または、問い合わせアドレスと問い合わせアドレスに関連づけられた他のアドレスとにおけるエンティティを処理するため使用される。こうして、問い合わせは、特定のビジネスを探すための名前とアドレス、あるいは、そのアドレスにおける複数のビジネスを探すための1つのアドレスだけを含む。
図1Aと図1Bは、いずれも、地理的なロケール(場所)に関連づけられたエンティティを検索するメソッド(方法)100のフローチャートである。図1Aは、コネクタラベルA1によって、図1Bに連結されている。
簡潔にいうと、メソッド100は、ユーザ101からの問い合わせ100を受信し、プロセス120、130、140を実行して、ロケール(場所(locale))と関連するエンティティを、抽出し、生成し、識別し、適切とみなす。ロケール(場所(locale))と関連するエンティティは、プロセス150、160、170、180を使用した候補検索のために提出される。一連のプロセスは、複数の適合するレコードを検索してもよい。適合するレコードは、プロセス181で、重複が除かれ、精錬(精査(refine))され、プロセス193と194で、客観的かつ内々に、質的にスコア付けされる。生成された出力、即ち、結果196は、プロセス195でユーザ101に返される。
プロセス100は、プロセスルール135、地理的エンティティ属性テーブル137、押出成形ルール145、区分参照データベース155、地理的座標参照データベース165、ビジネスエンティティ参照データベース185、候補リスト189、スコアリングルール190、ランキングルール191、決定ルール192を使用する。
地理的エンティティ属性テーブル137は、識別可能な属性、即ち、地理的なロケール(場所(locale))を識別することができるデータに関連づけられたデータフィールド、のテーブルである。
押出成形ルール145は、入力値に基づいた特定の実行可能なアドレスを定義するために使用されるロジックを含む。例えば、米国では、通りの片側のアドレスはすべて奇数又は偶数である。
区分参照データベース155は、特定のロケール(場所)、例えば、交差点といった重要な地点の間の道路または他の幹線道路に隣接するするセクション(地区)、に関連する情報を含む。
地理的座標参照データベース165は、特定のアドレスを表すための地理的座標を表現する地理的情報、例えば、緯度と経度、を含む。
ビジネスエンティティ参照データベース185は、特定のアドレスに関連づけられたビジネスエンティティのリストである。
候補リスト189は、ビジネスエンティティ参照データベース185からのビジネスのリストを含む。ビジネスは、地理的座標参照データベース165から識別されるアドレスとロケール(場所)に物理的に位置している。
スコアリングルール190は、問い合わせ110との類似性に基づいて、候補リスト189の各アイテムに対して質的なスコアを割り当てるために使用されるルールを含む。
ランキングルール191は、スコアリングルール190から引き出されたスコアに基づいて、候補リスト189上のアイテムをどのようにランクづけるか、を決定するルールを含む。
決定ルール192は、ランキングルール191から引き出されたランキングに基づいて、候補リスト189からどのアイテムがユーザに対して提示されるべきかを決定するルールを含む。
問い合わせ110は、特定のロケール(場所)についての情報の検索を開始するリクエストである。検索は、問い合わせ110に含まれる証明(しるし(indicia))に基づく。問い合わせ110は、複数のデータ要素を含み、データ要素は、順に、全ての、または、サブセットのデータフィールドの単語(ターム)のロケール(場所(locale))を考慮した特定の情報と、プロセス100と結びつけられるシステムまたはアプリケーションにより、エンドユーザから要求されたデータフィールドと、また、もしかすると、ロケール(場所)を考慮した、追加されかつ仮想の無制限の証明と、を含む。問い合わせ110は、ユーザ101、即ち、人間のユーザまたは自動化されたプロセスにより、例えば、バッチマシンのケイパビリティ(capabilities)を使用して提出されたファイルから、または、オンラインデータエントリースクリーンを使用して処理された個別の問い合わせから、メソッド100に供給される。問い合わせ100は、1以上のデータ要素から構成される問い合わせ証明を含む。例えば、問い合わせ証明は、番地、通りの名前、都市、の1つの連結されたフィールドとして、あるいは、(1)番地、(2)通りの名前、(3)都市、の分離したデータフィールドとして表現される。
表1に、問い合わせ110が分離したデータフィールドを含む例を示す。
メソッド100は、プロセス120を開始する。
プロセス120は、問い合わせ110を受信し、問い合わせ110は、ロケ−ション(場所)を説明するデータ、即ち、問い合わせ証明を含む。プロセス120は、問い合わせ証明から、共通フォーマット、即ち、データ122を構築し、変換する。
例として、表2にデータ122が含む情報を示す。
メソッド100は、プロセス120から、プロセス130へ進む。
プロセス130は、データフィールドのひとつまたは複数を使用することにより、ビジネスエンティティ参照データベース185から適合するものを識別する機会を強化するために、データ122を解析して、地理的エンティティ属性テーブル137の属性と関連づけられた特定のデータフィールドを識別する。例えば、通りの名前(Main Street)と番地(121 - 131)を分ける。この観点では、プロセス130は、データ122から問い合わせに類似する候補の検索に関連した属性を抜き出し、このようにして、属性132の値が作り出される。
上述のように、地理的エンティティ属性テーブル137は、地理学的なロケール(場所)を識別することができるデータに関連づけられた認識可能な属性、即ち、データフィールド、のテーブルである。地理的エンティティ属性テーブル137は、K(x)の計算をサポートするため、各属性(x)に対する予測される重み付けに割り当てられたデータと、各属性に関連づけられた他の情報を含む。ここで、K(x)は、要素xの予測された重み付けである。
例として、表3に、地理的エンティティ属性テーブル137が含む情報を示す。
例として、表4に、属性132が含む情報を示す。
プロセス130は、属性132を解析するため、プロセスルール135を使用し、また、後にプロセスルール135に格納される新しいビジネスとメタデータルールとを考案(定式化(formulate))するための入力を供給し得る。プロセス130の将来の実行は、新しいプロセスルールを使用してなされる。
例えば、メタデータルールは、米国のアドレスについて言えば、頭文字の2文字のフィールドは、州の省略形であること、あるいは、数字を従えたアルファベットフィールドは通りの名前であること、を指してもよい。
プロセスルール135は、アドレスの各コンポーネントのための問い合わせ証明を解釈するための意味的かつ数値的な曖昧性回避ロジックを含む標準化と正規化されたプロセスに基づいて、自動化され、反復可能なアドレスエンティティとメタデータルールを含む。表5に、標準化、正規化のためのプロセスルール135の一例を示す。
例として、表6に、プロセスルール135用の新しいルールに含まれる情報を示す。
プロセスルール135は、属性132のすべてのコンポーネントをデータクレンジング(データクリーニング)、構文解析、標準化するための情報を含む。
データクレンジング(データクリーニング)は、データ122から、句読点、意味をなさない文字列の形式、といった異質の値を削除することを含む。例えば、通りの省略形の句読点、あるいは、コンマとハイフン、あるいは、デリミタ(区切り)として使用されるキャリッジリターンである。
表7に、プロセスルール135用のクレンジングルールに含まれ得る情報を示す。
構文解析は、問い合わせ110のためのアドレスエンティティの、適合及び/又は関連づけを識別する機会を増やすための分割データ122を含む。構文解析は、問い合わせ証明を、分割されたデータ要素に構文解析することを含んでもよく、例えば、アドレスを、意味を持つ構成要素に分割してもよい。
一例として、表8にプロセスルール135用の構文解析ルールに含まれる情報を示す。ここでは、郵便番号と州の連結された値が、2つの値に分けられた様子を示す。
標準化は、適合を識別する機会を増やすため、代替値をデータ122に関連づけることを含む。
一例として、表9にプロセスルール135用の標準化ルールに含まれる情報を示す。
メソッド100は、プロセス130からプロセス140へ進む。
プロセス140は属性132を、組み合わせ、コレクション、及び/又は別個の要素として、処理し、複数の潜在的なアドレスエンティティをオリジナルの問い合わせ属性132から生成するために、押出成形ルール145を使用する。このようにして、押出成形値142が作り出される。このようにして、プロセス140は、属性132から、問い合わせ110が提示するロケーション(場所(location))に関連づけられた1つ以上のアドレスを推定する。推定手段は、意見を形成し、または、知られた事実からの何らかの見積もり(評価)を作る。「推定」と「押出成形」の語は、ここでは、交互に使用される。アドレスの推定の一例は、“121-131 Main Street”から“123 Main Street”の生成である。この例では、推定は、問い合わせ110からのデータ抽出以上のものであり、例えば、“140 Main street”は、問い合わせ110の明白な列挙ではなく(明白な列挙の例は“131 Main Street”)、それにより本質的に暗示されたものでもない(本質的な暗示の一例は“123 Main Street”)が、推定は、属性132のプロセス140による解析の結果として、“140 Main street”をさらに推定することを含んでもよい。
プロセス140は、例えば、範囲として表現される通りのアドレスについて、アドレスの本質の発見的問題解決アルゴリズムベースの計算(見積もり(calculation))を使用する。このケースでは、どのアドレスが有効であるかを示すガイダンス、例えば、特定の通りの同じ側の奇数だけ、が供給される。例えば、米国では、ある通りの片側のアドレスはすべて、奇数又は偶数であり、ダッシュによって2つに分割された数値[WM:?]は、開始地点と終了地点であることが知られているので、発見的問題解決アルゴリズムベースの計算(見積もり(calculation))は、開始アドレスと終了アドレスの間にあり、開始アドレスと終了アドレスが奇数または偶数であるかに基づいて、すべて奇数又は偶数になる潜在的な他のアドレスがあると決定する。押出成形値142は、ビジネスエンティティ参照データベース185からの候補を識別するため、プロセス170において使用される、追加の問い合わせ証明である。
一例として、表10に、押出成形ルール145用の押出成形ルールに含まれる情報を示す。
メソッド100は、プロセス140から150へ進む。
プロセス150は、押出成形値142を受信し、そのアドレスを含む幹線道路の区分(セグメント(segment))を識別する。つまり、プロセス150は、区分参照データベース155を参照して、押出成形値142に含まれているアドレスのそれぞれに関連づけられているアドレスの区分(セグメント(segment))を計算する(見積もる)。(アドレスの区分(セグメント(segment))は、即ち、十字路といった、重要な地点の間の道路または幹線道路に隣接したセクション(地区)であり、重要な地点は、たびたび、他の区分(セグメント(segment))の終端となる。)それから、区分参照データベース155から、これらの区分(セグメント)それぞれに関連づけられた1又は複数のアドレスを検索し、アドレスデータ152として出力する。アドレスデータ152は、通りのアドレスと緯度と経度といった地理的なロケーションデータの両方を含む。(この地理的なデータは、「ジオコード」または「ジオデータ」とも言われる。)区分参照データベース155は、地理的なエリアによりアドレスに関連するデータを含み、「境界」と、「境界参照データ」と知られるコレクション周辺ベースのデータに言及する。この観点では、プロセス150は、区分(セグメント)に近接する地理的な領域を取り囲む境界を有したポリゴン(多角形)を定義する。
表11に、区分参照データベース155の区分(セグメント)参照データの一例を示す。
表11は、属性のコレクションとしての、特定の区分(セグメント)(最初のカラムに示される)に沿って存在するアドレスの例を示す。属性のコレクションは、番地の範囲(カラム4〜6)、通りの名前(カラム3)、区分(セグメント)の終端のデカルト座標(カラム5と6にエンコード(符号化)されたフォーマットを示す)を含む。
表12に、区分参照データベース155が備える境界参照データの一例を示す。
表12は、境界参照データの代表例であって、境界参照データは、各境界の固有の識別子(カラム1)、境界のタイプの説明(カラム2)、境界のデカルト座標の符号化のバージョン(カラム3)を備える。
ポリゴン(多角形)の定義のため、プロセス140と150により実行される処理のいくつかを再び考える。プロセス140は、推定プロセスの間、アドレスに関連づけられた第1属性を取得する(例えば、123 Cecil Avenueは、区分(セグメント)の1つの終端のアドレスである)。プロセス150は、区分(セグメント)を識別するとき、区分(セグメント)に関連づけられた第2属性を取得する(例えば、区分(セグメント)上のアドレスは、アドレスに関連づけられた階数を有する)。それから、プロセス150は、ポリゴン(多角形)を定義するため、第1属性と第2属性とに基づいてポリゴン(多角形)のサイズと形とを定義する。プロセス150のポリゴン(多角形)の定義の例は、区分(セグメント)の全長にわたるように、ポリゴン(多角形)の片側を構成するよう、第1属性と第2属性とを使用する。
上述のように、複数階のビルは、垂直方向のロケーション(場所(location))として表される。この場合、プロセス150は、ただポリゴン(多角形)を定義するのではなく、代わりに第1属性と第2属性に基づいてポリへドロン(多面体)を定義する。ポリゴン(多角形)はポリへドロン(多面体)の断面である。プロセス150のポリへドロン(多面体)の定義の例は、区分(セグメント)に関連づけられた階数の最大値に基づいて評価を算出するため、ポリへドロン(多面体)を構成するよう、第1属性と第2属性とを使用する。
メソッド100は、プロセス150からプロセス160へ進む。
プロセス160は、アドレスデータ152を受信し、ポリゴン(多角形)の一地点の地理的座標を取得し、地理的座標のアドレスを識別する。つまり、プロセス160は、地理的座標参照データベース165を参照し、アドレスのそれぞれについて地理的座標(例えば、緯度と経度)を読み出し、それから、ビジネスエンティティ参照データベース185から、これらの座標のそれぞれに関連づけられている1又は複数のアドレスを読み出す。このようにして、アドレスデータ162が作り出される。この方法で、プロセス160は、押出成形値142のために他に存在するアドレスを識別する。
表13に、プロセス160によりアドレスデータ152から識別されるアドレスデータ162の他のアドレスと、座標参照データベース165の例を示す。
メソッド100は、プロセス160からプロセス170へ進む。
プロセス170は、入力アドレスデータ162を受信し、地理座標におけるアドレスに関連づけられたエンティティを識別する。より具体的には、プロセス170は、アドレス162のアドレスの属性であるジオコード(緯度と経度といった、地理的ロケーション(場所(location))に付属するデータ)のセットを受信し、ビジネスエンティティ参照データベース185から適合プロセスの様々な様相性(モダリティ(modalities))の採用により、これらのアドレスに関連づけられたビジネスの読み出しを実行する。このようにして、アドレスデータ172が作り出される。ビジネスエンティティ参照データベース185は、プロセス160からのアドレスの結果それぞれに関連づけられたビジネスを有していてもよいし、有していなくてもよい。
プロセス170の出力は、アドレスデータ172を作成するための、アドレスデータ162に対するビジネスエンティティデータの属性である。
ビジネスエンティティ参照データベース185から、プロセス160の結果のアドレスを採用して、検索され、アドレスデータ172に加えられた、アドレスデータのサブセットの一例を、表14に示す。「HQ」は、「本社(headquarters)」の省略形である。
メソッド100は、プロセス170からプロセス180へ進む。
プロセス180は、アドレスデータ172を受信し、入力としてのアドレスデータ172のアドレスを使用して、ビジネスエンティティ参照データベース185の候補を判別する(即ち、アドレスデータ172のアドレスに関連づけられたエンティティと同様のエンティティ)ために様々な方法論(方法)(文字ベースのルックアップといった)を採用する。このようにしてデータセット182が作り出される
表15に、プロセス180により、ビジネスエンティティ参照データベース185から、生成されたデータセット182の一例を示す。
プロセス181は、定義された基準のセットを1つ以上満たすまで、例えば、検索の繰り返しが一定の量的レベルと質的レベルを下回るまで、再帰的な方法でプロセス150からプロセス180のインスタンスを生成する再帰的なプロセスである。その結果は、候補リスト189である。
表16は、プロセス181で使用され得る量的及び質的な基準の例である。
メソッド100は、図1Bに示すように、プロセス180から193へ進む。候補リスト189を、図1Aと図1Bの両方に示す。
プロセス193は、候補リスト189を受信し、候補の質的に区別されたリストを作るためスコアリングルール190を使用する。このようにしてリスト193Aが作り出される。スコアリングルール190の一例は、とりわけ以下に基づいたスコアを使用して差別化する。(a)検索の様相性の本質。検索の様相性は、候補リスト189の特定のアドレスエントリまたはビジネスエントリを含めるため、プロセス150からプロセス180において使用される。(つまり、候補リスト189の別個の候補の判別において、どのメソッドまたはメソッドの組み合わせが採用されたか。)(b)様相性(モダリティ)の検索に使用された推定(例えば、特定のアドレスが、問い合わせ110、または、再帰的プロセス181の前の繰り返しにおいて検索された代わりのアドレスに対して、アドレス検索の様相性(モダリティ)の直接操作により、検索されたか。)または、抽出(例えば、問い合わせ110に関連づけられた名称上の座標のセットから検索されたアドレスまでのメートルによる距離)の範囲。
プロセス193は、候補リスト189の各エンティティのための重み付けサブスコアのセットを作り出すために、地理的エンティティ属性テーブル137とスコアリングルール190に基づいた相対的な重み付けアプローチを採用する。サブスコアは、質的ランキング候補リスト189において使用される。この重み付けは、メタデータと実際のデータ値を考慮した複数の特徴を考慮し、このため、候補の重み付けは、候補をつくるための反復シーケンスといった基準を考慮する。反復シーケンスは、候補、候補の判別において使用される検索の様相性(モダリティ)(そして、候補は、検索の様相性の組み合わせ、繰り返し階数等の組み合わせに対するスコアが割り当てられたマトリックスを含んでいてもよい)、そして、候補リスト189上の各エントリとソースとなる問い合わせ110との間の類似の他の質的な評価(例えば、問い合わせ110の通りの名前と候補リスト189のエントリ間の編集距離(edit distance)の基準)、を生成する。例えば、セグメンテーション解析(プロセス150)と名前ベースの検索(プロセス170とプロセス180)の両方を使用して、検索された候補Cは、サブスコアS用のスコア100を受信する。一方で、地理的座標ベースの検索(プロセス160)を使用して検索された候補Cは、サブスコアS用のスコア90の受信のみを行う。
表17は、スコアリングルール190とプロセス193により使用される重み付けサブスコアの一例である。
上記の表では、カラム1は、候補リスト189の候補を示し、残りのカラムは、候補の判別における検索の様相性(モダリティ)の相互作用に基づくスコア(カラム2)、候補アドレスのビルの密度の評価(カラム3)、複数の地理的なロケーション(場所(location))の方法論(方法)によるアドレスの確証の度合い(カラム4)、候補を判別するために採用された特定の検索方法論(方法)に関連づけられた推定又は抜き取りのレベルを表示するスコア(カラム5)を表す。
各候補のため、プロセス193で生成されたサブスコアのセット(表17に例示)は、ランキングルール191を使用して、並べ変えられ、スコア付けされる。
表18に、ランキングルール191の実行の最終的な出力の一例を示す。
メソッド100は、プロセス193からプロセス194へ進む。
プロセス194は、スコア付けされた候補リスト、即ち、リスト193A、をプロセス193から受信し、ランク、スコア、サブスコア、あるいはこれらの組み合わせが、決定ルール192に定義された内包及び/又は排除の基準を満たさない候補を削除することで、リスト193Aを精錬(精査)する。このようにして、リスト194Aが作られる。
表19に、プロセス194で使用されるスコア付けの要素の相対的重み付けの一例を示す。
表20は、プロセス194の内包/排除ルールの一例である。
表21は、プロセス194の結果、即ちリスト194Aの一例である。
メソッド100はプロセス194からプロセス195へ進む。
プロセス195は、リスト194A、即ち、候補C…Cの資格要件を満たしたリスト、を受信する。Cは、メソッド100により返される結果の内包となることが可能とみなされる最低基準の候補である。
表22は、結果候補リスト189の一例である。候補C002とC003は、いずれものスコアも、質的に許可される基準を満たしたが、ルール実行に失敗したため含まれていない。
プロセス195は、候補リスト197とフィードバック198を含む結果196を組み立て、返す。フィードバック198は、問い合わせ110と候補リスト197の各候補との間の類似性の度合いを考慮した情報である。
フィードバック198は、結果196に含まれおり、候補リスト197、例えば、最善の候補Cが、問い合わせ110に起因するアドレスロケーションに位置するビジネスエンティティであることの確度のレベル、の各候補の質を示す。フィードバック198は、また、データ122の各フィールドと候補リスト197の各候補の各コンポーネントとの間の相対的な相関により表現される、類似の相対的な度合いとを含んでもよい。フィードバックは、ビジネスエンティティ参照データベース185に候補リスト197の各候補のコンポーネントを投入するために使用されるともに、特定のデータのソースも含む。
表23は、フィードバック198の一例である。
表23は、ビジネスエンティティ(カラム1)、当該エンティティに関連づけられたアドレス(カラム2)、候補リスト197の候補に対するアドレスの類似度を表すスコア(カラム3)、類似の本質(相関とも言われる)を表す組み込まれた意味を備えた文字列(カラム4)、アドレスの属性を説明する組み込まれた意味を含む文字列(カラム5)を示す。
このようにして、簡単に言うと、メソッド100は、1)特定の地理的なロケール(場所(locale))にそれぞれ関連づけられているビジネスエンティティの検索を開始するための問い合わせを受信すること、2)問い合わせをデータクレンジング(データクリーニング)し、構文解析し、正規化すること、3)問い合わせアドレスに基づいて追加のアドレスを押出成形すること、4)ひとつ又は複数の、データクレンジング(データクリーニング)され、構文解析され、正規化された問い合わせ証明(しるし(indicia))に基づいて、参照データベースを検索する最適な方法を決定すること、5)候補を検索し、問い合わせに適合する参照データベースのエンティティを選択すること、6)問い合わせ、または問い合わせから生成されたデータに対する類似の度合いに基づいて参照データベースから候補を、類似の度合いを考慮したフィードバックとともに、返すこと、を含む。
プロセス100は、1)複数の要素を有する検索文字列を含む入力データを受信し、2)複数の要素のサブセットを、単語(ターム)のセットに変換し、3)格納された参照データを、入力データに適合する最も近い候補を識別する用語に基づいて、検索し、4)問い合わせの一部と予測されるデータと、エンドユーザから供給される代替のデータと、問い合わせデータから生成されたデータと、を含む、エンドユーザの問い合わせに基づいたフレキシブルな証明を使用して、適合する候補のセットを識別する可能性の予測を推測し、5)推測される予測に基づいて、1以上の適合する候補を選択し、6)適合結果と、エンドユーザが結果をどのように使用するかを決定できるようにするフィードバックとを供給する、ステップを含む。
メソッド100は、有限の、しかし、一時的に無限の、証明(しるし)のセットを使用して、地理的なロケール(場所(locale))に関連づけられたビジネスエンティティを識別するための機能を含む。証明(しるし)は、メソッド100のサブプロセスにより、問い合わせと適合候補の間の類似性の意見を形成するため、使用される。メソッド100は、地理的ロケール(場所(locale))と地理的ロケール(場所(locale))の1以上のビジネスエンティティに対する関連づけを、独自に認識して、適切とみなして、ある既存の問題に取り組む。ビジネスエンティティは、1)不正確(imprecision)と、概念化の自然変異(natural variation in the conceptualization)と、地理的なアドレスの証明の表現と、2)地理的なロケール(場所(locale))のための、明確な識別子または確かなキーの欠如(不存在(absence))と、3)「完全な」アドレスを含むため、ビジネスユースにおいて、通常考慮される詳細のレベルの極めて幅広い相違(変化)、を含む。地理的なロケール(場所(locale))に対する、識別子と適合属性のフレキシブルで可変なセットを拡大することで、これらのチャレンジに取り組むことが可能である。この技術のフレキシビリティは、メタデータと実際のデータ値とを両方含み、1)地理的ロケール(場所(locale))と、地理的ロケール(場所(locale))とビジネスエンティティ間の接続と、に関連づけられた情報をデータベースに投入すること、加えて、2)問い合わせと、与えられた目的の許容されうる閾値に影響を与えるルールと、に基づいて、ビジネスエンティティをデータベースから選択すること、において使用される。
メソッド100は、ひとつのロケーション(場所(location))におけるシングルエンティティ、例えば、ひとつのビルのシングルエンティティのケース、又は、シングルロケーションにおける複数のエンティティ、例えば、ショッピングモール内の複数のテナント、のケース、を決定する。シングルロケーションにおける複数のエンティティのケースでは、各エンティティは、他のエンティティとは違う1つのアドレスを有する。
シングルエンティティのケースでは、メソッド100は、
(a)プロセス120で、ロケーション(場所(location))を説明するデータ、即ち、問い合わせ110を受信し、
(b)プロセス140で、当該データから、ロケーション(場所(location))に関連づけられたアドレスを、推定し、
(c)プロセス150で、アドレスを含む幹線道路の区分(セグメント)を識別し、
(d)プロセス150で、区分(セグメント)の近辺の地理的地域を取り囲む境界を有するポリゴン(多角形)を定義し、
(e)プロセス160で、ポリゴン(多角形)が備えるある一地点の地理的座標を取得し、
(f)プロセス160で、当該地理的座標におけるアドレスを識別し、
(g)プロセス170で、当該地理的座標におけるアドレスに関連づけられたエンティティを識別する。
シングルロケーションにおける複数のエンティティのケースでは、ショッピングモール内のテナントである2つのエンティティがある状況を考える。各エンティティは、他のエンティティとは異なるアドレスを有している。プロセス150で、ポリゴン(多角形)は、ショッピングモールを取り囲む境界を有している。その結果、前述の地理座標は第1の地理座標であり、前述の一地点は第1地点であり、地理的座標における前述のアドレスは、地理的座標における第1アドレスであり、前述のエンティティは第1エンティティであるとみなされる。プロセス160が実行されると、プロセス160は、ポリゴン(多角形)が備える第2地点の第2の地理的座標を取得し、第2の地理的座標における第2アドレスを識別する。プロセス170は、それから、第2アドレスに関連づけられた第2エンティティを識別する。
図2は、ここで説明されたメソッド(方法)を採用するシステム200のブロック図である。システム200は、コンピュータ205を含み、コンピュータ205は、データコミュニケーションネットワーク、即ち、インターネットといったネットワーク230に接続されている。
コンピュータ205は、ユーザインタフェース210、プロセッサ215、メモリ220を含む。コンピュータ205は、ここでは、スタンドアロン・デバイスであるが、これに限定されない。代わりに、コンピュータ205は、分算プロセッサシステムの他のデバイス(図示なし)に接続されていてもよい。
ユーザインタフェース210は、キーボード又は音声認識サブシステムといった入力装置を含み、ユーザ101が情報と命令選択をプロセッサ215とやり取りすることを可能とさせるためのものである。ユーザインタフェース210は、また、ディスプレイあるいはプリンタといった出力装置、を含む。マウス、トラックボール、または、ジョイスティックといったカーソルコントロールは、ユーザ101に、追加の情報のやり取りと命令選択をプロセッサ215とやり取りすることを可能とさせるため、ディスプレイ上のカーソルの操作を可能とさせる。
システム200は、また、ネットワーク230を介してコンピュータ205に通信可能に接続されたユーザデバイス240を含む。ユーザ101は、ユーザインタフェース210の代替であるユーザデバイス240を介して、コンピュータ205と相互にかかわり合う。
プロセッサ215は、命令に応答し、命令を実行する論理回路として構成された電気的なデバイスである。
メモリ220は、非一時的コンピュータ読み取り可能なデバイスである。この点において、メモリ220は、プロセッサ215が読み出して実行するプロセッサ215の操作の制御のためのデータと命令を格納する。メモリ220は、ランダムアクセスメモリ(RAM)、ハードドライブ、リードオンリーメモリ(ROM)、または、これらを組み合わせたものから構成されてもよい。メモリ220のコンポーネントのひとつはプログラムモジュール225である。
プログラムモジュール225は、プロセッサ215がここで説明する方法を実行できるように、プロセッサ215の制御のための命令を含む。例えば、プログラムモジュール225の制御の下、プロセッサ215は、メソッド100のプロセスを実行する。「モジュール」の語は、ここでは、スタンドアロンコンポーネントあるいは、サブコンポ−ネントの複数の統合された構成を具体化するための、機能的な操作を示す。このようにして、プログラムモジュール225は、シングルモジュール、あるいは、協動して動作する複数のモジュールとして機能する。さらに、プログラムモジュール225は、ここでは、メモリ220にインストールされ、ソフトウェアにより実現されたものとして説明されたが、ハードウェア(例えば、電子回路)、ファームウェア、ソフトウェア、あるいはこれらを組み合わせたもので実現されてもよい。
プロセッサ215は、ネットワーク230あるいはユーザインタフェース210を介して、問い合わせ110を受信する。プロセッサ215は、プロセスルール135、地理的エンティティ属性テーブル137、押出成形ルール145、区分参照データベース155、地理的座標参照データベース165、ビジネスエンティティ参照データベース185、スコアリングルール190、ランキングルール191、決定ルール192、にアクセスする。これらは、例えば、メモリ220に格納されたコンピュータ205のコンポーネントからなり、あるいは、ローカルネットワーク(図示せず)またはネットワーク230を介してコンピュータ205にアクセスする外部のコンピュータからなる。プロセッサ215は、プロセス120、130、140、150、l60、170、180、181、193、194にアクセスする。これらは、例えば、メモリ220に格納されたコンピュータ205のコンポーネントからなり、あるいは、ローカルネットワーク(図示せず)またはネットワーク230を介してコンピュータ205にアクセスする外部のコンピュータからなる。プロセッサ215は、プロセス195で、結果196をユーザ101に返す。
プログラムモジュール225が、メモリ220にすでにロードされたものとして示されているが、プログラムモジュール225は、続いてメモリ220にロードされるための記憶装置235上に構成されていてもよい。記憶装置235は、また、コンピュータプログラムにより符号化された、非一時的コンピュータ読み取り可能なデバイスであり、プログラムモジュール225を格納する、典型的な記憶装置であってもよい。例えば、記憶装置235は、フロッピー(登録商標)ディスク、コンパクトディスク、磁気テープ、リードオンリーメモリ、光学ストレージメディア、ユニバーサルシリアルバス(USB)フラッシュドライブ、DVD(digital versatile disc)、ジップドライブ(zip drive)を含む。記憶装置235は、また、ネットワーク230を介してコンピュータ205に接続された遠隔のストレージシステム上にある、ランダムアクセスメモリ、あるいは、他のタイプの電気的な記憶装置から構成されうる。
ここで説明した技術は、例示的なものであり、本開示における特定の限定の言及として構成されるべきものではない。当業者により、様々な置き換え、組み合わせ、変更がなされることが理解されるべきである。例えば、ここで説明されたプロセスに関連づけられたステップは、ステップ自身が他に明示あるいは規定しない限り、いかなる順序で実行されてもよい。本開示は、添付のクレームの範囲内において、このような代替、変更、及び、様々な相違、を包含することを意図している。
「含む」あるいは「含んでいる」の語は、言及された、特徴、整数(数値)、ステップ、あるいはコンポーネントの存在の明示するものとして解されるが、1または複数の他の特徴、整数、ステップあるいはコンポーネント、あるいはこれらのグループの存在を排除するものではない。
区分参照データベース155は、特定のロケール(場所)、例えば、交差点のような重要な地点の間の道路または他の幹線道路に隣接するするセクション(地区)、に関連する情報を含む。
問い合わせ110は、特定のロケール(場所)についての情報の検索を開始するリクエストである。検索は、問い合わせ110に含まれる証明(しるし(indicia))に基づく。問い合わせ110は、複数のデータ要素を含み、データ要素は、順に、全ての、または、サブセットのデータフィールドの単語(ターム)のロケール(場所(locale))を考慮した特定の情報と、プロセス100と結びつけられるシステムまたはアプリケーションにより、エンドユーザから要求されたデータフィールドと、また、もしかすると、ロケール(場所)を考慮した、追加されかつ仮想の無制限の証明と、を含む。問い合わせ110は、ユーザ101、即ち、人間のユーザまたは自動化されたプロセスにより、例えば、バッチマシンのケイパビリティ(capabilities)を使用して提出されたファイルから、または、オンラインデータエントリースクリーンを使用して処理された個別の問い合わせから、メソッド100に供給される。問い合わせ110は、1以上のデータ要素から構成される問い合わせ証明を含む。例えば、問い合わせ証明は、番地、通りの名前、都市、の1つの連結されたフィールドとして、あるいは、(1)番地、(2)通りの名前、(3)都市、の分離したデータフィールドとして表現される。
プロセス140は、例えば、範囲として表現される通りのアドレスについて、アドレスの本質の発見的問題解決アルゴリズムベースの計算(見積もり(calculation))を使用する。このケースでは、どのアドレスが有効であるかを示すガイダンス、例えば、特定の通りの同じ側の奇数だけ、が供給される。例えば、米国では、ある通りの片側のアドレスはすべて、奇数又は偶数であり、ダッシュによって2つに分割されたは、開始地点と終了地点であることが知られているので、発見的問題解決アルゴリズムベースの計算(見積もり(calculation))は、開始アドレスと終了アドレスの間にあり、開始アドレスと終了アドレスが奇数または偶数であるかに基づいて、すべて奇数又は偶数になる潜在的な他のアドレスがあると決定する。押出成形値142は、ビジネスエンティティ参照データベース185からの候補を識別するため、プロセス170において使用される、追加の問い合わせ証明である。
表11は、属性のコレクションとしての、特定の区分(セグメント)(最初のカラムに示される)に沿って存在するアドレスの例を示す。属性のコレクションは、番地の範囲(カラム4〜6)、通りの名前(カラム3)、区分(セグメント)の終端のデカルト座標(カラム5とにエンコード(符号化)されたフォーマットを示す)を含む。
表13に、プロセス160によりアドレスデータ152から識別されるアドレスデータ162の他のアドレスと、座標参照データベース165の例を示す。
プロセス170は、入力としてアドレスデータ162を受信し、地理座標におけるアドレスに関連づけられたエンティティを識別する。より具体的には、プロセス170は、アドレス162のアドレスの属性であるジオコード(緯度と経度といった、地理的ロケーション(場所(location))に付属するデータ)のセットを受信し、ビジネスエンティティ参照データベース185から適合プロセスの様々な様相性(モダリティ(modalities))の採用により、これらのアドレスに関連づけられたビジネスの読み出しを実行する。このようにして、アドレスデータ172が作り出される。ビジネスエンティティ参照データベース185は、プロセス160からのアドレスの結果それぞれに関連づけられたビジネスを有していてもよいし、有していなくてもよい。
プロセス180は、アドレスデータ172を受信し、入力としてのアドレスデータ172のアドレスを使用して、ビジネスエンティティ参照データベース185の候補を判別する(即ち、アドレスデータ172のアドレスに関連づけられたエンティティと同様のエンティティ)ために様々な方法論(方法)(文字ベースのルックアップといった)を採用する。このようにしてデータセット182が作り出される
表17は、スコアリングルール190とプロセス193により使用される重み付けサブスコアの一例である。
フィードバック198は、結果196に含まれおり、候補リスト197の各候補の質、例えば、最善の候補Cが、問い合わせ110に起因するアドレスロケーションに位置するビジネスエンティティであることの確度のレベル、を示す。フィードバック198は、また、データ122の各フィールドと候補リスト197の各候補の各コンポーネントとの間の相対的な相関により表現される、類似の相対的な度合いとを含んでもよい。フィードバックは、ビジネスエンティティ参照データベース185に候補リスト197の各候補のコンポーネントを投入するために使用されるともに、特定のデータのソースも含む。

Claims (12)

  1. ロケーションを表すデータを受信することと、
    前記データから、前記ロケーションに関連付けられたアドレスを推定することと、
    前記アドレスを含む幹線道路の区分を識別することと、
    前記区分の付近にある地理的な範囲を取り囲む境界を有するポリゴンを定義することと、
    前記ポリゴン内の一地点の地理的座標を取得することと、
    前記地理的座標におけるアドレスを識別することと、
    前記地理的座標における前記アドレスに関連付けられたエンティティを識別すること、
    を含む方法。
  2. 前記推定することは、前記アドレスに関連づけられた第1属性を取得することを含み、
    区分を前記識別することは、前記区分に関連づけられた第2属性を取得することを含み、
    前記定義することは、前記第1属性及び前記第2属性に基づいて前記ポリゴンのサイズと形を定義することを含む、
    請求項1に記載の方法。
  3. 前記推定することは、前記アドレスに関連づけられた第1属性を取得することを含み、
    区分を前記識別することは、前記区分に関連づけられた第2属性を取得することを含み、
    前記方法は、前記取得に先立って、前記第1属性と前記第2属性とに基づいたポリへドロンのサイズと形を定義することをさらに含み、
    前記ポリゴンは、ポリへドロンの断面である、
    請求項1に記載の方法。
  4. 前記地理的座標は第1地理的座標であり、前記一地点は第1地点であり、前記地理的座標における前記アドレスは前記地理的座標における第1アドレスであり、前記エンティティは第1エンティティであり、
    前記取得することは、また、前記ポリゴンが備える第2地点の第2地理的座標を取得し、
    アドレスを前記識別することは、また、前記第2地理的座標における第2アドレスを識別し、
    エンティティを前記識別することは、また、前記第2アドレスに関連づけられた第2エンティティを識別する、
    請求項1に記載の方法。
  5. プロセッサと、
    前記プロセッサと通信可能に接続されたメモリであって、前記プロセッサにより読み取られる命令を含み、前記プロセッサに、
    ロケーションを表すデータを受信することと、
    前記データから、前記ロケーションに関連付けられたアドレスを推定することと、
    前記アドレスを含む幹線道路の区分を識別することと、
    前記区分の付近にある地理的な範囲を取り囲む境界を有するポリゴンを定義することと、
    前記ポリゴン内の一地点の地理的座標を取得することと、
    前記地理的座標におけるアドレスを識別することと、
    前記地理的座標における前記アドレスに関連付けられたエンティティを識別すること、
    の動作を実行させるための命令を含むメモリと、
    を含むシステム。
  6. 前記推定することは、前記アドレスに関連づけられた第1属性を取得することを含み、
    区分を前記識別することは、前記区分に関連づけられた第2属性を取得することを含み、
    前記定義することは、前記第1属性及び前記第2属性に基づいて前記ポリゴンのサイズと形を定義することを含む、
    請求項5に記載のシステム。
  7. 前記推定することは、前記アドレスに関連づけられた第1属性を取得することを含み、
    前記区分を識別することは、前記区分に関連づけられた第2属性を取得することを含み、
    前記方法は、前記取得に先立って、前記第1属性と前記第2属性とに基づいたポリへドロンのサイズと形を定義することをさらに含み、
    前記ポリゴンは、ポリへドロンの断面である、
    請求項5に記載のシステム。
  8. 前記地理的座標は第1地理的座標であり、前記一地点は第1地点であり、前記地理的座標における前記アドレスは前記地理的座標における第1アドレスであり、前記エンティティは第1エンティティであり、
    前記取得することは、また、前記ポリゴンが備える第2地点の第2地理的座標を取得し、
    アドレスを前記識別することは、また、前記第2地理的座標における第2アドレスを識別し、
    エンティティを前記識別することは、また、前記第2アドレスに関連づけられた第2エンティティを識別する、
    請求項5に記載のシステム。
  9. プロセッサに、
    ロケーションを表すデータを受信することと、
    前記データから、前記ロケーションに関連付けられたアドレスを推定することと、
    前記アドレスを含む幹線道路の区分を識別することと、
    前記区分の付近にある地理的な範囲を取り囲む境界を有するポリゴンを定義することと、
    前記ポリゴン内の一地点の地理的座標を取得することと、
    前記地理的座標におけるアドレスを識別することと、
    前記地理的座標における前記アドレスに関連付けられたエンティティを識別すること、
    の動作を実行させるためのプロセッサに読み取り可能な命令を含む、
    記憶装置。
  10. 前記推定することは、前記アドレスに関連づけられた第1属性を取得することを含み、
    区分を前記識別することは、前記区分に関連づけられた第2属性を取得することを含み、
    前記定義することは、前記第1属性及び前記第2属性に基づいて前記ポリゴン(多角形)のサイズと形を定義することを含む、
    請求項9に記載の記憶装置。
  11. 前記推定することは、前記アドレスに関連づけられた第1属性を取得することを含み、
    区分を前記識別することは、前記区分に関連づけられた第2属性を取得することを含み、
    前記方法は、前記取得に先立って、前記第1属性と前記第2属性とに基づいたポリへドロン(多面体)のサイズと形を定義することをさらに含み、
    前記ポリゴンは、ポリへドロンの断面である、
    請求項9に記載の記憶装置。
  12. 前記地理的座標は第1地理的座標であり、前記一地点は第1地点であり、前記地理的座標における前記アドレスは前記地理的座標における第1アドレスであり、前記エンティティは第1エンティティであり、
    前記取得することは、また、前記ポリゴンが備える第2地点の第2地理的座標を取得し、
    アドレスを前記識別することは、また、前記第2地理的座標における第2アドレスを識別し、
    エンティティを前記識別することは、また、前記第2アドレスに関連づけられた第2エンティティを識別する、
    請求項9に記載の記憶装置。
JP2016503046A 2013-03-15 2014-03-14 ビジネスエンティティ用の地理的ロケールのデータの非決定性曖昧さ排除と質的エンティティマッチングのためのシステム Active JP6205477B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361792762P 2013-03-15 2013-03-15
US61/792,762 2013-03-15
PCT/US2014/029282 WO2014144745A1 (en) 2013-03-15 2014-03-14 Non-deterministic disambiguation and matching of business locale data

Publications (2)

Publication Number Publication Date
JP2016515697A true JP2016515697A (ja) 2016-05-30
JP6205477B2 JP6205477B2 (ja) 2017-09-27

Family

ID=51533154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016503046A Active JP6205477B2 (ja) 2013-03-15 2014-03-14 ビジネスエンティティ用の地理的ロケールのデータの非決定性曖昧さ排除と質的エンティティマッチングのためのシステム

Country Status (13)

Country Link
US (1) US9183223B2 (ja)
EP (1) EP2972092A4 (ja)
JP (1) JP6205477B2 (ja)
KR (1) KR101835576B1 (ja)
CN (1) CN105209858B (ja)
AU (1) AU2014228754C1 (ja)
BR (1) BR112015023786B1 (ja)
CA (1) CA2906767A1 (ja)
HK (1) HK1217756A1 (ja)
PH (1) PH12015502104B1 (ja)
RU (1) RU2598165C1 (ja)
SG (1) SG11201507599VA (ja)
WO (1) WO2014144745A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2540817A (en) * 2015-07-30 2017-02-01 Ford Global Tech Llc Improvements in or relating to distributed vehicular data management systems
US20170039258A1 (en) * 2015-08-05 2017-02-09 Microsoft Technology Licensing, Llc Efficient Location-Based Entity Record Conflation
US10234295B2 (en) * 2015-11-06 2019-03-19 Sap Se Address remediation using geo-coordinates
US11284215B2 (en) * 2019-02-20 2022-03-22 Level 3 Communications, Llc Service area determination in a telecommunications network
US11631047B2 (en) * 2019-04-12 2023-04-18 Flipkart Internet Pvt. Ltd. System and method of geocoding
CN110175216B (zh) * 2019-05-15 2021-05-11 腾讯科技(深圳)有限公司 坐标纠错方法、装置和计算机设备
KR102342929B1 (ko) 2019-12-26 2021-12-28 한국국토정보공사 사고 발생패턴 분석을 통한 사고 취약지 분석 장치 및 방법
US11914553B2 (en) 2021-10-07 2024-02-27 T-Mobile Innovations Llc Methods and systems for analyzing similarities across tables and databases to perform de-duplication in a storage server
US11934367B2 (en) * 2021-10-07 2024-03-19 T-Mobile Innovations Llc Data management and de-duplication at a storage server

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307833A (ja) * 1997-05-08 1998-11-17 Matsushita Electric Ind Co Ltd 地図情報検索装置
JP2004004130A (ja) * 2003-09-09 2004-01-08 Aisin Aw Co Ltd ナビゲーション装置
JP2007057351A (ja) * 2005-08-24 2007-03-08 Xanavi Informatics Corp ナビゲーション装置およびナビゲーション処理方法
US20070185649A1 (en) * 2006-02-08 2007-08-09 Tele Atlas North America, Inc. Map database having address points for determining destinations
JP2008052077A (ja) * 2006-08-25 2008-03-06 Alpine Electronics Inc ナビゲーション装置および行き先検索方法
JP2009524893A (ja) * 2006-01-27 2009-07-02 グーグル インコーポレイテッド ロケーション検索クエリのための地理コーディング

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
JP2001304891A (ja) * 2000-04-27 2001-10-31 Toshiba Corp 道路交通状況の予測システム、車載用ナビゲーションシステム及び道路状況予測方法
US6895126B2 (en) * 2000-10-06 2005-05-17 Enrico Di Bernardo System and method for creating, storing, and utilizing composite images of a geographic location
EP1485825A4 (en) * 2002-02-04 2008-03-19 Cataphora Inc DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS
US7376636B1 (en) * 2002-06-07 2008-05-20 Oracle International Corporation Geocoding using a relational database
US7324666B2 (en) * 2002-11-15 2008-01-29 Whitegold Solutions, Inc. Methods for assigning geocodes to street addressable entities
US7373244B2 (en) * 2004-04-20 2008-05-13 Keith Kreft Information mapping approaches
US8670925B2 (en) * 2005-06-21 2014-03-11 Calabrese Holdings L.L.C. Navigation system and method
US7606582B2 (en) * 2005-12-13 2009-10-20 Yahoo! Inc. System and method for populating a geo-coding database
US7616964B2 (en) * 2005-12-13 2009-11-10 Yahoo! Inc. System and method for providing geo-relevant information based on a mobile device
US7606581B2 (en) * 2005-12-13 2009-10-20 Yahoo! Inc. System and method for providing geo-relevant information based on a location
US20070150199A1 (en) * 2005-12-13 2007-06-28 Soren Riise System and method for geo-coding using spatial geometry
US8050689B2 (en) * 2005-12-13 2011-11-01 Yahoo! Inc. System and method for creating minimum bounding rectangles for use in a geo-coding system
US7643673B2 (en) * 2006-06-12 2010-01-05 Google Inc. Markup language for interactive geographic information system
US7551126B2 (en) * 2007-03-08 2009-06-23 Trimble Navigation Limited GNSS sample processor for determining the location of an event
US20110179066A1 (en) * 2008-06-20 2011-07-21 Business Intelligence Solutions Safe B.V. Methods, apparatus and systems for data visualization and related applications
US20100125560A1 (en) * 2008-11-17 2010-05-20 Michael Asher Uncertainty-based geocoding for risk management
CN101769758A (zh) * 2008-12-30 2010-07-07 英华达(上海)科技有限公司 兴趣点搜寻范围的规划方法
US20100306287A1 (en) * 2009-05-26 2010-12-02 Nabil Raafat Mahrous Raphaeil Method and apparatus for global addressing of parcels of land
KR101516858B1 (ko) * 2009-07-07 2015-05-04 구글 인코포레이티드 지도 검색을 위한 쿼리 파싱 방법
RU2415456C1 (ru) * 2009-11-13 2011-03-27 Открытое акционерное общество "Научно-производственное предприятие "Рубин" (ОАО "НПП "Рубин") Модуль планирования
US8930245B2 (en) * 2010-06-23 2015-01-06 Justin Streich Methods, systems and machines for identifying geospatial compatibility between consumers and providers of goods or services
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
US8442716B2 (en) * 2010-10-31 2013-05-14 Microsoft Corporation Identifying physical locations of entities
US20130035853A1 (en) * 2011-08-03 2013-02-07 Google Inc. Prominence-Based Generation and Rendering of Map Features
EP2565583B1 (en) * 2011-08-29 2018-08-01 Harman Becker Automotive Systems GmbH Navigation device, method of outputting a map, and method of generating a database

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307833A (ja) * 1997-05-08 1998-11-17 Matsushita Electric Ind Co Ltd 地図情報検索装置
JP2004004130A (ja) * 2003-09-09 2004-01-08 Aisin Aw Co Ltd ナビゲーション装置
JP2007057351A (ja) * 2005-08-24 2007-03-08 Xanavi Informatics Corp ナビゲーション装置およびナビゲーション処理方法
JP2009524893A (ja) * 2006-01-27 2009-07-02 グーグル インコーポレイテッド ロケーション検索クエリのための地理コーディング
US20070185649A1 (en) * 2006-02-08 2007-08-09 Tele Atlas North America, Inc. Map database having address points for determining destinations
JP2009526273A (ja) * 2006-02-08 2009-07-16 テレ アトラス ノース アメリカ インコーポレイテッド 目的地を決定するためのアドレスポイントを持つ地図データべース
JP2008052077A (ja) * 2006-08-25 2008-03-06 Alpine Electronics Inc ナビゲーション装置および行き先検索方法

Also Published As

Publication number Publication date
CN105209858A (zh) 2015-12-30
PH12015502104A1 (en) 2016-01-18
CA2906767A1 (en) 2014-09-18
US9183223B2 (en) 2015-11-10
RU2598165C1 (ru) 2016-09-20
AU2014228754A1 (en) 2015-10-22
KR101835576B1 (ko) 2018-03-08
CN105209858B (zh) 2018-11-16
HK1217756A1 (zh) 2017-01-20
WO2014144745A1 (en) 2014-09-18
BR112015023786B1 (pt) 2022-05-03
PH12015502104B1 (en) 2016-01-18
KR20150138222A (ko) 2015-12-09
BR112015023786A2 (pt) 2017-07-18
EP2972092A1 (en) 2016-01-20
SG11201507599VA (en) 2015-10-29
AU2014228754B2 (en) 2015-12-24
EP2972092A4 (en) 2016-08-24
US20140280160A1 (en) 2014-09-18
JP6205477B2 (ja) 2017-09-27
AU2014228754C1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
JP6205477B2 (ja) ビジネスエンティティ用の地理的ロケールのデータの非決定性曖昧さ排除と質的エンティティマッチングのためのシステム
US9613166B2 (en) Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US20160275148A1 (en) Database query method and device
US9997157B2 (en) Knowledge source personalization to improve language models
US9201931B2 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
US9881037B2 (en) Method for systematic mass normalization of titles
CN109657068B (zh) 面向智慧博物馆的文物知识图谱生成与可视化方法
WO2022001682A1 (zh) 一种车载系统的控件对象查询方法和装置
US11397855B2 (en) Data standardization rules generation
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
CN102314452B (zh) 一种通过输入法平台进行导航的方法及系统
WO2017015475A1 (en) Providing recommendations based on job change indications
Dalvi et al. Deduplicating a places database
CN110688434A (zh) 一种兴趣点处理方法、装置、设备和介质
KR101747532B1 (ko) 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템
US20170075915A1 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
EP3407206B1 (en) Reconciled data storage system
JP7098502B2 (ja) 報告書作成装置、方法、およびプログラム
US11347820B2 (en) Facilitating identification of an intended country associated with a query
CN111325235A (zh) 面向多语种的通用地名语义相似度计算方法及其应用
TWI547888B (zh) A method of recording user information and a search method and a server
KR20200097949A (ko) 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템
CN104156364A (zh) 地图搜索结果的展现方法和装置
JP2012113716A (ja) カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170904

R150 Certificate of patent or registration of utility model

Ref document number: 6205477

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250