JP6594988B2 - 住所テキストを処理する方法及び機器 - Google Patents

住所テキストを処理する方法及び機器 Download PDF

Info

Publication number
JP6594988B2
JP6594988B2 JP2017542458A JP2017542458A JP6594988B2 JP 6594988 B2 JP6594988 B2 JP 6594988B2 JP 2017542458 A JP2017542458 A JP 2017542458A JP 2017542458 A JP2017542458 A JP 2017542458A JP 6594988 B2 JP6594988 B2 JP 6594988B2
Authority
JP
Japan
Prior art keywords
address
text
address text
original
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017542458A
Other languages
English (en)
Other versions
JP2018510410A5 (ja
JP2018510410A (ja
Inventor
ション,ジュン
Original Assignee
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2018510410A publication Critical patent/JP2018510410A/ja
Publication of JP2018510410A5 publication Critical patent/JP2018510410A5/ja
Application granted granted Critical
Publication of JP6594988B2 publication Critical patent/JP6594988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本願は、一般に通信技術の分野に関し、具体的には住所テキスト(text address)を処理する方法及び機器に関する。
インターネット技術の発展と共に、インターネットベースのアプリケーションがますます広く使用されている。インターネットアプリケーションでは、利用者は自宅の住所や会社の住所等の何らかの住所情報をテキストによって埋めることをしばしば要求される。利用者による住所情報のテキスト記述を住所テキストと呼ぶ。住所情報をテキストによって埋めるとき、利用者は通常、その人自身の記述の癖を有し、異なる利用者の記述の癖は一般に異なる。その結果、同じ住所情報が様々な住所テキストに対応する。例えば「建物1、地区1」のような住所情報では、一部の利用者は住所情報を「101」と記述する場合があり、一部の利用者は住所情報を「1−01」と記述する場合があり、一部の利用者は住所情報を「建物1、地区1」等と記述する場合がある。このことは同じ住所情報が複数の住所テキストを有することを招く。
住所情報の管理及びアプリケーション(例えば住所情報に基づいてアプリケーションマイニング等を行うことができる)を円滑化するために、住所テキストに対して正規化処理を行う必要がある。つまり、同じ住所情報に対応する様々な住所テキストを1つの住所テキストに統一する必要がある。住所テキストを正規化するための既存の考えは:正規化しようとする全ての住所テキストを識別し、住所テキスト内に含まれる標準的断片(standard fragment)を抽出し、住所テキスト内に含まれる標準的断片に基づいて相関度を対ごとに計算し、2つの住所テキスト間の相関度に基づいて2つの住所テキストを正規化すべきかどうかを判定する、というものである。
住所テキストが多様だと、同じ住所情報を記述するための異なる住所テキストのテキストコンテンツが大幅にばらつき得る一方、異なる住所情報を記述するための住所テキストのテキストコンテンツは僅かにしかばらつかない可能性がある。これに基づき、正規化しようとする大量の住所テキストがある場合、誤り許容限度を管理するのが困難な場合があり、このことは住所テキストの正規化結果の精度を相対的に低くする。
複数の態様において、本願は住所テキストの正規化結果の精度を改善するための、住所テキストを処理する方法及び機器を提供する。
一態様では、本願は住所テキストを処理する方法を提供し、この方法は、
サービスシステム内の利用者の社会的な関係によるサークル(以下、社会的関係サークル)に従って少なくとも1つの住所集合を決定することであって、少なくとも1つの住所集合内の各住所集合は少なくとも2つのオリジナル住所テキストを含む、決定すること、及び
住所集合に対応する目的住所テキストを得るために、住所集合内のオリジナル住所テキストに対して正規化処理を住所集合ごとに実行することを含む。
別の態様では、本願は住所テキスト処理機器を提供し、この住所テキスト処理機器は、
サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定するように構成される決定モジュールであって、少なくとも1つの住所集合内の各住所集合は少なくとも2つのオリジナル住所テキストを含む、決定モジュールと、
住所集合に対応する目的住所テキストを得るために、住所集合内のオリジナル住所テキストに対して正規化処理を住所集合ごとに実行するように構成される正規化モジュールとを含む。
本願では、サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定する。各住所集合に対応する目的住所テキストを得るために、住所集合を1つの単位として解釈することによって各住所集合内のオリジナル住所テキストに対して正規化処理をそれぞれ実行し、それにより住所テキストに対する正規化処理を実現する。正規化しようとするオリジナル住所テキストを利用者の社会的関係サークルに従って分けるので、一方で、正規化しようとするオリジナル住所テキストの範囲が利用者の社会的関係サークルに限定され、正規化しようとするオリジナル住所テキストの範囲を減らすことと同等である。他方で、社会的関係サークル外の利用者が使用する住所テキストと比較し、社会的関係サークル内の利用者が使用する住所テキストには或る程度の関連性があり、住所テキストの正規化を関連性がある住所テキスト間に固定することと同等である。このようにして、住所テキスト間の誤り許容限度をより容易に管理することができ、このことは住所テキストの正規化結果の精度を改善する助けとなる。
図面の簡単な説明
本願の実施形態における技術的解決策をより明確に説明するために、実施形態又は従来技術に関する説明の中で使用する添付図面を以下で簡潔に紹介する。以下の説明の中の添付図面が本願の一部の実施形態を示すことが明らかである。創造的な取組みを行うことなしに、添付図面に従う他の添付図面も当業者なら得ることができる。
本願の一実施形態による住所テキストを処理する方法の概略的な流れ図である。 本願の一実施形態による正規化プロセスの概略図である。 本願の一実施形態による住所テキスト処理機器の概略的な構造図である。
詳細な説明
本願の実施形態の目的、技術的解決策、及び利点をより明確にするために、本願の一部の実施形態の技術的解決策を添付図面に関して以下で明確且つ完全に説明する。記載する実施形態は、本願の実施形態の全てではなく一部であることが明らかである。創造的な取組みを行うことなしに本願の実施形態に基づいて当業者が得る他の全ての実施形態が本願の保護範囲に属する。
図1は、本願の一実施形態による住所テキストを処理する方法の概略的な流れ図である。図1に示すようにこの方法は、
101:サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定することであって、少なくとも1つの住所集合内の各住所集合は少なくとも2つのオリジナル住所テキストを含む、決定すること、及び
102:住所集合に対応する目的住所テキストを得るために、住所集合内のオリジナル住所テキストに対して正規化処理を住所集合ごとに実行することを含む。
この実施形態による住所テキスト処理方法は、住所テキスト処理機器によって実行され得る。この実施形態による方法は、住所テキストに対して正規化処理を実行するために主に使用される。
まず第一に、この実施形態の住所テキストは、住所情報に関するテキスト記述を指すことに留意すべきである。様々な住所テキストが、同じ住所情報に関するテキスト記述であり得る。加えてこの実施形態では、記述及び区別を簡単にするために、正規化を行う前の住所テキストをオリジナル住所テキストと呼び、正規化後に得られる住所テキストを目的住所テキストと呼ぶ。オリジナル住所テキスト及び目的住所テキストはどちらも、住所情報に関するテキスト記述である。
概して、正規化の需要がある場合にのみ住所テキストに対して正規化処理が行われる。住所テキストに対して正規化処理を行う需要は、概して特定のサービスシステム又は一部のサービスシステムに固有である。手短に言えば、正規化済みの住所テキストによって新たなサービス若しくは新たなサービスの需要を引き出すことができるように、又は関連情報の統計的解析等を行うことができるように、特定のサービスシステム又は一部のサービスシステムについて関係する住所テキストを正規化する必要がある。
この実施形態はサービスシステムを限定しないことに留意すべきである。サービスシステムは、例えば電子商取引システム、オンライン決済システム、インスタントメッセージングシステム、電子メールシステム等であり得る、住所テキストに関する様々なサービスシステムとすることができる。
住所テキストに対して正規化処理を実行する前に、サービスシステムに関係する正規化しようとするオリジナル住所テキストを決定することが必要であり得る。本願では、サービスシステムに関係するオリジナル住所テキストが、サービスシステム内の利用者の社会的関係サークルに従って決定され得る。或る利用者にとって自分の社会的関係サークルは、自分と交友関係がある他の利用者を主に含む。好ましくは、対象利用者と密に関連する利用者が、対象利用者と交友関係を有する利用者から、対象利用者の社会的関係サークルとして選択され得る。例えば、対象利用者の社会的関係サークルは以下のやり方の少なくとも1つによって得ることができる。
対象利用者と金融取引(例えば口座振替)を行う他の利用者が、対象利用者の社会的関係サークル内の利用者として取得され得る。好ましくは、対象利用者との振替の頻度又は金額が閾値を上回る他の利用者が、対象利用者の社会的関係サークル内の利用者として取得され得る。
対象利用者の住所録内の他の利用者が、対象利用者の社会的関係サークル内の利用者として取得され得る。概して、対象利用者によって承認されると、各アプリケーションが対象利用者の住所録を読み取ることができる。
インスタントメッセージングツールによって対象利用者と通信する他の利用者が、対象利用者の社会的関係サークル内の利用者として取得され得る。インスタントメッセージングツールは、これだけに限定されないがWeChatやQQ等を含む。好ましくは、対象利用者との対話頻度又は通信時間が閾値を上回る他の利用者が、対象利用者の社会的関係サークル内の利用者として取得され得る。
対象利用者と同じ装置を使用する他の利用者が、対象利用者の社会的関係サークル内の利用者として取得され得る。ここでの装置は、コンピュータ、携帯電話、WIFI等を含み得る。好ましくは、対象利用者と同じ装置を使用する頻度又は時間が閾値を上回る他の利用者が、対象利用者の社会的関係サークル内の利用者として取得され得る。
具体的には、住所テキストに対して正規化処理を行う必要がある場合、住所テキスト処理機器が、サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定する。各住所集合は少なくとも2つのオリジナル住所テキストを含む。このプロセスでは、利用者の社会的関係サークルに従ってサービスシステムに関係するオリジナル住所テキストを決定することに加えて、サービスシステムに関係するオリジナル住所テキストが同時に分けられる。サービスシステムに関係するオリジナル住所テキストは、異なる住所集合へと分けられる。
任意選択的な実装形態では、サービスシステム内の利用者数に従って住所集合の数を決定することができ、例えば1人の利用者は1つの住所集合に対応し得る。
具体的には、サービスシステム内の利用者ごとに、住所テキスト処理機器は利用者の社会的関係サークルをまず決定する必要がある(特に利用者の社会的関係サークルは上記のやり方で決定することができる)。次いで、利用者が使用した住所情報及び利用者の社会的関係サークル内の利用者が使用した住所情報を住所集合として取得することができる。
住所テキスト処理機器は、住所集合に対応する目的住所テキストを得るために、住所集合内のオリジナル住所テキストに対して正規化処理を住所集合ごとに実行する。これは、住所テキストに対する正規化処理を各住所集合に限定することと同等である。一方で、これは正規化しようとするオリジナル住所テキストの範囲を減らすことと同等である。他方で、社会的関係サークル外の利用者が使用する住所テキストと比較し、社会的関係サークル内の利用者が使用する住所テキストには或る程度の関連性があり、住所テキストの正規化を関連性がある住所情報間に固定することと同等である。このようにして、住所テキスト処理機器が住所テキスト間の誤り許容限度をより容易に管理することができ、このことは住所テキストの正規化結果の精度を改善する助けとなる。
任意選択的な実装形態では、住所集合に対応する目的住所テキストを得るために、住所集合内のオリジナル住所テキストに対して正規化処理を住所テキスト処理機器が住所集合ごとに実行するプロセスが、
住所集合内の2つのオリジナル住所テキストそれぞれの特徴に従って前記2つのオリジナル住所テキスト間の類似度を住所テキスト処理機器によって計算すること、及び住所集合に対応する目的住所テキストを得るために、前記2つのオリジナル住所テキストが前記2つのオリジナル住所テキストのうちの1つに正規化され得るかどうかを、前記2つのオリジナル住所テキスト間の類似度に従って判定することを含み得る。
住所集合に対応する1つ又は複数の目的住所テキストがあり得ることに留意すべきである。
具体的には、住所テキスト処理機器は、1つの住所集合についてその住所集合内の2つのオリジナル住所テキストそれぞれの特徴を抽出して、前記2つのオリジナル住所テキストそれぞれの特徴を得ることができる。次いで住所テキスト処理機器は、前記2つのオリジナル住所テキストそれぞれの抽出済みの特徴に従って前記2つのオリジナル住所テキスト間の類似度を計算する。住所テキスト処理機器は、前記2つのオリジナル住所テキストが前記2つのオリジナル住所テキストのうちの1つに正規化され得るかどうかを、前記2つのオリジナル住所テキスト間の類似度に従って更に判定する。
任意選択的に、この実施形態で使用するオリジナル住所テキストの特徴は、標準的断片特徴、経度及び緯度の特徴、並びに英数字の特徴のうちの少なくとも1つを含み得る。
上記の内容に基づき、住所テキスト処理機器は、1つの住所集合についてその住所集合内の2つのオリジナル住所テキストそれぞれの特徴を抽出して、前記2つのオリジナル住所テキストの標準的断片特徴、経度及び緯度の特徴、並びに英数字の特徴のうちの少なくとも1つを得る。住所テキスト処理機器は、少なくとも1つの特徴のうちの特徴ごとに、その特徴に対応する前記2つのオリジナル住所テキスト間の類似度をその特徴に従って計算する。住所テキスト処理機器は、前記2つのオリジナル住所テキストを前記2つのオリジナル住所テキストのうちの1つに正規化すべきかどうかを、その特徴に対応する前記2つのオリジナル住所テキスト間の類似度に従って更に判定する。
標準的断片特徴は、オリジナル住所テキスト内に含まれる標準的な住所の断片を特に反映し得る。例えば、オリジナル住所テキスト内に含まれる標準的断片を得るために、オリジナル住所テキストに対して構造的な構文解析を行うことができる。この実施形態では、住所テキストを24個の標準的な住所の断片に事前に分けることができる。例えば、オリジナル住所テキストが24個の標準的断片のどの断片を含むのかを得るために、オリジナル住所テキストに対して構造解析を行うことができる。24個の標準的断片は、例えば州、都市、地区、開発地域、道路等の断片情報を含み得る。
経度及び緯度の特徴は、オリジナル住所テキストによって記述される住所情報の経度及び緯度情報を特に反映し得る。例えば、AutoNaviのジオコーディング技術を使用することにより、オリジナル住所テキストの経度及び緯度の特徴を抽出することができる。ジオコーディング技術は、住所テキストを地理情報システム(GIS)内で使用できる地理座標に変換するやり方を提供する空間的位置決め技術に基づく符号化方法である。詳細な説明については従来技術を参照することができる。
英数字の特徴は、オリジナル住所テキスト内に含まれるアルファベット及び/又は数字を特に反映し得る。英数字の特徴は、オリジナル住所テキストから直接抽出し、得ることができる。
標準的断片特徴、経度及び緯度の特徴、並びに英数字の特徴のうちの少なくとも1つの特徴内の各特徴について、
特徴が標準的断片特徴である場合、住所テキスト処理機器は、SimHashアルゴリズムを使用することによって前記2つのオリジナル住所テキストそれぞれの標準的断片特徴を処理して、標準的断片特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を得ることができる。
SimHashアルゴリズムの主な考えは特徴の次元を減らすことであり、高次元の標準的断片特徴を低次元の標準的断片特徴にマップし、次いで2つの低次元の標準的断片特徴間のハミング距離を比較することにより、2つの低次元の標準的断片特徴によって識別される2つの住所テキストが同じものであるかどうか、又は極めて似ているかどうかを判定する。2つの符号語内で異なる対応ビット値を有するビットの個数を2つの符号語間のハミング距離と呼ぶ。有効な符号集合内の2つの任意の符号語間のハミング距離の最小値を符号集合のハミング距離と呼ぶ。例えば、符号語10101と符号語00110とでは、最初のビットから開始してその1番目のビット、4番目のビット、及び5番目のビットが順序的に異なり、ハミング距離は3である。
上記の特徴が経度及び緯度の特徴である場合、住所テキスト処理機器は、経度/緯度距離アルゴリズムを使用することによって前記2つのオリジナル住所テキストそれぞれの経度及び緯度の特徴を処理して、経度及び緯度の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を得ることができる。
具体的には、住所テキスト処理機器は、2つのオリジナル住所テキストによって記述される住所情報間の距離を2つのオリジナル住所テキストの経度及び緯度の特徴に従って計算することができる。次いで住所テキスト処理機器は、経度及び緯度の特徴の次元上での2つのオリジナル住所テキスト間の類似度をその距離に従って決定することができる。
実際の応用例では、一部の利用者によって記述されるオリジナル住所テキストが地図上の点まで正確な場合があり、一部の利用者によって記述されるオリジナル住所テキストが地図上の線までしか正確でない場合があり、一部の利用者によって記述されるオリジナル住所テキストが地図上の面までしか正確でない場合さえある。粒度は同一ではないので、オリジナル住所テキストを地図の観点から正規化する場合、正規化は最も粗い粒度からしか行うことができず、正規化結果の精度を不十分なものにする。しかしこの実施形態では、オリジナル住所テキストを経度及び緯度上にマップすることができる。全ての住所テキストを経度及び緯度にマップすることができ、経度及び緯度の粒度が比較的細かいので、この形態は比較的細かい粒度上に正規化処理を統一するのを助け、そのことは正規化結果の精度を改善し得る。
上記の特徴が英数字の特徴である場合、住所テキスト処理機器は、ジャカード係数アルゴリズムを使用することによって前記2つのオリジナル住所テキストそれぞれの英数字の特徴を処理して、英数字の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を得ることができる。
ジャカード係数は、サンプル集合内の類似性及び分散度を比較するために主に使用される確率である。ジャカード係数は、サンプル集合の和集合に対するサンプル集合の共通集合の比率に等しく、つまりJ=|A∩B|/|A∪B|が成立する。上記のオリジナル住所テキストのうちの1つの英数字の特徴をサンプル集合として使用することができ、英数字の特徴の中のアルファベット及び/又は数字をサンプル集合内の要素として使用することができる。
住所テキスト処理機器は、標準的断片特徴の次元上での前記2つのオリジナル住所テキスト間の類似度、経度及び緯度の特徴の次元上でのその類似度、並びに英数字の特徴の次元上でのその類似度に基づき、標準的断片特徴の次元上での前記2つのオリジナル住所テキスト間の類似度、経度及び緯度の特徴の次元上でのその類似度、並びに英数字の特徴の次元上でのその類似度に従って、2つのオリジナル住所テキストをその1つの住所テキストへと正規化できるかどうかを特に同時に判定することができる。
例えば、各次元上の2つのオリジナル住所テキスト間の類似度を対応する閾値とそれぞれ比較することができる。各次元上の2つのオリジナル住所テキスト間の類似度が対応する閾値を上回る場合、2つのオリジナル住所テキストをその1つの住所テキストへと正規化できると判定することができる。さもなければ、他の状況では、2つのオリジナル住所テキストをその1つの住所テキストへと正規化できないと判定することができる。
別の例では、一つの次元上の2つのオリジナル住所テキスト間の類似度を対応する閾値と優先的に比較することができる。一つの次元上の2つのオリジナル住所テキスト間の類似度が、対応する閾値を上回る場合、2つのオリジナル住所テキストをその1つの住所テキストへと正規化できると直接判定することができる。
別の例では、各次元上の類似度に関して重みを事前に設定することができる。各次元上の2つのオリジナル住所テキスト間の類似度及び対応する重みに対して数値処理を行い、処理結果を得ることができる。処理結果は予め設定した閾値と比較することができる。処理結果が閾値を上回る場合、2つのオリジナル住所テキストをその1つの住所テキストへと正規化できると判定することができる。さもなければ、2つのオリジナル住所テキストをその1つの住所テキストへと正規化できないと判定することができる。
更に、任意選択的な実装形態では、或る利用者がサービスシステム内の複数の利用者と社会的関係を同時に有する可能性が高く、従って複数の利用者の社会的関係サークル内に登場することを考慮すると、それは利用者が使用したオリジナル住所テキストが様々な住所集合内で登場し得ることを意味する。この状況では、各住所集合に対応する目的住所テキストを得た後、住所集合間の正規化を更に行ってより正確且つ単純化された正規化結果を得ることができる。
各住所集合を正規化するプロセス内で、住所テキスト処理機器は、目的住所テキストとオリジナル住所テキストとの間の対応関係を記録し得ることに留意すべきである。対応関係は、目的住所テキストがどのオリジナル住所テキストから正規化によって明確に得られるのかを示し得る。
上記の内容に基づき、各住所集合に対応する目的住所テキストを得た後、住所テキスト処理機器は、正規化処理中に形成される目的住所テキストとオリジナル住所テキストとの間の対応関係に従い、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストを更に決定することができる。同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストは異なる住所集合にそれぞれ対応する。次いで住所テキスト処理機器は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストに対して正規化処理を行うことができる。
任意選択的な実装形態では、住所テキスト処理機器が、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストにそれぞれ対応するオリジナル住所テキスト内に含まれる標準的な住所の断片を取得することができる。住所テキスト処理機器は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストにそれぞれ対応するオリジナル住所テキスト内に含まれる標準的な住所の断片の断片共通集合を更に得ることができる。断片共通集合は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストにそれぞれ対応する全てのオリジナル住所テキスト内に含まれる標準的な住所の断片を含む。次いで住所テキスト処理機器は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストに対する正規化処理を断片共通集合に従って行うことができる。
特定の正規化処理のやり方は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストのうちの1つを断片共通集合が表し得るかどうかを、住所テキスト処理機器によって判定することを含み得る。判定結果が肯定である、つまり同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストのうちの1つを断片共通集合が表し得る場合、このやり方は、共通集合同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストを、断片共通集合が表すことができる目的住所テキストへ正規化することを更に含む。逆に判定結果が否定である、つまり同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストのうちのどれも断片共通集合が表せない場合、このやり方は正規化処理を行うことを含まない。
特に、目的住所テキストを表すのに必要な断片集合を予め設定することができる。予め設定した断片集合と断片共通集合を比較することができる。断片共通集合が予め設定した断片集合と一致する場合、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストのうちの1つを断片共通集合が表し得ると判定することができる。さもなければ、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストのうちのどれも断片共通集合が表せないと判定することができる。
更に、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストのうちの1つを上記の断片共通集合が表し得る場合、断片共通集合及びその断片共通集合が表し得る目的住所テキストを特徴知識ベース内に対応して記憶することができる。このようにして、更に多くのオリジナル住所テキストを正規化するために、この特徴知識ベースを使用することができる。
以下、サービスシステムが第1の利用者と第2の利用者とを含むことを一例として説明する。第1の利用者の社会的関係サークルが、利用者A、利用者B、及び利用者Cを含み、第2の利用者の社会的関係サークルが、利用者D、利用者E、及び利用者Fを含むと仮定する。第1の利用者が使用した住所テキスト、及び第1の利用者の社会的関係サークル内の利用者が使用した住所テキストが、第1の住所集合を構成する。第1の住所集合内に含まれる住所テキストがX1、X2、及びX3だと仮定する。第1の利用者、利用者A、利用者B、及び利用者C、並びに住所テキストX1、X2、及びX3の間に決まった対応関係はない。1人の利用者が1つの住所テキストを使用する可能性があり、複数の利用者が同じ住所テキストを使用する可能性もあり、1人の利用者が複数の住所テキストを使用する可能性もある。例えば、第1の利用者が住所テキストX1を使用し、利用者A及び利用者Bが住所テキストX2を使用し、利用者Cが住所テキストX1及びX3を使用する。
第2の利用者が使用した住所テキスト、及び第2の利用者の社会的関係サークル内の利用者が使用した住所テキストが、第2の住所集合を構成する。第2の住所集合内に含まれる住所テキストがX2、X4、及びX5だと仮定する。同様に第2の利用者、利用者D、利用者E、及び利用者F、並びに住所テキストX2、X4、及びX5の間に決まった対応関係はない。1人の利用者が1つの住所テキストを使用する可能性があり、複数の利用者が同じ住所テキストを使用する可能性もあり、1人の利用者が複数の住所テキストを使用する可能性もある。例えば、第2の利用者が住所テキストX2を使用し、利用者Dが住所テキストX2、X4、及びX5を使用し、利用者Eが住所テキストX2及びX5を使用し、利用者Fが住所テキストX5を使用する。
上記の内容に基づき、全正規化プロセスは具体的には図2に示すようになり得る。
まず、第1の住所集合を得るために第1の利用者の社会的関係サークルを決定する。図2に示すように、第1の住所集合は住所テキストX1、X2、及びX3を含む。第2の住所集合を得るために第2の利用者の社会的関係サークルを決定する。図2に示すように、第2の住所集合は住所テキストX2、X4、及びX5を含む。
第1の住所集合内の住所テキスト間の類似度を対ごとに計算し、その類似度に従って正規化処理を実現する。住所テキストX1及びX2をX1及びX2の一方へと正規化する。ここでは住所テキストX1及びX2をX1へと正規化し、住所テキストX3を住所テキストX3へと正規化すると仮定する。つまり図2に示すように、第1の住所集合に対応する2つの目的住所テキストは住所テキストX1及びX3である。同様に、第2の住所集合内の住所テキスト間の類似度を対ごとに計算し、その類似度に従って正規化処理を実現する。住所テキストX2及びX4を、X2及びX4の一方へと正規化する。ここでは住所テキストX2及びX4をX4へと正規化し、住所テキストX5を住所テキストX5へと正規化すると仮定する。つまり図2に示すように、第2の住所集合に対応する2つの目的住所テキストは住所テキストX4及びX5である。
更に、第1の住所集合に対応する目的住所テキストX1及び第2の住所集合に対応する目的住所テキストX4が、どちらも住所テキストX2の正規化によって得られるので、2つの目的住所テキストに対して正規化処理を行うことができる。2つの目的住所テキストをX1及びX4のうちの一方へと更に正規化する。図2に示すように、ここでは2つの目的住所テキストをX1へと正規化すると仮定する。これまでにオリジナル住所テキストX1、X2、X3、X4、及びX5を住所テキストX1、X3、及びX5へと正規化した。
上記のプロセスにおいて、住所テキストX1及びX2を、X2へと正規化し、住所テキストX2及びX4も、X2へと正規化する場合、住所テキストX1、X2、及びX4を同じ住所テキストへと正規化しているので、上記の2つの住所集合に対応する目的住所テキストを正規化するプロセス内で、2つの同一の目的住所テキストに対して正規化処理を行わなくても良い。このことは正規化によって消費される資源を節約し、正規化処理の効率を改善することをもたらす。
住所テキストに対して正規化処理を行うことによって住所テキストの数が単純化され、住所テキストが統一され、そのことが住所テキストの管理及びアプリケーションを更に円滑化することが上記の内容から見て取れる。加えて、正規化しようとするオリジナル住所テキストは利用者の社会的関係サークルに従って分けられる。一方で、正規化しようとするオリジナル住所テキストの範囲が各利用者の社会的関係サークルに限定され、正規化しようとするオリジナル住所テキストの範囲を減らすことと同等である。他方で、社会的関係サークル外の利用者が使用する住所テキストと比較し、社会的関係サークル内の利用者が使用する住所テキストには或る程度の関連性があり、住所テキストの正規化を、関連性がある住所テキスト間に固定することと同等である。このようにして、住所テキスト間の誤り許容限度をより容易に管理することができ、このことは住所テキストの正規化結果の精度を改善する助けとなる。
説明を簡単にするために、上記の方法の実施形態は全ての一連のアクションの組合せとして表したことに留意すべきである。但し、一部のステップは本願に従って別の順序で又は同時に実行できるので、本願は記載したアクションの順序によって限定されないことを当業者なら理解すべきである。第2に、本明細書に記載した実施形態は全て好ましい実施形態であり、関与するアクション及びモジュールは本願では必ずしも必要ではないことも当業者なら理解すべきである。
上記の実施形態では、各実施形態の説明が独自の焦点を有している。特定の実施形態の中で詳述しなかった内容については別の実施形態の関連する説明を参照することができる。
図3は、本願の一実施形態による住所テキスト処理機器の概略的な構造図である。図3に示すように、この機器は決定モジュール31と正規化モジュール32とを含み得る。
決定モジュール31は、サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定するように構成することができ、少なくとも1つの住所集合内の各住所集合は少なくとも2つのオリジナル住所テキストを含む。
正規化モジュール32は、住所集合に対応する目的住所テキストを得るために、住所集合内のオリジナル住所テキストに対する正規化処理を、決定モジュール31によって決定される住所集合ごとに実行するように構成することができる。
住所集合に対応する目的住所テキストは1つ又は複数であり得ることに留意すべきである。
任意選択的な実装形態では、決定モジュール31が、
サービスシステム内の各利用者の社会的関係サークルを決定し、
各利用者が使用する住所テキスト及び各利用者の社会的関係サークル内の利用者が使用する住所テキストを取得して、住所集合を構成するように特に構成され得る。
任意選択的な実装形態では、正規化モジュール32が、
住所集合内の2つのオリジナル住所テキストそれぞれの特徴に従って、前記2つのオリジナル住所テキスト間の類似度を計算し、
住所集合に対応する目的住所テキストを得るために、前記2つのオリジナル住所テキストが前記2つのオリジナル住所テキストのうちの1つに正規化され得るかどうかを、前記2つのオリジナル住所テキスト間の類似度に従って判定するように特に構成され得る。
正規化モジュール32は、住所集合内の2つのオリジナル住所テキストそれぞれの特徴に従って、前記2つのオリジナル住所テキスト間の類似度を計算するとき、
住所集合内の2つのオリジナル住所テキストそれぞれの特徴を抽出し、前記2つのオリジナル住所テキストの標準的断片特徴、経度及び緯度の特徴、並びに英数字の特徴のうちの少なくとも1つの特徴を取得し、
少なくとも1つの特徴のうちの特徴ごとに、その特徴に対応する前記2つのオリジナル住所テキスト間の類似度を、その特徴に従って計算するように更に特に構成され得る。
正規化モジュール32は、少なくとも1つの特徴のうちの特徴ごとに、その特徴に対応する前記2つのオリジナル住所テキスト間の類似度をその特徴に従って計算するとき、
特徴が標準的断片特徴である場合、SimHashアルゴリズムを使用することによって前記2つのオリジナル住所テキストそれぞれの標準的断片特徴を処理して、標準的断片特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を取得し、
特徴が経度及び緯度の特徴である場合、経度/緯度距離アルゴリズムを使用することによって前記2つのオリジナル住所テキストそれぞれの経度及び緯度の特徴を処理して、経度及び緯度の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を取得し、
特徴が英数字の特徴である場合、ジャカード係数アルゴリズムを使用することによって前記2つのオリジナル住所テキストそれぞれの英数字の特徴を処理して、英数字の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を取得するように、更に構成され得る。
任意選択的な実装形態では、決定モジュール31は、各住所集合に対応する目的住所テキストを正規化モジュール32が得た後、正規化処理中に形成される目的住所テキストとオリジナル住所テキストとの間の対応関係に従い、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストを決定するように更に構成することができ、
正規化モジュール32は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストに対して正規化処理を行うように更に構成することができる。
正規化モジュール32は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストに対して正規化処理を行うとき、
同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストにそれぞれ対応するオリジナル住所テキスト内に含まれる標準的な住所の断片の断片共通集合を取得し、
同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストに対する正規化処理を、断片共通集合に従って行うように特に構成され得る。
任意選択的な実装形態では、この実施形態の住所テキスト処理機器は、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストのうちの1つを断片共通集合が表し得る場合、断片共通集合及びその断片共通集合が表し得る目的住所テキストを対応づけて記憶するように構成される特徴知識ベースを更に含み得る。
この実施形態による住所テキスト処理機器は、サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定することができる。次いで住所テキスト処理機器は、各住所集合に対応する目的住所テキストを得るために、住所集合を1つの単位として解釈することによって、各住所集合内のオリジナル住所テキストに対して正規化処理をそれぞれ実行し、それにより住所テキストに対する正規化処理を実現する。この実施形態による住所テキスト処理機器は、正規化しようとするオリジナル住所テキストを、利用者の社会的関係サークルに従って分ける。一方で、正規化しようとするオリジナル住所テキストの範囲が利用者の社会的関係サークルに限定され、正規化しようとするオリジナル住所テキストの範囲を減らすことと同等である。他方で、社会的関係サークル外の利用者が使用する住所テキストと比較し、社会的関係サークル内の利用者が使用する住所テキストには或る程度の関連性があり、住所テキストの正規化を関連性がある住所テキスト間に固定することと同等である。従って、住所テキスト間の誤り許容限度をより容易に管理することができ、このことは住所テキストの正規化結果の精度を改善する助けとなる。
この説明を有用且つ簡潔にするために、本明細書では繰り返さない上記のシステム、機器、及びユニットの特定の動作プロセスについて、上記の方法の実施形態の中の対応するプロセスを参照できることを当業者なら明確に理解することができる。
本願の中で示した幾つかの実施形態において、開示したシステム、機器、及び方法を別のやり方で実装できることを理解すべきである。例えば、記載した機器の実施形態は例示に過ぎない。例えばユニットを分割することは論理機能を分割することに過ぎず、実際の実装形態では別のやり方の分割も存在し得る。例えば、複数のユニット又はコンポーネントを別のシステムに組み込み又は一体化することができ、又は一部の特徴を無視し又は行わなくても良い。加えて、記載し又は解説した相互結合、直接結合、若しくは通信接続は、何らかのインタフェース、機器、又はユニットを介した間接的な結合又は通信接続とすることができ、電気的に、機械的に、又は他の形態で実装することができる。
別個のパーツとして記載したユニットは物理的に別個でもそうでなくても良く、ユニットとして記載したパーツは1つの場所に位置し得る又は複数のネットワークユニット上に分散され得る物理的ユニットでもそうでなくても良い。実施形態の解決策の目的を実現するために、ユニットの一部又は全てを実際の需要に応じて選択することができる。
加えて、本願の実施形態の中の機能ユニットを1つの処理ユニットに一体化することができ、ユニットのそれぞれは物理的に単独で存在することができ、又は2つ以上のユニットが1つのユニットに一体化される。一体型ユニットはハードウェア形式で実装することができ、又はハードウェア及びソフトウェアの機能ユニット形式で実装することができる。
ソフトウェアの機能ユニット形式で実装される一体型ユニットはコンピュータ可読記憶媒体の中に記憶することができる。ソフトウェアの機能ユニットは記憶媒体の中に記憶することができ、本願の実施形態に記載の方法のステップの一部を実行するようにコンピュータ装置(パーソナルコンピュータ、サーバ、ネットワーク装置等であり得る)又はプロセッサに命令するための命令を含む。上記の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、光ディスク等、プログラムコードを記憶し得る任意の媒体を含み得る。
最後に、上記の実施形態は本願の技術的解決策を説明するために与えたに過ぎず、本願を限定することは意図しないことに留意すべきである。上記の実施形態に関して本願を詳細に説明してきたが、上記の実施形態に記載の技術的解決策に修正をなお加えることができ、又は技術的解決策の中の一部の技術的特徴に対して等価の置換を行うことができることを当業者なら理解すべきである。そのような修正又は置換は、本願の実施形態の技術的解決策の趣旨及び範囲から対応する技術的解決策の本質が逸脱することは引き起こさない。

Claims (26)

  1. 住所テキストを処理する方法であって、
    サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定することであって、前記少なくとも1つの住所集合の各住所集合は少なくとも2つのオリジナル住所テキストを含む、決定すること、及び
    前記住所集合に対応する目的住所テキストを得るために、前記住所集合内のオリジナル住所テキストに対して正規化を住所集合ごとに実行すること
    を含む、方法。
  2. サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定することが、
    前記サービスシステム内の利用者の社会的関係サークルを決定すること、及び
    前記利用者が使用する住所テキスト及び前記社会的関係サークル内の利用者が使用する住所テキストを取得して住所集合を構成すること
    を含む、請求項1に記載の方法。
  3. 前記住所集合に対応する目的住所テキストを得るために、前記住所集合内のオリジナル住所テキストに対して正規化を実行することが、
    前記住所集合内の2つのオリジナル住所テキストそれぞれの特徴に従って、前記2つのオリジナル住所テキスト間の類似度を決定すること、及び
    前記住所集合に対応する目的住所テキストを得るために、前記2つのオリジナル住所テキストが前記2つのオリジナル住所テキストのうちの1つに正規化され得るかどうかを、前記類似度に従って判定すること
    を含む、請求項1に記載の方法。
  4. 前記住所集合内の2つのオリジナル住所テキストそれぞれの特徴に従って、前記2つのオリジナル住所テキスト間の類似度を決定することが、
    前記2つのオリジナル住所テキストそれぞれの標準的断片特徴、経度及び緯度の特徴、又は英数字の特徴のうちの少なくとも1つを抽出すること、及び
    前記抽出された特徴に対応する前記2つのオリジナル住所テキスト間の類似度を、抽出された特徴それぞれに従って決定すること
    を含む、請求項3に記載の方法。
  5. 前記特徴に対応する前記2つのオリジナル住所テキスト間の類似度を、抽出された特徴それぞれに従って決定することは、
    前記抽出された特徴が標準的断片特徴であることに応じて、SimHashアルゴリズムを使用することによって、標準的断片特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定すること、
    前記抽出された特徴が経度及び緯度の特徴であることに応じて、経度/緯度距離アルゴリズムを使用することによって、経度及び緯度の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定すること、及び
    前記抽出された特徴が英数字の特徴であることに応じて、ジャカード係数アルゴリズムを使用することによって、英数字の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定すること
    を含む、請求項4に記載の方法。
  6. 的住所テキストとオリジナル住所テキストとの間の対応関係に従い、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストを決定すること、及び
    記少なくとも2つの目的住所テキストに対して正規化を行うこと
    を更に含む、請求項1に記載の方法。
  7. 記少なくとも2つの目的住所テキストに対して正規化を行うことが、
    記少なくとも2つの目的住所テキストにそれぞれ対応するオリジナル住所テキスト内に含まれる標準的な住所の断片の断片共通集合を取得すること、及び
    記少なくとも2つの目的住所テキストに対する正規化を前記断片共通集合に従って行うこと
    を含む、請求項6に記載の方法。
  8. 記少なくとも2つの目的住所テキストに対する正規化を前記断片共通集合に従って行うことが、
    前記断片共通集合が、前記少なくとも2つの目的住所テキストのうちの1つを表すことに応じて、前記少なくとも2つの目的住所テキストを、前記断片共通集合が表す前記目的住所テキストへ正規化すること
    を含む、請求項7に記載の方法。
  9. 記断片共通集合及び前記断片共通集合が表す前記目的住所テキストを特徴知識ベース内に記憶すること
    を更に含む、請求項8に記載の方法。
  10. 住所テキスト処理機器であって、
    サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定するように構成される決定モジュールであって、前記少なくとも1つの住所集合の各住所集合は少なくとも2つのオリジナル住所テキストを含む、決定モジュールと、
    前記住所集合に対応する目的住所テキストを得るために、前記住所集合内のオリジナル住所テキストに対して正規化を住所集合ごとに実行するように構成される正規化モジュールと
    を含む、機器。
  11. 前記決定モジュールが、
    前記サービスシステム内の利用者の社会的関係サークルを決定し、
    前記利用者が使用する住所テキスト及び前記社会的関係サークル内の利用者が使用する住所テキストを取得して住所集合を構成する
    ように更に構成される、請求項10に記載の機器。
  12. 前記正規化モジュールが、
    前記住所集合内の個々の2つのオリジナル住所テキストの特徴に従って前記2つのオリジナル住所テキスト間の類似度を決定し、
    前記住所集合に対応する目的住所テキストを得るために、前記2つのオリジナル住所テキストが記2つのオリジナル住所テキストのうちの1つに正規化され得るかどうかを、前記類似度に従って判定する
    ように更に構成される、請求項10に記載の機器。
  13. 前記正規化モジュールが、
    前記2つのオリジナル住所テキストの標準的断片特徴、経度及び緯度の特徴、又は英数字の特徴のうちの少なくとも1つを抽出し、
    前記抽出された特徴に対応する前記2つのオリジナル住所テキスト間の類似度を、抽出された特徴それぞれに従って決定する
    ように更に構成される、請求項12に記載の機器。
  14. 前記正規化モジュールは、
    前記抽出された特徴が標準的断片特徴である場合、SimHashアルゴリズムを使用することによって、標準的断片特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定し
    前記抽出された特徴が経度及び緯度の特徴である場合、経度/緯度距離アルゴリズムを使用することによって、経度及び緯度の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定し
    前記特徴が英数字の特徴である場合、ジャカード係数アルゴリズムを使用することによって、英数字の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定する
    ように更に構成される、請求項13に記載の機器。
  15. 前記決定モジュールは、目的住所テキストとオリジナル住所テキストとの間の対応関係に従い、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストを決定するように更に構成され、
    前記正規化モジュールは、前記少なくとも2つの目的住所テキストに対して正規化を行うように更に構成される、
    請求項10に記載の機器。
  16. 前記正規化モジュールが、
    記少なくとも2つの目的住所テキストにそれぞれ対応するオリジナル住所テキスト内に含まれる標準的な住所の断片の断片共通集合を取得し、
    記少なくとも2つの目的住所テキストに対する正規化を前記断片共通集合に従って行う
    ように更に構成される、請求項15に記載の機器。
  17. 記少なくとも2つの目的住所テキストのうちの1つを前記断片共通集合が表す場合、前記断片共通集合及び前記断片共通集合が表す前記目的住所テキストを記憶するように構成される特徴知識ベースを更に含む、請求項16に記載の機器。
  18. 命令のセットを格納する非一時的コンピュータ可読媒体であって、前記命令のセットは、住所テキスト処理機器に、住所テキストを処理する方法を行わせるように、前記住所テキスト処理機器の少なくとも一つのプロセッサによって実行可能であり、前記方法が、
    サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定することであって、前記少なくとも1つの住所集合の各住所集合は少なくとも2つのオリジナル住所テキストを含む、決定すること、及び
    前記住所集合に対応する目的住所テキストを得るために、前記住所集合内のオリジナル住所テキストに対して正規化を住所集合ごとに実行すること
    を含む、非一時的コンピュータ可読媒体。
  19. サービスシステム内の利用者の社会的関係サークルに従って少なくとも1つの住所集合を決定することが、
    前記サービスシステム内の利用者の社会的関係サークルを決定すること、及び
    前記利用者が使用する住所テキスト及び前記社会的関係サークル内の利用者が使用する住所テキストを取得して住所集合を構成すること
    を含む、請求項18に記載の非一時的コンピュータ可読媒体。
  20. 前記住所集合に対応する目的住所テキストを得るために、前記住所集合内のオリジナル住所テキストに対して正規化を実行することが、
    前記住所集合内の2つのオリジナル住所テキストそれぞれの特徴に従って、前記2つのオリジナル住所テキスト間の類似度を決定すること、及び
    前記住所集合に対応する目的住所テキストを得るために、前記2つのオリジナル住所テキストが前記2つのオリジナル住所テキストのうちの1つに正規化され得るかどうかを、前記類似度に従って判定すること
    を含む、請求項18に記載の非一時的コンピュータ可読媒体。
  21. 前記住所集合内の2つのオリジナル住所テキストそれぞれの特徴に従って、前記2つのオリジナル住所テキスト間の類似度を決定することが、
    前記2つのオリジナル住所テキストそれぞれの標準的断片特徴、経度及び緯度の特徴、又は英数字の特徴のうちの少なくとも1つを抽出すること、及び
    前記特徴に対応する前記2つのオリジナル住所テキスト間の類似度を、抽出された特徴それぞれに従って決定すること
    を含む、請求項20に記載の非一時的コンピュータ可読媒体。
  22. 前記特徴に対応する前記2つのオリジナル住所テキスト間の類似度を、抽出された特徴それぞれに従って決定することは、
    前記抽出された特徴が標準的断片特徴であることに応じて、SimHashアルゴリズムを使用することによって、標準的断片特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定すること、
    前記抽出された特徴が経度及び緯度の特徴であることに応じて、経度/緯度距離アルゴリズムを使用することによって、経度及び緯度の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定すること、及び
    前記抽出された特徴が英数字の特徴であることに応じて、ジャカード係数アルゴリズムを使用することによって、英数字の特徴の次元上での前記2つのオリジナル住所テキスト間の類似度を決定すること
    を含む、請求項21に記載の非一時的コンピュータ可読媒体。
  23. 前記命令のセットは、
    目的住所テキストとオリジナル住所テキストとの間の対応関係に従い、同じオリジナル住所テキストに対応する少なくとも2つの目的住所テキストを決定すること、及び
    前記少なくとも2つの目的住所テキストに対して正規化を行うこと
    を前記住所テキスト処理機器が更に行うように、前記住所テキスト処理機器の前記少なくとも一つのプロセッサによって実行可能である、請求項18に記載の非一時的コンピュータ可読媒体。
  24. 前記少なくとも2つの目的住所テキストに対して正規化を行うことが、
    前記少なくとも2つの目的住所テキストにそれぞれ対応するオリジナル住所テキスト内に含まれる標準的な住所の断片の断片共通集合を取得すること、及び
    前記少なくとも2つの目的住所テキストに対する正規化を前記断片共通集合に従って行うこと
    を含む、請求項23に記載の非一時的コンピュータ可読媒体。
  25. 前記少なくとも2つの目的住所テキストに対する正規化を前記断片共通集合に従って行うことが、
    前記断片共通集合が、前記少なくとも2つの目的住所テキストのうちの1つを表すことに応じて、前記少なくとも2つの目的住所テキストを、前記断片共通集合が表す前記目的住所テキストへ正規化すること
    を含む、請求項24に記載の非一時的コンピュータ可読媒体。
  26. 前記命令のセットは、
    前記断片共通集合及び前記断片共通集合が表す前記目的住所テキストを特徴知識ベース内に記憶すること
    を前記住所テキスト処理機器が更に行うように、前記住所テキスト処理機器の前記少なくとも一つのプロセッサによって実行可能である、請求項25に記載の非一時的コンピュータ可読媒体。
JP2017542458A 2015-02-13 2016-02-04 住所テキストを処理する方法及び機器 Active JP6594988B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510079914.6 2015-02-13
CN201510079914.6A CN105988988A (zh) 2015-02-13 2015-02-13 文本地址处理方法及装置
PCT/CN2016/073441 WO2016127904A1 (zh) 2015-02-13 2016-02-04 文本地址处理方法及装置

Publications (3)

Publication Number Publication Date
JP2018510410A JP2018510410A (ja) 2018-04-12
JP2018510410A5 JP2018510410A5 (ja) 2018-12-06
JP6594988B2 true JP6594988B2 (ja) 2019-10-23

Family

ID=56615030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017542458A Active JP6594988B2 (ja) 2015-02-13 2016-02-04 住所テキストを処理する方法及び機器

Country Status (7)

Country Link
US (1) US10795964B2 (ja)
EP (1) EP3258397A4 (ja)
JP (1) JP6594988B2 (ja)
KR (1) KR102079860B1 (ja)
CN (1) CN105988988A (ja)
SG (2) SG10201907254XA (ja)
WO (1) WO2016127904A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988988A (zh) 2015-02-13 2016-10-05 阿里巴巴集团控股有限公司 文本地址处理方法及装置
CN108460046A (zh) * 2017-02-21 2018-08-28 菜鸟智能物流控股有限公司 一种地址聚合的方法以及设备
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN113591453A (zh) * 2018-04-10 2021-11-02 百融云创科技股份有限公司 人为填写的地址文本相似度处理方法和系统
CN110417841B (zh) * 2018-04-28 2022-01-18 阿里巴巴集团控股有限公司 地址归一化处理方法、装置和系统、数据处理方法
CN108876440B (zh) * 2018-05-29 2021-09-03 创新先进技术有限公司 区域划分方法和服务器
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN109388634B (zh) * 2018-09-18 2024-05-03 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质
CN111274811B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法
CN109635063A (zh) * 2018-12-06 2019-04-16 拉扎斯网络科技(上海)有限公司 地址库的信息处理方法、装置、电子设备和存储介质
CN111435360B (zh) * 2019-01-15 2023-08-29 菜鸟智能物流控股有限公司 地址类型识别方法和装置以及电子设备
CN111488334B (zh) * 2019-01-29 2023-04-14 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN111723164B (zh) * 2019-03-18 2023-12-12 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN110598791A (zh) * 2019-09-12 2019-12-20 深圳前海微众银行股份有限公司 地址相似度评价方法、装置、设备及介质
CN110851669A (zh) * 2019-10-17 2020-02-28 清华大学 基于地理位置信息的机构命名排歧方法及装置
CN111522901B (zh) * 2020-03-18 2023-10-20 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
US11159458B1 (en) 2020-06-10 2021-10-26 Capital One Services, Llc Systems and methods for combining and summarizing emoji responses to generate a text reaction from the emoji responses
CN112287671A (zh) * 2020-09-29 2021-01-29 深圳市跨越新科技有限公司 基于simhash的地址解析方法及系统
CN112711950A (zh) * 2020-12-23 2021-04-27 深圳壹账通智能科技有限公司 地址信息抽取方法、装置、设备及存储介质
CN113761867A (zh) * 2020-12-29 2021-12-07 京东城市(北京)数字科技有限公司 地址识别方法、装置、计算机设备及存储介质
CN115225609B (zh) * 2021-04-20 2024-06-25 大金(中国)投资有限公司 用户数据处理方法及装置、服务器
CN114048797A (zh) * 2021-10-20 2022-02-15 盐城金堤科技有限公司 确定地址相似度的方法、装置、介质及电子设备
CN116402050B (zh) * 2022-12-26 2023-11-10 北京码牛科技股份有限公司 一种地址归一化及补充方法、装置、电子设备及存储介质
CN115952779B (zh) * 2023-03-13 2023-09-29 中规院(北京)规划设计有限公司 一种位置名称校准方法、装置、计算机设备及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067596A (ja) 2001-08-30 2003-03-07 Fujitsu Ltd 売り手買い手の場所マッチング装置
JP3803961B2 (ja) * 2001-12-05 2006-08-02 日本電信電話株式会社 データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
US7885901B2 (en) * 2004-01-29 2011-02-08 Yahoo! Inc. Method and system for seeding online social network contacts
US7743048B2 (en) * 2004-10-29 2010-06-22 Microsoft Corporation System and method for providing a geographic search function
JP4687089B2 (ja) * 2004-12-08 2011-05-25 日本電気株式会社 重複レコード検出システム、および重複レコード検出プログラム
US20140230030A1 (en) * 2006-11-22 2014-08-14 Raj Abhyanker Method and apparatus for geo-spatial and social relationship analysis
US8050690B2 (en) 2007-08-14 2011-11-01 Mpanion, Inc. Location based presence and privacy management
US20090319515A1 (en) * 2008-06-02 2009-12-24 Steven Minton System and method for managing entity knowledgebases
US20120317217A1 (en) * 2009-06-22 2012-12-13 United Parents Online Ltd. Methods and systems for managing virtual identities
US20120051657A1 (en) * 2010-08-30 2012-03-01 Microsoft Corporation Containment coefficient for identifying textual subsets
CN101996247B (zh) * 2010-11-10 2013-02-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102024024B (zh) * 2010-11-10 2013-07-10 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
KR101556714B1 (ko) * 2011-01-03 2015-10-02 네이버 주식회사 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US20120215853A1 (en) * 2011-02-17 2012-08-23 Microsoft Corporation Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features
KR20120124581A (ko) 2011-05-04 2012-11-14 엔에이치엔(주) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
US8515964B2 (en) * 2011-07-25 2013-08-20 Yahoo! Inc. Method and system for fast similarity computation in high dimensional space
CN102955832B (zh) * 2011-08-31 2015-11-25 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的系统
JP5866176B2 (ja) * 2011-10-31 2016-02-17 日本郵便株式会社 住所録管理システム、住所録管理方法及び住所録管理プログラム
JP5676517B2 (ja) 2012-04-12 2015-02-25 日本電信電話株式会社 文字列類似度計算装置、方法、及びプログラム
CN103425648B (zh) * 2012-05-15 2016-04-13 腾讯科技(深圳)有限公司 关系圈的处理方法和系统
CN103428164B (zh) * 2012-05-15 2015-07-01 腾讯科技(深圳)有限公司 用户社交网络关系圈划分方法和系统
CN102682128B (zh) * 2012-05-17 2017-08-29 厦门雅迅网络股份有限公司 一种用于兴趣点信息的排重方法
US8719280B1 (en) * 2012-10-16 2014-05-06 Google Inc. Person-based information aggregation
US20140214895A1 (en) * 2013-01-31 2014-07-31 Inplore Systems and method for the privacy-maintaining strategic integration of public and multi-user personal electronic data and history
CN103473289A (zh) * 2013-08-30 2013-12-25 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法
CN105320657A (zh) * 2014-05-30 2016-02-10 中国电信股份有限公司 兴趣点数据融合方法和系统
CN104660581A (zh) * 2014-11-28 2015-05-27 华为技术有限公司 一种为业务策略确定目标用户的方法、装置及系统
CN105988988A (zh) 2015-02-13 2016-10-05 阿里巴巴集团控股有限公司 文本地址处理方法及装置
US10242258B2 (en) * 2015-09-30 2019-03-26 Microsoft Technology Licensing, Llc Organizational data enrichment

Also Published As

Publication number Publication date
KR20170117481A (ko) 2017-10-23
US20170337292A1 (en) 2017-11-23
US10795964B2 (en) 2020-10-06
CN105988988A (zh) 2016-10-05
EP3258397A1 (en) 2017-12-20
SG10201907254XA (en) 2019-09-27
JP2018510410A (ja) 2018-04-12
WO2016127904A1 (zh) 2016-08-18
EP3258397A4 (en) 2017-12-20
SG11201706625YA (en) 2017-09-28
KR102079860B1 (ko) 2020-02-20

Similar Documents

Publication Publication Date Title
JP6594988B2 (ja) 住所テキストを処理する方法及び機器
US11003896B2 (en) Entity recognition from an image
WO2017215370A1 (zh) 构建决策模型的方法、装置、计算机设备及存储设备
CN111400504B (zh) 企业关键人的识别方法和装置
CN110610196B (zh) 脱敏方法、系统、计算机设备和计算机可读存储介质
CN111343162B (zh) 系统安全登录方法、装置、介质及电子设备
US10628465B2 (en) Generating a ranked list of best fitting place names
CN110908980B (zh) 用户标识映射关系建立方法、系统、设备及存储介质
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN114372133A (zh) 查询信息问答方法、相关装置及计算机程序产品
CN109034199B (zh) 数据处理方法及装置、存储介质和电子设备
KR20190015410A (ko) 학습-기반 그룹 태깅을 위한 시스템 및 방법
US20180219964A1 (en) Method and system to convert globally unique identifiers to electronic data interchange document identifiers
CN110309244B (zh) 一种目标点定位的方法和装置
CN111930891B (zh) 基于知识图谱的检索文本扩展方法及相关装置
CN110599278A (zh) 聚合设备标识符的方法、装置和计算机存储介质
CN110266834B (zh) 基于互联网协议地址的地区查找方法及装置
CN112784596A (zh) 一种识别敏感词的方法和装置
CN113204613B (zh) 地址生成方法、装置、设备和存储介质
CN113220949B (zh) 一种隐私数据识别系统的构建方法及装置
CN112017634B (zh) 数据的处理方法、装置、设备以及存储介质
CN111954154B (zh) 定位方法及装置、计算机可读存储介质以及电子设备
CN114638308A (zh) 一种获取对象关系的方法、装置、电子设备和存储介质
CN111104420A (zh) 数据处理方法、系统、电子设备及可读存储介质
CN108052566A (zh) 城市元素信息处理方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181023

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190925

R150 Certificate of patent or registration of utility model

Ref document number: 6594988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250