CN105580003A - 数据清理和标准化以及地理编码方法 - Google Patents
数据清理和标准化以及地理编码方法 Download PDFInfo
- Publication number
- CN105580003A CN105580003A CN201480051206.5A CN201480051206A CN105580003A CN 105580003 A CN105580003 A CN 105580003A CN 201480051206 A CN201480051206 A CN 201480051206A CN 105580003 A CN105580003 A CN 105580003A
- Authority
- CN
- China
- Prior art keywords
- character
- fragment
- cleaning
- multiple clips
- clips set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
- G06F16/444—Spatial browsing, e.g. 2D maps, 3D or virtual spaces
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B29/00—Maps; Plans; Charts; Diagrams, e.g. route diagram
- G09B29/003—Maps
- G09B29/006—Representation of non-cartographic information on maps, e.g. population distribution, wind direction, radiation levels, air and sea routes
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B29/00—Maps; Plans; Charts; Diagrams, e.g. route diagram
- G09B29/003—Maps
- G09B29/006—Representation of non-cartographic information on maps, e.g. population distribution, wind direction, radiation levels, air and sea routes
- G09B29/007—Representation of non-cartographic information on maps, e.g. population distribution, wind direction, radiation levels, air and sea routes using computer methods
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B29/00—Maps; Plans; Charts; Diagrams, e.g. route diagram
- G09B29/10—Map spot or coordinate position indicators; Map reading aids
- G09B29/106—Map spot or coordinate position indicators; Map reading aids using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Ecology (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Instructional Devices (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本技术的实施方式涉及数据清理和标准化以及应用数据清理和标准化的地理编码方法。示例性方法包括清理地理数据集合,以及利用标准化的编辑距离算法使清理后的地理数据标准化。
Description
相关申请的交叉引用
本申请要求于2013年8月14日提交的标题为“用于地理编码和校正地理编码的数据的系统及方法(SystemandMethodsforGeocodingandCorrectingCeocodedData)”的第61/865,984号美国临时申请的优先权,该申请通过引用以其整体并入本文,该申请的整体包括其中所引用的全部参考文献。
技术领域
本技术大体涉及地理编码和地图制作,并且更具体地,但不限于,涉及恰当地对兴趣点进行地理编码的系统和方法,其中每个兴趣点由来自不同数据库的多个有差异的表达表示。本技术使这些有差异的表达一致化,以增加这些地理编码的位置的一致性。
发明内容
本技术的实施方式包括一种方法,包括:
(a)接收字符的两个多片段集合,字符的两个多片段集合中的每个包括多个片段,片段中的每个包括格式;
(b)通过以下操作清理字符的两个多片段集合中的每个:(i)如果片段的格式未处于标准化格式,则将字符的多片段集合的多个片段中的片段转化成标准化格式;以及(ii)通过根据转化的片段和未转化的片段中产生连续字符串来缩小字符的两个多片段集合中的每个;以及(c)利用字符的清理后的多片段集合计算距离分数,距离分数表示字符的清理后的多片段集合中的字符之间的差异。
本技术的其它实施方式包括一种计算装置,包括:(a)存储器,用于存储可执行指令;以及(b)处理器,用于执行可执行指令,以:(i)接收字符的两个多片段集合,字符的两个多片段集合中的每个包括多个片段,片段中的每个包括格式;(ii)通过以下操作清理字符的两个多片段集合:(1)如果片段的格式未处于标准化格式,则将多片段字符串的多个片段中的片段转化成标准化格式;以及(2)通过根据多个转化的片段中产生连续字符串来缩小字符的两个多片段集合;(iii)计算用于字符的清理后的多片段集合的标准化编辑距离(NLD),其中标准化编辑距离通过以下操作计算:(A)计算用于字符的清理后的多片段集合的编辑距离(LD);(B)利用方程:NLD=1-(LDexp1-abs([LSexp1]-[LSexp2]))/min([LDexp1],[LSexp2])将LD标准化,其中LSexp1是字符的清理后的多片段集合的第一字符串的长度,并且LSexp2是字符的清理后的多片段集合的第二字符串的长度。
本技术的另外的实施方式包括一种地理编码的方法,地理编码的方法包括:(a)接收可能表示同一兴趣点的、字符的两个多片段集合,字符的两个多片段集合中的每个包括多个片段,片段中的每个包括格式;(b)如果片段的格式未处于标准化格式,则将多片段字符串的多个片段中的片段转化成标准化格式;(c)通过根据转化的片段和未转化的片段中产生连续字符串来缩小字符的两个多片段集合中的每个;(d)利用字符的清理后的多片段集合计算距离分数,距离分数表示字符的清理后的多片段集合中的字符之间的差异;(d)将距离分数与阈值比较;以及(e)如果距离分数小于阈值,则将数据库中字符的清理后的多片段集合确定为表示同一兴趣点。
附图说明
图1是用于实施本技术的多方面的计算环境的高阶示意图。
图2是示出了地理编码过程的示意性流程图。
图3是地图的立体图,该立体图示出了表示同一物理兴趣点的两个地理编码点之间的物理距离计算的过程。
图4是本技术的方法的流程图。
图5是用于执行标准化编辑距离计算和物理距离计算的方法的流程图。
图6是用于建立并使用地理数据实例的片段/字段排列的方法的流程图。
图7是用于实现根据本技术的实施方式的计算系统的示意图。
具体实施方式
在以下的说明中,为了说明而非限制的目的,阐述了例如具体实施方式、过程、技术等的具体细节以便提供对本发明的彻底理解。然而,对本领域技术人员显而易见的是,本发明可以以背离这些具体细节的其它实施方式实施。
在本说明书的各个部分中的“一个实施方式”或“实施方式”意指结合该实施方式描述的特定特征、结构或特点包括在本发明的至少一个实施方式中。因此,在本说明各个部分的不同位置的表达“在一个实施方式中”或“在实施方式中”或“根据一个实施方式”(或者具有类似意思的其它表达)的出现不必全部表示相同的实施方式。此外,在一个或多个实施方式中,这些特定的特征、结构或特点可以以适当的方式结合。此外,根据本文中的论述的上下文,单数的词语可包括其复数形式,并且复数的词语可包括其单数形式。类似地,用连字号连接的词语(例如“on-demand”)有时可以与其未用连字号连接的版本(例如“ondemand”)互换使用,用大写字母开头的词条(例如“Software”)可以与不用大写字母开头的版本(例如“software”)互换使用,复数词语可以用或者不用撇号表示(例如,PE's或PEs),并且用斜体印刷的词语(例如,“N+1”)可以与其不用斜体印刷的版本(例如“N+1”)交换使用。这种偶尔可互换的使用不应被认为是互相不一致。
此外,一些实施方式可以“用于……(执行任务或任务的集合)的装置”的形式描述。应理解,本文中的表述“用于……的装置”在结构上例如是处理器、存储器、例如照相机的I/O装置或它们的组合。可替代地,“用于……的装置”可包括描述功能或方法步骤的算法,而在其它实施方式中,“用于……的装置”可用数学公式、可编程排序程序表示,或者表示成流程图或信号图。
本文中所使用的术语仅是为了描述特定的实施方式,并且不意在限制本发明。如在本文中所使用的,单数形式的“一个(a或an)”和“该(the)”也旨在包括复数形式,除非上下文中另外明确指示。还应进一步理解,当在本说明书中使用时,术语“包括(comprises)”和/或“包括(comprising)”指出所述的特征、整体、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组合的存在和附加。
首先,应注意术语“联接的”、“连接的”、“连接”、“电连接”等在本文中可互换使用,以泛指处于电连接/电子连接的状态。类似地,当第一实体电力地向第二实体发送和/或接收(无论通过有线装置还是无线装置)信息信号(无论包括数据信息还是包括非数据/控制信息)而不考虑这些信号的类型(模拟或数字)时,第一实体被认为是与第二实体(一个或多个实体)“通信”。应进一步注意,本文中所示出并讨论的各种附图(包括组件图示)仅为了说明性的目的,并且不是按比例描绘的。
地理编码通常是不精确的处理,这是因为表示兴趣点的源数据可能是不正确的和/或缺乏完整信息。这种错误的源数据使得兴趣点被不正确地标绘在地图上,而这对地图的终端用户会产生有害影响,并且会影响地图供应商的可信度。
兴趣点在地图上的正确标绘对保持特征的位置映射的一致性和可用性至关重要。从经验出发,已经确定例如旅馆的全部兴趣点的25%未被正确标绘。例如,这些旅馆可能放置在距它们的正确位置超过1英里远的位置。这归因于用于旅馆的不完整的、错误的或未充分格式化的地理位置数据(在下文中称为“地理数据”)。此外,映射系统通常依托多个有差异的数据库,多个有差异的数据库中的每个可能使用不同格式来定义兴趣点。例如,一个旅馆数据库可将旅馆的地址格式化成“205thAvenueWest,NewYork”,而另一旅馆数据库可将完全相同的旅馆的地址格式化成“20FifthAve.,W.newyork”。尽管这些地址指代位于同一位置的同一旅馆,但地址的格式化可能在将旅馆标绘在地图上时引入错误。
有利地,本技术利用地理数据清理、距离和标准化处理来弥补这些不足之处。应理解的是,虽然将在地理数据的背景中对本技术进行描述,但是本文中所描述的清理和标准化处理可应用于需要数据格式一致的任何数据处理方法。例如,在输入数据容易以各种格式提供从而在应用输入数据时可导致错误的情况下,可使用本技术。
本技术通过识别需要验证的兴趣点和对其重新格式化,改进了地理编码处理。本技术使用本文中所描述的地理数据格式化方法,对来自不相关的数据库的兴趣点进行匹配,并且用映射逻辑整合来自不相关的数据库的这些地理数据供给,以提供良好的标绘精度。本技术还精确地标绘新的兴趣点。因此,本技术的一些实施方式在地理编码以及地图制作的技术领域提供了改进,并且具体地而非限制性地,对利用根据本技术的实施方式清理且标准化的地理数据映射兴趣点提供了改进。本技术的这些和其它优点参照图集(图1至图7)在下文中提供。
图1是本技术的计算架构(在下文中称为架构100)的高阶示意图。架构100包括数据清理和标准化系统(在下文中称为“服务器105”)、第一地理数据源10、第二地理数据源115、网络120和格式化的地理数据数据库125。
服务器105、第一地理数据源110和第二地理数据源115通过网络120互相通信联接。网络120可包括任何适当的私人或公共通信网络。
通常,地理数据由服务器105从多个地理数据源例如第一地理数据源110和第二地理数据源115接收。应理解的是,还可以包括更多的地理数据源。这些地理数据源中的每个可为服务器105提供表示各种兴趣点(POI)的地理数据实例。例如,第一地理数据源110和第二地理数据源115可以是与提供旅馆预约的网站相关的旅行服务数据库。这些地理数据源还可以是旅馆拥有的私有旅馆数据库。
地理数据实例,例如地理数据实例110A-N,可包括任何数量的信息字段。例如,地理数据可包括信息字段例如POI名称、街道地址、城市、州、国家、邮政编码、电话号码、传真号码、网站/域名/URL(统一资源定位器)、坐标例如经纬度以及这些信息字段的组合。根据本技术,还同样考虑使用应为本领域普通技术人员所知的其它信息字段。在一些实施方式中,地理数据的字段称为片段。因此,地理数据的实例可具有多个片段(例如,多个字段)。
地理数据可作为文件、数据库条目、制表符定界文件、逗号分隔值文件或其它类似的数据结构而存储在数据库中。如上所述,来自不同的源的用于相同兴趣点的地理数据相对于彼此可能是有差异的。例如,一些字段可能被不同地格式化,例如,在街道地址在一个地理数据实例中规定成“145thSt.”而在另一地理数据实例中规定成“145Street”时。在有些情况下,地理数据字段可能是不正确的。例如,兴趣点的城市可能是“帕洛阿尔托(PaloAlto)”,而实际上应该是“门洛帕克(MenloPark)”。此外,语言差异可能导致不正确的地理编码。例如,街道地址在一个地理数据实例中可能列为“123Avenida”,而在另一地理数据实例中列为“123Avenue”。如果映射功能不能补偿语言差异,那么语言上的差异可能导致兴趣点的不正确的标绘。
在一些实施方式中,通过服务器105获得的地理数据最初通过确定地理数据中的兴趣点(POI)处理。服务器105将获得地址字段,例如来自从地理数据源获得的地理数据的街道地址、城市、州、邮政编码等等。服务器105使用地址字段将POI标绘在地图上。
服务器105然后确定POI地址的潜在精度,并且还选择相互匹配的任何POI。在一些实施方式中,服务器105通过计算标绘在地图上的POI地址之间的距离确定POI地址的精度。服务器105还考虑第一地理数据源110和第二地理数据源115的初始精度等级。也就是说,在有些情况下,第一地理数据源110和第二地理数据源115将各自向服务器105提供精度值,该精度值表示该地理数据源提供的地理数据的精确程度。在有些情况中,如果这些精度值被确定为不正确的,则服务器105可不信任由第一地理数据源110和第二地理数据源115提供的精度值。
POI地址可通过将这些POI地址与包括经纬度信息的坐标数据库比较来进行验证。在有些情况中,POI地址可包括坐标,并且这些地理数据坐标可以与坐标数据库中的坐标比较,以确定POI地址的精度。例如,如果POI地址是“1234MainStreet”以及37纬度和-132经度,则服务器105可在坐标数据库中查寻坐标,并且将POI街道地址与坐标比较,以得知POI街道地址是否大体上对应于坐标。在这两个点可标绘在地图上并且两者之间的距离可忽略时,POI街道地址和坐标是大体上对应的。例如,当地图的用户使用该地图不会被引导至错误的位置时,该距离是可以忽略的。在有些情况中,距离的间隔尺寸和紧密度可通过位置确定。例如,当POI位于存在诸多单行道的人口密集的城市地区时,该距离需要是更小的,以降低用户会采取错误的街道或到达错误的位置的可能性。在另一方面,如果POI位于不存在可能会使终端用户困惑的邻近位置的人口稀少的地区,则该距离可以是较大的。
总之,地图系统管理员可设置用于距离的阈值。如果距离大于阈值,则POI可通过服务器105被标记成不正确的或需要重新编码。也就是说,服务器105可请求地理数据源将地理数据重新编码。可替代地或此外,在某些实施方式中,用于POI的地理数据可被服务器105忽略或者删除。
现同时参考图1和图2,服务器105还配置为管理用于同一POI的地理数据的多个实例。在多个数据源提供关于同一POI的地理数据时,POI重复出现。此外,多个旅馆预约系统可向服务器105供给它们的旅馆POI地理数据。为了在地图上呈现这些旅馆POI地理数据实例,通过服务器实施比较和/或一致化。
根据某些实施方式,服务器105至少包括处理器150和存储器155。存储器155通常包括清理模块160、距离模块165和标绘模块175。
处理器150运行存储在存储器中的清理模块160以执行各种操作。在一个实施方式中,清理模块160配置为将地理数据的实例拆分成字段。应理解的是,地理数据的实例通常还可称为字符的多片段集合。例如,地理数据的一个实例可包括“HotelMainstreet1234MainSt.,Anytown,State,USA,99991,(34,-123)”。此外,地理数据可具有任何格式。例如,地理数据可包括布置在成列列表或成行列表中的字段、逗号分隔值的集合、字段的制表符定界集合或可能适当的任何其它格式。服务器105将地理数据的实例拆分成分离的字段,例如:名称=HotelMainstreet;街道地址=1234MainSt.;城市=Anytown;州=State;国家=USA;邮政编码=99991;纬度=34;经度=-123。
在一些实施方式中,清理模块160将地理数据的实例中的所有大写字母转化成小写字母。此外,清理模块160会将所有非字母数字字符从地理数据的实例中除去。非字母数字字符的除去使字段能够串接或简化成单个字符串。
清理模块160然后可用多个特殊用途的清理器例如字段清理模块180A-N处理地理数据的实例的字段。通常,如果片段的格式未处于标准化格式,则清理模块160配置为将片段或字段转化成标准化格式。字段清理模块180A-N的以下示例用于将字段转化成标准格式,以便使表示同一POI的地理数据的有差异的字段一致化。
字段清理模块180A-N的数量将取决于存在于地理数据的实例中的字段数量。字段清理模块180A-N中的每个配置为清理特定类型的地理数据字段。例如,名称字段清理模块180A清理地理数据的实例中的名称字段。在一个示例中,如果名称字段既不包括词语“hotel(旅馆)”也不包括“inn(客栈)”或另一类似的词语例如“汽车旅馆(motel)”,则名称字段清理模块180A会将词语“旅馆(hotel)”加入名称字段。因此,用于名称字段的标准化格式需要词语“旅馆”存在于名称字段中。街道地址字段清理模块180B配置为使地理数据的实例的街道字段标准化。例如,街道地址字段清理模块180B可执行字段数据的替换,例如将“Avenida”、“Avenue”和“Av”替换成“ave”。因此,“ave”是标准化格式。在另一示例中,“Four”、“Fourth”、“4th”、“IV”、“quatre”和“cuatro”全部变换成标准化格式“4”。因此,对于街道地址数据的每种类型,应用了标准化格式,以使得诸多不同的格式被标准化成标准格式。
在一个非限制性示例中,地理数据的第一实例包括街道地址字段“205thAvenueWest,NewYork”,其被转化成“205avewnewyork”。大写字母转换成小写字母,并且移除了非字母数字字符例如间隔和逗号。然后,对地址字段进行处理,以将“5th”更换成“5”、将“avenue”更换成“ave”并且将“west”更换成“w”。
在另一示例中,地理数据的第二实例包括街道地址字段“20FifthAve.,W.,newyork”,其被转化成“205avewnewyork”。大写字母转换成小写字母,并且除去了非字母数字字符例如间隔和逗号。然后,对一个地址字段进行处理以将“Fifth”更换成“5”。
在该示例中,地理数据的第一实例可来自第一地理数据源110,并且地理数据的第二实例可来自第二地理数据源115。
城市、州和国家字段也可以按照类似的方式使用它们相应的标准化模块进行清理。在清理/标准化后,清理后的地址字段和城市字段可通过服务器105提交至地理编码引擎170,地理编码引擎170识别地理数据的实例之间可能的匹配。地理编码引擎170可与服务器105一体形成,或者在一些实施方式中包括一个或多个第三方地理编码引擎。
在另一示例中,清理后的地址和城市可提交至本地目录引擎185例如虚拟的白页或黄页,以确定清理后的地址是否与本地目录引擎185中的列表相关。
在一个实施方式中,距离模块165被运行,以计算清理后的地理数据的两个实例之间的编辑距离(Levenshteindistance,LD)。通常,编辑距离在两个字符串序列之间计算。本领域普通技术人员应能够计算用于地理数据的一对清理后的字符串的LD。通常,LD是表示将第一字符串转换为对应的第二字符串需要对第一字符串进行替换的数量的数值。编辑距离具有多个简单的上边界和下边界。这些包括:(a)LD总是至少为两个字符串的尺寸的差异;(b)LD至多为较长的字符串的长度;(c)当且仅当字符串相等时,LD是零;(d)如果字符串相同尺寸,汉明间距是关于LD的上边界;(e)两个字符串之间的LD不大于它们距第三字符串的LD之和(三角不等式)。
例如,第一清理后的字符串包括根据“100AvenidadeRepublica,Madrid”清理的“100avedereublicamadrid”,并且第二清理后的字符串是根据“100RepublicaAvenue,Madrid”清理的“100republicaavemadrid”。
“100AvenidadeRepublica,Madrid”和“100RepublicaAvenue,Madrid”之间的LD是17,这意味着必须对“100AvenidadeRepublica,Madrid”进行17次替换以获得“100RepublicaAvenue,Madrid”。还可以对第一清理后的字符串和第二清理后的字符串计算Ldexp1,其为9,这意味着必须对“100avedereublicamadrid”进行九次替换以获得“100republicaavemadrid”。
值得提到的是,距离模块165将来自两个地理数据实例的类似字段类型进行比较或匹配。例如,距离模块165将一个地理数据实例中街道地址字段与第二地理数据实例的街道地址字段比较。不考虑字段类型而进行字段之间的比较会导致距离模块165产生粗劣的比较结果。
距离模块165通过首先确定第一清理后的字符串的长度(其是22)和第二清理后的字符串的长度(其是21),将LDexp1值标准化。
在确定这些长度值之后,距离模块165利用下列等式计算标准化的LD(NLD)值:
NLD=1-(LDexp1-abs([LSexp1]-[LSexp2]))/min([LDexp1],[LSexp2])[式1]
其中LSexp1是字符的清理后的多片段集合中的第一字符串的长度,LSexp2是字符的清理后的多片段集合中的第二字符串的长度,并且LDexp1是为清理后的这一对字符串而计算的LD。距离模块165的输出是用于由距离模块165进行比较的、地理数据的一对实例中的每个的NLD分数。
详细地,距离模块165从第一字符串的长度中减去第二字符串的长度,并且将该值除以LDexp1和第二字符串的长度中的最小值。获得以上所得到的值的绝对值并且从1中减去该值。然后,从LDexp1中减去该绝对值。然后,距离模块165将该最终的数乘以100以获得NLD。在以上的示例中,第一清理后的字符串和第二清理后的字符串的NLD是61.9%。
在一些实施方式中,距离模块165可计算用于地理数据实例的片段/字段的各种置换的NLD值。继续以上示例,地址字段的置换(在单词顺序上的改变)将包括“100deReublicaAve,Madrid”和“100RepublicaAve,Madrid”。清理后的版本将是“100dereublicaavemadrid”和“100republicaavemadrid”。利用式1为这对地理数据实例计算出了90.1%的NLD值。可通过对从地理数据实例中提取的字段的重新排列,执行多种类型的置换。在一个实施方式中,距离模块165可执行两个地理数据实例之间的匹配字的成对比较。成对比较功能是为了减小为所得到的清理后的字符串而计算的LD。距离模块165还为地理数据实例的字段的每个可能的置换计算NLD值,并且确定最高排序的NLD值。
此外,置换过程可以以字段级或片段级出现,以使得字段的子部分被重新排列。例如,“100AvedeReublica,Madrid”可被重新排列成“100deReublicaAve,Madrid”或“100ReublicadeAve,Madrid”。
参考图6,示出并详细解释了用于建立并且使用地理数据实例的片段/字段的置换的过程的示例性流程图。
在一些实施方式中,距离模块165可应用NLD阈值,NLD阈值确定何时NLD太大而不能将第一清理后的字符串和第二清理后的字符串考虑成对应于同一POI。例如,NLD阈值可以是80%。因此,小于80%的任何NLD将指示地理数据实例可能不能表示同一POI。尽管在NLD小于80%时地理数据实例有可能确实表示同一POI,地理数据实例可能需要地图标绘或人验证以便做出最终决定。地理数据的实例(第一清理后的字符串和第二清理后的字符串从其中获得)可被标记以备进一步复查。此外,服务器105可提示地理数据源它们的数据在格式和/或内容上可能不正确。NLD阈值可设置成所需的任何灵敏度。
虽然以上示例预期使用80%NLD阈值,但是应理解的是,该NLD阈值仅是一个示例,并且NLD阈值可设置成任何所需值,以使得系统的终端用户能够设置用于比较地理数据实例的所需灵敏度级别。
在另一示例中,为第一清理后的字符串“sheratonhotel”和第二清理后的字符串“sheratonhoteldowntowntoronto”计算NLD。在该示例中,虽然LD是指示字符串彼此不完全相似的15,但是计算出NLD是100%,指示清理后的字符串相同并且均表示同一POI。虽然LD指示第一字符串和第二字符串之间大的距离差异,但是在利用式1取第一字符串和第二字符串的最小值时,NLD等式实质上忽略了第二字符串中额外的字符。
因此,本技术通过利用可用于各种目的的标准化的LD提供了与使用普通的LD计算相比的诸多优点,也就是说,将通常会被认为高度不符合(例如,较大距离)的字符串确定为表示同一内容。在一个实施方式中,该内容包括地理数据,但是其它内容包括由多个字段(例如,片段)表示的任何类型的数据。
在一些实施方式中,如果NLD小于80%,则距离模块165可实施两个清理后的地址之间的物理距离核对。例如,距离模块165可与标绘模块175配合以确定两个点之间的物理距离。标绘模块175会将第一清理后的地址标绘在地图上并且将第二清理后的地址标绘在地图上。距离模块165可计算第一清理后的地址和第二清理后的地址之间的物理距离。例如,距离模块165可计算地图上两个标绘的点之间的地理距离。
因为物理距离小于100英尺,所以,即使NLD小于阈值,距离模块165也会将第一清理后的地址和第二清理后的地址考虑成表示同一POI。回到以上示例,第一清理后的字符串“100avedereublicamadrid”和第二清理后的字符串“100republicaavemadrid”在标绘在地图上时显示物理距离为零。因此,虽然NLD(61.9%)稍微小于80%的阈值,但是清理后的地址确实表示同一POI。
参考图3,第一清理后的地址在地图300上标绘为点305。第二清理后的地址在地图300上标绘为点310。实际的兴趣点是位于两个街道320和325的十字路口处的旅馆315。第一点305和第二点310之间的距离330可通过确定用于点305和点310中的每个的坐标计算(或估算)。在一个实施方式中,如果地图300包括坐标,则坐标可被确定。当点在地图300上重叠时,坐标可被估算。
此外,由于距离330实质上是零,因此确定点305和点310描述对应于旅馆315的同一POI。此外,服务器105可比较地理数据实例的名称字段或其它字段以证实第一点和第二点之间的一致。
图4是本技术的示例性方法的流程图。该方法包括405接收字符的两个多片段集合(例如,地理数据的实例)。应理解,字符的两个多片段集合中的每个包括多个片段或字段。此外字段中的每个包括格式。例如,POI名称、城市、街道地址、州等等。
如果片段的格式未处于标准化格式,则该方法包括在415通过首先将多片段字符串的多个片段中的片段转换成标准化格式,来对字符中的两个多片段集合中的每个进行清理。转换可以对未处于标准化格式的每个片段执行。例如,标准化格式“5”可应用于字段例如“fifth”、“5th”、“V”等等。如果需要,则可使每个字段标准化。
接着,清理包括在420通过根据转化的片段和未转化的片段建立字符的连续字符串使字符的两个多片段集合中的每个缩小。也就是说,一些片段/字段可能不需要清理。服务器105将使转化的片段和未转化的片段两者结合成一个字符串。缩小过程可包括在425将大写字母更换成小写字母,并且在430将非字母数字字符除去。
接下来,该方法包括在435利用字符的清理后的多片段集合计算距离分数。应理解的是,距离分数表示字符的清理后的多片段集合中的字符之间的差异。在图5中示出并且描述了用于计算距离分数的示例性方法。
参考图5,示出了用于计算标准化编辑距离(NLD)的方法。该方法包括在505接收第一清理后的字符串和第二清理后的字符串(例如,清理后的字符串)。在一些实施方式中,该方法包括在510计算第一字符串和第二字符串两者的编辑距离。该方法还包括515确定第一字符串和第二字符串中的每个的字符长度并且利用该字符长度计算NLD。NLD可利用以上更详细描述的式1计算。
如上所述,NLD是根据字符内容表示字符串的“接近程度”的百分比分数。例如,“1234mainst”和“1234mainst”的NLD是100%,然而“100avedereublicamadrid”和“100republicaavemadrid”的NLD是61.9%。
该方法还包括在520将NLD与阈值比较,并且在525如果NLD不满足或超过阈值时,实施第一字符串和第二字符串之间的物理距离计算。例如,61.9%的NLD可以与80%的阈值比较。由于NLD不满足阈值,所以服务器105可实施物理距离计算。
例如,服务器可将第一字符串和第二字符串标绘在地图上,并且更具体地,标绘第一字符串和第二字符串的街道地址。在其它实施方式中,如果第一字符串和第二字符串包括坐标,则第一字符串和第二字符串可利用坐标标绘。标绘的点之间的距离可被确定并且与距离阈值比较。例如,如果距离小于100英尺,则标绘的点可被认为是表示同一POL。
图4和图5的流程图可包括与流程图中所描述的那些步骤相比更少或者更多的步骤。另外,流程图的方法步骤可根据说明书或本文中提供的示例进行替代。
图6是用于建立并且使用地理数据实例的片段/字段的置换以及计算并且比较为成对的地理数据实例生成的NLD值的方法的流程图。如上所述,以下的示例会将地理数据实例称为“字符的多片段集合”。
首先,选择出字符的两个多片段集合中的第一个。字符的两个多片段集合中的第二个保持不变。在选择了字符的两个多片段集合中的第一个后,该方法包括在605根据字符的两个多片段集合中的第一个建立字符的多个置换的多片段集合。这个过程包括将字符的两个多片段集合中的这一个集合的多个片段中的片段的字符重新排序,以建立置换的片段。重新排列的步骤对于字符的第一个多片段集合发生多次以建立字符的多个置换的多片段集合。
接下来,该方法包括建立字符的成对的多片段集合。这些对包括字符的多个置换的多片段集合中的一个和字符的两个多片段集合中的第二个。例如,第一对将包括字符的多片段集合“HotelCalifornia,LosAngelesdowntown”和字符的第二多片段集合“LosAngelesCaliforniahotel”。在第二配对中,字符的置换的多片段集合“CaliforniaHotelLosAngelesdowntown”与字符的第二多片段集合“LosAngelesCaliforniahotel”配对。在第三配对中,字符的另一置换的多片段集合“LosAngelesCaliforniaHoteldowntown”与字符的第二多片段集合“LosAngelesCaliforniahote”配对。
接下来,该方法包括在610使字符的成对的多片段集合标准化。此外,字符的成对的多片段集合包括多个置换的多片段集合的各种组合以及如上所述的字符的两个多片段集合中的第二个。
在一个实施方式中,该方法包括在615为字符的成对的多片段集合中的每对计算标准化编辑距离(NLD)。
在一些实施方式中,该方法包括确定字符的所有成对的多片段集合中最高排序的NLD。
在另一实施方式中,该方法包括在620从字符的所有成对的多片段集合中确定最小NLD。具有最小NLD的一对被认为是地理编码的实例(例如,字符的成对的多片段集合)中最佳匹配的一对。
图7是以计算机系统1的形式的示例性设备的图形表示,在计算机系统1中,可执行用于使得设备执行本文中所讨论的方法中的任何一个或更多个的指令的集合。在不同的实施方式中,设备作为独立的装置操作或可连接(例如,网络连接)至其它设备。在网络连接的部署中,设备可以在服务器-客户网络环境中作为服务器或客户设备操作,或者可在对等(或分布式)网络环境中作为对等设备操作。设备可以是个人电脑(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝式电话、便携式音乐播放器(例如便携式硬盘音频设备例如活动图像专家组音频层3(MP3)播放器)、环球网设备、网络路由器、开关或电桥,或者可以是能够执行指明将由该设备采取的行动的一组指令(按顺序的或不按顺序的)的任何设备。而且,虽然仅示出了一个设备,但是词语“设备”还应理解为包括设备的任何集合,这些设备单独或共同执行一组(或多组)指令以实施本文中所讨论的方法中的任何一个或更多个。
示例性计算机系统1包括一个处理器或多个处理器5(例如,中央处理器(CPU)、图形处理单元(GPU)或者这两者)以及主存储器10和静态存储器15,主存储器10和静态存储器15通过总线20互相通信。计算机系统1可进一步包括视频显示器35(例如,液晶显示器(LCD))。计算机系统1还可包括一个(多个)字母-数字输入装置30(例如,键盘)、光标控制装置(例如鼠标)、语音识别或生物特征测量验证单元(未显示)、驱动单元37(也称为磁盘驱动器单元)、信号生成装置40(例如,扬声器)和网络接口装置45。计算机系统1还可包括数据加密模块(未显示)以将数据加密。
磁盘驱动单元37包括计算机或设备可读介质50,在计算机或设备可读介质50上存储了指令的一个或多个集合和包括或利用本文中所描述的方法或功能中的任何一个或多个的数据结构(例如,指令55)。指令55在其通过计算机系统1的执行期间还可完全或至少部分地归于主存储器10内和/或归于处理器5内。主存储器10和处理器5也可构成设备可读介质。
指令55还可利用多个公知的传送协议中的任何一个(例如,超文本传送协议(HTTP))经由网络接口装置45通过网络140(见图2)传输或接收。虽然在示例性实施方式中示出了设备可读介质50是单个介质,但是词语“计算机可读介质”应被理解为存储指令的一个或多个集合的一个介质或多个介质(例如,集中式或分布式数据和/或相关的缓存或服务器)。词语“计算机可读介质”也应被考虑成包括能够存储、编码或携带指令的集合的任何介质,或者包括能够被指令的集合使用或与指令的集合相关的数据结构的任何介质,其中指令的集合用于通过设备执行并且引起设备实施本应用的方法中的一个或多个。词语“计算机可读介质”应相应地被理解成但不限于固态存储器、光学和磁性介质以及载波信号。这种介质在没有限制的情况下还可包括硬盘、软盘、快擦写存储卡、数字视频磁盘、随机存取存储器(RAM)、只读存储器(ROM)等等。本文中所描述的示例性实施方式可在包括安装在计算机上的软件的操作环境中、在硬件中或在硬件与软件的组合中实现。
本领域技术人员应认识到的是,网络服务可配置为提供接入连接至网络服务的一个或多个计算装置的网络,而且该计算装置可包括一个或多个处理器、总线、存储装置、显示装置、输入/输出装置等等。此外,本领域技术人员能够理解的是,网络服务可联接至可以用于实现如本文中所描述的公开的实施方式中的任一个的一个或多个数据库、资源库、服务器等等。
在以下权利要求中的所有功能性描述的装置或步骤的对应结构、材料、过程和等同意在包括用于与如具体要求的其它要求的元件共同执行功能的任何结构、材料或动作。本技术的描述为了说明和描述的目的而被提供,其并不是穷尽的,也不限于所公开的形式中的本技术。在不背离本技术的范围和精神的情况下,诸多修改和变化将对本领域普通技术人员显而易见。选择了示例性实施方式并且对其进行了描述,以便充分解释本技术的原则以及其实际应用,并且使本领域普通技术人员中的其他人员能够理解本技术,本技术用于具有如适于所预期的特定应用的各种修改的各种实施方式。
在上文中,根据本技术的实施方式,参考流程图和/或方法、设备(系统)和计算机程序产品的方块图对本技术的多方面进行了说明。应理解的是,流程图图例和/或方框图中的每块或者流程图图例和/或方框图中的方块的组合可通过计算机程序指令实现。这些计算机程序指令可设置到通用计算机的处理器、专用计算机或其它可编程数据处理设备以产生设备,以使得通过计算机的处理器或其它可编程数据处理设备执行的指令产生用于实现流程图和/或方块图块或多个块中所规定的功能/动作的装置。
这些计算机程序指令还可储存在可引导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,以使得计算机可读介质中存储的指令产生一件产品,该产品包括实现流程图和/或方框图块或多个块中所规定的功能/动作。
计算机程序的指令还可加载到计算机、其它可编程数据处理设备或其它装置上,以引起一系列操作步骤在计算机、其它可编程设备或其它装置上实施,从而产生计算机实现的处理,以使得在计算机或其它可编程设备上执行的指令提供用于实现流程图和/或方块图块或多个块中规定的功能/动作的处理。
附图中的流程图和方块图示出了根据本技术的各种实施方式的系统、方法和计算机程序产品的可能实现方式的结构、功能和操作。在这点上,流程图或方块图中的每块可表示包括用于实现规定逻辑函数(多个逻辑函数)的一个或多个可执行指令的模块、片段或部分代码。还应注意的是,在一些可替代的实现方式中,模块中所表明的功能可不按照附图中所表明的顺序发生。例如,连续地示出的两个块事实上可以基本上同时执行,或者,根据涉及的功能,这些块有时可以以相反顺序执行。还应注意的是,方块图和/或流程图图例中的每个块以及方块图和/或流程图图例中块的组合可通过实施指定功能或动作的专用硬件基系统实现或者通过专用硬件和计算机指令的组合实现。
虽然上文为了说明性的目的对系统的具体实施方式以及示例进行了描述,但是如相关领域技术人员将认识到的是,在本系统的范围内各种等同的修改是可能的。例如,虽然处理或步骤以给定的顺序呈现,但是可替代的实施方式可实施具有以不同顺序的步骤的例程,并且一些处理或步骤可以删除、移动、增加、再分、组合和/或修改以提供替换或子组合。这些处理或步骤中的每个可以以各种不同的方式实现。此外,虽然处理或步骤有时显示为连续地执行,但是这些处理或步骤可改为同时执行,或者可在不同的时间执行。
虽然以上描述了不同的实施方式,但是应当理解的是,这些实施方式仅作为示例提供,并且不是作为限制提供。说明不意在将本发明的范围限制到本文中所阐述的特定形式。相反,本说明意在涵盖如可能包括在如由所附权利要求以及本领域普通技术人员能理解的其它方面限定的本发明的精神和范围内的这种替换、修改和等同。因此,优选实施方式的宽度和范围不应被以上描述的任一个所限制。
Claims (21)
1.一种通过计算装置执行的方法,所述计算装置包括处理器和用于存储可执行指令的存储器,所述处理器执行所述指令以实施所述方法,所述方法包括:
接收字符的两个多片段集合,所述字符的两个多片段集合中的每个包括多个片段,所述片段中的每个包括格式;
通过以下操作清理字符的两个多片段集合中的每个:
如果片段的格式未处于标准化格式,将字符的多片段集合的多个片段中的片段转化成标准化格式;以及
通过根据转化的片段和未转化的片段建立字符的连续字符串,将所述字符的两个多片段集合中的每个缩小;以及
利用字符的清理后的多片段集合计算距离分数,所述距离分数表示所述字符的清理后的多片段集合中的字符之间的差异。
2.根据权利要求1所述的方法,其中所述清理还包括将非字母数字字符从所述多个片段中除去。
3.根据权利要求1所述的方法,其中所述清理还包括对于所述多个片段中的每个将大写字符转化成小写字符。
4.根据权利要求1所述的方法,其中所述多个片段中的至少一个为于第一语言,并且所述多个片段中的至少一个为第二语言。
5.根据权利要求1所述的方法,其中计算所述距离分数包括计算用于所述字符的清理后的多片段集合的编辑距离(LDexp1)。
6.根据权利要求5所述的方法,其中计算所述距离分数包括计算用于所述字符的清理后的多片段集合的标准化编辑距离(NLD),其中所述标准化编辑距离利用下式计算:
NLD=1(LDexp1-abs([LSexp1]-[LSexp2]))/min([LDexp1],[LSexp2]),
其中LSexp1是所述字符的清理后的多片段集合中的第一字符串的长度,LSexp2是所述字符的清理后的多片段集合中的第二字符串的长度,并且LDexp1是所述字符的清理后的多片段集合的编辑距离。
7.根据权利要求6所述的方法,进一步包括将所述NLD转化成百分比分数。
8.根据权利要求1所述的方法还包括:
通过以下操作根据所述字符的两个多片段集合中的第一多片段集合建立字符的多个置换的多片段集合:
将所述字符的两个多片段集合中的所述第一多片段集合的多个片段中的片段的字符重新排序,以建立置换的片段;
清理字符的成对的多片段集合,其中所述字符的成对的多片段集合包括所述多个置换的多片段集合与所述字符的两个多片段中的第二多片段集合的各种组合;
计算用于所述字符的成对的多片段集合的标准化编辑距离(NLD)。
9.一种计算装置,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行所述可执行指令,以接收字符的两个多片段集合,所述字符的两个多片段集合中的每个包括多个片段,所述片段中的每个包括格式;
通过以下操作清理所述字符的两个多片段集合:
如果片段的格式未处于标准化格式,将字符的多片段集合的多个片段中的片段转化成标准化格式;以及
通过根据多个转化的片段建立字符的连续字符串,将所述字符的两个多片段集合缩小;
计算用于字符的清理后的多片段集合的标准化编辑距离(NLD),其中所述标准化编辑距离通过以下操作计算:
计算用于所述字符的清理后的多片段集合的编辑距离(LDexp1);
利用下式使所述LDexp1标准化:
NLD=1-(LDexp1-abs([LSexp1]-[LSexp2]))/min([LDexpl],[LSexp2]),
其中LSexp1是所述字符的清理后的多片段集合中的第一字符串的长度,LSexp2是所述字符的清理后的多片段集合中的第二字符串的长度,并且LDexp1是用于所述字符的清理后的多片段集合的编辑距离。
10.根据权利要求9所述的计算装置,其中所述处理器进一步执行所述指令,以通过将非字母数字字符从所述多个片段中的每个中除去来进行清理。
11.根据权利要求9所述的计算装置,其中所述处理器进一步执行所述指令,以通过对于所述多个片段中的每个将大写字符转化成小写字符来进行清理。
12.根据权利要求9所述的计算装置,进一步包括将所述NLD转化成百分比分数。
13.根据权利要求9所述的计算装置,其中所述字符的两个多片段集合中的每个均表示地图上的兴趣点。
14.根据权利要求9所述的计算装置,还包括:
将所述字符的两个多片段集合中的每个在地图上标绘为兴趣点;
计算标绘点之间的物理距离;以及
如果所述物理距离小于距离阈值,将所述字符的两个多片段集合确定为表示同一的兴趣点。
15.一种通过计算装置执行的地理编码方法,所述计算装置包括处理器和用于存储可执行指令的存储器,所述处理器执行所述指令以实施所述方法,所述方法包括:
接收可能表示相同的兴趣点的、两个地理数据字符串,所述两个地理数据字符串中的每个包括多个片段,所述片段中的每个包括格式;
如果片段的所述格式未处于标准化格式,则将地理数据字符串的多个片段中的片段转化成标准化格式;
通过根据多个转化的片段建立连续字符串,将所述字符的两个地理数据字符串中的每个缩小;
利用字符的清理后的多片段集合计算距离分数,所述距离分数表示字符的两个缩小且清理后的地理数据片段字符串中的字符之间的差异;
将所述距离分数与阈值比较;以及
如果所述距离分数小于所述阈值,将数据库中所述字符的两个缩小且清理后的地理数据字符串确定为表示同一兴趣点。
16.根据权利要求15所述的方法,其中所述多个片段包括POI名称、城市、街道地址、州、国家、邮政编码、电话号码、传真号码、网站地址、URL、坐标以及它们的组合中的任一个。
17.根据权利要求15所述的方法,还包括:
将所述字符的地理数据字符串中的每个在地图上标绘为兴趣点;
计算标绘点之间的地理距离;以及
如果所述地理距离小于距离阈值,将所述字符的两个地理数据字符串确定为表示同一兴趣点。
18.根据权利要求15所述的方法,其中所述清理还包括将非字母数字字符从所述多个片段中除去。
19.根据权利要求15所述的方法,其中所述清理还包括对于所述多个片段中的每个将大写字符转化成小写字符。
20.根据权利要求15所述的方法,其中所述多个片段中的至少一个为第一语言,并且所述多个片段中的至少一个为第二语言。
21.根据权利要求15所述的方法,还包括将兴趣点标绘在地图上,如果所述字符的清理后的地理数据片段字符串确定为表示同一兴趣点,则所述兴趣点由所述字符的清理后的地理数据片段字符串限定。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361865984P | 2013-08-14 | 2013-08-14 | |
US61/865,984 | 2013-08-14 | ||
PCT/CA2014/000620 WO2015021532A1 (en) | 2013-08-14 | 2014-08-14 | Data sanitization and normalization and geocoding methods |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105580003A true CN105580003A (zh) | 2016-05-11 |
CN105580003B CN105580003B (zh) | 2019-01-25 |
Family
ID=52467872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480051206.5A Expired - Fee Related CN105580003B (zh) | 2013-08-14 | 2014-08-14 | 数据清理和标准化以及地理编码方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US9990410B2 (zh) |
EP (1) | EP3033691A4 (zh) |
JP (1) | JP2016528553A (zh) |
CN (1) | CN105580003B (zh) |
AU (1) | AU2014306381A1 (zh) |
CA (1) | CA2920689A1 (zh) |
WO (1) | WO2015021532A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436878A (zh) * | 2016-05-25 | 2017-12-05 | 滴滴(中国)科技有限公司 | 相同信息点的判定方法及装置、信息点的去重方法及设备 |
CN109074396A (zh) * | 2016-05-10 | 2018-12-21 | 北京嘀嘀无限科技发展有限公司 | 推荐个性化内容的系统和方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953059B2 (en) | 2012-09-28 | 2018-04-24 | Oracle International Corporation | Generation of archiver queries for continuous queries over archived relations |
US10298444B2 (en) | 2013-01-15 | 2019-05-21 | Oracle International Corporation | Variable duration windows on continuous data streams |
US10473476B2 (en) | 2016-12-31 | 2019-11-12 | Uber Technologies, Inc. | Vehicle routing guidance to an authoritative location for a point of interest |
US10635699B2 (en) * | 2017-05-03 | 2020-04-28 | Servicenow, Inc. | Fuzzy matching for computing resources |
US10480954B2 (en) * | 2017-05-26 | 2019-11-19 | Uber Technologies, Inc. | Vehicle routing guidance to an authoritative location for a point of interest |
US11250040B2 (en) * | 2017-10-19 | 2022-02-15 | Capital One Services, Llc | Systems and methods for extracting information from a text string generated in a distributed computing operation |
US10854299B2 (en) | 2018-05-31 | 2020-12-01 | Micron Technology, Inc. | Data erase operations for a memory system |
CN111258997B (zh) * | 2020-01-16 | 2023-11-03 | 浪潮软件股份有限公司 | 基于NiFi的数据处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060031183A1 (en) * | 2004-08-04 | 2006-02-09 | Tolga Oral | System and method for enhancing keyword relevance by user's interest on the search result documents |
US20080109718A1 (en) * | 2006-11-06 | 2008-05-08 | International Business Machines Corporation | Combining calendar entries with map views |
CN102257493A (zh) * | 2008-10-22 | 2011-11-23 | 谷歌公司 | 对个人信息进行地理编码 |
US8150848B2 (en) * | 2008-01-04 | 2012-04-03 | Google Inc. | Geocoding multi-feature addresses |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725871B2 (en) * | 2011-01-26 | 2014-05-13 | Nec Laboratories America, Inc. | Systems and methods for application dependency discovery |
US8650024B1 (en) | 2011-04-13 | 2014-02-11 | Google Inc. | Generating address term synonyms |
-
2014
- 2014-08-14 AU AU2014306381A patent/AU2014306381A1/en not_active Abandoned
- 2014-08-14 CA CA2920689A patent/CA2920689A1/en not_active Abandoned
- 2014-08-14 US US14/911,856 patent/US9990410B2/en not_active Expired - Fee Related
- 2014-08-14 CN CN201480051206.5A patent/CN105580003B/zh not_active Expired - Fee Related
- 2014-08-14 WO PCT/CA2014/000620 patent/WO2015021532A1/en active Application Filing
- 2014-08-14 JP JP2016533758A patent/JP2016528553A/ja not_active Withdrawn
- 2014-08-14 EP EP14836362.5A patent/EP3033691A4/en not_active Ceased
-
2018
- 2018-05-18 US US15/983,214 patent/US10331694B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060031183A1 (en) * | 2004-08-04 | 2006-02-09 | Tolga Oral | System and method for enhancing keyword relevance by user's interest on the search result documents |
US20080109718A1 (en) * | 2006-11-06 | 2008-05-08 | International Business Machines Corporation | Combining calendar entries with map views |
US8150848B2 (en) * | 2008-01-04 | 2012-04-03 | Google Inc. | Geocoding multi-feature addresses |
CN102257493A (zh) * | 2008-10-22 | 2011-11-23 | 谷歌公司 | 对个人信息进行地理编码 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109074396A (zh) * | 2016-05-10 | 2018-12-21 | 北京嘀嘀无限科技发展有限公司 | 推荐个性化内容的系统和方法 |
CN109074396B (zh) * | 2016-05-10 | 2022-06-14 | 北京嘀嘀无限科技发展有限公司 | 推荐个性化内容的系统和方法 |
CN107436878A (zh) * | 2016-05-25 | 2017-12-05 | 滴滴(中国)科技有限公司 | 相同信息点的判定方法及装置、信息点的去重方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
US20160203198A1 (en) | 2016-07-14 |
EP3033691A1 (en) | 2016-06-22 |
EP3033691A4 (en) | 2017-06-07 |
CN105580003B (zh) | 2019-01-25 |
US9990410B2 (en) | 2018-06-05 |
US20180268041A1 (en) | 2018-09-20 |
CA2920689A1 (en) | 2015-02-19 |
JP2016528553A (ja) | 2016-09-15 |
AU2014306381A1 (en) | 2016-03-17 |
WO2015021532A1 (en) | 2015-02-19 |
US10331694B2 (en) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105580003A (zh) | 数据清理和标准化以及地理编码方法 | |
US11461289B2 (en) | Apparatus, systems, and methods for providing location information | |
CN105022748B (zh) | 一种运单地址分级方法及装置 | |
Li et al. | An optimisation model for linear feature matching in geographical data conflation | |
US8996523B1 (en) | Forming quality street addresses from multiple providers | |
US8234264B2 (en) | System and method for preferred services in nomadic environments | |
US10176244B2 (en) | Text characterization of trajectories | |
US20150356088A1 (en) | Tile-based geocoder | |
US20100250599A1 (en) | Method and apparatus for integration of community-provided place data | |
CN102270048B (zh) | 一种名词输入的方法及系统 | |
CN110688449A (zh) | 基于深度学习的地址文本处理方法、装置、设备及介质 | |
US20120278360A1 (en) | Short Point-of-Interest Title Generation | |
US9846715B2 (en) | Address/latitude and longitude converting device and geographical information system using the same | |
CN110908980B (zh) | 用户标识映射关系建立方法、系统、设备及存储介质 | |
CN103365876B (zh) | 基于关系图谱生成网络操作辅助信息的方法与设备 | |
CN108427730A (zh) | 一种基于随机游走和条件随机场的社会标签推荐方法 | |
Pandi et al. | A novel similarity measure for sequence data | |
CN112861023A (zh) | 地图信息处理方法、装置、设备、存储介质及程序产品 | |
CN113836897A (zh) | 一种多源异构数据字典对齐的方法 | |
Safra et al. | Integrating data from maps on the world-wide web | |
CN109800359A (zh) | 信息推荐处理方法、装置、电子设备及可读存储介质 | |
CN111475742A (zh) | 一种地址提取方法和装置 | |
Asor et al. | Implementation of tourism circuit concept in an android-based tourist navigation application through A* algorithm | |
US20130151150A1 (en) | Electronic device with trip planning function and trip planning method | |
CN113868351A (zh) | 一种地址聚类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170628 Address after: Ontario, Canada Applicant after: Express four links Limited Address before: Ontario, Canada Applicant before: ZAG HOLDINGS INC. |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190125 Termination date: 20200814 |