CN110874442A - 处理信息的方法、装置、设备和介质 - Google Patents

处理信息的方法、装置、设备和介质 Download PDF

Info

Publication number
CN110874442A
CN110874442A CN201811012481.2A CN201811012481A CN110874442A CN 110874442 A CN110874442 A CN 110874442A CN 201811012481 A CN201811012481 A CN 201811012481A CN 110874442 A CN110874442 A CN 110874442A
Authority
CN
China
Prior art keywords
interest
points
point
interest point
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811012481.2A
Other languages
English (en)
Inventor
郑华飞
谢朋峻
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811012481.2A priority Critical patent/CN110874442A/zh
Publication of CN110874442A publication Critical patent/CN110874442A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种处理信息的方法、装置、设备和介质,所述方法包括:接收客户端发送的检索词;根据所述检索词中包括的兴趣点,在兴趣点库中查询所述兴趣点对应的标准兴趣点;发送所述标准兴趣点至所述客户端。采用本发明实施例后,对于同一个兴趣点仅存在一个名称。

Description

处理信息的方法、装置、设备和介质
技术领域
本发明涉及计算机领域,尤其涉及一种处理信息的方法、装置、设备和计算机存储介质,以及确定归一化兴趣点库的方法、装置、设备和计算机存储介质。
背景技术
兴趣点(Point of Interest,POI)包括地图上的景点、政府机构、公司、商场、饭店和住宅小区等。地址数据库中存储有多个兴趣点,由于别名、地址的缩写以及错写等原因,同一个兴趣点往往有多个名称。
别名:“故宫”和“紫禁城”,这种主要是由于历史原因或者非官方的名称更广传播导致。
缩写:“浙江警院”和“浙江省警察学院”,这种情况在现实中普遍存在。
错写:“警察学”(警察学院),“警车学院”(警察学院),这种类型大多是采集和录入的时候人工失误造成的。
同一个兴趣点存在多个名称,在电商领域,快递员需要再次与收货方或发货方核实收货地址,造成送货效率的降低;在安全领域,由于一个兴趣点存在多个名称,无法及时获知名称与兴趣点的对应关系,则管理方难以基于兴趣点进行高效的管理。
因此,存在以下技术问题:对于同一个兴趣点存在多个名称。
发明内容
本发明实施例提供了一种处理信息的方法、装置、设备和计算机存储介质,以及确定归一化兴趣点库的方法、装置、设备和计算机存储介质,对于同一个兴趣点仅存在一个名称。
一种处理信息的方法,包括:
接收客户端发送的检索词;
根据所述检索词中包括的兴趣点,在兴趣点库中查询所述兴趣点对应的标准兴趣点;
发送所述标准兴趣点至所述客户端。
所述兴趣点库是预先根据标准兴趣点和同义兴趣点对生成的数据集,所述标准兴趣点根据确定为同义兴趣点对的各候选兴趣点对构建,所述同义兴趣点对基于候选兴趣点对的特征向量和预设分类器确定,所述候选兴趣点对包括两个兴趣点。
所述候选兴趣点对中的两个兴趣点之间的地址信息相似,或者,所述候选兴趣点对的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
所述候选兴趣点对的特征向量包括所述候选兴趣点对中两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
标准兴趣点包括:
从确定为同义兴趣点对的各候选兴趣点对包括的兴趣点中,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,选出的兴趣点。
所述方法还包括预先生成所述预设分类器,所述预先生成所述预设分类器的步骤包括:
分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器;
其中,所述正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点;
所述负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
一种生成兴趣点库的方法,包括:
对待处理的各兴趣点进行筛选,以获取一个或多个候选兴趣点对,所述候选兴趣点对包括两个兴趣点;
基于所述候选兴趣点对的特征向量和预设分类器,确定所述候选兴趣点对是否为同义兴趣点对;
根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点;
将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库。
所述候选兴趣点对中的两个兴趣点的地址信息相似,或者,所述候选兴趣点对中的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
所述候选兴趣点对的特征向量包括所述候选兴趣点对中两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
所述根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点包括:
对确定为同义兴趣点对的各候选兴趣点对包括的兴趣点,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,构建对应的标准兴趣点。
所述方法还包括预先生成所述预设分类器,所述预先生成所述预设分类器的步骤包括:
分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器;
其中,所述正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个来源于同一用户且地址信息高度相似的兴趣点;
所述负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
所述将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库之后,还包括:
对所述兴趣点库中的各标准兴趣点建立索引,结合所述兴趣点库构建支持在线查询的兴趣点库。
一种处理信息的方法,包括:
向服务器发送检索词,以指示所述服务器根据所述检索词中包括的兴趣点,在兴趣点库查询所述兴趣点对应的标准兴趣点;;
接收所述服务器返回的所述标准兴趣点。所述兴趣点库是预先根据标准兴趣点和同义兴趣点对生成的数据集,所述标准兴趣点根据确定为同义兴趣点对的各候选兴趣点对构建,所述同义兴趣点对基于候选兴趣点对的特征向量和预设分类器确定,所述候选兴趣点对包括两个兴趣点。
所述候选兴趣点对中的两个兴趣点之间的地址信息相似,或者,所述候选兴趣点对中的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
所述候选兴趣点对的特征向量包括所述两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
所述标准兴趣点包括:
从确定为同义兴趣点对的各候选兴趣点对包括的兴趣点中,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,选出的兴趣点。
一种处理信息的装置,包括:
接收模块,用于接收客户端发送的检索词;
查询模块,用于根据所述检索词中包括的兴趣点,在兴趣点库中查询所述兴趣点对应的标准兴趣点;
发送模块,用于发送所述标准兴趣点至所述客户端。
一种生成兴趣点库的装置,包括:
候选模块,用于对待处理的各兴趣点进行筛选,以获取一个或多个候选兴趣点对,所述候选兴趣点对包括两个兴趣点;
分类模块,用于基于所述候选兴趣点对的特征向量和预设分类器,确定所述候选兴趣点对是否为同义兴趣点对;
构建模块,用于根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点;
关联模块,用于将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库。
一种处理信息的装置,包括:
发送模块,用于向服务器发送检索词,以指示所述服务器根据所述检索词中包括的兴趣点,在兴趣点库查询所述兴趣点对应的标准兴趣点;
接收模块,用于接收所述服务器返回的所述标准兴趣点。
一种处理信息的设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上述方法。
一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上述方法。
从上述技术方案中可以看出,终端发送兴趣点的检索词,然后就可以根据该检索词在该兴趣点的兴趣点库中获得该兴趣点对应的标准兴趣点。由于每个兴趣点只有一个兴趣点库,因此对于同一个兴趣点每次查询到的兴趣点对应的标准兴趣点都是一致的,那么同一个兴趣点则仅存在一个名称。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1是本发明实施例用户利用检索词获取标准兴趣点的示意图;
图2是本发明另一个实施例用户利用检索词获取标准兴趣点的示意图;
图3是本发明实施例中用户利用检索词获取标准兴趣点的流程示意图;
图4是skip-gram模型示意图;
图5是本发明实施例中两个兴趣点的词向量相似度获得示意图;
图6是本发明实施例中候选兴趣点对的特征向量示意图;
图7是本发明实施例中构建标准兴趣点的示意图;
图8是本发明另一个实施例中构建标准兴趣点的示意图;
图9是本发明实施例中处理信息的方法流程示意图;
图10是本发明一个实施例中生成兴趣点库的方法流程示意图;
图11是本发明另一个实施例中处理信息的方法流程示意图;
图12是本发明实施例中处理信息的装置结构示意图;
图13是本发明实施例中生成兴趣点库的装置结构示意图;
图14是本发明另一个实施例中处理信息的装置结构示意图;
图15是本发明实施例处理信息/生成兴趣点库的方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
兴趣点包括地图上的景点、政府机构、公司、商场、饭店和住宅小区等。由于别名、地址的缩写以及错写等原因,同一个兴趣点往往有多个信息。
可以利用在线地图维护海量的标准地址库,根据输入的检索词进行检索并返回与检索词最相关的标准地址,检索词可以是地址片段。省、市、区和地理位置信息一样兴趣点,可以认为是同一个兴趣点。需要说明的是,标准地址包括省市县等各级行政区划信息,以及地理位置,地理位置可以是经度和纬度。
由于地理位置信息粒度较大,省、市、区和地址位置仍然不能唯一确定一个地址,同一个兴趣点仍然有可能存在多个信息。
此外,挖掘成对的兴趣点的特征,比如:两个兴趣点的字符串、两个兴趣点的字母串、两个兴趣点的拼音串的编辑距离。其中,编辑距离表征由一个兴趣点的字符串转换为另一个兴趣点的字符串的最少编辑操作次数。同时,考察两个兴趣点的地址的相似度。最后,通过训练模块并对每两个兴趣点打分,确定是否为同义兴趣点。
注重于字符内容的相似性,并不适用于别名的归一化。作为一个示例,“故宫”和“紫禁城”,没有一个字符是相同的,根据拼音、首字母等计算的编辑距离也较大。但“故宫”和“紫禁城”是属于同一个兴趣点。
参见图1,图1是本发明实施例用户利用检索词获取标准兴趣点的示意图。用户在终端输入兴趣点的检索词,服务器中存储有兴趣点库,服务器可以根据该检索词查询到兴趣点对应的兴趣点库,将在兴趣点库中兴趣点对应的标准兴趣点发送至用户,终端可以呈现兴趣点对应的标准兴趣点。作为一个示例,终端可以是手机。
参见图2,图2是本发明另一个实施例中用户利用检索词获取标准兴趣点的示意图。与图1不同之处在于,图2中的终端是计算机。在本发明实施例及附图中,终端为手机或计算机并不构成对本发明实施例的限定,当然终端还可以是平板电脑等终端设备。
参见图3,图3是本发明实施例中用户利用检索词获取标准兴趣点的流程示意图。具体包括第一过程和第二过程。
在第一过程中,基于兴趣点筛选得到候选兴趣点对,然后根据候选兴趣点对的特征向量确定同义兴趣点对,由同义兴趣点对构建标准兴趣点。最后,关联标准兴趣点和对应的同义兴趣点对,生成兴趣点库。第二过程中,用户发送兴趣点的检索词,根据用户发送的检索词在兴趣点库中查询兴趣点对应的标准兴趣点,将兴趣点对应的标准兴趣点通过终端发送至用户。
需要说明的是,第一过程可以是离线过程,即预先基于兴趣点构造兴趣点库。考虑到每个兴趣点均有一个对应的兴趣点库,兴趣点库的数据量可能会很大。在兴趣点库的数据量较大的情况下,可以采用多个服务器,分别存储部分兴趣点库。第二过程可以是在线过程,即将实时接收到的兴趣点的检索词进行查询以及时获取兴趣点对应的标准兴趣点。此外,第二过程还可以是离线过程,即将接收到的兴趣点的检索词在一定时间后再进行查询,由于间隔一段时间,因此有更多的查询时间,进而能够提高查询兴趣点对应的标准兴趣点的准确性。
下面介绍第一过程中的技术方案,即生成兴趣点库的详细方案。
在本发明的实施例中,可以从电商网站涉及的收货地址中获得地址信息。收货地址是结构化的地址片段,也就是说,地址片段包括省、市、县、区、街道、道路、门牌号和兴趣点等字段信息。
但并不是每个收货地址均包括省、市、县、区、街道、道路、门牌号和兴趣点等字段信息。那么,可以从电商网站涉及的收货地址筛选出包括省、市、县、区、街道、道路、门牌号和兴趣点等字段信息的收货地址。上述筛选的过程也可以称为数据清洗。
根据筛选得到的收货地址,调用经度和纬度查询服务,可以获得筛选得到的收货地址的地理位置,其中地理位置包括经度和纬度。
在本发明的实施例中,可以在筛选得到的收货地址中获取兴趣点和兴趣点的地址信息。作为一个示例,筛选得到的收货地址包括:兴趣点是人民公园,该兴趣点的地址信息是:A省B市C县D乡E社区F道路G号。
可以以词向量表征兴趣点。word2vec是用于词向量计算的工具。word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果—词向量(word embedding)。
word2vec中,主要有skip-gram算法。skip-gram算法是给定输入对象预测上下文。
参见图4,图4是skip-gram模型示意图。图4中包括输入层、映射层和输出层。作为一个示例,词向量维度设置为100维,上下文窗口设置为5。在输入层输入一个单词W(t)的独热码(one-hot code),该单词是兴趣点所对应的。独热码(one-hot code)是多位编码中,有且仅有一位为1,其它全部为0的一种编码方式。独热码相对于其它编码最大的优势在于比较状态时仅仅需要比较一位,在一定程度上简化了译码逻辑。作为一个示例有6个状态的独热码状态编码为:000001,000010,000100,001000,010000,100000。
通过映射层的多层映射,上下文窗口设置为5,即在输出层输出4个100维的词向量。在输出层输出与W(t)的上下文相关的词向量:W(t-2)、W(t-1)、W(t+1)和W(t+2)。然后,基于W(t-2)、W(t-1)、W(t+1)和W(t+2)构建兴趣点所对应的上下文的词向量。作为一个示例,将W(t-2)、W(t-1)、W(t+1)和W(t+2)依次拼接得到特征向量,作为兴趣点所对应的上下文的词向量。
skip-gram模型的输入是兴趣点所对应的独热码即词向量,而输出是兴趣点所对应的上下文的词向量。也就是说,通过兴趣点所对应的词向量来预测兴趣点所对应是上下文的词向量。
可以理解的是,兴趣点所对应单词的词向量是W(t),通过skip-gram模型能够得到W(t)的上下文的词向量。
在本发明的实施例中,以两个兴趣点组成的候选兴趣点对为基本单位,从而确定兴趣点库。候选兴趣点对中的两个兴趣点可以是任意两个兴趣点。
候选兴趣点对中的两个兴趣点相似度较大的情况下,可以更容易获得兴趣点的兴趣点库。
两个兴趣点的相似度可以以多种参数来衡量。作为一个示例,两个兴趣点的相似度可以基于至少一个参数来衡量,地理位置、词向量相似度、编辑距离和地址相似度。作为另一个示例,两个兴趣点的相似度大于预设相似阈值,则该两个兴趣点是相同的兴趣点;两个兴趣点的相似度小于等于预设相似阈值,则该两个兴趣点是不同的兴趣点。
在本发明的实施例中,可以基于两个兴趣点的地址信息和两个兴趣点之间的地理距离,初步确定候选兴趣点对。
每个兴趣点存在对应的地址信息,地址信息包括多级行政区划。为了从众多兴趣点中筛选相似度较高的兴趣点,可以基于行政区划进行筛选。作为一个示例,将两个前四级行政区划相同的兴趣点作为候选兴趣点对,即具有相同的省、市、县、区的两个兴趣点才有必要判断是否为相同的兴趣点。也就是说,若不具有相同的前四级行政区划,则可以确定两个兴趣点是不同兴趣点。将两个兴趣点的前四级行政区划相同,称为两个兴趣点的地址信息相似。
然后,针对候选兴趣点对中的兴趣点,获取每个兴趣点的地理位置。需要说明的是,若候选兴趣点对中的兴趣点是筛选得到的收货地址,则可以直接得到该兴趣点的地理位置。
此外,每个兴趣点可以根据关键词或其他的相关信息获取自身的地理位置。作为一个示例,根据兴趣点中的关键词:“万达广场”,在电子地图或其他地理位置数据库中获取“万达广场”的地址位置,将获得的地址位置作为该兴趣点的地理位置。
在兴趣点的地理位置的基础上可以获知候选兴趣点对中两个兴趣点之间的地理距离。该两个兴趣点的地理位置越近地理距离越小,则两个兴趣点的相似度越高。那么,可以排除地理距离大于预设地理距离的候选兴趣点对。作为一个示例,预设地理距离等于5千米(km),根据候选兴趣点对中兴趣点的经度和纬度,计算候选兴趣点对中兴趣点之间的地理距离,排除地理距离大于5km的候选兴趣点对。
上述结合兴趣点的地址信息,或地址信息和地理位置,确定候选兴趣点对。也就是说,候选兴趣点对中的两个兴趣点需要满足地址信息相似,或地址信息相似和地理位置相似。地址信息相似是指两个兴趣点的前几个行政区划一致。地理位置相似是指两个兴趣点的地理距离小于或等于预设地理距离。
在本发明的一个实施例中,还可以仅根据兴趣点的地址信息相似,或兴趣点的地址信息相似和兴趣点的地理位置相似确定候选兴趣点对。考虑到兴趣点的数量较大,根据兴趣点的地址信息相似和兴趣点的地理位置相似确定候选兴趣点对的数据计算量较大,那么就可以仅根据兴趣点的地址信息相似确定候选兴趣点对。
针对每个候选兴趣点对,可以按照两个兴趣点的词向量和候选兴趣点对的相似度,拼接得到候选兴趣点对的特征向量。其中,候选兴趣点对的相似度可以包括下述三个相似度中的一种或多种:候选兴趣点的词向量相似度、候选兴趣点对的编辑距离和候选兴趣点对的地址相似度。
下面分别说明词向量相似度、编辑距离和地址相似度。
词向量相似度是一个兴趣点的词向量和另一个兴趣点的词向量之间的距离。上述词向量之间的距离越小,则说明词向量相似度越高;上述距离越大,则说明词向量相似度越低。依据词向量之间的距离能够获知候选兴趣点对中两个兴趣点的词向量相似度。
在本发明的一个实施例中,词向量相似度可以等于下述距离当中的任意一个:欧式距离、标准化欧氏距离、余弦距离、曼哈顿距离和马氏距离。
参见图5,图5是本发明实施例中两个兴趣点的词向量相似度获得示意图。图5中包括两个兴趣点,第一兴趣点是浙江警院,第二兴趣点是浙江警察学院。首先,对于每个兴趣点进行分词,然后基于分词结果结合skip-gram模型,得到兴趣点的特征向量。计算两个兴趣点的特征向量之间的余弦距离,将该余弦距离作为第一兴趣点和第二兴趣点的词向量相似度。
一般来说,相同兴趣点往往具有相近的读音、字符和错别字等。对于字面上的相似性,可以用中文汉字、拼音、拼音首字母等的编辑距离来衡量。
参见表1,表1是两个兴趣点的三种编辑距离示意。其中两个兴趣点分为为:兴趣点_1和兴趣点_2。表1以“浙江警院”和“浙江警察学院”的两个兴趣点为例,说明编辑距离。
表1
特征 兴趣点_1 兴趣点_2 编辑距离
中文字符 浙江警院 浙江警察学院 3
拼音字符 zhejiangjingyuan zhejiangjingchaxueyuan 6
拼音首字母 ZJJY ZJSJCXY 3
表1中,兴趣点_1的中文字符是“浙江警院”,兴趣点_2的中文字符是“浙江警察学院”,从“浙江警院”转换为“浙江警察学院”需要最少编辑3次,因此相应的编辑距离等于3。
表1中,兴趣点_1的拼音字符是“zhejiangjingyuan”,兴趣点_2的拼音字符是“zhejiangjingchaxueyuan”,从“zhejiangjingyuan”转换为“zhejiangjingchaxueyuan”需要最少编辑6次,因此相应的编辑距离等于6。
表1中,兴趣点_1的中文字符是“ZJJY”,兴趣点_2的中文字符是“ZJSJCXY”,从“ZJJY”转换为“ZJSJCXY”需要最少编辑3次,因此相应的编辑距离等于3。
每个兴趣点有对应的地址信息,地址信息包括多级行政区划。作为一个示例,行政区划包括:省、市、县、乡、社区、道路、门牌号。
两个兴趣点的行政区划的重合内容越多,则两个兴趣点之间的地址相似度越高。作为一个示例,第一兴趣点的行政区划包括:A省B市C县D乡E社区F1道路5号。第二兴趣点的行政区划包括:A省B市C县D乡E社区F2道路7号。第三兴趣点的行政区划包括:A省B市C县D乡E社区F1道路7号。第一兴趣点与第二兴趣点的行政区划的前五级行政区划相同;第一兴趣点与第三兴趣点的行政区划的前6级行政区划相同。因此,可以认为第一兴趣点与第二兴趣点的相似度,低于第一兴趣点与第三兴趣点的相似度。
在本发明的一个实施例中,可以以地址相似度表征两个兴趣点在行政区划的一致性。两个兴趣点相同行政区划的级别的数目与地址相似度成正比。也就是说,第一兴趣点与第二兴趣点有4个相同的行政区划的级别,第一兴趣点与第三兴趣点有5个相同的行政区划的级别,则第一兴趣点与第三兴趣点的地址相似度大于第一兴趣点与第二兴趣点的地址相似度。
作为一个示例,每个兴趣点的地址信息包括七级行政区划。第一兴趣点的七级行政区划与第二兴趣点的七级行政区域相同,则第一兴趣点和第二兴趣点的地址相似度为1。作为另一个示例,第三兴趣点的行政区划包括:A省B市C县D乡E社区F1道路5号。第四兴趣点的行政区划包括:A省B市C县D乡E社区F2道路7号。第三兴趣点的五级行政区划与第四兴趣点的五级行政区域相同,则第三兴趣点和第四兴趣点的地址相似度为0.8。
参见图6,图6是本发明实施例中候选兴趣点对的特征向量示意图。候选兴趣点对的特征向量是由五部分拼接而成的向量。第一部分是候选兴趣点对中一个兴趣点的词向量1;第二部分是候选兴趣点对中另一个兴趣点的词向量2;第三部分是候选兴趣点对的词向量相似度;第四部分是候选兴趣点对的编辑距离;第五部分是候选兴趣点对的地址相似度。
作为一个示例,候选兴趣点对中一个兴趣点的特征向量是{V1,V2,…,V100};候选兴趣点对中另一个兴趣点的特征向量是{V101,V102,…,V200};候选兴趣点对的词向量相似度是0.88;候选兴趣点对的编辑距离是0.6;候选兴趣点对的地址相似度是0.7。那么,该候选兴趣点对的特征向量是{V1,V2,…,V100,V101,V102,…,V200,0.88,0.6,0.7}。
在本发明的一个实施例中,为了构造兴趣点的兴趣点库,可以根据候选兴趣点对的特征向量和分类器进行分类。分类的目的在于确定候选兴趣点对是否为同义兴趣点对。同义兴趣点对包括两个相同的兴趣点。
分类器是数据挖掘中对样本进行分类的方法的统称,分类器可以将数据映射到某一个给定类别中,因此可以应用于数据预测。分类器包含决策树、逻辑回归、朴素贝叶斯、神经网络和支持向量机(Support VectorMachine,SVM)。
可以利用多个正样本兴趣点对和负样本兴趣点对预先训练分类器,然后利用训练后的分类器,结合候选兴趣点对的特征向量构造兴趣点的归一化兴趣点库。
在本发明的一个实施例中,正样本兴趣点对包括地址信息一致,且正样本兴趣点对中兴趣点的出现频率大于频率阈值的两个兴趣点,或者两个同一来源且地址信息高度相似的兴趣点。这里的同一来源通常为来源于同一用户,地址信息高度相似是指同一个用户的除社区之外的行政区划均一致。
地址信息包括多级行政区划。两个兴趣点的前N级行政区划相同,则认为是地址信息一致。其中,N可以基于具体情况设置,N是正整数。作为一个示例,N可以等于7,即两个兴趣点的前7级行政区划相同。也就是说,两个兴趣点的省、市、县、区、街道、道路和门牌号均相同。
地址信息一致的兴趣点对,且该兴趣点对中兴趣点的出现频率较高,则说明该兴趣点对是同一个兴趣点的可能性比较大。
作为一个示例,兴趣点对中每个兴趣点的出现频率大于频率阈值,则认为该兴趣点的出现频率较高。作为一个示例,频率阈值大于20。也就是说,兴趣点对中每个兴趣点的出现频率均大于20次。
考虑到,同一个用户的兴趣点是相同兴趣点,而且用户通常不填写社区或社区填写错误,因此可以将同一个用户的除社区之外的行政区划均一致的两个兴趣点作为正样本兴趣点对。
作为一个示例,用户的一个兴趣点的行政区划包括:A省B市C县D乡O社区F1道路5号;用户的另一个兴趣点的行政区划包括:A省B市C县D乡P社区F1道路5号。尽管上述两个兴趣点的社区不同,但除社区之外的行政区划均一致,则将上述两个兴趣点作为正样本兴趣点对。
在本发明的一个实施例中,负样本兴趣点对的地址信息相似,兴趣点之间的距离小于预设地理距离,且负样本兴趣点对中兴趣点之间的相似度较低。
地址信息包括多级行政区划。两个兴趣点的前M级行政区划相同,则认为是地址信息相似。其中,M可以基于具体情况设置,M是正整数且M小于N。作为一个示例,M可以等于4,即两个兴趣点的前4级行政区划相同。同时,负样本兴趣点对的地理距离小于预设地理距离。作为一个示例,预设地理距离为5km。
此外,负样本兴趣点对还需要考虑相似度,将两个兴趣点之间相似度较低的兴趣点对作为负样本兴趣点对。作为一个示例,可以将两个兴趣点之间相似度低于预设相似度阈值的兴趣点,称为相似度较低的兴趣点对。
其中,兴趣点对中两个兴趣点之间的相似度可以根据词向量相似度、编辑距离和地址相似度计算获得。作为一个示例,预设词向量相似度的权重、预设编辑距离的权重以及预设地址相似度的权重,结合词向量相似度、编辑距离和地址相似度计算兴趣点对的相似度。按照相似度从低到高的顺序,将前K个兴趣点对作为相似度较低的兴趣点对,其中K是正整数。
利用正样本兴趣点对和负样本兴趣点对训练分类器,得到训练后的分类器。
具体来说,将正样本兴趣点对的特征向量作为分类器的输入,分类器输出正样本兴趣点对中的两个兴趣点是否属于相同兴趣点。若正样本兴趣点对中的两个兴趣点不属于相同兴趣点,则调整分类器的参数。再次将上述两个兴趣点对的特征向量输入分类器,直至分类器输出上述两个兴趣点属于相同兴趣点。继续输入其他正样本兴趣点对的特征向量,以继续调整分类器的参数。当正样本兴趣点对中所有正样本兴趣点对输入分类器得到正样本兴趣点对中的两个兴趣点属于相同兴趣点的正确率达到预设正确率,则完成分类器的正样本训练。
此外,还可以将负样本兴趣点对的特征向量作为分类器的输入,分类器输出负样本兴趣点对中的两个兴趣点是否属于不同兴趣点。若负样本兴趣点对中的两个兴趣点属于相同兴趣点,则调整分类器的参数。再次将上述两个兴趣点对的特征向量输入分类器,直至分类器输出上述两个兴趣点属于不同兴趣点。继续输入其他负样本兴趣点对的特征向量,以继续调整分类器的参数。当负样本兴趣点对负样本兴趣点对中所有负样本兴趣点对负样本兴趣点对输入分类器得到负样本兴趣点对负样本兴趣点对中的两个兴趣点属于不同兴趣点的正确率达到预设正确率,则完成分类器的负样本训练。
利用正样本兴趣点对的特征向量和负样本兴趣点对的特征向量,得到训练后的分类器。
根据候选兴趣点对的特征向量和训练后的分类器进行匹配,确定两个兴趣点是同义兴趣点对。也就是说,将候选兴趣点对的特征向量输入训练后的分类器进行分类,判断候选兴趣点对是否属于同义兴趣点对。同义兴趣点对包括两个属于同一个兴趣点的两个兴趣点。
这样,通过训练后的分类器能够确定候选兴趣点对中的同义兴趣点对。因此可以基于同义兴趣点对构造兴趣点的兴趣点库。
具体来说,基于同义兴趣点对可以构建对应的标准兴趣点。即,在同义兴趣点中,将高于频率阈值的字符和/或最长字符,作为标准兴趣点。
其中,出现频率高于频率阈值的字符,则说明有较多客户端使用该字符,则说明该字符比较常用。最长字符往往包含较多的语义。
关联标准兴趣点与对应的同义兴趣点对,进而得到兴趣点库。对于一个兴趣点而言,对应一个兴趣点库,在兴趣点库中包括标准兴趣点和同义兴趣点对的兴趣点。
作为一个示例,兴趣点的标准兴趣点为:四川省乐山市市中区张公桥街道里仁街257号乐山市第一职业高级中学,该兴趣点的同义兴趣点对可以包括以下兴趣点中的两个:乐山市第一职业高级中学、乐山第一职业高级中学、第一职业高级中学及一职中。
可以以列表的方式存储兴趣点库中的兴趣点,作为一个示例,在列表的第一列可以存储兴趣点的标准兴趣点。在列表的第二列可以存储兴趣点的同义兴趣点对中的兴趣点。
换言之,对于每个兴趣点均有一个对应的标准兴趣点。在上述生成兴趣点库之后,还可以对这一兴趣点库中的各标准兴趣点建立索引,结合兴趣点库构建支持在线查询的兴趣点库,以便于提高查询效率。作为一个示例,兴趣点的索引可以是倒排索引。
参见图7,图7是本发明实施例中构建标准兴趣点的示意图。第一兴趣点是:第一职业高级中学;第二兴趣点是:一职中;第三兴趣点是:乐山市第一职业高级中学;第四兴趣点是:乐山第一职业高级中学。上述四个兴趣点的地址信息均为:四川省乐山市市中区张公桥街道里仁街257号。
通过第一兴趣点、第二兴趣点、第三兴趣点和第四兴趣点组成6个兴趣点对,上述6个兴趣点对均为候选兴趣点对。根据3个候选兴趣点对的特征向量和训练后的分类器进行分类,确定上述6个兴趣点对均是同义兴趣点对。那么,则利用上述6个兴趣点对构造兴趣点的兴趣点库。在第一兴趣点、第二兴趣点、第三兴趣点和第四兴趣点中,“一职中”的出现频率高于频率阈值,频率阈值大于等于2,则将“一职中”增加到该兴趣点的兴趣点库中。而且,在上述4个兴趣点中第三兴趣点的字符是最长字符,则将“乐山市第一职业高级中学”增加到该兴趣点的兴趣点库中。
在兴趣点的兴趣点库中包括该兴趣点的标准兴趣点:四川省乐山市市中区张公桥街道里仁街257号乐山市第一职业高级中学。还包括同义兴趣点对的兴趣点,还包括第一职业高级中学;一职中;乐山市第一职业高级中学;以及乐山第一职业高级中学。
参见图8,图8是本发明另一个实施例中构建标准兴趣点的示意图。第五兴趣点是:浙江警院;第六兴趣点是:浙江省警院;第七兴趣点是:浙江警察学院;第八兴趣点是:浙江警车学院。上述四个兴趣点的地址信息均为:浙江省杭州市滨江区滨文路555号浙江警察学院。
通过第五兴趣点、第六兴趣点、第七兴趣点和第八兴趣点组成6个兴趣点对,上述6个兴趣点对均为候选兴趣点对。根据6个候选兴趣点对的特征向量和训练后的分类器进行分类,确定上述6个兴趣点对均是同义兴趣点对。那么,则利用上述6个兴趣点对构建标准兴趣点,最终兴趣点的兴趣点库。
在上述6个兴趣点对中,“浙江警察学院”是相同兴趣点中最长的字符,则将“浙江警察学院”增加到该兴趣点的标准兴趣点中。
在兴趣点的兴趣点库中包括该兴趣点的标准兴趣点:浙江省杭州市滨江区滨文路555号浙江警察学院浙江警察学院。还包括同义兴趣点对的兴趣点,浙江警院;浙江省警院;浙江警察学院;以及浙江警车学院。
继续参见图3,在第二过程中的技术方案中,用户通过终端提交检索词,服务器接收检索词,然后根据检索词中的兴趣点,在兴趣点库中查询该兴趣点对应的标准兴趣点,将查询到的标准兴趣点通过客户端向用户呈现。
作为一个示例,用户通过终端提交的检索词为:乐山第一职业高级中学,服务器通过客户端向用户展示的标准兴趣点为:四川省乐山市市中区张公桥街道里仁街257号乐山市第一职业高级中学。
在本发明实施例的技术方案中,终端通过与服务器交互,可以从服务器获得标准兴趣点。本发明实施例的技术方案可以总结为下述内容。
参见图9,图9是本发明实施例中处理信息的方法流程示意图,图9中各步骤的执行主体可以是服务器。具体包括:
S901、接收客户端发送的检索词。
服务器接收终端发送的检索词。在本发明实施例中,服务器可以是单独一台服务器;服务器还可以是分布式服务器。当服务器是分布式服务器的情况下,需要结合用户发送的检索词,判断需要发送给分布式服务器中的哪个服务器。
S902、根据检索词中包括的兴趣点,在兴趣点库中查询该兴趣点对应的标准兴趣点。
兴趣点库中存储有标准兴趣点。根据检索词中的兴趣点,可以在兴趣点库中获得该兴趣点对应的标准兴趣点。
S903、发送该标准兴趣点至客户端。
服务器向客户端发送该兴趣点对应的标准兴趣点。
在本发明实施例中,通过兴趣点的检索词在兴趣点库中查询兴趣点对应的标准兴趣点。由于兴趣点库包括标准兴趣点,每个兴趣点只有一个对应兴趣点库,因此对于同一个兴趣点每次查询到的兴趣点对应的标准兴趣点都是一致的,那么同一个兴趣点则仅存在一个名称。
在本发明的一个实施例中,兴趣点库是预先根据标准兴趣点和同义兴趣点对生成的数据集。标准兴趣点根据确定为同义兴趣点对的各候选兴趣点对构建。同义兴趣点对基于候选兴趣点对的特征向量和预设分类器确定,候选兴趣点对包括两个兴趣点。
也就是说,兴趣点库是在候选兴趣点对的基础上构造的。通过两个兴趣点构造兴趣点库,能够提高兴趣点库的构造速度。
在本发明的一个实施例中,候选兴趣点对中的两个兴趣点之间的地址信息相似,或候选兴趣点对中的两个兴趣点之间的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。为了提高构造兴趣点库的速度和正确率,候选兴趣点对中的两个兴趣点需要地址相似,或地址相似且地理距离小于或等于预设地理距离。其中,地址信息相似是指两个兴趣点的前几个行政区划一致。
在本发明的一个实施例中,候选兴趣点对的特征向量包括候选兴趣点点对中的两个兴趣点的词向量,以及候选兴趣点对的相似度。可以以特征向量表征候选兴趣点对,这样迅速区分同义兴趣点或不同义兴趣点。
作为一个示例,候选兴趣点对的相似度包括以下相似度的一种或多种:候选兴趣点对的词向量相似度、候选兴趣点对的编辑距离和候选兴趣点对的地址相似度。
在本发明的一个实施例中,标准兴趣点包括:从确定为同义兴趣点对的各候选兴趣点包括的兴趣点中,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,选出的兴趣点。也就是说,在候选兴趣点对中所确定同义兴趣点对的基础上,从中选择出现频率高于频率阈值的兴趣点和/或字符长度最长的兴趣点,将所选择的兴趣点作为标准兴趣点。出现频率高于频率阈值的兴趣点,通常是使用次数较多的兴趣点。字符长度最长兴趣点往往可以更清楚表述兴趣点的特征。
在本发明的一个实施例中,在使用预设分类器之前,需要利用正样本和负样本进行训练。具体来说,分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器;
其中,所述正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点;
所述负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
参见图10,图10是本发明一个实施例中生成兴趣点库的方法流程示意图,图10中各步骤的执行主体可以是服务器,具体包括:
S1001、对待处理的各兴趣点进行筛选,以获取一个或多个候选兴趣点对,候选兴趣点对包括两个兴趣点。
可以将任意两个兴趣点作为候选兴趣点对。为了提高确定兴趣点库的速度,可以将地址信息相似,或地址信息相似、且地理距离小于或等于预设地理距离的两个兴趣点,作为候选兴趣点对。
获取一个或多个候选兴趣点对,这样可以基于所获取的候选兴趣点对生成兴趣点库。
S1002、基于候选兴趣点对的特征向量和预设分类器,确定候选兴趣点是否为同义兴趣点对。
可以用向量的形式表述候选兴趣点对。作为一个示例,候选兴趣点对的特征向量包括两个兴趣点的词向量和候选兴趣点对的相似度。这样,候选兴趣点对的特征向量不仅包括候选兴趣点对中的两个兴趣点,而且还包括候选兴趣点对的相似度。
预设分类器是基于正样本兴趣点对和负样本兴趣点对训练得到的。预设分类器的作用是,基于候选兴趣点对的特征向量确定候选兴趣点对中的两个兴趣点是同义兴趣点对,或确定候选兴趣点对中的两个兴趣点不是同义兴趣点对。
此外,基于候选兴趣点对的特征向量和预设分类器,确定两个兴趣点不是同义兴趣点,则说明无需利用该候选兴趣点对生成兴趣点库。
S1003、根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点。
在所确定为同义兴趣点对的各候选兴趣点对基础上,可以根据同义兴趣点对构件该兴趣点的标准兴趣点。
具体而言,可以对确定为同义兴趣点对的各候选兴趣点对包括的兴趣点,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,构建对应的标准兴趣点。
S1004、将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库。
对于一个兴趣点来说,对应一个兴趣点库。将一个标准兴趣点与该标准兴趣点对应的同义兴趣点对关联就可以生成兴趣点库。
在确定兴趣点库之后,则服务器可以响应接收的查询请求,发送兴趣点对应的标准兴趣点。
在本发明实施例中,采用先获取一个或多个候选兴趣点对,然后确定候选兴趣点对是同义兴趣点对,进一步基于同义兴趣点对构建标准兴趣点。最后,关联标准兴趣点和对应的同义兴趣点对,生成兴趣点库。这样,对于同一个兴趣点,其对应的兴趣点库相同的。
参见图11,图11是本发明另一个实施例中处理信息的方法流程示意图,图11中各步骤的执行主体可以是客户端,具体包括:
S1101、向服务器发送检索词,以指示服务器根据该检索词中包括的兴趣点,在兴趣点库查询该兴趣点对应的标准兴趣点。
客户端向服务器发送检索词的目的在于,指示服务器可以反馈该兴趣点对应的标准兴趣点。
具体来说,服务器可以根据检索词中包括的兴趣点,从兴趣点库中查询该兴趣点对应的标准兴趣点。
S1102、接收服务器返回的标准兴趣点。
服务器向客户端发送该兴趣点对应的标准兴趣点,客户端接收该标准兴趣点。
在本发明的一个实施例中,兴趣点库是预先根据标准兴趣点和同义兴趣点对生成的数据集。标准兴趣点根据确定为同义兴趣点对的各候选兴趣点对构建。同义兴趣点对基于候选兴趣点对的特征向量和预设分类器确定,候选兴趣点对包括两个兴趣点。
在本发明的一个实施例中,候选兴趣点对中的两个兴趣点之间的地址信息相似,或者,候选兴趣点对中的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
在本发明的一个实施例中,候选兴趣点对的特征向量包括两个兴趣点的词向量和候选兴趣点对的相似度。
在本发明的一个实施例中,候选兴趣点对的相似度包括以下相似度的一种或多种:
候选兴趣点对的词向量相似度、候选兴趣点对的编辑距离和候选兴趣点对的地址相似度。
在本发明的一个实施例中,标准兴趣点包括:从确定为同义兴趣点对的各候选兴趣点包括的兴趣点中,基于出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,选出的兴趣点。
参见图12,图12是本发明实施例中处理信息的装置结构示意图,处理信息的装置与处理信息的方法相对应,处理信息的装置具体包括:
接收模块1201,用于接收客户端发送的检索词。
查询模块1202,用于根据检索词中包括的兴趣点,在兴趣点库中查询兴趣点对应的标准兴趣点。
发送模块1203,用于发送该标准兴趣点至客户端。
在本发明实施例中,还包括训练模块(图中未示出)。训练模块,用于分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器。
其中,正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点。
负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
参见图13,图13是本发明实施例中生成兴趣点库的装置结构示意图,生成兴趣点库的装置与生成兴趣点库的方法相对应,生成兴趣点库的装置具体包括:
候选模块1301,用于对待处理的各兴趣点进行筛选,以获取一个或多个候选兴趣点对,候选兴趣点对包括两个兴趣点。
分类模块1302,用于基于候选兴趣点对的特征向量和预设分类器,确定候选兴趣点对是否为同义兴趣点对。
构建模块1303,用于根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点。
关联模块1304,用于将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库。
在本发明实施例中,还包括训练模块(图中未示出)。训练模块,用于分别利用正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器。
其中,正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点。
负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
参见图14,图14是本发明另一个实施例中处理信息的装置结构示意图,处理信息的装置与处理信息的方法相对应,处理信息的装置具体包括:
发送模块1401,用于向服务器发送检索词,以指示服务器根据检索词中包括的兴趣点,在兴趣点库查询兴趣点对应的标准兴趣点。
接收模块1402,接收服务器返回的标准兴趣点。
图15是示出能够实现根据本发明实施例处理信息/确定归一化兴趣点库的方法和装置的计算设备的示例性硬件架构的结构图。
如图15所示,计算设备1500包括输入设备1501、输入接口1502、中央处理器1503、存储器1504、输出接口1505、以及输出设备1506。其中,输入接口1502、中央处理器1503、存储器1504、以及输出接口1505通过总线1510相互连接,输入设备1501和输出设备1506分别通过输入接口1502和输出接口1505与总线1510连接,进而与计算设备1500的其他组件连接。
具体地,输入设备1501接收来自外部的输入信息,并通过输入接口1502将输入信息传送到中央处理器1503;中央处理器1503基于存储器1504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1504中,然后通过输出接口1505将输出信息传送到输出设备1506;输出设备1506将输出信息输出到计算设备1500的外部供用户使用。
也就是说,图15所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图14描述的处理信息/生成兴趣点库的方法和装置。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (29)

1.一种处理信息的方法,包括:
接收客户端发送的检索词;
根据所述检索词中包括的兴趣点,在兴趣点库中查询所述兴趣点对应的标准兴趣点;
发送所述标准兴趣点至所述客户端。
2.根据权利要求1所述的方法,其中,所述兴趣点库是预先根据标准兴趣点和同义兴趣点对生成的数据集,所述标准兴趣点根据确定为同义兴趣点对的各候选兴趣点对构建,所述同义兴趣点对基于候选兴趣点对的特征向量和预设分类器确定,所述候选兴趣点对包括两个兴趣点。
3.根据权利要求2所述的方法,其中,所述候选兴趣点对中的两个兴趣点之间的地址信息相似,或者,所述候选兴趣点对的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
4.根据权利要求2所述的方法,其中,所述候选兴趣点对的特征向量包括所述候选兴趣点对中两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
5.根据权利要求4所述的方法,其中,所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
6.根据权利要求2所述的方法,其中,所述标准兴趣点包括:
从确定为同义兴趣点对的各候选兴趣点对包括的兴趣点中,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,选出的兴趣点。
7.根据权利要求2所述的方法,其中,所述方法还包括预先生成所述预设分类器,所述预先生成所述预设分类器的步骤包括:
分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器;
其中,所述正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点;
所述负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
8.一种生成兴趣点库的方法,包括:
对待处理的各兴趣点进行筛选,以获取一个或多个候选兴趣点对,所述候选兴趣点对包括两个兴趣点;
基于所述候选兴趣点对的特征向量和预设分类器,确定所述候选兴趣点对是否为同义兴趣点对;
根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点;
将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库。
9.根据权利要求8所述的方法,其中,所述候选兴趣点对中的两个兴趣点的地址信息相似,或者,所述候选兴趣点对中的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
10.根据权利要求8所述的方法,其中,所述候选兴趣点对的特征向量包括所述候选兴趣点对中两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
11.根据权利要求10所述的方法,其中,所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
12.根据权利要求8所述的方法,其中,所述根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点包括:
对确定为同义兴趣点对的各候选兴趣点对包括的兴趣点,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,构建对应的标准兴趣点。
13.根据权利要求8所述的方法,其中,所述方法还包括预先生成所述预设分类器,所述预先生成所述预设分类器的步骤包括:
分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器;
其中,所述正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点;
所述负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
14.根据权利要求8所述的方法,其中,所述将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库之后,还包括:
对所述兴趣点库中的各标准兴趣点建立索引,结合所述兴趣点库构建支持在线查询的兴趣点库。
15.一种处理信息的方法,包括:
向服务器发送检索词,以指示所述服务器根据所述检索词中包括的兴趣点,在兴趣点库查询所述兴趣点对应的标准兴趣点;
接收所述服务器返回的所述标准兴趣点。
16.根据权利要求15所述的方法,其中,所述兴趣点库是预先根据标准兴趣点和同义兴趣点对生成的数据集,所述标准兴趣点根据确定为同义兴趣点对的各候选兴趣点对构建,所述同义兴趣点对基于候选兴趣点对的特征向量和预设分类器确定,所述候选兴趣点对包括两个兴趣点。
17.根据权利要求16所述的方法,其中,所述候选兴趣点对中的两个兴趣点之间的地址信息相似,或者,所述候选兴趣点对中的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
18.根据权利要求16所述的方法,其中,所述候选兴趣点对的特征向量包括所述两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
19.根据权利要求18所述的方法,其中,所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
20.根据权利要求16所述的方法,其中,所述标准兴趣点包括:
从确定为同义兴趣点对的各候选兴趣点对包括的兴趣点中,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,选出的兴趣点。
21.一种处理信息的装置,包括:
接收模块,用于接收客户端发送的检索词;
查询模块,用于根据所述检索词中包括的兴趣点,在兴趣点库中查询所述兴趣点对应的标准兴趣点;
发送模块,用于发送所述标准兴趣点至所述客户端。
22.一种处理信息的设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求1-7任一所述处理信息的方法。
23.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述处理信息的方法。
24.一种生成兴趣点库的装置,包括:
候选模块,用于对待处理的各兴趣点进行筛选,以获取一个或多个候选兴趣点对,所述候选兴趣点对包括两个兴趣点;
分类模块,用于基于所述候选兴趣点对的特征向量和预设分类器,确定所述候选兴趣点对是否为同义兴趣点对;
构建模块,用于根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点;
关联模块,用于将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库。
25.一种生成兴趣点库的设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求8-14任一所述生成兴趣点库的方法。
26.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如权利要求8-14中任一项所述生成兴趣点库的方法。
27.一种处理信息的装置,包括:
发送模块,用于向服务器发送检索词,以指示所述服务器根据所述检索词中包括的兴趣点,在兴趣点库查询所述兴趣点对应的标准兴趣点;
接收模块,用于接收所述服务器返回的所述标准兴趣点。
28.一种处理信息的设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求15-20任一所述处理信息的方法。
29.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如权利要求15-20中任一项所述处理信息的方法。
CN201811012481.2A 2018-08-31 2018-08-31 处理信息的方法、装置、设备和介质 Pending CN110874442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811012481.2A CN110874442A (zh) 2018-08-31 2018-08-31 处理信息的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811012481.2A CN110874442A (zh) 2018-08-31 2018-08-31 处理信息的方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN110874442A true CN110874442A (zh) 2020-03-10

Family

ID=69715835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811012481.2A Pending CN110874442A (zh) 2018-08-31 2018-08-31 处理信息的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN110874442A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001172A (zh) * 2020-08-25 2020-11-27 杭州橙鹰数据技术有限公司 识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2990966A1 (en) * 2014-09-01 2016-03-02 Mapquest Inc. Identifying points-of-interest using customized query prediction
US20160104195A1 (en) * 2009-06-29 2016-04-14 Google Inc. System and method of providing information based on street address
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN107656913A (zh) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 地图兴趣点地址提取方法、装置、服务器和存储介质
CN107798110A (zh) * 2017-11-01 2018-03-13 百度在线网络技术(北京)有限公司 兴趣点地址校验方法、装置、服务器及存储介质
CN108287843A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 一种兴趣点信息检索的方法和装置、及导航设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104195A1 (en) * 2009-06-29 2016-04-14 Google Inc. System and method of providing information based on street address
EP2990966A1 (en) * 2014-09-01 2016-03-02 Mapquest Inc. Identifying points-of-interest using customized query prediction
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN108287843A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 一种兴趣点信息检索的方法和装置、及导航设备
CN107656913A (zh) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 地图兴趣点地址提取方法、装置、服务器和存储介质
CN107798110A (zh) * 2017-11-01 2018-03-13 百度在线网络技术(北京)有限公司 兴趣点地址校验方法、装置、服务器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001172A (zh) * 2020-08-25 2020-11-27 杭州橙鹰数据技术有限公司 识别方法及装置

Similar Documents

Publication Publication Date Title
US20210365489A1 (en) Geo-fence based coordinate data processing method and apparatus, and computer device
US11550826B2 (en) Method and system for generating a geocode trie and facilitating reverse geocode lookups
CN109255564B (zh) 一种取件点地址推荐方法及装置
CN104572645B (zh) 兴趣点数据关联方法及装置
Han et al. A stacking-based approach to twitter user geolocation prediction
CN108628811B (zh) 地址文本的匹配方法和装置
CN112069276B (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN110990520B (zh) 一种地址编码方法、装置、电子设备和存储介质
US20120317087A1 (en) Location-Aware Search Ranking
CN110968654A (zh) 文本数据的地址类目确定方法、设备以及系统
CN112256817A (zh) 一种地理编码方法、系统、终端以及存储介质
CN113868351A (zh) 一种地址聚类方法、装置、电子设备及存储介质
Christen et al. A probabilistic geocoding system based on a national address file
CN111414357A (zh) 地址数据处理方法、装置、系统和存储介质
CN110795515A (zh) 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
Yin et al. Pinpointing locational focus in microblogs
CN115470307A (zh) 一种地址匹配方法及装置
CN111460044B (zh) 地理位置数据处理方法及装置
CN110874442A (zh) 处理信息的方法、装置、设备和介质
CN114513550B (zh) 一种地理位置信息的处理方法、装置及电子设备
CN114792091A (zh) 基于词汇增强的中文地址要素解析方法、设备及存储介质
CN114297235A (zh) 风险地址识别方法、系统及电子设备
CN112149005B (zh) 用于确定搜索结果的方法、装置、设备和可读存储介质
CN112287671A (zh) 基于simhash的地址解析方法及系统
CN115185986A (zh) 省市区地址信息匹配方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200310