CN111160471A - 一种兴趣点数据处理方法、装置、电子设备和存储介质 - Google Patents
一种兴趣点数据处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111160471A CN111160471A CN201911398021.2A CN201911398021A CN111160471A CN 111160471 A CN111160471 A CN 111160471A CN 201911398021 A CN201911398021 A CN 201911398021A CN 111160471 A CN111160471 A CN 111160471A
- Authority
- CN
- China
- Prior art keywords
- poi
- information
- target
- candidate
- father
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机技术领域,尤其涉及一种兴趣点数据处理方法、装置、电子设备和存储介质,用以提高兴趣点数据处理准确度与业务执行效率,其中,方法包括:获取目标业务的目标范围中目标POI以及目标POI对应的第一候选父POI的结构化信息,并分别输入已训练的第一网络模型,获得目标POI以及各第一候选父POI的层级语义表示信息;根据各第一候选父POI与目标POI的层级语义表示信息,确定各第一候选父POI为目标POI父POI的概率;根据概率确定目标POI与部分或全部第一候选父POI的层级关系;根据确定的层级关系执行目标业务的相关逻辑。由于层级语义表示信息含层级关系特征,使层级关系更准确,目标业务执行效率更高。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种兴趣点数据处理方法、装置、电子设备和存储介质。
背景技术
层级关系是POI(Point Of Interest,兴趣点)之间的基础属性关系,POI层级关系挖掘则是指识别出POI实体之间潜在的父子层级关系,对于补充商圈和AOI面、POI匹配等业务可提供重要手段。
常见的POI层级关系挖掘方法是通常分类器实现的。但是通过分类器的方式仅考虑了POI的文本语义信息,得到的POI层级不够精确,因而基于POI层级关系的相关业务在执行时效率也较低。
发明内容
本申请实施例提供一种兴趣点数据处理方法、装置、电子设备和存储介质,用以提高兴趣点数据处理的准确度与目标业务执行的效率。
本申请实施例提供的一种兴趣点数据处理方法,包括:
获取目标业务的目标范围中,目标兴趣点POI以及所述目标POI对应的至少一个第一候选父POI的结构化信息;
将所述目标POI的结构化信息输入已训练的第一网络模型,获得所述目标POI的层级语义表示信息,以及将每个第一候选父POI的结构化信息分别输入所述已训练的第一网络模型,获得所述每个第一候选父POI的层级语义表示信息;其中所述已训练的第一网络模型是根据已标注层级关系的第一训练样本得到的,所述第一训练样本包括具有兄弟关系的POI样本以及具有非兄弟关系的POI样本的结构化信息;
根据所述每个第一候选父POI的层级语义表示信息与所述目标POI的层级语义表示信息,确定所述每个第一候选父POI作为所述目标POI的父POI的概率;
根据所述每个第一候选父POI作为所述目标POI的父POI的概率,确定所述目标POI与部分或全部第一候选父POI之间的层级关系;
根据确定的层级关系执行所述目标业务的相关逻辑。
本申请实施例提供的一种兴趣点数据处理装置,包括:
获取单元,用于获取目标业务的目标范围中,目标兴趣点POI以及所述目标POI对应的至少一个第一候选父POI的结构化信息;
信息处理单元,用于将所述目标POI的结构化信息输入已训练的第一网络模型,获得所述目标POI的层级语义表示信息,以及将每个第一候选父POI的结构化信息分别输入所述已训练的第一网络模型,获得所述每个第一候选父POI的层级语义表示信息;其中,所述已训练的第一网络模型是根据已标注层级关系的第一训练样本得到的,所述第一训练样本包括具有兄弟关系的POI样本以及具有非兄弟关系的POI样本的结构化信息;
第一确定单元,用于根据所述每个第一候选父POI的层级语义表示信息与所述目标POI的层级语义表示信息,确定所述每个第一候选父POI作为所述目标POI的父POI的概率;
第二确定单元,根据所述每个第一候选父POI作为所述目标POI的父POI的概率,确定所述目标POI与部分或全部第一候选父POI之间的层级关系;
执行单元,根据确定的层级关系执行所述目标业务的相关逻辑。
在一种可选的实施方式中,所述第一确定单元具体用于:
针对任意一个第一候选父POI,将所述目标POI的层级语义表示信息和类目信息,所述任意一个第一候选父POI的层级语义表示信息和类目信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息输入已训练的第二网络模型,获得所述任意一个第一候选父POI作为所述目标POI的父POI的概率;
其中,所述已训练的第二网络模型是根据已标注概率的第二训练样本得到的,所述第二训练样本中包括POI样本的层级语义表示信息、类目信息以及POI样本之间的位置关系信息。
在一种可选的实施方式中,所述获取单元具体用于:
从所述目标POI的结构化文本中提取所述目标POI的属性信息,以及分别从所述每个第一候选父POI的结构化文本中提取所述每个第一候选父POI的属性信息;
将所述目标POI的属性信息输入已训练的BERT模型,获得与所述目标POI的结构化信息,以及将所述每个第一候选父POI的属性信息分别输入所述已训练的BERT模型,获得所述每个第一候选父POI的结构化信息。
在一种可选的实施方式中,结构化信息包含POI的结构化文本中每个属性信息的属性向量;所述已训练的第一网络模型包括知识注入层网络以及表示学习层网络;
所述信息处理单元具体用于:
基于所述知识注入层网络,对所述目标POI的结构化信息包含的每个属性向量进行加权求和得到所述目标POI的文本语义信息,以及对每个第一候选父POI的结构化信息包含的每个属性向量进行加权求和得到每个第一候选父POI的文本语义信息;
基于所述表示学习层网络,对所述目标POI的文本语义信息中的层级关系语义特征进行特征提取得到所述目标POI的层级语义表示信息,以及对每个第一候选父POI的文本语义信息中的层级关系语义特征进行特征提取得到每个第一候选父POI的层级语义表示信息。
在一种可选的实施方式中,所述已训练的第二网络模型包括相似度度量层网络与第一嵌入层网络;
所述第一确定单元具体用于:
基于所述相似度度量层网络,获取所述目标POI与所述任意一个第一候选父POI的层级语义表示信息之间的语义相似性信息;以及
基于所述第一嵌入层网络,获取所述目标POI与所述任意一个第一候选父POI的类目信息之间的类目差异信息;
根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
在一种可选的实施方式中,所述已训练的第二网络模型还包括第二嵌入层网络;
所述第一确定单元还用于:
在所述根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率之前,基于所述第二嵌入层网络,获取所述目标POI的连接关系信息与所述任意一个第一候选父POI的连接关系信息之间的结构差异信息;
所述第一确定单元具体用于:
根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,以及所述结构差异信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
在一种可选的实施方式中,所述第一确定单元还用于:
在所述根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率之前,将所述任意一个第一候选父POI的名称长度信息输入所述已训练的第二网络模型;
所述第一确定单元具体用于:
根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,以及所述任意一个第一候选父POI的名称长度信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
在一种可选的实施方式中,所述第一确定单元还用于:
在所述根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,以及所述结构差异信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率之前,将所述任意一个第一候选父POI的名称长度信息输入所述已训练的第二网络模型;
所述第一确定单元具体用于:
根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息、所述任意一个第一候选父POI的名称长度信息,以及所述结构差异信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
在一种可选的实施方式中,所述连接关系信息包括连接关系图;
所述第一确定单元还用于通过下列方式构建所述目标POI的连接关系图:
确定所述每个第一候选父POI中与所述目标POI的层级语义表示信息之间的相似度大于第一阈值的第一候选父POI;
将确定的第一候选父POI与所述目标POI相互连接,得到所述目标POI的连接关系图;或
通过下列方式构建所述任意一个第一候选父POI的连接关系图:
确定每个第二候选父POI中与所述任意一个第一候选父POI的层级语义表示信息之间的相似度大于第一阈值的第二候选父POI,其中第二候选父POI为所述任意一个第一候选父POI对应的候选父POI;
将确定的第二候选父POI与所述任意一个第一候选父POI相互连接,得到所述任意一个第一候选父POI的连接关系图。
在一种可选的实施方式中,所述层级语义表示信息为层级语义表示向量;
所述装置还包括第一训练单元;所述第一训练单元用于通过下列方式得到已训练的第一网络模型:
从所述第一训练样本中选取第一参考POI、与所述第一参考POI具有兄弟关系的正类POI、与所述第一参考POI具有非兄弟关系的负类POI,以及与所述第一参考POI具有非兄弟关系,且与所述负类POI具有非兄弟关系的双重负类POI;
将所述第一参考POI、正类POI、负类POI以及双重负类POI的结构化信息分别输入未训练的第一网络模型,获得所述第一参考POI、正类POI、负类POI以及双重负类POI的层级语义表示信息;
通过反向传播方法对所述未训练的第一网络模型中的参数进行优化,直至损失函数的变化量在允许的差距范围内为止,得到所述已训练的第一网络模型,以使具有兄弟关系的样本POI的层级语义表示信息之间的距离小于具有非兄弟关系的样本POI的层级语义表示信息之间的距离,且具有兄弟关系的样本POI的层级语义表示信息之间的最大距离不大于具有非兄弟关系的样本POI的层级语义表示信息之间的最小距离。
在一种可选的实施方式中,所述装置还包括第二训练单元;所述第二训练单元用于通过下列方式得到已训练的第二网络模型:
从所述第二训练样本中选取第二参考POI以及所述第二参考POI对应的至少一个目标候选父POI,其中,所述目标候选父POI中标注有所述目标候选父POI作为所述第二参考POI的父POI的概率;
针对任意一个目标候选父POI,将所述第二参考POI的层级语义表示信息和类目信息,所述任意一个目标候选父POI的层级语义表示信息和类目信息,以及所述任意一个目标候选父POI与所述第二参考POI的位置关系信息输入未训练的第二网络模型,获得所述任意一个目标候选父POI作为所述第二参考POI的父POI的概率;
通过优化算法对所述已训练的第二网络模型中的参数进行优化,使得每个目标候选父POI标注的概率与通过所述未训练的第二网络模型得到的概率的差值在允许的差距范围内为止,得到所述已训练的第二网络模型。
在一种可选的实施方式中,所述第二训练单元具体用于:
将所述第二参考POI的层级语义表示信息和类目信息,所述任意一个目标候选父POI的层级语义表示信息和类目信息,所述任意一个目标候选父POI与所述第二参考POI的位置关系信息,以及辅助参数输入未训练的第二网络模型,得到所述任意一个目标候选父POI作为所述第二参考POI的父POI的概率;
其中,所述辅助参数包括所述第二参考POI的连接关系信息与所述任意一个目标候选父POI的连接关系信息,以及所述任意一个目标候选父POI的名称长度信息中的一种或多种。
在一种可选的实施方式中,所述第二确定单元具体用于:
选取所述每个第一候选父POI中对应的概率最大的第一候选父POI;
若选取的第一候选父POI对应的概率大于第二阈值,则将选取的第一候选父POI作为所述目标POI的父POI。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种兴趣点数据处理方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种兴趣点数据处理方法的步骤。
本申请有益效果如下:
本申请实施例提供的兴趣点数据处理方法、装置、电子设备和存储介质,由于在训练第一网络模型时的训练样本中标注了样本POI之间的层级关系,通过已训练的第一网络模型实现了对POI的结构化信息更深层次的表示学习,使得POI的层级表示信息包含了丰富的层级语义特征,而不是只包含POI属性的文本语义特征,因而根据目标POI与第一候选父POI的层级语义表示信息得到的层级关系更加精确,提高兴趣点数据处理的精度。并且,在执行与POI层级关系相关的目标业务时,由于业务执行时依据层级关系更加精确,提高了目标业务执行的效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的应用场景的一个可选的示意图;
图2为本申请实施例提供的一种兴趣点数据处理方法的流程图;
图3为本申请实施例提供的一种第一网络模型的结构示意图;
图4A为本申请实施例提供的第一种第二网络模型的结构示意图;
图4B为本申请实施例提供的第二种第二网络模型的结构示意图;
图4C为本申请实施例提供的第三种第二网络模型的结构示意图;
图4D为本申请实施例提供的第三种第二网络模型的结构示意图;
图5为本申请实施例提供的一种可选的POI的连接关系图;
图6为本申请实施例中的一个可选的兴趣点数据处理的完整方法的时序流程示意图;
图7为本申请实施例中的一种第一网关设备的组成结构示意图;
图8为本申请实施例中的一种第二网关设备的组成结构示意图;
图9为应用本申请实施例的一种计算装置的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
POI:指地理信息系统中的某个地标,用以标示出该地所代表的旅游景点、各行各业商业机构(如加油站、超市、餐厅、酒店、便利店、医院等)、交通设施(如各式车站、停车场、限速标示)等处所。在本申请实施例中,兴趣点可以是地图服务上标注的兴趣点等,通常包含名称、地址、坐标、类别等属性信息,可用于表征地理空间上的任意实体,例如一个公交站、一栋大厦、一个商场等。
POI层级关系:是POI之间的基础属性关系,不仅能满足用户查询POI时的基础诉求,而且能够优化在线电子地图的检索过程和显示效果。另外,层级关系还代表了城市细胞POI之间的依存关系,对智慧城市的研究也具有重要意义。在本申请实施例中,POI的层级关系主要指POI本身的类别之间的层级关系,包含父子两级,也就是指父子关系。例如某眼镜店的第一级类别为购物服务,第二级为专卖店,第三级为眼镜店。由于POI所代表的实体大小和等级不同,因此其也存在层级关系,例如A茶饮(B城店)属于B城的子POI。
目标业务:指与POI层级关系相关或依赖POI层级关系实现的业务。例如用户的POI到访、POI知识图谱、城市用户画像、商圈画像、商圈挖掘等业务都可以指本申请实施例中的目标业务。POI层级关系对目标业务的执行具有较大的意义。
AOI(Area of Interest,兴趣面):具有形状边界的兴趣面,是POI的具象表示。一般用来表示具有一定范围大小的场景,例如学校、公园、购物中心等。
地理网格编码:地理网格编码是根据点的经纬度坐标属性信息对其进行分组和索引,根据不同的编码精度可以对POI点产生不同地理网格编码。例如,编码精度为0.01度,则经度位于113.50°~113.51°,纬度位于22.00°~22.01°之间的POI点将产生相同的网格编码。
地理临近计算:根据POI坐标快速获取其一定距离范围内的其他POI点,其实现依赖于地理网格编码。例如具有相同网络编码的POI属于临近POI,也称邻居POI。
语义:语言所蕴含的信息就是语义。符号是语言的载体,符号本身没有意义,只有被赋予含义的符号才能够被使用,这时候语言被转化为信息,而语言的含义就是语义(Semantic)。在本申请实施例中POI的语义分为浅层语义和层级语义。浅层语义主要指POI结构化文本中的上下文语义特征等;层级语义则包含POI层级关系的语义特征。
BERT(Bidirectional Encoder Representation Transformers,Transformer的双向编码器表示算法)模型:其通过联合调节所有层中的上下文来预先训练深度双向表示,在大量的句子级任务上实现了最先进的性能,强于许多面向特定任务体系架构的系统。已训练的BERT模型表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。经过大量文本语料库已训练的BERT模型可以用于输出给定的短语、句子的向量化表示。在本申请实施例中,通过已训练的BERT模型则可对POI结构化文本中的属性信息向量化表示,得到POI的浅层语义特征。
孪生神经网络(Siamese Network),用于衡量两个输入的相似程度。孪生神经网络有两个输入(Input1 and Input2),将两个输入feed(喂)进入两个神经网络(Network1 andNetwork2),这两个神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示。通过Loss(损失)的计算,评价两个输入的相似度。两个神经网络分别将输入转换成一个向量,在新的空间中,通过判断cosine(余弦)距离、欧式距离等就能得到相似度了。训练的目标是让两个相似的输入距离尽可能的小,两个不同类别的输入距离尽可能的大。其中,Network1 and Network2共享权值,或者,孪生神经网络也可以是一个神经网络,例如仅有Network1或仅有Network2。
层级语义表示信息:指包含POI的层级语义特征的表示信息,在本申请实施例中,层级语义表示信息可以是向量的形式,也就是层级语义表示向量,通过余弦距离(也称为余弦相似度)、欧式距离等方式,则可计算两个POI的层级语义表示信息的相似度。其中,余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫余弦相似性。
度量学习(Metric learning):是广泛用于图像检索领域的一种方法。不同于表征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片(正样本对)的距离尽可能小,不同行人图片(负样本对)的距离尽可能大。在本申请实施例中,则可通过度量学习的方式实现POI的层级语义表示信息的学习,通过度量学习的方式学习两个POI之间的层级关系,使得兄弟POI的层级语义表示信息尽可能相似,非兄弟POI的层级语义表示信息的相似度尽可能小于兄弟POI的层级语义表示信息之间的相似度。
结构化信息:是指信息经过分析后可分解成多个互相关联的组成部分,每个组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。在本申请实施例中,POI的结构化信息中多个相互关联的组成部分则指POI的各属性信息,包括:名称、地址、行政区、名称地标、地址地标等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请实施例中提出的兴趣点数据处理方法中的第一网络模型、第二网络模型以及BERT模型等都属于机器学习模型,这些模型就涉及到机器学习这一技术领域,通过机器学习这一技术可训练得到上述模型。其中,BERT模型可基于POI的属性信息得到POI的结构化信息;第一网络模型可基于POI的结构化信息通过第一网络模型得到POI的层级语义表示信息;第二网络模型可基于POI的层级语义表示信息、类目信息、位置关系信息、连接关系信息、名称长度信息等得到某一POI作为另一POI的父POI的概率。
下面对本申请实施例的设计思想进行简要介绍:
在确定POI层级关系时,采用分类器的方法最主要的问题是未能聚焦于决定POI层级关系的属性,例如名称和地址中的地标等关键信息。POI的各项属性对于区分POI层级关系的重要性是不一样的,且某一个属性中的不同词也发挥着不等价的作用。这种方法未能将注意力聚焦于影响POI层级关系的重要属性,因此效果也不佳。
此外,相关技术中还有以下两种方式可用于确定POI的层级关系:
一、基于规则的方法。该方法通过对两个POI之间的多个因素进行规则匹配,并为不同的因素赋予不同的匹配评分权重,通过加权得到综合匹配评分,并通过阈值判断两个POI是否满足父子关系。
然而,这种方法需要大量的人工经验知识,对于各项规则的设定较为主观,且规则库很大程度上受限于人的观测样本和积累的经验,过于单薄,会存在大量的父子关系对未能识别出来的情况,召回率低。进而使得基于POI层级关系的相关业务执行效率较低。
二、基于知识图谱嵌入的方法。该方法通过大量局部已知元组之间关系,来学习实体和关系的层级语义表示向量,进而可用于预测图谱中未知的元组关系,但是该方法未能利用POI的属性信息,且对于新的POI实体难以学习表示向量,因此难以挖掘未知POI之间的层次关系。
有鉴于此,本申请实施例提出了一种兴趣点数据处理方法,考虑到兄弟POI的名称和地址属性存在很强的相似性,因而构建了用于提取POI层级语义特征的第一网络模型,在第一网络模型的训练样本中包括具有兄弟关系的POI样本,以及具有非兄弟关系的POI样本,以充分学习POI的层级关系语义特征,并且充分利用了POI的属性信息。基于机器学习的方式对POI的层级关系语义特征进行学习,不需要人为设定匹配规则,不受人为主观意识的影响,且网络模型适用于所有的POI层级关系的学习,不会出现大量父子关系对未能识别出来的情况。并且,基于层级语义表示信息确定的层级关系更加准确,因而提高了目标业务执行的效率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器130,可通过终端设备110登录目标业务执行的相关界面120。终端设备110与服务器130之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
在本申请实施例中,终端设备110为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器130连接,服务器130是一台服务器或若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台。
可选地,服务器130还可以具有兴趣点数据库,该兴趣点数据库可以存储大量兴趣点以及包含兴趣点的名称、地址、类别等属性信息的结构化文本等。
本申请实施例中,当终端设备110向服务器130请求执行与兴趣点相关的目标业务时,服务器130可以根据兴趣点的结构化信息得到兴趣点的层级语义表示信息,从而精确地识别兴趣点之间的层级关系,并基于识别出的层级关系,得到相应的目标业务执行结果,提供给终端设备110。
本申请实施例提供的兴趣点数据处理方法可以应用在多种实际应用场景,例如可以应用在地图导航的场景中:用户想要前往某一兴趣点时,经常面临用户并不清楚兴趣点的精确名称,只模糊地知道兴趣点隶属的父点的名称的情况。为此,服务器130则可根据层级关系,确定与该父点具有父子关系的子点。在该场景下,目标业务则主要指导航业务,此外还可根据用户输入的关键词进行兴趣点的推荐。
当目标业务为构建POI知识图谱时,例如用户想要构建A城市B区的知识图谱,B区为商业区,主要包括A大厦、B大厦、C购物中心、D商场等,根据本申请实施例中的方法则可确定A大厦、B大厦、C购物中心、D商场为B区的子POI,进一步A大厦的子POI还包括A1奶茶店、A2快餐店等,同理B大厦、C购物中心、D商场也可确定,进而根据POI层级关系构建POI知识图谱。
需要说明的是,上述两个终端设备只是举例说明,在本申请实施例中实际一般可涉及若干终端设备。
参阅图2所示,为本申请实施例提供的一种兴趣点数据处理方法的实施流程图,该方法的具体实施流程如下:
S21:获取目标业务的目标范围中,目标兴趣点POI以及目标POI对应的至少一个第一候选父POI的结构化信息;
其中,目标业务可以是导航业务,商圈挖掘业务,POI知识图谱构建业务等。
以目标业务为商圈挖掘或商圈画像业务为例,若用户选定的某一商场,则目标范围可以是该商场为中心向四周辐射至可能来店购买的消费者所居住的地点;以目标业务为导航为例,则目标范围指用户输入的起点至终点这两个地点所对应的线路可覆盖的范围等;以目标业务为POI知识图谱构建为例,若用户想要构建某一学校的POI知识图谱时,则目标范围则是指该学校所覆盖的范围,若用户想要构建某一旅游景点的POI知识图谱时,则目标范围则是指该旅游景点所覆盖的范围等,也可包括学校或旅游景点邻近的区域,例如学校周围地铁站等,旅游景点周围旅馆等。
其中,目标POI可以根据用户搜索输入的关键词确定,例如在导航业务中,目标兴趣点可以是用户输入的起点或者终点等;在商圈挖掘或商圈画像业务中,目标兴趣点可以是用户选定的某一商场,或者是商场中的某一店铺等;在POI知识图谱构建业务中,目标兴趣点则可以是学校中的某一建筑物等。
在本申请实施例中,考虑到POI的分布具有极强的空间异质性和地理相关性,相同场景单元下的POI通常集聚分布,挖掘成簇分布的兄弟POI对于刻画其所在的父POI的边界具有辅助作用。因而选取目标POI对应的至少一个第一候选父POI时,可与目标POI之间在位置上具有一定关联的POI。
一种可选的实施方式为,选取与目标POI的距离在指定范围内的部分或全部POI作为目标POI对应的第一候选父POI。
例如,基于地理网格编码来选取,针对某一目标POI,则可选取与该目标POI的地理网格编码相同的POI作为目标POI的第一候选父POI;或者,通过地理临近计算搜索其临近范围内的第一候选父POI。
上述实施方式,基于地理网格编码等方式选取集聚分布的兴趣点,挖掘成簇分布的兄弟POI对于刻画其所在的父POI的边界具有辅助作用。
针对目标POI以及第一候选父POI中的任意一个,在获取POI的结构化信息时,可通过已训练的BERT模型来提取。
具体的:从目标POI的结构化文本中提取目标POI的属性信息,将目标POI的属性信息输入已训练的BERT模型,获得目标POI的结构化信息;以及分别从每个第一候选父POI的结构化文本中提取各自的属性信息,将每个第一候选父POI的属性信息分别输入已训练的BERT模型,获得每个第一候选父POI的结构化信息。
其中,POI结构化文本中的属性信息包括但不限于下列的部分或全部:
行政区、POI名称、POI名称地标、POI地址、POI地址地标。
在本申请实施例中,POI名称地标指POI名称中包含的地标,POI地址地标指POI地址中包含的地标,POI名称地标和POI地址地标可通过正则表达式粗略提取,该提取结果不必完全精确,仅作为辅助信息。例如,名称为:口岸X旅行社有限公司(市民中心营业部),从中提取出的名称地标为:市民中心,地址为:益田路X大厦A座816,从中提取出的地址地标为:X大厦。
可选的,POI的结构化信息可以是向量的形式,表示为结构化向量,结构化向量中包含各属性信息对应的属性向量。通过将POI的名称、地址、类型等属性信息向量表示后,将属性向量合并抽象可得到一个高维表示向量,也就是结构化向量。
例如,基于已训练的BERT模型提取POI行政区、POI名称、POI名称地标、POI地址、POI地址地标等关键短句的向量表示,得到各属性信息对应的属性向量,分别记为v1、v2、v3、v4和v5。
上述实施方式中,BERT模型可通过在新闻类等海量中文语料库中的样本训练得到,已训练的BERT模型适用于广泛任务的最先进模型的构建,无需针对具体任务做大幅架构修改。由BERT模型提取到的结构化向量本身并不包含POI是否为兄弟关系这一领域的信息,因此对于区分兄弟POI这一任务而言,其仅包含文本层面的浅层语义信息,同时不同属性信息的字段对于区分POI是否同组具有不同的贡献度,因而则需要基于POI结构化信息,进一步对POI的层级语义特征进行学习。
在本申请实施例中位于同一组的POI具有兄弟关系,也就是兄弟POI;位于不同组的POI具有非兄弟关系,也就是不具有兄弟关系。
需要说明的是,本申请实施例中所列举的BERT模型也可替换为其他可实现浅层语义特征提取的模型,例如Word2Vec等词向量模型。
上述实施方式中,POI的各项属性对于区分POI关系的重要性是不一样的,且某一个属性中的不同词也发挥着不等价的作用。由于结构化信息是基于POI的各属性信息得到的,因而可以充分考虑POI的各项关键属性,以便提高层级语义特征提取的准确性。
S22:将目标POI的结构化信息输入已训练的第一网络模型,获得目标POI的层级语义表示信息,以及将每个第一候选父POI的结构化信息分别输入已训练的第一网络模型,获得每个第一候选父POI的层级语义表示信息;
其中,已训练的第一网络模型是根据已标注层级关系的第一训练样本得到的,第一训练样本包括具有兄弟关系的POI样本以及具有非兄弟关系的POI样本的结构化信息。
在一种可选的实施方式中,层级语义表示信息也可以是向量的形式,表示为层级语义表示向量;通过下列方式得到已训练的第一网络模型:
从第一训练样本中选取第一参考POI、与第一参考POI具有兄弟关系的正类POI、与第一参考POI具有非兄弟关系的负类POI,以及与第一参考POI具有非兄弟关系,且与所述负类POI具有非兄弟关系的双重负类POII;将第一参考POI、正类POI、负类POI以及双重负类POI的结构化信息分别输入未训练的第一网络模型,获得第一参考POI、正类POI、负类POI以及双重负类POI的层级语义表示信息;
通过反向传播方法对未训练的第一网络模型中的参数进行优化,直至损失函数的变化量在允许的差距范围内为止,得到已训练的第一网络模型,以使具有兄弟关系的样本POI的层级语义表示信息之间的距离小于具有非兄弟关系的样本POI的层级语义表示信息之间的距离,且具有兄弟关系的样本POI的层级语义表示信息之间的最大距离不大于具有非兄弟关系的样本POI的层级语义表示信息之间的最小距离。
在本申请实施例中,第一参考POI为从第一训练样本中随机选取的一个样本POI,正类POI则表示与第一参考POI位于同一组的,也就是具有兄弟关系的样本POI,负类POI则表示与第一参考POI位于不同组的,即具有非兄弟关系的样本POI。
其中,双重负类POI,则表示既不与第一参考POI位于同一组,也不与负类POI位于同一组的样本POI。
可选的,损失函数为通过第一参考POI、正类POI、负类POI以及双重负类POI的层级语义表示信息确定的四元组损失函数。
下面对第一网络模型的训练过程进行举例说明:
如图3所示,为本申请实施例提供的一种第一网络模型的结构示意图,第一网络模型为POI语义表示学习网络(PSRL-Net,POI Semantic Representation LearningNetwork),用于学习POI的层级关系语义,包括知识注入层以及表示学习层两部分。
在优化训练时,从第一训练样本的三个不同组中选取4个POI,例如,第一参考POIa1和正类POI a2均属于同一组(A组),负类POI b和双重负类POI c分别属于B组和C组。这4个POI的结构化向量经过第一网络模型的前向传播后可得到新的表示向量,也就是层级语义表示向量,记为v′b和v′c。
第一网络模型优化的目标就是要让同一组POI的层级语义表示向量的距离(例如和)尽可能地近,不同组POI的层级语义表示向量(例如和v′b,v′b和v′c等)的距离尽可能地远。在本申请实施例中,距离度量方法为欧式距离,优化的损失函数为Quadruplet Loss(四元组损失函数),其具体表达式如下:
L(xr,xp,xn,xn2)=max(0,Dr,p-Dr,n+m1)+max(0,Dr,p-Dn,n2+m2)
其中,xr表示第一参考POI的层级语义表示向量,也就是上述实施例中的xp为正类,即与第一参考POI同一组的样本POI的层级语义表示向量,也就是xn为负类,即与第一参考POI不同组的样本POI的层级语义表示向量,也就是v′b;xn2为双重负类,即与第一参考POI不同组且与负类POI不同组的样本POI的层级语义表示向量,也就是v′c。此处POI同组等价于POI互相为兄弟关系,不同组等价于互相为非兄弟关系。Dr,p为xr和xp之间的距离;Dr,n为xr和xn之间的距离;Dn,n2为xn和xn2之间的距离;m1和m2分别为超参数,代表距离间隔,表示两者距离之差至少应该相差多少。例如,当m1=0.2时,如果Dr,n-Dr,p≥0.2,则损失函数第一项为0,否则不为0。不难发现,距离间隔的引入使得两个距离值之间存在一定的差距,可分性更强。
在本申请实施例中,Quadruplet Loss包含两项,其中第一项为:max(0,Dr,p-Dr,n+m1),优化目标是使得同组POI的层级语义表示向量之间的距离小于不同组POI的层级语义表示向量之间的距离;第二项为:max(0,Dr,p-Dn,n2+m2),使得第一参考POI与正类POI的层级语义表示向量之间的距离小于两个不同组的负类POI的层级语义表示向量之间的距离,也就是使组内POI的层级语义表示向量之间的距离尽可能地小于任意组间POI的层级语义表示向量之间的距离,即组内最大距离不大于组间最小距离,这一项的引入可以使得表示学习后的层级语义表示向量分布更紧密成簇。
上述实施方式中,通过度量学习为学习POI层级语义表示向量,为层级关系识别提供了优化方向,训练得到的第一网络模型结构简洁且效率更高。并且,通过四元组损失函数对第一网络模型进行优化,使得第一网络模型更加收敛,通过第一网络模型得到的层级语义表示信息包含POI的层级关系语义,且学习得到的层级语义表示信息为向量表示时,分布更紧密成簇,以便提高层级关系识别的准确度。
下面以图3所示的第一网络模型为例,对第一模型的使用过程进行详细介绍:
基于第一网络模型中的知识注入层网络,对目标POI的结构化信息包含的每个属性向量进行加权求和得到目标POI的文本语义信息,以及对每个第一候选父POI的结构化信息包含的每个属性向量进行加权求和得到每个第一候选父POI的文本语义信息;
基于第一网络模型中的表示学习层网络,对目标POI的文本语义信息中的层级关系语义特征进行特征提取得到目标POI的层级语义表示信息,以及对每个第一候选父POI的文本语义信息中的层级关系语义特征进行特征提取得到每个第一候选父POI的层级语义表示信息。
其中,采用知识注入层对每个POI的多个属性向量进行线性加权求和,等价于对不同的属性施加不同大小的注意力。在相关技术中的规则匹配方法中,加权求和的权值通过人为经验赋予的,而本申请实施例中的权值(α1、α2、α3、α4和α5)是通过网络反向传播学习得到。
对于任意一个POI,文本语义信息也可用向量表示,表示为文本语义向量,如下式所示:
v=α1v1+α2v2+α3v3+α4v4+α5v5。
其中,v1、v2、v3、v4和v5为POI的五个属性向量,α1、α2、α3、α4和α5为各属性向量对应的权值。通过对各属性向量进行线性加权求和则可得到各POI的文本语义向量v。
在通过知识注入层网络加权求和得到的POI文本语义向量v后,经过表示学习层,得到POI新的表示向量,也就是层级语义表示向量v′,该表示向量在学习时是基于POI是否同组这一任务去优化的,因此包含可用于区分POI是否同组的层级语义信息。表示学习层为一层全连接层,因此第一网络模型的总的参数量约为输入的POI结构化向量的维度与输出的POI层级语义表示向量v′的维度的乘积。
上述实施方式中,考虑到兄弟POI的名称和地址等属性存在很强的相似性;通过提取POI的名称、地址、行政区、名称地标、地址地标等属性信息,基于已训练的BERT模型提取这些属性的向量化表示,构建POI语义表示学习网络,采用Quadruplet Loss进行优化,进而学习每个POI的层级语义表示向量,实现了POI层级语义的特征提取,而不仅仅是POI的文本语义特征,因而基于POI的层级语义表示信息可以得到更加准确的层级关系。
S23:根据每个第一候选父POI的层级语义表示信息与目标POI的层级语义表示信息,确定每个第一候选父POI作为目标POI的父POI的概率;
可选的,在确定概率时,还可通过分类器实现,输入为POI 1、POI 2的层级语义表示向量的向量对,输出为POI 2作为POI 1的父POI的概率。
在分类器训练过程中,POI 2是POI 1的父POI则这个向量对是正样本,如果POI 2不是POI 1的父POI则是负样本。在分类器训练过程中,正负样本的构建可以在数据集里面随机采样形成POI 1、POI 2的向量对集合,然后人工标注其是正样本还是负样本。
S24:根据每个第一候选父POI作为目标POI的父POI的概率,确定目标POI与部分或全部第一候选父POI之间的层级关系;
在一种可选的实施方式中,根据每个第一候选父POI作为目标POI的父POI的概率,选取其中对应的概率最大的第一候选父POI;判断概率最大值是否大于第二阈值。
若选取的第一候选父POI对应的概率大于第二阈值,则将第一候选父POI作为目标POI的父POI。
例如,目标POI对应一个候选父POI集合,集合中有5个第一候选父POI,判断该POI集合内所有第一候选父POI作为目标POI的父POI的概率,假设对应的概率分别为0.2、0.3、0.4、0.35、0.55,筛选出概率最大的POI为第五个第一候选父POI,假设第二阈值为0.5,则表示第五个第一候选父POI为目标POI的父POI。
若选取的第一候选父POI对应的概率不大于第二阈值,则确定目标POI没有父POI。
可选的,若第一候选父POI中没有目标POI的父POI时,这些第一候选父POI有可能为目标POI的兄弟POI,也有可能不是目标POI的兄弟POI,而是一些其他不相关的POI,可根据目标POI与第一候选父POI的层级语义表示向量之间的距离作判断,由于第一网络模型输出的层级语义表示向量对于兄弟POI来说距离较小,对于非兄弟POI来说距离较大,因而可进一步设置第三阈值和第四阈值,其中第四阈值大于等于第三阈值。
若目标POI与第一候选父POI的层级语义表示向量之间的距离小于第三阈值,则可确定目标POI与第一候选父POI为兄弟POI;若目标POI与第一候选父POI的层级语义表示向量之间的距离大于第四阈值,则可确定目标POI与第一候选父POI为非兄弟POI,即目标POI与第一候选父POI的父POI不相同。
假设第二阈值为0.6,目标POI对应的5个第一候选父POI中概率最大为0.55,则没有目标POI的父POI,此时则可根据目标POI与各第一候选父POI的层级语义表示向量之间的距离来判断。
假设目标POI与这5个第一候选父POI的层级语义表示向量之间的距离分别为d1~d5,其中d1<d2<d3<d4<d5,假设第d3<第三阈值,d4>第四阈值,则第一个至第三个第一候选父POI为目标POI的兄弟POI;第四个与第五个第一候选父POI为目标POI的目标POI的非兄弟POI。
S25:根据确定的层级关系执行目标业务的相关逻辑。
假设目标业务为导航业务,则相关逻辑为根据确定的POI层级关系规划导航路线,此外,还可依据POI层级关系向用户进行推荐,推荐目标点附近的一些兴趣点,例如某一地铁站附近的奶茶店,咖啡店等;假设目标业务为商圈挖掘,则相关逻辑为根据确定的POI层级关系补充商圈、挖掘可能来店购买的消费者所居住的地点等;假设目标业务为POI知识图谱构建,则相关逻辑为根据确定的POI层级关系构建知识图谱,等。
上述实施例中,通过上述方法可以提高POI层级关系识别的准确率,基于上述方法执行目标业务相关逻辑时,则可减少出错,提高目标业务执行的效率。
在一种可选的实施方式中,根据每个第一候选父POI的层级语义表示信息与目标POI的层级语义表示信息,确定每个第一候选父POI作为目标POI的父POI的概率时,可基于已训练的第二网络模型来实现,其中第二网络模型为POI层级关系分类网络(PHRC-Net,POIHierarchical Relation Classification Network),基于PHRC-Net可评估任意两个POI之间的父子关系评分,得到一个POI作为另一个POI的父POI的概率。具体过程如下:
针对任意一个第一候选父POI,将目标POI的层级语义表示信息和类目信息,任意一个第一候选父POI的层级语义表示信息和类目信息,以及目标POI与任意一个第一候选父POI之间的位置关系信息输入已训练的第二网络模型,获得任意一个第一候选父POI作为目标POI的父POI的概率;
其中,已训练的第二网络模型是根据已标注概率的第二训练样本得到的,第二训练样本中包括POI样本的层级语义表示信息、类目信息以及POI样本之间的位置关系信息。
其中,第二网络模型的输入参数是以POI对的方式实现的,如图4A所示,为本申请实施例提供的一种第二网络模型的结构示意图。其中POI 1及POI 2组成一个POI对,图4A所示的第二网络模型包括相似度度量层网络、第一嵌入层网络,第二网络模型的输入参数包括层级语义表示向量、类目向量和空间距离三部分。其中空间距离即为上述实施例中POI之间的位置关系信息,除了直接输入两个POI的空间距离,也可将两个POI的地址或地址地标等信息作为输入,进而根据两个POI的地址或地址地标等信息计算两个POI的空间距离。
其中,在确定两个POI之间的位置关系信息时,可根据两个POI的经纬度坐标信息来确定;POI的类目向量是POI类别的文本向量,可通过BERT模型Word2Vec等模型得到。
假设POI 1为目标POI,POI 2为其中一个第一候选父POI,则层级语义表示向量包括POI 1的层级语义表示向量与POI 2的层级语义表示向量;类目向量包括POI 1的类目向量与POI 2的类目向量。
在本申请实施例中,基于相似度度量层网络,对POI 1与POI 2的层级语义表示向量的进行处理,则可获取POI 1与POI 2的语义相似性信息。以及,基于第一嵌入层网络,对POI 1与POI 2的类目向量进行处理,则可POI 1与POI 2的类目差异信息。
进一步,根据获取到的POI与POI 2的语义相似性信息、类目差异信息以及位置关系信息,则可确定POI 2作为POI 1的父POI的概率。
针对任意一个第一候选父POI,都执行上述处理过程,则可获取目标POI与该第一候选父POI的层级语义表示信息之间的语义相似性信息,目标POI与该第一候选父POI的类目信息之间的类目差异信息;进而再结合目标POI与该第一候选父POI之间的位置关系信息,则可确定该第一候选父POI作为目标POI的父POI的概率。
上述实施方式中,在确定两个POI之间具有父子关系的概率时,除了POI的层级语义表示信息外,又进一步考虑了POI的类目信息,位置关系信息,将这些与POI层级关系特征密切相关的信息相结合,基于第二网络模型来确定概率,进一步提高了层级关系识别的准确度。
可选的,第二网络模型的输入参数除了上述三部分外还可包括第四部分与第五部分中的任意一部分,或者两部分都包括。其中第四部分为:任意一个第一候选父POI的名称长度信息;第五部分为:目标POI的连接关系信息与任意一个第一候选父POI的连接关系信息。
当第二网络模型的输入参数除上述三部分外,还包括第四部分时,其结构图如图4B所示,此时,在确定每个第一候选父POI作为目标POI的父POI的概率时,具体是:根据获取的语义相似性信息、类目差异信息、目标POI与每个第一候选父POI之间的位置关系信息,以及每个第一候选父POI的名称长度信息,确定每个第一候选父POI作为目标POI的父POI的概率。
在图4B中,以目标POI为POI 1,其中一个第一候选父POI作为POI 2为例。在确定概率时,首先还是基于相似度度量层得到POI 1与POI 2的语义相似性信息,基于第一嵌入层得到POI 1与POI 2的类目差异信息。进一步,根据获取到的语义相似性信息、结构差异信息、POI 1与POI 2的空间距离,以及POI 2的名称长度信息确定POI 2作为POI 1的父POI的概率。
可选的,当第二网络模型的输入参数除上述三部分外,还包括第五部分时,第二网络模型还包括第二嵌入层网络,一种可选的结构图如图4C所示。其中第二嵌入层网络用于根据目标POI与每个第一候选父POI的连接关系信息确定目标POI与每个第一候选父POI之间的结构差异信息。
在确定每个第一候选父POI作为目标POI的父POI的概率时,则是根据获取的语义相似性信息、类目差异信息、目标POI与每个第一候选父POI之间的位置关系信息,以及目标POI与每个第一候选父POI的结构差异信息确定的。
在图4C中,以目标POI为POI 1,其中一个第一候选父POI作为POI 2为例。在确定概率时,首先还是基于相似度度量层得到POI 1与POI 2的语义相似性信息,基于第一嵌入层得到POI 1与POI 2的类目差异信息,并基于第二嵌入层得到POI 1与POI 2的结构差异信息。进一步,根据获取到的语义相似性信息、类目差异信息、结构差异信息,以及POI 1与POI2的空间距离,确定POI 2作为POI 1的父POI的概率。
可选的,第二网络模型的输入参数除了上述三部分外,既包括第四部分又包括第五部分时,则在确定概率时,需要根据获取的语义相似性信息、类目差异信息、结构差异信息,以及输入的目标POI与每个第一候选父POI之间的位置关系信息、每个第一候选父POI的名称长度信息,确定每个第一候选父POI作为目标POI的父POI的概率。此时,第二网络模型一种可选的结构如图4D所示。
在图4D中,以目标POI为POI 1,其中一个第一候选父POI作为POI 2为例。在确定概率时,首先还是基于相似度度量层得到POI 1与POI 2的语义相似性信息,基于第一嵌入层得到POI 1与POI 2的类目差异信息,并基于第二嵌入层得到POI 1与POI 2的结构差异信息。进一步,根据获取到的语义相似性信息、类目差异信息、结构差异信息,以及输入的POI1与POI 2的空间距离、POI 2的名称长度信息,确定POI 2作为POI 1的父POI的概率。
在本申请实施例中,名称长度信息以及空间距离可以是一个具体的数据,例如两个POI之间的距离为10米时,则输入的第一位置关系信息可以是数值10,或者是二进制编码数据10010等表示形式;POI的名称长度信息也可以是一个具体的数值,例如某一POI的名称为某某大学,则名称长度信息可表示为数值4,或者二进制编码数据00100等;类目向量则是通过对POI的类别进行编码或语义特征提取等得到的向量表示。
需要说明的是,在本申请实施例中图4A至图4D所示的第二网络模型的输出为概率,概率值的取值范围在0~1之间,图中所示的0/1表示根据概率确定的某一第一候选父POI是否为目标POI的父POI的标记,若某一第一候选父POI是目标POI的父POI,则可标记为1,若不是,则标记为0。
可选的,连接关系信息可以是连接关系图的形式,一种可选的构建目标POI的连接关系图的方式为:
确定每个第一候选父POI中与目标POI的层级语义表示信息之间的相似度大于第一阈值的第一候选父POI;将确定的第一候选父POI与目标POI相互连接,得到目标POI的连接关系图。
其中,层级语义表示信息之间的相似度可以通过余弦相似度、Pearson(皮尔逊)相关系数、欧式距离等方法计算,下面以余弦相似度为例进行详细介绍:
在本申请实施例的POI连接关系图中,与其他POI连接越多(即度数高)的POI作为父POI的潜力更高,反之更低。因此基于已训练好的PSRL-Net学习得到任意POI的包含层级语义信息的层级语义表示向量,并计算某个目标POI与其邻近范围内所有第一候选父POI之间的余弦相似度,并设定余弦相似度大于第一阈值t的POI对之间相互连接。
上述实施例中,采用构建POI连接关系图的方式,通过POI之间的连接的度数,提取POI节点特征,结合POI对之间的空间距离、层级语义表示信息等,提高POI之间的层级关系识别的精确度。
例如,目标POI A有10个第一候选父POI,分别为POI A1~POI A10,这10个第一候选父POI与目标POI的层级语义表示向量之间的余弦相似度分别为0.98、0.707、0.8、0.56、0.5、0.63、0.95、0.64、0.1、0.2,假设第一阈值t=0.6,则可连接POI A与POI A1,POI A与POI A2,POI A与POI A3,POI A与POI A6,POI A与POI A7之间相互连接,POI A与POI A8之间相互连接,如图5所示。
同样的,在构建任意一个第一候选父POI的连接关系图时,也可采用同样的方式,具体过程如下:
针对任意一个第一候选父POI,确定每个第二候选父POI中与该第一候选父POI的层级语义表示信息之间的相似度大于第一阈值的第二候选父POI,其中第二候选父POI为该第一候选父POI对应的候选父POI;将确定的第二候选父POI与该第一候选父POI相互连接,得到该第一候选父POI的连接关系图。
可选的,第二候选父POI为与第一候选父POI的距离在指定范围内的POI,例如与第一候选父POI的地理网格编码相同的POI。
假设,第一候选父POI为POI A3,POI A3有10个第二候选父POI,分别为POI B1~POI B10,这10个第二候选父POI与第一候选父POIA3的层级语义表示向量之间的余弦相似度分别为0.23、0.77、0.59、0.83、0.516、0.57、0.23、0.64、0.18、0.97,假设第二阈值t=0.6,则可连接POI A3与POI B2,POI A与POI B4,POI B与POI B8,POI B与POI B10之间相互连接。因为第一候选父POI A3与目标POI A的距离较近,其余第一候选父POI与目标POI A的距离也较近,因而,POI B1~POI B10中有可能会与POI A及POI A1~POI A10中的部分POI是同一个,这里不再详细说明。
在一种可选的实施方式中,根据POI的连接关系图确定两个POI之间的结构差异信息时,可统计每个POI节点与其邻居节点(也就是对应的候选父POI节点)的层级语义表示信息的相似度,将相似度的均值作为其结构属性。POI 1结构属性与POI 2结构属性之差作为两个POI的结构差异信息。
例如,POI 1为POI A,POI 2为POI A3,则POI A的结构属性=(0.98+0.707+0.8+0.56+0.5+0.63+0.95+0.64+0.1+0.2)/10=0.0587;POI A3的结构属性=(0.23+0.77+0.59+0.83+0.516+0.57+0.23+0.64+0.18+0.97)/10=0.0526;POI A与POI A3的结构差异为0.0061,结构化属性信息可以是数值形式0.0061,或者编码形式等表示。
需要说明的是,上述列举的只是一种简单的确定结构差异信息的方式,除此之外,还可依据第二网络模型中的其它模型参数确定更加细致的结构差异信息,在此不对根据连接关系信息确定两个POI结构差异信息的方式进行具体限定。
可选的,本申请实施例中的第一网络模型、第二网络模型可以为孪生神经网络,例如图3所示的第一网络模型,其中知识注入层网络以及表示学习层网络都是孪生神经网络的结构;再例如图4A至图4D所示的第二网络模型,其中的相似度度量层、第一嵌入层或第二嵌入层也是孪生神经网络的结构。
上述实施方式中,由于第一网络模型或第二网络模型在训练过程中需要一次输入两个或四个POI所对应的参数,主要用于衡量POI之间的层级关系,因而采用孪生神经网络,可以有效处理输入参数,得到最终结果,使得模型结构简单,且处理效率较高。
在一种可选的实施方式中,通过下列方式得到已训练的第二网络模型:
从第二训练样本中选取第二参考POI以及第二候选POI对应的至少一个目标候选父POI,其中,目标候选父POI中标注有其作为第二参考POI的父POI的概率;
针对任意一个目标候选父POI,将第二参考POI的层级语义表示信息和类目信息,任意一个目标候选父POI的层级语义表示信息和类目信息,以及任意一个目标候选父POI与第二参考POI的位置关系信息输入未训练的第二网络模型,获得任意一个目标候选父POI作为第二参考POI的父POI的概率;
通过优化算法对第二网络模型中的参数进行优化,使得每个目标候选父POI标注的概率与通过第二网络模型得到的概率的差值在允许的差距范围内为止,得到已训练的第二网络模型。
该方式训练得到的第二网络模型一种可选的结构图如图4A所示。其中,第二参考POI指POI 1,相当于第二网络模型使用过程中的目标POI,目标候选父POI指POI 2,相当于第二网络模型使用过程中的第一候选父POI,目标候选父POI上标注有该样本POI作为第二参考POI的父POI的概率,该概率可以是人工标注的。
在第二网络模型的训练过程中,POI 1为POI C,POI 2为POI D,以POI C和POI D所组成的POI对中POI C的层级语义表示信息、类目信息,POI D的层级语义表示信息、类目信息,以及POI C与POI D之间的位置关系信息作为输入参数输入未训练的第二网络模型,得到第二网络模型输出的POI D作为POI C的父POI的概率,并与POI D上标注的其作为POI C的父POI的概率进行比较,若两个概率的差值不在允许的差距范围内,则继续调整第二网络模型中的参数,并在调整参数后重新计算POI D作为POI C的父POI的概率,再次根据概率的差值确定是否调整第二网络模型的参数,通过迭代训练得到最终已训练的第二网络模型。
可选的,当第二网络模型的输入参数还包括POI的名称长度信息与POI的连接关系信息中的一种或多种时,则在第二网络模型的训练过程中,需要将第二参考POI的层级语义表示信息和类目信息,任意一个目标候选父POI的层级语义表示信息和类目信息,任意一个目标候选父POI与第二参考POI的位置关系信息,以及辅助参数输入未训练的第二网络模型,得到任意一个目标候选父POI作为第二参考POI的父POI的概率;
其中,辅助参数包括第二参考POI的连接关系信息与任意一个目标候选父POI的连接关系信息,以及任意一个目标候选父POI的名称长度信息中的一种或多种,连接关系信息是根据POI的层级语义表示信息确定的。
若辅助参数包括POI的名称长度信息,则训练得到的第二网络模型一种可选的结构图例如图4B所示;若辅助参数包括POI的连接关系信息,则训练得到的第二网络模型的一种可选的结构图例如图4C所示;若辅助参数既包括POI的名称长度信息又包括连接关系信息,则训练得到的第二网络模型一种可选的结构图例如图4D所示。
需要说明的是,在本申请实施例中第二网络模型的训练过程和使用过程基本一致,因此基于上述输入参数得到POI D作为POI C的父POI的概率的具体过程不再重复说明。
在本申请实施例中,第一训练样本包括至少4个样本POI,具体包括至少一个参考POI、至少一个正类POI以及至少两个负类POI,其中两个负类POI中包含至少一个双重负类POI;第二训练样本包括至少两个样本POI,具体包括至少一个第二参考POI,以及至少一个目标候选父POI;第一训练样本与第二训练样本所包含的样本可以全部相同,也可以部分相同。
上述实施方式中,通过结合POI的多元领域知识,构建训练第二网络模型,其中,领域知识指某一特定任务领域的知识,包含该领域的强语义信息构成的知识库,在本申请实施例中指POI层级语义学习任务对应的类目信息、层级语义表示信息、位置关系信息、名称长度信息、连接关系信息等。依赖大量知识的注入明确第二网络模型的优化方向,减少了对样本量的依赖,在训练样本较少的情况下仍然能获得较高的识别精度。
需要说明的是,基于上述实施方式进行测试,本申请实施例可以在独立测试集上达到87.00%的F1指数(精确率为86.66%,召回率为87.34%),相比于相关技术的方法,本申请实施例中所用到的参数量少,因此可以通过少量的训练数据达到较高的识别准确率。
参阅图6所示,为一种兴趣点数据处理方法的时序图。该方法的具体实施流程如下:
S61:给定地图中的一个POI p0作为目标POI;
S62:寻找与p0的距离在一定距离范围内的所有POI,形成第一候选父集合P={P1,P2,…,Pn};
S63:通过已训练的第一网络模型计算p0和P中各POI的层级语义表示向量v0和{V1,V2,…,Vn};
S64:分别计算v0和{V1,V2,…,Vn}之间的相似度;
S65:选取对应的相似度大于阈值t的第一候选父POI与目标POI之间相互连接,构建目标POI的连接关系图,以及采用同样的方式构建各第一候选父POI的连接关系图;
S66:分别计算p0和{P1,P2,…,Pn}中各第一候选父POI与目标POI之间的空间距离,p0和{P1,P2,…,Pn}的类目向量,以及P中各POI的名称长度;
S67:根据上述参数,通过已训练的第二网络模型计算P中各POI作为p0的父POI的概率;
S68:选取概率最大值对应的第一候选父POI P’,判断其对应的概率是否大于第二阈值0.5,如果是,则执行S69,否则,执行S610;
S69:将P’作为p0的父POI;
S610:确定p0没有父POI。
需要说明的是,S72中也可以仅寻找与p0的距离在一定距离范围内的部分POI,形成第一候选父集合P={P1,P2,…,Pn};图7列举的第二网络模型的输入参数包括层级语义表示信息、类目信息、位置关系信息、名称长度信息以及连接关系信息作为第二网络模型的输入参数;若第二网络模型的输入参数不包括名称长度信息或连接关系信息时,则相对应减少S74、S75,或是S76中关于名称长度的部分。
如图7所示,其为本申请实施例示出的一种兴趣点数据处理装置700的结构示意图,可以包括:
获取单元701,用于获取目标业务的目标范围中,目标兴趣点POI以及目标POI对应的至少一个第一候选父POI的结构化信息;
信息处理单元702,用于将目标POI的结构化信息输入已训练的第一网络模型,获得目标POI的层级语义表示信息,以及将每个第一候选父POI的结构化信息分别输入已训练的第一网络模型,获得每个第一候选父POI的层级语义表示信息;其中,已训练的第一网络模型是根据已标注层级关系的第一训练样本得到的,第一训练样本包括具有兄弟关系的POI样本以及具有非兄弟关系的POI样本的结构化信息;
第一确定单元703,用于根据每个第一候选父POI的层级语义表示信息与目标POI的层级语义表示信息,确定每个第一候选父POI作为目标POI的父POI的概率;
第二确定单元704,根据每个第一候选父POI作为目标POI的父POI的概率,确定目标POI与部分或全部第一候选父POI之间的层级关系;
执行单元705,根据确定的层级关系执行目标业务的相关逻辑。
在一种可选的实施方式中,第一确定单元703具体用于:
针对任意一个第一候选父POI,将目标POI的层级语义表示信息和类目信息,任意一个第一候选父POI的层级语义表示信息和类目信息,以及目标POI与任意一个第一候选父POI之间的位置关系信息输入已训练的第二网络模型,获得任意一个第一候选父POI作为目标POI的父POI的概率;
其中,已训练的第二网络模型是根据已标注概率的第二训练样本得到的,第二训练样本中包括POI样本的层级语义表示信息、类目信息以及POI样本之间的位置关系信息。
在一种可选的实施方式中,获取单元701具体用于:
从目标POI的结构化文本中提取目标POI的属性信息,以及分别从每个第一候选父POI的结构化文本中提取每个第一候选父POI的属性信息;
将目标POI的属性信息输入已训练的BERT模型,获得与目标POI的结构化信息,以及将每个第一候选父POI的属性信息分别输入已训练的BERT模型,获得每个第一候选父POI的结构化信息。
在一种可选的实施方式中,结构化信息包含POI的结构化文本中每个属性信息的属性向量;已训练的第一网络模型包括知识注入层网络以及表示学习层网络;
信息处理单元702具体用于:
基于知识注入层网络,对目标POI的结构化信息包含的每个属性向量进行加权求和得到目标POI的文本语义信息,以及对每个第一候选父POI的结构化信息包含的每个属性向量进行加权求和得到每个第一候选父POI的文本语义信息;
基于表示学习层网络,对目标POI的文本语义信息中的层级关系语义特征进行特征提取得到目标POI的层级语义表示信息,以及对每个第一候选父POI的文本语义信息中的层级关系语义特征进行特征提取得到每个第一候选父POI的层级语义表示信息。
在一种可选的实施方式中,已训练的第二网络模型包括相似度度量层网络与第一嵌入层网络;
第一确定单元703具体用于:
基于相似度度量层网络,获取目标POI与任意一个第一候选父POI的层级语义表示信息之间的语义相似性信息;以及
基于第一嵌入层网络,获取目标POI与任意一个第一候选父POI的类目信息之间的类目差异信息;
根据获取的语义相似性信息、类目差异信息,以及目标POI与任意一个第一候选父POI之间的位置关系信息,确定任意一个第一候选父POI作为目标POI的父POI的概率。
在一种可选的实施方式中,第二网络模型还包括第二嵌入层网络;
第一确定单元703还用于:
在根据获取的语义相似性信息、类目差异信息,以及目标POI与任意一个第一候选父POI之间的位置关系信息,确定任意一个第一候选父POI作为目标POI的父POI的概率之前,基于第二嵌入层网络,获取目标POI的连接关系信息与任意一个第一候选父POI的连接关系信息之间的结构差异信息;
第一确定单元703具体用于:
根据获取的语义相似性信息、类目差异信息、目标POI与任意一个第一候选父POI之间的位置关系信息,以及结构差异信息,确定任意一个第一候选父POI作为目标POI的父POI的概率。
在一种可选的实施方式中,第一确定单元703还用于:
在根据获取的语义相似性信息、类目差异信息,以及目标POI与任意一个第一候选父POI之间的位置关系信息,确定任意一个第一候选父POI作为目标POI的父POI的概率之前,将任意一个第一候选父POI的名称长度信息输入已训练的第二网络模型;
第一确定单元703具体用于:
根据获取的语义相似性信息、类目差异信息、目标POI与任意一个第一候选父POI之间的位置关系信息,以及任意一个第一候选父POI的名称长度信息,确定任意一个第一候选父POI作为目标POI的父POI的概率。
在一种可选的实施方式中,第一确定单元703还用于:
在根据获取的语义相似性信息、类目差异信息、目标POI与任意一个第一候选父POI之间的位置关系信息,以及结构差异信息,确定任意一个第一候选父POI作为目标POI的父POI的概率之前,将任意一个第一候选父POI的名称长度信息输入已训练的第二网络模型;
第一确定单元703具体用于:
根据获取的语义相似性信息、类目差异信息、目标POI与任意一个第一候选父POI之间的位置关系信息、任意一个第一候选父POI的名称长度信息,以及结构差异信息,确定任意一个第一候选父POI作为目标POI的父POI的概率。
在一种可选的实施方式中,连接关系信息包括连接关系图;
第一确定单元703还用于通过下列方式构建目标POI的连接关系图:
确定每个第一候选父POI中与目标POI的层级语义表示信息之间的相似度大于第一阈值的第一候选父POI;
将确定的第一候选父POI与目标POI相互连接,得到目标POI的连接关系图;或
通过下列方式构建任意一个第一候选父POI的连接关系图:
针对任意一个第一候选父POI,确定任意一个第二候选父POI中与第一候选父POI的层级语义表示信息之间的相似度大于第一阈值的第二候选父POI,其中第二候选父POI为任意一个第一候选父POI对应的候选父POI;
将确定的第二候选父POI与任意一个第一候选父POI相互连接,得到任意一个第一候选父POI的连接关系图。
在一种可选的实施方式中,层级语义表示信息为层级语义表示向量;
该装置还包括第一训练单元706;第一训练单元706用于通过下列方式得到已训练的第一网络模型:
从第一训练样本中选取第一参考POI、与第一参考POI具有兄弟关系的正类POI、与第一参考POI具有非兄弟关系的负类POI,以及与第一参考POI具有非兄弟关系,且与负类POI具有非兄弟关系的双重负类POI;
将第一参考POI、正类POI、负类POI以及双重负类POI的结构化信息分别输入未训练的第一网络模型,获得第一参考POI、正类POI、负类POI以及双重负类POI的层级语义表示信息;
通过反向传播方法对未训练的第一网络模型中的参数进行优化,直至损失函数的变化量在允许的差距范围内为止,得到已训练的第一网络模型,以使具有兄弟关系的样本POI的层级语义表示信息之间的距离小于具有非兄弟关系的样本POI的层级语义表示信息之间的距离,且具有兄弟关系的样本POI的层级语义表示信息之间的最大距离不大于具有非兄弟关系的样本POI的层级语义表示信息之间的最小距离。
在一种可选的实施方式中,该装置还包括第二训练单元707;第二训练单元707用于通过下列方式得到已训练的第二网络模型:
从第二训练样本中选取第二参考POI以及第二参考POI对应的至少一个目标候选父POI,其中,目标候选父POI中标注有目标候选父POI作为第二参考POI的父POI的概率;
针对任意一个目标候选父POI,将第二参考POI的层级语义表示信息和类目信息,任意一个目标候选父POI的层级语义表示信息和类目信息,以及任意一个目标候选父POI与第二参考POI的位置关系信息输入未训练的第二网络模型,获得任意一个目标候选父POI作为第二参考POI的父POI的概率;
通过优化算法对已训练的第二网络模型中的参数进行优化,使得每个目标候选父POI标注的概率与通过未训练的第二网络模型得到的概率的差值在允许的差距范围内为止,得到已训练的第二网络模型。
在一种可选的实施方式中,第一确定单元703具体用于:
将第二参考POI的层级语义表示信息和类目信息,任意一个目标候选父POI的层级语义表示信息和类目信息,任意一个目标候选父POI与第二参考POI的位置关系信息,以及辅助参数输入未训练的第二网络模型,得到任意一个目标候选父POI作为第二参考POI的父POI的概率;
其中,辅助参数包括任意一个第二参考POI的连接关系信息与任意一个目标候选父POI的连接关系信息,以及任意一个目标候选父POI的名称长度信息中的一种或多种,连接关系信息是根据POI的层级语义表示信息确定的。
在一种可选的实施方式中,第二确定单元704具体用于:
选取每个第一候选父POI中对应的概率最大的第一候选父POI;
若选取的第一候选父POI对应的概率大于第二阈值,则将选取的第一候选父POI作为目标POI的父POI。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,如图8所示,为本申请实施例提供的一种电子设备的框图,图中所示电子设备800可以至少包括处理器801和存储器802。其中,所述存储器802存储有程序代码,当所述程序代码被所述处理器801执行时,使得所述处理器801执行本说明书中描述的根据本申请各种示例性实施方式的兴趣点数据处理方法中的步骤。例如,所述处理器801可以执行如图2中所示的步骤。
下面参照图9来描述根据本申请的这种实施方式的计算装置90。图9的计算装置90仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9,计算装置90以通用计算装置的形式表现。计算装置90的组件可以包括但不限于:上述至少一个处理单元91、上述至少一个存储单元92、连接不同系统组件(包括存储单元92和处理单元91)的总线93。
总线93表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元92可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)921和/或高速缓存存储单元922,还可以进一步包括只读存储器(ROM)923。
存储单元92还可以包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置90交互的设备通信,和/或与使得该计算装置90能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,计算装置90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器96通过总线93与用于计算装置90的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的兴趣点数据处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的兴趣点数据处理方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的兴趣点数据处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种兴趣点数据处理方法,其特征在于,该方法包括:
获取目标业务的目标范围中,目标兴趣点POI以及所述目标POI对应的至少一个第一候选父POI的结构化信息;
将所述目标POI的结构化信息输入已训练的第一网络模型,获得所述目标POI的层级语义表示信息,以及将每个第一候选父POI的结构化信息分别输入所述已训练的第一网络模型,获得所述每个第一候选父POI的层级语义表示信息;其中,所述已训练的第一网络模型是根据已标注层级关系的第一训练样本得到的,所述第一训练样本包括具有兄弟关系的POI样本以及具有非兄弟关系的POI样本的结构化信息;
根据所述每个第一候选父POI的层级语义表示信息与所述目标POI的层级语义表示信息,确定所述每个第一候选父POI作为所述目标POI的父POI的概率;
根据所述每个第一候选父POI作为所述目标POI的父POI的概率,确定所述目标POI与部分或全部第一候选父POI之间的层级关系;
根据确定的层级关系执行所述目标业务的相关逻辑。
2.如权利要求1所述的方法,其特征在于,所述根据所述每个第一候选父POI的层级语义表示信息与所述目标POI的层级语义表示信息,确定所述每个第一候选父POI作为所述目标POI的父POI的概率,包括:
针对任意一个第一候选父POI,将所述目标POI的层级语义表示信息和类目信息,所述任意一个第一候选父POI的层级语义表示信息和类目信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息输入已训练的第二网络模型,获得所述任意一个第一候选父POI作为所述目标POI的父POI的概率;
其中,所述已训练的第二网络模型是根据已标注概率的第二训练样本得到的,所述第二训练样本中包括POI样本的层级语义表示信息、类目信息以及所述POI样本之间的位置关系信息。
3.如权利要求1所述的方法,其特征在于,所述获取目标业务的目标范围中,目标POI以及所述目标POI对应的至少一个第一候选父POI的结构化信息,包括:
从所述目标POI的结构化文本中提取所述目标POI的属性信息,以及分别从所述每个第一候选父POI的结构化文本中提取所述每个第一候选父POI的属性信息;
将所述目标POI的属性信息输入已训练的BERT模型,获得与所述目标POI的结构化信息,以及将所述每个第一候选父POI的属性信息分别输入所述已训练的BERT模型,获得所述每个第一候选父POI的结构化信息。
4.如权利要求3所述的方法,其特征在于,结构化信息包含POI的结构化文本中每个属性信息的属性向量;所述已训练的第一网络模型包括知识注入层网络以及表示学习层网络;
所述将所述目标POI的结构化信息输入已训练的第一网络模型,获得所述目标POI的层级语义表示信息,以及将每个第一候选父POI的结构化信息分别输入所述已训练的第一网络模型,获得所述每个第一候选父POI的层级语义表示信息,包括:
基于所述知识注入层网络,对所述目标POI的结构化信息包含的每个属性向量进行加权求和得到所述目标POI的文本语义信息,以及对每个第一候选父POI的结构化信息包含的每个属性向量进行加权求和得到每个第一候选父POI的文本语义信息;
基于所述表示学习层网络,对所述目标POI的文本语义信息中的层级关系语义特征进行特征提取得到所述目标POI的层级语义表示信息,以及对每个第一候选父POI的文本语义信息中的层级关系语义特征进行特征提取得到每个第一候选父POI的层级语义表示信息。
5.如权利要求2所述的方法,所述已训练的第二网络模型包括相似度度量层网络与第一嵌入层网络;
所述针对任意一个第一候选父POI,将所述目标POI的层级语义表示信息和类目信息,所述任意一个第一候选父POI的层级语义表示信息和类目信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息输入已训练的第二网络模型,获得所述任意一个第一候选父POI作为所述目标POI的父POI的概率,包括:
基于所述相似度度量层网络,获取所述目标POI与所述任意一个第一候选父POI的层级语义表示信息之间的语义相似性信息;以及
基于所述第一嵌入层网络,获取所述目标POI与所述任意一个第一候选父POI的类目信息之间的类目差异信息;
根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
6.如权利要求5所述的方法,其特征在于,所述已训练的第二网络模型还包括第二嵌入层网络;
在所述根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率之前,还包括:
将所述目标POI的连接关系信息以及所述任意一个第一候选父POI的连接关系信息输入所述已训练的第二网络模型;
基于所述第二嵌入层网络,获取所述目标POI的连接关系信息与所述任意一个第一候选父POI的连接关系信息之间的结构差异信息;
所述根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率,包括:
根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,以及所述结构差异信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
7.如权利要求5所述的方法,其特征在于,在所述根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率之前,还包括:
将所述任意一个第一候选父POI的名称长度信息输入所述已训练的第二网络模型;
所述根据获取的语义相似性信息、类目差异信息,以及所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率,包括:
根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,以及所述任意一个第一候选父POI的名称长度信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
8.如权利要求6所述的方法,其特征在于,在所述根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,以及所述结构差异信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率之前,还包括:
将所述任意一个第一候选父POI的名称长度信息输入所述已训练的第二网络模型;
所述根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息,以及所述结构差异信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率,包括:
根据获取的语义相似性信息、类目差异信息、所述目标POI与所述任意一个第一候选父POI之间的位置关系信息、所述任意一个第一候选父POI的名称长度信息,以及所述结构差异信息,确定所述任意一个第一候选父POI作为所述目标POI的父POI的概率。
9.如权利要求6或8所述的方法,其特征在于,所述连接关系信息包括连接关系图;
通过下列方式构建所述目标POI的连接关系图:
确定所述每个第一候选父POI中与所述目标POI的层级语义表示信息之间的相似度大于第一阈值的第一候选父POI;
将确定的第一候选父POI与所述目标POI相互连接,得到所述目标POI的连接关系图;或
通过下列方式构建所述任意一个第一候选父POI的连接关系图:
确定每个第二候选父POI中与所述任意一个第一候选父POI的层级语义表示信息之间的相似度大于第一阈值的第二候选父POI,其中所述每个第二候选父POI为所述任意一个第一候选父POI对应的候选父POI;
将确定的第二候选父POI与所述任意一个第一候选父POI相互连接,得到所述任意一个第一候选父POI的连接关系图。
10.如权利要求1所述的方法,其特征在于,所述层级语义表示信息为层级语义表示向量;
通过下列方式得到所述已训练的第一网络模型:
从所述第一训练样本中选取第一参考POI、与所述第一参考POI具有兄弟关系的正类POI、与所述第一参考POI具有非兄弟关系的负类POI,以及与所述第一参考POI具有非兄弟关系,且与所述负类POI具有非兄弟关系的双重负类POI;
将所述第一参考POI、所述正类POI、所述负类POI以及所述双重负类POI的结构化信息分别输入未训练的第一网络模型,获得所述第一参考POI、所述正类POI、所述负类POI以及所述双重负类POI的层级语义表示信息;
通过反向传播方法对所述未训练的第一网络模型中的参数进行优化,直至损失函数的变化量在允许的差距范围内为止,得到所述已训练的第一网络模型,以使具有兄弟关系的样本POI的层级语义表示信息之间的距离小于具有非兄弟关系的样本POI的层级语义表示信息之间的距离,且具有兄弟关系的样本POI的层级语义表示信息之间的最大距离不大于具有非兄弟关系的样本POI的层级语义表示信息之间的最小距离。
11.如权利要求2所述的方法,其特征在于,通过下列方式得到所述已训练的第二网络模型:
从所述第二训练样本中选取第二参考POI以及所述第二参考POI对应的至少一个目标候选父POI,其中,所述目标候选父POI中标注有所述目标候选父POI作为所述第二参考POI的父POI的概率;
针对任意一个目标候选父POI,将所述第二参考POI的层级语义表示信息和类目信息,所述任意一个目标候选父POI的层级语义表示信息和类目信息,以及所述任意一个目标候选父POI与所述第二参考POI的位置关系信息输入未训练的第二网络模型,获得所述任意一个目标候选父POI作为所述第二参考POI的父POI的概率;
通过优化算法对所述未训练的第二网络模型中的参数进行优化,使得每个目标候选父POI标注的概率与通过所述未训练的第二网络模型得到的概率的差值在允许的差距范围内为止,得到所述已训练的第二网络模型。
12.如权利要求11所述的方法,其特征在于,所述针对任意一个目标候选父POI,将所述第二参考POI的层级语义表示信息和类目信息,所述任意一个目标候选父POI的层级语义表示信息和类目信息,以及所述任意一个目标候选父POI与所述第二参考POI的位置关系信息输入未训练的第二网络模型,获得所述任意一个目标候选父POI作为所述第二参考POI的父POI的概率,具体包括:
将所述第二参考POI的层级语义表示信息和类目信息,所述任意一个目标候选父POI的层级语义表示信息和类目信息,所述任意一个目标候选父POI与所述第二参考POI的位置关系信息,以及辅助参数输入所述未训练的第二网络模型,得到所述任意一个目标候选父POI作为所述第二参考POI的父POI的概率;
其中,所述辅助参数包括所述第二参考POI的连接关系信息与所述任意一个目标候选父POI的连接关系信息,以及所述任意一个目标候选父POI的名称长度信息中的一种或多种。
13.如权利要求1所述的方法,其特征在于,所述根据所述每个第一候选父POI作为所述目标POI的父POI的概率,确定所述目标POI与部分或全部第一候选父POI之间的层级关系,包括:
选取所述每个第一候选父POI中对应的概率最大的第一候选父POI;
若选取的第一候选父POI对应的概率大于第二阈值,则将选取的第一候选父POI作为所述目标POI的父POI。
14.一种兴趣点数据处理装置,其特征在于,包括:
获取单元,用于获取目标业务的目标范围中,目标兴趣点POI以及所述目标POI对应的至少一个第一候选父POI的结构化信息;
信息处理单元,用于将所述目标POI的结构化信息输入已训练的第一网络模型,获得所述目标POI的层级语义表示信息,以及将每个第一候选父POI的结构化信息分别输入所述已训练的第一网络模型,获得所述每个第一候选父POI的层级语义表示信息;其中,所述已训练的第一网络模型是根据已标注层级关系的第一训练样本得到的,所述第一训练样本包括具有兄弟关系的POI样本以及具有非兄弟关系的POI样本的结构化信息;
第一确定单元,用于根据所述每个第一候选父POI的层级语义表示信息与所述目标POI的层级语义表示信息,确定所述每个第一候选父POI作为所述目标POI的父POI的概率;
第二确定单元,根据所述每个第一候选父POI作为所述目标POI的父POI的概率,确定所述目标POI与部分或全部第一候选父POI之间的层级关系;
执行单元,根据确定的层级关系执行所述目标业务的相关逻辑。
15.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~13中任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398021.2A CN111160471B (zh) | 2019-12-30 | 2019-12-30 | 一种兴趣点数据处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398021.2A CN111160471B (zh) | 2019-12-30 | 2019-12-30 | 一种兴趣点数据处理方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160471A true CN111160471A (zh) | 2020-05-15 |
CN111160471B CN111160471B (zh) | 2023-04-07 |
Family
ID=70559240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911398021.2A Active CN111160471B (zh) | 2019-12-30 | 2019-12-30 | 一种兴趣点数据处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160471B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694919A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 生成信息的方法、装置、电子设备及计算机可读存储介质 |
CN111708859A (zh) * | 2020-06-18 | 2020-09-25 | 中科宇图科技股份有限公司 | 一种基于空间数据的商圈边界识别方法 |
CN111931067A (zh) * | 2020-09-14 | 2020-11-13 | 北京百度网讯科技有限公司 | 兴趣点推荐方法、装置、设备和介质 |
CN112197779A (zh) * | 2020-09-14 | 2021-01-08 | 汉海信息技术(上海)有限公司 | 导航路径规划方法、装置、打印设备 |
CN112560848A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 兴趣点poi预训练模型的训练方法、装置及电子设备 |
CN112749339A (zh) * | 2021-01-18 | 2021-05-04 | 陕西师范大学 | 一种基于旅游知识图谱的旅游路线推荐方法及系统 |
CN112784153A (zh) * | 2020-12-31 | 2021-05-11 | 山西大学 | 融合属性特征注意力与异质类型信息的旅游景点推荐方法 |
CN113239198A (zh) * | 2021-05-17 | 2021-08-10 | 中南大学 | 一种地铁客流预测方法、装置及计算机存储介质 |
CN113315655A (zh) * | 2021-05-24 | 2021-08-27 | 恒隆通信技术有限公司 | 智能组网环境的信息配置方法及智能组网系统 |
CN114399236A (zh) * | 2022-03-25 | 2022-04-26 | 云智慧(北京)科技有限公司 | 一种业务执行时效潜力的评估方法、装置及设备 |
CN114898060A (zh) * | 2022-05-24 | 2022-08-12 | 北京百度网讯科技有限公司 | 用于处理数据的方法、装置、设备、介质和产品 |
CN116719896A (zh) * | 2022-12-27 | 2023-09-08 | 深圳依时货拉拉科技有限公司 | Poi数据的挖掘方法及其装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219754A (ja) * | 2006-02-15 | 2007-08-30 | Pioneer Electronic Corp | 地点情報検索装置、地点情報検索方法及び地点情報検索用プログラム並びに地点情報更新用プログラム |
CN104462155A (zh) * | 2013-09-25 | 2015-03-25 | 高德软件有限公司 | 一种兴趣点父子关系的建立方法及装置 |
CN105159926A (zh) * | 2015-08-04 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 建立用户的用户信息关联的方法和装置 |
CN107504978A (zh) * | 2017-08-16 | 2017-12-22 | 城市生活(北京)资讯有限公司 | 一种导航方法及系统 |
CN107679189A (zh) * | 2017-09-30 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 一种兴趣点更新方法、装置、服务器和介质 |
US9986382B1 (en) * | 2016-12-23 | 2018-05-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for determining relationship between points of interest |
CN108875007A (zh) * | 2018-06-15 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 兴趣点的确定方法和装置、存储介质、电子装置 |
CN110149804A (zh) * | 2018-05-28 | 2019-08-20 | 北京嘀嘀无限科技发展有限公司 | 用于确定兴趣点的父-子关系的系统和方法 |
CN110297967A (zh) * | 2019-05-14 | 2019-10-01 | 北京百度网讯科技有限公司 | 兴趣点确定方法、装置、设备及计算机可读存储介质 |
CN110347776A (zh) * | 2019-07-17 | 2019-10-18 | 北京百度网讯科技有限公司 | 兴趣点名称匹配方法、装置、设备及存储介质 |
CN110427444A (zh) * | 2019-07-26 | 2019-11-08 | 北京百度网讯科技有限公司 | 导航引导点挖掘方法、装置、设备和存储介质 |
-
2019
- 2019-12-30 CN CN201911398021.2A patent/CN111160471B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219754A (ja) * | 2006-02-15 | 2007-08-30 | Pioneer Electronic Corp | 地点情報検索装置、地点情報検索方法及び地点情報検索用プログラム並びに地点情報更新用プログラム |
CN104462155A (zh) * | 2013-09-25 | 2015-03-25 | 高德软件有限公司 | 一种兴趣点父子关系的建立方法及装置 |
CN105159926A (zh) * | 2015-08-04 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 建立用户的用户信息关联的方法和装置 |
US9986382B1 (en) * | 2016-12-23 | 2018-05-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for determining relationship between points of interest |
CN107504978A (zh) * | 2017-08-16 | 2017-12-22 | 城市生活(北京)资讯有限公司 | 一种导航方法及系统 |
CN107679189A (zh) * | 2017-09-30 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 一种兴趣点更新方法、装置、服务器和介质 |
CN110149804A (zh) * | 2018-05-28 | 2019-08-20 | 北京嘀嘀无限科技发展有限公司 | 用于确定兴趣点的父-子关系的系统和方法 |
CN108875007A (zh) * | 2018-06-15 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 兴趣点的确定方法和装置、存储介质、电子装置 |
CN110297967A (zh) * | 2019-05-14 | 2019-10-01 | 北京百度网讯科技有限公司 | 兴趣点确定方法、装置、设备及计算机可读存储介质 |
CN110347776A (zh) * | 2019-07-17 | 2019-10-18 | 北京百度网讯科技有限公司 | 兴趣点名称匹配方法、装置、设备及存储介质 |
CN110427444A (zh) * | 2019-07-26 | 2019-11-08 | 北京百度网讯科技有限公司 | 导航引导点挖掘方法、装置、设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
BURU CHANG 等: "Content-Aware Hierarchical Point-of-Interest Embedding Model for Successive POI Recommendation", 《TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
MU-FAN WANG 等: "SPENT: A Successive POI Recommendation Method Using Similarity-Based POI Embedding and Recurrent Neural Network with Temporal Influence", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING (BIGCOMP)》 * |
王立 等: "基于LSTM的POI个性化推荐框架", 《计算机系统应用》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694919A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 生成信息的方法、装置、电子设备及计算机可读存储介质 |
CN111708859A (zh) * | 2020-06-18 | 2020-09-25 | 中科宇图科技股份有限公司 | 一种基于空间数据的商圈边界识别方法 |
CN111708859B (zh) * | 2020-06-18 | 2023-04-25 | 中科宇图科技股份有限公司 | 一种基于空间数据的商圈边界识别方法 |
US20210356290A1 (en) * | 2020-09-14 | 2021-11-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recommending point of interest, device, and medium |
CN111931067A (zh) * | 2020-09-14 | 2020-11-13 | 北京百度网讯科技有限公司 | 兴趣点推荐方法、装置、设备和介质 |
CN112197779A (zh) * | 2020-09-14 | 2021-01-08 | 汉海信息技术(上海)有限公司 | 导航路径规划方法、装置、打印设备 |
CN111931067B (zh) * | 2020-09-14 | 2023-09-29 | 北京百度网讯科技有限公司 | 兴趣点推荐方法、装置、设备和介质 |
CN112560848A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 兴趣点poi预训练模型的训练方法、装置及电子设备 |
CN112560848B (zh) * | 2020-12-25 | 2024-03-29 | 北京百度网讯科技有限公司 | 兴趣点poi预训练模型的训练方法、装置及电子设备 |
CN112784153A (zh) * | 2020-12-31 | 2021-05-11 | 山西大学 | 融合属性特征注意力与异质类型信息的旅游景点推荐方法 |
CN112749339A (zh) * | 2021-01-18 | 2021-05-04 | 陕西师范大学 | 一种基于旅游知识图谱的旅游路线推荐方法及系统 |
CN112749339B (zh) * | 2021-01-18 | 2024-05-28 | 陕西师范大学 | 一种基于旅游知识图谱的旅游路线推荐方法及系统 |
CN113239198A (zh) * | 2021-05-17 | 2021-08-10 | 中南大学 | 一种地铁客流预测方法、装置及计算机存储介质 |
CN113239198B (zh) * | 2021-05-17 | 2023-10-31 | 中南大学 | 一种地铁客流预测方法、装置及计算机存储介质 |
CN113315655A (zh) * | 2021-05-24 | 2021-08-27 | 恒隆通信技术有限公司 | 智能组网环境的信息配置方法及智能组网系统 |
CN114399236A (zh) * | 2022-03-25 | 2022-04-26 | 云智慧(北京)科技有限公司 | 一种业务执行时效潜力的评估方法、装置及设备 |
CN114898060A (zh) * | 2022-05-24 | 2022-08-12 | 北京百度网讯科技有限公司 | 用于处理数据的方法、装置、设备、介质和产品 |
CN116719896A (zh) * | 2022-12-27 | 2023-09-08 | 深圳依时货拉拉科技有限公司 | Poi数据的挖掘方法及其装置、计算机设备及存储介质 |
CN116719896B (zh) * | 2022-12-27 | 2024-02-06 | 深圳依时货拉拉科技有限公司 | Poi数据的挖掘方法及其装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111160471B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160471B (zh) | 一种兴趣点数据处理方法、装置、电子设备和存储介质 | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
Shi et al. | Semantics-aware hidden Markov model for human mobility | |
CN113505204B (zh) | 召回模型训练方法、搜索召回方法、装置和计算机设备 | |
CN115017425B (zh) | 地点检索方法、装置、电子设备以及存储介质 | |
Zhao et al. | Annotating points of interest with geo-tagged tweets | |
Liu et al. | POI Recommendation Method Using Deep Learning in Location‐Based Social Networks | |
CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
CN111460044B (zh) | 地理位置数据处理方法及装置 | |
Cai et al. | Discovery of urban functional regions based on Node2vec | |
Zhang et al. | Trajectory similarity assessment on road networks via embedding learning | |
Sun et al. | Conflating point of interest (POI) data: A systematic review of matching methods | |
Balsebre et al. | Cityfm: City foundation models to solve urban challenges | |
Yang et al. | Point‐of‐interest detection from Weibo data for map updating | |
Bing et al. | Pre-Trained semantic embeddings for POI categories based on multiple contexts | |
Balsebre et al. | Mining geospatial relationships from text | |
Mai et al. | On the opportunities and challenges of foundation models for geoai (vision paper) | |
CN113468881B (zh) | 一种地址标准化方法及装置 | |
Yabe et al. | Unsupervised translation via hierarchical anchoring: functional mapping of places across cities | |
CN114461943A (zh) | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 | |
Cho et al. | Clustered embedding using deep learning to analyze urban mobility based on complex transportation data | |
Devi et al. | Big data analytics based sentiment analysis using superior expectation-maximization vector neural network in tourism | |
Liang et al. | Enhancing scenic recommendation and tour route personalization in tourism using ugc text mining | |
Memarzadeh et al. | Model-based location recommender system using geotagged photos on Instagram | |
Wu et al. | G2ptl: A pre-trained model for delivery address and its applications in logistics system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |