CN110457706B - 兴趣点名称选择模型训练方法、使用方法、装置及存储介质 - Google Patents

兴趣点名称选择模型训练方法、使用方法、装置及存储介质 Download PDF

Info

Publication number
CN110457706B
CN110457706B CN201910754946.XA CN201910754946A CN110457706B CN 110457706 B CN110457706 B CN 110457706B CN 201910754946 A CN201910754946 A CN 201910754946A CN 110457706 B CN110457706 B CN 110457706B
Authority
CN
China
Prior art keywords
interest point
interest
data
selection model
name selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910754946.XA
Other languages
English (en)
Other versions
CN110457706A (zh
Inventor
王宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910754946.XA priority Critical patent/CN110457706B/zh
Publication of CN110457706A publication Critical patent/CN110457706A/zh
Application granted granted Critical
Publication of CN110457706B publication Critical patent/CN110457706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种兴趣点名称选择模型训练方法,包括:获取不同数据来源的兴趣点数据,形成与兴趣点数据相对应的词语级向量;根据兴趣点数据构造兴趣点名称选择模型的训练样本;通过兴趣点名称选择模型的排序网络,对待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;通过所获取的符合命名规则的兴趣点候选名称,调整兴趣点名称选择模型中特征提取网络的参数和排序网络的参数。本发明还提供了兴趣点名称选择模型使用方法、装置及存储介质。本发明能够使得训练得到的兴趣点名称选择模型能够在不同数据来源的兴趣点数据中选择符合命名规则的兴趣点候选名称,减少了由于非命名规则的兴趣点的名称引起的用户使用错误,有效提升了使用体验。

Description

兴趣点名称选择模型训练方法、使用方法、装置及存储介质
技术领域
本发明涉及信息处理技术,尤其涉及兴趣点名称选择模型训练方法、使用方法、装置及存储介质。
背景技术
在电子地图场景中,需要对兴趣点(POI Point of Interest)数据进行计算和分类,电子地图上一般采用气泡图标来表示POI,比如电子地图上的景点、政府机构、公司、商场以及饭馆等。对于POI而言,反映POI类型的一个重要特征是POI的规范名称,现有技术中,基于人工经验的POI名称优选方法能够短平快的解决需求,然而该方法时效性差、不够灵活,当某个来源的名称质量发生变化时无法及时的发现和更新,为此,机器学习(ML,Machine Learning)提供了训练适当的名称选择模型来支持上述应用的方案。其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术,在兴趣点名称选择的领域中,也就是通过利用数字计算机或者数字计算机控制的机器实现对地图信息中POI的名称进行识别。但是这一过程中,基于传统机器排序的POI名称优选方法采用词袋模型,特征高纬度、高稀疏、表达能力弱,最终效果一般。
发明内容
有鉴于此,本发明实施例提供一种兴趣点名称选择模型训练方法、使用方法、装置及存储介质,能够实现筛选电子地图中的兴趣点的规范名称,确定符合命名规则的兴趣点候选名称,提高用户的使用体验,。
本发明实施例的技术方案是这样实现的:
本发明提供了一种兴趣点名称选择模型训练方法,包括:
获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量;
根据所述兴趣点数据构造兴趣点名称选择模型的训练样本;
通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据;
其中,所述待排序数据包括:第一候选名称和第二候选名称;
通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;
通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数。
上述方案中,所述方法还包括:
对所述训练样本中的每个文本数据进行分析处理,得到所述每个文本数据所对应的标签信息,其中,所述标签信息包括至少以下之一:
角色标签、句法标签和语义标签中,其中,所述角色标签用于表征所述训练样本中各个词语的类型,所述句法标签用于表征所述训练样本中各个词语之间的从属关系,所述语义标签用于表征所述训练样本中各个词语的重要程度。
上述方案中,所述方法还包括:
获取与所述每一个兴趣点数据中的核心趣点数据相对应的补充文本信息,其中,所述补充文本信息包括至少以下之一:
所述核心趣点数据相对应的品牌识别结果、子兴趣点识别结果和所述核心趣点数据对应的分类结果。
上述方案中,所述通过所述兴趣点名称选择模型的排序网络对所述第一比较结果和第二比较结果进行处理,包括:
通过所述排序网络的全连接层网络确定所述第一比较结果对应的第一评分;
通过所述排序网络的全连接层网络确定所述第二比较结果对应的第二评分;
通过所述排序网络的生长曲线函数对所述第一评分和所述第二评分进行处理,以确定所述第一评分和所述第二评分的比值,其中,所述第一评分和所述第二评分的比值用于表征所述第一评分和所述第二评分的规范性的概率;
根据所述第一评分和所述第二评分的比值与规范性阈值的比较结果,在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称。
本发明实施例还提供了一种兴趣点名称选择模型的使用方法,其特征在于,所述方法包括:
获取待处理的兴趣点数据集合;
对所述兴趣点数据集合中的兴趣点名称数据进行组合,形成相应的兴趣点名称样本对;
通过所述兴趣点名称选择模型的特征提取网络,提取与所述兴趣点名称样本对相对应的特征向量;
通过所述兴趣点名称选择模型的排序网络,对所述兴趣点名称样本对相对应的特征向量进行排序处理,获取符合命名规则的兴趣点候选名称;
确定所述待处理的兴趣点数据集合所对应的所有样本对的兴趣点名称,以实现对兴趣点的名称进行规范化处理。
本发明实施例还提供了一种兴趣点名称选择模型训练装置,所述装置包括:
分词模块,用于获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量;
样本构造模块,用于根据所述兴趣点数据构造兴趣点名称选择模型的训练样本;
特征提取网络训练模块,用于通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据;
其中,所述待排序数据包括:第一候选名称和第二候选名称;
排序网络训练模块,用于通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;
所述特征提取网络训练模块,用于通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数;
所述排序网络训练模块,用于通过所获取的符合命名规则的兴趣点候选名称,调整所述排序网络的参数。
上述方案中,
所述分词模块,用于对所述兴趣点数据进行数据筛选处理,以实现获取符合文法要求的兴趣点数据;
所述分词模块,用于触发目标分词库,并通过所述目标分词库对所述符合文法要求的兴趣点数据进行分词处理,以获得词语级兴趣点数据;
所述分词模块,用于对所述词语级兴趣点数据进行向量化处理,形成兴趣点数据的多维词语级向量。
上述方案中,
所述样本构造模块,用于确定每一个兴趣点数据中的核心趣点数据和普通兴趣点数据;
所述样本构造模块,用于根据所述每一个兴趣点数据中的核心趣点数据和普通兴趣点数据,按照相应的数据集文本规则,组成相应的单一数据集样本;
所述样本构造模块,用于确定所述单一数据集样本的标签,其中,所述标签用于表征所述述单一数据集样本中各个参数之间的比较结果。
上述方案中,
所述样本构造模块,用于对所述训练样本中的每个文本数据进行分析处理,得到所述每个文本数据所对应的标签信息,其中,所述标签信息包括至少以下之一:
角色标签、句法标签和语义标签中,其中,所述角色标签用于表征所述训练样本中各个词语的类型,所述句法标签用于表征所述训练样本中各个词语之间的从属关系,所述语义标签用于表征所述训练样本中各个词语的重要程度。
上述方案中,
所述样本构造模块,用于获取与所述每一个兴趣点数据中的核心趣点数据相对应的补充文本信息,其中,所述补充文本信息包括至少以下之一:
所述核心趣点数据相对应的品牌识别结果、子兴趣点识别结果和所述核心趣点数据对应的分类结果。
上述方案中,
所述特征提取网络训练模块,用于通过所述特征提取网络的嵌入层网络利用所述兴趣点数据相对应的词语级向量,对所述训练样本进行词语向量矩阵转换;
所述特征提取网络训练模块,用于通过所述特征提取网络的卷积层网络对所述词语向量矩阵转换的结果进行点乘求和处理;
所述特征提取网络训练模块,用于通过所述特征提取网络的池化层网络对所述点乘求和处理的结果进行池化处理,提取与所述训练样本相对应的特征向量;
所述特征提取网络训练模块,用于确定与所述训练样本所包括的待排序数据相对应的特征向量。
上述方案中,
所述排序网络训练模块,用于确定所述待排序数据中的第一候选名称与核心趣点数据的相关性的第一比较结果;
所述排序网络训练模块,用于确定所述待排序数据中的第二候选名称与所述核心趣点数据的相关性的第二比较结果;
所述排序网络训练模块,用于通过所述兴趣点名称选择模型的排序网络对所述第一比较结果和第二比较结果进行处理,以实现在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称。
上述方案中,
所述排序网络训练模块,用于通过所述排序网络的全连接层网络确定所述第一比较结果对应的第一评分;
所述排序网络训练模块,用于通过所述排序网络的全连接层网络确定所述第二比较结果对应的第二评分;
所述排序网络训练模块,用于通过所述排序网络的生长曲线函数对所述第一评分和所述第二评分进行处理,以确定所述第一评分和所述第二评分的比值,其中,所述第一评分和所述第二评分的比值用于表征所述第一评分和所述第二评分的规范性的概率;
所述排序网络训练模块,用于根据所述第一评分和所述第二评分的比值与规范性阈值的比较结果,在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称。
上述方案中,
所述特征提取网络训练模块,用于根据所述兴趣点名称选择模型能够根据所述第一评分和所述第二评分的比值与规范性阈值的比较结果,调整所述兴趣点名称选择模型中特征提取网络的参数;
所述排序网络训练模块,用于根据所述兴趣点名称选择模型能够根据所述第一评分和所述第二评分的比值与规范性阈值的比较结果,调整所述兴趣点名称选择模型中排序网络的参数;以实现,
直至能够实现在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称时,确定所述兴趣点名称选择模型的特征提取网络的参数和和所述排序网络的参数。
本发明实施例还提供了一种兴趣点名称选择模型装置,所述装置包括:
数据传输模块,用于获取待处理的兴趣点数据集合;
所述数据传输模块,用于对所述兴趣点数据集合中的兴趣点名称数据进行组合,形成相应的兴趣点名称样本对;
特征提取网络模块,用于通过所述兴趣点名称选择模型的特征提取网络,提取与所述兴趣点名称样本对相对应的特征向量;
排序网络模块,用于通过所述兴趣点名称选择模型的排序网络,对所述兴趣点名称样本对相对应的特征向量进行排序处理,获取符合命名规则的兴趣点候选名称;
所述排序网络模块,用于确定所述待处理的兴趣点数据集合所对应的所有样本对的兴趣点名称,以实现对兴趣点的名称进行规范化处理。
本发明实施例还提供了一种兴趣点名称选择模型的训练装置,所述训练装置包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的兴趣点名称选择模型的训练方法,或者,实现前序的兴趣点名称选择模型的使用方法。
本发明实施例具有以下有益效果:
通过获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量;根据所述兴趣点数据构造兴趣点名称选择模型的训练样本;通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据;通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数,以使得训练得到的兴趣点名称选择模型能够在不同数据来源的兴趣点数据中选择符合命名规则的兴趣点候选名称,减少了由于非命名规则的兴趣点的名称引起的用户使用错误,有效提升了用户的使用体验。
附图说明
图1为本发明实施例提供的兴趣点名称选择模型训练方法的使用场景示意图;
图2为本发明实施例提供的兴趣点名称选择模型的训练装置的组成结构示意图;
图3为本发明实施例提供的兴趣点名称选择模型的训练方法一个可选的流程示意图;
图4为本发明实施例中textCnn网络的工作原理示意图;
图5为本发明实施例提供的兴趣点名称选择模型的训练方法的特征提取过程示意图;
图6为本发明实施例中生成文本特征数据的一个示意图;
图7为本发明实施例提供的兴趣点名称选择模型装置的组成结构示意图;
图8为本发明实施例提供的兴趣点名称选择模型的使用方法一个可选的流程示意图;
图9为本发明实施例提供的兴趣点名称选择模型的使用方法一个可选的流程示意图;
图10为本发明实施例Word2Vector工具包的加载示意图;
图11为本发明实施例提供的兴趣点名称选择模型一个可选的训练过程示意图;
图12为本发明实施例中一个可选TextCNN网络进行特征提取的示意图;
图13为本发明实施例中一个可选TextCNN网络进行特征提取的示意图;
图14为本发明实施例中一个可选的兴趣点显示示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)兴趣点,用于表征相应的位置属性,可以是具有辨识性的建筑、区域(如城市)、景观(如景点)和第三方服务实体(如商店、餐饮、住宿)等可表征场景的信息。
2)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
3)候选名称,对于同一个兴趣点,不同的数据库可以使用不同的候选名称表征同一个兴趣点,未免用户使用过程中造成混乱,因此需要对候选名称进行筛选,确定符合命名规则的兴趣点候选名称。
4)FC层:全连接层,Softmax层:Softmax归一化函数;Query:数据文本。
图1为本发明实施例提供的兴趣点名称选择模型训练方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够显示相应兴趣点信息的软件的客户端,例如电子地图的客户端或插件,用户通过相应的客户端可以获得兴趣点信息并进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述兴趣点名称选择模型并对所述兴趣点名称选择模型进行训练,以通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数,以实现通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称,并通过终端(终端10-1和/或终端10-2)展示兴趣点名称选择模型所获取的符合命名规则的兴趣点候选名称。当然,,本发明所提供的兴趣点名称选择模型可以应用于电子地图,在电子地图中通常会对不同数据来源的POI的名称进行筛选,最终在用户界面(UserInterface,UI)上呈现出针对该POI的符合命名规则的兴趣点候选名称,POI分类结果的准确性直接影响了用户体验。电子地图的后台数据库每天都会收到大量不同来源的POI数据,所获取的符合命名规则的兴趣点候选名称还可以供其他应用程序调用。
当然在通过兴趣点名称选择模型对兴趣点数据处理以获取符合命名规则的兴趣点候选名称之前,还需要对兴趣点名称选择模型进行训练,具体包括:获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量;根据所述兴趣点数据构造兴趣点名称选择模型的训练样本;通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据;其中,所述待排序数据包括:第一候选名称和第二候选名称;通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数,由此实现对兴趣点名称选择模型的训练。
下面对本发明实施例的兴趣点名称选择模型的训练装置的结构做详细说明,兴趣点名称选择模型的训练装置可以各种形式来实施,如带有兴趣点名称选择模型训练功能的专用终端,也可以为设置有兴趣点名称选择模型训练功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的兴趣点名称选择模型的训练装置的组成结构示意图,可以理解,图2仅仅示出了兴趣点名称选择模型的训练装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的兴趣点名称选择模型的训练装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。兴趣点名称选择模型训练装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的兴趣点名称选择模型的训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的兴趣点名称选择模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的兴趣点名称选择模型训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的兴趣点名称选择模型的训练装置采用软硬件结合实施的示例,本发明实施例所提供的兴趣点名称选择模型的训练装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的兴趣点名称选择模型训练方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的兴趣点名称选择模型的训练装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的兴趣点名称选择模型训练方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持兴趣点名称选择模型训练装置的操作。这些数据的示例包括:用于在兴趣点名称选择模型训练装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从兴趣点名称选择模型训练方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的兴趣点名称选择模型的训练装置可以采用软件方式实现,图2示出了存储在存储器202中的兴趣点名称选择模型的训练装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括兴趣点名称选择模型的训练装置,兴趣点名称选择模型的训练装置中包括以下的软件模块:分词模块2081,样本构造模块2082、特征提取网络训练模块2083和排序网络训练模块2084。当兴趣点名称选择模型的训练装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的兴趣点名称选择模型训练方法,其中,兴趣点名称选择模型的训练装置中各个软件模块的功能,包括:
分词模块2081,用于获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量;
样本构造模块2082,用于根据所述兴趣点数据构造兴趣点名称选择模型的训练样本;
特征提取网络训练模块2083,用于通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据;
其中,所述待排序数据包括:第一候选名称和第二候选名称;
排序网络训练模块2084,用于通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;
所述特征提取网络训练模块2083,用于通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数;
所述排序网络训练模块2084,用于通过所获取的符合命名规则的兴趣点候选名称,调整所述排序网络的参数。
结合图2示出的兴趣点名称选择模型的训练装置说明本发明实施例提供的兴趣点名称选择模型的训练方法,参见图3,图3为本发明实施例提供的兴趣点名称选择模型的训练方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行兴趣点名称选择模型的训练装置的各种电子设备执行,例如可以是如带有兴趣点名称选择模型的训练功能的专用终端、服务器或者服务器集群。下面针对图3示出的步骤进行说明。
步骤301:获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量。
在本发明的一个实施例中,对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量,可以通过以下方式实现:
对所述兴趣点数据进行数据筛选处理,以实现获取符合文法要求的兴趣点数据;触发目标分词库,并通过所述目标分词库对所述符合文法要求的兴趣点数据进行分词处理,以获得词语级兴趣点数据;对所述词语级兴趣点数据进行向量化处理,形成兴趣点数据的多维词语级向量。其中,兴趣点通常表示一个地理位置区域,该区域中的位置都可以作为该地理兴趣点的一部分,而且具备广泛的用户接受程度。例如,以兴趣点为“中国技术交易大厦”为例,大楼中的任一层和任一房间,都是“中国技术交易大厦”的一部分,而且当用户提及中国技术交易大厦时,所指的就是该楼中的位置的集合。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度,然后再标记下来。每个POI包含四方面信息,名称、类别、坐标、分类,全面的POI信息是导航地图或者位置查询的基础,及时的POI兴趣点能提醒用户路况的分支及周边建筑的详尽信息,也能方便导航用户所需要的各个地方。但是所采集的POI的数据中,POI名称往往存在着名称不规范、下线、低置信度等缺陷,因此通过对兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量,同时避免POI名称存在的名称不规范、下线、低置信度等缺陷。
步骤302:根据所述兴趣点数据构造兴趣点名称选择模型的训练样本。
在本发明的一些实施例中,根据所述兴趣点数据构造兴趣点名称选择模型的训练样本,可以通过以下方式实现:
确定每一个兴趣点数据中的核心趣点数据和普通兴趣点数据;根据所述每一个兴趣点数据中的核心趣点数据和普通兴趣点数据,按照相应的数据集文本规则,组成相应的单一数据集样本;确定所述单一数据集样本的标签,其中,所述标签用于表征所述述单一数据集样本中各个参数之间的比较结果。
其中,候选POI数据集中的数据可以分为两类,一类是不经常发生变化的核心兴趣点数据(core POI),有且只有一条,用来保证POI的实体稳定性;另一类为经常发生变化的普通POI,其数量为至少两条,用来保证线上POI数据的实体规范性。线上POI名称的优选过程即为在和core POI名称保持一致的前提下,从普通POI中选出一个规范的名称。由此,构造出的数据集为(Ci,Pi1,Pi2)格式的样本对集合,其中Ci为第i个样本对的core POI名称,Pi1为第i个样本对的候选名称1,Pi2为第i个样本对的候选名称2。若Pi1比Pi2规范,该样本对的标签为1,否则标签为0。最后按照9:1的比例进行划分,以构造相应的训练样本。
在本发明的一些实施例中,还可以对所述训练样本中的每个文本数据进行分析处理,得到所述每个文本数据所对应的标签信息,其中,所述标签信息包括至少以下之一:
角色标签、句法标签和语义标签中,其中,所述角色标签用于表征所述训练样本中各个词语的类型,所述句法标签用于表征所述训练样本中各个词语之间的从属关系,所述语义标签用于表征所述训练样本中各个词语的重要程度。
在本发明的一些实施例中,所述方法还包括:
获取与所述每一个兴趣点数据中的核心趣点数据相对应的补充文本信息,其中,所述补充文本信息包括至少以下之一:
所述核心趣点数据相对应的品牌识别结果、子兴趣点识别结果和所述核心趣点数据对应的分类结果。
其中,以文本数据为“中国技术交易大厦”为例,“中国”这个词语的角色标签为国家名,“技术”和“交易”这两个词语的角色标签均为专用名,“大厦”这个词语的角色标签为类别名。句法标签用于表示文本数据中各个词语之间的从属关系,以“腾讯(深圳)有限公司”为例,“腾讯有限公司”的句法标签为一级名称,“(深圳)”的句法标签为二级名称。语义标签用于表示文本数据中各个词语的重要程度,以“腾讯北京大厦”为例,“北京”的语义标签为主词,“大厦”的语义标签为从词。
步骤303:通过兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量。
由此以形成与所述训练样本相对应的待排序数据;其中,所述待排序数据包括:第一候选名称和第二候选名称。
步骤304:通过兴趣点名称选择模型的排序网络,对待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称。
在本发明的一些实施例中,通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据,可以通过以下方式实现:
通过所述特征提取网络的嵌入层网络利用所述兴趣点数据相对应的词语级向量,对所述训练样本进行词语向量矩阵转换;通过所述特征提取网络的卷积层网络对所述词语向量矩阵转换的结果进行点乘求和处理;通过所述特征提取网络的池化层网络对所述点乘求和处理的结果进行池化处理,提取与所述训练样本相对应的特征向量;确定与所述训练样本所包括的待排序数据相对应的特征向量。
在本发明的一些实施例中,通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称,可以通过以下方式实现:
确定所述待排序数据中的第一候选名称与核心趣点数据的相关性的第一比较结果;确定所述待排序数据中的第二候选名称与所述核心趣点数据的相关性的第二比较结果;通过所述兴趣点名称选择模型的排序网络对所述第一比较结果和第二比较结果进行处理,以实现在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称。
在本发明的一些实施例中,通过所述兴趣点名称选择模型的排序网络对所述第一比较结果和第二比较结果进行处理,可以通过以下方式实现:
通过所述排序网络的全连接层网络确定所述第一比较结果对应的第一评分;通过所述排序网络的全连接层网络确定所述第二比较结果对应的第二评分;通过所述排序网络的生长曲线函数对所述第一评分和所述第二评分进行处理,以确定所述第一评分和所述第二评分的比值,其中,所述第一评分和所述第二评分的比值用于表征所述第一评分和所述第二评分的规范性的概率;根据所述第一评分和所述第二评分的比值与规范性阈值的比较结果,在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称。
下面以文本卷积神经网络(textCnn textConvolutional Neural Network)作为兴趣点名称选择模型中特征提取网络为例说明特征提取网络的工作过程。
参考图4,图4为本发明实施例中textCnn网络的工作原理示意图;其中,输入层是句子中的词语对应的word vector依次(从上到下)排列的矩阵,假设句子有n个词语级向量,vector的维数为k,那么这个矩阵就是n*k结构的。输入层通过卷积操作得到若干个Feature Map,卷积窗口的大小为h*k,其中h表示纵向词语的个数,而k表示word vector的维数。通过这样一个大型的卷积窗口,将得到若干个列数为1的Feature Map。从之前一维的Feature Map中提出最大的值,文中解释最大值代表着最重要的信号。由此通过池化层地处理可以解决可变长度的句子输入问题。最终池化层的输出为各个Feature Map的最大值们,即一个一维的向量,池化层的一维向量的输出通过全连接的方式,连接一个Softmax层,以实现通过Softmax层输出相应的概率信息,其中,Softmax层可根据任务的需要进行调整。
参考图5,图5为本发明实施例提供的兴趣点名称选择模型的训练方法的特征提取过程示意图;其中,文本数据中可以包括POI name、POI source以及addi_info。其中,POIname表示POI名称,如“腾讯科技大厦”。POI source表示POI来源,比如是从地图测绘公司获取的POI,或者从其不同数据来源中获取的。addi_info表示从不同应用程序中获取的补充信息,比如,所述核心趣点数据相对应的品牌识别结果、子兴趣点识别结果和所述核心趣点数据对应的分类结果,addi_info能够丰富PIO信息类型。对文本数据进行分词处理,得到多个分词结果,如W1、W2……Wn,同时,对文本数据进行名称分析处理,得到每个分词的标签,如角色标签R1、R2……Rn,句法标签S1、S2……Sn,语义标签E1、E2……En。接下来,将角色标签、句法标签和语义标签采用onehot处理,转化为a维的稀疏向量。此外,根据词向量文件对分词结果进行赋值,得到b维的向量,最后将a维的稀疏向量和b维的向量进行拼接,得到(a+b)维的输入向量。其次,根据a维的稀疏向量以及b维的稀疏向量确定文本卷积核,假设a维的稀疏向量为200维,b维的稀疏向量为65维,那么输入向量为265维。参考图6,图6为本发明实施例中生成文本特征数据的一个示意图,若文本卷积层采用宽度为265,高度分别为2、3和4的三种一维文本卷积核,如图6所示,每个卷积核可以有两个输出,高度为4的文本卷积核有1号卷积核和2号卷积核,高度为3的文本卷积核有3号卷积核和4号卷积核,高度为2的文件卷积核有5号卷积核和6号卷积核,对卷积核的每个元素值进行随机初始化,符合截断正态分布,随机赋值的范围可以在±0.1之间。卷积核沿着高度方向移动,每次移动步长为1,与词向量矩阵做点乘求和操作。然后,文本池化(pooling)层可以采用1-max pooling,分词结果数量不同的文本数据经过pooling层之后能够定长表示。由池化层输出第一卷积输出结果。继续以6个卷积核输出的结果为例,由1号卷积核、2号卷积核、3号卷积核、4号卷积核、5号卷积核和6号卷积核分别输出6个卷积输出结果,这些卷积输出结果称为第一卷积输出结果,于是需要从每个卷积输出结果中选择出卷积输出值中最大的一个,作为目标卷积处理结果,即1号卷积的目标卷积处理结果为a、2号卷积核的目标卷积处理结果为b、3号卷积核的目标卷积处理结果为c、4号卷积核的目标卷积处理结果为d、5号卷积核的目标卷积处理结果为e以及6号卷积核的目标卷积处理结果为f。最后,将a、b、c、d、e和f拼接后得到文本特征数据。
在本发明的一些实施例中,以RankNet排序网络作为兴趣点名称选择模型的排序网络进行说明。
其中,通过前序步骤301-304,core POI文本、候选名称1文本、候选名称2文本的向量化表示,在此基础上进行名称排序比较以获取符合命名规则的兴趣点候选名称。这一过程中,首先需要对候选名称向量化结果和core POI的向量化结果进行相关性计算。计算公式为:
S(Vc,Vp)=(Vc-Vp)2
其中Vc、Vp分别为core POI文本、候选名称的向量化结果。分别计算候选名称1、候选名称2与core POI文本的相关性结果Vcp1、Vcp2。之后Vcp1、Vcp2输入所提供的RankNet排序网络,经过全连接层1、全连接层2计算后分别得到分数S1、S2。最后将S1、S2输入sigmoid函数,得到候选名称1比候选名称2规范的概率值P。并与相应的概率阈值进行比较,以获取符合命名规则的兴趣点候选名称。
步骤305:通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数。
在本发明的一些实施例中,通过所述兴趣点的标准文本与所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数,包括:
根据所述兴趣点名称选择模型能够根据所述第一评分和所述第二评分的比值与规范性阈值的比较结果,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数;以实现,直至能够实现在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称时,确定所述兴趣点名称选择模型的特征提取网络的参数和和所述排序网络的参数,至此,完成了对兴趣点名称选择模型的训练。
下面对本发明实施例的兴趣点名称选择模型装置的结构做详细说明,兴趣点名称选择模型装置可以各种形式来实施,如带有兴趣点名称选择模型使用功能的专用终端,也可以为设置有兴趣点名称选择模型使用功能的服务器,例如前序图1中的服务器700。图7为本发明实施例提供的兴趣点名称选择模型装置的组成结构示意图,可以理解,图7仅仅示出了兴趣点名称选择模型装置的示例性结构而非全部结构,根据需要可以实施图7示出的部分结构或全部结构。
本发明实施例提供的兴趣点名称选择模型装置包括:至少一个处理器701、存储器702、用户接口703和至少一个网络接口704。兴趣点名称选择模型训练装置中的各个组件通过总线系统705耦合在一起。可以理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统705。
其中,用户接口703可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器702可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器702能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的兴趣点名称选择模型装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的兴趣点名称选择模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的兴趣点名称选择模型训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的兴趣点名称选择模型装置采用软硬件结合实施的示例,本发明实施例所提供的兴趣点名称选择模型装置可以直接体现为由处理器701执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器702,处理器701读取存储器702中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器701以及连接到总线705的其他组件)完成本发明实施例提供的兴趣点名称选择模型训练方法。
作为示例,处理器701可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的兴趣点名称选择模型装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器701来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的兴趣点名称选择模型训练方法。
本发明实施例中的存储器702用于存储各种类型的数据以支持兴趣点名称选择模型训练装置的操作。这些数据的示例包括:用于在兴趣点名称选择模型训练装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从兴趣点名称选择模型训练方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的兴趣点名称选择模型装置可以采用软件方式实现,图7示出了存储在存储器702中的兴趣点名称选择模型装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器702中存储的程序的示例,可以包括兴趣点名称选择模型装置,兴趣点名称选择模型装置中包括以下的软件模块:数据传输模块7081,特征提取网络模块7082和排序网络模块7083。当兴趣点名称选择模型装置中的软件模块被处理器701读取到RAM中并执行时,将实现本发明实施例提供的兴趣点名称选择模型训练方法,其中,兴趣点名称选择模型装置中各个软件模块的功能,包括:
数据传输模块7081,用于获取待处理的兴趣点数据集合;
所述数据传输模块7081,用于对所述兴趣点数据集合中的兴趣点名称数据进行组合,形成相应的兴趣点名称样本对;
特征提取网络模块7082,用于通过所述兴趣点名称选择模型的特征提取网络,提取与所述兴趣点名称样本对相对应的特征向量;
排序网络模块7083,用于通过所述兴趣点名称选择模型的排序网络,对所述兴趣点名称样本对相对应的特征向量进行排序处理,获取符合命名规则的兴趣点候选名称;
所述排序网络模块7083,用于确定所述待处理的兴趣点数据集合所对应的所有样本对的兴趣点名称,以实现对兴趣点的名称进行规范化处理。
图7示出的兴趣点名称选择模型装置说明本发明实施例提供的兴趣点名称选择模型的训练方法,参见图8,图8为本发明实施例提供的兴趣点名称选择模型的使用方法一个可选的流程示意图,可以理解地,图8所示的步骤可以由运行兴趣点名称选择模型装置的各种电子设备执行,例如可以是如带有兴趣点名称选择模型的使用功能的专用终端、服务器或者服务器集群。下面针对图8示出的步骤进行说明。
步骤801:获取待处理的兴趣点数据集合;
步骤802:对所述兴趣点数据集合中的兴趣点名称数据进行组合,形成相应的兴趣点名称样本对;
步骤803:通过所述兴趣点名称选择模型的特征提取网络,提取与所述兴趣点名称样本对相对应的特征向量;
步骤804:通过所述兴趣点名称选择模型的排序网络,对所述兴趣点名称样本对相对应的特征向量进行排序处理,获取符合命名规则的兴趣点候选名称;
步骤805:确定所述待处理的兴趣点数据集合所对应的所有样本对的兴趣点名称。
由此,实现对兴趣点的名称进行规范化处理。
下面对本发明实施例所提供的兴趣点名称选择过程进行说明,其中,本发明实施例中,使用TextCNN网络作为特征提取网络,RankNet网络作为排序网络,兴趣点为“中国技术交易大厦”。
参考图9,图9为本发明实施例提供的兴趣点名称选择模型的使用方法一个可选的流程示意图,在本发明的一个实施例中,如图9所示,兴趣点名称选择过程包括以下步骤:
步骤901:词向量预训练;步骤902:离线训练;步骤903:线上预测,下面分别进行说明。
1)、词向量预训练包括以下处理步骤:
(1)从数据库中导出全量的POI数据,过滤掉名称不规范、下线、低置信度等数据。
(2)循环调用名称理解服务,对每一条POI数据的名称进行分词处理。
(3)加载Word2Vector工具包,图10为本发明实施例Word2Vector工具包的加载示意图,参考图10,Word2Vector工具包的训练得到每个词的向量化表示,并保存为文本文件,便于后续使用。其中每个词向量为200维的行向量。
由于名称属于文本数据,因此首先需要解决的是文本表示问题,将通过上述步骤,可以实现将文本数据转化成电子设备可理解的数值型数据,即词向量。
2)离线训练包括以下处理步骤:
数据集构造、样本对处理、特征提取和排序。
图11为本发明实施例提供的兴趣点名称选择模型一个可选的训练过程示意图,参考图11,包括以下步骤:
步骤1101:数据集构造;
其中,每条线上POI数据是从若干条候选POI数据中优选产生。图12为本发明实施例中特征提取示意图,参考图12,候选POI数据集中的数据可以分为两类,一类是不经常发生变化的core POI,有且只有一条,用来保证线上POI的实体稳定性;另一类为经常发生变化的普通POI,存在多条,用来保证线上POI数据的实体规范性。线上POI名称的优选过程即为在和core POI名称保持一致的前提下,从普通POI中选出一个规范的名称(若core POI的名称比普通POI更为规范,也可选择core POI名称作为线上名称)。在此基础上,构造出的数据集为(Ci,Pi1,Pi2)格式的样本对集合,其中Ci为第i个样本对的core POI名称,Pi1为第i个样本对的候选名称1,Pi2为第i个样本对的候选名称2。若Pi1比Pi2更加符合文法规范,该样本对的标签为1,否则标签为0。优选的,最后按照9:1的比例进行划分,将构造好的全部数据集分为训练集和测试集。以“中国技术交易大厦”为例,不同数据来源的兴趣点数据中兴趣点“中国技术交易大厦”的名称并不相同,包括“商务楼宇”“技术交易中心”等等,其中core POI名称为“中国技术交易大厦”Pi1为商务楼宇”Pi2为技术交易中心,造出的数据集为(中国技术交易大厦,商务楼宇,技术交易中心)格式的样本对集合。
步骤1102:样本对处理;
a)调用名称理解服务,对候选名称1、候选名称2进行分词以及角色、句法、语义标注处理。
b)对core POI名称补充品牌识别结果、子点识别结果、分类结果作为core POI的额外文本,用以提升模型训练效果,之后调用名称理解服务对其进行分词。
步骤1103:特征提取;
a)Embedding嵌入层加载预训练得到的词向量文件,图13为本发明实施例中特征提取示意图;参考图13,分别对core POI文本(包括名称、品牌识别结果、子点识别结果、分类识别结果)、候选名称1、候选名称2的分词结果进行词向量矩阵的转换。若某个分词结果在词向量文件中没有找到,则进行高斯随机化赋值,同样为200维的行向量;同时将候选名称1、候选名称2所对应的角色、句法、语义标签采用oneHot处理,转化为65维的稀疏向量;最后将词向量和oneHot向量拼接为265维的输入向量。
b)卷积层采用宽度为265、高度分别为(2,3,4)的三种一维卷积核,每种卷积核有2个输出。卷积核的每个元素值随机初始化,符合截断正态分布。卷积核沿着高度方向移动,每次移动步长为1,与词向量矩阵做点乘求和操作。
c)池化层采用1-max pooling,分词个数不同的core POI文本、候选名称1、候选名称2经过pooling层之后能够定长表示。
步骤1104:排序比较;
通过前序步骤,实现了corePOI文本、候选名称1文本、候选名称2文本的向量化表示,在此基础上进行名称排序比较。
a)由于名称优选是在和core POI名称一致的前提下,选出一个相对比较规范的名称,因此需要对候选名称向量化结果和core POI的向量化结果进行相关性计算。计算公式为:
S(Vc,Vp)=(Vc-Vp)2
其中Vc、Vp分别为core POI文本、候选名称的向量化结果(等长的一维向量)。分别计算候选名称1、候选名称2与core POI文本的相关性结果Vcp1、Vcp2。
b)将Vcp1、Vcp2输入RankNet排序网络,经过全连接层1、全连接层2计算后分别得到分数S1、S2。
c)将S1、S2输入sigmoid函数,得到候选名称1比候选名称2规范的概率值P。若P>0.5,表明候选名称1比候选名称2更规范;否则,候选名称2比候选名称1更规范。
至此完成了对兴趣点名称选择模型的训练,可以将训练完成的兴趣点名称选择模型部署于相应的地图应用程的服务器中;
其中:线上预测包括以下处理步骤:
(1)将候选名称集合中的名称进行两两组合,并与该集合中的core POI名称组成(C,P1,P2)样本对。
由此,可以建立与兴趣点“中国技术交易大厦”相关联的所有兴趣点的样本对。
(2)线上平台对样本对进行预处理,包括文本数据的分词、向量化表示等(3)加载训练好的模型,计算各个样本对中候选名称的得分,从而得到各个样本对两个名称中相对比较规范的名称。
(4)根据两两名称对优选结果,推导出全部候选名称集合中最规范的名称,即为最终结果。
由此完成了对于兴趣点“中国技术交易大厦”相关的所有候选兴趣点名的候选名称的筛选,实现了对兴趣点的名称进行规范化处理。其中,图14为本发明实施例中一个可选的兴趣点显示示意图,参考图14,通过对兴趣点“中国技术交易大厦”的名称进行规范化处理,用户可以在终端中获知规范化的兴趣点的名称。
有益技术效果:通过本申请所提供的技术方案,能够实现筛选电子地图中的兴趣点的规范名称,其中,相比于使用现有技术筛选兴趣点的名称,本申请所提供的技术方案筛选成功率超过74%,兴趣点的名称规范率提升了超过10%,减少了由于非命名规则的兴趣点的名称引起的用户使用错误,有效提高用户在使用查询相应兴趣点的名称时的使用体验。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种兴趣点名称选择模型训练方法,其特征在于,所述方法包括:
获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量,所述词语级向量用于进行词语向量矩阵转换;
确定每一个兴趣点数据中的核心趣点数据和普通兴趣点数据;
根据所述每一个兴趣点数据中的核心趣点数据和普通兴趣点数据,按照相应的数据集文本规则,组成相应的单一数据集样本;
确定所述单一数据集样本的标签,其中,所述标签用于表征所述述单一数据集样本中各个参数之间的比较结果;
根据所述单一数据集样本的标签,构造兴趣点名称选择模型的训练样本;
通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据;
其中,所述待排序数据包括:第一候选名称和第二候选名称;
通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;
通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数。
2.根据权利要求1所述的方法,其特征在于,所述对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量,包括:
对所述兴趣点数据进行数据筛选处理,以实现获取符合文法要求的兴趣点数据;
触发目标分词库,并通过所述目标分词库对所述符合文法要求的兴趣点数据进行分词处理,以获得词语级兴趣点数据;
对所述词语级兴趣点数据进行向量化处理,形成兴趣点数据的多维词语级向量。
3.根据权利要求1所述的方法,其特征在于,所述通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据,包括:
通过所述特征提取网络的嵌入层网络利用所述兴趣点数据相对应的词语级向量,对所述训练样本进行词语向量矩阵转换;
通过所述特征提取网络的卷积层网络对所述词语向量矩阵转换的结果进行点乘求和处理;
通过所述特征提取网络的池化层网络对所述点乘求和处理的结果进行池化处理,提取与所述训练样本相对应的特征向量;
确定与所述训练样本所包括的待排序数据相对应的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称,包括:
确定所述待排序数据中的第一候选名称与核心趣点数据的相关性的第一比较结果;
确定所述待排序数据中的第二候选名称与所述核心趣点数据的相关性的第二比较结果;
通过所述兴趣点名称选择模型的排序网络对所述第一比较结果和第二比较结果进行处理,以实现在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称。
5.根据权利要求4所述的方法,其特征在于,所述通过所述兴趣点的标准文本与所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数,包括:
根据所述兴趣点名称选择模型能够根据第一评分和第二评分的比值与规范性阈值的比较结果,调整所述兴趣点名称选择模型中特征提取网络的参数和排序网络的参数;以使,
直至能够实现在所述第一候选名称和第二候选名称中确定符合命名规则的兴趣点候选名称时,确定所述兴趣点名称选择模型的特征提取网络的参数和和所述排序网络的参数。
6.一种兴趣点名称选择模型的使用方法,其特征在于,所述方法包括:
获取待处理的兴趣点数据集合;
对所述兴趣点数据集合中的兴趣点名称数据进行组合,形成相应的兴趣点名称样本对;
通过所述兴趣点名称选择模型的特征提取网络,提取与所述兴趣点名称样本对相对应的特征向量;
通过所述兴趣点名称选择模型的排序网络,对所述兴趣点名称样本对相对应的特征向量进行排序处理,获取符合命名规则的兴趣点候选名称;
确定所述待处理的兴趣点数据集合所对应的所有样本对的兴趣点名称,以实现对兴趣点的名称进行规范化处理,其中,所述兴趣点名称选择模型根据权利要求1-5任意一项训练得到。
7.一种兴趣点名称选择模型训练装置,其特征在于,所述装置包括:
分词模块,用于获取不同数据来源的兴趣点数据,并对所述兴趣点数据进行分词处理,形成与所述兴趣点数据相对应的词语级向量,所述词语级向量用于进行词语向量矩阵转换;
样本构造模块,用于确定每一个兴趣点数据中的核心趣点数据和普通兴趣点数据;
所述样本构造模块,用于根据所述每一个兴趣点数据中的核心趣点数据和普通兴趣点数据,按照相应的数据集文本规则,组成相应的单一数据集样本;
所述样本构造模块,用于确定所述单一数据集样本的标签,其中,所述标签用于表征所述述单一数据集样本中各个参数之间的比较结果;
所述样本构造模块,用于根据所述单一数据集样本的标签,构造兴趣点名称选择模型的训练样本;
特征提取网络训练模块,用于通过所述兴趣点名称选择模型的特征提取网络,提取与所述训练样本相对应的特征向量,以形成与所述训练样本相对应的待排序数据;
其中,所述待排序数据包括:第一候选名称和第二候选名称;
排序网络训练模块,用于通过所述兴趣点名称选择模型的排序网络,对所述待排序数据进行排序处理,获取符合命名规则的兴趣点候选名称;
所述特征提取网络训练模块,用于通过所获取的符合命名规则的兴趣点候选名称,调整所述兴趣点名称选择模型中特征提取网络的参数;
所述排序网络训练模块,用于通过所获取的符合命名规则的兴趣点候选名称,调整所述排序网络的参数。
8.一种兴趣点名称选择模型装置,其特征在于,所述装置包括:
数据传输模块,用于获取待处理的兴趣点数据集合;
所述数据传输模块,用于对所述兴趣点数据集合中的兴趣点名称数据进行组合,形成相应的兴趣点名称样本对;
特征提取网络模块,用于通过所述兴趣点名称选择模型的特征提取网络,提取与所述兴趣点名称样本对相对应的特征向量;
排序网络模块,用于通过所述兴趣点名称选择模型的排序网络,对所述兴趣点名称样本对相对应的特征向量进行排序处理,获取符合命名规则的兴趣点候选名称;
所述排序网络模块,用于确定所述待处理的兴趣点数据集合所对应的所有样本对的兴趣点名称,以实现对兴趣点的名称进行规范化处理,其中,所述兴趣点名称选择模型根据权利要求1-5任意一项训练得到。
9.一种兴趣点名称选择模型的训练装置,其特征在于,所述训练装置包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至5任一项所述兴趣点名称选择模型的训练方法,或者,实现权利要求6所述的兴趣点名称选择模型的使用方法。
10.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至5任一项所述兴趣点名称选择模型的训练方法,或者,实现权利要求6所述的兴趣点名称选择模型的使用方法。
CN201910754946.XA 2019-08-15 2019-08-15 兴趣点名称选择模型训练方法、使用方法、装置及存储介质 Active CN110457706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910754946.XA CN110457706B (zh) 2019-08-15 2019-08-15 兴趣点名称选择模型训练方法、使用方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910754946.XA CN110457706B (zh) 2019-08-15 2019-08-15 兴趣点名称选择模型训练方法、使用方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110457706A CN110457706A (zh) 2019-11-15
CN110457706B true CN110457706B (zh) 2023-08-22

Family

ID=68486825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910754946.XA Active CN110457706B (zh) 2019-08-15 2019-08-15 兴趣点名称选择模型训练方法、使用方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110457706B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309834B (zh) * 2020-01-20 2023-05-12 腾讯云计算(北京)有限责任公司 一种无线热点与兴趣点的匹配方法及装置
CN111256571A (zh) 2020-01-20 2020-06-09 腾讯科技(深圳)有限公司 柔性电容触觉传感器及其制备方法和触觉传感系统
CN111552890B (zh) * 2020-04-30 2021-05-18 腾讯科技(深圳)有限公司 基于名称预测模型的名称信息处理方法、装置、电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138708A (zh) * 2015-09-30 2015-12-09 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN106462626A (zh) * 2014-06-13 2017-02-22 微软技术许可有限责任公司 利用深度神经网络对兴趣度建模
CN107656913A (zh) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 地图兴趣点地址提取方法、装置、服务器和存储介质
CN107798110A (zh) * 2017-11-01 2018-03-13 百度在线网络技术(北京)有限公司 兴趣点地址校验方法、装置、服务器及存储介质
CN108287816A (zh) * 2017-01-10 2018-07-17 腾讯科技(深圳)有限公司 兴趣点在线检测、机器学习分类器训练方法和装置
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108829761A (zh) * 2018-05-28 2018-11-16 苏州大学 一种兴趣点推荐方法、系统、介质及设备
CN109753653A (zh) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 实体名称识别方法、装置、计算机设备和存储介质
CN109800361A (zh) * 2019-02-11 2019-05-24 北京百度网讯科技有限公司 一种兴趣点名称的挖掘方法、装置、电子设备及存储介质
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质
CN110110017A (zh) * 2018-01-25 2019-08-09 阿里巴巴集团控股有限公司 一种兴趣点数据关联方法、装置及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619491B2 (en) * 2015-04-02 2017-04-11 Sas Institute Inc. Streamlined system to restore an analytic model state for training and scoring

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462626A (zh) * 2014-06-13 2017-02-22 微软技术许可有限责任公司 利用深度神经网络对兴趣度建模
CN105138708A (zh) * 2015-09-30 2015-12-09 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN108287816A (zh) * 2017-01-10 2018-07-17 腾讯科技(深圳)有限公司 兴趣点在线检测、机器学习分类器训练方法和装置
CN107656913A (zh) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 地图兴趣点地址提取方法、装置、服务器和存储介质
CN107798110A (zh) * 2017-11-01 2018-03-13 百度在线网络技术(北京)有限公司 兴趣点地址校验方法、装置、服务器及存储介质
CN110110017A (zh) * 2018-01-25 2019-08-09 阿里巴巴集团控股有限公司 一种兴趣点数据关联方法、装置及服务器
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108829761A (zh) * 2018-05-28 2018-11-16 苏州大学 一种兴趣点推荐方法、系统、介质及设备
CN109753653A (zh) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 实体名称识别方法、装置、计算机设备和存储介质
CN109800361A (zh) * 2019-02-11 2019-05-24 北京百度网讯科技有限公司 一种兴趣点名称的挖掘方法、装置、电子设备及存储介质
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
兴趣场约束下空间数据多尺度智能化表达研究;俞童;《中国优秀硕士学位论文全文数据库基础科学辑》(第6期);1-90 *

Also Published As

Publication number Publication date
CN110457706A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110457420B (zh) 兴趣点位置识别方法、装置、设备及存储介质
CN110457706B (zh) 兴趣点名称选择模型训练方法、使用方法、装置及存储介质
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN109376205B (zh) 挖掘地址兴趣点关系的方法、装置、设备及存储介质
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN110866093A (zh) 机器问答方法及装置
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN109522420A (zh) 一种获取学习需求的方法及系统
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN101076708B (zh) 地图目标的自动优先化
CN110647607A (zh) 一种基于图片识别的poi数据的验证方法和装置
CN113033516A (zh) 对象识别统计方法及装置、电子设备、存储介质
Abdolmajidi et al. Matching authority and VGI road networks using an extended node-based matching algorithm
CN112330510A (zh) 一种志愿推荐方法、装置、服务器及计算机可读存储介质
CN111696656A (zh) 一种互联网医疗平台的医生评价方法、装置
Wu et al. Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis
JP2000090255A (ja) 地図作成情報のような空間的に参照された情報を処理する方法およびシステム、該方法を実施するアプリケ―ションおよび装置
CN114329240A (zh) 选址特征筛选方法、装置、电子设备及存储介质
Yu et al. A heuristic approach to the generalization of complex building groups in urban villages
CN110990639B (zh) 一种教育信息化水平趋势分析的数据处理方法及装置
CN113032613A (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant