CN110909170A - 兴趣点知识图谱构建方法、装置、电子设备及存储介质 - Google Patents
兴趣点知识图谱构建方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110909170A CN110909170A CN201910967090.4A CN201910967090A CN110909170A CN 110909170 A CN110909170 A CN 110909170A CN 201910967090 A CN201910967090 A CN 201910967090A CN 110909170 A CN110909170 A CN 110909170A
- Authority
- CN
- China
- Prior art keywords
- interest
- interest point
- attribute
- point
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本申请公开了兴趣点知识图谱构建方法、装置、电子设备及存储介质,涉及人工智能领域,其中方法可包括:按照第一解析方式对获取自预定来源的页面内容进行解析,和/或,按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息;针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,则将该兴趣点与已有的兴趣点进行信息融合,若确定该兴趣点为新增的兴趣点,则将该兴趣点信息加入到兴趣点知识图谱中。应用本申请所述方案,可节省人力成本,并可提升处理效率等。
Description
技术领域
本申请涉及计算机应用领域,特别涉及人工智能领域的兴趣点知识图谱构建方法、装置、电子设备及存储介质。
背景技术
兴趣点(POI,Point Of Interest)泛指一切可以抽象为点的地理对象,如餐馆、景点、银行、小区、学校等均为兴趣点。可基于兴趣点信息构建兴趣点知识图谱。信息查询、服务搜索、精准营销以及出行导航等场景中均需要依赖大量且准确的兴趣点信息。
传统方式中,兴趣点信息都是通过采集人员携带相关设备进行外业采集,再将采集到的数据经过加工处理后得到的。这种方式需要耗费很大的人力成本,而且效率低下。
发明内容
有鉴于此,本申请提供了兴趣点知识图谱构建方法、装置、电子设备及存储介质。
一种兴趣点知识图谱构建方法,包括:
按照第一解析方式对获取自预定来源的页面内容进行解析,和/或按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息;
针对挖据出的任一兴趣点,若确定所述兴趣点为兴趣点知识图谱中已有的兴趣点,则将所述兴趣点与所述已有的兴趣点进行信息融合,若确定所述兴趣点为新增的兴趣点,则将所述兴趣点信息加入到所述兴趣点知识图谱中。
根据本申请一优选实施例,所述按照第一解析方式对获取自预定来源的页面内容进行解析包括:
针对包含兴趣点信息的页面内容,利用所配置的解析模板,从所述页面内容中提取出兴趣点信息。
根据本申请一优选实施例,所述按照第二解析方式对获取自任意来源的页面内容进行解析包括:
针对包含兴趣点信息的页面内容,进行以下处理:
对所述页面内容进行解析,从中提取出关键字-取值形式的数据;
对提取出的数据按照预定规则进行聚类,将每个聚类结果作为一个数据块;
针对每个数据块,若能够确定出所述数据块对应的属于兴趣点的主实体,则将所述主实体及对应的数据块中的数据作为挖掘出的兴趣点信息。
根据本申请一优选实施例,所述确定出属于兴趣点的主实体包括:
针对每个数据块,在包含所述数据块的预定区域及页面标题内,识别属于兴趣点的候选实体;
若识别到至少一个候选实体,则针对每个候选实体,分别获取所述候选实体的预定特征,基于所述预定特征及训练得到的分类模型确定出所述候选实体是否为主实体。
根据本申请一优选实施例,所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;
所述挖掘出兴趣点信息之后,进一步包括:对挖据出的兴趣点的属性和属性值进行规范化处理。
根据本申请一优选实施例,所述对挖据出的兴趣点的属性和属性值进行规范化处理包括:
将所述属性映射为所定义的知识图谱提要中的属性表示;
过滤掉所述属性值中的异常值;
将所述属性值转换为规范格式。
根据本申请一优选实施例,该方法进一步包括:
针对挖掘出的任一兴趣点,利用预定规则从所述兴趣点知识图谱中查找出可能同义的候选兴趣点;
分别将每个候选兴趣点与所述兴趣点组成一个兴趣点对;
针对每个兴趣点对,分别获取所述兴趣点对的预定特征,基于所述预定特征及训练得到的评估模型确定出所述兴趣点对的相似度评分;
根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点。
根据本申请一优选实施例,所述兴趣点对的预定特征包括:所述兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度;
其中,针对不同类型的属性值,分别采用不同的相似度计算方式。
根据本申请一优选实施例,所述根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点包括:
若所述相似度评分的最大值大于第一阈值,且所述相似度评分的最大值与所述相似度评分的次大值之间的差值大于第二阈值,则确定所述兴趣点为所述兴趣点知识图谱中已有的兴趣点。
根据本申请一优选实施例,所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;所述属性包括:单值属性和多值属性;
所述将所述兴趣点与所述已有的兴趣点进行信息融合包括:
针对所述兴趣点的任一单值属性,若所述已有的兴趣点中未包含所述单值属性,则将所述单值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述单值属性,但属性值不同,则在所述已有的兴趣点中保留来源可信度更高的所述单值属性的属性值;
针对所述兴趣点的任一多值属性,若所述已有的兴趣点中未包含所述多值属性,则将所述多值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述多值属性,但存在新增的属性值,则将来源可信度大于第三阈值的新增的属性值加入到所述已有的兴趣点中的所述多值属性的属性值中。
根据本申请一优选实施例,所述兴趣点信息进一步包括:兴趣点的评论信息;
所述将所述兴趣点与所述已有的兴趣点进行信息融合进一步包括:若所述已有的兴趣点中未包含所述评论信息,则将所述评论信息加入到所述已有的兴趣点中。
根据本申请一优选实施例,该方法进一步包括:针对所述兴趣点知识图谱中的兴趣点的评论信息,利用训练得到的序列标注模型,挖掘出其中的评论观点。
根据本申请一优选实施例,该方法进一步包括:针对所述兴趣点知识图谱中的兴趣点,根据所述兴趣点的基础属性信息确定出所述兴趣点的类别,和/或,获取所述兴趣点的预定属性特征和/或评论观点特征,根据获取到的特征及训练得到的分类模型确定出所述兴趣点的类别。
根据本申请一优选实施例,该方法进一步包括:从所述兴趣点知识图谱中查找出符合挖掘需求的兴趣点,将查找出的兴趣点或从中筛选出的部分兴趣点作为挖掘出的兴趣点集合。
根据本申请一优选实施例,所述从所述兴趣点知识图谱中查找出符合挖掘需求的兴趣点包括:
识别所述挖掘需求中的属性约束、评论观点约束和类别约束;
从所述兴趣点知识图谱中查找出符合识别出的所有约束的兴趣点。
一种兴趣点知识图谱构建装置,包括:内容解析单元以及数据融合单元;
所述内容解析单元,用于按照第一解析方式对获取自预定来源的页面内容进行解析,和/或按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息;
所述数据融合单元,用于针对挖据出的任一兴趣点,若确定所述兴趣点为兴趣点知识图谱中已有的兴趣点,则将所述兴趣点与所述已有的兴趣点进行信息融合,若确定所述兴趣点为新增的兴趣点,则将所述兴趣点信息加入到所述兴趣点知识图谱中。
根据本申请一优选实施例,所述内容解析单元针对获取自预定来源的包含兴趣点信息的页面内容,利用所配置的解析模板,从所述页面内容中提取出兴趣点信息。
根据本申请一优选实施例,所述内容解析单元针对获取自任意来源的包含兴趣点信息的页面内容,分别进行以下处理:对所述页面内容进行解析,从中提取出关键字-取值形式的数据;对提取出的数据按照预定规则进行聚类,将每个聚类结果作为一个数据块;针对每个数据块,若能够确定出所述数据块对应的属于兴趣点的主实体,则将所述主实体及对应的数据块中的数据作为挖掘出的兴趣点信息。
根据本申请一优选实施例,所述内容解析单元针对每个数据块,分别在包含所述数据块的预定区域及页面标题内,识别属于兴趣点的候选实体,若识别到至少一个候选实体,则针对每个候选实体,分别获取所述候选实体的预定特征,基于所述预定特征及训练得到的分类模型确定出所述候选实体是否为主实体。
根据本申请一优选实施例,所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;
所述装置中进一步包括:规范化单元,用于对挖据出的兴趣点的属性和属性值进行规范化处理。
根据本申请一优选实施例,所述规范化单元将所述属性映射为所定义的知识图谱提要中的属性表示,过滤掉所述属性值中的异常值,并将所述属性值转换为规范格式。
根据本申请一优选实施例,所述数据融合单元进一步用于,针对挖掘出的任一兴趣点,利用预定规则从所述兴趣点知识图谱中查找出可能同义的候选兴趣点;分别将每个候选兴趣点与所述兴趣点组成一个兴趣点对;针对每个兴趣点对,分别获取所述兴趣点对的预定特征,基于所述预定特征及训练得到的评估模型确定出所述兴趣点对的相似度评分;根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点。
根据本申请一优选实施例,所述兴趣点对的预定特征包括:所述兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度;
其中,针对不同类型的属性值,分别采用不同的相似度计算方式。
根据本申请一优选实施例,所述数据融合单元确定所述相似度评分的最大值大于第一阈值,且所述相似度评分的最大值与所述相似度评分的次大值之间的差值大于第二阈值,则确定所述兴趣点为所述兴趣点知识图谱中已有的兴趣点。
根据本申请一优选实施例,所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;所述属性包括:单值属性和多值属性;
所述数据融合单元在将所述兴趣点与所述已有的兴趣点进行信息融合时,针对所述兴趣点的任一单值属性,若所述已有的兴趣点中未包含所述单值属性,则将所述单值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述单值属性,但属性值不同,则在所述已有的兴趣点中保留来源可信度更高的所述单值属性的属性值;针对所述兴趣点的任一多值属性,若所述已有的兴趣点中未包含所述多值属性,则将所述多值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述多值属性,但存在新增的属性值,则将来源可信度大于第三阈值的新增的属性值加入到所述已有的兴趣点中的所述多值属性的属性值中。
根据本申请一优选实施例,所述兴趣点信息进一步包括:兴趣点的评论信息;
所述数据融合单元进一步用于,若所述已有的兴趣点中未包含所述评论信息,则将所述评论信息加入到所述已有的兴趣点中。
根据本申请一优选实施例,所述装置中进一步包括:观点挖掘单元,用于针对所述兴趣点知识图谱中的兴趣点的评论信息,利用训练得到的序列标注模型,挖掘出其中的评论观点。
根据本申请一优选实施例,所述装置中进一步包括:关系挖掘单元,用于针对所述兴趣点知识图谱中的兴趣点,根据所述兴趣点的基础属性信息确定出所述兴趣点的类别,和/或,获取所述兴趣点的预定属性特征和/或评论观点特征,根据获取到的特征及训练得到的分类模型确定出所述兴趣点的类别。
根据本申请一优选实施例,所述关系挖掘单元进一步用于,从所述兴趣点知识图谱中查找出符合挖掘需求的兴趣点,将查找出的兴趣点或从中筛选出的部分兴趣点作为挖掘出的兴趣点集合。
根据本申请一优选实施例,所述关系挖掘单元识别所述挖掘需求中的属性约束、评论观点约束和类别约束,从所述兴趣点知识图谱中查找出符合识别出的所有约束的兴趣点。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:
可自动地从页面内容中挖掘出兴趣点信息,并融合到已有的兴趣点知识图谱中,从而节省了人力成本,并提升了处理效率;
针对挖掘出的兴趣点信息,可对其属性和属性值进行规范化处理,从而方便了后续的融合处理,并提升了融合结果的准确性等;
针对挖掘出的兴趣点,在进行融合之前,可先确定其是否为兴趣点知识图谱中已有的兴趣点,如可从兴趣点知识图谱中查找出可能与挖掘出的兴趣点同义的候选兴趣点,并基于与候选兴趣点之间的相似度评分等确定出挖掘出的兴趣点是否为兴趣点知识图谱中已有的兴趣点;其中,在确定相似度评分时,可利用挖掘出的兴趣点与候选兴趣点组成的兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度,并且,针对不同类型的属性值,可分别采用不同的相似度计算方式,即分别采用与属性值的类型相适应的相似度计算方式,从而提高了获取到的相似度评分的准确性等;
若挖掘出的兴趣点为兴趣点知识图谱中已有的兴趣点,可将挖掘出的兴趣点与已有的兴趣点进行信息融合,针对不同类型的属性,如单值属性和多值属性,可分别采用不同的属性值融合方式,即采用了更为细化的属性值融合策略,从而提高了融合结果的准确性等;
对于挖掘出的兴趣点,除了可获取兴趣点的基础属性信息如属性和属性值信息外,还可获取兴趣点的评论信息,并可加入到兴趣点知识图谱中,进一步地,还可挖掘出评论信息中的评论观点,从而可在用户进行兴趣点查询等操作时提供评论观点等更为丰富的决策辅助信息;
针对兴趣点知识图谱中的兴趣点,还可对其进行关系挖掘,如挖掘出兴趣点类别和兴趣点集合关系,兴趣点集合关系表征多个兴趣点共同形成的、满足某种需求的兴趣点集合,一方面可以在兴趣点泛需求查询时,直接提供结果,并保证结果的稳定性,另一方面可以在兴趣点个性化推荐时,整体作为一种推荐元素推荐给用户等,从而提升了兴趣点知识图谱的易用性,并扩展了兴趣点知识图谱的应用范围等;
上述可选方式所具有的其它效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请所述兴趣点知识图谱构建方法实施例的流程图;
图2为本申请所述包含兴趣点信息的第一页面内容的示意图;
图3为本申请所述包含兴趣点信息的第二页面内容的示意图;
图4为本申请所述兴趣点知识图谱构建方法的整体架构示意图;
图5为本申请所述兴趣点知识图谱构建装置500实施例的组成结构示意图;
图6为根据本申请实施例所述方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请所述兴趣点知识图谱构建方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,按照第一解析方式对获取自预定来源的页面内容进行解析,和/或按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息。
在102中,针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,则将该兴趣点与已有的兴趣点进行信息融合,若确定该兴趣点为新增的兴趣点,则将该兴趣点信息加入到兴趣点知识图谱中。
本实施例中,可采用以下方式之一或全部来挖掘兴趣点信息:对获取自定向来源的页面内容进行结构化解析,即对应于第一解析方式,对获取自任意来源的页面内容进行半结构化解析,即对应于第二解析方式。
其中,对获取自定向来源的页面内容进行结构化解析的方式中,可针对包含兴趣点信息的页面内容,利用所配置的解析模板,从页面内容中提取出兴趣点信息。
目前,部分领域已经有开放的,通过网站编辑或众包编辑的可信主域,其中含有丰富的兴趣点信息,对于这类可信主域,可通过配置解析模板的方式来获取兴趣点信息。
解析模板的具体形式可根据实际需要而定。按照这种方式获取到的兴趣点信息中通常包含兴趣点的基础属性信息以及评论信息。其中,基础属性信息可包括属性和属性值信息。
图2为本申请所述包含兴趣点信息的第一页面内容的示意图。如图2所示,其中的“故宫”即为一个兴趣点,“景点地址:北京市东城区景山前街4号”等为基础属性信息,“故宫给人的感觉非常震撼,恢弘大气,不愧为古代帝王的宫殿”为评论信息。
大量的兴趣点信息分布在异构、开放、繁多的各种网站及用户生成内容(UGC,UserGenerated Content)中,无法通过配置解析模板的方式来获取,为此,本实施例中还提出了面向全网的半结构化解析方式,针对任一包含兴趣点信息的页面内容,可分别进行以下处理:对该页面内容进行解析,从中提取出关键字-取值(key-value)形式的数据;对提取出的数据按照预定规则进行聚类,将每个聚类结果作为一个数据块;针对每个数据块,若能够确定出该数据块对应的属于兴趣点的主实体,则可将该主实体及对应的数据块中的数据作为挖掘出的兴趣点信息。
图3为本申请所述包含兴趣点信息的第二页面内容的示意图。如图3所示,可根据超文本标记语言(HTML,HyperText Markup Language)语法和自然语言词法规则等解析页面内容,从中提取出所有key-value形式的数据,如可从图3中提取出{key:“地址”,value:“北京市东城区朝阳门北大街10号”}、{key:“邮编”,value:“100020”}以及{key:“电话”,value:“59881114”}等key-value形式的数据。之后,可根据HTML语法(如是否在同一<div>标签下)以及key-value形式的数据在页面中的位置等,对提到出的key-value形式的数据进行聚类,每个聚类结果为一个key-value区域,每个key-value区域认为是一个单独的数据块,图3所示方框中的内容即为一个数据块。
得到的数据块可能为一个,也可能为多个,针对每个数据块,若能够确定出该数据块对应的属于兴趣点的主实体,则可将该主实体及对应的数据块中的数据作为挖掘出的兴趣点信息。
具体地,针对每个数据块,可在包含该数据块的预定区域及页面标题内,识别属于兴趣点的候选实体,若识别到至少一个候选实体,则可针对每个候选实体,分别获取该候选实体的预定特征,并可基于获取到的预定特征及训练得到的分类模型确定出该候选实体是否为主实体。
所述预定区域的大小等可根据实际需要而定。另外,可利用命名实体识别技术来识别候选实体。针对识别得到的每个候选实体,可分别利用预先训练得到的分类模型来确定其是否为主实体,主实体是对应的数据块的核心实体,数据块中的数据通常为主实体的基础属性信息。优选地,可获取候选实体的以下预定特征:候选实体识别的置信度(可在命名实体识别时获取)、候选实体所在位置(如与数据块中心点的距离)、候选实体的HTML样式(如字体大小、是否加粗等)、候选实体是否位于页面标题中以及候选实体类型与数据块中的key的相似度等。其中,对于不同类型的候选实体,可预先分别定义其对应的属性列表,如候选实体类型为餐馆,对于这一类型的实体,其属性列表中可包括地址、电话等各种属性,可将数据块中的key与所述属性列表进行比较,如确定是否同样包括地址、电话等,根据比较结果确定出相似度。
如图3所示,其中的数据块对应的主实体为“中华人民共和国文化和旅游部”,其属性包括“地址”、“邮编”、“电话”,对应的属性值分别为“北京市东城区朝阳门北大街10号”、“100020”、“59881114”。
在挖掘出兴趣点信息之后,还可对挖据出的兴趣点的属性和属性值进行规范化处理,从而可方便后续的融合处理,并可提升融合结果的准确性等。优选地,所述规范化处理可包括:将属性映射为所定义的知识图谱提要(schema)中的属性表示,过滤掉属性值中的异常值,并将属性值转换为规范格式。
知识图谱schema为人工定义的知识模式,约束了不同类型实体下的属性列表以及属性值的约束条件等。在将属性映射为知识图谱schema中的属性表示时,可基于预先离线挖掘整理的映射词表以及同义词典来实现。映射词表中可记录有属性字符串到知识图谱schema中的属性表示的映射关系,知识图谱schema中可用不同的标识(ID)来表示不同的属性,如“地址”对应于标识1,“电话”对应于标识2等。同义词典中记录了词之间的同义关系。这样,针对待映射的每个属性,可首先通过查询同义词典,得到该属性的同义词列表,如属性“地址”的同义词可包括“厂址”等,若该属性及同义词列表中的任一词记录在映射词表中,则可将对应的属性表示作为该属性映射后的属性表示。
如前所述,知识图谱schema中同时约束了不同属性的属性值的约束条件等,那么,针对不同的属性,可分别根据属性值的约束条件等确定出对应的属性值是否异常,即确定是否为异常值,若是,则可过滤掉,另外,还可根据约束条件等将属性值转换为规范的格式,如将电话号码转换为“国际字冠+国际代码+地区代码+电机号码”的格式。
通过上述处理,可自动地挖掘出页面内容中的兴趣点信息,并可将挖掘出的兴趣点信息融合到已有的兴趣点知识图谱中,从而节省了人力成本,提升了处理效率等。
将挖掘出的兴趣点信息与已有的兴趣点知识图谱进行融合可包含兴趣点歧义消解和属性融合等。
其中,兴趣点歧义消解可进一步包含候选集召回、相似度计算以及匹配决策等。具体地,针对挖掘出的任一兴趣点,可利用预定规则从兴趣点知识图谱中查找出可能同义的候选兴趣点,并可分别将每个候选兴趣点与该兴趣点组成一个兴趣点对(pair),针对每个兴趣点对,可分别获取该兴趣点对的预定特征,并基于所述预定特征及训练得到的评估模型确定出该兴趣点对的相似度评分,进而可根据获取到的相似度评分确定出该兴趣点是否为兴趣点知识图谱中已有的兴趣点。
所述预定规则具体为何种规则可根据实际需要而定,比如,可基于兴趣点名称的字符串编辑距离、兴趣点间的jaccard相似度等,从已有的兴趣点知识图谱中查找出候选兴趣点。
针对每个候选兴趣点,可分别将其与挖掘出的兴趣点组成一个兴趣点对,并可获取该兴趣点对的预定特征,之后可将获取到的特征输入预先训练得到的评估模型,从而得到该兴趣点对的相似度评分。该兴趣点对的预定特征可包括:该兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度。其中,针对不同类型的属性值,可分别采用不同的相似度计算方式。
优选地,针对字符串文本类型的属性值,如兴趣点简介,可通过训练的词嵌入表示来计算语义相似度;针对数值类型的属性值,如餐馆的人均价格,可通过距离公式计算相似度;针对结构化类型的属性值,如地址等包括国家、城市、地区、街道、门牌号等的结构化信息,可通过专门的结构化属性比较策略计算相似度;针对集合类型的属性值,如电话号码,可通过jaccard公式计算相似度等。即针对不同类型的属性值,可分别采用与属性值的类型相适应的相似度计算方式,从而提高了获取到的相似度评分的准确性等。
比如,某一兴趣点对中的两个兴趣点分别为兴趣点a和兴趣点b,其中兴趣点a为挖掘出的兴趣点,兴趣点b为候选兴趣点,兴趣点a具有10个属性(其它可能未获取到),分别为属性1~属性10,兴趣点b具有12个属性,分别为属性1~属性12,那么针对属性1,可按照属性1的属性值类型对应的相似度计算方式,计算出兴趣点a的属性1的属性值与兴趣点b的属性1的属性值的相似度,针对属性2,可按照属性2的属性值类型对应的相似度计算方式,计算出兴趣点a的属性2的属性值与兴趣点b的属性2的属性值的相似度,其它依次类推,针对属性11~属性12,由于兴趣点a不具有这些属性,因此不能采用上述处理方式,可用预先设定的默认值作为属性11~属性12对应的相似度。
除属性值的相似度外,兴趣点对的预定特征中还可包括一些其它特征,如查找兴趣点对中的候选兴趣点时确定出的字符串编辑距离、jaccard相似度等。评估模型可融合多个特征确定出兴趣点对中的两个兴趣点的相似度评分。
针对挖掘出的任一兴趣点,在获取到各兴趣点对的相似度评分之后,可根据相似度评分确定出该兴趣点是否为兴趣点知识图谱中已有的兴趣点。优选地,若相似度评分的最大值大于第一阈值,且相似度评分的最大值与相似度评分的次大值之间的差值大于第二阈值,则可确定该兴趣点为兴趣点知识图谱中已有的兴趣点,否则,可确定该兴趣点为兴趣点知识图谱中新增的兴趣点。
相应地,针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中新增的兴趣点,可将该兴趣点信息加入到兴趣点知识图谱中,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,可将该兴趣点与已有的兴趣点进行信息融合。
兴趣点信息可包括兴趣点的基础属性信息,即属性和属性值信息,其中属性又可包括单值属性和多值属性。多值属性是指可以对应多个属性值的属性,单值属性是指只能对应一个属性值的属性。
针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,那么针对该兴趣点的任一单值属性,若已有的兴趣点中未包含该单值属性,则可将该单值属性及属性值加入到已有的兴趣点中,若已有的兴趣点中包含有该单值属性,但属性值不同,则可在已有的兴趣点中保留来源可信度更高的该单值属性的属性值。也就是说,若该兴趣点的该单值属性的属性值的来源可信度更高,则可在兴趣点知识图谱中保留该兴趣点的该单值属性的属性值,若已有的兴趣点的该单值属性的属性值的来源可信度更高,则可在兴趣点知识图谱中保留已有的兴趣点的该单值属性的属性值。属性值的来源是指从何处获取的属性值信息,如是从某一网站上的某一页面内容上获取的,那么该网站则为属性值的来源,不同网站可具有不同的可信度。
针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,那么针对该兴趣点的任一多值属性,若已有的兴趣点中未包含该多值属性,可将该多值属性及属性值加入到已有的兴趣点中,若已有的兴趣点中包含有该多值属性,但存在新增的属性值,则可将来源可信度大于第三阈值的新增的属性值加入到已有的兴趣点中的该多值属性的属性值中。比如,对于某一多值属性,已有的兴趣点中已经包含了一个属性值,但挖掘出的兴趣点中包含两个属性值,其中一个为已有的兴趣点中没有的,即为新增的属性值,那么若新增的属性值的来源可信度大于第三阈值,则可将新增的属性值加入到已有的兴趣点中的该多值属性的属性值中。
上述各阈值的具体取值均可根据实际需要而定。可以看出,上述处理方式中,针对不同类型的属性,如单值属性和多值属性,可分别采用不同的属性值融合方式,即采用了更为细化的属性值融合策略,从而提高了融合结果的准确性等。
对于挖掘出的兴趣点,除了可获取到兴趣点的基础属性信息如属性和属性值信息外,还可能会获取到兴趣点的评论信息。那么针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中新增的兴趣点,可将该兴趣点的基础属性信息和评论信息等加入到兴趣点知识图谱中,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,且已有的兴趣点中未包含所述评论信息,可将评论信息加入到已有的兴趣点中。
进一步地,对于兴趣点知识图谱中的兴趣点的评论信息,可利用训练得到的序列标注模型,挖掘出其中的评论观点。
序列标注模型可采用自然语言预训练模型ERNIE+微调(fine tuning)的方式,在大规模语料训练的ERNIE之上,依次接入双向长短时记忆网络(Bi-LSTM,Bi-Long ShortTerm Memory)的编码-解码(Encoder-Decoder)结构,之后再接入条件随机场(CRF,Conditional Random Field)层做序列标注,标注可采用BIOS模式。
比如,对于图2中所示的“故宫给人的感觉非常震撼,恢弘大气,不愧为古代帝王的宫殿”的评论信息,可将其输入序列标注模型,从而依次经过ERNIE、Bi-LSTM Encoder、Bi-LSTM Decoder和CRF等各层的处理后,得到输出结果,即可得到挖掘出的“恢弘大气”的评论观点。
基于上述处理,可在用户进行兴趣点查询等操作时提供评论观点等更为丰富的决策辅助信息,如当用户查询“后海公园”时,可为其提供“夜景漂亮”、“适合跑步”等评论观点,辅助用户决策。
针对兴趣点知识图谱中的兴趣点,还可对其进行关系挖掘,如挖掘出兴趣点类别和兴趣点集合关系等,兴趣点类别可以是指“川菜馆”、“5A景区”、“亲子酒店”等,兴趣点集合关系表征多个兴趣点共同形成的、满足某种需求的兴趣点集合,如“北京适合自驾的亲子景点”。
本实施例中,针对兴趣点知识图谱中的兴趣点,可根据兴趣点的基础属性信息确定出兴趣点的类别,和/或,获取兴趣点的预定属性特征和/或评论观点特征,根据获取到的特征及训练得到的分类模型确定出兴趣点的类别。
可根据预先设定的推断规则,基于兴趣点的基础属性信息确定出兴趣点的类别。比如,对于餐馆类兴趣点,可根据“菜系”(如“川菜”)属性确定出兴趣点的类别(如“川菜馆”)。再比如,对于景点类兴趣点,可根据“景点类型”(如“5A景区”)属性确定出兴趣点的类别(如“5A景区”)。
另外,还可针对“餐馆”、“景点”等兴趣点大类,分别预先训练得到对应的分类模型,不同大类对应的分类模型所使用的特征通常也会不同。所述特征可包括预定属性特征和/或评论观点特征,具体包括哪些特征可根据实际需要而定。这样,对于待分类的兴趣点,可获取该兴趣点的预定属性特征和/或评论观点特征,并可根据获取到的特征及对应的分类模型确定出该兴趣点的类别。
针对兴趣点知识图谱中的兴趣点,还可挖掘出兴趣点集合关系,兴趣点集合关系表征多个兴趣点共同形成的、满足某种需求的兴趣点集合,一方面可以在兴趣点泛需求查询时,直接提供结果,并保证结果的稳定性,另一方面可以在兴趣点个性化推荐时,整体作为一种推荐元素推荐给用户等,从而提升了兴趣点知识图谱的易用性,并扩展了兴趣点知识图谱的应用范围等。
在实际应用中,可从兴趣点知识图谱中查找出符合挖掘需求的兴趣点,将查找出的兴趣点或从中筛选出的部分兴趣点作为挖掘出的兴趣点集合。
优选地,从兴趣点知识图谱中查找出符合挖掘需求的兴趣点的方式可包括:识别挖掘需求中的属性约束、评论观点约束以及类别约束;从兴趣点知识图谱中查找出符合识别出的所有约束的兴趣点。
比如,挖掘需求为“北京适合全家的自助餐馆”,可通过对其进行解析,识别出挖掘需求中的属性约束、评论观点约束和类别约束,其中,属性约束为“地区”属性值为“北京”,评论观点约束为“适合全家”,类别约束为“自助餐馆”,可利用识别出的约束,构成检索请求,查询兴趣点知识图谱,从而得到满足所有约束的兴趣点。
对于查找出的兴趣点,还可按照预定规则对其进行排序,如可基于兴趣点的热度等各方面因素计算出兴趣点的综合评分,按照综合评分由高到低的顺序进行排序,选出排序靠前且综合评分大于第四阈值的兴趣点,利用选出的兴趣点组成所需的兴趣点集合。
综合上述介绍,图4为本申请所述兴趣点知识图谱构建方法的整体架构示意图,具体实现请参照前述相关说明,不再赘述。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图5为本申请所述兴趣点知识图谱构建装置500实施例的组成结构示意图。如图5所示,包括:内容解析单元501以及数据融合单元503。
内容解析单元501,用于按照第一解析方式对获取自预定来源的页面内容进行解析,和/或按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息。
数据融合单元503,用于针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,则将该兴趣点与已有的兴趣点进行信息融合,若确定该兴趣点为新增的兴趣点,则将该兴趣点信息加入到兴趣点知识图谱中。
具体地,内容解析单元501可针对获取自预定来源的包含兴趣点信息的页面内容,利用所配置的解析模板,从页面内容中提取出兴趣点信息。
内容解析单元501还可针对获取自任意来源的包含兴趣点信息的页面内容,进行以下处理:对页面内容进行解析,从中提取出关键字-取值形式的数据;对提取出的数据按照预定规则进行聚类,将每个聚类结果作为一个数据块;针对每个数据块,若能够确定出该数据块对应的属于兴趣点的主实体,则将该主实体及对应的数据块中的数据作为挖掘出的兴趣点信息。
其中,内容解析单元501可针对每个数据块,分别在包含该数据块的预定区域及页面标题内,识别属于兴趣点的候选实体,若识别到至少一个候选实体,则针对每个候选实体,分别获取该候选实体的预定特征,基于预定特征及训练得到的分类模型确定出该候选实体是否为主实体。
兴趣点信息可包括兴趣点的基础属性信息,即属性和属性值信息。
图5所示装置中还可进一步包括:规范化单元502,用于对挖据出的兴趣点的属性和属性值进行规范化处理。
优选地,规范化单元502可将属性映射为所定义的知识图谱提要中的属性表示,过滤掉属性值中的异常值,并将属性值转换为规范格式。
数据融合单元503可针对挖掘出的任一兴趣点,利用预定规则从兴趣点知识图谱中查找出可能同义的候选兴趣点;分别将每个候选兴趣点与该兴趣点组成一个兴趣点对;针对每个兴趣点对,分别获取该兴趣点对的预定特征,并基于预定特征及训练得到的评估模型确定出该兴趣点对的相似度评分;根据相似度评分确定出该兴趣点是否为兴趣点知识图谱中已有的兴趣点。
其中,兴趣点对的预定特征可包括:兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度;针对不同类型的属性值,可分别采用不同的相似度计算方式。
针对获取到的各相似度评分,数据融合单元503若确定相似度评分的最大值大于第一阈值,且相似度评分的最大值与相似度评分的次大值之间的差值大于第二阈值,则可确定兴趣点为兴趣点知识图谱中已有的兴趣点。
针对挖据出的任一兴趣点,若确定该兴趣点为兴趣点知识图谱中已有的兴趣点,数据融合单元503可将该兴趣点与已有的兴趣点进行信息融合,若确定该兴趣点为新增的兴趣点,数据融合单元503可直接将该兴趣点信息加入到兴趣点知识图谱中。
兴趣点的属性可包括单值属性和多值属性。数据融合单元503在将兴趣点与已有的兴趣点进行信息融合时,针对兴趣点的任一单值属性,若已有的兴趣点中未包含该单值属性,则可将该单值属性及属性值加入到已有的兴趣点中,若已有的兴趣点中包含有该单值属性,但属性值不同,则可在已有的兴趣点中保留来源可信度更高的该单值属性的属性值;针对兴趣点的任一多值属性,若已有的兴趣点中未包含该多值属性,则可将该多值属性及属性值加入到已有的兴趣点中,若已有的兴趣点中包含有该多值属性,但存在新增的属性值,则可将来源可信度大于第三阈值的新增的属性值加入到已有的兴趣点中的该多值属性的属性值中。
兴趣点信息还可进一步包括兴趣点的评论信息。相应地,数据融合单元503可进一步进行以下处理:若已有的兴趣点中未包含所述评论信息,则将评论信息加入到已有的兴趣点中。
图5所示装置中还可进一步包括:观点挖掘单元504,用于针对兴趣点知识图谱中的兴趣点的评论信息,利用训练得到的序列标注模型,挖掘出其中的评论观点。
此外,图5所示装置中还可进一步包括:关系挖掘单元505,用于针对兴趣点知识图谱中的兴趣点,根据兴趣点的基础属性信息确定出兴趣点的类别,和/或,获取兴趣点的预定属性特征和/或评论观点特征,根据获取到的特征及训练得到的分类模型确定出兴趣点的类别。
关系挖掘单元505还可从兴趣点知识图谱中查找出符合挖掘需求的兴趣点,将查找出的兴趣点或从中筛选出的部分兴趣点作为挖掘出的兴趣点集合。
具体地,关系挖掘单元505可识别挖掘需求中的属性约束、评论观点约束和类别约束,并从兴趣点知识图谱中查找出符合识别出的所有约束的兴趣点。
图5所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本申请方法和装置实施例所述方案,可带来如下优点或有益效果:
可自动地从页面内容中挖掘出兴趣点信息,并融合到已有的兴趣点知识图谱中,从而节省了人力成本,并提升了处理效率;
针对挖掘出的兴趣点信息,可对其属性和属性值进行规范化处理,从而方便了后续的融合处理,并提升了融合结果的准确性等;
针对挖掘出的兴趣点,在进行融合之前,可先确定其是否为兴趣点知识图谱中已有的兴趣点,如可从兴趣点知识图谱中查找出可能与挖掘出的兴趣点同义的候选兴趣点,并可基于与候选兴趣点之间的相似度评分等确定出挖掘出的兴趣点是否为兴趣点知识图谱中已有的兴趣点;其中,在确定相似度评分时,可利用挖掘出的兴趣点与候选兴趣点组成的兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度,并且,针对不同类型的属性值,可分别采用不同的相似度计算方式,即分别采用与属性值的类型相适应的相似度计算方式,从而提高了获取到的相似度评分的准确性等;
若挖掘出的兴趣点为兴趣点知识图谱中已有的兴趣点,可将挖掘出的兴趣点与已有的兴趣点进行信息融合,针对不同类型的属性,如单值属性和多值属性,可分别采用不同的属性值融合方式,即采用了更为细化的属性值融合策略,从而提高了融合结果的准确性等;
对于挖掘出的兴趣点,除了可获取兴趣点的基础属性信息如属性和属性值信息外,还可获取兴趣点的评论信息,并加入到兴趣点知识图谱中,并可进一步挖掘出评论信息中的评论观点,从而可在用户进行兴趣点查询等操作时提供评论观点等更为丰富的决策辅助信息;
针对兴趣点知识图谱中的兴趣点,还可对其进行关系挖掘,如挖掘出兴趣点类别和兴趣点集合关系,兴趣点集合关系表征多个兴趣点共同形成的、满足某种需求的兴趣点集合,一方面可以在兴趣点泛需求查询时,直接提供结果,并保证结果的稳定性,另一方面可以在兴趣点个性化推荐时,整体作为一种推荐元素推荐给用户等,从而提升了兴趣点知识图谱的易用性,并扩展了兴趣点知识图谱的应用范围等。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器Y01、存储器Y02,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器Y01为例。
存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的目标对象识别的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的目标对象识别的方法。
存储器Y02作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的目标对象识别的方法对应的程序指令/模块(例如,附图X所示的xx模块X01、xx模块x02和xx模块x03)。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的目标对象识别的方法。
存储器Y02可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器Y02可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器Y02可选包括相对于处理器Y01远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
电子设备还可以包括:输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置Y03可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (32)
1.一种兴趣点知识图谱构建方法,其特征在于,包括:
按照第一解析方式对获取自预定来源的页面内容进行解析,和/或按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息;
针对挖据出的任一兴趣点,若确定所述兴趣点为兴趣点知识图谱中已有的兴趣点,则将所述兴趣点与所述已有的兴趣点进行信息融合,若确定所述兴趣点为新增的兴趣点,则将所述兴趣点信息加入到所述兴趣点知识图谱中。
2.根据权利要求1所述的方法,其特征在于,
所述按照第一解析方式对获取自预定来源的页面内容进行解析包括:
针对包含兴趣点信息的页面内容,利用所配置的解析模板,从所述页面内容中提取出兴趣点信息。
3.根据权利要求1所述的方法,其特征在于,
所述按照第二解析方式对获取自任意来源的页面内容进行解析包括:
针对包含兴趣点信息的页面内容,进行以下处理:
对所述页面内容进行解析,从中提取出关键字-取值形式的数据;
对提取出的数据按照预定规则进行聚类,将每个聚类结果作为一个数据块;
针对每个数据块,若能够确定出所述数据块对应的属于兴趣点的主实体,则将所述主实体及对应的数据块中的数据作为挖掘出的兴趣点信息。
4.根据权利要求3所述的方法,其特征在于,
所述确定出所述数据块对应的属于兴趣点的主实体包括:
在包含所述数据块的预定区域及页面标题内,识别属于兴趣点的候选实体;
若识别到至少一个候选实体,则针对每个候选实体,分别获取所述候选实体的预定特征,基于所述预定特征及训练得到的分类模型确定出所述候选实体是否为主实体。
5.根据权利要求1所述的方法,其特征在于,
所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;
所述挖掘出兴趣点信息之后,进一步包括:对挖据出的兴趣点的属性和属性值进行规范化处理。
6.根据权利要求5所述的方法,其特征在于,
所述对挖据出的兴趣点的属性和属性值进行规范化处理包括:
将所述属性映射为所定义的知识图谱提要中的属性表示;
过滤掉所述属性值中的异常值;
将所述属性值转换为规范格式。
7.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
针对挖掘出的任一兴趣点,利用预定规则从所述兴趣点知识图谱中查找出可能同义的候选兴趣点;
分别将每个候选兴趣点与所述兴趣点组成一个兴趣点对;
针对每个兴趣点对,分别获取所述兴趣点对的预定特征,基于所述预定特征及训练得到的评估模型确定出所述兴趣点对的相似度评分;
根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点。
8.根据权利要求7所述的方法,其特征在于,
所述兴趣点对的预定特征包括:所述兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度;
其中,针对不同类型的属性值,分别采用不同的相似度计算方式。
9.根据权利要求7所述的方法,其特征在于,
所述根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点包括:
若所述相似度评分的最大值大于第一阈值,且所述相似度评分的最大值与所述相似度评分的次大值之间的差值大于第二阈值,则确定所述兴趣点为所述兴趣点知识图谱中已有的兴趣点。
10.根据权利要求1所述的方法,其特征在于,
所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;所述属性包括:单值属性和多值属性;
所述将所述兴趣点与所述已有的兴趣点进行信息融合包括:
针对所述兴趣点的任一单值属性,若所述已有的兴趣点中未包含所述单值属性,则将所述单值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述单值属性,但属性值不同,则在所述已有的兴趣点中保留来源可信度更高的所述单值属性的属性值;
针对所述兴趣点的任一多值属性,若所述已有的兴趣点中未包含所述多值属性,则将所述多值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述多值属性,但存在新增的属性值,则将来源可信度大于第三阈值的新增的属性值加入到所述已有的兴趣点中的所述多值属性的属性值中。
11.根据权利要求10所述的方法,其特征在于,
所述兴趣点信息进一步包括:兴趣点的评论信息;
所述将所述兴趣点与所述已有的兴趣点进行信息融合进一步包括:若所述已有的兴趣点中未包含所述评论信息,则将所述评论信息加入到所述已有的兴趣点中。
12.根据权利要求11所述的方法,其特征在于,
该方法进一步包括:针对所述兴趣点知识图谱中的兴趣点的评论信息,利用训练得到的序列标注模型,挖掘出其中的评论观点。
13.根据权利要求12所述的方法,其特征在于,
该方法进一步包括:针对所述兴趣点知识图谱中的兴趣点,根据所述兴趣点的基础属性信息确定出所述兴趣点的类别,和/或,获取所述兴趣点的预定属性特征和/或评论观点特征,根据获取到的特征及训练得到的分类模型确定出所述兴趣点的类别。
14.根据权利要求13所述的方法,其特征在于,
该方法进一步包括:从所述兴趣点知识图谱中查找出符合挖掘需求的兴趣点,将查找出的兴趣点或从中筛选出的部分兴趣点作为挖掘出的兴趣点集合。
15.根据权利要求14所述的方法,其特征在于,
所述从所述兴趣点知识图谱中查找出符合挖掘需求的兴趣点包括:
识别所述挖掘需求中的属性约束、评论观点约束和类别约束;
从所述兴趣点知识图谱中查找出符合识别出的所有约束的兴趣点。
16.一种兴趣点知识图谱构建装置,其特征在于,包括:内容解析单元以及数据融合单元;
所述内容解析单元,用于按照第一解析方式对获取自预定来源的页面内容进行解析,和/或按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息;
所述数据融合单元,用于针对挖据出的任一兴趣点,若确定所述兴趣点为兴趣点知识图谱中已有的兴趣点,则将所述兴趣点与所述已有的兴趣点进行信息融合,若确定所述兴趣点为新增的兴趣点,则将所述兴趣点信息加入到所述兴趣点知识图谱中。
17.根据权利要求16所述的装置,其特征在于,
所述内容解析单元针对获取自预定来源的包含兴趣点信息的页面内容,利用所配置的解析模板,从所述页面内容中提取出兴趣点信息。
18.根据权利要求16所述的装置,其特征在于,
所述内容解析单元针对获取自任意来源的包含兴趣点信息的页面内容,进行以下处理:对所述页面内容进行解析,从中提取出关键字-取值形式的数据;对提取出的数据按照预定规则进行聚类,将每个聚类结果作为一个数据块;针对每个数据块,若能够确定出所述数据块对应的属于兴趣点的主实体,则将所述主实体及对应的数据块中的数据作为挖掘出的兴趣点信息。
19.根据权利要求18所述的装置,其特征在于,
所述内容解析单元针对每个数据块,分别在包含所述数据块的预定区域及页面标题内,识别属于兴趣点的候选实体,若识别到至少一个候选实体,则针对每个候选实体,分别获取所述候选实体的预定特征,基于所述预定特征及训练得到的分类模型确定出所述候选实体是否为主实体。
20.根据权利要求16所述的装置,其特征在于,
所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;
所述装置中进一步包括:规范化单元,用于对挖据出的兴趣点的属性和属性值进行规范化处理。
21.根据权利要求20所述的装置,其特征在于,
所述规范化单元将所述属性映射为所定义的知识图谱提要中的属性表示,过滤掉所述属性值中的异常值,并将所述属性值转换为规范格式。
22.根据权利要求16所述的装置,其特征在于,
所述数据融合单元进一步用于,针对挖掘出的任一兴趣点,利用预定规则从所述兴趣点知识图谱中查找出可能同义的候选兴趣点;分别将每个候选兴趣点与所述兴趣点组成一个兴趣点对;针对每个兴趣点对,分别获取所述兴趣点对的预定特征,基于所述预定特征及训练得到的评估模型确定出所述兴趣点对的相似度评分;根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点。
23.根据权利要求22所述的装置,其特征在于,
所述兴趣点对的预定特征包括:所述兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度;
其中,针对不同类型的属性值,分别采用不同的相似度计算方式。
24.根据权利要求22所述的装置,其特征在于,
所述数据融合单元确定所述相似度评分的最大值大于第一阈值,且所述相似度评分的最大值与所述相似度评分的次大值之间的差值大于第二阈值,则确定所述兴趣点为所述兴趣点知识图谱中已有的兴趣点。
25.根据权利要求16所述的装置,其特征在于,
所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;所述属性包括:单值属性和多值属性;
所述数据融合单元在将所述兴趣点与所述已有的兴趣点进行信息融合时,针对所述兴趣点的任一单值属性,若所述已有的兴趣点中未包含所述单值属性,则将所述单值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述单值属性,但属性值不同,则在所述已有的兴趣点中保留来源可信度更高的所述单值属性的属性值,针对所述兴趣点的任一多值属性,若所述已有的兴趣点中未包含所述多值属性,则将所述多值属性及属性值加入到所述已有的兴趣点中,若所述已有的兴趣点中包含有所述多值属性,但存在新增的属性值,则将来源可信度大于第三阈值的新增的属性值加入到所述已有的兴趣点中的所述多值属性的属性值中。
26.根据权利要求25所述的装置,其特征在于,
所述兴趣点信息进一步包括:兴趣点的评论信息;
所述数据融合单元进一步用于,若所述已有的兴趣点中未包含所述评论信息,则将所述评论信息加入到所述已有的兴趣点中。
27.根据权利要求26所述的装置,其特征在于,
所述装置中进一步包括:观点挖掘单元,用于针对所述兴趣点知识图谱中的兴趣点的评论信息,利用训练得到的序列标注模型,挖掘出其中的评论观点。
28.根据权利要求27所述的装置,其特征在于,
所述装置中进一步包括:关系挖掘单元,用于针对所述兴趣点知识图谱中的兴趣点,根据所述兴趣点的基础属性信息确定出所述兴趣点的类别,和/或,获取所述兴趣点的预定属性特征和/或评论观点特征,根据获取到的特征及训练得到的分类模型确定出所述兴趣点的类别。
29.根据权利要求28所述的装置,其特征在于,
所述关系挖掘单元进一步用于,从所述兴趣点知识图谱中查找出符合挖掘需求的兴趣点,将查找出的兴趣点或从中筛选出的部分兴趣点作为挖掘出的兴趣点集合。
30.根据权利要求29所述的装置,其特征在于,
所述关系挖掘单元识别所述挖掘需求中的属性约束、评论观点约束和类别约束,从所述兴趣点知识图谱中查找出符合识别出的所有约束的兴趣点。
31.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910967090.4A CN110909170B (zh) | 2019-10-12 | 2019-10-12 | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910967090.4A CN110909170B (zh) | 2019-10-12 | 2019-10-12 | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909170A true CN110909170A (zh) | 2020-03-24 |
CN110909170B CN110909170B (zh) | 2022-09-23 |
Family
ID=69815483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910967090.4A Active CN110909170B (zh) | 2019-10-12 | 2019-10-12 | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909170B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523007A (zh) * | 2020-04-27 | 2020-08-11 | 北京百度网讯科技有限公司 | 用户感兴趣信息确定方法、装置、设备以及存储介质 |
CN112182409A (zh) * | 2020-11-03 | 2021-01-05 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN112000495B (zh) * | 2020-10-27 | 2021-02-12 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
CN112528639A (zh) * | 2020-11-30 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置、存储介质及电子设备 |
CN112818072A (zh) * | 2021-03-09 | 2021-05-18 | 携程旅游信息技术(上海)有限公司 | 旅游知识图谱更新方法、系统、设备及存储介质 |
CN113190640A (zh) * | 2021-05-20 | 2021-07-30 | 拉扎斯网络科技(上海)有限公司 | 兴趣点数据处理方法及装置 |
CN113626385A (zh) * | 2021-07-07 | 2021-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于文本数据读取的方法和系统 |
CN114820960A (zh) * | 2022-04-18 | 2022-07-29 | 北京百度网讯科技有限公司 | 构建图谱的方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
US20190139165A1 (en) * | 2017-11-06 | 2019-05-09 | Microsoft Technology Licensing, Llc | Contextual trip itinerary generator |
CN109947873A (zh) * | 2017-08-14 | 2019-06-28 | 清华大学 | 景点知识地图构建方法、装置、设备及可读存储介质 |
CN109977283A (zh) * | 2019-03-14 | 2019-07-05 | 中国人民大学 | 一种基于知识图谱和用户足迹的旅游推荐方法和系统 |
CN110222200A (zh) * | 2019-06-20 | 2019-09-10 | 京东方科技集团股份有限公司 | 用于实体融合的方法和设备 |
-
2019
- 2019-10-12 CN CN201910967090.4A patent/CN110909170B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
CN109947873A (zh) * | 2017-08-14 | 2019-06-28 | 清华大学 | 景点知识地图构建方法、装置、设备及可读存储介质 |
US20190139165A1 (en) * | 2017-11-06 | 2019-05-09 | Microsoft Technology Licensing, Llc | Contextual trip itinerary generator |
CN109977283A (zh) * | 2019-03-14 | 2019-07-05 | 中国人民大学 | 一种基于知识图谱和用户足迹的旅游推荐方法和系统 |
CN110222200A (zh) * | 2019-06-20 | 2019-09-10 | 京东方科技集团股份有限公司 | 用于实体融合的方法和设备 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523007A (zh) * | 2020-04-27 | 2020-08-11 | 北京百度网讯科技有限公司 | 用户感兴趣信息确定方法、装置、设备以及存储介质 |
CN111523007B (zh) * | 2020-04-27 | 2023-12-26 | 北京百度网讯科技有限公司 | 用户感兴趣信息确定方法、装置、设备以及存储介质 |
CN112000495B (zh) * | 2020-10-27 | 2021-02-12 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
CN112182409A (zh) * | 2020-11-03 | 2021-01-05 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN112528639A (zh) * | 2020-11-30 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置、存储介质及电子设备 |
CN112528639B (zh) * | 2020-11-30 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置、存储介质及电子设备 |
CN112818072A (zh) * | 2021-03-09 | 2021-05-18 | 携程旅游信息技术(上海)有限公司 | 旅游知识图谱更新方法、系统、设备及存储介质 |
CN113190640A (zh) * | 2021-05-20 | 2021-07-30 | 拉扎斯网络科技(上海)有限公司 | 兴趣点数据处理方法及装置 |
CN113190640B (zh) * | 2021-05-20 | 2023-02-07 | 拉扎斯网络科技(上海)有限公司 | 兴趣点数据处理方法及装置 |
CN113626385A (zh) * | 2021-07-07 | 2021-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于文本数据读取的方法和系统 |
CN113626385B (zh) * | 2021-07-07 | 2022-07-15 | 厦门市美亚柏科信息股份有限公司 | 一种基于文本数据读取的方法和系统 |
CN114820960A (zh) * | 2022-04-18 | 2022-07-29 | 北京百度网讯科技有限公司 | 构建图谱的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110909170B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909170B (zh) | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 | |
CN108363698B (zh) | 兴趣点关系识别方法及装置 | |
CN109857917B (zh) | 面向威胁情报的安全知识图谱构建方法及系统 | |
CN104657439B (zh) | 用于自然语言精准检索的结构化查询语句生成系统及方法 | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
JP5232415B2 (ja) | 自然言語ベースのロケーション・クエリー・システム、キーワード・ベースのロケーション・クエリー・システム、及び自然言語ベース/キーワード・ベースのロケーション・クエリー・システム | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
CN101918945B (zh) | 用于执行自动扩展的语言搜索的方法和系统 | |
CN102314452B (zh) | 一种通过输入法平台进行导航的方法及系统 | |
CN104679867B (zh) | 基于图的地址知识处理方法及装置 | |
CN104657440A (zh) | 结构化查询语句生成系统及方法 | |
AU2014228754B2 (en) | Non-deterministic disambiguation and matching of business locale data | |
CN112925995B (zh) | 获取poi状态信息的方法及装置 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN104808806A (zh) | 根据不确定性信息实现汉字输入的方法和装置 | |
CN112328890B (zh) | 搜索地理位置点的方法、装置、设备及存储介质 | |
CN111814077A (zh) | 信息点查询方法、装置、设备和介质 | |
CN111538815A (zh) | 一种文本查询方法、装置、设备及存储介质 | |
KR20210141393A (ko) | 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN109460467B (zh) | 一种网络信息分类体系构建方法 | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN115168401A (zh) | 数据分级处理方法及装置、电子设备及计算机可读介质 | |
CN115062150A (zh) | 一种文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |