CN110795573A - 一种网页内容的地理位置预测方法及装置 - Google Patents
一种网页内容的地理位置预测方法及装置 Download PDFInfo
- Publication number
- CN110795573A CN110795573A CN201911063187.9A CN201911063187A CN110795573A CN 110795573 A CN110795573 A CN 110795573A CN 201911063187 A CN201911063187 A CN 201911063187A CN 110795573 A CN110795573 A CN 110795573A
- Authority
- CN
- China
- Prior art keywords
- geographic
- geographic entity
- entity
- keyword
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种网页内容的地理位置预测方法及装置,其中方法包括:获取待处理网页内容中的多个第一地理实体和多个第一关键词,生成地理实体集合和关键词集合,再将地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,接着在知识图谱中查找目标关键词,并确定目标关键词与该候选地理实体间对应关系的权重,然后计算候选地理实体的重要程度值,对候选地理实体进行过滤,得到过滤后的候选地理实体,将过滤后得到的候选地理实体确定为待处理网页内容的地理位置预测结果。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种网页内容的地理位置预测方法及装置。
背景技术
互联网每天都会产生大量的文本资源,这些文本资源中含有大量信息,待处理网页内容预测就是挖掘文本资源中的大量信息中的位置信息,位置信息表示文本资源中与地理位置有关的名词,实现互联网文本资源到位置的映射。
现有技术在进行待处理网页内容地理位置预测时,先获取一个网页页面的文本内容,利用命名实体识别方法提取出文本内容中所有地理实体,命名实体识别指识别文本中具有特定意义的实体,地理实体表示文本内容中的包含地理位置信息的名词。然后根据地理实体的词频、在文本中的位置等信息,利用一定的方法(如PageRank算法、核密度估计算法、启发式算法等)去评估每个地理实体对于文本的重要程度或者地理实体的大致集中分别区域,从而实现整篇文本内容的地理位置预测。
现有技术仅提取待处理网页内容中的地理实体进行预测,没有提取网页页面文本内容中的关键词,而有些关键词中与提取出的地理实体关联密切,因此,会导致待处理网页内容地理位置预测结果不准的问题。
发明内容
本发明实施例的目的在于提供一种网页内容的地理位置预测方法及系统,用以解决网页内容地理位置预测结果不准的问题。具体技术方案如下:
第一方面,本发明实施例提供了一种网页内容的地理位置预测方法,所述方法包括:
获取待处理网页内容中的多个第一地理实体和多个第一关键词,所述第一地理实体为包含地理位置信息的名词,所述关键词为所述待处理网页内容中除所述第一地理实体以外的其他名词;
生成包含所述多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含所述多个第一关键词的名称信息和词频的关键词集合;
将所述地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,其中,所述知识图谱中包含所述第二地理实体与第二关键词间的对应关系,所述第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,且所述知识图谱中的各第二地理实体间具有层级关系,所述层级关系用于表示第二地理实体间的地理范围的包含关系,所述第二关键词为所述知识图谱中除所述第二地理实体以外的其他名词;
针对得到的候选地理实体,在所述知识图谱中查找目标关键词,所述目标关键词为与所述候选地理实体对应的、且在所述关键词集合中具有相同名称的第一关键词的第二关键词,并确定所述目标关键词与该候选地理实体间对应关系的权重;
针对所述候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重,计算所述候选地理实体的重要程度值,所述候选地理实体的重要程度值用于衡量该候选地理实体的重要程度;
根据预设的过滤规则,对所述候选地理实体进行过滤,得到过滤后的候选地理实体,所述过滤规则基于所述候选地理实体的重要程度值,及所述候选地理实体间的层级关系确定;
将过滤后得到的候选地理实体确定为所述待处理网页内容的地理位置预测结果。
可选的,所述知识图谱的构建过程包括:
获取目标文本内容,所述目标文本内容为:包含预设地名的网页页面对应的文本内容;
提取所述目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及及第三地理实体间的对应关系,所述目标对应关系为:所述多个第三地理实体和所述多个第三关键词中,具有关联属性的第三地理实体和第三关键词之间的关系;
使用递归算法从所述第三地理实体间的对应关系中提取第三地理实体间的层级关系;
利用具有所述目标对应关系的第三地理实体各和第三关键词,所述目标对应关系所述第三地理实体间的对应关系以及所述层级关系,构建初始知识图谱;
计算所述目标对应关系的权重,并将所述目标对应关系的权重添加至初始知识图谱中,得到所述知识图谱。
可选的,所述计算所述目标对应关系的权重的步骤,包括:
将一个所述目标对应关系,以及具有所述目标对应关系的一个第三地理实体和一个第三关键词,确定为一个三元组;
将所述第三地理实体间的对应关系,以及具有所述对应关系的两个第三地理实体,确定为一个三元组;
利用第一预设表达式,计算置信度,所述置信度表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,在三元组总个数中的比例,
所述第一预设表达式为:
其中,TR表示所述置信度,TC表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,TTC表示三元组总个数;
利用第二预设表达式,计算各所述第二关键词的稀缺度,所述第二预设表达式为:
式中,EGDA表示一个所述第二关键词的稀缺度,EC表示所述初始知识图谱的边数,其中,所述初始知识图谱中的边表示一个所述第二地理实体与一个所述第二关键词间的对应关系或所述第二地理实体间的对应关系,ED表示所述第二关键词在所述初始知识图谱中具有的边数;
利用第三预设表达式,计算所述目标对应关系的权重,所述第三预设表达式为:
EW=TR*EGDA
式中,EW表示所述目标对应关系的权重,TR表示所述置信度,EGDA表示一个所述第二关键词的稀缺度。
可选的,所述方法还包括:
将所述关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配,得到匹配关键词;
在所述知识图谱中查找与所述匹配关键词对应的第二地理实体;
将查找到的第二地理实体确定为候选地理实体,并为所述候选地理实体设置初始词频;
针对确定的候选地理实体,确定所述匹配关键词与该候选地理实体间对应关系的权重;
针对所述候选地理实体以及该候选地理实体对应的匹配关键词,基于该候选地理实体的初始词频,所述匹配关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述匹配关键词与该候选地理实体间对应关系的权重,计算所述重要程度值。
可选的,所述计算所述候选地理实体的重要程度值的步骤,包括:
针对所述候选地理实体所匹配的第一地理实体,将该第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重相乘,得到乘积结果;
将所述乘积结果确定为所述候选地理实体的重要程度值。
可选的,所述根据预设的过滤规则,对所述候选地理实体进行过滤的步骤,包括:
针对所述候选地理实体集合中的各所述候选地理实体,删除目标删除候选地理实体,所述目标删除候选地理实体为所述候选地理实体集合中所述重要程度值小于第一预设重要程度阈值的所述候选地理实体,并将最高重要程度值候选地理实体移至新的候选地理实体集合,所述最高重要程度值候选地理实体为具有最高的所述重要程度值的所述候选地理实体;
针对删除所述目标删除候选地理实体及移出所述最高重要程度值候选地理实体后的所述候选地理实体集合,将剩余的候选地理实体的所述重要程度值,分别与所述最高重要程度值候选地理实体的所述重要程度值作差,得到多个差值;
将所述差值小于第二预设重要程度阈值的所述候选地理实体移至所述新的候选地理实体集合;
针对所述新的候选地理实体集合中的各所述候选地理实体,将层级最低的所述候选地理实体确定为所述过滤后的候选地理实体。
第二方面,本发明实施例提供了一种网页内容的地理位置预测装置,所述装置包括:
第一获取模块,用于获取待处理网页内容中的多个第一地理实体和多个第一关键词,所述第一地理实体为包含地理位置信息的名词,所述关键词为所述待处理网页内容中除所述第一地理实体以外的其他名词;
生成模块,用于生成包含所述多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含所述多个第一关键词的名称信息和词频的关键词集合;
第一匹配模块,用于将所述地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,其中,所述知识图谱中包含所述第二地理实体与第二关键词间的对应关系,所述第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,且所述知识图谱中的各第二地理实体间具有层级关系,所述层级关系用于表示第二地理实体间的地理范围的包含关系,所述第二关键词为所述知识图谱中除所述第二地理实体以外的其他名词;
第一查找模块,用于针对得到的候选地理实体,在所述知识图谱中查找目标关键词,所述目标关键词为与所述候选地理实体对应的、且在所述关键词集合中具有相同名称的第一关键词的第二关键词,并确定所述目标关键词与该候选地理实体间对应关系的权重;
第一计算模块,用于针对所述候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重,计算重要程度值,所述候选地理实体的重要程度值用于衡量该候选地理实体的重要程度;
过滤模块,用于根据预设的过滤规则,对所述候选地理实体进行过滤,得到过滤后的候选地理实体,所述过滤规则基于所述候选地理实体的重要程度值,及所述候选地理实体间的层级关系确定;
第一确定模块,用于将过滤后得到的候选地理实体确定为所述待处理网页内容的地理位置预测结果。
可选的,所述装置还包括:
第二获取模块,用于获取目标文本内容,所述目标文本内容为:包含预设地名的网页页面对应的文本内容;
第一提取模块,用于提取所述目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及第三地理实体间的对应关系,所述目标对应关系为:所述多个第三地理实体和所述多个第三关键词中,具有关联属性的第三地理实体和第三关键词之间的关系;
第二提取模块,用于使用递归算法从所述第三地理实体间的对应关系中提取第三地理实体间的层级关系;
构建模块,用于利用具有所述目标对应关系的第三地理实体和第三关键词,所述目标对应关系,所述第三地理实体间的对应关系以及所述层级关系,构建初始知识图谱;
第二计算模块,用于计算所述目标对应关系的权重,并将所述目标对应关系的权重添加至初始知识图谱中,得到所述知识图谱。
可选的,所述第二计算模块,包括:
第一确定子模块,用于将一个所述目标对应关系,以及具有所述目标对应关系的一个第三地理实体和一个第三关键词,确定为一个三元组;
第二确定子模块,用于将所述第三地理实体间的对应关系,以及具有所述对应关系的两个第三地理实体,确定为一个三元组;
第一计算子模块,用于利用第一预设表达式,计算置信度,所述置信度表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,在三元组总个数中的比例,
所述第一预设表达式为:
式中,TR表示所述置信度,TC表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,TTC表示三元组总个数;
第二计算子模块,用于利用第二预设表达式,计算各所述第二关键词的稀缺度,所述第二预设表达式为:
式中,EGDA表示一个所述第二关键词的稀缺度,EC表示所述初始知识图谱的边数,其中,所述初始知识图谱中的边表示一个所述第二地理实体与一个所述第二关键词间的对应关系或所述第二地理实体间的对应关系,ED表示所述第二关键词在所述初始知识图谱中具有的边数;
第三计算子模块,用于利用第三预设表达式,计算所述目标对应关系的权重,所述第三预设表达式为:
EW=TR*EGDA
式中,EW表示所述目标对应关系的权重,TR表示所述置信度,EGDA表示一个所述第二关键词的稀缺度。
可选的,所述装置还包括:
第二匹配模块,用于将所述关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配,得到匹配关键词;
第二查找模块,用于在所述知识图谱中查找与所述匹配关键词对应的第二地理实体;
第二确定模块,用于将查找到的第二地理实体确定为候选地理实体,并为所述候选地理实体设置初始词频;
第三确定模块,用于针对确定的候选地理实体,确定所述匹配关键词与该候选地理实体间对应关系的权重;
第三计算模块,用于针对所述候选地理实体以及该候选地理实体对应的匹配关键词,基于该候选地理实体的初始词频,所述匹配关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述匹配关键词与该候选地理实体间对应关系的权重,计算所述重要程度值。
可选的,所述第一计算模块,包括:
第四计算子模块,用于针对所述候选地理实体所匹配的第一地理实体,将该第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重相乘,得到乘积结果;
第三确定子模块,用于将所述乘积结果确定为所述候选地理实体的重要程度值。
可选的,所述过滤模块,包括:
删除子模块,用于针对所述候选地理实体集合中的各所述候选地理实体,删除目标删除候选地理实体,所述目标删除候选地理实体为所述候选地理实体集合中所述重要程度值小于第一预设重要程度阈值的所述候选地理实体,并将最高重要程度值候选地理实体移至新的候选地理实体集合,所述最高重要程度值候选地理实体为具有最高的所述重要程度值的所述候选地理实体;
第五计算子模块,用于针对删除所述目标删除候选地理实体及移出所述最高重要程度值候选地理实体后的所述候选地理实体集合,将剩余的候选地理实体的所述重要程度值,分别与所述最高重要程度值候选地理实体的所述重要程度值作差,得到多个差值;
移动子模块,用于将所述差值小于第二预设重要程度阈值的所述候选地理实体移至所述新的候选地理实体集合;
第三确定子模块,用于针对所述新的候选地理实体集合中的各所述候选地理实体,将层级最低的所述候选地理实体确定为所述过滤后的候选地理实体。
第三方面,本发明实施例提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。
本发明实施例有益效果:本发明实施例提供的一种网页内容的地理位置预测方法及装置,从待处理网页内容中获取多个地理实体和多个关键词,通过将各地理实体与知识图谱进行匹配,可以了解哪些关键词与地理实体有关联及其关联紧密程度,并基于地理实体的词频,关键词的词频以及关联紧密程度计算地理实体重要程度值,再基于地理实体重要程度值与预设的过滤规则确定待处理网页内容地理位置预测结果。可见,本发明实施例在对待处理网页内容进行地理位置预测时,不仅提取了该篇网页内容中的地理实体,还提取了其中的关键词,考虑了关键词对地理位置预测的影响。并且,本发明以知识图谱为工具对网页内容的地理位置进行预测,利用知识图谱具有的推理特性去得到文本中关键词和地理实体之间的联系。因此,待处理网页内容地理预测准确度提高。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网页内容的地理位置预测方法的流程图;
图2为本发明实施例中步骤S105的一种流程示意图;
图3为本发明实施例中步骤S106的一种流程示意图;
图4为本发明实施例提供的一种知识图谱的构建的流程图;
图5为本发明实施例中步骤S205的一种流程示意图;
图6为本发明实施例提供的另一种网页内容的地理位置预测方法的流程图;
图7为本发明实施例提供的第一种网页内容的地理位置预测装置的结构示意图;
图8为本发明实施例中的第一计算模块的一种结构示意图;
图9为本发明实施例中的过滤模块的一种结构示意图;
图10为本发明实施例提供的第二种网页内容的地理位置预测装置的结构示意图;
图11为本发明实施例中的第二计算模块的一种结构示意图;
图12为本发明实施例提供的第三种网页内容的地理位置预测装置的结构示意图;
图13为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种网页内容的地理位置预测方法,该过程可以包括以下步骤:
S101,获取待处理网页内容中的多个第一地理实体和多个第一关键词。
在本发明实施例中,可以从一些包含多个网址的综合性网站(如网站之家)中获取待处理网页内容。
作为本发明实施例一种可选的实施方式,上述获取待处理网页内容的步骤包括:
步骤A,利用python技术获取综合性网站中多个网址对应的网页页面的网页源代码,其中,网页源代码是在网页制作过程中需要的一些语言,Python是一种计算机程序设计语言,可应用于科学计算和统计、人工智能等领域。
步骤B,提取网页源代码中连续纯文本内容,示例性地,可以通过提取网页源代码中P标签中的段落来获取连续纯文本内容,P标签是HTML(Hyper Text Markup Language,超文本标记语言)中标记段落的标签,HTML是网页源代码中的一种。
上述连续纯文本内容可以是待处理网页内容,接着利用中文分词算法对待处理网页内容进行分词,得到多个第一关键词;再利用命名实体识别方法从待处理网页内容中识别出多个第一地理实体。其中,第一地理实体为包含地理位置信息的名词,第一关键词为待处理网页内容中除第一地理实体以外的其他名词,中文分词方法是指将一个汉字序列切分成一个一个单独的词,具体包括基于规则和词典的方法、基于统计机器学习的方法(隐马尔科夫模型、条件随机场模型等);命名实体识别方法是指识别文本中具有特定意义的实体,具体包括基于规则和词典的方法、基于统计机器学习的方法(隐马尔科夫模型、条件随机场模型等)以及混合方法。
S102,生成包含多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含多个第一关键词的名称信息和词频的关键词集合。
在本发明实施例中,上述多个第一关键词中的每一个关键词和多个第一地理实体中的每一个地理实体在待处理网页内容中的词频是不同的,在利用中文分词方法和命名实体识别方法获取到多个第一关键词和多个第一地理实体时,同时也获得了每一个关键词和每一个地理实体在待处理内容中的词频,在后续步骤中,将第一地理实体与第二地理实体进行匹配实际上是将第一地理实体的名称与第二地理实体的名称进行匹配,第一关键词与第二关键词的匹配同理,在计算候选地理实体的重要程度值时可以用第一地理实体的词频和第一关键词的词频,由于第一地理实体和第一关键词在待处理网页内容中出现次数越多,则该第一地理实体和该第一关键词和待处理网页内容的关联程度越大,因此地理实体的词频和第一关键词的词频是计算候选地理实体的重要程度值的参数。
S103,将地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体。
在本发明实施例中,当一个第一地理实体与一个第二地理实体的相似度高于一定的阈值时,可以认为该第一地理实体与该第二地理实体匹配,在匹配时可以用模糊匹配算法。知识图谱是用于特定领域中研究主体之间相互关系的图谱,本发明中的知识图谱包含第二地理实体与第二关键词间的对应关系,第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,第二关键词为知识图谱中除第二地理实体以外的其他名词。知识图谱中的一个第二地理实体可以对应多个第二关键词,一个第二地理实体每对应一个第二关键词,就表示该第二地理实体与对应的第二关键词存在对应关系,第二地理实体与第二关键词的对应关系在知识图谱中以三元组的形式表现,示例性地,(北京市,方言,北京话)这个三元组中,“北京市”是第二地理实体,“北京话”是第二关键词,“方言”是它们之间的对应关系。且知识图谱中的第二地理实体间具有层级关系,层级关系用于表示各第二地理实体间的地理范围的包含关系,示例性地,由于“北京市”这个第二地理实体的地理范围包含“海淀区”这个第二地理实体的地理范围,因此“北京市”的层级高于“海淀区”的层级。
S104,针对得到的候选地理实体,在知识图谱中查找目标关键词,并确定目标关键词与该候选地理实体间对应关系的权重。
在本发明实施例中,目标关键词为与候选地理实体对应的、且在关键词集合中具有相同名称的第一关键词的第二关键词。可以在知识图谱中查找候选地理实体对应的第二关键词,若关键词集合中不存在与该第二关键词名称相同的第一关键词,则继续查找该候选地理实体对应的其他第二关键词,直到查找到一个第二关键词,在关键词集合中存在与该第二关键词存在相同名称的第一关键词,则把该第二关键词确定为目标关键词,并确定该目标关键词与该候选地理实体间的权重。只有在关键词集合中具有相同名称的第一关键词的第二关键词才对待处理网页内容有意义,知识图谱是一个中介,查找目标关键词实际上是看从待处理内容中提取的第一关键词中的哪些与第一地理实体有关联,确定目标关键词与该候选地理实体间对应关系的权重实际上是确定与第一地理实体有关联的第一关键词和该第一地理实体的关联程度大小。
S105,针对候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在地理实体集合中的词频,目标关键词在关键词集合中具有相同名称的第一关键词的词频,以及目标关键词与该候选地理实体间对应关系的权重,计算候选地理实体的重要程度值。
示例性地,候选地理实体为“北京市”,且在地理实体集合中存在“北京市”这个第一地理实体,则该候选地理实体与该第一地理实体匹配,“北京市”在地理实体集合中的词频是10。其对应的目标关键词是“北京话”,在关键词集合中也存在“北京话”,则“北京话”是名称相同的第一关键词,其在关键词集合中的词频为5。在知识图谱中,“北京市”与“北京话”间对应关系的权重为0.6,则将10乘以5再乘以0.6,得到30这个乘积结果,30就是候选地理实体的重要程度值。
作为本发明实施例一种可选的实施方式,如图2所示,上述步骤S105具体包括:
S1051,针对候选地理实体所匹配的第一地理实体,将该第一地理实体在地理实体集合中的词频,目标关键词在关键词集合中具有相同名称的第一关键词的词频,以及目标关键词与该候选地理实体间对应关系的权重相乘,得到乘积结果。
在本发明实施例中,由于具有相同名称的第一关键词的词频,匹配的第一地理实体在地理实体集合中的词频以及目标关键词与候选地理实体间对应关系的权重都会对候选地理实体的重要程度值产生影响,因此要把它们相乘。
S1052,将乘积结果确定为候选地理实体的重要程度值。
上述步骤S1051-S1052可以针对的是候选地理实体只对应一个目标关键词的情况,当候选地理实体对应多个目标关键词时,可以参考下述实施例的描述。
作为本发明实施例一种可选的实施方式,本发明实施例还提供了一种计算该候选地理实体重要程度值的方法:
若一个候选地理实体对应多个目标关键词时,将候选地理实体初始重要程度值设置为0。
每查找到一个该候选地理实体对应的目标关键词,则该候选地理实体的初始重要程度值增加,增加的内容为该候选地理实体与该目标关键词间对应关系的权重与该目标关键词在关键词集合中具有相同名称的第一关键词的词频的乘积。
直至该候选地理实体对应的所有目标关键词查找完毕,则将该候选地理实体的初始重要程度值与该候选地理实体匹配的第一地理实体在地理实体集合中的词频相乘。
将乘积结果确定为该候选地理实体的重要程度值。
参考图1,S106,根据预设的过滤规则,对候选地理实体进行过滤,得到过滤后的候选地理实体。
在本发明实施例中,过滤规则基于候选地理实体的重要程度值,及候选地理实体间的层级关系确定。
在本发明实施例中,过滤规则的严重程度与预设的重要程度阈值相关,通过预设的重要程度阈值与各候选地理的重要程度值的比较、计算,可以衡量一个候选地理实体是否可以作为待处理网页内容地理位置预测结果。另外,过滤规则与候选地理实体的层级关系直接相关,可以只保留层级最低的候选地理实体。
作为本发明实施例一种可选的实施方式,如图3所示,上述步骤S106具体包括:
S1061,针对候选地理实体集合中的各候选地理实体,删除目标删除候选地理实体,并将最高重要程度值候选地理实体移至新的候选地理实体集合。
其中,目标删除候选地理实体为候选地理实体集合中重要程度值小于第一预设重要程度阈值的候选地理实体,最高重要程度值候选地理实体为具有最高的重要程度值的候选地理实体。需要说明的是,上述第一预设重要程度阈值可以由技术人员根据实际业务需求设置,本发明实施例不做具体限定。
在本发明实施例中,各候选地理实体都有可能作为待处理网页内容的地理位置预测结果,重要程度值是衡量一个候选地理实体作为待处理网页内容的地理位置预测结果的可能性大小的一个参数。由于一个候选地理实体的重要程度值与该地理实体作为待处理网页内容的地理位置预测结果的可能性成正比,因此,需要将重要程度值小于第一预设重要程度阈值的候选地理实体删除,将最高重要程度值候选地理实体移至新的候选地理实体集合。
S1062,针对删除目标删除候选地理实体及移出最高重要程度值候选地理实体后的候选地理实体集合,将剩余的候选地理实体的重要程度值,分别与最高重要程度值候选地理实体的重要程度值作差,得到多个差值。
S1063,将差值小于第二预设重要程度阈值的候选地理实体移至新的候选地理实体集合。
若一个候选地理实体的重要程度值与最高重要程度值候选地理实体的重要程度值差值在一定的范围内,说明该候选地理实体作为待处理网页内容的地理位置预测结果的可能性也很大,则应该把该候选地理实体移至新的候选地理实体集合。需要说明的是,上述第二预设重要程度阈值可以由技术人员根据实际业务需求设置,本发明实施例不做具体限定。
S1064,针对新的候选地理实体集合中的各候选地理实体,将层级最低的候选地理实体确定为过滤后的候选地理实体。
在本发明实施例中,新的候选地理实体集合中的候选地理实体的重要程度值都较高,这时,需要用到新的候选地理实体集合中的候选地理实体的层级进一步确定各候选地理实体作为待处理网页内容的地理位置预测结果的可能性大小,若一个候选地理实体的层级越低,则作为预测结果的精确度就越高。因此,可以将层级最低的候选地理实体确定为过滤后的候选地理实体,层级最低的候选地理实体可能有多个。
参考图1,S107,将过滤后得到的候选地理实体确定为待处理网页内容的地理位置预测结果。
示例性地,过滤后得到的候选地理实体为“北京市”,则将“北京市”确定为待处理网页内容的地理位置预测结果。
本发明实施例提供的一种网页内容的地理位置预测方法,从待处理网页内容中获取多个地理实体和多个关键词,通过将各地理实体与知识图谱进行匹配,可以了解哪些关键词与地理实体有关联及其关联紧密程度,并基于地理实体的词频,关键词的词频以及关联紧密程度计算地理实体重要程度值,再基于地理实体重要程度值与预设的过滤规则确定待处理网页内容地理位置预测结果。可见,本发明实施例在对待处理网页内容进行地理位置预测时,不仅提取了该篇网页内容中的地理实体,还提取了其中的关键词,考虑了关键词对地理位置预测的影响。并且,本发明以知识图谱为工具对网页内容的地理位置进行预测,利用知识图谱具有的推理特性去得到文本中关键词和地理实体之间的联系。因此,待处理网页内容地理预测准确度提高。
如图4所示,上述知识图谱的构建方法可以包括:
S201,获取目标文本内容。
该步骤可以位于图1所示实施例的步骤S101之前,在本发明实施例中,目标文本内容为包含预设地名的网页页面对应的文本内容,其中,预设地名可以是预设地理信息表中的地名,预设地理信息表中包含地名、所属省市区等信息。需要说明的是,上述预设地名和预设地理信息表可以由技术人员根据实际业务需求设置,本发明实施例不做具体限定。可以在搜索引擎中搜索预设地名,得到与预设地名相关的网页,再利用Python技术获取得到的相关网页的文本内容,并将该文本内容作为目标文本内容。
S202,提取目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及第三地理实体间的对应关系。
本发明实施例中,提取出的第三关键词,实质上是非地理实体,可以用关系抽取技术提取出目标文本内容中的多个三元组,一个三元组中包含了一个目标对应关系,以及具有目标对应关系的一个第三地理实体和一个第三关键词,另一种三元组中包含了第三地理实体间的对应关系,以及具有对应关系的两个第三地理实体,其中,目标对应关系为:多个第三地理实体和多个第三关键词中,具有关联属性的第三地理实体和第三关键词之间的关系,示例性地,在(北京市,行政区类,直辖市)这个三元组中“北京市”和“直辖市”的关联属性就是“行政区类”。目前主流的关系抽取技术包括基于规则的方法、基于机器学习的方法以及基于神经网络的方法。三元组有两种表达形式,分别为(实体1-关系-实体2)和(实体-属性-属性值),本申请中的目标关系可以是两种表达形式中的关系和属性,第三关键词可以是两种表达形式中的实体2和属性值,第三地理实体可以是两种表达形式中的实体1、实体2和实体。层级关系用于表示第三地理实体间的地理范围的包含关系,示例性地,“海淀区”的地理范围小于“北京市”且“海淀区”在地理范围上包含于“北京市”,因此“海淀区”的层级低于“北京市”。
S203,使用递归算法从第三地理实体间的对应关系中提取第三地理实体间的层级关系。
在本发明实施例中,可以基于递归算法提取地理实体间的层级关系,递归算法实际上是程序的自身调用,把一个大的复杂的问题层层转换为一个小的和原问题相似的问题来求解,示例性地,提取到(海淀区,隶属于,北京市)和(北京市,隶属于,中国)两个三元组时,通过递归算法可以获取到“海淀区”隶属于“中国”的层级关系。
S204,利用具有目标对应关系的第三地理实体和第三关键词,目标对应关系,第三地理实体间的对应关系以及层级关系,构建初始知识图谱。
在本发明实施例中,提取出多个三元组后,对这些三元组进行知识融合处理,得到初始知识图谱。知识融合主要解决的问题是实体对齐,实体对齐是为了消除从不同网页的目标文本内容中提取的不同的第三地理实体间的差异性,其方法包括成对实体对齐方法、局部集体实体对齐方法等。
S205,计算目标对应关系的权重,并将目标对应关系的权重添加至初始知识图谱中,得到知识图谱。
在本发明实施例中,目标对应关系的权重表示第二地理实体与第二关键词间的关联程度,将目标对应关系的权重添加至初始知识图谱,后续计算候选地理实体的重要程度值时更加便利。
作为本发明实施例一种可选的实施方式,如图5所示,上述步骤S205具体包括:
S2051,将一个目标对应关系,以及具有目标对应关系的一个第三地理实体和一个第三关键词,确定为一个三元组。
本发明实施例中,只有当三元组中的第三地理实体、第三关键词以及目标对应关系完全相同才能作为一个三元组,示例性地,(北京市,行政区类,直辖市)和(北京市,方言,北京话)虽然只有第三关键词和目标对应关系是不同的,但它们也不是一个三元组。
S2052,将第三地理实体间的对应关系,以及具有对应关系的两个第三地理实体,确定为一个三元组。
S2053,利用第一预设表达式,计算置信度。
在本发明实施例中,置信度表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,在三元组总个数中的比例,
第一预设表达式为:
式中,TR表示置信度,TC表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,TTC表示三元组总个数。
三元组置信度的值所在范围为[0,1],具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的置信度的值越大,则该具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,在三元组总个数中的比例就越大。
S2054,利用第二预设表达式,计算各第二关键词的稀缺度,第二预设表达式为:
式中,EGDA表示一个第二关键词的稀缺度,EC表示初始知识图谱的边数,其中,初始知识图谱中的边表示一个第二地理实体与一个第二关键词间的对应关系或第二地理实体间的对应关系,ED表示第二关键词在初始知识图谱中具有的边数。
一个第二关键词的稀缺度越大,说明与该第二关键词对应的第二地理实体越少,即该第二关键词与它所对应的地理实体关联程度更加紧密。
S2055,利用第三预设表达式,计算目标对应关系的权重,第三预设表达式为:
EW=TR*EGDA
式中,EW表示目标对应关系的权重,TR表示置信度,EGDA表示一个第二关键词的稀缺度。
在本发明实施例中,一个三元组中的目标对应关系权重和置信度,以及该三元组中第二关键词的稀缺度都有关系。示例性地,知识图谱中可以包含如下两个三元组:(北京市,行政区类,直辖市)和(北京市,方言,北京话),在(北京市,行政区类,直辖市)和(北京市,方言,北京话)在待处理内容中的置信度相差不大,而“北京话”的稀缺度又高于“直辖市”的稀缺度时,“方言”这个对应关系的权重就应该大于“行政区类”这个对应关系的权重。
如图6所示,在未获取到第一地理实体情况下,本发明实施例还提供了一种待处理网页内容地理位置预测方法,该方法可以包括:
S301,获取待处理网页内容中的多个第一地理实体和多个第一关键词。
该步骤与图1所示实施例中的步骤S101相同,在此不再赘述。
S302,生成包含多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含多个第一关键词的名称信息和词频的关键词集合。
该步骤与图1所示实施例中的步骤S102相同,在此不再赘述。
S303,将关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配,得到匹配关键词。
可以理解的是,在未获取到第一地理实体的情况下,可以将关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配。
S304,在知识图谱中查找与匹配关键词对应的第二地理实体。
本发明实施例中的知识图谱中包含第二地理实体与第二关键词间的对应关系以及对应关系的权重,可以理解的是,与匹配关键词对应的第二地理实体可能作为待处理网页内容的地理位置预测结果。
S305,将查找到的第二地理实体确定为候选地理实体,并为候选地理实体设置初始词频。
将该候选地理实体的初始词频设置为1,当后续查找其他第一关键词的匹配关键词对应的第二地理实体时,若查找到的第二地理实体是该候选地理实体的话,将该候选地理实体的初始词频加一。
S306,针对确定的候选地理实体,确定匹配关键词与该候选地理实体间对应关系的权重。
在本发明实施例中,匹配关键词与候选地理实体间对应关系的权重是不同的,示例性地,当未从待处理网页内容中提取出地理实体,而关键词集合中存在“北京话”和“直辖市”时,可以在知识图谱中查找到“北京话”的匹配关键词对应的第二地理实体就是“北京市”,即“北京市”与“北京话”的关联程度高,而“直辖市”的匹配关键词对应的第二地理实体可以是“北京市”、“重庆市”等。也就是说,当匹配关键词与候选地理实体间的权重高时,候选地理实体作为待处理网页内容地理位置预测结果的可能性就大。
S307,针对候选地理实体以及该候选地理实体对应的匹配关键词,基于该候选地理实体的初始词频,匹配关键词在关键词集合中具有相同名称的第一关键词的词频,以及匹配关键词与该候选地理实体间对应关系的权重,计算候选地理实体的重要程度值。
将该候选地理实体的初始词频,匹配关键词在关键词集合中具有相同名称的第一关键词的词频,以及匹配关键词与该候选地理实体间对应关系的权重相乘,得到乘积结果,将乘积结果确定为候选地理实体的重要程度值。在本发明实施例中,会出现多个不同的第一关键词在知识图谱中的匹配关键词同时对应一个候选地理实体的情况,此时,需要将该候选地理实体基于不同的第一关键词的词频计算出的重要程度值累加。
S308,根据预设的过滤规则,对候选地理实体进行过滤,得到过滤后的候选地理实体。
该步骤与图1所示实施例中的步骤S106相同,在此不再赘述。
S309,将过滤后得到的候选地理实体确定为待处理网页内容的地理位置预测结果。
该步骤与图1所示实施例中的步骤S107相同,在此不再赘述。
本发明实施例提供的另一种网页内容的地理位置预测方法,在没有从待处理网页内容中提取出地理实体时,将提取出的多个关键词与知识图谱进行匹配,匹配到的关键词在知识图谱中对应的地理实体是可能作为待处理网页内容地理位置预测结果的候选地理实体,基于候选地理实体的词频,关键词的词频以及匹配关键词与候选地理实体对应关系的权重计算候选地理实体的重要程度值,再基于候选地理实体重要程度值与预设的过滤规则确定处理网页内容地理位置预测结果。可见,本发明实施例在对待处理网页内容进行地理位置预测时,在没有从待处理网页内容中提取出地理实体的情况下,通过将提取出的关键词与知识图谱进行匹配,可以确定哪些地理实体与关键词有关联及关联程度。因此,在没有从待处理网页内容中提取出地理实体时,可以利用提取出的关键词来对待处理网页内容进行地理位置预测。
如图7所示,本发明实施例还提供了一种网页内容的地理位置预测装置,包括:
第一获取模块401,用于获取待处理网页内容中的多个第一地理实体和多个第一关键词。
生成模块402,用于生成包含多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含多个第一关键词的名称信息和词频的关键词集合。
第一匹配模块403,用于将地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体。
第一查找模块404,用于针对得到的候选地理实体,在知识图谱中查找目标关键词,并确定目标关键词与该候选地理实体间对应关系的权重。
第一计算模块405,用于针对候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在地理实体集合中的词频,目标关键词在关键词集合中具有相同名称的第一关键词的词频,以及目标关键词与该候选地理实体间对应关系的权重,计算候选地理实体的重要程度值。
过滤模块406,用于根据预设的过滤规则,对候选地理实体进行过滤,得到过滤后的候选地理实体。
第一确定模块407,用于将过滤后得到的候选地理实体确定为待处理网页内容的地理位置预测结果。
如图8所示,作为本发明实施例一种可选的实施方式,上述第一计算模块405包括:
第四计算子模块4051,用于针对候选地理实体所匹配的第一地理实体,将该第一地理实体在地理实体集合中的词频,目标关键词在关键词集合中具有相同名称的第一关键词的词频,以及目标关键词与该候选地理实体间对应关系的权重相乘,得到乘积结果。
第三确定子模块4052,用于将乘积结果确定为候选地理实体的重要程度值。
如图9所示,作为本发明实施例一种可选的实施方式,上述过滤模块406包括:
删除子模块4061,用于针对候选地理实体集合中的各候选地理实体,删除目标删除候选地理实体,并将最高重要程度值候选地理实体移至新的候选地理实体集合。
第五计算子模块4062,用于针对删除目标删除候选地理实体及移出最高重要程度值候选地理实体后的候选地理实体集合,将剩余的候选地理实体的重要程度值,分别与最高重要程度值候选地理实体的重要程度值作差,得到多个差值。
移动子模块4063,用于将差值小于第二预设重要程度阈值的候选地理实体移至新的候选地理实体集合。
第四确定子模块4064,用于针对新的候选地理实体集合中的各候选地理实体,将层级最低的候选地理实体确定为过滤后的候选地理实体。
在图7所示装置结构的基础上,如图10所示,本发明实施例的网页内容的地理位置预测装置还可以包括:
第二获取模块501,用于获取目标文本内容。
第一提取模块502,用于提取目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及第三地理实体间的对应关系。
第二提取模块503,用于使用递归算法从第三地理实体间的对应关系中提取第三地理实体间的层级关系。
构建模块504,用于利用具有目标对应关系的第三地理实体和第三关键词,目标对应关系,第三地理实体间的对应关系以及层级关系,构建初始知识图谱。
第二计算模块505,用于计算目标对应关系的权重,并将目标对应关系的权重添加至初始知识图谱中,得到知识图谱。
如图11所示,作为本发明实施例一种可选的实施方式,上述第二计算模块505包括:
第一确定子模块5051,用于将一个目标对应关系,以及具有目标对应关系的一个第三地理实体和一个第三关键词,确定为一个三元组。
第二确定子模块5052,用于将第三地理实体间的对应关系,以及具有对应关系的两个第三地理实体,确定为一个三元组。
第一计算子模块5053,用于利用第一预设表达式,计算置信度。
第二计算子模块5054,用于利用第二预设表达式,计算各第二关键词的稀缺度。
第三计算子模块5055,用于利用第三预设表达式,计算目标对应关系的权重。
如图12所示,作为本发明实施例一种可选的实施方式,在图7所示装置结构的基础上,本发明实施例的一种网页内容的地理位置预测装置,还可以包括:
第二匹配模块601,用于将关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配,得到匹配关键词。第二查找模块602,用于在知识图谱中查找与匹配关键词对应的第二地理实体。第二确定模块603,用于将查找到的第二地理实体确定为候选地理实体,并为候选地理实体设置初始词频。第三确定模块604,用于针对确定的候选地理实体,确定匹配关键词与该候选地理实体间对应关系的权重。第三计算模块605,用于针对候选地理实体以及该候选地理实体对应的匹配关键词,基于该候选地理实体的初始词频,匹配关键词在关键词集合中具有相同名称的第一关键词的词频,以及匹配关键词与该候选地理实体间对应关系的权重,计算重要程度值。
本发明实施例提供的一种网页内容的地理位置预测装置,从待处理网页内容中获取多个地理实体和多个关键词,通过将各地理实体与知识图谱进行匹配,可以了解哪些关键词与地理实体有关联及其关联紧密程度,并基于地理实体的词频,关键词的词频以及关联紧密程度计算地理实体重要程度值,再基于地理实体重要程度值与预设的过滤规则确定待处理网页内容地理位置预测结果。可见,本发明实施例在对待处理网页内容进行地理位置预测时,不仅提取了该篇网页内容中的地理实体,还提取了其中的关键词,考虑了关键词对地理位置预测的影响。并且,本发明以知识图谱为工具对网页内容的地理位置进行预测,利用知识图谱具有的推理特性去得到文本中关键词和地理实体之间的联系。因此,待处理网页内容地理预测准确度提高。
本发明实施例还提供了一种电子设备,如图13所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,存储器703,用于存放计算机程序。处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获取待处理网页内容中的多个第一地理实体和多个第一关键词。生成包含多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含多个第一关键词的名称信息和词频的关键词集合。将地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体。针对得到的候选地理实体,在知识图谱中查找目标关键词,并确定目标关键词与该候选地理实体间对应关系的权重。针对候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在地理实体集合中的词频,目标关键词在关键词集合中具有相同名称的第一关键词的词频,以及目标关键词与该候选地理实体间对应关系的权重,计算候选地理实体的重要程度值。根据预设的过滤规则,对候选地理实体进行过滤,得到过滤后的候选地理实体。将过滤后得到的候选地理实体确定为待处理网页内容的地理位置预测结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的一种电子设备,从待处理网页内容中获取多个地理实体和多个关键词,通过将各地理实体与知识图谱进行匹配,可以了解哪些关键词与地理实体有关联及其关联紧密程度,并基于地理实体的词频,关键词的词频以及关联紧密程度计算地理实体重要程度值,再基于地理实体重要程度值与预设的过滤规则确定处理网页内容地理位置预测结果。可见,本发明实施例在对待处理网页内容进行地理位置预测时,不仅提取了该篇网页内容中的地理实体,还提取了其中的关键词,考虑了关键词对地理位置预测的影响,并以知识图谱为工具对网页内容的地理位置进行预测,利用知识图谱具有的推理特性去得到文本中关键词和地理实体之间的联系。因此,待处理网页内容地理预测准确度提高。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一一种网页内容的地理位置预测方法的步骤。
本发明实施例提供的一种计算机可读存储介质,从待处理网页内容中获取多个地理实体和多个关键词,通过将各地理实体与知识图谱进行匹配,可以了解哪些关键词与地理实体有关联及其关联紧密程度,并基于地理实体的词频,关键词的词频以及关联紧密程度计算地理实体重要程度值,再基于地理实体重要程度值与预设的过滤规则确定处理网页内容地理位置预测结果。可见,本发明实施例在对待处理网页内容进行地理位置预测时,不仅提取了该篇网页内容中的地理实体,还提取了其中的关键词,考虑了关键词对地理位置预测的影响,并以知识图谱为工具对网页内容的地理位置进行预测,利用知识图谱具有的推理特性去得到文本中关键词和地理实体之间的联系。因此,待处理网页内容地理预测准确度提高。
对于装置/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,本发明实施例的装置及存储介质分别是应用上述一种网页内容的地理位置预测方法的装置及存储介质,则上述一种网页内容的地理位置预测方法的所有实施例均适用于该装置及存储介质,且均能达到相同或相似的有益效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种网页内容的地理位置预测方法,其特征在于,所述方法包括:
获取待处理网页内容中的多个第一地理实体和多个第一关键词,所述第一地理实体为包含地理位置信息的名词,所述关键词为所述待处理网页内容中除所述第一地理实体以外的其他名词;
生成包含所述多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含所述多个第一关键词的名称信息和词频的关键词集合;
将所述地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,其中,所述知识图谱中包含所述第二地理实体与第二关键词间的对应关系,所述第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,且所述知识图谱中的第二地理实体间具有层级关系,所述层级关系用于表示各第二地理实体间的地理范围的包含关系,所述第二关键词为所述知识图谱中除所述第二地理实体以外的其他名词;
针对得到的候选地理实体,在所述知识图谱中查找目标关键词,所述目标关键词为与所述候选地理实体对应的、且在所述关键词集合中具有相同名称的第一关键词的第二关键词,并确定所述目标关键词与该候选地理实体间对应关系的权重;
针对所述候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重,计算所述候选地理实体的重要程度值,所述候选地理实体的重要程度值用于衡量该候选地理实体的重要程度;
根据预设的过滤规则,对所述候选地理实体进行过滤,得到过滤后的候选地理实体,所述过滤规则基于所述候选地理实体的重要程度值,及所述候选地理实体间的层级关系确定;
将过滤后得到的候选地理实体确定为所述待处理网页内容的地理位置预测结果。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱的构建过程包括:
获取目标文本内容,所述目标文本内容为:包含预设地名的网页页面对应的文本内容;
提取所述目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及第三地理实体间的对应关系,所述目标对应关系为:所述多个第三地理实体和所述多个第三关键词中,具有关联属性的第三地理实体和第三关键词之间的关系;
使用递归算法从所述第三地理实体间的对应关系中提取第三地理实体间的层级关系;
利用具有所述目标对应关系的第三地理实体和第三关键词,所述目标对应关系,所述第三地理实体间的对应关系以及所述层级关系,构建初始知识图谱;
计算所述目标对应关系的权重,并将所述目标对应关系的权重添加至初始知识图谱中,得到所述知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述计算所述目标对应关系的权重的步骤,包括:
将一个所述目标对应关系,以及具有所述目标对应关系的一个第三地理实体和一个第三关键词,确定为一个三元组;
将所述第三地理实体间的对应关系,以及具有所述对应关系的两个第三地理实体,确定为一个三元组;
利用第一预设表达式,计算置信度,所述置信度表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,在三元组总个数中的比例,
所述第一预设表达式为:
式中,TR表示所述置信度,TC表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,TTC表示三元组总个数;
利用第二预设表达式,计算各所述第二关键词的稀缺度,所述第二预设表达式为:
式中,EGDA表示一个所述第二关键词的稀缺度,EC表示所述初始知识图谱的边数,其中,所述初始知识图谱中的边表示一个所述第二地理实体与一个所述第二关键词间的对应关系或所述第二地理实体间的对应关系,ED表示所述第二关键词在所述初始知识图谱中具有的边数;
利用第三预设表达式,计算所述目标对应关系的权重,所述第三预设表达式为:
EW=TR*EGDA
式中,EW表示所述目标对应关系的权重,TR表示所述置信度,EGDA表示一个所述第二关键词的稀缺度。
4.根据权利要求1所述的方法,其特征在于,在未获取到所述第一地理实体情况下,所述方法还包括:
将所述关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配,得到匹配关键词;
在所述知识图谱中查找与所述匹配关键词对应的第二地理实体;
将查找到的第二地理实体确定为候选地理实体,并为所述候选地理实体设置初始词频;
针对确定的候选地理实体,确定所述匹配关键词与该候选地理实体间对应关系的权重;
针对所述候选地理实体以及该候选地理实体对应的匹配关键词,基于该候选地理实体的初始词频,所述匹配关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述匹配关键词与该候选地理实体间对应关系的权重,计算所述重要程度值。
5.根据权利要求1所述的方法,其特征在于,所述计算所述候选地理实体的重要程度值的步骤,包括:
针对所述候选地理实体所匹配的第一地理实体,将该第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重相乘,得到乘积结果;
将所述乘积结果确定为所述候选地理实体的重要程度值。
6.根据权利要求1所述的方法,其特征在于,所述根据预设的过滤规则,对所述候选地理实体进行过滤的步骤,包括:
针对所述候选地理实体集合中的各所述候选地理实体,删除目标删除候选地理实体,所述目标删除候选地理实体为所述候选地理实体集合中所述重要程度值小于第一预设重要程度阈值的所述候选地理实体,并将最高重要程度值候选地理实体移至新的候选地理实体集合,所述最高重要程度值候选地理实体为具有最高的所述重要程度值的所述候选地理实体;
针对删除所述目标删除候选地理实体及移出所述最高重要程度值候选地理实体后的所述候选地理实体集合,将剩余的候选地理实体的所述重要程度值,分别与所述最高重要程度值候选地理实体的所述重要程度值作差,得到多个差值;
将所述差值小于第二预设重要程度阈值的所述候选地理实体移至所述新的候选地理实体集合;
针对所述新的候选地理实体集合中的各所述候选地理实体,将层级最低的所述候选地理实体确定为所述过滤后的候选地理实体。
7.一种网页内容的地理位置预测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理网页内容中的多个第一地理实体和多个第一关键词,所述第一地理实体为包含地理位置信息的名词,所述关键词为所述待处理网页内容中除所述第一地理实体以外的其他名词;
生成模块,用于生成包含所述多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含所述多个第一关键词的名称信息和词频的关键词集合;
第一匹配模块,用于将所述地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,其中,所述知识图谱中包含所述第二地理实体与第二关键词间的对应关系,所述第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,且所述知识图谱中的第二地理实体间具有层级关系,所述层级关系用于表示各第二地理实体间的地理范围的包含关系,所述第二关键词为所述知识图谱中除所述第二地理实体以外的其他名词;
第一查找模块,用于针对得到的候选地理实体,在所述知识图谱中查找目标关键词,所述目标关键词为与所述候选地理实体对应的、且在所述关键词集合中具有相同名称的第一关键词的第二关键词,并确定所述目标关键词与该候选地理实体间对应关系的权重;
第一计算模块,用于针对所述候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重,计算重要程度值,所述候选地理实体的重要程度值用于衡量该候选地理实体的重要程度;
过滤模块,用于根据预设的过滤规则,对所述候选地理实体进行过滤,得到过滤后的候选地理实体,所述过滤规则基于所述候选地理实体的重要程度值,及所述候选地理实体间的层级关系确定;
第一确定模块,用于将过滤后得到的候选地理实体确定为所述待处理网页内容的地理位置预测结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取目标文本内容,所述目标文本内容为:包含预设地名的网页页面对应的文本内容;
第一提取模块,用于提取所述目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及第三地理实体间的对应关系,所述目标对应关系为:所述多个第三地理实体和所述多个第三关键词中,具有关联属性的第三地理实体和第三关键词之间的关系;
第二提取模块,用于使用递归算法从所述第三地理实体间的对应关系中提取第三地理实体间的层级关系;
构建模块,用于利用具有所述目标对应关系的第三地理实体和第三关键词,所述目标对应关系,所述第三地理实体间的对应关系以及所述层级关系,构建初始知识图谱;
第二计算模块,用于计算所述目标对应关系的权重,并将所述目标对应关系的权重添加至初始知识图谱中,得到所述知识图谱。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911063187.9A CN110795573B (zh) | 2019-10-31 | 2019-10-31 | 一种网页内容的地理位置预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911063187.9A CN110795573B (zh) | 2019-10-31 | 2019-10-31 | 一种网页内容的地理位置预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795573A true CN110795573A (zh) | 2020-02-14 |
CN110795573B CN110795573B (zh) | 2021-09-28 |
Family
ID=69440873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911063187.9A Active CN110795573B (zh) | 2019-10-31 | 2019-10-31 | 一种网页内容的地理位置预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795573B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111901450A (zh) * | 2020-07-15 | 2020-11-06 | 安徽淘云科技有限公司 | 实体的地址确定方法、装置、设备及存储介质 |
CN115860179A (zh) * | 2022-11-01 | 2023-03-28 | 清华大学 | 轨迹预测方法、装置、设备、存储介质及程序产品 |
CN117172255A (zh) * | 2023-11-02 | 2023-12-05 | 中国科学院空天信息创新研究院 | 考虑空间语义关系的地理实体对齐方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060230040A1 (en) * | 2003-12-08 | 2006-10-12 | Andy Curtis | Methods and systems for providing a response to a query |
CN101127050A (zh) * | 2007-07-03 | 2008-02-20 | 北京大学 | 一种从网页中自动提取网站拥有者行政属地信息的方法 |
CN107180045A (zh) * | 2016-03-10 | 2017-09-19 | 中国科学院地理科学与资源研究所 | 一种互联网文本蕴含地理实体关系的抽取方法 |
CN108491502A (zh) * | 2018-03-21 | 2018-09-04 | 腾讯科技(深圳)有限公司 | 一种新闻追踪的方法、终端、服务器及存储介质 |
US10108700B2 (en) * | 2013-03-15 | 2018-10-23 | Google Llc | Question answering to populate knowledge base |
CN110188191A (zh) * | 2019-04-08 | 2019-08-30 | 北京邮电大学 | 一种用于网络社区文本的实体关系图谱构建方法和系统 |
-
2019
- 2019-10-31 CN CN201911063187.9A patent/CN110795573B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060230040A1 (en) * | 2003-12-08 | 2006-10-12 | Andy Curtis | Methods and systems for providing a response to a query |
CN101127050A (zh) * | 2007-07-03 | 2008-02-20 | 北京大学 | 一种从网页中自动提取网站拥有者行政属地信息的方法 |
US10108700B2 (en) * | 2013-03-15 | 2018-10-23 | Google Llc | Question answering to populate knowledge base |
CN107180045A (zh) * | 2016-03-10 | 2017-09-19 | 中国科学院地理科学与资源研究所 | 一种互联网文本蕴含地理实体关系的抽取方法 |
CN108491502A (zh) * | 2018-03-21 | 2018-09-04 | 腾讯科技(深圳)有限公司 | 一种新闻追踪的方法、终端、服务器及存储介质 |
CN110188191A (zh) * | 2019-04-08 | 2019-08-30 | 北京邮电大学 | 一种用于网络社区文本的实体关系图谱构建方法和系统 |
Non-Patent Citations (2)
Title |
---|
MIRNA ADRIANI等: "Identifying location in indonesian documents for geographic information retrieval", 《PROCEEDINGS OF THE 4TH ACM WORKSHOP ON GEOGRAPHICAL INFORMATION RETRIEVAL 》 * |
周琦等: "基于语义文法的地理实体位置关系的获取", 《计算机科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111901450A (zh) * | 2020-07-15 | 2020-11-06 | 安徽淘云科技有限公司 | 实体的地址确定方法、装置、设备及存储介质 |
CN111901450B (zh) * | 2020-07-15 | 2023-04-18 | 安徽淘云科技股份有限公司 | 实体的地址确定方法、装置、设备及存储介质 |
CN115860179A (zh) * | 2022-11-01 | 2023-03-28 | 清华大学 | 轨迹预测方法、装置、设备、存储介质及程序产品 |
CN117172255A (zh) * | 2023-11-02 | 2023-12-05 | 中国科学院空天信息创新研究院 | 考虑空间语义关系的地理实体对齐方法、装置及电子设备 |
CN117172255B (zh) * | 2023-11-02 | 2024-02-02 | 中国科学院空天信息创新研究院 | 考虑空间语义关系的地理实体对齐方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110795573B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
WO2020001373A1 (zh) | 一种本体构建方法及装置 | |
CN110795573B (zh) | 一种网页内容的地理位置预测方法及装置 | |
US8458198B1 (en) | Document analysis and multi-word term detector | |
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN113139134B (zh) | 一种社交网络中用户生成内容的流行度预测方法、装置 | |
CN109766447B (zh) | 一种确定敏感信息的方法和装置 | |
CN113722478B (zh) | 多维度特征融合相似事件计算方法、系统及电子设备 | |
CN112784063B (zh) | 一种成语知识图谱构建方法及装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN114201598B (zh) | 文本推荐方法及文本推荐装置 | |
CN101393550A (zh) | 用于计算对象之间竞争性度量的方法与系统 | |
CN115129913A (zh) | 敏感词挖掘方法及其装置、设备、介质 | |
CN111858830A (zh) | 基于自然语言处理的卫生监督执法数据检索系统及其方法 | |
CN105677664A (zh) | 基于网络搜索的紧密度确定方法及装置 | |
CN118250169A (zh) | 一种网络资产类别推荐方法、设备及储存介质 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN112818221B (zh) | 实体的热度确定方法、装置、电子设备及存储介质 | |
CN112215006B (zh) | 机构命名实体归一化方法和系统 | |
CN114297235A (zh) | 风险地址识别方法、系统及电子设备 | |
CN113204954A (zh) | 基于大数据的数据检测方法、设备及计算机可读存储介质 | |
CN105787101A (zh) | 一种信息处理方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |