具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于语义的电力计量数据处理方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以涉及终端10和服务器20,终端10可以从网络或者与电力系统相关的网络的网页中,进行内容爬取,获得爬取结果。服务器20中存储有电力计量的知识单元数据库,知识单元数据库包括各知识单元,任意一个知识单元包括电力计量主题的实体与实体之间关系的三元组。终端10爬取获得的爬取结果,可以通过与电力计量的知识单元数据库中对应的知识单元对应的方式存储,具体可以是存储该知识单元数据库中。在一些实施例中,也可以是由该服务器20从网络或者与电力系统相关的网络的网页中,进行内容爬取,获得爬取结果,并将获得的爬取结果通过与电力计量的知识单元数据库中对应的知识单元对应的方式存储。
该应用环境还可以涉及终端30,用户可以通过使用该终端30向服务器20发起查询请求,服务器20基于该查询请求,从知识单元数据库的各知识单元中查找到对应的知识单元,再获得该知识单元关联存储的爬取结果,并将该爬取结果作为查询结果返回给终端30。其中,终端10、30可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于语义的电力计量数据处理方法,以该方法应用于图1中的终端10或者服务器20为例进行说明,包括以下步骤S201至步骤S203。
步骤S201:获取待爬取网页。
待爬取网页是要进行内容爬取的目标网页。可以通过各种可能方式获得待爬取网页,例如预先设定有待爬取网页的集合,或者与电力计量相关的网页,都设置为待爬取网页。
步骤S202:根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果。
待爬取网页与电力计量主题的相关度,用以表示待爬取网页与电力计量相关的程度,体现了待爬取网页与电力计量主题的相关性。根据待爬取网页与电力计量主题的相关度,对待爬取网页进行内容爬取,可以从中爬取到与电力计量主题更为相关联的爬取内容。
一个实施例中,根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果,包括步骤S212至步骤S252。
步骤S212:计算所述待爬取网页与电力计量主题的第一主题相关度。
其中,待爬取网页与电力计量主题的第一主题相关度,是指对待爬取网页与电力计量主题的相关程度。
一个实施例中,计算所述待爬取网页与电力计量主题的第一主题相关度,包括步骤S2121至步骤S2123。
步骤S2121:计算所述待爬取网页与电力计量主题的基于链接的链接相关度。
其中,待爬取网页与电力计量主题的基于链接的相关度,可以基于链接到该待爬取网页的其他网页,与电力计量主题的相关度来确定。
一个实施例中,计算所述待爬取网页与电力计量主题的基于链接的链接相关度,包括如下步骤1至步骤3。
步骤1:根据所述待爬取网页被其他网页链接的信息,获得链接所述待爬取网页的各所述其他网页的子相关度。
其中,各所述其他网页的子相关度,体现了在浏览该待爬取网页的情况下,会进一步浏览该其他网页的概率程度。一个实施例中,可以采用PageRank算法获得连接了待爬取网页的各其他网页的子相关度。
步骤2:确定各所述其他网页与所述电力计量主题的页面相关度。
其中,其他网页与电力计量主题的页面相关度,体现了该其他网页的文字内容与电力计量主题的内容之间的相关度,一些实施例中,可以基于向量空间模型的简单向量距离算法确定页面相关度。
步骤3:根据各所述其他网页的子相关度以及各所述其他网页的页面相关度,确定所述链接相关度。
一些实施例中,可以对各所述其他网页的子相关度以及各所述其他网页的页面相关度进行加权求和,获得该链接相关度。一个具体示例中,可以是将各其他网页的子相关度与该其他网页的页面相关度之积进行求和,获得链接相关度。
步骤S2122:计算所述待爬取网页与电力计量主题的基于内容的内容相关度。
其中,待爬取网页与电力计量主题的基于内容的内容相关度,表征了待爬取网页的内容与电力计量主题的相关程度。体现了待爬取网页的内容与电力计量主题的内容之间的相关度,一些实施例中,可以基于向量空间模型的简单向量距离算法确定页面相关度。
步骤S2123:基于所述链接相关度和所述内容相关度,确定所述第一主题相关度。
一个实施例中,可以对链接相关度和内容相关度进行加权求和,获得该第一主题相关度,其中,链接相关度和内容相关度各自对应的权重,可以结合实际技术需要进行设定。
步骤S222:根据所述第一主题相关度,从所述待爬取网页中筛选出目标爬取网页。
其中,一些实施例中,可以是将第一主题相关度大于第一主题相关度阈值的待爬取网页,作为目标爬取网页。
步骤S232:计算各所述目标爬取网页的各网页区域与所述电力计量主题的第二主题相关度。
其中,一个网页可以划分为多个区域,如顶栏、侧边栏、主要区域、底栏等,显示在不同区域的信息所传递的信息实用性不同。同时每个区域下又有用不同标签划分的小分块,这些分块信息与电力计量主题的关联程度在存在差别。目标爬取网页的网页区域,是指对目标爬取网页进行区域划分后得到的区域,可以是顶栏、侧边栏、主要区域、底栏,也可以是对区域按照不同标签划分得到的小分块得到的区域。
一个实施例中,计算各所述目标爬取网页的各网页区域与所述电力计量主题的第二主题相关度,包括:
将所述目标爬取网页作为一棵DOM树,所述目标爬取网页的各区域作为所述DOM树的分支,各所述区域对应的各标签作为所述DOM树的节点,计算各所述节点与所述电力计量主题的相关度;
将所述节点与所述电力计量主题的相关度,作为所述节点对应的标签代表的分块区域与所述电力计量主题的第二主题相关度。
步骤S242:根据所述第二主题相关度确定所述DOM树中的目标爬取区域。
一个实施例中,可以是将第二主题相关度大于第二主题相关度阈值的分块区域,作为目标爬取区域。
步骤S252:对所述目标爬取区域对应的内容进行内容爬取,获取爬取结果。
在确定目标爬取区域之后,具体的爬取方式可以采用已有的或者以后出现的任何可能的爬取方式进行。
步骤S203:将所述爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组。
其中,知识单元数据库是用以存储各个知识单元的数据库,还可以是用以关联存储于知识单元对应的爬取结果。
一个实施例中,所述知识单元数据库的建立方式包括步骤S213至步骤S243。
步骤S213:获取电力计量领域的知识图谱。
其中,电力计量领域的知识图谱,可以是电力计量领域已有的知识图谱,也可以是自行创建的知识图谱。
步骤S223:以所述知识图谱的根节点为起点,自顶向下遍历提取一级实体和二级实体,所述一级实体为所述知识图谱中与根节点连接的子节点,所述二级实体为所述知识图谱中与所述一级实体连接的子节点。
步骤S233:重新自顶向下遍历所述知识图谱,建立各实体之间的联系获得对应的知识单元,并将各所述知识单元整合为知识单元列表。
步骤S243:根据所述知识单元列表构建所述知识单元数据库。
一些实施例中,将所述爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,包括:
获取所述爬取结果中的关键字;
从所述知识单元数据库中的各知识单元中,查询与所述关键字匹配的知识单元;
将所述爬取结果存储到与匹配的知识单元对应的存储位置,所述爬取结果与所述知识单元通过所述关键字关联。
基于如上所述的实施例中的方法,其通过待爬取网页与电力计量主题的相关度,对待爬取网页进行内容爬取,获取爬取结果,针对获得的爬取结果,是将其与电力计量的知识单元数据库中对应的知识单元进行存储,且知识单元是包括电力计量主题的实体与实体之间关系的三元组,从而,在对爬取到的与电力计量主题相关的数据进行存储时,是与存在实体与实体之间关系的知识单元对应存储,从而可以对该数据进行语义相关的存储,后续在进行检索时,可以基于对应的知识单元实现基于语义的检索,大大提高了电力计量数据存储和搜索时的专业度,而且可以基于知识单元实现语义理解,提高搜索时的准确率和召回率的稳定性。
在一个实施例中,如图3所示,提供了一种基于语义的电力计量数据处理方法,以该方法应用于图1中的服务器20为例进行说明,包括以下步骤S301至步骤S303。
步骤S301:接收搜索请求。
其中,在一些实施例中,搜索请求中可以携带有需要进行搜索的内容,该内容可以是多个字、词,也可以是一段文字内容。
步骤S302:根据所述搜索请求,在电力计量的知识单元数据库中对应的知识单元中进行语义搜索,搜索获得与所述搜索请求对应的知识单元;所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组。
知识单元包括所述电力计量主题的实体与实体之间关系的三元组,其提取和建立过程可以与上述实施例中同样的方式进行。
可以通过对知识单元列表的各知识单元进行语义搜索,从而获得与搜索请求中的内容对应的知识单元。
其中,电力计量的知识单元数据库的建立方式,以及电力计量的知识单元数据库中的知识单元的提取方式可以与上述实施例中同样的方式进行。
步骤S303:获取所述电力计量的知识单元数据库中存储的,与搜索到的知识单元对应的数据,并将获取的数据作为所述搜索请求对应的搜索结果。
其中,电力计量的知识单元数据库中与知识单元对应的数据,可以是基于上述实施例中的方式吗,爬取获得的爬取数据。
基于如上所述的实施例,以下结合一些具体应用示例进行详细举例说明。
由于知识图谱将大量不同种类的信息连接在一起得到一个关系网络,可以直观、有效地表示出实体之间的关系。而电力领域累积了大量数据,包含用电量、相关标准规范、技术文档等等,知识图谱的应用可极大提高电力领域信息搜索的效率与精度。因此,考虑到后续搜索引擎查找对象的专业性和准确性,本申请实施例提供了基于语义的电力计量数据处理方式,具体包括基于语义的电力计量数据存储,还可以包括基于语义的电力计量数据的搜索,该搜索可以是垂直搜索。
参考图4所示,本申请实施例实施时,可以先从已有知识图谱中提取出知识单元,以便于对爬取得到的信息进行分类存储。然后对待爬取网页进行筛选,再将筛选得到的目标爬取网页转换为DOM树以选取具体的目标爬取区域,然后在目标爬取区域自动化爬取内容,获得爬取结果。再将爬取结果与知识单元关联存储。从而在进行搜索时,基于存储的知识单元,可以实现基于语义的垂直搜索,在搜索内容时,不仅能获取与关键词直接匹配的信息,还可以基于知识单元推荐与之逻辑相匹配的内容,极大提高了搜索引擎在电力计量领域搜索信息的专业性。
参考图4所示,在实际进行网页内容的爬取之前,需先基于知识图谱进行知识单元数据库的构建。
本申请实施例中,从电力计量领域的知识图谱出发,针对“实体-关系-实体”三元组做一级实体提取、二级实体提取、上下位实体关系提取、非上下位实体关系提取等处理,整合出知识单元列表,并获得具体的知识单元。知识单元的提取是语义搜索功能建立的核心,由于知识单元以三元组的方式存储在知识图谱中,在提取时需要区分实体与关系,并将其对应。
知识图谱是语义知识的结构化模型,用于将现实世界中实体及实体间存在的关系抽象表现为树状结构。知识单元是知识图谱最基础的单位,实际含义为“实体-关系-实体”的三元组,其中实体无需对应物理世界具象化存在的物品,它代表独立存在且区别于其他事物的概念,关系则为不同概念间存在的联系。以实体为树的节点,关系为边,多对知识单元组合在一起,构成树状结构的知识图谱。知识图谱从逻辑角度出发可分为模式层和数据层,其中模式层中除包含了“实体-关系-实体”三元组外,也包含了“实体-属性-性值”三元组。
本申请实施例中,从电力计量领域的知识图谱出发,分析出其中存在且实用的知识单元,并以此为基础实现搜索引擎的语义搜索功能。
知识单元的提取是语义搜索功能建立的核心,由于知识单元以三元组的方式存储在知识图谱中,在提取时需要区分实体与关系,并将其对应。一个实施例中的知识单元的提取过程如图5所示。
与通常文字数据的存储方式不同,知识图谱常使用图数据库存储,故而能清晰地表现树状结构。
本申请实施例中,首先以知识图谱的根节点为起点,自顶向下遍历知识图谱的子节点,并将数量众多且覆盖知识面广泛的子节点,根据各子节点离根节点的远近划分等级。子节点距离根节点的远近使用最短路径判断,例如,假设每条边代表单位1的路程,若子节点到根节点最少途径2个中间节点,则子节点距根节点路径为单位3。
在本申请实施例中,将各子节点对应的实体划分2级:一级实体和实体,其中,一级实体为知识图谱中与根节点连接的子节点,二级实体为知识图谱中与一级实体连接的子节点。
首先提取一级实体。设根节点的深度为0,则所有深度为1的节点(即直接连接根节点的子节点)作为一级实体。此时由于一级实体涵盖的知识面广泛,还可被细分为更小的实体,所以把所有深度为2的节点(即与一级实体连接的子节点)作为二级实体。应当理解的是,本申请实施例中,为了避免处理时过大的复杂度,而且,基于知识图谱中的一级实体和二级实体已经能够涵盖够广泛的知识面,因此,本申请实施例中仅以划分为一级实体和二级实体。在其他实施例中,也可以划分和包含有其他深度级别的实体,例如深度为3的节点作为三级实体等等,本申请实施例中不做具体限定。
在确定一级实体和二级实体后,重新自顶向下遍历知识图谱,对各实体建立联系获得对应的知识单元并整合为知识单元列表。其中,此次遍历可以只挑选非同级实体间存在的边,将连接根节点与一级实体的边代表的关系填入一级知识单元,将连接一级实体与二级实体的边代表的关系填入二级知识单元。
其中,由于各非同等级实体间可能存在交叉关系,在得到整合的知识单元列表之后,还可以通过人工的方式对知识单元进行校正,获得最终的知识单元列表。即各知识单元可以以列表的方式存储在知识单元列表中。
获得最终的知识单元列表后,还可以参照获取到的知识单元列表建立数据库,把二级知识单元作为字段。将知识图谱中的二级实体根据“实体-关系-实体”三元组对应填入字段下,以此构建实体,从而获得知识单元数据库。
随后,进行信息的采集。在信息采集阶段,计算待爬取网页与电力计量主题的基于链接的链接相关度和基于内容的内容相关度,从而获得待爬取网页与电力计量主题的第一主题相关度,从中选取第一主题相关度高的待爬取网页作为目标爬取网页。
其中,在计算待爬取网页与电力计量主题的基于链接的链接相关度时,可以使用改进后的PageRank算法实现基于链接的主题相关度分析。PageRank算法是基于链接结构分析相关度的一种算法,其结果也可用于显示查询结果时,对各网页按相关度进行排序展示。PageRank值越大,优先级越高,与主题相关度越大。
PageRank算法基于以下两个前提实现:一个网页被其他网页多次链接,或被重要网页所链接,都能说明其重要性;用户若根据初始网页,一直往深度浏览且无回退,则浏览下一个网页的概率就是该网页的PageRank值。
按照传统的PageRank算法,假设现在有4个页面A、B、C、D,且后三个页面只链接到A,可计算A页面的PR值为
PR(A)=PR(B)+PR(C)+PR(D)
这种PageRank算法,随机性过高,可能出现网页被多次链接,却与主题相关度较低的情况。为了降低随机性,本申请实施例中,通过引入一个页面相关度δ,用于判断待爬取网页与电力计量主题的相关程度。
同样以上述4个页面为例,若A页面同时被B、C、D页面所链接,且每个页面分别链接了另外一个页面(如B链接A、C页面),则按照的PageRank算法,此时A的PR值为:
PR(A)=PR(B)/2+PR(C)/2+PR(D)/2
此时,引入B页面的页面相关度δ,此时A的PR值变为:
PR(A)=δ*PR(B)/2+PR(C)/2+PR(D)/2
其中,δ表示B页面与电力计量主题的页面相关度。从上式可看出,若B页面与电力计量主题的页面相关度越大,则PR(A)越大,即A页面被更重要的网页所调用;反之,则PR(A)越小,即A虽然被调用,但可能与主题无关。
可以理解的是,针对每个链接了待爬取网页的其他网页,都可以对应有一个页面相关度,即通过引入页面相关度后,A的PR值可以表示为:
PR(A)=δ1*PR(B)/2+δ2*PR(C)/2+δ3*PR(D)/2
其中,δ1表示B页面与电力计量主题的页面相关度,δ2表示C页面与电力计量主题的页面相关度,δ3表示D页面与电力计量主题的页面相关度。
其中页面相关度δ的值为网页间相似度,可以根据基于向量空间模型的简单向量距离算法计算所得。
其中,基于向量空间模型的简单向量距离算法的基本思路,是将网页中文本信息以N维向量表示,并将特征项的权重作为分量,用N维向量与分量的夹角大小表示事物的相似度。向量夹角越小,则两个向量所代表的事物之间的相似程度越高。
在向量空间中,使用余弦值表示两个网页文本信息的内容相似度(sim)。两向量夹角越大,余弦值越小,文本相似度越低,与主题的相关联程度越小。计算公式可以表示为:
式中,Wp,i为关键词p在文档i中的权重,Wp,j为关键词p在文档j中的权重。
在计算所述待爬取网页与电力计量主题的基于内容的内容相关度时,可以是选取待爬取页面中的文字信息与电力计量主题进行相似度计算,获得内容相关度,用以评判待爬取页面与电力计量主题的相关程度。
其中,在计算所述待爬取网页与电力计量主题的基于内容的内容相关度时,可以基于向量空间模型的简单向量距离算法计算获得,本申请实施例不再赘述。
在获得链接相关度和内容相关度之后,则可基于链接相关度和内容相关度,确定待爬取网页与电力计量主题的第一主题相关度。该第一主题相关度可以是对链接相关度和内容相关度进行加权求和获得的值,也可以是采用其他方式对链接相关度和内容相关度进行计算获得的值。
在获得第一主题相关度后,基于第一主题相关度对待爬取网页进行筛选。例如,可以将第一主题相关度大于第一主题相关度阈值的待爬取网页,作为筛选出的目标爬取网页。
随后进入信息抽取阶段。其中,信息抽取是将目标爬取网页的网页文本信息爬取后存放入存储器中的过程。本申请实施例中,在正式抽取网页文本信息前,可以对爬取的区域或者说内容进行一定筛选。
一个HTML网页可分为多个区域,如顶栏、侧边栏、主要区域、底栏等,显示在不同区域的文本信息所传递的信息实用性不同。同时每个区域下又有用不同标签(如<h1>、<span>、<title>等)划分的小分块,这些分块信息与主题的关联程度会存在差别。
因此,本申请实施例中,可以将一个目标爬取网页(例如HTML)网页看做一棵DOM(文档对象模型)树,将网页不同的区域作为树的分支,不同标签代表的小分块作为树的节点,并计算各节点与电力计量主题的相关度。一些实施例中,可以利用STU-DOM模型计算各节点与电力计量主题的关联度。
随后,即可将节点与电力计量主题的相关度,作为节点对应的标签代表的分块区域与电力计量主题的第二主题相关度。
然后,根据第二主题相关度确定所述DOM树中的目标爬取区域,一个实施例中,可以将第二主题相关度大于第二主题相关度阈值的分块区域,作为目标爬取区域。例如,第二主题相关度阈值为Y,若分块的第二主题相关度阈值大于Y,则认为该分块与电力计量主题的关联程度较大,视为目标爬取区域。
在选定目标爬取区域后,即可对目标爬取区域对应的内容进行内容爬取,获取爬取结果。一些实施例中,可以使用XPath表示的路径表达式选取该区域,利用网络爬行器进行内容爬取。一些实施例中,可以使用Python开发网络爬行器,通过多线程的方式,使用XPath爬取与电力计量主题关联度较高的模块内容。
在获得爬取结果后,可将爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,从而实现爬取结果基于知识单元进行分类的分类存储。例如,可以获取爬取结果中的关键字;从知识单元数据库中的各知识单元中,查询与关键字匹配的知识单元;将爬取结果存储到与匹配的知识单元对应的存储位置。
在信息采集、抽取以及存储处理完毕后,即可基于知识单元数据库,实现基于语义的电力计量数据的搜索。
语义搜索,指搜索引擎查找的范围不局限于检索语句本身,而去深挖字面后的意思,即透过现象看本质。如输入查找语句“变电站”,得到的结果不仅是直接包含“变电站”三字的内容,同时也可能展示与电力站相关的内容。
如上所述,本申请实施例提取的知识单元存放在知识单元数据库内,该知识单元数据库可以是任何类型的数据库,例如MySQL数据库内。以知识单元数据库为MySQL数据库,在基于该数据库的数据库管理系统进行语义搜索时,一个示例中可以使用如下SQL语言实现语义搜索。
SELECT b
FROM a
WHERE a.b包含变电站
AND b属于数据异常
使用上述简单查询语句,可以查找数据出现异常问题的变电站,同时异常类型也会展示。相比于普通的关键词搜索,语义搜索扩宽了搜索的范围,提高了查询结果的广泛性,可以尽可能查找更多的查询语句相关数据。
其中,在具体对知识单元数据库中进行搜索时,可以先在知识单元数据库中的各知识单元中进行检索,找到对应的知识单元,再获得该知识单元对应的爬取结果,并将获得的爬取结果作为搜索结果。
在获得搜索结果后,可以对搜索结果进一步的排序。
一个实施例中,对搜索结果的排序可以通过度量语义相似度决定,语义度量是指通过度量不同语义间距离,获得两者相似度。相似度的最终取值范围在0-1之间,相似度取值越大,两概念越相似。
一个实施例中,本申请实施例使用MaLSTM模型实现语义度量,该度量方式基于曼哈顿距离实现,其以距离为目标,使用LSTM(长短期记忆网络)对复杂语义进行建模,得到固定长度表示的两语义,再使用下列公式计算相似度。
通过语义度量得到搜索语句与查询结果间的相似度,根据关联性高低对结果进行排序后返回。
应该理解的是,虽然如上所述的各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,这些流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种基于语义的电力计量数据处理装置,包括:获取模块601、爬取模块602和存储模块603,其中:
获取模块601,用于获取待爬取网页;
爬取模块602,用于根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果;
存储模块603,用于将所述爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组。
一个实施例中,爬取模块602包括:
第一主题相关度计算模块,用于计算所述待爬取网页与电力计量主题的第一主题相关度;
目标爬取网页筛选模块,用于根据所述第一主题相关度,从所述待爬取网页中筛选出目标爬取网页;
第二主题相关度计算模块,用于计算各所述目标爬取网页的各网页区域与所述电力计量主题的第二主题相关度;
目标爬取区域确定模块,用于根据所述第二主题相关度确定所述DOM树中的目标爬取区域;
内容爬取模块,用于对所述目标爬取区域对应的内容进行内容爬取,获取爬取结果。
一些实施例中,第一主题相关度计算模块包括:
链接相关度计算模块,用于计算所述待爬取网页与电力计量主题的基于链接的链接相关度;
内容相关度计算模块,用于计算所述待爬取网页与电力计量主题的基于内容的内容相关度;
综合确定模块,用于基于所述链接相关度和所述内容相关度,确定所述第一主题相关度。
一些实施例中,链接相关度计算模块,包括:
子相关度确定模块,用于根据所述待爬取网页被其他网页链接的信息,获得链接所述待爬取网页的各所述其他网页的子相关度;
页面相关度确定模块,用于确定各所述其他网页与所述电力计量主题的页面相关度;
链接相关度确定模块,用于根据各所述其他网页的子相关度以及各所述其他网页的页面相关度,确定所述链接相关度。
一些实施例中,第二主题相关度计算模块,将所述目标爬取网页作为一棵DOM树,所述目标爬取网页的各区域作为所述DOM树的分支,各所述区域对应的各标签作为所述DOM树的节点,计算各所述节点与所述电力计量主题的相关度;将所述节点与所述电力计量主题的相关度,作为所述节点对应的标签代表的分块区域与所述电力计量主题的第二主题相关度。
一些实施例中,所述装置还包括:
知识单元数据库建立模块:用于建立知识单元数据库。
一些实施例中,知识单元数据库建立模块包括:
知识图谱获取模块,用于获取电力计量领域的知识图谱;
第一遍历模块,用于以所述知识图谱的根节点为起点,自顶向下遍历提取一级实体和二级实体,所述一级实体为所述知识图谱中与根节点连接的子节点,所述二级实体为所述知识图谱中与所述一级实体连接的子节点;
第二遍历模块,用于自顶向下遍历所述知识图谱,建立各实体之间的联系获得对应的知识单元,并将各所述知识单元整合为知识单元列表;
数据库构建模块,用于根据所述知识单元列表构建所述知识单元数据库。
一些实施例中,存储模块603包括:
关键字获取模块,用于获取所述爬取结果中的关键字;
知识单元查询模块,用于从所述知识单元数据库中的各知识单元中,查询与所述关键字匹配的知识单元;
结果存储模块,用于将所述爬取结果存储到与匹配的知识单元对应的存储位置。
在一个实施例中,如图7所示,提供了一种基于语义的电力计量数据处理装置,包括:请求接收模块701、知识单元搜索模块702和数据获取模块703,其中:
请求接收模块701,用于接收搜索请求;
知识单元搜索模块702,用于根据所述搜索请求,在电力计量的知识单元数据库中对应的知识单元中进行语义搜索,搜索获得与所述搜索请求对应的知识单元;所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组;
数据获取模块703,用于获取所述电力计量的知识单元数据库中存储的,与搜索到的知识单元对应的数据;并将获取的数据作为所述搜索请求对应的搜索结果。
关于基于语义的电力计量数据处理装置的具体限定可以参见上文中对于基于语义的电力计量数据处理方法的限定,在此不再赘述。上述基于语义的电力计量数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各知识单元以及关联的各爬取结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义的电力计量数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于语义的电力计量数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8、9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上所述的任一实施例中的基于语义的电力计量数据处理方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上所述的任一实施例中的基于语义的电力计量数据处理方法。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static RandomAccess Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。