CN111091003B

CN111091003B - 一种基于知识图谱查询的并行抽取方法

Info

Publication number: CN111091003B
Application number: CN201911235588.8A
Authority: CN
Inventors: 韩伟红; 赫中翮; 陈雷霆; 李广新
Original assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-10-10
Anticipated expiration: 2039-12-05
Also published as: CN111091003A

Abstract

本发明属于信息抽取的技术领域，具体涉及一种基于知识图谱查询的并行抽取方法，包括：步骤一，提取数据源的URL，获取对应的文本页面；步骤二，对文本页面的内容进行过滤和分词处理，然后在预设的多个规则块中并行地运行信息匹配，对文本页面抽取所需要的实体关系；步骤三，汇总多个规则块的匹配结果，输出对文本页面的抽取结果。本发明的抽取方法可以应用于单文本和多文本的语句，多个规则块能够同时运行、并行地实施所需的匹配，有效地实现了单文本或者多文本中不同的语句的多级并行处理，从而减少了硬件成本和提升了匹配的速度。

Description

一种基于知识图谱查询的并行抽取方法

技术领域

本发明属于信息抽取的技术领域，具体涉及一种基于知识图谱查询的并行抽取方法。

背景技术

知识图谱能够描述和反映真实世界的各种实体，而知识图谱查询，就是顺着知识图谱，抽取并获得知识图谱中的实体关系，帮助人们去了解实体与实体之间的联系。

然而，申请人发现了在实体关系的抽取中，现有的抽取方法应用场景单一，信息匹配的效率低，不能应对庞大的数据量和计算量，并且，现有的抽取过程出错率高，信息匹配成功率低，严重影响了实体关系抽取方法的通用性和可移植性。因此，亟需一种新型的抽取方法来解决上述问题。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种基于知识图谱查询的并行抽取方法，利用多个规则块同时运行、并行地实施所需的匹配，有效地实现了单文本或者多文本中不同的语句的多级并行处理，显著地减少了硬件成本和提升了匹配的速度，该方法的抽取过程准确性高，大大提高了抽取方法的通用性和可移植性。

为了实现上述目的，本发明采用如下技术方案：

一种基于知识图谱查询的并行抽取方法，包括：

步骤一：提取数据源的URL，获取对应的文本页面；

步骤二：对所述文本页面的内容进行过滤和分词处理，然后在预设的多个规则块中并行地运行信息匹配，对所述文本页面抽取所需要的实体关系；

步骤三：汇总多个所述规则块的匹配结果，输出对所述文本页面的抽取结果。

进一步地，所述步骤一中，还包括：若所述数据源仅具有单个URL，直接获取该单个URL对应的文本页面；若所述数据源具有多个URL，调用爬取程序获得该多个URL分别对应的文本页面。

进一步地，所述步骤二中，对所述文本页面的内容进行过滤的过程包括：根据不同的属性和语义设置若干个筛选词，遍历每一句所述文本页面的内容，比较每一句所述文本页面的内容所包含的实体词与所述筛选词的相似度，若所述相似度低于阈值，则将若干个所述实体词定义为触发词，若所述相似度等于或高于阈值，则将所述文本页面的内容中与所述筛选词相似的实体词删去。

进一步地，所述步骤二中，对所述文本页面进行分词处理的过程包括：对若干个所述触发词进行分类，每一类所述触发词对应唯一的词性标签。

进一步地，所述步骤二中，所述信息匹配的过程包括：设置关键词及所述关键词的类别标签，先将所述触发词的词性标签与所述关键词的类别标签进行匹配，若匹配度等于或高于阈值，再将所述触发词与所述关键词进行匹配，并将匹配成功的所述触发词标注为目标词。

进一步地，所述步骤二中，还包括：对所述关键词基于语义相似度进行同义拓展，再将所述触发词与同义拓展的关键词进行匹配。

进一步地，所述步骤三中，汇总多个所述规则块的匹配结果的过程包括：对于匹配成功的所述关键词，对所述关键词的匹配次数加1，再对若干个所述关键词按匹配次数进行排序，形成规则集。

进一步地，所述步骤二中，还包括：在预设的多个规则块中调用自建程序和/或自动程序并行地运行信息匹配，所述自建程序采用构建的正则表达式进行信息匹配，所述自动程序采用构建的搜索表达式进行信息匹配。

进一步地，所述自动程序能够采用已有的结构化数据对自由文本进行反向回标，通过远距离监督的方式获得所需的信息。

进一步地，采用构建的搜索表达式进行信息匹配的过程包括：设置特征词及其对应的属性值作为所述搜索表达式，从所述文本页面中获取所述搜索表达式对应的搜索结果，并对所述搜索结果进行标注。

进一步地，所述步骤三中，还包括：分别采用准确率、召回率、F1分数作为所述抽取结果的评价指标，验证并行抽取的质量。

本发明的有益效果在于：本发明提取数据源的URL，获取对应的文本页面，对所述文本页面的内容进行过滤和分词处理，然后在预设的多个规则块中并行地运行信息匹配，利用多个规则块同时运行、并行地实施所需的匹配，形成了分布式的实时计算框架，有效地实现了文本页面中不同的语句的多级并行处理，显著地减少了硬件成本和提升了匹配的速度，该抽取方法的通用性和可移植性高，有效地提高了实体关系抽取的效率。

附图说明

图1为本发明的流程示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件，本领域技术人员应可理解，制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图和具体实施例对本发明作进一步详细说明，但不作为对本发明的限定。

实施例1

如图1所示，一种基于知识图谱查询的并行抽取方法，包括：

步骤一：用户提出查询请求，向查询系统输入数据源，查询系统提取数据源的URL，获取对应的文本页面，若数据源仅具有单个URL，直接获取该单个URL对应的文本页面，若数据源具有多个URL，调用爬取程序获得该多个URL分别对应的文本页面。

步骤二：对文本页面的内容进行过滤和分词处理，然后在预设的多个规则块中并行地运行信息匹配，对文本页面抽取所需要的实体关系，其中，预设的多个规则块在运行信息匹配时相互隔离，从而有效缩减了硬件成本。

优选地，在预设的多个规则块中调用自建程序和自动程序并行地运行信息匹配，自建程序采用构建的正则表达式进行信息匹配，自动程序采用构建的搜索表达式进行信息匹配，提高信息匹配的正确率。

用户为了抽取某几款酒类产品之间的关系，向查询系统输入某几款酒类产品的说明书作为数据源，在自建程序采用构建的正则表达式进行信息匹配的过程中，可以构建表达生产关系的所有正则表达式来完成信息的匹配，从而抽取出产品的生产日期及产地；在自动程序采用构建的搜索表达式进行信息匹配的过程中，可以设置特征词及其对应的属性值作为搜索表达式，如设置“酒精浓度”为特征词及“酒精浓度的百分比范围”作为特征词所对应的属性值，建立搜索表达式，从文本页面中获取搜索表达式对应的搜索结果，并对搜索结果进行标注，从而抽取出产品的酒精浓度及浓度值。

此外，在调用的自建程序中，可以设置特定成分作为关键词构造正则表达式；在调用的自动程序中，还可以设置种子词及其对应的属性值作为检索文本构造网页搜索入口表达式，并爬取该搜索对应的搜索结果的列表页，再读取列表页中的搜索结果的摘要信息，按JSON格式保存。

步骤三：汇总多个规则块的匹配结果，多个规则块的匹配结果为正则表达式的匹配次数和搜索表达式的匹配次数，并输出对文本页面的抽取结果，分别采用准确率、召回率、F1分数作为所述抽取结果的评价指标，验证并行抽取的质量。

其中，准确率的计算公式为：召回率的计算公式为：V₁表示抽取正确的关系个数；V₂表示抽取关系的总个数；V₃是文本页面中关系的个数；F1分数的计算公式为：/>准确率、召回率和F1分数的百分率越高，表明抽取方法的运行性能越好。

实施例2

本实施例与实施例1不同的是，步骤二中，在预设的多个规则块中并行地运行信息匹配前，先对文本页面的内容进行过滤，过滤的过程包括：根据不同的属性和语义设置若干个筛选词，遍历每一句文本页面的内容，比较每一句文本页面的内容所包含的实体词与筛选词的相似度，若相似度低于阈值，则将若干个实体词定义为触发词，若相似度等于或高于阈值，则将文本页面的内容中与筛选词相似的实体词删去。

其中，可以根据积极正面属性和消极负面属性的不同设置若干个筛选词，还可以根据中文语义的不同设置若干个筛选词，而设置筛选词的目的是为了提高在预设的多个规则块中运行信息匹配的效率。

优选地，步骤二中，还对文本页面进行分词处理，该分词处理的过程包括：对若干个触发词进行分类，每一类触发词对应唯一的词性标签，可以以数词、地名、人名等作为词性标签。

优选地，步骤二中，对文本页面的内容进行过滤和分词处理后，在预设的多个规则块中并行地运行信息匹配的过程包括：设置关键词及关键词的类别标签，先将触发词的词性标签与关键词的类别标签进行匹配，若匹配度等于或高于阈值，再将触发词与关键词进行匹配，并将匹配成功的触发词标注为目标词，通过目标词来获知所需的实体关系。其中，通过计算词语向量之间的距离，可以得到词语之间的匹配度。

优选地，步骤二中，还包括：对关键词基于语义相似度进行同义拓展，再将触发词与同义拓展的关键词进行匹配，同义拓展能够提高抽取方法的正确率，表1为同义拓展的示例。

表1同义拓展的示例

出产日期	产于，出产日期，出产在
		产地	生产地点，产地，出产于
酒精浓度	浓度，酒精浓度，酒精含量

优选地，步骤三中，还包括：当触发词与关键词匹配成功后，对于匹配成功的关键词，对该关键词的匹配次数加1，再对若干个关键词按匹配次数进行排序，形成规则集，使匹配频率高的关键词看作是高质量的关键词。

本实施例的其他步骤与实施例1相同，这里不再赘述。

显然，由上述的实施例可知，本发明的一种基于知识图谱查询的并行抽取方法，利用多个规则块同时运行、并行地实施所需的信息匹配，形成了分布式的实时计算框架，网页文本数据呈现多级流水实时并行抽取，有效地实现了对多个文本页面中不同的语句的多级并行处理，能够应对庞大的数据量和计算量，并可以用于各种不同的场景和各种数据源，该抽取方法的通用性和可移植性高，有效地提高了实体关系抽取的效率。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种基于知识图谱查询的并行抽取方法，其特征在于，包括：

步骤一：提取数据源的URL，获取对应的文本页面；

对所述文本页面的内容进行过滤的过程包括：

根据不同的属性和语义设置若干个筛选词，遍历每一句所述文本页面的内容，比较每一句所述文本页面的内容所包含的实体词与所述筛选词的相似度，若所述相似度低于阈值，则将若干个所述实体词定义为触发词，若所述相似度等于或高于阈值，则将所述文本页面的内容中与所述筛选词相似的实体词删去；

对所述文本页面进行分词处理的过程包括：

对若干个所述触发词进行分类，每一类所述触发词对应唯一的词性标签；

所述信息匹配的过程包括：

设置关键词及所述关键词的类别标签，先将所述触发词的词性标签与所述关键词的类别标签进行匹配，若匹配度等于或高于阈值，再将所述触发词与所述关键词进行匹配，并将匹配成功的所述触发词标注为目标词；

在预设的多个规则块中调用自建程序和/或自动程序并行地运行信息匹配，所述自建程序采用构建的正则表达式进行信息匹配，所述自动程序采用构建的搜索表达式进行信息匹配；

2.如权利要求1所述的基于知识图谱查询的并行抽取方法，其特征在于，所述步骤一中，还包括：

若所述数据源仅具有单个URL，直接获取该单个URL对应的文本页面；若所述数据源具有多个URL，调用爬取程序获得该多个URL分别对应的文本页面。

3.如权利要求1所述的基于知识图谱查询的并行抽取方法，其特征在于，所述步骤二中，还包括：

对所述关键词基于语义相似度进行同义拓展，再将所述触发词与同义拓展的关键词进行匹配。

4.如权利要求1所述的基于知识图谱查询的并行抽取方法，其特征在于，所述步骤三中，汇总多个所述规则块的匹配结果的过程包括：

对于匹配成功的所述关键词，对所述关键词的匹配次数加1，再对若干个所述关键词按匹配次数进行排序，形成规则集。

5.如权利要求1所述的基于知识图谱查询的并行抽取方法，其特征在于，采用构建的搜索表达式进行信息匹配的过程包括：

设置特征词及其对应的属性值作为所述搜索表达式，从所述文本页面中获取所述搜索表达式对应的搜索结果，并对所述搜索结果进行标注。

6.如权利要求1所述的基于知识图谱查询的并行抽取方法，其特征在于，所述步骤三中，还包括：

分别采用准确率、召回率、F1分数作为所述抽取结果的评价指标，验证并行抽取的质量。