CN111144116B

CN111144116B - 一种文档知识结构化的抽取方法及装置

Info

Publication number: CN111144116B
Application number: CN201911353441.9A
Authority: CN
Inventors: 俞阳; 韩姝娜; 朱君; 杜振东
Original assignee: Nanjing Yunwen Network Technology Co ltd; Shaanxi Institute Of Water Conservancy And Electricity Survey And Design; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd; Shaanxi Institute Of Water Conservancy And Electricity Survey And Design; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2024-02-02
Anticipated expiration: 2039-12-25
Also published as: CN111144116A

Abstract

本发明公开了一种文档知识结构化的抽取方法及装置，所述方法包括获取待处理文档；基于所述待处理文档的特征，选择合适的抽取规则；按照选中的抽取规则，抽取所述待处理文档中的知识点，并对抽取到的知识点做预设的处理，完成文档知识结构化的抽取。本发明能够实现运用自然语言处理技术对电力规章制度、法律法规、政策文件等文本文件进行知识点提取，实现对企业大量文本化知识的自主学习和更新维护。

Description

一种文档知识结构化的抽取方法及装置

技术领域

本发明属于计算机技术领域下的自然语言处理技术领域，具体涉及一种文档知识结构化的抽取方法及装置。

背景技术

随着电力营销业务的快速发展，营销知识的积累、传递及分析应用的重要性日益突出，国网客服中心、国网江苏公司、国网山东公司等结合业务需要均已初步建立了统一的95598知识管理平台。95598知识管理平台中的知识均来自于国家层面、国网公司层面、省公司层面下发的各类规章制度、法律法规、政策文件，知识库维护人员需要投入大量的人力来梳理新下发的文件，将文件整理为口语化可以直接答复客户诉求的知识点内容，导致文件转化为知识的效率低、维护成本高等问题。

发明内容

针对上述问题，本发明提出一种文档知识结构化的抽取方法及装置，能够实现对企业大量文本化知识的自主学习和更新维护。

为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

第一方面，本发明提供了一种文档知识结构化的抽取方法，包括：

获取待处理文档；

基于所述待处理文档的特征，选择合适的抽取规则；

按照选中的抽取规则，抽取所述待处理文档中的知识点，并对抽取到的知识点做预设的处理，完成文档知识结构化的抽取。

可选地，所述抽取规则包括从段落层面抽取知识；

所述按照选中的抽取规则，抽取所述待处理文档中的知识点，并对抽取到的知识点做预设的处理，具体为：

将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式；

对拆分后的知识内容标注标签和属性。

可选地，所述抽取规则包括从事件层面抽取知识；

所述按照选中的抽取规则，抽取所述待处理文档中的知识点，具体为：

提取所述待处理文档中的场景事件的特征；

将所述场景事件的特征输入至意图识别模型，由所述意图识别模型进行分类后，获得对应的意图信息。

可选地，所述意图识别模型中包括预定义的场景事件的特征，所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。

可选地，所述抽取规则包括从句子层面抽取知识；

获取领域专业词库；

基于所述领域专业词库，结合标注样本，开展句子中的电力营销领域实体识别，获得专业实体词；

基于所述领域专业词库和获得的专业实体词，以及所述专业实体词在文本中的表达方式，结合自然语言处理技术抽取实体的相关属性，及属性间的关系。

第二方面，本发明提供了一种文档知识结构化的抽取装置，包括：

获取单元，用于获取待处理文档；

选择单元，用于基于所述待处理文档的特征，选择合适的抽取规则；

处理单元，用于按照选中的抽取规则，抽取所述待处理文档中的知识点，并对抽取到的知识点做预设的处理，完成文档知识结构化的抽取。

可选地，所述抽取规则包括从段落层面抽取知识；

对拆分后的知识内容标注标签和属性。

可选地，所述抽取规则包括从事件层面抽取知识；

提取所述待处理文档中的场景事件的特征；

可选地，所述抽取规则包括从句子层面抽取知识；

获取领域专业词库；

与现有技术相比，本发明的有益效果：

本发明能够实现运用自然语言处理技术对电力规章制度、法律法规、政策文件等文本文件进行知识点提取，实现对企业大量文本化知识的自主学习和更新维护。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为本发明一种实施例的文档知识结构化的抽取方法的流程图；

图2为本发明一种实施例所提出的从事件层面抽取知识的流程图；

图3为本发明一种实施例所提出的从句子层面抽取知识的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

实施例1

本发明实施例中提供了一种文档知识结构化的抽取方法，如图1所示，具体包括以下步骤：

(1)获取待处理文档；

(2)基于所述待处理文档的特征，选择合适的抽取规则；

(3)按照选中的抽取规则，抽取所述待处理文档中的知识点，并对抽取到的知识点做预设的处理，完成文档知识结构化的抽取。

在本发明实施例的一种具体实施方式中，所述抽取规则包括从段落层面抽取知识；

将所述待处理文档按标题、段落内容拆分为标题加知识内容的形式，在具体实施过程中，还包括以原子化形式呈现给维护人员；

对拆分后的知识内容标注标签和属性，以便于后期检索时做到精准检索，便于知识维护人员快速检索到所需要的知识点；

所述从段落层面抽取知识的方式，适用于结构清晰、段落层次分明的文档。

在具体实施过程中，从段落层面抽取知识主要考虑利用从文字特殊样式和文字特殊表述两方面进行知识点抽取。文字特殊样式是指在文件中通过加粗，颜色高亮，字体变化，字号方法，格式定义为标题等多种有别与正文的样式来进行判断潜在知识点；文字特殊表述是指，虽然无明显样式区别，但其内容包含数字标题、核心语义、段首、敏感词等信息，该部分内容也极大可能成为潜在知识。

在本发明实施例的第二种具体实施方式中，所述抽取规则包括从事件层面抽取知识；

提取所述待处理文档中的场景事件的特征；

将所述场景事件的特征输入至意图识别模型，由所述意图识别模型进行分类后，获得对应的意图信息；

即按照定义的场景事件的特征，从整篇文档中提取符合对应场景的事件。

具体地，所述意图识别模型中包括预定义的场景事件的特征，所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。

在具体实施过程中，具体可以包括以下步骤：

步骤(1)：根据95598知识点内容聚类分析，根据电力营销专业以及客户常见咨询问题，得出具有代表性的13类预定义的规则类型(即13类场景事件)，主要包含：电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业(即其他所有专业)；

步骤2：从原始数据中根据13类预定义场景事件的特征，针对场景识别将运用意图识别技术进行场景识别。该方法需要前期针对电表串户、临时停电等在内场景进行场景标注，运用深度卷积神经网络进行模型学习，最终实现对于用户场景的精准定位。

步骤3：针对特定场景事件进行场景事件的特征抽取，并输入至已经训练好的意图识别模型(神经网络模型)，由所述意图识别模型进行分类后，获得对应的意图信息。

因此，一旦用户意图的范围确定了，就可以使用神经网络抽取对应的场景事件要素。主要流程如图2所示。

在本发明实施例的第三种具体实施方式中，所述抽取规则包括从句子层面抽取知识；句子层面抽取知识采用的是更为精细化的方式，主要用于补全深层逻辑隐藏和关联知识；

获取领域专业词库；

具体地，如图3所示，首先95598数据中根据文字的特殊样式以及特殊表达，抽取专业词的候选词集，再由人工针对候选专业词集筛选出的领域相关的专业词构成领域专业词库；然后以领域专业词库为基础，结合95598知识的专业性类别，以及大量标注样本，开展句子中的电力营销领域实体识别，识别时间、地点等常规命名实体，以及识别电力客服领域的业务、设备、用户等领域相关专用实体。最后根据所述领域专业词库和电力客服领域专业实体词以及这些专业实体词在文本中的表达方式，结合句法分析等自然语言处理相关技术抽取实体的相关属性，及属性间的关系，即结构化的知识。其中用到的句法分析算法如下所示：

a.整个转移过程中的三种动作：Shift，Left-Arc，Right-Arc。采用栈Stack作为中存储，以及Buffer(即整个原始的句子)。

b.在arc-standard system中，一次分析任务c＝(s，b，A)，由一个栈s，一个队列b，一系列依存弧A构成。如果定义一个句子为单词构成的序列w1，w2，...wn，栈s是用来储存系统已经处理过的句法子树的根节点的，初始状态下S＝[ROOT]。

c.定义从栈顶数起的第i个元素为si。那么栈顶元素就是s1，s1的下一个元素就是s2：即让先入栈的元素在左边，后入栈的元素在右边：则称s2为左焦点词，s₁为右焦点词。

d.接下来的动作都是围绕着这两个焦点词展开的：

d.1队列

初始状态下队列就是整个句子，且顺序不变b＝[w₁，w₂，...w_n]，队列的出口在左边。

d.2依存弧

一条依存弧有两个信息：动作类型及依存关系名称I。I是依存句法语料库中使用了哪些依存关系label而定，在arc-standard系统中，一共有如下三种动作：

LEFT-ARC(l)：添加一条s_1→s₂的依存边，名称为l₁，并且将s₂从栈中删除。前提条件：|s|≥2。亦即建立右焦点词依存于左焦点词的依存关系。

RIGHT-ARC(l)：添加一条s₂ s₁的依存边，名称为l₂，并且将s₁从栈中删除。前提条件：|s|≥2。亦即建立左焦点词依存于右焦点词的依存关系。

SHIFT：将b1出队，压入栈中。亦即不建立依存关系，只转移句法分析的焦点，即新的左焦点词是原来的右焦点词，依此类推。

反馈：每一步动作都是由机器学习分类器得到的，如果得到treebank的句法分析树结构，就能得到序列转移或动作的顺序，最终变成一个有监督学习问题。

实施例2

基于与实施例1相同的发明构思，本发明实施例中提供了一种文档知识结构化的抽取装置，包括：

获取单元，用于获取待处理文档；

对拆分后的知识内容标注标签和属性。

在本发明实施例的一种具体实施方式中，所述抽取规则包括从事件层面抽取知识；

提取所述待处理文档中的场景事件的特征；

在本发明实施例的一种具体实施方式中，所述抽取规则包括从句子层面抽取知识；

获取领域专业词库；

其余部分均与实施例1相同。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种文档知识结构化的抽取方法，其特征在于，包括：

获取待处理文档；

基于所述待处理文档的特征，选择合适的抽取规则；

按照选中的抽取规则，抽取所述待处理文档中的知识点，并对抽取到的知识点做预设的处理，完成文档知识结构化的抽取；

所述抽取规则包括从段落层面抽取知识；

对拆分后的知识内容标注标签和属性；

所述抽取规则包括从事件层面抽取知识；

提取所述待处理文档中的场景事件的特征；

将提取到的场景事件的特征输入至意图识别模型，由所述意图识别模型进行分类后，获得对应的意图信息；

所述抽取规则包括从句子层面抽取知识；

获取领域专业词库；

2.根据权利要求1所述的一种文档知识结构化的抽取方法，其特征在于：所述意图识别模型中包括预定义的场景事件的特征，所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。

3.一种文档知识结构化的抽取装置，其特征在于，包括：

获取单元，用于获取待处理文档；

处理单元，用于按照选中的抽取规则，抽取所述待处理文档中的知识点，并对抽取到的知识点做预设的处理，完成文档知识结构化的抽取；

所述抽取规则包括从段落层面抽取知识；

对拆分后的知识内容标注标签和属性；

所述抽取规则包括从事件层面抽取知识；

提取所述待处理文档中的场景事件的特征；

所述抽取规则包括从句子层面抽取知识；

获取领域专业词库；

4.根据权利要求3所述的一种文档知识结构化的抽取装置，其特征在于，所述意图识别模型中包括预定义的场景事件的特征，所述场景事件包括电价电费、营业专业、计量专业、服务专业、市场专业、营销质量管控专业、用电检查、智能用电专业、基建专业、调控专业、运检专业、线损专业、综合专业。