CN116484852A

CN116484852A - 一种基于关系图注意力网络的中文专利实体关系联合抽取方法

Info

Publication number: CN116484852A
Application number: CN202310410784.4A
Authority: CN
Inventors: 赵雨杉; 王腾科; 刘云朵; 张顺香; 赵前进
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-25

Abstract

本发明提供了一种基于关系图注意力网络的中文专利实体关系联合抽取方法，属于信息抽取领域，包括：S1构建中文专利语料集；S2构建关系线索词词典；S3结合S2计算得到关系注意力分数，构建基于关系图注意力网络的中文专利实体关系联合抽取模型，再输入中文专利语料集训练模型；S4基于条件随机场的中文专利语料序列标注模型，最终抽取得到<实体1，关系，实体2>实体关系单元。本发明利用关系图注意力网络模型进行实体关系挖掘，提高联合抽取的准确率，为专利查阅人员提供清晰准确的产品架构，并为专利知识图谱、专利语义检索、专利推荐系统等后续研究奠定基础。

Description

一种基于关系图注意力网络的中文专利实体关系联合抽取方法

技术领域

本发明涉及信息抽取领域，具体是一种基于关系图注意力网络的中文专利实体关系联合抽取方法。

背景技术

随着专利文本数据的不断积累，利用自然语言处理技术和深度学习的方法挖掘其中蕴含的丰富信息，在专利产品技术的快速检索、专利创新技术的挖掘、专利创新技术的竞争力评估、地方产业的专利需求分析、区域级专利技术的发展趋势预测等多个方面上发挥着不可替代的作用。同时，面向专利文本的实体与关系的抽取工作可为构建专利知识图谱、专利语义检索、专利推荐系统等下游应用提供技术支持。专利文本主要是以半结构化形式构成，包括“申请公布号”、“申请人”、“申请机构”等基本特征，和“发明名称”、“摘要”、“权利要求”等内容特征。对于基本特征的提取分析工作易于展开，但是对于内容特征的提取则需要进行深层次的文本信息抽取工作。

实体与关系的抽取工作主要分为流水线与联合抽取两种模型。最基础的流水线模型将抽取任务划分成命名实体识别和关系抽取两个独立子任务，易于执行但是存在误差传播问题，难以考虑实体与关系的交互信息。现阶段最流行的实体与关系联合抽取模型，就是从非结构化的句子级文本中，利用深度学习方法作为工具，设计编码器-解码器模型结构，提取出实体关系单元，其表示形式为<实体1，关系，实体2>。现有的实体与关系联合抽取模型大部分还是按照先实体后关系的抽取模式，虽然考虑了实体与关系的交互，但是专利文本实体间存在许多复杂关系，现有模型需要生成复杂的文本结构编码来丰富语义信息，使得模型中产生海量的冗余操作，导致模型的抽取结果准确率低。

本发明提出的不同之处是利用关系图注意力网络来解决面对复杂关系时实体关系联合抽取准确率低问题。通过图注意力网络构建文本特征向量的图表示，并结合关系注意力机制，将图中关联节点和关系的挖掘任务应用于实体与关系的抽取。其中，关系注意力机制的核心目标，是以关系为引导，从众多文本特征信息中，选择出存在显式关系的关键特征。本发明可以考虑到实体与关系的交互信息，减少模型冗余，获得更高的实体关系联合抽取准确率。

发明内容

本发明的目的在于：根据专利文本存在大量的复杂关系难以抽取的问题，提供一种基于关系图注意力网络的中文专利实体关系联合抽取方法，通过融合文本多特征信息，构建基于关系注意力机制图神经网络的实体关系联合抽取模型，提高面向中文专利文本的联合抽取准确率。

为了达到上述目的，本发明采用如下的技术方案：

一种基于关系图注意力网络的中文专利实体关系联合抽取方法，包括以下步骤：

步骤1：构建中文专利语料集。获取中文专利文本，对文本进行翻译、断句、分词等预处理，接着利用预训练语言模型获取文本的多种特征向量，接着通过特征融合将文本结构化表示，得到中文专利语料集。

步骤2：构建关系线索词词典。对专利文本进行分析总结，定义并挖掘关系线索词。对中文专利语料进行清洗、筛选、标注与收集关系线索词，获得关系线索词词典。

步骤3：构建关系图注意力网络的中文专利实体关系联合抽取模型。

首先，通过输入的中文专利语料集，捕获语料的上下文信息，得到全局多特征融合向量表示。利用全局向量得到全连接图，图中节点代表全局向量，边仅代表着节点间存在连接性。接着，通过关系线索词词典计算得到关系注意力分数。然后，输入全连接图，引入关系注意力分数，训练关系图注意力网络。最终，输出关系连接图，图中节点代表存在显式关系的特征向量，边代表特征向量间存在的关系。

步骤4：基于条件随机场的中文专利语料序列标注模型。将步骤3输出的关系连接图转化为包含关系标签的特征向量序列，使用条件随机场进行实体标签判别，利用序列标注方法标注实体，并输出实体之间存在的关系。

步骤5：获得最终的实体关系抽取结果：实体与关系单元<实体1，关系，实体2>。

其中，所述步骤1中专利文本预处理的具体操作为：

步骤1.1：去除待处理的专利文本中的停用词及特殊字符，包括：“&”、“-”、“@”、“#”、“<”、“>”、“|”、“”、“”等。定位中文专利文本存在的英文专业术语，利用翻译接口将其转化为中文，得到纯中文专利文本。

步骤1.2：对纯中文专利文本按照标点符号进行断句，并使用分词工具分词，得到专利语料。将中文专利语料输入中文预训练语言模型，得到多种特征向量，包括：字符特征向量、词特征向量、位置特征向量，接着进行多特征向量融合，获得结构化的中文专利语料集。

其中，所述步骤2中构建关系线索词词典的具体步骤如下：

步骤2.1：通过对专利文本的分析总结，定义了四种实体间关系类型，包括：连接关系、指代关系、包含关系和因果关系。

步骤2.2：在步骤2.1提出四种关系类型的基础上，对中文专利语料集中存在的关系线索词进行标注与收集，获得关系线索词词典

其中：连接关系线索词为指代关系线索词为/>包含关系线索词为/>和因果关系线索词为/>

其中，所述步骤3中构建关系图注意力网络的中文专利实体关系联合抽取模型的具体步骤如下：

步骤3.1：输入中文专利语料集，利用双向长短期记忆网络捕获上下文信息的双向语义依赖，将该网络的最终隐藏层状态作为输出，也就是全局向量。构成一个以全局向量为节点的全连接图G_fully，该图中默认两两节点V间仅存在连接性E，其中：

G_fully＝(V,E)

步骤3.2：通过关系线索词词典获得线索词特征向量，并输出关系线索词特征嵌入矩阵，计算关系注意力分数

步骤3.3：以关系注意力为基础，构建关系图注意力网络模型，将全连接图作为输入训练模型，最终输出包含显式关系的节点V_r和节点间关系边E_r的关系连接图G_relation，其中：

G_relation＝(V_r,E_r)

其中，所述步骤4中基于条件随机场的专利文本的序列标注模型具体步骤如下：

步骤4.1：将关系连接图从图结构转化为关系特征向量序列，使用条件随机场进行实体标签判别。

步骤4.2：利用HT-BIESO序列标注方法进行实体标注，并输出实体之间存在的关系。

有益效果：

本发明与现有技术相比，其有益效果体现在：

(1)、融合中文专利多种特征向量，充分考虑实体与关系的交互，减少误差传递，奠定了实体与关系抽取的基础。

(2)、定义并挖掘中文专利关系线索词，简化关系抽取的大量操作，减少模型冗余，提高了关系抽取的效率。

(3)、以关系挖掘为基础来捕获实体，构建基于关系图注意力网络的中文专利实体关系联合抽取方法，有效提高了实体关系抽取准确率。

附图说明

为了更清楚地说明本发明的技术方案，对本发明所需要使用的附图作简单的介绍。

图1是基于关系图注意力网络的中文专利实体关系联合抽取方法流程图；

图2是中文专利特征提取与融合的结构框图；

图3是基于关系图注意力网络的中文专利实体关系联合抽取方法结构框图；

具体实施方式

以下通过具体实施例对本发明做进一步解释说明。

实施例一：本发明提供了一种基于关系图注意力网络的中文专利实体关系联合抽取方法，如图1所示。具体步骤如下：

S1：构建中文专利语料集。

以网络爬虫获取不包含外观设计的2017年中文专利文本，从中选取具有代表性的专利摘要部分，组成自建中文专利数据集CP2017。

下面结合图2对中文专利语料集的构建方法进行详细说明，具体如下：

S1.1：对CP2017数据集，将数据集中的英文专业术语转化为中文。利用ASCII码值定位数据集中的英文专业术语，再利用谷歌翻译接口将英文专业术语转化为中文，得到仅含中文字符的数据集S。

S1.1.1本实施例中CP2017数据集为S＝{x₁,x₂,…,x_n}，其中：x_i表示第i个文本，1≤i≤n，n为集合S中的文本总数。

S1.2：将数据集中的停用词及其特殊字符进行去除，包括网页标签与“&”、“-”、“@”、“#”、“<”、“>”、“|”、“”、“”等。对数据集按照标点符号进行断句，并使用Jieba分词工具，得到中文专利语料集。

S1.3：将中文专利语料集输入“Chinese-base-Bert”中文预训练语言模型，得到字向量词向量/>位置向量/>并通过查找嵌入字典输出三个嵌入矩阵，将字符、词和位置的向量维数设为相同大小，获得结构化的中文专利语料集S_x。

S1.3.1在本实施例中，专利语料集S_x的公式为：

S2：构建关系线索词词典。

S2.1：对中文专利数据集S进行语料标注，收集大量的关系线索词w_r，获得关系线索词词典W_r。

S2.1.1：在本实施例中，关系线索词词典W_r可以表示为：

其中，连接关系线索词为指代关系线索词为/>包含关系线索词为/>和因果关系线索词为/>

S2.1.2：在本实施例中，连接关系线索词实例包括：连接、连着、对应、位于等等；指代关系线索词实例包括：也就是、看作、它等等；包含关系线索词实例包括：有、包括、存在、内含等等；因果关系线索词实例包括：送达、增加、提升、减少、降低、阻断等等。

S3：构建基于关系图注意力网络的专利文本领域实体关系联合抽取模型。

下面结合图3对基于关系图注意力网络的中文专利实体关系联合抽取模型的构建方法进行详细说明，具体如下：

S3.1：通过输入的中文专利语料集S_x，利用双向长短期记忆网络捕获上下文信息的双向语义依赖，将该网络的最终隐藏层状态h_i作为输出，可以得到全局向量集S_c＝{h₁,h₂,…,h_n}。以此，构成一个以全局向量为节点的全连接图G_fully＝(V,E)，该图中默认两两节点V间仅存在连接性E。

S3.1.1：本实施例中，最终隐藏层状态h_i为：

其中，表示前向和后向长短期记忆网络隐藏状态；/>表示x_i由前一时刻的信息和前一时刻的状态共同编码，在前向长短期记忆网络中生成下一时刻的状态；表示x_i由后一时刻的信息和后一时刻的状态共同编码，在后向长短期记忆网络中生成下一时刻的状态；/>表示前向-后向向量的级联。

S3.1.2：本实施例中，全连接图中包含的节点v_i为：

G_fully(i)＝(v_i,v_j,r_ij)

其中，v_i,v_j∈V，V是节点的集合，E是边的集合，

S3.2：将获取的关系线索词词典W_r，通过Word2Vec架构得到关系线索词特征向量d_i，与上述向量维数设置相同大小。引入关系线索词特征嵌入矩阵，计算得到关系注意力分数

S3.2.1：在本实施例中，关系线索词特征向量d_i为：

其中，||表示关系线索词w^r与全局向量h_i匹配。

S3.2.2：在本实施例中，关系注意力分数的计算公式为：

其中，S_g＝average(S_c)＝avg(v₁,v₂,…,v_n)＝avg(h₁,h₂,…,h_n)，W_g,W_h,W_d分别表示序列S_g、节点(全局向量h_i)和关系线索词特征向量d_i的可训练权重矩阵，a代表一种非线性激活函数。

S3.3：以关系注意力为基础，构建关系图注意力网络模型，将全连接图G_fully作为输入训练模型，最终输出包含显式关系的节点V_r和节点间关系边E_r的关系连接图G_relation，其中：

G_relation＝(V_r,E_r)

S3.3.1：本实施例中，关系连接图中包含的节点为：

其中，r_ij∈E_r，V_r是节点的集合，E_r是边的集合。

S4：基于条件随机场的中文专利语料序列标注模型。

S4.1：将关系连接图解码为关系特征向量序列S_r＝{h'₁,h'₂,…,h'_n}，接着将关系特征向量h'_i输入到条件随机场模型，对每个向量映射得到条件概率，进行实体标签判别。

S4.1.1：本实施例中，关系连接图节点解码为关系特征向量序列的公式为：

其中，N为图的节点个数；σ是非线性激活函数；是W特征向量的权重矩阵；b是偏置项。

S4.1.2：本实施例中：基于条件随机场模型实体标签判别的公式为：

其中，TS_i表示在第i个字符的预测标签总分(Total Score)，t(h'_i)表示在第i个字符的预测标签分数，P表示第i个字符在关系r下的预测标签概率，W^t是权重矩阵，l是总标签数，b_t是偏置项。

S4.2：利用HT-BIESO序列标注方法进行实体标注，并输出实体之间存在的关系。

S4.2.1：在本实施例中，HT-BIESO序列标注方法的具体解释为：

B(Begin)代表实体的开头字符，I(Inside)代表实体的中间字符，E(End)代表实体的结束字符，S(Single)代表单个字符为实体。H(Head头)代表三元组中实体1(Entity1，头实体)的位置，T(Tail尾)代表三元组的实体2(Entity2，尾实体)。

S5：得到最终抽取结果：实体与关系单元<实体1，关系，实体2>。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于关系图注意力网络的中文专利实体关系联合抽取方法，其特征在于包括如下步骤：

步骤2：构建关系线索词词典。对专利文本进行分析总结，定义并挖掘关系线索词。对中文专利语料进行清洗、筛选、标注与收集符合条件的关系线索词，获得关系线索词词典。

步骤3：构建基于关系图注意力网络的中文专利实体关系联合抽取模型。输入中文专利语料集并捕获上下文信息，得到全连接图。结合关系线索词词典计算得到的关系注意力分数，在关系图注意力网络中训练全连接图，最终输出关系连接图。

步骤4：基于条件随机场的中文专利语料序列标注模型。将关系连接图中的节点序列化，使用条件随机场进行实体标签判别，利用序列标注方法标注实体，并输出实体之间存在的关系。

2.根据权利要求1所述的中文专利语料集的方法构建，其特征在于，包括如下步骤：

步骤1.1：去除待处理的专利文本中的停用词及特殊字符，包括：网页标签、“&”、“-”、“@”、“#”、“<”、“>”、“|”、“”、“”等。定位中文专利文本存在的英文专业术语，利用翻译接口将其转化为中文，得到纯中文专利文本。

步骤1.2：对纯中文专利文本按照标点符号进行断句，并使用分词工具分词，得到中文专利语料数据。对中文专利语料数据输入预训练语言模型，得到多种特征向量，包括字符特征、词特征和位置特征，接着进行多特征向量融合，获得结构化的中文专利语料集。

步骤1.2.1：将中文专利语料数据输入预训练语言模型，得到字向量词向量/>位置向量/>获得结构化的专利语料集S_x，其公式为：

3.根据权利要求1所述的关系线索词词典的构建方法，其特征在于，包括如下步骤：

步骤2.2：在步骤2.1提出四种关系类型的基础上，对中文专利语料集中存在的关系线索词进行标注与收集，获得关系线索词词典，可以表示为：

4.根据权利要求1所述的一种基于关系图注意力网络的中文专利实体关系联合抽取模型，其特征在于，包括如下步骤：

步骤3.1：输入中文专利语料集，利用双向长短期记忆网络捕获上下文信息的双向语义依赖，将该网络的最终隐层状态h_i作为输出，其公式为：

其中，表示前向和后向长短期记忆网络隐藏状态；/>表示x_i由前一时刻的信息和前一时刻的状态共同编码，在前向长短期记忆网络中生成下一时刻的状态；/>表示x_i由后一时刻的信息和后一时刻的状态共同编码，在后向长短期记忆网络中生成下一时刻的状态；/>表示前向-后向向量的级联。

构成一个以全局向量h_i为节点的全连接图G_fully＝(V,E)，该图中默认两两节点V间仅存在连接性E，全连接图中包含的节点v_i为：

G_fully(i)＝(v_i,v_j)

其中，v_i,v_j∈V，V是节点的集合，E是边的集合，

步骤3.2：通过关系线索词词典W_r获得关系线索词特征向量d_i：

其中，||表示关系线索词w^r与全局向量h_i匹配。

输出关系线索词特征嵌入矩阵，计算得到关系注意力分数

其中，S_g＝avg(v₁,v₂,…,v_n)＝average(S_c)＝avg(h₁,h₂,…,h_n)，W_g,W_h,W_d分别表示序列S_g、节点(全局向量h_i)和关系线索词特征向量d_i的可训练权重矩阵，a代表一种非线性激活函数。

步骤3.3：以关系注意力为基础，构建关系图注意力网络模型，将全连接图G_fully作为输入训练模型，最终输出包含显式关系的节点V_r和节点间关系边E_r的关系连接图G_relation＝(V_r,E_r)，关系连接图中包含的节点为：

其中， r_ij∈E_r，V_r是节点的集合，E_r是边的集合。

5.根据权利要求1所述的一种基于条件随机场的中文专利语料序列标注模型，其特征在于，包括如下步骤：

步骤4.1：将关系连接图从图结构转化为向量序列S_r＝{t₁,t₂,…,t_n}，其中关系连接图节点解码为关系特征向量的公式为：

使用条件随机场进行实体标签判别，其公式为：

其中，TS_i表示在第i个字符的预测标签总分(Total Score)，t(h'_i)表示在第i个字符的预测标签分数，P(t(h'_i))表示第i个字符在关系r下的预测标签概率，W^t是权重矩阵，l是总标签数，b_t是偏置项。

步骤4.2.1：实体的HT-BIESO序列标注方法，包括：B(Begin)代表实体的开头字符，I(Inside)代表实体的中间字符，E(End)代表实体的结束字符，S(Single)代表单个字符为实体。H(Head头)代表三元组中实体1(Entity1，头实体)的位置，T(Tail尾)代表三元组的实体2(Entity2，尾实体)。