CN116484852A - 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 - Google Patents
一种基于关系图注意力网络的中文专利实体关系联合抽取方法 Download PDFInfo
- Publication number
- CN116484852A CN116484852A CN202310410784.4A CN202310410784A CN116484852A CN 116484852 A CN116484852 A CN 116484852A CN 202310410784 A CN202310410784 A CN 202310410784A CN 116484852 A CN116484852 A CN 116484852A
- Authority
- CN
- China
- Prior art keywords
- relation
- chinese patent
- entity
- relationship
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 238000010586 diagram Methods 0.000 title claims abstract description 28
- 238000002372 labelling Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000001364 causal effect Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于关系图注意力网络的中文专利实体关系联合抽取方法,属于信息抽取领域,包括:S1构建中文专利语料集;S2构建关系线索词词典;S3结合S2计算得到关系注意力分数,构建基于关系图注意力网络的中文专利实体关系联合抽取模型,再输入中文专利语料集训练模型;S4基于条件随机场的中文专利语料序列标注模型,最终抽取得到<实体1,关系,实体2>实体关系单元。本发明利用关系图注意力网络模型进行实体关系挖掘,提高联合抽取的准确率,为专利查阅人员提供清晰准确的产品架构,并为专利知识图谱、专利语义检索、专利推荐系统等后续研究奠定基础。
Description
技术领域
本发明涉及信息抽取领域,具体是一种基于关系图注意力网络的中文专利实体关系联合抽取方法。
背景技术
随着专利文本数据的不断积累,利用自然语言处理技术和深度学习的方法挖掘其中蕴含的丰富信息,在专利产品技术的快速检索、专利创新技术的挖掘、专利创新技术的竞争力评估、地方产业的专利需求分析、区域级专利技术的发展趋势预测等多个方面上发挥着不可替代的作用。同时,面向专利文本的实体与关系的抽取工作可为构建专利知识图谱、专利语义检索、专利推荐系统等下游应用提供技术支持。专利文本主要是以半结构化形式构成,包括“申请公布号”、“申请人”、“申请机构”等基本特征,和“发明名称”、“摘要”、“权利要求”等内容特征。对于基本特征的提取分析工作易于展开,但是对于内容特征的提取则需要进行深层次的文本信息抽取工作。
实体与关系的抽取工作主要分为流水线与联合抽取两种模型。最基础的流水线模型将抽取任务划分成命名实体识别和关系抽取两个独立子任务,易于执行但是存在误差传播问题,难以考虑实体与关系的交互信息。现阶段最流行的实体与关系联合抽取模型,就是从非结构化的句子级文本中,利用深度学习方法作为工具,设计编码器-解码器模型结构,提取出实体关系单元,其表示形式为<实体1,关系,实体2>。现有的实体与关系联合抽取模型大部分还是按照先实体后关系的抽取模式,虽然考虑了实体与关系的交互,但是专利文本实体间存在许多复杂关系,现有模型需要生成复杂的文本结构编码来丰富语义信息,使得模型中产生海量的冗余操作,导致模型的抽取结果准确率低。
本发明提出的不同之处是利用关系图注意力网络来解决面对复杂关系时实体关系联合抽取准确率低问题。通过图注意力网络构建文本特征向量的图表示,并结合关系注意力机制,将图中关联节点和关系的挖掘任务应用于实体与关系的抽取。其中,关系注意力机制的核心目标,是以关系为引导,从众多文本特征信息中,选择出存在显式关系的关键特征。本发明可以考虑到实体与关系的交互信息,减少模型冗余,获得更高的实体关系联合抽取准确率。
发明内容
本发明的目的在于:根据专利文本存在大量的复杂关系难以抽取的问题,提供一种基于关系图注意力网络的中文专利实体关系联合抽取方法,通过融合文本多特征信息,构建基于关系注意力机制图神经网络的实体关系联合抽取模型,提高面向中文专利文本的联合抽取准确率。
为了达到上述目的,本发明采用如下的技术方案:
一种基于关系图注意力网络的中文专利实体关系联合抽取方法,包括以下步骤:
步骤1:构建中文专利语料集。获取中文专利文本,对文本进行翻译、断句、分词等预处理,接着利用预训练语言模型获取文本的多种特征向量,接着通过特征融合将文本结构化表示,得到中文专利语料集。
步骤2:构建关系线索词词典。对专利文本进行分析总结,定义并挖掘关系线索词。对中文专利语料进行清洗、筛选、标注与收集关系线索词,获得关系线索词词典。
步骤3:构建关系图注意力网络的中文专利实体关系联合抽取模型。
首先,通过输入的中文专利语料集,捕获语料的上下文信息,得到全局多特征融合向量表示。利用全局向量得到全连接图,图中节点代表全局向量,边仅代表着节点间存在连接性。接着,通过关系线索词词典计算得到关系注意力分数。然后,输入全连接图,引入关系注意力分数,训练关系图注意力网络。最终,输出关系连接图,图中节点代表存在显式关系的特征向量,边代表特征向量间存在的关系。
步骤4:基于条件随机场的中文专利语料序列标注模型。将步骤3输出的关系连接图转化为包含关系标签的特征向量序列,使用条件随机场进行实体标签判别,利用序列标注方法标注实体,并输出实体之间存在的关系。
步骤5:获得最终的实体关系抽取结果:实体与关系单元<实体1,关系,实体2>。
其中,所述步骤1中专利文本预处理的具体操作为:
步骤1.1:去除待处理的专利文本中的停用词及特殊字符,包括:“&”、“-”、“@”、“#”、“<”、“>”、“|”、“</sup>”、“<sup>”等。定位中文专利文本存在的英文专业术语,利用翻译接口将其转化为中文,得到纯中文专利文本。
步骤1.2:对纯中文专利文本按照标点符号进行断句,并使用分词工具分词,得到专利语料。将中文专利语料输入中文预训练语言模型,得到多种特征向量,包括:字符特征向量、词特征向量、位置特征向量,接着进行多特征向量融合,获得结构化的中文专利语料集。
其中,所述步骤2中构建关系线索词词典的具体步骤如下:
步骤2.1:通过对专利文本的分析总结,定义了四种实体间关系类型,包括:连接关系、指代关系、包含关系和因果关系。
步骤2.2:在步骤2.1提出四种关系类型的基础上,对中文专利语料集中存在的关系线索词进行标注与收集,获得关系线索词词典
其中:连接关系线索词为指代关系线索词为/>包含关系线索词为/>和因果关系线索词为/>
其中,所述步骤3中构建关系图注意力网络的中文专利实体关系联合抽取模型的具体步骤如下:
步骤3.1:输入中文专利语料集,利用双向长短期记忆网络捕获上下文信息的双向语义依赖,将该网络的最终隐藏层状态作为输出,也就是全局向量。构成一个以全局向量为节点的全连接图Gfully,该图中默认两两节点V间仅存在连接性E,其中:
Gfully=(V,E)
步骤3.2:通过关系线索词词典获得线索词特征向量,并输出关系线索词特征嵌入矩阵,计算关系注意力分数
步骤3.3:以关系注意力为基础,构建关系图注意力网络模型,将全连接图作为输入训练模型,最终输出包含显式关系的节点Vr和节点间关系边Er的关系连接图Grelation,其中:
Grelation=(Vr,Er)
其中,所述步骤4中基于条件随机场的专利文本的序列标注模型具体步骤如下:
步骤4.1:将关系连接图从图结构转化为关系特征向量序列,使用条件随机场进行实体标签判别。
步骤4.2:利用HT-BIESO序列标注方法进行实体标注,并输出实体之间存在的关系。
有益效果:
本发明与现有技术相比,其有益效果体现在:
(1)、融合中文专利多种特征向量,充分考虑实体与关系的交互,减少误差传递,奠定了实体与关系抽取的基础。
(2)、定义并挖掘中文专利关系线索词,简化关系抽取的大量操作,减少模型冗余,提高了关系抽取的效率。
(3)、以关系挖掘为基础来捕获实体,构建基于关系图注意力网络的中文专利实体关系联合抽取方法,有效提高了实体关系抽取准确率。
附图说明
为了更清楚地说明本发明的技术方案,对本发明所需要使用的附图作简单的介绍。
图1是基于关系图注意力网络的中文专利实体关系联合抽取方法流程图;
图2是中文专利特征提取与融合的结构框图;
图3是基于关系图注意力网络的中文专利实体关系联合抽取方法结构框图;
具体实施方式
以下通过具体实施例对本发明做进一步解释说明。
实施例一:本发明提供了一种基于关系图注意力网络的中文专利实体关系联合抽取方法,如图1所示。具体步骤如下:
S1:构建中文专利语料集。
以网络爬虫获取不包含外观设计的2017年中文专利文本,从中选取具有代表性的专利摘要部分,组成自建中文专利数据集CP2017。
下面结合图2对中文专利语料集的构建方法进行详细说明,具体如下:
S1.1:对CP2017数据集,将数据集中的英文专业术语转化为中文。利用ASCII码值定位数据集中的英文专业术语,再利用谷歌翻译接口将英文专业术语转化为中文,得到仅含中文字符的数据集S。
S1.1.1本实施例中CP2017数据集为S={x1,x2,…,xn},其中:xi表示第i个文本,1≤i≤n,n为集合S中的文本总数。
S1.2:将数据集中的停用词及其特殊字符进行去除,包括网页标签与“&”、“-”、“@”、“#”、“<”、“>”、“|”、“</sup>”、“<sup>”等。对数据集按照标点符号进行断句,并使用Jieba分词工具,得到中文专利语料集。
S1.3:将中文专利语料集输入“Chinese-base-Bert”中文预训练语言模型,得到字向量词向量/>位置向量/>并通过查找嵌入字典输出三个嵌入矩阵,将字符、词和位置的向量维数设为相同大小,获得结构化的中文专利语料集Sx。
S1.3.1在本实施例中,专利语料集Sx的公式为:
S2:构建关系线索词词典。
S2.1:对中文专利数据集S进行语料标注,收集大量的关系线索词wr,获得关系线索词词典Wr。
S2.1.1:在本实施例中,关系线索词词典Wr可以表示为:
其中,连接关系线索词为指代关系线索词为/>包含关系线索词为/>和因果关系线索词为/>
S2.1.2:在本实施例中,连接关系线索词实例包括:连接、连着、对应、位于等等;指代关系线索词实例包括:也就是、看作、它等等;包含关系线索词实例包括:有、包括、存在、内含等等;因果关系线索词实例包括:送达、增加、提升、减少、降低、阻断等等。
S3:构建基于关系图注意力网络的专利文本领域实体关系联合抽取模型。
下面结合图3对基于关系图注意力网络的中文专利实体关系联合抽取模型的构建方法进行详细说明,具体如下:
S3.1:通过输入的中文专利语料集Sx,利用双向长短期记忆网络捕获上下文信息的双向语义依赖,将该网络的最终隐藏层状态hi作为输出,可以得到全局向量集Sc={h1,h2,…,hn}。以此,构成一个以全局向量为节点的全连接图Gfully=(V,E),该图中默认两两节点V间仅存在连接性E。
S3.1.1:本实施例中,最终隐藏层状态hi为:
其中,表示前向和后向长短期记忆网络隐藏状态;/>表示xi由前一时刻的信息和前一时刻的状态共同编码,在前向长短期记忆网络中生成下一时刻的状态;表示xi由后一时刻的信息和后一时刻的状态共同编码,在后向长短期记忆网络中生成下一时刻的状态;/>表示前向-后向向量的级联。
S3.1.2:本实施例中,全连接图中包含的节点vi为:
Gfully(i)=(vi,vj,rij)
其中,vi,vj∈V,V是节点的集合,E是边的集合,
S3.2:将获取的关系线索词词典Wr,通过Word2Vec架构得到关系线索词特征向量di,与上述向量维数设置相同大小。引入关系线索词特征嵌入矩阵,计算得到关系注意力分数
S3.2.1:在本实施例中,关系线索词特征向量di为:
其中,||表示关系线索词wr与全局向量hi匹配。
S3.2.2:在本实施例中,关系注意力分数的计算公式为:
其中,Sg=average(Sc)=avg(v1,v2,…,vn)=avg(h1,h2,…,hn),Wg,Wh,Wd分别表示序列Sg、节点(全局向量hi)和关系线索词特征向量di的可训练权重矩阵,a代表一种非线性激活函数。
S3.3:以关系注意力为基础,构建关系图注意力网络模型,将全连接图Gfully作为输入训练模型,最终输出包含显式关系的节点Vr和节点间关系边Er的关系连接图Grelation,其中:
Grelation=(Vr,Er)
S3.3.1:本实施例中,关系连接图中包含的节点为:
其中,rij∈Er,Vr是节点的集合,Er是边的集合。
S4:基于条件随机场的中文专利语料序列标注模型。
S4.1:将关系连接图解码为关系特征向量序列Sr={h'1,h'2,…,h'n},接着将关系特征向量h'i输入到条件随机场模型,对每个向量映射得到条件概率,进行实体标签判别。
S4.1.1:本实施例中,关系连接图节点解码为关系特征向量序列的公式为:
其中,N为图的节点个数;σ是非线性激活函数;是W特征向量的权重矩阵;b是偏置项。
S4.1.2:本实施例中:基于条件随机场模型实体标签判别的公式为:
其中,TSi表示在第i个字符的预测标签总分(Total Score),t(h'i)表示在第i个字符的预测标签分数,P表示第i个字符在关系r下的预测标签概率,Wt是权重矩阵,l是总标签数,bt是偏置项。
S4.2:利用HT-BIESO序列标注方法进行实体标注,并输出实体之间存在的关系。
S4.2.1:在本实施例中,HT-BIESO序列标注方法的具体解释为:
B(Begin)代表实体的开头字符,I(Inside)代表实体的中间字符,E(End)代表实体的结束字符,S(Single)代表单个字符为实体。H(Head头)代表三元组中实体1(Entity1,头实体)的位置,T(Tail尾)代表三元组的实体2(Entity2,尾实体)。
S5:得到最终抽取结果:实体与关系单元<实体1,关系,实体2>。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种基于关系图注意力网络的中文专利实体关系联合抽取方法,其特征在于包括如下步骤:
步骤1:构建中文专利语料集。获取中文专利文本,对文本进行翻译、断句、分词等预处理,接着利用预训练语言模型获取文本的多种特征向量,接着通过特征融合将文本结构化表示,得到中文专利语料集。
步骤2:构建关系线索词词典。对专利文本进行分析总结,定义并挖掘关系线索词。对中文专利语料进行清洗、筛选、标注与收集符合条件的关系线索词,获得关系线索词词典。
步骤3:构建基于关系图注意力网络的中文专利实体关系联合抽取模型。输入中文专利语料集并捕获上下文信息,得到全连接图。结合关系线索词词典计算得到的关系注意力分数,在关系图注意力网络中训练全连接图,最终输出关系连接图。
步骤4:基于条件随机场的中文专利语料序列标注模型。将关系连接图中的节点序列化,使用条件随机场进行实体标签判别,利用序列标注方法标注实体,并输出实体之间存在的关系。
步骤5:获得最终的实体关系抽取结果:实体与关系单元<实体1,关系,实体2>。
2.根据权利要求1所述的中文专利语料集的方法构建,其特征在于,包括如下步骤:
步骤1.1:去除待处理的专利文本中的停用词及特殊字符,包括:网页标签、“&”、“-”、“@”、“#”、“<”、“>”、“|”、“</sup>”、“<sup>”等。定位中文专利文本存在的英文专业术语,利用翻译接口将其转化为中文,得到纯中文专利文本。
步骤1.2:对纯中文专利文本按照标点符号进行断句,并使用分词工具分词,得到中文专利语料数据。对中文专利语料数据输入预训练语言模型,得到多种特征向量,包括字符特征、词特征和位置特征,接着进行多特征向量融合,获得结构化的中文专利语料集。
步骤1.2.1:将中文专利语料数据输入预训练语言模型,得到字向量词向量/>位置向量/>获得结构化的专利语料集Sx,其公式为:
3.根据权利要求1所述的关系线索词词典的构建方法,其特征在于,包括如下步骤:
步骤2.1:通过对专利文本的分析总结,定义了四种实体间关系类型,包括:连接关系、指代关系、包含关系和因果关系。
步骤2.2:在步骤2.1提出四种关系类型的基础上,对中文专利语料集中存在的关系线索词进行标注与收集,获得关系线索词词典,可以表示为:
其中,连接关系线索词为指代关系线索词为/>包含关系线索词为/>和因果关系线索词为/>
4.根据权利要求1所述的一种基于关系图注意力网络的中文专利实体关系联合抽取模型,其特征在于,包括如下步骤:
步骤3.1:输入中文专利语料集,利用双向长短期记忆网络捕获上下文信息的双向语义依赖,将该网络的最终隐层状态hi作为输出,其公式为:
其中,表示前向和后向长短期记忆网络隐藏状态;/>表示xi由前一时刻的信息和前一时刻的状态共同编码,在前向长短期记忆网络中生成下一时刻的状态;/>表示xi由后一时刻的信息和后一时刻的状态共同编码,在后向长短期记忆网络中生成下一时刻的状态;/>表示前向-后向向量的级联。
构成一个以全局向量hi为节点的全连接图Gfully=(V,E),该图中默认两两节点V间仅存在连接性E,全连接图中包含的节点vi为:
Gfully(i)=(vi,vj)
其中,vi,vj∈V,V是节点的集合,E是边的集合,
步骤3.2:通过关系线索词词典Wr获得关系线索词特征向量di:
其中,||表示关系线索词wr与全局向量hi匹配。
输出关系线索词特征嵌入矩阵,计算得到关系注意力分数
其中,Sg=avg(v1,v2,…,vn)=average(Sc)=avg(h1,h2,…,hn),Wg,Wh,Wd分别表示序列Sg、节点(全局向量hi)和关系线索词特征向量di的可训练权重矩阵,a代表一种非线性激活函数。
步骤3.3:以关系注意力为基础,构建关系图注意力网络模型,将全连接图Gfully作为输入训练模型,最终输出包含显式关系的节点Vr和节点间关系边Er的关系连接图Grelation=(Vr,Er),关系连接图中包含的节点为:
其中, rij∈Er,Vr是节点的集合,Er是边的集合。
5.根据权利要求1所述的一种基于条件随机场的中文专利语料序列标注模型,其特征在于,包括如下步骤:
步骤4.1:将关系连接图从图结构转化为向量序列Sr={t1,t2,…,tn},其中关系连接图节点解码为关系特征向量的公式为:
其中,N为图的节点个数;σ是非线性激活函数;是W特征向量的权重矩阵;b是偏置项。
使用条件随机场进行实体标签判别,其公式为:
其中,TSi表示在第i个字符的预测标签总分(Total Score),t(h'i)表示在第i个字符的预测标签分数,P(t(h'i))表示第i个字符在关系r下的预测标签概率,Wt是权重矩阵,l是总标签数,bt是偏置项。
步骤4.2:利用HT-BIESO序列标注方法进行实体标注,并输出实体之间存在的关系。
步骤4.2.1:实体的HT-BIESO序列标注方法,包括:B(Begin)代表实体的开头字符,I(Inside)代表实体的中间字符,E(End)代表实体的结束字符,S(Single)代表单个字符为实体。H(Head头)代表三元组中实体1(Entity1,头实体)的位置,T(Tail尾)代表三元组的实体2(Entity2,尾实体)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410784.4A CN116484852A (zh) | 2023-04-18 | 2023-04-18 | 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410784.4A CN116484852A (zh) | 2023-04-18 | 2023-04-18 | 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484852A true CN116484852A (zh) | 2023-07-25 |
Family
ID=87222600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310410784.4A Pending CN116484852A (zh) | 2023-04-18 | 2023-04-18 | 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484852A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271800A (zh) * | 2023-09-27 | 2023-12-22 | 数据空间研究院 | 一种专利的产业信息挖掘方法、挖掘系统及存储介质 |
-
2023
- 2023-04-18 CN CN202310410784.4A patent/CN116484852A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271800A (zh) * | 2023-09-27 | 2023-12-22 | 数据空间研究院 | 一种专利的产业信息挖掘方法、挖掘系统及存储介质 |
CN117271800B (zh) * | 2023-09-27 | 2024-05-03 | 数据空间研究院 | 一种专利的产业信息挖掘方法、挖掘系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113128229B (zh) | 一种中文实体关系联合抽取方法 | |
CN109684648B (zh) | 一种多特征融合的古今汉语自动翻译方法 | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN111639175B (zh) | 一种自监督的对话文本摘要方法及系统 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN111476031A (zh) | 一种基于Lattice-LSTM的改进中文命名实体识别方法 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN111143574A (zh) | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 | |
CN112101014B (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN111339318B (zh) | 基于深度学习的大学计算机基础知识图谱构建方法 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN116484852A (zh) | 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 | |
CN114065738B (zh) | 基于多任务学习的中文拼写纠错方法 | |
CN113947087B (zh) | 一种基于标签的关系构建方法、装置、电子设备及存储介质 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN117035084A (zh) | 一种基于语法分析的医疗文本实体关系抽取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |