CN115858793A - 基于图注意力机制的专利多层级分类方法及计算机设备 - Google Patents

基于图注意力机制的专利多层级分类方法及计算机设备 Download PDF

Info

Publication number
CN115858793A
CN115858793A CN202310132411.5A CN202310132411A CN115858793A CN 115858793 A CN115858793 A CN 115858793A CN 202310132411 A CN202310132411 A CN 202310132411A CN 115858793 A CN115858793 A CN 115858793A
Authority
CN
China
Prior art keywords
text
graph
label
classification
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310132411.5A
Other languages
English (en)
Other versions
CN115858793B (zh
Inventor
徐青伟
严长春
裴非
范娥媚
蔡明睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinghe Zhiyuan Technology Co.,Ltd.
Original Assignee
Zhiguagua Tianjin Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiguagua Tianjin Big Data Technology Co ltd filed Critical Zhiguagua Tianjin Big Data Technology Co ltd
Priority to CN202310132411.5A priority Critical patent/CN115858793B/zh
Publication of CN115858793A publication Critical patent/CN115858793A/zh
Application granted granted Critical
Publication of CN115858793B publication Critical patent/CN115858793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于图注意力机制的专利多层级分类方法及计算机设备。该方法首先通过专利文本片段分割以及标签定义提取,生成专利文本树形结构和标签定义树形结构;然后通过节点文本相似度计算,查找相似向量,在对应节点之间添加边;再利用注意力机制得到节点的编码向量;最后,把编码向量输入到神经网络中,得到预测结果。本申请充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式编码文本和标签之间的交互关系,解决了现有技术的缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率,达到解放人力、降本增效的目的。

Description

基于图注意力机制的专利多层级分类方法及计算机设备
技术领域
本申请属于文献分类技术领域,具体涉及一种参考规范标准(如IPC分类等)对专利文献进行自动分类的方法。
背景技术
专利作为衡量国家创新能力的重要文献,是发现先进技术的重要途径。中国在知识产权的保护力度上取得巨大进步,显著体现在专利数量的迅速增长。根据国家知识产权局公布的数据,2021年全年共授权发明专利69.6万件,每万人口高价值发明专利拥有量达到7.5件。在世界知识产权组织发布的《2021年全球创新指数报告》中,中国排名位居全球第12位,连续9年稳步提升。专利文献数量的快速增长大大加重了人工分类的工作量,小规模机器学习的分类方法的准确性也很难满足当前需求。因此,如何从快速准确地从大量专利申请中识别出专利所属技术类别成为目前的一项重要研究内容。
目前常见的专利分类方法一般基于专利文本实现,有些结合标签、发明人网络、权利人网络等专利节点特征实现,例如中国专利文献CN113468291A公开了一种基于专利网络表示学习的专利自动分类方法,其利用专利的文本内容、发明人信息与专利权人信息各自构造语义视图网络、发明人视图网络与专利权人视图网络,结合不同视图网络之间的相关性对专利节点表征向量进行增强,再通过注意力机制将增强后的三个视图网络的专利节点表征向量进行融合,将融合结果作为最终的专利节点表征向量并进行分类预测,以提升专利分类结果的准确率。然而,这类优化的分类方法,在专利领域专业性强、结构关系复杂场景下的自动分类效果并不理想。
发明人认识到,现有技术没有充分利用专利文本和标签的内部组成部分及关联结构信息,导致专利分类准确率整体不高。具体来说:
现有专利分类方法是将文本作为一个整体进行模型训练和预测,没有充分利用专利中已有的标题、摘要、权利要求书、说明书及其内部组成部分之间的固有结构知识,缺乏对于标签定义的层次化结构及其与专利文本各部分之间的关联关系的有效使用(例如前述文献CN113468291A介绍的结合外部发明人网络、权利人网络等外部结构信息的专利分类方法,就没有深入挖掘和充分利用专利和标签本身的内部结构和关联关系),导致专利领域专业性强、结构关系复杂场景下的自动分类效果不佳。
发明内容
本申请提供了一种基于图注意力机制的专利多层级分类方法及计算机设备,解决了现有技术缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率。
为了实现以上目的,本申请给出以下解决方案:
基于图注意力机制的专利多层级分类方法,包括:
步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;
步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
步骤S3、图注意力机制编码:基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
可选地,所述标签定义树形数据结构的构建方法包括:
获取专利分类标准规范文档;
读取文档,得到标签以及对应的定义;
对各个标签的定义文本进行清洗、转换、补全和/或合并处理;
根据标签定义的层次化关系生成标签定义树形数据结构。
可选地,所述专利分类标准规范为国际专利分类(IPC)、欧洲专利分类(ECLA)、美国专利分类(CCL)或日本专利分类(FI/F-term)。
可选地,记专利文本树形数据结构为
Figure SMS_1
,其中/>
Figure SMS_2
表示专利文本树形数据结构的顶点集合,/>
Figure SMS_3
表示专利文本树形数据结构的边集合;记标签定义树形数据结构为/>
Figure SMS_4
,其中/>
Figure SMS_5
为标签定义树形数据结构的顶点集合,
Figure SMS_6
为标签定义树形数据结构的边集合;则步骤S2具体包括:
Figure SMS_7
和/>
Figure SMS_8
合并为图/>
Figure SMS_9
,其中,/>
Figure SMS_10
表示图的顶点集合,
Figure SMS_11
表示图的边集合;
计算图中节点所对应的文本相似度,如果图中专利文本树形数据结构的节点(专利文本的每一篇章、每一段落及每一句子分别对应图中的一个节点)与标签定义树形数据结构的节点(专利分类标准规范每一层级的每个分类号分别对应图中的一个节点)所对应的文本相似度超过设定阈值,则通过在这两个节点之间添加一条边(连线)实现所述关联标记。
可选地,所述计算图中节点所对应的文本相似度包括分别基于VSM的相似度计算和基于Bert预训练模型的相似度计算,只要VSM和Bert预训练模型任一计算出的相似度大于0.9,则在对应节点之间添加一条边。其中,VSM用于计算语法相似度,Bert用于计算语义相似度,结合两者能够覆盖语法和语义两种情况。
可选地,所述基于VSM的相似度计算,具体包括:
下载并安装python的jieba包,使用jieba包中的cut函数对文本进行分词,从nltk.corpus包加载中文停用词表,删除文本中的停用词,得到文本的特征项序列
Figure SMS_12
,其中m为词向量的维度;
对于每个特征词,计算其在文本中出现的频率
Figure SMS_13
、在文档集中出现的逆频率/>
Figure SMS_14
计算特征词的权重
Figure SMS_15
,其中tfi为该特征词在文本中出现的频率,idfi为该特征词在文档集中出现的逆频率;得到权重向量/>
Figure SMS_16
使用余弦相似度计算权重向量的相似度,作为文本的相似度。
可选地,所述基于Bert预训练模型的相似度计算,具体包括:
使用Bert预训练模型对两个节点的文本进行编码表示,得到相应的句向量
Figure SMS_17
和 />
Figure SMS_18
,其中l为句向量的维度;再使用余弦相似度/>
Figure SMS_19
,计算句向量之间的相似度,作为文本的相似度。
可选地,步骤S3中,图注意力机制编码的输入为步骤S2中基于Bert预训练模型得到的节点句向量,输出为图注意力机制编码后得到的特征向量,具体计算过程如下:
Figure SMS_23
为节点特征的集合,其中N为节点数目,/>
Figure SMS_24
为节点i编码所得的句向量,F为每个节点的特征数目,即句向量的维度;对特征作线性变换,其中线性变换的权重矩阵为/>
Figure SMS_28
,/>
Figure SMS_22
,/>
Figure SMS_26
为输出特征向量的维度;随机初始化/>
Figure SMS_30
;通过注意力机制/>
Figure SMS_33
,计算得到节点j对节点i的重要性/>
Figure SMS_21
;其中,/>
Figure SMS_27
为单层前馈神经网络,使用LeakyReLU作为激活函数,神经网络的参数向量为/>
Figure SMS_31
,那么/>
Figure SMS_34
,其中/>
Figure SMS_20
表示转置操作,||表示连接操作;为了保留图的结构信息,只计算与节点i相邻的节点对节点i的重要性,即/>
Figure SMS_25
为与节点i相邻的所有节点的集合;为了使不同节点的重要性具有可比性,使用softmax函数对j作归一化,得到注意力系数/>
Figure SMS_29
;将sigmod函数作用于整合后的注意力机制特征,得到节点i的输出特征/>
Figure SMS_32
可选地,步骤S4中所述全连接神经网络分类器,其最后一层使用softmax激活函数,将每个类别的预测得分转化为概率输出;使用神经网络的概率输出以及真实标签类别的one-hot形式进行多分类交叉熵损失函数的计算;多分类交叉熵损失函数
Figure SMS_35
,其中n为样本数,K为标签类别总数,yic为真实标签的one-hot表示,如果样本i的真实类别为c则/>
Figure SMS_36
,否则/>
Figure SMS_37
;/>
Figure SMS_38
为神经网络输出的样本i属于类别c的预测概率;对于所述全连接神经网络分类器的训练,是采用有监督的模型训练方式,以多分类交叉熵损失函数为模型训练目标执行优化。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特殊之处在于,所述处理器执行所述计算机程序时实现上述基于图注意力机制的专利多层级分类方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现上述基于图注意力机制的专利多层级分类方法的步骤。
本申请至少具有以下有益效果:
本申请通过将专利文本内部篇章、段落等结构信息和各层级标签定义进行编码后构建为一个整体图,充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式编码文本和标签之间的交互关系,解决了现有技术缺乏精细化信息利用的缺陷,克服了传统的独立编码方式导致的文本片段和标签语义表征割裂的问题,提升了专利标签分类的准确率,达到解放人力、降本增效的目的。
附图说明
图1为本申请提供的一种基于图注意力机制的专利多层级分类方法的基本流程示意图;
图2为本申请一个实施例提供的一种基于图注意力机制的专利多层级分类方法的流程示意图;
图3为本申请一个实施例提供的由专利文本和标签定义构建的图结构的示意图;
图4为本申请一个实施例提供的智能分类模型的框架结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,本申请提供的一种基于图注意力机制的专利多层级分类方法,包括:
步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;
这里所说的专利文本的格式规范,以中国专利文献为例,通常规定依次由说明书摘要(abstract)、摘要附图、权利要求书(Claims)、说明书(description)以及说明书附图这五个部分组成(本申请所说的专利文本主要指文字内容,因而可暂不考虑对摘要附图和说明书附图作处理),其中说明书第一行标题为专利名称(Title);进一步的,权利要求引用关系以及引用基础可体现独立权利要求与从属权利要求以及各从属权利要求之间的逻辑关系;说明书又具体分为技术领域、背景技术、发明内容(或实用新型内容)、附图说明、具体实施方式。
步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
这里所说的专利分类标准规范,可以是国际专利分类(IPC)、欧洲专利分类(ECLA)、美国专利分类(CCL)、日本专利分类(FI/F-term)等标准规范中的任意一种,具体实现本申请方案时可根据用户的需求选择。例如,中国用户(包括专利审查机构、专利数据服务机构等)对于中国专利文献的分类需求,通常选择国际专利分类(IPC)作为上述专利分类标准规范。
步骤S3、基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
由于将专利文本内部组成结构和标签层级关系统一在一个整体图的方式进行表示,能够将语义相似的文本片段和标签进行有效关联,克服了传统的独立编码方式导致的文本片段和标签语义表征割裂的缺陷;以统一表征的整体图为基础,基于图传播机制和邻接关系的图注意力机制的增强表征学习,充分挖掘和利用图的多级关联关系,进一步加强了文本片段和标签之间的语义耦合度,有利于提升专利标签分类场景下的整体准确率。
步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
上述基于图注意力机制的专利多层级分类方法,通过将专利文本和标签内部篇章、段落等结构信息进行编码后构建为图,充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式对文本和标签进行增强的向量编码,实现了多层级的专利分类,解决了现有技术的缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率,达到解放人力、降本增效的目的。
以下以中国发明专利文献执行IPC分类为例,进一步详述实施例。
在一个实施例中,提供了一种基于图注意力机制的专利多层级分类方法,如图2所示,主要包括文本片段分割、图构建、注意力机制编码、标签分类等环节。具体来说:
A.文本片段分割包括专利文本篇章段落分割和标签定义提取及预处理,即分别对专利文本的标题、摘要、权利要求书、说明书部分中的篇章段落进行分割,对5级标签定义文本(IPC分类表)进行预处理,生成以句子为最小单元的结构树。
专利文本篇章段落分割首先是将专利的标题、摘要、权利要求书、说明书部分拆分为段落,再将各段落内部文本拆分为句子,根据文档结构以及句子之间的关联关系构建专利文本树形数据结构为
Figure SMS_39
,其中/>
Figure SMS_40
表示专利文本树形数据结构的顶点集合,/>
Figure SMS_41
表示专利文本树形数据结构的边集合;
标签定义提取首先是从国家知识产权局官网下载国际专利分类表,以2022年版国际专利分类表为例,下载国际专利分类表word文档,下载并安装python-docx包。
步骤1.import docx(导入docx包)
步骤2.doc = docx.Document(fn)(加载文档)
步骤3.table = doc.tables[0],nrow = len(table.rows)(将文档转化为表格,并获取文档行数)
步骤4.for temp_row in range(nrow):(遍历文档的每一行)
row = table.rows[temp_row](获取表示当前行元素的列表)
label = row.cells[0].text(获取标签,并将其转化为字符串格式)
text = row.cells[2].text(获取标签定义,并将其转化为字符串格式)
按照上述方法逐行读取文档,得到标签以及对应的定义。然后对标签定义的文本进行清洗、转换、补全、合并,根据标签定义的层次化关系生成标签定义树形数据结构为
Figure SMS_42
,其中/>
Figure SMS_43
为标签定义树形数据结构的顶点集合,/>
Figure SMS_44
为标签定义树形数据结构的边集合。其中,清洗是对定义中无关内容的删除,例如A01B3/74的定义为“电力驱动犁(集电器入B60L5/00)[2006.01]”,则删去与内容无关的标识“[2006.01]”;转换是将当前定义中属于其他标签定义的部分转移到其他标签的定义中,例如在A01B3/74的定义中出现了“xxx入xxx”这样的句子,那么删除“(集电器入B60L5/00)”,并将“集电器”补充到B60L5/00的定义中;补全是对长度小于5的定义通过上级标签定义进行补充完善,例如D01H5/12的定义为“零件”,查找其上级D01H5/00的定义,将D01H5/00的定义“牵伸设备或机构”补充到D01H5/12的定义中。
B.图构建是根据篇章、段落、句子间的关系,将专利文本与标签统一构建为一个整体的图。其中,通过专利文本及各组成部分篇章、段落、句子和标签定义进行固有结构的关联(专利文本固有结构中的位置和所属关系,如同一个权利要求中的句子之间的关系),构建图结构,通过基于Bert预训练模型的句向量计算文本相似度,当相似度超过一定阈值后在图中添加关联关系(语法、语义相似度之间的关联,其可能没有距离很远、不存在前后和从属关系)。
具体来说,首先将树形结构
Figure SMS_45
和/>
Figure SMS_46
合并为图/>
Figure SMS_47
,其中,
Figure SMS_48
表示图的顶点集合,E为图的边集合;合并时,保持专利文档内部结构和标签定义的原始关系不变,即/>
Figure SMS_49
。接下来,通过文档和标签定义的关联关系在图中添加边(连线);计算图中节点所对应的文本相似度,如果相似度超过一定阈值,那么在两个节点之间添加一条边(连线)。其中,文本相似度通过VSM和基于Bert预训练模型的句向量进行计算,只要VSM或Bert预训练模型所计算出的相似度大于0.9,则在对应节点之间连一条边。其中:
基于VSM(Vector Space Model)的相似度计算,首先下载并安装python的jieba包,使用jieba包中的cut函数对文本进行分词,从nltk.corpus包加载中文停用词表,删除文本中的停用词,得到文本的特征项序列
Figure SMS_50
,其中m为词向量的维度;对于每个特征词,计算其在文本中出现的频率/>
Figure SMS_51
、在文档集中出现的逆频率/>
Figure SMS_52
;计算特征词的权重/>
Figure SMS_53
,其中tfi为该特征词在文本中出现的频率,idfi为该特征词在文档集中出现的逆频率;得到权重向量/>
Figure SMS_54
;使用余弦相似度计算权重向量的相似度,作为文本的相似度。
基于Bert预训练模型的相似度计算,首先使用Bert预训练模型对两个节点的文本进行编码表示,得到相应的句向量
Figure SMS_55
和 />
Figure SMS_56
,其中l为句向量的维度;再使用余弦相似度/>
Figure SMS_57
,计算句向量之间的相似度,作为文本的相似度。基于Bert预训练模型进行相似度计算时,将Bert模型编码后的所有向量存储到Faiss向量库中,通过向量库阈值检索的方式,查找出与当前向量相似度大于0.9的候选向量,添加向量所述节点间的关联关系。例如,专利的摘要部分包含“本发明涉及农业工具领域,且公开了一种旋耕机,包括车体、移动装置以及深耕装置”这样一句话,而经过处理得到的A01B的标签定义为“农业或林业的整地;一般农业机械或农具的部件、零件或附件”,摘要文本片段与A01B的标签定义所对应的Bert模型编码的句向量之间的余弦相似度大于0.9,那么就在该摘要文本片段所对应的节点与标签A01B所对应的节点之间添加一条边。
VSM用于计算语法相似度,Bert用于计算语义相似度,结合两者能够覆盖语法和语义两种情况。
C.图注意力机制编码,是根据图上的邻接关系,应用注意力机制对节点进行统一编码。
图注意力机制编码的输入为所述图构建过程中基于Bert预训练模型得到的节点文本编码表示(即句向量),输出为图注意力机制编码后得到的特征向量,具体计算过程如下:
Figure SMS_59
为节点特征的集合,其中N为节点数目,/>
Figure SMS_62
为节点i编码所得的句向量,F为每个节点的特征数目,即句向量的维度;对特征作线性变换,其中线性变换的权重矩阵为/>
Figure SMS_66
,/>
Figure SMS_58
,/>
Figure SMS_63
为输出特征向量的维度;随机初始化/>
Figure SMS_67
;通过注意力机制/>
Figure SMS_70
,计算得到节点j对节点i的重要性/>
Figure SMS_61
;其中,/>
Figure SMS_65
为单层前馈神经网络,使用LeakyReLU作为激活函数(LeakyReLU中的参数α取0.2),神经网络的参数向量为/>
Figure SMS_69
,那么/>
Figure SMS_72
,其中/>
Figure SMS_60
表示转置操作,||表示连接操作;为了保留图的结构信息,只计算与节点i相邻的节点对节点i的重要性,即/>
Figure SMS_64
为与节点i相邻的所有节点的集合;为了使不同节点的重要性具有可比性,使用softmax函数对j作归一化,得到注意力系数/>
Figure SMS_68
;将sigmod函数作用于整合后的注意力机制特征,得到节点i的输出特征
Figure SMS_71
D.标签分类,应用全连接神经网络分类器,对编码后专利文本标签进行有监督的模型训练。执行专利标签预测时,通过上述的文本片段分割、图构建、注意力机制编码、标签分类等过程输出预测结果。
标签分类是将注意力机制编码得到的文档节点向量输入到多层全连接神经网络中,其中神经网络的最后一层使用softmax激活函数,将每个类别的预测得分转化为概率输出;使用神经网络的概率输出以及真实标签类别的one-hot形式进行多分类交叉熵损失函数的计算;多分类交叉熵损失函数
Figure SMS_73
,其中n为样本数,K为标签类别总数,yic为真实标签的one-hot表示,如果样本i的真实类别为c则/>
Figure SMS_74
,否则/>
Figure SMS_75
;/>
Figure SMS_76
为神经网络输出的样本i属于类别c的预测概率。对神经网络分类器进行有监督的模型训练,以多分类交叉熵损失函数为模型训练目标执行优化。
执行专利标签预测时,首先通过专利文本片段分割,生成专利文本树形结构;基于专利文本树形结构和预先构建的标签定义树形结构,构建统一的图结构;然后通过节点文本相似度计算,查找相似向量,在对应节点之间添加边;再利用注意力机制得到节点的编码向量;最后,把编码向量输入到神经网络中,得到预测结果。
以下通过与现有的多项专利分类技术进行对比分析及测试,来验证本发明实施例的效果。
试验内容:
分别针对2017年到2021年的中文专利1500万数据集和2021年的140万数据集,应用了朴素贝叶斯(NaiveBayes)、FastText、Bert以及本发明实施例等模型进行了试验,结果如表1和表2所示。
Figure SMS_77
不同模型的标签分类对比试验结果
Figure SMS_78
Figure SMS_79
不同文本部分上的标签分类对比试验结果
Figure SMS_80
对比例1:专利文献CN115238076A
该专利文献方案基于BERT-ALMG模型进行多层级专利文本分类,通过构建专利分类所对应的标签集合、建立标签特征向量、专利文本特征向量,利用BERT预训练模型充分捕获长文本的上下文语义特征,实现多层级专利文本分类。该方法采用了北京大学开放研究数据平台专利数据集中摘要文本,共12000条,实现部、类两级IPC分类,其文本词平均数量为256,编码模型使用Bert(输入不超过512)。
而本发明实施例则采用中文专利库1500万数据、覆盖标题、摘要、权利要求书、说明书等所有文本内容,平均长度从几千到几万不等,远远超过Bert模型要求的512长度限制。因而,本发明实施例既不受专利文本长度限制、又能充分捕获专利文档标题、摘要、权利要求书、说明书各部分以及标签定义之间的语义信息,实现了635个小类(第三级,难度高与对比专利)ipc定义的层次化分类。
从对比试验结果可知:从选择专利文本内容上看,本发明实施例融合专利多部分文本的模型明显优于对比例1单独摘要文本的分类准确率;从数据量上看,增加训练数据量明显提升模型准确率(目前中文专利2000万篇的数据量远远多于对比专利的12000篇)。
对比例2:专利文献CN113254656A
该专利文献方案利用卷积神经网络、长短时记忆网络,将专利文本的短语特征和上下文特征结合,对专利文本分类。
本发明实施例与对比例2的主要区别在于,额外利用了外部标签定义文本,与专利文本的篇章、段落、句子的不同粒度进行融合,通过图注意力机制对专利文本结构显示表达其交互关系。标签定义的层次化体系,通过标签树中的最短路径,有效表达了不同专利文本标签间的相似度度量;图注意力机制同时融合了专利文档结构的相似度和语法语义相似度。
通常而言,基于Transformer的Bert模型在文本理解任务上的表现一般要由于卷积神经网络和长短时记忆网络。从对比试验结果上来看,本发明实施例使用的图注意力机制模型结果要优于Bert模型,本发明实施例采用的标签定义文本和图注意力机制有效补充了现有神经网络,如卷积神经网络、长短时记忆网络、Bert模型的不足。
对比例3:专利文献CN113468291A
该专利文献方案基于专利网络表示学习的专利自动分类,通过引入多视角学习与网络表示学习两个领域的方法对专利进行分类。其通过专利的文本内容构造的语义视图网络仅包括专利和词两类节点,缺失本专利的篇章、段落、句子级别的结构信息。
本发明实施例聚焦解决专利页面冗长、结构复杂等困难,针对专利分类体系的层次化结构复杂、类别标签集巨大等问题,以专利文本和标签定义文本为处理对象,基于图注意力机制的专利多层级分类方法,通过将标签和专利文本内部篇章、段落等结构信息进行编码后构建为图,充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式编码文本和标签之间的交互关系,提升了专利标签分类的准确率。
对比例4:专利文献CN114491041A
该专利文献方案结合标签、发明人网络、权利人网络等专利节点特征,实现专利自动分类方法,其利用专利的文本内容、发明人信息与专利权人信息各自构造语义视图网络、发明人视图网络与专利权人视图网络,结合不同视图网络之间的相关性对专利节点表征向量进行增强,再通过注意力机制将增强后的三个视图网络的专利节点表征向量进行融合,将融合结果作为最终的专利节点表征向量并进行分类预测,以提升专利分类结果的准确率。然而,这类优化的分类方法,在专利领域专业性强、结构关系复杂场景下的自动分类效果并不理想。
对比例4通过图卷积神经网络获取层次标签嵌入的语义特征表示,通过Bi-LSTM对专利文本特征表示,与本发明实施例使用的图注意力机制在技术上存在显著差异。
如前所述,本申请的发明人认识到,现有技术没有充分利用专利文本和标签的内部组成部分及关联结构信息,导致专利分类准确率整体不高。对比例4的分类方法就是将专利文本作为一个整体进行模型训练和预测,没有充分利用专利中已有的标题、摘要、权利要求书、说明书及其内部组成部分之间的固有结构知识,缺乏对于标签定义的层次化结构及其与专利文本各部分之间的关联关系的有效使用,其结合外部发明人网络、权利人网络等外部结构信息的专利分类方法,没有深入挖掘和充分利用专利和标签本身的内部结构和关联关系,导致专利领域专业性强、结构关系复杂场景下的自动分类效果不佳。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特殊之处在于,所述处理器执行所述计算机程序时实现上述基于图注意力机制的专利多层级分类方法的步骤。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现上述基于图注意力机制的专利多层级分类方法的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (11)

1.基于图注意力机制的专利多层级分类方法,其特征在于,包括:
步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;
步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
步骤S3、图注意力机制编码:基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
2.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述标签定义树形数据结构的构建方法包括:
获取专利分类标准规范文档;
读取文档,得到标签以及对应的定义;
对各个标签的定义文本进行清洗、转换、补全和/或合并处理;
根据标签定义的层次化关系生成标签定义树形数据结构。
3.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述专利分类标准规范为国际专利分类、欧洲专利分类、美国专利分类或日本专利分类。
4.根据权利要求1所述的基于图注意力机制的专利多层级分类方法,其特征在于,记专利文本树形数据结构为
Figure QLYQS_1
,其中/>
Figure QLYQS_2
表示专利文本树形数据结构的顶点集合,/>
Figure QLYQS_3
表示专利文本树形数据结构的边集合;记标签定义树形数据结构为
Figure QLYQS_4
,其中/>
Figure QLYQS_5
为标签定义树形数据结构的顶点集合,/>
Figure QLYQS_6
为标签定义树形数据结构的边集合;则步骤S2具体包括:
Figure QLYQS_7
和/>
Figure QLYQS_8
合并为图/>
Figure QLYQS_9
,其中,/>
Figure QLYQS_10
表示图的顶点集合,
Figure QLYQS_11
表示图的边集合;
计算图中节点所对应的文本相似度,如果图中专利文本树形数据结构的节点与标签定义树形数据结构的节点所对应的文本相似度超过设定阈值,则通过在这两个节点之间添加一条边实现所述关联标记。
5.根据权利要求4所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述计算图中节点所对应的文本相似度包括分别基于VSM的相似度计算和基于Bert预训练模型的相似度计算,只要VSM和Bert预训练模型任一计算出的相似度大于0.9,则在对应节点之间添加一条边。
6.根据权利要求5所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述基于VSM的相似度计算,具体包括:
下载并安装python的jieba包,使用jieba包中的cut函数对文本进行分词,从nltk.corpus包加载中文停用词表,删除文本中的停用词,得到文本的特征项序列
Figure QLYQS_12
,其中m为词向量的维度;
对于每个特征词,计算其在文本中出现的频率
Figure QLYQS_13
、在文档集中出现的逆频率/>
Figure QLYQS_14
计算特征词的权重
Figure QLYQS_15
,其中tfi为该特征词在文本中出现的频率,idfi为该特征词在文档集中出现的逆频率;得到权重向量/>
Figure QLYQS_16
使用余弦相似度计算权重向量的相似度,作为文本的相似度。
7.根据权利要求5所述的基于图注意力机制的专利多层级分类方法,其特征在于,所述基于Bert预训练模型的相似度计算,具体包括:
使用Bert预训练模型对两个节点的文本进行编码表示,得到相应的句向量
Figure QLYQS_17
和 />
Figure QLYQS_18
,其中l为句向量的维度;再使用余弦相似度/>
Figure QLYQS_19
,计算句向量之间的相似度,作为文本的相似度。
8.根据权利要求7所述的基于图注意力机制的专利多层级分类方法,其特征在于,步骤S3中,图注意力机制编码的输入为步骤S2中基于Bert预训练模型得到的节点句向量,输出为图注意力机制编码后得到的特征向量,具体计算过程如下:
Figure QLYQS_22
为节点特征的集合,其中N为节点数目,/>
Figure QLYQS_26
为节点i编码所得的句向量,F为每个节点的特征数目,即句向量的维度;对特征作线性变换,其中线性变换的权重矩阵为/>
Figure QLYQS_30
,/>
Figure QLYQS_21
,/>
Figure QLYQS_24
为输出特征向量的维度;随机初始化/>
Figure QLYQS_28
;通过注意力机制/>
Figure QLYQS_32
,计算得到节点j对节点i的重要性/>
Figure QLYQS_20
;其中,/>
Figure QLYQS_27
为单层前馈神经网络,使用LeakyReLU作为激活函数,神经网络的参数向量为/>
Figure QLYQS_31
,那么
Figure QLYQS_34
,其中/>
Figure QLYQS_23
表示转置操作,||表示连接操作;为了保留图的结构信息,只计算与节点i相邻的节点对节点i的重要性,即/>
Figure QLYQS_25
为与节点i相邻的所有节点的集合;为了使不同节点的重要性具有可比性,使用softmax函数对j作归一化,得到注意力系数/>
Figure QLYQS_29
;将sigmod函数作用于整合后的注意力机制特征,得到节点i的输出特征/>
Figure QLYQS_33
9.根据权利要求7所述的基于图注意力机制的专利多层级分类方法,其特征在于,步骤S4中所述全连接神经网络分类器,其最后一层使用softmax激活函数,将每个类别的预测得分转化为概率输出;使用神经网络的概率输出以及真实标签类别的one-hot形式进行多分类交叉熵损失函数的计算;多分类交叉熵损失函数
Figure QLYQS_35
,其中n为样本数,K为标签类别总数,yic为真实标签的one-hot表示,如果样本i的真实类别为c则/>
Figure QLYQS_36
,否则/>
Figure QLYQS_37
;/>
Figure QLYQS_38
为神经网络输出的样本i属于类别c的预测概率;对于所述全连接神经网络分类器的训练,是采用有监督的模型训练方式,以多分类交叉熵损失函数为模型训练目标执行优化。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述基于图注意力机制的专利多层级分类方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述基于图注意力机制的专利多层级分类方法的步骤。
CN202310132411.5A 2023-02-20 2023-02-20 基于图注意力机制的专利多层级分类方法及计算机设备 Active CN115858793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310132411.5A CN115858793B (zh) 2023-02-20 2023-02-20 基于图注意力机制的专利多层级分类方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310132411.5A CN115858793B (zh) 2023-02-20 2023-02-20 基于图注意力机制的专利多层级分类方法及计算机设备

Publications (2)

Publication Number Publication Date
CN115858793A true CN115858793A (zh) 2023-03-28
CN115858793B CN115858793B (zh) 2023-05-09

Family

ID=85658375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310132411.5A Active CN115858793B (zh) 2023-02-20 2023-02-20 基于图注意力机制的专利多层级分类方法及计算机设备

Country Status (1)

Country Link
CN (1) CN115858793B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187419A (zh) * 2023-04-25 2023-05-30 中国科学技术大学 一种基于文本组块的层级体系自动构建方法
CN116304845A (zh) * 2023-05-23 2023-06-23 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法
CN116805059A (zh) * 2023-06-26 2023-09-26 重庆邮电大学 一种基于大数据的专利分类方法
CN117591969A (zh) * 2024-01-18 2024-02-23 知呱呱(天津)大数据技术有限公司 一种基于ipc标签共现的规则检核方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法
CN113468291A (zh) * 2021-06-17 2021-10-01 中国科学技术大学 基于专利网络表示学习的专利自动分类方法
CN113849655A (zh) * 2021-12-02 2021-12-28 江西师范大学 一种专利文本多标签分类方法
CN114254116A (zh) * 2021-12-30 2022-03-29 智慧芽信息科技(苏州)有限公司 文献资料文本分类方法、分类模型构建方法和分类装置
CN114461801A (zh) * 2022-02-07 2022-05-10 智慧芽信息科技(苏州)有限公司 专利文本分类号识别方法、装置、电子设备及存储介质
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115098673A (zh) * 2022-05-23 2022-09-23 北京计算机技术及应用研究所 基于变体注意力及层次结构的业务文书信息抽取方法
CN115221325A (zh) * 2022-07-25 2022-10-21 中国人民解放军军事科学院军事科学信息研究中心 一种基于标签语义学习和注意力调整机制的文本分类方法
CN115238076A (zh) * 2022-08-03 2022-10-25 江西理工大学 提高多层级专利文本分类效果的方法、设备及存储介质
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
WO2020207431A1 (zh) * 2019-04-12 2020-10-15 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法
CN113468291A (zh) * 2021-06-17 2021-10-01 中国科学技术大学 基于专利网络表示学习的专利自动分类方法
CN113849655A (zh) * 2021-12-02 2021-12-28 江西师范大学 一种专利文本多标签分类方法
CN114254116A (zh) * 2021-12-30 2022-03-29 智慧芽信息科技(苏州)有限公司 文献资料文本分类方法、分类模型构建方法和分类装置
CN114461801A (zh) * 2022-02-07 2022-05-10 智慧芽信息科技(苏州)有限公司 专利文本分类号识别方法、装置、电子设备及存储介质
CN115098673A (zh) * 2022-05-23 2022-09-23 北京计算机技术及应用研究所 基于变体注意力及层次结构的业务文书信息抽取方法
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115221325A (zh) * 2022-07-25 2022-10-21 中国人民解放军军事科学院军事科学信息研究中心 一种基于标签语义学习和注意力调整机制的文本分类方法
CN115238076A (zh) * 2022-08-03 2022-10-25 江西理工大学 提高多层级专利文本分类效果的方法、设备及存储介质
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187419A (zh) * 2023-04-25 2023-05-30 中国科学技术大学 一种基于文本组块的层级体系自动构建方法
CN116187419B (zh) * 2023-04-25 2023-08-29 中国科学技术大学 一种基于文本组块的层级体系自动构建方法
CN116304845A (zh) * 2023-05-23 2023-06-23 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法
CN116304845B (zh) * 2023-05-23 2023-08-18 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法
CN116805059A (zh) * 2023-06-26 2023-09-26 重庆邮电大学 一种基于大数据的专利分类方法
CN116805059B (zh) * 2023-06-26 2024-04-09 重庆邮电大学 一种基于大数据的专利分类方法
CN117591969A (zh) * 2024-01-18 2024-02-23 知呱呱(天津)大数据技术有限公司 一种基于ipc标签共现的规则检核方法及系统
CN117591969B (zh) * 2024-01-18 2024-04-05 北京知呱呱科技有限公司 一种基于ipc标签共现的规则检核方法及系统

Also Published As

Publication number Publication date
CN115858793B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN115858793A (zh) 基于图注意力机制的专利多层级分类方法及计算机设备
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
Liu et al. An adaptive graph model for automatic image annotation
CN110119765A (zh) 一种基于Seq2seq框架的关键词提取方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN116186350B (zh) 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN114638222B (zh) 自然灾害数据的分类方法及其模型训练方法、装置
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN113222059B (zh) 利用协作式神经网络链的多标签情感分类方法
CN114328924A (zh) 一种基于预训练模型结合句法子树的关系分类方法
CN114996442A (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231227

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Zhiguagua Technology Co.,Ltd.

Address before: 806A, Building 1, Sixin Building, South Side of Heiniucheng Road, Hexi District, Tianjin, 300221

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguagua Technology Co.,Ltd.

Country or region before: China