CN113822061A

CN113822061A - 一种基于特征图构建的小样本专利分类方法

Info

Publication number: CN113822061A
Application number: CN202110930745.8A
Authority: CN
Inventors: 华珉; 张琪祁; 齐晓曼; 黄兴德; 陆启宇; 罗祾; 李文清; 田浩毅; 赵三珊; 王琛; 肖浥青; 顾孙珺; 周菲; 陈帅琦; 谢琪; 夏飞
Original assignee: Shanghai Electric Power University; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai Electric Power University; State Grid Shanghai Electric Power Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-12-21
Anticipated expiration: 2041-08-13
Also published as: CN113822061B

Abstract

本发明公开了一种基于特征图构建的小样本专利分类方法，包括如下步骤：S1、获取专利文献的文本数据；S2、提取每篇专利文献的文本形式的关键词向量，构建词汇表；S3、根据词汇表构建多篇专利文献的专利特征图；S4、构建神经网络模型，通过专利特征图对神经网络模型进行训练，完成专利分类模型的构建。本发明的专利分类方法，在获得关键词向量后先构建词汇表；根据词汇表构建多篇专利文献的专利特征图；通过专利特征图构建训练集对对神经网络模型进行训练，实现专利分类模型的构建。本发明的专利分类方法，不需要大量该行业的专利文献数据集，同时分类准确率达80%；在小样本专利分类中具有较好的效果。

Description

一种基于特征图构建的小样本专利分类方法

技术领域

本发明涉及专利分析技术领域，尤其涉及一种基于特征图构建的小样本专利分类方法。

背景技术

专利文档具有很大的研究价值，如果能够精确地分析专利文献，将揭露重要的技术细节和关系，并以此说明技术和商业发展趋势，新颖的工业解决方案也将受到启发而被提出，从而做出至关重要的投资决策。所以必须认真分析专利文档，利用专利的价值。

现有的专利文献数量庞大，大规模的专利数量给专利审查、管理和分析挖掘带来了更加巨大挑战。

例如，专利分析是一个非常重大的任务，它需要大量的人力。一般来说，专利分析师需要在各种不同的研究领域有一定程度的专业知识，其中包括信息检索、数据处理、文本挖掘、特定领域的技术和商业智能。在现实生活中，在一个相对短的时间内很难找到和培养这样的分析师，使他能够胜任多学科的要求。专利分析的另一个挑战是专利文件往往是冗长的、包含大量的技术和法律术语。即使是领域专家，也需要大量的时间去阅读和分析单个专利文件。因此，在自动处理和分析专利文献中，专利分类扮演着一个重要的角色。

专利分类是专利挖掘的首要任务，可以使复杂的内容和类别更有序，从而准确地找到所需内容，它的目的是对专利文献进行有效的管理。对于大量专利文档的分类，人工分类的效率低下、耗费大量的时间和资源，而且分类结果差异性大，专利文献的自动分类可以提高效率，极大的缩短工作时间，缩减了人力、物力资源。

为了实现专利文献的自动分类，国内外许多学者展开了相关研究。从1968年9月1日第一版国际专利分类表（IPC）生效以来，许多国家的专利局均按国际专利分类表对专利文献进行统一分类，这为各国专利局审查员提供了一种方便有效的检索工具，同时也使公众能方便地获得技术和法律上的情报。

我国相较于一些发达国家，对于专利文献自动分类的研究起步较晚。

刘玉琴等在《基于IPC知识结构的专利自动分类方法》（计算机工程，2008，V34（3）：207-209）中提出了基于IPC知识结构的专利分类方法，利用IPC本身自带的分类知识对文本向量进行修正，采用层次分类的方法对专利文献分类，提高了专利分类的准确性。陈志雄等在《中文专利文献自动分类》（嘉应学院学报,2010,28(02):24-29）中采用KNN算法实现了一种中文专利文献自动分类系统，针对专利文献数据规模过大，分类效率低下的问题，采用修剪样本技术删除冗余样本，提高了分类器的效率。

马双刚在《基于深度学习理论与方法的中文专利文献自动分类研究》（江苏大学,2016）中指出随着计算机科学的发展，使得计算机处理信息的能力的大大增强，为专利文献的自动分类提供了基础，并设计了一个基于深度学习理论的中文专利自动分类方法，相较于经典算法取得了更优的分类效果，该方法的不足之处是需要大量的专利文献数据集才能提高分类准确率。

吕璐成等在《基于深度学习的中文专利自动分类方法研究》中基于Word2Vec、CNN、RNN、Attention机制等深度学习技术，融合能够对专利文献向量进行双向序列建模的BiGRU模型，设计了7种深度学习模型，以中国专利为例，选取IPC主分类号的“部”作为分类依据，通过对比实验得到当采用Word2Vec+BiGRU+TextCNN分类模型时分类效果最佳，可以达到82.2%的准确率。我国专利文献逐日递增，对专利文献分类的标准也更加细致化，但目前已有的专利自动分类方法应用到特定行业时分类效果不佳，想要达到较为理想的分类效果时，需要大量该行业的专利文献数据集。

发明内容

为了解决上述现有技术的不足，本发明提供一种基于特征图构建的小样本专利分类方法。

本发明所要解决的技术问题通过以下技术方案予以实现：

一种基于特征图构建的小样本专利分类方法，包括如下步骤：

S1、获取专利文献的文本数据；

S2、提取每篇专利文献的文本形式的关键词向量，将多篇专利的关键词去重后构建词汇表；

S3、根据词汇表构建多篇专利文献的专利特征图；

S4、构建神经网络模型，通过专利特征图对神经网络模型进行训练，完成专利分类模型的构建。

本申请所提供的小样本专利分类方法，所述步骤S3中，根据词汇表构建每篇专利文献的专利特征图的方法包括以下步骤：

S31、统计词汇表中的关键词在每篇专利文献中出现的频次，每统计一篇专利文献得到一个数组；

S32、统计完成多篇专利并获得多个数组；

S33、对每个数组进行矩阵转换获得相应专利文献的专利特征图；

S34、获得全部专利文献的专利特征图。

本申请所提供的小样本专利分类方法，所述步骤S33中：

将每个数组中的数据，按顺序依次存入28*28的矩阵；

将矩阵中的数据进行归一化；

将矩阵中的数据分别乘以255，并将得到的矩阵转换成图片，获得专利特征图。

本申请所提供的小样本专利分类方法，所述神经网络模型为CNN分类模型。

本申请所提供的小样本专利分类方法，所述CNN分类模型包括依次连接的输入层、隐含层、全连接层、和输出层；所述隐含层由多个卷积层与池化层交叉堆叠而成；

所述输入层用于输入专利特征图数据集；

所述隐含层通过卷积层与池化层对特征图构建的数据集进行特征向量提取；

所述全连接层将隐含层得到的特征向量连在一起后形成一维向量；

所述输出层通过分类器对一维向量进行分类。

本申请所提供的小样本专利分类方法，所述全连接层设置有1024个神经元；所述隐含层包括：

第一层卷积层，感受视野5*5，步长为1,卷积核32；

第一层池化层，池化视野2*2，步长为2；

第二层卷积层，感受视野5*5，步长为1，卷积核64个；

第二层池化层，池化视野2*2，步长为2。

本申请所提供的小样本专利分类方法，所述步骤S4中，选取一部分专利特征图作为训练集，选取另一部分专利特征图作为测试集。

本申请所提供的小样本专利分类方法，所述步骤S2中，在专利文献的摘要、或权利要求书中提取关键词向量。

本申请所提供的小样本专利分类方法，所述的小样本专利分类方法，其特征在于，所述步骤S2中，通过TF-IDF提取专利文献的关键词向量，在每篇专利文献中提取出N个关键词，并以向量形式表示，得到文本形式的关键词向量。

本申请所提供的小样本专利分类方法，所述步骤S1中，获取PDF格式的专利文献后，将PDF格式转换为图片，再通过OCR模块对图片进行文字识别得到专利文献数据。

本发明具有如下有益效果：

本发明的专利分类方法，在获得关键词向量后先构建词汇表；再根据词汇表构建多篇专利文献的专利特征图；通过专利特征图构建训练集对对神经网络模型进行训练，实现专利分类模型的构建。本发明的专利分类方法，不需要大量该行业的专利文献数据集，同时分类准确率达80%；在小样本专利分类中具有较好的效果。

附图说明

图1是本发明的一种专利特征图的构建流程图；

图2是本发明的一种基于专利特征图的CNN分类模型；

图3是本发明实施例1中的新能源专利的特征图；

图4是本发明对比例1中的新能源专利的专利关键词向量化表示图。

具体实施方式

下面结合附图和实施例对本发明进行详细的说明。

本申请具体实施例提供了一种基于特征图构建的小样本专利分类方法，包括如下步骤：

S1、获取专利文献的文本数据；

S3、根据词汇表构建多篇专利文献的专利特征图；

在步骤S1中，可以通过多种途径获取专利文献的文本数据。如果有条件，可以直接获得。但是在一些情况下，只能获得PDF格式的专利文献。本申请可在获取PDF格式的专利文献后，先将PDF格式转换为图片，再通过OCR模块对图片进行文字识别，最后提取识别的文字，并将识别内容提取到特定格式的文档中，例如txt文档中，从而转换得到专利文献的文本数据。

在获得专利文献的文本数据后，还可以进行专利文献中核心信息的提取。专利文献中核心信息可包括：公告号，名称，申请日，公告日，专利权人，发明人，摘要等。可将专利文献中核心信息提取到Excel中，以便于后续的分析与处理。

一篇专利文献是发明内容的重点内容都出现在专利的摘要中，因此在步骤S2中，可在专利文献的摘要中提取关键词，用于表征专利的基本特征。或者，由于权利要求书集中了专利的核心保护内容，因此，还可以在专利文献的权利要求书中提取关键词向量。以下仅以在专利文献的摘要中提取关键词为例进行说明。

本申请具体实施例，在步骤S2中，通过TF-IDF提取专利文献的关键词向量，在每篇专利文献中提取出N个关键词，并以向量形式表示，得到文本形式的关键词向量。此时每篇专利文献都对应一个文本形式的关键词向量，用于表征该专利的特征。可将所有专利摘要中提取出的关键词组合，去重后构建关键词词汇表；关键词词汇表例如为vocab.txt。

在获得专利文献的文本形式的关键词向量后，可以直接构建训练集对神经网络模型进行训练。但是发明人发现通过这种方法对神经网络模型后构建的专利分类模型，在测试时分类准确率为60%，因此准确率较低。

为了进一步改善，本申请所提供的小样本专利分类方法，所述步骤S3中，根据词汇表构建每篇专利文献的专利特征图的方法包括以下步骤：

S32、统计完成多篇专利并获得多个数组；

S34、获得全部专利文献的专利特征图。

在步骤S31中，读取关键词词汇表vocab.txt并存入列表list，去除列表list中的换行符，然后开始统计词汇表中的关键词词汇在专利摘要中出现的次数。具体的，将词汇表中的关键词依次对应回每个专利文献的摘要中，统计词汇表中的特征关键词在各个专利摘要中出现的频次，得到对应数组。

当统计完成多篇专利并获得多个数组后，在步骤S33中：

将数组转换成28*28的矩阵，具体的，将每个数组中的数据，按顺序依次存入28*28的矩阵；

将矩阵中的数据进行归一化；

将矩阵转换为图片，具体的，将矩阵中的数据分别乘以255，并将得到的矩阵转换成图片，获得专利特征图；

循环统计直到得到所有专利的特征图。

上述专利特征图的构建流程如图1所示。

神经网络包括但不局限于DNN (深度神经网络)、CNN(卷积神经网络)、RNN(循环神经网络)等神经网络结构。优选的，本申请具体实施例的神经网络模型为CNN分类模型。

CNN分类模型包括依次连接的输入层、隐含层、全连接层、和输出层。隐含层由多个卷积层与池化层交叉堆叠而成，可有多层卷积层与多层池化层交叉堆叠而成。

其中，输入层用于输入专利特征图数据集。

其中，隐含层通过卷积层与池化层对特征图构建的数据集进行特征向量提取。

其中，全连接层将隐含层得到的特征向量连在一起后形成一维向量。

其中，输出层通过分类器对一维向量进行分类。

在一个优选的具体实施方案中，上述CNN分类模型，所述隐含层包括：第一层卷积层、第一层池化层、第二层卷积层、第二层池化层。其全连接层设置有1024个神经元。

如图2所示，CNN分类模型包括输入层（10）；第一层卷积层（20），感受视野5*5，步长为1,卷积核32；第一层池化层（30），池化视野2*2，步长为2；第二层卷积层（40），感受视野5*5，步长为1，卷积核64个；第二层池化层（50），池化视野2*2，步长为2；全连接层（60）；和输出层（70）。

步骤S4中，选取一部分专利特征图作为训练集，选取另一部分专利特征图作为测试集。

在应用中，可选取适当数量专利文献组建数据集，并对数据集进行处理，避免数据集出现不同类别间数据量差距过大，导致数据集失衡，影响分类效果。然后，再适当调整CNN分类模型参数，例如，选取已标注数据集的80%作为训练集输入特征图构建的数据集进行训练。最后将剩余的数据集作为测试集，测试分类效果。如果测试集的准确率达到要求，该专利分类模型构建完成。

专利分类模型构建完成后，根据专利分类模型的输出，可对专利文献的分类类别进行确认。

本发明的专利分类方法，在获得关键词向量后先构建词汇表；再根据词汇表构建多篇专利文献的专利特征图；通过专利特征图构建训练集对对神经网络模型进行训练，实现专利分类模型的构建。本发明的专利分类方法，不需要大量该行业的专利文献数据集；传统专利分类，想要达到理想的分类效果，需要成千上万的专利文献样本对模型进行训练；而本发明提出的基于专利特征图的分类方法，只需要100-300条专利文献即可达到较为理想的分类效果。同时，本发明的基于专利特征图的分类方法，分类准确率达80%；在小样本专利分类中具有较好的效果。

实施例1

下面以新能源方面的专利分类具体说明以上步骤。

发明实施例1 通过专利特征图对新能源专利进行分类。这里把新能源类专利共分为四个类别：类别1为新能源电力系统感知；类别2为新能源“源网”协调；类别3为新能源发电送集汇出；类别4为新能源消纳与交易。

（1）新能源专利文献文本数据的获取

通过网络获取PDF格式的新能源专利文献，将获取到的PDF格式新能源专利文献，转换成图片。再通过OCR模块，将图片中文本内容识别出后，存入txt文档中，完成不可编辑文本到可编辑文本的转换。该txt文档即专利文献的文本数据。

（2）新能源专利核心信息的获取

将上述txt文档中的新能源专利核心信息提取到了Excel中，具体的提取方法为：

①输入OCR识别新能源专利后生成的txt文本；②创建用于存储核心信息的Excel；③通过循环语句对txt文本按行切割；④判断文本切割位置是否为汉字，是的话继续判断切割位置是否占有多行，如果占有多行需要去除文本行与文本行之间的空格符；⑤判断文本切割位置是否为关键信息，是的话写入Excel，不是的话继续判断下一切割位置，直到循环提取出所有的关键信息。

（3）新能源专利关键词的提取及向量化，构建词汇表

通过TF-IDF提取新能源专利摘要中的关键词，每篇专利文献提取出10个关键词，并以向量形式表示，即文本形式的关键词向量；此时每条专利都对应一个文本形式的关键词向量，用于表征该专利的特征。将所有新能源专利摘要中提取出的关键词组合，去重后存入vocab.txt，构建词汇表。

例如，获取的新能源专利文献小样本数量为175个。实施例中构建的词汇表共计784个关键词，标注的专利文献小样本数量共计175条，其中类别1、类别2、类别3各50条，类别4有 25条。

（4）新能源专利特征图的构建

将784个关键词依次对应到专利摘要中，分别统计784个关键词在每篇专利文献中出现的频次，每统计一篇专利文献得到一个数组；统计完成175篇专利文献后，可得到175组1*784大小的数组；将175组数组依次进行矩阵转换，将每个数组中的数据，按顺序依次存入28*28的矩阵，转换成28*28的矩阵；将矩阵中的数据进行归一化；将矩阵中的数据分别乘以255，并将得到的矩阵转存成图片，最终得到175个新能源专利的专利特征图数据集。

在图3 新能源专利特征图示例中，从左到右依次为四个类别的专利特征图：类别1-新能源电力系统感知，类别2-新能源“源网”协调，类别3-新能源发电送集汇出，和类别4-新能源消纳与交易。

（5）新能源专利分类模型的构建

构建CNN分类模型，从专利特征图数据集中选取140张特征图作为训练集，选取30张特征图为测试集。调整CNN分类模型参数，训练分类模型。再通过测试集对CNN分类模型进行测试，得到分类准确率为80%。

（6）新能源专利分类类别的确认

将剩余的5张特征图，再送入步骤（5）训练好的分类模型进行分类。利用该分类模型，可以将5个专利中的4个正确分类，可见本发明提出的方法在在小样本专利分类中具有较好的效果。

对比例1

对比例1 通过文本CNN对新能源专利进行分类。

本对比例中前三个过程同实施例1中步骤（1）、（2）、（3）三步相同，获得关键词向量，并获得词汇表vocab.txt。

（4）专利文本向量化

在对比例1中得到词汇表vocab.txt后，这里采用dict函数为词汇表中的关键词编码，并将文本形式的关键词向量中的关键词，转换为对应的编码；此时的文本关键词向量就转换成了数字形式的关键词向量，如图4所示。同时采用one-hot的编码方式，将已标注的标签转换为one-hot的编码方式，完成文本到向量的转换。

（5）新能源专利分类模型的构建

前面已经完成了数据的预处理工作，将预处理好的数据中的140条作为训练集，30条数据作为测试集。通过训练得到CNN分类模型，经测试得到准确率为60%。

（6）新能源专利类别的确认

通过对已标注好的数据进行训练与测试，并通过多次修改参数进行调试，最终准确率可以达到61.29%。

将剩余的5个专利，依据步骤1-步骤4，得到特征向量，再送入步骤5训练好的分类模型进行分类。利用该分类模型，可以将5个专利中的3个正确分类，可见该对比方法中专利分类的准确率要低于本发明提出的方法。

本发明具有如下有益效果：

显然，以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利保护范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于特征图构建的小样本专利分类方法，其特征在于，包括如下步骤：

S1、获取专利文献的文本数据；

S2、提取每篇专利文献的文本形式的关键词向量，构建词汇表；

S3、根据词汇表构建多篇专利文献的专利特征图；

2.如权利要求1所述的小样本专利分类方法，其特征在于，所述步骤S3中，根据词汇表构建每篇专利文献的专利特征图的方法包括以下步骤：

S32、统计完成多篇专利并获得多个数组；

S34、获得全部专利文献的专利特征图。

3.如权利要求2所述的小样本专利分类方法，其特征在于，步骤S33中：

将每个数组中的数据，按顺序依次存入28*28的矩阵；

将矩阵中的数据进行归一化；

4.如权利要求1所述的小样本专利分类方法，其特征在于，所述神经网络模型为CNN分类模型。

5.如权利要求4所述的小样本专利分类方法，其特征在于，所述CNN分类模型包括依次连接的输入层、隐含层、全连接层、和输出层；所述隐含层由多个卷积层与池化层交叉堆叠而成；

所述输入层用于输入专利特征图数据集；

所述输出层通过分类器对一维向量进行分类。

6.如权利要求5所述的小样本专利分类方法，其特征在于，所述全连接层设置有1024个神经元；所述隐含层包括：

第一层卷积层，感受视野5*5，步长为1,卷积核32；

第一层池化层，池化视野2*2，步长为2；

第二层卷积层，感受视野5*5，步长为1，卷积核64个；

第二层池化层，池化视野2*2，步长为2。

7.如权利要求1所述的小样本专利分类方法，其特征在于，所述步骤S4中，选取一部分专利特征图作为训练集，选取另一部分专利特征图作为测试集。

8.如权利要求1所述的小样本专利分类方法，其特征在于，所述步骤S2中，在专利文献的摘要、或权利要求书中提取关键词向量。

9.如权利要求8所述的小样本专利分类方法，其特征在于，所述步骤S2中，通过TF-IDF提取专利文献的关键词向量，在每篇专利文献中提取出N个关键词，并以向量形式表示，得到文本形式的关键词向量。

10.如权利要求1所述的小样本专利分类方法，其特征在于，所述步骤S1中，

获取PDF格式的专利文献后，将PDF格式转换为图片，再通过OCR模块对图片进行文字识别得到专利文献数据。