CN109190112B

CN109190112B - 基于双通道特征融合的专利分类方法、系统及存储介质

Info

Publication number: CN109190112B
Application number: CN201810906764.5A
Authority: CN
Inventors: 余本功; 张培行; 贺铃岚; 曹雨蒙; 范招娣; 张宏梅
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2022-12-06
Anticipated expiration: 2038-08-10
Also published as: CN109190112A

Abstract

本发明实施方式提供一种基于双通道特征融合的专利分类方法、系统及存储介质，属于专利文档分类技术领域。所述专利分类方法包括：读取需要被分类的专利文档，将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量，以生成word2vec词向量序列和POS词性向量序列；对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量；采用全连接层将所述第一句向量映射为第二句向量，其中，所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等；采用softmaxt分类层对所述第二句向量进行归一化处理。

Description

基于双通道特征融合的专利分类方法、系统及存储介质

技术领域

本发明涉及专利文档分类技术领域，具体地涉及一种基于双通道特征融合的专利分类方法、系统及存储介质。

背景技术

近年来，科技创新越来越引起人们的重视，而专利作为创新的重要记录载体，也呈现出爆炸增长的态势。面对如此海量的专利数据，通过人工分类需要巨大的人力成本，处理效率无法满足实际需要。因此，专利的自动分类方法研究的重要性日渐突显，已成为现阶段一个重要的研究热点问题。目前，专利分类研究多采用IPC分类体系，IPC分类是一种层次结构分类体系，包括部、大类、小类、组等层次，是世界上使用较多普遍认可的一种分类体系。目前，相关研究者通过机器学习来处理专利自动分类问题，通过进行文本分析，提取文本中关键的特征词，并结合机器学习分类器完成分类，取得不错的效果。最近几年，深度学习在自然语言处理领域取得了很好的效果，且端到端的处理流程更能满足专利自动分类的需要，使用深度学习模型实现专利的自动分类是一种较好的解决思路.

李生珍等对文本进行分词并提取特征词，将专利文本映射成特征向量，并使用BP神经网络构建分类器，马芳等使用径向基函数神经网络构建分类模型，并设计了专利自动分类系统。相比于普通文本，专利文本具有其自身的殊性，有针对的构建分类器，更能适应专利自动分类的需要。屈鹏等认为专利文本有较明显的专业特征，使用专业术语构建特征能提高专利分类的效果。基于向量空间模型的分类方法，忽略了词语间的语义信息，廖列法等认为用主题代替传统的向量空间模型，在构建分类器时考虑到了语义信息。

深度学习近些年的飞速发展，为自然语言处理很多问题提供了新的解决思路，尤其在文本分类问题上表现出良好的性能。一些学者通过自动编码机来处理特征，提取出文本中深层次的信息，受此启发，马双刚将自动编码机应用在专利自动分类中，并取得了不错的效果。目前相关研究者对专利自动分类的研究多集中在特征提取和处理上，而端到端和深度神经网络可以摆脱特征工程的束缚，更适合大量专利数据自动分类的需要。在深度学习模型中，首先要进行word2vec词向量训练，将词映射成一个低维的向量，解决了传统词袋模型词向量维度过大的难题，且word2vec向量的训练过程结合了词的上下文内容，包含了词的语义信息，在深度学习研究中应用较多。Kim等使用卷积神经网络构建文本分类器，提取文本深层次的特征，不需要人工干预，相比于传统人工提特征的方法，更高效快捷，在分类效果上也更优于传统方法。一些研究者认为，卷积神经网络有着局部联接的特点，所以在提取特征的过程中，会忽略文本的结构特征，而LSTM(Long Short-Term Memory，长短期记忆网络)和GRU(Gated Recurrent Unit)等循环神经网络模型是一种序列模型，更适合文本特征的提取。王树恒等使用双向的LSTM模型对文本情感进行分类，通过实验LSTM获得了比CNN更好的分类准确率。李雪莲等通过对比实验分析了LSTM和GRU模型结构和性能，并指出GRU模型继承了LSTM自动学习的功能，但其结构更为简单，大大缩短了模型训练时间，更适合大量文本数据的研究应用。深度学习方法应用在舆情发现、情感分析等方面取得了很好的成绩，而鲜有研究者将深度学习方法用于专利自动分类领域。

发明内容

本发明实施方式的目的是提供一种基于双通道特征融合的专利分类方法、系统及存储介质，该专利分类方法、系统及存储介质通过提出双通道特征融合的方式来对专利文档进行分类，提高了专利文档的分类效率。

为了实现上述目的，本发明实施方式提供一种基于双通道特征融合的专利分类方法，该专利分类方法可以包括：

读取需要被分类的专利文档，将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS(Partof Speech)词性向量，以生成word2vec词向量序列和POS词性向量序列；

对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量；

采用全连接层将所述第一句向量映射为第二句向量，其中，所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等；

采用softmaxt分类层对所述第二句向量进行归一化处理。

可选地，所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括：

根据词序分别将所述word2vec词向量序列和所述POS词性向量序列输入GRU序列层中，以使得所述GRU序列层分别对所述word2vec词向量序列和所述POS词性向量序列进行语义计算；

对经过语义计算后的所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一句向量。

根据词序将所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一词向量序列；

采用GRU序列层对所述第一词向量序列进行语义计算以生成第一句向量。

本发明的另一方面还提供一种基于双通道特征融合的专利分类系统，所述专利分类系统包括：

映射层，用于读取需要被分类的专利文档，将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量，以生成word2vec词向量序列和POS词性向量序列；

处理层，用于对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量；

全连接层，用于将所述第一句向量映射为第二句向量，其中，所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等；

softmaxt分类层，用于对所述第二句向量进行归一化处理。

可选地，所述处理层包括：

GRU序列层，用于对所述word2vec词向量序列和所述POS词性向量序列进行语义计算；

融合层，用于对经过语义计算后的所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成所述第一句向量。

可选地，所述处理层包括：

融合层，用于根据词序将所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一词向量序列；

GRU序列层，用于对所述第一词向量序列进行语义计算以生成所述第一句向量。

本发明的再一方面还提供一种存储介质，所述存储介质存储有指令，所述指令用于被计算机读取以使得所述计算机执行上述所述的专利分类方法。

通过上述技术方案，本发明提供的基于双通道特征融合的专利分类方法、系统及存储介质将专利文档的说明书摘要的词句映射为word2vec词向量和POS词性向量，并进一步采用GRU序列层、融合层将该word2vec词向量和POS词性向量进行处理和拼接，从而生成第一句向量；最后采用全连接层对该第一句向量进行进一步处理以生成第二句向量，并采用softmaxt分类层对该第二句向量进行进一步地归一化计算，从而生成指示专利文档类别和概率的词向量，解决了现有技术中专利分类方法分类效率不高的问题，提高了专利分类的精准度和效率。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是根据本发明的一个实施方式的基于双通道特征融合的专利分类方法的流程图；

图2是根据本发明的一个实施方式的基于双通道特征融合的专利分类系统的结构框图；

图3是根据本发明的一个实施方式的基于双通道特征融合的专利分类系统的结构示意图；

图4是根据本发明的一个实施方式的基于双通道特征融合的专利分类系统的结构示意图；以及

图5是根据本发明的一个实施方式的用于训练POS-GRU模型的训练方法的流程图。

具体实施方式

以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施方式，并不用于限制本发明实施方式。

如图1所示是根据本发明的一个实施方式的基于双通道特征融合的专利分类方法的流程图。在图1中，该专利分类方法可以包括：

在步骤S10中，读取需要被分类的专利文档，将专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量，以生成word2vec词向量序列和POS词性向量序列。考虑到专利文档中的每个文件均包括专利的权利要求书、说明书摘要、说明书、说明书附图和摘要附图。说明书由于记载的是专利的技术方案的全部技术特征，其篇幅一般较长。因此，对说明书内容的处理过程相对复杂，并且处理时间也相对更久，所以，这种方式不利于该专利分类方法的实施。专利文件中的说明书摘要记载的是技术方案的核心内容，其中包括该专利所在的领域和技术方案的简介，并且，说明书摘要的篇幅一般小于300字，处理起来相对简单。因此，以说明书摘要作为该专利分类方法的基础依据可以提高该专利分类方法的实施效率。

在本发明的一个示例中，可以采用如图2、3或4所示出专利分类系统的映射层10执行该步骤S10。该映射层10可以包括第一映射层通道和第二映射层通道，该第一映射层通道包括一word2vec模型，该word2vec模型可以用于从说明书摘要中提取word2vec词向量。第二映射层通道用于从说明书摘要中获取POS词性向量。以说明书摘要所包含的语句“保证加强板刚性结构，使其具有良好的承载能力和抗机械冲击能力”为例。在对该语句进行处理时，语句中的“保证、加强板”等词可以被该映射层10映射为word2vec词向量序列。由于“保证”为动词，在该示例中，可以将动词记为v；由于“加强板”为名词，在该示例中，可以将名词记为n。所以，相对于该word2vec词向量序列，POS词性向量序列即被该映射层10映射为v、n对应的onehot编码。

在步骤S11中，对word2vec词向量序列和POS词性向量序列进行处理以生成第一句向量。在本发明的一个实施方式中，该步骤S11可以采用如图3所示出的专利分类系统的GRU序列层21和融合层22来执行。

在图3中，根据词序(专利文档中的词句的顺序)分别将word2vec词向量序列和POS词性向量序列输入专利分类系统的GRU序列层21中，以使得GRU序列层21分别对word2vec词向量序列和POS词性向量序列进行处理。在本发明的一个示例中，该GRU序列层21可以包括第一GRU通道和第二GRU通道，该第一GRU通道和第二GRU通道均可以包括多个子层，每个子层可以包括多个GRU单元。该第一GRU通道用于输入word2vec词向量序列并对该word2vec词向量序列进行语义计算。其中，位于第一GRU通道的首个子层的GRU单元用于对输入的word2vec词向量序列进行语义计算；位于中间层的GRU单元用于对前一层的GRU单元处理后的word2vec词向量序列进行进一步地语义计算；位于底层(最后一个子层)的多个GRU单元中的最后一个用于输出经过该GRU序列层处理(语义计算)后的word2vec词向量序列(句向量)。第二GRU通道用于输入POS词性向量序列并对该POS词性向量序列进行语义计算。其中，位于第二GRU通道的首个子层的GRU单元用于对输入的POS词性向量序列进行语义计算；位于中间层的GRU单元用于对前一层的GRU单元处理后的POS词性向量序列进行进一步地语义计算；位于底层(最后一个子层)的多个GRU单元中的最后一个用于输出经过该GRU序列层处理(语义计算)后的POS词性向量序列(句向量)。此外，为了便于对两者进行进一步地处理，第一GRU通道在对word2vec词向量序列进行语义计算时，在word2vec词向量序列中的每个词向量后增加数字标记01；第二GRU通道在对POS词性向量序列进行语义计算时，在POS词性向量序列中的每个词向量后增加数字标记02。

采用融合层22对处理后的word2vec词向量序列和POS词性向量序列进行拼接以生成第一句向量。鉴于GRU序列层的第一GRU通道和第二GRU通道分别在处理后的word2vec词向量序列和POS词性向量序列中增加数字标记01和数字标记02，该融合层22可以进一步根据该数字标记对经过语义计算后的word2vec词向量序列和POS词性向量序列进行拼接，以生成第一句向量，并在该第一句向量中增加数字标记0。

在本发明的另一个实施方式中，该步骤S11也可以采用如图4所示的专利分类系统的融合层22和GRU序列层21来执行。

在图4中，融合层22根据词序将word2vec词向量序列和POS词性向量序列进行拼接以生成第一词向量序列，GRU序列层21对第一词向量序列进行语义计算以生成第一句向量。由于该图4中示出的专利分类系统与图3中示出的专利分类系统的工作方式类似，故此处不再赘述。

在步骤S12中，采用全连接层30将第一句向量映射为第二句向量。其中，专利文档的类别的数量、全连接层30的节点的数量和第二句向量的维度相等。在该实施方式中，该步骤S12可以采用如图2、3或图4所示出的专利分类系统的全连接层30来执行。在图2、图3或图4中，以该专利文档包括n个类别，该全连接层的节点数为n为例，该全连接层30通过对该n个节点对该n个类别进行处理，从而将该第一句向量映射为维度为n的第二句向量。

在步骤S13中，采用softmaxt分类层40对第二句向量进行归一化处理。在该实施方式中，该步骤S13可以例如通过如图2、图3或图4所示出的softmaxt分类层40来执行。该softmaxt分类层40通过对该第二句向量进行进一步地归一化计算，使得第二句向量中的每个元素均可以代表一个专利的类别和出现该类别的概率。从而便于对专利文档的分类。

本发明的另一方面还提供一种基于双通道特征融合的专利分类系统。如图2所示，该专利分类系统可以包括映射层10、处理层20、全连接层30和softmaxt分类层40。

映射层10可以用于读取需要被分类的专利文档，将专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量，以生成word2vec词向量序列和POS词性向量序列。

处理层20可以用于对word2vec词向量序列和POS词性向量序列进行处理以生成第一句向量。

在本发明的一个实施方式中，如图3所示，该处理层可以包括GRU序列层21和融合层22。在图3中，GRU序列层21可以用于对word2vec词向量序列和POS词性向量序列进行语义计算。融合层22可以用于对经过语义计算后的word2vec词向量序列和POS词性向量序列进行拼接以生成第一句向量。

在本发明的另一个实施方式中，如图4所示，该处理层可以包括融合层22和GRU序列层21。在图4中，融合层22可以用于根据词序将word2vec词向量序列和POS词性向量序列进行拼接以生成第一词向量序列。GRU序列层21可以用于对该第一词向量序列进行语义计算以生成第一句向量。

在图2中，全连接层30可以用于将处理层20生成的第一句向量映射为第二句向量。其中，专利文档的类别的数量、全连接层30的节点的数量和第二句向量的维度相等.

softmaxt分类层40可以用于对第二句向量进行归一化处理。

本发明的再一方面还提供一种存储介质，存储介质存储有指令，指令用于被计算机读取以使得计算机执行上述的专利分类方法。

此外，本发明提供的基于双通道特征融合的专利分类系统(POS-GRU模型)在对专利文档进行分类前，需要通过训练集文本进行训练，如图5所示，该训练过程可以如下的算法流程：

在步骤S20中，初始化POS-GRU模型的各个参数。

在步骤S21中，向该POS-GRU模型输入训练集。在该实施方式中，该训练集可以是根据该POS-GRU模型需要解决的实际技术问题来确定。在本发明的一个示例中，在该POS-GRU模型需要对专利文档进行分类时，该训练集可以是多个预先下载的专利文档的集合。

在步骤S22中，从该训练集中读取一个样本并输入模型(POS-GRU模型)。在本发明的一个示例中，该样本可以是例如该集合中的一篇专利文档。

在步骤S23中，计算该POS-GRU模型的输出结果与该样本的标准值的差值。

在步骤S24中，根据该差值计算该POS-GRU模型的各个参数的梯度。

在步骤S25中，根据该计算出的梯度值更新该POS-GRU模型的各个参数。

在步骤S26中，判断未被读取的样本的数量是否为0，在判断未被读取的样本的数量不为0的情况下，返回执行步骤S22。

在步骤S27中，在判断未被读取的样本的数量为0的情况下，计算该训练后的POS-GRU模型的训练误差。在本发明的一个示例中，计算该训练误差的方式可以是例如将以预设的样本输入该POS-GRU模型中。计算该POS-GRU模型的输出结果与预设的样本的标准值的差值，该差值即为该训练误差。

在步骤S28中，判断该训练误差是否小于预设的阈值。在判断该训练误差不小于预设的阈值的情况下，返回执行步骤S21。

在步骤S29中，在判断该训练误差小于预设的阈值的情况下，输出训练后的POS-GRU模型。在该实施方式中，该阈值可以是根据需要得到的POS-GRU模型的计算精度来确定。

通过上述方法训练出的专利分类系统，为了验证其在专利分类时的可行性，在本发明的一个实施方式中，可以通过对该分类结果的精度、准确率、召回率和F1值来评价。

分类结果的精度可以采用公式(1)表示，

其中，accrucy表示精度，TN表示正确分类的文件的数量，AN表示被分类的专利文档的总数量。

分类结果中，在一个类别内，被正确分类至该类别的文件的数量占该类的文件的总数量的比例可以称为准确率，在该实施方式中，可以采用公式(2)表示该准确率，

其中，precision表示准确率，TP表示被正确分类至该类别的文件的数量，FP表示实际属于该类别，但是被错误分类的文件的数量。

召回率可以为实际属于一个类别并且被正确预测为该类别的文件的数量占该类别实际包括的文件的总数量的比例，因此可以采用公式(3)表示该召回率，

其中，recall表示召回率，TP表示实际属于该类别并且被正确预测为该类别的文件的数量，FN表示实际属于该类别但是未被预测至该类别的文件的数量。

对于F1值，可以采用公式(4)表示，

实施例1.

以包括5个类别且每个类别包含2000篇专利的公开文本作为实验对象(需要被分类的专利文档)，采用本发明提供的专利分类方法或系统进行分类。

在该实施例中，可以采用jieba分词工具对专利文档的说明书摘要进行分词。该分词工具的标注标准可以为中科院计算所的标注集，该标注集较为全面，能为自然语言处理相关工作提供辅助，在相关研究中使用较多。对词性标注内容进行onehot编码，编码成长度为50的向量，如形容词a标注为[0,0,1,0,0,…]，其中a对应向量中第三个位置。

在该实施例中，映射层可以包括一预先训练好的word2vec模型，该word2vec模型可以用于将说明书摘要中的词句转换成word2vec词向量序列。在对该word2vec模型进行训练时，因word2vec模型训练需要大文本语料集。在该示例中，可以将维基百科文本和专利文本进行组合，其中维基百科文本为网络公开数据，大小约1.3G，专利数据共10000条。通过组合，既满足大文本语料的要求，也包含了领域信息，从而保证了对word2vec模型的训练效果。最后使用该word2vec模型将专利文档中的词映射成100维向量。

为验证该专利分类方法的有效性，采用本发明的提供的专利分类方法或专利分类系统对该实施例中的专利文档进行分类，并同时采用专利分类中常用的NB(朴素贝叶斯)、SVM(支持向量机)、NN(神经网络)、RF(随机森林)对该专利文档进行分类以设计对比试验。此外，为了验证该专利分类系统(POS-GRU模型)相比于仅包括一个通道(GRU)的单通道模型的优势。在该实施例中，可以将word2vec词向量序列和POS词性向量序列分别单独输入到单通道模型中，作为单通道模型的对比实验。此外，考虑到不同词性的重要程度不同，该实施例使用仅名词、仅形容词、仅动词的词向量训练单通道模型，最终评价结果如表1所示，

表1

通过对比实验，可以看出在传统分类模型中，神经网络表现最好，分类精度为0.92；单通道特征(word2vec)的分类精度为0.95，相比传统的分类模型提升较大；对于单通道模型，若仅使用名词训练，分类精度为0.91；仅使用动词训练，分类精度为0.81；而仅使用形容词训练，分类精度仅为0.53；由此说明不同词性的词对分类的贡献是不同的，名词包含的信息量最大。在五分类实验中，随机值为0.2，说明使用词性特征包含了较多的语义信息，本发明提供的专利分类系统的分类精度在0.974，能够完成专利文本自动分类任务。从F1的值来看，本发明提供的专利分类系统相比传统方法和单通道模型也有较大提升。

此外，对于该实施例的配置环境：处理器的型号可以为Intel(R)Core(TM)i5-7300HQ CPU；内存可以为8GB；显卡可以为NVIDIA GeForce GTX 1050；编程语言可以为Python 3；深度学习库可以为tensorrflow+Keras。

对于GRU序列层的循环神经网络序列长度可以为句子长度，GRU节点数取值为50，100，150时取得较高的F1值，由于专利文本分类需要较高效率，所以在该实施例中，该节点数可以为50。

在该实施例中，五个类别的10000篇专利文件被划分成训练集和验证集，其中训练集为8000篇，验证集(需要被分类的专利文档)为2000篇。在对POS-GRU模型的训练过程中，可以使用交叉熵作为损失函数，使用Adam方法作为优化函数。

以上结合附图详细描述了本发明例的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施方式的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种基于双通道特征融合的专利分类方法，其特征在于，所述专利分类方法包括：

读取需要被分类的专利文档，将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量，以生成word2vec词向量序列和POS词性向量序列；

采用softmaxt分类层对所述第二句向量进行归一化处理。

2.根据权利要求1所述的专利分类方法，其特征在于，所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括：

3.根据权利要求1所述的专利分类方法，其特征在于，所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括：

4.一种基于双通道特征融合的专利分类系统，其特征在于，所述专利分类系统包括：

softmaxt分类层，用于对所述第二句向量进行归一化处理。

5.根据权利要求4所述的专利分类系统，其特征在于，所述处理层包括：

6.根据权利要求4所述的专利分类系统，其特征在于，所述处理层包括：

7.一种存储介质，其特征在于，所述存储介质存储有指令，所述指令用于被计算机读取以使得所述计算机执行如权利要求1至3任一所述的专利分类方法。