CN109684477A

CN109684477A - 一种专利文本特征提取方法及系统

Info

Publication number: CN109684477A
Application number: CN201811508111.8A
Authority: CN
Inventors: 郑侃; 齐家驹; 侯璐
Original assignee: Beijing Chi Zhi Sense Technology Co Ltd
Current assignee: Beijing Chi Zhi Sense Technology Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-26

Abstract

本申请实施例公开了一种专利文本特征提取方法及系统。该方案包括：输入全部目标专利文本，根据预设的准则构建专利数据集；利用文本的向量化算法处理专利数据集中的专利文本；对所述处理后的专利文本分类，构建专利训练集；输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量。该方案使用专利的摘要、详细描述、权利要求等更大范围文本来提取特征向量，尽可能地保留专利文本的重要信息，能保证较高的准确率和召回率，可以很好地满足实际应用的需要。

Description

一种专利文本特征提取方法及系统

技术领域

本申请涉及计算机文本信息处理技术领域，尤其涉及一种专利文本特征提取方法及系统。

背景技术

随着科技的迅速发展及全球经济一体化趋势加剧，专利的作用越来越受到人们的重视。专利作为现代社会科学技术发展的衡量标志，在一定程度上起到风向标的作用。通过研究专利的发展脉络、提交数量、研究方向等信息，人们可以了解当下的技术热点、空白和壁垒，并推测下一个重要的技术爆发点等重要信息。这种专利研究决策的工作需要从海量专利文本中整理出有效信息。因此，专利的研究对社会科学技术发展起着非常重要的作用。

但现有技术中，专利文本特征分析，不能保证较高的准确率和召回率，也不能很好地满足实际应用的需要。

发明内容

本申请实施例提供一种专利文本特征提取方法及装置，用以保证较高的准确率和召回率，并且满足了实际应用的需要。

更加准确地对专利文本特征进行分析。

本申请提供了一种专利文本特征提取方法，包括：

输入全部目标专利文本，根据预设的准则构建专利数据集；

利用文本的向量化算法处理专利数据集中的专利文本；

对所述处理后的专利文本分类，构建专利训练集；

输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量。

进一步地，输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

根据预设的准则，构建的多个不同的专利数据集。

根据预设的准则，提取任意一个专利的有效文本，来构成专利数据集中的单个专利样本；

多个不同的所述专利样本，构建专利数据集。

本申请中，提取专利的摘要、详细描述、权利要求等有效文本，有利于更加完整的保留专利文本的重要信息，为后续专利分析奠定了基础。

进一步地，利用文本的向量化算法处理专利数据集中的专利文本，包括：

采用向量化处理专利数据集中任意一个专利的有效文本。

进一步地，对所述处理后的专利文本分类，构建专利训练集；包括：

将专利数据集根据预设的条件，划分多个主题；

基于多个主题，利用主题分析模型算法提取专利数据集隐含的主题，计算每个专利样本对应的各个主题概率，确定专利样本的所属类别。

在本申请中，对专利数据集分类，有利于后续进一步对神经网络的训练。

进一步地，输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量，包括：基于所述专利训练集中的每一个样本，通过对神经网络参数的训练，输出连续值的特征向量。

在本申请中，通过神经网络的普适性提取的专利的特征向量，具备专利类别及数据集变化的自适应性；并且，输出的特征向量是连续值，可以表示在连续的向量空间中，反映出专利之间的量化关系，有利于进一步的采用数学方法对专利进行分析。

对应地，本申请提供了一种专利文本特征提取系统，包括：

构建模块，用于输入全部目标专利文本，根据预设的准则构建专利数据集；

处理模块，用于利用文本的向量化算法处理专利数据集中的专利文本；

训练模块，用于对所述处理后的专利文本分类，构建专利训练集；

输出模块，用于基于所述专利训练集，通过对神经网络参数的训练，输出专利数据集中的特征向量。

进一步地，构建模块，输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

根据预设的准则，构建多个不同的专利数据集。

多个不同的所述专利样本，构建专利数据集。

进一步地，处理模块，利用文本的向量化算法处理专利数据集中的专利文本，包括：

采用向量化处理专利数据集中任意一个专利的有效文本。

进一步地，训练模块，对所述处理后的专利文本分类，构建专利训练集；包括：

将专利数据集根据预设的条件，划分多个主题；

进一步地，输出模块，输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量，包括:

基于所述专利训练集中的每一个样本，通过对神经网络参数的训练，输出连续的特征向量。

综上所述，本申请实施例采用的上述至少一个技术方案能够达到以下有效效果：该方案实现了使用专利的摘要、详细描述、权利要求等更大范围文本来提取特征向量，尽可能地保留专利文本的重要信息，能保证较高的准确率和召回率，可以很好地满足实际应用的需要；直接使用专利的初始文本训练文本学习神经网络，保留了初始文本的全部词语和语序信息；文本学习神经网络提取得到的特征向量是连续值，得到的特征向量可以较好地准确反映出专利之间的量化关系，也有利于进一步的采用数学方法对专利进行分析；提取的特征向量具备专利类别及数据集变化的自适应性；提取的特征向量具有唯一性。

附图说明

图1为本申请实施例提供的一种专利文本特征提取方法的流程示意图；

图2为本申请实施例提供的一种专利文本特征提取方法的操作步骤流程图；

图3为本申请实施例提供的一种卷积神经网络的结构示意图；

图4为本申请实施例提供的一种专利文本特征提取系统的流程示意图；

图5为本申请实施例提供的一种特征向量的数值分布概率密度统计图；

图6为本申请实施例提供的一种使用PCA算法得到的特征向量在二维可视化向量空间的分布图；

图7为本申请实施例提供的一种使用PCA算法得到的特征向量分类别展示在二维向量空间的分布图；

图8为本申请实施例提供的一种示例专利与其他专利的特征向量欧式距离数值分布概率密度统计图；

图9为本申请实施例提供的一种示例专利与其他分类别专利的特征向量欧式距离数值分布概率密度统计图；

图10为本申请实施例提供的一种特征向量欧式距离数值分布概率密度统计图。

具体实施方式

本申请实施例提供一种专利文本特征提取方法及系统，能保证较高的准确率和召回率，并且很好地满足实际应用的需要。

参见图1，本申请提供了一种专利文本特征提取方法，包括：

S101:输入全部目标专利文本，根据预设的准则构建专利数据集；

S103:利用文本的向量化算法处理专利数据集中的专利文本；

S105:对所述处理后的专利文本分类，构建专利训练集；

S107:输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量。

本申请实施例中，利用主题分析模型算法提取专利数据集隐含的主题，并计算每个专利对应的各个主题的概率，完成对该专利所属类别的标记，构建了专利训练集；并且使用专利的摘要、详细描述、权利要求等更大范围文本来提取特征向量，尽可能地保留专利文本的重要信息，能保证较高的准确率和召回率，并且可以很好地满足实际应用的需要。

下面完整叙述一种专利文本提取特征向量具体操作步骤，参见图2。

步骤一：根据给定的准则，构建多个专利数据集，分别为专利数据集1、专利数据集2、专利数据集3、专利数据集4、专利数据集5。

步骤二：提取专利数据集中的每一个专利的有效文本，利用文本处理算法对所述有效文本进行向量化处理。

步骤三：用主题模型分析算法找出每个专利的隐含的主题，可以根据提取出专利数据集的若干关键字或者主题词，将专利数据集聚类到几个主题上，分别为主题1、主题2、主题3、主题4等，将每个专利根据找出的隐含主题，归入对应的主题中；然后计算每个专利样本对应的各个主题概率，来确定该专利样本的所属类别，从而将所有专利样本归类到若干个类别中。

步骤四：将步骤三中的分类别后的专利数据集作为文本学习神经网络的训练集及验证集。通过对该神经网络参数的训练，从而得到每个专利样本所对应的特征向量。其中，特征向量来反映给定专利的内在性质。

上述步骤二中所述对每个专利有效文本进行向量化处理，使用词向量工具对专利数据集的文本进行向量化处理。词向量可以基于词的分布式假说原理训练特定的语料库得到，也可以使用基于维基百科等大规模的语料库预训练得到的词向量，例如可以是谷歌公司提供的word2vec[7]等。

上述步骤三中的主题模型算法，进行建模分析，在模型选择的方法上可以是向量空间模型也可以是概率模型，即TF-IDF(term frequency–inverse document frequency)模型和LDA(Latent Dirichlet Allocation)模型，具体可根据实际情况而定，不构成本申请的限定。

LDA模型是一种无监督的生成主题模型，其假设：文档集中的文档是按照一定的概率共享隐含主题集合，隐含主题集合则由相关词构成。这里共有三个集合：文档集、主题集和词集。文档集到主题集服从概率分布，词集到主题集也服从概率分布，现在已知文档集和词集，根据贝叶斯定理就能求出主题集。

本申请实施例中，在上述的S101中，输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

根据预设的准则，构建的多个不同的专利数据集。

由于，专利数据库中的专利数量巨大，类别繁多，并且不同类别的专利之间差异巨大。此外，专利分析者通常仅对单个或者给定多个类别的专利数据集下的专利进行分析。在进行专利分析时，通常仅针对某些给定专利进行操作。因此，需要依据某种规则，例如：专利的IPC分类号、专利名、专利摘要等等，将所有专利进行分类和存储，构建出多个结构化专利数据集，令各类别的专利数据集相互独立。

多个不同的所述专利样本，构建专利数据集。

上述提取任意一个专利的有效文本，例如：可以是提取专利全文也可以是重要文字，来构成专利数据集中的单个样本，多个不同的单个样本构成一个专利数据集。

本申请实施例中，在上述的S103中，利用文本的向量化算法处理专利数据集中的专利文本，包括：

采用向量化处理专利数据集中任意一个专利的有效文本。

上述采用文本的向量化算法，将每个词转化为具体的向量，从而将每个专利文本转化为数值向量，有利于后续的计算与分析。

本申请实施例中，在上述的S105中，对所述处理后的专利文本分类，构建专利训练集；包括：

将专利数据集根据预设的条件，划分多个主题；

在完成对专利数据集向量化处理之后，即完成步骤S103，需要将专利数据集的向量化文本直接输入到有监督学习的文本学习神经网络中进行处理得到专利的特征向量。由于神经网络需要以标有分类标签的专利数据集作为目标进行训练。在这里，可使用基于概率统计分析方法的模型来分析专利文本的自身统计特性，从而获取专利数据集的类别并进行自动标注。

概率统计分析方法是一种非监督的机器学习算法，它的作用是挖掘出文本所包含的隐藏主题，这里以主题分析模型算法为例。主题分析模型算法可以提取出文本所包含的主题，并将文本依据相应的主题进行分类。

基于文本主题分析模型的分类结果对专利文本进行分类，具体的操作如下：

第一步，利用主题分析模型对专利数据集中的所有专利进行分析，主题分析模型会提取出专利数据集的若干个主题。

第二步，对于每个专利都使用主题分析模型算法对该专利对应的各个主题的概率，其中概率最大的主题即可作为该专利的分类标签。

本申请实施例中，上述S107中，输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量，包括：基于所述专利训练集中的每一个样本，通过对神经网络参数的训练，输出连续值的特征向量。

基于上述S105完成后，可以生成监督学习的向量化文本，作为神经网络的输入。具体为：首先，利用神经网络的参数进行训练；在训练完成后，将所述向量化文本输入到训练后的神经网络；输出连续的专利对应的特征向量。

上述的监督学习是指：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象和一个期望的输出值，所述输入对象通常为矢量，所述输出值也称为监督信号。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。

神经网络的主要工作是提取出专利的特征向量，因此其结构不是固定的，包括但不局限于CNN(Convolutional Neural Networks，卷积神经网络)、DNN (Deep NeuralNetworks，深度神经网络)、RNN(Recurrent Neural Networks，循环神经网络)、RCNN(Recurrent Convolutional Neural Networks)、CNN-RNN (Convolutional NeuralNetworks-Recurrent Neural Networks)等神经网络结构。

下面以CNN为例，如图3所示，该CNN结构中的前三层中使用卷积、池化等操作的作用是提取出文本的高级特征，而第四层全连接层起到分类器的作用，旨在对前三层提取的特征做整合，并映射到样本标记空间，进而做分类的显式表达，它的输出的是预测专利属于各类别的概率。

因此，我们可以认为该CNN结构中的前三层网络输出的向量就是该CNN 结构的神经网络提取的专利特征向量。当然，采用其他结构的神经网络也可以类似获得相应的专利特征向量，具体可根据实际情况而定，不构成本申请的限定。

对应地，本申请提供了一种专利文本特征提取系统，参见图4，包括：

构建模块401，用于输入全部目标专利文本，根据预设的准则构建专利数据集；

处理模块403，用于利用文本的向量化算法处理专利数据集中的专利文本；

训练模块405，用于对所述处理后的专利文本分类，构建专利训练集；

输出模块407，用于基于所述专利训练集，通过对神经网络参数的训练，输出专利数据集中的特征向量。

本申请实施例中，构建模块401，输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

根据预设的准则，构建多个不同的专利数据集。

本申请实施例中，构建模块401，输入全部目标专利文本，根据预设的准则构建专利数据集，包括：根据预设的准则，提取任意一个专利的有效文本，来构成专利数据集中的单个专利样本；

多个不同的所述专利样本，构建专利数据集。

本申请实施例中，处理模块403，利用文本的向量化算法处理专利数据集中的专利文本，包括：

采用向量化处理专利数据集中任意一个专利的有效文本。

本申请实施例中，训练模块405，对所述处理后的专利文本分类，构建专利训练集；包括：

将专利数据集根据预设的条件，划分多个主题；

本申请实施例中，输出模块407，基于所述专利训练集，通过神经网络参数的训练，输出专利数据集中的特征向量，包括:

下面介绍一个完整实施例进行举例说明。

针对专利特征文本分析，分为两个部分研究。第一部分，针对提取专利的特征向量的详细步骤进行举例说明；第二部分，我们从四个方面对提取的特征向量的性能进行验证。

对于第一部分，针对提取专利的特征向量的详细步骤进行举例说明，如下：

第一步，我们下载了美国专利数据库中2016到2018年的专利，按照专利的IPC二级分类号将专利分类并存储，完成结构化的专利数据集的构建。我们选择其中IPC二级分类号为H04的专利作为示例，其中，H04代表：电通信技术，共计94034条专利，并提取出专利的摘要内容、详细描述内容、权利要求第一条内容，这三个部分的内容作为专利数据集的有效文本。

第二步，我们使用词向量工具对专利数据集的文本进行向量化处理。词向量可以基于词的分布式假说原理训练特定的语料库得到，也可以使用基于维基百科等大规模的语料库预训练得到的词向量，例如谷歌公司提供的word2vec[7] 等。向量化处理之后，专利数据集中的每个专利都由一个矩阵组成，该矩阵的维度是N×K，其中N代表该专利文本的单词数量，K代表词向量的维度，对于所有专利K值是固定不变的。

第三步，我们使用以主题分析模型算法为例的概率统计分析方法，基于IPC 二级分类号为H04的专利数据集提取出8个主题，表1中展示了每个主题和该主题中概率降序排列的前5个主题词，这些主题同时对应了基于概率统计分析方法得到的八个类别。通过对每个主题中主题词的总结，我们可以得到每个类别对应潜在的技术领域或者技术点。同时，使用该主题分析模型算法可以计算得到每个专利对应这8个类别的概率，取概率最高的类别作为该专利所属的类别。

第四步，基于上一步得到的分类标签训练文本学习神经网络，得到每个专利对应的特征向量。

表1主题分析模型提取的8个主题和每个主题的5个主题词

主题序号	主题词1	主题词2	主题词3	主题词4	主题词5
						1	network	node	packet	data	traffic
2	server	message	service	request	user
						3	signal	receive	frequence	output	circuit
4	image	display	light	sensor	camera
						5	device	communicate	network	wireless	mobile
6	content	system	method	compute	media
						7	unit	process	inform	frame	generate
8	base	station	channel	transmit	cell

对于第二部分，我们从四个方面对提取的特征向量的性能进行验证

例如：得到的特征向量总数为94034个，分别对应H04专利数据集下的每一篇专利，每个专利文本的特征向量的维度是300，即K＝300。

a)特征向量的数值分布

首先，我们统计出来组成特征向量的每个数值的统计特性，包括数值范围、数值的概率密度分布。图5表示特征向量的数值分布的概率密度统计图，可以发现，特征向量数值的取值范围在1附近的概率超过了一半，整体的概率密度分布趋势类似于瑞利分布的概率密度分布图。我们测试使用的专利数据集共包含94034个专利，大部分专利特征向量的数值集中在0～1的范围内，超过总数的60％，而在大于3的范围内，特征向量的数值分布则极为稀少。我们认为特征向量的数值分布是比较合理的。

b)特征向量在二维空间的可视化表示

为了对一个专利数据集下的所有特征向量进行可视化的直观分析，我们使用PCA算法将特征向量的维度压缩到二维，并在一个二维向量空间中进行可视化的表示。

如图6所示，我们对每个特征向量在图6中标识其所属类别，通过观察，我们可以发现，特征向量在降维后的二维可视化向量空间中，总体上也是按照其所属类别聚集分布。每个类别的特征向量由中心向周边扩散分布，中心最稠密，周边最稀疏。各个类别的中心都在向量空间的不同位置。由于对特征向量进行降维表示，因此一些类别在二维向量空间中会有重叠的部分，各个类别在向量空间中不能用清晰的界限分隔开，但是仍可以看出各个类别专利的特征向量是聚集分布的。图7表示8个类别的特征向量在二维向量空间的分布情况。

通过观察图6，我们可以发现特征向量可以较好地表示专利所属的类别，而专利的类别是根据专利的文本内容由概率统计分析方法得到的。这说明本发明得到的特征向量可以很好地描述专利的具体内容，为内容相似的专利分配距离接近的特征向量，为内容差异较大的专利分配距离较远的特征向量。

c)单个样本的概率统计

基于单个专利样本的特征表达性能评估，我们需要基于某个具体的专利特征向量作为示例，分析该专利的特征向量与其他专利的特征向量的相近程度，利用例如欧式距离等概率统计方法，来说明本方法得到的特征向量具有合理性。

我们选择以第800号专利作为示例，表2列出了该专利的摘要部分。我们获取到该专利的特征向量，并计算其与其他专利的特征向量的欧式距离。图8 展示了所有欧式距离的数值分布概率密度统计图，可以发现这些欧式距离的数值分布与正态分布极其相似，取值范围大致分布在12到20左右，均值集中在 16附近，呈对称分布。

表2 8个类别的专利与示例专利的欧式距离平均值

为了突出表示特征向量提取中第三步的概率统计分析方法得到的类别标签，我们在欧式距离的数值分布概率密度统计图中，图9中标识出不同类别专利与示例专利的特征向量欧式距离，如图9所示。其中，曲线左侧的曲线表示第8个类别，即示例专利所属的类别。可以发现，与示例专利同属于一个类别的专利和示例专利的特征向量之间的欧式距离基本分布在小于均值的范围内，其中，均值约为16；与其他类别专利的欧式距离相比，同类别的专利与示例专利的平均欧式距离最小，表2中展示的不同类别的平均欧式距离也可以得到这个结论。通过观察表2，我们发现在所有其他的7个类别中，第1类专利与示例专利的欧式距离平均值是最小，第4类专利与示例专利的欧式距离平均值是最大的，这个结论与图6中两个类别在二维可视化向量空间的分布相吻合，图 6中的第1类相比其他类别距示例专利更近，第4类相比其他类别距示例专利更远。

我们对与示例专利同属于一个类别的专利的欧式距离进行分析，得到了示例专利与同一类别的其他专利的特征向量欧式距离数值分布概率密度统计图，并与图10表示的示例专利与所有类别专利特征向量的欧式距离的数值分布概率密度统计图进行比较，比较结果如图10所示，同一类别专利的欧氏距离使用图10中左侧的曲线表示，所有专利的欧氏距离使用图10中右侧的曲线表示。可以发现，示例专利与同类别专利的特征向量的欧氏距离在整体上也是呈正态分布的，并且与所有专利欧氏距离的数值分布所呈现的正态分布相比，其均值更小，方差也更小。由此可见，本发明的专利文本的特征向量可以较好地表征专利所属类别以及各类别之间的距离(远近)关系。

综上所述，利用基于个体的专利特征向量之间的欧式距离等概率统计特性，也表明了本发明提出的特征向量提取方法得到的特征向量具有合理性。

d)使用特征向量进行文本分析

以上专利验证方法都是基于特征向量本身的概率统计特性进行的，目的是验证特征向量具有数学分析上的合理性。我们还需要基于特征向量进行具体的专利文本分析，来说明特征向量在应用上的合理性。

基于H04专利数据集，我们整理了100对三元组专利集合作为测试数据。其中，每对三元组专利集合由三个专利组成，分别使用p、p+、p-表示。专利 p代表基准专利，专利p+代表根据专利文本内容人为挑选地与专利p内容相近的专利，专利p-代表人为挑选地与专利p内容不相近的专利。由此可见，每个三元组集合都包含两个距离关系：d(p,p+)与d(p,p-)，分别表示专利p与专利 p+的距离、专利p与专利p-的距离。而它们的关系是d(p,p+)<d(p,p-)，这表示内容相近的两个专利之间的距离更小。由于不同类别之间的专利和相同类别之间的专利差别较大，同类专利三元组的d(p,p+)与d(p,p-)差值要小于不同类专利三元组的d(p,p+)与d(p,p-)差值。

为了进行更加精确的比较，在这100对三元组专利集合中，我们设计其中有30对的三元组集合属于基准专利p、同类专利p+、同类专利p-的形式，命名为S-S；有40对的三元组集合属于基准专利p、同类专利p+、异类专利p- 的形式，命名为S-D；有30对的三元组集合属于(基准专利p、异类专利p+、异类专利p-)的形式，命名为D-D；所有情况测试集的综合命名为ALL。以下将给出基于这4种数据集分别的测试结果。

语义文本相似度(Semantic Textual Similarity，STS)的度量方式有很多，我们选择一些比较经典的算法，包括Jaccard相似系数、余弦(Cosine)相似度等。

基于以上整理的测试数据，我们首先使用Jaccard相似系数方法[9]计算每个三元组集合中的d(p,p+)与d(p,p-)这两个距离的关系，并得出与人为标注的距离关系一致的比例。Jaccard相似系数方法的原理是计算两个文本的单词集合之间的交集和并集大小的比例，该值越大，表示这两个文本越相似。具体计算公式如式1所示，其中A，B分别表示两个文本单词集合，集合中的元素为该单词的TF-IDF值。我们得到的结果如表3所示，可以发现，有68％的三元组集合经过计算得到的距离关系与人为标注的距离关系结果一致。

其次，我们使用余弦(Cosine)相似度计算每个三元组集合中的d(p,p+) 与d(p,p-)这两个距离的关系，并得出与人为标注的距离关系一致的比例。余弦相似度是计算两个文本的特征向量之间的夹角，夹角越小则它们的相似度越高。具体计算公式如式2所示，其中A，B分别表示两个文本单词集合，集合中的元素为该单词的TF-IDF值。我们得到的结果如表3所示，可以发现，有 68％的三元组集合经过计算得到的距离关系与人为标注的距离关系结果一致。

最后，我们使用特征向量之间的欧氏距离作为计算每个三元组集合中的 d(p,p+)与d(p,p-)这两个距离的方法，结果如表3所示。

可以发现，总体来说，有85％的三元组集合基于特征向量的欧氏距离经过计算得到的距离关系与人为标注的距离关系结果一致。与前两种比较经典的文本相似度度量方法相比，基于特征向量的欧氏距离得到的文本相似度结果更为准确。此外，对于所有标注的数据集，Jaccard相似度和余弦相似度两种计算方法得到的结果都是一致的。所以，我们得到的专利特征向量可以很好地表征专利，描述专利之间的关系。

表3 3种不同的语义文本相似度的度量方式基于4个测试集的结果

综上所述，本申请实施例通过使用专利的摘要、详细描述、权利要求等更大范围文本来提取特征向量，尽可能地保留专利文本的重要信息，能保证较高的准确率和召回率，可以很好地满足实际应用的需要；进一步地，通过直接使用专利的初始文本训练文本学习神经网络，保留了初始文本的全部词语和语序信息；进一步地，文本学习神经网络提取得到的特征向量是连续值，得到的特征向量可以较好地准确反映出专利之间的量化关系，也有利于进一步的采用数学方法对专利进行分析；进一步地，提取的特征向量具备专利类别及数据集变化的自适应性，有利于专利文本特征提取；进一步地，提取的特征向量具有唯一性，有利于专利文本特征提取。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和介质类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，这里就不再一一赘述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤或模块可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray， FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、 Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL (Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL (RubyHardware Description Language)等，目前最普遍使用的是VHDL (Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请的实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信编号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请中一个或多个的实施例可提供为方法、系统或计算机程序产品。因此，本申请的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的形式。而且，本申请的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请的实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请的实施例可以有各种更改和变化。凡在本申请的实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利范围之中。

Claims

1.一种专利文本特征提取方法，其特征在于，包括：

输入全部目标专利文本，根据预设的准则构建专利数据集；

利用文本的向量化算法处理专利数据集中的专利文本；

对所述处理后的专利文本分类，构建专利训练集；

2.如权利要求1所述的方法，其特征在于，所述输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

输入全部目标专利文本，根据预设的准则，构建多个不同类别的结构化专利数据集，各个类别数据集相互独立。

3.如权利要求1所述的方法，其特征在于，所述输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

多个不同的所述专利样本，构建专利数据集。

4.如权利要求1所述的方法，其特征在于，所述利用文本的向量化算法处理专利数据集中的专利文本，包括：

采用向量化处理专利数据集中任意一个专利的有效文本。

5.如权利要求1所述的方法，其特征在于，所述对所述处理后的专利文本分类，构建专利训练集，包括：

将专利数据集根据预设的条件，划分多个主题；

6.如权利要求1所述的方法，其特征在于，所述输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量，包括：基于所述专利训练集中的每一个样本，通过对神经网络参数的训练，输出连续值的特征向量。

7.一种专利文本特征提取系统，其特征在于，包括：

输出模块，用于输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量。

8.如权利要求7所述的系统，其特征在于，所述构建模块，输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

根据预设的准则，构建多个不同的专利数据集。

9.如权利要求7所述的系统，其特征在于，所述构建模块，输入全部目标专利文本，根据预设的准则构建专利数据集，包括：

多个不同的所述专利样本，构建专利数据集。

10.如权利要求7所述的系统，其特征在于，所述处理模块，利用文本的向量化算法处理专利数据集中的专利文本，包括：

采用向量化处理专利数据集中任意一个专利的有效文本。

11.如权利要求7所述的系统，其特征在于，所述训练模块，对所述处理后的专利文本分类，构建专利训练集；包括：

将专利数据集根据预设的条件，划分多个主题；

12.如权利要求7所述的系统，其特征在于，所述输出模块，输入所述专利训练集，利用所述专利训练集对神经网络训练，提取专利文本的特征向量，包括：

基于所述专利训练集中的每一个样本，通过对神经网络参数的训练，输出连续值的特征向量。