CN109033402A

CN109033402A - 安全领域专利文本的分类方法

Info

Publication number: CN109033402A
Application number: CN201810874561.2A
Authority: CN
Inventors: 肖立中; 王广仲; 刘源; 夏坤
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2018-12-18

Abstract

本发明提供了一种安全领域专利文本的分类方法，本发明提出了一种安全领域专利文本的分类方法，该方法包括以下步骤：步骤一，在文本预处理过程中，将专利文本中频繁出现的词语加入停用词表，以节省存储空间，提高检索效率；步骤二，引入预训练的Word2Vec模型，解决传统方法所造成的维度灾难问题；步骤三，通过训练长短期记忆网络(Long Short‑Term Memory，LSTM)分类模型，提取文本特征，进行安全领域专利文本分类；步骤四，使用准确率和ROC曲线评价模型对分类结果进行评估。经过试验证明：利用本方法能够较好的对安全领域的专利文本进行分类，对5万条专利文本进行训练和测试，测试集的准确率达到93.48％。

Description

安全领域专利文本的分类方法

技术领域

本发明涉及一种安全领域专利文本的分类方法。

背景技术

伴随着信息技术和知识经济的快速发展，我国专利申请数量与日俱增。专利作为一种无形的资产，具有巨大的商业价值和研究价值，已成为衡量各国综合实力的重要指标。如何从专利文本中获取前沿性、创新性的成果，将其转化成产品，实现产业化，已成为专家和学者研究的重点。专利文本分类作为基础性工作，在专利检索、专利挖掘、战略决策等方面起着重要的作用。因此，专利文本分类具有十分重要的研究意义与研究价值。目前对于安全领域专利研究较少，由于每种领域的专利都有其各自的特点，同一算法并不能对所有领域的专利进行分类，加之安全领域的专利文本语料库比较少，在一定程度上限制了对安全领域的专利文本分类研究。

现有的基于深度神经网络技术的专利文本分类算法，如卷积神经网络、循环神经网络、支持向量机等。这些方法虽然可以对文本进行分类，但都有各自的缺陷。如卷积神经网络进行文本分类，在构建文本语义时，需要人工设定一个窗口捕获上下文信息，而窗口大小对分类结果有重要的影响，同时在训练过程中需要消耗大量的时间；循环神经网络在进行文本分类时，由于循环神经网络对最后输入的信号记忆较深，而对早期输入的信号记忆较浅，这会导致出现“梯度消失”问题。

发明内容

本发明的目的在于提供一种安全领域专利文本的分类方法。

本发明提供一种安全领域专利文本的分类方法，包括：

在文本预处理过程中，将专利文本中频繁出现的词语加入停用词表；

引入预训练的Word2Vec模型；

通过训练LSTM分类模型，提取文本特征，进行安全领域专利文本分类，得到分类结果；

使用准确率和ROC曲线评价模型对所述分类结果进行评估。

进一步的，在上述方法中，文本预处理过程中，将专利文本中频繁出现的词语加入停用词表，包括：

S11：将从专利网站获取的5万条包括专利名称和摘要的专利文本，按IPC 号中首字母将专利文本分为八个类别作为实验材料，并根据实验的需求，从所述实验材料中选取其中四类作为实验样本，即每个类别有12500条专利文本；

S12：从所述实验材料中的每个类别的专利文本中选取10000条做训练集和 2500条做测试集；

S13：对专利文本去除停用词时，结合“哈工大停用词词库”并加入文档中出现频率较高的词语。

进一步的，在上述方法中，从所述实验材料中选取其中四类作为实验样本中，所选取其中四类分别是A人类生活必须；E固定建筑物；F机械工程、照明、加热、武器、爆破；H电学。

进一步的，在上述方法中，所述文档中出现频率较高的词语包括：

“本发明”、“公开”、“涉及”和“一种”、“实用新型”中的一种或任意组合。

进一步的，在上述方法中，所述Word2Vec模型包括两种类型，分别为 Skip-Gram和CBOW，其中，Skip-Gram是根据当前词语预测上下文，CBOW是通过上下文预测当前词语。

进一步的，在上述方法中，引入预训练的Word2Vec模型，包括：

S21：对于统计模型而言，利用最大似然估计，将目标函数设为：

其中，C表示语料，Content(w)表示词语w的上下文；

Skip-Gram模型由已知词语w_(t)预测其上下文w_(t-2)，w_(t-1)，w_(t+1)，w_(t+2)。基于Hierarchical Softmax的Skip-Gram模型，其优化的目标函数取对数似然函数为：

CBOW模型由已知词语w_(t-2)，w_(t-1)，w_(t+1)，w_(t+2)预测未知的w_(t)，基于 HierarchicalSoftmax的CBOW模型，其优化的目标函数取对数似然函数为：

进一步的，在上述方法中，通过训练LSTM分类模型，提取文本特征，进行安全领域专利文本分类，得到分类结果，包括：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)；

其中，i_t表示输入门，表示输入门控制的新记忆细胞，W为其对应的权重矩阵，b为偏置向量，tanh为双曲正切函数，σ为Sigmod函数，x为记忆单元的输入，h为记忆单元的输出。tanh通过对h_t-1和x_t进行处理，得到一个候选值，并由输入门i_t决定候选值的情况；

f_t＝σ(W_f·[h_t-1，x_t]+b_f)；

f_t为遗忘门，f_t决定t-1时刻记忆细胞输出的状态信息，并与当前时刻记忆单元输入的信息进行处理并更新；

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，o_t为输出门，W_o为更新输出值的权重矩阵，b_o为更新输出值的偏置向量，h_t为t时刻记忆单元的输出，h_t-1表示前一时刻记忆单元的输出。

进一步的，在上述方法中，使用准确率和ROC曲线评价模型对所述分类结果进行评估，包括：

S41：使用准确率和ROC曲线评价模型对分类结果进行评估，其中，ROC曲线下方的面积AUC(Area under the ROC curve)是评价模型平均性能的一种方法，如果曲线靠近左上角，且面积(area)接近于1，则说明分类模型较好；

准确率为：

与现有技术相比，本发明提出了一种安全领域专利文本的分类方法，该方法包括以下步骤：步骤一，在文本预处理过程中，将专利文本中频繁出现的词语加入停用词表，以节省存储空间，提高检索效率；步骤二，引入预训练的 Word2Vec模型，解决传统方法所造成的维度灾难问题；步骤三，通过训练长短期记忆网络(Long Short-Term Memory，LSTM)分类模型，提取文本特征，进行安全领域专利文本分类；步骤四，使用准确率和ROC曲线评价模型对分类结果进行评估。经过试验证明：利用本方法能够较好的对安全领域的专利文本进行分类，对5万条专利文本进行训练和测试，测试集的准确率达到93.48％。

附图说明

图1是本发明一实施例的ROC曲线评价模型图；

图2是本发明一实施例的安全领域专利文本的分类方法的Word2Vec的两种类型，Skip-Gram和CBOW结构图；

图3是本发明一实施例的安全领域专利文本的分类方法的LSTM结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种安全领域专利文本的分类方法，包括：

步骤S1，在文本预处理过程中，将专利文本中频繁出现的词语加入停用词表；

步骤S2，引入预训练的Word2Vec模型；

步骤S3，通过训练LSTM分类模型，提取文本特征，进行安全领域专利文本分类，得到分类结果；

步骤S4，使用准确率和ROC曲线评价模型对所述分类结果进行评估。

在此，对于专利文本分类，传统的方法如卷积神经网络进行文本分类，在构建文本语义时，需要人工设定一个窗口捕获上下文信息，而窗口大小对分类结果有重要的影响，另外训练所需要的时间较长；循环神经网络(RNN)虽然可以完成处理整个时间序列的任务，但其对最后输入的信号记忆较深，而对早期输入的信号记忆较浅，这就导致“梯度消失”问题的出现。RNN的子类长短期记忆网络模型能够有效避免RNN的梯度消失问题，很好地利用上下文特征信息，并保留文本的顺序信息，自动选择特征，进行分类。

本发明采用模块化方法实现安全领域专利文本分类，主要包括文本预处理模块和专利分类模块。文本预处理模块包括文本预处理，使用JIEBA分词系统的精确模式进行分词，将专利文本中频繁出现的词语，如“本发明”、“公开”、“涉及”、“一种”、“实用新型”等加入停用词表，并去除停用词；引入预训练的Word2Vec模型。专利分类模块包括训练LSTM模型；使用softmax 分类器对模型进行评估。

本发明提出一种更有效的基于Word2Vec和LSTM的专利文本分类模型，从而实现对某些信息能够进行较长期的记忆，从而解决在迭代后期会出现“梯度消失”的问题。本发明使用Word2Vec构建中文词向量，并结合LSTM利用大量数据自动学习加权参数，可以有效控制tanh()函数，在一定程度上使用梯度下降法更新各层权重，使代价函数值最小，从而提高文本分类器的性能。利用本方法能够较好的对安全领域的专利文本进行分类，对5万条专利文本进行训练和测试，测试集的准确率达到93.48％

本发明的安全领域专利文本的分类方法一实施例中，步骤S1，在文本预处理过程中，将专利文本中频繁出现的词语加入停用词表，包括：

S11：将从专利网站获取的5万条包括专利名称和摘要的专利文本，按IPC 号中首字母将专利文本分为八个类别作为实验材料，并根据实验的需求，从所述实验材料中选取其中四类(分别是A人类生活必须；E固定建筑物；F机械工程、照明、加热、武器、爆破；H电学)作为实验样本，即每个类别有12500条专利文本；

S13：对专利文本去除停用词时，结合“哈工大停用词词库”并加入文档中出现频率较高的词语，如“本发明”、“公开”、“涉及”、“一种”、“实用新型”等停用词。

本发明的安全领域专利文本的分类方法一实施例中，所述Word2Vec模型包括两种类型，分别为Skip-Gram和CBOW，其中，Skip-Gram是根据当前词语预测上下文，CBOW是通过上下文预测当前词语。

在此，Word2Vec被广泛应用在自然语言处理(NPL)中，是一种以无监督方式从大量文本语料中学习语义知识的模型，通过一个嵌入空间使语义上相似的词语在该空间上的距离很近。Word2Vec有两种类型：Skip-Gram(Continuous Skip-Gram Model)和CBOW(Continuous Bag-of-Words Model)，其中Skip-Gram 是根据当前词语预测上下文，CBOW是通过上下文预测当前词语。

本发明的安全领域专利文本的分类方法一实施例中，步骤S2，引入预训练的Word2Vec模型，包括：

其中，C表示语料，Content(w)表示词语w的上下文；

本发明的安全领域专利文本的分类方法一实施例中，步骤S3，通过训练 LSTM分类模型，提取文本特征，进行安全领域专利文本分类，得到分类结果，包括：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)；

f_t＝σ(W_f·[h_t-1，x_t]+b_f)；

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

本发明的安全领域专利文本的分类方法一实施例中，步骤S4，使用准确率和ROC曲线评价模型对所述分类结果进行评估，包括：

S41：使用准确率和ROC曲线评价模型对分类结果进行评估，其中，ROC曲线下方的面积AUC(Area vnder the ROC curve)是评价模型平均性能的一种方法，如果曲线靠近左上角，且面积(area)接近于1，则说明分类模型较好；

准确率为：

为了说明系统的性能，本发明做了实验来验证本方法的性能。

(1)通过Python程序获取专利网站中包含以“安全”为关键词的9万余条专利文本，内容包括：专利名称、申请号、申请日、申请人、主IPC、摘要等。将获取的文本按IPC号中首字母将专利文本分为八个类别，并根据实验的需求，选取其中四类(分别是A人类生活必须；E固定建筑物；F机械工程、照明、加热、武器、爆破；H电学)作为实验样本。然后，从实验样本的每个类别中选取12500 条，共计5万条安全领域专利文本作为实验材料。接着，将实验材料每个类别的12500条专利文本按照4：1的比例划分训练集和测试集，即每个类别中有 10000条训练集和2500条测试集。

(2)通过使用准确率和ROC曲线评价模型对模型进行评估，同时对比卷积神经网络的结果以此说明本方法的有效性。如下表1、图1所示：

表1算法对比结果

在安全领域的专利文本分类中，引入预训练的Word2Vec模型，相当于间接增加训练集语料，同时防止过拟合，减少需要训练的参数个数，使得准确率进一步提升。ROC曲线下方的面积AUC(Area under the ROC curve)是评价模型平均性能的一种方法。如果曲线靠近左上角，且面积(area)接近于1，则说明分类模型较好。如图所示，基于Word2Vec和LSTM分类模型的准确率为93.48％，面积是上侧的第二条曲线0.99，而基于Word2Vec和LSTM分类模型的准确率为 81.18％，面积为下侧的第二条曲线0.98。

从上述实验结果可以看到，使用Word2Vec和LSTM的分类模型在专利文本分类中取得了不错的效果，这个方法被证明是有效的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种安全领域专利文本的分类方法，其特征在于，包括：

引入预训练的Word2Vec模型；

使用准确率和ROC曲线评价模型对所述分类结果进行评估。

2.如权利要求1所述的安全领域专利文本的分类方法，其特征在于，文本预处理过程中，将专利文本中频繁出现的词语加入停用词表，包括：

S11：将从专利网站获取的5万条包括专利名称和摘要的专利文本，按IPC号中首字母将专利文本分为八个类别作为实验材料，并根据实验的需求，从所述实验材料中选取其中四类作为实验样本，即每个类别有12500条专利文本；

S12：从所述实验材料中的每个类别的专利文本中选取10000条做训练集和2500条做测试集；

3.如权利要求2所述的安全领域专利文本的分类方法，其特征在于，从所述实验材料中选取其中四类作为实验样本中，所选取其中四类分别是A人类生活必须；E固定建筑物；F机械工程、照明、加热、武器、爆破；H电学。

4.如权利要求2所述的安全领域专利文本的分类方法，其特征在于，所述文档中出现频率较高的词语包括：

5.如权利要求1所述的安全领域专利文本的分类方法，其特征在于，所述Word2Vec模型包括两种类型，分别为Skip-Gram和CBOW，其中，Skip-Gram是根据当前词语预测上下文，CBOW是通过上下文预测当前词语。

6.如权利要求1所述的安全领域专利文本的分类方法，其特征在于，引入预训练的Word2Vec模型，包括：

其中，C表示语料，Content(w)表示词语w的上下文；

CBOW模型由已知词语w_(t-2)，w_(t-1)，w_(t+1)，w_(t+2)预测未知的w_(t)，基于HierarchicalSoftmax的CBOW模型，其优化的目标函数取对数似然函数为：

7.如权利要求1所述的安全领域专利文本的分类方法，其特征在于，通过训练LSTM分类模型，提取文本特征，进行安全领域专利文本分类，得到分类结果，包括：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)；

其中，i_t表示输入门，表示输入门控制的新记忆细胞，W为其对应的权重矩阵，b为偏置向量，tanh为双曲正切函数，σ为Sig mod函数，x为记忆单元的输入，h为记忆单元的输出。tanh通过对h_t-1和x_t进行处理，得到一个候选值，并由输入门i_t决定候选值的情况；

f_t＝σ(W_f·[h_t-1，x_t]+b_f)；

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

8.如权利要求1所述的安全领域专利文本的分类方法，其特征在于，使用准确率和ROC曲线评价模型对所述分类结果进行评估，包括：

准确率为：