CN110532383A

CN110532383A - 一种基于强化学习的专利文本分类方法

Info

Publication number: CN110532383A
Application number: CN201910651813.XA
Authority: CN
Inventors: 喻佳思; 常会友
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-12-03

Abstract

本发明涉及一种基于强化学习的专利文本分类方法，该方法提出的模型主要分为两个部分：策略网络，结构化表示模型。本发明通过结合结构化表示模型引入了强化学习的思想，并采用策略网络对文本进行简化，相较于传统文本分类方法该方法考虑到句子结构，本发明考虑了句子的结构化特征，并且能提取与任务相关的单词以形成纯化的句子表示，使得文本分类更加高效，对于专利文本这种领域词多、专业性强的文本分类效果更好。

Description

一种基于强化学习的专利文本分类方法

技术领域

本发明涉及文字处理领域，更具体地，涉及一种基于强化学习的专利文本分类方法。

背景技术

专利是现代科学的发展的重要衡量标准，一定程度上起着指向性的作用。通过研究专利的内容，挖掘专利的内容并对专利文本进行特征分析，对于研究如今的面向智能制造的产业转型升级有相当积极的作用。因此，如何对专利文本进行有效分类以及如何对专利文本进行特征分析具有重要的实际意义。

传统的分析方法一般针对专利数量的变化、词频特点进行分析，很难全方位描述专利数据所体现出的技术发展状况，Yoon等提出了提出了基于Triz的专利分析方法，并设计了基于Triz语义的专利分析系统。He等提出了一种利用创新型关联规则自动构建基于Triz的专利分析方法，该方法能发现专利文本特征的语义关系。

虽然以上这些方法一定程度上能对专利进行分析，但是由于训练样本不足，使用传统的基于深度神经网络技术的结构化表示模型，如卷积神经网络、循环神经网络等。这些结构要么作为输入提供，要么使用显性树库注释的监督进行预测，这些模型依赖于预先指定的结构，对于专利这种具有领域词汇多、结构性以及专业性强特征的文本，同时基于Triz的专利分类标签较少，传统的算法效果往往不太好。

发明内容

为了解决现有技术中对专利文本进行分析时采用的模型依赖于预先指定的结构导致分类效果差的不足，本发明提供了一种基于强化学习的专利文本分类方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于强化学习的专利文本分类方法，包括以下步骤：

步骤S1：从专利网站中爬取专利数据，对专利数据进行标注构建专利数据集；

步骤S2：对专利数据集进行分词操作，并去除停用词；

步骤S3：对分词操作后得到的词语映射成索引表示，构建词汇-索引映射表，基于词汇-索引映射表生成词向量；

步骤S4：构建结构化表示模型以及策略网络；

步骤S5：基于结构化表示模型以及策略网络将词向量转化为句子的结构化表示；

步骤S6：根据句子的结构化表示对专利文本进行分类；

步骤S7：使用交叉熵来衡量分类的准确率。

优选的，步骤S1具体包括以下步骤：

从专利网站上爬取专利数据，专利数据的内容包括专利号、专利名和摘要内容，对专利数据基于Triz进行人工标注构建专利数据集。

优选的，步骤S2的具体步骤如下：

使用JIEBA分词工具对专利数据集进行分词处理，对于专利中固定出现的词，包括“一种”、“本发明”加入停用词词组，并去除停用词。

优选的，步骤S3中构建词汇-索引映射表的具体步骤如下：

采用word2vec模型的CBOW模式对专利文本进行语义学习，将经过分词处理后得到的词映射成索引表示，构建词汇-索引映射表，并保存成json的数据格式。

优选的，步骤S4中的具体步骤如下：

所述的结构化表示模型包括transformer模型以及分类网络；

所述的策略网络的状态s_t由当前输入和前一步骤的上下文全连接构成；动作a_t的动作空间为{Delete，Retain}，表示是否保留当前的词，每个动作为结构化表示模型中结构选择的直接指标；在策略网络中采用随机策略，策略定义为π(a_t|s_t；θ)＝σ(W*s_t+b)，其中W和b表示策略网络的网络参数，π(a_t|s_t；θ)表示动作a_t的概率策略函数，σ表示sigmoid激活函数；

策略网络的目标函数基于REINFORCE算法和策略梯度方法设置为其中R_L为延迟奖励；并采用随机策略CNet并使用延迟奖励来指导策略学习。

优选的，步骤S5中的具体步骤如下：

策略网络采用随机策略和延迟奖励来指导策略学习，具体为从transformer模型中获取状态s_t，并根据当前的状态s_t执行对应的动作a_t，同时利用每个状态s_t的概率对整个专利文本句子对应词向量对应的动作a_t进行采样以获取预测的延迟奖励；一旦整个句子中的所有动作a_t都被策略网络决策完毕，句子的结构化表示由结构化表示模型确定，结构化表示作为输入传递给分类网络，奖励将根据预测分布p(y|X)进行计算，运用计算的奖励再反用于策略学习；

具体的，transformer模型结合策略网络中获得的动作a_t将词向量转换为句子的结构化表示形式，从而训练transformer模型，具体为：

h_t表示隐藏层特征向量，transformer_block(h_t-1)表示tranformer模型的函数；

transformer模型的encoder部分通过h个不同的线性变换对Q，K，V进行投影，其中，K＝V，表示输出向量，Q表示输入的词向量，最后将不同的attention结果拼接起来，具体如下列公式所示：

Multihead(Q，K，V)＝Concat(head₁，…，head_s)W^o

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中W表示网络参数， d_model表示transformer模型层数，d_K＝d_V＝d_model/h状态对应的分类公式p(y|X)＝softmax(W_s*h_L+b_s)，策略网络对应奖励其中y∈{c₁，c₂，...，c_K}，c_t-1表示已标记的数据，表示参数，d表示隐藏状态的维度，K表示类别的数量，L表示已删除的单词数，Υ表示超参数。

优选的，步骤S6中的具体步骤如下：

采用交叉熵来衡量分类模型的准确性：

其中，表示X的one-hot分布，p(y|X)表示预测分布。

与现有技术相比，本发明技术方案的有益效果是：

本发明的发明点在于结合结构化表示模型引入了强化学习的思想，并采用策略网络对文本进行简化，相较于传统文本分类方法该方法考虑到句子结构，本发明考虑了句子的结构化特征，并且能提取与任务相关的单词以形成纯化的句子表示，使得文本分类更加高效，对于专利文本这种领域词多、专业性强的文本分类效果更好。

附图说明

图1为本发明的流程图。

图2为本发明的基于强化学习的结构化表示模型的模型图。

图3为本发明的结构化表示模型

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1、图2以及图3所示，一种基于强化学习的专利文本分类方法，包括以下步骤：

步骤S2：对专利数据集进行分词操作，并去除停用词；

步骤S4：构建结构化表示模型以及策略网络；

步骤S6：根据句子的结构化表示对专利文本进行分类；

步骤S7：使用交叉熵来衡量分类的准确率。

优选的，步骤S1具体包括以下步骤：

优选的，步骤S2的具体步骤如下：

优选的，步骤S3中构建词汇-索引映射表的具体步骤如下：

优选的，步骤S4中的具体步骤如下：

所述的结构化表示模型包括transformer模型以及分类网络；

优选的，步骤S5中的具体步骤如下：

Multihead(Q，K，V)＝Concat(head₁，…，head_s)W^o

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

优选的，步骤S6中的具体步骤如下：

采用交叉熵来衡量分类模型的准确性：

其中，表示X的one-hot分布，p(y|X)表示预测分布。

实施例2

步骤S1，制作基于Triz的数据集。

步骤S2，对专利摘要进行分词，然后去停用词。

步骤S3，使用word2vec模型将词映射成索引表示，构建词汇-索引映射表，并保存成json的数据格式。

步骤S4，参见图1，引入策略网络训练transformer模型，从transformer模型中获取状态，为句子生成一个动作序列，根据结构化表示特征进行分类，并对策略网络进行奖励计算，从而对专利文本进行分类。

下面完整叙述其具体操作步骤：

步骤一：用python从佰腾网中爬取1万条专利数据，数据内容包括专利号、专利名和摘要内容，对专利数据基于Triz进行人工标注构建数据集。同时选取8000条数据作为训练集，2000条数据作为测试集。

步骤二：使用JIEBA分词系统进行分词，对于专利中频繁出现的词，例如：“一种”、“本发明”等加入停用词词组，并去除停用词。

步骤三：采用word2vec模型的CBOW模式对专利文本进行语义学习，将词映射成索引表示，构建词汇-索引映射表，并保存成json的数据格式。

步骤四：对于策略网络，t时刻采用动作α的概率为π(a_t|s_t；θ)＝σ(W*s_t+b)，其中W和b表示策略网络的网络参数，π(a_t|s_t；θ)表示动作a_t的概率策略函数，s_t表示当前状态，σ表示sigmoid激活函数，而基于随机策略梯度方法设置目标函数为对于结构化表示模型，见图2，使用transformer从策略网络中获得的操作转换为句子的结构化表示形式，具体为

h_t表示隐藏层特征向量，transformer_block(h_t-1)表示tranformer模型的函数。状态表示为对应的分类公式p(y|X)＝softmax(W_s*h_L+b_s)。其中表示参数，d表示隐藏状态的维度，K表示类别的数量策略网络对应奖励其中y∈{c₁，c₂，...，c_K}，c_g表示已标记的数据，L表示已删除的单词数，Υ表示超参数。最后采用交叉熵来衡量分类模型的准确性。

表示X的one-hot分布，p(y|X)表示预测分布。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于强化学习的专利文本分类方法，其特征在于，包括以下步骤：

步骤S2：对专利数据集进行分词操作，并去除停用词；

步骤S4：构建结构化表示模型以及策略网络；

步骤S6：根据句子的结构化表示对专利文本进行分类；

步骤S7：使用交叉熵来衡量分类的准确率。

2.根据权利要求1所述的一种基于强化学习的专利文本分类方法，其特征在于，步骤S1具体包括以下步骤：

3.根据权利要求2所述的一种基于强化学习的专利文本分类方法，其特征在于，步骤S2的具体步骤如下：

4.根据权利要求3所述的一种基于强化学习的专利文本分类方法，其特征在于，步骤S3中构建词汇-索引映射表的具体步骤如下：

5.根据权利要求4所述的一种基于强化学习的专利文本分类方法，其特征在于，步骤S4中的具体步骤如下：

所述的结构化表示模型包括transformer模型以及分类网络；

6.根据权利要求5所述的一种基于强化学习的专利文本分类方法，其特征在于，步骤S5中的具体步骤如下：

Multihead(Q,K,V)＝Concat(head₁,…,head_s)W^o

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中W表示网络参数， d_model表示transformer模型层数，d_K＝d_V＝d_model/h状态对应的分类公式p(y|X)＝softmax(W_s*h_L+b_s)，策略网络对应奖励其中y∈{c₁,c₂,…,c_K}，c_t-1表示已标记的数据，表示参数，d表示隐藏状态的维度，K表示类别的数量，L表示已删除的单词数，Υ表示超参数。

7.根据权利要求5所述的一种基于强化学习的专利文本分类方法，其特征在于，步骤S6中的具体步骤如下：

采用交叉熵来衡量分类模型的准确性：

其中，表示X的one-hot分布，p(y|X)表示预测分布。