CN110162631A

CN110162631A - 面向triz发明原理的中文专利分类方法、系统及储存介质

Info

Publication number: CN110162631A
Application number: CN201910413039.9A
Authority: CN
Inventors: 黄芸茵; 常会友
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-23

Abstract

本发明涉及一种面向TRIZ发明原理的中文专利分类方法，包括以下内容：获取专利文本数据构建训练数据集，对训练数据集中的专利文本进行基于TRIZ发明原理的标注；对训练数据集中的专利文本进行去除无意义符号、去除非中文、分词、去除停用词的预处理，然后将得到的词语投射到低维的向量空间，得到词向量表示；构建Bi‑LSTM模型，将训练数据集中的专利文本的词向量表示输入至Bi‑LSTM模型中对其进行训练；获取待分类的专利文本，将待分类的专利文本的词语投射到低维的向量空间，得到词向量表示，将词向量表示输入至Bi‑LSTM模型中，Bi‑LSTM模型输出待分类的专利文本的分类结果。

Description

面向TRIZ发明原理的中文专利分类方法、系统及储存介质

技术领域

本发明涉及专利文本分类技术领域，更具体地，涉及一种面向TRIZ发明原理的中文专利分类方法、系统及储存介质。

背景技术

专利作为技术创新和科学研究最重要的表现形式之一，包含着大量的技术信息，是衡量一个国家或企业科技创新能力的重要指标，也是其核心竞争力的直接体现。对已有专利文本进行研究不仅可以得到一个国家、地区或企业的技术发展动态和水平，挖掘其技术发展路径和发展规律，还可以指导未来科技创新的方向，对智能制造转型升级技术路径分析至关重要，同时可以为企业决策提供可靠支持，缩短创新周期，降低研发费用。

专利分类作为专利文本研究的基础性工作，在专利检索、专利聚类、专利挖掘等信息利用方面起着重要的作用。但传统的专利分类存在以下问题：

第一，传统专利分类多依据国际专利分类法IPC和美国专利分类法USPC，二者多是以专利所涉及的领域、应用范围、功能用途等划分。这种分类方法有利于专利的管理和查找，但其无法揭示专利所解决的技术问题和解决问题所使用的技术原理，研究者想要从海量的专利文本中找到有用的技术信息需要耗费大量的人力物力，对于专利信息的有效利用具有很大的局限性，不便于研究人员进行技术路径的研究，也难以实现技术手段向其他领域的推广，不利于进行高效率的技术创新。因此，基于技术原理的专利分类方法有很大需求空间。

第二，传统的专利分类都由专利局各个领域的专家手工分类完成，耗时耗力，基于计算机技术的专利自动分类方法的研究具有很大的发展空间。

TRIZ理论是制造业领域的一个重要理论，为专利分类提供了新的研究思路。在基于TRIZ的分类标准下，专利以解决技术问题所使用的科学原理而划分，研究人员能够一目了然地掌握专利文本所蕴含的技术信息、所解决的技术问题和解决技术问题使用的发明原理，为便捷地进行技术路径的研究奠定了基础，大大提高了专利的应用率和企业寻找核心技术的效率，同时研究结果具有普遍借鉴意义，缩短了发明周期，使解决发明问题更具有可预见性。但是，目前国内关于TRIZ理论在专利研究方面的应用尚在探索阶段，没有形成统一、权威的研究方法和研究结果。

发明内容

本发明的发明目的在于提供一种面向TRIZ发明原理的中文专利分类方法，其利用TRIZ发明原理对专利文本进行分类，弥补了现有技术的空白，应用该项技术可以快速有效地对专利文本按TRIZ发明原理进行分类，便于企业寻找核心技术。

为实现以上发明目的，采用的技术方案是：

一种面向TRIZ发明原理的中文专利分类方法，包括以下内容：

获取专利文本数据构建训练数据集，对训练数据集中的专利文本进行基于TRIZ发明原理的标注；

将训练数据集中的专利文本的词语投射到低维的向量空间，得到词向量表示；

构建Bi-LSTM模型，将训练数据集中的专利文本的词向量表示输入至Bi-LSTM模型中对其进行训练；

获取待分类的专利文本，将待分类的专利文本的词语投射到低维的向量空间，得到词向量表示，将词向量表示输入至Bi-LSTM模型中，Bi-LSTM模型输出待分类的专利文本的分类结果。

优选地，所述获取专利文本数据构建训练数据集，以及获取待分类的专利文本后，需要对训练数据集中的专利文本、待分类的专利文本进行预处理。

优选地，所述的预处理包括去除无意义符号、去除非中文、分词、去除停用词。

优选地，所述预处理中的分词使用结巴分词工具实现。

优选地，使用所述结巴分词工具进行分词时，将专利文本所属的技术领域的领域词典加入分词过程中，然后对分词的结果进行人工分析，识别其是否存在未登录词，若存在，则将未登录词加入领域词典中。

优选地，所述对Bi-LSTM模型进行训练的具体实现形式如下：所述训练数据集中的专利文本的词向量表示输入至Bi-LSTM模型中，Bi-LSTM模型输出分类的结果，基于Bi-LSTM模型输出的分类结果计算Bi-LSTM模型的损失函数，然后利用自适应梯度下降算法对Bi-LSTM模型的损失函数进行优化，直至损失函数收敛。

优选地，所述Bi-LSTM模型的损失函数为交叉熵函数。

优选地，所述的Bi-LSTM模型包括输入层、隐藏层、输出层，输入层、隐藏层、输出层之间通过全连接的方式进行连接，输入层用于接收专利文本的词向量表示并将其传输至隐藏层；隐藏层用于基于专利文本的词向量表示提取专利文本的语义信息，然后将提取的专利文本的语义信息传输至输出层；输出层使用softmax函数基于专利文本的语义信息对专利文本进行分类，然后输出分类结果。

同时，本发明还提供了一种应用以上方法的系统，其具体的方案如下：

包括训练数据集构建模块、TRIZ发明原理标注模块、词向量表示投射模块、Bi-LSTM模型构建模块和待分类专利文本获取模块；

其中训练数据集构建模块用于构建训练数据集；

TRIZ发明原理标注模块用于对训练数据集中的专利文本进行基于TRIZ发明原理的标注；

词向量表示投射模块用于将训练数据集中的专利文本及待分类的专利文本的词语投射到低维的向量空间，得到词向量表示；

Bi-LSTM模型构建模块用于构建Bi-LSTM模型，并利用训练数据集中的专利文本的词向量表示对Bi-LSTM模型进行训练，以及将待分类的专利文本的词向量表示输入至Bi-LSTM模型中，并输出Bi-LSTM模型输出的待分类的专利文本的分类结果；

待分类专利文本获取模块用于获取待分类的专利文本。

另外，本发明还提供了一种存储介质，其内部存储有程序，所述程序运行时执行以上中文专利分类方法的执行步骤。

与现有技术相比，本发明的有益效果是：

1)本发明利用TRIZ发明原理对专利文本进行分类，弥补了现有技术的空白，应用该项技术可以快速有效地对专利文本按TRIZ发明原理进行分类，便于企业寻找核心技术。

2)本发明使用Bi-LSTM模型对专利文本的语义信息进行了提取，考虑上下文语义的影响，能够有效地提取语义信息。

附图说明

图1为方法的的流程示意图。

图2为Bi-LSTM模型的处理示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，本发明提供的方案提出了一种面向TRIZ发明原理的中文专利分类方法，其包括以下步骤：

S1.获取专利文本数据构建训练数据集，对训练数据集中的专利文本进行基于TRIZ发明原理的标注；

S2.将训练数据集中的专利文本的词语投射到低维的向量空间，得到词向量表示；

S3.构建Bi-LSTM模型，将训练数据集中的专利文本的词向量表示输入至Bi-LSTM模型中对其进行训练；

S4.获取待分类的专利文本，将待分类的专利文本的词语投射到低维的向量空间，得到词向量表示，将词向量表示输入至Bi-LSTM模型中，Bi-LSTM模型输出待分类的专利文本的分类结果。

本实施例针对刀具领域的专利文本进行了面向TRIZ发明原理的专利分类，所用到的数据中，主要为刀具领域的发明专利和实用新型专利，外观专利由于包含有较少的文字信息，所以没有TRIZ分析的价值。所用到的专利文本中，主要摘取其说明书摘要作为数据集。

本实施例涉及到的是刀具领域，其所存在的TRIZ发明原理经过挑选后总共有40条，对于每个专利文本来说，可能对应多个TRIZ发明原理，因此对每个发明原理都单独训练一个二分类器，即分类结果为：是否使用了该发明原理。根据该原则，将数据集做基于单个发明原理的标注，例如：对于发明原理1，数据集中有x条标注为1(使用该原理)，有y条标注为0(未使用该原理)。最终通过人工标注得到了数据集在各个TRIZ发明原理下的类别分布。

原始专利文本无法直接进行分类训练，需要进行数据的预处理。预处理包括：去除无意义符号、去除非中文、分词、去除停用词。

本实施例的处理对象是中文专利文本，而中文专利文本中的无意义符号和非中文字符对中文专利文本分类没有实际意义。因此，首先要去除专利文本中的无意义符号和非中文字符，将其替换为空格，以便于后续进行中文专利的分词。无意义符号及非中文字符如表1所示。

表1无意义符号和非中文字符表

标点符号	数字	外文	特殊字符
				，	0	Aa	/
。	1	Bb	～
				(	2	Cc	<
)	3	Dd	>
				…	…	…	…

经过上述处理，专利文本中的特殊字符、非中文、标点等均被去除，处理后的文本只剩中文，便于后续进行分词、特征提取等。

在英文中，单词与单词之间的空格是天然的分隔符，而中文不同，只有句与句之间的明显分隔，如逗号、句号等标点符号，而没有词与词之间的分隔，因此需要进行分词处理。本实施例使用的是结巴(jieba)分词工具。

专利的撰写通常具有一定的专业性，遵循一定的格式，但与通俗用语不同，专利文本中常出现生僻词语和专业术语，而结巴分词是普适性的，直接进行分词常会出现错分和漏分的现象，因此在分词时要考虑加入专利术语中的未登录词和领域词典。第一步，从网上搜集了专利领域词汇、刀具领域词汇作为初始领域词典加入分词过程。第二步，对前一步得到的去除非中文和特殊字符的文本进行初步分词，分词后得到了大量的词汇，这部分词汇中还可能存在未被收录在领域词典中的未登录词。第三步，通过对分词后的结果进行人工分析，识别其中是否存在未登录词，如果存在，则将其加入领域词典中。第四步，重复第二步和第三步的内容，直到分词后不再出现未登录词。在实际操作过程中，重复2～3次之后，未登录词就很少出现了。经过上述过程，最终形成的领域词典包括2106个词，如表2所示。

表2领域词典

分词后得到的一系列词汇包括大量的无用词，也就是停用词，分词过程中需要将这部分词去掉。由于本实施例的研究对象是刀具专利文本，因此在停用词的选择上也具有一定的特殊性。第一，网络上比较全面的停用词表所囊括的词语更偏向于生活化，包括很多口语化表达和俗语，且多以冠词、介词、连词、副词、象声词等为主，很少出现动词、名词等具有实际意义的词，而专利文本中有一部分词语本身具有实际意义但属于专利文本撰写中普遍出现的词语，这类词语对分类没有太大帮助，如“发明”“所述”“提供”等。因此，需要将专利中对分类无意义的高频词加入停用表。第二，网络上常用的停用表中有一些词与TRIZ规则的分析可能有一定的关联，因此需要对原始停用表进行一定程度的人工干预，尽量去除这类有可能对TRIZ分析产生关键影响的词语。因此，需要重新对停用词表进行构建和完善。

第一步，下载网上最常使用的停用词表，共包含1893个词语，使用人工干预的方式，剔除其中可能对TRIZ分类产生影响的词语。第二步，将第一步中经过处理的停用词表加入分词过程，进行分词，此时分词结果已经去掉了如“的”之类的基本停用词，然后统计词频，词频统计结果如表3所示。第三步，在高频词中挑选对专利分类无意义的词语如“发明”“一种”“位置”等词加入停用词表。经过干预后的停用词表共包括2198个词语，如表4所示。

表3部分词频统计结果表

表4部分停用词表

基本停用词	无意义词
		的	所述
了	发明
		且	提供
并	位置
		不但	涉及
不再	良好
		…

通过去除无意义符号、去除非中文、分词、去除停用词等步骤，专利文本实现了预处理，为后续特征提取奠定了基础。

要将自然语言交给深度学习中的算法来处理，需要首先将自然语言数学化。本实施例将专利文本中的单词进行数学化，表示成词向量形式。深度学习算法中模型参数的有效初始化能够在一定程度上提升模型的性能，在自然语言处理领域，使用经过大规模语料无监督学习得到的词向量进行模型输入的初始化是一种常用的提高模型效果的方法，这些用来初始化的词向量通常被称为预训练的词向量。目前深度学习方法中主要使用的预训练词向量有两类，一类是word2vec模型训练的词向量，word2vec中包含两种训练的方式：CBOW算法通过上下文预测中间词汇，Skip-gram算法通过中间词汇预测上下文。另一类是GloVe模型训练的词向量，这是一种本质上对词汇和上下文的共现矩阵进行降维的方法。两种方法都能在大规模语料基础上学习到具有丰富语义信息的词语的向量表示。词嵌入层通过将输入文本中的词语投射到这些预训练词向量所在的向量空间来初始化模型输入。

假设一个预训练的词向量矩阵E∈R^V×D，对于一个长度为n的样本输入文本S，将文本中的各个单词投射到预训练词向量所在空间，表示成一个低维的向量，文本则表示成为一组词向量的序列，具体过程可以形式化为公式(1)及公式(2)。

S＝(x₁,x₂,...,x_n) (1)

w_t＝lookup(E,x_t) (2)

其中，V表示预训练词向量矩阵中的词汇数量，d表示向量维度，x_i是文本中第i个单词的词向量表示。

提取得到专利文本的词向量表示后，将其输入至Bi-LSTM模型中。

目前，原始RNN只有隐藏层一个状态，对于短期的输入非常敏感。而LSTM模型增加了细胞状态单元c来保存长期状态。在t时刻，LSTM模型的输入包括当前时刻网络的输入值x_t(在本实施例中即为词向量)，上一时刻LSTM的输出值即隐藏层状态h_t-1，以及上一时刻的单元状态c_t-1；输出则有两个：当前时刻LSTM的输出值即隐藏层状态h_t和当前时刻的单元状态c_t。为了解决长期依赖问题，LSTM有通过精心设计的称作为“门”的结构来控制长期状态c。“门”是一种让信息选择式通过的方法，拥有去除或者增加信息到细胞状态的能力，包含一个sigmoid神经网络层和一个按位的乘法操作。Sigmoid层输出0到1之间的值，描述每个部分有多少量可以通过，0代表“不允许任意量通过”，1代表“允许任意量通过”。

LSTM拥有三个门，分别是：遗忘门f_t，输入门i_t和输出门o_t。遗忘门决定上一时刻单元状态c_t-1有多少保留到当前时刻c_t，遗忘门的计算如公式(3)。

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (3)

输入门决定了当前时刻网络的输入x_t有多少保存到单元状态c_t，输入门的计算如公式(4)(5)(6)。

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (4)

输出门控制单元状态c_t有多少输出到LSTM当前输出值h_t，输出门的计算如公式(7)(8)。

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (7)

h_t＝c_t*tanh(c_t) (8)

其中σ表示sigmoid函数，W是权重矩阵，b是偏置向量。

对于输入文本S，LSTM模型在t时刻的输入是S中第t个单词的词向量，对应的隐藏层状态为h_t。从S中的第一个词开始，截止各个位置编码得到的语义信息可以用对应位置的隐藏层状态h_t表示，因此最后时刻的隐藏层状态h_n包含了输入文本的全部语义信息。

为了考虑上下文的影响，本实施例使用Bi-LSTM模型对文本进行遍历，提取专利文本的语义信息。输入序列分别按照正序和逆序输入两层LSTM，这两层LSTM模型之间没有交互。Bi-LSTM模型在每个时刻输出两层LSTM的隐藏层状态。对于输入文本S，分别得到正序和逆序两个方向上的隐藏层状态，假设S在t时刻的输入为x_t，则隐藏层状态形式化表示为公式(9)和(10)。

[h_L1,h_L2,...,h_Lt,...,h_Ln]＝LSTM_L[x₁,x₂,...,x_t,...,x_n] (9)

[h_R1,h_R2,...,h_Rt,...,h_Rn]＝LSTM_R[x_n,x_n-1,...,x_n-t+1,...,x₁] (10)

由于h_Rn和h_Ln包含了前向和后项两个方向上所有的信息，因此将二者拼接起来，作为Bi-LSTM模型最后时刻的隐藏层输出，如公式(11),并输入到softmax函数进行后续步骤。

h_n＝contact[h_Ln,h_Rn]

以上过程具体如图2所示。

在深度学习中，softmax是个非常实用且重要的函数，在分类场景中应用非常广泛。它能够将输入映射成为0到1之间的一个实数，并且将结果归一化保证和为1。本实施例将softmax函数接在Bi-LSTM最后时刻隐藏层的输出上作为神经网络最后的输出层。Softmax值计算方式如下：

如果有一个数组Z，Z_i是其中的第i个元素，那么这个元素的softmax值为

语义提取以后，将Bi-LSTM模型的输出h_n传给softmax函数进行分类。得到归一化的分类概率分布结果predict。

predict＝softmax(Wh_n+b)

训练模型时，本实施例使用交叉熵作为损失函数，损失函数的具体计算如公式所示。

其中，M表示神经网络最终输出的维度，即类别数目；表示样本l属于类别i的真实概率，只能为0或者1，若l的标签为类别i，则概率值为1，否则概率值为0。p_i(l)表示样本l属于类别i的模型预测概率。

本实施例使用自适应梯度下降算法，简称Adagrad算法，对损失函数进行优化。与传统的随机梯度下降算法(SGD)相比，Adagrad算法具有一定的优越性。SGD算法在训练过程中保持单一的学习率不会改变，而且所有参数的更新是同步的，而Adagrad算法不同，学习率与参数的更新绑定在一起，能够在训练时自动调整学习率。如果某些参数更新的频率较低，那么就会增大其学习率使其更新的幅度加大；相反，如果某些参数的更新频率较高，那么就使用较小的学习率使参数更新的幅度变小。这种方式能够使目标函数更快速收敛。

实施例2

本实施例提供了一种基于实施例1方法的系统，其包括训练数据集构建模块、TRIZ发明原理标注模块、词向量表示投射模块、Bi-LSTM模型构建模块和待分类专利文本获取模块；其中训练数据集构建模块用于构建训练数据集；TRIZ发明原理标注模块用于对训练数据集中的专利文本进行基于TRIZ发明原理的标注；词向量表示投射模块用于将训练数据集中的专利文本及待分类的专利文本的词语投射到低维的向量空间，得到词向量表示；Bi-LSTM模型构建模块用于构建Bi-LSTM模型，并利用训练数据集中的专利文本的词向量表示对Bi-LSTM模型进行训练，以及将待分类的专利文本的词向量表示输入至Bi-LSTM模型中，并输出Bi-LSTM模型输出的待分类的专利文本的分类结果；待分类专利文本获取模块用于获取待分类的专利文本。

实施例3

本实施例提供了一种存储介质，内部存储有程序，所述程序运行时执行实施例1的中文专利分类方法的执行步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向TRIZ发明原理的中文专利分类方法，其特征在于：

2.根据权利要求1所述的面向TRIZ发明原理的中文专利分类方法，其特征在于：所述获取专利文本数据构建训练数据集，以及获取待分类的专利文本后，需要对训练数据集中的专利文本、待分类的专利文本进行预处理。

3.根据权利要求2所述的面向TRIZ发明原理的中文专利分类方法，其特征在于：所述的预处理包括去除无意义符号、去除非中文、分词、去除停用词。

4.根据权利要求3所述的面向TRIZ发明原理的中文专利分类方法，其特征在于：所述预处理中的分词使用结巴分词工具实现。

5.根据权利要求4所述的面向TRIZ发明原理的中文专利分类方法，其特征在于：使用所述结巴分词工具进行分词时，将专利文本所属的技术领域的领域词典加入分词过程中，然后对分词的结果进行人工分析，识别其是否存在未登录词，若存在，则将未登录词加入领域词典中。

6.根据权利要求1～5任一项所述的面向TRIZ发明原理的中文专利分类方法，其特征在于：所述对Bi-LSTM模型进行训练的具体实现形式如下：所述训练数据集中的专利文本的词向量表示输入至Bi-LSTM模型中，Bi-LSTM模型输出分类的结果，基于Bi-LSTM模型输出的分类结果计算Bi-LSTM模型的损失函数，然后利用自适应梯度下降算法对Bi-LSTM模型的损失函数进行优化，直至损失函数收敛。

7.根据权利要求6所述的面向TRIZ发明原理的中文专利分类方法，其特征在于：所述Bi-LSTM模型的损失函数为交叉熵函数。

8.根据权利要求6所述的面向TRIZ发明原理的中文专利分类方法，其特征在于：所述的Bi-LSTM模型包括输入层、隐藏层、输出层，输入层、隐藏层、输出层之间通过全连接的方式进行连接，输入层用于接收专利文本的词向量表示并将其传输至隐藏层；隐藏层用于基于专利文本的词向量表示提取专利文本的语义信息，然后将提取的专利文本的语义信息传输至输出层；输出层使用softmax函数基于专利文本的语义信息对专利文本进行分类，然后输出分类结果。

9.一种基于权利要求1～8任一项所述中文专利分类方法的中文专利分类系统，其特征在于：包括训练数据集构建模块、TRIZ发明原理标注模块、词向量表示投射模块、Bi-LSTM模型构建模块和待分类专利文本获取模块；

其中训练数据集构建模块用于构建训练数据集；

待分类专利文本获取模块用于获取待分类的专利文本。

10.一种存储介质，其内部存储有程序，其特征在于：所述程序运行时执行权利要求1～8任一项的中文专利分类方法的执行步骤。