CN114091794A

CN114091794A - 专利价值评估模型训练方法、评估方法、装置及其设备

Info

Publication number: CN114091794A
Application number: CN202010752514.8A
Authority: CN
Inventors: 刘恺; 张灏
Original assignee: Beijing Xinju Intellectual Property Co ltd
Current assignee: Beijing Xinju Intellectual Property Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-02-25

Abstract

本发明公开了一种专利价值评估模型训练方法、评估方法、装置及其设备，该训练方法包括：使用训练样本分别对多个预设的机器学习模型进行训练，分别得到对应的多个单一评估模型；对得到的多个单一评估模型进行权重赋值，并根据每个单一评估模型的权重值，将多个单一评估模型融合为复合评估模型；使用训练样本对复合评估模型进行训练，得到专利价值评估模型；其中，训练样本中包括多个专利样本数据，每个专利样本数据中包括至少一个专利评价指标和该专利样本数据的价值评估值。本发明通过使用专利评价指标进行模型训练，不再依靠专家主观影响制定的权重值，排出了主观因素的干扰，最终生成的模型能够准确的、客观的反映出专利的价值评估值。

Description

专利价值评估模型训练方法、评估方法、装置及其设备

技术领域

本发明涉及数据信息处理技术领域，特别涉及一种专利价值评估模型训练方法、评估方法、装置及其设备。

背景技术

随着科技的发展，专利的已经成为了保护知识产权最重要的组成部分，在过去的几年里，专利的申请量也逐年递增。申请专利并获得专利权后，既可以保护自己的发明成果，防止科研成果流失，获取垄断利润来弥补研发投入，同时也有利于科技进步和经济发展。不管对于个人还是企业，专利的价值已显得尤为重要。

然而，在如何评估一个专利真正的价值时，传统的价值评估系统大多为人工方式或专家系统。例如，人工方式中常用的评估方法比如成本法、市场价值法、收益现值法等，其中往往涉及到多个评价指标，运算工作量大，会消耗较大的人力资源；同时，由于依赖于人工操作，在评估过程中可能出现主观偏向，影响真实的专利价值。再例如，专家系统经常根据少数指标来评估一个专利整体的价值。例如，研究者将专利的被引用数次数为专利价值体现的一个重要指标。被引用次数越多，意味着专利的价值越高，即根据专家的经验，制定相应的权重。

因此，人工运算量大、指标覆盖不足、权重受专家主观影响大是目前专利价值评估系统的严重不足。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种专利价值评估模型训练方法、评估方法、装置及其设备。

第一方面，本发明实施例提供一种专利价值评估模型训练方法，可以包括：

使用训练样本分别对多个预设的机器学习模型进行训练，分别得到对应的多个单一评估模型；

对得到的多个所述单一评估模型进行权重赋值，并根据每个单一评估模型的权重值，将多个所述单一评估模型融合为复合评估模型；

使用所述训练样本对所述复合评估模型进行训练，得到专利价值评估模型；

其中，所述训练样本中包括多个专利样本数据，每个所述专利样本数据中包括至少一个专利评价指标和该专利样本数据的价值评估值。

可选的，所述分别得到对应的多个单一评估模型之前，还包括：

使用验证样本分别对多个训练后的预设的机器学习模型的训练结果进行验证；

若验证结果小于预设的第一期望阈值时，分别确定对应的单一评估模型；否则，使用训练样本重新对多个预设的机器学习模型进行训练或根据验证结果调整对应的单一评估模型的模型参数；

所述得到专利价值评估模型之前，还包括：

使用验证样本对训练后的复合评估模型的训练结果进行验证；

若验证结果小于预设的第二期望阈值时，确定所述专利价值评估模型；否则，使用训练样本重新对复合评估模型进行训练或根据验证结果调整复合评估模型的模型参数；

可选的，还可以包括：

对所述训练样本和所述验证样本进行预处理；所述预处理包括：

按照所述专利评价指标和所述价值评估值的预设阈值范围，剔除不符合预设阈值范围的专利样本数据；

计算剔除后的所述专利样本数据的每个所述专利评价指标的平均值，并使用所述平均值对缺失专利评价指标的数据进行补充；

对所述专利评价指标和所述价值评估值进行归一化处理。

可选的，所述对所述训练样本和所述验证样本进行预处理之后，还可以包括：对所述专利样本数据中包括的专利评价指标进行筛选，确定出对价值评估值关联度大于预设关联度阈值的专利评价指标作为输入评价指标；

以所述输入评价指标进行训练和验证。

可选的，所述对所述专利样本数据中包括的专利评价指标进行筛选，包括：

按照每个所述专利评价指标的方差和/或每个所述专利评价指标的信息熵对所述专利评价指标进行筛选。

可选的，所述使用所述训练样本对所述复合评估模型中进行训练，得到专利价值评估模型，包括：

使用梯度下降法迭代所述权重值，并将所述复合评估模型的评估结果与所述价值评估值进行比较；

当得到的差值小于期望的阈值时，确定所述复合评估模型中的新的权重值；

以所述新的权重确定所述专利价值评估模型。

第二方面，本发明实施例提供一种专利价值评估方法，可以包括：

获取待评估专利文本；

从所述待评估专利文本确定至少一个专利评价指标；

将所述专利评价指标输入到专利价值评估模型中，得到所述待评估专利的价值评估值；

其中，所述专利价值评估模型根据第一方面所述的专利价值评估模型训练方法得到的。

第三方面，本发明实施例提供一种专利价值评估模型训练装置，可以包括：

第一训练模块，用于使用训练样本分别对多个预设的机器学习模型进行训练，分别得到对应的多个单一评估模型；

融合模块，用于对得到的多个所述单一评估模型进行权重赋值，并根据每个单一评估模型的权重值，将多个所述单一评估模型融合为复合评估模型；

第二训练模块，用于使用所述训练样本对所述复合评估模型进行训练，得到专利价值评估模型；

其中，所述训练样本中包括多个专利样本数据，每个所述专利样本数据中包括至少一个专利评价指标和该专利的价值评估值。

第四方面，本发明实施例提供一种专利价值评估装置，包括：

获取模块，用于获取待评估专利文本；

确定模块，用于从所述待评估专利文本确定至少一个专利评价指标；

评估模块，用于将所述专利评价指标输入到专利价值评估模型中，得到所述待评估专利的价值评估值；

其中，所述专利价值评估模型是根据第一方面所述的专利价值评估模型训练方法得到的。

第五方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的专利价值评估模型训练方法，或实现第二方面所述的专利价值评估方法。

第六方面，本发明实施例提供一种服务器，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，可用于实现第一方面所述的专利价值评估模型训练方法，或实现第二方面所述的专利价值评估方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例基于大量的训练样本分别对多个预设的机器学习模型进行训练，得到对应的多个单一评估模型。由于每个专利样本数据中包含有至少一个专利评价指标和价值评估值，该专利评价指标在进行模型训练时，不再依靠专家主观影响制定的权重值，而且通过机器学习的方式排出主观因素的干扰，进而得到多个客观的单一评估模型。然后将多个单一评估模型进行权重赋值，即每个模型有各自的模型权重，根据每个单一评估模型的权重值融合为复合评估模型，再次基于大量的训练样本对复合评估模型进行训练，最终得到专利价值评估模型。本发明发明人为了避免单一评估模型的偏差，将多个单一评估模型进行了融合，使得经过大量训练的复合评估模型更加稳定，能够更加准确的、客观的反映出专利的价值评估值。

优选的，本发明实施例通过评价指标进行筛选，确定出对价值评估值正相关的评价指标，剔除了无用指标和重复指标，以输入评价指标作为训练样本，最终得到的模型更加贴合专利的实际价值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1中提供的专利价值评估模型训练方法的流程图；

图2为本发明实施例1中提供的一种详细的评估模型训练方法的流程图；

图3为本发明实施例1中提供的预处理的流程图；

图4为本发明实施例1中提供的专利价值评估模型训练装置的结构示意图；

图5为本发明实施例2中提供的专利价值评估方法的流程图；

图6为本发明实施例2中提供的专利价值评估装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例1

本发明实施例1提供了一种专利价值评估模型训练方法，该方法用于训练得到专利价值评估模型，参照图1所示，该方法可以包括以下步骤：

步骤S11、使用训练样本分别对多个预设的机器学习模型进行训练，分别得到对应的多个单一评估模型。

步骤S12、对得到的多个单一评估模型进行权重赋值，并根据每个单一评估模型的权重值，将多个单一评估模型融合为复合评估模型。

上述步骤S11和步骤S12中，训练样本中包括多个专利样本数据，每个专利样本数据中包括至少一个专利评价指标和该专利样本数据的价值评估值。

步骤S13、使用所述训练样本对所述复合评估模型进行训练，得到专利价值评估模型。

而且，本发明实施例生成的专利价值评估模型，能够基于至少一个专利评价指标快速准确的得出该专利的价值评估值，相对于现有技术中人工操作，更加方便快捷，提高了整体效率和准确度，降低了专利价值的衡量时的风险，提高了风控能力。

本发明实施例还提供了一种详细的专利价值评估模型训练方法，参照图2所示，可以包括以下步骤：

步骤S21、使用训练样本分别对多个预设的机器学习模型进行训练。

步骤S22、使用验证样本分别对多个训练后的预设的机器学习模型的训练结果进行验证；若验证结果小于预设的第一期望阈值时，执行步骤S23，否则执行步骤S24。

步骤S23、分别确定对应的单一评估模型。

步骤S24、使用训练样本重新对多个预设的机器学习模型进行训练或根据验证结果调整对应的单一评估模型的模型参数。

步骤S25、对得到的多个单一评估模型进行权重赋值，并根据每个单一评估模型的权重值，将多个单一评估模型融合为复合评估模型。

步骤S26、使用所述训练样本对所述复合评估模型进行训练。

步骤S27、使用验证样本对训练后的复合评估模型的训练结果进行验证；若验证结果小于预设的第二期望阈值时，执行步骤S28，否则执行步骤S29。

步骤S28、确定所述专利价值评估模型。

步骤S29、使用训练样本重新对复合评估模型进行训练或根据验证结果调整复合评估模型的模型参数。

本发明实施例中，增加了对单一评估模型和复合评估模型验证的步骤，验证的内容是预测专利价值评估值与真实专利价值评估值之间的差值，验证结果能够显示出单一评估模型和复合评估模型为欠拟合、正常拟合还是过拟合，并根据验证结果重新训练或调整模型参数，最终得到所需要的专利价值评估模型。

以下是对上述实施例1和实施例2中每个步骤详细说明：

上述步骤S11和步骤S21中，其中多个预设的机器学习模型可以包括以下模型：多元线性回归模型、多项式回归模型、随机森林模型、梯度提升树模型和极端梯度提升模型。

上述训练样本和验证样本中包括多个专利样本数据，每个专利样本数据中包括至少一个专利评价指标和该专利样本数据的价值评估值。本发明实施例中，专利评价指标可以包括：专利类型、布局国家数、扩散指数、外部生长指数、引用专利文献的国别、技术循环周期、被引用数量、相对被引数量、他引率、前向引证时间跨度、当前影响力等。

以下是结合本发明实施例中的训练样本和验证样本，对本发明实施例中预设的机器学习模型进行介绍。

<模型1>多元线性回归模型

多元线性回归模型(multivariable linear regression model)，直线回归研究的是一个因变量与一个自变量之间的回归问题，但在实际情况中，影响因变量的自变量往往不止一个，例如：专利样本数据的价值评估值可以受到专利的布局国家数、被引用数量等影响，因此需要进行一个因变量与多个自变量间的回归分析，即多元回归分析，对应的机器学习模型可以是多元线性回归模型。

多元线性回归模型通常用来描述变量Y和X之间的随机线性关系，即：

Y＝A₀+A₁*X₁+A₂*X₂+A₃*X₃+...+A_n*X_n+β；其中，X₁,...,X_n是非随机的变量；Y是随机的因变量；A₀,...,A_n是回归系数；β是随机误差项。

训练样本是(X,Y)，X是各个专利样本数据的专利评价指标对应的具体的数值，Y是各个专利样本数据的价值评估值的具体价值。将一个样本(X,Y)输入到模型中，通过调整参数(A,β)使得预测值Y_predict(预测值)和真实值Y之间的差值最小。

多元线性回归模型学习到的结果是参数(A,β)，其中，参数A是需要得到的结果。A中的每一项对应的是各个专利价值指标的权重，进而可以和专家系统中专家定义的权重进行对比；由于专家系统的每个指标对应的权重是专家根据个人的经验设定的，而模型的参数是根据大量的样本学习得到的。因此，本发明实施例得到的评估模型更加客观。

<模型2>多项式回归模型

在多元线性回归模型中，最终得到的是多维空间中的一条直线，但在现实生活中因变量与自变量的关系并不总是正比的。因此可能需要用曲线才能把因变量和自变量拟合在一起。这条曲线，就是数学中的多项式，对应机器学习中的模型就是多项式回归模型。

例如，二元二次多项式回归方程为：

Y＝B₀+B₁*X₁+B₂*X₂+B₃*X₁ ²+B₄*X₂ ²+B₅*X₁*X₂+β；

和多元线性回归模型类似，其中，X₁,X₂是非随机的自变量；Y是随机的因变量；B₀,...,B₅是回归系数；β是随机误差项。

以二元二次多项式为例，训练过程为：输入训练样本：(X₁,X₂,Y)，经过多项式模型生成多元线性回归模型的训练数据：(X₁,X₂,X₁ ²,X₂ ²,X₁*X₂,Y)；将上一步得到的数据输入到多元线性回归模型中，通过不断的训练调整参数B，使得预测值Y_predict和真实值Y之间的差值最小。最终得到的模型的参数不仅仅是各个指标的权重，这个模型的参数所构成的数学公式，对应了一条多维几何空间中的一条曲线，拟合因变量Y和自变量X之间的复杂的关系。

<模型3>随机森林

随机森林是集成学习(Ensemble)中的一种，主要思想是为了解决单个模型或者某一组参数的模型所固有的缺陷，从而整合起更多的模型，取长补短，避免局限性。随机森林就是集成学习思想下的产物，将许多棵决策树整合成森林，并合起来用来预测最终结果。

随机森林由很多的树组成，每棵树就是一个子模型。随机森林的最终的结果是所有子模型的结果投票决定的，所以随机森林对每棵树的精度要求不高。例如：

每个子模型的准确率是60％；

当子模型数量达到500时，整个随机森林的准确率可达99.999％；

随机森林的训练过程为：训练样本为：(X,Y)，X是各个专利评价指标的值，Y是价值评估值的值。首先，用bootstrap(一个带有网格系统、链接样式、背景的基本结构)方法生成m个训练集，然后，对于每个训练集，构造一颗决策树，在节点找特征进行分裂的时候，并不是对所有特征找到能使得专利评价指标(如信息增益)最大的，而是在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行分裂。随机森林的方法由于应用了bagging，即集成的思想，实际上相当于对于样本和特征都进行了采样(如果把训练数据看成矩阵，就像实际中常见的那样，那么就是一个行和列都进行采样的过程)，所以可以避免过拟合。

在价值评估的场景中，随机森林的预测阶段采用的是回归均值的方法，将所有的子模型的结果加和求平均作为结果输出。

随机森林是一种可解释性不强的机器学习模型，类似于输入与输出之间的一个暗盒。或者说，随机森林是一种基于大量数据的统计模型，可以学习到数据之间的微妙关系，往往可以得到一个不错的结果。

<模型4>梯度提升树(GBDT)

梯度提升树也是集成学习中的一种，在梯度提升树的迭代中，假设前一轮迭代得到的强学习器是ft-1(x)，损失函数是L(y,ft-1(x))，本轮迭代的目标是找到一个CART算法回归树模型的弱学习器ht(x)，让本轮的损失函数L(y,ft(x))＝L(y,ft-1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

以专利价值评估为例，假如有个专利的价值评估值为20万，首先使用10万去拟合，发现损失有10万，进而使用6万去拟合剩下的损失，发现差距还有4万，第三轮使用3万拟合剩下的差距，差距就只有1万了。如果迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的价值误差都会减小。

梯度提升树回归算法的训练过程：

输入是训练集样本{(x,y₁),(x₂,y₂),...(x_m,y_m)}T＝{(x,y₁),(x₂,y₂),...(x_m,y_m)}，最大迭代次数T,损失函数L；输出是强学习器f(x)。

1)初始化弱学习器；

2)对迭代轮数t＝1,2,...T有：

a)对样本i＝1,2，...m，计算负梯度；

b)利用(xi,rti)(i＝1,2,..m)(xi,rti)(i＝1,2,..m),拟合一颗CART回归树,得到第t颗回归树，其对应的叶子节点区域为Rtj,j＝1,2,...,JRtj,j＝1,2,...,J。其中J为回归树t的叶子节点的个数；

c)对叶子区域j＝1,2,..J,计算最佳拟合值；

d)更新强学习器；

3)得到强学习器f(x)。

预测阶段，将x输入强学习器f(x)，得到专利样本数据的价值评估值的预测值y。

<模型5>极端梯度提升模型(XGBoost)

作为GBDT的高效实现，XGBoost是一个上限特别高的算法。简单来说，对比原算法GBDT，XGBoost主要从下面三个方面做了优化：

一是算法本身的优化：在算法的弱学习器模型选择上，对比GBDT只支持决策树，还可以直接很多其他的弱学习器。在算法的损失函数上，除了本身的损失，还加上了正则化部分。在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度(一阶泰勒)展开，而XGBoost损失函数对误差部分做二阶泰勒展开，更加准确。

二是算法运行效率的优化：对每个弱学习器，比如决策树建立的过程做并行选择，找到合适的子树分裂特征和特征值。在并行选择之前，先对所有的特征的值进行排序分组，方便并行选择。对分组的特征，选择合适的分组大小，使用CPU缓存进行读取加速，将各个分组保存到多个硬盘以提高IO速度。

三是算法健壮性的优化：对于缺失值的特征，通过枚举所有缺失值在当前节点是进入左子树还是右子树来决定缺失值的处理方式。算法本身加入了L₁和L₂正则化项，可以防止过拟合，泛化能力更强。

XGBoost训练流程:

输入是训练集样本I＝{(x,y₁),(x₂,y₂),...(x_m,y_m)}，最大迭代次数T,损失函数L，正则化系数λ,γ；输出是强学习器f(x)。

对迭代轮数t＝1,2,...T有：

1)计算第i个样本(i-1,2,..m)在当前轮损失函数L基于ft-1(xi)的一阶导数gti，二阶导数hti,计算所有样本的一阶导数和Gt＝∑i＝1mgti,二阶导数和Ht＝∑i＝1mhti；

2)基于当前节点尝试分裂决策树，默认分数score＝0，G和H为当前需要分裂的节点的一阶二阶导数之和；

3)基于最大score对应的划分特征和特征值分裂子树；

4)如果最大score为0，则当前决策树建立完毕，计算所有叶子区域的wtj,得到弱学习器ht(x)，更新强学习器ft(x),进入下一轮弱学习器迭代；如果最大score不是0，则转到第2)步继续尝试分裂决策树。

XGBoost的预测过程和GBDT一样，将预测样本x输入到训练得到强学习器f(x)，得到预测的专利价值评估值。

在一个可选的实施例中，上述专利价值评估模型训练方法还可以包括：对训练样本和验证样本进行预处理；具体的，参照图3所示，预处理可以包括以下步骤：

步骤S31、按照专利评价指标和价值评估值的预设阈值范围，剔除不符合预设阈值范围的专利样本数据。

例如，本发明实施例中的专利评价指标的预设阈值范围为0～10，则按照该阈值范围将专利评价指标大于10或者小于0的专利样本数据剔除；还例如，本发明实施例中价值评估值的预设阈值范围为0.1～1000万元，若一个专利样本数据的价值评估值为0.001万元，则将该专利样本数据剔除。

步骤S32、计算剔除后的专利样本数据的每个专利评价指标的平均值，并使用平均值对缺失专利评价指标的数据进行补充。

本发明实施例中在进行专利价值评估模型训练时，使用的样本数据和验证数据中的专利样本数据的专利评价指标有很多个，但是并不是所有的专利样本数据中所有的专利评价指标都是可以获取的，当本发明实施例中的专利样本数据中的专利价值指标缺失时，可以使用计算出的每个专利评价指标的平均值对缺失的专利评价指标的数据进行补充。需要说明的是，本实施例中，若专利样本数据对应的价值评估值缺失，可以将该专利样本数据剔除，本发明实施例对此不作具体限定。

步骤S33、对专利评价指标和价值评估值进行归一化处理。

其中，归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。本实施例中归一化处理过程包括字段数据类型转换，将字段数据中的字符转换成数值，从而方便计算机读取和使用。本发明实施例中的上述预处理的方法举例说明如下：专利类型为发明专利，归一化处理结果为“1”；专利类型为实用新型专利，归一化处理结果为“2”；专利类型为外观设计专利，归一化处理结果为“3”……还例如，专利价值评估值也可以进行按照预设的方式进行归一化处理，y＝(x-MinValue)/(MaxValue-MinValue)，x为价值评估值，y为归一化结果，MaxValue、MinValue分别为专利样本数据的最大值和最小值。

在一个可选的实施例中，对训练样本和验证样本进行预处理之后，还包括：对专利样本数据中包括的专利评价指标进行筛选，确定出对价值评估值关联度大于预设关联度阈值的专利评价指标作为输入评价指标；以输入评价指标进行训练和验证。

本发明实施例中，对专利评价指标进行筛选的目的，是为了提炼筛选出与专利样本数据对应的价值评估值正相关的专利评价指标，例如对本发明实施例中上述专利样本数据中包含有100项专利评价指标，但是这100项专利评价指标中有些指标是对价值评估值不相关的指标，有些指标是关系密切的变量，或者有些指标是对价值评估值影响很小的指标，因此对这100项专利评价指标进行筛选，确定出对价值评估值关联度大于预设关联度阈值的专利评价指标作为输入评价指标；并以输入评价指标进行训练和验证步骤。

具体的，对专利样本数据中包括的专利评价指标进行筛选，可以包括：

按照每个专利评价指标的方差和/或每个专利评价指标的信息熵对专利评价指标进行筛选。

其中，上述两种筛选方法可以同时进行，也可以先进行其中一种再进行另一种筛选，本发明实施例对此不作具体限定。

需要说明的是，本发明实施例中按照每个专利评价指标的方差进行筛选的方法可以是主成分分析法，在用统计分析方法研究多变量的课题时，变量个数太多就会增加课题的复杂性。所以希望变量个数较少而得到的信息较多时，由于很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，将重复的变量(关系紧密的变量)删去多余，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。

主成分分析是设法将原来众多具有一定相关性(比如P个指标)，重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1(选取的第一个线性组合，即第一个综合指标)的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1,F2)＝0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

在一个具体的实施例中，例如获取的专利样本数据中有100个专利评价指标，可以先使用主成分分析法筛选出对价值评估值相关度为99％的前30项指标，再使用这30项指标的信息熵的排序结果，确定出前20项专利评价指标。

在一个可选的实施例中，使用训练样本对复合评估模型中进行训练，得到专利价值评估模型，包括：

使用梯度下降法迭代权重值，并将复合评估模型的评估结果与价值评估值进行比较；

当得到的差值小于期望的阈值时，确定复合评估模型中的新的权重值；

以新的权重确定专利价值评估模型。

在一个具体的实施例中，上述专利价值评估模型的训练方法中首先对预设的机器学习模型进行训练，以多元线性回归模型为例，第一步为数据预处理：去掉脏数据、补充缺失数据，将数据归一化，将数据拆分成训练集和验证集；第二步为数据分析：通过主成分分析法、计算信息熵等，筛选出相关性比较大的指标；第三步为模型搭建：从sklearn学习库中引入LinearRegression模块；第四步为模型训练：将处理好的训练样本输入到模型中，模型将自动进行训练；第五步为模型验证：将处理好的验证集输入到模型中，得到验证结果；第六步为根据模型验证的结果：例如，均方误差等，对1、2步进行调整，例如加大或减轻脏数据的清除力度、筛选指标的阈值等；然后重复步骤4、5、6，直到模型达到预期的结果。然后对训练得到的多个单一评估模型进行融合，例如为下述多元线性回归模型、多项式回归模型、随机森林、梯度提升树、XGBoost的5个模型的模型权重分别赋值，如权重值均为0.2，融合为复合评估模型，然后将上述训练样本输入到每个模型中得到数值，将每个数值和对应的权重加权求和得到最终的预测值。然后通过梯度下降法迭代权重，使得经过大量的数据训练后，预测值和真实值的差距小于期望的阈值。多模型融合规避了某些数据在某些模型上的偏差，使得模型更加的稳定。

基于同一发明构思，本发明实施例还提供了一种专利价值评估模型训练装置，参照图4所示，该装置可以包括：第一训练模块41、融合模块42、第二训练模块43，其工作原理如下：

第一训练模块41用于使用训练样本分别对多个预设的机器学习模型进行训练，分别得到对应的多个单一评估模型；

融合模块42用于对得到的多个所述单一评估模型进行权重赋值，并根据每个单一评估模型的权重值，将多个所述单一评估模型融合为复合评估模型；

第二训练模块43用于使用所述训练样本对所述复合评估模型进行训练，得到专利价值评估模型；

在一个可选的实施例中，参照图4所示，该装置还可以包括第一验证模块44和第二验证模块45，其中，第一验证模块44用于使用验证样本分别对多个训练后的预设的机器学习模型的训练结果进行验证；若验证结果小于预设的第一期望阈值时，分别确定对应的单一评估模型；否则，使用训练样本重新对多个预设的机器学习模型进行训练或根据验证结果调整对应的单一评估模型的模型参数；第二验证模块45用于使用验证样本对训练后的复合评估模型的训练结果进行验证；若验证结果小于预设的第二期望阈值时，确定所述专利价值评估模型；否则，使用训练样本重新对复合评估模型进行训练或根据验证结果调整复合评估模型的模型参数；

在一个可选的实施例中，该装置还可以包括预处理模块46，预处理模块46用于对所述训练样本和所述验证样本进行预处理；所述预处理包括：按照所述专利评价指标和所述价值评估值的预设阈值范围，剔除不符合预设阈值范围的专利样本数据；计算剔除后的所述专利样本数据的每个所述专利评价指标的平均值，并使用所述平均值对缺失专利评价指标的数据进行补充；对所述专利评价指标和所述价值评估值进行归一化处理。

在一个可选的实施例中，该装置还可以包括筛选模块47，筛选模块47用于对所述专利样本数据中包括的专利评价指标进行筛选，确定出对价值评估值关联度大于预设关联度阈值的专利评价指标作为输入评价指标；

第一训练模块、第二训练模块、第一验证模块和第二验证模块以所述输入评价指标进行训练和验证。

具体的，筛选模块47用于按照每个所述专利评价指标的方差和/或每个所述专利评价指标的信息熵对所述专利评价指标进行筛选。

在一个可选的实施例中，上述第二验证模块45具体实现方式如下：使用梯度下降法迭代所述权重值，并将所述复合评估模型的评估结果与所述价值评估值进行比较；当得到的差值小于期望的阈值时，确定所述复合评估模型中的新的权重值；以所述新的权重确定所述专利价值评估模型。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述专利价值评估模型训练方法。

基于同一发明构思，本发明实施例还提供了一种服务器，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，可用于实现上述专利价值评估模型训练方法。

关于上述实施例中的专利价值评估模型训练装置、介质和服务器，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例2

本发明实施例2提供了一种专利价值评估方法，该方法用于对专利的价值评估值进行评估，参照图5所示，该方法可以包括以下步骤：

步骤S51、获取待评估专利文本。

步骤S52、从待评估专利文本确定至少一个专利评价指标。

步骤S53、将专利评价指标输入到专利价值评估模型中，得到待评估专利的价值评估值；其中，上述专利价值评估模型是根据实施例1中所述的专利价值评估模型训练方法得到的。

本发明实施例提供的专利价值评估方法相对于现有技术中人工方式的评估方法，不再依赖于人工操作，减少了大量的人力资源，并且提高了专利价值评估的准确性。由于每个专利样本数据中包含有至少一个专利评价指标和价值评估值，该专利评价指标在进行模型训练时，不再依靠专家主观影响制定的权重值，而且通过机器学习的方式排出主观因素的干扰，进而得到多个客观的单一评估模型。然后将多个单一评估模型进行权重赋值，即每个模型有各自的模型权重，根据每个单一评估模型的权重值融合为复合评估模型，再次基于大量的训练样本对复合评估模型进行训练，最终得到专利价值评估模型。本发明发明人为了避免单一评估模型的偏差，将多个单一评估模型进行了融合，使得经过大量训练的复合评估模型更加稳定，能够更加准确的、客观的反映出专利的价值评估值。

基于同一发明构思，本发明实施例还提供了一种专利价值评估装置，参照图6所示，该装置可以包括获取模块61、确定模块62以及评估模块63，其工作原理如下：

获取模块61用于获取待评估专利文本；

确定模块62用于从所述待评估专利文本确定至少一个专利评价指标；

评估模块63用于将所述专利评价指标输入到专利价值评估模型中，得到所述待评估专利的价值评估值；

其中，所述专利价值评估模型是根据实施例1中所述的专利价值评估模型训练方法得到的。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述专利价值评估方法。

基于同一发明构思，本发明实施例还提供了一种服务器，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，可用于实现上述专利价值评估方法。

关于上述实施例中的专利价值评估装置、介质和服务器，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种专利价值评估模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别得到对应的多个单一评估模型之前，还包括：

所述得到专利价值评估模型之前，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

对所述专利评价指标和所述价值评估值进行归一化处理。

4.根据权利要求3所述的方法，其特征在于，所述对所述训练样本和所述验证样本进行预处理之后，还包括：对所述专利样本数据中包括的专利评价指标进行筛选，确定出对价值评估值关联度大于预设关联度阈值的专利评价指标作为输入评价指标；

以所述输入评价指标进行训练和验证。

5.根据权利要求4所述的方法，其特征在于，所述对所述专利样本数据中包括的专利评价指标进行筛选，包括：

6.根据权利要求1～5中任一项所述的方法，其特征在于，所述使用所述训练样本对所述复合评估模型中进行训练，得到专利价值评估模型，包括：

以所述新的权重确定所述专利价值评估模型。

7.一种专利价值评估方法，其特征在于，包括：

获取待评估专利文本；

从所述待评估专利文本确定至少一个专利评价指标；

其中，所述专利价值评估模型根据如权利要求1～6中任一项所述的专利价值评估模型训练方法得到的。

8.一种专利价值评估模型训练装置，其特征在于，包括：

9.一种专利价值评估装置，其特征在于，包括：

获取模块，用于获取待评估专利文本；

其中，所述专利价值评估模型是根据权利要求1～6中任一项所述的专利价值评估模型训练方法得到的。

10.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1～6中任一项所述的专利价值评估模型训练方法，或实现如权利要求7所述的专利价值评估方法。

11.一种服务器，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，可用于实现如权利要求1～6中任一项所述的专利价值评估模型训练方法，或实现如权利要求7所述的专利价值评估方法。