CN115795035A

CN115795035A - 基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质

Info

Publication number: CN115795035A
Application number: CN202211527115.7A
Authority: CN
Inventors: 费敏锐; 吴限; 周文举; 仵大奎; 易开祥; 徐昱琳
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-14

Abstract

本发明涉及一种基于进化神经网络的科技服务资源分类方法，该方法利用新型优化算法结合极限学习机网络，同时优化随机隐藏层和输出层参数，提高科技服务资源分类模型训练效率的同时，增强文本数据分类准确率，能够对汇集的科技服务资源按照行业划分进行自动化分类和整合。还包括一种相应的系统，具体包括：数据集构建模块，抽取不同类型资源数据，按行业划分类别并添加标签，构建分类训练和测试数据集；数据预处理模块，清洗数据集数据，并进行汉语分词、去停用词、Word2Vec向量化处理，得到所有数据的特征向量和词库；网络进化模块，基于榕树生长优化算法(BTGO)算法与ELM构建进化神经网络，应用新型更新算子优化隐藏层和输出层参数；资源分类模块，使用进化得到的神经网络模型，对科技服务资源测试集的文本数据进行模型评估，并对未知数据进行自动化资源分类。

Description

基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质

技术领域

本发明属于大数据处理技术领域，尤其涉及现代服务业中的科技服务技术领域，具体涉及一种基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质。

背景技术

科技服务业在为各种科技创新活动提供全方位服务的同时，也大大带动了经济增长和科技进步，已成为现代服务业的重要一环。科技服务资源作为科技服务的基础要素，对其进行有效整合能够提高资源利用率和成果转化效率。科技资源包括人才信息、知识产权、专利技术等类型，主要由文本数据组成，针对海量文本信息如何快速有效提取特征并进行分类是当前机器学习模型需要解决的问题。

目前，对文本数据的分类算法包括决策树、支持向量机、K最邻近算法、神经网络等，这些方法实现简单，但对于维度高、稀疏性大的科技资源数据往往存在精度不足的问题。极限学习机(Extreme Learning Machine,ELM)是一种新型前馈神经网络训练算法，利用随机设定的输入层和隐藏层权重和偏置，并结合广义逆矩阵计算得到输出层权重。ELM具有良好的数据拟合和泛化能力，同时由于其实现简单和训练速度快等特点，被广泛应用于分类、拟合等任务中。

由于ELM引入了随机的隐藏层权重，在训练时降低了训练复杂度，但其随机的参数设置往往难以保证实际应用中的稳定性和可靠性。因此，许多研究中基于元启发优化算法对ELM的随机参数进行优化，在多次迭代求解后全局化提高网络性能。如利用粒子群优化、遗传算法、差分进化等对隐藏层、输入层权值、结构等进行搜索，以形成进化神经网络方法。然而这些进化神经网络方法只关注于随机参数的优化，对于输出层参数未能有效利用和优化，因此需要改进和研究新型进化神经网络方法。

目前，针对科技服务资源数据处理方法，中国专利申请号“CN201410260379.X”公开了“一种基于文本分类和图像深度挖掘的科技情报获取与推送方法”；中国专利申请号“CN201811127718.1”公开了“一种基于大数据的农业科技服务智能分拣方法”；中国专利申请号“CN202110554334.3”公开了“一种基于知识图谱的科技文献分类方法”；中国专利申请号“CN201510846339.8”公开了“基于改进自适应遗传算法的神经网络图像分类方法”；中国专利申请号“CN201610012847.0”公开了“一种基于多局部搜索的神经网络进化方法”；中国专利申请号“CN201510714025.2”公开了“一种基于进化算法的自适应学习神经网络实现方法”。在已公开的发明或文献中，未提到使用基于本发明的进化神经网络方法的科技服务资源数据分类方法的实例。

发明内容

本发明提供了一种基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质，利用基于新型优化算法的进化神经网络对海量科技资源文本数据进行分类，提高科技服务资源分类模型训练效率的同时，增强文本数据分类准确率。基于以上目的，本发明所采取技术方案如下：

该基于进化神经网络的科技服务资源分类方法，其主要特点是，所述的方法包括以下步骤：

(1)抽取不同类型的科技服务资源数据，根据科技服务行业分类对每条数据划分类别并添加标签，构建分类训练和测试数据集；

(2)对数据集的文本数据进行汉语分词、去停用词处理，使用Word2Vec方法进行文本向量化，得到各数据的特征向量和词库，用于后续模型进化与评估；

(3)基于榕树生长优化BTGO算法与ELM构建进化神经网络，同时对神经网络随机参数和输出层参数进行优化，以提高网络分类准确率的同时增强收敛速度，得到最佳网络模型用于资源分类；

(4)使用上述获得的最终神经网络模型，对科技服务资源数据的测试数据集的文本数据进行模型评估，并对未知数据进行自动化资源分类。

优选地，在步骤(1)中，抽取的资源数据类型包含人才信息、知识产权、专利技术等类型，包括定期从实际运营中的科技服务资源库中抽取的不同行业元数据，按照比例划分训练、验证和测试集，以满足实际资源整合需求。

优选地，在步骤(2)中，对步骤(1)构建的数据集进行数据清洗、汉语分词、去停用词处理后，利用在超大批量科技文本数据集上预训练的Word2Vec模型对其进行文本向量化处理，将其转化为稠密的特征向量，并通过整理所有文本数据，得到数据集的特征向量及One-hot编码标签，用于后续模型进化与评估。

优选地，在步骤(3)中，应用榕树生长优化算法对ELM网络的所有参数进行编码优化，利用BTGO的全局优化策略同时对随机参数和输出层参数进行进化，以同时达到预测准确率和训练速度最优。

较佳地，所述步骤(3)进行初始化优化处理具体包括以下步骤：

(3.1)初始化榕树生长优化BTGO算法的参数及ElM网络参数，设置BTGO的种群规模NP、最大迭代次数Gmax、榕树枝干数目m、生长阶段阈值T_growth、再生阶段阈值T_recover；设置ELM的网络隐层节点数目；

(3.2)设置优化算法的适应度函数，即由x_i确定的神经网络在测试集的分类错误率，采用以下公式进行表示：

其中，TP、TN分别为将正类预测为正类数和将负类预测为负类数，FP、FN分别为将负类预测为正类数和将正类预测为负类数；

(3.3)BTGO采用实数编码框架，每个枝叶个体表示一组神经网络参数W，由神经网络的隐藏层权重W_hidden和输出层权重W_output两部分组成，第i个个体可表示为：

x_i＝[W_hidden；W_output]

＝[x_i，1，x_i，2，…，x_i，h，x_i，h+1，…，x_i，D] (2)

其中，h为神经网络隐藏层权重及偏差数目之和，D为所有权重数目之和；

(3.4)随机初始化BTGO种群中的80％个体，该部分个体的序号集合记为I(i∈I)，即个体x_i(i∈I)所有维度上的取值均为[-1，1]范围内的随机值，其计算如式(3)所示：

x_ij＝x_min，j+r×(x_max，j-x_min，j) (3)

其中，x_min，j和x_max，j分别表示解空间的最小值和最大值，r为[0，1]范围的随机值；

(3.5)对于所述步骤(3.4)的剩余20％个体，其序号集合记为I^*，表示隐藏层权重部分的位置为随机产生，表示输出层权重部分由ELM的广义逆MPP公式计算得到，即个体x_i(i∈I^*)前h位由式(3)计算，其余位的计算如式(4)所示，完整的计算如式(5)所示。

其中H为隐藏层输出矩阵，X为输入矩阵，β为输出层权重，β_m表示由广义逆计算得到的输出层权重β的第m位；

(3.6)以此应用初始种群中的个体所保存的参数x_i构建网络模型o_i，并预测测试集的标签

其中g()为神经网络的激活函数，具体为sigmoid函数，比较预测标签

和真实标签y计算分类错误率，并根据步骤(3.2)中的式(1)计算个体的适应度值；

(3.7)初始化BTGO气生根位置P^root并将其作为个体历史最优位置，按照种群中个体的适应度排名进行枝干群划分，将其按从小到大依次划分至m个子群，每个枝干群的最佳适应度个体作为该子群的最优位置，记为P^trunk；

(3.8)所有子群中自适应度值最小的个体视为当前最佳位置P^best，并更新最佳位置适应度值。

较佳地，所述步骤(3)进行网络模型优化完整处理具体包括以下步骤：

(3.9)记count_i为个体i未更新次数，若当前个体i的适应度值相比其气生根个体

更小，则将count_i的值置为0，否则其值加1；

(3.10)根据count_i的值执行BTGO不同更新算子，产生新的榕树种群个体，其中对于个体i∈I^*的前h位由更新算子更新，其余位由式(5)计算得到：个体i未更新次数count_i低于T_growth时，以pr的概率选择执行气生根算子或多树干算子；当大于T_growth小于T_recover时，执行调节算子产生新种群；

(3.11)执行生根算子或部分广义逆更新个体：个体随机概率小于pr时，执行生根算子更新如下：

其中，r为[-1，1]间的随机数，F为比例因子，满足上述步骤(3.10)中条件个体部分位置执行MPP更新；

(3.12)执行多树干算子或部分MPP方式更新：当个体i的随机概率大于pr时，执行多树干算子，其更新方式如式(8)：

其中r为[-1，1]范围内的随机数，F为比例因子，

为第i个个体所在的树干群体中的最佳位置，同样的，对于满足条件的个体采用MPP更新部分位置；

(3.13)执行调节算子或以MPP方式更新部分位置：当个体的count_i累积高于T_growth而小于T_recover时BTGO执行调节算子，即从m个树干子群中随机选择一个子群C_r，个体i向该子群最优位置靠近，其表示如下：

其中，s是调节因子，并被设置为固定值；

(3.14)执行重生算子或以MPP方式更新个体部分位置：当个体的count_i累积大于T_recover时，个体i转而执行重生算子，此时该个体的位置被重新随机初始化，其更新如下：

x_ij＝x_min,j+r×(x_max,j-x_min,j)(10)

若该个体i∈I^*，则前h位由式(10)重新初始化，其余位由式(4)计算得到；

(3.15)计算上述更新算子得到的新种群个体x_i构建对应的网络模型o_i，并根据步骤(3.5)预测标签并计算适应度值；

(3.16)根据个体与各树干种群的空间距离，将其重新划分至距离最近的新树干子群中，其距离与新子群序号计算如下：

(3.17)比较x_i与

的适应度值，若x_i具有更小适应度，则更新对应的气生根位置

为x_i的位置，并将该个体未更新次数count_i清0，否则其次数增加1；

(3.18)更新m个子群的最佳位置P^trunk和适应度值，更新整个种群的最优个体P^best及其适应度。

(3.19)判断当前是否达到终止条件，若迭代至最大迭代次数，则返回步骤(3.9)继续执行，否则输出当前数据集中的最优个体及其对应的分类器分类准确率。

优选地，在步骤(4)中，利用以上步骤(3)中的神经网络模型，对未标记和分类的新资源数据进行分类，结合测试数据集评估模型和整合优化资源。

较佳地，所述的步骤(4)具体为：

使用所述步骤(3)获得的最佳参数构建神经网络模型o_best，所述的神经网络模型参数由最优个体P^best所代表的参数构成，其表示如下：

其中X为输入向量，

和

分别为确定的最佳神经网络隐藏层权重和输出层权重；

选取科技服务资源测试集中的文本数据进行模型评估得到最终模型的准确率，执行以下式(13)对未知数据X进行自动化分类并得到预测结果Y：

该实现上述方法的基于进化神经网络的科技服务资源分类系统，其主要特点是，所述的系统包括：

数据集构建模块，用于抽取不同类型的科技服务资源数据，并根据科技服务行业分类对每条数据划分类别并添加标签，构建分类训练和测试数据集；

数据预处理模块，与所述的数据集构建模块相连接，用于对获取到的数据集进行清除缺失、错误和冗余数据处理，并对其中的文本数据进行汉语分词、去停用词处理，同时使用Word2Vec方法进行文本向量化，得到各个数据的特征向量和词库，用于后续模型进行进化与评估；

网络进化模块，与所述的数据预处理模块相连接，用于基于榕树生长优化BTGO算法与ELM构建进化神经网络，同时对神经网络随机参数和输出层参数进行优化，以提高网络分类准确率的同时增强收敛速度，得到最佳网络模型用于进行资源分类；以及

资源分类模块，与所述的网络进化模块相连接，用于基于最佳网络模型对科技服务资源测试集的文本数据进行模型评估，并对未知数据进行自动化资源分类。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的基于进化神经网络的科技服务资源分类方法的各个步骤。

采用了本发明的该基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质，具有以下有益效果：

(1)本发明抽取不同行业科技服务资源文本进行训练测试，使用新的元启发优化方法BTGO解决传统神经网络收敛速度慢的问题，有效提高了模型训练速度和质量。

(2)使用BTGO算法的神经网络进化方法，有效优化网络参数提高资源分类准确率，提升机器学习算法的运行效率。

(3)本发明实现简单并易于扩展，本方法可方便扩展至文本分类中的其他资源聚合问题。

附图说明

图1为本发明的基于进化神经网络的科技服务资源分类系统的结构图。

图2为本发明的基于进化神经网络的科技服务资源分类方法的步骤2的流程框图。

图3为本发明的基于进化神经网络的科技服务资源分类方法的步骤3初始化阶段的流程框图。

图4为本发明的基于进化神经网络的科技服务资源分类方法的步骤3进行网络优化处理的完整流程框图。

具体实施方式

为更加清晰阐明本发明的技术方案和优势所在，以下部分结合对应实例和图表进行详细叙述。值得注意的是，此处所阐述的具体实例仅用于解释本发明，并不用于限定本发明。

本发明系统结构图如图1所示，下面结合优选实例及附图进一步说明，以明确基于BTGO的进化神经网络方法在科技服务资源分类中的应用：

该基于进化神经网络的科技服务资源分类方法，具体包含以下步骤：

步骤1：S1数据集构建模块，抽取不同类型的科技服务资源数据，根据科技服务行业对每条数据划分类别并添加标签，构建分类训练和测试数据集；

(1.1)从实际运营中的科技服务资源库中抽取不同行业元数据，包含人才信息、知识产权、专利技术等类型；

(1.2)根据科技服务行业对每条数据划分类别并添加标签，按照比例划分训练、测试数据集，作为原始样本数据；

步骤2：S2数据预处理模块，对原始数据集进行数据预处理，即清洗缺失、错误和冗余数据，汉语分词、去停用词、文本向量化处理，得到资源数据的特征向量和词库，S2模块流程框图如图2所示。

(2.1)对上述步骤1中原始数据集进行数据清洗，清除缺失资源名称或资源描述信息的数据行，同时对于冗余项和错误标签的数据行进行删除；

(2.2)对已清洗的数据集进行汉语分词、去停用词处理，利用在超大批量科技文本数据集上预训练的Word2Vec模型，对其进行文本向量化，转化为稠密的文本特征向量；

(2.3)整理所有文本数据，得到数据集的特征向量及One-hot编码标签，用于后续模型进化与评估；

步骤3：S3网络进化模块，基于榕树生长优化(Banyan Tree GrowthOptimization,BTGO)算法与ELM构建进化神经网络，同时对神经网络随机参数和输出层参数进行优化，得到最佳网络模型用于资源分类，S3模块初始化阶段流程框图及网络进化完整流程框图分别如图3和图4所示。

(3.1)初始化榕树生长优化BTGO算法的参数及ElM网络参数。设置BTGO的种群规模NP、最大迭代次数Gmax、榕树枝干数目m、生长阶段阈值T_growth、再生阶段阈值T_recover；设置ELM的网络隐层节点数目；

(3.2)设置优化算法的适应度函数，即由x_i确定的神经网络在测试集的分类错误率，可表示如下：

其中，TP、TN分别为将正类预测为正类数和将负类预测为负类数，FP、FN分别为将负类预测为正类数和将正类预测为负类数。

x_i＝[W_hidden；W_output]

＝[x_i，1，x_i，2，…，x_i，h，x_i，h+1，…，x_i，D] (2)

x_ij＝x_min，j+r×(x_max，j-x_min，j) (3)

其中，x_min，j和x_max，j分别表示解空间的最小值和最大值，r为[0，1]范围的随机值。

(3.5)对于步骤(3.4)的剩余20％个体，其序号集合记为I^*，表示隐藏层权重部分的位置为随机产生，表示输出层权重部分由ELM的广义逆(Moore-Penrose Pseudoinverse，MPP)公式计算得到，即个体x_i(i∈I^*)前h位由式(3)计算，其余位的计算如式(4)所示，完整的计算如式(5)所示。

其中g()为神经网络的激活函数，一般为sigmoid函数，比较预测标签

(3.7)初始化BTGO气生根位置p^root并将其作为个体历史最优位置，按照种群中个体的适应度排名进行枝干群(子群)划分，将其按从小到大依次划分至m个子群。每个枝干群的最佳适应度个体作为该子群的最优位置，记为P^trunk；

(3.8)所有子群中自适应度值最小的个体视为当前最佳位置p^best，并更新最佳位置适应度值；

更小，则将count_i的值置为0，否则其值加1。

(3.10)根据count_i的值执行BTGO不同更新算子，产生新的榕树种群个体，其中对于个体i∈I^*的前h位由更新算子更新，其余位由式(5)计算得到：个体i未更新次数counti低于T_growth时，以pr的概率选择执行气生根算子或多树干算子；当大于T_growth小于T_recover时，执行调节算子产生新种群。

(3.11)执行生根算子或部分广义逆(MPP)更新个体：个体随机概率小于pr时，执行生根算子更新如下：

其中，r为[-1，1]间的随机数，F是比例因子。满足上述(3.9)中条件个体部分位置执行MPP更新。

其中r为[-1，1]范围内的随机数，F为比例因子，

为第i个个体所在的树干群体中的最佳位置。同样的，对于满足条件的个体采用MPP更新部分位置。

(3.13)执行调节算子或以MPP方式更新部分位置：当个体的counti累积高于T_growth而小于T_recover时BTGO执行调节算子，即从m个树干子群中随机选择一个子群C_r，个体i向该子群最优位置靠近，其表示如下：

其中，s是调节因子，并被设置为固定值。

(3.14)执行重生算子或以MPP方式更新个体部分位置：当个体的counti累积大于T_recover时，个体i转而执行重生算子，此时该个体的位置被重新随机初始化，其更新如下：

x_ij＝x_min，j+r×(x_max，j-x_min，j) (10)

若该个体i∈I^*，则前h位由式(10)重新初始化，其余位由式(4)计算得到。

(3.15)计算上述更新算子得到的新种群个体x_i构建对应的网络模型o_i，根据(3.5)的步骤预测标签并计算适应度值；

(3.17)比较x_i与

为x_i的位置，并将该个体未更新次数count_i清0，否则其次数增加1。

(3.19)判断方法是否达到终止条件，若迭代至最大迭代次数，则返回步骤(3.8)继续执行，否则输出当前数据集中的最优个体及其对应的分类器分类准确率。

步骤4：S4资源分类模块，使用上述步骤获得的最佳参数构建神经网络模型o_best，该模型参数由最优个体P^best所代表的参数构成，其表示如下：

其中X为输入向量，

和

分别为确定的最佳神经网络隐藏层权重和输出层权重。选取科技服务资源测试集中的文本数据进行模型评估得到最终模型的准确率，执行以下式(13)对未知数据X进行自动化分类并得到预测结果Y：

该实现上述所述的方法的基于进化神经网络的科技服务资源分类系统，其中，所述的系统包括：

该计算机可读存储介质，其中，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的基于进化神经网络的科技服务资源分类方法的各个步骤。

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于进化神经网络的科技服务资源分类方法，其特征在于，所述的方法包括以下步骤：

(4)使用上述获得的最终神经网络模型，对所述科技服务资源数据的测试数据集的文本数据进行模型评估，并对未知数据进行自动化资源分类。

2.根据权利要求1所述的基于进化神经网络的科技服务资源分类方法，其特征在于，在所述步骤(1)中，抽取的资源数据类型包含人才信息、知识产权、专利技术，以及包括定期从实际运营中的科技服务资源库中抽取的不同行业元数据，按照比例划分训练、验证和测试集，以满足实际资源整合需求。

3.根据权利要求2所述的基于进化神经网络的科技服务资源分类方法，其特征在于，在所述步骤(2)中，对所述步骤(1)构建的数据集进行数据清洗、汉语分词、去停用词处理后，利用在超大批量科技文本数据集上预训练的Word2Vec模型对其进行文本向量化处理，将其转化为稠密的特征向量，并通过整理所有文本数据，得到数据集的特征向量及One-hot编码标签，用于后续模型进化与评估。

4.根据权利要求3所述的基于进化神经网络的科技服务资源分类方法，其特征在于，所述步骤(3)具体为，应用榕树生长优化算法对ELM网络的所有参数进行编码优化，利用BTGO的全局优化策略同时对随机参数和输出层参数进行进化，以同时达到预测准确率和训练速度最优。

5.根据权利要求4所述的基于进化神经网络的科技服务资源分类方法，其特征在于，所述步骤(3)进行初始化优化处理具体包括以下步骤：