CN113886438B

CN113886438B - 一种基于人工智能的成果转移转化数据筛选方法

Info

Publication number: CN113886438B
Application number: CN202111487970.5A
Authority: CN
Inventors: 李建雪; 崔智恩
Original assignee: Henan Qiyan Science And Technology Evaluation Institute Co ltd; Jining Jingze Information Technology Co ltd
Current assignee: Henan Qiyan Science And Technology Evaluation Institute Co ltd; Jining Jingze Information Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-15
Anticipated expiration: 2041-12-08
Also published as: CN113886438A

Abstract

本发明涉及人工智能技术领域，具体涉及一种基于人工智能的成果转移转化数据筛选方法。该方法基于已有的技术文档数据获取初始转化数据筛选网络；对初始转化数据筛选网络进行网络参数的更新以得到转化数据筛选网络；将待筛选的技术文档数据通过转化数据筛选网络进行筛选以将筛选后的技术文档数据存储在数据存储库中。通过训练泛化能力更强的转化数据筛选网络，利用训练好的转化数据筛选网络进行技术文档数据的数据筛选，可避免恶意数据的批量攻击，进而防止恶意数据、无关数据或缺失数据被存储，以干扰用户检索结果的准确性。

Description

一种基于人工智能的成果转移转化数据筛选方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于人工智能的成果转移转化数据筛选方法。

背景技术

我们通常所说的科技成果转移大多指技术成果的转化，即将具有创新性的技术成果从科研单位转移到生产部门，使新产品增加、工艺改进、效益提高等，最终经济得到进步，所讲的科技成果转化率就是指技术成果的应用数与技术成果总数的比。

现有用于成果转化的数据筛选方法主要针对检索过程进行优化，提高检索文件的相关度，提高技术文件匹配效率和匹配准确度，而现有技术存在的技术问题在于，仅考虑了检索过程中检索人员与存储数据库的交互，进而实现转化数据的高效检索，但未考虑到存储数据库中技术文件数据的有效性和准确性，若存在的存储数据库中技术文件数据破损或被篡改，会导致用户检索结果中的准确率和匹配效率大大降低。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于人工智能的成果转移转化数据筛选方法，所采用的技术方案具体如下：

基于已有的技术文档数据获取初始转化数据筛选网络，所述已有的技术文档数据包括通过筛选和未通过筛选的技术文档数据，其中，所述通过筛选的技术文档数据是指正常的技术文档，所述未通过筛选的技术文档数据是指存在数据缺失或数据异常的技术文档；

对所述初始转化数据筛选网络进行网络参数的更新以得到转化数据筛选网络；

将待筛选的技术文档数据通过所述转化数据筛选网络进行筛选以将筛选后的技术文档数据存储在数据存储库中；

所述初始转化数据筛选网络的网络参数的更新方法包括：获取未知技术文档数据中未通过筛选的技术文档数据作为第一技术文档数据，将所述第一技术文档数据通过自编码器得到非数据缺失的所述第一技术文档数据；当非数据缺失的所述第一技术文档数据的文档数量满足要求时，提取非数据缺失的所述第一技术文档数据中每个技术文档的特征张量，根据所述特征张量获取当前训练过程中的目标梯度影响系数；将所述目标梯度影响系数与所述当前训练过程中由反向梯度算法得到的梯度进行相乘以得到新网络参数。

进一步地，所述未通过筛选的技术文档数据是通过所述初始转化数据筛选网络得到的。

进一步地，所述非数据缺失的所述第一技术文档数据的获取方法，包括：

将所述第一技术文档数据送入自编码器中，输出重构技术文档数据，将所述重构技术文档数据送入所述初始转化数据筛选网络，以获取通过筛选类别的所述重构技术文档数据的置信度变化；

设置置信度变化阈值，所述置信度变化小于所述置信度变化阈值的所述重构技术文档数据所对应的所述第一技术文档数据即为非数据缺失的所述第一技术文档数据。

进一步地，所述非数据缺失的所述第一技术文档数据的要求是指非数据缺失的所述第一技术文档数据中包含的文档数量大于或等于设定数量阈值。

进一步地，利用自编码器的编码器获取非数据缺失的所述第一技术文档数据中每个技术文档的所述特征张量。

进一步地，所述根据所述特征张量获取当前训练过程中的目标梯度影响系数的方法，包括：

任选一个所述特征张量作为参考特征张量，分别计算参考特征张量与其他每个所述特征张量之间的欧式距离，构成一个距离集合；对所述距离集合进行聚类得到多个聚类集合；

根据设定的采样总数量对各个所述聚类集合进行随机均匀采样，根据所述聚类集合中被采样的所述特征张量的数量和被采样的所述特征张量之间的类间方差计算对应所述聚类集合的梯度影响系数；

根据每个所述聚类集合的所述梯度影响系数获取目标梯度影响系数。

进一步地，所述目标梯度影响系数为最小的所述梯度影响系数。

进一步地，所述聚类采用的是DBSCAN聚类算法。

进一步地，所述梯度影响系数的获取方法，包括：

计算所述聚类集合中被采样的所述特征张量的数量和采样总数量之间比值，结合所述比值和所述类间方差计算对应聚类集合的所述梯度影响系数。

进一步地，所述梯度影响系数与所述比值呈正相关关系、所述梯度影响系数与所述类间方差呈负相关关系。

本发明实施例至少具有如下有益效果：基于分类网络构建初始转化数据筛选网络，利用未知技术文档数据对该网络进行网络参数的更新得到泛化能力更强的转化数据筛选网络，训练好的转化数据筛选网络进行技术文档数据的数据筛选，可避免恶意数据的批量攻击，进而防止恶意数据、无关数据或缺失数据被存储，以干扰用户检索结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种基于人工智能的成果转移转化数据筛选方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于人工智能的成果转移转化数据筛选方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于人工智能的成果转移转化数据筛选方法的具体方案。

本发明实施例所转对的具体场景为：对成果转移转化数据所对应的数据存储库的筛选过程。

请参阅图1，其示出了本发明一个实施例提供的一种基于人工智能的成果转移转化数据筛选方法的步骤流程图，该方法包括以下步骤：

步骤S001，基于已有的技术文档数据获取初始转化数据筛选网络，已有的技术文档数据包括通过筛选和未通过筛选的技术文档数据，其中，通过筛选的技术文档数据是指正常的技术文档，未通过筛选的技术文档数据是指存在数据缺失或数据异常的技术文档。

具体的，基于分类网络构建初始转化数据筛选网络，该网络结构为编码器-全连接层，其中，初始转化数据筛选网络的训练过程为：

（1）网络的输入为单个已有的技术文档，网络的输出为单个已有的技术文档所对应的类别，类别包括两类：通过筛选类别和未通过筛选类别。

（2）采用已有的技术文档数据作为训练数据集，并进行人为标注，其中未通过筛选的技术文档数据的实际问题可包括：数据缺失和数据异常等。

（3）损失函数采用二值交叉熵损失函数。

步骤S002，对初始转化数据筛选网络进行网络参数的更新以得到转化数据筛选网络。

具体的，为了适应未知技术文档数据，并在更新网络时防止恶意数据的批量攻击，利用未知技术文档数据对初始转化数据筛选网络进行再训练，以实现网络参数的更新得到转化数据筛选网络，则初始转化数据筛选网络的再训练过程为：

（1）初始转化数据筛选网络进行在线学习，输入未知技术文档数据，获取未知技术文档数据的分类类别，将属于未通过筛选类别的技术文档数据作为第一技术文档数据，并将其存储至待分析池中。

（2）构建自编码器，自编码器结构为编码器-解码器，自编码器的输入为待分析池中的单个技术文档，输出为重构的输入数据。自编码器的训练过程具体为：对通过筛选的技术文档数据进行随机位置的遮挡，实施者可对位置进行随机采样并置零，同时进行自监督，也即以输入和输出的欧氏距离作为损失函数。

需要说明的是，构建自编码器的目的在于：将输入数据中数据缺失的情况筛选出来，防止影响初始转化数据筛选网络的再训练过程。

（3）数据缺失筛选过程为待分析池中的第一技术文档数据送入自编码器中，输出重构技术文档数据，将重构技术文档数据再次送入初始转化数据筛选网络，以获取通过筛选类别的重构技术文档数据的置信度变化

，其中

表示重构技术文档数据在通过筛选类别的置信度，

为第一技术文档数据在通过筛选类别的置信度，并设置置信度变化阈值

，若置信度变化

置信度变化阈值

，则判断通过筛选类别的重构技术文档数据所对应的第一技术文档数据属于数据缺失情况，令其不用作后续再训练，同时保留非数据缺失的第一技术文档数据，剔除数据缺失的第一技术文档数据。

优选的，本发明实施例中置信度变化阈值

设置为0.2。

（4）对于经过筛选后的待分析池，设置固定个数K，在发明实施例中K设置为500，当待分析池内经过筛选的技术文档数据的文档数量达到K个，也即大于或等于K时，进行一次再训练；所述再训练具体过程为：

a.由于自编码器能够提取到技术文档的主要特征，因此仍采用自编码器的编码器用作特征提取，将待分析池内经过筛选的非数据缺失的技术文档送入编码器中，输出对应的特征张量，以得到K个特征张量。

b.对特征张量进行距离度量，为便于表征，任选一个特征张量作为参考特征张量，分别其他K-1个特征张量与参考特征张量之间的欧式距离，得到K-1个欧式距离；

需要说明的是，实施者为提高表征能力，可相互计算特征张量之间的欧式距离并于高维空间进行后续处理。

c.基于度量距离采用DBSCAN聚类算法进行特征张量的聚类，设置每个特征张量与其最近邻的特征张量之间的欧式距离均值作为聚类半径，满足集合的最小元素数量设置为10，进而获取到若干个聚类集合。

需要说明的是，对于聚类后的异常点，仍为异常点单独构建聚类集合，以确保各类数据结构均被考虑。

d.对各个聚类集合进行随机均匀采样，采样次数设置为K/10，获取到K/10个特征张量，基于聚类集合采用随机均匀采样的目的为避免同类型数据被多次采样，进而影响到再训练结果，一定程度的避免了恶意数据攻击。为了进一步提高避免恶意数据攻击的能力，构建梯度影响系数，用于控制再训练时梯度反向传播的参数变动程度，进而防止恶意数据的批量攻击，则梯度影响系数为：

其中，

表示所采样的特征张量在第

个聚类集合内的梯度影响系数；

表示在第

个聚类集合内所采样的特征张量个数；

表示第

个聚类集合内所采样的特征张量个数占总采样个数的比值；

为映射函数，

的值域为[0,1]，映射为反比例关系，也即

越接近0，映射函数值越接近1，

越接近1，映射函数值越接近0，以避免同一聚类集合内存在多个特征张量被选择对再训练起到较大的影响；

表示第

个聚类集合内所采样的特征张量之间的类间方差，值域为[0,+ ∞)；

将类间方差

映射为[0,1]的值，映射为正比例关系，也即

越大，

越接近1，

越接近0，

越接近0。

进一步地，基于上述梯度影响系数的获取方法能够获取各个聚类集合的梯度影响系数，并选择最小的梯度影响系数

作为当次再训练的目标梯度影响系数。

e.由于神经网络的训练过程中，网络参数的更新通常采用反向梯度传播算法，反向梯度传播算法为公知技术，在此不作赘述，因此将目标梯度影响指数与由反向梯度传播算法所获取的梯度进行相乘进而得到新网络参数，同时，再训练时将所选择的非数据缺失的技术文档数据标注为通过筛选类别进行下一次的再次训练，以实现适应未知技术文档数据，且在更新网络时防止恶意数据的批量攻击。

需要说明的是，梯度影响系数旨在表征，当某聚类集合中特征张量的选择数量多或类间差异小时，梯度影响系数较小，进而可控制该聚类集合内特征张量对再训练的影响程度。

步骤S003，将待筛选的技术文档数据通过转化数据筛选网络进行筛选以将筛选后的技术文档数据存储在数据存储库中。

具体的，将待筛选的技术文档数据输入上述训练好的转化数据筛选网络得到技术文档是否通过筛选，对属于通过筛选类别的技术文档存储在数据存储库中，以实现数据存储库中的数据缺失和数据恶意篡改所对应技术文档数据的筛选，保证了数据存储库中所存储的技术文档的准确性，使得用户在数据存储库中进行检索时，提高了检索结果的准确性和匹配效率。

综上所述，本发明实施例提供了一种基于人工智能的成果转移转化数据筛选方法，该方法基于已有的技术文档数据获取初始转化数据筛选网络；对所述初始转化数据筛选网络进行网络参数的更新以得到转化数据筛选网络；将待筛选的技术文档数据通过所述转化数据筛选网络进行筛选以将筛选后的技术文档数据存储在数据存储库中。基于分类网络构建初始转化数据筛选网络，利用未知技术文档数据对该网络进行网络参数的更新得到泛化能力更强的转化数据筛选网络，训练好的转化数据筛选网络进行技术文档数据的数据筛选，可避免恶意数据的批量攻击，进而防止恶意数据、无关数据或缺失数据被存储，以干扰用户检索结果的准确性。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的成果转移转化数据筛选方法，其特征在于，该方法包括：

所述初始转化数据筛选网络的网络参数的更新方法包括：获取未知技术文档数据中未通过筛选的技术文档数据作为第一技术文档数据，将所述第一技术文档数据通过自编码器得到非数据缺失的所述第一技术文档数据；当非数据缺失的所述第一技术文档数据的文档数量满足要求时，提取非数据缺失的所述第一技术文档数据中每个技术文档的特征张量，根据所述特征张量获取当前训练过程中的目标梯度影响系数；将所述目标梯度影响系数与所述当前训练过程中由反向梯度算法得到的梯度进行相乘以得到新网络参数；

其中，所述根据所述特征张量获取当前训练过程中的目标梯度影响系数的方法，包括：任选一个所述特征张量作为参考特征张量，分别计算参考特征张量与其他每个所述特征张量之间的欧式距离，构成一个距离集合；对所述距离集合进行聚类得到多个聚类集合；根据设定的采样总数量对各个所述聚类集合进行随机均匀采样，根据所述聚类集合中被采样的所述特征张量的数量和被采样的所述特征张量之间的类间方差计算对应所述聚类集合的梯度影响系数；根据每个所述聚类集合的所述梯度影响系数获取目标梯度影响系数。

2.如权利要求1所述的方法，其特征在于，所述未通过筛选的技术文档数据是通过所述初始转化数据筛选网络得到的。

3.如权利要求1所述的方法，其特征在于，所述非数据缺失的所述第一技术文档数据的获取方法，包括：

4.如权利要求1所述的方法，其特征在于，所述非数据缺失的所述第一技术文档数据的要求是指非数据缺失的所述第一技术文档数据中包含的文档数量大于或等于设定数量阈值。

5.如权利要求1所述的方法，其特征在于，利用自编码器的编码器获取非数据缺失的所述第一技术文档数据中每个技术文档的所述特征张量。

6.如权利要求1所述的方法，其特征在于，所述目标梯度影响系数为最小的所述梯度影响系数。

7.如权利要求1所述的方法，其特征在于，所述聚类采用的是DBSCAN聚类算法。

8.如权利要求1所述的方法，其特征在于，所述梯度影响系数的获取方法，包括：

9.如权利要求8所述的方法，其特征在于，所述梯度影响系数与所述比值呈正相关关系、所述梯度影响系数与所述类间方差呈负相关关系。