CN111191119A

CN111191119A - 一种基于神经网络的科技成果自学习方法及装置

Info

Publication number: CN111191119A
Application number: CN201911295622.0A
Authority: CN
Inventors: 邹腊年; 马银波; 郭玲琼; 徐飞飞
Original assignee: Shaoxing Shangyu District Institute Of Technology
Current assignee: Shaoxing Shangyu District Institute Of Technology
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-22
Anticipated expiration: 2039-12-16
Also published as: CN111191119B

Abstract

本发明提出了一种基于神经网络的科技成果自学习方法及装置。包括：获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果；建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值；根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中。本发明通过词频算法以及历史记录来确定需要抓取的关键词，然后通过神经网络模型获取特征值，最后利用特征值实现科技成果的自动更新和学习，减少了人工成本，提高了更新效率。

Description

一种基于神经网络的科技成果自学习方法及装置

技术领域

本发明涉及科技成果自学习技术领域，尤其涉及一种基于神经网络的科技成果自学习方法及装置。

背景技术

神经网络又称人工神经网络，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法学习模型。是由大量简单的处理单元(神经元)相互连接而形成的复杂网络，通过内部复杂的连接，模拟出各种复杂的函数用于各类数据分析问题。

目前，科技成果的运用还不是很广泛，现有的科技成果存储库存储的科技成果需要更新时往往需要工作人员手动添加科技成果进行更新，这样就会给工作人员带来很大的工作量，利用神经网络可以减少工作人员的工作量，提高科技成果进库分类的精确度，但是无法实现科技成果库的自动更新，所以还是需要一种方法来实现科技成果库的自动更新，并且提高科技成果库更新的精确度。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

有鉴于此，本发明提出了一种基于神经网络的科技成果自学习方法及装置，旨在解决现有技术无法精确对科技成果库进行科技成果自动更新的技术问题。

本发明的技术方案是这样实现的：

一方面，本发明提供了一种基于神经网络的科技成果自学习方法，所述基于神经网络的科技成果自学习方法包括以下步骤：

S1，获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果；

S2，建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值；

S3，根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中。

在以上技术方案的基础上，优选的，步骤S1中，获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果，还包括以下步骤，获取用户历史搜索记录，建立词频算法，通过词频算法计算用户历史搜索记录中每个词语的词频，将词频数值最大的词语作为待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果。

在以上技术方案的基础上，优选的，根据关键词抓取待选取科技成果，还包括以下步骤，设定筛选类型，所述类型包括：论文、期刊以及专利，根据关键词抓取科技成果，根据筛选类型对抓取的科技成果进行筛选，将满足筛选类型的科技成果作为待选取科技成果。

在以上技术方案的基础上，优选的，还包括以下步骤，所述词频算法为：

其中，P代表词语的词频，m代表历史记录的文章中词语出现的次数，n代表历史记录的文章中所有词语的数量，W代表历史记录中所有的文章的数量，w代表历史记录中出现带有这个词语的文章的数量，S代表关键词修正系数。

在以上技术方案的基础上，优选的，步骤S2中，建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值，还包括以下步骤，建立神经网络模型，通过神经网络模型的卷积层提取科技成果的特征值，并将特征值绘制成特征图，通过神经网络模型的池化层提取特征图中的主要特征值，根据主要特征值通过神经网络模型的全连接层函数分别计算科技成果样本集中科技成果的最终特征值作为第一特征值以及待选取科技成果的最终特征值作为第二特征值。

在以上技术方案的基础上，优选的，步骤S3中，根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中，还包括以下步骤，将第一特征值对第二特征值进行匹配，当第一特征值与第二特征值不匹配时，将第二特征值对应的科技成果作为待添加科技成果添加至待添加科技成果样本集中；当第一特征值与第二特征值匹配时，获取第一特征值对应的科技成果的文件大小以及第二特征值对应的科技成果的文件大小，将第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小进行比较，根据比较结果，将第二特征值对应的科技成果删除。

在以上技术方案的基础上，优选的，根据比较结果，将第二特征值对应的科技成果删除，还包括以下步骤，当第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小相同时，将第二特征值对应的科技成果删除；当第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小不相同时，将文件大的科技成果保留在待添加科技成果样本集中。

更进一步优选的，所述基于神经网络的科技成果自学习装置包括：

抓取模块，用于获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果；

特征值计算模块，用于建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值；

添加模块，用于根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中。

第二方面，所述基于神经网络的科技成果自学习方法还包括一种设备，所述设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于神经网络的科技成果自学习方法程序，所述基于神经网络的科技成果自学习方法程序配置为实现如上文所述的基于神经网络的科技成果自学习方法的步骤。

第三方面，所述基于神经网络的科技成果自学习方法还包括一种介质，所述介质为计算机介质，所述计算机介质上存储有基于神经网络的科技成果自学习方法程序，所述基于神经网络的科技成果自学习方法程序被处理器执行时实现如上文所述的基于神经网络的科技成果自学习方法的步骤。

本发明的一种基于神经网络的科技成果自学习方法相对于现有技术具有以下有益效果：

(1)通过建立词频算法，利用词频算法计算用户历史搜索记录中科技成果的关键词，用户历史搜索记录是科技成果自更新的基础之一，通过用户历史搜索记录，系统可以不断获取新的关键词，然后不断更新系统中的科技成果；

(2)通过神经网络模型计算本地存储的科技成果的特征值以及抓取到的科技成果的特征值，然后将特征值不同的科技成果存入本地存储空间中，这样可以实现科技成果更新的精确性，提高科技成果自动更新的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例方案涉及的硬件运行环境的设备的结构示意图；

图2为本发明基于神经网络的科技成果自学习方法第一实施例的流程示意图；

图3为本发明基于神经网络的科技成果自学习方法第一实施例的功能模块示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，该设备可以包括：处理器1001，例如中央处理器(Central ProcessingUnit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对设备的限定，在实际应用中设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于神经网络的科技成果自学习方法程序。

在图1所示的设备中，网络接口1004主要用于建立设备与存储基于神经网络的科技成果自学习方法系统中所需的所有数据的服务器的通信连接；用户接口1003主要用于与用户进行数据交互；本发明基于神经网络的科技成果自学习方法设备中的处理器1001、存储器1005可以设置在基于神经网络的科技成果自学习方法设备中，所述基于神经网络的科技成果自学习方法设备通过处理器1001调用存储器1005中存储的基于神经网络的科技成果自学习方法程序，并执行本发明实施提供的基于神经网络的科技成果自学习方法。

结合图2，图2为本发明基于神经网络的科技成果自学习方法第一实施例的流程示意图。

本实施例中，所述基于神经网络的科技成果自学习方法包括以下步骤：

S10：获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果。

应当理解的是，系统首先会获取用户历史搜索记录，这里的用户历史搜索记录是指用户通过系统平台搜索的关于科技成果的相关资讯，包括：新闻、期刊、论文以及学术报告等，然后系统会建立词频算法，通过词频算法计算用户历史搜索记录中每个词语的词频，将词频数值最大的词语作为待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果。

应当理解的是，系统会将本地原本存储的科技成果作为待添加科技成果样本集用于后续的计算，如果本地没有存储科技成果，那么系统会根据用户历史记录的关键词获取对应的科技成果，然后将这些科技成果作为待添加科技成果样本集，然后继续抓取新的科技成果。

应当理解的是，因为对于词的分辨是基于现有的词典，所以每篇文章中，都会存在大量类似于“的”、“地名”、“人名”之类日常词语来影响关键词的确定，所以此时就需要引入一个关键词修正系数来排除上述日常词语的干扰，增强词频计算的精确性，通过关键词修正系数可以使一些专业的词语的词频摆脱日常词语词频的影响，从而提高后续科技成果抓取的准确度。

应当理解的是，在通过关键词抓取到文件之后，会设定一个筛选条件，通过对抓取文件的类型进行筛选，找出符合系统条件的文件即是系统需要的科技成果，筛选类型包括：论文、期刊以及专利，只有满足筛选类型的文件，才会被系统记录，然后放入神经网络进行训练，通过这种方式，可以确保整个科技成果库的纯净性以及用户在搜索科技成果时的精确性。

应当理解的是，所述词频算法为：

应当理解的是，词频指的是某一个给定的词语在该文件中出现的次数，词频算法又叫词频--反转文件频率，是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

S20：建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值。

应当理解的是，神经网络(Neural Networks，NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

应当理解的是，系统会建立神经网络模型，通过神经网络模型的卷积层提取科技成果的特征值，并将特征值绘制成特征图，通过神经网络模型的池化层提取特征图中的主要特征值，根据主要特征值通过神经网络模型的全连接层函数分别计算科技成果样本集中科技成果的最终特征值作为第一特征值以及待选取科技成果的最终特征值作为第二特征值。通过神经网络模型的计算，可以使科技成果自学习过程更加精确，提高了用户体验。

S30：根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中。

应当理解的是，系统实现科技成果自动学习更新的方法就是将特征值不同的科技成果不断添加至待添加科技成果样本集即本地科技成果库中，具体操作如下：将第一特征值对第二特征值进行匹配，当第一特征值与第二特征值不匹配时，将第二特征值对应的科技成果作为待添加科技成果添加至待添加科技成果样本集中。

应当理解的是，如果第一特征值与第二特征值匹配时，即表示系统找到的科技成果本地以及存在了，此时系统会获取2篇科技成果的文件大小，即通过比较文件大小来判断科技成果的内容完善程度，文件越大的代表科技成果内容越完善，此时，系统会将较大的文件存入待添加科技成果样本集中来实现本地系统科技成果的更新。

需要说明的是，以上仅为举例说明，并不对本申请的技术方案构成任何限定。

通过上述描述不难发现，本实施例通过获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果；建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值；根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中。本实施例通过词频算法以及历史记录来确定需要抓取的关键词，然后通过神经网络模型获取特征值，最后利用特征值添加最新的科技成果，利用词频算法对用户历史搜索记录进行关键词提取可以精确定位到用户需求的科技成果，然后通过神经网络计算添加科技成果样本集的特征值以及抓取的科技成果的特征值，通过特征值可以精确判断抓取的科技成果是否为本地没有的，然后一直这样循环，即可以实现科技成果的自动更新。

此外，本发明实施例还提出一种基于神经网络的科技成果自学习装置。如图3所示，该基于神经网络的科技成果自学习装置包括：抓取模块10、特征值计算模块20、添加模块30。

抓取模块10，用于获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果；

特征值计算模块20，用于建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值；

添加模块30，用于根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中。

此外，需要说明的是，以上所描述的装置实施例仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于神经网络的科技成果自学习方法，此处不再赘述。

此外，本发明实施例还提出一种介质，所述介质为计算机介质，所述计算机介质上存储有基于神经网络的科技成果自学习方法程序，所述基于神经网络的科技成果自学习方法程序被处理器执行时实现如下操作：

进一步地，所述基于神经网络的科技成果自学习方法程序被处理器执行时还实现如下操作：

获取用户历史搜索记录，建立词频算法，通过词频算法计算用户历史搜索记录中每个词语的词频，将词频数值最大的词语作为待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果。

设定筛选类型，所述类型包括：论文、期刊以及专利，根据关键词抓取科技成果，根据筛选类型对抓取的科技成果进行筛选，将满足筛选类型的科技成果作为待选取科技成果。

所述词频算法为：

建立神经网络模型，通过神经网络模型的卷积层提取科技成果的特征值，并将特征值绘制成特征图，通过神经网络模型的池化层提取特征图中的主要特征值，根据主要特征值通过神经网络模型的全连接层函数分别计算科技成果样本集中科技成果的最终特征值作为第一特征值以及待选取科技成果的最终特征值作为第二特征值。

将第一特征值对第二特征值进行匹配，当第一特征值与第二特征值不匹配时，将第二特征值对应的科技成果作为待添加科技成果添加至待添加科技成果样本集中；当第一特征值与第二特征值匹配时，获取第一特征值对应的科技成果的文件大小以及第二特征值对应的科技成果的文件大小，将第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小进行比较，根据比较结果，将第二特征值对应的科技成果删除。

当第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小相同时，将第二特征值对应的科技成果删除；当第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小不相同时，将文件大的科技成果保留在待添加科技成果样本集中。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的科技成果自学习方法，其特征在于：包括以下步骤；

2.如权利要求1所述的基于神经网络的科技成果自学习方法，其特征在于：步骤S1中，获取用户历史搜索记录，建立词频算法，通过词频算法对历史搜索记录进行计算，根据计算结果确定待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果，还包括以下步骤，获取用户历史搜索记录，建立词频算法，通过词频算法计算用户历史搜索记录中每个词语的词频，将词频数值最大的词语作为待添加科技成果样本集的关键词，根据关键词抓取待选取科技成果。

3.如权利要求2所述的基于神经网络的科技成果自学习方法，其特征在于：根据关键词抓取待选取科技成果，还包括以下步骤，设定筛选类型，所述类型包括：论文、期刊以及专利，根据关键词抓取科技成果，根据筛选类型对抓取的科技成果进行筛选，将满足筛选类型的科技成果作为待选取科技成果。

4.如权利要求2所述的基于神经网络的科技成果自学习方法，其特征在于：还包括以下步骤，所述词频算法为：

5.如权利要求2所述的基于神经网络的科技成果自学习方法，其特征在于：步骤S2中，建立神经网络模型，通过神经网络模型计算待添加科技成果样本集中科技成果的第一特征值以及待选取科技成果的第二特征值，还包括以下步骤，建立神经网络模型，通过神经网络模型的卷积层提取科技成果的特征值，并将特征值绘制成特征图，通过神经网络模型的池化层提取特征图中的主要特征值，根据主要特征值通过神经网络模型的全连接层函数分别计算科技成果样本集中科技成果的最终特征值作为第一特征值以及待选取科技成果的最终特征值作为第二特征值。

6.如权利要求5所述的基于神经网络的科技成果自学习方法，其特征在于：步骤S3中，根据第一特征值与第二特征值从待选取科技成果中确定待添加科技成果，将待添加科技成果添加至待添加科技成果样本集中，还包括以下步骤，将第一特征值对第二特征值进行匹配，当第一特征值与第二特征值不匹配时，将第二特征值对应的科技成果作为待添加科技成果添加至待添加科技成果样本集中；当第一特征值与第二特征值匹配时，获取第一特征值对应的科技成果的文件大小以及第二特征值对应的科技成果的文件大小，将第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小进行比较，根据比较结果，将第二特征值对应的科技成果删除。

7.如权利要求6所述的基于神经网络的科技成果自学习方法，其特征在于：根据比较结果，将第二特征值对应的科技成果删除，还包括以下步骤，当第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小相同时，将第二特征值对应的科技成果删除；当第一特征值对应的科技成果的文件大小与第二特征值对应的科技成果的文件大小不相同时，将文件大的科技成果保留在待添加科技成果样本集中。

8.一种基于神经网络的科技成果自学习装置，其特征在于，所述基于神经网络的科技成果自学习装置包括：

9.一种设备，其特征在于，所述设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于神经网络的科技成果自学习方法程序，所述基于神经网络的科技成果自学习方法程序配置为实现如权利要求1至7任一项所述的基于神经网络的科技成果自学习方法的步骤。

10.一种介质，其特征在于，所述介质为计算机介质，所述计算机介质上存储有基于神经网络的科技成果自学习方法程序，所述基于神经网络的科技成果自学习方法程序被处理器执行时实现如权利要求1至7任一项所述的基于神经网络的科技成果自学习方法的步骤。