CN114037154A

CN114037154A - 基于注意特征的科技成果数量与主题的预测方法及系统

Info

Publication number: CN114037154A
Application number: CN202111320121.0A
Authority: CN
Inventors: 马艳; 邹立达; 韩英昆; 马雷; 刘新; 曹建梅; 任金花; 秦佳峰; 于乃海
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-11

Abstract

本公开属于计算机预测技术领域，提供了一种基于注意特征的科技成果数量与主题的预测方法及系统，包括以下步骤：获取科技人员的注意状态数据，所获取的科技人员的注意状态数据包括科技人员办公终端的输入与输出信息、科技人员工作时间的语音信息和科技人员在工位的时长；基于所获取的注意状态数据，构建注意状态的样本数据集；采用注意特征进行样本数据集的特征提取，基于时间敏感预测模型依据科技人员的注意状态数据的时间跨度进行时间片科研成果数量的预测，基于方向主题生成模型依据科研成果数量的预测结果和所提取的样本数据集特征生成科研主题关键词，实现科技成果数量与主题的预测。

Description

基于注意特征的科技成果数量与主题的预测方法及系统

技术领域

本公开属于计算机预测技术领域，具体涉及一种基于注意特征的科技成果数量与主题的预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

对于科学技术管理部门而言，科技成果的预测有着非常重要的意义。科学技术管理部门需要根据未来科技成果的输出，安排科研部门资金，推动生产部门技术升级，预测公司的利润提升。比如，当预测有较多知识产权成果时，应适当增加法律维权方面的资金，用于筛查侵权、维护知识产权；当有较多产品原型产出时，需要提前准备人员、资金、材料等，以便开展样品的规模化生产；当有较多论文、专著成果时，可提前预算嘉奖资金、宣传渠道等。

据发明人了解，科技成果的预测有一定的复杂性与困难度。首先，一个科技部门在某一段时间的工作质量数据不易获取。虽然一个单位中从事科学与技术研究人员的数量可以精确的统计，但每个人的工作状态不易获得。比如有的人员虽然是科技人员，但被临时抽调到管理岗位无法从事科技工作；有的人员虽然从事科技工作，但其有效工作时间及工作效率无法量化。然而，工作质量数据是科技成果预测的重要依据。其次，科技成果常以论文、专著、知识产权、报告、产品原型等形式展现出来，这决定当前工作的内容、质量对未来科技成果产出的影响有着不同的滞后性，比如报告、产品原型此类的成果会在短时间内反馈与认定，而论文专著、知识产权类型的成果，由于需要同行的评审，认定的时间往往比较长。因此，未来一段时间某个科技部门的成果输出不容易被准确地预测出来。

发明内容

为了解决上述问题，本公开提出了一种基于注意特征的科技成果数量与主题的预测方法及系统，针对科技成果预测困难、以及新出现的数据条件，设计了一种适应新条件的科技成果数量与主题的预测方法及系统，辅助科技管理者更好地预测未来的科技成果。

根据一些实施例，本公开的第一方案提供了一种基于注意特征的科技成果数量与主题的预测方法，采用如下技术方案：

一种基于注意特征的科技成果数量与主题的预测方法及系统，包括以下步骤：

获取科技人员的注意状态数据，所获取的科技人员的注意状态数据包括科技人员办公终端的输入与输出信息、科技人员工作时间的语音信息和科技人员在工位的时长；

基于所获取的注意状态数据，构建注意状态的样本数据集；

采用注意特征进行样本数据集的特征提取，基于时间敏感预测模型依据科技人员的注意状态数据的时间跨度进行时间片科研成果数量的预测，基于方向主题生成模型依据科研成果数量的预测结果和所提取的样本数据集特征生成科研主题关键词，实现科技成果数量与主题的预测。

作为进一步的技术限定，在构建注意状态的样本数据集之前，对所获取的注意状态数据进行预处理。

作为进一步的技术限定，设置时间片长度，分时段记录科技人员的注意状态数据。

作为进一步的技术限定，所述构建注意状态的样本数据集的过程为：

设置时间片长度，分时段记录科技人员的工作状态；

对科技人员进行人员标识，获取科技人员在时间片内的在工位时长、语音信息和办公终端的使用时间与信息；

对所获取的科技人员在时间片内的数据信息进行处理，得到注意状态的样本数据集。

进一步的，对所获取的科技人员在时间片内的数据信息进行处理的过程为：汇总科技人员在时间片内的数据信息文本，采用基于自然语言处理的线性判别式分析，得到样本数据集的主题权重数据。

作为进一步的技术限定，所述预测模型基于多个样本数据集进行模型的训练，基于最优模型对下一个时间片的科技成果数量与科技主题进行预测。

进一步的，所述方向主题生成子模型根据最优模型的样本集训练模型的数据文本生成科技主题权重，科技成果主题权重最大的词汇即为科技方向。

根据一些实施例，本公开的第二方案提供了一种基于注意特征的科技成果数量与主题的预测系统，采用如下技术方案：

一种基于注意特征的科技成果数量与主题的预测系统，包括：

获取模块，被配置为获取科技人员的注意状态数据，所获取的科技人员的注意状态数据包括科技人员办公终端的输入与输出信息、科技人员工作时间的语音信息和科技人员在工位的时长；

构建模块，被配置为基于所获取的注意状态数据，构建注意状态的样本数据集；

预测模块，被配置为采用注意特征进行样本数据集的特征提取，基于时间敏感预测模型依据科技人员的注意状态数据的时间跨度进行时间片科研成果数量的预测，基于方向主题生成模型依据科研成果数量的预测结果和所提取的样本数据集特征生成科研主题关键词，实现科技成果的数量与主题的预测。

根据一些实施例，本公开的第三方案提供了一种计算机可读存储介质，采用如下技术方案：

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于注意特征的科技成果数量与主题的预测方法中的步骤。

根据一些实施例，本公开的第四方案提供了一种电子设备，采用如下技术方案：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于注意特征的科技成果数量与主题的预测方法中的步骤。

与现有技术相比，本公开的有益效果为：

本公开自动化地获取科技部门各工作人员的注意状态，以此训练预测各类成果模型；并根据模型的时间跨度选择关键时间片的数据，生成主题关键词；辅助科技管理人员提前预估未来一段时间的成果数量，给出各类成果数量的预期，并获取成果的主题。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例一中的基于注意特征的科技成果数量与主题的预测方法的简化流程图；

图2是本公开实施例一中的基于注意特征的科技成果数量与主题的预测方法的具体流程图；

图3是本公开实施例一中的多时间间隔样本数据的匹配图；

图4是本公开实施例二中的基于注意特征的科技成果数量与主题的预测系统的结构框图；

图5是本公开实施例二中的基于注意特征的科技成果及方向预测系统架构图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本公开实施例一介绍了一种基于注意特征的科技成果数量与主题的预测方法。

本实施例中所涉及到的所有的关于数据信息的获取，均是在征求科技人员同意的基础上所进行的。

如图1所示的一种基于注意特征的科技成果数量与主题的预测方法，包括以下步骤：

基于所获取的注意状态数据，构建注意状态的样本数据集；

采用注意特征进行样本数据集的特征提取，基于时间敏感预测模型依据科技人员的注意状态数据的时间跨度进行时间片科研成果数量的预测，基于方向主题生成模型依据科研成果数量的预测结果和所提取的样本数据集特征生成科研主题关键词，实现科技成果的数量与主题的预测。

基于注意特征可以刻画科技工作者的工作质量。注意是心理活动对一定对象的指向和集中，是伴随着感知觉、记忆、思维、想象等心理过程的一种共同的心理特征。注意有两个基本特征，一个是指向性，是指心理活动有选择的反映一些现象而离开其余对象。二是集中性，是指心理活动停留在被选择对象上的强度或紧张度。在工作时间中，科技人员常依赖各类电子设备处理各类工作，因此可以通过监视软件不间断地获取工作人员的注意情况。这为全面的获取与量化科技人员的工作质量及专注领域提供了条件。

下面针对本实施例中所介绍的基于注意特征的科技成果数量与主题的预测方法展开详细的介绍：

如图2所示的基于注意特征的科技成果数量与主题的预测方法，具体步骤为：

步骤S01：获取科技人员的原始注意状态数据；

步骤S02：对原始注意状态数据进行筛选和加工；

步骤S03：构建多个样本数据集；

步骤S04：基于多个样本数据集训练不同的模型；

步骤S05：基于准确性与主题重合性筛选最优模型；

步骤S06：基于模型预测成果与主题。

征求科技人员同意之后，进行科技人员的全监控，这一过程中通过设置办公电脑监控装置、录音装置、座椅感应装置、便携智能设备监控装置，用以监控科技部门每个人的工作状态与工作内容：

(1)办公电脑监控装置需记录科技人员的电脑中输入、输出信息，以及活跃时长。其中输入信息记录使用人员输入的文本信息；输出信息则记录使用人员阅读文本信息。办公电脑监控装置是一种安装于电脑的后台监控程序，其一般可兼容打开常见的文本编辑或者浏览格式如txt、docx、pdf等。

(1.1)记录使用人员输入的文字信息方法如下：

若可以获取当前使用软件的控制权，则通过API调用的方式实时记录输入文本。

若不能获取控制权，则频繁截屏电脑，实时监测截屏文字的变化。如果通过对比发现截屏出现多余的文字，则利用OCR技术识别这些多余的文字作为这一时刻的文本输入信息。

(1.2)记录使用人员阅读文本信息方法如下：

若可以获取当前使用软件的控制权，则通过API调用的方式获得当前阅读的文本。但并不是获取当前文件的所有文本作为阅读文字信息，而是截取部分文本。通过截屏方式获取当前关注文本，在文件中截取该文本前后n行文字作为当前时刻阅读文本信息。

若无法获取当前使用软件的控制权，则根据当前时间段截屏信息获取。具体如下：设当前时刻为t_i，则获取[t_i-a,t_i+a]时间段的截屏信息，a为截取时间段长度的一半。基于OCR技术识别各截屏信息的文本，将这些文本合并且去重后形成的文本即为当前时刻阅读文本信息。

(1.3)活跃时长记录两个数据：操作时长，即使用电脑的时间长度，其代表工作人员查阅资料时间与写作输入时长之和；编辑时长，即编辑文档的时长，其代表工作人员写作输入时长。

(2)录音装置记录科技工作人员工作时间的语音信息。录音装置配置于人员随身携带，于工作时间全程开启，记录科技工作人员的语言信息。系统收集语音信息后，识别宿主声音并将其语音信息转换为文本信息。

(3)座椅感应装置记录科技工作人员在工位的时长。

(4)便携智能设备监控装置记录技术人员的便携智能设备(手机、平板电脑等)输入与输出信息。便携智能设备监控装置内置于便携智能设备中，通过截屏及文字识别技术分析设备的输入与输出的文本信息，即科技人员在此类设备上编辑与阅读的信息。便携智能设备监控装置的数据获取过程与办公电脑监控装置相似，不再赘述。

将全监控模块传送的数据转换为可用于训练模型的时间序列数据，以方便模型的训练。具体方法如下：

1)设置时间片长度，即分时段记录科技人员的工作状态。用i标识一个时间片。时间片长度可设置为1周，1旬，1月。

2)设p_j为某一科技工作人员，j为人员标识，p_i,j为p_j在i时间片的工作状态数据:

其中,

分别代表在时间片i中，科技人员p_j使用工作电脑的阅读时间、编辑时间、阅读文本、编辑文本；

分别代表在时间片i中，p_j使用移动智能设备的阅读时间、编辑时间、阅读文本、编辑文本；χ_i,j代表在i时间片中，p_j使用工位座椅的时长；

代表在i时间片中，p_j录音的主题。

是通过全监控模块获取的文本数据。

3)建立数据集A，设a_i为A在i时间片的记录。

其中，P为部门科技人员集合。∑为求和计算，LDA()为主题向量提取函数，其计算方法为：首先将括号内各文本汇总成一个总文本，设为h。其次，基于自然语言处理的线性判别式分析(Linear Discriminant Analysis,简称LDA)技术对h进行分析，获得主题权重向量即为主题向量数据。

4)建立成果呈现标签数据集B，设b_k为B的一个记录。成果呈现指成果被认定，如知识产权授权，报告公开，论文发表等。b_k记录时间片k的成果数量。这里的成果是同属某一类的成果，比如科技论文。标签数据B的时间片，要比数据A长，一般以月或者季度为长度。

5)形成多时间间隔样本数据。给定k的成果数量b_k，不好确定是哪一时间片的工作会影响到k时刻的b_k；即系统无法自动地感知一个时间工作成果，多久后才会呈现。因此，需建立不同时间间隔的样本用于训练。如图3所示，一个成果呈现的数据可以与多个工作状态数据相配对，形成不同时间间隔的样本数据。具体方法如下：

5.1)基于一个b_k可以建立多条数据记录：<x_m,y_m>|m∈[0,k-t)，其中x_m为属性数据，y_m为标签数据。x_m＝(a_i|i∈[m,m+t)，a_i∈A)。t为时间窗口的长度。m为记录的标识，其同时也代表抽取工作状态的时刻。

其中

为成果的文本，

为基于注意特征提取模块c)步骤中主题向量提取函数产生的主题向量数据。

5.2)基于i步骤对所有的b_k建立数据记录。记录集合设为

5.3)k-m代表工作状态时刻与成果呈现时刻的时间间隔。具有相同时间间隔的数据记录放入到同一个样本集中，即将

所有的数据记录以k-m为条件，分配到不同的样本集中。设C_k-m为一个样本集，那么C_k-m所有记录的时间间隔都为k-m。

时间敏感预测子模块基于多个样本集分别训练模型，并基于最优的模型对下一个时间片的成果数量与主题进行预测。具体方法如下：

(a)设注意特征提取模块生成的样本集为C_v|v∈[0,n-1]，v为样本集标识，n为注意特征提取模块产生样本集的数量。

(b)对于每个C_v训练一个模型。输入为C_v：{<x_m,y_m>，…}中属性数据中的非主题向量数量，即在C_v中的一条数据属性x_m的多个a_i中取部分值属性。形式化如下表达：

其中，取

作为输入。输出为y_m中的b_k。

模型可以选用机器学习的任意回归模型，设基于C_v训练模型为E_v。给定测试数据，设

为E_v给出的估计值。

(c)评价最优模型。采用双标准评价模型，即估计值的准确性与主题重合性。使用如下函数评价E_v的优劣：

即选取一个使得λ与θ积最小的E_v为最优模型。其中，

其代表估计值与真实值的差异，即预测准确率；

D()为向量的余弦距离，θ代表成果的主题与工作内容主题的相似度。

(d)获得最优E_v后，基于E_v预测成果数量。

方向主题生成子模块根据最优E_v所用数据的文本生成主题权重，也即根据E_v对应样本集的时间间隔，找到当时工作状态数据中的主题文本，根据此文本生成成果的主题权重。生成主题权重的方法已在基于注意特征提取模块c)步骤说明。生成主题权重后，取权重最大的n个词汇，即为其主题词汇，将该主题词汇推送科技管理人员。

本实施例自动化地获取科技部门各工作人员的注意状态，以此训练预测各类成果模型；并根据模型的时间跨度选择关键时间片的数据，生成主题关键词；辅助科技管理人员提前预估未来一段时间的成果数量，给出各类成果数量的预期，并获取成果的主题。

实施例二

本公开实施例二介绍了一种基于注意特征的科技成果数量与主题的预测系统。

如图4所示的一种基于注意特征的科技成果数量与主题的预测系统，包括：

如图5所示，本实施例中所介绍的基于注意特征的科技成果数量与主题的预测系统主要有全监控模块、注意特征提取模块、时间敏感预测子模块、方向主题生成子模块；

其中，全监控模块负责在科技人员工作环境中设置各类监控设备，获取人员原始注意状态数据，并将这些数据发送给注意特征提取模块。

注意特征提取模块负责对原始注意状态数据进行筛选与加工，使之能适用于成果与方向的预测。同时，将样本数据分别发送至时间敏感模型预测模块、方向主题生成模块。

时间敏感预测子模块负责设计成果预测模型，并根据模型预测指定时段的预期成果。

方向主题生成子模块负责根据时间敏感权重与技术人员工作注意状态数据生成成果对应的方向主题。

详细步骤与实施例一提供的基于注意特征的科技成果数量与主题的预测方法相同，在此不再赘述。

实施例三

本公开实施例三提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例一所述的基于注意特征的科技成果数量与主题的预测方法中的步骤。

实施例四

本公开实施例四提供了一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于注意特征的科技成果数量与主题的预测方法中的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于注意特征的科技成果数量与主题的预测方法，其特征在于，包括以下步骤：

基于所获取的注意状态数据，构建注意状态的样本数据集；

2.如权利要求1中所述的一种基于注意特征的科技成果数量与主题的预测方法，其特征在于，在构建注意状态的样本数据集之前，对所获取的注意状态数据进行预处理。

3.如权利要求1中所述的一种基于注意特征的科技成果数量与主题的预测方法，其特征在于，设置时间片长度，分时段记录科技人员的注意状态数据。

4.如权利要求1中所述的一种基于注意特征的科技成果数量与主题的预测方法，其特征在于，所述构建注意状态的样本数据集的过程为：

设置时间片长度，分时段记录科技人员的工作状态；

5.如权利要求4中所述的一种基于注意特征的科技成果数量与主题的预测方法，其特征在于，对所获取的科技人员在时间片内的数据信息进行处理的过程为：汇总科技人员在时间片内的数据信息文本，采用基于自然语言处理的线性判别式分析，得到样本数据集的主题权重数据。

6.如权利要求1中所述的一种基于注意特征的科技成果数量与主题的预测方法，其特征在于，所述预测模型基于多个样本数据集进行模型的训练，基于最优模型对下一个时间片的科技成果数量与科技主题进行预测。

7.如权利要求6中所述的一种基于注意特征的科技成果数量与主题的预测方法，其特征在于，所述方向主题生成子模型根据最优模型的样本集训练模型的数据文本生成科技主题权重，科技成果主题权重最大的词汇即为科技方向。

8.一种基于注意特征的科技成果数量与主题的预测系统，其特征在于，包括：

预测模块，被配置为采用注意特征进行样本数据集的特征提取，基于时间敏感预测模型依据科技人员的注意状态数据的时间跨度进行时间片科研成果数量的预测，基于方向主题生成模型依据科研成果数量的预测结果和所提取的样本数据集特征生成科研主题关键词，实现科技成果数量与主题的预测。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于注意特征的科技成果数量与主题的预测方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于注意特征的科技成果数量与主题的预测方法中的步骤。