CN116595418A

CN116595418A - 一种科技成果多维画像构建方法

Info

Publication number: CN116595418A
Application number: CN202310604457.2A
Authority: CN
Inventors: 华斌; 倪祺; 宋平; 黄兴德; 陆启宇; 张琪祁; 孟夏卿; 谢小松; 毛颖科; 周录波; 王和杰; 李永; 赵涛; 张宇; 刘小倩; 杨小静
Original assignee: Shanghai Jiulong Enterprise Management Consulting Co ltd; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai Jiulong Enterprise Management Consulting Co ltd; State Grid Shanghai Electric Power Co Ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-15

Abstract

本发明公开了一种科技成果多维画像构建方法，从“数据收集‑数据处理‑标签生成‑画像可视化‑画像应用”流程构建科技成果多维画像，生成了科技成果多维标签体系，聚合科技成果多维标签，形成科技成果多维画像，通过可视化技术，将科技成果360度可视化展示，便于“一图”快速了解科技成果。本发明的科技成果多维画像构建方法，可以实现对科技成果进行深度分析和刻画，构建科技成果多维画像，实现对科技成果360度可视化展示，对成果全方位的洞察和了解，从而可以为项目规划立项辅助决策、科技成果转化辅助推荐、科技成果价值深入挖掘提供应用价值。

Description

一种科技成果多维画像构建方法

技术领域

本发明涉及一种科技成果多维画像构建方法。

背景技术

Alan Cooper(交互设计之父)最早提出了(user persona)的概念：“personas areaconcrete representation of target users.”Persona是真实用户的虚拟代表，是建立在一系列真实数据之上的目标用户模型。用户画像(user profile)是基于大量用户积累下的数据，结合相应的需求和场景沉淀出的一系列标签，这些标签共同为提供更好的产品迭代提供数据支持。

所谓用户画像，在不同的文献中有很多不同的定义，学者刘海鸥等就提出：全方位、立体性地记录消费者的数据就叫作用户画像。丁伟等学者又认为：用户画像，就是收集和分析用户的个人属性、社交网络和行为特征，最后汇总并勾勒用户信息。它的关键意义是将用户信息分成几个类别，然后将它们赋予成通俗易懂的标签，以描述用户的兴趣爱好和特征。综上看来，用户画像必然来源于用户的真实数据，是这种数据在抽象领域的映射，也能代表一类相同或相似的用户集体。用户画像所勾勒的用户信息有静态的，也有动态的，目的是充分反映用户的特征和需求，能够清晰地代表和区别不同群体。

用户画像最初是在电商领域得到应用的，在大数据时代背景下，用户信息充斥在网络中，将用户的每个具体信息抽象成标签，利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。

通过对LBNL实验室和国家科技成果转化项目库分析可知，科技成果管理，需要构建一个强大的科技成果库，可以实现对成果智能统计、分析及管理；重视科技成果转化管理，注重科技成果转化，多渠道、多平台展示和推荐优秀成果；整合成果提供方和需求方资源，建立有效沟通渠道，智能推荐科技成果，促进科技成果高效转化。

从管理模式方面来看，在成果报奖和转化时，组织专家评审会进行资料评审，主要是根据成果完成单位提交的成果资料，采用专家主观评价的形式进行，如果单位提交的成果资料不足，可能造成专家对成果认知不足，缺乏对科技成果全方位洞察；在科技成果管理阶段，科技创新部负责对公司内外发布科技成果，并为成果供需双方搭建沟通的平台，科技创新部对所有的项目和成果进行整齐划一的管理，不会根据项目特征制定个性化的项目实施管理策略，或根据成果的特征采用最适用的转化路径。对所有拟转化的成果统一发布，集中组织供需双方沟通，对供需双方的分析不够深入、对接不够精准，导致成果转化的成功率不高。

从科技成果转化管理来看，借助外部渠道和优质平台进行成果转化和推广，由于成果宣传和推广受平台限制、经费投入等影响，也可能造成市场对科技成果认知不足、以及供需双方信息不对称等问题；且缺乏科技成果深度刻画，以及科技成果转化智能推荐工具，影响科技成果转化率；缺乏科技成果数据库、成果潜在需求单位数据库；项目成果主要在国网及内部系统转化，在行业外和社会推广上有待加强。

因此，面对“缺成果画像、缺智能推荐、缺智能分析、缺成果数据库”现状，需要对科技成果进行深度分析和刻画，构建科技成果多维画像，实现对科技成果360度可视化展示，使科技成果“一图”可知。

发明内容

本发明的目的是克服现有技术的缺陷，提供一种科技成果多维画像构建方法，可以实现对科技成果进行深度分析和刻画，构建科技成果多维画像，实现对科技成果360度可视化展示，从而为项目规划立项辅助决策、科技成果转化辅助推荐、科技成果价值深入挖掘提供应用价值。

实现上述目的的技术方案是：一种科技成果多维画像构建方法，包括以下步骤：

S1，数据收集步骤：数据收集是多维画像构建的第一步，数据的质量影响画像的精准性，从多渠道获取完整、高质量的数据，数据来源分为内部数据收集和外部数据收集。内部数据从内部数据库直接导出或通过人工收集方式，收集相关科技成果数据，；外部数据通过人工收集或从网上收集有关科技成果数据，通过内、外部全方位数据收集，获取到完整、真实可靠、高质量的数据，为标签提取奠定良好基础；

S2，数据处理步骤：对收集的数据依次进行数据清洗、数据集成、数据变换和特征选择及特征降维；

S3，标签生成步骤：标签是通过对科技成果信息分析得到的高度精炼的特征标识，经过步骤S2处理后的数据通过标签提取挖掘方法，生成科技成果标签，然后对科技成果标签进行归类，将散乱的科技成果标签划分为不同的层级和类别，形成科技成果多维标签体系进行统一管理；

S4，画像可视化步骤：将提取的科技成果标签，聚合形成科技成果多维画像，通过画像可视化技术，使得画像可视，便于“一图”快速了解科技成果；

S5，画像应用步骤：通过科技成果多维画像完成对科技成果全方位的洞察和了解，从而为项目规划立项辅助决策、科技成果转化辅助推荐、科技成果价值深入挖掘提供应用价值。

上述的一种科技成果多维画像构建方法，步骤S2中，所述数据清洗指的是通过均值插补、就近填补等方法填补数据集中的缺失值，根据实际情况删除或者修改数据集中重复值和异常值；

所述数据集成是指将多个数据源的数据统一结合到一个数据库中存储的过程；

所述数据变换将非数值型数据转换为数值型数据方便机器学习算法的后续处理，常用的方法有标签编码和独热编码，由于不同特征的数据之间不在统一量纲下，如果需要使用梯度下降算法来求解模型，还需要对数据进行归一化处理，常用的方法有z-score标准化和min-max标准化；

所述特征选择及特征降维是指在一个数据集中存在很多特征，通常不是所有特征对于模型的计算都是有意义的，有一些特征对于标签的影响很小或者是没有影响，如果使用全部特征参与机器学习模型中的计算不仅会降低模型的精确度，而且还降低了模型计算的效率，最终对结果造成不利影响，要根据实际情况，降低数据特征的维度，提升模型运算效率。

上述的一种科技成果多维画像构建方法，步骤S3中，从标签维度、标签分类、标签指标和标签值四个方面构建科技成果多维标签体系，标签维度包括基本标签、事实标签、模型标签、预测标签四个维度。

上述的一种科技成果多维画像构建方法，所述基本标签，指科技成果的基本信息标签，是对成果的基本描述，包括成果名称、完成单位、完成时间、完成人、技术方向、应用领域等信息；

所述事实标签，指成果投入产出结果，包括成果投入、论文、专利、软著、标准、奖励等信息输出标签；

所述模型标签，指成果更深层次的信息标签，包括产生的效益、成果的水平、质量、贡献度、技术成熟度等信息；

所述预测标签，指对成果标准化、成果转化潜力的预测输出的标签。

上述的一种科技成果多维画像构建方法，步骤S3中，标签提取挖掘方法包括直接提取、汇总统计、评估模型构建、文本挖掘、NLP技术、机器学习、TF-IDF技术、分类分析技术、聚类分析技术、关联分析技术和回归分析技术。

上述的一种科技成果多维画像构建方法，步骤S5中，项目规划立项辅助决策：根据成果多维画像技术方向、应用领域标签内容，分析科技创新领域研究热度，在项目前期规划布局、立项阶段辅助决策；

科技成果转化辅助推荐：根据科技成果多维画像标签内容，基于科技成果转化智能推荐系统，为成果需求方个性化、精准推荐其所需成果；

科技成果价值深度挖掘：根据科技成果多维画像，实现成果全方位洞察，对成果报奖、标准化、成果转化、推广应用价值深度挖掘具有重要作用。

本发明的科技成果多维画像构建方法，可以实现对科技成果进行深度分析和刻画，构建科技成果多维画像，实现对科技成果360度可视化展示，从而为项目规划立项辅助决策、科技成果转化辅助推荐、科技成果价值深入挖掘提供应用价值。

附图说明

图1为本发明的科技成果多维画像构建方法的流程图。

具体实施方式

为了使本技术领域的技术人员能更好地理解本发明的技术方案，下面结合附图对其具体实施方式进行详细地说明：

通过对用户画像理论研究可知，用户画像就是以大数据为基础的对符合特定业务需求用户的全方位展现和描述，换句话说，构建用户画像的前提就是要有明确的价值需求和海量的数据集。有了这些数据集后，就可以通过大数据分析的方法从这些纷乱繁杂的数据中提取出有价值的信息，通过这些信息可以精准便捷的描述和刻画用户，这样的一个过程就是为用户贴上标签的过程。模型构建成功后，观察者就能根据每个标签的信息从不同角度了解用户。依据此思路，可从“数据收集-数据处理-标签生成-画像可视化-画像应用”流程构建科技成果多维画像。

请参阅图1，本发明的实施例，一种科技成果多维画像构建方法，包括以下步骤：

S1，数据收集步骤：数据收集是多维画像构建的第一步，数据的质量影响画像的精准性，从多渠道获取完整、高质量的数据，数据来源分为内部数据收集和外部数据收集。内部数据可以直接从内部数据库直接导出或通过人工收集方式，收集相关成果数据，如有关项目数据(可研、合同、报告等)、成果数据(专利、论文、获奖、推广应用、价值评估、技术成熟度评估、成果转化、经济效益等详细数据)；外部数据可以通过人工收集或爬虫软件等工具从网上收集有关成果数据，如从知网查看论文专利、从百度、微信公众号、微博等了解成果的热度等。通过内外部全方位数据收集，尽量获取到完整、真实可靠、高质量的数据，为标签提取奠定良好基础；

S2，数据处理步骤：对收集的数据依次进行数据清洗、数据集成、数据变换和特征选择及特征降维；直接初步获取的数据可能含有大量噪声和冗余数据，数据质量差，存在数据缺失、数据不完整、不一致数据、结构化数据、数据与常识不符，以及信息冗余等问题。因此需要需要对数据进行数据预处理工作之后才能对这些数据进行分析；

数据清洗指的是通过均值插补、就近填补等方法填补数据集中的缺失值，根据实际情况删除或者修改数据集中重复值和异常值；数据集成是指将多个数据源的数据统一结合到一个数据库中存储的过程；数据变换将非数值型数据转换为数值型数据方便机器学习算法的后续处理，常用的方法有标签编码(Label encoding)和独热编码(One-hotencoding)，由于不同特征的数据之间不在统一量纲下，如果需要使用梯度下降算法来求解模型，还需要对数据进行归一化处理，常用的方法有z-score标准化和min-max标准化；特征选择和特征降维是指在一个数据集中存在很多特征，通常不是所有特征对于模型的计算都是有意义的，有一些特征对于标签的影响很小或者是没有影响，如果使用全部特征参与机器学习模型中的计算不仅会降低模型的精确度，而且还降低了模型计算的效率，最终对结果造成不利影响，所以我们要根据实际情况，降低数据特征的维度，提升模型运算效率；

步骤S3中，标签提取挖掘方法包括直接提取、汇总统计、评估模型构建、文本挖掘、NLP技术、机器学习、TF-IDF技术、分类分析技术、聚类分析技术、关联分析技术和回归分析技术。

直接提取，即有些标签不需要处理，可以直接从原始数据中提取的标签，例如成果名称、完成单位、完成人等；汇总统计，有些标签需要经过汇总统计才可以提取的标签，比如科技成果金额投入、经济效益计算等；评估模型构建，有些标签必须要建立评估分析模型才能提取的标签，如科技成果价值评估。无论是直接提取、汇总统计、还是评估模型构建，若要实现标签的自动提取，都可能需要用到文本挖掘、NLP技术、机器学习、TF-IDF等技术。此外，还有可能需要用到以下技术:

1)分类分析技术：通过分类算法将成果按已知属性标签分类，提高标签覆盖率和合理性，涉及的技术包括朴素贝叶斯、支持向量机、神经网络等。

2)聚类分析技术：通过聚类算法将分类不明确的属性进行聚类分析和挖掘，提供标签准确性，涉及的技术包括K均值聚类、层次聚类、模糊C均值聚类等。

3)关联分析：通过关联分析深度挖掘多个标签的关系，得到更高层次的标签，涉及的技术包括Apprioir算法、FP-Growth算法等。

4)回归分析：通过分析验证标签属性设置的合理性，以及成果画像的准确性，涉及的技术包括多元线性回归、多元非线性回归、逻辑回归等。

以上是标签挖掘常用到的技术，具体可根据实际情况结合使用。

生成的标签需要进行标签归类。简单来说就是对生成的成果标签进行分类，将散乱的标签划分为不同的层级和类别，进行统一管理。未来，科技成果标签数量将随着需求的增加有可能持续扩增、删减、更改，因此建立一个相对稳定、可扩展、易整合的科学合理的标签体系是非常必要的。

基于“资源投入-创新过程-产出成果”角度，依靠多种标签挖掘方法，以定性为主，定量为辅，从“基本标签、事实标签、模型标签、预测标签”四个维度，构建多维度多层级科技成果标签体系。

基本标签，指科技成果的基本信息标签，是对成果的基本描述，包括成果名称、完成单位、完成时间、完成人、技术方向、应用领域等信息。这类标签构建难度低、实际含义明确。基本属性，不用对数据进行加工处理，可以从数据源中直接提取的标签。

事实标签，指成果投入产出结果，包括成果投入、论文、专利、软著、标准、奖励等信息输出的标签。事实标签可以从原始数据中直接获取，或通过定义规则，或需要对数据简单的处理、统计计算、分析得到的标签。

模型标签，指成果更深层次的信息标签，包括产生的效益、成果的水平、质量、贡献度、技术成熟度等信息。模型标签需要建立复杂的计算模型、分析模型、评估模型等，才可以提取的标签。

预测标签，指对成果标准化、成果转化潜力的预测输出的标签，模型标签作用可以对科技成果价值进行深度挖掘，辅助管理者做出正确的决策。预测标签重在对成果深度价值预测，所以通过参考实际数据等，也需要建立评估模型可提取的标签。

从标签维度、标签分类、标签指标和标签值(输出标签)四个方面构建科技成果多维标签体系，标签维度包括基本标签、事实标签、模型标签、预测标签四个维度。科技成果多维标签体系见表1：

表1，科技成果多维标签体系：

步骤S5中，项目规划立项辅助决策：根据成果多维画像技术方向、应用领域标签内容，分析科技创新领域研究热度，在项目前期规划布局、立项阶段辅助决策；

综上所述，本发明的科技成果多维画像构建方法，可以实现对科技成果深度分析和刻画，构建科技成果多维画像，实现对科技成果360度可视化展示，从而为项目规划立项辅助决策、科技成果转化辅助推荐、科技成果价值深入挖掘提供应用价值。

本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种科技成果多维画像构建方法，其特征在于，包括以下步骤：

S1，数据收集步骤：数据收集是多维画像构建的第一步，数据的质量影响画像的精准性，从多渠道获取完整、高质量的数据，数据来源分为内部数据收集和外部数据收集。内部数据从内部数据库直接导出或通过人工收集方式，收集相关科技成果数据；外部数据通过人工收集或从网上收集有关科技成果数据，通过内、外部全方位数据收集，获取到完整、真实可靠、高质量的数据，为标签提取奠定良好基础；

2.根据权利要求1所述的一种科技成果多维画像构建方法，其特征在于，步骤S2中，所述数据清洗指的是通过均值插补、就近填补等方法填补数据集中的缺失值，根据实际情况删除或者修改数据集中重复值和异常值；

3.根据权利要求1所述的一种科技成果多维画像构建方法，其特征在于，步骤S3中，从标签维度、标签分类、标签指标和标签值四个方面构建科技成果多维标签体系，标签维度包括基本标签、事实标签、模型标签、预测标签四个维度。

4.根据权利要求3所述的一种科技成果多维画像构建方法，其特征在于，所述基本标签，指科技成果的基本信息标签，是对成果的基本描述，包括成果名称、完成单位、完成时间、完成人、技术方向、应用领域信息；

所述模型标签，指成果更深层次的信息标签，包括产生的效益、成果的水平、质量、贡献度、技术成熟度信息；

5.根据权利要求1所述的一种科技成果多维画像构建方法，其特征在于，步骤S3中，标签提取挖掘方法包括直接提取、汇总统计、评估模型构建、文本挖掘、NLP技术、机器学习、TF-IDF技术、分类分析技术、聚类分析技术、关联分析技术和回归分析技术。

6.根据权利要求1所述的一种科技成果多维画像构建方法，其特征在于，步骤S5中，项目规划立项辅助决策：根据成果多维画像技术方向、应用领域标签内容，分析科技创新领域研究热度，在项目前期规划布局、立项阶段辅助决策；