CN113360776B

CN113360776B - 基于跨表数据挖掘的科技资源推荐方法

Info

Publication number: CN113360776B
Application number: CN202110814971.XA
Authority: CN
Inventors: 肖国强; 唐小琴; 王晓蒙; 吴松; 程天宇
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2023-07-21
Anticipated expiration: 2041-07-19
Also published as: CN113360776A

Abstract

本发明公开了一种基于跨表数据挖掘的科技资源推荐方法，该方法通过前期数据语义分析，挖掘跨表数据或多对象属性之间的相关性，确定用于NLP主题模型的输入数据字段，在一定程度上优化了多对象之间的数据交流模式；通过采用的神经网络主题模型结构简洁，且无需先验假设，通过训练可获得质量更高的主题表示；通对多对象推荐结果根据推荐指数和对象种类，进行不同大小和颜色的图模型展示及可视化，可实现推荐结果的直观、有效、合理显示，提升用户体验。

Description

基于跨表数据挖掘的科技资源推荐方法

技术领域

本发明涉及一种基于跨表数据挖掘的科技资源推荐方法。

背景技术

科技资源在国民经济发展中愈发重要，在科技活动中的共享和利用程度也得到相关部门和企业的高度重视，资源的多维大数据特征得以突显。

科技资源具有领域性强、数据分散、地域性强的特点，当前的通用性推荐算法(如用户行为分析、协同过滤技术等)在实际的资源共享平台中的应用效果不佳，资源推荐准确率偏低。隐语义分析技术是一种基于机器学习的一系列方法，具有比较好的理论基础，目前部分算法在推荐系统中已经得到应用和肯定。但是，目前的推荐方法均不能进行跨表数据挖掘，从而实现基于多维度数据向企业准确推荐科技资源。

发明内容

本发明的目的是提供一种基于跨表数据挖掘的科技资源推荐方法，能够为企业自动推荐科技资源。

为解决上述技术问题，本发明提供一种基于跨表数据挖掘的科技资源推荐方法，包括步骤：

S1：构建包括企业、人才、项目、平台和仪器设备属性数据的对象表，选取与对象表中各对象属性相关性最高的关联对象作为跨表数据交流的信息通道；

S2：从所述对象表中提取与关联对象的属性数据对应的属性数据，并根据提取出的属性数据构建NLP主题模型形成文档数据；

S3：对所述文档数据进行分词处理，然后将分词后的文档数据输入创建好的神经网络主题模型NTM进行训练，求得文档-主题分布θ和主题-词汇分布φ及对应的权重矩阵W_θ和W_φ，并生成隐含层对应每个主题下的词汇集及其出现概率；

S4：通过训练好的主题-词汇分布求出与用户搜索的关键词匹配度最高的主题t^*；再根据要求返回的对象，计算主题t^*对应词汇集/>出现在每个对象文档数据d的概率然后对计算结果进行从大到小排序后将对应的对象ID作为推荐系数返回给企业用户。

进一步地，所述步骤S2具体包括：提取企业-业务范围数据、项目-名称数据、人才-熟悉学科数据、仪器设备-主要功能数据和平台-研究方向数据输入NLP主题模型形成文档数据；其中，每个记录或样本对应的数据定义为一个文档数据d＝{d₁,d₂,...d_N}，N表示文档总数。

进一步地，所述步骤S3具体包括：

S31：对文档集d进行n-gram分词得到词汇集g，构建神经网络主题模型NTM，并将每个文档集d及其n-gram词汇集g作为神经网络主题模型NTM的输入层；

S32：添加n-gram词向量层，定义词向量维度为300，将每个词汇集g转换成数字向量le(g)进行表示；

S33：创建文档-主题分布θ和主题-词汇分布的两个隐含层ld(d)和lt(g)，主题数量为K；其中，ld(d)＝softmax(W_θ(d))，lt(g)＝sigmoid(le(g)×W_φ)，其中权重矩阵W_θ表示N个文档向量在K个主题上的分布，即W_θ∈R^N×K，W_θ(d)为文档集d的权重矩阵；W_φ表示主题-词汇层K个主题与词向量层300维词向量之间的权重矩阵，故W_φ∈R^300×K。因文档主题个数为K，则ld和lt均是一个K维向量；模型输出为文档集d关于词汇集g的分布概率

S34：将步骤S31中每个样本数据(d,g)，和通过统计标注获得的每个词汇集g在文档集d中出现的概率p(g|d)分别作为神经网络主题模型NTM的输入和输出进行训练，获得文档-主题分布θ和主题-词汇分布φ，以及对应的权重矩阵W_θ和W_φ

进一步地，所述步骤S31中，文档集d采用unigram和bigrams模型生成词汇集g＝{g₁,g₂,...g_V}，V表示文档的词汇数量。

进一步地，该方法还包括：

S5：采用图结构对步骤S4得到的推荐结果进行可视化。

进一步地，所述步骤S5具体包括：

S51：依据步骤S3的推荐指数对图节点的大小进行定义，使推荐指数高的对象在图空间的节点面积最大，且距离图空间中该图节点最近。

进一步地，所述步骤S5还包括：

S52：采用不同的颜色对不同对象进行区分和可视化。

本发明的有益效果为：通过前期数据语义分析，挖掘跨表数据或多对象属性之间的相关性，确定用于NLP主题模型的输入数据字段，在一定程度上优化了多对象之间的数据交流模式；在采用多对象联合推荐技术推荐适合企业发展的科技项目，并为该项目准确推荐多种合适的科技资源如人才、仪器设备等。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为基于跨表数据挖掘的科技资源推荐方法实施方案；

图2为面向企业的科技资源数据表达与挖掘方法示意图；

图3为神经网络主题模型构建方法。

具体实施方式

如图1所示的基于跨表数据挖掘的科技资源推荐方法，该方法包括步骤：

本发明通过前期数据语义分析，挖掘跨表数据或多对象属性之间的相关性，确定用于NLP主题模型的输入数据字段，在一定程度上优化了多对象之间的数据交流模式；在采用多对象联合推荐技术推荐适合企业发展的科技项目，并为该项目准确推荐多种合适的科技资源如人才、仪器设备等。

根据本申请的一个实施例，所述步骤S2具体包括：提取企业-业务范围数据、项目-名称数据、人才-熟悉学科数据、仪器设备-主要功能数据和平台-研究方向数据输入NLP主题模型形成文档数据；其中，每个记录或样本对应的数据定义为一个文档数据d＝{d₁,d₂,...d_N}，N表示文档总数。跨表数据包含企业、项目、人才、平台和仪器设备5种对象及其属性数据，通常这些属性对于不同的需求，其重要性和价值有所不同，附图2展示了各对象的部分属性。针对科技资源推荐应用场景，各资源数据的相关性主要体现在专业方向和实用价值方面，故定义一个用于关联多种数据对象的语义概念“研究方向”。随后，从每个数据对象表中选择与该语义概念最匹配的属性作为跨表数据交流的信息通道，并将该表中该属性对应的数据用于构建NLP主题模型。拟选择的对象属性包括：企业-“业务范围”、项目-“名称”、人才-“熟悉学科”、仪器设备-“主要功能”和平台-“研究方向”。

根据本申请的一个实施例，所述步骤S3具体包括：

S31：对文档集d进行n-gram分词得到词汇集g，并将每个文档集d及其n-gram词汇集g作为神经网络主题模型NTM的输入层；

S32：添加n-gram词向量层，定义词向量维度为300，将每个词汇集g转换成数字向量le(g)进行表示；通过实现文本数据的量化表示，提高文本数据的可运算性和可操作性。

S33：创建文档-主题分布θ和主题-词汇分布的两个隐含层ld(d)和lt(g)，主题数量为K；不同于传统概率主题模型，NTM无需指定先验分布，而是分别采用神经网络常用的softmax和sigmoid函数从权重矩阵中生隐含层ld和lt，即：ld(d)＝softmax(W_θ(d))，lt(g)＝sigmoid(le(g)×W_φ),其中权重矩阵W_θ表示N个文档向量在K个主题上的分布，即W_θ∈R^N ^×K，W_θ(d)为文档集d的权重矩阵。W_φ表示主题-词汇层K个主题与词向量层300维词向量之间的权重矩阵，故W_φ∈R^300×K。因文档主题个数为K，则ld和lt均是一个K维向量。模型输出为文档集d关于词汇集g的分布概率/>

S34：将步骤S31中每个样本数据(d,g)，和通过统计标注获得的每个词汇集g在文档集d中出现的概率p(g|d)分别作为神经网络主题模型NTM的输入和输出进行训练，获得文档-主题分布θ和主题-词汇分布φ，以及对应的权重矩阵W_θ和W_φ。通过训练隐含层的主题模型，生成同一主题下语义信息相似的词汇g^t，且这些词汇隶属于该主题的概率最大，如人才对象表中的以下词汇隶属于同一主题：{模式，识别，图像，处理，人工，智能，系统，计算机，机器，学习，深度}。

根据本申请的一个实施例，所述步骤S31中，文档集d采用unigram和bigrams模型生成词汇集g＝{g₁,g₂,...g_V}，V表示文档的词汇数量。

根据本申请的一个实施例，该方法还包括：

S5：采用图结构对步骤S4得到的推荐结果进行可视化。

根据本申请的一个实施例，所述步骤S5具体包括：

根据本申请的一个实施例，所述步骤S5还包括：

S52：采用不同的颜色对不同对象进行区分和可视化。

本申请通过根据推荐指数和对象种类，进行不同大小和颜色的图模型展示及可视化，可实现推荐结果的直观、有效、合理显示，提升用户体验。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于跨表数据挖掘的科技资源推荐方法，其特征在于，包括步骤：

S2：从所述对象表中提取与关联对象的属性数据对应的属性数据，并根据提取出的属性数据构建NLP主题模型形成文档数据；步骤S2具体包括：提取企业-业务范围数据、项目-名称数据、人才-熟悉学科数据、仪器设备-主要功能数据和平台-研究方向数据输入NLP主题模型形成文档数据；其中，每个记录或样本对应的数据定义为一个文档数据d＝{d₁,d₂,...,d_N}，N表示文档总数；

2.根据权利要求1所述的基于跨表数据挖掘的科技资源推荐方法，其特征在于，所述步骤S3具体包括：

S33：创建文档-主题分布θ和主题-词汇分布的两个隐含层ld(d)和lt(g)，主题数量为K；其中，ld(d)＝softmax(W_θ(d))，lt(g)＝sigmoid(le(g)×W_φ)，其中权重矩阵W_θ表示N个文档向量在K个主题上的分布，即W_θ∈R^N×K，W_θ(d)为文档集d的权重矩阵；W_φ表示主题-词汇层K个主题与词向量层300维词向量之间的权重矩阵，故W_φ∈R^300×K。因文档主题个数为K，则ld和lt均是一个K维向量；模型输出为文档集d关于词汇集g的分布概率/>

S34：将步骤S31中每个样本数据(d,g)，和通过统计标注获得的每个词汇集g在文档集d中出现的概率p(g|d)分别作为神经网络主题模型NTM的输入和输出进行训练，获得文档-主题分布θ和主题-词汇分布φ，以及对应的权重矩阵W_θ和W_φ。

3.根据权利要求2所述的基于跨表数据挖掘的科技资源推荐方法，其特征在于，所述步骤S31中，文档集d采用unigram和bigrams模型生成词汇集g＝{g₁,g₂,...,g_V}，V表示文档的词汇数量。

4.根据权利要求1所述的基于跨表数据挖掘的科技资源推荐方法，其特征在于，该方法还包括：

S5：采用图结构对步骤S4得到的推荐结果进行可视化。

5.根据权利要求4所述的基于跨表数据挖掘的科技资源推荐方法，其特征在于，所述步骤S5具体包括：

6.根据权利要求5所述的基于跨表数据挖掘的科技资源推荐方法，其特征在于，所述步骤S5还包括：

S52：采用不同的颜色对不同对象进行区分和可视化。