CN111241403B - 基于深度学习的团队推荐方法、系统及存储介质 - Google Patents
基于深度学习的团队推荐方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111241403B CN111241403B CN202010041900.6A CN202010041900A CN111241403B CN 111241403 B CN111241403 B CN 111241403B CN 202010041900 A CN202010041900 A CN 202010041900A CN 111241403 B CN111241403 B CN 111241403B
- Authority
- CN
- China
- Prior art keywords
- team
- recommendation
- determining
- recommendation list
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000000513 principal component analysis Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于深度学习的团队推荐方法、系统及存储介质,方法包括:获取用户文本数据,对所述用户文本数据进行词频统计;根据词频统计结果,采用PCA方法获取所述用户文本数据中的特征集;根据所述特征集,采用基于特征相似的推荐算法确定第一推荐列表;根据所述特征集,采用基于热门团队的推荐算法确定第二推荐列表;根据所述特征集,采用基于好友关系的推荐算法确定第三推荐列表;根据所述第一推荐列表、第二推荐列表和第三推荐列表,确定目标推荐列表。本发明能够在推荐学术团队时考虑到覆盖率和新颖性,能够将新创建的非热门团队推荐给用户,提高了精准度,可广泛应用于计算机技术领域。
Description
技术领域
本发明涉及计算机技术领域,尤其是基于深度学习的团队推荐方法、系统及存储介质。
背景技术
近年来,随着微信,微博,Facebook等社交平台的兴起,通过社交平台,用户能够轻松地获取,生成和传播各类信息;并且随着推荐系统在产业界获得巨大成功,学术界对推荐系统的研究热度一直很高,同时也把推荐系统应用于学术社交网络中。信息过载就是随着网络的迅速发展,带来信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低。
学术社交网络中传播环境是比较封闭的,这种封闭的社交环境,造就了好友圈关系的绝对“熟悉”,因此社交网络已经不仅仅是人们的现实生活圈,在网络当中的一个反映,同时也在网络当中扩展着人们的人际关系,使得人们在网络当中可以认识更多适合自己的好友及团队。但由于具有的好友有限,使得人们能够获取信息、传播信息的范围也具有相对的局限性,一定程度上限制了他们建立学术好友圈。
社交网络学术团队推荐系统,它可以全面地展示学者学术信息,加强学者之间的科研合作,对新知识的创造、传播和学科交叉的研究产生了重要影响,从而更好的推动科技创新的发展。
目前的国内外针对推荐系统的推荐算法的研究主要是从三个方面来进行推荐:(1)基于待推荐的内容本身的相关属性来进行推荐;(2)基于用户属性的偏好等信息来进行推荐;(3)结合两种推荐方式的综合推荐。在推荐系统中较为经典的推荐算法主要是结合用户偏好属性协同过滤算法。以上算法只捕获全部特征相关的某个时刻的特征状态属性,但忽略了用户偏好和待推荐的内容本身的变化过程中,所包含的兴趣的衰减以及增长的信息等,导致推荐结果不够精准。同时这些算法并不能有效解决社会学领域的马太效应,即一个系统会增大热门物品和非热门物品的流行度差距,让热门的物品更为热门,不热门的物品更加不热门。
发明内容
有鉴于此,本发明实施例提供一种精准度高的,基于深度学习的团队推荐方法、系统及存储介质。
本发明的第一方面提供了一种基于深度学习的团队推荐方法,包括:
获取用户文本数据,对所述用户文本数据进行词频统计;
根据词频统计结果,采用PCA方法获取所述用户文本数据中的特征集;
根据所述特征集,采用基于特征相似的推荐算法确定第一推荐列表;
根据所述特征集,采用基于热门团队的推荐算法确定第二推荐列表;
根据所述特征集,采用基于好友关系的推荐算法确定第三推荐列表;
根据所述第一推荐列表、第二推荐列表和第三推荐列表,确定目标推荐列表。
进一步,所述对所述用户文本数据进行词频统计,包括:
计算用户文本数据中各个词的词频和逆文档频率;
根据所述词频和所述逆文档频率,确定各个词的重要程度评估值;
将所述重要程度评估值赋值到Word2Vec的训练模型中,给每个词向量增加所述重要程度评估值作为权重标签,确定各个词对于文档集或语料库中一份文档的重要程度。
进一步,所述根据词频统计结果,采用PCA方法获取所述用户文本数据中的特征集,包括:
确定多特征样本的多维随机变量;
根据所述多特征样本的协方差矩阵的特征向量,确定线性变换的变换矢量;
根据所述变换矢量,对所述多维随机变量进行线性变换,得到新的变量。
进一步,所述根据所述特征集,采用基于特征相似的推荐算法确定第一推荐列表,包括:
计算用户特征与团队特征之间的余弦值;
根据Logistic时间衰减函数和所述余弦值,确定推荐值;
将推荐值进行排序,确定第一推荐列表。
进一步,所述根据所述特征集,采用基于热门团队的推荐算法确定第二推荐列表,包括:
通过函数变换对热门团队衡量指标量进行标准化处理,将所述热门团队衡量指标映射到确定的数值区间范围,所述热门团队衡量指标包括团队点击率,团队成员数量,团队的动态数,动态的浏览量,团队公告数和公告浏览;
基于指数时间衰减函数和标准化处理的结果,确定基于热门团队的第二推荐列表。
进一步,所述根据所述特征集,采用基于好友关系的推荐算法确定第三推荐列表,包括:
获取用户的好友信息,所述好友基于用户之间的特征相似度、关系密切度和互动频繁度来确定;
获取所述用户的好友加入的团队信息;
根据好友的信任度,从好友加入的团队中确定出第三推荐列表。
进一步,所述根据所述第一推荐列表、第二推荐列表和第三推荐列表,确定目标推荐列表,包括:
确定第一推荐列表的第一权重参数;
确定第二推荐列表的第二权重参数;
确定第三推荐列表的第三权重参数;
基于第一权重参数、第二权重参数和第三权重参数,计算目标推荐列表。
第二方面,本发明提供了一种基于深度学习的团队推荐系统,包括:
获取模块,用于获取用户文本数据,对所述用户文本数据进行词频统计;
特征采集模块,用于根据词频统计结果,采用PCA方法获取所述用户文本数据中的特征集;
第一推荐模块,用于根据所述特征集,采用基于特征相似的推荐算法确定第一推荐列表;
第二推荐模块,用于根据所述特征集,采用基于热门团队的推荐算法确定第二推荐列表;
第三推荐模块,用于根据所述特征集,采用基于好友关系的推荐算法确定第三推荐列表;
目标确定模块,用于根据所述第一推荐列表、第二推荐列表和第三推荐列表,确定目标推荐列表。
第三方面,本发明提供了一种基于深度学习的团队推荐系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如所述的方法。
第四方面,本发明提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如第一方面所述的方法。
上述本发明实施例中的一个或多个技术方案具有如下优点:本发明的实施例分别采用基于特征相似的推荐算法确定第一推荐列表,采用基于热门团队的推荐算法确定第二推荐列表,以及采用基于好友关系的推荐算法确定第三推荐列表,采用不同的推荐策略,能够在推荐学术团队时考虑到覆盖率和新颖性,能够将新创建的非热门团队推荐给用户,提高了精准度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的确定重要程度评估值的步骤流程图;
图2为本申请实施例的整体实施步骤流程图;
图3为本申请实施例的确定第三推荐列表的步骤流程图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明主要针对于学术社交网络中学术团队推荐问题,学术社交网络中,本发明使用的用户特征有姓名、单位、研究方向、好友信息、所加入学术团队信息,发表论文等文本信息,团队特征有成员,简介,学术成果。这些特征可以更好表示学者用户的特征,也更适合学术社交网络中的学术团队推荐任务。
本发明对用户文本信息进行基于神经网络的分布表示,采用DF-ITF对特征词的重要程度进行区分,并且赋予不同的权重,使用主成分分析(PCA)算法进行特征提取。计算用户偏好时融入时态属性,从而提升推荐系统的性能,获得更加个性化的推荐结果。
另外,本发明采用Google于2013年发布了的Word2Vec工具包,对文本信息进行基于神经网络的分布表示。计算出词与词之间的关联性,从而提升向量语义表示上的准确度,但无法解决多义词问题了,原因是word embedding是静态的。
提出了改进后的Word Embedding,即双向双层的Word2Vec。左端的训练器将上游任务预训练获得word embedding作为新特征补充到下游任务中;右端的逆向训练器将下游任务预训练获得word embedding作为新特征补充到上游任务中。从而实现双向双层训练模型。
通过双向双层的Word2Vec能更好的解决多义词问题,比现有的基于双层双向LSTM的Word2Vec有着更快的工作效率同时实习相同的效果。
参照图2和图3,下面详细描述本申请的方法的具体实施步骤:
S1、采用TF-IDF进行词频统计。
TF-IDF用以评估一个词语对于一个文档集或一个语料库中的其中一份文档的重要程度。TF(Term Frequency)词频,某个词语在文章中出现的次数或频率,如果某篇文章中的某个词出现多次,那这个词可能是比较重要的词。IDF(inverse document frequency)逆文档频率,这是一个词语“权重”的度量,在词频的基础上,如果一个词语在多篇文档中词频较低,也就表示这是一个比较少见的词,但在某一文章中却出现了很多次,则这个词IDF值越大,在这篇文章中的“权重”越大。所以当一个词语越常见,IDF越低。当计算出TF和IDF的值后,两个值相乘就得到TF-IDF,这个词语的TF-IDF越高就表示,在这篇文章中的重要性越大,越有可能就是文章的关键词。
本申请把团队信息的分词结果统计到词库表R={w1,w2,…,wq},wj表示论文信息文档的词语,q表示词库表的总词数。
团队特征矩阵T∈Rm×q,Tij表示团队ti信息中的词语Wj基于词库表R的权重。Tij的计算公式如下:
其中,TFij表示词语Wj基于团队ti信息的词频;DFi表示包含团队信息中词语Wj的团队数量,m表示团队的总数量。用户特征矩阵U∈Rn×q,Uij表示用户ui信息中词语Cj基于词库表R的词频TFij。
其中,C表示词语Cj在用户ui信息中出现的次数。q表示词库的总词数,把团队信息的分词结果统计到词库表R={w1,w2,…,wq},wj表示论文信息文档的第j个词语。
其中,dj表示包含词语Dj的用户数量,D表示用户数量。
TF-IDF=TFij×IDFij
其中,i表示用户i,j表示词语j。
如图1所示,本实施例将计算得到TF-IDT赋值到Word2Vec的训练模型中,给每个词向量增加TF-IDT值作为权重标签,由此可以提高一个词语对于一个文档集或一个语料库中的其中一份文档的重要程度,也极大的提高文本处理的精确度。本发明提出的技术能有效提高文本处理的精确度,在实际应用中能更快速的完成文本处理的任务。
S2、PCA特征提取
设多特征样本X为q维随机变量X=(x1,x2,…,xq),对其进行线性变换,得到新的变量yi(i=1,2,…,d)(d≤q),则有yi=ai TX。PCA的目的就是寻找一组变换矢量ai(i=1,2,…,d),并且满足ai Tai=1,ai Taj≠i=0,使得yi的方差var(yi)达到最大,这样方差最大的yi为样本X的第一主成分,次大的为第二主成分,依此类推。求解结果ai应为样本X的协方差矩阵Σx的特征向量,既为下式线性方程的解:
(∑x-λiE)×ai=0
其中,λi为对应于特征向量ai的特征值。将协方差矩阵Σx的d个特征值进行排序λ1>λ2>…>λd,则第一主成分y1满足y1=ai T X,a1为特征值λ1对应的特征向量,第d主成分yd满足yd=ad T X,ad为特征值λd对应的特征向量。所以前d(d≤n)个主成分yi(i=1,2,…,d)即为代替原来较多变量的新的较少变量。
S3、采用基于特征相似的推荐算法,求出与用户特征相似的团队,并根据团队的创建时间赋予不同的权重,最后形成推荐列表(即第一推荐列表);
本实施例通过计算两个文本向量的余弦值,就可以知道这两个文本在统计学方法中它们的相似度情况。
用户和团队的特征属性可以分别通过用户特征矩阵与团队特征矩阵体现,用户、团队之间的相似度可以用特征矩阵之间的余弦夹角度量:
其中,U是用户特征矩阵,T是团队特征矩阵,Uj是用户j的特征向量,Ti是团队i的特征向量。
基于特征相似的推荐考虑到覆盖率和新颖性,推荐系统需要给用户推荐一些新创建的并且相似度比较高的学术团队。因此提出了融合Logistic时间衰减函数的基于用户和团队特征相似的推荐值,其定义为:
其中,ti是团队i的创建时间,t是当前的时间,α、β、μ由实验得出,本文实验数据建议参数(α,β,μ)可为(0.45,0.55,-0.28),后期使用可根据实际应用场景确定参数。将推荐值最高的K个团队形成基于用户和团队特征相似的团队推荐列表RVSFlist。
S4、采用基于热门团队的推荐算法,求出热门团队并根据团队的创建时间赋予不同的权重,最后形成推荐列表(即第二推荐列表);
热门团队是指一定时间、一定范围内,在一定程度上得到广泛用户关注的团队。可由团队点击率,团队成员数量,团队的动态数,动态的浏览量,团队公告数,公告浏览量这几个指标衡量热门团队。由于多指标评价体系的各个指标度量单位是不同的,为了能够将所有指标参与热门度计算,需要对指标进行标准化处理,通过函数变换将其数值映射到某个数值区间。因此本文计算团队热门度公式的定义描述如下:
其中,TPFi为团队i的热门程度,xmin,xmax分别表是团队中指标最小的数值和最大的数值。虽然新创建的热门团队与已经创建了很久的热门团队相比,多个指标不如,但新创建的热门团队在一定程度上具有新兴学术科研发展前进的趋势,所以在形成热门团队的推荐列表融合指数时间衰减函数,这样可以实现优先推荐新创建的热门团队。所以提出了基于热门团队的推荐值其定义为:
其中,α,β,γ由实验得出,本文实验数据建议参数(α,β,γ)可为(0.35,0.65,0.28),后期使用可根据实际应用场景确定参数;最后选择RVHT排名靠前的K个团队形成热门团队RVHTlist。
需要说明的是,时间衰减将作为学者的发表学术成果对于当前研究兴趣衰减的参数的标准,用来衡量学者的研究兴趣的变化过程。本发明融合时态属性,即每个特征词都融入时间属性,形成动态的推荐列表,较现有技术的针对单一状态推荐,有着更高的精确性。
S5、如图3所示,采用基于好友关系的推荐算法,利用与用户特征相似,关系相对密切,及互动相对频繁的好友,求出用户这些好友所加入的团队,并根据好友信任度赋予不同的权重,形成推荐列表(即第三推荐列表);
当前,社交网络中传播环境是比较封闭的,这种封闭的社交环境,造就了好友关系的绝对“熟悉”,因此社交网络已经不仅仅是人们的现实生活圈,在网络当中的一个反映,同时也在网络当中扩展着人们的人际关系,使得人们在网络当中可以认识更多适合自己的好友及团队。由于好友关系的亲疏远近和好友之间拥有共同好友数量的不同,这些都会影响好友的信任度。所以本文中求好友的信任度时,采用相似度,交互频率和共同好友率这三个指标。
其中,用户与其朋友之间的关系强度可以由交往人员间的交互频率来表示,同时因为不同的用户有不同的语言表达和行为表达的方式,因此本文中用户与某位朋友的交互频率由用户与这位朋友的交互量除以用户与所有朋友的交互总量的商来表示。
交互频率可以体现为动态点赞数,站内信数量,在线聊天记录条数等。本文好友交互频率的公式如下:
其中,用户i与好友j的交互频率为IFij,N(i)为用户i的交互总量。F(i,j)是求用户i与用户j交互量的函数。
然后,由于存在用户好友总量差异大的问题,本文采用用户间共同好友数与用户好友总量的比值来表示共同好友的共同好友率这个指标,求共同好友的公式如下:
其中,n(i)为用户i的好友总量,f(i,j)为用户i与用户j的共同好友数量。
综上,好友的信任度公式如下:
DTij=αRVSFij+βIFij+γCMij
其中,α,β,γ由实验得出,本文实验数据建议参数(α,β,γ)可为(0.45,0.25,0.3),后期使用可根据实际应用场景确定参数;RVSFij为用户i与好友j的特征相似度;基于好友关系的推荐值可表示为Freci=ΣjDTij·[Tj1,Tj2,…Tjm],Tj是用户i的好友j所加入的团队,之后再抽取基于好友关系的推荐值最高的K个团队形成基于好友关系的推荐列表Freclist。
S6、如图2所示,结合以上三个推荐列表,形成用户可能感兴趣的团队推荐列表(即目标推荐列表)。结合基于用户和团队特征相似团队的推荐列表RVSFlist,基于热门团队的推荐列表RVHTlist,基于好友关系的推荐列表Freclist。基于深度学习的文本处理及时态属性的学术团队推荐值可定义为:
HRMlist=αRVHTlist+βFreclist+γRVSFlist
其中,α,β,γ由实验得出,本文实验数据建议参数(α,β,γ)可为(0.35,0.2,0.45),后期使用可根据实际应用场景确定参数;最后选择HRM排名靠前的K个团队形成基于深度学习的文本处理及时态属性的学术团队推荐列表HRMlist。
本发明还提供了一种基于深度学习的团队推荐系统,包括:
获取模块,用于获取用户文本数据,对所述用户文本数据进行词频统计;
特征采集模块,用于根据词频统计结果,采用PCA方法获取所述用户文本数据中的特征集;
第一推荐模块,用于根据所述特征集,采用基于特征相似的推荐算法确定第一推荐列表;
第二推荐模块,用于根据所述特征集,采用基于热门团队的推荐算法确定第二推荐列表;
第三推荐模块,用于根据所述特征集,采用基于好友关系的推荐算法确定第三推荐列表;
目标确定模块,用于根据所述第一推荐列表、第二推荐列表和第三推荐列表,确定目标推荐列表。
本发明提供了一种基于深度学习的团队推荐系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如所述的方法。
本发明提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如第一方面所述的方法。
综上所述,本文采用学术社交网站的数据(例如学者网等)进行学术团队推荐。在当前社交网络环境下,信息过载和冷启动是亟待解决的问题,如何帮助学者与学术团队建立快速、有效地联系,是提升社交网络服务的关键问题。本发明通过提高学术社交网络平台的用户粘性以及用户活跃度,能够进一步推动学术社交网络平台的发展。传统的推荐方法算法只捕获全部特征相关的某个时刻的特征状态属性,但忽略了用户偏好和待推荐的内容本身的变化过程中,同时这些算法并不能有效解决社会学领域的马太效应,冷启动问题和长尾问题。
为了更好地为学术社交网站的用户推荐感兴趣的学术团队,提高推荐准确度,从而更好的解决冷启动问题和提高推荐系统的覆盖率,本文分析了团队信息和用户信息的特征,结合用户信息与团队信息的相似度,好友关系和热门团队这三个维度,采用不同的推荐策略,并且在推荐学术团队时考虑到覆盖率和新颖性,对新创建的非热门团队增加推荐权重,使他们能够被推荐给用户。将本文提出方法与传统的协同过滤方法,基于深度学习的推荐模型CBRM和FRRM等进行了对比,实验结果表明本推荐算法的推荐结果更为准确。
本模型具有普适性,提出的深度学习文本处理技术可用于所有的文本处理场景,在工业生产中提高产出效率。融合时态的2种推荐模型,解决了推荐系统中的冷启动问题和长尾效应,在实际应用场景中有着普遍适应性,使用过程不需要特殊处理的环节。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (6)
1.基于深度学习的团队推荐方法,其特征在于,包括:
获取用户文本数据,对所述用户文本数据进行词频统计;
根据词频统计结果,采用PCA方法获取所述用户文本数据中的特征集;
根据所述特征集,采用基于特征相似的推荐算法确定第一推荐列表;
根据所述特征集,采用基于热门团队的推荐算法确定第二推荐列表;
根据所述特征集,采用基于好友关系的推荐算法确定第三推荐列表;
根据所述第一推荐列表、第二推荐列表和第三推荐列表,确定目标推荐列表;
所述根据所述特征集,采用基于特征相似的推荐算法确定第一推荐列表,包括:
计算用户特征与团队特征之间的余弦值;
所述余弦值的计算公式为:
其中,Uj是用户j的特征向量,Ti是团队i的特征向量,Ui是用户i的特征向量;cos(Ti,Uj)代表特征向量Ti和Uj的余弦值;
根据Logistic时间衰减函数和所述余弦值,确定推荐值;
所述推荐值的计算公式为:
其中,RVSFij是团队i对于用户j的推荐值;ti是团队i的创建时间,t是当前的时间;α、β、μ是预设的参数;
将推荐值进行排序,确定第一推荐列表;
所述根据所述特征集,采用基于热门团队的推荐算法确定第二推荐列表,包括:
通过函数变换对热门团队衡量指标量进行标准化处理,将所述热门团队衡量指标映射到确定的数值区间范围;
其中,所述热门团队衡量指标包括团队点击率、团队成员数量、团队的动态数、动态的浏览量、团队公告数和公告浏览量;
基于指数时间衰减函数和标准化处理的结果,确定基于热门团队的第二推荐列表;
其中,热门团队的推荐值的计算公式为:
其中,RVHTi代表团队i的推荐值;α、β、γ代表预设的参数;TPFi代表团队i的热门度;ti是团队i的创建时间,t是当前的时间;
团队的热门度的计算公式为:
其中,TPFi为团队i的热门程度,xmin表示团队中指标最小的数值,xmax表示团队中指标最大的数值;xij代表团队i的第j个指标的数值;k代表热门团队衡量指标的总个数;
所述根据所述特征集,采用基于好友关系的推荐算法确定第三推荐列表,包括:
获取用户的好友信息,所述好友基于用户之间的特征相似度、关系密切度和互动频繁度来确定;
获取所述用户的好友加入的团队信息;
根据好友的信任度,从好友加入的团队中确定出第三推荐列表。
2.根据权利要求1所述的基于深度学习的团队推荐方法,其特征在于,所述对所述用户文本数据进行词频统计,包括:
计算用户文本数据中各个词的词频和逆文档频率;
根据所述词频和所述逆文档频率,确定各个词的重要程度评估值;
将所述重要程度评估值赋值到Word2Vec的训练模型中,给每个词向量增加所述重要程度评估值作为权重标签,确定各个词对于文档集或语料库中一份文档的重要程度。
3.根据权利要求1所述的基于深度学习的团队推荐方法,其特征在于,所述根据词频统计结果,采用PCA方法获取所述用户文本数据中的特征集,包括:
确定多特征样本的多维随机变量;
根据所述多特征样本的协方差矩阵的特征向量,确定线性变换的变换矢量;
根据所述变换矢量,对所述多维随机变量进行线性变换,得到新的变量。
4.根据权利要求1所述的基于深度学习的团队推荐方法,其特征在于,所述根据所述第一推荐列表、第二推荐列表和第三推荐列表,确定目标推荐列表,包括:
确定第一推荐列表的第一权重参数;
确定第二推荐列表的第二权重参数;
确定第三推荐列表的第三权重参数;
基于第一权重参数、第二权重参数和第三权重参数,计算目标推荐列表。
5.基于深度学习的团队推荐系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-4中任一项所述的方法。
6.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010041900.6A CN111241403B (zh) | 2020-01-15 | 2020-01-15 | 基于深度学习的团队推荐方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010041900.6A CN111241403B (zh) | 2020-01-15 | 2020-01-15 | 基于深度学习的团队推荐方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241403A CN111241403A (zh) | 2020-06-05 |
CN111241403B true CN111241403B (zh) | 2023-04-18 |
Family
ID=70872427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010041900.6A Active CN111241403B (zh) | 2020-01-15 | 2020-01-15 | 基于深度学习的团队推荐方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241403B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936953A (zh) * | 2022-05-20 | 2022-08-23 | 海信集团控股股份有限公司 | 学习讨论室的成员确定方法及电子设备 |
CN118585710B (zh) * | 2024-08-07 | 2024-10-11 | 杭州研趣信息技术有限公司 | 一种基于多智能体的仪器推荐方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740342A (zh) * | 2016-01-22 | 2016-07-06 | 天津中科智能识别产业技术研究院有限公司 | 一种基于社会关系主题模型的社交网络朋友推荐方法 |
CN106250526A (zh) * | 2016-08-05 | 2016-12-21 | 浪潮电子信息产业股份有限公司 | 一种基于内容及用户行为的文本类推荐方法和装置 |
CN106815297A (zh) * | 2016-12-09 | 2017-06-09 | 宁波大学 | 一种学术资源推荐服务系统与方法 |
CN109658277A (zh) * | 2018-11-30 | 2019-04-19 | 华南师范大学 | 一种学术社交网络好友推荐方法、系统和存储介质 |
CN109766431A (zh) * | 2018-12-24 | 2019-05-17 | 同济大学 | 一种基于词义主题模型的社交网络短文本推荐方法 |
-
2020
- 2020-01-15 CN CN202010041900.6A patent/CN111241403B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740342A (zh) * | 2016-01-22 | 2016-07-06 | 天津中科智能识别产业技术研究院有限公司 | 一种基于社会关系主题模型的社交网络朋友推荐方法 |
CN106250526A (zh) * | 2016-08-05 | 2016-12-21 | 浪潮电子信息产业股份有限公司 | 一种基于内容及用户行为的文本类推荐方法和装置 |
CN106815297A (zh) * | 2016-12-09 | 2017-06-09 | 宁波大学 | 一种学术资源推荐服务系统与方法 |
CN109658277A (zh) * | 2018-11-30 | 2019-04-19 | 华南师范大学 | 一种学术社交网络好友推荐方法、系统和存储介质 |
CN109766431A (zh) * | 2018-12-24 | 2019-05-17 | 同济大学 | 一种基于词义主题模型的社交网络短文本推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111241403A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214670B (zh) | 一种在线课程推荐方法、装置、电子设备及存储介质 | |
Zhou et al. | Userrec: A user recommendation framework in social tagging systems | |
Lin et al. | Heterogeneous knowledge-based attentive neural networks for short-term music recommendations | |
US20140258211A1 (en) | Interactive and Social Knowledge Discovery Sessions | |
CN108073568A (zh) | 关键词提取方法和装置 | |
US20100332465A1 (en) | Method and system for monitoring online media and dynamically charting the results to facilitate human pattern detection | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
Badam et al. | Steering the craft: UI elements and visualizations for supporting progressive visual analytics | |
Falck et al. | Measuring proximity between newspapers and political parties: the sentiment political compass | |
CN109635206A (zh) | 融合隐式反馈和用户社会地位的个性化推荐方法及系统 | |
CN111241403B (zh) | 基于深度学习的团队推荐方法、系统及存储介质 | |
US20110131536A1 (en) | Generating and ranking information units including documents associated with document environments | |
KR101088710B1 (ko) | 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체 | |
US20180365324A1 (en) | Method of data organization and data searching for use in constructing evidence-based beliefs | |
Zhu | Network Course Recommendation System Based on Double‐Layer Attention Mechanism | |
Li | Research on extraction of useful tourism online reviews based on multimodal feature fusion | |
Kang et al. | Analysis of online education reviews of universities using NLP techniques and statistical methods | |
Kaur et al. | Learner-Centric Hybrid Filtering-Based Recommender System for Massive Open Online Courses | |
CN116975346A (zh) | 标签图数据的生成方法、装置、设备、介质和程序产品 | |
Wang et al. | Modeling complementarity in behavior data with multi-type itemset embedding | |
Wang et al. | Building consumer confidence index based on social media big data | |
Han et al. | Improving recommendation based on features’ co-occurrence effects in collaborative tagging systems | |
Min | [Retracted] Personalised Recommendation of PE Network Course Environment Resources Using Data Mining Analysis | |
Zhu et al. | Precise Recommendation Algorithm for Online Sports Video Teaching Resources | |
Liu et al. | Digitalization and information management mechanism of sports events based on multisensor node cooperative perception model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |