CN105512323A - 一种基于领域特征和隐语义分析的科技资源推荐方法 - Google Patents

一种基于领域特征和隐语义分析的科技资源推荐方法 Download PDF

Info

Publication number
CN105512323A
CN105512323A CN201510962244.2A CN201510962244A CN105512323A CN 105512323 A CN105512323 A CN 105512323A CN 201510962244 A CN201510962244 A CN 201510962244A CN 105512323 A CN105512323 A CN 105512323A
Authority
CN
China
Prior art keywords
resources
domain
user
user field
semantic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510962244.2A
Other languages
English (en)
Inventor
罗亮
林珠
方少亮
徐迪威
李海威
黄皓璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Science & Technology Infrastructure Center
Original Assignee
Guangdong Science & Technology Infrastructure Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Science & Technology Infrastructure Center filed Critical Guangdong Science & Technology Infrastructure Center
Priority to CN201510962244.2A priority Critical patent/CN105512323A/zh
Publication of CN105512323A publication Critical patent/CN105512323A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于领域特征和隐语义分析的科技资源推荐方法,该方法引入用户领域和资源领域,寻找更适合描述用户和资源的分类,更有利于隐语义分析算法形成有意义的主题分类,改善了隐语义分析算法无法解释分类意义的现象,同时首先运用高效快速的slope-one算法对三大数据集进行运算,形成P、L、Q矩阵,改善了隐语义分析算法时间复杂度高的问题,适用于跨领域广、数据量庞大、用户群体相对固定的科技资源推荐,有效地避免隐语义分析算法存在的冷启动问题。

Description

一种基于领域特征和隐语义分析的科技资源推荐方法
技术领域
本发明涉及科技资源数据处理领域,更具体地,涉及一种基于领域特征和隐语义分析的科技资源推荐方法。
背景技术
知识时代,科技资源在国民经济发展中愈发重要,在科技活动中的共享和利用程度也得到相关部门和企业的高度重视,资源的多维大数据特征得以突显。为改善科技创新环境,为广大科技工作者和科技活动提供强有力的基础条件支撑,该专利研究科技资源推荐方法,适用于科技资源共享平台和科技资源查询推荐系统,为科技资源使用者提供便利,有效提高科技资源的利用率。
科技资源具有领域性强、数据分散、地域性强的特点,当前的通用性推荐算法(如用户行为分析、协同过滤技术等)在实际的资源共享平台中的应用效果不佳,资源推荐准确率偏低。隐语义分析技术是一种基于机器学习的一系列方法,具有比较好的理论基础,目前部分算法在推荐系统中已经得到应用和肯定。但是,对于科技资源,目前尚无相关推荐模型,也没有将领域与隐语义分析相结合的算法。
发明内容
本发明提供一种能够有效避免隐语义分析算法存在的冷启动问题的基于领域特征和隐语义分析的科技资源推荐方法。
为了达到上述技术目的,本发明的技术方案如下:
一种基于领域特征和隐语义分析的科技资源推荐方法,包括以下步骤:
S1:通过对科技资源进行领域聚类,将用户和资源按领域进行有效分类,形得到用户领域和资源领域,并进行预处理得到用户-用户领域数据集、用户领域-资源领域数据集、资源领域-资源数据集;
S2:利用用户领域和资源领域建立基于领域特征和隐语义分析的推荐模型;
S3:获取用户的需求信息,通过建立的基于领域特征和隐语义分析的推荐模型为用户推荐所需的资源。
进一步地,所述步骤S1的具体过程如下:
定义活跃用户、用户领域、资源领域、热点数据、关注数据、收藏数据、订单数据、日志数据,采用去除稀疏数据,处理缺失值的数据处理技术,获得用户-用户领域数据集、用户领域-资源领域数据集、资源领域-资源数据集。
进一步地,所述步骤S2的具体过程如下:
对用户-用户领域数据集、用户领域-资源领域数据集和资源领域-资源数据集进行初始化,并分别对用户-用户领域数据集、用户领域-资源领域数据集和资源领域-资源数据集进行训练得到用户领域矩阵P、资源领域矩阵Q和用户领域-资源领域矩阵L。
进一步地,所述步骤S2还包括:
通过计算公式L-LFM=P×L×Q,得到基于领域特征和隐语义分析的推荐算法模型(L-LFM)。
进一步地,得到用户领域矩阵P的过程如下:
将用户-用户领域数据集通过slope-one算法进行运算,形成用户领域矩阵P[u][j],并获得P矩阵的相关参数。
进一步地,得到用户领域矩阵Q的过程如下:
将资源领域-资源数据集通过slope-one算法进行运算,形成资源领域矩阵Q[j][i],并获得Q矩阵的相关参数。
进一步地,得到用户领域矩阵L的过程如下:
将用户领域-资源领域数据集通过slope-one算法进行运算,形成用户领域-资源领域矩阵Q[i][s],并获得Q矩阵的相关参数。
本发明方法通过对科技资源进行领域聚类,将用户和资源的按领域进行有效分类,形成用户领域和资源领域,再此基础上,建立引入领域矩阵的推荐模型,改善了隐语义分析算法不太适用于资源数非常庞大的系统,有效提高推荐语义的可解释性。并且,科技资源推荐不同于新闻推荐,对实时性要求不高,用户群体相对固定,因此,能够有效避免隐语义分析算法存在的冷启动问题。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法引入用户领域和资源领域,寻找更适合描述用户和资源的分类,更有利于隐语义分析算法形成有意义的主题分类,改善了隐语义分析算法无法解释分类意义的现象,同时首先运用高效快速的slope-one算法对三大数据集进行运算,形成P、L、Q矩阵,改善了隐语义分析算法时间复杂度高的问题,适用于跨领域广、数据量庞大、用户群体相对固定的科技资源推荐,有效地避免隐语义分析算法存在的冷启动问题。
附图说明
图1为本发明中基于领域特征和隐语义分析的推荐算法模型(L-LFM)的框图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种基于领域特征和隐语义分析的科技资源推荐方法,包括以下步骤:
S1:通过对科技资源进行领域聚类,将用户和资源按领域进行有效分类,形得到用户领域和资源领域,并进行预处理得到用户-用户领域数据集、用户领域-资源领域数据集、资源领域-资源数据集;
S2:利用用户领域和资源领域建立基于领域特征和隐语义分析的推荐模型;
S3:获取用户的需求信息,通过建立的基于领域特征和隐语义分析的推荐模型为用户推荐所需的资源。
进一步地,所述步骤S1的具体过程如下:
定义活跃用户、用户领域、资源领域、热点数据、关注数据、收藏数据、订单数据、日志数据,采用去除稀疏数据,处理缺失值的数据处理技术,获得用户-用户领域数据集、用户领域-资源领域数据集、资源领域-资源数据集。
如图1所示,步骤S2的具体过程如下:
对用户-用户领域数据集、用户领域-资源领域数据集和资源领域-资源数据集进行初始化,并分别对用户-用户领域数据集、用户领域-资源领域数据集和资源领域-资源数据集进行训练得到用户领域矩阵P、资源领域矩阵Q和用户领域-资源领域矩阵L。
步骤S2还包括:
通过计算公式L-LFM=P×L×Q,得到基于领域特征和隐语义分析的推荐算法模型(L-LFM)。
得到用户领域矩阵P的过程如下:
将用户-用户领域数据集通过slope-one算法进行运算,形成用户领域矩阵P[u][j],并获得P矩阵的相关参数。
得到用户领域矩阵Q的过程如下:
将资源领域-资源数据集通过slope-one算法进行运算,形成资源领域矩阵Q[j][i],并获得Q矩阵的相关参数。
得到用户领域矩阵L的过程如下:
将用户领域-资源领域数据集通过slope-one算法进行运算,形成用户领域-资源领域矩阵Q[i][s],并获得Q矩阵的相关参数。
本发明方法引入用户领域和资源领域,寻找更适合描述用户和资源的分类,更有利于隐语义分析算法形成有意义的主题分类,改善了隐语义分析算法无法解释分类意义的现象,同时首先运用高效快速的slope-one算法对三大数据集进行运算,形成P、L、Q矩阵,改善了隐语义分析算法时间复杂度高的问题,适用于跨领域广、数据量庞大、用户群体相对固定的科技资源推荐,有效地避免隐语义分析算法存在的冷启动问题。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于领域特征和隐语义分析的科技资源推荐方法,其特征在于,包括以下步骤:
S1:通过对科技资源进行领域聚类,将用户和资源按领域进行有效分类,形得到用户领域和资源领域,并进行预处理得到用户-用户领域数据集、用户领域-资源领域数据集、资源领域-资源数据集;
S2:利用用户领域和资源领域建立基于领域特征和隐语义分析的推荐模型;
S3:获取用户的需求信息,通过建立的基于领域特征和隐语义分析的推荐模型为用户推荐所需的资源。
2.根据权利要求1所述的基于领域特征和隐语义分析的科技资源推荐方法,其特征在于,所述步骤S1的具体过程如下:
定义活跃用户、用户领域、资源领域、热点数据、关注数据、收藏数据、订单数据、日志数据,采用去除稀疏数据,处理缺失值的数据处理技术,获得用户-用户领域数据集、用户领域-资源领域数据集、资源领域-资源数据集。
3.根据权利要求2所述的基于领域特征和隐语义分析的科技资源推荐方法,其特征在于,所述步骤S2的具体过程如下:
对用户-用户领域数据集、用户领域-资源领域数据集和资源领域-资源数据集进行初始化,并分别对用户-用户领域数据集、用户领域-资源领域数据集和资源领域-资源数据集进行训练得到用户领域矩阵P、资源领域矩阵Q和用户领域-资源领域矩阵L。
4.根据权利要求3所述的基于领域特征和隐语义分析的科技资源推荐方法,其特征在于,所述步骤S2还包括:
通过计算公式L-LFM=P×L×Q,得到基于领域特征和隐语义分析的推荐算法模型。
5.根据权利要求3所述的基于领域特征和隐语义分析的科技资源推荐方法,其特征在于,得到用户领域矩阵P的过程如下:
将用户-用户领域数据集通过slope-one算法进行运算,形成用户领域矩阵P[u][j],并获得P矩阵的相关参数。
6.根据权利要求3所述的基于领域特征和隐语义分析的科技资源推荐方法,其特征在于,得到用户领域矩阵Q的过程如下:
将资源领域-资源数据集通过slope-one算法进行运算,形成资源领域矩阵Q[j][i],并获得Q矩阵的相关参数。
7.根据权利要求3所述的基于领域特征和隐语义分析的科技资源推荐方法,其特征在于,得到用户领域矩阵L的过程如下:
将用户领域-资源领域数据集通过slope-one算法进行运算,形成用户领域-资源领域矩阵Q[i][s],并获得Q矩阵的相关参数。
CN201510962244.2A 2015-12-21 2015-12-21 一种基于领域特征和隐语义分析的科技资源推荐方法 Pending CN105512323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510962244.2A CN105512323A (zh) 2015-12-21 2015-12-21 一种基于领域特征和隐语义分析的科技资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510962244.2A CN105512323A (zh) 2015-12-21 2015-12-21 一种基于领域特征和隐语义分析的科技资源推荐方法

Publications (1)

Publication Number Publication Date
CN105512323A true CN105512323A (zh) 2016-04-20

Family

ID=55720303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510962244.2A Pending CN105512323A (zh) 2015-12-21 2015-12-21 一种基于领域特征和隐语义分析的科技资源推荐方法

Country Status (1)

Country Link
CN (1) CN105512323A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401057A (zh) * 2018-12-29 2020-07-10 深圳Tcl新技术有限公司 一种语义解析方法、存储介质及终端设备
CN113360776A (zh) * 2021-07-19 2021-09-07 西南大学 基于跨表数据挖掘的科技资源推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415449B2 (en) * 2006-01-30 2008-08-19 Xerox Corporation Solution recommendation based on incomplete data sets
CN103473291A (zh) * 2013-09-02 2013-12-25 中国科学院软件研究所 一种基于隐语义概率模型的个性化服务推荐系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415449B2 (en) * 2006-01-30 2008-08-19 Xerox Corporation Solution recommendation based on incomplete data sets
CN103473291A (zh) * 2013-09-02 2013-12-25 中国科学院软件研究所 一种基于隐语义概率模型的个性化服务推荐系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王全民 等: "一种新型的混合个性化推荐算法", 《计算机与现代化》 *
袁伟: ""科技论文社区网络结构划分及论文推荐算法的研究"", 《中国优秀硕士学位论文全文数据库基础科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401057A (zh) * 2018-12-29 2020-07-10 深圳Tcl新技术有限公司 一种语义解析方法、存储介质及终端设备
CN111401057B (zh) * 2018-12-29 2023-11-14 深圳Tcl新技术有限公司 一种语义解析方法、存储介质及终端设备
CN113360776A (zh) * 2021-07-19 2021-09-07 西南大学 基于跨表数据挖掘的科技资源推荐方法
CN113360776B (zh) * 2021-07-19 2023-07-21 西南大学 基于跨表数据挖掘的科技资源推荐方法

Similar Documents

Publication Publication Date Title
US10546006B2 (en) Method and system for hybrid information query
CN107516235B (zh) 商品偏好预估方法和装置
Cattaneo et al. Lean thinking in the digital era
CN103812872B (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
JP5805188B2 (ja) 照会結果をソートするための方法および装置
CN108446964B (zh) 一种基于移动流量dpi数据的用户推荐方法
Tang et al. Coselect: Feature selection with instance selection for social media data
CN101799830A (zh) 可实现多维度自由剖析的流量数据处理方法
CN104951518A (zh) 一种基于动态增量更新的上下文推荐方法
CN101957968A (zh) 基于Hadoop的网上交易服务聚合方法
CN105335368A (zh) 一种产品聚类方法及装置
CN104978406A (zh) 互联网络平台的用户行为分析方法
Rajendran et al. Towards various applications of Big Data and related issues and challenges
Lis et al. Cloud computing and energy efficiency: mapping the thematic structure of research
CN104992352A (zh) 一种个性化资源检索方法
CN105184654A (zh) 一种基于社区划分的舆情热点实时获取方法与获取装置
CN105512323A (zh) 一种基于领域特征和隐语义分析的科技资源推荐方法
CN104778205B (zh) 一种基于异构信息网络的移动应用排序和聚类方法
CN108345620B (zh) 品牌信息处理方法、装置、存储介质及电子设备
Zhang et al. CRUC: Cold-start recommendations using collaborative filtering in internet of things
CN104598448A (zh) 一种个性化信息推荐系统
Li et al. Big data gathering and mining pipelines for CRM using open-source
Liu et al. An automated and interpretable machine learning scheme for power system transient stability assessment
CN106202106A (zh) 一种高效数据分析推荐方法和系统
CN104090813A (zh) 一种云数据中心的虚拟机cpu使用率的分析建模方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160420