CN108287916B - 一种资源推荐方法 - Google Patents

一种资源推荐方法 Download PDF

Info

Publication number
CN108287916B
CN108287916B CN201810142786.9A CN201810142786A CN108287916B CN 108287916 B CN108287916 B CN 108287916B CN 201810142786 A CN201810142786 A CN 201810142786A CN 108287916 B CN108287916 B CN 108287916B
Authority
CN
China
Prior art keywords
resource information
keyword
weight
keywords
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810142786.9A
Other languages
English (en)
Other versions
CN108287916A (zh
Inventor
苗原
李鹏
公艳
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Founder Apabi Technology Co Ltd filed Critical Beijing Founder Apabi Technology Co Ltd
Priority to CN201810142786.9A priority Critical patent/CN108287916B/zh
Publication of CN108287916A publication Critical patent/CN108287916A/zh
Application granted granted Critical
Publication of CN108287916B publication Critical patent/CN108287916B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种资源推荐方法,包括:A、获取待推荐的各个资源信息以及对照的资源信息;B、针对每个资源信息,获取其初始关键词标签,该初始关键词标签下包括该资源信息的若干关键词;C、针对每个初始关键词标签内的各关键词,确定出各关键词的相似关键词标签,该相似关键词标签下包括与所述关键词相似的若干关键词;D、针对每个资源信息,将对应其的初始关键词标签与相似关键词标签合并作为该资源信息新标签,该新标签下包括初始关键词标签与相似关键词标签所包含的关键词;E、根据每个待推荐的资源信息及对照资源信息中的新标签,计算待推荐的资源信息与对照的资源信息的相似性;并将相似结果超过指定阈值的待推荐的资源信息进行推荐。

Description

一种资源推荐方法
技术领域
本发明属于计算机应用技术领域,具体涉及一种资源推荐方法。
背景技术
随着互联网技术的日益普及,有越来越多的信息在互联网上展示,如何对信息进行分类对于人们快速查找有用信息尤其重要。标签系统以关键词的形式对资源进行分类,是一种灵活的、开放的分类方式,是对用户无约束的运用自由定义的关键字的方式进行协作分类的一种工具。
常见的关键词标签提取技术有TF-IDF算法,此算法主要通过特征词向量来描述文本特征。通过计算得到文本特征向量,通过计算向量之间的余弦相似度,得到文本相似度排序,随后对文本进行相似推荐。
关键词提取的标签能帮助用户管理分类资源的信息资源,并提供分享和交流的平台,由于标签的自动化提取过程的不足,不可避免的出现以下问题:同义标签、标签的抽象程度不同,例如,苹果和水果,喜欢和喜爱,a股和股票。标签是在描述同一种类型,所要表达的信息类似,但是表达方式不同。但是由于通过余弦相似度来计算文本相似度仅仅是把标签当成一个维度,未考量每一个标签的相似标签,从而会导致标签粒度太粗,以使一些相似资源未获得推荐,从而导致推荐结果不准确。
因此,目前亟需一种提高资源推荐准确度的资源推荐方法。
发明内容
有鉴于此,本申请提供一种资源推荐方法,对各个资源内部的各个初始关键词标签获取了其相似性标签,并进一步地据此进行资源之间的相似性的比对,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,以有利于提高资源推荐的准确度。
本申请提供一种资源推荐方法,其特征在于,包括:
A、获取待推荐的各个资源信息以及对照资源信息;
B、分别获取每个资源信息的初始关键词标签集合,及获取各个初始关键词标签的权重;
C、获取每个资源信息中的各个初始关键词标签的相似标签;并获取各个相似标签的权重;
D、将所述初始关键词标签与所述相似标签合并作为新的标签,并计算各个新标签的权重;
E、根据所述每个待推荐的资源信息及对照的资源信息中的标签集合中的各个新标签及其对应的权重,通过余弦相似度计算公式计算所述待推荐的资源信息与对照的资源信息的相似性;将相似结果超过指定阈值的待推荐的资源信息推荐给用户。
由上,本申请提供一种资源推荐方法,对各个资源内部的各个初始关键词标签获取了其相似性标签,并进一步地据此进行资源之间的相似性的比对,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,以有利于提高资源推荐的准确度。
优选地,所述步骤B包括:
b1、针对每个资源,将该资源所包含的各个信息合并生成长文本信息,然后对生成的该文长本信息分别进行分词处理,并将其保存形成语料;
b2、针对各个资源所形成的语料,通过TF-IDF算法对所述语料进行分析,获取初始关键词标签及其相应的权重,以得到各个资源信息分别对应的由每个资源的初始关键词标签组成的标签集合。
优选地,所述步骤C包括:
通过Word2Vec获取每个资源信息中的各个初始关键词标签对应的关键词的空间向量模型;
根据所述空间向量模型,通过Word2Vec模型的距离功能获取每一个初始关键词标签对应的关键词的相似的一组关键词;并对该组关键词添加标签,以获取每一初始关键词标签对应的一组相似标签。
由上,本申请对各个资源内部的各个初始关键词标签获取了其相似性标签,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,以有利于提高资源推荐的准确度。
优选地,步骤D所述计算新标签中的相似关键词标签所对应的相似关键词的权重采用下述公式计算:
Pn=Py*Pr*w;
其中,Pn为一相似关键词标签所对应的关键词在新标签下的权重,Py为该关键词对应的初始关键词标签的权重,Pr为该关键词与其对应的初始关键词标签的相似度权重,w为强度传递参数,w取值在0-1之间。
优选地,当相似关键词标签和初始关键词标签重复时,将相似标签的权重和初始关键词标签的权重相加。
由上,当权重相加大于1时,通过乘以一强度传递参数,其中所述强度传递参数的值可以调整,以使所述权重值小于1。当不存在相似关键词与初始关键词重复的情形时,则初始关键词的权重还使用其最初的权重。
优选地,步骤E所述根据所述每个待推荐的资源信息及对照资源信息中的新标签,计算所述待推荐的资源信息与对照的资源信息的相似性,步骤包括:
e1、获取每一个待推荐资源信息及对照资源信息的新标签对应的关键词的词频;
e2、生成每一个待推荐资源信息及对照资源信息的词频向量;
e3、计算每一个待推荐资源信息分别与对照资源信息的词频向量的余弦相似度。
优选地,步骤e3所述余弦相似度的计算采用如下公式:
Figure BDA0001578057170000041
其中,xi表示待推荐的一资源信息的词频向量;yi表示对照的资源信息的词频向量;i表示第i个词;其中,cos(θ)结果越接近1,两个向量越相似,从而得到两个资源越相似。
综上所述,本申请提供一种资源推荐方法,对各个资源内部的各个初始关键词标签获取了其相似性标签,并进一步地据此进行资源之间的相似性的比对,本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,从而有利于提高资源推荐的准确度。
附图说明
图1为本申请实施例提供的一种资源推荐方法的流程示意图;
图2为本申请实施例提供的CBOW和Skip_gram模型的流程结构示意图;
图3为本申请实施例提供的一种资源推荐方法的具体实例的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图对本申请进行说明。
实施例一
如图1所示,本申请实施例提供一种资源推荐方法,其特征在于,包括如下步骤:
S101,获取待推荐的各个资源信息以及对照资源信息。
其中,对照资源信息即为一指定的资源信息,例如可以是用户当前正在阅读的新闻、文章、电子书籍等,也可以是当前浏览的网页内的信息等,本发明的目的是向用户推荐与所述对照资源信息相似的信息。
其中,关于待推荐的各个资源信息,资源最好数量多,种类多样,其中每个资源所包含的信息包括:文本、元数据信息、用户对资源的评价和对资源打的标签(人为的对资源进行分类或者评价的标签)等。
S102,针对每个资源信息,获取其初始关键词标签(tag),以及获取初始关键词标签下的各个关键词的权重。
例如,图3所示的实施例中即示出了资源A的初始关键词标签所包含的内容,如下:
资源A的初始关键词标签为:{足球(权重0.986);总局(权重0.867);郑智(权重0.856);恒大(权重0.845);卡帅(权重0.759)……}。
其中,“足球”、“总局”、“郑智”、“恒大”、“卡帅”等词语即为该初始关键词标签所包含的各个关键词,上述集合中的数字表示各个关键词对应的权重。
其中,本S102步骤具体包括如下子步骤:
S102.1、针对每个资源信息,将该资源所包含的各个信息合并生成长文本信息,然后对生成的该文长本信息进行分词处理,并将其保存形成语料;
S102.2、针对各个资源所形成的语料,通过TF-IDF算法对所述语料进行分析,确定出各个资源包含的关键词及各关键词的权重,并将权重超过阈值的关键词作为其对应的资源的初始关键词标签,或称作将关键词打上初始关键词标签。
其中,TF-IDF算法的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为该词或者短语具有很好的类别区分能力,适合用来分类。本实施例中,通过TF-IDF算法对这些语料进行分析,获得各个词语的权重,并将权重超过指定阈值的词语加入初始关键词标签内。下面对使用TF-IDF算法确定各个资源信息的初始关键词标签的步骤进一步详细说明,包括如下子步骤:
S102.2.1、计算各词语TF:其中,TF-IDF中的TF是指词频(TF,Term Frequency),在一份给定的文件里,词频是指某一个给定的词语在该文件中出现的频率。这个频率值通常会被归一化,以防止它偏向长的文件。
其中,所述TF的计算公式为:
Figure BDA0001578057170000061
S102.2.2、计算各词语IDF:其中,TF-IDF中的IDF是指逆向文件频率(IDF,InverseDocument Frequency),是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。
S102.2.3、计算各词语TF-IDF值,并作为各词语的权重:将每个词的TF和IDF这两个值相乘,即可得到该词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大,也即权重越大。
S102.2.4、针对各个资源信息,将其对应的权重超过指定阈值的词语作为该资源的关键词,并将词语加入初始关键词标签内,或称为将其打上初始关键词标签,且记录其权重。该资源下的这些关键词即构成了该资源的初始关键词标签内的内容。
S103,针对每个资源信息的初始关键词标签内的各关键词,确定出每个关键词的相似关键词标签,及获取相似关键词标签内的各个关键词的权重。
至此,为了后文描述更清楚的所述关键词是属于初始关键词标签,还是属于相似关键词标签,对于可能引起歧义的地方,对应的关键词将分别称为初始关键词、相似关键词。
例如,图3所示的实施例中即示出了资源A的初始关键词标签内的关键词足球的相似关键词标签的内容,如下:
资源A的初始关键词足球的相似关键词标签为:{国足(0.779);世界杯(权重0.765);俱乐部(权重0.654);篮球(权重0.546);体育(权重0.542);……}。
其中,世界杯、俱乐部、篮球、体育等词语即为该相似关键词标签所包含的各个关键词,上述集合中的数字表示各个关键词对应的权重。
具体的,本步骤S103包括如下子步骤:
S103.1、使用Word2Vec获取每个资源信息中的各个初始关键词标签内的各初始关键词(即步骤S102.2.4中所述的关键词)的词空间向量模型;
S103.2、根据所述词空间向量模型,通过Word2Vec模型的词距离计算功能获取每个初始关键词的相似的一组关键词(即相似关键词);并对该组相似关键词加入所述初始关键词对应的相似关键词标签内,或称,将该组相似关键词打上相似关键词标签。
其中,Word2Vec使用的是一种基于深度学技术的浅神经网络模型,包含两种训练模型,分别是CBOW和Skip_gram,结构为输入层(input)、发射层(projection)、输出层(output),如图2所示:
其中,CBOW模型可以通过上下文词算出中间词的概率,Skip_gram模型可以通过一个词算出上下文词的概率。通过训练得到的词向量可以进行相应的自然语言处理工作,比如求相似词、关键词聚类等。其中Word2Vec模型中提供了词距离计算功能,给定一个标签可以通过Word2Vec模型的词距离计算功能,得出与初始关键词的相似度由高至低的关键词的排序。
本实施例中,对每个资源的每个初始关键词进行该操作,即可得到每个初始关键词对应的一组新的相似关键词,通过对每个相似关键词进行强度传递参数的计算(例如相乘计算)后,与给定的阈值进行比较,保留强度传递参数的值大于该阈值的相似关键词,并将其加入相似关键词标签内,并对应其初始关键词进行保存。
S104,针对每个资源信息,将其初始关键词标签集合与对应其初始关键词标签集合下各初始关键词的各相似关键词标签集合合并,构成其新的标签集合,并计算新标签集合下各关键词的权重,据此选择新的标签集合下所保留的关键词。
其中,所述新标签集合下相似关键词标签对应的关键词权重的计算公式为:
Pn=Py*Pr*w;
其中,Pn为一相似关键词标签所对应的关键词在新标签下的权重,Py为该关键词对应的初始关键词标签的权重,(即由步骤S102.2.3中计算的权重),Pr为该关键词与其对应的初始关键词的相似度权重(即由步骤S103.2中计算的权重),w为强度传递参数,w取值在0-1之间。其中,如果强度传递越强,则w值越接近于1,否则接近于0。并且,如果Pn大于指定阈值,则将该关键词保留在新的标签下,如果Pn小于该指定阈值,则从该新的标签下去除该关键词。
其中,Py为该关键词对应的初始关键词标签的权重(即由步骤S102中计算的权重)。例如,假设初始关键词为“足球”,其相似关键词为:“国足”、“世界杯”、“俱乐部”、“篮球”、“体育”。假设此处的关键词(新标签)为“世界杯”,则此处的Py的含义为“足球”的权重,如S102中的“足球”的权重(0.986)。Pr的含义为“世界杯”与“足球”的相似度权重,例如S103中提到的“世界杯”与“足球”的相似度权重为0.765。其中相似度权重使用Word2vec模型得到。
需要说明的是,如果新标签中的相似关键词标签和初始关键词标签重复时,这需要把新标签中的相似关键词标签的权重和初始关键词标签的权重相加。此处,若相加的结果大于1,则将该结果乘以一强度传递参数,其中,所述强度传递参数的值可以调整,以使所述权重值小于1。当不存在相似关键词与初始关键词重复的情形时,则初始关键词的权重还使用其最初的权重。
S105,根据所述每个待推荐的资源信息及对照资源信息中的新标签中的各个关键词及其对应的权重,通过余弦相似度计算公式计算所述每个待推荐的资源信息与对照资源信息的相似性,并可进行排序保存;然后,将相似结果超过指定阈值的待推荐的资源信息推荐给用户。
其中,所述根据所述每个待推荐的资源信息及对照资源信息中的新标签中的各个关键词及其对应的权重,通过余弦相似度计算公式计算所述待推荐的资源信息与对照资源信息的相似性,包括如下步骤:
S105.1、获取每一个待推荐资源信息及对照资源信息的新标签对应的关键词的词频;
S105.2、生成每一个待推荐资源信息及对照资源信息的词频向量;
S105.3、计算每一个待推荐资源信息分别与对照资源信息的词频向量的余弦相似度,该余弦相似度即用来衡量待推荐资源信息与对照资源信息的相似性。
优选地,步骤S105.3中所述余弦相似度的计算采用如下公式:
Figure BDA0001578057170000091
其中,xi表示待推荐的一资源信息的词频向量;yi表示对照的资源信息的词频向量,i表示第i个词;其中,cos(θ)的结果越接近1,两个向量越相似,从而得到两个资源越相似。
为了更清楚的说明本申请的技术方案,对本申请举例说明如下,如图3所示:
一、资源A、B、C、D分别通过TF-IDF得到各自的初始关键词标签及其权重(对应实施例一中的S101-S102);例如:
资源A的初始关键词标签为:{足球(权重0.986);总局(权重0.867);郑智(权重0.856);恒大(权重0.845);卡帅(权重0.759)……}。
资源B的初始关键词标签为:{财经(权重0.867);股票(权重0.856);牛市(权重0.746);融资(权重0.689);IPO(权重0.675)……}。
资源C的初始关键词标签为:{a股(权重0.867);创业板(权重0.856);中小盘(权重0.675);蓝筹(权重0.567)……}。
资源D的初始关键词标签为:{里皮(权重0.867);意大利(权重0.863);世界杯(权重0.678);俄罗斯(权重0.554)……}。
二、将A、B、C、D中的每一个初始关键词标签内的各个初始关键词,通过Word2Vec得到其相似标签,将所述初始关键词标签与所述相似标签合并作为新的标签,并通过前述实施例中的方法得到各个新标签下各个关键词的权重(对应实施例一中的S103-S104)。如图3所示:
(一)、资源A的各个初始标签增加相似标签后的标签为:
{足球(权重0.986);
国足(权重0.779);
世界杯(权重0.765);
俱乐部(权重0.654);
篮球(权重0.546);
体育(权重0.542);
总局(权重0.867);
体育总局(权重0.789);
工商总局(权重0.657);
税务总局(权重0.654);
国家机关(权重0.567);
郑智(权重0.856);
恒大(权重0.867);
国足(权重0.768)
张琳梵(权重0.754);
郜林(权重0.746);
恒大(权重0.845);
许家印(权重0.786);
淘宝(权重0.678);
……}
(二)、资源B的新标签为:
{财经(权重0.867);
新闻(权重0.879);
资讯(权重0.789);
股票(权重0.756);
股票(权重0.856);
a股(权重0.897);
纳斯达克(权重0.789);
恒生(权重0.756);
深市(权重0.654);
牛市(权重0.746);
熊市(权重0.678);
刘士余(权重0.567);
指数(权重0.564);
融资(权重0.689);
IPO(权重0.897);
上市(权重0.896);
利率(权重0.675);
……}
(三)、资源C的新标签为:
{a股(权重0.867);
股市(权重0.978);
股票(权重0.876);
b股(权重0.756);
创业板(权重0.856);
深市(权重0.879);
中小盘(权重0.789);
市盈率(权重0.567);
蓝筹(权重0.567);
银行股(权重0.786);
证金(权重0.746);
大盘(权重0.654);
股票(权重0.648);
……}
(四)、资源D的新标签为:
{里皮(权重0.867);
主帅(权重0.876);
总教练(权重0.756);
意大利(权重0.863);
罗马(权重0.687);
法国(权重0.564);
世界杯(权重0.678);
足球(权重0.879);
比赛(权重0.789);
体育(权重0.568);
足球(权重0.576);
世界杯(权重0.878);
国足(权重0.794);
……}
三、计算各个资源的新标签中的各个标签对应的关键词的权重(对应实施例一中的S104的步骤)得到的各个资源的新标签的权重如下:
(一)资源A
足球(权重0.986)
总局(权重0.867)
恒大(权重0.866)
郑智(权重0.856)
国足(权重0.832)
卡帅(权重0.759)
世界杯(权重0.754)
体育总局(权重0.684)
许家印(权重0.664)
张琳芃(权重0.645)
俱乐部(权重0.644)
......
(二)资源B
财经(权重0.867)
股票(权重0.856)
a股(权重0.767)
新闻(权重0.879)
牛市(权重0.746)
融资(权重0.689)
资讯(权重0.684)
纳斯达克(权重0.675)
股票(权重0.655)
恒生(权重0.647)
......
(三)资源C
a股(权重0.867)
创业板(权重0.856)
股币(权重0.847)
股票(权重0.759)
深市(权重0.752)
中小盘(权重0.675)
b股(权重0.655)
蓝筹(权重0.567)
市盈率(权重0.485)
......
(四)资源D
里皮(权重0.867)
意大利(权重0.863)
主帅(权重0.759)
世界杯(权重0.678)
总教练(权重0.655)
罗马(权重0.592)
足球(权重0.576)
......
四、由上,可见使用传统方式,即,使用初始关键词标签比较资源B和C时,由于资源B和C的初始关键词标签内没有相同的初始关键词,因此会得出资源B和C没有相似性的结论;
但是采用根据本发明的方法生成的新标签比较资源B和C时,由于资源B和C的新标签内具有相同的关键词,因此会得出资源B和C具有相似性的结论;同理也可得出资源A与C具有相似性的结论。并且,通过实施例一中的S105的方法可以计算出B与C的相似性大于A与C的相似性,因此,假设C为指定的一对照资源,则此时可以向用户推荐B资源。
由上可见,本申请提供的资源推荐方法,针对各个资源内部的各个初始关键词标签内的各个初始关键词,获取了每个初始关键词的相似关键词标签,并据此进行资源之间的相似性的比对,可见本申请通过细化标签的粒度,有利于更精确的获取到相似的资源,从而有利于提高资源推荐的准确度。
另外需要说明的是,本发明采用了初始关键词标签、相似关键词标签的描述,本质上,它们都是关键词标签,本发明这样描述是为了能够使得读者更清楚的区分步骤S102中建立的关键词标签(即初始关键词标签)和步骤S103中建立的关键词标签(即相似关键词标签)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种资源推荐方法,其特征在于,包括:
A、获取待推荐的各个资源信息以及对照的资源信息;
B、针对每个资源信息,获取其初始关键词标签,所述初始关键词标签下包括所述资源信息的若干关键词;
C、针对每个初始关键词标签内的各关键词,确定出各关键词的相似关键词标签,所述相似关键词标签下包括与所述关键词相似的若干关键词;
D、针对每个资源信息,将对应其的初始关键词标签与相似关键词标签合并作为所述资源信息新标签,所述新标签下包括所述初始关键词标签与所述相似关键词标签所包含的关键词;
E、根据每个所述待推荐的资源信息以及对照的资源信息中的新标签,计算所述待推荐的资源信息与对照的资源信息的相似性;并将相似结果超过指定阈值的待推荐的资源信息进行推荐;
所述步骤B包括:
b1、针对每个资源信息,将其所包含的各个信息合并生成长文本信息,对所述长文本信息进行分词处理形成语料;
b2、针对各资源所形成的语料,通过TF-IDF算法确定出各资源信息包含的关键词及各关键词的权重,并对于权重超过阈值的关键词打上初始关键词标签;
所述步骤b2中所述通过TF-IDF算法确定出各资源信息包含的关键词及各关键词的权重的步骤包括:
针对所述各资源所形成的各语料中的各词语,计算各词语TF和IDF;将每个词语的TF和IDF相乘得到该词语的TF-IDF值作为各词语的权重;
针对各个资源信息,将其对应的权重超过指定阈值的词语作为该资源的关键词;
所述步骤C包括:
c1、使用Word2Vec获取每个资源信息中的各个初始关键词标签内的各初始关键词的词空间向量模型;
c2、根据所述词空间向量模型,通过Word2Vec模型的词距离计算功能获取每个初始关键词的相似的一组关键词及各相似度权重,并将该组关键词内相似度权重超过阈值的关键词打上相似关键词标签;
步骤D还包括:计算新标签下每个关键词的权重,将权重值超过阈值的关键词保留在所述新标签内;
所述计算新标签中的相似关键词标签所对应的相似关键词的权重采用下述公式计算:Pn=Py*Pr*w;其中,Pn为一相似关键词标签所对应的关键词在新标签下的权重,Py为所述关键词对应的初始关键词标签的权重,Pr为该关键词与其对应的初始关键词标签的相似度权重,w为强度传递参数,w取值在0-1之间;
步骤D还包括:当相似关键词标签和初始关键词标签重复时,将所述相似关键词标签的权重和所述初始关键词标签的权重相加;若相加的结果大于1,则将该结果乘以一强度传递参数,其中,所述强度传递参数的值可以调整,以使所述权重值小于1;
步骤E中所述根据所述每个待推荐的资源信息及对照资源信息中的新标签,计算所述待推荐的资源信息与对照的资源信息的相似性,包括:
e1、获取每一个待推荐资源信息及对照资源信息的新标签对应的关键词的词频;
e2、生成每一个待推荐资源信息及对照资源信息的词频向量;
e3、计算每一个待推荐资源信息分别与对照资源信息的词频向量的余弦相似度,该余弦相似度用来衡量所述相似性;
步骤e3中所述余弦相似度的计算采用如下公式:
Figure FDF0000012084330000021
其中,xi表示待推荐的一资源信息的词频向量;yi表示对照的资源信息的词频向量;i表示第i个词;其中,cos(θ)的结果越接近1,两个向量越相似,从而得到两个资源越相似。
CN201810142786.9A 2018-02-11 2018-02-11 一种资源推荐方法 Expired - Fee Related CN108287916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810142786.9A CN108287916B (zh) 2018-02-11 2018-02-11 一种资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810142786.9A CN108287916B (zh) 2018-02-11 2018-02-11 一种资源推荐方法

Publications (2)

Publication Number Publication Date
CN108287916A CN108287916A (zh) 2018-07-17
CN108287916B true CN108287916B (zh) 2021-06-15

Family

ID=62832980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810142786.9A Expired - Fee Related CN108287916B (zh) 2018-02-11 2018-02-11 一种资源推荐方法

Country Status (1)

Country Link
CN (1) CN108287916B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334283A (zh) * 2018-08-27 2019-10-15 腾讯科技(北京)有限公司 信息推荐方法、装置、服务器及存储介质
CN110674363B (zh) * 2019-08-30 2022-04-22 中国人民财产保险股份有限公司 接口服务之间的相似匹配方法、装置及电子设备
CN110751867B (zh) * 2019-11-27 2021-06-01 上海松鼠课堂人工智能科技有限公司 英文教学系统
CN112100517A (zh) * 2020-09-17 2020-12-18 哈尔滨理工大学 一种基于内容特征抽取的缓解推荐系统冷启动问题的方法
CN113722582A (zh) * 2021-07-29 2021-11-30 黑龙江先进信息技术有限公司 基于宠物特征标签的推荐方法、系统、程序产品及介质
CN116244496B (zh) * 2022-12-06 2023-12-01 山东紫菜云数字科技有限公司 一种基于产业链的资源推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104239535A (zh) * 2014-09-22 2014-12-24 重庆邮电大学 一种为文字配图的方法、服务器、终端及系统
CN105809559A (zh) * 2016-03-15 2016-07-27 微梦创科网络科技(中国)有限公司 一种在社交网络中挖掘能力用户的方法和装置
WO2016179830A1 (en) * 2015-05-14 2016-11-17 Intel Corporation Fast mrf energy optimization for solving scene labeling problems

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196184A (ja) * 1997-09-17 1999-04-09 Oki Electric Ind Co Ltd 全文検索方法およびシステム
CN101408897B (zh) * 2008-10-10 2011-03-30 清华大学 一种基于协作过滤的个性化查询扩展方法
CN102043793A (zh) * 2009-10-09 2011-05-04 卢健华 一种面向知识服务的推荐方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104239535A (zh) * 2014-09-22 2014-12-24 重庆邮电大学 一种为文字配图的方法、服务器、终端及系统
WO2016179830A1 (en) * 2015-05-14 2016-11-17 Intel Corporation Fast mrf energy optimization for solving scene labeling problems
CN105809559A (zh) * 2016-03-15 2016-07-27 微梦创科网络科技(中国)有限公司 一种在社交网络中挖掘能力用户的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于个人微博特征的事件提取研究;高永兵 等;《计算机应用与软件》;20160715;第33卷(第7期);47-51 *

Also Published As

Publication number Publication date
CN108287916A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN108287916B (zh) 一种资源推荐方法
Kong et al. Photo aesthetics ranking network with attributes and content adaptation
Burns et al. Women also snowboard: Overcoming bias in captioning models
Hendricks et al. Women also snowboard: Overcoming bias in captioning models
CN109064285B (zh) 一种获得商品推荐序列及商品推荐方法
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
CN110059271B (zh) 运用标签知识网络的搜索方法及装置
US20220405607A1 (en) Method for obtaining user portrait and related apparatus
US20150154246A1 (en) Recommendation Engine using Inferred Deep Similarities for Works of Literature
US8412703B2 (en) Search engine for scientific literature providing interface with automatic image ranking
US20100223258A1 (en) Information retrieval system and method using a bayesian algorithm based on probabilistic similarity scores
KR101098871B1 (ko) 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN102356393A (zh) 数据处理装置
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN109558541A (zh) 一种信息处理的方法、装置及计算机存储介质
Chatzichristofis et al. Co. vi. wo.: color visual words based on non-predefined size codebooks
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Ozkan et al. A large-scale database of images and captions for automatic face naming
JP5455232B2 (ja) 画像選定装置、方法及びプログラム
Liu et al. A selective weighted late fusion for visual concept recognition
JP6426074B2 (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
Xie et al. Construction of unsupervised sentiment classifier on idioms resources
Imran et al. Event recognition from photo collections via pagerank

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210615

CF01 Termination of patent right due to non-payment of annual fee