CN108287916B

CN108287916B - 一种资源推荐方法

Info

Publication number: CN108287916B
Application number: CN201810142786.9A
Authority: CN
Inventors: 苗原; 李鹏; 公艳; 张勇
Original assignee: Beijing Founder Apabi Technology Co Ltd
Current assignee: Beijing Founder Apabi Technology Co Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2021-06-15
Anticipated expiration: 2038-02-11
Also published as: CN108287916A

Abstract

本发明提供一种资源推荐方法,包括：A、获取待推荐的各个资源信息以及对照的资源信息；B、针对每个资源信息，获取其初始关键词标签，该初始关键词标签下包括该资源信息的若干关键词；C、针对每个初始关键词标签内的各关键词，确定出各关键词的相似关键词标签，该相似关键词标签下包括与所述关键词相似的若干关键词；D、针对每个资源信息，将对应其的初始关键词标签与相似关键词标签合并作为该资源信息新标签，该新标签下包括初始关键词标签与相似关键词标签所包含的关键词；E、根据每个待推荐的资源信息及对照资源信息中的新标签，计算待推荐的资源信息与对照的资源信息的相似性；并将相似结果超过指定阈值的待推荐的资源信息进行推荐。

Description

一种资源推荐方法

技术领域

本发明属于计算机应用技术领域，具体涉及一种资源推荐方法。

背景技术

随着互联网技术的日益普及，有越来越多的信息在互联网上展示，如何对信息进行分类对于人们快速查找有用信息尤其重要。标签系统以关键词的形式对资源进行分类，是一种灵活的、开放的分类方式，是对用户无约束的运用自由定义的关键字的方式进行协作分类的一种工具。

常见的关键词标签提取技术有TF-IDF算法，此算法主要通过特征词向量来描述文本特征。通过计算得到文本特征向量，通过计算向量之间的余弦相似度，得到文本相似度排序，随后对文本进行相似推荐。

关键词提取的标签能帮助用户管理分类资源的信息资源，并提供分享和交流的平台，由于标签的自动化提取过程的不足，不可避免的出现以下问题：同义标签、标签的抽象程度不同，例如，苹果和水果，喜欢和喜爱，a股和股票。标签是在描述同一种类型，所要表达的信息类似，但是表达方式不同。但是由于通过余弦相似度来计算文本相似度仅仅是把标签当成一个维度，未考量每一个标签的相似标签，从而会导致标签粒度太粗，以使一些相似资源未获得推荐，从而导致推荐结果不准确。

因此，目前亟需一种提高资源推荐准确度的资源推荐方法。

发明内容

有鉴于此，本申请提供一种资源推荐方法，对各个资源内部的各个初始关键词标签获取了其相似性标签，并进一步地据此进行资源之间的相似性的比对，本申请通过细化标签的粒度，有利于更精确的获取到相似的资源，以有利于提高资源推荐的准确度。

本申请提供一种资源推荐方法，其特征在于，包括：

A、获取待推荐的各个资源信息以及对照资源信息；

B、分别获取每个资源信息的初始关键词标签集合，及获取各个初始关键词标签的权重；

C、获取每个资源信息中的各个初始关键词标签的相似标签；并获取各个相似标签的权重；

D、将所述初始关键词标签与所述相似标签合并作为新的标签，并计算各个新标签的权重；

E、根据所述每个待推荐的资源信息及对照的资源信息中的标签集合中的各个新标签及其对应的权重，通过余弦相似度计算公式计算所述待推荐的资源信息与对照的资源信息的相似性；将相似结果超过指定阈值的待推荐的资源信息推荐给用户。

由上，本申请提供一种资源推荐方法，对各个资源内部的各个初始关键词标签获取了其相似性标签，并进一步地据此进行资源之间的相似性的比对，本申请通过细化标签的粒度，有利于更精确的获取到相似的资源，以有利于提高资源推荐的准确度。

优选地，所述步骤B包括：

b1、针对每个资源，将该资源所包含的各个信息合并生成长文本信息，然后对生成的该文长本信息分别进行分词处理，并将其保存形成语料；

b2、针对各个资源所形成的语料，通过TF-IDF算法对所述语料进行分析，获取初始关键词标签及其相应的权重，以得到各个资源信息分别对应的由每个资源的初始关键词标签组成的标签集合。

优选地，所述步骤C包括：

通过Word2Vec获取每个资源信息中的各个初始关键词标签对应的关键词的空间向量模型；

根据所述空间向量模型，通过Word2Vec模型的距离功能获取每一个初始关键词标签对应的关键词的相似的一组关键词；并对该组关键词添加标签，以获取每一初始关键词标签对应的一组相似标签。

由上，本申请对各个资源内部的各个初始关键词标签获取了其相似性标签，本申请通过细化标签的粒度，有利于更精确的获取到相似的资源，以有利于提高资源推荐的准确度。

优选地，步骤D所述计算新标签中的相似关键词标签所对应的相似关键词的权重采用下述公式计算：

Pn＝Py*Pr*w；

其中，Pn为一相似关键词标签所对应的关键词在新标签下的权重，Py为该关键词对应的初始关键词标签的权重，Pr为该关键词与其对应的初始关键词标签的相似度权重，w为强度传递参数，w取值在0-1之间。

优选地，当相似关键词标签和初始关键词标签重复时，将相似标签的权重和初始关键词标签的权重相加。

由上，当权重相加大于1时，通过乘以一强度传递参数，其中所述强度传递参数的值可以调整，以使所述权重值小于1。当不存在相似关键词与初始关键词重复的情形时，则初始关键词的权重还使用其最初的权重。

优选地，步骤E所述根据所述每个待推荐的资源信息及对照资源信息中的新标签，计算所述待推荐的资源信息与对照的资源信息的相似性，步骤包括：

e1、获取每一个待推荐资源信息及对照资源信息的新标签对应的关键词的词频；

e2、生成每一个待推荐资源信息及对照资源信息的词频向量；

e3、计算每一个待推荐资源信息分别与对照资源信息的词频向量的余弦相似度。

优选地，步骤e3所述余弦相似度的计算采用如下公式：

其中,x_i表示待推荐的一资源信息的词频向量；y_i表示对照的资源信息的词频向量；i表示第i个词；其中，cos(θ)结果越接近1，两个向量越相似，从而得到两个资源越相似。

综上所述，本申请提供一种资源推荐方法，对各个资源内部的各个初始关键词标签获取了其相似性标签，并进一步地据此进行资源之间的相似性的比对，本申请通过细化标签的粒度，有利于更精确的获取到相似的资源，从而有利于提高资源推荐的准确度。

附图说明

图1为本申请实施例提供的一种资源推荐方法的流程示意图；

图2为本申请实施例提供的CBOW和Skip_gram模型的流程结构示意图；

图3为本申请实施例提供的一种资源推荐方法的具体实例的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图对本申请进行说明。

实施例一

如图1所示，本申请实施例提供一种资源推荐方法，其特征在于，包括如下步骤：

S101，获取待推荐的各个资源信息以及对照资源信息。

其中，对照资源信息即为一指定的资源信息，例如可以是用户当前正在阅读的新闻、文章、电子书籍等，也可以是当前浏览的网页内的信息等，本发明的目的是向用户推荐与所述对照资源信息相似的信息。

其中，关于待推荐的各个资源信息，资源最好数量多，种类多样，其中每个资源所包含的信息包括：文本、元数据信息、用户对资源的评价和对资源打的标签(人为的对资源进行分类或者评价的标签)等。

S102，针对每个资源信息，获取其初始关键词标签(tag)，以及获取初始关键词标签下的各个关键词的权重。

例如，图3所示的实施例中即示出了资源A的初始关键词标签所包含的内容，如下：

资源A的初始关键词标签为：{足球(权重0.986)；总局(权重0.867)；郑智(权重0.856)；恒大(权重0.845)；卡帅(权重0.759)……}。

其中，“足球”、“总局”、“郑智”、“恒大”、“卡帅”等词语即为该初始关键词标签所包含的各个关键词，上述集合中的数字表示各个关键词对应的权重。

其中，本S102步骤具体包括如下子步骤：

S102.1、针对每个资源信息，将该资源所包含的各个信息合并生成长文本信息，然后对生成的该文长本信息进行分词处理，并将其保存形成语料；

S102.2、针对各个资源所形成的语料，通过TF-IDF算法对所述语料进行分析，确定出各个资源包含的关键词及各关键词的权重，并将权重超过阈值的关键词作为其对应的资源的初始关键词标签，或称作将关键词打上初始关键词标签。

其中，TF-IDF算法的主要思想是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为该词或者短语具有很好的类别区分能力，适合用来分类。本实施例中，通过TF-IDF算法对这些语料进行分析，获得各个词语的权重，并将权重超过指定阈值的词语加入初始关键词标签内。下面对使用TF-IDF算法确定各个资源信息的初始关键词标签的步骤进一步详细说明，包括如下子步骤：

S102.2.1、计算各词语TF：其中，TF-IDF中的TF是指词频(TF，Term Frequency)，在一份给定的文件里，词频是指某一个给定的词语在该文件中出现的频率。这个频率值通常会被归一化，以防止它偏向长的文件。

其中，所述TF的计算公式为：

S102.2.2、计算各词语IDF：其中，TF-IDF中的IDF是指逆向文件频率(IDF，InverseDocument Frequency)，是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。

S102.2.3、计算各词语TF-IDF值，并作为各词语的权重：将每个词的TF和IDF这两个值相乘，即可得到该词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大，也即权重越大。

S102.2.4、针对各个资源信息，将其对应的权重超过指定阈值的词语作为该资源的关键词，并将词语加入初始关键词标签内，或称为将其打上初始关键词标签，且记录其权重。该资源下的这些关键词即构成了该资源的初始关键词标签内的内容。

S103，针对每个资源信息的初始关键词标签内的各关键词，确定出每个关键词的相似关键词标签，及获取相似关键词标签内的各个关键词的权重。

至此，为了后文描述更清楚的所述关键词是属于初始关键词标签，还是属于相似关键词标签，对于可能引起歧义的地方，对应的关键词将分别称为初始关键词、相似关键词。

例如，图3所示的实施例中即示出了资源A的初始关键词标签内的关键词足球的相似关键词标签的内容，如下：

资源A的初始关键词足球的相似关键词标签为：{国足(0.779)；世界杯(权重0.765)；俱乐部(权重0.654)；篮球(权重0.546)；体育(权重0.542)；……}。

其中，世界杯、俱乐部、篮球、体育等词语即为该相似关键词标签所包含的各个关键词，上述集合中的数字表示各个关键词对应的权重。

具体的，本步骤S103包括如下子步骤：

S103.1、使用Word2Vec获取每个资源信息中的各个初始关键词标签内的各初始关键词(即步骤S102.2.4中所述的关键词)的词空间向量模型；

S103.2、根据所述词空间向量模型，通过Word2Vec模型的词距离计算功能获取每个初始关键词的相似的一组关键词(即相似关键词)；并对该组相似关键词加入所述初始关键词对应的相似关键词标签内，或称，将该组相似关键词打上相似关键词标签。

其中，Word2Vec使用的是一种基于深度学技术的浅神经网络模型，包含两种训练模型，分别是CBOW和Skip_gram，结构为输入层(input)、发射层(projection)、输出层(output)，如图2所示：

其中，CBOW模型可以通过上下文词算出中间词的概率，Skip_gram模型可以通过一个词算出上下文词的概率。通过训练得到的词向量可以进行相应的自然语言处理工作，比如求相似词、关键词聚类等。其中Word2Vec模型中提供了词距离计算功能，给定一个标签可以通过Word2Vec模型的词距离计算功能，得出与初始关键词的相似度由高至低的关键词的排序。

本实施例中，对每个资源的每个初始关键词进行该操作，即可得到每个初始关键词对应的一组新的相似关键词，通过对每个相似关键词进行强度传递参数的计算(例如相乘计算)后，与给定的阈值进行比较，保留强度传递参数的值大于该阈值的相似关键词，并将其加入相似关键词标签内，并对应其初始关键词进行保存。

S104，针对每个资源信息，将其初始关键词标签集合与对应其初始关键词标签集合下各初始关键词的各相似关键词标签集合合并，构成其新的标签集合，并计算新标签集合下各关键词的权重，据此选择新的标签集合下所保留的关键词。

其中，所述新标签集合下相似关键词标签对应的关键词权重的计算公式为：

Pn＝Py*Pr*w；

其中，Pn为一相似关键词标签所对应的关键词在新标签下的权重，Py为该关键词对应的初始关键词标签的权重，(即由步骤S102.2.3中计算的权重)，Pr为该关键词与其对应的初始关键词的相似度权重(即由步骤S103.2中计算的权重)，w为强度传递参数，w取值在0-1之间。其中，如果强度传递越强，则w值越接近于1，否则接近于0。并且，如果Pn大于指定阈值，则将该关键词保留在新的标签下，如果Pn小于该指定阈值，则从该新的标签下去除该关键词。

其中，Py为该关键词对应的初始关键词标签的权重(即由步骤S102中计算的权重)。例如，假设初始关键词为“足球”，其相似关键词为：“国足”、“世界杯”、“俱乐部”、“篮球”、“体育”。假设此处的关键词(新标签)为“世界杯”，则此处的Py的含义为“足球”的权重，如S102中的“足球”的权重(0.986)。Pr的含义为“世界杯”与“足球”的相似度权重，例如S103中提到的“世界杯”与“足球”的相似度权重为0.765。其中相似度权重使用Word2vec模型得到。

需要说明的是，如果新标签中的相似关键词标签和初始关键词标签重复时，这需要把新标签中的相似关键词标签的权重和初始关键词标签的权重相加。此处，若相加的结果大于1，则将该结果乘以一强度传递参数，其中，所述强度传递参数的值可以调整，以使所述权重值小于1。当不存在相似关键词与初始关键词重复的情形时，则初始关键词的权重还使用其最初的权重。

S105，根据所述每个待推荐的资源信息及对照资源信息中的新标签中的各个关键词及其对应的权重，通过余弦相似度计算公式计算所述每个待推荐的资源信息与对照资源信息的相似性，并可进行排序保存；然后，将相似结果超过指定阈值的待推荐的资源信息推荐给用户。

其中，所述根据所述每个待推荐的资源信息及对照资源信息中的新标签中的各个关键词及其对应的权重，通过余弦相似度计算公式计算所述待推荐的资源信息与对照资源信息的相似性，包括如下步骤：

S105.1、获取每一个待推荐资源信息及对照资源信息的新标签对应的关键词的词频；

S105.2、生成每一个待推荐资源信息及对照资源信息的词频向量；

S105.3、计算每一个待推荐资源信息分别与对照资源信息的词频向量的余弦相似度，该余弦相似度即用来衡量待推荐资源信息与对照资源信息的相似性。

优选地，步骤S105.3中所述余弦相似度的计算采用如下公式：

其中,x_i表示待推荐的一资源信息的词频向量；y_i表示对照的资源信息的词频向量，i表示第i个词；其中，cos(θ)的结果越接近1，两个向量越相似，从而得到两个资源越相似。

为了更清楚的说明本申请的技术方案，对本申请举例说明如下，如图3所示：

一、资源A、B、C、D分别通过TF-IDF得到各自的初始关键词标签及其权重(对应实施例一中的S101-S102)；例如:

资源B的初始关键词标签为：{财经(权重0.867)；股票(权重0.856)；牛市(权重0.746)；融资(权重0.689)；IPO(权重0.675)……}。

资源C的初始关键词标签为：{a股(权重0.867)；创业板(权重0.856)；中小盘(权重0.675)；蓝筹(权重0.567)……}。

资源D的初始关键词标签为：{里皮(权重0.867)；意大利(权重0.863)；世界杯(权重0.678)；俄罗斯(权重0.554)……}。

二、将A、B、C、D中的每一个初始关键词标签内的各个初始关键词，通过Word2Vec得到其相似标签，将所述初始关键词标签与所述相似标签合并作为新的标签，并通过前述实施例中的方法得到各个新标签下各个关键词的权重(对应实施例一中的S103-S104)。如图3所示：

(一)、资源A的各个初始标签增加相似标签后的标签为：

{足球(权重0.986)；

国足(权重0.779)；

世界杯(权重0.765)；

俱乐部(权重0.654)；

篮球(权重0.546)；

体育(权重0.542)；

总局(权重0.867)；

体育总局(权重0.789)；

工商总局(权重0.657)；

税务总局(权重0.654)；

国家机关(权重0.567)；

郑智(权重0.856)；

恒大(权重0.867)；

国足(权重0.768)

张琳梵(权重0.754)；

郜林(权重0.746)；

恒大(权重0.845)；

许家印(权重0.786)；

淘宝(权重0.678)；

……}

(二)、资源B的新标签为：

{财经(权重0.867)；

新闻(权重0.879)；

资讯(权重0.789)；

股票(权重0.756)；

股票(权重0.856)；

a股(权重0.897)；

纳斯达克(权重0.789)；

恒生(权重0.756)；

深市(权重0.654)；

牛市(权重0.746)；

熊市(权重0.678)；

刘士余(权重0.567)；

指数(权重0.564)；

融资(权重0.689)；

IPO(权重0.897)；

上市(权重0.896)；

利率(权重0.675)；

……}

(三)、资源C的新标签为：

{a股(权重0.867)；

股市(权重0.978)；

股票(权重0.876)；

b股(权重0.756)；

创业板(权重0.856)；

深市(权重0.879)；

中小盘(权重0.789)；

市盈率(权重0.567)；

蓝筹(权重0.567)；

银行股(权重0.786)；

证金(权重0.746)；

大盘(权重0.654)；

股票(权重0.648)；

……}

(四)、资源D的新标签为：

{里皮(权重0.867)；

主帅(权重0.876)；

总教练(权重0.756)；

意大利(权重0.863)；

罗马(权重0.687)；

法国(权重0.564)；

世界杯(权重0.678)；

足球(权重0.879)；

比赛(权重0.789)；

体育(权重0.568)；

足球(权重0.576)；

世界杯(权重0.878)；

国足(权重0.794)；

……}

三、计算各个资源的新标签中的各个标签对应的关键词的权重(对应实施例一中的S104的步骤)得到的各个资源的新标签的权重如下：

(一)资源A

足球(权重0.986)

总局(权重0.867)

恒大(权重0.866)

郑智(权重0.856)

国足(权重0.832)

卡帅(权重0.759)

世界杯(权重0.754)

体育总局(权重0.684)

许家印(权重0.664)

张琳芃(权重0.645)

俱乐部(权重0.644)

......

(二)资源B

财经(权重0.867)

股票(权重0.856)

a股(权重0.767)

新闻(权重0.879)

牛市(权重0.746)

融资(权重0.689)

资讯(权重0.684)

纳斯达克(权重0.675)

股票(权重0.655)

恒生(权重0.647)

......

(三)资源C

a股(权重0.867)

创业板(权重0.856)

股币(权重0.847)

股票(权重0.759)

深市(权重0.752)

中小盘(权重0.675)

b股(权重0.655)

蓝筹(权重0.567)

市盈率(权重0.485)

......

(四)资源D

里皮(权重0.867)

意大利(权重0.863)

主帅(权重0.759)

世界杯(权重0.678)

总教练(权重0.655)

罗马(权重0.592)

足球(权重0.576)

......

四、由上，可见使用传统方式，即，使用初始关键词标签比较资源B和C时，由于资源B和C的初始关键词标签内没有相同的初始关键词，因此会得出资源B和C没有相似性的结论；

但是采用根据本发明的方法生成的新标签比较资源B和C时，由于资源B和C的新标签内具有相同的关键词，因此会得出资源B和C具有相似性的结论；同理也可得出资源A与C具有相似性的结论。并且，通过实施例一中的S105的方法可以计算出B与C的相似性大于A与C的相似性，因此，假设C为指定的一对照资源，则此时可以向用户推荐B资源。

由上可见，本申请提供的资源推荐方法，针对各个资源内部的各个初始关键词标签内的各个初始关键词，获取了每个初始关键词的相似关键词标签，并据此进行资源之间的相似性的比对，可见本申请通过细化标签的粒度，有利于更精确的获取到相似的资源，从而有利于提高资源推荐的准确度。

另外需要说明的是，本发明采用了初始关键词标签、相似关键词标签的描述，本质上，它们都是关键词标签，本发明这样描述是为了能够使得读者更清楚的区分步骤S102中建立的关键词标签(即初始关键词标签)和步骤S103中建立的关键词标签(即相似关键词标签)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种资源推荐方法，其特征在于，包括：

A、获取待推荐的各个资源信息以及对照的资源信息；

B、针对每个资源信息，获取其初始关键词标签，所述初始关键词标签下包括所述资源信息的若干关键词；

C、针对每个初始关键词标签内的各关键词，确定出各关键词的相似关键词标签，所述相似关键词标签下包括与所述关键词相似的若干关键词；

D、针对每个资源信息，将对应其的初始关键词标签与相似关键词标签合并作为所述资源信息新标签，所述新标签下包括所述初始关键词标签与所述相似关键词标签所包含的关键词；

E、根据每个所述待推荐的资源信息以及对照的资源信息中的新标签，计算所述待推荐的资源信息与对照的资源信息的相似性；并将相似结果超过指定阈值的待推荐的资源信息进行推荐；

所述步骤B包括：

b1、针对每个资源信息，将其所包含的各个信息合并生成长文本信息，对所述长文本信息进行分词处理形成语料；

b2、针对各资源所形成的语料，通过TF-IDF算法确定出各资源信息包含的关键词及各关键词的权重，并对于权重超过阈值的关键词打上初始关键词标签；

所述步骤b2中所述通过TF-IDF算法确定出各资源信息包含的关键词及各关键词的权重的步骤包括：

针对所述各资源所形成的各语料中的各词语，计算各词语TF和IDF；将每个词语的TF和IDF相乘得到该词语的TF-IDF值作为各词语的权重；

针对各个资源信息，将其对应的权重超过指定阈值的词语作为该资源的关键词；

所述步骤C包括：

c1、使用Word2Vec获取每个资源信息中的各个初始关键词标签内的各初始关键词的词空间向量模型；

c2、根据所述词空间向量模型，通过Word2Vec模型的词距离计算功能获取每个初始关键词的相似的一组关键词及各相似度权重，并将该组关键词内相似度权重超过阈值的关键词打上相似关键词标签；

步骤D还包括：计算新标签下每个关键词的权重，将权重值超过阈值的关键词保留在所述新标签内；

所述计算新标签中的相似关键词标签所对应的相似关键词的权重采用下述公式计算：Pn＝Py*Pr*w；其中，Pn为一相似关键词标签所对应的关键词在新标签下的权重，Py为所述关键词对应的初始关键词标签的权重，Pr为该关键词与其对应的初始关键词标签的相似度权重，w为强度传递参数，w取值在0-1之间；

步骤D还包括：当相似关键词标签和初始关键词标签重复时，将所述相似关键词标签的权重和所述初始关键词标签的权重相加；若相加的结果大于1，则将该结果乘以一强度传递参数，其中，所述强度传递参数的值可以调整，以使所述权重值小于1；

步骤E中所述根据所述每个待推荐的资源信息及对照资源信息中的新标签，计算所述待推荐的资源信息与对照的资源信息的相似性，包括：

e3、计算每一个待推荐资源信息分别与对照资源信息的词频向量的余弦相似度，该余弦相似度用来衡量所述相似性；

步骤e3中所述余弦相似度的计算采用如下公式：

其中,x_i表示待推荐的一资源信息的词频向量；y_i表示对照的资源信息的词频向量；i表示第i个词；其中，cos(θ)的结果越接近1，两个向量越相似，从而得到两个资源越相似。