CN110990711A

CN110990711A - 基于机器学习的微信公众号推荐算法及系统

Info

Publication number: CN110990711A
Application number: CN201910392858.XA
Authority: CN
Inventors: 张旭; 梁汝锋; 张传新; 刘春阳; 郑阳; 刘巨安
Original assignee: Beijing Blue Light Wit Network Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Blue Light Wit Network Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2020-04-10
Anticipated expiration: 2039-05-13
Also published as: CN110990711B

Abstract

本发明公开了基于机器学习的微信公众号推荐算法，包括：为训练文本标注标签，获取训练文本的关键词及关键词向量，对关键词向量进行聚类计算，获得簇，并确定簇的中心向量；采集公众号文本，获取公众号文本的关键词及关键词向量，根据关键词向量与中心向量的相似度确定公众号文本对应的标签，获得标签分析结果；根据目标用户的历史行为确定目标用户的喜好标签；从标签分析结果中选取与喜好标签相关的标签，将相关的标签对应的公众号文本推荐给目标用户。本发明还提供了基于机器学习的微信公众号推荐系统。本发明能够根据分析用户喜好，进而自动推荐合适的公众号，避免用户受各种良莠不齐的公众号干扰，避免花费过多时间用于挑选公众号文章。

Description

基于机器学习的微信公众号推荐算法及系统

技术领域

本发明涉及计算机机器学习领域。更具体地说，本发明涉及基于机器学习的微信公众号推荐算法及系统。

背景技术

微信公众平台是现代人们获取社会热点信息、分享知识经验和文字交流的主要手段之一。随着微信用户群体的逐渐扩大，微信公众号的数量也不断增多，各种各样的公众号出现在人们的视野之中，极大的拓宽了人们获取信息的渠道，增加了人们的见闻。

与之相对的，公众号增多带来的负面影响也随之而来。由于公众号本质是一个信息交流分享平台，因此准入门槛并不高，只要通过了基本的认证，任何用户都可以分享自己的任何事物，无论是日常生活、人生经验、官方通告亦或是技术感悟等。这就导致了其内容五花八门，公众号种类繁多，使得人们不得不浪费精力去筛选那些自己想看的，想关注的公众号。因此，除了常规的公众号检索功能以外，公众号智能推荐也显得十分重要。

发明内容

本发明的一个目的是提供基于机器学习的微信公众号推荐算法及系统，其用标签标注和聚类算法获得微信公众号文本的特征标签，并根据用户历史行为推断用户的喜好标签，进而推荐相应的公众号文本给用户，然后可根据推荐的公众号文本为用户推荐对应的公众号。

为了实现根据本发明的这些目的和其它优点，提供了基于机器学习的微信公众号推荐算法，包括：

为训练文本标注标签，获取训练文本的关键词及关键词向量，对关键词向量进行聚类计算，获得簇，并确定簇的中心向量；

采集公众号文本，获取公众号文本的关键词及关键词向量，根据关键词向量与中心向量的相似度确定公众号文本对应的标签，获得标签分析结果；

根据目标用户的历史行为确定目标用户的喜好标签；

从标签分析结果中选取与喜好标签相关的标签，将相关的标签对应的公众号文本推荐给目标用户。

优选的是，所述的基于机器学习的微信公众号推荐算法，所述历史行为包括目标用户的阅读行为，获取目标用户的历史已读文本，获取关键词及关键词向量，根据关键词向量与中心向量的相似度确定历史已读文本对应的标签，作为喜好标签。

优选的是，所述的基于机器学习的微信公众号推荐算法，获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括：对文本进行分词，用Skip-gram模型将各词语转化为词向量，然后用TF-IDF算法提取关键词，即获得关键词及关键词向量。

优选的是，所述的基于机器学习的微信公众号推荐算法，还包括：

在提取关键词时，计算关键词的TF-IDF值；

计算关键词向量与中心向量的相似度；

其中，以各关键词的TF-IDF值为权值，将公众号文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均，将计算结果作为公众号文本与该标签的匹配权重，若匹配权重符合第一设定规则，则判断该公众号文本属于该标签。

优选的是，所述的基于机器学习的微信公众号推荐算法，

以各关键词的TF-IDF值为权值，将历史已读文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均，将计算结果作为目标用户对该标签的喜好权重，若喜好权重符合第二设定规则，则将该标签作为喜好标签。

优选的是，所述的基于机器学习的微信公众号推荐算法，若获得多个簇，则确定多个簇的中心向量；

分别计算关键词向量与各中心向量的相似度值，取最大相似度值与TF-IDF值相乘。

选取测试文本并标注标签，获取测试文本的关键词及关键词向量和TF-IDF值，计算关键词向量与中心向量的相似度值，确定平均误差；

所述第一设定规则包括：将各标签的匹配权重除以最大匹配权重，若所得结果大于 1-平均误差，则判断该文本属于该标签；

所述第二设定规则包括：将各标签的喜好权重除以最大喜好权重，若所得结果大于 1-平均误差，则将该标签作为喜好标签。

根据历史已读文本的阅读日期，利用时间衰减函数为历史已读文本分配时间权重；

以时间权重为权值，计算喜好权重在设定时间范围内的加权平均值；

将各标签的喜好权重的加权平均值除以最大加权平均值，若所得结果大于1-平均误差，则将该标签作为喜好标签。

优选的是，所述的基于机器学习的微信公众号推荐算法，使用KMeans算法对关键词向量进行聚类，然后计算各关键词向量轮廓系数，并舍弃轮廓系数低于设定阈值的关键词向量；

所述轮廓系数为簇间不相似度与簇内不相似度的差除以簇间不相似度和簇内不相似度之间的大者；

簇内不相似度为关键词向量至簇内其他关键词向量的平均欧氏距离；

簇间不相似度为关键词向量至到其他簇的关键词向量的平均欧氏距离的最小值。

本发明还提供了基于机器学习的微信公众号推荐系统，包括：

数据采集装置，其用于采集公众号文本；

文本处理装置，其用于对公众号文本进行分词；

模型训练装置，其将经过标签标注的训练文本的关键词向量进行聚类，获得簇，并确定簇的中心向量；

标签分析装置，其根据公众号文本的关键词向量与中心向量的相似度确定公众号文本对应的标签，获得标签分析结果；

行为统计装置，其用于记录目标用户的历史行为；

喜好分析装置，其用于根据目标用户的行为，获得喜好标签；

推荐装置，其用于从标签分析结果中选取与喜好标签相关的标签，将相关的标签对应的公众号文本推荐给目标用户。

本发明至少包括以下有益效果：

本发明首先对训练文本进行标注标签，进而对训练文本的关键词向量进行聚类计算，获得与各标签分别对应的特征中心向量。然后提取公众号文本的关键词，并获得关键词向量，计算关键词向量与特征中心向量的相似度，根据相似度确定各公众号文本对应的标签，即获得公众号文本与标签相对应的标签分析结果。随后将目标用户的历史行为也转化为若干喜好标签。最后根据喜好标签从标签分析结果选取相关标签，并据此向目标用户推荐公众号文本。本发明能够根据分析用户喜好，进而自动推荐合适的公众号，避免用户受各种良莠不齐的公众号干扰，避免将过多时间用于挑选公众号及公众号文本。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

在一种技术方案中，如图1所示，基于机器学习的微信公众号推荐算法，包括：

根据目标用户的历史行为确定目标用户的喜好标签；

在上述技术方案中，训练文本可以选自公众号，也可以是其它来源，首先对训练文本进行标注标签，比如标注为时政类、经济类等，然后提取训练文本的关键词和关键词向量，对得到的关键词进行聚类，进而得到各簇的中心向量，即将一标签用至少一个中心向量表示。然后采集公众号平台类的公众号文本，基于相同的方法获得关键词和关键词向量，计算各关键词向量与中心向量的相似度，即得到关键词与标签的匹配度，由于各关键词能够代表整个公众号文本，则根据各关键词与标签的匹配度可获得公众号文本与标签的匹配度，根据公众号文本与各标签的匹配度，即可得到公众号文本对应的标签。随后采集目标用户的历史行为，比如评论、点赞或阅读的文本，根据这些历史行为，提取出若干喜好标签。最后，从标签分析结果选取与喜好标签相关的标签，并向目标用户推荐相应的公众号文本。而且可对推荐的公众号文本进行统计，进一步为用户推荐对应的公众号。可以看出，本发明能够根据分析用户喜好，进而自动推荐合适的公众号，避免用户受各种良莠不齐的公众号干扰，避免将过多时间用于挑选公众号文章。

在另一种技术方案中，所述的基于机器学习的微信公众号推荐算法，所述历史行为包括目标用户的阅读行为，获取目标用户的历史已读文本，获取关键词及关键词向量，根据关键词向量与中心向量的相似度确定历史已读文本对应的标签，作为喜好标签。这里，提供了获得喜好标签的一种方式，采用与公众号文本相同的处理方式从历史已读文本中提取关键词和关键词向量，并计算与中心向量的相似度，基于与公众号文本相同的处理方式，确定历史已读文本对应的标签，并作为喜好标签。

在另一种技术方案中，所述的基于机器学习的微信公众号推荐算法，获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括：对文本进行分词，用Skip-gram模型将各词语转化为词向量，然后用TF-IDF算法提取关键词，即获得关键词及关键词向量。这里，提供了获得关键词和关键词向量的一种方法，具体地，移除3000多个中文停用词，使用了8种主要的名词性词性作为关键词词性，根据文本的长度，动态的调整关键词的个数。

在另一种技术方案中，所述的基于机器学习的微信公众号推荐算法，还包括：

在提取关键词时，计算关键词的TF-IDF值；

计算关键词向量与中心向量的相似度；

在上述技术方案中，TF-IDF值表示了关键词对于公众号文本的区分度大小，值越高，意味着这个词越能代表这篇文章。对于一个公众号文本，首先确定各关键词向量与各标签的中心向量的相似度，然后利用各关键词的TF-IDF值对相似度值进行加权平均，获得公众号文本在各中心向量上的权重，即获得公众号文本对各标签的匹配权重。当一个标签的匹配权重满足经验或统计的范围，则认定该公众号文本属于该标签，将该标签与该公众号文本的对应关系作为标签分析结果。

在另一种技术方案中，所述的基于机器学习的微信公众号推荐算法，

以各关键词的TF-IDF值为权值，将历史已读文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均，将计算结果作为目标用户对该标签的喜好权重，若喜好权重符合第二设定规则，则将该标签作为喜好标签。这里，提供了获得喜好标签的一种优选方法，即使用与上一技术方案相同的方式获得历史已读文本在各中心向量上的权重，即获得历史已读文本对各标签的权重。当一个标签的权重满足经验或统计的范围，则认定为目标用户的喜好标签。

在另一种技术方案中，所述的基于机器学习的微信公众号推荐算法，若获得多个簇，则确定多个簇的中心向量；

分别计算关键词向量与各中心向量的相似度值，取最大相似度值与TF-IDF值相乘。这里，提供了当有多个簇和多个中心向量时的处理方式，取最大相似值参与上两个技术方案的计算过程。

选取测试文本并标注标签，获取测试文本的关键词及关键词向量和TF-IDF值，计算关键词向量与中心向量的相似度值，并确定平均误差；

在上述技术方案中，提供了第一设定规则和第二设定规则的一种形式，指定测试文本具有唯一的标签，将测试文本采用与公众号文本相同的方法处理，也将测试文本对各标签的权重，将权重与指定的权重比对，获得各标签的误差，计算各误差的平均值。通过第一设定规则和第二设定规则(即基准线)去掉一些有系统误差产生的标签，使得标签分析结果和喜好标签更加准确。

在上述技术方案中，将还为各时间段内的历史已读文本赋予时间权重，时间戳越大，函数值越大，以时间权重将目标用户对各标签的喜好权重加权平均，获得与时间相关的权重，将该权重也系统误差进行比对，留下权重符合规则的标签，作为喜好标签。选择设定时间范围可根据经验或统计规则确定，比如100天。

在另一种技术方案中，所述的基于机器学习的微信公众号推荐算法，使用KMeans算法对关键词向量进行聚类，然后计算各关键词向量轮廓系数，并舍弃轮廓系数低于设定阈值的关键词向量；

在上述技术方案中，提供了优选的聚类算法，主体上采用KMeans算法聚类，然后对聚类结果用轮廓系数进行修正，相比于纯KMeans算法，本方法更能消除系统噪声的影响。轮廓系数在-1至1之间，设定阈值可根据经验或统计分析结果在范围内选择。

数据采集装置，其用于采集公众号文本；

文本处理装置，其用于对公众号文本进行分词；

行为统计装置，其用于记录目标用户的历史行为；

在上述技术方案中，基于与推荐方法相同的发明构思，提供了一种推荐系统，具体过程可参见方法部分的描述。

以下通过一个具体实例进一步说明：

一、确定标签分类：

经济、科技

二、获取样本：

样本1：

上证指数5日高开0.52％，震荡收涨，大盘冲高回落，盘中一度攀上3000点，收盘重新回到3000点以下。截至收盘，上证指数报2985.86点，上涨28.45点，涨0.96％，成交额3402.01亿；深证成指报9783.5点，上涨83.18点，涨0.86％，成交额4573亿，两市合计成交额7975.01亿；两市成交额近8000亿，创逾4个月新高。创业板指报1689.05点，上涨19.64点，涨1.18％，成交额1528.01亿

样本2：

对大多数组织来说，DIY人工智能是遥不可及的事。下面来看看，如何利用现成的人工智能来抵御各种炒作并创造商业价值。人工智能和相关技术有望为企业化腐朽为神奇。核心问题就在于自建还是外购。有些公司将从零开始创建自己的解决方案，但使用商业工具来创建解决方案往往更快，更便宜，而且比自己动手效果更好。由于人工智能技术十分新颖，未经充分地测试，因此，就供应商关系而言，早期采用该技术的公司就有了一定的实力。各大供应商可能愿意实施自定义的配置和集成，提供免费咨询或培训或提供大幅折扣——如果你愿意成为它们津津乐道的成功案例以验证项目的可行性，情况尤其如此。此外，成为初创公司的首批客户(或首次使用成熟供应商的新产品)，这也许能使你影响产品的开发方式。但与人工智能供应商合作并不总是那么愉快。除了与所有的技术供应商合作时都可能出现的常见问题外，在人工智能，机器学习和类似技术方面也存在特定的细微差别。

三、对样本进行分词并过滤停用词：

样本1：

上证指数5日高开0.52％，震荡收涨，大盘冲高回落，盘中一度攀上 3000点，收盘重新回到3000点以下。截至收盘，上证指数报2985.86点，上涨28.45点，涨0.96％，成交额3402.01亿；深证成指报9783.5点，上涨 83.18点，涨0.86％，成交额4573亿，两市合计成交额7975.01亿；两市成交额近8000亿，创逾4个月新高。创业板指报1689.05点，上涨19.64点，涨1.18％，成交额1528.01亿

样本2：

DIY 人工智能遥不可及事利用现成人工智能抵御炒作创造商业价值人工智能相关有望化腐朽为神奇核心建外购公司从零开始创建解决方案商业工具创建解决方案便宜动手效果更好人工智能新颖未经测试供应商关系早期采用公司实力各大供应商实施自定义配置集成免费咨询培训大幅折扣津津乐道成功案例验证可行性情况初创公司首批首次成熟供应商新产品也许影响产品开发方式人工智能供应商合作愉快供应商合作时常见问题外人工智能机器学习类似特定细微差别

四、使用Skip-Gram语言模型训练词向量。

将样本1、2分词后的数据输入到词向量模型训练程序中，即可获得词向量模型。

由于模型训练需要大量的文本数据，这里不适用样例中的样本数据进行训练，直接使用实际训练好的模型。

五、提取关键词：

样本1:

('成交额',0.7911716235089999)

('3000',0.47819070011599996)

('上涨',0.28186588774980004)

('上证指数',0.2760502073788)

('两市',0.244948929946)

('收盘',0.2428737249756)

样本2:

('人工智能',1.319724613324186)

('供应商',0.9057221293569767)

('技术',0.5487740905313954)

('解决方案',0.39850971435860466)

('开发方式',0.29772245030930233)

('公司',0.24442813559860466)

六、通过聚类获取标签的向量集。

将上述关键词集向量化之后，输入到标签训练程序中，获得标签的中心向量集。

与词向量模型类似，此处标签配置使用已有的模型，并不采用样例数据进行训练。

七、文章分析。

通过对样本1，样本2的关键词，使用标签模型进行标签分析，得：

样本1:

实际权重：('经济',0.867735425316238),('科技',0.095348697462481)

标准化后的权重：('经济',1.000),('科技',0.1099)

样本2.

实际权重：('经济',0.075713248516742),('科技',0.884230018634752)

标准化后的权重：('经济',0.086),('科技',1.000)

若模型的基准线设计为0.75，则样本1需要过滤掉“科技”标签，样本2需要过滤掉“经济”标签。即：

样本1的标签为('经济',0.919724613324186)

样本2的标签为('科技',0.884230018634752)

八、用户行为统计与喜好分析：

假设用户A在今日观看了样本1，在上个月观看了样本2。

根据时间衰减函数，样本1的时间权重为0.997，样本2的时间权重为0.101

用户A对时政类的喜好程度为：0.997*0.919724613324186＝0.8651322190402893用户A对科技类的喜好程度为：0.101*0.884230018634752＝0.08930723188211

当前用户关注的分类为“经济”

九、检索时政类文章，并按照权重和时间顺序进行排序，推荐给用户A。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于机器学习的微信公众号推荐算法，其特征在于，包括：

根据目标用户的历史行为确定目标用户的喜好标签；

2.如权利要求1所述的基于机器学习的微信公众号推荐算法，其特征在于，所述历史行为包括目标用户的阅读行为，获取目标用户的历史已读文本，获取关键词及关键词向量，根据关键词向量与中心向量的相似度确定历史已读文本对应的标签，作为喜好标签。

3.如权利要求2所述的基于机器学习的微信公众号推荐算法，其特征在于，获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括：对文本进行分词，用Skip-gram模型将各词语转化为词向量，然后用TF-IDF算法提取关键词，即获得关键词及关键词向量。

4.如权利要求3所述的基于机器学习的微信公众号推荐算法，其特征在于，还包括：

在提取关键词时，计算关键词的TF-IDF值；

计算关键词向量与中心向量的相似度；

5.如权利要求4所述的基于机器学习的微信公众号推荐算法，其特征在于，

6.如权利要求4所述的基于机器学习的微信公众号推荐算法，其特征在于，若获得多个簇，则确定多个簇的中心向量；

7.如权利要求5所述的基于机器学习的微信公众号推荐算法，其特征在于，还包括：

选取测试文本并标注标签，获取测试文本的关键词及关键词向量及TF-IDF值，计算关键词向量与中心向量的相似度值，确定平均误差；

所述第一设定规则包括：将各标签的匹配权重除以最大匹配权重，若所得结果大于1-平均误差，则判断该文本属于该标签；

所述第二设定规则包括：将各标签的喜好权重除以最大喜好权重，若所得结果大于1-平均误差，则将该标签作为喜好标签。

8.如权利要求7所述的基于机器学习的微信公众号推荐算法，其特征在于，还包括：

9.如权利要求1所述的基于机器学习的微信公众号推荐算法，其特征在于，使用KMeans算法对关键词向量进行聚类，然后计算各关键词向量轮廓系数，并舍弃轮廓系数低于设定阈值的关键词向量；

10.基于机器学习的微信公众号推荐系统，其特征在于，包括：

数据采集装置，其用于采集公众号文本；

文本处理装置，其用于对公众号文本进行分词；

行为统计装置，其用于记录目标用户的历史行为；