CN110990711A - 基于机器学习的微信公众号推荐算法及系统 - Google Patents

基于机器学习的微信公众号推荐算法及系统 Download PDF

Info

Publication number
CN110990711A
CN110990711A CN201910392858.XA CN201910392858A CN110990711A CN 110990711 A CN110990711 A CN 110990711A CN 201910392858 A CN201910392858 A CN 201910392858A CN 110990711 A CN110990711 A CN 110990711A
Authority
CN
China
Prior art keywords
label
keyword
public number
text
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910392858.XA
Other languages
English (en)
Other versions
CN110990711B (zh
Inventor
张旭
梁汝锋
张传新
刘春阳
郑阳
刘巨安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Blue Light Wit Network Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Beijing Blue Light Wit Network Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Blue Light Wit Network Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Beijing Blue Light Wit Network Technology Co ltd
Priority to CN201910392858.XA priority Critical patent/CN110990711B/zh
Publication of CN110990711A publication Critical patent/CN110990711A/zh
Application granted granted Critical
Publication of CN110990711B publication Critical patent/CN110990711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了基于机器学习的微信公众号推荐算法,包括:为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;根据目标用户的历史行为确定目标用户的喜好标签;从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。本发明还提供了基于机器学习的微信公众号推荐系统。本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免花费过多时间用于挑选公众号文章。

Description

基于机器学习的微信公众号推荐算法及系统
技术领域
本发明涉及计算机机器学习领域。更具体地说,本发明涉及基于机器学习的微信公众号推荐算法及系统。
背景技术
微信公众平台是现代人们获取社会热点信息、分享知识经验和文字交流的主要手段之一。随着微信用户群体的逐渐扩大,微信公众号的数量也不断增多,各种各样的公众号出现在人们的视野之中,极大的拓宽了人们获取信息的渠道,增加了人们的见闻。
与之相对的,公众号增多带来的负面影响也随之而来。由于公众号本质是一个信息交流分享平台,因此准入门槛并不高,只要通过了基本的认证,任何用户都可以分享自己的任何事物,无论是日常生活、人生经验、官方通告亦或是技术感悟等。这就导致了其内容五花八门,公众号种类繁多,使得人们不得不浪费精力去筛选那些自己想看的,想关注的公众号。因此,除了常规的公众号检索功能以外,公众号智能推荐也显得十分重要。
发明内容
本发明的一个目的是提供基于机器学习的微信公众号推荐算法及系统,其用标签标注和聚类算法获得微信公众号文本的特征标签,并根据用户历史行为推断用户的喜好标签,进而推荐相应的公众号文本给用户,然后可根据推荐的公众号文本为用户推荐对应的公众号。
为了实现根据本发明的这些目的和其它优点,提供了基于机器学习的微信公众号推荐算法,包括:
为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;
采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
根据目标用户的历史行为确定目标用户的喜好标签;
从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。
优选的是,所述的基于机器学习的微信公众号推荐算法,所述历史行为包括目标用户的阅读行为,获取目标用户的历史已读文本,获取关键词及关键词向量,根据关键词向量与中心向量的相似度确定历史已读文本对应的标签,作为喜好标签。
优选的是,所述的基于机器学习的微信公众号推荐算法,获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括:对文本进行分词,用Skip-gram模型将各词语转化为词向量,然后用TF-IDF算法提取关键词,即获得关键词及关键词向量。
优选的是,所述的基于机器学习的微信公众号推荐算法,还包括:
在提取关键词时,计算关键词的TF-IDF值;
计算关键词向量与中心向量的相似度;
其中,以各关键词的TF-IDF值为权值,将公众号文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为公众号文本与该标签的匹配权重,若匹配权重符合第一设定规则,则判断该公众号文本属于该标签。
优选的是,所述的基于机器学习的微信公众号推荐算法,
以各关键词的TF-IDF值为权值,将历史已读文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为目标用户对该标签的喜好权重,若喜好权重符合第二设定规则,则将该标签作为喜好标签。
优选的是,所述的基于机器学习的微信公众号推荐算法,若获得多个簇,则确定多个簇的中心向量;
分别计算关键词向量与各中心向量的相似度值,取最大相似度值与TF-IDF值相乘。
优选的是,所述的基于机器学习的微信公众号推荐算法,还包括:
选取测试文本并标注标签,获取测试文本的关键词及关键词向量和TF-IDF值,计算关键词向量与中心向量的相似度值,确定平均误差;
所述第一设定规则包括:将各标签的匹配权重除以最大匹配权重,若所得结果大于 1-平均误差,则判断该文本属于该标签;
所述第二设定规则包括:将各标签的喜好权重除以最大喜好权重,若所得结果大于 1-平均误差,则将该标签作为喜好标签。
优选的是,所述的基于机器学习的微信公众号推荐算法,还包括:
根据历史已读文本的阅读日期,利用时间衰减函数为历史已读文本分配时间权重;
以时间权重为权值,计算喜好权重在设定时间范围内的加权平均值;
将各标签的喜好权重的加权平均值除以最大加权平均值,若所得结果大于1-平均误差,则将该标签作为喜好标签。
优选的是,所述的基于机器学习的微信公众号推荐算法,使用KMeans算法对关键词向量进行聚类,然后计算各关键词向量轮廓系数,并舍弃轮廓系数低于设定阈值的关键词向量;
所述轮廓系数为簇间不相似度与簇内不相似度的差除以簇间不相似度和簇内不相似度之间的大者;
簇内不相似度为关键词向量至簇内其他关键词向量的平均欧氏距离;
簇间不相似度为关键词向量至到其他簇的关键词向量的平均欧氏距离的最小值。
本发明还提供了基于机器学习的微信公众号推荐系统,包括:
数据采集装置,其用于采集公众号文本;
文本处理装置,其用于对公众号文本进行分词;
模型训练装置,其将经过标签标注的训练文本的关键词向量进行聚类,获得簇,并确定簇的中心向量;
标签分析装置,其根据公众号文本的关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
行为统计装置,其用于记录目标用户的历史行为;
喜好分析装置,其用于根据目标用户的行为,获得喜好标签;
推荐装置,其用于从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。
本发明至少包括以下有益效果:
本发明首先对训练文本进行标注标签,进而对训练文本的关键词向量进行聚类计算,获得与各标签分别对应的特征中心向量。然后提取公众号文本的关键词,并获得关键词向量,计算关键词向量与特征中心向量的相似度,根据相似度确定各公众号文本对应的标签,即获得公众号文本与标签相对应的标签分析结果。随后将目标用户的历史行为也转化为若干喜好标签。最后根据喜好标签从标签分析结果选取相关标签,并据此向目标用户推荐公众号文本。本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免将过多时间用于挑选公众号及公众号文本。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。
在一种技术方案中,如图1所示,基于机器学习的微信公众号推荐算法,包括:
为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;
采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
根据目标用户的历史行为确定目标用户的喜好标签;
从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。
在上述技术方案中,训练文本可以选自公众号,也可以是其它来源,首先对训练文本进行标注标签,比如标注为时政类、经济类等,然后提取训练文本的关键词和关键词向量,对得到的关键词进行聚类,进而得到各簇的中心向量,即将一标签用至少一个中心向量表示。然后采集公众号平台类的公众号文本,基于相同的方法获得关键词和关键词向量,计算各关键词向量与中心向量的相似度,即得到关键词与标签的匹配度,由于各关键词能够代表整个公众号文本,则根据各关键词与标签的匹配度可获得公众号文本与标签的匹配度,根据公众号文本与各标签的匹配度,即可得到公众号文本对应的标签。随后采集目标用户的历史行为,比如评论、点赞或阅读的文本,根据这些历史行为,提取出若干喜好标签。最后,从标签分析结果选取与喜好标签相关的标签,并向目标用户推荐相应的公众号文本。而且可对推荐的公众号文本进行统计,进一步为用户推荐对应的公众号。可以看出,本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免将过多时间用于挑选公众号文章。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,所述历史行为包括目标用户的阅读行为,获取目标用户的历史已读文本,获取关键词及关键词向量,根据关键词向量与中心向量的相似度确定历史已读文本对应的标签,作为喜好标签。这里,提供了获得喜好标签的一种方式,采用与公众号文本相同的处理方式从历史已读文本中提取关键词和关键词向量,并计算与中心向量的相似度,基于与公众号文本相同的处理方式,确定历史已读文本对应的标签,并作为喜好标签。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括:对文本进行分词,用Skip-gram模型将各词语转化为词向量,然后用TF-IDF算法提取关键词,即获得关键词及关键词向量。这里,提供了获得关键词和关键词向量的一种方法,具体地,移除3000多个中文停用词,使用了8种主要的名词性词性作为关键词词性,根据文本的长度,动态的调整关键词的个数。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,还包括:
在提取关键词时,计算关键词的TF-IDF值;
计算关键词向量与中心向量的相似度;
其中,以各关键词的TF-IDF值为权值,将公众号文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为公众号文本与该标签的匹配权重,若匹配权重符合第一设定规则,则判断该公众号文本属于该标签。
在上述技术方案中,TF-IDF值表示了关键词对于公众号文本的区分度大小,值越高,意味着这个词越能代表这篇文章。对于一个公众号文本,首先确定各关键词向量与各标签的中心向量的相似度,然后利用各关键词的TF-IDF值对相似度值进行加权平均,获得公众号文本在各中心向量上的权重,即获得公众号文本对各标签的匹配权重。当一个标签的匹配权重满足经验或统计的范围,则认定该公众号文本属于该标签,将该标签与该公众号文本的对应关系作为标签分析结果。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,
以各关键词的TF-IDF值为权值,将历史已读文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为目标用户对该标签的喜好权重,若喜好权重符合第二设定规则,则将该标签作为喜好标签。这里,提供了获得喜好标签的一种优选方法,即使用与上一技术方案相同的方式获得历史已读文本在各中心向量上的权重,即获得历史已读文本对各标签的权重。当一个标签的权重满足经验或统计的范围,则认定为目标用户的喜好标签。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,若获得多个簇,则确定多个簇的中心向量;
分别计算关键词向量与各中心向量的相似度值,取最大相似度值与TF-IDF值相乘。这里,提供了当有多个簇和多个中心向量时的处理方式,取最大相似值参与上两个技术方案的计算过程。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,还包括:
选取测试文本并标注标签,获取测试文本的关键词及关键词向量和TF-IDF值,计算关键词向量与中心向量的相似度值,并确定平均误差;
所述第一设定规则包括:将各标签的匹配权重除以最大匹配权重,若所得结果大于 1-平均误差,则判断该文本属于该标签;
所述第二设定规则包括:将各标签的喜好权重除以最大喜好权重,若所得结果大于 1-平均误差,则将该标签作为喜好标签。
在上述技术方案中,提供了第一设定规则和第二设定规则的一种形式,指定测试文本具有唯一的标签,将测试文本采用与公众号文本相同的方法处理,也将测试文本对各标签的权重,将权重与指定的权重比对,获得各标签的误差,计算各误差的平均值。通过第一设定规则和第二设定规则(即基准线)去掉一些有系统误差产生的标签,使得标签分析结果和喜好标签更加准确。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,还包括:
根据历史已读文本的阅读日期,利用时间衰减函数为历史已读文本分配时间权重;
以时间权重为权值,计算喜好权重在设定时间范围内的加权平均值;
将各标签的喜好权重的加权平均值除以最大加权平均值,若所得结果大于1-平均误差,则将该标签作为喜好标签。
在上述技术方案中,将还为各时间段内的历史已读文本赋予时间权重,时间戳越大,函数值越大,以时间权重将目标用户对各标签的喜好权重加权平均,获得与时间相关的权重,将该权重也系统误差进行比对,留下权重符合规则的标签,作为喜好标签。选择设定时间范围可根据经验或统计规则确定,比如100天。
在另一种技术方案中,所述的基于机器学习的微信公众号推荐算法,使用KMeans算法对关键词向量进行聚类,然后计算各关键词向量轮廓系数,并舍弃轮廓系数低于设定阈值的关键词向量;
所述轮廓系数为簇间不相似度与簇内不相似度的差除以簇间不相似度和簇内不相似度之间的大者;
簇内不相似度为关键词向量至簇内其他关键词向量的平均欧氏距离;
簇间不相似度为关键词向量至到其他簇的关键词向量的平均欧氏距离的最小值。
在上述技术方案中,提供了优选的聚类算法,主体上采用KMeans算法聚类,然后对聚类结果用轮廓系数进行修正,相比于纯KMeans算法,本方法更能消除系统噪声的影响。轮廓系数在-1至1之间,设定阈值可根据经验或统计分析结果在范围内选择。
本发明还提供了基于机器学习的微信公众号推荐系统,包括:
数据采集装置,其用于采集公众号文本;
文本处理装置,其用于对公众号文本进行分词;
模型训练装置,其将经过标签标注的训练文本的关键词向量进行聚类,获得簇,并确定簇的中心向量;
标签分析装置,其根据公众号文本的关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
行为统计装置,其用于记录目标用户的历史行为;
喜好分析装置,其用于根据目标用户的行为,获得喜好标签;
推荐装置,其用于从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。
在上述技术方案中,基于与推荐方法相同的发明构思,提供了一种推荐系统,具体过程可参见方法部分的描述。
以下通过一个具体实例进一步说明:
一、确定标签分类:
经济、科技
二、获取样本:
样本1:
上证指数5日高开0.52%,震荡收涨,大盘冲高回落,盘中一度攀上3000点,收盘重新回到3000点以下。截至收盘,上证指数报2985.86点,上涨28.45点,涨0.96%,成交额3402.01亿;深证成指报9783.5点,上涨83.18点,涨0.86%,成交额4573亿,两市合计成交额7975.01亿;两市成交额近8000亿,创逾4个月新高。创业板指报1689.05点,上涨19.64点,涨1.18%,成交额1528.01亿
样本2:
对大多数组织来说,DIY人工智能是遥不可及的事。下面来看看,如何利用现成的人工智能来抵御各种炒作并创造商业价值。人工智能和相关技术有望为企业化腐朽为神奇。核心问题就在于自建还是外购。有些公司将从零开始创建自己的解决方案,但使用商业工具来创建解决方案往往更快,更便宜,而且比自己动手效果更好。由于人工智能技术十分新颖,未经充分地测试,因此,就供应商关系而言,早期采用该技术的公司就有了一定的实力。各大供应商可能愿意实施自定义的配置和集成,提供免费咨询或培训或提供大幅折扣——如果你愿意成为它们津津乐道的成功案例以验证项目的可行性,情况尤其如此。此外,成为初创公司的首批客户(或首次使用成熟供应商的新产品),这也许能使你影响产品的开发方式。但与人工智能供应商合作并不总是那么愉快。除了与所有的技术供应商合作时都可能出现的常见问题外,在人工智能,机器学习和类似技术方面也存在特定的细微差别。
三、对样本进行分词并过滤停用词:
样本1:
上证指数5日高开0.52%,震荡收涨,大盘冲高回落,盘中一度攀上 3000点,收盘重新回到3000点以下。截至收盘,上证指数报2985.86点,上涨28.45点,涨0.96%,成交额3402.01亿;深证成指报9783.5点,上涨 83.18点,涨0.86%,成交额4573亿,两市合计成交额7975.01亿;两市成交额近8000亿,创逾4个月新高。创业板指报1689.05点,上涨19.64点,涨1.18%,成交额1528.01亿
样本2:
DIY 人工智能 遥不可及 事 利用 现成 人工智能 抵御 炒作 创造 商业价值人工智能 相关 有望 化腐朽为神奇 核心 建 外购 公司 从零开始 创建 解决方案 商业工具 创建 解决方案 便宜 动手 效果 更好 人工智能 新颖 未经 测试 供应商 关系 早期 采用 公司 实力 各大 供应商 实施 自定义 配置 集成 免费 咨询 培训 大幅 折扣津津乐道 成功 案例 验证 可行性 情况 初创 公司 首批 首次 成熟 供应商 新 产品也许 影响 产品 开发方式 人工智能 供应商 合作 愉快 供应商 合作 时 常见问题 外人工智能 机器 学习 类似 特定 细微差别
四、使用Skip-Gram语言模型训练词向量。
将样本1、2分词后的数据输入到词向量模型训练程序中,即可获得词向量模型。
由于模型训练需要大量的文本数据,这里不适用样例中的样本数据进行训练,直接使用实际训练好的模型。
五、提取关键词:
样本1:
('成交额',0.7911716235089999)
('3000',0.47819070011599996)
('上涨',0.28186588774980004)
('上证指数',0.2760502073788)
('两市',0.244948929946)
('收盘',0.2428737249756)
样本2:
('人工智能',1.319724613324186)
('供应商',0.9057221293569767)
('技术',0.5487740905313954)
('解决方案',0.39850971435860466)
('开发方式',0.29772245030930233)
('公司',0.24442813559860466)
六、通过聚类获取标签的向量集。
将上述关键词集向量化之后,输入到标签训练程序中,获得标签的中心向量集。
与词向量模型类似,此处标签配置使用已有的模型,并不采用样例数据进行训练。
七、文章分析。
通过对样本1,样本2的关键词,使用标签模型进行标签分析,得:
样本1:
实际权重:('经济',0.867735425316238),('科技',0.095348697462481)
标准化后的权重:('经济',1.000),('科技',0.1099)
样本2.
实际权重:('经济',0.075713248516742),('科技',0.884230018634752)
标准化后的权重:('经济',0.086),('科技',1.000)
若模型的基准线设计为0.75,则样本1需要过滤掉“科技”标签,样本2需要过滤掉“经济”标签。即:
样本1的标签为('经济',0.919724613324186)
样本2的标签为('科技',0.884230018634752)
八、用户行为统计与喜好分析:
假设用户A在今日观看了样本1,在上个月观看了样本2。
根据时间衰减函数,样本1的时间权重为0.997,样本2的时间权重为0.101
用户A对时政类的喜好程度为:0.997*0.919724613324186=0.8651322190402893用户A对科技类的喜好程度为:0.101*0.884230018634752=0.08930723188211
当前用户关注的分类为“经济”
九、检索时政类文章,并按照权重和时间顺序进行排序,推荐给用户A。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (10)

1.基于机器学习的微信公众号推荐算法,其特征在于,包括:
为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;
采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
根据目标用户的历史行为确定目标用户的喜好标签;
从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。
2.如权利要求1所述的基于机器学习的微信公众号推荐算法,其特征在于,所述历史行为包括目标用户的阅读行为,获取目标用户的历史已读文本,获取关键词及关键词向量,根据关键词向量与中心向量的相似度确定历史已读文本对应的标签,作为喜好标签。
3.如权利要求2所述的基于机器学习的微信公众号推荐算法,其特征在于,获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括:对文本进行分词,用Skip-gram模型将各词语转化为词向量,然后用TF-IDF算法提取关键词,即获得关键词及关键词向量。
4.如权利要求3所述的基于机器学习的微信公众号推荐算法,其特征在于,还包括:
在提取关键词时,计算关键词的TF-IDF值;
计算关键词向量与中心向量的相似度;
其中,以各关键词的TF-IDF值为权值,将公众号文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为公众号文本与该标签的匹配权重,若匹配权重符合第一设定规则,则判断该公众号文本属于该标签。
5.如权利要求4所述的基于机器学习的微信公众号推荐算法,其特征在于,
以各关键词的TF-IDF值为权值,将历史已读文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为目标用户对该标签的喜好权重,若喜好权重符合第二设定规则,则将该标签作为喜好标签。
6.如权利要求4所述的基于机器学习的微信公众号推荐算法,其特征在于,若获得多个簇,则确定多个簇的中心向量;
分别计算关键词向量与各中心向量的相似度值,取最大相似度值与TF-IDF值相乘。
7.如权利要求5所述的基于机器学习的微信公众号推荐算法,其特征在于,还包括:
选取测试文本并标注标签,获取测试文本的关键词及关键词向量及TF-IDF值,计算关键词向量与中心向量的相似度值,确定平均误差;
所述第一设定规则包括:将各标签的匹配权重除以最大匹配权重,若所得结果大于1-平均误差,则判断该文本属于该标签;
所述第二设定规则包括:将各标签的喜好权重除以最大喜好权重,若所得结果大于1-平均误差,则将该标签作为喜好标签。
8.如权利要求7所述的基于机器学习的微信公众号推荐算法,其特征在于,还包括:
根据历史已读文本的阅读日期,利用时间衰减函数为历史已读文本分配时间权重;
以时间权重为权值,计算喜好权重在设定时间范围内的加权平均值;
将各标签的喜好权重的加权平均值除以最大加权平均值,若所得结果大于1-平均误差,则将该标签作为喜好标签。
9.如权利要求1所述的基于机器学习的微信公众号推荐算法,其特征在于,使用KMeans算法对关键词向量进行聚类,然后计算各关键词向量轮廓系数,并舍弃轮廓系数低于设定阈值的关键词向量;
所述轮廓系数为簇间不相似度与簇内不相似度的差除以簇间不相似度和簇内不相似度之间的大者;
簇内不相似度为关键词向量至簇内其他关键词向量的平均欧氏距离;
簇间不相似度为关键词向量至到其他簇的关键词向量的平均欧氏距离的最小值。
10.基于机器学习的微信公众号推荐系统,其特征在于,包括:
数据采集装置,其用于采集公众号文本;
文本处理装置,其用于对公众号文本进行分词;
模型训练装置,其将经过标签标注的训练文本的关键词向量进行聚类,获得簇,并确定簇的中心向量;
标签分析装置,其根据公众号文本的关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
行为统计装置,其用于记录目标用户的历史行为;
喜好分析装置,其用于根据目标用户的行为,获得喜好标签;
推荐装置,其用于从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。
CN201910392858.XA 2019-05-13 2019-05-13 基于机器学习的微信公众号推荐方法及系统 Active CN110990711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910392858.XA CN110990711B (zh) 2019-05-13 2019-05-13 基于机器学习的微信公众号推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910392858.XA CN110990711B (zh) 2019-05-13 2019-05-13 基于机器学习的微信公众号推荐方法及系统

Publications (2)

Publication Number Publication Date
CN110990711A true CN110990711A (zh) 2020-04-10
CN110990711B CN110990711B (zh) 2023-05-12

Family

ID=70081633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910392858.XA Active CN110990711B (zh) 2019-05-13 2019-05-13 基于机器学习的微信公众号推荐方法及系统

Country Status (1)

Country Link
CN (1) CN110990711B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239006A (zh) * 2021-05-12 2021-08-10 中国联合网络通信集团有限公司 日志检测模型的生成方法和装置、日志检测方法和装置
CN114996561A (zh) * 2021-03-02 2022-09-02 腾讯科技(深圳)有限公司 一种基于人工智能的信息推荐方法及装置
CN115964658A (zh) * 2022-10-11 2023-04-14 北京睿企信息科技有限公司 一种基于聚类的分类标签更新方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN106126669A (zh) * 2016-06-28 2016-11-16 北京邮电大学 基于标签的用户协同过滤内容推荐方法及装置
CN106649616A (zh) * 2016-11-30 2017-05-10 四川用联信息技术有限公司 一种聚类算法实现搜索引擎关键词优化
CN107341199A (zh) * 2017-06-21 2017-11-10 北京林业大学 一种基于文献信息共性模式的推荐方法
CN107729488A (zh) * 2017-10-17 2018-02-23 北京搜狐新媒体信息技术有限公司 一种信息推荐方法及装置
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
WO2018157818A1 (zh) * 2017-03-02 2018-09-07 广州市动景计算机科技有限公司 用户偏好的推测方法、装置、终端设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN106126669A (zh) * 2016-06-28 2016-11-16 北京邮电大学 基于标签的用户协同过滤内容推荐方法及装置
CN106649616A (zh) * 2016-11-30 2017-05-10 四川用联信息技术有限公司 一种聚类算法实现搜索引擎关键词优化
WO2018157818A1 (zh) * 2017-03-02 2018-09-07 广州市动景计算机科技有限公司 用户偏好的推测方法、装置、终端设备及存储介质
CN107341199A (zh) * 2017-06-21 2017-11-10 北京林业大学 一种基于文献信息共性模式的推荐方法
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN107729488A (zh) * 2017-10-17 2018-02-23 北京搜狐新媒体信息技术有限公司 一种信息推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙国欣: ""基于主动学习的中文文本分类"", 《CNKI》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996561A (zh) * 2021-03-02 2022-09-02 腾讯科技(深圳)有限公司 一种基于人工智能的信息推荐方法及装置
CN114996561B (zh) * 2021-03-02 2024-03-29 腾讯科技(深圳)有限公司 一种基于人工智能的信息推荐方法及装置
CN113239006A (zh) * 2021-05-12 2021-08-10 中国联合网络通信集团有限公司 日志检测模型的生成方法和装置、日志检测方法和装置
CN115964658A (zh) * 2022-10-11 2023-04-14 北京睿企信息科技有限公司 一种基于聚类的分类标签更新方法及系统
CN115964658B (zh) * 2022-10-11 2023-10-20 北京睿企信息科技有限公司 一种基于聚类的分类标签更新方法及系统

Also Published As

Publication number Publication date
CN110990711B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
Muangkammuen et al. Automated thai-faq chatbot using rnn-lstm
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN107861951A (zh) 智能客服中的会话主题识别方法
CN110162700A (zh) 信息推荐及模型的训练方法、装置、设备以及存储介质
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN103123633A (zh) 评价参数的生成方法以及基于评价参数的信息搜索方法
CN110990711A (zh) 基于机器学习的微信公众号推荐算法及系统
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN109597747A (zh) 一种基于多目标优化算法nsga-ⅱ推荐跨项目关联缺陷报告的方法
CN112528031A (zh) 一种工单智能派发方法和系统
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN115544252A (zh) 一种基于注意力静态路由胶囊网络的文本情感分类方法
Upadhya et al. Deep neural network models for question classification in community question-answering forums
CN110287495A (zh) 一种电力营销专业词识别方法及系统
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
KR100842216B1 (ko) 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
CN108304568A (zh) 一种房地产公众预期大数据处理方法及系统
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Spichakova et al. Application of Machine Learning for Assessment of HS Code Correctness.
CN115659961A (zh) 用于提取文本观点的方法、装置以及计算机存储介质
CN115048503A (zh) 一种基于内容分析的用户偏好标签设计方法
CN109754000A (zh) 一种基于依赖度的半监督多标签分类方法
CN110569495A (zh) 一种基于用户评论的情感倾向分类方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant