CN111460251A - 数据内容个性化推送冷启动方法、装置、设备和存储介质 - Google Patents
数据内容个性化推送冷启动方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111460251A CN111460251A CN202010162324.0A CN202010162324A CN111460251A CN 111460251 A CN111460251 A CN 111460251A CN 202010162324 A CN202010162324 A CN 202010162324A CN 111460251 A CN111460251 A CN 111460251A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- topic
- preset
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据领域中的数据分析技术领域,尤其涉及一种数据内容个性化推送冷启动方法、装置、设备和存储介质。该方法包括:从外部网络中获取新闻数据,对新闻数据进行清洗、统一格式和过滤重复数据,得到多篇新闻数据;获取多篇预置数据,将预置数据和新闻数据作为多篇待导入数据预测话题标签;待导入数据导入搜索服务器,将导入的所有数据及对应的话题标签进行倒排索引处理;获取用户输入的字段,根据字段在搜索服务器中进行搜索,得到搜索结果;对搜索结果进行个性化排序后推送给用户。本发明在缺少用户行为数据或业务系统单一的情况下,只需用户输入字段,即可匹配出搜索结果。
Description
技术领域
本发明涉及大数据领域中的数据分析技术领域,尤其涉及一种数据内容个性化推送冷启动方法、装置、设备和存储介质。
背景技术
个性化数据内容的推送是大数据领域的重要方向,对于大多数的电商或者内容(新闻、视频、图片)系统来说这是一种必要的技术。在现有产业内推送应用中,大多数都必须有大量用户的历史行为和兴趣的数据,来预测用户未来的行为和兴趣。但是对于缺少这些数据的情况下,即推送的冷启动情况下,对于个性化数据内容推送带来了困难,现有解决冷启动的方式有如下几种:
1)基于人工规则与专家系统,依靠人对某一领域了解后进行梳理和拟写规则,在冷启动的时候进行硬规则的匹配以获取推送的候选信息,此方式需要占用大量的人工。
2)利用用户在其他地方已经沉淀的数据进行冷启动。在一些大规模型公司的产品,通过各大产品打通的日志系统,提取用户的行为特征去确定用户行为数据。但对于业务系统单一或小规模型公司来说并没有关联数据或系统的情况下难以实现推送的冷启动。
3)制造选项,让用户选择自己感兴趣的点后,即时生成粗粒度的推送。相对前面两个来说,路径不够自然,需要用户提前选择,用户体验相对较差。
发明内容
有鉴于此,有必要针对现有的解决冷启动的内容推送方式不理想的问题,提供一种数据内容个性化推送冷启动方法、装置、设备和存储介质。
一种数据内容个性化推送冷启动方法,包括:
定期从外部网络中获取多篇新闻数据,对每篇所述新闻数据进行清洗后存入数据库中,定期从所述数据库中取出更新的新闻数据,将所述新闻数据统一格式和过滤重复数据,得到多篇新闻数据;
定期获取多篇预置数据,将多篇所述预置数据和多篇所述新闻数据作为多篇待导入数据分别通过预设的预测模型预测话题标签,将每个所述待导入数据分别标记对应的所述话题标签;
调用预设的搜索服务器,将所述待导入数据导入所述搜索服务器,通过所述搜索服务器将导入的所有数据及对应的话题标签进行倒排索引处理;
获取用户输入的字段,判断所述字段是否为话题标签,若是话题标签,则根据所述字段直接在所述搜索服务器中进行搜索,得到搜索结果,否则,对所述字段通过所述预测模型预测目标标签,根据所述目标标签在所述搜索服务器中进行搜索,得到搜索结果;
对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户。
一种可能的设计中,所述对所述字段通过所述预测模型预测目标标签,包括:
对所述字段进行分词处理,得到多个分词,对多个分词通过与预设的中文停用词表进行对比,去除停用词;
调用预设的词向量模型,通过所述词向量模型将多个所述分词转换为多个词向量值;
调用预设的分类器模型,通过所述分类器模型对多个所述词向量值预测出目标标签。
一种可能的设计中,所述对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户,包括:
对所有的所述搜索结果通过预设的个性化模型进行预测,得到每个所述搜索结果对应的概率值;
获取用户标签,根据用户标签对每个所述搜索结果对应的概率值进行加权,得到加权后的匹配值;
剔除所述匹配值小于等于零的搜索结果后,以所述匹配值的升序对多个搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户。
一种可能的设计中,所述获取用户标签,根据用户标签对每个所述搜索结果对应的概率值进行加权,得到加权后的匹配值,包括:
对所述数据库中所有的新闻数据的标题生成句向量;
对多个所述句向量进行聚类,把相似的内容聚到一起,形成多个类型;
获取用户对新闻数据的点击记录,计算用户对于每种类型的新闻数据的点击总数,将点击总数乘以预设的系数,得到任一类型对应的相似度;
获取搜索结果对应的类型,根据所述类型对应的所述相似度对加权后的匹配值再次进行加权,得到加权后的匹配值。
一种可能的设计中,在所述对所有的所述搜索结果通过预设的个性化模型进行预测,得到每个所述搜索结果对应的概率值之前,还包括:
获取x个类别的训练样本,所述训练样本包括多个类别的新闻数据及用户点击所述新闻数据的用户历史行为数据,从每个类别的训练样本中随机抽取x个样本作为支撑集,从x个类别的剩余样本中抽取n个样本作为查询集;
将所述支撑集和所述查询集输入预设的左右对称的孪生网络中,得到任一新闻数据对于任一用户的概率值。
一种可能的设计中,所述对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户,包括:
对所述搜索结果进行个性化排序后,获取排在最高的搜索结果的话题标签,查找所述话题标签对应的关联话题标签;
根据所述关联话题标签在所述搜索服务器中进行搜索,得到所述关联话题标签对应的多个关联结果,将多个所述关联结果排列在所述搜索结果之后一起推送给用户。
一种可能的设计中,所述查找所述话题标签对应的关联话题标签,包括:
获取用户历史点击数据,将多个新闻数据对应的话题标签与用户历史点击数据进行统计,生成统计表;
在所述统计表中,对每个话题标签计算与其他话题标签的相关性;
判断两个话题标签的相关性是否大于预设的关联阈值,若大于所述关联阈值,则将两个话题标签进行关联。
一种数据内容个性化推送冷启动装置,包括:
采集新闻数据模块,用于定期从外部网络中获取多篇新闻数据,对每篇所述新闻数据进行清洗后存入数据库中,定期从所述数据库中取出更新的新闻数据,将所述新闻数据统一格式和过滤重复数据,得到多篇新闻数据;
标记话题标签模块,用于定期获取多篇预置数据,将多篇所述预置数据和多篇所述新闻数据作为多篇待导入数据分别通过预设的预测模型预测话题标签,将每个所述待导入数据分别标记对应的所述话题标签;
生成索引模块,用于调用预设的搜索服务器,将所述待导入数据导入所述搜索服务器,通过所述搜索服务器将导入的所有数据及对应的话题标签进行倒排索引处理;
搜索模块,用于获取用户输入的字段,判断所述字段是否为话题标签,若是话题标签,则根据所述字段直接在所述搜索服务器中进行搜索,得到搜索结果,否则对所述字段通过所述预测模型预测目标标签后,根据所述目标标签在所述搜索服务器中进行搜索,得到搜索结果;
个性化排序及推送模块,用于对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述数据内容个性化推送冷启动方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述数据内容个性化推送冷启动方法的步骤。
上述数据内容个性化推送冷启动方法、装置、设备和存储介质,包括定期从外部网络中获取多篇新闻数据,对每篇所述新闻数据进行清洗后存入数据库中,定期从所述数据库中取出更新的新闻数据,将所述新闻数据统一格式和过滤重复数据,得到多篇新闻数据;定期获取多篇预置数据,将多篇所述预置数据和多篇所述新闻数据作为多篇待导入数据分别通过预设的预测模型预测话题标签,将每个所述待导入数据分别标记对应的所述话题标签;调用预设的搜索服务器,将所述待导入数据导入所述搜索服务器,通过所述搜索服务器将导入的所有数据及对应的话题标签进行倒排索引处理;获取用户输入的字段,判断所述字段是否为话题标签,若是话题标签,则根据所述字段直接在所述搜索服务器中进行搜索,得到搜索结果,否则,对所述字段通过所述预测模型预测目标标签,根据所述目标标签在所述搜索服务器中进行搜索,得到搜索结果;对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户。本发明在缺少用户行为数据或业务系统单一的情况下,数据源采用外部网络中的大量新闻数据,结合业务系统本身的预置数据一起,生成索引和话题标签,只需用户输入字段,即可匹配出搜索结果。本发明还结合少量的用户历史行为数据,通过个性化排序对搜索结果进行排序,推送的新闻数据更能符合用户需求,降低用户流失率,提升信任感。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明一个实施例中的数据内容个性化推送冷启动方法的流程图;
图2为本发明一个实施例中左右对称的孪生网络的网络结构图;
图3为本发明一个实施例中数据内容个性化推送冷启动装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本发明一个实施例中的数据内容个性化推送冷启动方法的流程图,如图1所示,一种数据内容个性化推送冷启动方法,包括以下步骤:
步骤S1,采集新闻数据:定期从外部网络中获取多篇新闻数据,对每篇新闻数据进行清洗后存入数据库中,定期从数据库中取出更新的新闻数据,将新闻数据统一格式和过滤重复数据,得到多篇新闻数据。
在从外部网络中获取新闻数据时,可以通过分布式爬虫技术,采用多个爬虫算法,每天从指定的外部网络中分别爬取不同的数据。例如一个爬虫爬取今日头条下的体育类新闻,另一个爬虫爬取今日头条下的财经新闻。通过分布式爬虫技术,能更快速、准确的爬取更多类别的新闻数据。
在爬虫算法爬取大量新闻数据后,还对每篇新闻数据按预设的规则进行清洗。由于爬取的行为数据内容比较复杂,在爬取时,一般会多网页上的大量超文本标记语言内容都一起爬取下来,因此需要根据预设的正则表达式对获取的新闻数据进行清洗,还根据爬取的位置和预设的关键词库去除其他不相关内容。在对新闻数据进行清洗时,也采用定期清洗方式,一般的周期为一周,清洗完成后,为每个新闻数据配置一个ID,初始时,预设一个初始ID,后续以ID+1配置新的ID,在配置好ID后,还对新闻数据添加标题。爬取后的标题主要为“xxx名称-xxxxx正确标题_来源——【类别】”这种格式。标题的噪音主要是以‘-’、‘——’、‘【】’、‘_’等标点分隔符加上的文章来源、公众号、类别等噪音信息。因此去除噪音信息后,新闻数据可得到较为准确的标题。将清洗且添加标题后的新闻数据存入关系型数据库中作为数据源待用。
从数据库中每次取出新闻数据时,都记录一次当前取出的新闻数据的ID,在确定哪些是更新的新闻数据时,只需查看上次获取数据时最后的ID,从ID+1开始取出的新闻数据为更新后的新闻数据。优选取数据的周期与清洗周期一致。在对数据进行统一格式时,根据不同来源爬取的新闻数据,统一成相同的格式。过滤重复数据时,将所有的新闻数据进行比对,过滤掉重复的数据,最终得到大量的新闻数据。
步骤S2,标记话题标签:定期获取多篇预置数据,将多篇预置数据和多篇新闻数据作为多篇待导入数据分别通过预设的预测模型预测话题标签,将每个待导入数据分别标记对应的话题标签。
待导入数据不仅包括从外部网络中爬取的新闻数据,还包括业务系统自身收集的预置数据,这些待导入数据共同作为用户搜索用的数据源。本步骤在采集到这些数据源后,还将这些待导入数据对应的话题标签也作为搜索时用的关键词加入搜索的数据结构中。本步骤通过预设的预测模型得到每个待导入数据各自对应的话题标签。
步骤S3,生成索引:调用预设的搜索服务器,将待导入数据导入搜索服务器,通过搜索服务器将导入的所有数据及对应的话题标签进行倒排索引处理。
搜索服务器可以是ES(Elastic Search)搜索引擎,将待导入数据通过搜索服务器的异步数据处理接口(bulk API)导入搜索服务器。通过搜索服务器进行倒排索引处理的过程如下:
对导入的所有数据进行分词,分词时采用结巴分词工具的python工具包,分词后去除停用词,得到多个关键词,将数据对应到关键词的映射转换为关键词到数据的映射,得到关键词-数据矩阵的数据结构,实现倒排索引。
例如,文档1:中国U13国少夺冠!中国足球未来的希望;文档2:中国女足第一个杀进2019女足世界杯。
分词后变为:
文档1:中国/U13/国少/夺冠/!/中国/足球/未来/的/希望
文档2:中国/女足/第一个/杀进/2019/女足/世界杯
倒排索引后变为:
中国:文档1,文档2
U13:文档1
国少:文档1
夺冠:文档1
足球:文档1
未来:文档1
希望:文档1
女足:文档2
第一个:文档2
杀进:文档2
2019:文档2
世界杯:文档2
当用户在搜索服务器中输入字段“中国”进行搜索时,文档1与文档2都会被搜索出来,当用户在搜索服务器中输入字段“女足”时,只有文档2能被搜索出来。
本步骤还对导入的数据获取其对应的话题标签,将话题标签也作为关键词,加入关键词-数据矩阵的数据结构中。例如,文档1与文档2都是体育新闻,通过预测模型预测后,得到文档1和文档2的话题标签均为“体育”,则在索引里加入“体育”,这样即使文档1和文档2的标题和内容中都没有体育这两个字,用户输入字段“体育”时也能搜索到文档1与文档2。
步骤S4,判断及搜索:获取用户输入的字段,判断字段是否为话题标签,若是话题标签,则根据字段直接在搜索服务器中进行搜索,得到搜索结果,否则,对字段通过预测模型预测目标标签,根据目标标签在搜索服务器中进行搜索,得到搜索结果。
用户输入的字段有两种方式,包括句子或者话题类别的词。本步骤在获取到字段后,首先通过字段与话题标签表进行比较,判断字段是否为话题类别的词。话题标签表可以是在通过预测模型对所有的数据进行预测,对预测得到的话题标签进行记录后得到的记录表,在采用预测模型每次进行预测后,都需要更新此话题标签表。
若用户输入的字段是话题标签,由于话题标签也作为关键字加入于搜索服务器的关键词-数据矩阵的数据结构中,因此此时可直接在搜索服务器中搜索话题标签后,返回该话题标签下对应的所有数据。如用户输入字段“体育”,则直接返回以体育的话题标签为索引的搜索结果。
若用户输入的字段不是话题标签,则认为字段是句子,此时需要预测字段的目标标签,预测时,采用的方式与步骤S2中预测话题标签相同的预测模型,得到字段对应的目标标签后,将目标标签作为关键词,在搜索服务器中进行搜索,得到搜索结果。
在一个实施例中,步骤S4中,对字段通过预测模型预测目标标签,包括:
步骤S401,对字段进行分词处理,得到多个分词,对多个分词通过与预设的中文停用词表进行对比,去除停用词。
由于新闻数据或预置数据通常为中文文档,因此采用分词工具,如结巴分词工具来对新闻数据或预置数据进行分词处理,得到多个分词。停用词如“的”,“你”,“我”,“他”等,通过与预设的中文停用词表比对后去除多个分词中的停用词。
步骤S402,调用预设的词向量模型,通过词向量模型将多个分词转换为多个词向量值。
通过预设的词向量模型,如BOW词袋模型、Word2vec词向量模型、bert模型等将分词转换为词向量值,用于模型的训练和预测。
步骤S403,调用预设的分类器模型,通过分类器模型对多个词向量值预测出目标标签。
在采用分类器模型进行预测前,先对此分类器模型进行训练,训练时采集一批带话题内容的新闻数据和数据所带的话题标签。初始化分类器模型后,将新闻数据通过步骤S401和步骤S402处理后输入分类器模型中,得到目标标签,将得到的目标标签与采集的话题标签进行比较,不断调整分类器模型的参数,最终得到训练后的分类器模型。本步骤采用训练后的分类器模型去预测某一待导入数据的目标标签。
本实施例通过上述预测模型对用户输入的字段进行预测,可得到较为精确的目标标签,这些目标标签作为关键词,加入到后续搜索索引中,可以使得后续在搜索时,可实现通过目标标签快速搜索的目的。
步骤S5,个性化排序及推送:对搜索结果进行个性化排序,将排序后的搜索结果推送给用户。
在得到多个搜索结果后,还需要预测多个搜索结果是否是用户需要的结果,此时需要通过个性化模型对多个搜索结果进行预测后排序。
在一个实施例中,步骤S5,包括:
步骤S501,对所有的搜索结果通过预设的个性化模型进行预测,得到每个搜索结果对应的概率值。
本步骤中的个性化模型是一个二分类模型,且对于不同的用户对应有不同的个性化模型,通过个性化模型可得到某一数据对于用户是否感兴趣的概率值。
在使用本步骤中的个性化模型前,还对个性化模型进行了训练:
步骤S50101,获取x个类别的训练样本,训练样本包括多个类别的新闻数据及用户点击新闻数据的用户历史行为数据,从每个类别的训练样本中随机抽取x个样本作为支撑集,从x个类别的剩余样本中抽取n个样本作为查询集。
训练样本为不同类别的数据新闻,由多个非算法相关人员进行标注,且对多个新闻数据根据自己喜好进行点击查看,以日志的形式记录这些用户历史行为数据。类别是指‘用户id_感兴趣话题’两个字段共同组成,即需要预测用户对哪个话题标签下的新闻数据是否感兴趣。
步骤S50102,将支撑集和查询集输入预设的左右对称的孪生网络中,得到任一新闻数据对于任一用户的概率值。
本步骤中的左右对称的孪生网络采用如图2所示的网络结构:
左右对称的孪生网络包括用于输入支撑集的支撑集输入层、用于输入查询集的查询集输入层,支撑集输入层和查询集输入层共享向量化层(embedding层)和门控循环单元层(gru层);左右对称的孪生网络包括传统支撑集输入层、传统查询集输入层,传统支撑集输入层和传统查询集输入层,用于输入用户相关特征和新闻数据特征,用户相关特征包括用户历史行为数据,用户已有标签等,新闻数据特征包括新闻数据的话题标签,预测后添加的话题标签等;左右对称的孪生网络包括支撑集融合层、查询集融合层,支撑集融合层用于将传统支撑集输入层与gru层输出的支撑集进行融合,得到融合后的支撑集;查询集融合层用于将传统查询集输入层与gru层输出的查询集进行融合,得到融合后的查询集;左右对称的孪生网络包括向量相减层、全连接层,向量相减层将融合后的支撑集和融合后的查询集进行向量相减后连接全连接层,通过全连接层输出支撑集和查询集对应的样本是否为同一类,及是同一类的概率值。
全连接层采用的分类器优选roc-auc二值分类器模型,在采用roc-auc模型对支撑集和查询集进行配对时,只考虑支撑集内的正样本与查询样本的配对,并将正样本中匹配度最高的概率值预测为正样本的概率输出,这样就可以较为方便的计算roc-auc,并且调整阈值获取不同要求的分类器。其中,支撑集内的正样本是指用户自己点击后对应的新闻数据,认为用户点击后的新闻数据即为用户感兴趣的新闻数据,可从记录的用户历史行为数据中确定哪些是正样本。当步骤S4中获取了用户输入字段,后续展示多个推送的搜索结果后,若产生了用户行为,则还可以将此用户对应的用户行为作为支撑集,实时利用新的数据,提升个性化模型的效果。
步骤S502,获取用户标签,根据用户标签对每个搜索结果对应的概率值进行加权,得到加权后的匹配值。
在得到每个搜索结果的概率值后,本步骤还获取了用户标签,根据用户标签对多个搜索结果的概率值进行加权,得到加权后的匹配值。其中,用户标签中的一部分是用户在注册时的设置,如喜欢的领域、年龄、性别等。还有一部分是记录的用户历史行为数据。例如,当用户年龄是10岁时,若在多个搜索结果中具有‘母婴’话题标签,则加权值为零,即剔除掉。当用户对于某一话题下的点击记录较多,则此话题下的搜索结果权重较大,则通过加权的方式体现。
本步骤在排序之前,还获取每个搜索结果的类型,根据类型对应的相似度进行再次加权:
步骤S50201,对数据库中所有的新闻数据的标题生成句向量。
在生成句向量时,采用预设的bert句向量模型,对于传统的句向量生成方式,更多的是采用word2vec词向量模型等生成的词向量(word embedding)的方式取加权平均,该方法无法理解上下文的语义,同一个词在不同的语境意思可能不一样,但是却会被表示成同样的词向量,bert句向量模型生成句向量的优点在于可理解句意,并且排除了词向量加权引起的误差。
步骤S50202,对多个句向量进行聚类,把相似的内容聚到一起,形成多个类型。
在进行聚类时,采用预设的Kmeans聚类算法,该算法是一种无监督学习算法,对于给定的多个句向量,按照句向量之间的距离大小,将多个句向量划分为K个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。划分出的K个簇,即为K个类型。
步骤S50203,获取用户对新闻数据的点击记录,计算用户对于每种类型的新闻数据的点击总数,将点击总数乘以预设的系数,得到任一类型对应的相似度。
通过用户历史行为数据得到每个类型的相似度,相似度越高认为用户对该类新闻数据越感兴趣。高相似度的新闻类型将会被赋予高权重,用于后续个性化推荐的排序中。
步骤S50204,获取搜索结果对应的类型,根据类型对应的相似度对加权后的匹配值再次进行加权,得到加权后的匹配值。
本步骤在排序之前,还获取每个新闻数据的类型,根据类型对应的相似度进行再次加权,得到加权后的匹配值。本步骤进行两次加权,以得到更为精确的匹配值,便于后续根据匹配值来进行排序,确定用户所需数据。
步骤S503,剔除匹配值小于等于零的搜索结果后,以匹配值的升序对多个搜索结果进行个性化排序,将排序后的搜索结果推送给用户。
匹配值小于等于零的搜索结果被认为是用户不感兴趣的数据,因此需要对这些数据进行剔除,留下的搜索结果中,以匹配值升序进行排序后,推送给用户查看。
本实施例通过个性化模型对所有搜索结果进行预测得到概率值,以概率值加权搜索结果,得到匹配值。通过各搜索结果对应类型的相似度,对搜索结果进一步加权,得到新的匹配值。通过两次加权,充分考虑了用户的历史行为数据及各新闻数据之间的相似性,可得到较为准确的排序结果。特别的,本实施例采用了左右对称的孪生网络,针对单一的业务系统得到少量的用户历史行为数据,能快速得到用户对于任一新闻数据的概率值,使得本实施例实现了只需少量的用户历史行为数据,即可快速实现个性化推送,无需等待累计了大量的行为数据才可体验到个性化推送带来的便利。
在一个实施例中,步骤S5中,对搜索结果进行个性化排序,将排序后的搜索结果推送给用户,包括:
步骤S511,对搜索结果进行个性化排序后,获取排在最高的搜索结果的话题标签,查找话题标签对应的关联话题标签。
排在最高的搜索结果被认为是用户最感兴趣的数据,因此对此数据对应的话题标签查找对应的关联话题标签,用于将关联话题标签对应的新闻数据一起推送给用户。在查找话题标签对应的关联话题标签前,需要预先将所有的话题标签进行关联:
步骤S51101,获取用户历史点击数据,将多个新闻数据对应的话题标签与用户历史点击数据进行统计,生成统计表。
用户历史点击数据可以是历史推送搜索结果后,用户对于任一搜索结果的历史点击数据。也可以是在步骤S1爬取新闻数据时,也同时爬取用户点击、留言或点赞数据,统一为用户历史点击数据。还可以是业务系统记录的用户历史点击某一预置数据的数据。对这些用户历史点击数据进行处理后,得到例如下表1所示的统计表。
表1
步骤S51102,在统计表中,对每个话题标签计算与其他话题标签的相关性。
在计算相关性时,采用关联规则算法(the apriori algorithm)计算统计表中每个话题标签与其他话题标签之间的置信度,置信度即为相关性。
步骤S51103,判断两个话题标签的相关性是否大于预设的关联阈值,若大于关联阈值,则将两个话题标签进行关联。
例如上表1中,话题标签1与话题标签4的相关性比较高,则话题标签1与话题标签4进行关联。
步骤S512,根据关联话题标签在搜索服务器中进行搜索,得到关联话题标签对应的多个关联结果,将多个关联结果排列在搜索结果之后一起推送给用户。
例如当匹配值最高的话题标签是话题标签1时,查找到话题标签1对应的关联话题标签是话题标签4,则将话题标签4在搜索服务器中进行搜索,得到话题标签4下的多个新闻数据,可选取部分,如点击率较高的多个新闻数据,排列在推送数据之后,作为关联数据一起返回给用户。
本实施例通过关联话题标签的形式,将与匹配值最高的搜索结果对应的关联结果也一起推送给用户,丰富推送内容,提升用户的好感度。
本实施例数据内容个性化推送冷启动方法,数据源采用网络爬虫爬取,对大量数据源进行处理,生成索引和话题标签。对用户输入的字段,与索引和话题标签进行匹配,结合用户历史行为记录,通过个性化模型对匹配结果进行排序,实现个性化推送。上述方式,只需少量的用户历史行为,就能快速实现个性化推送,无需等待累计了大量的个人行为才可体验到个性化搜索结果带来的便利。还可以快速提升用户对数据推送的好感度,大大降低用户流失率,提升用户信任感。
在一个实施例中,提出了一种数据内容个性化推送冷启动装置,如图3所示,包括:
采集新闻数据模块,用于定期从外部网络中获取多篇新闻数据,对每篇新闻数据进行清洗后存入数据库中,定期从数据库中取出更新的新闻数据,将新闻数据统一格式和过滤重复数据,得到多篇新闻数据;
标记话题标签模块,用于定期获取多篇预置数据,将多篇预置数据和多篇新闻数据作为多篇待导入数据分别通过预设的预测模型预测话题标签,将每个待导入数据分别标记对应的话题标签;
生成索引模块,用于调用预设的搜索服务器,将待导入数据导入搜索服务器,通过搜索服务器将导入的所有数据及对应的话题标签进行倒排索引处理;
搜索模块,用于获取用户输入的字段,判断字段是否为话题标签,若是话题标签,则根据字段直接在搜索服务器中进行搜索,得到搜索结果,否则对字段通过预测模型预测目标标签后,根据目标标签在搜索服务器中进行搜索,得到搜索结果;
个性化排序及推送模块,用于对搜索结果进行个性化排序,将排序后的搜索结果推送给用户。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行计算机可读指令时实现上述各实施例的数据内容个性化推送冷启动方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例的数据内容个性化推送冷启动方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(read only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明一些示例性实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据内容个性化推送冷启动方法,其特征在于,包括:
定期从外部网络中获取多篇新闻数据,对每篇所述新闻数据进行清洗后存入数据库中,定期从所述数据库中取出更新的新闻数据,将所述新闻数据统一格式和过滤重复数据,得到多篇新闻数据;
定期获取多篇预置数据,将多篇所述预置数据和多篇所述新闻数据作为多篇待导入数据分别通过预设的预测模型预测话题标签,将每个所述待导入数据分别标记对应的所述话题标签;
调用预设的搜索服务器,将所述待导入数据导入所述搜索服务器,通过所述搜索服务器将导入的所有数据及对应的话题标签进行倒排索引处理;
获取用户输入的字段,判断所述字段是否为话题标签,若是话题标签,则根据所述字段直接在所述搜索服务器中进行搜索,得到搜索结果,否则,对所述字段通过所述预测模型预测目标标签,根据所述目标标签在所述搜索服务器中进行搜索,得到搜索结果;
对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户。
2.根据权利要求1所述的数据内容个性化推送冷启动方法,其特征在于,所述对所述字段通过所述预测模型预测目标标签,包括:
对所述字段进行分词处理,得到多个分词,对多个分词通过与预设的中文停用词表进行对比,去除停用词;
调用预设的词向量模型,通过所述词向量模型将多个所述分词转换为多个词向量值;
调用预设的分类器模型,通过所述分类器模型对多个所述词向量值预测出目标标签。
3.根据权利要求1所述的数据内容个性化推送冷启动方法,其特征在于,所述对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户,包括:
对所有的所述搜索结果通过预设的个性化模型进行预测,得到每个所述搜索结果对应的概率值;
获取用户标签,根据用户标签对每个所述搜索结果对应的概率值进行加权,得到加权后的匹配值;
剔除所述匹配值小于等于零的搜索结果后,以所述匹配值的升序对多个搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户。
4.根据权利要求3所述的数据内容个性化推送冷启动方法,其特征在于,所述获取用户标签,根据用户标签对每个所述搜索结果对应的概率值进行加权,得到加权后的匹配值,包括:
对所述数据库中所有的新闻数据的标题生成句向量;
对多个所述句向量进行聚类,把相似的内容聚到一起,形成多个类型;
获取用户对新闻数据的点击记录,计算用户对于每种类型的新闻数据的点击总数,将点击总数乘以预设的系数,得到任一类型对应的相似度;
获取搜索结果对应的类型,根据所述类型对应的所述相似度对加权后的匹配值再次进行加权,得到加权后的匹配值。
5.根据权利要求3或4所述的数据内容个性化推送冷启动方法,其特征在于,在所述对所有的所述搜索结果通过预设的个性化模型进行预测,得到每个所述搜索结果对应的概率值之前,还包括:
获取x个类别的训练样本,所述训练样本包括多个类别的新闻数据及用户点击所述新闻数据的用户历史行为数据,从每个类别的训练样本中随机抽取x个样本作为支撑集,从x个类别的剩余样本中抽取n个样本作为查询集;
将所述支撑集和所述查询集输入预设的左右对称的孪生网络中,得到任一新闻数据对于任一用户的概率值。
6.根据权利要求1-4中任一项所述的数据内容个性化推送冷启动方法,其特征在于,所述对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户,包括:
对所述搜索结果进行个性化排序后,获取排在最高的搜索结果的话题标签,查找所述话题标签对应的关联话题标签;
根据所述关联话题标签在所述搜索服务器中进行搜索,得到所述关联话题标签对应的多个关联结果,将多个所述关联结果排列在所述搜索结果之后一起推送给用户。
7.根据权利要求6所述的数据内容个性化推送冷启动方法,其特征在于,所述查找所述话题标签对应的关联话题标签,包括:
获取用户历史点击数据,将多个新闻数据对应的话题标签与用户历史点击数据进行统计,生成统计表;
在所述统计表中,对每个话题标签计算与其他话题标签的相关性;
判断两个话题标签的相关性是否大于预设的关联阈值,若大于所述关联阈值,则将两个话题标签进行关联。
8.一种数据内容个性化推送冷启动装置,其特征在于,包括:
采集新闻数据模块,用于定期从外部网络中获取多篇新闻数据,对每篇所述新闻数据进行清洗后存入数据库中,定期从所述数据库中取出更新的新闻数据,将所述新闻数据统一格式和过滤重复数据,得到多篇新闻数据;
标记话题标签模块,用于定期获取多篇预置数据,将多篇所述预置数据和多篇所述新闻数据作为多篇待导入数据分别通过预设的预测模型预测话题标签,将每个所述待导入数据分别标记对应的所述话题标签;
生成索引模块,用于调用预设的搜索服务器,将所述待导入数据导入所述搜索服务器,通过所述搜索服务器将导入的所有数据及对应的话题标签进行倒排索引处理;
搜索模块,用于获取用户输入的字段,判断所述字段是否为话题标签,若是话题标签,则根据所述字段直接在所述搜索服务器中进行搜索,得到搜索结果,否则,对所述字段通过所述预测模型预测目标标签,根据所述目标标签在所述搜索服务器中进行搜索,得到搜索结果;
个性化排序及推送模块,用于对所述搜索结果进行个性化排序,将排序后的所述搜索结果推送给用户。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述数据内容个性化推送冷启动方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述数据内容个性化推送冷启动方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010162324.0A CN111460251A (zh) | 2020-03-10 | 2020-03-10 | 数据内容个性化推送冷启动方法、装置、设备和存储介质 |
PCT/CN2020/098766 WO2021179481A1 (zh) | 2020-03-10 | 2020-06-29 | 数据内容个性化推送冷启动方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010162324.0A CN111460251A (zh) | 2020-03-10 | 2020-03-10 | 数据内容个性化推送冷启动方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111460251A true CN111460251A (zh) | 2020-07-28 |
Family
ID=71684246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010162324.0A Pending CN111460251A (zh) | 2020-03-10 | 2020-03-10 | 数据内容个性化推送冷启动方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111460251A (zh) |
WO (1) | WO2021179481A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112449240A (zh) * | 2020-11-10 | 2021-03-05 | 深圳市易平方网络科技有限公司 | 一种基于互联网电视使用行为的用户流失预测方法及终端 |
CN114189545A (zh) * | 2021-12-16 | 2022-03-15 | 北京宏天信业信息技术股份有限公司 | 一种互联网用户行为大数据分析方法及系统 |
CN117421480A (zh) * | 2023-10-21 | 2024-01-19 | 佳木斯大学 | 一种便于检索历史文献展示追踪系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114039744B (zh) * | 2021-09-29 | 2024-02-27 | 中孚信息股份有限公司 | 一种基于用户特征标签的异常行为预测方法及系统 |
CN113836131B (zh) * | 2021-09-29 | 2024-02-02 | 平安科技(深圳)有限公司 | 一种大数据清洗方法、装置、计算机设备及存储介质 |
CN115379004A (zh) * | 2022-07-04 | 2022-11-22 | 南京推而广知网络科技有限公司 | 一种内容创意推送运营系统及其使用方法 |
CN116546091B (zh) * | 2023-07-07 | 2023-11-28 | 深圳市四格互联信息技术有限公司 | 流式内容的推荐方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599174A (zh) * | 2016-12-12 | 2017-04-26 | 国云科技股份有限公司 | 一种新闻实时推荐系统及其方法 |
CN106897398B (zh) * | 2017-02-08 | 2020-07-10 | 北京奇艺世纪科技有限公司 | 一种视频展示方法及装置 |
CN108519997B (zh) * | 2018-03-07 | 2021-11-23 | 创新先进技术有限公司 | 相关内容的推荐方法及装置 |
CN109934684A (zh) * | 2019-03-20 | 2019-06-25 | 上海证大喜马拉雅网络科技有限公司 | 一种商品推荐方法、装置、终端及存储介质 |
-
2020
- 2020-03-10 CN CN202010162324.0A patent/CN111460251A/zh active Pending
- 2020-06-29 WO PCT/CN2020/098766 patent/WO2021179481A1/zh active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112449240A (zh) * | 2020-11-10 | 2021-03-05 | 深圳市易平方网络科技有限公司 | 一种基于互联网电视使用行为的用户流失预测方法及终端 |
CN112449240B (zh) * | 2020-11-10 | 2022-12-06 | 深圳市易平方网络科技有限公司 | 一种基于互联网电视使用行为的用户流失预测方法及终端 |
CN114189545A (zh) * | 2021-12-16 | 2022-03-15 | 北京宏天信业信息技术股份有限公司 | 一种互联网用户行为大数据分析方法及系统 |
CN114189545B (zh) * | 2021-12-16 | 2024-05-14 | 北京宏天信业信息技术股份有限公司 | 一种互联网用户行为大数据分析方法及系统 |
CN117421480A (zh) * | 2023-10-21 | 2024-01-19 | 佳木斯大学 | 一种便于检索历史文献展示追踪系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021179481A1 (zh) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162706B (zh) | 一种基于交互数据聚类的个性化推荐方法及系统 | |
CN111460251A (zh) | 数据内容个性化推送冷启动方法、装置、设备和存储介质 | |
CN107220365B (zh) | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 | |
US20190340194A1 (en) | Associating still images and videos | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
EP3532906A1 (en) | Video tagging system and method | |
US20100223258A1 (en) | Information retrieval system and method using a bayesian algorithm based on probabilistic similarity scores | |
CN113158033A (zh) | 一种基于知识图谱偏好传播的协同推荐模型构建方法 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110866102A (zh) | 检索处理方法 | |
KR20080037413A (ko) | 온라인 문맥기반 광고 장치 및 방법 | |
CN112749330A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN115712780A (zh) | 一种基于云计算和大数据的信息推送方法及装置 | |
Yerva et al. | It was easy, when apples and blackberries were only fruits | |
CN111259223B (zh) | 基于情感分析模型的新闻推荐和文本分类方法 | |
CN115827990A (zh) | 搜索方法及装置 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114022233A (zh) | 一种新型的商品推荐方法 | |
Joglekar et al. | Search Engine Optimization Using Unsupervised Learning | |
Liu et al. | A discriminative model based entity dictionary weighting approach for spoken language understanding | |
Li et al. | Online commercial intention detection framework based on web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |