CN115168700A

CN115168700A - 一种基于预训练算法的信息流推荐方法、系统及介质

Info

Publication number: CN115168700A
Application number: CN202210604884.6A
Authority: CN
Inventors: 赵威
Original assignee: Suzhou Moduo Information Technology Co ltd
Current assignee: Suzhou Moduo Information Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-10-11

Abstract

本发明公开了一种基于预训练算法的信息流推荐方法、系统及介质，所述方法包括以下步骤：基于大数据平台、预处理参数和第一训练算法调用预训练算法，得到预训练词向量集；获取用户历史操作行为数据，基于向量检索模型和用户历史操作行为数据调用信息召回算法，得到召回信息集；基于预训练词向量集、召回信息集、第一特征获取算法、第二特征获取算法、相似度分析算法、深度学习模型和精排模型执行信息排序推荐操作；本发明能够基于自研算法进行信息的精准匹配推荐，且推荐信息匹配的范围局限性低，易于拓展和延伸，在众多平台信息中，可调用算法根据用户需求从多种层面上进行信息筛选截取，在精排阶段加入了创新排序特征，提高了推荐精准度。

Description

一种基于预训练算法的信息流推荐方法、系统及介质

技术领域

本发明涉及信息推荐技术领域，特别是涉及一种基于预训练算法的信息流推荐方法、系统及介质。

背景技术

随互联网的迅速发展，信息过载成为常见的现象，各个信息服务平台均在重视如何高效地为用户提供高质量的信息，进而提升用户的体验感；为了应对上述情况，信息推荐成为了有效的解决方案。

目前，信息推荐方法侧重于内容推荐和商品推荐，且信息推荐方法主要基于信息筛选“召回”和信息筛选“排序”实现的；传统“召回”方式中，大多基于统计策略计算用户偏好标签，之后根据用户偏好标签进行信息召回；这种召回方式对于用户具有一定同质性，其多样性较低，所召回的信息也是一些对于用户高热门的信息，平台长期发展下，这种信息召回方式会使信息的推荐范围越来越窄，不利于平台其他业务内容的宣传分发。

综上所述，需要研发一种推荐范围多样性较高且同时又能满足用户个性化需求，有着较高准确性的信息流推荐方法，进而在满足用户需求的同时，又满足平台内容宣传分发的公平性和多样性。

发明内容

本发明的主要目的是，研发一种推荐范围多样性较高且同时又能满足用户个性化需求，有着较高准确性的信息流推荐方法，进而在满足用户需求的同时，又满足平台内容宣传分发的公平性和多样性。

为实现上述目的，本发明采用的一个技术方案是：提供一种基于预训练算法的信息流推荐方法，包括以下步骤：

预训练处理步骤：

设置预处理参数，配置预训练算法和第一训练算法，基于大数据平台、所述预处理参数和所述第一训练算法调用所述预训练算法，得到预训练词向量集；

召回池配置步骤：

配置向量检索模型和信息召回算法，获取用户历史操作行为数据，基于所述向量检索模型和所述用户历史操作行为数据调用所述信息召回算法，得到召回信息集；

排序处理步骤：

配置第一特征获取算法、第二特征获取算法、相似度分析算法、深度学习模型和精排模型，基于所述预训练词向量集、所述召回信息集、所述第一特征获取算法、所述第二特征获取算法、所述相似度分析算法、所述深度学习模型和所述精排模型执行信息排序推荐操作。

作为一种改进的方案，所述预处理参数包括：第一时间范围、第二时间范围和第三训练周期；

所述预训练算法为：

基于所述大数据平台获取用户处于所述第一时间范围内的第一行为数据；基于所述第一行为数据获取用户的信息点击序列；将所述信息点击序列作为训练数据，按照所述第三训练周期调用所述第一训练算法对所述训练数据进行训练，得到若干预训练信息词向量；

按照所述第一时间范围在若干所述预训练信息词向量中确认出若干第一词向量；按照所述第二时间范围在若干所述预训练信息词向量中确认出若干第二词向量；

基于若干所述第一词向量进行加权平均计算，得到长期预训练用户词向量；基于若干所述第二词向量进行加权平均计算，得到短期预训练用户词向量；

打包所述长期预训练用户词向量、所述短期预训练用户词向量和若干所述预训练信息词向量，得到所述预训练词向量集。

作为一种改进的方案，所述信息召回算法为：

设置相似度基准值，基于所述向量检索模型、所述用户历史操作行为数据和所述相似度基准值执行相似度基准召回步骤，得到第一召回信息；

设置权重基准值，基于所述用户历史操作行为数据和所述权重基准值执行权重值基准召回步骤，得到第二召回信息；

设置点击次数阈值和概率基准值，基于所述用户历史操作行为数据、所述点击次数阈值和所述概率基准值执行概率值基准召回步骤，得到第三召回信息；

打包所述第一召回信息、所述第二召回信息和所述第三召回信息，得到所述召回信息集。

作为一种改进的方案，所述相似度基准召回步骤包括：

基于所述用户历史操作行为数据识别用户兴趣信息；在若干所述预训练信息词向量中筛选与所述用户兴趣信息相匹配的第一兴趣词向量；基于所述向量检索模型确认与所述第一兴趣词向量的向量相似度达到所述相似度基准值的第一相似向量；在平台信息库中将与所述第一相似向量相匹配的第一相似信息截取，得到所述第一召回信息。

作为一种改进的方案，所述权重值基准召回步骤包括：

基于所述用户历史操作行为数据计算用户偏好数据；在平台信息库中筛选出与所述用户偏好数据相匹配的偏好信息；基于所述用户偏好数据计算所述偏好信息的偏好权重；识别所述偏好信息的信息质量；基于所述偏好权重和所述信息质量计算所述偏好信息的信息权重；截取达到所述权重基准值的所述信息权重所对应的所述偏好信息作为所述第二召回信息。

作为一种改进的方案，所述概率值基准召回步骤包括：

基于所述用户历史操作行为数据识别用户信息点击数据，基于所述用户信息点击数据在所述用户历史操作行为数据中识别达到所述点击次数阈值的高频点击信息；基于泊松分布预测所述高频点击信息的二次点击概率；截取达到所述概率基准值的所述二次点击概率所对应的所述高频点击信息作为所述第三召回信息。

作为一种改进的方案，所述信息排序推荐操作包括；

调用所述第一特征获取算法获取用户粗排特征和信息粗排特征；

基于所述预训练词向量集、所述召回信息集、所述用户粗排特征、所述信息粗排特征和所述深度学习模型调用所述相似度分析算法，得到粗排信息集；

调用所述第二特征获取算法获取精排特征；基于所述精排特征训练所述精排模型得到待使用排序模型；调用所述待使用排序模型对所述粗排信息集进行精排筛选处理，得到精排信息集；

将所述精排信息集输出至用户端。

作为一种改进的方案，所述相似度分析算法为：

设定第一相似度指标；

将所述用户粗排特征导入所述深度学习模型的嵌入层进行计算，得到用户粗排特征词向量；访问所述预训练词向量集，将所述用户粗排特征词向量、所述短期预训练用户词向量和所述长期预训练用户词向量进行连接处理，得到用户混合词向量；

将所述信息粗排特征导入所述深度学习模型的嵌入层进行计算，得到信息粗排特征词向量；访问所述预训练词向量集，将所述信息粗排特征词向量与若干所述预训练信息词向量分别进行连接处理，得到若干信息混合词向量；

进入所述深度学习模型的全连接层，基于余弦公式将所述用户混合词向量与若干所述信息混合词向量分别进行相似度计算，得到若干相似度结果；

设定达到所述第一相似度指标的所述相似度结果为达标结果；设定所述达标结果所对应的所述信息混合词向量为达标向量；

在所述召回信息集中截取与所述达标向量相匹配的召回信息进行打包，得到所述粗排信息集。

本发明还提供一种基于预训练算法的信息流推荐系统，包括：

预训练处理模块、召回池配置模块和排序处理模块；

所述预训练处理模块用于设置预处理参数，并配置预训练算法和第一训练算法，所述预训练处理模块基于大数据平台、所述预处理参数和所述第一训练算法调用所述预训练算法，得到预训练词向量集；

所述召回池配置模块用于配置向量检索模型和信息召回算法，并获取用户历史操作行为数据，所述召回池配置模块基于所述向量检索模型和所述用户历史操作行为数据调用所述信息召回算法，得到召回信息集;

所述排序处理模块用于配置第一特征获取算法、第二特征获取算法、相似度分析算法、深度学习模型和精排模型，所述排序处理模块基于所述预训练词向量集、所述召回信息集、所述第一特征获取算法、所述第二特征获取算法、所述相似度分析算法、所述深度学习模型和所述精排模型执行信息排序推荐操作。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于预训练算法的信息流推荐方法的步骤。

本发明的有益效果是：

1、本发明所述的基于预训练算法的信息流推荐方法，可以实现基于自研算法进行平台信息的精准匹配推荐，且推荐信息匹配的范围局限性低，易于拓展和延伸，在平台的众多信息中，可调用算法根据用户需求从多种层面上进行信息筛选截取，且在最终的精排阶段加入了自主创新的排序特征，进一步提高了推荐信息的精准度和匹配度，最终不仅提升了用户的体验，还提升了信息的推荐处理效率，具有极高的应用价值和市场价值。

2、本发明所述的基于预训练算法的信息流推荐系统，可以通过预训练处理模块、召回池配置模块和排序处理模块的相互配合，进而实现基于自研算法进行平台信息的精准匹配推荐，且推荐信息匹配的范围局限性低，易于拓展和延伸，在平台的众多信息中，可调用算法根据用户需求从多种层面上进行信息筛选截取，且在最终的精排阶段加入了自主创新的排序特征，进一步提高了推荐信息的精准度和匹配度，最终不仅提升了用户的体验，还提升了信息的推荐处理效率，具有极高的应用价值和市场价值。

3、本发明所述的计算机可读存储介质，可以实现引导预训练处理模块、召回池配置模块和排序处理模块进行配合，进而实现基于自研算法进行平台信息的精准匹配推荐，且推荐信息匹配的范围局限性低，易于拓展和延伸，在平台的众多信息中，可调用算法根据用户需求从多种层面上进行信息筛选截取，且在最终的精排阶段加入了自主创新的排序特征，进一步提高了推荐信息的精准度和匹配度，最终不仅提升了用户的体验，还提升了信息的推荐处理效率，并有效提高所述基于预训练算法的信息流推荐方法的可操作性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述基于预训练算法的信息流推荐方法的流程图；

图2是本发明实施例1所述基于预训练算法的信息流推荐方法的具体流程示意图；

图3是本发明实施例2所述基于预训练算法的信息流推荐系统的架构图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

在本发明的描述中，需要说明的是，本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“预处理参数”、“预训练算法”、“预训练词向量集”、“向量检索模型”、“信息召回算法”、“用户历史操作行为数据”、“召回信息集”、“特征获取算法”、“相似度分析算法”、“深度学习模型”、“精排模型”、“信息排序推荐操作”、“时间范围”、“训练周期”、“行为数据”、“信息点击序列”、“训练数据”、“预训练信息词向量”、“加权平均计算”、“长期预训练用户词向量”、“短期预训练用户词向量”、“相似度基准值”、“权重基准值”、“点击次数阈值”、“概率基准值”、“用户兴趣信息”、“向量相似度”、“用户偏好数据”、“偏好信息”、“偏好权重”、“信息质量”、“信息权重”、“用户信息点击数据”、“高频点击信息”、“二次点击概率”、“用户粗排特征”、“信息粗排特征”、“待使用排序模型”、“精排筛选处理”、“相似度指标”、“用户粗排特征词向量”、“用户混合词向量”、“信息粗排特征词向量”、“信息混合词向量”、“余弦公式”、“相似度计算”、“相似度结果”、“达标结果”、“达标向量”、“预训练处理模块”、“召回池配置模块”、“排序处理模块”应做广义理解。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是：CTR（Click-Through-Rate）是点击通过率。

实施例1

本实施例提供一种基于预训练算法的信息流推荐方法，如图1和图2所示，包括以下步骤：

S100、预训练处理步骤，具体包括：

S110、设置预处理参数，配置预训练算法和第一训练算法，基于大数据平台、所述预处理参数和所述第一训练算法调用所述预训练算法，得到预训练词向量集；在本实例中，步骤S100的主要目的在于进行信息推荐的召回、粗排和精排步骤之前，根据用户的行为序列进行信息的向量化计算，进而预训练出多种表示用户和信息的向量作为数据基础，在后续的信息推荐过程中，基于该数据基础进行高精准度且低局限性的进行信息推荐匹配；对应的，在本实施例中，以应用于数据平台的文章推荐作为本方法的一种实施方式举例。

具体的，所述预处理参数包括：第一时间范围、第二时间范围和第三训练周期；在本实施例中，第一时间范围为用户最近一次登录平台的时间的前30天内，第二时间范围为用户最近一次登录平台的时间的前5天内，第三训练周期在本实施例中设置为1个小时；

具体的，所述预训练算法为：首先通过所述大数据平台收集获取将要进行信息推荐的用户处于所述第一时间范围内的第一行为数据，即该用户近30日内的在平台中的行为事件数据，行为时间数据即为第一行为数据，包括用户的文章点击行为、链接点击行为、视频点击行为、图片点击行为、上述内容的浏览行为、商品购买行为和商品分享行为等；基于所述第一行为数据获取用户的信息点击序列，信息点击序列即为上述第一行为数据中所提取出的用户所点击文章的相关信息序列，该序列中包含所有用户近30日内点击过的文章；将所述信息点击序列作为训练数据，按照所述第三训练周期调用所述第一训练算法对所述训练数据进行训练，得到若干预训练信息词向量；在本实施例中，第一训练算法为item2vec/node2vec算法，按照所述第三训练周期即使用item2vec/node2vec算法对训练数据按每小时进行训练，最终生成的若干预训练信息词向量即为分别对应该信息点击序列中的每篇文章的一个词向量，能够作为该文章的代表向量；预训练信息词向量即为经过本方法最初的预训练所生成的文章词向量，后续还需要预训练用户词向量；用户词向量即为能代表该用户的词向量，故按照所述第一时间范围在若干所述预训练信息词向量中确认出若干第一词向量；按照所述第二时间范围在若干所述预训练信息词向量中确认出若干第二词向量；对应的，在本实施例中，上述步骤即在若干所述预训练信息词向量中，确认用户近30日内的所点击文章的所有词向量，即若干第一词向量，确认用户近5日内所点击文章的所有词向量，即若干第二词向量；基于上述第一时间范围和第二时间范围，分别对得到的词向量进行加权平均计算，得到的词向量即为能够代表该用户的长期词向量和短期词向量；故基于若干所述第一词向量进行加权平均计算，得到长期预训练用户词向量；基于若干所述第二词向量进行加权平均计算，得到短期预训练用户词向量；最终得到的词向量可存储于大数据平台中供后续使用，故打包存储所述长期预训练用户词向量、所述短期预训练用户词向量和若干所述预训练信息词向量，得到所述预训练词向量集。

S200、召回池配置步骤，具体包括：

S210、配置向量检索模型和信息召回算法，获取用户历史操作行为数据，基于所述向量检索模型和所述用户历史操作行为数据调用所述信息召回算法，得到召回信息集；在本实施例中，步骤S200即为根据本方法中的自研算法，将用户相关的高相关性文章截取召回，作为后续为用户进行文章推荐的数据池。

具体的，所述信息召回算法为：设置相似度基准值，基于所述向量检索模型、所述用户历史操作行为数据和所述相似度基准值执行相似度基准召回步骤，得到第一召回信息；在本实施例中，相似度基准值根据具体情况设定，其代表向量之间的相似度，达到该相似度基准值的向量相似度为高相似，未达到该相似度基准值的向量相似度为低相似；设置权重基准值，基于所述用户历史操作行为数据和所述权重基准值执行权重值基准召回步骤，得到第二召回信息；在本实施例中，权重基准值根据具体情况设定，其作为权重区分基准，达到该权重基准值的权重值被判断为高权重，未达到该权重基准值的权重值被判断为低权重；设置点击次数阈值和概率基准值，基于所述用户历史操作行为数据、所述点击次数阈值和所述概率基准值执行概率值基准召回步骤，得到第三召回信息；在本实施例中，点击次数阈值和概率基准值均根据具体情况设定，点击次数阈值用于判断用户的高频点击文章，达到该点击次数阈值，则说明该点击次数所对应的文章为用户的高频点击文章；概率基准值用于判断文章的二次点击概率，文章的二次点击概率达到该概率基准值说明该文章的二次点击概率高，反之则低；对应的，相似度基准召回步骤、权重值基准召回步骤和概率值基准召回步骤即为根据不同的基准在用户历史操作行为数据中，筛选出与用户匹配有高兴趣度高相关度的文章作为数据基础，根据不同的基准，可以进一步提高本方法的多样性以及准确性；故打包所述第一召回信息、所述第二召回信息和所述第三召回信息，得到所述召回信息集。

具体的，所述相似度基准召回步骤包括：基于所述用户历史操作行为数据识别用户兴趣信息；在本实施例中，用户历史操作行为数据包括但不限于用户历史点击、收藏、点赞、评论或购买的任何日志数据；用户兴趣信息即为用户感兴趣的文章，在本实施例中，不对用户感兴趣的文章的获取方式进行限定，例如，可以把用户历史操作行为数据中，进行同类别数据划分，那么数据数量占比最多的类别和次类别即为用户所感兴趣的类别，对应类别下的文章即为用户所感兴趣的文章，此步骤中的用户历史操作行为数据与步骤S100中的第一行为数据属于该用户的同一日志数据范围内；故以用户兴趣信息作为区分的标识，在若干所述预训练信息词向量中筛选出与所述用户兴趣信息相匹配的第一兴趣词向量，第一兴趣词向量即为用户所感兴趣的文章所对应的词向量；故基于所述向量检索模型确认与所述第一兴趣词向量的向量相似度达到所述相似度基准值的第一相似向量，达到所述相似度基准值的第一相似向量即为与用户所感兴趣的文章所对应的词向量具有高相似度的词向量，而该第一相似向量所对应的文章或信息则可以为与用户具有高相关度或高兴趣度的文章，可以进行召回；故在平台信息库中将与所述第一相似向量相匹配的第一相似信息截取，得到所述第一召回信息；对应的，在本实施例中，向量检索模型包括但不限于Item2Vec模型和DeepWalk模型，上述模型均可以采用一定的方式对用户行为序列进行训练，且产生对应用户行为序列的向量化结果的模型；对应的，本实施例中的向量检索模型包括但不限于采用上述模型以及其他可以实现相同功能的模型；平台信息库即为本方法所应用的平台中所有文章存储所在数据库；而词向量之间的向量相似度的计算，即基于词向量之间的空间距离计算确定；

具体的，所述权重值基准召回步骤包括：基于所述用户历史操作行为数据进行用户画像的刻画，根据用户画像的刻画，进行计算用户偏好数据；对应的，因本方法应用于车辆信息平台，故通常用户偏好数据包括但不限于车辆类型偏好、车辆品牌偏好和车辆配件偏好等；故在平台信息库中筛选出与所述用户偏好数据相匹配的偏好信息，偏好信息即为与用户偏好数据相对应的所有文章；基于所述用户偏好数据计算所述偏好信息的偏好权重，对应的，本实施例中，偏好权重的计算为以下逻辑：某偏好信息的偏好权重=在同一时间段内，用户点击该偏好信息的次数/用户的所有点击次数，例如，某偏好信息的偏好权重=近N日内用户点击该偏好信息的次数/近N日内用户点击任意信息的所有点击次数；识别所述偏好信息的信息质量，对应的，本实施例中，信息质量即为对应偏好文章的质量，其计算逻辑为：综合文章的点击转化率、文章的标题长度、文章的内容长度以及文章的图片数量进行加权求和计算，具体公式：信息质量=0.5*CTR + 0.2*标题长度 + 0.2*内容长度 + 0.1*图片数量；故将所述偏好权重，以及该偏好权重所对应的偏好信息的所述信息质量作为两个要素，进行计算该偏好信息的信息权重，最终得出每个偏好信息的信息权重；截取达到所述权重基准值的所述信息权重所对应的所述偏好信息作为所述第二召回信息，而达到所述权重基准值的所述信息权重所对应的所述偏好信息即为与用户关联度高且文章质量高的用户偏好文章，通过本步骤中的计算逻辑，可以筛去大部分低质量文章，保证召回数据池中文章的高有效性。

具体的，所述概率值基准召回步骤包括：基于所述用户历史操作行为数据识别用户信息点击数据，用户信息点击数据即为用户具体点击某个文章的次数记录信息，以及该次数记录信息所对应的文章信息；故基于所述用户信息点击数据在所述用户历史操作行为数据中识别在单位时间内达到所述点击次数阈值的高频点击信息，达到该点击次数阈值的高频点击信息被判断为符合泊松分布的文章信息；故基于泊松分布预测所述高频点击信息的二次点击概率，二次点击概率即为该用户再次点击该高频点击信息的概率；故达到所述概率基准值的所述二次点击概率所对应的高频点击信息为与用户具有高相关度的信息，故截取达到所述概率基准值的所述二次点击概率所对应的所述高频点击信息作为所述第三召回信息；对应的，最终的第一召回信息、第二召回信息和第三召回信息在本实施例中均为文章的形式，最终的召回信息集即为由若干篇文章所构成的召回数据池。

S300、排序处理步骤，具体包括：

S310、配置第一特征获取算法、第二特征获取算法、相似度分析算法、深度学习模型和精排模型，基于所述预训练词向量集、所述召回信息集、所述第一特征获取算法、所述第二特征获取算法、所述相似度分析算法、所述深度学习模型和所述精排模型执行信息排序推荐操作；对应的，步骤S300中，需要根据步骤S100所得到的预训练词向量，对步骤S200得到的召回信息集进行再次筛选，并将用户兴趣度较高的文章向高次位排序，主要的逻辑步骤分为粗排和精排，首先进行粗排，最后进行精排，其中粗排和精排过程中，均采用本方法中独特的算法逻辑；

具体的，所述信息排序推荐操作包括；调用所述第一特征获取算法获取用户粗排特征和信息粗排特征；在本实施例中，第一特征获取算法为基于数据分析与挖掘技术，对用户侧和文章侧的特征进行提取，得到的特征即为所述用户粗排特征和所述信息粗排特征；对应的，在本实施例中，用户粗排特征包括但不限于：用户属性特征、用户行为特征以及用户统计特征等，用户属性特征包括但不限于用户性别、用户年龄、用户职业和用户地域等，用户行为特征包括但不限于用户对于不同时间窗口的浏览时长、用户对于不同时间窗口的点击行为、用户对于不同时间窗口的搜索行为、用户对于不同时间窗口的发帖行为、用户对于不同时间窗口的收藏行为和用户对于不同时间窗口的点赞行为等，用户统计特征包括但不限于用户的注册时间，用户的活跃情况和用户的累计在线时长等统计指标特征；对应的，信息粗排特征在本实施例中包括但不限于文章的标题字数长度、文章字数总长度、文章浏览时长、文章的点击数量、文章的曝光数量和文章的点击率等；故基于所述预训练词向量集、所述召回信息集、所述用户粗排特征、所述信息粗排特征和所述深度学习模型调用所述相似度分析算法，得到粗排信息集；粗排信息集即为经过相似度分析算法对召回信息集中的文章进行一遍筛选后的数据池，较召回信息集来说，文章对于用户的兴趣精准度和相关度更高；之后调用所述第二特征获取算法获取精排特征；基于所述精排特征训练所述精排模型得到待使用排序模型；调用所述待使用排序模型对所述粗排信息集进行精排筛选处理，得到精排信息集；将所述精排信息集输出至用户端；

具体的，所述相似度分析算法为：设定第一相似度指标，在本实施例中，第一相似度指标用于进一步判断信息词向量与用户词向量之间的相关性；故将所述用户粗排特征导入所述深度学习模型的嵌入层进行计算，得到用户粗排特征词向量；访问所述预训练词向量集，将所述用户粗排特征词向量、所述短期预训练用户词向量和所述长期预训练用户词向量进行连接处理，得到用户混合词向量；将所述信息粗排特征导入所述深度学习模型的嵌入层进行计算，得到信息粗排特征词向量；访问所述预训练词向量集，将所述信息粗排特征词向量与若干所述预训练信息词向量中的每个预训练信息词向量分别进行连接处理，得到若干信息混合词向量；连接处理即为将几个词向量之间做连接；做完上述连接后，进入所述深度学习模型的全连接层，基于余弦公式将所述用户混合词向量与若干所述信息混合词向量分别进行相似度计算，得到若干相似度结果；设定达到所述第一相似度指标的所述相似度结果为达标结果，达标结果所对应的信息混合词向量所对应的信息（在本实施例中即为文章）即为与用户兴趣相关度较高的信息；故设定所述达标结果所对应的所述信息混合词向量为达标向量；在所述召回信息集中截取与所述达标向量相匹配的召回信息进行打包，得到所述粗排信息集；粗排信息集即基于本相似度分析算法对召回数据集进一步进行筛选，提高了文章与用户间的匹配度；对应的，在本实施例中，在应用时，需要将得到的达标向量存储至聚类索引数据库中保存，便于之后的使用。

具体的，在本实施例中，第二特征获取算法为：设定与应用平台类型相匹配的创新特征，获取上述创新特征；因本实施例应用于车辆信息平台，故创新特征包括但不限于：文章是否和车有关联、文章对应的车品牌以及文章对应的车类别；对应的，创新特征即为上述精排特征；在本实施例中，对于“文章是否和车有关联”特征的获取，采用提取文章关键词的方式，通过TF-IDF和TextRank方式，抽取文章关键词，且将这两类方法所抽取的关键词融合输入至二分类模型中，进行概率计算，选取概率高的关键词作为对应的特征数据；“文章对应的车品牌”特征的获取，采用序列标注的方式获取，其具体原理为采用已标注有相关车品牌的文章样本，训练序列标注模型，采用该序列标准模型获取未标注文章的车品牌相关数据，对应的，序列标注模型结构为BiLSTM+CRF结构；“文章对应的车类别”特征的获取，采用多分类模型对平台中未标注车类别文章的车类别数据进行预测，多分类模型为采用平台中已知的车类别数据以及平台中被标注有车类别数据的文章经过训练后的模型，对应的模型为TextCNN；最终，上述创新特征即得到了应用平台中与车不相关文章的特征数据，以及与车相关文章的所有车类别以及车品牌特征数据；得到上述数据后，可进一步的提高精排模型的精排处理精准度，故基于特征对精排模型训练即为将上述创新特征加入到精排模型的排序特征中对精排模型进行训练，让精排模型自助学习用户阅读文章是否和车有关联，以及用户阅读文章是否与对应的车品牌和车类别有关；首先基于上述创新特征进行训练集采样，之后进行训练和测试，得到能够进行应用的所述待使用排序模型；最后应用时，只需要将该待使用排序模型嵌入本方法所应用的平台的推荐系统中，用于精排处理即可；最后，待使用排序模型对所述粗排信息集进行精排筛选处理，得到的精排信息集与用户高度相关，且与用户的阅读习惯相匹配；其中包含两种情况，一种是用户的阅读习惯与车不关联，那么经过待使用排序模型的精排处理，会将粗排信息集中与车不相关文章自动识别筛去，那么精排信息集就会包含粗排信息集中与车不关联且用户感兴趣的文章；另一种是用户的阅读习惯与车关联，那么经过待使用排序模型的精排处理，会将粗排信息集中与车不相关的文章筛去，那么精排信息集就会包含粗排信息集中与车相关且具体到对应的车品牌以及车类别的文章；对应的，在本步骤中，将所述精排信息集输出至用户端时，还需要基于之前步骤S200中的计算逻辑，对于精排信息集中的文章的信息质量权重进行计算，进而按照权重由大到小排序，生成对应的精排文章序列，最后将该精排文章序列输出至用户端，保证用户最感兴趣的文章位于序列最前位。

经过有效的实施计算，通过本方法所推荐的文章和信息，较传统推荐方式有明显提升，且用户对于本方法所推荐文章的有效阅读时长有明显提高，同时本方法的召回、粗排、精排范围不局限，不会降低本方法所应用平台的多样性，弥补了现有技术的不足。

实施例2

本实施例基于与实施例 1中所述的一种基于预训练算法的信息流推荐方法相同的发明构思，提供一种基于预训练算法的信息流推荐系统，如图3所示，包括：预训练处理模块、召回池配置模块和排序处理模块；

所述基于预训练算法的信息流推荐系统中，预训练处理模块用于设置预处理参数，并配置预训练算法和第一训练算法，所述预训练处理模块基于大数据平台、所述预处理参数和所述第一训练算法调用所述预训练算法，得到预训练词向量集；

具体的，所述预处理参数包括：第一时间范围、第二时间范围和第三训练周期；

具体的，所述预训练算法为：预训练处理模块基于所述大数据平台获取用户处于所述第一时间范围内的第一行为数据；预训练处理模块基于所述第一行为数据获取用户的信息点击序列；预训练处理模块将所述信息点击序列作为训练数据，并按照所述第三训练周期调用所述第一训练算法对所述训练数据进行训练，得到若干预训练信息词向量；预训练处理模块按照所述第一时间范围在若干所述预训练信息词向量中确认出若干第一词向量；预训练处理模块按照所述第二时间范围在若干所述预训练信息词向量中确认出若干第二词向量；预训练处理模块基于若干所述第一词向量进行加权平均计算，得到长期预训练用户词向量；预训练处理模块基于若干所述第二词向量进行加权平均计算，得到短期预训练用户词向量；预训练处理模块打包所述长期预训练用户词向量、所述短期预训练用户词向量和若干所述预训练信息词向量，得到所述预训练词向量集。

所述基于预训练算法的信息流推荐系统中，召回池配置模块用于配置向量检索模型和信息召回算法，并获取用户历史操作行为数据，所述召回池配置模块基于所述向量检索模型和所述用户历史操作行为数据调用所述信息召回算法，得到召回信息集；

具体的，所述信息召回算法为：召回池配置模块设置相似度基准值，并基于所述向量检索模型、所述用户历史操作行为数据和所述相似度基准值执行相似度基准召回步骤，得到第一召回信息；召回池配置模块设置权重基准值，并基于所述用户历史操作行为数据和所述权重基准值执行权重值基准召回步骤，得到第二召回信息；召回池配置模块设置点击次数阈值和概率基准值，并基于所述用户历史操作行为数据、所述点击次数阈值和所述概率基准值执行概率值基准召回步骤，得到第三召回信息；召回池配置模块打包所述第一召回信息、所述第二召回信息和所述第三召回信息，得到所述召回信息集。

具体的，所述相似度基准召回步骤包括：召回池配置模块基于所述用户历史操作行为数据识别用户兴趣信息；召回池配置模块在若干所述预训练信息词向量中筛选与所述用户兴趣信息相匹配的第一兴趣词向量；召回池配置模块基于所述向量检索模型确认与所述第一兴趣词向量的向量相似度达到所述相似度基准值的第一相似向量；召回池配置模块在平台信息库中将与所述第一相似向量相匹配的第一相似信息截取，得到所述第一召回信息。

具体的，所述权重值基准召回步骤包括：召回池配置模块基于所述用户历史操作行为数据计算用户偏好数据；召回池配置模块在平台信息库中筛选出与所述用户偏好数据相匹配的偏好信息；召回池配置模块基于所述用户偏好数据计算所述偏好信息的偏好权重；召回池配置模块识别所述偏好信息的信息质量；召回池配置模块基于所述偏好权重和所述信息质量计算所述偏好信息的信息权重；召回池配置模块截取达到所述权重基准值的所述信息权重所对应的所述偏好信息作为所述第二召回信息。

具体的，所述概率值基准召回步骤包括：召回池配置模块基于所述用户历史操作行为数据识别用户信息点击数据，召回池配置模块基于所述用户信息点击数据在所述用户历史操作行为数据中识别达到所述点击次数阈值的高频点击信息；召回池配置模块基于泊松分布预测所述高频点击信息的二次点击概率；召回池配置模块截取达到所述概率基准值的所述二次点击概率所对应的所述高频点击信息作为所述第三召回信息。

所述基于预训练算法的信息流推荐系统中，排序处理模块用于配置第一特征获取算法、第二特征获取算法、相似度分析算法、深度学习模型和精排模型，所述排序处理模块基于所述预训练词向量集、所述召回信息集、所述第一特征获取算法、所述第二特征获取算法、所述相似度分析算法、所述深度学习模型和所述精排模型执行信息排序推荐操作。

具体的，所述信息排序推荐操作包括；排序处理模块调用所述第一特征获取算法获取用户粗排特征和信息粗排特征；排序处理模块基于所述预训练词向量集、所述召回信息集、所述用户粗排特征、所述信息粗排特征和所述深度学习模型调用所述相似度分析算法，得到粗排信息集；排序处理模块调用所述第二特征获取算法获取精排特征；排序处理模块基于所述精排特征训练所述精排模型得到待使用排序模型；排序处理模块调用所述待使用排序模型对所述粗排信息集进行精排筛选处理，得到精排信息集；排序处理模块将所述精排信息集输出至用户端。

具体的，所述相似度分析算法为：排序处理模块设定第一相似度指标；排序处理模块将所述用户粗排特征导入所述深度学习模型的嵌入层进行计算，得到用户粗排特征词向量；排序处理模块访问所述预训练词向量集，并将所述用户粗排特征词向量、所述短期预训练用户词向量和所述长期预训练用户词向量进行连接处理，得到用户混合词向量；排序处理模块将所述信息粗排特征导入所述深度学习模型的嵌入层进行计算，得到信息粗排特征词向量；排序处理模块访问所述预训练词向量集，并将所述信息粗排特征词向量与若干所述预训练信息词向量分别进行连接处理，得到若干信息混合词向量；排序处理模块进入所述深度学习模型的全连接层，并基于余弦公式将所述用户混合词向量与若干所述信息混合词向量分别进行相似度计算，得到若干相似度结果；排序处理模块设定达到所述第一相似度指标的所述相似度结果为达标结果；排序处理模块设定所述达标结果所对应的所述信息混合词向量为达标向量；排序处理模块在所述召回信息集中截取与所述达标向量相匹配的召回信息进行打包，得到所述粗排信息集。

实施例3

本实施例提供一种计算机可读存储介质，包括：

所述存储介质用于储存将上述实施例1所述的基于预训练算法的信息流推荐方法实现所用的计算机软件指令，其包含用于执行上述为所述基于预训练算法的信息流推荐方法所设置的程序；具体的，该可执行程序可以内置在实施例2所述的基于预训练算法的信息流推荐系统中，这样，基于预训练算法的信息流推荐系统就可以通过执行内置的可执行程序实现所述实施例1所述的基于预训练算法的信息流推荐方法。

此外，本实施例具有的计算机可读存储介质可以采用一个或多个可读存储介质的任意组合，其中，可读存储介质包括电、光、电磁、红外线或半导体的系统、装置或器件，或者以上任意组合。

区别于现有技术，采用本申请一种基于预训练算法的信息流推荐方法、系统及介质可以通过本方法实现基于自研算法进行平台信息的精准匹配推荐，且推荐信息匹配的范围局限性低，易于拓展和延伸，在平台的众多信息中，可调用算法根据用户需求从多种层面上进行信息筛选截取，且在最终的精排阶段加入了自主创新的排序特征，进一步提高了推荐信息的精准度和匹配度，通过本系统为本方法提供了有效的技术支撑，最终不仅提升了用户的体验，还提升了信息的推荐处理效率，具有极高的应用价值和市场价值。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于预训练算法的信息流推荐方法，其特征在于，包括以下步骤：

预训练处理步骤：

召回池配置步骤：

排序处理步骤：

2.根据权利要求1所述的一种基于预训练算法的信息流推荐方法，其特征在于：

所述预处理参数包括：第一时间范围、第二时间范围和第三训练周期；

所述预训练算法为：

3.根据权利要求2所述的一种基于预训练算法的信息流推荐方法，其特征在于：

所述信息召回算法为：

4.根据权利要求3所述的一种基于预训练算法的信息流推荐方法，其特征在于：

所述相似度基准召回步骤包括：

5.根据权利要求3所述的一种基于预训练算法的信息流推荐方法，其特征在于：

所述权重值基准召回步骤包括：

6.根据权利要求3所述的一种基于预训练算法的信息流推荐方法，其特征在于：

所述概率值基准召回步骤包括：

7.根据权利要求6所述的一种基于预训练算法的信息流推荐方法，其特征在于：

所述信息排序推荐操作包括；

将所述精排信息集输出至用户端。

8.根据权利要求7所述的一种基于预训练算法的信息流推荐方法，其特征在于：

所述相似度分析算法为：

设定第一相似度指标；

9.基于权利要求1~8中任一项所述的一种基于预训练算法的信息流推荐方法的基于预训练算法的信息流推荐系统，其特征在于，包括：预训练处理模块、召回池配置模块和排序处理模块；

所述召回池配置模块用于配置向量检索模型和信息召回算法，并获取用户历史操作行为数据，所述召回池配置模块基于所述向量检索模型和所述用户历史操作行为数据调用所述信息召回算法，得到召回信息集；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1~8中任一项所述基于预训练算法的信息流推荐方法的步骤。