CN114491245A

CN114491245A - 一种资讯信息智能推荐的方法

Info

Publication number: CN114491245A
Application number: CN202210037108.2A
Authority: CN
Inventors: 谢辉; 胡学强; 方展涛; 黎炜敏
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-13

Abstract

本发明公开了一种资讯信息智能推荐的方法，包括粗排match阶段和精排rank阶段；在粗排match阶段以用户的第一数据信息组和所有资讯信息进行特征提取和运算，最终得到每一个资讯信息相对于用户特征向量的概率值，并依据该概率值选取若干与用户信息最相关的资讯信息作为目标资讯信息；在精排rank阶段以用户的第二数据信息组和所述目标资讯信息进行特征提取和运算，最终得到每一个目标资讯信息的得分，依照得分情况对目标资讯信息进行排列及推送。本发明充分考虑多种信息的融合，加入了用户图数据、用户的画像信息、用户行为信息，推荐过程平滑化，不生硬，也就是标题即便不相干也可能进入精排阶段，更具有针对性，融合用户兴趣，反馈信息进行更智能推荐。

Description

一种资讯信息智能推荐的方法

技术领域

本发明涉及信息技术领域，特别是一种资讯信息智能推荐的方法。

背景技术

目前，资讯推荐已经成为营销业务当中一个重要业务模块。例如电网资讯大多是给用户推送电力价格、行业动态、重大新闻或电力电器知识。对于现有的电网信息推送大多使用关键词提取技术，对资讯的标题进行抓取，通过关键词权重排序、筛选的方式，推送相应的资讯给对应标签的用户。但这种方法往往依靠用户自身的标签进行匹配，若用户的标签提取本身不准确，而仅靠关键词本身表达的语义又有巨大的局限性，这会导致推送的信息长期不准确。

同时，现有技术当中，使用深度学习的方法也逐渐成为主流，现有深度学习方法实现资讯推荐，依靠大量数据训练模型，并用训练好的模型对资讯信息进行自动分类，然后匹配用户标签再推送给客户。在应对用户反馈信息上，通常是使用降低用户不喜欢的标签相关的资讯信息的权重，或直接屏蔽标签相关信息，使得系统减少该信息推送量。使用该方法虽然准确率有所提升，但是无法在模型融合用户的反馈信息，且依赖标签和关键词，推送过程十分生硬，非点击即禁，推送效果不理想，且推送信息仍存在长期推送错误无自适应改进的情况。

另一方面，基于协调过滤的方法应用电商推荐等领域，而电网资讯信息往往有一定行业范围，现有技术在应用上，大多仍是基于简单的广泛类别的电商、新闻等推荐系统领域的做法。

因此，需要一种能充分发掘资讯信息的主要语义以及用户信息、用户行为信息和用户的反馈信息的电网资讯推荐方法，以实现向用户精准推送资讯。

发明内容

本发明上述问题，提供一种资讯信息智能推荐的方法。本发明的技术方案为：

一种资讯信息智能推荐的方法，包括粗排match阶段和精排rank阶段；其中：

粗排match阶段，以用户的第一数据信息组和所有资讯信息进行特征提取和运算，得到用户信息特征向量和所有资讯信息的特征向量；将所述用户信息特征向量和所有资讯信息的特征向量一起输入第一分类器，输出每一个资讯信息相对于用户特征向量的概率值，并依据该概率值选取若干与用户信息最相关的资讯信息作为目标资讯信息；

精排rank阶段；以用户的第二数据信息组和所述目标资讯信息进行特征提取和运算，得到基于所述第二数据信息组和目标资讯信息的特征向量，将所述基于所述第二数据信息组和目标资讯信息的特征向量输入第二分类器，输出每一个目标资讯信息的得分，依照得分情况对目标资讯信息进行排列及推送。

作为本发明进一步地说明，所述第一数据信息组包括用户历史行为、用户兴趣和反馈信息等。

更进一步地，所述第一数据信息组依次经过数据转换、加权计算、特征数据向量化和维度压缩后得到所述户信息特征向量。

更进一步地，所述第二数据信息组包括用户图信息、用户画像信息和用户行为信息等。

更进一步地，所述用户图信息通过GCN图卷积神经网络进行特征提取；所述用户画像信息、用户行为信息和目标资讯信息则分别通过embedding层进行编码，得到相应的特征。

更进一步地，：所述用户画像信息经过离散化，特征交叉形成一组特征矩阵，然后用户画像信息本身的信息再通过embedding层编码出特征信息。

更进一步地，所有的特征通过维度压缩函数进行压缩；若在tensorflow框架下运行，则压缩函数为squeeze函数。

更进一步地，：所述用户行为信息和目标资讯信息对应的特征数据统一输入到transformer-xl模型或tansformer模型进行全局特征提取，得到用户行为信息及目标资讯信息特征。

更进一步地，压缩后的用户图信息特征、用户画像信息、用户行为信息及目标资讯信息特征三者通过矩阵拼接函数拼接成矩阵；若在tensorflow框架下运行，则矩阵拼接函数为concatenate函数或者concate函数。

更进一步地，所述第一分类器为softmax分类器，所述第二分类器为sigmoid分类器。

本发明的有益效果：

1、整个资讯推荐方法分为粗排match阶段和精排rank阶段同时运行，相比现有技术依靠标签和关键词筛选确定候选资讯，更精准把推荐步骤分开，解决了关键词筛选过程中，不好确定筛选阈值的问题，推荐过程平滑化，不生硬，也就是标题即便不相干也可能进入精排阶段。

2、相较于传统资讯推送方法，本发明在rank阶段加入了用户图数据、用户的画像信息、用户行为信息，依据这些输入信息用于提取全局特征，能够更好得出所有用户行为直接的相关性。

3、尤其适用于信息资讯推荐系统、电商推荐系统等，充分考虑了多种信息的融合、而不仅仅依靠关键词，同时该模型也比其他传统推荐系统的方法有更多针对性，融合用户兴趣，反馈信息进行更智能推荐。

附图说明

图1为本发明实施例粗排match阶段的算法原理图；

图2为本发明实施例精排rank阶段的算法原理图。

具体实施方式

实施例：

下面结合附图对本发明实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参考附图1和2所示的阶段算法原理图，本发明的资讯信息智能推荐的方具体包括如下步骤：

步骤一，获取第一数据信息组。用户兴趣数据一般为标签数据、用户自身填的标签、用户的年龄、用户的性别等。反馈信息一般是用户对于过往推荐结果的肯定或否定或评分数据。所有资讯信息就从数据库中取出。用户历史行为在此处是所有用户浏览行为日志，有对某资讯的点击、停留时间等数据，后续再编码之后，需要进行拼接。

步骤二，数据转换。用户历史行为、用户新区和反馈信息由于都是文字信息，而模型需要输入的是特征矩阵。因此通过embedding层把数据进行转换。Embedding通常为bert模型。(Bert是一个预训练好的编码器，是谷歌开源的大型预训练模型)。此外还包括特征交叉等计算，就是每组特征两两相乘组成新特征。

步骤三，提取的特征数据进入注意力机制，即计算权重，权重加上自身特征数据的加权计算后进入MLP非线性多层感知器，输出特征向量，然后进行维度压缩，得到最终输入后续分类器的户信息特征向量。MLP非线性多层感知器在实施例中采用典型三层全连接神经网络，当中激活函数为relu。

步骤四，用户信息特征向量与所有资讯信息的特征向量一起进入分类器，输出所有资讯信息相对于用户特征向量的概率。通俗来说，类似于计算所有资讯信息当中哪一些与用户信息相关，选处top500个。

步骤五，进入rank阶段。获取用户图信息。图信息存在于图数据库。用户画像就是用户的各种标签信息，年龄、性别、爱好等。行为数据，此处的行为数据与粗排处一样，区别在于本次行为数据不再像粗排序那样，全部合并，再后续特征提取、压缩，而是分别输入embedding进行编码特征，用于后续transform-xl计算行为之间的关系。获取单个目标资讯信息。

步骤六，用户图信息需要通过GCN图卷积神经网络进行特征提取，GCN是固定方法。用户画像信息通过embedding编码编码出特征信息。对于所有行为信息，则通过embedding进行编码，直接输出编码特征。目标资讯信息通过通过embedding进行编码，直接输出编码特征。以上所有特征通过维度压缩函数进行压缩，如果是tensorflow框架下进行该算法，则是使用squeeze函数。在另外一些实施例中，可以先将用户画像信息经过离散化，特征交叉形成一组特征矩阵，然后用户画像信息本身的信息再通过embedding层编码出特征信息，两组特征信息进行直接相加，输出用户画像特征。

步骤七、行为信息与目标资讯信息特征统一输入到transformer-xl模型进行特征提取，具体的，transformer-xl模型也可以使用tansformer模型代替。其内部结构为多层的多头注意力机制和正向全连接网络组成，具有全局信息统筹并进行特征提取的作用。

步骤八、压缩后的用户图信息特征与用户画像信息与全局特征提取后的行为信息，目标资讯信息特征，通过矩阵拼接函数进行整合。如果是在tensorflow下进行，则是concatenate函数或者concate函数，其能把多个向量或矩阵按维度方向进行拼接成一个向量或矩阵。拼接后，输入到全连接神经网络(即是后续的多个relu激活函数组成的全连接神经网络层)。Relu激活函数也可以选其他relu函数相关的变种，如leaky relu等。三层relu具体的第一层的神经元个数是1024，即输入维度为1024。第二层、三依次为512、256。也即是最后一层全连接输出256维度的向量，该向量再输入到sigmoid层，输出维度为2。取值为sigmoid结果且在0到1范围。根据值可映射出该输入的目标资讯信息的得分。

步骤九、通过对候选资讯进行精排，得出所有候选资讯的得分情况，从而确定推荐列表的布局，实现精确推送资讯到用户界面。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种资讯信息智能推荐的方法，其特征在于：包括粗排match阶段和精排rank阶段；其中：

2.根据权利要求1所述资讯信息智能推荐的方法，其特征在于：所述第一数据信息组包括用户历史行为、用户兴趣和反馈信息等。

3.根据权利要求1或2所述资讯信息智能推荐的方法，其特征在于：所述第一数据信息组依次经过数据转换、加权计算、特征数据向量化和维度压缩后得到所述户信息特征向量。

4.根据权利要求1所述的资讯信息智能推荐的方法，其特征在于：所述第二数据信息组包括用户图信息、用户画像信息和用户行为信息等。

5.根据权利要求4所述的资讯信息智能推荐的方法，其特征在于：所述用户图信息通过GCN图卷积神经网络进行特征提取；所述用户画像信息、用户行为信息和目标资讯信息则分别通过embedding层进行编码，得到相应的特征。

6.根据权利要求4或5所述的资讯信息智能推荐的方法，其特征在于：所述用户画像信息经过离散化，特征交叉形成一组特征矩阵，然后用户画像信息本身的信息再通过embedding层编码出特征信息。

7.根据权利要求6所述的资讯信息智能推荐的方法，其特征在于：所有的特征通过维度压缩函数进行压缩；若在tensorflow框架下运行，则压缩函数为squeeze函数。

8.根据权利要求7所述的资讯信息智能推荐的方法，其特征在于：所述用户行为信息和目标资讯信息对应的特征数据统一输入到transformer-xl模型或tansformer模型进行全局特征提取，得到用户行为信息及目标资讯信息特征。

9.根据权利要求8所述的资讯信息智能推荐的方法，其特征在于：压缩后的用户图信息特征、用户画像信息、用户行为信息及目标资讯信息特征三者通过矩阵拼接函数拼接成矩阵；若在tensorflow框架下运行，则矩阵拼接函数为concatenate函数或者concate函数。

10.根据权利要求9所述的资讯信息智能推荐的方法，其特征在于：所述第一分类器为softmax分类器，所述第二分类器为sigmoid分类器。