CN113590908A

CN113590908A - 基于注意力机制的资讯推荐方法

Info

Publication number: CN113590908A
Application number: CN202010370986.7A
Authority: CN
Inventors: 史纪强; 阮德茂; 郑云拓; 魏霞; 陈鹏; 王文蔚; 金伏东
Original assignee: China Petroleum and Chemical Corp; Geophysical Research Institute of Sinopec Shengli Oilfield Co
Current assignee: China Petroleum and Chemical Corp; Geophysical Research Institute of Sinopec Shengli Oilfield Co
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-11-02

Abstract

本发明提供一种基于注意力机制的资讯推荐方法，该基于注意力机制的资讯推荐方法包括:步骤1，获取油田信息网中的资讯信息；步骤2，对爬取到的资讯信息数据进行预处理；骤3，对预处理完毕的资讯信息提取资讯话题并向量化；步骤4，建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。该基于注意力机制的资讯推荐方法解决了传统资讯推荐话题分类不灵活、用户体验差的缺点，使用真实的油田内部资讯数据，真实客观，提高了推荐的精确性、多样性和可解释性，充分满足油田用户对资讯的个性化需求。

Description

基于注意力机制的资讯推荐方法

技术领域

本发明涉及油田信息处理开发技术领域，特别是涉及到一种基于注意力机制的资讯推荐方法。

背景技术

近年来，随着胜利油田信息化建设步伐的加快，越来越多的油田相关的资讯内容出现在互联网上，对于油田相关工作人员，很难从海量的资讯内容中找到适合自己想看的内容，而且大部分资讯内容会出现长尾特征，即很少用户能够浏览到。研究如何提高油田信息对油田工作人员的曝光度，可以让工作人员及时看到重要资讯，辅助工作人员做出决策，对于提升油田工作效率和资源利用率有重要意义。

推荐技术是解决互联网大数据时代信息过载问题的关键技术，一方面可以增加用户对平台的粘度，提高用户体验，另一方面可以加快平台流量转化，提高平台转化效率，提升企业的收益。

目前，对于资讯类的推荐主要通过分类阅读的方式，需要用户指定资讯的类别信息，推荐平台才会展示给用户近段时间的对应类别的资讯，这种方法不仅浪费用户的搜索时间，对于一些类别不明确的资讯也不能很好的处理。

话题聚类技术通过无监督的学习方式自动学习文档包括的话题分布，针对油田资讯报道持续时间长、涉及层面广、涵盖事件多等特点,话题聚类可以为文本资讯信息建立以话题为单位的信息存储形式。序列分析是指按时间顺序记录分析系统各部分变化的内在规律，应用用户的历史记录数据，预测用户未来时刻的行为发展趋势。

现有资讯推荐技术主要利用资讯的相似度信息，推荐内容同质化严重，缺少多样性，无法引导用户探索更多类别的资讯，用户体验效果较差；另外现有技术对于用户的兴趣提取可解释性差，很难从理论上说明用户的具体兴趣表示。

为此我们发明了一种新的基于注意力机制的资讯推荐方法，解决了以上技术问题。

发明内容

本发明的目的是提供一种解决资讯推荐手动分类工作量大，用户交互不友好的问题，针对油田类的资讯新闻的基于注意力机制的资讯推荐方法。

本发明的目的可通过如下技术措施来实现：基于注意力机制的资讯推荐方法，该基于注意力机制的资讯推荐方法包括:步骤1，获取油田信息网中的资讯信息；步骤2，对爬取到的资讯信息数据进行预处理；步骤3，对预处理完毕的资讯信息提取资讯话题并向量化；步骤4，建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。

本发明的目的还可通过如下技术措施来实现：

在步骤1中，运行针对油田信息网的爬虫程序；在油田信息网内爬取实时产生的资讯信息；将爬取到的信息保存到数据库。

在步骤2中，对所有资讯信息进行分词，过滤掉无用词，建立词典；使用词典对每条资讯热编码，得到每条资讯的词向量表示。

在步骤3中，使用话题聚类方法分析所有资讯内包含的所有话题，确定最佳主题数，得到话题词典；对每一条资讯按照话题词典标识为话题概率向量。

在步骤4中，利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征，采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重，最后通过逻辑回归计算用户的预测点击率；对候选资讯按照预测点击率排序，取得分最高的前k个作为推荐结果。

在步骤4中，注意力α_i的计算公式为：

公式(1)中，n为用户历史浏览记录长度，

e_i＝v_a tanh(W_as_i+U_ah) (2)

公式(2)中，v_a、W_a、U_a为模型参数，s_i、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。

本发明中的基于注意力机制的资讯推荐方法，通过分析用户近段时间以来的浏览记录，利用分词技术对资讯数据库中所有数据进行分词，然后进行话题分析得到所有话题并对每条资讯进行话题标记，接下来对每个用户的历史记录通过循环神经网络提取序列特征，最后通过注意力机制计算用户历史对候选资讯的偏好特征，预测用户下一时刻的观看行为，此发明能够为用户推送符合用户兴趣的资讯内容，提高用户对油田信息网平台的浏览量。本发明的有益效果是：

1)本发明针对油田信息的特点使用LDA自动生成资讯的话题内容，扩展了类别的数量和多样性，使各种话题的曝光度得到提升。

2)本发明利用用户的历史记录建立了用户历史和候选资讯的注意力模型，可以更好的自适应用户的潜在兴趣，提高资讯和用户的匹配度，提升用户的浏览体验。

3)本发明采用实时交互的方式保存用户记录和推荐资讯，提高了系统的实时性。

附图说明

图1为本发明的基于注意力机制的资讯推荐方法的一具体实施例的流程图；

图2为本发明的一具体实施例中的推荐模型结构图。

图中：201.多层感知机，202.候选资讯。

具体实施方式

为使本发明的上述和其他目的、特征和优点能更明显易懂，下文特举出较佳实施例，并配合附图所示，作详细说明如下。

如图1所示，图1为本发明的基于注意力机制的资讯推荐方法的流程图。

步骤101，获取油田信息网中的资讯信息。运行针对油田信息网的爬虫程序；在油田信息网内爬取实时产生的资讯信息；将爬取到的信息保存到数据库。

步骤102，对爬取到的资讯信息数据预处理。对所有资讯信息进行分词，过滤掉无用词，建立词典；使用词典对每条资讯热编码，得到每条资讯的词向量表示。

步骤103，对预处理完毕的资讯信息提取资讯话题并向量化。使用话题聚类方法分析所有资讯内包含的所有话题，确定最佳主题数，得到话题词典；对每一条资讯按照话题词典标识为话题概率向量。

步骤104，建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征，采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重，最后通过逻辑回归计算用户的预测点击率。对候选资讯按照预测点击率排序，取得分最高的前k个作为推荐结果。

所述的注意力计算公式，公式为：

公式(1)中，n为用户历史浏览记录长度，

e_i＝v_a tanh(W_as_i+U_ah) (2)

在应用本发明的一具体实施例中，包括了以下步骤：

1)获取油田信息网中的资讯信息：

1-1)运行针对油田信息网的爬虫程序，每30分钟运行一次；

1-2)在胜利油田信息网内爬取实时产生的资讯信息；

1-3)将爬取到的信息保存到数据库。

2)对爬取到的资讯信息数据预处理：

2-1)对所有资讯信息用jieba分词库分词，过滤掉无用词，建立词典；

2-2)使用词典对每条资讯热编码，得到每条资讯的词向量表示。

3)对预处理完毕的资讯信息提取资讯话题并向量化：

3-1)使用隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)话题聚类方法分析所有资讯内包含的所有话题，使用topic_number-logP(w|T)曲线确定最佳主题数，得到话题词典；

3-2)对每一条资讯按照话题词典标识为话题概率向量。

4)建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息，如图2推荐模型结构图所示：

4-1)利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征，采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重，最后通过逻辑回归计算用户的预测点击率。所述的关于注意力计算，采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重，注意力计算公式如下：

公式(1)中，n为用户历史浏览记录长度，

e_i＝v_a tanh(W_as_i+U_ah) (2)

4-2)对候选资讯按照预测点击率排序，取得分最高的前k个作为推荐结果。

本发明公开了一种基于注意力机制的资讯推荐方法，该方法利用爬虫程序爬取油田信息网内已有的资讯数据，对资讯分词并进行词向量化，使用LDA话题抽取技术获取资讯话题，对资讯进行话题向量化，使用循环神经网络提取用户历史记录的时序特征，通过注意力机制计算当前候选资讯与历史记录的关联权重，得到候选资讯的预估点击率，并按点击率排序为用户推荐资讯。解决了传统资讯推荐话题分类不灵活、用户体验差的缺点。本方法使用真实的油田内部资讯数据，真实客观，提高了推荐的精确性、多样性和可解释性，充分满足油田用户对资讯的个性化需求。

以上所述，仅是本发明的较佳实施例，任何熟悉本专业的技术人员可能利用上述阐述的技术方案加以改型或变更为等同变化的等同实例。凡未脱离本发明技术方案内容，依据发明的技术方案对上述实施例进行的任何简单修改、变更或改型，均属于发明技术方案的保护范围。

Claims

1.基于注意力机制的资讯推荐方法，其特征在于，该基于注意力机制的资讯推荐方法包括:

步骤1，获取油田信息网中的资讯信息；

步骤2，对爬取到的资讯信息数据进行预处理；

步骤3，对预处理完毕的资讯信息提取资讯话题并向量化；

步骤4，建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。

2.根据权利要求1所述的基于注意力机制的资讯推荐方法，其特征在于，在步骤1中，运行针对油田信息网的爬虫程序；在油田信息网内爬取实时产生的资讯信息；将爬取到的信息保存到数据库。

3.根据权利要求1所述的基于注意力机制的资讯推荐方法，其特征在于，在步骤2中，对所有资讯信息进行分词，过滤掉无用词，建立词典；使用词典对每条资讯热编码，得到每条资讯的词向量表示。

4.根据权利要求1所述的基于注意力机制的资讯推荐方法，其特征在于，在步骤3中，使用话题聚类方法分析所有资讯内包含的所有话题，确定最佳主题数，得到话题词典；对每一条资讯按照话题词典标识为话题概率向量。

5.根据权利要求1所述的基于注意力机制的资讯推荐方法，其特征在于，在步骤4中，利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征，采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重，最后通过逻辑回归计算用户的预测点击率；对候选资讯按照预测点击率排序，取得分最高的前k个作为推荐结果。

6.根据权利要求5所述的基于注意力机制的资讯推荐方法，其特征在于，在步骤4中，注意力α_i的计算公式为：

公式(1)中，n为用户历史浏览记录长度，

e_i＝v_a tanh(W_as_i+U_ah) (2)