CN113590908A - 基于注意力机制的资讯推荐方法 - Google Patents

基于注意力机制的资讯推荐方法 Download PDF

Info

Publication number
CN113590908A
CN113590908A CN202010370986.7A CN202010370986A CN113590908A CN 113590908 A CN113590908 A CN 113590908A CN 202010370986 A CN202010370986 A CN 202010370986A CN 113590908 A CN113590908 A CN 113590908A
Authority
CN
China
Prior art keywords
information
user
recommendation method
attention mechanism
topics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010370986.7A
Other languages
English (en)
Inventor
史纪强
阮德茂
郑云拓
魏霞
陈鹏
王文蔚
金伏东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Chemical Corp
Geophysical Research Institute of Sinopec Shengli Oilfield Co
Original Assignee
China Petroleum and Chemical Corp
Geophysical Research Institute of Sinopec Shengli Oilfield Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Chemical Corp, Geophysical Research Institute of Sinopec Shengli Oilfield Co filed Critical China Petroleum and Chemical Corp
Priority to CN202010370986.7A priority Critical patent/CN113590908A/zh
Publication of CN113590908A publication Critical patent/CN113590908A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于注意力机制的资讯推荐方法,该基于注意力机制的资讯推荐方法包括:步骤1,获取油田信息网中的资讯信息;步骤2,对爬取到的资讯信息数据进行预处理;骤3,对预处理完毕的资讯信息提取资讯话题并向量化;步骤4,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。该基于注意力机制的资讯推荐方法解决了传统资讯推荐话题分类不灵活、用户体验差的缺点,使用真实的油田内部资讯数据,真实客观,提高了推荐的精确性、多样性和可解释性,充分满足油田用户对资讯的个性化需求。

Description

基于注意力机制的资讯推荐方法
技术领域
本发明涉及油田信息处理开发技术领域,特别是涉及到一种基于注意力机制的资讯推荐方法。
背景技术
近年来,随着胜利油田信息化建设步伐的加快,越来越多的油田相关的资讯内容出现在互联网上,对于油田相关工作人员,很难从海量的资讯内容中找到适合自己想看的内容,而且大部分资讯内容会出现长尾特征,即很少用户能够浏览到。研究如何提高油田信息对油田工作人员的曝光度,可以让工作人员及时看到重要资讯,辅助工作人员做出决策,对于提升油田工作效率和资源利用率有重要意义。
推荐技术是解决互联网大数据时代信息过载问题的关键技术,一方面可以增加用户对平台的粘度,提高用户体验,另一方面可以加快平台流量转化,提高平台转化效率,提升企业的收益。
目前,对于资讯类的推荐主要通过分类阅读的方式,需要用户指定资讯的类别信息,推荐平台才会展示给用户近段时间的对应类别的资讯,这种方法不仅浪费用户的搜索时间,对于一些类别不明确的资讯也不能很好的处理。
话题聚类技术通过无监督的学习方式自动学习文档包括的话题分布,针对油田资讯报道持续时间长、涉及层面广、涵盖事件多等特点,话题聚类可以为文本资讯信息建立以话题为单位的信息存储形式。序列分析是指按时间顺序记录分析系统各部分变化的内在规律,应用用户的历史记录数据,预测用户未来时刻的行为发展趋势。
现有资讯推荐技术主要利用资讯的相似度信息,推荐内容同质化严重,缺少多样性,无法引导用户探索更多类别的资讯,用户体验效果较差;另外现有技术对于用户的兴趣提取可解释性差,很难从理论上说明用户的具体兴趣表示。
为此我们发明了一种新的基于注意力机制的资讯推荐方法,解决了以上技术问题。
发明内容
本发明的目的是提供一种解决资讯推荐手动分类工作量大,用户交互不友好的问题,针对油田类的资讯新闻的基于注意力机制的资讯推荐方法。
本发明的目的可通过如下技术措施来实现:基于注意力机制的资讯推荐方法,该基于注意力机制的资讯推荐方法包括:步骤1,获取油田信息网中的资讯信息;步骤2,对爬取到的资讯信息数据进行预处理;步骤3,对预处理完毕的资讯信息提取资讯话题并向量化;步骤4,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。
本发明的目的还可通过如下技术措施来实现:
在步骤1中,运行针对油田信息网的爬虫程序;在油田信息网内爬取实时产生的资讯信息;将爬取到的信息保存到数据库。
在步骤2中,对所有资讯信息进行分词,过滤掉无用词,建立词典;使用词典对每条资讯热编码,得到每条资讯的词向量表示。
在步骤3中,使用话题聚类方法分析所有资讯内包含的所有话题,确定最佳主题数,得到话题词典;对每一条资讯按照话题词典标识为话题概率向量。
在步骤4中,利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率;对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
在步骤4中,注意力αi的计算公式为:
Figure BDA0002475754740000021
公式(1)中,n为用户历史浏览记录长度,
ei=va tanh(Wasi+Uah) (2)
公式(2)中,va、Wa、Ua为模型参数,si、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。
本发明中的基于注意力机制的资讯推荐方法,通过分析用户近段时间以来的浏览记录,利用分词技术对资讯数据库中所有数据进行分词,然后进行话题分析得到所有话题并对每条资讯进行话题标记,接下来对每个用户的历史记录通过循环神经网络提取序列特征,最后通过注意力机制计算用户历史对候选资讯的偏好特征,预测用户下一时刻的观看行为,此发明能够为用户推送符合用户兴趣的资讯内容,提高用户对油田信息网平台的浏览量。本发明的有益效果是:
1)本发明针对油田信息的特点使用LDA自动生成资讯的话题内容,扩展了类别的数量和多样性,使各种话题的曝光度得到提升。
2)本发明利用用户的历史记录建立了用户历史和候选资讯的注意力模型,可以更好的自适应用户的潜在兴趣,提高资讯和用户的匹配度,提升用户的浏览体验。
3)本发明采用实时交互的方式保存用户记录和推荐资讯,提高了系统的实时性。
附图说明
图1为本发明的基于注意力机制的资讯推荐方法的一具体实施例的流程图;
图2为本发明的一具体实施例中的推荐模型结构图。
图中:201.多层感知机,202.候选资讯。
具体实施方式
为使本发明的上述和其他目的、特征和优点能更明显易懂,下文特举出较佳实施例,并配合附图所示,作详细说明如下。
如图1所示,图1为本发明的基于注意力机制的资讯推荐方法的流程图。
步骤101,获取油田信息网中的资讯信息。运行针对油田信息网的爬虫程序;在油田信息网内爬取实时产生的资讯信息;将爬取到的信息保存到数据库。
步骤102,对爬取到的资讯信息数据预处理。对所有资讯信息进行分词,过滤掉无用词,建立词典;使用词典对每条资讯热编码,得到每条资讯的词向量表示。
步骤103,对预处理完毕的资讯信息提取资讯话题并向量化。使用话题聚类方法分析所有资讯内包含的所有话题,确定最佳主题数,得到话题词典;对每一条资讯按照话题词典标识为话题概率向量。
步骤104,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率。对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
所述的注意力计算公式,公式为:
Figure BDA0002475754740000041
公式(1)中,n为用户历史浏览记录长度,
ei=va tanh(Wasi+Uah) (2)
公式(2)中,va、Wa、Ua为模型参数,si、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。
在应用本发明的一具体实施例中,包括了以下步骤:
1)获取油田信息网中的资讯信息:
1-1)运行针对油田信息网的爬虫程序,每30分钟运行一次;
1-2)在胜利油田信息网内爬取实时产生的资讯信息;
1-3)将爬取到的信息保存到数据库。
2)对爬取到的资讯信息数据预处理:
2-1)对所有资讯信息用jieba分词库分词,过滤掉无用词,建立词典;
2-2)使用词典对每条资讯热编码,得到每条资讯的词向量表示。
3)对预处理完毕的资讯信息提取资讯话题并向量化:
3-1)使用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)话题聚类方法分析所有资讯内包含的所有话题,使用topic_number-logP(w|T)曲线确定最佳主题数,得到话题词典;
3-2)对每一条资讯按照话题词典标识为话题概率向量。
4)建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息,如图2推荐模型结构图所示:
4-1)利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率。所述的关于注意力计算,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,注意力计算公式如下:
Figure BDA0002475754740000051
公式(1)中,n为用户历史浏览记录长度,
ei=va tanh(Wasi+Uah) (2)
公式(2)中,va、Wa、Ua为模型参数,si、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。
4-2)对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
本发明公开了一种基于注意力机制的资讯推荐方法,该方法利用爬虫程序爬取油田信息网内已有的资讯数据,对资讯分词并进行词向量化,使用LDA话题抽取技术获取资讯话题,对资讯进行话题向量化,使用循环神经网络提取用户历史记录的时序特征,通过注意力机制计算当前候选资讯与历史记录的关联权重,得到候选资讯的预估点击率,并按点击率排序为用户推荐资讯。解决了传统资讯推荐话题分类不灵活、用户体验差的缺点。本方法使用真实的油田内部资讯数据,真实客观,提高了推荐的精确性、多样性和可解释性,充分满足油田用户对资讯的个性化需求。
以上所述,仅是本发明的较佳实施例,任何熟悉本专业的技术人员可能利用上述阐述的技术方案加以改型或变更为等同变化的等同实例。凡未脱离本发明技术方案内容,依据发明的技术方案对上述实施例进行的任何简单修改、变更或改型,均属于发明技术方案的保护范围。

Claims (6)

1.基于注意力机制的资讯推荐方法,其特征在于,该基于注意力机制的资讯推荐方法包括:
步骤1,获取油田信息网中的资讯信息;
步骤2,对爬取到的资讯信息数据进行预处理;
步骤3,对预处理完毕的资讯信息提取资讯话题并向量化;
步骤4,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。
2.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤1中,运行针对油田信息网的爬虫程序;在油田信息网内爬取实时产生的资讯信息;将爬取到的信息保存到数据库。
3.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤2中,对所有资讯信息进行分词,过滤掉无用词,建立词典;使用词典对每条资讯热编码,得到每条资讯的词向量表示。
4.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤3中,使用话题聚类方法分析所有资讯内包含的所有话题,确定最佳主题数,得到话题词典;对每一条资讯按照话题词典标识为话题概率向量。
5.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤4中,利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率;对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
6.根据权利要求5所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤4中,注意力αi的计算公式为:
Figure FDA0002475754730000011
公式(1)中,n为用户历史浏览记录长度,
ei=va tanh(Wasi+Uah) (2)
公式(2)中,va、Wa、Ua为模型参数,si、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。
CN202010370986.7A 2020-04-30 2020-04-30 基于注意力机制的资讯推荐方法 Pending CN113590908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010370986.7A CN113590908A (zh) 2020-04-30 2020-04-30 基于注意力机制的资讯推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010370986.7A CN113590908A (zh) 2020-04-30 2020-04-30 基于注意力机制的资讯推荐方法

Publications (1)

Publication Number Publication Date
CN113590908A true CN113590908A (zh) 2021-11-02

Family

ID=78237963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010370986.7A Pending CN113590908A (zh) 2020-04-30 2020-04-30 基于注意力机制的资讯推荐方法

Country Status (1)

Country Link
CN (1) CN113590908A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357785A (zh) * 2022-08-05 2022-11-18 山东省计算中心(国家超级计算济南中心) 一种基于语义交互和局部激活的企业资讯推荐方法
CN118245684A (zh) * 2024-05-28 2024-06-25 成都信通信息技术有限公司 一种适用于跨境贸易的资讯推送方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置
CN107767174A (zh) * 2017-10-19 2018-03-06 厦门美柚信息科技有限公司 一种广告点击率的预测方法及装置
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109992710A (zh) * 2019-02-13 2019-07-09 网易传媒科技(北京)有限公司 点击率预估方法、系统、介质和计算设备
CN110399565A (zh) * 2019-07-29 2019-11-01 北京理工大学 基于时空周期注意力机制的递归神经网络兴趣点推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置
CN107767174A (zh) * 2017-10-19 2018-03-06 厦门美柚信息科技有限公司 一种广告点击率的预测方法及装置
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109992710A (zh) * 2019-02-13 2019-07-09 网易传媒科技(北京)有限公司 点击率预估方法、系统、介质和计算设备
CN110399565A (zh) * 2019-07-29 2019-11-01 北京理工大学 基于时空周期注意力机制的递归神经网络兴趣点推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357785A (zh) * 2022-08-05 2022-11-18 山东省计算中心(国家超级计算济南中心) 一种基于语义交互和局部激活的企业资讯推荐方法
CN115357785B (zh) * 2022-08-05 2023-06-30 山东省计算中心(国家超级计算济南中心) 一种基于语义交互和局部激活的企业资讯推荐方法
CN118245684A (zh) * 2024-05-28 2024-06-25 成都信通信息技术有限公司 一种适用于跨境贸易的资讯推送方法和系统

Similar Documents

Publication Publication Date Title
CN109492157B (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
WO2021203819A1 (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN107506472B (zh) 一种学生浏览网页分类方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
Jin et al. Task-oriented web user modeling for recommendation
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN110909542B (zh) 智能语义串并分析方法及系统
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN113590908A (zh) 基于注意力机制的资讯推荐方法
CN112529638A (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN116010696A (zh) 融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
Wang et al. Intelligent painting identification based on image perception in multimedia enterprise
CN113220994A (zh) 基于目标物品增强表示的用户个性化信息推荐方法
Xia Label oriented hierarchical attention neural network for short text classification
CN114595693A (zh) 一种基于深度学习的文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination