CN113590908A - 基于注意力机制的资讯推荐方法 - Google Patents
基于注意力机制的资讯推荐方法 Download PDFInfo
- Publication number
- CN113590908A CN113590908A CN202010370986.7A CN202010370986A CN113590908A CN 113590908 A CN113590908 A CN 113590908A CN 202010370986 A CN202010370986 A CN 202010370986A CN 113590908 A CN113590908 A CN 113590908A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- recommendation method
- attention mechanism
- topics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于注意力机制的资讯推荐方法,该基于注意力机制的资讯推荐方法包括:步骤1,获取油田信息网中的资讯信息;步骤2,对爬取到的资讯信息数据进行预处理;骤3,对预处理完毕的资讯信息提取资讯话题并向量化;步骤4,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。该基于注意力机制的资讯推荐方法解决了传统资讯推荐话题分类不灵活、用户体验差的缺点,使用真实的油田内部资讯数据,真实客观,提高了推荐的精确性、多样性和可解释性,充分满足油田用户对资讯的个性化需求。
Description
技术领域
本发明涉及油田信息处理开发技术领域,特别是涉及到一种基于注意力机制的资讯推荐方法。
背景技术
近年来,随着胜利油田信息化建设步伐的加快,越来越多的油田相关的资讯内容出现在互联网上,对于油田相关工作人员,很难从海量的资讯内容中找到适合自己想看的内容,而且大部分资讯内容会出现长尾特征,即很少用户能够浏览到。研究如何提高油田信息对油田工作人员的曝光度,可以让工作人员及时看到重要资讯,辅助工作人员做出决策,对于提升油田工作效率和资源利用率有重要意义。
推荐技术是解决互联网大数据时代信息过载问题的关键技术,一方面可以增加用户对平台的粘度,提高用户体验,另一方面可以加快平台流量转化,提高平台转化效率,提升企业的收益。
目前,对于资讯类的推荐主要通过分类阅读的方式,需要用户指定资讯的类别信息,推荐平台才会展示给用户近段时间的对应类别的资讯,这种方法不仅浪费用户的搜索时间,对于一些类别不明确的资讯也不能很好的处理。
话题聚类技术通过无监督的学习方式自动学习文档包括的话题分布,针对油田资讯报道持续时间长、涉及层面广、涵盖事件多等特点,话题聚类可以为文本资讯信息建立以话题为单位的信息存储形式。序列分析是指按时间顺序记录分析系统各部分变化的内在规律,应用用户的历史记录数据,预测用户未来时刻的行为发展趋势。
现有资讯推荐技术主要利用资讯的相似度信息,推荐内容同质化严重,缺少多样性,无法引导用户探索更多类别的资讯,用户体验效果较差;另外现有技术对于用户的兴趣提取可解释性差,很难从理论上说明用户的具体兴趣表示。
为此我们发明了一种新的基于注意力机制的资讯推荐方法,解决了以上技术问题。
发明内容
本发明的目的是提供一种解决资讯推荐手动分类工作量大,用户交互不友好的问题,针对油田类的资讯新闻的基于注意力机制的资讯推荐方法。
本发明的目的可通过如下技术措施来实现:基于注意力机制的资讯推荐方法,该基于注意力机制的资讯推荐方法包括:步骤1,获取油田信息网中的资讯信息;步骤2,对爬取到的资讯信息数据进行预处理;步骤3,对预处理完毕的资讯信息提取资讯话题并向量化;步骤4,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。
本发明的目的还可通过如下技术措施来实现:
在步骤1中,运行针对油田信息网的爬虫程序;在油田信息网内爬取实时产生的资讯信息;将爬取到的信息保存到数据库。
在步骤2中,对所有资讯信息进行分词,过滤掉无用词,建立词典;使用词典对每条资讯热编码,得到每条资讯的词向量表示。
在步骤3中,使用话题聚类方法分析所有资讯内包含的所有话题,确定最佳主题数,得到话题词典;对每一条资讯按照话题词典标识为话题概率向量。
在步骤4中,利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率;对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
在步骤4中,注意力αi的计算公式为:
公式(1)中,n为用户历史浏览记录长度,
ei=va tanh(Wasi+Uah) (2)
公式(2)中,va、Wa、Ua为模型参数,si、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。
本发明中的基于注意力机制的资讯推荐方法,通过分析用户近段时间以来的浏览记录,利用分词技术对资讯数据库中所有数据进行分词,然后进行话题分析得到所有话题并对每条资讯进行话题标记,接下来对每个用户的历史记录通过循环神经网络提取序列特征,最后通过注意力机制计算用户历史对候选资讯的偏好特征,预测用户下一时刻的观看行为,此发明能够为用户推送符合用户兴趣的资讯内容,提高用户对油田信息网平台的浏览量。本发明的有益效果是:
1)本发明针对油田信息的特点使用LDA自动生成资讯的话题内容,扩展了类别的数量和多样性,使各种话题的曝光度得到提升。
2)本发明利用用户的历史记录建立了用户历史和候选资讯的注意力模型,可以更好的自适应用户的潜在兴趣,提高资讯和用户的匹配度,提升用户的浏览体验。
3)本发明采用实时交互的方式保存用户记录和推荐资讯,提高了系统的实时性。
附图说明
图1为本发明的基于注意力机制的资讯推荐方法的一具体实施例的流程图;
图2为本发明的一具体实施例中的推荐模型结构图。
图中:201.多层感知机,202.候选资讯。
具体实施方式
为使本发明的上述和其他目的、特征和优点能更明显易懂,下文特举出较佳实施例,并配合附图所示,作详细说明如下。
如图1所示,图1为本发明的基于注意力机制的资讯推荐方法的流程图。
步骤101,获取油田信息网中的资讯信息。运行针对油田信息网的爬虫程序;在油田信息网内爬取实时产生的资讯信息;将爬取到的信息保存到数据库。
步骤102,对爬取到的资讯信息数据预处理。对所有资讯信息进行分词,过滤掉无用词,建立词典;使用词典对每条资讯热编码,得到每条资讯的词向量表示。
步骤103,对预处理完毕的资讯信息提取资讯话题并向量化。使用话题聚类方法分析所有资讯内包含的所有话题,确定最佳主题数,得到话题词典;对每一条资讯按照话题词典标识为话题概率向量。
步骤104,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率。对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
所述的注意力计算公式,公式为:
公式(1)中,n为用户历史浏览记录长度,
ei=va tanh(Wasi+Uah) (2)
公式(2)中,va、Wa、Ua为模型参数,si、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。
在应用本发明的一具体实施例中,包括了以下步骤:
1)获取油田信息网中的资讯信息:
1-1)运行针对油田信息网的爬虫程序,每30分钟运行一次;
1-2)在胜利油田信息网内爬取实时产生的资讯信息;
1-3)将爬取到的信息保存到数据库。
2)对爬取到的资讯信息数据预处理:
2-1)对所有资讯信息用jieba分词库分词,过滤掉无用词,建立词典;
2-2)使用词典对每条资讯热编码,得到每条资讯的词向量表示。
3)对预处理完毕的资讯信息提取资讯话题并向量化:
3-1)使用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)话题聚类方法分析所有资讯内包含的所有话题,使用topic_number-logP(w|T)曲线确定最佳主题数,得到话题词典;
3-2)对每一条资讯按照话题词典标识为话题概率向量。
4)建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息,如图2推荐模型结构图所示:
4-1)利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率。所述的关于注意力计算,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,注意力计算公式如下:
公式(1)中,n为用户历史浏览记录长度,
ei=va tanh(Wasi+Uah) (2)
公式(2)中,va、Wa、Ua为模型参数,si、h分别为用户第i个浏览资讯的时序特征表示和当前资讯的向量表示。
4-2)对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
本发明公开了一种基于注意力机制的资讯推荐方法,该方法利用爬虫程序爬取油田信息网内已有的资讯数据,对资讯分词并进行词向量化,使用LDA话题抽取技术获取资讯话题,对资讯进行话题向量化,使用循环神经网络提取用户历史记录的时序特征,通过注意力机制计算当前候选资讯与历史记录的关联权重,得到候选资讯的预估点击率,并按点击率排序为用户推荐资讯。解决了传统资讯推荐话题分类不灵活、用户体验差的缺点。本方法使用真实的油田内部资讯数据,真实客观,提高了推荐的精确性、多样性和可解释性,充分满足油田用户对资讯的个性化需求。
以上所述,仅是本发明的较佳实施例,任何熟悉本专业的技术人员可能利用上述阐述的技术方案加以改型或变更为等同变化的等同实例。凡未脱离本发明技术方案内容,依据发明的技术方案对上述实施例进行的任何简单修改、变更或改型,均属于发明技术方案的保护范围。
Claims (6)
1.基于注意力机制的资讯推荐方法,其特征在于,该基于注意力机制的资讯推荐方法包括:
步骤1,获取油田信息网中的资讯信息;
步骤2,对爬取到的资讯信息数据进行预处理;
步骤3,对预处理完毕的资讯信息提取资讯话题并向量化;
步骤4,建立用户兴趣偏好模型结合资讯数据库为用户推荐匹配的资讯信息。
2.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤1中,运行针对油田信息网的爬虫程序;在油田信息网内爬取实时产生的资讯信息;将爬取到的信息保存到数据库。
3.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤2中,对所有资讯信息进行分词,过滤掉无用词,建立词典;使用词典对每条资讯热编码,得到每条资讯的词向量表示。
4.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤3中,使用话题聚类方法分析所有资讯内包含的所有话题,确定最佳主题数,得到话题词典;对每一条资讯按照话题词典标识为话题概率向量。
5.根据权利要求1所述的基于注意力机制的资讯推荐方法,其特征在于,在步骤4中,利用循环神经网络得到用户历史浏览资讯的话题向量表示的时序特征,采用注意力计算公式计算当前资讯与历史浏览资讯的关联权重,最后通过逻辑回归计算用户的预测点击率;对候选资讯按照预测点击率排序,取得分最高的前k个作为推荐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370986.7A CN113590908A (zh) | 2020-04-30 | 2020-04-30 | 基于注意力机制的资讯推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370986.7A CN113590908A (zh) | 2020-04-30 | 2020-04-30 | 基于注意力机制的资讯推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590908A true CN113590908A (zh) | 2021-11-02 |
Family
ID=78237963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010370986.7A Pending CN113590908A (zh) | 2020-04-30 | 2020-04-30 | 基于注意力机制的资讯推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590908A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357785A (zh) * | 2022-08-05 | 2022-11-18 | 山东省计算中心(国家超级计算济南中心) | 一种基于语义交互和局部激活的企业资讯推荐方法 |
CN118245684A (zh) * | 2024-05-28 | 2024-06-25 | 成都信通信息技术有限公司 | 一种适用于跨境贸易的资讯推送方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809154A (zh) * | 2015-03-19 | 2015-07-29 | 百度在线网络技术(北京)有限公司 | 用于资讯推荐的方法及装置 |
CN107767174A (zh) * | 2017-10-19 | 2018-03-06 | 厦门美柚信息科技有限公司 | 一种广告点击率的预测方法及装置 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109992710A (zh) * | 2019-02-13 | 2019-07-09 | 网易传媒科技(北京)有限公司 | 点击率预估方法、系统、介质和计算设备 |
CN110399565A (zh) * | 2019-07-29 | 2019-11-01 | 北京理工大学 | 基于时空周期注意力机制的递归神经网络兴趣点推荐方法 |
-
2020
- 2020-04-30 CN CN202010370986.7A patent/CN113590908A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809154A (zh) * | 2015-03-19 | 2015-07-29 | 百度在线网络技术(北京)有限公司 | 用于资讯推荐的方法及装置 |
CN107767174A (zh) * | 2017-10-19 | 2018-03-06 | 厦门美柚信息科技有限公司 | 一种广告点击率的预测方法及装置 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109992710A (zh) * | 2019-02-13 | 2019-07-09 | 网易传媒科技(北京)有限公司 | 点击率预估方法、系统、介质和计算设备 |
CN110399565A (zh) * | 2019-07-29 | 2019-11-01 | 北京理工大学 | 基于时空周期注意力机制的递归神经网络兴趣点推荐方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357785A (zh) * | 2022-08-05 | 2022-11-18 | 山东省计算中心(国家超级计算济南中心) | 一种基于语义交互和局部激活的企业资讯推荐方法 |
CN115357785B (zh) * | 2022-08-05 | 2023-06-30 | 山东省计算中心(国家超级计算济南中心) | 一种基于语义交互和局部激活的企业资讯推荐方法 |
CN118245684A (zh) * | 2024-05-28 | 2024-06-25 | 成都信通信息技术有限公司 | 一种适用于跨境贸易的资讯推送方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
WO2021203819A1 (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN111222332B (zh) | 一种结合注意力网络和用户情感的商品推荐方法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN105279495A (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
Jin et al. | Task-oriented web user modeling for recommendation | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN110909542B (zh) | 智能语义串并分析方法及系统 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN113590908A (zh) | 基于注意力机制的资讯推荐方法 | |
CN112529638A (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN116010696A (zh) | 融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
Wang et al. | Intelligent painting identification based on image perception in multimedia enterprise | |
CN113220994A (zh) | 基于目标物品增强表示的用户个性化信息推荐方法 | |
Xia | Label oriented hierarchical attention neural network for short text classification | |
CN114595693A (zh) | 一种基于深度学习的文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |