CN115357785B - 一种基于语义交互和局部激活的企业资讯推荐方法 - Google Patents
一种基于语义交互和局部激活的企业资讯推荐方法 Download PDFInfo
- Publication number
- CN115357785B CN115357785B CN202210936398.4A CN202210936398A CN115357785B CN 115357785 B CN115357785 B CN 115357785B CN 202210936398 A CN202210936398 A CN 202210936398A CN 115357785 B CN115357785 B CN 115357785B
- Authority
- CN
- China
- Prior art keywords
- information
- word
- sequence
- candidate
- click information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种基于语义交互和局部激活的企业资讯推荐方法,通过SIN企业资讯编码器可以在标题和内容之间进行单词级语义交互,缓解了独立编码标题和内容时的语义偏差,有效增强了企业资讯表示。通过LAU用户编码器更加符合用户的真实的行为习惯,可以分区域处理用户点击历史,以细粒度的方式有效捕获用户的各种潜在兴趣。提出的LAU用户编码器可以利用候选企业资讯激活相关的关键性潜在兴趣,并结合注意力机制使其保留到了最终交互阶段,这有效增强了用户兴趣表示;上述三点的成功使得我们的方法有效提高了企业资讯推荐的准确性。
Description
技术领域
本发明涉及个性化资讯推荐技术领域,具体涉及一种基于语义交互和局部激活的企业资讯推荐方法。
背景技术
个性化企业资讯推荐对于帮助用户找到感兴趣的企业资讯和改善阅读体验非常重要。基于深度学习的企业资讯推荐技术解决了传统推荐需要大量特征工程和专家知识的问题,其关键在于两个方面。一方面是为用户学习一个嵌入表示以准确描述用户兴趣,另一方面是为企业资讯学习一个嵌入表示以准确描述资讯语义信息。
对于企业资讯表示学习,现有工作主要集中在设计一个企业资讯编码器从其标题、内容及类别等信息中提取语义特征。对于用户表示学习,现有的工作主要集中在设计一个用户编码器从其点击的历史资讯中推断用户兴趣。现阶段常用的企业资讯编码器和用户编码器主要面临以下几个问题:
(1)将标题和内容视为两个独立的视图分别进行编码,没有在标题和内容之间进行充分的语义交互,这种方式造成对企业资讯理解不够充分;
(2)通常将用户的点击历史视为一个整体进行表示学习,这无法捕获用户点击历史中细粒度的潜在兴趣;
(3)大都没有考虑候选资讯对用户兴趣表达的影响,这可能导致用户表示学习过程中的重要信息不能“幸存”到最终交互阶段。
发明内容
本发明为了克服以上技术的不足,提供了一种在获得良好嵌入表示的基础上有效提高了企业资讯推荐准确性的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于语义交互和局部激活的企业资讯推荐方法,包括如下步骤:
a)获取用户按时间降序的历史点击资讯序列数据V=[v1,v2,...,vi,...,vF]和候选企业资讯其中vi为第i个历史点击的资讯,i∈{1,...F},F为历史点击的资讯数量,/>为第i个候选企业资讯,i∈{1,...O},O为候选企业资讯数量;
b)将用户的历史点击资讯序列数据V和候选企业资讯Vcd分别输入到SIN企业资讯编码器中,分别得到历史点击资讯嵌入表示序列R=[r1,r2,...,ri,...,rF]和候选企业资讯嵌入表示其中ri为第i个历史点击资讯嵌入表示,i∈{1,...F},/>为第i个候选企业资讯嵌入表示,i∈{1,...O};
c)将历史点击资讯嵌入表示序列R和候选企业资讯嵌入表示Rcd输入到LAU用户编码器,得到最终的用户嵌入表示u;
优选的,步骤a)中F取值为50。
进一步的,步骤b)包括如下步骤:
b-1)使用Snownlp分词工具将每一条历史点击资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的历史点击资讯的标题分词序列[xt,1,xt,2,...,xt,i,...,xt,N]和截取最大长度为M的历史点击资讯的内容分词序列[xc,1,xc,2,...,xc,i,...,xc,M],其中xt,i为第i个历史点击资讯的标题分词,i∈{1,...N},xc,i为第i个历史点击资讯的内容分词,i∈{1,...M},使用预训练的300维Glove中文词将历史点击资讯的标题分词序列[xt,1,xt,2,...,xt,i,...,xt,N]映射为历史点击资讯的标题分词向量序列[et,1,et,2,…,et,i,…,et,N],将历史点击资讯的内容分词序列[xc,1,xc,2,...,xc,i,...,xc,M]映射为历史点击资讯的内容分词向量序列[ec,1,ec,2,...,ec,i,...,ec,M];
b-2)使用Snownlp分词工具将每一条候选企业资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的候选企业资讯的标题分词序列和截取最大长度为M的候选企业资讯的内容分词序列/>其中为第i个候选企业资讯的标题分词,i∈{1,...N},/>为第i个候选企业资讯的内容分词,i∈{1,...M},使用预训练的300维Glove中文词将候选企业资讯的标题分词序列映射为候选企业资讯的标题分词向量序列,将候选企业资讯的内容分词序列映射为候选企业资讯的内容分词向量序列
b-3)将历史点击资讯的标题分词向量序列[et,1,et,2,...,et,i,...,et,N]和历史点击资讯的内容分词向量序列[ec,1,ec,2,...,ec,i,…,ec,M]分别输入到SE-NET模型中,得到历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]和历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,...,e′c,i,...,e′c,M],将候选企业资讯的标题分词向量序列和候选企业资讯的内容分词向量序列分别输入到SE-NET模型中,得到候选企业资讯的缩放后标题词序列/>和候选企业资讯的缩放后内容词序列b-4)将历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]与历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,...,e′c,i,...,e′c,M]拼接后得到历史点击资讯的分词向量序列[e′1,e′2,…,e′i,…,e′N+M],e′i为第i个拼接后得到历史点击资讯的分词向量,i∈{1,…,N+M},将候选企业资讯的缩放后标题词序列/>和候选企业资讯的缩放后内容词序列拼接后得到候选企业资讯的分词向量序列为第i个拼接后得到候选企业资讯的分词向量;
b-5)通过多头自注意力网络分别建模历史点击资讯的分词向量序列[e′1,e′2,…,e′i,…,e′N+M]和候选企业资讯的分词向量序列的相互作用关系,得到语义交互增强后的历史点击资讯的分词向量序列/>及语义交互增强后的候选企业资讯的分词向量序列/>其中/>为第i个语义交互增强后的历史点击资讯的分词向量,i∈{1,…,N+M},/>为第i个语义交互增强后的候选企业资讯的分词向量,i∈{1,...,N+M};
b-6)通过公式计算得到第i个语义交互增强后的历史点击资讯的分词的注意力融合权重βword,i,式中aword,i为第i个语义交互增强后的历史点击资讯的分词的权重,/>Wword和bword均为词注意力网络中的投影参数,qword为分词的查询向量,T为转置,通过公式/>计算得到第i个语义交互增强后的候选企业资讯的分词的注意力融合权重/>,式中/>为第i个语义交互增强后的候选企业资讯的分词的权重, 和/>均为词注意力网络中的投影参数,为分词的查询向量;
优选的,步骤b-1)及步骤b-2)中N取值为32,M取值为128。
进一步的,步骤b-3)SE-NET模型中历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]及候选企业资讯的缩放后标题词序列的降维超参数为zt,zt=4,SE-NET模型中历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,...,e′c,i,...,e′c,M]及候选企业资讯的缩放后内容词序列的降维参数为zc,zc=16。进一步的,步骤b-5)包括如下步骤:
b-5.1)通过公式计算得到历史点击资讯的第h个自注意力头中第i个分词表示/>式中/>为历史点击资讯的第h个自注意力头中第i个分词和第j个分词之间的注意力分数,/>为第h个自注意力头中的线性映射矩阵,e′j为第j个拼接后得到历史点击资讯的分词向量,j∈{1,...,N+M},式中/>及/>均为第h个自注意力头中的线性映射矩阵,e′n为第n个拼接后得到历史点击资讯的分词向量,n∈{1,...,N+M};
b-5.3)通过公式计算得到候选企业资讯的第h个自注意力头中第i个分词表示/>式中/>为候选企业资讯的第h个自注意力头中第i个分词和第j个分词之间的注意力分数,/>为第h个自注意力头中的线性映射矩阵,为第j个拼接后得到候选企业资讯的分词向量,j∈{1,...,N+M},式中/>及/>均为第h个自注意力头中的线性映射矩阵,/>为第n个拼接后得到候选企业资讯的分词向量,n∈{1,...,N+M};
进一步的,步骤c)包括如下步骤:
c-1)将历史点击资讯嵌入表示序列R输入到SE-NET模型中,输出得到缩放后的历史点击资讯嵌入表示序列R′=[r1′,r′2,...,r′i,...,r′F],r′i为第i个缩放后的历史点击资讯嵌入表示,i∈{1,...F};
c-3)通过公式计算得到第i个候选企业资讯的最终局部兴趣表示/>和第i个历史点击资讯的最终局部兴趣表示/>的相关系数βcd,i,式中acd,i为第i个候选企业资讯嵌入表/>和第i个历史点击资讯的最终局部兴趣表示/>的相关系数权重,/>式中Wcd,1、bcd,1、Wcd,2及bcd,2均为双线性注意力的投影参数,Dq为查询向量长度,Dq=200;
进一步的,步骤c-1)中SE-NET模型中得到缩放后的历史点击资讯嵌入表示序列R′=[r′1,r′2,...,r′i,...,r′F]的降维超参数为zu,zu=5。
步骤c-2)中通过公式计算得到第i个历史点击资讯的最终局部兴趣表示/>σft(·)为RELU非线性激活函数,Wft及bft均为CNN网络中过滤器中的可学习参数,/>为缩放后的历史点击资讯嵌入表示序列R′中第i-k个缩放后的历史点击资讯嵌入表示到第i+k个缩放后的历史点击资讯嵌入表示的连接,k为CNN网络中滑动窗口的步长,k=1。本发明的有益效果是:通过SIN企业资讯编码器可以在标题和内容之间进行单词级语义交互,缓解了独立编码标题和内容时的语义偏差,有效增强了企业资讯表示。通过LAU用户编码器更加符合用户的真实的行为习惯,可以分区域处理用户点击历史,以细粒度的方式有效捕获用户的各种潜在兴趣。提出的LAU用户编码器可以利用候选企业资讯激活相关的关键性潜在兴趣,并结合注意力机制使其保留到了最终交互阶段,这有效增强了用户兴趣表示;上述三点的成功使得我们的方法有效提高了企业资讯推荐的准确性。
附图说明
图1为本发明的模型架构图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于语义交互和局部激活的企业资讯推荐方法,该方法的关键包括SIN企业资讯编码器和LAU用户编码器。SIN使用自注意力网络建模企业资讯标题和内容间单词级别语义交互以提高企业资讯嵌入表示质量。LAU在充分考虑用户兴趣变化模式的前提下,对用户点击历史序列进行切片处理以感知细粒度局部兴趣,并利用候选企业资讯和局部兴趣之间的相关性激活局部兴趣,进一步提高用户嵌入表示质量。在获得良好嵌入表示的基础上有效提高了企业资讯推荐的准确性。具体的包括如下步骤:
a)获取用户按时间降序的历史点击资讯序列数据V=[v1,v2,...,vi,...,vF]和候选企业资讯其中vi为第i个历史点击的资讯,i∈{1,...F},F为历史点击的资讯数量,/>为第i个候选企业资讯,i∈{1,...O},O为候选企业资讯数量。
b)将用户的历史点击资讯序列数据V和候选企业资讯Vcd分别输入到SIN企业资讯编码器中,分别得到历史点击资讯嵌入表示序列R=[r1,r2,...,ri,...,rF]和候选企业资讯嵌入表示其中ri为第i个历史点击资讯嵌入表示,i∈{1,...F},/>为第i个候选企业资讯嵌入表示,i∈{1,…O}。SIN企业资讯编码器旨在从资讯标题和资讯内容中学习企业资讯嵌入表示。
c)将历史点击资讯嵌入表示序列R和候选企业资讯嵌入表示Rcd输入到LAU用户编码器,得到最终的用户嵌入表示u。LAU用户编码器旨在从用户的点击历史中学习细粒度局部兴趣,并利用候选企业资讯和局部兴趣之间的相关性知道最终用户兴趣表达。
通过SIN企业资讯编码器可以在标题和内容之间进行单词级语义交互,缓解了独立编码标题和内容时的语义偏差,有效增强了企业资讯表示。通过LAU用户编码器更加符合用户的真实的行为习惯,可以分区域处理用户点击历史,以细粒度的方式有效捕获用户的各种潜在兴趣。提出的LAU用户编码器可以利用候选企业资讯激活相关的关键性潜在兴趣,并结合注意力机制使其保留到了最终交互阶段,这有效增强了用户兴趣表示;上述三点的成功使得我们的方法有效提高了企业资讯推荐的准确性。
实施例1:
步骤a)中F取值为50。
实施例2:
步骤b)包括如下步骤:
b-1)使用Snownlp分词工具将每一条历史点击资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的历史点击资讯的标题分词序列[xt,1,xt,2,...,xt,i,…,xt,N]和截取最大长度为M的历史点击资讯的内容分词序列[xc,1,xc,2,…,xc,i,…,xc,M],其中xt,i为第i个历史点击资讯的标题分词,i∈{1,…N},xc,i为第i个历史点击资讯的内容分词,i∈{1,...M},使用预训练的300维Glove中文词将历史点击资讯的标题分词序列[xt,1,xt,2,...,xt,i,...,xt,N]映射为历史点击资讯的标题分词向量序列[et,1,et,2,...,et,i,…,et,N],将历史点击资讯的内容分词序列[xc,1,xc,2,...,xc,i,...,xc,M]映射为历史点击资讯的内容分词向量序列[ec,1,ec,2,...,ec,i,…,ec,M]。
b-2)使用Snownlp分词工具将每一条候选企业资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的候选企业资讯的标题分词序列和截取最大长度为M的候选企业资讯的内容分词序列/>其中为第i个候选企业资讯的标题分词,i∈{1,…N},/>为第i个候选企业资讯的内容分词,i∈{1,…M},使用预训练的300维Glove中文词将候选企业资讯的标题分词序列映射为候选企业资讯的标题分词向量序列将候选企业资讯的内容分词序列映射为候选企业资讯的内容分词向量序列
b-3)为了增强重要分词权重,降低噪声分词权重,将历史点击资讯的标题分词向量序列[et,1,et,2,...,et,i,...,et,N]和历史点击资讯的内容分词向量序列[ec,1,ec,2,...,ec,i,...,ec,M]分别输入到SE-NET模型中,得到历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]和历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,...,e′c,i,...,e′c,M],将候选企业资讯的标题分词向量序列和候选企业资讯的内容分词向量序列/>分别输入到SE-NET模型中,得到候选企业资讯的缩放后标题词序列/>和候选企业资讯的缩放后内容词序列/>
b-4)为了增强资讯标题和资讯内容之间的语义交互,将历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]与历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,...,e′c,i,...,e′c,M]拼接后得到历史点击资讯的分词向量序列[e′1,e′2,...,e′i,...,e′N+M],e′i为第i个拼接后得到历史点击资讯的分词向量,i∈{1,...,N+M},将候选企业资讯的缩放后标题词序列和候选企业资讯的缩放后内容词序列/>拼接后得到候选企业资讯的分词向量序列为第i个拼接后得到候选企业资讯的分词向量。
b-5)通过多头自注意力网络分别建模历史点击资讯的分词向量序列[e′1,e′2,...,e′i,...,e′N+M]和候选企业资讯的分词向量序列的相互作用关系,得到语义交互增强后的历史点击资讯的分词向量序列及语义交互增强后的候选企业资讯的分词向量序列其中/>为第i个语义交互增强后的历史点击资讯的分词向量,i∈{1,...,N+M},/>为第i个语义交互增强后的候选企业资讯的分词向量,i∈{1,...,N+M}。
b-6)最后使用词级注意力网络为不同的分词学习一个注意力融合权重,具体的,通过公式计算得到第i个语义交互增强后的历史点击资讯的分词的注意力融合权重βword,i,式中aword,i为第i个语义交互增强后的历史点击资讯的分词的权重,/>Wword和bword均为词注意力网络中的投影参数,qword为分词的查询向量,T为转置,通过公式/>计算得到第i个语义交互增强后的候选企业资讯的分词的注意力融合权重/>式中/>为第i个语义交互增强后的候选企业资讯的分词的权重,/> 和均为词注意力网络中的投影参数,/>为分词的查询向量。
实施例3:
步骤b-1)及步骤b-2)中N取值为32,M取值为128。
实施例4:
步骤b-3)SE-NET模型中历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]及候选企业资讯的缩放后标题词序列的降维超参数为zt,zt=4,SE-NET模型中历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,...,e′c,i,...,e′c,M]及候选企业资讯的缩放后内容词序列/>的降维参数为zc,zc=16。
实施例5:
步骤b-5)包括如下步骤:
b-5.1)通过公式计算得到历史点击资讯的第h个自注意力头中第i个分词表示/>,式中/>为历史点击资讯的第h个自注意力头中第i个分词和第j个分词之间的注意力分数,/>为第h个自注意力头中的线性映射矩阵,e′j为第j个拼接后得到历史点击资讯的分词向量,j∈{1,...,N+M},/>式中/>及/>均为第h个自注意力头中的线性映射矩阵,e′n为第n个拼接后得到历史点击资讯的分词向量,n∈{1,...,N+M}。
b-5.3)通过公式计算得到候选企业资讯的第h个自注意力头中第i个分词表示/>式中/>为候选企业资讯的第h个自注意力头中第i个分词和第j个分词之间的注意力分数,/>为第h个自注意力头中的线性映射矩阵,为第j个拼接后得到候选企业资讯的分词向量,j∈{1,...,N+M},式中/>及/>均为第h个自注意力头中的线性映射矩阵,/>为第n个拼接后得到候选企业资讯的分词向量,n∈{1,...,N+M}。
实施例6:
步骤c)包括如下步骤:
c-1)将历史点击资讯嵌入表示序列R输入到SE-NET模型中,输出得到缩放后的历史点击资讯嵌入表示序列R′=[r1′,r′2,...,ri′,...,r′F],ri′为第i个缩放后的历史点击资讯嵌入表示,i∈{1,...F}。
c-2)使用CNN网络在缩放后的历史点击资讯嵌入表示序列R′中提取用户点击历史点击资讯的最终局部兴趣表示序列为第i个历史点击资讯的最终局部兴趣表示,i∈{1,...F}。将历史点击资讯嵌入表示序列R或缩放后的历史点击资讯嵌入表示序列R′输入到SE-NET模型时,应用200个过滤器构建局部兴趣的多种模式,为了捕获更加细粒度局部兴趣,将滑动步幅设置为1。滑动窗口中心的企业资讯嵌入表示对局部兴趣表示学习十分重要,它被理解为用户在该区间时刻用户正在执行的点击操作。
c-3)最后使用双线性注意力网络来激活局部兴趣,区分不同局部兴趣的重要程度。具体的,通过公式计算得到第i个候选企业资讯的最终局部兴趣表示/>和第i个历史点击资讯的最终局部兴趣表示/>的相关系数βcd,i,式中acd,i为第i个候选企业资讯嵌入表/>和第i个历史点击资讯的最终局部兴趣表示/>的相关系数权重,式中Wcd,1、bcd,1、Wcd,2及bcd,2均为双线性注意力的投影参数,Dq为查询向量长度,Dq=200。
实施例7:
步骤c-1)中SE-NET模型中得到缩放后的历史点击资讯嵌入表示序列R′=[r1′,r′2,...,ri′,...,r′F]的降维超参数为zu,zu=5。
实施例8:
步骤c-2)中通过公式计算得到第i个历史点击资讯的最终局部兴趣表示/>σft(·)为RELU非线性激活函数,Wft及bft均为CNN网络中过滤器中的可学习参数,/>为缩放后的历史点击资讯嵌入表示序列R′中第i-k个缩放后的历史点击资讯嵌入表示到第i+k个缩放后的历史点击资讯嵌入表示的连接,k为CNN网络中滑动窗口的步长,k=1。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。/>
Claims (7)
1.一种基于语义交互和局部激活的企业资讯推荐方法,其特征在于,包括如下步骤:
a)获取用户按时间降序的历史点击资讯序列数据V=[v1,v2,...,vi,...,vF]和候选企业资讯其中vi为第i个历史点击的资讯,i∈{1,...F},F为历史点击的资讯数量,/>为第i个候选企业资讯,i∈{1,...O},O为候选企业资讯数量;
b)将用户的历史点击资讯序列数据V和候选企业资讯Vcd分别输入到SIN企业资讯编码器中,分别得到历史点击资讯嵌入表示序列R=[r1,r2,...,ri,...,rF]和候选企业资讯嵌入表示其中ri为第i个历史点击资讯嵌入表示,i∈{1,...F},ri cd为第i个候选企业资讯嵌入表示,i∈{1,...O};
c)将历史点击资讯嵌入表示序列R和候选企业资讯嵌入表示Rcd输入到LAU用户编码器,得到最终的用户嵌入表示u;
步骤b)包括如下步骤:
b-1)使用Snownlp分词工具将每一条历史点击资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的历史点击资讯的标题分词序列[xt,1,xt,2,...,xt,i,…,xt,N]和截取最大长度为M的历史点击资讯的内容分词序列[xc,1,xc,2,...,xc,i,...,xc,M],其中xt,i为第i个历史点击资讯的标题分词,i∈{1,...N},xc,i为第i个历史点击资讯的内容分词,i∈{1,…M},使用预训练的300维Glove中文词将历史点击资讯的标题分词序列[xt,1,xt,2,…,xt,i,...,xt,N]映射为历史点击资讯的标题分词向量序列[et,1,et,2,…,et,i,…,et,N],将历史点击资讯的内容分词序列[xc,1,xc,2,...,xc,i,...,xc,M]映射为历史点击资讯的内容分词向量序列[ec,1,ec,2,...,ec,i,...,ec,M];
b-2)使用Snownlp分词工具将每一条候选企业资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的候选企业资讯的标题分词序列和截取最大长度为M的候选企业资讯的内容分词序列/>其中/>为第i个候选企业资讯的标题分词,i∈{1,...N},/>为第i个候选企业资讯的内容分词,i∈{1,...M},使用预训练的300维Glove中文词将候选企业资讯的标题分词序列映射为候选企业资讯的标题分词向量序列将候选企业资讯的内容分词序列映射为候选企业资讯的内容分词向量序列
b-3)将历史点击资讯的标题分词向量序列[et,1,et,2,...,et,i,...,et,N]和历史点击资讯的内容分词向量序列[ec,1,ec,2,...,ec,i,...,ec,M]分别输入到SE-NET模型中,得到历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]和历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,...,e′c,i,...,e′c,M],将候选企业资讯的标题分词向量序列和候选企业资讯的内容分词向量序列分别输入到SE-NET模型中,得到候选企业资讯的缩放后标题词序列/>和候选企业资讯的缩放后内容词序列
b-4)将历史点击资讯的缩放后标题词序列[e′t,1,e′t,2,...,e′t,i,...,e′t,N]与历史点击资讯的缩放后内容词序列[e′c,1,e′c,2,…,e′c,i,...,e′c,M]拼接后得到历史点击资讯的分词向量序列[e′1,e′2,...,e′i,...,e′N+M],e′i为第i个拼接后得到历史点击资讯的分词向量,i∈{1,...,N+M},将候选企业资讯的缩放后标题词序列和候选企业资讯的缩放后内容词序列拼接后得到候选企业资讯的分词向量序列 为第i个拼接后得到候选企业资讯的分词向量;
b-5)通过多头自注意力网络分别建模历史点击资讯的分词向量序列[e′1,e′2,...,e′i,...,e′N+M]和候选企业资讯的分词向量序列的相互作用关系,得到语义交互增强后的历史点击资讯的分词向量序列/>及语义交互增强后的候选企业资讯的分词向量序列/>其中/>为第i个语义交互增强后的历史点击资讯的分词向量,i∈{1,...,N+M},/>为第i个语义交互增强后的候选企业资讯的分词向量,i∈{1,...,N+M};
b-6)通过公式计算得到第i个语义交互增强后的历史点击资讯的分词的注意力融合权重βword,i,式中aword,i为第i个语义交互增强后的历史点击资讯的分词的权重,/>Wword和bword均为词注意力网络中的投影参数,qword为分词的查询向量,T为转置,通过公式/>计算得到第i个语义交互增强后的候选企业资讯的分词的注意力融合权重/>式中/>为第i个语义交互增强后的候选企业资讯的分词的权重,/> 和/>均为词注意力网络中的投影参数,/>为分词的查询向量;
步骤c)包括如下步骤:
c-1)将历史点击资讯嵌入表示序列R输入到SE-NET模型中,输出得到缩放后的历史点击资讯嵌入表示序列R′=[r1′,r′2,...,ri′,...,r′F],ri′为第i个缩放后的历史点击资讯嵌入表示,i∈{1,...F};
c-3)通过公式计算得到第i个候选企业资讯的最终局部兴趣表示/>和第i个历史点击资讯的最终局部兴趣表示/>的相关系数βcd,i,式中acd,i为第i个候选企业资讯嵌入表ri cd和第i个历史点击资讯的最终局部兴趣表示/>的相关系数权重,式中Wcd,1、bcd,1、Wcd,2及bcd,2均为双线性注意力的投影参数,Dq为查询向量长度,Dq=200;
2.根据权利要求1所述的基于语义交互和局部激活的企业资讯推荐方法,其特征在于:步骤a)中F取值为50。
3.根据权利要求1所述的基于语义交互和局部激活的企业资讯推荐方法,其特征在于:步骤b-1)及步骤b-2)中N取值为32,M取值为128。
5.根据权利要求1所述的基于语义交互和局部激活的企业资讯推荐方法,其特征在于,步骤b-5)包括如下步骤:
b-5.1)通过公式计算得到历史点击资讯的第h个自注意力头中第i个分词表示/>式中/>为历史点击资讯的第h个自注意力头中第i个分词和第j个分词之间的注意力分数,/>为第h个自注意力头中的线性映射矩阵,e′j为第j个拼接后得到历史点击资讯的分词向量,j∈{1,...,N+M},/>式中及/>均为第h个自注意力头中的线性映射矩阵,e′n为第n个拼接后得到历史点击资讯的分词向量,n∈{1,...,N+M};
b-5.3)通过公式计算得到候选企业资讯的第h个自注意力头中第i个分词表示/>式中/>为候选企业资讯的第h个自注意力头中第i个分词和第j个分词之间的注意力分数,/>为第h个自注意力头中的线性映射矩阵,/>为第j个拼接后得到候选企业资讯的分词向量,j∈{1,...,N+M},式中/>及/>均为第h个自注意力头中的线性映射矩阵,/>为第n个拼接后得到候选企业资讯的分词向量,n∈{1,...,N+M};
6.根据权利要求1所述的基于语义交互和局部激活的企业资讯推荐方法,其特征在于:步骤c-1)中SE-NET模型中得到缩放后的历史点击资讯嵌入表示序列R′=[r1′,r′2,...,ri′,...,r′F]的降维超参数为zu,zu=5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210936398.4A CN115357785B (zh) | 2022-08-05 | 2022-08-05 | 一种基于语义交互和局部激活的企业资讯推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210936398.4A CN115357785B (zh) | 2022-08-05 | 2022-08-05 | 一种基于语义交互和局部激活的企业资讯推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115357785A CN115357785A (zh) | 2022-11-18 |
CN115357785B true CN115357785B (zh) | 2023-06-30 |
Family
ID=84033763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210936398.4A Active CN115357785B (zh) | 2022-08-05 | 2022-08-05 | 一种基于语义交互和局部激活的企业资讯推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115357785B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590908A (zh) * | 2020-04-30 | 2021-11-02 | 中国石油化工股份有限公司 | 基于注意力机制的资讯推荐方法 |
CN114741599A (zh) * | 2022-04-21 | 2022-07-12 | 齐鲁工业大学 | 基于知识增强和注意力机制的新闻推荐方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2855317C (en) * | 2013-06-26 | 2023-09-12 | Edatanetworks Inc. | Systems and methods for loyalty programs |
KR101705810B1 (ko) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | 뉴스를 추천하는 서버, 스마트 단말 및 이를 이용한 뉴스 추천 방법 |
US20220043975A1 (en) * | 2020-08-05 | 2022-02-10 | Baidu Usa Llc | Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder |
CN112231485B (zh) * | 2020-12-14 | 2021-03-26 | 平安科技(深圳)有限公司 | 文本推荐方法、装置、计算机设备及存储介质 |
CN113326425B (zh) * | 2021-04-20 | 2022-09-20 | 中国电子科技集团公司第五十四研究所 | 一种基于结构和语义注意力堆叠的会话推荐方法及系统 |
CN114201683A (zh) * | 2021-12-15 | 2022-03-18 | 齐鲁工业大学 | 一种基于多级匹配的兴趣激活新闻推荐方法及系统 |
CN114764479A (zh) * | 2022-03-24 | 2022-07-19 | 中山大学 | 一种基于新闻场景下用户行为的个性化新闻推荐方法 |
-
2022
- 2022-08-05 CN CN202210936398.4A patent/CN115357785B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590908A (zh) * | 2020-04-30 | 2021-11-02 | 中国石油化工股份有限公司 | 基于注意力机制的资讯推荐方法 |
CN114741599A (zh) * | 2022-04-21 | 2022-07-12 | 齐鲁工业大学 | 基于知识增强和注意力机制的新闻推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115357785A (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543180B (zh) | 一种基于注意力机制的文本情感分析方法 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN113435203B (zh) | 多模态命名实体识别方法、装置以及电子设备 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN113590970B (zh) | 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质 | |
CN109165350A (zh) | 一种基于深度知识感知的信息推荐方法和系统 | |
CN106897371B (zh) | 中文文本分类系统及方法 | |
CN110929515A (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
Dinkov et al. | Predicting the leading political ideology of YouTube channels using acoustic, textual, and metadata information | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN107451118A (zh) | 基于弱监督深度学习的句子级情感分类方法 | |
CN109800390A (zh) | 一种个性化情感摘要的计算方法与装置 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN111444367A (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN112016002A (zh) | 融合评论文本层级注意力和时间因素的混合推荐方法 | |
CN112784031B (zh) | 一种基于小样本学习的客服对话文本的分类方法和系统 | |
CN113064995A (zh) | 一种基于图深度学习的文本多标签分类方法和系统 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN115630145A (zh) | 一种基于多粒度情感的对话推荐方法及系统 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN117390141B (zh) | 一种农业社会化服务质量用户评价数据分析方法 | |
CN115357785B (zh) | 一种基于语义交互和局部激活的企业资讯推荐方法 | |
CN115481313A (zh) | 一种基于文本语义挖掘的新闻推荐方法 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |