CN113553510A - 一种文本信息推荐方法、装置及可读介质 - Google Patents
一种文本信息推荐方法、装置及可读介质 Download PDFInfo
- Publication number
- CN113553510A CN113553510A CN202110875172.3A CN202110875172A CN113553510A CN 113553510 A CN113553510 A CN 113553510A CN 202110875172 A CN202110875172 A CN 202110875172A CN 113553510 A CN113553510 A CN 113553510A
- Authority
- CN
- China
- Prior art keywords
- text
- user
- data
- knowledge graph
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本信息推荐方法、装置及可读介质,通过获取用户数据及所对应的文本语料,对文本语料进行预处理,得到文本数据;将用户数据进行处理得到用户属性特征,将文本数据通过词注意力网络生成文本特征,将用户数据利用知识图谱表示学习模型生成用户知识图谱特征,将用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;将综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。本发明加强对用户兴趣的识别度和扩展性,从而提高推荐结果的准确性和多样性,通过综合特征可得到多个维度的抽象特征表示,缓解传统个性化信息推荐中的数据稀疏、冷启动等问题。将注意力机制应用到文本推荐,进一步提高准确度。
Description
技术领域
本发明涉及信息检索与推荐领域,具体涉及一种文本信息推荐方法、装置及可读介质。
背景技术
社交网络已经成为了人们日常社交的主要渠道之一,微博等作为新兴一代的社交网络平台,有效改善了传统媒体扁平化、维度单一等缺点,因此深受广大网络用户的喜爱。面对网络上形形色色的海量数据,让人应接不暇,更无法及时消化,信息过载的问题成为网络时代网民们的主要困扰之一。要在合适的时间,通过合适的渠道,把合适的内容,推送给合适的用户,信息推荐就是一种有效缓解信息过载的方法。推荐系统本质上是一种信息过滤系统,面对海量数据时,推荐算法主动将用户不太可能会发生行为的信息过滤,只保留用户可能感兴趣的内容。常见的推荐方法都是先通过分析数据获取候选集,然后基于召回结果对候选集进行排序,最后根据排序结果对用户进行个性化信息推荐。文本推荐与物品推荐的不同在于,用户不仅有丰富的属性和文本特征数据,还有复杂的社交关系和互动行为,这确实为推荐算法提供了大量的额外信息,但同时也带来了巨大的挑战。
其中微博内容是一种社交短文本,具有更新快、信息含量稀疏、用词不规范等特点,要从嘈杂的数据中提取用户的有效特征,再加上涉及用户隐私的数据不能公开,相关数据信息因此变得有限,微博推荐领域的公开数据集也较为稀缺。所以亟需在有限的数据信息中寻找一种合适的方法,尽可能多地挖掘出用户的潜在特征,同时使用的算法必须对训练数据的这些特征具有鲁棒性。
发明内容
针对上述提到的技术问题。本申请的实施例的目的在于提出了一种文本信息推荐方法、装置及可读介质,来解决以上背景技术部分提到的技术问题。
第一方面,本申请的实施例提供了一种文本信息推荐方法,包括以下步骤:
S1,获取用户数据及所对应的文本语料,对文本语料进行预处理,得到文本数据;
S2,将用户数据进行处理得到用户属性特征,将文本数据通过词注意力网络生成文本特征,将用户数据利用知识图谱表示学习模型生成用户知识图谱特征,将用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;
S3,将综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。
在一些实施例中,对文本语料进行预处理包括文本清洗、分词、去停用词和数据过滤。
在一些实施例中,步骤S2中的将用户数据进行处理得到用户属性特征具体包括:
针对用户数据中的离散型数据通过整数编码的方式得到稠密的向量表示的离散型数据集合;
针对所用户数据中的连续数据通过线性函数归一化得到连续型数据集合;
将离散型数据集合和连续型数据集合拼接得到用户属性特征。
在一些实施例中,步骤S2中的将文本数据通过词注意力网络生成文本特征具体包括:
在文本数据的第i个句子si中总共有T个词,其分词序列表示为{w1i,w2i,…,wiT},将分词序列转换成词向量表示:
xit=Wewit,t∈[1,T];
其中,We表示一个嵌入矩阵;
将词向量表示利用双向GRU网络结合正向、反向的上下文信息,通过隐藏层输出结果,得到wit在整个句子中正反两个方向的词向量表示:
通过注意力机制提取句子中词级别最重要的特征作为文本特征。
在一些实施例中,将hit作为单层感知机的输入,获取其潜在特征表示:
uit=tanh(Wwhit+bw);
其中,Ww表示权重,bw表示偏置向量,根据计算得到的潜在特征表示uit和一个随机初始化的上下文向量uw的相似度,挖掘出词wit的重要程度,其中上下文向量uw是在训练网络的过程中联合学习得到,通过softmax函数生成注意力权重矩阵αit,代表句子si中第t个词的权重:
将词向量表示进行加权求和,得到句子si的向量表示:
根据句子si的向量表示得到整个文本的向量表示:
V=[s1,s2,…,sI]∈RI×n;
式中,I表示用户的总文本数量,n表示整个文本的向量维度。
在一些实施例中,步骤S2中的将用户数据利用知识图谱表示学习模型生成用户知识图谱特征具体包括:
将用户数据利用随机方式初始化实体和关系的嵌入表示,其中实体为用户信息,关系为用户关注关系,知识图谱表示学习模型的训练过程中的每次迭代都对实体进行规范化处理;从训练集中采样出小批量正例三元组集合,基于伯努利抽样算法对训练集进行负采样处理,得到负例三元组集合,具体为:对知识图谱中每一个关系r的三元组,计算出每个头实体对应尾实体数量的平均值Rtph以及每个尾实体对应头实体数量的平均值Rhpt,定义一个参数为p的抽样方法:
针对三元组(h,r,t)构建负例三元组集合,用概率p替换头实体,概率1-p替换尾实体;
优化训练目标,采用随机梯度下降算法不断迭代更新参数,当知识图谱表示学习模型收敛或达到最大迭代次数时停止训练,其中,定义所有样本的损失函数:
L=∑(h,r,t)∈S(h,r,t)∑(h',r,t')∈S'(h,r,t)[fr(h,t)+γ-fr(h',t')]+;
式中,S(h,r,t)表示知识图谱中的正例三元组集合,S'(h,r,t)表示负例三元组集合,[x]+表示当x大于0时取原值,x小于0时取0;γ表示正例三元组集合和负例三元组集合之间的边界值;
将用户知识图谱中的实体和关系信息全部映射到同一个d维的向量空间中,最终可得到所有实体的向量表示:
E=KGE(E1,E2,…,Ev)∈RV×d;
式中,Ev表示实体v的特征向量表示,V表示总共的实体数量。
在一些实施例中,步骤S3具体包括:将综合特征输入深度神经网络进行模型训练,通过softmax函数对输出向量进行变换,得到用户偏好类别z的概率:
式中,xz表示输出向量中的第z个值,xs表示输入向量的所有值,T表示文本的总类别数,根据概率值大小对类别进行排序,基于打散策略的思想,选取得分最高的若干条多个类别的文本作为最终的推荐结果,假定n为文本推送总数,根据概率Pz计算类别z的推送数量:
Nz=n×Pz。
第二方面,本申请的实施例提供了一种文本信息推荐装置,包括:
预处理模块,被配置为获取用户数据及所对应的文本语料,对文本语料进行预处理,得到文本数据;
综合特征生成模块,被配置为将用户数据进行处理得到用户属性特征,将文本数据通过词注意力网络生成文本特征,将用户数据利用表示学习生成用户知识图谱特征,将用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;
类别推送模块,被配置为将综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。
第三方面,本申请的实施例提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
与现有技术相比,本发明具有如下有益效果:
本发明通过利用知识图谱表示学习为用户引入更多的结构信息和语义关系,加强对用户兴趣的识别度和扩展性,从而提高推荐结果的准确性和多样性。另一方面,鉴于深度学习优异的自动提取特征的能力,通过学习用户的综合特征可得到多个维度的抽象特征表示,在一定程度上缓解了传统个性化信息推荐中的数据稀疏、冷启动等问题。同时,将注意力机制应用到文本推荐,有助于从文本中识别出最具有信息量的词,帮助推荐系统抓取出最重要的特征,进一步提高推荐结果的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例可以应用于其中的示例性装置架构图;
图2为本发明的实施例的微博文本信息推荐方法的示意图;
图3为本发明的实施例的文本信息推荐方法的流程示意图;
图4为本发明的实施例的文本信息推荐方法的TransE模型图;
图5为本发明的实施例的文本信息推荐方法的注意力网络的示意图;
图6为本发明的实施例的文本信息推荐装置的示意图;
图7为本发明的实施例的文本信息推荐方法的部分微博用户的知识图谱;
图8为本发明的实施例的文本信息推荐方法与对比例中不同方法的总体性能对比图;
图9是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了可以应用本申请实施例的文本信息推荐方法或文本信息推荐装置的示例性装置架构100。
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
需要说明的是,本申请实施例所提供的文本信息推荐方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,文本信息推荐装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
本申请的实施例中以微博作为示例对文本信息推荐方法、装置及可读介质进行具体说明,如图2所示。在其他可选的实施例中,若存在于微博类似的社交短文本平台,同样也适用于本发明的文本信息推荐方法、装置及可读介质。
图3示出了本申请的实施例提供的一种文本信息推荐方法,包括以下步骤:
S1,获取用户数据及所对应的文本语料,对文本语料进行预处理,得到文本数据。
在具体的实施例中,首先对微博语料中所有的用户和文本数据进行整合,并对微博内容进行文本预处理,包括文本清洗、分词、去停用词和数据过滤。对初始语料进行一系列预处理,主要包括文本清洗、结巴分词、去停用词等。利用正则表达式和停用词表(百度停用词表、中文停用词表、哈工大停用词表和四川大学机器智能实验室停用词表)过滤掉数据中的表情符号、相同词、分词后数据为空以及预处理后词数小于3的文本,还有一些常出现但无意义的词语,比如“转发微博”、“分享图片”、“Repost”等,最终得到可用的文本数据。
S2,将用户数据进行处理得到用户属性特征,将文本数据通过词注意力网络生成文本特征,将用户数据和文本数据利用知识图谱表示学习模型生成用户知识图谱特征,将用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征。
知识图谱中的实体和关系都可以用来对用户进行刻画,丰富特征向量所包含的信息。将用户的知识图谱特征引入推荐系统中,进而增强对用户的属性挖掘。利用表示学习技术,在保留用户本身语义信息的基础上,提取知识图谱中用户的行为关系等信息,并通过低维稠密的实值向量表示出来,便于引入推荐算法中,完善用户的多维度特征,提高推荐的准确率。利用具有丰富语义信息的对象补充稀疏语义对象的表示,进而提高该类表示的精确性。这种表示方法不仅便于计算实体与关系之间的语义关联,量化它们之间的语义紧密程度,并且有助于缓解数据稀疏的问题,同时还可以增加推荐的多样性和可解释性。
在具体的实施例中,步骤S2中的将用户数据进行处理得到用户属性特征具体包括:
针对用户数据中的离散型数据通过整数编码的方式得到稠密的向量表示的离散型数据集合;
针对所用户数据中的连续数据通过线性函数归一化得到连续型数据集合;
将离散型数据集合和连续型数据集合拼接得到用户属性特征。
具体地,用户数据中针对用户属性中省份、所在地、性别等离散型数据,可通过整数编码的方式得到稠密的向量表示,即利用唯一的整数数字,对每个词进行编码。而对于数据集中的粉丝数、关注数、微博数等连续型数据,可利用线性函数归一化的方法处理,将数值缩放到[0,1]内:
式中X为原始数据,Xmax和Xmin为数据中的最大值和最小值。
最终可得到用户u的用户属性特征表示:
u=concatenate(lookup(i),norm(j));
式中,concatenate()是向量拼接操作,lookup(i)表示被整数编码的离散型数据集合,norm(j)表示被归一化的连续型数据集合。
在具体的实施例中,基于这样一个假设,一个句子中并非所有的单词都对句子的本身含义具有同等的相关性,不同的词具备不同的信息量。通过注意力机制(Attention)可以将一个句子中贡献最大、最能体现句子本身含义的词找出来,根据确定的相关信息与关键词的交互作用进行建模,再将这些关键词汇信息组合起来作为这个句子的向量表示。结构如图4所示。
步骤S2中的将文本数据通过词注意力网络生成文本特征具体包括:
将所有的微博文本看作一个文档,其中的每一条微博文本作为文档中的一个句子。在文本数据的第i个句子si中总共有T个词,其分词序列表示为{w1i,w2i,…,wiT},将分词序列转换成词向量表示:
xit=Wewit,t∈[1,T];
其中,We表示一个嵌入矩阵;
将词向量表示利用双向GRU网络结合正向、反向的上下文信息,通过隐藏层输出结果,得到wit在整个句子中正反两个方向的词向量表示:
通过注意力机制提取句子中词级别最重要的特征作为文本特征。
然后,通过Attention提取句子中词级别最重要的特征。先利用字级向量构建句子级向量,再把各个句子向量组合成文档向量。在具体的实施例中,将hit作为单层感知机的输入,获取其潜在特征表示:
uit=tanh(Wwhit+bw);
其中,Ww表示权重,bw表示偏置向量,根据计算得到的潜在特征表示uit和一个随机初始化的上下文向量uw的相似度,挖掘出词wit的重要程度,其中上下文向量uw是在训练网络的过程中联合学习得到,将它作为询问“哪些词包含了比较重要的信息”的一种抽象表示。通过softmax函数生成注意力权重矩阵αit,代表句子si中第t个词的权重:
获得注意力权重矩阵后,将句子向量视为组成这些句子的词向量的加权求和,得到句子si的向量表示:
根据句子si的向量表示得到整个文本的向量表示:
V=[s1,s2,…,sI]∈RI×n;
式中,I表示用户的总文本数量,n表示整个文本的向量维度。
在具体的实施例中,知识图谱通常以图结构的方法表示:G=(V,E),其中V表示实体集合,E表示边集合。知识图谱中存在大量关系三元组(h,r,t),包含了通过多个种类关系链接的实体以及实体与属性、属性值,其中h,t∈V分别表示头实体和尾实体,r∈E表示这两个实体之间的关系。TransE模型思想如图5所示。
经过TransE训练后的模型,头实体向量加上关系向量后的值越接近尾实体向量,满足h+r≈t,说明实体和关系的嵌入就越加准确。
步骤S2中的将用户数据利用知识图谱表示学习模型生成用户知识图谱特征具体包括:
将用户数据利用随机方式初始化实体和关系的嵌入表示,其中实体为用户信息,关系为用户关注关系,从训练集中采样出小批量正例三元组集合,基于伯努利抽样算法对训练集进行负采样处理,得到负例三元组集合。其中,伯努利抽样方法具体为:对知识图谱中每一个关系r的三元组,计算出每个头实体对应尾实体数量的平均值Rtph以及每个尾实体对应头实体数量的平均值Rhpt,定义一个参数为p的抽样方法:
针对三元组(h,r,t)构建负例三元组集合,用概率p替换头实体,概率1-p替换尾实体;
优化训练目标,采用随机梯度下降算法不断迭代更新参数,当知识图谱表示学习模型收敛或达到最大迭代次数时停止训练,其中,定义所有样本的损失函数:
L=∑(h,r,t)∈S(h,r,t)∑(h',r,t')∈S'(h,r,t)[fr(h,t)+γ-fr(h',t')]+;
式中,S(h,r,t)表示知识图谱中的正例三元组集合,S'(h,r,t)表示负例三元组集合,[x]+表示当x大于0时取原值,x小于0时取0;γ表示正例三元组集合和负例三元组集合之间的边界值;
将用户知识图谱中的实体和关系信息全部映射到同一个d维的向量空间中,最终可得到所有实体的向量表示:
E=KGE(E1,E2,…,Ev)∈RV×d;
式中,Ev表示实体v的特征向量表示,V表示总共的实体数量。
S3,将综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。
在具体的实施例中,将综合特征作为深度神经网络的输入,利用softmax函数来预测用户对不同类别主题微博的兴趣程度,再根据概率值大小排序,筛选兴趣主题信息进行个性化信息推荐。深度学习具有强大的特征提取能力,将其应用到推荐系统中,避免了传统复杂的人工特征工程,可从非结构化数据中获取非线性、深层次、低维稠密的实值向量表征,并且能够融入多源异构数据进行推荐。
多层感知机模型的输入层结构向量xo是由属性特征、文本特征和图谱特征拼接而成:
xo=concatenate(U,V,E);
式中,concatenate()用于表示多个向量的拼接。
xo经过第一个隐藏层,输出向量:
x1=activation(W1x0+b1);
式中,W1是输入层到第一个隐藏层的权重矩阵;activation()代表激活函数,鉴于ReLU简单高效,并且能够加速收敛梯度下降的特点,选择ReLU作为模型的激活函数;b1是偏置向量。
获取第h层隐藏层的输出向量:
x=ReLU(Woutxh+bout);
式中,Wout表示输出层的权重矩阵,x指最后一层的输出向量,h代表隐藏层的总数量,bout是输出层的偏置值。
继而,通过softmax函数对输出向量进行变换,得到用户偏好类别z的概率:
式中,xz表示输出向量中的第z个值,xs表示函数的输入向量的所有值,T表示文本的总类别数。
最后,假定一共给用户u推送n条微博,根据概率Pz计算类别z的推送数量:
Nz=n×Pz。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种文本信息推荐装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
本申请实施例提供了一种文本信息推荐装置,包括:
预处理模块1,被配置为获取用户数据及所对应的文本语料,对文本语料进行预处理,得到文本数据;
综合特征生成模块2,被配置为将用户数据进行处理得到用户属性特征,将文本数据通过词注意力网络生成文本特征,将用户数据利用表示学习生成用户知识图谱特征,将用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;
类别推送模块3,被配置为将综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。
本发明核心思想是将推荐问题转化为一个基于深度神经网络的分类问题,特征学习主要是提取了用户在微博上的个人属性、历史发博内容以及关注关系等信息,依此对用户的个人兴趣进行建模。分类推荐主要是通过多层感知机训练用户的多维度特征,利用softmax函数分类,最后输出每个用户所属类别的概率,根据概率值大小排序,并基于打散策略完成对用户个性且多样的文本信息推荐。
以下通过具体的实施例和对比例的结果进行说明。
本申请的实施例采用公开的新浪微博数据集,由2014-05-03至2014-05-11采集的包含63641名新浪微博用户发布的84113条微博信息,其中包含了12个主题,如表1所示。
表1微博数据集
序号 | 主题 | 数量 | 序号 | 主题 | 数量 |
1 | 房价 | 8935 | 7 | 魅族 | 3263 |
2 | 公务员 | 7572 | 8 | 贪官 | 6835 |
3 | 韩剧 | 7515 | 9 | 同桌的你 | 10886 |
4 | 恒大 | 8080 | 10 | 雾霾 | 5955 |
5 | 火箭 | 6364 | 11 | 小米 | 11569 |
6 | 林书豪 | 1514 | 12 | 转基因 | 5625 |
此外,还有1391718条用户好友关系,以及27759条微博转发关系。知识图谱所采用的数据集是网络公开的新浪微博数据集,构建微博用户知识图谱,含有63641名微博用户信息以及1391718条用户关注关系,将实体和关系导出分别进行存储,其中每一个实体对应唯一的实体id,每一个关系对应唯一的关系id,再根据对应关系组合这份知识图谱中包含的所有三元组信息,总共提取出了63026个实体和6种关系。部分微博用户的知识图谱如图7所示。
评估标准如下:本实验将信息推荐问题转换为文本分类问题,所以仍然沿用常用的四种评价指标,准确率Acc(Accuracy)、精准率P(Precision)、召回率R(Recall)和F1值作为衡量推荐模型效果的标准,计算表达式如下:
式中,其中,用户历史发表的微博文本类别代表该用户喜欢的类别,分类结果预测的类别是指该用户所属的主题类别,对应了最终的推荐结果。
本发明设计了五个对比例存在两个目的:一方面是选取推荐系统研究中的类似方法进行性能对比,以验证本发明总体性能的有效性;另一方面侧重比较使用不同的文本特征表示方法,对推荐效果的影响差别。图8是五个对比例中五种算法的性能对比结果。
其中本申请的实施例采用的文本推荐方法(DNN+ATT+KG推荐方法)综合了知识图谱中的用户关系、文本内容中的关键信息以及用户的多个属性特征,再通过深度神经网络对用户特征进行深层次建模和表征,总体来看,该模型的推荐效果最好,准确率达到了0.801,优于对比例中所有其他模型。具体各个类别的实验结果如表1所示,其中最优的前两个结果用粗体字标记。
表1DNN+ATT+KG推荐方法的分类结果
综上所述,本发明利用知识图谱表示学习为用户引入更多的结构信息和语义关系,加强对用户兴趣的识别度和扩展性,从而提高推荐结果的准确性和多样性,并且通过学习用户的综合特征可得到多个维度的抽象特征表示,在一定程度上缓解了传统个性化信息推荐中的数据稀疏、冷启动等问题。同时,将注意力机制应用到微博推荐,有助于从文本中识别出最具有信息量的词,帮助推荐系统抓取出最重要的特征,进一步提高推荐结果的准确度。
下面参考图9,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置900的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机装置900包括中央处理单元(CPU)901和图形处理器(GPU)902,其可以根据存储在只读存储器(ROM)903中的程序或者从存储部分909加载到随机访问存储器(RAM)904中的程序而执行各种适当的动作和处理。在RAM 904中,还存储有装置900操作所需的各种程序和数据。CPU 901、GPU902、ROM 903以及RAM 904通过总线905彼此相连。输入/输出(I/O)接口906也连接至总线905。
以下部件连接至I/O接口906:包括键盘、鼠标等的输入部分907;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分908;包括硬盘等的存储部分909;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分910。通信部分910经由诸如因特网的网络执行通信处理。驱动器911也可以根据需要连接至I/O接口906。可拆卸介质912,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器911上,以便于从其上读出的计算机程序根据需要被安装入存储部分909。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分910从网络上被下载和安装,和/或从可拆卸介质912被安装。在该计算机程序被中央处理单元(CPU)901和图形处理器(GPU)902执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取用户数据及所对应的文本语料,对文本语料进行预处理,得到文本数据;将用户数据进行处理得到用户属性特征,将文本数据通过词注意力网络生成文本特征,将用户数据利用知识图谱表示学习模型生成用户知识图谱特征,将用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;将综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种文本信息推荐方法,其特征在于,包括以下步骤:
S1,获取用户数据及所对应的文本语料,对所述文本语料进行预处理,得到文本数据;
S2,将所述用户数据进行处理得到用户属性特征,将所述文本数据通过词注意力网络生成文本特征,将所述用户数据利用知识图谱表示学习模型生成用户知识图谱特征,将所述用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;
S3,将所述综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。
2.根据权利要求1所述的文本信息推荐方法,其特征在于,所述对所述文本语料进行预处理包括文本清洗、分词、去停用词和数据过滤。
3.根据权利要求1所述的文本信息推荐方法,其特征在于,所述步骤S2中的所述将所述用户数据进行处理得到用户属性特征具体包括:
针对所述用户数据中的离散型数据通过整数编码的方式得到稠密的向量表示的离散型数据集合;
针对所用户数据中的连续数据通过线性函数归一化得到连续型数据集合;
将所述离散型数据集合和所述连续型数据集合拼接得到所述用户属性特征。
5.根据权利要求4所述的文本信息推荐方法,其特征在于,将hit作为单层感知机的输入,获取其潜在特征表示:
uit=tanh(Wwhit+bw);
其中,Ww表示权重,bw表示偏置向量,根据计算得到的潜在特征表示uit和一个随机初始化的上下文向量uw的相似度,挖掘出词wit的重要程度,其中上下文向量uw是在训练网络的过程中联合学习得到,通过softmax函数生成注意力权重矩阵αit,代表句子si中第t个词的权重:
将所述词向量表示进行加权求和,得到句子si的向量表示:
根据所述句子si的向量表示得到整个文本的向量表示:
V=[s1,s2,…,sI]∈RI×n;
式中,I表示用户的总文本数量,n表示整个文本的向量维度。
6.根据权利要求1所述的文本信息推荐方法,其特征在于,所述步骤S2中的所述将所述用户数据利用知识图谱表示学习模型生成用户知识图谱特征具体包括:
将所述用户数据利用随机方式初始化实体和关系的嵌入表示,其中实体为用户信息,关系为用户关注关系,所述知识图谱表示学习模型的训练过程中的每次迭代都对实体进行规范化处理;从训练集中采样出小批量正例三元组集合,基于伯努利抽样算法对所述训练集进行负采样处理,得到负例三元组集合,具体为:对知识图谱中每一个关系r的三元组,计算出每个头实体对应尾实体数量的平均值Rtph以及每个尾实体对应头实体数量的平均值Rhpt,定义一个参数为p的抽样方法:
针对三元组(h,r,t)构建负例三元组集合,用概率p替换头实体,概率1-p替换尾实体;
优化训练目标,采用随机梯度下降算法不断迭代更新参数,当知识图谱表示学习模型收敛或达到最大迭代次数时停止训练,其中,定义所有样本的损失函数:
L=∑(h,r,t)∈S(h,r,t)∑(h',r,t')∈S'(h,r,t)[fr(h,t)+γ-fr(h',t')]+;
式中,S(h,r,t)表示知识图谱中的正例三元组集合,S'(h,r,t)表示负例三元组集合,[x]+表示当x大于0时取原值,x小于0时取0;γ表示正例三元组集合和负例三元组集合之间的边界值;
将用户知识图谱中的实体和关系信息全部映射到同一个d维的向量空间中,最终可得到所有实体的向量表示:
E=KGE(E1,E2,…,Ev)∈RV×d;
式中,Ev表示实体v的特征向量表示,V表示总共的实体数量。
8.一种文本信息推荐装置,其特征在于,包括:
预处理模块,被配置为获取用户数据及所对应的文本语料,对所述文本语料进行预处理,得到文本数据;
综合特征生成模块,被配置为将所述用户数据进行处理得到用户属性特征,将所述文本数据通过词注意力网络生成文本特征,将所述用户数据利用表示学习生成用户知识图谱特征,将所述用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;
类别推送模块,被配置为将所述综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875172.3A CN113553510B (zh) | 2021-07-30 | 2021-07-30 | 一种文本信息推荐方法、装置及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875172.3A CN113553510B (zh) | 2021-07-30 | 2021-07-30 | 一种文本信息推荐方法、装置及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553510A true CN113553510A (zh) | 2021-10-26 |
CN113553510B CN113553510B (zh) | 2023-06-20 |
Family
ID=78133473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875172.3A Active CN113553510B (zh) | 2021-07-30 | 2021-07-30 | 一种文本信息推荐方法、装置及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553510B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116074317A (zh) * | 2023-02-20 | 2023-05-05 | 王春辉 | 一种基于大数据的业务资源共享方法及服务器 |
CN116089624A (zh) * | 2022-11-17 | 2023-05-09 | 昆仑数智科技有限责任公司 | 基于知识图谱的数据推荐方法、装置和系统 |
CN116452169A (zh) * | 2023-06-14 | 2023-07-18 | 北京华品博睿网络技术有限公司 | 一种在线招聘生成式推荐系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN111522962A (zh) * | 2020-04-09 | 2020-08-11 | 苏州大学 | 序列推荐方法、装置及计算机可读存储介质 |
CN112069408A (zh) * | 2020-06-15 | 2020-12-11 | 北京理工大学 | 一种融合关系抽取的推荐系统及方法 |
CN112364258A (zh) * | 2020-11-23 | 2021-02-12 | 北京明略软件系统有限公司 | 基于图谱的推荐方法、系统、存储介质及电子设备 |
CN112529151A (zh) * | 2020-12-02 | 2021-03-19 | 华为技术有限公司 | 一种数据处理方法以及装置 |
CN112801751A (zh) * | 2021-02-04 | 2021-05-14 | 重庆邮电大学 | 一种多任务图神经网络的个性化景区推荐方法 |
US20220067115A1 (en) * | 2018-12-24 | 2022-03-03 | Samsung Electronics Co., Ltd. | Information processing method, apparatus, electrical device and readable storage medium |
-
2021
- 2021-07-30 CN CN202110875172.3A patent/CN113553510B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220067115A1 (en) * | 2018-12-24 | 2022-03-03 | Samsung Electronics Co., Ltd. | Information processing method, apparatus, electrical device and readable storage medium |
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN111522962A (zh) * | 2020-04-09 | 2020-08-11 | 苏州大学 | 序列推荐方法、装置及计算机可读存储介质 |
CN112069408A (zh) * | 2020-06-15 | 2020-12-11 | 北京理工大学 | 一种融合关系抽取的推荐系统及方法 |
CN112364258A (zh) * | 2020-11-23 | 2021-02-12 | 北京明略软件系统有限公司 | 基于图谱的推荐方法、系统、存储介质及电子设备 |
CN112529151A (zh) * | 2020-12-02 | 2021-03-19 | 华为技术有限公司 | 一种数据处理方法以及装置 |
CN112801751A (zh) * | 2021-02-04 | 2021-05-14 | 重庆邮电大学 | 一种多任务图神经网络的个性化景区推荐方法 |
Non-Patent Citations (1)
Title |
---|
王一鸣: "\"基于知识图谱的推荐技术研究及应用\"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089624A (zh) * | 2022-11-17 | 2023-05-09 | 昆仑数智科技有限责任公司 | 基于知识图谱的数据推荐方法、装置和系统 |
CN116089624B (zh) * | 2022-11-17 | 2024-02-27 | 昆仑数智科技有限责任公司 | 基于知识图谱的数据推荐方法、装置和系统 |
CN116074317A (zh) * | 2023-02-20 | 2023-05-05 | 王春辉 | 一种基于大数据的业务资源共享方法及服务器 |
CN116074317B (zh) * | 2023-02-20 | 2024-03-26 | 新疆八达科技发展有限公司 | 一种基于大数据的业务资源共享方法及服务器 |
CN116452169A (zh) * | 2023-06-14 | 2023-07-18 | 北京华品博睿网络技术有限公司 | 一种在线招聘生成式推荐系统及方法 |
CN116452169B (zh) * | 2023-06-14 | 2023-11-24 | 北京华品博睿网络技术有限公司 | 一种在线招聘生成式推荐系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113553510B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526680B2 (en) | Pre-trained projection networks for transferable natural language representations | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN107783960B (zh) | 用于抽取信息的方法、装置和设备 | |
CN112732911B (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110196980B (zh) | 一种基于卷积网络在中文分词任务上的领域迁移 | |
CN113553510B (zh) | 一种文本信息推荐方法、装置及可读介质 | |
CN111930942B (zh) | 文本分类方法、语言模型训练方法、装置及设备 | |
Kirelli et al. | Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language | |
CN112214601B (zh) | 一种社交短文本情感分类方法、装置及存储介质 | |
CN111291195A (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN111159409A (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
CN114372475A (zh) | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 | |
CN111680161A (zh) | 一种文本处理方法、设备以及计算机可读存储介质 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
Che et al. | Tensor factorization with sparse and graph regularization for fake news detection on social networks | |
Naqvi et al. | Roman Urdu news headline classification empowered with machine learning | |
CN111988668B (zh) | 一种视频推荐方法、装置、计算机设备及存储介质 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
Yildiz | A comparative study of author gender identification | |
CN113761186A (zh) | 文本情感分类方法和装置 | |
Vikas et al. | User Gender Classification Based on Twitter Profile Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |