CN108897871B - 文档推荐方法、装置、设备及计算机可读介质 - Google Patents
文档推荐方法、装置、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN108897871B CN108897871B CN201810714381.8A CN201810714381A CN108897871B CN 108897871 B CN108897871 B CN 108897871B CN 201810714381 A CN201810714381 A CN 201810714381A CN 108897871 B CN108897871 B CN 108897871B
- Authority
- CN
- China
- Prior art keywords
- pan
- label
- classification
- document
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种文档推荐方法、装置、设备及计算机可读介质,文档推荐方法包括:获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签,可基于泛标签分类模型,以更好地建模用户兴趣,进行更精准地文档推荐。
Description
技术领域
本发明涉及信息推荐技术,尤其涉及一种基于泛标签的文档推荐方法、装置、设备及计算机可读介质。
背景技术
随着互联网的发展,信息流服务已经逐步取代传统媒体成为人们获取信息的重要手段。同时,信息流承载着太多的信息,很容易使用户淹没在咨询的海洋里。如何通过建模用户兴趣,实现较精准的信息推送是亟待解决的问题。
发明内容
本发明实施例提供一种文档推荐方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供一种文档推荐方法,包括:
获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;
采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及
确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签。
结合第一方面,本发明实施例在第一方面的第一种实施方式中,如果获取到的原文档为多个,则所述方法还包括:
确定用户对于多个原文档的点击量;
所述确定推荐文档包括:为点击量最大的原文档确定推荐文档。
结合第一方面,本发明实施例在第一方面的第二种实施方式中,所述采用泛标签分类模型,确定所述原文档的泛标签的步骤包括:
采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。
结合第一方面,本发明实施例在第一方面的第三种实施方式中,所述还包括:
获取训练语料,所述训练语料包括多个样本文档;以及
基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。
结合第一方面的第三种实施方式,所述基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型的步骤包括:
将所述训练语料分别输入卷积神经网络和神经网络词袋模型,以分别得到n维向量和m维向量,其中,n和m均是大于0的正整数;
拼接所述n维向量和所述m维向量,以得到n+m维向量;以及
基于所述n+m维向量进行训练,得到所述泛标签分类模型。
结合第一方面,本发明实施例在第一方面的第四种实施方式中,所述方法还包括:
获取训练语料,所述训练语料包括多个样本文档;以及
基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。
结合第一方面的第四种实施方式,所述采用多分类任务学习的方式包括:
以泛标签分类任务学习为主,以主题分类任务学习为辅,其中,所述主题分类任务学习基于所述主题类信息。
结合第一方面,本发明实施例在第一方面的第五种实施方式中,所述方法还包括:
获取训练语料,所述训练语料包括多个样本文档;
对所述样本文档进行标题提取和正文提取;
将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及
采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。
结合第一方面或以上所述的第一方面中的任一项实施方式,本发明实施例在第一方面的第六种实施方式中,所述获取训练语料的步骤包括:
确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;
根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及
将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。
第二方面,本发明实施例提供一种文档推荐装置,包括:
原文档获取模块,用于获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;
泛标签确定模块,用于采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及
推荐文档确定模块,用于确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签。
结合第二方面,本发明实施例在第二方面的第一种实施方式中,所述装置还包括:
用户点击量确定模块,用于在如果获取到的原文档为多个时,确定用户对于多个原文档的点击量;
所述推荐文档确定模块还用于为点击量最大的原文档确定推荐文档。。
结合第二方面,本发明实施例在第二方面的第二种实施方式中,所述泛标签确定模块用于采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。
结合第二方面,本发明实施例在第二方面的第三种实施方式中,所述装置还包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;以及
训练模块,用于基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。
结合第二方面,本发明实施例在第二方面的第四种实施方式中,所述装置还包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;以及
训练模块,用于基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。
结合第二方面,本发明实施例在第二方面的第五种实施方式中,所述装置还包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;
提取模块,用于对所述样本文档进行标题提取和正文提取;
输入模块,用于将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及
模型训练模块,用于采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。
结合第二方面或以上第二方面的任一项实施方式,本发明实施例在第二方面的第六种实施方式中,所述装置所述训练语料获取模块包括:
泛标签分类体系确立单元,用于确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;
标注单元,用于根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及
训练语料确定单元,用于将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块或单元。
在一个可能的设计中,文档推荐装置的结构中包括处理器和存储器,所述存储器用于存储支持文档推荐装置执行上述第一方面中的文档推荐方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述文档推荐装置还可以包括通信接口,用于文档推荐装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储文档推荐装置所用的计算机软件指令,其包括用于执行上述第一方面中文档推荐方法为文档推荐装置所涉及的程序。
本发明实施例基于泛标签分类模型,以更好地建模用户兴趣,进行更精准地文档推荐。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为实施例一的文档推荐方法的流程图。
图2为实施例一的文档推荐方法的框图。
图3为实施例一的另一种文档推荐方法的流程图。
图4为实施例二的文档推荐方法的流程图。
图5为实施例二的获取训练语料的流程图。
图6为实施例二的另一种文档推荐方法的流程图。
图7为实施例二的泛标签分类模型的结构示意图。
图8为实施例三的文档推荐装置的结构图。
图9为实施例三的另一种文档推荐装置的结构图。
图10为实施例四的文档推荐装置的结构图。
图11为实施例四的训练语料获取模块的结构图。
图12为实施例四的另一种文档推荐装置的结构图。
图13为本发明实施例五的文档推荐设备的组成结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
基于内容标签的个性化推荐技术能够通过建模用户兴趣来进行文档推荐,文档的内容标签可以基于主题类信息和关注点信息。主题类信息,例如科技、财经、军事等,通常提取于文档的标题,基于主题类信息分类的主题标签,其分类粒度较粗,对用户点击文档的兴趣描绘不够精准。关注点信息,例如关键词或实体等,通常提取于文档的正文,基于关注点信息分类的关注点标签主要是从文档的实体角度出发,分类粒度过细,容易过拟合用户兴趣点,而且由于关注点标签的集合不是封闭的,对于结果的排序和消歧等子技术也有更高的要求。
本发明实施例旨在提供一种文档推荐方法和装置,基于泛标签分类模型,以更好地建模用户兴趣,进行更精准地文档推荐。下面分实施例进行技术方案的展开描述。
实施例一
如图1所述,本实施例的文档推荐方法包括:
S110,获取原文档。
其中,原文档包括标题和正文,可以从标题中提取主题类信息,即原文档所属的领域,如科技、财经、军事等,可以从正文中提取关注点信息,如关键词、命名实体等。
在一种实施方式中,原文档可以包括用户正在点击的文档,也可以包括用户点击日志中所涉及的文档,其中,用户点击日志包括在设定时间内的历史点击文档的数据。其中,设定时间包括在当前时刻之前的任意时间范围,可以根据不同用户的特点或实际应用场景的需求进行选择。例如,可以设定在当前时刻之前的三个月或半年时间内的文档点击记录作为用户点击日志。
S120,采用泛标签分类模型,确定原文档的泛标签。
其中,泛标签的分类粒度介于基于主题类信息的分类粒度和基于关注点信息的分类粒度之间。
例如,一篇介绍宝马最新车型的文章,其标题为“2019款宝马X1部分配置曝光”,其正文为“近日,我们从相关渠道获悉了宝马2019款X1的部分配置。新车将依旧提供X设计套装及运动设计套装,并新增了4个选装包可供选择,新车或将于9月上市销售。2019款宝马X1依旧提供运动设计套装和X设计套装,两款套装在设计上有所不同,而除了原有的两种设计套装外,宝马还推出了专属定制套装,消费者可选装自己喜欢的配置。此外,入门版车型还新增了电动尾门,这也让电动尾门在X1上成为标配。”
根据标题提取主题类信息,例如领域“汽车”,可得到分类结果为“汽车”;从正文中提取关注点信息,如关键词“宝马”,可得到分类结果为“宝马”;将标题和正文输入泛标签分类模型,可得到基于泛标签的分类结果为“汽车评测”。
其中,“汽车评测”的分类粒度介于“汽车”的分类粒度和“宝马”的分类粒度之间。“分类粒度”可以理解为与可推荐文档的范围相关,例如,如果以“汽车”进行文档推荐,因其分类粒度过粗,可推荐的文档范围过广,任何与汽车相关的文档,例如汽车产业状况、汽车厂商等相关的文档都可能被推荐,不能精准对应用户的兴趣;如果以“宝马”进行文档推荐,因其分类粒度过细,可推荐的文档范围过窄,其他品牌汽车的相关文档将不能被推荐,可能错失与用户兴趣点相匹配的文档;而基于“汽车评测”进行文档推荐,其他品牌的汽车评测的文档也都可以被推荐,但汽车产业状况或汽车厂商等文档不会被推荐。也就是说,分类粒度越粗,可推荐的文档范围越广;分类粒度越细,可推荐的文档范围越窄。
再例如,一篇有关篮球运动员库里的文章,其标题为“库里休赛期每天要投500三分”,其正文为“单赛季402记三分,常规赛单场13记三分,总决赛单场9记三分,库里用神乎其技的远投不断创造联盟的三分球纪录和书写自己的传奇。但库里却说,这一切都源于背后日复一日的艰苦训练。”
根据标题提取主题类信息,例如领域“体育”,可得到分类结果为“体育”;从正文中提取关注点信息,如关键词“库里”,可得到分类结果为“库里”;将标题和正文输入泛标签分类模型,得到基于泛标签的分类结果为“NBA球星”。
如果以“体育”进行文档推荐,可推荐的文档范围过广,任何与体育相关的文档,如足球、乒乓球等相关的文档都可能被推荐;如果以“库里”进行文档推荐,可推荐的文档范围过窄,例如,其他NBA球星的相关文档将不能被推荐,可能错失与用户兴趣点相匹配的文档;因此,“NBA球星”的文档推荐范围介于“体育”和“库里”之间,即“NBA球星”的分类粒度介于“体育”的分类粒度和“库里”的分类粒度之间。
步骤S130,确定推荐文档。
其中,推荐文档与原文档具有相匹配的泛标签,“相匹配”包括相同或相近似,例如,推荐文档的泛标签与原文档的泛标签相同或相近似。
在一个示例中,如图2所示,在步骤S110中获取的原文档可以来自于线上数据,在步骤S120中,采用泛标签分类模型确定线上数据的泛标签,然后,在步骤S130中向用户推荐具有相同或相近似的泛标签的推荐文档。线上数据可以是流式数据,泛标签分类模型输出可以是多个泛标签及其概率分布,可以将概率最大的泛标签作为最终结果,然后向用户推荐具有与该最终结果相同或相近似的泛标签的推荐文档。
在一个示例中,如果获取到的原文档为多个,本实施例的文档推荐方法还可以包括确定用户对于多个原文档的点击量,并为点击量最大的原文档确定推荐文档。如图3所示,本示例的文档推荐方法包括:
步骤S111,获取多个原文档。
步骤S140,确定多个原文档的点击量。
其中,原文档可以来自于用户点击日志所涉及的文档,用户点击日志中包括用户对各原文档的点击量,然后,按照各原文档的点击量进行排序。
步骤S131,为点击量最大的原文确定推荐文档。
其中,该推荐文档与点击量最大的原文档具有相匹配的泛标签,因此,该推荐文档可以反应用户的兴趣。用户点击日志可以实时或定时更新,即用户点击日志中的各原文档的点击量排序在实时或定时更新,进而可以向用户推荐新的推荐文档。
其中,推荐文档可以来自于离线数据库,也可以来自于在线数据库。
实施例二
本实施例提供一种文档推荐方法,在实施例一所述的步骤S120之前还包括:
步骤S210,获取训练语料。其中,该训练语料包括多个样本文档以及对样本文档标注的分类数据。
步骤S220,基于训练语料,进行有监督学习模型训练,以得到泛标签分类模型。
在一个可实施方式中,步骤S210,获取训练语料,可以基于泛标签分类体系进行,如图5所示,步骤S210所述的获取训练语料包括:
步骤S211,确立泛标签分类体系。其中,泛标签分类体系可以通过接收来自外部的分类规则来建立。该来自外部的分类规则可以由编辑结合各个垂类的领域经验确定,包括泛标签的分类规则,即一篇文档应给与什么样的泛标签。
步骤S212,根据泛标签分类体系,标注每个样本文档的泛标签分类结果。
其中,可以从数据库中提取符合线上垂类分布的多个样本文档,样本文档的数量规模可以根据最终得到的泛标签分类模型在应用过程中的分类效果进行设置或变更。可以通过软件自动标注,也可以接收来自外部的人工标注结果。例如,可以将泛标签分类体系和多个样本文档发送给大众平台(例如众侧),由众侧基于泛标签分类体系,对每个样本文档的泛标签分类结果进行人工标注,以获得泛标签分类数据,其中,众侧是一种大规模用户进行测试的平台,提供一种人工参与的方式。
步骤S213,将多个样本文档和所标注的泛标签分类数据作为训练语料。
在一个可实施方式中,步骤S220中的进行有监督学习模型训练可以是采用两种或两种以上的神经网络模型相融合的方式进行训练。
其中,神经网络模型可以是深度神经网络(Deep Neural Networks,DNN)模型、卷积神经网络(Convolutional Neural Networks,CNN)模型、循环神经网络(RecurrentNeural Networks,RNN)模型、长短期记忆网络(Long Short-Term Memory,LSTM)模型和神经网络词袋(Bag of words,BOW)模型。
下面以CNN和BOW相融合的训练方式进行示例。
一般而言,CNN和BOW这两种模型是单独使用来进行分类训练的,为了提高训练效果,本实施例中,将两者进行特征融合进行分类训练。具体而言,将训练语料输入CNN和BOW,使用CNN得到的特征表示为一个n维向量:〖Rep〗_1∈R^(1×n),使用BOW得到的特征表示为一个m维向量:〖Rep〗_2∈R^(1×m),然后将这两者拼接在一起作为一个新的n+m维向量的特征表示:〖Rep〗_new∈R^(1×(n+m)),接着将这个n+m维向量〖Rep〗_new∈R^(1×(n+m))接入泛标签分类模型的全连接层(Fully Connected Layer,FC层)进行分类训练。
在一个可实施方式中,步骤S220中的进行有监督学习模型训练可以是采用多分类任务学习的方式进行训练,例如,以泛标签分类任务学习为主,以主题分类任务学习为辅。
如图6所示,在一种实施方式中,本实施例的文档推荐方法在实施例一所述的步骤S120之前还包括:
步骤S310,获取训练语料,其中,训练语料包括多个样本文档,训练语料的获取方式可以参见如上所述的步骤S210;步骤S320,对样本文档进行标题提取和正文提取;步骤S330,将提取的标题输入CNN,以及将提取的正文输入BOW;步骤S340,采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到泛标签分类模型。下面结合图7进行详细描述。
如图7所示为泛标签分类模型的结构示意图,对于样本文档,在步骤S320中,可以进行标题(Title)提取和正文(Content)提取,并进一步可以将Title和Content输入模型,包括在模型的共享词嵌入层(Shared Word Embedding)进行标题嵌入(Title Embedding)和正文嵌入(Content Embedding);在步骤S330中,将Title输入CNN,得到n维向量〖Rep〗_1∈R^(1×n),将Content输入BOW,得到m维向量〖Rep〗_2∈R^(1×m);在步骤S340中,进行为了得到主题输出的主题分类学习过程和进行为了得到泛标签输出的泛标签分类任务学习过程,包括在FC层,将n维向量和m维向量拼接在一起,进而输出泛标签。
可以看出,主题分类任务学习的FC层的向量表示是作为辅助特征拼接在泛标签分类任务学习的FC层中,进而输出泛标签,以实现以泛标签分类任务学习为主,以主题分类任务学习为辅。由于每个任务都有自己的特征损失函数(loss),将两种loss叠加来统一优化进行并行训练,可以在有限的训练语料中提升分类的泛化能力。
实施例三
本发明实施例提供一种文档推荐装置,对应于实施例一中的文档推荐方法。如图8所述,包括:
原文档获取模块110,用于获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;
泛标签确定模块120,用于采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及
推荐文档确定模块130,用于确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签。
在一个可选实施方式中,泛标签确定模块120还可以用于采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。
如图9所示,在一个可实施方式中,本实施例的文档推荐装置还可以包括:
用户点击量确定模块140,用于在如果获取到的原文档为多个时,确定用户对于多个原文档的点击量;
所述推荐文档确定模块用于为点击量最大的原文档确定推荐文档。
本实施例装置的各模块的功能与实施例一的文档推荐方法的原理类似,故不再赘述。
实施例四
本实施例提供一种文档推荐装置,如图10所示,相较于实施例三还包括:
训练语料获取模块210,用于获取训练语料,其中,该训练语料包括多个样本文档;以及
训练模块220,可以用于基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。
训练模块220还可以用于基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。
如图11所示,在一个可选实施方式中,训练语料获取模块210包括:
泛标签分类体系确立单元211,用于确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;
标注单元212,用于根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及
训练语料确定单元213,用于将所述多个样本文档和所标注的泛标签分类数据作为所述训练语料。
如图12所示,在一个可变实施方式中,本实施例的文档推荐装置相较于实施例三还可以包括:
训练语料获取模块310,用于获取训练语料,所述训练语料包括多个样本文档;
提取模块320,用于对所述样本文档进行标题提取和正文提取;
输入模块330,用于将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及
模型训练模块340,用于采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。
本实施例装置的各模块的功能与实施例二的文档推荐方法的原理类似,故不再赘述。
实施例五
本实施例还提供一种文档推荐设备,如图13所示,该设备包括:存储器410和处理器420,存储器410内存储有可在处理器420上运行的计算机程序。处理器420执行所述计算机程序时实现上述实施例中的文档推荐方法。所述存储器410和处理器420的数量可以为一个或多个。
该设备还包括:
通信接口430,用于与外界设备进行通信,进行数据交互传输。
存储器410可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器410、处理器420和通信接口430独立实现,则存储器410、处理器420和通信接口430可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器410、处理器420及通信接口430集成在一块芯片上,则存储器410、处理器420及通信接口430可以通过内部接口完成相互间的通信。
综上所示,相对于主题标签和关注点标签的文档推荐方法,基于泛标签的文档推荐对于用户兴趣点的粒度把握更适中,对于用户的泛化兴趣建模更好。从适合的垂类方面,泛标签可以适用于实体密度较低和实体偏好性不强的垂类(譬如情感、美食等),同时对于实体偏好性强的垂类也能和传统标签并存,对于传统的标签起到很好的补充作用,能更好地服务用户兴趣,推荐更精准。另外,在模型训练方面,采用了多种深度学习技术(例如CNN和BOW)做融合,以及构建多任务分类学习,使得泛标签分类模型的性能表现更好。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种文档推荐方法,其特征在于,包括:
获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;
采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及
确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签;
所述采用泛标签分类模型,确定所述原文档的泛标签的步骤包括:
采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。
2.根据权利要求1所述的方法,其特征在于,如果获取到的原文档为多个,则所述方法还包括:
确定用户对于多个原文档的点击量;
所述确定推荐文档包括:为点击量最大的原文档确定推荐文档。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取训练语料,所述训练语料包括多个样本文档;以及
基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型的步骤包括:
将所述训练语料分别输入卷积神经网络和神经网络词袋模型,以分别得到n维向量和m维向量,其中,n和m均是大于0的正整数;
拼接所述n维向量和所述m维向量,以得到n+m维向量;以及
基于所述n+m维向量进行训练,得到所述泛标签分类模型。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取训练语料,所述训练语料包括多个样本文档;以及
基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。
6.根据权利要求5所述的方法,其特征在于,所述采用多分类任务学习的方式包括:
以泛标签分类任务学习为主,以主题分类任务学习为辅,其中,所述主题分类任务学习基于所述主题类信息。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取训练语料,所述训练语料包括多个样本文档;
对所述样本文档进行标题提取和正文提取;
将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及
采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。
8.根据权利要求3至7任一项所述的方法,其特征在于,所述获取训练语料的步骤包括:
确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;
根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及
将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。
9.一种文档推荐装置,其特征在于,包括:
原文档获取模块,用于获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;
泛标签确定模块,用于采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及
推荐文档确定模块,用于确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签;
所述泛标签确定模块用于采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。
10.根据权利要求9所述的装置,其特征在于,还包括:
用户点击量确定模块,用于在如果获取到的原文档为多个时,确定用户对于多个原文档的点击量;
所述推荐文档确定模块还用于为点击量最大的原文档确定推荐文档。
11.根据权利要求9所述的装置,其特征在于,还包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;以及
训练模块,用于基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。
12.根据权利要求9所述的装置,其特征在于,还包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;以及
训练模块,用于基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。
13.根据权利要求9所述的装置,其特征在于,还包括:
训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;
提取模块,用于对所述样本文档进行标题提取和正文提取;
输入模块,用于将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及
模型训练模块,用于采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。
14.根据权利要求9至13任一项所述的装置,其特征在于,所述训练语料获取模块包括:
泛标签分类体系确立单元,用于确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;
标注单元,用于根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及
训练语料确定单元,用于将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。
15.一种文档推荐设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任一所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810714381.8A CN108897871B (zh) | 2018-06-29 | 2018-06-29 | 文档推荐方法、装置、设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810714381.8A CN108897871B (zh) | 2018-06-29 | 2018-06-29 | 文档推荐方法、装置、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108897871A CN108897871A (zh) | 2018-11-27 |
CN108897871B true CN108897871B (zh) | 2020-10-30 |
Family
ID=64347988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810714381.8A Active CN108897871B (zh) | 2018-06-29 | 2018-06-29 | 文档推荐方法、装置、设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897871B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033200B (zh) * | 2018-06-29 | 2021-03-02 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、设备及计算机可读介质 |
CN109726390B (zh) * | 2018-12-06 | 2023-07-21 | 天津字节跳动科技有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN109376309B (zh) * | 2018-12-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN111858901A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种基于语义相似的文本推荐方法及系统 |
CN111552802A (zh) * | 2020-03-09 | 2020-08-18 | 北京达佳互联信息技术有限公司 | 文本分类模型训练方法和装置 |
CN111767439B (zh) * | 2020-06-28 | 2023-12-15 | 百度在线网络技术(北京)有限公司 | 基于页面分类标签的推荐方法、设备和介质 |
CN112115348B (zh) * | 2020-08-05 | 2024-04-12 | 互联网域名系统北京市工程研究中心有限公司 | 品牌域名注册的推荐方法及系统 |
CN112100493B (zh) * | 2020-09-11 | 2024-04-26 | 北京三快在线科技有限公司 | 文档排序方法、装置、设备及存储介质 |
CN112818111B (zh) * | 2021-01-28 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、电子设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030200198A1 (en) * | 2000-06-28 | 2003-10-23 | Raman Chandrasekar | Method and system for performing phrase/word clustering and cluster merging |
CN103164471A (zh) * | 2011-12-15 | 2013-06-19 | 盛乐信息技术(上海)有限公司 | 视频文本标签的推荐方法及系统 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
CN107451216A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 标签的粒度属性识别方法及装置 |
CN108073677A (zh) * | 2017-11-02 | 2018-05-25 | 中国科学院信息工程研究所 | 一种基于人工智能的多级文本多标签分类方法及系统 |
-
2018
- 2018-06-29 CN CN201810714381.8A patent/CN108897871B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030200198A1 (en) * | 2000-06-28 | 2003-10-23 | Raman Chandrasekar | Method and system for performing phrase/word clustering and cluster merging |
CN103164471A (zh) * | 2011-12-15 | 2013-06-19 | 盛乐信息技术(上海)有限公司 | 视频文本标签的推荐方法及系统 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
CN107451216A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 标签的粒度属性识别方法及装置 |
CN108073677A (zh) * | 2017-11-02 | 2018-05-25 | 中国科学院信息工程研究所 | 一种基于人工智能的多级文本多标签分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于标签-主题模型的标签推荐研究;胡蓉;《中国优秀硕士学位论文全文数据库信息科技辑》;20140115(第1期);第I138-2300页 * |
融合CNN和LDA的短文本分类研究;张小川 等;《软件工程》;20180605;第21卷(第6期);第17-21页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108897871A (zh) | 2018-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897871B (zh) | 文档推荐方法、装置、设备及计算机可读介质 | |
CN108491529B (zh) | 信息推荐方法及装置 | |
CN109543022B (zh) | 文本纠错方法和装置 | |
CN107491432B (zh) | 基于人工智能的低质量文章识别方法及装置、设备及介质 | |
CN109800390B (zh) | 一种个性化情感摘要的计算方法与装置 | |
CN107844560A (zh) | 一种数据接入的方法、装置、计算机设备和可读存储介质 | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN104503975A (zh) | 推荐卡片的定制方法及装置 | |
CN108845806A (zh) | 小程序分发方法、装置、服务器和存储介质 | |
CN108959550B (zh) | 用户关注点挖掘方法、装置、设备及计算机可读介质 | |
CN110516011A (zh) | 一种多源实体数据融合方法、装置及设备 | |
CN115470488A (zh) | 目标风险网站检测方法、装置及存储介质 | |
CN109657043B (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
CN107944026A (zh) | 一种图集个性化推荐的方法、装置、服务器和存储介质 | |
Sharif et al. | Vision to language: Methods, metrics and datasets | |
CN112989118B (zh) | 视频召回方法及装置 | |
CN116578738B (zh) | 一种基于图注意力和生成对抗网络的图文检索方法和装置 | |
CN114443916B (zh) | 一种面向试验数据的供需匹配方法及系统 | |
CN111062449A (zh) | 预测模型的训练方法、兴趣度预测方法、装置和存储介质 | |
CN110083687A (zh) | 一种信息转换方法、设备及存储介质 | |
CN108595498B (zh) | 问题反馈方法及装置 | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |