CN113360779B - 内容推荐方法及装置、计算机设备及可读介质 - Google Patents
内容推荐方法及装置、计算机设备及可读介质 Download PDFInfo
- Publication number
- CN113360779B CN113360779B CN202110905700.5A CN202110905700A CN113360779B CN 113360779 B CN113360779 B CN 113360779B CN 202110905700 A CN202110905700 A CN 202110905700A CN 113360779 B CN113360779 B CN 113360779B
- Authority
- CN
- China
- Prior art keywords
- keywords
- historical
- data
- potential
- potential keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000006399 behavior Effects 0.000 claims description 64
- 238000012216 screening Methods 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 12
- 239000013598 vector Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 241000282372 Panthera onca Species 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102100033914 Retinoic acid receptor responder protein 2 Human genes 0.000 description 1
- 101710170513 Retinoic acid receptor responder protein 2 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种内容推荐方法及装置、计算机设备及可读介质,通过历史行为数据获取潜在关键词,并将潜在关键词与历史行为数据中关联的文本内容进行打标,得到标注数据库,再根据当前搜索数据在标注数据库中进行匹配,推荐与潜在关键词相关联的文本内容。本申请提供的内容推荐方法可以更准确的抽取潜在关键词,其抽取的潜在关键词不会很泛。抽取的潜在关键词,相比分类体系来说更加明确。具体的,本申请提供的内容推荐方法只有当两篇文本内容具备相同的用户兴趣点时,才会抽取出相同的潜在关键词。由于被收入至标注数据库中的潜在关键词与关联文本内容具备相同的用户兴趣点,因此在推荐给用户的时候,不会出现推荐的文本内容用户不感兴趣的问题。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种内容推荐方法及装置、计算机设备及可读介质。
背景技术
随着移动时代的到来,内容生态蓬勃发展。网站内包含大量的回答和文章数据,涉及到大量的搜索和推荐场景。而准确的向用户展示搜索结果、推送兴趣内容需要有效的内容推荐,将文本内容转换为更简洁有效的表示。
常见的内容推荐方式有内容类型分类法、特征向量表示法、关键词法。其中,关键词法是最常见的内容推荐方法。现在已有大量基于内容本身获取文本关键词的方法,其主要结果是保证少量关键词和全文内容传达一致的意思,但是关键词法只是从内容生产方的角度来解读内容,目前也需要从内容消费方的角度来提取内容的关键词。由于社区运营主要关注内容的消费过程,因此基于消费方的关键词能够更准确的描述文本内容。
发明内容
本发明的目的在于提供一种内容推荐方法及装置、计算机设备及可读介质,能够基于消费方提供合适的关键词以实现准确的描述文本内容。
本申请提供一种内容推荐方法,包括以下步骤:
获取历史行为数据;
根据所述历史行为数据获取潜在关键词;
将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库;
接收当前搜索数据,根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。
在一个实施例中,所述历史行为数据包括历史搜索数据,所述潜在关键词为第一类潜在关键词;
所述根据所述历史行为数据获取潜在关键词的步骤,包括:
查找所述历史搜索数据,确定预筛选模板;
根据所述预筛选模板,确定模糊关键词;
基于所述模糊关键词,进一步查找所述历史搜索数据,确定精细筛选模板;
根据所述精细筛选模板,确定明确关键词;
依次不断更新筛选模板和关键词,以生成所述第一类潜在关键词,所述第一类潜在关键词包括所述模糊关键词和所述明确关键词。
在一个实施例中,所述历史行为数据包括历史搜索数据和历史点击数据,所述潜在关键词为第二类潜在关键词;
所述根据所述历史行为数据获取潜在关键词的步骤,包括:
查找所述历史点击数据,比较所述历史点击数据与所述历史搜索数据的相关度;
当所述历史点击数据与所述历史搜索数据的相关度高于预设相关度阈值,则所述历史搜索数据作为所述第二类潜在关键词。
在一个实施例中,所述比较所述历史点击数据与所述历史搜索数据的相关度的步骤包括:
对所述历史搜索数据进行拆分,获得历史搜索分词;
将所述历史点击数据与所述历史搜索分词进行比较,获取所述历史点击数据与所述历史搜索分词的相关度。
在一个实施例中,所述相关度包括覆盖度、词性分数、分散度或顺序度中的至少一种。
在一个实施例中,在所述将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库的步骤之后还包括:
获取未能进入所述标注数据库的文本内容的未打标标题;
将所述未打标标题与所述潜在关键词进行匹配,若所述未打标标题中包含了所述潜在关键词中的特定关键词,则将所述特定关键词与所述未能进入所述标注数据库的文本内容进行打标,并收入到所述标注数据库。
在一个实施例中,本申请还提供一种内容推荐方法,包括以下步骤:
获取历史行为数据,所述历史行为数据包括历史搜索数据和历史点击数据;
根据所述历史搜索数据确定第一类潜在关键词,根据所述历史点击数据确定第二类潜在关键词;
将所述第一类潜在关键词和第二类潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库;
接收当前搜索数据,根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。
在一个实施例中,一种内容推荐装置,包括:
行为数据获取装置,用于获取历史行为数据和当前搜索数据;
关键词获取装置,用于根据所述历史行为数据获取潜在关键词;
数据标注装置,用于将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库;以及
内容匹配装置,用于接收当前搜索数据,并根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。
在一个实施例中,本申请提供一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一所述的内容推荐方法。
在一个实施例中,本申请提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一所述的内容推荐方法。
本发明实施例的有益效果是:本申请通过历史行为数据获取潜在关键词,并将潜在关键词与历史行为数据中关联的文本内容进行打标,得到标注数据库,再根据当前搜索数据在标注数据库中进行匹配,推荐与潜在关键词相关联的文本内容。本申请提供的内容推荐方法可以更准确的抽取潜在关键词,其抽取的潜在关键词不会很泛。抽取的潜在关键词,相比分类体系来说更加明确。具体的,本申请提供的内容推荐方法只有当两篇文本内容具备相同的用户兴趣点时,才会抽取出相同的潜在关键词。由于被收入至标注数据库中的潜在关键词与关联文本内容具备相同的用户兴趣点,因此在推荐给用户的时候,不会出现推荐的文本内容用户不感兴趣的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一个实施例提供的内容推荐方法的步骤流程图;
图2为本申请一个实施例提供的内容推荐装置的结构示意图;
图3为本申请一个实施例提供的计算机设备的结构示意图。
附图标记说明:
内容推荐装置10;
行为数据获取装置11;
关键词获取装置12;
数据标注装置13;
内容匹配装置14;
计算机设备20;
处理器21;
存储器22。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
传统的,基于分类体系的内容推荐方法主要按照现实世界事物的常见分类思路,构建一个多层级的分类体系。比如:金融分类体系:房地产、理财、投资等;美食分类体系:餐饮、烹饪、食材等。这一分类体系的构建主要依赖人工定义,需要足够完善来覆盖所有数据。分类体系建立之后便可以使用分类的方法训练模型使每篇内容都被分到某个类型下。
基于分类体系的内容推荐方法的缺陷在于:该方法能够覆盖几乎所有的内容,但是由于其满足现实世界普适性,往往同一类型下数据仍然各种各样。尽管用户喜欢理财类型的文章A,却可能很讨厌理财类型文章B。比如餐饮类型,用户在查看了开店的文章后,推荐一个怎么教父母做菜是不合适的。虽然分类体系可以覆盖全部文章,但是其最终的类型比较泛,包含的信息量比较少。
传统的,基于特征向量的内容推荐方法需要深度学习。目前大量的现有搜索、推荐业务都未用明确含义的标签来表示某个内容,而是使用深度学习模型来学习相关任务,获取特征向量来表示该内容。该特征向量的主要判断标准是:相似的两篇内容的特征应该相似(空间距离小)。最终使用该特征向量作为特征输入深度学习模型。最终使得深度学习模型能够理解哪些内容是相似的内容,从而达到了内容推荐的目的。
基于特征向量的内容推荐方法的缺陷在于:虽然深度学习模型可以覆盖每一篇文章,但是由于其特征向量可能不包含明显语义,其可解释性不足。
传统的,基于生产方的关键词提取方法主要是将文本中的少数几个词语提取出来作为内容的关键词。这一类关键词提取的方法主要判断标准是看到少数几个词语后的理解和看到全文后的理解之间差异要尽量小,也即少数几个词语表示的意思与全文相似。
基于生产方的关键词提取方法的缺陷在于:现有的关键词提取方法主要目标是找出和全文意思最相关的几个词语,但是找出的关键词准确率不高。并且关键词比较零散,还需要聚类或者其他方法才能够找到相似的内容。另外,文本的关键词不一定和吸引用户的角度一致。
比如说, 一篇讲解“十代雅阁”的文章,我们抽取出关键词“十代雅阁”,其近似的可能是“九代雅阁”。“十代雅阁”和“九代雅阁”确实是相似的,但是明显用户不需要推荐“九代雅阁”(因为“九代雅阁”已经是上一代产品了),而如果推荐给用户“2021款凯美瑞”相关的文章,用户的体验会更好。因为“十代雅阁”和“2021款凯美瑞”这两篇文章,都是用户搜索“省油B级车”最终点击的文章,因此这两篇文章更合适的关键词应该是“省油B级车”,但是这几个字都未在文章标题中出现。
基于上述分析,申请人发现需要从内容消费方的角度来提取内容的关键词。由于社区运营主要关注内容的消费过程,因此基于消费方的关键词能够更准确的描述文本内容。
因此,基于消费方准确描述文本内容的需求,本申请提出了一种内容推荐方法及装置、计算机设备及可读介质,能够基于消费方提供合适的关键词以实现准确的描述文本内容。
具体的,请参阅图1本申请提供一种内容推荐方法。所述内容推荐方法可以基于消费方提供合适的关键词以实现准确的描述文本内容,可以准确的为消费方提供相关推荐。所述内容推荐方法包括以下步骤:
S01:获取历史行为数据。所述历史行为数据包括用户输入的文本内容,用户输入的操作指令,其中用户输入的文本内容包括输入文本(文章或者对于问题的回答)、输入图片等。用户输入的操作指令包括鼠标点击、标注、标黄、加粗、倾斜、收藏等。
S02:根据所述历史行为数据获取潜在关键词。本步骤中获取的所述潜在关键词为基于消费者消费需求的关键词。所述潜在关键词一般并不是字面意义的直接关联,比如A级车、B级车、C级车是按照车的等级进行划分的,在进行搜索/推荐的过程中可能标注为*级车或者等级车等直接关键词。而本申请中涉及到的所述潜在关键词为进一步的挖掘出消费方是按照哪些指标进行的等级分类,比如,燃油经济性(省油、费油)、操作稳定性(抗甩尾、防侧滑、防倾覆)。也就是说,本申请中的所述潜在关键词可以深入的挖掘用户(消费方)的需求,因此根据所述潜在关键词进行的文本内容的推荐也更准确。
S03:将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库。
本步骤中,所述历史行为数据中关联的文本内容可以是某一种主题的相关文章/回答。将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,所述打标的动作就是将所述潜在关键词与对应的文本内容建立一个连接关系,以实现所述潜在关键词与所述文本内容(相关文章/回答)的对标。所述潜在关键词与对应的文本内容对标之后,可以方便在用户发起相关搜索时,能够快速的响应,将与所述潜在关键词相关的文本内容推荐给用户。比如,在所述历史行为数据中发现,用户搜索了“工科生游戏本”,用户点击了一篇名为“2020最值得买的工科生游戏本分析”的文本内容。那么将“工科生游戏本”与“2020最值得买的工科生游戏本分析”的文本内容进行打标。
S04:接收当前搜索数据,根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。
本步骤中,所述当前搜索数据为用户当前的搜索内容。所述当前搜索数据的大小可能远小于所述历史行为数据的大小。所述当前搜索数据中包括至少一个所述潜在关键词,一个所述潜在关键词至少推荐一个相关文本内容。所述当前搜索数据与至少一个所述潜在关键词之间肯定具有相同的用户兴趣点。
本申请实施例中提供的所述内容推荐方法通过所述历史行为数据获取所述潜在关键词,并将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到所述标注数据库,再根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。本申请提供的所述内容推荐方法可以更准确的抽取所述潜在关键词,其抽取的所述潜在关键词不会很泛。抽取的所述潜在关键词,相比分类体系来说更加明确。具体的,本申请提供的内容推荐方法只有当两篇文本内容具备相同的用户兴趣点时,才会抽取出相同的所述潜在关键词。由于被收入至所述标注数据库中的所述潜在关键词与关联文本内容具备相同的用户兴趣点,因此在推荐给用户的时候,不会出现推荐的文本内容用户不感兴趣的问题。
另外,相比于特征向量法,本申请提供的所述内容推荐方法有明确的所述潜在关键词,可解释性行更强。所述潜在关键词对应用户兴趣点,使用更方便。本申请提取的所述潜在关键词相比从内容中直接提取出的关键词,无需对关键词进一步聚类或者分析,直接可以使用到搜索和推荐场景中,使得所述潜在关键词更加准确。
比如:一篇讲解“十代雅阁”的文章,采用本申请的内容推荐方法得出的潜在关键词为“省油”、“不同等级车型”、“省油B级车”,而现有的关键词挖掘方法得出的关键词可能为“十代雅阁”。根据关键词“十代雅阁”推荐的相关文章可能是“九代雅阁”,但是明显用户不需要推荐“九代雅阁”(因为“九代雅阁”已经是上一代产品了)。而根据“省油”、“不同等级车型”、“省油B级车”等本申请的内容推荐方法得出的潜在关键词推荐给用户“2021款凯美瑞”相关的文章,用户的体验会更好。因为“十代雅阁”和“2021款凯美瑞”这两篇文章,都已经与潜在关键词“省油B级车”打标。
在一个实施例中,所述历史行为数据包括历史搜索数据,所述潜在关键词为第一类潜在关键词。所述根据所述历史行为数据获取潜在关键词的步骤,包括:
查找所述历史搜索数据,确定预筛选模板。本步骤中所述预筛选模板可以是人工总结概括形成的,也可以是采用人工智能模块总结概括形成的。
根据所述预筛选模板,确定模糊关键词。本步骤中的所述模糊关键词可能理解为对消费方的消费意图理解不清楚的关键词,或者理解为从所述历史搜索数据中初步筛选的中间过渡性关键词。所述模糊关键词与后续获得的所述第一类潜在关键词可能存在部分相似的词语。
基于所述模糊关键词,进一步查找所述历史搜索数据,确定精细筛选模板。本步骤中所述精细筛选模板是对所述预筛选模板的细化,其主要目的是能够找到更贴近消费方需求的潜在关键词。
根据所述精细筛选模板,确定明确关键词。本步骤中确认的明确关键词是比所述模糊关键词更贴近消费方需求的所述明确关键词。
依次不断更新筛选模板和关键词,以生成所述第一类潜在关键词,所述第一类潜在关键词包括所述模糊关键词和所述明确关键词。
比如所述预筛选模板可以设置为“x什么样的(xxx)最x好x”、“x哪[款|个]x(xxx)性价比高x”、“x(xxx)有什么推荐x”等。利用所述预筛选模板可以找出部分关键词(所述模糊关键词)。例如:用户搜索了“十万以内电动汽车有什么推荐”命中了“x(xxx)有什么推荐x”模板,可以提取出“十万内电动汽车”这个模糊关键词。再例如:用户搜索了“女朋友生日礼物什么样的最好”,命中了“x什么样的(xxx)最x好x”模板,可以提取出“女朋友生日礼物”这个模糊关键词。基于上述方法还可以获取到“宝宝周岁照”、“工科生游戏本”等潜在关键词。
再利用这些潜在关键词(所述模糊关键词和所述明确关键词)去匹配用户搜索数据,发现包含该关键词的搜索短句是否可以被某种模板包含,依次总结出更多模板。利用这样的方式不断发掘模板和关键词,最终找到一批消费方感兴趣的关键词。再一次推荐的操作中可能涉及到2万、5万、10万甚至更多个潜在关键词,最终根据所述潜在关键词推荐到用户(消费方)感兴趣的文本内容。
在一个实施例中,所述历史行为数据包括历史搜索数据和历史点击数据,所述潜在关键词为第二类潜在关键词。所述根据所述历史行为数据获取潜在关键词的步骤,包括:
查找所述历史点击数据,比较所述历史点击数据与所述历史搜索数据的相关度。比如,用户搜索了“十万以内电动汽车有什么推荐”,用户点击了“十万以内新能源电动汽车品牌”。“十万以内”和“电动汽车”这两个潜在关键词是命中的关键词。所述命中的关键词可以作为词语覆盖度来定义相关度。所述历史点击数据与所述历史搜索数据中有多少比例的词语被覆盖了。
当所述历史点击数据与所述历史搜索数据的相关度高于预设相关度阈值,则所述历史搜索数据作为所述第二类潜在关键词。所述预设相关度阈值可以根据不同的所述当前检索内容进行调整。比如,所述预设相关度阈值可以设置在75。
本实施例中, 通过比较所述历史点击数据与所述历史搜索数据的相关度,进一步比较所述相关度是否高于预设相关度阈值,来确定所述第二类潜在关键词。本实施例中确定的所述第二潜在关键词可以更加贴近用户(消费方)的需求。
在一个实施例中,所述比较所述历史点击数据与所述历史搜索数据的相关度的步骤包括:
对所述历史搜索数据进行拆分,获得历史搜索分词。本步骤中,所述历史搜索分词可能是长度比所述潜在关键词更短一些的词语/语句。
将所述历史点击数据与所述历史搜索分词进行比较,获取所述历史点击数据与所述历史搜索分词的相关度。本步骤中的相关度可以理解为相关程度,相关程度越高,越先匹配相关联的文本内容,越先对用户进行推荐。具体所述历史点击数据与所述历史搜索分词的相关度可以用0-100来评价,相关度为0,即所述历史点击数据与所述历史搜索分词不相关。
在一个实施例中,所述相关度包括覆盖度、词性分数、分散度或顺序度中的至少一种。
本步骤中,所述覆盖度可以为所述历史搜索分词被所述历史点击数据包含的比例。所述词性分数可以为所述历史搜索分词中名词、形容词所占的比例。上述分散度可以为所述历史搜索分词在所述历史点击数据中的相邻词语的平均距离,或者是所述历史搜索分词在所述历史点击数据中的词数。上述顺序度可以为所述历史搜索分词在所述历史搜索数据中的顺序计算平均距离。
本实施例中,所述覆盖度、所述词性分数、所述分散度和所述顺序度均可以设置为相关分数,即覆盖度分数可以为0-100,词性分数可以为0-100,分散度分数可以为0-100,顺序度分数可以为0-100。在计算所述相关度时,可以直接将各个相关度的分数相加。最终与所述预设相关度阈值进行比较。
在一个实施例中,在所述将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库的步骤之后还包括:
获取未能进入所述标注数据库的文本内容的未打标标题。
将所述未打标标题与所述潜在关键词进行匹配,若所述未打标标题中包含了所述潜在关键词中的特定关键词,则将所述特定关键词与所述未能进入所述标注数据库的文本内容进行打标,并收入到所述标注数据库。
所述特定关键词是指未能进入所述标注数据库的文本内容的标题中包含的候选关键词。其中,未能进入所述标注数据库的文本内容的标题中包含的候选关键词可以是采用人工规则方法确定的,即所述特定关键词可以是采用人工规则方法确定的。确定所述特定关键词是为了查漏补缺,使得所述标注数据库中的打标对更全面。
本实施例中,可以采用人工规则方法,对所述历史行为数据中没有打标的文本内容进行一次检测。对于未能进入所述标注数据库的文本内容获取其文本内容的标题,未能进入所述标注数据库的文本内容的标题中包含了哪些候选关键词,就把该些候选关键词达标到该未能进入所述标注数据库的文本内容中。本实施例中,这种方法可以查漏补缺,使得所述标注数据库中的打标对(相关联的所述潜在关键词与所述历史行为数据中关联的文本内容)更全面。
在一个实施例中,本申请还提供一种内容推荐方法,包括以下步骤:
获取历史行为数据,所述历史行为数据包括历史搜索数据和历史点击数据。
根据所述历史搜索数据确定第一类潜在关键词,根据所述历史点击数据确定第二类潜在关键词。
将所述第一类潜在关键词和第二类潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库。
接收当前搜索数据,根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。
本申请提供的所述内容推荐方法,通过挖掘所述第一类潜在关键词和第二类潜在关键词,并将所述第一类潜在关键词和第二类潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到所述标注数据库,再根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。本申请提供的所述内容推荐方法可以更准确的抽取所述第一类潜在关键词和第二类潜在关键词,其抽取的所述潜在关键词不会很泛,并且其抽取的潜在关键词会更准确。具体的,本申请提供的内容推荐方法只有当两篇文本内容具备相同的用户兴趣点时,才会抽取出相同的所述潜在关键词。由于被收入至所述标注数据库中的所述第一类潜在关键词和第二类潜在关键词与关联文本内容具备相同的用户兴趣点,因此在推荐给用户的时候,不会出现推荐的文本内容用户不感兴趣的问题。
另外,相比于特征向量法,本申请提供的所述内容推荐方法有明确的所述第一类潜在关键词和第二类潜在关键词,可解释性行更强。所述第一类潜在关键词和第二类潜在关键词对应用户兴趣点,使用更方便。本申请提取的所述第一类潜在关键词和第二类潜在关键词相比从内容中直接提取出的关键词,无需对关键词进一步聚类或者分析,直接可以使用到搜索和推荐场景中,使得所述潜在关键词更加准确。
请参阅图2,在一个实施例中,本申请提供一种内容推荐装置10,包括:行为数据获取装置11、关键词获取装置12、数据标注装置13和内容匹配装置14。
所述行为数据获取装置11用于获取历史行为数据和当前搜索数据。
所述关键词获取装置12与行为数据获取装置11存在数据关系,用于根据所述历史行为数据获取潜在关键词。所述潜在关键词为基于消费者消费需求的关键词。在一个实施例中,所述潜在关键词包括第一类潜在关键词和/或第二类潜在关键词。
所述数据标注装置13分别与所述关键词获取装置12和所述行为数据获取装置11存在数据关系。所述数据标注装置13用于将所述潜在关键词与所述历史行为数据中关联的文本内容(相关文章/回答)进行打标,得到标注数据库。数据标注装置13可以帮助实现所述潜在关键词与所述文本内容(相关文章/回答)的对标。
所述内容匹配装置14与所述数据标注装置13存在数据关系。所述内容匹配装置14用于接收当前搜索数据,并根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。
本申请实施例中提供的所述内容推荐装置10通过所述行为数据获取装置11获取历史行为数据和当前搜索数据。通过所述关键词获取装置12依据所述历史行为数据获取潜在关键词。通过所述数据标注装置13将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库。最终通过所述内容匹配装置14接收当前搜索数据,并根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。本申请提供的所述内容推荐装置10可以更准确的抽取所述潜在关键词,其抽取的所述潜在关键词不会很泛。抽取的所述潜在关键词,相比分类体系来说更加明确。具体的,本申请提供的内容推荐装置10只有当两篇文本内容具备相同的用户兴趣点时,才会抽取出相同的所述潜在关键词。由于被收入至所述标注数据库中的所述潜在关键词与关联文本内容具备相同的用户兴趣点,因此在推荐给用户的时候,不会出现推荐的文本内容用户不感兴趣的问题。
请参阅图3,在一个实施例中,本申请还提供一种计算机设备20。所述计算机设备20包括:一个或多个处理器21以及存储器22。所述存储器22用于存储一个或多个程序。
当所述一个或多个程序被所述一个或多个处理器21执行,使得所述一个或多个处理器21实现如上述任一所述的内容推荐方法。
在一个实施例中,本申请提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一所述的内容推荐方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种内容推荐方法,其特征在于,包括以下步骤:
获取历史行为数据;
根据所述历史行为数据获取潜在关键词;
将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库,被收入至所述标注数据库中的所述潜在关键词与关联的文本内容具备相同的用户兴趣点;
接收当前搜索数据,根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容;所述当前搜索数据与至少一个所述潜在关键词之间肯定具有相同的用户兴趣点;
其中,所述历史行为数据包括历史搜索数据,所述潜在关键词为第一类潜在关键词;
所述根据所述历史行为数据获取潜在关键词的步骤,包括:
查找所述历史搜索数据,确定预筛选模板;
根据所述预筛选模板,确定模糊关键词;
基于所述模糊关键词,进一步查找所述历史搜索数据,确定精细筛选模板;
根据所述精细筛选模板,确定明确关键词;
依次不断更新筛选模板和关键词,以生成所述第一类潜在关键词,所述第一类潜在关键词包括所述模糊关键词和所述明确关键词。
2.根据权利要求1所述的内容推荐方法,其特征在于,所述历史行为数据还包括历史点击数据,所述潜在关键词为第二类潜在关键词;
所述根据所述历史行为数据获取潜在关键词的步骤,包括:
查找所述历史点击数据,比较所述历史点击数据与所述历史搜索数据的相关度;
当所述历史点击数据与所述历史搜索数据的相关度高于预设相关度阈值,则所述历史搜索数据作为所述第二类潜在关键词。
3.根据权利要求2所述的内容推荐方法,其特征在于,所述比较所述历史点击数据与所述历史搜索数据的相关度的步骤包括:
对所述历史搜索数据进行拆分,获得历史搜索分词;
将所述历史点击数据与所述历史搜索分词进行比较,获取所述历史点击数据与所述历史搜索分词的相关度。
4.根据权利要求3所述的内容推荐方法,其特征在于,所述相关度包括覆盖度、词性分数、分散度或顺序度中的至少一种。
5.根据权利要求1-4中任一项所述的内容推荐方法,其特征在于,在所述将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库的步骤之后还包括:
获取未能进入所述标注数据库的文本内容的未打标标题;
将所述未打标标题与所述潜在关键词进行匹配,若所述未打标标题中包含了所述潜在关键词中的特定关键词,则将所述特定关键词与所述未能进入所述标注数据库的文本内容进行打标,并收入到所述标注数据库。
6.一种内容推荐方法,其特征在于,包括以下步骤:
获取历史行为数据,所述历史行为数据包括历史搜索数据和历史点击数据;
根据所述历史搜索数据确定第一类潜在关键词,根据所述历史点击数据确定第二类潜在关键词;
将所述第一类潜在关键词和第二类潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库,被收入至所述标注数据库中的所述潜在关键词与关联的文本内容具备相同的用户兴趣点;
接收当前搜索数据,根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容;所述当前搜索数据与至少一个所述潜在关键词之间肯定具有相同的用户兴趣点;
所述根据所述历史搜索数据确定第一类潜在关键词的步骤,包括:
查找所述历史搜索数据,确定预筛选模板;
根据所述预筛选模板,确定模糊关键词;
基于所述模糊关键词,进一步查找所述历史搜索数据,确定精细筛选模板;
根据所述精细筛选模板,确定明确关键词;
依次不断更新筛选模板和关键词,以生成所述第一类潜在关键词,所述第一类潜在关键词包括所述模糊关键词和所述明确关键词。
7.一种内容推荐装置,其特征在于,用于实现如权利要求1-6中任一所述的方法,包括:
行为数据获取装置,用于获取历史行为数据和当前搜索数据;
关键词获取装置,用于根据所述历史行为数据获取潜在关键词;
数据标注装置,用于将所述潜在关键词与所述历史行为数据中关联的文本内容进行打标,得到标注数据库,被收入至所述标注数据库中的所述潜在关键词与关联的文本内容具备相同的用户兴趣点;以及
内容匹配装置,用于接收当前搜索数据,并根据所述当前搜索数据在所述标注数据库中进行匹配,推荐与所述潜在关键词相关联的文本内容。
8.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110905700.5A CN113360779B (zh) | 2021-08-09 | 2021-08-09 | 内容推荐方法及装置、计算机设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110905700.5A CN113360779B (zh) | 2021-08-09 | 2021-08-09 | 内容推荐方法及装置、计算机设备及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360779A CN113360779A (zh) | 2021-09-07 |
CN113360779B true CN113360779B (zh) | 2023-01-20 |
Family
ID=77540724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110905700.5A Active CN113360779B (zh) | 2021-08-09 | 2021-08-09 | 内容推荐方法及装置、计算机设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360779B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871483A (zh) * | 2019-01-22 | 2019-06-11 | 珠海天燕科技有限公司 | 一种推荐信息的确定方法及装置 |
WO2020057022A1 (zh) * | 2018-09-18 | 2020-03-26 | 深圳壹账通智能科技有限公司 | 关联推荐方法、装置、计算机设备和存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064853B (zh) * | 2011-10-20 | 2017-02-08 | 北京百度网讯科技有限公司 | 一种搜索建议生成方法、装置及系统 |
US9554258B2 (en) * | 2014-04-03 | 2017-01-24 | Toyota Jidosha Kabushiki Kaisha | System for dynamic content recommendation using social network data |
CN105574030B (zh) * | 2014-10-16 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN108446286B (zh) * | 2017-02-16 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN109145281B (zh) * | 2017-06-15 | 2020-12-25 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置及存储介质 |
CN109190049B (zh) * | 2018-11-02 | 2021-11-23 | 北京字节跳动网络技术有限公司 | 关键词推荐方法、系统、电子设备和计算机可读介质 |
CN111488450A (zh) * | 2020-04-08 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 一种用于生成关键词库的方法、装置和电子设备 |
CN112685578B (zh) * | 2020-12-25 | 2024-06-28 | 刘亚虹 | 一种多媒体信息内容提供方法及装置 |
CN112749344B (zh) * | 2021-02-04 | 2023-08-01 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、电子设备、存储介质及程序产品 |
CN112948449A (zh) * | 2021-02-23 | 2021-06-11 | 北京三快在线科技有限公司 | 一种信息推荐的方法及装置 |
-
2021
- 2021-08-09 CN CN202110905700.5A patent/CN113360779B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020057022A1 (zh) * | 2018-09-18 | 2020-03-26 | 深圳壹账通智能科技有限公司 | 关联推荐方法、装置、计算机设备和存储介质 |
CN109871483A (zh) * | 2019-01-22 | 2019-06-11 | 珠海天燕科技有限公司 | 一种推荐信息的确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113360779A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427563B (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
US7599926B2 (en) | Reputation information processing program, method, and apparatus | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
Moghaddam et al. | AQA: aspect-based opinion question answering | |
CN103744981A (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN109522412B (zh) | 文本情感分析方法、装置及介质 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN112395410B (zh) | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 | |
CN112991017A (zh) | 基于用户评论解析的标签体系精准推荐方法 | |
CN103870973A (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
Song et al. | Opinion mining in e-learning system | |
CN108021715B (zh) | 基于语义结构特征分析的异构标签融合系统 | |
Ahlgren | Research on sentiment analysis: the first decade | |
US20150026184A1 (en) | Methods and systems for content management | |
CN106294500A (zh) | 内容项目的推送方法、装置及系统 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN112307314A (zh) | 搜索引擎精选摘要的生成方法和装置 | |
CN111814028B (zh) | 一种信息搜索方法及装置 | |
CN112711666A (zh) | 期货标签抽取方法及装置 | |
CN113360779B (zh) | 内容推荐方法及装置、计算机设备及可读介质 | |
CN112214511A (zh) | 一种基于wtp-wcd算法的api推荐方法 | |
CN112241463A (zh) | 一种基于融合文本语义与图片信息的搜索方法 | |
CN111723308A (zh) | 一种基于互联网的教育信息搜索系统 | |
Jalal et al. | A web content mining application for detecting relevant pages using Jaccard similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |