CN112182414A - 文章推荐方法、装置及电子设备 - Google Patents

文章推荐方法、装置及电子设备 Download PDF

Info

Publication number
CN112182414A
CN112182414A CN202010813759.7A CN202010813759A CN112182414A CN 112182414 A CN112182414 A CN 112182414A CN 202010813759 A CN202010813759 A CN 202010813759A CN 112182414 A CN112182414 A CN 112182414A
Authority
CN
China
Prior art keywords
article
user
articles
behavior
portrait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010813759.7A
Other languages
English (en)
Inventor
杨硕
官延斌
刘旭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yicun Beijing Information Technology Co ltd
Original Assignee
Yicun Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yicun Beijing Information Technology Co ltd filed Critical Yicun Beijing Information Technology Co ltd
Priority to CN202010813759.7A priority Critical patent/CN112182414A/zh
Publication of CN112182414A publication Critical patent/CN112182414A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文章推荐方法及装置,该方法包括:获取用户的行为和所述用户的信息;根据所述用户的行为获取在线召回文章;根据所述用户的行为和所述用户的信息生成所述用户的画像;根据所述用户的画像获取离线召回文章;根据所述在线召回文章和所述离线召回文章生成文章推荐结果。本申请结合在线召回文章和离线召回文章生成文章推荐结果,提高了文章推荐结果的准确性,确保了文章推荐过程中的有效性以及可靠性。同时,通过向用户推荐更加准确的个性化定制文章(文章列表),还能够提高用户体验。

Description

文章推荐方法、装置及电子设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文章推荐方法、装置及电子设备。
背景技术
文章作为知识与新闻的载体,为知识与新闻的分享、传播做出了巨大的贡献。随着数据处理技术的发展,越来越多的平台通过为用户进行智能推荐,以减少用户广泛查询过程的耗时,提升用户体验。由此,如何提高文章推荐过程中的准确性、有效性和可靠性,已成为了重要的研究方向之一。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种文章推荐方法,用于解决现有文章推荐方法中存在的准确性低、有效性低和可靠性差的技术问题。
本发明的第二个目的在于提出一种文章推荐装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为了实现上述目的,本申请第一方面实施例提供了一种文章推荐方法,所述方法包括以下步骤:获取用户的行为和所述用户的信息;根据所述用户的行为获取在线召回文章;根据所述用户的行为和所述用户的信息生成所述用户的画像;根据所述用户的画像获取离线召回文章;根据所述在线召回文章和所述离线召回文章生成文章推荐结果。
另外,根据本申请上述实施例的文章推荐方法还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述根据所述用户的行为获取在线召回文章,包括:根据所述用户的行为获取行为对应的文章;获取与所述行为对应的文章相似的文章作为所述在线召回文章。
根据本申请的一个实施例,所述根据所述用户的行为和所述用户的信息生成所述用户的画像,包括:根据所述用户的行为获取行为对应的文章;获取所述行为对应的文章的文章画像;根据所述行为对应的文章的文章画像和所述用户的信息生成所述用户的画像。
根据本申请的一个实施例,所述根据所述用户的画像获取离线召回文章,包括以下方式中的任意一种或多种:获取与所述用户的画像中的所述文章画像相似的文章作为所述离线召回文章;获取与所述用户的画像相似的用户画像对应的用户浏览过的文章作为所述离线召回文章;获取与所述用户的画像中的所述文章画像相关的热点文章;获取与所述用户的画像中的所述文章画像相关的新文章。
根据本申请的一个实施例,所述根据所述在线召回文章和所述离线召回文章生成文章推荐结果,包括:对所述用户的画像进行特征提取;根据提取的特征进行模型训练,得到排序模型;将所述在线召回文章和所述离线召回文章输入至所述排序模型,得到点击率预估结果;根据所述点击率预估结果对所述在线召回文章和所述离线召回文章进行排序;根据排序结果生成所述文章推荐结果。
根据本申请的一个实施例,还包括:获取文章的文本内容;对所述文本内容进行分词处理,得到候选分词和所述候选分词对应的词频;
根据所述候选分词在所述文本内容中的位置和所述候选分词对应的词频确定所述候选分词的权重;对所述候选分词分别进行关键词提取和主题词提取,得到关键词和主题词;将所述关键词和所述主题词的交集中所述权重最高的设定数量的词作为所述文章的文章画像。
根据本申请的一个实施例,还包括:将所述文章的文章画像转化为词向量;将所述文章的所述词向量的平均值作为所述文章的向量;根据所述文章的向量,采用余弦距离算法、局部敏感哈希算法和K-平均值算法中的任意一种计算所述文章的相似度;根据所述文章的相似度得到与所述文章相似的文章。
根据本申请的一个实施例,还包括:根据所述文章的文章画像采用全文检索的方式获取所述文章的相似度;根据所述文章的相似度得到与所述文章相似的文章。
本申请第一方面实施例提供了文章推荐方法,能够通过获取用户的行为和用户的信息,以根据用户的行为获取在线召回文章,并且根据用户的行为和用户的信息生成用户的画像,以根据用户的画像获取离线召回文章,进而根据在线召回文章和离线召回文章生成文章推荐结果,以实现文章的推荐。由此,本申请结合在线召回文章和离线召回文章生成文章推荐结果,提高了文章推荐结果的准确性,确保了文章推荐过程中的有效性以及可靠性。同时,通过向用户推荐更加准确的个性化定制文章(文章列表),还能够提高用户体验。
为了实现上述目的,本申请第二方面实施例提供了一种文章推荐装置,所述文章推荐装置,包括:第一获取模块,用于获取用户的行为和所述用户的信息;第二获取模块,用于根据所述用户的行为获取在线召回文章;第一生成模块,用于根据所述用户的行为和所述用户的信息生成所述用户的画像;第三获取模块,用于根据所述用户的画像获取离线召回文章;第二生成模块,用于根据所述在线召回文章和所述离线召回文章生成文章推荐结果。
另外,根据本申请上述实施例的文章推荐装置还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述第二获取模块,包括:根据所述用户的行为获取行为对应的文章;获取与所述行为对应的文章相似的文章作为所述在线召回文章。
根据本申请的一个实施例,所述第一生成模块,包括:根据所述用户的行为获取行为对应的文章;获取所述行为对应的文章的文章画像;根据所述行为对应的文章的文章画像和所述用户的信息生成所述用户的画像。
根据本申请的一个实施例,所述第三获取模块,用于实现以下方式中的任意一种或多种:获取与所述用户的画像中的所述文章画像相似的文章作为所述离线召回文章;获取与所述用户的画像相似的用户画像对应的用户浏览过的文章作为所述离线召回文章;获取与所述用户的画像中的所述文章画像相关的热点文章;获取与所述用户的画像中的所述文章画像相关的新文章。
根据本申请的一个实施例,所述第二生成模块,包括:对所述用户的画像进行特征提取;根据提取的特征进行模型训练,得到排序模型;将所述在线召回文章和所述离线召回文章输入至所述排序模型,得到点击率预估结果;根据所述点击率预估结果对所述在线召回文章和所述离线召回文章进行排序;根据排序结果生成所述文章推荐结果。
根据本申请的一个实施例,所述第三获取模块,还用于:获取文章的文本内容;对所述文本内容进行分词处理,得到候选分词和所述候选分词对应的词频;根据所述候选分词在所述文本内容中的位置和所述候选分词对应的词频确定所述候选分词的权重;对所述候选分词分别进行关键词提取和主题词提取,得到关键词和主题词;将所述关键词和所述主题词的交集中所述权重最高的设定数量的词作为所述文章的文章画像。
根据本申请的一个实施例,所述第三获取模块,还用于:将所述文章的文章画像转化为词向量;将所述文章的所述词向量的平均值作为所述文章的向量;根据所述文章的向量,采用余弦距离算法、局部敏感哈希算法和K-平均值算法中的任意一种计算所述文章的相似度;根据所述文章的相似度得到与所述文章相似的文章。
根据本申请的一个实施例,所述第三获取模块,还用于:根据所述文章的文章画像采用全文检索的方式获取所述文章的相似度;根据所述文章的相似度得到与所述文章相似的文章。
本申请第二方面实施例提供了文章推荐装置,能够通过获取用户的行为和用户的信息,以根据用户的行为获取在线召回文章,并且根据用户的行为和用户的信息生成用户的画像,以根据用户的画像获取离线召回文章,进而根据在线召回文章和离线召回文章生成文章推荐结果,以实现文章的推荐。由此,本申请结合在线召回文章和离线召回文章生成文章推荐结果,提高了文章推荐结果的准确性,确保了文章推荐过程中的有效性以及可靠性。同时,通过向用户推荐更加准确的个性化定制文章(文章列表),还能够提高用户体验。
为了实现上述目的,本申请第三方面实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例中任一项所述的文章推荐方法。
为了实现上述目的,本申请第四方面实施例提供了一种计算机可读存储介质,该程序被处理器执行时实现如本申请第一方面实施例中任一项所述的文章推荐方法。
附图说明
图1为本申请一个实施例公开的文章推荐方法的流程示意图;
图2为本申请另一个实施例公开的文章推荐方法的流程示意图;
图3为一种业务流程的示意图;
图4为本申请另一个实施例公开的文章推荐方法的流程示意图;
图5为本申请另一个实施例公开的文章推荐方法的流程示意图;
图6为本申请另一个实施例公开的文章推荐方法的流程示意图;
图7为一种通过连续词袋模型获取词向量的示意图;
图8为本申请另一个实施例公开的文章推荐方法的流程示意图;
图9为本申请另一个实施例公开的文章推荐方法的流程示意图;
图10为本申请一个实施例公开的文章推荐装置的示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
下面参照附图描述根据本申请实施例提出的文章推荐方法、装置及电子设备。
图1为本申请一个实施例公开的文章推荐方法的流程示意图。其中,需要说明的是,本实施例的文章推荐方法的执行主体为文章推荐装置,文章推荐装置具体可以为硬件设备,或者硬件设备中的软件等。其中,硬件设备例如终端设备、服务器等。
如图1所示,本申请实施例提出的文章推荐方法,具体包括以下步骤:
S101、获取用户的行为和用户的信息。
本申请实施例中,可从网站、应用程序(Application,简称APP)等平台中,获取文章对应的用户的行为和用户的信息。
其中,用户的行为,指的是用户的点击、收藏、分享、评论、下载等行为。
需要说明的是,本申请对于获取用户的行为的具体方式不作限定,可以根据实际情况进行设定。举例而言,可以通过水槽(Flume)、Chukwa(ApacheChukwa)等日志收集系统进行采集。
其中,用户的信息,指的是用户的自然属性信息、社会属性信息等。举例而言,用户的信息,包括:姓名、出生年月、籍贯等自然属性信息;以及家庭人数、工作地点、公司行业、手机型号等社会属性信息。
S102、根据用户的行为获取在线召回文章。
本申请实施例中,在获取到用户的行为后,可以根据用户的行为获取匹配的在线召回文章。
其中,召回文章,指的是通过召回操作从内容池中回捞已经发布的文章。在线召回文章,指的是根据实时的用户的行为,跟踪用户的偏好,并根据用户的偏好召回的文章,在线召回文章具有良好的实时性。
S103、根据用户的行为和用户的信息生成用户的画像。
本申请实施例中,在获取到用户的行为和用户的信息后,可以根据用户的行为和用户的信息生成用户的画像。
其中,用户的画像,指的是将用户的具体信息转化成抽象的标签信息,例如用户的性别、年龄、职业和爱好等,并利用这些标签将用户的形象具体化,以为用户提供个性化的、具有针对性的服务。
S104、根据用户的画像获取离线召回文章。
其中,离线召回文章,指的是基于用户画像等由历史记录获取到的数据,跟踪用户的偏好,并根据用户的偏好召回的文章。
S105、根据在线召回文章和离线召回文章生成文章推荐结果。
可选地,在获取到在线召回文章和离线召回文章后,可以将在线召回文章和离线召回文章输入经过训练得到的对应模型中,例如排序模型,以生成文章推荐结果。
其中,排序模型可以按照预设顺序生成文章推荐结果,例如,可以按照升序排列方式、降序排列方式生成文章推荐结果。举例而言,可以将排名前5的文章按照降序排列方式生成文章推荐结果,以推荐给用户。
根据本申请实施例提出的文章推荐方法,能够通过获取用户的行为和用户的信息,以根据用户的行为获取在线召回文章,并且根据用户的行为和用户的信息生成用户的画像,以根据用户的画像获取离线召回文章,进而根据在线召回文章和离线召回文章生成文章推荐结果,以实现文章的推荐。由此,本申请结合在线召回文章和离线召回文章生成文章推荐结果,提高了文章推荐结果的准确性,确保了文章推荐过程中的有效性以及可靠性。同时,通过向用户推荐更加准确的个性化定制文章(文章列表),还能够提高用户体验。
需要说明的是,本申请中,在试图根据用户的行为获取在线召回文章时,可以获取符合要求的相似的文章,进而将相似的文章作为在线召回文章。
作为一种可能的实现方式,如图2所示,在上述实施例的基础上,上述步骤S102中根据用户的行为获取在线召回文章的过程,具体包括以下步骤:
S201、根据用户的行为获取行为对应的文章。
例如,获取到用户执行了点赞行为,此时,可以获取用户所点赞的文章甲,即对应的文章;又例如,获取到用户执行了页面分享至第三方平台的行为,此时,可以获取用户所分享的页面中包括的文章乙,即对应的文章。
S202、获取与行为对应的文章相似的文章作为在线召回文章。
需要说明的是,本申请中,如图3所示,在通过Flume采集到用户的行为后,可以将采集到的用户的行为数据发送至Kafka(Apache Kafka),并存储于分布式文件系统(HadoopDistributed File System,简称HDFS)上。
可选地,发送至Kafka的用户的行为数据传输至Spark Streaming,以进行实时地计算,获取与行为对应的文章相似的文章,作为在线召回文章。其中,SparkStreaming是Spark(计算引擎)核心应用程序编程接口(Application Programming Interface,简称API)的扩展,能够实现高吞吐量的计算,具备容错机制的实时流数据处理。
需要说明的是,本申请中,在试图根据用户的行为和用户的信息生成用户的画像时,可以获取用户的行为对应的文章,以及用户的行为对应的文章的文章画像,进而根据文章画像和用户的信息生成用户的画像。
作为一种可能的实现方式,如图4所示,在上述实施例的基础上,上述步骤S103中根据用户的行为和用户的信息生成用户的画像的过程,具体包括以下步骤:
S301、根据用户的行为获取行为对应的文章。
该步骤S301与上一实施例中的步骤S201相同,此处不再赘述。
S302、获取行为对应的文章的文章画像。
S303、根据行为对应的文章的文章画像和用户的信息生成用户的画像。
作为一种可能的实现方式,如图5所示,在上述实施例的基础上,上述步骤S302中获取行为对应的文章的文章画像的过程,具体包括以下步骤:
S3021、获取文章的文本内容。
其中,文章的文本内容,可以包括但不限于以下内容中的至少一项:文章标题、文章内容、文章描述等。
举例而言,获取到文章甲的文本内容包括:第一期入门讲座(文章标题)、日语假名排列图标及简单举例(文章内容)和日语基础教学(文章描述)。
S3022、对文本内容进行分词处理,得到候选分词和候选分词对应的词频。
其中,分词处理,指的是基于统计的分词处理,统计的样本内容来自于一些标准的语料库。
其中,候选分词对应的词频,可以用于评估该候选分词于该文章中的重复程度。
举例而言,对“小明来到北京市”进行分词处理,能够得到小明、来到、北京、市,共四个候选分词,且候选分词小明、来到、北京、市对应的词频分别为5、5、2、3。
需要说明的是,本申请中对于进行分词处理的具体方法不做限定,可以根据实际情况进行设定。例如,可以采用正向最大匹配法、反向最大匹配法、最短路径分词法等方法对文本内容进行分词处理。
S3023、根据候选分词在文本内容中的位置和候选分词对应的词频确定候选分词的权重。
作为一种可能的实现方式,可以通过查询候选分词对应的词频与对应的第一权重之间的映射关系,获取到候选分词的原始权重。进一步地,通过查询候选分词在文本内容中的位置与对应的第二权重之间的映射关系,获取到候选分词的修正权重,进而在获取到的候选分词的原始权重的基础上,根据修正权重,对候选分词的权重进行修正。
需要说明的是,现有技术中,在试图对文章进行分词时,不会获取候选分词的权重。而本申请中,在得到候选分词和候选分词对应的词频后,可以根据候选分词在文本内容中的不同位置,即候选分词的不同重要程度,修正候选分词的权重。这样一来,本申请提出的文章推荐方法,能够确保生成的文章推荐结果可以更加直观地体现文章之间的相似程度,进一步提升了用户体验。
举例而言,获取到的候选分词为小明、来到、北京、市,前述分词的原始权重分别为:0.3、0.2、0.4、0.1;以及前述分词在文本中的位置分别为文章标题、文章内容、文章标题、文章内容。此时,通过查询映射关系可以得到与标题对应的修正权重为1.5,则可以分别将分词“小明”和“北京”的权重修正为0.3*1.5=0.45、0.4*1.5=0.6。由此,候选分词小明、来到、北京、市对应的权重分别为0.45、0.2、0.6、0.1。
S3024、对候选分词分别进行关键词提取和主题词提取,得到关键词和主题词。
本申请实施例中,在试图对候选分词分别进行关键词提取和主题词提取时,可以通过TF-IDF(Term Frequency–Inverse Document Frequency)对候选分词进行关键词提取,并通过Text Rank对候选分词进行主题词提取,以得到关键词和主题词。其中,TF-IDF和Text Rank技术的具体实现方式为现有技术,此处不再进行赘述。
S3025、将关键词和主题词的交集中权重最高的设定数量的词作为文章的文章画像。
其中,设定数量可以根据实际情况进行设定,例如15、20、25等。
举例而言,可以获取带有权重的主题词与关键字的交集,然后将对应的权重相乘,并通过降序排列方式获取乘积排名前20的词作为文章的文章画像。
根据本申请实施例提出的文章推荐方法,能够根据用户的行为获取行为对应的文章,以及行为对应的文章的文章画像,进而根据行为对应的文章的文章画像和用户的信息,生成用户的画像。可选地,在试图获取文章画像时,通过根据候选分词在文本内容中的不同位置,即候选分词的不同重要程度,修正候选分词的权重,确保了获取到的文章画像的准确性,从而确保了用户画像获取过程中的准确性,进一步提高了文章推荐结果的准确性。
进一步地,在获取到文章画像后,可以根据文章画像,获取与文章相似的文章。
作为一种可能的实现方式,如图6所示,在上述实施例的基础上,获取与文章相似的文章的过程,具体包括以下步骤:
S401、将文章的文章画像转化为词向量。
其中,将文章的文章画像转化为词向量的过程指的是将文章画像转化成为稠密向量的过程,即为将自然语言表示的词转换为计算机能够理解的向量或矩阵形式的过程。其中,语义相似的文章画像,其对应的词向量相近。
需要说明的是,本申请中对于将文章的文章画像转化为词向量的方式不作限定,可以根据实际情况进行选择。例如,可以基于统计方法将文章的文章画像转化为词向量;又例如,可以基于语言模型(Language Model)将文章的文章画像转化为词向量。
作为一种可能的实现方式,可以选取单词到向量(Word to Vector,简称Word2vec)中的连续词袋(Continuous Bag of Words,简称CBOW)模型,将文章的文章画像转化为词向量。
举例而言,如图7所示,可以将文章画像(t-1)至文章画像(t-n)以及文章画像(t+1)至文章画像(t+n)输入至CBOW模型中转化为词向量(t)。
S402、将文章的词向量的平均值作为文章的向量。
本申请实施例中,在将文章的文章画像转化为词向量后,可以获取文章的词向量的平均值,并将该平均作为文章的向量,以提高文章向量的准确性,进一步确保了生成的文章推荐结果的准确性。
S403、根据文章的向量,采用余弦距离算法、局部敏感哈希算法和K-平均值算法中的任意一种计算文章的相似度。
作为一种可能的实现方式,可以根据文章的体量采用匹配的文章相似度算法。
可选地,可以将文章数量与预设文章数量进行比较,如果识别文章数量大于或者等于预设文章数量,说明此时文章体量极大时,则可以采用局部敏感哈希(LocalitySensitive Hashing,简称LSH)算法或者K-平均值(K-means Clustering Algorithm,简称K-means)算法中的任意一种计算文章的相似度;如果识别文章数量小于预设文章数量,说明此时文章体量较小时,则可以采用余弦距离算法计算文章的相似度。其中,预设文章数量可以根据实际情况进行设定,例如100万、150万等。
需要说明的是,在实际应用中,由于计算文章的相似度时,待计算的文章体量极大,可达百万级。由此,本申请中,特别是针对APP文章推荐应用场景,可以基于LSH算法将所有文章进行哈希分桶,并计算每个哈希桶内两两文章的相似度;或者,可以基于K-means算法将所有文章进行聚类,并计算每个聚类得到的类别内两两文章的相似度,极大地减少了计算过程的耗时,提升了计算效率。
其中,余弦距离算法、LSH算法和K-means算法的具体计算方式为现有技术,此处不再进行赘述。
S404、根据文章的相似度得到与文章相似的文章。
可选地,可以根据文章的相似度,在Spark Streaming中进行实时地计算,以得到与文章相似的文章。
作为另一种可能的实现方式,如图8所示,在上述实施例的基础上,获取与文章相似的文章的过程,具体包括以下步骤:
S501、根据文章的文章画像采用全文检索的方式获取文章的相似度。
需要说明的是,针对文章详情内推本文章的相似文章的应用场景,可以采用全文检索的方式获取文章的相似度,此时,采用全文检索的方式获取文章的相似度能够展示相似度更加直观的结果。
S502、根据文章的相似度得到与文章相似的文章。
可选地,可以根据文章的相似度,在Spark Streaming中进行实时地计算,以得到与文章相似的文章。
根据本申请实施例提出的文章推荐方法,能够针对文章体量、应用场景等因素采用匹配的文章相似度算法,可选地,文章体量极大时,可以采用LSH算法或者K-平均值算法中的任意一种计算文章的相似度;可选地,文章体量较小时,可以采用余弦距离算法计算文章的相似度;可选地,针对文章详情内推本文章的相似文章的应用场景,可以采用全文检索的方式获取文章的相似度,能够极大地减少计算过程的耗时,提升计算效率,尽可能地展示相似度一目了然的文章推荐结果,提高了文章推荐过程的效率,进而进一步提高了用户体验。
需要说明的是,本申请中,在试图根据用户的画像获取离线召回文章时,可以采用以下方式中的任意一种或者多种方式。
第一种方式,可以获取与用户的画像中的文章画像相似的文章作为离线召回文章;
第二种方式,获取与用户的画像相似的用户画像对应的用户浏览过的文章作为离线召回文章;
第三种方式,获取与用户的画像中的文章画像相关的热点文章;
第四种方式,获取与用户的画像中的文章画像相关的新文章。
上述第一种获取离线召回文章的方式,相当于一种基于内容的召回方式,一般也叫做标签召回。可选地,采用第一种方式时,可以根据用户浏览过的文章,基于图8所示的方法获取到的与文章相似的文章,获取浏览过的文章的相似文章,以作为离线召回文章。
上述第二种离线召回文章的方式,相当于一种协同过滤召回方式。可选地,采用第二种方式时,可以根据用户的画像获取与每个用户相似的用户浏览过的文章进行召回。与传统的基于内容的召回方式不同,协同过滤主要分析用户兴趣,在用户群中找到指定用户和相似(兴趣)用户,综合这些相似用户对某一文章的行为,形成系统对指定用户进行文章的喜好程度预测。
现有技术中,协同过滤召回过分依赖用户的行为数据,如果缺失行为数据,势必导致协同过滤的结果失真过大,同时,在数据量极大时,推荐系统的性能降低很快。由此,本申请中执行了数据的预筛选过程,不再依赖用户的行为数据作为协同过滤的唯一依据,有效地避免了因用户的行为数据缺失导致协同过滤的结果失真过大的技术问题。进一步地,筛选后得到的数据量较小且更加精确,避免了推荐结果失真过大的问题。
举例而言,用户对文章的评论数据过少且评论内容过短的数据与文章建立了联系,此种情况下,势必会对协同过滤结果产生干扰,因此通过用户对文章的关注度数据进行了筛选,可以将干扰协同过滤结果的推荐数据进行去除,从而提高协同过滤的准确度并且提升协同过滤的计算效率。
需要说明的是,在试图根据在线召回文章和离线召回文章生成文章推荐结果时,可以根据训练好的排序模型获取文章推荐结果。
作为一种可能的实现方式,如图9所示,在上述实施例的基础上,上述步骤S105中根据在线召回文章和离线召回文章生成文章推荐结果的过程,具体包括以下步骤:
S601、对用户的画像进行特征提取。
其中,提取到的特征,可以包括但不限于以下内容中的至少一项:用户身份、用户年龄、出行方式、性别、车辆属性、活动范围个数、常用地点、日程表、功能项操作次数等。
S602、根据提取的特征进行模型训练,得到排序模型。
其中,排序模型至少包括基于点击通过率(Click-Through-Rate,简称CTR)的逻辑回归(Logistic Regression,简称LR)模型,以及联合线性模型和深度模型(Wide&Deep)。
其中,CTR,指的是的点击到达率,即实际点击次数。例如,网络广告CTR指的是网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数。
需要说明的是,为了提高排序模型在排序时的特征读取处理速率,可以直接将处理好的特征写入HBASE(开源数据库)。
S603、将在线召回文章和离线召回文章输入至排序模型,得到点击率预估结果。
需要说明的是,在线召回文章和离线召回文章存储于同一存储区域内,在得到训练好的排序模型后,可以将在线召回文章和离线召回文章输入至排序模型,得到CTR的预估结果。
S604、根据点击率预估结果对在线召回文章和离线召回文章进行排序。
S605、根据排序结果生成文章推荐结果。
举例而言,在获取到点击率预估结果后,可以对在线召回文章和离线召回文章进行降序排序,进而根据排序结果,获取排名前5的文章组成作为推荐列表,以作为文章推荐结果进行展示。
根据本申请实施例提出的文章推荐方法,通过对用户的画像进行特征提取,并根据提取的特征进行模型训练,以得到排序模型,然后将在线召回文章和离线召回文章输入至排序模型,得到点击率预估结果,并根据点击率预估结果对在线召回文章和离线召回文章进行排序,进而根据排序结果生成文章推荐结果。由此,本申请能够在训练得到排序模型后,将在线召回文章和离线召回文章输入至排序模型,以生成文章推荐结果,使得本申请利用大数据建立在线和离线计算整体架构,结合在线召回文章和离线召回文章生成文章推荐结果,提高了文章推荐结果的准确性,确保了文章推荐过程中的有效性以及可靠性。同时,通过向用户推荐更加准确的个性化定制文章(文章列表),还能够提高用户体验。
基于同一申请构思,本申请实施例还提供了一种文章推荐方法对应的装置。
图10为本申请实施例提供的文章推荐装置的结构示意图。如图10所示,该文章推荐装置1000,包括:第一获取模块110、第二获取模块120、第一生成模块130、第三获取模块140和第二生成模块150。
其中,第一获取模块110,用于获取用户的行为和所述用户的信息;第二获取模块120,用于根据所述用户的行为获取在线召回文章;第一生成模块130,用于根据所述用户的行为和所述用户的信息生成所述用户的画像;第三获取模块140,用于根据所述用户的画像获取离线召回文章;第二生成模块150,用于根据所述在线召回文章和所述离线召回文章生成文章推荐结果。
根据本申请的一个实施例,第二获取模块120,包括:根据所述用户的行为获取行为对应的文章;获取与所述行为对应的文章相似的文章作为所述在线召回文章。
根据本申请的一个实施例,第一生成模块130,包括:根据所述用户的行为获取行为对应的文章;获取所述行为对应的文章的文章画像;根据所述行为对应的文章的文章画像和所述用户的信息生成所述用户的画像。
根据本申请的一个实施例,第三获取模块140,用于实现以下方式中的任意一种或多种:获取与所述用户的画像中的所述文章画像相似的文章作为所述离线召回文章;获取与所述用户的画像相似的用户画像对应的用户浏览过的文章作为所述离线召回文章;获取与所述用户的画像中的所述文章画像相关的热点文章;获取与所述用户的画像中的所述文章画像相关的新文章。
根据本申请的一个实施例,第二生成模块150,包括:对所述用户的画像进行特征提取;根据提取的特征进行模型训练,得到排序模型;将所述在线召回文章和所述离线召回文章输入至所述排序模型,得到点击率预估结果;根据所述点击率预估结果对所述在线召回文章和所述离线召回文章进行排序;根据排序结果生成所述文章推荐结果。
根据本申请的一个实施例,第三获取模块140,还用于:获取文章的文本内容;对所述文本内容进行分词处理,得到候选分词和所述候选分词对应的词频;根据所述候选分词在所述文本内容中的位置和所述候选分词对应的词频确定所述候选分词的权重;对所述候选分词分别进行关键词提取和主题词提取,得到关键词和主题词;将所述关键词和所述主题词的交集中所述权重最高的设定数量的词作为所述文章的文章画像。
根据本申请的一个实施例,第三获取模块140,还用于:将所述文章的文章画像转化为词向量;将所述文章的所述词向量的平均值作为所述文章的向量;根据所述文章的向量,采用余弦距离算法、局部敏感哈希算法和K-平均值算法中的任意一种计算所述文章的相似度;根据所述文章的相似度得到与所述文章相似的文章。
根据本申请的一个实施例,第三获取模块140,还用于:根据所述文章的文章画像采用全文检索的方式获取所述文章的相似度;根据所述文章的相似度得到与所述文章相似的文章。
根据本申请实施例提出的文章推荐方法对应的文章推荐装置,能够通过获取用户的行为和用户的信息,以根据用户的行为获取在线召回文章,并且根据用户的行为和用户的信息生成用户的画像,以根据用户的画像获取离线召回文章,进而根据在线召回文章和离线召回文章生成文章推荐结果,以实现文章的推荐。由此,本申请结合在线召回文章和离线召回文章生成文章推荐结果,提高了文章推荐结果的准确性,确保了文章推荐过程中的有效性以及可靠性。同时,通过向用户推荐更加准确的个性化定制文章(文章列表),还能够提高用户体验。
基于同一申请构思,本申请实施例还提供了一种电子设备。
图11为本申请实施例提供的电子设备的结构示意图。如图11所示,该电子设备2000,包括存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序,处理器执行程序时,实现前述的文章推荐方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种文章推荐方法,其特征在于,包括:
获取用户的行为和所述用户的信息;
根据所述用户的行为获取在线召回文章;
根据所述用户的行为和所述用户的信息生成所述用户的画像;
根据所述用户的画像获取离线召回文章;
根据所述在线召回文章和所述离线召回文章生成文章推荐结果。
2.根据权利要求1所述的文章推荐方法,其特征在于,所述根据所述用户的行为获取在线召回文章,包括:
根据所述用户的行为获取行为对应的文章;
获取与所述行为对应的文章相似的文章作为所述在线召回文章。
3.根据权利要求2所述的文章推荐方法,其特征在于,所述根据所述用户的行为和所述用户的信息生成所述用户的画像,包括:
根据所述用户的行为获取行为对应的文章;
获取所述行为对应的文章的文章画像;
根据所述行为对应的文章的文章画像和所述用户的信息生成所述用户的画像。
4.根据权利要求3所述的文章推荐方法,其特征在于,所述根据所述用户的画像获取离线召回文章,包括以下方式中的任意一种或多种:
获取与所述用户的画像中的所述文章画像相似的文章作为所述离线召回文章;
获取与所述用户的画像相似的用户画像对应的用户浏览过的文章作为所述离线召回文章;
获取与所述用户的画像中的所述文章画像相关的热点文章;
获取与所述用户的画像中的所述文章画像相关的新文章。
5.根据权利要求1所述的文章推荐方法,其特征在于,所述根据所述在线召回文章和所述离线召回文章生成文章推荐结果,包括:
对所述用户的画像进行特征提取;
根据提取的特征进行模型训练,得到排序模型;
将所述在线召回文章和所述离线召回文章输入至所述排序模型,得到点击率预估结果;
根据所述点击率预估结果对所述在线召回文章和所述离线召回文章进行排序;
根据排序结果生成所述文章推荐结果。
6.根据权利要求3所述的文章推荐方法,其特征在于,还包括:
获取文章的文本内容;
对所述文本内容进行分词处理,得到候选分词和所述候选分词对应的词频;
根据所述候选分词在所述文本内容中的位置和所述候选分词对应的词频确定所述候选分词的权重;
对所述候选分词分别进行关键词提取和主题词提取,得到关键词和主题词;
将所述关键词和所述主题词的交集中所述权重最高的设定数量的词作为所述文章的文章画像。
7.根据权利要求6所述的文章推荐方法,其特征在于,还包括:
将所述文章的文章画像转化为词向量;
将所述文章的所述词向量的平均值作为所述文章的向量;
根据所述文章的向量,采用余弦距离算法、局部敏感哈希算法和K-平均值算法中的任意一种计算所述文章的相似度;
根据所述文章的相似度得到与所述文章相似的文章。
8.根据权利要求6所述的文章推荐方法,其特征在于,还包括:
根据所述文章的文章画像采用全文检索的方式获取所述文章的相似度;
根据所述文章的相似度得到与所述文章相似的文章。
9.一种文章推荐装置,其特征在于,包括:
第一获取模块,用于获取用户的行为和所述用户的信息;
第二获取模块,用于根据所述用户的行为获取在线召回文章;
第一生成模块,用于根据所述用户的行为和所述用户的信息生成所述用户的画像;
第三获取模块,用于根据所述用户的画像获取离线召回文章;
第二生成模块,用于根据所述在线召回文章和所述离线召回文章生成文章推荐结果。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-8中任一项所述的文章推荐方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的文章推荐方法。
CN202010813759.7A 2020-08-13 2020-08-13 文章推荐方法、装置及电子设备 Pending CN112182414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010813759.7A CN112182414A (zh) 2020-08-13 2020-08-13 文章推荐方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010813759.7A CN112182414A (zh) 2020-08-13 2020-08-13 文章推荐方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112182414A true CN112182414A (zh) 2021-01-05

Family

ID=73919252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010813759.7A Pending CN112182414A (zh) 2020-08-13 2020-08-13 文章推荐方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112182414A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010588A (zh) * 2023-03-28 2023-04-25 北京创新乐知网络技术有限公司 实时与离线结合的文档推荐方法、装置、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066484A1 (en) * 2006-08-21 2011-03-17 Golconda Co., Ltd. On-line advertisement output controlling system and method of the same
US20130275413A1 (en) * 2012-03-13 2013-10-17 MindsPlace Inc. Knowledge visualization and information based social network
CN106126582A (zh) * 2016-06-20 2016-11-16 乐视控股(北京)有限公司 推荐方法及装置
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109408703A (zh) * 2018-09-03 2019-03-01 腾讯科技(深圳)有限公司 信息推荐方法及其系统、装置、电子设备、存储介质
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN110188186A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 医疗领域的内容推荐方法、电子装置、设备及存储介质
CN110472016A (zh) * 2019-08-16 2019-11-19 腾讯科技(北京)有限公司 文章推荐方法、装置、电子设备及存储介质
GB201917702D0 (en) * 2019-12-04 2020-01-15 Ernst & Young Gmbh System for providing adaptive training support for search platform
CN110781377A (zh) * 2019-09-03 2020-02-11 腾讯科技(深圳)有限公司 一种文章推荐方法、装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066484A1 (en) * 2006-08-21 2011-03-17 Golconda Co., Ltd. On-line advertisement output controlling system and method of the same
US20130275413A1 (en) * 2012-03-13 2013-10-17 MindsPlace Inc. Knowledge visualization and information based social network
CN106126582A (zh) * 2016-06-20 2016-11-16 乐视控股(北京)有限公司 推荐方法及装置
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN109408703A (zh) * 2018-09-03 2019-03-01 腾讯科技(深圳)有限公司 信息推荐方法及其系统、装置、电子设备、存储介质
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN110188186A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 医疗领域的内容推荐方法、电子装置、设备及存储介质
CN110472016A (zh) * 2019-08-16 2019-11-19 腾讯科技(北京)有限公司 文章推荐方法、装置、电子设备及存储介质
CN110781377A (zh) * 2019-09-03 2020-02-11 腾讯科技(深圳)有限公司 一种文章推荐方法、装置
GB201917702D0 (en) * 2019-12-04 2020-01-15 Ernst & Young Gmbh System for providing adaptive training support for search platform

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAN N N: ""Web Services Recommendation Based On User’s Behavior"", 《IEEE INTERNATIONAL CONFERENCE ON E-BUSINESS ENGINEERING》, pages 214 - 221 *
李琳 等: ""一种潜在特征同步学习和偏好引导的推荐方法"", 《软件学报》, pages 3382 - 3396 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010588A (zh) * 2023-03-28 2023-04-25 北京创新乐知网络技术有限公司 实时与离线结合的文档推荐方法、装置、设备及介质
CN116010588B (zh) * 2023-03-28 2023-08-18 北京创新乐知网络技术有限公司 实时与离线结合的文档推荐方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US10546006B2 (en) Method and system for hybrid information query
Zamani et al. Situational context for ranking in personal search
US9594826B2 (en) Co-selected image classification
US10180979B2 (en) System and method for generating suggestions by a search engine in response to search queries
US9785888B2 (en) Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information
US8380723B2 (en) Query intent in information retrieval
JP2021108183A (ja) 意図推薦方法、装置、機器及び記憶媒体
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN108885624B (zh) 信息推荐系统及方法
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
JP6911603B2 (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
TW201447797A (zh) 內容個人化之多相排序方法和系統
US11263664B2 (en) Computerized system and method for augmenting search terms for increased efficiency and effectiveness in identifying content
WO2011033441A1 (en) Syndicated data stream content provisioning
US20190155934A1 (en) Search query enhancement with context analysis
US10990620B2 (en) Aiding composition of themed articles about popular and novel topics and offering users a navigable experience of associated content
CN111159341A (zh) 基于用户投资理财偏好的资讯推荐方法及装置
US20150142584A1 (en) Ranking content based on member propensities
CN112328889A (zh) 推荐搜索词确定方法、装置、可读介质及电子设备
CN106462588B (zh) 来自所提取的内容的内容创建
US20140129694A1 (en) Evaluating information retrieval systems in real-time across dynamic clusters of evidence
CN112182414A (zh) 文章推荐方法、装置及电子设备
US20150019334A1 (en) Systems and methods for providing targeted messaging when targeting terms are unavailable
US20240020321A1 (en) Category recommendation with implicit item feedback
KR101568800B1 (ko) 실시간 이슈 검색어 선별 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination