CN114398547A - 一种智能推送文章的处理方法和装置 - Google Patents

一种智能推送文章的处理方法和装置 Download PDF

Info

Publication number
CN114398547A
CN114398547A CN202210013183.5A CN202210013183A CN114398547A CN 114398547 A CN114398547 A CN 114398547A CN 202210013183 A CN202210013183 A CN 202210013183A CN 114398547 A CN114398547 A CN 114398547A
Authority
CN
China
Prior art keywords
article
data
record
generate
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210013183.5A
Other languages
English (en)
Other versions
CN114398547B (zh
Inventor
李响
杜正平
高峰
刘沛丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Borui Tongyun Technology Co ltd
Original Assignee
Beijing Borui Tongyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Borui Tongyun Technology Co ltd filed Critical Beijing Borui Tongyun Technology Co ltd
Priority to CN202210013183.5A priority Critical patent/CN114398547B/zh
Publication of CN114398547A publication Critical patent/CN114398547A/zh
Application granted granted Critical
Publication of CN114398547B publication Critical patent/CN114398547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种智能推送文章的处理方法和装置,所述方法包括:获取第一用户标识数据;查表获得第一记录集合;选择尚未阅读的文章资源记录组成第二记录集合;计算各个已读文章记录对应的第一兴趣值数据;进行关键词识别生成第一关键词数据序列;进行文本向量转换生成第一、第二文本向量;计算每对第一、第二文本向量的第一相似度数据;对所有第一相似度数据进行聚类得到多个第一相似度数据序列;对每个第一相似度数据序列进行加权生成第一加权相似度数据序列;计算每个第一加权相似度数据序列的第一特征值数据;按特征值从大小顺序对文章资源记录排序生成第三记录集合;根据第三记录集合生成文章推荐列表。通过本发明可提高文章定位准确度。

Description

一种智能推送文章的处理方法和装置
技术领域
本发明涉及自然语言处理领域,特别涉及一种智能推送文章的处理方法和装置。
背景技术
随着信息挖掘技术的发展,目前许多信息平台都为用户提供了定制化的文章内容推荐功能,但都主要还是基于一些较为简单的内容板块分类手段,例如要求客户预先设定感兴趣的内容板块,又或者通过统计用户日常浏览的内容板块信息对其感兴趣的板块进行板块定位,然后根据预先设定或板块定位的范围进行文章推荐。我们在长期的实践中发现,大多数客户并不喜欢对自己感兴趣的内容板块进行强制设定;有些客户虽然每天在线浏览的时间很长但在他们已经浏览的内容中可能只有很少一部分是其真正感兴趣的。在这种情况下,如果仍旧采用上述方法对客户进行文章内容推荐,往往成功率较低,且范围也较大,反而会降低客户的使用体验。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种智能推送文章的处理方法、装置、电子设备及计算机可读存储介质,根据对客户在每个已读文章上产生的行为信息(评论、点赞、转发、收藏、阅读速度)进行综合分析获得客户对各个已读文章的兴趣值;再根据自然语言处理(Natural Language Processing,NLP)技术,从所有已读文章中提取出用户关注的关键词序列,根据关键词序列对各个未读、已读文章进行文本向量转换,通过文本向量相似度计算得到各个未读文章与各个已读文章的相似度关联数据;继而基于各个已读文章的兴趣值和各个未读文章的相似度序列,进一步计算出每个未读文章的特征值;最后以未读文章的特征值为推荐参考,对所有未读文章按特征值大小排序就可以得到更为精准的未读文章推荐列表并将其向用户进行推送。通过本发明,一方面无需用户预先对其关心的内容板块和文章风格进行定制,有助提高用户使用体验;另一方面根据对用户历史行为和历史关键词的综合分析结果来对每一个待推荐内容进行考察,有助提高文章定位准确度和推荐成功率。
为实现上述目的,本发明实施例第一方面提供了一种智能推送文章的处理方法,所述方法包括:
获取用户标识,生成第一用户标识数据;
查询预设的已读文章记录列表,获得与所述第一用户标识数据对应的已读文章记录组成第一记录集合;所述第一记录集合的所述已读文章记录的数量为第一数量m;
根据预设的推荐文章圈定模式和所述第一记录集合,从预设的文章资源列表中选择尚未阅读过的文章资源记录组成第二记录集合;所述第二记录集合的所述文章资源记录的数量为第二数量n;
对所述第一记录集合中各个所述已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej;m≥j≥1;
对所述第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列;
根据所述第一关键词数据序列,对所述第一记录集合的各个所述已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj
根据所述第一关键词数据序列,对所述第二记录集合的各个所述文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi;n≥i≥1;
对每个所述第二文本向量Xi与每个所述第一文本向量Yj的相似度进行计算,生成对应的第一相似度数据ai,j
按与所述第二文本向量Xi的对应关系,对所有所述第一相似度数据ai,j进行聚类处理,得到第二数量n个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m};每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}对应一个所述第二文本向量Xi;m≥h≥1;
以所述第一兴趣值数据ej作为加权因子,对每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}进行加权处理,生成对应的第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}=Saei{ai,j=1*ej=1,…ai,j=h*ej=h,…ai,j=m*ej=m};并对每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi
按所述第一特征值数据bi从大到小的顺序以及所述第一特征值数据bi与所述文章资源记录的对应关系,对所述第二记录集合中的所述文章资源记录进行重新排序,生成第三记录集合;并根据所述第三记录集合,生成当前用户的文章推荐列表并向当前用户进行推送。
优选的,所述已读文章记录列表包括多个所述已读文章记录;所述已读文章记录包括用户标识字段、已读文章标识字段、已读文章名称字段、已读文章摘要字段、所述已读文章文本字段、用户评论字段、用户点赞字段、用户分享字段、用户收藏字段和阅读时间字段;所述阅读时间字段包括多个阅读时段,每个所述阅读时段包括起始时间和结束时间;
所述文章资源列表包括多个所述文章资源记录;所述文章资源记录包括文章标识字段、文章名称字段、文章摘要字段和所述文章文本字段。
优选的,所述对所述第一记录集合中各个所述已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej,具体包括:
对各个所述已读文章记录的所述已读文章文本字段的字符总数进行统计,生成对应的字符总数数据;并根据各个所述已读文章记录的所述阅读时间字段,进行对应的阅读总时长统计生成对应的阅读总时长数据;并根据各个所述已读文章记录对应的所述字符总数数据与所述阅读总时长数据的比值,生成对应的文章阅读速度数据;
对得到所有所述文章阅读速度数据进行均值计算,生成第一平均速度数据;
对所述第一记录集合中各个所述已读文章记录进行轮询,并将当前被轮询的所述已读文章记录记为当前已读文章记录;并根据所述当前已读文章记录的所述用户评论字段进行第一兴趣分值计算生成对应的第一分值数据;并根据所述当前已读文章记录的所述用户点赞字段,进行第二兴趣分值计算生成对应的第二分值数据;并根据所述当前已读文章记录的所述用户分享字段,进行第三兴趣分值计算生成对应的第三分值数据;并根据所述当前已读文章记录的所述用户收藏字段,进行第四兴趣分值计算生成对应的第四分值数据;并根据所述第一平均速度数据与所述当前已读文章记录对应的所述文章阅读速度数据,进行第五兴趣分值计算生成对应的第五分值数据;并对所述第一、第二、第三、第四和第五分值数据进行累加,生成与所述当前已读文章记录对应的所述第一兴趣值数据ej
优选的,所述对所述第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列,具体包括:
对预设的关键词提取范围进行识别;若所述关键词提取范围为摘要范围,则基于预设的智能分词模型,对所述第一记录集合中各个所述已读文章记录的所述已读文章摘要字段进行分词处理,生成对应的第一分词数据序列;若所述关键词提取范围为全文范围,则基于所述智能分词模型,对所述第一记录集合中各个所述已读文章记录的所述已读文章文本字段进行分词处理,生成对应的所述第一分词数据序列;
基于预设词典,对各个所述第一分词数据序列中的每个第一分词数据的词性进行识别;并将各个所述第一分词数据序列中,词性与预设的关键词词性匹配的所述第一分词数据作为第一关键词数据,并由提取出的所述第一关键词数据组成对应的第一序列;
将得到的所有所述第一序列合并,生成第一序列集合;并对所述第一序列集合中内容相同的所述第一关键词数据进行聚类,并统计各类的第一关键词数据数量生成对应的第一关键词数量;并按所述第一关键词数量从到小的顺序对与之对应的所述第一关键词数据进行排序,生成第二序列;
将所述第二序列中排序在前的指定数量的所述第一关键词数据,提取出来组成所述第一关键词数据序列。
优选的,所述根据所述第一关键词数据序列,对所述第一记录集合的各个所述已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj,具体包括:
统计所述第一关键词数据序列中第一关键词数据的数量,生成第三数量;
根据所述第三数量,为所述第一记录集合的各个所述已读文章记录初始化一个对应的所述第一文本向量Yj;所述第一文本向量Yj包括多个第一向量数据,所述第一向量数据的数量与所述第三数量一致;
对所述第一记录集合中各个所述已读文章记录进行轮询,并将当前被轮询的所述已读文章记录记为当前已读文章记录,并将所述当前已读文章记录对应的所述第一文本向量Yj记为当前文本向量,并提取所述当前已读文章记录的所述已读文章文本字段生成当前文本;并对各个所述第一关键词数据在所述当前文本中出现的次数进行统计,生成对应的第一关键词次数;以各个所述第一关键词数据为参考,根据与之对应的所述第一关键词次数对所述当前文本向量中索引位置与之对应的所述第一向量数据进行设置。
优选的,所述根据所述第一关键词数据序列,对所述第二记录集合的各个所述文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi,具体包括:
统计所述第一关键词数据序列中第一关键词数据的数量,生成第四数量;
根据所述第四数量,为所述第二记录集合的各个所述文章资源记录初始化一个对应的所述第二文本向量Xi;所述第二文本向量Xi包括多个第二向量数据,所述第二向量数据的数量与所述第四数量一致;
对所述第二记录集合中各个所述文章资源记录进行轮询,并将当前被轮询的所述文章资源记录记为当前文章资源记录,并将所述当前文章资源记录对应的所述第二文本向量Xi记为当前文本向量,并提取所述当前文章资源记录的所述文章文本字段生成当前文本;并对各个所述第一关键词数据在所述当前文本中出现的次数进行统计,生成对应的第二关键词次数;以各个所述第一关键词数据为参考,根据与之对应的所述第二关键词次数对所述当前文本向量中索引位置与之对应的所述第二向量数据进行设置。
优选的,所述对每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi,具体包括:
对预设的特征值计算模式进行识别;所述特征值计算模式包括求和模式、均值模式、归一化模式、指数模式和对数模式;
当所述特征值计算模式为求和模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure BDA0003458562860000061
当所述特征值计算模式为均值模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure BDA0003458562860000062
当所述特征值计算模式为归一化模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi,bi=Si/Sall
Figure BDA0003458562860000071
当所述特征值计算模式为指数模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure BDA0003458562860000072
当所述特征值计算模式为对数模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure BDA0003458562860000073
本发明实施例第二方面提供了一种智能推送文章的处理装置,包括:获取模块、数据准备模块、特征值处理模块和推荐列表处理模块;
所述获取模块用于获取用户标识,生成第一用户标识数据;
所述数据准备模块用于查询预设的已读文章记录列表,获得与所述第一用户标识数据对应的已读文章记录组成第一记录集合,其中,所述第一记录集合的所述已读文章记录的数量为第一数量m;并根据预设的推荐文章圈定模式和所述第一记录集合,从预设的文章资源列表中选择尚未阅读过的文章资源记录组成第二记录集合,其中,所述第二记录集合的所述文章资源记录的数量为第二数量n;
所述特征值处理模块用于对所述第一记录集合中各个所述已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej,其中,m≥j≥1;并对所述第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列;并根据所述第一关键词数据序列,对所述第一记录集合的各个所述已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj;并根据所述第一关键词数据序列,对所述第二记录集合的各个所述文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi,其中,n≥i≥1;并对每个所述第二文本向量Xi与每个所述第一文本向量Yj的相似度进行计算,生成对应的第一相似度数据ai,j;并按与所述第二文本向量Xi的对应关系,对所有所述第一相似度数据ai,j进行聚类处理,得到第二数量n个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m},其中,每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}对应一个所述第二文本向量Xi,m≥h≥1;并以所述第一兴趣值数据ej作为加权因子,对每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}进行加权处理,生成对应的第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}=Saei{ai,j=1*ej=1,…ai,j=h*ej=h,…ai,j=m*ej=m};并对每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi
所述推荐列表处理模块用于按所述第一特征值数据bi从大到小的顺序以及所述第一特征值数据bi与所述文章资源记录的对应关系,对所述第二记录集合中的所述文章资源记录进行重新排序,生成第三记录集合;并根据所述第三记录集合,生成当前用户的文章推荐列表并向当前用户进行推送。
本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种智能推送文章的处理方法、装置、电子设备及计算机可读存储介质,根据对客户在每个已读文章上产生的行为信息(评论、点赞、转发、收藏、阅读速度)进行综合分析获得客户对各个已读文章的兴趣值;再根据NLP技术,从所有已读文章中提取出用户关注的关键词序列,根据关键词序列对各个未读、已读文章进行文本向量转换,通过文本向量相似度计算得到各个未读文章与各个已读文章的相似度关联数据;继而基于各个已读文章的兴趣值和各个未读文章的相似度序列,进一步计算出每个未读文章的特征值;最后以未读文章的特征值为推荐参考,对所有未读文章按特征值大小排序就可以得到更为精准的未读文章推荐列表并将其向用户进行推送。通过本发明,一方面无需用户预先对其关心的内容板块和文章风格进行定制,提高了用户使用体验;另一方面根据对用户历史行为和历史关键词的综合分析结果来对每一个待推荐内容进行考察,提高了文章定位准确度和推荐成功率。
附图说明
图1为本发明实施例一提供的一种智能推送文章的处理方法示意图;
图2为本发明实施例二提供的一种智能推送文章的处理装置的模块结构图;
图3为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
信息平台使用本发明实施例一提供的一种智能推送文章的处理方法,对向用户进行推荐的文章进行梳理,得到更为准确的文章推荐列表;图1为本发明实施例一提供的一种智能推送文章的处理方法示意图,如图1所示,本方法主要包括如下步骤:
步骤1,获取用户标识,生成第一用户标识数据。
这里,用户标识也就是第一用户标识数据为当前用户在当前信息平台上的唯一身份标识信息。
步骤2,查询预设的已读文章记录列表,获得与第一用户标识数据对应的已读文章记录组成第一记录集合;
其中,已读文章记录列表包括多个已读文章记录;已读文章记录包括用户标识字段、已读文章标识字段、已读文章名称字段、已读文章摘要字段、已读文章文本字段、用户评论字段、用户点赞字段、用户分享字段、用户收藏字段和阅读时间字段;阅读时间字段包括多个阅读时段,每个阅读时段包括起始时间和结束时间;第一记录集合的已读文章记录的数量为第一数量m;
具体包括:将已读文章记录列表中,用户标识字段与第一用户标识数据对应的已读文章记录提取出来组成第一记录集合。
这里,本发明实施例使用已读文章记录列表对用户的所有已读文章内容以及用户在所有已读文章上的行为信息进行存储;已读文章记录列表中的每个已读文章记录对应一个已读文章;用户标识字段与用户在信息平台上的唯一身份标识信息对应;已读文章标识字段用于保存对应文章在信息平台上的唯一标识信息;已读文章名称字段用于保存对应文章的名称信息;已读文章摘要字段用于保存对应文章的摘要介绍信息;已读文章文本字段用于保存对应文章的全文文本内容;用户评论字段用于保存用户的在该文章上的评论行为信息,具体的,若用户评论过该文章则该字段用于存储当前用户的所有评论内容,若用户未评论过该文章则该字段被设为未评价状态值;用户点赞字段用于保存用户的在该文章上的点赞行为信息,具体的,若用户为该文章点过赞则该字段被设为已点赞状态值,若用户未为该文章点过赞则该字段被设为未点赞状态值;用户分享字段用于保存用户的在该文章上的分享行为信息,具体的,若用户分享过该文章则该字段被设为已分享状态值,若用户未分享过该文章则该字段被设为未分享状态值;用户收藏字段用于保存用户的在该文章上的收藏行为信息,具体的,若用户收藏了该文章则该字段被设为已收藏状态值,若用户未收藏过文章则该字段被设为未收藏状态值;阅读时间字段用于存储用户对该文章最近一次全文浏览所使用的时间信息,用户可能不是一次性完成全文浏览的,所以该时间信息包括多个阅读时段,每个阅读时段的起始、结束时间分别对应当次阶段性浏览的起始、结束时间。
需要说明的是,因为用户并不一定长年累月都保持同一种阅读偏好,为了与用户当前偏好更贴近,本发明实施例还可以对已读文章记录列表进行定期瘦身操作,具体的:根据预设的时间周期定期生成对应的结束时间阈值,对已读文章记录列表的所有已读文章记录进行轮询,在轮询过程中将阅读时间字段中最晚结束时间早于结束时间阈值的已读文章记录删除。
步骤3,根据预设的推荐文章圈定模式和第一记录集合,从预设的文章资源列表中选择尚未阅读过的文章资源记录组成第二记录集合;
其中,文章资源列表包括多个文章资源记录;文章资源记录包括文章标识字段、文章板块字段、文章名称字段、文章摘要字段和文章文本字段;第二记录集合的文章资源记录的数量为第二数量n。
具体包括:对推荐文章圈定模式进行识别;若推荐文章圈定模式为跨板块圈定模式,则将文章资源列表中文章标识字段与第一记录集合的任一已读文章标识字段都不匹配的文章资源记录提取出来,组成第二记录集合;若推荐文章圈定模式为兴趣板块标签圈定模式,则对预设的对应当前用户的一个或多个兴趣板块标签进行获取,并将文章资源列表中文章板块字段与兴趣板块标签匹配的且文章标识字段与第一记录集合的任一已读文章标识字段都不匹配的文章资源记录提取出来,组成第二记录集合;若推荐文章圈定模式为平台优选板块标签圈定模式,则对预设的当期平台最新的一个或多个平台优选板块标签进行获取,并将文章资源列表中文章板块字段与平台优选板块标签匹配的且文章标识字段与第一记录集合的任一已读文章标识字段都不匹配的文章资源记录提取出来,组成第二记录集合。
此处,本发明实施例使用文章资源列表对信息平台向当前用户开放的所有文章内容进行存储;每个文章资源记录对应一个文章;文章标识字段用于保存对应文章在信息平台上的唯一标识信息;文章板块字段用于保存对应文章在信息平台上所述的板块标识信息;文章名称字段用于保存对应文章的名称信息;文章摘要字段用于保存对应文章的摘要介绍信息;文章文本字段用于保存对应文章的全文文本内容。
这里,推荐文章圈定模式包括三种模式:跨板块圈定模式、兴趣板块标签圈定模式和平台优选板块标签圈定模式;当推荐文章圈定模式为跨板块圈定模式时,说明要么并未对用户的兴趣板块标签进行过设定、要么信息平台也没有产生任何当期的平台优选板块标签,这种情况下选择出的第二记录集合范围最大,文章资源列表中除了用户已经看过的文章之外都可被纳入到第二记录集合中;当推荐文章圈定模式为兴趣板块标签圈定模式时,说明信息平台对用户的兴趣板块标签进行过设定,这种情况下选择出的第二记录集合范围小于跨板块圈定模式的范围,这时候从文章资源列表中不但过滤掉了所有用户已经看过的文章、还过滤掉了文章板块字段与兴趣板块标签不匹配的其他未读文章;当推荐文章圈定模式为平台优选板块标签圈定模式时,说明信息平台要将平台最新的推优内容范围作为指导推荐范围,这种情况下选择出的第二记录集合范围也会小于跨板块圈定模式的范围,这时候从文章资源列表中不但过滤掉了所有用户已经看过的文章、还过滤掉了文章板块字段与平台优选板块标签不匹配的其他未读文章。
步骤4,对第一记录集合中各个已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej
其中,m≥j≥1;
这里,实际就是基于每个已读文章记录对用户在对应文章上的行为信息(评论、点赞、转发、收藏、阅读速度)进行分析,并将分析结果作为用户对该文章的兴趣参数也就是第一兴趣值数据ej
具体包括:步骤41,对各个已读文章记录的已读文章文本字段的字符总数进行统计,生成对应的字符总数数据;并根据各个已读文章记录的阅读时间字段,进行对应的阅读总时长统计生成对应的阅读总时长数据;并根据各个已读文章记录对应的字符总数数据与阅读总时长数据的比值,生成对应的文章阅读速度数据;
进一步的,根据各个已读文章记录的阅读时间字段,进行对应的阅读总时长统计生成对应的阅读总时长数据,具体为:根据当前已读文章记录的各个阅读时段的起始、结束时间,计算出各个阅读时段对应的分时段时长,并对所有分时段时长进行累加从而得到当前已读文章记录对应的阅读总时长数据;
步骤42,对得到所有文章阅读速度数据进行均值计算,生成第一平均速度数据;
这里,所有文章阅读速度数据指的是第一记录集合中所有已读文章记录对应的文章阅读速度数据,第一平均速度数据实际反映了当前用户日常的平均阅读速度;
步骤43,对第一记录集合中各个已读文章记录进行轮询,并将当前被轮询的已读文章记录记为当前已读文章记录;并根据当前已读文章记录的用户评论字段进行第一兴趣分值计算生成对应的第一分值数据;并根据当前已读文章记录的用户点赞字段,进行第二兴趣分值计算生成对应的第二分值数据;并根据当前已读文章记录的用户分享字段,进行第三兴趣分值计算生成对应的第三分值数据;并根据当前已读文章记录的用户收藏字段,进行第四兴趣分值计算生成对应的第四分值数据;并根据第一平均速度数据与当前已读文章记录对应的文章阅读速度数据,进行第五兴趣分值计算生成对应的第五分值数据;并对第一、第二、第三、第四和第五分值数据进行累加,生成与当前已读文章记录对应的第一兴趣值数据ej
进一步的,根据当前已读文章记录的用户评论字段进行第一兴趣分值计算生成对应的第一分值数据,具体为:若当前已读文章记录的用户评论字段不为未评价状态值,则使用预设的第一评价分值对第一分值数据进行设置;若当前已读文章记录的用户评论字段为未评价状态值,则设置第一分值数据为0;
进一步的,根据当前已读文章记录的用户点赞字段,进行第二兴趣分值计算生成对应的第二分值数据,具体为:若当前已读文章记录的用户点赞字段为已点赞状态值,则使用预设的第一点赞分值对第二分值数据进行设置;若当前已读文章记录的用户点赞字段为未点赞状态值,则设置第二分值数据为0;
进一步的,根据当前已读文章记录的用户分享字段,进行第三兴趣分值计算生成对应的第三分值数据,具体为:若当前已读文章记录的用户分享字段为已分享状态值,则使用预设的第一分享分值对第三分值数据进行设置;若当前已读文章记录的用户分享字段为未分享状态值,则设置第三分值数据为0;
进一步的,根据当前已读文章记录的用户收藏字段,进行第四兴趣分值计算生成对应的第四分值数据,具体为:若当前已读文章记录的用户收藏字段为已收藏状态值,则使用预设的第一收藏分值对第四分值数据进行设置;若当前已读文章记录的用户收藏字段为未收藏状态值,则设置第四分值数据为0;
进一步的,根据第一平均速度数据与当前已读文章记录对应的文章阅读速度数据,进行第五兴趣分值计算生成对应的第五分值数据,具体为:若当前已读文章记录对应的文章阅读速度数据超过了第一平均速度数据,则使用预设的第一速度分值对第五分值数据进行设置;若当前已读文章记录对应的文章阅读速度数据未超过第一平均速度数据,则设置第五分值数据为0。
需要说明的是,预设的第一评价分值、第一点赞分值、第一分享分值、第一收藏分值和第一速度分值可以为分值相等的预设数据;也可以预先根据对应行为的优先级进行高低设置,例如,预先设定收藏行为优先级>评价行为优先级>分享行为优先级>速度优先级>点赞行为优先级,那么对应的第一收藏分值>第一评价分值>第一分享分值>第一速度分值>第一点赞分值。
步骤5,对第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列;
这里,本发明实施例先从每个已读文章记录中分别提取关键词序列,再对所有记录对应的所有关键词序列进行合并形成一个大集合,再在合并的集合中对关键词进行聚类并对每类关键词的数量进行统计,最后选择数量最多的若干个关键词构成优选关键词序列也就是第一关键词数据序列;
具体包括:步骤51,对预设的关键词提取范围进行识别;若关键词提取范围为摘要范围,则基于预设的智能分词模型,对第一记录集合中各个已读文章记录的已读文章摘要字段进行分词处理,生成对应的第一分词数据序列;若关键词提取范围为全文范围,则基于智能分词模型,对第一记录集合中各个已读文章记录的已读文章文本字段进行分词处理,生成对应的第一分词数据序列;
这里,特征词提取范围用于限定提取关键词源文本,若为摘要范围则说明只以各个已读文章记录的已读文章摘要字段的内容作为提取关键词的源文本,使用这种模式可以在数据量较大的情况下提高关键词的识别速度;若为全文范围则说明是以各个已读文章记录的已读文章文本字段的内容也就是文章全文作为提取关键词的源文本,使用这种模式可以在数据量较小的情况下提高关键词的识别精度;
这里,预设的智能分词模型是基于NLP分词算法构建的人工智能分词模型,常见的有基于结巴(jieba)算法的分词模型、基于隐马尔可夫(Hidden Markov Model,HMM)算法的分词模型、基于条件随机场(Conditional Random Field,CRF)算法的分词模型以及基于长短期记忆网络(Long Short-Term Memory,LSTM)算法的分词模型;本发明实施例智能分词模型的功能具体为将输入的文本数据进行字词识别,并根据前后字词语义进行字词切分处理,从而得到对应的分词数据序列;
步骤52,基于预设词典,对各个第一分词数据序列中的每个第一分词数据的词性进行识别;并将各个第一分词数据序列中,词性与预设的关键词词性匹配的第一分词数据作为第一关键词数据,并由提取出的第一关键词数据组成对应的第一序列;
这里,预设词典为一种字词信息数据库,词典中存储了多个单字或单词的数据信息,每个单字或单词的数据信息中除了字词本身的音标信息、文本信息、含义信息之外还包括词性信息诸如动词、名词、代词、形容词、副词等;基于预设词典可以查到每个第一分词数据对应的词性;因为文本中可能存在大量的代词、副词、辅助词等与关键信息无关的单字或单词,在进行关键词提取时需要将一些无关字词过滤掉,本发明实施例以一个预先设定的系统参数也就是关键词词性为过滤参数,将第一分词数据序列中词性与关键词词性无关的都滤掉;
步骤53,将得到的所有第一序列合并,生成第一序列集合;并对第一序列集合中内容相同的第一关键词数据进行聚类,并统计各类的第一关键词数据数量生成对应的第一关键词数量;并按第一关键词数量从到小的顺序对与之对应的第一关键词数据进行排序,生成第二序列;
例如,一共产生了3个第一序列,分别为第一序列1{“马戏”,“游乐场”,“冰激凌”},第一序列2{“马戏”,“游乐场”},第一序列3{“马戏”},那么将第一序列1、2、3合并之后得到的第一序列集合应为{第一序列1{“马戏”,“游乐场”,“冰激凌”},第一序列2{“马戏”,“游乐场”},第一序列3{“马戏”}}={“马戏”,“游乐场”,“冰激凌”,“马戏”,“游乐场”,“马戏”};
对第一序列集合{“马戏”,“游乐场”,“冰激凌”,“马戏”,“游乐场”,“马戏”}进行聚类,可以得到3类关键词子集合分别为:子集合1{“马戏”,“马戏”,“马戏”},子集合2{“游乐场”,“游乐场”},子集合3{“冰激凌”};
对这3类子集合的第一关键词数据数量进行统计,则得到子集合1的第一关键词数量1为3,子集合2的第一关键词数量2为2,子集合3的第一关键词数量3为1;
第一关键词数量从到小的顺序为第一关键词数量1(3)、第一关键词数量2(2)、第一关键词数量3(1),第一关键词数量1、2、3对应的第一关键词数据依次为“马戏”,“游乐场”,“冰激凌”:那么,第二序列就应为{“马戏”,“游乐场”,“冰激凌”};
步骤54,将第二序列中排序在前的指定数量的第一关键词数据,提取出来组成第一关键词数据序列。
这里,为避免第二序列中有过多数量较小的第一关键词数据影响后续的定位精度,本发明实施例需要对第二序列做进一步优选,优选的原则就是设定一个最大关键词数量阈值也就是指定数量,并在第二序列按从前向后的顺序提取出指定数量的第一关键词数据组成优选的关键词序列也就是第一关键词数据序列。
步骤6,根据第一关键词数据序列,对第一记录集合的各个已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj
此处,每个第一文本向量Yj对应一个已读文章的已读文章记录;第一文本向量Yj的形状与第一关键词数据序列的第一关键词数据数量有关;在转换第一文本向量Yj时本发明实施例基于NLP技术领域中的向量空间模型(Vector Space Model,VSM)理论,以文本中出现各个关键词的数量作为文本特征来构建与文本对应的向量;
具体包括:步骤61,统计第一关键词数据序列中第一关键词数据的数量,生成第三数量;
步骤62,根据第三数量,为第一记录集合的各个已读文章记录初始化一个对应的第一文本向量Yj
其中,第一文本向量Yj包括多个第一向量数据,第一向量数据的数量与第三数量一致;
例如,第一关键词数据序列为{“马戏”,“游乐场”,“冰激凌”},第三数量为3,那么每个已读文章记录的第一文本向量Yj的向量长度就为3,初始化时其内部向量数据全被初始为空,即第一文本向量Yj[“”,“”,“”];
步骤63,对第一记录集合中各个已读文章记录进行轮询,并将当前被轮询的已读文章记录记为当前已读文章记录,并将当前已读文章记录对应的第一文本向量Yj记为当前文本向量,并提取当前已读文章记录的已读文章文本字段生成当前文本;并对各个第一关键词数据在当前文本中出现的次数进行统计,生成对应的第一关键词次数;以各个第一关键词数据为参考,根据与之对应的第一关键词次数对当前文本向量中索引位置与之对应的第一向量数据进行设置。
例如,第一记录集合有2个已读文章记录:已读文章记录1、2,已读文章记录1对应的已读文章文本字段为“我看完马戏还要去游乐场,那里有冰激凌卖”,已读文章记录2对应的已读文章文本字段为“我看完马戏不去游乐场了”,已读文章记录1对应第一文本向量Yj=1,已读文章记录1对应第一文本向量Yj=2,第一关键词数据序列为{“马戏”,“游乐场”,“冰激凌”},那么,
因为在已读文章记录1对应的已读文章文本字段的文本内容“我看完马戏还要去游乐场,那里有冰激凌卖”中,“马戏”,“游乐场”,“冰激凌”这3个第一关键词数据的出现次数依次为“马戏”1次、“游乐场”1次、“冰激凌”1次,所以对应的第一文本向量Yj=1应为[1,1,1];
因为在已读文章记录2对应的已读文章文本字段的文本内容我看完马戏不去游乐场了”中,“马戏”,“游乐场”,“冰激凌”这3个第一关键词数据的出现次数依次为“马戏”1次、“游乐场”1次、“冰激凌”0次,所以对应的第一文本向量Yj=2应为[1,1,0]。
步骤7,根据第一关键词数据序列,对第二记录集合的各个文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi
其中,n≥i≥1;
此处,每个第二文本向量Xi对应一个未读文章的文章资源记录;第二文本向量Xi的形状与第一关键词数据序列的第一关键词数据数量有关;与步骤6类似,在转换第二文本向量Xi时本发明实施例基于VSM理论,以文本中出现各个关键词的数量作为文本特征来构建与文本对应的向量;
具体包括:步骤71,统计第一关键词数据序列中第一关键词数据的数量,生成第四数量;
步骤72,根据第四数量,为第二记录集合的各个文章资源记录初始化一个对应的第二文本向量Xi
其中,第二文本向量Xi包括多个第二向量数据,第二向量数据的数量与第四数量一致;
这里,当前步骤的处理过程与步骤62类似,不做进一步赘述;
步骤73,对第二记录集合中各个文章资源记录进行轮询,并将当前被轮询的文章资源记录记为当前文章资源记录,并将当前文章资源记录对应的第二文本向量Xi记为当前文本向量,并提取当前文章资源记录的文章文本字段生成当前文本;并对各个第一关键词数据在当前文本中出现的次数进行统计,生成对应的第二关键词次数;以各个第一关键词数据为参考,根据与之对应的第二关键词次数对当前文本向量中索引位置与之对应的第二向量数据进行设置。
这里,当前步骤的处理过程与步骤63类似,不做进一步赘述。
步骤8,对每个第二文本向量Xi与每个第一文本向量Yj的相似度进行计算,生成对应的第一相似度数据ai,j
这里,本发明支持多种向量相似度计算方式,具体通过预先设置相似度算法模式来进行切换;
当相似度算法模式为欧式距离相似度模式时,根据公知的向量欧氏距离计算方法计算出第二文本向量Xi与第一文本向量Yj的欧式距离参数,再将欧式距离相似度=1/(欧式距离欧式距离参数+1),作为对应的第一相似度数据ai,j
当相似度算法模式为余弦距离相似度模式时,根据公知的向量余弦距离计算方法计算出第二文本向量Xi与第一文本向量Yj的余弦距离参数,再将余弦距离相似度=1-余弦距离参数,作为对应的第一相似度数据ai,j
当相似度算法模式为杰卡德(Jacard)距离相似度模式时,根据公知的杰卡德距离计算方法,计算出第二文本向量Xi与第一文本向量Yj的杰卡德距离参数,再将杰卡德距离相似度=1/杰卡德距离参数,作为对应的第一相似度数据ai,j
当相似度算法模式为海明距离相似度模式时,根据公知的海明距离计算方法,计算出第二文本向量Xi与第一文本向量Yj的海明距离参数,再将海明距离相似度=海明距离参数,作为对应的第一相似度数据ai,j
步骤9,按与第二文本向量Xi的对应关系,对所有第一相似度数据ai,j进行聚类处理,得到第二数量n个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m};
其中,每个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}对应一个第二文本向量Xi;m≥h≥1。
这里,因为前述步骤中每个未读文章对应的第二文本向量Xi,会与每个已读文章对应的第一文本向量Yj进行相似度计算,且已读文章或第一文本向量Yj的数量为m;那么,对应每个未读文章或第二文本向量Xi而言,会有m个第一相似度数据ai,j与之相关,也就是会得到一个长度为m的第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m};又因为未读文章或第二文本向量Xi的总数为n,所有一共会得到n个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}。
步骤10,以第一兴趣值数据ej作为加权因子,对每个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}进行加权处理,生成对应的第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}=Saei{ai,j=1*ej=1,…ai,j=h*ej=h,…ai,j=m*ej=m};并对每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi
这里,将第一文本向量Yj=h对应的已读文章视为参考文章,由与第一文本向量Yj=h相关的ai,j=h*ej=h得到的第一加权相似度数据aei,j=h,可以体现出该参考文章与当前未读文章的相关性,第一加权相似度数据aei,j=h越高说明二者相关性越高;第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}则囊括了所有参考文章与当前未读文章的相关性;对第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行特征值计算得到的第一特征值数据bi就可以体现出所有参考文章也即是所有已读文章与当前未读文章的相关性,第一特征值数据bi越大则当前未读文章与用户的阅读习惯或偏好越接近。
进一步的,对每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi,具体包括:
步骤A1,对预设的特征值计算模式进行识别;特征值计算模式包括求和模式、均值模式、归一化模式、指数模式和对数模式;
步骤A2,当特征值计算模式为求和模式时,根据每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成第一特征值数据bi
Figure BDA0003458562860000211
步骤A3,当特征值计算模式为均值模式时,根据每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成第一特征值数据bi
Figure BDA0003458562860000212
步骤A4,当特征值计算模式为归一化模式时,根据每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成第一特征值数据bi,bi=Si/Sall
Figure BDA0003458562860000213
步骤A5,当特征值计算模式为指数模式时,根据每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成第一特征值数据bi
Figure BDA0003458562860000214
步骤A6,当特征值计算模式为对数模式时,根据每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成第一特征值数据bi
Figure BDA0003458562860000215
步骤11,按第一特征值数据bi从大到小的顺序以及第一特征值数据bi与文章资源记录的对应关系,对第二记录集合中的文章资源记录进行重新排序,生成第三记录集合;并根据第三记录集合,生成当前用户的文章推荐列表并向当前用户进行推送。
这里,由前文可知,第一特征值数据bi越大则当前未读文章与用户的阅读习惯或偏好越接近,且每个第一特征值数据bi对应一个未读文章的文章资源记录,那么按第一特征值数据bi从大到小的顺序对文章资源记录重新排序,就可以得到各个未读文章的推荐优先顺序。
进一步的,根据第三记录集合,生成当前用户的文章推荐列表并向当前用户进行推送,具体为:从第三记录集合的各个文章资源记录中提取对应的文章标识字段、文章板块字段、文章名称字段和文章摘要字段等内容组成对应的文章推荐记录,再由所有文章推荐记录顺序构成文章推荐列表;再将文章推荐列表向当前用户进行推送。这里,在处理文章推荐列表的推送时有多种实现方式,可以在用户每次登录之后进行最新的文章推荐列表推送,也可设定一个定期推送规则在满足规则的时间点或时间段向登录用户进行最新文章推荐列表推送。
图2为本发明实施例二提供的一种智能推送文章的处理装置的模块结构图,该装置可以为实现本发明实施例方法的终端设备或者服务器,也可以为与上述终端设备或者服务器连接的实现本发明实施例方法的装置,例如该装置可以是上述终端设备或者服务器的装置或芯片系统。如图2所示,该装置包括:获取模块201、数据准备模块202、特征值处理模块203和推荐列表处理模块204。
获取模块201用于获取用户标识,生成第一用户标识数据。
数据准备模块202用于查询预设的已读文章记录列表,获得与第一用户标识数据对应的已读文章记录组成第一记录集合,其中,第一记录集合的已读文章记录的数量为第一数量m;并根据预设的推荐文章圈定模式和第一记录集合,从预设的文章资源列表中选择尚未阅读过的文章资源记录组成第二记录集合,其中,第二记录集合的文章资源记录的数量为第二数量n。
特征值处理模块203用于对第一记录集合中各个已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej,其中,m≥j≥1;并对第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列;并根据第一关键词数据序列,对第一记录集合的各个已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj;并根据第一关键词数据序列,对第二记录集合的各个文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi,其中,n≥i≥1;并对每个第二文本向量Xi与每个第一文本向量Yj的相似度进行计算,生成对应的第一相似度数据ai,j;并按与第二文本向量Xi的对应关系,对所有第一相似度数据ai,j进行聚类处理,得到第二数量n个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m},其中,每个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}对应一个第二文本向量Xi,m≥h≥1;并以第一兴趣值数据ej作为加权因子,对每个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}进行加权处理,生成对应的第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}=Saei{ai,j=1*ej=1,…ai,j=h*ej=h,…ai,j=m*ej=m};并对每个第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi
推荐列表处理模块204用于按第一特征值数据bi从大到小的顺序以及第一特征值数据bi与文章资源记录的对应关系,对第二记录集合中的文章资源记录进行重新排序,生成第三记录集合;并根据第三记录集合,生成当前用户的文章推荐列表并向当前用户进行推送。
本发明实施例提供的一种智能推送文章的处理装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本发明实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路(Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示,该电子设备可以包括:处理器31(例如CPU)、存储器32、收发器33;收发器33耦合至处理器31,处理器31控制收发器33的收发动作。存储器32中可以存储各种指令,以用于完成各种处理功能以及实现本发明上述实施例中提供的方法和处理过程。优选的,本发明实施例涉及的电子设备还包括:电源34、系统总线35以及通信端口36。系统总线35用于实现元件之间的通信连接。上述通信端口36用于电子设备与其他外设之间进行连接通信。
在图3中提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中提供的方法和处理过程。
本发明实施例提供了一种智能推送文章的处理方法、装置、电子设备及计算机可读存储介质,根据对客户在每个已读文章上产生的行为信息(评论、点赞、转发、收藏、阅读速度)进行综合分析获得客户对各个已读文章的兴趣值;再根据NLP技术,从所有已读文章中提取出用户关注的关键词序列,根据关键词序列对各个未读、已读文章进行文本向量转换,通过文本向量相似度计算得到各个未读文章与各个已读文章的相似度关联数据;继而基于各个已读文章的兴趣值和各个未读文章的相似度序列,进一步计算出每个未读文章的特征值;最后以未读文章的特征值为推荐参考,对所有未读文章按特征值大小排序就可以得到更为精准的未读文章推荐列表并将其向用户进行推送。通过本发明,一方面无需用户预先对其关心的内容板块和文章风格进行定制,提高了用户使用体验;另一方面根据对用户历史行为和历史关键词的综合分析结果来对每一个待推荐内容进行考察,提高了文章定位准确度和推荐成功率。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种智能推送文章的处理方法,其特征在于,所述方法包括:
获取用户标识,生成第一用户标识数据;
查询预设的已读文章记录列表,获得与所述第一用户标识数据对应的已读文章记录组成第一记录集合;所述第一记录集合的所述已读文章记录的数量为第一数量m;
根据预设的推荐文章圈定模式和所述第一记录集合,从预设的文章资源列表中选择尚未阅读过的文章资源记录组成第二记录集合;所述第二记录集合的所述文章资源记录的数量为第二数量n;
对所述第一记录集合中各个所述已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej;m≥j≥1;
对所述第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列;
根据所述第一关键词数据序列,对所述第一记录集合的各个所述已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj
根据所述第一关键词数据序列,对所述第二记录集合的各个所述文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi;n≥i≥1;
对每个所述第二文本向量Xi与每个所述第一文本向量Yj的相似度进行计算,生成对应的第一相似度数据ai,j
按与所述第二文本向量Xi的对应关系,对所有所述第一相似度数据ai,j进行聚类处理,得到第二数量n个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m};每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}对应一个所述第二文本向量Xi;m≥h≥1;
以所述第一兴趣值数据ej作为加权因子,对每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}进行加权处理,生成对应的第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}=Saei{ai,j=1*ej=1,…ai,j=h*ej=h,…ai,j=m*ej=m};并对每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi
按所述第一特征值数据bi从大到小的顺序以及所述第一特征值数据bi与所述文章资源记录的对应关系,对所述第二记录集合中的所述文章资源记录进行重新排序,生成第三记录集合;并根据所述第三记录集合,生成当前用户的文章推荐列表并向当前用户进行推送。
2.根据权利要求1所述的智能推送文章的处理方法,其特征在于,
所述已读文章记录列表包括多个所述已读文章记录;所述已读文章记录包括用户标识字段、已读文章标识字段、已读文章名称字段、已读文章摘要字段、所述已读文章文本字段、用户评论字段、用户点赞字段、用户分享字段、用户收藏字段和阅读时间字段;所述阅读时间字段包括多个阅读时段,每个所述阅读时段包括起始时间和结束时间;
所述文章资源列表包括多个所述文章资源记录;所述文章资源记录包括文章标识字段、文章名称字段、文章摘要字段和所述文章文本字段。
3.根据权利要求2所述的智能推送文章的处理方法,其特征在于,所述对所述第一记录集合中各个所述已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej,具体包括:
对各个所述已读文章记录的所述已读文章文本字段的字符总数进行统计,生成对应的字符总数数据;并根据各个所述已读文章记录的所述阅读时间字段,进行对应的阅读总时长统计生成对应的阅读总时长数据;并根据各个所述已读文章记录对应的所述字符总数数据与所述阅读总时长数据的比值,生成对应的文章阅读速度数据;
对得到所有所述文章阅读速度数据进行均值计算,生成第一平均速度数据;
对所述第一记录集合中各个所述已读文章记录进行轮询,并将当前被轮询的所述已读文章记录记为当前已读文章记录;并根据所述当前已读文章记录的所述用户评论字段进行第一兴趣分值计算生成对应的第一分值数据;并根据所述当前已读文章记录的所述用户点赞字段,进行第二兴趣分值计算生成对应的第二分值数据;并根据所述当前已读文章记录的所述用户分享字段,进行第三兴趣分值计算生成对应的第三分值数据;并根据所述当前已读文章记录的所述用户收藏字段,进行第四兴趣分值计算生成对应的第四分值数据;并根据所述第一平均速度数据与所述当前已读文章记录对应的所述文章阅读速度数据,进行第五兴趣分值计算生成对应的第五分值数据;并对所述第一、第二、第三、第四和第五分值数据进行累加,生成与所述当前已读文章记录对应的所述第一兴趣值数据ej
4.根据权利要求2所述的智能推送文章的处理方法,其特征在于,所述对所述第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列,具体包括:
对预设的关键词提取范围进行识别;若所述关键词提取范围为摘要范围,则基于预设的智能分词模型,对所述第一记录集合中各个所述已读文章记录的所述已读文章摘要字段进行分词处理,生成对应的第一分词数据序列;若所述关键词提取范围为全文范围,则基于所述智能分词模型,对所述第一记录集合中各个所述已读文章记录的所述已读文章文本字段进行分词处理,生成对应的所述第一分词数据序列;
基于预设词典,对各个所述第一分词数据序列中的每个第一分词数据的词性进行识别;并将各个所述第一分词数据序列中,词性与预设的关键词词性匹配的所述第一分词数据作为第一关键词数据,并由提取出的所述第一关键词数据组成对应的第一序列;
将得到的所有所述第一序列合并,生成第一序列集合;并对所述第一序列集合中内容相同的所述第一关键词数据进行聚类,并统计各类的第一关键词数据数量生成对应的第一关键词数量;并按所述第一关键词数量从到小的顺序对与之对应的所述第一关键词数据进行排序,生成第二序列;
将所述第二序列中排序在前的指定数量的所述第一关键词数据,提取出来组成所述第一关键词数据序列。
5.根据权利要求2所述的智能推送文章的处理方法,其特征在于,所述根据所述第一关键词数据序列,对所述第一记录集合的各个所述已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj,具体包括:
统计所述第一关键词数据序列中第一关键词数据的数量,生成第三数量;
根据所述第三数量,为所述第一记录集合的各个所述已读文章记录初始化一个对应的所述第一文本向量Yj;所述第一文本向量Yj包括多个第一向量数据,所述第一向量数据的数量与所述第三数量一致;
对所述第一记录集合中各个所述已读文章记录进行轮询,并将当前被轮询的所述已读文章记录记为当前已读文章记录,并将所述当前已读文章记录对应的所述第一文本向量Yj记为当前文本向量,并提取所述当前已读文章记录的所述已读文章文本字段生成当前文本;并对各个所述第一关键词数据在所述当前文本中出现的次数进行统计,生成对应的第一关键词次数;以各个所述第一关键词数据为参考,根据与之对应的所述第一关键词次数对所述当前文本向量中索引位置与之对应的所述第一向量数据进行设置。
6.根据权利要求2所述的智能推送文章的处理方法,其特征在于,所述根据所述第一关键词数据序列,对所述第二记录集合的各个所述文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi,具体包括:
统计所述第一关键词数据序列中第一关键词数据的数量,生成第四数量;
根据所述第四数量,为所述第二记录集合的各个所述文章资源记录初始化一个对应的所述第二文本向量Xi;所述第二文本向量Xi包括多个第二向量数据,所述第二向量数据的数量与所述第四数量一致;
对所述第二记录集合中各个所述文章资源记录进行轮询,并将当前被轮询的所述文章资源记录记为当前文章资源记录,并将所述当前文章资源记录对应的所述第二文本向量Xi记为当前文本向量,并提取所述当前文章资源记录的所述文章文本字段生成当前文本;并对各个所述第一关键词数据在所述当前文本中出现的次数进行统计,生成对应的第二关键词次数;以各个所述第一关键词数据为参考,根据与之对应的所述第二关键词次数对所述当前文本向量中索引位置与之对应的所述第二向量数据进行设置。
7.根据权利要求1所述的智能推送文章的处理方法,其特征在于,所述对每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi,具体包括:
对预设的特征值计算模式进行识别;所述特征值计算模式包括求和模式、均值模式、归一化模式、指数模式和对数模式;
当所述特征值计算模式为求和模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure FDA0003458562850000051
当所述特征值计算模式为均值模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure FDA0003458562850000052
当所述特征值计算模式为归一化模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi,bi=Si/Sall
Figure FDA0003458562850000053
当所述特征值计算模式为指数模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure FDA0003458562850000061
当所述特征值计算模式为对数模式时,根据每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}计算生成所述第一特征值数据bi
Figure FDA0003458562850000062
8.一种用于实现权利要求1-7任一项所述的智能推送文章的处理方法的装置,其特征在于,所述装置包括:获取模块、数据准备模块、特征值处理模块和推荐列表处理模块;
所述获取模块用于获取用户标识,生成第一用户标识数据;
所述数据准备模块用于查询预设的已读文章记录列表,获得与所述第一用户标识数据对应的已读文章记录组成第一记录集合,其中,所述第一记录集合的所述已读文章记录的数量为第一数量m;并根据预设的推荐文章圈定模式和所述第一记录集合,从预设的文章资源列表中选择尚未阅读过的文章资源记录组成第二记录集合,其中,所述第二记录集合的所述文章资源记录的数量为第二数量n;
所述特征值处理模块用于对所述第一记录集合中各个所述已读文章记录对应的用户兴趣值进行计算,生成对应的第一兴趣值数据ej,其中,m≥j≥1;并对所述第一记录集合进行关键词识别处理,生成对应的第一关键词数据序列;并根据所述第一关键词数据序列,对所述第一记录集合的各个所述已读文章记录的已读文章文本字段进行文本向量转换处理,生成对应的第一文本向量Yj;并根据所述第一关键词数据序列,对所述第二记录集合的各个所述文章资源记录的文章文本字段进行文本向量转换处理,生成对应的第二文本向量Xi,其中,n≥i≥1;并对每个所述第二文本向量Xi与每个所述第一文本向量Yj的相似度进行计算,生成对应的第一相似度数据ai,j;并按与所述第二文本向量Xi的对应关系,对所有所述第一相似度数据ai,j进行聚类处理,得到第二数量n个第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m},其中,每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}对应一个所述第二文本向量Xi,m≥h≥1;并以所述第一兴趣值数据ej作为加权因子,对每个所述第一相似度数据序列Sai{ai,j=1,…ai,j=h,…ai,j=m}进行加权处理,生成对应的第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}=Saei{ai,j=1*ej=1,…ai,j=h*ej=h,…ai,j=m*ej=m};并对每个所述第一加权相似度数据序列Saei{aei,j=1,…aei,j=h,…aei,j=m}进行相似度特征值计算生成对应的第一特征值数据bi
所述推荐列表处理模块用于按所述第一特征值数据bi从大到小的顺序以及所述第一特征值数据bi与所述文章资源记录的对应关系,对所述第二记录集合中的所述文章资源记录进行重新排序,生成第三记录集合;并根据所述第三记录集合,生成当前用户的文章推荐列表并向当前用户进行推送。
9.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-7任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-7任一项所述的方法的指令。
CN202210013183.5A 2022-01-06 2022-01-06 一种智能推送文章的处理方法和装置 Active CN114398547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210013183.5A CN114398547B (zh) 2022-01-06 2022-01-06 一种智能推送文章的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210013183.5A CN114398547B (zh) 2022-01-06 2022-01-06 一种智能推送文章的处理方法和装置

Publications (2)

Publication Number Publication Date
CN114398547A true CN114398547A (zh) 2022-04-26
CN114398547B CN114398547B (zh) 2022-09-30

Family

ID=81228468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210013183.5A Active CN114398547B (zh) 2022-01-06 2022-01-06 一种智能推送文章的处理方法和装置

Country Status (1)

Country Link
CN (1) CN114398547B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509233A (zh) * 2011-11-29 2012-06-20 汕头大学 一种基于用户网上动作信息的推荐方法
CN109190024A (zh) * 2018-08-20 2019-01-11 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN112632396A (zh) * 2021-01-04 2021-04-09 上海明略人工智能(集团)有限公司 一种文章推荐方法、装置、电子设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509233A (zh) * 2011-11-29 2012-06-20 汕头大学 一种基于用户网上动作信息的推荐方法
CN109190024A (zh) * 2018-08-20 2019-01-11 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN112632396A (zh) * 2021-01-04 2021-04-09 上海明略人工智能(集团)有限公司 一种文章推荐方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN114398547B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN107818781B (zh) 智能交互方法、设备及存储介质
Zhao et al. Topical keyphrase extraction from twitter
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
WO2020108608A1 (zh) 搜索结果处理方法、装置、终端、电子设备及存储介质
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN111274365B (zh) 基于语义理解的智能问诊方法、装置、存储介质及服务器
CN109388743B (zh) 语言模型的确定方法和装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN107992477A (zh) 文本主题确定方法、装置及电子设备
CN108287848B (zh) 用于语义解析的方法和系统
CN112559684A (zh) 一种关键词提取及信息检索方法
CN113934941A (zh) 一种基于多维度信息的用户推荐系统及方法
CN114398968B (zh) 基于文件相似度对同类获客文件进行标注的方法和装置
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN114398547B (zh) 一种智能推送文章的处理方法和装置
CN111460808A (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN116401344A (zh) 根据问句检索表格的方法和装置
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
Permana et al. Movie Recommendation System Based on Synopsis Using Content-Based Filtering with TF-IDF and Cosine Similarity
CN112802454B (zh) 一种唤醒词的推荐方法、装置、终端设备及存储介质
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant