CN112163157B - 一种文本推荐方法、装置、服务器及介质 - Google Patents

一种文本推荐方法、装置、服务器及介质 Download PDF

Info

Publication number
CN112163157B
CN112163157B CN202011070128.7A CN202011070128A CN112163157B CN 112163157 B CN112163157 B CN 112163157B CN 202011070128 A CN202011070128 A CN 202011070128A CN 112163157 B CN112163157 B CN 112163157B
Authority
CN
China
Prior art keywords
text
keyword
sequence
target
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011070128.7A
Other languages
English (en)
Other versions
CN112163157A (zh
Inventor
罗锦文
郭伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011070128.7A priority Critical patent/CN112163157B/zh
Publication of CN112163157A publication Critical patent/CN112163157A/zh
Application granted granted Critical
Publication of CN112163157B publication Critical patent/CN112163157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本推荐方法、装置、服务器及介质,其中方法包括:获取N个第一关键词,确定每个第一关键词的出现频次序列,任一第一关键词的出现频次序列是在多个时刻所述任一第一关键词在动态文本集合中的出现频次组合得到;获取参考频次序列,在N个第一关键词中,根据参考频次序列和每个第一关键词的出现频次序列的序列相似度,确定M个第二关键词;在目标文本集合中确定与M个第二关键词对应的单位文本集合;对多个文本进行聚类处理,得到多个文本簇,从多个文本簇中选择目标文本簇,目标文本簇中目标文本数量大于数量阈值;根据目标文本的文本主题,确定待推荐文本。从而可以提升文本推荐的效率以及准确度。

Description

一种文本推荐方法、装置、服务器及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本推荐方法、装置、服务器及介质。
背景技术
随着电子技术和互联网技术的快速发展,多媒体数据越来越多,推荐系统也得到了很快的发展,推荐系统可以从海量的多媒体数据中提取出用户需要的数据或当前社会热点数据。目前,大多推荐系统采用的是人工推荐的方法,即需要人工从海量的数据中选择出用户需要的数据或当前社会热点数据,这样操作效率低下,而且不容易准确的选择出所要推荐的数据,进而影响推荐系统的推荐效果。由此可见,如何提升推荐系统的推荐准确度,成为了当前的研究热点问题。
发明内容
本申请实施例提供了一种文本推荐方法、装置、服务器及介质,可以提升文本推荐的效率以及准确度。
本申请实施例第一方面公开了一种文本推荐方法,所述方法包括:
获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在多个时刻所述任一第一关键词在动态文本集合中的出现频次组合得到,所述N是正整数;
获取参考频次序列,在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,所述M是正整数;
在目标文本集合中确定与所述M个第二关键词对应的单位文本集合,其中,所述目标文本集合是所述多个时刻中的最大时刻对应的动态文本集合,所述单位文本集合包括多个文本;
对所述多个文本进行聚类处理,得到多个文本簇,从所述多个文本簇中选择目标文本簇,其中,所述目标文本簇中的目标文本的数量大于数量阈值;
在所述目标文本中,根据所述目标文本的文本主题,确定待推荐文本。
本申请实施例第二方面公开了一种文本推荐装置,所述装置包括:
确定单元,用于获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在多个时刻所述任一第一关键词在动态文本集合中的出现频次组合得到,所述N是正整数;
所述确定单元,还用于获取参考频次序列,在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,所述M是正整数;
所述确定单元,还用于在目标文本集合中确定与所述M个第二关键词对应的单位文本集合,其中,所述目标文本集合是所述多个时刻中的最大时刻对应的动态文本集合,所述单位文本集合包括多个文本;
聚类单元,用于对所述多个文本进行聚类处理,得到多个文本簇,从所述多个文本簇中选择目标文本簇,其中,所述目标文本簇中的目标文本的数量大于数量阈值;
所述确定单元,还用于在所述目标文本中,根据所述目标文本的文本主题,确定待推荐文本。
本申请实施例第三方面公开了一种服务器,包括处理器、存储器和网络接口,所述处理器、存储器和网络接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
本申请实施例第四方面公开了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例第五方面公开了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述第一方面的方法。
本申请由终端自动确定出待推荐文本,可以避免由人工推荐所导致的效率低下问题,可以有效提升推荐效率;进一步,本申请获取第一关键词在动态文本集合中的出现频次序列,用于后续根据参考频次序列与第一关键词的出现频次序列之间的序列相似度确定第二关键词,可以根据第二关键词更加精准的确定单位文本集合;对单位文本集合进行聚类处理得到多个文本簇时,可以经过聚类处理将描述内容相近的文本聚类到同一个簇,而无法被聚类到一起的文本,例如仅提及到了第二关键词,而不是主要描述第二关键词内容的文本不能聚类到对应于第二关键词的文本簇,使得文本聚类效果更高;根据多个文本簇中文本数量与数量阈值的比较,可以将文本数量小于数量阈值的文本簇过滤掉,接着根据不同文本主题的主题权重,得到待推荐文本,从而可以避免由人工推荐的主观性所导致的准确度问题,可以有效提升推荐准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本推荐方法的流程示意图;
图2a是本申请实施例提供的一种参考频次序列的曲线表现形式的示意图;
图2b是本申请实施例提供的一种为每个参考频次确定对应的出现频次集合的示意图;
图2c是现有技术实施例提供的一种为每个参考频次确定对应的出现频次集合的示意图;
图2d是本申请实施例提供的一种矩阵D0的框架示意图;
图2e是本申请实施例提供的一种矩阵D1的框架示意图;
图3是本申请实施例提供的另一种文本推荐方法的流程示意图;
图4是本申请实施例提供的又一种文本推荐方法的流程示意图;
图5是本申请实施例提供的一种文本推荐装置的结构示意图;
图6是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种文本推荐方法,服务器可以获取N个第一关键词,确定每个第一关键词的出现频次序列。其中,任一第一关键词的出现频次序列是在多个时刻任一第一关键词在动态文本集合中的出现频次组合得到。然后,服务器可以获取参考频次序列,并在N个第一关键词中,根据参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词。接着,在目标文本集合中确定与M个第二关键词对应的单位文本集合,该目标文本集合是上述多个时刻中的最大时刻对应的动态文本集合。进一步的,对单位文本集合中的多个文本进行聚类处理,得到多个文本簇,从多个文本簇中选择文本簇中的文本的数量大于数量阈值的簇作为目标文本簇,并在目标文本中,根据目标文本的文本主题,确定待推荐文本。通过实施上述方法,可以提升文本推荐的效率以及准确度。
具体应用场景中,以“房价变化”为例,某月10号许多媒体分别报道了房价暴涨的原因是“经营贷”的滥用,那么在某个新闻类的应用程序上的对应的文章库中有许多文章的描述内容是关于经营贷的,而在10号之前关于经营贷的文章比较少。根据这一情况,服务器预先设定的第一关键词可以是房价、房价变化、房价暴涨、经营贷等关于房价的词,服务器可以定时统计3号到11号上述每个第一关键词在文章库中的出现频次,从而得到每个第一关键词对应的出现频次序列。可以理解的是,关于描述经营贷的文章是在10号从文章库突然增多的,那么经营贷对应的出现频次序列在某个时刻有一个陡升的状态,而在该某个时刻之前是比较平缓的状态。在确定每个第一关键词的出现频次序列之后,再确定每个第一关键词的出现频次序列与参考频次序列的序列相似度,其中,预先设定的参考频次序列中的参考频次存在某个时刻突然增大的状态。若第一关键词的出现频次序列与参考频次序列的序列相似度高于某个阈值的情况下,就可将该第一关键词确定为第二关键词。上述提到各大媒体分别报道了房价暴涨的原因是“经营贷”的滥用,可以理解的是,假设第一关键词中的经营贷可以确定为第二关键词。在确定第二关键词之后,就可以将对应于经营贷的文章从几十万的文章库中挑选出来。再将对应于经营贷的文章进行聚类处理,经过聚类处理可以将描述内容相近的文章聚类到同一个簇,而无法被聚类到一起的文章,例如仅提及到了第二关键词,而不是主要描述第二关键词内容的文本不能聚类到对应于第二关键词的一个簇。最后通过计算簇内文章的数量和文章所属主题确定待推荐的文章,其中,待推荐的文章即是关于描述经营贷的文章。那么,在确定待推荐的文章之后,推荐系统就可以将待推荐的文章,即关于描述经营贷的文章推荐给用户。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
请参阅图1,为本申请实施例提供的一种文本推荐方法的流程示意图。本实施例的方法应用于服务器,本实施例中所描述的文本推荐方法,包括以下步骤:
S101:获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在多个时刻任一第一关键词在动态文本集合中的出现频次组合得到,N是正整数。
在一种实现方式中,服务器可以获取N个第一关键词,该N个第一关键词可以预先定义的,且在某段时间内,该N个第一关键词是文本中出现的频次较高,是文本中描述主体的关键词,例如关于围棋大战的相关文本中的机器人,关于是否应该扶老人的相关文本中的老人均可以预先设定为第一关键词。在获取N个第一关键词之后,服务器就可以确定每个第一关键词的出现频次序列。其中,第一关键词的出现频次序列是在多个时刻,对任意一个第一关键词在动态文本集合中的出现频次进行组合得到的,每一个第一关键词的出现频次序列均是根据该种方法确定。需要说明的是,动态文本集合是随着时间变化而变化的,因此在不同时刻统计的同一个第一关键词在动态文本集合中的出现频次也是不同的。比如动态文本集合是某个新闻阅读类的应用程序中的文章库,该文章库会不断接收来自不同作者的文章,那么不同的时刻,文章库中的文章是不同的。也就是在不同的时刻,动态文本集合中的文本是存在差异的。具体地,服务器可以在预定的多个时刻统计每个第一关键词在动态文本集合中的出现次数,然后将每个第一关键词在多个时刻统计的出现次数以序列的形式表示。例如,服务器可以在7天内,每天17:00统计某个第一关键词在动态文本集合中的出现次数,若出现次数为7、10、5、15、23、12、18,则该第一关键词的出现频次序列为[7,10,5,15,23,12,18]。其他的第一关键词也可以以上述同样的方法确定出对应的出现频次序列。需要说明的是,上述提到的多个时间段可以是7天,也可以是15天,也可以是其他时间段,在本申请不做限定。上述提到的每天17:00统计某个第一关键词在动态文本集合中的出现次数,可以是每天的17:00,也可以是每天的其他时间,在本申请不做限定。
S102:获取参考频次序列,在N个第一关键词中,根据参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,M是正整数。
在一种实现方式中,服务器可以预先设定一个参考频次序列,例如图2a为参考频次序列的一种曲线表现形式。在确定每个第一关键词对应的出现频次序列之后,服务器可以获取该参考频次序列,并根据获取到的参考频次序列,确定该参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,以使得服务器根据该序列相似度从N个第一关键词确定出M个第二关键词。具体地,服务器可以将每个第一关键词的出现频次序列与预先设定的参考频次序列进行匹配,当匹配度高于一定阈值的情况下,就可以将第一关键词确定为第二关键词。其中,该匹配度可以是参考频次序列与每个第一关键词的出现频次序列的序列相似度。
S103:在目标文本集合中确定与M个第二关键词对应的单位文本集合,其中,目标文本集合是多个时刻中的最大时刻对应的动态文本集合,单位文本集合包括多个文本。
在一种实现方式中,在服务器确定M个第二关键词之后,可以在目标文本集合中确定与M个第二关键词对应的单位文本集合,其中,该目标文本集合是多个时刻中的最大时刻对应的动态文本集合,也就是最后一次统计第一关键词的出现频次对应的动态文本集合。具体地,服务器可以将出现第二关键词的对应的文本确定为单位文本集合中的一个文本,例如,文本1出现了某个第二关键词,则文本1确定为单位文本集合中的一个文本。也就是说,服务器可以将目标文本集合中出现了任意一个第二关键词对应的文本确定为单位文本集合中的一个文本,那么服务器在目标文本集合中确定了与M个第二关键词对应的文本之后,也就是确定了单位文本集合,该单位文本集合是目标文本集合中出现了任意一个第二关键词对应的文本的集合。
S104:对多个文本进行聚类处理,得到多个文本簇,从多个文本簇中选择目标文本簇,其中,目标文本簇中的目标文本的数量大于数量阈值。
在一种实现方式中,服务器可以对上述的单位文本集合中的多个文本进行聚类处理,以得到多个文本簇。其中,每个文本簇中文本的描述内容是相似的。可选的,在对多个文本进行聚类时,可以根据文本中的特征词对多个文本进行聚类。其中,特征词可以包括文本中的文本关键词和文本实体词,文本关键词可以属于N个第一关键词,而文本实体词可以是例如地点、人物名称、时间等词。可选的,特征词可以通过特征提取的方法获得,也可以通过其他方法获得,在本申请中不做限定。而在得到多个文本簇之后,服务器还可以对该多个文本簇做过滤处理,以得到目标文本簇。具体地,服务器将多个文本簇中文本数量小于等于数量阈值的文本簇过滤,将文本簇中文本数量大于数量阈值的文本簇作为目标文本簇。其中,该数量阈值可以是预先设置的。
S105:在目标文本中,根据目标文本的文本主题,确定待推荐文本。
在一种实现方式中,服务器可以确定每个目标文本的文本主题。可选的,服务器可以根据预先训练好的主题识别模型识别出每个目标文本的文本主题,该主题识别模型能够准确的识别文本的100多种细分文本主题,例如文本主题可以是国际新闻、娱乐新闻、地区新闻等等。需要说明的是,本申请对识别文本的文本主题的方法不做限定。在服务器确定每个目标文本的文本主题之后,服务器可以根据每个目标文本的文本主题确定每个目标文本的主题权重。可选的,服务器可以设定文本主题与主题权重的对应关系,对每种文本主题设定不同的主题权重,那么服务器可以根据预先设定的文本主题与主题权重的对应关系确定每个目标文本的主题权重。例如表1所示为服务器预先设定的文本主题与主题权重的对应关系。从表1中可以看出,若目标文本的文本主题为国际新闻,则文本主题对应的主题权重为0.75,若目标文本的文本主题为地区新闻,则文本主题对应的主题权重为0.25。而在服务器根据每个目标文本的文本主题确定每个目标文本的主题权重之后,就可以根据多个目标文本的主题权重确定待推荐文本。可选的,服务器可以对多个目标文本的主题权重进行降序排序,以得到主题权重排序结果,并将主题权重排序结果中前L个主题权重对应的目标文本均作为待推荐文本。其中,L可以是预先设定,例如可以是5,或是10,也可以是其他数值,在本申请不做限定。
在一种实现方式中,假设目标文本有7个,分别为文本1、文本2、文本3、文本4、文本5、文本6、文本7,服务器确定的每个文本的对应的主题权重为0.25、0.85、0.5、0.75、0.85、0.4、0.3,然后服务器将上述主题权重进行降序排序,得到主题权重排序结果为0.85(文本2)、0.85(文本5)、0.75(文本4)、0.5(文本3)、0.4(文本6)、0.3(文本7)、0.25(文本1),接着,服务器将主题权重排序结果中前3个主题权重对应的目标文本作为待推荐文本,也就是文本2、文本5和文本4作为待推荐文本。
表1:
文本主题 主题权重
国际新闻 0.85
娱乐新闻 0.8
地区新闻 0.75
在本申请实施例中,服务器可以在文本库中确定第一关键词出现的频次变化,根据第一关键词出现的频次变化确定出第二关键词,再在文本库中确定第二关键词对应的单位文本集合,该单位文本集合中的每个文本中是出现了第二关键词的。然后再对单位文本集合进行聚类处理得到多个文本簇,经过聚类处理可以将描述内容相近的文本聚类到同一个簇,而无法被聚类到一起的文本,例如仅提及到了第二关键词,而不是主要描述第二关键词内容的文本不能聚类到对应于第二关键词的文本簇。在确定多个文本簇之后,再根据多个文本簇中文本数量与数量阈值的比较,可以将文本数量小于数量阈值的文本簇过滤掉,接着根据不同文本主题的主题权重,得到待推荐文本,从而可以提升文本推荐的效率以及准确度,也可以提升用户体验。
请参阅图3,为本申请实施例提供的另一种文本推荐方法的流程示意图。本实施例的方法应用于服务器,本实施例中所描述的文本推荐方法,包括以下步骤:
S301:获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在多个时刻任一第一关键词在动态文本集合中的出现频次组合得到,N是正整数。
S302:获取参考频次序列,确定参考频次序列和每个第一关键词的出现频次序列之间的目标距离。
在一种实现方式中,服务器可以获取参考频次序列,并在获取该参考频次序列之后,确定该参考频次序列与每个第一关键词的出现频次序列之间的目标距离。具体地,考虑到在确定该参考频次序列与第一关键词的出现频次序列之间的目标距离时,确定参考频次序列与每个第一关键词的出现频次序列之间的目标距离的流程是一致的。下面以确定该参考频次序列与任意一个第一关键词的出现频次序列之间的目标距离的流程为例进行说明。假设参考频次序列包括i个参考频次,第一关键词的出现频次序列包括j个出现频次,其中,i,j是正整数。则针对N个第一关键词的出现频次序列中的任一第一关键词的出现频次序列,确定参考频次序列和任一第一关键词的出现频次序列之间的目标距离的流程具体可以包括:服务器可以首先基于动态规划原则,在j个出现频次中为每个参考频次确定对应的出现频次集合,再根据每个参考频次以及每个参考频次对应的出现频次集合,确定每个参考频次的频次距离,而在确定了每个参考频次的频次距离之后,可以将i个频次距离之和作为参考频次序列和任一第一关键词的出现频次序列之间的目标距离。
在一种实现方式中,如图2b所示表示的是为每个参考频次确定对应的出现频次集合的示意图,图2b中的1、2、3等数字表示的是参考频次序列中或出现频次序列中元素对应的序号,图2c中的数字作同样理解。确定参考频次序列与出现频次序列之间的目标距离,也就是要在参考频次序列和出现频次序列中找出每个参考频次对应的出现频次,即参考频次与出现频次的对齐。从图2b中可以看出,参考频次序列中的第一个参考频次对应的出现频次有两个,则该参考频次的频次距离为d1+d2。后续的每一个参考频次的频次距离以上述同样的方法确定。在确定每个参考频次的频次距离之后,就可以将i个频次距离之和作为参考频次序列和任一第一关键词的出现频次序列之间的目标距离。而如图2c所示表示的是现有技术为每个参考频次确定对应的出现频次集合的示意图,从图2c中可以看出,以图2c所示意的确定每个参考频次对应的出现频次集合的方法,考虑的是序列与序列的一一对齐,没有从时间维度上考虑参考频次与出现频次的对齐。若利用以图2c所示意的方法来确定参考频次序列与每个出现频次序列之间的目标距离是存在误差的。因此,利用本申请实施例(如图2b)提供的方法确定参考频次序列与每个出现频次序列之间的目标距离相较于现有技术(如图2c),在后续确定参考频次序列与每个出现频次序列之间的序列相似度时,能够更加准确的确定参考频次序列与每个出现频次序列之间的序列相似度。
在一种实现方式中,确定参考频次序列与出现频次序列之间的序列相似度的具体实现可以如下所示的算法所示(为方便描述,在本申请中将该算法表示为第一算法):
输入:参考频次序列Q和出现频次序列C,第一相似阈值γ1
输出:两个序列是否相似初始化:Q=q1,q2,…qh…qi;C=c1,c2,…ck…cj;D0,D1,初始化为无穷大的矩阵。
Q的长度为i,C的长度为j
主要步骤:
分别将Q,C归一化
循环h从(1,i)中:
循环k从(1,j)中:
D0[h,k]=|qh-ck|
循环h从(1,i)中:
循环k从(1,j)中:
D1[h,k]=D0[h,k]+min(D1[h-1,k],D1[h-1,k-1],D1[h,k-1])
相似度
Figure GDA0002798728330000101
返回:
如果相似度score<γ1:返回两个序列相似
否则:返回两个序列不相似
上述第一算法中的D1[i,j]即是参考频次序列和第一关键词的出现频次序列之间的目标距离。假设参考频次序列Q的序列长度是i,出现频次序列C的序列长度是j,则参考频次序列Q和出现频次序列C可以分别上述第一算法中所表示的:Q=q1,q2,…qh…qi;C=c1,c2,…ck…cj。其中,qh表示参考频次序列中的参考频次,ck表示出现频次序列中的出现频次。为了度量两个序列的距离,也就是确定参考频次序列和第一关键词的出现频次序列之间的目标距离,可以基于动态规划原则构造一个i×j的矩阵D0,例如图2d所示的矩阵,点qh和ck的对齐表示为矩阵元素(h,k),D0[h,k]表示参考频次qh和出现频次ck之间的距离,参考频次qh和出现频次ck之间的距离具体可以是如上述第一算法中的的公式D0[h,k]=|qh-ck|。其中,D0也可以表示参考频次序列Q中的每一个参考频次和出现频次序列C中每一个出现频次之间的相似度,距离越小则相似度越高。D1为累加距离矩阵,例如图2e所示的矩阵,D1[h,k]表示参考频次qh和出现频次ck两个频次的累加距离。参考频次qh和出现频次ck两个频次之间的累加距离可如第一算法中的公式D1[h,k]=D0[h,k]+min(D1[h-1,k],D1[h-1,k-1],D1[h,k-1])。D1[h,k]表示的是距离D0[h,k]与可以到达矩阵元素(h,k)的最小的邻近元素的累积距离之和。最后将计算得到的D1[i,j]即是参考频次序列和第一关键词的出现频次序列之间的目标距离。
S303:根据参考频次序列的序列长度和每个第一关键词的出现频次序列的序列长度,确定每个第一关键词的序列长度总和。
在一种实现方式中,服务器可以根据参考频次序列的序列长度和每个第一关键词的出现频次序列的序列长度,确定每个第一关键词的序列长度总和。例如上述所示的第一算法中,参考频次序列的序列长度为i,出现频次序列的序列长度为j,则第一关键词的序列长度总和为i+j。
S304:根据每个第一关键词的目标距离,以及每个第一关键词的序列长度总和确定参考频次序列和每个第一关键词的出现频次序列之间的序列相似度。
在一种实现方式中,服务器在确定每个第一关键词的目标距离之后,就可以根据每个第一关键词的目标距离,以及每个第一关键词的序列长度总和确定参考频次序列和每个第一关键词的出现频次序列之间的序列相似度。其中,参考频次序列和每个第一关键词的出现频次序列之间的序列相似度具体可以根据上述第一算法中的所示的公式
Figure GDA0002798728330000102
确定。
S305:根据N个第一关键词的序列相似度,在N个第一关键词中确定M个第二关键词。
在一种实现方式中,服务器可以获取预先设置的第一相似阈值,该第一相似阈值可以是如上述第一算法中的所示的γ1。服务器可以根据该第一相似阈值从第一关键词中确定出第二关键词。具体地,服务器在确定N个第一关键词的序列相似度之后,服务器可以从N个第一关键词的序列相似度中确定M个目标序列相似度,具体可以是执行上述第一算法中所示中的score<γ1,也就是将第一关键词的序列相似度与第一相似阈值进行比较,将第一关键词的序列相似度小于第一相似度阈值的确定为目标序列相似度。在确定M个目标序列相似度之后,就可以将M个目标序列相似度分别对应的第一关键词作为M个第二关键词。
S306:在目标文本集合中确定与M个第二关键词对应的单位文本集合,其中,目标文本集合是多个时刻中的最大时刻对应的动态文本集合,单位文本集合包括多个文本。
S307:确定每个文本的文本关键词集合和文本实体词集合,其中,文本关键词属于N个第一关键词。
在一种实现方式中,服务器可以确定每个文本的文本关键词集合和文本实体词集合,其中,文本关键词可以是对文本主题进行描述的相关词,可以属于上述的N个第一关键词,而文本实体词可以是文本中的例如地点、人物名称、时间等词。文本关键词与文本实体词的结合,可以更加准确的判断文本的内容是否一致,即文本是否相似。例如在围棋大战中,文本是否都是描述“人工智能”相关的内容。
S308:根据每个文本的文本关键词集合和每个文本的实体关键词集合,将多个文本划分为多个文本簇。
在一种实现方式中,服务器可以根据每个文本的文本关键词集合和每个文本的实体关键词集合,将多个文本划分为多个第一文本簇。其中,任一第一文本簇包括两个文本,任一第一文本簇中的两个文本之间的文本相似度是大于第二相似阈值的,文本相似度可以根据每个文本的文本关键词集合和每个文本的实体关键词集合确定。在将多个文本划分为多个第一文本簇之后,服务器可以将多个第一文本簇合并为多个第二文本簇,并将每个第二文本簇中包含的文本的文本关键词集合组合为每个第二文本簇的文本关键词集合,将每个第二文本簇中包含的文本的实体关键词集合组合为每个第二文本簇的实体关键词集合。进一步的,服务器可以将多个第二文本簇和未被划分为第一文本簇的文本重新进行聚类处理,而当第二文本簇的数量以及未被划分为第一文本簇的文本的数量均保持不变时,则可以将多个第二文本簇以及未被划分为第一文本簇的文本作为多个文本簇。
在一种实现方式中,根据每个文本的文本关键词集合和每个文本的实体关键词集合,将多个文本划分为多个文本簇的具体实现可以如下所示的算法所示(为方便描述,在本申请中将该算法表示为第二算法):
输入:单位文本集合S,第二相似阈值
输出:文本簇集合T
主要步骤:
循环d在S中:
构造<key,doc>的特征文本对,
循环直到没有新簇产生
循环i在T中:
循环j在T中:
计算文本相似度
score=a×keylink-sim(Ti,Tj)+b×entity-sim(Ti,Tj)
如果score>γ2
删除T中i,j,加入新簇f=i+j
返回时聚类后的文本簇集合T
根据上述第二算法可以看出,服务器可以首先确定每个文本的特征词,并构造如上述第二算法中所示的“<key,doc>的特征文本对”。其中,“key”表示的是每个文本的特征词,该特征词具体可以是文本关键词和文本实体词,“doc”表示的是文本。在确定每个文本的特征词之后,就可以根据每个文本的特征词确定任意两个文本之间的文本相似度,进而根据两个文本之间的文本相似度确定多个文本簇。可选的,两个文本之间的文本相似度具体可以根据如上述第二算法中所示的公式score=a×keylink-sim(Ti,Tj)+b×entity-sim(Ti,Tj)确定。其中,keylink-sim(Ti,Tj)是基于文本关键词的相似性度量,这种基于文本关键词的相似性度量能够判断两个文本的描述内容是否是围绕相同主题的,也就是两个文本的内容是否是围绕第二关键词进行描述的。entity-sim(Ti,Tj)是基于文本实体词的相似性度量,这种基于文本实体词的相似性度量能够更加准确的判断两个文本的描述内容是否一致,进而得到更好的文本聚类效果。而a和b分别对应的是基于文本关键词的相似性度量与基于文本实体词的相似性度量的权重,a和b对应的值可以预先设定,在本申请中,预先设定的a对应的值要大于b对应的值。
其中,基于文本关键词的相似性度量对应的值具体的确定方法可以利用如下例子进行说明:假设两个文本的文本关键词的数量分别为4和7,其中两个文本的文本关键词相同的数量2,则可以把2/(4+7)作为两个文本的基于文本关键词的相似性度量对应的值。该值的确定方法还可以是:假设两个文本的文本关键词的数量分别为4和7,且每个文本关键词都预先设定了对应的词权重,其中两个文本的文本关键词相同的数量2,则可以把(相同的文本关键词的词权重之和*2)/(4个词权重之和+7个词权重之和)作为两个文本的基于文本关键词的相似性度量对应的值。需要说明的是,基于文本关键词的相似性度量对应的值也可以根据其他方法确定,在本申请中不做限定。而基于文本实体词的相似性度量对应的值可以参考上述基于文本关键词的相似性度量对应的值具体的确定方法,此处不再赘述。
举例来说,以6个文本(文本1、文本2、文本3、文本4、文本5、文本6)为例,首先需要确定每个文本的文本关键词集合和实体关键词集合,然后再根据上述第二算法中的公式“score=a×keylink-sim(Ti,Tj)+b×entity-sim(Ti,Tj)”分别计算文本1与文本2、文本1与文本3、文本1与文本4、文本1与文本5以及文本1与文本6的文本相似度,并判断文本相似度与第二相似阈值的大小,如果文本相似度大于第二相似阈值,例如上述第二算法中所示的score>γ2,则将文本划分为一个第一文本簇,假设文本1与文本3的文本相似度大于第二相似阈值,文本1与文本4的文本相似度大于第二相似阈值,则多个第一文本簇分别为(文本1、文本3),(文本1、文本4),(文本2),(文本5),(文本6)。然后再将第一文本簇中的(文本1、文本3)与(文本1、文本4)合并得到第二文本簇(文本1、文本3、文本4)。可以看出,根据上述所示的第二算法,经过一轮循环后得到4个文本簇,分别为(文本1、文本3、文本4),(文本2),(文本5),(文本6)。然后再根据上述同样的方法对(文本1、文本3、文本4),(文本2),(文本5),(文本6)重新进行聚类处理,直到没有新的文本簇产生,也可以说是每个文本簇中的文本数量均保持不变时,则停止循环,也就是停止聚类处理,最后得到的文本簇即是本申请所需的多个文本簇。
其中,在对(文本1、文本3、文本4),(文本2),(文本5),(文本6)重新进行聚类处理时,需要计算(文本1、文本3、文本4)与(文本2)的文本相似度。而在计算文本簇(文本1、文本3、文本4)与文本簇(文本2)的文本相似度时,可以把文本簇(文本1、文本3、文本4)中包含的文本的文本关键词集合进行组合得到该文本簇的文本关键词集合,把包含的文本的实体关键词集合进行组合得到该文本簇的文本实体词集合。然后再根据上述第二算法中所示的公式“score=a×keylink-sim(Ti,Tj)+b×entity-sim(Ti,Tj)”计算文本簇(文本1、文本3、文本4)与文本簇(文本2)的文本相似度。
S309:从多个文本簇中选择目标文本簇,其中,目标文本簇中的目标文本的数量大于数量阈值。
在一种实现方式中,上述多个文本簇中文本数量可能存在差异,例如,有的文本簇中文本的数量可能有几十个,而有的文本簇中文本的数量可能只有几个。考虑到当某个第二关键词为当前热点时,那么对应的描述该第二关键词的文本数量也就越多,因此,可以根据文本簇中文本的数量从多个文本簇中选择目标文本簇。可选的,服务器可以预先设置一个数量阈值,以使得服务器根据文本簇中文本的数量与该数量阈值的大小,确定目标文本簇。其中,目标文本簇中的目标文本的数量是大于数量阈值的。具体地,服务器获取预先设置的数量阈值之后,可以将每个文本簇中文本的数量与数量阈值进行比较,如果文本簇中文本的数量大于数量阈值,则将该文本簇确定为目标文本簇。
S310:在目标文本中,根据目标文本的文本主题,确定待推荐文本。
其中,步骤S301、S306和S310的具体实施方式可以参见上述实施例步骤S101、S103和S105的具体描述,此处不再赘述。
在本申请实施例中,服务器可以在文本库中确定第一关键词出现的频次变化,根据第一关键词出现的频次变化确定出第二关键词。而在确定第二关键词时利用到了动态规划原则来计算第一关键词的出现频次序列和参考频次序列的序列相似度,利用该动态规划原则提升了出现频次序列和参考频次序列的序列相似度的准确度。接着,在文本库中确定第二关键词对应的单位文本集合,该单位文本集合中的每个文本中是出现了第二关键词的。然后再对单位文本集合进行聚类处理得到多个文本簇,在聚类处理过程中本申请是根据每个文本的文本关键词集合和文本实体词集合来确定两个文本的文本相似度,这种利用多维特征词,即文本关键词与文本实体词的结合,相比于一维的特征词,也可以更加准确的判断文本的内容是否一致,即文本是否相似。经过聚类处理可以将描述内容相近的文本聚类到同一个簇,而无法被聚类到一起的文本,例如仅提及到了第二关键词,而不是主要描述第二关键词内容的文本不能聚类到对应于第二关键词的文本簇。在确定多个文本簇之后,再根据多个文本簇中文本数量与数量阈值的比较,可以将文本数量小于数量阈值的文本簇过滤掉。接着根据不同文本主题的主题权重,得到待推荐文本,从而可以提升文本推荐的效率以及准确度,也可以提升用户体验。
如图4示为本申请实施例提供的又一种文本推荐方法的流程示意图。在如图4所示的流程中,服务器可以获取多个第一关键词,并根据动态文本集合确定每个第一关键词对应的出现频次序列。其中,任一第一关键词的出现频次序列是是在多个时刻任一第一关键词在动态文本集合中的出现频次组合得到。然后,服务器可以获取参考频次序列,根据参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,从N个第一关键词中确定出M个第二关键词。接着,服务器可以在目标文本集合中确定与M个第二关键词对应的单位文本集合,该目标文本集合是指上述多个时刻中的最大时刻对应的动态文本集合。进一步的,对单位文本集合中的多个文本进行聚类处理,进行聚类处理也就是将描述相似内容的文本划分为一个文本簇。经过聚类处理之后,就可以得到多个文本簇,再根据文本簇中文本数量从多个文本簇中选择目标文本簇,该目标文本簇中的目标文本的数量是大于数量阈值的。最后,确定目标文本对应的文本主题,而每个文本主题都有预先设置的主题权重,那么可以根据目标文本对应的主题权重,从目标文本中确定待推荐文本。
请参阅图5,为本申请实施例提供的一种文本推荐装置的结构示意图。本实施例中所描述的文本推荐装置,包括:
确定单元501,用于获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在多个时刻所述任一第一关键词在动态文本集合中的出现频次组合得到,所述N是正整数;
所述确定单元501,还用于获取参考频次序列,在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,所述M是正整数;
所述确定单元501,还用于在目标文本集合中确定与所述M个第二关键词对应的单位文本集合,其中,所述目标文本集合是所述多个时刻中的最大时刻对应的动态文本集合,所述单位文本集合包括多个文本;
聚类单元502,用于对所述多个文本进行聚类处理,得到多个文本簇,从所述多个文本簇中选择目标文本簇,其中,所述目标文本簇中的目标文本的数量大于数量阈值;
所述确定单元501,还用于在所述目标文本中,根据所述目标文本的文本主题,确定待推荐文本。
在一种实现方式中,所述确定单元501,具体用于:
确定所述参考频次序列和每个第一关键词的出现频次序列之间的目标距离;
根据所述参考频次序列的序列长度和每个第一关键词的出现频次序列的序列长度,确定每个第一关键词的序列长度总和;
根据每个第一关键词的目标距离,以及每个第一关键词的序列长度总和确定所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度;
根据所述N个第一关键词的序列相似度,在所述N个第一关键词中确定M个第二关键词。
在一种实现方式中,所述参考频次序列包括i个参考频次,所述出现频次序列包括j个出现频次,所述i,j是正整数,所述确定单元501,具体用于:
基于动态规划原则,在j个出现频次中为每个参考频次确定对应的出现频次集合;
根据每个参考频次以及每个参考频次对应的出现频次集合,确定每个参考频次的频次距离;
将i个频次距离之和作为所述参考频次序列和所述任一第一关键词的出现频次序列之间的目标距离。
在一种实现方式中,所述确定单元501,具体用于:
获取第一相似阈值;
从所述N个第一关键词的序列相似度中确定M个目标序列相似度,任一目标序列相似度小于所述第一相似度阈值;
将M个目标序列相似度分别对应的第一关键词作为M个第二关键词。
在一种实现方式中,所述聚类单元502,具体用于:
确定每个文本的文本关键词集合和文本实体词集合,其中,所述文本关键词属于所述N个第一关键词;
根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为所述多个文本簇。
在一种实现方式中,所述聚类单元502,具体用于:
根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为多个第一文本簇,其中,任一第一文本簇包括两个文本,任一第一文本簇中的两个文本之间的文本相似度大于第二相似阈值;
将所述多个第一文本簇合并为多个第二文本簇,将每个第二文本簇中包含的文本的文本关键词集合组合为每个第二文本簇的文本关键词集合,将每个第二文本簇中包含的文本的实体关键词集合组合为每个第二文本簇的实体关键词集合;
将所述多个第二文本簇和未被划分为第一文本簇的文本重新进行聚类处理;
当第二文本簇的数量以及未被划分为第一文本簇的文本的数量均保持不变时,将多个第二文本簇以及未被划分为第一文本簇的文本作为所述多个文本簇。
在一种实现方式中,目标文本的数量是多个,所述聚类单元502,具体用于:
确定每个目标文本的文本主题;
根据每个目标文本的文本主题确定所述每个目标文本的主题权重;
对多个目标文本的主体权重进行降序排序,得到主题权重排序结果;
将所述主题权重排序结果中前L个主题权重对应的目标文本均作为待推荐文本。
可以理解,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参阅图6,为本申请实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器,包括:处理器601、存储器602以及网络接口603。上述处理器601、存储器602以及网络接口603之间可以交互数据。
上述处理器601可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供程序指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。其中,所述处理器601调用所述程序指令时用于执行:
获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在多个时刻所述任一第一关键词在动态文本集合中的出现频次组合得到,所述N是正整数;
获取参考频次序列,在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,所述M是正整数;
在目标文本集合中确定与所述M个第二关键词对应的单位文本集合,其中,所述目标文本集合是所述多个时刻中的最大时刻对应的动态文本集合,所述单位文本集合包括多个文本;
对所述多个文本进行聚类处理,得到多个文本簇,从所述多个文本簇中选择目标文本簇,其中,所述目标文本簇中的目标文本的数量大于数量阈值;
在所述目标文本中,根据所述目标文本的文本主题,确定待推荐文本。
在一种实现方式中,所述处理器601,具体用于:
确定所述参考频次序列和每个第一关键词的出现频次序列之间的目标距离;
根据所述参考频次序列的序列长度和每个第一关键词的出现频次序列的序列长度,确定每个第一关键词的序列长度总和;
根据每个第一关键词的目标距离,以及每个第一关键词的序列长度总和确定所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度;
根据所述N个第一关键词的序列相似度,在所述N个第一关键词中确定M个第二关键词。
在一种实现方式中,所述参考频次序列包括i个参考频次,所述出现频次序列包括j个出现频次,所述i,j是正整数,所述处理器601,具体用于:
基于动态规划原则,在j个出现频次中为每个参考频次确定对应的出现频次集合;
根据每个参考频次以及每个参考频次对应的出现频次集合,确定每个参考频次的频次距离;
将i个频次距离之和作为所述参考频次序列和所述任一第一关键词的出现频次序列之间的目标距离。
在一种实现方式中,所述处理器601,具体用于:
获取第一相似阈值;
从所述N个第一关键词的序列相似度中确定M个目标序列相似度,任一目标序列相似度小于所述第一相似度阈值;
将M个目标序列相似度分别对应的第一关键词作为M个第二关键词。
在一种实现方式中,所述处理器601,具体用于:
确定每个文本的文本关键词集合和文本实体词集合,其中,所述文本关键词属于所述N个第一关键词;
根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为所述多个文本簇。
在一种实现方式中,所述处理器601,具体用于:
根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为多个第一文本簇,其中,任一第一文本簇包括两个文本,任一第一文本簇中的两个文本之间的文本相似度大于第二相似阈值;
将所述多个第一文本簇合并为多个第二文本簇,将每个第二文本簇中包含的文本的文本关键词集合组合为每个第二文本簇的文本关键词集合,将每个第二文本簇中包含的文本的实体关键词集合组合为每个第二文本簇的实体关键词集合;
将所述多个第二文本簇和未被划分为第一文本簇的文本重新进行聚类处理;
当第二文本簇的数量以及未被划分为第一文本簇的文本的数量均保持不变时,将多个第二文本簇以及未被划分为第一文本簇的文本作为所述多个文本簇。
在一种实现方式中,目标文本的数量是多个,所述处理器601,具体用于:
确定每个目标文本的文本主题;
根据每个目标文本的文本主题确定所述每个目标文本的主题权重;
对多个目标文本的主体权重进行降序排序,得到主题权重排序结果;
将所述主题权重排序结果中前L个主题权重对应的目标文本均作为待推荐文本。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,所述程序执行时可包括如图1或者图3对应实施例中的文本推荐方法的部分或全部步骤。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
以上对本申请实施例所提供的一种文本推荐方法、装置、服务器及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文本推荐方法,其特征在于,包括:
获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在预设时间段内单位时间固定时刻所述任一第一关键词在动态文本集合中的出现频次组合得到,所述N是正整数,所述N个第一关键词包括所述预设时间段内单位时间在所述动态文本集合中的文本中出现的描述主体的频次大于或者等于预设频次阈值的关键词;
获取参考频次序列,在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,所述M是正整数;其中,预先设定的参考频次序列中的参考频次存在某个时刻突然增大的状态;
在目标文本集合中确定与所述M个第二关键词对应的单位文本集合,其中,所述目标文本集合是所述预设时间段内最后一个单位时间固定时刻对应的动态文本集合,所述单位文本集合包括多个文本;
对所述多个文本进行聚类处理,得到多个文本簇,从所述多个文本簇中选择目标文本簇,其中,所述目标文本簇中的目标文本的数量大于数量阈值;
在所述目标文本中,根据所述目标文本的文本主题权重,确定待推荐文本。
2.根据权利要求1所述的方法,其特征在于,所述在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,包括:
确定所述参考频次序列和每个第一关键词的出现频次序列之间的目标距离;
根据所述参考频次序列的序列长度和每个第一关键词的出现频次序列的序列长度,确定每个第一关键词的序列长度总和;
根据每个第一关键词的目标距离,以及每个第一关键词的序列长度总和确定所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度;
根据所述N个第一关键词的序列相似度,在所述N个第一关键词中确定M个第二关键词。
3.根据权利要求2所述的方法,其特征在于,所述参考频次序列包括i个参考频次,所述出现频次序列包括j个出现频次,所述i,j是正整数;
针对N个第一关键词的出现频次序列中的任一第一关键词的出现频次序列,确定所述参考频次序列和所述任一第一关键词的出现频次序列之间的目标距离的流程包括:
基于动态规划原则,在j个出现频次中为每个参考频次确定对应的出现频次集合;
根据每个参考频次以及每个参考频次对应的出现频次集合,确定每个参考频次的频次距离;
将i个频次距离之和作为所述参考频次序列和所述任一第一关键词的出现频次序列之间的目标距离。
4.根据权利要求2所述的方法,其特征在于,所述根据所述N个第一关键词的序列相似度,在所述N个第一关键词中确定M个第二关键词,包括:
获取第一相似度 阈值;
从所述N个第一关键词的序列相似度中确定M个目标序列相似度,任一目标序列相似度小于所述第一相似度阈值;
将M个目标序列相似度分别对应的第一关键词作为M个第二关键词。
5.根据权利要求1所述的方法,其特征在于,所述对所述多个文本进行聚类处理,得到多个文本簇,包括:
确定每个文本的文本关键词集合和文本实体词集合,其中,所述文本关键词属于所述N个第一关键词;
根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为所述多个文本簇。
6.根据权利要求5所述的方法,其特征在于,所述根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为所述多个文本簇,包括:
根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为多个第一文本簇,其中,任一第一文本簇包括两个文本,任一第一文本簇中的两个文本之间的文本相似度大于第二相似阈值;
将所述多个第一文本簇合并为多个第二文本簇,将每个第二文本簇中包含的文本的文本关键词集合组合为每个第二文本簇的文本关键词集合,将每个第二文本簇中包含的文本的实体关键词集合组合为每个第二文本簇的实体关键词集合;
将所述多个第二文本簇和未被划分为第一文本簇的文本重新进行聚类处理;
当第二文本簇的数量以及未被划分为第一文本簇的文本的数量均保持不变时,将多个第二文本簇以及未被划分为第一文本簇的文本作为所述多个文本簇。
7.根据权利要求1所述的方法,其特征在于,所述目标文本的数量是多个;
所述在所述目标文本中,根据所述目标文本的文本主题,确定待推荐文本,包括:
确定每个目标文本的文本主题;
根据每个目标文本的文本主题确定所述每个目标文本的主题权重;
对多个目标文本的主体权重进行降序排序,得到主题权重排序结果;
将所述主题权重排序结果中前L个主题权重对应的目标文本均作为待推荐文本。
8.一种文本推荐装置,其特征在于,所述装置包括:
确定单元,用于获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在预设时间段内单位时间固定时刻所述任一第一关键词在动态文本集合中的出现频次组合得到,所述N是正整数,所述N个第一关键词包括所述预设时间段内单位时间在所述动态文本集合中的文本中出现的描述主体的频次大于或者等于预设频次阈值的关键词;
所述确定单元,还用于获取参考频次序列,在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,所述M是正整数;其中,预先设定的参考频次序列中的参考频次存在某个时刻突然增大的状态;
所述确定单元,还用于在目标文本集合中确定与所述M个第二关键词对应的单位文本集合,其中,所述目标文本集合是所述预设时间段内最后一个单位时间固定时刻对应的动态文本集合,所述单位文本集合包括多个文本;
聚类单元,用于对所述多个文本进行聚类处理,得到多个文本簇,从所述多个文本簇中选择目标文本簇,其中,所述目标文本簇中的目标文本的数量大于数量阈值;
所述确定单元,还用于在所述目标文本中,根据所述目标文本的文本主题权重,确定待推荐文本。
9.一种服务器,其特征在于,包括处理器、存储器和网络接口,所述处理器、存储器和网络接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202011070128.7A 2020-09-30 2020-09-30 一种文本推荐方法、装置、服务器及介质 Active CN112163157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011070128.7A CN112163157B (zh) 2020-09-30 2020-09-30 一种文本推荐方法、装置、服务器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011070128.7A CN112163157B (zh) 2020-09-30 2020-09-30 一种文本推荐方法、装置、服务器及介质

Publications (2)

Publication Number Publication Date
CN112163157A CN112163157A (zh) 2021-01-01
CN112163157B true CN112163157B (zh) 2023-01-10

Family

ID=73861220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011070128.7A Active CN112163157B (zh) 2020-09-30 2020-09-30 一种文本推荐方法、装置、服务器及介质

Country Status (1)

Country Link
CN (1) CN112163157B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572888A (zh) * 2014-12-23 2015-04-29 浙江大学 一种时间序列关联的信息检索方法
CN109255121A (zh) * 2018-07-27 2019-01-22 中山大学 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
CN111460252A (zh) * 2020-03-16 2020-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122515A (ja) * 2003-10-17 2005-05-12 Sony Corp 電子機器装置、テキスト間の類似度計算方法、およびプログラム
CN106777359B (zh) * 2017-01-18 2019-06-07 安徽农业大学 一种基于受限玻尔兹曼机的文本业务推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572888A (zh) * 2014-12-23 2015-04-29 浙江大学 一种时间序列关联的信息检索方法
CN109255121A (zh) * 2018-07-27 2019-01-22 中山大学 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
CN111460252A (zh) * 2020-03-16 2020-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统

Also Published As

Publication number Publication date
CN112163157A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN111080360B (zh) 行为预测方法、模型训练方法、装置、服务器及存储介质
CN110489449B (zh) 一种图表推荐方法、装置和电子设备
CN109492180A (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
EP2815335A1 (en) Method of machine learning classes of search queries
CN111581092B (zh) 仿真测试数据的生成方法、计算机设备及存储介质
CN109657044A (zh) 数据检索方法、数据排序方法、装置、终端以及存储介质
CN111782927A (zh) 物品推荐方法及其装置、计算机可存储介质
CN111160699A (zh) 一种专家推荐方法及系统
CN111611228B (zh) 一种基于分布式数据库的负载均衡调整方法及装置
CN112163157B (zh) 一种文本推荐方法、装置、服务器及介质
CN109462635B (zh) 一种信息推送方法、计算机可读存储介质及服务器
CN111125158B (zh) 数据表处理方法、装置、介质及电子设备
CN110347934B (zh) 一种文本数据过滤方法、装置及介质
CN109783175B (zh) 应用程序图标管理方法、装置、可读存储介质及终端设备
CN111324725A (zh) 一种话题获取方法、终端、计算机可读存储介质
CN113448876B (zh) 一种业务测试方法、装置、计算机设备及存储介质
CN115238194A (zh) 书籍推荐方法、计算设备及计算机存储介质
CN115391551A (zh) 事件检测方法及装置
CN114840762A (zh) 推荐内容确定方法、装置和电子设备
CN111667023B (zh) 获取目标类别的文章的方法和装置
CN114329093A (zh) 数据的处理方法、装置及设备
CN113886585A (zh) 物品推荐方法、计算机设备及计算机可读存储介质
CN113254788A (zh) 一种基于大数据的推荐方法、系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant