CN111143506B - 话题内容的排序方法、装置、服务器及存储介质 - Google Patents
话题内容的排序方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111143506B CN111143506B CN201911380040.2A CN201911380040A CN111143506B CN 111143506 B CN111143506 B CN 111143506B CN 201911380040 A CN201911380040 A CN 201911380040A CN 111143506 B CN111143506 B CN 111143506B
- Authority
- CN
- China
- Prior art keywords
- topic
- content
- distribution
- determining
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000009826 distribution Methods 0.000 claims description 256
- 230000015654 memory Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种话题内容的排序方法、装置、服务器及存储介质,属于计算机技术领域。所述方法包括:获取待排序的与目标话题关联的第一话题内容,以及获取所述目标话题对应的话题画像,所述话题画像用于表征所述目标话题的主旨含义;根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度;根据所述第一话题内容与所述目标话题的第一相关度,对所述第一话题内容进行排序。在本申请中,将第一话题内容与目标话题的第一相关度作为排序依据,按照第一话题内容与目标话题的主旨含义的相关性进行排序,能够提高话题内容排序的准确率。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种话题内容的排序方法、装置、服务器及存储介质。
背景技术
在内容分享平台,用户可以在分享内容时,将其要分享的内容与话题相关联,也可以在相应的话题页面下浏览其他用户发布的内容。为提升用户体验,内容分享平台需要对话题页面下的内容进行排序,在相应的话题页面中优先展示质量较高的内容。
相关技术中,通常会根据话题页面下的每条内容对应的点赞量和浏览量,确定内容对应的质量指数;根据每个内容的质量指数,按照质量指数由高到低的顺序,在话题页面上依次展示内容。
相关技术中,仅将点赞量和浏览量作为排序的依据,准确率较低。
发明内容
本申请实施例提供了一种话题内容的排序方法、装置、服务器及存储介质,能够解决话题内容排序准确率低的问题。所述技术方案如下:
根据本申请实施例的一方面,提供了一种话题内容的排序方法,所述方法包括:
获取待排序的与目标话题关联的第一话题内容,以及获取所述目标话题对应的话题画像,所述话题画像用于表征所述目标话题的主旨含义;
根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度;
根据所述第一话题内容与所述目标话题的第一相关度,对所述第一话题内容进行排序。
在一种可能的实现方式中,所述获取所述目标话题对应的话题画像,包括:
获取与所述目标话题关联的多个第二话题内容,以及,获取所述目标话题对应的话题描述,所述话题描述用于描述所述目标话题;
确定每个第二话题内容分别与所述话题描述的第二相关度;
根据所述每个第二话题内容与所述话题描述的第二相关度,将第二相关度最高的第一预设数量的第二话题内容组成所述话题画像。
在另一种可能的实现方式中,所述确定每个第二话题内容分别与所述话题描述的第二相关度,包括:
对于所述每个第二话题内容,将所述第二话题内容划分为至少一个预设长度的第三话题内容;
对于所述至少一个第三话题内容中的每个第三话题内容,提取所述第三话题内容对应的第一特征向量;
提取所述话题描述对应的第二特征向量;
根据所述第一特征向量和所述第二特征向量,确定所述第三话题内容与所述话题描述的第一距离;
从所述至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量;
根据所述第一数量和第二数量的比值,确定所述第二话题内容与所述话题描述的第二相关度,所述第二数量为所述至少一个第三话题内容的数量。
在另一种可能的实现方式中,所述从所述至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量之前,所述方法还包括:
根据所述多个第二话题内容对应的多个第一距离,确定所述多个第一距离的平均值;
将所述多个第一距离的平均值确定为所述距离阈值。
在另一种可能的实现方式中,所述确定每个第二话题内容分别与所述话题描述的第二相关度,包括:
对于所述每个第二话题内容,提取所述第二话题内容对应的第三特征向量,以及,提取所述话题描述对应的第二特征向量;
根据所述第三特征向量和所述第二特征向量,确定所述第二话题内容与所述话题描述的第二距离;
将所述第二距离作为所述第二话题内容与所述话题描述的第二相关度。
在另一种可能的实现方式中,所述根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度,包括:
将所述话题画像包括的至少一个第二话题内容拼接为第四话题内容;
根据所述第四话题内容和主题模型,确定所述话题画像对应的第一主题分布;
根据所述第一话题内容和所述主题模型,确定所述第一话题内容对应的第二主题分布;
根据所述第一主题分布和所述第二主题分布,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述根据所述第一主题分布和所述第二主题分布,确定所述第一话题内容与所述目标话题的第一相关度,包括:
根据所述第一主题分布和所述第二主题分布,确定所述第一主题分布和所述第二主题分布的海林格距离;
根据所述第一主题分布和所述第二主题分布,确定所述第一主题分布和第二主题分布的詹森香农散度;
根据所述海林格距离和所述詹森香农散度的平均值,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度,包括:
根据所述第一话题内容和所述主题模型,确定所述第一话题内容的第二主题分布;
根据所述话题画像包括的至少一个第二话题内容中的每个第二话题内容和所述主题模型,确定所述话题画像对应的至少一个第三主题分布;
根据所述第二主题分布和所述至少一个第三主题分布,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述根据所述第二主题分布和所述至少一个第三主题分布,确定所述第一话题内容与所述目标话题的第一相关度,包括:
对于所述至少一个第三主题分布中的每个第三主题分布,确定所述第二主题分布和所述第三主题分布的海林格距离,以及,确定所述第二主题分布和所述第三主题分布的詹森香农散度;
根据所述海林格距离和所述詹森香农散度的平均值,确定所述第三主题分布对应的第三相关度;
将所述至少一个第三主题分布对应的至少一个第三相关度的平均值,确定为所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度,包括:
将所述话题画像包括的至少一个第二话题内容拼接为第四话题内容;
根据所述第四话题内容和主题模型,确定所述话题画像对应的第一主题分布;
根据所述第一话题内容和所述主题模型,确定所述第一话题内容的第二主题分布;
根据所述话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定所述话题画像对应的至少一个第三主题分布;
根据所述第一主题分布、第二主题分布、所述至少一个第三主题分布、所述第一主题分布对应的第一权重和所述至少一个第三主题分布对应的第二权重,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述方法还包括:
接收终端发送的话题内容获取请求;
按照所述第一相关度由大到小的顺序,向所述终端返回所述第一相关度最高的第二预设数量的第一话题内容。
在另一种可能的实现方式中,所述获取待排序的与目标话题关联的第一话题内容,包括:
接收终端发送的分享请求,所述分享请求携带所述第一话题内容;
从所述分享请求中获取所述第一话题内容。
根据本申请实施例的另一方面,提供了一种话题内容的排序装置,所述装置包括:
获取模块,被配置为获取待排序的与目标话题关联的第一话题内容,以及获取所述目标话题对应的话题画像,所述话题画像用于表征所述目标话题的主旨含义;
确定模块,被配置为根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度;
排序模块,被配置为根据所述第一话题内容与所述目标话题的第一相关度,对所述第一话题内容进行排序。
在一种可能的实现方式中,所述获取模块,还被配置为获取与所述目标话题关联的多个第二话题内容,以及,获取所述目标话题对应的话题描述,所述话题描述用于描述所述目标话题;确定每个第二话题内容分别与所述话题描述的第二相关度;根据所述每个第二话题内容与所述话题描述的第二相关度,将第二相关度最高的第一预设数量的第二话题内容组成所述话题画像。
在另一种可能的实现方式中,所述确定模块,还被配置为对于所述每个第二话题内容,将所述第二话题内容划分为至少一个预设长度的第三话题内容;对于所述至少一个第三话题内容中的每个第三话题内容,提取所述第三话题内容对应的第一特征向量;提取所述话题描述对应的第二特征向量;根据所述第一特征向量和所述第二特征向量,确定所述第三话题内容与所述话题描述的第一距离;从所述至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量;根据所述第一数量和第二数量的比值,确定所述第二话题内容与所述话题描述的第二相关度,所述第二数量为所述至少一个第三话题内容的数量。
在另一种可能的实现方式中,所述确定模块,还被配置为根据所述多个第二话题内容对应的多个第一距离,确定所述多个第一距离的平均值;将所述多个第一距离的平均值确定为所述距离阈值。
在另一种可能的实现方式中,所述确定模块,还被配置为对于所述每个第二话题内容,提取所述第二话题内容对应的第三特征向量,以及,提取所述话题描述对应的第二特征向量;根据所述第三特征向量和所述第二特征向量,确定所述第二话题内容与所述话题描述的第二距离;将所述第二距离作为所述第二话题内容与所述话题描述的第二相关度。
在另一种可能的实现方式中,所述确定模块,还被配置为将所述话题画像包括的至少一个第二话题内容拼接为第四话题内容;根据所述第四话题内容和主题模型,确定所述话题画像对应的第一主题分布;根据所述第一话题内容和所述主题模型,确定所述第一话题内容对应的第二主题分布;根据所述第一主题分布和所述第二主题分布,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述确定模块,还被配置为根据所述第一主题分布和所述第二主题分布,确定所述第一主题分布和所述第二主题分布的海林格距离;根据所述第一主题分布和所述第二主题分布,确定所述第一主题分布和第二主题分布的詹森香农散度;根据所述海林格距离和所述詹森香农散度的平均值,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述确定模块,还被配置为根据所述第一话题内容和所述主题模型,确定所述第一话题内容的第二主题分布;根据所述话题画像包括的至少一个第二话题内容中的每个第二话题内容和所述主题模型,确定所述话题画像对应的至少一个第三主题分布;根据所述第二主题分布和所述至少一个第三主题分布,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述确定模块,还被配置为对于所述至少一个第三主题分布中的每个第三主题分布,确定所述第二主题分布和所述第三主题分布的海林格距离,以及,确定所述第二主题分布和所述第三主题分布的詹森香农散度;根据所述海林格距离和所述詹森香农散度的平均值,确定所述第三主题分布对应的第三相关度;将所述至少一个第三主题分布对应的至少一个第三相关度的平均值,确定为所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述确定模块,还被配置为将所述话题画像包括的至少一个第二话题内容拼接为第四话题内容;根据所述第四话题内容和主题模型,确定所述话题画像对应的第一主题分布;根据所述第一话题内容和所述主题模型,确定所述第一话题内容的第二主题分布;根据所述话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定所述话题画像对应的至少一个第三主题分布;根据所述第一主题分布、第二主题分布、所述至少一个第三主题分布、所述第一主题分布对应的第一权重和所述至少一个第三主题分布对应的第二权重,确定所述第一话题内容与所述目标话题的第一相关度。
在另一种可能的实现方式中,所述装置还包括:
接收模块,被配置为接收终端发送的话题内容获取请求;
返回模块,被配置为按照所述第一相关度由大到小的顺序,向所述终端返回所述第一相关度最高的第二预设数量的第一话题内容。
在另一种可能的实现方式中,所述获取模块,还被配置为接收终端发送的分享请求,所述分享请求携带所述第一话题内容;从所述分享请求中获取所述第一话题内容。
根据本申请实施例的另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现上述任一可能实现方式所述的话题内容的排序方法。
根据本申请实施例的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以实现上述任一可能实现方式所述的话题内容的排序方法。
在本申请实施例中,服务器获取用于表征目标话题主旨含义的话题画像;根据话题画像,确定目标话题和待排序的第一话题内容的第一相关度;根据第一相关度对第一话题内容进行排序。将第一话题内容与目标话题的第一相关度作为排序依据,按照第一话题内容与目标话题的主旨含义的相关性进行排序,能够提高话题内容排序的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种话题内容的排序方法的流程图;
图3是本申请实施例提供的一种话题内容的排序方法的流程图;
图4是本申请实施例提供的一种确定目标话题对应的话题画像的流程图;
图5是本申请实施例提供的一种话题内容的排序方法的整体框架图;
图6是本申请实施例提供的一种话题内容的排序方法的流程图;
图7是本申请实施例提供的一种话题内容的排序装置的框图;
图8是本申请实施例提供的一种服务器的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境中包括第一终端101、第二终端102和服务器103;第一终端101和服务器103之间通过无线或者有线网络连接。并且,第一终端101上可以安装有服务器103提供服务的客户端,第一终端101对应的用户可以通过客户端实现例如数据传输、消息交互等功能。第二终端102和服务器103之间通过无线或者有线网络连接。并且,第二终端102上可以安装有服务器103提供服务的客户端,第二终端102对应的用户可以通过客户端实现例如数据传输、消息交互等功能。
第一终端101可以为手机、平板电脑、电脑或者其他电子设备。客户端可以为第一终端101上安装的任一客户端;并且,客户端可以为第一终端101操作系统中的客户端,还可以为第三方提供的客户端。第一终端101对应的用户可以通过客户端编辑内容,并且,分享该内容。第一终端101对应的用户也可以通过客户端浏览其他用户分享的内容。例如,客户端可以为内容分享应用、点评应用、社交应用或者浏览器等。
第二终端102可以为手机、平板电脑、电脑或者其他电子设备。客户端可以为第二终端102上安装的任一客户端;并且,客户端可以为第二终端102操作系统中的客户端,还可以为第三方提供的客户端。第二终端102对应的用户可以通过客户端编辑内容,并且,分享该内容。第二终端102对应的用户也可以通过客户端浏览其他用户分享的内容。例如,客户端可以为内容分享应用、点评应用、社交应用或者浏览器等。
服务器103可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。服务器103可以为该客户端对应的后台服务器。相应的,服务器103可以为内容分享应用服务器、点评应用服务器、社交应用服务器或者浏览器服务器等。
第一终端101对应的用户可以通过客户端编辑与话题关联的话题内容。例如,第一终端101对应的用户可以在话题对应的话题界面中,编辑与话题关联的话题内容;第一终端101对应的用户也可以在编辑话题内容时,选择该话题内容所属的话题。
第二终端102对应的用户可以通过客户端在目标话题对应的话题界面中浏览与目标话题关联的话题内容。当第二终端102接收到显示目标话题对应的话题界面的指令时,可以向服务器103发送话题内容获取请求,该话题内容获取请求用于请求获取与目标话题关联的话题内容。
服务器103可以通过本申请提供的话题内容的排序方法,确定话题内容与目标话题的第一相关度,当服务器103接收到第二终端102发送的话题内容获取请求时,可以按照话题内容对应的第一相关度由大到小的顺序,向第二终端102返回话题内容。第二终端102接收服务器103返回的话题内容,在话题界面中显示服务器103返回的话题内容。
其中,第一终端101和第二终端102可以为同一个用户对应的终端,第一终端101和第二终端102也可以为不同用户对应的终端。
图2是本申请实施例提供的一种话题内容的排序方法的流程图。参见图2,该实施例包括:
201、获取待排序的与目标话题关联的第一话题内容,以及获取目标话题对应的话题画像,话题画像用于表征目标话题的主旨含义。
202、根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度。
203、根据第一话题内容与目标话题的第一相关度,对第一话题内容进行排序。
在本申请实施例中,服务器获取用于表征目标话题主旨含义的话题画像;根据话题画像,确定目标话题和待排序的第一话题内容的第一相关度;根据第一相关度对第一话题内容进行排序。将第一话题内容与目标话题的第一相关度作为排序依据,按照第一话题内容与目标话题的主旨含义的相关性进行排序,能够提高话题内容排序的准确率。
在一种可能的实现方式中,获取目标话题对应的话题画像,包括:
获取与目标话题关联的多个第二话题内容,以及,获取目标话题对应的话题描述,话题描述用于描述目标话题;
确定每个第二话题内容分别与话题描述的第二相关度;
根据每个第二话题内容与话题描述的第二相关度,将第二相关度最高的第一预设数量的第二话题内容组成话题画像。
在另一种可能的实现方式中,确定每个第二话题内容分别与话题描述的第二相关度,包括:
对于每个第二话题内容,将第二话题内容划分为至少一个预设长度的第三话题内容;
对于至少一个第三话题内容中的每个第三话题内容,提取第三话题内容对应的第一特征向量;
提取话题描述对应的第二特征向量;
根据第一特征向量和第二特征向量,确定第三话题内容与话题描述的第一距离;
从至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量;
根据第一数量和第二数量的比值,确定第二话题内容与话题描述的第二相关度,第二数量为至少一个第三话题内容的数量。
在另一种可能的实现方式中,从至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量之前,方法还包括:
根据多个第二话题内容对应的多个第一距离,确定多个第一距离的平均值;
将多个第一距离的平均值确定为距离阈值。
在另一种可能的实现方式中,确定每个第二话题内容分别与话题描述的第二相关度,包括:
对于每个第二话题内容,提取第二话题内容对应的第三特征向量,以及,提取话题描述对应的第二特征向量;
根据第三特征向量和第二特征向量,确定第二话题内容与话题描述的第二距离;
将第二距离作为第二话题内容与话题描述的第二相关度。
在另一种可能的实现方式中,根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度,包括:
将话题画像包括的至少一个第二话题内容拼接为第四话题内容;
根据第四话题内容和主题模型,确定话题画像对应的第一主题分布;
根据第一话题内容和主题模型,确定第一话题内容对应的第二主题分布;
根据第一主题分布和第二主题分布,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,根据第一主题分布和第二主题分布,确定第一话题内容与目标话题的第一相关度,包括:
根据第一主题分布和第二主题分布,确定第一主题分布和第二主题分布的海林格距离;
根据第一主题分布和第二主题分布,确定第一主题分布和第二主题分布的詹森香农散度;
根据海林格距离和詹森香农散度的平均值,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度,包括:
根据第一话题内容和主题模型,确定第一话题内容的第二主题分布;
根据话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定话题画像对应的至少一个第三主题分布;
根据第二主题分布和至少一个第三主题分布,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,根据第二主题分布和至少一个第三主题分布,确定第一话题内容与目标话题的第一相关度,包括:
对于至少一个第三主题分布中的每个第三主题分布,确定第二主题分布和第三主题分布的海林格距离,以及,确定第二主题分布和第三主题分布的詹森香农散度;
根据海林格距离和詹森香农散度的平均值,确定第三主题分布对应的第三相关度;
将至少一个第三主题分布对应的至少一个第三相关度的平均值,确定为第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度,包括:
将话题画像包括的至少一个第二话题内容拼接为第四话题内容;
根据第四话题内容和主题模型,确定话题画像对应的第一主题分布;
根据第一话题内容和主题模型,确定第一话题内容的第二主题分布;
根据话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定话题画像对应的至少一个第三主题分布;
根据第一主题分布、第二主题分布、至少一个第三主题分布、第一主题分布对应的第一权重和至少一个第三主题分布对应的第二权重,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,方法还包括:
接收终端发送的话题内容获取请求;
按照第一相关度由大到小的顺序,向终端返回第一相关度最高的第二预设数量的第一话题内容。
在另一种可能的实现方式中,获取待排序的与目标话题关联的第一话题内容,包括:
接收终端发送的分享请求,分享请求携带第一话题内容;
从分享请求中获取第一话题内容。
图3是本申请实施例提供的一种话题内容的排序方法的流程图。在本申请实施例中,以服务器接收到终端发送的分享请求时,根据分享请求携带的第一话题内容与目标话题的第一相关度,对第一话题内容进行排序为例说明,参见图3,该实施例包括:
301、第一终端获取第一话题内容,关联第一话题内容和目标话题。
第一终端对应的用户可以通过第一终端上的客户端编辑第一话题内容,第一终端对应的用户还可以选择或添加与第一话题内容关联的目标话题。第一终端可以获取用户编辑的第一话题内容,关联第一话题内容和目标话题。
目标话题可以为第一终端上的客户端提供的话题中的任一话题,目标话题也可以为用户自定义的话题。
第一话题内容至少包括文本内容。第一话题内容还可以包括图像、视频或者音频等多媒体信息。
在一种可能的实现方式中,第一终端对应的用户可以在编辑第一话题内容时,选择目标话题。相应的,第一终端获取第一话题内容,关联第一话题内容和目标话题的步骤可以为:第一终端显示第一话题内容的编辑界面,获取用户编辑的第一话题内容;当第一终端接收到添加话题的指令时,显示话题列表;当第一终端接收到对话题列表中的目标话题的选择指令时,在第一话题内容的编辑界面中光标所在的位置插入目标话题;关联目标话题和第一话题内容。
在另一种可能的实现方式中,第一终端对应的用户可以在编辑第一话题内容时,添加目标话题,相应的,第一终端获取第一话题内容,关联第一话题内容和目标话题的步骤可以为:第一终端显示第一话题内容的编辑界面,获取用户编辑的第一话题内容;当第一终端接收到添加话题的指令时,获取被输入的目标话题;关联目标话题和第一话题内容。
在另一种可能的实现方式中,第一终端对应的用户可以在目标话题对应的话题界面中编辑第一话题内容。相应的,第一终端获取第一话题内容,关联第一话题内容和目标话题的步骤可以为:第一终端显示目标话题对应的话题界面;当第一终端接收到编辑第一话题内容的指令时,显示第一话题内容的编辑界面中,在该编辑界面中写入目标话题,获取用户编辑的第一话题内容;关联目标话题和第一话题内容。
302、当第一终端接收到对第一话题内容的分享指令时,向服务器发送分享请求,该分享请求携带与目标话题关联的第一话题内容。
第一终端和服务器可以通过http协议(一种简单的请求-响应协议)进行通信。例如,分享请求可以为http请求,该分享请求携带与目标话题关联的第一话题内容。第一终端可以将与目标话题关联的第一话题内容通过http请求的方式发送给服务器。
303、服务器接收第一终端发送的分享请求,获取待排序的与目标话题关联的第一话题内容。
在一种可能的实现方式中,服务器可以在接收到第一终端发送的分享请求时,就从分享请求中获取与目标话题关联的第一话题内容,根据第一话题内容与目标话题的第一相关度,对第一话题内容进行排序。相应的,服务器获取待排序的与目标话题关联的第一话题内容的步骤可以为:服务器接收第一终端发送的分享请求,该分享请求携带第一话题内容;从该分享请求中获取第一话题内容。
在另一种可能的实现方式中,服务器可以在接收到第一终端发送的分享请求时,从分享请求中获取与目标话题关联的第一话题内容,将该第一话题内容存储在目标话题对应的数据库中。当服务器需要对待排序的第一话题内容进行排序时,再从目标话题对应的数据库中,获取待排序的与目标话题关联的第一话题内容。
服务器可以从目标话题对应的数据库中获取该数据库中存在的全部的话题内容,将该数据库中存在的每个话题内容作为待排序的第一话题内容。
服务器也可以从目标话题对应的数据库中获取该数据库中存在的部分话题内容,将该部分话题内容中的每个话题内容作为待排序的第一话题内容。该部分话题内容可以为分享时间在第一指定时间段内的话题内容。第一指定时间段可以为与当前时间最接近的指定时间段,例如,当前时间为2019年12月11日0时,第一指定时间段可以为2019年11月11日0时至2019年12月11日0时。
服务器可以周期性的从目标话题对应的数据库中,获取待排序的与目标话题关联的第一话题内容,即服务器还可以每隔一个第二指定时间段,从目标话题对应的数据库中,获取分享时间在第二指定时间段内的话题内容,将分享时间在第二指定时间段内的话题内容作为待排序的第一话题内容。该第二指定时间段可以根据与目标话题关联的第一话题内容的更新速度确定,例如,该第一指定时间段可以为1小时、1天或者3天等。
304、服务器获取目标话题对应的话题画像,该话题画像用于表征目标话题的主旨含义。
在一种可能的实现方式中,话题画像可以由第一预设数量的第二相关度最高的第二话题内容组成。服务器可以在接收到第一终端发送的分享请求之前,就确定目标话题对应的话题画像,以及,存储该目标话题对应的话题画像。当服务器接收到第一终端的分享请求时,可以从已存储的话题画像中,获取目标话题对应的话题画像。
在本申请实施例中,服务器可以从已存储的话题画像中,获取目标话题对应的话题画像,获取话题画像的效率较高。
在另一种可能的实现方式中,话题画像可以由第一预设数量的第二相关度最高的第二话题内容组成。服务器可以在接收到第一终端发送的分享请求时,才确定目标话题对应的话题画像。
在本申请实施例中,服务器可以在接收到第一终端发送的分享请求时,才确定目标话题对应的话题画像,从而基于该话题画像对话题内容进行排序的准确率更高。
其中,服务器可以确定与目标话题关联的多个第二话题内容中每个第二话题内容分别与话题描述的第二相关度,将第一预设数量的第二相关度最高的第二话题内容组成话题画像。相应的,服务器获取目标话题对应的话题画像可以通过以下步骤(1)至(4)实现:
(1)服务器获取目标话题对应的话题描述,话题描述用于描述目标话题。
话题描述为对目标话题的主旨含义的简单性描述,话题描述通常在100个字符以内。话题描述为对目标话题的话题标题的补充说明。例如,当目标话题为“承包你的冬至食谱”时,该目标话题对应的话题标题为“承包你的冬至食谱”,该目标话题对应的话题描述可以为:俗话说“冬至大如年”,各地域的冬至饮食都十分讲究。北方饺子南方汤圆,还有羊肉汤和糯米饭,你家冬至吃什么呢?快来承包大家的冬至食谱吧。
在本申请实施例中,服务器获取目标话题的话题描述,根据话题内容与话题描述的相似度,确定目标话题对应的话题画像。由于话题描述包含的信息量较大,能够更准确的描述目标话题,从而根据话题描述得到的话题画像准确率更高。并且,话题描述为长文本,根据话题描述得到的话题画像也是长文本组成的,由长文本组成的话题画像能够更好的应用在主题模型中,进而能够提高话题内容排序的准确率。
(2)获取与目标话题关联的多个第二话题内容。
在一种可能的实现方式中,多个第二话题内容可以为与目标话题关联的所有的第二话题内容。图4是本申请实施例提供的一种确定目标话题对应的话题画像的流程图。参见图4,服务器获取与目标话题关联的所有的第二话题内容,也即获取每个目标话题下的全量内容。
在另一种可能的实现方式中,多个第二话题内容也可以为与目标话题关联的部分话题内容。例如,该部分话题内容可以为分享时间在第三指定时间段内的话题内容。第三指定时间段可以为与当前时间最接近的指定时间段,例如,当前时间为2019年12月11日0时,第三指定时间段可以为2019年1月11日0时至2019年12月11日0时。
需要说明的一点是,步骤(1)和步骤(2)没有严格的时间先后顺序;可以先执行步骤(1),再执行步骤(2);也可以先执行步骤(2),再执行步骤(1);还可以同时执行步骤(1)和步骤(2);在本申请实施例中,对步骤(1)和步骤(2)的执行顺序不做限定。
(3)服务器确定每个第二话题内容分别与话题描述的第二相关度。
在第一种可能的实现方式中,服务器可以将每个第二话题内容对应的第三特征向量和话题描述对应的第二特征向量之间的第二距离作为第二话题内容与话题描述的第二相关度。相应的,服务器确定每个第二话题内容分别与话题描述的第二相关度的步骤可以为:对于每个第二话题内容,服务器提取第二话题内容对应的第三特征向量,以及,服务器提取话题描述对应的第二特征向量;服务器根据第三特征向量和第二特征向量,确定第二话题内容与话题描述的第二距离;服务器将第二距离作为第二话题内容与话题描述的第二相关度。
第二距离可以为通过余弦距离的计算方式得到的第二特征向量和第三特征向量的余弦距离。第二距离也可以为通过欧式距离的计算方式得到的第二特征向量和第三特征向量的欧氏距离。在本申请实施例中,对第二距离的计算方式不做限定。
在第二种可能的实现方式中,服务器可以将第二话题内容划分为预设长度的第三话题内容,根据第三话题内容对应的第一特征向量和话题描述对应的第二特征向量,确定第一特征向量和第二特征向量的第一距离,将第一距离大于距离阈值的第三话题内容作为正例,确定正例在第二话题内容对应的全部第三话题内容中比例,根据正例的比例,确定第二话题内容对应的第二相关度。相应的,服务器确定每个第二话题内容分别与话题描述的第二相关度可以通过以下步骤实现:
第一步:对于每个第二话题内容,服务器将第二话题内容划分为至少一个预设长度的第三话题内容。
第二话题内容为文本内容,服务器将第二话题内容划分为长度相同或相似的至少一个第三话题内容。继续参见图4,服务器将第二话题内容划分为至少一个预设长度的第三话题内容,也即对每条内容进行分段。
在一种可能的实现方式中,预设长度可以为一个固定的长度。服务器可以依次将第二话题内容划分为预设长度的第三话题内容,服务器根据划分的最后一个第三话题内容的长度,确定第二话题内容对应的第三话题内容的数量和每一个第三话题内容包括的字符。相应的,服务器将第二话题内容划分为至少一个预设长度的第三话题内容的步骤可以为:服务器从第二话题内容的起始位置开始,依次获取预设长度的第三话题内容;当服务器获取到的第三话题内容的长度小于预设长度,且第三话题内容的长度小于长度阈值时,将该第三话题内容与服务器获取的上一个第三话题内容合并,不再执行获取第三话题内容的步骤;当服务器获取到的第三话题内容的长度小于预设长度,且第三话题内容的长度大于长度阈值时,不再执行获取第三话题内容的步骤。
例如,预设长度为100字符,第二话题内容的长度为571字符,长度阈值为50字符,服务器可以依次获取5个100字符的第三话题内容和1个71字符的第三话题内容。
再如,预设长度为100字符,第二话题内容的长度为501字符,长度阈值为50字符,服务器可以依次获取5个100字符的第三话题内容和一个1字符的第三话题内容,服务器可以将1字符的第三话题内容与第5个100字符的第三话题内容合并,将合并后的第三话题内容作为第5个第三话题内容。
在本申请实施例中,服务器可以根据划分得到的最后一个第三话题内容的长度和长度阈值,确定将第三话题内容合并到上一个第三话题内容中或者将该第三话题内容作为最后一个第三话题内容,使划分得到的第三话题内容的长度更加均匀,从而根据长度均匀的第三话题内容得到的话题画像准确率更高。
在另一种可能的实现方式中,预设长度可以为长度范围中的任一长度,服务器可以根据第二话题内容的长度灵活确定预设长度。相应的,服务器将第二话题内容划分为至少一个预设长度的第三话题内容的步骤可以为:服务器获取第二话题内容的长度;根据第二话题内容的长度,从长度范围中的每个长度中确定目标预设长度,该目标预设长度除第二话题内容的长度所得的余数最小;将第二话题内容划分为至少一个目标预设长度的第三话题内容。
其中,服务器将第二话题内容划分为至少一个目标预设长度的第三话题内容与第一种可能的实现方式中服务器将第二话题内容划分为至少一个预设长度的第三话题内容的步骤相似,在此不再赘述。
例如,长度范围为125字符至128字符,第二话题内容的长度为500字符,目标预设长度为125字符,该目标预设长度除第二话题内容的长度所得的余数最小。服务器可以将第二话题内容划分为4个125字符的第三话题内容。
在本申请实施例中,服务器可以根据第二话题内容的长度,确定目标预设长度,将第二话题内容划分为至少一个目标预设长度的第三话题内容,得到的至少一个第三话题内容的长度更加均匀,从而根据长度均匀的第三话题内容得到的话题画像准确率更高。
第二步:对于至少一个第三话题内容中的每个第三话题内容,服务器提取第三话题内容对应的第一特征向量。
服务器可以通过深度迁移学习的方法提取第三话题内容对应的第一特征向量。继续参见图4,服务器可以通过深度预训练语言模型,对每个第三话题内容进行特征抽取,得到每个第三话题内容对应的第一特征向量,也即服务器对每条内容进行分段后,通过深度预训练语言模型,进行特征抽取,得到每段内容的特征向量。
其中,深度预训练语言模型可以为BERT(Bidirectional EncoderRepresentation from Transformers,一种以Transformers(一种将一组序列转换成另一组序列的黑盒子)为主要框架的双向编码表征模型)模型。第一特征向量可以为embedding(嵌入)向量。
图5是本申请实施例提供的一种话题内容的排序方法的整体框架图,参见图5,服务根据与目标话题关联的全部话题内容,通过深度迁移学习的方法,得到目标话题对应的话题画像,也即将话题关联的全量内容,通过深度迁移学习,得到话题画像。
第三步:服务器提取话题描述对应的第二特征向量;
服务器可以通过深度迁移学习的方法提取话题描述对应的第二特征向量。继续参见图4,服务器可以通过深度预训练语言模型,对话题描述进行特征抽取,得到话题描述对应的第二特征向量。
其中,深度预训练语言模型可以为BERT(Bidirectional EncoderRepresentation from Transformers,一种以Transformers(一种将一组序列转换成另一组序列的黑盒子)为主要框架的双向编码表征模型)模型。第二特征向量可以为embedding(嵌入)向量。
需要说明的一点是,第一步和第三步没有严格的时间先后顺序;可以先执行第一步,再执行第三步;也可以先执行第三步,再执行第一步;还可以同时执行第一步和第三步;在本申请实施例中,对第一步和第三步的执行顺序不做限定。
第四步:服务器根据第一特征向量和第二特征向量,确定第三话题内容与话题描述的第一距离。
第一距离用于表示第三话题内容与话题描述的相似度,第一距离可以为通过余弦距离的计算方式得到的第一特征向量和第二特征向量的余弦距离。第一距离也可以为通过欧式距离的计算方式得到的第一特征向量和第二特征向量的欧氏距离。在本申请实施例中,对第一距离的计算方式不做限定。
在本申请实施例中,将第三话题内容与话题描述的第一距离作为衡量相关性的指标中的一个,能够弥补仅将第一距离作为衡量相关性的指标,较为单一的缺点,使得后续得到的第一相关度更加准确,也能够使模型具有更强的解释性。
第五步:服务器从至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量。
至少一个第三话题内容中的每个第三话题内容都对应一个第一距离,当第一距离大于距离阈值时,则认为第一距离对应的第三话题内容与话题描述相关;当第一距离小于距离阈值时,则认为第一距离对应的第三话题内容与话题描述不相关。可以将第三话题内容与话题描述的相关情况看成是一个二项分布。将与话题描述相关的第三话题内容作为正例,将与话题描述不相关的第三话题内容作为负例。
需要说明的一点是,服务器从至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量之前,还根据目标话题对应的多个第一距离,确定目标话题对应的距离阈值。相应的,服务器根据目标话题对应的多个第一距离,确定目标话题对应的距离阈值的步骤可以为:服务器根据多个第二话题内容对应的多个第一距离,确定多个第一距离的平均值;服务器将多个第一距离的平均值确定为目标话题对应的距离阈值。
例如,与目标话题关联的多个第二话题内容的数量为3,每个第二话题内容划分的第三话题内容的数量为2,则多个第二话题内容对应的多个第一距离的数量为6,服务器需要确定上述6个第一距离的平均值,将该平均值作为目标话题对应的距离阈值。继续参见图4,服务器将多个第一距离的平均值确定为目标话题对应的距离阈值,也即每个目标话题的第一距离平均值作为距离阈值。
第六步:服务器根据第一数量和第二数量的比值,确定第二话题内容与话题描述的第二相关度。
第二数量为至少一个第三话题内容的数量,也即第二话题内容划分为的第三话题内容的总数量。
在一种可能的实现方式中,本步骤可以为:服务器将第一数量和第二数量的比值作为第二话题内容与话题描述的第二相关度。继续参见图4,服务器根据第三话题内容与话题描述的第一距离,确定大于距离阈值的第三话题内容的第一数量和第二话题内容对应的第三话题内容的第二数量的比值,也即确定每个第二话题内容中大于距离阈值的第三话题内容所占的比例。
例如,第二话题内容对应的第三话题内容有4个,也即第二话题内容划分为了4个第三话题内容,则第二数量为4,第一距离大于距离阈值的第三话题内容的第一数量为3,第一数量和第二数量的比值为0.75,0.75可以作为第二话题内容与话题描述的第二相关度。
在另一种可能的实现方式中,服务器还对第一数量和第二数量的比值进行平滑处理,将平滑后的比值确定为第二相关度,相应的,服务器根据第一数量和第二数量的比值,确定第二话题内容与话题描述的第二相关度的步骤可以为:服务器根据第一数量和第二数量的比值,对比值进行平滑处理,得到平滑后的比值;将平滑后的比值确定为第二话题内容与话题描述的第二相关度。
继续参见图4,对比值进行平滑处理可以通过Wilson(威尔逊)区间实现,也即通过Wilson平滑,得到最终的第二相关度。
在本申请实施例中,不同的第二话题内容划分成的第三话题内容的第二数量不同,对比值进行平滑处理能够缩小第二数量不同的第二话题内容之间的差异,从而将平滑后的比值作为第二相关度,根据第二相关度得到的话题画像的准确率更高。
(4)服务器根据每个第二话题内容与话题描述的第二相关度,将第二相关度最高的第一预设数量的第二话题内容组成话题画像。
服务器可以对每个第二话题内容与话题描述的第二相关度进行排序,第二相关度最高的第一预设数量的第二话题内容组成话题画像,相应的,本步骤可以为:服务器根据每个第二话题内容与话题描述的第二相关度,将每个第二相关度按照从大到小的顺序进行排序,得到排序结果;将在排序结果最前边的第一预设数量的第二话题内容组成话题画像。
继续参见图4,服务器根据每个第二话题内容与话题描述的第二相关度,将第二相关度最高的第一预设数量的第二话题内容组成话题画像,也即对最终的第二相关度进行排序,得到话题最相关内容。
第一预设数量可以根据实验结论得出,例如,实验结论用于指示在排序结果前10%的第二话题内容表征目标话题的准确率较高,则第一预设数量可以为多个第二话题内容的总数量的10%。如果多个第二话题内容的总数量为100,则第一预设数量可以为10。
在本申请实施例中,服务器利用深度预训练语言模型,将第二相关度最高的第一预设数量的第二话题内容组成话题画像,将话题画像作为正例样本,解决缺少标注数据的问题,不需要人工标注大量正例样本,能够节省人力物力,并且,能够提高得到正例样本的效率。
需要说明的一点是,步骤303和步骤304没有严格的时间先后顺序;可以先执行步骤303,再执行步骤304;也可以先执行步骤304,再执行步骤303;还可以同时执行步骤303和步骤304;在本申请实施例中,对步骤303和步骤304的执行顺序不做限定。
305、服务器根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度。
在第一种可能的实现方式中,对于主旨含义的泛化性较低的目标话题,也即低泛化性话题,该目标话题对应的话题画像主题分布比较集中,服务器可以将话题画像包括的至少一个第二话题内容拼接为一个整体来表征目标话题的主旨含义。例如,主旨含义的泛化性较低的目标话题可以为“520浪漫约会餐厅”,该目标话题对应的话题画像中多是与餐厅相关的描述,如餐厅的环境、味道、服务等,话题画像包括的每个第二话题内容对应的主题分布比较相似,因此,将话题画像包括的至少一个第二话题内容拼接起来,得到的主题分布能够表征目标话题的主旨含义。
服务器可以将话题画像包括的至少一个第二话题内容拼接为第四话题内容,通过主题模型,预测第一话题内容和第四话题内容的主题分布,通过主题分布,确定第一话题内容与目标话题的第一相关度。相应的,服务器根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度可以通过以下步骤(一)至(四)实现:
(一)服务器将话题画像包括的至少一个第二话题内容拼接为第四话题内容。
话题画像包括至少一个第二话题内容,服务器可以将该至少一个第二话题内容依次拼接起来,形成第四话题内容。
(二)服务器根据第四话题内容和主题模型,确定话题画像对应的第一主题分布。
主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。主题模型主要被用于自然语言处理中的语义分析和文本挖掘。主题模型可以为LDA(LatentDirichlet Allocation,一种文档主题生成模型)主题模型、LSA(Latent SemanticAnalysis,浅层语义分析)主题模型、NMF(Non-negative Matrix Factorization,非负矩阵分解)主题模型等主题模型。
LDA主题模型可以用于识别大规模文档集或语料库中潜藏的主题信息,在本申请实施例中,以主题模型为LDA主题模型为例进行说明。
服务器将第四话题内容输入到主题模型中,就能得到第四话题内容的第一主题分布。主题模型对应有至少一个主题,第一主题分布用于表示第四话题内容属于至少一个主题中每个主题的概率。第一主题分布为加权和为1的一种向量。例如,主题模型对应有第一主题、第二主题和第三主题。第四话题内容属于第一主题的概率为0.1,第四话题内容属于第二主题的概率为0.5,第四话题内容属于第三主题的概率为0.4。第一主题分布包括第一主题对应维度上的0.1,第二主题对应维度上的0.5和第三主题对应维度上的0.4,第一主题分布在上述三个维度上的概率值加权和为1。其中,最能突出第四话题内容的主旨含义的主题为第二主题。
继续参见图5,服务器根据第四话题内容和主题模型,确定话题画像对应的第一主题分布,也即,通过LDA主题模型,对话题画像进行预测,得到话题画像的主题分布。
需要说明的一点是,服务器根据第四话题内容和主题模型,确定话题画像对应的第一主题分布之前,还训练主题模型。服务器可以获取所有话题对应的与话题关联的全部的话题内容,将该全部的话题内容作为语料,训练得到主题模型。继续参见图5,服务器也可以仅获取与目标话题关联的话题内容,将与目标话题关联的话题内容作为语料,训练得到主题模型,也即将话题关联的全量内容作为语料,训练得到主题模型。
(三)服务器根据第一话题内容和主题模型,确定第一话题内容的第二主题分布。
本步骤与步骤(二)相似,在此不再赘述。继续参见图5,服务器根据第一话题内容和主题模型,确定第一话题内容的第二主题分布,也即通过LDA主题模型,对待排序内容进行预测,得到待排序内容的主题分布。
需要说明的一点是,步骤(二)和步骤(三)没有严格的时间先后顺序;可以先执行步骤(二),再执行步骤(三);也可以先执行步骤(三),再执行步骤(二);还可以同时执行步骤(二)和步骤(三);在本申请实施例中,对步骤(二)和步骤(三)的执行顺序不做限定。
(四)服务器根据第一主题分布和第二主题分布,确定第一话题内容与目标话题的第一相关度。
相应的,服务器根据第一主题分布和第二主题分布,确定第一话题内容与目标话题的第一相关度的步骤可以为:服务器根据第一主题分布和第二主题分布,确定第一主题分布和第二主题分布的海林格距离;服务器根据第一主题分布和第二主题分布,确定第一主题分布和第二主题分布的詹森香农散度;服务器根据海林格距离和詹森香农散度的平均值,确定第一话题内容与目标话题的第一相关度。服务器根据第一主题分布和第二主题分布,确定第一话题内容与目标话题的第一相关度可以通过以下公式一实现:
公式一:
其中,simscoremacro表示第一话题内容与目标话题的第一相关度;c表示第一话题内容的第二主题分布;proftotal表示第四话题内容的第一主题分布;JSD表示第一主题分布和第二主题分布的詹森香农散度(Jensen-Shannon Divergence);HD表示第一主题分布和第二主题分布的海林格距离(Hellinger Distance)。
海林格距离和詹森香农散度用于衡量两个分布的相似性。詹森香农散度也可以称为JS(Jensen-Shannon,詹森香农)分歧。
在第二种可能的实现方式中,对于主旨含义的泛化性较高的目标话题,也即高泛化性话题,该目标话题对应的话题画像主题分布比较均匀。例如,主旨含义的泛化性较高的目标话题可以为“我的女神节礼物”,“鲜花”、“珠宝”和“化妆品”等都可以是第一话题内容所描述的主体,对于该目标话题,将话题画像作为一个整体不能准确的表征目标话题的主旨含义。
因此,服务器也可以不将话题画像作为一个整体,而是根据话题画像包括每个第二话题内容的主题分布和第一话题内容的主题分布,确定第一话题内容与目标话题的第一相关度。相应的,服务器根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度可以通过以下步骤(a)至(c)实现:
(a)服务器根据第一话题内容和主题模型,确定第一话题内容的第二主题分布。
本步骤与步骤(二)相似,在此不再赘述。
(b)服务器根据话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定话题画像对应的至少一个第三主题分布。
服务器将每个第二话题内容输入主题模型,得到每个第二话题内容的第三主题分布。话题画像包括至少一个第二话题内容,相应的,话题画像对应至少一个第三主题分布。
继续参见图5,服务器根据每个第二话题内容和主题模型,确定话题画像对应的至少一个第三主题分布,也即,通过LDA主题模型,对话题画像进行预测,得到话题画像的主题分布。
需要说明的一点是,步骤(a)和步骤(b)没有严格的时间先后顺序;可以先执行步骤(a),再执行步骤(b);也可以先执行步骤(b),再执行步骤(a);还可以同时执行步骤(a)和步骤(b);在本申请实施例中,对步骤(a)和步骤(b)的执行顺序不做限定。
(c)服务器根据第二主题分布和至少一个第三主题分布,确定第一话题内容与目标话题的第一相关度。
服务器计算每个第三主题分布和第二主题分布的第三相关度,将每个第三相关度的平均值作为第一相关度。相应的,服务器根据第二主题分布和至少一个第三主题分布,确定第一话题内容与目标话题的第一相关度的步骤可以为:对于至少一个第三主题分布中的每个第三主题分布,服务器确定第二主题分布和第三主题分布的海林格距离,以及,确定第二主题分布和第三主题分布的詹森香农散度;服务器根据海林格距离和詹森香农散度的平均值,确定第三主题分布对应的第三相关度;服务器将至少一个第三主题分布对应的至少一个第三相关度的平均值,确定为第一话题内容与目标话题的第一相关度。服务器根据第二主题分布和至少一个第三主题分布,确定第一话题内容与目标话题的第一相关度可以通过以下公式二实现:
公式二:
其中,simscoremicro表示第一话题内容与目标话题的第一相关度;c表示第一话题内容的第二主题分布;N表示话题画像包括的至少一个第二话题内容的数量;i表示话题画像包括的第i个第二话题内容;profi表示第i个第二话题内容的第三主题分布;JSD表示第二主题分布和第三主题分布的詹森香农散度;HD表示第二主题分布和第三主题分布的海林格距离;表示从i为1至i为N进行累加求和。
在第三种可能的实现方式中,服务器可以分别确定第四话题内容的第一主题分布和话题画像对应的至少一个第三主题分布与第一话题内容的第二主题分布的相关度,再根据第一主题分布对应的第一权重和至少一个第三主题分布对应的第二权重,得到最终的第一相关度。相应的,服务器根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度的可以通过以下步骤(A)至(E)实现:
(A)服务器将话题画像对应的至少一个第二话题内容拼接为第四话题内容。
本步骤与步骤(一)相同,在此不再赘述。
(B)服务器根据第四话题内容和主题模型,确定话题画像对应的第一主题分布。
本步骤与步骤(二)相同,在此不再赘述。
(C)服务器根据第一话题内容和主题模型,确定第一话题内容的第二主题分布。
本步骤与步骤(二)相似,在此不再赘述。
(D)服务器根据话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定至少一个第三主题分布。
本步骤与步骤(b)相同,在此不再赘述。
(E)服务器根据第一主题分布、第二主题分布、至少一个第三主题分布、第一主题分布对应的第一权重和至少一个第三主题分布对应的第二权重,确定第一话题内容与目标话题的第一相关度。
服务器可以根据第一主题分布和第二主题分布,确定第一话题内容与目标话题的第四相关度,也即确定宏观的相关性分值。服务器确定第四相关度可以通过以下公式三实现:
公式三:
其中,simscoremacro表示第一话题内容与目标话题的第四相关度;c表示第一话题内容的第二主题分布;proftotal表示第四话题内容的第一主题分布;JSD表示第一主题分布和第二主题分布的詹森香农散度;HD表示第一主题分布和第二主题分布的海林格距离。
服务器再根据第二主题分布和至少一个第三主题分布,确定第一话题内容与目标话题的第五相关度,也即确定微观的相关性分值。服务器确定第五相关度可以通过以下公式四实现:
公式四:
其中,simscoremicro表示第一话题内容与目标话题的第五相关度;c表示第一话题内容的第二主题分布;N表示话题画像包括的至少一个第二话题内容的数量;i表示话题画像包括的第i个第二话题内容;profi表示第i个第二话题内容的第三主题分布;JSD表示第二主题分布和第三主题分布的詹森香农散度;HD表示第二主题分布和第三主题分布的海林格距离,表示从i为1至i为N进行累加求和。
服务器再根据第一主题分布对应的第四相关度、第一主题分布对应的第一权重、至少一个第三主题对应的第五相关度和至少一个第三主题分布对应的第二权重,确定第一话题内容与目标话题的第一相关度。服务器确定第一相关度可以通过以下公式五实现:
公式五:simscore=a×simscoremacro+b×simscoremicro
其中,simscore表示第一话题内容与目标话题的第一相关度;simscoremacro表示第四相关度;simscoremicro表示第五相关度;a表示第一权重;b表示第二权重。
其中,第一权重与第二权重的和为1。服务器可以根据当前存在的所有话题中高泛化性话题和低泛化性话题的内容量的比例和实验的抽检结果确定第一权重和第二权重。例如,服务器当前存在的所有话题中低泛化性话题的数量比高泛化性话题的数量多,并且,低泛化性话题对应的话题内容的内容量比高泛化性话题对应的话题内容的内容量多,可以将第一权重设置为大于第二权重的数值;应用设置的第一权重和第二权重进行第一相关度的计算;根据第一相关度进行排序;从进行排序的所有话题中抽取指定数量的话题;从指定数量的话题中的每个话题对应的排序结果中抽取前50%的话题内容,确定排序结果的准确率,该准确率用于表示前50%的话题内容中与话题相关的话题内容所占的比例。在一次实验的抽检结果中确定的准确率为90%,该实验对应的第一权重为0.65,第二权重为0.35,可以将该第一权重和第二权重用于后续的第一相关度的计算。相应的,第一相关度可以通过以下公式六实现:
公式六:simscore=0.65×simscoremacro+0.35×simscoremicro
其中,simscore表示第一话题内容与目标话题的第一相关度;simscoremacro表示第四相关度;simscoremicro表示第五相关度。
继续参见图5,服务器根据第一主题分布、第二主题分布、至少一个第三主题分布、第一主题分布对应的第一权重和至少一个第三主题分布对应的第二权重,确定第一话题内容与目标话题的第一相关度,也即根据话题画像的主题分布和待排序内容的主题分布,计算相关性分值。
在本申请实施例中,服务器通过深度预训练语言模型和主题模型的组合应用,以无监督的方式得到待排序的第一话题内容和目标话题的第一相关度,为话题内容的排序与展示提供了重要依据,并且,能够解决深度预训练语言模型受文本长度影响较大的缺点,并且,能够补足主题模型在短文本上的缺陷,使第一相关度的计算更加准确,使模型具有更强的解释性。
需要说明的一点是,上述公式仅仅是一个例子,在本申请实施例中,对此不作具体限定;服务器还可以对上述公式进行变形,通过变形后的公式进行后续的运算。
306、服务器根据第一话题内容与目标话题的第一相关度,对第一话题内容进行排序。
在一种可能的实现方式中,服务器可以在接收到第一终端发送的分享请求时,就从分享请求中获取第一话题内容,确定第一话题内容与目标话题的第一相关度,根据第一相关度,对第一话题内容进行排序。相应的,服务器根据第一话题内容与目标话题的第一相关度,对第一话题内容进行排序的步骤可以为:服务器从相关度数据库中获取目标话题对应的相关度序列,该相关度序列中存储有按照从大到小的顺序排列的与目标话题关联的其他话题内容对应的相关度;根据第一相关度和相关度序列,确定第一相关度在相关度序列中的位置;在该位置将第一相关度插入到相关度序列中,更新相关度序列。
在本申请实施例中,服务器可以在接收到第一终端发送的分享请求时,就从分享请求中获取第一话题内容,对第一话题内容进行排序,能够及时更新相关度序列,提高话题内容排序的准确性。
在另一种可能的实现方式中,服务器也可以在接收到第一终端发送的分享请求时,从分享请求中获取第一话题内容,确定第一话题内容与目标话题的第一相关度,存储该第一相关度。当需要对待排序的第一话题内容进行排序时,获取已存储的第一相关度,根据第一相关度,对第一话题内容进行排序。
服务器可以周期性的根据已存储的第一相关度,对第一话题内容进行排序,即服务器可以每隔一个第四指定时间段,获取存储时间在第四指定时间段内的第一相关度。该第四指定时间段可以根据第一相关度的更新速度确定,例如,该第四指定时间段可以为1小时、1天或者3天等。
在另一种可能的实现方式中,服务器也可以在接收到第二终端发送的话题内容获取请求时,获取已存储的第一相关度,对第一话题内容进行排序。
服务器在根据第一相关度,对第一话题内容进行排序之后,可以删除该已存储的第一相关度。
在本申请实施例中,第一终端可以在需要对待排序的第一话题内容进行排序时,才对第一话题内容进行排序,不会在排序的过程中与服务器向第一终端返回第一话题内容产生冲突,从而能够提高服务器向第一终端返回第一话题内容的效率。
307、服务器向第一终端返回分享成功的信息。
需要说明的一点是,第一终端也可以在服务器接收到第一终端发送的分享请求时,就向第一终端返回分享成功的信息。
308、第一终端接收服务器返回的分享成功的信息,显示分享成功的界面。
第一终端接收到服务器返回的分享成功的信息时,通过第一终端上的客户端显示分享成功的界面,该分享成功的界面用于表示用户编辑的第一话题内容分享成功。
在本申请实施例中,服务器获取用于表征目标话题主旨含义的话题画像;根据话题画像,确定目标话题和待排序的第一话题内容的第一相关度;根据第一相关度对第一话题内容进行排序。将第一话题内容与目标话题的第一相关度作为排序依据,按照第一话题内容与目标话题的主旨含义的相关性进行排序,能够提高话题内容排序的准确率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图6是本申请实施例提供的一种话题内容的排序方法的流程图。在本申请实施例中,以服务器接收到终端发送的话题内容获取请求时,根据话题内容获取请求携带的目标话题,对与目标话题关联的第一话题内容进行排序为例说明,参见图6,该实施例包括:
601、第二终端向服务器发送话题获取请求,该话题获取请求携带目标话题。
话题获取请求用于请求获取目标话题的话题内容。第二终端对应的用户可以通过客户端进入目标话题对应的话题界面,当第二终端接收到打开目标话题对应的话题界面的指令时,向服务器发送话题获取请求。
602、服务器接收第二终端发送的话题内容获取请求,根据话题内容获取请求携带的目标话题,获取目标话题对应的话题画像,该话题画像用于表征目标话题的主旨含义。
本步骤与步骤304相似,在此不再赘述。
603、服务器获取待排序的与目标话题关联的第一话题内容。
本步骤与步骤303相似,在此不再赘述。
604、服务器根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度。
本步骤与步骤305相似,在此不再赘述。
605、服务器根据第一话题内容与目标话题的第一相关度,对第一话题内容进行排序。
本步骤与步骤306相似,在此不再赘述。
606、服务器按照第一相关度由大到小的顺序,向第二终端返回第一相关度最高的第二预设数量的第一话题内容。
服务器可以接收第二终端发送的话题内容获取请求;根据话题内容获取请求携带的目标话题,确定目标话题对应的相关度序列;从相关度序列中确定第二预设数量的最高的第一相关度;根据第一相关度和第一话题内容的对应关系,确定第一相关度最高的第二预设数量的第一话题内容;向第二终端返回第一相关度最高的第二预设数量的第一话题内容。
第二预设数量可以为客户端的话题界面中最多能够显示的话题内容的数量。例如,第二预设数量可以为3、5或者其他数值。
服务器也可以标记已向该第二终端返回的第一话题内容,当服务器接收到第二终端发送的话题内容更新请求时,在忽略被标记的第一话题内容对应的第一相关度的基础上,从相关度序列中确定第二预设数量的最高的第一相关度。
服务器还可以在接收到第二终端发送的话题内容获取请求时开始计时,当在第五指定时间段内再次接收到该第二终端发送的话题内容获取请求时,在忽略被标记的第一话题内容对应的第一相关度的基础上,从相关度序列中确定第二预设数量的最高的第一相关度。第五指定时间段可以为30秒、1分钟或者5分钟。
在本申请实施例中,服务器能够向第二终端返回的第一话题内容能够及时更新,从而能够提升第二终端对应的用户在浏览话题内容时的体验度。
需要说明的一点是,服务器中可以存储有目标话题对应的相关度序列,当服务器接收到第二终端发送的话题内容获取请求时,可以直接根据话题内容获取该话题内容获取请求携带的目标话题,确定目标话题对应的相关度序列,不再执行根据话题内容获取请求携带的目标话题,获取目标话题对应的话题画像的步骤。
607、第二终端接收服务器返回的第一相关度最高的第二预设数量的第一话题内容,将第一话题内容显示在目标话题对应的话题界面中。
第二终端接收服务器返回的第一相关度最高的第二预设数量的第一话题内容,该第一话题内容对应有序号,该序号用于表示第一话题内容显示在话题界面中的顺序;第二终端根据第一话题内容对应的序号,将第一话题内容显示在话题界面中。
例如,第二终端接收到服务器返回的2个第一话题内容,一个第一话题内容对应序号1,另一个第一话题内容对应序号2;第二终端先将序号为1的第一话题内容显示在话题界面中用于显示话题内容的第一个位置;再将序号为2的第一话题内容显示在话题界面中用于显示话题内容的第二个位置。
在本申请实施例中,第二终端接收服务器返回的第一相关度最高的第二预设数量的第一话题内容,将第一话题内容显示在目标话题对应的话题界面中。话题界面中优先显示的话题内容均与目标话题相关,从而用户浏览到的话题内容均为与目标话题相关的话题内容,能够提升用户的体验度。
在本申请实施例中,服务器获取用于表征目标话题主旨含义的话题画像;根据话题画像,确定目标话题和待排序的第一话题内容的第一相关度;根据第一相关度对第一话题内容进行排序。将第一话题内容与目标话题的第一相关度作为排序依据,按照第一话题内容与目标话题的主旨含义的相关性进行排序,能够提高话题内容排序的准确率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图7是本申请实施例提供的一种话题内容的排序装置的框图。参见图7,该装置包括:
获取模块701,被配置为获取待排序的与目标话题关联的第一话题内容,以及获取目标话题对应的话题画像,话题画像用于表征目标话题的主旨含义;
确定模块702,被配置为根据第一话题内容和话题画像,确定第一话题内容与目标话题的第一相关度;
排序模块703,被配置为根据第一话题内容与目标话题的第一相关度,对第一话题内容进行排序。
在一种可能的实现方式中,获取模块701,还被配置为获取与目标话题关联的多个第二话题内容,以及,获取目标话题对应的话题描述,话题描述用于描述目标话题;确定每个第二话题内容分别与话题描述的第二相关度;根据每个第二话题内容与话题描述的第二相关度,将第二相关度最高的第一预设数量的第二话题内容组成话题画像。
在另一种可能的实现方式中,确定模块702,还被配置为对于每个第二话题内容,将第二话题内容划分为至少一个预设长度的第三话题内容;对于至少一个第三话题内容中的每个第三话题内容,提取第三话题内容对应的第一特征向量;提取话题描述对应的第二特征向量;根据第一特征向量和第二特征向量,确定第三话题内容与话题描述的第一距离;从至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量;根据第一数量和第二数量的比值,确定第二话题内容与话题描述的第二相关度,第二数量为至少一个第三话题内容的数量。
在另一种可能的实现方式中,确定模块702,还被配置为根据多个第二话题内容对应的多个第一距离,确定多个第一距离的平均值;将多个第一距离的平均值确定为距离阈值。
在另一种可能的实现方式中,确定模块702,还被配置为对于每个第二话题内容,提取第二话题内容对应的第三特征向量,以及,提取话题描述对应的第二特征向量;根据第三特征向量和第二特征向量,确定第二话题内容与话题描述的第二距离;将第二距离作为第二话题内容与话题描述的第二相关度。
在另一种可能的实现方式中,确定模块702,还被配置为将话题画像包括的至少一个第二话题内容拼接为第四话题内容;根据第四话题内容和主题模型,确定话题画像对应的第一主题分布;根据第一话题内容和主题模型,确定第一话题内容对应的第二主题分布;根据第一主题分布和第二主题分布,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,确定模块702,还被配置为根据第一主题分布和第二主题分布,确定第一主题分布和第二主题分布的海林格距离;根据第一主题分布和第二主题分布,确定第一主题分布和第二主题分布的詹森香农散度;根据海林格距离和詹森香农散度的平均值,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,确定模块702,还被配置为根据第一话题内容和主题模型,确定第一话题内容的第二主题分布;根据话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定话题画像对应的至少一个第三主题分布;根据第二主题分布和至少一个第三主题分布,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,确定模块702,还被配置为对于至少一个第三主题分布中的每个第三主题分布,确定第二主题分布和第三主题分布的海林格距离,以及,确定第二主题分布和第三主题分布的詹森香农散度;根据海林格距离和詹森香农散度的平均值,确定第三主题分布对应的第三相关度;将至少一个第三主题分布对应的至少一个第三相关度的平均值,确定为第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,确定模块702,还被配置为将话题画像包括的至少一个第二话题内容拼接为第四话题内容;根据第四话题内容和主题模型,确定话题画像对应的第一主题分布;根据第一话题内容和主题模型,确定第一话题内容的第二主题分布;根据话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定话题画像对应的至少一个第三主题分布;根据第一主题分布、第二主题分布、至少一个第三主题分布、第一主题分布对应的第一权重和至少一个第三主题分布对应的第二权重,确定第一话题内容与目标话题的第一相关度。
在另一种可能的实现方式中,该装置还包括:
接收模块,被配置为接收终端发送的话题内容获取请求;
返回模块,被配置为按照第一相关度由大到小的顺序,向终端返回第一相关度最高的第二预设数量的第一话题内容。
在另一种可能的实现方式中,获取模块701,还被配置为接收终端发送的分享请求,分享请求携带第一话题内容;从分享请求中获取第一话题内容。
在本申请实施例中,服务器获取用于表征目标话题主旨含义的话题画像;根据话题画像,确定目标话题和待排序的第一话题内容的第一相关度;根据第一相关度对第一话题内容进行排序。将第一话题内容与目标话题的第一相关度作为排序依据,按照第一话题内容与目标话题的主旨含义的相关性进行排序,能够提高话题内容排序的准确率。
需要说明的是:上述实施例提供的话题内容的排序装置在对话题内容进行排序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的话题内容的排序装置与话题内容的排序方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8是本申请实施例提供的一种服务器的框图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)801和一个或一个以上的存储器802,其中,所述存储器802中存储有至少一条指令,所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的话题内容的排序方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令,上述至少一条指令可由服务器中的处理器执行以完成上述实施例中的话题内容的排序方法。例如,所述计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact DiscRead-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
本申请还提供了一种计算机程序产品,所述计算机程序产品包括一个或多个计算机程序,所述计算机程序被处理器执行时,用于实现上述各个方法实施例提供的话题内容的排序方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种话题内容的排序方法,其特征在于,所述方法包括:
获取待排序的与目标话题关联的第一话题内容,以及获取所述目标话题对应的话题画像,所述话题画像用于表征所述目标话题的主旨含义;
根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度;
根据所述第一话题内容与所述目标话题的第一相关度,对所述第一话题内容进行排序;
所述获取所述目标话题对应的话题画像,包括:
获取与所述目标话题关联的多个第二话题内容,以及,获取所述目标话题对应的话题描述,所述话题描述用于描述所述目标话题;
确定每个第二话题内容分别与所述话题描述的第二相关度;
根据所述每个第二话题内容与所述话题描述的第二相关度,将第二相关度最高的第一预设数量的第二话题内容组成所述话题画像;
所述确定每个第二话题内容分别与所述话题描述的第二相关度,包括:
对于所述每个第二话题内容,将所述第二话题内容划分为至少一个预设长度的第三话题内容;
对于所述至少一个第三话题内容中的每个第三话题内容,提取所述第三话题内容对应的第一特征向量;
提取所述话题描述对应的第二特征向量;
根据所述第一特征向量和所述第二特征向量,确定所述第三话题内容与所述话题描述的第一距离;
从所述至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量;
根据所述第一数量和第二数量的比值,确定所述第二话题内容与所述话题描述的第二相关度,所述第二数量为所述至少一个第三话题内容的数量;
所述从所述至少一个第三话题内容对应的至少一个第一距离中,确定大于距离阈值的第一距离的第一数量之前,所述方法还包括:
根据所述多个第二话题内容对应的多个第一距离,确定所述多个第一距离的平均值;
将所述多个第一距离的平均值确定为所述距离阈值。
2.根据权利要求1所述的方法,其特征在于,所述确定每个第二话题内容分别与所述话题描述的第二相关度,还包括:
对于所述每个第二话题内容,提取所述第二话题内容对应的第三特征向量,以及,提取所述话题描述对应的第二特征向量;
根据所述第三特征向量和所述第二特征向量,确定所述第二话题内容与所述话题描述的第二距离;
将所述第二距离作为所述第二话题内容与所述话题描述的第二相关度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度,包括:
将所述话题画像包括的至少一个第二话题内容拼接为第四话题内容;
根据所述第四话题内容和主题模型,确定所述话题画像对应的第一主题分布;
根据所述第一话题内容和所述主题模型,确定所述第一话题内容对应的第二主题分布;
根据所述第一主题分布和所述第二主题分布,确定所述第一话题内容与所述目标话题的第一相关度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一主题分布和所述第二主题分布,确定所述第一话题内容与所述目标话题的第一相关度,包括:
根据所述第一主题分布和所述第二主题分布,确定所述第一主题分布和所述第二主题分布的海林格距离;
根据所述第一主题分布和所述第二主题分布,确定所述第一主题分布和第二主题分布的詹森香农散度;
根据所述海林格距离和所述詹森香农散度的平均值,确定所述第一话题内容与所述目标话题的第一相关度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度,包括:
根据所述第一话题内容和所述主题模型,确定所述第一话题内容的第二主题分布;
根据所述话题画像包括的至少一个第二话题内容中的每个第二话题内容和所述主题模型,确定所述话题画像对应的至少一个第三主题分布;
根据所述第二主题分布和所述至少一个第三主题分布,确定所述第一话题内容与所述目标话题的第一相关度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二主题分布和所述至少一个第三主题分布,确定所述第一话题内容与所述目标话题的第一相关度,包括:
对于所述至少一个第三主题分布中的每个第三主题分布,确定所述第二主题分布和所述第三主题分布的海林格距离,以及,确定所述第二主题分布和所述第三主题分布的詹森香农散度;
根据所述海林格距离和所述詹森香农散度的平均值,确定所述第三主题分布对应的第三相关度;
将所述至少一个第三主题分布对应的至少一个第三相关度的平均值,确定为所述第一话题内容与所述目标话题的第一相关度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一话题内容和所述话题画像,确定所述第一话题内容与所述目标话题的第一相关度,包括:
将所述话题画像包括的至少一个第二话题内容拼接为第四话题内容;
根据所述第四话题内容和主题模型,确定所述话题画像对应的第一主题分布;
根据所述第一话题内容和所述主题模型,确定所述第一话题内容的第二主题分布;
根据所述话题画像包括的至少一个第二话题内容中的每个第二话题内容和主题模型,确定所述话题画像对应的至少一个第三主题分布;
根据所述第一主题分布、第二主题分布、所述至少一个第三主题分布、所述第一主题分布对应的第一权重和所述至少一个第三主题分布对应的第二权重,确定所述第一话题内容与所述目标话题的第一相关度。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收终端发送的话题内容获取请求;
按照所述第一相关度由大到小的顺序,向所述终端返回所述第一相关度最高的第二预设数量的第一话题内容。
9.根据权利要求1所述的方法,其特征在于,所述获取待排序的与目标话题关联的第一话题内容,包括:
接收终端发送的分享请求,所述分享请求携带所述第一话题内容;
从所述分享请求中获取所述第一话题内容。
10.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1-9任一项所述的话题内容的排序方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以实现如权利要求1-9任一项所述的话题内容的排序方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380040.2A CN111143506B (zh) | 2019-12-27 | 2019-12-27 | 话题内容的排序方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380040.2A CN111143506B (zh) | 2019-12-27 | 2019-12-27 | 话题内容的排序方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111143506A CN111143506A (zh) | 2020-05-12 |
CN111143506B true CN111143506B (zh) | 2023-11-03 |
Family
ID=70521078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911380040.2A Active CN111143506B (zh) | 2019-12-27 | 2019-12-27 | 话题内容的排序方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143506B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255999A (zh) * | 2017-12-29 | 2018-07-06 | 北京奇虎科技有限公司 | 内容推荐方法及装置 |
CN108763208A (zh) * | 2018-05-22 | 2018-11-06 | 腾讯科技(上海)有限公司 | 话题信息获取方法、装置、服务器和计算机可读存储介质 |
CN109871433A (zh) * | 2019-02-21 | 2019-06-11 | 北京奇艺世纪科技有限公司 | 文档与话题相关度的计算方法、装置、设备及介质 |
CN110162691A (zh) * | 2018-11-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 在线内容服务中的话题推荐、运营方法、装置和机器设备 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8655648B2 (en) * | 2010-09-01 | 2014-02-18 | Microsoft Corporation | Identifying topically-related phrases in a browsing sequence |
US8990241B2 (en) * | 2010-12-23 | 2015-03-24 | Yahoo! Inc. | System and method for recommending queries related to trending topics based on a received query |
CN108319599B (zh) * | 2017-01-17 | 2021-02-26 | 华为技术有限公司 | 一种人机对话的方法和装置 |
-
2019
- 2019-12-27 CN CN201911380040.2A patent/CN111143506B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255999A (zh) * | 2017-12-29 | 2018-07-06 | 北京奇虎科技有限公司 | 内容推荐方法及装置 |
CN108763208A (zh) * | 2018-05-22 | 2018-11-06 | 腾讯科技(上海)有限公司 | 话题信息获取方法、装置、服务器和计算机可读存储介质 |
CN110162691A (zh) * | 2018-11-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 在线内容服务中的话题推荐、运营方法、装置和机器设备 |
CN109871433A (zh) * | 2019-02-21 | 2019-06-11 | 北京奇艺世纪科技有限公司 | 文档与话题相关度的计算方法、装置、设备及介质 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
Non-Patent Citations (2)
Title |
---|
李保利 ; 杨星 ; .基于LDA模型和话题过滤的研究主题演化分析.小型微型计算机系统.2012,(12),全文. * |
赵爱华 ; 刘培玉 ; 郑燕 ; .基于LDA的新闻话题子话题划分方法.小型微型计算机系统.2013,(04),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111143506A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021159776A1 (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN107346336B (zh) | 基于人工智能的信息处理方法和装置 | |
US11158349B2 (en) | Methods and systems of automatically generating video content from scripts/text | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN111061954B (zh) | 搜索结果排序方法、装置及存储介质 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
CN111339277A (zh) | 基于机器学习的问答交互方法及装置 | |
CN111738010B (zh) | 用于生成语义匹配模型的方法和装置 | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN111191133A (zh) | 业务搜索处理方法、装置及设备 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN113204691A (zh) | 一种信息展示方法、装置、设备及介质 | |
CN116204714A (zh) | 推荐方法、装置、电子设备及存储介质 | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN111966899B (zh) | 搜索排序方法、系统及计算机可读存储介质 | |
CN110020110B (zh) | 媒体内容推荐方法、装置及存储介质 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN109472028B (zh) | 用于生成信息的方法和装置 | |
CN111143506B (zh) | 话题内容的排序方法、装置、服务器及存储介质 | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
CN113609833B (zh) | 文件的动态生成方法、装置、计算机设备及存储介质 | |
CN109408725B (zh) | 用于确定用户兴趣的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |