CN110597980B - 一种数据处理方法、装置以及计算机可读存储介质 - Google Patents

一种数据处理方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN110597980B
CN110597980B CN201910867179.3A CN201910867179A CN110597980B CN 110597980 B CN110597980 B CN 110597980B CN 201910867179 A CN201910867179 A CN 201910867179A CN 110597980 B CN110597980 B CN 110597980B
Authority
CN
China
Prior art keywords
text
texts
marked
electronic reading
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910867179.3A
Other languages
English (en)
Other versions
CN110597980A (zh
Inventor
许阳寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tencent Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910867179.3A priority Critical patent/CN110597980B/zh
Publication of CN110597980A publication Critical patent/CN110597980A/zh
Application granted granted Critical
Publication of CN110597980B publication Critical patent/CN110597980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置以及计算机可读存储介质,该方法包括:获取电子读物中的多个标记文本,确定多个标记文本中任意两个标记文本之间的相似度;多个标记文本均属于电子读物中的文本内容;根据相似度,对多个标记文本进行分组,得到标记文本集合;根据标记文本集合,在多个标记文本中选择目标标记文本;根据目标标记文本,生成电子读物对应的推荐栏。采用本申请,提高了目标标记文本选取的准确性,从而提高了所生成的电子读物的推荐栏的准确性。

Description

一种数据处理方法、装置以及计算机可读存储介质
技术领域
本申请涉及数据处理的技术领域,尤其涉及一种数据处理方法、装置以及计算机可读存储介质。
背景技术
随着计算机网络的不断发展,电子书籍逐渐替代了纸质书籍,成为用户阅读书籍的主要方式。同时随着时间的推移,网络上可供用户阅读的电子书籍的数量已经异常庞大,导致向用户推荐的电子读物的数量也非常多,因此,用户也很难从向其推荐的电子读物中选择出想要阅读的电子读物。
当前技术中,通常是通过电子读物的封面以及标题,来生成电子读物的推荐栏,推荐栏中的封面以及标题即是用于引导用户阅读相应的电子书籍。但是,仅仅通过电子书籍的封面以及标题,并不能让用户判断出是否想要对该电子书籍进行阅读。由此可知,在当前技术中,针对电子书籍的推荐栏的生成方式不准确且单一。
申请内容
本申请提供了一种数据处理方法、装置以及计算机可读存储介质,可丰富电子读物的推荐栏的生成方式,同时可提高电子读物的推荐栏的生成准确性。
本申请一方面提供了一种数据处理方法,应用于服务器,包括:
获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;
根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;
根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;
根据所述目标标记文本,生成所述电子读物对应的推荐栏。
其中,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果;
根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度;
将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度。
其中,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比;
根据所述第一相同文本占比和所述第二相同文本占比,确定所述第一标记文本和所述第二标记文本之间的所述相似度。
其中,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
确定所述第一标记文本与第二标记文本之间的编辑距离;
根据所述编辑距离,确定所述第一标记文本和所述第二标记文本之间的相似度。
其中,所述根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合,包括:
将所述多个标记文本中所述相似度达到第一相似度阈值的标记文本,划分到相同的标记文本集合。
其中,所述根据所述标记文本集合,在所述多个标记文本中选择目标标记文本,包括:
获取所述标记文本集合中的每个标记文本对应的标记次数,根据所述每个标记文本对应的标记次数,确定所述标记文本集合对应的标记总次数;
将所述标记总次数最大的标记文本集合,确定为待选择集合;
从所述待选择集合中获取所述目标标记文本。
其中,所述从所述待选择集合中获取所述目标标记文本,包括:
根据所述待选择集合中的每个标记文本对应的标记次数,确定所述每个标记文本对应的概率分布;
根据所述概率分布,在所述待选择集合中随机选取所述目标标记文本。
其中,所述从所述待选择集合中获取所述目标标记文本,包括:
将所述待选择集合中,具有最大标记次数的标记文本确定为所述目标标记文本。
其中,所述根据所述目标标记文本,生成所述电子读物对应的推荐栏,包括:
获取第一用户对应的第一历史电子读物;
当检测到所述第一历史电子读物与所述电子读物具有相同读物特征时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;
将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
其中,所述根据所述目标标记文本,生成所述电子读物对应的推荐栏,包括:
当检测到第一用户与第二用户之间的用户相似度达到第二相似度阈值,且所述第二用户对应的第二历史电子读物中包括所述电子读物时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;所述用户相似度指所述第一用户与所述第二用户的读物阅览偏好相似度;
将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
本申请另一方面提供了一种数据处理方法,应用于终端,包括:
获取服务器发送的电子读物对应的推荐栏;所述推荐栏是根据目标标记文本所生成的;所述目标标记文本是基于标记文本集合所获得的;所述标记文本集合是基于所述电子读物中的多个标记文本之间的相似度对所述多个标记文本进行分组得到的;
将所述推荐栏输出至终端页面。
其中,还包括:
响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在章节中的起始位置页面;或者,
响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在的页面。
本申请一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;
分组模块,用于根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;
选择模块,用于根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;
生成模块,用于根据所述目标标记文本,生成所述电子读物对应的推荐栏。
其中,所述第一获取模块,包括:
第一获取单元,用于获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
分词单元,用于对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果;
语义确定单元,用于根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度;
第一确定单元,用于将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度。
其中,所述第一获取模块,包括:
第二获取单元,用于获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对比单元,用于对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比;
第二确定单元,用于根据所述第一相同文本占比和所述第二相同文本占比,确定所述第一标记文本和所述第二标记文本之间的所述相似度。
其中,所述第一获取模块,还用于:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;确定所述第一标记文本与第二标记文本之间的编辑距离;根据所述编辑距离,确定所述第一标记文本和所述第二标记文本之间的相似度。
其中,所述分组模块,还用于:
将所述多个标记文本中所述相似度达到第一相似度阈值的标记文本,划分到相同的标记文本集合。
其中,所述选择模块,包括:
次数获取单元,用于获取所述标记文本集合中的每个标记文本对应的标记次数,根据所述每个标记文本对应的标记次数,确定所述标记文本集合对应的标记总次数;
第三确定单元,用于将所述标记总次数最大的标记文本集合,确定为待选择集合;
第三获取单元,用于从所述待选择集合中获取所述目标标记文本。
其中,所述第三获取单元,包括:
概率确定子单元,用于根据所述待选择集合中的每个标记文本对应的标记次数,确定所述每个标记文本对应的概率分布;
随机选取子单元,用于根据所述概率分布,在所述待选择集合中随机选取所述目标标记文本。
其中,所述第三获取单元,还用于:
将所述待选择集合中,具有最大标记次数的标记文本确定为所述目标标记文本。
其中,所述生成模块,包括:
读物获取单元,用于获取第一用户对应的第一历史电子读物;
检测单元,用于当检测到所述第一历史电子读物与所述电子读物具有相同读物特征时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;
第一发送单元,用于将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
其中,所述生成模块,包括:
生成单元,用于当检测到第一用户与第二用户之间的用户相似度达到第二相似度阈值,且所述第二用户对应的第二历史电子读物中包括所述电子读物时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;所述用户相似度指所述第一用户与所述第二用户的读物阅览偏好相似度;
第二发送单元,用于将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
本申请另一方面提供了一种数据处理装置,包括:
第二获取模块,用于获取服务器发送的电子读物对应的推荐栏;所述推荐栏是根据目标标记文本所生成的;所述目标标记文本是基于标记文本集合所获得的;所述标记文本集合是基于所述电子读物中的多个标记文本之间的相似度对所述多个标记文本进行分组得到的;
输出模块,用于将所述推荐栏输出至终端页面。
其中,还包括:
第一跳转模块,用于响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在章节中的起始位置页面;或者,
第二跳转模块,用于响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在的页面。
本申请一方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本申请中一方面/另一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述一方面/另一方面中的方法。
本申请首先获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;根据所述目标标记文本,生成所述电子读物对应的推荐栏。由此可见,本申请提出的方法可根据标记文本之间的相似度,在多个标记文本中选取目标标记文本,使得选取出的目标标记文本更准确,从而根据该目标标记文本生成的推荐栏也更准确。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种网络架构示意图;
图2a是本申请提供的一种数据处理的场景示意图;
图2b是本申请提供的一种终端的页面示意图;
图3是本申请提供的一种数据处理方法的流程示意图;
图4是本申请提供的另一种终端的页面示意图;
图5是本申请提供的另一种终端的页面示意图;
图6是本申请提供的一种概率分布的结构示意图;
图7是本申请提供的另一种数据处理方法的流程示意图;
图8是本申请提供的一种数据处理装置的结构示意图;
图9是本申请提供的另一种数据处理装置的结构示意图;
图10是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,是本申请提供的一种网络架构示意图。如图1所示,该网络架构示意图包括服务器100、终端200a、终端200b和终端200c。其中,终端可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)以及可穿戴设备(例如智能手表、智能手环等)。服务器100可以和终端200a、终端200b和终端200c之间相互通信。每个终端(此处指终端200a、终端200b和终端200c)中均可以安装承载电子读物的应用,例如专门用于阅读电子读物的应用或者具有阅读电子读物功能的其他类型应用,因此,服务器100可以是终端中所安装的承载电子读物的应用的客户端所对应的后台服务器。其中,电子读物指可以通过各种电子设备输出的供用户阅读的数据,电子读物中可以包含视频、音频、文字和图像,例如,电子读物可以是电子书籍。此处以服务器100与终端200a之间的通信为例进行本申请的说明。
服务器100可以从内存中获取到电子读物,获取到的电子读物可以是存储在服务器100中的任意一个电子读物,该电子读物中包括文本内容。请参见图2a,是本申请提供的一种数据处理的场景示意图。服务器100可以获取到该电子读物中已有的标记文本,该标记文本指承载电子读物的应用中的所有用户在阅读该电子读物时,对该电子读物中的某部分文本进行标记过的文本内容。其中,标记的方式可以是对电子读物中的部分文本(例如一个词、一句话或者一段话等)进行下划线、加粗、加边框或者设置斜体的方式。若标记的方式是通过对该电子读物中的某句话进行下划线,则也可以将标记文本称为划线句子。
如图2a所示,此处服务器100获取到的电子读物中的标记文本包括标记文本集合100b中的标记文本1、标记文本2、标记文本3、…以及标记文本n,服务器100可以计算标记文本之间的相似度,得到相似度101b,相似度101b中包括标记文本1、标记文本2、标记文本3、…以及标记文本n中任意两个标记文本之间的相似度。其中,标记文本之间的相似度可以依照标记文本之间的语义相似程度来计算,语义相似程度指两个标记文本所表达的意思的相似程度,例如,文本“今天阳光明媚”和文本“今天天气晴朗”所表达的意思的相似程度就非常高。标记文本之间的相似度还可以依照标记文本之间的文本相同程度来计算,文本相同程度指两个标记文本中所包括的字符(包括文字和标点符号)的相同程度,例如,文本“快看快看,这里有颗糖”和文本“快看快看,这里有包糖”之间的文本相同程度就非常高。服务器100可以根据计算得到的相似度101b对上述标记文本1、标记文本2、标记文本3、…以及标记文本n进行分组,以得到多个标记文本集合。其中,当某两个标记文本之间的相似度达到预先设定的相似度阈值时,可以将该两个标记文本分到同一个标记文本集合中。例如,当预先设定的相似度阈值为80%,并且标记文本1和标记文本2之间的相似度为85%时,则可以将标记文本1和标记文本2分到同一个标记文本集合。此处,服务器100对上述标记文本1、标记文本2、标记文本3、…以及标记文本n进行分组,得到的标记文本集合包括标记文本集合1、标记文本集合2、…以及标记文本集合m。其中,标记文本集合1中包括标记文本1和标记文本2,表明标记文本1和标记文本2之间的相似度达到了预设的相似度阈值;标记文本集合2中包括标记文本3、标记文本4和标记文本5,表明标记文本3、标记文本4和标记文本5中任意两者之间的相似度也达到了预设的相似度阈值;…;标记文本集合m中包括标记文本6、标记文本n-1和标记文本n,表明标记文本6、标记文本n-1和标记文本n中任意两者之间的相似度也达到了预设的相似度阈值。
服务器100可以根据上述得到的标记文本集合1、标记文本集合2、…以及标记文本集合m,在标记文本1、标记文本2、标记文本3、…以及标记文本n中选取目标标记文本,具体为:服务器100可以获取到每个标记文本集合中的每个标记文本的标记次数,每个标记文本的标记次数指应用中所有用户针对该标记文本的标记总次数,一个用户对应1次标记。例如,当应用中包括用户1、用户2和用户3,但只有用户1和用户2对标记文本1进行了标记,则标记文本1的标记次数就为2次。服务器100可以将属于同一个标记文本集合的多个标记文本所对应的标记次数相加,得到该标记文本集合对应的标记总次数。例如,服务器100可以将标记文本1和标记文本2分别对应的标记次数相加,得到标记文本集合1对应的标记总次数。服务器100也可以将标记文本3、标记文本4和标记文本5分别对应的标记次数相加,得到标记文本集合2对应的标记总次数.服务器还可以将标记文本6、标记文本n-1和标记文本n分别对应的标记次数相加,得到标记文本集合m对应的标记总次数。
服务器100可以将标记总次数最多的那一个标记文本集合作为待选择集合,服务器100可以在该待选择集合中选取上述目标标记文本,服务器100可以将待选择集合中标记次数最多的标记文本选作为目标标记文本。例如,当标记文本集合2对应的标记总次数最多,并且,在标记文本集合2中标记文本3的标记次数是最多的,则可以将标记文本3作为目标标记文本102b。当目标标记文本102b为文本104b“他给太阳拥抱住了,分不出身来”时,服务器100可以根据该目标标记文本102b生成电子读物的推荐栏103b。其中推荐栏103b中除了包括文本104b(即标记文本3)之外,还可以包括文本104b所属的电子读物的名称(即《围城》)以及封面。当服务器100需要向某个用户推荐该电子读物时,服务器100可以将生成的推荐栏103b发送至该用户对应的终端(例如终端200a)。终端200a的终端页面中包括“发现”、“书架”、“故事”和“我”4个菜单栏,终端200a可以在“故事”一栏中显示推荐栏103b,以达到向该用户推荐该电子读物的目的。请参见图2b,是本申请提供的一种终端的页面示意图。如图2b所示,终端200a在终端页面中显示了上述在图2a中生成的推荐栏103b,还显示了推荐栏101e。其中,推荐栏103b即是根据本申请所提供的方法所得到标记文本“他给太阳拥抱住了,分不出身来”而生成的。而推荐栏101e则是根据书籍《浮生六记》的推荐理由“#根据书籍点赞数推荐”所生成的。当用户点击推荐栏103b时,终端200a可以显示书籍《围城》中标记文本“他给太阳拥抱住了,分不出身来”所在位置的页面,如图2b中的页面102e所示。并且,终端200a在页面102e中显示标记文本“他给太阳拥抱住了,分不出身来”所在位置的页面时,还可以将标记文本“他给太阳拥抱住了,分不出身来”进行突出显示,此处,在页面102e中是对标记文本“他给太阳拥抱住了,分不出身来”进行加粗显示。突出显示的显示方式不限于下划线显示、特殊颜色显示、斜体显示以及特殊字体显示的方式。
通过本申请所提供的方法,可以计算同一个电子读物中的多个标记文本之间的相似度,进而根据计算得到的相似度,将相似度较高的多个标记文本分为一组,并根据属于同一分组集合的标记文本的标记总次数,来选取目标标记文本。由于,相似度较高的多个标记文本极大可能对应于电子读物中的同一部分文本内容,只是不同标记文本之间可能会相差几个字符的不同,因此,通过统计对应于电子读物中的同一部分文本内容所对应的标记文本的标记总次数,可以得到该部分文本内容准确的标记次数,从而提高目标标记文本选取的准确性。
请参见图3,是本申请提供的一种数据处理方法的流程示意图,如图3所示,所述方法可以包括:
步骤S101,服务器获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;
具体的,服务器可以获取电子读物中的多个标记文本(即所有标记文本),该多个标记文本均属于电子读物中的文本内容,即电子读物为包括文本内容的读物,例如电子书籍或者带文字的图画书。其中,服务器获取到的电子读物可以是服务器所存储的任意一个电子读物,标记文本指所有用户在阅读同一电子读物时,对该电子读物所包含的文本内容中有标记行为的文本。标记行为可以是对电子读物所包含的文本内容的下划线行为、加粗显示行为、使用不同颜色显示行为、设置斜体显示行为中的任意一种或者多种行为。
服务器可以确定上述电子读物中的多个标记文本中任意两个标记文本之间的相似度,具体为:服务器可以根据标记文本之间的语义相似度来计算标记文本之间的相似度。服务器可以获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本:第一标记文本和第二标记文本均可以是电子读物中所包括的所有标记文本中的任意一个标记文本,第一标记文本与第二标记文本不为同一个标记文本。服务器可以对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果:可以按照词性(包括名词、动词、形容词、区别词、副词、代词、数词、量词、拟声词、叹词、介词、连词、助词、语气词)对标记文本进行分词,同时可以将对第一标记文本进行分词得到的结果称之为第一分词结果,将对第二标记文本进行分词得到的结果称之为第二分词结果。例如,若第一标记文本为文本“今天天气真好”,则对第一标记文本的进行分词,得到的第一分词结果可以是“今天、天气、真、好”,其中,“今天”和“天气”为名词,“真”为副词,“好”为形容词。若第二标记文本为文本“今天天气晴朗”,则对第二标记文本的进行分词,得到的第二分词结果可以是“今天、天气、晴朗”,其中“今天”和“天气”为名词,“晴朗”为形容词。服务器可以根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度:服务器可以分析得到第一分词结果中每个词所指向的实体,以及第二分词结果中每个词所指向的实体,并对比第一分词结果和第二分词结果中对应的同一类实体,其词意是否相同(或者相似)。例如,第一标记文本中的分词“今天”与第二标记文本中的分词“今天”都是指日期(日期即为其指向的实体,即两者指向同一日期类型实体),并且第一标记文本中的分词“今天”与第二标记文本中的分词“今天”所表达的日期是相同的(即词意是相同或者相似的)。服务器可以对比出在第一标记文本中有多少个分词所对应的实体,在第二标记文本中也存在某些分词具有相同或相似的类型以及词意的实体,并计算出该部分分词占第一标记结果中的所有分词的比例,可以将该比例称之为第一比例。同理,服务器也可以对比出在第二标记文本中有多少个分词所对应的实体,在第一标记文本中也存在某些分词具有相同或者相似的类型以及词意的实体,并计算出该部分分词占第二标记结果中的所有分词的比例,可以将该比例称之为第二比例。可以用该第一比例与该第二比例来表征第一标记文本与第二标记文本之间的语义相似度,可以将第一比例与第二比例的平均值作为第一标记文本与第二标记文本之间的语义相似度,例如,若第一比例为80%,第二比例为90%,则第一标记文本与第二标记文本之间的语义相似度即为85%(即(80+90)/2),即表明第一标记文本与第二标记文本所表达的实际意思的相似程度达到85%。可选的,服务器还可以将上述第一比例和第二比例中的最小值作为第一标记文本和第二标记文本之间的语义相似度,例如,若第一比例为80%,第二比例为90%,则第一标记文本与第二标记文本之间的语义相似度为80%(因为80%<90%)。服务器可以将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度:服务器可以将上述得到的语义相似度作为第一标记文本与第二标记文本之间的相似度,例如,当第一标记文本与第二标记文本之间的语义相似度为85%时,第一标记文本与第二标记文本之间的相似度也为85%,当第一标记文本与第二标记文本之间的语义相似度为80%时,第一标记文本与第二标记文本之间的相似度也为80%。请参见图4,是本申请提供的另一种终端的界面示意图。如图4所示,页面100c中显示的划线句子为用户1针对电子读物的一个标记文本“坚强就是能够从失败中爬起来,去挑战那个多次战胜自己的人。”,页面101c中显示的划线句子为用户2针对电子读物的一个标记文本“从失败中爬起来,去挑战那个多次战胜自己的人,这就叫做坚强。”,通过上述过程可以得到页面100c中显示的划线句子与页面101c中所显示的划线句子之间的语义相似度,由于页面100c中显示的划线句子与页面101c中所显示的划线句子所表达的意思近乎相同,因此其两者之间的语义相似度也会非常高。此外,由于页面100c中显示的划线句子与页面101c中所显示的划线句子,为用户针对电子读物中不同文本内容处的标记文本,因此,上述用户1和用户2可以是同一个用户,也可以不是同一个用户。
服务器还可以根据标记文本之间的文本相同程度来计算标记文本之间的相似度:同样,通过上述第一标记文本与第二标记文本进行说明。服务器可以对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比:举个例子,当第一标记文本为“这条路没有尽头。”,共8个字符(即文字加上标点符号),第二标记文本为“我们都知道这条路没有尽头”,共12个字符(即文字加上标点符号),则可以对第一标记文本和第二标记文本进行文本对比,并对比出第一标记文本与第二标记文本中相同的文本部分为“这条路没有尽头”,共7个字符,则可以得出第一标记文本中针对第二标记文本的第一相同文本占比为7/8,第二标记文本中针对第一标记文本的第二相同文本占比为7/12。服务器可以根据所述第一相同文本占比和所述第二相同文本占比,确定所述第一标记文本和所述第二标记文本之间的所述相似度:服务器可以将第一相同文本占比和第二相同文本占比的平均值作为第一标记文本和第二标记文本之间的相似度,例如,当第一相同文本占比为7/8,第二相同文本占比为7/12,则第一标记文本与第二标记文本之间的相似度为35/48(即(7/8+7/12)/2),约等于73%。可选的,服务器还可以将第一相同文本占比与第二相同文本占比中的最小值作为第一标记文本和第二标记文本之间的相似度,例如,当第一相同文本占比为7/8,第二相同文本占比为7/12,则第一标记文本与第二标记文本之间的相似度为7/12(因为7/12<7/8)。请参见图5,是本申请提供的另一种终端的页面示意图。如图5所示,页面102c中所显示的标记文本与103c中所显示的标记文本的标记方式均为加粗并斜体显示,页面102c中显示的标记文本为用户1针对电子读物的一个标记文本“人生最痛苦的事情,莫过于不得不玩一场绝对不能输的游戏。”,共27个字符(包括文字和标点符号),页面101c中显示的标记文本为用户2针对电子读物的一个标记文本“最痛苦的事情,莫过于不得不玩一场绝对不能输的游戏”,共24个字符(包括文字和标签符号),并且,页面102c中所显示的标记文本与103c中所显示的标记文本中相同的字符部分包括“最痛苦的事情,莫过于不得不玩一场绝对不能输的游戏”,共24个字符,则可以得到页面102c中所显示的标记文本对应的第一相同文本占比为24/27,页面103c中所显示的标记文本对应的第二相同文本占比为24/24,由于第一相同文本占比和第二相同文本占比趋近于1,因此表明页面102c中所显示的标记文本与103c中所显示的标记文本之间的相似度非常高。其中,由于页面102c中所显示的标记文本与103c中所显示的标记文本是针对电子读物中同一部分的文本内容的标记文本,因此,第一用户与第二用户为不同的用户。
服务器还可以根据第一标记文本和第二标记文本之间的编辑距离,得到第一标记文本与第二标记文本之间的相似度:服务器可以确定所述第一标记文本与第二标记文本之间的编辑距离:可以将第一标记文本和第二标记文本分别看成是一个字符串,该编辑距离指将第一标记文本对应的字符串变成第二标记文本对应的字符串,所需要对第一标记文本对应的字符串中的字符进行操作的最少次数(也可以将该次数称之为步数),操作的方式包括针对字符的删除、替换和插入的操作。其中,上述步数不会大于第一标记文本对应的字符串的长度。第一标记文本和第二标记文本之间的编辑距离越小,表明第一标记文本与第二标记文本越相似,反之,第一标记文本和第二标记文本之间的编辑距离越大,表明第一标记文本与第二标记文本越不相似。服务器可以根据第一标记文本与第二标记文本之间的编辑距离,确定第一标记文本与第二标记文本之间的相似度:服务器可以设定一个编辑距离阈值,若第一标记文本与第二标记文本之间的编辑距离小于等于该编辑距离阈值,则判定第一标记文本与第二标记文本相似度较高,可以归为一类,反之,若第一标记文本与第二标记文本之间的编辑距离大于该编辑距离阈值,则判定第一标记文本与第二标记文本相似度较低,不能归为一类。例如,可以设定上述编辑距离阈值为2,当第一标记文本与第二标记文本之间的编辑距离小于等于2(例如为0、1或者2)时,表明第一标记文本与第二标记文本之间的相似度较高,反之,当第一标记文本与第二标记文本之间的编辑距离大于2时,表明第一标记文本与第二标记文本之间的相似度较低。
可选的,服务器还可以根据标记文本之间的文本距离来计算标记文本之间的相似度:同样,通过上述第一标记文本与第二标记文本进行说明。服务器可以确定所述第一标记文本与第二标记文本之间的文本距离:首先服务器可以对第一标记文本进行分词,并通过词向量生成模型(例如word2vec模型)生成分词之后得到的每个词的词向量,进而根据该每个词的词向量得到第一标记文本对应的文本向量。同理,服务器也可以对第二标记文本进行分词,并通过词向量模型生成分词之后的每个词的词向量,进而根据该每个词的词向量得到第二标记文本对应的文本向量。通过上述过程,即实现了将第一标记文本和第二标记文本进行向量化。可以将第一标记文本对应的文本向量和第二标记文本对应的文本向量之间的向量距离,作为第一标记文本和第二标记文本之间的文本距离。服务器可以将第一标记文本和第二标记文本之间的文本距离的倒数,作为第一标记文本和第二标记文本之间的相似度,即第一标记文本和第二标记文本之间的文本距离越大,表明第一标记文本和第二标记文本之间的相似度越低,反之,第一标记文本和第二标记文本之间的文本距离越小,表明第一标记文本和第二标记文本之间的相似度越高。
上述第一标记文本和第二标记文本即表示电子读物中任意两个标记文本,通过上面所述的方法,即可得到电子读物中任意两个标记文本之间的相似度。
步骤S102,服务器根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;
具体的,服务器可以将电子读物中所包含的多个标记文本中所述相似度达到第一相似度阈值的标记文本,划分到相同的标记文本集合。例如,若预先设定的第一相似度阈值为70%,则当上述第一标记文本与第二标记文本之间的相似度大于或者等于70%时,可将第一标记文本与第二标记文本划分到同一个标记文本集合。通过该划分方法,可以将电子读物中的所有标记文本划分为多个标记文本集合(也有可能只有1个),每个标记文本集合中包括若干个标记文本(例如2个、3个或者4个等等),当某个标记文本没有其他标记文本与其之间的相似度达到相似度阈值时,可将该个标记文本单独看作为一个标记文本集合,只是该标记文本集合中只存在该标记文本1个标记文本。
若是通过上述编辑距离来判定标记文本之间的相似度,则服务器可以将编辑距离小于等于编辑距离阈值的两个标记文本分到同一个标记文本集合,反之,将编辑距离大于编辑距离阈值的两个标记文本分别分到不同的标记文本集合。可以将该编辑距离阈值理解为上述第一相似度阈值。例如,当编辑距离阈值为2,并且上述第一标记文本和第二标记文本之间的编辑距离为0、1或2时,可以将该第一标记文本与第二标记文本分到同一个标记文本集合。
步骤S103,服务器根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;
具体的,服务器可以获取所述标记文本集合中的每个标记文本对应的标记次数,根据所述每个标记文本对应的标记次数,确定所述标记文本集合对应的标记总次数:服务器可以分别将每个标记文本集合中的所有标记文本所对应的标记次数相加,得到每个标记文本集合分别对应的标记总次数。例如,当某个标记文本集合中包括标记文本1、标记文本2和标记文本3,并且,标记文本1对应的标记次数为5次,标记文本2对应的标记次数为15次,标记文本3对应的标记次数为20次,则该标记文本集合对应的标记总次数为40次(即5+15+20)。服务器可以将所述标记总次数最大的标记文本集合,确定为待选择集合:例如,当标记文本集合1对应的标记总次数为20次,标记文本集合2对应的标记总次数为40次,标记文本集合3对应的标记总次数为60次,则服务器可以将标记文本集合3作为待选择集合。
服务器可以从所述待选择集合中获取所述目标标记文本:第一种选取方式,服务器可以根据所述待选择集合中的每个标记文本对应的标记次数,确定所述每个标记文本对应的概率分布:例如,当某个待选择集合中包括标记文本1、标记文本2和标记文本3,并且,标记文本1对应的标记次数为5次,标记文本2对应的标记次数为15次,标记文本3对应的标记次数为20次,则标记文本1被选取的概率为5/(5+15+20)=5/40,标记文本2被选取的概率为15/40,标记文本3被选取的概率为20/40,则可以根据概率5/40、15/40、20/40构成该待选择集合中的3个标记文本对应的一个概率分布。请参见图6,是本申请提供的一种概率分布的结构示意图。如图6所示,表示的是某个待选择集合对应的概率分布,该待选择集合中包括3个标记文本,每个标记文本被选取的概率依次为1/8、3/8、4/8。服务器可以根据所述概率分布,在所述待选择集合中随机选取所述目标标记文本:服务器可以根据待选择集合中所有的标记文本的标记次数所构成的概率分布,在待选择集合中随机选取目标标记文本,待选择集合中被选取的概率越高的标记文本,被选作目标标记文本的概率也就越高,反之,待选择集合中被选取的概率越低的标记文本,被选作目标标记文本的概率也就越低。第二种选取方式,服务器可以将所述待选择集合中,具有最大标记次数的标记文本确定为所述目标标记文本:举个例子,当某个待选择集合中包括标记文本1、标记文本2和标记文本3,并且,标记文本1对应的标记次数为5次,标记文本2对应的标记次数为15次,标记文本3对应的标记次数为20次,由于5<15<20,则服务器可以将待选择集合中的标记文本3作为目标标记文本。
步骤S104,服务器根据所述目标标记文本,生成所述电子读物对应的推荐栏;
具体的,服务器可以获取第一用户对应的第一历史电子读物,其中,第一用户对应的第一历史电子读物指该第一用户阅读过的电子读物。当服务器检测到所述第一历史电子读物与所述电子读物(即上述已选取了目标标记文本的电子读物)具有相同读物特征时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏:两个电子读物具有相同读物特征指该两个电子读物具有相同的读物标签,该读物标签可以包括电子读物的读物类型标签(例如科幻类型和喜剧类型)以及读物受众人群标签(例如80后、90后、学生或者上班族等)。当服务器检测到第一历史电子读物与上述电子读物具有相同的读物特征时,则表明上述电子读物与第一历史电子读物的读物类型相似,可以将上述电子读物推荐给第一用户让其阅读。此时,服务器可以根据上述电子读物中的目标标记文本,生成该电子读物的推荐栏,该推荐栏中还可以包括该电子读物的名称以及封面。
可选的,当服务器检测到第一用户与第二用户之间的用户相似度达到第二相似度阈值,且所述第二用户对应的第二历史电子读物中包括所述电子读物时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏:其中,用户相似度指第一用户与第二用户的读物阅览偏好相似度,当服务器检测到第一用户与第二用户之间的用户相似度达到相似度阈值时,表明第二用户与第一用户阅读电子读物的喜好相似,可以向第一用户推荐第二用户阅读过的电子读物,同时,也可以向第二用户推荐第一用户阅读过的电子读物。若第二用户对应的第二历史电子读物(即第二用户阅读过的电子读物)中包括上述电子读物(即上述已选取目标标记文本的电子读物),则表明可以将该电子读物推荐给第一用户让其阅读,服务器可以根据该电子读物中的目标标记文本生成该电子读物的推荐栏,该推荐栏中还可以包括该电子读物的名称以及封面。
可选的,上述服务器可以是区块链网络中的节点,以区块链系统为分布式系统为例,该分布式系统可以由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成点对点(P2P,Peer To Peer)网络,其中,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。因此,上述服务器以及上述终端均可以是该分布式系统中的节点,并且服务器和终端分别存储有一条区块链。服务器可以作为共识节点,具有在所属的区块链网络中的上链权限,具体为:服务器可以将上述获取到的目标标记文本进行上链,即上链到自己的区块链中,上链成功之后,服务器对应的节点可以向终端对应的节点广播该事件(即将目标标记文本上链的事件),使得终端也可以将目标标记文本上传至自己的区块链中。当后续终端需要获取该目标标记文本所属的电子读物的推荐栏时,可以直接在自己所存储的区块链中获取到该目标标记文本,进而生成目标标记文本所属的电子读物的推荐栏。此外,也可以有服务器为区块链网络中的节点,而终端不是区块链网络中的节点的情况,这种情况下,只有服务器在自己的区块链中存储有上述目标标记文本,则终端可以通过客户端向服务器请求获取目标标记文本所属的电子读物的推荐栏,进而服务器可以在自己的区块链中获取到该目标标记文本,并通过获取到的目标标记文本生成对应的电子读物的推荐栏,再将生成的目标标记文本所属的电子读物的推荐栏发送给终端。
步骤S105,服务器发送所述推荐栏至终端;
具体的,当需要向上述第一用户推荐上述电子读物(即已根据目标标记文本生成推荐栏的电子读物)时,服务器可以发送上述生成的电子读物的推荐栏到第一用户对应的终端。
步骤S106,终端将所述推荐栏输出至终端页面;
具体的,第一用户的终端获取到服务器发送的推荐栏时,可以将该推荐栏输出至终端页面,即将推荐栏在终端页面中显示出来,以达到向第一用户推荐该推荐栏中所包含的电子读物的目的。第一用户的终端还可以响应第一用户针对终端页面中所显示的推荐栏的选择操作(例如点击操作),跳转显示到电子读物中上述目标标记文本所在的章节处的起始位置页面(即章节的开始位置处)。可选的,第一用户的终端还可以响应第一用户针对终端页面中所显示的推荐栏的选择操作(例如点击操作),跳转显示到电子读物中上述目标标记文本所在的页面。
本申请首先获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;根据所述目标标记文本,生成所述电子读物对应的推荐栏。由此可见,本申请提出的方法可根据标记文本之间的相似度,在多个标记文本中选取目标标记文本,使得得到的目标标记文本更准确,从而根据该目标标记文本生成的推荐栏也更准确。
请参见图7,是本申请提供的另一种数据处理方法的流程示意图。其中,客户端可以指用户对应的终端,后台服务器与推荐服务器都为终端所对应的服务器,只是,后台服务器用于获取相关数据,并存储相关数据,推荐服务器用于从后台服务器中拿取相关数据,并根据拿取到的相关数据从电子读物中获取准确的推荐文案。采集数据:客户端可以采集到应用中所有用户对某个电子读物中的文本内容有标记行为的文本,即标记文本,并将该电子读物中的所有标记文本发送至后台服务器,可选的,也可以是发送携带标记文本的电子读物至后台服务器。存储数据:后台服务器接收到客户端发送的电子读物的标记文本,并存储接收到的电子读物的标记文本。离线计算:后台服务器中还存储有第一用户(可以是应用中任意一个用户)阅读电子读物的记录,即第一用户阅读过的电子读物所构成的读物列表,推荐服务器可以从后台服务器中拿取到第一用户阅读过的电子读物所构成的读物列表,并离线计算出与该读物列表中所包括的电子读物为同类型的电子读物,作为推荐电子读物(电子读物可以是书籍,即推荐书籍)。划线句子:推荐服务器可以从后台服务器处获取到推荐书籍中的所有划线句子(即标记文本),并从获取到的推荐书籍中的所有划线句子中选取出推荐文案(即上述目标标记文本)。推荐服务器可以根据选取出的推荐文案生成推荐书籍的推荐栏,并将该推荐栏发送至第一用户的客户端。显示推荐栏:第一用户的客户端可以在客户端页面中显示接收到的推荐栏,以向第一用户推荐上述推荐书籍。
请参见图8,是本申请提供的一种数据处理装置的结构示意图。如图8所示,该数据处理装置1可以包括:第一获取模块11、分组模块12、选择模块13和生成模块14;
第一获取模块11,用于获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;
分组模块12,用于根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;
选择模块13,用于根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;
生成模块14,用于根据所述目标标记文本,生成所述电子读物对应的推荐栏。
其中,所述第一获取模块11、分组模块12、选择模块13和生成模块14的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S106,这里不再进行赘述。
其中,所述第一获取模块11,包括第一获取单元111、分词单元112、语义确定单元113和第一确定单元114:
第一获取单元111,用于获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
分词单元112,用于对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果;
语义确定单元113,用于根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度;
第一确定单元114,用于将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度。
其中,所述第一获取单元111、分词单元112、语义确定单元113和第一确定单元114的具体功能实现方式请参见图3对应的实施例中的步骤S101,这里不再进行赘述。
其中,所述第一获取模块11,包括第二获取单元115、对比单元116和第二确定单元117:
第二获取单元115,用于获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对比单元116,用于对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比;
第二确定单元117,用于根据所述第一相同文本占比和所述第二相同文本占比,确定所述第一标记文本和所述第二标记文本之间的所述相似度。
其中,所述第二获取单元115、对比单元116和第二确定单元117的具体功能实现方式请参见图3对应的实施例中的步骤S101,这里不再进行赘述。
其中,所述分组模块12,还用于:
将所述多个标记文本中所述相似度达到第一相似度阈值的标记文本,划分到相同的标记文本集合。
其中,所述选择模块13,包括次数获取单元131、第三确定单元132和第三获取单元133:
次数获取单元131,用于获取所述标记文本集合中的每个标记文本对应的标记次数,根据所述每个标记文本对应的标记次数,确定所述标记文本集合对应的标记总次数;
第三确定单元132,用于将所述标记总次数最大的标记文本集合,确定为待选择集合;
第三获取单元133,用于从所述待选择集合中获取所述目标标记文本。
其中,所述次数获取单元131、第三确定单元132和第三获取单元133的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
其中,所述第三获取单元133,包括概率确定子单元1331和随机选取子单元1332:
概率确定子单元1331,用于根据所述待选择集合中的每个标记文本对应的标记次数,确定所述每个标记文本对应的概率分布;
随机选取子单元1332,用于根据所述概率分布,在所述待选择集合中随机选取所述目标标记文本。
其中,所述概率确定子单元1331和随机选取子单元1332的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
其中,所述第三获取单元133,还用于:
将所述待选择集合中,具有最大标记次数的标记文本确定为所述目标标记文本。
其中,所述生成模块14,包括读物获取单元141、检测单元142和第一发送单元143:
读物获取单元141,用于获取第一用户对应的第一历史电子读物;
检测单元142,用于当检测到所述第一历史电子读物与所述电子读物具有相同读物特征时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;
第一发送单元143,用于将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
其中,所述读物获取单元141、检测单元142和第一发送单元143的具体功能实现方式请参见图3对应的实施例中的步骤S104-步骤S106,这里不再进行赘述。
其中,所述生成模块14,包括生成单元144和第二发送单元145:
生成单元144,用于当检测到第一用户与第二用户之间的用户相似度达到第二相似度阈值,且所述第二用户对应的第二历史电子读物中包括所述电子读物时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;所述用户相似度指所述第一用户与所述第二用户的读物阅览偏好相似度;
第二发送单元145,用于将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
其中,所述生成单元144和第二发送单元145的具体功能实现方式请参见图3对应的实施例中的步骤S104-步骤S106,这里不再进行赘述。
本申请首先获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;根据所述目标标记文本,生成所述电子读物对应的推荐栏。由此可见,本申请提出的方法可根据标记文本之间的相似度,在多个标记文本中选取目标标记文本,使得得到的目标标记文本更准确,从而根据该目标标记文本生成的推荐栏也更准确。
请参见图9,是本申请提供的另一种数据处理装置的结构示意图。如图9所示,该数据处理装置2可以包括:第二获取模块21和输出模块22;
第二获取模块21,用于获取服务器发送的电子读物对应的推荐栏;所述推荐栏是根据目标标记文本所生成的;所述目标标记文本是基于标记文本集合所获得的;所述标记文本集合是基于所述电子读物中的多个标记文本之间的相似度对所述多个标记文本进行分组得到的;
输出模块22,用于将所述推荐栏输出至终端页面。
其中,所述第二获取模块21和输出模块22的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S106,这里不再进行赘述。
其中,所述数据处理装置2,还包括第一跳转模块23和第二跳转模块24:
第一跳转模块23,用于响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在章节中的起始位置页面;或者,
第二跳转模块24,用于响应针对所述终端页面中的所述推荐栏的选择操作,跳转显示所述目标标记文本所在的页面。
其中,所述第一跳转模块23和第二跳转模块24的具体功能实现方式请参见图3对应的实施例中的步骤S106,这里不再进行赘述。
本申请首先获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;根据所述目标标记文本,生成所述电子读物对应的推荐栏。由此可见,本申请提出的方法可根据标记文本之间的相似度,在多个标记文本中选取目标标记文本,使得得到的目标标记文本更准确,从而根据该目标标记文本生成的推荐栏也更准确。
请参见图10,是本申请提供的一种计算机设备的结构示意图。如图10所示,所述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述数据处理装置1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3所对应实施例中对所述数据处理方法的描述。
应当理解,本申请中所描述的计算机设备1000可执行前文图3所对应实施例中对所述数据处理方法的描述,也可执行前文图8所对应实施例中对所述数据处理装置1的描述,以及前文图9所对应实施例中对所述数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且所述计算机可读存储介质中存储有前文提及的数据处理装置1和数据处理装置2所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖范围。

Claims (15)

1.一种数据处理方法,其特征在于,应用于服务器,包括:
获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;
根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;所述电子读物对应有一个或多个标记文本集合;
根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;
根据所述目标标记文本,生成所述电子读物对应的推荐栏;所述目标标记文本为所述推荐栏中针对所述电子读物的推荐文案。
2.根据权利要求1所述的方法,其特征在于,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对所述第一标记文本进行分词,得到第一分词结果,对所述第二标记文本进行分词,得到第二分词结果;
根据所述第一分词结果和所述第二分词结果,确定所述第一标记文本和所述第二标记文本之间的语义相似度;
将所述语义相似度,确定为所述第一标记文本和所述第二标记文本之间的所述相似度。
3.根据权利要求1所述的方法,其特征在于,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
对所述第一标记文本和所述第二标记文本进行文本内容对比,得到所述第一标记文本中针对所述第二标记文本的第一相同文本占比,以及所述第二标记文本中针对所述第一标记文本的第二相同文本占比;
根据所述第一相同文本占比和所述第二相同文本占比,确定所述第一标记文本和所述第二标记文本之间的所述相似度。
4.根据权利要求1所述的方法,其特征在于,所述获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度,包括:
获取所述多个标记文本中的任意两个标记文本,作为第一标记文本和第二标记文本;
确定所述第一标记文本与第二标记文本之间的编辑距离;
根据所述编辑距离,确定所述第一标记文本和所述第二标记文本之间的相似度。
5.根据权利要求2、3或4所述的方法,其特征在于,所述根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合,包括:
将所述多个标记文本中所述相似度达到第一相似度阈值的标记文本,划分到相同的标记文本集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述标记文本集合,在所述多个标记文本中选择目标标记文本,包括:
获取所述标记文本集合中的每个标记文本对应的标记次数,根据所述每个标记文本对应的标记次数,确定所述标记文本集合对应的标记总次数;
将所述标记总次数最大的标记文本集合,确定为待选择集合;
从所述待选择集合中获取所述目标标记文本。
7.根据权利要求6所述的方法,其特征在于,所述从所述待选择集合中获取所述目标标记文本,包括:
根据所述待选择集合中的每个标记文本对应的标记次数,确定所述每个标记文本对应的概率分布;
根据所述概率分布,在所述待选择集合中随机选取所述目标标记文本。
8.根据权利要求6所述的方法,其特征在于,所述从所述待选择集合中获取所述目标标记文本,包括:
将所述待选择集合中,具有最大标记次数的标记文本确定为所述目标标记文本。
9.根据权利要求1所述的方法,其特征在于,所述根据所述目标标记文本,生成所述电子读物对应的推荐栏,包括:
获取第一用户对应的第一历史电子读物;
当检测到所述第一历史电子读物与所述电子读物具有相同读物特征时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;
将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
10.根据权利要求1所述的方法,其特征在于,所述根据所述目标标记文本,生成所述电子读物对应的推荐栏,包括:
当检测到第一用户与第二用户之间的用户相似度达到第二相似度阈值,且所述第二用户对应的第二历史电子读物中包括所述电子读物时,根据所述目标标记文本,生成所述电子读物对应的所述推荐栏;所述用户相似度指所述第一用户与所述第二用户的读物阅览偏好相似度;
将所述推荐栏发送至所述第一用户对应的终端,以使所述终端在终端页面中输出所述推荐栏。
11.一种数据处理方法,其特征在于,应用于终端,包括:
获取服务器发送的电子读物对应的推荐栏;所述推荐栏是根据目标标记文本所生成的;所述目标标记文本为所述推荐栏中针对所述电子读物的推荐文案;所述目标标记文本是基于标记文本集合所获得的;所述电子读物对应有一个或多个标记文本集合;所述一个或多个标记文本集合是基于所述电子读物中的多个标记文本之间的相似度对所述多个标记文本进行分组得到的;
将所述推荐栏输出至终端页面。
12.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取电子读物中的多个标记文本,确定所述多个标记文本中任意两个标记文本之间的相似度;所述多个标记文本均属于所述电子读物中的文本内容;
分组模块,用于根据所述相似度,对所述多个标记文本进行分组,得到标记文本集合;所述电子读物对应有一个或多个标记文本集合;
选择模块,用于根据所述标记文本集合,在所述多个标记文本中选择目标标记文本;
生成模块,用于根据所述目标标记文本,生成所述电子读物对应的推荐栏;所述目标标记文本为所述推荐栏中针对所述电子读物的推荐文案。
13.一种数据处理装置,其特征在于,包括:
第二获取模块,用于获取服务器发送的电子读物对应的推荐栏;所述推荐栏是根据目标标记文本所生成的;所述目标标记文本为所述推荐栏中针对所述电子读物的推荐文案;所述目标标记文本是基于标记文本集合所获得的;所述电子读物对应有一个或多个标记文本集合;所述一个或多个标记文本集合是基于所述电子读物中的多个标记文本之间的相似度对所述多个标记文本进行分组得到的;
输出模块,用于将所述推荐栏输出至终端页面。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-11中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-11任一项所述的方法。
CN201910867179.3A 2019-09-12 2019-09-12 一种数据处理方法、装置以及计算机可读存储介质 Active CN110597980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910867179.3A CN110597980B (zh) 2019-09-12 2019-09-12 一种数据处理方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910867179.3A CN110597980B (zh) 2019-09-12 2019-09-12 一种数据处理方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110597980A CN110597980A (zh) 2019-12-20
CN110597980B true CN110597980B (zh) 2021-04-30

Family

ID=68859301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910867179.3A Active CN110597980B (zh) 2019-09-12 2019-09-12 一种数据处理方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110597980B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590813B (zh) * 2021-01-20 2024-08-06 广州腾讯科技有限公司 文本分类方法、推荐方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020019A (zh) * 2011-09-26 2013-04-03 株式会社东芝 标记辅助设备、方法和程序
CN104216969A (zh) * 2014-08-26 2014-12-17 小米科技有限责任公司 阅读标记方法及装置
CN105488233A (zh) * 2016-01-25 2016-04-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 阅读信息推荐方法和系统
CN106611050A (zh) * 2016-12-22 2017-05-03 掌阅科技股份有限公司 电子书推荐方法、装置和服务器
CN107766547A (zh) * 2017-10-31 2018-03-06 掌阅科技股份有限公司 电子书推荐方法、电子设备及计算机存储介质
CN108763561A (zh) * 2018-06-04 2018-11-06 深圳市零度智控科技有限公司 电子书推送方法、装置及计算机可读存储介质
CN109271594A (zh) * 2018-11-21 2019-01-25 掌阅科技股份有限公司 电子书的推荐方法、电子设备及计算机存储介质
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN110096644A (zh) * 2019-04-19 2019-08-06 北京点众科技股份有限公司 一种电子书的推荐方法和装置
CN110196920A (zh) * 2018-05-10 2019-09-03 腾讯科技(北京)有限公司 文本数据的处理方法和装置、以及存储介质和电子装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN103886077B (zh) * 2014-03-24 2017-04-19 广东省电信规划设计院有限公司 短文本的聚类方法和系统
CN107368488A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种确定用户行为偏好的方法、推荐信息的展示方法和装置
CN106383877B (zh) * 2016-09-12 2020-10-27 电子科技大学 一种社交媒体在线短文本聚类和话题检测方法
CN106649597B (zh) * 2016-11-22 2019-10-01 浙江大学 一种基于图书内容的图书书后索引自动构建方法
US11003851B2 (en) * 2018-02-08 2021-05-11 Life Technologies Corporation Systems, methods and computer programs for customized natural language processing and searching based on technical terms within electronic documents
CN109213863B (zh) * 2018-08-21 2022-05-24 北京航空航天大学 一种基于学习风格的自适应推荐方法及系统
CN110162601B (zh) * 2019-05-22 2020-12-25 吉林大学 一种基于深度学习的生物医学出版物投稿推荐系统
CN110175291B (zh) * 2019-05-24 2021-09-07 武汉斗鱼网络科技有限公司 基于相似度计算的手游推荐方法、存储介质、设备及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020019A (zh) * 2011-09-26 2013-04-03 株式会社东芝 标记辅助设备、方法和程序
CN104216969A (zh) * 2014-08-26 2014-12-17 小米科技有限责任公司 阅读标记方法及装置
CN105488233A (zh) * 2016-01-25 2016-04-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 阅读信息推荐方法和系统
CN106611050A (zh) * 2016-12-22 2017-05-03 掌阅科技股份有限公司 电子书推荐方法、装置和服务器
CN107766547A (zh) * 2017-10-31 2018-03-06 掌阅科技股份有限公司 电子书推荐方法、电子设备及计算机存储介质
CN110196920A (zh) * 2018-05-10 2019-09-03 腾讯科技(北京)有限公司 文本数据的处理方法和装置、以及存储介质和电子装置
CN108763561A (zh) * 2018-06-04 2018-11-06 深圳市零度智控科技有限公司 电子书推送方法、装置及计算机可读存储介质
CN109271594A (zh) * 2018-11-21 2019-01-25 掌阅科技股份有限公司 电子书的推荐方法、电子设备及计算机存储介质
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN110096644A (zh) * 2019-04-19 2019-08-06 北京点众科技股份有限公司 一种电子书的推荐方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"文本相似度计算方法发展";曾云泽;《数字通信世界》;20181001;第218页 *
"编辑距离算法在中文文本相似度计算中的优化与实现";陈正铭;《韶关学院学报.自然科学》;20151215(第12期);第8-12页 *

Also Published As

Publication number Publication date
CN110597980A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN111143610B (zh) 一种内容推荐方法、装置、电子设备和存储介质
US11265271B2 (en) Electronic message composition support method and apparatus
US10567329B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
CN108073680B (zh) 生成具有提炼内容的演示幻灯片
RU2595594C2 (ru) Способ и устройство для автоматического аннотирования содержимого электронных документов
CN107784516B (zh) 广告投放方法和装置
US20190213251A1 (en) System, Method and Computer-Readable Storage Device for Providing Cloud-Based Shared Vocabulary/Typing History for Efficient Social Communication
US8412517B2 (en) Dictionary word and phrase determination
US7509575B2 (en) Optimization of content
CN107146112B (zh) 一种移动互联网广告投放方法
US10248644B2 (en) Method and system for transforming unstructured text to a suggestion
CN113254815A (zh) 文档处理、页面处理方法及设备
CN105138586A (zh) 一种文件查找方法及装置
JP2016510453A (ja) 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置
JP6776310B2 (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
US10146856B2 (en) Computer-implemented method and system for creating scalable content
US11646984B2 (en) Emoji recommendation system and method
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
US20140289213A1 (en) Search Engine With Term Cloud
Casadei et al. Investigating accessibility issues of UI mobile design patterns in online communities: a virtual ethnographic study
CN110597980B (zh) 一种数据处理方法、装置以及计算机可读存储介质
CN113407775B (zh) 视频搜索方法、装置及电子设备
CN113177055A (zh) 一种信息更新的方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220207

Address after: 510310 No. 1, brand area, No. 397, Xingang Middle Road, Haizhu District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU TENCENT TECHNOLOGY Co.,Ltd.

Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.