CN110807313A - 预估文本阅读时间的方法、装置、电子设备及存储介质 - Google Patents

预估文本阅读时间的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110807313A
CN110807313A CN201910979620.7A CN201910979620A CN110807313A CN 110807313 A CN110807313 A CN 110807313A CN 201910979620 A CN201910979620 A CN 201910979620A CN 110807313 A CN110807313 A CN 110807313A
Authority
CN
China
Prior art keywords
text
user
reading
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910979620.7A
Other languages
English (en)
Inventor
苏汉
张金超
牛成
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910979620.7A priority Critical patent/CN110807313A/zh
Publication of CN110807313A publication Critical patent/CN110807313A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种预估文本阅读时间的方法、装置、电子设备及存储介质,所述方法包括:确定待处理的目标文本所包含的文本内容及各个语句;基于所述文本内容及所述各个语句,计算所述目标文本的信息量;获取用户的信息量阅读速率;基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。本公开实施例能够提高预估用户对文本的阅读时间的准确度。

Description

预估文本阅读时间的方法、装置、电子设备及存储介质
技术领域
本公开涉及自然语言处理领域,具体涉及一种预估文本阅读时间的方法、装置、电子设备及存储介质。
背景技术
数字时代的今天,日常生活中人们常常会阅读数字化的文本。对用户阅读文本的阅读时间进行预估,进而预报给用户,是提升用户的数字阅读体验中的一个重要环节。
现有技术中预估文本阅读时间时,是使用文本的文本长度除以阅读速度来计算阅读时间。但相同文本长度的文本所需要的阅读时间可能大相径庭:正常情况下,相同文本长度的论文与小说,用户阅读论文所需要的阅读时间明显大于阅读小说所需要的阅读时间。而现有技术预估用户对这二者的阅读时间,结果会是:用户阅读论文所需要的阅读时间等于阅读小说所需要的阅读时间。显然,现有技术对文本阅读时间的预估不准确。
发明内容
本公开的一个目的在于提出一种预估文本阅读时间的方法、装置、电子设备及存储介质,提高预估用户对文本的阅读时间的准确度。
根据本公开实施例的一方面,公开了一种预估文本阅读时间的方法,所述方法包括:
确定待处理的目标文本所包含的文本内容及各个语句;
基于所述文本内容及所述各个语句,计算所述目标文本的信息量;
获取用户的信息量阅读速率;
基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。
根据本公开实施例的一方面,公开了一种预估文本阅读时间的装置,所述装置包括:
确定模块,用于确定待处理的目标文本所包含的文本内容及各个语句;
信息量计算模块,用于基于所述文本内容及所述各个语句,计算所述目标文本的信息量;
获取模块,用于获取用户的信息量阅读速率;
预估模块,用于基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。
根据本公开实施例的一方面,公开了一种预估阅读时间的电子设备,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行以上权利要求中的任一个所述的方法。
根据本公开实施例的一方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行以上权利要求中的任一个所述的方法。
本公开实施例的技术方案在预估文本阅读时间时,是基于文本所包含的文本内容及各个语句计算文本的信息量,进而能够更立体、精准地衡量文本的信息量,从而可以提高预估用户对文本的阅读时间的准确度。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参考附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1A示出了根据本公开一个实施例的一具体应用场景下的体系构架图。
图1B示出了根据本公开一个实施例的一具体应用场景下的体系构架图。
图2A示出了根据现有技术中一个实施例的用户端的界面图。
图2B示出了根据本公开一个实施例的用户端的界面图。
图3示出了根据本公开一个实施例的预估文本阅读时间的方法流程图。
图4示出了根据本公开一个实施例的基于文本内容及各个语句,计算目标文本的信息量的方法流程图。
图5A示出了根据本公开一个实施例的文本长度与信息量的关系图。
图5B示出了根据本公开一个实施例的文本长度与信息量的关系图。
图6示出了根据本公开一个实施例的基于文本内容及各个语句,计算目标文本的信息量的方法流程图。
图7示出了根据本公开一个实施例的预估文本阅读时间的装置模块图。
图8示出了根据本公开一个实施例的预估文本阅读时间的硬件结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
首先参考图1A、1B描述本公开实施例在具体应用场景下的表现。
图1A示出了一具体应用场景下本公开一实施例的体系架构组成:订阅号服务器10、订阅用户端20。其中,订阅号服务器10能够向订阅用户端20推送订阅号文章,用户可以于订阅用户端20上进行订阅号文章的阅读。具体的,当用户于订阅用户端20进入订阅号后,订阅用户端20于显示界面依次显示各个订阅号文章的标题。此时,订阅号服务器10即可以对用户阅读各个订阅号文章的阅读时间分别进行预估,并将预估的阅读时间下传给订阅用户端20,使得订阅用户端20能够于对应订阅号文章的标题下方对应显示预估的阅读时间,向用户进行预报。
图1B示出了另一应用场景下本公开一实施例的体系架构组成:电子图书馆服务器10、读者端20。其中,读者可以通过读者端20向电子图书馆服务器10请求阅读电子刊物。电子图书馆10收到请求后,将相应的电子刊物下传给对应的读者端20时,可以对读者阅读该电子刊物的阅读时间进行预估,并将预估的阅读时间也下传给该读者端20。使得该读者端20在将电子刊物提供给读者进行阅读时,能够于电子刊物封面的预定位置显示预估的阅读时间,向读者进行预报。
需要说明的是,图1A、图1B只是示例性地展示本公开可能的应用场景以及对应的体系架构组成,并不代表本公开只能以所示的体系架构组成适用这两种应用场景,也不代表本公开预估文本阅读时间的执行主体只能是服务器。
下面参考图2A、2B分别描述在同一具体应用场景下的:现有技术预估文本阅读时间的用户端界面、本公开实施例预估文本阅读时间的用户端界面。以在展示实际应用中本公开实施例的大体表现的同时,与现有技术进行对比。
图2A示出了在一具体应用场景下,现有技术一实施例的用户端界面:该实施例中,用户于用户端上打开订阅号消息,欲对各个订阅号推送的文章进行阅读。在用户点击目标文章进行阅读之前,现有技术的执行主体对用户阅读目标文章的时间进行预估,并于相应目标文章的标题下显示预估的阅读时间。
如图2A所示,该实施例中,预估所得的用户对目标文章的阅读时间,与目标文章的字数呈直线式的正比:目标文章“中秋节应该去哪些地方玩耍”字数1000,预估用户对其的阅读时间为1分钟;目标文章“科普:碳酸饮料的发展历程”字数3000,预估用户对其的阅读时间为3分钟;目标文章“关于唐朝服饰的简要考据介绍”字数3000,预估用户对其的阅读时间为3分钟。
图2B示出了在同一应用场景下,本公开一实施例的用户端界面:该实施例中,用户于用户端上打开订阅号消息,欲对各个订阅号推送的文章进行阅读。在用户点击目标文章进行阅读之前,本公开的执行主体对用户阅读目标文章的时间进行预估,并于相应目标文章的标题下显示预估的阅读时间。
如图2B所示,该实施例中,预估所得的用户对目标文章的阅读时间,与目标文章的字数并不呈直线式的正比:目标文章“中秋节应该去哪些地方玩耍”字数1000,预估用户对其的阅读时间为1分钟;目标文章“科普:碳酸饮料的发展历程”字数3000,预估用户对其的阅读时间为6分钟;目标文章“关于唐朝服饰的简要考据介绍”字数3000,预估用户对其的阅读时间为10分钟。
可以理解的,考虑到文本内容的差异性,即使字数相同,同样字数的娱乐内容文本与科研内容文本其实际包含的信息量也是不同的。相较于娱乐内容文本,相同字数的科研内容文本会包含更多的信息量,使得用户需要花费更多的时间对文本内容进行阅读,从而提取吸收其中的信息量。由此可见,现有技术单纯地以文本的文本长度为标准衡量文本所包含的信息量,是无法对文本阅读时间进行精确预估的。
具体的,结合常识以及图2A、图2B所示的应用场景,可以理解:即使是相同字数,文章“关于唐朝服饰的简要考据介绍”相较于文章“科普:碳酸饮料的发展历程”包含有更多的信息量,文章“科普:碳酸饮料的发展历程”相较于文章“中秋节应该去哪些地方玩耍”包含有更多的信息量。即意味着,即使是相同字数,用户阅读文章“关于唐朝服饰的简要考据介绍”相较于阅读文章“科普:碳酸饮料的发展历程”,要花费更多的时间,阅读文章“科普:碳酸饮料的发展历程”相较于阅读文本“中秋节应该去哪些地方玩耍”,要花费更多的时间。而显然,现有技术中,仅以文本的文本长度衡量文本所包含的信息量,会导致预估得到的文本阅读时间与字数呈直线式的正比,如图2A所示,而这明显是不准确的。
更为准确、更贴近实际情况的,应是如图2B所示的本公开对文本阅读时间的预估,对于包含有更多的信息量、需要用户花费更多时间去阅读的文本,预估的阅读时间更长,而不是单纯的与文本的字数呈直线式的正比。
下面对本公开实施例的具体实施过程进行详细描述。
首先,关于本公开实施例的执行主体。本公开实施例的执行主体可以为服务器,也可以为用户端。
在一实施例中,预估文本阅读时间的执行主体为服务器。该实施例中,当触发预估用户对目标文本的阅读时间时,服务器确定目标文本所包含的文本内容及各个语句,进而计算目标文本的信息量,获取用户的信息量阅读速率,进而预估用户对目标文本的阅读时间。
进一步的,结合用户在用户端的操作,该实施例的大致过程示例为:用户于用户端点击进入文本阅读界面,触发服务器预估该用户对目标文本的阅读时间。其中,服务器依次将文本阅读界面显示的每一个文本确定为用户的一个目标文本,并依次预估该用户对每一个目标文本的阅读时间。服务器确定目标文本所包含的文本内容及各个语句,进而计算目标文本的信息量,获取用户的信息量阅读速率,进而预估用户对目标文本的阅读时间,并将预估的阅读时间发送给用户端,使得用户端于文本阅读界面的目标文本标题的预定位置显示预估的阅读时间。
该实施例的优点在于,由于服务器的计算能力相比于用户端的计算能力更为强大,因此服务器能够对阅读时间进行更为快速的预估,从而提高用户的阅读体验。
在一实施例中,预估文本阅读时间的执行主体为用户端。该实施例中,当触发预估用户对目标文本的阅读时间时,用户端确定目标文本所包含的文本内容及各个语句,进而计算目标文本的信息量,获取用户的信息量阅读速率,进而预估用户对目标文本的阅读时间。
进一步的,结合用户在用户端的操作,该实施例的大致过程示例为:用户于用户端点击进入文本阅读界面,触发用户端预估该用户对目标文本的阅读时间。其中,用户端依次将文本阅读界面显示的每一个文本确定为用户的一个目标文本,并依次预估该用户对每一个目标文本的阅读时间。用户端确定目标文本所包含的文本内容及各个语句,进而计算目标文本的信息量,获取用户的信息量阅读速率,进而预估用户对目标文本的阅读时间,并将预估的阅读时间于文本阅读界面的目标文本标题的预定位置进行显示。
该实施例的优点在于,由用户端对阅读时间进行预估,使得整个文本阅读时间的预估过程不需要依赖于服务器,即使用户端处于离线状态,也能够为用户提供阅读时间的预估服务。
需要说明的是,上述关于本公开执行主体的实施例均为示例性的说明,不应对本公开的功能和使用范围造成限制。
如图3所示,一种预估文本阅读时间的方法,包括:
步骤310、确定待处理的目标文本所包含的文本内容及各个语句;
步骤320、基于所述文本内容及所述各个语句,计算所述目标文本的信息量;
步骤330、获取用户的信息量阅读速率;
步骤340、基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。
目标文本是指可以视为用户阅读目标对象的文本。
目标文本的信息量用于衡量目标文本所包含的信息量的多少。需要注意的是,现有技术中的信息量是自行定义的、以文本长度作为目标文本所包含信息量的量纲,并非通信领域所严格定义的基于香农信息论计算所得的信息量。本公开的信息量也是一种自行定义的量纲,与现有技术的区别在于,本公开基于文本内容及各个语句计算目标文本的信息量,能够更立体地表达目标文本的信息量,而非单纯以文本长度计算目标文本的信息量。
在一实施例中,目标文本为用户端文本阅读界面所展示的各个文本。
该实施例中,用户端文本阅读界面中的每个文本均为目标文本。本公开的执行主体按照本公开所提供的方法,依次预估用户对每一个目标文本的阅读时间。
该实施例的优点在于,自动预估用户对用户端文本阅读界面中的每一个文本的阅读时间,能够向用户批量显示多个文本的预估阅读时间。
在一实施例中,目标文本为用户的阅读指令所指示的文本。
该实施例中,接收到用户对文本的阅读指令后,本公开的执行主体将阅读指令所指示的文本作为目标文本,按照本公开所提供的方法,对用户对目标文本的阅读时间进行预估。
该实施例的优点在于,只预估用户所指示的文本的阅读时间,减小了运算量,提高了运算资源的利用率。
在一实施例中,阅读指令响应于用户在用户端上对文本的预定手势而产生。其中,对文本的预定手势包括但不限于:对文本标题的点击、对文本标题的左滑。
在一实施例中,阅读指令为用户于用户端上对文本的语音指令。该实施例中,用户可通过对用户端下达语音指令,来指示目标文本。
需要说明的是,上述关于阅读指令的实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
本公开实施例中,确定目标文本包含的文本内容及目标文本包含的各个语句,在此基础上计算目标文本的信息量。获取用户的信息量阅读速率,进而基于目标文本的信息量以及用户的信息量阅读速率,预估用户对目标文本的阅读时间。
下面对本公开各步骤的具体过程进行详细描述。
步骤310、确定待处理的目标文本所包含的文本内容及各个语句。
在一实施例中,所述确定待处理的目标文本所包含的文本内容及各个语句,包括:
确定所述目标文本所包含的文本内容;
对所述文本内容进行分句,得到所述文本内容的分句结果。
该实施例中,确定待处理的目标文本后,提取并确定目标文本所包含的文本内容。对该文本内容进行分句,得到该文本内容的分句结果,进而能够确定目标文本所包含的各个语句。具体的,能够从该文本内容的分句结果中,确定目标文本包含的语句个数以及各个语句的内容。其中,可以使用现有分句方法对文本内容进行分句,故在此不再赘述对文本内容进行分句的具体过程。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
下面描述基于文本内容及各个语句,计算目标文本的信息量的具体过程。
步骤320、基于所述文本内容及所述各个语句,计算所述目标文本的信息量。
在一实施例中,如图4所示,所述基于所述文本内容及所述各个语句,计算所述目标文本的信息量,包括:
步骤3201、获取所述文本内容中每个词语的词向量;
步骤3202、基于所述文本内容中每个词语的词向量、所述各个语句所包含的词语及预设的凸包算法,分别计算所述各个语句的凸包体积;
步骤3203、计算所述各个语句的凸包体积之和,根据所述凸包体积之和确定所述目标文本的信息量。
凸包,即Convex Hull,是指在一个实数向量空间V中,对于给定的集合X,所有包含X的凸集的交集S被称为集合X的凸包。在二维欧几里德空间中,凸包可想象为一条刚好包着所有点的橡皮圈,进一步的,拓展到多维空间中,凸包可以想象为刚好包围所有点的凸状体。具体到该实施例中,可以将目标文本所包含的各个语句分别作为一个集合,将语句中的各个词语分别作为该集合中的一个点,则语句中的各个词语能够共同组成一个凸包。使用凸包的体积来衡量对应语句的信息量,进而确定目标文本的信息量。
词向量是指以向量形式表示的词语,不同的词语对应的词向量也不同,词向量定位了对应词语在向量空间中的唯一位置。因此,通过词向量能够确定各个词语两两间在向量空间中的距离,进而能够确定各个词语在向量空间中共同组成的凸包的体积,进而确定目标文本的信息量。
由于用户在阅读文本时,并非将整个文本读完后再提取、吸收其中的信息。可以理解的,用户在阅读文本时,是每读完一个语句就短暂停顿,对该语句包含的信息进行提取、吸收。因此,该实施例中,是将各个语句分别作为一个凸包,基于每个词语的词向量分别进行计算各个语句的凸包体积,再根据各个语句的凸包体积之和确定目标文本的信息量。
该实施例中,获取目标文本所包含的文本内容中的每个词语的词向量。对于文本内容中的各个语句,基于每个词语的词向量、各个语句所包含的词语及预设的凸包算法,分别计算各个语句的凸包体积。根据各个语句的凸包体积之和确定目标文本的信息量。
该实施例的优点在于,通过词向量能够更为精准地衡量词语之间的意义相近程度,进一步的,在词向量的基础上以凸包体积衡量语句的信息量、以凸包体积之和衡量文本的信息量,使得对信息量的衡量更为立体、精准。
在一实施例中,所述获取所述文本内容中每个词语的词向量,包括:
对所述文本内容进行分词,得到所述文本内容的分词结果;
基于预训练的词向量模型对所述分词结果进行处理,得到所述文本内容中每个词语的词向量。
该实施例中,确定目标文本所包含的文本内容及各个语句后,对该文本内容进行分词,得到对应的分词结果。进而基于预训练的词向量模型对该分词结果进行处理,得到该文本内容中每个词语的词向量。
在一实施例中,所述词向量模型为BERT模型,即Bidirectional EncoderRepresentations from Transformers模型,是一种Google开源的预训练语言的表示方法。通过BERT模型,能够得到文本内容中的各个词语的词向量。具体的,使用BERT模型对每个词语进行嵌入embedding处理,将后四层叠加得到每个词语的词向量。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,通过以下方法确定各个语句所包含的词语:基于所述文本内容的分句结果、分词结果,确定所述各个语句所包含的各个词语。
该实施例中,通过对文本内容进行分句、分词,从而能够根据分句结果、分词结果,确定各个语句已经各个语句所包含的各个词语。
进一步的,获取文本内容中每个词语的词向量、并确定了各个语句所包含的各个词语后,即可以使用预设的凸包算法计算各个语句的凸包体积。其中,计算各个语句的凸包体积时使用的凸包算法是现有技术,故在此不对凸包算法的具体内容进行赘述。
在一实施例中,所述根据所述凸包体积之和确定所述目标文本的信息量,包括:
将各个语句的凸包体积之和确定为所述目标文本的信息量。
可以理解的,可以将用户对目标文本的信息量的获取过程,看作对于目标文本所包含的文本内容的各部分都是平均的。即,认为用户在阅读目标文本时,不论是目标文本所包含的文本内容的开头,还是中间,亦或是结尾,均是以等同速率阅读的。故该实施例中,直接将各个语句的凸包体积进行相加,将得到的凸包体积之和确定为目标文本的信息量。
例如:若目标文本中包含有5个语句,这5个语句的凸包体积依次为——100单位、200单位、150单位、100单位、200单位,则目标文本的信息量为(100+200+150+100+200)=750单位。
具体的,该实施例可以通过以下公式计算目标文本的信息量:
其中,I代表目标文本的信息量;i代表语句的次序数;n代表目标文本中语句的个数;Vhull代表计算凸包体积的方程;fhull代表计算凸包的方程;e代表词语的词向量;Emb(e)代表计算词语的词向量的方程;sentencei代表目标文本中第i个语句。其中,Vhull以及fhull共同组成了上述预设的凸包算法的数学化表示;Emb(e)则是上述预训练的词向量模型的数学化表示。
该实施例优点在于,直接将各个语句的凸包体积之和相加计算得到目标文本的信息量,计算过程简洁、迅速。
在一实施例中,所述根据所述凸包体积之和确定所述目标文本的信息量,包括:
基于对各个语句预设的权重,将各个语句的凸包体积的权重和确定为所述目标文本的信息量。
可以理解的,尽管目标文本的信息量在其所包含的文本内容中一般是平均分布的,但用户对目标文本的信息量的获取过程,对于目标文本所包含的文本内容的各部分可能不是平均的。进一步的,由于大众的阅读习惯更偏向于对于文本的开头、结尾进行细致阅读,对于文本的中间的阅读较为粗略。因此,用户在阅读目标文本时,相比于对于目标文本所包含的文本内容的中间,用户对于目标文本所包含的文本内容的开头及结尾的信息量的获取率更高。例如:目标文本所包含的文本内容的开头及结尾包含有1000个单位的信息量,中间包含有2000个单位的信息量。由于用户对于开头及结尾的阅读更细致,用户实际获取到开头及结尾的信息量为900个单位的信息量(对应的获取率为90%),实际获取到中间的信息量为1600个单位的信息量(对应的获取率为80%)。
由于相比于文本自身所包含的信息量,用户实际获取到的信息量才是更为直接地影响着用户的阅读时间的因素。故该实施例中,针对目标文本的各个语句,预设对应的权重,将各个语句的凸包体积的权重和确定为目标文本的信息量,以在此基础上更为精准地预估用户对目标文本的阅读时间。
在一实施例中,对各个语句预设权重,包括:按照预设的区域及对应权重划分规则,对目标文本所包含的文本内容进行区域划分,对各个区域所包含的语句分别分配对应的权重。
该实施例中,确定目标文本所包含的文本内容及各个语句后,按照预设的区域及对应权重划分规则对该文本内容进行区域划分,并对各个区域所包含的语句分别分配对应的权重。
例如:预设的区域及对应权重划分规则为——将文本内容的前20%划分为开头区域,对其中所包含的各个语句分配对应的权重为0.9;将文本内容的后20%划分为结尾区域,对其中所包含的各个语句分配对应的权重为0.9;将文本内容的其余部分划分为中间区域,对其中所包含的各个语句分配的权重为0.8。
若目标文本中包含有5个语句,这5个语句的凸包体积依次为——100单位、200单位、150单位、100单位、200单位,则目标文本的信息量为(100×0.9+200×0.8+150×0.8+100×0.8+200×0.9)=630单位。
该实施例的优点在于,通过对文本内容进行区域划分、分配权重,在此基础上计算得到的目标文本的信息量,更为贴近用户对目标文本的信息的实际获取量。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
下面描述基于文本内容及各个语句,计算目标文本的信息量的另一种具体过程。
在一实施例中,所述基于所述文本内容及所述各个语句,计算所述目标文本的信息量,包括:
根据所述文本内容及所述各个语句,确定所述文本内容的文本长度和目标文本所包含的语句个数;
计算所述文本长度与所述语句个数的乘积,根据所述文本长度与所述语句个数的乘积确定所述目标文本的信息量。
具体的,经过大量实验发现:上述基于每个词语的词向量进而根据凸包体积之和确定出的信息量,与文本长度与语句个数的乘积存在一定的关联。更具体的,基于每个词语的词向量,进而根据凸包体积之和确定出的信息量,与文本长度与语句个数的乘积的平方根确定出的信息量的分布近似。
如图5A、图5B所示,其中,图5A示出了基于每个词语的词向量进而根据凸包体积之和确定出的信息量、与文本长度的关系图;图5B示出了根据文本长度与语句个数的乘积确定出的信息量、与文本长度与语句个数乘积的关系图,具体的,图5B示出了根据文本长度与语句个数的乘积的平方根确定出的信息量、与文本长度与语句个数乘积的平方根的关系图。
其中,L代表文本长度;n代表语句个数;1e7代表107,用于表示坐标数字的数量级。具体的,图5A中:横坐标为文本长度,纵坐标为信息量;图5B中:横坐标为文本长度与语句个数的乘积的平方根,纵坐标为信息量。
图5A中各点的分布近似一条正斜率的直线,图5B中各点的分布同样近似一条正斜率的直线。由此可见,图5B对信息量的表达效果与图5A对信息量的表达效果是很相近的。
故该实施例提供了一种能够达到与上述基于每个词语的词向量进而根据凸包体积之和确定出的信息量具有相似效果的方法,能够更为快速地计算出目标文本的信息量。具体的,该实施例中,确定目标文本所包含的文本内容的文本长度、及目标文本所包含的语句个数。计算文本长度与语句个数的乘积,进而根据文本长度与语句个数的乘积确定目标文本的信息量。
在一实施例中,所述根据所述文本长度与所述语句个数的乘积确定所述目标文本的信息量,包括:
将所述文本长度与所述语句个数的乘积的平方根乘以预设的正数,得到所述目标文本的信息量。
该实施例中,由于基于每个词语的词向量,进而根据凸包体积之和确定出的信息量,与文本长度与语句个数的乘积的平方根确定出的信息量的分布近似。更具体的,可以看作目标文本的信息量与其对应的文本长度与语句个数的乘积的平方根近似正比。故,将文本长度与语句个数的乘积的平方根乘以预设的正式,得到目标文本的信息量。
具体的,该实施例可以通过以下公式计算目标文本的信息量:
Figure BDA0002234747570000141
其中,n代表语句个数,L代表文本长度,I代表目标文本的信息量。通过该公式可知目标文本的信息量正比于文本长度与语句个数的乘积的平方根,故可以预设一正数,将该正数乘以文本长度与语句个数的乘积的平方根,从而得到目标文本的信息量。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
下面描述基于文本内容及各个语句,计算目标文本的信息量的另一种具体过程。
在一实施例中,如图6所示,所述基于所述文本内容及所述各个语句,计算所述目标文本的信息量,包括:
步骤3201'、基于所述文本内容及所述各个语句,确定所述目标文本的信息密度和所述文本内容的文本长度;
步骤3202'、计算所述信息密度与所述文本长度的乘积,根据所述信息密度与所述文本长度的乘积确定所述目标文本的信息量。
该实施例中,为了减小计算量,可以先基于文本内容及各个语句,确定目标文本的信息密度和文本内容的文本长度,进而根据信息密度与文本长度的乘积确定目标文本的信息量。其中,由于目标文本的信息密度可以通过对目标文本进行采样,进而对采样所得的部分文本进行信息密度的计算,从而避免了对目标文本每个语句的凸包体积的计算,减小了计算量。
在一实施例中,所述基于所述文本内容及所述各个语句,确定所述目标文本的信息密度,包括:
根据所述文本内容及所述各个语句,确定所述目标文本的指定片段所包含的文本内容和语句;
基于所述指定片段所包含的文本内容及语句,计算所述指定片段的信息量;
计算所述指定片段的信息量与所述指定片段所包含的文本内容的文本长度之间的比值,根据所述比值确定所述目标文本的信息密度。
可以理解的,同一篇文本中包含的信息量大致均匀分布,即使是位于目标文本的不同片段,各片段的信息密度大致相同的。因此,该实施例中,指定目标文本中用于计算信息密度的片段,计算该指定片段的信息量,进而根据该指定片段的信息量与该指定片段所包含的文本内容的文本长度的比值,确定目标文本的信息密度。
例如:确定待处理的目标文本所包含的文本内容及各个语句后,将文本内容前10%的片段指定为用于计算目标文本的信息密度的指定片段。进而确定该前10%的片段所包含的文本内容及语句,进而计算该指定片段的信息量。若计算得到该指定片段的信息量为100个单位的信息量,且该指定片段所包含的文本内容的文本长度为1000,则目标文本的信息密度为100/1000=0.1(单位信息量/单位长度)。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,所述基于所述指定片段所包含的文本内容及语句,计算所述指定片段的信息量,包括:
获取所述文本内容中每个词语的词向量;
基于所述文本内容中每个词语的词向量、所述各个语句所包含的词语及预设的凸包算法,分别计算所述各个语句的凸包体积;
计算所述各个语句的凸包体积之和,根据所述凸包体积之和确定所述目标文本的信息量。
该实施例的具体实施过程与上述基于目标文本的文本内容及各个语句计算目标文本的信息量同理,故在此不再赘述。
在一实施例中,所述基于所述指定片段所包含的文本内容及语句,计算所述指定片段的信息量,包括:
根据所述文本内容及所述各个语句,确定所述文本内容的文本长度和目标文本所包含的语句个数;
计算所述文本长度与所述语句个数的乘积,根据所述文本长度与所述语句个数的乘积确定所述目标文本的信息量。
该实施例的具体实施过程与上述基于目标文本的文本长度与语句个数的乘积计算目标文本的信息量同理,故在此不再赘述。
需要说明的是,可以在该实施例所示的计算指定片段的信息量的方法基础上,通过以下公式计算目标文本的信息密度:
Figure BDA0002234747570000161
其中,D代表目标文本的信息密度;I代表目标文本的信息量;L代表目标文本的文本长度;ΔI代表指定片段的信息量;ΔL代表指定片段的文本长度;Δn代表指定片段的文本长度。具体的,由于
Figure BDA0002234747570000162
Figure BDA0002234747570000163
Figure BDA0002234747570000164
通过该公式,只需确定指定片段的语句个数与指定片段的文本长度,便可以直接计算得到目标文本的信息密度,提高了目标文本的信息密度的计算速度。
下面描述获取用户的信息量阅读速率及预估用户对目标文本的阅读时间的具体过程。
步骤330、获取用户的信息量阅读速率。
步骤340、基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。
在一实施例中,所述获取用户的信息量阅读速率,包括:
获取用户的历史阅读文本的信息量及用户对所述历史阅读文本的阅读时间;
基于所述历史阅读文本的信息量及所述阅读时间,获取用户的信息量阅读速率。
该实施例中,从用户的历史阅读文本中确定用户的信息量阅读速率。具体的,确定用户的历史阅读文本的信息量、以及用户对历史阅读文本的阅读时间,进而在此基础上确定用户的信息量阅读速率。
具体的,可通过以下公式计算用户的信息量阅读速率:
Figure BDA0002234747570000173
其中,∑I代表用户的历史阅读文本的信息量;∑T代表用户对历史阅读文本的阅读时间;v代表用户的信息量阅读速率。
进一步的,可通过以下公式计算目标文本的阅读时间:
Figure BDA0002234747570000171
其中,p代表目标文本p;tp代表用户阅读目标文本p的阅读时间;Ip代表目标文本p的信息量;v代表用户的信息量阅读速率。
进一步的,结合基于文本长度与语句个数的乘积确定目标文本的信息量以及相关公式,可得到以下计算目标文本的阅读时间的公式:
Figure BDA0002234747570000172
其中,Dp代表目标文本p的信息量密度;Lp代表目标文本p的文本长度;Δnp代表目标文本p中指定片段的语句个数;ΔLp代表目标文本p中指定片段的文本长度。
通过该公式,可以得知:只需根据目标文本指定片段的文本长度、目标文本指定片段的语句个数、目标文本的文本长度、用户的信息量阅读速率,便可以直接预估得到用户对目标文本的阅读时间。
在一实施例中,用户的历史阅读文本的记录存储在服务器。
该实例例中,可以由服务器将用户的历史阅读文本提取出,发送给该实施例的执行主体,使得该执行主体计算出用户的历史阅读文本的信息量以及用户对该历史阅读文本的阅读时间,进而在此基础上获取用户的信息量阅读速率。该执行主体既可以为服务器,也可以为用户端。
该实施例中,也可以由服务器计算出用户的历史阅读文本的信息量以及用户对该历史阅读文本的阅读时间后,将该历史阅读文本的信息量及用户对该历史阅读文本的阅读时间发送给该实施例的执行主体,进而在此基础上获取用户的信息量阅读速率。该执行主体既可以为服务器,也可以为用户端。
该实施例的优点在于,由服务器集中存储用户的历史阅读文本的记录,使得服务器能够集中处理批量用户的历史阅读文本的记录,进而能够在此基础上进行进一步的大数据分析,以实现更精准的阅读时间预估。
在一实施例中,用户的历史阅读文本的记录存储在用户端。
该实施例中,可以由用户端将用户的历史阅读文本提取出,发送给该实施例的执行主体,使得该执行主体计算出用户的历史阅读文本的信息量以及用户对该历史阅读文本的阅读时间,进而在此基础上获取用户的信息量阅读速率。该执行主体既可以为服务器,也可以为用户端。
该实施例中,也可以由用户端计算出用户的历史阅读文本的信息量以及用户对该历史阅读文本的阅读时间后,将该历史阅读文本的信息量及用户对该历史阅读文本的阅读时间发送给该实施例的执行主体,进而在此基础上获取用户的信息量阅读速率。该执行主体既可以为服务器,也可以为用户端。
该实施例的优点在于,各个用户端分别存储对应用户的历史阅读文本的记录,提高了用户的隐私安全性。
在一实施例中,用户端与服务器无法连接,即用户端处于离线状态。该实施例的执行主体只能为用户端,只能由用户端预估文本阅读时间。
例如:用户要在一离线的用户端上阅读本地离线存储的电子书。该用户端确定用户目标阅读的电子书所包含的文本内容及各个语句,进而在此基础上计算该目标阅读的电子书的信息量。该用户端根据用户端存储的用户历史阅读的电子书的记录,基于这些历史阅读的电子书确定用户的信息量阅读速率,进而预估用户对该目标阅读的电子书的阅读时间。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,用户端与服务器能够连接,且该实施例的执行主体为服务器,但用户的历史阅读文本的记录存储在用户端。该实施例中,服务器计算目标文本的信息量的同时,可以由用户端负责用户的历史阅读文本的信息量的计算、及用户对所述历史阅读文本的阅读时间的计算。再由用户端将用户的历史阅读文本的信息量及用户对所述历史阅读文本的阅读时间上传至服务器。服务器在此基础上确定用户的信息量阅读速率,进而结合目标文本的信息量预估用户对目标文本的阅读时间。
例如:用户要在用户端上阅读一订阅号推送的论文,该用户的历史阅读文本的记录均存储在用户端,具体的,只有该用户历史阅读的电子书的记录存储在用户端。服务器计算该论文的信息量的同时,由用户端根据用户端存储的用户历史阅读的电子书的记录,基于这些历史阅读的电子书计算这些历史阅读的电子书的信息量及用户对这些历史阅读的电子书的阅读时间,并将这些历史阅读的电子书的信息量及用户对这些历史阅读的电子书的阅读时间发送给服务器,服务器在此基础上确定用户的信息量阅读速率,进而结合该论文的信息量预估用户对该论文的阅读时间。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,所述用户的历史阅读文本为预定周期内用户的历史阅读文本。
该实施例中,以触发预估目标文本的阅读时间的时间点为基准时间点,获取在基准时间点之前的预定周期内用户的历史阅读文本。进而从该历史阅读文本中确定用户的信息量阅读速率。
例如:预定周期为一周。在“8/19日14:00”触发预估目标文本的阅读时间,以该时间点为基准时间点,获取“8/12日14:00”到“8/19日14:00”之间用户的历史阅读文本。进而从这些历史阅读文本中确定用户的信息量阅读速率。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,所述用户的历史阅读文本为用户的所有历史阅读文本。
该实施例中,以触发预估目标文本的阅读时间的时间点为基准时间点,获取在基准时间点之前的用户的所有历史阅读文本。进而从该历史阅读文本中确定用户的信息量阅读速率。
例如:在“8/19日14:00”触发预估目标文本的阅读时间,以该时间点为基准时间点,获取在“8/19日14:00”之前用户的所有历史阅读文本。进而从这些历史阅读文本中确定用户的信息量阅读速率。
该实施例的优点在于,随着时间的推移,积累的用户的历史阅读文本的记录越来越多,相应的,对用户阅读目标文本的时间的预估将越来越准确。
进一步的,在一实施例中,每当触发预估目标文本的阅读时间,获取基准时间点之前的用户的所有历史阅读文本,确定该历史阅读文本的信息量及用户对该历史阅读文本的阅读时间后,将该次的基准时间点、该历史阅读文本的信息量及用户对该历史阅读文本的阅读时间进行记录。当下一次触发预估目标文本的阅读时间时,获取该次的基准时间点与下一次的基准时间点之间的用户的历史阅读文本,确定在这两次基准时间点之间的历史阅读文本的信息量以及对应的阅读时间,并分别与记录的信息量及对应的阅读时间进行相加,从而确定在下一次的基准时间点之前的用户的所有历史阅读文本的信息量及对应的阅读时间。
例如:在“1/1日00:00”触发预估目标文本的阅读时间,确定在“1/1日00:00”之前的所有历史阅读文本的信息量为1000个单位的信息量,对应的阅读时间为10分钟,进行记录存储;下一次触发预估目标文本的阅读时间是在“4/5日00:00”,则该次获取在“1/1日00:00”与“4/5日00:00”之间的用户的所有历史阅读文本,确定在这段时间之间的历史阅读文本的信息量为200个单位的信息量,对应的阅读时间为2分钟。则根据存储的记录,可以确定在“4/5日00:00”之前的所有历史阅读文本的信息量为1000+200=1200个单位的信息量,对应的阅读时间为10+2=12分钟,并进行记录存储。
该实施例的优点在于,避免了对已经计算所得的参数的重复计算,降低了计算量,提高了计算效率。
在一实施例中,所述获取用户的信息量阅读速率,包括:获取各个用户的信息量阅读速率。
基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间,包括:基于所述目标文本的信息量及所述各个用户的信息量阅读速率,预估所述各个用户对所述目标文本的阅读时间。
该实施例中,对于不同的用户针对性地分别确定各个用户端信息量阅读速率。具体的,针对特定的用户,获取该特定用户的历史阅读文本的信息量及该特定用户对所述历史阅读文本的阅读时间,进而确定该特定用户的信息量阅读速率。从而对于同一目标文本,基于该目标文本的信息量及各个用户的信息量阅读时间,分别预估各个用户对该目标文本的阅读时间。
例如:订阅号将同一个目标文本分别推送给该订阅号的100个订阅用户。对于这100个订阅用户中的每一个订阅用户,分别获取该订阅用户的历史阅读文本的信息量及该订阅用户的信息量阅读速率,进而结合该目标文本的信息量,预估该订阅用户对该目标文本的阅读时间。
该实施例的优点在于,能够为各个用户提供个性化的阅读时间预估服务。
在一实施例中,获取用户的信息量阅读速率,包括:获取目标用户集群的信息量阅读速率。
基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间,包括:基于所述目标文本的信息量及所述目标用户集群的信息量阅读速率,预估所述目标用户集群中的各个用户对所述目标文本的阅读时间。
目标用户集群是指待预估阅读时间的用户所在的用户集群。
该实施例中,预先将用户进行划分,得到各个用户集群,对于同一用户集群中的任一用户确定出的信息量阅读速率均相同。具体的,目标用户集群的信息量阅读速率是目标用户集群中每一用户的信息量阅读速率的均值,代表着待预估阅读时间的用户的信息量阅读速率。
在一实施例中,获取目标用户集群的信息量阅读速率,包括:
获取所述目标用户集群中的至少一个用户的历史阅读文本的信息量、及所述至少一个用户对所述历史阅读文本的阅读时间;
根据所述至少一个用户的历史阅读文本的信息量计算所述目标用户集群对应的历史阅读文本的信息量之和,根据所述至少一个用户对所述历史阅读文本的阅读时间计算所述用户集群对应的阅读时间之和;
根据所述用户集群对应的历史阅读文本的信息量之和与所述用户集群对应的阅读时间之和,得到所述目标用户集群对应的信息量阅读速率。
该实施例中,从目标用户集群中选取至少一个用户,获取该至少一个用户的历史阅读文本的信息量、及对应的阅读时间,进而在此基础上确定目标用户集群对应的历史阅读文本的信息量之和、及对应的阅读时间之和,从而确定目标用户集群对应的信息量阅读速率。
例如:订阅号将同一个目标文本分别推送给该订阅号的目标用户集群,该目标用户集群中有100个订阅用户。从该目标用户集群中随机选取20个订阅用户,分别获取这20个订阅用户的历史阅读文本的信息量及对应的阅读时间,进而确定这20个订阅用户的历史阅读文本的信息量之和、及对应的阅读时间之和。若这20个订阅用户的历史阅读文本的信息量之和为3000个单位的信息量、对应的阅读时间之和为300单位时间,则该目标用户集群对应的信息量阅读速率为3000/300=10(单位信息量/单位时间)。则该目标用户集群中每个订阅用户的信息量阅读速率为10(单位信息量/单位时间)。
该实施例的优点在于,将目标用户集群的阅读时间作为该目标用户集群中每个用户的阅读时间,更具有普适性。
在一实施例中,所述目标用户集群中的至少一个用户为所述目标用户集群中的所有用户。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,获取用户的信息量阅读速率,包括:
确定所述目标文本所属的文本类别;
获取所述用户针对所述文本类别的信息量阅读速率。
可以理解的,由于用户日常接触的各个领域的频率存在差异,同一用户对于不同类别的信息的提取、吸收速度是不同的。不同类别的文本,即使信息量相同,同一用户对这些文本的阅读速率也是不同的。例如:用户为物理学家,日常接触物理领域最为频繁。一篇为关于万有引力的文本,其信息量为1000个单位的信息量;一篇为关于植物嫁接的文本,其信息量也为1000个单位的信息量。但显然,用户阅读前者的速率比阅读后者的速率更高,花费的时间更少。
同理,随着不同用户日常接触的领域不同,即使是相同的信息量,对于不同类别的信息,不同用户的提取、吸收速度也是不同的。这就导致了即使是具有相同信息量的文本,不同用户对其的阅读速率也是不同的。例如:用户甲为物理学家,用户乙为化学家,待处理的目标文本为一篇关于万有引力的文本。由于日常接触到的领域不同,相较于用户乙,用户甲能够以更高的速率、更少的时间阅读完毕该篇文本。
因此,针对性确定用户对目标文本所属的文本类别的信息量阅读速率,能够更精准的预估用户对目标文本的阅读时间。
在一实施例中,获取所述用户针对所述文本类别的信息量阅读速率,包括:
从所述用户的历史阅读文本中获取属于所述文本类别的目标历史阅读文本及所述用户对所述目标历史阅读文本的阅读时间;
基于所述目标历史阅读文本的信息量及所述用户对所述目标历史阅读文本的阅读时间,获取所述用户针对所述文本类别的信息量阅读速率。
目标历史阅读文本是指用于确定用户的信息量阅读速率的历史阅读文本。具体的,该实施例中,目标历史阅读文本是指与目标文本同属同一文本类别的历史阅读文本。
该实施例中,确定目标文本所属的文本类别之后,从用户的历史阅读文本中获取该文本类别的目标历史阅读文本,进而基于目标历史阅读文本的信息量及用户对目标历史阅读文本的阅读时间,确定用户针对该文本类别的信息量阅读速率。
根据本公开一实施例,如图7所示,还提供了一种预估文本阅读时间的装置,所述装置包括:
确定模块410,用于确定待处理的目标文本所包含的文本内容及各个语句;
信息量计算模块420,用于基于所述文本内容及所述各个语句,计算所述目标文本的信息量;
获取模块430,用于获取用户的信息量阅读速率;
预估模块440,用于基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。
在本公开的一示例性实施例中,信息量计算模块420配置为:
获取所述文本内容中每个词语的词向量;
基于所述文本内容中每个词语的词向量、所述各个语句所包含的词语及预设的凸包算法,分别计算所述各个语句的凸包体积;
计算所述各个语句的凸包体积之和,根据所述凸包体积之和确定所述目标文本的信息量。
在本公开的一示例性实施例中,信息量计算模块420配置为:
对所述文本内容进行分词,得到所述文本内容的分词结果;
基于预训练的词向量模型对所述分词结果进行处理,得到所述文本内容中每个词语的词向量。
在本公开的一示例性实施例中,信息量计算模块420配置为:
根据所述文本内容及所述各个语句,确定所述文本内容的文本长度和目标文本所包含的语句个数;
计算所述文本长度与所述语句个数的乘积,根据所述文本长度与所述语句个数的乘积确定所述目标文本的信息量。
在本公开的一示例性实施例中,信息量计算模块420配置为:
基于所述文本内容及所述各个语句,确定所述目标文本的信息密度和所述文本内容的文本长度;
计算所述信息密度与所述文本长度的乘积,根据所述信息密度与所述文本长度的乘积确定所述目标文本的信息量。
在本公开的一示例性实施例中,信息量计算模块420配置为:
根据所述文本内容及所述各个语句,确定所述目标文本的指定片段所包含的文本内容和语句;
基于所述指定片段所包含的文本内容及语句,计算所述指定片段的信息量;
计算所述指定片段的信息量与所述指定片段所包含的文本内容的文本长度之间的比值,根据所述比值确定所述目标文本的信息密度。
在本公开的一示例性实施例中,获取模块430配置为:
获取用户的历史阅读文本的信息量及用户对所述历史阅读文本的阅读时间;
基于所述历史阅读文本的信息量及所述阅读时间,获取用户的信息量阅读速率。
在本公开的一示例性实施例中,获取模块430配置为:获取各个用户的信息量阅读速率;
预估模块440配置为:基于所述目标文本的信息量及所述各个用户的信息量阅读速率,预估所述各个用户对所述目标文本的阅读时间。
在本公开的一示例性实施例中,获取模块430配置为:获取目标用户集群的信息量阅读速率;
预估模块440配置为:基于所述目标文本的信息量及所述目标用户集群的信息量阅读速率,预估所述目标用户集群中的各个用户对所述目标文本的阅读时间。
在本公开的一示例性实施例中,获取模块430配置为:
获取所述目标用户集群中的至少一个用户的历史阅读文本的信息量、及所述至少一个用户对所述历史阅读文本的阅读时间;
根据所述至少一个用户的历史阅读文本的信息量计算所述用户集群对应的历史阅读文本的信息量之和,根据所述至少一个用户对所述历史阅读文本的阅读时间计算所述用户集群对应的阅读时间之和;
根据所述用户集群对应的历史阅读文本的信息量之和与所述用户集群对应的阅读时间之和,得到所述目标用户集群对应的信息量阅读速率。
在本公开的一示例性实施例中,获取模块430配置为:
确定所述目标文本所属的文本类别;
获取所述用户针对所述文本类别的信息量阅读速率。
在本公开的一示例性实施例中,获取模块430配置为:
从所述用户的历史阅读文本中获取属于所述文本类别的目标历史阅读文本及所述用户对所述目标历史阅读文本的阅读时间;
基于所述目标历史阅读文本的信息量及所述用户对所述目标历史阅读文本的阅读时间,获取所述用户针对所述文本类别的信息量阅读速率。
本公开实施例的预估文本阅读时间的方法可以由上述说明中既可以为服务器也可以为用户端的执行主体实现。下面参考图8来描述根据本公开实施例的执行主体50。图8显示的执行主体50仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,执行主体50以通用计算设备的形式表现。执行主体50的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图3中所示的各个步骤。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
执行主体50也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该执行主体50交互的设备通信,和/或与使得该执行主体50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,执行主体50还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与执行主体50的其它模块通信。应当明白,尽管图中未示出,可以结合执行主体50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本公开的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RGM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如JGvG、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(KGN)或广域网(WGN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (15)

1.一种预估文本阅读时间的方法,其特征在于,所述方法包括:
确定待处理的目标文本所包含的文本内容及各个语句;
基于所述文本内容及所述各个语句,计算所述目标文本的信息量;
获取用户的信息量阅读速率;
基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本内容及所述各个语句,计算所述目标文本的信息量,包括:
获取所述文本内容中每个词语的词向量;
基于所述文本内容中每个词语的词向量、所述各个语句所包含的词语及预设的凸包算法,分别计算所述各个语句的凸包体积;
计算所述各个语句的凸包体积之和,根据所述凸包体积之和确定所述目标文本的信息量。
3.根据权利要求2所述的方法,其特征在于,所述获取所述文本内容中每个词语的词向量,包括:
对所述文本内容进行分词,得到所述文本内容的分词结果;
基于预训练的词向量模型对所述分词结果进行处理,得到所述文本内容中每个词语的词向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所述文本内容及所述各个语句,计算所述目标文本的信息量,包括:
根据所述文本内容及所述各个语句,确定所述文本内容的文本长度和目标文本所包含的语句个数;
计算所述文本长度与所述语句个数的乘积,根据所述文本长度与所述语句个数的乘积确定所述目标文本的信息量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述文本内容及所述各个语句,计算所述目标文本的信息量,包括:
基于所述文本内容及所述各个语句,确定所述目标文本的信息密度和所述文本内容的文本长度;
计算所述信息密度与所述文本长度的乘积,根据所述信息密度与所述文本长度的乘积确定所述目标文本的信息量。
6.根据权利要求5所述的方法,其特征在于,所述基于所述文本内容及所述各个语句,确定所述目标文本的信息密度,包括:
根据所述文本内容及所述各个语句,确定所述目标文本的指定片段所包含的文本内容和语句;
基于所述指定片段所包含的文本内容及语句,计算所述指定片段的信息量;
计算所述指定片段的信息量与所述指定片段所包含的文本内容的文本长度之间的比值,根据所述比值确定所述目标文本的信息密度。
7.根据权利要求1所述的方法,其特征在于,所述获取用户的信息量阅读速率,包括:
获取用户的历史阅读文本的信息量及用户对所述历史阅读文本的阅读时间;
基于所述历史阅读文本的信息量及所述阅读时间,获取用户的信息量阅读速率。
8.根据权利要求1所述的方法,其特征在于,所述获取用户的信息量阅读速率,包括:获取各个用户的信息量阅读速率;
所述基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间,包括:基于所述目标文本的信息量及所述各个用户的信息量阅读速率,预估所述各个用户对所述目标文本的阅读时间。
9.根据权利要求1所述的方法,其特征在于,所述获取用户的信息量阅读速率,包括:获取目标用户集群的信息量阅读速率;
所述基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间,包括:基于所述目标文本的信息量及所述目标用户集群的信息量阅读速率,预估所述目标用户集群中的各个用户对所述目标文本的阅读时间。
10.根据权利要求9所述的方法,其特征在于,所述获取目标用户集群的信息量阅读速率,包括:
获取所述目标用户集群中的至少一个用户的历史阅读文本的信息量、及所述至少一个用户对所述历史阅读文本的阅读时间;
根据所述至少一个用户的历史阅读文本的信息量计算所述用户集群对应的历史阅读文本的信息量之和,根据所述至少一个用户对所述历史阅读文本的阅读时间计算所述用户集群对应的阅读时间之和;
根据所述用户集群对应的历史阅读文本的信息量之和与所述用户集群对应的阅读时间之和,得到所述目标用户集群对应的信息量阅读速率。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述获取用户的信息量阅读速率,包括:
确定所述目标文本所属的文本类别;
获取所述用户针对所述文本类别的信息量阅读速率。
12.根据权利要求11所述的方法,其特征在于,所述获取所述用户针对所述文本类别的信息量阅读速率,包括:
从所述用户的历史阅读文本中获取属于所述文本类别的目标历史阅读文本及所述用户对所述目标历史阅读文本的阅读时间;
基于所述目标历史阅读文本的信息量及所述用户对所述目标历史阅读文本的阅读时间,获取所述用户针对所述文本类别的信息量阅读速率。
13.一种预估文本阅读时间的装置,其特征在于,所述装置包括:
确定模块,用于确定待处理的目标文本所包含的文本内容及各个语句;
信息量计算模块,用于基于所述文本内容及所述各个语句,计算所述目标文本的信息量;
获取模块,用于获取用户的信息量阅读速率;
预估模块,用于基于所述目标文本的信息量及所述信息量阅读速率,预估所述用户对所述目标文本的阅读时间。
14.一种预估文本阅读时间的电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-12中的任一个所述的方法。
15.一种计算机程序介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-12中的任一个所述的方法。
CN201910979620.7A 2019-10-15 2019-10-15 预估文本阅读时间的方法、装置、电子设备及存储介质 Pending CN110807313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910979620.7A CN110807313A (zh) 2019-10-15 2019-10-15 预估文本阅读时间的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910979620.7A CN110807313A (zh) 2019-10-15 2019-10-15 预估文本阅读时间的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110807313A true CN110807313A (zh) 2020-02-18

Family

ID=69488432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910979620.7A Pending CN110807313A (zh) 2019-10-15 2019-10-15 预估文本阅读时间的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110807313A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563202A (zh) * 2020-04-30 2020-08-21 百度在线网络技术(北京)有限公司 资源数据处理方法、装置、电子设备和介质
CN113886517A (zh) * 2021-12-08 2022-01-04 深圳市活力天汇科技股份有限公司 基于阅读时长的关键词加权方法、系统、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563202A (zh) * 2020-04-30 2020-08-21 百度在线网络技术(北京)有限公司 资源数据处理方法、装置、电子设备和介质
CN111563202B (zh) * 2020-04-30 2023-12-08 百度在线网络技术(北京)有限公司 资源数据处理方法、装置、电子设备和介质
CN113886517A (zh) * 2021-12-08 2022-01-04 深圳市活力天汇科技股份有限公司 基于阅读时长的关键词加权方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
US11501187B2 (en) Opinion snippet detection for aspect-based sentiment analysis
Treviso et al. Efficient methods for natural language processing: A survey
CN110442878B (zh) 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN110427560B (zh) 一种应用于推荐系统的模型训练方法以及相关装置
CN108491540B (zh) 文本信息推送方法、装置及智能终端
US10346752B2 (en) Correcting existing predictive model outputs with social media features over multiple time scales
WO2020199662A1 (zh) 用于推送信息的方法和装置
CN109582862B (zh) 点击率预估方法、介质、系统和计算设备
US10067935B2 (en) Prediction and optimized prevention of bullying and other counterproductive interactions in live and virtual meeting contexts
US10223440B2 (en) Question and answer system emulating people and clusters of blended people
CN114117216A (zh) 推荐概率预测方法及装置、计算机存储介质和电子设备
CN111598494A (zh) 资源额度的调整方法、装置及电子设备
CN116541610B (zh) 一种推荐模型的训练方法及装置
CN110807313A (zh) 预估文本阅读时间的方法、装置、电子设备及存储介质
CN111459992B (zh) 信息推送方法、电子设备和计算机可读介质
CN110019832B (zh) 语言模型的获取方法和装置
US11288293B2 (en) Methods and systems for ensuring quality of unstructured user input content
CN109710939B (zh) 用于确定主题的方法和装置
CN113836390A (zh) 资源推荐方法、装置、计算机设备及存储介质
CN111597430A (zh) 数据处理方法及装置、电子设备、存储介质
KR102406634B1 (ko) 미래 상호작용 예측 기반의 개인화 추천 방법 및 시스템
CN110580648A (zh) 基于人工智能的金融理财信息处理方法及装置
US11303683B2 (en) Methods and systems for managing distribution of online content based on content maturity
CN114117200A (zh) 一种提升用户转化率的资源展示方法、系统和电子设备
US10579754B1 (en) Systems and methods for performing a fast simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021896

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination