CN111339765A

CN111339765A - 文本质量评估方法、文本推荐方法及装置、介质及设备

Info

Publication number: CN111339765A
Application number: CN202010099062.8A
Authority: CN
Inventors: 廖东亮; 黎功福; 黄申; 徐进
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-26
Anticipated expiration: 2040-02-18
Also published as: CN111339765B

Abstract

本公开提供一种文本质量评估方法、文本质量评估装置、文本推荐方法、文本推荐装置、电子设备以及计算机可读存储介质；涉及数据处理技术领域。所述文本质量评估方法包括：获取文本数据，对所述文本数据进行拆分得到文本单元；对所述文本单元进行重组，以获取所述文本数据对应的文本结构树；基于所述文本单元和所述文本结构树对所述文本数据进行质量评估，以获取对应的评估结果。本公开在对文本数据进行评估时，可以在考虑文本语义的同时，兼顾文本中各文本单元之间的逻辑关系以及文本的组织架构，得到的评估结果准确、全面。

Description

文本质量评估方法、文本推荐方法及装置、介质及设备

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种文本质量评估方法、文本质量评估装置、文本推荐方法、文本推荐装置、电子设备以及计算机可读存储介质。

背景技术

在各类多媒体文件推荐的应用程序中，识别和筛选高质量的多媒体文件是提升用户体验的一种重要手段。其中，在对新闻、短文等文章的推荐过程中，为了对文章的质量进行控制，通常会对文章所包含的文本数据进行质量评估，以便确定质量较好的文章进行推荐。

传统的质量评估通常采用以下两种方法：一是基于语言学特征工程的方法，根据人工抽取的词袋特征、N-gram特征等特征，使用传统的机器学习技术对特征进行评估，进而得到文章的质量评估结果；二是基于深度学习的方法，针对文章中的每个句子进行处理，进而得到文章的质量评估结果。

然而，上述两种方法中，第一种方法不仅依赖于特征选择的好坏，同时还会受到机器学习模型的复杂度的限制，因此得到的评估结果不够准确；而第二种方法虽然关注了文章的语义内容，也考虑了句子到文章的层次结构，但是并没考虑到文章中各句子、短语之间的逻辑性以及文章整体的组织结构，因此得到的评估结果并不全面。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种文本质量评估方法、文本质量评估装置、文本推荐方法、文本推荐装置、电子设备以及计算机可读存储介质，进而在一定程度上克服相关技术中没有考虑文章中各句子、短语之间的逻辑性以及文章整体的组织结构造成的评估结果不全面的问题。

根据本公开的第一方面，提供一种文本质量评估方法，包括：

获取文本数据，对所述文本数据进行拆分得到文本单元；

对所述文本单元进行重组，以获取所述文本数据对应的文本结构树；

基于所述文本单元和所述文本结构树对所述文本数据进行质量评估，以获取对应的评估结果。

可选的，所述基于所述文本单元和所述文本结构树对所述文本数据进行质量评估，以获取对应的评估结果，包括：

对所述文本单元进行编码，得到各所述文本单元对应的第一单元表示向量；

将所述第一单元表示向量和所述文本结构树输入预先训练的双向递归神经网络进行处理，得到所述文本数据对应的评估结果。

可选的，所述双向递归神经网络的处理包括：

基于所述文本结构树对所述第一单元表示向量进行双向递归处理，以获取第一文章表示向量和第二文章表示向量；

基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量；

根据所述最终表示向量确定所述文本数据对应的评估结果。

可选的，所述基于所述文本结构树对所述第一单元表示向量进行双向递归处理，以获取第一文章表示向量和第二文章表示向量，包括：

以所述文本结构树的叶子节点开始，将所述叶子节点中包含的文本单元对应的第一单元表示向量向根节点方向进行逐层汇集计算，以获取所述文本结构树的根节点对应的第一文章表示向量；

以所述根节点为起点，将所述第一文章表示向量向所述叶子节点方向进行反向传递，并进行更新计算以获取各所述叶子节点对应的第二单元表示向量；

对所有叶子节点对应的所述第二单元表示向量进行整合，以生成第二文章表示向量。

可选的，所述对所有叶子节点对应的所述第二单元表示向量进行整合，以生成第二文章表示向量，包括：

根据预先训练的注意力机制计算各所述第二单元表示向量对应的权重，并根据所述权重对所述第二单元向量进行整合，以生成所述第二文章表示向量。

可选的，所述基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量，包括：

对所述第一文章表示向量与所述第二文章表示向量进行拼接处理，得到所述文本数据对应的最终表示向量。

可选的，所述对所述文本单元进行编码，得到各所述文本单元对应的第一单元表示向量，包括：

通过预设词表将所述文本单元中的每个字映射为所述字对应的字符串，并根据所述字对应的字符串生成所述文本单元对应的字符串；

将每个所述文本单元对应的字符串输入预先训练的编码模型中，以获取各所述文本单元对应的第一单元表示向量。

可选的，所述对所述文本单元进行重组，以获取所述文本数据对应的文本结构树，包括：

将所述文本单元输入预先训练的结构树模型，得到所述文本数据对应的文本结构树。

可选的，所述评估结果包括评估分类或评估评分。

可选的，在对所述文本数据进行拆分得到文本单元之前，所述方法还包括：

对所述文本数据进行预处理，以获取处理后的文本数据；

其中，所述预处理包括以下至少一种或多种的组合：

清除所述文本数据中的格式符号；

清楚所述文本数据中的无效字符；

根据预设替换规则对所述文本数据中的非自然语言数据进行替换。

根据本公开的一个方面，提供一种文本推荐方法，包括：

通过上述任意一项所述的文本质量评估方法对文本数据进行质量评估，得到所述文本数据对应的评估结果；

在所述文本数据对应的评估结果在预设评分范围内或属于预设分类时，确定推荐所述文本数据。

根据本公开的一个方面，提供一种文本质量评估装置，包括：

数据拆分模块，用于获取文本数据，对所述文本数据进行拆分得到文本单元；

数据重组模块，用于对所述文本单元进行重组，以获取所述文本数据对应的文本结构树；

质量评估模块，用于基于所述文本单元和所述文本结构树对所述文本数据进行质量评估，以获取对应的评估结果。

根据本公开的一个方面，提供一种文本推荐装置，包括：

质量评估模块，用于通过上述任意一项所述的文本质量评估方法对文本数据进行质量评估，得到所述文本数据对应的评估结果；

文本推荐模块，用于在所述文本数据对应的评估结果在预设评分范围内或属于预设分类时，确定推荐所述文本数据。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的文本质量评估方法或上述任意一项所述的文本推荐方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的文本质量评估方法或上述任意一项所述的文本推荐方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一示例实施方式所提供的文本质量评估方法中，通过对获取到的文本数据进行拆分能够得到组成文章的文本单元，进而对文本单元进行重组得到文本结构树，进而基于文本结构树和对文本单元进行质量评估，得到文本数据对应的评估结果。由于文本结构树是基于文本中的文本单元得到的，且文本结构树能够同时表示其中各文本单元之间的逻辑关系以及整个文本的组织结构，因此基于文本结构树进行的质量评估能够在考虑到文本语义的同时，兼顾文本中各文本单元之间的逻辑关系以及文本的组织架构，得到的评估结果较为全面。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种图像融合方法及装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一个实施例的文本质量评估方法的流程图；

图4示意性示出了根据本公开的一个实施例的基于所述文本单元和所述文本结构树对所述文本数据进行质量评估的方法的流程图；

图5示意性示出了根据本公开的一个实施例的对文本单元进行编码得到第一单元表示向量的方法的流程图；

图6示意性示出了根据本公开的一个实施例的双向递归神经网络的处理方法的流程图；

图7示意性示出了根据本公开的一个实施例的基于所述文本结构树对所述第一单元表示向量进行双向递归处理的方法的流程图；

图8示意性示出了根据本公开的一个实施例中从叶子节点向根节点进行汇集计算的过程示意图；

图9示意性示出了根据本公开的一个实施例中一种更新门和重置门的布置方式的示意图；

图10示意性示出了根据本公开的一个实施例中从根节点向叶子节点进行传递、更新计算的过程示意图；

图11示意性示出了根据本公开的一个实施例中另一种更新门和重置门的布置方式的示意图；

图12示意性示出了根据本公开的一个实施例中对对文本单元和文本结构树进行处理的三个层次的示意图；

图13示意性示出了根据本公开的一个实施例中双向递归神经网络处理过程的示意图；

图14示意性示出了根据本公开的一个实施例的文本推荐方法的流程图；

图15示意性示出了根据本公开的一个实施例中一种对确定推荐的文本的展示方式示意图；

图16示意性示出了根据本公开的一个实施例的文本质量评估装置的框图；

图17示意性示出了根据本公开的一个实施例的文本推荐装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种文本质量评估方法及装置、文本推荐方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的文本质量评估方法、文本推荐方法一般由服务器105执行，相应地，文本质量评估装置、文本推荐装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的文本质量评估方法、文本推荐方法也可以由终端设备101、102、103执行，相应的，文本质量评估装置、文本推荐装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是终端设备101通过服务器105获取终端设备102、103推送的文本数据，进而对终端设备102、103推送的文本数据进行质量评估。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，计算机系统200还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3～图7以及图14所示的各个步骤等。

本公开实施例提供了一种文本质量评估方法、文本推荐方法，该方法是基于机器学习实现的，机器学习属于人工智能的一种，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

以下对本公开实施例中的文本质量评估方法的各个步骤进行更详细的阐述：

参考图3所示，在步骤S310中，获取文本数据，对所述文本数据进行拆分得到文本单元。

本示例实施方式中，所述文本数据可以包括新闻报道、热点文章等文本形式的文件。对应的，文本单元可以包括短语、词语、句子等。由于文本数据包含的内容不同，对应的可以拆分的文本单元也不同。例如，针对文本数据中的长难句，可能需要对文字进行断句得到多个短句或者短语。

需要说明的是，对文本数据进行拆分得到文本单元的过程可以通过一些中文篇章的组织结构解析工具进行，例如，可以通过CDT parser解析工具实现对文本数据的拆分，得到文本单元。

本示例实施方式中，在对文本数据进行拆分得到文本单元之前，还可以包括：对所述文本数据进行预处理，以获取处理后的文本数据。其中，对文本数据进行的预处理可以包括以下几种处理方式中至少一种或多种的组合：清除所述文本数据中的格式符号；清楚所述文本数据中的无效字符；根据预设替换规则对所述文本数据中的非自然语言数据进行替换。

本示例实施方式中，由于获取到的文本数据中可能存在格式符号、无效字符以及一些非自然语言数据，因此需要对文本数据进行预处理，以得到只包括自然语言数据的文本数据。具体的，在文本数据中包括格式符号和无效字符时，由于格式符号和无效字符对文本数据的质量影响较小，因此可以将其清除；在文本数据中包括非自然语言数据，例如表情符号、图片等数据时，由于图片和表情符号的位置、数量等信息可能会对文本数据的质量造成影响，因此可以通过预设替换规则将其替换掉，以便于进行后续的拆分步骤。

在步骤S320中，对所述文本单元进行重组，以获取所述文本数据对应的文本结构树。

本示例实施方式中，对文本单元进行重组，以获取所述文本数据对应的文本结构树，可以包括：将所述文本单元输入预先训练的结构树模型，得到所述文本数据对应的文本结构树。

本示例实施方式中，可以使用预先训练的结构树模型对文本单元进行重组，得到对应的文本结构树。其中，结构树模型可以是用于处理文本单元的机器学习模型；文本结构树可以包括二叉树形式的结构树，也可以是其它形式的结构树，本公开对此不做特殊限制。需要说明的是，不同的拆分方式得到的文本单元进行重组时，需要使用根据相同的拆分方式得到的文本单元训练而来的机器学习模型。例如，通过上述CDT parser解析工具对样本文本进行解析得到文本单元后，通过该文本单元和对应的样本文本训练得到的机器学习模型，可以用于对CDT parser解析工具解析得到的文本单元进行重组，得到对应的文本结构树。

在步骤S330中，基于所述文本单元和所述文本结构树对所述文本数据进行质量评估，以获取对应的评估结果。

本示例实施方式中，对文本数据进行质量评估的评估结果可以包括评估分类或评估评分等形式的结果。例如，针对一个文本数据，对其进行质量评估的评估结果可以是该文本数据可以被分为高质量文本数据或者低质量文本数据；再如，评估结果还可以是该文本数据的质量评分为0～1分中的0.9分。通过设置不同形式的评估结果，能够适用于更多的文本数据评估场景，在对评估结果的分类要求较粗糙时，可以将其分为高质量或低质量两类，以减少计算量；而在对评估结果的分类要求较细致时，可以将其按照评分进行细致的分类，以满足场景需求。

参考图4所示，本示例实施方式中可以通过如图4所示的步骤S410至步骤S420进行质量评估。其中：

在步骤S410中，对所述文本单元进行编码，得到各所述文本单元对应的第一单元表示向量。

本示例实施方式中，为了避免对文本数据进行质量评估时使用的神经网络的参数过多，因此可以先通过编码的方式将自然语言表达的文本单元转换为能够表达语义的数值向量，进而提高后续进行质量评估的效率。

参考图5所示，本示例实施方式中，可以通过如图5所示的步骤S510至步骤S520对文本单元进行编码。其中：

在步骤S510中，通过预设词表将所述文本单元中的每个字映射为所述字对应的字符串，并根据所述字对应的字符串生成所述文本单元对应的字符串。本示例实施方式中，可以先将文本单元中的每个字通过预设词表映射为该字对应的字符串，然后根据文本单元中每个字的先后顺序将字对应的字符串连接起来，生成文本单元对应的字符串。

在步骤S520中，将每个所述文本单元对应的字符串输入预先训练的编码模型中，以获取各所述文本单元对应的第一单元表示向量。本示例实施方式中，可以将得到的文本单元对应的字符串输入预先训练的编码模型中进行编码，生成包含该文本单元的语义信息的第一单元表示向量。

需要说明的是，为了保证第一单元表示向量能够准确表示对应的文本单元的语义信息，因此需要选择相互匹配的预设词表和预先训练的编码模型。例如，可以采用bert词表为预设词表对文本单元中的字进行映射，生成文本单元对应的字符串，并且采用bert模型将文本单元对应的字符串转换为能够表示文本单元的语义信息的第一单元表示向量。

在步骤S420中，将所述第一单元表示向量和所述文本结构树输入预先训练的双向递归神经网络进行处理，得到所述文本数据对应的评估结果。

本示例实施方式中，可以通过双向递归神经网络对第一单元表示向量和文本结构树进行处理。例如，参考图6所示，双向递归神经网络的处理可以包括下述步骤S610至S630：

在步骤S610中，基于所述文本结构树对所述第一单元表示向量进行双向递归处理，以获取第一文章表示向量和第二文章表示向量。例如，参考图7所示，本示例实施方式中，可以通过如图7所示的步骤S710至步骤S730获取第一文章表示向量和第二文章表示向量。其中：

在步骤S710中，以所述文本结构树的叶子节点开始，将所述叶子节点中包含的文本单元对应的第一单元表示向量向根节点方向进行逐层汇集计算，以获取所述文本结构树的根节点对应的第一文章表示向量。

本示例实施方式中，由于文本结构树是通过文本单元构造的，其叶子节点均为文本单元，同时每个文本单元均有对应的第一单元表示向量，因此可以从叶子节点开始，根据文本结构树的组织结构，将每个文本单元对应的第一单元表示向量向根节点进行逐层汇集计算，直至汇集计算得到根节点对应的第一文章表示向量。参考图8所示的汇集计算过程示意图，该汇集计算能够从叶子节点开始，将文本结构树中各层子节点对应的语义信息汇集至上层的父节点，直至将所有语义信息汇集至根节点。通过上述汇集计算得到的根节点包括文本数据的所有语义信息，因此能够得到文本数据对应的第一文章表示向量。

举例而言，上述逐层汇集计算的过程可以通门控递归单元实现。门控递归单元通过更新门和重置门的布置将子节点的语义信息汇集到父节点。其中，更新门和重置门的布置方式可以采用如图9所示的方式，具体的，通过重置门1和重置门2将子节点1和子节点2对应的第一单元表示向量整合起来得到整合向量，最后第一单元表示向量和整合向量通过更新门1得到父节点对应的第一单元表示向量。此外，门控递归单元还可以通过其他布置方式布置更新门和重置门，以实现将子节点的语义信息汇集至父节点的目的，本公开对门控递归单元的布置方式不做特殊限制。

在步骤S720中，以所述根节点为起点，将所述第一文章表示向量向所述叶子节点方向进行反向传递，并进行更新计算以获取各所述叶子节点对应的第二单元表示向量。

本示例实施方式中，为了避免自叶子节点向根节点汇集的过程中出现的信息损失，因此以根节点为起点，将第一文章表示向量向叶子节点方向进行反向传递，进行更新计算以进一步学习各叶子节点对应的语义信息。参考图10所示的传递、更新计算的过程示意图，该传递、更新计算能够从根节点开始，将第一文章表示向量中包括的文本数据的语义信息逐层向下传递，并进行更新计算得到每个叶子节点对应的第二单元表示向量。

举例而言，上述逐层传递、更新计算的过程可以通门控递归单元实现。门控递归单元通过更新门和重置门的布置将父节点中汇集的语义信息传递至子节点并对子节点中的语义信息进行更新。其中，更新门和重置门的布置方式可以采用如图11所示的方式。以图9所示的节点为例，在传递和更新计算的过程中，父节点的第二单元表示向量3通过重置门3传递至子节点，并对第一单元表示向量1和第一单元表示向量2进行再次学习得到再学习向量，最后再学习向量分别与第一单元表示向量1和第一单元表示向量2通过更新门2和更新门3得到第二单元表示向量1和第二单元表示向量2。此外，门控递归单元还可以通过其他布置方式布置更新门和重置门，以实现将父节点的语义信息传递至子节点，并对子节点的语义信息进行更新的目的，本公开对门控递归单元的布置方式不做特殊限制。

在步骤S730中，对所有叶子节点对应的所述第二单元表示向量进行整合，以生成第二文章表示向量。

本示例实施方式中，通过自根节点向叶子节点的传递与更新过程，能够进一步学习叶子节点中的语义信息，捕捉到每个文本单元的准确语义，即第二单元表示向量。由于第二单元表示向量能够准确捕捉每个叶子节点的语义信息，因此可以通过对语义信息的直接组合表示文本数据的语义信息。

具体的，对所有叶子节点对应的所述第二单元表示向量进行整合，以生成第二文章表示向量，可以包括：根据预先训练的注意力机制计算各所述第二单元表示向量对应的权重，并根据所述权重对所述第二单元向量进行整合，以生成所述第二文章表示向量。

需要说明的是，除了使用注意力机制对第二单元表示向量进行整合以外，还可以采用其他的方式进行整合。例如，可以通过第二单元表示向量按文本单元在文本数据中的顺序进行排序拼接等方式对第二单元表示向量进行整合，本公开对此不做特殊限定。

在步骤S620中，基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量。

本示例实施方式中，由于第一文章表示向量为通过文本结构树建立的，因此能够表示文本数据的组织结构；而第二文章表示向量通过从叶子节点向根节点的汇集过程和从根节点向叶子节点的传递更新过程，能够充分捕捉文本单元的语义信息，因此能够表示文本数据的完整语义信息。因此，在进行文本数据的质量评估之前，可以对第一文章表示向量和第二文章表示向量两个维度进行整合，得到包含文本数据组织结构和语义信息的最终表示向量。

举例而言，可以通过以下步骤对第一文章表示向量和所述第二文章表示向量进行整合：对所述第一文章表示向量与所述第二文章表示向量进行拼接处理，得到所述文本数据对应的最终表示向量。例如，假设第一文章表示向量为一个10维的向量，第二文章表示向量为15维的向量，将第一文章表示向量和第二文章表示向量进行首尾拼接，得到25维的最终表示向量。

在步骤S630中，根据所述最终表示向量确定所述文本数据对应的评估结果。本示例实施方式中，通过将最终表示向量接入双向递归神经网络的输出层，能够输出文本数据对应的评估结果。需要说明的是，在对双向递归神经网络进行预先训练时，可以采用多种训练方式进行，例如，可以采用有监督的方式或者无监督的方式；在训练过程中，可以采用交叉熵作为损失函数，可以采用adam优化算法进行训练，本公开对此不做特殊限制。

此外，可以根据需求设置双向递归神经网络的输出。具体的，在预先训练的双向递归神经网络的输出为分类概率时，得到的评估结果可能是文本数据被分为高质量或者低质量的数据；在预先训练的双向递归神经网络的输出为连续值时，可以通过连续值确定文本数据的质量评分。最终可以根据分类结果或者评分对文本数据进行其他处理。

以下以网页文章为例，参考图12、图13对本公开实施例的文本质量评估方法的实现细节进行详细阐述：

1、对获取到的网页文章进行预处理

删除网页文章中的html格式符号、无效字符，并根据预设替换规则将其中的英文、数字、图片、表情符号等非自然语言的数据替换掉。

2、对文本数据进行拆分和重组

利用CDT parser这种中文篇章结构解析工具将文章分解为文本单元，并将文本单元重组为文本结构树。

3、对文本单元和文本结构树进行处理

参考图12所示，对文本单元和文本结构树进行处理主要包括三个层次：

第一层，文本单元语义学习层

通过bert词表将文本单元映射为对应的字符串，并对字符串进行编码，得到文本单元对应的第一单元表示向量。该第一单元表示向量包含了文本单元对应的语义信息。

第二层，文本单元语义汇聚层

在该层中，通过预先训练的带有注意力机制的双向递归神经网络对第一文章表示向量和文本结构树进行处理。参考图13所示，文本结构树的每一叶子节点均包含一个文本单元，按照文本结构树的组织结构，对文本单元对应的第一单元表示向量进行双向递归处理。具体的，双向递归处理过程包括如下两个过程：

a.从叶子节点开始，将叶子节点中包含的文本单元对应的第一单元表示向量向根节点方向进行逐层汇集计算，获取文本结构树的根节点对应的第一文章表示向量，如图13中带有箭头的实线所示；

b.从根节点开始，将第一文章表示向量向叶子节点方向进行反向传递，并进行更新计算获取各叶子节点对应的第二单元表示向量，并通过注意力机制将第二单元表示向量整合为第二文章表示向量，如图13中带有箭头的虚线所示。

c.将第一文章表示向量和第二文章表示向量拼接得到最终表示向量，如图13中虚线框圈中的部分所示。

第三层，输出层

输出层通过对最终表示向量进行线性变换和映射得到一个连续的值或者分类概率，最终确定文本质量的评估结果。

此外，本公开实施例还提供了一种文本推荐方法，具体的，参考图14所示，包括如下步骤S1410至S1420：

在步骤S1410中，通过上述文本质量评估方法对文本数据进行质量评估，得到所述文本数据对应的评估结果。本示例实施方式中，通过上述文本质量评估方法得到的评估结果可能是分类结果，例如，该文本数据为高质量文本数据或低质量文本数据；也可能是评分结果，例如，该文本数据的评分为0～1分中的0.9分。

在步骤S1420中，在所述文本数据对应的评估结果在预设评分范围内或属于预设分类时，确定推荐所述文本数据。本示例实施方式中，在评估结果种类不同时，可以选择预设评分范围或者预设分类对评估结果进行筛选，以确是否对文本数据进行推荐。具体的，在评估结果为评分结果，评分分数为0～1分时，可以设置预设评分范围为评分高于0.8分。即只有通过上述文本质量评估方法得到的评分高于0.8分的文本数据才可以被推荐；在评估结果为分类结果，分类包括低质量和高质量时，可以设置预设分类为高质量。即只有通过上述文本质量评估方法得到的分类结果为高质量的文本数据才可以被推荐。

需要说明的是，在确定推荐该文本数据后，可以通过将该文本数据直接展示在推荐内容中，例如，可以展示于如图15所示的图形用户界面中，而确定不推荐该文本数据时，说明该文本数据的质量不达标，因此没有被展示在推荐的内容中。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了一种文本质量评估装置。该文本质量评估装置可以应用于一服务器或终端设备。参考图16所示，该文本质量评估装置1600可以包括数据拆分模块1610、数据重组模块1620以及质量评估模块1630。其中：

数据拆分模块1610，用于获取文本数据，对所述文本数据进行拆分得到文本单元；数据重组模块1620，用于对所述文本单元进行重组，以获取所述文本数据对应的文本结构树；质量评估模块1630，用于基于所述文本单元和所述文本结构树对所述文本数据进行质量评估，以获取对应的评估结果。

在本公开的一种示例性实施例中，所述质量评估模块1630包括：编码单元，用于对所述文本单元进行编码，得到各所述文本单元对应的第一单元表示向量；双向递归处理单元，用于将所述第一单元表示向量和所述文本结构树输入预先训练的双向递归神经网络进行处理，得到所述文本数据对应的评估结果。

在本公开的一种示例性实施例中，所述双向递归处理单元的处理包括：基于所述文本结构树对所述第一单元表示向量进行双向递归处理，以获取第一文章表示向量和第二文章表示向量；基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量；根据所述最终表示向量确定所述文本数据对应的评估结果。

在本公开的一种示例性实施例中，所述双向递归处理单元通过以下步骤获取第一文章表示向量和第二文章表示向量：以所述文本结构树的叶子节点开始，将所述叶子节点中包含的文本单元对应的第一单元表示向量向根节点方向进行逐层汇集计算，以获取所述文本结构树的根节点对应的第一文章表示向量；以所述根节点为起点，将所述第一文章表示向量向所述叶子节点方向进行反向传递，并进行更新计算以获取各所述叶子节点对应的第二单元表示向量；对所有叶子节点对应的所述第二单元表示向量进行整合，以生成第二文章表示向量。

在本公开的一种示例性实施例中，所述双向递归处理单元通过以下步骤生成第二文章表示向量：根据预先训练的注意力机制计算各所述第二单元表示向量对应的权重，并根据所述权重对所述第二单元向量进行整合，以生成所述第二文章表示向量。

在本公开的一种示例性实施例中，所述双向递归处理单元通过以下步骤生成最终表示向量：对所述第一文章表示向量与所述第二文章表示向量进行拼接处理，得到所述文本数据对应的最终表示向量。

在本公开的一种示例性实施例中，所述编码单元通过以下步骤对文本单元进行编码：通过预设词表将所述文本单元中的每个字映射为所述字对应的字符串，并根据所述字对应的字符串生成所述文本单元对应的字符串；将每个所述文本单元对应的字符串输入预先训练的编码模型中，以获取各所述文本单元对应的第一单元表示向量。

在本公开的一种示例性实施例中，所述数据重组模块1620通过以下步骤对文本单元进行重组：将所述文本单元输入预先训练的结构树模型，得到所述文本数据对应的文本结构树。

在本公开的一种示例性实施例中，所述评估结果包括评估分类或评估评分。

此外，本示例实施方式中，还提供了一种文本推荐装置，该文本推荐装置可以应用于一服务器或终端设备。参考图17所示，该文本推荐装置1700可以包括质量评估模块1710和文本推荐模块1720。其中：

质量评估模块1710，用于通过上述文本质量评估方法对文本数据进行质量评估，得到所述文本数据对应的评估结果；文本推荐模块1720，用于在所述文本数据对应的评估结果在预设评分范围内或属于预设分类时，确定推荐所述文本数据。

上述文本质量评估装置和文本推荐装置中各模块或单元的具体细节已经在对应的文本质量评估方法和文本推荐方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本质量评估方法，其特征在于，包括：

获取文本数据，对所述文本数据进行拆分得到文本单元；

2.根据权利要求1所述的评估方法，其特征在于，所述基于所述文本单元和所述文本结构树对所述文本数据进行质量评估，以获取对应的评估结果，包括：

3.根据权利要求2所述的评估方法，其特征在于，所述双向递归神经网络的处理包括：

根据所述最终表示向量确定所述文本数据对应的评估结果。

4.根据权利要求3所述的评估方法，其特征在于，所述基于所述文本结构树对所述第一单元表示向量进行双向递归处理，以获取第一文章表示向量和第二文章表示向量，包括：

5.根据权利要求4所述的评估方法，其特征在于，所述对所有叶子节点对应的所述第二单元表示向量进行整合，以生成第二文章表示向量，包括：

6.根据权利要求3所述的评估方法，其特征在于，所述基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量，包括：

7.根据权利要求2所述的评估方法，其特征在于，所述对所述文本单元进行编码，得到各所述文本单元对应的第一单元表示向量，包括：

8.根据权利要求1所述的评估方法，其特征在于，所述对所述文本单元进行重组，以获取所述文本数据对应的文本结构树，包括：

9.根据权利要求1所述的评估方法，其特征在于，所述评估结果包括评估分类或评估评分。

10.根据权利要求1所述的评估方法，其特征在于，在对所述文本数据进行拆分得到文本单元之前，所述方法还包括：

对所述文本数据进行预处理，以获取处理后的文本数据；

其中，所述预处理包括以下至少一种或多种的组合：

清除所述文本数据中的格式符号；

清楚所述文本数据中的无效字符；

11.一种文本推荐方法，其特征在于，包括：

通过权利要求1至10中任一项所述的文本质量评估方法对文本数据进行质量评估，得到所述文本数据对应的评估结果；

12.一种文本质量评估装置，其特征在于，包括：

13.一种文本推荐装置，其特征在于，包括：

质量评估模块，用于通过权利要求1至10中任一项所述的文本质量评估方法对文本数据进行质量评估，得到所述文本数据对应的评估结果；

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述的文本质量评估方法或权利要求11所述的文本推荐方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至10任一项所述的文本质量评估方法或权利要求11所述的文本推荐方法。