CN110162797B

CN110162797B - 文章质量检测方法和装置

Info

Publication number: CN110162797B
Application number: CN201910552246.2A
Authority: CN
Inventors: 张小彬; 付志宏; 杨宇鸿; 赖佳伟; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2023-04-07
Anticipated expiration: 2039-06-21
Also published as: CN110162797A

Abstract

本发明提出一种文章质量检测方法和装置，其中，方法包括：提取待检测文章在目标结构部分的内容；将内容输入与目标结构部分对应的分类模型，获取文章分类模型输出的文章类型；根据文章类型生成对待检测文章的质量检测结果。由此，结合文章类型的识别进行文章的质量检测，提高了文章质量检测的准确性。

Description

文章质量检测方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种文章质量检测方法和装置。

背景技术

随着计算机技术的发展，各种网络上的文章越来越多，因此，为了提高信息的有用性，基于文章的质量对文章进行管理成为主流。

相关技术中，通过特征工程抽取一些文章的特征，如文章的字数，图片数量，中英文字数占比，文章的话题分布，段落数等。把这些特征组成成一个特征向量，输入到分类器(如随机森林、神经网络等)中做分类，最后得到的类别就是文章的质量打分评估。

然而，分类器的性能和泛化性很大程度上取决于特征抽取工作的好坏。在文章的质量评估中，抽取的特征很多不具有普适性，即针对不同的文章类型，特征起到的正负向作用可能不尽相同。比如，对于一篇介绍动漫的文章来说，起到正向作用的特征应当是图片特征，对于一篇科研文章，起到正向作用的特征应当是数据特征，因此，基于分类器提取同样的文章特征会导致文章质量的评价不准确。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种文章质量检测方法，以结合文章类型的识别进行文章的质量检测，提高了文章质量检测的准确性。

本发明的第二个目的在于提出一种文章质量检测装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种文章质量检测方法，包括：提取待检测文章在目标结构部分的内容；将所述内容输入与所述目标结构部分对应的分类模型，获取所述文章分类模型输出的文章类型；根据所述文章类型生成对所述待检测文章的质量检测结果。

另外，本发明实施例的文章质量检测方法，还具有如下附加的技术特征：

可选地，当所述目标结构部分包含标题部分时，所述将所述内容输入与所述目标结构部分对应的分类模型，获取所述文章分类模型输出的文章类型，包括：将所述待检测文章的标题输入第一分类模型，以使所述第一分类模型通过所述标题提取标题向量并根据所述标题向量生成并输出所述文章类型。

可选地，当所述目标结构部分包含主体内容部分时，所述将所述内容输入与所述目标结构部分对应的分类模型，获取所述文章分类模型输出的文章类型，包括：将所述待检测文章的主体内容输入第二分类模型，以使所述第二分类模型提取所述主体内容多个局部特征并将所述多个局部特征拼接后，将拼接后的多个局部特征输出池化层获取主体内容向量并根据所述主体内容向量生成并输出所述文章类型。

可选地，在所述将所述内容输入与所述目标结构部分对应的分类模型之前，包括：根据文章主旨建立文章分类体系，其中，所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型；获取文章类型覆盖所述文章分类体系的训练文章样本；根据所述训练文章样本训练所述分类模型，直至所述分类模型输出的文章类型与输入的训练文章样本一致时，完成对所述分类模型的训练。

可选地，所述获取文章类型覆盖所述文章分类体系的训练文章样本，包括：获取与所述文章分类体系中的文章类型对应的多个网站地址；根据所述多个网站地址确定与所述文章类型对应的训练文章样本。

可选地，所述根据所述文章类型生成对所述待检测文章的质量检测结果，包括：获取与所述文章类型对应的第一质量评测模型；将所述待检测文章输入所述第一质量评测模型，获取所述质量检测结果。

可选地，所述根据所述文章类型生成对所述待检测文章的质量检测结果，包括：将所述文章类型和所述待检测文章输入至第二质量评测模型，获取所述质量检测结果。

本发明第二方面实施例提出了一种文章质量检测装置，包括：提取模块，用于提取待检测文章在目标结构部分的内容；第一获取模块，用于将所述内容输入与所述目标结构部分对应的分类模型，获取所述文章分类模型输出的文章类型；生成模块，用于根据所述文章类型生成对所述待检测文章的质量检测结果。

另外，本发明实施例的文章质量检测装置，还具有如下附加的技术特征：

可选地，还包括：建立模块，用于根据文章主旨建立文章分类体系，其中，所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型；第二获取模块，用于获取文章类型覆盖所述文章分类体系的训练文章样本；训练模块，用于根据所述训练文章样本训练所述分类模型，直至所述分类模型输出的文章类型与输入的训练文章样本一致时，完成对所述分类模型的训练。

可选地，所述生成模块，具体用于：获取与所述文章类型对应的第一质量评测模型；将所述待检测文章输入所述第一质量评测模型，获取所述质量检测结果。

可选地，所述生成模块，具体用于：将所述文章类型和所述待检测文章输入至第二质量评测模型，获取所述质量检测结果。

本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的文章质量检测方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的文章质量检测方法。

本发明实施例提供的技术方案至少具有如下附加的技术特征：

提取待检测文章在目标结构部分的内容，将内容输入与目标结构部分对应的分类模型，获取文章分类模型输出的文章类型，进而，根据文章类型生成对待检测文章的质量检测结果。由此，结合文章类型的识别进行文章的质量检测，提高了文章质量检测的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种价值体系的示意图；

图2是根据本发明一个实施例的分类模型的分类流程示意图；

图3是根据本发明另一个实施例的分类模型的分类流程示意图；

图4是根据本发明一个实施例的文章质量检测方法的流程图；

图5为本发明实施例提供的一种文章质量检测装置的结构示意图；以及

图6为本发明实施例提供的另一种文章质量检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的文章质量检测方法和装置。

针对上述背景技术中提到的文章质量使用统一的特征进行评估，导致评估不准确的问题，本申请中考虑到文章质量的评估涉及的特征较为繁琐和复杂，且简单的特征抽取只能得到浅层的普适性的特征，而由于文本分类的效果取决于特征的质量，因此效果也受限于特征的质量和普适性上。在解决问题的过程中，可以注意到针对不同的文章类型，文章质量的评估标准存在显著的差异性。

具体来说，相同的特征在不同的文章价值体系中起到的作用却不一定相同。

举例来说，图片的存在增加了文章的可读性和趣味性，整体来说是一个正向的特征，然而在罗列类的文章中，大段模式重复和机械结构的内容反而会给文章带来负面的质量评估。因此，在本申请中，先对文章进行价值分类，把相同评判标准的类别先归类，再去做该分类下做文章的质量评估。具体而言，在本申请中，首先根据文章主旨建立文章分类体系，其中，文章分类体系包括多个文章类型及与多个文章类型中每个文章类型对应的子类型，其中，该文章主旨与文章分类体系对应，可包括价值主旨、领域主旨等，进而，获取文章类型覆盖文章分类体系的训练文章样本，应当理解的是，为了保证样本的量级，文章分类体系中每一级别的每个类型都有大量对应的训练文章样本，进而，根据训练文章样本训练分类模型，直至分类模型输出的文章类型与输入的训练文章样本一致时，完成对分类模型的训练。

其中，在上述示例中，为了保证训练样本的量级和丰富程度，还可以获取与文章分类体系中的文章类型对应的多个网站地址，根据多个网站地址确定与文章类型对应的训练文章样本。由此，基于网站地址不但可以保证文章类型的针对性，基于多个网站地址还可提高训练的分类模型的鲁棒性。

当然，在本示例中，也可获取大数据库中文章的标题，基于标题的语义的识别确定出训练文章样本。

为了使得本领域技术人员更加清楚的了解文章分类体系，下面以该文章主旨为文章价值，文章分类体系为文章的价值体系为例进行说明，其中，在本示例中，如图1所示，价值体系中分类的价值类型包括实用价值、资源价值、趣味价值、欣赏价值、汇编价值和其他无价值的类别等，其中，每个价值类型包含子价值类型，比如趣味价值可以分为解梦、星梦、剧情等多个子价值类型。

在本示例中，为了提高训练文章样本的获取效率，不采用人工标注的方式，而是采用自动挖掘的方式来获取有监督的数据，作为一种示例：以社会新闻的文章样本为例，可通过过滤一些典型站点的url，如新浪新闻、腾讯新闻等网站的文章都可以看作是社会新闻。为了防止分类型过于偏好某个站点，需要多挖掘一些不同站点的信息。作为另一种示例：直接通过关键词过滤文章标题来得到，标题如“梦见”开头的基本都是解梦类的文章，标题以“的通知”结尾的文章基本上可以判定为通知类。

进一步的，基于训练文章样本训练分类模型，在本实施例中，分类模型分为两种模型，这两种模型可以结合使用也可以单独使用：

第一种分类模型：

在本示例中，如图2所示，分类模型为fastText模型，该模型的输入是训练文章样本的标题，直接经过词向量层后叠加，然后去预测分类类别的概率分布。

第二种分类模型：

在本示例中，如图3所示，分类模型是TextCNN模型，该模型输入文章的主体内容，用卷积神经网络抽取局部特征，把这些局部特征拼接在一起后，经过池化层得到高层的特征向量，最后也是去预测分类类别的概率分布。该模型可学习的参数更多，泛化性也更好。

在分类模型训练完完成后，可将其用于文章分类，具体而言，图4是根据本发明一个实施例的文章质量检测方法的流程图，如图4所示，该方法包括如下步骤：

步骤101，提取待检测文章在目标结构部分的内容。

其中，待检测文章的目标结构部分可以包括标题部分、主体内容部分等。

步骤102，将内容输入与目标结构部分对应的分类模型，获取文章分类模型输出的文章类型。

应当理解的是，为了更好的实现对文章类型的确定，预先根据文章的每个结构部分训练对应的分类模型，因而，将内容输入与目标结构部分对应的分类模型，获取文章分类模型输出的文章类型。

作为一种可能的示例，目标结构部分包含标题部分，将待检测文章的标题输入第一分类模型，以使第一分类模型通过标题提取标题向量并根据标题向量生成并输出文章类型。该第一分类模型可以如图2所示。

作为另一种可能的示例，目标结构部分包含主体内容部分，将待检测文章的主体内容输入第二分类模型，以使第二分类模型提取主体内容多个局部特征并将多个局部特征拼接后，将拼接后的多个局部特征输出池化层获取主体内容向量并根据主体内容向量生成并输出文章类型。该第二分类模型可以如图3所示。

步骤103，根据文章类型生成对待检测文章的质量检测结果。

具体的，结合文章的文章类型生成对待检测文章的质量检测结果，该指令评测结果可以是任意可以体现文章质量的形式，比如可以是函数形式、文本形式、打分等。

需要说明的是，在根据文章类型生成对待检测文章的质量检测结果时，在不同的分类下再针对性优化质量评估模型等，能够一定程度上提高文章质量评估的效果。

作为一种可能的实现方式，获取与文章类型对应的第一质量评测模型，将待检测文章输入第一质量评测模型，获取质量检测结果。在本示例中，第一质量评测模型与文章类型对应，便于基于每个文章类型的特点进行针对性的优化，提高质量评测的效果。

作为另一种可能的实现方式，将文章类型和待检测文章输入至第二质量评测模型，获取质量检测结果。也就是说，在本示例中，将文章类型作为文章质量评估的特征。

综上，本申请实施例的文章质量检测方法，提取待检测文章在目标结构部分的内容，将内容输入与目标结构部分对应的分类模型，获取文章分类模型输出的文章类型，进而，根据文章类型生成对待检测文章的质量检测结果。由此，结合文章类型的识别进行文章的质量检测，提高了文章质量检测的准确性。

为了实现上述实施例，本发明还提出一种文章质量检测装置。

图5为本发明实施例提供的一种文章质量检测装置的结构示意图。

如图5所示，该文章质量检测装置包括：提取模块10、第一获取模块20、生成模块30。

其中，提取模块10，用于提取待检测文章在目标结构部分的内容。

第一获取模块20，用于将所述内容输入与所述目标结构部分对应的分类模型，获取所述文章分类模型输出的文章类型。

生成模块30，用于根据所述文章类型生成对所述待检测文章的质量检测结果。

在本发明的一个实施例中，生成模块30具体用于获取与文章类型对应的第一质量评测模型，将待检测文章输入第一质量评测模型，获取质量检测结果。

在本发明的一个实施例中，生成模块30具体用于将文章类型和待检测文章输入至第二质量评测模型，获取质量检测结果。

在本发明的一个实施例中，如图6所示，在如图5所示的基础上，该装置还包括：建立模块40、第二获取模块50和训练模块60，其中，

建立模块40，用于根据文章主旨建立文章分类体系，其中，文章分类体系包括多个文章类型及与多个文章类型中每个文章类型对应的子类型。

第二获取模块50，用于获取文章类型覆盖文章分类体系的训练文章样本。

训练模块60，用于根据训练文章样本训练分类模型，直至分类模型输出的文章类型与输入的训练文章样本一致时，完成对分类模型的训练。

需要说明的是，前述实施例对文章质量检测方法的解释说明同样适用于本实施例的文章质量检测装置，此处不再赘述。

综上，本申请实施例的文章质量检测装置，提取待检测文章在目标结构部分的内容，将内容输入与目标结构部分对应的分类模型，获取文章分类模型输出的文章类型，进而，根据文章类型生成对待检测文章的质量检测结果。由此，结合文章类型的识别进行文章的质量检测，提高了文章质量检测的准确性。

为了实现上述实施例，本发明还提出一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述任一实施例所述的文章质量检测方法。

为了实现上述实施例，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的文章质量检测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文章质量检测方法，其特征在于，包括以下步骤：

提取待检测文章在目标结构部分的内容，所述目标结构部分包括：标题部分、主体内容部分；

将所述内容输入与所述目标结构部分对应的分类模型，获取所述分类模型输出的文章类型；

获取与所述文章类型对应的第一质量评测模型；

将所述待检测文章输入所述第一质量评测模型，获取质量检测结果；或者

将所述文章类型和所述待检测文章输入至第二质量评测模型，获取所述质量检测结果。

2.如权利要求1所述的方法，其特征在于，当所述目标结构部分包含标题部分时，所述将所述内容输入与所述目标结构部分对应的分类模型，获取所述文章分类模型输出的文章类型，包括：

将所述待检测文章的标题输入第一分类模型，以使所述第一分类模型通过所述标题提取标题向量并根据所述标题向量生成并输出所述文章类型。

3.如权利要求1所述的方法，其特征在于，当所述目标结构部分包含主体内容部分时，所述将所述内容输入与所述目标结构部分对应的分类模型，获取所述文章分类模型输出的文章类型，包括：

将所述待检测文章的主体内容输入第二分类模型，以使所述第二分类模型提取所述主体内容多个局部特征并将所述多个局部特征拼接后，将拼接后的多个局部特征输出池化层获取主体内容向量并根据所述主体内容向量生成并输出所述文章类型。

4.如权利要求1所述的方法，其特征在于，在所述将所述内容输入与所述目标结构部分对应的分类模型之前，包括：

根据文章主旨建立文章分类体系，其中，所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型；

获取文章类型覆盖所述文章分类体系的训练文章样本；

根据所述训练文章样本训练所述分类模型，直至所述分类模型输出的文章类型与输入的训练文章样本一致时，完成对所述分类模型的训练。

5.如权利要求4所述的方法，其特征在于，所述获取文章类型覆盖所述文章分类体系的训练文章样本，包括：

获取与所述文章分类体系中的文章类型对应的多个网站地址；

根据所述多个网站地址确定与所述文章类型对应的训练文章样本。

6.一种文章质量检测装置，其特征在于，包括：

提取模块，用于提取待检测文章在目标结构部分的内容，所述目标结构部分包括：标题部分、主体内容部分；

第一获取模块，用于将所述内容输入与所述目标结构部分对应的分类模型，获取所述分类模型输出的文章类型；

生成模块，用于根据所述文章类型生成对所述待检测文章的质量检测结果；

所述生成模块，具体用于：

获取与所述文章类型对应的第一质量评测模型；

将所述待检测文章输入所述第一质量评测模型，获取所述质量检测结果；或者用于：

7.如权利要求6所述的装置，其特征在于，还包括：

建立模块，用于根据文章主旨建立文章分类体系，其中，所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型；

第二获取模块，用于获取文章类型覆盖所述文章分类体系的训练文章样本；

训练模块，用于根据所述训练文章样本训练所述分类模型，直至所述分类模型输出的文章类型与输入的训练文章样本一致时，完成对所述分类模型的训练。

8.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5中任一项所述的文章质量检测方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的文章质量检测方法。