CN107301169B

CN107301169B - 离题作文检测方法、装置和终端设备

Info

Publication number: CN107301169B
Application number: CN201710458387.9A
Authority: CN
Inventors: 巩捷甫; 付瑞吉; 宋巍; 王士进; 胡国平; 秦兵; 刘挺
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2021-02-05
Anticipated expiration: 2037-06-16
Also published as: CN107301169A

Abstract

本申请提出一种离题作文检测方法、装置和终端设备，该离题作文检测方法包括：接收待检测作文，所述待检测作文包括题目和正文文本；分别对所述题目和所述正文文本进行分词，并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化，得到所述待检测作文的词向量；根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度；如果所述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。本申请在待检测作文的离题度小于或等于预设的阈值时，从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

Description

离题作文检测方法、装置和终端设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种离题作文检测方法、装置和终端设备。

背景技术

随着人工智能相关技术的日益成熟，越来越多的工作被机器取代，如学生考试时的阅卷工作，从而大大降低了老师批改试卷时的工作量，提高了工作效率；机器阅卷时，对于客观题比较容易判断，而对于主观题一般都会涉及语义理解，则较难判断，尤其是对于作文的判断更是难上加难；判断一篇作文的质量需要从多方面进行分析，如作文的篇章结构、作文中的修辞、作文中的优美句子、作文是否离题等；其中，判断作文是否离题是作文批改中需要分析的重要因素，一篇离题作文即使语句写得再好，也很难得高分；因此，如何判断作文是否离题对于机器自动阅卷具有重要意义；现在一般采用构建主题词扩展表对作文正文进行主题划分的方法，计算待检测作文的题目与正文的相似度来进行离题检测，但是这种方法并未考虑作文中词与词之间的语义关系，而是简单的将待检测作文作为一系列无序词语的组合，根据词与词之间的共现规律进行离题作文检测，离题作文的检测准确度较低。

发明内容

本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种离题作文检测方法。该方法在待检测作文的离题度小于或等于预设的阈值时，从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

本申请的第二个目的在于提出一种离题作文检测装置。

本申请的第三个目的在于提出一种终端设备。

为了实现上述目的，本申请第一方面实施例的离题作文检测方法，包括：接收待检测作文，所述待检测作文包括题目和正文文本；分别对所述题目和所述正文文本进行分词，并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化，得到所述待检测作文的词向量；根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度；如果所述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。

本申请实施例的离题作文检测方法中，接收待检测作文之后，分别对上述待检测作文的题目和正文文本进行分词，并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量，然后根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度，如果上述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定上述待检测作文是否离题，也就是说，在待检测作文的离题度小于或等于预设的阈值时，本申请实施例的离题作文检测方法会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

为了实现上述目的，本申请第二方面实施例的离题作文检测装置，包括：接收模块，用于接收待检测作文，所述待检测作文包括题目和正文文本；分词模块，用于分别对所述题目和所述正文文本进行分词；向量化模块，用于分别对所述分词模块进行分词后获得的所述题目和所述正文文本中的词进行向量化，得到所述待检测作文的词向量；计算模块，用于根据预先构建的通用主题词扩展表和所述向量化模块得到的待检测作文的词向量计算所述待检测作文的离题度；确定模块，用于当所述计算模块计算的所述待检测作文的离题度小于或等于预设的阈值时，通过预先构建的离题作文判定模型确定所述待检测作文是否离题。

本申请实施例的离题作文检测装置中，接收模块接收待检测作文之后，分词模块分别对上述待检测作文的题目和正文文本进行分词，然后向量化模块分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量，然后计算模块根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度，如果上述待检测作文的离题度小于或等于预设的阈值，则确定模块通过预先构建的离题作文判定模型确定上述待检测作文是否离题，也就是说，在待检测作文的离题度小于或等于预设的阈值时，本申请实施例的离题作文检测装置会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

为了实现上述目的，本申请第三方面实施例的终端设备，包括：壳体、处理器、存储器、接收器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器、所述存储器和所述接收器设置在所述电路板上；所述电源电路，用于为所述终端设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；所述接收器，用于接收待检测作文，所述待检测作文包括题目和正文文本；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：分别对所述题目和所述正文文本进行分词，并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化，得到所述待检测作文的词向量；根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度；如果所述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。

本申请实施例的终端设备中，接收器接收待检测作文之后，处理器分别对上述待检测作文的题目和正文文本进行分词，并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量，然后根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度，如果上述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定上述待检测作文是否离题，也就是说，在待检测作文的离题度小于或等于预设的阈值时，本申请实施例的终端设备会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请离题作文检测方法一个实施例的流程图；

图2为本申请离题作文检测方法另一个实施例的流程图；

图3为本申请离题作文检测方法再一个实施例的流程图；

图4为本申请离题作文检测方法中的离题作文判定模型一个实施例的示意图；

图5为本申请离题作文检测方法中构建离题作文判定模型一个实施例的流程图；

图6为本申请离题作文检测装置一个实施例的结构示意图；

图7为本申请离题作文检测装置另一个实施例的结构示意图；

图8为本申请终端设备一个实施例的流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本申请离题作文检测方法一个实施例的流程图，如图1所示，上述离题作文检测方法可以包括：

步骤101，接收待检测作文，上述待检测作文包括题目和正文文本。

其中，上述待检测作文一般为学生考试时写的作文，当然，也可以为根据一个题目，作者写的文章，对此本实施例不作限定。

步骤102，分别对上述题目和上述正文文本进行分词，并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量。

具体地，在分别对上述题目和上述正文文本进行分词时，可以基于条件随机场模型进行分词；

在分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化时，可以采用Word2Vec技术，在此不再详述；

上述待检测作文的词向量包括待检测作文的题目和正文文本中的词的词向量。

步骤103，根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度。

步骤104，判断上述待检测作文的离题度是否小于或等于预设的阈值。如果是，则执行步骤105；如果上述待检测作文的离题度大于预设的阈值，则执行步骤106。

其中，上述预设的阈值的大小可以在具体实现时根据系统性能和/或实现需求自行设定，本实施例对上述预设的阈值的大小不作限定。

步骤105，通过预先构建的离题作文判定模型确定上述待检测作文是否离题。

步骤106，确定上述待检测作文为离题作文。

上述离题作文检测方法中，接收待检测作文之后，分别对上述待检测作文的题目和正文文本进行分词，并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量，然后根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度，如果上述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定上述待检测作文是否离题，也就是说，在待检测作文的离题度小于或等于预设的阈值时，本申请实施例的离题作文检测方法会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

图2为本申请离题作文检测方法另一个实施例的流程图，如图2所示，本申请图1所示实施例步骤103可以包括：

步骤201，收集文本数据构建通用主题词扩展表。

具体地，可以收集文本数据，作为主题词扩展语料库，对上述主题词扩展语料库中的文本数据进行分词后，将得到的每个分词向量化；然后依次对上述主题词扩展语料库中的每个文档进行主题划分，每个文档被划分为至少一个主题，每个主题包含文档中的至少一个词；查找上述主题词扩展语料库中的每个词在文档中的主题，根据每个词所在的主题，对每个词进行主题词的扩展，得到上述文本数据中每个词的主题词扩展表。

其中，在对得到的每个分词向量化时，可以采用Word2Vec方法；在对上述主题词扩展语料库中的每个文档进行主题划分时，可以采用文档主题生成模型(Latent DirichletAllocation；以下简称：LDA)方法，在此不再详述。

具体地，在对每个词进行主题词的扩展时，可以依次将上述主题词扩展语料库中的每个词作为当前词，将当前词所在主题中的其它词作为当前词的扩展主题词。

本实施例中，上述主题词扩展表可以使用主键和键值的方式表示，即主键为上述主题词扩展语料库中的当前词，键值为每个当前词的扩展主题词；上述主题词扩展表的一个示例可以如表1所示。

表1

步骤202，根据上述通用主题词扩展表，构建上述待检测作文题目的主题词扩展表。

具体地，可以先去除上述待检测作文题目中的停用词，根据上述通用主题词扩展表查找上述待检测作文题目中去除停用词之后的每个词的主题词，依次将上述待检测作文题目中的每个词作为当前词，将上述当前词在上述通用主题词扩展表中查找到的主题词作为上述当前词扩展后的主题词，获得上述待检测作文题目的主题词扩展表。

其中，上述待检测作文题目的主题词扩展表同样可以使用主键和键值的方式表示，上述待检测作文题目的主题词扩展表中的主键为上述待检测作文题目中的词，键值为上述待检测作文题目中的每个词扩展后的主题词。

步骤203，根据上述待检测作文题目的主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度。

具体地，依次遍历待检测作文的正文文本中的词向量，统计上述待检测作文的正文文本中的词向量出现在上述待检测作文题目的主题词扩展表中的主题词的总数，然后计算出现在上述主题词扩展表中的主题词的总数与上述待检测作文的正文文本中的词向量的总数的比值，最后根据上述比值确定上述待检测作文的离题度。

其中，上述待检测作文的离题度的具体计算方法可以如式(1)所示。

式(1)中，D为待检测作文的离题度，n_e为上述待检测作文的正文文本中出现在上述主题词扩展表中的主题词的总数，n为上述待检测作文的正文文本中的词向量的总数。

图3为本申请离题作文检测方法再一个实施例的流程图，如图3所示，本申请图1所示实施例中步骤105可以包括：

步骤301，将上述待检测作文的题目和正文文本中每个词的词向量分别输入上述离题作文判定模型。

步骤302，分别对输入的每个词向量进行特征变换，变换后的特征包含每个词向量的历史信息和未来信息。

步骤303，将对每个词向量进行特征变换后获得的历史信息和未来信息合并，分别获得上述待检测作文的题目和正文文本中每个词向量的特征词向量。

步骤304，根据上述待检测作文的题目和正文文本中每个词向量的特征词向量计算上述待检测作文的正文文本与题目的相关度。

步骤305，根据上述相关度确定上述待检测作文是否离题。

具体地，图4为本申请离题作文检测方法中的离题作文判定模型一个实施例的示意图，上述离题作文判定模型结构可以包括输入层、双向门控循环单元(Gated RecurrentUnit；以下简称：GRU)层、注意力层和输出层，其中，输入层、双向GRU层和注意力层共包含两部分，即正文文本和题目。

在步骤301，从上述离题作文判定模型的输入层分别输入待检测作文的正文文本和题目中每个词的词向量，即w₁,w₂,...,w_n及w₁,w₂,...,w_m，其中，n为待检测作文的正文文本中的词向量的总数，m为上述待检测作文的题目中的词向量的总数。

然后，在步骤302，在双向GRU层分别对输入层输入的每个词向量进行特征变换，变换后的特征包含每个词向量的历史信息和未来信息，即每个词的前面词的信息和每个词的后面词的信息，对于待检测作文中的第i个词向量，特征变换方法可以如式(2)和式(3)所示；

其中，式(2)为对第i个词向量的历史信息的变换公式，式(3)为对第i个词向量的未来信息的变换公式，GRU()为特征变换函数。

然后在步骤303，将对每个词向量进行特征变换后获得的历史信息和未来信息合并，分别获得上述待检测作文的题目和正文文本中每个词向量的特征词向量G_i，上述特征词向量G_i既包含词向量的历史信息，又包含词向量的未来信息，具体合并方法如式(4)所示。

通过上述方法依次对上述待检测作文的正文文本中的每个词的词向量进行双向GRU特征变换，得到上述待检测作文的正文文本中的每个词的词向量变换后的特征词向量，记为G₁,G₂,...,G_m；

同样，对于上述待检测作文的题目中的每个词的词向量进行双向GRU特征变换后，得到上述待检测作文的题目中的每个词的词向量变换后的特征词向量，记为t₁,t₂,...,t_m；

在步骤304，在注意力层，将双向GRU层的输出作为注意力层的输入，输出为上述待检测作文的正文文本与题目的相关度S，具体计算方法如式(5)所示。

在步骤305，在输出层，将注意力层计算得到的上述待检测作文的正文文本与题目的相关度作为输出层的输入，经过输出层的变换后，得到检测结果，即输出层的输出。

其中，上述检测结果可以为上述待检测作文是离题作文的概率及上述待检测作文不是离题作文的概率，即P1及P2；或者上述检测结果可以为上述待检测作文是否为离题作文；如果检测结果为上述待检测作文是离题作文的概率及上述待检测作文不是离题作文的概率，则选择概率较大的检测结果作为最终的检测结果，举例来说，如果上述待检测作文是离题作文的概率较大，则检测结果为上述待检测作文为离题作文。

其中，输出层的变换方法可以如式(6)所示：

Result(P1,P2)＝sigmoid(S) (6)

式(6)中，Result为输出层的输出结果；sigmoid()为输出层特征变换函数。

本申请提供的离题作文检测方法，在步骤105之前，还可以包括构建离题作文判定模型的步骤。

图5为本申请离题作文检测方法中构建离题作文判定模型一个实施例的流程图，如图5所示，构建离题作文判定模型可以包括：

步骤501，收集作文文本数据，并为每篇作文设置离题标注信息。

具体地，收集作文文本数据时，可以从学生平常的练习或考试中收集学生写的作文，收集的作文文本数据包含题目和正文文本数据。

然后，可以根据老师对学生作文的打分确定每篇作文是否离题，如一篇作文的得分为90分，则可以认为该作文不是离题作文，如果一篇作文的得分为50分，则可以认为该作文是离题作文。

在具体实现时，可以预先设定离题作文的得分阈值，根据每篇作文的得分和上述预先设定的离题作文的得分阈值就可以将收集的作文文本数据划分为两种类型，即将得分小于或等于上述预先设定的离题作文的得分阈值的作文划分为离题作文，将得分大于上述预先设定的离题作文的得分阈值的作文划分为非离题作文。然后分别标注这两种类型的作文，如使用“0”表示离题作文，“1”表示非离题作文，从而得到每篇作文的离题标注信息。

需要说明的是，收集作文文本数据时，离题作文一般较难收集到，这时可以自动构建离题作文，具体地，可以将收集的作文按主题分为多种不同主题的作文，在不同主题之间，更换作文的题目，正文不变，就可以得到大量的离题作文了，例如：主题为母爱的一篇作文与主题为风景的一篇作文在交换题目后，就可以得到两篇离题作文。对于作文的主题划分所采用的具体方式，本申请不作限定。

步骤502，分别对每篇作文的题目及正文文本进行分词，并对分词获得的每个词进行向量化，获得每篇作文的题目及正文文本中每个词的词向量。

步骤503，根据每篇作文的题目及正文文本中每个词的词向量，以及每篇作文的离题标注信息构建上述离题作文判定模型。

其中，构建的离题作文判定模型的拓扑结构可以如图4所示，具体构建时，将依次收集的每篇作文的题目及正文文本中每个词的词向量作为模型输入，预测每篇作文离题作文及非离题作文的概率，或者每篇作文是否为离题作文，得到每篇作文的预测结果；根据每篇作文的离题标注信息与模型预测结果之间的差值进行模型参数的更新。

需要说明的是，如果预测结果为离题作文及非离题作文的概率，则选择概率较大的预测结果进行模型参数更新。

本申请实施例提供的离题作文检测方法在待检测作文的离题度小于或等于预设的阈值时，会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

图6为本申请离题作文检测装置一个实施例的结构示意图，本申请的离题作文检测装置可以作为终端设备，或者终端设备的一部分实现本申请提供的离题作文检测方法。如图6所示，上述离题作文检测装置可以包括：接收模块61、分词模块62、向量化模块63、计算模块64和确定模块65；

其中，接收模块61，用于接收待检测作文，上述待检测作文包括题目和正文文本；其中，上述待检测作文一般为学生考试时写的作文，当然，也可以为根据一个题目，作者写的文章，对此本实施例不作限定。

分词模块62，用于分别对上述题目和上述正文文本进行分词；具体地，在分别对上述题目和上述正文文本进行分词时，分词模块62可以基于条件随机场模型进行分词。

向量化模块63，用于分别对分词模块62进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量；在分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化时，向量化模块63可以采用Word2Vec技术，在此不再详述。其中，上述待检测作文的词向量包括待检测作文的题目和正文文本中的词的词向量。

计算模块64，用于根据预先构建的通用主题词扩展表和向量化模块63得到的待检测作文的词向量计算上述待检测作文的离题度。

确定模块65，用于当计算模块64计算的上述待检测作文的离题度小于或等于预设的阈值时，通过预先构建的离题作文判定模型确定上述待检测作文是否离题。

进一步地，确定模块65，还用于当计算模块64计算的上述待检测作文的离题度大于预设的阈值时，确定上述待检测作文为离题作文。

上述离题作文检测装置中，接收模块61接收待检测作文之后，分词模块62分别对上述待检测作文的题目和正文文本进行分词，并由向量化模块63分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量，然后计算模块64根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度，如果上述待检测作文的离题度小于或等于预设的阈值，则确定模块65通过预先构建的离题作文判定模型确定上述待检测作文是否离题，也就是说，在待检测作文的离题度小于或等于预设的阈值时，本申请实施例的离题作文检测装置会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

图7为本申请离题作文检测装置另一个实施例的结构示意图，与图6所示的离题作文检测装置相比，不同之处在于，图7所示的离题作文检测装置中，计算模块64可以包括：构建子模块641和离题度计算子模块642；

其中，构建子模块641，用于收集文本数据构建通用主题词扩展表，以及根据上述通用主题词扩展表，构建上述待检测作文题目的主题词扩展表；

离题度计算子模块642，用于根据构建子模块641构建的上述待检测作文题目的主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度。

本申请实施例的一种实现方式中，构建子模块641可以包括：收集单元6411、分词处理单元6412、划分单元6413、查找单元6414和扩展单元6415。

收集单元6411，用于收集文本数据，作为主题词扩展语料库。

分词处理单元6412，用于对上述主题词扩展语料库中的文本数据进行分词后，将得到的每个分词向量化；其中，在对得到的每个分词向量化时，分词处理单元6412可以采用Word2Vec方法，在此不再详述。

划分单元6413，用于依次对上述主题词扩展语料库中的每个文档进行主题划分，每个文档被划分为至少一个主题，每个主题包含文档中的至少一个词；在对上述主题词扩展语料库中的每个文档进行主题划分时，划分单元6413可以采用LDA方法，在此不再详述。

查找单元6414，用于查找上述主题词扩展语料库中的每个词在文档中的主题。

扩展单元6415，用于根据查找单元6414查找到的每个词所在的主题，对每个词进行主题词的扩展，得到上述文本数据中每个词的主题词扩展表。具体地，在对每个词进行主题词的扩展时，扩展单元6415可以依次将上述主题词扩展语料库中的每个词作为当前词，将当前词所在主题中的其它词作为当前词的扩展主题词。

本申请实施例的另一种实现方式中，构建子模块641可以包括：去除单元6416、查找单元6414和扩展单元6415。

去除单元6416，用于去除上述待检测作文题目中的停用词；

查找单元6414，用于根据上述通用主题词扩展表查找上述待检测作文题目中去除停用词之后的每个词的主题词；

扩展单元6415，用于依次将上述待检测作文题目中的每个词作为当前词，将上述当前词在所述通用主题词扩展表中查找到的主题词作为上述当前词扩展后的主题词，获得上述待检测作文题目的主题词扩展表。

本实施例中，离题度计算子模块642可以包括：统计单元6421、比值计算单元6422和离题度确定单元6423；

其中，统计单元6421，用于依次遍历待检测作文的正文文本中的词向量，统计上述待检测作文的正文文本中的词向量出现在上述待检测作文题目的主题词扩展表中的主题词的总数；

比值计算单元6422，用于计算出现在上述主题词扩展表中的主题词的总数与上述待检测作文的正文文本中的词向量的总数的比值；

离题度确定单元6423，用于根据比值计算单元6422计算的比值确定上述待检测作文的离题度。其中，上述待检测作文的离题度的具体计算方法可以如式(1)所示。

本实施例中，确定模块65可以包括：输入子模块651、特征变换子模块652、合并子模块653、相关度计算子模块654和离题判断子模块655；

其中，输入子模块651，用于将上述待检测作文的题目和正文文本中每个词的词向量分别输入上述离题作文判定模型；

特征变换子模块652，用于分别对输入子模块651输入的每个词向量进行特征变换，变换后的特征包含每个词向量的历史信息和未来信息；

合并子模块653，用于将对每个词向量进行特征变换后获得的历史信息和未来信息合并，分别获得上述待检测作文的题目和正文文本中每个词向量的特征词向量；

相关度计算子模块654，用于根据上述待检测作文的题目和正文文本中每个词向量的特征词向量计算上述待检测作文的正文文本与题目的相关度。

离题判断子模块655，用于根据相关度计算子模块654计算的相关度确定上述待检测作文是否离题。

具体地，离题作文判定模型的一个示例可以如图4所示，上述离题作文判定模型结构可以包括输入层、双向GRU层、注意力层和输出层，其中，输入层、双向GRU层和注意力层共包含两部分，即正文文本和题目。

首先，输入子模块651可以从上述离题作文判定模型的输入层分别输入待检测作文的正文文本和题目中每个词的词向量，即w₁,w₂,...,w_n及w₁,w₂,...,w_m，其中，n为待检测作文的正文文本中的词向量的总数，m为上述待检测作文的题目中的词向量的总数。

然后，特征变换子模块652可以在双向GRU层分别对输入层输入的每个词向量进行特征变换，变换后的特征包含每个词向量的历史信息和未来信息，即每个词的前面词的信息和每个词的后面词的信息，对于待检测作文中的第i个词向量，特征变换方法可以如式(2)和式(3)所示。

然后，合并子模块653可以将对每个词向量进行特征变换后获得的历史信息和未来信息合并，分别获得上述待检测作文的题目和正文文本中每个词向量的特征词向量G_i，上述特征词向量G_i既包含词向量的历史信息，又包含词向量的未来信息，具体合并方法如式(4)所示。

通过上述方法，合并子模块653依次对上述待检测作文的正文文本中的每个词的词向量进行双向GRU特征变换，得到上述待检测作文的正文文本中的每个词的词向量变换后的特征词向量，记为G₁,G₂,...,G_m；

同样，合并子模块653对于上述待检测作文的题目中的每个词的词向量进行双向GRU特征变换后，得到上述待检测作文的题目中的每个词的词向量变换后的特征词向量，记为t₁,t₂,...,t_m；

在注意力层，相关度计算子模块654将双向GRU层的输出作为注意力层的输入，输出为上述待检测作文的正文文本与题目的相关度S，具体计算方法如式(5)所示。

在输出层，离题判断子模块655将注意力层计算得到的上述待检测作文的正文文本与题目的相关度作为输出层的输入，经过输出层的变换后，得到检测结果，即输出层的输出。

其中，上述检测结果可以为上述待检测作文是离题作文的概率及上述待检测作文不是离题作文的概率，即P1及P2；或者上述检测结果可以为上述待检测作文是否为离题作文；如果检测结果为上述待检测作文是离题作文的概率及上述待检测作文不是离题作文的概率，则选择概率较大的检测结果作为最终的检测结果，举例来说，如果上述待检测作文是离题作文的概率较大，则检测结果为上述待检测作文为离题作文。其中，输出层的变换方法可以如式(6)所示。

本申请提供的离题作文检测装置还可以包括：模型构建模块66；

其中，模型构建模块66，用于构建离题作文判定模型。

上述模型构建模块66可以包括：作文收集子模块661、设置子模块662、分词处理子模块663和模型构建子模块664；

其中，作文收集子模块661，用于收集作文文本数据；

设置子模块662，用于为作文收集子模块661收集的每篇作文设置离题标注信息；

具体地，作文收集子模块661收集作文文本数据时，可以从学生平常的练习或考试中收集学生写的作文，收集的作文文本数据包含题目和正文文本数据。

在具体实现时，可以预先设定离题作文的得分阈值，根据每篇作文的得分和上述预先设定的离题作文的得分阈值就可以将收集的作文文本数据划分为两种类型，即将得分小于或等于上述预先设定的离题作文的得分阈值的作文划分为离题作文，将得分大于上述预先设定的离题作文的得分阈值的作文划分为非离题作文。然后设置子模块662分别标注这两种类型的作文，如使用“0”表示离题作文，“1”表示非离题作文，从而得到每篇作文的离题标注信息。

需要说明的是，作文收集子模块661收集作文文本数据时，离题作文一般较难收集到，这时可以自动构建离题作文，具体地，可以将作文收集子模块661收集的作文按主题分为多种不同主题的作文，在不同主题之间，更换作文的题目，正文不变，就可以得到大量的离题作文了，例如：主题为母爱的一篇作文与主题为风景的一篇作文在交换题目后，就可以得到两篇离题作文。对于作文的主题划分所采用的具体方式，本申请不作限定。

分词处理子模块663，用于分别对每篇作文的题目及正文文本进行分词，并对分词获得的每个词进行向量化，获得每篇作文的题目及正文文本中每个词的词向量；

模型构建子模块664，用于根据每篇作文的题目及正文文本中每个词的词向量，以及每篇作文的离题标注信息构建上述离题作文判定模型。

其中，模型构建子模块664构建的离题作文判定模型的拓扑结构可以如图4所示，具体构建时，将依次收集的每篇作文的题目及正文文本中每个词的词向量作为模型输入，预测每篇作文离题作文及非离题作文的概率，或者每篇作文是否为离题作文，得到每篇作文的预测结果；根据每篇作文的离题标注信息与模型预测结果之间的差值进行模型参数的更新。

本申请实施例提供的离题作文检测装置在待检测作文的离题度小于或等于预设的阈值时，会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

图8为本申请终端设备一个实施例的流程图，本申请中的终端设备可以实现本申请提供的离题作文检测方法。

如图8所示，上述终端设备可以包括：壳体81、处理器82、存储器83、接收器84、电路板85和电源电路86，其中，电路板85安置在壳体81围成的空间内部，处理器82、存储器83和接收器84设置在电路板85上；电源电路86，用于为上述终端设备的各个电路或器件供电；存储器83用于存储可执行程序代码；

接收器84，用于接收待检测作文，上述待检测作文包括题目和正文文本；

处理器82通过读取上述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：分别对上述题目和上述正文文本进行分词，并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量；根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度；如果上述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定上述待检测作文是否离题。

本实施例中，处理器82通过读取上述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，从而执行各种功能应用以及数据处理，例如实现本申请提供的离题作文检测方法。

上述终端设备中，接收器84接收待检测作文之后，处理器82分别对上述待检测作文的题目和正文文本进行分词，并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化，得到上述待检测作文的词向量，然后根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度，如果上述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定上述待检测作文是否离题，也就是说，在待检测作文的离题度小于或等于预设的阈值时，本申请实施例的终端设备会从待检测作文的语义角度再次进行离题检测，从而大大提高了离题作文检测的准确度。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种离题作文检测方法，其特征在于，包括：

接收待检测作文，所述待检测作文包括题目和正文文本；

分别对所述题目和所述正文文本进行分词，并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化，得到所述待检测作文的词向量；

根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度；

如果所述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定所述待检测作文是否离题；

其中，所述通过预先构建的离题作文判定模型确定所述待检测作文是否离题包括：

将所述待检测作文的题目和正文文本中每个词的词向量分别输入所述离题作文判定模型，且所述离题作文判定模型包括输入层、双向门控循环单元、注意力层和输出层；

分别对输入的每个词向量进行特征变换，变换后的特征包含每个词向量的历史信息和未来信息；

将对每个词向量进行特征变换后获得的历史信息和未来信息合并，分别获得所述待检测作文的题目和正文文本中每个词向量的特征词向量；

根据所述待检测作文的题目和正文文本中每个词向量的特征词向量计算所述待检测作文的正文文本与题目的相关度；

根据所述相关度确定所述待检测作文是否离题，

将所述双向门控循环单元的输出作为所述注意力层的输入，输出为所述待检测作文的正文文本与题目的相关度S：

其中G_i为所述特征词向量，t_j为所述检测作文的题目中每个词向量的特征词向量，

所述输出层的变换方法为：

Result(P1,P2)＝sigmoid(S)，

其中Result为所述输出层的输出结果；sigmoid()为所述输出层特征变换函数，P1和P2为所述待检测作文是离题作文的概率及所述待检测作文不是离题作文的概率。

2.根据权利要求1所述的方法，其特征在于，所述根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度之后，还包括：

如果所述待检测作文的离题度大于预设的阈值，则确定所述待检测作文为离题作文。

3.根据权利要求1所述的方法，其特征在于，所述根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度包括：

收集文本数据构建通用主题词扩展表；

根据所述通用主题词扩展表，构建所述待检测作文题目的主题词扩展表；

根据所述待检测作文题目的主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度。

4.根据权利要求3所述的方法，其特征在于，所述收集文本数据构建通用主题词扩展表包括：

收集文本数据，作为主题词扩展语料库；

对所述主题词扩展语料库中的文本数据进行分词后，将得到的每个分词向量化；

依次对所述主题词扩展语料库中的每个文档进行主题划分，每个文档被划分为至少一个主题，每个主题包含文档中的至少一个词；

查找所述主题词扩展语料库中的每个词在文档中的主题，根据每个词所在的主题，对每个词进行主题词的扩展，得到所述文本数据中每个词的主题词扩展表。

5.根据权利要求3所述的方法，其特征在于，所述根据所述通用主题词扩展表，构建所述待检测作文题目的主题词扩展表包括：

去除所述待检测作文题目中的停用词；

根据所述通用主题词扩展表查找所述待检测作文题目中去除停用词之后的每个词的主题词；

依次将所述待检测作文题目中的每个词作为当前词，将所述当前词在所述通用主题词扩展表中查找到的主题词作为所述当前词扩展后的主题词，获得所述待检测作文题目的主题词扩展表。

6.根据权利要求3所述的方法，其特征在于，所述根据所述待检测作文题目的主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度包括：

依次遍历待检测作文的正文文本中的词向量，统计所述待检测作文的正文文本中的词向量出现在所述待检测作文题目的主题词扩展表中的主题词的总数；

计算出现在所述主题词扩展表中的主题词的总数与所述待检测作文的正文文本中的词向量的总数的比值；

根据所述比值确定所述待检测作文的离题度。

7.根据权利要求1所述的方法，其特征在于，所述通过预先构建的离题作文判定模型确定所述待检测作文是否离题之前，还包括：

构建离题作文判定模型。

8.根据权利要求7所述的方法，其特征在于，所述构建离题作文判定模型包括：

收集作文文本数据，并为每篇作文设置离题标注信息；

分别对每篇作文的题目及正文文本进行分词，并对分词获得的每个词进行向量化，获得每篇作文的题目及正文文本中每个词的词向量；

根据每篇作文的题目及正文文本中每个词的词向量，以及每篇作文的离题标注信息构建所述离题作文判定模型。

9.一种离题作文检测装置，其特征在于，包括：

接收模块，用于接收待检测作文，所述待检测作文包括题目和正文文本；

分词模块，用于分别对所述题目和所述正文文本进行分词；

向量化模块，用于分别对所述分词模块进行分词后获得的所述题目和所述正文文本中的词进行向量化，得到所述待检测作文的词向量；

计算模块，用于根据预先构建的通用主题词扩展表和所述向量化模块得到的待检测作文的词向量计算所述待检测作文的离题度；

确定模块，用于当所述计算模块计算的所述待检测作文的离题度小于或等于预设的阈值时，通过预先构建的离题作文判定模型确定所述待检测作文是否离题，且所述确定模块包括：

输入子模块，用于将所述待检测作文的题目和正文文本中每个词的词向量分别输入所述离题作文判定模型，且所述离题作文判定模型包括输入层、双向门控循环单元、注意力层和输出层，所述输入子模块将所述双向门控循环单元的输出作为所述注意力层的输入，所述注意力层的输出为所述待检测作文的正文文本与题目的相关度S；

特征变换子模块，用于分别对所述输入子模块输入的每个词向量进行特征变换，变换后的特征包含每个词向量的历史信息和未来信息；

合并子模块，用于将对每个词向量进行特征变换后获得的历史信息和未来信息合并，分别获得所述待检测作文的题目和正文文本中每个词向量的特征词向量；

相关度计算子模块，用于根据所述待检测作文的题目和正文文本中每个词向量的特征词向量计算所述待检测作文的正文文本与题目的相关度；

离题判断子模块，用于根据所述相关度计算子模块计算的相关度确定所述待检测作文是否离题，

且所述输入子模块将所述双向门控循环单元的输出作为所述注意力层的输入，所述注意力层的输出为所述待检测作文的正文文本与题目的相关度S，且

所述输出层的变换方法为Result(P1,P2)＝sigmoid(S)，

10.根据权利要求9所述的装置，其特征在于，

所述确定模块，还用于当所述计算模块计算的所述待检测作文的离题度大于预设的阈值时，确定所述待检测作文为离题作文。

11.根据权利要求9所述的装置，其特征在于，所述计算模块包括：

构建子模块，用于收集文本数据构建通用主题词扩展表，以及根据所述通用主题词扩展表，构建所述待检测作文题目的主题词扩展表；

离题度计算子模块，用于根据所述构建子模块构建的所述待检测作文题目的主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度。

12.根据权利要求11所述的装置，其特征在于，所述构建子模块包括：

收集单元，用于收集文本数据，作为主题词扩展语料库；

分词处理单元，用于对所述主题词扩展语料库中的文本数据进行分词后，将得到的每个分词向量化；

划分单元，用于依次对所述主题词扩展语料库中的每个文档进行主题划分，每个文档被划分为至少一个主题，每个主题包含文档中的至少一个词；

查找单元，用于查找所述主题词扩展语料库中的每个词在文档中的主题；

扩展单元，用于根据所述查找单元查找到的每个词所在的主题，对每个词进行主题词的扩展，得到所述文本数据中每个词的主题词扩展表。

13.根据权利要求11所述的装置，其特征在于，所述构建子模块包括：

去除单元，用于去除所述待检测作文题目中的停用词；

查找单元，用于根据所述通用主题词扩展表查找所述待检测作文题目中去除停用词之后的每个词的主题词；

扩展单元，用于依次将所述待检测作文题目中的每个词作为当前词，将所述当前词在所述通用主题词扩展表中查找到的主题词作为所述当前词扩展后的主题词，获得所述待检测作文题目的主题词扩展表。

14.根据权利要求11所述的装置，其特征在于，所述离题度计算子模块包括：

统计单元，用于依次遍历待检测作文的正文文本中的词向量，统计所述待检测作文的正文文本中的词向量出现在所述待检测作文题目的主题词扩展表中的主题词的总数；

比值计算单元，用于计算出现在所述主题词扩展表中的主题词的总数与所述待检测作文的正文文本中的词向量的总数的比值；

离题度确定单元，用于根据所述比值计算单元计算的比值确定所述待检测作文的离题度。

15.根据权利要求9所述的装置，其特征在于，还包括：

模型构建模块，用于构建离题作文判定模型。

16.根据权利要求15所述的装置，其特征在于，所述模型构建模块包括：

作文收集子模块，用于收集作文文本数据；

设置子模块，用于为所述作文收集子模块收集的每篇作文设置离题标注信息；

分词处理子模块，用于分别对每篇作文的题目及正文文本进行分词，并对分词获得的每个词进行向量化，获得每篇作文的题目及正文文本中每个词的词向量；

模型构建子模块，用于根据每篇作文的题目及正文文本中每个词的词向量，以及每篇作文的离题标注信息构建所述离题作文判定模型。

17.一种终端设备，其特征在于，包括：壳体、处理器、存储器、接收器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器、所述存储器和所述接收器设置在所述电路板上；所述电源电路，用于为所述终端设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；

所述接收器，用于接收待检测作文，所述待检测作文包括题目和正文文本；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：分别对所述题目和所述正文文本进行分词，并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化，得到所述待检测作文的词向量；

如果所述待检测作文的离题度小于或等于预设的阈值，则通过预先构建的离题作文判定模型确定所述待检测作文是否离题，

其中，所述通过预先构建的离题作文判定模型确定所述待检测作文是否离题包括：将所述待检测作文的题目和正文文本中每个词的词向量分别输入所述离题作文判定模型，且所述离题作文判定模型包括输入层、双向门控循环单元、注意力层和输出层；分别对输入的每个词向量进行特征变换，变换后的特征包含每个词向量的历史信息和未来信息；将对每个词向量进行特征变换后获得的历史信息和未来信息合并，分别获得所述待检测作文的题目和正文文本中每个词向量的特征词向量；根据所述待检测作文的题目和正文文本中每个词向量的特征词向量计算所述待检测作文的正文文本与题目的相关度；

根据所述相关度确定所述待检测作文是否离题，将所述双向门控循环单元的输出作为所述注意力层的输入，输出为所述待检测作文的正文文本与题目的相关度S：

所述输出层的变换方法为：

Result(P1,P2)＝sigmoid(S)