CN114020904A

CN114020904A - 试题文件筛选方法、模型训练方法、装置、设备及介质

Info

Publication number: CN114020904A
Application number: CN202111182850.4A
Authority: CN
Inventors: 孙钰清; 邵世臣; 李永恒; 邹仁华; 赵廷辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2022-02-08

Abstract

本公开提供了一种试题文件筛选方法、模型训练方法、装置、设备及介质，本公开涉及人工智能技术领域，具体涉及目标识别的技术领域，可应用于试题文件筛选等场景。具体实现方案为：提取待识别的目标文件的多个维度的特征信息，目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；基于多个维度的特征信息确定出目标文件是否属于试题文件的识别结果；当目标文件为试题文件时，从目标文件提取出至少一种预设的试题标签信息，基于试题标签信息对目标文件进行分类。上述过程可以提高文件的识别结果的准确率，试题文件的筛选过程可以自动完成，既提高了试题筛选的效率，又可以降低人工成本。

Description

试题文件筛选方法、模型训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，具体涉及目标识别的技术领域，可应用于试题文件筛选等场景。

背景技术

在搜题类产品的题库建设中，需要从大量的文件中筛选出试题文件，进而将试题文件拆分成多道单独的题目，用于供用户在搜题时进行展示。现有的筛选试题文件的方式，通常是基于文件的少量的信息初步筛选出疑似试题文件，再通过人工查看疑似试题文件的正文内容来校验疑似试题文件是否为真实的试题文件，并需要手动为试题文件添加标签进行分类。然而，上述初步筛选出疑似试题文件的过程容易导致一些真实的试题文件因误判而被遗漏，此外，人工校对的方式成本巨大且效率较低。

发明内容

本公开提供了一种试题文件筛选方法、模型训练方法、装置、设备及介质。

根据本公开的第一方面，提供了一种试题文件筛选方法，包括：

提取待识别的目标文件的多个维度的特征信息，目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

基于多个维度的特征信息确定出目标文件是否属于试题文件的识别结果；

当目标文件为试题文件时，从目标文件提取出至少一种预设的试题标签信息，基于试题标签信息对目标文件进行分类。

根据本公开的第二方面，提供了一种试题识别模型训练方法，包括：

标注多个样本文件中每个样本文件是否属于试题文件的实际结果；

提取多个样本文件中每个样本文件的多个维度的特征信息，样本文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

将多个维度的特征信息输入到试题识别模型，利用试题识别模型输出样本文件是否属于试题文件的识别结果；

基于各样本文件的实际结果和识别结果，确定出试题识别模型的识别准确率；

基于识别准确率和预设的准确率阈值，调整试题识别模型的参数。

根据本公开的第三方面，提供了一种试题文件筛选装置，包括：

目标特征提取模块，用于提取待识别的目标文件的多个维度的特征信息，目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

目标结果输出模块，用于基于多个维度的特征信息确定出目标文件是否属于试题文件的识别结果；

试题分类模块，用于当目标文件为试题文件时，从目标文件提取出至少一种预设的试题标签信息，基于试题标签信息对目标文件进行分类。

根据本公开的第三方面，提供了一种试题识别模型训练装置，包括：

结果标注模块，用于标注多个样本文件中每个样本文件是否属于试题文件的实际结果；

样本特征提取模块，用于提取多个样本文件中每个样本文件的多个维度的特征信息，样本文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

样本结果输出模块，用于将多个维度的特征信息输入到试题识别模型，利用试题识别模型输出样本文件是否属于试题文件的识别结果；

准确率确定模块，用于基于各样本文件的实际结果和识别结果，确定出试题识别模型的识别准确率；

参数调整模块，用于基于识别准确率和预设的准确率阈值，调整试题识别模型的参数。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的试题文件筛选方法或试题识别模型训练方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的试题文件筛选方法或试题识别模型训练方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述的试题文件筛选方法或试题识别模型训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本公开提供的技术方案带来的有益效果是：

在本公开的技术方案中，综合文件的标题维度、摘要维度、正文维度和文件格式维度等多个维度的信息来识别文件是否属于试题文件，针对属于试题文件的目标文件，可以基于其包含的标签信息自动完成分类。上述过程可以显著地提高文件的识别结果的准确率，较大程度地避免真实的试题文件因误判而被遗漏，试题文件的筛选过程可以自动完成，既提高了试题筛选的效率，又可以降低人工成本。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开实施例提供的一种试题文件筛选方法的流程示意图；

图2示出了本公开实施例提供的另一种试题文件筛选方法的流程示意图；

图3示出了本公开实施例提供的一种试题识别模型训练方法的流程示意图；

图4示出了本公开实施例提供的一种试题文件筛选装置的示意图之一；

图5示出了本公开实施例提供的一种试题文件筛选装置的示意图之二；

图6示出了可以用来实施本公开实施例提供的试题文件筛选方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的试题文件筛选方法、模型训练方法、装置、设备及介质，旨在解决现有技术的如上技术问题中的至少一个。

图1示出了本公开实施例提供的一种试题文件筛选方法的流程示意图，如图1所示，该方法主要可以包括以下步骤：

S110：提取待识别的目标文件的多个维度的特征信息。

在本公开实施中，目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度，还可以包括其他维度的内容，每个维度对应的特征信息的类型可以预先设定，这些特征信息可能在一定程度上反映目标文件是否为试题文件，例如，特征信息可以是关键词、高频词、指定类型的句式和格式类型等。

S120：基于多个维度的特征信息确定出目标文件是否属于试题文件的识别结果。

在本公开实施例中，可以将多个维度的特征信息输入到预先训练的试题识别模型，利用试题识别模型输出目标文件是否属于试题文件的识别结果。可选地，本公开实施例在利用试题识别模型输出目标文件是否属于试题文件的识别结果时，可以针对每个维度的特征信息，利用试题识别模型根据特征信息确定出目标文件属于试题文件的可信度；根据多个维度的特征信息分别对应的可信度，确定出目标文件是否属于试题文件的识别结果。

本公开实施例可以对初始的试题识别模型进行训练，例如，针对多个样本文件，可以预先标注多个样本文件中每个样本文件是否属于试题文件的实际结果，之后将多个样本文件作为训练集输入到初始的试题识别模型进行训练，试题识别模型具体的训练过程将在后续内容做具体介绍。

在将目标文件的多个维度的特征信息输入到预先训练的试题识别模型之后，试题识别模型可以输出一个识别结果，该识别结果可以指示目标文件是否属于试题文件的识别结果。当识别结果指示目标文件属于试题文件时，可以继续执行步骤S130；当识别结果指示目标文件不属于试题文件时，可以继续结束该方法的流程，或者，针对下一个目标文件重新执行步骤 S110。

在本公开实施例中，可以确定目标文件的每个维度的特征信息是否属于预设的试题特征信息。若目标文件的一个维度的特征信息属于预设的试题特征信息，则可以将该特征信息确定为目标特征信息。当目标文件的目标特征信息的数量大于预设值时，可以确定目标文件属于试题文件。

S130：当目标文件为试题文件时，从目标文件提取出至少一种预设的试题标签信息，基于试题标签信息对目标文件进行分类。

可以理解，试题文件通常会包含一些能够表征其所属的类型的信息，本公开实施例将这些信息定义为试题标签信息。在确定目标文件为试题文件时，可以继续从目标文件中提取试题标签信息，基于试题标签信息确定出目标文件所属的试题文件类型，从而方便对筛选出的目标文件进行按类型进行归纳管理。

本公开实施例提供的试题文件筛选方法，综合文件的标题维度、摘要维度、正文维度和文件格式维度等多个维度的信息来识别文件是否属于试题文件，针对属于试题文件的目标文件，可以基于其包含的标签信息自动完成分类。上述过程可以显著地提高文件的识别结果的准确率，较大程度地避免真实的试题文件因误判而被遗漏，试题文件的筛选过程可以自动完成，既提高了试题筛选的效率，又可以降低人工成本。

可选地，本公开实施例从目标文件提取出的试题标签信息的类型和数量可以根据预先设定的规则而定，例如，从目标文件提取出地区信息、学段信息和科目信息中的至少一个作为试题标签。

在此需要说明的是，本公开实施例可以预先确定一个包含多个文件的文件库，将文件库中的每个文件定义为目标文件。针对每个目标文件依次执行步骤S110和S120，确定出属于试题文件的目标文件；对于属于试题文件的目标文件，继续执行步骤S130，完成对该目标文件的分类。

图2示出了本公开实施例提供的另一种试题文件筛选方法的流程示意图，如图2所示，该方法主要可以包括以下步骤：

S210：提取待识别的目标文件的多个维度的特征信息。

在本公开实施中，目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度，还可以包括其他维度的内容，每个维度对应的特征信息的类型可以预先设定，这些特征信息可能在一定程度上反映目标文件是否为试题文件，例如，特征信息可以是关键词、高频词、指定类型的句式和格式类型等。下面对提取目标文件的每个维度的特征信息的过程作进一步介绍：

在本公开实施例中，针对目标文件的标题维度，在待识别的目标文件的标题文本中提取出标题关键词，将标题关键词作为标题维度的特征信息。

在本公开实施例中，针对目标文件的摘要维度，在待识别的目标文件的摘要文本中提取出摘要关键词，将摘要关键词作为标题维度的特征信息。

可选地，针对目标文件的标题文本和摘要文本，可以先去除文本中的无关符号、虚词等干扰字段，对文本按标点符号(如逗号和句号等)进行分割以得到分句，对分句进行切词得到至少一个词语，再对词语重新聚合排序，提取出相应的关键词。

可以理解，如果目标文件是试题文件，那么从目标文件的标题文本和摘要文本提取出的关键词有较大的可能会包括“试题”、“试卷”、“考试”和“测试”等至少一项文字内容；如果目标文件不是试题文件，那么从目标文件的标题文本和摘要文本提取出的关键词包含上述文字内容的可能性较小。

在本公开实施例中，针对目标文件的正文维度，在待识别的目标文件的正文中提取出高频词汇和/或题目问句；将高频词汇和/或题目问句作为正文维度的特征信息。

本公开实施例可以将目标文件的正文中出现频率超出预设频率的词汇作为高频词汇，在此需要说明的是，为了避免将无实质意义的词判定为高频词汇，本公开实施例可以先去除正文中的虚词等干扰字段，例如，可以预先去除正文中的“的”、“了”、“啊”等词语。可以理解，如果目标文件是试题文件，那么从目标文件的正文提取出的高频词汇有较大的可能会包括“解答”、“计算”、“选择”、“等于”和“每道题X分”等与试题相关的词汇；如果目标文件不是试题文件，那么从目标文件的正文提取出的高频词汇包括上述词汇的可能性较小。

可选地，本公开实施例可以根据目标文件的正文中的文本分段方式、词语词性和题目问题的常见符号(如问好)等信息，在目标文件的正文中提取出题目问句。可以理解，如果目标文件是试题文件，那么从目标文件的正文提取出的题目问句可以包括“选择哪一项”、“以下哪项是正确的”和“值等于多少”等问句；如果目标文件不是试题文件，那么从目标文件的正文提取出题目问句的可能性较小，此时目标文件的正文维度的特征信息中可以不包含题目问句。

在本公开实施例中，针对目标文件的文件格式维度，检测出待识别的目标文件的格式类型；将格式类型作为文件格式维度的特征信息。

文件的格式通常包括Word、PDF、Excle和PPT等格式，本公开实施例可以检测出待识别的目标文件的格式类型具体为上述格式中哪一种，将检测出的格式类型作为目标文件的文件格式维度的特征信息。可以理解，如果目标文件不是试题文件，那么目标文件的格式通常为Word或PDF；当目标文件的格式为Excle或PPT，那么该目标文件属于试题文件的可能性通常较小。

在本公开实施例中，目标文件的维度还包括文件类型维度。针对目标文件的文件类型维度，检测出待识别的目标文件的文件类型；将文件类型作为文件类型维度的特征信息。

为了便于文件的管理，目标文件通常是按文件类型存储在文件库中的。例如，文件类型可以包括科技类、生活类、娱乐类、音乐类、历史类和考试类等，本公开实施例可以检测出待识别的目标文件的文件类型具体为上述类型中哪一种，将检测出的文件类型作为目标文件的文件类型维度的特征信息。可以理解，如果目标文件的文件类型是考试类，那么该目标文件有较大的可能性属于试题文件；如果目标文件的文件类型是考试类之外的其它类型，那么该目标文件属于试题文件的可能性较小。

S220：将多个维度的特征信息输入到预先训练的试题识别模型，针对每个维度的特征信息，利用试题识别模型根据特征信息确定出目标文件属于试题文件的可信度。

在本公开实施例中，试题识别模型可以根据每种特征信息确定出目标文件属于试题文件的一个可信度。如前文所述，本公开实施的目标文件的维度包括标题维度、摘要维度、正文维度、文件格式维度和文件类型维度这5种维度，将这5种维度的特征信息输入到预先训练的试题识别模型，那么试题识别模型可以确定出5种维度的特征信息对应的5个可信度。

可以理解，不同维度的特征信息对应的可信度可能是不同的。以步骤 S220中所介绍的每个维度的特征信息的内容为例，针对目标文件的标题文本和摘要文本，若其特征信息中包含“试题”、“试卷”、“考试”和“测试”等至少一项内容时，其对应的可信度较大；针对目标文件的正文维度，当其特征信息中包含与试题相关的词汇和/或题目问句时，其对应的可信度较大；针对目标文件的文件格式维度，当其特征信息中包含Word 或PDF格式信息时，其对应的可信度较大；针对目标文件的文件类型维度，当其特征信息中包含考试类信息时，其对应的可信度较大。

S230：根据多个维度的特征信息分别对应的可信度，确定出目标文件是否属于试题文件的识别结果。

本公开实施例在确定出多个维度的特征信息对应的多个可信度之后，可以综合这多个可信度最终确定出目标文件是否属于试题文件的识别结果，从而确保识别结果的客观性和可靠性。

可选地，本公开实施例可以对多个维度的特征信息分别对应的可信度进行加权求和，得到综合可信度；基于综合可信度和预设的可信度阈值，确定出目标文件是否属于试题文件的识别结果。具体来说，针对每个维度的特征信息，将该特征信息对应的可信度和权重相乘，得到对应的乘积；将多个乘积相加后即可得到综合可信度。当综合可信度大于预设的可信度阈值时，确定出目标文件属于试题文件的识别结果；当综合可信度不大于预设的可信度阈值时，确定出目标文件不属于试题文件的识别结果。

需要说明的是，可信度阈值可根据实际的设计需要而定，例如，可以将可信度阈值设置为0.9。每个维度的特征信息对应的可信度的权重，是通过对试题识别模型进行训练而得到的，使得。一般来说，标题维度的特征信息对应的可信度的权重最大，其他维度的特征信息对应的可信度的权重较小。本公开实施例为不同维度的特征信息所对应的可信度设置不同的权重，直观地体现出每种维度的特征信息对识别结果的重要程度，确保识别结果的客观性。

S240：当目标文件为试题文件时，从目标文件提取出地区信息、学段信息和科目信息中的至少一个作为试题标签。

在本公开实施例中，可以从目标文件提取出学校、行政区等信息作为地区信息类的标签；可以从目标文件提取出年级(如小学一年级、初中一年级、小学和大学一年级等)作为学段信息类的标签；可以从目标文件的试题科目，例如(数学、语文、历史或生物等)作为科目信息类的标签。

S250：基于地区信息、学段信息和科目信息中的至少一项对目标文件进行分类。

本公开实施例可以预先建立一个分类知识图谱，分类知识图谱中包含了每个的年级与对应的学段之间的关系，学段的划分标准可以根据实际的设计需要而定，例如，可分为K12学段(小学至高中)和大学学段，基于步骤S240所提取的地区信息类的标签确定出试卷文件所属的学段类型。

本公开实施例的分类知识图谱还可以包含学校与行政区之间的从属关系、不同级别的行政区之间的从属关系等，于步骤S240所提取的地区信息类的标签确定出试卷文件所属的地区类型(如区级地区、市级地区、省级地区和国家级地区等)。当然，本公开实施例还可以基于科目信息确定出试卷文件所属的科目类型。可以理解，对目标文件进行分类之后，可以按照类别对目标文件进行存储，对从而方便对筛选出的目标文件进行按类型进行归纳管理。

在本公开实施例中，在筛选出试题文件之后，可以对试题文件进行人工符复核，确定试题识别模型筛选出的试题文件是否是真实的试题文件，基于符合结果来反馈调节试题识别模型的参数，从而提升试题识别模型的识别结果的准确性。

在本公开实施例中，对试题文件进行分类之后，可以对试题文件的分类结果进行复核，基于复核结果修正分类知识图谱，从而提升分类结果的准确性。

图3示出了本公开实施例提供的一种试题识别模型训练方法的流程示意图，如图3所示，该方法主要可以包括以下步骤：

S310：标注多个样本文件中每个样本文件是否属于试题文件的实际结果。

需要说明的是，多个样本文件可以包括试题文件和非试题文件，在对多个样本文件中每个样本文件是否属于试题文件的实际结果进行标注之后，可以将这些样本文件作为试题识别模型的训练集。

S320：提取多个样本文件中每个样本文件的多个维度的特征信息。

在本公开实施中，样本文件的维度包括标题维度、摘要维度、正文维度和文件格式维度，还可以包括其他维度的内容，每个维度对应的特征信息的类型可以预先设定，这些特征信息可能在一定程度上反映样本文件是否为试题文件，例如，特征信息可以是关键词、高频词、指定类型的句式和格式类型等。当然，样本文件的维度还可以包括其他维度的内容，例如，样本文件的维度还包括文件类型维度。这里，步骤S320中提取样本文件的多个维度的特征信息的具体步骤，可以参照上述步骤S210中提取目标文件的多个维度的特征信息的步骤，此处不再赘述。

S330：将多个维度的特征信息输入到试题识别模型，利用试题识别模型输出样本文件是否属于试题文件的识别结果。

在本公开实施例中，试题识别模型可以根据每种特征信息确定出样本文件属于试题文件的一个可信度。如前文所述，本公开实施的样本文件的维度包括标题维度、摘要维度、正文维度、文件格式维度和文件类型维度这5种维度，将这5种维度的特征信息输入到预先训练的试题识别模型，那么试题识别模型可以确定出5种维度的特征信息对应的5个可信度。

可选地，在本公开实施例中，针对每个维度的特征信息，利用试题识别模型根据特征信息确定出样本文件属于试题文件的可信度；根据多个维度的特征信息分别对应的可信度，确定出样本文件是否属于试题文件的识别结果。

可选地，本公开实施例可以对多个维度的特征信息分别对应的可信度进行加权求和，得到综合可信度。具体来说，针对每个维度的特征信息，将该特征信息对应的可信度和权重相乘，得到对应的乘积；将多个乘积相加后即可得到综合可信度。

在得到综合可信度之后，可以基于综合可信度和预设的可信度阈值，确定出样本文件是否属于试题文件的识别结果。具体来说，当综合可信度大于预设的可信度阈值时，确定出样本文件属于试题文件的识别结果；当综合可信度不大于预设的可信度阈值时，确定出样本文件不属于试题文件的识别结果。

S340：基于各样本文件的实际结果和识别结果，确定出试题识别模型的识别准确率。

本公开实施例确定样本文件的实际结果和识别结果是否一致。当样本文件的实际结果和识别结果一致，则表示识别结果正确；当样本文件的实际结果和识别结果不一致，则表示识别结果错误。统计多个样本文件的识别结果的准确率，即可得到试题识别模型的识别准确率。

S350：基于识别准确率和预设的准确率阈值，调整试题识别模型的参数。

在本公开实施例中，准确率阈值可以根据实际的设计需要而定，例如，可以将准确率阈值设置为98％。可以理解，调整试题识别模型的参数的目的是为了使得试题识别模型的识别准确率能够大于或等于准确率阈值，当试题识别模型的识别准确率能够大于或等于准确率阈值时，即可以结束训练过程。

可选地，本公开实施例在调整试题识别模型的参数时，可以调整试题识别模型中每个维度的特征信息对应的可信度的权重。

基于与上述的试题文件筛选方法相同的原理，图4示出了本公开实施例提供的一种试题文件筛选装置的示意图。如图4所示，试题文件筛选装置400包括目标特征提取模块410、目标结果输出模块420和试题分类模块430。

目标特征提取模块410用于提取待识别的目标文件的多个维度的特征信息，目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度。

目标结果输出模块420用于基于多个维度的特征信息确定出目标文件是否属于试题文件的识别结果。

试题分类模块430用于当目标文件为试题文件时，从目标文件提取出至少一种预设的试题标签信息，基于试题标签信息对目标文件进行分类。

本公开实施例提供的试题文件筛选装置，综合文件的标题维度、摘要维度、正文维度和文件格式维度等多个维度的信息来识别文件是否属于试题文件，针对属于试题文件的目标文件，可以基于其包含的标签信息自动完成分类。上述过程可以显著地提高文件的识别结果的准确率，较大程度地避免真实的试题文件因误判而被遗漏，试题文件的筛选过程可以自动完成，既提高了试题筛选的效率，又可以降低人工成本。

在本公开实施例中，目标结果输出模块420在用于基于多个维度的特征信息确定出目标文件是否属于试题文件的识别结果时，具体用于：将多个维度的特征信息输入到预先训练的试题识别模型，利用试题识别模型输出目标文件是否属于试题文件的识别结果。

在本公开实施例中，目标结果输出模块420在用于利用试题识别模型输出目标文件是否属于试题文件的识别结果时，具体用于：

针对每个维度的特征信息，利用试题识别模型根据特征信息确定出目标文件属于试题文件的可信度；

根据多个维度的特征信息分别对应的可信度，确定出目标文件是否属于试题文件的识别结果。

在本公开实施例中，目标结果输出模块420在用于根据多个维度的特征信息分别对应的可信度，确定出目标文件是否属于试题文件的识别结果时，具体用于：

对多个维度的特征信息分别对应的可信度进行加权求和，得到综合可信度；

基于综合可信度和预设的可信度阈值，确定出目标文件是否属于试题文件的识别结果；

其中，每个维度的特征信息对应的可信度的权重，是通过对试题识别模型进行训练而得到的。

在本公开实施例中，目标特征提取模块410在用于提取待识别的目标文件的多个维度的特征信息时，具体用于：

针对目标文件的标题维度，在待识别的目标文件的标题文本中提取出标题关键词，将标题关键词作为标题维度的特征信息；

和/或，针对目标文件的摘要维度，在待识别的目标文件的摘要文本中提取出摘要关键词，将摘要关键词作为标题维度的特征信息。

针对目标文件的正文维度，在待识别的目标文件的正文中提取出高频词汇和/或题目问句；

将高频词汇和/或题目问句作为正文维度的特征信息。

针对目标文件的文件格式维度，检测出待识别的目标文件的格式类型；

将格式类型作为文件格式维度的特征信息。

在本公开实施例中，目标文件的维度还包括文件类型维度；目标特征提取模块410在用于提取待识别的目标文件的多个维度的特征信息时，具体用于：

针对目标文件的文件类型维度，检测出待识别的目标文件的文件类型；

将文件类型作为文件类型维度的特征信息。

在本公开实施例中，试题分类模块430在用于从目标文件提取出至少一种预设的试题标签信息时，具体用于：从目标文件提取出地区信息、学段信息和科目信息中的至少一个作为试题标签。

可以理解的是，本公开实施例中的试题文件筛选装置的上述各模块具有实现上述的试题文件筛选方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述试题文件筛选装置的各模块的功能描述具体可以参见上述的试题文件筛选方法的对应描述，在此不再赘述。

基于与上述的试题识别模型训练方法相同的原理，图5示出了本公开实施例提供的一种试题识别模型训练装置的示意图。如图5所示，试题识别模型训练装置500包括结果标注模块510、样本特征提取模块520、样本结果输出模块530、准确率确定模块540和参数调整模块550。

结果标注模块510用于标注多个样本文件中每个样本文件是否属于试题文件的实际结果。

样本特征提取模块520用于提取多个样本文件中每个样本文件的多个维度的特征信息，样本文件的维度包括标题维度、摘要维度、正文维度和文件格式维度。

样本结果输出模块530用于将多个维度的特征信息输入到试题识别模型，利用试题识别模型输出样本文件是否属于试题文件的识别结果。

准确率确定模块540用于基于各样本文件的实际结果和识别结果，确定出试题识别模型的识别准确率。

参数调整模块550，用于基于识别准确率和预设的准确率阈值，调整试题识别模型的参数。

在本公开实施例中，样本结果输出模块530在用于利用试题识别模型输出样本文件是否属于试题文件的识别结果时，具体用于：

针对每个维度的特征信息，利用试题识别模型根据特征信息确定出样本文件属于试题文件的可信度；

根据多个维度的特征信息分别对应的可信度，确定出样本文件是否属于试题文件的识别结果。

在本公开实施例中，样本结果输出模块530在用于根据多个维度的特征信息分别对应的可信度，确定出样本文件是否属于试题文件的识别结果时，具体用于：对多个维度的特征信息分别对应的可信度进行加权求和，得到综合可信度；基于综合可信度和预设的可信度阈值，确定出样本文件是否属于试题文件的识别结果；

参数调整模块550在用于调整试题识别模型的参数时，具体用于：调整试题识别模型中每个维度的特征信息对应的可信度的权重。

可以理解的是，本公开实施例中的试题识别模型训练装置的上述各模块具有实现上述的试题识别模型训练方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述试题识别模型训练装置的各模块的功能描述具体可以参见上述的试题识别模型训练方法的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开实施例提供的试题文件筛选方法或试题识别模型训练方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出 (I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如试题文件筛选方法或试题识别模型训练方法。例如，在一些实施例中，试题文件筛选方法或试题识别模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元 609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603 并由计算单元601执行时，可以执行上文描述的试题文件筛选方法或试题识别模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行试题文件筛选方法或试题识别模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器 (ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种试题文件筛选方法，包括：

提取待识别的目标文件的多个维度的特征信息，所述目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

基于所述多个维度的特征信息确定出所述目标文件是否属于试题文件的识别结果；

当所述目标文件为试题文件时，从所述目标文件提取出至少一种预设的试题标签信息，基于所述试题标签信息对所述目标文件进行分类。

2.根据权利要求1所述的方法，其中，所述基于所述多个维度的特征信息确定出所述目标文件是否属于试题文件的识别结果，包括：

将所述多个维度的特征信息输入到预先训练的试题识别模型，利用所述试题识别模型输出所述目标文件是否属于试题文件的识别结果。

3.根据权利要求2所述的方法，其中，所述利用所述试题识别模型输出所述目标文件是否属于试题文件的识别结果，包括：

针对每个维度的特征信息，利用所述试题识别模型根据特征信息确定出所述目标文件属于试题文件的可信度；

根据多个维度的特征信息分别对应的可信度，确定出所述目标文件是否属于试题文件的识别结果。

4.根据权利要求3所述的方法，其中，所述根据多个维度的特征信息分别对应的可信度，确定出所述目标文件是否属于试题文件的识别结果，包括：

基于所述综合可信度和预设的可信度阈值，确定出所述目标文件是否属于试题文件的识别结果；

其中，每个维度的特征信息对应的可信度的权重，是通过对所述试题识别模型进行训练而得到的。

5.根据权利要求1至4中任一项所述的方法，其中，所述提取待识别的目标文件的多个维度的特征信息，包括：

针对所述目标文件的标题维度，在待识别的目标文件的标题文本中提取出标题关键词，将所述标题关键词作为所述标题维度的特征信息；

和/或，针对所述目标文件的摘要维度，在待识别的目标文件的摘要文本中提取出摘要关键词，将所述摘要关键词作为所述标题维度的特征信息。

6.根据权利要求1至4中任一项所述的方法，其中，所述提取待识别的目标文件的多个维度的特征信息，包括：

针对所述目标文件的正文维度，在待识别的目标文件的正文中提取出高频词汇和/或题目问句；

将所述高频词汇和/或所述题目问句作为所述正文维度的特征信息。

7.根据权利要求1至4中任一项所述的方法，其中，所述提取待识别的目标文件的多个维度的特征信息，包括：

针对所述目标文件的文件格式维度，检测出待识别的目标文件的格式类型；

将所述格式类型作为所述文件格式维度的特征信息。

8.根据权利要求1至4中任一项所述的方法，所述目标文件的维度还包括文件类型维度；所述提取待识别的目标文件的多个维度的特征信息，包括：

针对所述目标文件的文件类型维度，检测出待识别的目标文件的文件类型；

将所述文件类型作为所述文件类型维度的特征信息。

9.根据权利要求1至4中任一项所述的方法，其中，所述从所述目标文件提取出至少一种预设的试题标签信息，包括：

所述从所述目标文件提取出地区信息、学段信息和科目信息中的至少一个作为试题标签。

10.一种试题识别模型训练方法，包括：

提取所述多个样本文件中每个样本文件的多个维度的特征信息，所述样本文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

将所述多个维度的特征信息输入到试题识别模型，利用所述试题识别模型输出所述样本文件是否属于试题文件的识别结果；

基于各所述样本文件的所述实际结果和所述识别结果，确定出所述试题识别模型的识别准确率；

基于所述识别准确率和预设的准确率阈值，调整所述试题识别模型的参数。

11.根据权利要求10所述的方法，其中，所述利用所述试题识别模型输出所述样本文件是否属于试题文件的识别结果，包括：

针对每个维度的特征信息，利用所述试题识别模型根据特征信息确定出所述样本文件属于试题文件的可信度；

根据多个维度的特征信息分别对应的可信度，确定出所述样本文件是否属于试题文件的识别结果。

12.根据权利要求11所述的方法，其中，

所述根据多个维度的特征信息分别对应的可信度，确定出所述样本文件是否属于试题文件的识别结果，包括：对多个维度的特征信息分别对应的可信度进行加权求和，得到综合可信度；基于所述综合可信度和预设的可信度阈值，确定出所述样本文件是否属于试题文件的识别结果；

所述调整所述试题识别模型的参数，包括：调整所述试题识别模型中每个维度的特征信息对应的可信度的权重。

13.一种试题文件筛选装置，包括：

目标特征提取模块，用于提取待识别的目标文件的多个维度的特征信息，所述目标文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

目标结果输出模块，用于基于所述多个维度的特征信息确定出所述目标文件是否属于试题文件的识别结果；

试题分类模块，用于当所述目标文件为试题文件时，从所述目标文件提取出至少一种预设的试题标签信息，基于所述试题标签信息对所述目标文件进行分类。

14.根据权利要求13所述的装置，其中，所述目标特征提取模块在用于基于所述多个维度的特征信息确定出所述目标文件是否属于试题文件的识别结果时，具体用于：

15.根据权利要求14所述的装置，其中，所述目标结果输出模块在用于利用所述试题识别模型输出所述目标文件是否属于试题文件的识别结果时，具体用于：

16.根据权利要求15所述的装置，其中，所述目标结果输出模块在用于根据多个维度的特征信息分别对应的可信度，确定出所述目标文件是否属于试题文件的识别结果时，具体用于：

17.一种试题识别模型训练装置，包括：

样本特征提取模块，用于提取所述多个样本文件中每个样本文件的多个维度的特征信息，所述样本文件的维度包括标题维度、摘要维度、正文维度和文件格式维度；

样本结果输出模块，用于将所述多个维度的特征信息输入到试题识别模型，利用所述试题识别模型输出所述样本文件是否属于试题文件的识别结果；

准确率确定模块，用于基于各所述样本文件的所述实际结果和所述识别结果，确定出所述试题识别模型的识别准确率；

参数调整模块，用于基于所述识别准确率和预设的准确率阈值，调整所述试题识别模型的参数。

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8或权利要求9至11中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8或权利要求9至11中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8或权利要求9至11中任一项所述的方法。