CN111931018B

CN111931018B - 试题匹配及试题拆分方法、装置和计算机存储介质

Info

Publication number: CN111931018B
Application number: CN202011093906.4A
Authority: CN
Inventors: 高佳妮; 单海蛟; 薛志毅
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-02-02
Anticipated expiration: 2040-10-14
Also published as: CN111931018A

Abstract

一种试题匹配及试题拆分方法、装置和计算机存储介质，包括划分目标文本获得文本区块序列，执行分区步骤以生成覆盖文本区块序列中的初始文本区块的数据分区，并根据数据分区从多个预设标准试题中确定当前匹配试题以及数据分区的文本相似度值，执行区块匹配步骤以基于数据分区的文本相似度值判断文本区块序列中位于数据分区之后的待识别文本区块是否与当前匹配试题相匹配，若匹配，则将待识别文本区块并入数据分区并继续执行区块匹配步骤，若不匹配，则将待识别文本区块作为初始文本区块并继续执行分区步骤。本申请实施例通过动态规划方式匹配并拆分试题，可以提高试题匹配及拆分的准确度并能降低算法复杂度以降低设备运行负载。

Description

试题匹配及试题拆分方法、装置和计算机存储介质

技术领域

本发明实施例涉及计算机数据处理领域，尤其涉及一种试题匹配及其试题拆分方法、装置和计算机存储介质。

背景技术

阅卷是一种重复工作，在日常阅卷过程中，我们只需要一套正确的试卷答案即可批改其他所有卷子。目前业界通常采用文字检测技术以及文字识别技术来实现阅卷工作的自动化，不仅可将老师从大量的重复工作中解放出来，亦能提高阅卷工作效率，其中，试卷拆题作业的准确与否则直接影响着自动阅卷准确率的高低。

目前，当需要针对试卷进行切题操作时，一般是通过原有试卷模板上的定位块坐标识别扫描目标试卷图片来实现。然而，由于试卷尺寸的不同以及试卷位置不正等因素均会造成定位块坐标产生变更，此导致了现有自动拆题技术存在着准确性不高且处理效率低下等问题。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种试题匹配及试题拆分方法、装置和计算机存储介质，可通过动态规划方式匹配试题，提高试题切分的准确度并降低设备运行负载。

根据本发明的第一方面，提供了一种试题匹配方法，其包括：根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列；执行分区步骤，生成覆盖所述文本区块序列中作为初始文本区块的所述文本区块的数据分区；执行当前匹配试题确定步骤，根据所述数据分区，从多个预设标准试题中确定一个所述预设标准试题作为当前匹配试题，并根据所述当前匹配试题确定所述数据分区的文本相似度值；执行区块匹配步骤，将所述文本区块序列中接续位于所述数据分区之后的一个所述文本区块作为待识别文本区块，并根据所述数据分区的文本相似度值，获得所述待识别文本区块与所述当前匹配试题之间的匹配结果；其中，若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区，并确定已更新的所述数据分区的文本相似度值，进而执行所述区块匹配步骤，若所述待识别文本区块与所述当前匹配试题不匹配，将所述待识别文本区块作为所述文本区块序列中的所述初始文本区块，进而执行所述分区步骤，直至所述文本区块序列中所有所述文本区块均执行完毕。

根据本发明的第二方面，提供了一种计算机存储介质，所述计算机存储介质中存储有用于执行第一方面所述的试题匹配方法的各所述步骤的指令。

根据本发明的第三方面，提供了一种试题拆分方法，其包括：获取目标试卷，并利用上述第一方面所述的试题匹配方法根据多个预设标准试题针对所述目标试卷进行试题匹配，获得所述目标试卷的试题匹配结果；以及根据所述目标试卷的试题匹配结果针对所述目标试卷执行试题拆分。

根据本发明的第四方面，提供了一种计算机存储介质，所述计算机存储介质中存储有用于执行第三方面所述的试题拆分方法的各所述步骤的指令。

根据本发明的第五方面，提供了一种试题匹配装置，其包括：文本划分模块，其根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列；分区生成模块，其用于执行分区操作，以生成覆盖所述文本区块序列中作为初始文本区块的一个所述文本区块的数据分区；试题确定模块，其用于根据所述数据分区，从多个预设标准试题中确定一个所述预设标准试题作为当前匹配试题，并根据所述当前匹配试题确定所述数据分区的文本相似度值；区块匹配模块，其用于执行区块匹配操作，以将所述文本区块序列中接续位于所述数据分区之后的一个所述文本区块作为待识别文本区块，并根据所述数据分区的文本相似度值，获得所述待识别文本区块与所述当前匹配试题之间的匹配结果；以及区块划分模块，其根据所述区块匹配操作的匹配结果，若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区，并确定已更新的所述数据分区的文本相似度值，并提供所述区块匹配模块进而执行所述区块匹配操作，若所述待识别文本区块与所述当前匹配试题不匹配，将所述待识别文本区块作为所述文本区块序列中的所述初始文本区块，并提供所述分区生成模块进而执行所述分区操作，直至所述文本区块序列中所有所述文本区块均执行完毕。

根据本发明的第六方面，提供了一种试题拆分装置，其包括：试卷匹配模块，其用于获取目标试卷，并利用上述第五方面所述的试题匹配装置根据多个预设标准试题针对目标试卷进行试题匹配，获得所述目标试卷的试题匹配结果；试卷拆分模块，其根据所述目标试卷的试题匹配结果针对所述目标试卷执行试题拆分。

由以上技术方案可见，本发明实施例所提供的试题匹配及试题拆分方法、装置和计算机存储介质，通过将目标文本切分为包括多个文本区块的文本区块序列，并通过迭代更新具有不同覆盖范围的数据分区，以依次针对文本区块序列中的各文本区块进行试题匹配，借此，本申请利用动态规划方式实现试题匹配，不仅可以提高试题匹配结果的准确性，亦能提升试题匹配的灵活度。

再者，借由本发明实施例所提供的试题匹配及试题拆分方法、装置和计算机存储介质，可将算法（时间）复杂度控制在O(n)，从而有效降低设备运行负载。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比值绘制的。附图中：

图1示出了本发明第一实施例的试题匹配方法的流程示意图；

图2示出了本发明第二实施例的试题匹配方法的流程示意图；

图3示出了本发明第三实施例的试题匹配方法的流程示意图；

图4A和图4B示出了本发明试题匹配方法的示例图；

图5示出了本发明第五实施例的试题拆分方法的流程示意图；

图6示出了本发明第七实施例的试题匹配装置的架构示意图；

图7示出了本发明第八实施例的试题拆分装置的架构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

相较于传统人工阅卷技术，基于文字检测技术和文字识别技术可以实现阅卷作业的自动化，其中，试卷拆题操作的正确与否直接影响着自动阅卷结果的准确性。

根据目前采用的自动化试卷拆题技术，若需针对具有N行的目标文本进行区块划分以进行试题匹配，由于划分区块的起点位置和终点位置均不确定，因此，将产生近似（N-1）*(N-1)种划分方式，然而，此种拆题方式不仅容易割断上下文本行序列之间的联系而导致试题匹配的准确性不高的问题，且较高的算法复杂度，即O(n²)，也导致了设备运行负载较重。

有鉴于此，本申请实施例提供了一种试题动态匹配以及基于试题匹配结果实现的试题拆分技术。下面将结合本发明实施例附图进一步说明本发明各实施例的具体实现。

第一实施例

图1示出了本申请第一实施例的试题匹配方法的流程示意图。如图所示，本实施例的试题匹配方法主要包括：

步骤S11，根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列。

于一实施例中，可根据目标文本中的横行对目标文本进行划分，获得由按序排列（例如，根据目标文本中的各横行的分布位置排列）的多个文本区块所构成的文本区块序列。

可选地，所生成的各文本区块中可以包括目标文本中的至少一行横行。

步骤S12，执行分区步骤，生成覆盖文本区块序列中作为初始文本区块的文本区块的数据分区。

可选地，可将文本区块序列中的第一个文本区块确定为初始文本区块。

例如，将包含有目标文本中的第一横行的第一个文本区块确定为初始文本区块，则所生成的数据分区即覆盖目标文本中的第一横行。

可选地，也可根据预设指令，将文本区块序列中满足所述预设指令所指定的一个文本区块确定为初始文本区块。

例如，使用者可根据实际需求输入预设指令，将包含有目标文本中的第三横行的第三个文本区块指定为初始文本区块，则所生成的数据分区即覆盖目标文本中的第三横行。

可选地，也可根据预设指令，将文本区块序列中满足所述预设指令所指定的多个文本区块确定为初始文本区块。

例如，使用者也可输入预设指令，以将包含有目标文本中的第三横行的第三个文本区块以及包含有目标文本中的第四横行的第四个文本区块同时指定为初始文本区块，则所生成的数据分区即覆盖目标文本中的第三横行和第四横行。

步骤S13，执行当前匹配试题确定步骤，根据数据分区，从多个预设标准试题中确定一个预设标准试题作为当前匹配试题，并根据当前匹配试题确定数据分区的文本相似度值。

于本实施例中，可分别计算各预设标准试题与数据分区之间的文本相似度，获得对应于各预设标准试题的各文本相似度值，并将文本相似度值最高的预设标准试题确定为当前匹配试题，且将当前匹配试题的文本相似度值确定为数据分区的文本相似度值。

步骤S14,执行区块匹配步骤，将文本区块序列中接续位于数据分区之后的一个文本区块作为待识别文本区块，并根据数据分区的文本相似度值获得待识别文本区块与当前匹配试题之间的匹配结果。

于本实施例中，以每一个文本区块各自包括目标文本中的一行横行作为示例，若数据分区所覆盖的初始文本区块为文本区块序列中的第一个文本区块（即目标文本的第一行横行），则文本区块序列中接续位于数据分区之后的第二个文本区块即为待识别文本区块（也就是待识别文本区块为目标文本中的第二行横行）。于此情况下，可计算目标文本的第一行横行与当前匹配试题之间的文本相似度，获得数据分区的文本相似度值，据以判断目标文本中的第二行横行（即待识别文本区块）与当前匹配试题是否匹配。

步骤S15，根据步骤S14输出的匹配结果，当判断待识别文本区块与当前匹配试题为匹配时进行步骤S16,当判断待识别文本区块与当前匹配试题为不匹配时则进步骤S17。

步骤S16,将待识别文本区块并入数据分区中以更新数据分区，并确定已更新的数据分区的文本相似度值，并继续执行步骤S14，直至文本区块序列中所有所述文本区块均执行完毕。

例如，若判断结果为目标文本中的第二行横行与当前匹配试题相匹配时，则将目标文中的第二行横行并入数据分区中，以使数据分区更新为覆盖目标文中的第一行横行和第二行横行，并确定更新后的数据分区的文本相似度值，并返回执行步骤S14，以将文本区块序列中的第三文本区块（也就是目标文本中的第三行横行）作为待识别文本区块，并继续判断第三行横行与当前匹配试题是否匹配。

步骤S17,将待识别文本区块作为文本区块序列中的初始文本区块，并继续执行步骤S12，直至文本区块序列中所有文本区块均执行完毕。

例如，若判断结果为目标文本中的第二行横行与当前匹配试题不匹配时，则将目标文中的第二行横行作为文本区块序列中的初始文本区块，并返回执行步骤S12,以开始新的试题的匹配操作。

综上所述，本发明实施例通过将目标文本划分为多个文本区块并生成覆盖文本区块的数据分区，以通过动态更新数据分区的覆盖范围和文本相似度值，而依次针对目标文件中的各个文本区块进行试题匹配，通过此种动态规划方式匹配试题，可以使得目标文本中的每个文本信息仅需匹配一次，不仅可以解决现有技术中因文本信息重复匹配而导致的算法复杂度高的问题，且可避免因暴力拆分文本所导致的试题匹配准确度不高的缺点。

第二实施例

图2示出了本申请第二实施例的试题匹配方法的流程示意图。如图2所示，本实施例的试题匹配方法示出了图1中步骤S11的示例性处理流程，其主要包括：

步骤S21，基于预处理规则针对源文件进行预处理以获得目标文本。

于本实施例中，源文件可为纸质试卷，例如，中文试卷，英文试卷，或是其他任何语言的试卷，本申请对此不作限制。

再者，源文件可以是图片格式文件抑或是文本格式文件，其中，当源文件是图片格式文件时，可以经由图文转换技术以将其转换为对应的文本格式文件。

例如，可通过相机拍摄试卷的方式获得图片格式的源文件，也可通过支持文字识别技术的扫描设备扫描试卷以直接获得文本格式的源文件。其中，当源文件是图片格式时，还可进行例如图片正位、去除手写字体、尺寸标准化等预处理作业，然后再通过图文转换技术将源文件转换为文本格式文件，上述技术手段均为本领域技术人员所熟知，故在此不予赘述。

步骤S22, 根据目标文本中的标题信息、罗马字符信息、页码信息中的至少一个初步划分目标文件，以获得多个初分块文本。

例如，假设待识别的试卷为英文试卷，则可首先识别目标文本中是否包含有中文标题和/或罗马字符（I,II,……，V等），以根据试卷中的不同题型针对目标文本进行初步划分，并获得多个初分块文本。此外，也可识别目标文本中的页码信息，以按照自然分页针对目标文本进行初步划分并获得各初分块文本。

步骤S23，根据各初分块文本中的横行划分各初分块文本，获得由按序排列的多个所述文本区块所构成的文本区块序列。

于本实施例中，各文本区块可按照其所包含的各横行在目标文本（初分块文本）中的位置关系进行排序，从而生成文本区块序列。

综上所述，本申请实施例适用于各种语言类型的源文件（例如测试卷），具有适用范围广泛的优点。

再者，通过针对源文件进行预处理可以提高后续文字识别的准确度。另外，通过初步划分目标文件以生成初分块文本，再针对初分块文本进行更细致的划分，可以提高后续试题匹配的处理效率。

第三实施例

图3示出了本发明第三实施例的试题匹配方法的流程示意图。如图所示，本实施例的试题匹配方法示出了图1中步骤S12至步骤S17的示例性处理流程，其主要包括：

步骤S301，将文本区块序列中的第一个文本区块或满足预设指令所指定的文本区块作为初始文本区块。

可选地，可根据各文本区块在目标文本中的位置排序，将位于第一个的文本区块作为初始文本区块，以从头开始针对目标文本进行试题匹配。

例如，可将对应于目标文本的第一横行的文本区块作为初始文本区块。

可选地，也可根据预设指令，将文本区块序列中满足预设指令的一个或多个文本区块作为初始文本区块。

例如，使用者通过输入预设指令以指定将目标文本的第三横行作为初始文本区块，或者，使用者也可输入预设指令以指定将目标文本中的第三横行与第四横行一并作为初始文本区块。

步骤S302，生成覆盖文本区块序列中作为初始文本区块的文本区块的数据分区。

例如，若初始文本区块对应于目标文本的第一横行，则生成的数据分区即覆盖目标文本的第一横行，若初始文本区块对应于目标文本的第三横行，则生成的数据分区即覆盖目标文本的第三横行，若初始文本区块对应于目标文本的第三横行和第四横行，则生成的数据分区即覆盖目标文本的第三和第四横行。

步骤S303，计算各预设标准试题与数据分区之间的文本相似度，获得对应于各预设标准试题的各文本相似度值。

于本实施例中，可根据各预设标准试题各自包含的第一字符串信息与数据分区包含的第二字符串信息，以计算各预设标准试题与数据分区之间的文本相似度，从而获得各预设标准试题对应的各文本相似度值。

具体而言，可根据各预设标准试题各自的各第一字符串信息与数据分区包含的第二字符串信息，获得各预设标准试题与数据分区之间的各最长公共子序列（LCS），并基于各最长公共子序列（LCS）与数据分区包含的第二字符串信息，计算各预设标准试题与数据分区之间的文本相似度，以获得对应于各预设标准试题的各文本相似度值。

可选地，可利用下述公式获得各预设标准试题的文本相似度值：

文本相似度值= LCS/第二字符串的长度

可选地，还可针对预设标准试题包含的第一字符串信息以及数据分区包含的第二字符串信息进行格式化处理，以提高匹配结果的准确性以及匹配处理效率。

例如，可以去除文本中的空格、下划线等无意义字符以及例如引号、分号、数学符号等非文字字符。

又如，当待识别的源文件为英文试卷时，则可当目标文本中的某一横行中所包含的中文字符的比例超过预设比例时，可该横行从目标文本中移除，或忽略该横行数学符号。

步骤S304，确定文本相似度值最高的预设标准试题以作为当前匹配试题，并同步将当前匹配试题的文本相似度值确定为数据分区的文本相似度值。

具体而言，可根据各预设标准试题对应的各文本相似度值，择取文本相似度值最高的预设标准试题以作为当前匹配试题。再者，由于数据分区的文本分区相似度值即为数据分区与当前匹配试题之间的相似度，因此，可直接将当前匹配试题对应的文本相似度值同步确定为数据分区的文本相似度值。

步骤S305，判断文本区块序列中是否存在接续位于数据分区之后的文本区块，若存在，则进行步骤S306,若不存在，则结束目标文本的试题匹配操作。

具体而言，若判断文本区块序列中存在有接续位于数据分区之后的文本区块时，代表文本区块序列中存在有未进行匹配的文本区块，则继续进行步骤S306,若判断文本区块序列中不存在接续位于数据分区之后的文本区块时，则代表文本区块序列中的所有文本区块均已被匹配过，则可结束目标文本的试题匹配操作。

步骤S306，将文本区块序列中接续位于数据分区之后的一个文本区块作为待识别文本区块，并合并数据分区与待识别文本区块以生成合并分区。

例如，仍以每一个文本区块各自包括目标文本中的一行横行作为示例，若数据分区所覆盖的初始文本区块为文本区块序列中的第一个文本区块（即目标文本的第一行横行），则文本区块序列中接续位于数据分区之后的第二个文本区块即为待识别文本区块（也就是待识别文本区块为目标文本中的第二行横行）。合并数据分区与待识别文本区块，可以获得覆盖目标文本的第一行横行和第二行横行的合并分区。

步骤S307，计算合并分区与当前匹配试题之间的文本相似度，获得合并分区的文本相似度值。

例如，假设合并分区覆盖了目标文本中的第一行横行和第二行横行，合并分区的文本相似度值即为目标文本的第一行横行和第二行横行与当前匹配试题之间的文本相似度。

于本实施例中，可根据合并分区包含的第三字符串信息（例如，目标文本的第一行横行和第二行横行所包含的字符串信息）与当前匹配标准试题对应的预设标准试题包含的第一字符串信息，获得合并分区与当前匹配试题之间的最长公共子序列，并根据最长公共子序列和第三字符串信息，计算合并分区与当前匹配试题之间的文本相似度，获得合并分区的文本相似度值。

需说明的是，上述合并分区的文本相似度值的计算方式与前述步骤S303中的预设标准试题的文本相似度值的计算方式相同，故不再予以赘述。

步骤S308，判断合并分区的文本相似度值与数据分区的文本相似度值之间的差值是否超过预设阈值，若未超过则进行步骤S309, 若超过则进行步骤S310。

于本实施例中，可计算合并分区的文本相似度值与数据分区的文本相似度值之间的差值，并将二者之间的差值与预设阈值进行比对，若二者之间的差值未超过预设阈值，获得待识别文本区块与当前匹配试题相匹配的分析结果，则进行步骤S309，若二者之间的差值超过预设阈值，获得待识别文本区块与当前匹配试题不匹配的分析结果，则进行步骤S310。

可选地，预设阈值可设定为0.1，但并不以此为限，亦可根据实际需求进行调整，本申请对此不作限制。

步骤S309，将待识别文本区块并入数据分区中以更新数据分区，利用合并分区的文本相似度值确定已更新的数据分区的文本相似度值，并返回步骤S305。

例如，若合并分区的文本相似度值与数据分区的文本相似度值之间的差值小于0.1，则获得目标文本中的第二行横行与当前匹配试题相匹配的分析结果，则将目标文本中的第二行横行并入数据分区中，以使数据分区的覆盖范围由当前的目标文本的第一行横行更新为覆盖目标文本的第一行横行和第二行横行，且同步利用合并分区的文本相似度值确定数据分区的文本相似度值，使得更新后的数据分区的覆盖范围和文本相似度值保持一致。

步骤S310，将待识别文本区块作为文本区块序列中的初始文本区块，并返回步骤S302。

例如，若合并分区的文本相似度值与数据分区的文本相似度值之间的差值大于0.1，则获得目标文本中的第二行横行与当前匹配试题不匹配的分析结果，则将目标文本中的第二行横行作为文本区块序列中的初始文本区块,并返回步骤S302，以执行新的试题匹配操作。

以下将以图4A和图4B作为示例，详细描述本申请实施例的试题匹配方法的运作流程。

于本实施例中，假设在试题库中存储有M道预设标准试题（如图4A所示），目标文本中包含有N行横行（如图4B所示），根据各文本区块各自包含目标文本中的一行横行的划分规则为例划分目标文本，可以获得包含按序排列的N个文本区块的文本区块序列。

步骤S401，假设试题匹配操作从目标文本的第一行横行开始，则将文本区块序列中的第一个文本区块（即第一横行）作为初始文本区块。

步骤S402，根据初始文本区块，生成覆盖第一行横行的数据分区。

步骤S403，基于所生成的数据分区（即第一横行），遍历试题库中的每一道预设标准试题，计算各预设标准试题与数据分区之间的文本相似度，获得各预设标准试题对应的各文本相似度值，并将文本相似度值最高的“标准试题2”确定为当前匹配试题，且将“标准试题2”的文本相似度值确定为数据分区的文本相似度值。

步骤S404，从文本区块序列中获得接续位于数据分区之后的一个文本区块，即目标文本的第二行横行，合并第二行横行和数据分区以获得合并分区（即第一行横行和第二行横行），计算合并分区与当前匹配试题之间的文本相似度，获得合并分区的文本相似度值，并计算合并分区的文本相似度值与数据分区的文本相似度值之间的差值，且将二者之间的差值与预设阈值进行比对，获得二者之间的差值未超过预设阈值的比对结果，其代表了目标文本中的第二行横行也属于“标准试题2”，则将目标文本中的第二行横行并入数据分区中以更新数据分区的覆盖范围（即当前的数据分区覆盖了第一行横行和第二行横行），并利用合并分区的文本相似度值确定已更新的数据分区的文本相似度值，使得更新后的数据分区的当前覆盖范围和文本相似度值保持一致。

步骤S405，继续从文本区块序列中获得接续位于数据分区之后的一个文本区块，即目标文本的第三行横行，合并第三行横行和数据分区以获得合并分区（即第一行横行至第三行横行），计算合并分区与当前匹配试题之间的文本相似度，获得合并分区的文本相似度值，并将合并分区的文本相似度值与数据分区的文本相似度值之间的差值与预设阈值进行比对，获得二者之间的差值未超过预设阈值的比对结果，其代表了目标文本中的第三行横行也属于“标准试题2”，则将目标文本中的第三行横行并入数据分区中以更新数据分区的覆盖范围（即当前的数据分区覆盖了第一行横行至第三行横行），并利用合并分区的文本相似度值确定已更新的数据分区的文本相似度值，使得更新后的数据分区的当前覆盖范围和文本相似度值保持一致。

步骤S406，继续从文本区块序列中获得接续位于数据分区之后的一个文本区块，即目标文本的第四行横行，合并第四行横行和数据分区以获得合并分区（即第一行横行至第四行横行），计算合并分区与当前匹配试题之间的文本相似度，获得合并分区的文本相似度值，并将合并分区的文本相似度值与数据分区的文本相似度值之间的差值与预设阈值进行比对，获得二者之间的差值超过预设阈值的比对结果，其代表了目标文本中的第四行横行不属于“标准试题2”，则将目标文本中的第四行横行作为文本区块序列中的初始文本区块。

步骤S407，根据文本区块序列中的初始文本区块，生成覆盖第四行横行的数据分区。

步骤S408，基于所生成的数据分区（即第四横行），遍历试题库中的每一道预设标准试题，分别计算各预设标准试题与数据分区之间的文本相似度，获得各预设标准试题对应的各文本相似度值，并将文本相似度值最高的“标准试题9”确定为当前匹配试题，且将“标准试题9”的文本相似度值确定为数据分区的文本相似度值。

步骤S409，从文本区块序列中获得接续位于数据分区之后的一个文本区块，即目标文本的第五行横行，合并第五行横行和数据分区以获得合并分区（即第四行横行和第五行横行），计算合并分区与当前匹配试题之间的文本相似度，获得合并分区的文本相似度值，并将合并分区的文本相似度值与数据分区的文本相似度值之间的差值与预设阈值进行比对，获得二者之间的差值未超过预设阈值的比对结果，其代表了目标文本中的第五行横行也属于“标准试题9”，则将目标文本中的第五行横行并入数据分区中以更新数据分区的覆盖范围（即当前的数据分区覆盖了第四行横行和第五行横行），并利用合并分区的文本相似度值确定已更新的数据分区的文本相似度值，使得更新后的数据分区的当前覆盖范围和文本相似度值保持一致。

步骤S410，继续从文本区块序列中获得接续位于数据分区之后的一个文本区块，即目标文本的第六行横行，合并第六行横行和数据分区以获得合并分区（即第四行横行至第六行横行），计算合并分区与当前匹配试题之间的文本相似度，获得合并分区的文本相似度值，并将合并分区的文本相似度值与数据分区的文本相似度值之间的差值与预设阈值进行比对，获得二者之间的差值超过预设阈值的比对结果，其代表了目标文本中的第六行横行不属于“标准试题2”，则将目标文本中的第四行横行作为文本区块序列中的初始文本区块，以此类推，直至目标文本中的第N行横行均完成匹配操作为止。

综上所述，本发明实施例通过划分目标文本以获得包含多个文本区块的文本区块序列，并生成覆盖文本区块序列中作为初始文本区块的文本区块的数据分区，以基于生成的数据分区从多个预设标准试题中确定当前匹配试题以及数据分区的文本相似度值，并根据数据分区的文本相似度值判断文本区块序列中位于数据分区之后的一个文本区块是否与当前匹配试题相匹配，若匹配，则将待识别文本区块并入数据分区后继续执行当前匹配试题的匹配操作，若不匹配，则将待识别文本区块确定为新的初始文本区块。通过此种动态规划方式，本申请可使文本区块序列中的各文本区块无需进行重复性地试题匹配操作，可将试题匹配的算法复杂度降低至O(n)，从而降低设备的运行负载。

此外，本申请实施例的试题匹配方法通过将目标文本划分为多个文本区块并依次进行试题匹配，此方式可以降低对于目标文本的数据完整性的要求，亦即，即便在由于试题未拍全或者阴影遮挡等问题而导致仅能识别部分文字的情况下，亦能针对识别出的部分文字进行试题匹配，从而提高了试题匹配的灵活度。

第四实施例

本发明第四实施例提供了一种计算机存储介质，于计算机存储介质中存储有用于执行上述第一至第三实施例中的试题匹配方法的各步骤的指令。

第五实施例

图5示出了本发明第五实施例的试题拆分方法，如图所示，本实施例的试题拆分方法主要包括：

步骤S51，根据预设标准试题，利用上述第一至第三实施例所述的试题匹配方法针对目标试卷进行试题匹配，获得目标试卷的试题匹配结果。

可选地，目标试卷例如为中文试卷、英文试卷、抑或其他任何语言文字试卷，本申请对此不作限制。

步骤S52，根据目标试卷的试题匹配结果针对目标试卷执行试题拆分。

具体而言，可根据目标试卷中识别出的各试题信息切分目标试卷，以供执行后续的自动阅卷操作。

综上所述，本申请实施例提供的试题拆分方法为基于上述第一至第三实施例的试题匹配方法所实现，由于试题匹配的准确率提高了，故试题拆分的准确性亦得到了相应的提升，并进一步提高了后续的自动阅卷作业的准确性。

第六实施例

本发明第六实施例提供了一种计算机存储机制，于计算机存储介质中存储有用于执行上述第五实施例中的试题拆分方法的各步骤的指令。

第七实施例

图6示出了本发明第七实施例的试题匹配装置的主要架构，如图所示，本发明实施例的试题匹配装置600主要包括：文本划分模块610、分区生成模块620、试题确定模块630、区块匹配模块640和区块划分模块650。

文本划分模块610用于根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列。

可选地，所述文本划分模块610还根据所述目标文本中的横行划分所述目标文本，获得包括多个所述文本区块的所述文本区块序列；其中，各所述文本区块包括所述目标文本中的至少一行所述横行。

可选地，所述文本划分模块610还根据所述目标文本中的标题信息、罗马字符信息、页码信息中的至少一个划分所述目标文本，获得多个初分块文本，并根据各所述初分块文本中的横行划分各所述初分块文本，获得对应于各所述初分块文本的各所述文本区块序列。

分区生成模块620用于执行分区操作，以生成覆盖所述文本区块序列中作为初始文本区块的一个所述文本区块的数据分区。

可选地，所述分区生成模块620还用于将所述文本区块序列中的第一个所述文本区块确定为所述初始文本区块；或者，根据预设指令，将所述文本区块序列中满足所述预设指令的所述文本区块确定为所述初始文本区块，据以生成所述数据分区。

试题确定模块630用于根据所述数据分区，从多个预设标准试题中确定一个所述预设标准试题作为当前匹配试题，并根据所述当前匹配试题确定所述数据分区的文本相似度值。

可选地，试题确定模块630还包括计算各所述预设标准试题与所述数据分区之间的文本相似度，获得对应于各所述预设标准试题的各文本相似度值；根据对应于各所述预设标准试题的各文本相似度值，将所述文本相似度值为最高的所述预设标准试题作为所述当前匹配试题；将所述当前匹配试题的所述文本相似度值确定为所述数据分区的所述文本相似度值。

可选地，试题确定模块630还包括根据各所述预设标准试题各自包含的各第一字符串信息与所述数据分区包含的第二字符串信息，获得各所述预设标准试题与所述数据分区之间的各最长公共子序列（LCS）；并根据各所述最长公共子序列和所述第二字符串信息，计算各所述预设标准试题与所述数据分区之间的文本相似度，获得对应于各所述预设标准试题的各文本相似度值。

区块匹配模块640用于执行区块匹配操作，以将所述文本区块序列中接续位于所述数据分区之后的一个所述文本区块作为待识别文本区块，并根据所述数据分区的文本相似度值，获得所述待识别文本区块与所述当前匹配试题之间的匹配结果。

可选地，区块匹配模块640还包括将所述文本区块序列中接续位于所述数据分区之后的一个所述文本区块作为待识别文本区块，合并所述数据分区与所述待识别文本区块以生成合并分区；计算所述合并分区与所述当前匹配试题之间的文本相似度，获得所述合并分区的文本相似度值；计算所述合并分区的文本相似度值与所述数据分区的文本相似度值之间的差值，并将所述差值与预设阈值进行比对，若所述差值未超过所述预设阈值，获得所述待识别文本区块与所述当前匹配试题相匹配的结果，若所述差值超过所述预设阈值，获得所述待识别文本区块与所述当前匹配试题不匹配的结果。

可选地，区块匹配模块640还包括根据所述合并分区包含的第三字符串信息和所述当前匹配标准试题包含的第一字符串信息，获得所述合并分区与所述当前匹配试题之间的最长公共子序列；并根据所述最长公共子序列和所述第三字符串信息，计算所述合并分区与所述当前匹配试题之间的文本相似度，获得所述合并分区的文本相似度值。

区块划分模块650用于根据所述区块匹配操作的匹配结果，若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区，并确定已更新的所述数据分区的文本相似度值，并提供所述区块匹配模块640进而执行所述区块匹配操作，直至所述文本区块序列中所有所述文本区块均执行完毕；若所述待识别文本区块与所述当前匹配试题不匹配，将所述待识别文本区块作为所述文本区块序列中的所述初始文本区块，并提供所述分区生成模块620进而执行所述分区操作，直至所述文本区块序列中所有所述文本区块均执行完毕。

可选地，区块划分模块650还包括若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区；利用所述合并分区的文本相似度值确定已更新的所述数据分区的文本相似度值。

可选地，区块划分模块650还包括若所述文本区块序列中存在接续位于所述数据分区之后的所述文本区块，提供区块匹配模块640再次执行所述匹配操作；若所述文本区块序列中不存在接续位于所述数据分区之后的所述文本区块，结束所述目标文本的试题匹配操作。

此外，本发明各实施例的试题匹配装置600还可用于实现前述各试题匹配方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

第八实施例

图7示出了本发明第八实施例的试题拆分装置的架构示意图。如图所示，本发明实施例的试题拆分装置700主要包括试题匹配模块710,和试题拆分模块720。

试题匹配模块710用于获取目标试卷，并利用上述的试题匹配装置600根据多个预设标准试题针对目标试卷进行试题匹配，获得所述目标试卷的试题匹配结果。

试题拆分模块720用于根据所述目标试卷的试题匹配结果针对所述目标试卷执行试题拆分。

此外，本发明各实施例的试题拆分装置700还可用于实现前述各试题拆分方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

综上所述，本发明实施例提供的试题匹配及试题拆分方法、装置及计算机存储介质，通过将目标文本划分为由按序排列的多个文本区块构成的文本区块序列，并通过迭代更新数据分区的覆盖范围和文本相似度值，以依次将目标文本中的各文本区块与预设标准试题进行试题匹配，从而识别出目标文本中包含的试题信息，因此，本发明实施例通过动态规划方式进行试题匹配，可以提高试题匹配的准确度并降低算法复杂度以及降低设备运行负载。

再者，本发明实施例可首先根据目标文本中的标题信息、罗马字符信息、页码信息中的至少一个针对目标文本进行初步划分，再根据目标文本中的横行分布针对目标文本进行精细划分，可以提高试题识别的准确性，并提高试题匹配效率。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的试题匹配及试题拆分方法。此外，当通用计算机访问用于实现在此示出的试题匹配及试题拆分方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的试题匹配及试题拆分方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种试题匹配方法，其特征在于，所述方法包括：

根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列；

将所述文本区块序列中的第一个所述文本区块或所述文本区块序列中满足预设指令的所述文本区块作为初始文本区块；

执行分区步骤，生成覆盖所述文本区块序列中的所述初始文本区块的数据分区；

执行当前匹配试题确定步骤，根据所述数据分区，从多个预设标准试题中确定一个所述预设标准试题作为当前匹配试题，并根据所述当前匹配试题确定所述数据分区的文本相似度值；

执行区块匹配步骤，将所述文本区块序列中接续位于所述数据分区之后的一个所述文本区块作为待识别文本区块，合并所述数据分区与所述待识别文本区块以生成合并分区，根据所述当前匹配试题确定所述合并分区的文本相似度值，并根据所述数据分区的文本相似度值和所述合并分区的文本相似度值，获得所述待识别文本区块与所述当前匹配试题之间的匹配结果；其中，

若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区，并确定已更新的所述数据分区的文本相似度值，进而执行所述区块匹配步骤；

若所述待识别文本区块与所述当前匹配试题不匹配，将所述待识别文本区块作为所述文本区块序列中的所述初始文本区块，进而执行所述分区步骤，直至所述文本区块序列中所有所述文本区块均执行完毕。

2.根据权利要求1所述的试题匹配方法，其特征在于，所述根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列包括：

根据所述目标文本中的横行划分所述目标文本，获得包括多个所述文本区块的所述文本区块序列；其中，各所述文本区块各自包括所述目标文本中的至少一行所述横行。

3.根据权利要求1所述的试题匹配方法，其特征在于，所述根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列包括：

根据所述目标文本中的标题信息、罗马字符信息、页码信息中的至少一个划分所述目标文本，获得多个初分块文本；以及

根据各所述初分块文本中的横行划分各所述初分块文本，获得对应于各所述初分块文本的各所述文本区块序列。

4.根据权利要求1所述的试题匹配方法，其特征在于，所述执行当前匹配试题确定步骤，根据所述数据分区，从多个预设标准试题中确定一个所述预设标准试题作为当前匹配试题，并根据所述当前匹配试题确定所述数据分区的文本相似度值包括：

计算各所述预设标准试题与所述数据分区之间的文本相似度，获得对应于各所述预设标准试题的各文本相似度值；

根据对应于各所述预设标准试题的各文本相似度值，确定所述文本相似度值最高的所述预设标准试题以作为所述当前匹配试题；

将所述当前匹配试题的所述文本相似度值确定为所述数据分区的所述文本相似度值。

5.根据权利要求4所述的试题匹配方法，其特征在于，所述计算各所述预设标准试题与所述数据分区之间的文本相似度，获得对应于各所述预设标准试题的各文本相似度值包括：

根据各所述预设标准试题各自包含的各第一字符串信息与所述数据分区包含的第二字符串信息，获得各所述预设标准试题与所述数据分区之间的各最长公共子序列；以及

根据各所述最长公共子序列和所述第二字符串信息，计算各所述预设标准试题与所述数据分区之间的文本相似度，获得对应于各所述预设标准试题的各文本相似度值。

6.根据权利要求4所述的试题匹配方法，其特征在于，所述执行区块匹配步骤中的根据所述当前匹配试题确定所述合并分区的文本相似度值，并根据所述数据分区的文本相似度值和所述合并分区的文本相似度值，获得所述待识别文本区块与所述当前匹配试题之间的匹配结果包括：

计算所述合并分区与所述当前匹配试题之间的文本相似度，获得所述合并分区的文本相似度值；

计算所述合并分区的文本相似度值与所述数据分区的文本相似度值之间的差值，并将所述差值与预设阈值进行比对，若所述差值未超过所述预设阈值，获得所述待识别文本区块与所述当前匹配试题相匹配的结果，若所述差值超过所述预设阈值，获得所述待识别文本区块与所述当前匹配试题不匹配的结果。

7.根据权利要求6所述的试题匹配方法，其特征在于，所述计算所述合并分区与所述当前匹配试题之间的文本相似度，获得所述合并分区的文本相似度值包括：

根据所述合并分区包含的第三字符串信息和所述当前匹配试题包含的第一字符串信息，获得所述合并分区与所述当前匹配试题之间的最长公共子序列；

根据所述最长公共子序列和所述第三字符串信息，计算所述合并分区与所述当前匹配试题之间的文本相似度，获得所述合并分区的文本相似度值。

8.根据权利要求6所述试题匹配方法，其特征在于，所述若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区，并确定已更新的所述数据分区的文本相似度值包括：

将所述待识别文本区块并入所述数据分区中以更新所述数据分区；

利用所述合并分区的文本相似度值确定已更新的所述数据分区的文本相似度值。

9.根据权利要求1所述试题匹配方法，其特征在于，在所述执行区块匹配步骤之前，所述方法还包括：

若所述文本区块序列中存在接续位于所述数据分区之后的所述文本区块，则执行所述区块匹配步骤；

若所述文本区块序列中不存在接续位于所述数据分区之后的所述文本区块，则结束所述目标文本的试题匹配操作。

10.一种试题拆分方法，其特征在于，所述方法包括：

获取目标试卷，并利用权利要求1至9中任一项所述的试题匹配方法根据多个预设标准试题针对所述目标试卷进行试题匹配，获得所述目标试卷的试题匹配结果；以及

根据所述目标试卷的试题匹配结果针对所述目标试卷执行试题拆分。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有用于执行根据权利要求1至9中任一项所述的试题匹配方法的各所述步骤的指令，或者所述计算机存储介质中存储有用于执行根据权利要求10所述的试题拆分方法的各所述步骤的指令。

12.一种试题匹配装置，其特征在于，所述装置包括：

文本划分模块，其根据预设划分规则划分目标文本，获得包括多个文本区块的文本区块序列，并将所述文本区块序列中的第一个所述文本区块或所述文本区块序列中满足预设指令的所述文本区块作为初始文本区块；

分区生成模块，其用于执行分区操作，以生成覆盖所述文本区块序列中的所述初始文本区块的数据分区；

试题确定模块，其用于根据所述数据分区，从多个预设标准试题中确定一个所述预设标准试题作为当前匹配试题，并根据所述当前匹配试题确定所述数据分区的文本相似度值；

区块匹配模块，其用于执行区块匹配操作，以将所述文本区块序列中接续位于所述数据分区之后的一个所述文本区块作为待识别文本区块，合并所述数据分区与所述待识别文本区块以生成合并分区，根据所述当前匹配试题确定所述合并分区的文本相似度值，并根据所述数据分区的文本相似度值和所述合并分区的文本相似度值，获得所述待识别文本区块与所述当前匹配试题之间的匹配结果；以及

区块划分模块，其根据所述区块匹配操作的匹配结果，若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区，并确定已更新的所述数据分区的文本相似度值，并提供所述区块匹配模块进而执行所述区块匹配操作：

若所述待识别文本区块与所述当前匹配试题不匹配，将所述待识别文本区块作为所述文本区块序列中的所述初始文本区块，并提供所述分区生成模块进而执行所述分区操作，直至所述文本区块序列中所有所述文本区块均执行完毕。

13.根据权利要求12所述的试题匹配装置，其特征在于，所述试题确定模块还包括：

计算各所述预设标准试题与所述数据分区之间的文本相似度，获得对应于各所述预设标准试题的各文本相似度值；根据对应于各所述预设标准试题的各文本相似度值，将所述文本相似度值为最高的所述预设标准试题作为所述当前匹配试题；将所述当前匹配试题的所述文本相似度值确定为所述数据分区的所述文本相似度值。

14.根据权利要求12所述的试题匹配装置，其特征在于，所述区块匹配模块还包括：

计算所述合并分区与所述当前匹配试题之间的文本相似度，获得所述合并分区的文本相似度值；计算所述合并分区的文本相似度值与所述数据分区的文本相似度值之间的差值，并将所述差值与预设阈值进行比对，若所述差值未超过所述预设阈值，获得所述待识别文本区块与所述当前匹配试题相匹配的结果，若所述差值超过所述预设阈值，获得所述待识别文本区块与所述当前匹配试题不匹配的结果。

15.根据权利要求14所述的试题匹配装置，其特征在于，所述区块划分模块还包括：

若所述待识别文本区块与所述当前匹配试题相匹配，将所述待识别文本区块并入所述数据分区中以更新所述数据分区；利用所述合并分区的文本相似度值确定已更新的所述数据分区的文本相似度值。

16.一种试题拆分装置，其特征在于，包括：

试题匹配模块，其用于获取目标试卷，并利用权利要求12至15中任一项所述的试题匹配装置根据多个预设标准试题针对目标试卷进行试题匹配，获得所述目标试卷的试题匹配结果；以及

试题拆分模块，其根据所述目标试卷的试题匹配结果针对所述目标试卷执行试题拆分。