CN104268603B

CN104268603B - 用于文字性客观题的智能阅卷方法及系统

Info

Publication number: CN104268603B
Application number: CN201410472818.3A
Authority: CN
Inventors: 胡雨隆; 张银田; 竺博; 魏思; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2017-04-12
Anticipated expiration: 2034-09-16
Also published as: US20170262738A1; KR20170042684A; CN104268603A; AU2015318386A1; JP2017531262A; KR101877693B1; SG11201701719QA; AU2015318386B2; WO2016041423A1; US10339428B2; JP6484333B2

Abstract

本发明公开了一种用于文字性客观题的智能阅卷方法及系统，该方法包括：获取文字性客观题答案图像；对所述答案图像进行切分，获得待识别答案字符串的一个或多个切分结果；判断是否有字数与标准答案字数相同的切分结果；如果没有，则确定答案错误；否则，计算所述字数与标准答案字数相同的切分结果的识别置信度，和/或计算所述字数与标准答案字数相同的切分结果中各字符的识别置信度；根据计算得到的识别置信度确定答案是否正确。利用本发明，可以实现文字性客观题的自动阅卷，减少人力资源消耗，提高阅卷效率及准确性。

Description

用于文字性客观题的智能阅卷方法及系统

技术领域

本发明涉及信息处理技术领域，具体涉及一种用于文字性客观题的智能阅卷方法及系统。

背景技术

随着计算机技术和教育信息化的不断推进，计算机和人工智能技术已经逐步应用于日常的教育教学各项活动中，在教学辅助、教学评测等实际应用场景下都得到了相应的应用。国内现有的基础教育、学生学习状况的主要考察形式仍是各种类型的考试或测试，在此状况下，教师背负着很大的批改作业和试卷的工作压力。针对这种现象，在大中型或重要性高的考试或测试中已经逐渐推广和采用了各类自动阅卷系统，这类系统能够一定程度上减轻教师阅卷的工作量。

然而，在现有的自动阅卷系统中，完全由计算机完成阅卷的部分多是对填涂性客观题(如选择题)的阅卷，而对于像填空题等文字性客观试题的阅卷，现今仍需要大量的教师集中进行，且在大型考试阅卷前还需要对阅卷老师进行集中培训、考试。因此，传统的自动阅卷系统人力资源消耗仍然较大，且在阅卷时因不同教师风格、情绪、心理状态等主观性因素可能造成判卷结果出现不公平不公正的现象。

发明内容

本发明实施例提供一种用于文字性客观题的智能阅卷方法及系统，以实现文字性客观题的自动阅卷，减少人力资源消耗，提高阅卷效率及准确性。

为此，本发明实施例提供如下技术方案：

一种用于文字性客观题的智能阅卷方法，包括：

获取文字性客观题答案图像；

对所述答案图像进行切分，获得待识别答案字符串的一个或多个切分结果；

判断是否有字数与标准答案字数相同的切分结果；

如果没有，则确定答案错误；

否则，计算所述字数与标准答案字数相同的切分结果的识别置信度，和/或计算所述字数与标准答案字数相同的切分结果中各字符的识别置信度；

根据计算得到的识别置信度确定答案是否正确。

优选地，所述获取文字性客观题答案图像包括：

获取答题卡图像；

根据答题卡布局信息，分割并提取目标答题区域；

从所述目标答题区域提取文字性客观题答案图像。

优选地，所述获取答题卡图像包括：

利用光标阅读设备、或者高拍仪、或者移动终端设备获取答题卡图像。

优选地，所述对所述答案图像进行切分，获得待识别答案字符串的一个或多个切分结果包括：

对所述答案图像进行细切分，得到多个细切分子块；

对所述细切分子块进行合并，并计算合并可信度；

根据所述可信度确定合并结果，得到待识别答案字符串的一个或多个切分结果。

优选地，所述计算合并可信度包括：

提取合并得到的字符的字符特征；

利用预先训练得到的规则统计模型和所述字符特征计算该合并的可信度。

优选地，所述计算所述字数与标准答案字数相同的切分结果的识别置信度包括：

将所述字数与标准答案字数相同的切分结果与所述标准答案的文本字串对齐；

基于全字符集的声学模型及通用的语言模型，对所述字数与标准答案字数相同的切分结果进行手写解码识别，得到各识别结果的似然得分；

选取识别结果中解码路径与标准答案一致的路径的似然得分；

计算所述路径的后验得分，并将所述后验得分作为所述字数与标准答案字数相同的切分结果的识别置信度；

相应地，所述根据计算得到的识别置信度确定答案是否正确包括：

如果有任一字数与标准答案字数相同的切分结果的识别置信度大于第一置信度阈值，则确定答案正确；否则确定答案错误。

优选地，所述计算所述字数与标准答案字数相同的切分结果中各字符的识别置信度包括：

基于全字符集的声学模型，计算所述字数与标准答案字数相同的切分结果中各字符的识别结果的似然得分；

选取所述识别结果中与标准答案一致的字符的识别结果的似然得分；

计算选取的识别结果的后验得分，并将所述后验得分作为所述字符的识别置信度；

如果有任一字数与标准答案字数相同的切分结果中各字符的识别置信度均大于第二置信度阈值，则确定答案正确；否则确定答案错误。

计算各识别结果的后验概率，并根据各识别结果的后验概率，针对所述切分结果中的每个字符，累积各识别结果中该字符的识别结果与标准答案一致的后验概率，并将该后验概率作为该字符的置信度；

如果有任一字数与标准答案字数相同的切分结果中各字符的识别置信度均大于第三置信度阈值，则确定答案正确；否则确定答案错误。

一种用于文字性客观题的智能阅卷系统，包括：

图像获取模块，用于获取文字性客观题答案图像；

切分模块，用于对所述答案图像进行切分，获得待识别答案字符串的一个或多个切分结果；

第一判断模块，用于判断是否有字数与标准答案字数相同的切分结果，并在判断结果为没有与标准答案字数相同的切分结果时，触发输出模块输出答案错误的指示信息；否则，触发计算模块进行识别置信度计算；；

所述计算模块包括：第一计算模块、和/或第二计算模块；所述第一计算模块用于计算所述字数与标准答案字数相同的切分结果的识别置信度，所述第二计算模块用于计算所述字数与标准答案字数相同的切分结果中各字符的识别置信度；

第二判断模块，用于根据所述计算模块计算得到的识别置信度确定答案是否正确，并在判断答案正确时，触发所述输出模块输出答案正确的指示信息；在判断答案错误时，触发所述输出模块输出答案错误的指示信息。

优选地，所述图像获取模块包括：

图像获取单元，用于获取答题卡图像；

答题区域提取单元，用于根据答题卡布局信息，分割并提取目标答题区域；

答案内容提取单元，从所述目标答题区域提取文字性客观题答案图像。

优选地，所述图像获取单元具体为光标阅读设备、或者高拍仪、或者移动终端设备。

优选地，所述切分模块包括：

切分单元，用于对所述答案图像进行细切分，得到多个细切分子块；

可信度计算单元，用于对所述细切分子块进行合并，并计算合并可信度；

合并结果确定单元，用于根据所述可信度确定合并结果，得到待识别答案字符串的一个或多个切分结果。

优选地，所述可信度计算单元包括：

合并子单元，用于对所述细切分子块进行合并；

提取子单元，用于提取合并得到的字符的字符特征；

计算子单元，用于利用预先训练得到的规则统计模型和所述字符特征计算该合并的可信度。

优选地，所述第一计算模块包括：

对齐单元，用于将所述字数与标准答案字数相同的切分结果与所述标准答案的文本字串对齐；

第一识别单元，用于基于全字符集的声学模型及通用的语言模型，对所述字数与标准答案字数相同的切分结果进行手写解码识别，得到各识别结果的似然得分；

第一选择单元，用于选取识别结果中解码路径与标准答案一致的路径的似然得分；

第一计算单元，用于计算所述路径的后验得分，并将所述后验得分作为所述切分结果的识别置信度；

所述第二判断模块具体用于在有任一字数与标准答案字数相同的切分结果的识别置信度大于第一置信度阈值时，判断答案正确；否则判断答案错误。

优选地，所述第二计算模块包括：

第二识别单元，用于基于全字符集的声学模型，计算所述字数与标准答案字数相同的切分结果中各字符的识别结果的似然得分；

第二选择单元，用于选取所述识别结果中与标准答案一致的字符的识别结果的似然得分；

第二计算单元，用于计算选取的识别结果的后验得分，并将所述后验得分作为所述字符的识别置信度；

所述第二判断模块具体用于在有任一字数与标准答案字数相同的切分结果中各字符的识别置信度均大于第二置信度阈值时，判断答案正确；否则判断答案错误。

优选地，所述第二计算模块包括：

第三计算单元，用于计算各识别结果的后验概率，并根据各识别结果的后验概率，针对所述字数与标准答案字数相同的切分结果中的每个字符，累积各识别结果中该字符的识别结果与标准答案一致的后验概率，并将该后验概率作为该字符的置信度；

所述第二判断模块具体用于在有任一字数与标准答案字数相同的切分结果中各字符的识别置信度均大于第三置信度阈值时，判断答案正确；否则判断答案错误。

本发明实施例提供的用于文字性客观题的智能阅卷方法及系统，对已知标准答案的文字性客观题，利用答案的先验信息辅助进行手写字符串的识别，从而完成文字性客观题的自动阅卷，解决了传统自动阅卷系统因不能应用计算机完全自动进行文字性客观题阅卷，而采用人工阅卷带来的人力资源消耗大、教师工作压力大、因教师主观因素导致的判卷结果不准确等问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例用于文字性客观题的智能阅卷方法的流程图；

图2是本发明实施例中答案图像切分示例；

图3是本发明实施例中对答案图像进行切分的流程图；

图4是本发明实施例中计算识别置信度的一种流程图；

图5是本发明实施例中计算识别置信度的另一种流程图；；

图6是本发明实施例中计算识别置信度的另一种流程图；；

图7是本发明实施例用于文字性客观题的智能阅卷系统的结构示意图；

图8是本发明实施例中第一计算模块的结构框图；

图9是本发明实施例中第二计算模块的一种结构框图；

图10是本发明实施例中第二计算模块的另一种结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例用于文字性客观题的智能阅卷方法及系统，，针对具有标准答案的文字性试题(比如填空题)的考卷，利用标准答案的先验信息辅助进行手写字符串的识别，从而完成文字性客观题的自动阅卷。

如图1所示，是本发明实施例用于文字性客观题的智能阅卷方法的流程图，包括以下步骤：

步骤101，获取文字性客观题答案图像。

所述文字性客观题答案图像即为答案字符串图像，在本发明实施例中，所述答案字符串可以是中文字串、英文字串等。

获取答案图像的具体过程如下：

(1)获取答题卡图像。

答题卡图像的获取可以采用光标阅读设备进行扫描，或者采用高拍仪、移动终端等设备进行拍照获取。

(2)根据答题卡布局信息，分割并提取目标答题区域。

在实际应用中，在分割提取目标答题区域之前，可以先对答题卡图像进行预处理，以提取到准确的目标答题区域。所述预处理可以包括：对答题卡图像进行定位、校准、降噪、对比度增强、灰度化等操作，具体处理方法与现有的自动阅卷系统中答题卡图像预处理方法相同，在此不再赘述。

答题卡布局信息是已知的先验信息，如果需要对答题卡图像进行定位，则还可获得答题卡图像的定位信息，根据这些信息，再通过边缘检测即可准确地分割并提取目标答题区域。

(3)从所述目标答题区域提取文字性客观题答案图像。

在得到目标答题区域后，根据答题卡布局信息，再通过边缘点检测即可得到答案图像，该答案图像是答案字符串的图像。

步骤102，对所述答案图像进行切分，获得待识别答案字符串的一个或多个切分结果。

具体切分过程将在后面详细说明。

另外，需要说明的是，在实际应用中，在对所述答案图像进行切分之前，还可以对答案图像进行预处理，以得到更准确的切分结果。所述预处理可以包括：对答案图像进行二值化处理、矫正手写笔迹倾斜、笔迹细化等。

步骤103，判断是否有字数与标准答案字数相同的切分结果。如果有，则执行步骤104；否则，执行步骤106。

由于会有多种不同的合并结果，因此在步骤102得到的多个切分结果的字数也会有所不同，而与标准答案字数相同的切分结果是最有可能正确的答案。由于本发明方案所针对的是具有标准答案的文字性客观试题，，因此，如果字数不同，即可确定答案是错误的。如果切分结果的字数与标准答案的字数相同，则需要进一步来判断该答案是否正确。

步骤104，计算所述字数与标准答案字数相同的切分结果的识别置信度，和/或计算所述字数与标准答案字数相同的切分结果中各字符的识别置信度。

步骤105，根据计算得到的识别置信度确定答案是否正确。

识别置信度的计算方式可以有多种，相应地，根据不同计算方式得到的识别置信度来确定答案是否正确也有相应的判断，具体将在后面详细说明。

步骤106，确定答案错误。

本发明实施例提供的用于文字性客观题的智能阅卷方法，，对已知标准答案的文字性客观题，利用答案的先验信息辅助进行手写字符串的识别，从而完成文字性客观题的自动阅卷，解决了传统自动阅卷系统因不能应用计算机完全自动进行文字性客观题阅卷，而采用人工阅卷带来的人力资源消耗大、教师工作压力大、因教师主观因素导致的判卷结果不准确等问题。

如图3所示，是本发明实施例中对答案图像进行切分的流程图，包括以下步骤：

步骤301，对答案图像进行细切分，得到多个细切分子块。

比如，从答案图像的最左上端的黑像素点开始进行8邻域黑色扩展，从而将整幅图像划分成几个由黑色像素组成的连通子区域，如图3所示是一个切分示例，可以看到通过将黑色笔迹部分进行连通域的分割后，原来的一个字符串图像被切分成了几个片段，这些片段都是组成单字的部件，依书写方式不同可能是偏旁部首也可能是单一笔迹部分，这些片段进行组合后就会组成不同的字符。

步骤302，对所述细切分子块进行合并，并计算合并可信度。

比如，可以对细切分子块进行穷举性合并，即将所有可能的合并都一一进行，比如有5个细切分子块，有以下几种合并：

(1)假设为一个字符，则将细切分子块1、2、3、4、5进行合并；

(2)假设为二个字符，则将细切分子块1、2、3、4进行合并；将细切分子块1、2、3合并、并将细切分子块4、5合并；将细切分子块1、2合并、并将细切分子块3、4、5合并；将细切分子块2、3、4、5合并；

依此类推，一直假设到为五个字符。

所述合并可信度代表了合并后得到的字符的准确度，具体地，可以提取出合并后字符的高度、宽度、高宽比、字符外间距、字符内间距等特征，根据系统预先训练的规则统计模型得到似然得分，将该得分作为当前合并结果的可信度。

所述规则统计模型是根据提取出的训练数据切分后字符的高度、宽度、高宽比、字符外间距、字符内间距等特征，训练出的统计模型，该模型可以是GMM(Gaussian MixtureModel，高斯混合模型)或SVM(Support Vector Machine，支持向量机)等。

合并可信度的计算，即计算合并结果所提取的特征通过规则统计模型计算出的似然得分(即合并得分)，并根据该得分确定合并可信度，也可以直接将该得分作为对应的合并可信度。

步骤303，根据所述可信度确定合并结果，得到待识别答案字符串的一个或多个切分结果。

具体地，如果可信度大于设定的阈值，则认为该合并是可信的，否则认为该合并是不可信的。进而根据可信的合并结果得到一个或多个待识别答案字符串。

需要说明的是，在实际应用中，在合并前或在判断合并可信度时，还可以根据经验或实验设定一些判断规则，比如一个汉字的笔迹不超过3个细切分子块等，以进一步辅助或指导完成字符串切分结果是否正确的判断，提高判断的准确性。

在本发明实施例中，需要计算字数与标准答案字数相同的各切分结果的识别置信度，和/或计算字数与标准答案字数相同的各切分结果中每个字符的识别置信度，并根据计算得到的识别置信度确定答案是否正确。在实际应用中，可以有多种计算及判断方法，下面将分别加以说明。

如图4所示，是本发明实施例中计算识别置信度的一种流程图。在该实施例中，需要计算各切分结果的识别似然得分，然后根据该识别似然得分计算该切分结果的识别置信度。

针对每个字数与标准答案字数相同的切分结果，计算其识别置信度的具体过程包括以下步骤：

步骤401，将切分结果与标准答案的文本字串对齐。

也就是说，将切分结果中的各切分片段(每个切分片段代表了一个字符)顺序与标准答案的文本字串中的各字符一一对齐。

步骤402，基于全字符集的声学模型及通用的语言模型，对所述切分结果进行手写解码识别，得到各识别结果的似然得分。

所述语言模型可以是N-Gram模型，具体计算公式为：

其中，p(X,W_k)表示切分结果整句X的第k个识别结果的似然得分；M为切分结果中切分片段总数；K为整句识别结果数；p(x_i|w_ki)表示第i个切分片段x_i被识别为路径W_k中第i个字符w_ki的似然得分；表示给定1至i-1识别结果后识别为w_ki的先验。

步骤403，选取识别结果中解码路径与标准答案一致的路径的似然得分。

步骤404，计算所述路径的后验得分，并将所述后验得分作为所述切分结果的识别置信度。

具体地，首先选取识别解码路径与标准答案一致的路径似然得分，再计算切分结果整句识别置信度，计算公式如下：

其中，W_y表示与标准答案一致的识别解码路径，p(x_i|w_yi)表示第i个切分片段x_i被识别为与标准答案一致路径W_y中第i个字符w_yi的似然得分；表示给定1至i-1识别结果后识别为与标准答案一致的w_yi的先验；K的取值可以是所有识别结果数。进一步地，为了减少计算量，K也可以适当选取一个较小的值，如50，该值的选取可以根据经验或实验结果来确定。

相应地，依据上述方法得到各切分结果的识别置信度后，确定答案是否正确的判断如下：如果有任一切分结果的识别置信度大于第一置信度阈值，则确定答案正确；否则确定答案错误。

比如，标准答案文本是“黄河入海流”，对于待识别字符串的切分结果，经过声学与语言模型，假设有3个识别结果，分别为“黄河入海流”、“黄河人海流”、“黄河入洋流”，其对应的似然得分分别为90、54、36，则其相应的识别结果后验得分分别为0.5、0.3、0.2。在识别置信度判断时，即判断识别结果为与标准答案一致的“黄河入海流”的后验得分(即0.5)是否大于第一置信度阈值。

如图5所示，是本发明实施例中计算识别置信度的一种流程图。在该实施例中，需要分别计算各切分结果中每个字符的识别置信度。

针对每个字数与标准答案字数相同的切分结果，计算其中各字符识别置信度的具体过程包括以下步骤：

步骤501，将切分结果与标准答案的文本字串对齐。

也就是说，将切分结果中的各切分片段(每个切分片段代表了一个字符)顺序与标准答案的文本字串中的各字符一一对齐。如标准答案为“上海”，则将切分结果中的第一个切分片段对应到“上”，将切分结果中的第二个切分片段对应到“海”。

步骤502，基于全字符集的声学模型，计算所述切分结果中各字符的识别结果的似然得分p(x_i|w_j)。

其中，x_i表示第i(i＝1,2,...,M)个切分片段，M为切分结果中切分片段总数；w_j表示第i个切分片段经过声学模型被识别为W_j(j＝1,2,...,N)的字符，N为识别结果个数。

需要说明的是，在实际计算中，为了减少计算量，N的取值可以适当减小，比如取为50。

步骤503，选取所述识别结果中与标准答案一致的字符的识别结果的似然得分。

步骤504，计算选取的识别结果的后验得分，并将所述后验得分作为所述字符的识别置信度。

具体地，选取切分片段识别结果中与标准答案一致的字符的识别结果似然得分，再计算选取的该识别结果的后验概率，作为该切分片段(即字符)的识别置信度，其计算公式如下：

其中，p(w_yi|x_i)表示第i个切分片段x_i被识别为与标准答案一致路径W_y中第i个字符w_yi的后验得分。

相应地，依据上述得到的各切分结果中各字符的识别置信度，确定答案是否正确的判断如下：

如果有任一切分结果中各字符的识别置信度均大于第二置信度阈值，则确定答案正确；否则确定答案错误。

如图6所示，是本发明实施例中计算识别置信度的一种流程图。在该实施例中，同样需要分别计算各切分结果中各字符的识别置信度，但计算方法与图5所示实施例有所不同，具体包括以下步骤：

步骤601，将切分结果与标准答案的文本字串对齐。

步骤602，基于全字符集的声学模型及通用的语言模型，对所述切分结果进行手写解码识别，得到各识别结果的似然得分。

具体计算公式参见上述公式(1)。

步骤603，计算各识别结果的后验概率。

具体计算公式如下：

其中，p(W_k|X)表示第k个识别结果的后验概率，其它参数与前面提到的相应参数表示的含义相同。

步骤604，根据各识别结果的后验概率，针对所述切分结果中的每个字符，累积各识别结果中该字符的识别结果与标准答案一致的后验概率，并将该后验概率作为该字符的置信度。

具体计算公式如下：

其中，p(w_yi|X)表示各识别结果中字符i的识别结果与标准答案一致的后验概率；其它参数与前面提到的相应参数表示的含义相同。K的取值可以是所有识别结果数。进一步地，为了减少计算量，K也可以适当选取一个较小的值，如50，该值的选取可以经验或实验结果来确定。

例如，标准答案文本为“黄河入海流”，为了方便说明，假设通过手写识别得到三个识别结果(即K的值选为3)，这三个识别结果分别为：似然得分为0.5的第一识别结果“黄河入海流”，似然得分为0.3的第二识别结果“黄河人海流”，似然得分为0.2的第三识别结果“黄河入洋流”。在这种情况下“黄”、“河”、“流”三个字的得分(即后验概率得分)为0.5+0.3+0.2＝1.0,“入”的得分为0.5+0.2＝0.7,“海”的得分为0.5+0.3＝0.8。

相应地，依据上述方法得到的各切分结果中每个字符的识别置信度，确定答案是否正确的判断如下：

需要说明的是，前面提到的第一置信度阈值、第二置信度阈值、以及第三置信度阈值可以相同，也可以不同，对此本发明实施例不做限定。而且，在实际应用中，上述三种方案还可以任意组合。如采用其中两种方案，则答案正误的判断可以根据这两种方案中的判断条件是否都满足来确定，，如果都满足，则判断答案正确，否则判断答案错误。如果采用其中三种方案，则可以是这三种方案中的判断条件都满足，或者是其中任意两个方案中的判断条件满足的情况下，确定答案正确，否则确定答案错误。

相应地，本发明实施例还提供一种用于文字性客观题的智能阅卷系统，如图7所示，是本发明实施例用于文字性客观题的智能阅卷系统的结构示意图。

在该实施例中，所述系统包括：图像获取模块701，切分模块702，第一判断模块703，计算模块704，第二判断模块705，输出模块706。其中，计算模块704包括第一计算模块741和第二计算模块742。

上述图像获取模块701用于获取文字性客观题答案图像；；

上述切分模块702用于对所述答案图像进行切分，获得待识别答案字符串的一个或多个切分结果；

上述第一判断模块703用于判断是否有字数与标准答案字数相同的切分结果，并在判断结果为没有与标准答案字数相同的切分结果时，触发输出模块706输出答案错误的指示信息；否则，触发计算模块704进行识别置信度计算；

上述第一计算模块741用于计算所述字数与标准答案字数相同的切分结果的识别置信度，第二计算模块742用于计算所述字数与标准答案字数相同的切分结果中各字符的识别置信度；

上述第二判断模块705，用于根据所述计算模块704计算得到的识别置信度确定答案是否正确，并在判断答案正确时，触发所述输出模块706输出答案正确的指示信息；在判断答案错误时，触发所述输出模块706输出答案错误的指示信息。

上述图像获取模块701的一种实施例包括：

图像获取单元，用于获取答题卡图像；

答案内容提取单元，从所述目标答题区域提取文字性客观题答案图像。具体地，在答题区域提取单元得到目标答题区域后，根据答题卡布局信息，再通过边缘点检测即可得到答案图像，该答案图像是答案字符串的图像。

上述图像获取单元具体为光标阅读设备、或者高拍仪、或者移动终端设备。也就是说，可以采用光标阅读设备进行扫描，或者采用高拍仪、移动终端等设备进行拍照等方式获取答题卡图像。

上述切分模块702包括：

合并结果确定单元，用于根据所述可信度确定合并结果，得到待识别答案字符串的一个或多个切分结果。具体地，如果可信度大于设定的阈值，则认为该合并是可信的，否则认为该合并是不可信的。进而根据可信的合并结果得到一个或多个待识别答案字符串。

需要说明的是，上述可信度计算单元包括：合并子单元，提取子单元、以及计算子单元。其中，合并子单元用于对所述细切分子块进行合并，对细切分子块进行合并的方式可以有多种，比如穷举性合并，只要保证不会遗漏各种可能的合并结果即可。提取子单元用于提取合并得到的字符的字符特征。计算子单元用于利用预先训练得到的规则统计模型和所述字符特征计算该合并的可信度。

所述规则统计模型是根据提取出的训练数据切分后字符的高度、宽度、高宽比、字符外间距、字符内间距等特征，训练出的统计模型，该模型可以是GMM或SVM等。

另外，需要说明的是，在实际应用中，所述系统还可进一步包括预处理模块(未图示)，用于在所述切分单元对所述答案图像进行切分之前，对答案图像进行预处理，以得到更准确的切分结果。所述预处理可以包括：对答案图像进行二值化处理、矫正手写笔迹倾斜、笔迹细化等。

本发明实施例提供的用于文字性客观题的智能阅卷系统，，对已知标准答案的文字性客观题，利用答案的先验信息辅助进行手写字符串的识别，从而完成文字性客观题的自动阅卷，解决了传统自动阅卷系统因不能应用计算机完全自动进行文字性客观题阅卷，而采用人工阅卷带来的人力资源消耗大、教师工作压力大、因教师主观因素导致的判卷结果不准确等问题。

在图7中，第一计算模块741用于计算各字数与标准答案字数相同的切分结果的识别置信度，第二计算模块742用于计算各字数与标准答案字数相同的切分结果中各字符的识别置信度。在实际应用中，所述系统可以择一选用第一计算模块741或第二计算模块742，也可以同时包括第一计算模块741或第二计算模块742，对此本发明实施例不做限定。相应地，第二判断模块705在判断答案正误时，可以根据其中之一的计算结果进行判断，也可以同时根据这两者的计算结果进行综合判断。

下面对第一计算模块741和第二计算模块742的具体结果进行详细说明。

如图8所示，是本发明实施例中第一计算模块的结构框图。

在该实施例中，所述第一计算模块741包括：

对齐单元801，用于将所述字数与标准答案字数相同的切分结果与所述标准答案的文本字串对齐；

第一识别单元802，用于基于全字符集的声学模型及通用的语言模型，对所述字数与标准答案字数相同的切分结果进行手写解码识别，，得到各识别结果的似然得分；

第一选择单元803，用于选取识别结果中解码路径与标准答案一致的路径的似然得分；

第一计算单元804，用于计算所述路径的后验得分，并将所述后验得分作为所述字数与标准答案字数相同的切分结果的识别置信度。

相应地，依据上述第一计算模块741的计算结果，图7中的第二判断模块704在有任一字数与标准答案字数相同的切分结果的识别置信度大于第一置信度阈值时，判断答案正确；否则判断答案错误。

如图9所示，是本发明实施例中第二计算模块的一种结构框图。

在该实施例中，所述第二计算模块910包括：

第二识别单元912，用于基于全字符集的声学模型，计算所述字数与标准答案字数相同的切分结果中各字符的识别结果的似然得分；

第二选择单元913，用于选取所述识别结果中与标准答案一致的字符的识别结果的似然得分；

第二计算单元914，用于计算选取的识别结果的后验得分，并将所述后验得分作为所述字符的识别置信度；

相应地，依据上述第二计算模块910的计算结果，图7中的第二判断模块704在有任一字数与标准答案字数相同的切分结果中各字符的识别置信度均大于第二置信度阈值时，判断答案正确；否则判断答案错误。

如图10所示，是本发明实施例中第二计算模块的另一种结构框图。

在该实施例中，所述第二计算模块920包括：

第三计算单元923，用于计算各识别结果的后验概率，并根据各识别结果的后验概率，针对所述字数与标准答案字数相同的切分结果中的每个字符，累积各识别结果中该字符的识别结果与标准答案一致的后验概率，并将该后验概率作为该字符的置信度；

相应地，依据上述第二计算模块920的计算结果，图7中的第二判断模块704在有任一字数与标准答案字数相同的切分结果中各字符的识别置信度均大于第三置信度阈值时，判断答案正确；否则判断答案错误。

需要说明的是，前面提到的第一置信度阈值、第二置信度阈值、以及第三置信度阈值可以相同，也可以不同，对此本发明实施例不做限定。而且，在实际应用中，如同时采用第一计算模块和第二计算模块，则第二判断模块704对答案正误的判断可以根据这两种方案中的判断条件是否都满足来确定，如果都满足，则判断答案正确，否则判断答案错误。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。而且，其中的一些模块所提供的功能也可以由软件来实现，一些模块可以与现有的设备(比如个人电脑、平板电脑、手机)中的相同功能模块共用。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于文字性客观题的智能阅卷方法，其特征在于，包括：

获取文字性客观题答案图像；

对所述答案图像进行切分，获得待识别答案字符串的一个或多个可信的切分结果；

判断是否有字数与标准答案字数相同的切分结果；

如果没有，则确定答案错误；

根据计算得到的识别置信度确定答案是否正确。

2.根据权利要求1所述的方法，其特征在于，所述获取文字性客观题答案图像包括：

获取答题卡图像；

根据答题卡布局信息，分割并提取目标答题区域；

从所述目标答题区域提取文字性客观题答案图像。

3.根据权利要求2所述的方法，其特征在于，所述获取答题卡图像包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述答案图像进行切分，获得待识别答案字符串的一个或多个切分结果包括：

对所述答案图像进行细切分，得到多个细切分子块；

对所述细切分子块进行合并，并计算合并可信度；

5.根据权利要求4所述的方法，其特征在于，所述计算合并可信度包括：

提取合并得到的字符的字符特征；

6.根据权利要求1至5任一项所述的方法，其特征在于，

所述计算所述字数与标准答案字数相同的切分结果的识别置信度包括：

所述根据计算得到的识别置信度确定答案是否正确包括：

7.根据权利要求1至5任一项所述的方法，其特征在于，

所述计算所述字数与标准答案字数相同的切分结果中各字符的识别置信度包括：

所述根据计算得到的识别置信度确定答案是否正确包括：

8.根据权利要求1至5任一项所述的方法，其特征在于，

所述根据计算得到的识别置信度确定答案是否正确包括：

9.一种用于文字性客观题的智能阅卷系统，其特征在于，包括：

图像获取模块，用于获取文字性客观题答案图像；

切分模块，用于对所述答案图像进行切分，获得待识别答案字符串的一个或多个可信的切分结果；

第一判断模块，用于判断是否有字数与标准答案字数相同的切分结果，并在判断结果为没有与标准答案字数相同的切分结果时，触发输出模块输出答案错误的指示信息；否则，触发计算模块进行识别置信度计算；

10.根据权利要求9所述的系统，其特征在于，所述图像获取模块包括：

图像获取单元，用于获取答题卡图像；

11.根据权利要求10所述的系统，其特征在于，所述图像获取单元具体为光标阅读设备、或者高拍仪、或者移动终端设备。

12.根据权利要求9所述的系统，其特征在于，所述切分模块包括：

13.根据权利要求12所述的系统，其特征在于，所述可信度计算单元包括：

合并子单元，用于对所述细切分子块进行合并；

提取子单元，用于提取合并得到的字符的字符特征；

14.根据权利要求9至13任一项所述的系统，其特征在于，所述第一计算模块包括：

15.根据权利要求9至13任一项所述的系统，其特征在于，所述第二计算模块包括：

16.根据权利要求9至13任一项所述的系统，其特征在于，所述第二计算模块包括：