CN107729817B - 一种基于规则的划分识别多候选项可信度的方法 - Google Patents

一种基于规则的划分识别多候选项可信度的方法 Download PDF

Info

Publication number
CN107729817B
CN107729817B CN201710854317.5A CN201710854317A CN107729817B CN 107729817 B CN107729817 B CN 107729817B CN 201710854317 A CN201710854317 A CN 201710854317A CN 107729817 B CN107729817 B CN 107729817B
Authority
CN
China
Prior art keywords
candidate item
credible
sets
judging whether
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710854317.5A
Other languages
English (en)
Other versions
CN107729817A (zh
Inventor
林辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhunxing Yunxue Science & Technology Co ltd
Original Assignee
Chengdu Zhunxing Yunxue Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhunxing Yunxue Science & Technology Co ltd filed Critical Chengdu Zhunxing Yunxue Science & Technology Co ltd
Priority to CN201710854317.5A priority Critical patent/CN107729817B/zh
Publication of CN107729817A publication Critical patent/CN107729817A/zh
Application granted granted Critical
Publication of CN107729817B publication Critical patent/CN107729817B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于规则的划分识别多候选项可信度的方法,获取答案中每一行所对应的两套识别候选项集合;如果可通过两套识别候选项集合的比对确定出识别候选项集合的可信度,则对识别候选项集合的整体比对以及逐个判断识别候选项集合,确定该学生手写答案对应的候选项集合是否可信;反之,则合并两个识别候选项集合,并逐一调用各个特殊符号,判断该学生手写答案对应的识别候选项集合是否可信;最后,根据识别候选项集合的可信度,纠正自动化判卷的结果。本发明通过判断学生答案手写体识别候选项集合中,每个答案的候选项是否可信;再根据候选项可信度,纠正自动化判卷逻辑中误判的学生答案,从而减少自动化判卷逻辑的误判,能够有效的减少误判,降低误判率。

Description

一种基于规则的划分识别多候选项可信度的方法
技术领域
本发明涉及数据结构与算法领域,具体涉及一种基于规则的划分识别多候选项可信度的方法。
背景技术
随着人工智能技术的不断发展,学生的手写体答案可以被智能的识别,为了能够最大程度的让识别结果匹配上手写体,通常采用多候选项策略,为了防止候选项失效,采用两套识别方案,生成两套候选方案,因此学生答案的每一行都会有诸多候选项。
为了判断学生的每一行答案是否正确,需要去逐个遍历候选项;但是候选结果中不一定有完全匹配手写体的候选项,相反,有的候选项甚至会干扰对学生答案的判断,影响判断结果,易造成判断不准确,导致误判;比如学生手写体答案本来是对的,但是识别的多个候选项中,出现了错误的候选项,这时,学生答案会被自动判卷逻辑判断为错误,造成误判。
发明内容
基于此,针对上述问题,有必要提出一种基于规则的划分识别多候选项可信度的方法,通过判断学生答案手写体识别候选项集合中,每个答案的候选项是否可信;再根据候选项可信度,纠正自动化判卷逻辑中误判的学生答案,从而减少自动化判卷逻辑的误判,能够有效的减少误判,降低误判率。
本发明的技术方案是:
一种基于规则的划分识别多候选项可信度的方法,包括以下步骤:
a、获取学生手写答案中每一行所对应的两套识别候选项集合;
b、判断是否可通过两套识别候选项集合的比对确定出识别候选项集合的可信度,如果是,则进入步骤c;如果否,则进入步骤d;
c、通过对识别候选项集合的整体比对以及逐个判断识别候选项集合,确定该学生手写答案对应的候选项集合是否可信,如果是,则确认对学生手写答案的自动化判卷结果正确;如果否,则进入步骤e;
d、合并两个识别候选项集合,并逐一调用各个特殊符号,判断该学生手写答案对应的识别候选项集合是否可信,如果是,则确认对学生手写答案的自动化判卷结果正确;如果否,则进入步骤e;
e、根据识别候选项集合的可信度,纠正自动化判卷的结果。
在本方法中,首先获取学生手写答案中每一行答案对应的两套识别候选项集合,然后通过这两套识别候选项集合比对判断该行学生答案手写体识别的可信度,在比对方法无法判断识别候选项可信度的情况下,再通过特殊符号、乘号、分式、不等式、特殊中文字符、字符串边界汉字、数学计算符号、表达式符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数等相应规则来判断识别候选项的可信度;最后根据规则确定学生手写答案识别候选项集合的可信度,通过自动化判卷处理,对学生手写答案行进行正误判断;如果学生手写答案的某一行被自动化判卷为错误,由于该行学生手写答案的候选项是不可信的,那么则认为自动化判卷无法判断该行的答案是否是错误的,进而纠正该行的判卷结果;同理,如果学生手写答案的某一行被自动化判卷为正确,由于该行学生手写答案的候选项是不可信的,那么也认为自动化判卷无法判断该行的答案是否是正确的,进而纠正该行的判卷结果;本发明通过规则判断识别候选项是否可信的方法可以有效的判断候选项的可信度,并通过确定候选项的可信度,能够准确的纠正自动化判卷的误判,有效的降低了自动化判卷的误判率。
作为上述方案的进一步优化,所述步骤c包括以下步骤:
c1、确定学生手写答案对应的两套识别候选项集合,判断两套识别候选项集合是否有交集,如果是,则该行学生手写答案对应的识别候选项集合可信;如果否,则进入步骤c2;
c2、判断是否任意一个识别候选项集合中的候选项数目为1,且该候选项的值为“none”;如果是,则该行学生手写答案对应的识别候选项集合不可信;如果否,则进入步骤c3;
c3、逐个判断单个识别候选项集合是否可信,如果是,则该行学生手写答案对应的识别候选项集合可信;如果否,则不可信。
在本方案中,通过对识别候选项集合的整体比对以及逐个判断识别候选项集合,确定该学生手写答案对应的候选项集合是否可信,其判断过程简单,效率高,可精确判断学生手写答案中某一行对应的识别候选项集合是否不可信,进而确定自动化判卷逻辑是否错误,避免误判;具体实现方法如下:
先获取所有学生答案的手写体识别的两套识别候选项集合,每一行学生答案都对应两套识别候选项集合,每个集合中都有多条识别候选项,然后逐行比对学生手写答案的两套识别候选项集合,如果两个集合有交集,则认为该行对应的两套识别候选项集合是可信的;如果两套候选项集合中,没有交集,且任意一个集合中候选项数目为1,且该候选项的值为“none”,则认为该学生答案对应的行的识别候选项集合不可信。
作为上述方案的进一步优化,所述步骤d包括以下步骤:
d1、合并两个识别候选项集合后,遍历候选项集合,选择其中任意一条识别候选项;
d2、判断所选择的识别候选项是否包含特殊符号,如果是,则该识别候选项不可信;如果否,则进入步骤d3;
d3、判断该识别候选项是否是不等式,且包含不等式的特殊符号,如果是,则该识别候选项不可信;如果否,则替换掉该识别候选项中的不等式符号。
在通过两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,执行本方案,首先合并两个识别候选项集合,遍历候选项集合,由于集合中有多条识别候选项,任意选取其中的一条识别候选项,先进行特殊符号规则处理,根据特殊符号判断该识别候选项是否可信;再进行不等式规则判断,如果该识别候选项是不等式,则判断该识别候选项是否包含不等式的特殊符号,根据不等式规则判断该识别候选项是否可信,然后替换掉该识别候选项中的不等式符号。采用该方法判断识别候选项可信度,保证在两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,同样能做到识别候选项的可信度判定,使得对识别候选项的可信度判定更完整,提高了每个答案的候选项可信度判断的准确性,进一步避免了自动化判卷逻辑发生误判的情况。
作为上述方案的进一步优化,所述步骤d还包括以下步骤:
替换掉识别候选项中的不等式符号后,逐一判断该识别候选项中,对包括乘号、分式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符、变量带系数以及字符串的处理结果是否可信,如果其中任一项可信,则该识别候选项可信;如果每一项均不可信,则该识别候选项不可信。
在通过这两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,再通过乘号、分式、不等式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数等相应规则来判断识别候选项的可信度,只要任一项可信,则可判定对应的识别候选项为可信的;其进行判断的项目多样、全面,保证不会漏判,使判定的识别候选项的可信度结果有保障。
作为上述方案的更进一步优化,具体包括以下步骤:
d4、判断对乘号的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d5;
d5、判断对分式的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d6;
d6、判断对特殊中文字符的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d7;
d7、判断对字符串边界汉字的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d8;
d8、判断对数学计算符号的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d9;
d9、判断对标点符号字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d10;
d10、判断对带小数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d11;
d11、判断对带孤立代数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d12;
d12、判断对带大写英文字母字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d13;
d13、判断对带巨大数字字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d14;
d14、判断对带连续相同字符字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d15;
d15、判断对变量带系数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d16;
d16、判断对字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则该识别候选项不可信。
分别按一定流程,具体对包含乘号、分式、不等式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数等相应规则的处理结果来判断识别候选项的可信度,任意一项可信,则对应的识别候选项为可信的,其判断过程严谨,使得最终的判断结果更具有有效性,大大降低了判卷的误判率。
作为上述方案的更进一步优化,所述步骤e具体包括以下步骤:
执行判卷逻辑,如果判卷结果中某一行的候选项被判断为错误,则修改该识别候选项的判卷结果为未知。当判卷结果中,有某一行的候选项被判断为“error”,但是该行的识别候选项的可信度判断结果是不可信的,则修改该识别候选项的判卷结果为“unknown”,从而降低因识别候选项造成的误判,能够有效降低误判率。
本发明的有益效果是:
1、本发明通过判断学生答案手写体识别候选项集合中,每个答案的候选项是否可信;再根据候选项可信度,纠正自动化判卷逻辑中误判的学生答案,从而减少自动化判卷逻辑的误判,能够有效的减少误判,降低误判率。
2、本发明具有两种对识别候选项可信度的判断,其中一种是,通过对识别候选项集合的整体比对以及逐个判断识别候选项集合,确定该学生手写答案对应的候选项集合是否可信,其判断过程简单,效率高,可精确判断学生手写答案中某一行对应的识别候选项集合是否不可信,进而确定自动化判卷逻辑是否错误,避免误判。
3、本发明还有另一种对识别候选项可信度的判断,保证在两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,同样能做到识别候选项的可信度判定,使得可信度判断方式更完整,提高了每个答案的候选项可信度判断的准确性,进一步避免了发生误判的可能性。
4、在两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,合并两个识别候选项集合,遍历候选项集合,选取其中任一条识别候选项,分别按一定流程,具体对包含特殊符号、不等式、乘号、分式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数等相应规则的处理结果来判断识别候选项的可信度,任意一项可信,则对应的识别候选项为可信的,其判断过程严谨,使得最终的判断结果更具有有效性,大大降低了判卷的误判率。
附图说明
图1是本发明实施例所述基于规则的划分识别多候选项可信度的方法的整体流程图;
图2是本发明实施例所述通过对识别候选项集合的整体比对以及逐个判断来判定识别候选项集合可信度的流程图;
图3是本发明实施例所述合并两个识别候选项集合后判断识别候选项集合可信度的流程图;
图4是本发明实施例所述两套识别候选项集合有交集的情况下,判断识别候选项是否可信的示例图;
图5是本发明实施例所述两套识别候选项集合没有交集的情况下,判断识别候选项是否可信的示例图;
图6是本发明实施例所述合并两个识别候选项集合后,判断识别候选项集合可信度的其中一个示例图;
图7是本发明实施例所述合并两个识别候选项集合后,判断识别候选项集合可信度的另一个示例图;
图8是本发明实施例所述合并两个识别候选项集合后,判断识别候选项集合可信度的另一个示例图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
如图1所示,一种基于规则的划分识别多候选项可信度的方法,包括以下步骤:
a、获取学生手写答案中每一行所对应的两套识别候选项集合;
b、判断是否可通过两套识别候选项集合的比对确定出识别候选项集合的可信度,如果是,则进入步骤c;如果否,则进入步骤d;
c、通过对识别候选项集合的整体比对以及逐个判断识别候选项集合,确定该学生手写答案对应的候选项集合是否可信,如果是,则确认对学生手写答案的自动化判卷结果正确;如果否,则进入步骤e;
d、合并两个识别候选项集合,并逐一调用各个特殊符号,判断该学生手写答案对应的识别候选项集合是否可信,如果是,则确认对学生手写答案的自动化判卷结果正确;如果否,则进入步骤e;
e、根据识别候选项集合的可信度,纠正自动化判卷的结果。
在本方法中,首先获取学生手写答案中每一行答案对应的两套识别候选项集合,然后通过这两套识别候选项集合比对判断该行学生答案手写体识别的可信度,在比对方法无法判断识别候选项可信度的情况下,再通过特殊符号、乘号、分式、不等式、特殊中文字符、字符串边界汉字、数学计算符号、表达式符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数等相应规则来判断识别候选项的可信度;最后根据规则确定学生手写答案识别候选项集合的可信度,通过自动化判卷处理,对学生手写答案行进行正误判断;如果学生手写答案的某一行被自动化判卷为错误,由于该行学生手写答案的候选项是不可信的,那么则认为自动化判卷无法判断该行的答案是否是错误的,进而纠正该行的判卷结果;同理,如果学生手写答案的某一行被自动化判卷为正确,由于该行学生手写答案的候选项是不可信的,那么也认为自动化判卷无法判断该行的答案是否是正确的,进而纠正该行的判卷结果;本发明通过规则判断识别候选项是否可信的方法可以有效的判断候选项的可信度,并通过确定候选项的可信度,能够准确的纠正自动化判卷的误判,有效的降低了自动化判卷的误判率。
在其中一个实施例中,如图2所示,所述步骤c包括以下步骤:
c1、确定学生手写答案对应的两套识别候选项集合,判断两套识别候选项集合是否有交集,如果是,则该行学生手写答案对应的识别候选项集合可信;如果否,则进入步骤c2;
c2、判断是否任意一个识别候选项集合中的候选项数目为1,且该候选项的值为“none”;如果是,则该行学生手写答案对应的识别候选项集合不可信;如果否,则进入步骤c3;
c3、逐个判断单个识别候选项集合是否可信,如果是,则该行学生手写答案对应的识别候选项集合可信;如果否,则不可信。
在本方案中,通过对识别候选项集合的整体比对以及逐个判断识别候选项集合,确定该学生手写答案对应的候选项集合是否可信,其判断过程简单,效率高,可精确判断学生手写答案中某一行对应的识别候选项集合是否不可信,进而确定自动化判卷逻辑是否错误,避免误判;具体实现方法如下:
先获取所有学生答案的手写体识别的两套识别候选项集合,每一行学生答案都对应两套识别候选项集合,每个集合中都有多条识别候选项,然后逐行比对学生手写答案的两套识别候选项集合,如果两个集合有交集,则认为该行对应的两套识别候选项集合是可信的;如果两套候选项集合中,没有交集,且任意一个集合中候选项数目为1,且该候选项的值为“none”,则认为该学生答案对应的行的识别候选项集合不可信。
在步骤c1中,如果两套识别候选项集合有交集,则认为该行学生手写答案对应的识别候选项集合可信,具体如图4所示,该图所示表达式对应的两套识别候选项中,因为两套识别候选中有交集,其中相交集的一条识别候选项为“$\times1=\frac{\sqrt{5}+1}{2}$”,因此学生手写答案的第5行对应的识别候选项是可信的;
在步骤c2中,确定学生手写体的两套识别候选项集合,如果存在任意一个集合中候选项数目为1,且该候选项的值为“none”,而另一个候选项集合的数目大于1的情况,那么该行学生答案对应的候选项集合不可信,具体如图5所示,其中14_1表示学生手写答案的第14行,该行对应的两套识别候选项集合的候选项中没有交集,其中一个识别候选项集合有多条候选项,而另一套识别候选项中只有一条候选项且该候选项的值为“none”,根据比对规则,认为该行手写体答案对应的识别候选项不可信。
在另一个实施例中,如图3所示,所述步骤d包括以下步骤:
d1、合并两个识别候选项集合后,遍历候选项集合,选择其中任意一条识别候选项;
d2、判断所选择的识别候选项是否包含特殊符号,如果是,则该识别候选项不可信;如果否,则进入步骤d3;
d3、判断该识别候选项是否是不等式,且包含不等式的特殊符号,如果是,则该识别候选项不可信;如果否,则替换掉该识别候选项中的不等式符号。
在通过两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,执行本方案,首先合并两个识别候选项集合,遍历候选项集合,由于集合中有多条识别候选项,任意选取其中的一条识别候选项,先进行特殊符号规则处理,根据特殊符号判断该识别候选项是否可信;再进行不等式规则判断,如果该识别候选项是不等式,则判断该识别候选项是否包含不等式的特殊符号,根据不等式规则判断该识别候选项是否可信,然后替换掉该识别候选项中的不等式符号。采用该方法判断识别候选项可信度,保证在两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,同样能做到识别候选项的可信度判定,使得对识别候选项的可信度判定更完整,提高了每个答案的候选项可信度判断的准确性,进一步避免了自动化判卷逻辑发生误判的情况。
在另一个实施例中,如图3所示,所述步骤d还包括以下步骤:
替换掉识别候选项中的不等式符号后,逐一判断该识别候选项中,对包括乘号、分式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符、变量带系数以及字符串的处理结果是否可信,如果其中任一项可信,则该识别候选项可信;如果每一项均不可信,则该识别候选项不可信。
在通过这两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,再通过乘号、分式、不等式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数等相应规则来判断识别候选项的可信度,只要任一项可信,则可判定对应的识别候选项为可信的;其进行判断的项目多样、全面,保证不会漏判,使判定的识别候选项的可信度结果有保障。
在另一个实施例中,如图3所示,具体包括以下步骤:
d4、判断对乘号的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d5;
d5、判断对分式的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d6;
d6、判断对特殊中文字符的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d7;
d7、判断对字符串边界汉字的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d8;
d8、判断对数学计算符号的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d9;
d9、判断对标点符号字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d10;
d10、判断对带小数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d11;
d11、判断对带孤立代数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d12;
d12、判断对带大写英文字母字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d13;
d13、判断对带巨大数字字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d14;
d14、判断对带连续相同字符字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d15;
d15、判断对变量带系数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d16;
d16、判断对字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则该识别候选项不可信。
分别按一定流程,具体对包含乘号、分式、不等式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数等相应规则的处理结果来判断识别候选项的可信度,任意一项可信,则对应的识别候选项为可信的,其判断过程严谨,使得最终的判断结果更具有有效性,大大降低了判卷的误判率。
在两套识别候选项集合比对方法无法判断识别候选项可信度的情况下,进行合并两个识别候选项集合,并判断识别候选项集合可信度;具体采用以下实例加以说明:
如图6所示,存在一个识别候选项为“$xx+\frac{1}{4}=\frac{5}{4}$”;先用特殊符号规则,判断该识别候选项中是否有特殊的符号,因为没有特殊符号,则进行不等式规则判断,但是该识别候选项中没有不等式标志,且不满足不等式规则,因此进行乘号规则判断,在该识别候选项中,不存在“*”乘号标签,且不满足乘号规则,因此进行分式规则判断,在进行分式规则判断时,不满足分母为0或者1和分数后面跟数字两条子规则,因此不能被分式规则判断该候选项是否可信;最后,因为它是带“$”的字符串,用带“$”的字符串规则进行判断,因为该字符串的子串中出现了“xx”,两个连续的相同的字符,则判断该识别候选项不可信;
如图7所示,在该识别候选项集合中,存在识别候选项“$\left(2\right)$解$15$,$45+4=5$”;对该候选项,先调用特殊符号规则,因为不存在特殊符号,所以不满足特殊符号规则,不能用该规则判断候选项是否可信;然后调用不等式规则,因为不候选项中不存在不等式且也不包含不等式规则的特殊符号,因此不能用不等式规则判断该候选项是否可信;调用乘号“*”规则,也不能确定该候选项是否可信;在调用分式规则,查看是否满足分母为0或者1,或者分数后面接数字规则,因为均不满足这两个规则,因此分数规则不能判断候选项是否可信;最后用带“$”的字符串处理规则,在识别候选项“$\left(2\right)$解$15$,$45+4=5$”中,其子字符串“$\left(2\right)$”和“$15$”是一个孤立的代数式,所以该候选项不可信;识别候选项“$\left(2\right)$解因为$x^{2}-L\ltx+4=5$”中有特定大写字母,该候选项不可信;候选项“$\left(2\right)$解因为$x^{2}-11x+425$”中有巨大数字,因此该候选项不可信;
如图8所示,在该识别候选项集合中,存在识别候选项“所以$=1+1\frac{5}{2}1^{2}$”,因为匹配上分式规则中的分数分母连接数字,所以该候选项是不可信的。
在另一个实施例中,所述步骤e具体包括以下步骤:
执行判卷逻辑,如果判卷结果中某一行的候选项被判断为错误,则修改该识别候选项的判卷结果为未知。当判卷结果中,有某一行的候选项被判断为“error”,但是该行的识别候选项的可信度判断结果是不可信的,则修改该识别候选项的判卷结果为“unknown”,从而降低因识别候选项造成的误判,能够有效降低误判率。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种基于规则的划分识别多候选项可信度的方法,其特征在于,包括以下步骤:
a、获取学生手写答案中每一行所对应的两套识别候选项集合;
b、判断是否可通过两套识别候选项集合的比对确定出识别候选项集合的可信度,如果是,则进入步骤c;如果否,则进入步骤d;
c、通过对识别候选项集合的整体比对以及逐个判断识别候选项集合,确定该学生手写答案对应的候选项集合是否可信,如果是,则确认对学生手写答案的自动化判卷结果正确;如果否,则进入步骤e;
c1、确定学生手写答案对应的两套识别候选项集合,判断两套识别候选项集合是否有交集,如果是,则该行学生手写答案对应的识别候选项集合可信;如果否,则进入步骤c2;
c2、判断是否任意一个识别候选项集合中的候选项数目为1,且该候选项的值为“none”;如果是,则该行学生手写答案对应的识别候选项集合不可信;如果否,则进入步骤c3;
c3、逐个判断单个识别候选项集合是否可信,如果是,则该行学生手写答案对应的识别候选项集合可信;如果否,则不可信;
d、合并两个识别候选项集合,并逐一调用各个特殊符号、乘号、分式、不等式、特殊中文字符、字符串边界汉字、数学计算符号、表达式符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符以及变量带系数的相应规则,判断该学生手写答案对应的识别候选项集合是否可信,如果是,则确认对学生手写答案的自动化判卷结果正确;如果否,则进入步骤e;
d1、合并两个识别候选项集合后,遍历候选项集合,选择其中任意一条识别候选项;
d2、判断所选择的识别候选项是否包含特殊符号,如果是,则该识别候选项不可信;如果否,则进入步骤d3;
d3、判断该识别候选项是否是不等式,且包含不等式的特殊符号,如果是,则该识别候选项不可信;如果否,则替换掉该识别候选项中的不等式符号;
e、根据识别候选项集合的可信度,纠正自动化判卷的结果;
如果学生手写答案的某一行被自动化判卷为错误,由于该行学生手写答案的候选项是不可信的,那么则认为自动化判卷无法判断该行的答案是否是错误的,进而纠正该行的判卷结果;如果学生手写答案的某一行被自动化判卷为正确,由于该行学生手写答案的候选项是不可信的,那么也认为自动化判卷无法判断该行的答案是否是正确的,进而纠正该行的判卷结果。
2.根据权利要求1所述的基于规则的划分识别多候选项可信度的方法,其特征在于,所述步骤d还包括以下步骤:
替换掉识别候选项中的不等式符号后,逐一判断该识别候选项中,对包括乘号、分式、特殊中文字符、字符串边界汉字、数学计算符号、标点符号、小数、孤立代数、大写英文字母、巨大数字、连续相同字符、变量带系数以及字符串的处理结果是否可信,如果其中任一项可信,则该识别候选项可信;如果每一项均不可信,则该识别候选项不可信。
3.根据权利要求2所述的基于规则的划分识别多候选项可信度的方法,其特征在于,具体包括以下步骤:
d4、判断对乘号的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d5;
d5、判断对分式的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d6;
d6、判断对特殊中文字符的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d7;
d7、判断对字符串边界汉字的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d8;
d8、判断对数学计算符号的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d9;
d9、判断对标点符号字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d10;
d10、判断对带小数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d11;
d11、判断对带孤立代数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d12;
d12、判断对带大写英文字母字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d13;
d13、判断对带巨大数字字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d14;
d14、判断对带连续相同字符字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d15;
d15、判断对变量带系数字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则进入步骤d16;
d16、判断对字符串的处理结果是否可信,如果是,则该识别候选项可信,如果否,则该识别候选项不可信。
4.根据权利要求1所述的基于规则的划分识别多候选项可信度的方法,其特征在于,所述步骤e具体包括以下步骤:
执行判卷逻辑,如果判卷结果中某一行的候选项被判断为错误,则修改该识别候选项的判卷结果为未知。
CN201710854317.5A 2017-09-20 2017-09-20 一种基于规则的划分识别多候选项可信度的方法 Expired - Fee Related CN107729817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710854317.5A CN107729817B (zh) 2017-09-20 2017-09-20 一种基于规则的划分识别多候选项可信度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710854317.5A CN107729817B (zh) 2017-09-20 2017-09-20 一种基于规则的划分识别多候选项可信度的方法

Publications (2)

Publication Number Publication Date
CN107729817A CN107729817A (zh) 2018-02-23
CN107729817B true CN107729817B (zh) 2021-01-08

Family

ID=61206665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710854317.5A Expired - Fee Related CN107729817B (zh) 2017-09-20 2017-09-20 一种基于规则的划分识别多候选项可信度的方法

Country Status (1)

Country Link
CN (1) CN107729817B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229223A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用多个候选答案评分模型提供问题答案
CN104268603A (zh) * 2014-09-16 2015-01-07 科大讯飞股份有限公司 用于文字性客观题的智能阅卷方法及系统
CN105096678A (zh) * 2015-07-17 2015-11-25 成都准星云学科技有限公司 用于辅助评判数学题答题质量的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9519686B2 (en) * 2014-04-09 2016-12-13 International Business Machines Corporation Confidence ranking of answers based on temporal semantics
US9665786B2 (en) * 2015-02-20 2017-05-30 Conduent Business Services, Llc Confirming automatically recognized handwritten answers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229223A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用多个候选答案评分模型提供问题答案
CN104268603A (zh) * 2014-09-16 2015-01-07 科大讯飞股份有限公司 用于文字性客观题的智能阅卷方法及系统
CN105096678A (zh) * 2015-07-17 2015-11-25 成都准星云学科技有限公司 用于辅助评判数学题答题质量的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bottom-Up and Top-Down Attention for Image Captioning and VQA;Peter Anderson等;《arXiv: Computer Vision and Pattern Recognition》;20170725;第1-13页 *
一种图像识别手写字符的自动阅卷系统;邓凯等;《中北大学学报(自然科学版)》;20160622(第z1期);第149-155页 *
基于模式学习的形式化答案抽取技术与置信度评价方法;李鹏等;《电子学报》;20081231;第36卷(第12期);第149-155页 *

Also Published As

Publication number Publication date
CN107729817A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN111783767B (zh) 文字识别方法、装置、电子设备及存储介质
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
WO2023116561A1 (zh) 一种实体提取方法、装置、电子设备及存储介质
CN110399493B (zh) 一种基于增量学习的作者消歧方法
US20100125725A1 (en) Method and system for automatically detecting keyboard layout in order to improve the quality of spelling suggestions and to recognize a keyboard mapping mismatch between a server and a remote user
CN107688822B (zh) 基于深度学习的新增类别识别方法
CN104572632A (zh) 一种确定具有专名译文的词汇的翻译方向的方法
CN113903420A (zh) 一种语义标签确定模型的构建方法、病历解析方法
WO2024037483A1 (zh) 文本处理方法、装置、设备及介质
CN107729817B (zh) 一种基于规则的划分识别多候选项可信度的方法
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
CN109885180B (zh) 纠错方法和装置、计算机可读介质
US20150199582A1 (en) Character recognition apparatus and method
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
CN112541357B (zh) 实体识别方法、装置及智能设备
CN111444337B (zh) 一种基于改进kl散度的话题跟踪方法
CN111177370B (zh) 一种自然语言处理的算法
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN110633474B (zh) 一种数学算式识别方法、装置、设备及可读存储介质
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
CN114662469B (zh) 情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210108

Termination date: 20210920