CN108052504A - 数学主观题解答结果的结构分析方法及系统 - Google Patents

数学主观题解答结果的结构分析方法及系统 Download PDF

Info

Publication number
CN108052504A
CN108052504A CN201711437050.6A CN201711437050A CN108052504A CN 108052504 A CN108052504 A CN 108052504A CN 201711437050 A CN201711437050 A CN 201711437050A CN 108052504 A CN108052504 A CN 108052504A
Authority
CN
China
Prior art keywords
answer
read
relation
vector
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711437050.6A
Other languages
English (en)
Other versions
CN108052504B (zh
Inventor
沙晶
代旭东
盛志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Flying Intelligent Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711437050.6A priority Critical patent/CN108052504B/zh
Publication of CN108052504A publication Critical patent/CN108052504A/zh
Application granted granted Critical
Publication of CN108052504B publication Critical patent/CN108052504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种数学主观题解答结果的结构分析方法及系统,该方法包括:首先对待阅答题信息进行分词处理,然后根据分词处理结果对所述待阅答题信息进行结构分析,通过该步骤可以获取待阅答题的答题信息间关系,由于答题步骤和步骤间关系可以表征答题者的答题逻辑,这样可以将答题者的答题逻辑和参考答案的答题逻辑进行比对,以便于根据比对结果对答题逻辑进行评阅,能有效提升开放性题型的评阅结果的准确度。

Description

数学主观题解答结果的结构分析方法及系统
技术领域
本发明涉及自然语言处理、深度学习领域,具体涉及一种数学主观题解答结果的结构分析方法及系统。
背景技术
在传统教学过程中,老师作为考试和作业评阅的主体,长期承担着大量的工作量。评阅工作中包含了大量的重复信息,特别在数学解答题的评阅场景下,学生的作答结果往往对应固定的知识点,重复性更加明显。与此同时,随着互联网技术和产品逐渐向教育领域渗透,在线教育的受众的规模不断扩大,又进一步增加了考试和作业评阅的数量。另一方面,在处理大规模评阅工作时,老师容易受到疲劳、个人偏好等主观因素的干扰,从而影响评阅,尤其是评分的准确性和客观性。因此利用计算机完成或辅助完成评阅,以减少人工评阅的工作量,提升评阅,尤其是评分的准确性和客观性,对教学过程意义重大。
发明内容
本发明提供一种数学主观题解答结果的结构分析方法及系统,以解决现有的数学主观题解答结果的结构分析主要依赖人工进行结构分析,不能满足实际需要的问题。
为此,本发明提供如下技术方案:
一种数学主观题解答结果的结构分析方法,包括:
接收待阅答题信息,并对所述待阅答题信息进行分词处理;
基于分词处理结果和预先构建的分步模型,得到待阅答题信息的答题步骤;
基于答题步骤向量、统计特征向量和预先训练的关系分析模型,得到步骤间关系,所述统计特征向量包括以下任意一种或多种:结构特征、引导词特征、步骤关联特征、关键词特征。
优选地,所述步骤间关系包括以下任意一种:推导、并列和重复。
优选地,所述分步模型为神经网络,包括:向量化模块、多层序列获取模块和分类模块,其中,向量化模块的输入为分词处理得到的词,向量化模块的输出为词向量序列,多层序列获取模块的输入为词向量序列,多层序列获取模块的输出为序列向量,分类模块的输入为序列向量,分类模块的输出为分词点作为分离步骤点的判断结果。
优选地,所述关系分析模型为卷积神经网络;
所述关系分析模型包括:输入层、卷积层、分类层和输出层,其中,输入层的输入为答题步骤向量,卷积层为多层,卷积层的输出为用于确定步骤间关系的分布式特征向量,分类层的输入为分布式特征向量和基于规则提取的统计特征向量,输出层的输出为步骤间关系的判断结果。
优选地,在对所述待阅答题信息进行分词处理之前,所述方法还包括:
对所述待阅答题信息进行数学实体识别;
所述对所述待阅答题信息进行分词处理包括:
基于所述数学实体识别结果对所述待阅答题信息进行分词处理。
优选地,所述方法还包括:
对正确答案进行结构分析,得到正确答案的答题步骤和步骤间关系;
将所述待阅答题信息的答题步骤、步骤间关系与所述正确答案的答题步骤、步骤间关系进行比对,得到评阅结果。
相应地,本发明还提供了一种数学主观题解答结果的结构分析系统,包括:
答题信息接收模块,用于接收待阅答题信息;
分词模块,用于对所述待阅答题信息进行分词处理;
答题步骤获取模块,用于基于分词处理结果和预先构建的分步模型,得到待阅答题信息的答题步骤;
步骤间关系获取模块,用于基于答题步骤向量、统计特征向量和预先训练的关系分析模型,得到步骤间关系,所述统计特征向量包括以下任意一种或多种:结构特征、引导词特征、步骤关联特征、关键词特征。
优选地,所述分步模型为神经网络,包括:向量化模块、多层序列获取模块和分类模块,其中,向量化模块的输入为分词处理得到的词,向量化模块的输出为词向量序列,多层序列获取模块的输入为词向量序列,多层序列获取模块的输出为序列向量,分类模块的输入为序列向量,分类模块的输出为分词点作为分离步骤点的判断结果。
优选地,所述关系分析模型为卷积神经网络;
所述关系分析模型包括:输入层、卷积层、分类层和输出层,其中,输入层的输入为答题步骤向量,卷积层为多层,卷积层的输出为用于确定步骤间关系的分布式特征向量,分类层的输入为分布式特征向量和基于规则提取的统计特征向量,输出层的输出为步骤间关系的判断结果。
优选地,所述系统还包括:
实体识别模块,用于对所述待阅答题信息进行数学实体识别;
所述分词模块具体用于基于所述数学实体识别结果对所述待阅答题信息进行分词处理。
优选地,所述系统还用于获取正确答案的答题步骤和步骤间关系;
所述系统还包括:
评阅模块,用于将所述待阅答题信息的答题步骤、步骤间关系与所述正确答案的答题步骤、步骤间关系进行比对,得到评阅结果。
本发明实施例提供的数学主观题解答结果的结构分析方法及系统,首先对待阅答题信息进行分词处理,然后根据分词处理结果对所述待阅答题信息进行结构分析,通过该步骤可以获取待阅答题的答题信息间关系,由于答题信息间关系可以表征答题者的答题逻辑,这样使得本发明可以获取解答结果的答题逻辑,以便于后续根据答题者的答题逻辑和参考答案的答题逻辑进行比对,评阅答题者的答题逻辑是否正确。
进一步地,本发明提供了步骤间关系的种类,通过该种类可以简单清晰的表征答题步骤间关系,有助于提升开放性题型的评阅结果的准确度。
进一步地,本发明提供了对待阅答题信息进行结构分析的具体方法:基于所述分布式特征向量和提取的统计特征向量获取步骤间关系,其中,分布式特征向量可以根据待阅答题信息的词向量获取,这样就可以通过待阅答题信息通过计算机自动获取答题信息间关系。
进一步地,本发明提供了答题步骤分离的方法,利用该方法可以通过计算机自动获取各答题步骤。
进一步地,本发明还提供了待阅答题信息的评阅方法,可以根据所述待阅答题信息的答题步骤、步骤间关系对待阅答题信息进行评阅。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数学主观题解答结果的结构分析方法的第一种流程图;
图2是本发明实施例提供的数学主观题解答结果的结构分析方法的第二种流程图;
图3是本发明实施例提供的数学主观题解答结果的结构分析系统的第一种结构示意图;
图4是本发明实施例提供的数学主观题解答结果的结构分析系统的第二种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有的数学主观题解答结果的结构分析主要依赖人工进行分析,本发明实施例提供的数学主观题解答结果的结构分析方法,可以自动提取待阅答题信息的答题信息间关系来表征答题者的答题思路和结构,这样便于后续对答题结果进行评阅。如图1所示,是本发明实施例提供的数学主观题解答结果的结构分析方法的第一种流程图。
该数学主观题解答结果的结构分析方法可以包括以下步骤:
步骤S01、接收待阅答题信息,并对所述待阅答题信息进行分词处理。
其中,待阅答题信息可以为答题图像信息和/或答题文本信息,当待阅答题信息中包括答题图像信息时,可以通过图像识别获取答题文本信息。例如,答题图像可以是通过拍照、扫描等手段得到答题图像,进而使用OCR技术对图像进行识别,得到答题文本信息。当然,答题文本信息也可以是计算机答题等方式输入的文本信息,在此不做限定。
关于分词处理,可以采用现有常见的分词方法即可,如基于规则的方法、基于序列标注的模型预测方法等,对此本案不做限定。
需要说明的是,在本实施例中为了提高后续分词处理的准确度,在数学答题内容分词过程中可以先对数学实体进行识别,以保证最终分词结果的准确性和有用性。关于数学实体的识别,具体可以将数学答题内容中可能出现的标识数学对象的符号,如三角形ABC、角BAC、平行四边形ABCD等,定义为数学实体,因通常情况下,数学实体在答题结果中的表达方式较为受限,因此可以采用基于规则匹配的方法检测数学实体就可以获得较高的识别准确率,当然也可以采用神经网络等进行数学实体识别,相应地,如果进行了数学实体识别,则应当基于所述数学实体识别结果对所述待阅答题信息进行分词处理。
此外,当答题信息为答题图像信息时,为了进一步提升分词处理的准确度,还可以首先对答题图像信息进行分段、分行等处理,例如,对于数学开放式试题的手写答案,可以检查所述答题图像信息中是否有粘连行,并对粘连行进行分割,识别所述答题图像信息中的分式线等特殊数学符号,以便正确分行,例如将分式线上下最近的行进行合并作为一个数学答题行等,这样可以对答题图像信息进行准确分行,以便于后续进行分词处理。
步骤S02、基于分词处理结果和预先构建的分步模型,得到待阅答题信息的答题步骤。
由于待阅答题信息的形式、版面设计等问题,最终作答内容的格式往往不可控,如包含多个数学步骤未分离的问题,例如,同一行中包括多个答题步骤,或者相邻行为一个答题步骤,因此本发明需要先将待阅答题信息中各答题步骤进行分离,得到各答题步骤。具体地,可以将每个分词点作为候选分离步骤点,然后,基于模型判决的方法得到每个候选分离步骤点是否为分步骤点,其中,上述模型可以为神经网络,其训练方法可以同现有技术,如首先采集训练数据,该训练数据可以为有分步骤点标注信息的答题信息,将训练数据的答题信息的分词结果,例如各词输入神经网络,调整神经网络的参数使得神经网络输出结果不断趋近于正确的标注信息,如哪个分词点为分步骤点,哪个分词点不是分步骤点,当神经网络输出结果与标准结果的相似度大于设定阈值时,则认为模型训练完成,然后可以利用训练好的模型预测待阅答题信息中各分离步骤点。
需要说明的是,在得到答题步骤之后,还可以对各答题步骤的表达方式进行归一化,以提升后续分析步骤间关系的准确度。具体地,为了能提高后续评分的精度,可以在步骤分离之后,步骤间关系分析之前,针对待阅答题信息中包含众多等价表达的情况,如“AB//CD”和“AB与CD平行”,将答题内容的表达方式进行归一化,如可以进行规约表示形式的设计,然后将数学表达转换为规约表示形式。
在一个具体实施例中,利用预先构建的分步模型对所述待阅答题信息进行答题步骤分离,得到答题步骤。
其中,所述分步模型为神经网络,包括:向量化模块、多层序列获取模块和分类模块,其中,向量化模块的输入为分词处理得到的词,向量化模块的输出为词向量序列,多层序列获取模块的输入为词向量序列,多层序列获取模块的输出为序列向量,分类模块的输入为序列向量,分类模块的输出为分词点作为分离步骤点的判断结果。
具体地,将每个分词点作为候选分离步骤点,基于模型判决的方法,得到每个候选分离步骤点是否为分离步骤点的判断结果。以神经网络为例进行说明,模型主要为向量化模块+多层序列获取模块+分类模块,即将分词后的答题信息中的一个个词,连续输入至向量化模块,得到词向量序列,再将该词向量序列输入至多层序列获取模块,例如长短时记忆网络(Long Short-Term Memory,LSTM)、循环神经网络(Recurrent Neural Networks,RNN)等,神经网络针对候选分离步骤点,得到一个序列向量,最后将该序列向量输入至分类模块,得到各候选分离步骤点是否是分离步骤点的判断结果。上述判断结果可以是候选分离步骤点作为分离步骤点的得分,也可以是某候选分离步骤点为分离步骤点的结论。
步骤S03、基于答题步骤向量、统计特征向量和预先训练的关系分析模型,得到步骤间关系,所述统计特征向量包括以下任意一种或多种:结构特征、引导词特征、步骤关联特征、关键词特征。
例如,可以将步骤间关系解析为树状结构,以描述步骤与步骤之间的关系。其中,所述步骤间关系可以包括以下任意一种:推导、并列和重复。其中,推导关系能表征答题者的答题逻辑,该推导关系可以包括:推导条件、推导结论等,推导条件为使得推导结论成立所依据的条件,例如题目条件、公知定量、以及根据题目条件和/或公知定量推导出的中间结论。
具体地,数学答题的评分需要考虑解答步骤间的关系,因此为了进一步提升评分精度或给出答题的中间逻辑过程是否正确或完整,在此将步骤序列解析成树状结构,以描述步骤和步骤之间的关系。
举例来说,在如下的答题内容中:“因为步骤1,所以步骤2”,步骤1是步骤2的推导条件,因此步骤1与步骤2是“推导”修饰关系;类似的,在数学答题步骤关系分析中,还包括“并列”、“重复”等步骤间关系。
例如,上述关系分析模型为卷积神经网络,包括:输入层、卷积层、分类层和输出层,输入层的输入为所述答题步骤向量,卷积层的输出为用于确定步骤间关系的分布式特征向量,分类层的输入为分布式特征向量和基于规则提取的统计特征向量,输出层的输出为步骤间关系的判断结果。需要说明的是,该答题步骤向量可以是答题步骤的词向量序列,还可以为答题步骤的一个向量值,在此不做限定。
本实施例基于神经网络,例如回归模型或分类模型获取步骤间关系,以下以卷积神经网络CNN为例进行说明,模型的结构主要包括输入层、卷积层、分类层和输出层。输入层输入的是待进行分析的答题步骤的答题步骤向量,该答题步骤向量序列接着接入卷积层,卷积层采用多层设计,目的是提取不同抽象程度的特征,最终卷积层的输出是用于步骤关系确定的分布式特征向量,将该分布式特征和基于规则提取的统计特征向量,一起输入至分类层,最终CNN的输出是步骤间的关系的判断结果,其中,上述判断结果可以是直接表示关系类别的表述,也可以是属于各个类别的概率。
所述统计特征主要包括结构特征、引导词特征、步骤关联特征、关键词特征。
结构特征——步骤的长度和在答题中的位置,例如第几步。
引导词特征——步骤中所含引导词的信息,例如因为、所以。
步骤关联特征——待分析步骤间根据规则得到的关系判断。
关键词特征——待分析步骤中包含关键词的信息,其中,该关键词的信息为预先设定的关键词的信息。
需要说明的是:对于分析出的步骤间关系,可以以树的形式存储和展示,基于关系生成树的方法,可以采用现有的一些成熟生成树算法,如基于状态转移的算法、基于图的算法等,在此不做限定。
本发明实施例提供的数学主观题解答结果的结构分析方法,可以自动从待阅答题信息中提取出答题信息间关系,该答题步骤间关系可以表征答题者的答题逻辑,以便于基于该答题信息间关系得到评阅特征。
如图2所示,是本发明实施例提供的数学主观题解答结果的结构分析方法的第二种流程图。
该数学主观题解答结果的结构分析方法还可以包括以下步骤:
步骤S21、对正确答案进行结构分析,得到正确答案的答题步骤和步骤间关系。
正确答案的答题步骤和步骤间关系的提取方式,可以参考待阅答题信息的答题步骤和步骤间关系的提取方式,在此不再详述。
需要说明的是,该参考答案可以为以下任意一种或多种:标准答案、对标准答案进行扩展得到的正确答案、其他作答者的满分答案等,在此不做限定。
步骤S22、将所述待阅答题信息的答题步骤、步骤间关系与所述正确答案的答题步骤、步骤间关系进行比对,得到评阅结果。
具体地,可以包括以下步骤:
步骤a,预先确定第一评阅特征,所述第一评阅特征包括以下任意一种或多种:关键步骤特征、关键步骤的推导关系特征、解答结果特征。
其中,评阅特征主要包括关键步骤是否出现、关键步骤的推导关系是否充分、解答结果是否正确。关键步骤的推导关系是否充分主要指关键步骤与前一步骤间的推导条件是否正确。
关键步骤可以为步骤间关系为推导关系时对应的答题步骤和/或人工标注的关键步骤,其中,推导关系对应的答题步骤可以为推导条件对应的步骤和/或推导结论对应的步骤。现有技术中,关键步骤通常都是专家根据自身经验对标准答案进行关键步骤标注来确定关键步骤,但是,现实中对同一道题的表达方式可能有多种,通过扩展的方式得到的答题逻辑和表达方式往往不能涵盖所有正确的答题逻辑的答题方式,无法通过人工标准的方式对所有正确答案进行关键步骤标注,因此,现有技术无法对开放式的主观题进行机器自动阅卷,例如,一旦存在遗漏逻辑或表达方式的标准答案,则会导致匹配失败,然而该被遗漏的答案也是正确答案,造成计算机自动评阅结果不正确。此外,人工标注的关键步骤可能因为个人经验等因素导致标注的关键步骤不相同,也不易对各种可能的表达形式的答题步骤进行人工标注。
本实施例中,利用推导关系和/或人工标注的方式来确定关键步骤,例如,在缺乏人工标注信息时,由于可以通过推导关系表征答题者的答题逻辑,因此可以将步骤间关系为推导关系时对应的答题步骤作为关键步骤。当然,如果有人工标注的信息,可以使得关键步骤的识别更加全面。
具体地,上述评阅特征是针对每个题目的答题信息均提取,如关键步骤是否出现可以表现为一个多维的向量,每个维度分别表示该题中各个关键步骤是否出现;后两个特征可以同样处理。
步骤b,将待阅答题信息的答题信息间关系与所述参考答案的答题信息间关系进行比对,得到第一评阅特征。
该答题信息间关系可以理解为对待阅答题信息的语义理解过程,通过该过程可以得到表征答题逻辑的答题信息间关系,然后可以利用该答题信息间关系和参考答案的答题信息间关系进行比对,这样就可以得到该第一评阅特征,例如,关键步骤是否出现、关键步骤的推导关系是否充分、解答结果是否正确。
需要说明的是,上述这些特征的提取可以使用但不限于基于人工设计的特征提取方法和基于神经网络的特征提取方法。
步骤c,利用所述第一评阅特征及预先构建的评阅模型,得到所述待阅答题信息的评阅结果。
在本实施例中,基于已经提取的第一评阅特征,通过构建回归模型或分类模型来实现评分模型。回归模型可以使用线性回归模型和非线性回归模型。在步骤关系较为复杂的题型中,非线性回归模型的效果更好。
在一个具体实施例中,所述评阅模型为非线性回归模型,所述评阅模型的输出包括:评阅分数和/或评价。
需要说明的是,为了对较为复杂、水平较高的题型进行更加准确的批改,所述评阅模型还包括卷积层,所述卷积层的输入为答题步骤向量,所述卷积层的输出为第二评阅特征,包括不同粒度的步骤内及步骤间信息,通过调整卷积核参数和卷积层数训练所述评阅模型的卷积层。
所述利用所述第一评阅特征及预先构建的评阅模型,得到所述待阅答题信息的评阅结果包括:利用所述第一评阅特征、答题步骤向量及预先构建的评阅模型,得到所述待阅答题信息的评阅结果。
具体地,基于神经网络的特征提取方法主要是设计网络结构将相关特征信息嵌入神经网络的隐层,其对于较为复杂、水平较高的题型更有效。例如,采用具有卷积层的评阅模型抽取第二评阅特征,卷积层可以以词向量序列为输入,通过调整卷积核参数和卷积层数,抽取不同粒度的步骤内和步骤间信息,作为第二评阅特征。
也就是说,所述评阅模型可以是基于所述第一评阅特征得到评阅结果,也可以是将第一评阅特征,以及由答题步骤的词向量序列和卷积得到的第二评阅特征,共同到评阅模型的回归层,得到评阅结果。
需要说明的是,为了进一步提升答题步骤识别和获取步骤间关系的准确度,在得到答题步骤之后,所述方法还包括:
将答题步骤的数学表达形式转化为规约表示形式。
具体地,所述将答题步骤的数学表达形式转化为规约表示形式可以包括以下步骤:
步骤d、预先设定规约表示形式。
其中,考虑到数学语言主要是在表达数学实体之间的关系,本实施例中采用一阶谓词逻辑作为规约表示形式。所述一阶谓语逻辑可以通过可嵌套的基于多元组的表示形式进行表示,其中,多元组包括:谓语、以及数个论元关系:论元。所述多元组指谓语Predicate论元argument(1)…论元argument(n),其中,n为大于等于2的自然数。例如,AB平行于CD,Predicate为平行,argument分别为AB、CD;该可嵌套的多元组实质上可以理解为对三元组形式的扩展,包括:
1)论元的个数不限于两个,同时以“论元关系”来定义论元与谓语的关系,形式如:
谓语论元关系1:论元论元关系2:论元….论元关系n:论元。
2)结构可以嵌套,也就是说,论元可以为子三元组,形式如:
谓语论元关系:(谓语论元关系:论元)。
此外,一阶谓语逻辑的具体表现形式还可以用AMR抽象语义表示,对此本案不做限定。相应地,上述答题信息间关系包括:规约表示形式的答题步骤和步骤间关系。
步骤e、将答题步骤的数学表达形式翻译为规约表示形式。
从数学表达到规约表示形式的转化本质上是一种语言到另一种语言的翻译过程,因此本案参考机器网络的原理,将数学表达转化(也即翻译)为规约表示形式。具体可以采用预先训练的规约模型将数学表达形式翻译为规约表示形式,所述规约模型可以采用端到端的神经网络,其中,神经网络的输入为答题步骤,输出为树状规约表示。
在一个具体实施例中,采用端到端的神经网络模型来进行数学表达式到规约表示形式的转化,例如,端到端的神经网络模型可以编码器-解码器结构,编码器以双向LSTM为例,解码器以单向LSTM,模型的输入为一个步骤,模型的输出为规约表示,以树状形式的数据进行示例,如表示为:相交(线(AB,CD)),交点(O))。模型的训练相同于现有常见神经网络训练过程,在此不再详细阐述。
本发明实施例提供的数学主观题评阅方法,将答题步骤的数学表达形式转化为规约表示形式。由于数学答题信息中包含众多等价表达的情况,如“AB//CD”和“AB与CD平行”,为了能提高后续评阅的准确度,尤其是评分的精度,本发明还提出了一种将答题内容的表达方式归一化的方法,归一化的重点包括规约表示形式的设计、数学表达到规约表示的转化两大步;进一步地,所述规约表示形式为基于三元组的表示形式,这样有利于后续将步骤间关系以树的形式存储和展示。
本发明实施例提供的数学主观题解答结果的结构分析方法,在获取待阅答题的答题步骤、步骤间关系之后,由于答题步骤和步骤间关系可以表征答题者的答题逻辑,然后将答题者的答题逻辑和参考答案的答题逻辑进行比对,得到第一评阅特征,进而通过第一评阅特征对待解答题信息进行评阅,避免了现有技术无法对标准答案进行整理、扩展后,实现覆盖所有可能的答案,造成评阅结果不正确的情况发生,有效提升开放性题型的评阅结果的准确度。
相应地,如图3所示,是本发明实施例提供的数学主观题解答结果的结构分析系统的第一种结构示意图。
在本实施例中,该数学主观题解答结果的结构分析系统可以包括:
答题信息接收模块301,用于接收待阅答题信息;
分词模块302,用于对所述待阅答题信息进行分词处理;
答题步骤获取模块303,用于基于分词处理结果和预先构建的分步模型,得到待阅答题信息的答题步骤;
步骤间关系获取模块304,用于基于答题步骤向量、统计特征向量和预先训练的关系分析模型,得到步骤间关系,所述统计特征向量包括以下任意一种或多种:结构特征、引导词特征、步骤关联特征、关键词特征。
其中,所述分步模型可以为神经网络,包括:向量化模块、多层序列获取模块和分类模块,其中,向量化模块的输入为分词处理得到的词,向量化模块的输出为词向量序列,多层序列获取模块的输入为词向量序列,多层序列获取模块的输出为序列向量,分类模块的输入为序列向量,分类模块的输出为分词点作为分离步骤点的判断结果。
此外,所述关系分析模型可以为卷积神经网络。
所述关系分析模型可以包括:输入层、卷积层、分类层和输出层,其中,输入层的输入为答题步骤向量,卷积层为多层,卷积层的输出为用于确定步骤间关系的分布式特征向量,分类层的输入为分布式特征向量和基于规则提取的统计特征向量,输出层的输出为步骤间关系的判断结果。
进一步地,为了提升分词结果的准确度和有用度,所述系统还可以包括:
实体识别模块305,用于对所述待阅答题信息进行数学实体识别。
所述分词模块302具体用于基于所述数学实体识别结果对所述待阅答题信息进行分词处理。
当然,所述系统还可以进一步包括规约表示模块,将答题步骤表示为规约表示形式,具体如方法部分所述,在此不再详述。
本发明实施例提供的数学主观题解答结果的结构分析系统,通过步骤间关系获取模块304获取待阅答题的答题信息间关系,由于答题步骤和步骤间关系可以表征答题者的答题逻辑,这样使得本发明可以获取解答结果的答题逻辑,以便于后续根据答题者的答题逻辑和参考答案的答题逻辑进行比对,以评阅答题者的答题逻辑是否正确,利用本发明可以有效提升开放性题型的评阅结果的准确度。
如图4所示,是本发明实施例提供的数学主观题解答结果的结构分析系统的第二种结构示意图。
所述系统还用于获取正确答案的答题步骤和步骤间关系;所述系统还包括:
评阅模块401,用于将所述待阅答题信息的答题步骤、步骤间关系与所述正确答案的答题步骤、步骤间关系进行比对,得到评阅结果。
具体地,所述评阅模块401可以包括:第一评阅特征设定单元,用于预先设定第一评阅特征;第一评阅特征提取单元,用于提取第一评阅特征;评阅单元,用于根据第一评阅特征和预先构建的评阅模型,得到所述待阅答题信息的评阅结果。
在另一个实施例中,所述评阅模型还包括卷积层,该卷积层可以输出第二评阅特征,所述评阅单元具体用于根据第一评阅特征、答题步骤特征和预先构建的评阅模型,得到所述待阅答题信息的评阅结果。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域那些技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的实施例中包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是,上述实施例是对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (11)

1.一种数学主观题解答结果的结构分析方法,其特征在于,包括:
接收待阅答题信息,并对所述待阅答题信息进行分词处理;
基于分词处理结果和预先构建的分步模型,得到待阅答题信息的答题步骤;
基于答题步骤向量、统计特征向量和预先训练的关系分析模型,得到步骤间关系,所述统计特征向量包括以下任意一种或多种:结构特征、引导词特征、步骤关联特征、关键词特征。
2.根据权利要求1所述的方法,其特征在于,所述步骤间关系包括以下任意一种:推导、并列和重复。
3.根据权利要求1所述的方法,其特征在于,所述分步模型为神经网络,包括:向量化模块、多层序列获取模块和分类模块,其中,向量化模块的输入为分词处理得到的词,向量化模块的输出为词向量序列,多层序列获取模块的输入为词向量序列,多层序列获取模块的输出为序列向量,分类模块的输入为序列向量,分类模块的输出为分词点作为分离步骤点的判断结果。
4.根据权利要求1所述的方法,其特征在于,所述关系分析模型为卷积神经网络;
所述关系分析模型包括:输入层、卷积层、分类层和输出层,其中,输入层的输入为答题步骤向量,卷积层为多层,卷积层的输出为用于确定步骤间关系的分布式特征向量,分类层的输入为分布式特征向量和基于规则提取的统计特征向量,输出层的输出为步骤间关系的判断结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,在对所述待阅答题信息进行分词处理之前,所述方法还包括:
对所述待阅答题信息进行数学实体识别;
所述对所述待阅答题信息进行分词处理包括:
基于所述数学实体识别结果对所述待阅答题信息进行分词处理。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
对正确答案进行结构分析,得到正确答案的答题步骤和步骤间关系;
将所述待阅答题信息的答题步骤、步骤间关系与所述正确答案的答题步骤、步骤间关系进行比对,得到评阅结果。
7.一种数学主观题解答结果的结构分析系统,其特征在于,包括:
答题信息接收模块,用于接收待阅答题信息;
分词模块,用于对所述待阅答题信息进行分词处理;
答题步骤获取模块,用于基于分词处理结果和预先构建的分步模型,得到待阅答题信息的答题步骤;
步骤间关系获取模块,用于基于答题步骤向量、统计特征向量和预先训练的关系分析模型,得到步骤间关系,所述统计特征向量包括以下任意一种或多种:结构特征、引导词特征、步骤关联特征、关键词特征。
8.根据权利要求7所述的系统,其特征在于,所述分步模型为神经网络,包括:向量化模块、多层序列获取模块和分类模块,其中,向量化模块的输入为分词处理得到的词,向量化模块的输出为词向量序列,多层序列获取模块的输入为词向量序列,多层序列获取模块的输出为序列向量,分类模块的输入为序列向量,分类模块的输出为分词点作为分离步骤点的判断结果。
9.根据权利要求7所述的系统,其特征在于,所述关系分析模型为卷积神经网络;
所述关系分析模型包括:输入层、卷积层、分类层和输出层,其中,输入层的输入为答题步骤向量,卷积层为多层,卷积层的输出为用于确定步骤间关系的分布式特征向量,分类层的输入为分布式特征向量和基于规则提取的统计特征向量,输出层的输出为步骤间关系的判断结果。
10.根据权利要求7至9任一项所述的系统,其特征在于,所述系统还包括:
实体识别模块,用于对所述待阅答题信息进行数学实体识别;
所述分词模块具体用于基于所述数学实体识别结果对所述待阅答题信息进行分词处理。
11.根据权利要求7至9任一项所述的系统,其特征在于,
所述系统还用于获取正确答案的答题步骤和步骤间关系;
所述系统还包括:
评阅模块,用于将所述待阅答题信息的答题步骤、步骤间关系与所述正确答案的答题步骤、步骤间关系进行比对,得到评阅结果。
CN201711437050.6A 2017-12-26 2017-12-26 数学主观题解答结果的结构分析方法及系统 Active CN108052504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711437050.6A CN108052504B (zh) 2017-12-26 2017-12-26 数学主观题解答结果的结构分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711437050.6A CN108052504B (zh) 2017-12-26 2017-12-26 数学主观题解答结果的结构分析方法及系统

Publications (2)

Publication Number Publication Date
CN108052504A true CN108052504A (zh) 2018-05-18
CN108052504B CN108052504B (zh) 2020-11-20

Family

ID=62128118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711437050.6A Active CN108052504B (zh) 2017-12-26 2017-12-26 数学主观题解答结果的结构分析方法及系统

Country Status (1)

Country Link
CN (1) CN108052504B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192224A (zh) * 2018-09-14 2019-01-11 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109684980A (zh) * 2018-09-19 2019-04-26 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN110069783A (zh) * 2019-04-30 2019-07-30 科大讯飞股份有限公司 一种答题内容评测方法及装置
CN110110585A (zh) * 2019-03-15 2019-08-09 西安电子科技大学 基于深度学习的智能阅卷实现方法及系统、计算机程序
WO2020063347A1 (zh) * 2018-09-26 2020-04-02 杭州大拿科技股份有限公司 针对口算题的题目批改方法、装置、电子设备和存储介质
CN111444331A (zh) * 2020-03-12 2020-07-24 腾讯科技(深圳)有限公司 基于内容的分布式特征提取方法、装置、设备及介质
CN112287083A (zh) * 2020-10-29 2021-01-29 北京乐学帮网络技术有限公司 一种评阅方法、装置、计算机设备及存储装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096564A (zh) * 2016-06-17 2016-11-09 福建网龙计算机网络信息技术有限公司 一种数学自动批改方法
CN106131226A (zh) * 2016-08-31 2016-11-16 北京华云天科技有限公司 判断试题答案的方法和服务器
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107153640A (zh) * 2017-05-08 2017-09-12 成都准星云学科技有限公司 一种面向初等数学领域的分词方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096564A (zh) * 2016-06-17 2016-11-09 福建网龙计算机网络信息技术有限公司 一种数学自动批改方法
CN106131226A (zh) * 2016-08-31 2016-11-16 北京华云天科技有限公司 判断试题答案的方法和服务器
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107153640A (zh) * 2017-05-08 2017-09-12 成都准星云学科技有限公司 一种面向初等数学领域的分词方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192224A (zh) * 2018-09-14 2019-01-11 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109192224B (zh) * 2018-09-14 2021-08-17 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109684980A (zh) * 2018-09-19 2019-04-26 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN109684980B (zh) * 2018-09-19 2022-12-13 腾讯科技(深圳)有限公司 自动阅卷方法及装置
WO2020063347A1 (zh) * 2018-09-26 2020-04-02 杭州大拿科技股份有限公司 针对口算题的题目批改方法、装置、电子设备和存储介质
US11721229B2 (en) 2018-09-26 2023-08-08 Hangzhou Dana Technology Inc. Question correction method, device, electronic equipment and storage medium for oral calculation questions
CN110110585A (zh) * 2019-03-15 2019-08-09 西安电子科技大学 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN110069783A (zh) * 2019-04-30 2019-07-30 科大讯飞股份有限公司 一种答题内容评测方法及装置
CN110069783B (zh) * 2019-04-30 2023-05-30 科大讯飞股份有限公司 一种答题内容评测方法及装置
CN111444331A (zh) * 2020-03-12 2020-07-24 腾讯科技(深圳)有限公司 基于内容的分布式特征提取方法、装置、设备及介质
CN111444331B (zh) * 2020-03-12 2023-04-07 腾讯科技(深圳)有限公司 基于内容的分布式特征提取方法、装置、设备及介质
CN112287083A (zh) * 2020-10-29 2021-01-29 北京乐学帮网络技术有限公司 一种评阅方法、装置、计算机设备及存储装置

Also Published As

Publication number Publication date
CN108052504B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN108052504A (zh) 数学主观题解答结果的结构分析方法及系统
CN108121702A (zh) 数学主观题评阅方法及系统
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN108595602A (zh) 基于浅层模型与深度模型结合的问句文本分类方法
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN113204967B (zh) 简历命名实体识别方法及系统
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN104317882B (zh) 一种决策级中文分词融合方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
CN111324692A (zh) 基于人工智能的主观题自动评分方法和装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN108090099A (zh) 一种文本处理方法及装置
CN113420117B (zh) 一种基于多元特征融合的突发事件分类方法
CN107992482A (zh) 数学主观题解答步骤的规约方法及系统
Saha et al. The Corporeality of Infotainment on Fans Feedback Towards Sports Comment Employing Convolutional Long-Short Term Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180802

Address after: 311215 A-B102-930 room 198, road, Xiaoshan economic and Technological Development Zone, Xiaoshan District, Hangzhou.

Applicant after: Zhejiang flying Intelligent Technology Co., Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Applicant before: Iflytek Co., Ltd.

GR01 Patent grant
GR01 Patent grant