CN107480133A - 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 - Google Patents
一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 Download PDFInfo
- Publication number
- CN107480133A CN107480133A CN201710611571.2A CN201710611571A CN107480133A CN 107480133 A CN107480133 A CN 107480133A CN 201710611571 A CN201710611571 A CN 201710611571A CN 107480133 A CN107480133 A CN 107480133A
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- words
- core
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003044 adaptive effect Effects 0.000 title abstract description 5
- 238000004458 analytical method Methods 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims description 20
- 208000002982 auditory neuropathy Diseases 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013077 scoring method Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012552 review Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000004883 computer application Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Educational Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于答案蕴涵与依存关系的主观题自适应阅卷方法,包括以下步骤:1)进行题目分析;2)进行标准答案分析;3)进行学生答案分析;4)判断学生答案的中心词是否为动词;5)学生答案中心词为非动词的评卷;6)学生答案中心词为动词的评卷。首先通过依存关系确定疑问词在主观题题目中的句子成分及其与中心词所构成的依存关系;然后根据疑问词的句子成分确定标准答案与学生答案的核心语义;最后采用基于答案蕴涵、依存关系与词语相似度的方法,自适应学生答案对各种成分的省略,实现同一标准答案的不同回答方式的自适应评卷,进一步提高主观题评卷系统的准确率与实用性。因此,本发明在该领域具有广阔的应用前景。
Description
技术领域
本发明涉及教育技术与计算机应用技术领域中的考试阅卷自动化,具体是基于答案蕴涵与依存关系的主观题自适应阅卷方案,该方案将计算机作为工具,以随机输入的学生答案作为处理对象,实现自适应学生答题方式的主观题自动阅卷,可广泛应用于各个领域的主观题计算机自动阅卷系统中。
背景技术
考试试卷中的试题从答案组成的形式上,被普遍分为客观题与主观题两大类。答案以选项编号表示的单选题、多选题、判断题等试题被称为客观题,而答案采用自然语言表示的简答题、名词解释和论述题等试题被称为主观题。由于单选题、多选题、判断题等客观题目的答案都是以选项编号表示,目前计算机对于此类题型进行自动阅卷时,只需将标准答案的选项编号与学生答案的选项编号进行简单的匹配运算,匹配成功则答案正确,该处理技术已经取得较好的成果。但对于答案采用自然语言表示的主观题自动阅卷技术,如:对简答题、名词解释和论述题等自动评分,由于其受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不是很理想。
主观题不同于客观题,不仅需要采用自然语言表示答案,而且具有一定的主观性,允许学生在一定的范围内答题,因此答案往往不是唯一的,而且学生答题的方式会有多种形式。另一方面,教师在批阅试卷的时候,还可能会受到主观因素的影响,以及学生字体是否美观、卷面是否整洁等的影响,使得教师在评分时,出现不合理的加分或扣分现象,有失考试的公正性和公平性。主观题的计算机自动阅卷,既减轻了教师人工阅卷的劳动强度,又减少人为因素的影响,保证了阅卷的客观性、公正性,因此主观题计算机自动阅卷技术的研究,具有重要的意义。然而,由于主观题学生答案的多样性与随意性,目前还没有使用计算机对主观题进行自动阅卷的成熟技术。
目前,在各类计算机自动阅卷系统中,普遍采用关键字匹配技术进行主观题自动阅卷,即在答案中标注出若干关键字或关键词,将其与学生答案进行匹配,并根据匹配成功的多少对学生答案进行评分,由于自然语言的多样性与随意性,这种方法的评分准确率非常低。为提高评卷的准确率,目前出现了少量的基于句法分析与语义分析的主观题自动阅卷方法,这类评卷方法虽然可以在评卷过程中融入语义分析,提高评卷的准确率,但大多仍默认学生的答题方式与标准答案都是以完整的句子形式给出,并采用统一的基于句子相似度的方法进行评卷,这极大地限制了这类系统的应用范围与实用性。例如,对于简答题“在计算机中,硬盘安装在什么地方?”,目前的自动阅卷系统,多数会默认学生会以完整的句子进行回答,因此通常会给出标准答案“在计算机中,硬盘安装在主机箱中”或“硬盘安装在主机箱中”,并采用计算标准答案与学生答案的句子相似度的方式进行评卷。但事实上,不同的学生在回答该主观题时,会根据答题语境给出如下多种形式的回答:“在计算机中,硬盘安装在主机箱中”、“硬盘安装在主机箱中”、“安装在主机箱中”、“在主机箱中”、“主机箱中”,虽然后面三个回答也是正确的,但由于这三个回答都省略了若干句子成分,因此如果此时仍采用计算答案与答卷的句子相似度的方式进行评卷,就会产生误判。本发明提出的基于答案蕴涵与依存关系的主观题自适应阅卷方法,只需给出一个完整的标准答案,就可针对同一标准答案的不同回答方式,以答案蕴涵的形式,自动进行有针对性的评卷,从而可极大地增强计算机主观题评卷系统的自适应性与实用性。
发明内容
为提高基于句法分析与语义分析的主观题自动阅卷方法的自适应性与实用性,本发明的目的是提供一种基于答案蕴涵与依存关系的主观题自适应阅卷方法。通过依存关系确定疑问词在主观题题目中的句子成分及其与中心词所构成的依存关系,然后根据疑问词的句子成分确定标准答案与学生答案的核心语义,最后针对学生答案的不同形式,分别采用相应的基于答案蕴涵度、依存关系与词语相似度的评卷方法。
为了实现上述发明目的,本发明采用的技术方案为:
基于答案蕴涵与依存关系的主观题自适应阅卷方法,其特征在于包括如下阅卷步骤和评卷方法:
步骤1)进行题目分析,使用主观题题目的分类与处理方法,确定疑问词在题目中的句子成分,题目分析使用主观题题目的分类与处理方法,将主观题题目分为带疑问词的主观题题目和带疑问祈使词的主观题题目二大类,并事先所收集所有可能出现的疑问词与疑问祈使词,分别形成疑问词集合wh-words和疑问祈使词集合Prayers,然后按以下步骤对主观题题目进行分析与处理,
(1)根据事先所收集的疑问祈使词集合Prayers,判定该主观题题目是否以疑问祈使词开头,如果是以疑问祈使词开头,则确定该题目为带疑问祈使词的主观题题目,并采用带疑问祈使词的主观题题目处理方法对其进行相应的处理,然后结束主观题题目的分析与处理,如果主观题题目不是以疑问祈使词开头,则转步骤(2),
其中,带疑问祈使词的主观题题目处理的方法为:判断题目中是否还带有疑问词,如果题目中还带有疑问词,则直接删除疑问祈使词,按带疑问词的主观题题目进行处理,如果题目中不出现疑问词,则删除疑问祈使词,然后在其结尾处加上“是什么?”,再按带疑问词的主观题题目进行处理;
(2)根据事先所收集的疑问词集合wh-words,判定该主观题题目是否包含疑问词,如果包含疑问词,则确定该题目为带疑问词的主观题题目,并采用带疑问词的主观题题目处理方法对其进行相应的处理,然后结束主观题题目的分析与处理,如果主观题题目不包含疑问词,则转步骤(3),
其中,带疑问词的主观题题目处理的方法为:通过题目的依存句法分析,记录下疑问词所在的句子成分及其与中心词所构成的依存关系,
所述疑问词句子成分是指疑问词所在的依存关系链中,与中心词所构成的起始依存关系所代表的句子成分,记作Q_Depend,
所述疑问词依存关系链是指从以与中心词的依存关系为起点、疑问词为终点的依存关系链,记作Q_Link;
(3)提示教师该题目不包含疑问祈使词和疑问词,并要求教师对该题目进行修改,待教师为该题目添加疑问祈使词或疑问词后,转步骤(1);
所述带疑问祈使词的主观题题目是指题目中以疑问祈使词开头,并通过疑问祈使词引导提问的主观题题目;
所述带疑问词的主观题题目是指题目中出现疑问词但不出现疑问祈使词,并通过疑问词进行提问的主观题题目;
步骤2)进行标准答案分析,使用适用于主观题自适应阅卷的标准答案的结构定义及其语义提取方法,确定标准答案的核心语义与非核心语义,标准答案分析使用适用于主观题自适应阅卷的标准答案的结构定义及其语义提取方法,要求主观题的标准答案是一个语义最大化的完整的句子结构,使得它包含该答案的所有可能的正确回答的语义,以及包含题目除去疑问词和疑问祈使词之后的语义,
标准答案结构的具体定义及其语义的具体提取方法为:
(1)所述标准答案Key的语义最大化是指Key满足以下条件,
其中,Pure_Title表示主观题除去疑问词和疑问祈使词之后的题目,该Key表示主观题答案,n表示答案Key有n种形式的正确回答Answer1~Answern,{}表示集合,
(2)所述标准答案Key的核心语义是指在Key的依存句法树中,与中心词之间构成依存关系Q_Depend的子树所形成的短语,记作:Core(Key),且Core(Key)等于:
Core(Key)=Phrase(SubTree(Q_Depend))
其中,Q_Depend表示在主观题题目中,疑问词所在的句子成分与中心词之间所构成的依存关系;SubTree(Q_Depend)表示在Key的依存句法树中,与中心词之间构成依存关系Q_Depend的子树,函数Phrase()表示指定子树所构成的短语,
(3)所述标准答案Key的非核心语义是指在Key的依存句法树中,与中心词之间构成的所有非Q_Depend依存关系的子树所形成的短语集合,记作:NonCore(Key),且NonCore(Key)等于:
NonCore(Key)={Phrase(SubTree(D))|D∈Depend∧Depend≠Q_Depend}
其中,Q_Depend表示在主观题题目中,疑问词所在的句子成分与中心词之间所构成的依存关系,Depend为标准答案Key的中心词的所有依存关系集合,D为任意依存关系;
步骤3)进行学生答案分析,在学生答案输入后,使用适用于主观题自适应阅卷的学生答案分析方法,对学生答案进行分析,学生答案分析使用适用于主观题自适应阅卷的学生答案分析方法为:将对应同一标准答案的不同学生答案,分为中心词为动词和中心词为非动词的二大类学生答案,并对中心词为动词的学生答,按权利要求5所述标准答案分析中的方式,提取核心语义与非核心语义,分别记作:Core(Answer)和NonCore(Answer),
所述中心词为动词的学生答案是指在依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词为动词的学生答案,
所述中心词为非动词的学生答案是指在依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词为名词、形容词或介词的非动词的学生答案;
步骤4)判断学生答案的中心词是否为动词;
步骤5)如果学生答案中心词为非动词,则使用中心词为非动词的学生答案自动评卷方法进行评卷,得出学生答案得分,然后转步骤3等待学生答案输入,
中心词为非动词的学生答案的评卷方法为:根据学生答案对标准答案的核心语义中的实词集合的蕴涵程度及其分值权重,给出相应的分值,其计算过程为:
(1)使用如下的公式(1),计算中心词为非动词的学生答案Answer对标准答案Key的核心语义Core(Key)的蕴涵度,
其中,RWS代表标准答案Key的核心语义Core(Key)中的实词的集合,|RWS|代表集合RWS中的元素个数,ANS代表学生答案Answer中的实词的集合,match(i,ANS)代表RWS集合中的任意元素i在集合ANS中的匹配度;
(2)使用如下的公式(2),计算RWS集合中的任意元素i在集合ANS中的匹配度,
其中,sim(i,j)表示词语i和j基于领域本体或通用本体的语义相似度,且有sim(i,j)∈[0,1],TH为二个词语判定为同一个词的相似度阈值,本发明将该阈值设为0.9;(3)使用如下的公式(3)和(4),计算词语i和j基于领域本体或通用本体的语义相似度,
其中,Concept(i)表示词语i在领域本体或通用本体中的概念集合,Concept(i)×Concept(j)表示概念集合Concept(i)、Concept(j)之间的所有二元组,LCP(a,b)表示概念a和b在领域本体或通用本体中的最近公共父结点,Depth(LCP(a,b))表示最近公共父结点LCP(a,b)在领域本体或通用本体中的深度,Path(a,b)表示概念a和b在领域本体或通用本体中的最短路径,在本体选用方面,如果词语i和j都同时存在属于领域本体中的概念,则选取领域本体的层次结构作为计算相似度的知识库,否则选取通用本体的层次结构作为计算相似度的知识库;
(4)使用如下的公式(5)计算出该主观题的中心词为动词的学生答案得分Sc,
Sc=W×Emt(Answer,Core(Key)) (5)
其中,W表示该主观题的分值权重,Emt(Answer,Core(Key))表示按步骤(1)计算得到的学生答案Answer对标准答案Key的核心语义Core(Key)的蕴涵度;
所述实词是指名词、动词、形容词、数量词和代词;
所述答案蕴涵是指学生答案核心语义对标准答案核心语义的包含程度,或标准答案非核心语义对学生答案非核心语义的包含程度;
所述领域本体是指主观题评卷系统所评阅的试卷的学科领域本体,包括该领域的所有概念集合、概念的同义词集合及概念的分类层次结构;
所述通用本体是指跨领域学科的常识本体;
步骤6)如果学生答案中心词为动词,则使用中心词为动词的学生答案自动评卷方法进行评卷,得出学生答案得分,然后转步骤3等待学生答案输入,
中心词为动词的学生答案的评卷方法为综合考虑以下四方面的因素:
一、学生答案的核心语义对标准答案的核心语义中的实词集合的蕴涵度;
二、学生答案的非核心语义被标准答案的对应非核心语义所蕴涵的程度;
三、学生答案与标准答案之间的否定语气相似度;
四、学生答案与标准答案之间的中心词的相似度,
其计算过程为:
(1)使用如下的公式(6),计算中心词为动词的学生答案Answer的核心语义Core(Answer)对标准答案Key的核心语义Core(Key)的蕴涵度,
其中,RWS代表标准答案Key的核心语义Core(Key)中的实词的集合,|RWS|代表集合RWS中的元素个数,ANSC代表学生答案Answer的核心语义Core(Answer)中的实词的集合,match(i,ANSC)代表RWS集合中的任意元素i在集合ANSC中的匹配度,并采用权利要求7所述公式(2)、(3)、(4)对其进行计算,其中使用ANSC替换公式(2)中的ANS;
(2)使用如下的公式(7),计算学生答案的非核心语义被标准答案的对应非核心语义所蕴涵的程度,
其中,nonDEP表示学生答卷Answer中与中心词构成非核心语义的依存关系的集合,|nonDEP|表示该集合中依存关系的个数,K(d)表示在标准答案Key的依存句法树中,与中心词之间构成依存关系d的子树所形成的短语,A(d)表示在学生答案Answer的依存句法树中,与中心词之间构成依存关系d的子树所形成的短语;
(3)使用如下的公式(8),计算标准答案的非核心语义K(d)对学生答案的非核心语义A(d)的蕴涵度,
其中,ANSD代表学生答案的非核心语义A(d)中的实词的集合,|ANSD|代表集合ANSD中的元素个数,KEYD代表标准答案的非核心语义K(d)中的实词的集合,match(i,KRYD)代表ANSD集合中的任意元素i在集合KEYD中的匹配度,并采用权利要求7所述公式(2)、(3)、(4)对其进行计算,其中使用KEYD替换公式(2)中的ANS;
(4)使用如下的公式(9),计算学生答案Answer与标准答案Key之间的否定语气相似度,
其中,函数Neg()用于判定指定句子中的中心谓词是否与某一否定词存在否定依存关系Neg或mNeg,如果存在则返回1否则返回0;
(5)使用权利要求7所述公式(3)和(4),计算学生答案Answer与标准答案Key之间的中心词相似度Sim(Ha,Hk),其中,Ha,Hk分别代表学生答案Answer与标准答案Key的中心词;
(6)使用公式(10)、(11)分别计算出该主观题的中心词为动词学生答案的初始得分Sc1和最终得分Sc,
Sc1=α×Emt(Core(Answer),Core(Key))+β×Ems(Non(Key),Non(Answer))+λ×Sim(Ha,Hk) (10)
Sc=Sc1×Negative(Answer,Key)×W (11)
其中,设该主观题的分值权重为W,α、β、λ分别是蕴含函数Emt()、Ems()及相似度函数Sim(Ha,Hk)在公式(10)中的权重参数,且有α≥β、α≥λ、β≥0、λ≥0,α+β+λ=1,
所述学生答案的中心词是指其依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词,
所述依存关系是指以谓词为中心词构成的词与词之间的有关句法结构的语义关系,
所述依存句法分析是指将一个句子进行依存关系分析后生成的一棵有向语法树。
本发明具有以下优点:
本发明提出的基于答案蕴涵与依存关系的主观题自适应阅卷方法,充分利用了句子成分之间的语义依存关系,不受成分的物理位置影响,以及答案蕴涵的包容性的特点,进一步提高了基于句法分析与语义分析的主观题自动阅卷系统的自适应性与实用性,具体体现在:
(1)本发明提出的基于答案蕴涵与依存关系的主观题自适应阅卷方法,只需给出一个完整的标准答案,就可针对同一标准答案的不同回答方式,以答案蕴涵的形式,自动进行有针对性的评卷,提高了教师的出题效率与计算机的评卷效率。
(2)本发明在评卷过程中,通过依存句法分析所特有的中心词的否定依存关系,充分考虑了学生答案与标准答案之间的否定语气的相似性,如果一个为肯定语气而另一个为否定语气,则学生答案评定为0分,使得评卷系统更为贴近现实。
(3)本发明通过依存关系,确定疑问词在题目中的句子成分,进而确定标准答案的核心语义与非核心语义,使得评卷更有针对性,进一步提高了计算机评卷的准确性和可靠性。
因此,本发明在教育技术与计算机应用技术领域中的考试阅卷自动化领域具有广阔的应用前景。
附图说明:
图1为基于答案蕴涵与依存关系的主观题自适应阅卷流程;
图2为实施例1中的主观题题目的依存句法分析;
图3为实施例2中的主观题题目的依存句法分析;
图4为实施例2中的标准答案的依存句法分析;
图5为实施例2中的学生答案1的依存句法分析;
图6为实施例2中的学生答案2的依存句法分析。
具体实施方式
本发明通过实施例,结合说明书附图,对主观题自动评卷过程作进一步详细说明,但不是对本发明的限定。
实施例1
一种基于答案蕴涵与依存关系的主观题自适应阅卷方法,阅卷流程如图1所示,包括以下步骤:
1.主观题题目的分类与分析
本发明将主观题分为带疑问词的主观题和带疑问祈使词的主观题二大类,并对它们的题目分别进行相应的分析与处理。
(1)带疑问词的主观题
带疑问词的主观题是指题目中出现疑问词但不出现疑问祈使词,并通过疑问词进行提问的主观题题目的主观题。对于这一类主观题,本发明事先收集所有可能出现在主观题题目中的疑问词,并形成一个疑问词集合wh-words={什么,为什么,如何,怎样,哪,哪些,哪里,吗,…}。对这一类主观题题目的处理方式为:根据事先所收集的疑问词集合wh-words确定题目中的疑问词,然后通过对其题目的依存句法分析,记录下疑问词所在的句子成分及其与中心词所构成的依存关系。
定义1:句子的中心词是指依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词。
定义2:疑问词依存关系链是指从以与中心词的依存关系为起点、疑问词为终点的依存关系链,记作Q_Link。
定义3:疑问词句子成分是指疑问词所在的依存关系链中,与中心词所构成的起始依存关系所代表的句子成分,记作Q_Depend,如表1所示。
表1疑问词句子成分及其与中心词所构成的依存关系
【例】在计算机中,硬盘安装在什么地方?
通过如图2所示的依存句法分析,可知该主观题题目的中心词为“安装”,疑问词“什么”所在的依存关系链为:Q_Link=CMP(安装,在)->POB(在,地方)->ATT(地方,什么),疑问词所在的句子成分是疑问词依存关系链中,第一个与中心词的依存关系CMP所代表的句子成分:补语,记作Q_Depend=“CMP”。
(2)带疑问祈使词的主观题
带疑问祈使词的主观题是指题目中以疑问祈使词开头,并通过疑问祈使词引导提问的主观题,例如:简述计算机网络的定义。对于这一类主观题,本发明事先收集所有可能出现在主观题题目中的疑问祈使词,并形成一个疑问祈使词集合Prayers={简述,简答,简要说明,论述,请回答,…}。对这一类主观题题目的处理方式为:根据事先所收集的疑问祈使词集合Prayers,确定该主观题题目是否为带疑问祈使词的主观题题目,然后判断题目中是否还带有疑问词,如果题目中还带有疑问词,则直接删除疑问祈使词,按带疑问词的主观题题目处理;如果题目中不出现疑问词,则删除疑问祈使词,然后在其结尾处加上“是什么?”,再按带疑问词的主观题题目处理。
例如,对于主观题“请回答计算机网络的特点是什么?”,删除疑问祈使词“请回答”后,直接转为第一类主观题“计算机网络的特点是什么?”;而对于主观题“简述计算机网络的定义”,则删除疑问祈使词“简述”后,再在其结尾处加上“是什么?”,最终将其转为第一类主观题“计算机网络的定义是什么?”
本发明所述依存关系是指以谓词为中心词构成的词与词之间的有关句法结构的语义关系。
本发明所述依存句法分析是指将一个句子进行依存关系分析后生成的一棵有向语法树。本发明使用哈工大的《语言云》软件进行依存句法分析。
2.标准答案的结构定义与语义分析
本发明要求主观题的标准答案是一个语义最大化的完整的句子结构,使得它包含该答案的所有可能的正确回答的语义,以及包含题目除去疑问词和疑问祈使词之后的语义。
定义4:设主观题除去疑问词和疑问祈使词之后的题目为Pure_Title,该主观题答案Key有n种形式的正确回答Answer1~Answern,{}表示集合,则标准答案Key的语义最大化是指Key满足以下条件:
例如,对于例1,语义最大化的标准答案Key=“在计算机中,硬盘安装在主机箱中”。
定义5:设在主观题题目中,疑问词所在的句子成分与中心词之间所构成的依存关系为Q_Depend,则标准答案Key的核心语义是指在Key的依存句法树中,与中心词之间构成依存关系Q_Depend的子树所形成的短语,记作:Core(Key),且Core(Key)等于:
Core(Key)=Phrase(SubTree(Q_Depend))
其中,SubTree(Q_Depend)表示与中心词之间构成依存关系Q_Depend的子树,函数Phrase()表示指定子树所构成的短语。
定义6:设在主观题题目中,疑问词所在的句子成分与中心词之间所构成的依存关系为Q_Depend,Depend为标准答案Key的中心词的所有依存关系集合,D为任意依存关系,则标准答案Key的非核心语义是指在Key的依存句法树中,与中心词之间构成的所有非Q_Depend依存关系的子树所形成的短语集合,记作:NonCore(Key),且NonCore(Key)等于:
NonCore(Key)={Phrase(SubTree(D))|D∈Depend∧Depend1Q_Depend}
3.学生答案的分类与分析
本发明经过分析发现,对于同一个主观题的同一答案,会存在多种形式的学生正确回答。例如,对于例1的答案“在计算机中,硬盘安装在主机箱中”,存在6种形式的学生正确回答:“在计算机中,硬盘安装在主机箱中”、“硬盘安装在主机箱中”、“安装在主机箱中”、“硬盘在主机箱中”、“在主机箱中”、“主机箱中”、“主机箱”。对于这些不同形式的学生答案,本发明根据学生答案的依存句法分析,将同一标准答案的不同学生答案,分为中心词为动词和中心词为非动词的二大类学生答案,并分别对它们采取不同的处理方式和评卷方法。
(1)中心词为动词的学生答案:指在依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词为动词的学生答案。例如,对于例1,学生答案:“在计算机中,硬盘安装在主机箱中”与“硬盘安装在主机箱中”都是中心词为动词的学生答案。对于此类学生答案,要按标准答案分析中的方式,提取核心语义与非核心语义,分别记作:Core(Answer)和NonCore(Answer)。
(2)中心词为非动词的学生答案:指在依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词为名词、形容词或介词的非动词的学生答案。例如,对于例1,学生答案:“主机箱中”、“主机箱”等中心词为名词;而答案“在主机箱中”的中心词为介词“在”,它们都是中心词都为非动词的学生答案。
4.中心词为非动词的主观题学生答案的自动评卷
对于中心词为非动词的主观题学生答案,本发明认为该答案只包含核心语义而省略了所有非核心语义,因此本发明对于中心词为非动词的主观题学生答案的评卷方法为:根据学生答案对标准答案的核心语义中的实词集合的蕴涵程度及其分值权重,给出相应的分值。其计算过程为:
(1)使用如下的公式(1),计算中心词为非动词的学生答案Answer对标准答案Key的核心语义Core(Key)的蕴涵度:
其中,RWS代表标准答案Key的核心语义Core(Key)中的实词的集合,|RWS|代表集合RWS中的元素个数,ANS代表学生答案Answer中的实词的集合,match(i,ANS)代表RWS集合中的任意元素i在集合ANS中的匹配度。
(2)使用如下的公式(2),计算RWS集合中的任意元素i在集合ANS中的匹配度:
其中,sim(i,j)表示词语i和j基于领域本体或通用本体的语义相似度,且有sim(i,j)∈[0,1],TH为二个词语判定为同一个词的相似度阈值,本发明将该阈值设为0.9。(3)使用如下的公式(3)和(4),计算词语i和j基于领域本体或通用本体的语义相似度:
其中,Concept(i)表示词语i在领域本体或通用本体中的概念集合,Concept(i)×Concept(j)表示概念集合Concept(i)、Concept(j)之间的所有二元组,LCP(a,b)表示概念a和b在领域本体或通用本体中的最近公共父结点,Depth(LCP(a,b))表示最近公共父结点LCP(a,b)在领域本体或通用本体中的深度,Path(a,b)表示概念a和b在领域本体或通用本体中的最短路径。在本体选用方面,如果词语i和j都同时存在属于领域本体中的概念,则选取领域本体的层次结构作为计算相似度的知识库,否则选取通用本体的层次结构作为计算相似度的知识库。
(4)设该主观题的分值权重为W,则按公式(5)计算出该主观题的中心词为动词的学生答案得分Sc:
Sc=W×Emt(Answer,Core(Key)) (5)
其中,Emt(Answer,Core(Key))表示按步骤(1)计算得到的学生答案Answer对标准答案Key的核心语义Core(Key)的蕴涵度。
本发明所述实词是指名词、动词、形容词、数量词和代词。
本发明所述答案蕴涵是指学生答案核心语义对标准答案核心语义的包含程度,或标准答案非核心语义对学生答案非核心语义的包含程度。
本发明所述领域本体是指主观题评卷系统所评阅的试卷的学科领域本体,包括该领域的所有概念集合、概念的同义词集合及概念的分类层次结构。
本发明所述通用本体是指跨领域学科的常识本体,如中科院的《知网》和哈工大的《同义词词林扩展版》。
5.中心词为动词的主观题学生答案的自动评卷
本发明对于中心词为动词的主观题学生答案的评卷,综合考虑了以下四方面的因素:(1)学生答案的核心语义对标准答案的核心语义中的实词集合的蕴涵度;(2)学生答案的非核心语义被标准答案的对应非核心语义所蕴涵的程度;(3)学生答案与标准答案之间的否定语气相似度;(4)学生答案与标准答案之间的中心词的相似度。其计算过程为:
(1)使用如下的公式(6),计算中心词为动词的学生答案Answer的核心语义Core(Answer)对标准答案Key的核心语义Core(Key)的蕴涵度:
其中,RWS代表标准答案Key的核心语义Core(Key)中的实词的集合,|RWS|代表集合RWS中的元素个数,ANSC代表学生答案Answer的核心语义Core(Answer)中的实词的集合,match(i,ANSC)代表RWS集合中的任意元素i在集合ANSC中的匹配度,并采用第4节中的公式(2)、(3)、(4)对其进行计算,其中使用ANSC替换公式(2)中的ANS。
(3)使用如下的公式(7),计算学生答案的非核心语义被标准答案的对应非核心语义所蕴涵的程度:
其中,nonDEP表示学生答卷Answer中与中心词构成非核心语义的依存关系的集合,|nonDEP|表示该集合中依存关系的个数,K(d)表示在标准答案Key的依存句法树中,与中心词之间构成依存关系d的子树所形成的短语,A(d)表示在学生答案Answer的依存句法树中,与中心词之间构成依存关系d的子树所形成的短语。
(4)使用如下的公式(8),计算标准答案的非核心语义K(d)对学生答案的非核心语义A(d)的蕴涵度:
其中,ANSD代表学生答案的非核心语义A(d)中的实词的集合,|ANSD|代表集合ANSD中的元素个数,KEYD代表标准答案的非核心语义K(d)中的实词的集合,match(i,KRYD)代表ANSD集合中的任意元素i在集合KEYD中的匹配度,并采用第4节中的公式(2)、(3)、(4)对其进行计算。
(5)使用如下的公式(9),计算学生答案Answer与标准答案Key之间的否定语气相似度:
其中,函数Neg()用于判定指定句子中的中心谓词是否与某一否定词存在否定依存关系Neg或mNeg,如果存在则返回1否则返回0。
(6)使用公式(3)和(4),计算学生答案Answer与标准答案Key之间的中心词相似度Sim(Ha,Hk),其中,Ha,Hk分别代表学生答案Answer与标准答案Key的中心词。
(7)设该主观题的分值权重为W,则按公式(10)、(11)分别计算出该主观题的中心词为动词学生答案的初始得分Sc1和最终得分Sc:
Sc1=α×Emt(Core(Answer),Core(Key))+β×Ems(Non(Key),Non(Answer))+λ×Sim(Ha,Hk) (10)
Sc=Sc1×Negative(Answer,Key)×W (11)
其中,α、β、λ分别是蕴含函数Emt()、Ems()及相似度函数Sim(Ha,Hk)在公式(10)中的权重参数,且有α≥β、α≥λ、β≥0、λ≥0,α+β+λ=1。
实施例2
基于答案蕴涵与依存关系的主观题自适应阅卷方法对主观题题目为“网络拓扑结构类型主要有哪几种?”的自动评卷过程:
设主观题题目为“网络拓扑结构类型主要有哪几种?”,分值为10分,对应的语义最大化的标准答案为“网络拓扑结构类型主要有星型、环形、总线型和层次型”;并设在计算机网络领域本体中“层次型”与“树型”为同义词,在《同义词词林》中,通过公式(3)和(4)计算,动词“有”和“包括”之间的相似度为0.5;以及在公式(11)中,设α=0.5,λ=β=0.25,试对以下学生答案进行评阅:
(1)学生答案1:环型、树型、星型
(2)学生答案2:网络拓扑结构包括星型、总线型和层次型
根据图1,评卷过程为:
(1)对主观题题目进行依存句法分析,得出疑问词在题目中的句子成分为宾语,该成分与中心词所构成的依存关系为VOB,如图3所示。
(2)对标准答案进行依存句法分析,如图4所示,根据疑问词在题目中的句子成分为宾语,可以得出该标准答案的核心语义为:
Core(Key)=Phrase(SubTree(VOB))=“星型、环形、总线型和层次型”
标准答案的非核心语义为:
NonCore(Key)={Phrase(SubTree(SBV)),Phrase(SubTree(ADV))}
={“网络拓扑结构类型”,“主要”}
(3)对学生答案1进行依存句法分析,如图5所示,可得该答案的中心词为名词,因此采用学生答案中心词为非动词的方法对其进行评卷。
(4)利用公式(1)、(2)计算学生答案1的实词集合ANS={环型,树型,星型}对标准答案中的核心语义的实词集合Core(Key)={星型,环形,总线型,层次型}的蕴涵度。由于在领域本体中“层次型”与“树型”为同义词,因此根据公式(1)、(2),可得:
(5)根据该主观题的分值权重,利用公式(5),得到学生答案1的得分Sc:
Sc=10×0.75=7.5
(6)对学生答案2进行依存句法分析,如图6所示,可得该答案的中心词为动词,提取学生答案的核心语义为:
Core(Answer)=Phrase(SubTree(VOB))=“星型、总线型和层次型”
学生答案的非核心语义为:
NonCore(Answer)=Phrase(SubTree(SBV))=“网络拓扑结构”
采用学生答案中心词为动词的方法对其进行评卷。
(7)使用公式(6)计算学生答案2的核心语义Core(Answer)对标准答案核心语义Core(Key)的蕴涵度:
(8)使用公式(7),计算学生答案的非核心语义被标准答案的对应非核心语义所蕴涵的程度:
(9)标准答案与学生答案2都为肯定句,因此有Neg(Answer)=Neg(Key)=0,根据公式(9),可得学生答案2与标准答案间的否定语气相似度Negative(Answer,Key)=1。
(10)根据已知条件,可得学生答案2与标准答案之间的中心词相似度Sim(Ha,Hk)=0.5
(11)根据公式(10)可得学生答案2的初始得分Sc1为:
Sc1=0.5×0.75+0.25×1+0.25×0.5=0.75
(12)根据公式(11)可得学生答案2的最终得分Sc为:
Sc=0.75×1×10=7.5。
Claims (8)
1.一种基于答案蕴涵与依存关系的主观题自适应阅卷方法,其特征在于包括如下阅卷步骤和评卷方法:
步骤1)进行题目分析,使用主观题题目的分类与处理方法,确定疑问词在题目中的句子成分;
步骤2)进行标准答案分析,使用适用于主观题自适应阅卷的标准答案的结构定义及其语义提取方法,确定标准答案的核心语义与非核心语义;
步骤3)进行学生答案分析,在学生答案输入后,使用适用于主观题自适应阅卷的学生答案分析方法,对学生答案进行分析;
步骤4)判断学生答案的中心词是否为动词;
步骤5)如果学生答案中心词为非动词,则使用中心词为非动词的学生答案自动评卷方法进行评卷,得出学生答案得分,然后转步骤3等待学生答案输入;
步骤6)如果学生答案中心词为动词,则使用中心词为动词的学生答案自动评卷方法进行评卷,得出学生答案得分,然后转步骤3等待学生答案输入。
所述学生答案的中心词是指其依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词,
所述依存关系是指以谓词为中心词构成的词与词之间的有关句法结构的语义关系,
所述依存句法分析是指将一个句子进行依存关系分析后生成的一棵有向语法树。
2.根据权利要求1所述的主观题自适应阅卷方法,其特征在于:所述步骤1)题目分析使用主观题题目的分类与处理方法,将主观题题目分为带疑问词的主观题题目和带疑问祈使词的主观题题目二大类,并事先所收集所有可能出现的疑问词与疑问祈使词,分别形成疑问词集合wh-words和疑问祈使词集合Prayers,然后按以下步骤对主观题题目进行分析与处理,
(1)根据事先所收集的疑问祈使词集合Prayers,判定该主观题题目是否以疑问祈使词开头,如果是以疑问祈使词开头,则确定该题目为带疑问祈使词的主观题题目,并采用带疑问祈使词的主观题题目处理方法对其进行相应的处理,然后结束主观题题目的分析与处理,如果主观题题目不是以疑问祈使词开头,则转步骤(2);
(2)根据事先所收集的疑问词集合wh-words,判定该主观题题目是否包含疑问词,如果包含疑问词,则确定该题目为带疑问词的主观题题目,并采用带疑问词的主观题题目处理方法对其进行相应的处理,然后结束主观题题目的分析与处理,如果主观题题目不包含疑问词,则转步骤(3);
(3)提示教师该题目不包含疑问祈使词和疑问词,并要求教师对该题目进行修改,待教师为该题目添加疑问祈使词或疑问词后,转步骤(1);
所述带疑问祈使词的主观题题目是指题目中以疑问祈使词开头,并通过疑问祈使词引导提问的主观题题目;
所述带疑问词的主观题题目是指题目中出现疑问词但不出现疑问祈使词,并通过疑问词进行提问的主观题题目。
3.根据权利要求2所述的主观题自适应阅卷方法,其特征在于:所述步骤(1)带疑问祈使词的主观题题目处理的方法为:判断题目中是否还带有疑问词,如果题目中还带有疑问词,则直接删除疑问祈使词,按带疑问词的主观题题目进行处理,如果题目中不出现疑问词,则删除疑问祈使词,然后在其结尾处加上“是什么?”,再按带疑问词的主观题题目进行处理。
4.根据权利要求2所述的主观题自适应阅卷方法,其特征在于:所述步骤(2)带疑问词的主观题题目处理的方法为:通过题目的依存句法分析,记录下疑问词所在的句子成分及其与中心词所构成的依存关系,
所述疑问词句子成分是指疑问词所在的依存关系链中,与中心词所构成的起始依存关系所代表的句子成分,记作Q_Depend,
所述疑问词依存关系链是指从以与中心词的依存关系为起点、疑问词为终点的依存关系链,记作Q_Link。
5.根据权利要求1所述的主观题自适应阅卷方法,其特征在于:所述步骤2)标准答案分析使用适用于主观题自适应阅卷的标准答案的结构定义及其语义提取方法,要求主观题的标准答案是一个语义最大化的完整的句子结构,使得它包含该答案的所有可能的正确回答的语义,以及包含题目除去疑问词和疑问祈使词之后的语义,
标准答案结构的具体定义及其语义的具体提取方法为:
(1)所述标准答案Key的语义最大化是指Key满足以下条件,
其中,Pure_Title表示主观题除去疑问词和疑问祈使词之后的题目,该Key表示主观题答案,n表示答案Key有n种形式的正确回答Answer1~Answern,{}表示集合,
(2)所述标准答案Key的核心语义是指在Key的依存句法树中,与中心词之间构成依存关系Q_Depend的子树所形成的短语,记作:Core(Key),且Core(Key)等于:
Core(Key)=Phrase(SubTree(Q_Depend))
其中,Q_Depend表示在主观题题目中,疑问词所在的句子成分与中心词之间所构成的依存关系;SubTree(Q_Depend)表示在Key的依存句法树中,与中心词之间构成依存关系Q_Depend的子树,函数Phrase()表示指定子树所构成的短语,
(3)所述标准答案Key的非核心语义是指在Key的依存句法树中,与中心词之间构成的所有非Q_Depend依存关系的子树所形成的短语集合,记作:NonCore(Key),且NonCore(Key)等于:
NonCore(Key)={Phrase(SubTree(D))|D∈Depend∧Depend≠Q_Depend}
其中,Q_Depend表示在主观题题目中,疑问词所在的句子成分与中心词之间所构成的依存关系,Depend为标准答案Key的中心词的所有依存关系集合,D为任意依存关系。
6.根据权利要求1所述的主观题自适应阅卷方法,其特征在于:所述步骤3)学生答案分析使用适用于主观题自适应阅卷的学生答案分析方法为:将对应同一标准答案的不同学生答案,分为中心词为动词和中心词为非动词的二大类学生答案,并对中心词为动词的学生答,按权利要求5所述标准答案分析中的方式,提取核心语义与非核心语义,分别记作:Core(Answer)和NonCore(Answer),
所述中心词为动词的学生答案是指在依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词为动词的学生答案,
所述中心词为非动词的学生答案是指在依存句法分析中,与根结点<root>构成HED或ROOT依存关系的词为名词、形容词或介词的非动词的学生答案。
7.根据权利要求1所述的主观题自适应阅卷方法,其特征在于:所述步骤5)中心词为非动词的学生答案的评卷方法为:根据学生答案对标准答案的核心语义中的实词集合的蕴涵程度及其分值权重,给出相应的分值,其计算过程为:
(1)使用如下的公式(1),计算中心词为非动词的学生答案Answer对标准答案Key的核心语义Core(Key)的蕴涵度,
<mrow>
<mi>E</mi>
<mi>m</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mi>n</mi>
<mi>s</mi>
<mi>w</mi>
<mi>e</mi>
<mi>r</mi>
<mo>,</mo>
<mi>C</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mo>(</mo>
<mrow>
<mi>k</mi>
<mi>e</mi>
<mi>y</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>R</mi>
<mi>W</mi>
<mi>S</mi>
</mrow>
</msub>
<mi>m</mi>
<mi>a</mi>
<mi>t</mi>
<mi>c</mi>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>A</mi>
<mi>N</mi>
<mi>S</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mi>R</mi>
<mi>W</mi>
<mi>S</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,RWS代表标准答案Key的核心语义Core(Key)中的实词的集合,|RWS|代表集合RWS中的元素个数,ANS代表学生答案Answer中的实词的集合,match(i,ANS)代表RWS集合中的任意元素i在集合ANS中的匹配度;
(2)使用如下的公式(2),计算RWS集合中的任意元素i在集合ANS中的匹配度,
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>t</mi>
<mi>c</mi>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>A</mi>
<mi>N</mi>
<mi>S</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
<mo>&Exists;</mo>
<mi>j</mi>
<mo>&Element;</mo>
<mi>A</mi>
<mi>N</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mo>)</mo>
<mo>&GreaterEqual;</mo>
<mi>T</mi>
<mi>H</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,sim(i,j)表示词语i和j基于领域本体或通用本体的语义相似度,且有sim(i,j)∈[0,1],TH为二个词语判定为同一个词的相似度阈值,本发明将该阈值设为0.9;
(3)使用如下的公式(3)和(4),计算词语i和j基于领域本体或通用本体的语义相似度,
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>max</mi>
<mrow>
<mrow>
<mo>(</mo>
<mrow>
<mi>a</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>&Element;</mo>
<mi>C</mi>
<mi>o</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mi>p</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mi>C</mi>
<mi>o</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mi>p</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<mo>{</mo>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>a</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>}</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>,</mo>
<mi>b</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>D</mi>
<mi>e</mi>
<mi>p</mi>
<mi>t</mi>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>C</mi>
<mi>P</mi>
<mo>(</mo>
<mrow>
<mi>a</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>D</mi>
<mi>e</mi>
<mi>p</mi>
<mi>t</mi>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>C</mi>
<mi>P</mi>
<mo>(</mo>
<mrow>
<mi>a</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
<mo>+</mo>
<mn>0.5</mn>
<mo>&times;</mo>
<mi>p</mi>
<mi>a</mi>
<mi>t</mi>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>,</mo>
<mi>b</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,Concept(i)表示词语i在领域本体或通用本体中的概念集合,Concept(i)×Concept(j)表示概念集合Concept(i)、Concept(j)之间的所有二元组,LCP(a,b)表示概念a和b在领域本体或通用本体中的最近公共父结点,Depth(LCP(a,b))表示最近公共父结点LCP(a,b)在领域本体或通用本体中的深度,Path(a,b)表示概念a和b在领域本体或通用本体中的最短路径,在本体选用方面,如果词语i和j都同时存在属于领域本体中的概念,则选取领域本体的层次结构作为计算相似度的知识库,否则选取通用本体的层次结构作为计算相似度的知识库;
(4)使用如下的公式(5)计算出该主观题的中心词为动词的学生答案得分Sc,
Sc=W×Emt(Answer,Core(Key)) (5)
其中,W表示该主观题的分值权重,Emt(Answer,Core(Key))表示按步骤(1)计算得到的学生答案Answer对标准答案Key的核心语义Core(Key)的蕴涵度;
所述实词是指名词、动词、形容词、数量词和代词;
所述答案蕴涵是指学生答案核心语义对标准答案核心语义的包含程度,或标准答案非核心语义对学生答案非核心语义的包含程度;
所述领域本体是指主观题评卷系统所评阅的试卷的学科领域本体,包括该领域的所有概念集合、概念的同义词集合及概念的分类层次结构;
所述通用本体是指跨领域学科的常识本体。
8.根据权利要求1所述的主观题自适应阅卷方法,其特征在于:所述步骤6)中心词为动词的学生答案的评卷方法为综合考虑以下四方面的因素:
一、学生答案的核心语义对标准答案的核心语义中的实词集合的蕴涵度;
二、学生答案的非核心语义被标准答案的对应非核心语义所蕴涵的程度;
三、学生答案与标准答案之间的否定语气相似度;
四、学生答案与标准答案之间的中心词的相似度,
其计算过程为:
(1)使用如下的公式(6),计算中心词为动词的学生答案Answer的核心语义Core(Answer)对标准答案Key的核心语义Core(Key)的蕴涵度,
<mrow>
<mi>E</mi>
<mi>m</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mo>(</mo>
<mrow>
<mi>A</mi>
<mi>n</mi>
<mi>s</mi>
<mi>w</mi>
<mi>e</mi>
<mi>r</mi>
</mrow>
<mo>)</mo>
<mo>,</mo>
<mi>C</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mo>(</mo>
<mrow>
<mi>K</mi>
<mi>e</mi>
<mi>y</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>R</mi>
<mi>W</mi>
<mi>S</mi>
</mrow>
</msub>
<mi>m</mi>
<mi>a</mi>
<mi>t</mi>
<mi>c</mi>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>A</mi>
<mi>N</mi>
<mi>S</mi>
<mi>C</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mi>R</mi>
<mi>W</mi>
<mi>S</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,RWS代表标准答案Key的核心语义Core(Key)中的实词的集合,|RWS|代表集合RWS中的元素个数,ANSC代表学生答案Answer的核心语义Core(Answer)中的实词的集合,match(i,ANSC)代表RWS集合中的任意元素i在集合ANSC中的匹配度,并采用权利要求7所述公式(2)、(3)、(4)对其进行计算,其中使用ANSC替换公式(2)中的ANS;
(2)使用如下的公式(7),计算学生答案的非核心语义被标准答案的对应非核心语义所蕴涵的程度,
<mrow>
<mi>E</mi>
<mi>m</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>N</mi>
<mi>o</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>K</mi>
<mi>e</mi>
<mi>y</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>N</mi>
<mi>o</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>A</mi>
<mi>n</mi>
<mi>s</mi>
<mi>w</mi>
<mi>e</mi>
<mi>r</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>d</mi>
<mo>&Element;</mo>
<mi>n</mi>
<mi>o</mi>
<mi>n</mi>
<mi>D</mi>
<mi>E</mi>
<mi>P</mi>
</mrow>
</msub>
<mi>E</mi>
<mi>m</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>K</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>A</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mi>n</mi>
<mi>o</mi>
<mi>n</mi>
<mi>D</mi>
<mi>E</mi>
<mi>P</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,nonDEP表示学生答卷Answer中与中心词构成非核心语义的依存关系的集合,|nonDEP|表示该集合中依存关系的个数,K(d)表示在标准答案Key的依存句法树中,与中心词之间构成依存关系d的子树所形成的短语,A(d)表示在学生答案Answer的依存句法树中,与中心词之间构成依存关系d的子树所形成的短语;
(3)使用如下的公式(8),计算标准答案的非核心语义K(d)对学生答案的非核心语义A(d)的蕴涵度,
<mrow>
<mi>E</mi>
<mi>m</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>K</mi>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
<mo>,</mo>
<mi>A</mi>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>A</mi>
<mi>N</mi>
<mi>S</mi>
<mi>D</mi>
</mrow>
</msub>
<mi>m</mi>
<mi>a</mi>
<mi>t</mi>
<mi>c</mi>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>K</mi>
<mi>E</mi>
<mi>Y</mi>
<mi>D</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mi>A</mi>
<mi>N</mi>
<mi>S</mi>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ANSD代表学生答案的非核心语义A(d)中的实词的集合,|ANSD|代表集合ANSD中的元素个数,KEYD代表标准答案的非核心语义K(d)中的实词的集合,match(i,KRYD)代表ANSD集合中的任意元素i在集合KEYD中的匹配度,并采用权利要求7所述公式(2)、(3)、(4)对其进行计算,其中使用KEYD替换公式(2)中的ANS;
(4)使用如下的公式(9),计算学生答案Answer与标准答案Key之间的否定语气相似度,
<mrow>
<mi>N</mi>
<mi>e</mi>
<mi>g</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>v</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mi>n</mi>
<mi>s</mi>
<mi>w</mi>
<mi>e</mi>
<mi>r</mi>
<mo>,</mo>
<mi>K</mi>
<mi>e</mi>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
<mi> </mi>
<mi>N</mi>
<mi>e</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>A</mi>
<mi>n</mi>
<mi>s</mi>
<mi>w</mi>
<mi>e</mi>
<mi>r</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>N</mi>
<mi>e</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>K</mi>
<mi>e</mi>
<mi>y</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,函数Neg()用于判定指定句子中的中心谓词是否与某一否定词存在否定依存关系Neg或mNeg,如果存在则返回1否则返回0;
(5)使用权利要求7所述公式(3)和(4),计算学生答案Answer与标准答案Key之间的中心词相似度Sim(Ha,Hk),其中,Ha,Hk分别代表学生答案Answer与标准答案Key的中心词;
(6)使用公式(10)、(11)分别计算出该主观题的中心词为动词学生答案的初始得分Sc1和最终得分Sc,
Sc1=α×Emt(Core(Answer),Core(Key))+β×Ems(Non(Key),Non(Answer))+λ×Sim(Ha,Hk) (10)
Sc=Sc1×Negative(Answer,Key)×W (11)
其中,设该主观题的分值权重为W,α、β、λ分别是蕴含函数Emt()、Ems()及相似度函数Sim(Ha,Hk)在公式(10)中的权重参数,且有α≥β、α≥λ、β≥0、λ≥0,α+β+λ=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710611571.2A CN107480133B (zh) | 2017-07-25 | 2017-07-25 | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710611571.2A CN107480133B (zh) | 2017-07-25 | 2017-07-25 | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480133A true CN107480133A (zh) | 2017-12-15 |
CN107480133B CN107480133B (zh) | 2020-07-28 |
Family
ID=60595806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710611571.2A Active CN107480133B (zh) | 2017-07-25 | 2017-07-25 | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480133B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446277A (zh) * | 2018-03-27 | 2018-08-24 | 北京大前科技有限责任公司 | 模拟学习的方法及装置 |
CN108595427A (zh) * | 2018-04-24 | 2018-09-28 | 成都海天数联科技有限公司 | 一种主观题评分方法、装置、可读存储介质以及电子设备 |
CN108764074A (zh) * | 2018-05-14 | 2018-11-06 | 山东师范大学 | 基于深度学习的主观题智能阅卷方法、系统及存储介质 |
CN109344385A (zh) * | 2018-01-30 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN110033022A (zh) * | 2019-03-08 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 文本的处理方法、装置和存储介质 |
CN110245860A (zh) * | 2019-06-13 | 2019-09-17 | 桂林电子科技大学 | 一种基于虚拟实验平台的自动评分的方法 |
CN110555205A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 否定语义识别方法及装置、电子设备、存储介质 |
CN112906400A (zh) * | 2021-02-24 | 2021-06-04 | 福建工程学院 | 一种基于领域本体和语义依存树的主观题自动评分方法 |
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955874A (zh) * | 2014-03-31 | 2014-07-30 | 西南林业大学 | 一种基于语义相似度区间的主观题自动评分系统及方法 |
CN104504023A (zh) * | 2014-12-12 | 2015-04-08 | 广西师范大学 | 一种基于领域本体的高准确率主观题计算机自动阅卷方法 |
US20150161996A1 (en) * | 2013-12-10 | 2015-06-11 | Google Inc. | Techniques for discriminative dependency parsing |
CN105528349A (zh) * | 2014-09-29 | 2016-04-27 | 华为技术有限公司 | 知识库中问句解析的方法及设备 |
-
2017
- 2017-07-25 CN CN201710611571.2A patent/CN107480133B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150161996A1 (en) * | 2013-12-10 | 2015-06-11 | Google Inc. | Techniques for discriminative dependency parsing |
CN103955874A (zh) * | 2014-03-31 | 2014-07-30 | 西南林业大学 | 一种基于语义相似度区间的主观题自动评分系统及方法 |
CN105528349A (zh) * | 2014-09-29 | 2016-04-27 | 华为技术有限公司 | 知识库中问句解析的方法及设备 |
CN104504023A (zh) * | 2014-12-12 | 2015-04-08 | 广西师范大学 | 一种基于领域本体的高准确率主观题计算机自动阅卷方法 |
Non-Patent Citations (1)
Title |
---|
唐素勤 等: "基于依存语法及本体技术的问句分析", 《广西师范大学学报:自然科学版》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344385A (zh) * | 2018-01-30 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN109344385B (zh) * | 2018-01-30 | 2020-12-22 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN108446277A (zh) * | 2018-03-27 | 2018-08-24 | 北京大前科技有限责任公司 | 模拟学习的方法及装置 |
CN108446277B (zh) * | 2018-03-27 | 2021-08-17 | 北京大前科技有限责任公司 | 模拟学习的方法及装置 |
CN108595427A (zh) * | 2018-04-24 | 2018-09-28 | 成都海天数联科技有限公司 | 一种主观题评分方法、装置、可读存储介质以及电子设备 |
CN108595427B (zh) * | 2018-04-24 | 2021-06-08 | 成都海天数联科技有限公司 | 一种主观题评分方法、装置、可读存储介质以及电子设备 |
CN108764074A (zh) * | 2018-05-14 | 2018-11-06 | 山东师范大学 | 基于深度学习的主观题智能阅卷方法、系统及存储介质 |
CN108764074B (zh) * | 2018-05-14 | 2019-03-19 | 山东师范大学 | 基于深度学习的主观题智能阅卷方法、系统及存储介质 |
CN110555205A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 否定语义识别方法及装置、电子设备、存储介质 |
CN110555205B (zh) * | 2018-05-31 | 2024-04-19 | 北京京东尚科信息技术有限公司 | 否定语义识别方法及装置、电子设备、存储介质 |
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN109670168B (zh) * | 2018-11-14 | 2023-04-18 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN110033022A (zh) * | 2019-03-08 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 文本的处理方法、装置和存储介质 |
CN110245860A (zh) * | 2019-06-13 | 2019-09-17 | 桂林电子科技大学 | 一种基于虚拟实验平台的自动评分的方法 |
CN110245860B (zh) * | 2019-06-13 | 2022-08-23 | 桂林电子科技大学 | 一种基于虚拟实验平台的自动评分的方法 |
CN112906400A (zh) * | 2021-02-24 | 2021-06-04 | 福建工程学院 | 一种基于领域本体和语义依存树的主观题自动评分方法 |
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113011196B (zh) * | 2021-04-28 | 2023-01-10 | 陕西文都教育科技有限公司 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
Also Published As
Publication number | Publication date |
---|---|
CN107480133B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480133B (zh) | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
Boyd-Graber et al. | Adding dense, weighted connections to WordNet | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
Sun et al. | Mining dependency relations for query expansion in passage retrieval | |
Zhang et al. | Web Based Pattern Mining and Matching Approach to Question Answering. | |
Sheinman et al. | Large, huge or gigantic? Identifying and encoding intensity relations among adjectives in WordNet | |
JP2011118689A (ja) | 検索方法及びシステム | |
Umamehaswari et al. | Improved question answering system by semantic refomulation | |
Vechtomova et al. | A domain-independent approach to finding related entities | |
Kessler et al. | Extraction of terminology in the field of construction | |
Ogrodniczuk et al. | Rule-based coreference resolution module for Polish | |
CN110059318B (zh) | 基于维基百科与WordNet的论述题自动评卷方法 | |
Cuzcano et al. | A comparison of classification models to detect cyberbullying in the Peruvian Spanish language on twitter | |
Păiș et al. | Termeval 2020: Racai’s automatic term extraction system | |
Cao et al. | Automated question answering from lecture videos: NLP vs. pattern matching | |
Clifton et al. | Bangor at TREC 2004: Question Answering Track. | |
Ramprasath et al. | Algorithm for answer extraction based on pattern learning. | |
Ram et al. | Identification of plagiarism using syntactic and semantic filters | |
Sahin | Classification of turkish semantic relation pairs using different sources | |
Uthus et al. | Extending word highlighting in multiparticipant chat | |
Voorhees | Evaluating question answering system performance | |
Mollá et al. | Macquarie university at duc 2006: Question answering for summarisation | |
Martinez-Romo et al. | Graph-based Word Clustering Applied to Question Answering and Reading Comprehension Tests. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210419 Address after: 518048 f38-8b4 (b), Tianjing building, Tian'an chegongmiao Industrial Zone, Shatou street, Futian District, Shenzhen City, Guangdong Province Patentee after: SHENZHEN ZHIYUAN YOUXUE EDUCATION TECHNOLOGY Co.,Ltd. Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region Patentee before: Guangxi Normal University |