CN104504023A

CN104504023A - 一种基于领域本体的高准确率主观题计算机自动阅卷方法

Info

Publication number: CN104504023A
Application number: CN201410768685.4A
Authority: CN
Inventors: 朱新华; 李飞; 陈宏朝; 袁鼎荣; 邓涵
Original assignee: Guangxi Normal University
Current assignee: Nanjing Leku Network Technology Co.,Ltd.
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2015-04-08
Anticipated expiration: 2034-12-12
Also published as: CN104504023B

Abstract

一种基于领域本体的高准确率主观题计算机自动阅卷方法，首先构建一个适用于主观题自动阅卷的领域本体的结构，并将领域关系解释成一个描述领域事件的自然语言的语句；其次构建一个基于领域本体与试题描述逻辑的主观题题库结构，并要求试题符合主观题题库结构；然后对考生答卷按下述步骤进行阅卷：（1）获取考生答卷中的单字词与词性标注；（2）标注本体元素；（3）生成基于领域关系的答卷语义；（4）基于领域关系的答案与答卷语义相似度计算；（5）计算出该主观题的考生答卷得分。该方法极大地简化了考生答卷中自然语言的语义分析与处理流程，更完整地表示出答案领域知识的语义，确保了主观题自动阅卷的准确性。

Description

一种基于领域本体的高准确率主观题计算机自动阅卷方法

技术领域

本发明涉及教育技术领域中的考试阅卷自动化，具体是基于领域本体的主观题自动阅卷方案，更具体是一种基于领域本体与领域关系语义相似度的高准确率主观题计算机自动阅卷方案，该方案将计算机作为工具，以键盘输入的考生答卷作为处理对象，帮助教师实现主观题高准确率的自动阅卷，可广泛应用于各个学科的主观题计算机自动阅卷系统中。

背景技术

近年来的各类考试中大都采用考生填写答题卡这一方式，仔细推敲，我们会发现，对于试题答案以选项编号表示的单选题、多选题、判断题等的客观题，可以由计算机完全代替人工阅卷，但是对于答案需要使用自然语言表示的主观题的阅卷仍需由人工耗时耗力地完成。

由于单选题、多选题、判断题等客观题目的答案都是以选项编号表示，目前计算机对于此类题型进行自动阅卷时，只需将标准答案的选项编号与考生答案的选项编号进行简单的匹配运算，匹配成功则答案正确，该处理技术已经取得一定的成果，但对于答案采用自然语言表示的主观题自动阅卷技术,如：对简答题、名词解释和论述题等自动评分，由于其受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不甚理想。

主观题不同于客观题，不仅需要采用自然语言表示答案，而且具有一定的主观性，允许考生在一定的范围内答题，因此答案往往不是唯一的。另一方面，教师在批阅试卷的时候，还可能会受到主观因素的影响，以及考生字体是否美观、卷面是否整洁等的影响，使得教师在评分时，出现不合理的加分或扣分现象，有失考试的公正性和公平性。而主观题的计算机自动阅卷，既减轻了教师人工阅卷的劳动强度，又减少人为因素的影响，保证了阅卷的客观性、公正性，因此主观题计算机自动阅卷技术的研究，具有重大的意义。然而，由于主观题考生答卷的多样性与随意性，目前还没有使用计算机对主观题进行自动阅卷的成熟技术。

目前，在各类计算机考试系统中，普遍采用关键字匹配技术进行主观题自动阅卷，即在答案中标注出若干关键字或关键词，将其与考生答卷进行匹配，并根据匹配成功的多少对考生答卷进行评分，由于自然语言的多样性与随意性，这种方法的评分准确率非常低。为提高评卷的准确率，目前出现了少量的基于领域本体的主观题自动阅卷方法，但大多仍简单地将本体元素标注成关键字，由于没有形成答案的完整语义，这种方法的效果也不理想。

发明内容

针对语义分析是自然语言处理的瓶颈，以及主观题自动阅卷方法中的答案语义不精确、表达能力弱与评分准确度低等弱点，本发明提出了一种基于领域本体的高准确率主观题自动阅卷方案。本发明通过本体实现领域知识的形式化，通过所设计的试题描述逻辑完成对主观题的本体元素的标注与答案语义的完整表示，更为重要的是，本发明通过抽取出试题答案中的本体元素形成领域关系来表示主观题答案的语义，从而更加准确地表示出答案所包含的领域知识，同时采用基于领域关系语义相似度的方法评定考生的答卷，确保了主观题自动阅卷的准确性。

本发明的发明内容包括：一个适用于主观题自动阅卷的领域本体的结构；一个可提高主观题答案语义表示的试题描述逻辑系统；一个基于领域本体与试题描述逻辑的主观题题库结构；一套考生答卷预处理与答卷自动评阅的工作流程，包括考生答卷本体元素的标注步骤、答卷语义生成步骤，以及基于领域关系的答案答卷语义相似度与答卷评分算法。

本发明的技术方案如下。

一种基于领域本体的高准确率主观题计算机自动阅卷方法，首先构建一个适用于主观题自动阅卷的领域本体的结构，并将领域关系解释成一个描述领域事件的自然语言的语句；其次构建一个基于领域本体与试题描述逻辑系统的主观题题库结构，并要求试题符合主观题题库结构；然后对考生答卷按下述步骤进行阅卷：

(1)获取考生答卷中的单字与单词并标注词性；

(2)标注本体元素；

(3)生成基于领域关系的答卷语义；

(4)基于领域关系的答案与答卷语义相似度计算；

(5)计算出该主观题的考生答卷得分；

所述主观题题库结构定义成一个半结构的形式，即在同一个试题记录中可以包含多个同义题目与答案字段，其BNF定义为：

<主观题题库结构>::＝(<题目>，{<同义题目>},<题目标注>,{<答案>，<答案标注>,<答案语义>})

其中，<题目>与<答案>是直接面向考生的自然语言表达形式；

<同义题目>是与<题目>具有相同语义的不同表现形式，用于实现题目多种形式的显现；

<题目标注>是通过试题描述逻辑标注出本体元素(包括本体的概念、实例、属性与关系)的主观题题目，主要用于通过本体元素的同义词实现题目显现的多样性；

<答案标注>是标注有本体元素的试题答案，主要用于实现答案语义的抽取；

<答案语义>通过抽取试题答案中的本体元素形成若干个领域关系来表示，从而更准确地表示出答案所包含的领域知识,<答案语义>的结构为：

<答案语义>::＝<[～]关系1(定义域,值域)>[&[～]<关系2(定义域,值域)>&……&<[～]关系n(定义域,值域)>]。

本发明将领域本体形式化为一个五元组：

O＝{C，A，R，I，SY}

(1)C表示与某个领域相关的所有概念的集合，该集合界定了主观题的主题范围；

(2)：是概念的数据属性的集合，表示概念的内涵，用于界定主观题题库中概念与个体的特征范围；

(3)表示概念之间的二元领域关系集合，反映某个领域中的概念之间所建立的联系，用于界定主观题题库中概念之间的联系范围，同时本发明将领域关系解释成一个描述领域事件的自然语言的语句；

(4)I代表实例集合，表示某个领域所有概念的具体实体，在主观题中作为领域对象使用；

(5)SY代表同义词集合。

本发明所述的领域关系中包括关系名、定义域和值域；所述关系名代表一个领域事件，为句子的动词，所述定义域表示事件实施者，为句子的主语，所述值域表示事件的内容或接受者，为句子的宾语；

并且，在领域关系规定关系名带介词的关系表示被动语态；

关系的形态分为如下三种类型：

1)关系名不带介词的关系：表示主动语态，关系对应的句子结构为：定义域+关系名+值域；

2)关系名带后缀介词的关系：表示被动语态，关系名在对应的事件句子中不用分拆，关系对应的句子结构为：定义域+关系名+值域；

3)关系名带一个由下划线“_”连接的前缀介词的关系：表示被动语态，且关系名在对应的事件句子中需要分拆使用，并由前缀介词分隔句子的主语与宾主，关系对应的句子结构为：定义域+前缀介词+值域+关系名。

本发明的试题描述逻辑系统QDLS是一个以领域本体元素为描述对象，对主观题题目与答案进行本体标注与语义解释的一种特殊的描述逻辑，定义成如下的三元组：

QDLS::＝(<描述符>,<运算符>,<标注符>)

其中：描述符：用于声明主观题中本体元素的类型；

运算符：将描述逻辑的常规运算符以更简洁的符号来表示，以方便运算符的使用；

标注符：用于分隔与界定主观题中的本体元素。

本发明的在步骤(1)，考生答卷中的单字与单词获取与词性的标注是在本体同义词库与常规语言词典的共同支持下进行的。从而最大限度地获取学生答卷的语义，确保了主观题自动阅卷的准确性。

本发明步骤(2)的步骤、规则与格式包括：

1)概念标注：将答卷中的名词逐个与领域本体中的概念同义词进行匹配，若有与其相同的概念，则将该名词标注为概念，标注格式为：<概念名：C>；

2)实例标注：将答卷中概念标注后剩余的名词与专用名词短语逐个与领域本体中的实例同义词进行匹配，若有与其相同的实例，则将该名词标注为实例，标注格式为：<实例名：I>；

3)属性标注：将答卷中剩余的名词逐个与领域本体中的属性同义词进行匹配，若有与其相同的属性，则根据该属性的类型将名词标注为相应的属性类别，标注格式为：<属性名：P>；

4)关系标注：将答卷中的动词逐个与领域本体中的关系同义词进行匹配，若有与其相同的关系，则将该动词或名词标注为关系，标注格式为：<关系名：R>；然后进一步判定关系动词前是否有否定副词或否定动词，如有则将该否定词标注为否定运算符“～”；

5)概念集合标注：将答卷中多个由连词或标点连接的多个概念组合成概念集合，标注格式为：<{概念集合}：CS>；

6)实例集合标注：将答卷中多个由连词或标点连接的多个实例组合成实例集合，标注格式为：<{实例集合}：IS>。

本发明的步骤(3)包括：

1)扫描已标注好本体元素的考生答卷，定位答卷中的第一个领域关系名；

2)若领域关系名左侧只有一个领域概念，则将该概念处理为领域关系的定义域，转步骤5)；

3)若领域关系名左侧有多个连续的领域概念或概念集合，且这多个领域概念由领域关系的引导介词分隔，则将引导介词左侧的第一个概念处理为领域关系的定义域，将引导介词右侧的多个概念作为概念集合并处理为领域关系的值域，转步骤9)；否则将左侧最靠近领域关系的概念处理为关系的定义域；

4)若领域关系名左侧无任何领域概念，则将领域关系的定义域处理为空，且用0表示；

5)若领域关系名右侧只有一个领域概念，则将该概念处理为领域关系的值域，转步骤9)；

6)若领域关系名右侧有多个连续的领域概念，则将这多个概念作为概念集合并处理为领域关系的值域；

7)若领域关系名右侧无任何领域概念，则将领域关系的值域处理为空，且用0表示；

8)若在答卷的本体标注中，关系名动词的左侧紧邻一个标注为否定运算符的否定词，则在答卷语义中，在该关系名的前面加一个否定运算符“～”；

9)定位答卷中的第二个领域关系名，转步骤2)，直到答卷中所有领域关系处理完毕；

10)若考生答卷语义中只有一个领域关系，则将该领域概念名及其定义域与值域，以“[～]关系名(定义域，值域)”的形式表示答卷的语义；

11)若考生答卷中有多个领域关系，则将这多个领域关系通过运算符“&”连接处理为答卷的语义；

12)若考生答卷中无任何领域关系，则将答卷中的所有领域概念通过运算符“&”连接处理为答卷的语义；

13)若考生答卷中无任何领域本体，则该考生答卷语义为空。

进一步，步骤(4)包括：

1)定位试题的第一个答案的答案语义；

2)若答案语义只有一个关系，则按公式(1)计算出答案关系与答卷关系的语义相似度，并将该相似度作为答案与答卷的语义相似度，转步骤6)；

3)取答案语义的第一个关系，按公式(1)依次与考生答卷语义中的所有未标注已比对的关系一一计算相似度：

SimR = \frac{SimRN + SimRN \times SimRD + sIMrn \times SimRN \times SimRR}{3} - - - (1)

其中，SimRN代表关系名相似度，SimRD代表定义域相似度，SimRR代表值域相似度，三者的计算方法为：

①若二个关系名相同或为同义词且二个关系名前的否定运算符相同，或答案语义中只有一个关系且关系名为可省略项，则SimRN＝1；否则SimRN＝0；

②若定义域相同或为同义词或为可省略项，则SimRD＝1；否则SimRD＝0；

③若值域相同或为同义词或为可省略项，则SimRR＝1；否则SimRR＝0；从所有的关系相似度中，取一个最大值作为该答案关系与答卷关系的语义相似度，记作SimR₁，同时在答卷语义中将比对成功的关系标注为已比对；

4)取答案语义的下一个关系，按步骤2)计算出该答案关系与答卷关系的语义相似度，记作SimR_i，直到计算出所有答案关系与答卷关系的语义相似度；

5)设答案语义中的关系总数为n，按公式(2)，计算出答案与答卷的语义相似度：

{Sim}_{1} (answer, paper) = Σ_{i = 1}^{n} \frac{Sim R_{i}}{N} - - - (2)

6)定位试题的下一个答案的答案语义，按步骤2)、3)、4)与5)，计算出该答案与答卷

的语义相似度，记作Simi(answer,paper),直到计算出所有答案与答卷的语义相似度；

7)设该主观题的答案总数为m，按公式(3)，计算出该试题的答案与答卷的语义相似度：

Sim (answer, paper) = \underset{i = 1 . . . m}{MAX} {S {im}_{i} (answer, paper)} - - - (3)

其中，MAX表示取最大值。

最后，在步骤(5)，按公式(4)计算出该主观题的考生答卷得分：

Score＝Weight′Sim(answer,paper) (4)

其中，设该主观题的分值权重为Weight。

发明的优点：

本发明提出的基于领域本体的主观题自动阅卷方案，可通过领域关系完整地表达出主观题答案的语义，采用了基于领域关系语义相似度的方法评定考生的答卷，极大地提高了主观题自动阅卷的准确率。本发明通过领域本体与试题描述逻辑更加精确地表达出主观题答案的语义，同时通过关系语义相似度计算出答案与答卷的语义相似度，并根据答案与答卷的语义相似度最终评定出考生答卷的得分。本发明的优点总结如下：

1、不依赖于句法分析，极大地简化了考生答卷中自然语言的语义分析与处理流程；

2、本发明通过由本体元素构成的领域关系来表示主观题答案的语义，更完整地表示出答案领域知识的语义；

3、考生答卷中的单字(词)获取、词性与本体元素的标注都是在本体同义词库的支持下进行的，同时采用了基于领域关系语义相似度的方法评定考生的答卷，确保了主观题自动阅卷的准确性；

4、本发明的主观题计算机自动阅卷方案，既减轻了教师人工阅卷的劳动强度，缩短了阅卷周期，又减少人为因素的影响，保证了阅卷的客观性与公正性。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面结合附图对本发明进行更加详细具体的描述。

1.领域本体结构

本发明将应用于主观题自动阅卷的领域本体形式化为一个五元组：

O＝{C，A，R，I，SY}

下面以《计算机基础知识》学科领域本体为例，说明本发明所设计的应用于主观题自动阅卷的领域本体的各种元素的定义与作用。

1)C表示与某个领域相关的所有概念的集合，该集合界定了主观题的主题范围。例如：

C＝{计算机，硬件，运算器，控制器，中央处理器，主机，存储器，主存器，外部存储

器，硬盘，U盘，输入/输出设备，键盘，打印机，显示器，软件，程序，文档，数据，

指令，应用软件，系统软件，文件系统，操作系统，语言处理程序，服务性程序，高级

语言，汇编语言，机器语言，二进制，十进制，八进制，十六进制，…….}

2)：是概念的数据属性的集合(DT是一个数据类型集合)，表示概念的内涵，用于界定主观题题库中概念与个体的特征范围。例如：

操作系统(P^C)＝{定义，特点，名称，版本，功能，厂商，……}

文件(P^C)＝{定义，名称，类型，大小，建立日期，……}

CPU(P^C)＝{定义，功能，型号，主频，功能，……}

光盘(P^C)＝{定义，功能，容量，厂商，类型，……}

显示器(P^C)＝{定义，功能，特征，型号，分辨率，……}

3)表示概念之间的二元领域关系集合，反映某个领域中的概念之间所建立的联系，用于界定主观题题库中概念之间的联系范围，是表达领域知识的重要方式，领域关系名一般由动词或带介词的动词短语表示，例如：

R＝{存储,编码,执行,显示,输入，输出,存储于，由_组成，属于……}

每个领域关系由定义域与值域二部分组成：r(定义域，值域)，例如：存储(存储器，数据)表示存储器与数据之间有着存储关系。

4)I代表实例集合，表示某个领域所有概念的具体实体，在主观题中可作为领域对象使用。例如：

操作系统(I^C)＝{Linus,Windows XP,Windows 8,Unix,Android}

CPU(I^C)＝{酷睿i7,酷睿i5,酷睿i3,APU A10,APU A8,APU A6,APU A4}

显卡(I^C)＝{华硕GTX760系列，华硕GTX980系列，华硕GTX650系列，蓝宝AMD FireProW9100，蓝宝石ATI FirePro V4800}

5)SY代表同义词集合，本发明要求在领域本体的设计过程中，为每一个本体元素，包括本体的概念、实例、属性与关系，给出其所有不同形态的同义词，可为自动评卷系统中的考生答卷处理与标准答案的匹配提供支持，是本发明提高阅卷准确率的重要机制。例如：

SY＝({计算机，电脑，计算机系统},{内部存储器，内存，主存}，{外部存储器，外存，辅助存储器},{hasDefinition,hasDescription,hasExplanation,definition,explanation,description},{属于，是}，{组成，构成}……)。

本发明的领域关系中包括关系名、定义域和值域；所述关系名代表一个领域事件，为句子的动词，所述定义域表示事件实施者，为句子的主语，所述值域表示事件的内容或接受者，为句子的宾语；

并且，在领域关系规定关系名带介词的关系表示被动语态；

关系的形态分为如下三种类型：

1)关系名不带介词的关系：表示主动语态，关系对应的句子结构为：定义域+关系名+值域；例如：存储(存储器，数据)，表示存储器可以存储数据，对应自然语言句子：存储器(可以或用于)存储数据。

2)关系名带后缀介词的关系：表示被动语态，关系名在对应的事件句子中不用分拆，关系对应的句子结构为：定义域+关系名+值域；例如：存储于(数据，存储器)，表示数据被存储在存储器中，对应自然语言句子：数据存储于(在)存储器中。

3)关系名带一个由下划线“_”连接的前缀介词的关系：表示被动语态，且关系名在对应的事件句子中需要分拆使用，并由前缀介词分隔句子的主语与宾主，关系对应的句子结构为：定义域+前缀介词+值域+关系名。例如：由_组成(计算机，硬件&软件)，表示计算机由硬件与软件组成，对应自然语言句子：计算机由硬件与软件组成。

2.试题描述逻辑系统

为精确表达基于领域本体的主观题题目与答案的语义，本发明为试题的语义解释设计了一套试题描述逻辑系统。该逻辑系统是一个以领域本体元素为描述对象，对主观题题目与答案进行本体标注与语义解释的一种特殊的描述逻辑，本发明将应用于主观题自动阅卷中的试题描述逻辑系统QDLS(Questions description logic system)定义成如下的三元组：

QDLS::＝(<描述符>,<运算符>,<标注符>)

(1)描述符：用于声明主观题中本体元素的类型，表1列出并解释了本发明所设计的主观题本体元素描述符。

表1本体元素描述符

描述符	用途
		C	声明主观题中的一个本体元素为概念
CS	声明主观题中的一个本体元素为概念集合

P	声明主观题中的一个本体元素为属性
		R	声明主观题中的一个本体元素为关系
I	声明主观题中的一个本体元素为实例
		IS	声明主观题中的一个本体元素为实例集合

(2)运算符：本发明通过扩展描述逻辑的常规运算符，进一步提高试题描述逻辑的表达能力，分为单目与双目二种类型的运算符。同时，将描述逻辑的常规运算符以更简洁的符号来表示，以方便运算符的使用。表2列出了本发明为试题描述逻辑所设计的运算符。

表2运算符

(1)标注符：本发明为主观题结构设计了二个本体元素标注符，用于分隔与界定主观题中的本体元素，如表3所示。

表3本体元素标注符

标注符	解释
		<>	界定主观题结构中的一个必选的本体元素
[]	界定主观题结构中的一个可省略的本体元素

3.基于领域本体与试题描述逻辑的主观题题库结构

本发明通过领域本体与试题描述逻辑实现主观题题目与答案的本体标注与语义表示。本发明将主观题题库结构定义成一个半结构的形式，即在同一个试题记录中可以包含多个同义题目与答案字段，其BNF定义为：

其中，<题目>与<答案>是直接面向考生的自然语言表达形式；<同义题目>是与<题目>具有相同语义的不同表现形式，用于实现题目多种形式的显现；<题目标注>是通过试题描述逻辑标注出本体元素(包括本体的概念、实例、属性与关系)的主观题题目，主要用于通过本体元素的同义词实现题目显现的多样性；<答案标注>是标注有本体元素的试题答案，主要用于实现答案语义的抽取；<答案语义>通过抽取出试题答案中的本体元素形成若干个领域关系来表示，从而更准确地表示出答案所包含的领域知识,<答案语义>的结构为：

<答案语义>::＝<[～]关系1(定义域,值域)>[&[～]<关系2(定义域,值域)>&……&<[～]关系n(定义域,值域)>]

下面，通过四个试题的定义说明本发明的主观试题的结构及试题描述逻辑在主观试题定义中的作用：

主观试题1：

<题目>::＝存储器用于存储什么？

<同义题目>::＝存储器可以存储什么？

<题目标注>::＝<存储器：C>用于<存储：R>什么？

<答案>::＝存储器用于存储数据

<答案标注>::＝[存储器：C]用于[存储：R]<数据：C>

<答案语义>::＝[存储]([存储器],数据)

主观试题2：

<题目>::＝存储器的功能是什么？

<同义题目>::＝存储器的用途是什么？

<题目标注>::＝<存储器：C>的<功能：P>是什么？

<答案>::＝存储器用于存储数据

<答案标注>::＝[存储器：C]用于<存储：R><数据：C>

<答案语义>::＝存储([存储器],数据)

主观试题3：

<题目>::＝存储器与显示器的区别是什么？

<同义题目>::＝存储器与显示器有什么不同之处？

<题目标注>::＝<存储器：C>与<显示器：C>的<区别：R>是什么？

<答案>::＝存储器用于存储数据，而显示器用于显示数据

<答案标注>::＝<存储器：C><存储：R><数据：C>，而<显示器：C><显示：R><数据：C>

<答案语义>::＝存储(存储器,数据)&显示(显示器，数据)

主观试题4：

<题目>::＝CPU由什么组成？

<同义题目>::＝CPU由什么构成？

<题目标注>::＝<CPU：C>由什么<组成：R>？

<答案>::＝CPU由运算器与控制器组成

<答案标注>::＝<CPU：C>由<<运算器：S>与<控制器：S>：CS><组成：R>

<答案语义>::＝由_组成(CPU,运算器&控制器)

4.考生答卷预处理与答卷自动评阅的流程

对于用户输入的主观题的答卷，在进行答卷评分之前，阅卷系统需要对其进行预处理，包括单字(词)获取，对单词或短语进行名词、动词等常规的语言词性标注，以及本体元素的标注。由于不同领域本体中的许多概念名与实例名的命名会比较特殊，本发明在步骤(1)，对考生答卷中的单字与单词获取与词性的标注是在本体同义词库与常规语言词典的共同支持下进行的，从而为提高评分的准确率打下了基础。

本发明的主观题答卷自动评阅的工作流程分为考生答卷预处理与答卷自动评分二个过程，如图1所示。

其中：

考生答卷本体元素的标注步骤、规则与格式如下：

1)概念标注：将答卷中的名词逐个与领域本体中的概念同义词进行匹配，若有与其相同的概念，则将该名词标注为概念，标注格式为：<概念名：C>，例如：<内存：C>；

2)实例标注：将答卷中概念标注后剩余的名词与专用名词短语逐个与领域本体中的实例同义词进行匹配，若有与其相同的实例，则将该名词标注为实例，标注格式为：<实例名：I>，例如：<酷睿i5,：I>；

3)属性标注：将答卷中剩余的名词逐个与领域本体中的属性同义词进行匹配，若有与其相同的属性，则根据该属性的类型将名词标注为相应的属性类别，标注格式为：<属性名：P>，例如：<定义：P>；

4)关系标注：将答卷中的动词逐个与领域本体中的关系同义词进行匹配，若有与其相同的关系，则将该动词或名词标注为关系，标注格式为：<关系名：R>，例如：<存储：R>；然后进一步判定关系动词前是否有否定副词或否定动词，如有则将该否定词标注为否定运算符“～”，例如：<不能：～>；

5)概念集合标注：将答卷中多个由连词或标点连接的多个概念组合成概念集合，标注格式为：<{概念集合}：CS>，例如：<{内存,CPU,外存}：CS>；

6)实例集合标注：将答卷中多个由连词或标点连接的多个实例组合成实例集合，标注格式为：<{实例集合}：IS>，例如：<{APU A10,APU A8,APU A6}：IS>。

基于领域关系的答卷语义生成步骤如下：

2)若领域关系名左侧只有一个领域概念(实例)，则将该概念(实例)处理为领域关系的定义域，转步骤5)；

3)若领域关系名左侧有多个连续的领域概念(实例)或概念(实例)集合，且这多个领域概念由领域关系的引导介词分隔，则将引导介词左侧的第一个概念(实例)处理为领域关系的定义域，将引导介词右侧的多个概念(实例)作为概念(实例)集合并处理为领域关系的值域，转步骤9)；否则将左侧最靠近领域关系的概念(实例)处理为关系的定义域；

4)若领域关系名左侧无任何领域概念(实例)，则将领域关系的定义域处理为空，且用0表示；

5)若领域关系名右侧只有一个领域概念(实例)，则将该概念(实例)处理为领域关系的值域，转步骤9)；

6)若领域关系名右侧有多个连续的领域概念(实例)，则将这多个概念(实例)作为概念(实例)集合并处理为领域关系的值域；

7)若领域关系名右侧无任何领域概念(实例)，则将领域关系的值域处理为空，且用0表示；

12)若考生答卷中无任何领域关系，则将答卷中的所有领域概念(实例)通过运算符“&”连接处理为答卷的语义；

13)若考生答卷中无任何领域本体，则该考生答卷语义为空。

基于领域关系的答案答卷语义相似度与答卷评分算法

1)定位试题的第一个答案的答案语义；

2)若答案语义只有一个关系，则按公式(1)计算出答案关系与答卷关系的语义相似度，

并将该相似度作为答案与答卷的语义相似度，转步骤6)；

SimR = \frac{SimRN + SimRN \times SimRD + sIMrn \times SimRN \times SimRR}{3} - - - (1)

①若二个关系名相同或为同义词且二个关系名前的否定运算符相同，或答案语义中只有一个关系且关系名为可省略项，则SimRN＝1；否则SimRN＝0。

②若定义域相同或为同义词或为可省略项，则SimRD＝1；否则SimRD＝0。

③若值域相同或为同义词或为可省略项，则SimRR＝1；否则SimRR＝0。从所有的关系相似度中，取一个最大值作为该答案关系与答卷关系的语义相似度，记作SimR₁，同时在答卷语义中将比对成功的关系标注为已比对；

{Sim}_{1} (answer, paper) = Σ_{i = 1}^{n} \frac{Sim R_{i}}{N} - - - (2)

6)定位试题的下一个答案的答案语义，按步骤2)、3)、4)与5)，计算出该答案与答卷的语义相似度，记作Simi(answer,paper),直到计算出所有答案与答卷的语义相似度；

Sim (answer, paper) = \underset{i = 1 . . . m}{MAX} {S {im}_{i} (answer, paper)} - - - (3)

其中，MAX表示取最大值；

8)按公式(4)计算出该主观题的考生答卷得分：

Score＝Weight′Sim(answer,paper) (4)

其中，设该主观题的分值权重为Weight。

Claims

1.一种基于领域本体的高准确率主观题计算机自动阅卷方法，其特征在于：首先构建一个适用于主观题自动阅卷的领域本体的结构，并将领域关系解释成一个描述领域事件的自然语言的语句；其次构建一个基于领域本体与试题描述逻辑系统的主观题题库结构，并要求试题符合主观题题库结构；然后对考生答卷按下述步骤进行阅卷：

(1)获取考生答卷中的单字与单词并标注词性；

(2)标注本体元素；

(3)生成基于领域关系的答卷语义；

(4)基于领域关系的答案与答卷语义相似度计算；

(5)计算出该主观题的考生答卷得分；

其中，<题目>与<答案>是直接面向考生的自然语言表达形式；

<答案语义>通过抽取试题答案中的本体元素形成若干个领域关系来表示，<答案语义>的结构为：

2.根据权利要求1所述的自动阅卷方法，其特征在于：将领域本体形式化为一个五元组：

O＝{C，A，R，I，SY}

1)C表示与某个领域相关的所有概念的集合，该集合界定了主观题的主题范围；

2)是概念的数据属性的集合，表示概念的内涵，用于界定主观题题库中概

念与个体的特征范围；

3)表示概念之间的二元领域关系集合，反映某个领域中的概念之间所建立的联系，用于界定主观题题库中概念之间的联系范围；

4)I代表实例集合，表示某个领域所有概念的具体实体，在主观题中作为领域对象使用；

5)SY代表同义词集合。

3.根据权利要求1所述的自动阅卷方法，其特征在于：领域关系中包括关系名、定义域和值域；所述关系名代表一个领域事件，为句子的动词，所述定义域表示事件实施者，为句子的主语，所述值域表示事件的内容或接受者，为句子的宾语；

并且，在领域关系规定关系名带介词的关系表示被动语态；

关系的形态分为如下三种类型：

4.根据权利要求1所述的自动阅卷方法，其特征在于：试题描述逻辑系统QDLS是一个以领域本体元素为描述对象，对主观题题目与答案进行本体标注与语义解释的一种特殊的描述逻辑，定义成如下的三元组：

QDLS::＝(<描述符>,<运算符>,<标注符>)

其中：描述符：用于声明主观题中本体元素的类型；

标注符：用于分隔与界定主观题中的本体元素。

5.根据权利要求1所述的自动阅卷方法，其特征在于：在步骤(1)，考生答卷中的单字与单词获取与词性的标注是在本体同义词库与常规语言词典的共同支持下进行的。

6.根据权利要求1所述的自动阅卷方法，其特征在于：步骤(2)的步骤、规则与格式包括：

7.根据权利要求1所述的自动阅卷方法，其特征在于：步骤(3)包括：

13)若考生答卷中无任何领域本体，则该考生答卷语义为空。

8.根据权利要求1所述的自动阅卷方法，其特征在于：步骤(4)包括：

1)定位试题的第一个答案的答案语义；

SimR = \frac{SimRN + SimRN \times SimRD + SimRN \times SimRR}{3} - - - (1)

{Sim}_{1} (answer, paper) = Σ_{i = 1}^{n} \frac{Sim R_{i}}{N} - - - (2)

Sim (answer, paper) = \underset{i = 1 . . . m}{MAX} {{Sim}_{i} (answer, paper)} - - - (3)

其中，MAX表示取最大值。

9.根据权利要求1所述的自动阅卷方法，其特征在于：在步骤(5)，按公式(4)计算出该主观题的考生答卷得分：

Score＝Weight×Sim(answer,paper) (4)

其中，设该主观题的分值权重为Weight。