CN109213999A - 一种主观题评分方法 - Google Patents
一种主观题评分方法 Download PDFInfo
- Publication number
- CN109213999A CN109213999A CN201810950400.7A CN201810950400A CN109213999A CN 109213999 A CN109213999 A CN 109213999A CN 201810950400 A CN201810950400 A CN 201810950400A CN 109213999 A CN109213999 A CN 109213999A
- Authority
- CN
- China
- Prior art keywords
- sentence
- answer
- student
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种主观题评分方法,包括语句预处理、特征提取、特征融合、相似度计算以及综合评分。其中,所述语句预处理,用于目标段落的分句、分词、关键词检测、词性标注以及语句情感分析;所述特征提取算法,用于词向量、句向量、词结构以及句法结构的提取;所述特征融合,用于将包含M个句目标段落,融合成包含N个模板的对比模板(N<M):所述相似度计算,用于计算词语相似度以及句子相似度;所综合评分,用于根据学生答案与所述对比模板中的词相似度、句相似度、词结构相似度、句法机构相似度、关键词得分以及情感得分,构建权重模型,进而对学生答案进行评分。本发明适应各个学科的主观题评分要求,通过少量样本的训练,即可获得良好的评分效果。
Description
技术领域
本发明涉及自然语言处理技术,特别是涉及一种主观题评分及方法,用于实现通过机器对主观题进行评分。
背景技术
随着计算机技术和通信技术的高速发展,计算机己经应用到人们生活中的各个领域。在教育领域中,计算机不仅可以应用与辅助教育,也可以应用与辅助测评。计算机辅助测评就是计算机在测验及其评价中的应用。完整的计算机辅助测评系统包括四个模块:测验构成模块、测验实施模块、评阅分析模块和题库管理模块。其中评阅分析模块是计算机辅助测评系统的难点,成为研究的热点。
目前,客观题的计算机阅卷技术发展得比较成熟,很多己经成型的系统己经投入使用。但是,用计算机分析学生对主观题的答案,还存在一定的限制。现在比较实用的技术是通过高速扫描仪将考生答卷扫描到系统服务器。扫描完成后,评卷教师在网上对学生的考卷进行评阅。这种阅卷方式的本质上还是属于人工阅卷。其主要原因是主观题的求解思路和答案带有主观性,没有标准答案。要让计算机实现主观题的智能评卷,就意味着要使计算机能够理解人类文字的意义,以及文字表达的意图和思想,也就是自然语言理解。由于自然语言的各个层次上广泛存在着各种各样的歧义性和多义性,因此应用计算机进行自然语言的分析还不够成熟,未能达到使用阶段。
传统的阅卷过程中装、翻阅、传递等中间等待环节花费了大量的人力、时间,耗时耗力,阅卷的效率很还低。另一方面,传统的阅卷方式到有很强的主观性。对同一题目,阅卷人不同,最后的评分结果可能不同甚至分差很大。即使同一阅卷人在不同的时间对同一题目的理解也可能不同。而使用计算机阅卷则能避免这种人为的误差,其更能客观的反映出评阅结果,保证了阅卷的客观公正性。再则,电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动,让老师省出更多时间和精力用在教学工作中。因此研究主观题的自动阅卷技术是非常迫切且具有重大意义的。
发明内容
本发明的目的是通过以下技术方案实现的一种主观题评分方法,包括:语句预处理,包括对目标段落进行分句、分词、词性标注、关键词检测以及语句情感评分;特征提取,包括根所述分词的结果对目标段落进行词向量提取、句向量提取、词结构提取以及句法结构提取;特征融合,包括对目标段落的特征提取结果进行特征融合,进而获得对比模板;相似度计算,包括根据所述特征提取结果以及特征融合结果进行相似度计算;综合评分,将所述相似度计算、关键词检测以及语句情感评分进行融合,进而对目标段落进行综合评分。
进一步的,所述目标段落包括:参考答案和学生答案,通过对所述参考答案进行语句预处理、特征提取以及特征融合,从而获得对比模板,用于作为学生答案的评分标准;通过对所述学生答案进行语句预处理以及特征提取,从而根据语句预处理结果以及特征提取结果与所述对比模板进行相似度计算,进而对所述学生答案进行综合评分。
更进一步的,对所述对参考答案进行语句预处理包括:根据参考答案段落中的标识符进行分句,获得多条第一分句;采用文本应用Python中的中文分词组件对所述参考答案进行分词和词性标注,获得第一分词及其词性标注进而组成第一词语列表。
更进一步的,根据所述分词的结果对所述参考答案段落进行特征提取包括:通过中文语料,训练word2vec词向量模型,获得一定规模的词语的向量表示,进而将所述参考中的多个第一分词转化为多个第一词向量;通过中文语料,训练doc2vec句向量模型,获得具体语句的向量表示,进而将所述参考答案中的多条第一分句转化为多个第一句向量;利用义原相似度以及概念相似度方法,对所述多个第一分词的词结构进行分析,获得对应所述第一分词的第一词结构;利用依存句法分析方法,对所述多条第一分句的句法结构进行分析,获得所述第一分句对应的第一结构语法树。
更进一步的,在通过中文语料,训练得到word2vec词向量模型的过程中,统计训练该词向量模型的机器学习方法的关键词作为第一关键词。
更进一步的,对所述参考答案的特征提取结果进行特征融合包括:对参考答案中每条分句所对应的第二句向量进行聚类分析,进而根据聚类分析结果将参考答案中的M条语句压缩为N条语句,其中N<M;将所述N条语句中每条语句所对应的句向量,词向量,词结构及句法结构特征保存形成模板,从而将获得的N个模板作为评分的对比模板。
更进一步的,对所述对学生答案进行语句预处理包括:根据所述学生答案段落中的标识符进行分句,获得多条第二分句;采用文本应用Python中的中文分词组件对所述学生答案进行分词和词性标注,获得第二分词及其词性标注进而组成第二词语列表;遍历所述第二词语列表进行关键词检测,提取所述第二列表中的实词作为第二关键词,并通过与所述第一关键词进行对比,获得学生答案的关键词得分;根据情感分析方法对所述学生答案中的分句进行情感分析,获得对应所述多条分句的情感评分。
更进一步的,根据所述对学生答案的预处理结果进行特征提取包括:通过中文语料,训练word2vec词向量模型,获得一定规模的词语的向量表示,进而将所述参考中的多个第二分词转化为多个第二词向量;通过中文语料,训练doc2vec句向量模型,获得具体语句的向量表示,进而将所述参考答案中的多条第二分句转化为多个第二句向量;利用义原相似度以及概念相似度方法,对多个第二分词的词结构进行分析,获得对应所述第二分词的第二词结构;利用语言技术平台的依存句法分析方法,对所述多条第二分句的句法结构进行分析,获得所述第二分句对应的第二结构语法树。
更进一步的,所述根据学生答案的语句预处理结果以及特征提取结果与所述对比模板进行相似度计算,包括:将学生答案的第二词向量与所述对比模板中的第一词向量进行內积计算,从而获得词向量相似度;将学生答案的第二句向量与所述对比模板中的第一句向量进行內积计算,从而获得句向量相似度;根据所述学生答案的第二词结构和所述比模板中的第一词结构,获得词结构相似度;将学生答案的第二结构语法所树与对比模板中的第一结构语法树中的对应级别进行对比,通过对所述第二结构语法树中的每级分别赋予权重,进而获得学生答案与参考答案的句法结构的相似度。
更进一步的,所述综合评分包括:将学生答案与参考答案间的,包括词向量相似度、句向量相似度、词结构相似度、句法结构相似度以及学生答案的关键词得分和语句情感得分作为参量输入神经网络中;通过对部分学生答案进行手动打分,进而对所述神经网络进行训练,从而获得所述参量的对应权重并保存;将学生答案中的每条分句通过所述神经网络进行评分,而后将学生答案中每条分句的得分进行求和,从而获得学生答案的综合评分。
本发明的优点在于
(1)从词语结构、句子结构、词向量、句向量、关键词、情感词等各个维度对学生答案和参考答案进行了对比和计算,覆盖全面。
(2)运用特征融合网络将参考答案的句子进行了抽象,减少了最后对学生答案进行评分计算时的计算量。
(3)通过中文新闻文本训练,得到了word2vec词向量模型以及doc2vec句向量模型,为后续的准确分析打下了基础。
(4)在综合评分计算中,专家根据自己的经验对各个参数所占权重进行人为调整,提高了本发明的使用效果以及扩展了本发明的应用范围。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的方法框图。
附图2示出了为根据本发明实施方式的一种可选实施例的工作流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,为根据本发明实施方式的方法框图,其中所述方法包括:语句预处理,包括对目标段落进行分句、分词、词性标注、关键词检测以及语句情感评分;特征提取,包括根所述分词的结果对目标段落进行词向量提取、句向量提取、词结构提取以及句法结构提取;特征融合,包括对目标段落的特征提取结果进行特征融合,进而获得对比模板;相似度计算,包括根据所述特征提取结果以及特征融合结果进行相似度计算;综合评分,将所述相似度计算、关键词检测以及语句情感评分进行融合,进而对目标段落进行综合评分。其中,所述目标段落包括,参考答案和学生答案。下面将通过所述参考答案和学生答案对本发明方法进行说明:
语句预处理
更具体的,其中所述语句预处理中分句的方法包括:首先,从存储有学生答案或参考答案的xlsx文件中读取中文文本,并通过特殊标识符“()”对所提取的中文文本分别进行分段;然后,根据标点符号集合{,.!?:;~,。!?:;~}对每个分段进行分句。所述语句预处理中分词以及词性标注的方法包括:在所述分句的基础上,利用文本应用Python中文分词组件“jieba”进行分词和词性标注;构建停用词表,通过将所分之词与停用词表进行对比,去除其中的停用词,然后将所分之词及其词性以列表的方式存储,获得词语列表,其中所述词语列表包括学生答案的词语列表以及参考答案的词语列表。所述语句预处理中语句情感得分的方法包括,构建包含正向词汇、反向词汇、程度词汇以及否定词汇的情感词汇表;根据分词后得到的词语列表,通过遍历所述情感词汇表,从而对文本中包含的情感词汇进行定位;设定情感权重,可选的按照:“超”1.5,“很”1.25,“最”2,“较”1.2,“欠”0.5,“稍”0.8,否定词:-1等,对所分之句进行情感评分,进而通过计算文本段落中每个句子的情感得分的平均值作为该文本段落的情感评分。
特征提取
对参考答案和学生答案进行特征提取的方法包括:对参考答案和学生答案进行词向量提取、句向量提取、词结构提取以及句法结构提取,其中所述词向量的提取方法包括,通过大量中文新闻语料,训练word2vec(词向量)模型,获得一定规模的词语的向量表示,进而通过python库“genism.word2vec”工具以及word2vec模型将所述参考中的多个第一分词转化为多个第一词向量,此外,在通过中文语料,训练得到word2vec词向量模型的过程中,统计训练该词向量模型的机器学习方法的关键词作为第一关键词;所述句向量的提取方法包括,通过大量中文新闻语料,训练doc2vec句向量模型,获得具体语句的向量表示,进而通过python库“genism.doc2vec”工具以及doc2vec模型将所述参考答案中的多条第一分句转化为多个第一句向量;所述词结构提取包括,通过计算义原相似度以及概念相似度的方式得到第一词结构;通过依存句法分析方式得出句子的句法结构;其中,所述义原的系统概念中包括,第一基本义原、其它基本义原、关系义原及其关系符号;其中,所述第一基本义原解释为,一个词的义原可能包含多个,则选取其中最接近这个词本义的义原作为第一基本义原。所述其它义原解释为,由一个词语的义原中除了所述第一基本义原以外的其它义原的集合。所述关系义原,其对应于描述表达式中所有的关系义原描述式,其值是一个特征结构,对于该特征结构的每一个特征,其属性是一个关系义原,属性值是一个基本义原,或一个具体词。或一个具体词。所述关系符号为,对应于描述表达式中所有的关系符号描述式,其值也是一个特征结构,对于该特征结构的每一个特征,其属性是一个关系符号,属性值是一个元素为基本义原或具体词的集合。
特征融合
特征融合只针对与参考答案进行,通过对参考答案中每条分句所对应的第二句向量进行聚类分析,进而根据聚类分析结果将参考答案中的M条语句压缩为N条语句,其中N<M;将所述N条语句中每条语句所对应的句向量,词向量,词结构及句法结构特征保存形成模板,从而将获得的N个模板作为评分的对比模板。
相似度计算
分别计算学生答案和参考答案之间的词相似度、句相似度、词结构相似度以及句法结构相似度,其中,计算两个文本间词相似度或句相似度的计算公式为:
其中,所述Di为第一词向量或第一句向量,所述Dj为第二词向量或第二句向量n为词向量或句向量对应的维度。
计算参考答案和学生答案两个文本间词结构相似度和句法结构相似度的描述如下:
其中,计算词结构相似度的方法包括,通过考虑义原的上下位关系,提出基于路径长度的义原相似度计算公式为:其中,Dis(p1,P2)表示和在义原树中的路径长度,P1、P2为两个节点,α是一个固定值参数,表示当相似度为0.5时义原之间的语义距离。如此,
参考答案和学生答案两个文本间的第一基本义原的相似度为:
Sim1(s1,s2);
参考答案和学生答案两个文本间的其它基本义原的相似度为:
Sim2(s1,s2);
参考答案和学生答案两个文本间的关系义原的相似度为:
Sim3(s1,s2);
参考答案和学生答案两个文本间的关系符号的相似度为:
Sim4(s1,s2)。
于是,根据上述义原系统中各种义原概念的相似度,通过由部分加权合成整体的概念相似度为其中,β1(1≤t≤4)是权重参数,由于第一基本义原描述反映了概念最主要的特征,所以β1一般大于0.5,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。设两个汉语词语w1和w2,其中w1包含n个概念:c11,c12,…….,c1n,w2有m个概念:c21,c22,………c2n,定义词语w1和w2的相似度是两两概念间相似度的最大值,计算公式其中Sim(s1i,s2j)表示来自不同词语中两两概念的相似度,如此就得到了两个词语之间的相似度值。其具体步骤为:
①计算两个集合中所有元素两两之间的相似度;
②从所有相似度值中选出最大值,将与其关联的两个元素建立对应关系;
③从所有相似度值中删去那些已经建立对应关系的元素的相似度值;
④循环执行第②步和第③步,直到删除所有的相似度值;
⑤没有建立对应关系的元素与空值对应,从而使得两个集合中的元素全部建立起一一对应的关系,并定义集合的相似度等于两个集合中对应元素的相似度值的平均值。
所述句法结构相似度的计算包括,利用语言技术平台的依存句法分析方法,对参考答案中的第一分句和学生答案中的第二分句的句法结构进行分析,分别获得第一结构语法树和第二结构语法树,其中第二结构语法树保存在所述对比模板中,通过将学生答案的第二结构语法所树和所述对比模板中的第一结构语法树中的对应级进行对比,从而对所述第二结构语法树中每级赋予权重,进而获得学生答案与参考答案中每条分句的句法结构的相似度。
综合评分
将获得的学生答案与参考答案间的包括,词向量相似度、句向量相似度、词结构相似度、句法结构相似度以及学生答案的关键词得分和语句情感得分作为参考量输入神经网络中;通过将部分学生答案进行手动打分,进而对所述神经网络进行训练,从而获得所述参考量的对应权重并保存;将学生答案中的每条分句通过所述神经网络进行评分,进而将学生答案中每条分句的得分进行求和,从而获得学生答案的综合评分。
如图2所示,为根据本发明实施方式的一种可选实施例的工作流程图。
首先,对参考答案进行处理,包括:语句预处理,对参考答案文本进行分词、分句和词性标注,分别获得第一分词、第一分句以及第一词语列表;接下来,根据所述分词记过进行特征提取,包括词向量提取、句向量提取、词结构提取以及句法结构提取,分别获得第一词向量、第一句向量、第一词结构以及第一结构语法树,通过对所述参考答案文本进行网络压缩,从而获得包含N条语句所对应特征的对比模板,用于对学生答案的评分,其中,所述对比模板包括,压缩后的参考答案文本的所对应的词向量(词模型)、句向量(句模型)、词结构以及句法结构(结构语法树)。此外,在词向量的提取过程中,通过统计训练词向量模型的机器学习方法的关键词作为第一关键词。
然后,对学生答案进行处理,包括:语句预处理,对学生答案文本进行分词、分句、词性标注以及关键词检测,从而分别获得第二分词、第二分句、第二词语列表(本体数据库)以及第二关键词;接下来根据所述第二分词进行特征提取,包括词向量提取、句向量提取、词结构提取以及句法结构提取,分别获得第二词向量、第二句向量、第二词结构以及第二结构语法树。
再然后,根据所述学生答案的处理结果与所述对比模板进行相似度计算,包括,词向量相似度、句向量相似度、词结构相似度以及句法结构相似度;以及将学生答案的第二关键词与参考答案的第一关键词进行对比,从而获得学生答案的关键词得分;以及学生答案中分句的情感得分。
最后,通过以上述词向量相似度、句向量相似度、词结构相似度、句法结构相似度、关键词得分以及分句的情感得分作为参数输入到神经网络中进行训练,从而获得对应参数的权重,进而通过训练好的神经网络对学生答案中的每条分句进行评分,最后通过对每条评分进行求和进而完成对学生答案的评分。上述中,所述对神经网络进行训练并获得对应参数的权重的方法包括:
选取一定量的学生答案作为样本,分别对所述样本进行手动评分,以及通过神经网络进行评分,通过两种评分的对比,进而获得所述对应参数的权重。由于本发明从多方面分析了学生答案和参考答案间的关系,从而使本发明可以通过少量样本的训练即可实现良好的评分效果这一表现。
需指出的是,本发明方法不仅适用于学生答案的评分,还可以用于实现任何可以通过本发明方法实现的操作,如用于判断两篇文档的相似度等。上述中神经网络中参数的权重的选择,可选的,通过对一类评分对象进行训练,从而获得适用于该类的主观题的评分;优选的,根据评分对象的不同分别进行训练参数的权重,进而获得更加准确的评分效果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种主观题评分方法,其特征在于,包括:
语句预处理,包括对目标段落进行分句、分词、词性标注、关键词检测以及语句情感评分;
特征提取,包括根据所述分词的结果对目标段落进行词向量提取、句向量提取、词结构提取以及句法结构提取;
特征融合,包括对目标段落的特征提取结果进行特征融合,进而获得对比模板;
相似度计算,包括根据所述特征提取结果以及特征融合结果进行相似度计算;
综合评分,将所述相似度计算、关键词检测以及语句情感评分进行融合,进而对目标段落进行综合评分。
2.根据权利要求1所述的主观题评分方法,其特征在于,所述目标段落包括:参考答案和/或学生答案,通过对所述参考答案进行语句预处理、特征提取以及特征融合,从而获得对比模板,用于作为学生答案的评分标准;通过对所述学生答案进行语句预处理以及特征提取,从而根据语句预处理结果以及特征提取结果与所述对比模板进行相似度计算,进而对所述学生答案进行综合评分。
3.根据权利要求2所述的主观题评分方法,其特征在于,对对所述参考答案进行语句预处理包括:
根据参考答案段落中的标识符进行分句,获得多条第一分句;
采用文本应用Python中的中文分词组件对所述参考答案进行分词和词性标注,获得第一分词及其词性标注进而组成第一词语列表。
4.根据权利要求3所述的主观题评分方法,其特征在于,根据所述分词的结果对所述参考答案段落进行词向量提取、句向量提取、词结构提取以及句法结构提取包括:
通过中文语料,训练word2vec词向量模型,获得一定规模的词语的向量表示,进而将所述参考中的多个第一分词转化为多个第一词向量;
通过中文语料,训练doc2vec句向量模型,获得具体语句的向量表示,进而将所述参考答案中的多条第一分句转化为多个第一句向量;
利用义原相似度以及概念相似度方法,对所述多个第一分词的词结构进行分析,获得对应所述第一分词的第一词结构;
利用依存句法分析方法,对所述多条第一分句的句法结构进行分析,获得所述第一分句对应的第一结构语法树。
5.根据权利要求4所述的主观题评分方法,其特征在于,在通过中文语料,训练得到word2vec词向量模型的过程中,统计训练该词向量模型的机器学习方法的关键词作为第一关键词。
6.根据权利要求4所述的主观题评分方法,其特征在于,根据对所述参考答案的特征提取结果进行特征融合包括:
对参考答案中每条分句所对应的第二句向量进行聚类分析,进而根据聚类分析结果将参考答案中的M条语句压缩为N条语句,其中N<M;
将所述N条语句中每条语句所对应的句向量,词向量,词结构及句法结构特征保存形成模板,从而将获得的N个模板作为评分的对比模板。
7.根据权利要求2所述的主观题评分方法,其特征在于,对所述对学生答案进行语句预处理包括:
根据所述学生答案段落中的标识符进行分句,获得多条第二分句;
采用文本应用Python中的中文分词组件对所述学生答案进行分词和词性标注,获得第二分词及其词性标注进而组成第二词语列表;
遍历所述第二词语列表进行关键词检测,提取所述第二列表中的实词作为第二关键词,并通过与所述第一关键词进行对比,获得学生答案的关键词得分;
根据情感分析方法对所述学生答案中的分句进行情感分析,获得对应所述多条分句的情感评分。
8.根据权利要求7所述的主观题评分方法,其特征在于,根据所述分词的结果对学生答案的预处理结果进行词向量提取、句向量提取、词结构提取以及句法结构提取包括:
通过中文语料,训练word2vec词向量模型,获得一定规模的词语的向量表示,进而将所述参考中的多个第二分词转化为多个第二词向量;
通过中文语料,训练doc2vec句向量模型,获得具体语句的向量表示,进而将所述参考答案中的多条第二分句转化为多个第二句向量;
利用义原相似度以及概念相似度方法,对多个第二分词的词结构进行分析,获得对应所述第二分词的第二词结构;
利用语言技术平台的依存句法分析方法,对所述多条第二分句的句法结构进行分析,获得所述第二分句对应的第二结构语法树。
9.根据权利要求2所述的主观题评分方法,其特征在于,所述根据学生答案的语句预处理结果以及特征提取结果与所述对比模板进行相似度计算,包括:
将学生答案的第二词向量与所述对比模板中的第一词向量进行內积计算,从而获得词向量相似度;
将学生答案的第二句向量与所述对比模板中的第一句向量进行內积计算,从而获得句向量相似度;
根据所述学生答案的第二词结构和所述比模板中的第一词结构,获得词结构相似度;
将学生答案的第二结构语法所树与对比模板中的第一结构语法树中的对应级别进行对比,通过对所述第二结构语法树中的每级分别赋予权重,进而获得学生答案与参考答案的句法结构的相似度。
10.根据权利要求2所述的主观题评分方法,其特征在于,所述综合评分包括:
将学生答案与参考答案之间的,包括词向量相似度、句向量相似度、词结构相似度、句法结构相似度以及学生答案的关键词得分和语句情感得分作为参量输入神经网络中;
通过对部分学生答案进行手动打分,进而对所述神经网络进行训练,从而获得所述参量的对应权重并保存;
将学生答案中的每条分句通过所述神经网络进行评分,而后将学生答案中每条分句的得分进行求和,从而获得学生答案的综合评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810950400.7A CN109213999B (zh) | 2018-08-20 | 2018-08-20 | 一种主观题评分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810950400.7A CN109213999B (zh) | 2018-08-20 | 2018-08-20 | 一种主观题评分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213999A true CN109213999A (zh) | 2019-01-15 |
CN109213999B CN109213999B (zh) | 2023-05-05 |
Family
ID=64988994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810950400.7A Active CN109213999B (zh) | 2018-08-20 | 2018-08-20 | 一种主观题评分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213999B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871322A (zh) * | 2019-01-28 | 2019-06-11 | 华南理工大学 | 一种基于机器学习的程序题自动评分方法 |
CN109977428A (zh) * | 2019-03-29 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN110084371A (zh) * | 2019-03-27 | 2019-08-02 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的模型迭代更新方法、装置和计算机设备 |
CN110096572A (zh) * | 2019-04-12 | 2019-08-06 | 平安普惠企业管理有限公司 | 一种样本生成方法、装置及计算机可读介质 |
CN110096709A (zh) * | 2019-05-07 | 2019-08-06 | 百度在线网络技术(北京)有限公司 | 指令处理方法及装置、服务器及计算机可读介质 |
CN110263148A (zh) * | 2019-06-27 | 2019-09-20 | 中国工商银行股份有限公司 | 智能简历筛选方法及装置 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
CN110363194A (zh) * | 2019-06-17 | 2019-10-22 | 深圳壹账通智能科技有限公司 | 基于nlp的智能阅卷方法、装置、设备及存储介质 |
CN110362742A (zh) * | 2019-06-18 | 2019-10-22 | 平安普惠企业管理有限公司 | 课程信息匹配方法、装置、计算机设备及存储介质 |
CN110413961A (zh) * | 2019-06-21 | 2019-11-05 | 平安国际智慧城市科技股份有限公司 | 基于分类模型进行文本评分的方法、装置和计算机设备 |
CN110471936A (zh) * | 2019-08-19 | 2019-11-19 | 福建工程学院 | 一种混合式sql自动评分方法 |
CN111221939A (zh) * | 2019-11-22 | 2020-06-02 | 华中师范大学 | 评分方法、装置和电子设备 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111310458A (zh) * | 2020-03-20 | 2020-06-19 | 广东工业大学 | 一种基于多特征融合的主观题自动评分方法 |
CN111767394A (zh) * | 2020-06-24 | 2020-10-13 | 中国工商银行股份有限公司 | 一种基于人工智能专家系统的摘要提取方法及装置 |
CN112183111A (zh) * | 2020-09-28 | 2021-01-05 | 亚信科技(中国)有限公司 | 长文本语义相似度匹配方法、装置、电子设备及存储介质 |
CN112184032A (zh) * | 2020-09-30 | 2021-01-05 | 广州思酷信息科技有限公司 | 一种用于对主观题进行智能评分的方法及系统 |
CN112232681A (zh) * | 2020-10-19 | 2021-01-15 | 山东山大鸥玛软件股份有限公司 | 一种面向计算分析类非选择题的智能评卷方法 |
CN112257430A (zh) * | 2020-03-27 | 2021-01-22 | 北京来也网络科技有限公司 | 结合rpa和ai的语句处理方法、电子设备和存储介质 |
CN112287083A (zh) * | 2020-10-29 | 2021-01-29 | 北京乐学帮网络技术有限公司 | 一种评阅方法、装置、计算机设备及存储装置 |
CN112308370A (zh) * | 2020-09-16 | 2021-02-02 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分技术 |
CN112434688A (zh) * | 2020-12-01 | 2021-03-02 | 北京爱论答科技有限公司 | 一种试题评价模型的训练方法及装置 |
CN112948562A (zh) * | 2021-04-01 | 2021-06-11 | 广东优碧胜科技有限公司 | 问答处理方法、装置、计算机设备及可读存储介质 |
CN112989784A (zh) * | 2021-03-04 | 2021-06-18 | 广州汇才创智科技有限公司 | 基于孪生神经网络的文本自动评分方法、装置及电子设备 |
CN113312909A (zh) * | 2021-05-19 | 2021-08-27 | 华南理工大学 | 基于自然语言处理的智能分析试题答案方法与系统 |
CN113934814A (zh) * | 2021-08-01 | 2022-01-14 | 北京工业大学 | 古诗文主观题自动评分方法 |
CN116629270A (zh) * | 2023-06-12 | 2023-08-22 | 广州市南方人力资源评价中心有限公司 | 基于考试大数据以及文本语义的主观题评分方法和装置 |
CN117540727A (zh) * | 2024-01-08 | 2024-02-09 | 珠海金智维信息科技有限公司 | 基于albert模型与rpa技术的主观题评分方法及系统 |
CN117708283A (zh) * | 2023-11-29 | 2024-03-15 | 北京中关村科金技术有限公司 | 召回内容的确定方法、召回内容的确定装置和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
-
2018
- 2018-08-20 CN CN201810950400.7A patent/CN109213999B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
Non-Patent Citations (6)
Title |
---|
ALLA DEFALLAH ALREHILY ET AL: "Intelligent Electronic Assessment for Subjective Exams", 《6TH INTERNATIONAL CONFERENCE OF ADVANCED COMPUTER SCIENCE & INFORMATION TECHNOLOGY》 * |
RUNHUA LI ET AL: "A New Algorithm to the Automated Assessment of the Chinese Subjective Answer", 《2013 INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY AND APPLICATIONS》 * |
YAN TIAN: "Online Automated Assessment of Student English-Chinese Translation", 《2009 WRI WORLD CONGRESS ON COMPUTER SCIENCE AND INFORMATION ENGINEERING》 * |
赵知: "用于自动作文评分的句子聚类研究", 《中国科学院机构知识库网格》 * |
陈珊珊: "自动作文评分模型及方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈立蜜: "数据挖掘应用于在线听力简答题自动评分的研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871322A (zh) * | 2019-01-28 | 2019-06-11 | 华南理工大学 | 一种基于机器学习的程序题自动评分方法 |
CN110084371A (zh) * | 2019-03-27 | 2019-08-02 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的模型迭代更新方法、装置和计算机设备 |
CN109977428B (zh) * | 2019-03-29 | 2024-04-02 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN109977428A (zh) * | 2019-03-29 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN110096572A (zh) * | 2019-04-12 | 2019-08-06 | 平安普惠企业管理有限公司 | 一种样本生成方法、装置及计算机可读介质 |
CN110096572B (zh) * | 2019-04-12 | 2023-09-15 | 成都美满科技有限责任公司 | 一种样本生成方法、装置及计算机可读介质 |
CN110096709A (zh) * | 2019-05-07 | 2019-08-06 | 百度在线网络技术(北京)有限公司 | 指令处理方法及装置、服务器及计算机可读介质 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
CN110363194A (zh) * | 2019-06-17 | 2019-10-22 | 深圳壹账通智能科技有限公司 | 基于nlp的智能阅卷方法、装置、设备及存储介质 |
CN110362742A (zh) * | 2019-06-18 | 2019-10-22 | 平安普惠企业管理有限公司 | 课程信息匹配方法、装置、计算机设备及存储介质 |
CN110413961A (zh) * | 2019-06-21 | 2019-11-05 | 平安国际智慧城市科技股份有限公司 | 基于分类模型进行文本评分的方法、装置和计算机设备 |
CN110263148A (zh) * | 2019-06-27 | 2019-09-20 | 中国工商银行股份有限公司 | 智能简历筛选方法及装置 |
CN110471936A (zh) * | 2019-08-19 | 2019-11-19 | 福建工程学院 | 一种混合式sql自动评分方法 |
CN110471936B (zh) * | 2019-08-19 | 2022-06-07 | 福建工程学院 | 一种混合式sql自动评分方法 |
CN111221939B (zh) * | 2019-11-22 | 2023-09-08 | 华中师范大学 | 评分方法、装置和电子设备 |
CN111221939A (zh) * | 2019-11-22 | 2020-06-02 | 华中师范大学 | 评分方法、装置和电子设备 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111291156B (zh) * | 2020-01-21 | 2024-01-12 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111310458A (zh) * | 2020-03-20 | 2020-06-19 | 广东工业大学 | 一种基于多特征融合的主观题自动评分方法 |
CN111310458B (zh) * | 2020-03-20 | 2023-04-07 | 广东工业大学 | 一种基于多特征融合的主观题自动评分方法 |
CN112257430A (zh) * | 2020-03-27 | 2021-01-22 | 北京来也网络科技有限公司 | 结合rpa和ai的语句处理方法、电子设备和存储介质 |
CN111767394A (zh) * | 2020-06-24 | 2020-10-13 | 中国工商银行股份有限公司 | 一种基于人工智能专家系统的摘要提取方法及装置 |
CN112308370A (zh) * | 2020-09-16 | 2021-02-02 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分技术 |
CN112308370B (zh) * | 2020-09-16 | 2024-03-05 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分方法 |
CN112183111A (zh) * | 2020-09-28 | 2021-01-05 | 亚信科技(中国)有限公司 | 长文本语义相似度匹配方法、装置、电子设备及存储介质 |
CN112184032A (zh) * | 2020-09-30 | 2021-01-05 | 广州思酷信息科技有限公司 | 一种用于对主观题进行智能评分的方法及系统 |
CN112232681A (zh) * | 2020-10-19 | 2021-01-15 | 山东山大鸥玛软件股份有限公司 | 一种面向计算分析类非选择题的智能评卷方法 |
CN112287083A (zh) * | 2020-10-29 | 2021-01-29 | 北京乐学帮网络技术有限公司 | 一种评阅方法、装置、计算机设备及存储装置 |
CN112434688A (zh) * | 2020-12-01 | 2021-03-02 | 北京爱论答科技有限公司 | 一种试题评价模型的训练方法及装置 |
CN112989784A (zh) * | 2021-03-04 | 2021-06-18 | 广州汇才创智科技有限公司 | 基于孪生神经网络的文本自动评分方法、装置及电子设备 |
CN112948562A (zh) * | 2021-04-01 | 2021-06-11 | 广东优碧胜科技有限公司 | 问答处理方法、装置、计算机设备及可读存储介质 |
CN113312909B (zh) * | 2021-05-19 | 2023-01-06 | 华南理工大学 | 基于自然语言处理的智能分析试题答案方法与系统 |
CN113312909A (zh) * | 2021-05-19 | 2021-08-27 | 华南理工大学 | 基于自然语言处理的智能分析试题答案方法与系统 |
CN113934814A (zh) * | 2021-08-01 | 2022-01-14 | 北京工业大学 | 古诗文主观题自动评分方法 |
CN113934814B (zh) * | 2021-08-01 | 2024-05-28 | 北京工业大学 | 古诗文主观题自动评分方法 |
CN116629270A (zh) * | 2023-06-12 | 2023-08-22 | 广州市南方人力资源评价中心有限公司 | 基于考试大数据以及文本语义的主观题评分方法和装置 |
CN116629270B (zh) * | 2023-06-12 | 2024-02-02 | 广州市南方人力资源评价中心有限公司 | 基于考试大数据以及文本语义的主观题评分方法和装置 |
CN117708283A (zh) * | 2023-11-29 | 2024-03-15 | 北京中关村科金技术有限公司 | 召回内容的确定方法、召回内容的确定装置和电子设备 |
CN117540727A (zh) * | 2024-01-08 | 2024-02-09 | 珠海金智维信息科技有限公司 | 基于albert模型与rpa技术的主观题评分方法及系统 |
CN117540727B (zh) * | 2024-01-08 | 2024-04-12 | 珠海金智维信息科技有限公司 | 基于albert模型与rpa技术的主观题评分方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109213999B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213999A (zh) | 一种主观题评分方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110516055A (zh) | 一种结合bert的用于教学任务的跨平台智能问答实现方法 | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
CN107577826A (zh) | 基于原始诊断数据的疾病分类编码方法及系统 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN111209384A (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
CN111310474A (zh) | 基于激活-池化增强bert模型的在线课程评论情感分析方法 | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN110765254A (zh) | 一种融合多视角答案重排序的多文档问答系统模型 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN107886231A (zh) | 客服的服务质量评价方法与系统 | |
CN113111152A (zh) | 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法 | |
CN104657466A (zh) | 一种基于论坛帖子特征的用户兴趣识别方法及装置 | |
CN115438152B (zh) | 一种基于多神经网络与知识图谱的简答题评分方法及系统 | |
CN107992482B (zh) | 数学主观题解答步骤的规约方法及系统 | |
CN115761235A (zh) | 基于知识蒸馏的零样本语义分割方法、系统、设备及介质 | |
CN107886233A (zh) | 客服的服务质量评价方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |