发明内容
基于上述问题本申请提出了一种外语学习智慧教学综合考核系统及方法,不但能够实现对客观题的准确评判,还能够实现对主观题翻译结果的客观评价,能够给用户提供客观、准确的评价结果。
一种外语学习智慧教学综合考核系统,系统包括:
试题生成单元,用于根据题库随机生成一套外语考核试卷,所述试题包括选择题、听写题、翻译题;
信息输入单元,用于给用户提供信息编辑界面,完成对所述考核试卷的电子作答;
数据存储服务器,用于对所述电子作答的信息进行远程数据存储;
云服务器识别单元,用于对所述电子作答的信息进行识别,得到局部试题评价分数;
考核评价单元,用于对所有试题的识别结果进行汇总处理,得到最终的考核评价结果。
可选的,所述外语为英语、法语、德语、俄语、日语、韩语、西班牙语、希腊语中的任一项语言。
可选的,所述听写题、翻译题均采用单词识别模型进行处理,然后完成与标准答案的语义相似度判定。
可选的,所述考核系统还包括单词识别模型,其能够识别出写错的单词;所述考核系统还包括:单词校正单元,用于对写错的单词进行智能校正,若能够唯一校正成功,则直接校正成正确单词,否则,不予校正;所述用于对所述电子作答的信息进行识别时,采用校正后的单词替代原单词。
可选的,所述云服务识别单元采用深度神经网络实现分数或等级的确定。
对应的,本申请还提出了一种外语学习智慧教学综合考核方法,所述方法包括:
利用试题生成单元根据题库随机生成一套外语考核试卷,所述试题包括选择题、听写题、翻译题;
利用信息输入单元给用户提供信息编辑界面,完成对所述考核试卷的电子作答;
利用数据存储服务器对所述电子作答的信息进行远程数据存储;
利用云服务器识别单元对所述电子作答的信息进行识别,得到局部试题评价分数;
利用考核评价单元对所有试题的识别结果进行汇总处理,得到最终的考核评价结果。
可选的,所述外语为英语、法语、德语、俄语、日语、韩语、西班牙语、希腊语中的任一项语言。
可选的,所述听写题、翻译题均采用单词识别模型进行处理,然后完成与标准答案的语义相似度判定。
可选的,所述考核方法还包括单词识别模型,其能够识别出写错的单词,所述考核方法还包括:单词校正单元,用于对写错的单词进行智能校正,若能够唯一校正成功,则直接校正成正确单词,否则,不予校正;所述用于对所述电子作答的信息进行识别时,采用校正后的单词替代原单词。
可选的,所述云服务识别单元采用深度神经网络实现分数或等级的确定。
本发明还提出了一种可读存储介质,其上存储有程序指令,所述程序指令能够实现上述任一种方法。
本发明还提出了一种装置,装置含有存储器和处理器,存储器上存储有程序指令,所述程序指令能够实现上述任一种方法。
本申请的技术效果在于:
1.不但实现了对客观题智能评价,还完成了对主观题的客观评价,属于发明人的独创性贡献。
2.本申请的识别方法为发明人的独创性贡献,具有极高的识别准确精度,首次将CNN-DSSM用于翻译质量的评价,这种应用本身已经属于独创性贡献,此外,还适应性改进了其卷积层,使考核系统能够科学评价翻译结果。
3.本申请还能够实现试题的自定义,用户可自行设定待翻译的语句。
具体实施方式
如图1所述,为解决上述问题,本申请提出了一种外语学习智慧教学综合考核系统,系统包括:
试题生成单元,用于根据题库随机生成一套外语考核试卷,所述试题包括选择题、听写题、翻译题;
信息输入单元,用于给用户提供信息编辑界面,完成对所述考核试卷的电子作答;
数据存储服务器,用于对所述电子作答的信息进行远程数据存储;
云服务器识别单元,用于对所述电子作答的信息进行识别,得到局部试题评价分数;
考核评价单元,用于对所有试题的识别结果进行汇总处理,得到最终的考核评价结果。
可选的,所述外语为英语、法语、德语、俄语、日语、韩语、西班牙语、希腊语中的任一项语言。
可选的,所述听写题、翻译题均采用单词识别模型进行处理,然后完成与标准答案的语义相似度判定。
可选的,所述考核系统还包括单词识别模型,其能够识别出写错的单词;所述考核系统还包括:单词校正单元,用于对写错的单词进行智能校正,若能够唯一校正成功,则直接校正成正确单词,否则,不予校正;所述用于对所述电子作答的信息进行识别时,采用校正后的单词替代原单词。
可选的,所述云服务识别单元采用深度神经网络实现分数或等级的确定。
可选的,所述考核系统还包括试题自定义单元,用于供用户自行编辑试题内容。作为一具体实施方式,用户可自行编辑想要翻译的流形语句,例如用户想要翻译中文“2022年春季在北京成功举办了冬季运动会”成英文形式,当然也可以是其他任何一种语言。用户自行编辑试题内容也可以包含其他试题模式,例如选择题、判断题、阅读题、写作题等等。对于用户自定义的翻译题目,题库中可能缺乏标准答案,此时仍然需要完成用户答题内容翻译质量评定。此时,考核系统可利用不同的翻译引擎进行翻译,例如:谷歌翻译、百度翻译、金山翻译等等,还可设置人工权威翻译专家翻译接口,可选的,考核系统设置有3个不同的翻译引擎,第一翻译引擎、第二翻译引擎、第三翻译引擎,分别对用户自定义的待翻译语句进行独立翻译,获得第一翻译结果、第二翻译结果、第三翻译结果,利用语义相似度算法获得三种不同翻译结果两两之间的距离,将与其它两个翻译结果之间的距离和最小的翻译结果确定为最佳翻译结果。作为一具体的实施例,设三种不同的翻译结果分别为A、B、C,A与B的翻译距离为0.1,与C之间的翻译距离为0.2,则A与B、C的翻译距离和为0.1+0.2=0.3;B与A的翻译距离为0.1,与C质检的翻译距离为0.3,则B与A、C的翻译距离和为:0.1+0.3=0.4;同理,C与A、B的翻译距离和为:0.2+0.3=0.5,此时,选择A为最佳翻译结果。
可选的,可以选择3个以上的翻译引擎采用类似的方法进行最佳翻译结果的确定,逻辑相同,此处不再赘述。
如果设置人工权威翻译专家翻译接口,则可直接将人工权威翻译专家的翻译结果作为最佳翻译结果。
当选择出最佳翻译结果后,利用用户的作答翻译结果与所述最佳翻译结果再次进行相似度判断,在相似度判断中,由单词校正单元首先进行单词校正,根据相似度判断结果,给用户的作答赋予与之匹配的分数或等级,具体的赋值方法可采用阅卷中关键知识点的方式来确定翻译质量。可选的,如果单词校正单元校正的较多的单词,则还需减去一定的分数或对等级进行降级。
为更准确理解本发明关于翻译质量评价的技术贡献,需先简要回顾下面的基本概念。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分,不同的学习框架下建立的学习模型很是不同,例如,卷积神经网络(Convolutional neuralnetworks,简称CNNs)就是一种深度的监督学习下的机器学习模型。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。
DSSM模型的核心思想是将query和doc映射到共同维度的语义空间,通过最大化query和doc语义向量之间的余弦相似度,从而训练语义模型,常用于信息推荐、广告推广领域。
CNN-DSSM模型简介:其哈希层的作用是将文本向量化之后,每个单词经过哈希层后可由一个30K的大小的向量表示;卷积层的作用是提取滑动滑动窗口下的上下文特征。卷积可以理解为一维卷积,窗口大小为3,即将待卷积部分三个单词拼接成一个90K的向量,而卷积核为一个90K*300的矩阵,每次卷积输出一个1*300的向量。(3)池化层的作用是为句子找到全局的上下文特征。池化层以Max-pooling的方式,每个feature map都取最大值,得到一个300维的向量;语义层的作用是降维,通过全连接层把一个300维的向量转化为一个128维的低维语义向量。全连接层激活函数输出的结果进行相似度计算,之后的方式与DSSM一致。
假设本领域技术人员均知晓与上述有关的基础概念,故而后续仅对与本申请独创性贡献的内容进行展开描述。
可选的,所述深度神经网络具体为CNN-DSSM模型,所述CNN-DSSM至少包含:输入层、表示层、匹配层,其中输入层的作用是把用户作答的翻译语句或与之对应的最佳翻译结果映射到向量空间;表示层由改进的卷积神经网络组成,包含词序层、词哈希层、卷积层、池化层、全连接层、输出层,其中,所述词序层完成用户作答的翻译语句或与之对应的最佳翻译结果中各词的语序确定;词哈希层用于将文本向量化后,每个词实现指定大小向量的表示;卷积层用于特征的提取;全连接层用于实现用户作答的翻译语句或与之对应的最佳翻译结果的低维语义向量表示;输出层用于输出当前用户作答的翻译语句的评价分数。
可选的,所述池化方法如下:
xe=f(ue)
其中,xe表示当前层的输出,we表示当前层的权重,φ表示损失函数,xe-1表示上一层的输出,be表示偏置,δ表示一预设常数;
N表示所述翻译样本数据集的大小,i取值1~N;Qyi表示翻译样本xi在其标签yi处的权重,Myi表示翻译样本xi在其标签yi处的偏差,Mj表示输出节点j处的偏差;θj,i为翻译样本xi与其对应标签yi的向量夹角。
激励函数RL为:
N表示所述翻译样本数据集的大小;Wyi表示翻译样本特征向量xi在其标签yi处的权重。
可选的,所述CNN-DSSM损失函数可以为:
式中,ψ(θ
j,i)=(-1)
kcos(mθ
j,i)-2k,m为预设参数,1≤m≤8;
k=abs(sign(cosθj,i))-(abs(sign(cos2θj,i))-sign(cosθj,i))/2。
对上述CNN-DSSM识别模型不断进行训练,直到满足预定的条件为止,得到训练后的识别评价模型。
对应的,本申请还提出了一种外语学习智慧教学综合考核方法,所述方法包括:
利用试题生成单元根据题库随机生成一套外语考核试卷,所述试题包括选择题、听写题、翻译题;
利用信息输入单元给用户提供信息编辑界面,完成对所述考核试卷的电子作答;
利用数据存储服务器对所述电子作答的信息进行远程数据存储;
利用云服务器识别单元对所述电子作答的信息进行识别,得到局部试题评价分数;
利用考核评价单元对所有试题的识别结果进行汇总处理,得到最终的考核评价结果。
可选的,所述外语为英语、法语、德语、俄语、日语、韩语、西班牙语、希腊语中的任一项语言。
可选的,所述听写题、翻译题均采用单词识别模型进行处理,然后完成与标准答案的语义相似度判定。
可选的,所述考核方法还包括单词识别模型,其能够识别出写错的单词,所述考核方法还包括:单词校正单元,用于对写错的单词进行智能校正,若能够唯一校正成功,则直接校正成正确单词,否则,不予校正;所述用于对所述电子作答的信息进行识别时,采用校正后的单词替代原单词。
可选的,所述云服务识别单元采用深度神经网络实现分数或等级的确定。
可选的,所述考核方法还包括:利用试题自定义单元供用户自行编辑试题内容。作为一具体实施方式,用户可自行编辑想要翻译的流形语句,例如用户想要翻译中文“2022年春季在北京成功举办了冬季运动会”成英文形式,当然也可以是其他任何一种语言。用户自行编辑试题内容也可以包含其他试题模式,例如选择题、判断题、阅读题、写作题等等。对于用户自定义的翻译题目,题库中可能缺乏标准答案,此时仍然需要完成用户答题内容翻译质量评定。此时,考核系统可利用不同的翻译引擎进行翻译,例如:谷歌翻译、百度翻译、金山翻译等等,还可设置人工权威翻译专家翻译接口,可选的,考核系统设置有3个不同的翻译引擎,第一翻译引擎、第二翻译引擎、第三翻译引擎,分别对用户自定义的待翻译语句进行独立翻译,获得第一翻译结果、第二翻译结果、第三翻译结果,利用语义相似度算法获得三种不同翻译结果两两之间的距离,将与其它两个翻译结果之间的距离和最小的翻译结果确定为最佳翻译结果。作为一具体的实施例,设三种不同的翻译结果分别为A、B、C,A与B的翻译距离为0.1,与C之间的翻译距离为0.2,则A与B、C的翻译距离和为0.1+0.2=0.3;B与A的翻译距离为0.1,与C质检的翻译距离为0.3,则B与A、C的翻译距离和为:0.1+0.3=0.4;同理,C与A、B的翻译距离和为:0.2+0.3=0.5,此时,选择A为最佳翻译结果。
可选的,可以选择3个以上的翻译引擎采用类似的方法进行最佳翻译结果的确定,逻辑相同,此处不再赘述。
如果设置人工权威翻译专家翻译接口,则可直接将人工权威翻译专家的翻译结果作为最佳翻译结果。
当选择出最佳翻译结果后,利用用户的作答翻译结果与所述最佳翻译结果再次进行相似度判断,在相似度判断中,由单词校正单元首先进行了单词校正,根据相似度判断结果,给用户的作答赋予与之匹配的分数或等级,具体的赋值方法可采用阅卷中关键知识点的方式来确定翻译质量。可选的,如果单词校正单元校正的较多的单词,则还需减去一定的分数或对等级进行降级。
可选的,所述深度神经网络具体为CNN-DSSM模型,所述CNN-DSSM至少包含:输入层、表示层、匹配层,其中输入层的作用是把用户作答的翻译语句或与之对应的最佳翻译结果映射到向量空间;表示层由改进的卷积神经网络组成,包含词序层、词哈希层、卷积层、池化层、全连接层、输出层,其中,所述词序层完成用户作答的翻译语句或与之对应的最佳翻译结果中各词的语序确定;词哈希层用于将文本向量化后,每个词实现指定大小向量的表示;卷积层用于特征的提取;全连接层用于实现用户作答的翻译语句或与之对应的最佳翻译结果的低维语义向量表示;输出层用于输出当前用户作答的翻译语句的评价分数。
可选的,所述池化方法如下:
xe=f(ue)
其中,xe表示当前层的输出,we表示当前层的权重,φ表示损失函数,xe-1表示上一层的输出,be表示偏置,δ表示一预设常数;
N表示所述翻译样本数据集的大小,i取值1~N;Qyi表示翻译样本xi在其标签yi处的权重,Myi表示翻译样本xi在其标签yi处的偏差,Mj表示输出节点j处的偏差;θj,i为翻译样本xi与其对应标签yi的向量夹角。
激励函数RL为:
N表示所述翻译样本数据集的大小;Wyi表示翻译样本特征向量xi在其标签yi处的权重。
可选的,所述CNN-DSSM损失函数可以为:
式中,ψ(θ
j,i)=(-1)
kcos(mθ
j,i)-2k,m为预设参数,1≤m≤8;
k=abs(sign(cosθj,i))-(abs(sign(cos2θj,i))-sign(cosθj,i))/2。
对上述CNN-DSSM识别模型不断进行训练,直到满足预定的条件为止,得到训练后的识别评价模型。
本发明还提出了一种可读存储介质,其上存储有程序指令,所述程序指令能够实现上述任一种方法。
本发明还提出了一种装置,装置含有存储器和处理器,存储器上存储有程序指令,所述程序指令能够实现上述任一种方法。
需要特别说明的是,以上各种实施例或进一步限定,在不冲突的情况下可自行组合使用,都构成本发明的实际公开范围,限于篇幅,不予一一列举,但各种组合方式均落入本申请的保护范围。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。