CN112434688A - 一种试题评价模型的训练方法及装置 - Google Patents

一种试题评价模型的训练方法及装置 Download PDF

Info

Publication number
CN112434688A
CN112434688A CN202011391384.6A CN202011391384A CN112434688A CN 112434688 A CN112434688 A CN 112434688A CN 202011391384 A CN202011391384 A CN 202011391384A CN 112434688 A CN112434688 A CN 112434688A
Authority
CN
China
Prior art keywords
evaluation
answer
test question
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011391384.6A
Other languages
English (en)
Inventor
王枫
马镇筠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Love Theory Technology Co ltd
Original Assignee
Beijing Love Theory Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Love Theory Technology Co ltd filed Critical Beijing Love Theory Technology Co ltd
Priority to CN202011391384.6A priority Critical patent/CN112434688A/zh
Publication of CN112434688A publication Critical patent/CN112434688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请实施例提供一种试题评价模型的训练方法及装置,涉及数据处理技术领域,该试题评价模型的训练方法包括:获取学生答题语料和教师评价语料;对学生答题语料和教师评价语料进行预处理,得到答题数据和评价数据;对答题数据和评价数据进行特征提取,得到答题特征和评价特征;对评价特征进行加权聚类,得到聚类特征;对答题特征和聚类特征进行匹配,得到特征组合;根据特征组合进行人工智能训练,得到试题评价模型,能够通过训练好的试题评价模型进行试题评价,从而避免了教师资源的大量消耗,进而能够避免过多等待时间导致降低学生的整体学习效率的情况出现。

Description

一种试题评价模型的训练方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种试题评价模型的训练方法及装置。
背景技术
目前,随着互联网行业的快速发展,现代教育使用互联网的情况变得越来越多,其中,学生在网上进行习题训练,老师在网上进行答卷批改的情形已经变的越来越多。然而,在实践中发现,越来越多的学生在网上进行习题训练使得答卷的数量激增,从而导致了没有那么多的老师对答卷进行批改,从而影响了学生的整体学习效率。
发明内容
本申请实施例的目的在于提供一种试题评价模型的训练方法及装置,能够通过训练好的试题评价模型进行试题评价,从而避免了教师资源的大量消耗,进而能够避免过多等待时间导致降低学生的整体学习效率的情况出现。
本申请实施例第一方面提供了一种试题评价模型的训练方法,包括:
获取学生答题语料和教师评价语料;
对所述学生答题语料和所述教师评价语料进行预处理,得到答题数据和评价数据;
对所述答题数据和所述评价数据进行特征提取,得到答题特征和评价特征;
对所述评价特征进行加权聚类,得到聚类特征;
对所述答题特征和所述聚类特征进行匹配,得到特征组合;
根据所述特征组合进行人工智能训练,得到试题评价模型。
在上述实现过程中,该方法能够根据学生的答题语料和教师的评价语料进行处理,并提取出相应的语料特征,从而使得该些语料特征可以应用于人工智能模型的训练,得到最终的试题评价模型。可见,实施这种实施方式,能够通过学生的答题数据和老师评价数据自动生成一个试题评价模型,从而使得该方法能够对学生进行语文试题题目进行自动化、智能化的评价。
进一步地,所述方法还包括:
接收学生输入的主观题答案并对所述主观题答案进行文字识别,得到识别结果;
通过所述试题评价模型对所述识别结果进行评价,得到试题评价结果。
在上述实现过程中,该方法可以通过OCR技术对学生输入的语文主观题答题进行内容识别,并通过试题评价模型对答案进行自动化评价,得到最终的试题评价结果。可见,实施这种实施方式,能够在试题评价模型获取之后应用于答案评价,从而提高试题评价模型的使用针对性,进而提高实体评价模型的评价准确度和评价效果。
进一步地,所述对所述学生答题语料和所述教师评价语料进行预处理,得到答题数据和评价数据的步骤包括:
对所述学生答题语料和所述教师评价语料进行去重与标注处理,得到处理答题语料和处理评价语料;
根据预设分词函数对所述处理答题语料和所述处理评价语料进行分词,得到答题词集和评价词集;
在所述答题词集和所述评价词集中过滤预设的停用词,得到答题数据和评价数据。
在上述实现过程中,该方法能够通过去重、对齐、删除和标注等方式对学生答题语料和教师评价语料进行预处理,并在同时对预处理结果进行分词,得到分词结果,并进一步对分词结果进行停用词过滤,从而得到有效的答题数据和评价数据,进而使得通过该方法训练的试题评价模型更加标准化,实用化。
进一步地,所述对所述评价特征进行加权聚类,得到聚类特征的步骤包括:
获取所述评价特征的TF-IDF权重值;
根据预设的主成分分析算法对所述评价特征进行降维,得到降维特征;
根据预设的K均值聚类算法对所述降维特征进行聚类,得到聚类结果;
根据所述主成分分析算法或t-分布邻域嵌入算法对所述聚类结果进行降维,得到聚类特征。
在上述实现过程中,该方法能够根据特征的TF-IDF权重值进行特征聚类,从而使得特征聚类的效果更好,进而有利于提高后续试题评价模型的训练效果,有利于提高后续试题评价模型的使用效果。
进一步地,所述对所述根据所述特征组合进行人工智能训练,得到试题评价模型的步骤包括:
将特征组合包括的多个特征子组合划分为训练集和测试集;
根据训练集和预设人工智能算法进行训练,得到初始评价模型;
根据测试集对初始评价模型进行测试迭代,得到试题评价模型。
在上述实现过程中,该方法能够对获取训练集和测试集,以使人工智能算法能够根据训练集进行训练,通过测试集进行测试,从而得到最终的试题评价面模型。
本申请实施例第二方面提供了一种试题评价模型的训练装置,所述试题评价模型的训练装置包括:
获取单元,用于获取学生答题语料和教师评价语料;
预处理单元,用于对所述学生答题语料和所述教师评价语料进行预处理,得到答题数据和评价数据;
特征提取单元,用于对所述答题数据和所述评价数据进行特征提取,得到答题特征和评价特征;
聚类单元,用于对所述评价特征进行加权聚类,得到聚类特征;
匹配单元,用于对所述答题特征和所述聚类特征进行匹配,得到特征组合;
训练单元,用于根据所述特征组合进行人工智能训练,得到试题评价模型。
在上述实现过程中,该种试题评价模型的训练装置能够通过学生的答题数据和老师评价数据自动生成一个试题评价模型,从而使得该方法能够对学生进行语文试题题目进行自动化、智能化的评价。
进一步地,所述训练装置还包括:
接收单元,用于接收学生输入的主观题答案并对所述主观题答案进行文字识别,得到识别结果;
评价单元,用于通过所述试题评价模型对所述识别结果进行评价,得到试题评价结果。
在上述实现过程中,该训练装置可以通过接收单元来接收学生输入的主观题答案并对所述主观题答案进行文字识别,得到识别结果;通过评价单元来通过所述试题评价模型对所述识别结果进行评价,得到试题评价结果。可见,实施这种实施方式,能够在试题评价模型获取之后应用于答案评价,从而提高试题评价模型的使用针对性,进而提高实体评价模型的评价准确度和评价效果。
进一步地,所述预处理单元包括:
去重子单元,用于对所述学生答题语料和所述教师评价语料进行去重与标注处理,得到处理答题语料和处理评价语料;
分词子单元,用于根据预设分词函数对所述处理答题语料和所述处理评价语料进行分词,得到答题词集和评价词集;
过滤子单元,用于在所述答题词集和所述评价词集中过滤预设的停用词,得到答题数据和评价数据。
在上述实现过程中,预处理单元可以通过去重子单元来对所述学生答题语料和所述教师评价语料进行去重与标注处理,得到处理答题语料和处理评价语料;通过分词子单元来根据预设分词函数对所述处理答题语料和所述处理评价语料进行分词,得到答题词集和评价词集;通过过滤子单元来在所述答题词集和所述评价词集中过滤预设的停用词,得到答题数据和评价数据。可见,实施这种实施方式,能够通过去重、对齐、删除和标注等方式对学生答题语料和教师评价语料进行预处理,并在同时对预处理结果进行分词,得到分词结果,并进一步对分词结果进行停用词过滤,从而得到有效的答题数据和评价数据,进而使得通过该方法训练的试题评价模型更加标准化,实用化。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的试题评价模型的训练方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的试题评价模型的训练方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种试题评价模型的训练方法的流程示意图;
图2为本申请实施例提供的另一种试题评价模型的训练方法的流程示意图;
图3为本申请实施例提供的一种试题评价模型的训练装置的结构示意图;
图4为本申请实施例提供的另一种试题评价模型的训练装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种试题评价模型的训练方法的流程示意图。其中,该试题评价模型的训练方法包括:
S101、获取学生答题语料和教师评价语料。
本实施例中,该方法可以通过在python中用pandas加载语料的方式收集学生主观题答题语料以及对应的教师评价语料。
在本实施例中,该方法可以将要分词的内容转换为list列表,以便于后续程序对该list列表进行相应处理操作。
S102、对学生答题语料和教师评价语料进行预处理,得到答题数据和评价数据。
S103、对答题数据和评价数据进行特征提取,得到答题特征和评价特征。
本实施例中,上述的特征提取过程可以为词向量特征抽取。在该过程中,该方法可以将词袋模型将文本中的词语转换为词频矩阵。
S104、对评价特征进行加权聚类,得到聚类特征。
S105、对答题特征和聚类特征进行匹配,得到特征组合。
本实施例中,答题特征包括多个答题子特征,聚类特征包括多个聚类子特征,其中答题子特征和聚类子特征两者之间一一对应。
举例来说,一个答题结果对应一个答题评价。
S106、根据特征组合进行人工智能训练,得到试题评价模型。
作为一种可选的实施方式,特征组合包括多个特征子组合对根据特征组合进行人工智能训练,得到试题评价模型的步骤包括:
将特征组合包括的多个特征子组合划分为训练集和测试集;
根据训练集和预设人工智能算法进行训练,得到初始评价模型;
根据测试集对初始评价模型进行测试迭代,得到试题评价模型。
实施这种实施方式,试题评价模型是测试迭代过程中可以得到的效果最好的模型。
作为一种进一步可选的实施方式,根据训练集和预设人工智能算法进行训练,得到初始评价模型的步骤包括:
使用MultinomialNB函数和朴素贝叶斯分类器对训练集进行分类模型训练,得到初始评价模型。
作为一种进一步可选的实施方式,根据测试集对初始评价模型进行测试迭代,得到试题评价模型的步骤包括:
根据测试集对初始评价模型进行测试,得到错误率、准确率和模型AUC值;
根据错误率、准确率和模型AUC值对初始评价模型进行测试迭代,得到试题评价模型。
本实施例中,该方法可以用sk-learn对数据切分,从而分成训练集和测试集。
在本实施例中,该方法可以优先把训练数据转换为词袋模型。然后再定义朴素贝叶斯分类器,并对训练集进行分类模型训练。其中,该训练过程中可以直接使用sk-learn包中的MultinomialNB函数;同时,该方法也可以使用SVM训练、用决策树、随机森林、XGBoost、神经网络等取代朴素贝叶斯模型进行模型训练。
本实施例中,该方法可以用测试集来计算所有模型的AUC值,画出ROC曲线。
在本实施例中,ROC全称是“受试者工作特征”(Receiver OperatingCharacteristic)曲线。该方法可以根据模型的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到最后没有一个样本是正样例。
在本实施例中,上述过程中,每次都能计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了ROC曲线。ROC曲线的纵轴是“真正例率”(True Positive Rate,简称TPR),横轴是“假正例率”(FalsePositiveRate,简称FPR),两者分别定义为:
Figure BDA0002810789100000081
Figure BDA0002810789100000082
AUC就是ROC曲线下的面积,衡量学习器优劣的一种性能指标。AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率。
在本实施例中,该方法还可以用各个模型进行测试集的预测,计算错误率、精度、准确率、精确度、召回率、F1衡量;然后,根据对比各模型的AUC值以及各项预测指标得到的对比结果,对试题评价模型进行再拟合,从而获取到效果最好的试题评价模型。
本申请实施例中,该方法的执行主体可以为计算机、服务器、智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
可见,实施本实施例所描述的试题评价模型的训练方法,能够根据学生的答题语料和教师的评价语料进行处理,并提取出相应的语料特征,从而使得该些语料特征可以应用于人工智能模型的训练,得到最终的试题评价模型。可见,实施这种实施方式,能够通过学生的答题数据和老师评价数据自动生成一个试题评价模型,从而使得该方法能够对学生进行语文试题题目进行自动化、智能化的评价。
实施例2
请参看图2,图2为本申请实施例提供的一种试题评价模型的训练方法的流程示意图。如图2所示,其中,该试题评价模型的训练方法包括:
S201、获取学生答题语料和教师评价语料。
S202、对学生答题语料和教师评价语料进行去重与标注处理,得到处理答题语料和处理评价语料。
本实施例中,该方法用于表示对学生答题语料和教师评价语料进行语料清洗的操作。其中,语料清洗的方法包括去重、对齐、删除和标注等。
S203、根据预设分词函数对处理答题语料和处理评价语料进行分词,得到答题词集和评价词集。
本实施例中,该方法可以调用jieba包分词函数进行分词。
S204、在答题词集和评价词集中过滤预设的停用词,得到答题数据和评价数据。
本实施例中,该方法可以预先引入所需要的Python依赖包,有随机数库、pandas、jieba分词等,同时加载停用词字典,可以根据场景自己在该文本里面添加要去除的词(比如冠词、人称、数字等特定词)。
本实施例中,该方法能够生成更可靠的答题数据和评价数据,避免同类数据分布不均匀。
本申请实施例中,实施上述步骤S202~步骤S204,能够对学生答题语料和教师评价语料进行预处理,得到答题数据和评价数据。
在步骤S204之后,还包括以下步骤:
S205、对答题数据和评价数据进行特征提取,得到答题特征和评价特征。
S206、获取评价特征的TF-IDF权重值。
S207、根据预设的主成分分析算法对评价特征进行降维,得到降维特征。
本实施例中,该方法能够通过主成分分析算法将TF-IDF权重值降维到10维。
S208、根据预设的K均值聚类算法对降维特征进行聚类,得到聚类结果。
本实施例中,该方法可以调用python K-Means函数对降维后的降维特征进行聚类。
S209、根据主成分分析算法或t-分布邻域嵌入算法对聚类结果进行降维,得到聚类特征。
本实施例中,该方法可以通过通过主成分分析或TSNE对TF-IDF权重降维到2维。
在本实施例,聚类特征可以是一种可视化内容。
本实施例中,将教师评语通过TF-IDF方法提取关键词权重,并将该权重认为是评价特征的TF-IDF权重值。然后,再用K-means的方法进行聚类,从而能够得到几类教师评语聚类结果。
在本实施例中,TF-IDF是Term Frequency-Inverse Document Frequency的简写,其作为一种数值统计,能够反映一个词对于语料中某篇文档的重要性。其中,在信息检索和文本挖掘领域,它经常用于因子加权。
在本实施例中,TF-IDF的主要思想就是:如果某个词在一篇文档中出现的频率高,也即TF高;并且在语料库中其他文档中很少出现,即DF低,也即IDF高,则认为这个词具有很好的类别区分能力。
在本实施例中,TF为词频(TermFrequency),表示词t在文档d中出现的频率,计算公式:
Figure BDA0002810789100000111
其中,ni,j是该词ti在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。
在本实施例中,IDF为逆文档频率(Inverse Document Frequency),表示语料库中包含词t的文档的数目的倒数,计算公式:
Figure BDA0002810789100000112
其中,|D|表示语料库中的文件总数,|{j:ti∈dj}|包含词ti的文件数目,如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|。
在本实施例中,TF-IDF在实际中主要是将二者相乘,也即TF*IDF,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
举例来说,该过程能够确定出特定文件内的高频率词语,以及该词语在整个文件集合中的低文件频率,从而可以产生出高权重的TF-IDF。
本申请实施例中,实施上述步骤S206~步骤S209,能够对评价特征进行加权聚类,得到聚类特征。
S210、对答题特征和聚类特征进行匹配,得到特征组合。
S211、将特征组合包括的多个特征子组合划分为训练集和测试集。
S212、根据训练集和预设人工智能算法进行训练,得到初始评价模型。
S213、根据测试集对初始评价模型进行测试迭代,得到试题评价模型。
本申请实施例中,实施上述步骤S211~步骤S213,能够根据特征组合进行人工智能训练,得到试题评价模型。
作为一种可选的实施方式,该方法还可以包括以下步骤:
接收学生输入的主观题答案并对主观题答案进行文字识别,得到识别结果;
通过试题评价模型对识别结果进行评价,得到试题评价结果。
可见,实施本实施例所描述的试题评价模型的训练方法,能够通过学生的答题数据和老师评价数据自动生成一个试题评价模型,从而使得该方法能够对学生进行语文试题题目进行自动化、智能化的评价。
实施例3
请参看图3,图3为本申请实施例提供的一种试题评价模型的训练装置的结构示意图。如图3所示,该试题评价模型的训练装置包括:
获取单元310,用于获取学生答题语料和教师评价语料;
预处理单元320,用于对学生答题语料和教师评价语料进行预处理,得到答题数据和评价数据;
特征提取单元330,用于对答题数据和评价数据进行特征提取,得到答题特征和评价特征;
聚类单元340,用于对评价特征进行加权聚类,得到聚类特征;
匹配单元350,用于对答题特征和聚类特征进行匹配,得到特征组合;
训练单元360,用于根据特征组合进行人工智能训练,得到试题评价模型。
本申请实施例中,对于试题评价模型的训练装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的试题评价模型的训练装置,能够通过学生的答题数据和老师评价数据自动生成一个试题评价模型,从而使得该方法能够对学生进行语文试题题目进行自动化、智能化的评价。
实施例4
请一并参阅图4,图4是本申请实施例提供的一种试题评价模型的训练装置的结构示意图。其中,图4所示的试题评价模型的训练装置是由图3所示的试题评价模型的训练装置进行优化得到的。如图4所示,训练装置还包括:
接收单元370,用于接收学生输入的主观题答案并对主观题答案进行文字识别,得到识别结果;
评价单元380,用于通过试题评价模型对识别结果进行评价,得到试题评价结果。
作为一种可选的实施方式,预处理单元320包括:
去重子单元321,用于对学生答题语料和教师评价语料进行去重与标注处理,得到处理答题语料和处理评价语料;
分词子单元322,用于根据预设分词函数对处理答题语料和处理评价语料进行分词,得到答题词集和评价词集;
过滤子单元323,用于在答题词集和评价词集中过滤预设的停用词,得到答题数据和评价数据。
作为一种可选的实施方式,聚类单元340包括:
权重获取子单元341,用于获取评价特征的TF-IDF权重值;
降维子单元342,用于根据预设的主成分分析算法对评价特征进行降维,得到降维特征;
聚类子单元343,用于根据预设的K均值聚类算法对降维特征进行聚类,得到聚类结果;
降维子单元342,还用于根据主成分分析算法或t-分布邻域嵌入算法对聚类结果进行降维,得到聚类特征。
作为一种可选的实施方式,训练单元360包括:
划分子单元361,用于将特征组合包括的多个特征子组合划分为训练集和测试集;
训练子单元362,用于根据训练集和预设人工智能算法进行训练,得到初始评价模型;
迭代子单元363,用于根据测试集对初始评价模型进行测试迭代,得到试题评价模型。
本申请实施例中,对于试题评价模型的训练装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的试题评价模型的训练装置,能够通过学生的答题数据和老师评价数据自动生成一个试题评价模型,从而使得该方法能够对学生进行语文试题题目进行自动化、智能化的评价。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中任一项试题评价模型的训练方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项试题评价模型的训练方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种试题评价模型的训练方法,其特征在于,所述方法包括:
获取学生答题语料和教师评价语料;
对所述学生答题语料和所述教师评价语料进行预处理,得到答题数据和评价数据;
对所述答题数据和所述评价数据进行特征提取,得到答题特征和评价特征;
对所述评价特征进行加权聚类,得到聚类特征;
对所述答题特征和所述聚类特征进行匹配,得到特征组合;
根据所述特征组合进行人工智能训练,得到试题评价模型。
2.根据权利要求1所述的试题评价模型的训练方法,其特征在于,所述方法还包括:
接收学生输入的主观题答案并对所述主观题答案进行文字识别,得到识别结果;
通过所述试题评价模型对所述识别结果进行评价,得到试题评价结果。
3.根据权利要求1所述的试题评价模型的训练方法,其特征在于,所述对所述学生答题语料和所述教师评价语料进行预处理,得到答题数据和评价数据的步骤包括:
对所述学生答题语料和所述教师评价语料进行去重与标注处理,得到处理答题语料和处理评价语料;
根据预设分词函数对所述处理答题语料和所述处理评价语料进行分词,得到答题词集和评价词集;
在所述答题词集和所述评价词集中过滤预设的停用词,得到答题数据和评价数据。
4.根据权利要求1所述的试题评价模型的训练方法,其特征在于,所述对所述评价特征进行加权聚类,得到聚类特征的步骤包括:
获取所述评价特征的TF-IDF权重值;
根据预设的主成分分析算法对所述评价特征进行降维,得到降维特征;
根据预设的K均值聚类算法对所述降维特征进行聚类,得到聚类结果;
根据所述主成分分析算法或t-分布邻域嵌入算法对所述聚类结果进行降维,得到聚类特征。
5.根据权利要求1所述的试题评价模型的训练方法,其特征在于,所述对所述根据所述特征组合进行人工智能训练,得到试题评价模型的步骤包括:
将特征组合包括的多个特征子组合划分为训练集和测试集;
根据训练集和预设人工智能算法进行训练,得到初始评价模型;
根据测试集对初始评价模型进行测试迭代,得到试题评价模型。
6.一种试题评价模型的训练装置,其特征在于,所述试题评价模型的训练装置包括:
获取单元,用于获取学生答题语料和教师评价语料;
预处理单元,用于对所述学生答题语料和所述教师评价语料进行预处理,得到答题数据和评价数据;
特征提取单元,用于对所述答题数据和所述评价数据进行特征提取,得到答题特征和评价特征;
聚类单元,用于对所述评价特征进行加权聚类,得到聚类特征;
匹配单元,用于对所述答题特征和所述聚类特征进行匹配,得到特征组合;
训练单元,用于根据所述特征组合进行人工智能训练,得到试题评价模型。
7.根据权利要求6所述的试题评价模型的训练装置,其特征在于,所述训练装置还包括:
接收单元,用于接收学生输入的主观题答案并对所述主观题答案进行文字识别,得到识别结果;
评价单元,用于通过所述试题评价模型对所述识别结果进行评价,得到试题评价结果。
8.根据权利要求6所述的试题评价模型的训练装置,其特征在于,所述预处理单元包括:
去重子单元,用于对所述学生答题语料和所述教师评价语料进行去重与标注处理,得到处理答题语料和处理评价语料;
分词子单元,用于根据预设分词函数对所述处理答题语料和所述处理评价语料进行分词,得到答题词集和评价词集;
过滤子单元,用于在所述答题词集和所述评价词集中过滤预设的停用词,得到答题数据和评价数据。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至5中任一项所述的试题评价模型的训练方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至5任一项所述的试题评价模型的训练方法。
CN202011391384.6A 2020-12-01 2020-12-01 一种试题评价模型的训练方法及装置 Pending CN112434688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391384.6A CN112434688A (zh) 2020-12-01 2020-12-01 一种试题评价模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391384.6A CN112434688A (zh) 2020-12-01 2020-12-01 一种试题评价模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN112434688A true CN112434688A (zh) 2021-03-02

Family

ID=74698845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391384.6A Pending CN112434688A (zh) 2020-12-01 2020-12-01 一种试题评价模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN112434688A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897384A (zh) * 2017-01-23 2017-06-27 科大讯飞股份有限公司 一种要点题自动评价方法及装置
CN107391760A (zh) * 2017-08-25 2017-11-24 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN109213999A (zh) * 2018-08-20 2019-01-15 成都佳发安泰教育科技股份有限公司 一种主观题评分方法
CN109241276A (zh) * 2018-07-11 2019-01-18 河海大学 文本中词语分类方法、言语创造性评价方法和系统
US20190258903A1 (en) * 2018-02-20 2019-08-22 Pearson Education, Inc. Systems and methods for automated evaluation model customization
CN110363194A (zh) * 2019-06-17 2019-10-22 深圳壹账通智能科技有限公司 基于nlp的智能阅卷方法、装置、设备及存储介质
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN110705580A (zh) * 2018-07-10 2020-01-17 国际商业机器公司 没有参考标准的简答题评分

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897384A (zh) * 2017-01-23 2017-06-27 科大讯飞股份有限公司 一种要点题自动评价方法及装置
CN107391760A (zh) * 2017-08-25 2017-11-24 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
US20190258903A1 (en) * 2018-02-20 2019-08-22 Pearson Education, Inc. Systems and methods for automated evaluation model customization
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN110705580A (zh) * 2018-07-10 2020-01-17 国际商业机器公司 没有参考标准的简答题评分
CN109241276A (zh) * 2018-07-11 2019-01-18 河海大学 文本中词语分类方法、言语创造性评价方法和系统
CN109213999A (zh) * 2018-08-20 2019-01-15 成都佳发安泰教育科技股份有限公司 一种主观题评分方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN110363194A (zh) * 2019-06-17 2019-10-22 深圳壹账通智能科技有限公司 基于nlp的智能阅卷方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
CN107180084B (zh) 词库更新方法及装置
CN110019792A (zh) 文本分类方法及装置和分类器模型训练方法
CN109657011B (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统
CN111831824B (zh) 一种舆情正负面分类方法
CN112597283B (zh) 通知文本信息实体属性抽取方法、计算机设备及存储介质
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
CN113515629A (zh) 一种文档分类方法、装置、计算机设备及存储介质
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110781333A (zh) 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
CN111859967A (zh) 实体识别方法、装置,电子设备
CN113032584A (zh) 一种实体关联方法、装置、电子设备及存储介质
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN113626604A (zh) 基于最大间隔准则的网页文本分类系统
CN117149955A (zh) 一种保险条款咨询自动回答的方法、介质及系统
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
CN111708879A (zh) 针对事件的文本聚合方法、装置及计算机可读存储介质
Achilles et al. Using Surface and Semantic Features for Detecting Early Signs of Self-Harm in Social Media Postings.
CN112434688A (zh) 一种试题评价模型的训练方法及装置
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210302

RJ01 Rejection of invention patent application after publication