CN113836306B - 基于篇章成分识别的作文自动测评方法、设备和存储介质 - Google Patents

基于篇章成分识别的作文自动测评方法、设备和存储介质 Download PDF

Info

Publication number
CN113836306B
CN113836306B CN202111164139.6A CN202111164139A CN113836306B CN 113836306 B CN113836306 B CN 113836306B CN 202111164139 A CN202111164139 A CN 202111164139A CN 113836306 B CN113836306 B CN 113836306B
Authority
CN
China
Prior art keywords
chapter
composition
word
model
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202111164139.6A
Other languages
English (en)
Other versions
CN113836306A (zh
Inventor
刘杰
王锦丞
张磊
周建设
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202111164139.6A priority Critical patent/CN113836306B/zh
Publication of CN113836306A publication Critical patent/CN113836306A/zh
Application granted granted Critical
Publication of CN113836306B publication Critical patent/CN113836306B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本申请属于文本处理技术领域,具体涉及一种基于篇章成分识别的作文自动测评方法,该方法包括:获取用于测评的目标作文,目标作文为人物类中文记叙文文体作文;将目标作文输入到篇章成分识别模型中,得到篇章成分识别结果;其中,篇章成分识别模型是以标记段落结构作用的中文记叙文文体作文为训练样本,对融合注意力机制的双向长短时记忆网络进行训练得到的分类模型;将目标作文和篇章成分识别结果输入到基于文本卷积神经网络构建的篇章结构合理性评判模型,得到测评类别。本申请方法充分考虑了篇章成分及结构对作文评分的影响,通过建立的作文篇章成分标注及篇章结构评测数据集训练得到分类模型,从而实现了基于篇章成分及结构识别的自动测评。

Description

基于篇章成分识别的作文自动测评方法、设备和存储介质
技术领域
本申请属于文本处理技术领域,具体涉及一种基于篇章成分识别的作文自动测评方法。
背景技术
写作是体现学生语言综合运用能力的重要途径,作文评分是老师教学工作中的重要一环。在当前的教学中,作文评分主要由人工完成,这需要耗费大量的人力物力。并且,人工作文评分带有很强的主观性,容易受到阅卷老师的偏好等因素干扰,评分结果在一定程度上存在误差。因此,建立客观有效的作文自动评分系统是必然趋势。
作文自动测评是指通过融合语言学、统计学、自然语言处理等技术通过计算机对作文进行评分,过程不需要人为干预。作为自然语言处理领域的教育应用,目的在于减轻教师的负担,提高教育的公平性。但由于中文文本的特殊性,针对中文作文的研究还不够充分,现有的作文自动评分忽视了篇章成分及结构对作文评分带来的影响。同时,篇章成分识别大多采用人工经验方式进行特征选择,选择的特征通过机器学习算法建立测评模型,无法实现基于篇章成分及结构识别的作文自动测评。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种基于篇章成分识别的作文自动测评方法、设备和可读存储介质。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种基于篇章成分识别的作文自动测评方法,该方法包括:
S10、获取用于测评的目标作文,所述目标作文为人物类中文记叙文文体作文;
S20、将所述目标作文输入到预训练的篇章成分识别模型中,得到篇章成分识别结果;其中,所述篇章成分识别模型是以标记段落结构作用的中文记叙文文体作文为训练样本,对融合注意力机制的双向长短时记忆网络进行训练得到的分类模型;
S30、将所述目标作文和所述篇章成分识别结果输入到预训练的篇章结构合理性评判模型中,得到所述目标作文的测评类别;其中,所述篇章结构合理性评判模型是基于文本卷积神经网络构建的分类模型。
可选地,在S10之前,该方法还包括:
S011、收集批量的人物类中文记叙文文体作文,构建语料库;
S012、根据所述人物类中文记叙文文体作文每个段落在全文中的结构作用,对各段落进行标注,生成篇章成分识别模型的训练样本集;其中,标注的标签包括文章开篇、人物描写、事件描写、总结结尾、其他;
S013、构建篇章成分识别模型,所述篇章成分识别模型包括双向长短时记忆网络、注意力层、第一全连接层、第一归一化指数函数层;其中,通过所述双向长短时记忆网络用于获得所述目标作文的词语表示向量,所述注意力层用于基于所述词语表示向量得到所述词语表示向量的注意力分数,生成段落特征向量;
S014、采用训练样本集对所述篇章成分识别模型进行训练,获得训练好的篇章成分识别模型。
可选地,S012包括:
S0121、确定所述人物类中文记叙文文体作文每个段落在全文中的结构作用,所述结构作用包括:设置悬念、开门见山、总领全文、概括介绍、背景介绍、对话开篇、故事开篇、俗语开篇、歌词开篇、诗歌开篇、题记开篇、人物肖像描写、人物行动描写、人物语言描写、人物心理描写、事件时间、事件地点、事件人物、事件起因、事件经过、事件结果、首尾照应、文题照应、前后照应、点题、主题升华、概览全文、引发深思、过渡、转折、顺承、承上启下、过渡段、假设、递进、并列、因果、并列、铺垫;
S0122、将结构作用为设置悬念、开门见山、总领全文、概括介绍、背景介绍、对话开篇、故事开篇、俗语开篇、歌词开篇、诗歌开篇、题记开篇的段落标注为文章开篇;
将结构作用为人物肖像描写、人物行动描写、人物语言描写、人物心理描写的段落标注为人物描写;
将结构作用为事件时间、事件地点、事件人物、事件起因、事件经过、事件结果的段落标注为事件描写;
将结构作用为首尾照应、文题照应、前后照应、点题、主题升华、概览全文、引发深思的段落标注为总结结尾;
将结构作用为过渡、转折、顺承、承上启下、过渡段、假设、递进、并列、因果、并列、铺垫的段落标注为其他。
可选地,S013中,所述双向长短时记忆网络分别学习当前词wi的上文表示Cl(wi)和下文表示Cr(wi),与当前词向量表示e(wi)连接;
Ci(wi)=f(W(i)ci(wi-1)+W(si)e(wi-1))
cr(wi)=f(W(r)cl(wi+1)+W(sr)e(wi+1)
xi=[cl(wi),e(wi),cr(wi)]
其中,W(l)表示当前词(i)的上文的权重系数,W(zl)表示当前词上一词(i-1)的系数矩阵,W(r)表示当前词下文的权重系数,W(zr)表示当前词下一词(i+1)的系数矩阵,f表示BiLSTM函数;
将xi作为wi的语义表示,通过tanh激活函数得到的潜在语义向量;
ti=tanh(Wxi+b)
其中,W表示权重系数,b表示偏置系数。
可选地,在S10之前,该方法还包括:
S021、采用文本卷积神经网络构建篇章结构合理性评判模型,所述文本卷积神经网络包括输入层、一维卷积层、最大池化层、第二全连接层与第二归一化指数函数层;
S022、按照预设的评分规则对所述语料库中的人物类中文记叙文文体作文进行评分,将分值作为样本标签,得到篇章结构合理性评判模型的训练样本集;所述预设的评分规则是领域专家结合教师评测的角度,围绕文章结构成分是否完全、前后关系是否呼应,根据义务教育语文课程标准中对写作的要求、写作能力结构及中高考作文评价标准制定的评分规则;
S023、采用篇章结构合理性评判模型的训练样本集对所述篇章结构合理性评判模型进行训练,获得训练好的篇章结构合理性评判模型。
可选地,S20中还包括:
采用预设的分词工具对所述目标作文的文本进行中文分词,并采用中科院发布的停用词表进行停用词过滤,获得特征词序列;
通过预设的词向量工具得到所述特征词序列的特征词向量表示。
可选地,S30中,
所述输入层用于基于输入的所述特征词序列与所述篇章成分识别结果,通过word2vec网络得到嵌入矩阵。
第二方面,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上第一方面任一项所述的基于篇章成分识别的作文自动测评方法的步骤。
第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面任一项所述的基于篇章成分识别的作文自动测评方法的步骤。
(三)有益效果
本申请的有益效果是:本申请提出了一种基于篇章成分识别的作文自动测评方法、设备和可读存储介质,其中的方法包括:获取用于测评的目标作文,目标作文为人物类中文记叙文文体作文;将目标作文输入到篇章成分识别模型中,得到篇章成分识别结果;其中,篇章成分识别模型是以标记段落结构作用的中文记叙文文体作文为训练样本,对融合注意力机制的双向长短时记忆网络进行训练得到的分类模型;将目标作文和篇章成分识别结果输入到基于文本卷积神经网络构建的篇章结构合理性评判模型,得到测评类别。
本申请方法充分考虑了篇章成分及结构对作文评分的影响,通过建立的作文篇章成分标注及篇章结构评测数据集训练得到分类模型,从而实现了基于篇章成分及结构识别的自动测评。
附图说明
本申请借助于以下附图进行描述:
图1为本申请一个实施例中的基于篇章成分识别的作文自动测评方法流程示意图;
图2为本申请另一个实施例中的篇章成分识别模型和篇章结构合理性评判模型结构示意图;
图3为本申请又一实施例中的电子设备的架构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
作为自然语言处理领域的教育应用,作文自动评分的目的在于减轻教师的负担,提高教育的公平性。本申请的基于篇章成分识别的作文自动测评方法能够实现作文的自动测评,在构建的篇章结构测评语料库中,模型的准确率可达到76.8%。以下通过多个实施例对本申请的方法进行展开说明。
实施例一
图1为本申请一个实施例中的基于篇章成分识别的作文自动测评方法流程示意图,如图1所示,本实施例的基于篇章成分识别的作文自动测评方法包括:
S10、获取用于测评的目标作文,目标作文为人物类中文记叙文文体作文;
S20、将目标作文输入到预训练的篇章成分识别模型中,得到篇章成分识别结果;其中,篇章成分识别模型是以标记段落结构作用的中文记叙文文体作文为训练样本,对融合注意力机制的双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)进行训练得到的分类模型;
S30、将目标作文和所述篇章成分识别结果输入到预训练的篇章结构合理性评判模型中,得到目标作文的测评类别;其中,篇章结构合理性评判模型是基于文本卷积神经网络(TextCNN)构建的分类模型。
本实施例的基于篇章成分识别的作文自动测评方法,充分考虑了篇章成分及结构对作文评分的影响,通过建立的作文篇章成分标注及篇章结构评测数据集训练得到分类模型,从而实现了基于篇章成分及结构识别的自动测评。
为了更好地理解本发明,以下对本实施例中的各步骤进行展开说明。
本实施例的S20中,将目标作文输入到预训练的篇章成分识别模型前还需要进行文本预处理,具体处理过程包括:
采用预设的分词工具对目标作文的文本进行中文分词,并采用中科院发布的停用词表进行停用词过滤,获得特征词序列;
通过预设的词向量工具得到特征词序列的特征词向量表示。
具体地,分词工具可以是NLPIR汉语分词系统。
需要说明的是,分词工具也可以是jieba、SnowNLP、THULAC中的任意一种,本实施例对分词工具和词向量工具不作具体限定。
完成分词操作后,为节省空间并提高模型效率,在处理文本的过程中过滤掉部分高频出现且不影响文章实际含义的字或词,即停用词。本实施例中使用中科院发布的停用词表作为参考,用以去除文本中的停用词。
词向量工具可以是Word2Vec模型,或者也可以是BERT模型等,在此不作具体限定。
本实施例的S30中,将分词和去除停用词后的作文与篇章成分识别模型出的结果一同经过word2vec向量表示后输入篇章结构合理性模型中进行分类。经过文本卷积神经网络构建的篇章结构合理性评判模型得到分类结果。
本实施例中,在S10之前,该方法还包括:
S011、收集批量的人物类中文记叙文文体作文,构建语料库。
在国内知名度较高的中文作文网站上搜集语料,收集义务教育阶段小学五至六年级及初中七至九年级人物类中文记叙文文体作文,对所选择的语料进行筛选,选择较好的人物类中文作文进行语料库的构建。表1为语料库中5-9年级作文分布数量表,共计3024篇。
表1
年级 5 6 7 8 9
作文数量 589 507 567 625 636
S012、根据人物类中文记叙文文体作文每个段落在全文中的结构作用,对各段落进行标注,生成篇章成分识别模型的训练样本集;其中,标注的标签包括文章开篇、人物描写、事件描写、总结结尾、其他。
具体地,S012中包括:
S0121、确定人物类中文记叙文文体作文每个段落在全文中的结构作用,结构作用包括:设置悬念、开门见山、总领全文、概括介绍、背景介绍、对话开篇、故事开篇、俗语开篇、歌词开篇、诗歌开篇、题记开篇、人物肖像描写、人物行动描写、人物语言描写、人物心理描写、事件时间、事件地点、事件人物、事件起因、事件经过、事件结果、首尾照应、文题照应、前后照应、点题、主题升华、概览全文、引发深思、过渡、转折、顺承、承上启下、过渡段、假设、递进、并列、因果、并列、铺垫;
S0122、将结构作用为设置悬念、开门见山、总领全文、概括介绍、背景介绍、对话开篇、故事开篇、俗语开篇、歌词开篇、诗歌开篇、题记开篇的段落标注为文章开篇;
将结构作用为人物肖像描写、人物行动描写、人物语言描写、人物心理描写的段落标注为人物描写;
将结构作用为事件时间、事件地点、事件人物、事件起因、事件经过、事件结果的段落标注为事件描写;
将结构作用为首尾照应、文题照应、前后照应、点题、主题升华、概览全文、引发深思的段落标注为总结结尾;
将结构作用为过渡、转折、顺承、承上启下、过渡段、假设、递进、并列、因果、并列、铺垫的段落标注为其他。
段落结构作用的划分过于相近,不同段落结构作用之间没有太大的差别,并且加大了标签分类的工作量,分类准确率因此降低。针对此问题,将语料库中段落结构作用整合为五大类:文章开篇、人物描写、事件描写、总结结尾、其他,从而使得文章的段落标签更加集中并容易区分,提高模型分类的准确率。
S013、构建篇章成分识别模型,篇章成分识别模型包括双向长短时记忆网络、注意力层、第一全连接层、第一归一化指数函数层;其中,通过双向长短时记忆网络用于获得目标作文的词语表示向量,注意力层用于基于词语表示向量得到词语表示向量的注意力分数,生成段落特征向量。
S014、采用训练样本集对所述篇章成分识别模型进行训练,获得训练好的篇章成分识别模型。
本实施例中,在S10之前,该方法还包括:
S021、采用文本卷积神经网络构建篇章结构合理性评判模型,文本卷积神经网络包括输入层、一维卷积层、最大池化层、第二全连接层与第二归一化指数函数层。
S022、按照预设的评分规则对语料库中的人物类中文记叙文文体作文进行评分,将分值作为样本标签,得到篇章结构合理性评判模型的训练样本集;预设的评分规则是领域专家结合教师评测的角度,围绕文章结构成分是否完全、前后关系是否呼应,根据义务教育语文课程标准中对写作的要求、写作能力结构及中高考作文评价标准制定的评分规则。
本实施中,根据义务教育语文课程标准中对写作的要求、写作能力结构及中高考作文评价标准,与领域专家、中小学一线语文教师针对篇章结构部分进行讨论,领域专家结合教师评测的角度,围绕文章结构成分是否完全、前后关系是否呼应等方面共同细化篇章成分标注及篇章结构评分细则。最终确定表2所示的中小学记叙文文体篇章结构合理性评判指标。表2为基于文篇章结构的中小学记叙文作文自动测评标准。
表2
Figure BDA0003291130260000091
Figure BDA0003291130260000101
S023、采用篇章结构合理性评判模型的训练样本集对篇章结构合理性评判模型进行训练,获得训练好的篇章结构合理性评判模型。
针对当前缺乏中文作文篇章成分标注及篇章结构评测公开数据集的情况,本实施例首先参照义务教育阶段课程标准,与一线从事语文教学领域专家共同确定篇章结构评测及篇章成分标注体系,并制定了相应的标注规范,构建了具有一定规模的作文篇章结构测评语料库,为后续技术创新及篇章成分识别的研究打下基础。
不同于采用机器学习算法根据经验人工设定特征进行训练,本实施例提出了一种基于篇章成分识别为辅助任务的神经网络多任务学习方式。采用深度学习算法构建基于篇章成分识别的记叙文篇章结构合理性模型,通过构建基于篇章成分识别的篇章结构合理性深度学习模型,将每篇文章看作整体进行训练,同时与篇章成分识别结果融合后进行训练,实现了利用深度学习算法使得模型自动学习特征并进行中文人物类记叙文篇章结构合理性评分。
实施例二
在上述实施例基础上,本实施例对可以采用的篇章成分识别模型和篇章结构合理性评判模型的结构进行具体说明。图2为本申请另一个实施例中的篇章成分识别模型和篇章结构合理性评判模型结构示意图。如图2所示,左部分为篇章成分识别模型,右部分为篇章结构合理性评判模型。篇章成分识别部分是将整合后的篇章成分标签分配给语料库中的m个段落P=P1,P2,...,Pm;篇章结构合理性模型是在融合篇章成分结果的基础上,对语料库中的文章进行打分S,S∈{优,良,中,差}。
篇章成分识别模型中采用了BiLSTM融合注意力机制的形式,BiLSTM相比一般的神经网络来说,能够处理序列变化的数据,主要解决长序列训练过程中的梯度消失和梯度爆炸问题,在更长的序列中有更好的表现。注意力机制改变了传统解码器对每一个输入都赋予相同向量的缺点,具有在上下文中学习重要区域的能力,可以决定整段输入的哪个部分需要更加关注,从关键的部分进行特征提取,得到更为重要的信息。
在一篇记叙文中每个段落承担的作用是不同的,段落的功能由其内部的句子组成。以段落为单位,对l段中含有的句子u→w,将相应的句子P[u,w]送入BiLSTM模型中,同时使用注意力机制捕捉关键的句子功能。段落表示如式(1)所示。
Pl=BiLSTM(R[u,w])   (1)
BiLSTM层使用双向长短期记忆网络获取词的更深层次的语义向量,该结构可以结合当前词的上下文,避免了RNN中后面的单词比前面的内容影响力更大。
BiLSTM分别学习当前词wi的上文表示Ci(wi)和下文表示Cr(wi),与当前词向量表示e(wi)连接;
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))   (2)
Cr(wi)=f(W(r)cl(wi-1)+W(sr)e(wi-1)   (3)
xi=[cl(wi),e(wi),cr(wi)]   (4)
其中,W(l)表示当前词(i)的上文的权重系数,W(sl)表示当前词上一词(i-1)的系数矩阵,W(r)表示当前词下文的权重系数,W(sr)表示当前词下一词(i+1)的系数矩阵,f表示BiLSTM函数;
将xi作为wi的语义表示,通过tanh激活函数得到的潜在语义向量yi
yi=tanh(Wxi+b)   (5)
其中,W表示权重系数,b表示偏置系数。
注意力机制主要计算词语在段落中的注意力,注意力值越大,则该词受到的关注越多,说明该词在识别该类篇章成分中发挥的作用越大。提取出注意力较大的词,可以有效地将文进行分类。
注意力层的输入是经过BiLSTM层后的特征向量y1,y2,...,yi。设Y为y1,y2,...,yi向量的组合,输出为段落Y的特征向量。首先计算yi在段落中的注意力得分si,分值越大,在文本中的注意力越大。
si=wtanh(wiyi+bi)   (6)
其中,w,w1为权重矩阵;bi为偏置。经过attention后的向量进行全连接(dense)层,主要作用是根据特征的组合进行分类,大大减少特征位置对分类带来的影响。得到注意力得分后使用softmax计算得分概率分布。
Figure BDA0003291130260000121
其中,w2为权重矩阵;Si表示各个时刻的注意力概率分布,S为s1,s2,...,si的组合矩阵;αi为BiLSTM各时刻输出的注意力概率分布。
将概率最大的进行输出就是篇章成分的结果。
在篇章结构合理性模型中,模型将篇章成分识别出的结果与文章一同作为输入,传入TextCNN模型中。TextCNN改进了卷积神经网络,更适用于自然语言处理。由于文本序列的特征,虽然输入层是文本特征的二维向量矩阵,但在卷积层中使用一维卷积处理输入矩阵。根据结构作用的不同分为向量表示输入层、一维卷积层(Convolutional Layer)、最大池化层(Max pooling layer)、全连接层(Fully connected Layer)、dropout与softmax输出层。
如图2所示,得到一篇作文中每个段落的篇章成分结果后,在向量表示输入层将其与分词后的文章一同作为篇章结构合理性模型的输入,送入模型,得到一个嵌入矩阵M,矩阵M中的每一行都是词向量。在计算中,文章的篇章成分与全文最终被表示为张量。经过一维卷积层、最大池化层和非线性函数tanh,最后将特征映射转换为向量。线性层和softmax层用于预测最终作为分类问题的评分结果。
输入层将一篇作文与篇章成分识别结果一同转换成卷积层所需要的输入,可以用
Figure BDA0003291130260000122
表示该句子,其中n=lengthS,d是嵌入词向量的维度,
Figure BDA0003291130260000123
表示句子S中第i个单词的词向量表示,通常使用xi:i+j表示xi,xi+1,xi+j的词向量组合矩阵,pd表示篇章成分模型识别出的作文成分结果的词向量表示。输入一篇作文,首先对全文进行切词,假设共有s个单词,词向量共有d维。那么对于这篇作文,便可以得到s行d列的矩阵A∈Rs×d。则使用一个卷积核W∈Rhd提取文本特征ci的卷积操作如式(8)表示:
ci=f(W·xi:i+h-1+b)   (8)
其中,h为提取新特征的移动窗口大小,b∈R是一个已知存在的偏置,f是非线性的激活函数,本实施例采用ReLU函数。
对所有的文本窗口进行一系列如式(8)的文本卷积操作后,可以使用输入句子的窗口文本序列{x1:hx2:h+1,...,xn-h+1:n}来提取卷积特征序列c∈Rn-h+1
c=[c1,c2,...,cn-h+1]   (9)
卷积层输出特征向量矩阵c后进入最大池化层,池化层的池化核将数据只保留最大值。经过池化后的feature map的维度降为1,得到整个文本的特征表示,
Figure BDA0003291130260000131
作为这个卷积核的最终输出特征。使用f个不同大小的卷积核{f1,f2,...,fF}进行上述的滑动窗口文本卷积操作,来获取多组文本特征。
全连接层是池化后级联。使用dropout防止过拟合,然后使用激活函数分类输出。最后被组合传递到softmax层来映射输出最后的标签概率值,
Figure BDA0003291130260000132
最终得到预测类别进行输出。
需要说明的是,图2中两个数据预训练(data pretrained)用于对文本数据进行预处理,包含:中文分词、去除停用词、用word2vec进行词向量表示。
模型的训练数据采用自建语料库中3024篇5-9年级中小学生记叙文中文作文,训练/测试集比例为9:1,测试集为其中的300篇文章,测试集数据1600个段落。通过使用语料库中篇章成分部分数据进行训练,达到识别五类篇章成分的结果。。
对模型的分类结果进行测评,不同篇章成分标签类型的识别准确率在70.7%-83.3%之间。不使用篇章成分识别的结构合理性模型的准确率达到72.4%,融合篇章成分识别后,准确率提升至76.9%。结果表明,采用深度学习算法,将文章看作整体并融合篇章成分识别结果作为模型的输入,使得模型自动学习特征的方式具有可行性,可以有效的进行作文篇章结构部分的评测。
实施例三
本申请第二方面通过实施例三提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上实施例中任意一项所述的基于篇章成分识别的作文自动测评方法的步骤。
图3为本申请又一实施例中的电子设备的架构示意图。
图3所示的电子设备可包括:至少一个处理器101、至少一个存储器102、至少一个网络接口104和其他的用户接口103。电子设备中的各个组件通过总线系统105耦合在一起。可理解,总线系统105用于实现这些组件之间的连接通信。总线系统105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统105。
其中,用户接口103可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)或者触感板等。
可以理解,本实施例中的存储器102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器102存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统1021和应用程序1022。
其中,操作系统1021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序622,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1022中。
在本发明实施例中,处理器101通过调用存储器102存储的程序或指令,具体的,可以是应用程序1022中存储的程序或指令,处理器101用于执行第一方面所提供的方法步骤。
上述本发明实施例揭示的方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成上述方法的步骤。
另外,结合上述实施例中的基于篇章成分识别的作文自动测评方法,本发明实施例可提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上方法实施例中的任意一种基于篇章成分识别的作文自动测评方法。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (6)

1.一种基于篇章成分识别的作文自动测评方法,其特征在于,该方法包括:
S011、收集批量的人物类中文记叙文文体作文,构建语料库;
S012、根据所述人物类中文记叙文文体作文每个段落在全文中的结构作用,对各段落进行标注,生成篇章成分识别模型的训练样本集;其中,标注的标签包括文章开篇、人物描写、事件描写、总结结尾、其他;
S013、构建篇章成分识别模型,所述篇章成分识别模型包括双向长短时记忆网络、注意力层、第一全连接层、第一归一化指数函数层;其中,所述双向长短时记忆网络用于获得目标作文的词语表示向量,所述注意力层用于基于所述词语表示向量得到所述词语表示向量的注意力分数,生成段落特征向量;其中,
获得所述目标作文的词语表示向量的方法,包括:
所述双向长短时记忆网络分别学习当前词的上文表示和下文表示,并与当前词向量表示连接,得到当前词的语义表示;
基于当前词的语义表示,通过激活函数得到潜在语义向量,将所述潜在语义向量作为所述词语表示向量;
基于所述词语表示向量得到所述词语表示向量的注意力分数,生成段落特征向量的方法,包括:
将段落的各个词语表示向量输入所述注意力层;
所述注意力层基于所述词语表示向量,通过激活函数计算得到所述词语表示向量的注意力分数:
基于各个词语表示向量的注意力分数生成所述段落特征向量;
S014、采用训练样本集对所述篇章成分识别模型进行训练,获得训练好的篇章成分识别模型;
S021、采用文本卷积神经网络构建篇章结构合理性评判模型,所述文本卷积神经网络包括输入层、一维卷积层、最大池化层、第二全连接层与第二归一化指数函数层;
S022、按照预设的评分规则对所述语料库中的人物类中文记叙文文体作文进行评分,将分值作为样本标签,得到篇章结构合理性评判模型的训练样本集;所述预设的评分规则是领域专家结合教师评测的角度,围绕文章结构成分是否完全、前后关系是否呼应,根据义务教育语文课程标准中对写作的要求、写作能力结构及中高考作文评价标准制定的评分规则;
S023、采用篇章结构合理性评判模型的训练样本集对所述篇章结构合理性评判模型进行训练,获得训练好的篇章结构合理性评判模型;
S10、获取用于测评的目标作文,所述目标作文为人物类中文记叙文文体作文;
S20、将所述目标作文输入到预训练的篇章成分识别模型中,得到篇章成分识别结果;其中,所述篇章成分识别模型是以标记段落结构作用的中文记叙文文体作文为训练样本,对融合注意力机制的双向长短时记忆网络进行训练得到的分类模型;
S30、将所述目标作文和所述篇章成分识别结果输入到预训练的篇章结构合理性评判模型中,得到所述目标作文的测评类别;其中,所述篇章结构合理性评判模型是基于文本卷积神经网络构建的分类模型。
2.根据权利要求1所述的基于篇章成分识别的作文自动测评方法,其特征在于,S012包括:
S0121、确定所述人物类中文记叙文文体作文每个段落在全文中的结构作用,所述结构作用包括:设置悬念、开门见山、总领全文、概括介绍、背景介绍、对话开篇、故事开篇、俗语开篇、歌词开篇、诗歌开篇、题记开篇、人物肖像描写、人物行动描写、人物语言描写、人物心理描写、事件时间、事件地点、事件人物、事件起因、事件经过、事件结果、首尾照应、文题照应、前后照应、点题、主题升华、概览全文、引发深思、过渡、转折、顺承、承上启下、过渡段、假设、递进、并列、因果、并列、铺垫;
S0122、将结构作用为设置悬念、开门见山、总领全文、概括介绍、背景介绍、对话开篇、故事开篇、俗语开篇、歌词开篇、诗歌开篇、题记开篇的段落标注为文章开篇;
将结构作用为人物肖像描写、人物行动描写、人物语言描写、人物心理描写的段落标注为人物描写;
将结构作用为事件时间、事件地点、事件人物、事件起因、事件经过、事件结果的段落标注为事件描写;
将结构作用为首尾照应、文题照应、前后照应、点题、主题升华、概览全文、引发深思的段落标注为总结结尾;
将结构作用为过渡、转折、顺承、承上启下、过渡段、假设、递进、并列、因果、铺垫的段落标注为其他。
3.根据权利要求1所述的基于篇章成分识别的作文自动测评方法,其特征在于,S20中还包括:
采用预设的分词工具对所述目标作文的文本进行中文分词,并采用停用词表进行停用词过滤,获得特征词序列;
通过预设的词向量工具得到所述特征词序列的特征词向量表示。
4.根据权利要求3所述的基于篇章成分识别的作文自动测评方法,其特征在于,S30中,
所述输入层用于基于输入的所述特征词序列与所述篇章成分识别结果,通过word2vec网络得到嵌入矩阵。
5.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上权利要求1至4任一项所述的基于篇章成分识别的作文自动测评方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上权利要求1至4任一项所述的基于篇章成分识别的作文自动测评方法的步骤。
CN202111164139.6A 2021-09-30 2021-09-30 基于篇章成分识别的作文自动测评方法、设备和存储介质 Expired - Fee Related CN113836306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111164139.6A CN113836306B (zh) 2021-09-30 2021-09-30 基于篇章成分识别的作文自动测评方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111164139.6A CN113836306B (zh) 2021-09-30 2021-09-30 基于篇章成分识别的作文自动测评方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113836306A CN113836306A (zh) 2021-12-24
CN113836306B true CN113836306B (zh) 2023-05-16

Family

ID=78967937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111164139.6A Expired - Fee Related CN113836306B (zh) 2021-09-30 2021-09-30 基于篇章成分识别的作文自动测评方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113836306B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925687B (zh) * 2022-05-17 2024-08-13 西安交通大学 一种基于动态词向量表征的中文作文评分方法及系统
CN117709330A (zh) * 2024-01-09 2024-03-15 北京和气智教数字科技有限公司 结合写作要求的作文评分方法及相关设备
CN117648921B (zh) * 2024-01-29 2024-05-03 山东财经大学 基于成对双层对抗对齐的跨主题作文自动测评方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566360B2 (en) * 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
CN110427609B (zh) * 2019-06-25 2020-08-18 首都师范大学 一种写人作文篇章结构合理性自动评测方法
CN111966826B (zh) * 2020-07-22 2023-01-24 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备
CN112214992A (zh) * 2020-10-14 2021-01-12 哈尔滨福涛科技有限责任公司 一种基于深度学习和规则结合的记叙文结构分析方法

Also Published As

Publication number Publication date
CN113836306A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN113836306B (zh) 基于篇章成分识别的作文自动测评方法、设备和存储介质
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN107291795B (zh) 一种结合动态词嵌入和词性标注的文本分类方法
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
CN109255118B (zh) 一种关键词提取方法及装置
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN110851599B (zh) 一种中文作文自动评分方法及教辅系统
CN110569508A (zh) 融合词性和自注意力机制的情感倾向性分类方法及系统
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN111209738A (zh) 一种联合文本分类的多任务命名实体识别方法
CN107168955A (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN109753567A (zh) 一种结合标题与正文注意力机制的文本分类方法
CN110532563A (zh) 文本中关键段落的检测方法及装置
CN113204967B (zh) 简历命名实体识别方法及系统
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN113673254A (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230329

Address after: 100144 Beijing City, Shijingshan District Jin Yuan Zhuang Road No. 5

Applicant after: NORTH CHINA University OF TECHNOLOGY

Address before: School of information engineering, Capital Normal University, No. 56, West Third Ring North Road, Haidian District, Beijing 100048

Applicant before: Capital Normal University

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230516