CN111259646B - 作文偏题审批方法、终端、装置及存储介质 - Google Patents
作文偏题审批方法、终端、装置及存储介质 Download PDFInfo
- Publication number
- CN111259646B CN111259646B CN202010038763.0A CN202010038763A CN111259646B CN 111259646 B CN111259646 B CN 111259646B CN 202010038763 A CN202010038763 A CN 202010038763A CN 111259646 B CN111259646 B CN 111259646B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- composition
- input data
- bias
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012552 review Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及人工智能领域,提供一种作文偏题审批方法、装置、终端及可读存储介质,通过利用训练样本对初始偏题审阅模型进行训练,得到目标模型,而后将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表,接下来基于主题列表以及待审阅作文生成预处理后的待审阅作文,将预处理后的待审阅作文输入目标模型,得到审阅参数,最后基于审阅参数确定待审阅作文的偏题结果。通过对作文题目进行改写得到主题列表,从而确定偏题审批标准,利用训练好的机器阅读模型获得审阅参数,最终确定偏题结果。无需人工标准,且由于机器阅读模型是从语义理解层面实现,进而提升作文内容细节判断,提升了偏题审批的准确率。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种作文偏题审批方法、终端、装置及存储介质。
背景技术
目前,市面上作文自动批改系统(AES),例如ETS的E-rater、批改网、讯飞英语作文批改、粉笔申论批改,在自动的偏题检测问题上,主要采用给定关键字匹配、基于庞大的主题做文库进行相似度比较,以及基于文档向量进行相似度判别的方案,进而判别作文内容与主题或题干贴合度。前述第一种方法在识别模式上过于简单,主题相关性识别准确度较低,容易成为骗分攻击漏洞;第二种方法则需要建立主题作文库,且需要进行人工标注,实施难度较大;而最后一种主要考虑文本之间的词意距离,对于粗略的文意相近可以判别,但对于文意的细微差别通常很难识别,例如否定语义等,且相似度阈值设定存在困难,通常需要大量的偏题和不偏题作文测试获得。
发明内容
本发明的主要目的在于提供一种作文偏题审批方法、终端、装置及存储介质,旨在解决现有作文自动批改方法存在准确率低、需要人工标注的技术问题。
利用训练样本对初始偏题审阅模型进行训练,得到目标模型;
将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表;
基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数;
基于所述审阅参数确定所述待审阅作文的偏题结果。
进一步地,在一实施方式中,所述利用训练样本对初始偏题审阅模型进行训练,得到目标模型的步骤包括:
对所述训练样本进行预处理,得到满足所述初始偏题审阅模型要求的预处理后的训练样本;
将所述预处理后的训练样本输入到初始偏题审阅模型进行训练,并判断所述初始偏题审阅模型是否收敛;
在所述初始偏题审阅模型收敛时,得到所述目标模型。
进一步地,在一实施方式中,所述利用训练样本对初始偏题审阅模型进行训练,得到目标模型的步骤之前,包括:
基于样本数据库获取预设数量的题干改写样本;
将所述题干改写样本输入到初始模型进行训练,得到所述题干改写模型。
进一步地,在一实施方式中,所述初始模型为Seq2Seq模型,所述题干改写样本包括题目、题目对应的支持主题文本以及题干对应的不支持主题文本,所述将所述题干改写样本输入到初始模型进行训练,得到所述题干改写模型的步骤包括:
对所述题目、所述支持主题文本以及所述不支持主题文本进行词嵌入,生成序列数值向量;
将所述序列数值向量输入到初始模型进行训练,得到所述题干改写模型。
进一步地,在一实施方式中,所述将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表的步骤包括:
将所述待审阅作文对应的题目进行分词及词嵌入,生成序列数值向量;
将所述序列数值向量输入所述题干改写模型,以使所述序列数值向量进行编码和解码,得到所述主题列表。
进一步地,在一实施方式中,所述主题列表包括第一主题文本和第二主题文本,所述基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文的步骤包括:
利用预设的分词符分别将所述第一主题文本与所述待审阅作文的正文拼接为第一输入数据、所述第二主题文本与所述待审阅作文的正文拼接为第二输入数据,将所述第一输入数据和所述第二输入数据作为预处理后的待审阅作文。
进一步地,在一实施方式中,所述将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数的步骤包括:
分别将所述第一输入数据和所述第二数据输入所述目标模型,获得所述第一输入数据对应的第一位置参数和所述第二数据输入对应的第二位置参数;
在所述第一输入数据中获取所述第一位置参数对应的第一文本,在所述第二输入数据中获取所述第二位置参数对应的第二文本,将所述第一文本和所述第二文本作为审阅参数。
进一步地,在一实施方式中,所述作文偏题审批装置包括:
训练模块,用于利用训练样本对初始偏题审阅模型进行训练,得到目标模型;
改写模块,用于将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表;
处理模块,用于基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数;
确定模块,用于基于所述审阅参数确定所述待审阅作文的偏题结果。
为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的作文偏题审批程序,所述作文偏题审批程序被所述处理器执行时实现如上所述的作文偏题审批方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有作文偏题审批程序,所述作文偏题审批程序被处理器执行时实现上述任一项所述作文偏题审批方法的步骤。
本发明利用训练样本对初始偏题审阅模型进行训练,得到目标模型,而后将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表,接下来基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数,最后基于所述审阅参数确定所述待审阅作文的偏题结果。通过对作文题目进行改写得到主题列表,从而确定偏题审批标准,利用训练好的机器阅读模型获得审阅参数,最终确定偏题结果。作文偏题审批无需人工标准,且由于机器阅读模型是从语义理解层面实现,进而提升作文内容细节判断,提升了偏题审批的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图;
图2为本发明作文偏题审批方法第一实施例的流程示意图;
图3为本发明作文偏题审批方法第二实施例的流程示意图;
图4为本发明作文偏题审批装置实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,姿态传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及作文偏题审批程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接用户端,与用户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的作文偏题审批程序。
在本实施例中,终端包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的作文偏题审批程序,其中,处理器1001调用存储器1005中存储的作文偏题审批程序时,执行本申请各个实施例提供的作文偏题审批方法的步骤。
本发明还提供一种作文偏题审批方法,参照图2,图2为本发明作文偏题审批方法第一实施例的流程示意图。
本发明实施例提供了作文偏题审批方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,作文偏题审批方法包括:
步骤S10,利用训练样本对初始偏题审阅模型进行训练,得到目标模型;
在本实施例中,用于模型训练的样本数据保存在样本数据库,例如机器阅读理解数据集SQuAD2.0,可选地,数据库可以保存样本数据的链接地址,这样不但节省数据库的存储空间,而且可以保证数据库保存的样本数据与源数据同步更新。从样本数据库获取训练样本,对模型进行训练,以得到目标模型。
具体地,步骤S10包括:
步骤S11,对所述训练样本进行预处理,得到满足所述初始偏题审阅模型要求的预处理后的训练样本;
在本实施例中,本发明采用的是机器阅读QA的思想,将作文题干改造成QUESTION,然后基于NLP算法在作文CONTEXT中找取对应的ANSWER。如果能找到ANSWER,则认为CONTEXT与题干扣题,否则认为偏题,故在样本选取时,选一部分可以在作文中找到答案的样本,即不偏题的作文,另外选一部分不能在作文中找到答案的样本,即偏题的作文,利用这些样本进行模型训练。
具体地,在获取到待训练样本后,还需要对这些待训练样本进行预处理。初始偏题审阅模型是BERT模型,因此,需要将训练样本处理成BERT模型所要求的格式,具体预处理过程如下:将训练数据中的问题和文章内容分词之后,以分割符sep符隔开,sep符前面是问题,sep符后面是文章内容,并以cls符标注模型输入数据X的开始位置,模型的输出数据Y为答案在文章中的起始和结尾位置。
步骤S12,将所述预处理后的训练样本输入到初始偏题审阅模型进行训练,并判断所述初始偏题审阅模型是否收敛;
在本实施例中,初始偏题审阅模型是BERT模型,BERT是一种预训练语言表示的方法,在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。
具体地,将预处理后的训练样本作为输入数据,对初始偏题审阅模型进行训练,确定BERT模型的各个参数。根据初始偏题审阅模型的损失函数确定初始偏题审阅模型是否收敛,在训练过程中损失函数会逐渐减少,如果损失函数小于预设值,或损失函数不再减小时,则认为模型收敛。在训练过正中,为了保证训练平稳,采用预设的调整规则,调整模型的学习率等参数。预设的调整规则根据实际情况确定,一般是通过大量的实验数据来确定。
步骤S13,在所述初始偏题审阅模型收敛时,得到所述目标模型。
在本实施例中,将预处理后的训练样本作为初始偏题审阅模型的输入数据,在初始偏题审阅模型进行训练的过程中,在确定初始偏题审阅模型收敛时,模型训练停止,则当前的初始偏题审阅模型即为目标模型。
步骤S20,将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表;
在本实施例中,对待审阅作文进行题目改写,也就是将题目改造成QUESTION,即根据预设的改写规则将题干改写成问题,如“校园生活应该以社交活动为主还是以学习为主,请阐述观点”,可改写为“校园生活是否应该以学习为主”和“校园生活是否应该以社交活动为主”两个问题。
具体地,将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的问题,这些问题保存在主题列表中,其中,题干改写模型也是通过样本训练得到。需要说明的是,一般情况下,作文题目改写成两个问题,也可以根据具体情况确定改写问题的数量。
具体地,步骤S20包括:
步骤S21,将所述待审阅作文对应的题目进行分词及词嵌入,生成序列数值向量;
在本实施例中,优选地,题干改写模型为Seq2Seq(Sequence to Sequence),是一种能够根据给定的序列,通过特定的方法生成另一个序列的方法。Seq2Seq模型的处理对象是字符数据或者文本数据,需要先将数据转换为数值向量或者序列数值向量(矩阵可以看成是由一系列数值向量组成的,即序列数据),再将这些数值向量或者矩阵输入给Seq2Seq模型进行处理。举例说明数值向量,采用独热(one-hot)编码对词汇进行编码,the cat saton the mat对应的序列数值向量为(10000,01000,00100,00010,10000,00001)。具体地,将待审阅作文对应的题目进行分词,然后进行词嵌入,最后生成题目对应的序列数值向量。
步骤S22,将所述序列数值向量输入所述题干改写模型,以使所述序列数值向量进行编码和解码,得到所述主题列表。
在本实施例中,Seq2Seq解决问题的主要思路是通过深度神经网络模型将一个作为输入的序列映射为一个作为输出的序列。Seq2seq属于Encoder-Decoder结构的一种,具体地,将序列数值向量输入题干改写模型的Encoder中进行编码,以得到编码结果,然后利用题干改写模型的Decoder对编码结果进行解码,以得到待审阅作文题目对应的改写问题,然后将这些问题保存在主题列表中。
步骤S30,基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数;
在本实施例中,通过题干改写模型得到主题列表后,进一步通过目标模型获取审阅参数。首先,根据主题列表以及待审阅作文生成预处理后的待审阅作文,然后将预处理后的待审阅作文作为输入参数,输入到目标模型,经过目标模型处理,得到主题列表中各个问题对应的答案的位置信息,进一步再获得审阅参数。
具体地,步骤S30包括:
步骤S31,利用预设的分词符分别将所述第一主题文本与所述待审阅作文的正文拼接为第一输入数据、所述第二主题文本与所述待审阅作文的正文拼接为第二输入数据,将所述第一输入数据和所述第二输入数据作为预处理后的待审阅作文。
步骤S32,分别将所述第一输入数据和所述第二数据输入所述目标模型,获得所述第一输入数据对应的第一位置参数和所述第二数据输入对应的第二位置参数;
步骤S33,在所述第一输入数据中获取所述第一位置参数对应的第一文本,在所述第二输入数据中获取所述第二位置参数对应的第二文本,将所述第一文本和所述第二文本作为审阅参数。
在本实施例中,待审阅作文的题目通过题干改写模型得到主题列表后,主题列表包括第一主题文本和第二主题文本,也就是说待审阅作文的题目被改写成两个问题,一个问题是第一主题文本,另一个问题是第二主题文本。具体地,利用预设的分词符分别将第一主题文本与待审阅作文的正文拼接为第一输入数据、第二主题文本与待审阅作文的正文拼接为第二输入数据,则预处理后的待审阅作文为第一输入数据和第二输入数据。
进一步,目标模型的处理对象是字符数据或者文本数据,需要先将数据转换为数值向量或者序列数值向量,故分别对第一输入数据和第二数据进行词嵌入,生成第一输入数据对应的序列数值向量和第二输入数据对应的序列数值向量,然后将两个序列数值向量输入目标模型,得到第一输入数据对应的第一位置参数和第二数据输入对应的第二位置参数,位置参数即为答案在作文中的起始和结尾位置。接下来,在第一输入数据根据第一位置参数获得第一文本,在第二输入数据根据第二位置参数获得第二文本,并将第一文本和第二文本作为审阅参数。
举例说明,待审阅作文的题目为“校园生活应该以社交活动为主还是以学习为主,请阐述观点”,首先进行作文题目改写,即将题目改写成问题,可改写为“校园生活是否应该以学习为主”和“校园生活是否应该以社交活动为主”两个问题;然后针对两个问题,分别与作文正文内容拼接成模型的输入数据第一输入数据和第二输入数据,以分割符sep符将第一主题文本与作文正文内容隔开,并以cls符表示第一输入数据的开始,同理,以分割符sep符将第二主题文本与作文正文内容隔开,并以cls符表示第二输入数据的开始;再次,将第一输入数据和第二输入数据进行词嵌入生成序列数值向量,输入目标模型进行处理,分别得到“校园生活是否应该以学习为主”和“校园生活是否应该以社交活动为主”两个问题各自答案所在的位置数据;最后在第一输入数据根据第一位置参数获得第一文本,在第二输入数据根据第二位置参数获得第二文本。
步骤S40,基于所述审阅参数确定所述待审阅作文的偏题结果。
在本实施例中,在第一输入数据根据第一位置参数获得第一文本,该第一文本即是第一问题的答案,在第二输入数据根据第二位置参数获得第二文本,该第二文本即是第二问题的答案,分别确定两个答案与问题是否匹配,两个答案任何一个为正则认为待审阅作文内容与题目匹配,待审阅作文不偏题。
本实施例提出的作文偏题审批方法,利用训练样本对初始偏题审阅模型进行训练,得到目标模型,而后将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表,接下来基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数,最后基于所述审阅参数确定所述待审阅作文的偏题结果。通过对作文题目进行改写得到主题列表,从而确定偏题审批标准,利用训练好的机器阅读模型获得审阅参数,最终确定偏题结果。作文偏题审批无需人工标准,且由于机器阅读模型是从语义理解层面实现,进而提升作文内容细节判断,提升了偏题审批的准确率。
基于第一实施例,参照图3,提出本发明作文偏题审批方法的第二实施例,在本实施例中,步骤S40之前,包括:
步骤S50,基于样本数据库获取预设数量的题干改写样本;
在本实施例中,在样本数据库获取预设数量的题干改写样本,所述题干改写样本包括题目、题目对应的支持主题文本以及题干对应的不支持主题文本。
步骤S60,将所述题干改写样本输入到初始模型进行训练,得到所述题干改写模型。
在本实施例中,题干改写模型为Seq2Seq(Sequence to Sequence),是一种能够根据给定的序列,通过特定的方法生成另一个序列的方法。Seq2seq属于Encoder-Decoder结构的一种,基本思想就是利用两个循环神经网络RNN,一个RNN作为Encoder,另一个RNN作为Decoder。Encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码,获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量;而Decoder则负责根据语义向量生成指定的序列,这个过程也称为解码,最简单的方式是将Encoder得到的语义变量作为初始状态输入到Decoder的RNN中,得到输出序列。将题干改写样本输入到初始模型进行训练,最终得到题干改写模型。
具体地,步骤S60包括:
步骤S61,对所述题目、所述支持主题文本以及所述不支持主题文本进行词嵌入,生成序列数值向量;
在本实施例中,Seq2Seq模型的处理对象是字符数据或者文本数据,需要先将数据转换为数值向量或者序列数值向量,再将这些数值向量或者矩阵输入给Seq2Seq模型进行处理。具体地,题目、支持主题文本以及不支持主题文本进行词嵌入,分别生成序列数值向量。
步骤S62,将所述序列数值向量输入到初始模型进行训练,得到所述题干改写模型。
在本实施例中,将序列数值向量输入到初始模型进行训练,题目对应的序列数值向量进入Encoder中,支持主题文本以及不支持主题文本对应的序列数值向量进入Decoder中,然后对初始模型进行训练,当初始模型收敛时,当前的初始模型即为题干改写模型。
本实施例提出的作文偏题审批方法,基于样本数据库获取预设数量的题干改写样本,而后将所述题干改写样本输入到初始模型进行训练,得到所述题干改写模型,通过样本数据训练初始模型得到题干改写模型,避免了手动改写题目,提升了问题改写速度和准确性。
本发明进一步提供一种作文偏题审批装置,参照图4,图4为本发明作文偏题审批装置实施例的功能模块示意图。
训练模块10,用于利用训练样本对初始偏题审阅模型进行训练,得到目标模型;
改写模块20,用于将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表;
处理模块30,用于基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数;
确定模块40,用于基于所述审阅参数确定所述待审阅作文的偏题结果。
进一步地,所述训练模块10还用于:
对所述训练样本进行预处理,得到满足所述初始偏题审阅模型要求的预处理后的训练样本;
将所述预处理后的训练样本输入到初始偏题审阅模型进行训练,并判断所述初始偏题审阅模型是否收敛;
在所述初始偏题审阅模型收敛时,得到所述目标模型。
进一步地,所述作文偏题审批装置还包括:
获取模块,用于基于样本数据库获取预设数量的题干改写样本;
改写训练模块,用于将所述题干改写样本输入到初始模型进行训练,得到所述题干改写模型。
进一步地,所述改写训练模块还用于:
对所述题目、所述支持主题文本以及所述不支持主题文本进行词嵌入,生成序列数值向量;
将所述序列数值向量输入到初始模型进行训练,得到所述题干改写模型。
进一步地,所述改写模块20还用于:
将所述待审阅作文对应的题目进行分词及词嵌入,生成序列数值向量;
将所述序列数值向量输入所述题干改写模型,以使所述序列数值向量进行编码和解码,得到所述主题列表。
进一步地,所述处理模块30还用于:
利用预设的分词符分别将所述第一主题文本与所述待审阅作文的正文拼接为第一输入数据、所述第二主题文本与所述待审阅作文的正文拼接为第二输入数据,将所述第一输入数据和所述第二输入数据作为预处理后的待审阅作文。
进一步地,所述处理模块30还用于:
分别将所述第一输入数据和所述第二数据输入所述目标模型,获得所述第一输入数据对应的第一位置参数和所述第二数据输入对应的第二位置参数;
在所述第一输入数据中获取所述第一位置参数对应的第一文本,在所述第二输入数据中获取所述第二位置参数对应的第二文本,将所述第一文本和所述第二文本作为审阅参数。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有作文偏题审批程序,所述作文偏题审批程序被处理器执行时实现上述各个实施例中作文偏题审批方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台系统设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种作文偏题审批方法,其特征在于,所述作文偏题审批方法包括以下步骤:
利用训练样本对初始偏题审阅模型进行训练,得到目标模型;
将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表,所述主题列表包括第一主题文本和第二主题文本;
基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数;
所述基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数的步骤,包括:
利用预设的分词符分别将所述第一主题文本与所述待审阅作文的正文拼接为第一输入数据、所述第二主题文本与所述待审阅作文的正文拼接为第二输入数据,将所述第一输入数据和所述第二输入数据作为预处理后的待审阅作文;
分别将所述第一输入数据和所述第二输入数据输入所述目标模型,获得所述第一输入数据对应的第一位置参数和所述第二输入数据输入对应的第二位置参数;
在所述第一输入数据中获取所述第一位置参数对应的第一文本,在所述第二输入数据中获取所述第二位置参数对应的第二文本,将所述第一文本和所述第二文本作为审阅参数;
基于所述审阅参数确定所述待审阅作文的偏题结果。
2.如权利要求1所述作文偏题审批方法,其特征在于,所述利用训练样本对初始偏题审阅模型进行训练,得到目标模型的步骤包括:
对所述训练样本进行预处理,得到满足所述初始偏题审阅模型要求的预处理后的训练样本;
将所述预处理后的训练样本输入到初始偏题审阅模型进行训练,并判断所述初始偏题审阅模型是否收敛;
在所述初始偏题审阅模型收敛时,得到所述目标模型。
3.如权利要求1所述作文偏题审批方法,其特征在于,所述利用训练样本对初始偏题审阅模型进行训练,得到目标模型的步骤之前,包括:
基于样本数据库获取预设数量的题干改写样本;
将所述题干改写样本输入到初始模型进行训练,得到所述题干改写模型。
4.如权利要求3所述作文偏题审批方法,其特征在于,所述初始模型为Seq2Seq模型,所述题干改写样本包括文本题目、文本题目对应的支持主题文本以及题干对应的不支持主题文本,所述将所述题干改写样本输入到初始模型进行训练,得到所述题干改写模型的步骤包括:
对所述文本题目、所述支持主题文本以及所述不支持主题文本进行词嵌入,生成序列数值样本向量;
将所述序列数值样本向量输入到初始模型进行训练,得到所述题干改写模型。
5.如权利要求1至4任一项所述作文偏题审批方法,其特征在于,所述将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表的步骤包括:
将所述待审阅作文对应的题目进行分词及词嵌入,生成序列数值向量;
将所述序列数值向量输入所述题干改写模型,以使所述序列数值向量进行编码和解码,得到所述主题列表。
6.一种作文偏题审批装置,其特征在于,所述作文偏题审批装置包括:
训练模块,用于利用训练样本对初始偏题审阅模型进行训练,得到目标模型;
改写模块,用于将待审阅作文对应的题目输入到题干改写模型,得到待审阅作文对应的主题列表;
处理模块,用于基于所述主题列表以及所述待审阅作文生成预处理后的待审阅作文,将所述预处理后的待审阅作文输入所述目标模型,得到审阅参数,所述主题列表包括第一主题文本和第二主题文本;
所述处理模块,具体用于:利用预设的分词符分别将所述第一主题文本与所述待审阅作文的正文拼接为第一输入数据、所述第二主题文本与所述待审阅作文的正文拼接为第二输入数据,将所述第一输入数据和所述第二输入数据作为预处理后的待审阅作文;分别将所述第一输入数据和所述第二输入数据输入所述目标模型,获得所述第一输入数据对应的第一位置参数和所述第二输入数据输入对应的第二位置参数;在所述第一输入数据中获取所述第一位置参数对应的第一文本,在所述第二输入数据中获取所述第二位置参数对应的第二文本,将所述第一文本和所述第二文本作为审阅参数;
确定模块,用于基于所述审阅参数确定所述待审阅作文的偏题结果。
7.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的作文偏题审批程序,所述作文偏题审批程序被所述处理器执行时实现如权利要求1至5中任一项所述的作文偏题审批方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有作文偏题审批程序,所述作文偏题审批程序被处理器执行时实现如权利要求1至5中任一项所述作文偏题审批方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038763.0A CN111259646B (zh) | 2020-01-14 | 2020-01-14 | 作文偏题审批方法、终端、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038763.0A CN111259646B (zh) | 2020-01-14 | 2020-01-14 | 作文偏题审批方法、终端、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259646A CN111259646A (zh) | 2020-06-09 |
CN111259646B true CN111259646B (zh) | 2024-03-15 |
Family
ID=70953097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010038763.0A Active CN111259646B (zh) | 2020-01-14 | 2020-01-14 | 作文偏题审批方法、终端、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259646B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008538A (ja) * | 2009-06-25 | 2011-01-13 | Fuji Xerox Co Ltd | データ出力装置、表示装置及びプログラム |
CN107301169A (zh) * | 2017-06-16 | 2017-10-27 | 科大讯飞股份有限公司 | 离题作文检测方法、装置和终端设备 |
CN110222347A (zh) * | 2019-06-20 | 2019-09-10 | 首都师范大学 | 一种作文离题检测方法 |
-
2020
- 2020-01-14 CN CN202010038763.0A patent/CN111259646B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008538A (ja) * | 2009-06-25 | 2011-01-13 | Fuji Xerox Co Ltd | データ出力装置、表示装置及びプログラム |
CN107301169A (zh) * | 2017-06-16 | 2017-10-27 | 科大讯飞股份有限公司 | 离题作文检测方法、装置和终端设备 |
CN110222347A (zh) * | 2019-06-20 | 2019-09-10 | 首都师范大学 | 一种作文离题检测方法 |
Non-Patent Citations (1)
Title |
---|
基于SLDA的英语短文观点分析模型;吴闯;黄桂敏;李会娟;;桂林电子科技大学学报(02);35-39 * |
Also Published As
Publication number | Publication date |
---|---|
CN111259646A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
KR102544453B1 (ko) | 정보 처리 방법, 장치 및 저장 매체 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111554276B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111444905B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN114386386A (zh) | 基于增量学习的评论生成方法、系统、设备及存储介质 | |
CN114398871A (zh) | 金融实体抽取方法、装置、设备与计算机可读存储介质 | |
CN112800177B (zh) | 基于复杂数据类型的faq知识库自动生成方法和装置 | |
CN114385812A (zh) | 用于文本的关系抽取方法及系统 | |
CN111400443B (zh) | 信息处理方法、装置及存储介质 | |
CN111444906B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN111259646B (zh) | 作文偏题审批方法、终端、装置及存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN115393867A (zh) | 文本识别模型生成方法、文本识别方法、设备及存储介质 | |
CN115881108A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN111222011B (zh) | 一种视频向量确定方法和装置 | |
CN115129858A (zh) | 试题分类模型的训练方法、装置、设备、介质及程序产品 | |
KR102112129B1 (ko) | 음성 인식 기술을 이용한 지능형 끝말잇기 단어 학습 방법 | |
CN111625636A (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN113535970A (zh) | 信息处理方法和装置、电子设备以及计算机可读存储介质 | |
CN117273014B (zh) | 基于迁移学习的跨领域语义解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |