CN114861597A - 填空题解题模型的训练方法及装置 - Google Patents

填空题解题模型的训练方法及装置 Download PDF

Info

Publication number
CN114861597A
CN114861597A CN202210536486.5A CN202210536486A CN114861597A CN 114861597 A CN114861597 A CN 114861597A CN 202210536486 A CN202210536486 A CN 202210536486A CN 114861597 A CN114861597 A CN 114861597A
Authority
CN
China
Prior art keywords
sample data
filling question
blank
question
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210536486.5A
Other languages
English (en)
Other versions
CN114861597B (zh
Inventor
阎覃
赵薇
张天宇
柳景明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feixiang Xingxing Technology Co ltd
Original Assignee
Beijing Feixiang Xingxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feixiang Xingxing Technology Co ltd filed Critical Beijing Feixiang Xingxing Technology Co ltd
Priority to CN202210536486.5A priority Critical patent/CN114861597B/zh
Publication of CN114861597A publication Critical patent/CN114861597A/zh
Application granted granted Critical
Publication of CN114861597B publication Critical patent/CN114861597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书提供填空题解题模型的训练方法及装置,其中所述填空题解题模型训练方法包括:获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。通过目标填空题样本数据集对填空题模型进行训练,得到解题正确率更高的目标填空题解题模型。

Description

填空题解题模型的训练方法及装置
技术领域
本说明书涉及计算机技术领域,特别涉及一种填空题解题模型的训练方法。本说明书同时涉及一种填空题解题方法,一种填空题解题模型的训练装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
当前,由于填空题题型丰富多样,通常需要人工解答填空题;然而,采用人工答题的方式成本较高,并且解题正确率不能保证,影响对填空题的处理效率。
为了解决上述问题,目前通常会选择将填空题输入至训练好的通用解题模型中,得到解题答案,从而提高解题效率,但当前解题模型的准确性不高。
因此,如何提升填空题解题模型的准确率成为本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本说明书实施例提供了一种填空题解题模型的训练方法。本说明书同时涉及一种填空题解题方法,一种填空题解题模型的训练装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种填空题解题模型的训练方法,包括:
获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;
针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;
根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;
基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
根据本说明书实施例的第二方面,提供了一种填空题解题模型的训练装置,包括:
获取模块,被配置为获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;
添加模块,被配置为针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;
生成模块,被配置为根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;
训练模块,被配置为基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
根据本说明书实施例的第三方面,提供了填空题解题方法,包括:
接收填空题解题请求,确定待解答填空题;
将所述待解答填空题输入至目标填空题解题模型;
获取所述目标填空题解题模型输出的所述待解答填空题对应的填空答案。
根据本说明书实施例的第四方面,提供了填空题解题装置,包括:
接收模块,被配置为接收填空题解题请求,确定待解答填空题;
输入模块,被配置为将所述待解答填空题输入至目标填空题解题模型;
获取模块,被配置为获取所述目标填空题解题模型输出的所述待解答填空题对应的填空答案。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述填空题解题模型的训练方法的步骤。
本说明书提供的填空题解题模型的训练方法,获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
本说明书一实施例实现了通过目标填空题样本数据集对填空题模型进行训练,得到解题正确率更高的目标填空题解题模型。
附图说明
图1是本说明书一实施例提供的一种填空题解题模型的训练方法的流程图;
图2是本说明书一实施例提供的一种填空题解题方法的流程图;
图3是本说明书一实施例提供的一种应用于英语填空题的填空题解题模型的训练方法的处理流程图;
图4是本说明书一实施例提供的一种填空题解题模型的训练装置的结构示意图;
图5是本说明书一实施例提供的一种填空题解题装置的结构示意图;
图6是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
T5模型:TransferText-to-Text Transformer模型,是一种预训练语言模型。它提出了一个统一的框架,将所有自然语言处理(Natural language processing,NLP)任务都转换成文本到文本(Text-to-text)的任务。
Minhash算法:Minhash算法设计了一种最小哈希函数,将原始超高维的稀疏向量转化为低维的稠密向量,降低了计算的空间复杂度。同时,对转换后的稠密向量进行分段索引,缩小潜在相似文本范围,降低了计算的时间复杂度。
shuffle算法:将数据原有的排序打乱的算法。
困惑度:用来度量一个概率分布或概率模型预测样本的好坏程度。低困惑度的概率分布模型或概率模型能更好地预测样本。
微调:是指对预训练后的模型进行的微调,微调是指将其靠近输出的几层解冻,并将这几层与分类器联合训练,让模型更加适用于当前要解决的问题。
在本说明书中,提供了一种填空题解题模型的训练方法,本说明书同时涉及一种填空题解题方法,一种填空题解题模型的训练装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的一种填空题解题模型的训练方法的流程图,具体包括以下步骤:
步骤102:获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测。
其中,填空题样本数据集是指由填空题样本数据组成的数据集;待填写位置检测是指检测填空题样本数据中是否包含待填写位置,待填写位置是指填空的填写答案的位置;在实际应用中,由于填空题样本数据集中存在已填写填空答案的填空题样本数据和未填写填空答案的样本数据,故可以对每个填空题样本数据进行待填写位置检测,检测每个填空题样本数据中是否包含待填写位置。
具体的,确定填空题样本数据中的每个填空题样本数据;对每个填空题样本数据进行待填写位置检测,得到每个填空题样本数据对应的检测结果,其中,检测结果可以是包含待填写位置和不包含待填写位置。
在实际应用中,为了保证填空题样本数据的准确性,获取填空题样本数据集的方法可以包括:
在预设题库中筛选填空题题目,并提取填空题题目中的填空题题目内容;
删除每个填空题题目内容中的非法字符和/或采用标准字符替换所述填空题题目内容中的非标准字符,获得填空题样本数据;
由每个填空题样本数据生成填空题样本数据集。
其中,预设题库是指包含填空题题目的题目数据库,如,可以在公开网络中查询到的试题库,培训机构建立的试题库等等;填空题题目是指通过在填空题的待填写位置答案进行试题解答的题目;在预设题库中筛选出填空题题目,并获取填空题题目对应的填空题题目内容,填空题题目内容包括填空题题干内容和填空题题干内容对应的填空题答案内容。
非法字符是指预先设定的不能出现在填空题题目中的字符以及与题目无关的字符,如,题号、空格、html标签等等;标准字符是指符合预设字符格式的字符;非标准字符是指在填空题题目内容中不符合预设字符格式的字符;例如,预设字符格式为英文标点符号,则需要将中文标点符号转换为符合预设字符格式的标点符号,即用英文标点符号替换中文标点符合。
进一步地,为了保证填空题题目内容的完整和准确性,还可以直接删除不符合预设题目规则的填空题题目内容,如,直接删除包含公式、图片等不符合题目规则的填空题题目内容。
具体的,基于针对填空题样本数据集的建立需求在预设题库中筛选填空题题目,并提取填空题题目的题目内容,包括题干内容和对应的填空答案内容;确定预设非法字符,并基于预设非法字符确定题目内容中是否包含非法字符,在确定与预设非法字符对应的字符情况下,将该字符从题目内容中删除;确定预设字符格式,并基于预设字符格式确定题目内容中不符合预设字符格式的非标准字符,并基于非标准字符对应的标准字符替换题目内容中的非标准字符。
例如,在包含英语填空题的预设题库J中的筛选出英语填空题题目;提取英语填空题题目中的英语填空题题目内容;删除英语填空题题目内容中的图片、公式、空格等字符,并将英语填空题题目中的包含的非标准字符:中文标点符号用对应的标准字符:英语标点符号进行替换。
通过获取填空题样本数据集,并对填空题样本数据进行待填写位置检测,确定填空题样本数据对应的检测结果,以便后续基于检测结果对填空题样本数据做进一步的处理。
步骤104:针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据。
具体的,基于检测结果在填空题样本数据集中确定包含待填写位置的填空题样本数据;在待填写位置添加空缺标识,空缺标识可以是掩码参数[Mask],用于对待处理的数据进行遮挡,此处的空缺标识作为填空答案组成填空题题目内容,以便后续基于包含空缺标识的填空题样本数据进行填空题解题模型的训练。当前填空题样本数据是指在包含待填写位置的填空样本数据中添加空缺标识的得到的填空题样本数据。
在实际应用中,针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据的方法可以包括:
针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得第一填空题样本数据;
确定所述第一填空题样本数据的空缺标识占比;
选择小于等于预设占比阈值的第一填空题样本数据,作为当前填空题样本数据。
其中,第一填空题样本数据是指添加空缺标识后得到的填空题样本数据;空缺标识占比是指空缺标识在一条第一填空题样本数据中所占字符的比例,例如,在第一填空题样本数据F中包含的总字符数量为10,其中,共有5个空缺标识,即填空题样本数据F对应的空缺标识占比为50%;预设占比阈值是指预先设定的空缺标识占比,超过预设占比阈值的空缺标识占比对应的填空题样本数据不符合需求,需要进行删除。
具体的,在包含待填写位置的填空题样本数据中添加空缺标识,得到多个第一填空题样本数据;计算每个第一填空题样本数据对应的空缺标识占比,并筛选出空缺标识占比小于或等于预设占比阈值的第一填空题样本数据,作为当前填空题样本数据。
例如,确定包含待填写位置的填空题样本数据A、B、C,并为每个填空题样本数据添加空缺标识,得到第一填空题样本数据A1、B1、C1;计算A1、B1、C1的空缺标识占比分别为15%、20%、5%;确定预设占比阈值为15%,则确定A1和C1为当前填空题样本数据。
通过在包含待填写位置的填空题样本数据中添加空缺标识,获得当前填空题样本数据,以便后续基于当前填空样本数据生成数据集。
步骤106:根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集。
在确定当前填空题样本数据后,可以基于当前填空题样本数据和填空题样本数据集中不包含待填写位置的填空题样本数据集生成目标填空题样本数据集。
在实际应用中,为了保证目标填空题样本数据的准确性,根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集的具体方法可以包括:
根据所述当前填空题样本数据和所述填空题样本数据集中未包含待填写位置的填空题样本数据生成初始填空题样本数据集;
确定所述初始填空题样本数据集中包含的初始填空题样本数据分别对应的数据长度;
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成所述目标填空题样本数据集。
其中,初始填空题样本数据集是指由初始填空题样本数据组成的数据集,初始填空题样本数据集可以是当前填空题样本数据和未包含待填写位置的填空题样本数据;数据长度是指初始填空题样本数据中的字符的数量,如,初始填空题样本数据的字符数量为15;预设长度阈值是预先设定的填空题样本数据的字符数量下限,即小于预设长度阈值的填空题样本数据不符合数据要求,需要进行删除。
例如,基于当前填空题样本数据A、B以及未包含待填写位置的填空题样本数据1、2生成初始填空题样本数据集;确定每个填空题样本数据对应的数据长度,具体为:填空题样本数据A、B对应的数据长度分别为13、7,填空题样本数据1、2分别为16、20;确定预设长度阈值为10,填空题样本数据B的数据长度7小于10,则基于填空题样本数据A和填空题样本数据1、2组成目标填空题样本数据集。
进一步地,为了便于基于目标填空题的样本数据集进行模型训练,可以对填空样本数据进行分词后,生成基于分词后的数据生成目标填空题样本数据集的方法包括:
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成中间填空题样本数据集;
根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,获得目标填空题样本数据集。
其中,中间填空题样本数据集是指由中间填空题样本数据组成的数据集;中间填空题样本数据是指数据长度大于或等于预设长度阈值的填空题样本数据;预设分词规则是指对中间填空题样本数据进行分词处理的规则,例如,预设分词规则为最大匹配算法、全切分算法等等;基于分词后的中间填空题样本数据组成目标填空题样本数据集。
例如,由数据长度大于或等于预设长度阈值的填空题样本数据组成中间填空题样本数据集;基于最大匹配算法对每个中间填空题数据进行分词处理,并将分词处理得到填空题样本数据组成目标填空题样本数据集。
进一步地,除了上述删除数据长度较短的填空题样本数据的情况外,还可以对数据长度过长的数据进行切分,从而便于后续的使用。
具体的,选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成中间填空题样本数据集的方法可以包括:
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据,组成待处理填空题样本数据集;
确定所述待处理填空题样本数据集中大于等于预设长度上限阈值的目标待处理填空题样本数据;
基于预设切分规则对所述目标待处理填空题样本数据进行切分,获得第一中间填空题样本数据;
基于所述第一中间填空题样本数据和所述待处理填空题样本数据集中小于预设长度上限阈值的目标待处理填空题样本数据组成中间填空题样本数据集。
其中,待处理填空题样本数据集是指由待处理填空题样本数据组成的数据集;待处理填空题样本数据是指数据长度大于等于预设长度阈值的填空题样本数据;预设长度上限阈值是指待处理填空题样本数据对应的数据长度的上限值;目标待处理填空题样本数据是指数据长度大于等于预设长度上限阈值的填空题样本数据。
预设切分规则是指对数据长度大于等于预设长度上限阈值的填空题样本数据进行切分的规则;第一中间填空题样本数据是指对填空题样本数据进行切分得到的切分后的填空题样本数据。
具体的,在初始填空题样本数据集中选择大于等于预设长度阈值的初始填空题样本数据作为待处理填空题样本数据,组成待处理填空题样本数据集;在待处理填空题样本数据集中选择大于等于预设长度上限阈值的待处理填空题样本数据作为目标待处理填空题样本数据;根据预设切分规则对目标待处理填空题样本数据进行切分,获得第一中间填空题样本数据;根据待处理填空题样本数据集中,数据长度小于预设长度上限阈值的填空题样本数据和第一中间填空题样本数据组成中间填空题样本数据集。
例如,选择数据长度大于等于预设长度的填空题样本数据组成数据集D{数据a、数据b、数据c};在数据集D中确定数据长度大于等于预设长度上限阈值的数据a和数据b;根据切分规则r对数据a进行切分,得到数据a1和数据a2,对数据b进行切分,得到数据b1和数据b2;由数据a1、数据a2、数据b1、数据b2以及数据集D中数据长度小于预设长度上限阈值的数据c组成中间填空题样本数据集。
在确定中间填空题样本数据集后,根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,获得目标填空题样本数据集的具体方法可以包括:
根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,得到分词填空题样本数据集;
基于预设去重算法计算所述分词填空题样本数据集中的每个分词填空题样本数据之间的相似度,并根据每个分词填空题样本数据对应的相似度确定数据去重信息;
根据预设语义清洗算法计算所述分词填空题样本数据集中的每个分词填空题样本数据的困惑度,并根据每个分词填空题样本数据对应的困惑度确定语义清洗信息;
基于所述数据去重信息和语义清洗信息提取所述分词填空题样本数据集合中的当前目标填空题样本数据,并基于每个当前目标填空题样本数据生成目标填空题样本数据集。
其中,分词填空题样本数据集是指由分词填空题样本数据组成的数据集合;分词填空题样本数据是指对中间填空题样本数据进行分词处理得到的填空题样本数据;预设去重算法是指确定文本数据中相似度较高的内容的算法,例如,KShingle算法、Minhash算法等等;相似度是指不同的分词填空题样本数据之间的相似度,相似度越高,表示两个分词填空题样本数据相似的内容越多,在相似度超过阈值的情况下,则需要从两个分词填空题样本数据删除其中一个,从而实现数据去重;数据去重信息是指不同的分词填空题样本数据之间的相似度对应的相似度值。
预设语义清洗算法是指采集语言模型得到的语言特征,并基于语言特征清洗不符合主体特征数据的算法;语言模型输出的困惑度越低,表示输入模型的数据的生成概率更高、更合理,例如,获取困惑度在16至550的数据作为目标填空题样本数据;语义清洗信息是指分词填空题样本数据的困惑度对应的困惑度值;当前目标填空题样本数据是指基于预设语义清洗算法和/或数据去重算法在分词填空题样本数据集确定的填空题样本数据。
例如,确定包含分词处理后的填空题样本数据的填空题样本数据集K;使用minhash算法计算填空题样本数据集K中每条填空题样本数据的哈希值;为每个哈希值建立索引,将同一索引值下的两个填空题样本数据组成相似数据对;计算每个相似对中数据的相似度,并在确定相似度小于或等于预设相似度阈值对应的相似数据对中删除任意一个填空题样本数据,从而完成填空题样本数据的去重;
将填空题样本数据集K中的每条填空题样本数据输入至Bi-gram模型,获取Bi-gram模型输出的每条填空题样本数据对应的困惑度;确定预设困惑度范围为18-560,则仅选取填空题样本数据对应的困惑度在预设困惑度范围内的数据作为填空题样本数据,从而完成填空题样本数据的语义清洗;
将经过去重和语义清洗筛选出的填空题样本数据作为当前目标填空题样本数据,并生成目标填空题样本数据集。
进一步地,根据每个当前目标填空题样本数据生成目标填空题样本数据集的方法包括:
将每个当前目标填空题样本数据基于预设排序规则进行排序,获得目标填空题样本数据集。
其中,预设排序规则是指对当前目标填空题样本数据进行排序的规则;在实际应用中,为了保证模型训练的准确性,可以基于打乱数据顺序的数据生成训练集,具体为可以基于预设排序规则对当前目标填空样本数据进行排序,例如,基于shuffle算法对当前目标填空题样本数据进行重新排序,生成目标填空题样本数据集。
通过对填空题样本数据集中的填空题样本数据进行待填写位置检测,具体为在待填写位置添加空缺标识以及进行数据去重、数据语义清洗、分词等处理后得到目标填空题样本数据集,提升了填空题样本数据的准确性。
步骤108:基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
在得到目标填空题样本数据集后,即可基于目标填空题样本数据集对填空题解题模型进行领域预训练。
其中,包含编码层和解码层的填空题解题模型是指模型的输入和输出均为文本的模型,如,T5模型;目标填空题解题模型是指基于目标填空题样本数据集对填空题解题模型进行训练后得到的模型。
在实际应用中,基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型的方法可以包括:
确定包含编码层和解码层的待训练填空题解题模型,并将所述目标填空题样本数据集中的目标填空题样本数据输入至所述待训练填空题解题模型;
通过所述待训练填空题解题模型的掩码模块对目标填空题样本数据中的待掩码数据进行掩码处理,获得空缺填空题样本数据;
基于所述待训练填空题解题模型的预测模块对所述空缺填空题样本数据进行处理,并获取所述待训练填空题解题模型输出的预测填空结果;
根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得目标填空题解题模型。
其中,包含编码层和解码层的待训练填空题解题模型是指未基于目标填空题样本数据集进行训练的模型;待训练填空题解题模型的掩码模块是指对目标填空题样本数据集中的目标填空题样本数据进行随机遮盖的处理模块;待掩码数据是指目标填空题样本数据中确定的待遮盖的数据;掩码处理是指将目标填空题样本数据中的待掩码数据替换为空缺标识的处理,通过掩码处理得到空缺填空题样本数据。
待训练填空题解题模型的预测模块是指预测目标填空题样本数据空缺标识对应的数据内容的处理模块,该模块结合上下文语义预测空缺标识对应的字符内容。
具体的,将目标填空题样本数据集中的目标填空题样本数据输入至包含编码层和解码层的待训练填空题解题模型;待训练填空题解题模型的掩码模块,在接收到的目标填空题样本数据后随机确定待掩码数据,并使用空缺标识替换待掩码数据得到空缺填空题样本数据;待训练填空题解题模型的预测模块,根据空缺填空题样本数据预测空缺标识对应的数据内容,得到预测填空结果;基于预测填空结果和待掩码数据对待训练填空题解题模型进行预训练,得到目标填空题解题模型。
通过对BERT模型等通用模型进行领域预训练,可以降低模型大小,提升推理速度,降低训练成本。
进一步的,为了提升目标填空题解题模型的解题准确性,可以在经过上述领域预训练后,再基于包含标注数据的数据集对目标填空题解题模型进行进一步的训练,即对目标填空题解题模型进行微调。
具体的,根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得目标填空题解题模型的方法可以包括:
根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得训练后的待训练填空题解题模型;
获取填空题题目数据集,其中,所述填空题题目数据集包括:填空题题目和所述填空题题目的填空结果标识;
将所述填空题题目输入至所述训练后的待训练填空题解题模型中,获得填空预测结果,并基于所述填空结果标识和所述填空预测结果对所述待训练填空题解题模型进行微调;
在达到微调停止条件的情况下,获得目标填空题解题模型。
其中,填空题题目数据集是指包含填空题题目和填空题题目对应的填空结果标识的数据集,即每个填空题题目标注有填空结果标识;填空结果标识是指填空题题目的填空答案。
具体的,将填空题题目数据集中的填空题题目输入至训练后的待训练填空题解题模型,并接收训练后的待训练填空题解题模型输出的填空预测结果;计算填空预测结果和填空结果标识的损失值,并基于损失值对领域预训练后的待训练填空题解题模型的模型参数进行调整,直至达到微调停止条件,得到目标填空题解题模型。
本说明书提供的填空题解题模型的训练方法,获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。本说明书一实施例实现了通过目标填空题样本数据集对填空题模型进行训练,得到解题正确率更高的目标填空题解题模型。
图2示出了根据本说明书一实施例提供的一种填空题解题方法的流程图,具体包括以下步骤:
步骤202:接收填空题解题请求,确定待解答填空题。
其中,填空题解题请求是指对待解答填空进行解答的请求;在接收到填空题解题请求后,对填空题解题请求进行解析,获得填空题标识;基于填空题标识在试题库中确定待解答填空题。
例如,接收填空题解题请求Q,对填空题解题请求Q进行解析,获得填空题标识H;基于填空题标识在试题库中确定待解题填空题h。
步骤204:将所述待解答填空题输入至上述目标填空题解题模型。
具体的,将待解答填空题输入至目标填空题解题模型中。
沿用上例,将待解题填空题h输入至基于训练集A进行预训练、基于训练集B进行微调得到的填空题解题模型K中。
步骤206:获取所述目标填空题解题模型输出的所述待解答填空题对应的填空答案。
其中,填空答案是指与待解答填空题对应的答案文本。
沿用上例,获取填空题解题模型K基于待解题填空题h输出的待解题填空题h对应的填空答案。
本说明书的填空题解题方法,将待解答填空题输入至解题准确性高的目标填空题解题模型中,从而得到准确性更高的填空答案,进而提升了填空题解题准确率。
下述结合附图3,以本说明书提供的填空题解题模型的训练方法在英语填空题的应用为例,对所述填空题解题模型的训练方法进行进一步说明。其中,图2示出了本说明书一实施例提供的一种应用于英语填空题的填空题解题模型的训练方法的处理流程图,具体包括以下步骤:
步骤302:在试题数据集中筛选英语填空题,并提取英语填空题的题目内容。
具体的,将可以采集到的试题进行统一存储,生成试题数据集,其中,试题数据中包含英语题、数学题等各种类型的试题;在试题数据集中筛选英语填空题,并提取英语填空题的题目内容。
步骤304:删除每个英语填空题题目内容中的非法字符,并采用标准字符替换英语填空题题目内容中的非标准字符,获得英语填空题样本数据。
具体的,删除包含图片、公式等不符合英语填空题题型规则的英语填空题题目内容;进一步判断符合英语填空题题型规则的英语填空题题目内容中是否包含非法字符或非标准字符;若存在非法字符,则需要对非法字符进行删除;若存在非标准字符,则需要基于非标准字符对应的标准字符替换英语填空题题目内容中非标准字符;将处理后的英语填空题题目内容作为英语填空题样本数据。
步骤306:基于英语填空题样本数据组成的英语填空题样本数据集。
步骤308:对英语填空题样本数据集中的每个英语填空题样本数据进行待填写位置检测。
具体的,检测每个英语填空题样本数据中是否包含待填写位置,确定每个英语填空题样本数据对应的检测结果,即包含待填写位置或不包含待填写位置。
步骤310:针对英语填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据。
具体的,确定英语填空题样本数据集中包含待填写位置的英语填空题样本数据,并添加空缺标识,获得每个包含待填写位置的英语填空题样本数据对应的当前填空题样本数据。
进一步地,具体可采用下述方式获得当前填空题样本数据:
针对英语填空题样本数据集中包含待填写位置的英语填空题样本数据添加空缺标识,获得第一填空题样本数据;确定第一填空题样本数据的空缺标识占比;选择小于等于预设占比阈值的第一填空题样本数据,作为当前填空题样本数据。
步骤312:根据英语填空题样本数据集中未包含待填写位置的填空题样本数据和当前填空题样本数据,生成目标英语填空题样本数据集。
具体的,确定英语填空题样本数据集中未包含待填写位置的填空题样本数据以及当前填空题样本数据;进一步地,基于未包含待填写位置的填空题样本数据以及当前填空题样本数据生成目标英语填空题样本数据集的方法包括:
根据当前填空题样本数据和填空题样本数据集中未包含待填写位置的填空题样本数据生成初始填空题样本数据集;确定初始填空题样本数据集中包含的初始填空题样本数据分别对应的数据长度;选择数据长度大于等于预设长度阈值的初始填空题样本数据,组成待处理填空题样本数据集。
确定待处理填空题样本数据集中大于等于预设长度上限阈值的目标待处理填空题样本数据;基于预设切分规则对目标待处理填空题样本数据进行切分,获得第一中间填空题样本数据;根据第一中间填空题样本数据和待处理填空题样本数据集中小于预设长度上限阈值的目标待处理填空题样本数据组成中间填空题样本数据集。
根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,得到分词填空题样本数据集;基于预设去重算法计算分词填空题样本数据集中的每个分词填空题样本数据之间的相似度,并根据每个分词填空题样本数据对应的相似度确定数据去重信息;根据预设语义清洗算法计算分词填空题样本数据集中的每个分词填空题样本数据的困惑度,并根据每个分词填空题样本数据对应的困惑度确定语义清洗信息。
基于数据去重信息和语义清洗信息提取分词填空题样本数据集合中的当前目标填空题样本数据,并将每个当前目标填空题样本数据基于预设排序规则进行排序,获得目标英语填空题样本数据集。
步骤314:基于目标样本填空题样本数据集对英语填空题解题模型进行训练,得到训练后的英语填空题解题模型。
具体的,确定包含编码层和解码层的英语填空题解题模型,T5模型,并将目标英语填空题样本数据集中的目标英语填空题样本数据输入至T5模型;通过T5模型掩码模块对目标英语填空题样本数据中的待掩码数据进行掩码处理,获得空缺英语填空题样本数据;基于T5模型的预测模块对空缺填空题样本数据进行处理,并获取T5模型基于空缺填空题样本数据输出的预测填空结果;根据预测填空结果和待掩码数据对T5模型进行领域预训练,领域预训练后的英语填空题解题模型。
步骤316:基于英语填空题题目数据集,对训练后的英语填空题解题模型进行微调,得到目标英语填空题解题模型。
具体的,获取英语填空题题目数据集,在英语填空题题目数据集中包含英语填空题题目和英语填空题题目的正确填空文本;将英语填空题题目输入至领域预训练后的T5模型中,获得填空预测结果;根据正确填空文本和填空预测结果对训练后的英语填空题解题模型的模型参数进行调整;在达到微调停止条件的情况下,获得目标英语填空题解题模型。
本实施例中的英语填空题解题模型的训练方法,获取英语填空题样本数据集,并对英语填空题样本数据集中的英语填空题样本数据进行待填写位置检测;针对英语填空题样本数据集中包含待填写位置的英语填空题样本数据添加空缺标识,获得当前填空题样本数据;根据英语填空题样本数据集中未包含待填写位置的英语填空题样本数据和当前填空题样本数据,生成目标英语填空题样本数据集;基于英语目标填空题样本数据集对包含编码层和解码层的英语填空题解题模型进行训练,直至获得符合训练条件的目标英语填空题解题模型。本实施例实现了通过目标英语填空题样本数据集对英语填空题模型进行训练,得到解题正确率更高的目标英语填空题解题模型。
与上述方法实施例相对应,本说明书还提供了填空题解题模型的训练装置实施例,图4示出了本说明书一实施例提供的一种填空题解题模型的训练装置的结构示意图。如图4所示,该装置包括:
获取模块402,被配置为获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;
添加模块404,被配置为针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;
生成模块406,被配置为根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;
训练模块408,被配置为基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
可选地,所述生成模块406,进一步被配置为:
根据所述当前填空题样本数据和所述填空题样本数据集中未包含待填写位置的填空题样本数据生成初始填空题样本数据集;
确定所述初始填空题样本数据集中包含的初始填空题样本数据分别对应的数据长度;
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成所述目标填空题样本数据集。
可选地,所述添加模块404,进一步被配置为:
针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得第一填空题样本数据;
确定所述第一填空题样本数据的空缺标识占比;
选择小于等于预设占比阈值的第一填空题样本数据,作为当前填空题样本数据。
可选地,所述生成模块406,进一步被配置为:
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成中间填空题样本数据集;
根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,获得目标填空题样本数据集。
可选地,所述生成模块406,进一步被配置为:
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据,组成待处理填空题样本数据集;
确定所述待处理填空题样本数据集中大于等于预设长度上限阈值的目标待处理填空题样本数据;
基于预设切分规则对所述目标待处理填空题样本数据进行切分,获得第一中间填空题样本数据;
基于所述第一中间填空题样本数据和所述待处理填空题样本数据集中小于预设长度上限阈值的目标待处理填空题样本数据组成中间填空题样本数据集。
可选地,所述生成模块406,进一步被配置为:
根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,得到分词填空题样本数据集;
基于预设去重算法计算所述分词填空题样本数据集中的每个分词填空题样本数据之间的相似度,并根据每个分词填空题样本数据对应的相似度确定数据去重信息;
根据预设语义清洗算法计算所述分词填空题样本数据集中的每个分词填空题样本数据的困惑度,并根据每个分词填空题样本数据对应的困惑度确定语义清洗信息;
基于所述数据去重信息和语义清洗信息提取所述分词填空题样本数据集合中的当前目标填空题样本数据,并基于每个当前目标填空题样本数据生成目标填空题样本数据集。
可选地,所述生成模块406,进一步被配置为:
将每个当前目标填空题样本数据基于预设排序规则进行排序,获得目标填空题样本数据集。
可选地,所述获取模块402,进一步被配置为:
在预设题库中筛选填空题题目,并提取填空题题目中的填空题题目内容;
删除每个填空题题目内容中的非法字符和/或采用标准字符替换所述填空题题目内容中的非标准字符,获得填空题样本数据;
由每个填空题样本数据生成填空题样本数据集。
可选地,所述训练模块408,进一步被配置为:
确定包含编码层和解码层的待训练填空题解题模型,并将所述目标填空题样本数据集中的目标填空题样本数据输入至所述待训练填空题解题模型;
通过所述待训练填空题解题模型的掩码模块对目标填空题样本数据中的待掩码数据进行掩码处理,获得空缺填空题样本数据;
基于所述待训练填空题解题模型的预测模块对所述空缺填空题样本数据进行处理,并获取所述待训练填空题解题模型输出的预测填空结果;
根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得目标填空题解题模型。
可选地,所述训练模块408,进一步被配置为:
根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得训练后的待训练填空题解题模型;
获取填空题题目数据集,其中,所述填空题题目数据集包括:填空题题目和所述填空题题目的填空结果标识;
将所述填空题题目输入至所述训练后的待训练填空题解题模型中,获得填空预测结果,并基于所述填空结果标识和所述填空预测结果对所述待训练填空题解题模型进行微调;
在达到微调停止条件的情况下,获得目标填空题解题模型。
本说明书提供的填空题解题模型的训练装置,获取模块,被配置为获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;添加模块,被配置为针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;生成模块,被配置为根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;训练模块,被配置为基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。实现了通过目标填空题样本数据集对填空题模型进行训练,得到解题正确率更高的目标填空题解题模型。
与上述方法实施例相对应,本说明书还提供了填空题解题装置实施例,图5示出了本说明书一实施例提供的一种填空题解题装置的结构示意图。如图5所示,该装置包括:
接收模块502,被配置为接收填空题解题请求,确定待解答填空题;
输入模块504,被配置为将所述待解答填空题输入至目标填空题解题模型;
获取模块506,被配置为获取所述目标填空题解题模型输出的所述待解答填空题对应的填空答案。
本说明书提供的填空题解题装置,接收模块,被配置为接收填空题解题请求,确定待解答填空题;输入模块,被配置为将所述待解答填空题输入至目标填空题解题模型;获取模块,被配置为获取所述目标填空题解题模型输出的所述待解答填空题对应的填空答案。通过将待解答填空题输入至解题准确性高的目标填空题解题模型中,从而得到准确性更高的填空答案,进而提升了填空题解题准确率。
上述为本实施例的一种填空题解题模型的训练装置的示意性方案。需要说明的是,该填空题解题模型的训练装置的技术方案与上述的填空题解题模型的训练方法的技术方案属于同一构思,填空题解题模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述填空题解题模型的训练方法的技术方案的描述。
图6示出了根据本说明书一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行如下计算机可执行指令:
获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;
针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;
根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;
基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的填空题解题模型的训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述填空题解题模型的训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;
针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;
根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;
基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的填空题解题模型的训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述填空题解题模型的训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种填空题解题模型的训练方法,其特征在于,包括:
获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;
针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;
根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;
基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
2.如权利要求1所述的方法,其特征在于,根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集,包括:
根据所述当前填空题样本数据和所述填空题样本数据集中未包含待填写位置的填空题样本数据生成初始填空题样本数据集;
确定所述初始填空题样本数据集中包含的初始填空题样本数据分别对应的数据长度;
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成所述目标填空题样本数据集。
3.如权利要求1所述的方法,其特征在于,针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据,包括:
针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得第一填空题样本数据;
确定所述第一填空题样本数据的空缺标识占比;
选择小于等于预设占比阈值的第一填空题样本数据,作为当前填空题样本数据。
4.如权利要求2所述的方法,其特征在于,选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成所述目标填空题样本数据集,包括:
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成中间填空题样本数据集;
根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,获得目标填空题样本数据集。
5.如权利要求4所述的方法,其特征在于,选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据组成中间填空题样本数据集,包括:
选择大于等于预设长度阈值的数据长度对应的初始填空题样本数据,组成待处理填空题样本数据集;
确定所述待处理填空题样本数据集中大于等于预设长度上限阈值的目标待处理填空题样本数据;
基于预设切分规则对所述目标待处理填空题样本数据进行切分,获得第一中间填空题样本数据;
基于所述第一中间填空题样本数据和所述待处理填空题样本数据集中小于预设长度上限阈值的目标待处理填空题样本数据组成中间填空题样本数据集。
6.如权利要求4所述的方法,其特征在于,根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,获得目标填空题样本数据集,包括:
根据预设分词规则对中间填空题样本数据集中包含的中间填空题样本数据进行分词处理,得到分词填空题样本数据集;
基于预设去重算法计算所述分词填空题样本数据集中的每个分词填空题样本数据之间的相似度,并根据每个分词填空题样本数据对应的相似度确定数据去重信息;
根据预设语义清洗算法计算所述分词填空题样本数据集中的每个分词填空题样本数据的困惑度,并根据每个分词填空题样本数据对应的困惑度确定语义清洗信息;
基于所述数据去重信息和语义清洗信息提取所述分词填空题样本数据集合中的当前目标填空题样本数据,并基于每个当前目标填空题样本数据生成目标填空题样本数据集。
7.如权利要求5所述的方法,其特征在于,基于每个当前目标填空题样本数据生成目标填空题样本数据集,包括:
将每个当前目标填空题样本数据基于预设排序规则进行排序,获得目标填空题样本数据集。
8.如权利要求1所述的方法,其特征在于,获取填空题样本数据集,包括:
在预设题库中筛选填空题题目,并提取填空题题目中的填空题题目内容;
删除每个填空题题目内容中的非法字符和/或采用标准字符替换所述填空题题目内容中的非标准字符,获得填空题样本数据;
由每个填空题样本数据生成填空题样本数据集。
9.如权利要求1所述的方法,其特征在于,基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型,包括:
确定包含编码层和解码层的待训练填空题解题模型,并将所述目标填空题样本数据集中的目标填空题样本数据输入至所述待训练填空题解题模型;
通过所述待训练填空题解题模型的掩码模块对目标填空题样本数据中的待掩码数据进行掩码处理,获得空缺填空题样本数据;
基于所述待训练填空题解题模型的预测模块对所述空缺填空题样本数据进行处理,并获取所述待训练填空题解题模型输出的预测填空结果;
根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得目标填空题解题模型。
10.如权利要求9所述的方法,其特征在于,根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得目标填空题解题模型,包括:
根据所述预测填空结果和所述待掩码数据对所述待训练填空题解题模型的模型参数进行调整,获得训练后的待训练填空题解题模型;
获取填空题题目数据集,其中,所述填空题题目数据集包括:填空题题目和所述填空题题目的填空结果标识;
将所述填空题题目输入至所述训练后的待训练填空题解题模型中,获得填空预测结果,并基于所述填空结果标识和所述填空预测结果对所述待训练填空题解题模型进行微调;
在达到微调停止条件的情况下,获得目标填空题解题模型。
11.一种填空题解题方法,其特征在于,包括:
接收填空题解题请求,确定待解答填空题;
将所述待解答填空题输入至如权利要求1-10任意一项所述方法中的目标填空题解题模型;
获取所述目标填空题解题模型输出的所述待解答填空题对应的填空答案。
12.一种填空题解题模型的训练装置,其特征在于,包括:
获取模块,被配置为获取填空题样本数据集,并对所述填空题样本数据集中的填空题样本数据进行待填写位置检测;
添加模块,被配置为针对所述填空题样本数据集中包含待填写位置的填空题样本数据添加空缺标识,获得当前填空题样本数据;
生成模块,被配置为根据所述填空题样本数据集中未包含待填写位置的填空题样本数据和所述当前填空题样本数据,生成目标填空题样本数据集;
训练模块,被配置为基于所述目标填空题样本数据集对包含编码层和解码层的填空题解题模型进行训练,直至获得符合训练条件的目标填空题解题模型。
13.一种计算设备,其特征在于,包括存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现权利要求1至10或11任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至10或11任意一项所述方法的步骤。
CN202210536486.5A 2022-05-17 2022-05-17 填空题解题模型的训练方法及装置 Active CN114861597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210536486.5A CN114861597B (zh) 2022-05-17 2022-05-17 填空题解题模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210536486.5A CN114861597B (zh) 2022-05-17 2022-05-17 填空题解题模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN114861597A true CN114861597A (zh) 2022-08-05
CN114861597B CN114861597B (zh) 2024-07-12

Family

ID=82638113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210536486.5A Active CN114861597B (zh) 2022-05-17 2022-05-17 填空题解题模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN114861597B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767731A (zh) * 2020-07-09 2020-10-13 北京猿力未来科技有限公司 语法纠错模型的训练方法及装置、语法纠错方法及装置
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
WO2021243828A1 (zh) * 2020-06-05 2021-12-09 平安国际智慧城市科技股份有限公司 基于机器学习的文本处理方法、装置、计算机设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021243828A1 (zh) * 2020-06-05 2021-12-09 平安国际智慧城市科技股份有限公司 基于机器学习的文本处理方法、装置、计算机设备及介质
CN111767731A (zh) * 2020-07-09 2020-10-13 北京猿力未来科技有限公司 语法纠错模型的训练方法及装置、语法纠错方法及装置
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法

Also Published As

Publication number Publication date
CN114861597B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
CN111444966B (zh) 媒体信息分类方法及装置
CN107480144B (zh) 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN111950528B (zh) 图表识别模型训练方法以及装置
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN112818975A (zh) 文本检测模型训练方法及装置、文本检测方法及装置
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN110162628A (zh) 一种内容识别方法及装置
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
US20240362397A1 (en) Machine learning based classification and annotation of paragraph of resume document images based on visual properties of the resume document images, and methods and apparatus for the same
CN117115505A (zh) 一种结合知识蒸馏与对比学习的情感增强继续训练方法
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN114861597A (zh) 填空题解题模型的训练方法及装置
CN113590765B (zh) 多模态信息融合广播电视新闻关键词与摘要联合抽取方法
CN115730607A (zh) 对话检测模型训练方法及装置
CN114782958A (zh) 文本检错模型训练方法、文本检错方法及装置
CN114925166A (zh) 选择题解题模型训练方法及装置
CN114120341A (zh) 简历文档识别模型训练方法、简历文档识别方法及装置
CN118429658B (zh) 信息抽取方法以及信息抽取模型训练方法
CN115098680B (zh) 数据处理方法、装置、电子设备、介质及程序产品
CN114005114B (zh) 识别方法及装置、切分模型的训练方法及装置
CN115146058A (zh) 获得文本分类模型的方法,文本分类的方法及装置
CN116151222A (zh) 文本填词方法及装置
CN117688449A (zh) 题目分类方法、题目分类模型训练方法及装置
CN117574241A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant