CN109740760A - 文本质检自动化训练方法、电子装置及计算机设备 - Google Patents

文本质检自动化训练方法、电子装置及计算机设备 Download PDF

Info

Publication number
CN109740760A
CN109740760A CN201811589527.7A CN201811589527A CN109740760A CN 109740760 A CN109740760 A CN 109740760A CN 201811589527 A CN201811589527 A CN 201811589527A CN 109740760 A CN109740760 A CN 109740760A
Authority
CN
China
Prior art keywords
data
model
training
rate
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811589527.7A
Other languages
English (en)
Other versions
CN109740760B (zh
Inventor
任鹏飞
张雨嘉
谢宇峰
葛家荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811589527.7A priority Critical patent/CN109740760B/zh
Publication of CN109740760A publication Critical patent/CN109740760A/zh
Application granted granted Critical
Publication of CN109740760B publication Critical patent/CN109740760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种文本质检自动化训练方法。对标注的生产数据执行数据划分操作,分成训练集、验证集与测试集,选择电子装置中的质检模型与所述测试集并进行预测,以获取所述测试集中之所述测试数据的预测结果,分别选择准确率与召回率较高的质检模型进行投票,并挑选出推荐模型组合,及对所述推荐模型组合进行复检,且通过复检的质检模型则为最后确认集成模型。本发明之文本质检自动化训练方法大量节省了模型训练的时间,节约了成本,且能持续不断的生成符合业务要求的模型,同时生成的模型更加容易感知到质检规则的变化。

Description

文本质检自动化训练方法、电子装置及计算机设备
技术领域
本发明涉及检测模型技术领域,尤其涉及一种文本质检自动化训练方法、电子装置、计算机设备及存储介质。
背景技术
在目前的深度学习文本质检系统中,由于质检规则时常发生变动,旧的模型很难随着时间的变动准确率一直维持在业务要求的水准,这就要求模型训练人员不断使用最新的质检数据进行训练,并不断输出高准确率的模型。这个过程需要训练人员大量的重复劳动,造成了人力的浪费。此外,由于文本质检系统采取多模型集成的方式进行预测,因此多模型的选择与组合策略也是非常重要的,单凭训练人员手工组合与选择模型不但非常耗时,而且由于组合方式多种多样覆盖面不全,不一定能找到最好的组合方式。
发明内容
有鉴于此,本发明提出一种文本质检自动化训练方法、电子装置、计算机设备及存储介质,能够大量节省了模型训练人员的时间,节约了成本,并且能持续不断的生成符合业务要求的模型,同时生成的模型更加容易感知到质检规则的变化。
为实现上述目的,本发明提出一种一种文本质检自动化训练方法,应用于电子装置中,其特征在于,所述方法包括步骤:取得默认周期内的生产数据;将所述生产数据的一部分进行复检,以得到当日复检生产数据;对所述当日复检生产数据执行数据清洗操作,以对所述生成数据进行标注;对所述标注的生产数据执行数据划分操作,分成训练集、验证集与测试集并存储到所述电子装置中;选择所述电子装置中的质检模型与所述测试集并进行预测,以获取所述测试集中之所述测试数据的预测结果;分别选择准确率X与召回率Y较高的质检模型进行投票,并挑选出推荐模型组合;及对所述推荐模型组合进行复检,且通过复检的质检模型则为最后确认集成模型,其中:判断所述准确率X是否大于阈值A,当所述准确率X大于所述阈值A时,则降低学习率Z,当所述准确率X所述不大于所述阈值A时,接着判断所述召回率Y是否大于所述阈值B,当所述准确率X不大于所述阈值A且所述召回率Y阈值B,则降低所述学习率Z,及当所述准确率X不大于阈值A且召回率Y不大于阈值B,则所述学习率Z调回初始值。
进一步地,将所述标注的生产数据作为基础数据,所述基础数据包括一部分违规的生产数据和一部分不违规的生产数据;选取一个训练周期内前三天的当日不违规数据和当日复检数据组成当日清洗后的数据,并与所述基础数据组成所述训练集;选取一个训练周期内第四天的当日复检数据作为所述验证集;及选取一个训练周期第五天的当日清洗后的数据作为所述测试集。
进一步地,利用预设数量的质检模型对每日的未经人工复检的生产数据进行预测,挑选出所述预设数量的模型都不认为违规的生产数据作为当日不违规数据,剩余的则为当日违规数据。
进一步地,所述测试数据的预测结果包括各个质检点及总的准确率与召回率。
进一步地,根据所述测试数据的预测结果分别对所述质检模型进行准确率和召回率的排序,分别取所有质检模型中一定数量之准确率和召回率比较高的质检模型,用以根据集成方法进行多模型组合挑选,以取得所述推荐模型组合。
为实现上述目的,本发明还提供一种电子装置,包括主控模块、存储模块与工作模块。所述存储模块存储多个质检模型。所述主控模块用于取得默认周期内的生产数据,将所述生产数据的一部分进行复检,以得到当日复检生产数据,对所述当日复检生产数据执行数据清洗操作,以对所述生成数据进行标注,对所述标注的生产数据执行数据划分操作,分成训练集、验证集与测试集并存储到所述存储模块中,选择所述存储模块中的所述质检模型与所述测试集并进行预测,以获取所述测试集中之所述测试数据的预测结果,分别选择准确率与召回率较高的质检模型进行投票,并挑选出推荐模型组合,及对所述推荐模型组合进行复检,且通过复检的质检模型则为最后确认集成模型。所述工作模块用于判断所述准确率X是否大于阈值A,当所述准确率X大于所述阈值A时,则降低学习率Z,当所述准确率X所述不大于所述阈值A时,接着判断所述召回率Y是否大于所述阈值B,当所述准确率X不大于所述阈值A且所述召回率Y大于所述阈值B,则降低所述学习率Z,及当所述准确率X不大于阈值A且召回率Y不大于阈值B,则学习率学习率Z调回初始值。
进一步地,将所述标注的生产数据作为基础数据,所述基础数据包括一部分违规的生产数据和一部分不违规的生产数据;所述主控模块选取一个训练周期内前三天的当日不违规数据和当日复检数据组成当日清洗后的数据,并与所述基础数据组成所述训练集,选取一个训练周期内第四天的当日复检数据作为所述验证集,及通过所述主控模块选取一个训练周期第五天的当日清洗后的数据作为所述测试集。
进一步地,所述主控模块利用预设数量的质检模型对每日的未经人工复检的生产数据进行预测,挑选出所述预设数量的模型都不认为违规的生产数据作为当日不违规数据,剩余的则为当日违规数据。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本质检自动化训练方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本质检自动化训练方法的步骤。
相较于现有技术,本发明所提出的文本质检自动化训练方法、电子装置、计算机设备及存储介质,能够大量节省了模型训练的时间,节约了成本,且能持续不断的生成符合业务要求的模型,同时生成的模型更加容易感知到质检规则的变化。
附图说明
图1是本发明实施例之电子装置的硬件架构示意图;
图2是本发明实施例之电子装置的程序模块示意图;
图3是本发明实施例之文本质检自动化训练方法的流程示意图;及
图4是本发明实施例之调整与训练学习率的流程示意图。
附图标记:
电子装置 10
存储器 11
处理器 12
文本质检系统 13
主控模块 210
存储模块 220
工作模块 230
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图1是本发明实施例之电子装置10的硬件架构示意图。电子装置10包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理12以及文本质检自动化训练系统13,图1仅示出了具有组件11-13的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子装置10的内部存储单元,例如该电子装置10的硬盘或内存。在另一些实施例中,所述存储器也可以是所述电子装置10的外部存储设备,例如该电子装置10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置10的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述电子装置10的操作系统和各类应用软件,例如文本质检自动化训练系统13的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置10的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述文本质检自动化训练系统13等。
至此,己经详细介绍了本发明相关设备的硬件结构和功能。下面,将基于上述介绍提出本发明的各个实施例。
逻辑上,本发明实施例之文本质检自动化训练方法分为三部分:
1.训练(Train)部分,负责训练质检模型;
2.验证(Validation)部分,负责在训练过程中评估算法性能,决定是否保存生产数据;及
3.测试(Test)部分,负责测试训练保存的质检模型是否符合生产环境,并挑选可以上线的模型组合。
物理上,本发明之文本质检自动化训练系统分为三部分:
1.主控模块(Master),负责数据预处理、训练流程控制、测试、模型挑选与模型组合;
2.存储模块(NAS),负责存储文件,包括每日生产数据、训练保存的模型,训练数据、验证数据等;及
3.工作模块(Worker),负责训练质检模型。
图2是本发明实施例之电子装置的程序模块示意图。
本实施例中,所述电子装置10包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的文本质检自动化训练操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,电子装置10可以被划分为一个或多个模块。例如,在图2中,所述电子装置10可以被分割成主控模块210、存储模块220与工作模块230。
以下说明本发明实施例之文本质检自动化训练系统的工作流程。
主控模块210取得某一周期内的生产数据。将5个工作日作为一个训练周期,每个工作日都会生成一批生产数据。主控模块210将前述生产数据的一部分进行复检(例如,以人工方式复检,或通过复检系统自动复检),可以得到“当日复检生产数据”。
主控模块210对当日复检生产数据执行数据清洗操作,以取得对所述生成数据进行标注,例如,根据用户指令对所述生成数据进行标注。由于每天有大量的未经人工复检(或称,人工标注)的生产数据,所以需要对未经人工复检的生产数据进行数据清洗。主控模块210利用多个质检模型(例如,20个)对每日的未经人工复检的生产数据进行预测,挑选出所有20个模型都不认为违规的生产数据作为“当日不违规数据”,剩余的则为“当日违规数据”。
主控模块210经由不同算法对标注的生产数据进行训练,在不同迭代保存的不同模型以产生前述质检模型。前述算法包括:Bi-LSTM RNN+attention、Bi-LSTM RNN、TextCNN...。
主控模块210对前述标注过的生产数据执行数据划分操作,分成训练集、验证集与测试集。
将前述标注的生产数据作为“基础数据”,这部分数据包括一部分违规(违反质检点)的生产数据和一部分不违规的生产数据。主控模块210选取一个训练周期内前三天的“当日不违规数据”和“当日复检数据”组成“当日清洗后的数据”,并与“基础数据”组成“训练集”(即,训练数据),替换掉之前存放在存储模块220(例如,NAS磁盘)中的训练集(之前的训练集会重命名备份在相同目录中)。
主控模块210选取一个训练周期内第四天的“当日复检数据”作为“验证集”,替换掉之前存放在存储模块220中的验证集(之前的验证集会重命名备份在相同目录中)。
主控模块210选取一个训练周期第五天的“当日清洗后的数据”作为“测试集”,替换掉之前存放在存储模块220中的测试集(之前的测试集会重命名备份在相同目录中)。
工作模块230自存储模块220中取出训练集和验证集,分别利用Bi-LSTM RNN+attention、Bi-LSTM RNN、TextCNN等算法对训练集和验证集进行训练,每隔一定训练步数利用验证集验证一次,并计算各个质检点以及总的准确率和召回率。
工作模块230在每一次验证完成后,根据准确率(Precision)和召回率(Recall)调整与训练学习率。以下用到的阈值是通过经验进行设定。
判断准确率X是否大于阈值A。当准确率X大于阈值A时(X>A),则降低学习率Z(Z–M,但Z–M>C,其中,M为默认值,C为最低阈值,例如,0.00001)。当准确率X不大于阈值A时(X≤A),判断召回率Y是否大于阈值B。当准确率X不大于阈值A(X≤A)且召回率Y大于阈值B(Y>B),则降低学习率Z(Z–M,但Z–M>C,其中,M为默认值,C为最低阈值,例如,0.00001)。当准确率X不大于阈值A(X≤A)且召回率Y不大于阈值B(Y≤B),则学习率调Z回初始值(Z=default value)。
以下举个例子说明。在训练过程中,初始学习率比较大(例如,0.001),这就意味着:在一次训练迭代中,为了缩短预测值与真实值之间的差距,而进行参数调整的幅度为该参数调整方向(正或者负)0.001个单位(1个单位就是1),这使得模型能快速调整到适当的范围(预测值与真实值差距小,同时也意味着模型的准确率和召回率达到了我们的阈值),此时缩小学习率(例如,变为原来的0.1倍),以更小的学习率进行参数调整。若下次模型依然符合要求,则再次缩小(例如,0.1倍),此后一直保持(0.00001),直到模型不符合要求后,学习率再次调整为0.001。
工作模块230根据在验证集上的准确率p和召回率r决定是否保存模型:若f1=2*(p*r)/(p+r)值大于阈值,则保存模型到存储模块220中。主控模块210选择存储模块220中的质检模型与测试集并进行预测,以获取测试集中之测试数据的预测结果。测试数据预测结果包括各个质检点及总的准确率与召回率。主控模块210分别选择准确率与召回率较高的质检模型进行投票,并挑选出最佳(F1最高)的模型组合。
主控模块210根据步骤306中的预测结果分别对质检模型进行准确率和召回率的排序,分别取所有质检模型中准确率和召回率比较高的各20个,用以进行多模型组合挑选。
主控模块210对挑选出来的20个模型进行两两集成、三三集成、四四集成、五五集成,使用投票制决定模型集成后对一条消息进行质检的最终结果:对于一条消息是否违规,违哪种规,采用投票制进行决定,每个模型一票。因此在集成结果时,对质检结果的票数进行统计,超过某个特定票数的,才会被采纳为最终结果。以5个模型集成为例:有五种投票的采纳方式:1.一票制,只要有一个模型认为这条消息违反某项规定,就采纳,即取5个模型结果的并集;2.两票制,两个及以上的模型认为这条消息违反某项规定,才会采纳,否则不采纳;3票制、4票制、5票制则以此类推。
对于所有的集成结果,计算其准确率、召回率、和F1,取F1最好的一种集成组合的N票制作为推荐模型组合。
主控模块210对推荐模型组合进行复检(例如,由复检员以人工方式复检,或通过复检系统自动复检),未通过复检的质检模型重新执行步骤305,通过复检的质检模型则为最后确认集成模型。
图3是本发明实施例之文本质检自动化训练方法的流程示意图。所述文本质检自动化训练方法应用于电子装置10中。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
本发明实施例之文本质检自动化训练方法包括下列步骤。
步骤301,主控模块取得某一周期内的生产数据。将5个工作日作为一个训练周期,每个工作日都会生成一批生产数据。
步骤302,主控模块将前述生产数据的一部分进行复检(例如,以人工方式复检,或通过复检系统自动复检),可以得到“当日复检生产数据”。
步骤303,对当日复检生产数据执行数据清洗操作,以对所述生成数据进行标注,例如,根据用户指令对所述生成数据进行标注。由于每天有大量的未经人工复检(或称,人工标注)的生产数据,所以需要对未经人工复检的生产数据进行数据清洗。主控模块利用多个质检模型(例如,20个)对每日的未经人工复检的生产数据进行预测,挑选出所有20个模型都不认为违规的生产数据作为“当日不违规数据”,剩余的则为“当日违规数据”。
主控模块经由不同算法对标注的生产数据进行训练,在不同迭代保存的不同模型以产生前述质检模型。前述算法包括:Bi-LSTM RNN+attention、Bi-LSTM RNN、TextCNN...。
步骤304,主控模块对前述标注过的生产数据执行数据划分操作,分成训练集、验证集与测试集。
将前述标注的生产数据作为“基础数据”,这部分数据包括一部分违规(违反质检点)的生产数据和一部分不违规的生产数据。主控模块选取一个训练周期内前三天的“当日不违规数据”和“当日复检数据”组成“当日清洗后的数据”,并与“基础数据”组成“训练集”(即,训练数据),替换掉之前存放在存储模块(例如,NAS磁盘)中的训练集(之前的训练集会重命名备份在相同目录中)。
主控模块选取一个训练周期内第四天的“当日复检数据”作为“验证集”,替换掉之前存放在存储模块中的验证集(之前的验证集会重命名备份在相同目录中)。
主控模块选取一个训练周期第五天的“当日清洗后的数据”作为“测试集”,替换掉之前存放在存储模块中的测试集(之前的测试集会重命名备份在相同目录中)。
步骤305,工作模块自存储模块中取出训练集和验证集,分别利用Bi-LSTM RNN+attention、Bi-LSTM RNN、TextCNN等算法对训练集和验证集进行训练,每隔一定训练步数利用验证集验证一次,并计算各个质检点以及总的准确率和召回率。
图4是本发明实施例之调整与训练学习率的流程示意图。
工作模块在每一次验证完成后,根据准确率(Precision)和召回率(Recall)调整与训练学习率。以下用到的阈值是通过经验进行设定。
步骤41,判断准确率X是否大于阈值A。
步骤42,当准确率X大于阈值A时(X>A),则降低学习率Z(Z–M,但Z–M>C,其中,M为默认值,C为最低阈值,例如,0.00001)。
步骤43,当准确率X不大于阈值A时(X≤A),判断召回率Y是否大于阈值B。
步骤44,当准确率X不大于阈值A(X≤A)且召回率Y大于阈值B(Y>B),则降低学习率Z(Z–M,但Z–M>C,其中,M为默认值,C为最低阈值,例如,0.00001)。
步骤45,当准确率X不大于阈值A(X≤A)且召回率Y不大于阈值B(Y≤B),则学习率调Z回初始值(Z=default value)。
以下举个例子说明。在训练过程中,初始学习率比较大(例如,0.001),这就意味着:在一次训练迭代中,为了缩短预测值与真实值之间的差距,而进行参数调整的幅度为该参数调整方向(正或者负)0.001个单位(1个单位就是1),这使得模型能快速调整到适当的范围(预测值与真实值差距小,同时也意味着模型的准确率和召回率达到了我们的阈值),此时缩小学习率(例如,变为原来的0.1倍),以更小的学习率进行参数调整。若下次模型依然符合要求,则再次缩小(例如,0.1倍),此后一直保持(0.00001),直到模型不符合要求后,学习率再次调整为0.001。
工作模块根据在验证集上的准确率p和召回率r决定是否保存模型:若f1=2*(p*r)/(p+r)值大于阈值,则保存模型到存储模块中。
步骤306,主控模块选择存储模块中的质检模型与测试集并进行预测,以获取测试集中之测试数据的预测结果。测试数据预测结果包括各个质检点及总的准确率与召回率。
步骤307,主控模块分别选择准确率与召回率较高的质检模型进行投票,并挑选出最佳(F1最高)的模型组合。
主控模块210根据步骤306中的预测结果分别对质检模型进行准确率和召回率的排序,分别取所有质检模型中准确率和召回率比较高的各20个,用以进行多模型组合挑选。
主控模块对挑选出来的20个模型进行两两集成、三三集成、四四集成、五五集成,使用投票制决定模型集成后对一条消息进行质检的最终结果:对于一条消息是否违规,违哪种规,采用投票制进行决定,每个模型一票。因此在集成结果时,对质检结果的票数进行统计,超过某个特定票数的,才会被采纳为最终结果。以5个模型集成为例:有五种投票的采纳方式:1.一票制,只要有一个模型认为这条消息违反某项规定,就采纳,即取5个模型结果的并集;2.两票制,两个及以上的模型认为这条消息违反某项规定,才会采纳,否则不采纳;3票制、4票制、5票制则以此类推。
对于所有的集成结果,计算其准确率、召回率、和F1,取F1最好的一种集成组合的N票制作为推荐模型组合。
步骤308,对推荐模型组合进行复检(例如,由复检员以人工方式复检,或通过复检系统自动复检),未通过复检的质检模型重新执行步骤305,通过复检的质检模型则为最后确认集成模型。
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器等。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储电子装置10,被处理器执行时实现本发明的文本质检自动化训练方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本质检自动化训练方法,应用于电子装置中,其特征在于,所述方法包括步骤:
取得默认周期内的生产数据;
将所述生产数据的一部分进行复检,以得到当日复检生产数据;
对所述当日复检生产数据执行数据清洗操作,以对所述生成数据进行标注;
对所述标注的生产数据执行数据划分操作,分成训练集、验证集与测试集并存储到所述电子装置中;
选择所述电子装置中的质检模型与所述测试集并进行预测,以获取所述测试集中之所述测试数据的预测结果;
分别选择准确率X与召回率Y较高的质检模型进行投票,并挑选出推荐模型组合;及
对所述推荐模型组合进行复检,且通过复检的质检模型则为最后确认集成模型,其中:
判断所述准确率X是否大于阈值A,当所述准确率X大于所述阈值A时,则降低学习率Z,当所述准确率X所述不大于所述阈值A时,接着判断所述召回率Y是否大于所述阈值B,当所述准确率X不大于所述阈值A且所述召回率Y阈值B,则降低所述学习率Z,及当所述准确率X不大于阈值A且召回率Y不大于阈值B,则所述学习率Z调回初始值。
2.如权利要求1所述的文本质检自动化训练方法,其特征在于,所述方法还包括步骤:
将所述标注的生产数据作为基础数据,所述基础数据包括一部分违规的生产数据和一部分不违规的生产数据;
选取一个训练周期内前三天的当日不违规数据和当日复检数据组成当日清洗后的数据,并与所述基础数据组成所述训练集;
选取一个训练周期内第四天的当日复检数据作为所述验证集;及
选取一个训练周期第五天的当日清洗后的数据作为所述测试集。
3.如权利要求1所述的文本质检自动化训练方法,其特征在于,所述方法还包括步骤:
利用预设数量的质检模型对每日的未经人工复检的生产数据进行预测,挑选出所述预设数量的模型都不认为违规的生产数据作为当日不违规数据,剩余的则为当日违规数据。
4.如权利要求1所述的文本质检自动化训练方法,其特征在于,所述测试数据的预测结果包括各个质检点及总的准确率与召回率。
5.如权利要求1所述的文本质检自动化训练方法,其特征在于,所述方法还包括步骤:
根据所述测试数据的预测结果分别对所述质检模型进行准确率和召回率的排序,分别取所有质检模型中一定数量之准确率和召回率比较高的质检模型,用以根据集成方法进行多模型组合挑选,以取得所述推荐模型组合。
6.一种电子装置,其特征在于,包括:
存储模块,存储多个质检模型;
主控模块,用于取得默认周期内的生产数据,将所述生产数据的一部分进行复检,以得到当日复检生产数据,对所述当日复检生产数据执行数据清洗操作,以对所述生成数据进行标注,对所述标注的生产数据执行数据划分操作,分成训练集、验证集与测试集并存储到所述存储模块中,选择所述存储模块中的所述质检模型与所述测试集并进行预测,以获取所述测试集中之所述测试数据的预测结果,分别选择准确率与召回率较高的质检模型进行投票,并挑选出推荐模型组合,及对所述推荐模型组合进行复检,且通过复检的质检模型则为最后确认集成模型;及
工作模块,用于判断所述准确率X是否大于阈值A,当所述准确率X大于所述阈值A时,则降低学习率Z,当所述准确率X所述不大于所述阈值A时,接着判断所述召回率Y是否大于所述阈值B,当所述准确率X不大于所述阈值A且所述召回率Y大于所述阈值B,则降低所述学习率Z,及当所述准确率X不大于阈值A且召回率Y不大于阈值B,则学习率学习率Z调回初始值。
7.如权利要求6所述的电子装置,其特征在于,还包括:
将所述标注的生产数据作为基础数据,所述基础数据包括一部分违规的生产数据和一部分不违规的生产数据;
所述主控模块选取一个训练周期内前三天的当日不违规数据和当日复检数据组成当日清洗后的数据,并与所述基础数据组成所述训练集,选取一个训练周期内第四天的当日复检数据作为所述验证集,及通过所述主控模块选取一个训练周期第五天的当日清洗后的数据作为所述测试集。
8.如权利要求6所述的电子装置,其特征在于,还包括:
所述主控模块利用预设数量的质检模型对每日的未经人工复检的生产数据进行预测,挑选出所述预设数量的模型都不认为违规的生产数据作为当日不违规数据,剩余的则为当日违规数据。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述文本质检自动化训练方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至5任一项所述文本质检自动化训练方法的步骤。
CN201811589527.7A 2018-12-25 2018-12-25 文本质检自动化训练方法、电子装置及计算机设备 Active CN109740760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811589527.7A CN109740760B (zh) 2018-12-25 2018-12-25 文本质检自动化训练方法、电子装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811589527.7A CN109740760B (zh) 2018-12-25 2018-12-25 文本质检自动化训练方法、电子装置及计算机设备

Publications (2)

Publication Number Publication Date
CN109740760A true CN109740760A (zh) 2019-05-10
CN109740760B CN109740760B (zh) 2024-04-05

Family

ID=66361162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811589527.7A Active CN109740760B (zh) 2018-12-25 2018-12-25 文本质检自动化训练方法、电子装置及计算机设备

Country Status (1)

Country Link
CN (1) CN109740760B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288192A (zh) * 2019-05-23 2019-09-27 平安科技(深圳)有限公司 基于多个质检模型的质检方法、装置、设备及存储介质
CN110389978A (zh) * 2019-07-17 2019-10-29 北京智能工场科技有限公司 一种基于复用的竞赛数据集自动化处理系统及方法
CN110413786A (zh) * 2019-07-26 2019-11-05 北京智游网安科技有限公司 基于网页文本分类的数据处理方法、智能终端及存储介质
CN111178078A (zh) * 2019-12-31 2020-05-19 厦门快商通科技股份有限公司 一种实体标注的质检方法和装置以及设备
CN112465399A (zh) * 2020-12-16 2021-03-09 作业帮教育科技(北京)有限公司 基于策略自动迭代的智能质检方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336793A (zh) * 2013-06-09 2013-10-02 中国科学院计算技术研究所 一种个性化论文推荐方法及其系统
CN107730087A (zh) * 2017-09-20 2018-02-23 平安科技(深圳)有限公司 预测模型训练方法、数据监控方法、装置、设备及介质
CN108229397A (zh) * 2018-01-04 2018-06-29 华南理工大学 基于Faster R-CNN的图像中文本检测方法
CN108446388A (zh) * 2018-03-22 2018-08-24 平安科技(深圳)有限公司 文本数据质检方法、装置、设备及计算机可读存储介质
CN108491388A (zh) * 2018-03-22 2018-09-04 平安科技(深圳)有限公司 数据集获取方法、分类方法、装置、设备及存储介质
CN108564563A (zh) * 2018-03-07 2018-09-21 浙江大学 一种基于Faster R-CNN的轮胎X光病疵检测方法
CN108737243A (zh) * 2018-04-20 2018-11-02 平安科技(深圳)有限公司 会话消息质检方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336793A (zh) * 2013-06-09 2013-10-02 中国科学院计算技术研究所 一种个性化论文推荐方法及其系统
CN107730087A (zh) * 2017-09-20 2018-02-23 平安科技(深圳)有限公司 预测模型训练方法、数据监控方法、装置、设备及介质
CN108229397A (zh) * 2018-01-04 2018-06-29 华南理工大学 基于Faster R-CNN的图像中文本检测方法
CN108564563A (zh) * 2018-03-07 2018-09-21 浙江大学 一种基于Faster R-CNN的轮胎X光病疵检测方法
CN108446388A (zh) * 2018-03-22 2018-08-24 平安科技(深圳)有限公司 文本数据质检方法、装置、设备及计算机可读存储介质
CN108491388A (zh) * 2018-03-22 2018-09-04 平安科技(深圳)有限公司 数据集获取方法、分类方法、装置、设备及存储介质
CN108737243A (zh) * 2018-04-20 2018-11-02 平安科技(深圳)有限公司 会话消息质检方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨娟 等: "几种文本分类算法性能比较与分析", 《研究与开发》, pages 12 - 16 *
金志刚 等: "一种结合深度学习和集成学习的情感分析模型", 《哈尔滨工业大学学 报》, vol. 50, no. 11, pages 32 - 39 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288192A (zh) * 2019-05-23 2019-09-27 平安科技(深圳)有限公司 基于多个质检模型的质检方法、装置、设备及存储介质
CN110389978A (zh) * 2019-07-17 2019-10-29 北京智能工场科技有限公司 一种基于复用的竞赛数据集自动化处理系统及方法
CN110413786A (zh) * 2019-07-26 2019-11-05 北京智游网安科技有限公司 基于网页文本分类的数据处理方法、智能终端及存储介质
CN110413786B (zh) * 2019-07-26 2021-12-28 北京智游网安科技有限公司 基于网页文本分类的数据处理方法、智能终端及存储介质
CN111178078A (zh) * 2019-12-31 2020-05-19 厦门快商通科技股份有限公司 一种实体标注的质检方法和装置以及设备
CN112465399A (zh) * 2020-12-16 2021-03-09 作业帮教育科技(北京)有限公司 基于策略自动迭代的智能质检方法、装置和电子设备

Also Published As

Publication number Publication date
CN109740760B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN109740760A (zh) 文本质检自动化训练方法、电子装置及计算机设备
CN108062573A (zh) 模型训练方法及装置
Barad Design of experiments (DOE)—a valuable multi-purpose methodology
CN112257947A (zh) 制烟环境温湿度预测方法、装置以及设备
CN108681504A (zh) 自动化测试方法、测试服务器及计算机可读存储介质
CN111176575A (zh) 基于Prophet模型的SSD寿命预测方法、系统、终端及存储介质
CN113868953B (zh) 工业系统中多机组运行优化方法、装置、系统及存储介质
CN115439003A (zh) 基于智慧燃气物联网的燃气表更换提示方法和系统
CN109409780B (zh) 变更处理方法、装置、计算机设备和存储介质
CN106648839A (zh) 数据处理的方法和装置
CN113688542A (zh) 智能优化水资源配置方法、装置、计算机设备及存储介质
CN113129064A (zh) 汽车配件价格预测方法、系统、设备与可读存储介质
CN112598534A (zh) 评估电力消费量与国内生产总值相关性的方法及装置
CN104102804A (zh) 一种预测设备器件寿命的方法及装置
CN109598006A (zh) 调整产品模型的方法、装置和存储介质
Overbeck et al. Development and analysis of digital twins of production systems
CN112053181A (zh) 一种农产品价格预测方法及系统
CN116484081A (zh) 一种芯片电气参数的线上处理方法、装置及电子设备
CN110489329A (zh) 一种测试报告的输出方法、装置及终端设备
CN114980450A (zh) 一种分区域光环境在线评估展示方法、系统、介质及设备
CN114021744A (zh) 设备的剩余使用寿命的确定方法、装置和电子设备
CN109165238B (zh) 一种用于生成周期指标数据的数据处理方法及装置
CN102902838A (zh) 基于趋势的过程控制目标设定方法和系统
CN113627755A (zh) 智能终端工厂的测试方法、装置、设备及存储介质
CN112614006A (zh) 负荷预测方法、装置、计算机可读存储介质以及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant