CN110457675B - 预测模型训练方法、装置、存储介质及计算机设备 - Google Patents

预测模型训练方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN110457675B
CN110457675B CN201910559074.1A CN201910559074A CN110457675B CN 110457675 B CN110457675 B CN 110457675B CN 201910559074 A CN201910559074 A CN 201910559074A CN 110457675 B CN110457675 B CN 110457675B
Authority
CN
China
Prior art keywords
sample data
prediction
model
unlabeled
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910559074.1A
Other languages
English (en)
Other versions
CN110457675A (zh
Inventor
毕野
黄博
吴振宇
王建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910559074.1A priority Critical patent/CN110457675B/zh
Publication of CN110457675A publication Critical patent/CN110457675A/zh
Application granted granted Critical
Publication of CN110457675B publication Critical patent/CN110457675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于神经网络的预测模型训练方法、装置、存储介质及计算机设备,主要在于能够降低人工标注的样本数量,避免了大量的重复劳动,从而提升了预测模型的训练效率和预测精度。所述方法包括:获取标注样本数据和未标注样本数据;将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。本发明适用于预测模型的训练。

Description

预测模型训练方法、装置、存储介质及计算机设备
技术领域
本发明涉及信息技术领域,尤其是涉及一种预测模型训练方法、装置、存储介质及计算机设备。
背景技术
自然语言处理是属于人工智能领域中的一个重要方向,其应用领域涉及广泛,包括智能助手,机器翻译,实体命名识别、情绪识别等,例如,根据自然语言处理技术可以将文字序列中出现的不同种类的命名实体标注出来,在自然语言处理领域中深度学习模型训练时需要人工标注数据,因此,人工标注数据对于自然语言处理领域十分重要。
目前,由于深度学习模型需要大量的标注数据完成对不同结构化预测的任务需求,因此在模型训练时需要对所有样本数据进行标注,即要进行大量的人工标注工作,然而,人工标注工作需要大量的重复性劳动,工作内容繁琐,并且效率低下,在模型训练时,对所有样本数据重视程度一致,不利于将有效资源关注于最难识别的样本数据,由此导致模型的训练效率低下和预测精度较低。
发明内容
本发明提供了一种预测模型训练方法、装置、存储介质及计算机设备,主要在于能够降低人工标注的样本数量,避免了大量的重复劳动,从而提升了预测模型的训练效率和预测精度。
根据本发明的第一个方面,提供一种预测模型训练方法,包括:
获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
根据本发明的第二个方面,提供一种预测模型训练装置,包括:
获取单元,用于获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
第一训练单元,用于将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
预测单元,用于将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
选取单元,用于确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
第二训练单元,用于将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
本发明提供的一种预测模型训练方法、装置、存储介质及计算机设备,与目前通常将所有样本数据进行人工标注的方法相比,本发明能够获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;并将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;以及将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;能够确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;与此同时,将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型,从而能够减少标注的样本数据数量,降低标注过程中无效且繁琐的工作,有利于将有效资源关注于最难识别的样本,提升了预测模型的训练效率和预测精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种预测模型训练方法流程图;
图2示出了本发明实施例提供的另一种预测模型训练方法流程图;
图3示出了本发明实施例提供的一种预测模型训练装置的结构示意图;
图4示出了本发明实施例提供的另一种预测模型训练装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如背景技术,目前,由于深度学习模型需要大量的标注数据完成对不同结构化预测的任务需求,因此在模型训练时需要对所有样本数据进行标注,即要进行大量的人工标注工作,然而,人工标注工作需要大量的重复性劳动,工作内容繁琐,并且效率低下,在模型训练时,对所有样本数据重视程度一致,不利于将有效资源关注于最难识别的样本数据,由此导致模型的训练效率低下和预测精度较低。
为了解决上述问题,本发明实施例提供了一种预测模型训练方法,如图1所示,所述方法包括:
101、获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据。
其中,标注样本数据量为训练预测模型所需的样本数据量,分别获取预设数量的标注样本数据和未标注样本数据,所有样本数据已知其对应的分类类别,标注样本数据的数据量与未标注样本数据的数据量之和等于该标注样本数据量,例如,在词性预测中,获取训练预测模型所需的1000句汉语句样本,所有汉语句样本已知其对应的词性类别,根据汉语句样本对应的词性类别,对其中200句汉语句样本进行标注,例如,汉语句样本为(我爱中国人民),根据词性类别(N V N)对其进行人工标注,而剩余的800句汉语句样本并不进行人工标注,由此可知,本发明仅对训练预测模型所需的部分样本数据进行人工标注,不同于现有技术直接对训练预测模型所需的所有样本数据进行人工标注。
102、将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型。
其中,预设神经网络模型为预设双向长短期记忆模型和预设条件随机场模型,在预设双向长短期记忆模型后接预设条件随机场模型,对于本发明实施例,将标注样本数据输入至预设双向长短期记忆模型和预设条件随机场模型进行预测,得到标注样本数据对应各个预测类别的打分值,之后利用极大似然算法计算标注样本数据被分类到真实类别的概率值,并迭代更新模型,当标注样本数据被分类到真实类别的概率值最大时,将最终迭代的模型确定为预测模型对应的初步模型,采用预设双向长短期记忆模型与预设条件随机场模型相结合,能够为最后预测类别添加一些约束保证预测类别是合法的,在模型训练过程中,这些约束预可以通过设条件随机场模型自动学习到,由此提升了初步模型的预测精度。
103、将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度。
对于本发明实施例,将未标注样本数据输入至构建的初步模型进行预测,得到未标注样本数据归属于各自对应预测类别的概率值,进一步地,根据该概率值,确定未标注样本数据对应各个预测类别的置信度,例如,在实体命名识别中,将800句未标注的英文语句输入至初步模型进行预测,某句英文语句的预测结果为John(PER)lives(0)in(0)New(LOC)York(LOC)and(0)worksfor(0)the(0)European(ORG)Union(ORG).其中,PER代表人名,LOC代表地名,ORG代表组织名称以及0代表非命名实体,预测类别为PER的英文单元的概率值为0.7,预测类别为LOC的英文单元的概率值分别为0.8,0.9,预测类别为ORG的英文单元的概率值为0.9,0.7,预测类别为0的英文单元的概率值分别为0.7,0.8,0.6,0.9,0.5,由此,获取所有未标注英文语句的英文单元对应预测类别为PER,LOC,ORG以及0的概率值,根据该概率值以及各个预测类别下未标注英文语句中英文单元的数量,分别计算预测类别为PER,LOC,ORG以及0的未标注英文语句中英文单元的概率值的均值,进一步地,根据该概率值的均值和未标注英文语句的英文单元对应预测类别为PER,LOC,ORG以及0的概率值,得到各个预测类别下未标注英文语句中英文单元的概率值的方差,最后根据该方差,各个预测类别下未标注英文语句中英文单元的数量以及预设误差,确定未标注英文语句的英文单元对应预测类别为PER,LOC,ORG以及0的置信度,根据如下公式:
其中,n为各个预测类别下未标注英文语句中英文单元的数量,σ2为各个预测类别下未标注英文语句中英文单元的概率值的方差,E为预设误差,一般可以取0.05,Zα/2为可靠性系数,即置信度,当Zα/2=1.645时,置信度为90%,当Zα/2=1.96,置信度为95%,由此,通过该公式可以计算出可靠性系数Zα/2,根据该可靠性系数Zα/2查找置信度表,即可以确定未标注英文语句的英文单元对应各个预测类别的置信度。因此,通过计算未标注样本数据对应各个预测类别的置信度,挑选出置信度不符合预设条件的预测类别下的未标注样本数据,有利用将有效资源关注于最难识别的样本。
104、确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据。
其中,置信度不符合的预设条件可以为选取置信度小于预设阈值的预测类别下的未标注样本数据供标注,例如,设定的置信度的预设阈值为0.90,将未标注英文语句样本输入至初步模型进行预测,得到未标注英文语句的英文单元对应预测类别为PER,LOC,ORG以及0的置信度,该置信度分别为0.90,0.92,0.80,0.89,则选取置信度为0.80预测类别为ORG的未标注英文语句和置信度为0.89预测类别为0的未标注英文语句进行人工标注,并将其加入至标注样本数据,通过挑选置信度不符合预设条件的预测类别下的未标注样本数据,能够选择出最难识别的样本,对其进行人工标注后,更新标注样本数据,对初步模型进行迭代更新,在减少标注样本数据量的同时提高了预测模型的训练效率和预测精度。
105、将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
对于本发明实施例,根据更新后的标注样本数据更新初步模型,进一步提高初步模型的精度,之后将剩余的未标注样本数据输入至更新后的初步模型进行预测,得到剩余的未标注样本数据对应各个预测类别的置信度,接着从剩余未标注样本数据中挑选出置信度不符合预设条件的未标注样本数据,再次更新标注样本数据,重复上述步骤,直至所有的未标注样本数据对应各个预测类别的置信度符合预设条件,停止更新模型,将最终得到的模型确定为预测模型。
本发明实施例提供的一种预测模型训练方法,与目前通常将所有样本数据进行人工标注的方法相比,本发明能够获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;并将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;以及将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;能够确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;与此同时,将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型,从而能够减少标注的样本数据数量,降低标注过程中无效且繁琐的工作,有利于将有效资源关注于最难识别的样本,提升了预测模型的训练效率和预测精度。
进一步的,为了更好的说明上述未标注样本数据对应各个预测类别的置信度计算过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种预测模型训练方法,如图2所示,所述方法包括:
201、获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据。
其中,所述标注样本数据对应的数据量小于所述未标注样本数据对应的数据量。例如,在实体命名识别中,获取1000句训练预测模型所需的英文语句样本,其中,已知所有英文语句对应的实体命名类别,根据实体命名类别对200句英文语句进行标注,例如,John(B-PER)lives(0)in(0)New(B-LOC)York(I-LOC)and(0)works for(0)the(0)European(B-ORG)Union(I-ORG).其中,括号中的内容是标注,PER标识人名,LOC表示地名,ORG表示组织名称,0表示非命名体,B-X表示命名是的第一个词,B-PER表示人名的第一个单词,I-X表示命名实体第二个以后的词,而对剩余的800句英文语句不进行标注,由此可知,在对训练模型所需的样本数据进行标注时,首先仅对小部分样本数据进行标注,以便于将有效资源关注于最难识别的样本。
202、将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型。
其中,预设神经网络模型包括预设双向长短期记忆模型和预设条件随机场模型,对于本发明实施例,步骤202具体还包括:将所述标注样本数据输入至预设双向长短期记忆模型进行打分,得到所述标注样本数据对应各个预测类别的分类得分;将所述分类得分输入至预设条件随机场模型进行打分,得到所述标注样本数据对应各个预测类别的转移得分;计算所述分类得分和所述转移得分之和,得到所述标注样本数据对应各个预测类别的打分值;根据所述标注样本数据对应各个预测类别的打分值,利用极大似然算法计算所述标注样本数据归属于其对应预测类别的概率值,并迭代更新所述预设双向长短期记忆模型和所述预设条件随机场模型;当所述标注样本数据归属于其对应预测类别的概率值收敛时,将收敛概率值对应迭代层级的双向长短期记忆模型和条件随机场模型确定为所述初步模型。
例如,在实体命名识别中,以句子为单位,将一个含有n个字的句子,即字的序列记为x=(x1,x2,…xn),其中,xi表示句子的第i个字在字典中的编码号,预设双向长短期记忆模型可以自动提取句子特征,将句子的字序列输入预设双向长短期记忆模型的各个时间步的输入,预设双向长短期记忆模型输出的隐状态序列分别为与/>将各个位置输出的隐状态进行按位置拼接得到/>其中,每一个xi对应一个正向隐状态参数/>和一个反向隐状态参数/>t表示将隐状态序列/>中第t个位置的/>与隐状态序列/>中第t个位置的/>拼接后得到ht,得到完整的隐状态序列(h1,h2,…,hn)∈Rn×m,即(h1,h2,…,hn)为一个n×m维的矩阵,m代表维数,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的类别数,从而得到自动提取的句子特征,记做矩阵(p1,p2,…,pn)∈Rn×k,可以把pi∈Rk的每一维pij都视为将xi分类到第j个标签的打分值,最后接一个预设条件随机场模型,预设条件随机场模型的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从i个标签到第j个标签的转移得分,则该句子对应的标签序列为y=(y1,y2,…yn),对整个序列的打分值等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由预设双向长短期记忆模型输出的pi决定,另一部分由预设条件随机场模型的转移概率矩阵A决定,通过该预设双向长短期记忆模型和预设条件随机场模型对句子x的分类类别y的打分为/>需要进行训练的参数为预设双向长短期记忆模型中的参数和预设条件随机场模型的转移概率矩阵A,进一步地,对每个训练样本x,求出所有可能的分类类别y的打分值score(x,y),即对这个句子所有可能的标注,都算出来他们的打分值,然后按照指数次幂加起来,进而得到归一化后概率:
其中,分子上的y是x所属的分类类别,模型训练时应用的最大化对数似然函数为:
在字的序列x=(x1,x2,…xn)被分类到其所属的分类类别概率值最大时,得到预测模型对应的初步模型。
203、将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度。
对于本发明实施例,步骤203具体包括:将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据归属于各自对应预测类别的概率值;根据所述概率值确定所述未标注样本数据对应各个预测类别的置信度,进一步地,根据所述概率值确定所述未标注样本数据对应各个预测类别的置信度,还包括:根据所述未标注样本数据归属于各自对应预测类别的概率值,确定所述各个预测类别下未标注样本数据的概率值;根据所述各个预测类别下未标注样本数据的概率值和所述各个预测类别下未标注样本数据的数据量,计算所述各个预测类别下未标注样本数据的概率值的均值;根据所述各个预测类别下未标注样本数据的概率值和所述均值,计算所述各个预测类别下未标注样本数据的概率值的方差;根据所述方差,所述各个预测类别下未标注样本数据的数据量以及预设误差,确定所述未标注样本数据对应各个预测类别的置信度。
204、确定置信度小于预设阈值的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据。
对于本发明实施例,其中,预设阈值为预先设定的置信度值,如果未标注样本数据预测类别的置信度小于预设阈值,则将该预测类别下的未标注样本数据挑出,作为重点分析样本数据,将重点分析样本挑出后,进行标注并补充至标注样本数据,共同作为训练样本,对构建的初步模型进行更新,提升初步模型的预测精度,同时与之前将所有样本数据进行人工标注的方式相比,减少了样本数据的人工标注数量,利于找出重点分析样本。
205、将更新后的标注样本数据输入至所述初步模型进行迭代训练,直至所述各个预测类别的置信度均符合所述预设条件,停止迭代训练,将最终迭代训练得到的模型确定为所述预测模型。
本发明实施例提供的另一种预测模型训练方法,与目前通常将所有样本数据进行人工标注的方法相比,本发明能够获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;并将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;以及将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;能够确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;与此同时,将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型,从而能够减少标注的样本数据数量,降低标注过程中无效且繁琐的工作,有利于将有效资源关注于最难识别的样本,提升了预测模型的训练效率和预测精度。
进一步地,作为图1的具体实现,本发明实施例提供了一种预测模型训练装置,如图3所示,所述装置包括:获取单元31、第一训练单元32、预测单元33、选取单元34和第二训练单元35。
所述获取单元31,可以用于获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据。所述获取单元31是本装置中获取获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据的主要功能模块。
所述第一训练单元32,可以用于将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型。所述第一训练单元32是本装置中将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型的主要功能模块,也是核心模块。
所述预测单元33,可以用于将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度。所述预测单元33是本装置中将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度的主要功能模块,也是核心模块。
所述选取单元34,可以用于确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据。所述选取单元34是本装置中确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据的主要功能模块。
所述第二训练单元35,可以用于将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。所述第二训练单元35是本装置中将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型的主要功能模块。
对于本发明实施例,所述预设神经网络模型包括预设双向长短期记忆模型和预设条件随机场模型,所述第一训练单元32可以包括:第一打分模块321、第二打分模块322、计算模块323、迭代更新模块324和确定模块325,如图4所示。
所述第一打分模块321,可以用于将所述标注样本数据输入至预设双向长短期记忆模型进行打分,得到所述标注样本数据对应各个预测类别的分类得分。
所述第二打分模块322,可以用于将所述分类得分输入至预设条件随机场模型进行打分,得到所述标注样本数据对应各个预测类别的转移得分。
所述计算模块323,可以用于计算所述分类得分和所述转移得分之和,得到所述标注样本数据对应各个预测类别的打分值。
所述迭代更新模块324,可以用于根据所述标注样本数据对应各个预测类别的打分值,利用极大似然算法计算所述标注样本数据归属于其对应预测类别的概率值,并迭代更新所述预设双向长短期记忆模型和所述预设条件随机场模型。
所述确定模块325,可以用于当所述标注样本数据归属于其对应预测类别的概率值收敛时,将收敛概率值对应迭代层级的双向长短期记忆模型和条件随机场模型确定为所述初步模型。
对于本发明实施例,为了进一步说明未标注样本数据对应各个预测类别的置信度,所述预测单元33还包括:预测模块331和确定模块332。
所述预测模块331,可以用于将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据归属于各自对应预测类别的概率值。
所述确定模块332,可以用于根据所述概率值确定所述未标注样本数据对应各个预测类别的置信度。
此外,所述确定模块332还包括:第一确定子模块、第一计算子模块、第二计算子模块和第二确定子模块。
所述第一确定子模块,可以用于根据所述未标注样本数据归属于各自对应预测类别的概率值,确定所述各个预测类别下未标注样本数据的概率值。
所述第一计算子模块,可以用于根据所述各个预测类别下未标注样本数据的概率值和所述各个预测类别下未标注样本数据的数据量,计算所述各个预测类别下未标注样本数据的概率值的均值。
所述第二计算子模块,可以用于根据所述各个预测类别下未标注样本数据的概率值和所述均值,计算所述各个预测类别下未标注样本数据的概率值的方差。
所述第二确定子模块,可以用于根据所述方差,所述各个预测类别下未标注样本数据的数据量以及预设误差,确定所述未标注样本数据对应各个预测类别的置信度。
此外,为了挑选出重点分析样本,所述选取单元34具体可以用于选取置信度小于预设阈值的预测类别下的未标注样本数据供标注,以更新所述标注样本数据。
对于本发明实施例,为了进一步提高预测模型的精度,所述第二训练单元35具体可以用于将更新后的标注样本数据输入至所述初步模型进行迭代训练,直至所述各个预测类别的置信度均符合所述预设条件,停止迭代训练,将最终迭代训练得到的模型确定为所述预测模型。
需要说明的是,本发明实施例提供的一种预测模型训练装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
通过本发明的技术方案,能够获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;并将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;以及将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;能够确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;与此同时,将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型,从而能够减少标注的样本数据数量,降低标注过程中无效且繁琐的工作,有利于将有效资源关注于最难识别的样本,提升了预测模型的训练效率和预测精度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (8)

1.一种预测模型训练方法,其特征在于,包括:
获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型;
其中,所述确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据,包括:
确定置信度小于预设阈值的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
其中,所述预设神经网络模型包括预设双向长短期记忆模型和预设条件随机场模型,所述将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型,包括:
将所述标注样本数据输入至预设双向长短期记忆模型进行打分,得到所述标注样本数据对应各个预测类别的分类得分;
将所述分类得分输入至预设条件随机场模型进行打分,得到所述标注样本数据对应各个预测类别的转移得分;
计算所述分类得分和所述转移得分之和,得到所述标注样本数据对应各个预测类别的打分值;
根据所述标注样本数据对应各个预测类别的打分值,利用极大似然算法计算所述标注样本数据归属于其对应预测类别的概率值,并迭代更新所述预设双向长短期记忆模型和所述预设条件随机场模型;
当所述标注样本数据归属于其对应预测类别的概率值收敛时,将收敛概率值对应迭代层级的双向长短期记忆模型和条件随机场模型确定为所述初步模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度,包括:
将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据归属于各自对应预测类别的概率值;
根据所述概率值确定所述未标注样本数据对应各个预测类别的置信度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述概率值确定所述未标注样本数据对应各个预测类别的置信度,包括:
根据所述未标注样本数据归属于各自对应预测类别的概率值,确定所述各个预测类别下未标注样本数据的概率值;
根据所述各个预测类别下未标注样本数据的概率值和所述各个预测类别下未标注样本数据的数据量,计算所述各个预测类别下未标注样本数据的概率值的均值;
根据所述各个预测类别下未标注样本数据的概率值和所述均值,计算所述各个预测类别下未标注样本数据的概率值的方差;
根据所述方差,所述各个预测类别下未标注样本数据的数据量以及预设误差,确定所述未标注样本数据对应各个预测类别的置信度。
4.根据权利要求1所述的方法,其特征在于,所述将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型,包括:
将更新后的标注样本数据输入至所述初步模型进行迭代训练,直至所述各个预测类别的置信度均符合所述预设条件,停止迭代训练,将最终迭代训练得到的模型确定为所述预测模型。
5.根据权利要求1所述的方法,其特征在于,所述标注样本数据对应的数据量小于所述未标注样本数据对应的数据量。
6.一种预测模型训练装置,其特征在于,包括:
获取单元,用于获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
第一训练单元,用于将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
预测单元,用于将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
选取单元,用于确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
第二训练单元,用于将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型;
其中,所述选取单元,具体用于确定置信度小于预设阈值的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
其中,所述第一训练单元,具体用于将所述标注样本数据输入至预设双向长短期记忆模型进行打分,得到所述标注样本数据对应各个预测类别的分类得分;将所述分类得分输入至预设条件随机场模型进行打分,得到所述标注样本数据对应各个预测类别的转移得分;计算所述分类得分和所述转移得分之和,得到所述标注样本数据对应各个预测类别的打分值;根据所述标注样本数据对应各个预测类别的打分值,利用极大似然算法计算所述标注样本数据归属于其对应预测类别的概率值,并迭代更新所述预设双向长短期记忆模型和所述预设条件随机场模型;当所述标注样本数据归属于其对应预测类别的概率值收敛时,将收敛概率值对应迭代层级的双向长短期记忆模型和条件随机场模型确定为所述初步模型。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201910559074.1A 2019-06-26 2019-06-26 预测模型训练方法、装置、存储介质及计算机设备 Active CN110457675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910559074.1A CN110457675B (zh) 2019-06-26 2019-06-26 预测模型训练方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910559074.1A CN110457675B (zh) 2019-06-26 2019-06-26 预测模型训练方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN110457675A CN110457675A (zh) 2019-11-15
CN110457675B true CN110457675B (zh) 2024-01-19

Family

ID=68481092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910559074.1A Active CN110457675B (zh) 2019-06-26 2019-06-26 预测模型训练方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN110457675B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008706B (zh) * 2019-12-09 2023-05-05 长春嘉诚信息技术股份有限公司 一种自动标注、训练、预测海量数据的处理方法
CN110889463A (zh) * 2019-12-10 2020-03-17 北京奇艺世纪科技有限公司 一种样本标注方法、装置、服务器及机器可读存储介质
CN113052191A (zh) * 2019-12-26 2021-06-29 航天信息股份有限公司 一种神经语言网络模型的训练方法、装置、设备及介质
CN113280265B (zh) * 2020-02-20 2022-08-05 中国石油天然气股份有限公司 工况识别方法、装置、计算机设备以及存储介质
CN111444677A (zh) * 2020-02-21 2020-07-24 平安科技(深圳)有限公司 基于大数据的阅读模型优化方法、装置、设备及介质
CN111539479B (zh) * 2020-04-27 2023-08-08 北京百度网讯科技有限公司 生成样本数据的方法和装置
CN111242948B (zh) * 2020-04-29 2020-09-01 腾讯科技(深圳)有限公司 图像处理、模型训练方法、装置、设备和存储介质
CN113888775A (zh) * 2020-06-19 2022-01-04 比亚迪股份有限公司 车辆预警方法、服务器、存储介质、车辆预警系统和车辆
CN111741125B (zh) * 2020-07-17 2020-11-17 和宇健康科技股份有限公司 基于广域网实现的远程服务方法和计算机设备
CN111737479B (zh) * 2020-08-28 2020-11-17 深圳追一科技有限公司 数据获取方法、装置、电子设备及存储介质
CN112115369B (zh) * 2020-09-29 2023-08-18 中国银行股份有限公司 特征数据的筛选方法、装置、电子设备及计算机存储介质
CN112000808B (zh) * 2020-09-29 2024-04-16 迪爱斯信息技术股份有限公司 一种数据处理方法及装置、可读存储介质
CN112085219B (zh) * 2020-10-13 2024-02-13 北京百度网讯科技有限公司 模型训练方法、短信审核方法、装置、设备以及存储介质
CN112347769B (zh) * 2020-10-30 2024-01-23 北京百度网讯科技有限公司 实体识别模型的生成方法、装置、电子设备及存储介质
CN112270379B (zh) * 2020-11-13 2023-09-19 北京百度网讯科技有限公司 分类模型的训练方法、样本分类方法、装置和设备
CN112632236A (zh) * 2020-12-02 2021-04-09 中山大学 一种改进的基于顺序匹配网络的多轮对话模型
CN112464895B (zh) * 2020-12-14 2023-09-01 深圳市优必选科技股份有限公司 姿态识别模型训练方法、装置、姿态识别方法和终端设备
CN112990294B (zh) * 2021-03-10 2024-04-16 挂号网(杭州)科技有限公司 行为判别模型的训练方法、装置、电子设备及存储介质
CN113065605B (zh) * 2021-04-16 2022-12-20 平安国际智慧城市科技股份有限公司 金银花识别模型的训练方法、装置、计算机设备及介质
CN112988733B (zh) * 2021-04-16 2021-08-27 北京妙医佳健康科技集团有限公司 一种数据质量提升和增强的方法及装置
CN113674292B (zh) * 2021-08-17 2023-08-01 厦门理工学院 一种基于部分实例标注的半监督骨髓瘤细胞实例分割方法
CN113782221A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 基于自训练学习的疾病预测装置、设备及存储介质
CN114241243B (zh) * 2021-12-20 2023-04-25 百度在线网络技术(北京)有限公司 图像分类模型的训练方法、装置、电子设备和存储介质
CN116127948A (zh) * 2023-02-10 2023-05-16 北京百度网讯科技有限公司 待标注文本数据的推荐方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质
CN109726288A (zh) * 2018-12-28 2019-05-07 上海点融信息科技有限责任公司 基于人工智能处理的文本分类方法和装置
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质
CN109726288A (zh) * 2018-12-28 2019-05-07 上海点融信息科技有限责任公司 基于人工智能处理的文本分类方法和装置
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置

Also Published As

Publication number Publication date
CN110457675A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110457675B (zh) 预测模型训练方法、装置、存储介质及计算机设备
WO2021218024A1 (zh) 命名实体识别模型的训练方法、装置、计算机设备
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN111723575A (zh) 识别文本的方法、装置、电子设备及介质
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
US11461613B2 (en) Method and apparatus for multi-document question answering
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN111753545A (zh) 嵌套实体识别方法、装置、电子设备和存储介质
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN110263304B (zh) 语句编码方法、语句解码方法、装置、存储介质及设备
EP3832485A1 (en) Question answering systems
US20220351634A1 (en) Question answering systems
CN111611802A (zh) 多领域实体识别方法
CN112069799A (zh) 基于依存句法的数据增强方法、设备和可读存储介质
CN112417823A (zh) 一种中文文本语序调整和量词补全方法及系统
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN110674276A (zh) 机器人自学习方法、机器人终端、装置及可读存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant