CN113111977A - 训练样本的贡献度评价方法、装置及相关设备 - Google Patents
训练样本的贡献度评价方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113111977A CN113111977A CN202110554077.3A CN202110554077A CN113111977A CN 113111977 A CN113111977 A CN 113111977A CN 202110554077 A CN202110554077 A CN 202110554077A CN 113111977 A CN113111977 A CN 113111977A
- Authority
- CN
- China
- Prior art keywords
- sample
- training
- samples
- contribution degree
- unused
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 182
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 27
- 238000012512 characterization method Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 2
- 235000011941 Tilia x europaea Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000004571 lime Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了训练样本的贡献度评价方法、装置及相关设备。该方法包括将样本总库划分为未用样本库和已用样本库;根据预置样本提取规则分别从未用样本库和已用样本库选取未用样本和已用样本,对未用样本和已用样本进行合并,得到训练样本;基于训练样本训练预置的语言模型,计算训练样本对语言模型的固定贡献度和非固定贡献度;对固定贡献度和非固定贡献度进行加权求和,得到训练样本的贡献度,并基于贡献度建立所述训练样本的贡献度标签;在本次训练结束后,将训练样本作为新的已用样本存储到已用样本库中。该方法提高了训练样本对语言模型的贡献度评价精准度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种训练样本的贡献度评价方法、装置及相关设备。
背景技术
随着机器学习技术的发展,越来越多的机器学习模型得到广泛应用。通常为了方便向用户解释模型的输出结果,使模型更加透明,可通过确定样本数据中各特征的数据对模型输出结果的影响,即各特征的数据对模型输出结果的产生的贡献度。
在现有技术中,常采用局部可理解的与模型无关的解释(Local InterpretableModel-Agnostic Explanations,LIME)方法确定样本数据对模型输出结果的贡献度。具体的,针对样本数据,可通过不断调整数据,确定模型的输出结果的变化,并根据该数据的变化与该模型输出结果的变化之间的对应关系,分段确定若干与模型线性拟合的拟合模型,以通过该拟合模型,确定该数据对该模型输出结果的贡献度。但是,通过LIME方法确定出的拟合模型只是对该模型的局部拟合,往往不能很好的拟合该模型的输出结果,因此得到的各数据的贡献度精准度较差。
发明内容
本发明实施例提供了一种训练样本的贡献度评价方法、装置及相关设备,旨在解决现有技术中对于样本数据在模型训练时所产生的贡献度评价精准度不准确的问题。
第一方面,本发明实施例提供了一种训练样本的贡献度评价方法,其包括:
将样本总库划分为未用样本库和已用样本库;
根据预置样本提取规则分别从所述未用样本库和已用样本库选取未用样本和已用样本,对所述未用样本和已用样本进行合并,得到训练样本;
基于所述训练样本训练预置的语言模型,计算所述训练样本对所述语言模型的固定贡献度和非固定贡献度;
对所述固定贡献度和非固定贡献度进行加权求和,得到所述训练样本的贡献度,并基于所述贡献度建立所述训练样本的贡献度标签;
在本次训练结束后,将所述训练样本作为新的已用样本存储到已用样本库中。
第二方面,本发明实施例提供了一种训练样本的贡献度评价装置,其包括:
划分模块,用于将样本总库划分为未用样本库和已用样本库;
选取模块,用于根据预置样本提取规则分别从所述未用样本库和已用样本库选取未用样本和已用样本,对所述未用样本和已用样本进行合并,得到训练样本;
计算模块,用于基于所述训练样本训练预置的语言模型,计算所述训练样本对所述语言模型的固定贡献度和非固定贡献度;
求和模块,用于对所述固定贡献度和非固定贡献度进行加权求和,得到所述训练样本的贡献度,并基于所述贡献度建立所述训练样本的贡献度标签;
存储模块,用于在本次训练结束后,将所述训练样本作为新的已用样本存储到已用样本库中。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的训练样本的贡献度评价方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的训练样本的贡献度评价方法。
本发明实施例提供了一种训练样本的贡献度评价方法、装置及相关设备。该方法包括将样本总库划分为未用样本库和已用样本库;根据预置样本提取规则分别从所述未用样本库和已用样本库选取未用样本和已用样本,对所述未用样本和已用样本进行合并,得到训练样本;基于所述训练样本训练预置的语言模型,计算所述训练样本对所述语言模型的固定贡献度和非固定贡献度;对所述固定贡献度和非固定贡献度进行加权求和,得到所述训练样本的贡献度,并基于所述贡献度建立所述训练样本的贡献度标签;在本次训练结束后,将所述训练样本作为新的已用样本存储到已用样本库中。该方法在模型训练时定义了已用样本在语言模型训练过程中的贡献度,考虑到已用样本的表征向量含有大量的信息,采用未用样本和已用样本合并为训练样本训练模型,提高训练样本对语言模型的贡献度评价精准度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的训练样本的贡献度评价方法的流程示意图;
图2为本发明实施例提供的训练样本的贡献度评价方法中步骤S120的子流程示意图;
图3为本发明实施例提供的训练样本的贡献度评价方法中步骤S120的另一子流程示意图;
图4为本发明实施例提供的训练样本的贡献度评价方法中步骤S130的子流程示意图;
图5为本发明实施例提供的训练样本的贡献度评价方法中步骤S130的另一子流程示意图;
图6为本发明实施例提供的训练样本的贡献度评价装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1所示,图1为本发明实施例提供的训练样本的贡献度评价方法的流程示意图,该方法包括步骤S110~S150。
步骤S110、将样本总库划分为未用样本库和已用样本库;
本实施例中,为了方便区分样本,将样本总库划分为未用样本库和已用样本库。其中,将已用样本存入已用样本库中,因此,样本总库剩下未用样本,也可以作为未用样本库。
步骤S120、根据预置样本提取规则分别从所述未用样本库和已用样本库选取未用样本和已用样本,对所述未用样本和已用样本进行合并,得到训练样本;
本实施例中,根据预置样本提取规则,分别从未用样本库和已用样本库选取未用样本和已用样本,然后将未用样本和已用样本进行合并,得到单次训练模型的训练样本。
在一实施例中,如图2所示,步骤S120包括:
步骤S1211、获取所述未用样本库中所有未用样本的表征向量;
步骤S1212、根据所述表征向量对所有未用样本进行聚类处理,得到多个未用样本簇;
步骤S1213、针对每一未用样本簇,计算其中每一未用样本与对应所述未用样本簇的质心之间的余弦相似度,按照所述余弦相似度从高到低对其中每一未用样本进行排序,得到对应的未用样本簇队列;
步骤S1214、按顺序从每一所述未用样本簇队列选取预置数量未用样本。
本实施例中,获取未用样本库中所有未用样本的表征向量;表征向量为将样本通过神经网络模型映射变换后得到的向量,能够代表样本的特征,例如可通过doc2vec模型得到文本样本的表征向量;接着根据表征向量对所有未用样本进行聚类处理,得到多个未用样本簇;针对每一未用样本簇,计算其中每一未用样本与对应未用样本簇的质心之间的余弦相似度,按照余弦相似度从高到低对其中每一未用样本进行排序,得到对应的未用样本簇队列;按顺序从每一未用样本簇队列选择预置数量未用样本。其中,需要知道的是,当一个样本簇队列中的未用样本数量不够当前所需选取的目标数量时,就从其他样本簇队列中选择,直至选择的未用样本数量满足目标数量。
例如,定义当前需要未用样本的个数64个,而第一个未用样本簇队列只有20个,选完。不够继续第二个未用样本簇队列中选取,第二个未用样本簇队列只有30个,选完了,还不够;继续从下一个未用样本簇队列中,直至未用样本数量满足目标数量。
在一实施例中,如图3所示,步骤S120包括:
步骤S1221、获取所述已用样本库中所有已用样本的贡献度;
步骤S1222、按贡献度从高到低将所有已用样本等距划分成多个样本集合,并按划分顺序对所述样本集合进行排序;
步骤S1223、以预设选择概率从每一所述样本集合选取已用样本,其中,每一所述样本集合中优先选择贡献度最高的已用样本,并且所述样本集合排序越靠后,被选择的概率越低。
本实施例中,获取已用样本库中所有已用样本的贡献度;按贡献度从高到低将所有已用样本等距划分成多个样本集合,并按划分顺序对样本集合进行排序;以预设选择概率从各样本集合选择出已用样本。其中,每一样本集合中优先选择贡献度最高的已用样本,并且样本集合排序越靠后,被选择的概率越低。
例如,可以将已用样本库划分为不同级别,设划定级别K,统计所有已用样本的贡献度,按照贡献度从高到低等距分为K个区间,从而将已用样本划分到不同的K级已用样本缓存库(即K个样本集合)。分别以概率Pk从第k级已用样本缓存库中选择本区间内贡献度最高的已用样本参与训练,所有已用样本缓存库被选择概率之和等于1。其中,第k级已用样本缓存库的选择概率为λk-1P1,P1表示第一个已用样本库被选择的概率,λ(0<λ<1)表示衰减系数。
步骤S130、基于所述训练样本训练预置的语言模型,计算所述训练样本对所述语言模型的固定贡献度和非固定贡献度;
本实施例中,基于训练样本训练预置的语言模型,计算训练样本对语言模型的固定贡献度和非固定贡献度。
在一实施例中,如图4所示,步骤S130包括:
步骤S1311、计算所述训练样本中所有单词的词频,根据预置词贡献函数和词频对所述训练样本进行词贡献度计算,得到所述训练样本的词贡献度;
步骤S1312、获取所述训练样本的目标表征向量,确定是否存在与所述目标表征向量相似度超过预设阈值的相似样本;
步骤S1313、若存在,则统计所述相似样本的数量,并根据所述数量对所述训练样本进行序列贡献度计算,得到所述训练样本的序列贡献度;
步骤S1314、对所述词贡献度和序列贡献度进行加权求和,得到所述训练样本的固定贡献度。
本实施例中,由于样本总库中的样本总量一定的,已用样本库中的已用样本是从样本总库中提取后存储进去的,因此每个单词的词频是固定的。训练样本的固定贡献度包括词贡献度和序列贡献度。词贡献度的计算方法为:计算训练样本中所有单词的词频,根据预置词贡献函数及词频对训练样本进行词贡献度计算。其中,对样本库中所有样本进行分词处理,得到分词后集合Set_S,分别统计该集合中每个单词的词频总数WF(i);对所有训练样本的分词后集合按照其词频总数从低到高形成队列;设训练样本总数为N_S,设训练样本S(i)的分词后集合为Set_S(i),集合中词数量为N_S(i),则位于训练样本S(i)的词贡献度Cf_SW(i)的计算方法为:
接着计算训练样本的序列贡献度,具体包括:获取训练样本的目标表征向量,确定所有样本中(该“所有样本”指的是样本总库的样本总量)是否存在与目标表征向量相似度超过预设阈值的相似样本;统计所有相似样本的数量,并根据相似样本数量对训练样本进行序列贡献度计算,得到训练样本的序列贡献度。其中,相似度的预设阈值根据实际需要确定。其中,相似度可采用余弦相似度、内积相似度。具体的,设统计所有样本中与训练样本的表征向量Vs(i)之间的相似度超过预设阈值的相似样本数量为Sim_N(i),根据以下函数计算训练样本Vs(i)的序列贡献度Cf_SS(i):
最后对词贡献度和序列贡献度进行加权求和,得到所述训练样本的固定贡献度。即固定贡献度为:
Cf_S(i)=αCf_SW(i)+βCf_SS(i),其中,α,β表示权重,权重的取值为0到1之间。
在一实施例中,如图5所示,步骤S130还包括:
步骤S1321、判断基于所述训练样本进行模型训练时所述语言模型的损失函数的数值是否降低;
步骤S1322、若是,则确定所述训练样本的基准贡献度,并对所述训练样本中任意两个已用样本之间表征向量的匹配系数,根据所述匹配系数计算所述训练样本的非固定贡献系数;
步骤S1323、计算所述非固定贡献系数及基准贡献度的乘积,得到所述训练样本的非固定贡献度。
本实施例中,判断基于训练样本进行模型训练时语言模型的损失函数的数值是否降低,若存在,则认为其中每个样本都产生了基准贡献度Cb_S(i),对基准贡献度赋值1。确定训练样本中任意两个已用样本之间表征向量的匹配系数,根据匹配系数计算训练样本的非固定贡献系数,最后计算非固定贡献系数及基准贡献度的乘积,得到训练样本的非固定贡献度。其中,非固定贡献系数的计算函数如下:
eit=Vsi·Wm·Vst,
其中,Vsi表示第i个已用样本的表征向量;Vst表示所述训练样本中第t个已用样本的表征向量;eit表示Vsi和Vst的匹配系数;Wm表示随机初始化的权重矩阵;k表示所述样本集合的数量;att表示所述训练样本的非固定贡献系数。
最后计算非固定系数及基准贡献度的乘积,得到训练样本的非固定贡献度,有:
Cu_S(i)=att·Cb_S(i)。
步骤S140、对所述固定贡献度和非固定贡献度进行加权求和,得到所述训练样本的贡献度,并基于所述贡献度建立所述训练样本的贡献度标签;
本实施例中,对固定贡献度和非固定贡献度进行加权求和,得到训练样本的贡献度,并基于贡献度建立训练样本的贡献度标签。即固定贡献度G为:
G=xCf_S(i)+yCuf_S(i),
其中,x,y为权重系数,权重系数的取值为0到1之间。
需要知道的是,以上提及的权重系数均可以使人为指定,也可以通过层次分析法、机器学习方法确定。
步骤S150、在本次训练结束后,将所述训练样本作为新的已用样本存储到已用样本库中。
本实施例中,在每次训练结束后,将当次的训练样本作为新的已用样本存储到已用样本库中。
该方法在模型训练时定义了已用样本在语言模型训练过程中的贡献度,考虑到已用样本的表征向量含有大量的信息,采用未用样本和已用样本合并为训练样本训练模型,提高训练样本对语言模型的贡献度评价精准度。
本发明实施例还提供一种训练样本的贡献度评价装置,该训练样本的贡献度评价装置用于执行前述训练样本的贡献度评价方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的训练样本的贡献度评价装置的示意性框图。该训练样本的贡献度评价装置100可以配置于服务器中。
如图6所示,训练样本的贡献度评价装置100包括划分模块110、选取模块120、计算模块130、求和模块140、存储模块150。
划分模块110,用于将样本总库划分为未用样本库和已用样本库;
选取模块120,用于根据预置样本提取规则分别从所述未用样本库和已用样本库选取未用样本和已用样本,对所述未用样本和已用样本进行合并,得到训练样本;
计算模块130,用于基于所述训练样本训练预置的语言模型,计算所述训练样本对所述语言模型的固定贡献度和非固定贡献度;
求和模块140,用于对所述固定贡献度和非固定贡献度进行加权求和,得到所述训练样本的贡献度,并基于所述贡献度建立所述训练样本的贡献度标签;
存储模块150,用于在本次训练结束后,将所述训练样本作为新的已用样本存储到已用样本库中。
在一实施例中,选取模块120包括:
第一获取单元,用于获取所述未用样本库中所有未用样本的表征向量;
聚类单元,用于根据所述表征向量对所有未用样本进行聚类处理,得到多个未用样本簇;
排序单元,用于针对每一未用样本簇,计算其中每一未用样本与对应所述未用样本簇的质心之间的余弦相似度,按照所述余弦相似度从高到低对其中每一未用样本进行排序,得到对应的未用样本簇队列;
第二选取单元,用于按顺序从每一所述未用样本簇队列选取预置数量未用样本。
在一实施例中,选取模块120还包括:
第二获取单元,用于获取所述已用样本库中所有已用样本的贡献度;
划分单元,用于按贡献度从高到低将所有已用样本等距划分成多个样本集合,并按划分顺序对所述样本集合进行排序;
第二选取单元,用于以预设选择概率从每一所述样本集合选取已用样本,其中,每一所述样本集合中优先选择贡献度最高的已用样本,并且所述样本集合排序越靠后,被选择的概率越低。
在一实施例中,计算模块130包括:
第一计算单元,用于计算所述训练样本中所有单词的词频,根据预置词贡献函数和词频对所述训练样本进行词贡献度计算,得到所述训练样本的词贡献度;
获取单元,用于获取所述训练样本的目标表征向量,确定是否存在与所述目标表征向量相似度超过预设阈值的相似样本;
统计单元,用于若存在,则统计所述相似样本的数量,并根据所述数量对所述训练样本进行序列贡献度计算,得到所述训练样本的序列贡献度;
求和单元,用于对所述词贡献度和序列贡献度进行加权求和,得到所述训练样本的固定贡献度。
在一实施例中,计算模块130还包括:
判断单元,用于判断基于所述训练样本进行模型训练时所述语言模型的损失函数的数值是否降低;
第二计算单元,用于当所述训练样本进行模型训练时所述语言模型的损失函数的数值降低时,确定所述训练样本的基准贡献度,并对所述训练样本中任意两个已用样本之间表征向量的匹配系数,根据所述匹配系数计算所述训练样本的非固定贡献系数;
第三计算单元,用于计算所述非固定贡献系数及基准贡献度的乘积,得到所述训练样本的非固定贡献度。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的训练样本的贡献度评价方法。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于训练样本的贡献度评价方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种训练样本的贡献度评价方法,其特征在于,包括:
将样本总库划分为未用样本库和已用样本库;
根据预置样本提取规则分别从所述未用样本库和已用样本库选取未用样本和已用样本,对所述未用样本和已用样本进行合并,得到训练样本;
基于所述训练样本训练预置的语言模型,计算所述训练样本对所述语言模型的固定贡献度和非固定贡献度;
对所述固定贡献度和非固定贡献度进行加权求和,得到所述训练样本的贡献度,并基于所述贡献度建立所述训练样本的贡献度标签;
在本次训练结束后,将所述训练样本作为新的已用样本存储到已用样本库中。
2.根据权利要求1所述的训练样本的贡献度评价方法,其特征在于,根据预置样本提取规则从预置的未用样本库选取未用样本,包括:
获取所述未用样本库中所有未用样本的表征向量;
根据所述表征向量对所有未用样本进行聚类处理,得到多个未用样本簇;
针对每一未用样本簇,计算其中每一未用样本与对应所述未用样本簇的质心之间的余弦相似度,按照所述余弦相似度从高到低对其中每一未用样本进行排序,得到对应的未用样本簇队列;
按顺序从每一所述未用样本簇队列选取预置数量未用样本。
3.根据权利要求1所述的训练样本的贡献度评价方法,其特征在于,根据预置样本提取规则从预置的已用样本库选取已用样本,包括:
获取所述已用样本库中所有已用样本的贡献度;
按贡献度从高到低将所有已用样本等距划分成多个样本集合,并按划分顺序对所述样本集合进行排序;
以预设选择概率从每一所述样本集合选取已用样本,其中,每一所述样本集合中优先选择贡献度最高的已用样本,并且所述样本集合排序越靠后,被选择的概率越低。
4.根据权利要求3所述的训练样本的贡献度评价方法,其特征在于,第k个所述样本集合的选择概率为λk-1P1,P1表示第一个样本集合被选择的概率,λ表示衰减系数。
5.根据权利要求1所述的训练样本的贡献度评价方法,其特征在于,计算所述训练样本对所述语言模型的固定贡献度,包括:
计算所述训练样本中所有单词的词频,根据预置词贡献函数和词频对所述训练样本进行词贡献度计算,得到所述训练样本的词贡献度;
获取所述训练样本的目标表征向量,确定是否存在与所述目标表征向量相似度超过预设阈值的相似样本;
若存在,则统计所述相似样本的数量,并根据所述数量对所述训练样本进行序列贡献度计算,得到所述训练样本的序列贡献度;
对所述词贡献度和序列贡献度进行加权求和,得到所述训练样本的固定贡献度。
6.根据权利要求1所述的训练样本的贡献度评价方法,其特征在于,计算所述训练样本对所述语言模型的非固定贡献度,包括:
判断基于所述训练样本进行模型训练时所述语言模型的损失函数的数值是否降低;
若是,则确定所述训练样本的基准贡献度,并对所述训练样本中任意两个已用样本之间表征向量的匹配系数,根据所述匹配系数计算所述训练样本的非固定贡献系数;
计算所述非固定贡献系数及基准贡献度的乘积,得到所述训练样本的非固定贡献度。
8.一种训练样本的贡献度评价装置,其特征在于,包括:
划分模块,用于将样本总库划分为未用样本库和已用样本库;
选取模块,用于根据预置样本提取规则分别从所述未用样本库和已用样本库选取未用样本和已用样本,对所述未用样本和已用样本进行合并,得到训练样本;
计算模块,用于基于所述训练样本训练预置的语言模型,计算所述训练样本对所述语言模型的固定贡献度和非固定贡献度;
求和模块,用于对所述固定贡献度和非固定贡献度进行加权求和,得到所述训练样本的贡献度,并基于所述贡献度建立所述训练样本的贡献度标签;
存储模块,用于在本次训练结束后,将所述训练样本作为新的已用样本存储到已用样本库中。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的训练样本的贡献度评价方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的训练样本的贡献度评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554077.3A CN113111977B (zh) | 2021-05-20 | 2021-05-20 | 训练样本的贡献度评价方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554077.3A CN113111977B (zh) | 2021-05-20 | 2021-05-20 | 训练样本的贡献度评价方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111977A true CN113111977A (zh) | 2021-07-13 |
CN113111977B CN113111977B (zh) | 2021-11-09 |
Family
ID=76723128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110554077.3A Active CN113111977B (zh) | 2021-05-20 | 2021-05-20 | 训练样本的贡献度评价方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111977B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345167A (zh) * | 2022-08-29 | 2022-11-15 | 华润数字科技有限公司 | 一种多模型文本处理方法、装置、计算机设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1597682A2 (en) * | 2003-02-19 | 2005-11-23 | Nahava, Inc. | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently |
CN104422782A (zh) * | 2013-08-30 | 2015-03-18 | 希森美康株式会社 | 样本分析装置及样本分析方法 |
CN107180084A (zh) * | 2017-05-05 | 2017-09-19 | 上海木爷机器人技术有限公司 | 词库更新方法及装置 |
CN110188095A (zh) * | 2019-06-03 | 2019-08-30 | 东北电力大学 | 一种基于关联规则的电网设备数据流清洗方法 |
CN110853654A (zh) * | 2019-11-17 | 2020-02-28 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111325353A (zh) * | 2020-02-28 | 2020-06-23 | 深圳前海微众银行股份有限公司 | 训练数据集的贡献度计算方法、装置、设备及存储介质 |
CN111382782A (zh) * | 2020-02-23 | 2020-07-07 | 华为技术有限公司 | 训练分类器的方法和装置 |
CN111612163A (zh) * | 2020-06-28 | 2020-09-01 | 上海优扬新媒信息技术有限公司 | 一种基于机器学习模型的训练方法及装置 |
CN111914936A (zh) * | 2020-08-05 | 2020-11-10 | 平安科技(深圳)有限公司 | 语料数据的数据特征增强方法、装置及计算机设备 |
CN112185359A (zh) * | 2020-09-28 | 2021-01-05 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN112784981A (zh) * | 2021-01-20 | 2021-05-11 | 清华大学 | 训练样本集生成方法、深度生成模型的训练方法和装置 |
CN112818690A (zh) * | 2021-01-22 | 2021-05-18 | 润联软件系统(深圳)有限公司 | 结合知识图谱实体信息的语义识别方法、装置及相关设备 |
-
2021
- 2021-05-20 CN CN202110554077.3A patent/CN113111977B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1597682A2 (en) * | 2003-02-19 | 2005-11-23 | Nahava, Inc. | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently |
CN104422782A (zh) * | 2013-08-30 | 2015-03-18 | 希森美康株式会社 | 样本分析装置及样本分析方法 |
CN107180084A (zh) * | 2017-05-05 | 2017-09-19 | 上海木爷机器人技术有限公司 | 词库更新方法及装置 |
CN110188095A (zh) * | 2019-06-03 | 2019-08-30 | 东北电力大学 | 一种基于关联规则的电网设备数据流清洗方法 |
CN110853654A (zh) * | 2019-11-17 | 2020-02-28 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111382782A (zh) * | 2020-02-23 | 2020-07-07 | 华为技术有限公司 | 训练分类器的方法和装置 |
CN111325353A (zh) * | 2020-02-28 | 2020-06-23 | 深圳前海微众银行股份有限公司 | 训练数据集的贡献度计算方法、装置、设备及存储介质 |
CN111612163A (zh) * | 2020-06-28 | 2020-09-01 | 上海优扬新媒信息技术有限公司 | 一种基于机器学习模型的训练方法及装置 |
CN111914936A (zh) * | 2020-08-05 | 2020-11-10 | 平安科技(深圳)有限公司 | 语料数据的数据特征增强方法、装置及计算机设备 |
CN112185359A (zh) * | 2020-09-28 | 2021-01-05 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN112784981A (zh) * | 2021-01-20 | 2021-05-11 | 清华大学 | 训练样本集生成方法、深度生成模型的训练方法和装置 |
CN112818690A (zh) * | 2021-01-22 | 2021-05-18 | 润联软件系统(深圳)有限公司 | 结合知识图谱实体信息的语义识别方法、装置及相关设备 |
Non-Patent Citations (3)
Title |
---|
A KILGARRIFF: "Using Word Frequency Lists to Measure Corpus Homogeneity and Similarity between Corpora", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/2433899》 * |
刘震等: "中文短文本聚合模型研究", 《软件学报》 * |
尹绍锋等: "一种基于特征库投影的文本分类算法", 《中南大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345167A (zh) * | 2022-08-29 | 2022-11-15 | 华润数字科技有限公司 | 一种多模型文本处理方法、装置、计算机设备及存储介质 |
CN115345167B (zh) * | 2022-08-29 | 2023-11-10 | 华润数字科技有限公司 | 一种多模型文本处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113111977B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107564513B (zh) | 语音识别方法及装置 | |
CN110929836B (zh) | 神经网络训练及图像处理方法和装置、电子设备、介质 | |
CN109496334A (zh) | 用于评估语音质量的设备和方法 | |
CN110210558B (zh) | 评估神经网络性能的方法及装置 | |
CN113554156B (zh) | 基于注意力机制与可变形卷积的多任务图像处理方法 | |
CN113111977B (zh) | 训练样本的贡献度评价方法、装置及相关设备 | |
CN108830289A (zh) | 一种基于改进的模糊c均值聚类的图像聚类方法及装置 | |
CN109034238A (zh) | 一种基于信息熵的聚类划分方法 | |
CN111767985B (zh) | 一种神经网络的训练方法、视频识别方法及装置 | |
CN111723206B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111652138A (zh) | 戴口罩人脸识别方法、装置、设备及存储介质 | |
CN113051930A (zh) | 基于Bert模型的意图识别方法、装置及相关设备 | |
CN110910325B (zh) | 一种基于人工蝴蝶优化算法的医疗影像处理方法及装置 | |
CN109948662B (zh) | 一种基于K-means和MMD的人脸图像深度聚类方法 | |
CN109800702B (zh) | 指静脉识别的快速比对方法及计算机可读取的存储介质 | |
CN113891323B (zh) | 一种基于WiFi的用户标签获取系统 | |
CN115830413A (zh) | 一种图像特征库的更新方法、校验方法及相关设备 | |
CN113191158B (zh) | 基于Voronoi图的训练样本遮掩方法、装置及相关设备 | |
CN114841288A (zh) | 典型日负荷曲线的获取方法、装置、电子设备及存储介质 | |
CN109949070B (zh) | 用户黏度评估方法、装置、计算机设备及存储介质 | |
CN110354501B (zh) | 行为预测方法、装置及电子设备 | |
CN114186138A (zh) | 一种基于用户聚类和时间上下文的热门游戏混合推荐方法及装置 | |
CN115222945B (zh) | 基于多尺度自适应课程学习的深度语义分割网络训练方法 | |
CN115345167B (zh) | 一种多模型文本处理方法、装置、计算机设备及存储介质 | |
CN111461420A (zh) | 模型预测结果的解释方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000 Patentee after: China Resources Digital Technology Co.,Ltd. Address before: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000 Patentee before: Runlian software system (Shenzhen) Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |