CN112801226A - 数据筛选方法和装置、计算机可读存储介质、电子设备 - Google Patents

数据筛选方法和装置、计算机可读存储介质、电子设备 Download PDF

Info

Publication number
CN112801226A
CN112801226A CN202110364631.1A CN202110364631A CN112801226A CN 112801226 A CN112801226 A CN 112801226A CN 202110364631 A CN202110364631 A CN 202110364631A CN 112801226 A CN112801226 A CN 112801226A
Authority
CN
China
Prior art keywords
data set
raw data
determining
prediction
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110364631.1A
Other languages
English (en)
Inventor
江霜艳
邓周
杨蕴凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Seashell Housing Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seashell Housing Beijing Technology Co Ltd filed Critical Seashell Housing Beijing Technology Co Ltd
Priority to CN202110364631.1A priority Critical patent/CN112801226A/zh
Publication of CN112801226A publication Critical patent/CN112801226A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种数据筛选方法和装置、计算机可读存储介质、电子设备,其中,方法包括:基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集;本实施例通过结合类别增益获得目标生数据集,克服了定向选择某一类别的数据导致的数据失衡的问题,提高了获得的生数据的多样性和针对性。

Description

数据筛选方法和装置、计算机可读存储介质、电子设备
技术领域
本公开涉及数据处理技术,尤其是一种数据筛选方法和装置、计算机可读存储介质、电子设备。
背景技术
对于神经网络的训练需要大量标注数据,为在保证神经网络精度不降低的情况下尽可能的降低人工的标注成本。通过迭代方式在样本集中挑选能够最大程度提升模型效果和泛化能力的样本,由标注专家进行标注。不确定度采样(Uncertainty Sampling)是最为广泛的一种查询策略(query strategy),其主要是将模型“最易混淆”或“信息量”最大、最有价值的样本返回给专家(expert),以期获得较大的增益。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种数据筛选方法和装置、计算机可读存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种数据筛选方法,包括:
基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;
基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;
基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;
基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集。
可选地,所述基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值,包括:
基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集获得增益相关信息;其中,所述验证数据集中包括多个验证分类结果,每个所述验证分类结果对应一个第一预测分类结果;所述增益相关信息包括:每个类别的精确率、每个类别的召回率和每个类别的支持度;
基于所述每个类别的精确率和所述每个类别的召回率,确定每个类别的F1值;
基于所述每个类别的F1值和所述每个类别的支持度,确定所述多个类别中每个类别对应的增益值。
可选地,所述基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果,包括:
针对所述多个生数据中的每个生数据,基于所述目标分类网络对所述生数据进行类别预测,得到所述生数据对应所述多个类别中每个类别的概率值;
基于所述每个类别对应的概率值,基于所述概率值最大的类别确定所述生数据对应的所述第二预测分类结果。
可选地,在基于所述每个类别对应的概率值,基于所述概率值最大的类别确定所述生数据对应的所述第二预测分类结果之后,还包括:
基于每个所述生数据对应的所述每个类别的概率值,确定每个所述生数据对应的熵值;
在基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值之后,还包括:
基于所述每个类别对应的增益值对所述多个类别进行排序,确定所述增益值最大的k个类别构成目标类别集;其中,所述k为大于1的整数。
可选地,所述基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集,包括:
基于所述多个第二预测分类结果和所述每个类别对应的增益,根据第一筛选策略从所述生数据集中确定第一数据集;
基于所述多个第二预测分类结果,根据第二筛选策略从所述生数据集中确定第二数据集;
基于所述第一数据集和所述第二数据集,确定所述目标生数据集。
可选地,所述基于所述多个第二预测分类结果和所述每个类别对应的增益,根据第一筛选策略从所述生数据集中确定第一数据集,包括:
确定所述第二预测分类结果属于所述目标类别集的至少一个所述生数据,得到初筛数据集;
基于所述初筛数据集中每个所述生数据对应的熵值,从所述初筛数据集中确定所述熵值大于设定熵值的至少一个生数据,得到二次筛选数据集;
基于所述二次筛选数据集中每个生数据对应的所述第二预测分类结果对应的概率值,从所述二次筛选数据集中确定所述概率值小于预设概率值的至少一个第二预测分类结果;
基于所述概率值小于预设概率值的至少一个第二预测分类结果对应的生数据构成所述第一数据集。
可选地,所述基于所述多个第二预测分类结果,根据第二筛选策略从所述生数据集中确定第二数据集,包括:
基于每个所述第二预测分类结果对应的支持度,从所述多个第二预测分类结果中确定所述支持度大于设定支持度的至少一个第二预测分类结果;
基于所述支持度大于设定支持度的至少一个第二预测分类结果对应的生数据构成所述第二数据集。
可选地,所述基于所述第一数据集和所述第二数据集,确定所述目标生数据集,包括:
对所述第一数据集和所述第二数据集执行分层抽样,得到包括多个生数据的抽样数据集;
将所述抽样数据集中包括的多个生数据按照熵值从大到小进行排序,获得排序在前的设定数量的生数据构成所述目标生数据集。
根据本公开实施例的另一方面,提供了一种数据筛选装置,包括:
第一预测模块,用于基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;
增益确定模块,用于基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;
第二预测模块,用于基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;
数据筛选模块,用于基于所述多个第二预测分类结果和所述每个类别对应的增益值,从所述生数据集中确定目标生数据集。
可选地,所述增益确定模块,具体用于基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集获得增益相关信息;所述增益相关信息包括:每个类别的精确率、每个类别的召回率和每个类别的支持度;其中,所述验证数据集中包括多个验证分类结果,每个所述验证分类结果对应一个第一预测分类结果;基于所述每个类别的精确率和所述每个类别的召回率,确定每个类别的F1值;基于所述每个类别的F1值和所述每个类别的支持度,确定所述多个类别中每个类别对应的增益值。
可选地,所述第二预测模块,具体用于针对所述多个生数据中的每个生数据,基于所述目标分类网络对所述生数据进行类别预测,得到所述生数据对应所述多个类别中每个类别的概率值;基于所述每个类别对应的概率值,基于所述概率值最大的类别确定所述生数据对应的所述第二预测分类结果。
可选地,所述装置还包括:
熵值确定模块,用于基于每个所述生数据对应的所述每个类别的概率值,确定每个所述生数据对应的熵值;
所述装置还包括:
类别集确定模块,用于基于所述每个类别对应的增益值对所述多个类别进行排序,确定所述增益值最大的k个类别构成目标类别集;其中,所述k为大于1的整数。
可选地,所述数据筛选模块,包括:
第一筛选单元,用于基于所述多个第二预测分类结果和所述每个类别对应的增益,根据第一筛选策略从所述生数据集中确定第一数据集;
第二筛选单元,用于基于所述多个第二预测分类结果,根据第二筛选策略从所述生数据集中确定第二数据集;
数据确定单元,用于基于所述第一数据集和所述第二数据集,确定所述目标生数据集。
可选地,所述第一筛选单元,具体用于确定所述第二预测分类结果属于所述目标类别集的至少一个所述生数据,得到初筛数据集;基于所述初筛数据集中每个所述生数据对应的熵值,从所述初筛数据集中确定所述熵值大于设定熵值的至少一个生数据,得到二次筛选数据集;基于所述二次筛选数据集中每个生数据对应的所述第二预测分类结果对应的概率值,从所述二次筛选数据集中确定所述概率值小于预设概率值的至少一个第二预测分类结果;基于所述概率值小于预设概率值的至少一个第二预测分类结果对应的生数据构成所述第一数据集。
可选地,所述第二筛选单元,具体用于基于每个所述第二预测分类结果对应的支持度,从所述多个第二预测分类结果中确定所述支持度大于设定支持度的至少一个第二预测分类结果;基于所述支持度大于设定支持度的至少一个第二预测分类结果对应的生数据构成所述第二数据集。
可选地,所述数据确定单元,具体用于对所述第一数据集和所述第二数据集执行分层抽样,得到包括多个生数据的抽样数据集;将所述抽样数据集中包括的多个生数据按照熵值从大到小进行排序,获得排序在前的设定数量的生数据构成所述目标生数据集。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的数据筛选方法。
根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的数据筛选方法。
基于本公开上述实施例提供的一种数据筛选方法和装置、计算机可读存储介质、电子设备,包括:基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集;本实施例通过结合类别增益获得目标生数据集,克服了定向选择某一类别的数据导致的数据失衡的问题,提高了获得的生数据的多样性和针对性。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的数据筛选方法的流程示意图。
图2是本公开图1所示的实施例中步骤104的一个流程示意图。
图3是本公开图1所示的实施例中步骤106的一个流程示意图。
图4是本公开图1所示的实施例中步骤108的一个流程示意图。
图5是本公开一示例性实施例提供的数据筛选装置的结构示意图。
图6是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有技术中采样最小置信度选择方法(Least Confident)进行数据筛选,简单直接,考虑网络预测概率最大但是依旧“可信度”较低的样本,但该方法至少存在以下问题:对于那些概率较小的样本,其并未考虑。
示例性方法
图1是本公开一示例性实施例提供的数据筛选方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤102,基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果。
其中,第一预测分类结果对应多个类别。
本实施例中,目标是为目标分类网络筛选获得符合要求的生数据,每个训练数据具有标注的验证数据,本实施例中的目标分类网络可以为任意可实现分类功能的神经网络,本实施例不限制该神经网络的结构。
步骤104,基于多个第一预测分类结果和训练数据集对应的验证数据集确定多个类别中每个类别对应的增益值。
在一实施例中,可通过设定的增益公式确定多个类别中每个类别的增益值,例如,增益公式由每个类别的支持度和F1值确定。
步骤106,基于目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果。
本实施例中,生数据是指不具有标注的数据,本实施例通过目标分类网络确定每个生数据对应每个类别的概率,并基于概率最大的类别作为该生数据的第二预测分类结果。
步骤108,基于多个第二预测分类结果和每个类别对应的增益值,从生数据集中确定目标生数据集。
本实施例结合每个类别的增益值和第二预测分类结果来确定是否选中该生数据作为目标分类网络训练数据,提供了数据的多样性和针对性。
本公开上述实施例提供的一种数据筛选方法,基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集;本实施例通过结合类别增益获得目标生数据集,克服了定向选择某一类别的数据导致的数据失衡的问题,提高了获得的生数据的多样性和针对性。
如图2所示,在上述图1所示实施例的基础上,步骤104可包括如下步骤:包括:
步骤1041,基于多个第一预测分类结果和训练数据集对应的验证数据集获得增益相关信息。
其中,验证数据集中包括多个验证分类结果,每个验证分类结果对应一个第一预测分类结果。
可选地,增益相关信息包括:每个类别的精确率、每个类别的召回率和每个类别的支持度。
其中,精确率(precision)是针对预测结果而言的,其含义是在被所有预测为正的样本中实际为正样本的概率,在本实施例中可以为预测为某一类别的样本中实际为该类别的概率,精确率P的计算如公式(1)所示:
P=TP/(TP+FP) 公式(1)
其中,TP(True Positive)是把正样本预测为正样本的数量,FP(False Positive)是把负样本错判为正样本的数量。
召回率(Recall)相对于样本而言的,其含义是在实际为正的样本中被预测为正样本的概率;即样本中有多少正样本被预测正确了,这样的有TP个,所有的正样本有两个去向,一个是被判为正样本,另一个是错判为负样本(FN个),因此总共有TP+FN个,因此,召回率R的计算如下公式(2)所示:
R=TP/(TP+FN) 公式(2)
一个类别的支持度,是指在验证数据集中该类别的数据量。
步骤1042,基于增益相关信息确定多个类别中每个类别对应的增益值。
本实施例中,通过增益相关信息通过增益公式确定增益值,每个类别的增益值表示该类别能带来的收益,本实施例可通过对增益值排序,确定多个类别中每个类别对目标分类网络所起作用的大小,通过获得更多增益值较大的类别对应的生数据,实现对目标分类网络更好的训练。
可选地,上述实施例中的步骤1042可以包括:
基于每个类别的精确率和每个类别的召回率,确定每个类别的F1值。
在实际应用中,希望精确率和召回率都高,但实际上是矛盾的,这两个指标是矛盾体,无法做到双高,因此,在通常情况下,可根据他们之间的平衡点,定义一个新的指标F1分数(F1-Score)。F1分数同时考虑精确率P和召回率R,使两者同时达到最高,取得平衡,F1的计算公式如以下公式(3)所示:
F1=2*P*R/(P+R) 公式(3)
因此,在上述确定每个类别的精确率和每个类别的召回率的前提下,基于上述公式(3)可确定每个类别的F1值。
基于每个类别的F1值和每个类别的支持度,确定多个类别中每个类别对应的增益值。
本实施例中,提出计算每个类别的增益值的公式,例如,增益值公式如下公式(4)所示:
Figure 292080DEST_PATH_IMAGE001
公式(4)
其中,
Figure 209221DEST_PATH_IMAGE002
表示优化第i个类别对应的增益,
Figure 988958DEST_PATH_IMAGE003
表示第i个类别的支持度,
Figure 571118DEST_PATH_IMAGE004
表示第i个类别的F1值。其中,i、j是取值为1到K变量,K取值为类别的总数量;本实施例中,当存在某一类别非常多但不重要,比如,某一类别,当其F1值大于某一阈值时,将不在对其针对性优化,即,不再选择该类别对应的生数据对目标分类网络进行训练。可选地,在步骤104之后,还可以包括:基于每个类别对应的增益值对多个类别进行排序,确定增益值最大的k个类别构成目标类别集。其中,k为大于1的整数。
基于上述公式(4)可知,基于
Figure 533561DEST_PATH_IMAGE002
对类别进行排序,可获得增益最大的k个(top k)的类别构成目标类别集;在后续对目标分类网络的调整中主要针对目标类别集中包括的类别进行调整,而对于针对性较小(例如,F1值大于某一阈值的类别)将不再进行优化;即,本实施例决定了,为了提高训练的针对性,后续获得的生数据的第二预测分类结果所属类别应该在目标类别集中。
如图3所示,在上述图1所示实施例的基础上,步骤106可包括如下步骤:
步骤1061,针对多个生数据中的每个生数据,基于目标分类网络对生数据进行类别预测,得到生数据对应多个类别中每个类别的概率值。
步骤1062,基于每个类别对应的概率值,基于概率值最大的类别确定生数据对应的第二预测分类结果。
本实施例中,通过目标分类网络对每个生数据进行分类,确定每个生数据对应每个类别的概率值,并以每个生数据中最大概率值对应的类别作为目标分类网络针对该生数据得到的第二预测分类结果。
在上述实施例的基础上,在步骤106之后,还可以包括:
基于每个生数据对应的每个类别的概率值,确定每个生数据对应的熵值。
其中,熵(entropy)是指随机变量在整个概率分布对应的信息量的平均值,这个平均值就叫做随机变量x的熵;可通过以下公式(5)确定熵值:
Figure 542974DEST_PATH_IMAGE005
公式(5)
该公式表达的意思是:随机变量x是服从p这个分布的,也就是在p分布下面的平均自信息,也就得到了信息熵,信息熵本质可以看做是某个分布的自信息的期望;其中,
Figure 13270DEST_PATH_IMAGE006
表示某个概率分布之下,某个概率值对应的信息量。注意:熵只依赖于x的分布,与x的取值无关,因此,服从某个分布的x的熵也可以等价于这个分布的熵;定义0
Figure 133542DEST_PATH_IMAGE007
=0(因为可能出现某个取值概率为0的情况);熵越大,随机变量的不确定性就越大。
如图4所示,在上述图1所示实施例的基础上,步骤108可包括如下步骤:
步骤1081,基于多个第二预测分类结果和每个类别对应的增益,根据第一筛选策略从生数据集中确定第一数据集。
步骤1082,基于多个第二预测分类结果,根据第二筛选策略从生数据集中确定第二数据集。
步骤1083,基于第一数据集和第二数据集,确定目标生数据集。
本实施例中,利用两种策略分别获得第一数据集和第二数据集,其中,第一筛选策略保证了第一数据集中的生数据具有针对性;第二筛选策略保证了第二数据集中的生数据具有多样性,因此,获得的目标生数据集中同时保证了针对性和多样性。
可选地,在上实施例的基础上,步骤1081可以包括:
确定第二预测分类结果属于目标类别集的至少一个生数据,得到初筛数据集;
基于初筛数据集中每个生数据对应的熵值,从初筛数据集中确定熵值大于设定熵值的至少一个生数据,得到二次筛选数据集;
基于二次筛选数据集中每个生数据对应的第二预测分类结果对应的概率值,从二次筛选数据集中确定概率值小于预设概率值的至少一个第二预测分类结果;
基于概率值小于预设概率值的至少一个第二预测分类结果对应的生数据构成第一数据集。
本实施例中,第一筛选策略包括以下三个条件:1)第二预测分类结果属于目标类别集;2)熵值大于设定熵值;3)第二预测分类结果对应的概率值小于预设概率值;本实施例中生数据必须满足第一筛选策略中的所有条件,才可以确定为第一数据集中的生数据,实现获得具有针对性的生数据。
可选地,在上实施例的基础上,步骤1082可以包括:
基于每个第二预测分类结果对应的支持度,从多个第二预测分类结果中确定支持度大于设定支持度的至少一个第二预测分类结果;
基于支持度大于设定支持度的至少一个第二预测分类结果对应的生数据构成第二数据集。
本实施例中,为了提高多样性,基于第二筛选策略从第二分类结果中确定支持度大于设定支持度(例如:1等)的类别,将这些第二分类结果对应的生数据确定为第二数据集中的生数据。
可选地,在上实施例的基础上,步骤1083可以包括:
对第一数据集和第二数据集执行分层抽样,得到包括多个生数据的抽样数据集;
将抽样数据集中包括的多个生数据按照熵值从大到小进行排序,获得排序在前的设定数量的生数据构成目标生数据集。
其中,分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层,本实施例中是将第一数据集和第二数据集分别作为不同的子总体)的总体中,按规定的比例(例如,0.9:0.1等)从不同层中随机抽取样品(生数据)的方法。本实施例通过分层抽样使获得的抽样数据集中生数据的代表性比较好,抽样误差也比较小;并且,通过熵值排序获得熵值较大的生数据构成生数据集,进一步减小了数据的标注代价,为目标分类网络带来最大的增益。
在实际应用中,在获得目标生数据集之后,还可以通过对目标生数据集中的生数据进行标注,将这些生数据从原始生数据集中删除,而加入到训练数据集中,此时,标注结果即为该更新的训练数据的验证数据;进而实现训练数据集和生数据集的更新,在更新之后,还可以继续执行上述数据筛选方法,迭代执行对训练数据集和生数据集的更新。
本公开实施例提供的任一种数据筛选方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种数据筛选方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种数据筛选方法。下文不再赘述。
示例性装置
图5是本公开一示例性实施例提供的数据筛选装置的结构示意图。本实施例提供的装置包括:
第一预测模块51,用于基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果。
其中,第一预测分类结果对应多个类别。
增益确定模块52,用于基于多个第一预测分类结果和训练数据集对应的验证数据集确定多个类别中每个类别对应的增益值。
第二预测模块53,用于基于目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果。
数据筛选模块54,用于基于多个第二预测分类结果和每个类别对应的增益值,从生数据集中确定目标生数据集。
本公开上述实施例提供的一种数据筛选装置,基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集;本实施例通过结合类别增益获得目标生数据集,克服了定向选择某一类别的数据导致的数据失衡的问题,提高了获得的生数据的多样性和针对性。
在一些可选的实施例中,增益确定模块52,具体用于基于多个第一预测分类结果和训练数据集对应的验证数据集获得增益相关信息;其中,验证数据集中包括多个验证分类结果,每个验证分类结果对应一个第一预测分类结果;基于增益相关信息确定所述多个类别中每个类别对应的增益值。
可选地,增益相关信息包括:每个类别的精确率、每个类别的召回率和每个类别的支持度。
可选地,增益确定模块52在基于所述增益相关信息确定多个类别中每个类别对应的增益值时,用于基于每个类别的精确率和每个类别的召回率,确定每个类别的F1值;基于每个类别的F1值和每个类别的支持度,确定多个类别中每个类别对应的增益值。
在一些可选的实施例中,第二预测模块53,具体用于针对多个生数据中的每个生数据,基于目标分类网络对生数据进行类别预测,得到生数据对应多个类别中每个类别的概率值;基于每个类别对应的概率值,基于概率值最大的类别确定生数据对应的第二预测分类结果。
可选地,本实施例提供的装置还包括:
熵值确定模块,用于基于每个生数据对应的每个类别的概率值,确定每个生数据对应的熵值。
可选地,装置还包括:
类别集确定模块,用于基于每个类别对应的增益值对多个类别进行排序,确定增益值最大的k个类别构成目标类别集;其中,k为大于1的整数。
在一些可选的实施例中,数据筛选模块54,包括:
第一筛选单元,用于基于多个第二预测分类结果和每个类别对应的增益,根据第一筛选策略从生数据集中确定第一数据集;
第二筛选单元,用于基于多个第二预测分类结果,根据第二筛选策略从生数据集中确定第二数据集;
数据确定单元,用于基于第一数据集和第二数据集,确定目标生数据集。
可选地,第一筛选单元,具体用于确定第二预测分类结果属于目标类别集的至少一个所述生数据,得到初筛数据集;基于初筛数据集中每个生数据对应的熵值,从初筛数据集中确定熵值大于设定熵值的至少一个生数据,得到二次筛选数据集;基于二次筛选数据集中每个生数据对应的第二预测分类结果对应的概率值,从二次筛选数据集中确定概率值小于预设概率值的至少一个第二预测分类结果;基于概率值小于预设概率值的至少一个第二预测分类结果对应的生数据构成第一数据集。
可选地,第二筛选单元,具体用于基于每个第二预测分类结果对应的支持度,从多个第二预测分类结果中确定支持度大于设定支持度的至少一个第二预测分类结果;基于支持度大于设定支持度的至少一个第二预测分类结果对应的生数据构成第二数据集。
可选地,数据确定单元,具体用于对第一数据集和第二数据集执行分层抽样,得到包括多个生数据的抽样数据集;将抽样数据集中包括的多个生数据按照熵值从大到小进行排序,获得排序在前的设定数量的生数据构成目标生数据集。
示例性电子设备
下面,参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图6图示了根据本公开实施例的电子设备的框图。
如图6所示,电子设备60包括一个或多个处理器61和存储器62。
处理器61可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备60中的其他组件以执行期望的功能。
存储器62可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器61可以运行所述程序指令,以实现上文所述的本公开的各个实施例的数据筛选方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备60还可以包括:输入装置63和输出装置64,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置63可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置63可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入装置63还可以包括例如键盘、鼠标等等。
该输出装置64可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备60中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备60还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据筛选方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据筛选方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (11)

1.一种数据筛选方法,其特征在于,包括:
基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;
基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;
基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;
基于所述多个第二预测分类结果和所述每个类别对应的增益值,从所述生数据集中确定目标生数据集。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值,包括:
基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集获得增益相关信息;其中,所述验证数据集中包括多个验证分类结果,每个所述验证分类结果对应一个第一预测分类结果;所述增益相关信息包括:每个类别的精确率、每个类别的召回率和每个类别的支持度;
基于所述每个类别的精确率和所述每个类别的召回率,确定每个类别的F1值;
基于所述每个类别的F1值和所述每个类别的支持度,确定所述多个类别中每个类别对应的增益值。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果,包括:
针对所述多个生数据中的每个生数据,基于所述目标分类网络对所述生数据进行类别预测,得到所述生数据对应所述多个类别中每个类别的概率值;
基于所述每个类别对应的概率值,基于所述概率值最大的类别确定所述生数据对应的所述第二预测分类结果。
4.根据权利要求3所述的方法,其特征在于,在基于所述每个类别对应的概率值,基于所述概率值最大的类别确定所述生数据对应的所述第二预测分类结果之后,还包括:
基于每个所述生数据对应的所述每个类别的概率值,确定每个所述生数据对应的熵值;
在基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值之后,还包括:
基于所述每个类别对应的增益值对所述多个类别进行排序,确定所述增益值最大的k个类别构成目标类别集;其中,所述k为大于1的整数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集,包括:
基于所述多个第二预测分类结果和所述每个类别对应的增益,根据第一筛选策略从所述生数据集中确定第一数据集;
基于所述多个第二预测分类结果,根据第二筛选策略从所述生数据集中确定第二数据集;
基于所述第一数据集和所述第二数据集,确定所述目标生数据集。
6.根据权利要求5所述的方法,其特征在于,所述基于所述多个第二预测分类结果和所述每个类别对应的增益,根据第一筛选策略从所述生数据集中确定第一数据集,包括:
确定所述第二预测分类结果属于所述目标类别集的至少一个所述生数据,得到初筛数据集;
基于所述初筛数据集中每个所述生数据对应的熵值,从所述初筛数据集中确定所述熵值大于设定熵值的至少一个生数据,得到二次筛选数据集;
基于所述二次筛选数据集中每个生数据对应的所述第二预测分类结果对应的概率值,从所述二次筛选数据集中确定所述概率值小于预设概率值的至少一个第二预测分类结果;
基于所述概率值小于预设概率值的至少一个第二预测分类结果对应的生数据构成所述第一数据集。
7.根据权利要求5所述的方法,其特征在于,所述基于所述多个第二预测分类结果,根据第二筛选策略从所述生数据集中确定第二数据集,包括:
基于每个所述第二预测分类结果对应的支持度,从所述多个第二预测分类结果中确定所述支持度大于设定支持度的至少一个第二预测分类结果;
基于所述支持度大于设定支持度的至少一个第二预测分类结果对应的生数据构成所述第二数据集。
8.根据权利要求5所述的方法,其特征在于,所述基于所述第一数据集和所述第二数据集,确定所述目标生数据集,包括:
对所述第一数据集和所述第二数据集执行分层抽样,得到包括多个生数据的抽样数据集;
将所述抽样数据集中包括的多个生数据按照熵值从大到小进行排序,获得排序在前的设定数量的生数据构成所述目标生数据集。
9.一种数据筛选装置,其特征在于,包括:
第一预测模块,用于基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;
增益确定模块,用于基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;
第二预测模块,用于基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;
数据筛选模块,用于基于所述多个第二预测分类结果和所述每个类别对应的增益值,从所述生数据集中确定目标生数据集。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9任一所述的数据筛选方法。
11.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-9任一所述的数据筛选方法。
CN202110364631.1A 2021-04-06 2021-04-06 数据筛选方法和装置、计算机可读存储介质、电子设备 Pending CN112801226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364631.1A CN112801226A (zh) 2021-04-06 2021-04-06 数据筛选方法和装置、计算机可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364631.1A CN112801226A (zh) 2021-04-06 2021-04-06 数据筛选方法和装置、计算机可读存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN112801226A true CN112801226A (zh) 2021-05-14

Family

ID=75816326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364631.1A Pending CN112801226A (zh) 2021-04-06 2021-04-06 数据筛选方法和装置、计算机可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN112801226A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490786A (zh) * 2021-12-28 2022-05-13 马上消费金融股份有限公司 数据排序方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490786A (zh) * 2021-12-28 2022-05-13 马上消费金融股份有限公司 数据排序方法及装置
CN114490786B (zh) * 2021-12-28 2023-01-31 马上消费金融股份有限公司 数据排序方法及装置

Similar Documents

Publication Publication Date Title
US11487941B2 (en) Techniques for determining categorized text
CN109241418B (zh) 基于随机森林的异常用户识别方法及装置、设备、介质
US11080340B2 (en) Systems and methods for classifying electronic information using advanced active learning techniques
JP6445055B2 (ja) 機械学習のための特徴処理レシピ
US20180121831A1 (en) Systems and methods for predictive coding
US11693917B2 (en) Computational model optimizations
US11468241B2 (en) Techniques to add smart device information to machine learning for increased context
US8775338B2 (en) Computer-implemented systems and methods for constructing a reduced input space utilizing the rejected variable space
CN110708285B (zh) 流量监控方法、装置、介质及电子设备
CN113435409A (zh) 图像识别模型的训练方法、装置、存储介质及电子设备
CN112070545B (zh) 用于优化信息触达的方法、装置、介质和电子设备
CN112612887A (zh) 日志处理方法、装置、设备和存储介质
WO2023055426A1 (en) Techniques for input classification and responses using generative neural networks
WO2021001517A1 (en) Question answering systems
CN111949785A (zh) 查询语句管理方法和装置、可读存储介质、电子设备
CN115809887A (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
CN115238815A (zh) 异常交易数据获取方法、装置、设备、介质和程序产品
CN112801226A (zh) 数据筛选方法和装置、计算机可读存储介质、电子设备
US8918406B2 (en) Intelligent analysis queue construction
CN112116159A (zh) 信息交互方法、装置、计算机可读存储介质及电子设备
CN112116393B (zh) 用于实现事件用户维护的方法、装置和设备
CN113901328A (zh) 信息推荐方法和装置、电子设备和存储介质
US11269625B1 (en) Method and system to identify and prioritize re-factoring to improve micro-service identification
CN117035327A (zh) 工单处理方法和装置、存储介质及电子装置
CN114547455A (zh) 热门对象确定方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514

RJ01 Rejection of invention patent application after publication