CN111667028A - 一种可靠负样本确定方法和相关装置 - Google Patents

一种可靠负样本确定方法和相关装置 Download PDF

Info

Publication number
CN111667028A
CN111667028A CN202010657192.9A CN202010657192A CN111667028A CN 111667028 A CN111667028 A CN 111667028A CN 202010657192 A CN202010657192 A CN 202010657192A CN 111667028 A CN111667028 A CN 111667028A
Authority
CN
China
Prior art keywords
samples
unlabeled
sample
positive
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010657192.9A
Other languages
English (en)
Other versions
CN111667028B (zh
Inventor
叶佳木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010657192.9A priority Critical patent/CN111667028B/zh
Publication of CN111667028A publication Critical patent/CN111667028A/zh
Application granted granted Critical
Publication of CN111667028B publication Critical patent/CN111667028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种可靠负样本确定方法和相关装置。为了能够节省确定可靠负样本的耗时,以n个维度的特征分别描述本次建模所需的p个正样本和u个无标签样本,并以及正样本和无标签样本在相同特征维度上所体现出的共性和区别,从无标签样本中筛选出可靠负样本。其中,根据上述样本所包括的特征,确定u个无标签样本所包括特征分别对应的正样本概率和负样本概率,然后确定出u个无标签样本分别属于负样本的标签样本概率,从而通过标签样本概率筛选出可靠负样本。上述方案不仅不需要实施模型训练,而且可以直接离线完成,从而大大缩短了确定可靠负样本的时间,可以较好的适应时效性较高的应用场景,大幅提高了针对应用场景的模型训练效率。

Description

一种可靠负样本确定方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种可靠负样本确定方法和相关装置。
背景技术
可靠负(reliabal negative,RN)样本是指无标签样本中大概率是负样本的样本,RN样本常用于半监督学习中,例如正样本无标签学习(positive unlabel learning,PUlearning)。
基于RN样本的半监督学习的应用场景广泛,例如相似人群扩展(lookalike)等,针对不同的应用场景,可以通过半监督学习得到的网络模型实现对应的功能。
在模型训练过程中,需要从海量无标签样本中确定出相对于正样本集合(P集合)的RN集合,相关技术一般是采用多轮训练的方式找出RN样本构成的RN集合,会非常可观的延长模型训练时长,针对一些时效性较高的应用场景,这样的模型训练耗时是难以忍受的。
发明内容
为了解决上述技术问题,本申请提供了一种可靠负样本确定方法和相关装置,缩短了确定可靠负样本的时间,可以较好的适应时效性较高的应用场景,大幅提高了针对应用场景的模型训练效率。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种可靠负样本确定方法,样本通过n个维度的特征进行描述,所述样本包括构成正样本集合的p个正样本和构成无标签样本集合的u个无标签样本,所述方法由数据处理设备执行,所述方法包括:
根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率;
根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率;
将所述标签样本概率高于阈值的无标签样本确定为可靠负样本。
另一方面,本申请实施例提供了一种可靠负样本确定装置,样本通过n个维度的特征进行描述,所述样本包括构成正样本集合的p个正样本和构成无标签样本集合的u个无标签样本,所述装置包括第一确定单元、第二确定单元和第三确定单元:
所述第一确定单元,用于根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率;
所述第二确定单元,用于根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率;
所述第三确定单元,用于将所述标签样本概率高于阈值的无标签样本确定为可靠负样本。
另一方面,本申请实施例还提供了一种可靠负样本确定设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
由上述技术方案可以看出,为了能够节省确定可靠负样本的耗时,以n个维度的特征分别描述本次建模所需的p个正样本和u个无标签样本,并以正样本和无标签样本在相同特征维度上所体现出的共性和区别,从无标签样本中筛选出可靠负样本。其中,根据上述样本所包括的特征,确定u个无标签样本所包括特征分别对应的正样本概率和负样本概率,然后可以根据确定出的正样本概率和负样本概率,确定出u个无标签样本分别属于负样本的标签样本概率,从而通过标签样本概率的大小从u个无标签样本中筛选出可靠负样本。上述方案不仅不需要实施模型训练,而且可以直接离线完成,从而大大缩短了确定可靠负样本的时间,可以较好的适应时效性较高的应用场景,大幅提高了针对应用场景的模型训练效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可靠负样本确定场景的示意图;
图2为本申请实施例提供的一种可靠负样本确定方法的方法流程图;
图3为本申请实施例提供的一种可靠负样本确定装置的装置结构图;
图4为本申请实施例提供的服务器的结构示意图;
图5为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
可靠负样本是在半监督学习中完成模型训练的重要训练依据,然而相关技术中多采用额外的模型训练过程后才能从无标签样本中确定出可靠负样本,这种方式耗时可观,导致完成模型训练的时间较长。针对一些时效性较高的应用场景,这种模型训练时间很难胜任。
为此,本申请实施例提供了一种可靠负样本确定方法,以缩短确定可靠负样本的耗时。本申请实施例提供的可靠负样本确定方法可以涉及人工智能,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。
在本申请实施例中,主要涉及的人工智能软件技术包括上述自然语言处理技术和深度学习等方向。
下面,对本申请实施例的执行主体进行介绍。本申请提供的可靠负样本确定方法可以通过处理设备执行。该处理设备可以是终端设备,该终端设备例如可以是智能手机、计算机、个人数字助理(Personal Digital Assistant,PDA)、平板电脑、销售终端(Point ofSales,POS)、车载电脑等设备。该数据处理设备还可以是服务器,其中,服务器可以是独立的服务器、集群中的服务器或云服务器等。
在本申请实施例中,数据处理设备可以具有实施自然语言处理的能力,其是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解等技术。
例如可以涉及自然语言处理(Nature Language processing,NLP)中的文本预处理(Text preprocessing)和语义理解(Semantic understanding)等,其中包括词、句切分(word/sentence segementation)、词性标注(word tagging)、语句分类(word/sentenceclassification)等。
在本申请实施例中,数据处理设备通过实施上述NLP技术,可以实现对正样本、无标签样本中所包括特征的预处理,如语义理解、语义转化等。
该处理设备可以具备机器学习(Machine Learning,ML)能力。ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
例如可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(artificial neural network)。
在本申请实施例中,可靠负样本确定方法主要涉及对各类人工神经网络的应用等,例如在PU Learning中,将确定出的可靠负样本应用到网络模型的训练等。
如图1所示出的场景中,处理设备为服务器100,获取了p个正样本100和u个无标签样本102,需要强调,这里的无标签样本并不是说样本完全没有标签,而是相对于正样本而言,无标签样本不具有与正样本相关的标签,例如,正样本的标签用于标识正样本为具有特定特征的用户信息,无标签样本并不具有标识是否为具有特定特征的用户信息的标签。
在PU Learning的应用场景中,正样本集合可以为业务方提供种子包用户,其目的是根据种子包在应用场景涉及的数据大盘中找到相似用户。
在图1示出的场景中,通过n=7个维度的特征对样本进行描述,这些特征可以从不同的维度描述样本本身具有的特点。如果一个无标签样本所包括特征与一个正样本所包括特征越相似,那么这个无标签样本属于正样本的可能性就越高,如果一个无标签样本所包括特征与一个正样本所包括特征越不相似,那么这个无标签样本属于负样本的可能性就越高。由此,服务器100可以基于正样本和无标签样本在相同特征维度上所体现出的共性和区别,从无标签样本中筛选出可靠负样本。
具体的,服务器100根据p个正样本100和u个无标签样本102所包括的特征,确定u个无标签样本所包括特征分别对应的正样本概率和负样本概率,即无标签样本中每一个维度的特征都会具有正样本概率和负样本概率,正样本概率用于标识该无标签样本具有该特征时被判断为正样本的概率,负样本概率用于标识该无标签样本具有该特征时被判断为负样本的概率。
基于确定出特征分别对应的正样本概率和负样本概率,服务器100可以确定u个无标签样本102分别属于负样本的标签样本概率。并基于标签样本概率的高低,从中筛选出较高的无标签样本作为可靠负样本。
上述方案不仅不需要实施模型训练,而且可以直接离线完成,绕过模型训练的方法,直接计算出U集中样本为负样本的概率,从而大幅度提速计算过程。而且可以把计算效率最慢的一部分抽取出来离线计算。由此大大缩短了确定可靠负样本的时间,可以较好的适应时效性较高的应用场景,大幅提高了针对应用场景的模型训练效率。
图2为本申请实施例提供的一种可靠负样本确定方法的方法流程图。在图2示出的场景中,样本通过n个维度的特征进行描述,所述样本包括构成正样本集合的p个正样本和构成无标签样本集合的u个无标签样本。
S201:根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率。
在本申请,发现若描述样本的特征均为空时,一个无标签样本作为正、负样本的概率分别是:
Figure BDA0002577183150000061
其中P(+)为正样本集合P+无标签样本集合U中样本属于正样本的概率,即
Figure BDA0002577183150000062
|·|运算表示该集合中样本的数量。同理P(-)为正样本集合P+无标签样本集合U中样本属于负样本的概率,即
Figure BDA0002577183150000063
当向样本中增加有效的特征时,若已经有n-1个特征,增加第n个特征,样本成为正、负样本的概率会变成:
Figure BDA0002577183150000064
其中,
Figure BDA0002577183150000065
分别是增加了第i个特征后,该样本会往正、负样本倾斜的比重,相当于本步骤中确定出的正样本概率和负样本概率。xi为n个维度的特征中第i个特征。
S202:根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率。
在确定了每个特征分别对应的正样本概率和负样本概率后,可以基于u个无标签样本中所包括的特征,确定u个无标签样本分别属于负样本的标签样本概率。可选的,一个无标签样本属于负样本的标签样本概率的具体确定方式可以为公式1:
Figure BDA0002577183150000071
S203:将所述标签样本概率高于阈值的无标签样本确定为可靠负样本。
当确定出的标签样本概率越高,对应的无标签样本属于可靠负样本的可能性就越大,在本申请中,通过阈值来作为衡量确定可靠负样本的依据。
通过对u个无标签样本构成的无标签样本集合进行遍历,可以从中确定出构成RN集合的可靠负样本。上述方案不仅不需要实施模型训练,而且可以直接离线完成,从而大大缩短了确定可靠负样本的时间。
针对适应时效性较高的应用场景,可以根据该应用场景对应的正样本集合,从无标签样本集合中快速的确定出可靠负样本集合,从而可以大大加快针对该应用场景的网络模型的训练效率,尽快得到可用的网络模型为该应用场景进行相关服务。
接下来说明特征的正样本概率和负样本概率的可选确定方式,无标签样本具有一个特征和不具有这个特征时,实际上都会对该无标签样本最终判断是否为可靠负样本带来影响。故在该方式中,不仅会确定一个无标签样本具有一个特征时对应的正、负样本概率,还会确定这个无标签样本不具有这个特征时对应的正、负样本概率。
为了便于说明,以n个维度的特征中的第i个特征为例进行举例,该n个维度的特征中任意一个特征都可以参考第i个特征的后续处理方式来确定正、负样本概率。
针对所述第i个特征,S201的一个可选方式为:
S2011:根据所述第i个特征从所述p个正样本中确定第一数量,从所述u个无标签样本中确定第二数量。
其中,所述第一数量为所述p个正样本中包括所述第i个特征的正样本数量,所述第二数量为所述u个无标签样本中包括所述第i个特征的无标签样本数量。
S2012:根据所述第一数量和所述第二数量确定所述无标签样本具有所述第i个特征时分别对应的第一正样本概率和第一负样本概率,以及所述无标签样本不具有所述第i个特征时分别对应的第二正样本概率和第二负样本概率。
第一正样本概率和第一负样本概率可以通过下式进行表达:
Figure BDA0002577183150000081
其中,
Figure BDA0002577183150000082
为第一正样本概率,
Figure BDA0002577183150000083
为第一负样本概率,
Figure BDA0002577183150000084
为具有第i个特征的正样本的个数(即第一数量),
Figure BDA0002577183150000085
为具有第i个特征的无标签样本的个数(即第二数量)。
第二正样本概率和第二负样本概率可以通过下式进行表达:
Figure BDA0002577183150000086
其中,
Figure BDA0002577183150000087
为第二正样本概率,
Figure BDA0002577183150000088
为第二负样本概率。
在通过S202计算u个无标签样本的标签样本概率时,针对一个无标签样本,其对应的第i个特征所对应的正样本概率
Figure BDA0002577183150000089
和负样本概率
Figure BDA00025771831500000810
可以根据这个无标签样本是否具有第i个特征,让
Figure BDA00025771831500000811
取值为
Figure BDA00025771831500000812
Figure BDA00025771831500000813
以及让
Figure BDA00025771831500000814
取值为
Figure BDA00025771831500000815
Figure BDA00025771831500000816
为了更好的提高基于特征确定可靠负样本的精度,还可以进一步在计算过程中考虑特征在不同样本中的实际数值,基于实际数值处于该特征的特征值可变范围所确定的多个分区中位置,进行更为精细化的处理。
在本实施例中,继续以第i个特征为例进行说明,根据第i个特征的特征值可变范围,可以确定多个分区。
若此时处理的无标签样本的第i个特征的特征值处于该多个分区中的第t分区,根据所述第i个特征确定的所述第一数量为所述p个正样本中包括所述第i个特征处于所述第t分区的正样本数量。
根据所述第i个特征确定的所述第二数量为所述u个无标签样本中包括所述第i个特征处于所述第t分区的无标签样本数量。
在本实施例中,为了便于分区,可以将第i个特征对应的信息通过量化得到对应的数字,例如第i个特征对应的是职业,可以将不同的职业量化为对应的数字进行分区。
本申请实施例中并不对分区的方式进行限定,例如可以基于特征值可变范围均分为多个分区,若特征值可变范围为0-100,可以以10为单位均为10个分区。除了这类均分方式进行分区,还可以根据需要,把特征的值任意分桶。甚至可以把特征值通过函数转化后在分桶。只要是把特征值一对一地落到T个桶中的一个就可以了。这种分桶的方式可以适应于特征值分布不均匀的应用场景,从而使得一个特征落入每个分桶中数量较为平衡。
相应的,在此基础上确定第i个特征的正、负样本概率时,根据第i个特征的特征值所落入的分区t,让
Figure BDA0002577183150000091
取值为
Figure BDA0002577183150000092
以及让
Figure BDA0002577183150000093
取值为
Figure BDA0002577183150000094
其中t的取值范围为分区的个数。
由此,同一个特征可以具有对应的多个正样本概率和多个负样本概率,分别对应于不同的分区。从而提高了特征对样本被判断为正、负样本所带来影响的精度。
如前所述,虽然一个无标签样本所具有的特征并不是全部n个维度的特征,但是是否具有第i个特征都会对这个无标签样本确定为可靠负样本带来影响。故在确定出各个特征分别对应的第一正样本概率、第二正样本概率、第一负样本概率和第二负样本概率后,可以在确定一个无标签样本的标签样本概率时加以应用。
例如目标样本为所述u个无标签样本中的一个无标签样本,针对所述目标样本,S202的一种可能的实现方式为:
S2021:根据所述目标样本确定第一特征集合和第二特征集合。
其中,所述第一特征集合包括所述n个维度的特征中所述目标样本所具有的特征,所述第二特征集合包括所述n个维度的特征中所述目标样本不具有的特征。
S2022:根据所述第一特征集合中特征所对应的第一正样本概率和第一负样本概率,以及所述第二特征集合中特征所对应的第二正样本概率和第二负样本概率确定所述目标样本属于负样本的标签样本概率。
以公式1为例进行说明,在计算
Figure BDA0002577183150000101
时,若目标样本具有第i个特征,
Figure BDA0002577183150000102
取值为第一正样本概率,若目标样本不具有第i个特征,
Figure BDA0002577183150000103
取值为第二正样本概率。在计算
Figure BDA0002577183150000104
时,若目标样本具有第i个特征,
Figure BDA0002577183150000105
取值为第一负样本概率,若目标样本不具有第i个特征,
Figure BDA0002577183150000106
取值为第二负样本概率。
为了进一步提高本申请实施例所提供方案的准确性,所依据的特征之间应保持独立,即当前特征是否出现,特征值是多少,和其他特征是否出现,取值是多少并没有关系。若在特征划分时,能够足够考虑这些问题,确定出的n个维度的特征可以均为独立特征,但是在一些情况下,特征的划分结果可能并不理想,需要在计算正、负样本概率前从n个维度的特征中确定出独立特征。确定独立特征的过程可以离线完成,计算效率更高。
确定独立特征的方式可以参考如下流程:
S301:确定所述n个维度的特征之间的独立特征参数。
S302:根据所述独立特征参数,从所述n个维度的特征中确定m个维度的特征作为独立特征。
该独立特征参数可以通过各种方式确定,例如互信息、卡方分布,信息增益,皮尔逊系数,相关系数,甚至通过模型学的特征之间的相关性等。该独立特征参数用于体现两个特征之间是否相互独立的程度。
若确定独立特征参数的方式是互信息计算,S301的一个可选的实现方式为:
S3011:确定所述n个维度的特征中两两特征间的互信息。
两两特征间的互信息可以通过下式进行表达:
Figure BDA0002577183150000107
其中,X、Y表示要计算的两个特征,x,y分别是特征的特征值,可以令特征值的取值范围在0到10之间。p(x)表示正样本集合+无标签样本集合的样本里X的值为x的概率,p(y)表示正样本集合+无标签样本集合的样本里Y的值为y的概率,p(x,y)表示正样本集合+无标签样本集合的样本里X、Y的值分别是x,y的概率。
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。但是,仅从互信息并不能直观的体现出两特征间是否相互独立,还需要引入特征对应的熵。
S3012:根据所述互信息以及对应特征的熵,确定作为独立特征参数的互信息比。
每个特征的熵可以通过下式确定得到:
H(X)=-∑p(x)logp(x)
两两特征之间的互信息比为:
Figure BDA0002577183150000111
通过遍历计算的方式,确定n个维度的特征中任意两两特征键的互信息比,具体可以如下流程:
a)假设所有特征有N个,编号为1-N,候选集合为F,其中包括所有n维特征。
b)对X,取值从1取到N-1
c)对Y,取值从i+1取到N
如果
Figure BDA0002577183150000112
集合F中删除Y,步骤回到b),并重新计算。
相应的,S201的一种可选的实现方式包括:
根据所述p个正样本和所述u个无标签样本所包括的独立特征,确定所述u个无标签样本所包括独立特征分别对应的正样本概率和负样本概率。
也就是说,在基于特征确定无标签样本中的可靠负样本的过程中,若从n个维度的特征中确定出独立特征,之后将根据独立特征来确定可靠负样本,而不再考虑非独立特征,从而降低了计算量,进一步的提高了计算效率。
假设从n个维度的特征中确定出的独立特征包括f个,根据独立特征分别对应的正样本概率和负样本概率,确定u个无标签样本的标签样本概率的方式可以从公式1调整为公式2:
Figure BDA0002577183150000121
通过上述方式,相比于相关技术中的需要额外训练的PU Learning算法,效果提升基本相似,但是耗时只有25%,大幅度提高效率。
针对上文描述的可靠负样本确定方法,本申请实施例还提供了一种可靠负样本确定装置。
参见图3,图3为本申请实施例提供的一种可靠负样本确定装置,样本通过n个维度的特征进行描述,所述样本包括构成正样本集合的p个正样本和构成无标签样本集合的u个无标签样本,所述装置包括第一确定单元301、第二确定单元302和第三确定单元303:
所述第一确定单元301,用于根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率;
所述第二确定单元302,用于根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率;
所述第三确定单元303,用于将所述标签样本概率高于阈值的无标签样本确定为可靠负样本。
可选的,第i个特征为n个维度的特征中的第i个,针对所述第i个特征,所述第一确定单元还用于:
根据所述第i个特征从所述p个正样本中确定第一数量,从所述u个无标签样本中确定第二数量;其中,所述第一数量为所述p个正样本中包括所述第i个特征的正样本数量,所述第二数量为所述u个无标签样本中包括所述第i个特征的无标签样本数量;
根据所述第一数量和所述第二数量确定所述无标签样本具有所述第i个特征时分别对应的第一正样本概率和第一负样本概率,以及所述无标签样本不具有所述第i个特征时分别对应的第二正样本概率和第二负样本概率。
可选的,若所述第i个特征的特征值处于第t分区,所述第t分区为根据所述第i个特征的特征值可变范围确定的多个分区中的一个分区;根据所述第i个特征确定的所述第一数量为所述p个正样本中包括所述第i个特征处于所述第t分区的正样本数量,根据所述第i个特征确定的所述第二数量为所述u个无标签样本中包括所述第i个特征处于所述第t分区的无标签样本数量。
可选的,目标样本为所述u个无标签样本中的一个无标签样本,针对所述目标样本,所述第二确定单元还用于:
根据所述目标样本确定第一特征集合和第二特征集合;其中,所述第一特征集合包括所述n个维度的特征中所述目标样本所具有的特征,所述第二特征集合包括所述n个维度的特征中所述目标样本不具有的特征;
根据所述第一特征集合中特征所对应的第一正样本概率和第一负样本概率,以及所述第二特征集合中特征所对应的第二正样本概率和第二负样本概率确定所述目标样本属于负样本的标签样本概率。
可选的,所述装置还包括第四确定单元:
所述第四确定单元,用于确定所述n个维度的特征之间的独立特征参数;
根据所述独立特征参数,从所述n个维度的特征中确定m个维度的特征作为独立特征;
所述第一确定单元还用于根据所述p个正样本和所述u个无标签样本所包括的独立特征,确定所述u个无标签样本所包括独立特征分别对应的正样本概率和负样本概率。
可选的,所述第四确定单元还用于:
确定所述n个维度的特征中两两特征间的互信息;
根据所述互信息以及对应特征的熵,确定作为独立特征参数的互信息比。
由此可见,为了能够节省确定可靠负样本的耗时,以n个维度的特征分别描述本次建模所需的p个正样本和u个无标签样本,并以正样本和无标签样本在相同特征维度上所体现出的共性和区别,从无标签样本中筛选出可靠负样本。其中,根据上述样本所包括的特征,确定u个无标签样本所包括特征分别对应的正样本概率和负样本概率,然后可以根据确定出的正样本概率和负样本概率,确定出u个无标签样本分别属于负样本的标签样本概率,从而通过标签样本概率的大小从u个无标签样本中筛选出可靠负样本。上述方案不仅不需要实施模型训练,而且可以直接离线完成,从而大大缩短了确定可靠负样本的时间,可以较好的适应时效性较高的应用场景,大幅提高了针对应用场景的模型训练效率。
本申请实施例还提供了一种用于可靠负样本确定的服务器和终端设备,该服务器和终端设备可以是前述的处理设备。下面将从硬件实体化的角度对本申请实施例提供的用于可靠负样本确定的服务器和终端设备进行介绍。
参见图4,图4是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图4所示的服务器结构。
其中,样本通过n个维度的特征进行描述,所述样本包括构成正样本集合的p个正样本和构成无标签样本集合的u个无标签样本,CPU 1422用于执行如下步骤:
根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率;
根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率;
将所述标签样本概率高于阈值的无标签样本确定为可靠负样本。
可选的,CPU 1422还可以执行本申请实施例中可靠负样本确定方法任一具体实现方式的方法步骤。
针对上文描述的可靠负样本确定方法,本申请实施例还提供了一种用于可靠负样本确定的终端设备,以使上述可靠负样本确定的方法在实际中实现以及应用。
参见图5,图5为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。
图5示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图5,该终端包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图,9中示出的平板电脑结构并不构成对平板电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对平板电脑的各个构成部件进行具体的介绍:
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1580是终端的控制中心,利用各种接口和线路连接整个平板电脑的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行平板电脑的各种功能和处理数据,从而对平板电脑进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
在本申请实施例中,该终端所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的车道限速确定方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的可靠负样本确定方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种可靠负样本确定方法,其特征在于,样本通过n个维度的特征进行描述,所述样本包括构成正样本集合的p个正样本和构成无标签样本集合的u个无标签样本,所述方法由数据处理设备执行,所述方法包括:
根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率;
根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率;
将所述标签样本概率高于阈值的无标签样本确定为可靠负样本。
2.根据权利要求1所述的方法,其特征在于,第i个特征为n个维度的特征中的第i个,针对所述第i个特征,所述根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,包括:
根据所述第i个特征从所述p个正样本中确定第一数量,从所述u个无标签样本中确定第二数量;其中,所述第一数量为所述p个正样本中包括所述第i个特征的正样本数量,所述第二数量为所述u个无标签样本中包括所述第i个特征的无标签样本数量;
根据所述第一数量和所述第二数量确定所述无标签样本具有所述第i个特征时分别对应的第一正样本概率和第一负样本概率,以及所述无标签样本不具有所述第i个特征时分别对应的第二正样本概率和第二负样本概率。
3.根据权利要求2所述的方法,其特征在于,若所述第i个特征的特征值处于第t分区,所述第t分区为根据所述第i个特征的特征值可变范围确定的多个分区中的一个分区;根据所述第i个特征确定的所述第一数量为所述p个正样本中包括所述第i个特征处于所述第t分区的正样本数量,根据所述第i个特征确定的所述第二数量为所述u个无标签样本中包括所述第i个特征处于所述第t分区的无标签样本数量。
4.根据权利要求2所述的方法,其特征在于,目标样本为所述u个无标签样本中的一个无标签样本,针对所述目标样本,所述根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率,包括:
根据所述目标样本确定第一特征集合和第二特征集合;其中,所述第一特征集合包括所述n个维度的特征中所述目标样本所具有的特征,所述第二特征集合包括所述n个维度的特征中所述目标样本不具有的特征;
根据所述第一特征集合中特征所对应的第一正样本概率和第一负样本概率,以及所述第二特征集合中特征所对应的第二正样本概率和第二负样本概率确定所述目标样本属于负样本的标签样本概率。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述n个维度的特征之间的独立特征参数;
根据所述独立特征参数,从所述n个维度的特征中确定m个维度的特征作为独立特征;
所述根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,包括:
根据所述p个正样本和所述u个无标签样本所包括的独立特征,确定所述u个无标签样本所包括独立特征分别对应的正样本概率和负样本概率。
6.根据权利要求5所述的方法,其特征在于,所述确定所述n个维度的特征之间的独立特征参数,包括:
确定所述n个维度的特征中两两特征间的互信息;
根据所述互信息以及对应特征的熵,确定作为独立特征参数的互信息比。
7.一种可靠负样本确定装置,其特征在于,样本通过n个维度的特征进行描述,所述样本包括构成正样本集合的p个正样本和构成无标签样本集合的u个无标签样本,所述装置包括第一确定单元、第二确定单元和第三确定单元:
所述第一确定单元,用于根据所述p个正样本和所述u个无标签样本所包括的特征,确定所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率;
所述第二确定单元,用于根据所述u个无标签样本所包括特征分别对应的正样本概率和负样本概率,确定所述u个无标签样本分别属于负样本的标签样本概率;
所述第三确定单元,用于将所述标签样本概率高于阈值的无标签样本确定为可靠负样本。
8.根据权利要求7所述的装置,其特征在于,第i个特征为n个维度的特征中的第i个,针对所述第i个特征,所述第一确定单元还用于:
根据所述第i个特征从所述p个正样本中确定第一数量,从所述u个无标签样本中确定第二数量;其中,所述第一数量为所述p个正样本中包括所述第i个特征的正样本数量,所述第二数量为所述u个无标签样本中包括所述第i个特征的无标签样本数量;
根据所述第一数量和所述第二数量确定所述无标签样本具有所述第i个特征时分别对应的第一正样本概率和第一负样本概率,以及所述无标签样本不具有所述第i个特征时分别对应的第二正样本概率和第二负样本概率。
9.一种可靠负样本确定设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-6任意一项所述的方法。
CN202010657192.9A 2020-07-09 2020-07-09 一种可靠负样本确定方法和相关装置 Active CN111667028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657192.9A CN111667028B (zh) 2020-07-09 2020-07-09 一种可靠负样本确定方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657192.9A CN111667028B (zh) 2020-07-09 2020-07-09 一种可靠负样本确定方法和相关装置

Publications (2)

Publication Number Publication Date
CN111667028A true CN111667028A (zh) 2020-09-15
CN111667028B CN111667028B (zh) 2024-03-12

Family

ID=72391674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657192.9A Active CN111667028B (zh) 2020-07-09 2020-07-09 一种可靠负样本确定方法和相关装置

Country Status (1)

Country Link
CN (1) CN111667028B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784883A (zh) * 2021-01-07 2021-05-11 厦门大学 一种基于样本选择扩充的冷水珊瑚分布预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
WO2018166457A1 (zh) * 2017-03-15 2018-09-20 阿里巴巴集团控股有限公司 神经网络模型训练、交易行为风险识别方法及装置
CN109902708A (zh) * 2018-12-29 2019-06-18 华为技术有限公司 一种推荐模型训练方法及相关装置
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN111310814A (zh) * 2020-02-07 2020-06-19 支付宝(杭州)信息技术有限公司 利用不平衡正负样本对业务预测模型训练的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
WO2018166457A1 (zh) * 2017-03-15 2018-09-20 阿里巴巴集团控股有限公司 神经网络模型训练、交易行为风险识别方法及装置
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN109902708A (zh) * 2018-12-29 2019-06-18 华为技术有限公司 一种推荐模型训练方法及相关装置
CN111310814A (zh) * 2020-02-07 2020-06-19 支付宝(杭州)信息技术有限公司 利用不平衡正负样本对业务预测模型训练的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
裔阳;周绍光;赵鹏飞;胡屹群;: "基于正样本和未标记样本的遥感图像分类方法", 计算机工程与应用, no. 04, 28 February 2017 (2017-02-28), pages 161 - 165 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784883A (zh) * 2021-01-07 2021-05-11 厦门大学 一种基于样本选择扩充的冷水珊瑚分布预测方法及系统

Also Published As

Publication number Publication date
CN111667028B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN111914569B (zh) 基于融合图谱的预测方法、装置、电子设备及存储介质
CN111382868B (zh) 神经网络结构搜索方法和神经网络结构搜索装置
Xie et al. A Survey on Machine Learning‐Based Mobile Big Data Analysis: Challenges and Applications
CN108108455B (zh) 目的地的推送方法、装置、存储介质及电子设备
CN108629358B (zh) 对象类别的预测方法及装置
WO2019062418A1 (zh) 应用清理方法、装置、存储介质及电子设备
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN107678531B (zh) 应用清理方法、装置、存储介质及电子设备
CN108197225B (zh) 图像的分类方法、装置、存储介质及电子设备
CN113837669B (zh) 一种标签体系的评价指标构建方法和相关装置
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
WO2019120007A1 (zh) 用户性别预测方法、装置及电子设备
CN112949662B (zh) 一种图像处理方法、装置、计算机设备以及存储介质
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN111353303A (zh) 词向量构建方法、装置、电子设备及存储介质
CN111882048A (zh) 一种神经网络结构搜索方法及相关设备
CN115879508A (zh) 一种数据处理方法及相关装置
Gao et al. A deep learning framework with spatial-temporal attention mechanism for cellular traffic prediction
CN112862021B (zh) 一种内容标注方法和相关装置
CN111667028A (zh) 一种可靠负样本确定方法和相关装置
CN114528994B (zh) 一种识别模型的确定方法和相关装置
CN114547308B (zh) 文本处理的方法、装置、电子设备及存储介质
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN115512693B (zh) 音频识别方法、声学模型训练方法、装置和存储介质
CN115221316A (zh) 知识库处理、模型训练方法、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant