CN111340086A - 无标签数据的处理方法、系统、介质及终端 - Google Patents

无标签数据的处理方法、系统、介质及终端 Download PDF

Info

Publication number
CN111340086A
CN111340086A CN202010107204.0A CN202010107204A CN111340086A CN 111340086 A CN111340086 A CN 111340086A CN 202010107204 A CN202010107204 A CN 202010107204A CN 111340086 A CN111340086 A CN 111340086A
Authority
CN
China
Prior art keywords
data
label
unlabeled
pseudo
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010107204.0A
Other languages
English (en)
Other versions
CN111340086B (zh
Inventor
蒋昌俊
闫春钢
丁志军
刘关俊
张亚英
耿俊美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010107204.0A priority Critical patent/CN111340086B/zh
Publication of CN111340086A publication Critical patent/CN111340086A/zh
Application granted granted Critical
Publication of CN111340086B publication Critical patent/CN111340086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种无标签数据的处理方法、系统、介质及终端;所述处理方法包括以下步骤:获取数据集;数据集中包括异常数据和无标签数据;计算无标签数据的离群分数;计算无标签数据的异常相似分数;基于离群分数和异常相似分数,对无标签数据进行分类;获取经分类后的无标签数据的可靠性权重;本发明综合离群性和异常相似性,对无标签数据进行分类,以获取分类后添加了伪标签的伪标签数据,并通过衡量伪标签数据的可靠性权重,实现了对无标签数据的有效处理,为无标签数据的正确识别提供了双重保障;利用原有正常数据、异常数据及添加了伪标签的伪标签数据训练无标签数据分类网络,有效提高了无标签数据分类网络的分类性能。

Description

无标签数据的处理方法、系统、介质及终端
技术领域
本发明属于数据分类技术领域,特别是涉及一种无标签数据的处理方法、系统、介质及终端。
背景技术
风险检测是常用的质量检测方法,该方法广泛应用于各行业的业务分析,用来检测业务中潜在的风险,以便提前发现和控制;对于一般企业或监管部门,风险检测的方式主要分为三种:其一是利用质检员逐一对被检测对象进行检查,发现被检测品的风险;其二是对被检测对象进行抽检,发现被检测品的风险;其三是通过对生产该产品的信息化数据及历史数据,预测每一个被检测对象风险的概率,然后对较高风险的被检测品进行实际的抽检。
上述描述的三种风险检测方式中,第一种是对全量数据进行检查,适用于检测项目不多,技术难度较小的产品,往往适用于检测本企业所生产的产品(具有产品单一,技术简单的特点);第二种检测方法使用场景与第一种场景类似,对产品种类多,技术复杂的产品不适用,该方式可以统计出合格(正常)被检测品的占比,但会放过一定比例的风险被检测品;第三种主要利用现有信息化系统,通过对历史数据建模(实际是构造一个分类器),根据被检测品的特征数据发现风险概率,只要历史数据有标签,可以适用多类产品,而且完全从数据上来发现规律,涉及较少的技术细节,应用范围广。
在政府监管部门中,涉及到的监管对象行业众多、产品丰富;如海关对进出口虚假贸易做检测,就会涉及参与贸易的所有行业及产品;因此,前面提到的前两种检测方式需要耗费大量的人力及时间而显得不太合适。第三种方式从数据来检测各被检测品的风险,需要历史标签数据,但由于各种原因,很多系统并未存入标签数据,因此该方法存在预测精度低的技术问题,并且,由于其严重依赖历史数据已经标注的标签,无法应用于无标签数据预测的环境,也无法用于对异常检测的业务场景。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种无标签数据的处理方法、系统、介质及终端,用于解决现有技术中从无标签数据中识别出异常数据困难、对无标签数据的处理效果不理想的问题。
为实现上述目的及其他相关目的,本发明提供一种无标签数据的处理方法,包括以下步骤:获取数据集;所述数据集中包括异常数据和无标签数据;计算所述无标签数据的离群分数;计算所述无标签数据的异常相似分数;基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类;获取经分类后的无标签数据的可靠性权重。
于本发明的一实施例中,计算所述无标签数据的离群分数包括:采用局部异常因子算法计算所述离群分数;计算公式为:
Figure BDA0002388763890000021
其中,O_Score(x)表示无标签数据x的离群分数;无标签数据x=Rd,Rd表示数据空间,d表示无标签数据的特征维度;LOF(x)表示无标签数据x通过局部异常因子算法计算得到的结果。
于本发明的一实施例中,计算所述无标签数据的异常相似分数包括以下步骤:对所述异常数据进行聚类,产生至少一异常簇,并获取所述异常簇的中心数据;计算所述无标签数据与所述中心数据的距离;基于所述距离,获取所述异常相似分数。
于本发明的一实施例中,计算所述无标签数据与所述中心数据的距离的计算公式为:
Figure BDA0002388763890000022
其中,ui表示第i个异常簇的中心数据;e_d(x,ui)表示无标签数据x与中心数据ui之间的距离;无标签数据x=Rd,Rd表示数据空间,d表示无标签数据的特征维度;j的值从1取到d;
基于所述距离,获取所述异常相似分数的计算公式为:
Figure BDA0002388763890000023
其中,S_Score(x)表示无标签数据x的异常相似分数;k表示异常簇的数量。
于本发明的一实施例中,基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类包括以下步骤:基于所述离群分数和所述异常相似分数,计算所述无标签数据的最终分数;获取分类阈值;基于所述最终分数和所述分类阈值,对所述无标签数据进行分类。
于本发明的一实施例中,获取经分类后的无标签数据的可靠性权重包括以下步骤:对经分类后的无标签数据进行聚类,以产生聚类结果;所述聚类结果包括至少一伪标签簇;计算所述伪标签簇的标签熵;基于所述标签熵,计算所述伪标签簇的可靠性权重,以获取经分类后的无标签数据的可靠性权重。
于本发明的一实施例中,计算所述伪标签簇的标签熵的计算公式为:
Figure BDA0002388763890000031
记聚类结果为U={U1,U2,……Ut};t表示伪标签簇的个数;Ui表示第i个伪标签簇,i的值从1取到t;n(Ui)表示第i个伪标签簇中伪标签数据的个数;ns(Ui)表示第i个伪标签簇中属于类别s的伪标签数据的个数,s∈{-1,+1};-1表示正常数据;+1表示异常数据;H(Ui)表示第i个伪标签簇的标签熵;
基于所述标签熵,计算所述伪标签簇的可靠性权重的计算公式为:
w(Ui)=1-H(Ui)
其中,w(Ui)表示第i个伪标签簇的可靠性权重;
所述伪标签簇中伪标签数据的可靠性权重与该伪标签簇的可靠性权重相等。
本发明提供一种无标签数据的处理系统,包括:第一获取模块、第一计算模块、第二计算模块、分类标签模块和第二获取模块;所述第一获取模块用于获取数据集;所述数据集中包括异常数据和无标签数据;所述第一计算模块用于计算所述无标签数据的离群分数;所述第二计算模块用于计算所述无标签数据的异常相似分数;所述分类标签模块用于基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类;所述第二获取模块用于获取经分类后的无标签数据的可靠性权重。
本发明提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的无标签数据的处理方法。
本发明提供一种终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的无标签数据的处理方法。
如上所述,本发明所述的无标签数据的处理方法、系统、介质及终端,具有以下有益效果:
(1)综合离群性和异常相似性,对无标签数据进行分类,以获取分类后添加了伪标签的伪标签数据,并通过衡量伪标签数据的可靠性权重,实现了对无标签数据的有效处理,为无标签数据的正确识别提供了双重保障;
(2)充分考虑了数据分布,挖掘的无标签数据具有一定的多样性,并利用原有正常数据、异常数据及添加了伪标签的伪标签数据训练无标签数据分类网络,有效提高了无标签数据分类网络的分类性能。
附图说明
图1显示为本发明的无标签数据的处理方法于一实施例中的流程图。
图2显示为本发明的计算无标签数据的异常相似分数于一实施例中的流程图。
图3显示为本发明的对无标签数据进行分类于一实施例中的流程图。
图4显示为本发明的获取经分类后的无标签数据的可靠性权重于一实施例中的流程图。
图5显示为本发明的无标签数据的处理系统于一实施例中的结构示意图。
图6显示为本发明的终端于一实施例中的结构示意图。
元件标号说明
51 第一获取模块
52 第一计算模块
53 第二计算模块
54 分类标签模块
55 第二获取模块
61 处理器
62 存储器
S1~S5 步骤
S31~S34 步骤
S41~S43 步骤
S51~S53 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的无标签数据的处理方法、系统、介质及终端,综合离群性和异常相似性,对无标签数据进行分类,以获取分类后添加了伪标签的伪标签数据,并通过衡量伪标签数据的可靠性权重,实现了对无标签数据的有效处理,为无标签数据的正确识别提供了双重保障;充分考虑了数据分布,挖掘的无标签数据具有一定的多样性,并利用原有正常数据、异常数据及添加了伪标签的伪标签数据训练无标签数据分类网络,有效提高了无标签数据分类网络的分类性能。
如图1所示,于一实施例中,本发明的无标签数据的处理方法,包括以下步骤:
步骤S1、获取数据集;所述数据集中包括异常数据和无标签数据。
具体地,获取包含有异常数据和无标签数据的数据集。
记D={(x1,y1),...,(xl,yl),xl+1,...,xm}表示数据集,其中xi∈X(i∈{1,2,...,l});m表示数据集D中数据的个数;前l个数据是异常数据,将其表示为Dl={(x1,y1),...,(xl,yl)};Y={y1,...,yl}∈{+1,-1};+1表示异常数据;-1表示正常数据;后m-1个数据是无标签数据,将其表示为Du={xl+1,...,xm}。
需要说明的是,无标签数据,即不确定是正常数据,还是异常数据的数据;“正常”、“异常”相当于对数据作了标签处理,从而明确一数据是正常数据,还是异常数据。
步骤S2、计算所述无标签数据的离群分数。
需要说明的是,该离群分数是用来衡量无标签数据偏离正常数据的程度。
于本发明的一实施例中,计算所述无标签数据的离群分数包括:采用局部异常因子算法计算所述离群分数;计算公式为:
Figure BDA0002388763890000051
其中,O_Score(x)表示无标签数据x的离群分数;无标签数据x=Rd,Rd表示数据空间,d表示无标签数据的特征维度;LOF(x)表示无标签数据x通过局部异常因子算法计算得到的结果。
需要说明的是,局部异常因子(Local Outlier Factor,LOF)算法是一种基于邻域密度的离群点检测算法,LOF通过计算一个数值score来反映一个样本的异常程度,这个数值的大致意思是:一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度;比值越大于1,则该点所在位置的密度越小于其周围样本所在位置的密度,这个点就越有可能是异常点;用LOF(x)表示无标签数据x经LOF算法计算得到的结果,LOF(x)越大于1,说明无标签数据x越有可能是异常数据。
需要说明的是,LOF算法是本技术领域现有的公知算法,本发明未对其进行技术改进,所以在此不再对其原理和工作流程进行进一步详细描述。
步骤S3、计算所述无标签数据的异常相似分数。
需要说明的是,该异常相似分数用来衡量无标签数据与异常数据的相似程度。
如图2所示,于一实施例中,计算所述无标签数据的异常相似分数包括以下步骤:
步骤S31、对所述异常数据进行聚类,产生至少一异常簇,并获取所述异常簇的中心数据。
具体地,通过k均值聚类算法(k-means clustering algorithm,k-means算法)对异常数据进行聚类,产生异常簇,并得到异常簇的中心数据。
需要说明的是,k-means算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;这个过程将不断重复直到满足某个终止条件;终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
需要说明的是,k-means算法是一种非监督聚类算法,能够将相似数据聚到一个簇中,相异数据聚到不同簇中;因为已知异常数据的类型并不完全相同,所以使用k-means算法将异常数据划分为多个簇。
需要说明的是,k-means算法是本技术领域现有的公知算法,是一种常用的聚类算法,运行该算法后,可以得到聚类后的异常簇,以及每个异常簇的中心数据;异常簇的数量至少为一,每个异常簇中至少包括一个异常数据。
步骤S32、计算所述无标签数据与所述中心数据的距离。
具体地,基于步骤S31获取的异常簇的中心数据,计算无标签数据与该中心数据之间的距离。
需要说明的是,如果无标签数据和异常簇的中心数据的距离越近,则该无标签数据越有可能是异常数据。
于本发明的一实施例中,计算所述无标签数据与所述中心数据的距离的计算公式为:
Figure BDA0002388763890000071
其中,ui表示第i个异常簇的中心数据;e_d(x,ui)表示无标签数据x与中心数据ui之间的距离;无标签数据x=Rd,Rd表示数据空间,d表示无标签数据的特征维度;j的值从1取到d。
步骤S33、基于所述距离,获取所述异常相似分数。
具体地,基于步骤S32计算所得的无标签数据与异常簇的中心数据间的距离,获取该无标签数据的异常相似分数。
于本发明的一实施例中,基于所述距离,获取所述异常相似分数的计算公式为:
Figure BDA0002388763890000072
其中,S_Score(x)表示无标签数据x的异常相似分数;k表示异常簇的数量。
具体地,通过分别计算无标签数据与每个异常簇的中心数据间的距离,并对无标签数据与某一异常簇的中心数据间距离最近的距离进行指数运算,将运算结果作为该无标签数据的异常相似分数,该异常簇的中心数据作为最近异常簇的中心数据,利用无标签数据与最近异常簇的中心数据间的距离来衡量无标签数据与异常数据的相似程度。
需要说明的是,因为
Figure BDA0002388763890000073
是递减函数(反函数),即距离e_d(x,ui)的值越小,
Figure BDA0002388763890000074
的值越大;距离e_d(x,ui)的值越大,
Figure BDA0002388763890000075
的值越小;所以取
Figure BDA0002388763890000076
的最大值,作为无标签数据x的异常相似分数,即对应了距离e_d(x,ui)的最小值,也就是无标签数据与某一异常簇的中心数据间距离最近。
需要说明的是,异常相似分数越小,表明无标签数据与异常数据越相似,该无标签数据越有可能是异常数据。
步骤S4、基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类。
具体地,基于步骤S2获取的无标签数据的离群分数和步骤S3获取的无标签数据的异常相似分数,对无标签数据进行分类。
如图3所示,于一实施例中,基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类包括以下步骤:
步骤S41、基于所述离群分数和所述异常相似分数,计算所述无标签数据的最终分数。
具体地,无标签数据的最终分数的计算公式为:
T_Score(x)=θO_Score(x)+(1-θ)S_Score(x)
其中,T_Score(x)表示无标签数据的最终分数;比率θ∈(0,1),θ是一预设定量。
步骤S42、获取分类阈值。
具体地,为了对无标签数据进行分类,选取异常数据的平均最终分数作为分类阈值进行分类;异常数据的平均最终分数记为:
Figure BDA0002388763890000081
其中,α表示分类阈值;l表示异常数据的数量,xi表示第i个异常数据,i的值从1取到l;T_Score(xi)表示第i个异常数据的最终分数。
需要说明的是,T_Score(xi)是依照上述获取无标签数据的最终分数的步骤得来的,具体的工作原理在此不再赘述。
步骤S43、基于所述最终分数和所述分类阈值,对所述无标签数据进行分类。
具体地,基于步骤S41获取的无标签数据的最终分数T_Score(x)和步骤S42获取的分类阈值α,对无标签数据进行分类。
令T_Score(x)>α的无标签数据为伪异常数据,即为这些数据添加伪标签+1;最终分数低于分类阈值的无标签数据为伪正常数据,即为这些数据添加伪标签-1;以实现对无标签数据的分类,获取对无标签数据添加了伪标签的伪标签数据。
步骤S5、获取经分类后的无标签数据的可靠性权重。
具体地,经步骤S4对无标签数据进行分类后,计算分类后无标签数据的可靠性权重,以衡量分类结果的可靠性。
如图4所示,于一实施例中,获取经分类后的无标签数据的可靠性权重包括以下步骤:
步骤S51、对经分类后的无标签数据进行聚类,以产生聚类结果。
具体地,通过k-means算法对经步骤S4对无标签数据分类后产生的伪标签数据进行聚类,获取聚类结果。
需要说明的是,所述聚类结果包括至少一伪标签簇;每一伪标签簇中包括至少一伪标签数据。
需要说明的是,每个伪标签簇中的标签分布不同;伪标签簇中标签分布情况情况有两种:一是聚到同一个伪标签簇中的伪标签数据有相同的伪标签(+1或-1),二是聚到同一个伪标签簇中的伪标签数据有不同的伪标签(+1和-1)。
步骤S52、计算所述伪标签簇的标签熵。
具体地,基于步骤S51获取的聚类后的伪标签簇,计算伪标签簇的标签熵。
需要说明的是,为了度量不同伪标签簇中伪标签数据的分布差异,引入指标熵,熵是用来衡量数据凌乱程度的准则;伪标签越统一的簇,熵越小,伪标签的可靠性也就越高;如果一个簇满足聚类假设,那么这个簇的标签熵为0;因此,一个簇符合聚类假设的程度能被标签熵刻画。
需要说明的是,满足聚类假设是指一个簇中所有的数据的标签均相同;具体地,于本发明中,聚到同一个伪标签簇中的所有的伪标签数据有相同的伪标签+1或-1的伪标签簇,其标签熵均为0。
需要说明的是,一伪标签簇的标签熵越接近0,表明该伪标签簇越符合聚类假设。
于本发明的一实施例中,计算所述伪标签簇的标签熵的计算公式为:
Figure BDA0002388763890000091
记聚类结果为U={U1,U2,……Ut};t表示伪标签簇的个数;Ui表示第i个伪标签簇,i的值从1取到t;n(Ui)表示第i个伪标签簇中伪标签数据的个数;ns(Ui)表示第i个伪标签簇中属于类别s的伪标签数据的个数,s∈{-1,+1};-1表示正常数据;+1表示异常数据;H(Ui)表示第i个伪标签簇的标签熵。
具体地,诸如,一伪标签簇中包括5个伪标签数据,其中有3个是添加了伪标签+1的伪标签数据,另外2个是添加了伪标签-1的伪标签数据,则按照上述标签熵的计算公式,可得该伪标签簇的标签熵为:
Figure BDA0002388763890000092
步骤S53、基于所述标签熵,计算所述伪标签簇的可靠性权重,以获取经分类后的无标签数据的可靠性权重。
具体地,基于步骤S52计算所得的伪标签簇的标签熵,计算该伪标签簇的可靠性权重,以基于该可靠性权重,获取该伪标签簇中经分类后的无标签数据(伪标签数据)的可靠性权重。
于本发明的一实施例中,基于所述标签熵,计算所述伪标签簇的可靠性权重的计算公式为:
w(Ui)=1-H(Ui)
其中,w(Ui)表示第i个伪标签簇的可靠性权重。
需要说明的是,所述伪标签簇中伪标签数据的可靠性权重与该伪标签簇的可靠性权重相等。
需要说明的是,如果一个伪标签簇满足聚类假设,即该伪标签簇中所有的伪标签数据的伪标签均相同(均为+1或-1),则该伪标签簇的可靠性权重为1。
需要说明的是,只有少部分符合聚类假设的无标签数据被赋予了更高的权重,其他噪声数据则被降权。
需要说明的是,将该无标签数据的处理方法应用在电子交易领域,在电子交易领域,由于缺少主动的外部反馈机制,所以其存在一定的欺诈交易漏报和误报风险,一般需要风控部门工作人员电话回访核查,但是由于电话无效、无人接听、客户不确定等原因,回访结果中存在一定比例的无标签数据,这些无标签数据如果全部被判为欺诈数据(相当于异常数据),则会引入其中的合法数据干扰模型性能;如果全部被判为合法数据(相当于正常数据),则会损失一些宝贵的欺诈数据信息;因此,对其中无标签数据的深入分析与研究有助于补充训练数据信息,从而提升欺诈检测性能。
尽管电子交易欺诈是出现已久的一种现象,并且各种欺诈检测方法被提出来,但是针对无标签数据的处理仍然少有研究人员关注;一方面,传统的基于规则的检测方法通过专家定义的欺诈和非欺诈规则来找出违规行为,这些方法需要专家根据经验及历史数据制定各种规则来检测欺诈,这限于专家的知识水平且需要投入大量人力;另一方面,虽然许多文献提出了多种方法来识别欺诈数据,但是电子交易数据是一种分布不均衡的数据集,其中包含大量合法数据以及少量欺诈数据,这种偏斜的类分布性使得从无标签数据中识别出欺诈数据变困难,对无标签数据的处理效果不够理想。
本发明提供的无标签数据的处理方法,可对电子交易中存在的无标签数据进行有效处理;一方面有效地对电子交易中的无标签数据进行分类,产生对无标签数据进行伪标签标记后的伪标签数据;另一方面,利用可靠性权重保证了伪标签数据的可靠性,伪标签数据中可靠性权重较高的数据所起的作用大于可靠性权重较低的数据。
进一步地,依照上述无标签数据的处理方法对无标签数据进行分类产生伪标签数据,并对伪标签数据赋予权重后,可通过自适应增强算法训练无标签数据分类网络,权重大的伪标签数据在该无标签数据分类网络中起到的作用大,权重小的伪标签数据在该无标签数据分类网络中起到的作用小,从而提高了无标签数据分类网络的分类性能。
需要说明的是,自适应增强(Adaptive Boosting,AdaBoost)算法是一种提升方法,将多个弱分类器组合成强分类器,使用整个训练集来训练弱学习机,其中训练样本在每次迭代的过程中都会重新被赋予一个权重,在上一个弱学习机错误的基础上进行学习来构建一个更加强大的分类器;它的自适应在于:前一个弱分类器分错的样本的权值(样本对应的权值)会得到加强,权值更新后的样本再次被用来训练下一个新的弱分类器;在每轮训练中,用总体(样本总体)训练新的弱分类器,产生新的样本权值、该弱分类器的话语权,一直迭代直到达到预定的错误率或达到指定的最大迭代次数。
需要说明的是,AdaBoost算法是本技术领域现有的公知算法,本发明未对其进行技术改进,所以在此不再对其原理和工作流程进行进一步详细描述。
下面通过具体实施例来进一步验证本发明提供的无标签数据的处理方法应用在电子交易领域,对无标签数据分类网络分类性能的提升。
采样某公司的电子交易数据作为实验数据集;该数据集的基本信息如表1所示,其中是连续3个月的电子交易数据,每条数据有44个特征,实验在3组数据上进行,用本发明提供的无标签数据的处理方法从无标签数据集中分类出伪标签数据,用原有合法交易和欺诈交易以及带权重的伪标签数据训练无标签数据分类网络;如表2所示,用前一个月的数据作为训练集,后一个月的数据作为测试集;为了避免数据不均衡问题,将训练数据集中的合法交易进行随机下采样;实验评价方法采用AUC、F1、Recall、Precision以综合评价分类的准确度;在每组数据集上实验10次,将10次实验的平均值作为最后的实验结果;表3中列出了每组数据集上的实验结果;可见,本发明的无标签数据的处理方法能有效判别无标签数据的类别和可靠性,并进一步提高无标签数据分类网络的分类性能。
表1:数据集
合法交易 欺诈交易 无标签交易
2017.04 1216695 13271 12661
2017.05 1176259 27122 12463
2017.06 997946 24875 14265
表2:训练集和测试集
训练集 测试集
1 2017.04 2017.05
2 2017.04 2017.06
3 2017.05 2017.06
表3:实验结果
Figure BDA0002388763890000111
Figure BDA0002388763890000121
需要说明的是,AUC、Precision、Recall、F1是用来评价无标签数据分类网络性能的不同指标;其中,ROC曲线(Receiver Operating characteristic Curve)和AUC被用来评价一个二值分类器的优劣,ROC曲线称为受试者工作特征曲线,又称为感受性曲线(sensitivity curve),AUC(Area Under Curve)是ROC曲线下的面积;Precision(准确率)表示在预测为阳性(本发明中指欺诈数据)的样本中,真正有阳性的样本所占的比例;Recall(召回率)表示所有真正呈阳性的样本中,预测为阳性所占的比例;F1表示精确率和召回率的调和均值,精确率和召回率都高时,F1值也会高;通常情况下,Precision与Recall是相互矛盾的。
需要说明的是,本发明所述的无标签数据的处理方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
如图5所示,于一实施例中,本发明的无标签数据的处理系统包括第一获取模块51、第一计算模块52、第二计算模块53、分类标签模块54和第二获取模块55。
所述第一获取模块51用于获取数据集;所述数据集中包括异常数据和无标签数据。
所述第一计算模块52用于计算所述无标签数据的离群分数。
所述第二计算模块53用于计算所述无标签数据的异常相似分数。
所述分类标签模块54用于基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类。
所述第二获取模块55用于获取经分类后的无标签数据的可靠性权重。
需要说明的是,第一获取模块51、第一计算模块52、第二计算模块53、分类标签模块54和第二获取模块55的结构及原理与上述无标签数据的处理方法中的步骤一一对应,故在此不再赘述。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个数字信号处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
需要说明的是,本发明的无标签数据的处理系统可以实现本发明的无标签数据的处理方法,但本发明的无标签数据的处理方法的实现装置包括但不限于本实施例列举的无标签数据的处理系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
本发明的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的无标签数据的处理方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图6所示,本发明的终端,包括处理器61及存储器62。
所述存储器62用于存储计算机程序。优选地,所述存储器62包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器61与所述存储器62相连,用于执行所述存储器62存储的计算机程序,以使所述终端执行上述的无标签数据的处理方法。
优选地,所述处理器61可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明的无标签数据的处理方法、系统、介质及终端,综合离群性和异常相似性,对无标签数据进行分类,以获取分类后添加了伪标签的伪标签数据,并通过衡量伪标签数据的可靠性权重,实现了对无标签数据的有效处理,为无标签数据的正确识别提供了双重保障;充分考虑了数据分布,挖掘的无标签数据具有一定的多样性,并利用原有正常数据、异常数据及添加了伪标签的伪标签数据训练无标签数据分类网络,有效提高了无标签数据分类网络的分类性能。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种无标签数据的处理方法,其特征在于,包括以下步骤:
获取数据集;所述数据集中包括异常数据和无标签数据;
计算所述无标签数据的离群分数;
计算所述无标签数据的异常相似分数;
基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类;
获取经分类后的无标签数据的可靠性权重。
2.根据权利要求1所述的无标签数据的处理方法,其特征在于,计算所述无标签数据的离群分数包括:采用局部异常因子算法计算所述离群分数;计算公式为:
Figure FDA0002388763880000011
其中,O_Score(x)表示无标签数据x的离群分数;无标签数据x=Rd,Rd表示数据空间,d表示无标签数据的特征维度;LOF(x)表示无标签数据x通过局部异常因子算法计算得到的结果。
3.根据权利要求1所述的无标签数据的处理方法,其特征在于,计算所述无标签数据的异常相似分数包括以下步骤:
对所述异常数据进行聚类,产生至少一异常簇,并获取所述异常簇的中心数据;
计算所述无标签数据与所述中心数据的距离;
基于所述距离,获取所述异常相似分数。
4.根据权利要求3所述的无标签数据的处理方法,其特征在于,
计算所述无标签数据与所述中心数据的距离的计算公式为:
Figure FDA0002388763880000012
其中,ui表示第i个异常簇的中心数据;e_d(x,ui)表示无标签数据x与中心数据ui之间的距离;无标签数据x=Rd,Rd表示数据空间,d表示无标签数据的特征维度;j的值从1取到d;
基于所述距离,获取所述异常相似分数的计算公式为:
Figure FDA0002388763880000013
其中,S_Score(x)表示无标签数据x的异常相似分数;k表示异常簇的数量。
5.根据权利要求1所述的无标签数据的处理方法,其特征在于,基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类包括以下步骤:
基于所述离群分数和所述异常相似分数,计算所述无标签数据的最终分数;
获取分类阈值;
基于所述最终分数和所述分类阈值,对所述无标签数据进行分类。
6.根据权利要求1所述的无标签数据的处理方法,其特征在于,获取经分类后的无标签数据的可靠性权重包括以下步骤:
对经分类后的无标签数据进行聚类,以产生聚类结果;所述聚类结果包括至少一伪标签簇;
计算所述伪标签簇的标签熵;
基于所述标签熵,计算所述伪标签簇的可靠性权重,以获取经分类后的无标签数据的可靠性权重。
7.根据权利要求6所述的无标签数据的处理方法,其特征在于,
计算所述伪标签簇的标签熵的计算公式为:
Figure FDA0002388763880000021
记聚类结果为U={U1,U2,……Ut};t表示伪标签簇的个数;Ui表示第i个伪标签簇,i的值从1取到t;n(Ui)表示第i个伪标签簇中伪标签数据的个数;ns(Ui)表示第i个伪标签簇中属于类别s的伪标签数据的个数,s∈{-1,+1};-1表示正常数据;+1表示异常数据;H(Ui)表示第i个伪标签簇的标签熵;
基于所述标签熵,计算所述伪标签簇的可靠性权重的计算公式为:
w(Ui)=1-H(Ui)
其中,w(Ui)表示第i个伪标签簇的可靠性权重;
所述伪标签簇中伪标签数据的可靠性权重与该伪标签簇的可靠性权重相等。
8.一种无标签数据的处理系统,其特征在于,包括:第一获取模块、第一计算模块、第二计算模块、分类标签模块和第二获取模块;
所述第一获取模块用于获取数据集;所述数据集中包括异常数据和无标签数据;
所述第一计算模块用于计算所述无标签数据的离群分数;
所述第二计算模块用于计算所述无标签数据的异常相似分数;
所述分类标签模块用于基于所述离群分数和所述异常相似分数,对所述无标签数据进行分类;
所述第二获取模块用于获取经分类后的无标签数据的可靠性权重。
9.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的无标签数据的处理方法。
10.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至7中任一项所述的无标签数据的处理方法。
CN202010107204.0A 2020-02-21 2020-02-21 无标签电子交易数据的处理方法、系统、介质及终端 Active CN111340086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010107204.0A CN111340086B (zh) 2020-02-21 2020-02-21 无标签电子交易数据的处理方法、系统、介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010107204.0A CN111340086B (zh) 2020-02-21 2020-02-21 无标签电子交易数据的处理方法、系统、介质及终端

Publications (2)

Publication Number Publication Date
CN111340086A true CN111340086A (zh) 2020-06-26
CN111340086B CN111340086B (zh) 2023-07-11

Family

ID=71185549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010107204.0A Active CN111340086B (zh) 2020-02-21 2020-02-21 无标签电子交易数据的处理方法、系统、介质及终端

Country Status (1)

Country Link
CN (1) CN111340086B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148605A (zh) * 2020-09-22 2020-12-29 华南理工大学 一种基于谱聚类的半监督学习的软件缺陷预测方法
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN112819386A (zh) * 2021-03-05 2021-05-18 中国人民解放军国防科技大学 带有异常的时间序列数据生成方法、系统及存储介质
CN113255573A (zh) * 2021-06-17 2021-08-13 成都东方天呈智能科技有限公司 基于混合簇中心标签学习的行人重识别方法和存储介质
CN114418752A (zh) * 2022-03-28 2022-04-29 北京芯盾时代科技有限公司 无类型标签用户数据的处理方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108122114A (zh) * 2017-12-25 2018-06-05 同济大学 针对异常重复交易欺诈检测方法、系统、介质及设备
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN109978550A (zh) * 2019-03-12 2019-07-05 同济大学 一种基于生成对抗网络的可信电子交易放行机制
CN110490582A (zh) * 2019-07-18 2019-11-22 同济大学 一种信用卡交易异常检测方法及装置
CN110532300A (zh) * 2019-08-30 2019-12-03 南京大学 一种用于人工智能数据分析的大数据高保真可视化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108122114A (zh) * 2017-12-25 2018-06-05 同济大学 针对异常重复交易欺诈检测方法、系统、介质及设备
CN109978550A (zh) * 2019-03-12 2019-07-05 同济大学 一种基于生成对抗网络的可信电子交易放行机制
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN110490582A (zh) * 2019-07-18 2019-11-22 同济大学 一种信用卡交易异常检测方法及装置
CN110532300A (zh) * 2019-08-30 2019-12-03 南京大学 一种用于人工智能数据分析的大数据高保真可视化方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148605A (zh) * 2020-09-22 2020-12-29 华南理工大学 一种基于谱聚类的半监督学习的软件缺陷预测方法
CN112148605B (zh) * 2020-09-22 2022-05-20 华南理工大学 一种基于谱聚类的半监督学习的软件缺陷预测方法
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN112291424B (zh) * 2020-10-29 2021-09-14 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN112819386A (zh) * 2021-03-05 2021-05-18 中国人民解放军国防科技大学 带有异常的时间序列数据生成方法、系统及存储介质
CN113255573A (zh) * 2021-06-17 2021-08-13 成都东方天呈智能科技有限公司 基于混合簇中心标签学习的行人重识别方法和存储介质
CN113255573B (zh) * 2021-06-17 2021-10-01 成都东方天呈智能科技有限公司 基于混合簇中心标签学习的行人重识别方法和存储介质
CN114418752A (zh) * 2022-03-28 2022-04-29 北京芯盾时代科技有限公司 无类型标签用户数据的处理方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN111340086B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN111340086A (zh) 无标签数据的处理方法、系统、介质及终端
Chung et al. Insolvency prediction model using multivariate discriminant analysis and artificial neural network for the finance industry in New Zealand
Sánchez-Lasheras et al. A hybrid device for the solution of sampling bias problems in the forecasting of firms’ bankruptcy
CN112015909A (zh) 知识图谱的构建方法及装置、电子设备、存储介质
Subramanian et al. Ensemble variable selection for Naive Bayes to improve customer behaviour analysis
Zhou Data mining in customs risk detection with cost-sensitive classification
Shi et al. An improved agglomerative hierarchical clustering anomaly detection method for scientific data
Jandaghi et al. Identification of the Most Critical Factors in Bankruptcy Prediction and Credit Classification of Companies.
Pérez-Pons et al. Evaluation metrics and dimensional reduction for binary classification algorithms: a case study on bankruptcy prediction
WO2022192270A1 (en) Identifying trends using embedding drift over time
CN115689407A (zh) 账户异常检测方法、装置以及终端设备
Mukherjee et al. Detection of defaulters in P2P lending platforms using unsupervised learning
CN110458581B (zh) 商户业务周转异常的识别方法及装置
CN112329862A (zh) 基于决策树的反洗钱方法及系统
Singh Yadav et al. Unsupervised learning for financial statement fraud detection using manta ray foraging based convolutional neural network
US10509809B1 (en) Constructing ground truth when classifying data
Nawaiseh et al. Financial Statement Audit using Support Vector Machines, Artificial Neural Networks and K-Nearest Neighbor: An Empirical Study of UK and Ireland
Pisula et al. Non-statistical methods of analysing of bankruptcy risk
Peng et al. Unbalanced Data Processing and Machine Learning in Credit Card Fraud Detection
Aldalan et al. Customer Churn Prediction Using Four Machine Learning Algorithms Integrating Feature Selection and Normalization in the Telecom Sector
US11449743B1 (en) Dimensionality reduction for statistical modeling
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
CN114881783A (zh) 一种异常卡识别方法、装置、电子设备及存储介质
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
US20200285895A1 (en) Method, apparatus and computer program for selecting a subset of training transactions from a plurality of training transactions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant