CN112862020A - 一种数据识别方法、装置及存储介质 - Google Patents
一种数据识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112862020A CN112862020A CN202110445570.1A CN202110445570A CN112862020A CN 112862020 A CN112862020 A CN 112862020A CN 202110445570 A CN202110445570 A CN 202110445570A CN 112862020 A CN112862020 A CN 112862020A
- Authority
- CN
- China
- Prior art keywords
- data
- identified
- pieces
- similarity
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据识别方法、装置及存储介质。该方法包括:首先,获取待识别数据;然后,根据相似度对待识别数据进行分类;之后,从每一类数据中抽样得到少量数据进行识别和标注;随后,根据标注的少量数据对其他未标注的同类数据进行标注。如此,无需对每条待识别数据都进行识别,而只需对每类数据中的抽样数据进行识别即可。因此,可在保证对准确度影响较小的情况下,大幅减少需要进行数据识别的数据量,从而大大节省计算资源和缩短整个数据识别过程的时间。如果原有数据识别是由人工完成的,则还可节约大量人工成本,避免人工标注成为整个数据识别过程的瓶颈。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种数据识别方法、装置及计算机可读存储介质。
背景技术
随着大型企业的信息化程度越来越高,每日收集到的数据也呈现不断增长的趋势,甚至会形成海量数据。而如何从这些海量数据中识别出符合某些条件的特殊数据,则随着数据量的增长也变得日益困难。
目前,识别数据可使用的主要途径包括通过专家规则引擎和机器学习进行的有监督学习或无监督学习,之后再根据数据之间的关系网络进行分析以识别出疑似目标数据,而这些疑似目标数据往往还需要人工进行逐一确认。
对于某些信息量巨大、业务较为复杂的领域,需要人工进行确认的疑似目标数据量仍然较大。在这种情况下,人工确认就成为整个数据识别过程的瓶颈。
发明内容
本申请人创造性地提供一种数据识别方法、装置及计算机可读存储介质。
根据本申请实施例第一方面,提供一种数据识别方法,该方法包括:获取待识别数据;根据数据之间的相似度对待识别数据进行分类得到至少一类数据;从至少一类数据的每一类数据中抽样得到N条数据,其中N为大于等于1的自然数;对N条数据进行识别和标注得到标注后的N条数据;根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
根据本申请实施例一实施方式,获取待识别数据包括:通过专家规则获取待识别数据;相应地,根据数据之间的相似度对待识别数据进行分类得到至少一类数据,包括:根据待识别数据和专家规则确定待识别数据之间的相似度;根据待识别数据之间的相似度构建待识别数据的关联关系网络;对关联关系网络进行连通分析得到至少一个连通的子网络;根据至少一个连通的子网络得到至少一类数据。
根据本申请实施例一实施方式,根据待识别数据和专家规则确定待识别数据之间的相似度,包括:获取待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集;根据待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集确定待识别数据之间的相似度。
根据本申请实施例一实施方式,获取待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集,包括:根据待识别数据和专家规则构建二部图,其中,二部图中第一部分的点对应待识别数据,第二部分的点对应专家规则,二部图中的边对应待识别数据与专家规则的关联关系;根据二部图获取每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集。
根据本申请实施例一实施方式,获取待识别数据包括:通过数据识别模型获取待识别数据;相应地,根据数据之间的相似度对待识别数据进行分类得到至少一类数据,包括:获取待识别数据所对应的数据识别模型的入模特征;对入模特征进行降维得到第一特征向量;对第一特征向量进行聚类得到至少一个簇;根据至少一个簇得到至少一类数据。
根据本申请实施例一实施方式,从至少一类数据的每一类数据中抽样得到N条数据,包括:从至少一个簇的边缘数据中抽样得到N条数据。
根据本申请实施例一实施方式,根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据,包括:使用标签传播算法(Label Propagation,LP),根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
根据本申请实施例一实施方式,在根据标注后的N条数据对属于同类的未标注数据进行标注之后,该方法还包括:根据目标数据对获取待识别数据的过程进行优化。
根据本申请实施例第二方面,一种数据识别装置,该装置包括:待识别数据获取模块,用于获取待识别数据;相似数据分类模块,用于根据数据之间的相似度对待识别数据进行分类得到至少一类数据;数据抽样模块,用于从至少一类数据的每一类数据中抽样得到N条数据,其中N为大于等于1的自然数;数据标注模块,用于对N条数据进行识别和标注得到标注后的N条数据;标注传播模块,用于根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
根据本申请实施例一实施方式,待识别数据获取模块具体用于通过专家规则获取待识别数据;相应地,相似数据分类模块包括:相似度确定子模块,用于根据待识别数据和专家规则确定待识别数据之间的相似度;关联关系网络构建子模块,用于根据待识别数据之间的相似度构建待识别数据的关联关系网络;连通分析子模块,用于对关联关系网络进行连通分析得到至少一个连通的子网络;相似数据分类子模块,用于根据至少一个连通的子网络得到至少一类数据。
根据本申请实施例一实施方式,相似度确定子模块包括:规则命中分析单元,用于获取待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集;相似度计算单元,用于根据待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集确定待识别数据之间的相似度。
根据本申请实施例一实施方式,规则命中分析单元包括:二部图构建子单元,用于根据待识别数据和专家规则构建二部图,其中,二部图中第一部分的点对应待识别数据,第二部分的点对应专家规则,二部图中的边对应待识别数据与专家规则的关联关系;规则命中分析子单元,用于根据二部图获取每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集。
根据本申请实施例一实施方式,待识别数据获取模块具体用于通过数据识别模型获取待识别数据;相应地,相似数据分类模块包括:入模特征获取子模块,用于获取待识别数据所对应的数据识别模型的入模特征;特征降维子模块,用于对入模特征进行降维得到第一特征向量;聚类子模块,用于对第一特征向量进行聚类得到至少一个簇;相似数据分类子模块用于根据至少一个簇得到至少一类数据。
根据本申请实施例一实施方式,数据抽样模块具体用于从至少一个簇的边缘数据中抽样得到N条数据。
根据本申请实施例一实施方式,标注传播模块具体用于使用标签传播算法,根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
根据本申请实施例一实施方式,该装置还包括:反馈优化模块,用于根据目标数据对获取待识别数据的过程进行优化。
根据本申请实施例第三方面,提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项数据识别方法。
根据本申请实施例第四方面,提供一种电子设备,包括处理器以及存储有执行指令的存储器,当处理器执行存储器存储的执行指令时,处理器执行上述任一项数据识别方法。
本申请实施例提供一种数据识别方法、装置及计算机可读存储介质。该方法包括:首先,获取待识别数据;然后,根据相似度对待识别数据进行分类;之后,从每一类数据中抽样得到少量数据进行识别和标注;随后,根据标注的少量数据对其他未标注的同类数据进行标注。如此,无需对每条待识别数据都进行识别,而只需对每类数据中的抽样数据进行识别即可。因此,可在保证对准确度影响较小的情况下,大幅减少需要进行数据识别的数据量,从而大大节省计算资源和缩短整个数据识别过程的时间。如果原有数据识别是由人工完成的,则还可节约大量人工成本,避免人工标注成为整个数据识别过程的瓶颈。
需要理解的是,本申请的实施并不需要实现上面的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本申请数据识别方法一实施例的实现流程示意图;
图2为本申请数据识别方法另一实施例的实现流程示意图;
图3为本申请数据识别方法另一实施例所构建的二部图;
图4为本申请数据识别方法另一实施例所构建的关系关联网络示意图;
图5为本申请数据识别方法另一实施例的实现流程示意图;
图6为本申请数据识别方法另一实施例所应用于的金融风控系统结构示意图;
图7为本申请数据识别方法另一实施例所得到的聚类结果示意图;
图8为本申请数据识别装置一实施例的组成结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合本实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1示出了出了本申请实施例数据识别方法的基本实现流程。参考图1,本申请实施例提供了一种数据识别方法,该方法包括:操作S110,获取待识别数据;操作S120,根据数据之间的相似度对待识别数据进行分类得到至少一类数据;操作S130,从至少一类数据的每一类数据中抽样得到N条数据,其中N为大于等于1的自然数;操作S140,对N条数据进行识别和标注得到标注后的N条数据;操作S150,根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
其中,数据识别主要指从待识别数据中识别出符合特定条件或特定模式的目标数据。例如,从金融交易数据中识别出非法交易数据;从用户访问网页的数据中识别出黑客攻击;或是从传染性疾病的流调数据中识别出疑似的传染源或高风险地区等等。
待识别数据可以是从数据采集系统中采集到的原始数据,例如,银行用户交易数据、用户访问网页的数据和从传染性疾病的流调数据等;也可以是经过预处理的数据,例如,经过数据清洗和补录后的数据等;还可以是经过粗略识别得到的疑似目标数据等,例如,经过专家规则筛选或经过机器学习得到的疑似非法交易数据、疑似恶意攻击、疑似传染源等。
目标数据则是要识别出的数据,例如,非法交易数据、恶意攻击或传染源等。能够通过数据识别确定的目标数据往往具有一定的共性,符合某些特定条件或特定模式。而这些特定条件和特定模式通常基于数据的某些特定特征,在这些特定特征上较为相似的数据大概率可以识别为相同或相近的一类数据。
在操作S120中,数据之间的相似度就是用于度量待识别数据之间在这些特定特征上相似程度的指标。根据数据之间的相似度对待识别数据进行分类,可以将待识别数据区分为不同分类,并将这些特定特征上相似程度较高的待识别数据分到同一分类中,为数据识别提供依据。其中,相似度确定得越准确,分类就越准确,在后续操作S150中,根据已标注数据对未标注数据进行标注的准确度就越高。
在操作S130中,从至少一类数据的每一类数据中抽样得到N条数据时,可以使用随机抽样的方法,也可以使用非随机抽样(例如,定点抽样、分层抽样、整群抽样或系统抽样等)。实施者可根据实施过程中,根据每一类数据的分布特点和规律,确定一个实施效果较佳的抽样方法。
在操作S140中,对数据所进行的识别和标注主要是为了识别出目标数据,并将识别结果标注在数据上以进行区分,并在数据识别过程结束之后,迅速提取出目标数据,或针对目标数据进行进一步处理。
如果目标数据还具有更细的子分类,则可以进一步标注为目标数据的子分类以得到更细粒度的识别结果。
例如,在金融风险控制领域整个业务流程的各个环节中就会出现不同类型的金融风险:在广告投放到营销获客的环节,可能出现虚假点击、虚假渠道等风险;在支付交易的环节,可能出现洗钱、盗转盗刷、网络赌博、电信诈骗等风险。在上述情况下,识别到金融风险后,还需要进一步标注该金融风险发生的环节和/或金融风险的具体类型。
在操作S140中对N条数据进行识别和标注时,可使用任何适用的识别方法和标注方法,本申请实施例并不对此进行限定。但理论上,操作S140所进行的识别和标注会影响到本申请实施例数据识别方法的识别准确率。因此,推荐在操作S140中使用更为精准的识别方法进行识别和标注。例如,使用精度更高、粒度更细的算法对识别结果进行进一步确认或验证,然后使用确认或验证后的识别结果进行标注;或是通过专家人工对标注的结果进行再次确认等等。
在操作S150中,对于属于同类的未标注数据,由于其在某些特征或特性,特别是在识别目标数据所基于的特征或特性上,与已标注的数据较为相似。因此,大概率是与已标注的数据相同或近似的数据。如果每一类数据的数据分布具有一定规律(例如,其分布大致符合某一函数),还可以根据已标注的数据遵循该规律推测其他未标注数据的识别结果,并使用推测到的识别结果进行标注。
由此可见,本申请实施例所提供的数据识别方法:首先,通过操作S110获取待识别数据;然后,通过操作S120根据相似度对待识别数据进行分类;之后,通过操作S130从每一类数据中抽样得到少量数据,并通过操作S140对这些少量数据进行识别和标注;随后,通过操作S150根据标注的少量数据对其他未进行标注的同类数据进行标注,从而完成了所有待识别数据的标注,以从待识别数据中确定目标数据。如此,无需对每条待识别数据都进行识别,而只需对每类数据中的抽样数据进行识别即可。因此,可在保证对准确度影响较小的情况下,大幅减少需要进行数据识别的数据量,从而大大节省计算资源和缩短整个数据识别过程的时间。如果原有识别是由人工完成的,还可节约大量人工成本,避免人工标注成为整个数据识别过程的瓶颈。
需要说明的是图1所示的实施例仅为本申请数据识别方法的基本实施例,并未对其中的具体实施方式进行限定,实施者可基于图1所示的实施例,根据具体实施需求、具体实施条件和实施效果进行进一步的细化、优化和扩展。
图2示出了本申请数据识别方法另一实施例的具体实现流程,该方法包括:
操作S2010,通过专家规则获取待识别数据;
其中,专家规则往往是根据领域知识和专家经验,针对不同应用场景或不同业务流程所建立的规则集。
例如,假设待识别的数据d1、d2、……、d8为疑似黑客攻击形成数据集,每条数据包括源IP地址、目标IP地址、访问时间等访问数据。
由于某一类黑客攻击会在短时间内发送大量的信息访问请求,则可以制定一条专家规则R1:使1分钟内发送请求次数大于50的源IP地址筛选出来作为疑似黑客地址并将该黑客地址发出的所有访问数据都粗略地识别为疑似黑客攻击。
类似地,还可以根据黑客攻击的访问模式制定专家规则R2、R3、……R12,形成专家规则集。
由于待识别数据是本申请数据识别方法的数据基础,其数据量的大小直接决定后续操作的处理量,其数据准确度也直接决定最终数据识别的准确度。
因此,在本申请实施例中,使用通过专家规则进行初步筛选获取的疑似目标数据作为待识别数据,一方面可减少后续处理量,另一方面还可提高数据识别的准确率。
操作S2020,根据待识别数据和专家规则构建二部图,其中,二部图中第一部分的点对应待识别数据,第二部分的点对应专家规则,二部图中的边对应待识别数据与专家规则的关联关系;
图3示出了本申请实施例所构建的待识别数据和专家规则构建的二部图的示意图。如图3所示,该二部图的左侧为待识别数据(疑似黑客攻击)的数据集: d1、d2、……、d8;该二部图的右侧为专家规则的规则集:R1、R2、……、R12。其中,待识别数据的数据集到专家规则的规则集之间的连线表示待识别数据命中了规则集中的规则。例如,数据集中的d2(源IP地址:正常IP、目标IP地址:财务系统IP、发送时间为:凌晨3点)命中了规则集中的R9(发送时间晚于凌晨1点且早于凌晨5点)和R12(目标IP地址为敏感信息系统)。
操作S2030,根据二部图获取每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集;
例如,数据集中的d4(源IP地址:疑似黑客地址IP、目标IP地址:机密信息系统IP、发送时间为:上午10点)命中了规则集中的R10(源IP地址:疑似黑客地址IP)和R12。
则d2和d4命中规则的交集为{R12};并集为{R9,R10,R12}。
操作S2040,根据待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集确定待识别数据之间的相似度;
在本实施例中,使用如下公式计算待识别数据i和待识别数据j之间的相似度:
例如, d2和d4之间的相似度为:
由此可见,这个相似度还是比较合理地度量了d2和d4之间的相似程度,即信息访问的目标IP都为敏感信息系统,但源IP地址和发送信息的时间不同。
操作S2050,根据待识别数据之间的相似度构建待识别数据的关联关系网络;
在确定待识别数据之间的相似度之后,可以得到如表1所示的每两个数据之间的相似度矩阵:
表1
根据表1所示的相似度矩阵可得到如下所示的相似度稀疏矩阵:
通过以上相似度矩阵,将所有待识别数据作为节点,待识别数据之间的相似度为边的权重,可创建一个如图4所示的关联关系图。
操作S2060,对关联关系网络进行连通分析得到至少一个连通的子网络;
如图4所示,对关联关系网络进行连通分析可得到以下几个连通的子网络:
包含点d1和d3的子网络;
包含点d2,d4,d7和d8的子网络;
包含点d5和d6的子网络。
操作S2070,根据至少一个连通的子网络得到至少一类数据;
根据所获得的连通的子网络,可相应地将待识别数据d1至d8划分为以下几类:
第一类d1和d3;
第二类d2,d4,d7和d8;
第三类d5和d6。
操作S2080,从至少一类数据的每一类数据中抽样得到N条数据;
由于对通过专家规则获取的待识别数据(疑似目标数据)进行相似度划分之后,每个连通子图相关联的数据都有高度一致性,因此可采样随机抽样的方法,即每个连通子图中的数据随机抽取N条(N<连通子图的案件数)。
操作S2090,对N条数据进行识别和标注得到标注后的N条数据;
本申请实施例中采用人工标注的方法进行标注,以提高标注的准确度。例如,假设在第二类数据中抽到d2进行标注,并确定该访问数据为黑客攻击,具体类型为:敏感系统攻击。
操作S2100,使用标签传播算法,根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据;
标签传播算法简述如下:
假设( d1,y1) …( dn,yn) 是已标注数据,YN={ y1…yn} ∈{ 1…C} 是类别标签,类别数 C 已知,且均存在于标签数据中,例如,超密集高压访问、关键系统攻击等。令(dn + 1,yn + 1) …( dn + u,yn + u) 为未标注数据,YU={ yn + 1…yn + u} 不可观测,n << u,令数据集 D = { d1…dn + u} ∈R。
使用标签传播算法,根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据,就相当于要从数据集D中,利用YN的学习,为未标注数据集YU的每个数据找到对应的标签。
为衡量一个节点的标注通过边传播到其他节点的概率,在此定义一个( n + u)× ( n + u) 概率传递矩阵 T 如下所示:
算法描述如下:
步骤1)所有节点传播标签一步:Y← TY;
步骤2)行标准化矩阵 Y 来维持类别的概率;
步骤3)夹逼标注数据,重复步骤 2 直到 Y 收敛。
其中,步骤3)可以使得节点标签的类别分布集中在给定的类别中。需要说明的是,该算法需要预先知道分类的类别个数。
根据LPA算法基本理论,每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相邻节点的标签来更新自己的标签,与该节点相似度越大,其相邻节点对其标注的影响权值越大,相似节点的标签越趋于一致,其标签就越容易传播。
在标签传播过程中,保持已标注数据的标签不变,使其像一个源头把标签传向未标注数据。最终,当迭代过程结束时,相似节点的概率分布也趋于相似,可以划分到同一个类别中,从而完成标签传播过程。
例如,如图4所示的连通的子图中,d2与d4相邻,d2的标签为敏感系统攻击,d2与d4的相似度为1/3,根据LPA算法计算得到的d2至d4的传播概率为88%。此时,可判断d2可以将其标签传播给d4,即将d4自动标注为敏感系统攻击。
操作S2110,根据目标数据对专家规则进行优化。
如果疑似目标数据被确定为非目标数据,则可以进一步分析引起误判的原因,并针对引起误判的原因对入专家规则进行细化和调整。
假设,d2在人工标注时,经过确认是财务人员加班期间发送的信息请求,不是黑客袭击,则可以将R12由“目标IP地址为敏感信息系统”调整为“目标IP地址为敏感信息系统且源IP地址不在白名单中”。
图5示出了本申请数据识别方法另一实施例的具体实现流程,该方法包括:
操作S5010,通过数据识别模型获取待识别数据;
假设本实施例应用于如图6所示的金融风控系统中,将使用数据识别模型(算法模型1、算法模型2、算法模型3、……算法模型n)识别得到的欺诈类型的数据作为待识别数据。
其中,数据识别模型往往是针对各个业务场景构建的有监督学习或无监督学习模型。
操作S5020,获取待识别数据所对应的数据识别模型的入模特征;
数据识别模型通常是需要构建入模特征的。例如,构建具有时间滑窗特征、RFM特征、网络拓扑特征、嵌入特征等不同特征类型的入模特征;或是构建多个不确定的入模特征,并通过无监督异常点检测算法或有监督算法对待识别数据进行分类,将类别为1的待识别数据确定为目标数据(例如,洗钱、盗刷、网络赌钱、电信诈骗等)。
操作S5030,对入模特征进行降维得到第一特征向量;
当入模特征的维数较多时,可对入模特征的特征集合进行降维,例如,通过主成分分析(Principal Component Analysis,PCA)算法将特征维度控制在5-8维。
通常,第一特征向量是与入模特征所应用的数据识别模型对应的。当所应用的系统为如图6所示的有多个算法模型的系统时,第一特征向量也会相应地为多个算法模型对应的多个第一特征向量。
操作S5040,对第一特征向量进行聚类得到至少一个簇;
其中,聚类的目的主要是将相似度较高的待识别数据聚集到一起形成一个簇,而常用的聚类算法包括K-means,DBSCAN,GMM,和凝聚层次聚类等等。
在本实施例中,主要采用基于密度聚类算法DBSCAN对降维后的入模特征(第一特征向量)进行聚类,得到如图7所示的至少一个簇,其中不同的图形代表不同的簇,同一个图形的点代表同一个簇。例如,三角形的点形成簇A,星形的点形成簇B,菱形的点形成簇C。在实际应用中,不同的簇也常表示为不同颜色的点。
操作S5050,根据至少一个簇得到至少一类数据;
通常,经过上述聚类过程得到每个簇都对应一类数据。将每个簇包含的点读出就能得到相应的一类数据。
以图7所示的簇为例,读取簇A中的所有三角形的点所对应的数据就得到第一类数据;读取簇B中的所有星形的点所对应的数据就得到第二类数据;读取簇C中的所有菱形的点所对应的数据就得到第二类数据。
操作S5060,从至少一个簇的边缘数据中抽样得到N条数据;
通过聚类算法得到至少一个簇之后,相同簇内的数据之间相似度较高,而处在边缘的数据往往更具有代表性,因此,可以采用边缘轮廓采样法,即随机抽取处在簇边缘的N条数据。如图7所示的聚类中,椭圆形的框线就勾勒除了每一聚类的簇边缘,可以从位于簇边缘的点所对应的待识别数据中进行随机抽样得到N条数据。
一个物体的轮廓往往更适合用于判断或识别物体本身,例如,可以通过人体轮廓来获取一个人的身高、胖瘦和体态等特征,进而推测这个人是否是某个人而非其他人。从而边缘轮廓进行采样正是基于类似的原理:聚类算法得出的结果会将同一类的数据划分到相同的簇;同一簇数据聚集在一起会形成不同样子,即不同的形状,而边缘轮廓采样就是随机抽取位于轮廓上的点所代表的数据。
操作S5070,对N条数据进行识别和标注得到标注后的N条数据;
在本实施例中,对N条数据进行识别和标注时主要采用人工标注的方式,主要是为了确保标注的准确度。如果实施者具备精度更高的进阶识别模型,还可以使用精度更高的进阶识别模型对N条数据进行识别和标注。
例如,对簇A中位于轮廓上的某一点进行人工标注,标注结果为“洗钱”。
操作S5080,根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据;
在本实施例中,精度更高的进阶识别模型遵从“同源则同类”原则,即将属于相同类簇的待识别数据标注为与大多数已标注数据相同的标签。
例如,将簇A中所有的点所代表的数据都标注为“洗钱”类似。
操作S5090,根据目标数据对数据识别模型进行优化。
如果疑似目标数据被确定为目标数据,则可将该目标数据及其标注作为训练数据,对数据识别模型进行进一步训练;如果疑似目标数据被确定为非目标数据,则可进一步分析引起误判的原因,并针对引起误判的原因对入模特征或者模型参数进行调整。
进一步地,本申请实施例还提供一种数据识别装置,如图8所示,该装置80包括:待识别数据获取模块801,用于获取待识别数据;相似数据分类模块802,用于根据数据之间的相似度对待识别数据进行分类得到至少一类数据;数据抽样模块803,用于从至少一类数据的每一类数据中抽样得到N条数据,其中N为大于等于1的自然数;数据标注模块804,用于对N条数据进行识别和标注得到标注后的N条数据;标注传播模块805,用于根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
根据本申请实施例一实施方式,待识别数据获取模块801具体用于通过专家规则获取待识别数据;相应地,相似数据分类模块802包括:相似度确定子模块,用于根据待识别数据和专家规则确定待识别数据之间的相似度;关联关系网络构建子模块,用于根据待识别数据之间的相似度构建待识别数据的关联关系网络;连通分析子模块,用于对关联关系网络进行连通分析得到至少一个连通的子网络;相似数据分类子模块,用于根据至少一个连通的子网络得到至少一类数据。
根据本申请实施例一实施方式,相似度确定子模块包括:规则命中分析单元,用于获取待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集;相似度计算单元,用于根据待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集确定待识别数据之间的相似度。
根据本申请实施例一实施方式,规则命中分析单元包括:二部图构建子单元,用于根据待识别数据和专家规则构建二部图,其中,二部图中第一部分的点对应待识别数据,第二部分的点对应专家规则,二部图中的边对应待识别数据与专家规则的关联关系;规则命中分析子单元,用于根据二部图获取每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集。
根据本申请实施例一实施方式,待识别数据获取模块801具体用于通过数据识别模型获取待识别数据;相应地,相似数据分类模块802包括:入模特征获取子模块,用于获取待识别数据所对应的数据识别模型的入模特征;特征降维子模块,用于对入模特征进行降维得到第一特征向量;聚类子模块,用于对第一特征向量进行聚类得到至少一个簇;相似数据分类子模块用于根据至少一个簇得到至少一类数据。
根据本申请实施例一实施方式,数据抽样模块803具体用于从至少一个簇的边缘数据中抽样得到N条数据。
根据本申请实施例一实施方式,标注传播模块805具体用于使用标签传播算法,根据标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
根据本申请实施例一实施方式,该装置80还包括:反馈优化模块,用于根据目标数据对获取待识别数据的过程进行优化。
根据本申请实施例第三方面,提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项数据识别方法。
根据本申请实施例第四方面,提供一种电子设备,包括处理器以及存储有执行指令的存储器,当处理器执行存储器存储的执行指令时,处理器执行上述任一项数据识别方法。
这里需要指出的是:以上针对数据识别装置实施例的描述、以上针对计算机可读存储介质实施例的描述和以上针对电子设备实施例的描述,与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本申请对数据识别装置实施例的描述、对计算机可读存储介质实施例的描述和对电子设备实施例的描述尚未披露的技术细节,请参照本申请前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据识别方法,其特征在于,所述方法包括:
获取待识别数据;
根据数据之间的相似度对所述待识别数据进行分类得到至少一类数据;
从所述至少一类数据的每一类数据中抽样得到N条数据,其中N为大于等于1的自然数;
对所述N条数据进行识别和标注得到标注后的N条数据;
根据所述标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别数据包括:
通过专家规则获取待识别数据;
相应地,所述根据数据之间的相似度对所述待识别数据进行分类得到至少一类数据,包括:
根据所述待识别数据和所述专家规则确定所述待识别数据之间的相似度;
根据所述待识别数据之间的相似度构建所述待识别数据的关联关系网络;
对所述关联关系网络进行连通分析得到至少一个连通的子网络;
根据所述至少一个连通的子网络得到至少一类数据。
3.根据权利要求2所述的方法,其特征在于,根据所述待识别数据和所述专家规则确定所述待识别数据之间的相似度,包括:
获取所述待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集;
根据所述待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集确定所述待识别数据之间的相似度。
4.根据权利要求3所述的方法,其特征在于,所述获取所述待识别数据中每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集,包括:
根据所述待识别数据和所述专家规则构建二部图,其中,所述二部图中第一部分的点对应所述待识别数据,第二部分的点对应所述专家规则,所述二部图中的边对应所述待识别数据与所述专家规则的关联关系;
根据所述二部图获取每两条待识别数据命中规则的交集和每两条待识别数据命中规则的并集。
5.根据权利要求1所述的方法,其特征在于,所述获取待识别数据包括:通过数据识别模型获取待识别数据;相应地,所述根据数据之间的相似度对所述待识别数据进行分类得到至少一类数据,包括:
获取所述待识别数据所对应的所述数据识别模型的入模特征;
对所述入模特征进行降维得到第一特征向量;
对所述第一特征向量进行聚类得到至少一个簇;
根据所述至少一个簇得到至少一类数据。
6.根据权利要求5所述的方法,其特征在于,从所述至少一类数据的每一类数据中抽样得到N条数据,包括:
从所述至少一个簇的边缘数据中抽样得到N条数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述标注后的N条数据对属于同类的未标注数据进行标注得到目标数据,包括:
使用标签传播算法,根据所述标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
8.根据权利要求1所述的方法,其特征在于,在所述根据所述标注后的N条数据对属于同类的未标注数据进行标注之后,所述方法还包括:
根据所述目标数据对获取待识别数据的过程进行优化。
9.一种数据识别装置,其特征在于,所述装置包括:
待识别数据获取模块,用于获取待识别数据;
相似数据分类模块,用于根据数据之间的相似度对所述待识别数据进行分类得到至少一类数据;
数据抽样模块,用于从所述至少一类数据的每一类数据中抽样得到N条数据,其中N为大于等于1的自然数;
数据标注模块,用于对所述N条数据进行识别和标注得到标注后的N条数据;
标注传播模块,用于根据所述标注后的N条数据对属于同类的未标注数据进行标注得到目标数据。
10.一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110445570.1A CN112862020B (zh) | 2021-04-25 | 2021-04-25 | 一种数据识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110445570.1A CN112862020B (zh) | 2021-04-25 | 2021-04-25 | 一种数据识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862020A true CN112862020A (zh) | 2021-05-28 |
CN112862020B CN112862020B (zh) | 2021-08-03 |
Family
ID=75992767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110445570.1A Active CN112862020B (zh) | 2021-04-25 | 2021-04-25 | 一种数据识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862020B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313497A (zh) * | 2021-07-28 | 2021-08-27 | 北京芯盾时代科技有限公司 | 一种账户数据的风险分析方法及装置 |
CN113313053A (zh) * | 2021-06-15 | 2021-08-27 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备、介质及程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156286A (zh) * | 2016-06-24 | 2016-11-23 | 广东工业大学 | 面向专业文献知识实体的类型抽取系统及方法 |
CN108537599A (zh) * | 2018-04-17 | 2018-09-14 | 北京三快在线科技有限公司 | 基于关键词聚合的查询反馈方法、装置以及存储介质 |
CN108596094A (zh) * | 2018-04-24 | 2018-09-28 | 杭州数为科技有限公司 | 人物风格检测系统、方法、终端及介质 |
CN108804563A (zh) * | 2018-05-22 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 一种数据标注方法、装置以及设备 |
CN108898505A (zh) * | 2018-05-28 | 2018-11-27 | 武汉斗鱼网络科技有限公司 | 作弊团伙的识别方法、相关存储介质和电子设备 |
US20190318822A1 (en) * | 2018-04-13 | 2019-10-17 | International Business Machines Corporation | Deep image classification of medical images |
CN110598790A (zh) * | 2019-09-12 | 2019-12-20 | 北京达佳互联信息技术有限公司 | 一种图像的识别方法、装置、电子设备及存储介质 |
CN111259772A (zh) * | 2020-01-13 | 2020-06-09 | 广州虎牙科技有限公司 | 图像标注方法、装置、设备和介质 |
CN111507243A (zh) * | 2020-04-15 | 2020-08-07 | 桂林电子科技大学 | 一种基于格拉斯曼流形分析的人体行为识别方法 |
-
2021
- 2021-04-25 CN CN202110445570.1A patent/CN112862020B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156286A (zh) * | 2016-06-24 | 2016-11-23 | 广东工业大学 | 面向专业文献知识实体的类型抽取系统及方法 |
US20190318822A1 (en) * | 2018-04-13 | 2019-10-17 | International Business Machines Corporation | Deep image classification of medical images |
CN108537599A (zh) * | 2018-04-17 | 2018-09-14 | 北京三快在线科技有限公司 | 基于关键词聚合的查询反馈方法、装置以及存储介质 |
CN108596094A (zh) * | 2018-04-24 | 2018-09-28 | 杭州数为科技有限公司 | 人物风格检测系统、方法、终端及介质 |
CN108804563A (zh) * | 2018-05-22 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 一种数据标注方法、装置以及设备 |
CN108898505A (zh) * | 2018-05-28 | 2018-11-27 | 武汉斗鱼网络科技有限公司 | 作弊团伙的识别方法、相关存储介质和电子设备 |
CN110598790A (zh) * | 2019-09-12 | 2019-12-20 | 北京达佳互联信息技术有限公司 | 一种图像的识别方法、装置、电子设备及存储介质 |
CN111259772A (zh) * | 2020-01-13 | 2020-06-09 | 广州虎牙科技有限公司 | 图像标注方法、装置、设备和介质 |
CN111507243A (zh) * | 2020-04-15 | 2020-08-07 | 桂林电子科技大学 | 一种基于格拉斯曼流形分析的人体行为识别方法 |
Non-Patent Citations (2)
Title |
---|
CE LIU等: "Self-Correction Method for Automatic Data Annotation", 《2017 4TH IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION (ACPR)》 * |
赵俊杰等: "基于聚类分析的不均衡数据标注技术研究", 《计算机仿真》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313053A (zh) * | 2021-06-15 | 2021-08-27 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备、介质及程序产品 |
CN113313053B (zh) * | 2021-06-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备、介质及程序产品 |
CN113313497A (zh) * | 2021-07-28 | 2021-08-27 | 北京芯盾时代科技有限公司 | 一种账户数据的风险分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112862020B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475143B2 (en) | Sensitive data classification | |
TWI673625B (zh) | 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備 | |
CN112862020B (zh) | 一种数据识别方法、装置及存储介质 | |
Cinà et al. | A black-box adversarial attack for poisoning clustering | |
WO2022134794A1 (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
Rathore et al. | Identifying groups of fake reviewers using a semisupervised approach | |
CN111090807B (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
US11514054B1 (en) | Supervised graph partitioning for record matching | |
CN107368856A (zh) | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 | |
CN111783126B (zh) | 一种隐私数据识别方法、装置、设备和可读介质 | |
WO2021189975A1 (zh) | 机器行为识别方法、装置、设备及计算机可读存储介质 | |
US20220277174A1 (en) | Evaluation method, non-transitory computer-readable storage medium, and information processing device | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
Ragunathan et al. | Link prediction by analyzing common neighbors based subgraphs using convolutional neural network | |
CN108520045B (zh) | 数据的服务响应方法及装置 | |
CN105631336B (zh) | 检测移动装置上的恶意文件的系统及方法 | |
JP2022548501A (ja) | 暗号通貨取引を分析するためのデータ取得方法及び装置 | |
US11157620B2 (en) | Classification of executable files using a digest of a call graph pattern | |
CN107070932B (zh) | 社会网络动态发布中防止标签邻居攻击的匿名方法 | |
US8140448B2 (en) | System and method for classifying data streams with very large cardinality | |
US20240232229A1 (en) | Method, apparatus, and computer-readable medium for efficiently classifying a data object of unknown type | |
CN109960719A (zh) | 一种文件处理方法和相关装置 | |
CN110363534B (zh) | 用于识别异常交易的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |