CN110533190B - 一种基于机器学习的数据对象分析方法及装置 - Google Patents

一种基于机器学习的数据对象分析方法及装置 Download PDF

Info

Publication number
CN110533190B
CN110533190B CN201910650811.9A CN201910650811A CN110533190B CN 110533190 B CN110533190 B CN 110533190B CN 201910650811 A CN201910650811 A CN 201910650811A CN 110533190 B CN110533190 B CN 110533190B
Authority
CN
China
Prior art keywords
integral
label
sample
target
current threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910650811.9A
Other languages
English (en)
Other versions
CN110533190A (zh
Inventor
陈雯颖
李巍
杨犀
沈满
胡浩海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Digtal Technology Co Ltd
Original Assignee
Wuhan Fiberhome Digtal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Digtal Technology Co Ltd filed Critical Wuhan Fiberhome Digtal Technology Co Ltd
Priority to CN201910650811.9A priority Critical patent/CN110533190B/zh
Publication of CN110533190A publication Critical patent/CN110533190A/zh
Application granted granted Critical
Publication of CN110533190B publication Critical patent/CN110533190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于机器学习的数据对象分析方法及装置,方法包括:将所获得的样本输入机器学习算法,得到与目标标签相关的各变量标签及各变量标签的特征关联值;分析各变量标签和目标标签之间的相关性,并保留等级相关系数为正的各变量标签;基于所保留的各变量标签及其特征关联值构建积分模型;基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算积分模型的准确度;将积分模型的准确度最高者对应的当前阈值作为目标阈值;基于积分模型计算待分析的每一数据对象的积分;确定积分不小于目标阈值的数据对象具有目标标签。应用本发明实施例,提高了数据对象分析的效率和准确度。

Description

一种基于机器学习的数据对象分析方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于机器学习的数据对象分析方法及装置。
背景技术
随着大数据时代的到来,各个领域的数据呈现爆发式增长,待分析和监控的数据也日渐增加。为了快速对数据对象进行分析,通常可以分析该数据对象是否具有某类标签,例如,从很多人中分析确定具有犯罪标签的人,从而实现对重点人员动态管控、重大案事件预警等预警预防工作。目前主要是基于人工经验分析数据对象是否具有某类标签,标签的确定比较宽泛,且完全人赖人工经验,未对数据对象进行深度挖掘和关联,数据分析的效率和准确率不高。
因此有必要设计一种新的数据对象分析方法,以克服上述问题。
发明内容
本发明的目的在于克服现有技术之缺陷,提供了一种基于机器学习的数据对象分析方法及装置,以实现提高数据对象分析的效率和准确率。
本发明是这样实现的:
第一方面,本发明提供一种基于机器学习的数据对象分析方法,所述方法包括:
获得各个样本,所述样本包括正样本和负样本;每一样本具有标签;所述正样本具有目标标签;
将所获得的所有样本输入机器学习算法,得到与所述目标标签相关的各变量标签及各变量标签的特征关联值;调用相关性分析算法分析各变量标签和所述目标标签之间的相关性,得到各变量标签和所述目标标签之间的等级相关系数;保留等级相关系数为正的各变量标签;基于所保留的各变量标签及其特征关联值构建积分模型;
基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值;
针对待分析的每一数据对象,基于所述积分模型计算该数据对象的积分;判断该数据对象的积分是否小于所述目标阈值,若不小于,确定该数据对象具有目标标签。
可选的,获得各个样本,包括:
将预先已知具有目标标签的目标数据对象作为正样本;从数据库中选择除所述目标数据对象以外的目标数量个数据对象作为负样本;其中,所述目标数量与所述正样本的数量满足预设比例。
可选的,所述相关性分析算法为斯皮尔曼相关性系数算法。
可选的,基于所保留的各变量标签及其特征关联值构建积分模型,包括:
针对所保留的每一变量标签,将该变量标签的特征关联值作为该变量标签的初始权重;对所保留的各变量标签的初始权重进行归一化,得到各变量标签的目标权重;
用所保留的各变量标签及其目标权重构成积分模型。
可选的,所述方法还包括:
在检测到用户输入的标签组合和标签组合中每一标签的权重后,对标签组合中每一标签的权重进行归一化,将用户输入的标签组合和归一化后的权重加入所述积分模型,基于加入标签组合和权重后的积分模型计算各样本的积分。
可选的,基于所构建的积分模型计算各样本的积分,包括:
针对每一样本,对于该样本所具有的非频次型标签,若所述积分模型的变量标签中包含该非频次型标签,则用所述积分模型中该非频次型标签的权重与预设值之积作为该非频次型标签的积分值;若所述积分模型的变量标签中不包含该非频次型标签,则设置该非频次型标签的积分值为零;对于该样本所具有的频次型标签,若所述积分模型的变量标签中包含该频次型标签,当该频次型标签在样本中的频次不小于该频次型标签的预设频次阈值时,则用所述积分模型中该频次型标签的权重与所述预设值之积作为该频次型标签的积分值;当该频次型标签在该样本中的频次小于该频次型标签的预设频次阈值时,则用该频次型标签的权重、预设值以及该频次型标签在该样本中的频次之积除以该频次型标签的预设频次阈值,将所得的商作为该频次型标签的积分值;将由该样本的所有标签所得的积分值之和取整,作为该样本的积分。
可选的,在将所得的积分依次作为当前阈值之前,所述方法还包括将所得的积分去重,得到非重复的积分结果集;
将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度,包括:依次遍历非重复的积分结果集,将当前遍历所得的积分作为当前阈值,对于非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值;若该积分不小于该当前阈值,确定具有该积分的样本为正样本;否则,确定具有该积分的样本为负样本;对于非重复的积分结果集中的每一积分所属的样本,若所确定的该样本的样本类型与所获得的该样本的类型相同,则确定所述积分模型判断正确;否则确定所述积分模型判断不正确;统计所述积分模型在该当前阈值下的判断正确的次数占非重复的积分结果集中积分总数量的比例,作为所述积分模型在该当前阈值下的准确度;继续遍历得到下一积分,作为当前阈值,重新执行对于非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值,直至整个积分结果集遍历完成。
可选的,在确定所述积分模型在该当前阈值下的准确度之后,所述方法还包括:
判断所述积分模型在该当前阈值下的准确度是否小于预设准确度阈值;
若小于,则舍弃该当前阈值及该准确度;若不小于,则保存该当前阈值及该准确度。
第二方面,本发明提供一种基于机器学习的数据对象分析装置,所述装置包括:
第一获得模块,用于获得各个样本,所述样本包括正样本和负样本;每一样本具有标签;所述正样本具有目标标签;
第二获得模块,用于将所获得的所有样本输入机器学习算法,得到与所述目标标签相关的各变量标签及各变量标签的特征关联值;调用相关性分析算法分析各变量标签和所述目标标签之间的相关性,得到各变量标签和所述目标标签之间的等级相关系数;保留等级相关系数为正的各变量标签;基于所保留的各变量标签及其特征关联值构建积分模型;
计算模块,用于基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值;
确定模块,用于针对待分析的每一数据对象,基于所述积分模型计算该数据对象的积分;判断该数据对象的积分是否小于所述目标阈值,若不小于,确定该数据对象具有目标标签。
可选的,所述第一获得模块获得各个样本,具体为:
将预先已知具有目标标签的目标数据对象作为正样本;从数据库中选择除所述目标数据对象以外的目标数量个数据对象作为负样本;其中,所述目标数量与所述正样本的数量满足预设比例。
本发明具有以下有益效果:应用本发明实施例,可以基于所保留的各变量标签及其特征关联值构建积分模型,进而基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值,最后,基于积分模型计算每一数据对象的积分;并确定积分不小于目标阈值的数据对象具有目标标签。实现了从海量数据对象中确定具有目标标签的数据对象,提高了数据对象分析的效率和准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的基于机器学习的数据对象分析方法的一种流程示意图;
图2为本发明实施例提供的基于机器学习的数据对象分析装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,本发明所提供的基于机器学习的数据对象分析方法可以应用于电子设备,其中,在具体应用中,该电子设备可以为计算机、个人电脑、平板、手机等等,这都是合理的。
参见图1,本发明实施例提供一种基于机器学习的数据对象分析方法,方法包括如下步骤:
S101、获得各个样本,所述样本包括正样本和负样本;每一样本具有标签;所述正样本具有目标标签;
数据库或系统中可以预先存储有数据对象,数据对象可以具有标签、身份信息等属性信息,目标标签可以是待分析的具有某种特点的标签,例如,数据对象可以是人,目标标签可以是涉毒标签、涉黄标签等等。数据库中存储的数据对象中,某些数据对象可以是预先已知具有目标标签的,可以将预先已知具有目标标签的目标数据对象作为正样本,从数据库中选择除所述目标数据对象以外的目标数量个数据对象作为负样本;其中,所述目标数量与所述正样本的数量满足预设比例。可以看出,正样本是事先已知具有目标标签的数据对象;负样本是事先未知是否具有目标标签的数据对象,也就是负样本可能具有目标标签,也可能不具有目标标签。
标签可以包括人员标签、物品标签、关系标签、地点标签及案件标签等类型。其中,人员标签可细分为身份标签和行为标签,身份标签可以包括年龄、性别、户籍等信息,例如,身份标签可以包括是否为少年标签、是否为老年标签、户籍是否是本地标签、是否为男性标签、是否为女性标签等,各个标签的标签值可以是0或1,例如,某个人的是否为少年标签的标签值为1,可以表明这个人是少年;行为标签可以包括是否频繁入住酒店标签、是否涉毒标签等。是否频繁入住酒店标签可以包括入住酒店的次数等属性值。目标标签可以是单一的标签或者是标签组合,预设比例可以根据需求事先设定,本发明对此不做限定,例如,可以为1:1。从而,可以按照数据量1:1,随机从数据库的剩余数据对象中抽取相应数量的非正样本,并标记为负样本。将正样本与负样本组合作为最终的总体样本。
S102、将所获得的所有样本输入机器学习算法,得到与所述目标标签相关的各变量标签及各变量标签的特征关联值;调用相关性分析算法分析各变量标签和所述目标标签之间的相关性,得到各变量标签和所述目标标签之间的等级相关系数;保留等级相关系数为正的各变量标签;基于所保留的各变量标签及其特征关联值构建积分模型;
在获得各个样本后,可以将所获得的各个样本传递到Kafka消息队列,通过Kafka消息队列统一存储各个样本,便于在后续的处理过程中,从Kafka消息队列统一读取到各个样本,减少了出现错误的可能性。
从Kafka消息队列中读取到各个样本后,可以取其中70%的样本作为训练集,30%的样本作为测试集,用训练集和测试集构建得到训练至收敛的机器学习算法,例如机器学习算法可以为XGBoost机器学习算法等。使得所构建的XGBoost机器学习算法在输入样本后,可以输出该样本中与目标标签相关的变量标签以及该变量标签的特征关联值。变量标签的特征关联值用于反映该变量标签与目标标签之间的相关程度,变量标签的特征关联值越高,变量标签与目标标签之间的相关程度越高。
调用相关性分析算法,可以计算变量标签与目标标签之间的等级相关系数,保留正相关(即等级相关系数为正)的变量标签;具体的,所述相关性分析算法可以为斯皮尔曼相关性系数算法。
斯皮尔曼相关性系数算法,也称斯皮尔曼秩相关系数,是用于研究两个变量间相关关系的方法,它可以依据两列成对等级的各对等级数之差来进行计算。假设一共有n个样本,X为样本i的变量标签s的标签值,Y为样本i的目标标签的标签值,对所有样本的X进行升序,X′为样本i的X排名,同理得到Y′,di=X′-Y′,计算方法可以如公式1所示,判断等级相关系数ρs是否大于0,若大于0则保留变量标签,依照上述描述计算每一个变量标签与目标标签的等级相关系数。
一种实现方式中,基于所保留的各变量标签及其特征关联值构建积分模型,可以包括:
针对所保留的每一变量标签,将该变量标签的特征关联值作为该变量标签的初始权重;对所保留的各变量标签的初始权重进行归一化,得到各变量标签的目标权重;
用所保留的各变量标签及其目标权重构成积分模型。
通过对所保留的各变量标签的初始权重进行归一化,可以保证所保留的各变量标签的目标权重之和为1。
权重归一化的方法如公式2所述,其中k为所保留的各变量标签的数量,Wi为第i个变量标签的初始权重,qi为第i个变量标签的初始权重归一化后的目标权重,计算结果可以保留5位小数,权重值和近似为1。
另外,在得到所保留的各变量标签的目标权重后,可以将所保留的各变量标签及其目标权重通过前端界面展示;从而,用户可根据业务经验选择是否修正、补充积分模型中的标签组合及其权重。
具体的,在检测到用户输入的标签组合和标签组合中每一标签的权重后,对标签组合中每一标签的权重进行归一化,将用户输入的标签组合和归一化后的权重加入所述积分模型,基于加入标签组合和权重后的积分模型计算各样本的积分;
还可以在检测到用户的修正指令后,获得所述修正指令中携带的标签组合和标签组合中每一标签的权重,对标签组合中每一标签的权重进行归一化,用所述修正指令中携带的标签组合和归一化后的权重调整所述积分模型中该标签组合中每一标签的权重,基于调整权重后的积分模型计算各样本的积分;直至用户不再修改或补充。
应用本发明实施例,可以对积分模型进行修正或补充,从而便于根据实际情况灵活调整积分模型,提高了积分模型的适用性和灵活性。
S103、基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值;
具体的,基于所构建的积分模型计算各样本的积分,包括:
针对每一样本,对于该样本所具有的非频次型标签,若所述积分模型的变量标签中包含该非频次型标签,则用所述积分模型中该非频次型标签的权重与预设值之积作为该非频次型标签的积分值;若所述积分模型的变量标签中不包含该非频次型标签,则设置该非频次型标签的积分值为零;对于该样本所具有的频次型标签,若所述积分模型的变量标签中包含该频次型标签,当该频次型标签在样本中的频次不小于该频次型标签的预设频次阈值时,则用所述积分模型中该频次型标签的权重与所述预设值之积作为该频次型标签的积分值;当该频次型标签在该样本中的频次小于该频次型标签的预设频次阈值时,则用该频次型标签的权重、预设值以及该频次型标签在该样本中的频次之积除以该频次型标签的预设频次阈值,将所得的商作为该频次型标签的积分值;将由该样本的所有标签所得的积分值之和取整,作为该样本的积分。
S103中所应用的积分模型可以是经S102确定的,或是在S102的基础上经补充或修正后的积分模型,预设值可以根据经验事先设定,例如,可以为100、150或1000等等。为了便于理解,假设预设值为100,采用以下示例描述上述计算各样本的积分的过程,针对每一样本,可以对该样本所具有的每一标签进行以下判断:
当标签类型是非频次型,且积分模型的变量标签中不包含该非频次型标签,则标签的积分值=0;
当标签类型是非频次型,且积分模型的变量标签中包含该非频次型标签,则标签的积分值=标签权重*100;
当标签类型是频次型,且该标签在样本中的频次>=该频次型标签的预设频次阈值,标签的积分值=该标签权重*100;
当标签类型频次型,且该标签在样本中的频次<该频次型标签的预设频次阈值,积分值=该标签权重*100*频次/频次阈值;
该样本的积分=该样本的所有标签的积分值之和取整。
可以理解的是,同一积分模型在不同阈值下的准确度可能不同,为了找到使积分模型准确度最高的阈值,可以将所得的积分依次作为当前阈值,进而基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值。
一种实现方式中,为了提高计算效率,在将所得的积分依次作为当前阈值之前,所述方法还可以包括将所得的积分去重,得到非重复的积分结果集;
进而,将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度,可以包括:
依次遍历所述非重复的积分结果集,将当前遍历所得的积分作为当前阈值,对于所述非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值;若该积分不小于该当前阈值,确定具有该积分的样本为正样本;否则,确定具有该积分的样本为负样本;对于非重复的积分结果集中的每一积分所属的样本,若所确定的该样本的样本类型与所获得的该样本的类型相同,则确定所述积分模型判断正确;否则确定所述积分模型判断不正确;统计所述积分模型在该当前阈值下的判断正确的次数占非重复的积分结果集中积分总数量的比例,作为所述积分模型在该当前阈值下的准确度;继续遍历得到下一积分,作为当前阈值,重新执行对于非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值,直至整个积分结果集遍历完成。
本发明对具体的遍历方式不做限定,例如,可以为前序遍历、中序遍历或后序遍历等等。
示例性的,非重复的积分结果集包括样本A、B、C、D的积分,分别为60、70、50、80;可以随机选择一个样本A的积分作为当前阈值,也就是当前阈值为60,则分别判断样本A、B、C、D的积分是否不小于该当前阈值,若不小于,则确定具有该积分的样本为正样本,也就是可以在当前阈值为60的情况下,可以确定A、B、D为正样本;样本C为负样本;而通过S101所获得的正样本包括B、D,负样本包括A、C,则积分模型在该当前阈值下的准确度为3/4=0.75。进而,将样本A以外的样本的积分作为当前阈值,采用同样的方式判断积分模型在该当前阈值下的准确度;直至A、B、C、D的积分均作过当前阈值。
一种实现方式中,在确定所述积分模型在该当前阈值下的准确度之后,所述方法还包括:
判断所述积分模型在该当前阈值下的准确度是否小于预设准确度阈值;
若小于,则舍弃该当前阈值及该准确度;若不小于,则保存该当前阈值及该准确度。
预设准确度阈值可以根据需求事先设定,例如,可以为0.5,当准确度<0.5,则舍弃该阈值;当准确度>=0.5,则保留该阈值;
从而,可以将积分模型在当前阈值下的准确度与积分模型在上一当前阈值下的准确度进行比较,保留较大的准确度和对应的阈值,通过这种方式,可以得到积分模型的准确度最高者对应的当前阈值,进而得到目标阈值,保证了应用积分模型和阈值确定样本标签的准确度。或者,在其他方式中,还可以在获得积分模型在每一当前阈值下的准确度后,直接选择出积分模型的准确度最高者对应的当前阈值作为目标阈值。
在目标阈值确定以后,一种实现方式中,用户还可以根据业务经验和具体需求选择是否修改积分模型中的标签组合及权重。若检测到用户的修改指令后,表明用户选择修改积分模型,则可以从正样本所具有的标签中,选择积分模型中变量标签以外的标签作为补充并获得用户针对所选的标签手动配置的权重,对所获得的每一标签的权重进行归一化,用所获得的标签和归一化后的权重调整所述积分模型中相应标签的权重,基于调整权重后的积分模型计算各样本的积分、并重新计算模型阈值和准确度;直至用户不再修改或补充。
若在未检测到用户的修改指令的情况下,表明用户选择不修改,可以将积分模型及目标阈值存入数据库。数据库可以为Mysql数据库或ACCESS数据库等等。
S104、针对待分析的每一数据对象,基于所述积分模型计算该数据对象的积分;判断该数据对象的积分是否小于所述目标阈值,若不小于,确定该数据对象具有目标标签。
数据库中各个数据对象可以均为待分析的每一数据对象,每个数据对象可以具有一个或多个标签,需要确定待分析的数据对象是否具有目标标签。例如,目标标签为涉毒标签,某个人具有的标签可以包括是否为男性标签、是否为少年标签、是否频繁入住酒店标签等等,需要通过分析确定这个人是否具有涉毒标签。可以采用与S103中基于积分模型计算各样本积分相同的方式,计算各数据对象在积分模型下的积分;进而,将各个数据对象的积分与目标阈值比较,若数据对象的积分不小于目标阈值,则确定该数据对象具有目标标签,表明数据对象命中目标标签,该数据对象目标标签的标签值可以为“1”;若数据对象的积分小于目标阈值,则确定该数据对象不具有目标标签,表明当前对象未命中目标标签,该数据对象目标标签的标签值可以为“0”。
可以看出,若获得一些已知具有犯罪标签的正样本,就可以从所有未知是否具有犯罪标签的数据对象中确定出具有犯罪标签的数据对象,实现对高危人群的犯罪预警和管控,并实现了将警务人员自身的业务经验数字化,为警务人员提供自动化地情报信息分析与研判功能,还可以给出量化的准确度指标参考。不管警务人员是否具有分析目标标签的业务经验,均可快速准确地进行获得具有目标标签的数据对象,为数据对象生成目标标签;在建立积分模型的过程中,通过加入人工干预的步骤,可进一步地使积分模型贴近实际需求,提高合理性和准确性。
应用本发明实施例,可以基于所保留的各变量标签及其特征关联值构建积分模型,进而基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值,最后,基于积分模型计算每一数据对象的积分;并确定积分不小于目标阈值的数据对象具有目标标签。实现了从海量数据对象中确定具有目标标签的数据对象,提高了数据对象分析的效率和准确率。
与上述的方法实施例相对应,本发明实施例还提供一种基于机器学习的数据对象分析装置。
参见图2,图2为本发明实施例所提供的一种基于机器学习的数据对象分析装置的结构示意图,所述装置包括:
第一获得模块,用于获得各个样本,所述样本包括正样本和负样本;每一样本具有标签;所述正样本具有目标标签;
第二获得模块,用于将所获得的所有样本输入机器学习算法,得到与所述目标标签相关的各变量标签及各变量标签的特征关联值;调用相关性分析算法分析各变量标签和所述目标标签之间的相关性,得到各变量标签和所述目标标签之间的等级相关系数;保留等级相关系数为正的各变量标签;基于所保留的各变量标签及其特征关联值构建积分模型;
计算模块,用于基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值;
确定模块,用于针对待分析的每一数据对象,基于所述积分模型计算该数据对象的积分;判断该数据对象的积分是否小于所述目标阈值,若不小于,确定该数据对象具有目标标签。
应用本发明实施例,可以基于所保留的各变量标签及其特征关联值构建积分模型,进而基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值,最后,基于积分模型计算每一数据对象的积分;并确定积分不小于目标阈值的数据对象具有目标标签。实现了从海量数据对象中确定具有目标标签的数据对象,提高了数据对象分析的效率和准确率。
可选的,所述第一获得模块获得各个样本,具体为:
将预先已知具有目标标签的目标数据对象作为正样本;从数据库中选择除所述目标数据对象以外的目标数量个数据对象作为负样本;其中,所述目标数量与所述正样本的数量满足预设比例。
可选的,所述相关性分析算法为斯皮尔曼相关性系数算法。
可选的,所述第二获得模块基于所保留的各变量标签及其特征关联值构建积分模型,具体为:
针对所保留的每一变量标签,将该变量标签的特征关联值作为该变量标签的初始权重;对所保留的各变量标签的初始权重进行归一化,得到各变量标签的目标权重;
用所保留的各变量标签及其目标权重构成积分模型。
可选的,所述装置还包括重构模块,用于:
在检测到用户输入的标签组合和标签组合中每一标签的权重后,对标签组合中每一标签的权重进行归一化,将用户输入的标签组合和归一化后的权重加入所述积分模型,基于加入标签组合和权重后的积分模型计算各样本的积分。
可选的,所述计算模块基于所构建的积分模型计算各样本的积分,具体为:
针对每一样本,对于该样本所具有的非频次型标签,若所述积分模型的变量标签中包含该非频次型标签,则用所述积分模型中该非频次型标签的权重与预设值之积作为该非频次型标签的积分值;若所述积分模型的变量标签中不包含该非频次型标签,则设置该非频次型标签的积分值为零;对于该样本所具有的频次型标签,若所述积分模型的变量标签中包含该频次型标签,当该频次型标签在样本中的频次不小于该频次型标签的预设频次阈值时,则用所述积分模型中该频次型标签的权重与所述预设值之积作为该频次型标签的积分值;当该频次型标签在该样本中的频次小于该频次型标签的预设频次阈值时,则用该频次型标签的权重、预设值以及该频次型标签在该样本中的频次之积除以该频次型标签的预设频次阈值,将所得的商作为该频次型标签的积分值;将由该样本的所有标签所得的积分值之和取整,作为该样本的积分。
可选的,所述方法还包括去重模块,用于在将所得的积分依次作为当前阈值之前,将所得的积分去重,得到非重复的积分结果集;
所述计算模块将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度,具体为:依次遍历非重复的积分结果集,将当前遍历所得的积分作为当前阈值,对于非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值;若该积分不小于该当前阈值,确定具有该积分的样本为正样本;否则,确定具有该积分的样本为负样本;对于非重复的积分结果集中的每一积分所属的样本,若所确定的该样本的样本类型与所获得的该样本的类型相同,则确定所述积分模型判断正确;否则确定所述积分模型判断不正确;统计所述积分模型在该当前阈值下的判断正确的次数占非重复的积分结果集中积分总数量的比例,作为所述积分模型在该当前阈值下的准确度;继续遍历得到下一积分,作为当前阈值,重新执行对于非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值,直至整个积分结果集遍历完成。
可选的,所述装置还包括判断模块,用于:
在确定所述积分模型在该当前阈值下的准确度之后,判断所述积分模型在该当前阈值下的准确度是否小于预设准确度阈值;
若小于,则舍弃该当前阈值及该准确度;若不小于,则保存该当前阈值及该准确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于机器学习的数据对象分析方法,其特征在于,所述方法包括:
获得各个样本,所述样本包括正样本和负样本,所述正样本具有犯罪标签;每一样本具有标签;所述犯罪标签为目标标签;
将所获得的所有样本输入机器学习算法,得到与所述目标标签相关的各变量标签及各变量标签的特征关联值;调用相关性分析算法分析各变量标签和所述目标标签之间的相关性,得到各变量标签和所述目标标签之间的等级相关系数;保留等级相关系数为正的各变量标签;基于所保留的各变量标签及其特征关联值构建积分模型;
基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值;
针对待分析的每一数据对象,基于所述积分模型计算该数据对象的积分,所述待分析的数据对象包括是否具有犯罪标签的数据对象;判断该数据对象的积分是否小于所述目标阈值,若不小于,确定该数据对象具有目标标签;就可以从所有未知是否具有犯罪标签的数据对象中确定出具有犯罪标签的数据对象,实现对高危人群的犯罪预警和管控;
其中,所述标签包括人员标签、物品标签、关系标签、地点标签及案件标签中的一种或多种;
在将所得的积分依次作为当前阈值之前,所述方法还包括将所得的积分去重,得到非重复的积分结果集;
其中,将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度,包括:依次遍历所述非重复的积分结果集,将当前遍历所得的积分作为当前阈值,对于所述非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值;若该积分不小于该当前阈值,确定具有该积分的样本为正样本;否则,确定具有该积分的样本为负样本;对于非重复的积分结果集中的每一积分所属的样本,若所确定的该样本的样本类型与所获得的该样本的类型相同,则确定所述积分模型判断正确;否则确定所述积分模型判断不正确;统计所述积分模型在该当前阈值下的判断正确的次数占非重复的积分结果集中积分总数量的比例,作为所述积分模型在该当前阈值下的准确度;继续遍历得到下一积分,作为当前阈值,重新执行对于非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值,直至整个积分结果集遍历完成。
2.根据权利要求1所述的方法,其特征在于,获得各个样本,包括:
将预先已知具有目标标签的目标数据对象作为正样本;从数据库中选择除所述目标数据对象以外的目标数量个数据对象作为负样本;其中,所述目标数量与所述正样本的数量满足预设比例。
3.根据权利要求1所述的方法,其特征在于,所述相关性分析算法为斯皮尔曼相关性系数算法。
4.根据权利要求1所述的方法,其特征在于,基于所保留的各变量标签及其特征关联值构建积分模型,包括:
针对所保留的每一变量标签,将该变量标签的特征关联值作为该变量标签的初始权重;对所保留的各变量标签的初始权重进行归一化,得到各变量标签的目标权重;
用所保留的各变量标签及其目标权重构成积分模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到用户输入的标签组合和标签组合中每一标签的权重后,对标签组合中每一标签的权重进行归一化,将用户输入的标签组合和归一化后的权重加入所述积分模型,基于加入标签组合和权重后的积分模型计算各样本的积分。
6.根据权利要求1所述的方法,其特征在于,基于所构建的积分模型计算各样本的积分,包括:
针对每一样本,对于该样本所具有的非频次型标签,若所述积分模型的变量标签中包含该非频次型标签,则用所述积分模型中该非频次型标签的权重与预设值之积作为该非频次型标签的积分值;若所述积分模型的变量标签中不包含该非频次型标签,则设置该非频次型标签的积分值为零;对于该样本所具有的频次型标签,若所述积分模型的变量标签中包含该频次型标签,当该频次型标签在样本中的频次不小于该频次型标签的预设频次阈值时,则用所述积分模型中该频次型标签的权重与所述预设值之积作为该频次型标签的积分值;当该频次型标签在该样本中的频次小于该频次型标签的预设频次阈值时,则用该频次型标签的权重、预设值以及该频次型标签在该样本中的频次之积除以该频次型标签的预设频次阈值,将所得的商作为该频次型标签的积分值;将由该样本的所有标签所得的积分值之和取整,作为该样本的积分。
7.根据权利要求1所述的方法,其特征在于,在确定所述积分模型在该当前阈值下的准确度之后,所述方法还包括:
判断所述积分模型在该当前阈值下的准确度是否小于预设准确度阈值;
若小于,则舍弃该当前阈值及该准确度;若不小于,则保存该当前阈值及该准确度。
8.一种基于机器学习的数据对象分析装置,其特征在于,所述装置包括:
第一获得模块,用于获得各个样本,所述样本包括正样本和负样本,所述正样本具有犯罪标签;每一样本具有标签;所述犯罪标签为目标标签;
第二获得模块,用于将所获得的所有样本输入机器学习算法,得到与所述目标标签相关的各变量标签及各变量标签的特征关联值;调用相关性分析算法分析各变量标签和所述目标标签之间的相关性,得到各变量标签和所述目标标签之间的等级相关系数;保留等级相关系数为正的各变量标签;基于所保留的各变量标签及其特征关联值构建积分模型;
计算模块,用于基于所构建的积分模型计算各样本的积分;将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度;将所述积分模型的准确度最高者对应的当前阈值作为目标阈值;
确定模块,用于针对待分析的每一数据对象,基于所述积分模型计算该数据对象的积分,所述待分析的数据对象包括是否具有犯罪标签的数据对象;判断该数据对象的积分是否小于所述目标阈值,若不小于,确定该数据对象具有目标标签,就可以从所有未知是否具有犯罪标签的数据对象中确定出具有犯罪标签的数据对象,实现对高危人群的犯罪预警和管控;
其中,所述标签包括人员标签、物品标签、关系标签、地点标签及案件标签中的一种或多种;
在将所得的积分依次作为当前阈值之前,所述装置还包括将所得的积分去重,得到非重复的积分结果集;
其中,将所得的积分依次作为当前阈值,基于当前阈值计算所述积分模型的准确度,包括:依次遍历所述非重复的积分结果集,将当前遍历所得的积分作为当前阈值,对于所述非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值;若该积分不小于该当前阈值,确定具有该积分的样本为正样本;否则,确定具有该积分的样本为负样本;对于非重复的积分结果集中的每一积分所属的样本,若所确定的该样本的样本类型与所获得的该样本的类型相同,则确定所述积分模型判断正确;否则确定所述积分模型判断不正确;统计所述积分模型在该当前阈值下的判断正确的次数占非重复的积分结果集中积分总数量的比例,作为所述积分模型在该当前阈值下的准确度;继续遍历得到下一积分,作为当前阈值,重新执行对于非重复的积分结果集中的每一积分,判断该积分是否小于该当前阈值,直至整个积分结果集遍历完成。
9.根据权利要求8所述的装置,其特征在于,所述第一获得模块获得各个样本,具体为:
将预先已知具有目标标签的目标数据对象作为正样本;从数据库中选择除所述目标数据对象以外的目标数量个数据对象作为负样本;其中,所述目标数量与所述正样本的数量满足预设比例。
CN201910650811.9A 2019-07-18 2019-07-18 一种基于机器学习的数据对象分析方法及装置 Active CN110533190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650811.9A CN110533190B (zh) 2019-07-18 2019-07-18 一种基于机器学习的数据对象分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650811.9A CN110533190B (zh) 2019-07-18 2019-07-18 一种基于机器学习的数据对象分析方法及装置

Publications (2)

Publication Number Publication Date
CN110533190A CN110533190A (zh) 2019-12-03
CN110533190B true CN110533190B (zh) 2023-09-05

Family

ID=68660581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650811.9A Active CN110533190B (zh) 2019-07-18 2019-07-18 一种基于机器学习的数据对象分析方法及装置

Country Status (1)

Country Link
CN (1) CN110533190B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098699B1 (en) * 2013-09-25 2015-08-04 Emc Corporation Smart television data sharing to provide security
CN105260371A (zh) * 2014-07-17 2016-01-20 华为技术有限公司 一种特征选择方法及装置
CN105809190A (zh) * 2016-03-03 2016-07-27 南京邮电大学 一种基于特征选取的svm级联分类器方法
CN106227863A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 在案件串并和嫌疑人排查中的数据挖掘方法
CN107729465A (zh) * 2017-10-12 2018-02-23 杭州中奥科技有限公司 人物危险度的评估方法、装置及电子设备
CN108460049A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 一种确定信息类别的方法和系统
CN108665085A (zh) * 2017-03-31 2018-10-16 北京明略软件系统有限公司 一种隐性重点人获取方法和系统
CN108805142A (zh) * 2018-05-31 2018-11-13 中国华戎科技集团有限公司 一种犯罪高危人员研判方法及系统
CN109389511A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 保险产品开发方法、装置、终端及计算机可读存储介质
KR101961462B1 (ko) * 2017-10-16 2019-03-22 경북대학교 산학협력단 객체 인식 방법 및 장치
CN109711469A (zh) * 2018-12-27 2019-05-03 苏州大学 一种基于半监督邻域判别指数的乳腺癌诊断系统
CN109815403A (zh) * 2019-01-29 2019-05-28 北京奇艺世纪科技有限公司 一种样本筛选方法及装置
CN109840612A (zh) * 2018-07-24 2019-06-04 上海赢科信息技术有限公司 用户驾驶行为分析方法及系统
CN110009479A (zh) * 2019-03-01 2019-07-12 百融金融信息服务股份有限公司 信用评价方法及装置、存储介质、计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ572036A (en) * 2008-10-15 2010-03-26 Nikola Kirilov Kasabov Data analysis and predictive systems and related methodologies
WO2011014471A1 (en) * 2009-07-27 2011-02-03 Sensis Corporation System and method for correlating past activities, determining hidden relationships and predicting future activities
US9122958B1 (en) * 2014-02-14 2015-09-01 Social Sweepster, LLC Object recognition or detection based on verification tests
JP6678930B2 (ja) * 2015-08-31 2020-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
US20180144270A1 (en) * 2016-11-23 2018-05-24 Primal Fusion Inc. System and method for modifying a knowledge representation based on a machine learning classifier

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098699B1 (en) * 2013-09-25 2015-08-04 Emc Corporation Smart television data sharing to provide security
CN105260371A (zh) * 2014-07-17 2016-01-20 华为技术有限公司 一种特征选择方法及装置
CN105809190A (zh) * 2016-03-03 2016-07-27 南京邮电大学 一种基于特征选取的svm级联分类器方法
CN106227863A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 在案件串并和嫌疑人排查中的数据挖掘方法
CN108460049A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 一种确定信息类别的方法和系统
CN108665085A (zh) * 2017-03-31 2018-10-16 北京明略软件系统有限公司 一种隐性重点人获取方法和系统
CN107729465A (zh) * 2017-10-12 2018-02-23 杭州中奥科技有限公司 人物危险度的评估方法、装置及电子设备
KR101961462B1 (ko) * 2017-10-16 2019-03-22 경북대학교 산학협력단 객체 인식 방법 및 장치
CN108805142A (zh) * 2018-05-31 2018-11-13 中国华戎科技集团有限公司 一种犯罪高危人员研判方法及系统
CN109840612A (zh) * 2018-07-24 2019-06-04 上海赢科信息技术有限公司 用户驾驶行为分析方法及系统
CN109389511A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 保险产品开发方法、装置、终端及计算机可读存储介质
CN109711469A (zh) * 2018-12-27 2019-05-03 苏州大学 一种基于半监督邻域判别指数的乳腺癌诊断系统
CN109815403A (zh) * 2019-01-29 2019-05-28 北京奇艺世纪科技有限公司 一种样本筛选方法及装置
CN110009479A (zh) * 2019-03-01 2019-07-12 百融金融信息服务股份有限公司 信用评价方法及装置、存储介质、计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邴昊天.《基于数据挖掘的公共交通用户出行行为分析》.《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》.2019,全文. *

Also Published As

Publication number Publication date
CN110533190A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN108108902B (zh) 一种风险事件告警方法和装置
CN110377558A (zh) 文档查询方法、装置、计算机设备和存储介质
CN110263326B (zh) 一种用户行为预测方法、预测装置、存储介质及终端设备
CN110874744A (zh) 一种数据异常检测方法及装置
CN108664605B (zh) 一种模型评估方法及系统
CN110533190B (zh) 一种基于机器学习的数据对象分析方法及装置
CN110287302B (zh) 一种国防科技领域开源信息置信度确定方法及系统
CN113032524A (zh) 商标侵权识别方法、终端设备及存储介质
CN109636378B (zh) 账户识别方法和装置、电子设备
CN116705310A (zh) 围术期风险评估的数据集构建方法、装置、设备及介质
CN116340831A (zh) 一种信息分类方法、装置、电子设备及存储介质
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN116167457A (zh) 一种数据标注方法、装置、计算机设备和存储介质
CN116383423A (zh) 图像检索结果的重排方法、装置、计算机设备及介质
CN115101160A (zh) 药品销售数据挖掘和检索方法及装置
CN114782224A (zh) 基于用户特征的网页考评作弊监测方法、装置及电子设备
CN114581251A (zh) 数据校验方法、装置、计算机设备及计算机可读存储介质
CN113760918A (zh) 一种确定数据血缘关系的方法、装置、计算机设备和介质
CN114020643B (zh) 一种知识库测试方法及装置
CN110032723B (zh) 句子分类的测试方法、装置、服务器及可读存储介质
CN115017290B (zh) 基于协同对抗训练的档案问答系统优化方法和装置
CN112712075B (zh) 算式检测方法、电子设备和存储装置
CN111126465B (zh) 节点分类方法、装置、终端设备及计算机可读存储介质
CN114723488B (zh) 课程推荐方法、装置、电子设备及存储介质
CN113129057A (zh) 软件造价信息的处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant