CN110580490A - 一种确定人员行为概率的方法、装置及设备 - Google Patents
一种确定人员行为概率的方法、装置及设备 Download PDFInfo
- Publication number
- CN110580490A CN110580490A CN201810593773.3A CN201810593773A CN110580490A CN 110580490 A CN110580490 A CN 110580490A CN 201810593773 A CN201810593773 A CN 201810593773A CN 110580490 A CN110580490 A CN 110580490A
- Authority
- CN
- China
- Prior art keywords
- attribute information
- sample
- identified
- behavior
- personnel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种确定人员行为概率的方法、装置及设备,方法包括:以样本人员的行为记录为监督,以样本人员的属性信息为输入,对预设分类器进行训练,得到识别模型;人员的行为记录能够反应人员的行为概率,训练得到识别类型的过程也就是学习行为概率与人员属性之间关联关系的过程,因此,将待识别属性信息输入识别模型,能够得到待识别人员的行为概率;可见,本方案中,利用识别模型确定人员行为概率,对专家经验依赖程度较低,提高了确定人员行为概率的效率。
Description
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种确定人员行为概率的方法、装置及设备。
背景技术
一些场景中,通常需要确定人员的行为概率。举例来说,行为概率可以为危险行为概率;比如,当发生不良案件后,通常需要识别出危险行为概率较大的人员,也就是嫌疑较大的人员。或者,人员行为概率也可以为购买行为概率,如购买某商品的概率等;购物网站通常需要分析人员的购买行为概率,以便制定销售策略。或者,人员行为概率也可以为观看视频行为概率,如观看某视频的概率等;视频网站通常需要分析人员的观看视频行为概率,以便制定推送策略。
现有方案中,一般依赖专家经验确定人员行为概率。而专家数量毕竟有限,也就导致了确定人员行为概率的效率较低。
发明内容
本发明实施例的目的在于提供一种确定人员行为概率的方法、装置及设备,以提高确定人员行为概率的效率。
为达到上述目的,本发明实施例提供了一种确定人员行为概率的方法,包括:获取待识别人员的属性信息,作为待识别属性信息;
将所述待识别属性信息输入至预先建立的识别模型,得到所述待识别人员的行为概率;其中,所述识别模型为:以多个样本人员的属性信息为输入,以所述多个样本人员的行为记录为监督,对预设分类器进行训练得到的。
可选的,属性信息包括以下任意一种式多种类型的属性:静态属性、行为属性、关系属性;
所述获取待识别人员的属性信息,作为待识别属性信息,可以包括:
获取待识别人员的候选待识别属性信息;
对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息。
可选的,所述识别模型的建立过程可以包括:
获取多个样本人员的候选样本属性信息;
对所述候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息;其中,所述清洗操作包括以下任意一项或多项:去冗余、去噪声、缺失值处理、异常处理;
对所述清洗后的候选样本属性信息进行特征提取,得到样本属性信息;
获取所述多个样本人员的行为记录;
以所述行为记录为监督,以所述样本属性信息为输入,对预设分类器进行训练,得到所述识别模型。
可选的,所述对所述候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息,可以包括:
将所获取的候选样本属性信息添加至样本数据集合;
对所述样本数据集合中的不完整属性信息进行缺失值处理,得到缺失值处理后的样本数据集合;
对所述缺失值处理后的样本数据集合进行去冗余、及去噪声处理,得到去噪声处理后的样本数据集合;
对所述去噪声处理后的样本数据集合中的异常数据进行异常处理,得到异常处理后的样本数据集合,将所述异常处理后的样本数据集合中的每条候选样本属性信息作为清洗后的候选样本属性信息。
可选的,所述对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息,可以包括:
将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息;
对所述第一变换后的属性信息进行数据规约,得到第一规约后的属性信息;
对所述第一规约后的属性信息进行降维,得到第一降维后的属性信息,作为待识别属性信息。
可选的,所述将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息,可以包括:
对所述候选待识别属性信息进行归一化处理和/或离散化处理,得到第一变换后的属性信息。
可选的,所述行为记录为案件记录;所述行为概率为:存在关联案件的概率;所述识别模型的建立过程可以包括:
将样本人员的样本属性信息输入至预设分类器,得到输出内容;
将所述输出内容与样本人员的案件记录进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型;其中,样本人员的案件记录包括:样本人员是否存在关联案件;所述输出内容为样本人员存在关联案件的概率。
为达到上述目的,本发明实施例还提供了一种确定人员行为概率的装置,包括:
第一获取模块,用于获取待识别人员的属性信息,作为待识别属性信息;
识别模块,用于将所述待识别属性信息输入至预先建立的识别模型,得到所述待识别人员的行为概率;其中,所述识别模型为:以多个样本人员的属性信息为输入,以所述多个样本人员的行为记录为监督,对预设分类器进行训练得到的。
可选的,属性信息包括以下任意一种式多种类型的属性:静态属性、行为属性、关系属性;所述第一获取模块,包括:获取子模块和提取子模块;
所述获取子模块,用于获取待识别人员的候选待识别属性信息;
所述提取子模块,用于对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息。
可选的,所述装置还包括:
第二获取模块,用于获取多个样本人员的候选样本属性信息;
清洗模块,用于对所述候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息;其中,所述清洗操作包括以下任意一项或多项:去冗余、去噪声、缺失值处理、异常处理;
提取模块,用于对所述清洗后的候选样本属性信息进行特征提取,得到样本属性信息;
第三获取模块,用于获取所述多个样本人员的行为记录;
第一训练模块,用于以所述行为记录为监督,以所述样本属性信息为输入,对预设分类器进行训练,得到所述识别模型。
可选的,所述清洗模块,具体可以用于:
将所获取的候选样本属性信息添加至样本数据集合;
对所述样本数据集合中的不完整属性信息进行缺失值处理,得到缺失值处理后的样本数据集合;
对所述缺失值处理后的样本数据集合进行去冗余、及去噪声处理,得到去噪声处理后的样本数据集合;
对所述去噪声处理后的样本数据集合中的异常数据进行异常处理,得到异常处理后的样本数据集合,将所述异常处理后的样本数据集合中的每条候选样本属性信息作为清洗后的候选样本属性信息。
可选的,所述提取子模块,具体可以用于:
将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息;
对所述第一变换后的属性信息进行数据规约,得到第一规约后的属性信息;
对所述第一规约后的属性信息进行降维,得到第一降维后的属性信息,作为待识别属性信息。
可选的,所述提取子模块,还可以用于:
对所述候选待识别属性信息进行归一化处理和/或离散化处理,得到第一变换后的属性信息。
可选的,所述行为记录为案件信息;所述行为概率为:存在关联案件的概率;所述装置还可以包括:
第二训练模块,用于将样本人员的样本属性信息输入至预设分类器,得到输出内容;将所述输出内容与样本人员的案件信息进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型;其中,样本人员的案件信息包括:样本人员是否存在关联案件;所述输出内容为样本人员存在关联案件的概率。
为达到上述目的,本发明实施例还提供了一种电子设备,包括处理器和存储器;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一种确定人员行为概率的方法。
为达到上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种确定人员行为概率的方法。
应用本发明所示实施例确定人员行为概率时,以样本人员的行为记录为监督,以样本人员的属性信息为输入,对预设分类器进行训练,得到识别模型;人员的行为记录能够反应人员的行为概率,训练得到识别类型的过程也就是学习行为概率与人员属性之间关联关系的过程,因此,将待识别属性信息输入识别模型,能够得到待识别人员的行为概率;可见,本方案中,利用识别模型确定人员行为概率,对专家经验依赖程度较低,提高了确定人员行为概率的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种确定人员行为概率方法的流程示意图;
图2为本发明实施例提供的一种数据清洗操作的流程示意图;
图3为本发明实施例提供的一种建立识别模型的流程示意图;
图4为本发明实施例提供的一种实施方式示意图;
图5为本发明实施例提供的一种确定人员行为概率装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决上述技术问题,本发明实施例提供了一种确定人员行为概率的方法、装置及设备。该方法可以应用于手机、电脑等各种电子设备,具体不做限定。下面首先对本发明实施例提供的确定人员行为概率的方法进行详细说明。
图1为本发明实施例提供的一种确定人员行为概率方法的流程示意图,包括:
S101:获取待识别人员的属性信息,作为待识别属性信息。
待识别人员即为需要确定行为概率的人员,举例来说,行为概率可以为危险行为概率,比如,当发生不良案件后,通常需要识别出危险行为概率较大的人员,也就是嫌疑较大的人员。或者,人员行为概率也可以为购买行为概率,如购买某商品的概率等。或者,人员行为概率也可以为观看视频行为概率,如观看某视频的概率等。人员行为概率有多种,不再一一列举。
以行为概率为危险行为概率为例来说,可以将危险行为概率理解为人员存在关联案件的概率。比如,危险行为概率可以为0-100之间的数值,0表示危险行为概率最低,或者说存在关联案件的概率最低;100表示危险行为概率最高,或者说存在关联案件的概率最高。或者,危险行为概率可以为0-1之间的数值,0表示危险行为概率最低,或者说存在关联案件的概率最低;1表示危险行为概率最高,或者说存在关联案件的概率最高。关联案件可以为人员的不良事件,如果人员参与一些不良事件,则表示人员存在关联案件。
属性信息可以包括以下任意一种或多种类型的属性:静态属性、行为属性、关系属性。静态属性可以包括自然属性,如性别、身高、年龄等;还可以包括财物属性,如收入状况、名下不动产等等。行为属性可以包括人员的吃住行等属性,比如,人员去过的饭店、旅店、人员乘坐的交通工具信息等等;还可以包括上网等娱乐行为,如人员去过的网吧、娱乐场所信息等等。关系属性可以包括亲属关系,还可以包括行为关系,如一同出入过饭店、旅店、网吧、娱乐场所等等。
举例来说,可以接收用户发送的待识别属性信息;也可以从一个或多个数据源中获取待识别属性信息;得到待识别属性信息的方式有多种,具体不做限定。
S102:将该待识别属性信息输入至预先建立的识别模型,得到该待识别人员的行为概率。
其中,该识别模型为:以多个样本人员的属性信息为输入,以所述多个样本人员的行为记录为监督,对预设分类器进行训练得到的。具体的,该识别模型的建立过程可以包括:
获取多个样本人员的属性信息,作为样本属性信息;获取该多个样本人员的行为记录;以该行为记录为监督,以该样本属性信息为输入,对预设分类器进行训练,得到该识别模型。
本实施例中,获取一些人员的属性信息,作为分类器的训练样本,因此,将这些人员称为样本人员,将这些属性信息称为样本属性信息。该预设分类器可以为决策树分类器、选择树分类器、证据分类器等各种类型的分类器,也可以为深度学习网络、机器学习网络等,具体不做限定。
如果行为概率为危险行为概率,则行为记录可以为案件记录。如果行为概率为购买行为概率,则行为记录可以为网购记录。如果行为概率为观看视频行为概率,则行为记录可以为观看视频记录。
以行为概率为危险行为概率为例来说,对分类器进行训练时,分类器的输出内容可以为人员存在关联案件的概率。以人员的案件记录为监督,对预设分类器进行训练,也就是将分类器的输出内容与人员的案件记录进行对比,根据对比结果对分类器中的参数进行调整。
这种情况下,对分类器进行训练的过程可以理解为:分类器学习得到危险人员特有属性的过程;也就是说,训练得到的识别模型中包含危险人员的各种特有属性。将待识别属性信息输入至该识别模型,也就是识别该待识别属性信息中是否包含危险人员的各种特有属性:如果该待识别属性信息中包含较多危险人员的特有属性,则表示待识别人员危险行为概率较高。
或者,对分类器进行训练的过程可以理解为:分类器学习得到非危险人员特有属性的过程;也就是说,训练得到的识别模型中包含非危险人员的各种特有属性。将待识别属性信息输入至该识别模型,也就是识别该待识别属性信息中是否包含非危险人员的各种特有属性:如果该待识别属性信息中包含较多非危险人员的特有属性,则表示待识别人员危险行为概率较低。
或者,分类器既可以学习危险人员的特有属性,也可以学习非危险人员的特有属性,这样,从两方面识别人员的危险行为概率,识别结果更准确。
以行为概率为购物行为概率为例来说,对分类器进行训练时,分类器的输出内容可以为人员购买某商品的概率。以人员的网购记录为监督,对预设分类器进行训练,也就是将分类器的输出内容与人员的网购记录进行对比,根据对比结果对分类器中的参数进行调整。
类似的,这种情况下,对分类器进行训练的过程可以理解为:分类器学习得到购买某商品的人员特有属性的过程,或者为,分类器学习得到不购买某商品的人员特有属性的过程。
以行为概率为观看视频行为概率为例来说,对分类器进行训练时,分类器的输出内容可以为人员观看某视频的概率。以人员的观看视频记录为监督,对预设分类器进行训练,也就是将分类器的输出内容与人员的观看视频记录进行对比,根据对比结果对分类器中的参数进行调整。
类似的,这种情况下,对分类器进行训练的过程可以理解为:分类器学习得到观看某视频的人员特有属性的过程,或者为,分类器学习得到不观看某视频的人员特有属性的过程。
具体来说,训练得到识别模型的过程可以包括:
将样本人员的样本属性信息输入至预设分类器,得到输出内容;
将所述输出内容与样本人员的行为记录进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型。
举例来说,迭代结束条件可以为迭代次数达到预设阈值;或者,迭代结束条件可以为:分类器的输出内容与人员的行为记录满足匹配条件。匹配条件可以根据实际需求进行设定,比如,可以为全部样本人员对应的输出内容与行为记录都相匹配,或者90%样本人员对应的输出内容与行为记录相匹配,等等,具体不做限定。
对于一个人员来说,他(或她)对应的输出内容与他(或她)的行为记录是否相匹配,也可以根据实际情况设定。比如,以行为概率为危险行为概率为例来说,样本人员的案件记录(行为记录)可以包括样本人员是否存在关联案件;输出内容可以为样本人员存在关联案件的概率;假设样本人员A存在关联案件,将样本人员A的属性信息输出分类器,如果输出的概率值大于80,则表示样本人员A对应的输出内容与样本人员A的案件记录相匹配。
以行为概率为购买行为概率来说,样本人员的网购记录(行为记录)可以包括样本人员是否购买过商品Z;输出内容可以为样本人员购买商品Z的概率;假设样本人员A购买过商品Z,将样本人员A的属性信息输出分类器,如果输出的概率值大于80,则表示样本人员A对应的输出内容与样本人员A的网购记录相匹配。
以行为概率为观看行为概率来说,样本人员的观看视频记录(行为记录)可以包括样本人员是否观看过视频X;输出内容可以为样本人员观看视频X的概率;假设样本人员A观看过视频X,将样本人员A的属性信息输出分类器,如果输出的概率值大于80,则表示样本人员A对应的输出内容与样本人员A的观看视频记录相匹配。
如果行为记录为案件记录,行为概率为存在关联案件的概率,作为一种实施方式,训练得到识别模型的过程可以包括:
将样本人员的样本属性信息输入至预设分类器,得到输出内容;
将所述输出内容与样本人员的行为记录进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型;其中,样本人员的行为记录包括:样本人员是否存在关联案件;所述输出内容为样本人员存在关联案件的概率。
如上所述,人员的案件记录可以包括:人员是否存在关联案件,此外,人员的案件记录还可以包括存在的关联案件的类型等信息,这样,分类器及识别模型的输出内容中可以包括多种类型案件对应的概率。
比如,将关联案件进行分类,分为盗窃案件和斗殴案件两种类型;假设样本人员A的案件记录中既包括盗窃案件又包括斗殴案件,样本人员B的案件记录中包括盗窃案件,样本人员C的案件记录中包括斗殴案件,样本人员D的案件记录中不存在关联案件。则对分类器进行训练时,分类器的理想输出内容为:样本人员A,盗窃案件概率为100,斗殴案件概率为100;样本人员B,盗窃案件概率为100,斗殴案件概率为0;样本人员C,盗窃案件概率为0,斗殴案件概率为100;样本人员D,盗窃案件概率为0,斗殴案件概率为0。
这里并不是说分类器输出上述理想输出内容,训练才能完成,训练完成的条件已经进行了介绍,不再赘述。
本实施例中,所获取的待识别属性信息的类型与样本属性信息的类型可以相同,或者,样本属性信息的类型可以多于待识别属性信息的类型。比如,样本属性信息可以包括静态属性、行为属性、关系属性三种类型,待识别属性信息可以仅为这三种中的一种或两种。
作为一种实施方式,S101可以包括:获取待识别人员的候选待识别属性信息;对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息。这种实施方式中,获取多个样本人员的属性信息,作为样本属性信息,包括:获取多个样本人员的候选样本属性信息,对所述候选样本属性信息进行特征提取,得到样本属性信息。
举例来说,在建立识别模型阶段,可以从一个或多个数据源中,获取样本人员的属性信息,本实施方式中,并不将这些属性信息直接输入至分类器中,而是先将这些属性信息进行特征提取,再将特征提取后得到的信息输入分类器中。为了区分描述,这里将从数据源中获取的信息称为候选样本属性信息,将特征提取后得到的信息称为样本属性信息。
相对应的,在利用识别模型确定人员行为概率阶段,也可以不直接将属性信息输入至识别模型中,而是先将属性信息进行特征提取,再将特征提取后得到的信息输入识别模型中。为了区分描述,将特征提取得到的信息称为待识别属性信息,将特征提取之前的信息称为候选待识别属性信息。
举例来说,特征提取方式可以包括数据变换、数据规约、降维三种处理。也就是说,对候选待识别属性信息进行特征提取,得到待识别属性信息,可以包括:将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息;对所述第一变换后的属性信息进行数据规约,得到第一规约后的属性信息;对所述第一规约后的属性信息进行降维,得到第一降维后的属性信息,作为待识别属性信息。
对所述候选样本属性信息进行特征提取,得到样本属性信息,可以包括;将所述候选样本属性信息进行数据变换,得到第二变换后的属性信息;对所述第二变换后的属性信息进行数据规约,得到第二规约后的属性信息;对所述第二规约后的属性信息进行降维,得到第二降维后的属性信息,作为样本属性信息。
以上两段内容中的“第一”“第二”的描述方式,是为了将“建立识别模型阶段”的特征提取过程与“利用识别模型确定人员行为概率阶段”的特征提取过程相区分。
举例来说,数据变换可以包括归一化处理和/或离散化处理。比如,将身高属性进行归一化处理:假设人员的身高分布区间为[50cm,200cm],通过归一化处理,使得该区间变换到[0,1]的区间。具体的归一化公式可以为:x’=(x-xmin)/(xmax-xmin),其中,x表示人员的身高,x’表示对身高进行归一化处理后的值,xmax表示身高分布区间中的最大值,xmin表示身高分布区间中的最小值。归一化公式也可以为其他,具体不做限定。再比如,可以将连续属性进行离散化处理等。
数据规约可以包括属性构造,比如,假设针对性别和年龄两条属性信息,再构造一条新的属性信息,新的属性信息为:是否满足“性别为男,年龄大于40岁”这一条件。
降维有多种方式,比如PCA(Principal Component Analysis,主成分分析)、计算相关系数、反向特征消除(Backward Feature Elimination)、前向特征构造(ForwardFeature Construction)等等,具体不做限定。
作为一种实施方式,获取到候选样本属性信息之后,还可以先对候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息;其中,所述清洗操作包括以下任意一项或多项:去冗余、去噪声、缺失值处理、异常处理;然后再对清洗后的候选样本属性信息进行特征提取,得到样本属性信息。
可以理解,获取到的候选样本属性信息中可能存在冗余,可能存在噪声,有的属性信息还可能存在缺失,也可能存在异常;而本实施方式中,对候选样本属性信息进行清洗操作,可以包括去冗余、去噪声、缺失值处理、异常处理。
举例来说,可以将所获取的候选样本属性信息添加至样本数据集合;对所述样本数据集合中的不完整属性信息进行缺失值处理,得到缺失值处理后的样本数据集合;对所述缺失值处理后的样本数据集合进行去冗余、及去噪声处理,得到去噪声处理后的样本数据集合;对所述去噪声处理后的样本数据集合中的异常数据进行异常处理,得到异常处理后的样本数据集合,将所述异常处理后的样本数据集合中的每条候选样本属性信息作为清洗后的候选样本属性信息。
对这些不完整属性信息进行缺失值处理的方式可以有多种,比如,删除或者补齐,具体不做限定。举个例子,假设候选样本属性信息包括静态属性、行为属性和关系属性,静态属性包括自然属性和财物属性,行为属性包括人员的吃住行属性,关系属性包括亲属关系和行为关系。假设样本数据集合中存在一些属性信息,缺失了部分数据,比如缺失了财物属性、或者缺失了行为关系等等,缺失数据不再列举,将这引起存在缺失的属性信息称为不完整属性信息。可以将不完整属性信息删除,或者,可以利用与不完整属性信息相似度较高的完整属性信息,对不完整属性信息进行补齐。
对异常数据进行异常处理的方式可以有多种,比如删除或修正。类似的,也可以利用与异常数据相似度较高的数据,对异常数据进行修正。
清洗操作可以如图2所示,针对样本数据集合中的每条候选样本属性信息,进行类似的处理,为了方便描述,以候选样本属性信息Z为例进行说明:先判断Z是否完整,如果完整,直接判断Z是否为冗余数据,如果不完整,先进行缺失值处理,再判断Z是否为冗余数据;如果为冗余数据,则删除Z,如果不为冗余数据,再判断Z是否有噪声;如果有噪声,则先进行平滑处理,再判断Z是否异常,如果没有噪声,则直接判断Z是否异常;如果Z存在异常,则对Z进行异常处理,如果Z不存在异常,则不需要进行异常处理。
本实施例方式中,先对候选样本属性信息进行清洗操作,再对清洗后的候选样本属性信息进行特征提取,得到样本属性信息,该样本属性信息的数据完整性、有效性较好,利用该样本属性信息训练得到识别模型,准确度较高。
应用本发明图1实施例确定人员行为概率时,以样本人员的行为记录为监督,以样本人员的属性信息为输入,对预设分类器进行训练,得到识别模型;人员的行为记录能够反应人员的行为概率,训练得到识别类型的过程也就是学习行为概率与人员属性之间关联关系的过程,因此,将待识别属性信息输入识别模型,能够得到待识别人员的行为概率;可见,本方案中,利用识别模型确定人员行为概率,对专家经验依赖程度较低,提高了确定人员行为概率的效率。另一方面,本方案中的属性信息不仅包含人员的静态属性,还可以包含人员的行为属性、关系属性,识别模型的训练样本更丰富,识别精度更高。
图3为本发明例提供的一种建立识别模型的流程示意图,包括:
S301:获取多个样本人员的候选样本属性信息。
S301中获取的人员的属性信息为分类器的训练样本,因此,将这些人员称为样本人员,将这些属性信息称为样本属性信息。
属性信息可以包括以下任意一种式多种类型的属性:静态属性、行为属性、关系属性。静态属性可以包括自然属性,如性别、身高、年龄等;还可以包括财物属性,如收入状况、名下不动产等等。行为属性可以包括人员的吃住行等属性,比如,人员去过的饭店、旅店、人员乘坐的交通工具信息等等;还可以包括上网等娱乐行为,如人员去过的网吧、娱乐场所信息等等。关系属性可以包括亲属关系,还可以包括行为关系,如一同出入过饭店、旅店、网吧、娱乐场所等等。
举例来说,可以获取样本人员的姓名、性别、身高、年龄等基本信息,如表1所示。
表1
人员ID | 姓名 | 属性1 | 属性2 | 属性3 | …… | 属性n | …… |
1 | 张三 | a<sub>1</sub> | b<sub>1</sub> | c<sub>1</sub> | …… | n<sub>1</sub> | …… |
2 | 李四 | a<sub>2</sub> | b<sub>2</sub> | c<sub>2</sub> | …… | n<sub>2</sub> | …… |
…… | …… | …… | …… | …… | …… | …… | …… |
另外,还可以获取样本人员的住宿行为信息,如表2所示。
表2
S302:对该候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息。
其中,所述清洗操作包括以下任意一项或多项:去冗余、去噪声、缺失值处理、异常处理。
举例来说,可以将所获取的候选样本属性信息添加至样本数据集合;对所述样本数据集合中的不完整属性信息进行缺失值处理,得到缺失值处理后的样本数据集合;对所述缺失值处理后的样本数据集合进行去冗余、及去噪声处理,得到去噪声处理后的样本数据集合;对所述去噪声处理后的样本数据集合中的异常数据进行异常处理,得到异常处理后的样本数据集合,将所述异常处理后的样本数据集合中的每条候选样本属性信息作为清洗后的候选样本属性信息。
对这些不完整属性信息进行缺失值处理的方式可以有多种,比如,删除或者补齐,具体不做限定。举个例子,假设候选样本属性信息包括静态属性、行为属性和关系属性,静态属性包括自然属性和财物属性,行为属性包括人员的吃住行属性,关系属性包括亲属关系和行为关系。假设样本数据集合中存在一些属性信息,缺失了部分数据,比如缺失了财物属性、或者缺失了行为关系等等,缺失数据不再列举,将这引起存在缺失的属性信息称为不完整属性信息。可以将不完整属性信息删除,或者,可以利用与不完整属性信息相似度较高的完整属性信息,对不完整属性信息进行补齐。
对异常数据进行异常处理的方式可以有多种,比如删除或修正。类似的,也可以利用与异常数据相似度较高的数据,对异常数据进行修正。
清洗操作可以如图2所示,针对样本数据集合中的每条候选样本属性信息,进行类似的处理,为了方便描述,以候选样本属性信息Z为例进行说明:先判断Z是否完整,如果完整,直接判断Z是否为冗余数据,如果不完整,先进行缺失值处理,再判断Z是否为冗余数据;如果为冗余数据,则删除Z,如果不为冗余数据再判断Z是否有噪声;如果有噪声,则先进行平滑处理,再判断Z是否异常,如果没有噪声,则直接判断Z是否异常;如果Z存在异常,则对Z进行异常处理,如果Z不存在异常,则不需要进行异常处理。
S303:对该清洗后的候选样本属性信息进行特征提取,得到样本属性信息。
举例来说,特征提取方式可以包括数据变换、数据规约、降维三种处理。
具体的,可以将所述候选样本属性信息进行数据变换,得到第二变换后的属性信息;对所述第二变换后的属性信息进行数据规约,得到第二规约后的属性信息;对所述第二规约后的属性信息进行降维,得到第二降维后的属性信息,作为样本属性信息。
举例来说,数据变换可以包括归一化处理和/或离散化处理。比如,将身高属性进行归一化处理:假设人员的身高分布区间为[50cm,200cm],通过归一化处理,使得该区间变换到[0,1]的区间。具体的归一化公式可以为:x’=(x-xmin)/(xmax-xmin),其中,x表示人员的身高,x’表示对身高进行归一化处理后的值,xmax表示身高分布区间中的最大值,xmin表示身高分布区间中的最小值。归一化公式也可以为其他,具体不做限定。再比如,可以将连续属性进行离散化处理等。
数据规约可以包括属性构造,比如,假设针对性别和年龄两条属性信息,再构造一条新的属性信息,新的属性信息为:是否满足“性别为男,年龄大于40岁”这一条件。
降维有多种方式,比如PCA(Principal Component Analysis,主成分分析)、计算相关系数、反向特征消除(Backward Feature Elimination)、前向特征构造(ForwardFeature Construction)等等,具体不做限定。
对该清洗后的候选样本属性信息进行特征提取后,得到的样本属性信息可以为特征宽表,如表3所示:
表3
S304:将样本人员的样本属性信息输入至预设分类器,得到输出内容。
该预设分类器可以为决策树分类器、选择树分类器、证据分类器等各种类型的分类器,也可以为深度学习网络、机器学习网络等,具体不做限定。
S305:将该输出内容与样本人员的行为记录进行对比,根据对比结果,对该预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到识别模型。
一种情况下,样本人员的行为记录可以包括样本人员的案件记录,这样,所述输出内容为样本人员存在关联案件的概率,也就是危险行为概率。另一种情况下,样本人员的行为记录可以包括网购记录,这样,输出内容可以为样本人员购买某种商品的概率,也就是购买行为概率。另一种情况下,样本人员的行为记录可以包括观看视频记录,这样输出内容可以为样本人员观看某种视频的概率,也就是观看行为概率。
人员的行为记录能够反应人员的行为概率,训练得到识别类型的过程也就是学习行为概率与人员属性之间关联关系的过程。
以行为概率为危险行为概率为例来说,对分类器进行训练时,分类器的输出内容为人员存在关联案件的概率。以人员的案件记录为监督,对预设分类器进行训练,也就是将分类器的输出内容与人员的案件记录进行对比,根据对比结果对分类器中的参数进行调整。
这种情况下,对分类器进行训练的过程可以理解为:分类器学习得到危险人员特有属性的过程;也就是说,训练得到的识别模型中包含危险人员的各种特有属性。将待识别属性信息输入至该识别模型,也就是识别该待识别属性信息中是否包含危险人员的各种特有属性:如果该待识别属性信息中包含较多危险人员的特有属性,则表示待识别人员危险行为概率较高。
或者,对分类器进行训练的过程可以理解为:分类器学习得到非危险人员特有属性的过程;也就是说,训练得到的识别模型中包含非危险人员的各种特有属性。将待识别属性信息输入至该识别模型,也就是识别该待识别属性信息中是否包含非危险人员的各种特有属性:如果该待识别属性信息中包含较多非危险人员的特有属性,则表示待识别人员危险行为概率较低。
或者,分类器既可以学习危险人员的特有属性,也可以学习非危险人员的特有属性,这样,从两方面识别人员的危险行为概率,识别结果更准确。
以行为概率为购物行为概率为例来说,对分类器进行训练时,分类器的输出内容可以为人员购买某商品的概率。以人员的网购记录为监督,对预设分类器进行训练,也就是将分类器的输出内容与人员的网购记录进行对比,根据对比结果对分类器中的参数进行调整。
类似的,这种情况下,对分类器进行训练的过程可以理解为:分类器学习得到购买某商品的人员特有属性的过程,或者为,分类器学习得到不购买某商品的人员特有属性的过程。
以行为概率为观看视频行为概率为例来说,对分类器进行训练时,分类器的输出内容可以为人员观看某视频的概率。以人员的观看视频记录为监督,对预设分类器进行训练,也就是将分类器的输出内容与人员的观看视频记录进行对比,根据对比结果对分类器中的参数进行调整。
类似的,这种情况下,对分类器进行训练的过程可以理解为:分类器学习得到观看某视频的人员特有属性的过程,或者为,分类器学习得到不观看某视频的人员特有属性的过程。
具体来说,训练得到识别模型的过程可以包括:
将样本人员的样本属性信息输入至预设分类器,得到输出内容;
将所述输出内容与样本人员的行为记录进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型。
举例来说,迭代结束条件可以为迭代次数达到预设阈值;或者,迭代结束条件可以为:分类器的输出内容与人员的行为记录满足匹配条件。匹配条件可以根据实际需求进行设定,比如,可以为全部样本人员对应的输出内容与行为记录都相匹配,或者90%样本人员对应的输出内容与行为记录相匹配,等等,具体不做限定。
对于一个人员来说,他(或她)对应的输出内容与他(或她)的行为记录是否相匹配,也可以根据实际情况设定。比如,以行为概率为危险行为概率为例来说,样本人员的案件记录(行为记录)可以包括样本人员是否存在关联案件;输出内容可以为样本人员存在关联案件的概率;假设样本人员A存在关联案件,将样本人员A的属性信息输出分类器,如果输出的概率值大于80,则表示样本人员A对应的输出内容与样本人员A的案件记录相匹配。
以行为概率为购买行为概率来说,样本人员的网购记录(行为记录)可以包括样本人员是否购买过商品Z;输出内容可以为样本人员购买商品Z的概率;假设样本人员A购买过商品Z,将样本人员A的属性信息输出分类器,如果输出的概率值大于80,则表示样本人员A对应的输出内容与样本人员A的网购记录相匹配。
以行为概率为观看行为概率来说,样本人员的观看视频记录(行为记录)可以包括样本人员是否观看过视频X;输出内容可以为样本人员观看视频X的概率;假设样本人员A观看过视频X,将样本人员A的属性信息输出分类器,如果输出的概率值大于80,则表示样本人员A对应的输出内容与样本人员A的观看视频记录相匹配。
如上所述,人员的案件记录可以包括:人员是否存在关联案件,此外,人员的案件记录还可以包括存在的关联案件的类型等信息,这样,分类器及识别模型的输出内容中可以包括多种类型案件对应的概率。
下面以行为概率为危险行为概率为例,结合图4介绍一种具体的实施方式:
第一步,进行数据采集及清洗:
从不同源头获取数据记录,比如,获取人员身份信息库、活动轨迹信息库等,人员身份信息库中可以包括人员的静态属性,如性别、身高、年龄等,活动轨迹信息库中可以包括人员的行为属性,如人员去过的饭店、旅店、人员乘坐的交通工具信息等。这些数据记录也就是上述实施例中的“候选样本属性信息”。
对所获取的数据记录进行清洗,比如,删除冗余数据、无效数据,进行缺失值数据、异常处理、去噪处理等。清洗后的“候选样本属性信息”为未特征化的属性信息。
第二步,对清洗后的“候选样本属性信息”进行特征提取:
对清洗后的“候选样本属性信息”进行数据变换、数据规约、降维等操作后,得到样本属性信息,样本属性信息可以构成结构化的特征宽表。
该特征宽表中的人员即为上述实施例中的“样本人员”。
样本属性信息中包括静态属性、行为属性和关系属性。静态属性包括自然属性,如性别、身高、年龄等;还包括财物属性,如收入状况、名下不动产等等。行为属性包括人员的吃住行等属性,比如,人员去过的饭店、旅店、人员乘坐的交通工具信息等等;还包括上网等娱乐行为,如人员去过的网吧、娱乐场所信息等等。关系属性包括亲属关系,还包括行为关系,如一同出入过饭店、旅店、网吧、娱乐场所等等。
第三步,建立识别模型:
针对该特征宽表中的样本人员,获取这些样本人员的案件记录。将该特征宽表作为输入,将该案件记录作为监督,对预设分类器进行训练,得到识别模型。
案件记录可以包括:人员是否存在关联案件。分类器的输出内容为:人员存在关联案件的概率。针对每个样本人员,该样本人员的样本属性信息与案件记录组成一条数据,该案件记录可以为作为训练的标签,如表4所示,其中,标签为1表示人员存在关联案件,标签为0表示人员不存在关联案件。
表4
第四步,利用该识别模型,识别人员的危险行为概率。
获取待识别人员的候选待识别属性信息,将该待识别属性信息进行类似于上述第二步的“特征提取”操作,得到待识别属性信息。将该待识别属性信息输入上述得到的识别模型,得到待识别人员的危险行为概率,也就是待识别人员存在关联案件的概率。
输出各待识别人员的概率得分可以如表5所示:
表5
应用本发明实施例确定人员行为概率时,以样本人员的行为记录为监督,以样本人员的属性信息为输入,对预设分类器进行训练,得到识别模型;人员的行为记录能够反应人员的行为概率,训练得到识别类型的过程也就是学习行为概率与人员属性之间关联关系的过程,因此,将待识别属性信息输入识别模型,能够得到待识别人员的行为概率;可见,本方案中,利用识别模型确定人员行为概率,对专家经验依赖程度较低,提高了确定人员行为概率的效率。另一方面,本方案中的属性信息不仅包含人员的静态属性,还可以包含人员的行为属性、关系属性,识别模型的训练样本更丰富,识别精度更高。
本发明实施例还提供一种确定人员行为概率的装置,如图5所示,包括:
第一获取模块501,用于获取待识别人员的属性信息,作为待识别属性信息;
识别模块502,用于将所述待识别属性信息输入至预先建立的识别模型,得到所述待识别人员的行为概率;其中,所述识别模型为:以多个样本人员的属性信息为输入,以所述多个样本人员的行为记录为监督,对预设分类器进行训练得到的。
作为一种实施方式,属性信息包括以下任意一种式多种类型的属性:静态属性、行为属性、关系属性;第一获取模块501,可以包括:获取子模块和提取子模块(图中未示出),其中,
所述获取子模块,用于获取待识别人员的候选待识别属性信息;
所述提取子模块,用于对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息。
作为一种实施方式,所述装置还可以包括:第二获取模块、清洗模块、提取模块、第三获取模块和第一训练模块(图中未示出),其中,
第二获取模块,用于获取多个样本人员的候选样本属性信息;
清洗模块,用于对所述候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息;其中,所述清洗操作包括以下任意一项或多项:去冗余、去噪声、缺失值处理、异常处理;
提取模块,用于对所述清洗后的候选样本属性信息进行特征提取,得到样本属性信息;
第三获取模块,用于获取所述多个样本人员的行为记录;
第一训练模块,用于以所述行为记录为监督,以所述样本属性信息为输入,对预设分类器进行训练,得到所述识别模型。
作为一种实施方式,所述清洗模块,具体可以用于:
将所获取的候选样本属性信息添加至样本数据集合;
对所述样本数据集合中的不完整属性信息进行缺失值处理,得到缺失值处理后的样本数据集合;
对所述缺失值处理后的样本数据集合进行去冗余、及去噪声处理,得到去噪声处理后的样本数据集合;
对所述去噪声处理后的样本数据集合中的异常数据进行异常处理,得到异常处理后的样本数据集合,将所述异常处理后的样本数据集合中的每条候选样本属性信息作为清洗后的候选样本属性信息。
作为一种实施方式,所述提取子模块,具体可以用于:
将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息;
对所述第一变换后的属性信息进行数据规约,得到第一规约后的属性信息;
对所述第一规约后的属性信息进行降维,得到第一降维后的属性信息,作为待识别属性信息。
作为一种实施方式,所述提取子模块,还可以用于:
对所述候选待识别属性信息进行归一化处理和/或离散化处理,得到第一变换后的属性信息。
作为一种实施方式,所述行为记录为案件信息;所述行为概率为:存在关联案件的概率;所述装置还可以包括:
第二训练模块(图中未示出),用于将样本人员的样本属性信息输入至预设分类器,得到输出内容;将所述输出内容与样本人员的案件信息进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型;其中,样本人员的案件信息包括:样本人员是否存在关联案件;所述输出内容为样本人员存在关联案件的概率。
应用本发明图5实施例确定人员行为概率时,以样本人员的行为记录为监督,以样本人员的属性信息为输入,对预设分类器进行训练,得到识别模型;人员的行为记录能够反应人员的行为概率,训练得到识别类型的过程也就是学习行为概率与人员属性之间关联关系的过程,因此,将待识别属性信息输入识别模型,能够得到待识别人员的行为概率;可见,本方案中,利用识别模型确定人员行为概率,对专家经验依赖程度较低,提高了确定人员行为概率的效率。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601和存储器602,
存储器602,用于存放计算机程序;
处理器601,用于执行存储器602上所存放的程序时,实现上述任一种确定人员行为概率的方法。
上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种确定人员行为概率的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图5所示的确定人员行为概率的装置实施例、图6所示的电子设备实施例、以及上述计算机可读存储介质实施例而言,由于其基本相似于图1-4所示的确定人员行为概率的方法实施例,所以描述的比较简单,相关之处参见图1-4所示的确定人员行为概率的方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (16)
1.一种确定人员行为概率的方法,其特征在于,包括:
获取待识别人员的属性信息,作为待识别属性信息;
将所述待识别属性信息输入至预先建立的识别模型,得到所述待识别人员的行为概率;其中,所述识别模型为:以多个样本人员的属性信息为输入,以所述多个样本人员的行为记录为监督,对预设分类器进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,属性信息包括以下任意一种式多种类型的属性:静态属性、行为属性、关系属性;
所述获取待识别人员的属性信息,作为待识别属性信息,包括:
获取待识别人员的候选待识别属性信息;
对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息。
3.根据权利要求2所述的方法,其特征在于,所述识别模型的建立过程包括:
获取多个样本人员的候选样本属性信息;
对所述候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息;其中,所述清洗操作包括以下任意一项或多项:去冗余、去噪声、缺失值处理、异常处理;
对所述清洗后的候选样本属性信息进行特征提取,得到样本属性信息;
获取所述多个样本人员的行为记录;
以所述行为记录为监督,以所述样本属性信息为输入,对预设分类器进行训练,得到所述识别模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息,包括:
将所获取的候选样本属性信息添加至样本数据集合;
对所述样本数据集合中的不完整属性信息进行缺失值处理,得到缺失值处理后的样本数据集合;
对所述缺失值处理后的样本数据集合进行去冗余、及去噪声处理,得到去噪声处理后的样本数据集合;
对所述去噪声处理后的样本数据集合中的异常数据进行异常处理,得到异常处理后的样本数据集合,将所述异常处理后的样本数据集合中的每条候选样本属性信息作为清洗后的候选样本属性信息。
5.根据权利要求2所述的方法,其特征在于,所述对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息,包括:
将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息;
对所述第一变换后的属性信息进行数据规约,得到第一规约后的属性信息;
对所述第一规约后的属性信息进行降维,得到第一降维后的属性信息,作为待识别属性信息。
6.根据权利要求5所述的方法,其特征在于,所述将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息,包括:
对所述候选待识别属性信息进行归一化处理和/或离散化处理,得到第一变换后的属性信息。
7.根据权利要求1所述的方法,其特征在于,所述行为记录为案件记录;所述行为概率为:存在关联案件的概率;所述识别模型的建立过程包括:
将样本人员的样本属性信息输入至预设分类器,得到输出内容;
将所述输出内容与样本人员的案件记录进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型;其中,样本人员的案件记录包括:样本人员是否存在关联案件;所述输出内容为样本人员存在关联案件的概率。
8.一种确定人员行为概率的装置,其特征在于,包括:
第一获取模块,用于获取待识别人员的属性信息,作为待识别属性信息;
识别模块,用于将所述待识别属性信息输入至预先建立的识别模型,得到所述待识别人员的行为概率;其中,所述识别模型为:以多个样本人员的属性信息为输入,以所述多个样本人员的行为记录为监督,对预设分类器进行训练得到的。
9.根据权利要求8所述的装置,其特征在于,属性信息包括以下任意一种式多种类型的属性:静态属性、行为属性、关系属性;所述第一获取模块,包括:获取子模块和提取子模块;
所述获取子模块,用于获取待识别人员的候选待识别属性信息;
所述提取子模块,用于对所述候选待识别属性信息进行特征提取,得到所述待识别属性信息。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取多个样本人员的候选样本属性信息;
清洗模块,用于对所述候选样本属性信息进行清洗操作,得到清洗后的候选样本属性信息;其中,所述清洗操作包括以下任意一项或多项:去冗余、去噪声、缺失值处理、异常处理;
提取模块,用于对所述清洗后的候选样本属性信息进行特征提取,得到样本属性信息;
第三获取模块,用于获取所述多个样本人员的行为记录;
第一训练模块,用于以所述行为记录为监督,以所述样本属性信息为输入,对预设分类器进行训练,得到所述识别模型。
11.根据权利要求10所述的装置,其特征在于,所述清洗模块,具体用于:
将所获取的候选样本属性信息添加至样本数据集合;
对所述样本数据集合中的不完整属性信息进行缺失值处理,得到缺失值处理后的样本数据集合;
对所述缺失值处理后的样本数据集合进行去冗余、及去噪声处理,得到去噪声处理后的样本数据集合;
对所述去噪声处理后的样本数据集合中的异常数据进行异常处理,得到异常处理后的样本数据集合,将所述异常处理后的样本数据集合中的每条候选样本属性信息作为清洗后的候选样本属性信息。
12.根据权利要求9所述的装置,其特征在于,所述提取子模块,具体用于:
将所述候选待识别属性信息进行数据变换,得到第一变换后的属性信息;
对所述第一变换后的属性信息进行数据规约,得到第一规约后的属性信息;
对所述第一规约后的属性信息进行降维,得到第一降维后的属性信息,作为待识别属性信息。
13.根据权利要求12所述的装置,其特征在于,所述提取子模块,还用于:
对所述候选待识别属性信息进行归一化处理和/或离散化处理,得到第一变换后的属性信息。
14.根据权利要求8所述的装置,其特征在于,所述行为记录为案件信息;所述行为概率为:存在关联案件的概率;所述装置还包括:
第二训练模块,用于将样本人员的样本属性信息输入至预设分类器,得到输出内容;将所述输出内容与样本人员的案件信息进行对比,根据对比结果,对所述预设分类器中的参数进行迭代调整,直至满足迭代结束条件,得到所述识别模型;其中,样本人员的案件信息包括:样本人员是否存在关联案件;所述输出内容为样本人员存在关联案件的概率。
15.一种电子设备,其特征在于,包括处理器和存储器;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810593773.3A CN110580490A (zh) | 2018-06-11 | 2018-06-11 | 一种确定人员行为概率的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810593773.3A CN110580490A (zh) | 2018-06-11 | 2018-06-11 | 一种确定人员行为概率的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110580490A true CN110580490A (zh) | 2019-12-17 |
Family
ID=68809976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810593773.3A Pending CN110580490A (zh) | 2018-06-11 | 2018-06-11 | 一种确定人员行为概率的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580490A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164232A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 用户识别方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008123487A (ja) * | 2006-10-18 | 2008-05-29 | Toshiba Corp | 行動予測装置および方法 |
CN103268406A (zh) * | 2013-05-09 | 2013-08-28 | 湖南大学 | 一种基于煤矿安全培训游戏的数据挖掘系统及方法 |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN105678428A (zh) * | 2016-01-28 | 2016-06-15 | 温州职业技术学院 | 一种犯罪嫌疑概率预测的方法和系统 |
CN106127525A (zh) * | 2016-06-27 | 2016-11-16 | 浙江大学 | 一种基于分类算法的电视购物商品推荐方法 |
CN106384197A (zh) * | 2016-09-13 | 2017-02-08 | 北京协力筑成金融信息服务股份有限公司 | 一种基于大数据的业务质量评估方法和装置 |
CN107301296A (zh) * | 2017-06-27 | 2017-10-27 | 西安电子科技大学 | 基于数据的断路器故障影响因素定性分析方法 |
CN107451666A (zh) * | 2017-07-15 | 2017-12-08 | 西安电子科技大学 | 基于大数据分析的断路器装配质量问题追溯系统和方法 |
CN107609105A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 大数据加速结构的构建方法 |
-
2018
- 2018-06-11 CN CN201810593773.3A patent/CN110580490A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008123487A (ja) * | 2006-10-18 | 2008-05-29 | Toshiba Corp | 行動予測装置および方法 |
CN103268406A (zh) * | 2013-05-09 | 2013-08-28 | 湖南大学 | 一种基于煤矿安全培训游戏的数据挖掘系统及方法 |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN105678428A (zh) * | 2016-01-28 | 2016-06-15 | 温州职业技术学院 | 一种犯罪嫌疑概率预测的方法和系统 |
CN106127525A (zh) * | 2016-06-27 | 2016-11-16 | 浙江大学 | 一种基于分类算法的电视购物商品推荐方法 |
CN106384197A (zh) * | 2016-09-13 | 2017-02-08 | 北京协力筑成金融信息服务股份有限公司 | 一种基于大数据的业务质量评估方法和装置 |
CN107301296A (zh) * | 2017-06-27 | 2017-10-27 | 西安电子科技大学 | 基于数据的断路器故障影响因素定性分析方法 |
CN107451666A (zh) * | 2017-07-15 | 2017-12-08 | 西安电子科技大学 | 基于大数据分析的断路器装配质量问题追溯系统和方法 |
CN107609105A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 大数据加速结构的构建方法 |
Non-Patent Citations (2)
Title |
---|
彭双清等: "《毒理学替代法》", 31 January 2009, 北京:军事医学科学出版社 * |
朱明: "《数据挖掘》", 2 November 2008, 中国科学技术大学出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164232A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 用户识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701191B (zh) | 一种推送信息点击率估计方法和装置 | |
CN112529663B (zh) | 商品推荐方法、装置、终端设备及存储介质 | |
CN112085172B (zh) | 图神经网络的训练方法及装置 | |
US20130282704A1 (en) | Search system with query refinement | |
US20140052688A1 (en) | System and Method for Matching Data Using Probabilistic Modeling Techniques | |
US20130013289A1 (en) | Method of Extracting Experience Sentence and Classifying Verb in Blog | |
JP6311851B2 (ja) | 共クラスタリングシステム、方法およびプログラム | |
CN113268667B (zh) | 一种基于中文评论情感引导的序列推荐方法及系统 | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
CN111506798A (zh) | 用户筛选方法、装置、设备及存储介质 | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
WO2017000341A1 (zh) | 一种信息处理方法、装置以及终端 | |
CN108984777B (zh) | 客户服务方法、装置和计算机可读存储介质 | |
CN112328881A (zh) | 文章推荐方法、装置、终端设备及存储介质 | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
CN110580490A (zh) | 一种确定人员行为概率的方法、装置及设备 | |
US20160162930A1 (en) | Associating Social Comments with Individual Assets Used in a Campaign | |
CN107665222B (zh) | 关键词的拓展方法和装置 | |
CN110750238B (zh) | 确定产品需求的方法及装置和电子设备 | |
CN111353015B (zh) | 众包题目推荐方法、装置、设备及存储介质 | |
JP2021111097A (ja) | ノイズ推定方法、ノイズ推定プログラム及びノイズ推定装置 | |
CN116720009A (zh) | 一种社交机器人检测方法、装置、设备及存储介质 | |
CN113781180B (zh) | 一种物品推荐方法、装置、电子设备及存储介质 | |
CN111382265A (zh) | 搜索方法、装置、设备和介质 | |
CN112434140B (zh) | 一种答复信息处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |