一种信息处理方法、装置及计算机可读存储介质
技术领域
本发明实施例涉及机器学习领域,尤其涉及一种信息处理方法、装置及 计算机可读存储介质。
背景技术
在判别涉毒人员的过程中,相关技术往往是由线索人员提出线索,或是 获取看守所内涉毒人员的手机通话记录,然后由公安业务人员运用以往经验 分析、跟踪研判以确定是否涉毒。
然而,这种方法是以单纯依靠人工的方式进行的,因此十分耗人力成本。
发明内容
为了解决上述技术问题,本发明实施例提供一种信息处理方法、装置及 计算机可读存储介质,能够实现涉毒人员的自动判别,从而极大限度地节省 人力成本。
为了达到本发明实施例目的,本发明实施例提供了一种信息处理方法, 包括:
服务器获取待判定人员的人员信息;
将获得的待判定人员的人员信息输入至预先建立的目标人群判定模型, 得到所述待判定人员是否属于所述目标人群的判定结果。
所述获取待判定人员的人员信息之前,还包括:
获取多个样本人员的人员信息,得到样本信息集合;其中,所述样本人 员包括:属于所述目标人群的人员和不属于所述目标人群的人员;
以获得的样本信息集合作为输入训练所述预设机器学习模型,得到所述 目标人群判定模型。
所述属于目标人群的人员与所述不属于目标人群的人员之间的数量比例 不小于2:1。
所述预设机器学习模型为随机森林模型。
所述人员信息包括:身份信息、违法行为信息、交通违章行为信息、互 联网应用行为信息以及与所述目标人群相关的行为信息。
所述样本信息集合中每一个样本人员的人员信息均为所述违法行为信 息、所述交通违章行为信息、所述互联网应用行为信息以及所述与目标人群 相关的行为信息至少一项不为空的人员信息。
所述目标人群是具备目标行为的人群;
所述身份信息包括:性别、民族、学历、年龄、职业、所属省份;
所述违法行为信息包括:除因所述目标行为以外进入看守所的次数、除 因所述目标行为以外是否存在进入看守所的记录、除因所述目标行为以外违 法的次数,除因所述目标行为以外是否存在违法的记录;
所述交通违章行为信息包括:交通违章次数、交通违章罚款金额总计、 交通违章罚分总计、交通违章午夜违章次数总计;
所述互联网应用行为信息包括:网吧上网次数、网吧午夜上网次数、网 吧上网时长总计;
所述与目标人群相关的信息包括:与属于所述目标人群的人员乘坐相同 航班的次数、与所述属于目标人群的人员乘坐相同航班的人数、所乘坐的航 班中属于所述目标人群的人数、与所述属于目标人群的人员乘坐相同航班中 邻座的人数、与所述属于目标人群的人员登机号邻座的人数、同航班与所述 属于目标人群的人员邻座的数量、与所述属于目标人群的人员乘坐相同班次 列车且同车厢的次数、与所述属于目标人群的人员乘坐相同班次列车且同车 厢的人数、与所述属于目标人群的人员乘坐相同班次列车且邻座的次数、与 所述属于目标人群的人员乘坐相同班次列车且邻座的人数、与所述属于目标 人群的人员共同入住旅馆的数量、与所述属于目标人群的人员共同入住旅馆 的次数、与所述属于目标人群的人员同房间入住旅馆的数量、与所述属于目 标人群的人员同房间入住旅馆的次数、是否存在与所述属于目标人群的人员 共同入住旅馆的记录、是否存在与所述属于目标人群的人员同房间入住旅馆 的记录、与所述属于目标人群的人员同房间入住旅馆、与所述属于目标人群 的人员在通网吧上网的次数、与所述属于目标人群的人员在通网吧上网的人 数。
所述目标人群为涉毒人群。
本发明实施例提供了一种信息处理装置,包括:处理器和存储器,其中, 存储器中存储有以下可被处理器执行的命令:
获取待判定人员的人员信息;
将获得的待判定人员的人员信息输入至预先建立的目标人群判定模型, 得到所述待判定人员是否属于所述目标人群的判定结果。
本发明实施例提供了一种计算机可读存储介质,所述存储介质上存储有 计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
获取待判定人员的人员信息;
将获得的待判定人员的人员信息输入至预先建立的目标人群判定模型, 得到所述待判定人员是否属于所述目标人群的判定结果。
与现有技术相比,本发明实施例至少包括:服务器获取待判定人员的人 员信息;将获得的待判定人员的人员信息输入至预先建立的目标人群判定模 型,得到待判定人员是否属于目标人群的判定结果。从本发明实施例提供的 技术方案可见,由于将获得的待判定人员的人员信息输入至了预先建立的目 标人群判定模型,得到了待判定人员是否属于目标人群的判定结果,因此当 目标人群为涉毒人群时,以自动的方式实现了涉毒人群的判别,极大限度地 节省了人力成本。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分 地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实 施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出 的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书 的一部分,与本申请的实施例一起用于解释本发明实施例的技术方案,并不 构成对本发明实施例技术方案的限制。
图1为本发明实施例提供的一种信息处理方法的流程示意图;
图2为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结 合附图对本发明实施例的实施例进行详细说明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明实施例提供一种信息处理方法,如图1所示,该方法包括:
步骤101、服务器获取待判定人员的人员信息。
步骤102、将获得的待判定人员的人员信息输入至预先建立的目标人群 判定模型,得到待判定人员是否属于目标人群的判定结果。
本发明实施例所提供的信息处理方法,服务器获取待判定人员的人员信 息;将获得的待判定人员的人员信息输入至预先建立的目标人群判定模型, 得到待判定人员是否属于目标人群的判定结果。从本发明实施例提供的技术 方案可见,由于将获得的待判定人员的人员信息输入至了预先建立的目标人 群判定模型,得到了待判定人员是否属于目标人群的判定结果,因此当目标 人群为涉毒人群时,以自动的方式实现了涉毒人群的判别,极大限度地节省 了人力成本。
可选地,获取待判定人员的人员信息之前,还包括:
步骤103、获取多个样本人员的人员信息,得到样本信息集合。
其中,样本人员包括:属于目标人群的人员和不属于目标人群的人员。
步骤104、以获得的样本信息集合作为输入训练预设机器学习模型,得 到目标人群判定模型。
可选地,属于目标人群的人员与不属于目标人群的人员之间的数量比例 不小于2:1。
可选地,预设机器学习模型为随机森林模型。
可选地,人员信息包括:身份信息、违法行为信息、交通违章行为信息、 互联网应用行为信息以及与目标人群相关的行为信息。
可选地,样本信息集合中每一个样本人员的人员信息均为违法行为信息、 交通违章行为信息、互联网应用行为信息以及与目标人群相关的行为信息至 少一项不为空的人员信息。
可选地,目标人群是具备目标行为的人群。
身份信息包括:性别、民族、学历、年龄、职业、所属省份。
违法行为信息包括:除因目标行为以外进入看守所的次数、除因目标行 为以外是否存在进入看守所的记录、除因目标行为以外违法的次数,除因目 标行为以外是否存在违法的记录。
交通违章行为信息包括:交通违章次数、交通违章罚款金额总计、交通 违章罚分总计、交通违章午夜违章次数总计。
互联网应用行为信息包括:网吧上网次数、网吧午夜上网次数、网吧上 网时长总计。
与目标人群相关的信息包括:与属于目标人群的人员乘坐相同航班的次 数、与属于目标人群的人员乘坐相同航班的人数、所乘坐的航班中属于目标 人群的人数、与属于目标人群的人员乘坐相同航班中邻座的人数、与属于目 标人群的人员登机号邻座的人数、同航班与属于目标人群的人员邻座的数量、 与属于目标人群的人员乘坐相同班次列车且同车厢的次数、与属于目标人群 的人员乘坐相同班次列车且同车厢的人数、与属于目标人群的人员乘坐相同 班次列车且邻座的次数、与属于目标人群的人员乘坐相同班次列车且邻座的 人数、与属于目标人群的人员共同入住旅馆的数量、与属于目标人群的人员 共同入住旅馆的次数、与属于目标人群的人员同房间入住旅馆的数量、与属 于目标人群的人员同房间入住旅馆的次数、是否存在与属于目标人群的人员 共同入住旅馆的记录、是否存在与属于目标人群的人员同房间入住旅馆的记 录、与属于目标人群的人员同房间入住旅馆、与属于目标人群的人员在通网 吧上网的次数、与属于目标人群的人员在通网吧上网的人数。
具体的,以与属于目标人群的人员乘坐相同航班的次数的计算为例,先 列出所有的样本人员的飞机乘坐记录,然后以航班号和航班日期作为分组依 据,对于所有飞机乘坐记录进行分组,并对每一组的飞机乘坐记录进行标记 求和(标记1表示该记录是属于目标人群的人员的飞机乘坐记录,标记0标 识该记录是不属于目标人群的人员的飞机乘坐记录),从而得出乘坐特定日 提特定航班中属于目标人群的人员个数,如果自身的乘坐记录标记为1,则 排除掉自身的标记后即可得出该次航班为与属于目标人群的人员同行的航班记录,对于该航班记录使用True或False标记是否与属于目标人群的人员同 行。最终使用身份证号作为分组依据,对是否为与属于目标人群的人员同行 的标记进行求和计算,统计出每个样本的与属于目标人群的人员乘坐相同航 班的次数。
可选地,目标人群为涉毒人群。
本发明实施例提供一种服务器,如图2所示,该服务器2包括:
获取模块21,用于获取待判定人员的人员信息。
处理模块22,用于将获得的待判定人员的人员信息输入至预先建立的目 标人群判定模型,得到待判定人员是否属于目标人群的判定结果。
可选地,获取模块21,还用于获取多个样本人员的人员信息,得到样本 信息集合;其中,样本人员包括:属于目标人群的人员和不属于目标人群的 人员。
处理模块22,还用于以获得的样本信息集合作为输入训练预设机器学习 模型,得到目标人群判定模型。
可选地,属于目标人群的人员与不属于目标人群的人员之间的数量比例 不小于2:1。
可选地,预设机器学习模型为随机森林模型。
可选地,人员信息包括:身份信息、违法行为信息、交通违章行为信息、 互联网应用行为信息以及与目标人群相关的行为信息。
可选地,样本信息集合中每一个样本人员的人员信息均为违法行为信息、 交通违章行为信息、互联网应用行为信息以及与目标人群相关的行为信息至 少一项不为空的人员信息。
目标人群是具备目标行为的人群。
身份信息包括:性别、民族、学历、年龄、职业、所属省份。
违法行为信息包括:除因目标行为以外进入看守所的次数、除因目标行 为以外是否存在进入看守所的记录、除因目标行为以外违法的次数,除因目 标行为以外是否存在违法的记录。
交通违章行为信息包括:交通违章次数、交通违章罚款金额总计、交通 违章罚分总计、交通违章午夜违章次数总计。
互联网应用行为信息包括:网吧上网次数、网吧午夜上网次数、网吧上 网时长总计。
与目标人群相关的信息包括:与属于目标人群的人员乘坐相同航班的次 数、与属于目标人群的人员乘坐相同航班的人数、所乘坐的航班中属于目标 人群的人数、与属于目标人群的人员乘坐相同航班中邻座的人数、与属于目 标人群的人员登机号邻座的人数、同航班与属于目标人群的人员邻座的数量、 与属于目标人群的人员乘坐相同班次列车且同车厢的次数、与属于目标人群 的人员乘坐相同班次列车且同车厢的人数、与属于目标人群的人员乘坐相同 班次列车且邻座的次数、与属于目标人群的人员乘坐相同班次列车且邻座的 人数、与属于目标人群的人员共同入住旅馆的数量、与属于目标人群的人员 共同入住旅馆的次数、与属于目标人群的人员同房间入住旅馆的数量、与属 于目标人群的人员同房间入住旅馆的次数、是否存在与属于目标人群的人员 共同入住旅馆的记录、是否存在与属于目标人群的人员同房间入住旅馆的记 录、与属于目标人群的人员同房间入住旅馆、与属于目标人群的人员在通网 吧上网的次数、与属于目标人群的人员在通网吧上网的人数。
可选地,目标人群为涉毒人群。
本发明实施例所提供的服务器,获取待判定人员的人员信息;将获得的 待判定人员的人员信息输入至预先建立的目标人群判定模型,得到待判定人 员是否属于目标人群的判定结果。从本发明实施例提供的技术方案可见,由 于将获得的待判定人员的人员信息输入至了预先建立的目标人群判定模型, 得到了待判定人员是否属于目标人群的判定结果,因此当目标人群为涉毒人 群时,以自动的方式实现了涉毒人群的判别,极大限度地节省了人力成本。
在实际应用中,所述获取模块21和处理模块22位于服务器中的中央处 理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit, MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门 阵列(Field Programmable GateArray,FPGA)等实现。
本发明实施例还提供一种信息处理装置,包括存储器和处理器,其中, 存储器中存储有以下可被处理器执行的命令:
获取待判定人员的人员信息。
将获得的待判定人员的人员信息输入至预先建立的目标人群判定模型, 得到待判定人员是否属于目标人群的判定结果。
可选地,存储器中还存储有以下可被处理器执行的命令:
获取多个样本人员的人员信息,得到样本信息集合;其中,样本人员包 括:属于目标人群的人员和不属于目标人群的人员。
以获得的样本信息集合作为输入训练预设机器学习模型,得到目标人群 判定模型。
可选地,属于目标人群的人员与不属于目标人群的人员之间的数量比例 不小于2:1。
需要说明的是,当属于目标人群的人员与不属于目标人群的人员之间的 数量比例不小于2:1,训练出的目标人群判定模型的判定准确率相对较高。
可选地,预设机器学习模型为随机森林模型。
可选地,人员信息包括:身份信息、违法行为信息、交通违章行为信息、 互联网应用行为信息以及与目标人群相关的行为信息。
可选地,样本信息集合中每一个样本人员的人员信息均为违法行为信 息、交通违章行为信息、互联网应用行为信息以及与目标人群相关的行为信 息至少一项不为空的人员信息。
可选地,目标人群是具备目标行为的人群。
身份信息包括:性别、民族、学历、年龄、职业、所属省份。
违法行为信息包括:除因目标行为以外进入看守所的次数、除因目标行 为以外是否存在进入看守所的记录、除因目标行为以外违法的次数,除因目 标行为以外是否存在违法的记录。
交通违章行为信息包括:交通违章次数、交通违章罚款金额总计、交通 违章罚分总计、交通违章午夜违章次数总计。
互联网应用行为信息包括:网吧上网次数、网吧午夜上网次数、网吧上 网时长总计。
与目标人群相关的信息包括:与属于目标人群的人员乘坐相同航班的次 数、与属于目标人群的人员乘坐相同航班的人数、所乘坐的航班中属于目标 人群的人数、与属于目标人群的人员乘坐相同航班中邻座的人数、与属于目 标人群的人员登机号邻座的人数、同航班与属于目标人群的人员邻座的数量、 与属于目标人群的人员乘坐相同班次列车且同车厢的次数、与属于目标人群 的人员乘坐相同班次列车且同车厢的人数、与属于目标人群的人员乘坐相同 班次列车且邻座的次数、与属于目标人群的人员乘坐相同班次列车且邻座的 人数、与属于目标人群的人员共同入住旅馆的数量、与属于目标人群的人员 共同入住旅馆的次数、与属于目标人群的人员同房间入住旅馆的数量、与属 于目标人群的人员同房间入住旅馆的次数、是否存在与属于目标人群的人员 共同入住旅馆的记录、是否存在与属于目标人群的人员同房间入住旅馆的记 录、与属于目标人群的人员同房间入住旅馆、与属于目标人群的人员在通网 吧上网的次数、与属于目标人群的人员在通网吧上网的人数。
可选地,目标人群为涉毒人群。
具体的,常见的分类模型的分类评判指标有准确率、召回率、精准率。 其中,准确率=分类预测对样本数目/数据集总数目,召回率=预测为属于目标 人群且实际属于目标人群的样本数目/实际为属于目标人群的样本数目,精 准率=预测为属于目标人群且实际为属于目标人群的样本数目/预测为目标人 群的样本数目。召回率主要评判模型找到的属于目标人群的人员是否全面, 因此也称为查全率。而准确率主要指模型预测属于目标人群的人员是否准确, 因此也称为查准率。当目标人群是涉毒人群时,在现实应用场景中,公安受 警力所限,更加看重模型找出的涉毒人员是否真的涉毒,因此应该选用查准 率作为评判模型好坏的标准。
本发明实施例还提供一种计算机可读存储介质,存储介质上存储有计算 机可执行命令,计算机可执行命令用于执行以下步骤:
服务器获取待判定人员的人员信息。
将获得的待判定人员的人员信息输入至预先建立的目标人群判定模型, 得到待判定人员是否属于目标人群的判定结果。
可选地,计算机可执行命令还用于执行以下步骤:
获取多个样本人员的人员信息,得到样本信息集合;其中,样本人员包 括:属于目标人群的人员和不属于目标人群的人员。
以获得的样本信息集合作为输入训练预设机器学习模型,得到目标人群 判定模型。
可选地,属于目标人群的人员与不属于目标人群的人员之间的数量比例 不小于2:1。
可选地,预设机器学习模型为随机森林模型。
可选地,人员信息包括:身份信息、违法行为信息、交通违章行为信息、 互联网应用行为信息以及与目标人群相关的行为信息。
可选地,样本信息集合中每一个样本人员的人员信息均为违法行为信 息、交通违章行为信息、互联网应用行为信息以及与目标人群相关的行为信 息至少一项不为空的人员信息。
可选地,目标人群是具备目标行为的人群。
身份信息包括:性别、民族、学历、年龄、职业、所属省份。
违法行为信息包括:除因目标行为以外进入看守所的次数、除因目标行 为以外是否存在进入看守所的记录、除因目标行为以外违法的次数,除因目 标行为以外是否存在违法的记录。
交通违章行为信息包括:交通违章次数、交通违章罚款金额总计、交通 违章罚分总计、交通违章午夜违章次数总计。
互联网应用行为信息包括:网吧上网次数、网吧午夜上网次数、网吧上 网时长总计。
与目标人群相关的信息包括:与属于目标人群的人员乘坐相同航班的次 数、与属于目标人群的人员乘坐相同航班的人数、所乘坐的航班中属于目标 人群的人数、与属于目标人群的人员乘坐相同航班中邻座的人数、与属于目 标人群的人员登机号邻座的人数、同航班与属于目标人群的人员邻座的数量、 与属于目标人群的人员乘坐相同班次列车且同车厢的次数、与属于目标人群 的人员乘坐相同班次列车且同车厢的人数、与属于目标人群的人员乘坐相同 班次列车且邻座的次数、与属于目标人群的人员乘坐相同班次列车且邻座的 人数、与属于目标人群的人员共同入住旅馆的数量、与属于目标人群的人员 共同入住旅馆的次数、与属于目标人群的人员同房间入住旅馆的数量、与属 于目标人群的人员同房间入住旅馆的次数、是否存在与属于目标人群的人员 共同入住旅馆的记录、是否存在与属于目标人群的人员同房间入住旅馆的记 录、与属于目标人群的人员同房间入住旅馆、与属于目标人群的人员在通网 吧上网的次数、与属于目标人群的人员在通网吧上网的人数。
可选地,目标人群为涉毒人群。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解 本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明 实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围 的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实 施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。