CN116630838A

CN116630838A - 同行人员检测方法、装置及其应用

Info

Publication number: CN116630838A
Application number: CN202310276215.5A
Authority: CN
Inventors: 郁强; 王增璞; 毛云青; 曹鹏寅; 黄圣威
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-08-22

Abstract

本申请提出了同行人员检测方法、装置及其应用，包括根据人员的记录、征信状况判断该人员是否为目标人员，再根据目标人员的经纬度信息和经纬度对应的时间信息，通过密度聚类算法，生成目标人员经纬度的多个簇类，根据簇类中的目标人员组成，结合个人基础信息，判断多人之间的同行关系。本申请具有计算资源小，可有效辨别偶然同行事件的效果。

Description

同行人员检测方法、装置及其应用

技术领域

本申请涉及大数据技术领域，特别是涉及同行人员检测方法、装置及其应用。

背景技术

轨迹分析是侦查中不可或缺的一个重要环节，与目标行为相关的人、事、物及其时间空间节点对侦查都起到了关键作用。其中对目标人员的同行轨迹分析是一个重要的应用场景，当前实现这一场景的方法主要基于视频信息，通过人脸特征的对比，判断人员在各个点位出现的时间，最终形成人员的行动轨迹，但此方法存在以下问题：

1.基于监控视频的方法忽略了业务逻辑与人员基本信息，无法辨别偶然的同行事件；

2.视频场景较为复杂，无法有效保证同行轨迹的准确性；

3.视频数据量较大，算法分析耗时较长，且需要大量的计算资源。

因此，亟待一种同行人员检测方法、装置及其应用，以解决现有技术存在的问题。

发明内容

本申请实施例提供了同行人员检测方法、装置及其应用，针对目前技术需要大量计算资源、无法辨别偶然同行事件的问题。

本发明核心技术主要是根据人员的身份信息判断该人员是否为目标人员，再根据目标人员的经纬度信息和经纬度对应的时间信息，通过密度聚类算法，生成目标人员经纬度的多个簇类，根据簇类中的目标人员组成，结合个人基础信息，包括职业、家庭成员组成、年龄等因素，判断多人之间的同行关系。

第一方面，本申请提供了同行人员检测方法，所述方法包括以下步骤：

S00、确定目标人员清单，并获取目标人员的定位信息和时间信息；

S10、将时间信息中的时间点转换为时间戳，并进行归一化处理，以完成数据预处理；

S20、通过聚类算法模型将全量目标人员的定位信息和归一化后的时间戳数据作为聚类算法模型的输入，并将定位信息和归一化后的时间戳数据聚类，以同一时间在同一经纬度的数据聚类为同一簇类；

S30、根据目标人员的唯一标识与簇类标签，将n个簇类标签中的目标人员存入单个数列，得到n个目标人员数列；

S40、根据时间维度将所有目标人员数列排序，并设定同行判断距离为l，遍历连续l个数列的交集，得到n-l+1个同行人员集合；

S50、将所有同行人员集合展开形成两两同行人员对应的数据集中，并通过知识图谱图数据库语言补充数据集中两两人员之间的关系属性；

S60、比较两两人员的类型是否一致、计算两两人员年龄差的绝对值以及计算两两人员之间的居住地直线距离，将结果均存入数据集中；

S70、通过样本数据训练逻辑回归模型，并筛选出逻辑回归模型中结果为同行的数据，并与聚类算法模型的结果左关联，以获得两两同行人员的结果表；

S80、将结果表中每条数据的同行经过地点进行交集计算，并将计算结果大于l的数据存入数列w中，其余数据存入数列v中；

S90、将数列w中每条数据重新进行同行经过地点交集计算，并将计算结果大于l的数据覆盖数列w，其余数据存入数列v；

S100、循环S90步骤，直至数列w为空数列，并将数列v作为最终同行人员检测结果。

进一步地，S10步骤中，时间点为固定周期差值的时间，该固定周期差值通过检测记录设备或基站反馈的数据周期得到。

进一步地，S20步骤中，采用密度聚类算法DBSCAN模型，并确定该密度聚类算法DBSCAN模型的eps参数和MinPts参数。

进一步地，S20步骤中，通过最大最小值归一化方法将定位信息中的经纬度数据转化成纲量数据，并通过将时间戳转化为时间戳距离，再进行最大最小值归一化转化成纲量数据，再将所有纲量数据转换成纯量数据进行加权比较，以作为聚类算法模型的输入。

进一步地，S50步骤中，关系属性包括社会关系，若存在多种社会关系，则保留多种关系类型并存入数据集中。

进一步地，S70步骤中，样本数据的量保持在输入自变量的50倍左右。

进一步地，辑回归模型的训练过程包括以下步骤：

构建sigmoid函数，将逻辑回归模型的输出结果投射到设定区间中；

设定决策边界，并判断sigmoid函数的分类概率，以最终输出二元分类结果，该结果为同行或非同行；

计算逻辑回归模型的损失函数，并判断逻辑回归模型的计算误差。

第二方面，本申请提供了一种同行人员检测装置，包括：

采集模块，确定目标人员清单，并获取目标人员的定位信息和时间信息；

预处理模块，将时间信息中的时间点转换为时间戳，并进行归一化处理，以完成数据预处理；

聚类算法模块，通过聚类算法模型将全量目标人员的定位信息和归一化后的时间戳数据作为聚类算法模型的输入，并将定位信息和归一化后的时间戳数据聚类，以同一时间在同一经纬度的数据聚类为同一簇类；根据目标人员的唯一标识与簇类标签，将n个簇类标签中的目标人员存入单个数列，得到n个目标人员数列；根据时间维度将所有目标人员数列排序，并设定同行判断距离为l，遍历连续l个数列的交集，得到n-l+1个同行人员集合；

知识图谱图数据库语言模块，将所有同行人员集合展开形成两两同行人员对应的数据集中，并通过知识图谱图数据库语言补充数据集中两两人员之间的关系属性；比较两两人员的类型是否一致、计算两两人员年龄差的绝对值以及计算两两人员之间的居住地直线距离，将结果均存入数据集中；

逻辑回归模型模块，通过样本数据训练逻辑回归模型，并筛选出逻辑回归模型中结果为同行的数据，并与聚类算法模型的结果左关联，以获得两两同行人员的结果表；

计算模块，将结果表中每条数据的同行经过地点进行交集计算，并将计算结果大于l的数据存入数列w中，其余数据存入数列v中；将数列w中每条数据重新进行同行经过地点交集计算，并将计算结果大于l的数据覆盖数列w，其余数据存入数列v，不断循环，直至数列w为空数列，并将数列v作为最终同行人员检测结果；

输出模块，输出最终同行人员检测结果。

第三方面，本申请提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述的同行人员检测方法。

第四方面，本申请提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据上述的同行人员检测方法。

本发明的主要贡献和创新点如下：1、与现有技术相比，本申请通过对于目标人员的同行轨迹识别，并以同行人员数列和同行地点数列的形式进行呈现；方法所必需的数据字段较少且均为易获取数据，通过建立简单的三维密度聚类算法模型即可获得最终结果，同时辅以其他目标人员属性以提高识别结果的准确率，从而解决了通过简单的视频监控识别或聚类算法无法辨别偶然同行的问题；

2、与现有技术相比，由于本申请在聚类模型中的输入变量较少(3维)，解决了通过视频监控识别需要耗费较多硬件资源等问题；由于最终同行人员结果是通过聚类算法与逻辑回归分类算法结合的方式得出，方便业务人员及时对监督性学习模型的参数、控制系数的调整，优化非监督性学习模型的计算结果。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的同行人员检测方法的流程；

图2是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细的对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

现有技术在轨迹分析时主要基于视频信息，通过人脸特征的对比，判断人员在各个点位出现的时间，最终形成人员的行动轨迹。这种方法存在无法辨别偶然同行事件、无法保证同行轨迹准确性以及计算资源大的问题。

基于此，本发明基于密度聚类算法，以解决现有技术存在的问题。

实施例一

本申请旨在提出一种同行人员检测方法，具体地，参考图1，所述方法包括以下步骤：

其中，目标人员的清单是通过与特定人员清单等相关的清单碰撞得到的，具体需要何种清单根据目标人员的类型而定，具体清单根据具体人员类型而定，本申请不做限定。而这里的目标人员清单主要包括目标人员的职业和社会关系等身份信息和社会信息，均为从合法途径可以获得的数据。

优选地，这里的目标人员的定位信息和时间信息可从移动设备或检测记录设备获得，如手机，靠信号基站获得目标人员特定时间点的经纬度信息，如电子脚铐或手铐等，进行定位。

优选地，此处时间应为固定周期差值的时间，可通过运营基站周期性反馈数据或其他检测设备的周期性反馈数据获得，为保证经纬度的连续性与准确性，数据反馈周期应保持在分钟级以内。

在本实施例中，采用但不限于密度聚类算法DBSCAN模型(本申请以此算法为例)，确定DBSCAN模型的eps和minpts参数，具体确定参数的实现过程如下：

1)随机产生数值n(n的取值应大于等于3，且随数据分布的稠密度，进行调整)；

2)遍历计算所有数据点的n近邻点之间的距离的平均值；

3)遍历计算所有数据点的n+1近邻点之间的距离的平均值；

4)遍历计算所有n+1与n距离平均值的差值，该差值为n的梯度变化值；

5)求出梯度变化值最小的n为minpts值，其意义在于所有点位都被最优化的聚类到合适的密度簇中；

6)基于确定的minpts值，遍历求出所有数据点的距离平均值的对数log(dist_mean)，对于数据点k和时间、空间相近的数据点k+1的log(dist_mean)的差值，找到log(dist_mean)的差值变化的拐点，对应的dist_mean为模型eps值。

如此，采用但不限于密度聚类算法DBSCAN模型，将全量目标人员的经度、纬度、归一化的时间戳数据作为模型输入。

其中，DBSCAN是一种密度聚类算法，全称为Density-Based Spatial Clusteringof Applications with Noise，用于将数据集划分为若干个簇。相比于传统的基于距离的聚类算法，如K-Means，DBSCAN能够更好地处理数据分布不规则或簇的形状不规则的情况。优点是能够自动确定簇的数量，并且能够发现任意形状的簇。同时，DBSCAN算法还能够识别噪声点，并将其排除在聚类之外。

优选地，具体归一化得过程如下：

1)由于时间戳与经度、纬度采用不同单位和量级，需将纲量数据转化为纯量数据，并进行加权比较，作为算法模型的输入项；

2)x’＝(x-x_min)/(x_max-x_min)，将经度、纬度、时间戳输入项根据公式进行归一化处理；

其中，经度、纬度和时间戳数据采用不同的单位和量级，因此需要对这些数据进行归一化处理，以便能够将它们作为算法模型的输入项进行加权比较。在这里，纲量数据是指经过归一化处理后的数据，通常采用0到1之间的值表示。

对于经度和纬度数据，通常采用最大最小值归一化方法，将原始数据转化为0到1之间的数值，具体方法如下：

1.找到数据集中经度和纬度的最大值max和最小值min；

2.对于每个经度和纬度的数值x，进行归一化处理，计算公式为：(x-min)/(max-min)。

对于时间戳数据，也需要进行归一化处理，常见的方法是将时间戳转化为时间戳距离，然后再进行最大最小值归一化。具体方法如下：

1.找到数据集中时间戳的最大值max和最小值min；

2.对于每个时间戳数值x，将其转化为时间戳距离，计算公式为：(x-min)/(max-min)；

3.对时间戳距离进行最大最小值归一化，得到归一化后的时间戳数据。

将经度、纬度和时间戳数据进行归一化处理后，可以得到纲量数据，这些数据已经具有相同的纯量性质，可以进行加权比较和聚类分析。

在本实施例中，数据集如下表所示：

优选地，关系属性可以包括家庭成员关系、同事关系、雇主关系、同学关系、邻里关系；若同时存在多重关系，则保留多种关系类型，存入数据集中。

在本实施例中，通过知识图谱图数据库语言调用地图接口来得到两两人员的居住地经纬度，从而计算出居住地直线距离；通过知识图谱图数据库语言获取目标人员的人员类型，并比较两个人员的类型是否一致，如一个为A人员，一个是B人员，则类型不一致；通过知识图谱图数据库语言获取目标人员的年龄，这里就能够计算两两人员的绝对年龄差。如此补充后的数据集如下：

其中，样本数据为目标人员清单与聚类算法模型的输出结果关联得到，包含了同行人员的id及逻辑回归模型输入的特征；特征包括:同行人员类型一致性、同行人员年龄差、同行人员住址距离、家庭关系、邻里关系、社交关系、和关系距离。更为具体地，聚类算法模型的输出结果包含的字段为：重点人员id、同行人员id、同行时长、同行经过点，即S50中的表。

在本实施例中，通过样本数据训练逻辑回归模型，样本量保持在输入自变量的50倍左右，具体过程如下：

1)构建sigmoid函数，将输出结果投射到[0,1]的区间中：

2)设定0.5为决策边界，判断sigmoid函数的分类概率，最终输出二元分类结果：“同行/非同行”；

3)计算模型损失函数，即计算sigmoid结果对“0/1”的偏离值，判断模型的计算误差；

4)将样本随机分为n份(>＝5)，选择其中的n-1份作为训练样本，1份作为校验样本，计算n-1个模型的准确率，若准确率均表现良好，则说明模型不存在过拟合现象；

其中，决策边界是指在将概率值转化为二元分类结果时，设定的阈值。通常将阈值设为0.5，若样本的预测概率大于0.5，则判断为正类，否则判断为负类。判断sigmoid函数的分类概率时，将输入自变量代入sigmoid函数中，得到输出值(也就是样本属于正类的概率)，若输出值大于0.5，则将样本判断为正类，否则判断为负类。

优选地，若上述4)中的结果较差，则说明可能存在过拟合的情况，可通过如下过程解决：

1)计算因变量与单一自变量间的回归系数，将回归系数降序排列，在逻辑回归建模过程中进行逐步回归计算，优先带入回归系数较高的自变量，直至逻辑回归结果不再进行明显的拟合变化时停止计算；

2)将控制系数进行正则化处理，对自变量极端的w值或不符合业务逻辑的系数进行正则化处理。

在本实施例中，判断交集计算结果中元素的数量，若元素数量大于l(S40步骤中的判断距离)，则保留数据结果存入数列w中，并将剩余数据结果存入数列v中。

在本实施例中，最终同行人员检测结果如下表：

实施例二

基于相同的构思，本申请还提出了一种同行人员检测装置，包括：

输出模块，输出最终同行人员检测结果。

实施例三

本实施例还提供了一种电子装置，参考图2，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBu s，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性(Non-Volatile)存储器。在特定实施例中，存储器404包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PR OM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEP ROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRa ndomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMe mory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Ext endedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意同行人员检测方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是等，输出的信息可以是最终同行人员检测结果等。

实施例四

本实施例还提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据实施例一的同行人员检测方法。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以作出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.同行人员检测方法，其特征在于，包括以下步骤：

S10、将所述时间信息中的时间点转换为时间戳，并进行归一化处理，以完成数据预处理；

S50、将所有同行人员集合展开形成两两同行人员对应的数据集中，并通过知识图谱图数据库语言补充所述数据集中两两人员之间的关系属性；

S60、比较两两人员的类型是否一致、计算两两人员年龄差的绝对值以及计算两两人员之间的居住地直线距离，将结果均存入所述数据集中；

S70、通过样本数据训练逻辑回归模型，并筛选出所述逻辑回归模型中结果为同行的数据，并与所述聚类算法模型的输出结果左关联，以获得两两同行人员的结果表；

其中，所述样本数据为目标人员清单与所述聚类算法模型的输出结果关联得到；

S80、将所述结果表中每条数据的同行经过地点进行交集计算，并将计算结果大于l的数据存入数列w中，其余数据存入数列v中；

2.如权利要求1所述的同行人员检测方法，其特征在于，S10步骤中，所述时间点为固定周期差值的时间，该固定周期差值通过检测记录设备或基站反馈的数据周期得到。

3.如权利要求1所述的同行人员检测方法，其特征在于，S20步骤中，采用密度聚类算法DBSCAN模型，并确定该密度聚类算法DBSCAN模型的eps参数和MinPts参数。

4.如权利要求1所述的同行人员检测方法，其特征在于，S20步骤中，通过最大最小值归一化方法将定位信息中的经纬度数据转化成纲量数据，并通过将时间戳转化为时间戳距离，再进行最大最小值归一化转化成纲量数据，再将所有纲量数据转换成纯量数据进行加权比较，以作为聚类算法模型的输入。

5.如权利要求1所述的同行人员检测方法，其特征在于，S50步骤中，所述关系属性包括社会关系，若存在多种社会关系，则保留多种关系类型并存入所述数据集中。

6.如权利要求1所述的同行人员检测方法，其特征在于，S70步骤中，样本数据的量保持在输入自变量的50倍左右。

7.如权利要求1-6任一项所述的同行人员检测方法，其特征在于，所述辑回归模型的训练过程包括以下步骤：

8.一种同行人员检测装置，其特征在于，包括：

输出模块，输出最终同行人员检测结果。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的同行人员检测方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至7任一项所述的同行人员检测方法。