CN116933112A - 一种基于dbscan的旅客异常识别方法及装置 - Google Patents
一种基于dbscan的旅客异常识别方法及装置 Download PDFInfo
- Publication number
- CN116933112A CN116933112A CN202310800798.7A CN202310800798A CN116933112A CN 116933112 A CN116933112 A CN 116933112A CN 202310800798 A CN202310800798 A CN 202310800798A CN 116933112 A CN116933112 A CN 116933112A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- anomaly
- abnormal
- dbscan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002159 abnormal effect Effects 0.000 claims abstract description 126
- 238000004364 calculation method Methods 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000005856 abnormality Effects 0.000 claims abstract description 18
- 238000007621 cluster analysis Methods 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims description 26
- 230000005484 gravity Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 4
- 230000004308 accommodation Effects 0.000 claims description 3
- 238000005054 agglomeration Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于DBSCAN的旅客异常识别方法及装置,其方法包括:建立数据样本,根据数据样本进行无监督异常分类,自动计算异常数据本身的相似性;根据该相似性得到旅客异常判断结果;其中,根据数据样本进行无监督异常分类,具体是将数据样本按照异常类型进行分类并获取其特征数据,形成不同异常类型的特征数据,对不同异常类型的特征数据分别利用DBSCAN算法进行聚类分析,得到聚类簇数据,所述聚类簇数据包括异常簇中心和常规簇中心。本发明根据各类人员属性定义计算特征,利于DBSCAN算法分类的准确性;DBSCAN算法对数据分类过程中,可以区分离群点,这部分数据不仅利于分析新的异常类型,同时避免了少数数据被强制划分到某一类聚类簇而影响分类准确率。
Description
技术领域
本发明涉及电子信息技术领域,具体是一种基于DBSCAN算法实现的旅客异常识别的方法。
背景技术
目前,边检工作人员对过关旅客进行证件筛查和风险识别时,主要有两类方法,一类是根据自身经验做出抉择的人工判断方法,另一类是通过计算机辅助建立专家经验库而实现的自动判断方法。
其中,人工判断存在以下不足:(1)工作人员对过关旅客人员进行风险识别时存在一定的主观性,无法做到统一标准风险判断;(2)工作人员风险识别经验参差不齐,不足以保证风险旅客识别率;(3)人工判别效率不足,使通关查验无法持续保持高效。
自动判断方法中,通过建立专家经验库,根据专家规则对风险旅客进行识别,但是专家经验库的专家经验方法存在以下缺陷:(1)、专家经验法根据经验生成对应规则,与数据真实分布可能存在一定的差异,造成漏检或错检;(2)、当风险旅客在专家经验库中不存在相应识别规则时,无法识别;(3)、当某一类风险人员数据量极少或不存在时,机器学习方法无法学习和捕捉数据之间的关系。针对这种极端情况,单一使用机器学习方法存在一定的漏检率。
发明内容
在下文中给出了关于本发明实施例的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,以下概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的一个方面,提供一种基于DBSCAN的旅客异常识别方法,包括:建立数据样本,根据数据样本进行无监督异常分类,自动计算异常数据本身的相似性;根据该相似性得到旅客异常判断结果;其中,根据数据样本进行无监督异常分类,具体是将数据样本按照异常类型进行分类并获取其特征数据,形成不同异常类型的特征数据,对不同异常类型的特征数据分别利用DBSCAN算法进行聚类分析,得到聚类簇数据,所述聚类簇数据包括异常簇中心和常规簇中心。
进一步的,所述数据样本包括旅客人物画像数据。
进一步的,根据数据样本进行无监督异常分类,具体包括:
步骤1:将数据样本按照异常类型进行分类,形成不同异常类型的旅客信息,所述异常类型可以是第一类异常人员、第二类异常人员、或者第三类异常人员;
步骤2:对各种异常类型的旅客信息分别进行属性定义;根据各种异常类型的旅客信息的属性定义计算特征,形成多种异常类型特征数据(每种异常类型的旅客信息对应一种异常类型特征数据);
根据各种异常类型的旅客信息的属性定义计算特征包括第一类异常人员特征计算、第二类异常人员特征计算和第三类异常人员特征计算,其中第一类异常人员特征包括护照类型、年龄段、境外出行轨迹、境外各地停留时长、出入境频率、违法犯罪记录和敏感时间段出行次数,第一类异常人员特征计算包括将第一类异常人员特征进行数据归一化的步骤;第二类异常人员特征包括旅客国籍、年龄段、证件类型、往来地、出入境次数、出入境间隔、住宿地点和违法违规记录,第二类异常人员特征计算包括将第二类异常人员特征进行数据归一化的步骤;第三类异常人员特征包括旅客国籍、性别、签证停留期、人员类别、在华停留区域、签证类别、违法违规次数以及是否申请过团聚类签证,第三类异常人员特征计算包括将第三类异常人员特征进行数据归一化的步骤;
步骤3:将每种异常类型特征数据单独进行DBSCAN聚类计算;
步骤31:确定DBSCAN算法中的邻域半径Eps和邻域中数据对象数目阈值MinPts参数:
①邻域半径Eps,使用绘制k-距离曲线得到,选取k-距离曲线的明显拐点位置对应的参数;其中,k-距离曲线中,给定K邻域参数k,对于数据中的每个点,计算对应的第k个最近邻域距离,并将数据集所有点对应的最近邻域距离按照降序方式排序,称为排序的k距离图,选择k距离图中第一个谷值点位置对应的k距离值设定为Eps。一般将k值设为4。该k-距离曲线为现有技术,这里不再赘述;
②邻域中数据对象数目阈值MinPts,其选取满足:MinPts≥dim+1,其中dim表示待聚类数据的维度;一般的,MinPts选择大于等于3的值;
步骤32:DBSCAN聚类计算流程:
输入:异常类型特征数据构成的数据集,邻域半径Eps,邻域中数据对象数目阈值MinPts;
输出:密度联通簇;
处理流程如下:
①从数据集中任意选取一个数据对象点p;
②如果对于参数Eps和MinPts,所选取的数据对象点p为核心点,则找出所有从p密度可达的数据对象点,形成一个簇;
③如果选取的数据对象点p是边缘点,选取另一个数据对象点;
④重复②、③步,直到数据集中所有点被处理;
⑤得到聚类簇ci和簇内对象点{pi1,pi2,...,pik}、离群点{o1,o2,...,oj},i为聚类簇数量,k为不同聚类簇对象点数量,j为离群点数量。
步骤4:根据步骤3得到不同异常类型特征数据的聚类簇,通过各类聚类簇即可得到聚类簇中心,记为聚类簇c1、聚类簇c2、聚类簇c3,聚类簇c1内对象点为{p11,p12,...,p1m},聚类簇c2内对象点为{p21,p22,...,p2n},聚类簇c3内对象点为{p31,p32,...,p3s},离群点{o1,o2,...,oj},令簇{p11,p12,...,p1m}重心点p1作为聚类簇c1的聚类中心,令簇{p21,p22,...,p2n}重心点p2作为聚类簇c2的聚类中心,令簇{p31,p32,...,p3s}重心点p3作为聚类簇c3的聚类中心;离群点的定义为:所有对象点中未被划分到任一聚类簇则被定义为离群点,所以离群点与Eps和MinPts的选择和数据分布有关,不同的Eps和MinPts组合得到的离群点数量不定,所以离群点可能存在,也可能不存在。离群点是针对于整个数据集的离群,并非针对某一个聚类簇离群。
步骤5:结合经验和聚类簇c1、聚类簇c2、聚类簇c3的聚类中心特征分布,人工判定各聚类簇异常与否,给簇内对象点确定标签属性;
步骤6:分析离群点分布以确定是否存在异常,如存在异常则将此离群点分布作为异常类聚簇中心di;
步骤7:如果针对某种异常类型存在专家经验,则将专家经验补充可能的异常分布,并划分特征部分,作为专家认定异常类聚类中心dj;
步骤8:得到正常聚类中心点集合{p1,p2,...,pn}和异常聚类中心点集合{dn+1,dn+2,...,dn+m};
步骤9:根据以上步骤即可获得第一类异常人员的正常聚类中心点集合{p1,p2,...,pn1}和异常聚类中心点集合{dn1+1,dn1+2,...,dn1+m1}、第二类异常人员的正常聚类中心点集合{q1,q2,...,qn2}和异常聚类中心点集合{dn2+1,dn2+2,...,dn2+m2}、第三类异常人员的正常聚类中心点集合{r1,r2,...,rn3}和异常聚类中心点集合{dn3+1,dn3+2,...,dn3+m3}。
具体的,步骤31中,不同的邻域半径Eps和MinPts对聚类结果影响很大,所以选择Eps和MinPts时既要考虑k距离谷值点,也要考虑聚类结果与数据分布的一致性(是否能准确划分正常数据与异常数据);具体步骤如下:
1、将样本进行聚类算法之前,人工标注正常人员数据和异常人员数据若干个形成标记点(例如进行第一类异常人员聚类之前,根据专家经验在当前数据中确定3个第一类异常人员和3个正常人员);
2、对不同人员数据进行特征计算得到特征数据;
3、对特征数据进行k距离计算,并绘制k-距离曲线,确定不同谷值点位置对应的k距离值;
4、依次以不同谷值点k距离作为DBSCAN算法Eps参数,得到Eps参数列表[Eps1,Eps2,…,Epsn-1,Epsn];
5、DBSCAN参数MinPts根据MinPts≥dim+1,确定候选列表[MinPts1,MinPts2,…,MinPtsm-1,MinPtsm];
6、对[Eps1,Eps2,…,Epsn-1,Epsn]和[MinPts1,MinPts2,…,MinPtsm-1,MinPtsm]进行网格计算,得到不同的聚类簇;
7、对第一步的标记点进行聚类簇判断,如若不同人员类型分别属于不同聚类簇则满足要求(比如第一类异常人员属于聚类簇c1和c2,而正常人员属于c3),保留对应Eps和MinPts;
8、如果存在多组参数候选项,首先选择Eps最大候选项Eps-i,如果候选项中Eps-i对应的MinPts有多组,则选择MinPts最小候选项MinPts-j,因为Eps越大和Minpts越小,DBSCAN离群点也越少。
进一步的,所述自动计算异常数据本身的相似性,根据该相似性得到旅客异常判断结果,具体包括:
对于边检新增旅客,计算第一类异常人员特征分布z、第二类异常人员特征分布q、第三类异常人员r与对应聚类中心点集合的相似性,并根据相似性来判断是否异常,以及所属异常种类:
(1)计算z与{p1,p2,...,pn1}、{dn1+1,dn1+2,…,dn1+m1}的相似性,相似性最高的点对应标签即为该旅客是否为第一类异常人员对应的标签属性,如p与pn1+2相似性最高,而pn1+2对应标签属于异常,则该旅客属于第一类异常人员;
(2)计算q与{q1,q2,...,qn2}、{dn2+1,dn2+2,...,dn2+m2}的相似性,相似性最高的点对应标签即为该旅客是否为第一类异常人员对应的标签属性,如q与qn2+2相似性最高,而qn2+2对应标签属于异常,则该旅客属于第二类异常人员;
(3)计算r与{r1,r2,...,rn3}、{dn3+1,dn3+2,...,dn3+m3}的相似性,相似性最高的点对应标签即为该旅客是否为第一类异常人员对应的标签属性,如r与rn3+2相似性最高,而rn3+2对应标签属于异常,则该旅客属于第三类异常人员。
其中,作为一种可行的方案,计算第一类异常人员特征分布z、第二类异常人员特征分布q、第三类异常人员r与对应聚类中心点集合的相似性,其相似度计算公式为:
具体应用时,对于预报出境或入境旅客,可提前计算其异常属性存入数据库,并给予人员异常预警提示现场工作人员,当旅客过关时重点筛查和盘问。
根据本申请的另一方面,提供一种基于DBSCAN的旅客异常识别装置,包括:
第一模块,用于建立数据样本;
第二模块,用于根据数据样本进行无监督异常分类;
第三模块,用于自动计算异常数据本身的相似性;
第四模块,用于根据该相似性得到旅客异常判断结果;
其中,第二模块中根据数据样本进行无监督异常分类,具体是将数据样本按照异常类型进行分类并获取其特征数据,形成不同异常类型的特征数据,对不同异常类型的特征数据分别利用DBSCAN算法进行聚类分析,得到聚类簇数据,所述聚类簇数据包括异常簇中心和常规簇中心。
本发明的方法可直接应用在边检过关旅客数据研判领域;该方法结合机器学习方法和人工自定义,对边检通关旅客进行异常判别。与现有技术相比,本发明具有如下优点:
1、根据各类人员属性定义计算特征,利于DBSCAN算法分类的准确性;
2、DBSCAN算法对数据分类过程中,可以区分离群点,这部分数据不仅利于分析新的异常类型,同时避免了少数数据被强制划分到某一类聚类簇,进而影响分类准确率;
3、对于开放不久口岸,历史数据量可能未包含所有类型数据,该专利支持人工自定义某一类型异常特征分布,可在一定程度上减少漏检。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附
图中:
图1为本发明实施例的原理框图。
具体实施方式
下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
当前阶段,口岸工作人员根据自身经验对旅客进行主观异常判断,可能存在漏检错检。本专利根据旅客人物画像数据进行无监督异常分类,自动计算异常数据本身的相似性,为旅客异常判断提供一种客观计算方法。
作为一个具体的实施例,本发明的基于DBSCAN的旅客异常识别方法具体实施如下:
步骤1、抽取n位常规旅客,n大于等于1000;
步骤2、计算不同异常类型:第一类异常人员、第二类异常人员、第三类异常人员;
(1)第一类异常人员特征计算:护照类型、年龄段、境外出行轨迹、境外各地停留时长、出入境频率、违法犯罪记录、敏感时间段出行次数,并进行数据归一化;
(2)第二类异常人员特征计算:旅客国籍、年龄段、证件类型、往来地、出入境次数、出入境间隔、住宿地点、违法违规记录,并进行数据归一化;
(3)第三类异常人员特征计算:旅客国籍、性别、签证停留期、人员类别、在华停留区域、签证类别、违法违规次数、是否申请过团聚类签证,并进行数据归一化;
步骤3、将每种异常类型特征数据单独进行DBSCAN聚类计算;
DBSCAN(Density-Based Spatial Clustering ofApplication with Noise)算法是一种典型的基于密度的聚类方法,它将簇定义为密度相连的点的最大集合,能够把具有足够密度的区域划分为簇,并可以在有噪音的空间数据集中发现任意形状的簇。DBSCAN算法中有两个重要参数:Eps和MinPts。Eps是定义密度时的邻域半径,MinPts为定义核心点时的阈值。
(1)DBSCAN参数选择流程:
①邻域半径Eps的值可以使用绘制k-距离曲线(k-distance graph)方法得到,在k-距离曲线图明显拐点位置为对应较好的参数。若参数设置过小,大部分数据不能聚类;若参数设置过大,多个簇和大部分对象会归并到同一个簇中。
K-距离:K距离的定义在DBSCAN算法原文中给出了详细解说,给定K邻域参数k,对于数据中的每个点,计算对应的第k个最近邻域距离,并将数据集所有点对应的最近邻域距离按照降序方式排序,称为排序的k距离图,选择图中第一个谷值点位置对应的k距离值设定为Eps。一般将k值设为4。
②邻域中数据对象数目阈值MinPts的选取有一个指导性的原则(a rule ofthumb),MinPts≥dim+1,其中dim表示待聚类数据的维度。MinPts设置为1是不合理的,因为设置为1,则每个独立点都是一个簇,MinPts≤2时,与层次距离最近邻域结果相同,因此,MinPts必须选择大于等于3的值。若该值选取过小,则稀疏簇中结果由于密度小于MinPts,从而被认为是边界点儿不被用于在类的进一步扩展;若该值过大,则密度较大的两个邻近簇可能被合并为同一簇。因此,该值是否设置适当会对聚类结果造成较大影响。
(2)DBSCAN聚类计算流程:
输入:数据集,邻域半径Eps,邻域中数据对象数目阈值MinPts;
输出:密度联通簇。
处理流程如下:
①从数据集中任意选取一个数据对象点p;
②如果对于参数Eps和MinPts,所选取的数据对象点p为核心点,则找出所有从p密度可达的数据对象点,形成一个簇;
③如果选取的数据对象点p是边缘点,选取另一个数据对象点;
④重复②、③步,直到所有点被处理;
⑤得到聚类簇ci和簇内对象点{pi1,pi2,…pik}、离群点{o1,o2,...,oj},i等于聚类簇数量,k等于不同聚类簇对象点数量,j等于离群点数量;
步骤4、根据步骤3可以得到不同异常类型第一类异常人员、第二类异常人员特征计算、第三类异常人员的聚类簇。通过各类聚类簇可以得到聚类簇中心。如第一类异常人员聚类簇c1,第二类异常人员聚类簇c2,第三类异常人员聚类簇c3,聚类簇c1内对象点为{p11,p12,...,p1m},离群点{o1,o2,...,oj},聚类簇c2内对象点为{p21,p22,...,p2n},聚类簇c3内对象点为{p31,p32,...,p3s},,令簇{p11,p12,...,p1m}重心点p1作为聚类簇c1的聚类中心,令簇{p21,p22,...,p2n}重心点p2作为聚类簇c2的聚类中心,令簇{p31,p32,...,p3s}重心点p3作为聚类簇c3的聚类中心;
步骤5、结合经验和聚类簇c1、聚类簇c2、聚类簇c3的聚类中心特征分布,人工判定各聚类簇异常与否,给簇内对象点确定标签属性;
步骤6、由于离群点不归属于任何聚类簇,并且分布离散,有一定的异常概率,分析离群点分布可确定非常规异常类型,如存在异常可将此离群点分布作为异常类聚簇中心di;
步骤7、历史数据中可能并未包含所有可能的异常分布,此时需要根据专家经验补充可能的异常分布,以满足后续异常检测覆盖的全面性。如果针对某种异常类型存在专家经验,可人为划分特征部分,作为专家认定异常类聚类中心dj;
步骤8、得到正常聚类中心点集合{p1,p2,...,pn}和异常聚类中心点集合{dn+1,dn+2,...,dn+m};
步骤9、根据以上步骤即可获得第一类异常人员的正常聚类中心点集合{p1,p2,...,pn1}和异常聚类中心点集合{dn1+1,dn1+2,...,dn1+m1}、第二类异常人员的正常聚类中心点集合{q1,q2,...,qn2}和异常聚类中心点集合{dn2+1,dn2+2,...,dn2+m2}、第三类异常人员的正常聚类中心点集合{r1,r2,...,rn3}和异常聚类中心点集合{dn3+1,dn3+2,...,dn3+m3};
步骤9、对于边检口岸新增旅客,计算第一类异常人员特征分布z、第二类异常人员特征分布q、第三类异常人员r与对应类型的正常聚类中心点集合和异常聚类中心点集合的相似度,从而判断是否异常人员以及归属于哪一类的异常人员:
(1)计算z与{p1,p2,...,pn1}、{dn1+1,dn1+2,...,dn1+m1}的相似性,相似性最高的点对应标签即为该旅客是否为第一类异常人员对应的标签属性,如p与pn1+2相似性最高,而pni+2对应标签属于异常,则该旅客属于第一类异常人员;
(2)计算q与{q1,q2,...,qn2}、{dn2+1,dn2+2,...,dn2+m2}的相似性,相似性最高的点对应标签即为该旅客是否为第二类异常人员对应的标签属性,如q与qn2+2相似性最高,而qn2+2对应标签属于异常,则该旅客属于第二类异常人员;
(3)计算r与{r1,r2,...,rn3}、{dn3+1,dn3+2,...,dn3+n3}的相似性,相似性最高的点对应标签即为该旅客是否为第三类异常人员对应的标签属性,如r与rn3+2相似性最高,而rn3+2对应标签属于异常,则该旅客属于第三类异常人员。
(4)本实施例中,上述计算相似度的计算公式为:
步骤10、对于预报出境或入境旅客,提前计算其异常属性存入数据库,并给予人员异常预警提示现场工作人员,当旅客过关时重点筛查和盘问。
本发明的方法可直接应用在边检过关旅客数据研判领域;该方法结合机器学习方法和人工自定义,对边检通关旅客进行异常判别。
此外,本发明实施例还提供一种基于DBSCAN的旅客异常识别装置,其包括:
第一模块,用于建立数据样本;
第二模块,用于根据数据样本进行无监督异常分类;
第三模块,用于自动计算异常数据本身的相似性;
第四模块,用于根据该相似性得到旅客异常判断结果;
其中,第二模块中根据数据样本进行无监督异常分类,具体是将数据样本按照异常类型进行分类并获取其特征数据,形成不同异常类型的特征数据,对不同异常类型的特征数据分别利用DBSCAN算法进行聚类分析,得到聚类簇数据,聚类簇数据包括异常簇中心和常规簇中心。
上述第一模块、第二模块、第三模块和第四模块均执行基于DBSCAN的旅客异常识别方法的相应步骤。
本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
Claims (10)
1.一种基于DBSCAN的旅客异常识别方法,其特征在于:包括:
建立数据样本,根据数据样本进行无监督异常分类,自动计算异常数据本身的相似性;根据该相似性得到旅客异常判断结果;
其中,根据数据样本进行无监督异常分类,具体是将数据样本按照异常类型进行分类并获取其特征数据,形成不同异常类型的特征数据,对不同异常类型的特征数据分别利用DBSCAN算法进行聚类分析,得到聚类簇数据,所述聚类簇数据包括异常簇中心和常规簇中心。
2.根据权利要求1所述的基于DBSCAN的旅客异常识别方法,其特征在于:所述数据样本包括旅客人物画像数据。
3.根据权利要求1所述的基于DBSCAN的旅客异常识别方法,其特征在于:根据数据样本进行无监督异常分类,具体包括:
步骤1:将数据样本按照异常类型进行分类,形成不同异常类型的旅客信息,
步骤2:对各种异常类型的旅客信息分别进行属性定义;根据各种异常类型的旅客信息的属性定义分别计算特征,形成多种异常类型特征数据;
步骤3:将每种异常类型特征数据单独进行DBSCAN聚类计算:
步骤31:确定DBSCAN算法中的邻域半径Eps和邻域中数据对象数目阈值MinPts参数:
步骤32:DBSCAN聚类计算流程:
输入:异常类型特征数据构成的数据集,邻域半径Eps,邻域中数据对象数目阈值MinPts;
输出:密度联通簇;
处理流程如下:
①从数据集中任意选取一个数据对象点p;
②如果对于参数Eps和MinPts,所选取的数据对象点p为核心点,则找出所有从p密度可达的数据对象点,形成一个簇;
③如果选取的数据对象点p是边缘点,选取另一个数据对象点;
④重复②、③步,直到数据集中所有点被处理;
⑤得到聚类簇ci和簇内对象点{pi1,pi2,…pik}、离群点{o1,o2,...,oj},i为聚类簇数量,k为不同聚类簇对象点数量,j为离群点数量;
步骤4:根据步骤3得到不同异常类型特征数据的聚类簇,通过各类聚类簇即可得到聚类簇中心,记为聚类簇c1、聚类簇c2、聚类簇c3,聚类簇c1内对象点为{p11,p12,...,p1m},聚类簇c2内对象点为{p21,p22,..,p2n},聚类簇c3内对象点为{p31,p32,...,p3s},离群点{o1o2,...,oj},令簇{p11,p12,...,p1m}重心点p1作为聚类簇c1的聚类中心,令簇{p21,p22,...,p2n}重心点p2作为聚类簇c2的聚类中心,令簇{p31,p32,...,p3s}重心点p3作为聚类簇c3的聚类中心;
步骤5:结合经验和聚类簇c1、聚类簇c2、聚类簇c3的聚类中心特征分布,人工判定各聚类簇异常与否,给簇内对象点确定标签属性;
步骤6:分析离群点分布以确定是否存在异常,如存在异常则将此离群点分布作为异常类聚簇中心di;
步骤7:如果针对某种异常类型存在专家经验,人为划分特征部分,作为专家认定异常类聚类中心dj;
步骤8:得到正常聚类中心点集合{p1,p2,...,pn}和异常聚类中心点集合{dn+1,dn+2,...,dn+m};
步骤9:根据以上步骤即可获得第一类异常人员的正常聚类中心点集合{p1,p2,...,pn1}和异常聚类中心点集合{dn1+1,dn1+2,…,dn1+m1}、第二类异常人员的正常聚类中心点集合{q1,q2,...,qn2}和异常聚类中心点集合{dn2+1,dn2+2,…,dn2+n2}、第三类异常人员的正常聚类中心点集合{r1,r2,…,rn3}和异常聚类中心点集合{dn3+1,dn3+2,...,dn3+m3}。
4.根据权利要求3所述的基于DBSCAN的旅客异常识别方法,其特征在于:
所述步骤31中,选择Eps和MinPts时既要考虑k距离谷值点,也要考虑聚类结果与数据分布的一致性;具体步骤如下:
将样本进行聚类算法之前,人工标注正常人员数据和异常人员数据若干个形成标记点;
对不同人员数据进行特征计算得到特征数据;
对特征数据进行k距离计算,并绘制k-距离曲线,确定不同谷值点位置对应的k距离值;
依次以不同谷值点k距离作为DBSCAN算法Eps参数,得到Eps参数列表[Eps1,Eps2,…,Epsn-1,Epsn];
DBSCAN参数MinPts根据MinPts≥dim+1,确定候选列表[MinPts1,MinPts2,…,MinPtsm-1,MinPtsm];
对[Eps1,Eps2,…,Epsn-1,Epsn]和[MinPts1,MinPts2,…,MinPtsm-1,MinPtsm]进行网格计算,得到不同的聚类簇;
对第一步的标记点进行聚类簇判断,如若不同人员类型分别属于不同聚类簇则满足要求,保留对应Eps和MinPts;
如果存在多组参数候选项,首先选择Eps最大候选项Eps-i,如果候选项中Eps-i对应的MinPts有多组,则选择MinPts最小候选项MinPts-j,因为Eps越大和Minpts越小,DBSCAN离群点也越少。
5.根据权利要求4所述的基于DBSCAN的旅客异常识别方法,其特征在于:所述步骤1中,异常类型是第一类异常人员、第二类异常人员、或者第三类异常人员。
6.根据权利要求5所述的基于DBSCAN的旅客异常识别方法,其特征在于:所述步骤2中,根据各种异常类型的旅客信息的属性定义计算特征包括第一类异常人员特征计算、第二类异常人员特征计算和第三类异常人员特征计算,其中第一类异常人员特征包括护照类型、年龄段、境外出行轨迹、境外各地停留时长、出入境频率、违法犯罪记录和敏感时间段出行次数,第一类异常人员特征计算包括将第一类异常人员特征进行数据归一化的步骤;第二类异常人员特征包括旅客国籍、年龄段、证件类型、往来地、出入境次数、出入境间隔、住宿地点和违法违规记录,第二类异常人员特征计算包括将第二类异常人员特征进行数据归一化的步骤;第三类异常人员特征包括旅客国籍、性别、签证停留期、人员类别、在华停留区域、签证类别、违法违规次数以及是否申请过团聚类签证,第三类异常人员特征计算包括将第三类异常人员特征进行数据归一化的步骤。
7.根据权利要求6所述的基于DBSCAN的旅客异常识别方法,其特征在于:所述自动计算异常数据本身的相似性,根据该相似性得到旅客异常判断结果,具体使:对于边检新增旅客,计算第一类异常人员特征分布z、第二类异常人员特征分布q、第三类异常人员特征分布r与对应聚类中心点集合的相似性,并根据计算得到的相似性判断其是否异常:
(1)计算p与{p1,p2,...,pn1}、{dn1+1,dn1+2,…,dn1+m1}的相似性,相似性最高的点对应标签即为该旅客是否为第一类异常人员对应的标签属性,如p与pn1+2相似性最高,而pn1+2对应标签属于异常,则该旅客属于第一类异常人员;
(2)计算q与{q1,q2,...,qn2}、{dn2+1,dn2+2,...,dn2+m2}的相似性,相似性最高的点对应标签即为该旅客是否为第一类异常人员对应的标签属性,如q与qn2+2相似性最高,而qn2+2对应标签属于异常,则该旅客属于第二类异常人员;
(3)计算r与{r1,r2,...,rn3}、{dn3+1,dn3+2,...,dn3+m3}的相似性,相似性最高的点对应标签即为该旅客是否为第一类异常人员对应的标签属性,如r与rn3+2相似性最高,而rn3+2对应标签属于异常,则该旅客属于第三类异常人员。
8.根据权利要求7所述的基于DBSCAN的旅客异常识别方法,其特征在于:所述计算第一类异常人员特征分布z、第二类异常人员特征分布q、第三类异常人员特征分布r与对应聚类中心点集合的相似性,其采用如下相似度计算公式进行相似性计算:
9.一种基于DBSCAN的旅客异常识别装置,其特征在于:包括:
第一模块,用于建立数据样本;
第二模块,用于根据数据样本进行无监督异常分类;
第三模块,用于自动计算异常数据本身的相似性;
第四模块,用于根据该相似性得到旅客异常判断结果;
其中,第二模块中根据数据样本进行无监督异常分类,具体是将数据样本按照异常类型进行分类并获取其特征数据,形成不同异常类型的特征数据,对不同异常类型的特征数据分别利用DBSCAN算法进行聚类分析,得到聚类簇数据,所述聚类簇数据包括异常簇中心和常规簇中心。
10.根据权利要求9所属的基于DBSCAN的旅客异常识别装置,其特征在于:
执行如权利要求1至8任意一项所述的基于DBSCAN的旅客异常识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310800798.7A CN116933112A (zh) | 2023-07-03 | 2023-07-03 | 一种基于dbscan的旅客异常识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310800798.7A CN116933112A (zh) | 2023-07-03 | 2023-07-03 | 一种基于dbscan的旅客异常识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116933112A true CN116933112A (zh) | 2023-10-24 |
Family
ID=88379813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310800798.7A Pending CN116933112A (zh) | 2023-07-03 | 2023-07-03 | 一种基于dbscan的旅客异常识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933112A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171141A (zh) * | 2023-11-01 | 2023-12-05 | 广州中长康达信息技术有限公司 | 一种基于关系图谱的数据模型建模方法 |
CN117346829A (zh) * | 2023-12-06 | 2024-01-05 | 科瑞工业自动化系统(苏州)有限公司 | 水下传感器检测、校正方法、检测装置及控制平台 |
-
2023
- 2023-07-03 CN CN202310800798.7A patent/CN116933112A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171141A (zh) * | 2023-11-01 | 2023-12-05 | 广州中长康达信息技术有限公司 | 一种基于关系图谱的数据模型建模方法 |
CN117171141B (zh) * | 2023-11-01 | 2024-02-20 | 广州中长康达信息技术有限公司 | 一种基于关系图谱的数据模型建模方法 |
CN117346829A (zh) * | 2023-12-06 | 2024-01-05 | 科瑞工业自动化系统(苏州)有限公司 | 水下传感器检测、校正方法、检测装置及控制平台 |
CN117346829B (zh) * | 2023-12-06 | 2024-02-23 | 科瑞工业自动化系统(苏州)有限公司 | 水下传感器检测、校正方法、检测装置及控制平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | Automatic pavement crack detection based on structured prediction with the convolutional neural network | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN116933112A (zh) | 一种基于dbscan的旅客异常识别方法及装置 | |
CN112102226A (zh) | 数据处理方法、图案检测方法及晶圆缺陷图案检测方法 | |
US11837329B2 (en) | Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius | |
CN110942099A (zh) | 一种基于核心点保留的dbscan的异常数据识别检测方法 | |
CN111557011A (zh) | 企业破产预测系统及其运行方法 | |
CN110264454A (zh) | 基于多隐藏层条件随机场的宫颈癌组织病理图像诊断方法 | |
CN110837874A (zh) | 基于时间序列分类的业务数据异常检测方法 | |
CN109034584A (zh) | 基于大数据的供电所廉洁风险隐患分析方法 | |
CN117726166A (zh) | 基于大语言模型的人工智能企业客户风险信息分析评估方法和系统 | |
CN107480441A (zh) | 一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及系统 | |
CN117349786B (zh) | 基于数据均衡的证据融合变压器故障诊断方法 | |
US20230377132A1 (en) | Wafer Bin Map Based Root Cause Analysis | |
CN116910662A (zh) | 基于随机森林算法的旅客异常识别方法和装置 | |
CN117034110A (zh) | 一种基于深度学习的干细胞外泌体检测方法 | |
Zhang et al. | Determining statistical process control baseline periods in long historical data streams | |
US20220058371A1 (en) | Classification of cell nuclei | |
Yuan et al. | Research on Strawberry Quality Grading Based on Object Detection and Stacking Fusion Model | |
CN112926989A (zh) | 一种基于多视图集成学习的金融交易风险评估方法及设备 | |
Dhanush et al. | Crime Prediction and Forecasting using Voting Classifier | |
Deepa et al. | Identification and Analysis of Alzheimer’s Disease using DenseNet Architecture with Minimum Path Length Between Input and Output Layers | |
CN112988978B (zh) | 一种公益诉讼重点领域案件趋势分析系统 | |
Sevi et al. | Check for updates Intelligent Classification of Defective Rails Through GAN and Ensemble Predictive Model | |
CN118262181B (zh) | 一种基于大数据的自动化数据处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |