CN111476177A - 嫌疑人检测方法及装置 - Google Patents

嫌疑人检测方法及装置 Download PDF

Info

Publication number
CN111476177A
CN111476177A CN202010279742.8A CN202010279742A CN111476177A CN 111476177 A CN111476177 A CN 111476177A CN 202010279742 A CN202010279742 A CN 202010279742A CN 111476177 A CN111476177 A CN 111476177A
Authority
CN
China
Prior art keywords
data
subway
behavior data
riding
riding behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010279742.8A
Other languages
English (en)
Other versions
CN111476177B (zh
Inventor
刘琦
章恒靖
徐鹏
邱世阳
乔正宇
郑维
邱枫
刘恒昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comprehend Suzhou Information Technology Co ltd
Original Assignee
Comprehend Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comprehend Suzhou Information Technology Co ltd filed Critical Comprehend Suzhou Information Technology Co ltd
Priority to CN202010279742.8A priority Critical patent/CN111476177B/zh
Publication of CN111476177A publication Critical patent/CN111476177A/zh
Application granted granted Critical
Publication of CN111476177B publication Critical patent/CN111476177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Alarm Systems (AREA)

Abstract

本发明实施例提供一种嫌疑人检测方法及装置,所述方法包括:获取待预测的地铁乘车行为数据;对地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;将经过处理的乘车行为数据输入至异常行为检测模型中,获得地铁乘车行为数据对应的识别结果;其中,异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。本发明实施例建立无监督学习模型,对正常乘客的出行行为进行重构,通过模型提取出正常乘客行为的潜在特征,使得正常乘客数据可以通过该模型进行很好还原,但是异常乘客数据无法被很好的还原,通过二者还原的误差来实现对异常乘客进行识别,使用了更为简单的数据、部署方便且易于集成。

Description

嫌疑人检测方法及装置
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种嫌疑人检测方法及装置。
背景技术
随着城镇化的高速发展、城市居民的高度集中、私家车辆的高占有率等,常规的地面交通出行方式越来越不能满足人们的日常出行需求,因此越来越多的城市选择通过地铁来舒缓当前的交通状况、方便人们的日常出行。然而,在给人们带来便利的同时,地铁所引起的人群聚集性,也为一些不法分子提供了便利,如小偷等。
传统方式中,要识别、发现小偷往往是一个十分复杂且耗时耗力的工作。首先,失窃者需要明确自己是在乘坐地铁的过程中丢失了物品,还需要尽可能详细地向警方或工作人员描述所有可能导致自己失窃的场景或细节;其次,警方需要在大量相关的视频记录中逐一查找,这个过程不仅耗时耗力,结果往往也不一定能尽如人意。而且,在实际生活中,很多失窃者有时候并不能确定自己是不是在乘坐地铁的过程中丢失了物品;另外由于查找过程较为繁琐,或者失窃物品并不是十分贵重,很多失窃者可能都没有选择报警,这些情况也都为嫌疑人的抓取带来了一定的难度。
近年来,为了可以更高效的检测、识别嫌疑人,尽量减少对人力、物力资源的浪费,各种高新技术、人工智能技术纷纷被应用在公共安全方面。一种方式是通过部署高清人脸摄像头,并使用人脸识别技术来自动的从海量视频流中对一些已备案或已确定的嫌疑人进行自动识别。具体来讲,对已备案的嫌疑人来说,首先是要提前创建一个嫌疑人人像库,其次是需要自动从视频流中提取出每个乘客的人像,最后则是将提取出来的人像与嫌疑人库中的人像进行比对,从而达到嫌疑人识别的效果。而对已确定的嫌疑人来说,则是在警方或工作人员基本确定了某个嫌疑人的基础上,将该嫌疑人的人像作为输入,让系统自动识别出其行为轨迹以及照片,从而极大的减少人工查找的工作量。例如,央视《新闻直播间》就曾在2017年对宁波地铁站里的“人脸识别系统”进行报道,该系统将人脸识别技术与公安部逃犯信息进行联网,能精确识别逃犯的人脸特征,运行一年间,共帮助警方成功抓获近50名逃犯。
另一种方式则是使用乘客出行时的刷卡数据,通过一些大数据、机器学习、神经网络的模型与算法,对乘客的出行行为、出行习惯等进行统计分析,从中主动识别出一些有异常、有嫌疑的人员,并将结果反馈给警方或者工作人员,由其进行人工确认。熊辉教授在论文“Catch Me If You Can:Detecting Pickpocket Suspects from Large-Scale TransitRecords”中提供了一种在公共交通系统中识别小偷的方案。该方案使用了北京市2014年4月至6月间约17亿条公交、地铁的刷卡数据,以及1万多条扒手相关的微博数据。然后,通过对刷卡数据进行处理分析,抽象并整理出乘客的日常行为(如该乘客当天的乘车用时、乘车频率等)、社会特征(如所有乘客的平均用时等)、历史行为(如该乘客在最近一周内的乘车次数、乘车用时等)三大维度的特征。在此基础上,通过一个两步框架,即第一步是通过无监督异常检测即One-Class SVM算法将正常乘客剔除出去;第二步则是通过有监督分类方法,对第一步筛选出来的异常乘客与微博数据中的标记数据进行比对训练,最终训练出一个可用的模型来达到通过刷卡数据识别嫌疑人的目的。
对第一种使用人脸识别技术的方案而言,其实施起来会有很多限制,首先需要在地铁站中提前安装足够多的高清人脸摄像头。每个高清摄像头每天都会产生海量的视频文件,而这些视频文件的存储、处理、分析过程,对后端服务器的性能、存储容量、负载能力、可靠性等都有较高的要求,这就极大的增加了该方案的实施成本。其次,该方案主要适用于对已知嫌疑人进行查找与追踪,而不适用于对未知风险的识别与感知。若该嫌疑人未在已有嫌疑人人像库中出现,则该系统就会失效。
对第二种方案而言,首先其使用了北京的公交、地铁刷卡数据,其中北京市的公交乘坐规则与绝大多数城市的规则不同,在北京乘坐公交时,乘客上下车均要刷卡,所以可以很方便的知道乘客出行的起点和终点,而其他大多数城市则只需要上车刷卡,至于乘客在哪个站点下车,是很难得知的。其次,其有监督分类时使用了大量的嫌疑人标记数据来提升模型准确率,但实际调研发现,传统方式下,警方在抓获嫌疑人后,并不关注该嫌疑人在当时的地铁乘坐记录,因此很多时候并没有足够的标记数据可供使用。
发明内容
为了解决或者至少部分地解决上述问题,本发明实施例提供一种嫌疑人检测方法及装置。
第一方面,本发明实施例提供一种嫌疑人检测方法,包括:
获取待预测的地铁乘车行为数据;
对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;
将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;
其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
可选地,训练所述异常行为检测模块的步骤,具体包括:
获取地铁乘车行为数据样本;
对所述地铁乘车行为数据样本进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据样本;
根据专家知识,从所述经过处理的乘车行为数据样本筛选出正常乘车行为数据样本;
构建自编码器模型,利用所述正常乘车行为数据样本对所述自编码器模型进行训练;
训练结束时,保存所述自编码器模型的参数,获得训练完成的异常行为检测模型。
可选地,所述地铁乘车行为数据具体包括:地铁站点信息相关数据、票种分类数据和刷卡数据。
可选地,对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据的步骤,具体包括:
对所述地铁乘车行为数据进行数据分析,确定票种信息、出行时间、各站点的进出站客流量和途经客流量,以及乘车时间分布;
数据分析完成后,依据分析结果对所述地铁乘车行为数据进行清洗,将所述地铁乘车行为数据处理成特征工程的数据类型并对缺失数据和错误数据进行清理;
将预处理后的数据输入到特征工程进行七个维度的特征提取;
其中,所述七个维度包括:当日乘客在地铁站停留时间、当日乘客乘坐轨道交通的实际使用时间与理论使用时间的差值、当日乘客经过的热门站点数、当日乘客乘坐地铁的次数、当日乘客乘坐地铁不同的起点-终点对数目、当日乘客乘坐地铁的进站口数目以及当日乘客同一进站的最大访问次数。
可选地,将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果的步骤,具体包括:
将所述经过处理的乘车行为数据输入至异常行为检测模型中,获取所述异常行为检测模型的输出;
对所述异常行为检测模型的输出进行核验,若所述异常行为检测模型的输出与正常的乘车特征间的误差大于预设阈值,则确定所述地铁乘车行为数据对应的识别结果为嫌疑人;或者,若所述异常行为检测模型的输出与正常的乘车特征间的误差小于等于预设阈值,则确定所述地铁乘车行为数据对应的识别结果为正常。
可选地,将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果的步骤之后,还包括:
将所述地铁乘车行为数据以及对应的识别结果放入有标记数据集中;
基于所述有标记数据集,将识别结果为正常的地铁乘车行为数据作为样本再次输入到所述自编码模型中进行模型的迭代优化。
第二方面,本发明实施例提供一种嫌疑人检测装置,包括:
获取模块,用于获取待预测的地铁乘车行为数据;
数据处理模块,用于对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;
检测模块,用于将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;
其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
其中,还包括:
训练模块,用于训练所述异常行为检测模块;
所述训练模块具体用于:
获取地铁乘车行为数据样本;
对所述地铁乘车行为数据样本进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据样本;
根据专家知识,从所述经过处理的乘车行为数据样本筛选出正常乘车行为数据样本;
构建自编码器模型,利用所述正常乘车行为数据样本对所述自编码器模型进行训练;
训练结束时,保存所述自编码器模型的参数,获得训练完成的异常行为检测模型。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的嫌疑人检测方法步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的嫌疑人检测方法的步骤。
本发明实施例提供的嫌疑人检测方法及装置,不需要额外部署数据采集设备且不需要很多已有标记数据,针对嫌疑人出行数据稀少的特点,利用无标签数据,建立无监督学习模型,对正常乘客的出行行为进行重构,通过模型提取出正常乘客行为的潜在特征,使得正常乘客数据可以通过该模型进行很好还原,但是异常乘客数据无法被很好的还原,通过二者还原的误差来实现对异常乘客进行识别,与现有技术相比,使用了更为简单的数据,无须额外的硬件布置,方便部署,与现有的轨交系统有较好的集成度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种嫌疑人检测方法的流程示意图;
图2为本发明实施例提供的对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据的流程示意图;
图3为本发明实施例提供的七个特征维度的示意图;
图4为本发明实施例提供的训练所述异常行为检测模块的流程示意图;
图5为本发明实施例提供的异常行为检测模型的示意图;
图6为本发明实施例提供的嫌疑人检测装置的结构示意图;
图7为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明是一种基于刷卡数据的嫌疑人识别方案,为了能更好地识别出乘客的异常行为,主要通过数据分析、数据预处理、特征工程、模型检测最终检测出犯罪嫌疑人。
如图1所示,为本发明实施例提供的一种嫌疑人检测方法的流程示意图,包括:
S100、获取待预测的地铁乘车行为数据;
具体地,从轨道交通系统获取待预测的地铁乘车行为数据。
本实施例中,地铁乘车行为数据具体包括:地铁站点信息相关数据、票种分类数据和刷卡数据。
其中,地铁站点信息相关数据:用于描述每条地铁线路中各个站点的基本信息,包括车站编号、所属线路、车站名称。其中,若站点A为1号线、2号线的换乘站点,则其在两条线路中均有记录。
票种分类数据:用于简要描述每类票种对应的功能或人群(如月票卡、老年卡),内容包括票种代码、票种名称。
刷卡数据:用于记录每个乘客的历史刷卡数据,具体信息包括卡号、票种代码、进站时间、进站车站、出站时间、出站车站、上传时间。
S101、对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;
具体地,本发明实施例获得了地铁乘车行为数据后,对用户的一些基本的乘车行为、乘车习惯等进行数据分析从而有所了解;然后根据个人经验、专家意见等相关资料,对数据进行预处理,然后进行特征工程,从中提取或抽象出一些相对比较有意义的、可用于识别异常行为的数据维度;最后将这些维度作为输入传给异常行为检测模型,以进行异常行为检测。
进一步地,如图2所示,对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据的步骤,具体包括:
S200、对所述地铁乘车行为数据进行数据分析,确定票种信息、出行时间、各站点的进出站客流量和途经客流量,以及乘车时间分布;
具体地,本发明实施例对地铁乘车行为数据进行统计分析。主要用于分析大部分乘客的出行习惯,而不针对某个具体乘客。通过该维度的统计,可以初步确认需要着重分析的票种类型、具体的出行模式(出行时间、乘车理论用时等)、热门站点名单等。具体的分析内容包括:
票种分布,也即不同票种人群分布:由于实际票种有200余种,包括各类老年卡、学生卡、月票卡、优惠卡、城市IC卡等,由于每类票种之间的出行习惯、可能包含嫌疑人的几率各不相同,所以首先要对不同的票种进行分类整理,以便于之后的数据统计与分析。
出行时间:通过对出行时间的统计,不仅可以确认不同人群在出行习惯上是否存在差异,还可以发现不同人群的高峰期、平峰期时间段分布等。例如学生卡的乘车高峰期会在每天的06:00~07:00以及16:00~18:00,而月票卡、正常卡的乘车高峰期会在每天的07:00~08:00以及17:00~19:00等。
各站点的进出站、途经客流量:其中进出站客流量是指不同时间段从该站刷卡进出站的客流总量,该流量可用于反映候车人群的数量。而途经客流量则是根据乘客进出站的站点来推断出其最优的出行路径,通过对该路径所经过的站点以及客流量的统计,即可推算出该站点的途经客流量,途经客流量可用于反映列车经过该站点时,车厢中乘客的数量。通过对这两种客流量的统计,可以得出热门站点的名单,甚至是不同时间段下的热门站点名单。
乘车用时:通过对所有乘客在不同OD对(起点-终点)下所用的时间分布,可以近似得出乘客进出地铁站所需花费的时间,以及乘坐地铁时每站路所需花费的时间,由此即可得到乘客的理论用时,该时间会比列车时刻表更为精确、更为客观。另外,通过对高峰期、平峰期乘车用时的对比,还可以得到列车在不同时间段的发车时间间隔,该时间也可以用于异常行为检测。
S201、数据分析完成后,依据分析结果对所述地铁乘车行为数据进行清洗,将所述地铁乘车行为数据处理成特征工程的数据类型并对缺失数据和错误数据进行清理;
S202、将预处理后的数据输入到特征工程进行七个维度的特征提取;
其中,所述七个维度包括:当日乘客在地铁站停留时间、当日乘客乘坐轨道交通的实际使用时间与理论使用时间的差值、当日乘客经过的热门站点数、当日乘客乘坐地铁的次数、当日乘客乘坐地铁不同的起点-终点对数目、当日乘客乘坐地铁的进站口数目以及当日乘客同一进站的最大访问次数。
具体地,本发明实施例基于数据分析以及个人经验、专家意见等相关资料,以乘客为主体,对乘客进行特征提取以描述其乘车行为,本发明实施例着力提取出七个特征维度,对该七个特征维度进行特征提取。
如图3所示,为本发明实施例提供的七个特征维度的示意图,七个特征维度具体为:
(1).dt:当日乘客在地铁站停留时间。用来衡量该乘客是否有长时间停留在地铁站。
(2).t_gap:当日乘客乘坐轨道交通的实际使用时间与理论使用时间的差值。基于地铁线路图。建立地铁网络,依据数据分析中对所有乘客在不同OD对(起点-终点)下所用的时间分布近似得出乘客乘车的理论用时时间。将理论用时与实际用时的差值来衡量用户是否在地铁站中存在除乘坐地铁以外的行为。
(3).hotSiteCount:当日乘客经过的热门站点数。根据专家经验得知,小偷等可疑人员常出没于人群密集地区。因此,基于轨交人群大数据,得出轨交站点热力图,找出热门的站点。然后,基于地铁网络和乘客的进出站数据,推断出乘客每次行程经过的站点从而统计出乘客当日经过的热门数。用来描述乘客的出行轨迹行为。
(4).count:当日乘客乘坐地铁的次数。小偷等可疑人员会多次乘坐地铁。而正常的上班族,每日乘坐地铁的次数是相对固定的。因此将当日乘客乘坐地铁的次数作为特征维度之一。
(5).OD:当日乘客乘坐地铁不同的OD对数目。OD对是一次起点到终点的数据。正常通勤的人员的OD是固定的,即住宅点-工作地点。因此,当日乘客乘坐地铁不同的OD对数目作为区分通勤人员和可疑人员的特征维度之一。
(6).inSite:当日乘客乘坐地铁的进站口数目。一个正常的通勤者,每天的应从固定的地铁口进站。若进站口数目过多,则代表着其轨迹较多且不固定。因此,将当日乘客乘坐地铁的进站口数目作为特征维度之一。
(7).maxinSite:当日乘客同一进站的最大访问次数。在轨交系统中存在一种极为普遍的异常数据,即为同站进出,同站进出意味着乘客频繁访问某一地铁站并可能存在逃票行为。因此,当日乘客同一进站的最大访问次数也是特征维度之一。
S102、将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;
其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
具体地,由于城市轨道交通每日的乘车记录是百万级别的数据。然而异常人员的乘车数据是极为稀少的。从百万乘车数据中找寻罕见的异常数据是一个数据非常不平衡的问题。传统的有监督学习方法无法处理这种没有标签的数据,传统的无监督学习方法也无法针对罕见的异常数据进行聚类。
由于大部分刷卡数据都是正常乘客的行为,可通过训练出一个模型,对正常乘客的行为进行表示。该模型不针对异常数据进行检测,从正常通行数据进行学习,抽取正常乘客的乘车特征。但是由于嫌疑人行为数据和正常乘客的数据是明显不同的。因此,当异常数据出现时,模型无法正常抽取乘车特征。从异常数据中提取的乘车特征与从正常数据中提取的乘车特征是有较大误差的。
基于上述原理,本发明实施例提出了异常行为检测模型。在异常检测问题下,由于事先并不知道谁是嫌疑人,所以没有标签数据,没有异常样本来进行学习,因此本发明实施例使用自编码器Autoencoder模型对正常乘车行为数据样本来进行学习。根据正常数据训练出来的Autoencoder能够将正常样本重建还原,但是无法将异常样本很好的还原,导致还原误差较大。当误差大于阈值的时候,就可以把该样本视为异常数据。
本发明实施例提供的嫌疑人检测方法及装置,不需要额外部署数据采集设备且不需要很多已有标记数据,针对嫌疑人出行数据稀少的特点,利用无标签数据,建立无监督学习模型,对正常乘客的出行行为进行重构,通过模型提取出正常乘客行为的潜在特征,使得正常乘客数据可以通过该模型进行很好还原,但是异常乘客数据无法被很好的还原,通过二者还原的误差来实现对异常乘客进行识别,与现有技术相比,使用了更为简单的数据,无须额外的硬件布置,方便部署,与现有的轨交系统有较好的集成度。
基于上述实施例的内容,如图4所示,训练所述异常行为检测模块的步骤,具体包括:
S400、获取地铁乘车行为数据样本;
具体地,从轨道交通系统获取乘客的历史乘车数据作为地铁乘车行为数据样本。同样地,地铁乘车行为数据样本的内容具体包括:地铁站点信息相关数据、票种分类数据和刷卡数据。
S401、对所述地铁乘车行为数据样本进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据样本;
具体地,对地铁乘车行为数据样本进行数据分析、数据预处理以及特征提取的步骤同上述步骤S200至S202,在此不再赘述。
S402、根据专家知识,从所述经过处理的乘车行为数据样本筛选出正常乘车行为数据样本;
具体地,本实施例中借助专家经验知识筛选出正常乘车行为数据样本。
S403、构建自编码器模型,利用所述正常乘车行为数据样本对所述自编码器模型进行训练;
具体地,将正常乘车行为数据样本输入到自编码器模型中进行训练,以使得所述自编码器模型可提取出正常乘车行为数据对应的乘车特征。
异常行为检测模型如图5所示。所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。Autoencoder是一种无监督式学习模型。本质上它使用了一个神经网络来产生一个高维输入的低维表示。Autoencoder与主成分分析PCA类似,但是Autoencoder在使用非线性激活函数时克服了PCA线性的限制。Autoencoder包含两个主要的部分,encoder(编码器)和decoder(解码器)。Encoder的作用是用来发现给定数据的压缩表示,decoder是用来重建原始输入。在训练时,decoder强迫autoencoder选择最有信息量的特征,最终保存在压缩表示中。最终压缩后的表示就在中间的coder层当中。
S404、训练结束时,保存所述自编码器模型的参数,获得训练完成的异常行为检测模型。
训练完成的异常行为检测模型可提取出正常乘车行为数据对应的乘车特征。
基于上述实施例的内容,将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果的步骤,具体包括:
将所述经过处理的乘车行为数据输入至异常行为检测模型中,获取所述异常行为检测模型的输出;
对所述异常行为检测模型的输出进行核验,若所述异常行为检测模型的输出与正常的乘车特征间的误差大于预设阈值,则确定所述地铁乘车行为数据对应的识别结果为嫌疑人;或者,若所述异常行为检测模型的输出与正常的乘车特征间的误差小于等于预设阈值,则确定所述地铁乘车行为数据对应的识别结果为正常。
具体地,本实施例中,通过对异常行为检测模型的输出进行核验来确定识别结果是正常还是异常。如果所述异常行为检测模型的输出与正常的乘车特征间的误差较大,说明该地铁乘车行为数据对应的识别结果为异常,该地铁乘车行为数据对应的乘客有很大概率是嫌疑人。如果所述异常行为检测模型的输出与正常的乘车特征间的误差较小,说明该地铁乘车行为数据对应的识别结果为正常。
本发明另一实施例,在上述实施例的基础上,所述将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果的步骤之后,还包括:
将所述地铁乘车行为数据以及对应的识别结果放入有标记数据集中;
基于所述有标记数据集,将识别结果为正常的地铁乘车行为数据作为样本再次输入到所述自编码模型中进行模型的迭代优化。
具体地,将所述地铁乘车行为数据以及对应的识别结果放入有标记数据集中,可为后来的半监督或有监督学习做积累。同时,基于所述有标记数据集,将识别结果为正常的地铁乘车行为数据作为样本再次输入到所述自编码模型中,进行重新训练,逐渐优化自编码器模型。
本发明针对轨交系统的特点,设计了在线训练算法,AE自编码器模型得出的结果会由专家人员进行核验,通过经过核验是正常的数据会再次送入AE自编码器模型中,对模型进行迭代优化并且所有的核验结果数据存入有标记数据集中,为后来的半监督或有监督学习做积累。
图6为本发明实施例提供的嫌疑人检测装置的结构示意图,包括:
获取模块610,用于获取待预测的地铁乘车行为数据;
数据处理模块620,用于对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;
检测模块630,用于将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;
其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
本发明实施例提供的嫌疑人检测装置用于实现前述嫌疑人检测方法,因此,对本实施例中各功能模块的理解,可以参考前述嫌疑人检测方法实施例,在此不再赘述。
其中,还包括:
训练模块,用于训练所述异常行为检测模块;
所述训练模块具体用于:
获取地铁乘车行为数据样本;
对所述地铁乘车行为数据样本进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据样本;
根据专家知识,从所述经过处理的乘车行为数据样本筛选出正常乘车行为数据样本;
构建自编码器模型,利用所述正常乘车行为数据样本对所述自编码器模型进行训练;
训练结束时,保存所述自编码器模型的参数,获得训练完成的异常行为检测模型。
本发明实施例提供的嫌疑人检测装置,不需要额外部署数据采集设备(如高清人脸摄像头等),且不需要很多已有标记数据(即已抓获的嫌疑人)、针对无标签数据,建立无监督学习模型,对正常乘客的出行行为进行重构,通过模型提取出正常乘客行为的潜在特征,使得正常乘客数据可以通过该模型进行很好还原,但是异常乘客数据无法被很好的还原,通过二者还原的误差来实现对异常乘客进行识别,与现有技术相比,本发明使用了更为简单的数据,无须额外的硬件布置,方便部署,与现有的轨交系统有较好的集成度。
图7为本发明实施例提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储在存储器730上并可在处理器710上运行的计算机程序,以执行上述各方法实施例所提供的嫌疑人检测方法,例如包括:获取待预测的地铁乘车行为数据;对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的嫌疑人检测方法,例如包括:获取待预测的地铁乘车行为数据;对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种嫌疑人检测方法,其特征在于,包括:
获取待预测的地铁乘车行为数据;
对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;
将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;
其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
2.根据权利要求1所述的嫌疑人检测方法,其特征在于,训练所述异常行为检测模块的步骤,具体包括:
获取地铁乘车行为数据样本;
对所述地铁乘车行为数据样本进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据样本;
根据专家知识,从所述经过处理的乘车行为数据样本筛选出正常乘车行为数据样本;
构建自编码器模型,利用所述正常乘车行为数据样本对所述自编码器模型进行训练;
训练结束时,保存所述自编码器模型的参数,获得训练完成的异常行为检测模型。
3.根据权利要求1所述的嫌疑人检测方法,其特征在于,所述地铁乘车行为数据具体包括:地铁站点信息相关数据、票种分类数据和刷卡数据。
4.根据权利要求3所述的嫌疑人检测方法,其特征在于,对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据的步骤,具体包括:
对所述地铁乘车行为数据进行数据分析,确定票种信息、出行时间、各站点的进出站客流量和途经客流量,以及乘车时间分布;
数据分析完成后,依据分析结果对所述地铁乘车行为数据进行清洗,将所述地铁乘车行为数据处理成特征工程的数据类型并对缺失数据和错误数据进行清理;
将预处理后的数据输入到特征工程进行七个维度的特征提取;
其中,所述七个维度包括:当日乘客在地铁站停留时间、当日乘客乘坐轨道交通的实际使用时间与理论使用时间的差值、当日乘客经过的热门站点数、当日乘客乘坐地铁的次数、当日乘客乘坐地铁不同的起点-终点对数目、当日乘客乘坐地铁的进站口数目以及当日乘客同一进站的最大访问次数。
5.根据权利要求1所述的嫌疑人检测方法,其特征在于,将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果的步骤,具体包括:
将所述经过处理的乘车行为数据输入至异常行为检测模型中,获取所述异常行为检测模型的输出;
对所述异常行为检测模型的输出进行核验,若所述异常行为检测模型的输出与正常的乘车特征间的误差大于预设阈值,则确定所述地铁乘车行为数据对应的识别结果为嫌疑人;或者,若所述异常行为检测模型的输出与正常的乘车特征间的误差小于等于预设阈值,则确定所述地铁乘车行为数据对应的识别结果为正常。
6.根据权利要求5所述的嫌疑人检测方法,其特征在于,将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果的步骤之后,还包括:
将所述地铁乘车行为数据以及对应的识别结果放入有标记数据集中;
基于所述有标记数据集,将识别结果为正常的地铁乘车行为数据作为样本再次输入到所述自编码模型中进行模型的迭代优化。
7.一种嫌疑人检测装置,其特征在于,包括:
获取模块,用于获取待预测的地铁乘车行为数据;
数据处理模块,用于对所述地铁乘车行为数据进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据;
检测模块,用于将所述经过处理的乘车行为数据输入至异常行为检测模型中,获得所述地铁乘车行为数据对应的识别结果;
其中,所述异常行为检测模型是基于正常乘车行为数据样本训练得到的自编码器模型。
8.根据权利要求7所述的嫌疑人检测装置,其特征在于,还包括:
训练模块,用于训练所述异常行为检测模块;
所述训练模块具体用于:
获取地铁乘车行为数据样本;
对所述地铁乘车行为数据样本进行数据分析、数据预处理以及特征提取,获得经过处理的乘车行为数据样本;
根据专家知识,从所述经过处理的乘车行为数据样本筛选出正常乘车行为数据样本;
构建自编码器模型,利用所述正常乘车行为数据样本对所述自编码器模型进行训练;
训练结束时,保存所述自编码器模型的参数,获得训练完成的异常行为检测模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项嫌疑人检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项嫌疑人检测方法的步骤。
CN202010279742.8A 2020-04-10 2020-04-10 嫌疑人检测方法及装置 Active CN111476177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010279742.8A CN111476177B (zh) 2020-04-10 2020-04-10 嫌疑人检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010279742.8A CN111476177B (zh) 2020-04-10 2020-04-10 嫌疑人检测方法及装置

Publications (2)

Publication Number Publication Date
CN111476177A true CN111476177A (zh) 2020-07-31
CN111476177B CN111476177B (zh) 2023-08-18

Family

ID=71751884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010279742.8A Active CN111476177B (zh) 2020-04-10 2020-04-10 嫌疑人检测方法及装置

Country Status (1)

Country Link
CN (1) CN111476177B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101425A (zh) * 2020-08-26 2020-12-18 南方科技大学 交通模式聚类模型训练方法、模式识别方法及存储介质
CN112906518A (zh) * 2021-02-04 2021-06-04 深圳北斗应用技术研究院有限公司 一种基于svm模型的乘车异常人员识别方法及系统
CN112926773A (zh) * 2021-02-23 2021-06-08 深圳市北斗智能科技有限公司 乘车安全预警方法、装置、电子设备及存储介质
CN113268524A (zh) * 2021-05-25 2021-08-17 平安科技(深圳)有限公司 油耗异常数据检测方法、装置、电子设备及存储介质
CN114399537A (zh) * 2022-03-23 2022-04-26 东莞先知大数据有限公司 一种目标人员的车辆跟踪方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919953A (zh) * 2017-02-23 2017-07-04 北京工业大学 一种基于轨道交通数据分析的异常出行群体识别方法
CN108257385A (zh) * 2018-03-19 2018-07-06 北京工业大学 一种基于公共交通的异常事件的甄别方法
CN109145595A (zh) * 2018-07-31 2019-01-04 顺丰科技有限公司 一种用户异常行为检测系统、方法、设备及存储介质
US20190188065A1 (en) * 2017-12-15 2019-06-20 International Business Machines Corporation Computerized high-speed anomaly detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919953A (zh) * 2017-02-23 2017-07-04 北京工业大学 一种基于轨道交通数据分析的异常出行群体识别方法
US20190188065A1 (en) * 2017-12-15 2019-06-20 International Business Machines Corporation Computerized high-speed anomaly detection
CN108257385A (zh) * 2018-03-19 2018-07-06 北京工业大学 一种基于公共交通的异常事件的甄别方法
CN109145595A (zh) * 2018-07-31 2019-01-04 顺丰科技有限公司 一种用户异常行为检测系统、方法、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101425A (zh) * 2020-08-26 2020-12-18 南方科技大学 交通模式聚类模型训练方法、模式识别方法及存储介质
CN112906518A (zh) * 2021-02-04 2021-06-04 深圳北斗应用技术研究院有限公司 一种基于svm模型的乘车异常人员识别方法及系统
CN112926773A (zh) * 2021-02-23 2021-06-08 深圳市北斗智能科技有限公司 乘车安全预警方法、装置、电子设备及存储介质
CN113268524A (zh) * 2021-05-25 2021-08-17 平安科技(深圳)有限公司 油耗异常数据检测方法、装置、电子设备及存储介质
CN114399537A (zh) * 2022-03-23 2022-04-26 东莞先知大数据有限公司 一种目标人员的车辆跟踪方法及系统
CN114399537B (zh) * 2022-03-23 2022-07-01 东莞先知大数据有限公司 一种目标人员的车辆跟踪方法及系统

Also Published As

Publication number Publication date
CN111476177B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111476177A (zh) 嫌疑人检测方法及装置
Laharotte et al. Spatiotemporal analysis of bluetooth data: Application to a large urban network
CN109145954B (zh) 一种基于多源时空数据的网约车出行安全评价方法及系统
Sari Aslam et al. A high-precision heuristic model to detect home and work locations from smart card data
Yong et al. Mining metro commuting mobility patterns using massive smart card data
Huang et al. A method for bus OD matrix estimation using multisource data
CN104239386A (zh) 用于对面部识别匹配区分优先级的方法和系统
CN109471389A (zh) 基于大数据的铁路运输监控系统
CN114418175A (zh) 一种人员管理方法、装置、电子设备及存储介质
CN112084240A (zh) 一种群租房智能识别、联动治理方法及系统
CN110428617A (zh) 一种基于5g便携式智能终端及mec的交通对象识别方法
Al Nasim et al. An automated approach for the recognition of bengali license plates
Gu et al. Detecting pickpocketing offenders by analyzing beijing metro subway data
Vicenzi et al. Exploring frequency-based approaches for efficient trajectory classification
CN116564551A (zh) 一种数据-知识驱动的城市轨道交通风险辨识方法
Meskela et al. Designing time series crime prediction model using long short-term memory recurrent neural network
Zamri et al. Snatch Theft Detection Using Deep Learning Models
Sari Aslam et al. Trip purpose identification using pairwise constraints based semi-supervised clustering
Karlsen et al. Customer segmentation of wireless trajectory data
CN112633163A (zh) 一种基于机器学习算法实现非法运营车辆检测的检测方法
Lindenbergh et al. Activities, Access Control, and Crime: a Quasi-Experimental Study regarding Entry Gates at Train Stations in the Netherlands
Dalkic et al. A self-policing smart parking solution
WO2017048148A1 (en) Monitoring a flow of objects by a sim card detector
CN111369394A (zh) 基于大数据的景区客流量统计评估系统及方法
Pang et al. Finding A Taxi with Illegal Driver Substitution Activity via Behavior Modelings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant