CN108198116A - 用于安检中被检人员分级的方法及装置 - Google Patents
用于安检中被检人员分级的方法及装置 Download PDFInfo
- Publication number
- CN108198116A CN108198116A CN201611123767.9A CN201611123767A CN108198116A CN 108198116 A CN108198116 A CN 108198116A CN 201611123767 A CN201611123767 A CN 201611123767A CN 108198116 A CN108198116 A CN 108198116A
- Authority
- CN
- China
- Prior art keywords
- safety check
- information
- security association
- data
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000005516 engineering process Methods 0.000 claims description 17
- 238000012706 support-vector machine Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 6
- 238000013517 stratification Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000007689 inspection Methods 0.000 abstract description 21
- 230000004069 differentiation Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开一种用于安检中被检人员分级的方法及装置。用于被检人员分级的方法,包括:通过历史安检信息,生成被检人员的风险识别模型;获取当前被检人员的安全关联因素信息;将所述安全关联因素信息,通过数据清洗生成安全关联特征集合;以及通过所述安全关联特征集合与所述风险识别模型,实时确定所述当前被检人员的风险级别。本申请的用于安检中被检人员分级的方法,能够提高安检效率,对被检人员实现差异化检查。
Description
技术领域
本发明涉及大数据信息处理领域,具体而言,涉及一种用于安检中被检人员分级的方法及装置。
背景技术
对重点位置的安全检查,是保障旅客人身安全的重要防护措施。安检的重点位置可包括,边防检查、海关检查,地铁检查、车站检查等等。由于安全检查,是保障旅客人身安全的重要防护措施,所以所有进入重点位置的旅客都必须无一例外地经过检查后,才能允许进入,安全检查也是旅客必须履行的检查手续。
在公路、火车站、机场等公共场合的安全检查中,安全检查人员可以通过核对身份证等证件来验证待查人员的身份,确认被检人员是否在公安部门的有关可疑人员列表中。还可例如,安全检查人员使用特定设备(比如安检机),产生的放射性射线(如X射线),扫描被检人员的行李,根据扫描图像来检查旅客所带行李中,是否含有危险品或违禁物品。还可例如,安全检查人员使用人体检查仪对可疑旅客进行身体检查,检查可疑旅客是否随身携带了金属或其他违禁物品。总之,目前的安检流程繁琐,检查所用时间较长,旅客安检的体验很差,也给安全检查员带来了大量的重复性劳动,工作效率较低。
因此,需要一种用于安检中被检人员分级的方法及装置。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于安检中被检人员分级的方法及装置,能够提高安检效率,对被检人员实现差异化检查。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种用于安检中被检人员分级的方法,其特征在于,包括:通过历史安检信息,生成被检人员的风险识别模型;获取当前被检人员的安全关联因素信息;将安全关联因素信息,通过数据清洗生成安全关联特征集合;以及通过安全关联特征集合与风险识别模型,实时确定当前被检人员的风险级别。
在本公开的一种示例性实施例中,通过历史安检信息,生成被检人员的风险识别模型,包括:获取历史安检信息;根据实际安检结果标记历史安检信息中对应的条目;以及将历史安检信息与历史安检信息中被标记的条目存入样本库。
在本公开的一种示例性实施例中,通过历史安检信息,生成被检人员的风险识别模型,包括:将所述样本库通过数据清洗生成所述安全关联特征集合;以及通过机器学习算法,生成所述风险识别模型。
在本公开的一种示例性实施例中,机器学习算法,包括:支持向量机算法。被检人员在本公开的一种示例性实施例中,安全关联因素信息,包括:社会关系信息、安检线索信息以及上网行为线索信息。
在本公开的一种示例性实施例中,将安全关联因素信息,通过数据清洗生成安全关联特征集合,包括:将安全关联因素信息,经过数据清洗,得到预定格式的数据信息;以及通过预定格式的信息,生成安全关联特征集合。
在本公开的一种示例性实施例中,通过安全关联特征集合与被检人员的风险识别模型,实时确定被检人员的风险级别,包括:通过分布式系统基础架构与实时计算框架,实时获得被检人员的风险级别。
在本公开的一种示例性实施例中,分布式系统基础架构,包括:Apache Hadoop架构。
在本公开的一种示例性实施例中,实时计算框架,包括:Spark架构。
在本公开的一种示例性实施例中,支持向量机算法通过Spark Mllib技术进行训练。
在本公开的一种示例性实施例中,支持向量机算法中,训练数据的数据量与测试数据的数据量的比例为6-8:2-4。
根据本发明的一方面,提出一种用于安检中被检人员分级的装置,包括:模型生成模块,用于通过历史安检信息,生成被检人员的风险识别模型;接收信息模块,用于获取当前被检人员的安全关联因素信息;数据清洗模块,用于将安全关联因素信息,通过数据清洗生成安全关联特征集合;以及风险分级模块,用于通过安全关联特征集合与风险识别模型,实时确定当前被检人员的风险级别。
在本公开的一种示例性实施例中,模型生成模块,还包括:历史信息子模块,用于获取历史安检信息;标记子模块,用于根据实际安检结果标记历史安检信息中对应的条目;储存子模块,用于将历史安检信息与历史安检信息中被标记的条目存入样本库;数据清洗子模块,用于将样本库通过数据清洗生成安全关联特征集合;以及算法子模块,用于通过机器学习算法,生成风险识别模型。
根据本发明的用于安检中被检人员分级的方法,通过获取被检人员的相关信息,并结合相关数据分析方法,能够提高安检效率,对被检人员实现差异化检查。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于安检中被检人员分级的方法的流程图。
图2是根据另一示例性实施例示出的一种用于安检中被检人员分级的方法的流程图。
图3是根据一示例性实施例示出的一种用于安检中被检人员分级的装置的框图。
图4是根据另一示例性实施例示出的一种用于安检中被检人员分级的装置的框图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语「及/或」包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
图1是根据一示例性实施例示出的一种用于安检中被检人员分级的方法的流程图。
如图1所示,在S102中,通过历史安检信息,生成被检人员的风险识别模型。历史安检信息可包括:被检人员的社会关系信息,安检线索,和上网行为线索等。还可例如,通过大数据分析方法,将以往海量的安检站人员历史安检信息,使用机器学习算法,挖掘被检人员信息,从而建立被检人员的风险识别模型。风险识别模型通过被检人员的相关信息,对被检人员进行风险判断,并给出被检人员的风险分级。
在S104中,获取当前被检人员的安全关联因素信息。在实际的安检过程中,可例如,被检人员通过人证核验闸机时,人证核验闸机获取其身份证信息,与安检服务器建立通讯,获取该人的安全关联因素信息。安全关联因素信息可包含:社会关系信息,安检线索,和上网行为线索等。
在S106中,将安全关联因素信息,通过数据清洗生成安全关联特征集合。
将安全关联因素信息,经过数据清洗(Data cleaning),可例如,经过数据清洗后得到预定格式的数据信息;通过预定格式的信息,生成安全关联特征集合。数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。可例如,采用ETL数据清洗技术。ETL数据清洗即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。数据抽取负责完成从数据源找到并取出当前主题所需的那部分数据,由于数据仓库中各个主题中的数据是按照前端应用的需求存放的,因此需要对抽取出的数据进行转换以适应前端应用的需要。转换后的数据就可以装入数据仓库了,数据加载过程定时进行,并且不同主题的数据加载任务有各自不同的执行时间表。ETL数据清洗是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库主要用于决策分析,为领导者提供决策支持信息。数据仓库系统中有可能存在着大量的“脏数据”,引起“脏数据”的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、不同的计量单位和过时的编码等。为了清除“脏数据”,必须在数据仓库系统中进行数据清洗。数据清洗是一个减少错误和不一致性、解决对象识别的过程。安全关联特征集合是被检人员安全关联因素信息,经过数据处理,去除与安全因素不相干的信息,生成的数据信息集合。
在S108中,通过安全关联特征集合与风险识别模型,实时确定被检人员的风险级别。
如上文所述,可例如,人证核验闸机获取其身份证信息,与安检服务器建立通讯,获取该人的安全关联因素信息,通过数据清洗,获得安全关联特征集合。将该被检人员的安全关联特征集合并导入风险识别模型,可以实时计算出被检人员的风险级别。风险级别可例如,分为三级安全,有嫌疑,重点检查。本发明不以此为限。可例如,通过得到的安检分级结果,可结合安检现场实际情况,对被检人员进行差异化检测。比如:安全级别快速通过,有嫌疑级别一般安检,重点检查级别使用人体检查仪,盘查等方式重点安检。还可例如,为了提高人员风险识别模型的准确性和被检人员安全级别计算的实时性,可例基于大数据技术构建,将分析系统部署在Apache Hadoop和Spark架构上,实现被检人员安全级别的实时计算。
根据本发明的用于安检中被检人员分级的方法,通过获取被检人员的相关信息,并结合相关数据分析方法,能够提高安检效率,对被检人员实现差异化检查。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
图2是根据另一示例性实施例示出的一种用于安检中被检人员分级的方法的流程图。图2所示的方法是对图1所示的S102的示例性描述。
在S202中,获取历史安检信息。获取收集以往安检站人员历史安检信息,历史案件信息可包括:安全关联因素信息,安全关联因素信息可包括:被检人员的社会关系信息,安检线索,和上网行为线索等。
在S204中,根据实际安检结果标记历史安检信息中对应的条目。根据实际安检的结果标记安检信息中的对应的记录。
在S206中,将历史安检信息与历史安检信息中被标记的条目存入样本库。将标记后的历史安检信息存入模型样本库。
在S208中,将样本库通过数据清洗生成安全关联特征集合。将样本库中的数据,可例如,将安全关联因素信息数据,可例如,将安全关联因素信息经过数据清洗,得到预定格式的数据信息;以及通过预定格式的信息,生成安全关联特征集合。
在S210中,通过机器学习算法,生成风险识别模型。可例如,通过支持向量机算法(Support Vector Machine,SVM),对上述数据进行处理,进而生成被检人员风险识别模型。SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说,就是升维和线性化。升维:就是把样本向高维空间做映射,一般情况下这会增加计算的复杂性,甚至会引起“维数灾难”,因而人们很少问津.但是作为分类、回归等问题来说,很可能在低维样本空间无法线性处理的样本集,在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。一般的升维都会带来计算的复杂化,SVM方法应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”。
在计算人员风险识别模型中,使用Spark MLlib的SVM(支持向量机)机器学习算法。该算法可以转换为凸函数求极小值(分类错误最小)的问题,即目标函数f具有以下形式:
其中,向量xi∈Rd为训练数据样本,其中1≤i≤n,n为样本个数。yi∈R是预测目标,即人员安全级别。
可例如,使用如下经过ETL清洗后的安全关联特征集合行模型训练:安全特征集合中可例如包含如下信息“安全类别、民族信息、年龄、性别、地址、历史安检结果”。可例如,某个安全特征集合为“0 3 28 1 54 0…”其中的数据含义如下:
0代表标定的安全类别,可例如,在安全类别中,0:安全;1:有嫌疑;2:重点安检;
2代表民族信息,可例如,在民族信息中,疆:0;藏:1;回:2;汉:3;其他:4;
28:代表年龄;
1:代表性别,可例如,0:女;1:男
54:代表地址,可例如,01:北京;02:天津;…54:保定
0:代表历史安检结果,可例如,0:无安检嫌疑;1:有安检嫌疑;
将以上信息输入支持向量机模型中,进行数据训练,经过训练之后,得到人员风险识别模型。
在本公开的一种示例性实施例中,安全关联因素信息,包括:社会关系信息、安检线索信息以及上网行为线索信息。被检人员的安全关联因素信息收集过程可例如:
1)通过人证核验设备读取被检人员的身份证,设备从身份证信息中读取身份证号,性别,民族,出生日期,住址等信息;
2)借助安检信息库,通过身份证号等获取以往安检物品,所驾车辆,行驶轨迹等安检线索信息;
3)借助公安的信息库,通过身份证号等获取家庭,工作,住宿网吧等社会关系;
4)借助互联网信息库,获取该人的微博,微信公众号,贴吧发文,回帖,评论等互联网信息;
5)将以上信息汇总处理生成人员安全关联因素信息。
在本公开的一种示例性实施例中,通过安全关联特征集合与被检人员的风险识别模型,实时确定被检人员的风险级别,包括:通过分布式系统基础架构与实时计算框架,实时获得被检人员的风险级别。在本公开的一种示例性实施例中,分布式系统基础架构,包括:Apache Hadoop架构。Apache Hadoop是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。在本发明的实施例中,还可例如,采用Hbase技术,进行被检人员信息的储存与访问。HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase在Hadoop之上提供了类似于Bigtable(分布式数据存储系统)的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。在本发明实时例中,可采用HDFS,Hbase等相关技术,实现被检人员信息的储存和访问,本发明不以此为限。
根据本发明的用于安检中被检人员分级的方法,通过Apache Hadoop架构,以及结合相关技术,能够实现海量人员安全关联因素信息的存储和访问。
在本公开的一种示例性实施例中,实时计算框架,包括:Spark架构。Spark是UCBerkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的的算法。Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。Spark Streaming的基本原理是将输入数据流以时间片(秒级)为单位进行拆分,然后以类似批处理的方式处理每个时间片数据。Spark Streaming将流式计算分解成多个子单位,对于每一段数据的处理都会经过图分解,以及Spark的任务集的调度过程。对于目前版本的Spark Streaming而言,其最小的Batch Size(批量)的选取在0.5~2秒钟之间,所以Spark Streaming能够满足除对实时性要求非常高(如高频实时交易)之外的所有流式准实时计算场景。
根据本发明的用于安检中被检人员分级的方法,通过Spark架构架构,结合相关的技术,能够实现被检人员安全级别的实时计算。
在本公开的一种示例性实施例中,支持向量机算法通过Spark Mllib技术进行训练。MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。MLlib目前支持四种常见的机器学习问题:二元分类,回归,聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法。
根据本发明的用于安检中被检人员分级的方法,通过Spark MLlib技术进行支持向量机算法的数据训练,能够实现被检人员风险识别模型的离线训练。
在本公开的一种示例性实施例中,支持向量机算法中,训练数据的数据量与测试数据的数据量的比例为6-8:2-4。使用机器学习训练模型的时间比以往技术快10多倍,安全分级识别时间也控制在10毫秒以内。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图3是根据一示例性实施例示出的一种用于安检中被检人员分级的装置的框图。如图3所示,用于被检人员分级的装置30包括:模型生成模块302、接收信息模块304、数据清洗模块306、风险分级模块308。
模型生成模块302用于通过历史安检信息,生成被检人员的风险识别模型。
接收信息模块304用于获取当前被检人员的安全关联因素信息。
数据清洗模块306用于将安全关联因素信息,通过数据清洗生成安全关联特征集合。
风险分级模块308用于通过安全关联特征集合与风险识别模型,实时确定被检人员的风险级别。
图4是根据另一示例性实施例示出的一种用于安检中被检人员分级的装置的框图。图4是对图3中模型生成模块302的示例性描述。如图4所示,模型生成模块402包括:
历史信息子模块4021用于获取历史安检信息。
标记子模块4023用于根据实际安检结果标记历史安检信息中对应的条目。
储存子模块4025用于将历史安检信息与历史安检信息中被标记的条目存入样本库。
数据清洗子模块4027用于将样本库通过数据清洗生成安全关联特征集合。
算法子模块4029用于通过机器学习算法,生成风险识别模型。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
通过以上的详细描述,本领域的技术人员易于理解,根据本发明实施例的用于安检中被检人员分级的方法及装置具有以下优点中的一个或多个。
根据一些实施例,本发明的用于安检中被检人员分级的方法,通过获取被检人员的相关信息,并结合相关数据分析方法,能够提高安检效率,对被检人员实现差异化检查。
根据另一些实施例,本发明的用于安检中被检人员分级的方法,通过ApacheHadoop架构,以及结合相关技术,能够实现海量人员安全关联因素信息的存储和访问。
根据另一些实施例,本发明的用于安检中被检人员分级的方法,通过Spark架构架构,结合相关的技术,能够实现被检人员安全级别的实时计算。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如「上」、「第一」、「第二」及「一」等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。
Claims (13)
1.一种用于安检中被检人员分级的方法,其特征在于,包括:
通过历史安检信息,生成被检人员的风险识别模型;
获取当前被检人员的安全关联因素信息;
将所述安全关联因素信息,通过数据清洗生成安全关联特征集合;以及
通过所述安全关联特征集合与所述风险识别模型,实时确定所述当前被检人员的风险级别。
2.如权利要求1所述的方法,其特征在于,通过历史安检信息,生成被检人员的风险识别模型,包括:
获取所述历史安检信息;
根据实际安检结果标记所述历史安检信息中对应的条目;以及
将所述历史安检信息与所述历史安检信息中被标记的所述条目存入样本库。
3.如权利要求1或2所述的方法,其特征在于,通过历史安检信息,生成被检人员的风险识别模型,包括:
将所述样本库通过数据清洗生成所述安全关联特征集合;以及
通过机器学习算法,生成所述风险识别模型。
4.如权利要求3所述的方法,其特征在于,所述机器学习算法,包括:
支持向量机算法。
5.如权利要求4所述的方法,其特征在于,所述支持向量机算法通过Spark Mllib技术进行训练。
6.如权利要求1所述的方法,其特征在于,所述安全关联因素信息,包括:社会关系信息、安检线索信息以及上网行为线索信息。
7.如权利要求1所述的方法,其特征在于,将所述安全关联因素信息,通过数据清洗生成安全关联特征集合,包括:
将所述安全关联因素信息,经过数据清洗,得到预定格式的数据信息;以及
通过预定格式的所述信息,生成所述安全关联特征集合。
8.如权利要求1所述的方法,其特征在于,通过所述安全关联特征集合与所述风险识别模型,实时确定所述当前被检人员的风险级别,包括:
通过分布式系统基础架构与实时计算框架,实时获得所述被检人员的风险级别。
9.如权利要求8所述的方法,其特征在于,所述分布式系统基础架构,包括:
Apache Hadoop架构。
10.如权利要求8所述的方法,其特征在于,所述实时计算框架,包括:
Spark架构。
11.如权利要求5所述的方法,其特征在于,所述支持向量机算法中,训练数据的数据量与测试数据的数据量的比例为6-8:2-4。
12.一种用于安检中被检人员分级的装置,其特征在于,包括:
模型生成模块,用于通过历史安检信息,生成被检人员的风险识别模型;
接收信息模块,用于获取当前被检人员的安全关联因素信息;
数据清洗模块,用于将所述安全关联因素信息,通过数据清洗生成安全关联特征集合;以及
风险分级模块,用于通过所述安全关联特征集合与所述风险识别模型,实时确定所述当前被检人员的风险级别。
13.如权利要求12所述的装置,其特征在于,所述模型生成模块,还包括:
历史信息子模块,用于获取所述历史安检信息;
标记子模块,用于根据实际安检结果标记所述历史安检信息中对应的条目;
储存子模块,用于将所述历史安检信息与所述历史安检信息中被标记的所述条目存入样本库;
数据清洗子模块,用于将样本库通过数据清洗生成所述安全关联特征集合;以及
算法子模块,用于通过机器学习算法,生成所述风险识别模型。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611123767.9A CN108198116A (zh) | 2016-12-08 | 2016-12-08 | 用于安检中被检人员分级的方法及装置 |
US15/817,613 US20180174260A1 (en) | 2016-12-08 | 2017-11-20 | Method and apparatus for classifying person being inspected in security inspection |
DE102017220898.8A DE102017220898A1 (de) | 2016-12-08 | 2017-11-22 | Verfahren und Vorrichtung zur Klassifizierung einer während der Sicherheitskontrolle zu kontrollierenden Person |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611123767.9A CN108198116A (zh) | 2016-12-08 | 2016-12-08 | 用于安检中被检人员分级的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108198116A true CN108198116A (zh) | 2018-06-22 |
Family
ID=62201558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611123767.9A Pending CN108198116A (zh) | 2016-12-08 | 2016-12-08 | 用于安检中被检人员分级的方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180174260A1 (zh) |
CN (1) | CN108198116A (zh) |
DE (1) | DE102017220898A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002988A (zh) * | 2018-07-18 | 2018-12-14 | 平安科技(深圳)有限公司 | 风险旅客流量预测方法、装置、计算机设备和存储介质 |
CN109063984A (zh) * | 2018-07-18 | 2018-12-21 | 平安科技(深圳)有限公司 | 风险旅客方法、装置、计算机设备和存储介质 |
CN109100806A (zh) * | 2018-07-31 | 2018-12-28 | 国政通科技有限公司 | 一种分级检测方法及装置 |
CN109784819A (zh) * | 2019-03-19 | 2019-05-21 | 东部机场集团有限公司 | 货运安检分类分级系统及其分级方法 |
CN109801200A (zh) * | 2018-12-03 | 2019-05-24 | 国政通科技有限公司 | 一种分级检测的方法和系统 |
CN110221355A (zh) * | 2019-05-31 | 2019-09-10 | 张学志 | 一种高效安检的方法与装置 |
WO2020015089A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 身份信息风险评定方法、装置、计算机设备和存储介质 |
CN111160696A (zh) * | 2019-11-21 | 2020-05-15 | 国政通科技有限公司 | 一种基于大数据的被检人员分级方法 |
CN112037410A (zh) * | 2020-11-06 | 2020-12-04 | 上海兴容信息技术有限公司 | 一种智能门禁的控制方法和系统 |
CN112232652A (zh) * | 2020-10-12 | 2021-01-15 | 中国民航信息网络股份有限公司 | 一种旅客风险等级分类方法、装置、电子设备及存储介质 |
CN116307656A (zh) * | 2022-09-05 | 2023-06-23 | 东方航空物流股份有限公司 | 货运安检业务的流程监管方法、装置和系统 |
CN116401290A (zh) * | 2023-03-28 | 2023-07-07 | 北京声迅电子股份有限公司 | 基于金属携带量数据的人员安检方法 |
CN117876119A (zh) * | 2024-03-11 | 2024-04-12 | 药融云数字科技(成都)有限公司 | 一种基于分布式的风控模型构建方法及系统 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3518153A1 (en) * | 2018-01-29 | 2019-07-31 | Panasonic Intellectual Property Corporation of America | Information processing method and information processing system |
CN109861845A (zh) * | 2018-12-15 | 2019-06-07 | 中国大唐集团科学技术研究院有限公司 | 一种基于神经网络和用户访问行为的数据监控与预警方法 |
CN109840543A (zh) * | 2018-12-15 | 2019-06-04 | 中国大唐集团科学技术研究院有限公司 | 一种基于神经网络和敏感信息流的数据监控与预警方法 |
US11526477B2 (en) | 2019-07-31 | 2022-12-13 | Myndshft Technologies, Inc. | System and method for on-demand data cleansing |
CN110458626B (zh) * | 2019-08-16 | 2020-11-03 | 京东数字科技控股有限公司 | 一种信息数据处理方法和装置 |
CN111080005B (zh) * | 2019-12-12 | 2022-05-17 | 华中科技大学 | 一种基于支持向量机的治安风险预警方法及系统 |
CN111352171B (zh) * | 2020-03-30 | 2023-01-24 | 重庆特斯联智慧科技股份有限公司 | 一种实现人工智能区域屏蔽安检方法和系统 |
CN113076372A (zh) * | 2021-04-30 | 2021-07-06 | 国网山东省电力公司经济技术研究院 | 一种电力安全质量检查数据的管理方法和系统 |
CN115188114B (zh) * | 2022-07-01 | 2023-09-01 | 日立楼宇技术(广州)有限公司 | 一种门禁信息同步方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763589A (zh) * | 2009-12-24 | 2010-06-30 | 宁波市中控信息技术有限公司 | 基于动态定量事故风险预测的安全管理方法及系统 |
CN103559551A (zh) * | 2013-09-23 | 2014-02-05 | 北京中安健科安全技术咨询有限公司 | 一种面向生产企业的安全隐患风险定量评估及预警系统 |
CN104751143A (zh) * | 2015-04-02 | 2015-07-01 | 北京中盾安全技术开发公司 | 一种基于深度学习的人证核验系统及方法 |
CN104933075A (zh) * | 2014-03-20 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用户属性预测平台和方法 |
US20160019668A1 (en) * | 2009-11-17 | 2016-01-21 | Identrix, Llc | Radial data visualization system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201611123U (zh) | 2009-12-02 | 2010-10-20 | 广东新宝电器股份有限公司 | 微晶板烹调器具 |
DE202013100073U1 (de) * | 2012-12-21 | 2014-04-01 | Xerox Corp. | Benutzerprofilerstellung zum Schätzen der Druckleistung |
US20140351004A1 (en) * | 2013-05-24 | 2014-11-27 | Tartan Capital Limited | System and method for collecting consumer information and rewarding consumers therefor |
US20170154314A1 (en) * | 2015-11-30 | 2017-06-01 | FAMA Technologies, Inc. | System for searching and correlating online activity with individual classification factors |
-
2016
- 2016-12-08 CN CN201611123767.9A patent/CN108198116A/zh active Pending
-
2017
- 2017-11-20 US US15/817,613 patent/US20180174260A1/en not_active Abandoned
- 2017-11-22 DE DE102017220898.8A patent/DE102017220898A1/de not_active Ceased
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160019668A1 (en) * | 2009-11-17 | 2016-01-21 | Identrix, Llc | Radial data visualization system |
CN101763589A (zh) * | 2009-12-24 | 2010-06-30 | 宁波市中控信息技术有限公司 | 基于动态定量事故风险预测的安全管理方法及系统 |
CN103559551A (zh) * | 2013-09-23 | 2014-02-05 | 北京中安健科安全技术咨询有限公司 | 一种面向生产企业的安全隐患风险定量评估及预警系统 |
CN104933075A (zh) * | 2014-03-20 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用户属性预测平台和方法 |
CN104751143A (zh) * | 2015-04-02 | 2015-07-01 | 北京中盾安全技术开发公司 | 一种基于深度学习的人证核验系统及方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063984B (zh) * | 2018-07-18 | 2023-09-05 | 平安科技(深圳)有限公司 | 风险旅客方法、装置、计算机设备和存储介质 |
CN109063984A (zh) * | 2018-07-18 | 2018-12-21 | 平安科技(深圳)有限公司 | 风险旅客方法、装置、计算机设备和存储介质 |
CN109002988A (zh) * | 2018-07-18 | 2018-12-14 | 平安科技(深圳)有限公司 | 风险旅客流量预测方法、装置、计算机设备和存储介质 |
WO2020015139A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 风险旅客方法、装置、计算机设备和存储介质 |
WO2020015089A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 身份信息风险评定方法、装置、计算机设备和存储介质 |
CN109002988B (zh) * | 2018-07-18 | 2023-10-27 | 平安科技(深圳)有限公司 | 风险旅客流量预测方法、装置、计算机设备和存储介质 |
CN109100806A (zh) * | 2018-07-31 | 2018-12-28 | 国政通科技有限公司 | 一种分级检测方法及装置 |
CN109801200A (zh) * | 2018-12-03 | 2019-05-24 | 国政通科技有限公司 | 一种分级检测的方法和系统 |
CN109784819A (zh) * | 2019-03-19 | 2019-05-21 | 东部机场集团有限公司 | 货运安检分类分级系统及其分级方法 |
CN110221355A (zh) * | 2019-05-31 | 2019-09-10 | 张学志 | 一种高效安检的方法与装置 |
CN111160696A (zh) * | 2019-11-21 | 2020-05-15 | 国政通科技有限公司 | 一种基于大数据的被检人员分级方法 |
CN112232652A (zh) * | 2020-10-12 | 2021-01-15 | 中国民航信息网络股份有限公司 | 一种旅客风险等级分类方法、装置、电子设备及存储介质 |
CN113256865A (zh) * | 2020-11-06 | 2021-08-13 | 上海兴容信息技术有限公司 | 一种智能门禁的控制方法和系统 |
CN113256865B (zh) * | 2020-11-06 | 2023-01-06 | 上海兴容信息技术有限公司 | 一种智能门禁的控制方法和系统 |
CN112037410A (zh) * | 2020-11-06 | 2020-12-04 | 上海兴容信息技术有限公司 | 一种智能门禁的控制方法和系统 |
CN116307656A (zh) * | 2022-09-05 | 2023-06-23 | 东方航空物流股份有限公司 | 货运安检业务的流程监管方法、装置和系统 |
CN116401290A (zh) * | 2023-03-28 | 2023-07-07 | 北京声迅电子股份有限公司 | 基于金属携带量数据的人员安检方法 |
CN116401290B (zh) * | 2023-03-28 | 2023-09-29 | 北京声迅电子股份有限公司 | 基于金属携带量数据的人员安检方法 |
CN117876119A (zh) * | 2024-03-11 | 2024-04-12 | 药融云数字科技(成都)有限公司 | 一种基于分布式的风控模型构建方法及系统 |
CN117876119B (zh) * | 2024-03-11 | 2024-06-04 | 药融云数字科技(成都)有限公司 | 一种基于分布式的风控模型构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
DE102017220898A1 (de) | 2018-06-14 |
US20180174260A1 (en) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198116A (zh) | 用于安检中被检人员分级的方法及装置 | |
El Rahman et al. | Sentiment analysis of twitter data | |
WO2020249125A1 (zh) | 用于自动训练机器学习模型的方法和系统 | |
Dehmer et al. | Generalized graph entropies | |
Fanaee-T et al. | Event detection from traffic tensors: A hybrid model | |
Rajawat et al. | Dark web data classification using neural network | |
Krysovatyy et al. | Economic Crime Detection Using Support Vector Machine Classification. | |
Wood et al. | Automated industry classification with deep learning | |
Ramachandramurthy et al. | Distilling big data: Refining quality information in the era of yottabytes | |
Babu et al. | Framework for Predictive Analytics as a Service using ensemble model | |
Saikia et al. | Modelling social context for fake news detection: a graph neural network based approach | |
Zaffar et al. | Comparing the performance of FCBF, Chi-Square and relief-F filter feature selection algorithms in educational data mining | |
Nie et al. | Optimization of the economic and trade management legal model based on the support vector machine algorithm and logistic regression algorithm | |
Bi et al. | Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction | |
Majstorović et al. | Interpreting convolutional neural network decision for earthquake detection with feature map visualization, backward optimization and layer-wise relevance propagation methods | |
Batsidis et al. | Errors of misclassification in discrimination of dimensional coherent elliptic random field observations | |
Moreo et al. | Multi-label quantification | |
Zhang et al. | True-link clustering through signaling process and subcommunity merge in overlapping community detection | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
Devi et al. | Novel Trio-Neural Network towards Detecting Fake News on Social Media | |
Qiu | [Retracted] Application of Software Data Analysis Model Based on K‐Means Clustering Algorithm | |
Kim et al. | Formational bounds of link prediction in collaboration networks | |
Alshara | [Retracted] Multilayer Graph‐Based Deep Learning Approach for Stock Price Prediction | |
Lima et al. | Big data for stock market by means of mining techniques | |
Sindhu et al. | Aspect based opinion mining leveraging weighted bigru and CNN module in parallel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |