CN111552681A - 一种动态的基于大数据技术的场所出入次数异常计算方法 - Google Patents
一种动态的基于大数据技术的场所出入次数异常计算方法 Download PDFInfo
- Publication number
- CN111552681A CN111552681A CN202010359983.3A CN202010359983A CN111552681A CN 111552681 A CN111552681 A CN 111552681A CN 202010359983 A CN202010359983 A CN 202010359983A CN 111552681 A CN111552681 A CN 111552681A
- Authority
- CN
- China
- Prior art keywords
- place
- formula
- certain
- abnormal
- day
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种动态的基于大数据技术的场所出入次数异常计算方法,涉及大数据处理领域,基于各种智慧硬件的出入数据记录,采用Hadoop的MapReduce分布式计算方法进行批处理,计算某个场所每天的进/出次数平均值,该场所所有人的进/出次数,该场所进/出次数的标准差,进而计算某人某天的进/出次数是否为异常,动态识别用户的异常出入行为,系统判别为异常行为则对应的人员、日期、场所信息都会输入到异常进/出数据库表中,以供监督管理部门下一步的应急处置,实现了场所出入情况异常状态识别和告警的精准性和快速性,适合大规模推广应用。
Description
技术领域
本发明涉及大数据处理领域,具体的说是一种动态的基于大数据技术的场所出入次数异常计算方法。
背景技术
在目前国家大力倡导加强社区、大型商超、公共场所等各类场所的出入管理的背景下,车辆道闸、单元门禁、监控等各种智慧硬件设备纷纷投入使用,每个公共场所都能采集上来海量的进出记录数据。如何让这些数据发挥价值,从数据中识别人员异常行为模式,是需要探索和解决的问题。
具体面临的问题痛点包括以下几点: 1、场所记录的数据量太大,传统 RDBMS 的SQL 语句无法完成统计分析; 2、每个场所不同日期产生的进出数据量,很大程度受场所的出行管理措施的变化而急剧变化,采用一成不变的识别模式必然造成识别误差,无法动态解决人为变更场所管理模式导致的判断异常出入的算法的变化。
发明内容
为解决上述存在的技术问题,本发明提供了一种动态的基于大数据技术的场所出入次数异常计算方法,基于海量场所出入记录数据,采用Hadoop 的MapReduce 大数据分布式计算方法进行批处理,快速计算大数据量级的进出记录数据,动态判断每个日期下的场所出入历史记录中,出入次数异常的人员行为,从而辅助场所管理人员进一步跟踪查询人员异常行为轨迹,加强场所出入管理工作的有效性。
为达到上述目的,本发明所采用的技术方案是:
一种动态的基于大数据技术的场所出入次数异常计算方法,通过如下步骤实现:
1)大数据迁移和清洗,将RDBMS中的用户出入记录数据迁移到Hadoop大数据集群的Hive数据仓库中,使用HDFS文件系统的MapReduce分布式计算进行批处理,将重复数据和无效数据去除;
2)聚合某个场所每日进/出的次数的均值,在Hive数据仓库中,基于YARN计算引擎,采用MapReduce分布式计算,根据公式r=c/m,得到某个场所每天的平均进/出的次数,并将该平均值作为新的列项添加到过程表中,其中,c是该场所当日进/出次数的总数,m是该场所当日进/出的总人次,r是该场所当日进/出次数的平均值;
3)聚合每人每日进/出每个场所的次数,使用HQL语句聚合出某场所每个人每日进/出的次数xi;
4)计算某场所每日进/出次数的标准差,公式(一)为标准差的计算公式,公式(二)为标准差平方的公式,得到方差,其中xi为某人某日在某场所进/出的总次数, r 为某场某日进/出次数的平均值, n 为某场所某日进/出的总人数
公式(一):
公式(二):s2=[ (x1-r)2 + (x2-r)2 + ...... + (xn-r)2 ] / (n)
5)人员某日进/出某个场所的次数异常判断,将异常值定义如下公式(三)所示,公式(三):|x - r| > 2 ×σ(r),
公式(四):|x - r|2 > 4 × s2,
其中各参数代表内容见步骤4)中的公式(一)和公式(二),满足公式(四)的x值,即为异常进/出次数,对应的人员、日期、场所信息都输出到异常进/出数据库表中。
本发明设计了一种动态的基于大数据技术的场所出入次数异常计算方法,基于各种智慧硬件的出入数据记录,采用Hadoop 的 MapReduce 分布式计算方法进行批处理,计算某个场所每天的进/出次数平均值,该场所所有人的进/出次数,该场所进/出次数的标准差,进而计算某人某天的进/出次数是否为异常,动态识别用户的异常出入行为,系统判别为异常行为则对应的人员、日期、场所信息都会输入到异常进/出数据库表中,以供监督管理部门下一步的应急处置,实现了场所出入情况异常状态识别和告警的精准性和快速性,适合大规模推广应用。
附图说明
图1为本实发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细描述:
如图1所示,该动态的基于大数据技术的场所出入次数异常计算方法,通过如下步骤实现:
1)大数据迁移和清洗,将RDBMS中的用户出入记录数据迁移到Hadoop大数据集群的Hive数据仓库中,使用HDFS文件系统的MapReduce分布式计算进行批处理,将重复数据和无效数据去除;
2)聚合某个场所每日进/出的次数的均值,在Hive数据仓库中,基于YARN计算引擎,采用MapReduce分布式计算,根据公式r=c/m,得到某个场所每天的平均进/出的次数,并将该平均值作为新的列项添加到过程表中,其中,c是该场所当日进/出次数的总数,m是该场所当日进/出的总人次,r是该场所当日进/出次数的平均值;
3)聚合每人每日进/出每个场所的次数,使用HQL语句聚合出某场所每个人每日进/出的次数xi;
4)计算某场所每日进/出次数的标准差,公式(一)为标准差的计算公式,公式(二)为标准差平方的公式,得到方差,其中xi为某人某日在某场所进/出的总次数, r 为某场某日进/出次数的平均值, n 为某场所某日进/出的总人数
公式(一):
公式(二):s2=[ (x1-r)2 + (x2-r)2 + ...... + (xn-r)2 ] / (n)
5)人员某日进/出某个场所的次数异常判断,将异常值定义如下公式(三)所示,公式(三):|x - r| > 2 ×σ(r),
公式(四):|x - r|2 > 4 × s2,
其中各参数代表内容见步骤4)中的公式(一)和公式(二),满足公式(四)的x值,即为异常进/出次数,对应的人员、日期、场所信息都输出到异常进/出数据库表中。
在实际的操作过程中,各种智慧硬件采集的原始人员和出入技术数据中存在噪声数据,因此需要将RDBMS 中的用户出入记录数据迁移到 Hadoop大数据集群的 Hive 数据仓库中,并将重复数据、无效数据去除之后,才能进行正确的轨迹汇总和次数计算,这是步骤1)要进行的工作;因为某个场所每日进/出的次数是在不断变化的,所以需要获取某个场所每天的平均进/出的次数,这是步骤2)要进行的工作;要判断某场所每日进/出次数的异常,首先要计算其标准差,为方便比较,我们通过方差公式来计算,这是步骤4)要进行的工作;要识别异常,则要对异常值进行定义,并通过前述步骤计算得到的数值,与某个人员某日进/某个场所的次数这个个体数据进行代入比较,满足定义的异常值公式,则为异常进/出次数,判定该人员在该场所的行为轨迹异常,对应的人员、日期、场所信息都输出到异常进/出数据库表中,监督管理人员可以通过告警第一时间查看到相关情况,并进行下一步的处理,实现快速响应监督管理需要。经过实践证明,动态研判识别用户的出入异常,实现了更加精准的监管效果。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (1)
1.一种动态的基于大数据技术的场所出入次数异常计算方法,其特征在于,通过如下步骤实现:
大数据迁移和清洗,将RDBMS中的用户出入记录数据迁移到Hadoop大数据集群的Hive数据仓库中,使用HDFS文件系统的MapReduce分布式计算进行批处理,将重复数据和无效数据去除;
聚合某个场所每日进/出的次数的均值,在Hive数据仓库中,基于YARN计算引擎,采用MapReduce分布式计算,根据公式r=c/m,得到某个场所每天的平均进/出的次数,并将该平均值作为新的列项添加到过程表中,其中,c是该场所当日进/出次数的总数,m是该场所当日进/出的总人次,r是该场所当日进/出次数的平均值;
聚合每人每日进/出每个场所的次数,使用HQL语句聚合出某场所每个人每日进/出的次数xi;
计算某场所每日进/出次数的标准差,公式(一)为标准差的计算公式,公式(二)为标准差平方的公式,得到方差,其中xi为某人某日在某场所进/出的总次数, r 为某场某日进/出次数的平均值, n 为某场所某日进/出的总人数
公式(一):
公式(二):s2=[ (x1-r)2 + (x2-r)2 + ...... + (xn-r)2 ] / (n)
人员某日进/出某个场所的次数异常判断,将异常值定义如下公式(三)所示,公式(三):|x - r| > 2 × σ(r),
公式(四):|x - r|2 > 4 × s2,
其中各参数代表内容见步骤4)中的公式(一)和公式(二),满足公式(四)的x值,即为异常进/出次数,对应的人员、日期、场所信息都输出到异常进/出数据库表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010359983.3A CN111552681A (zh) | 2020-04-30 | 2020-04-30 | 一种动态的基于大数据技术的场所出入次数异常计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010359983.3A CN111552681A (zh) | 2020-04-30 | 2020-04-30 | 一种动态的基于大数据技术的场所出入次数异常计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111552681A true CN111552681A (zh) | 2020-08-18 |
Family
ID=72003341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010359983.3A Pending CN111552681A (zh) | 2020-04-30 | 2020-04-30 | 一种动态的基于大数据技术的场所出入次数异常计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111552681A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093581A (zh) * | 2011-11-08 | 2013-05-08 | 云辰电子开发股份有限公司 | 人员监控系统及方法 |
CN104463334A (zh) * | 2014-12-09 | 2015-03-25 | 深圳市华仁达技术有限公司 | 一种基于车辆轨迹的频繁出入智能分析系统和分析方法 |
CN107248125A (zh) * | 2017-05-23 | 2017-10-13 | 武汉朱雀闻天科技有限公司 | 一种确定疑似孤僻性格学生的方法及装置 |
WO2018040306A1 (zh) * | 2016-08-31 | 2018-03-08 | 上海依图网络科技有限公司 | 一种监控视频中检测频繁过人的方法 |
CN107967323A (zh) * | 2017-11-24 | 2018-04-27 | 泰华智慧产业集团股份有限公司 | 基于大数据进行异常出行车辆分析的方法及系统 |
CN109345431A (zh) * | 2018-09-29 | 2019-02-15 | 盐城优易数据有限公司 | 一种异常行为分析系统 |
-
2020
- 2020-04-30 CN CN202010359983.3A patent/CN111552681A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093581A (zh) * | 2011-11-08 | 2013-05-08 | 云辰电子开发股份有限公司 | 人员监控系统及方法 |
CN104463334A (zh) * | 2014-12-09 | 2015-03-25 | 深圳市华仁达技术有限公司 | 一种基于车辆轨迹的频繁出入智能分析系统和分析方法 |
WO2018040306A1 (zh) * | 2016-08-31 | 2018-03-08 | 上海依图网络科技有限公司 | 一种监控视频中检测频繁过人的方法 |
CN107248125A (zh) * | 2017-05-23 | 2017-10-13 | 武汉朱雀闻天科技有限公司 | 一种确定疑似孤僻性格学生的方法及装置 |
CN107967323A (zh) * | 2017-11-24 | 2018-04-27 | 泰华智慧产业集团股份有限公司 | 基于大数据进行异常出行车辆分析的方法及系统 |
CN109345431A (zh) * | 2018-09-29 | 2019-02-15 | 盐城优易数据有限公司 | 一种异常行为分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cronin et al. | Nursing home quality, COVID-19 deaths, and excess mortality | |
CN111145844B (zh) | 综合医疗监管平台 | |
US7415447B2 (en) | Apparatus and method for prediction and management of participant compliance in clinical research | |
CN108537544A (zh) | 一种交易系统实时监控方法及其监控系统 | |
CN111738549A (zh) | 食品安全风险评估方法、装置、设备及存储介质 | |
CN113345598B (zh) | 基于数据分析的区域疫情监测预警系统 | |
CN110069551A (zh) | 基于Spark的医疗设备运维信息挖掘分析系统及其使用方法 | |
Ta et al. | Detecting systemic data quality issues in electronic health records | |
CN117971606B (zh) | 基于ElasticSearch的日志管理系统及方法 | |
US11954945B2 (en) | Systems and methods for analyzing machine performance | |
CN106951360B (zh) | 数据统计完整度计算方法和系统 | |
Moore et al. | Combining multiple signals for biosurveillance | |
CN110377623A (zh) | 一种基于事件驱动的监查系统 | |
CN113032403A (zh) | 数据洞察方法、装置、电子设备及存储介质 | |
CN113642672A (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
US20240185159A1 (en) | Systems And Methods For Identifying An Officer At Risk Of An Adverse Event | |
CN117634727A (zh) | 一种基于数字孪生的智慧园区监测方法及系统 | |
CN117909173A (zh) | 基于大数据云平台的云应用健康度分析方法及装置 | |
CN111552681A (zh) | 一种动态的基于大数据技术的场所出入次数异常计算方法 | |
US20090137881A1 (en) | Linked animal-human health visual analytics | |
CN117174332A (zh) | 一种基于多源数据的传染病监测预警系统及预警方法 | |
CN116779184A (zh) | 疫苗安全性准实时监测的方法、系统及设备和存储介质 | |
CN116775747A (zh) | 一种基于Apriori算法的人员预警方法及系统 | |
Maciejewski et al. | Lahva: Linked animal-human health visual analytics | |
CN112182121B (zh) | 一种涉车关系发现方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |