CN110059141A - 一种通过日志轨迹对不同采集特征进行关系分析的方法 - Google Patents

一种通过日志轨迹对不同采集特征进行关系分析的方法 Download PDF

Info

Publication number
CN110059141A
CN110059141A CN201910322241.0A CN201910322241A CN110059141A CN 110059141 A CN110059141 A CN 110059141A CN 201910322241 A CN201910322241 A CN 201910322241A CN 110059141 A CN110059141 A CN 110059141A
Authority
CN
China
Prior art keywords
acquisition
feature
track
log
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910322241.0A
Other languages
English (en)
Inventor
陈陵
徐洪
周华雄
王国辉
李松洲
孙宇飞
郭晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHUHAI NETBOX INFORMATION TECHNOLOGY Co Ltd
Original Assignee
ZHUHAI NETBOX INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHUHAI NETBOX INFORMATION TECHNOLOGY Co Ltd filed Critical ZHUHAI NETBOX INFORMATION TECHNOLOGY Co Ltd
Priority to CN201910322241.0A priority Critical patent/CN110059141A/zh
Publication of CN110059141A publication Critical patent/CN110059141A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种通过日志轨迹对不同采集特征进行关系分析的方法,该方法包括的步骤有:分析不同采集设备的日志;将采集设备按照geohash或人工方式进行归类,生成归类编号,将采集到的特征分为键和值,利用向量相似度分析的方式,将采集到的特征视为键和值对,形成采集日志轨迹,分析一段时间内(例如在一天内)不同采集日志的轨迹相似度,并将相似度达到阈值的采集特征放在一起,采用top‑N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑。本发明的有益技术效果是:将日志数据看成轨迹并转换成向量来分析,可以有效地减少对数据量的依赖,可以更快地让数据关联起来。

Description

一种通过日志轨迹对不同采集特征进行关系分析的方法
技术领域
本发明涉及一种关系分析的方法,尤其涉及一种通过日志轨迹对不同采集特征进行关系分析的方法。
背景技术
随着IT技术的发展,很多组织或公司有多个IT应用项目,这些IT项目由于互相并不打通数据,采集到的数据缺少关联性;有些IT项目就算是同一个项目内,由于采集数据的设备来源于不同厂商,也难以发现数据的相关性。现有技术中尚没有对应的解决方案,已经不能满足人们的要求。
发明内容
本发明的目的在于提供一种通过日志轨迹对不同采集特征进行关系分析的方法,利用归类编号和日志时间轨迹的方式来组织分析数据,将不同采集数据特征的关系分析出来,解决现有技术存在的缺憾。
本发明采用如下技术方案实现:
一种通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,该方法包括的步骤有:
分析不同采集设备的日志,将采集设备按照地理经纬度信息或人工方式进行归类,生成归类编号;
将采集到的特征视为键key,将所述键在不同采集设备中出现的位置信息(归类编号)和时间信息视为值value(采集日志的轨迹);
利用向量相似度分析的方式(用最小汉明距离来分析相似度,由于上一步采集设备按坐标先用geohash算法做了归类,所以这一步只需要按归类编号按大小顺序,可不用在向量中加入经纬度信息。实际工程中,如果采集设备坐标有较大偏差并难以找到原施工团队修改时,也可将坐标信息也编入向量,此时可换用余弦相似度来分析向量有较好效果),分析一段时间内(例如在一天内)不同采集日志的轨迹相似度,并将相似度达到阈值的采集特征放在一起;
将上一步预处理后的分析结果用图数据库保存,方法是用节点保存采集特征,存放采集特征之间轨迹相似的次数;
采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑,在业务逻辑上通常是同一人的不同采集特征或一组互相认识的人。
进一步的,同一采集设备具有相同的归类编号。
进一步的,采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑,该业务逻辑为同一人的不同采集特征或一组互相认识的人。
进一步的,对键值对采用最小汉明距离方法或余弦相似度进行向量相似度的分析。
进一步的,将采集设备按照geohash进行归类,生成归类编号。
本发明的有益技术效果是:将日志数据看成轨迹并转换成向量来分析,可以有效地减少对数据量的依赖,而且新的方法对采集设备的距离、采集设备的时间有一定容错性,可以更快地让数据关联起来。
附图说明
图1是实施例的某个公共场所的采集设备部署示意图。
图2是通过日志轨迹对不同采集特征进行关系分析的流程图。
具体实施方式
通过下面对实施例的描述,将更加有助于公众理解本发明,但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制,任何对部件或技术特征的定义进行改变和/或对整体结构作形式的而非实质的变换都应视为本发明的技术方案所限定的保护范围。
如图1和图2所示,为某个公共场所的具有2种(4个)采集设备的区域(部署在4个角落),其中,采集设备1和采集设备4可以采集第1种特征,采集设备2和采集设备3可以采集第2种特征。采集设备1和采集设备2用于采集大门的信息,采集设备3和采集设备4用于采集后门的信息。在数据特征1和数据特征2的相关性时,如图2所示,包括:
步骤201、按不同采集设备得到其多个日志表;
步骤202、按geohash或人工归类将不同采集设备归类,比如图1的情况得到归类编号1(采集设备1,采集设备2),归类编号2(采集设备3,采集设备4)
步骤203、得到采集特征与轨迹的key-value键值对信息(key:采集特征,value:采集设备的归类编号列表),如果每天分析一次,可以将1天看成24小时,从而得到类似下表的数据结构:
特征 归类编号 1点 2点 3点 4点 5点 6点
特征1 归类编号1 1(出现) 0(未出现) 0 1 1 0
特征2 归类编号2 1 0 0 1 1 0
特征3 归类编号3 1 1 0 0 0 1
步骤204、每个特征可以在当天得到一组向量,有多个采集设备时得到如同上表的一个矩阵。由于我们只需要分析相关性,可以将矩阵直接降维,转换成向量之后再用向量相似度方式分析(由于前一步做过geohash做设备的归类,这一步采用最小汉明距离算法分析向量相似度即可)。
步骤205、由于结果是关系数据,用图数据库来存储,方便后继读取。用节点存放采集特征,边存放关联次数,每天的计算中向量相似度达到阈值后会增加关联次数,例如每次相似加1,在实际项目中,可根据采集的频次来调节增加的关联次数。
步骤206、用top-N算法(主流的图型数据库都自带了相关算法的API)直接获取关联度最高的特征。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明的算法思路,通过归类编号的设计,轨迹转换为向量的设计等思路,能有效减少对数据量和采集设备位置的依赖。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当然,本发明还可以有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可以根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,该方法包括的步骤有:
分析不同采集设备的日志,将采集设备按照地理经纬度信息或人工方式进行归类,生成归类编号;
将采集到的特征视为键(key),将所述键在不同采集设备中出现的位置信息和时间信息视为值(value);
利用向量相似度分析的方式对键值对进行分析,分析一段时间内不同采集日志的轨迹相似度,并将相似度达到阈值的采集特征放在一起;
将上一步预处理后的分析结果用图数据库保存,方法是用节点保存采集特征,存放采集特征之间轨迹相似的次数;
采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑。
2.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,同一采集设备具有相同的归类编号。
3.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑,该业务逻辑为同一人的不同采集特征或一组互相认识的人。
4.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,对键值对采用最小汉明距离方法或余弦相似度进行向量相似度的分析。
5.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,将采集设备按照geohash进行归类,生成归类编号。
CN201910322241.0A 2019-04-22 2019-04-22 一种通过日志轨迹对不同采集特征进行关系分析的方法 Pending CN110059141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910322241.0A CN110059141A (zh) 2019-04-22 2019-04-22 一种通过日志轨迹对不同采集特征进行关系分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910322241.0A CN110059141A (zh) 2019-04-22 2019-04-22 一种通过日志轨迹对不同采集特征进行关系分析的方法

Publications (1)

Publication Number Publication Date
CN110059141A true CN110059141A (zh) 2019-07-26

Family

ID=67319844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910322241.0A Pending CN110059141A (zh) 2019-04-22 2019-04-22 一种通过日志轨迹对不同采集特征进行关系分析的方法

Country Status (1)

Country Link
CN (1) CN110059141A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110557722A (zh) * 2019-07-30 2019-12-10 深圳市天彦通信股份有限公司 目标团伙的识别方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820905A (zh) * 2015-05-19 2015-08-05 威海北洋电气集团股份有限公司 基于空间轨迹大数据分析的人员管控方法及系统
CN106445948A (zh) * 2015-08-06 2017-02-22 中兴通讯股份有限公司 一种人员潜在关系分析方法和装置
CN106951455A (zh) * 2017-02-24 2017-07-14 河海大学 一种相似轨迹分析系统及其分析方法
CN107562947A (zh) * 2017-09-26 2018-01-09 宿州学院 一种移动时空感知下动态即时推荐服务模型建立方法
CN107679558A (zh) * 2017-09-19 2018-02-09 电子科技大学 一种基于度量学习的用户轨迹相似性度量方法
CN109583472A (zh) * 2018-10-30 2019-04-05 中国科学院计算技术研究所 一种web日志用户识别方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820905A (zh) * 2015-05-19 2015-08-05 威海北洋电气集团股份有限公司 基于空间轨迹大数据分析的人员管控方法及系统
CN106445948A (zh) * 2015-08-06 2017-02-22 中兴通讯股份有限公司 一种人员潜在关系分析方法和装置
CN106951455A (zh) * 2017-02-24 2017-07-14 河海大学 一种相似轨迹分析系统及其分析方法
CN107679558A (zh) * 2017-09-19 2018-02-09 电子科技大学 一种基于度量学习的用户轨迹相似性度量方法
CN107562947A (zh) * 2017-09-26 2018-01-09 宿州学院 一种移动时空感知下动态即时推荐服务模型建立方法
CN109583472A (zh) * 2018-10-30 2019-04-05 中国科学院计算技术研究所 一种web日志用户识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110557722A (zh) * 2019-07-30 2019-12-10 深圳市天彦通信股份有限公司 目标团伙的识别方法及相关装置
CN110557722B (zh) * 2019-07-30 2020-12-29 深圳市天彦通信股份有限公司 目标团伙的识别方法及相关装置

Similar Documents

Publication Publication Date Title
Chen et al. Non-parametric scan statistics for event detection and forecasting in heterogeneous social media graphs
Lappas et al. On the spatiotemporal burstiness of terms
Noss et al. Comparison of density estimation methods for mammal populations with camera traps in the K aa‐I ya del G ran C haco landscape
Boyack et al. Improving the accuracy of co‐citation clustering using full text
Qian et al. Mining regional co-location patterns with k NNG
WO2017167071A1 (zh) 一种对应用程序进行项目评估的方法及系统
Winkler Data cleaning methods
CN101174273A (zh) 基于元数据分析的新闻事件检测方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
Abdelhaq et al. Spatio-temporal characteristics of bursty words in Twitter streams
Vijayarani et al. An efficient masking technique for sensitive data protection
Lee et al. An efficient algorithm for mining closed inter-transaction itemsets
Haq et al. Text mining techniques to capture facts for cloud computing adoption and big data processing
Roedler et al. Profile matching across online social networks based on geo-tags
Islam et al. WFSM-MaxPWS: an efficient approach for mining weighted frequent subgraphs from edge-weighted graph databases
CN105159898A (zh) 一种搜索的方法和装置
CN110059141A (zh) 一种通过日志轨迹对不同采集特征进行关系分析的方法
Zubi et al. Using data mining techniques to analyze crime patterns in the libyan national crime data
Thom et al. Inverse document density: A smooth measure for location-dependent term irregularities
CN104462241A (zh) 基于url中锚文字和周边文本的人口属性分类方法及装置
Miao et al. Informative core identification in complex networks
Qin et al. Improved K-Means algorithm and application in customer segmentation
Dharavath et al. Entity resolution based EM for integrating heterogeneous distributed probabilistic data
CN103488693A (zh) 数据处理装置和数据处理方法
Ahuja et al. A probabilistic geographical aspect-opinion model for geo-tagged microblogs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726

RJ01 Rejection of invention patent application after publication