CN110059141A - 一种通过日志轨迹对不同采集特征进行关系分析的方法 - Google Patents
一种通过日志轨迹对不同采集特征进行关系分析的方法 Download PDFInfo
- Publication number
- CN110059141A CN110059141A CN201910322241.0A CN201910322241A CN110059141A CN 110059141 A CN110059141 A CN 110059141A CN 201910322241 A CN201910322241 A CN 201910322241A CN 110059141 A CN110059141 A CN 110059141A
- Authority
- CN
- China
- Prior art keywords
- acquisition
- feature
- track
- log
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 title claims abstract description 23
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种通过日志轨迹对不同采集特征进行关系分析的方法,该方法包括的步骤有:分析不同采集设备的日志;将采集设备按照geohash或人工方式进行归类,生成归类编号,将采集到的特征分为键和值,利用向量相似度分析的方式,将采集到的特征视为键和值对,形成采集日志轨迹,分析一段时间内(例如在一天内)不同采集日志的轨迹相似度,并将相似度达到阈值的采集特征放在一起,采用top‑N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑。本发明的有益技术效果是:将日志数据看成轨迹并转换成向量来分析,可以有效地减少对数据量的依赖,可以更快地让数据关联起来。
Description
技术领域
本发明涉及一种关系分析的方法,尤其涉及一种通过日志轨迹对不同采集特征进行关系分析的方法。
背景技术
随着IT技术的发展,很多组织或公司有多个IT应用项目,这些IT项目由于互相并不打通数据,采集到的数据缺少关联性;有些IT项目就算是同一个项目内,由于采集数据的设备来源于不同厂商,也难以发现数据的相关性。现有技术中尚没有对应的解决方案,已经不能满足人们的要求。
发明内容
本发明的目的在于提供一种通过日志轨迹对不同采集特征进行关系分析的方法,利用归类编号和日志时间轨迹的方式来组织分析数据,将不同采集数据特征的关系分析出来,解决现有技术存在的缺憾。
本发明采用如下技术方案实现:
一种通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,该方法包括的步骤有:
分析不同采集设备的日志,将采集设备按照地理经纬度信息或人工方式进行归类,生成归类编号;
将采集到的特征视为键key,将所述键在不同采集设备中出现的位置信息(归类编号)和时间信息视为值value(采集日志的轨迹);
利用向量相似度分析的方式(用最小汉明距离来分析相似度,由于上一步采集设备按坐标先用geohash算法做了归类,所以这一步只需要按归类编号按大小顺序,可不用在向量中加入经纬度信息。实际工程中,如果采集设备坐标有较大偏差并难以找到原施工团队修改时,也可将坐标信息也编入向量,此时可换用余弦相似度来分析向量有较好效果),分析一段时间内(例如在一天内)不同采集日志的轨迹相似度,并将相似度达到阈值的采集特征放在一起;
将上一步预处理后的分析结果用图数据库保存,方法是用节点保存采集特征,存放采集特征之间轨迹相似的次数;
采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑,在业务逻辑上通常是同一人的不同采集特征或一组互相认识的人。
进一步的,同一采集设备具有相同的归类编号。
进一步的,采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑,该业务逻辑为同一人的不同采集特征或一组互相认识的人。
进一步的,对键值对采用最小汉明距离方法或余弦相似度进行向量相似度的分析。
进一步的,将采集设备按照geohash进行归类,生成归类编号。
本发明的有益技术效果是:将日志数据看成轨迹并转换成向量来分析,可以有效地减少对数据量的依赖,而且新的方法对采集设备的距离、采集设备的时间有一定容错性,可以更快地让数据关联起来。
附图说明
图1是实施例的某个公共场所的采集设备部署示意图。
图2是通过日志轨迹对不同采集特征进行关系分析的流程图。
具体实施方式
通过下面对实施例的描述,将更加有助于公众理解本发明,但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制,任何对部件或技术特征的定义进行改变和/或对整体结构作形式的而非实质的变换都应视为本发明的技术方案所限定的保护范围。
如图1和图2所示,为某个公共场所的具有2种(4个)采集设备的区域(部署在4个角落),其中,采集设备1和采集设备4可以采集第1种特征,采集设备2和采集设备3可以采集第2种特征。采集设备1和采集设备2用于采集大门的信息,采集设备3和采集设备4用于采集后门的信息。在数据特征1和数据特征2的相关性时,如图2所示,包括:
步骤201、按不同采集设备得到其多个日志表;
步骤202、按geohash或人工归类将不同采集设备归类,比如图1的情况得到归类编号1(采集设备1,采集设备2),归类编号2(采集设备3,采集设备4)
步骤203、得到采集特征与轨迹的key-value键值对信息(key:采集特征,value:采集设备的归类编号列表),如果每天分析一次,可以将1天看成24小时,从而得到类似下表的数据结构:
特征 | 归类编号 | 1点 | 2点 | 3点 | 4点 | 5点 | 6点 | … |
特征1 | 归类编号1 | 1(出现) | 0(未出现) | 0 | 1 | 1 | 0 | … |
特征2 | 归类编号2 | 1 | 0 | 0 | 1 | 1 | 0 | … |
特征3 | 归类编号3 | 1 | 1 | 0 | 0 | 0 | 1 | … |
… |
步骤204、每个特征可以在当天得到一组向量,有多个采集设备时得到如同上表的一个矩阵。由于我们只需要分析相关性,可以将矩阵直接降维,转换成向量之后再用向量相似度方式分析(由于前一步做过geohash做设备的归类,这一步采用最小汉明距离算法分析向量相似度即可)。
步骤205、由于结果是关系数据,用图数据库来存储,方便后继读取。用节点存放采集特征,边存放关联次数,每天的计算中向量相似度达到阈值后会增加关联次数,例如每次相似加1,在实际项目中,可根据采集的频次来调节增加的关联次数。
步骤206、用top-N算法(主流的图型数据库都自带了相关算法的API)直接获取关联度最高的特征。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明的算法思路,通过归类编号的设计,轨迹转换为向量的设计等思路,能有效减少对数据量和采集设备位置的依赖。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当然,本发明还可以有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可以根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (5)
1.一种通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,该方法包括的步骤有:
分析不同采集设备的日志,将采集设备按照地理经纬度信息或人工方式进行归类,生成归类编号;
将采集到的特征视为键(key),将所述键在不同采集设备中出现的位置信息和时间信息视为值(value);
利用向量相似度分析的方式对键值对进行分析,分析一段时间内不同采集日志的轨迹相似度,并将相似度达到阈值的采集特征放在一起;
将上一步预处理后的分析结果用图数据库保存,方法是用节点保存采集特征,存放采集特征之间轨迹相似的次数;
采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑。
2.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,同一采集设备具有相同的归类编号。
3.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,采用top-N算法获取某个采集特征对应的相似度最高的采集特征列表,应用于业务逻辑,该业务逻辑为同一人的不同采集特征或一组互相认识的人。
4.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,对键值对采用最小汉明距离方法或余弦相似度进行向量相似度的分析。
5.根据权利要求1所述的通过日志轨迹对不同采集特征进行关系分析的方法,其特征在于,将采集设备按照geohash进行归类,生成归类编号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910322241.0A CN110059141A (zh) | 2019-04-22 | 2019-04-22 | 一种通过日志轨迹对不同采集特征进行关系分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910322241.0A CN110059141A (zh) | 2019-04-22 | 2019-04-22 | 一种通过日志轨迹对不同采集特征进行关系分析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059141A true CN110059141A (zh) | 2019-07-26 |
Family
ID=67319844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910322241.0A Pending CN110059141A (zh) | 2019-04-22 | 2019-04-22 | 一种通过日志轨迹对不同采集特征进行关系分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059141A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110557722A (zh) * | 2019-07-30 | 2019-12-10 | 深圳市天彦通信股份有限公司 | 目标团伙的识别方法及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820905A (zh) * | 2015-05-19 | 2015-08-05 | 威海北洋电气集团股份有限公司 | 基于空间轨迹大数据分析的人员管控方法及系统 |
CN106445948A (zh) * | 2015-08-06 | 2017-02-22 | 中兴通讯股份有限公司 | 一种人员潜在关系分析方法和装置 |
CN106951455A (zh) * | 2017-02-24 | 2017-07-14 | 河海大学 | 一种相似轨迹分析系统及其分析方法 |
CN107562947A (zh) * | 2017-09-26 | 2018-01-09 | 宿州学院 | 一种移动时空感知下动态即时推荐服务模型建立方法 |
CN107679558A (zh) * | 2017-09-19 | 2018-02-09 | 电子科技大学 | 一种基于度量学习的用户轨迹相似性度量方法 |
CN109583472A (zh) * | 2018-10-30 | 2019-04-05 | 中国科学院计算技术研究所 | 一种web日志用户识别方法和系统 |
-
2019
- 2019-04-22 CN CN201910322241.0A patent/CN110059141A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820905A (zh) * | 2015-05-19 | 2015-08-05 | 威海北洋电气集团股份有限公司 | 基于空间轨迹大数据分析的人员管控方法及系统 |
CN106445948A (zh) * | 2015-08-06 | 2017-02-22 | 中兴通讯股份有限公司 | 一种人员潜在关系分析方法和装置 |
CN106951455A (zh) * | 2017-02-24 | 2017-07-14 | 河海大学 | 一种相似轨迹分析系统及其分析方法 |
CN107679558A (zh) * | 2017-09-19 | 2018-02-09 | 电子科技大学 | 一种基于度量学习的用户轨迹相似性度量方法 |
CN107562947A (zh) * | 2017-09-26 | 2018-01-09 | 宿州学院 | 一种移动时空感知下动态即时推荐服务模型建立方法 |
CN109583472A (zh) * | 2018-10-30 | 2019-04-05 | 中国科学院计算技术研究所 | 一种web日志用户识别方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110557722A (zh) * | 2019-07-30 | 2019-12-10 | 深圳市天彦通信股份有限公司 | 目标团伙的识别方法及相关装置 |
CN110557722B (zh) * | 2019-07-30 | 2020-12-29 | 深圳市天彦通信股份有限公司 | 目标团伙的识别方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Non-parametric scan statistics for event detection and forecasting in heterogeneous social media graphs | |
Lappas et al. | On the spatiotemporal burstiness of terms | |
Noss et al. | Comparison of density estimation methods for mammal populations with camera traps in the K aa‐I ya del G ran C haco landscape | |
Boyack et al. | Improving the accuracy of co‐citation clustering using full text | |
Qian et al. | Mining regional co-location patterns with k NNG | |
WO2017167071A1 (zh) | 一种对应用程序进行项目评估的方法及系统 | |
Winkler | Data cleaning methods | |
CN101174273A (zh) | 基于元数据分析的新闻事件检测方法 | |
CN104484343A (zh) | 一种对微博进行主题发现与追踪的方法 | |
Abdelhaq et al. | Spatio-temporal characteristics of bursty words in Twitter streams | |
Vijayarani et al. | An efficient masking technique for sensitive data protection | |
Lee et al. | An efficient algorithm for mining closed inter-transaction itemsets | |
Haq et al. | Text mining techniques to capture facts for cloud computing adoption and big data processing | |
Roedler et al. | Profile matching across online social networks based on geo-tags | |
Islam et al. | WFSM-MaxPWS: an efficient approach for mining weighted frequent subgraphs from edge-weighted graph databases | |
CN105159898A (zh) | 一种搜索的方法和装置 | |
CN110059141A (zh) | 一种通过日志轨迹对不同采集特征进行关系分析的方法 | |
Zubi et al. | Using data mining techniques to analyze crime patterns in the libyan national crime data | |
Thom et al. | Inverse document density: A smooth measure for location-dependent term irregularities | |
CN104462241A (zh) | 基于url中锚文字和周边文本的人口属性分类方法及装置 | |
Miao et al. | Informative core identification in complex networks | |
Qin et al. | Improved K-Means algorithm and application in customer segmentation | |
Dharavath et al. | Entity resolution based EM for integrating heterogeneous distributed probabilistic data | |
CN103488693A (zh) | 数据处理装置和数据处理方法 | |
Ahuja et al. | A probabilistic geographical aspect-opinion model for geo-tagged microblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190726 |
|
RJ01 | Rejection of invention patent application after publication |