CN110795705B - 轨迹数据处理方法、装置、设备及存储介质 - Google Patents
轨迹数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110795705B CN110795705B CN201911010977.0A CN201911010977A CN110795705B CN 110795705 B CN110795705 B CN 110795705B CN 201911010977 A CN201911010977 A CN 201911010977A CN 110795705 B CN110795705 B CN 110795705B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- probability distribution
- track data
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/316—User authentication by observing the pattern of computer usage, e.g. typical user behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Social Psychology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种轨迹数据处理方法、装置、设备及存储介质,该方法包括:采集用户轨迹数据;对用户轨迹数据进行聚类并对聚类后的用户轨迹数据进行降维以获得低维轨迹数据;计算预设时段内低维轨迹数据的概率分布;根据概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;若存在则提取目标概率分布区域中的待封禁数据,并对其进行封禁。由于是先对用户轨迹数据进行聚类,然后对聚类的数据进行降维,从而能够保证低维轨迹数据的有效性以及准确性,同时通过计算低维轨迹数据的概率分布并提取该概率分布中的目标概率分布区域,再对区域中的待封禁数据进行封禁,提高了对机器伪造的行为数据的识别准确度,减少了错判或误判的情况。
Description
技术领域
本发明涉及信息安全技术领域,尤其涉及一种轨迹数据处理方法、装置、设备及存储介质。
背景技术
验证码(Completely Automated Public Turing test to tell Computers andHumans Apart,CAPTCHA)是一种反图灵测试,用来进行人机区分,阻挡机器交互请求。传统验证码为字符类型,通过对图片中的字符进行变形、扭曲、增加干扰,对抗机器识别。
随着计算机技术的不断发展,使用光学字符识别(Optical Character Recognition,OCR)、机器学习等手段对传统验证码的识别成功率高达99%,为了对抗自动图像识别,传统验证码不得不变得越来越复杂,这导致正常用户的使用体验大幅下降。而行为验证的诞生给互联网提供了新的验证安全解决方案,从而变为更广泛的验证技术方案,越来越多地替换了网络上之前的传统字符验证。
行为验证大多是通过收集用户的验证行为数据,然后对验证行为数据进行识别从而判断当前的验证行为是否为机器行为。在滑动验证过程中,用户的验证轨迹往往能够用来进行人机区分。但现有的区分方式大多通过计算用户轨迹数据与机器轨迹数据之间的匹配相似度,然后根据计算出的匹配相似度判断当前验证行为是否为机器行为,这种方式的缺陷在于对于机器伪造的行为数据识别准确度不高,容易出现错判或误判的情况。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种轨迹数据处理方法、装置、设备及存储介质,旨在解决现有技术对于机器伪造的行为数据识别准确度不高,容易出现错判或误判的技术问题。
为实现上述目的,本发明提供了一种轨迹数据处理方法,所述方法包括以下步骤:
采集用户轨迹数据;
采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据;
计算预设时段内所述低维轨迹数据在低维空间中的概率分布;
根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;
在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据;
将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁。
优选地,所述采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据的步骤,包括:
采用预设聚类模型按预设特征维度对所述用户轨迹数据进行聚类,获得所述预设特征维度对应的轨迹特征数据簇;
根据所述轨迹特征数据簇建立轨迹特征矩阵;
对所述轨迹特征矩阵进行奇异值分解,并根据奇异值分解结果对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵;
基于所述目标特征矩阵获得数据降维后的低维轨迹数据。
优选地,所述对所述轨迹特征矩阵进行奇异值分解,并根据奇异值分解结果对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵的步骤,包括:
对所述轨迹特征矩阵进行奇异值分解,获得奇异值集合;
从所述奇异值集合中选取预设数量的目标奇异值,根据所述目标奇异值对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵。
优选地,所述计算预设时段内所述低维轨迹数据在低维空间中的概率分布的步骤,包括:
获取预设时段内各低维轨迹数据对应的可取数值,以及各可取数值对应的概率值;
根据所述可取数值以及所述概率值,通过预设方程组计算所述低维轨迹数据在低维空间中的概率分布;
其中,所述预设方程组为:
其中,xi为任一低维轨迹数据X对应的可取数值,i为可取数值的个数,f(xi)和P(X=xi)为低维轨迹数据X在可取数值为xi时的概率值。
优选地,所述根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域的步骤,包括:
根据所述概率分布确定所述预设时段内各时间节点对应的概率值集合;
读取各时间节点对应的预设概率阈值,分别将所述概率值集合中的各概率值与所述预设概率阈值进行比较;
根据比较结果判断是否存在概率值高于预设概率阈值的目标概率值;
若存在,则判定存在目标概率分布区域,若不存在,则判定不存在目标概率分布区域。
优选地,所述在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据的步骤,包括:
在存在所述目标概率分布区域时,根据所述目标概率分布区域包含的所述目标概率值从所述用户轨迹数据中提取对应的目标轨迹数据;
从封禁数据库中读取所述目标概率分布区域对应的已封禁轨迹数据,将所述已封禁轨迹数据作为历史轨迹数据。
优选地,所述将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁的步骤,包括:
采用精确匹配检索从所述目标轨迹数据中查找与所述历史轨迹数据对应的待剔除数据;
将所述待剔除数据从所述目标轨迹数据中剔除以获得待封禁数据,对所述待封禁数据进行封禁。
此外,为实现上述目的,本发明还提出一种轨迹数据处理装置,所述装置包括:
数据采集模块,用于采集用户轨迹数据;
聚类降维模块,用于采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据;
概率计算模块,用于计算预设时段内所述低维轨迹数据在低维空间中的概率分布;
区域判断模块,用于根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;
数据封禁模块,用于在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据;
所述数据封禁模块,还用于将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁。
此外,为实现上述目的,本发明还提出一种轨迹数据处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的轨迹数据处理程序,所述轨迹数据处理程序配置为实现如上文所述的轨迹数据处理方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有轨迹数据处理程序,所述轨迹数据处理程序被处理器执行时实现如上文所述的轨迹数据处理方法的步骤。
本发明例通过采集用户轨迹数据,采用预设聚类模型对用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维获得低维轨迹数据;计算预设时段内低维轨迹数据在低维空间中的概率分布;根据概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;在存在目标概率分布区域时,获取目标概率分布区域对应的目标轨迹数据,并读取目标概率分布区域对应的历史轨迹数据;将历史轨迹数据从目标轨迹数据中剔除以获得待封禁数据,并对待封禁数据进行封禁。由于是先对用户轨迹数据进行聚类,然后对聚类后的数据进行降维获得低维轨迹数据,从而能够保证低维轨迹数据的有效性以及准确性,同时通过计算低维轨迹数据的概率分布,然后检测该概率分布中的目标概率分布区域,再提取并封禁目标概率分布区域中的待封禁数据,提高了对机器伪造的行为数据的识别准确度,减少了错判或误判的情况。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的轨迹数据处理设备的结构示意图;
图2为本发明轨迹数据处理方法第一实施例的流程示意图;
图3为本发明轨迹数据处理方法第二实施例的流程示意图;
图4为本发明轨迹数据处理方法第三实施例的流程示意图;
图5为本发明轨迹数据处理装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的轨迹数据处理设备结构示意图。
如图1所示,该轨迹数据处理设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对轨迹数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及轨迹数据处理程序。
在图1所示的轨迹数据处理设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明轨迹数据处理设备中的处理器1001、存储器1005可以设置在轨迹数据处理设备中,所述轨迹数据处理设备通过处理器1001调用存储器1005中存储的轨迹数据处理程序,并执行本发明实施例提供的轨迹数据处理方法。
本发明实施例提供了一种轨迹数据处理方法,参照图2,图2为本发明轨迹数据处理方法第一实施例的流程示意图。
本实施例中,所述轨迹数据处理方法包括以下步骤:
步骤S10:采集用户轨迹数据;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的数据处理平台或客户端,以下简称客户端。所述用户轨迹数据可以是用户(人或机器)在验证界面执行验证操作时的操作行为数据,包括但不限于,点击、滑动、拖拽、点选、语音输入等行为数据。
应理解的是,在执行本步骤前,可预先在验证界面对应的程序代码中植入数据埋点,从而通过这些数据埋点来采集用户在验证界面上执行的行为轨迹数据。
步骤S20:采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据;
应理解的是,所述预设聚类模型可以是通过预先设定的聚类维度的轨迹数据训练出的聚类模型,该聚类模型可以用来将用户轨迹数据聚类成设定聚类维度的数据簇。
可理解的是,聚类后的用户轨迹数据中可能存在部分无用的信息,这部分无用信息对于行为验证而言不仅不能提高行为验证的精确度,反而会降低客户端后台服务器的运算效率,占用过多的计算资源。因此本实施例客户端在获取到聚类后的用户轨迹数据后还将对其进行数据降维,获得低维轨迹数据。
需要说明的是,数据降维的方式通常包括线性映射和非线性映射两大类,而线性映射的代表方法为:主成分分析(Principal Component Analysis,PCA),线性判别分析(Linear Discriminant Analysis,LDA)。但考虑到主成分分析的缺陷在于参与计算的矩阵只能为方阵,计算量较大,而线性判别分析的计算又较为复杂,因此本实施例优选能够对任意矩阵进行分解的奇异值分解(Sin gular Value Decomposition,SVD)来对聚类后的用户轨迹数据进行数据降维,进而扩大本实施例轨迹数据处理方法的应用范围或场景,保证轨迹数据处理的顺利进行。
步骤S30:计算预设时段内所述低维轨迹数据在低维空间中的概率分布;
应理解的是,本实施例中,所述预设时间段可以是从用户进行验证操作开始至验证操作结束所对应的时间段,所述低维空间可以是二维空间。所述概率分布是指用于表述随机变量取值的概率规律。
在执行本步骤之前,可先基于大量正常用户的验证行为轨迹数据来计算对应的正常概率分布,然后将当前计算的低维轨迹数据的概率分布与正常概率分布进行比较,若当前计算的概率分布存在不属于正常概率分布的区域,即表明这部分区域的低维轨迹数据是可疑的数据,此时就需要对这部分可疑的数据进行封禁处理。
具体的,客户端在计算低维轨迹数据在低维空间中的概率分布时,可先获取预设时段内各低维轨迹数据对应的可取数值,以及各可取数值对应的概率值;然后根据所述可取数值以及所述概率值,通过预设方程组计算所述低维轨迹数据在低维空间中的概率分布;其中,所述预设方程组为:
其中,xi为任一低维轨迹数据X对应的可取数值,i为可取数值的个数,f(xi)和P(X=xi)为低维轨迹数据X在可取数值为xi时的概率值。
步骤S40:根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;
需要说明的是,本实施例中将正常用户轨迹数据计算所得的概率分布作为正常概率分布,将正常概率分布中每一个时间节点对应的概率值中最大的概率值作为该时间节点对应的预设概率阈值。
在具体实现中,客户端计算出低维轨迹数据在低维空间中的概率分布后,即可根据该概率分布确定预设时段内各时间节点对应的概率值集合,然后检测概率值集合中是否存在概率值高于预设概率阈值的目标概率值,从而确定是否存在目标概率分布区域。当然,在进行目标概率分布区域的检测时,需保证计算出的概率分布和正常概率分布所在的时间区间相一致。
具体的,可根据所述概率分布确定所述预设时段内各时间节点对应的概率值集合;读取各时间节点对应的预设概率阈值,分别将所述概率值集合中的各概率值与所述预设概率阈值进行比较;根据比较结果判断是否存在概率值高于预设概率阈值的目标概率值;若存在,则判定存在目标概率分布区域,若不存在,则判定不存在目标概率分布区域。
步骤S50:在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据;
需要说明的是,所述历史轨迹数据可以是不属于正常概率分布区域但属于目标概率分布区域的、可能正常或已经被封禁的轨迹数据。
步骤S60:将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁。
应理解的是,本方案中历史轨迹数据属于当前不需要对其进行封禁处理的轨迹数据,因此客户端需要将这部分数据从需要进行数据封禁的目标轨迹中剔除,然后对剩余的数据进行封禁,从而提高数据处理效率。
在具体实现中,客户端在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据,然后将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁。
本实施例通过采集用户轨迹数据,采用预设聚类模型对用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维获得低维轨迹数据;计算预设时段内低维轨迹数据在低维空间中的概率分布;根据概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;在存在目标概率分布区域时,获取目标概率分布区域对应的目标轨迹数据,并读取目标概率分布区域对应的历史轨迹数据;将历史轨迹数据从目标轨迹数据中剔除以获得待封禁数据,并对待封禁数据进行封禁。由于是先对用户轨迹数据进行聚类,然后对聚类后的数据进行降维获得低维轨迹数据,从而能够保证低维轨迹数据的有效性以及准确性,同时通过计算低维轨迹数据的概率分布,然后检测该概率分布中的目标概率分布区域,再提取并封禁目标概率分布区域中的待封禁数据,提高了对机器伪造的行为数据的识别准确度,减少了错判或误判的情况。
参考图3,图3为本发明轨迹数据处理方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S20包括:
步骤S201:采用预设聚类模型按预设特征维度对所述用户轨迹数据进行聚类,获得所述预设特征维度对应的轨迹特征数据簇;
需要说明的是,所述预设特征维度包括但不限于验证时长、次数、成功率、修改次数等维度。所谓聚类,即将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,本实施例中可预先训练一个聚类模型用来对数据进行聚类。
在具体实现中,客户端可采用预设聚类模型按上述预设特征维度对用户轨迹数据进行聚类,从而获得对应的轨迹特征数据簇。
步骤S202:根据所述轨迹特征数据簇建立轨迹特征矩阵;
需要说明的是,所述轨迹特征矩阵是由能够表征轨迹特性的特征数据簇构成的矩阵。由于本实施例优选SVD降维方法来对用户轨迹数据进行降维。因此,客户端需要先根据轨迹特征数据簇建立轨迹特征矩阵。
在具体实现中,客户端在获取到轨迹特征数据簇后,还将根据轨迹特征数据簇来建立轨迹特征矩阵。具体的,可先对轨迹特征数据簇进行无量纲化,以统一各轨迹特征数据簇的量纲,然后再对无量纲化后的轨迹特征数据簇进行归一化处理,最后再基于归一化处理后的轨迹特征数据簇来建立轨迹特征矩阵,从而提高计算效率,保证轨迹特征矩阵的可靠性。
步骤S203:对所述轨迹特征矩阵进行奇异值分解,并根据奇异值分解结果对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵;
应理解的是,奇异值分解通常用来对数据进行降维,其可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些子矩阵可用来描述矩阵的重要特性。
在具体实现中,客户端可对所述轨迹特征矩阵进行奇异值分解,获得奇异值集合;然后从所述奇异值集合中选取预设数量的目标奇异值,再根据所述目标奇异值对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵。
需要说明的是,所述目标奇异值的选取可以是先按从大到小的顺序对奇异值进行排序,然后根据排序结果选取预设数量的排序靠前(即奇异值较大)的奇异值作为目标奇异值。
步骤S204:基于所述目标特征矩阵获得数据降维后的低维轨迹数据。
在具体实现中,客户端在获取到目标特征矩阵后,即可将目标特征矩阵中包含的数据作为降维后的低维轨迹数据。
本实施例通过采用预设聚类模型按预设特征维度对用户轨迹数据进行聚类,获得预设特征维度对应的轨迹特征数据簇;然后根据轨迹特征数据簇建立轨迹特征矩阵;对轨迹特征矩阵进行奇异值分解并根据奇异值分解结果对轨迹特征矩阵进行矩阵重构获得目标特征矩阵;再基于目标特征矩阵获得数据降维后的低维轨迹数据,由于是通过奇异值分解来对用户轨迹数据进行降维,降低了数据降维时的矩阵构建难度,保证了数据降维的顺利进行。
参考图4,图4为本发明轨迹数据处理方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S50可具体包括:
步骤S501:在存在所述目标概率分布区域时,根据所述目标概率分布区域包含的所述目标概率值从所述用户轨迹数据中提取对应的目标轨迹数据;
应理解的是,若检测到存在目标概率分布区域,则表明用户轨迹数据中存在需要被封禁的可疑数据。此时就需要将这部分可疑数据从采集到的用户轨迹数据中提取出来。
在具体实现中,客户端在检测到存在目标概率分布区域时,可根据目标概率分布区域包含的目标概率值从用户轨迹数据中提取对应的目标轨迹数据。
步骤S502:从封禁数据库中读取所述目标概率分布区域对应的已封禁轨迹数据,将所述已封禁轨迹数据作为历史轨迹数据;
在具体实现中,客户端在提取出目标轨迹数据后,即可从封禁数据库中读取所述目标概率分布区域对应的已封禁轨迹数据,然后将所述已封禁轨迹数据作为历史轨迹数据。
相应地,所述步骤S60可具体包括:
步骤S601:采用精确匹配检索从所述目标轨迹数据中查找与所述历史轨迹数据对应的待剔除数据;
应理解的是,所谓精确匹配检索,是指检索词与资源库中某一字段完全相同的检索方式。本实施例中采用精确匹配检索的方式能够保证查找出的待剔除数据与历史轨迹数据的高度匹配。
步骤S602:将所述待剔除数据从所述目标轨迹数据中剔除以获得待封禁数据,对所述待封禁数据进行封禁。
应理解的是,在确定出待剔除数据后,客户端即可将所述待剔除数据从所述目标轨迹数据中剔除以获得待封禁数据,然后对所述待封禁数据进行封禁。
本实施例在检测到存在目标概率分布区域时,根据目标概率分布区域包含的目标概率值从用户轨迹数据中提取对应的目标轨迹数据,从封禁数据库中读取目标概率分布区域对应的已封禁轨迹数据,将已封禁轨迹数据作为历史轨迹数据;采用精确匹配检索从目标轨迹数据中查找与历史轨迹数据对应的待剔除数据;将待剔除数据从目标轨迹数据中剔除以获得待封禁数据,对待封禁数据进行封禁,从而能够将不属于正常轨迹数据的轨迹数据全部查找出来并封禁,有效的查杀了机器伪造的行为数据,提高了信息安全。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有轨迹数据处理程序,所述轨迹数据处理程序被处理器执行时实现如上文所述的轨迹数据处理方法的步骤。
参照图5,图5为本发明轨迹数据处理装置第一实施例的结构框图。
如图5所示,本发明实施例提出的轨迹数据处理装置包括:
数据采集模块501,用于采集用户轨迹数据;
聚类降维模块502,用于采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据;
概率计算模块503,用于计算预设时段内所述低维轨迹数据在低维空间中的概率分布;
区域判断模块504,用于根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;
数据封禁模块505,用于在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据;
所述数据封禁模块505,还用于将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁。
本实施例通过采集用户轨迹数据,采用预设聚类模型对用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维获得低维轨迹数据;计算预设时段内低维轨迹数据在低维空间中的概率分布;根据概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域;在存在目标概率分布区域时,获取目标概率分布区域对应的目标轨迹数据,并读取目标概率分布区域对应的历史轨迹数据;将历史轨迹数据从目标轨迹数据中剔除以获得待封禁数据,并对待封禁数据进行封禁。由于是先对用户轨迹数据进行聚类,然后对聚类后的数据进行降维获得低维轨迹数据,从而能够保证低维轨迹数据的有效性以及准确性,同时通过计算低维轨迹数据的概率分布,然后检测该概率分布中的目标概率分布区域,再提取并封禁目标概率分布区域中的待封禁数据,提高了对机器伪造的行为数据的识别准确度,减少了错判或误判的情况。
基于本发明上述轨迹数据处理装置第一实施例,提出本发明轨迹数据处理装置的第二实施例。
在本实施例中,所述聚类降维模块502,还用于采用预设聚类模型按预设特征维度对所述用户轨迹数据进行聚类,获得所述预设特征维度对应的轨迹特征数据簇;根据所述轨迹特征数据簇建立轨迹特征矩阵;对所述轨迹特征矩阵进行奇异值分解,并根据奇异值分解结果对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵;基于所述目标特征矩阵获得数据降维后的低维轨迹数据。
进一步地,所述聚类降维模块502,还用于对所述轨迹特征矩阵进行奇异值分解,获得奇异值集合;从所述奇异值集合中选取预设数量的目标奇异值,根据所述目标奇异值对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵。
进一步地,所述概率计算模块503,还用于获取预设时段内各低维轨迹数据对应的可取数值,以及各可取数值对应的概率值;根据所述可取数值以及所述概率值,通过预设方程组计算所述低维轨迹数据在低维空间中的概率分布;其中,所述预设方程组为:
其中,xi为任一低维轨迹数据X对应的可取数值,i为可取数值的个数,f(xi)和P(X=xi)为低维轨迹数据X在可取数值为xi时的概率值。
进一步地,所述概率计算模块503,还用于根据所述概率分布确定所述预设时段内各时间节点对应的概率值集合;读取各时间节点对应的预设概率阈值,分别将所述概率值集合中的各概率值与所述预设概率阈值进行比较;根据比较结果判断是否存在概率值高于预设概率阈值的目标概率值;若存在,则判定存在目标概率分布区域,若不存在,则判定不存在目标概率分布区域。
进一步地,所述数据封禁模块505,还用于在存在所述目标概率分布区域时,根据所述目标概率分布区域包含的所述目标概率值从所述用户轨迹数据中提取对应的目标轨迹数据;从封禁数据库中读取所述目标概率分布区域对应的已封禁轨迹数据,将所述已封禁轨迹数据作为历史轨迹数据。
进一步地,所述数据封禁模块505,还用于采用精确匹配检索从所述目标轨迹数据中查找与所述历史轨迹数据对应的待剔除数据;将所述待剔除数据从所述目标轨迹数据中剔除以获得待封禁数据,对所述待封禁数据进行封禁。
本发明轨迹数据处理装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种轨迹数据处理方法,其特征在于,所述方法包括:
采集用户轨迹数据;
采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据;
计算预设时段内所述低维轨迹数据在低维空间中的概率分布,所述预设时段是从用户进行验证操作开始至验证操作结束所对应的时间段;
根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域,所述预设概率阈值为正常概率分布中每一个时间节点对应的概率值中最大的概率值,所述正常概率分布为正常用户轨迹数据计算所得的概率分布;
在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据;
将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁;
其中,所述计算预设时段内所述低维轨迹数据在低维空间中的概率分布的步骤,包括:
获取预设时段内各低维轨迹数据对应的可取数值,以及各可取数值对应的概率值;
根据所述可取数值以及所述概率值,通过预设方程组计算所述低维轨迹数据在低维空间中的概率分布;
其中,所述预设方程组为:
其中,xi为任一低维轨迹数据X对应的可取数值,i为可取数值的个数,f(xi)和P(X=xi)为低维轨迹数据X在可取数值为xi时的概率值。
2.如权利要求1所述的方法,其特征在于,所述采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据的步骤,包括:
采用预设聚类模型按预设特征维度对所述用户轨迹数据进行聚类,获得所述预设特征维度对应的轨迹特征数据簇;
根据所述轨迹特征数据簇建立轨迹特征矩阵;
对所述轨迹特征矩阵进行奇异值分解,并根据奇异值分解结果对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵;
基于所述目标特征矩阵获得数据降维后的低维轨迹数据。
3.如权利要求2所述的方法,其特征在于,所述对所述轨迹特征矩阵进行奇异值分解,并根据奇异值分解结果对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵的步骤,包括:
对所述轨迹特征矩阵进行奇异值分解,获得奇异值集合;
从所述奇异值集合中选取预设数量的目标奇异值,根据所述目标奇异值对所述轨迹特征矩阵进行矩阵重构,获得目标特征矩阵。
4.如权利要求3所述的方法,其特征在于,所述根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域的步骤,包括:
根据所述概率分布确定所述预设时段内各时间节点对应的概率值集合;
读取各时间节点对应的预设概率阈值,分别将所述概率值集合中的各概率值与所述预设概率阈值进行比较;
根据比较结果判断是否存在概率值高于预设概率阈值的目标概率值;
若存在,则判定存在目标概率分布区域,若不存在,则判定不存在目标概率分布区域。
5.如权利要求4所述的方法,其特征在于,所述在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据的步骤,包括:
在存在所述目标概率分布区域时,根据所述目标概率分布区域包含的所述目标概率值从所述用户轨迹数据中提取对应的目标轨迹数据;
从封禁数据库中读取所述目标概率分布区域对应的已封禁轨迹数据,将所述已封禁轨迹数据作为历史轨迹数据。
6.如权利要求5所述的方法,其特征在于,所述将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁的步骤,包括:
采用精确匹配检索从所述目标轨迹数据中查找与所述历史轨迹数据对应的待剔除数据;
将所述待剔除数据从所述目标轨迹数据中剔除以获得待封禁数据,对所述待封禁数据进行封禁。
7.一种轨迹数据处理装置,其特征在于,所述装置包括:
数据采集模块,用于采集用户轨迹数据;
聚类降维模块,用于采用预设聚类模型对所述用户轨迹数据进行聚类,并对聚类后的用户轨迹数据进行数据降维,以获得低维轨迹数据;
概率计算模块,用于计算预设时段内所述低维轨迹数据在低维空间中的概率分布,所述预设时段是从用户进行验证操作开始至验证操作结束所对应的时间段;
区域判断模块,用于根据所述概率分布检测是否存在概率值高于预设概率阈值的目标概率分布区域,所述预设概率阈值为正常概率分布中每一个时间节点对应的概率值中最大的概率值,所述正常概率分布为正常用户轨迹数据计算所得的概率分布;
数据封禁模块,用于在存在所述目标概率分布区域时,获取所述目标概率分布区域对应的目标轨迹数据,并读取所述目标概率分布区域对应的历史轨迹数据;
所述数据封禁模块,还用于将所述历史轨迹数据从所述目标轨迹数据中剔除以获得待封禁数据,并对所述待封禁数据进行封禁;
所述概率计算模块,还用于获取预设时段内各低维轨迹数据对应的可取数值,以及各可取数值对应的概率值;
所述概率计算模块,还用于根据所述可取数值以及所述概率值,通过预设方程组计算所述低维轨迹数据在低维空间中的概率分布;
其中,所述预设方程组为:
其中,xi为任一低维轨迹数据X对应的可取数值,i为可取数值的个数,f(xi)和P(X=xi)为低维轨迹数据X在可取数值为xi时的概率值。
8.一种轨迹数据处理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的轨迹数据处理程序,所述轨迹数据处理程序配置为实现如权利要求1至6中任一项所述的轨迹数据处理方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有轨迹数据处理程序,所述轨迹数据处理程序被处理器执行时实现如权利要求1至6任一项所述的轨迹数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010977.0A CN110795705B (zh) | 2019-10-22 | 2019-10-22 | 轨迹数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010977.0A CN110795705B (zh) | 2019-10-22 | 2019-10-22 | 轨迹数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795705A CN110795705A (zh) | 2020-02-14 |
CN110795705B true CN110795705B (zh) | 2022-07-15 |
Family
ID=69440916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911010977.0A Active CN110795705B (zh) | 2019-10-22 | 2019-10-22 | 轨迹数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795705B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652160A (zh) * | 2020-06-05 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002079942A2 (en) * | 2001-03-29 | 2002-10-10 | Artmecca.Com | System for visual preference determination and predictive product selection |
CN103389966A (zh) * | 2012-05-09 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 一种海量数据的处理、搜索、推荐方法及装置 |
CN103793465B (zh) * | 2013-12-20 | 2018-06-22 | 武汉理工大学 | 基于云计算的海量用户行为实时分析方法及系统 |
CN105354721B (zh) * | 2015-09-29 | 2019-09-06 | 北京金山安全软件有限公司 | 一种识别机器操作行为的方法及装置 |
TWI615730B (zh) * | 2015-11-20 | 2018-02-21 | 財團法人資訊工業策進會 | 以應用層日誌分析為基礎的資安管理系統及其方法 |
CN107622072B (zh) * | 2016-07-15 | 2021-08-17 | 阿里巴巴集团控股有限公司 | 一种针对网页操作行为的识别方法及服务器、终端 |
CN108536851B (zh) * | 2018-04-16 | 2021-04-16 | 武汉大学 | 一种基于移动轨迹相似度比较的用户身份识别方法 |
CN109327439B (zh) * | 2018-09-29 | 2021-04-23 | 武汉极意网络科技有限公司 | 业务请求数据的风险识别方法、装置、存储介质及设备 |
-
2019
- 2019-10-22 CN CN201911010977.0A patent/CN110795705B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110795705A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753800B (zh) | 融合频繁项集与随机森林算法的Android恶意应用检测方法及系统 | |
CN107590388B (zh) | 恶意代码检测方法和装置 | |
CN109271788B (zh) | 一种基于深度学习的Android恶意软件检测方法 | |
CN106951832B (zh) | 一种基于手写字符识别的验证方法及装置 | |
CN105740707B (zh) | 恶意文件的识别方法和装置 | |
WO2019033572A1 (zh) | 人脸遮挡检测方法、装置及存储介质 | |
CN110198464B (zh) | 语音智能播报方法、装置、计算机设备及存储介质 | |
EP2360619A1 (en) | Fast fingerprint searching method and fast fingerprint searching system | |
CN109194689B (zh) | 异常行为识别方法、装置、服务器及存储介质 | |
CN110674479B (zh) | 异常行为数据实时处理方法、装置、设备及存储介质 | |
CN111641588A (zh) | 网页模拟输入检测方法、装置、计算机设备及存储介质 | |
CN109391620B (zh) | 异常行为判定模型的建立方法、系统、服务器及存储介质 | |
CN111191201A (zh) | 基于数据埋点的用户识别方法、装置、设备及存储介质 | |
CN108920953A (zh) | 一种恶意软件检测方法及系统 | |
CN112307994A (zh) | 基于扫地机的障碍物识别方法、电子装置及存储介质 | |
CN111553241A (zh) | 掌纹的误匹配点剔除方法、装置、设备及存储介质 | |
CN110781467A (zh) | 异常业务数据分析方法、装置、设备及存储介质 | |
CN110795705B (zh) | 轨迹数据处理方法、装置、设备及存储介质 | |
Darmet et al. | Disentangling copy-moved source and target areas | |
CN110378119A (zh) | 一种恶意软件检测方法及系统 | |
CN108288053B (zh) | 一种虹膜图像的处理的方法、装置及计算机可读存储介质 | |
CN114048344A (zh) | 一种相似人脸搜索方法、装置、设备和可读存储介质 | |
CN110795980A (zh) | 基于网络视频的逃犯识别方法、设备、存储介质及装置 | |
CN111339317A (zh) | 用户注册识别方法、装置、计算机设备和存储介质 | |
CN115688107A (zh) | 一种涉诈app检测系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |