CN116956051A - 数据真实位置的确定方法、装置及电子设备 - Google Patents
数据真实位置的确定方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116956051A CN116956051A CN202210379198.3A CN202210379198A CN116956051A CN 116956051 A CN116956051 A CN 116956051A CN 202210379198 A CN202210379198 A CN 202210379198A CN 116956051 A CN116956051 A CN 116956051A
- Authority
- CN
- China
- Prior art keywords
- data
- pseudo
- area
- determining
- adjacent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000006185 dispersion Substances 0.000 claims abstract description 41
- 238000004590 computer program Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
本申请涉及数据处理领域,提供一种数据真实位置的确定方法、装置及电子设备。所述方法包括:确定目标数据的定位区域;根据定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;伪位置区域的顶点为边际数据的位置;相邻距离为正常数据与对应的相邻数据之间的距离;相邻数据位于对应的正常数据的相邻领域内;相邻领域以正常数据为圆心,以预设值为半径;在多个正常数据中,边际数据之间的相邻距离的离散度最大;以伪位置区域的中心作为目标数据的真实位置。本申请实施例提供的数据真实位置的确定方法可以排除伪位置对数据位置识别的干扰,提高了数据位置信息的准确度和可靠性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据真实位置的确定方法、装置及电子设备。
背景技术
人们使用各种服务程序的同时,服务提供商会获取并收集用户的位置信息以便为用户推送不同的服务内容。服务内容的精准度取决于用户的位置信息的真实性和准确性。
现有技术中,为了识别数据的真实位置,通常采用如下技术方案:从预设的地理位置数据池中,获取目标对象的多个地理位置数据,其中,每个地理位置数据的数据来源不同;利用预先训练的贝叶斯网络模型计算每个地理位置数据的置信度;根据每个地理位置数据及对应的置信度确定目标对象的真实地理位置。
然而,由于网络中存在的恶意攻击者,其以获取用户的位置信息及目标查询信息为目的,往往其会对自身的真实位置进行伪造形成伪位置信息,这就导致贝叶斯网络模型基于大量的非真实位置的数据进行真实地理位置的确定,对数据位置的识别造成干扰,影响得到的数据真实位置的准确度。
发明内容
本申请实施例提供一种数据真实位置的确定方法、装置及电子设备,用以解决数据位置的识别干扰,数据真实位置定位不准的技术问题。
第一方面,本申请实施例提供一种数据真实位置的确定方法,包括:
确定目标数据的定位区域;所述目标数据具有多个位置信息;
根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
以所述伪位置区域的中心作为所述目标数据的真实位置。
在一个实施例中,所述根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域,包括:
将所述多个正常数据的相邻距离分组,得到多个相邻距离数据组;
计算每组相邻距离数据组的标准方差;
以最大标准方差对应的相邻距离数据组所对应的正常数据作为所述边际数据,得到所述伪位置区域。
在一个实施例中,所述根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域之后,包括:
根据所述伪位置区域确定伪区域面积;
当所述伪区域面积大于或等于预设面积阈值时,根据所述伪位置区域内所有正常数据的相邻距离的离散度更新所述伪位置区域,并返回执行根据所述伪位置区域确定伪区域面积的步骤,直至所述伪区域面积小于预设面积阈值;
当所述伪区域面积小于预设面积阈值时,执行以所述伪位置区域的中心作为所述目标数据的真实位置的步骤。
在一个实施例中,所述确定目标数据的定位区域之前,包括:
根据待处理数据的相似度,在所述待处理数据中确定所述目标数据;所述待处理数据中,所述目标数据与至少一个待处理数据的相似度小于相似度阈值。
在一个实施例中,所述根据待处理数据的相似度,在所述待处理数据中确定所述目标数据,包括:
计算每两个待处理数据的相似度;
当两个待处理数据的相似度小于所述相似度阈值时,所述两个待处理数据作为一组潜在目标数据组;当两个待处理数据的相似度大于或等于所述相似度阈值时,所述两个待处理数据均作为参照数据;
以每组潜在目标数据组中,与任一参照数据的相似度较小的待处理数据为所述目标数据。
在一个实施例中,所述计算每两个待处理数据的相似度,包括:
设置所述待处理数据中访问信息的信息权重;所述访问信息包括:访问内容、访问路径和申请访问位置;所述信息权重包括:访问内容权重、访问路径权重和申请访问位置权重;其中,所述访问路径权重大于所述访问内容权重;
根据所述访问信息和所述信息权重计算每两个待处理数据的相似度。
在一个实施例中,所述根据待处理数据的相似度,在所述待处理数据中确定所述目标数据之前,包括:
将数据采集地区划分为多个位置单元;
根据每个位置单元内的数据密度将所述多个位置单元按照数据密度由大至小进行排序;
按照排序顺序对所述多个位置单元中的数据进行抽样,得到所述待处理数据。
第二方面,本申请实施例提供一种数据真实位置的确定装置,包括:
初定位模块,用于:确定目标数据的定位区域;所述目标数据具有多个位置信息;
伪位置区域确定模块,用于:根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于与对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
真实位置确定模块,用于:以所述伪位置区域的中心作为所述目标数据的真实位置。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的数据真实位置的确定方法的步骤。
第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据真实位置的确定方法的步骤。
本申请实施例提供的数据真实位置的确定方法,通过确定目标数据的定位区域,对目标数据进行初步定位,继而基于该定位区域内多个正常数据与其相邻数据之间的距离,即相邻距离,计算该定位区域内多个正常数据的相邻距离的离散度,以判断该定位区域内正常数据之间的离散程度。由于正常数据的位置信息是唯一的,因此,正常数据的相邻距离的离散度能够表示正常数据的真实分布;而目标数据为了实现较好的干扰效果,其生成的伪位置往往会参考正常数据的真实分布,即目标数据会基于正常数据的真实分布执行伪位置生成的操作,使得掺杂了伪位置后的数据分布趋于均匀以便于隐藏目标数据的真实位置;另外,目标数据中伪位置的伪造过程是以真实位置作为单点位置进行模糊,逐渐扩大为一个远大于单点的区域,该区域包含了多个伪位置,以令真实位置不被发现,使得伪位置呈现放射状包围在真实位置的周围;因此,剔除了目标数据后的数据分布会产生一块数据间离散度明显增大的区域,即伪位置区域,而结合伪位置呈现放射状包围在真实位置的周围的伪位置分布特点,伪位置区域的中心即为目标数据的真实位置,从而排除伪位置对数据位置识别的干扰,提高了数据位置信息的准确度和可靠性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据真实位置的确定方法的流程示意图之一;
图2是本申请实施例提供的数据真实位置的确定方法的流程示意图之二;
图3是本申请实施例提供的目标数据的识别方法的流程示意图;
图4是本申请实施例提供的定位区域的示意图;
图5是本申请实施例提供的位置单元的示意图;
图6是本申请实施例提供的数据真实位置的确定装置的结构示意图;
图7是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的数据真实位置的确定方法的流程示意图之一。参照图1,本申请实施例提供一种数据真实位置的确定方法,可以包括:
S11、确定目标数据的定位区域;
目前,数据定位产生干扰的原因大多为:网络中存在的大量的恶意访问者,其以获取正常访问者的位置信息及查询信息为目标,而恶意访问者会将自身的真实位置进行伪造形成伪位置,进而导致对恶意访问者对应数据进行定位获取时,会产生大量的非真实位置信息。
本申请实施例的目的为获取该类具有多个位置信息的数据的真实位置,即本申请实施例中,目标数据具有多个位置信息。
由于恶意访问者伪造的位置信息需围绕着自身的真实位置进行,难以产生远距离的伪位置,因此,确定目标数据的定位区域后能够将目标数据的真实位置锁定在一个有限范围内,缩小数据处理的工作量。
S12、根据定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;
在本申请实施例中,伪位置区域的顶点为边际数据的位置,边际数据从定位区域内多个正常数据中确定,在多个正常数据中,所述边际数据之间的相邻距离的离散度最大;正常数据区别于目标数据,其指的是位置信息唯一的数据。
在本申请实施例中,相邻距离为正常数据与对应的相邻数据之间的距离;相邻数据位于对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径。
需要说明的是,预设值为根据实际需求预先设定的半径取值,可根据实际情况进行设置,此处不作唯一限定。
由于目标数据为了实现较好的干扰效果,其生成的伪位置时往往会参考正常数据的真实分布,也即是说,目标数据会基于正常数据的真实分布执行伪位置生成的操作,为了便于隐藏目标数据的真实位置,目标数据生成伪位置时往往考虑令掺杂了伪位置后的数据分布趋于均匀,以避免伪位置过于显眼、易于发现,因此,参见图4,当目标数据对应的多个位置信息均被剔除后,正常数据的分布中会形成一块数据间离散度明显增大的区域,即原本为了均衡数据分布而设置伪位置的位置,即伪位置区域。
进一步地,所述定位区域内多个正常数据的相邻距离的离散度可以依据相邻距离的标准方差确定,具体如下:
将所述多个正常数据的相邻距离分组,得到多个相邻距离数据组;
计算每组相邻距离数据组的标准方差;
以最大标准方差对应的相邻距离数据组所对应的正常数据作为所述边际数据,得到所述伪位置区域。
假设定位区域内多个正常数据的位置信息的集合如下:
{A1(X1,Y1),A2(X2,Y2),A3(X3,Y3),…,Ak(Xk,Yk)};
其中,(X1,Y1)为正常数据A1的坐标信息;k为正整数。
计算每一正常数据与其对应的相邻数据之间的相邻距离,其中,以正常数据A1为例,相邻距离的计算公式如下:
其中,Ai表示正常数据A1的相邻数据;L(A1,Ai)表示A1和Ai的相邻距离;
得到每一正常数据与其对应的相邻数据之间的相邻距离后,将得到的相邻距离进行分组,需要说明的是,在实际应用过程中可以按照预设的组数或预设的每组数据数量随机分组,此处不作限定。
按照以下计算公式计算每组相邻距离的标准方差:
其中,σj表示第j组相邻距离的标准方差;表示第j组相邻距离的平均值;L(Ap,Aq)表示第j组中的相邻距离;n表示第j组中的相邻距离的数量。
取σj中的最大值,即最大标准方差,假设其对应第3组相邻距离,则第3组中所有相邻距离对应的正常数据即为边际数据,第3组中所有相邻距离对应的正常数据的坐标信息即为伪位置区域的顶点坐标信息。
S13、以伪位置区域的中心作为目标数据的真实位置。
基于上述分析,根据定位区域内正常数据的相邻距离的离散度,即可确定相邻距离的离散度最大的多个正常数据,即边际数据,根据边际数据可圈定伪位置区域;而由于目标数据中伪位置的伪造过程是以真实位置作为单点位置进行模糊,逐渐扩大为一个远大于单点的区域,该区域包含了多个伪位置,使得伪位置呈现放射状包围在真实位置的周围,因此,根据确定的伪位置区域的中心,即可确定目标数据的真实位置。
在本申请实施例中,当伪位置区域呈对称多边形时,可以以对称中心作为目标数据的真实位置;当伪位置区域呈非对称多边形时,可以以伪位置区域的重心作为目标数据的真实位置。
需要说明的是,上述对于伪位置区域的中心的描述仅是一种示例,在实际应用过程中,还可以采用其他方式确定伪位置区域的中心,例如:以伪位置区域的外接圆圆心或内接圆圆心作为伪位置区域的中心。
本申请实施例提供的数据真实位置的确定方法,通过确定目标数据的定位区域,对目标数据进行初步定位,继而基于该定位区域内多个正常数据与其相邻数据之间的距离,即相邻距离,计算该定位区域内多个正常数据的相邻距离的离散度,以判断该定位区域内正常数据之间的离散程度。由于正常数据的位置信息是唯一的,因此,正常数据的相邻距离的离散度能够表示正常数据的真实分布;而目标数据为了实现较好的干扰效果,其生成的伪位置往往会参考正常数据的真实分布,即目标数据会基于正常数据的真实分布执行伪位置生成的操作,使得掺杂了伪位置后的数据分布趋于均匀以便于隐藏目标数据的真实位置;另外,目标数据中伪位置的伪造过程是以真实位置作为单点位置进行模糊,逐渐扩大为一个远大于单点的区域,该区域包含了多个伪位置,以令真实位置不被发现,使得伪位置呈现放射状包围在真实位置的周围;因此,剔除了目标数据后的数据分布会产生一块数据间离散度明显增大的区域,即伪位置区域,而结合伪位置呈现放射状包围在真实位置的周围的伪位置分布特点,伪位置区域的中心即为目标数据的真实位置,从而排除伪位置对数据位置识别的干扰,提高了数据位置信息的准确度和可靠性。
基于上述提供的数据真实位置的确定方法,本申请实施例在确定伪位置区域之后,还需考虑确定的伪位置区域是否足够精确,若伪位置范围过大,则会影响步骤S13中确定的目标数据真实位置的精准度,因此,参见图2,本申请实施例还提供了一种数据真实位置的确定方法,具体步骤如下:
S21、确定目标数据的定位区域;
在本申请实施例中,步骤S21的内容与步骤S11一致,此处不再赘述。
S22、根据定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;
在本申请实施例中,步骤S22的内容与步骤S12一致,此处不再赘述。
S23、根据伪位置区域确定伪区域面积;
在本申请实施例中,伪区域面积可以根据边际数据的坐标信息进行计算。
假设边际数据的坐标信息如下:
A1(X1,Y1),A2(X2,Y2),…,Am(Xm,Ym);
则伪区域面积S的计算公式如下:
其中,Xm+1=X1,Ym+1=Y1。
需要说明的是,当伪位置区域为三角形时,还可以采用海伦公式求取伪区域面积;当伪位置区域为四边形时,还可以采用四边形面积公式:其中,a和b分别为四边形两条对角边长度,θ表示四边形两条对角边的夹角。
可以理解的是,本申请实施例中伪区域面积的计算方式并不唯一,可以根据实际情况采用不同的面积计算公式计算得到,上述对于伪区域面积的计算过程的描述不作为对本发明的唯一限定。
S24、判断伪区域面积是否小于预设面积阈值;
若是,则执行步骤S25后结束;
若否,则执行步骤S26后返回执行步骤S22;
在本申请实施例中,预先设置了一个预设面积阈值,当伪区域面积小于预设面积阈值时,表示目标数据位于伪位置区域内且确定的伪位置区域范围足够精确;
当伪区域面积大于或等于预设面积阈值时,表示目标数据位于所述伪位置区域内,但是确定的伪位置区域范围过大,还需要进一步定位,因此,以当前确定的伪位置区域作为定位区域,再次根据定位区域内的多个正常数据的相邻距离的离散度确定伪位置区域,即根据所述伪位置区域内所有正常数据的相邻距离的离散度对伪位置区域进行更新,并基于更新后的伪位置区域再次对伪区域面积进行判定,直至伪区域面积小于预设面积阈值。
S25、以伪位置区域的中心作为目标数据的真实位置。
在本申请实施例中,步骤S25的内容与步骤S13一致,此处不再赘述。
S26、以当前伪位置区域作为定位区域。
本申请实施例提供的数据真实位置的确定方法,在确定伪位置区域后,基于伪位置区域的伪区域面积与预设面积阈值的比较结果,判定伪位置区域的范围是否足够精细,当伪区域面积小于预设面积阈值,确定目标数据位于伪位置区域内且确定的伪位置区域范围足够精确后,方才确定伪位置区域的中心,以此保证初步定位的准确度,以提高最终得到的目标数据的真实位置的精准度和可靠性。
进一步地,在确定目标数据的真实位置之前,需确定访问者中是否存在恶意访问者,即需在待处理数据中确定目标数据。图3为本申请实施例提供的目标数据的识别方法的流程示意图,参见图3,本申请实施例提供了一种目标数据的识别方法,其实施于上述实施例中确定目标数据的定位区域的步骤之前,根据待处理数据的相似度在待处理数据中确定目标数据,具体步骤如下:
S31、计算每两个待处理数据的相似度;
示例性的:
获取待处理数据在访问高峰期的访问日志,遍历所有访问日志,并抽取部分的用户信息,根据抽取的用户信息计算每两个待处理数据的相似度;其中,用户信息可以包括但不限于:用户的兴趣点和用户的真实位置。兴趣点可通过用户发送请求中的查询内容和访问路径分析得到。
针对不同的应用场景,用户的访问高峰期是有差异的,访问高峰期的用户发送请求频繁,恶意访问者也更容易在这个时间段进行访问和隐藏,也即是说,获取待处理数据在访问高峰期的访问日志,能够得到足量的正常数据,发现目标数据的概率也更大。
虽然恶意访问者会对自身的位置信息进行伪造,但基于恶意访问者和正常访问者其访问目的上的差异,导致从访问内容以及访问位置等内容上恶意访问者必然会与正常访问者存在差异,因此,通过访问日志中的用户信息能够计算数据之间的相似度,进而将存在差异的访问者,即目标数据,筛选出来。
进一步地,计算每两个待处理数据的相似度的过程中,设置所述待处理数据中访问信息的信息权重;根据所述访问信息和所述信息权重计算每两个待处理数据的相似度。
其中,访问信息包括:访问内容、访问路径和申请访问位置;对应的,信息权重包括:访问内容权重、访问路径权重和申请访问位置权重;其中,访问路径权重大于访问内容权重。
进一步地,在实际应用过程中,若对所有数据均进行对比,计算量大,分析效率低。因此,为了提高分析效率,在本申请实施例中,还可通过抽样的方式抽取部分数据进行分析。该过程中可以设置每次抽取数据数量,或通过设置预设抽取比例来确定抽取数据数量。
本申请实施例提出了一种基于位置单元及访问概率的待处理数据的抽取方法,具体过程如下:
在根据待处理数据的相似度从待处理数据中确定目标数据之前,将数据采集地区划分为多个位置单元;根据每个位置单元内的数据密度将所述多个位置单元按照数据密度由大至小进行排序;按照排序顺序对所述多个位置单元中的数据进行抽样,得到所述待处理数据。
其中,数据密度为每个位置单元中数据量与数据采集地区中数据总量的比例,其代表了该位置单元发送访问请求的可能性,即访问概率。例如,在城市热门商圈发送访问请求的可能性高于郊区发送请求的可能性,因此,抽取城市热门商圈内的数据能够识别到恶意访问者的概率更高。
需要说明的是,实际应用过程中,访问概率还可以在获取位置地图的背景信息获取得到,访问概率通常能够根据道路密度和人口分布分析估计,还可以通过第三方收集到的历史访问概率进行确定。
在实际应用过程中,可以通过对每个位置单元进行编号,对多个位置单元进行排序后,形成具有顺序的编号串,抽取数据时,按照编号串至对应的位置单元中抽取数据,在排序在先的位置单元中的所有数据均抽取后方才抽取下一个位置单元中的数据。
参见图5,还可以通过每个位置单元的阴影代表该位置单元的数据密度,数据密度高的位置单元的阴影程度深于数据密度低的位置单元,在进行数据抽取时,识别每个位置单元的灰度值,从灰度值为0的位置单元开始抽取数据,抽取顺序参照灰度值由小至大的顺序。
S32、根据相似度与相似度阈值的比较结果区分潜在目标数据组和参照数据;
在本申请实施例中,当两个待处理数据的相似度小于相似度阈值时,所述两个待处理数据作为一组潜在目标数据组,即所述两个待处理数据中存在目标数据;当两个待处理数据的相似度大于或等于所述相似度阈值时,所述两个待处理数据均作为参照数据。
S33、以每组潜在目标数据组中,与任一参照数据的相似度较小的待处理数据为目标数据。
当两个待处理数据的相似度小于相似度阈值时,说明两者的访问日志存在较大差异,即两者分别为目标数据和正常数据,将两者分别与通过相似度对比的参照数据进行二次比较,由于参照数据在相似度对比中被判定为正常数据,因此,与参照数据相似度较大的为正常数据,较小的为目标数据。
需要说明的是,上述提供了一种基于相似度对比的目标数据识别方法,在实际应用过程中,也可以通过差异度对目标数据进行筛选,例如:在相似度对比中,正常数据之间的相似度较大,正常数据与目标数据之间的相似度较低,小于相似度阈值即说明存在目标数据和正常数据;相应地,在差异度对比中,正常数据之间的差异度较小,正常数据与目标数据之间的差异度较大,因此,大于差异度阈值的两个待处理数据即可认定分别为正常数据和目标数据。
本申请实施例提供了一种目标数据的识别方法,其利用了目标数据和正常数据访问目的不同的特点,通过计算两两待处理数据之间的相似度,筛选出潜在目标数据组以及参照数据,并基于参照数据对潜在目标数据组中的数据进行相似度对比,以区分潜在目标数据组中的目标数据和正常数据,尤其是数据对应访问日志中的访问内容、访问路径和申请访问位置,对于目标数据和正常数据而言,由于其访问目的的不同,在上述三个访问信息能够体现出较大差异,因此,基于上述访问信息能够准确计算待处理数据的相似度,进而精准将目标数据从待处理数据中识别出来。
下面对本申请实施例提供的数据真实位置的确定装置进行描述,下文描述的数据真实位置的确定装置与上文描述的数据真实位置的确定方法可相互对应参照。
图6为本申请实施例提供的数据真实位置的确定装置的结构示意图,参见图6,本申请实施例提供的数据真实位置的确定装置,包括:
初定位模块,用于:确定目标数据的定位区域;所述目标数据具有多个位置信息;
伪位置区域确定模块,用于:根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于与对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
真实位置确定模块,用于:以所述伪位置区域的中心作为所述目标数据的真实位置。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communication Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的计算机程序,以执行数据真实位置的确定方法的步骤,例如包括:
确定目标数据的定位区域;所述目标数据具有多个位置信息;
根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
以所述伪位置区域的中心作为所述目标数据的真实位置。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的数据真实位置的确定方法的步骤,例如包括:
确定目标数据的定位区域;所述目标数据具有多个位置信息;
根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
以所述伪位置区域的中心作为所述目标数据的真实位置。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤,例如包括:
确定目标数据的定位区域;所述目标数据具有多个位置信息;
根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
以所述伪位置区域的中心作为所述目标数据的真实位置。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种数据真实位置的确定方法,其特征在于,包括:
确定目标数据的定位区域;所述目标数据具有多个位置信息;
根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
以所述伪位置区域的中心作为所述目标数据的真实位置。
2.根据权利要求1所述的数据真实位置的确定方法,其特征在于,所述根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域,包括:
将所述多个正常数据的相邻距离分组,得到多个相邻距离数据组;
计算每组相邻距离数据组的标准方差;
以最大标准方差对应的相邻距离数据组所对应的正常数据作为所述边际数据,得到所述伪位置区域。
3.根据权利要求1所述的数据真实位置的确定方法,其特征在于,所述根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域之后,包括:
根据所述伪位置区域确定伪区域面积;
当所述伪区域面积大于或等于预设面积阈值时,根据所述伪位置区域内所有正常数据的相邻距离的离散度更新所述伪位置区域,并返回执行根据所述伪位置区域确定伪区域面积的步骤,直至所述伪区域面积小于预设面积阈值;
当所述伪区域面积小于预设面积阈值时,执行以所述伪位置区域的中心作为所述目标数据的真实位置的步骤。
4.根据权利要求1所述的数据真实位置的确定方法,其特征在于,所述确定目标数据的定位区域之前,包括:
根据待处理数据的相似度,在所述待处理数据中确定所述目标数据;所述待处理数据中,所述目标数据与至少一个待处理数据的相似度小于相似度阈值。
5.根据权利要求4所述的数据真实位置的确定方法,其特征在于,所述根据待处理数据的相似度,在所述待处理数据中确定所述目标数据,包括:
计算每两个待处理数据的相似度;
当两个待处理数据的相似度小于所述相似度阈值时,所述两个待处理数据作为一组潜在目标数据组;当两个待处理数据的相似度大于或等于所述相似度阈值时,所述两个待处理数据均作为参照数据;
以每组潜在目标数据组中,与任一参照数据的相似度较小的待处理数据为所述目标数据。
6.根据权利要求5所述的数据真实位置的确定方法,其特征在于,所述计算每两个待处理数据的相似度,包括:
设置所述待处理数据中访问信息的信息权重;所述访问信息包括:访问内容、访问路径和申请访问位置;所述信息权重包括:访问内容权重、访问路径权重和申请访问位置权重;其中,所述访问路径权重大于所述访问内容权重;
根据所述访问信息和所述信息权重计算每两个待处理数据的相似度。
7.根据权利要求4所述的数据真实位置的确定方法,其特征在于,所述根据待处理数据的相似度,在所述待处理数据中确定所述目标数据之前,包括:
将数据采集地区划分为多个位置单元;
根据每个位置单元内的数据密度将所述多个位置单元按照数据密度由大至小进行排序;
按照排序顺序对所述多个位置单元中的数据进行抽样,得到所述待处理数据。
8.一种数据真实位置的确定装置,其特征在于,包括:
初定位模块,用于:确定目标数据的定位区域;所述目标数据具有多个位置信息;
伪位置区域确定模块,用于:根据所述定位区域内多个正常数据的相邻距离的离散度确定伪位置区域;所述伪位置区域的顶点为边际数据的位置;所述相邻距离为所述正常数据与对应的相邻数据之间的距离;所述相邻数据位于与对应的正常数据的相邻领域内;所述相邻领域以正常数据为圆心,以预设值为半径;在所述多个正常数据中,所述边际数据之间的相邻距离的离散度最大;所述正常数据的位置信息唯一;
真实位置确定模块,用于:以所述伪位置区域的中心作为所述目标数据的真实位置。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的数据真实位置的确定方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的数据真实位置的确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379198.3A CN116956051A (zh) | 2022-04-12 | 2022-04-12 | 数据真实位置的确定方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379198.3A CN116956051A (zh) | 2022-04-12 | 2022-04-12 | 数据真实位置的确定方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116956051A true CN116956051A (zh) | 2023-10-27 |
Family
ID=88447814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210379198.3A Pending CN116956051A (zh) | 2022-04-12 | 2022-04-12 | 数据真实位置的确定方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956051A (zh) |
-
2022
- 2022-04-12 CN CN202210379198.3A patent/CN116956051A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681936B (zh) | 一种基于模块度和平衡标签传播的欺诈团伙识别方法 | |
CN105787104B (zh) | 用户属性信息的获取方法和装置 | |
US20170300919A1 (en) | Transaction risk detection method and apparatus | |
CN107423613B (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
CN110033302B (zh) | 恶意账户识别方法及装置 | |
CN110166344B (zh) | 一种身份标识识别方法、装置以及相关设备 | |
CN109787961B (zh) | 虚假流量的识别方法及装置、存储介质、服务器 | |
WO2016127880A1 (zh) | 一种确定离线定位数据质量的方法和装置 | |
CN111753642B (zh) | 一种确定关键帧的方法及装置 | |
US11412063B2 (en) | Method and apparatus for setting mobile device identifier | |
CN106327236B (zh) | 一种确定用户行动轨迹的方法及装置 | |
CN116127337B (zh) | 基于位置和图像的风险挖掘方法、装置、存储介质及设备 | |
CN112699842A (zh) | 宠物识别方法、装置、设备及计算机可读存储介质 | |
CN116956051A (zh) | 数据真实位置的确定方法、装置及电子设备 | |
CN109992960B (zh) | 一种伪造参数检测方法、装置、电子设备及存储介质 | |
CN112052337A (zh) | 基于时空关联的目标关系探测方法、系统及存储介质 | |
CN109587248B (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN108984773B (zh) | 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备 | |
CN110717817A (zh) | 贷前审核方法及装置、电子设备和计算机可读存储介质 | |
CN116366603A (zh) | 一种活跃IPv6地址的确定方法及装置 | |
CN111382628B (zh) | 同行判定方法及装置 | |
CN112116378A (zh) | 作弊概率确定方法、装置、电子设备及存储介质 | |
CN115115843B (zh) | 数据处理方法及装置 | |
JP2022554041A (ja) | Ip位置特定方法および装置、コンピュータ記憶媒体、計算装置 | |
CN114022089B (zh) | 一种配送禁入区域识别方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |