CN110825924B - 一种数据检测方法、装置及存储介质 - Google Patents
一种数据检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110825924B CN110825924B CN201911063155.9A CN201911063155A CN110825924B CN 110825924 B CN110825924 B CN 110825924B CN 201911063155 A CN201911063155 A CN 201911063155A CN 110825924 B CN110825924 B CN 110825924B
- Authority
- CN
- China
- Prior art keywords
- character string
- data
- concentration
- character strings
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种数据检测方法,用于移动通信领域。具体包括:终端获取字符串集合,所述字符串集合包括t条N位的等长字符串;所述终端获取所述等长字符串的前i位字符,得到t条目标字符串;所述终端分别统计所述目标字符串中的相同字符串对应的条数;所述终端根据所述相同字符串对应的条数,计算集中度数据;所述终端将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常,本申请实施例可以利用等长字符串集合中,每个字符串的前几位字符的集中程度,来判断该等长字符串集合是否存在异常状态。
Description
技术领域
本申请实施例涉及移动通信领域,特别涉及一种数据检测方法、装置及存储介质。
背景技术
在信息社会中,字符串序列往往是最常用的标识方式,比如手机号是手机终端的标识,银行卡号是账户的标识,车牌号是车辆的标识等,一个字符串对应一个用户,该字符串对应该用户的全部信息。通常,在风险控制业务场景下,需要对用户的大量等长字符串信息(通讯录、通话记录、银行卡、信用卡卡号等)进行分析,判断其是否存在异常。
通常情况下,使用监督对比的方式来进行异常判断,例如,在判断用户的通讯录是否存在异常时,需要对用户通信录中的每个电话号码进行识别,发现电话号码是否存在异常特征,例如是否有大量空号,是否有大量电话号码被标记为骚扰电话等,进而判断出该用户是否存在异常。
现有技术中,由于需要对等长字符串逐一进行对比,且判断异常状态时,一般还需要借助外部标签,比如骚扰电话标记、空号标记等来进行判断,当无法获取到外部标签时,就不能确定异常状态,因此该分析方法局限大,适用范围小。
发明内容
本申请实施例提供了一种数据检测方法、装置及存储介质,旨在判断等长字符串集合是否存在异常状态。
本申请实施例第一方面提供了一种数据检测方法,包括:
终端获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;
所述终端获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;
所述终端分别统计所述目标字符串中的相同字符串对应的条数;
所述终端根据所述相同字符串对应的条数,计算集中度数据;
所述终端将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常。
基于本申请实施例第一方面,本申请实施例第一方面的第一种实施方式中,所述数据检测方法还包括:
所述终端对所述i依次进行k次取值,得到k组所述t条目标字符串,其中,k为不小于2的自然数;
所述终端分别对每组所述目标字符串计算所述集中度数据,得到k个目标集中度数据。
基于本申请实施例第一方面的第一种实施方式,本申请实施例第一方面的第二种实施方式中,所述终端根据所述相同字符串对应的条数,计算集中度数据,包括:
其中,N-centralization表示所述集中度数据,m表示所述目标字符串中有m种所述相同字符串,n表示所述相同字符串对应的条数。
本申请实施例第二方面提供了一种数据检测方法,包括:
服务器接收终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;
所述服务器判断所述集中度数据是否在预设范围之外;
若在所述预设范围之外,则所述服务器确定所述等长字符串异常。
基于本申请实施例第二方面,本申请实施例第二方面的第一种实施方式中,所述集中度数据包括依次对所述i进行k次取值后,得到的k个目标集中度数据;所述预设范围包括k个目标范围,其中所述k为不小于2的自然数;
所述服务器判断所述集中度数据是否在预设范围之外,包括:
所述服务器依次判断所述目标集中度数据是否在所述目标范围之外;
所述若在所述预设范围之外,则所述服务器确定所述等长字符串异常,包括:
当所述目标集中度数据全部在所述目标范围之外时,所述服务器确定所述等长字符串异常。
基于本申请实施例第二方面的第一种实施方式,本申请实施例第二方面的第二种实施方式中,所述方法还包括:
所述服务器判断第n个所述目标集中度数据是否小于第n-1个所述目标集中度数据,其中,所述n为不大于k且不小于2的自然数;
若不小于,则所述服务器确定所述等长字符串异常。
本申请实施例第三方面提供了一种数据检测装置,包括:
第一获取单元,用于获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;
第二获取单元,用于获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;
统计单元,用于分别统计所述目标字符串中的相同字符串对应的条数;
计算单元,用于根据所述相同字符串对应的条数,计算集中度数据;
发送单元,用于将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常。
本申请实施例第四方面提供了一种数据检测装置,包括:
接收单元,用于接收终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;
判断单元,用于判断所述集中度数据是否在预设范围之外;
确定单元,用于当所述判断单元判断结果为在所述预设范围之外时,确定所述等长字符串异常。
本申请实施例第五方面提供了一种数据检测服务器,包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述总线分别连接所述处理器、存储器以及输入输出设备相连;
所述输入输出设备用于终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;
所述存储器中存储有预设范围;
所述处理器用于根据所述集中度数据,从所述存储器中获取所述预设范围,判断所述集中度数据是否在预设范围之外;若在所述预设范围之外,则所述服务器确定所述等长字符串异常。
本申请实施例第六方面提供了一种计算机存储介质,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至3或4至6中任一项所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
使用本发明,可以利用等长字符串集合中每个字符串的前几位字符的集中程度,来判断该等长字符串集合是否存在异常状态。由于通讯录、信用卡卡号等字符串应该是随机的字符序列,所以当这些字符序列的前几位字符的集中度过高时,就意味着这些字符序列的相似度高,与随机这一特性相违背,可以直接判断出该等长字符串集合为异常状态;这样,无需对等长字符串集合中的每个字符串进行对比分析,也无需借助外部标签来进行判断,而是直接对字符串的字符本身进行分析,适用情况更广,局限性更小。
附图说明
图1为本申请实施例提供的数据检测方法的一个流程示意图;
图2为本申请实施例提供的数据检测方法的另一个流程示意图;
图3为本申请实施例提供的数据检测方法的一个信令流程图;
图4为本申请实施例提供的数据检测装置的一个结构示意图;
图5为本申请实施例提供的数据检测装置的另一个结构示意图;
图6为本申请实施例提供的数据检测服务器的另一结构示意图。
具体实施方式
本申请实施例提供了一种数据检测方法及装置、存储介质,用于判断等长字符串集合是否存在异常状态。
请参阅图1,本申请实施例中程序监测方法的一个实施例包括:
步骤101、终端获取字符串集合。
其中,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数。
在本实施例中,该等长字符串可以是用户的通话记录、用户的邮箱收件人列表、银行卡号列表清单、目的IP地址列表等代表特定标识的字符串集合。这些字符串一般的都具有随机但等长的特性,例如某一用户的通信录,电话号码都为11位的数字序列,由于每一个电话号码都对应一个特定的联系人,所以一般的,即使数位相同,电话号码也会呈现出随机性。这样的特性也适用于银行卡号,例如,某一业务员管理的账号集合,其账户对应的银行卡号也应该是随机的,而且随着位数的增加,数字重复率也会越来越低。
步骤102、终端获取所述等长字符串的前i位字符,得到t条目标字符串。
在一个具体的实施方式中,示例性的,终端可以获取某一用户某一时间段内的通话记录,该字符串集合就为该通话记录对应的全部电话号码,然后可以给i取值为6,即获取全部号码的前6位数字,得到目标字符串。例如,获取到某一用户某一时间段的通话记录为:{1392370****、1867670****、1392378****、1831213****、1831216****、1583694****};然后获取每一个电话号码的前6位数字,得到每一个电话号码对应的目标字符串139237、186767、139237、183121、183121、158369。
其中,i为不大于所述N的自然数,其可以根据实际大小的需要进行取值,即目标字符串的长度不大于原字符串的长度即可。
步骤103、终端分别统计所述目标字符串中的相同字符串对应的条数。
在本实施例中,终端需要对目标字符串中相同字符串的条数进行统计,即将目标字符串进行分类,将相同的字符串进行归类,然后对其条数进行统计。示例性的,在步骤102的例子中,对其目标字符串进行统计得到如图所示的统计列表:
目标字符串 | 条数 |
139237 | 2 |
186767 | 1 |
183121 | 2 |
158369 | 1 |
步骤104、终端根据所述相同字符串对应的条数,计算集中度数据。
在本实施例中,根据上述列表中统计的每个相同字符串对应的条数,来计算集中度数据,集中度数据是用来表示字符串的集中程度,从目标字符串的集中程度可以看出原字符串的相似程度,从而判断出原字符串的随机性大小,当集中程度高时,说明原字符串的随机性低,从而可以判断出该字符串集合存在异常,当集中程度低时,说明原字符串的随机性高,则该字符串集合正常。
示例性的,根据某一用户的银行流水,计算其全部转账记录的银行卡号的集中度数据,当集中度很高时,说明该银行账户只向固定账户消费,这个信息可以为签证等工作带来参考依据。
步骤105、终端将所述集中度数据发送至服务器。
当终端计算好集中度数据后,将该集中度数据发送至服务器,服务器就可以根据该集中度数据来判断原字符串集合是否存在异常。
使用本实施例,可以根据字符串集合本身的字符特性,计算出其前i位字符的集中程度,然后通过该集中程度判断出原字符串集合的随机性,为服务器判断字符串集合本身是否存在异常提供依据,而不需要借助外部标签进行对比,因此适用范围更广,操作更简洁。
请参阅图2,本申请实施例中程序监测方法的另一个实施例包括:
步骤201、服务器接收终端发送的集中度数据。
其中,集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数。
示例性的,终端可以计算等长字符串集合的集中度数据,该等长字符串集合中包含多个N位等长字符串,然后将集中度数据发送给对应的服务器。其中,集中度数据的计算方法参考实施例一,在此不再赘述。
可选的,服务器可以触发集中度数据请求指令,向终端请求集中度数据,也可以接收终端触发的集中度发送指令,具体形式不做限定。
步骤202、服务器判断所述集中度数据是否在预设范围之外;若判断结果为是,则执行步骤203,若判断结果为否,则执行步骤204。
服务器预先可以根据大数据来预设一个正常值范围,判断终端发送的集中度数据是否在该范围之外。
步骤203、所述服务器确定所述等长字符串异常。
由于预设范围为正常值范围,所以要是在预设范围之外,则可以说明该集中度数据过高或者过低,因此可以判断该集中度数据对应的等长字符串出现异常。
步骤204、所述服务器确定所述等长字符串正常。
使用该实施例,服务器可以直接根据终端计算的集中度数据来进行字符串集合的异常判断,而无需借助外部标签或者服务器本身来进行判断,这样可以减轻服务器的计算负荷,提高了效率。
请参阅图3,本申请实施例中业务处理方法另一实施例包括:
步骤301、终端获取字符串集合。
终端获取等长字符串集合,该等长字符串集合至少包含两个字符串,且字符串的长度不小于3;例如,获取到的字符串集合为:{ABCDEFGHIJK、ABCDFEHGIJK、ABCGFEHGIJK、ABCGFKHGIJK、ABCGFEAGIJK、ABCGFEAGIJK}。
步骤302、终端对i依次进行k次取值。
其中,k为不小于2的自然数,示例性的,终端可以对i进行4次取值,从3依次取值到6;i的值可以从1开始取值,也可以从任意数值开始取值,具体不做限制;取值间隔也可以自行定义,间隔可以是1,也可以是3,前后两次取值间隔可以相同也可以不同,具体不做限制。
步骤303、终端分别获取等长字符串的前i位字符,得到k组目标字符串。
示例性的,在步骤S301和S302的例子中,可以得到4组目标字符串;具体的,第一组目标字符串为:ABC、ABC、ABC、ABC、ABC、ABC;第二组目标字符串为ABCD、ABCD、ABCG、ABCG、ABCG、ABCG;第三组目标字符串为ABCDE、ABCDF、ABCGF、ABCGF、ABCGF、ABCGF;第四组目标字符串为ABCDEF、ABCDFE、ABCGFE、ABCGFK、ABCGFE、ABCGFE。
步骤304、终端分别对每组目标字符串计算集中度数据,得到k个目标集中度数据。
其中,N-centralization表示所述集中度数据,m表示所述目标字符串中有m种所述相同字符串,n表示所述相同字符串对应的条数。
示例性的,在步骤303的例子中,第一组目标字符串的统计结果为:一种相同字符串ABC,对应的条数为6;带入上述公式,得到第一个集中度数据为1;
第二组目标字符串的统计结果为:两种相同字符串,ABCD对应的条数为2,ABCG对应的条数为4;带入上述公式,得到第二个集中度数据为(2/6)^2+(4/6)^2=0。56;
第三组目标字符串的统计结果为:三种相同字符串,ABCDE对应的条数为1,ABCDF对应的条数为1,ABCGF对应的条数为4;带入上述公式,得到第三个集中度数据为(4/6)^2+(1/6)^2+(1/6)^2=0。5;
第四组目标字符串的统计结果为:四种相同字符串,ABCDEF对应的条数为1,ABCDFE对应的条数为1,ABCGFE对应的条数为3,ABCGFK对应的条数为1;带入上述公式,得到第四个集中度数据为(1/6)^2+(1/6)^2+(3/6)^2+(1/6)^2=0。33。
可以理解的,上述公式并不是唯一的计算公式,可选的,可以改变次幂的大小,即本实施方式是以分部占比的平方和来计算的,在实际运算过程中,也可以利用立方和来计算,具体不做限定;同时,也可以根据其他方式来计算集中度,比如根据相同字符串条数的加权平均值来进行集中度数据的计算,只要能反应数据的集中程度即可,具体不做限定。
步骤305、终端向服务器发送k个目标集中度数据。
在上述例子中,就可以将目标集中度数据1、0。56、0。5、0。33发送给服务器。
步骤306、服务器依次判断k个目标集中度数据是否在预设范围之外。
可以理解的,该预设范围可以是针对每一个目标集中度数据设置的k个目标范围,服务器需要依次判断每一个目标集中度数据是否在对应的目标范围之外。
例如,服务器获取的第一目标范围为[0。7,0。8],第二目标范围为[0。45,0。5]、第三目标范围[0。4,0。45]、第四目标范围为[0。25,0。3];然后将目标集中度数据分别与其目标范围进行对比,确定都在预设范围之外。
可选的,服务器还可以确定每一个目标集中度数据对应的最大值上限,只要每一个目标集中度数据都比集合中对应的元素低即可。
例如,服务器确定的最大值为{0。22、0。16、0。16、0、16},然后对比目标集中度数据每一个都比其最大值高,则确定每一个目标集中度数据都在对应的预设范围之外。
其中,预设范围的确定可以根据大数据统计来确定,例如服务器可以导入多个正常用户的同一属性的字符串集合,然后根据上述集中度数据模型来计算多个集中度数据,一般性的,前i位的集中度数据呈正态分布,如果平均数为nc_avg,标准差为δ,则可以确定预设范围为[nc_avg-n*δ,nc_avg+n*δ];当然也可以根据实际需求来进行范围的划分,具体不做限定。
步骤307、当所述目标集中度数据全部在所述目标范围之外时,所述服务器确定所述等长字符串异常。
当目标集中度数据全部在目标范围之外时,说明原字符串的集中程度过高或者过低,则确定其字符串集合整体出现异常,存在风险。
可选的,服务器还可以判断第n个所述目标集中度数据是否小于第n-1个所述目标集中度数据,其中,所述n为不大于k且不小于2的自然数;若不小于,则所述服务器判断所述等长字符串异常。
由于字符串集合的随机性,随着取数位数的增长,重复率应该呈现越来越低的趋势,集中程度应该越来越低,随之目标集中度数据也应该越来越低,如果不小于,则说明等长字符串出现异常。
使用本实施例,可以利用等长字符串集合中,每个字符串的前几位字符的集中度,来判断该等长字符串集合是否存在异常状态。由于通讯录、信用卡卡号等字符串应该是随机的字符序列,所以当这些字符序列的前几位字符的集中度过高时,就意味着这些字符序列的相似度高,与随机这一特性相违背,可以直接判断出该等长字符串集合为异常状态;这样,无需对等长字符串集合中的每个字符串进行对比分析,也无需借助外部标签来进行判断,而是直接对字符串的字符本身进行分析,适用情况更广,局限性更小。
上面对本申请实施例中的数据检测方法进行了描述,下面对本申请实施例中的数据检测装置进行描述,请参阅图4,本申请实施例中数据检测装置一个实施例包括:
第一获取单元401,用于获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数。
第二获取单元402,用于获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数。
统计单元403,用于分别统计所述目标字符串中的相同字符串对应的条数。
计算单元404,用于根据所述相同字符串对应的条数,计算集中度数据。
发送单元405,用于将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常。
使用本实施例,计算单元404可以根据字符串集合本身的字符特性,计算出其前i位字符的集中程度,然后通过该集中程度判断出原字符串集合的随机性,为服务器判断字符串集合本身是否存在异常提供依据,而不需要借助外部标签进行对比,因此适用范围更广,操作更简洁。
在一个可选的实施方式中,所述第二获取单元402还用于对所述i依次进行k次取值,得到k组所述t条目标字符串,其中,k为不小于2的自然数;所述计算单元404还用于分别对每组所述目标字符串计算所述集中度数据,得到k个目标集中度数据。
其中,N-centralization表示所述集中度数据,m表示所述目标字符串中有m种所述相同字符串,n表示所述相同字符串对应的条数。
请参阅图5,本申请实施例中数据检测装置一个实施例包括:
接收单元501,用于接收终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;
判断单元502,用于判断所述集中度数据是否在预设范围之外;
确定单元503,用于当所述判断单元判断结果为在所述预设范围之外时,确定所述等长字符串异常。
在一个可选的实施方式中,所述集中度数据包括依次对所述i进行k次取值后,得到的k个目标集中度数据;所述预设范围包括k个目标范围,其中所述k为不小于2的自然数;所述判断单元502具体用于依次判断所述目标集中度数据是否在所述目标范围之外,所述确定单元503具体用于当所述判断单元502判断结果为是时,所述服务器确定所述等长字符串异常。
在一个可选的实施方式中,所述判断单元502还用于判断第n个所述目标集中度数据是否小于第n-1个所述目标集中度数据,其中,所述n为不大于k且不小于2的自然数;所述确定单元503还用于当所述判断单元502判断结果为不小于时,确定所述等长字符串异常。
本申请实施例还提供了一种数据检测服务器,包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述总线分别连接所述处理器、存储器以及输入输出设备相连;
所述输入输出设备用于终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;
所述存储器中存储有预设范围;
所述处理器用于根据所述集中度数据,从所述存储器中获取所述预设范围,判断所述集中度数据是否在预设范围之外;若在所述预设范围之外,则所述服务器确定所述等长字符串异常。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至3或4至6中任一项所述的方法。
下面对本申请实施例中的数据检测服务器进行描述,请参阅图6,本申请实施例中业务服务器一个实施例包括:
该业务服务器600可以包括一个或一个以上中央处理器(central processingunits,CPU)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括对业务服务器中的一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在业务服务器600上执行存储器605中的一系列指令操作。
业务服务器600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器601可以执行前述图2至图3所示实施例中业务服务器所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (9)
1.一种数据检测方法,其特征在于,所述方法包括:
终端获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;
所述终端获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;
所述终端分别统计所述目标字符串中的相同字符串对应的条数;
所述终端根据所述相同字符串对应的条数,计算集中度数据;
所述终端将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常;
其中,所述终端根据所述相同字符串对应的条数,计算集中度数据,包括:
其中,N-centralization表示所述集中度数据,m表示所述目标字符串中有m种所述相同字符串,n表示所述相同字符串对应的条数。
2.根据权利要求1所述的数据检测方法,其特征在于,所述方法还包括:
所述终端对所述i依次进行k次取值,得到k组所述t条目标字符串,其中,k为不小于2的自然数;
所述终端分别对每组所述目标字符串计算所述集中度数据,得到k个目标集中度数据。
4.根据权利要求3所述的方法,其特征在于,所述集中度数据包括依次对所述i进行k次取值后,得到的k个目标集中度数据;所述预设范围包括k个目标范围,其中所述k为不小于2的自然数;
所述服务器判断所述集中度数据是否在预设范围之外,包括:
所述服务器依次判断所述目标集中度数据是否在所述目标范围之外;
所述若在所述预设范围之外,则所述服务器确定所述等长字符串异常,包括:
当所述目标集中度数据全部在所述目标范围之外时,所述服务器确定所述等长字符串异常。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
所述服务器判断第n个所述目标集中度数据是否小于第n-1个所述目标集中度数据,其中,所述n为不大于k且不小于2的自然数;
若不小于,则所述服务器确定所述等长字符串异常。
6.一种数据检测装置,其特征在于,所述装置包括:
第一获取单元,用于获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;
第二获取单元,用于获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;
统计单元,用于分别统计所述目标字符串中的相同字符串对应的条数;
计算单元,用于根据所述相同字符串对应的条数,计算集中度数据;
发送单元,用于将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常;
其中,N-centralization表示所述集中度数据,m表示所述目标字符串中有m种所述相同字符串,n表示所述相同字符串对应的条数。
8.一种数据检测服务器,其特征在于,包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述总线分别连接所述处理器、存储器以及输入输出设备相连;
所述输入输出设备用于终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;所述集中度数据是所述终端根据公式计算得到的,其中,N-centralization表示所述集中度数据,m表示目标字符串中有m种相同字符串,n表示所述相同字符串对应的条数;
所述存储器中存储有预设范围;
所述处理器用于根据所述集中度数据,从所述存储器中获取所述预设范围,判断所述集中度数据是否在预设范围之外;若在所述预设范围之外,则所述服务器确定所述等长字符串异常。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至2或3至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911063155.9A CN110825924B (zh) | 2019-11-01 | 2019-11-01 | 一种数据检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911063155.9A CN110825924B (zh) | 2019-11-01 | 2019-11-01 | 一种数据检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825924A CN110825924A (zh) | 2020-02-21 |
CN110825924B true CN110825924B (zh) | 2022-12-06 |
Family
ID=69552405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911063155.9A Active CN110825924B (zh) | 2019-11-01 | 2019-11-01 | 一种数据检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825924B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101167080A (zh) * | 2005-03-23 | 2008-04-23 | 株式会社Ihc | 验证系统 |
WO2009086843A1 (en) * | 2007-12-31 | 2009-07-16 | Telecom Italia S.P.A. | Method of detecting anomalies in a communication system using symbolic packet features |
CN102195827A (zh) * | 2010-03-15 | 2011-09-21 | 张志凯 | 基于重叠子字符串分类器的深度分组检测方法 |
CN102333313A (zh) * | 2011-10-18 | 2012-01-25 | 中国科学院计算技术研究所 | 移动僵尸网络特征码生成方法和移动僵尸网络检测方法 |
CN104809134A (zh) * | 2014-01-27 | 2015-07-29 | 国际商业机器公司 | 检测数据序列中的异常子序列的方法和设备 |
CN106469179A (zh) * | 2015-08-21 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种信息监控方法及装置 |
CN107391671A (zh) * | 2017-07-21 | 2017-11-24 | 华中科技大学 | 一种文档泄露检测方法及系统 |
US9906511B1 (en) * | 2015-06-29 | 2018-02-27 | Bar-Ilan University | Secure impersonation detection |
CN109976930A (zh) * | 2017-12-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 异常数据的检测方法、系统及存储介质 |
-
2019
- 2019-11-01 CN CN201911063155.9A patent/CN110825924B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101167080A (zh) * | 2005-03-23 | 2008-04-23 | 株式会社Ihc | 验证系统 |
WO2009086843A1 (en) * | 2007-12-31 | 2009-07-16 | Telecom Italia S.P.A. | Method of detecting anomalies in a communication system using symbolic packet features |
CN102195827A (zh) * | 2010-03-15 | 2011-09-21 | 张志凯 | 基于重叠子字符串分类器的深度分组检测方法 |
CN102333313A (zh) * | 2011-10-18 | 2012-01-25 | 中国科学院计算技术研究所 | 移动僵尸网络特征码生成方法和移动僵尸网络检测方法 |
CN104809134A (zh) * | 2014-01-27 | 2015-07-29 | 国际商业机器公司 | 检测数据序列中的异常子序列的方法和设备 |
US9906511B1 (en) * | 2015-06-29 | 2018-02-27 | Bar-Ilan University | Secure impersonation detection |
CN106469179A (zh) * | 2015-08-21 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种信息监控方法及装置 |
CN107391671A (zh) * | 2017-07-21 | 2017-11-24 | 华中科技大学 | 一种文档泄露检测方法及系统 |
CN109976930A (zh) * | 2017-12-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 异常数据的检测方法、系统及存储介质 |
Non-Patent Citations (4)
Title |
---|
两种基于双向比较的最长公共子串算法;王开云等;《计算机研究与发展》;20131115(第11期);全文 * |
基于特征映射的入侵检测预处理方法;吴磊等;《计算机工程与设计》;20081216(第23期);全文 * |
字符串模式匹配的安全多方计算;亢佳等;《密码学报》;20170615(第03期);全文 * |
恶意代码聚类中的特征选取研究;王毅等;《信息网络安全》;20160910(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110825924A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294105B (zh) | 刷量工具检测方法和装置 | |
CN109587008B (zh) | 检测异常流量数据的方法、装置及存储介质 | |
CN110809010B (zh) | 威胁信息处理方法、装置、电子设备及介质 | |
RU2608464C2 (ru) | Устройство, способ и сетевой сервер для обнаружения структур данных в потоке данных | |
CN109064031B (zh) | 基于区块链的项目干系人信用评价方法、区块链及存储介质 | |
US20180248879A1 (en) | Method and apparatus for setting access privilege, server and storage medium | |
EP3048539A1 (en) | Method and apparatus for recognizing junk messages | |
CN110032583B (zh) | 一种欺诈团伙识别方法、装置、可读存储介质及终端设备 | |
EP3852420A1 (en) | Method and device for determining load threshold | |
CN114265740A (zh) | 错误信息处理方法、装置、设备及存储介质 | |
CN110807050B (zh) | 性能分析方法、装置、计算机设备及存储介质 | |
CN111476375A (zh) | 一种确定识别模型的方法、装置、电子设备及存储介质 | |
CN117061254B (zh) | 异常流量检测方法、装置和计算机设备 | |
CN113609389A (zh) | 一种社区平台信息推送方法及系统 | |
CN110825924B (zh) | 一种数据检测方法、装置及存储介质 | |
CN112069230A (zh) | 数据分析方法、装置、设备及存储介质 | |
CN112036579A (zh) | 多分类模型自学习在线更新方法、系统及装置 | |
CN115296904B (zh) | 域名反射攻击检测方法及装置、电子设备、存储介质 | |
CN113254672B (zh) | 异常账号的识别方法、系统、设备及可读存储介质 | |
CN107797924B (zh) | 一种sql脚本的异常检测方法及其终端 | |
CN114090407A (zh) | 基于线性回归模型的接口性能预警方法及其相关设备 | |
CN111881426B (zh) | 一种集成地缘空间与物联技术的城市管理方法、系统以及存储介质 | |
CN110191462B (zh) | 一种确定移动终端的方法、装置、介质及设备 | |
CN105468603A (zh) | 数据选择方法及装置 | |
WO2019174164A1 (zh) | 广告短信识别方法、电子装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210507 Address after: 518000 room 602, building B, Kingdee Software Park, Keji South 12th Road, high tech Zone, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: Shenzhen kaniu Technology Co.,Ltd. Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant before: Shenzhen Qianhai handy Data Service Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |