CN106611176B - 异常中文字符串的识别方法及装置 - Google Patents

异常中文字符串的识别方法及装置 Download PDF

Info

Publication number
CN106611176B
CN106611176B CN201510703850.2A CN201510703850A CN106611176B CN 106611176 B CN106611176 B CN 106611176B CN 201510703850 A CN201510703850 A CN 201510703850A CN 106611176 B CN106611176 B CN 106611176B
Authority
CN
China
Prior art keywords
character string
string
sampling
chinese character
assemble
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510703850.2A
Other languages
English (en)
Other versions
CN106611176A (zh
Inventor
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510703850.2A priority Critical patent/CN106611176B/zh
Publication of CN106611176A publication Critical patent/CN106611176A/zh
Application granted granted Critical
Publication of CN106611176B publication Critical patent/CN106611176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Abstract

本申请公开了一种异常中文字符串的识别方法及装置。该方法包括:确定对待处理文本中的字符串进行抽样的抽样次数;根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及根据中文字符串比例值识别待处理文本中是否存在异常中文字符串。通过本申请,解决了相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题。

Description

异常中文字符串的识别方法及装置
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种异常中文字符串的识别方法及装置。
背景技术
在对网络文本进行自然语言处理时,可能会因为系统原因或非系统原因产生很多异常的文本,这种异常包括中文编码的错误、恶意广告链接等等。如果在自然语言处理的解析任务之前未对待处理文本进行异常检查,那么可能造成解析中出现未知错误或者解析时间过长等问题。因此,在进行文本处理前,需要采取一定的机制对待处理文本进行异常的检查。通常,通过遍历字符串中全部字符,并对每一个字符进行统计,并制定一些过滤条件来进行判断待处理文文本中是否存在异常中文字符串,该方式准确性较高,然而,缺点在于时间复杂度与字符串长度有关,导致识别文本中是否存在异常中文字符串识别效率较低,从而不适合实践。相关技术中,为了提升识别文本中是否存在异常中文字符串识别效率,不遍历字符串,而是通过字符串中能够得到的统计量(如字符串长度)制定过滤规则并过滤。然而,该方法导致识别文本中是否存在异常中文字符串的准确率较低。
针对相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种异常中文字符串的识别方法及装置,以解决相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种异常中文字符串的识别方法。该方法包括:确定对待处理文本中的字符串进行抽样的抽样次数;根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及根据中文字符串比例值识别待处理文本中是否存在异常中文字符串。
进一步地,抽样次数的数量为N,N为自然数,其中,根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合包括:确定字符串长度值,其中,字符串长度值为待处理文本中所有字符串长度的总和;在零至字符串长度值之间,生成N个随机数;分别抽取待处理文本中在N个随机数位置上的字符串,得到N个抽样字符串;以及N个抽样字符串组成抽样字符串集合。
进一步地,根据抽样字符串集合计算中文字符串比例值包括:确定抽样字符串集合中的所有字符串数量;获取抽样字符串集合中所有的中文字符串;统计抽样字符串集合中所有的中文字符串数量;以及根据抽样字符串集合中所有的中文字符串数量和抽样字符串集合中的所有字符串数量,计算中文字符串比例值。
进一步地,获取抽样字符串集合中所有的中文字符串包括:确定抽样字符串集合中开始位置上的字符串,并将开始位置上的字符串作为当前处理字符串;判断当前处理字符串是否为中文字符串;如果当前处理前字符串为中文字符串,将当前处理字符串存储至预设的中文字符串集合中,并将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;如果当前处理字符串不是为中文字符串,将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;以及将预设的中文字符串集合中所有的中文字符串作为抽样字符串集合中所有的中文字符串。
进一步地,根据中文字符串比例值识别待处理文本中是否存在异常中文字符串包括:判断中文字符串比例值是否大于预设比例值;如果中文字符串比例值大于预设比例值,确定待处理文本中不存在异常中文字符串;以及如果中文字符串比例值小于或等于预设比例值,确定待处理文本中存在异常中文字符串。
为了实现上述目的,根据本申请的另一方面,提供了一种异常中文字符串的识别装置。该装置包括:确定单元,用于确定对待处理文本中的字符串进行抽样的抽样次数;抽样单元,用于根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;计算单元,用于根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及识别单元,用于根据中文字符串比例值识别待处理文本中是否存在异常中文字符串。
进一步地,抽样次数的数量为N,N为自然数,其中,抽样单元包括:第一计算模块,用于确定字符串长度值,其中,字符串长度值为待处理文本中所有字符串长度的总和;生成模块,用于在零至字符串长度值之间,生成N个随机数;抽取模块,用于分别抽取待处理文本中在N个随机数位置上的字符串,得到N个抽样字符串;以及第一确定模块,用于N个抽样字符串组成抽样字符串集合。
进一步地,计算单元包括:第二确定模块,用于确定抽样字符串集合中的所有字符串数量;获取模块,用于获取抽样字符串集合中所有的中文字符串;统计模块,用于统计抽样字符串集合中所有的中文字符串数量;以及第二计算模块,用于根据抽样字符串集合中所有的中文字符串数量和抽样字符串集合中的所有字符串数量,计算中文字符串比例值。
进一步地,获取模块包括:第一确定子模块,用于确定抽样字符串集合中开始位置上的字符串,并将开始位置上的字符串作为当前处理字符串;判断子模块,用于判断当前处理字符串是否为中文字符串;第一处理子模块,用于在当前处理前字符串为中文字符串的情况下,将当前处理字符串存储至预设的中文字符串集合中,并将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;第二处理子模块,用于在当前处理字符串不是为中文字符串的情况下,将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;以及第二确定子模块,用于将预设的中文字符串集合中所有的中文字符串作为抽样字符串集合中所有的中文字符串。
进一步地,识别单元包括:判断模块,用于判断中文字符串比例值是否大于预设比例值;第三确定模块,用于在中文字符串比例值大于预设比例值的情况下,确定待处理文本中不存在异常中文字符串;以及第四确定模块,用于在中文字符串比例值小于或等于预设比例值的情况下,确定待处理文本中存在异常中文字符串。
通过本申请,采用以下步骤:确定对待处理文本中的字符串进行抽样的抽样次数;根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及根据中文字符串比例值识别待处理文本中是否存在异常中文字符串,解决了相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题,根据待处理文本中的字符串进行抽样的抽样次数和计算出的中文字符串比例值,进行识别待处理文本中是否存在异常中文字符串,达到了在提升识别文本中是否存在异常中文字符串的识别效率的同时保证了识别文本中异常中文字符串的准确率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的异常中文字符串的识别方法的流程图;以及
图2是根据本申请实施例的异常中文字符串的识别装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种异常中文字符串的识别方法。
图1是根据本申请实施例的异常中文字符串的识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,确定对待处理文本中的字符串进行抽样的抽样次数。
为了提升识别文本中是否存在异常中文字符串的识别效率,本申请实施例的异常中文字符串的识别方法并不对整个待处理文本中的所有字符串进行遍历,而是采用对待处理文本中的字符串进行抽样的方式,来保证提升识别文本中是否存在异常中文字符串的识别效率。在本申请实施例的异常中文字符串的识别方法中,决定抽样次数的因素包括两个,一个是系统的时间消耗估计,抽样次数越多,消耗时间越长,并且抽样次数与系统的时间消耗之间呈线性关系;另一个是统计量置信度,抽样次数越多,统计量越可信。一般来说,抽样次数在30次以上,即可保证统计量置信度上的要求。在本申请实施例的异常中文字符串的识别方法中,以确定出对待处理文本中的字符串进行抽样的抽样次数为50次为例进行描述。
步骤S102,根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合。
根据上述确定出的抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合。可选地,在本申请实施例提供的异常中文字符串的识别方法中,抽样次数的数量为N,N为自然数,其中,根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合还可以通过以下步骤实现:确定字符串长度值,其中,字符串长度值为待处理文本中所有字符串长度的总和;在零至字符串长度值之间,生成N个随机数;分别抽取待处理文本中在N个随机数位置上的字符串,得到N个抽样字符串;以及N个抽样字符串组成抽样字符串集合。
例如,根据待处理文本的属性确定出待处理文本中所有字符串长度的总和为1580(即上述的字符串长度值为1580),在[0,1580)之间生成50个随机数,如生成了{15,38,52,……,1382}等50个随机数,在待处理文本中获取{15,38,52,……,1382}位置上的字符串,得到50个字符串,如得到{样,文,体,……,人}等50个字符串,{样,文,体,……,人}即为上述的抽样字符串集合。
步骤S103,根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例。
根据抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例,计算出中文字符串比例值。可选地,在本申请实施例提供的异常中文字符串的识别方法中,根据抽样字符串集合计算中文字符串比例值还可以通过以下步骤实现:确定抽样字符串集合中的所有字符串数量;获取抽样字符串集合中所有的中文字符串;统计抽样字符串集合中所有的中文字符串数量;以及根据抽样字符串集合中所有的中文字符串数量和抽样字符串集合中的所有字符串数量,计算中文字符串比例值。
获取抽样字符串集合中所有的中文字符串还可以通过以下步骤实现:确定抽样字符串集合中开始位置上的字符串,并将开始位置上的字符串作为当前处理字符串;判断当前处理字符串是否为中文字符串;如果当前处理前字符串为中文字符串,将当前处理字符串存储至预设的中文字符串集合中,并将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;如果当前处理字符串不是为中文字符串,将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;以及将预设的中文字符串集合中所有的中文字符串作为抽样字符串集合中所有的中文字符串。
例如,确定出抽样字符串集合中的所有字符串数量为50,获取抽样字符串集合中所有的中文字符串,统计出抽样字符串集合中所有的中文字符串数量为48。根据抽样字符串集合中所有的中文字符串数量和抽样字符串集合中的所有字符串数量,计算中文字符串比例值为0.9。具体地,如抽样字符串集合为{样,文,体,……,人},通过逐次遍历抽样字符串集合中每一个字符串,判断其是否为中文字符串,如果是中文字符串,对中文字符串进行统计的计数器加1,并继续判断下一个字符串;如果不是中文字符串,继续判断下一个字符串;直到遍历至抽样字符串集合中的最后一个字符串结束。
步骤S104,根据中文字符串比例值识别待处理文本中是否存在异常中文字符串。
可选地,在本申请实施例提供的异常中文字符串的识别方法中,根据中文字符串比例值识别待处理文本中是否存在异常中文字符串包括:判断中文字符串比例值是否大于预设比例值;如果中文字符串比例值大于预设比例值,确定待处理文本中不存在异常中文字符串;以及如果中文字符串比例值小于或等于预设比例值,确定待处理文本中存在异常中文字符串。
例如,预设比例值为0.85,中文字符串比例值为0.9,中文字符串比例值0.9大于预设比例值0.85,即确定出待处理文本中不存在异常中文字符串。如果中文字符串比例值为0.7,中文字符串比例值0.7小于预设比例值0.85,即确定出待处理文本中存在异常中文字符串。
在本申请实施例提供的异常中文字符串的识别方法中,引入了中文字符串比例值,并根据确定出的待处理文本中的字符串进行抽样的抽样次数和计算出的中文字符串比例值,进行识别待处理文本中是否存在异常中文字符串,达到了在提升识别文本中是否存在异常中文字符串的识别效率的同时保证了识别文本中异常中文字符串的准确率的效果。
需要说明的是,本申请实施例的异常中文字符串的识别方法中涉及的异常中文字符串为待处理文本中的乱码或者广告链接等等。例如,http://baidu.33pf9.aiercdyy.webs ite;http://baidu.ndbzb.aiercdyy.website;http://baidu.zdfxt.aiercdyy.website等大量的网页广告链接等乱码为本申请实施例中涉及的异常中文字符串。
本申请实施例提供的异常中文字符串的识别方法,通过确定对待处理文本中的字符串进行抽样的抽样次数;根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及根据中文字符串比例值识别待处理文本中是否存在异常中文字符串,解决了相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题,根据待处理文本中的字符串进行抽样的抽样次数和计算出的中文字符串比例值,进行识别待处理文本中是否存在异常中文字符串,达到了在提升识别文本中是否存在异常中文字符串的识别效率的同时保证了识别文本中异常中文字符串的准确率的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种异常中文字符串的识别装置,需要说明的是,本申请实施例的异常中文字符串的识别装置可以用于执行本申请实施例所提供的用于异常中文字符串的识别方法。以下对本申请实施例提供的异常中文字符串的识别装置进行介绍。
图2是根据本申请实施例的异常中文字符串的识别装置的示意图。如图2所示,该装置包括:确定单元10、抽样单元20、计算单元30和识别单元40。
确定单元10,用于确定对待处理文本中的字符串进行抽样的抽样次数。
抽样单元20,用于根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合。
计算单元30,用于根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例。
识别单元40,用于根据中文字符串比例值识别待处理文本中是否存在异常中文字符串。
本申请实施例提供的异常中文字符串的识别装置,通过确定单元10确定对待处理文本中的字符串进行抽样的抽样次数;抽样单元20根据抽样次数对待处理文本中的字符串进行抽样,得到抽样字符串集合;计算单元30根据抽样字符串集合计算中文字符串比例值,其中,中文字符串比例值为抽样字符串集合中的中文字符串占抽样字符串集合中的所有字符串的比例;以及识别单元40根据中文字符串比例值识别待处理文本中是否存在异常中文字符串,解决了相关技术中为了提升识别文本中是否存在异常中文字符串的识别效率,导致识别文本中是否存在异常中文字符串的准确率较低的问题,根据待处理文本中的字符串进行抽样的抽样次数和计算出的中文字符串比例值,进行识别待处理文本中是否存在异常中文字符串,达到了在提升识别文本中是否存在异常中文字符串的识别效率的同时保证了识别文本中异常中文字符串的准确率的效果。
可选地,在本申请实施例提供的异常中文字符串的识别装置中,抽样次数的数量为N,N为自然数,其中,抽样单元20包括:第一计算模块,用于确定字符串长度值,其中,字符串长度值为待处理文本中所有字符串长度的总和;生成模块,用于在零至字符串长度值之间,生成N个随机数;抽取模块,用于分别抽取待处理文本中在N个随机数位置上的字符串,得到N个抽样字符串;以及第一确定模块,用于N个抽样字符串组成抽样字符串集合。
可选地,在本申请实施例提供的异常中文字符串的识别装置中,计算单元30包括:第二确定模块,用于确定抽样字符串集合中的所有字符串数量;获取模块,用于获取抽样字符串集合中所有的中文字符串;统计模块,用于统计抽样字符串集合中所有的中文字符串数量;以及第二计算模块,用于根据抽样字符串集合中所有的中文字符串数量和抽样字符串集合中的所有字符串数量,计算中文字符串比例值。
可选地,在本申请实施例提供的异常中文字符串的识别装置中,获取模块包括:第一确定子模块,用于确定抽样字符串集合中开始位置上的字符串,并将开始位置上的字符串作为当前处理字符串;判断子模块,用于判断当前处理字符串是否为中文字符串;第一处理子模块,用于在当前处理前字符串为中文字符串的情况下,将当前处理字符串存储至预设的中文字符串集合中,并将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;第二处理子模块,用于在当前处理字符串不是为中文字符串的情况下,将抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断当前处理字符串是否为中文字符串,直到判断至抽样字符串集合中结束位置上的最后一个字符串结束;以及第二确定子模块,用于将预设的中文字符串集合中所有的中文字符串作为抽样字符串集合中所有的中文字符串。
可选地,在本申请实施例提供的异常中文字符串的识别装置中,识别单元40包括:判断模块,用于判断中文字符串比例值是否大于预设比例值;第三确定模块,用于在中文字符串比例值大于预设比例值的情况下,确定待处理文本中不存在异常中文字符串;以及第四确定模块,用于在中文字符串比例值小于或等于预设比例值的情况下,确定待处理文本中存在异常中文字符串。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种异常中文字符串的识别方法,其特征在于,包括:
确定对待处理文本中的字符串进行抽样的抽样次数;
根据所述抽样次数对所述待处理文本中的字符串进行抽样,得到抽样字符串集合;
根据所述抽样字符串集合计算中文字符串比例值,其中,所述中文字符串比例值为所述抽样字符串集合中的中文字符串占所述抽样字符串集合中的所有字符串的比例;以及
根据所述中文字符串比例值识别所述待处理文本中是否存在异常中文字符串;
其中,所述抽样字符串集合中的中文字符串可以通过如下方式获取:确定所述抽样字符串集合中开始位置上的字符串,并将所述开始位置上的字符串作为当前处理字符串;判断所述当前处理字符串是否为中文字符串;如果所述当前处理前字符串为所述中文字符串,将所述当前处理字符串存储至预设的中文字符串集合中,并将所述抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断所述当前处理字符串是否为所述中文字符串,直到判断至所述抽样字符串集合中结束位置上的最后一个字符串结束;如果所述当前处理字符串不是为所述中文字符串,将所述抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断所述当前处理字符串是否为所述中文字符串,直到判断至所述抽样字符串集合中结束位置上的最后一个字符串结束;以及将所述预设的中文字符串集合中所有的中文字符串作为所述抽样字符串集合中所有的中文字符串。
2.根据权利要求1所述的方法,其特征在于,所述抽样次数的数量为N,N为自然数,其中,根据所述抽样次数对所述待处理文本中的字符串进行抽样,得到抽样字符串集合包括:
确定字符串长度值,其中,所述字符串长度值为所述待处理文本中所有字符串长度的总和;
在零至所述字符串长度值之间,生成N个随机数;
分别抽取所述待处理文本中在所述N个随机数位置上的字符串,得到N个抽样字符串;以及
所述N个抽样字符串组成所述抽样字符串集合。
3.根据权利要求1所述的方法,其特征在于,根据所述抽样字符串集合计算中文字符串比例值包括:
确定所述抽样字符串集合中的所有字符串数量;
获取所述抽样字符串集合中所有的中文字符串;
统计所述抽样字符串集合中所有的中文字符串数量;以及
根据所述抽样字符串集合中所有的中文字符串数量和所述抽样字符串集合中的所有字符串数量,计算所述中文字符串比例值。
4.根据权利要求3所述的方法,其特征在于,获取所述抽样字符串集合中所有的中文字符串包括:
确定所述抽样字符串集合中开始位置上的字符串,并将所述开始位置上的字符串作为当前处理字符串;
判断所述当前处理字符串是否为中文字符串;
如果所述当前处理前字符串为所述中文字符串,将所述当前处理字符串存储至预设的中文字符串集合中,并将所述抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断所述当前处理字符串是否为所述中文字符串,直到判断至所述抽样字符串集合中结束位置上的最后一个字符串结束;
如果所述当前处理字符串不是为所述中文字符串,将所述抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断所述当前处理字符串是否为所述中文字符串,直到判断至所述抽样字符串集合中结束位置上的最后一个字符串结束;以及
将所述预设的中文字符串集合中所有的中文字符串作为所述抽样字符串集合中所有的中文字符串。
5.根据权利要求1所述的方法,其特征在于,根据所述中文字符串比例值识别所述待处理文本中是否存在异常中文字符串包括:
判断所述中文字符串比例值是否大于预设比例值;
如果所述中文字符串比例值大于所述预设比例值,确定所述待处理文本中不存在异常中文字符串;以及
如果所述中文字符串比例值小于或等于所述预设比例值,确定所述待处理文本中存在异常中文字符串。
6.一种异常中文字符串的识别装置,其特征在于,包括:
确定单元,用于确定对待处理文本中的字符串进行抽样的抽样次数;
抽样单元,用于根据所述抽样次数对所述待处理文本中的字符串进行抽样,得到抽样字符串集合;
计算单元,用于根据所述抽样字符串集合计算中文字符串比例值,其中,所述中文字符串比例值为所述抽样字符串集合中的中文字符串占所述抽样字符串集合中的所有字符串的比例;以及
识别单元,用于根据所述中文字符串比例值识别所述待处理文本中是否存在异常中文字符串;
计算单元还包括:第一确定子模块,用于确定所述抽样字符串集合中开始位置上的字符串,并将所述开始位置上的字符串作为当前处理字符串;判断子模块,用于判断所述当前处理字符串是否为中文字符串;第一处理子模块,用于在所述当前处理前字符串为所述中文字符串的情况下,将所述当前处理字符串存储至预设的中文字符串集合中,并将所述抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断所述当前处理字符串是否为所述中文字符串,直到判断至所述抽样字符串集合中结束位置上的最后一个字符串结束;第二处理子模块,用于在所述当前处理字符串不是为所述中文字符串的情况下,将所述抽样字符串集合中开始位置上的字符串的下一字符串作为当前处理字符串,继续判断所述当前处理字符串是否为所述中文字符串,直到判断至所述抽样字符串集合中结束位置上的最后一个字符串结束;以及第二确定子模块,用于将所述预设的中文字符串集合中所有的中文字符串作为所述抽样字符串集合中所有的中文字符串,
其中,所述抽样字符串集合中所有的中文字符串为所述抽样字符串集合中的中文字符串。
7.根据权利要求6所述的装置,其特征在于,所述抽样次数的数量为N,N为自然数,其中,所述抽样单元包括:
第一计算模块,用于确定字符串长度值,其中,所述字符串长度值为所述待处理文本中所有字符串长度的总和;
生成模块,用于在零至所述字符串长度值之间,生成N个随机数;
抽取模块,用于分别抽取所述待处理文本中在所述N个随机数位置上的字符串,得到N个抽样字符串;以及
第一确定模块,用于所述N个抽样字符串组成所述抽样字符串集合。
8.根据权利要求6所述的装置,其特征在于,所述计算单元包括:
第二确定模块,用于确定所述抽样字符串集合中的所有字符串数量;
获取模块,用于获取所述抽样字符串集合中所有的中文字符串;
统计模块,用于统计所述抽样字符串集合中所有的中文字符串数量;以及
第二计算模块,用于根据所述抽样字符串集合中所有的中文字符串数量和所述抽样字符串集合中的所有字符串数量,计算所述中文字符串比例值。
9.根据权利要求6所述的装置,其特征在于,所述识别单元包括:
判断模块,用于判断所述中文字符串比例值是否大于预设比例值;
第三确定模块,用于在所述中文字符串比例值大于所述预设比例值的情况下,确定所述待处理文本中不存在异常中文字符串;以及
第四确定模块,用于在所述中文字符串比例值小于或等于所述预设比例值的情况下,确定所述待处理文本中存在异常中文字符串。
CN201510703850.2A 2015-10-26 2015-10-26 异常中文字符串的识别方法及装置 Active CN106611176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510703850.2A CN106611176B (zh) 2015-10-26 2015-10-26 异常中文字符串的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510703850.2A CN106611176B (zh) 2015-10-26 2015-10-26 异常中文字符串的识别方法及装置

Publications (2)

Publication Number Publication Date
CN106611176A CN106611176A (zh) 2017-05-03
CN106611176B true CN106611176B (zh) 2019-10-25

Family

ID=58614004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510703850.2A Active CN106611176B (zh) 2015-10-26 2015-10-26 异常中文字符串的识别方法及装置

Country Status (1)

Country Link
CN (1) CN106611176B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985289A (zh) * 2018-07-18 2018-12-11 百度在线网络技术(北京)有限公司 乱码检测方法及装置
CN109710651B (zh) * 2018-12-25 2020-11-10 成都四方伟业软件股份有限公司 数据类型识别方法及装置
CN112307820B (zh) * 2019-07-29 2022-03-22 北京易真学思教育科技有限公司 文本识别方法、装置、设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467003A (zh) * 2006-06-30 2009-06-24 电子地图北美公司 用于收集关于地理数据的用户更新请求以支持自动化分析、处理和地理数据更新的方法和系统
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN102222241A (zh) * 2010-04-19 2011-10-19 日本电产三协株式会社 字符串识别装置及字符串识别方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN103870381A (zh) * 2012-12-10 2014-06-18 百度在线网络技术(北京)有限公司 一种测试数据生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467003A (zh) * 2006-06-30 2009-06-24 电子地图北美公司 用于收集关于地理数据的用户更新请求以支持自动化分析、处理和地理数据更新的方法和系统
CN102222241A (zh) * 2010-04-19 2011-10-19 日本电产三协株式会社 字符串识别装置及字符串识别方法
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN103870381A (zh) * 2012-12-10 2014-06-18 百度在线网络技术(北京)有限公司 一种测试数据生成方法及装置
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置

Also Published As

Publication number Publication date
CN106611176A (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
CN106131071B (zh) 一种Web异常检测方法和装置
US9323839B2 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
EP2991004B1 (en) Method and apparatus for labeling training samples
CN107229662B (zh) 数据清洗方法和装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN106611176B (zh) 异常中文字符串的识别方法及装置
CN106649831B (zh) 一种数据过滤方法及装置
US20140173254A1 (en) Cache prefetch for deterministic finite automaton instructions
CN106528894B (zh) 设置标签信息的方法及装置
de Oliveira et al. Fs-ner: a lightweight filter-stream approach to named entity recognition on twitter data
CN108182215A (zh) 一种结构化查询语言sql性能统计的方法及装置
CN109194677A (zh) 一种sql注入攻击检测方法、装置及设备
US11888874B2 (en) Label guided unsupervised learning based network-level application signature generation
US10740211B2 (en) Methods and systems to tag tokens in log messages
WO2015035821A1 (en) Methods and systems for query segmentation in a search
CN104750663B (zh) 页面中文本乱码的识别方法及装置
Wurzenberger et al. Aecid-pg: A tree-based log parser generator to enable log analysis
CN105790967B (zh) 一种网络日志处理方法和装置
CN104778159A (zh) 一种基于词权重进行分词的方法和装置
CN105991620A (zh) 恶意账户识别方法及装置
CN110083775A (zh) 一种推荐资源的配置方法及配置装置
CN109376362A (zh) 一种纠错文本的确定方法以及相关设备
CN106506399B (zh) 实现mfp的方法、装置及数据交换芯片
CN111880942A (zh) 一种网络威胁处理方法及装置
CN110830499B (zh) 一种网络攻击应用检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: Room A, 8th Floor, Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant