CN106055574B - 一种识别非法统一资源标识符url的方法与装置 - Google Patents

一种识别非法统一资源标识符url的方法与装置 Download PDF

Info

Publication number
CN106055574B
CN106055574B CN201610340764.4A CN201610340764A CN106055574B CN 106055574 B CN106055574 B CN 106055574B CN 201610340764 A CN201610340764 A CN 201610340764A CN 106055574 B CN106055574 B CN 106055574B
Authority
CN
China
Prior art keywords
url
similarity
illegal
image
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610340764.4A
Other languages
English (en)
Other versions
CN106055574A (zh
Inventor
丁玲
罗诗尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201610340764.4A priority Critical patent/CN106055574B/zh
Publication of CN106055574A publication Critical patent/CN106055574A/zh
Application granted granted Critical
Publication of CN106055574B publication Critical patent/CN106055574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

本申请公开了一种识别非法统一资源标识符URL的方法与装置。该方法包括:确定待识别的第一URL;当所述第一URL不在预设的黑名单中时,提取所述第一URL对应的网页中的内容,其中,所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种;确定所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度;根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL。该方法用以降低漏识别率。

Description

一种识别非法统一资源标识符URL的方法与装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种识别非法URL的方法与装置。
背景技术
随着互联网的飞速发展,互联网信息资源的种类和数量越来越多。这一发展趋势,虽然能够让互联网用户获取到更为丰富的互联网信息资源,但与此同时,也导致网络安全问题日益突出。比如,大量的非法互联网信息资源(后称非法信息,如与色情、暴力或反动言论等有关的信息)充斥在互联网中,严重影响着人们的身心健康。
为避免非法信息对于人们产生不良影响,有必要对非法统一资源定位符(UniformResource Locator,URL)进行识别,进而对识别出的非法URL进行一些处理,比如触发客户端对非法URL进行屏蔽等。
现有技术中,识别一个URL是否为非法URL,主要采用下述两种方法:
方法一:人工识别,即,人工对每一个待识别的URL对应的网页中的内容进行浏览,从而识别出所述待识别的URL是否为非法URL。但是该方法速度较慢,效率较低。
方法二:查看待识别的URL是否存在于黑名单中,若存在于所述黑名单中,则确定所述待识别的URL为非法URL;若不存在于所述黑名单中,则确定所述待识别的URL不为非法URL。其中,所述黑名单中保存着已知的非法URL。
该方法存在的缺陷在于,黑名单中包含的非法URL的数量有限,导致对于实际为非法URL的待识别的URL的漏识别率较高。另外黑名单中包含的非法URL均是曾经出现过的URL,对于新出现的URL,则不能准确识别该URL是否为非法URL,这也造成了对于实际为非法URL的待识别的URL的漏识别率较高。
因此,目前亟需一种识别非法URL的方法,用于降低漏识别率。
发明内容
本申请实施例提供一种识别非法统一资源标识符URL的方法,用以降低漏识别率。
本申请实施例提供一种识别非法统一资源标识符URL的装置,用以降低漏识别率。
本申请实施例采用下述技术方案:
一种识别非法统一资源标识符URL的方法,所述方法包括:
确定待识别的第一URL;
当所述第一URL不在预设的黑名单中时,提取所述第一URL对应的网页中的内容,其中,所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种;
确定所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度;
根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL。
一种识别非法统一资源标识符URL的装置,所述装置包括:
第一确定模块,用于确定待识别的第一URL;
提取模块,用于当所述第一URL不在预设的黑名单中时,提取所述第一URL对应的网页中的内容,其中,所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种;
第二确定模块,用于确定所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度;
识别模块,用于根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例除了在黑名单中查找是否存在待识别的URL来识别所述待识别的URL是否为非法URL之外,还通过确定所述待识别的URL自身与非法URL的第一相似度,以及确定所述待识别的URL对应的网页中的内容与已知的非法内容的第二相似度,根据所述第一相似度与第二相似度,来识别待识别的URL是否为非法URL。因此,提高了识别依据的丰富性,降低了漏识别率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种识别非法统一资源标识符URL的方法的具体流程示意图;
图2为本申请实施例提供的用户发送第一URL的用户操作界面示意图;
图3为本申请实施例提供的一种识别非法统一资源标识符URL的方法的具体流程示意图;
图4为本申请实施例提供的一种识别非法统一资源标识符URL的装置的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请实施例提供的技术方案。
为了降低漏识别率,本申请实施例提供一种识别非法统一资源标识符URL的方法。
该方法的执行主体,可以但不限于为手机、平板电脑或个人电脑(PersonalComputer,PC)等用户终端,或者该些用户终端上运行的应用(Application,APP),或者,还可以是服务器等设备。
为便于描述,下文以该方法的执行主体为服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。
该方法的具体流程示意图如图1所示,包括下述步骤:
步骤11,确定待识别的第一URL。
在本申请实施例中,服务器首先要确定需要进行识别的各URL,即为,待识别的第一URL。具体的,服务器可通过诸如网络爬虫等软件,批量获取网络中的各URL,分别作为待识别的第一URL(以下将待识别的第一URL简称为第一URL),并对每个第一URL均进行识别。
当然,用户或其他设备也可将待识别的第一URL主动发送给该服务器进行识别,如,当用户不清楚一个未知的URL是否为非法URL时,可将该未知的URL作为待识别的第一URL发送给服务器,使服务器对该第一URL进行识别。如图2所示,用户可以通过图2所示的用户操作界面,将一个待识别的第一URL输入用户操作界面中的输入框,点击用户操作界面中的提交控件,便可将所述第一URL发送给服务器。
步骤12,当所述第一URL不在预设的黑名单中时,提取所述第一URL对应的网页中的内容。
其中,服务器可预先保存黑名单,该黑名单中记录有已知的非法URL。当服务器确定了第一URL后,可先将该第一URL与该黑名单中的各非法URL进行比对,如果该第一URL与该黑名单中的某个非法URL相同,则服务器可直接确定该第一URL为非法URL,而无需再执行下述的步骤13~14。
如果该黑名单中没有任何一个非法URL与该第一URL相同,则说明仅根据该黑名单,尚不足以识别该第一URL是否为非法URL,此时,服务器则可提取该第一URL对应的网页中的内容,并根据提取的内容,识别该第一URL是否为非法URL。
考虑到不同商家的服务器对非法URL的识别策略不同,即,不同服务器的黑名单中记录的非法URL可能不同,因此,当服务器确定该第一URL不存在于自身保存的黑名单中时,还可判断该第一URL是否存在于其他服务器(即,第三方设备)保存的黑名单中,如果该第一URL存在于其他服务器保存的黑名单中,则该服务器也可直接确定该第一URL为非法URL,如果该第一URL既不存在于该服务器自身保存的黑名单中,也不存在于其他服务器保存的黑名单中,服务器则可提取该第一URL对应的网页中的内容,并根据提取的内容进行后续识别。
具体的,服务器可在确定该第一URL不存在于自身保存的黑名单中时,获取其他服务器保存的黑名单,再判断该第一URL是否存在于其他服务器保存的黑名单中,也可按照设定的时间间隔,周期性的获取其他服务器保存的黑名单并存储。当然,该服务器也可周期性的将自身保存的黑名单提供给其他服务器使用,这里就不再一一赘述。
进一步的,服务器提取第一URL对应的网页中的内容时,具体可提取该网页包含的各第二URL、文本信息、图像信息、视频信息中的至少一种,作为提取出的内容。
步骤13,确定所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度。
在实际应用中,当所述第一URL不在黑名单中时,若该第一URL自身包含的字符串与已知的非法URL包含的字符串相似,那么该第一URL是非法URL的可能性便很大。另外,若该第一URL对应的网页中的内容包含非法内容,或者与已知的非法内容相似,那么该URL是非法URL的可能性便很大。
因此,可以通过执行步骤13确定出所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度,后续则可根据该第一相似度和第二相似度来进一步识别所述第一URL是否为非法URL。
其中,由步骤12可知,服务器提取的第一URL对应的网页中的内容,包括该网页包含的各第二URL、文本信息、图像信息、视频信息中的至少一种,那么确定出的所述第二相似度可以包括下述四种相似度中的至少一种:
各第二URL与已知的非法URL的URL相似度;
文本信息与预设的非法词库中各关键词的文本相似度;
图像信息与预设的非法图库中各图像的图像相似度;
视频信息中各帧图像与所述非法图库中各图像的视频相似度。
其中,第二相似度包含URL相似度、文本相似度、图像相似度以及视频相似度中的哪一种或哪几种,取决于在执行步骤12时,服务器提取的内容是第二URL、文本信息、图像信息、视频信息中的哪一种或哪几种。比如,若服务器提取的内容包括各第二URL、文本信息、图像信息、视频信息这四种信息,那么第二相似度便包括URL相似度、文本相似度、图像相似度以及视频相似度这四种相似度。
步骤14,根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL。
在实际应用中,由于第一URL自身以及第一URL对应的网页中的内容,对第一URL是否为非法URL的影响程度是不同的。因此,可以按照实际情况,根据第一相似度和第二相似度,以及预设分数确定规则,确定出不同的相似度对应的分数值,使得服务器可以根据分数值,识别所述第一URL是否为非法URL。其中,分数值越大,表明所述第一URL是非法URL的可能性越大。
当第二相似度包括URL相似度、文本相似度、图像相似度以及视频相似度这四种相似度时,可以将第一URL相似度与URL相似度中的最大值确定为第三相似度,将图像相似度与视频相似度中的最大值确定为第四相似度,并根据预设分数值确定规则,分别确定出第三相似度、文本相似度以及第四相似度对应的分数值。在确定出该些分数值之后,可以确定该些分数值和值或加权和值,得到一个总分数值。服务器便可以根据该总分数值,以及预设的识别规则,识别第一URL是否为非法URL。例如,当总分数值不小于预设分数阈值时,识别所述第一URL为非法URL;当总分数值小于预设分数阈值时,识别所述第一URL不为非法URL。
其中,当第二相似度仅包括URL相似度、文本相似度、图像相似度以及视频相似度中的部分相似度时,仍可以沿用上述方法识别第一URL是否为非法URL。比如,若第二相似度只包括URL相似度以及文本相似度,那么可以将图像相似度以及视频相似度的值均视为零。同样运用上述方法,识别所述第一URL是否为非法URL。
由此可知,所述第二相似度包括何种相似度,均不影响利用上述方法识别所述第一URL是否为非法URL。
除了上述方法外,服务器还可以利用已经训练好的识别模型,识别所述第一URL是否为非法URL。具体的,服务器可将得到的所有相似度的值输入该模型,该模型通过计算,输出结果。服务器可以根据输出结果,识别所述第一URL是否为非法URL。
上述方法除了在黑名单中查找是否存在待识别的URL,来识别所述待识别的URL是否为非法URL之外,还通过确定所述待识别的URL自身与非法URL的第一相似度,以及确定所述待识别的URL对应的网页中的内容与已知的非法内容的第二相似度,根据所述第一相似度与第二相似度,来识别待识别的URL是否为非法URL。因此,提高了识别依据的丰富性,降低了漏识别率。
需要特别说明的是,本申请中所述的非法URL包括但不限于色情URL、暴力URL、反动URL或钓鱼URL等。其中,相较于暴力URL、反动URL或钓鱼URL等URL,本申请提供的上述识别非法URL的方法,尤其适用于识别第一URL是否为色情URL,这是因为在实际应用中,对于钓鱼URL对应的网页来说,由于该网页与正常的合法网页基本相同,因此,该网页中包含的第二URL一般均为正常的合法URL,而对于色情URL对应的网页来说,该网页中包含的第二URL一般仍然是色情URL,因此,当上述步骤12中从第一URL对应的网页中提取出的内容包括该网页包含的各第二URL时,该方法尤其适用于对色情URL的识别。
由于上述步骤12中从第一URL对应的网页中提取出的内容包括该网页包含的各第二URL、文本信息、图像信息、视频信息中的至少一种,因此,下面详细说明步骤13中如何确定第一相似度、URL相似度、文本相似度、图像相似度以及视频相似度。
1、确定第一相似度的方法:
可分别将第一URL与每一个已知的非法URL转化成向量,分别计算第一URL转化成的向量与每一个已知的非法URL转化成的向量间的相似度,最终将相似度中的最大值确定为第一相似度。
具体的,可将第一URL拆分成各第一字符串,且针对每个已知的非法URL,将该非法URL拆分成各非法字符串。其中,可以以URL中包含的点或者斜杠为分隔符来拆分URL,也可以以预设的字母或数字为分隔符拆分URL。但是,需要特别说明的是,需按照相同的拆分方法拆分第一URL与已知的非法URL。因为这样,拆分出的字符串才有可比性。
在拆分完毕后,比较各第一字符串与各非法字符串是否相同,并根据比较结果,生成第一URL对应的向量以及该非法URL对应的向量。例如,针对于第一URL,可将与各非法字符串相同的各第一字符串赋值为1,将与各非法字符串不相同的各第一字符串赋值为0。针对于该非法URL,可将每个非法字符串均赋值为1。那么,对于第一URL来说,以拆分出的第一字符串的数量为向量维数,以为每个第一字符串所赋的值为元素值,生成第一URL对应的向量,对于非法URL来说,以拆分出的非法字符串的数量为向量维数,以为每个非法字符串所赋的值为元素值,生成该非法URL对应的向量,进而可根据第一URL对应的向量以及该非法URL对应的向量确定第一URL与该非法URL的相似度。
但是,在实际应用中,第一字符串的数量(后称第一数量)与该非法字符串的数量(后称第二数量)可能是不同的,这便导致生成的第一URL对应的向量以及该非法URL对应的向量的维数不同。为了后续计算方便,可以将大于第一数量与第二数量中最大值的数值,作为生成的第一URL对应的向量以及该非法URL对应的向量的维数。例如,可以将第一数量与第二数量之和(第三数量)作为生成的第一URL对应的向量以及该非法URL对应的向量的维数。并通过在已经生成的所述第一URL对应的向量以及该非法URL对应的向量中补零,生成第一URL对应的第一向量以及该非法URL对应的第二向量补零后的第一向量和第二向量的维数相同。其中,可以在已经生成的第一URL对应的向量以及该非法URL对应的向量的末端或前端补零。
在确定出第一向量与第二向量之后,可以通过下述公式1计算这两个向量间的余弦值,并将该余弦值作为第一URL与该非法URL的相似度。其中,余弦值越大,表明两个向量间的相似度越大。
其中,i为第三数量,ai为各第一字符串的值,bi为各非法字符串的值。
例如,假设拆分第一URL得到的第一字符串的数量为3,假设拆分一个非法URL得到的非法字符串的数量为5,拆分第一URL得到的第三个第一字符串,与拆分非法URL得到的某个非法字符串相同。那么,第一URL对应的向量为(0,0,1,0,0,0,0,0),该非法URL对应的向量为(1,1,1,1,1,0,0,0)。通过公式1计算这两个向量间的余弦值为0.45。于是,这两个向量间的相似度为45%。那么,第一URL与该非法URL的相似度为45%。
在确定出第一URL与每一个非法URL的相似度后,可将第一URL与每个非法URL的相似度中的最大值确定为第一相似度。
需要特别说明的是,本申请实施例不限定确定第一相似度的方法,可采用任何一种可以表征两个URL相似度的方法来确定第一相似度。例如除上述方法外,还可以采用计算向量间欧式距离的方法,来计算生成的第一URL对应的向量以及该非法URL对应的向量的相似度,进而根据确定出的所述相似度确定第一相似度。
2、确定URL相似度的方法如下:
可以将每一个第二URL和每一个预设的非法URL分别转化成向量,计算每一个第二URL对应的向量以及每一个非法URL对应的向量间的相似度,最终将所述相似度中的最大值,确定为URL相似度。
具体的,针对每个第二URL,将该第二URL拆分成各第二字符串。针对每个预设的非法URL,将该非法URL拆分成各非法字符串。其中,拆分第二URL和非法URL的方法,可参见确定第一相似度的方法中所提及的拆分方法,此处不再进行赘述。
在拆分完毕后,比较各第二字符串与各非法字符串是否相同,并根据比较结果,生成该第二URL对应的向量以及该非法URL对应的向量。例如,可以根据确定第一相似度的方法中,所提及的生成维数相同的向量的方法,生成该第二URL对应的向量以及该非法URL对应的向量。
在确定出该第二URL对应的向量以及该非法URL对应的向量后,可以通过公式1计算这两个向量间的余弦值,并将该余弦值作为该第二URL与该非法URL的相似度。
在确定出该第二URL与每个非法URL的相似度后,确定出该第二URL与每个非法URL的相似度中的最大相似度。并根据针对每个第二URL确定出的最大相似度,将各最大相似度中的最大值确定为URL相似度。
需要特别说明的是,本申请实施例不限定确定URL相似度的方法,可采用任何一种可以表征两个URL相似度的方法来确定URL相似度。例如除上述方法外,还可以采用计算向量间欧式距离的方法,来计算生成的该第二URL对应的向量以及该非法URL对应的向量的相似度,进而根据确定出的所述相似度确定URL相似度。
3、确定文本相似度的方法如下:
分别将文本信息与预设的非法词库转化成向量,通过计算这两个向量的相似度,来确定出文本相似度。
具体的,对文本信息进行分词处理,获取文本信息中的每个词(后称第一词)。比较第一词与预设的非法词库中各关键词是否相同。根据比较结果,生成所述文本信息对应的向量以及所述预设的非法词库对应的向量。例如,针对于文本信息,可将与预设的非法词库中各关键词相同的各第一词赋值为1,将与预设的非法词库中各关键词不相同的各第一词赋值为0。针对于预设的非法词库,可将预设的非法词库中每个关键词均赋值为1。那么,对于文本信息来说,以第一词的数量为向量维数,以为每个第一词所赋的值为元素值,生成文本信息对应的向量。对于预设的非法词库来说,以预设的非法词库中的关键词的数量为向量维数,以为每个关键词所赋的值为元素值,生成预设的非法词库对应的向量,进而可根据文本信息对应的向量以及预设的非法词库对应的向量,来确定文本相似度。
但是,第一词的数量与预设的非法词库中的关键词的数量可能不同,这便导致文本信息对应的向量以及预设的非法词库对应的向量的维数可能不同。为了后续便于计算,可以将不小于第一词的数量与预设的非法词库中的关键词的数量中的最大值的数值,作为生成的文本信息对应的向量以及预设的非法词库对应的向量的维数。例如,一般情况下,第一词的数量小于预设的非法词库中的关键词的数量,因此,可以将预设的非法词库中的关键词的数量作为生成的文本信息对应的向量以及预设的非法词库对应的向量的维数。并通过在已经生成的文本信息对应的向量以及预设的非法词库对应的向量中补零,生成文本信息对应的向量以及预设的非法词库对应的向量。补零后的文本信息对应的向量以及预设的非法词库对应的向量的维数相同。其中,可以在已经生成的文本信息对应的向量以及预设的非法词库对应的向量的末端或前端补零。
在确定出文本信息对应的向量以及预设的非法词库对应的向量后,可以通过公式1计算这两个向量的余弦值,并将该余弦值作为文本相似度。
需要特别说明的是,本申请实施例不限定确定文本相似度的方法,可采用任何一种可以表征文本相似度的方法来确定文本相似度。例如除上述方法外,还可以采用计算向量间欧式距离的方法,来计算生成的文本信息对应的向量以及预设的非法词库对应的向量的相似度,进而根据该相似度确定出文本相似度。
4、确定图像相似度的方法如下:
对各图像信息与预设的非法图库中各图像进行聚类。根据聚类结果,确定所述图像相似度。
具体的,对各图像信息与预设的非法图库中各图像进行聚类,可以通过已经训练好的图像分类器,对各图像信息与预设的非法图库中各图像进行聚类。在聚类后,根据每个图像信息所在的类中包含的所述非法图库中的图像的数量(后称第四数量),以及预设图像相似度确定规则,确定每个图像与预设的非法图库中各图像的相似度。在分别确定出每个图像与预设的非法图库中各图像的相似度后,可以将所述相似度中的最大值,确定为图像相似度。
所述预设图像相似度确定规则,如下所述:
当所述第四数量为0时,所述图像相似度的值为第一预设相似度;
当所述第四数量为1~2时,所述图像相似度的值为第二预设相似度;
当所述第四数量为3~4时,所述图像相似度的值为第三预设相似度;
当所述第四数量>4时,所述图像相似度的值为第四预设相似度。
需要特别说明的是,本申请实施例不限定确定图像相似度的方法,可采用任何一种可以表征图像相似度的方法来确定图像相似度。例如除上述方法外,还可以采用灰度直方图的方法来确定每幅图像与非法图像的相似度,根据确定出的所述相似度,最终确定图像相似度。
5、确定视频相似度的方法如下:
针对每一个视频信息,获取该视频信息中各帧图像。对获取到的该视频信息中各帧图像与预设的非法图库中各图像进行聚类。根据聚类结果,确定该视频信息中各帧图像与预设的非法图库中各图像的相似度。并根据针对每一个视频信息确定的相似度,将最大相似度确定为视频相似度。
具体的,确定每一个视频信息与预设的非法图库的相似度的方法与确定图像相似度的方法类似,此处不再进行赘述。
在分别确定出每一个视频信息与预设的非法图库的相似度后,将该些相似度中的最大相似度确定为视频相似度。
需要特别说明的是,本申请实施例不限定确定视频相似度的方法,可采用任何一种可以表征视频相似度的方法来确定图像相似度。例如除上述方法外,还可以采用灰度直方图的方法来确定视频信息中的各帧图像与非法图像的相似度,根据确定出的所述相似度,最终确定视频相似度。
采用上述方法确定出包括URL相似度、文本相似度、图像相似度、视频相似度在内的第二相似度后,则可通过如图1所示的步骤14,识别该第一URL是否为非法URL。
另外,在本申请中,采用上述方法识别了第一URL是否为非法URL后,还可保存对所述第一URL的识别结果,并在保存对所述第一URL的识别结果后,按设定时间间隔,采用上述同样的方法重复对所述第一URL进行识别,当连续N次将所述第一URL识别为非法URL时,则可将所述第一URL添加到所述黑名单中。其中,N为预设的正整数。
将所述第一URL添加到所述黑名单中,这样可以扩大黑名单保存的已知的非法URL的数量与范围,以使得服务器在后续识别待识别的URL时,增大待识别的URL存在于黑名单中的可能性,以使得降低执行步骤11~步骤14的可能性,这样便于节省资源。
需要说明的是,将第一URL添加到的黑名单,可以是服务器自身保存的黑名单,也可以是从其他服务器(即,第三方设备)获取到的黑名单,如果将第一URL添加到第三方设备的黑名单中,则服务器还可在添加后,将添加了第一URL的黑名单返回给第三方设备保存。
在本申请实施例中,可通过非法URL识别系统,来实现上述识别方法,该系统中可包括请求方、控制中心以及处理中心。其中,所述处理中心包括但不限于下述五部分:
第一处理中心;
第二处理中心;
第三处理中心;
第四处理中心;
第五处理中心。
当通过非法URL识别系统识别第一URL是否为非法URL时,具体过程如图3所示:
步骤201,请求方将待识别的第一URL发送给控制中心。
步骤202,控制中心将接收到的所述第一URL发送给第一处理中心。
步骤203,第一处理中心接收所述第一URL,且判断第一URL是否存在于本地黑名单中,并根据判断结果,以及预设分数确定规则,确定判断结果对应的第一分数值。
步骤204,第一处理中心将第一分数值发送给控制中心。
步骤205,控制中心接收第一分数值。
若所述第一分数值为0,则执行步骤206;
若所述第一分数值不为0,则执行步骤222。
步骤206,控制中心将第一URL发送给第二处理中心。
步骤207,第二处理中心接收所述第一URL,并判断第一URL是否存在于其他服务器(即,第三方设备)保存的黑名单中,并根据判断结果,以及预设分数确定规则,确定判断结果对应的第二分数值。
具体的,第二处理中心,可以通过调用其他服务器(即,第三方设备)对应的应用程序编程接口(Application Programming Interface,API),获取存在于其他服务器(即,第三方设备)保存的黑名单,进而判断第一URL是否存在于其他服务器(即,第三方设备)保存的黑名单中。
步骤208,第二处理中心将第二分数值发送给控制中心。
步骤209,控制中心接收第二分数值。
若所述第二分数值为0,则执行步骤210;
若所述第二分数值为不为0,则执行步骤222。
步骤210,控制中心将第一URL发送给第三处理中心。
步骤211,第三处理中心接收第一URL,提取第一URL对应的网页中包括的各第二URL,并确定URL相似度以及第一相似度,根据URL相似度以及第一相似度,以及预设分数确定规则,确定URL相似度以及第一相似度中的最大值对应的第三分数值。
步骤212,第三处理中心将第三分数值发送给控制中心。
步骤213,控制中心接收第三分数值。
步骤214,控制中心将第一URL发送给第四处理中心。
步骤215,第四处理中心接收第一URL,提取第一URL对应的网页中包括的文本信息,确定文本性相似度,并根据预设分数确定规则,确定出文本相似度对应的第四分数值。
步骤216,第四处理中心将第四分数值发送给控制中心。
步骤217,控制中心接收第四分数值。
步骤218,控制中心将第一URL发送给第五处理中心。
步骤219,第五处理中心接收第一URL,提取第一URL对应的网页中包括的图像信息以及视频信息,分别确定图像相似度以及视频相似度,并根据预设分数确定规则,确定出图像相似度以及视频相似度中的最大值对应的第五分数值。
步骤220,第五处理中心将第五分数值发送给控制中心。
步骤221,控制中心接收第五分数值。
步骤222,控制中心根据接收到的所有分数值,识别第一URL是否为非法URL。
步骤223,控制中心将通过执行步骤222得到的识别结果保存在控制中心中的数据库中,并展示识别结果。
步骤224,若第一URL不存在于黑名单中,按设定时间间隔,运用步骤215~步骤221重复对保存在控制中心中的数据库中第一URL进行识别。若连续N次将第一URL识别为非法URL,将所述第一URL添加到所述黑名单中。
在本申请实施例中,可通过一种识别非法统一资源标识符URL的装置,来实现本申请实施例中提供的识别非法URL的方法。
如图4所示,为本申请实施例提供的一种识别非法统一资源标识符URL的装置的结构示意图,主要包括下述装置:
第一确定模块31,用于确定待识别的第一URL。
提取模块32,用于当所述第一URL不在预设的黑名单中时,提取所述第一URL对应的网页中的内容,其中,所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种。
第二确定模块33,用于确定所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度。
识别模块34,用于根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL。
在一种实施方式中,所述第二相似度包括:URL相似度、文本相似度、图像相似度、视频相似度中的至少一种。
第二确定模块33,包括:
URL确定子模块,用于确定第二URL与已知的非法URL的URL相似度;
文本确定子模块,用于确定文本信息与预设的非法词库中各关键词的文本相似度;
图像确定子模块,用于确定图像信息与预设的非法图库中各图像的图像相似度;
视频确定子模块,用于确定视频信息中各帧图像与所述非法图库中各图像的视频相似度。
在一种实施方式中,第二确定模块33,用于:
将所述第一URL拆分成各第一字符串;
针对每个已知的非法URL,将该非法URL拆分成各非法字符串,比较各第一字符串与各非法字符串是否相同,并根据比较结果,生成所述第一URL对应的向量以及该非法URL对应的向量,根据所述第一URL对应的向量以及该非法URL对应的向量确定所述第一URL与该非法URL的相似度;
根据确定的所述第一URL与每个非法URL的相似度,将最大相似度确定为所述第一URL与已知的非法URL的第一相似度。
URL确定子模块,用于:
针对每个第二URL,将该第二URL拆分成各第二字符串,针对每个已知的非法URL,将该非法URL拆分成各非法字符串,比较各第二字符串与各非法字符串是否相同,并根据比较结果,生成该第二URL对应的向量以及该非法URL对应的向量,根据该第二URL对应的向量以及该非法URL对应的向量确定该第二URL与该非法URL的相似度,根据确定的该第二URL与每个非法URL的相似度,确定最大相似度;
根据针对每个第二URL确定的最大相似度,将各最大相似度中的最大值确定为URL相似度。
在一种实施方式中,文本确定子模块,用于:
对所述文本信息进行分词处理,获取所述文本信息中的每一个词;
比较获取到的所述文本信息中的每个词与所述预设的非法词库中各关键词是否相同;
根据比较结果,生成所述文本信息对应的向量以及所述预设的非法词库对应的向量;
根据所述文本信息对应的向量以及所述非法词库对应的向量,确定所述文本相似度。
在一种实施方式中,图像确定子模块,用于:
对各图像信息与预设的非法图库中各图像进行聚类;
根据每个图像信息所在的类中包含的所述非法图库中的图像的数量,确定所述图像相似度。
视频确定子模块,用于:
针对每一个视频信息,获取该视频信息中各帧图像;
对获取到的该视频信息中各帧图像与预设的非法图库中各图像进行聚类;
根据所述各帧图像所在的类中包含的所述非法图库中各图像的数量,确定该视频信息中各帧图像与预设的非法图库中各图像的相似度;
根据针对每一个视频信息确定的相似度,将最大相似度确定为视频相似度。
在一种实施方式中,识别模块34,具体用于:
根据所述第一相似度与所述URL相似度,将所述第一相似度与所述URL相似度中的最大值确定为第三相似度;
根据所述图像相似度与所述视频相似度,将所述图像相似度与所述视频相似度中的最大值确定为第四相似度;
根据所述第三相似度、所述文本相似度以及所述第四相似度,以及预设分数确定规则,分别确定出所述第三相似度、所述文本相似度以及所述第四相似度对应的分数值;
当所述分数值之和不小于预设分数阈值时,识别所述第一URL是否为非法URL;
当所述分数值之和大于预设分数阈值时,识别所述第一URL是否为非法URL。
其中,第一确定模块31与识别模块34,相当于非法URL识别系统中的控制中心。提取模块32与第二确定模块33,相当于非法URL识别系统中的处理中心。
本申请实施例除了在黑名单中查找是否存在待识别的URL来识别所述待识别的URL是否为非法URL之外,还通过确定所述待识别的URL自身与非法URL的第一相似度,以及确定所述待识别的URL对应的网页中的内容与已知的非法内容的第二相似度,根据所述第一相似度与第二相似度,来识别待识别的URL是否为非法URL。因此,提高了识别依据的丰富性,降低了漏识别率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种识别非法统一资源标识符URL的方法,其特征在于,所述方法包括:
确定待识别的第一URL;
当所述第一URL不在预设的黑名单中时,提取所述第一URL对应的网页中的内容,其中,所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种;
确定所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度;
根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL;
当所述第二相似度包括各第二URL相似度、文本相似度、图像相似度以及视频相似度时,所述根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL,具体包括:
根据所述第一相似度与所述各第二URL相似度,将所述第一相似度与所述各第二URL相似度中的最大值确定为第三相似度;
根据所述图像相似度与所述视频相似度,将所述图像相似度与所述视频相似度中的最大值确定为第四相似度;
根据所述第三相似度、所述文本相似度以及所述第四相似度,以及预设分数确定规则,分别确定出所述第三相似度、所述文本相似度以及所述第四相似度对应的分数值;
当所述分数值之和不小于预设分数阈值时,识别所述第一URL为非法URL;
当所述分数值之和小于预设分数阈值时,识别所述第一URL不为非法URL。
2.如权利要求1所述的方法,其特征在于,所述第二相似度包括:URL相似度、文本相似度、图像相似度、视频相似度中的至少一种;
确定所述内容与已知的非法内容的第二相似度,具体包括:
确定各第二URL与已知的非法URL的URL相似度;和/或
确定文本信息与预设的非法词库中各关键词的文本相似度;和/或
确定图像信息与预设的非法图库中各图像的图像相似度;和/或
确定视频信息中各帧图像与所述非法图库中各图像的视频相似度。
3.如权利要求2所述的方法,其特征在于,
确定所述第一URL与已知的非法URL的第一相似度,具体包括:
将所述第一URL拆分成各第一字符串;
针对每个已知的非法URL,将该非法URL拆分成各非法字符串,比较各第一字符串与各非法字符串是否相同,并根据比较结果,生成所述第一URL对应的向量以及该非法URL对应的向量,根据所述第一URL对应的向量以及该非法URL对应的向量确定所述第一URL与该非法URL的相似度;
根据确定的所述第一URL与每个非法URL的相似度,将最大相似度确定为所述第一URL与已知的非法URL的第一相似度;
确定各第二URL与已知的非法URL的URL相似度,具体包括:
针对每个第二URL,将该第二URL拆分成各第二字符串,针对每个已知的非法URL,将该非法URL拆分成各非法字符串,比较各第二字符串与各非法字符串是否相同,并根据比较结果,生成该第二URL对应的向量以及该非法URL对应的向量,根据该第二URL对应的向量以及该非法URL对应的向量确定该第二URL与该非法URL的相似度,根据确定的该第二URL与每个非法URL的相似度,确定最大相似度;
根据针对每个第二URL确定的最大相似度,将各最大相似度中的最大值确定为URL相似度。
4.如权利要求2所述的方法,其特征在于,确定文本信息与预设的非法词库中各关键词的文本相似度,具体包括:
对所述文本信息进行分词处理,获取所述文本信息中的每个词;
比较获取到的所述文本信息中的每个词与所述预设的非法词库中各关键词是否相同;
根据比较结果,生成所述文本信息对应的向量以及所述预设的非法词库对应的向量;
根据所述文本信息对应的向量以及所述非法词库对应的向量,确定所述文本相似度。
5.如权利要求2所述的方法,其特征在于,
确定图像信息与预设的非法图库中各图像的图像相似度,具体包括:
对各图像信息与预设的非法图库中各图像进行聚类;
根据每个图像信息所在的类中包含的所述非法图库中的图像的数量,确定所述图像相似度;
确定视频信息中各帧图像与所述非法图库中各图像的视频相似度,具体包括:
针对每一个视频信息,获取该视频信息中各帧图像;
对获取到的该视频信息中各帧图像与预设的非法图库中各图像进行聚类;
根据所述各帧图像所在的类中包含的所述非法图库中各图像的数量,确定该视频信息中各帧图像与预设的非法图库中各图像的相似度;
根据针对每一个视频信息确定的相似度,将最大相似度确定为视频相似度。
6.一种识别非法统一资源标识符URL的装置,其特征在于,所述装置包括:
第一确定模块,用于确定待识别的第一URL;
提取模块,用于当所述第一URL不在预设的黑名单中时,提取所述第一URL对应的网页中的内容,其中,所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种;
第二确定模块,用于确定所述第一URL与已知的非法URL的第一相似度,以及所述内容与已知的非法内容的第二相似度;
识别模块,用于当所述第二相似度包括各第二URL相似度、文本相似度、图像相似度以及视频相似度时,根据所述第一相似度和第二相似度,识别所述第一URL是否为非法URL,具体包括:根据所述第一相似度与所述各第二URL相似度,将所述第一相似度与所述各第二URL相似度中的最大值确定为第三相似度;
根据所述图像相似度与所述视频相似度,将所述图像相似度与所述视频相似度中的最大值确定为第四相似度;
根据所述第三相似度、所述文本相似度以及所述第四相似度,以及预设分数确定规则,分别确定出所述第三相似度、所述文本相似度以及所述第四相似度对应的分数值;
当所述分数值之和不小于预设分数阈值时,识别所述第一URL为非法URL;
当所述分数值之和小于预设分数阈值时,识别所述第一URL不为非法URL。
7.如权利要求6所述的装置,其特征在于,所述第二相似度包括:URL相似度、文本相似度、图像相似度、视频相似度中的至少一种;
第二确定模块,包括:
URL确定子模块,用于确定第二URL与已知的非法URL的URL相似度;
文本确定子模块,用于确定文本信息与预设的非法词库中各关键词的文本相似度;
图像确定子模块,用于确定图像信息与预设的非法图库中各图像的图像相似度;
视频确定子模块,用于确定视频信息中各帧图像与所述非法图库中各图像的视频相似度。
8.如权利要求7所述的装置,其特征在于,
第二确定模块,用于:
将所述第一URL拆分成各第一字符串;
针对每个已知的非法URL,将该非法URL拆分成各非法字符串,比较各第一字符串与各非法字符串是否相同,并根据比较结果,生成所述第一URL对应的向量以及该非法URL对应的向量,根据所述第一URL对应的向量以及该非法URL对应的向量确定所述第一URL与该非法URL的相似度;
根据确定的所述第一URL与每个非法URL的相似度,将最大相似度确定为所述第一URL与已知的非法URL的第一相似度;
URL确定子模块,用于:
针对每个第二URL,将该第二URL拆分成各第二字符串,针对每个已知的非法URL,将该非法URL拆分成各非法字符串,比较各第二字符串与各非法字符串是否相同,并根据比较结果,生成该第二URL对应的向量以及该非法URL对应的向量,根据该第二URL对应的向量以及该非法URL对应的向量确定该第二URL与该非法URL的相似度,根据确定的该第二URL与每个非法URL的相似度,确定最大相似度;
根据针对每个第二URL确定的最大相似度,将各最大相似度中的最大值确定为URL相似度。
9.如权利要求7所述的装置,其特征在于,文本确定子模块,用于:
对所述文本信息进行分词处理,获取所述文本信息中的每一个词;
比较获取到的所述文本信息中的每个词与所述预设的非法词库中各关键词是否相同;
根据比较结果,生成所述文本信息对应的向量以及所述预设的非法词库对应的向量;
根据所述文本信息对应的向量以及所述非法词库对应的向量,确定所述文本相似度。
10.如权利要求7所述的装置,其特征在于,
图像确定子模块,用于:
对各图像信息与预设的非法图库中各图像进行聚类;
根据每个图像信息所在的类中包含的所述非法图库中的图像的数量,确定所述图像相似度;
视频确定子模块,用于:
针对每一个视频信息,获取该视频信息中各帧图像;
对获取到的该视频信息中各帧图像与预设的非法图库中各图像进行聚类;
根据所述各帧图像所在的类中包含的所述非法图库中各图像的数量,确定该视频信息中各帧图像与预设的非法图库中各图像的相似度;
根据针对每一个视频信息确定的相似度,将最大相似度确定为视频相似度。
CN201610340764.4A 2016-05-19 2016-05-19 一种识别非法统一资源标识符url的方法与装置 Active CN106055574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610340764.4A CN106055574B (zh) 2016-05-19 2016-05-19 一种识别非法统一资源标识符url的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610340764.4A CN106055574B (zh) 2016-05-19 2016-05-19 一种识别非法统一资源标识符url的方法与装置

Publications (2)

Publication Number Publication Date
CN106055574A CN106055574A (zh) 2016-10-26
CN106055574B true CN106055574B (zh) 2019-12-24

Family

ID=57176674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610340764.4A Active CN106055574B (zh) 2016-05-19 2016-05-19 一种识别非法统一资源标识符url的方法与装置

Country Status (1)

Country Link
CN (1) CN106055574B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503244A (zh) * 2016-11-08 2017-03-15 天津海量信息技术股份有限公司 一种统一资源定位符相似度的处理方法
CN108009232A (zh) * 2017-11-29 2018-05-08 北京小米移动软件有限公司 广告屏蔽方法及装置
CN110020256A (zh) * 2017-12-30 2019-07-16 惠州学院 基于用户id和片尾内容的识别有害视频的方法及系统
CN110020251A (zh) * 2017-12-30 2019-07-16 惠州学院 基于用户ip和片尾内容的识别有害视频的方法及系统
CN110020253A (zh) * 2017-12-30 2019-07-16 惠州学院 基于内容的视频拷贝的识别有害视频的方法及其系统
CN110020252B (zh) * 2017-12-30 2022-04-22 惠州学院 基于片尾内容的识别有害视频的方法及其系统
CN110020254A (zh) * 2017-12-30 2019-07-16 惠州学院 基于用户ip和视频拷贝的识别有害视频的方法及系统
CN109993036A (zh) * 2017-12-30 2019-07-09 惠州学院 一种基于用户id识别有害视频的方法及其系统
CN110020259A (zh) * 2017-12-30 2019-07-16 惠州学院 一种基于用户ip识别有害图片的方法及其系统
CN110109952A (zh) * 2017-12-30 2019-08-09 惠州学院 一种识别有害图片的方法及其系统
CN110020255A (zh) * 2017-12-30 2019-07-16 惠州学院 一种基于用户ip识别有害视频的方法及其系统
CN110020258A (zh) * 2017-12-30 2019-07-16 惠州学院 一种基于近似图的url路径识别有害图片的方法及系统
CN110020257A (zh) * 2017-12-30 2019-07-16 惠州学院 基于用户id和视频拷贝的识别有害视频的方法及系统
CN110019946A (zh) * 2017-12-30 2019-07-16 惠州学院 一种识别有害视频的方法及其系统
CN108366071B (zh) 2018-03-06 2020-06-23 阿里巴巴集团控股有限公司 Url异常定位方法、装置、服务器及存储介质
CN108810025A (zh) * 2018-07-19 2018-11-13 平安科技(深圳)有限公司 一种暗网的安全性评估方法、服务器及计算机可读介质
CN109347786A (zh) * 2018-08-14 2019-02-15 国家计算机网络与信息安全管理中心 钓鱼网站检测方法
CN109582833B (zh) * 2018-11-06 2023-09-22 创新先进技术有限公司 异常文本检测方法及装置
CN109618237A (zh) * 2018-11-26 2019-04-12 维沃移动通信有限公司 一种视频处理方法及移动终端
CN109743309B (zh) * 2018-12-28 2021-09-10 微梦创科网络科技(中国)有限公司 一种非法请求识别方法、装置及电子设备
CN110737802B (zh) * 2019-10-15 2022-06-03 中科智云科技有限公司 盗版视频检测方法、装置、电子设备及存储介质
CN111984891A (zh) * 2020-08-07 2020-11-24 游艺星际(北京)科技有限公司 页面展示方法、装置、电子设备和存储介质
CN114553486B (zh) * 2022-01-20 2023-07-21 北京百度网讯科技有限公司 非法数据的处理方法、装置、电子设备及存储介质
CN117176483A (zh) * 2023-11-03 2023-12-05 北京艾瑞数智科技有限公司 一种异常url的识别方法、装置及相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281703A (zh) * 2014-10-22 2015-01-14 小米科技有限责任公司 统一资源定位符url间相似度计算的方法及装置
CN104462152A (zh) * 2013-09-23 2015-03-25 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060070126A1 (en) * 2004-09-26 2006-03-30 Amiram Grynberg A system and methods for blocking submission of online forms.
CN104125209B (zh) * 2014-01-03 2015-09-09 腾讯科技(深圳)有限公司 恶意网址提示方法和路由器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462152A (zh) * 2013-09-23 2015-03-25 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN104281703A (zh) * 2014-10-22 2015-01-14 小米科技有限责任公司 统一资源定位符url间相似度计算的方法及装置

Also Published As

Publication number Publication date
CN106055574A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
US9460117B2 (en) Image searching
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN111708909B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN111159413A (zh) 日志聚类方法、装置、设备及存储介质
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN114900546B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN107368489B (zh) 一种资讯数据处理方法及装置
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
US20200257724A1 (en) Methods, devices, and storage media for content retrieval
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
WO2016101737A1 (zh) 搜索查询方法和装置
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN116821903A (zh) 检测规则确定及恶意二进制文件检测方法、设备及介质
CN112579623A (zh) 存储数据的方法、装置、存储介质及设备
CN115437930A (zh) 网页应用指纹信息的识别方法及相关设备
CN111708908B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN114510669A (zh) 不良信息网站检测方法、装置以及存储介质
CN111597368A (zh) 一种数据处理方法及装置
CN108009171B (zh) 一种提取内容数据的方法和装置
CN115392389B (zh) 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN113515940B (zh) 一种用于文本搜索的方法及设备
CN113515648A (zh) 内容聚类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant