CN108319672A - 基于云计算的移动终端不良信息过滤方法及系统 - Google Patents

基于云计算的移动终端不良信息过滤方法及系统 Download PDF

Info

Publication number
CN108319672A
CN108319672A CN201810071433.4A CN201810071433A CN108319672A CN 108319672 A CN108319672 A CN 108319672A CN 201810071433 A CN201810071433 A CN 201810071433A CN 108319672 A CN108319672 A CN 108319672A
Authority
CN
China
Prior art keywords
webpage
information
detected
filtering
cloud computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810071433.4A
Other languages
English (en)
Other versions
CN108319672B (zh
Inventor
孙知信
邢府纬
骆冰清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810071433.4A priority Critical patent/CN108319672B/zh
Publication of CN108319672A publication Critical patent/CN108319672A/zh
Application granted granted Critical
Publication of CN108319672B publication Critical patent/CN108319672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

基于云计算的移动终端不良信息过滤方法及系统,方法包括如下步骤:S1、客户端根据自定义过滤规则和网站在线检测过滤待检测的网页,再将本地的过滤规则和待检测的网页发送至云端;S2、待检测的网页按照预先设定的URL过滤和关键字过滤进行初步过滤;S3、对初步过滤后的网页进行预处理,并输入至云计算的分类器;S4、分类器通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阀值判断是否为不良网站;S5、经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页的类型。本发明将传统的客户端过滤方式与云端智能分类过滤方式相结合,构建一种新型混合过滤方法,有效提升了检测过滤的效率和正确率。

Description

基于云计算的移动终端不良信息过滤方法及系统
技术领域
本发明属于信息过滤技术领域,具体涉及一种基于云计算的移动终端不良信息过滤方法及系统。
背景技术
随着我国经济以及信息技术的不断发展,互联网已经融入到人们的生活当中,越来越多的人选择从互联网中选取所需要的信息,这也极大的促进了互联网的蓬勃发展。同时,人们不在仅仅依靠个人计算机来获取网络上的信息,以智能手机为代表的移动设备以其携带方便、使用快捷等优点成为了人们随时随地连接互联网的优先选择。
目前国内的网络过滤主流产品研发都聚焦在PC端,大多是通过简单的黑白名单对比过滤不良网站。剩余的也只是简单的通过设置黑白名单以及敏感词等较为初级的方式进行屏蔽,这类方法不仅显的较为生硬需要人为的设置,同时也会存在过滤正常网页的情况,而这类产品大多都是在客户端本地进行过滤的,无法对网页信息进行智能化过滤。
发明内容
本发明的目的在于:提供基于云计算的移动终端不良信息过滤方法及系统,将传统的客户端本地过滤方式与云端智能分类过滤方式相结合,构建一种新型混合过滤方法,有效提升了检测过滤的效率和正确率。
为了达到以上目的,基于云计算的移动终端不良信息过滤方法,包括如下步骤:
S1、客户端根据自定义过滤规则和网站在线检测过滤待检测的网页,再将本地的过滤规则和待检测的网页发送至云端;
S2、待检测的网页按照预先设定的URL过滤和关键字过滤进行初步过滤;
S3、对初步过滤后的网页进行预处理,并输入至云计算的分类器;
S4、分类器通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阀值判断是否为不良网站;
S5、经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页的网页类型。
本发明的优选方案是:自定义过滤规则是手动设置黑白名单或所需屏蔽的关键字,网站在线检测是通过识别待检测的网站的URL和文本内容进行过滤。
优选地,客户端通过网络内容检测请求控制模块向云端发起请求,将本地的自定义过滤规则传输到云端更新,再向云端传输待检测的网页信息。
优选地,URL过滤为在云端设置已知不良网站的黑名单和已认证网站的白名单,在黑名单和白名单中查找是否包含待检测的网页网站,关键字过滤为将待检测的网页中的文本内容与预先设置的关键字实时对比,当匹配数量达到设定阀值后进行过滤。
优选地,步骤S3中对初步过滤后的网页进行预处理包括文本预处理和图像预处理,文本预处理为使用Libpcap函数包抓取网页的文本内容,去除HTML标签及CSS样式,再采用统计模型中文分词,过滤分词出的无帮助词汇;图像预处理为对待测图形去噪、分割以及边缘分割,再通过YCbCr色彩模型对分割后的图形进行二值化,提取肤色像素,获取肤色像素的比例以及图片的纹理特征,并通过人脸识别估算人脸的轮廓面积。
优选地,步骤S4中分类器为并行KNN分类过滤器,初步分类包括网页信息分析阶段和网页信息分类阶段。
更优选地,网页信息分析阶段的具体步骤为:
从分布式文件系统中读取训练集,并存放到分布式数据集中;
根据预先定义好的参数将训练集均匀分割为若干个小训练集,并存储到内存中;
采用分布式操作计算分割后的小训练集与待测样本之间的距离,获取若干个邻近的候选样本;
根据每个小训练集与候选样本之间的距离,获取每个小训练集最邻近的候选样本。
更优选地,网页信息分类阶段的具体步骤为:
汇总网页信息分析阶段获取的每个小训练集最邻近的候选样本;
以加权的方式将所有最邻近的候选样本中加权值最高的一类作为训练集的最终分类。
优选地,步骤S5的具体步骤为:
将初步分类的信息作为输出条件从分布式数据集中读取;
将信息以键值对的方式存储,并通过cart算法决策树判断网站类型。
本发明还提供基于云计算的移动终端不良信息过滤系统,包括客户端和云端;客户端内设置有用户自定义规则模块,用于手动设置黑白名单或所需屏蔽的关键字,
和网络在线检测模块,用于通过识别待检测的网站的URL和文本内容进行过滤;
客户端通过网络内容检测请求控制模块向云端发送本地的过滤规则和待检测的网页;
云端包括初步过滤模块,用于按照预先设定的URL过滤和关键字过滤进行初步过滤;
初步分类判断模块,用于通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阀值判断是否为不良网站;
和二次分类识别模块,用于将经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页的类型。
本发明有益效果为:结合传统客户端本地过滤方式与智能云端分类过滤方式,构建一种新型混合过滤方法。云端以并行KNN分类过滤器为基础,充分利用分布式内存数据集的优势,提升了检测过滤的效率及正确率。分类完成的文本信息和图像信息最终通过cart算法决策树综合分析识别,避免了不良网站分类错误的问题。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的方法流程示意图;
图2为本发明的方法的初步分类网页信息分析阶段流程示意图;
图3为本发明的方法的初步分类网页信息分类阶段流程示意图;
图4为本发明的方法的二次分类流程示意图;1
图5为本发明的系统客户端结构示意图;
图6为本发明的系统云端结构示意图。
具体实施方式
实施例一
请参阅图1提供的基于云计算的移动终端不良信息过滤方法,包括如下步骤:
S1、客户端根据自定义过滤规则和网站在线检测过滤待检测的网页,再将本地的过滤规则和待检测的网页发送至云端;
S2、待检测的网页按照预先设定的URL过滤和关键字过滤进行初步过滤;
S3、对初步过滤后的网页进行预处理,并输入至云计算的分类器;
S4、分类器通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阀值判断是否为不良网站;
S5、经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页的网页类型。
以下将对上述步骤S1-S5的操作规则、方式等进行详细说明
自定义过滤规则是针对用户喜好对网站及网页上内容过滤,可以通过手动设置网站网页黑白名单或通过设置所需屏蔽的关键字,当检测到网页出现关键字时,可对用户进行提醒,
网站在线检测是通过识别待检测的网站的URL和文本内容进行过滤。
客户端通过网络内容检测请求控制模块向云端发起请求,首先将本地的自定义过滤规则传输到云端进行更新,再向云端spark平台传输待检测的网页信息。
所述步骤2中URL过滤为在云端设置已知不良网站的黑名单和已认证网站的白名单,每当访问时,在黑名单和白名单中查找是否包含待检测的网页网站,若黑名单中包含,则禁止访问,若白名单中包含,则允许访问。
关键字过滤为将待检测的网页中的文本内容与预先设置的关键字实时对比,当匹配数量达到设定阀值后作为不良信息进行过滤。
步骤S3中对初步过滤后的网页进行预处理包括文本预处理和图像预处理,文本预处理为使用Libpcap函数包抓取网页的文本内容,去除HTML标签及CSS样式,再采用统计语言模型中文分词,过滤分词出的无帮助词汇;
图像预处理为对待测图形去噪、分割以及边缘分割,再通过YCbCr色彩模型对分割后的图形进行二值化,提取肤色像素,获取肤色像素的比例以及图片的纹理特征,并通过人脸识别判断,根据识别出的眼睛的位置和嘴唇的位置以估算人脸的轮廓面积,最终将数据保存在分布式内存中,作为分类器的输入条件。
步骤S4中分类器为并行KNN分类过滤器,初步分类包括网页信息分析阶段和网页信息分类阶段。KNN算法分为两个操作,分别是map操作以及reduce操作,
请参阅图2,网页信息分析阶段的具体步骤为:
从分布式文件系统中读取训练集,并存放到分布式数据集中;
根据预先定义好的参数将训练集均匀分割为n个小训练集(map1,map2…mapn,1<j<n),对于每一个map任务而言都有与之相对应的分割后的每一个小训练集,每一个小训练集中都包含着数量大致相等数量的训练集样本;
采用分布式map操作计算分割后的小训练集与待测样本之间的距离,获取k个邻近的候选样本;
由于map操作阶段矢量Info-Dist是根据距离进行排列的,因此加快了更新过程的速度。矢量Info-Dist是由所包含的是多个排序后的队列合并而成的,并且尽可能的将距离相同的邻居样本保留下来,因此在时间复杂度上最坏的情况是O(n)。这个函数将会把样本中的距离逐一进行比较,如果距离小于当前的最近距离,则距离与网页信息样本将会更新,如果之间的距离高于当前最近距离,则会略过,如果距离完全相同则会在空间充足的情况下将其保留下来。
reducers操作根据每个小训练集与候选样本之间的距离,获取每个小训练集最邻近的候选样本。
请参阅图3,网页信息分类阶段的具体步骤为:
根据预先定义好的参数将训练集均匀分割为m个小训练集(map1,map2…mapm,1<j<m),对于每一个map任务而言都有与之相对应的分割后的每一个小训练集,每一个小训练集中都包含着数量大致相等数量的训练集样本;
采用分布式map操作计算分割后的小训练集与待测样本之间的距离,获取k个邻近的候选样本,为每个样本添加一个id作为关键字标识,以键值对的方式将信息存储,
reducers操作汇总所有临近的候选样本,并根据每个小训练集与候选样本之间的距离,获取每个小训练集最邻近的候选样本;
针对两个以样本id为主键且已经按照距离升序的列表进行聚合,最终得到一个长度为k的新的已经排好序的列表。其中可能存在距离相同的样本,在取k个参数的条件下,如果内存足够将会尽可能的保留这些相同的距离的数据。实现上述将映射的结果关联起来的算法时间复杂度为O(k)。
最后由于在之前阶段已经计算出测试集的k个样本数据的距离值,以及类型,而加权采取的策略就是根据距离的远近以及类型进行加权,距离越小则说明距离此分类越近,距离越远则说明测试数据与此样本类型分类越远,因此距离越近的加权的值越大,距离越远的加权的值越小。另一个加权的特征则是根据不良信息的类别加权,越是被举报比例较大的不良信息类别其加权的比例越大,比如色情淫秽类不良信息,越是被举报比例较小类加权比例越小,例如暴力类不良信息。最终加权的值最大的分类即为信息的最终分类。
请参阅图4,步骤S5的具体步骤为:
将初步分类的信息作为输出条件从分布式数据集中读取;
将信息以键值对的方式存储,并通过cart算法决策树判断网站类型。
与此同时,将这些不良特征进行阈值的设定,超过一定的阈值范围可以设置其不良网站的级别,级别从0到5,0位正常网站,不良程度依次递增,5则是极为严重的网站。最后将不良网站分类以及不良网站级别都存入到数据库中保存,作为云端在进行初步过滤时的参考数据。最后将最终数据返回给客户端。
请参阅图5和图6,本发明还提供基于云计算的移动终端不良信息过滤系统,包括客户端和云端;客户端内设置有用户自定义规则模块,用于手动设置黑白名单或所需屏蔽的关键字,
和网络在线检测模块,用于通过识别待检测的网站的URL和文本内容进行过滤;
客户端通过网络内容检测请求控制模块向云端发送本地的过滤规则和待检测的网页;
云端包括初步过滤模块,用于按照预先设定的URL过滤和关键字过滤进行初步过滤;
初步分类判断模块,用于通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阀值判断是否为不良网站;
和二次分类识别模块,用于将经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页的类型。
本发明结合传统客户端本地过滤方式与智能云端分类过滤方式,构建一种新型混合过滤方法。云端以并行KNN分类过滤器为基础,充分利用分布式内存数据集的优势,提升了检测过滤的效率及正确率。分类完成的文本信息和图像信息最终通过cart算法决策树综合分析识别,避免了不良网站分类错误的问题。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (10)

1.基于云计算的移动终端不良信息过滤方法,其特征在于,包括如下步骤:
S1、客户端根据自定义过滤规则和网站在线检测过滤待检测的网页,再将本地的过滤规则和待检测的网页发送至云端;
S2、待检测的网页按照预先设定的URL过滤和关键字过滤进行初步过滤;
S3、对初步过滤后的网页进行预处理,并输入至云计算的分类器;
S4、分类器通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阀值判断是否为不良网站;
S5、经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页的类型。
2.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述自定义过滤规则是手动设置黑白名单或所需屏蔽的关键字,网站在线检测是通过识别待检测的网站的URL和文本内容进行过滤。
3.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述客户端通过网络内容检测请求控制模块向云端发起请求,将本地的自定义过滤规则传输到云端更新,再向云端传输待检测的网页信息。
4.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述URL过滤为在云端设置已知不良网站的黑名单和已认证网站的白名单,在黑名单和白名单中查找是否包含待检测的网页网站,所述关键字过滤为将待检测的网页中的文本内容与预先设置的关键字实时对比,当匹配数量达到设定阀值后进行过滤。
5.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述步骤S3中对初步过滤后的网页进行预处理包括文本预处理和图像预处理,所述文本预处理为使用Libpcap函数包抓取网页的文本内容,去除HTML标签及CSS样式,再采用统计模型中文分词,过滤分词出的无帮助词汇;所述图像预处理为对待测图形去噪、分割以及边缘分割,再通过YCbCr色彩模型对分割后的图形进行二值化,提取肤色像素,获取肤色像素的比例以及图片的纹理特征,并通过人脸识别估算人脸的轮廓面积。
6.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述步骤S4中分类器为并行KNN分类过滤器,所述初步分类包括网页信息分析阶段和网页信息分类阶段。
7.根据权利要求6所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述网页信息分析阶段的具体步骤为:
从分布式文件系统中读取训练集,并存放到分布式数据集中;
根据预先定义好的参数将训练集均匀分割为若干个小训练集,并存储到内存中;
采用分布式操作计算分割后的小训练集与待测样本之间的距离,获取若干个邻近的候选样本;
根据每个小训练集与候选样本之间的距离,获取每个小训练集最邻近的候选样本。
8.根据权利要求6所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述网页信息分类阶段的具体步骤为:
汇总网页信息分析阶段获取的每个小训练集最邻近的候选样本;
以加权的方式将所有最邻近的候选样本中加权值最高的一类作为训练集的最终分类。
9.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述步骤S5的具体步骤为:
将初步分类的信息作为输出条件从分布式数据集中读取;
将信息以键值对的方式存储,并通过cart算法决策树判断网站类型。
10.基于云计算的移动终端不良信息过滤系统,其特征在于,包括客户端和云端;所述客户端内设置有用户自定义规则模块,用于手动设置黑白名单或所需屏蔽的关键字,
和网络在线检测模块,用于通过识别待检测的网站的URL和文本内容进行过滤;
所述客户端通过网络内容检测请求控制模块向云端发送本地的过滤规则和待检测的网页;
所述云端包括初步过滤模块,用于按照预先设定的URL过滤和关键字过滤进行初步过滤;
初步分类判断模块,用于通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阀值判断是否为不良网站;
和二次分类识别模块,用于将经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页类型。
CN201810071433.4A 2018-01-25 2018-01-25 基于云计算的移动终端不良信息过滤方法及系统 Active CN108319672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810071433.4A CN108319672B (zh) 2018-01-25 2018-01-25 基于云计算的移动终端不良信息过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810071433.4A CN108319672B (zh) 2018-01-25 2018-01-25 基于云计算的移动终端不良信息过滤方法及系统

Publications (2)

Publication Number Publication Date
CN108319672A true CN108319672A (zh) 2018-07-24
CN108319672B CN108319672B (zh) 2023-04-18

Family

ID=62887797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810071433.4A Active CN108319672B (zh) 2018-01-25 2018-01-25 基于云计算的移动终端不良信息过滤方法及系统

Country Status (1)

Country Link
CN (1) CN108319672B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450880A (zh) * 2018-10-26 2019-03-08 平安科技(深圳)有限公司 基于决策树的钓鱼网站检测方法、装置及计算机设备
CN109657710A (zh) * 2018-12-06 2019-04-19 北京达佳互联信息技术有限公司 数据筛选方法、装置、服务器及存储介质
CN111984891A (zh) * 2020-08-07 2020-11-24 游艺星际(北京)科技有限公司 页面展示方法、装置、电子设备和存储介质
CN112187768A (zh) * 2020-09-23 2021-01-05 杭州安恒信息技术股份有限公司 不良信息网站的检测方法、装置、设备及可读存储介质
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114513356A (zh) * 2022-02-15 2022-05-17 上海阅维科技股份有限公司 一种镜像流量下基于Path相似度的同类型网站发现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008053228A2 (en) * 2006-11-01 2008-05-08 Bloxx Limited Methods and systems for web site categorisation training, categorisation and access control
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN105138442A (zh) * 2015-08-24 2015-12-09 成都秋雷科技有限责任公司 网页广告弹窗拦截方法
WO2016058267A1 (zh) * 2014-10-17 2016-04-21 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008053228A2 (en) * 2006-11-01 2008-05-08 Bloxx Limited Methods and systems for web site categorisation training, categorisation and access control
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
WO2016058267A1 (zh) * 2014-10-17 2016-04-21 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
CN105138442A (zh) * 2015-08-24 2015-12-09 成都秋雷科技有限责任公司 网页广告弹窗拦截方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450880A (zh) * 2018-10-26 2019-03-08 平安科技(深圳)有限公司 基于决策树的钓鱼网站检测方法、装置及计算机设备
CN109657710A (zh) * 2018-12-06 2019-04-19 北京达佳互联信息技术有限公司 数据筛选方法、装置、服务器及存储介质
CN111984891A (zh) * 2020-08-07 2020-11-24 游艺星际(北京)科技有限公司 页面展示方法、装置、电子设备和存储介质
CN112187768A (zh) * 2020-09-23 2021-01-05 杭州安恒信息技术股份有限公司 不良信息网站的检测方法、装置、设备及可读存储介质
CN112187768B (zh) * 2020-09-23 2022-10-21 杭州安恒信息技术股份有限公司 不良信息网站的检测方法、装置、设备及可读存储介质
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114513356A (zh) * 2022-02-15 2022-05-17 上海阅维科技股份有限公司 一种镜像流量下基于Path相似度的同类型网站发现方法

Also Published As

Publication number Publication date
CN108319672B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN107835496B (zh) 一种垃圾短信的识别方法、装置和服务器
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN110309304A (zh) 一种文本分类方法、装置、设备及存储介质
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN109993040A (zh) 文本识别方法及装置
CN110019889A (zh) 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置
CN110222592B (zh) 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法
CN112488716B (zh) 一种异常事件检测系统
CN107180056A (zh) 视频中片段的匹配方法和装置
CN107256357A (zh) 基于深度学习的安卓恶意应用的检测和分析方法
CN109359551A (zh) 一种基于机器学习的敏感图像识别方法与系统
CN114780831A (zh) 基于Transformer的序列推荐方法及系统
Mayer et al. Forensic image inspection assisted by deep learning
CN112258254A (zh) 基于大数据架构的互联网广告风险监测方法及系统
CN109670423A (zh) 一种基于深度学习的图像识别系统、方法及介质
CN103177264B (zh) 基于视觉词典全局拓扑表达的图像分类方法
CN112822121A (zh) 流量识别方法、流量确定方法、知识图谱建立方法
CN114422211A (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN113688905A (zh) 一种有害域名核验方法及装置
CN108650145A (zh) 一种家庭宽带WiFi下手机号码特征自动提取方法
CN112163493A (zh) 一种视频虚假人脸检测方法及电子装置
CN114841705B (zh) 一种基于场景识别的反欺诈监测方法
CN111027771A (zh) 景区客流量预估方法、系统、装置及可存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant