CN110175288B - 一种面向青少年群体的文字和图像数据的过滤方法及系统 - Google Patents

一种面向青少年群体的文字和图像数据的过滤方法及系统 Download PDF

Info

Publication number
CN110175288B
CN110175288B CN201910433221.0A CN201910433221A CN110175288B CN 110175288 B CN110175288 B CN 110175288B CN 201910433221 A CN201910433221 A CN 201910433221A CN 110175288 B CN110175288 B CN 110175288B
Authority
CN
China
Prior art keywords
data
text
filtering
picture
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910433221.0A
Other languages
English (en)
Other versions
CN110175288A (zh
Inventor
王礼鑫
赵燕
陈思明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaso Information Technology Co ltd
Original Assignee
Chinaso Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaso Information Technology Co ltd filed Critical Chinaso Information Technology Co ltd
Priority to CN201910433221.0A priority Critical patent/CN110175288B/zh
Publication of CN110175288A publication Critical patent/CN110175288A/zh
Application granted granted Critical
Publication of CN110175288B publication Critical patent/CN110175288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明公开了一种面向青少年群体的文字和图像数据的过滤方法及系统,所述过滤方法及过滤系统通过对互联网页面数据进行数据预处理,并对数据预处理获取的结果进行是否属于青少年数据的判别、是否属于低质量数据的判别以及是否适合青少年观看图片的判别等操作,在常规的数据过滤基础上,排除了庸俗的网络文字以及图片。优点是:引入HTML视觉分块技术,充分挖掘互联网页面中的不良信息;通过大数据训练,挖掘含有恶意跳转的JS代码,具有极强的数据净化能力;使青少年不感兴趣的数据被滤掉,向青少年输送特定内容的信息,使青少年在有限的时间有效的汲取互联网上的有用信息;从青少年的角度出发,使得互联网页面上的数据更加积极健康向上。

Description

一种面向青少年群体的文字和图像数据的过滤方法及系统
技术领域
本发明涉及文本过滤、图像分类领域,尤其涉及一种面向青少年群体的文字和图像数据的过滤方法及系统。
背景技术
近些年来,随着光纤通信、无线通信等基础设施的完善,越来越多的用户可以通过电脑、平板、手机等终端连入互联网。这种方便性使得初次上网人群的呈现低龄化的趋势。但是,互联网具有开放性,它不会选择性的向特定人群传递特定信息。此外,互联网也具有多样性,除了有价值的信息之外,还充斥了暴力、黄色、赌博等不良有害信息。
对于黄色、赌博、暴力等有害信息的过滤传统手段主要有:1.人工审查,即在发稿前由编辑部门进行审核,保证发布的每条稿件无差错;2.关键字匹配,即设定关键词黑名单,命中黑名单词汇的信息被过滤掉;3.从白名单站点中进行数据筛选,即从大站、政府站点等优质站点中进行数据筛选。第一种方法在面对每天的海量信息时效率低下,且实时性较差;第二种方法的缺陷在于内容的发布者会通过变换文字、加入特殊符号等各种各样的形式产生垃圾信息,黑名单词表无法做到完全覆盖;第三种方法则因为只限定特定的站点,从而造成大量优质的信息可能会被遗漏。
此外,随着互联网技术的发展,越来越多的互联网用户不仅是内容的接收者,更可能是内容的发布者;很多内容输出人员甚至是商业公司会通过庸俗的文字或者低俗图片来达到吸引阅读量或者追求自身利益的目的,这些信息如果不加区分的全部推送给青少年,不仅会严重挤压青少年宝贵的时间,更可能会向青少年灌输错误的价值观、人生观。
发明内容
本发明的目的在于提供一种面向青少年群体的文字及图像数据过滤方法及系统,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种面向青少年群体的文字和图像数据的过滤方法,所述过滤方法包括如下步骤,
S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;
S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;
S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;
S4、寻找并下载分区文本中的有效图片链接,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则执行步骤S5,若否,则过滤该图片。
优选的,步骤S1包括如下内容,
S101、网页建树;按照HTMLDTD4.0规范分解互联网页面上所有的标签,一个标签作为一个树节点,按照标签之间的包含依赖关系、采用递归下降的方法构造语法树,并将互联网页面上的文本分为不同的区域,分别为META区域、正文区域、链接区域;
S102、分区文本提取;对分区后的文本进行标题提取、META信息提取和链接文本提取的操作。
优选的,所述标题提取具体为,遍历分区后的文本,当遍历到TAG_TITLE节点后,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取标题内容;所述META信息提取具体为,遍历分区后的文本中的META节点,获取KEYWORDS-DESCRIPTION节点,将该节点及其所有属性为TAG_PURETEXT 的子节点的文字内容进行文字处理,获取META内容;所述链接文本提取具体为,从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接,并从A 和OPTION的PURE_TEXT子节点中提取链接文本。
优选的,步骤S2包括如下内容,
S201、在分区文本中收集一批已标明是否适合青少年的数据,作为FastText 模型的第一训练集,记为
T={<X1,y1>,<X2,y2>,...,<XN,yN>}
其中,i为第一训练集中数据的编号,i=1,2,...,N,N为第一训练集中数据总数,Xi为第一训练集中第i个数据,yi为第一训练集中第i个数据的标签,如果该数据适合青少年,则yi=1;如果该数据不适合青少年,则yi=0;
S202、对第一训练集中的数据进行切词,生成多维词向量,表示为 Xi={xi1,xi2,......xik},其中,xik表示第i条数据切词后的第k个词;并将第一训练集灌入FastText框架进行训练,得到FastText模型;
S203、对第一训练集中部分标注过的数据,将其切词后的多为词向量输入FastText模型,获取输出结果,判断输出结果与设定阈值之间的大小关系,若输出结果大于或等于设定阈值,则过滤该数据,若输出结果小于设定阈值,则该数据适合青少年,并执行步骤S3。
优选的,根据输出结果和部分标注过数据的标签之间的差异,适应性的调整设定阈值或第一训练集。
优选的,步骤S3包括如下内容,
S301、依据已知低质量页面中的JS,对分区文本中数据的JS代码进行聚类,提取常见的作弊JS跳转代码,并生成模板;对步骤S1中提取出的分区文本中数据的JS代码与模板进行正则匹配,如果匹配成功,则过滤分区文本中的数据;如果匹配失败,则执行步骤S302;
S302、构建赌博、色情、暴力以及对应的变种词表;通过构建Trie树的方式进行多模匹配,如果匹配成功,则过滤该分区文本中的数据;如果匹配失败,则执行步骤S303;
S303、对META区域、正文区域、连接区域的数据进行识别,如果数据被识别为低质量数据,则过滤该数据;如果数据不被识别为低质量数据,则该数据将被呈现。
优选的,步骤S4包括如下内容,
S401、寻找并下载分区文本中的有效图片链接,收集四类语料,分别为正常、色情、性感和变态;在数据预处理阶段将各图片裁剪成指定大小,令图片链构成第二训练集
G={<P1,q1>,<P2,q2>,...,<PM,qM>}
其中,j为第二训练集中数据的编号,j=1,2,...,M,M为第二训练集中数据总数;Pj为第二训练集中第j个数据,qj为第二训练集中第j个数据的标签;所述第二训练集中的各个标签分别为正常、色情、性感和变态的其中之一;
S402、将第二训练集通过卷积神经网络进行训练,并获取训练模型;
S402、采用训练模型判别分区文本中的实际图片,如果该图片被识别为非正常图片,则该图片将被过滤,若该图片被识别为正常图片,则该图片将被呈现。
优选的,所述卷积神经网络包括输入层、卷积层、池化层、扁平化层、全连接层和输出层,其以交叉熵均值作为cost,以Adam优化算法寻找全局最优点;所述训练集以每512条数据为一个批次使用所述卷积神经网络进行训练。
本发明的目的还在于提供一种面向青少年群体的文字和图像数据的过滤系统,所述过滤系统用于实现上述任一所述的过滤方法,所述过滤系统包括,
数据预处理模块;用于对互联网上的HTML页面进行数据预处理,所述数据预处理模块中设置有页面分区机制,能够将HTML文本分为不同的区域;
青少年数据判断模块;用于判断分区文本中的数据是否为适合青少年阅读的数据;
低质量数据判断模块,用于判断分区文本中的数据是否属于低质量数据;
青少年图片判断模块;用于判断分区文本中的图片是否适合呈现给青少年。
本发明的有益效果是:1、本发明通过引入HTML视觉分块技术,充分挖掘互联网页面中的不良信息;并通过大数据训练,挖掘含有恶意跳转的JS代码,具有极大的数据净化能力。2、本发明提供的过滤方法使得青少年不感兴趣的数据被提前滤掉,向青少年输送特定内容的信息,使得青少年在有限的时间更加有效的汲取互联网上的有用信息。3、本发明从青少年的角度出发,通过特定的数据训练,使得经过此装置的数据更加积极健康向上,可以让家长放心的让孩子们使用。
附图说明
图1是本发明实施例中过滤方法的流程图;
图2是本发明实施例中构建的语法树的结构示意图;
图3是本发明实施例中互联网页面分区示意图;
图4是本发明实施例中卷积神经网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本发明提供了一种面向青少年群体的文字和图像数据的过滤方法及系统,所述过滤方法包括如下步骤,
S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;
S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;
S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;
S4、寻找并下载分区文本中的有效图片链,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则执行步骤S5,若否,则过滤该图片。
本实施例中,步骤S1包括如下内容,
S101、网页建树;按照HTMLDTD4.0规范分解互联网页面上所有的标签,一个标签作为一个树节点,按照标签之间的包含依赖关系、采用递归下降的方法构造语法树,如图2所示;并将互联网页面上的文本分为不同的区域,分别为META 区域、正文区域、链接区域,如图3所示;
S102、分区文本提取;对分区后的文本进行标题提取、META信息提取和链接文本提取的操作。
本实施例中,所述标题提取具体为,遍历分区后的文本,当遍历到TAG_TITLE 节点后,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取标题内容;所述META信息提取具体为,遍历分区后的文本中的META 节点,获取KEYWORDS-DESCRIPTION节点,将该节点及其所有属性为TAG_PURETEXT 的子节点的文字内容进行文字处理,获取META内容;所述链接文本提取具体为,从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接,并从A 和OPTION的PURE_TEXT子节点中提取链接文本。
本实施例中,步骤S2包括如下内容,
S201、在分区文本中收集一批已标明是否适合青少年的数据,作为FastText 模型的第一训练集,记为
T={<X1,y1>,<X2,y2>,...,<XN,yN>}
其中,i为第一训练集中数据的编号,i=1,2,...,N,N为第一训练集中数据总数,Xi为第一训练集中第i个数据,yi为第一训练集中第i个数据的标签,如果该数据适合青少年,则yi=1;如果该数据不适合青少年,则yi=0;
S202、对第一训练集中的数据进行切词,生成多维词向量,表示为 Xi={xi1,xi2,......xik},其中,xik表示第i条数据切词后的第k个词;并将第一训练集灌入FastText框架进行训练,得到FastText模型;
S203、对第一训练集中部分标注过的数据记为{X1,...,Xm},将其切词后的多为词向量输入FastText模型,获取输出结果记为{f1,...,fm},判断输出结果fj与设定阈值F之间的大小关系,若输出结果大于或等于设定阈值,则过滤该数据,若输出结果小于设定阈值,则该数据适合青少年,并执行步骤S3。
本实施例中,根据输出结果{f1,...,fm}和部分标注过数据的标签{y1,...,ym}之间的差异,适应性的调整设定阈值(也就是返回步骤S203)或第一训练集(也就是返回步骤S201)。
本实施例中,步骤S3包括如下内容,
S301、依据已知色情、赌博等低质量页面中的JS,对分区文本中数据的JS 代码进行聚类,提取常见的作弊JS跳转代码,并生成模板;对步骤S1中提取出的分区文本中数据的JS代码与模板进行正则匹配,如果匹配成功,则过滤分区文本中的数据;如果匹配失败,则执行步骤S302;
S302、构建赌博、色情、暴力以及对应的变种词表;通过构建Trie树的方式进行多模匹配,如果匹配成功,则过滤该分区文本中的数据;如果匹配失败,则执行步骤S303;
S303、对META区域、正文区域、连接区域的数据进行识别,如果数据被识别为低质量数据,则过滤该数据;如果数据不被识别为低质量数据,则该数据将被呈现。该过程采用svm机器学习技术进行识别。
本实施例中,步骤S4包括如下内容,
S401、寻找并下载分区文本中的图片链接,收集四类语料,分别为正常、色情、性感和变态;在数据预处理阶段将各图片裁剪成指定大小,本实施例中,所述图片被剪裁成32*32像素大小;令图片链构成第二训练集
G={<P1,q1>,<P2,q2>,...,<PM,qM>}
其中,j为第二训练集中数据的编号,j=1,2,...,M,M为第二训练集中数据总数;Pj为第二训练集中第j个数据,qj为第二训练集中第j个数据的标签;所述第二训练集中的各个标签分别为正常、色情、性感和变态的其中之一;
S402、将第二训练集通过卷积神经网络进行训练,并获取训练模型;
S402、采用训练模型判别分区文本中的实际图片,如果该图片被识别为非正常图片,则该图片将被过滤,若该图片被识别为正常图片,则该图片将被呈现。
本实施例中,如图4所示,所述卷积神经网络包括输入层、卷积层、池化层、扁平化层、全连接层和输出层,其以交叉熵均值作为cost,以Adam优化算法寻找全局最优点;所述训练集以每512条数据为一个批次使用所述卷积神经网络进行训练。
本实施例中,所述采用卷积神经网络进行训练时,每512条数据为一个批次进行训练,最多迭代1万个Epochs。选择3*3的卷积核,卷积步长为(1,1,1,1),卷积的padding为SAME模式,激活函数为Relu,最大池化为2*2,最大池化的步长为(1,2,2,1),池化的padding为SAME;其中全连接层含有Dropout,保留节点的比例为0.5。
实施例二
本实施例中,本发明的目的还在还提供了一种面向青少年群体的文字和图像数据的过滤系统,所述过滤系统用于实现过滤方法,所述过滤系统包括,
数据预处理模块;用于对互联网页面上的文本进行数据预处理,所述数据预处理模块中设置有页面分区机制,能够将HTML文本分为不同的区域;
青少年数据判断模块;用于判断分区文本中的数据是否为适合青少年阅读的数据;
低质量数据判断模块,用于判断分区文本中的数据是否属于低质量数据;所述低质量数据判断模块向分区文本数据中加入一些非文本的特征,如JS结构、 HTML隐含文字、页面结构,进行判断;
青少年图片判断模块;用于判断分区文本中的图片是否适合呈现给青少年。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明通过提供一种面向青少年群体的文字和图像数据的过滤方法及系统,通过对互联网中的所有页面进行分析,排除不适合青少年的信息。本发明综合使用HTML分解技术、FastText、TensorFlow机器学习框架以及多模匹配技术对输入数据进行充分的挖掘与计算,在常规的数据过滤基础上,剔除了青少年不感兴趣的信息,排除了庸俗的网络文字以及图片,使得家长能放心的让广大青少年在互联网的信息海洋中汲取知识。本发明通过引入HTML视觉分块技术,充分挖掘互联网页面中的不良信息;并通过大数据训练,挖掘含有恶意跳转的JS 代码,具有极大的数据净化能力。本发明提供的过滤方法使得青少年不感兴趣的数据被提前滤掉,向青少年输送特定内容的信息,使得青少年在有限的时间更加有效的汲取互联网上的有用信息。同时,本发明从青少年的角度出发,通过特定的数据训练,使得经过此装置的数据更加积极健康向上,可以让家长放心的让孩子们使用。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (7)

1.一种面向青少年群体的文字和图像数据的过滤方法,其特征在于:所述过滤方法包括如下步骤,
S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;
S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;
S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;
S4、寻找并下载分区文本中的有效图片链接,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则该图片将被呈现,若否,则过滤该图片;
步骤S1包括如下内容,
S101、网页建树;按照HTMLDTD4.0规范分解互联网页面上所有的标签,一个标签作为一个树节点,按照标签之间的包含依赖关系、采用递归下降的方法构造语法树,并将互联网页面上的文本分为不同的区域,分别为META区域、正文区域、链接区域;
S102、分区文本提取;对分区后的文本进行标题提取、META信息提取和链接文本提取的操作;
步骤S3包括如下内容,
S301、依据已知低质量页面中的JS,对分区文本中数据的JS代码进行聚类,提取常见的作弊JS跳转代码,并生成模板;对步骤S1中提取出的分区文本中数据的JS代码与模板进行正则匹配,如果匹配成功,则过滤分区文本中的数据;如果匹配失败,则执行步骤S302;
S302、构建赌博、色情、暴力以及对应的变种词表;通过构建Trie树的方式进行多模匹配,如果匹配成功,则过滤该分区文本中的数据;如果匹配失败,则执行步骤S303;
S303、对META区域、正文区域、链接区域的数据进行识别,如果数据被识别为低质量数据,则过滤该数据;如果数据不被识别为低质量数据,则该数据将被呈现。
2.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:所述标题提取具体为,遍历分区后的文本,当遍历到TAG_TITLE节点后,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取标题内容;所述META信息提取具体为,遍历分区后的文本中的META节点,获取KEYWORDS-DESCRIPTION节点,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取META内容;所述链接文本提取具体为,从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接,并从A和OPTION的PURE_TEXT子节点中提取链接文本。
3.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:步骤S2包括如下内容,
S201、在分区文本中收集一批已标明是否适合青少年的数据,作为FastText模型的第一训练集,记为
T={<X1,y1>,<X2,y2>,...,<Xi,yi>}
其中,i为第一训练集中数据的编号,i=1,2,...,N,N为第一训练集中数据总数,Xi为第一训练集中第i个数据,yi为第一训练集中第i个数据的标签,如果该数据适合青少年,则yi=1;如果该数据不适合青少年,则yi=0;
S202、对第一训练集中的数据进行切词,生成多维词向量,表示为Xi={xi1,xi2,......xik},其中,xik表示第i条数据切词后的第k个词;并将第一训练集灌入FastText框架进行训练,得到FastText模型;
S203、对第一训练集中部分标注过的数据,将其切词后的多为词向量输入FastText模型,获取输出结果,判断输出结果与设定阈值之间的大小关系,若输出结果大于或等于设定阈值,则过滤该数据,若输出结果小于设定阈值,则该数据适合青少年,并执行步骤S3。
4.根据权利要求3所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:根据输出结果和部分标注过数据的标签之间的差异,适应性的调整设定阈值或第一训练集。
5.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:步骤S4包括如下内容,
S401、寻找并下载分区文本中的有效图片链接,收集四类语料,分别为正常、色情、性感和变态;在数据预处理阶段将各图片裁剪成指定大小,令图片链构成第二训练集
G={<P1,q1>,<P2,q2>,...,<Pj,qj>}
其中,j为第二训练集中数据的编号,j=1,2,...,M,M为第二训练集中数据总数;Pj为第二训练集中第j个数据,qj为第二训练集中第j个数据的标签;所述第二训练集中的各个标签分别为正常、色情、性感和变态的其中之一;
S402、将第二训练集通过卷积神经网络进行训练,并获取训练模型;
S403、采用训练模型判别分区文本中的实际图片,如果该图片被识别为非正常图片,则该图片将被过滤,若该图片被识别为正常图片,则该图片将被呈现。
6.根据权利要求5所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:所述卷积神经网络包括输入层、卷积层、池化层、扁平化层、全连接层和输出层,其以交叉熵均值作为cost,以Adam优化算法寻找全局最优点;所述训练集以每512条数据为一个批次使用所述卷积神经网络进行训练。
7.一种面向青少年群体的文字和图像数据的过滤系统,所述过滤系统用于实现上述权利要求1至6任一所述的过滤方法,其特征在于:所述过滤系统包括,
数据预处理模块;用于对互联网上的HTML页面进行数据预处理,所述数据预处理模块中设置有页面分区机制,能够将HTML文本分为不同的区域;
青少年数据判断模块;用于判断分区文本中的数据是否为适合青少年阅读的数据;
低质量数据判断模块,用于判断分区文本中的数据是否属于低质量数据;
青少年图片判断模块;用于判断分区文本中的图片是否适合呈现给青少年。
CN201910433221.0A 2019-05-23 2019-05-23 一种面向青少年群体的文字和图像数据的过滤方法及系统 Active CN110175288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910433221.0A CN110175288B (zh) 2019-05-23 2019-05-23 一种面向青少年群体的文字和图像数据的过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910433221.0A CN110175288B (zh) 2019-05-23 2019-05-23 一种面向青少年群体的文字和图像数据的过滤方法及系统

Publications (2)

Publication Number Publication Date
CN110175288A CN110175288A (zh) 2019-08-27
CN110175288B true CN110175288B (zh) 2020-05-19

Family

ID=67692021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910433221.0A Active CN110175288B (zh) 2019-05-23 2019-05-23 一种面向青少年群体的文字和图像数据的过滤方法及系统

Country Status (1)

Country Link
CN (1) CN110175288B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259237B (zh) * 2020-01-13 2021-02-09 中国搜索信息科技股份有限公司 一种用于公众有害信息的识别方法
CN111931073B (zh) * 2020-10-10 2021-03-02 腾讯科技(深圳)有限公司 内容推送方法、装置、电子设备及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324888A (zh) * 2007-06-13 2008-12-17 北京恒金恒泰信息技术有限公司 基于ie的过滤色情软件插件
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
CN108984706A (zh) * 2018-07-06 2018-12-11 浙江大学 一种基于深度学习融合文本和结构特征的网页分类方法
CN109492177A (zh) * 2018-11-02 2019-03-19 中国搜索信息科技股份有限公司 一种基于网页语义结构的网页分块方法
CN109766410A (zh) * 2019-01-07 2019-05-17 东华大学 一种基于fastText算法的新闻文本自动分类系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066269A1 (en) * 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
CN100512181C (zh) * 2006-06-23 2009-07-08 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN101944109B (zh) * 2010-09-06 2012-06-27 华南理工大学 一种基于页面分块的图片摘要提取系统及方法
CN103198146B (zh) * 2013-04-19 2015-05-27 中国科学院计算技术研究所 面向网络流式数据的事件实时过滤方法和系统
CN103955529B (zh) * 2014-05-12 2018-05-01 中国科学院计算机网络信息中心 一种互联网信息搜索聚合呈现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324888A (zh) * 2007-06-13 2008-12-17 北京恒金恒泰信息技术有限公司 基于ie的过滤色情软件插件
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
CN108984706A (zh) * 2018-07-06 2018-12-11 浙江大学 一种基于深度学习融合文本和结构特征的网页分类方法
CN109492177A (zh) * 2018-11-02 2019-03-19 中国搜索信息科技股份有限公司 一种基于网页语义结构的网页分块方法
CN109766410A (zh) * 2019-01-07 2019-05-17 东华大学 一种基于fastText算法的新闻文本自动分类系统

Also Published As

Publication number Publication date
CN110175288A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN100565523C (zh) 一种基于多分类器融合的敏感网页过滤方法及系统
CN101251855B (zh) 一种互联网网页清洗方法、系统及设备
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN104504150A (zh) 新闻舆情监测系统
CN104598577B (zh) 一种网页正文的提取方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN109543126A (zh) 基于块文字占比的网页正文信息提取方法
CN111125484A (zh) 话题发现方法、系统及电子设备
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN111310476A (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN110175288B (zh) 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN106649338B (zh) 信息过滤策略生成方法及装置
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
KR102001375B1 (ko) 금융뉴스 스팸구별 장치 및 그 방법
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN113051462A (zh) 一种多分类模型训练方法、系统及装置
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN111651559B (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN111383660A (zh) 一种网站不良信息监测系统及其监测方法
CN109543049B (zh) 一种针对写作特点自动推送素材的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant