CN108153872A - 一种互联网网页信息过滤的方法和装置 - Google Patents
一种互联网网页信息过滤的方法和装置 Download PDFInfo
- Publication number
- CN108153872A CN108153872A CN201711425556.5A CN201711425556A CN108153872A CN 108153872 A CN108153872 A CN 108153872A CN 201711425556 A CN201711425556 A CN 201711425556A CN 108153872 A CN108153872 A CN 108153872A
- Authority
- CN
- China
- Prior art keywords
- text
- webpage
- information
- word segmentation
- matching algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供的一种互联网网页信息过滤的方法和装置,通过预处理网页信息,提取页面中有效信息文本;对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问;将不良信息在进入人们视野之前进行过滤,从而在一定程度上净化网络环境,可以使网民减少获取不良信息的途径,尤其对青少年身心健康的发展尤为重要。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种互联网网页信息过滤的方法和装置。
背景技术
网络是我们现代人获取信息的重要途径之一,是我们与外界进行沟通交流的重要窗口,其重要性已显得尤为重要。人们在日常的生活工作当中,总会或多或少的从网络中获取各种信息,然而那些反不良的信息也会悄然进入人们的视野,污染整个互联网环境。网络不良信息是指出现在互联网上的违反人类道德、法律,以煽动、蛊惑、迷信、蚕食人类精神健康等手段的各种信息。
因此,网络信息的识别和过滤技术的实现就显得尤为重要。通过将网络上的不良信息进行预处理,将不良信息在进入人们视野之前进行过滤,从而在一定程度上净化网络环境,可以使网民减少获取不良信息的途径,尤其对青少年身心健康的发展尤为重要。
发明内容
本发明的目的是提供一种互联网网页信息过滤的方法和装置,将不良信息在进入人们视野之前进行过滤,从而在一定程度上净化网络环境,可以使网民减少获取不良信息的途径,尤其对青少年身心健康的发展尤为重要。
为了解决上述技术问题,本发明提供了如下技术方案:
第一方面,一种互联网网页信息过滤的方法,所述方法包括:
步骤S101:预处理网页信息,提取页面中有效信息文本;
步骤S102:对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;
步骤S103:特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;
步骤S104:文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问。
结合本申请的第一方面,在本申请第一方面的第二种可实施方式中,步骤S101:预处理网页信息,提取页面中有效信息文本;有效信息文本包括唯一识别码。
结合本申请的第一方面,在本申请第一方面的第三种可实施方式中,步骤S102:对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。
结合本申请的第一方面,在本申请第一方面的第四种可实施方式中,步骤S103:特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取;包括计算方法为CHI方法。
结合本申请的第一方面,在本申请第一方面的第五种可实施方式中,步骤S104:文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问,包括采用KNN算法分类文本。
第二方面,一种互联网网页信息过滤的装置,所述装置包括:
预处理单元:用于预处理网页信息,提取页面中有效信息文本;
分词单元:用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;
提取单元:用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;
分类单元:用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问。
结合本申请的第二方面,在本申请第二方面的第二种可实施方式中,预处理单元:用于预处理网页信息,提取页面中有效信息文本;有效信息文本包括唯一识别码。
结合本申请的第二方面,在本申请第二方面的第三种可实施方式中,分词单元:用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。
结合本申请的第二方面,在本申请第二方面的第四种可实施方式中,提取单元:用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取;包括计算方法为CHI方法。
结合本申请的第二方面,在本申请第二方面的第五种可实施方式中,分类单元:用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问,包括采用KNN算法分类文本。
由以上技术方案可知:本发明的目的是提供一种互联网网页信息过滤的方法和装置,通过预处理单元,用于预处理网页信息,提取页面中有效信息文本;分词单元,用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;提取单元,用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;分类单元,用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问;将不良信息在进入人们视野之前进行过滤,从而在一定程度上净化网络环境,可以使网民减少获取不良信息的途径,尤其对青少年身心健康的发展尤为重要。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1为本申请实施例提供的一种互联网网页信息过滤的方法流程图。
具体实施方式
本下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为一种互联网网页信息过滤方法流程图。
第一方面,一种互联网网页信息过滤的方法,所述方法包括:
步骤S101:预处理网页信息,提取页面中有效信息文本;
步骤S102:对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;
步骤S103:特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;
步骤S104:文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问。
本发明的目的是提供一种互联网网页信息过滤的方法,将不良信息在进入人们视野之前进行过滤,从而在一定程度上净化网络环境,可以使网民减少获取不良信息的途径,尤其对青少年身心健康的发展尤为重要。
进一步地,步骤S101:预处理网页信息,提取页面中有效信息文本;有效信息文本包括唯一识别码。
进一步地,步骤S102:对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。
进一步地,步骤S103:特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取;包括计算方法为 CHI方法。
进一步地,步骤S104:文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的 URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问,包括采用KNN算法分类文本。
第二方面,一种互联网网页信息过滤的装置,所述装置包括:
预处理单元:用于预处理网页信息,提取页面中有效信息文本;
分词单元:用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;
提取单元:用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;
分类单元:用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问。
本发明的目的是提供一种互联网网页信息过滤的装置,将不良信息在进入人们视野之前进行过滤,从而在一定程度上净化网络环境,可以使网民减少获取不良信息的途径,尤其对青少年身心健康的发展尤为重要。
进一步地,预处理单元:用于预处理网页信息,提取页面中有效信息文本;有效信息文本包括唯一识别码。
进一步地,分词单元:用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。
进一步地,提取单元:用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取;包括计算方法为 CHI方法。
进一步地,分类单元:用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问,包括采用KNN算法分类文本。
由以上技术方案可知:本发明的目的是提供一种互联网网页信息过滤的方法和装置,通过预处理单元,用于预处理网页信息,提取页面中有效信息文本;分词单元,用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;提取单元,用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;分类单元,用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问;将不良信息在进入人们视野之前进行过滤,从而在一定程度上净化网络环境,可以使网民减少获取不良信息的途径,尤其对青少年身心健康的发展尤为重要。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (10)
1.一种互联网网页信息过滤的方法,其特征在于,所述方法包括:
步骤S101:预处理网页信息,提取页面中有效信息文本;
步骤S102:对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;
步骤S103:特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;
步骤S104:文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问。
2.根据权利要求1所述的方法,其特征在于,步骤S101:预处理网页信息,提取页面中有效信息文本;有效信息文本包括唯一识别码。
3.根据权利要求1所述的方法,其特征在于,步骤S102:对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。
4.根据权利要求1所述的方法,其特征在于,步骤S103:特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取;包括计算方法为CHI方法。
5.根据权利要求1所述的方法,其特征在于,步骤S104:文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问,包括采用KNN算法分类文本。
6.一种互联网网页信息过滤的装置,其特征在于,所述装置包括:
预处理单元:用于预处理网页信息,提取页面中有效信息文本;
分词单元:用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;
提取单元:用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取,得到特征向量;
分类单元:用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问。
7.根据权利要求6所述的装置,其特征在于,预处理单元:用于预处理网页信息,提取页面中有效信息文本;有效信息文本包括唯一识别码。
8.根据权利要求6所述的装置,其特征在于,分词单元:用于对文本中中文分词,采用字符串匹配算法中的正向迭代最大匹配算法;包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。
9.根据权利要求6所述的装置,其特征在于,提取单元:用于特征提取,将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取;包括计算方法为CHI方法。
10.根据权利要求6所述的装置,其特征在于,分类单元:用于文本分类,如果该文本是含有不良信息的文本,那么系统就是显示该网页中含有不良信息,就会将该网页的URL地址列入URL地址黑名单中,这样如果下次再次访问;该网页那么系统就会立刻识别出该网页是不良网页,从而禁止用户进行访问,包括采用KNN算法分类文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711425556.5A CN108153872A (zh) | 2017-12-25 | 2017-12-25 | 一种互联网网页信息过滤的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711425556.5A CN108153872A (zh) | 2017-12-25 | 2017-12-25 | 一种互联网网页信息过滤的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108153872A true CN108153872A (zh) | 2018-06-12 |
Family
ID=62462602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711425556.5A Pending CN108153872A (zh) | 2017-12-25 | 2017-12-25 | 一种互联网网页信息过滤的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153872A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110971619A (zh) * | 2020-01-02 | 2020-04-07 | 惠州学院 | 一种具有不良信息过滤处理的网络技术安全系统及方法 |
CN116502009A (zh) * | 2023-06-25 | 2023-07-28 | 北京奇虎科技有限公司 | 网页过滤方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035128A (zh) * | 2007-04-18 | 2007-09-12 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
CN102117339A (zh) * | 2011-03-30 | 2011-07-06 | 曹晓晶 | 针对不安全网页文本的过滤监管方法 |
CN102163190A (zh) * | 2010-02-20 | 2011-08-24 | 三星电子(中国)研发中心 | 文本特征提取策略制定方法及装置、文本分类方法及装置 |
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN104035999A (zh) * | 2014-06-13 | 2014-09-10 | 南京理工大学 | 基于家长个性化推荐管控的安全网络浏览系统 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
-
2017
- 2017-12-25 CN CN201711425556.5A patent/CN108153872A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035128A (zh) * | 2007-04-18 | 2007-09-12 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
CN102163190A (zh) * | 2010-02-20 | 2011-08-24 | 三星电子(中国)研发中心 | 文本特征提取策略制定方法及装置、文本分类方法及装置 |
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
CN102117339A (zh) * | 2011-03-30 | 2011-07-06 | 曹晓晶 | 针对不安全网页文本的过滤监管方法 |
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN104035999A (zh) * | 2014-06-13 | 2014-09-10 | 南京理工大学 | 基于家长个性化推荐管控的安全网络浏览系统 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110971619A (zh) * | 2020-01-02 | 2020-04-07 | 惠州学院 | 一种具有不良信息过滤处理的网络技术安全系统及方法 |
CN116502009A (zh) * | 2023-06-25 | 2023-07-28 | 北京奇虎科技有限公司 | 网页过滤方法、装置、设备及存储介质 |
CN116502009B (zh) * | 2023-06-25 | 2023-10-31 | 北京奇虎科技有限公司 | 网页过滤方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729319A (zh) | 用于输出信息的方法和装置 | |
CN105068989B (zh) | 地名地址提取方法及装置 | |
CN104598577B (zh) | 一种网页正文的提取方法 | |
CN103593354A (zh) | 一种过滤网络页面广告的方法、装置、服务器及系统 | |
CN103226576A (zh) | 基于语义相似度的垃圾评论过滤方法 | |
CN106170002B (zh) | 一种中文仿冒域名检测方法及系统 | |
CN103605691B (zh) | 用于处理社交网络中发布内容的装置和方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN105320734B (zh) | 一种网页核心内容提取方法 | |
CN111597817B (zh) | 一种事件信息抽取方法及装置 | |
CN105574092A (zh) | 信息挖掘方法和装置 | |
CN109033282A (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
CN108153872A (zh) | 一种互联网网页信息过滤的方法和装置 | |
CN110427628A (zh) | 基于神经网络算法的web资产分类检测方法及装置 | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN107105428A (zh) | 快速补全终端信息库的方法及装置 | |
CN107707404A (zh) | 网站在线人数统计方法、装置和网站服务器 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
Halim et al. | Sign language system for Bahasa Indonesia (Known as SIBI) recognizer using TensorFlow and long short-term memory | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN104090869A (zh) | 一种翻译网络信息的方法及翻译系统 | |
CN108090123A (zh) | 净化网络小说页面的方法与装置 | |
CN106909296A (zh) | 数据的提取方法、装置及终端设备 | |
CN107463669A (zh) | 解析爬虫爬取的网页数据的方法及装置 | |
CN106383857A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180612 |