CN104866550A

CN104866550A - 一种模拟神经网络的文本过滤方法

Info

Publication number: CN104866550A
Application number: CN201510238616.7A
Authority: CN
Inventors: 蒋大可; 何俊; 莫燕峰
Original assignee: Hubei Optical Valley Is Medium Ltd Co All Over World
Current assignee: Hubei Jingchu Network Technology Co., Ltd.
Priority date: 2015-05-12
Filing date: 2015-05-12
Publication date: 2015-08-26

Abstract

本发明涉及一种文字处理方法，特别是一种模拟神经网络的文本过滤方法，本发明的独到之处在于：采用本方法对文本信息进行过滤，可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。

Description

一种模拟神经网络的文本过滤方法

技术领域

本发明涉及一种文字处理方法，特别是一种模拟神经网络的文本过滤方法。

背景技术

目前网络作为传播信息的主要工具，不仅提供了人们所需要的资源，还充斥着大量的垃圾信息，为了防止这些垃圾信息通传播，实现网络信息安全，最有效的解决方法就是对这些内容信息进行关键词过滤，但垃圾信息的表现形式、内容、以及范围每时每刻都在不断变化，如何应对这种不断变化的垃圾信息、敏感词汇成为了亟待解决的难题。

发明内容

本发明的目的在于提供一种模拟神经网络的文本过滤方法，采用本方法对文本信息进行过滤，可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。

实现本发明目的的技术方案是: 一种模拟神经网络的文本过滤方法，其特征在于：包含以下步骤：

1.1.输入待过滤的文本信息，启动过滤功能模块；

1.2.通过逐一比对字符，清除不属于UTF8国际字符集标准汉字的字符，得到汉语字串；

1.3.加载神经网络，将汉语字串通过神经网络输入端输入；

1.4.待过滤的汉语字串从左到右排成一行，由于存在换行的因而形成多行，从而构成二维平面结构；

1.5. 神经网络由大量神经节点组成，每个神经节点互相联通，形成网状结构，在计算机中，由大型数组模拟神经连接，每个数组元素表示某神经单元与另一神经单元的激活阈值，初始系统完全由随机数填充所有数组，当汉语字串输入时，每一层神经网络通过加权获得计算其是否激活，加权计算公式为:

x1*w1+x2*w2+……+xn*wn>t则输出1，否则输出0

其中xn代表n个输入端的输入信号wn为神经元关联权重，t为阈值；

1.6.程序的计算结果返回一组二进制数字，这组二进制数字串每一位都对应一个敏感词，用“0”代表没发现该敏感词，用“1”代表发现该敏感词；

1.7. 将敏感词汇集合返回并显示到页面结果窗口。

而且神经网络需要经过大量的训练才能达到识别的要求，训练时首先初始化各层连接权值，初始化使用随机算法，每个节点的权值随机生成，而后输入大量无意义汉字，这其中隐藏了一个至多个预先设定的敏感词汇，通过程序计算后得到的结果，与已知的结果进行比较后，根据误差调整上述各节点权值，直到神经网络可以轻易的识别敏感词汇为止，使用大量已知敏感词汇进行训练，使得神经网络可以识别大量敏感词汇。

本发明的优点在于：1.可进行自我学习，不断更新其数据库，以识别不断变化的垃圾信息。2.采用二维平面结构来表现汉语字串，不单能识别普通的垃圾信息，也能识别采用竖行或斜行书写的“藏头”垃圾信息。

附图说明

图1是本方法的逻辑步骤图。

具体实施方式

参见图1，以下将结合实施例对本发明做进一步说明。

本发明涉及一种文字处理方法，特别是一种模拟神经网络的文本过滤方法，其特征在于：包含以下步骤：

1.1.输入待过滤的文本信息，启动过滤功能模块；

1.3.加载神经网络，将汉语字串通过神经网络输入端输入；

x1*w1+x2*w2+……+xn*wn>t则输出1，否则输出0

1.7. 将敏感词汇集合返回并显示到页面结果窗口。

文章的字符，从左到右排成一行，因为换行的原因，形成多行，于是形成二维平面结构，而普通的文章过滤，是基于阅读顺序，把文章理解为一排字符，所以只是一维。以二维的方式进行过滤，就能发现竖排，或斜方向的关键词。

通过输入最新的垃圾信息、敏感词汇来训练神经网络，达到其自我学习的目的，从而不断更新其数据库，以识别不断变化的垃圾信息。

Claims

1.一种模拟神经网络的文本过滤方法，其特征在于：包含以下步骤：

1.1.输入待过滤的文本信息，启动过滤功能模块；

1.3.加载神经网络，将汉语字串通过神经网络输入端输入；

1.5.神经网络由大量神经节点组成，每个神经节点互相联通，形成网状结构，在计算机中，由大型数组模拟神经连接，每个数组元素表示某神经单元与另一神经单元的激活阈值，初始系统完全由随机数填充所有数组，当汉语字串输入时，每一层神经网络通过加权获得计算其是否激活，加权计算公式为:

x1*w1+x2*w2+……+xn*wn>t则输出1，否则输出0

1.7.将敏感词汇集合返回并显示到页面结果窗口。

2.根据权利要求书1中所述的一种模拟神经网络的文本过滤方法，其特征在于:神经网络需要经过大量的训练才能达到识别的要求，训练时首先初始化各层连接权值，初始化使用随机算法，每个节点的权值随机生成，而后输入大量无意义汉字，这其中隐藏了一个至多个预先设定的敏感词汇，通过程序计算后得到的结果，与已知的结果进行比较后，根据误差调整上述各节点权值，直到神经网络可以轻易的识别敏感词汇为止，使用大量已知敏感词汇进行训练，使得神经网络可以识别大量敏感词汇。