CN104866550A - 一种模拟神经网络的文本过滤方法 - Google Patents

一种模拟神经网络的文本过滤方法 Download PDF

Info

Publication number
CN104866550A
CN104866550A CN201510238616.7A CN201510238616A CN104866550A CN 104866550 A CN104866550 A CN 104866550A CN 201510238616 A CN201510238616 A CN 201510238616A CN 104866550 A CN104866550 A CN 104866550A
Authority
CN
China
Prior art keywords
neural network
large amount
character
weights
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510238616.7A
Other languages
English (en)
Inventor
蒋大可
何俊
莫燕峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Jingchu Network Technology Co., Ltd.
Original Assignee
Hubei Optical Valley Is Medium Ltd Co All Over World
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Optical Valley Is Medium Ltd Co All Over World filed Critical Hubei Optical Valley Is Medium Ltd Co All Over World
Priority to CN201510238616.7A priority Critical patent/CN104866550A/zh
Publication of CN104866550A publication Critical patent/CN104866550A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

本发明涉及一种文字处理方法,特别是一种模拟神经网络的文本过滤方法,本发明的独到之处在于:采用本方法对文本信息进行过滤,可进行自我学习,不断更新其数据库,以识别不断变化的垃圾信息。

Description

一种模拟神经网络的文本过滤方法
技术领域
  本发明涉及一种文字处理方法,特别是一种模拟神经网络的文本过滤方法。
背景技术
目前网络作为传播信息的主要工具,不仅提供了人们所需要的资源,还充斥着大量的垃圾信息,为了防止这些垃圾信息通传播,实现网络信息安全,最有效的解决方法就是对这些内容信息进行关键词过滤,但垃圾信息的表现形式、内容、以及范围每时每刻都在不断变化,如何应对这种不断变化的垃圾信息、敏感词汇成为了亟待解决的难题。
发明内容
本发明的目的在于提供一种模拟神经网络的文本过滤方法,采用本方法对文本信息进行过滤,可进行自我学习,不断更新其数据库,以识别不断变化的垃圾信息。
  实现本发明目的的技术方案是: 一种模拟神经网络的文本过滤方法,其特征在于:包含以下步骤:
1.1.输入待过滤的文本信息,启动过滤功能模块;
1.2.通过逐一比对字符,清除不属于UTF8国际字符集标准汉字的字符,得到汉语字串;
1.3.加载神经网络,将汉语字串通过神经网络输入端输入;
1.4.待过滤的汉语字串从左到右排成一行,由于存在换行的因而形成多行,从而构成二维平面结构;
1.5. 神经网络由大量神经节点组成,每个神经节点互相联通,形成网状结构,在计算机中,由大型数组模拟神经连接,每个数组元素表示某神经单元与另一神经单元的激活阈值,初始系统完全由随机数填充所有数组,当汉语字串输入时,每一层神经网络通过加权获得计算其是否激活,加权计算公式为:
x1*w1+x2*w2+……+xn*wn>t则输出1,否则输出0
其中xn代表n个输入端的输入信号wn为神经元关联权重,t为阈值;
1.6.程序的计算结果返回一组二进制数字,这组二进制数字串每一位都对应一个敏感词,用“0”代表没发现该敏感词,用“1”代表发现该敏感词;
1.7. 将敏感词汇集合返回并显示到页面结果窗口。
而且神经网络需要经过大量的训练才能达到识别的要求,训练时首先初始化各层连接权值,初始化使用随机算法,每个节点的权值随机生成,而后输入大量无意义汉字,这其中隐藏了一个至多个预先设定的敏感词汇,通过程序计算后得到的结果,与已知的结果进行比较后,根据误差调整上述各节点权值,直到神经网络可以轻易的识别敏感词汇为止,使用大量已知敏感词汇进行训练,使得神经网络可以识别大量敏感词汇。
本发明的优点在于:1.可进行自我学习,不断更新其数据库,以识别不断变化的垃圾信息。2.采用二维平面结构来表现汉语字串,不单能识别普通的垃圾信息,也能识别采用竖行或斜行书写的“藏头”垃圾信息。
附图说明
图1是本方法的逻辑步骤图。
具体实施方式
参见图1,以下将结合实施例对本发明做进一步说明。
本发明涉及一种文字处理方法,特别是一种模拟神经网络的文本过滤方法,其特征在于:包含以下步骤:
1.1.输入待过滤的文本信息,启动过滤功能模块;
1.2.通过逐一比对字符,清除不属于UTF8国际字符集标准汉字的字符,得到汉语字串;
1.3.加载神经网络,将汉语字串通过神经网络输入端输入;
1.4.待过滤的汉语字串从左到右排成一行,由于存在换行的因而形成多行,从而构成二维平面结构;
1.5. 神经网络由大量神经节点组成,每个神经节点互相联通,形成网状结构,在计算机中,由大型数组模拟神经连接,每个数组元素表示某神经单元与另一神经单元的激活阈值,初始系统完全由随机数填充所有数组,当汉语字串输入时,每一层神经网络通过加权获得计算其是否激活,加权计算公式为:
x1*w1+x2*w2+……+xn*wn>t则输出1,否则输出0
其中xn代表n个输入端的输入信号wn为神经元关联权重,t为阈值;
1.6.程序的计算结果返回一组二进制数字,这组二进制数字串每一位都对应一个敏感词,用“0”代表没发现该敏感词,用“1”代表发现该敏感词;
1.7. 将敏感词汇集合返回并显示到页面结果窗口。
文章的字符,从左到右排成一行,因为换行的原因,形成多行,于是形成二维平面结构,而普通的文章过滤,是基于阅读顺序,把文章理解为一排字符,所以只是一维。以二维的方式进行过滤,就能发现竖排,或斜方向的关键词。
而且神经网络需要经过大量的训练才能达到识别的要求,训练时首先初始化各层连接权值,初始化使用随机算法,每个节点的权值随机生成,而后输入大量无意义汉字,这其中隐藏了一个至多个预先设定的敏感词汇,通过程序计算后得到的结果,与已知的结果进行比较后,根据误差调整上述各节点权值,直到神经网络可以轻易的识别敏感词汇为止,使用大量已知敏感词汇进行训练,使得神经网络可以识别大量敏感词汇。
  通过输入最新的垃圾信息、敏感词汇来训练神经网络,达到其自我学习的目的,从而不断更新其数据库,以识别不断变化的垃圾信息。

Claims (2)

1.一种模拟神经网络的文本过滤方法,其特征在于:包含以下步骤:
1.1.输入待过滤的文本信息,启动过滤功能模块;
1.2.通过逐一比对字符,清除不属于UTF8国际字符集标准汉字的字符,得到汉语字串;
1.3.加载神经网络,将汉语字串通过神经网络输入端输入;
1.4.待过滤的汉语字串从左到右排成一行,由于存在换行的因而形成多行,从而构成二维平面结构;
1.5.神经网络由大量神经节点组成,每个神经节点互相联通,形成网状结构,在计算机中,由大型数组模拟神经连接,每个数组元素表示某神经单元与另一神经单元的激活阈值,初始系统完全由随机数填充所有数组,当汉语字串输入时,每一层神经网络通过加权获得计算其是否激活,加权计算公式为:
x1*w1+x2*w2+……+xn*wn>t则输出1,否则输出0
其中xn代表n个输入端的输入信号wn为神经元关联权重,t为阈值;
1.6.程序的计算结果返回一组二进制数字,这组二进制数字串每一位都对应一个敏感词,用“0”代表没发现该敏感词,用“1”代表发现该敏感词;
1.7.将敏感词汇集合返回并显示到页面结果窗口。
2.根据权利要求书1中所述的一种模拟神经网络的文本过滤方法,其特征在于:神经网络需要经过大量的训练才能达到识别的要求,训练时首先初始化各层连接权值,初始化使用随机算法,每个节点的权值随机生成,而后输入大量无意义汉字,这其中隐藏了一个至多个预先设定的敏感词汇,通过程序计算后得到的结果,与已知的结果进行比较后,根据误差调整上述各节点权值,直到神经网络可以轻易的识别敏感词汇为止,使用大量已知敏感词汇进行训练,使得神经网络可以识别大量敏感词汇。
CN201510238616.7A 2015-05-12 2015-05-12 一种模拟神经网络的文本过滤方法 Pending CN104866550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510238616.7A CN104866550A (zh) 2015-05-12 2015-05-12 一种模拟神经网络的文本过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510238616.7A CN104866550A (zh) 2015-05-12 2015-05-12 一种模拟神经网络的文本过滤方法

Publications (1)

Publication Number Publication Date
CN104866550A true CN104866550A (zh) 2015-08-26

Family

ID=53912377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510238616.7A Pending CN104866550A (zh) 2015-05-12 2015-05-12 一种模拟神经网络的文本过滤方法

Country Status (1)

Country Link
CN (1) CN104866550A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN107633062A (zh) * 2017-09-20 2018-01-26 广州四三九九信息科技有限公司 敏感词查找方法、装置及电子设备
WO2019051704A1 (zh) * 2017-09-14 2019-03-21 深圳传音通讯有限公司 垃圾文件的识别方法和装置
CN116028750A (zh) * 2022-12-30 2023-04-28 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1846218A (zh) * 2003-09-09 2006-10-11 西麦恩公司 人工神经网络
US20070047802A1 (en) * 2005-08-31 2007-03-01 Microsoft Corporation Training convolutional neural networks on graphics processing units
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN104281615A (zh) * 2013-07-08 2015-01-14 中国移动通信集团甘肃有限公司 一种投诉处理的方法和系统
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1846218A (zh) * 2003-09-09 2006-10-11 西麦恩公司 人工神经网络
US20070047802A1 (en) * 2005-08-31 2007-03-01 Microsoft Corporation Training convolutional neural networks on graphics processing units
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN104281615A (zh) * 2013-07-08 2015-01-14 中国移动通信集团甘肃有限公司 一种投诉处理的方法和系统
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕振山: "《基于RBF神经网络的文本过滤技术研究》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
WO2019051704A1 (zh) * 2017-09-14 2019-03-21 深圳传音通讯有限公司 垃圾文件的识别方法和装置
CN107633062A (zh) * 2017-09-20 2018-01-26 广州四三九九信息科技有限公司 敏感词查找方法、装置及电子设备
CN107633062B (zh) * 2017-09-20 2020-05-15 广州四三九九信息科技有限公司 敏感词查找方法、装置及电子设备
CN116028750A (zh) * 2022-12-30 2023-04-28 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质
CN116028750B (zh) * 2022-12-30 2024-05-07 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN110288004B (zh) 一种基于日志语义挖掘的系统故障诊断方法及装置
CN103714171B (zh) 文本聚类方法
CN109344262B (zh) 知识体系的建立方法、装置及存储介质
Bergs The uniformitarian principle and the risk of anachronisms in language and social history
CN113254803A (zh) 一种基于多特征异质图神经网络的社交推荐方法
CN104866550A (zh) 一种模拟神经网络的文本过滤方法
CN101470813B (zh) 具有学习和表达能力的神经网络
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN104216954A (zh) 突发事件话题状态的预测装置及预测方法
CN106469554A (zh) 一种自适应的识别方法及系统
JP2019504371A (ja) 自動質問応答システムにおける質問クラスタリング処理方法及び装置
CN103116639A (zh) 基于用户-物品二分图模型的物品推荐方法及系统
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
US9141882B1 (en) Clustering of text units using dimensionality reduction of multi-dimensional arrays
CN109685153A (zh) 一种基于特征聚合的社交网络谣言鉴别方法
CN110309192A (zh) 使用神经网络编码器的结构数据匹配
CN108108354A (zh) 一种基于深度学习的微博用户性别预测方法
CN102929906A (zh) 基于内容特征和主题特征的文本分组聚类方法
CN109376859A (zh) 一种基于菱形卷积的神经网络剪枝方法
CN104331523A (zh) 一种基于概念对象模型的问句检索方法
CN108763367A (zh) 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
CN107451689A (zh) 基于微博的话题趋势预测方法及装置
CN104090865A (zh) 文本相似度计算方法及装置
CN113051367B (zh) 基于语义特征强化的深度学习预警方法、系统及电子设备
CN112000389B (zh) 一种配置推荐方法、系统、装置及计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160811

Address after: 430000 Chutian media building, No. 181, East Lake Road, Wuchang District, Hubei, Wuhan

Applicant after: Hubei Jingchu Network Technology Co., Ltd.

Address before: 430077 third floor, Chutian culture creative industry building, East Lake New Technology Development Zone, Hubei, Wuhan

Applicant before: Hubei optical valley is medium limited company all over the world

CI01 Publication of corrected invention patent application

Correction item: Applicant|Address

Correct: HUBEI JINCHU NETWORK TECHNOLOGY CO., LTD.|430000 Chutian media building, No. 181, East Lake Road, Wuchang District, Hubei, Wuhan

False: Hubei Jingchu Network Technology Co., Ltd.|430000 Chutian media building, No. 181, East Lake Road, Wuchang District, Hubei, Wuhan

Number: 35

Volume: 32

ERR Gazette correction
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150826