CN103714056A - 一种基于后台程序的关键字/敏感词过滤方法 - Google Patents

一种基于后台程序的关键字/敏感词过滤方法 Download PDF

Info

Publication number
CN103714056A
CN103714056A CN201210369309.9A CN201210369309A CN103714056A CN 103714056 A CN103714056 A CN 103714056A CN 201210369309 A CN201210369309 A CN 201210369309A CN 103714056 A CN103714056 A CN 103714056A
Authority
CN
China
Prior art keywords
key word
word
method based
coupling
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210369309.9A
Other languages
English (en)
Inventor
罗伟东
苏正湘
赵巍
黄飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN WEIXUN YITONG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN WEIXUN YITONG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN WEIXUN YITONG INFORMATION TECHNOLOGY Co Ltd filed Critical SHENZHEN WEIXUN YITONG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201210369309.9A priority Critical patent/CN103714056A/zh
Publication of CN103714056A publication Critical patent/CN103714056A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

一种基于后台程序的关键字/敏感词过滤方法,通过创建两个集合;将扫描到的关键字调用增加方法进行处理;对应检测并过滤,在匹配集合中定义出记录、替换、禁止三种规则类型的子集合进行过滤,并在定义关键字时同时给出一个级别属性,采用本方法去过滤关键字能很好由产品人员去控制规则,并且能够对关键字定出严重性级别,根据级别不同而进行记录、替换和禁止的不同处理,能够让用户清楚评论或文章涉及到关键字的真实意思,而一些危险言论也可以由规则经过此组件直接过滤掉,这样信息安全便得到有效控制。

Description

一种基于后台程序的关键字/敏感词过滤方法
【技术领域】
本发明涉及网络程序应用、web服务端技术领域,尤其涉及一种网站信息检索过滤拦截应用方案。
【背景技术】
国家对信息安全要求比较高,一部分网络系统经常出现违规的敏感词,或者不利于社会和谐的言论,另外互联网的开放性也注定了网络上流通的信息良莠不齐,各种不良信息更是泛滥,如果对网上传播的涉及到反动、色情、暴力等信息不加监管的话,会极大地危害社会稳定和青少年身心健康,现有大型网站营运商对于信息管理的方式停留在比较直接简单阶段,直接采用对信息扫描并机械替换,导致一些优质信息由于简单而机械扫描替换原则而被过滤或者拦截,不论是发出信息的来源者还是对接收信息的受众来说都是一种信息传播障碍和壁垒,纵观全局,我们需要对网络信息进行监管但是需要一种更智能、更接近人工判断标准的监管应用方案。
因为过滤关键字机制随处可见,有时为了避免被拦截或者过滤,发布者会采用各种方式进行回避:1、中文会用繁体字的方法避开关键字扫描;2、在关键字中间插入无意思的特殊字符,例如*&#等,而且个数可变,3、使用谐音或拆字法变换关键字,就很难预测发布者会用的所有规避方案;而传统常用的算法也有自身的技术问题:比如随着时间推移,关键字列表会越来越大,如果采用的正则表达式N次扫描,效率非常低,耗时长;在具体应用环境中,关键字有不同的严重级别,不可一概而论,有些需要禁止、有些只是需要替换,还有一些仅作记录即可,但是现在的过滤方案却无法为关键字区分严重级别。
HashMap:基于哈希表(基于哈希算法)的Map接口的实现。此实现提供所有可选的映射操作,并允许使用null键、值。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。此实现假定哈希函数将元素适当地分布在各桶之间,可为基本操作(get和put)提供稳定的性能。迭代collection视图所需的时间与HashMap实例的“容量”(桶的数量)及其大小(键-值映射关系数)成比例。
哈希算法:就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
HASH主要用于信息安全领域中加密算法,它把一些不同长度的信息转化成杂乱的128位的编码,这些编码值叫做HASH值.也可以说,hash就是找到一种数据内容和数据存放地址之间的映射关系。
【发明内容】
鉴于以上问题,本发明提出了一种采用哈希表(Hashmap)作为关键字存储匹配集合与关键词匹配算法相结合的关键字/敏感词过滤方法。该方法效率高、关键字截取准确、能为关键字区分级别。
本发明的技术方案是:一种基于后台程序的关键字/敏感词过滤方法,其特征在于,包括以下步骤:
步骤一:创建两个集合,首字匹配字符集合的匹配集合和替换字符串映射的映射集合;
在匹配集合中放入所有需要注意或者替换的文字的第一个字,当扫描时遇到首字符合进入才进入到扫描是否需要替换流程;在映射集合中放入相应的自定义替换关键字的符号;
步骤二:将扫描到的关键字调用增加方法进行处理,截取关键字首字母,将关键字转换成词块对象(atomBlock)放入匹配集合作为键(key),词块对象作为值放入匹配集合,若匹配集合中存在此关键字则进行分裂切割;
步骤三:对应检测并过滤,依次从匹配集合中根据关键字首字检测出对应词块对象,过滤掉其中关键字,并根据映射集合将关键字替换为自定义字符串,并返回处理完成后的字符串。
所述基于后台程序的关键字/敏感词过滤方法,其特征在于,所述分裂切割是指切割词块对象为包含基本属性的词块、跟随词块、是否匹配的标记。
所述基于后台程序的关键字/敏感词过滤方法,其特征在于,在匹配集合中定义出记录、替换、禁止三种规则类型的子集合进行过滤,并在定义关键字时同时给出一个级别属性。
所述基于后台程序的关键字/敏感词过滤方法,其特征在于,在匹配集合中将所有相同首字组成若干不同的小组,然后将小组放到一个散列表,在扫描原文本时现在散列表中扫描,如果扫描到了首字再扫描同组的关键字。
采用本方法去过滤关键字能很好由产品人员去控制规则,并且能够对关键字定出严重性级别,根据级别不同而进行记录、替换和禁止的不同处理,能够让用户清楚评论或文章涉及到关键字的真实意思,而一些危险言论也可以由规则经过此组件直接过滤掉,这样信息安全便得到有效控制。
【具体实施方式】
以下将根据实施方式来说明本发明的技术方案:
一种基于后台程序的关键字/敏感词过滤方法,包括以下步骤:
1、创建两个集合:首字匹配字符集合的匹配集合和替换字符串映射的映射集合;在匹配集合中放入所有需要注意或者替换的文字的第一个字,当扫描时遇到首字符合进入才进入到扫描是否需要替换流程;在映射集合中放入相应的自定义替换关键字的符号;
2、将扫描到的关键字调用增加方法进行处理:截取关键字首字母,将关键字转换成词块对象(atomBlock)放入匹配集合作为键(key),词块对象作为值放入匹配集合,若匹配集合中存在此关键字则进行分裂切割;
3、对应检测并过滤:依次从匹配集合中根据关键字首字检测出对应词块对象,过滤掉其中关键字,并根据映射集合将关键字替换为自定义字符串,并返回处理完成后的字符串。
所述基于后台程序的关键字/敏感词过滤方法,其特征在于,所述分裂切割是指切割词块对象为包含基本属性的词块、跟随词块、是否匹配的标记。
所述基于后台程序的关键字/敏感词过滤方法,其特征在于,在匹配集合中定义出记录、替换、禁止三种规则类型的子集合进行过滤,并在定义关键字时同时给出一个级别属性。
所述基于后台程序的关键字/敏感词过滤方法,其特征在于,在匹配集合中将所有相同首字组成若干不同的小组,然后将小组放到一个散列表,在扫描原文本时现在散列表中扫描,如果扫描到了首字再扫描同组的关键字。
采用本组件去过滤关键字能很好由产品人员去控制规则,并且能够对关键字定出严重性级别,根据级别不同而进行记录、替换和禁止的不同处理,能够让用户清楚评论或文章涉及到关键字的真实意思,而一些危险言论也可以由规则经过此组件直接过滤掉,这样信息安全便得到有效控制。
由后台程序自动处理效率及单字匹配和扫描,根据后台(由服务方管理)配置三种规则,如果字库中存在替换字则采取字节替换,若无则替换成*等符合由服务方规定,若出现非法关键字,服务方也可后台配置直接禁止用户的行为,采用这套方式处理后文章不至于使用户混淆内容所要表达意思,在用户体验上优于简单直接全部替换。
相对于网络上其他关键字过滤组件而言,提供了常见处理方式的整合其特点主要表现在不同需求可自定义过滤规则,且综合了各工具方法的优势,使过滤达到了最佳效果。
以上所述,仅是本发明较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许变更或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明技术是指对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。

Claims (4)

1.一种基于后台程序的关键字/敏感词过滤方法,其特征在于,包括以下步骤:
步骤一:创建两个集合,首字匹配字符集合的匹配集合和替换字符串映射的映射集合;
在匹配集合中放入所有需要注意或者替换的文字的第一个字,当扫描时遇到首字符合进入才进入到扫描是否需要替换流程;在映射集合中放入相应的自定义替换关键字的符号;
步骤二:将扫描到的关键字调用增加方法进行处理,截取关键字首字母,将关键字转换成词块对象(atomBlock)放入匹配集合作为键(key),词块对象作为值放入匹配集合,若匹配集合中存在此关键字则进行分裂切割;
步骤三:对应检测并过滤,依次从匹配集合中根据关键字首字检测出对应词块对象,过滤掉其中关键字,并根据映射集合将关键字替换为自定义字符串,并返回处理完成后的字符串。
2.根据权利要求1所述基于后台程序的关键字/敏感词过滤方法,其特征在于,所述分裂切割是指切割词块对象为包含基本属性的词块、跟随词块、是否匹配的标记。
3.根据权利要求1所述基于后台程序的关键字/敏感词过滤方法,其特征在于,在匹配集合中定义出记录、替换、禁止三种规则类型的子集合进行过滤,并在定义关键字时同时给出一个级别属性。
4.根据权利要求1所述基于后台程序的关键字/敏感词过滤方法,其特征在于,在匹配集合中将所有相同首字组成若干不同的小组,然后将小组放到一个散列表,在扫描原文本时现在散列表中扫描,如果扫描到了首字再扫描同组的关键字。
CN201210369309.9A 2012-09-28 2012-09-28 一种基于后台程序的关键字/敏感词过滤方法 Pending CN103714056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210369309.9A CN103714056A (zh) 2012-09-28 2012-09-28 一种基于后台程序的关键字/敏感词过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210369309.9A CN103714056A (zh) 2012-09-28 2012-09-28 一种基于后台程序的关键字/敏感词过滤方法

Publications (1)

Publication Number Publication Date
CN103714056A true CN103714056A (zh) 2014-04-09

Family

ID=50407047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210369309.9A Pending CN103714056A (zh) 2012-09-28 2012-09-28 一种基于后台程序的关键字/敏感词过滤方法

Country Status (1)

Country Link
CN (1) CN103714056A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410623A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 因特网管理系统
CN104410520A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 网络管理系统
CN104410630A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 基于指纹验证的网络数据管理系统
CN104410524A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 具有滤波的网络数据管理系统
CN104410523A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 基于虹膜验证的网络数据管理系统
CN104468542A (zh) * 2014-11-27 2015-03-25 柳州市网中网络策划中心 具有滤波的互联网管理系统
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN105787029A (zh) * 2016-02-25 2016-07-20 浪潮软件集团有限公司 一种基于solr的关键字词识别办法
CN106789949A (zh) * 2016-11-30 2017-05-31 广东欧珀移动通信有限公司 一种语音数据的发送方法、装置及终端
CN108491518A (zh) * 2018-03-26 2018-09-04 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备
CN108763179A (zh) * 2018-05-15 2018-11-06 掌阅科技股份有限公司 电子书中标记位置的修正方法及计算设备
CN112948664A (zh) * 2021-01-12 2021-06-11 上海观察者信息技术有限公司 一种敏感词自动处理方法和系统
CN113794624A (zh) * 2021-09-07 2021-12-14 广州华多网络科技有限公司 即时消息传输控制方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2657853A (en) * 1950-07-20 1953-11-03 Phillips John Masters Computer shutter cam plate retaining bracket
CN101132404A (zh) * 2007-09-14 2008-02-27 腾讯科技(深圳)有限公司 一种网页内容分级显示系统及方法
CN101398820A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种大规模关键词匹配方法
CN101833936A (zh) * 2009-12-22 2010-09-15 康佳集团股份有限公司 一种移动终端及其界面的显示方法和装置
CN102253988A (zh) * 2011-06-30 2011-11-23 北京新媒传信科技有限公司 网络文本服务中敏感词过滤的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2657853A (en) * 1950-07-20 1953-11-03 Phillips John Masters Computer shutter cam plate retaining bracket
CN101132404A (zh) * 2007-09-14 2008-02-27 腾讯科技(深圳)有限公司 一种网页内容分级显示系统及方法
CN101398820A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种大规模关键词匹配方法
CN101833936A (zh) * 2009-12-22 2010-09-15 康佳集团股份有限公司 一种移动终端及其界面的显示方法和装置
CN102253988A (zh) * 2011-06-30 2011-11-23 北京新媒传信科技有限公司 网络文本服务中敏感词过滤的方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410520A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 网络管理系统
CN104410630A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 基于指纹验证的网络数据管理系统
CN104410524A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 具有滤波的网络数据管理系统
CN104410523A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 基于虹膜验证的网络数据管理系统
CN104468542A (zh) * 2014-11-27 2015-03-25 柳州市网中网络策划中心 具有滤波的互联网管理系统
CN104410623A (zh) * 2014-11-27 2015-03-11 柳州市网中网络策划中心 因特网管理系统
CN104850574B (zh) * 2015-02-15 2018-07-06 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN105787029A (zh) * 2016-02-25 2016-07-20 浪潮软件集团有限公司 一种基于solr的关键字词识别办法
CN106789949A (zh) * 2016-11-30 2017-05-31 广东欧珀移动通信有限公司 一种语音数据的发送方法、装置及终端
CN106789949B (zh) * 2016-11-30 2019-11-26 Oppo广东移动通信有限公司 一种语音数据的发送方法、装置及终端
CN108491518A (zh) * 2018-03-26 2018-09-04 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN108491518B (zh) * 2018-03-26 2021-02-26 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备
CN108563713B (zh) * 2018-03-29 2021-08-10 创新先进技术有限公司 关键词规则生成方法及装置和电子设备
CN108763179A (zh) * 2018-05-15 2018-11-06 掌阅科技股份有限公司 电子书中标记位置的修正方法及计算设备
CN108763179B (zh) * 2018-05-15 2019-04-09 掌阅科技股份有限公司 电子书中标记位置的修正方法及计算设备
CN112948664A (zh) * 2021-01-12 2021-06-11 上海观察者信息技术有限公司 一种敏感词自动处理方法和系统
CN113794624A (zh) * 2021-09-07 2021-12-14 广州华多网络科技有限公司 即时消息传输控制方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN103714056A (zh) 一种基于后台程序的关键字/敏感词过滤方法
US20230164155A1 (en) Systems and methods for automated retrieval, processing, and distribution of cyber-threat information
US11716335B2 (en) Detection and restriction of unwanted messages through time interval cluster analysis
US9760548B2 (en) System, process and method for the detection of common content in multiple documents in an electronic system
Mohamad et al. An evaluation on the efficiency of hybrid feature selection in spam email classification
CN111046035B (zh) 数据自动化处理方法、系统、计算机设备及可读存储介质
US20110264637A1 (en) Method and a system for information identification
AU2015324282B2 (en) Protected indexing and querying of large sets of textual data
CN103618733A (zh) 一种应用于移动互联网的数据过滤系统及方法
CN102609462A (zh) 一种通过提取sql模板对海量sql压缩存储的方法
CN108449201B (zh) 一种内网业务数据流安全管控效能的评价方法
JP2005539334A (ja) 事前選択されたデータに関し探索可能な情報コンテンツ
CN103235918B (zh) 可信文件的收集方法及系统
CN102045268B (zh) 一种电子邮件数据恢复方法及装置
CN101389085A (zh) 基于发送行为的垃圾短消息识别系统及方法
CN104765784A (zh) 关键词列表维护方法及系统
CN105426544A (zh) 监控数据库状态的方法及装置
CN106533955B (zh) 一种基于网络报文的序列号识别方法
CN115952146A (zh) 一种应用于直流控制保护装置关键信息监管的文件管理系统
Yan et al. Privmin: Differentially private minhash for jaccard similarity computation
US8996638B2 (en) System and method for spam filtering using shingles
CN109857748A (zh) 一种合同数据处理方法、装置及电子设备
US20150082142A1 (en) Method for storing and applying related sets of pattern/message rules
CN114186029A (zh) 信息泄露行为的分析方法、相关装置及计算机存储介质
CN105592429A (zh) 短信过滤方法及短信过滤装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140409

WD01 Invention patent application deemed withdrawn after publication