CN110096585A - 一种智能敏感词过滤系统 - Google Patents

一种智能敏感词过滤系统 Download PDF

Info

Publication number
CN110096585A
CN110096585A CN201910233564.2A CN201910233564A CN110096585A CN 110096585 A CN110096585 A CN 110096585A CN 201910233564 A CN201910233564 A CN 201910233564A CN 110096585 A CN110096585 A CN 110096585A
Authority
CN
China
Prior art keywords
user
character
input
data
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910233564.2A
Other languages
English (en)
Inventor
林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Pengyou Network Technology Co Ltd
Original Assignee
Zhuhai Pengyou Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Pengyou Network Technology Co Ltd filed Critical Zhuhai Pengyou Network Technology Co Ltd
Priority to CN201910233564.2A priority Critical patent/CN110096585A/zh
Publication of CN110096585A publication Critical patent/CN110096585A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明提供一种智能敏感词过滤系统,包括:一预设词库,储存于内存空间内,用于匹配算法对检测数据进行敏感词匹配处理;一内存空间,用于储存预设词库,待匹配算法进行敏感词匹配时,调出预设词库与匹配算法配合;一匹配算法,对用户过滤文本进行获取,用于对过滤文本中检测数据进行敏感词匹配,与现有技术相比,本发明具有如下的有益效果:能智能识别文本内容里面的涉黄、广告、暴力、政治、脏话等敏感信息,然后会自动记录用户和敏感词信息,必要时可以作为关键证据。该系统的准确率达到99%,效率比普通方案提高50%。

Description

一种智能敏感词过滤系统
技术领域
本发明是一种智能敏感词过滤系统,属于软件使用方法领域。
背景技术
敏感词一般是指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明词语。多数论坛、网站为了方便管理,都进行了敏感词设定,也有一些网站根据自身实际情况设定一些只适用于本网站的特殊敏感词。比如,要发布的帖子内容包含敏感词时,这个帖子不能发布。
随着使用某网络应用比如网络视频直播的用户数量的不断增加以及用户通过发表言论参与互动的程度的不断增长,应用服务器进行高并发大量言论的敏感词过滤的处理压力将会很大,处理效率很可能会很低。
发明内容
针对现有技术存在的不足,本发明目的是提供一种智能敏感词过滤系统,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种智能敏感词过滤系统,包括:
一预设词库,储存于内存空间内,用于匹配算法对检测数据进行敏感词匹配处理;
一内存空间,用于储存预设词库,待匹配算法进行敏感词匹配时,调出预设词库与匹配算法配合;
一匹配算法,对用户过滤文本进行获取,用于对过滤文本中检测数据进行敏感词匹配。
进一步地,内存空间为主存储器空间或互联网系统为分配的网络内存空间。
进一步地,在预设词库中,首先建立敏感词数据,将需要匹配的敏感词以及其联想词输入至预设词库中。
进一步地,用户过滤文本为用户输入的数据,该用户过滤文本在输入至互联网网站前,先经过匹配算法进行敏感词匹配。
进一步地,用户输入的数据在输入至互联网网站前,先经过匹配算法进行敏感词匹配,具体的讲,当用户输入数据后,则匹配算法从内存空间中读取预设词库,将用户输入的数据的字符与预设词库中的字符进行匹配,若匹配到用户输入的数据的字符与预设词库中的字符相同,则过滤掉该字符,如果匹配不成功,将用户输入的数据进行字符拆分,将字符拆分成字符组,判断字符组中的所有元素是否同时出现在该信息中,若出现,则对用户输入的数据进行重组,将字符组中相邻的字符进行交叉配对,进行上下文重组过滤,判断过滤后的字符组是否与预设词库中的字符相同,若相同,则过滤掉该字符组,确认用户输入的数据为垃圾信息进行拦截,否则,发布所述信息。
本发明的有益效果:本发明的一种智能敏感词过滤系统,能智能识别文本内容里面的涉黄、广告、暴力、政治、脏话等敏感信息,然后会自动记录用户和敏感词信息,必要时可以作为关键证据。该系统的准确率达到99%,效率比普通方案提高50%。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
本发明提供一种技术方案:一种智能敏感词过滤系统,包括:
一预设词库,储存于内存空间内,用于匹配算法对检测数据进行敏感词匹配处理;
一内存空间,用于储存预设词库,待匹配算法进行敏感词匹配时,调出预设词库与匹配算法配合;
一匹配算法,对用户过滤文本进行获取,用于对过滤文本中检测数据进行敏感词匹配。
内存空间为主存储器空间或互联网系统为分配的网络内存空间。
在预设词库中,首先建立敏感词数据,将需要匹配的敏感词以及其联想词输入至预设词库中。
用户过滤文本为用户输入的数据,该用户过滤文本在输入至互联网网站前,先经过匹配算法进行敏感词匹配。
用户输入的数据在输入至互联网网站前,先经过匹配算法进行敏感词匹配,具体的讲,当用户输入数据后,则匹配算法从内存空间中读取预设词库,将用户输入的数据的字符与预设词库中的字符进行匹配,若匹配到用户输入的数据的字符与预设词库中的字符相同,则过滤掉该字符,如果匹配不成功,将用户输入的数据进行字符拆分,将字符拆分成字符组,判断字符组中的所有元素是否同时出现在该信息中,若出现,则对用户输入的数据进行重组,将字符组中相邻的字符进行交叉配对,进行上下文重组过滤,判断过滤后的字符组是否与预设词库中的字符相同,若相同,则过滤掉该字符组,确认用户输入的数据为垃圾信息进行拦截,否则,发布所述信息
作为本发明的一个实施例:本系统能智能识别文本内容里面的涉黄、广告、暴力、政治、脏话等敏感信息,然后会自动记录用户和敏感词信息,必要时可以作为关键证据。该系统的准确率达到99%,效率比普通方案提高50%。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种智能敏感词过滤系统,其特征在于:包括:
一预设词库,储存于内存空间内,用于匹配算法对检测数据进行敏感词匹配处理;
一内存空间,用于储存预设词库,待匹配算法进行敏感词匹配时,调出预设词库与匹配算法配合;
一匹配算法,对用户过滤文本进行获取,用于对过滤文本中检测数据进行敏感词匹配。
2.根据权利要求1所述的一种智能敏感词过滤系统,其特征在于:内存空间为主存储器空间或互联网系统为分配的网络内存空间。
3.根据权利要求1所述的一种智能敏感词过滤系统,其特征在于:在预设词库中,首先建立敏感词数据,将需要匹配的敏感词以及其联想词输入至预设词库中。
4.根据权利要求1所述的一种智能敏感词过滤系统,其特征在于:用户过滤文本为用户输入的数据,该用户过滤文本在输入至互联网网站前,先经过匹配算法进行敏感词匹配。
5.根据权利要求1所述的一种智能敏感词过滤系统,其特征在于:用户输入的数据在输入至互联网网站前,先经过匹配算法进行敏感词匹配,具体的讲,当用户输入数据后,则匹配算法从内存空间中读取预设词库,将用户输入的数据的字符与预设词库中的字符进行匹配,若匹配到用户输入的数据的字符与预设词库中的字符相同,则过滤掉该字符,如果匹配不成功,将用户输入的数据进行字符拆分,将字符拆分成字符组,判断字符组中的所有元素是否同时出现在该信息中,若出现,则对用户输入的数据进行重组,将字符组中相邻的字符进行交叉配对,进行上下文重组过滤,判断过滤后的字符组是否与预设词库中的字符相同,若相同,则过滤掉该字符组,确认用户输入的数据为垃圾信息进行拦截,否则,发布所述信息。
CN201910233564.2A 2019-03-26 2019-03-26 一种智能敏感词过滤系统 Withdrawn CN110096585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910233564.2A CN110096585A (zh) 2019-03-26 2019-03-26 一种智能敏感词过滤系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910233564.2A CN110096585A (zh) 2019-03-26 2019-03-26 一种智能敏感词过滤系统

Publications (1)

Publication Number Publication Date
CN110096585A true CN110096585A (zh) 2019-08-06

Family

ID=67443063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910233564.2A Withdrawn CN110096585A (zh) 2019-03-26 2019-03-26 一种智能敏感词过滤系统

Country Status (1)

Country Link
CN (1) CN110096585A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874398A (zh) * 2020-01-14 2020-03-10 广东博智林机器人有限公司 违禁词处理方法、装置、电子设备及存储介质
CN112818700A (zh) * 2021-01-20 2021-05-18 广州明朝互动科技股份有限公司 一种敏感信息的封禁方法及系统
CN112926301A (zh) * 2020-12-28 2021-06-08 广州坚和网络科技有限公司 基于敏感词库构建的敏感词监控方法及装置
CN113157722A (zh) * 2021-04-01 2021-07-23 北京达佳互联信息技术有限公司 一种数据处理方法、装置、服务器、系统及存储介质
WO2021151333A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于人工智能的敏感词识别方法、装置及计算机设备
CN114039741A (zh) * 2021-09-26 2022-02-11 深圳供电局有限公司 一种上网行为的嗅探方法、系统、装置及可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874398A (zh) * 2020-01-14 2020-03-10 广东博智林机器人有限公司 违禁词处理方法、装置、电子设备及存储介质
WO2021151333A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于人工智能的敏感词识别方法、装置及计算机设备
CN112926301A (zh) * 2020-12-28 2021-06-08 广州坚和网络科技有限公司 基于敏感词库构建的敏感词监控方法及装置
CN112926301B (zh) * 2020-12-28 2023-02-14 广州坚和网络科技有限公司 基于敏感词库构建的敏感词监控方法及装置
CN112818700A (zh) * 2021-01-20 2021-05-18 广州明朝互动科技股份有限公司 一种敏感信息的封禁方法及系统
CN113157722A (zh) * 2021-04-01 2021-07-23 北京达佳互联信息技术有限公司 一种数据处理方法、装置、服务器、系统及存储介质
CN113157722B (zh) * 2021-04-01 2023-12-26 北京达佳互联信息技术有限公司 一种数据处理方法、装置、服务器、系统及存储介质
CN114039741A (zh) * 2021-09-26 2022-02-11 深圳供电局有限公司 一种上网行为的嗅探方法、系统、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN110096585A (zh) 一种智能敏感词过滤系统
CN102110132B (zh) 统一资源定位符匹配查找方法、装置和网络侧设备
CN109982128B (zh) 视频的弹幕生成方法、装置、存储介质和电子装置
CN110351307A (zh) 基于集成学习的异常用户检测方法及系统
CN103618733B (zh) 一种应用于移动互联网的数据过滤系统及方法
CN102857493A (zh) 内容过滤方法和装置
Glewwe et al. Who is most vulnerable to macroeconomic shocks? Hypotheses tests using panel data from Peru
CN104112010B (zh) 一种数据存储方法及装置
CN103020140A (zh) 一种对互联网用户评论内容自动过滤的方法和装置
CN107203588A (zh) 一种数据分类管理系统
CN103324617A (zh) 一种历史垃圾消息的识别方法及系统
CN102802090A (zh) 一种视频版权保护方法及系统
KR20120090101A (ko) 디지털 비디오 고속 정합 시스템
CN103714120A (zh) 一种从用户url访问记录中提取用户兴趣话题的系统
CN107808438A (zh) 一种基于掌静脉认证的场馆管理系统
CN102568049B (zh) 一种学生刷卡数据的发送方法、装置及系统
Maeseele et al. Ideology in climate change communication
CN105872731A (zh) 数据处理的方法和装置
CN101261645B (zh) 一种获取多层信息的方法和装置
CN104504091A (zh) 维吾尔语敏感词过滤系统
CN107368576A (zh) 一种教育资源数据采集系统
CN107247772A (zh) 一种基于互联网的图文搜索引擎
CN107403386A (zh) 基于银行网点的投保管理方法和系统
Akbulut et al. Agent based pornography filtering system
CN107329956A (zh) 一种项目信息标准化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190806