CN104504091A - 维吾尔语敏感词过滤系统 - Google Patents

维吾尔语敏感词过滤系统 Download PDF

Info

Publication number
CN104504091A
CN104504091A CN201410830265.4A CN201410830265A CN104504091A CN 104504091 A CN104504091 A CN 104504091A CN 201410830265 A CN201410830265 A CN 201410830265A CN 104504091 A CN104504091 A CN 104504091A
Authority
CN
China
Prior art keywords
uighur
sensitive word
text
sensitive
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410830265.4A
Other languages
English (en)
Inventor
帕哈尔丁·西日甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QARLUQ MEDIA TECH Co Ltd
Original Assignee
QARLUQ MEDIA TECH Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QARLUQ MEDIA TECH Co Ltd filed Critical QARLUQ MEDIA TECH Co Ltd
Priority to CN201410830265.4A priority Critical patent/CN104504091A/zh
Publication of CN104504091A publication Critical patent/CN104504091A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种维吾尔语敏感词过滤系统,包括:维吾尔语敏感词数据库、维吾尔语文本动态采集系统、维吾尔语敏感词校对系统、阈值判断模块、维吾尔语敏感词过滤系统、维吾尔语敏感词替换系统、后台显示模块、人工审核模块和推送显示模块。本发明提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台以及企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。

Description

维吾尔语敏感词过滤系统
技术领域
本发明属于通信及移动互联网技术领域,具体涉及一种维吾尔语敏感词过滤系统。
背景技术
随着互联网的飞速发展,各个社交网站由于具有内容丰富、互动性强、实时性强等优点,已成为人们沟通的主要交流方式之一。对于维吾尔语社交网站,其影响也影响范围越来越大。
然而,维吾尔语社交网站在为人们带来便利的同时,由于不具备敏感词过滤功能,因此,不可避免地会传播一些不良内容,由此损害公众利益。
发明内容
针对现有技术存在的缺陷,本发明提供一种维吾尔语敏感词过滤系统,支持对维吾尔语社交网站进行内容过滤,从而有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种维吾尔语敏感词过滤系统,包括:
维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个所述维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词以及中文译词;
维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本;
维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,则直接获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包含的维吾尔语敏感词对应的维吾尔语替换词与中文译词;
阈值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感词数量进行统计,得到所述维吾尔语敏感词的数量,记为N;以及,对当前被处理的所述维吾尔语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量值,记为M;然后,判断N/M是否大于设定阈值,如果大于,则执行维吾尔语敏感词过滤系统;如果小于,则执行维吾尔语敏感词替换系统;
维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本;
维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词校对系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词对应的维吾尔语替换词,同时,以替换框的方式突出显示每个所述维吾尔语替换词对应的维吾尔语敏感词以及中文译词,得到第一次处理后的维吾尔语文本;
后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本;
人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文本进行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本;
推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语文本显示到监测对象的对应位置。
优选的,所述维吾尔语敏感词校对系统具体用于:
根据所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本的信息容量的大小,所述维吾尔语敏感词校对系统将所述维吾尔语文本划分为n个单元;
然后,所述维吾尔语敏感词校对系统并行启动n个内容校对器,所述n个内容校对器并行对所述维吾尔语文本的n个单元进行内容校对。
优选的,所述维吾尔语敏感词校对系统所采用的所述匹配算法包括:核算法、栈算法或对照拼写校对算法;
对于仅支持汉语的匹配算法,在所述仅支持汉语的匹配算法的算法代码中加载维吾尔文字符U nicode编码组件并声明维吾尔文字符U nicode编码规范;然后,将所述维吾尔文字符U nicode编码组件与所述维吾尔语敏感词数据库进行对接,实现将所述仅支持汉语的匹配算法转化为支持维吾尔文的匹配算法。
优选的,还包括:
数据库管理模块,用于对所述维吾尔语敏感词数据库进行管理维护,包括:
备份管理单元,用于对所述维吾尔语敏感词数据库进行定期或非定期备份管理,包括自动备份和手动备份模式;
恢复管理单元,用于当所述维吾尔语敏感词数据库出现故障时,对所述维吾尔语敏感词数据库进行故障恢复管理操作;
版本管理单元,用于对所述维吾尔语敏感词数据库进行版本升级操作。
优选的,还包括:
敏感词管理模块,用于对所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词进行管理,包括:
敏感词添加单元,用于向所述维吾尔语敏感词数据库中增加新的维吾尔语敏感词,其工作流程为:
读取需添加的维吾尔语敏感词,同时,还读取与所述维吾尔语敏感词对应的维吾尔语替换词以及中文译意;
搜索所述维吾尔语敏感词数据库,判断所述维吾尔语敏感词数据库是否存储与所述需添加的维吾尔语敏感词相同的维吾尔语敏感词,如果相同,则忽略本次添加操作,继续读取并处理下一个需添加的维吾尔语敏感词;如果不相同,则将所述维吾尔语敏感词、维吾尔语替换词以及中文译意添加到所述维吾尔语敏感词数据库;
敏感词编辑单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词、维吾尔语替换词以及中文译意进行编辑操作;
敏感词搜索单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词、维吾尔语替换词以及中文译意进行搜索操作;
敏感词查看单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词按首字母进行排序,进而查看排序后的所述维吾尔语敏感词。
优选的,还包括:管理员管理模块;所述管理员管理模块包括:管理员个人信息修改单元、管理员权限设置单元以及管理员访问密码设置单元。
优选的,还包括:统计管理模块,包括:操作记录统计单元、管理员行为统计单元以及敏感词统计单元;其中,所述敏感词统计单元用于统计匹配成功的敏感词数量。
本发明的有益效果如下:
本发明提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台以及企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。
附图说明
图1为本发明提供的维吾尔语敏感词过滤系统的原理结构示意图;
图2为本发明提供的维吾尔语敏感词过滤系统的体系架构示意图;
图3为敏感词添加单元的工作流程图;
图4为敏感词搜索单元的工作流程图。
具体实施方式
以下结合附图对本发明进行详细说明:
本发明提供一种维吾尔语敏感词过滤系统,可将其应用于通信及移动互联网环境中,可高效过滤维吾尔语敏感词,从而防止涉及暴力、恐怖、色情、邪教等影响民族团结、国家统一的非法维吾尔语敏感词的散播。
如图1所示,为本发明提供的维吾尔语敏感词过滤系统的原理结构示意图,如图2所示,为本发明提供的维吾尔语敏感词过滤系统的体系架构示意图,包括:
维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个所述维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词以及中文译词;
维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本;
维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,则直接获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包含的维吾尔语敏感词对应的维吾尔语替换词与中文译词;
此处,为提高校对效率,参考图2,可采用多线程并行的运行方式,具体为:
根据所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本的信息容量的大小,所述维吾尔语敏感词校对系统将所述维吾尔语文本划分为n个单元;
然后,所述维吾尔语敏感词校对系统并行启动n个内容校对器,所述n个内容校对器并行对所述维吾尔语文本的n个单元进行内容校对。
另外,维吾尔语敏感词校对系统所采用的所述匹配算法包括:核算法、栈算法或对照拼写校对算法;
对于仅支持汉语的匹配算法,在所述仅支持汉语的匹配算法的算法代码中加载维吾尔文字符U nicode编码组件并声明维吾尔文字符U nicode编码规范;然后,将所述维吾尔文字符U nicode编码组件与所述维吾尔语敏感词数据库进行对接,实现将所述仅支持汉语的匹配算法转化为支持维吾尔文的匹配算法。
阈值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感词数量进行统计,得到所述维吾尔语敏感词的数量,记为N;以及,对当前被处理的所述维吾尔语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量值,记为M;然后,判断N/M是否大于设定阈值,如果大于,则执行维吾尔语敏感词过滤系统;如果小于,则执行维吾尔语敏感词替换系统;
维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本;
维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词校对系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词对应的维吾尔语替换词,同时,以替换框的方式突出显示每个所述维吾尔语替换词对应的维吾尔语敏感词以及中文译词,得到第一次处理后的维吾尔语文本;
后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本;
人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文本进行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本;
推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语文本显示到监测对象的对应位置。
还包括数据库管理模块、敏感词管理模块、管理员管理模块和统计管理模块:
(一)数据库管理模块
数据库管理模块,用于对所述维吾尔语敏感词数据库进行管理维护,包括:
备份管理单元,用于对所述维吾尔语敏感词数据库进行定期或非定期备份管理,包括自动备份和手动备份模式;
通过对维吾尔语敏感词数据库定期自动备份或手动备份,便于数据跟踪和维护,实现实时性,大大节省时间。
恢复管理单元,用于当所述维吾尔语敏感词数据库出现故障时,对所述维吾尔语敏感词数据库进行故障恢复管理操作;
版本管理单元,用于对所述维吾尔语敏感词数据库进行版本升级操作。
(二)敏感词管理模块
敏感词管理模块,用于对所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词进行管理,包括:
敏感词添加单元,用于向所述维吾尔语敏感词数据库中增加新的维吾尔语敏感词,如图3所示,为敏感词添加单元的工作流程图,包括:
读取需添加的维吾尔语敏感词,同时,还读取与所述维吾尔语敏感词对应的维吾尔语替换词以及中文译意;
搜索所述维吾尔语敏感词数据库,判断所述维吾尔语敏感词数据库是否存储与所述需添加的维吾尔语敏感词相同的维吾尔语敏感词,如果相同,则忽略本次添加操作,继续读取并处理下一个需添加的维吾尔语敏感词;如果不相同,则将所述维吾尔语敏感词、维吾尔语替换词以及中文译意添加到所述维吾尔语敏感词数据库;
敏感词编辑单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词、维吾尔语替换词以及中文译意进行编辑操作;
敏感词搜索单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词、维吾尔语替换词以及中文译意进行搜索操作;如图4所示,为敏感词搜索单元的工作流程图,步骤为:在输入搜索词后,系统开始在敏感词数据库中搜索,如果没有搜索结果,则直接提示无搜索结果,并结束流程;如果有搜索结果,则对搜索结果集进行整理后,呈现搜索结果,然后结束流程。
敏感词查看单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词按首字母进行排序,进而查看排序后的所述维吾尔语敏感词。
(三)管理员管理模块
管理员管理模块包括:管理员个人信息修改单元、管理员权限设置单元以及管理员访问密码设置单元。
(四)统计管理模块
统计管理模块,包括:操作记录统计单元、管理员行为统计单元以及敏感词统计单元;其中,所述敏感词统计单元用于统计匹配成功的敏感词数量。
由此可见,本发明提供的维吾尔语敏感词过滤系统,其系统架构采用多层次、多模块架构,具有层次分明、模块边界清晰,系统架构满足低松散、高耦合的要求的优点。
维吾尔语敏感词过滤系统的安装过程为:
本系统是基于web技术的B/S结构系统,本系统的安装运行需有一台或若干台服务器并搭建相关环境以及发布本系统,具体流程如下表1所记载。
表一维吾尔语敏感词过滤系统的安装指南
本发明提供的维吾尔语敏感词过滤系统,对社交网站上待发布文本内容基于一定的匹配算法进行匹配,判断待发布文本内容是否包含敏感词数据库所存储的敏感词或变形敏感词,如果有,再进一步判断敏感词或变形敏感词在待发布文本内容的权重,如果权重过高,如果执行敏感词替换操作,则非常有可能导致待发布文本内容产生较大的语义偏差,因此,此时直接将待发布文本内容屏蔽,禁止该待发布文本内容发布到社会网站;如果权重不高,则对待发布文本内容中的敏感词进行替换操作后,再将替换后的文本内容发布到社交网站上,从而高效率的防止非法内容散布到社交网站。
与现有技术方案相比,本发明提供的维吾尔语敏感词过滤系统,不仅能过滤维吾尔语敏感词,还能保证高效率的过滤维吾尔语敏感词。原因有以下几点:
(一)建立维吾尔语敏感词数据库:
不需提前遍历每个敏感词,可实时查询、读取敏感词。与当前主流的将敏感词记录在一个文件的方法相比,建立维吾尔语敏感词数据库在多个方面优势明显。
(二)建立维吾尔语敏感词校对系统:
可有效预防变换形式的敏感词的遗漏或无法被过滤。因在校对系统中实现了基于核算法的维吾尔语敏感词校对、基于栈算法的维吾尔语敏感词校对、对照拼写校对等自动校对方法,大大降低了人力需求,提高了过滤效率。
将本发明提供的过滤系统与1200多个维吾尔语网站对接,可实现对维吾尔语敏感词高效过滤,达到了预期目的。
本发明提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台以及企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (7)

1.一种维吾尔语敏感词过滤系统,其特征在于,包括:
维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个所述维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词以及中文译词;
维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本;
维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,则直接获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包含的维吾尔语敏感词对应的维吾尔语替换词与中文译词;
阈值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感词数量进行统计,得到所述维吾尔语敏感词的数量,记为N;以及,对当前被处理的所述维吾尔语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量值,记为M;然后,判断N/M是否大于设定阈值,如果大于,则执行维吾尔语敏感词过滤系统;如果小于,则执行维吾尔语敏感词替换系统;
维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本;
维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词校对系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词对应的维吾尔语替换词,同时,以替换框的方式突出显示每个所述维吾尔语替换词对应的维吾尔语敏感词以及中文译词,得到第一次处理后的维吾尔语文本;
后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本;
人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文本进行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本;
推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语文本显示到监测对象的对应位置。
2.根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,所述维吾尔语敏感词校对系统具体用于:
根据所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本的信息容量的大小,所述维吾尔语敏感词校对系统将所述维吾尔语文本划分为n个单元;
然后,所述维吾尔语敏感词校对系统并行启动n个内容校对器,所述n个内容校对器并行对所述维吾尔语文本的n个单元进行内容校对。
3.根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,所述维吾尔语敏感词校对系统所采用的所述匹配算法包括:核算法、栈算法或对照拼写校对算法;
对于仅支持汉语的匹配算法,在所述仅支持汉语的匹配算法的算法代码中加载维吾尔文字符Unicode编码组件并声明维吾尔文字符U nicode编码规范;然后,将所述维吾尔文字符U nicode编码组件与所述维吾尔语敏感词数据库进行对接,实现将所述仅支持汉语的匹配算法转化为支持维吾尔文的匹配算法。
4.根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括:
数据库管理模块,用于对所述维吾尔语敏感词数据库进行管理维护,包括:
备份管理单元,用于对所述维吾尔语敏感词数据库进行定期或非定期备份管理,包括自动备份和手动备份模式;
恢复管理单元,用于当所述维吾尔语敏感词数据库出现故障时,对所述维吾尔语敏感词数据库进行故障恢复管理操作;
版本管理单元,用于对所述维吾尔语敏感词数据库进行版本升级操作。
5.根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括:
敏感词管理模块,用于对所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词进行管理,包括:
敏感词添加单元,用于向所述维吾尔语敏感词数据库中增加新的维吾尔语敏感词,其工作流程为:
读取需添加的维吾尔语敏感词,同时,还读取与所述维吾尔语敏感词对应的维吾尔语替换词以及中文译意;
搜索所述维吾尔语敏感词数据库,判断所述维吾尔语敏感词数据库是否存储与所述需添加的维吾尔语敏感词相同的维吾尔语敏感词,如果相同,则忽略本次添加操作,继续读取并处理下一个需添加的维吾尔语敏感词;如果不相同,则将所述维吾尔语敏感词、维吾尔语替换词以及中文译意添加到所述维吾尔语敏感词数据库;
敏感词编辑单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词、维吾尔语替换词以及中文译意进行编辑操作;
敏感词搜索单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词、维吾尔语替换词以及中文译意进行搜索操作;
敏感词查看单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词按首字母进行排序,进而查看排序后的所述维吾尔语敏感词。
6.根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括:管理员管理模块;所述管理员管理模块包括:管理员个人信息修改单元、管理员权限设置单元以及管理员访问密码设置单元。
7.根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括:统计管理模块,包括:操作记录统计单元、管理员行为统计单元以及敏感词统计单元;其中,所述敏感词统计单元用于统计匹配成功的敏感词数量。
CN201410830265.4A 2014-12-26 2014-12-26 维吾尔语敏感词过滤系统 Pending CN104504091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410830265.4A CN104504091A (zh) 2014-12-26 2014-12-26 维吾尔语敏感词过滤系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410830265.4A CN104504091A (zh) 2014-12-26 2014-12-26 维吾尔语敏感词过滤系统

Publications (1)

Publication Number Publication Date
CN104504091A true CN104504091A (zh) 2015-04-08

Family

ID=52945489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410830265.4A Pending CN104504091A (zh) 2014-12-26 2014-12-26 维吾尔语敏感词过滤系统

Country Status (1)

Country Link
CN (1) CN104504091A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528731A (zh) * 2016-10-27 2017-03-22 新疆大学 一种敏感词过滤方法及系统
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN108363500A (zh) * 2018-03-07 2018-08-03 重庆海特科技发展有限公司 一种工程检测数据快速录入编辑方法及装置
CN108463816A (zh) * 2016-12-09 2018-08-28 谷歌有限责任公司 通过使用自动变体检测来防止禁止网络内容的分发

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN103092884A (zh) * 2011-11-04 2013-05-08 常州市多乐网络科技有限公司 网站非法信息屏蔽系统
CN103678602A (zh) * 2013-12-16 2014-03-26 昆明理工大学 一种含敏感度计算的网页过滤方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN103092884A (zh) * 2011-11-04 2013-05-08 常州市多乐网络科技有限公司 网站非法信息屏蔽系统
CN103678602A (zh) * 2013-12-16 2014-03-26 昆明理工大学 一种含敏感度计算的网页过滤方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528731A (zh) * 2016-10-27 2017-03-22 新疆大学 一种敏感词过滤方法及系统
CN108463816A (zh) * 2016-12-09 2018-08-28 谷歌有限责任公司 通过使用自动变体检测来防止禁止网络内容的分发
US11526554B2 (en) 2016-12-09 2022-12-13 Google Llc Preventing the distribution of forbidden network content using automatic variant detection
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN107463666B (zh) * 2017-08-02 2019-12-06 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN108363500A (zh) * 2018-03-07 2018-08-03 重庆海特科技发展有限公司 一种工程检测数据快速录入编辑方法及装置

Similar Documents

Publication Publication Date Title
CN104504091A (zh) 维吾尔语敏感词过滤系统
CN102054016B (zh) 用于撷取及管理社群智能信息的系统及方法
CN105184189B (zh) 智能变电站scd文件在线管控系统
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN104050281A (zh) 一种基于http协议的网页信息提取方法及装置
CN103488635A (zh) 一种获取产品信息的方法及装置
CN101188523A (zh) 告警相关性规则的生成方法及生成系统
CN104317909B (zh) 兴趣点数据的校验方法和装置
CN107085549B (zh) 故障信息生成的方法和装置
CN103902619A (zh) 一种网络舆情监控方法及系统
CN105335246B (zh) 一种基于问答网站分析的程序崩溃缺陷自动修复方法
CN110096585A (zh) 一种智能敏感词过滤系统
CN105808417A (zh) 自动化测试方法及代理服务器
CN104182465A (zh) 一种基于网络的大数据处理方法
CN107870859A (zh) 大批量对比测试方法及系统
CN103366247A (zh) 标准有效性判断系统及方法
CN107918907A (zh) 一种订单审核方法及系统
CN103077019A (zh) 一种图形化参数批量维护方法和装置
CN110365534A (zh) 一种智能变电站通讯系统自动斩断及恢复方法
CN108563708A (zh) 设备信息检索方法、装置及计算机设备
CN112887343B (zh) 一种用于网络大数据的管理系统及管理方法
CN107168265A (zh) 定值整定系统与保信系统的自动识别对接方法
CN109995856A (zh) 一种电网运行数据广域汇集方法及系统
CN104331512A (zh) 一种bbs页面自动采集方法
CN104252663A (zh) 黑名单联合管理预警方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150408