一种敏感词自动过滤管理系统
技术领域
本发明涉及CRM(Customer Relationship Management,客户关系管理)系统和网站信息发布系统,特别涉及到对敏感数据的检测和过滤,它对保障信息在网上展示的安全性和维护一个和谐的网络环境有很大的帮助。
背景技术
当前我国中小企业已超过4000多万户,占全国企业总数的99%以上,中小企业创造的最终产品和服务的价值已占国内生产总值近6成,提供的城镇就业岗位已占到75%,已成为我国目前及未来最具活力的经济成分。这些中小企业在网上都基本上会建立推广自己的产品和服务的网站,网站中的发布信息是面向所有浏览者的,这就带来了对这些信息检查和控制的需求,而往往检查这些信息又是耗费巨大的人力物力和时间,如果有一种技术能够节省这些人力物力和时间,那对这些企业本身和社会都是有极大好处的。
国内外CRM系统已广泛采用SaaS(Software-as-a-Service,软件运营)的运营方式,本系统可以为所有互联网信息提供商提供信息过滤服务,现应用于焦点科技股份有限公司开发的基于SaaS的中小企业管理软件——领动企业在线管理系统(下简称领动系统)。领动系统是应用SaaS模式的企业在线商务管理平台,集CRM、邮件管理、企业建站于一身,旨在为中国贸易企业市场开拓、产品销售及企业内部管理提供一揽子服务方案,帮助企业节省管理成本,提高运营效率,促进业务发展。由于该软件的功能中包含发布属于客户自己信息的功能,这些信息是由客户自由定制编写,造成了可能有某些信息涉及敏感内容,所以需要确定这些信息为合法,才能够在互联网上正常发布。客户大规模的添加他们的信息,领动系统就必须要大量人力去审核这些信息,这就促使我们开发一种技术,自动筛查、过滤并且替换这些敏感信息。
发明内容
本发明的目的是要提供一种快速、有效并且节省人力的处理信息方式,其基本构思是将搜索算法和用户操作反馈机制结合到一般的信息安全审核流程中去,分担大部分的原来由人工来完成重复性工作。
本发明采用的技术方案是:一种敏感词自动过滤管理系统,它包括敏感词检测子系统、人工干预操作子系统、敏感信息替换子系统以及敏感词判定分值效果回馈子系统,其特征在于:
所述敏感词检测子系统,是用于发现网站上待发布信息中的敏感信息,它包含了索引建立机制和敏感信息发现机制,使用第三方工具Lucene(及其相关产品),敏感信息发现采用了搜索的方式,其中的搜索在原有工具基础上部分修改了相似性判断的算法(原有工具采用简单的比较词频和矢量判断相似的方式),提高了原有工具对于敏感词的发现成功率,其方法为:
方法1:对于矢量计算过程,在涉及到词性为敏感词时,新参数frequency boost发挥作用,使其矢量值更加倾向于是确定包含敏感信息的文档;
方法2:在词库中增加敏感词专业词汇,帮助分词系统区分。
它实现对包含敏感数据的检查,原理是在一定时间间隔内对原始数据建立索引,再通过对已建立索引的检查,分离出包含敏感信息的数据,如果不包含就忽略,如果包含敏感信息则将该信息采集下来存放于存储介质,这时存储的数据是所有可疑数据(包含确定为敏感数据的——高敏感、可能为敏感数据的——疑似敏感),为人工干预操作子系统和敏感信息替换子系统做数据准备。
所述人工干预操作子系统,是单纯管理支持,此系统未涉及革新内容。它实现对敏感词检测子系统检测出的包含敏感信息的数据进行人工审核处理和查漏补缺。在敏感词检测子系统做完初步检查后,筛选下来的结果分为两类,一类是需要人工审核处理和另一类不需要人工审核处理的(系统自动处理),操作员可以参照系统的推荐值进行处理。
所述敏感信息替换子系统,是词汇替换操作,此系统未涉及革新内容。它实现对已经被判定为高敏感信息的数据进行过滤与替换,不在面向互联网的网页上展示这些带有敏感信息的数据,屏蔽搜索引擎对这些数据的收集,做到信息的安全展现。
所述敏感词判定分值效果回馈子系统,是用于建立一套分值评价系统,每一次人工干预的操作都会形成客户行为数据,这些被记录的经过算法处理会生成一个修改值,阀值会根据该修改值作出修改,从而改变判断标准,实现系统自我更新,调整标准。它实现对人工审核过程中所执行操作的记录,并针对这些记录进行拟合计算,将这个计算值反馈作用于下一周期的判断阀值(数值大小调整),依据实际数据在合理范围的波动以适应数据环境的变化,根据这些操作的趋向性(例如:更多的是将系统推荐为高敏感的信息人工判定为低敏感,或者更多的是将系统推荐为疑似敏感的信息人工判定为高敏感等)修改系统中最初设定的判定是否为敏感信息的阀值。
上述子系统的协同工作,建立了一种更为科学的词性趋向指标和评价体系,极大的降低了审核人员的工作量。
上述系统,其进一步特征在于:建立了一种根据实际情况可以做自我调整的智能判断敏感信息的系统,实现数据集成、整理、转换和分析,同时创立了对敏感信息的科学词性趋向指标和评价体系。
本发明具有如下的有益效果:
人力成本效果:系统中的自动分析、查找和替换敏感词功能将大为减少人工处理、操作的工作量,繁琐的劳动将被计算机自动处理代替,只需要每日检查处理结果中的异常即可。
科学的检查指标: 在人工辅助处理的过程中由于系统设定的检查指标阀值不一定适应于当前的实际数据(阀值偏高导致漏判数量增多,阀值偏低导致需要人工处理数据量增多),本系统提供更为科学的检查指标,是可以自动处理这种错误,依据人工处理数据结果的变化会自动修改判断阀值,使得该阀值更趋向于合理,也使得系统具有更高的自动化水平。
科学的评价体系:评价是否是敏感信息是一般采用直接查询的方式,这种方式不但准确率不高而且效率较低,本系统中的评价体系基于搜索的结果,着重突出了属于敏感词类别的信息,使得在海量的信息中通过指标的过滤,大部分都很容易地显现出来。
增强系统的自适应能力:基于以上特性该系统既可以使用于中国制造网等较大型的网站过滤,也可以针对一些中小型的网站作为过滤工具,甚至通过简单的修改专业词库就可以为专业网站提供支持,具有较强的自适应能力。
附图说明
图1是本发明敏感词检测子系统和人工干预操作子系统的流程图。
图2是本发明敏感信息替换子系统流程图。
图3是本发明敏感词判定分值效果回馈子系统流程图。
图4是本发明敏感词判定阀值上下界修正拟合算法效果图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。附图和具体实施方式并不限制本发明要求保护的范围。
本发明的具体实现有以下四个主要环节:
1.敏感词自动过滤管理系统整体架构。敏感词分析自动检测过滤、人工辅助管理系统,简称:敏感词自动过滤管理系统,核心部分由敏感词检测子系统、人工干预操作子系统(如图1所示)、敏感信息替换子系统(如图2所示)以及敏感词判定分值效果回馈子系统组成(如图3所示)。
)建立基础数据采集单元。
该单元处理所有客户发布在互联网上需要展示的数据,对这些数据按最小的颗粒度,根据词汇的出现次数(frequency)、查询条件(term)的频度、查询(query vector)的向量值、敏感数据的词性(frequency boost)建立数据结构,以便未来快速的查找敏感数据。
)从采集的数据中查询敏感信息。
系统对数据进行自动检测过滤,查询出所有包含敏感数据的信息,将这些信息分析处理后存放起来,为具体数据的替换做数据准备。
)替换敏感信息。
系统经过自动检测,整理出需要替换的信息,替换敏感信息子系统将这些信息用标准替换信息替代,使得这些信息就在互联网上无法被查看。这些信息主要是客户的产品信息,产品目录信息,客户公司的介绍等。
)敏感词判定回馈分值。
.建立科学的敏感词评价体系和检查指标
1)建立科学的敏感词评价体系:
该评价体系由数据采集单元根据词汇的出现次数(frequency)、查询条件(term)的频度、查询(query vector)的向量值、敏感数据的词性(frequency boost)建立,形成一个综合评分,根据此评分可以得到一个评分指标,即敏感信息的最低得分(即下界)和最高得分(即上界),成为判断是否为敏感信息的根据,该评价体系可以根据需要进行判断分值初始设定和后期调整。
)建立科学的敏感词检查指标:
日常人工处理过程中对疑似敏感信息的判定是根据:
①系统的推荐值(作为人工处理的参考);
②处理人员根据自身经验对数据的判断。
作为人工数据处理的结果(疑似敏感词—>高敏感词、疑似敏感词—>低敏感词),这种判断结果对系统的判断阀值的分值是有影响的,这种影响持续足够长的时间或者满足一定的次数,评价体系内的系统自动判断阀值会被相应回馈分值修改。由此形成了一套关于判断阀值的评价体系,它有一种倾向性,随系统数据的不同,在相应的分值区间内移动,使这套评价体系可以适应于不同的数据环境。
敏感词检查指标说明
1)敏感词检查指标:
系统初始时的该检查指标——敏感词判断阀值(初始为下界0.0000分,上界0.8600)是估算值,在人工处理过程中,每一次对疑似敏感信息的判断结果操作都会被记录下来作为修正分值的数据基础,这些修正分值经过算法分析后生成一个趋向分值,系统会利用该分值对原有的初始判断阀值做出修正,最后得到系统的检查指标。
)敏感词检查指标核心算法说明:
回馈分值算法的计算公式1各部分定义如下:
①Fix=单次修正分值,如果是判断低敏感,修正分值=实际搜索得分—下界判断分值。如果是判断高敏感,修正分值=上界判断分值—实际搜索得分;
②∑Fix=修正分值1+……+修正分值n(其中修正分值有正负之分,由疑似判定为高敏感为负分,意味向下修正下界,由疑似判定为低敏感为正分,意味向上修正上界,这种修正是满足次数条件才会产生);
③N=单日修正次数;
④T=累计连续修正天数;
⑤单日上界修正值=V 上 ;
⑥单日下界修正值=V 下 。
公式1单日上界修正值为(限于T的范围之内): V 上 =∑ 上 Fix / N;公式2下界修正值为(限于T的范围之内): V 下 =∑ 下 Fix / N。联合以上公式和参数通过拟合(多项式)算法得到关于上下界的敏感词阀值修正值预期的结论:
①阀值是有连续趋向性的,并且在一定数据基础范围内会稳定在一个确定的范围之内,也即,对于相同类型行业的网站其敏感词的判断阀值总是相似的,并且其值在一定范围内波动,由此作为计算依据可以推断初始值判断阀值和下一个周期的修正值;
②依据测试数据基础,判断上界的初始阀值是以0.86为基准线的0.07范围以内;
③依据测试数据基础,判断下界的初始阀值是以0.057为基准线的0.04范围以内;
④通过拟合计算方式可以实时(每天)调整判断标准,对实际数据环境的变化做出相应改变,原理如图4所示。
根据该结论敏感词检查指标可以根据所在系统的实际数据环境不同而不同。
敏感词评价体系说明
1)影响评价体系的算法解释:
如上图所示该公式原型来自于lucene的文档评分公式(参见lucene官网关于公式的解释),加入了敏感数据的词性(frequency boost)元素,该元素的作用是使得具有敏感词性地词在文档中被突出出来,使得文档具有敏感词高分属性。上述公式中包含名为frequency boost元素的值计算方法公式是:
frequency boost = 敏感词权重×词性得分×该词出现次数/文档中该词中所有的字/词出现相对位置的均值(例如:当一个词是由多个字/词组成,这些字/词之间可能有分隔符“*,。/&%#”等故意隔开,这样就需要将字/词之间的距离做出距离位置计算)。
)影响评价体系的基础词库说明:
在现有的名词词库中也添加了相关的敏感词专业词汇,使得在搜索敏感词时包含敏感词的文档具有特别的高分,例如TNT、毒品、法轮功等等,在加入这些词汇之前,敏感词识别率在约87%左右(系统实际测得),加入这些专有词汇后识别率上升至92.03%~95.43%,而且在变造词汇(例如采用分隔符等方式)的识别率上也从39.78%上升至53.51%,实际效果的提升是比较明显的。
虽然本发明已以较佳实施例公开如上,但它们并不是用来限定本发明,任何熟习此技艺者,在不脱离本发明之精神和范围内,自当可作各种变化或润饰,但同样在本发明的保护范围之内。因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。