CN108717408B - 一种敏感词实时监控方法、电子设备、存储介质及系统 - Google Patents

一种敏感词实时监控方法、电子设备、存储介质及系统 Download PDF

Info

Publication number
CN108717408B
CN108717408B CN201810447558.2A CN201810447558A CN108717408B CN 108717408 B CN108717408 B CN 108717408B CN 201810447558 A CN201810447558 A CN 201810447558A CN 108717408 B CN108717408 B CN 108717408B
Authority
CN
China
Prior art keywords
data
sensitive word
sensitive
real
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810447558.2A
Other languages
English (en)
Other versions
CN108717408A (zh
Inventor
卜象平
段兆阳
陈薇
夏真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ecreditpal Technology Co ltd
Original Assignee
Hangzhou Ecreditpal Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ecreditpal Technology Co ltd filed Critical Hangzhou Ecreditpal Technology Co ltd
Priority to CN201810447558.2A priority Critical patent/CN108717408B/zh
Publication of CN108717408A publication Critical patent/CN108717408A/zh
Application granted granted Critical
Publication of CN108717408B publication Critical patent/CN108717408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种敏感词实时监控方法,包括采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;将敏感词样例文档数据与敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;根据集成学习算法以及敏感词历史数据对训练模型进行训练并得到敏感词监控模型,将敏感词监控模型存储至预设实时数据库中;提取预设实时数据库中的敏感词监控模型,根据敏感词监控模型对实时文本数据进行分析处理并得到文本分析结果。本发明的一种敏感词实时监控方法,可以实时监控到实时文本数据中是否有敏感词汇,因为最初建立了敏感词监控模型,因此也提高了敏感词识别的识别率,使对于敏感词的捕捉效率非常高。

Description

一种敏感词实时监控方法、电子设备、存储介质及系统
技术领域
本发明涉及文本处理领域,尤其涉及一种敏感词实时监控方法、电子设备、存储介质及系统。
背景技术
今社会,互联网蓬勃发展。随着网民数量的不断增长,越来越多的人把互联网作为获取信息的首选渠道。目前互联网已经成为了一个全球性、开放性、互动性的综合型平台。它容纳了各类型的原始信息,提供了各类型的服务,比如信息获取、网上购物、即时性交流等,给人们工作、生活带来很大的便利。可以说它深入人们生活的方方面面,是人类信息化技术的一次革命。一批有影响力的门户网站、BBS以及博客逐渐成为网民最常使用的互联网服务站点。据中国互联网络信息中心(CNNIC)统计,2009年以来,我国已经成为世界网民最多的国家。随着网名的增加,各种论坛,博客等交流平台相继出现在互联网上。网民在互联网上的言论自由得到了充分的体现。然而一些素质低下的网民和不法分子在互联网上散布不良信息,使得互联网的环境遭到破坏。应对网络环境所需,敏感词和敏感词检索分析技术应运而生。敏感词一般是指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明用语。一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些敏感词是无法显示出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词。针对网页文本内容的敏感信息监测与过滤技术是网络舆情管理的重要技术,能够及时有效检测与发现网页中出现的不良文本信息,使网站监控与管理人员及时采取措施进行敏感词的过滤,以防止网页不良信息的蔓延和给社会和人们带来重大损失。敏感词检索功能在网络贴吧或论坛中都被广泛应用,通过敏感词检索,可以有效减少不良信息的传播,为网络环境净化创造了条件。据统计网络中70%内容是以文本形式存在,所以对网络文本的敏感词搜索是现在敏感词过滤技术研究的主要方向。
目前方法主要为关键字过滤。由于关键词过滤相对于别的语义过滤实现简单,过滤速度快等特点,目前己成为绝大多数过滤系统采用的主要方法。但是由于敏感词的捕捉具有变化快,特征多和难度大的特点。现有的大部分网络平台通过敏感词库直接匹配即关键词过滤技术很难达到快速高效的监控敏感词的目的。并且这种过滤方法对于文本的树结构穷尽搜素匹配方法很消耗系统资源,而且响应时间很长,尤其对于敏感词库较为庞杂的情况,这一问题十分显著。因此现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种敏感词实时监控方法,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。
本发明的目的之二在于提供一种电子设备,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。
本发明的目的之三在于提供一种存储介质,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。
本发明的目的之四在于提供一种敏感词实时监控系统,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。
本发明的目的之一采用以下技术方案实现:
一种敏感词实时监控方法,包括以下步骤:
数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;
数据合并,将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;
生成敏感词监控模型,将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;
敏感词监控,提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。
进一步地,所述数据合并之前还包括对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理,第一数据预处理具体为对所述敏感词样例文档数据和所述敏感词数据进行数据整合处理、数据清洗处理、第一自然语言处理以及第一特征提取处理;所述第二预处理具体为对所述实时文本数据进行数据分类处理、无用符号清洗处理、文本分词处理、第二自然语言处理以及第二特征提取特征处理。
进一步地,所述第一特征提取处理具体为对所述敏感词样例文档数据和所述敏感词数据进行第一分词处理和第一TF-IDF加权处理,所述第二特征提取处理具体为对所述实时文本数据进行第二分词处理和第二TF-IDF加权处理。
进一步地,所述第一分词处理具体为采用HMM模型和Viterbi算法对述敏感词样例文档数据和所述敏感词数据进行分词处理;所述第二分词处理具体为采用HMM模型和Viterbi算法对所述实时文本数据进行分词处理。
进一步地,所述数据合并具体为:将所述敏感词样例文档数据与所述敏感词数据存入Hadoop分布式文件系统中进行数据合并得到敏感词历史数据。
进一步地,所述训练池中的训练模型包括朴素贝叶斯模型、支持向量机模型以及启发式模型。
进一步地,还包括将所述文本分析结果存储至所述预设实时数据库中。
本发明的目的之二采用以下技术方案实现:
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本发明的一种敏感词实时监控方法。
本发明的目的之三采用以下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本发明的一种敏感词实时监控方法。
本发明的目的之四采用以下技术方案实现:
一种敏感词实时监控系统,包括:数据采集模块,所述数据采集模块用于将采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;预处理模块,所述预处理模块用于对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理;所述预处理模块包括第一预处理单元以及第二预处理单元,所述第一预处理单元用于对所述敏感词样例文档数据和所述敏感词数据进行第一预处理,所述第二预处理单元用于对所述实时文本数据进行第二预处理;数据合并模块,所述数据合并模块用于将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;敏感词监控模型生成模块,所述敏感词监控模型生成模块用于将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控模块,所述敏感词监控模块用于提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。
相比现有技术,本发明的有益效果在于:本发明申请的一种敏感词实时监控方法包括采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;将敏感词样例文档数据与敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;将敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及敏感词历史数据对训练模型进行训练并得到敏感词监控模型,将敏感词监控模型存储至预设实时数据库中;提取预设实时数据库中的敏感词监控模型,根据敏感词监控模型对实时文本数据进行分析处理并得到文本分析结果。本发明申请的一种敏感实时监控方法通过采集敏感词样例文档数据、预设敏感词数据,实时文本数据,并将敏感词样例文档数据、预设敏感词数据进行数据合并得到敏感词历史数据,根据集成学习算法以及敏感词历史数据对训练模型进行训练得到敏感词监控模型,根据敏感词监控模型对实施文本数据进行分析处理得到文本分析结果,此过程可以实时监控到实时文本数据中是否有敏感词汇,因为最初建立了敏感词监控模型,因此也提高了敏感词识别的识别率,因为此监控过程节省了大量的时间,使对于敏感词的捕捉效率非常高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种敏感词实时监控方法的流程图;
图2为本发明的一种敏感词实时监控系统的模块框图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示的本发明的一种敏感词实时监控方法的流程图,具体包括以下步骤:
数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;在本实施例中的敏感词样例文档数据为带有敏感词的实际文本样例,预设敏感词词库为包含多种敏感词词汇的词库。
数据预处理,对敏感词样例文档数据和敏感词数据进行第一预处理以及对实时文本数据进行第二预处理,第一数据预处理具体为对敏感词样例文档数据和敏感词数据进行数据整合处理、数据清洗处理、第一自然语言处理以及第一特征提取处理;第一特征提取处理为对敏感词样例文档数据和敏感词数据进行第一分词处理和第一TF-IDF加权处理,第二预处理具体为对实时文本数据进行数据分类处理、无用符号清洗处理、文本分词处理、第二自然语言处理以及第二特征提取特征处理,第二特征提取处理具体为对实时文本数据进行第二分词处理和第二TF-IDF加权处理,第一分词处理具体为采用HMM模型和Viterbi算法对述敏感词样例文档数据和敏感词数据进行分词处理;第二分词处理具体为采用HMM模型和Viterbi算法对实时文本数据进行分词处理;TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在本实施例中的第一分词处理和第二分词处理统称为分词处理,分词处理具体包括中文分词以及英文分词,中文分词是将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文分词的行文,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。因此本实施例是还要对分词进行有效的加权变形来提高器统计意义,本实施例中采用了标准的TF-IDF加权技术;TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。在一份给定的文件里,TF(TermFrequency)意为词频,表示某词语在某文档中出现的频率,这个数字是对词数(termcount)的归一化,以防止它偏向长的文件;当评价一个词语的重要性时,我们采用TF-IDF加权来评价。TF-IDF倾向于过滤掉常见的词语,保留重要的词语,通过TF-IDF转换,系统可以将词语数字化,并赋予重要词语较高值。
数据合并,将敏感词样例文档数据与敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;在本实施例中将敏感词样例文档数据与敏感词数据存入Hadoop分布式文件系统中进行数据合并得到敏感词历史数据中。
生成敏感词监控模型,将敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及敏感词历史数据对训练模型进行训练并得到敏感词监控模型,将敏感词监控模型存储至预设实时数据库中;训练池中的训练模型包括朴素贝叶斯模型、支持向量机模型以及启发式模型。具体为:首先建立模型训练池,在训练池中建立多个不同性能的模型用来捕获敏感词历史数据中的文档的多方面特征,训练池建立后将敏感词历史数据导入进训练池中,根据集成学习算法整合多个模型,最终得到一个最终的敏感词监控模型,此时的敏感词监控模型式模型训练池中所有模型的线性组合,以达到吸取各类型模型优点,避免其不足的目的,在本实施例中训练模型包括:朴素贝叶斯模型(Naive Bayesclassifier),支持向量机模型(Support Vector Machine)和启发式模型(Heuristicmethod)。
敏感词监控,提取预设实时数据库中的敏感词监控模型,根据敏感词监控模型对实时文本数据进行分析处理并得到文本分析结果。包括将文本分析结果存储至预设实时数据库中。
在本实施例中的上述训练模型详细介绍如下:
朴素贝叶斯模型:在训练模型学习中,朴素贝叶斯分类模型是以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的概率分类模型,素贝叶斯自20世纪50年代已广泛研究。在20世纪60年代初就引入到文本信息检索界中,并仍然是文本分类的一种热门(基准)方法,文本分类是以词频为特征判断文件所属类别或其他(如垃圾邮件、合法性、体育或政治等等)的问题。通过适当的预处理,它可以与这个领域更先进的方法(包括支持向量机)相竞争;朴素贝叶斯是一种通过监督学习算法构建分类器的方法。该建模方法需要一个含有类标签(如文本是否含有敏感词)的有限训练集,并给出与之相关联的特征变量。朴素贝叶斯算法基于一个重要假设:每个特征与其他特征都不相关。尽管在实际应用中,某些特征会相互依赖甚至有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该文本是否含有敏感词的概率分布上是独立的;尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法。因此,在不用到贝叶斯概率或者任何贝叶斯模型的情况下,朴素贝叶斯模型也能奏效。朴素贝叶斯分类器最大的一个优势在于只需要根据少量的训练数据估计出必要的参数。由于变量独立假设,只需要估计各个变量的方差,而不需要确定整个协方差矩阵。朴素贝叶斯分类器还具有高度可扩展性。最大似然训练可以通过评估一个封闭形式的表达式来完成,只需花费线性时间,而不需要其他很多类型的分类器所使用的费时的迭代逼近算法。朴素贝叶斯分类器的基本思想基于如公式(1)所示:
=/>(1)
在公式(1)中,C代表标签,F代表特征值,即公式中可包含多个特征值。
支持向量机模型:支持向量机是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。支持向量机本身是一种监督式学习的方法。它广泛的应用于统计分类以及回归分析中。通俗来讲,它是一种非概率二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。在敏感词系统中,文本被分成两类:含有敏感词的文本和不含敏感词的文本。对于这种特定标记,支持向量机训练算法会建立了一个模型。当遇到新的实例时,会按照训练结果将其分为某一个特定的类。在支持向量机模型的建立过程中,可将训练集合抽象成空间中的点集,支持向量机将产生一个分割这些点集的平面,使得点集中各点到该平面的距离差尽可能的大。在使用支持向量机模型时,新的实例就会被映射到相同的空间中,而其类别的预测会基于该实例相对分割平面的位置来决定。本质上说,支持向量机是一种线性分类器。但是支持向量机模型可以使用所谓的核技巧有效地进行非线性分类,将其输入隐式映射到高维特征空间中。支持向量机模型最基本的原理是在n维空间下找到一个分类的超平面,将空间中的点分类,一般而言,一个点距离超平面的远近可以表示为分类预测的确信或准确程度。支持向量机模型就是要最大化这个间隔值。而在边界上的点便叫做支持向量(SupprotVerctor)。对于线性支持向量模型,我们可以考虑训练集合有n个点,即n个向量坐标集合,即为:(),…,(/>);其中/>是1或者-1时,对应的类分别为含有敏感词和不含敏感词;每一个/>都是一个多维向量,表示我们最终提取的特征值得集合。我们在模型训练中要找到一个超平面,叫做“最大间隔超平面”,使得将/>等于-1和等于1的/>点尽量分开,即使得/>点到超片面的距离最大化。如果这些训练数据是线性可分的,可以选择分离两类数据的两个平行超平面,使得它们之间的距离尽可能大。在这两个超平面范围内的区域称为“间隔”,最大间隔超平面是位于它们正中间的超平面。支持向量模型建模流程包括:特征选择、模型训练以及模型应用,特征选择包括选择特征属性后生成训练集;模型训练包括尝试各种超平面分割、选出最大间隔超平面;模型应用包括对新样本计算其相对超平面偏移以及根据偏移方向确定所属类别。
启发式模型:启发式模型即为使用启发式算法对数据进行训练,启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法是求得该问题每个实例的最优解。而启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计;在敏感词监控系统中,我公司基于对于敏感词监督和捕获的经验,开发出一套可直接用于决策的启发式模型算法。该算法依赖于可定制化的敏感词词库,能够有效的捕获各种类别的敏感词及其各种形式的变种,并支持用户定制化的敏感词分级,对于不同级别的敏感词,系统将采取不同的监控方式。该算法尤其适用于用户对不同等级敏感词有定制化需求的场景,启发式模型最核心的设计理念是:启发式算法不仅拦截用户指定的敏感词词库中的词语,还会根据敏感词等级,自行扩展敏感词拦截字库和词库,达到高覆盖率的拦截各种形式的敏感词。用户可以通过系统配置文件,设定敏感词词库的种类和级别。现阶段系统中对敏感词分四个等级:0,1,2,-1;0,1,2级为敏感词等级,数字越小,敏感程度越高。-1为极度敏感词,表示其中的单个字都有可能是敏感的。敏感词的类别可由用户定制,现阶段系统中含有政治敏感,涉黄,涉毒,涉赌,涉爆和非法广告等。启发式算法基于线上敏感词匹配,配位的来源主要分为两大类:扩展的敏感词
词库和扩展的敏感词字库。前者主要来自于对现有的敏感词词库的各种形式的扩展。而字库来源于等级为-1的敏感词的扩展。详细的扩展方式如下:
0级:敏感词最高等级,会将把基本敏感词的下列变种加入最终敏感词过滤词库和最终敏感词分词词库(线上调用的都是最终词库)。变种如下:I、原词的中文简体形式;II、原词的中文繁体形式;III、原词的全拼形式;IV、原词的拼音带声调形式;V、原词的拼音首字母缩写形式;VI、原词上述五种格式的全排列;VII、为了避免过于严格而产生误捕捉,全排列中,除去全为缩写但是长度小于3的非原词形式。
1级:敏感词中级,会将把基本敏感词的下列变种加入最终敏感词过滤词库和最终敏感词分词词库。变种如下:I、原词的中文简体形式;II、原词的中文繁体形式;III、原词的全拼形式;IV、原词的拼音首字母缩写形式;V、原词上述四种格式的全排列;VI、为了避免过于严格而产生误捕捉,全排列中,除去全为缩写但是长度小于4的非原词形式。例如,妓女->jin,jin太普遍,不适合标记为敏感词;
2级:敏感词低级:会将把基本敏感词的下列变种加入最终敏感词过滤词库和最终敏感词分词词库。变种如下:I、原词的中文简体形式;II、原词的中文繁体形式;III、原词的全拼形式;
-1级:极度敏感且特殊的词。词库中词语会被逐字加入敏感词字库中。敏感词字库会在线上被调用。用于各种正则匹配。-1级词汇会被限制的非常严格,一般多于两字匹配的大部分格式都会被标记为敏感词。
集成学习模型:集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。系统会将多个模型统一考虑,取长补短;训练数据集中的每一个样本,并给每个样本赋予一个权重,权重初始化成相等值,这些权重形成向量D。首先在训练数据上训练出一个弱分类器并计算该分类器的错误率。然后在同一个数据集上再次训练分类器,在这次训练过程中调整每个样本的权重,将第一次分对的样本的权重降低,第一次分错的样本权重提高。最后给每一个分类器分配了一个权重值alpha,这些alpha值是基于每个弱分类器的错误率进行计算的。
本发明还提供了一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中程序被存储在存储器中,并且被配置成由处理器执行,程序包括用于执行本方发明的敏感词实时监控方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:计算机程序被处理器执行本方发明的敏感词实时监控方法。
本发明还提供了一种敏感词实时监控系统,其特征在于包括:数据采集模块,数据采集模块用于将采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;预处理模块,预处理模块用于对敏感词样例文档数据和敏感词数据进行第一预处理以及对实时文本数据进行第二预处理;预处理模块包括第一预处理单元以及第二预处理单元,第一预处理单元用于对敏感词样例文档数据和敏感词数据进行第一预处理,第二预处理单元用于对实时文本数据进行第二预处理;数据合并模块,数据合并模块用于将敏感词样例文档数据与敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;敏感词监控模型生成模块,敏感词监控模型生成模块用于将敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及敏感词历史数据对训练模型进行训练并得到敏感词监控模型,将敏感词监控模型存储至预设实时数据库中;敏感词监控模块,敏感词监控模块用于提取预设实时数据库中的敏感词监控模型,根据敏感词监控模型对实时文本数据进行分析处理并得到文本分析结果。本发明申请中预设实时数据库中存储数据的方式是采用预测模型标记语言(Predictive Model Markup Language,PMML)来记录训练完成的模型。PMML是一种可以呈现预测分析模型的事实标准语言。它支持在PMML兼容应用程序之间轻松共享预测解决方案。PMML受多种语言和统计工具的支持。在本发明申请的敏感词实时监控系统中,输出的文本格式都是采用标准的JSON格式,内容包括:result:文档中包含的敏感词的最高等级(数字越小,等级越高);level_words:不同等级的敏感词类别及具体文字。本申请的敏感实时监控系统通过一致哈希增加服务器,新的服务器只是尽量分担存储其他服务器的资源。同样,在减少一台服务器的时候,其他的服务器也可以尽量分担其资源。这样,动态改变资源对整个的系统的影响非常有限。当负载实时变化时,系统能够动态的调整处理能力来保证服务质量和降低运营成本。
本发明申请的一种敏感词实时监控方法包括采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;将敏感词样例文档数据与敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;将敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及敏感词历史数据对训练模型进行训练并得到敏感词监控模型,将敏感词监控模型存储至预设实时数据库中;提取预设实时数据库中的敏感词监控模型,根据敏感词监控模型对实时文本数据进行分析处理并得到文本分析结果。本发明申请的一种敏感实时监控方法通过采集敏感词样例文档数据、预设敏感词数据,实时文本数据,并将敏感词样例文档数据、预设敏感词数据进行数据合并得到敏感词历史数据,根据集成学习算法以及敏感词历史数据对训练模型进行训练得到敏感词监控模型,根据敏感词监控模型对实施文本数据进行分析处理得到文本分析结果,此过程可以实时监控到实时文本数据中是否有敏感词汇,因为最初建立了敏感词监控模型,因此也提高了敏感词识别的识别率,因为此监控过程节省了大量的时间,使对于敏感词的捕捉效率非常高。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (9)

1.一种敏感词实时监控方法,其特征在于包括以下步骤:
数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;
数据合并,将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;
生成敏感词监控模型,将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;
敏感词监控,提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果;
所述训练模型包括朴素贝叶斯模型、支持向量机模型以及启发式模型。
2.如权利要求1所述的一种敏感词实时监控方法,其特征在于:所述数据合并之前还包括对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理,第一数据预处理具体为对所述敏感词样例文档数据和所述敏感词数据进行数据整合处理、数据清洗处理、第一自然语言处理以及第一特征提取处理;所述第二预处理具体为对所述实时文本数据进行数据分类处理、无用符号清洗处理、文本分词处理、第二自然语言处理以及第二特征提取特征处理。
3.如权利要求2所述的一种敏感词实时监控方法,其特征在于:所述第一特征提取处理具体为对所述敏感词样例文档数据和所述敏感词数据进行第一分词处理和第一TF-IDF加权处理,所述第二特征提取处理具体为对所述实时文本数据进行第二分词处理和第二TF-IDF加权处理。
4.如权利要求3所述的一种敏感词实时监控方法,其特征在于:所述第一分词处理具体为采用HMM模型和Viterbi算法对述敏感词样例文档数据和所述敏感词数据进行分词处理;所述第二分词处理具体为采用HMM模型和Viterbi算法对所述实时文本数据进行分词处理。
5.如权利要求1所述的一种敏感词实时监控方法,其特征在于:所述数据合并具体为:将所述敏感词样例文档数据与所述敏感词数据存入Hadoop分布式文件系统中进行数据合并得到敏感词历史数据。
6.如权利要求1所述的一种敏感词实时监控方法,其特征在于:还包括将所述文本分析结果存储至所述预设实时数据库中。
7.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-6任意一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-6任意一项所述的方法。
9.一种敏感词实时监控系统,其特征在于包括:数据采集模块,所述数据采集模块用于将采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;预处理模块,所述预处理模块用于对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理;所述预处理模块包括第一预处理单元以及第二预处理单元,所述第一预处理单元用于对所述敏感词样例文档数据和所述敏感词数据进行第一预处理,所述第二预处理单元用于对所述实时文本数据进行第二预处理;数据合并模块,所述数据合并模块用于将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;敏感词监控模型生成模块,所述敏感词监控模型生成模块用于将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控模块,所述敏感词监控模块用于提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果;所述训练模型包括朴素贝叶斯模型、支持向量机模型以及启发式模型。
CN201810447558.2A 2018-05-11 2018-05-11 一种敏感词实时监控方法、电子设备、存储介质及系统 Active CN108717408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810447558.2A CN108717408B (zh) 2018-05-11 2018-05-11 一种敏感词实时监控方法、电子设备、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810447558.2A CN108717408B (zh) 2018-05-11 2018-05-11 一种敏感词实时监控方法、电子设备、存储介质及系统

Publications (2)

Publication Number Publication Date
CN108717408A CN108717408A (zh) 2018-10-30
CN108717408B true CN108717408B (zh) 2023-08-22

Family

ID=63899759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810447558.2A Active CN108717408B (zh) 2018-05-11 2018-05-11 一种敏感词实时监控方法、电子设备、存储介质及系统

Country Status (1)

Country Link
CN (1) CN108717408B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN109766715B (zh) * 2018-12-24 2023-07-25 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及系统
CN111383659B (zh) * 2018-12-28 2021-03-23 广州市百果园网络科技有限公司 分布式语音监控方法、装置、系统、存储介质和设备
CN109656141A (zh) * 2019-01-11 2019-04-19 武汉天喻聚联网络有限公司 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质
US11341514B2 (en) * 2019-07-26 2022-05-24 EMC IP Holding Company LLC Determining user retention values using machine learning and heuristic techniques
CN110516071A (zh) * 2019-08-29 2019-11-29 出门问问(武汉)信息科技有限公司 一种对话识别方法及电子设备
CN111460796B (zh) * 2020-03-30 2022-04-08 北京航空航天大学 一种基于词网络的偶发敏感词发现方法
CN111753539B (zh) * 2020-06-30 2023-12-26 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置
CN111898060A (zh) * 2020-07-14 2020-11-06 大汉软件股份有限公司 一种基于深度学习的内容自动化监控方法
CN112528636A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 封停敏感词预测方法、装置、计算机设备及存储介质
CN113032562B (zh) * 2021-03-18 2024-02-02 中国人民解放军火箭军工程大学 一种多次迭代对折词汇层级分类方法及系统
CN113051911B (zh) * 2021-03-23 2023-10-10 北京百度网讯科技有限公司 提取敏感词的方法、装置、设备、介质及程序产品
CN114021564B (zh) * 2022-01-06 2022-04-01 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178083A (ja) * 2002-12-06 2003-06-27 Hideki Nishimoto 文献内容判別装置、文献、帯紙、文献内容判別プログラム
CN103685575A (zh) * 2014-01-06 2014-03-26 洪高颖 一种基于云架构的网站安全监控方法
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106886579A (zh) * 2017-01-23 2017-06-23 北京航空航天大学 实时流式文本分级监控方法和装置
CN107133212A (zh) * 2017-05-05 2017-09-05 北京大学 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN108009249A (zh) * 2017-12-01 2018-05-08 北京中视广信科技有限公司 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178083A (ja) * 2002-12-06 2003-06-27 Hideki Nishimoto 文献内容判別装置、文献、帯紙、文献内容判別プログラム
CN103685575A (zh) * 2014-01-06 2014-03-26 洪高颖 一种基于云架构的网站安全监控方法
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106886579A (zh) * 2017-01-23 2017-06-23 北京航空航天大学 实时流式文本分级监控方法和装置
CN107133212A (zh) * 2017-05-05 2017-09-05 北京大学 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN108009249A (zh) * 2017-12-01 2018-05-08 北京中视广信科技有限公司 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本内容的敏感数据识别方法研究与实现;李伟伟等;《计算机工程与设计》;20130416(第04期);第70-74页 *

Also Published As

Publication number Publication date
CN108717408A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
Wu et al. Tracing fake-news footprints: Characterizing social media messages by how they propagate
Bozyiğit et al. Cyberbullying detection: Utilizing social media features
US8892484B2 (en) System and method for predicting events
CN110163647B (zh) 一种数据处理方法及装置
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
CN105518656A (zh) 用于多传感器数据融合的认知神经语言学行为辨识系统
CN108090216B (zh) 一种标签预测方法、装置及存储介质
CN110119477B (zh) 一种信息推送方法、装置和存储介质
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN116304063B (zh) 一种简单的情感知识增强提示调优的方面级情感分类方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Surekha et al. Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
CN114691828A (zh) 数据处理方法、装置、设备以及介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant