CN110209796A - 一种敏感词检测过滤方法、装置与电子设备 - Google Patents

一种敏感词检测过滤方法、装置与电子设备 Download PDF

Info

Publication number
CN110209796A
CN110209796A CN201910354751.6A CN201910354751A CN110209796A CN 110209796 A CN110209796 A CN 110209796A CN 201910354751 A CN201910354751 A CN 201910354751A CN 110209796 A CN110209796 A CN 110209796A
Authority
CN
China
Prior art keywords
text
keyword
word
sensitive
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910354751.6A
Other languages
English (en)
Other versions
CN110209796B (zh
Inventor
游福成
宫鹤宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Graphic Communication
Original Assignee
Beijing Institute of Graphic Communication
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Graphic Communication filed Critical Beijing Institute of Graphic Communication
Priority to CN201910354751.6A priority Critical patent/CN110209796B/zh
Publication of CN110209796A publication Critical patent/CN110209796A/zh
Application granted granted Critical
Publication of CN110209796B publication Critical patent/CN110209796B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种敏感词检测过滤方法、装置与电子设备,具有鲁棒性强、准确度高、检测速度快的优点。所述敏感词检测过滤方法,包括:构建周期性更新的动态敏感词库;采集待测文本,对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;将多个所述关键词与所述动态敏感词库进行匹配检测;根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。所述敏感词检测过滤装置包括词库构建模块,文本采集模块,匹配检测模块与判定过滤模块。所述电子设备包括存储器、处理器及在运行时实现所述敏感词检测过滤方法的存储在所述存储器的计算机程序。

Description

一种敏感词检测过滤方法、装置与电子设备
技术领域
本发明涉及网络信息安全领域,特别是指一种敏感词检测过滤方法、装置与电子设备。
背景技术
自媒体时代,自媒体出版和用户评论过程中,由于自媒体网络的开放性和广泛性,信息传播速度快、范围广、影响大。信息传播的过程中不可避免会出现敏感信息,敏感信息一旦传播出去,舆情控制难度大,负面影响大。最好的方法就是在带有敏感信息的内容发布之前将其中的敏感信息进行检测过滤,把舆情负面影响扼杀在萌芽状态。
发明人通过对现有的对敏感词进行检测过滤方法的分析了解,发现现有技术中至少存在以下问题:
现有的检测过滤方法主要是根据敏感词库对待检测文本信息中的敏感词进行匹配查找替换,但是,现有方法中所采用的敏感词库无法实时更新,随着时间推移对敏感词的检测过滤效果会大大降低;
在所要处理的文本信息数据量增加时,现有检测过滤方法的处理速度也会降低;
同样的词汇,根据其所属信息来源类别的不同,其是否为敏感词的判定结果也不同,例如部分在敏感网页上出现的敏感词,很多时候也会出现在健康教育类的网页中,针对这样的情况,现有的敏感词检测过滤方法常常会出现错判敏感词的情况;
敏感词的出现往往伴随着人工干扰的情况,比如在敏感词间隙添加特殊字符或数字、汉字拼音英文交错混合等、词语拆分等,针对这样的情况,现有的敏感词检测过滤方法无法很好的避免和屏蔽。
发明内容
有鉴于此,本发明的目的在于提出一种鲁棒性强、准确度高、检测速度快的敏感词检测过滤方法、装置与电子设备。
基于上述目的,本发明提供了一种敏感词检测过滤方法,包括:
构建周期性更新的动态敏感词库;
采集待测文本,对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
将多个所述关键词与所述动态敏感词库进行匹配检测;
根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。
可选的,所述构建周期性更新的动态敏感词库,包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;
设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类,。
可选的,所述对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词,包括:
根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
去除所述待测文本中的无意义标记和连接字符,所述无意义标记包括HTML标签和注释,所述连接字符包括语气助词、特殊符号和数字;
采用基于词典的中文分词技术对所述待测文本进行分词处理,得到用以组成所述待测文本的多个所述关键词,并根据所述关键词在所述待测文本中所处位置为所述关键词添加位置标记;
所述中文分词技术中所用到的词典包含有所述动态敏感词库中的所有敏感词。
可选的,所述将所述关键词与所述动态敏感词库进行匹配检测,包括:
根据所述关键词的第一个字符的拼音首字母从所述动态敏感词库中选取相应的敏感词分类;
从所述关键词的第一个字符开始,在所述相应的敏感词分类中筛选出与所述关键词的第一个字符相匹配的敏感词,再从筛选出的所述敏感词中继续筛选与所述关键词下一个字符相匹配的敏感词,直至筛选出与所述关键词的最后一个字符相匹配的所述敏感词;
检测所述筛选出的与所述关键词最后一个字符匹配的敏感词中是否存在与所述关键词字符个数相同的敏感词,若存在则说明所述关键词为敏感词。
可选的,所述根据匹配检测结果计算所述待检测文本的敏感度值,包括:计算所述待测文本中检测出的所有为敏感词的所述关键词的词频,根据所述关键词的词频确定所述关键词的词频因子;
根据所述待测文本的所述分类标记确定所述关键词的主题因子;
根据所述关键词的所述位置标记确定所述关键词的方位因子;
根据所述关键词的所述词频因子、所述主题因子、所述方位因子以及相匹配敏感词的所述敏感级别因子,计算所述关键词的敏感权值,根据所述关键词的所述敏感权值,计算所述待测文本的敏感度值。
可选的,计算所述待测文本中检测出的所有为敏感词的所述关键词的词频,根据所述关键词的词频确定所述关键词的词频因子,包括:
所述关键词的词频为:
其中,Wi,j表示所述关键词i在所述待测文本j中的词频,wi,j表示所述关键词i在所述待测文本j中出现的次数,∑xwx,j表示所述待测文本j中总的关键词个数;
所述关键词的所述词频因子为:
其中,wfi表示所述关键词i的所述词频因子。
可选的,所述根据所述关键词的所述词频因子、所述主题因子、所述方位因子以及相匹配敏感词的所述敏感级别因子,计算所述关键词的敏感权值,根据所述关键词的所述敏感权值,计算所述待测文本的敏感度值,包括:
所述关键词的所述敏感权值为:
valuei=α×wfi+β×posi+λ×levi+θ×topi
其中,valuei表示所述关键词i的所述敏感权值,wfi表示所述关键词i的所述词频因子,posi表示所述关键词i的所述方位因子,levi表示所述关键词i相匹配敏感词的所述敏感级别因子,topi表示所述关键词i的主题因子;α,β,λ,θ分别为所述关键词i的词频调节参数、方位调节参数、敏感级别调节参数与主题调节参数;
所述待测文本的敏感度值为:
其中,V表示所述待测文本的敏感度值,k表示所述待测文本中筛选出的所有是敏感词的所述关键词的总数。
可选的,所述根据所述敏感度值对所述待检测文本中的敏感词进行过滤,包括:
将所述待测文本的所述敏感度值V与文本敏感度阈值μ进行比较;
若V≥μ,则将所述待测文本中检测出的所有为敏感词的所述关键词逐个过滤屏蔽;
若V<μ,则将所述待测文本中检测出的所有为敏感词的所述关键词的词频Wi,j与敏感频率阈值l作比较,将所述词频Wi,j小于所述敏感频率阈值l的所述关键词过滤屏蔽。
基于上述目的,本发明还提供了一种敏感词检测过滤装置,包括:
词库构建模块,用于构建周期性更新的动态敏感词库;
文本采集模块,用于采集待测文本,对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
匹配检测模块,用于将多个所述关键词与所述动态敏感词库进行匹配检测;
判定过滤模块,用于根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。
基于上述目的,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述敏感词检测过滤方法。
从上面所述可以看出,本发明提供的一种敏感词检测过滤方法、装置与电子设备,构建周期性更新的动态敏感词库作为检测依据,实时地将新出现的敏感词收录其中,能够对待测文本进行更全面完整的检测,针对实际工作中敏感词不断更新变化的情况也能避免遗漏,具有较强的鲁棒性;在文本数据采集过程中对待测文本进行主题分类和去冗余操作,能够减少误判错判的情况并避免人工干扰的问题,从而能够提高敏感词检测过滤的准确性;在构建动态敏感词库的过程中即对所有的敏感词进行分类,在匹配检测的过程中也根据待测文本的关键词将筛选的数据范围逐级缩小再进行匹配,根据匹配检测结果计算待测文本的敏感度值,根据敏感度值的不同情形采取不同的应对方式,能够大大提高检测过滤的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种敏感词检测过滤方法示意图;
图2为本发明实施例所提供的一种敏感词检测过滤方法中对待测文本进行分类、去冗余及分词处理的方法示意图;
图3为本发明实施例所提供的一种敏感词检测过滤方法中计算待测文本敏感度值的方法示意图;
图4为本发明实施例所提供的一种敏感词检测过滤装置结构示意图;
图5为本发明实施例所提供的一种敏感词检测过滤电子设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在一方面,本发明的一些可选实施例提供了一种敏感词检测过滤方法。
如图1所示,本发明的一些可选实施例所提供的一种敏感词检测过滤方法,包括:
S1:构建周期性更新的动态敏感词库;
S2:采集待测文本,对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
S3:将多个所述关键词与所述动态敏感词库进行匹配检测;
S4:根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。
所述敏感词检测过滤方法,构建周期性更新的动态敏感词库,将构成待测文本的多个关键词分别与所述动态敏感词库进行匹配检测,根据匹配检测结果对待测文本进行敏感词过滤,所采用的动态敏感词库能够实时更新录入新的敏感词,从而避免敏感词的检测过滤工作出现遗漏,具有较强的鲁棒性,所述敏感词检测过滤方法能够快速准确地对待测文本进行敏感词检测和过滤。
在本发明的一些可选实施例所提供的一种敏感词检测过滤方法中,所述构建周期性更新的动态敏感词库S1的方法包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;
设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
所述动态敏感词库中的敏感词由字符组成,所述字符的含义为单个汉字、单个汉字的拼音或者单个英文单词。
所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类。
本领域技术人员应当理解的是,所述敏感词级别因子可以根据敏感词具体内容,参考现有网络敏感词审核规则确定;所述更新周期可以根据实际工作需求作出设定,也可以预先设定好更新周期,根据实际检测过滤的效果进行灵活的适应性调整,使最终的敏感词检测过滤效果达到最佳。
所述敏感词检测过滤方法中,构建周期性更新的动态敏感词库作为匹配检测的依据。通过设定能够灵活调整的更新周期,确保所述动态敏感词库能够实施地将网络中的敏感词完整全面地录入,从而保证所述敏感词检测过滤方法在面对实际工作中敏感词不断更新变化的情况也能对敏感词做出完整全面的检测和过滤,避免出现遗漏,具有较强的鲁棒性。并且,在构建动态敏感词库的过程中还根据敏感词首字符的拼音首字母将所有敏感词进行预先分类,便于在之后的匹配检测过程中所辖数据范围,从而较少匹配检测工作量,提高匹配检测的工作效率。
如图2所示,在发明的一些可选实施例所提供的一种敏感词检测过滤方法中,所述对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词S2,包括:
S21:根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
在本发明的一些可选实施例中采用主题模型分类技术(LDA,Latent DirichletAllocationg)对所述待测文本进行分类。
S22:去除所述待测文本中的无意义标记和连接字符,所述无意义标记包括HTML标签和注释,所述连接字符包括语气助词、特殊符号和数字;
S23:采用基于词典的中文分词技术对所述待测文本进行分词处理,得到用以组成所述待测文本的多个所述关键词,并根据所述关键词在所述待测文本中所处位置为所述关键词添加位置标记;
所述中文分词技术中所用到的词典包含有所述动态敏感词库中的所有敏感词。
所述敏感词检测过滤方法,在采集到待测文本数据之后,对待测文本进行分类、去冗余及分词操作。本领域技术人员应当理解的是,同一个词汇处于不同主题种类的文本中时,其是否为敏感词的判定结果是不同的,例如在部分敏感网页中出现的敏感词,当其出现在健康类或者教育科学类网页中时,实际上是不能将其归类为敏感词的,这说明在判定某一文本中的词语是否为敏感词时,此文本的主题分类会对最终结果造成影响。本发明的一些可选实施例中根据所述待测文本的主题对其进行分类,能够避免出现误判错判的情况,从而保证敏感词检测过滤方法结果的准确性。
本领域技术人员还应当理解的是,采集到的待测文本中往往会存在很多无意义标记和连接字符,例如HTML标签、注释等无意义标记,“哇”、“哦”、“啊”等语气助词,“虽然…但是…”、“即便…也…”等修饰性词汇,“&&&”、“##”、“555”等无意义的符号数字等,这些标记和字符出现频率较高又不是敏感词,往往会增加检测工作的数据计算量还影响敏感词检测过滤的结果准确性。所述敏感词检测过滤方法对待测文本执行去冗余操作,将这些冗余的标记和字符去除,能够避免这些无意义标记和字符的干扰,提高敏感词检测过滤的准确性和工作效率。
敏感词的检测工作中,“词”是进行匹配检测的最直接对象,然而一般情况下,文本中只有字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,所以需要首先对待测文本进行分词操作。在所述敏感词检测过滤方法中,采用基于词典的中文分词技术对所述待测文本进行分词处理,在此之前向所述中文分词技术所用到的词典中加入所述动态敏感词库中的所有敏感词,所述敏感词作为用户自定义词语,能够使所述待测文本的分词结果更贴合所述动态敏感词库中的敏感词,从而保证最终的敏感词检测过滤结果更准确。
在本发明的一些可选实施例所提供的一种敏感词检测过滤方法中,所述将所述关键词与所述动态敏感词库进行匹配检测S3,包括:
根据所述关键词的第一个字符的拼音首字母从所述动态敏感词库中选取相应的敏感词分类;
从所述关键词的第一个字符开始,在所述相应的敏感词分类中筛选出与所述关键词的第一个字符相匹配的敏感词,再从筛选出的所述敏感词中继续筛选与所述关键词下一个字符相匹配的敏感词,直至筛选出与所述关键词的最后一个字符相匹配的所述敏感词;
检测所述筛选出的与所述关键词最后一个字符匹配的敏感词中是否存在与所述关键词字符个数相同的敏感词,若存在则说明所述关键词为敏感词。
所述敏感词检测过滤方法,在对所述待测文本的所述关键词进行匹配检测时,先从所述动态敏感词库中选取与所述关键词相应的敏感词分类,再从此相应敏感词分类中筛选与所述关键词匹配的敏感词,此筛选过程从所述关键词的第一个字符开始,筛选与所述关键词匹配的敏感词,步步缩小筛选数据范围,从而能够快速缩小匹配范围,并得出准确的匹配结果。若在这一过程中,未能找到与所述关键词相匹配的敏感词,则说明所述关键词不是敏感词;若筛选出了与所述关键词完全匹配的敏感词,但是所述敏感词与所述关键词最后一个字符对应的字符并不是所述敏感词的最后一个字符,即所述关键词与相应敏感词的长度不同,所述关键词只有前几个字符与相应敏感词匹配,所述敏感词的长度大于所述关键词的长度,也说明所述关键词不是敏感词,这对本领域技术人员来说是显而易见的。
如图3所示,在本发明的一些可选实施例所提供的一种敏感词检测过滤方法中,所述根据匹配检测结果计算所述待检测文本的敏感度值,包括:
S31:计算所述待测文本中检测出的所有为敏感词的所述关键词的词频,根据所述关键词的词频确定所述关键词的词频因子;
S32:根据所述待测文本的所述分类标记确定所述关键词的主题因子;
S33:根据所述关键词的所述位置标记确定所述关键词的方位因子;
S34:根据所述关键词的所述词频因子、所述主题因子、所述方位因子以及相匹配敏感词的所述敏感级别因子,计算所述关键词的敏感权值,根据所述关键词的所述敏感权值,计算所述待测文本的敏感度值。
本领域技术人员应当理解的是,敏感词所造成的影响除其本身的敏感级别之外,也受到其在所属文本中出现的频率,所处的位置以及所属文本的主题的影响。当某一敏感词频繁出现,其造成的影响更大;当敏感词出现在文本的题目、标题、首段、段首或尾段等这些醒目位置,更容易受到读者的关注,从而造成更大的影响;不同主题文本中的相同敏感词所造成影响也不尽相同。所述词频因子、主题因子、方位因子和敏感级别因子即用以表征相应的影响因素。
所述敏感词检测过滤方法中,在检测出所述待测文本中所有为敏感词的关键词之后,分别确定所述关键词的词频因子、主题因子、方位因子和相匹配敏感词的敏感级别因子,并据此计算所述关键词的敏感权值,进而确定所述待测文本的敏感度值。所述敏感词检测过滤方法综合考虑到词频、主题、方位及敏感级别这四个影响因素对最终检测过滤结果造成的影响,根据前述的影响因素确定所述待测文本的敏感度值,以此来衡量待测文本的敏感程度,将待测文本的敏感程度进行量化,能够使最终的检测过滤结果更加准确恰当。
在本发明的一些可选实施例所提供的一种敏感词检测过滤方法中,所述计算所述待测文本中检测出的所有为敏感词的所述关键词的词频,根据所述关键词的词频确定所述关键词的词频因子的方法S31,包括:
所述关键词的词频为:
其中,Wi,j表示所述关键词i在所述待测文本j中的词频,wi,j表示所述关键词i在所述待测文本j中出现的次数,∑xwx,j表示所述待测文本j中总的关键词个数;
所述关键词的所述词频因子为:
其中,wfi表示所述关键词i的所述词频因子。
所述敏感词检测过滤方法中,根据所述关键词的词频计算其词频因子,所述词频Wi,j为所述关键词i在所述待测文本j中出现的次数与所述待测文本j中关键词总数之比。所述关键词i出现的次数越多,其词频因子wfi越大,其造成的影响也就越大。
在本发明的一些可选实施例所提供的一种敏感词检测过滤方法中,所述根据所述关键词的所述词频因子、所述主题因子、所述方位因子以及相匹配敏感词的所述敏感级别因子,计算所述关键词的敏感权值,根据所述关键词的所述敏感权值,计算所述待测文本的敏感度值S34,包括:
所述关键词的所述敏感权值为:
valuei=α×wfi+β×posi+λ×levi+θ×topi
其中,valuei表示所述关键词i的所述敏感权值,wfi表示所述关键词i的所述词频因子,posi表示所述关键词i的所述方位因子,levi表示所述关键词i相匹配敏感词的所述敏感级别因子,topi表示所述关键词i的主题因子;α,β,λ,θ分别为所述关键词i的词频调节参数、方位调节参数、敏感级别调节参数与主题调节参数;
本领域技术人员应当理解的是,所述词频调节参数、方位调节参数、敏感级别调节参数与主题调节参数可以根据词频、主题、方位及敏感级别所造成的影响程度预先做出设定,在设定好之后还可以根据实际检测过滤的效果进行灵活的适应性调整,以使最终的敏感词检测过滤效果达到最佳。
所述待测文本的敏感度值为:
其中,V表示所述待测文本的敏感度值,k表示所述待测文本中筛选出的所有是敏感词的所述关键词的总数。
所述敏感词检测过滤方法,根据所述关键词的所述词频因子、所述主题因子、所述方位因子以及相匹配敏感词的所述敏感级别因子,计算所述关键词的敏感权值,之后再确定所述待测文本的整体敏感度值,对词频、主题、方位及敏感级别这四个影响因素进行综合考虑,能够使最终的检测过滤结果更加准确恰当。
在本发明的一些可选实施例所提供的一种敏感词检测过滤方法中,所述根据所述敏感度值对所述待检测文本中的敏感词进行过滤,包括:
将所述待测文本的所述敏感度值V与文本敏感度阈值μ进行比较;
若V≥μ,则将所述待测文本中检测出的所有为敏感词的所述关键词逐个过滤屏蔽;
若V<μ,则将所述待测文本中检测出的所有为敏感词的所述关键词的词频Wi,j与敏感频率阈值l作比较,将所述词频Wi,j小于所述敏感频率阈值l的所述关键词过滤屏蔽。
所述敏感词检测过滤方法,根据所述待测文本的敏感度值的不同,采取不同的应对方式对敏感词进行考虑,,针对待测文本中的敏感词不是一概而论,而是根据实际敏感词检测过滤的需求,对于敏感度值大于或等于敏感阈值的,屏蔽文本中所有敏感词,对于敏感度低于敏感阈值的则有选择性的屏蔽敏感词,使得最终的检测过滤结果更加准确与优化。
在另一方面,本发明的一些可选实施例还提供了一种敏感词检测过滤装置。
如图4所示,本发明的一些可选实施例所提供的一种敏感词检测过滤装置,包括:
词库构建模块1,用于构建周期性更新的动态敏感词库;
文本采集模块2,用于采集待测文本,对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
匹配检测模块3,用于将多个所述关键词与所述动态敏感词库进行匹配检测;
判定过滤模块4,用于根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。
在另一方面,本发明还提供了一种执行所述视频数据传输方法的电子设备。
如图5所示,所述电子设备包括:
一个或多个处理器501以及存储器502,图5中以一个处理器501为例。
所述执行所述敏感词检测过滤方法的电子设备还可以包括:输入装置503和输出装置504。
处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述敏感词检测过滤方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的敏感词检测过滤方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据执行所述敏感词检测过滤方法的装置的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置503可接收输入的数字或字符信息,以及产生与执行所述敏感词检测过滤方法装置的用户设置以及功能控制有关的键信号输入。输出装置504可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器502中,当被所述一个或者多个处理器501执行时,执行上述任意方法实施例中的敏感词检测过滤方法。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种敏感词检测过滤方法,其特征在于,包括:
构建周期性更新的动态敏感词库;
采集待测文本,对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
将多个所述关键词与所述动态敏感词库进行匹配检测;
根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。
2.根据权利要求1所述的方法,其特征在于,所述构建周期性更新的动态敏感词库,包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;
设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类。
3.根据权利要求2所述的方法,其特征在于,所述对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词,包括:
根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
去除所述待测文本中的无意义标记和连接字符,所述无意义标记包括HTML标签和注释,所述连接字符包括语气助词、特殊符号和数字;
采用基于词典的中文分词技术对所述待测文本进行分词处理,得到用以组成所述待测文本的多个所述关键词,并根据所述关键词在所述待测文本中所处位置为所述关键词添加位置标记;
所述中文分词技术中所用到的词典包含有所述动态敏感词库中的所有敏感词。
4.根据权利要求2所述的方法,其特征在于,所述将所述关键词与所述动态敏感词库进行匹配检测,包括:
根据所述关键词的第一个字符的拼音首字母从所述动态敏感词库中选取相应的敏感词分类;
从所述关键词的第一个字符开始,在所述相应的敏感词分类中筛选出与所述关键词的第一个字符相匹配的敏感词,再从筛选出的所述敏感词中继续筛选与所述关键词下一个字符相匹配的敏感词,直至筛选出与所述关键词的最后一个字符相匹配的所述敏感词;
检测所述筛选出的与所述关键词最后一个字符匹配的敏感词中是否存在与所述关键词字符个数相同的敏感词,若存在则说明所述关键词为敏感词。
5.根据权利要求3所述的方法,其特征在于,所述根据匹配检测结果计算所述待检测文本的敏感度值,包括:
计算所述待测文本中检测出的所有为敏感词的所述关键词的词频,根据所述关键词的词频确定所述关键词的词频因子;
根据所述待测文本的所述分类标记确定所述关键词的主题因子;
根据所述关键词的所述位置标记确定所述关键词的方位因子;
根据所述关键词的所述词频因子、所述主题因子、所述方位因子以及相匹配敏感词的所述敏感级别因子,计算所述关键词的敏感权值,根据所述关键词的所述敏感权值,计算所述待测文本的敏感度值。
6.根据权利要求5所述的方法,其特征在于,所述计算所述待测文本中检测出的所有为敏感词的所述关键词的词频,根据所述关键词的词频确定所述关键词的词频因子,包括:
所述关键词的词频为:
其中,Wi,j表示所述关键词i在所述待测文本j中的词频,wi,j表示所述关键词i在所述待测文本j中出现的次数,∑xwx,j表示所述待测文本j中总的关键词个数;
所述关键词的所述词频因子为:
其中,wfi表示所述关键词i的所述词频因子。
7.根据权利要求6所述的方法,其特征在于,所述根据所述关键词的所述词频因子、所述主题因子、所述方位因子以及相匹配敏感词的所述敏感级别因子,计算所述关键词的敏感权值,根据所述关键词的所述敏感权值,计算所述待测文本的敏感度值,包括:
所述关键词的所述敏感权值为:
valuei=α×wfi+β×posi+λ×levi+θ×topi
其中,valuei表示所述关键词i的所述敏感权值,wfi表示所述关键词i的所述词频因子,posi表示所述关键词i的所述方位因子,levi表示所述关键词i相匹配敏感词的所述敏感级别因子,topi表示所述关键词i的主题因子;α,β,λ,θ分别为所述关键词i的词频调节参数、方位调节参数、敏感级别调节参数与主题调节参数;
所述待测文本的敏感度值为:
其中,V表示所述待测文本的敏感度值,k表示所述待测文本中筛选出的所有是敏感词的所述关键词的总数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述敏感度值对所述待检测文本中的敏感词进行过滤,包括:
将所述待测文本的所述敏感度值V与文本敏感度阈值μ进行比较;
若V≥μ,则将所述待测文本中检测出的所有为敏感词的所述关键词逐个过滤屏蔽;
若V<μ,则将所述待测文本中检测出的所有为敏感词的所述关键词的词频Wi,j与敏感频率阈值l作比较,将所述词频Wi,j小于所述敏感频率阈值l的所述关键词过滤屏蔽。
9.一种敏感检测过滤装置,其特征在于,包括:
词库构建模块,用于构建周期性更新的动态敏感词库;
文本采集模块,用于采集待测文本,对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
匹配检测模块,用于将多个所述关键词与所述动态敏感词库进行匹配检测;
判定过滤模块,用于根据匹配检测结果计算所述待检测文本的敏感度值,根据所述敏感度值对所述待检测文本中的所述关键词进行过滤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
CN201910354751.6A 2019-04-29 2019-04-29 一种敏感词检测过滤方法、装置与电子设备 Expired - Fee Related CN110209796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354751.6A CN110209796B (zh) 2019-04-29 2019-04-29 一种敏感词检测过滤方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354751.6A CN110209796B (zh) 2019-04-29 2019-04-29 一种敏感词检测过滤方法、装置与电子设备

Publications (2)

Publication Number Publication Date
CN110209796A true CN110209796A (zh) 2019-09-06
CN110209796B CN110209796B (zh) 2022-02-08

Family

ID=67786683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354751.6A Expired - Fee Related CN110209796B (zh) 2019-04-29 2019-04-29 一种敏感词检测过滤方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN110209796B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674262A (zh) * 2019-10-16 2020-01-10 北京百度网讯科技有限公司 词语识别方法、装置、电子设备和介质
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备
CN111078827A (zh) * 2019-12-23 2020-04-28 上海米哈游天命科技有限公司 一种关键词判断方法、装置、设备和介质
CN111143513A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111241389A (zh) * 2019-12-30 2020-06-05 陕西数字基地出版传媒集团有限公司 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN112035726A (zh) * 2020-11-02 2020-12-04 北京梦知网科技有限公司 商标注册的方法及装置
CN112231442A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种敏感词过滤方法及装置
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
CN112559672A (zh) * 2021-02-22 2021-03-26 深圳市优讯通信息技术有限公司 信息检测方法、电子设备及计算机存储介质
CN113158663A (zh) * 2020-12-01 2021-07-23 咪咕文化科技有限公司 一种屏蔽处理方法、装置、电子设备及存储介质
CN113449199A (zh) * 2021-09-01 2021-09-28 深圳市知酷信息技术有限公司 一种基于综合安全审计的文档监控管理系统
CN113627174A (zh) * 2021-08-17 2021-11-09 深圳供电局有限公司 一种基于企业历史数字化的敏感信息监控方法及系统
CN115017904A (zh) * 2022-07-08 2022-09-06 河南省信息中心 一种基于大数据的信息处理方法和信息处理系统
CN115762053A (zh) * 2022-11-14 2023-03-07 浙江力石科技股份有限公司 一种智慧景区人机交互式应急报警方法、系统及智能终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050138109A1 (en) * 2000-11-13 2005-06-23 Redlich Ron M. Data security system and method with adaptive filter
CN102117339A (zh) * 2011-03-30 2011-07-06 曹晓晶 针对不安全网页文本的过滤监管方法
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
WO2011150692A1 (zh) * 2010-06-02 2011-12-08 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关
US8412661B2 (en) * 2010-11-24 2013-04-02 International Business Machines Corporation Smart survey with progressive discovery
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050138109A1 (en) * 2000-11-13 2005-06-23 Redlich Ron M. Data security system and method with adaptive filter
WO2011150692A1 (zh) * 2010-06-02 2011-12-08 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关
US8412661B2 (en) * 2010-11-24 2013-04-02 International Business Machines Corporation Smart survey with progressive discovery
CN102117339A (zh) * 2011-03-30 2011-07-06 曹晓晶 针对不安全网页文本的过滤监管方法
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备
CN110879963B (zh) * 2019-09-18 2023-09-05 北京印刷学院 一种敏感表情包检测方法、装置与电子设备
CN110674262B (zh) * 2019-10-16 2023-01-06 北京百度网讯科技有限公司 词语识别方法、装置、电子设备和介质
CN110674262A (zh) * 2019-10-16 2020-01-10 北京百度网讯科技有限公司 词语识别方法、装置、电子设备和介质
CN111078827A (zh) * 2019-12-23 2020-04-28 上海米哈游天命科技有限公司 一种关键词判断方法、装置、设备和介质
CN111143513A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111143513B (zh) * 2019-12-25 2024-03-26 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111241389A (zh) * 2019-12-30 2020-06-05 陕西数字基地出版传媒集团有限公司 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN111241389B (zh) * 2019-12-30 2024-03-22 西安鼎辉物联智能科技有限公司 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN112231442A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种敏感词过滤方法及装置
CN112035726A (zh) * 2020-11-02 2020-12-04 北京梦知网科技有限公司 商标注册的方法及装置
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
CN113158663A (zh) * 2020-12-01 2021-07-23 咪咕文化科技有限公司 一种屏蔽处理方法、装置、电子设备及存储介质
CN113158663B (zh) * 2020-12-01 2024-04-09 咪咕文化科技有限公司 一种屏蔽处理方法、装置、电子设备及存储介质
CN112559672A (zh) * 2021-02-22 2021-03-26 深圳市优讯通信息技术有限公司 信息检测方法、电子设备及计算机存储介质
CN113627174A (zh) * 2021-08-17 2021-11-09 深圳供电局有限公司 一种基于企业历史数字化的敏感信息监控方法及系统
CN113449199A (zh) * 2021-09-01 2021-09-28 深圳市知酷信息技术有限公司 一种基于综合安全审计的文档监控管理系统
CN115017904A (zh) * 2022-07-08 2022-09-06 河南省信息中心 一种基于大数据的信息处理方法和信息处理系统
CN115017904B (zh) * 2022-07-08 2024-01-30 周向红 一种基于大数据的信息处理方法和信息处理系统
CN115762053A (zh) * 2022-11-14 2023-03-07 浙江力石科技股份有限公司 一种智慧景区人机交互式应急报警方法、系统及智能终端

Also Published As

Publication number Publication date
CN110209796B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN110209796A (zh) 一种敏感词检测过滤方法、装置与电子设备
US11113477B2 (en) Visualizing comment sentiment
CN110457428A (zh) 一种敏感词检测过滤方法、装置与电子设备
US10546005B2 (en) Perspective data analysis and management
CA2905280C (en) Automated financial data aggregation
CN107220232A (zh) 基于人工智能的关键词提取方法及装置、设备与可读介质
CN106372064B (zh) 一种文本挖掘的特征词权重计算方法
CN107679036A (zh) 一种错别字监测方法及系统
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN107657056A (zh) 基于人工智能展示评论信息的方法和装置
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
CN107423278A (zh) 评价要素的识别方法、装置及系统
Lou et al. Multilabel subject-based classification of poetry
CN107391675A (zh) 用于生成结构化信息的方法和装置
CN111414520A (zh) 一种舆情信息中敏感信息的智能挖掘系统
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN107679680A (zh) 一种金融走势预测方法、装置、设备及存储介质
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN110287493A (zh) 风险短语识别方法、装置、电子设备及存储介质
US10042913B2 (en) Perspective data analysis and management
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
CN113269523A (zh) 一种基于画像的智能审计方法及其装置、存储介质以及电子设备
CN108205542A (zh) 一种歌曲评论的分析方法和系统
Mayer et al. PhonMatrix: Visualizing co-occurrence constraints of sounds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220208