CN106446232A - 一种基于规则的敏感文本过滤方法 - Google Patents

一种基于规则的敏感文本过滤方法 Download PDF

Info

Publication number
CN106446232A
CN106446232A CN201610883595.9A CN201610883595A CN106446232A CN 106446232 A CN106446232 A CN 106446232A CN 201610883595 A CN201610883595 A CN 201610883595A CN 106446232 A CN106446232 A CN 106446232A
Authority
CN
China
Prior art keywords
module
text
sensitive
rule
sensitivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610883595.9A
Other languages
English (en)
Inventor
张华杰
庄文弘
王国彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Bincent Technology Co Ltd
Original Assignee
Shenzhen Bincent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bincent Technology Co Ltd filed Critical Shenzhen Bincent Technology Co Ltd
Priority to CN201610883595.9A priority Critical patent/CN106446232A/zh
Publication of CN106446232A publication Critical patent/CN106446232A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于规则的敏感文本过滤方法,包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;该基于规则的敏感文本过滤方法添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,匹配字符时,只需要完善词库即可,不需要添加大量的规则,匹配速度快。

Description

一种基于规则的敏感文本过滤方法
技术领域
本发明涉及信息过滤技术领域,尤其涉及一种基于规则的敏感文本过滤方法。
背景技术
每年因为垃圾邮件、诈骗信息、个人信息泄露等内容安全问题,导致我国网民严重的经济损失。究其原因,多数垃圾广告来源于论坛,博客,微博等UGC平台上,这违反了国家的相关法律法规,并且降低了用户体验。对于垃圾信息,必须在源头上遏制垃圾信息的发布。有些UGC平台商为了应付垃圾内容,研发了审核系统,方便人工审核,并让该板块的管理员来进行人工审核,通过了才让内容发布到互联网上。另外也存在基于语义理解的反垃圾系统,系统可以分析上下文的语义,并判断是否垃圾信息的概率有多大;
审核模块可以方便管理员审核,而且人工审核会比较准确,但是很难做到覆盖到100%的UGC内容,特别是产生大量UGC内容的平台,并且需要花费大量的人力;对于基于语义的反垃圾系统,可以克服上面的缺点,但是也存在一些缺点:一、机器学习需要大量的学习语料,二、系统容易误杀一些正常的文本,三、学习新的垃圾规则需要一定的时间,所以对于出现的新的垃圾内容的反垃圾需要一定的学习时间才能识别出来,四、对于误杀的内容比较难进行干预去除。
另外也有些系统使用了更简单的方案,就是大量使用正则表达式,但是配置起来很不方便,针对上述的一些缺点,上述的技术方案还需要其他可以互补的方案,可以更快速智能的识别垃圾信息。
因此,本领域技术人员亟需开发出一种添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,只需要完善词库即可,不需要添加大量的规则,匹配速度快的基于规则的敏感文本过滤方法。
发明内容
本发明要解决的技术问题是提供一种基于规则的敏感文本过滤方法,该基于规则的敏感文本过滤方法添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,匹配字符时,只需要完善词库即可,不需要添加大量的规则,匹配速度快。
为解决上述技术问题,本发明提供了一种基于规则的敏感文本过滤方法,提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块,所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元;所述元数据加载模块与所述文本接收模块连接,所述文本识别解析模块与所述文本接收模块连接,所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接,所述人工审核模块与所述解析结果显示模块连接;
所述基于规则的敏感文本过滤方法包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;
所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别;
所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关联规则进行解析识别,所述关联规则为若干词组成违反设置的规则;
所述表达式识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的表达式进行解析识别;
所述关键词识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关键词进行解析识别;
当字符匹配,从当前节点沿着树边有一条路径到达目标字符,沿该路径走向下一个节点继续匹配,目标字符串指针移向下个字符继续匹配;当字符不匹配,则去掉当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向root结束;重复“字符匹配”或“字符不匹配”中的任意一个过程,直到模式串走到结尾为止。
优选地,所述元数据管理模块对所述基础数据管理模块的基本数据做管理,根据板块设置添加词库和规则,如果没有设置则为默认板块。
优选地,还提供敏感文本匹配模块,所述敏感文本匹配模块与文本识别解析模块及解析结果显示模块连接,所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词,定位到敏感词出现的位置后,判断敏感词是否直接是禁止词,根据距离和敏感词关联的规则或者正则表达式来判断是否满足了敏感规则。
优选地,所述步骤“所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词”的实现步骤包括:所述敏感文本匹配模块将文本进行去停用词预处理,将敏感词通过敏感词决策树构建算法建立成一棵分流树,将预处理过的文本,以文本数据流方式检索敏感词决策树,记录文本中对应敏感词的频率和区域信息,通过敏感度计算公式,得出文本整体敏感度,对应网页划分为敏感、非敏感网页。
优选地,所述敏感度计算公式为:Aford={a0,a1,…,ai,…,an-1},(0≤i<n),n为敏感词个数,ai表示敏感词;ai={ai,0,…,ai,j,…,ai,m-1},(0≤j<m),
其中,ai,j表示第i个敏感词的第j个敏感字,m表示敏感词长度。
优选地,所述敏感文本匹配模块采用所述敏感度计算公式的执行步骤为:
(1)初始化i=0,j=0,k=0,k记录孩子节点序号;
(2)输入敏感词ai,获取其中文长度为m,并提取首字母s;
(3)进入s子树查询,将ai,j与s的第k个孩子节点childk比较;
(4)若ai,j=childk节点的值,若j<m,s=childk,k=0,返回步骤(3);若j≥m,i<n,则返回步骤(2);若j≥m,i≥n,执行步骤(5);
(5)否则,若ai,j≠childk节点值,查询childk的兄弟节点是否为空,若childk兄弟节点为空,则执行步骤(6),若childk兄弟节点为空,则执行步骤(8);
(6)创建新节点childk+1,值为ai,j,记录ai,j的拼音;
(7)若j<m,创建子节点,并赋值ai,j,记录ai,j拼音;若j≥m,最后一个节点记录敏感词级别,并初始化频率为0,区域信息为默认值1,
(8)判断i的取值,若i<n,返回步骤(2);若i≥n,所述敏感文本匹配模块将敏感度解析识别结果传输给所述解析结果显示模块进行显示。
优选地,还提供权限控制模块及人工审核模块,所述权限控制模块与所述人工审核模块及文本识别解析模块连接,所述人工审核模块在文本识别解析模块及敏感文本匹配模块审核之后再做抽查审核,判断信息是否误判漏判,对于误判的信息添加规则到所述元数据管理模块。
采用了上述方法之后,所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;所述敏感文本匹配模块将文本进行去停用词预处理,将敏感词通过敏感词决策树构建算法建立成一棵分流树,将预处理过的文本,以文本数据流方式检索敏感词决策树,记录文本中对应敏感词的频率和区域信息,通过敏感度计算公式,得出文本整体敏感度,对应网页划分为敏感、非敏感网页;该基于规则的敏感文本过滤方法添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,匹配字符时,只需要完善词库即可,不需要添加大量的规则,匹配速度快,不依赖词典与分词进行敏感度匹配计算,通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别,计算文本整体敏感度,过滤敏感文本,查准率和查全率高。
附图说明
图1是本发明的一种基于规则的敏感文本过滤方法的步骤流程图;
图2是与图1的步骤流程图对应的整体模型示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
实施例1
请参阅图1至图2,图1是本发明的一种基于规则的敏感文本过滤方法的步骤流程图,图2是与图1的步骤流程图对应的整体模型示意图。
本发明公开了一种基于规则的敏感文本过滤方法,提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块,所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元;所述元数据加载模块与所述文本接收模块连接,所述文本识别解析模块与所述文本接收模块连接,所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接,所述人工审核模块与所述解析结果显示模块连接;
所述基于规则的敏感文本过滤方法包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;
所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别;
所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关联规则进行解析识别,所述关联规则为若干词组成违反设置的规则;
所述表达式识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的表达式进行解析识别;
所述关键词识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关键词进行解析识别;
当字符匹配,从当前节点沿着树边有一条路径到达目标字符,沿该路径走向下一个节点继续匹配,目标字符串指针移向下个字符继续匹配;当字符不匹配,则去掉当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向root结束;重复“字符匹配”或“字符不匹配”中的任意一个过程,直到模式串走到结尾为止。
所述元数据管理模块对所述基础数据管理模块的基本数据做管理,根据板块设置添加词库和规则,如果没有设置则为默认板块。
实施例2
在本实施例中,还提供敏感文本匹配模块,所述敏感文本匹配模块与文本识别解析模块及解析结果显示模块连接,所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词,定位到敏感词出现的位置后,判断敏感词是否直接是禁止词,根据距离和敏感词关联的规则或者正则表达式来判断是否满足了敏感规则。
所述步骤“所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词”的实现步骤包括:所述敏感文本匹配模块将文本进行去停用词预处理,将敏感词通过敏感词决策树构建算法建立成一棵分流树,将预处理过的文本,以文本数据流方式检索敏感词决策树,记录文本中对应敏感词的频率和区域信息,通过敏感度计算公式,得出文本整体敏感度,对应网页划分为敏感、非敏感网页。
所述敏感度计算公式为:Aford={a0,a1,…,ai,…,an-1},(0≤i<n),n为敏感词个数,ai表示敏感词;
ai={ai,0,…,ai,j,…,ai,m-1},(0≤j<m),
其中,ai,j表示第i个敏感词的第j个敏感字,m表示敏感词长度。
所述敏感文本匹配模块采用所述敏感度计算公式的执行步骤为:
(1)初始化i=0,j=0,k=0,k记录孩子节点序号;
(2)输入敏感词ai,获取其中文长度为m,并提取首字母s;
(3)进入s子树查询,将ai,j与s的第k个孩子节点childk比较;
(4)若ai,j=childk节点的值,若j<m,s=childk,k=0,返回步骤(3);若j≥m,i<n,则返回步骤(2);若j≥m,i≥n,执行步骤(5);
(5)否则,若ai,j≠childk节点值,查询childk的兄弟节点是否为空,若childk兄弟节点为空,则执行步骤(6),若childk兄弟节点为空,则执行步骤(8);
(6)创建新节点childk+1,值为ai,j,记录ai,j的拼音;
(7)若j<m,创建子节点,并赋值ai,j,记录ai,j拼音;若j≥m,最后一个节点记录敏感词级别,并初始化频率为0,区域信息为默认值1,
(8)判断i的取值,若i<n,返回步骤(2);若i≥n,所述敏感文本匹配模块将敏感度解析识别结果传输给所述解析结果显示模块进行显示。
实施例3
在本实施例,还提供权限控制模块及人工审核模块,所述权限控制模块与所述人工审核模块及文本识别解析模块连接,所述人工审核模块在文本识别解析模块及敏感文本匹配模块审核之后再做抽查审核,判断信息是否误判漏判,对于误判的信息添加规则到所述元数据管理模块。
采用了上述方法之后,所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;所述敏感文本匹配模块将文本进行去停用词预处理,将敏感词通过敏感词决策树构建算法建立成一棵分流树,将预处理过的文本,以文本数据流方式检索敏感词决策树,记录文本中对应敏感词的频率和区域信息,通过敏感度计算公式,得出文本整体敏感度,对应网页划分为敏感、非敏感网页;该基于规则的敏感文本过滤方法添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,匹配字符时,只需要完善词库即可,不需要添加大量的规则,匹配速度快,不依赖词典与分词进行敏感度匹配计算,通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别,计算文本整体敏感度,过滤敏感文本,查准率和查全率高。
同时,应当理解的是,以上仅为本发明的优选实施例,不能因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效实现方法,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于规则的敏感文本过滤方法,其特征在于:提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块,所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元;所述元数据加载模块与所述文本接收模块连接,所述文本识别解析模块与所述文本接收模块连接,所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接,所述人工审核模块与所述解析结果显示模块连接;
所述基于规则的敏感文本过滤方法包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;
所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别;
所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关联规则进行解析识别,所述关联规则为若干词组成违反设置的规则;
所述表达式识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的表达式进行解析识别;
所述关键词识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关键词进行解析识别;
当字符匹配,从当前节点沿着树边有一条路径到达目标字符,沿该路径走向下一个节点继续匹配,目标字符串指针移向下个字符继续匹配;当字符不匹配,则去掉当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向root结束;重复“字符匹配”或“字符不匹配”中的任意一个过程,直到模式串走到结尾为止。
2.根据权利要求1所述的基于规则的敏感文本过滤方法,其特征在于:所述元数据管理模块对所述基础数据管理模块的基本数据做管理,根据板块设置添加词库和规则,如果没有设置则为默认板块。
3.根据权利要求1所述的基于规则的敏感文本过滤方法,其特征在于:还提供敏感文本匹配模块,所述敏感文本匹配模块与文本识别解析模块及解析结果显示模块连接,所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词,定位到敏感词出现的位置后,判断敏感词是否直接是禁止词,根据距离和敏感词关联的规则或者正则表达式来判断是否满足了敏感规则。
4.根据权利要求3所述的基于规则的敏感文本过滤方法,其特征在于:所述步骤“所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词”的实现步骤包括:所述敏感文本匹配模块将文本进行去停用词预处理,将敏感词通过敏感词决策树构建算法建立成一棵分流树,将预处理过的文本,以文本数据流方式检索敏感词决策树,记录文本中对应敏感词的频率和区域信息,通过敏感度计算公式,得出文本整体敏感度,对应网页划分为敏感、非敏感网页。
5.根据权利要求4所述的基于规则的敏感文本过滤方法,其特征在于:所述敏感度计算公式为:Aford={a0,a1,…,ai,…,an-1},(0≤i<n),n为敏感词个数,ai表示敏感词;ai={ai,0,…,ai,j,…,ai,m-1},(0≤j<m),
其中,ai,j表示第i个敏感词的第j个敏感字,m表示敏感词长度。
6.根据权利要求5所述的基于规则的敏感文本过滤方法,其特征在于:所述敏感文本匹配模块采用所述敏感度计算公式的执行步骤为:
(1)初始化i=0,j=0,k=0,k记录孩子节点序号;
(2)输入敏感词ai,获取其中文长度为m,并提取首字母s;
(3)进入s子树查询,将ai,j与s的第k个孩子节点childk比较;
(4)若ai,j=childk节点的值,若j<m,s=childk,k=0,返回步骤(3);若j≥m,i<n,则返回步骤(2);若j≥m,i≥n,执行步骤(5);
(5)否则,若ai,j≠childk节点值,查询childk的兄弟节点是否为空,若childk兄弟节点为空,则执行步骤(6),若childk兄弟节点为空,则执行步骤(8);
(6)创建新节点childk+1,值为ai,j,记录ai,j的拼音;
(7)若j<m,创建子节点,并赋值ai,j,记录ai,j拼音;若j≥m,最后一个节点记录敏感词级别,并初始化频率为0,区域信息为默认值1,
(8)判断i的取值,若i<n,返回步骤(2);若i≥n,所述敏感文本匹配模块将敏感度解析识别结果传输给所述解析结果显示模块进行显示。
7.根据权利要求5所述的基于规则的敏感文本过滤方法,其特征在于:还提供权限控制模块及人工审核模块,所述权限控制模块与所述人工审核模块及文本识别解析模块连接,所述人工审核模块在文本识别解析模块及敏感文本匹配模块审核之后再做抽查审核,判断信息是否误判漏判,对于误判的信息添加规则到所述元数据管理模块。
CN201610883595.9A 2016-10-08 2016-10-08 一种基于规则的敏感文本过滤方法 Pending CN106446232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610883595.9A CN106446232A (zh) 2016-10-08 2016-10-08 一种基于规则的敏感文本过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610883595.9A CN106446232A (zh) 2016-10-08 2016-10-08 一种基于规则的敏感文本过滤方法

Publications (1)

Publication Number Publication Date
CN106446232A true CN106446232A (zh) 2017-02-22

Family

ID=58172380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610883595.9A Pending CN106446232A (zh) 2016-10-08 2016-10-08 一种基于规则的敏感文本过滤方法

Country Status (1)

Country Link
CN (1) CN106446232A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108628907A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法
CN108664501A (zh) * 2017-03-29 2018-10-16 广东神马搜索科技有限公司 广告审核方法、装置及服务器
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN109214843A (zh) * 2017-06-29 2019-01-15 广东神马搜索科技有限公司 一种创意审核方法、装置及服务器
CN109284438A (zh) * 2018-08-15 2019-01-29 深圳点猫科技有限公司 一种利用前端编程语言过滤敏感词的方法以及电子设备
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN109376293A (zh) * 2018-05-17 2019-02-22 新华网股份有限公司 一种文本信息的过滤方法、装置和电子设备
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法
CN111062199A (zh) * 2019-11-05 2020-04-24 北京中科微澜科技有限公司 一种不良信息识别方法及装置
CN111143513A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111522950A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种针对非结构化海量文本敏感数据的快速识别系统
CN111737398A (zh) * 2020-05-26 2020-10-02 北京百度网讯科技有限公司 文本中的敏感词的检索方法、装置、电子设备及存储介质
CN112084746A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种实体识别方法、系统、存储介质及设备
CN112131352A (zh) * 2020-10-10 2020-12-25 南京工业大学 一种网页文本类不良信息的检测方法与检测系统
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112926301A (zh) * 2020-12-28 2021-06-08 广州坚和网络科技有限公司 基于敏感词库构建的敏感词监控方法及装置
CN113407658A (zh) * 2021-07-06 2021-09-17 北京容联七陌科技有限公司 在线客服场景下的文本内容敏感词过滤替换的方法及系统
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
WO2023125336A1 (en) * 2021-12-30 2023-07-06 Huawei Technologies Co., Ltd. Methods and devices for generating sensitive text detectors
CN117112858A (zh) * 2023-10-24 2023-11-24 武汉博特智能科技有限公司 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150432A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种网络舆情分析方法
CN105335483A (zh) * 2015-10-14 2016-02-17 广州市畅运信息科技有限公司 一种文本敏感词过滤系统和方法
US9396729B2 (en) * 2010-11-15 2016-07-19 At&T Intellectual Property I, L.P. Mobile devices, methods, and computer program products for enhancing social interactions with relevant social networking information
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396729B2 (en) * 2010-11-15 2016-07-19 At&T Intellectual Property I, L.P. Mobile devices, methods, and computer program products for enhancing social interactions with relevant social networking information
CN103150432A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种网络舆情分析方法
CN105335483A (zh) * 2015-10-14 2016-02-17 广州市畅运信息科技有限公司 一种文本敏感词过滤系统和方法
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓一贵等: "基于文本内容的敏感词决策树信息过滤算法", 《计算机工程》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628907B (zh) * 2017-03-24 2021-09-17 北京京东尚科信息技术有限公司 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法
CN108628907A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法
CN108664501A (zh) * 2017-03-29 2018-10-16 广东神马搜索科技有限公司 广告审核方法、装置及服务器
CN108664501B (zh) * 2017-03-29 2021-02-26 阿里巴巴(中国)有限公司 广告审核方法、装置及服务器
CN109214843B (zh) * 2017-06-29 2020-08-18 阿里巴巴(中国)有限公司 一种创意审核方法、装置及服务器
CN109214843A (zh) * 2017-06-29 2019-01-15 广东神马搜索科技有限公司 一种创意审核方法、装置及服务器
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN107943954B (zh) * 2017-11-24 2020-07-10 杭州安恒信息技术股份有限公司 网页敏感信息的检测方法、装置及电子设备
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN109376293A (zh) * 2018-05-17 2019-02-22 新华网股份有限公司 一种文本信息的过滤方法、装置和电子设备
CN109033150B (zh) * 2018-06-12 2024-01-30 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN109284438A (zh) * 2018-08-15 2019-01-29 深圳点猫科技有限公司 一种利用前端编程语言过滤敏感词的方法以及电子设备
CN109344258B (zh) * 2018-11-28 2021-11-12 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法
CN111062199A (zh) * 2019-11-05 2020-04-24 北京中科微澜科技有限公司 一种不良信息识别方法及装置
CN111062199B (zh) * 2019-11-05 2023-12-22 北京中科微澜科技有限公司 一种不良信息识别方法及装置
CN111143513B (zh) * 2019-12-25 2024-03-26 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111143513A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111522950A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种针对非结构化海量文本敏感数据的快速识别系统
CN111522950B (zh) * 2020-04-26 2023-06-27 成都思维世纪科技有限责任公司 一种针对非结构化海量文本敏感数据的快速识别系统
CN111737398B (zh) * 2020-05-26 2023-06-23 北京百度网讯科技有限公司 文本中的敏感词的检索方法、装置、电子设备及存储介质
CN111737398A (zh) * 2020-05-26 2020-10-02 北京百度网讯科技有限公司 文本中的敏感词的检索方法、装置、电子设备及存储介质
CN112084746A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种实体识别方法、系统、存储介质及设备
CN112131352A (zh) * 2020-10-10 2020-12-25 南京工业大学 一种网页文本类不良信息的检测方法与检测系统
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112926301A (zh) * 2020-12-28 2021-06-08 广州坚和网络科技有限公司 基于敏感词库构建的敏感词监控方法及装置
CN113407658A (zh) * 2021-07-06 2021-09-17 北京容联七陌科技有限公司 在线客服场景下的文本内容敏感词过滤替换的方法及系统
WO2023125336A1 (en) * 2021-12-30 2023-07-06 Huawei Technologies Co., Ltd. Methods and devices for generating sensitive text detectors
CN114091436B (zh) * 2022-01-21 2022-05-17 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN117112858A (zh) * 2023-10-24 2023-11-24 武汉博特智能科技有限公司 基于关联规则挖掘的对象筛选方法、处理器及存储介质
CN117112858B (zh) * 2023-10-24 2024-02-02 武汉博特智能科技有限公司 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Similar Documents

Publication Publication Date Title
CN106446232A (zh) 一种基于规则的敏感文本过滤方法
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
Eke et al. Sarcasm identification in textual data: systematic review, research challenges and open directions
CN104850574B (zh) 一种面向文本信息的敏感词过滤方法
CN101251862B (zh) 一种基于内容的问题自动分类方法及其系统
Ryu et al. Open domain question answering using Wikipedia-based knowledge model
CN111145052A (zh) 司法文书的结构化分析方法及系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN102279894A (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
US9110852B1 (en) Methods and systems for extracting information from text
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN110175585A (zh) 一种简答题自动批改系统及方法
CN104731958A (zh) 一种面向用户需求倾向的云制造服务推荐方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN115186654A (zh) 一种公文文本摘要生成方法
Ashraf et al. Author profiling on bi-lingual tweets
Barbieri et al. Towards a natural language conversational interface for process mining
CN104572613A (zh) 数据处理装置、数据处理方法和程序
US11861321B1 (en) Systems and methods for structure discovery and structure-based analysis in natural language processing models
CN103019924B (zh) 输入法智能性评测系统和方法
Han et al. A novel part of speech tagging framework for nlp based business process management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222