CN112328732A - 敏感词检测、敏感词树构建方法及装置 - Google Patents

敏感词检测、敏感词树构建方法及装置 Download PDF

Info

Publication number
CN112328732A
CN112328732A CN202011138878.3A CN202011138878A CN112328732A CN 112328732 A CN112328732 A CN 112328732A CN 202011138878 A CN202011138878 A CN 202011138878A CN 112328732 A CN112328732 A CN 112328732A
Authority
CN
China
Prior art keywords
sensitive word
sensitive
character
words
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011138878.3A
Other languages
English (en)
Inventor
张岩
董浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai I2finance Software Co ltd
Original Assignee
Shanghai I2finance Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai I2finance Software Co ltd filed Critical Shanghai I2finance Software Co ltd
Priority to CN202011138878.3A priority Critical patent/CN112328732A/zh
Publication of CN112328732A publication Critical patent/CN112328732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种敏感词检测、敏感词树构建方法及装置,其中,敏感词检测方法,可以按照待检测文本中字符的先后顺序,遍历待检测文本;对当前字符执行第一指定步骤:检测敏感词库中是否存在包含当前字符的目标敏感词树,敏感词库中包含至少一个敏感词树,一个敏感词树包含根节点和至少一个叶子节点,一个字符表示一个节点;若存在,则将当前字符的下一字符作为当前字符,并循环执行第二指定步骤:检测当前字符是否是上一字符在所述目标敏感词树中的子节点,直到当前字符不是上一字符在目标敏感词树中的子节点或当前字符为目标敏感词树的叶子节点;如果当前字符为目标敏感词树的叶子节点,则确定待检测文本包含敏感词。该检测方法检测效率高。

Description

敏感词检测、敏感词树构建方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种敏感词检测、敏感词树构建方 法及装置。
背景技术
随着互联网的发展,通过网络传播的文本内容越来越多,这些文本内容中 难免会出现用户故意使用敏感词破坏网络环境的情况。为了保证网络环境的和 谐健康,需要在将文本内容发布至网络环境前,对文本内容中存在的敏感词进 行检测和过滤。
目前的敏感词检测方法为,先维护一个敏感词库,然后对待过滤文本,遍 历敏感词库中的所有敏感词,逐个检查待过滤文本中是否包含敏感词库中的敏 感词。
目前的这种敏感词检测方法虽然简单,但是,随着敏感词库中敏感词数量 的增多,敏感词的检测时间会显性增长,检测效率会降低。
发明内容
本申请实施例提供一种敏感词检测、敏感词树构建方法及装置,以提高敏 感词的检测效率。
第一方面,本申请实施例提供一种敏感词检测方法,所述方法包括:
按照待检测文本中字符的先后顺序,遍历所述待检测文本中的字符;
对当前字符执行第一指定步骤,其中,所述第一指定步骤包括:检测敏感 词库中是否存在包含当前字符的目标敏感词树,所述敏感词库中包含至少一个 敏感词树,一个敏感词树包含根节点和至少一个叶子节点,一个字符表示一个 节点,根节点和该根节点的叶子节点之间的节点形成一个敏感词;
若存在所述目标敏感词树,则将当前字符的下一字符作为当前字符,并循 环执行第二指定步骤,直到满足预设条件后返回执行所述第一指定步骤,其中, 所述第二指定步骤包括:检测当前字符是否是上一字符在所述目标敏感词树中 的子节点,所述预设条件包括:当前字符不是上一字符在所述目标敏感词树中 的子节点或当前字符为所述目标敏感词树的叶子节点;
如果当前字符为所述目标敏感词树的叶子节点,则确定所述待检测文本包 含敏感词,且该敏感词为所述目标敏感词树的根节点和当前字符对应的叶子节 点之间的节点形成的敏感词。
第二方面,本申请实施例还提供一种敏感词树构建方法,所述方法包括:
获取若干敏感词;
在所述若干敏感词中找出至少一组敏感词,其中,同一组敏感词中包含的 敏感词的第一个字符相同;
对一组敏感词,以该组敏感词中敏感词的第一个字符为根节点,按该组敏 感词中各敏感词中包含的字符的先后顺序,依次将下一字符作为上一字符的子 节点,得到一个敏感词树。
第三方面,本申请实施例还提供一种敏感词检测装置,所述装置包括:
遍历模块,用于按照待检测文本中字符的先后顺序,遍历所述待检测文本 中的字符;
第一检测模块,用于对当前字符执行第一指定步骤,其中,所述第一指定 步骤包括:检测敏感词库中是否存在包含当前字符的目标敏感词树,所述敏感 词库中包含至少一个敏感词树,一个敏感词树包含根节点和至少一个叶子节 点,一个字符表示一个节点,根节点和该根节点的叶子节点之间的节点形成一 个敏感词;
第二检测模块,用于在存在所述目标敏感词树时,将当前字符的下一字符 作为当前字符,并循环执行第二指定步骤,直到满足预设条件后返回执行所述 第一指定步骤,其中,所述第二指定步骤包括:检测当前字符是否是上一字符 在所述目标敏感词树中的子节点,所述预设条件包括:当前字符不是上一字符 在所述目标敏感词树中的子节点或当前字符为所述目标敏感词树的叶子节点;
敏感词确定模块,用于在当前字符为所述目标敏感词树的叶子节点时,确 定所述待检测文本包含敏感词,且该敏感词为所述目标敏感词树的根节点和当 前字符对应的叶子节点之间的节点形成的敏感词。
第四方面,本申请实施例还提供一种敏感词树构建装置,所述装置包括:
敏感词获取模块,用于获取若干敏感词;
敏感词组确定模块,用于在所述若干敏感词中找出至少一组敏感词,其中, 同一组敏感词中包含的敏感词的第一个字符相同;
敏感词树构建模块,用于对一组敏感词,以该组敏感词中敏感词的第一个 字符为根节点,按该组敏感词中各敏感词中包含的字符的先后顺序,依次将下 一字符作为上一字符的子节点,得到一个敏感词树。
第五方面,本申请实施例还提供了一种电子设备,包括:存储器、处理器 及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程 序被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。
第六方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机 可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第 一方面或第二方面所述的方法的步骤。
本申请实施例采用的上述至少一个技术方案,由于预先构建了包含敏感词 树的敏感词库,因此对于一个待检测文本,扫描或遍历一次,即可完成所有敏 感词的检测,因此可以提高敏感词的检测效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部 分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不 当限定。在附图中:
图1为本申请实施例提供的一种敏感词树构建方法的流程示意图。
图2为应用本申请实施例提供的一种敏感词树构建方法构建的两个敏感词 树的示意图。
图3为本申请实施例提供的一种敏感词检测方法的流程示意图。
图4为本申请实施例提供的一种敏感词树构建装置的结构示意图。
图5为本申请实施例提供的一种敏感词检测装置的结构示意图。
图6为本申请实施例提供的一种电子设备的结构示意图。
图7为本申请实施例提供的另一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实 施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的 实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施 例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本申请保护的范围。
为了提高敏感词的检测效率,本申请实施例提供了一种敏感词检测方法、 敏感词树构建方法和装置。本申请实施例提供的方法及装置可以由电子设备 执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端 设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台 服务器、服务器集群、云端服务器或云端服务器集群等。所述终端设备包 括但不限于:智能手机、个人电脑(personal computer,PC)、笔记本电脑、 平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种。
本申请实施例提供的一种敏感词检测方法,是在构建好包含敏感词树 的敏感词库的基础上实现的,因此下面先对本说明书实施例提供的一种敏感 词树构建方法进行说明。
如图1所示,本申请实施例提供的一种敏感词树构建方法,可以包括如下 步骤:
步骤101、获取若干敏感词。
敏感词,一般是指带有不健康色彩的词或不文明的词语,也有一些网站会根据自身实际情况,设定一些适用于本网站的特殊敏感词。
上述若干敏感词可以是某一现有敏感词库中的全部或部分所有敏感词。例 如,当需要对发布在某一网站或网络平台的文本进行敏感词过滤时,可以获取 该网站或该网络平台的敏感词库中的所有敏感词作为上述若干敏感词。
步骤102、在所述若干敏感词中找出至少一组敏感词,其中,同一组敏感 词中包含的敏感词的第一个字符相同。
假设步骤101中获取了如下5个敏感词:酒吧、酒店、酒肉朋友、代驾和 代购,那么通过步骤102可以找出两组敏感词,一组敏感词包括酒吧、酒店和 酒肉朋友这三个敏感词,另一组敏感词包括代驾和代购这两个敏感词。可以理 解,当上述若干个敏感词的数量很多时,可确定出同一组敏感词中的第一个字 符相同的多组敏感词。
上述步骤102也可以理解为是对上述若干敏感词进行分组的过程,具体是 将第一个字符相同的敏感词分在同一组,将第一个字符不同的敏感词分在不同 组。
在本申请实施例中,若待检测文本为中文文本,一个字符是指一个汉字。
步骤103、对一组敏感词,以该组敏感词中敏感词的第一个字符为根节点, 按该组敏感词中各敏感词中包含的字符的先后顺序,依次将下一字符作为上一 字符的子节点,得到一个敏感词树。
通过步骤103,可以把敏感词中第一个字符相同的词(具有相同前缀的词) 组合成一个树形结构,第一个字符相同的不同词分属不同树形分支。
树形结构,是指是各个元素之间具有分层关系的数据结构,常用一棵倒置 的树来表示逻辑关系。其中,根节点是指树的最顶端的节点,子节点是指根节 点往下细分的节点,叶子节点是指一棵树当中没有子节点的节点,简称“叶子”。
例如,如图2所示,对于步骤102中确定出的“酒吧、酒店和酒肉朋友”这 一组敏感词,以“酒”为根节点,分别以“吧”、“店”“肉”为“酒”的两个子节点, 再以“朋”为“肉”的子节点,以“友”为“朋”的子节点,得到一个敏感词树;对于 步骤102中确定出的“代驾、代购”这一组敏感词,以“代”为根节点,分别以 “驾”、“购”为“代”的两个子节点,得到另一个敏感词树。以此类推,若步骤102 确定出很多组敏感词,通过步骤103,可针对每一组敏感词生成另一个敏感词 树。
可以理解,在针对一个敏感词库中的若干敏感词构建得到多个敏感词树之 后,将这多个敏感词树进行保存得到由敏感词树构成的新的敏感词库,即可方 便使用本申请实施例提供的一种敏感词检测方法进行敏感词检测,从而提高敏 感词检测效率。这是因为,将敏感词组用树形结构表示的好处在于,可以减少 对待检测文本的检索或扫描次数,遍历一次待检测文本,即可确定出其中所有 的敏感词,所以能够提高敏感词检测效率。
具体的,在JAVA应用中,可以使用哈希表(HashMap)来存储通过本申 请实施例提供的一种敏感词树构建方法构建的敏感词树。仍以上文中所述的 “酒吧、酒店和酒肉朋友”这一组敏感词对应的敏感词树为例,可以把每个敏感 词拆分成单独的字符,再存储到哈希表中,具体为:
Figure BDA0002737637340000071
在上述哈希表中,首先将每个敏感词的第一个字符作为键(key),值(value) 则是另一个哈希表,值对应的哈希表的键为第二个字符,如果还有第三个字符, 则存储到以第二个字符为键的值中,当然这个值还是一个哈希表,以此类推下 去,直到最后一个字符,当然最后一个字符对应的值也是哈希表,只不过这个 哈希表只需要存储一个结束标志就行了,像上述的例子中,存了一个 {"isEnd","Y"}的哈希表,来表示这个值对应的键是敏感词的最后一个字符。
上文对本申请实施例提供的一种敏感词树构建方法进行了介绍,下面对本 申请实施例提供的一种敏感词检测方法进行说明。
如图3所示,本申请实施例提供的一种敏感词检测方法,可以包括:
步骤301、开始。
步骤302、按照待检测文本中字符的先后顺序,遍历所述待检测文本中的 字符。
待检测文本可以是需要检测的任意文本,例如,待发布至目标网站或网络 平台的文本,具体来说,可以是需要发布至电商平台的商品信息,用户提交的 针对电商平台的商品的评价信息,需要发布至某博客平台的博文,等等。
待检测文本中字符的先后顺序,是指读者正常阅读待检测文本中的字符的 阅读顺序。遍历待检测文本中的字符,是指按阅读顺序逐字符的扫描字符。
步骤303、对当前字符执行第一指定步骤,其中,所述第一指定步骤包括: 检测敏感词库中是否存在包含当前字符的目标敏感词树,若为是执行步骤304, 若为否执行步骤308。
该敏感词库包含至少一个敏感词树(一般包含很多个),一个敏感词树包 含根节点和至少一个叶子节点,一个字符表示一个节点,根节点和该根节点的 叶子节点之间的节点形成一个敏感词(包括根节点和叶子节点)。
敏感词库中的敏感词树是依靠本申请实施例提供的一种敏感词树构建方 法构建的。或者说,可选地,在执行步骤303之前,图3所示的方法还可以包 括:获取若干敏感词;基于所述若干敏感词构建至少一个敏感词树;将所述至 少一个敏感词树进行保存,得到所述敏感词库。其中,基于所述若干敏感词构 建至少一个敏感词树,可包括:获取若干敏感词;在所述若干敏感词中找出至 少一组敏感词,其中,同一组敏感词中包含的敏感词的第一个字符相同;对一 组敏感词,以该组敏感词中敏感词的第一个字符为根节点,按该组敏感词中各 敏感词中包含的字符的先后顺序,依次将下一字符作为上一字符的子节点,得 到一个敏感词树。敏感词树的具体构建过程请参照上文,此处不再重复描述。
步骤304、将下一字符确定为当前字符。
步骤305、对当前字符指定第二指定步骤,其中,所述第二指定步骤包括: 检测当前字符是否是上一字符在所述目标敏感词树中的子节点,若为是执行步 骤306,若为否返回执行步骤303。
步骤306、判断当前字符是否为目标敏感词树的叶子节点,若为是,执行 步骤307,若为否返回执行步骤304。
上述步骤305至306可以看作是,若存在所述目标敏感词树,则将当前字 符的下一字符作为当前字符,并循环执行第二指定步骤,直到满足预设条件后 返回执行所述第一指定步骤,其中,预设条件包括:当前字符不是上一字符在 所述目标敏感词树中的子节点或当前字符为所述目标敏感词树的叶子节点。
步骤307、确定所述待检测文本包含敏感词,然后转入步骤308。
其中,确定出的该敏感词为所述目标敏感词树的根节点和当前字符对应的 叶子节点之间的节点(包含根节点和叶子节点)形成的敏感词。
步骤308、判断当前字符是否为所述待检测文本的最后一个字符,若为是 执行步骤310;若为否,执行步骤309。
步骤309、将下一字符确定为当前字符,并返回执行步骤303。
步骤310、结束。
在上述流程中,如果步骤303的判断结果为否,说明敏感词库中不存在目 标敏感词树,确定当前字符不在所述敏感词库中,可以继续执行步骤308判断 当前字符是否为待检测文本的最后一个字符,若不是,则将当前字符的下一字 符作为当前字符并返回执行第一指定步骤,继续进行检测。
通过上述流程,遍历一次待检测文本,然后在敏感词库中检索有没有当前 字符(当前被检测的字符)的敏感词树;如果没有相应的敏感词树,说明当前 字符不在敏感词库中,则直接跳过继续检测下一个字符;如果有相应的敏感词 树,则继续检测下一个字符是不是前一个字符对应的子节点,这样迭代下去, 当当前被检测的字符是敏感词树的叶子节点,或当前被检测的字符不再是敏感 词树的子节点,结束迭代,就能找出待检测文本中是否包含敏感词了。
以待检测文本为“我现在在酒吧”为例,依次检测每个字符,因为前4个字 符“我现在在”都不在敏感词库中,找不到对应的敏感词树,所以直接跳过。当 检测到“酒”字时,发现敏感词库中有相应的敏感词树(如图2所示),则接着 检索下一个字符“吧”是不是该敏感词树的子节点,发现是,然后再判断这个“吧” 字是不是当前树的叶子节点,发现是,则说明匹配到一个敏感词“酒吧”。
不难发现,本申请实施例提供的一种敏感词检测方法,在对一个待检测文 本的整个检测过程中,扫描一次待检测文本即可,而且对于待检测文本中不存 在的敏感词,完全不会扫描到,因此,相比传统的敏感词过滤方法更加高效。
可选地,图3所示的方法还可以包括:如果确定待检测文本中包含敏感词, 则对该敏感词执行预设处理。
作为一个例子,对该敏感词执行预设处理,可包括:提示用户对所述待检 测文本中的敏感词进行修改。当然,修改后,可针对该敏感词继续进行检测, 在检测通过时,再允许发布该待检测文本。
作为另一个例子,对该敏感词执行预设处理,可包括:将所述待检测文本 中的敏感词替换为预设字符。其中,预设字符为不敏感的字符,如“*”、“#”等 符号。
如此一来,可以保证发布至目标网站或网络平台的文本中不存在敏感词, 进而可以保证网络环境的和谐健康。
以上是对本申请实施例提供的方法的说明,相应于上述方法实施例,本申 请实施例还提供了一种敏感词树构建装置和一种敏感词检测装置,下面分别进 行介绍。
如图4所示,本申请实施例提供的一种敏感词树构建装置,可以包括:敏 感词获取模块401、敏感词组确定模块402和敏感词树构建模块403。
敏感词获取模块401,用于获取若干敏感词。
敏感词组确定模块402,用于在所述若干敏感词中找出至少一组敏感词, 其中,同一组敏感词中包含的敏感词的第一个字符相同。
敏感词树构建模块403,用于对一组敏感词,以该组敏感词中敏感词的第 一个字符为根节点,按该组敏感词中各敏感词中包含的字符的先后顺序,依次 将下一字符作为上一字符的子节点,得到一个敏感词树。
图4所示的实施例提供的一种敏感词树构建装置,能够实现图1所示的敏 感词树构建方法,并能取得相同的技术效果,相关之处可相互参考,此处不再 赘述。
如图5所示,本申请实施例还提供一种敏感词检测装置,包括:遍历模块 502、第一检测模块503、第一确定模块504、第二检测模块505、第一判断模 块506、敏感词确定模块507、第二判断模块508和第二确定模块509。
遍历模块502,用于按照待检测文本中字符的先后顺序,遍历所述待检测 文本中的字符。
第一检测模块503,用于对当前字符执行第一指定步骤,其中,所述第一 指定步骤包括:检测敏感词库中是否存在包含当前字符的目标敏感词树,若为 是触发第一确定模块504,若为否触发第二判断模块508。
第一确定模块504,用于将下一字符确定为当前字符。
第二检测模块505,用于对当前字符指定第二指定步骤,其中,所述第二 指定步骤包括:检测当前字符是否是上一字符在所述目标敏感词树中的子节 点,若为是触发第一判断模块506,若为否返回触发第一检测模块503。
第一判断模块506,用于判断当前字符是否为目标敏感词树的叶子节点, 若为是,触发敏感词确定模块507,若为否返回触发第一确定模块504。
也就是说,第二检测模块505,可用于在存在所述目标敏感词树时,将当 前字符的下一字符作为当前字符,并循环执行第二指定步骤,直到满足预设条 件后返回执行所述第一指定步骤,所述预设条件包括:当前字符不是上一字符 在所述目标敏感词树中的子节点或当前字符为所述目标敏感词树的叶子节点。
敏感词确定模块507,用于确定所述待检测文本包含敏感词。
也就是说,敏感词确定模块507,可用于在当前字符为所述目标敏感词树 的叶子节点时,确定所述待检测文本包含敏感词,且该敏感词为所述目标敏感 词树的根节点和当前字符对应的叶子节点之间的节点形成的敏感词。
第二判断模块508,用于判断当前字符是否为所述待检测文本的最后一个 字符,若为是结束;若为否,触发第二确定模块509。
第二确定模块509,用于将下一字符确定为当前字符,并触发第一检测模 块503。
图5所示的实施例提供的一种敏感词检测装置,能够实现图3所示的敏感 词检测方法,并能取得相同的技术效果,相关之处可相互参考,此处不再赘述。
可选地,图5所示的一种敏感词检测装置,还可以包括:敏感词过滤模块, 用于在确定待检测文本中包含敏感词,则对该敏感词执行预设处理。
作为一个例子,敏感词过滤模块具体可用于:提示用户对所述待检测文本 中的敏感词进行修改。当然,修改后,可针对该敏感词继续进行检测,在检测 通过时,再允许发布该待检测文本。
作为另一个例子,敏感词过滤模块具体可用于:将所述待检测文本中的敏 感词替换为预设字符。其中,预设字符为不敏感的字符,如“*”、“#”等符号。
如此一来,可以保证发布至目标网站或网络平台的文本中不存在敏感词, 进而可以保证网络环境的和谐健康。
需要说明的是,由于装置实施例执行的内容与方法实施例类似,因此,本 文对装置实施例部分描述的较为简略,相关之处请参见方法实施例部分。
图6示出了是本申请实施例提供的一种电子设备的结构示意图。请参考图 6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、 存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如 至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以 是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总 线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但 并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码 包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提 供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在 逻辑层面上形成敏感词树构建装置。处理器,执行存储器所存放的程序,并具 体用于执行本申请实施例提供的敏感词树构建方法。
图7示出了是本申请实施例提供的一种电子设备的结构示意图。图7所示 的电子设备与图6所示的电子设备的不同之处在于,处理器从非易失性存储器 中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成敏感词检测装 置。处理器,执行存储器所存放的程序,并具体用于执行本申请实施例提供的 敏感词检测方法。
上述如本申请图6或图7所示实施例揭示的装置执行的方法可以应用于处 理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处 理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻 辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央 处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP) 等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体 管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方 法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何 常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件 译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。 软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电 可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存 储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质 存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用 程序的电子设备执行时,能够使该电子设备执行图6所示实施例中敏感词树构 建装置执行的方法,并具体用于执行本申请实施例提供的敏感词树构建方法。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质 存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用 程序的电子设备执行时,能够使该电子设备执行图7所示实施例中敏感词检测 装置执行的方法,并具体用于执行本申请实施例提供的敏感词检测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,本申请中的各个实施例均采用相关的方式描述,各个实施 例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施 例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例, 所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中 还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人 员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的 任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种敏感词检测方法,其特征在于,所述方法包括:
按照待检测文本中字符的先后顺序,遍历所述待检测文本中的字符;
对当前字符执行第一指定步骤,其中,所述第一指定步骤包括:检测敏感词库中是否存在包含当前字符的目标敏感词树,所述敏感词库中包含至少一个敏感词树,一个敏感词树包含根节点和至少一个叶子节点,一个字符表示一个节点,根节点和该根节点的叶子节点之间的节点形成一个敏感词;
若存在所述目标敏感词树,则将当前字符的下一字符作为当前字符,并循环执行第二指定步骤,直到满足预设条件后返回执行所述第一指定步骤,其中,所述第二指定步骤包括:检测当前字符是否是上一字符在所述目标敏感词树中的子节点,所述预设条件包括:当前字符不是上一字符在所述目标敏感词树中的子节点或当前字符为所述目标敏感词树的叶子节点;
如果当前字符为所述目标敏感词树的叶子节点,则确定所述待检测文本包含敏感词,且该敏感词为所述目标敏感词树的根节点和当前字符对应的叶子节点之间的节点形成的敏感词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若不存在所述目标敏感词树,确定所述当前字符不在所述敏感词库中,将当前字符的下一字符作为当前字符并返回执行所述第一指定步骤。
3.根据权利要求1或2所述的方法,其特征在于,在所述对当前字符执行第一指定步骤前,所述方法还包括:
获取若干敏感词;
基于所述若干敏感词构建至少一个敏感词树;
将所述至少一个敏感词树进行保存,得到所述敏感词库。
4.根据权利要求3所述的方法,其特征在于,其中,所述基于所述若干敏感词构建至少一个敏感词树,包括:
在所述若干敏感词中找出至少一组敏感词,其中,同一组敏感词中包含的敏感词的第一个字符相同;
对一组敏感词,以该组敏感词中敏感词的第一个字符为根节点,按该组敏感词中各敏感词中包含的字符的先后顺序,依次将下一字符作为上一字符的子节点,得到一个敏感词树。
5.根据权利要求1所述的方法,其特征在于,还包括:
如果确定所述待检测文本中包含敏感词,则对该敏感词执行预设处理。
6.根据权利要求5所述的方法,其特征在于,其中,所述对该敏感词执行预设处理,包括:
提示用户对所述待检测文本中的敏感词进行修改;
或者,
将所述待检测文本中的敏感词替换为预设字符。
7.根据权利要求6所述的方法,其特征在于,
所述预设字符为不敏感的字符。
8.一种敏感词树构建方法,其特征在于,所述方法包括:
获取若干敏感词;
在所述若干敏感词中找出至少一组敏感词,其中,同一组敏感词中包含的敏感词的第一个字符相同;
对一组敏感词,以该组敏感词中敏感词的第一个字符为根节点,按该组敏感词中各敏感词中包含的字符的先后顺序,依次将下一字符作为上一字符的子节点,得到一个敏感词树。
9.一种敏感词检测装置,其特征在于,所述装置包括:
遍历模块,用于按照待检测文本中字符的先后顺序,遍历所述待检测文本中的字符;
第一检测模块,用于对当前字符执行第一指定步骤,其中,所述第一指定步骤包括:检测敏感词库中是否存在包含当前字符的目标敏感词树,所述敏感词库中包含至少一个敏感词树,一个敏感词树包含根节点和至少一个叶子节点,一个字符表示一个节点,根节点和该根节点的叶子节点之间的节点形成一个敏感词;
第二检测模块,用于在存在所述目标敏感词树时,将当前字符的下一字符作为当前字符,并循环执行第二指定步骤,直到满足预设条件后返回执行所述第一指定步骤,其中,所述第二指定步骤包括:检测当前字符是否是上一字符在所述目标敏感词树中的子节点,所述预设条件包括:当前字符不是上一字符在所述目标敏感词树中的子节点或当前字符为所述目标敏感词树的叶子节点;
敏感词确定模块,用于在当前字符为所述目标敏感词树的叶子节点时,确定所述待检测文本包含敏感词,且该敏感词为所述目标敏感词树的根节点和当前字符对应的叶子节点之间的节点形成的敏感词。
10.一种敏感词树构建装置,其特征在于,所述装置包括:
敏感词获取模块,用于获取若干敏感词;
敏感词组确定模块,用于在所述若干敏感词中找出至少一组敏感词,其中,同一组敏感词中包含的敏感词的第一个字符相同;
敏感词树构建模块,用于对一组敏感词,以该组敏感词中敏感词的第一个字符为根节点,按该组敏感词中各敏感词中包含的字符的先后顺序,依次将下一字符作为上一字符的子节点,得到一个敏感词树。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。
CN202011138878.3A 2020-10-22 2020-10-22 敏感词检测、敏感词树构建方法及装置 Pending CN112328732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011138878.3A CN112328732A (zh) 2020-10-22 2020-10-22 敏感词检测、敏感词树构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011138878.3A CN112328732A (zh) 2020-10-22 2020-10-22 敏感词检测、敏感词树构建方法及装置

Publications (1)

Publication Number Publication Date
CN112328732A true CN112328732A (zh) 2021-02-05

Family

ID=74310622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011138878.3A Pending CN112328732A (zh) 2020-10-22 2020-10-22 敏感词检测、敏感词树构建方法及装置

Country Status (1)

Country Link
CN (1) CN112328732A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128220A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113157904A (zh) * 2021-03-30 2021-07-23 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN113704382A (zh) * 2021-07-28 2021-11-26 上海销氪信息科技有限公司 一种文本匹配方法及装置
CN113836915A (zh) * 2021-09-23 2021-12-24 平安普惠企业管理有限公司 数据处理方法、装置、设备及可读存储介质
CN114117149A (zh) * 2021-11-25 2022-03-01 深圳前海微众银行股份有限公司 一种敏感词过滤方法及装置、存储介质
CN115391524A (zh) * 2022-08-05 2022-11-25 昆仑数智科技有限责任公司 敏感词检测方法、装置、计算机设备、存储介质及产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101721039B1 (ko) * 2015-11-27 2017-03-30 세종대학교산학협력단 트리 구조 기반의 프라이버시 보호를 위한 유용성 높은 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체
CN110309402A (zh) * 2018-02-27 2019-10-08 阿里巴巴集团控股有限公司 检测网站的方法和系统
CN110990404A (zh) * 2019-11-27 2020-04-10 亚信科技(中国)有限公司 一种索引数据的处理方法、装置及电子设备
CN111143513A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101721039B1 (ko) * 2015-11-27 2017-03-30 세종대학교산학협력단 트리 구조 기반의 프라이버시 보호를 위한 유용성 높은 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체
CN110309402A (zh) * 2018-02-27 2019-10-08 阿里巴巴集团控股有限公司 检测网站的方法和系统
CN110990404A (zh) * 2019-11-27 2020-04-10 亚信科技(中国)有限公司 一种索引数据的处理方法、装置及电子设备
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN111143513A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157904A (zh) * 2021-03-30 2021-07-23 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN113157904B (zh) * 2021-03-30 2024-02-09 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN113128220A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113128220B (zh) * 2021-04-30 2023-07-18 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113704382A (zh) * 2021-07-28 2021-11-26 上海销氪信息科技有限公司 一种文本匹配方法及装置
CN113836915A (zh) * 2021-09-23 2021-12-24 平安普惠企业管理有限公司 数据处理方法、装置、设备及可读存储介质
CN114117149A (zh) * 2021-11-25 2022-03-01 深圳前海微众银行股份有限公司 一种敏感词过滤方法及装置、存储介质
CN115391524A (zh) * 2022-08-05 2022-11-25 昆仑数智科技有限责任公司 敏感词检测方法、装置、计算机设备、存储介质及产品

Similar Documents

Publication Publication Date Title
CN112328732A (zh) 敏感词检测、敏感词树构建方法及装置
CN108427731B (zh) 页面代码的处理方法、装置、终端设备及介质
CN102682090B (zh) 一种基于聚合词树的敏感词匹配处理系统及方法
CN106649346B (zh) 数据重复性校验方法及装置
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
CN108449316B (zh) 一种反爬虫方法、服务器和客户端
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN105653949B (zh) 一种恶意程序检测方法及装置
CN107862039B (zh) 网页数据获取方法、系统和数据匹配推送方法
US20160306893A1 (en) Url purification method and url purification apparatus
CN109743309B (zh) 一种非法请求识别方法、装置及电子设备
CN106802899B (zh) 网页正文抽取方法及装置
CN112015806A (zh) 区块链存储数据的方法及装置
CN110020236B (zh) 网页解析方法、装置、存储介质、处理器和设备
CN110309364B (zh) 一种信息抽取方法及装置
CN108388796B (zh) 动态域名验证方法、系统、计算机设备和存储介质
CN113158627A (zh) 代码复杂度的检测方法及装置、存储介质、电子设备
CN110929188A (zh) 服务端页面渲染方法及装置
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN115796146A (zh) 一种文件对比方法及装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN104063506A (zh) 重复网页识别方法和装置
CN106776654B (zh) 一种数据搜索方法及装置
CN111143203B (zh) 机器学习、隐私代码确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 306, No. 799, Ximen Road, Chengqiao Town, Chongming District, Shanghai 202150

Applicant after: SHANGHAI I2FINANCE SOFTWARE CO.,LTD.

Address before: Room 2076, area C, building 8, No.2, Guanshan Road, Chengqiao Town, Chongming District, Shanghai 202150

Applicant before: SHANGHAI I2FINANCE SOFTWARE CO.,LTD.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205

RJ01 Rejection of invention patent application after publication