CN114186567A

CN114186567A - 敏感词检测方法及其装置、设备、介质、产品

Info

Publication number: CN114186567A
Application number: CN202111509258.0A
Authority: CN
Inventors: 王启鹏
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-15

Abstract

本申请公开一种敏感词检测方法及其装置、设备、介质、产品，所述匹配方法包括：根据敏感词数据库中的敏感词创建字典树，将每个敏感词表示为字典树中的到达一个末端节点的一条存储路径，每个末端节点用于存储相应的敏感词信息，包括该敏感词及其场景类型标签和敏感类型标签；响应敏感词检测请求，获得待检测文本及场景类型标签；查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点以确定出敏感词；输出结果信息，所述结果信息包含所述敏感词及其相应的敏感类型标签的映射关系数据。本申请能够以经济的方式基于字典树实现敏感词检测，在敏感词检测过程中充分考虑各个关键词在具体场景中的含义和作用，实现精准检测的效果。

Description

敏感词检测方法及其装置、设备、介质、产品

技术领域

本申请涉及电商信息技术领域，尤其涉及一种敏感词检测方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

敏感词检测对于互联网站的运营与维护至关重要，检测维度主要包括暴恐、色情、低俗辱骂等等多种类型。在跨境电商中敏感词检测同样至关重要，电商平台的敏感词可能广泛出现在商品标题、商品描述、商品图片上的文字及评论区中；同时由于跨境电商多以独立站形式面向全球无休运营，因此针对跨境电商的敏感词检测系统还应具动态管理敏感词库并使之即时生效的能力；另外独立站面向文化各异的多个国家及地区，因此敏感词检测必须具备多场景兼容性，即具备判定不同语境下各词语是否为敏感词的适应性辨别能力。

现有技术中，多采用神经网络模型基于待检测文本的深层语义信息进行分类映射，将待检测文本映射为不同的敏感类型标签。众所周知，神经网络模型的训练成本较高，严重依赖训练样本，但在跨境电商平台中，各个独立站的语料非常有限，难以适用人工智能方案。此外，神经网络模型是基于语义层面进行的敏感类型标签判定，容易忽略词义层面的价值，并且，由于单个神经网络模型的分类功能相对单一，因此往往难以有效地对待检测文本进行精细化地按词识别，更难以使模型获得多场景兼容性，所以，尽管神经网络模型相关的技术更为前沿，但在适应跨境电商服务场景需求时，总体效果反而不佳。

有鉴于此，本申请人对相关技术做出探索，获得相关成果而提出本申请。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种敏感词检测方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种敏感词检测方法，包括如下步骤：

根据敏感词数据库中的敏感词创建字典树，将每个敏感词表示为字典树中的到达一个末端节点的一条存储路径，每个末端节点用于存储相应的敏感词信息，所述敏感词信息包括该敏感词及其所归属的场景类型标签和敏感类型标签；

响应敏感词检测请求，获得该请求相对应的待检测文本及场景类型标签，所述场景类型标签为用于标示产生所述待检测文本的在线服务的业务场景、地理场景、交互场景任意一项或任意多项相应的标签；

查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签；

输出结果信息以应答该敏感词检测请求，所述结果信息包含所述敏感词及其相应的敏感类型标签的映射关系数据。

扩展的实施例中，根据敏感词数据库中的敏感词创建字典树的步骤之后，包括如下步骤：

通过消息队列监听用于存储所述敏感词数据库的敏感词更新事件，响应该敏感词更新事件相对应的敏感词，而更新所述字典词中相应的存储路径。

深化的实施例中，响应敏感词检测请求，获得该请求相对应的待检测文本及场景信息，包括如下步骤：

响应敏感词检测请求，获取该敏感词检测请求所携带的待检测文本及场景类型标签；

采用预训练的神经网络模型或预设的匹配规则对所述待检测文本进行分词处理，获得其中的多个关键词。

深化的实施例中，查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签，包括如下步骤：

针对每一所述的关键词，对所述字典树进行检索，确定出该关键词相应的存储路径；

针对每一所述的关键词相对应的存储路径，获取该存储路径对应的末端节点所存储的敏感词信息；

针对每一所述的关键词，判断其是否包含其存储路径的敏感词信息中的敏感词，以及判断其场景类型标签是否包含所述敏感词信息中的任一场景类型标签，当两者均成立时，确定该关键词为敏感词；

从相应的末端节点中获得各个敏感词的敏感类型标签，将被确定为敏感词的关键词与其相应的敏感词信息中的敏感类型标签构造为映射关系数据。

具体的实施例中，所述敏感词数据库中，存储预设的敏感词，以及该敏感词相对应的敏感类型标签、场景类型标签、生效状态相对应的映射关系数据。

较佳的实施例中，根据敏感词数据库中的敏感词创建字典树的过程中，仅将生效状态表征正在生效的敏感词添加至所述的字典树，将生效状态表征已经失效的敏感词排除在所述字典树之外。

适应本申请的目的之一而提供的一种敏感词检测装置，包括：字典创建模块、响应处理模块、查询匹配模块，以及结果输出模块，其中，所述字典创建模块，用于根据敏感词数据库中的敏感词创建字典树，将每个敏感词表示为字典树中的到达一个末端节点的一条存储路径，每个末端节点用于存储相应的敏感词信息，所述敏感词信息包括该敏感词及其所归属的场景类型标签和敏感类型标签；所述响应处理模块，用于响应敏感词检测请求，获得该请求相对应的待检测文本及场景类型标签，所述场景类型标签为用于标示产生所述待检测文本的在线服务的业务场景、地理场景、交互场景任意一项或任意多项相应的标签；所述查询匹配模块，用于查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签；所述结果输出模块，用于输出结果信息以应答该敏感词检测请求，所述结果信息包含所述敏感词及其相应的敏感类型标签的映射关系数据。

扩展的实施例中，本申请的敏感词检测装置，包括：队列监听模块，用于通过消息队列监听用于存储所述敏感词数据库的敏感词更新事件，响应该敏感词更新事件相对应的敏感词，而更新所述字典词中相应的存储路径。

深化的实施例中，所述响应处理模块，包括：请求响应子模块，用于响应敏感词检测请求，获取该敏感词检测请求所携带的待检测文本及场景类型标签；分词提取模块，用于采用预训练的神经网络模型或预设的匹配规则对所述待检测文本进行分词处理，获得其中的多个关键词。

深化的实施例中，所述查询匹配模块，包括：字典检索子模块，用于针对每一所述的关键词，对所述字典树进行检索，确定出该关键词相应的存储路径；路径访问子模块，用于针对每一所述的关键词相对应的存储路径，获取该存储路径对应的末端节点所存储的敏感词信息；词性辨析子模块，用于针对每一所述的关键词，判断其是否包含其存储路径的敏感词信息中的敏感词，以及判断其场景类型标签是否包含所述敏感词信息中的任一场景类型标签，当两者均成立时，确定该关键词为敏感词；风险关联子模块，用于从相应的末端节点中获得各个敏感词的敏感类型标签，将被确定为敏感词的关键词与其相应的敏感词信息中的敏感类型标签构造为映射关系数据。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的敏感词检测方法或商品信息发布方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的敏感词检测方法或商品信息发布方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

本申请先将敏感词数据库中的敏感词转换为具有快速响应特点的字典树，然后响应敏感词检测请求，根据该请求相应的待检测文本及场景信息在字典树中查询匹配出相应的敏感词所对应的末端节点，实现快速查询的目的，对待检测文本中的多个关键词做出是否属于敏感词的判定。然后，对应各个被判定为敏感词的关键词，在快速查询获得相应的末端节点的敏感词信息的基础上，进一步将相应的关键词与其所归属的敏感类型标签进行关联，实现对待检测文本中的各个关键词所属的敏感类型标签的标注，从而完成敏感词分类检测。

在此过程中，本申请借助场景类型标签这一具体数据，实现对不同类型场景信息的承载，例如，包括业务场景、地理场景、交互场景等，使得在敏感词识别中可以适应不同场景而判定关键词的语义，从而可以适应不同国家或地区、不同业务、不同交互过程而结合考虑关键词所表达的具体意思及具体作用，做到对关键词是否属于敏感词进行更为精准判断。

此外，由于字典树具有查询快速的特点，而且在关键词是否属于敏感词的判断过程中又考虑了场景因素，相对于借助神经网络模型来实施而言，本申请的技术方案更具经济成效，尤其适用于对跨境电商独立站所发生的待检测文本进行敏感词的检测。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的敏感词检测方法的典型实施例的流程示意图；

图2为本申请实施例判断关键词是否为敏感词的过程的流程示意图；

图3为本申请的敏感词检测装置的原理框图；

图4为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种敏感词检测方法，可被编程为计算机程序产品，部署于服务器中运行而实现，以便藉此通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品进行人机交互而执行该方法。

请参阅图1，本申请的敏感词检测方法，包括如下步骤：

步骤S1100、根据敏感词数据库中的敏感词创建字典树，将每个敏感词表示为字典树中的到达一个末端节点的一条存储路径，每个末端节点用于存储相应的敏感词信息，所述敏感词信息包括该敏感词及其所归属的场景类型标签和敏感类型标签：

典型的应用场景中，本申请的技术方案所实现的计算机程序产品被部署于跨境电商服务平台的服务器中，为该服务平台的各个在线服务提供基础服务，具体可为其他在线服务所提交的待检测文本检测其中是否包含何种类型的敏感词。在部署所述计算机程序产品时，既可实现为了一个集中式的基础服务，统一为其他在线服务开放标准化的接口，也可被配置为跨境电商平台中的任意一个独立站的独立基础服务模块，专用于该相应的独立站，为该独立站的在线服务提供基础服务。

跨境电商服务平台维护一个敏感词数据库，该敏感词数据库中，预存储海量的敏感词相对应及其相关联的信息，典型的，可包括每一敏感词自身的字符串，该敏感词的生效状态、所归属的场景类型标签，以及所归属的敏感类型标签。

所述的生效状态，用于指示一个相应的敏感词是否参与字典树的构建，也即是否参与被检测，可设置为“启用”、“失效”两种状态，前者表征相应的敏感词处于可以参与被检测的正在生效的启用状态，后者表征相应的敏感词处于已经失效不再参与被检测的失效状态。

所述的场景类型标签，用于指示相应的敏感词被检测时所需关联的场景，也即指示该敏感词在何种具体场景中才被视为敏感词。场景类型标签对应的数据，本质上是根据一类或多类场景类型设置的场景标签，通过不同的场景类型下的场景标签指示不同的具体场景。在本申请的敏感词数据库和字典树中，每个敏感词相对应的场景类型标签，可以表示为包括一个或多个所述的场景标签，也即一个敏感词可以对应一个或多个所述的场景类型标签。对于场景类型标签而言，可以按照不同的分类依据制定多类具体场景类型，对于每类具体场景类型还可进一步细分出多种具体场景，由此可见，事先存在一个场景分类体系，整个体系下存在多层级的多个场景类型标签可供调用。

示例性的第一类场景类型用于定义业务场景，所述业务场景用于指示敏感词所适用的在线服务的具体业务，根据这一原理制定业务场景类型相应的场景类型标签，例如“直播页面”、“网商页面”、“终端页面”、“商品详情页面”等分别用于指示直播入口、网站入口、移动终端入口相对应的业务类型。在敏感词检测时考虑具体业务场景的意义主要体现在对于例如直播这样的场景，可能更容易出现对主播用户的人身攻击的词汇，因此个别词汇的敏感度理论上应相应提高，系统适宜迅速对其做出响应。例如，中文词汇“一头猪”，如果出现在网站页面中，则可能不太明显，但如果出现在直播间中，则有可能是在骂主播用户，后者显然敏感性更高。

示例性的第二类场景类型用于定义地理场景，所述地理场景用于指示敏感词所适用的国家和/或地区，其制定的相应的场景类型标签可以是例如“美国”、“阿拉伯国家”、“中文区”、“英文区”等，分别用于指示不同的地理区域，通常也对应不同的语言、制度或风俗习惯。不难理解，不同的语言、制度和风俗习惯之下，同一词汇的含义和其所指示的作用可能是不同的，故其敏感度也不同，因此，在敏感词检测时考虑地理场景是具有积极意义的。例如，英文词汇“shabby”在英美国家中，可能主要起形容词原义的作用，但在中文语境中，则存在以谐音骂人的嫌疑，因此不同语言国家根据其地理区域，在进行敏感词标示时，也适宜考虑。

示例性的第三类场景类型用于定义交互场景，所述交互场景用于指示产生敏感词的交互过程，其制定的相应的场景类型标签可以是诸如“用户评论”、“产品信息”等，其中的“用户评论”可对应到用户评论区这一信息产生场景，而“产品信息”可对应到商品信息配置页面这一信息产生场景。在敏感词检测过程中考虑这一交互场景的作用，方便确定信息产生方或者信息产生区域，以便据此对敏感词的敏感性进行相应的标示。例如，如果一个中文词汇“友商产品太差”出现在商家发布的产品信息中，则其敏感性较高，如果出现在评论区中，则其敏感度可相应降低而不被纳入为敏感词。

综合示例，如一个词汇的场景类型标签被同时标示为“商品详情页面”、“美国”，则可根据预设的标签间逻辑关系表示该词汇在美国这一国家的商品详情页出现时，或者表示该词汇在美国的独立站出现或在独立站的商品详情页出现时，应被视为敏感词，。

根据此处关于场景类型标签的示例，本领域技术人员还可扩充其他场景类型标签，恕不详述。

所述的敏感类型标签，用于指示相应的敏感词所对应的敏感性分类体系中的具体敏感类别，例如，敏感性分类体系中包括“黄色”、“低俗”、“暴力”、“诋毁”等不同敏感类别，在存储每一敏感词时，便可根据该敏感词相应的含义或作用而为其关联相应的敏感类别。

在所述的敏感词数据库的基础上，本步骤根据该敏感词数据库创建并构造出一个字典树。所述字典树为多层结构，即从其根节点经过多级中间节点直至最后的末端节点，其中，自根节点到达一个末端节点的每一路径均为一个存储路径，每个存储路径用于自根节点至末端节点方向按序存储一个敏感词的逐个字符，而最后的末端节点则存储该敏感词相对应的敏感词信息。在字典树中，所述的敏感词信息主要包括敏感词的字符串本身以及该敏感词相对应的敏感词数据库中预设的所述场景类型标签和敏感类型标签即可。据此，通过字典树实现了对敏感词数据库中内容的图谱化表示，相当于一个知识图谱，后续便可根据字典树进行检索，而根据字典树从根节点进行敏感词存储路径的检索是相当高效快速的，显然有助于本申请的技术方案部署在电商服务平台中响应海量的检测请求，从而体现规模经济优势。

一个实施例中，敏感词数据库中的生效状态字段起控制作用，具体而言，在将敏感词存储至字典树过程中，对于已经在敏感词数据库中生效状态为表征正在生效的启用状态的敏感词，将其存储至字典树的一条存储路径中，而对于生效状态为表征已经失效的敏感词，则将其排除在字典树之外，即不将其存储至字典树中。由此，后台管理用户可以通过对敏感词数据库中各个敏感词的生效状态进行设置，随敏感词数据库与字典树的同步情况，来实现对字典树中敏感词的扩容或精简。

步骤S1200、响应敏感词检测请求，获得该请求相对应的待检测文本及场景类型标签，所述场景类型标签为用于标示产生所述待检测文本的在线服务的业务场景、地理场景、交互场景任意一项或任意多项相应的标签：

当电商平台的任意在线服务调用本申请的技术方案所提供的接口而触发敏感词检测请求时，会根据接口规范，在该检测请求中包含待检测文本及其场景类型标签。

相应的，所述场景类型标签可以表示为包含一个或多个具体的场景标签，所述场景标签可以是一类或多类具体场景中的一个或多个具体标签。例如，可以是同时携带如前所述的业务场景中的“直播页面”、地理场景中的“美国”、交互场景中的“用户评论”共三个标签。后续可据此为敏感词的判断适配场景条件。

所述的待检测文本，由调用所述接口的上游在线服务提供，可以是该在线服务的任意业务环节中获取的文本信息，且可预先由该在线服务根据实际需要对该文本信息进行格式预处理后提供，例如，所述在线服务可以从用户上传的商品图片中进行文字识别，获得所述的文本信息，并对所述文本信息去除空格、停用词等，组合为所述的待检测文本。当然，这些格式化处理操作也可在该接口内完成。对此，本领域技术人员可灵活设定。当所述在线服务调用接口并传入所述待检测文本与场景类型标签后，本申请的接口便可据此进行后续操作。

步骤S1300、查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签：

首先，可对所述待检测文本进行关键词抽取，以获得待检测文本中的多个关键词。关键词抽取过程，可采用预先训练至收敛状态的神经网络模型来实现，所述神经网络模型采用CNN、RNN架构，适于从一段文本中进行分词以抽取出多个关键词。推荐的具体神经网络模型例如Bi-LSTM、Bert、Electra等本领域技术人员所知晓的模型。除了采用神经网络模型实现关键词抽取之外，也可采用正则规则对所述待检测文本进行匹配来实现关键词提取，通过将待检测文本中与预设词袋中的词汇提取出来，也可获得所述的关键词。涉及关键词抽取的方式多种多样，本领域技术人员根据此处揭示的示例，可灵活变通实施。至于后续对关键词进行敏感词判定所需的场景类型标签，则无需特殊处理。

然后，针对从待检测文本中提取出的每一个关键词，均在所述字典树中进行逐级节点的检索查找，找到该关键词相对应的存储路径，直达其末端节点，从末端节点中提取出该存储路径相对应的敏感词的敏感信息。如前所述，在字典树中，该敏感信息包括敏感词本身的字符串、场景类型标签以及敏感类型标签。由此可见，经此步骤，实际上已经完成了关键词与字典树中敏感词的匹配，并且获得了各个关键词相对应的敏感信息中的敏感类型标签。

步骤S1400、输出结果信息以应答该敏感词检测请求，所述结果信息包含所述敏感词及其相应的敏感类型标签的映射关系数据：

当获得每个关键词相对应的敏感类型标签后，便可将每个关键与其相对应的敏感类型标签一一对应构造为映射关系数据，然后将所有关键词的映射关系数据合并成为结果信息，返回推送给相应的请求方，以完成对所述敏感词检测请求的应答。

通过本典型实施例可以看出，本申请具有诸多优势，包括但不限于如下各方面：

扩展的实施例中，所述步骤S1100、根据敏感词数据库中的敏感词创建字典树的步骤之后，包括如下步骤：

步骤S1500、通过消息队列监听用于存储所述敏感词数据库的敏感词更新事件，响应该敏感词更新事件相对应的敏感词，而更新所述字典词中相应的存储路径：

本实施例中，通过一个消息队列实现敏感词数据库与字典树之间的数据同步，通过对消息队列的监听，实现所述的数据同步。

具体而言，当敏感词数据库中发生敏感词更新事件，所述更新事件包括新增事件、删除事件、修改事件中任意一种，便构造该更新事件相对应的通知消息体添加到所述的消息队列中，所述消息队列按照其预设的出列规则对队列内的通知消息体进行出列，出列的通知消息体通过其相应的线程进行消费。在所述的线程中，解析所述的通知消息体，识别出所述的更新事件，然后响应该更新事件而在所述字典树中做相应的更新操作，包括与该更新事件相对应的新增、删除、修改等操作。

响应该更新事件对字典树进行所述的更新操作时，若所述敏感词更新事件为新增事件，则根据通知消息体中的新增敏感词，在字典树中查寻并完善对应的路径，根据敏感词的字符串按需逐级扩展必要的节点存储相应的字符，直至最后一个字符对应的末端节点处，存入该新增敏感词相对应的敏感词信息即可。若所述敏感词更新事件为删除事件，则根据通知消息体中的被删除敏感词，在字典树中逐字符查找确定出其存储路径，然后，根据该被删除敏感词的字符串倒序删除其各个对应的节点，直至最后一个被其他存储路径共用的节点。若所述这敏感词更新事件为修改事件，则根据通知消息体中的被更新敏感词，查找到其相对应的存储路径，然后再根据更新后的敏感词的字符串重新调整其存储路径和/或修改其敏感词信息即可。

本实施例基于事件监听机制建立了敏感词数据库与字典树之间的数据同步关系，既实现对敏感词数据库与字典树之间的解耦，又实现及时同步两者之间的敏感词数据，方便用户管理的同时，还能确保字典树的及时更新，使得字典树始终以其最新状态服务于电商平台的各个独立站。

深化的实施例中，所述步骤S1200、响应敏感词检测请求，获得该请求相对应的待检测文本及场景信息，包括如下步骤：

步骤S1210、响应敏感词检测请求，获取该敏感词检测请求所携带的待检测文本及场景类型标签：

响应敏感词检测请求的过程请参阅前文各实施例所述，此处不再赘述。

步骤S1220、采用预训练的神经网络模型或预设的匹配规则对所述待检测文本进行分词处理，获得其中的多个关键词：

本实施例中，所述神经网络模型推荐使用Lattice LSTM来实现，在为模型输入时，对所述待检测文本分别编码其字向量和各个字相对应的分词的词向量，然后将字向量和词向量处理为综合向量输入至模型中进行表示学习，经表示学习所得的深层语义信息，采用条件随机场对其进行词性标注，获得一个相应的分词序列，根据这些分词序列的标签，确定出其中的一个或多个关键词。

当采用预设匹配规则对所述待检测文本时，则如前文所述，应用一个预设的词袋进行关键词匹配即可。

本实施例通过推荐实测优选的神经网络模型，进一步提升本申请的实施效果，使关键词提取更为精准。

请参阅图2，深化的实施例中，所述步骤S1300、查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签，包括如下步骤：

步骤S1310、针对每一所述的关键词，对所述字典树进行检索，确定出该关键词相应的存储路径：

对于一个关键词而言，在所述字典树中进行检索时，根据该关键词的字符串，逐字在字典树中查找其各层级的节点。具体而言，以英文为例，字典树中每一级节点中存储一个对应的英文字母，根据该关键词，先在上级节点确定其第一个英文字符相对应的字母所在的具体节点，然后再在下一级节点确定其第二个英文字符相对应的字母所在的具体节点，以此类推，直至该关键词的最后一个英文字符，由此经过多个具体节点，达至最后一个末端节点，从字典树的根节点经过所述各个具体节点直到所述末端节点，便构成了该关键词相对应的敏感词的存储路径。

步骤S1320、针对每一所述的关键词相对应的存储路径，获取该存储路径对应的末端节点所存储的敏感词信息：

在前一步骤进行存储路径查找的过程中，如果不能确定这样的存储路径，则意味着字典树中不存在相应的敏感词，即可直接判定该关键词不是平台所定义的敏感词。如果能确定出一个关键词相对应的存储路径，那么，按照字典树的存储规则，该存储路径的末端节点中便存在该存储路径相对应的敏感词的敏感词信息，于是便可调用获取该敏感词信息。

步骤S1330、针对每一所述的关键词，判断其是否包含其存储路径的敏感词信息中的敏感词，以及判断其场景类型标签是否包含所述敏感词信息中的任一场景类型标签，当两者均成立时，确定该关键词为敏感词：

对于已经确定存在相匹配存储路径的关键词，是否构成本申请最终认定的关键词，尚需考虑其场景类型是否与相应的敏感词信息相匹配，据此，针对每一个所述的关键词，先判断该关键词与其相应的存储路径的敏感词信息中的敏感词的字符串进行匹配，若关键词字符串包含相应的敏感词的字符串，则进一步判断所述待检测文本所携带的一个或多个场景类型标签中，是否存在至少一个场景类型标签包含了相应的敏感词信息中的至少一个场景类型标签，若是，则可判定关键词的场景类型与敏感词的场景类型相匹配，从而可以确定该关键词即为敏感词。

在进行场景类型标签匹配判定时，可以灵活变换匹配方式。例如，另一实施例中，对于一个关键词，可以根据预设规则判断待检测文本所携带的所有场景类型标签是否全包含相应的该关键词相对应的敏感词信息中的全部场景类型标签，只有全包含时，才确定该关键词即为该敏感词。这一方式，通过改变匹配所需的逻辑规则，对敏感词认定提出了更严格的匹配条件。再一实施例中，只要一个关键词相对应的携带的一个场景类型标签属于其相应的敏感词信息中的一个场景类型标签，也可直接判定该关键词即为该敏感词，此种方式对关键词是否属于敏感词的认定更为宽松。此外，较为简化的一个实施例中，可以控制每个待检测文本只携带单一场景类型标签，且每个敏感词的敏感词信息中也只标注单个场景类型标签，需要匹配时，将关键词携带的场景类型标签与其相应的敏感词信息中的场景类型标签进行一一比较进行判定即可。

根据以上的各种变化实施例不难理解，在关联场景信息对关键词是否属于敏感词进行最终判定时，存在多种实施方式，可灵活设定，这对于提供中台服务的电商服务器而言，更方便实现多种功能的服务，实质上是扩展了相应的中台组件的服务能力。

步骤S1340、从相应的末端节点中获得各个敏感词的敏感类型标签，将被确定为敏感词的关键词与其相应的敏感词信息中的敏感类型标签构造为映射关系数据：

如前所述，当判定一个关键词为敏感词后，便可从该敏感词相对应的敏感词信息中提取出其中的敏感类型标签，然后将其与该关键词构造为映射关系数据，以便后续将待检测文本中所有被判定为敏感词的关键词的映射关系数据集合作为结果信息返回给请求方。

本实施例揭示了在字典树中进行关键词与敏感词之间的匹配，以及对关键词是否属于敏感词的判定，为此还揭示了多种变化实施例，通过此处的介绍，不难理解，本申请实现灵活且高效，有助于为复杂的电商服务平台提供标准化服务，从而增强对跨境电商平台的独立站的信息安全服务能力。

请参阅图3，适应本申请的目的之一而提供的一种敏感词检测装置，包括：字典创建模块1100、响应处理模块1200、查询匹配模块1300，以及结果输出模块1400，其中，所述字典创建模块1100，用于根据敏感词数据库中的敏感词创建字典树，将每个敏感词表示为字典树中的到达一个末端节点的一条存储路径，每个末端节点用于存储相应的敏感词信息，所述敏感词信息包括该敏感词及其所归属的场景类型标签和敏感类型标签；所述响应处理模块1200，用于响应敏感词检测请求，获得该请求相对应的待检测文本及场景类型标签，所述场景类型标签为用于标示产生所述待检测文本的在线服务的业务场景、地理场景、交互场景任意一项或任意多项相应的标签；所述查询匹配模块1300，用于查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签；所述结果输出模块1400，用于输出结果信息以应答该敏感词检测请求，所述结果信息包含所述敏感词及其相应的敏感类型标签的映射关系数据。

深化的实施例中，所述响应处理模块1200，包括：请求响应子模块，用于响应敏感词检测请求，获取该敏感词检测请求所携带的待检测文本及场景类型标签；分词提取模块，用于采用预训练的神经网络模型或预设的匹配规则对所述待检测文本进行分词处理，获得其中的多个关键词。

深化的实施例中，所述查询匹配模块1300，包括：字典检索子模块，用于针对每一所述的关键词，对所述字典树进行检索，确定出该关键词相应的存储路径；路径访问子模块，用于针对每一所述的关键词相对应的存储路径，获取该存储路径对应的末端节点所存储的敏感词信息；词性辨析子模块，用于针对每一所述的关键词，判断其是否包含其存储路径的敏感词信息中的敏感词，以及判断其场景类型标签是否包含所述敏感词信息中的任一场景类型标签，当两者均成立时，确定该关键词为敏感词；风险关联子模块，用于从相应的末端节点中获得各个敏感词的敏感类型标签，将被确定为敏感词的关键词与其相应的敏感词信息中的敏感类型标签构造为映射关系数据。

为解决上述技术问题，本申请实施例还提供计算机设备。如图4所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种敏感词检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的敏感词检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图3中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的敏感词检测装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的敏感词检测方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请能够以经济的方式基于字典树实现敏感词检测，在敏感词检测过程中充分考虑各个关键词在具体场景中的含义和作用，实现精准检测的效果，特别适用于对跨境电商独立站所产生的文本信息进行快速高效的敏感词检测，对于跨境电商服务平台而言，能取得明显的规模经济效应。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种敏感词检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的敏感词检测方法，其特征在于，根据敏感词数据库中的敏感词创建字典树的步骤之后，包括如下步骤：

3.根据权利要求1所述的敏感词检测方法，其特征在于，响应敏感词检测请求，获得该请求相对应的待检测文本及场景信息，包括如下步骤：

4.根据权利要求1所述的敏感词检测方法，其特征在于，查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签，包括如下步骤：

5.根据权利要求1至4中任意一项白发述的敏感词检测方法，其特征在于，所述敏感词数据库中，存储预设的敏感词，以及该敏感词相对应的敏感类型标签、场景类型标签、生效状态相对应的映射关系数据。

6.根据权利要求5所述的敏感词检测方法，其特征在于，根据敏感词数据库中的敏感词创建字典树的过程中，仅将生效状态表征正在生效的敏感词添加至所述的字典树，将生效状态表征已经失效的敏感词排除在所述字典树之外。

7.一种敏感词检测装置，其特征在于，包括：

字典创建模块，用于根据敏感词数据库中的敏感词创建字典树，将每个敏感词表示为字典树中的到达一个末端节点的一条存储路径，每个末端节点用于存储相应的敏感词信息，所述敏感词信息包括该敏感词及其所归属的场景类型标签和敏感类型标签；

响应处理模块，用于响应敏感词检测请求，获得该请求相对应的待检测文本及场景类型标签，所述场景类型标签为用于标示产生所述待检测文本的在线服务的业务场景、地理场景、交互场景任意一项或任意多项相应的标签；

查询匹配模块，用于查询所述字典树以确定与所述待检测文本中多个关键词及所述场景类型标签相匹配的存储路径的末端节点，将实现匹配的关键词确定为敏感词，从相应的末端节点中获得各个敏感词的敏感类型标签；

结果输出模块，用于输出结果信息以应答该敏感词检测请求，所述结果信息包含所述敏感词及其相应的敏感类型标签的映射关系数据。

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。