CN110874398A

CN110874398A - 违禁词处理方法、装置、电子设备及存储介质

Info

Publication number: CN110874398A
Application number: CN202010050350.4A
Authority: CN
Inventors: 黄仲强; 胡浩; 赵茜; 廖凤玲; 谢晓婷; 严彦昌; 杨金辉; 余梓玲
Original assignee: Guangdong Bozhilin Robot Co Ltd
Current assignee: Guangdong Bozhilin Robot Co Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-03-10
Anticipated expiration: 2040-01-14
Also published as: CN110874398B

Abstract

本申请提供一种违禁词处理方法、装置、电子设备及存储介质。该违禁词处理方法，包括以下步骤：获取待处理的标准广告语料；基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果；将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果；根据所述第一轮检测结果以及所述第二轮检测结果对所述标准广告语料进行违禁词替换处理。本申请可以提高违禁词的检出率，避免出现漏检的情况。

Description

违禁词处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机网络技术领域，具体而言，涉及一种违禁词处理方法、装置、电子设备及存储介质。

背景技术

新广告法颁布后，对于商品的叙述、形容有了更加明确、更加严格的规定，那些不能在广告中使用的词汇，被广告界称为违禁词、敏感词。例如，“国家最大”、“全国最低价”、“不买吃亏”等属于违禁词。目前，现有技术中对于违禁词的处理大都是采用直接将广告语料输入违禁词库进行匹配，以检测该广告语料中是否存在违禁词。但是，采用单一手段进行违禁词检测时，经常会出现漏检的情况。

针对上述问题，目前尚未有有效的技术解决方案。

发明内容

本申请实施例的目的在于提供一种违禁词处理方法、装置、电子设备及存储介质，可以提高违禁词的检出率。

第一方面，本申请实施例提供了一种违禁词处理方法，包括以下步骤：

获取待处理的标准广告语料；

基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果；

将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果；

根据所述第一轮检测结果以及所述第二轮检测结果对所述标准广告语料进行违禁词替换处理。

本申请实施例通过采用将分词前的违禁词检测以及分词后的违禁词检测相结合的方式，克服了分词前容易误检，分词后容易漏检的问题，结合两种方法提高了违禁词的检出率，避免漏检。

可选地，在本申请实施例所述的违禁词处理方法中，还包括以下步骤：采用正则化追踪匹配算法对所述标准广告语料进行违禁词查询，以得到第三轮检测结果；

而所述根据所述第一轮检测结果、所述第二轮检测结果对所述标准广告语料进行违禁词替换处理的步骤包括：

根据所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果对所述标准广告语料进行违禁词替换处理。

本申请实施例通过进一步结合正则化追踪匹配算法对所述标准广告语料进行违禁词查询，正则化追踪匹配算法，是利用了其本身能从预先建立的违禁词库，在原文本中匹配到违禁词。因为分词前容易误检，分词后容易漏检，结合两种方法，配合正则化这个预先建立的违禁词库，再重新的整合一遍，这样三种方法的功能结合能达到查漏补缺的效果。

可选地，在本申请实施例所述的违禁词处理方法中，所述基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果的步骤包括：

将预设违禁词库内的每一所述违禁词依次与所述标准广告语料进行匹配检测，以判断所述标准广告语料中是否存在所述预设违禁词库内的违禁词；

若存在，则获取对应所述违禁词在所述标准广告语料中的位置信息，并将检测出的违禁词以及其对应的位置信息作为第一检测结果。

本申请实施例通过采用将预设违禁词库中的每一个违禁词依次与该标准广告语料进行匹配检测，可以提高检出率，避免漏检。

可选地，在本申请实施例所述的违禁词处理方法中，所述基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果的步骤包括：

将每一所述分词分别与所述违禁词库中的违禁词进行检索匹配，以判断该分词是否为违禁词；

将各个被判断为违禁词的分词以及对应的位置信息作为第二轮检测结果。

本申请实施例通过采用将每一分词分别在预设违禁词库进行匹配检索，可以提高检出率，避免漏检。

可选地，在本申请实施例所述的违禁词处理方法中，所述根据所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果对所述标准广告语料进行违禁词替换处理的步骤包括：

提取所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果中的违禁词及对应的位置信息；

对所提取的违禁词按照位置信息进行去重处理，得到所需替换的违禁词以及对应的位置信息；

对每一所述违禁词进行分析以得到对应的替换词，并根据所述位置信息将所述标准广告语料中的违禁词替换为所述替换词。

本申请实施例通过三轮检测的检测结果对标准广告语料进行违禁词替换处理，从而提高了违禁词的替换效率以及避免漏掉违禁词。

分别提取所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果中的违禁词及对应的位置信息；

根据所提取的违禁词及对应的位置信息判断各所述违禁词的位置是否存在局部重叠但整体不重叠的情况；

若存在，则提取该局部重叠但整体不重叠的违禁词、以及其前后预设长度的字段以得到违禁字段；

对所述违禁字段进行语义分析，并根据语义分析的结果对所述违禁字段进行替换处理。

本申请实施例通过三轮检测的检测结果进行分析，查找出位置信息局部重叠但整体不重叠的违禁词，从而避免了由于盲目替换导致的语义丢失，可以降低替换违禁词对标准广告语料的整体影响。

可选地，在本申请实施例所述的违禁词处理方法中，所述获取待处理的标准广告语料的步骤包括：

获取广告语料文件；

对所述广告语料文件中的广告语料进行清洗以及排版操作，以得到标准广告语料。

第二方面，本申请实施例还提供了一种违禁词处理装置，包括：

获取模块，用于获取待处理的标准广告语料；

第一检测模块，用于基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果；

第二检测模块，用于将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果；

替换模块，用于根据所述第一轮检测结果、所述第二轮检测结果对所述标准广告语料进行违禁词替换处理。

可选地，在本申请实施例中所述的违禁词处理装置中，还包括：第三检测模块，用于基于预设违禁词库并采用正则化追踪匹配算法对所述标准广告语料进行违禁词查询，以得到第三轮检测结果；

而所述替换模块用于根据所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果对所述标准广告语料进行违禁词替换处理。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的违禁词处理方法的一种流程图。

图2为本申请实施例提供的违禁词处理方法的另一种流程图。

图3为本申请实施例提供的违禁词处理装置的第一种结构示意图。

图4为本申请实施例提供的违禁词处理装置的第二种结构示意图。

图5为本申请实施例提供的违禁词处理装置的第三种结构示意图。

图6为本申请实施例提供的违禁词处理装置的第四种结构示意图。

图7为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1是本本申请一些实施例中的违禁词处理方法的流程图。该违禁词处理方法，包括以下步骤：

S101、获取待处理的标准广告语料。

S102、基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果。

S103、将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果。

S104、根据所述第一轮检测结果、所述第二轮检测结果对所述标准广告语料进行违禁词替换处理。

下面对该违禁词处理方法的各个步骤进行详细说明。

在该步骤S101中，在执行该步骤S101时，还需要收集停用词和违禁词，分别建立停用词库以及违禁词库。后期可根据新广告法或项目需求，对违禁词库进行增、删、改、减。执行该步骤S101时可以直接获取经过处理好的标准广告语料，也可以或者未经处理的广告语料然后进行标准化处理。其中，标准广告语料的长度固定，如果不足需要补齐，如果文本过长则进行截取分段，例如，标准广告语料的长度固定为30。

在一些实施例中，该步骤S101包括以下子步骤：S1011、获取广告语料文件。S1012、对所述广告语料文件中的广告语料进行清洗以及排版操作，以得到标准广告语料。其中，在该步骤S1011中，将收集得到的PDF/Text/Word/Excel/Csv等格式的广告语料的文案，通过格式转换为text格式的文件进行保存；然后，提取各个text格式的文件中的广告语料并统一到一个文本中，当然，可以理解地，也可以将多个不同格式的广告语料转换为WORD格式，在这里不作限定。在该步骤S1012中，对该文本中的广告语料进行清洗操作及排版操作。清洗时，需要去除广告语料中的乱码、空格等。排版时，将每一条广告语料的长度设定为30，超过30的进行截取分段，小于30的采用预设特殊字符补齐长度，从而得到标准广告语料。

在该步骤S102中，采用将该预设违禁词库内的每一违禁词分别与该标准广告语料进行逐字段地匹配，以判断该标准广告语料是否存在所匹配的违禁词。当然，在进行检测前还需要进行一次清洗，去除该标准广告语料中的助词、停用词等。

在一些实施例中，该步骤S102包括以下步骤：S1021、将预设违禁词库内的每一所述违禁词依次与所述标准广告语料进行匹配检测，以判断所述标准广告语料中是否存在所述预设违禁词库内的违禁词；S1022、若存在，则获取对应所述违禁词在所述标准广告语料中的位置信息，并将检测出的违禁词以及其对应的位置信息作为第一检测结果。

其中，例如违禁词库中存在一违禁词ABC，而标准广告语料为“DDACFDABCADFABCDABDWWWQKLSUWQKB”;将该违禁词“ABC”依次与该标准广告语料的每三位进行对比，例如，先将违禁词“ABC”与第1-3位进行对比，不匹配；然后将违禁词“ABC”与第2-4位进行比较，不匹配；直至与该第12-15位进行匹配时，检测到该违禁词“ABC”与该第12-15位组成的词语相同，然后，接着将该违禁词“ABC”与后续的字段继续进行比较直至结束。因此，判断该标准广告语料中存在违禁词“ABC”，并输出其位置信息为第12-15位。然后，将标准广告语料中检测出违禁词“ABC”的字段空出来，接着输入下一个违禁词A₁B₁C₁进行同样的逐步检测，检测到已经检出违禁词“ABC”的位置时，直接跳过，直至检测结束。最后，输出该标准语广告语料中所包含的违禁词以及每一个违禁词对应的位置信息。将判断为违禁词的词语以及对应的位置信息进行字典形式的封装后输出。

在该步骤S103中，采用现有技术中常见的分词算法，将该标准广告语料进行分词处理，然后分词完成后，得到多个分词以及每一分词的词性信息，然后，可以去将多个分词中的常见一些副词、助词、停用词或者广告低频词筛选掉，然后对筛选剩下的分词进行逐一违禁词检测。检测时，可以采用将该每一分词分别与违禁词库中的各个违禁词进行匹配，也可以采用将违禁词中的每一个违禁词来分别与该多个分词进行匹配。当然，为了提高效率，通常是将分词作为检索目标，将该分词输入违禁词库进行检索，以查看违禁词库中是否存在该分词。

具体地，该步骤S103包括以下步骤：S1031、对标准广告语料进行分词处理，以得到多个分词以及每一分词的词性。S1032、基于所述分词的词性去除所述多个分词中的助词、停用词，并进行词频查询，去除该多个分词中的一些低频用词。S1033、将每一分词分别与违禁词库中的违禁词进行检索匹配，以分别判断该分词是否为违禁词。S1034、将各个被判断为违禁词的分词以及对应的位置信息作为第二轮检测结果。

其中，在该步骤S1033中，在进行检索匹配时，需要基于该违禁词的词性、长度以及违禁词的第一个字进行快速定位。对应地，在该预设违禁词库中，各个违禁词根据词性分为多个数据集，例如，副词违禁词数据集、形容词违禁词数据集以及动词违禁词数据集等；然后在每一数据集中，根据违禁词的长度将该数据集分为多个数据子集，每一数据子集中的违禁词具有相同的长度，然后，根据违禁词的词首字，在将该违禁词划分为多个子块，每一子块中的违禁词的第一个字相同。在对分词进行违禁词检索匹配时，可以大大减小工作量，提高判断效率。在该步骤S1034中，将判断为违禁词的分词以及对应的位置信息进行字典形式的封装后输出。

其中，在该步骤S104中，结合前面两轮检测得到的第一轮检测结果、第二轮检测结果，统计出所有违禁词及对应的位置信息。然后，对各个违禁词进行替换处理。可以理解地，在一些实施例中，违禁词库中不仅存储了收集的各个违禁词，还在对每一个违禁词设置了至少一个可供替换的替换词，在进行替换时，可以对该违禁词在广告语料中前后预设长度范围内的字段进行语义分析，然后结合语义分析的结果，选择对应的替换词来对该违禁词进行替换。

由上可知，本申请通过获取待处理的标准广告语料；基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果；将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果；根据所述第一轮检测结果以及所述第二轮检测结果对所述标准广告语料进行违禁词替换处理。本申请可以避免分词前容易误检，分词后容易漏检的问题，提高违禁词的检出率，避免出现漏检的情况。

请参照图2，图2是本本申请一些实施例中的违禁词处理方法的流程图。该违禁词处理方法，包括以下步骤：

S201、获取待处理的标准广告语料。

S202、基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果。

S203、将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果。

S204、采用正则化追踪匹配算法对所述标准广告语料进行违禁词查询，以得到第三轮检测结果。

S205、根据所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果对所述标准广告语料进行违禁词替换处理。

下面对该违禁词处理方法的各个步骤进行详细说明。

在该步骤S201中，在执行该步骤S201时，还需要收集停用词和违禁词，分别建立停用词库以及违禁词库。后期可根据新广告法或项目需求，对违禁词库进行增、删、改、减。执行该步骤S201时可以直接获取经过处理好的标准广告语料，也可以或者未经处理的广告语料然后进行标准化处理。其中，标准广告语料的长度固定，如果不足需要补齐，如果文本过长则进行截取分段，例如，标准广告语料的长度固定为30。

在一些实施例中，该步骤S201包括以下子步骤：S2011、获取广告语料文件。S2012、对所述广告语料文件中的广告语料进行清洗以及排版操作，以得到标准广告语料。其中，在该步骤S2011中，将收集得到的PDF/Text/Word/Excel/Csv等格式的广告语料的文案，通过格式转换为text格式的文件进行保存；然后，提取各个text格式的文件中的广告语料并统一到一个文本中，当然，可以理解地，也可以将多个不同格式的广告语料转换为WORD格式，在这里不作限定。在该步骤S2012中，对该文本中的广告语料进行清洗操作及排版操作。清洗时，需要去除广告语料中的乱码、空格等。排版时，将每一条广告语料的长度设定为30，超过30的进行截取分段，小于30的采用预设特殊字符补齐长度，从而得到标准广告语料。

在该步骤S202中，采用将该预设违禁词库内的每一违禁词分别与该标准广告语料进行逐字段地匹配，以判断该标准广告语料是否存在所匹配的违禁词。当然，在进行检测前还需要进行一次清洗，去除该标准广告语料中的助词、停用词等。

在一些实施例中，该步骤S202包括以下步骤：S2021、将预设违禁词库内的每一所述违禁词依次与所述标准广告语料进行匹配检测，以判断所述标准广告语料中是否存在所述预设违禁词库内的违禁词；S2022、若存在，则获取对应所述违禁词在所述标准广告语料中的位置信息，并将检测出的违禁词以及其对应的位置信息作为第一检测结果。

在该步骤S203中，采用现有技术中常见的分词算法，将该标准广告语料进行分词处理，然后分词完成后，得到多个分词以及每一分词的词性信息，然后，可以去将多个分词中的常见一些副词、助词、停用词或者广告低频词筛选掉，然后对筛选剩下的分词进行逐一违禁词检测。检测时，可以采用将该每一分词分别与违禁词库中的各个违禁词进行匹配，也可以采用将违禁词中的每一个违禁词来分别与该多个分词进行匹配。当然，为了提高效率，通常是将分词作为检索目标，将该分词输入违禁词库进行检索，以查看违禁词库中是否存在该分词。

具体地，该步骤S203包括以下步骤：S2031、对标准广告语料进行分词处理，以得到多个分词以及每一分词的词性。S2032、基于所述分词的词性去除所述多个分词中的助词、停用词，并进行词频查询，去除该多个分词中的一些低频用词。S2033、将每一分词分别与违禁词库中的违禁词进行检索匹配，以分别判断该分词是否为违禁词。S2034、将各个被判断为违禁词的分词以及对应的位置信息作为第二轮检测结果。

其中，在该步骤S2033中，再进行检索匹配时，需要基于该违禁词的词性、长度以及违禁词的第一个字进行快速定位。对应地，在该预设违禁词库中，各个违禁词根据词性分为多个数据集，然后在每一数据集中，根据违禁词的长度将该数据集分为多个数据子集，每一数据子集中的违禁词具有相同的长度，然后，根据违禁词的词首字，在将该违禁词划分为多个子块，每一子块中的违禁词的第一个字相同。在对分词进行违禁词检索匹配时，可以大大减小工作量，提高判断效率。在该步骤S2034中，将判断为违禁词的分词以及对应的位置信息进行字典形式的封装后输出。

在该步骤S204中，采用正则化追踪匹配算法要用到re正则化库，re正则化库是python里面的一个工具库，可以用来做文本清理。而通常文本清理需要大量工程，但是re正则化库可以实现该功能。由于预设违禁词库已经建立好，用re正则化库的findall函数能够从标准广告语料的文本中找到违禁词，最终，将查询到的违禁词及其位置信息一起输出作为第三轮检测结果，将判断为违禁词的词语以及对应的位置信息进行字典形式的封装后输出。

在该步骤S205中，结合前面三轮检测得到的第一轮检测结果、第二轮检测结果、第三轮检测结果，统计出所有违禁词及对应的位置信息。然后，对各个违禁词进行替换处理。可以理解地，在一些实施例中，违禁词库中不仅存储了收集的各个违禁词，还在对每一个违禁词设置了至少一个可供替换的替换词，在进行替换时，可以对该违禁词在广告语料中前后预设长度范围内的字段进行语义分析，然后结合语义分析的结果，选择对应的替换词来对该违禁词进行替换。

在一些实施例中，该步骤S205包括以下子步骤：S2051、提取所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果中的违禁词及对应的位置信息；S2052、对所提取的违禁词按照位置信息进行去重处理，得到所需替换的违禁词以及对应的位置信息；S2053、对每一所需替换的违禁词进行分析以得到对应的替换词，并根据所述位置信息将所述标准广告语料中的违禁词替换为所述替换词。在该步骤S2052中，将位于相同位置的相同违禁词去重仅保留一个。在该步骤S2053中，由于在违禁词库中，每一个违禁词都对应设置了多个可供替换的替换词，因此，在选择该违禁词的替换词时，可以对该违禁词在广告语料中的前后语境进行分析，并结合该广告语料所对应的领域，从而选择合适的替换词。

在一些实施例中，该步骤S205包括以下子步骤：S2054、分别提取所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果中的违禁词及对应的位置信息；S2055、根据所提取的违禁词及对应的位置信息判断各所述违禁词的位置是否存在局部重叠但整体不重叠的情况；S2056、若存在，则提取该局部重叠但整体不重叠的违禁词、以及其前后预设长度的字段以得到违禁字段；S2057、对所述违禁字段进行语义分析，并根据语义分析的结果对所述违禁字段进行替换处理。其中，在该步骤S2055中，实际操作中可能存在，采用不同检测方法时，所检测出的违禁词存在部分重叠但是整体不重叠的情况，如果不进行处理，在进行违禁词替换时，就会出现BUG。

例如，对于标准广告语料“DDACFDABCADFABCDABDWWWQKLSUWQKB”，通过第一轮检测时，检测出违禁词“DAC”，但是由于在检测出违禁词“DAC”后，而“CFD”也属于违禁词，在检测出违禁词“DAC”，后续检测CFD时，会直接跳过违禁词“DAC”所在的位置，导致违禁词“DAC”无法检测出，而在第二轮检测中，由于进行的分词处理时，将DDA作为了一个分词，将CFD作为了一个分词，因此，在第二轮检测时可以检测出违禁词“CFD”，而无法检测出违禁词“DAC”，这样，第一轮检测结果和第二轮检测结果就出现了违禁词存在部分重叠但是整体不重叠的情况，很难进行直接替换。而在步骤S2057中，为了应对上述出现的违禁词存在部分重叠但是整体不重叠的情况，给出了具体的解决方法。可以提取违禁词的前后预设长度范围内的字段作为违禁字段，并对该违禁字段进行语义分析，从而确定出在该违禁字段实际的违禁词，在检测出实际的违禁词后，再结合该标准广告语料的应用领域以及该违禁字段的语义分析结果，从违禁词库中选择合适的替换词进行替换。

由上可知，本申请通过获取待处理的标准广告语料；基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果；将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果；采用正则化追踪匹配算法对所述标准广告语料进行违禁词查询，以得到第三轮检测结果；根据所述第一轮检测结果、所述第二轮检测结果、以及所述第三轮检测结果对所述标准广告语料进行违禁词替换处理。因为分词前容易误检，分词后容易漏检，结合两种方法，配合re正则化这个预设的违禁词库，再重新的整合一遍，这样三种方法的功能结合能达到查漏补缺的效果，提高违禁词的检出率，避免出现漏检或者错检的情况。

请参照图3，图3是本申请一些实施例中的违禁词处理装置的结构图。该违禁词处理装置包括：获取模块301、第一检测模块302、第二检测模块303、第三检测模块304以及替换模块305。

其中，该获取模块301用于获取待处理的标准广告语料。该获取模块301还需要收集停用词和违禁词，分别建立停用词库以及违禁词库。后期可根据新广告法或项目需求，对违禁词库进行增、删、改、减。该获取模块301可以直接获取经过处理好的标准广告语料，也可以或者未经处理的广告语料然后进行标准化处理。其中，标准广告语料的长度固定，如果不足需要补齐，如果文本过长则进行截取分段，例如，标准广告语料的长度固定为30。获取模块301将收集得到的PDF/Text/Word/Excel/Csv等格式的广告语料的文案，通过格式转换模块，统一为text格式的文件进行保存；然后，提取各个text格式的文件中的广告语料进行统一到一个文本中。当然，可以理解地，也可以将多个不同格式的广告语料转换为WORD格式，在这里不作限定。清洗时，需要去除广告语料中的乱码、空格等。排版时，将每一条广告语料的长度设定为30，超过30的进行截取分段，小于30的采用预设特殊字符补齐长度，从而得到标准广告语料。

其中，该第一检测模块302用于基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果。采用将该预设违禁词库内的每一违禁词分别与该标准广告语料进行逐字段地匹配，以判断该标准广告语料是否存在所匹配的违禁词。当然，在进行检测前还需要进行一次清洗，去除该标准广告语料中的助词、停用词等。

请同时参照图4，在一些实施例中，该第一检测模块302包括第一判断单元3021以及第一获取单元3022。该第一判断单元3021用于将预设违禁词库内的每一违禁词依次与标准广告语料进行匹配检测，以判断所述标准广告语料中是否存在预设违禁词库内的违禁词；第一获取单元3022用于若存在所述预设违禁词库内的违禁词，则获取对应违禁词在标准广告语料中的位置信息，并将检测出的违禁词以及其对应的位置信息作为第一检测结果。

例如，违禁词库中存在一违禁词ABC，而标准广告语料为“DDACFDABCADFABCDABDWWWQKLSUWQKB”;将该违禁词“ABC”依次与该标准广告语料的每三位进行对比，例如，先将违禁词“ABC”与第1-3位进行对比，不匹配；然后将违禁词“ABC”与第2-4位进行比较，不匹配；直至与该第12-15位进行匹配时，检测到该违禁词“ABC”与该第12-15位组成的词语相同，然后，接着将该违禁词“ABC”与后续的字段继续进行比较直至结束。因此，判断该标准广告语料中存在违禁词“ABC”，并输出其位置信息为第12-15位。然后，将标准广告语料中检测出违禁词“ABC”的字段空出来，接着输入下一个违禁词A₁B₁C₁进行同样的逐步检测，检测到已经检出违禁词“ABC”的位置时，直接跳过，直至检测结束。最后，输出该标准语广告语料中所包含的违禁词以及每一个违禁词对应的位置信息。将判断为违禁词的词语以及对应的位置信息进行字典形式的封装后输出。

其中，该第二检测模块303用于将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果。该第二检测模块303采用现有技术中常见的分词算法，将该标准广告语料进行分词处理，然后分词完成后，得到多个分词以及每一分词的词性信息，然后，可以去将多个分词中的常见一些副词、助词、停用词或者广告低频词筛选掉，然后对筛选剩下的分词进行逐一违禁词检测。检测时，可以采用将该每一分词分别与违禁词库中的各个违禁词进行匹配，也可以采用将违禁词中的每一个违禁词来分别与该多个分词进行匹配。当然，为了提高效率，通常是将分词作为检索目标，将该分词输入违禁词库进行检索，以查看违禁词库中是否存在该分词。

具体地，该第二检测模块303包括分词单元以及检测单元。该分词单元，用于对标准广告语料进行分词处理，以得到多个分词以及每一分词的词性。筛选单元，用于基于所述分词的词性去除所述多个分词中的助词、停用词，并进行词频查询，去除该多个分词中的一些低频用词。检测单元，用于将每一分词分别与违禁词库中的违禁词进行检索匹配，以分别判断该分词是否为违禁词。设置单元，用于将各个被判断为违禁词的分词以及对应的位置信息作为第二轮检测结果。其中，再进行检索匹配时，需要基于该违禁词的词性、长度以及违禁词的第一个字进行快速定位。对应地，在该预设违禁词库中，各个违禁词根据词性分为多个数据集，然后在每一数据集中，根据违禁词的长度将该数据集分为多个数据子集，每一数据子集中的违禁词具有相同的长度，然后，根据违禁词的词首字，在将该违禁词划分为多个子块，每一子块中的违禁词的第一个字相同。在对分词进行违禁词检索匹配时，可以大大减小工作量，提高判断效率。将判断为违禁词的分词以及对应的位置信息进行字典形式的封装后输出。

其中，该第三检测模块304用于采用正则化追踪匹配算法对所述标准广告语料进行违禁词查询，以得到第三轮检测结果；该第三检测模块304用于采用正则化追踪匹配算法要用到re正则化库，re正则化库是python里面的一个工具库，可以用来做文本清理。而通常文本清理需要大量工程，但是re正则化库可以实现该功能。由于预设违禁词库已经建立好，用re正则化库的findall函数能够从标准广告语料的文本中找到违禁词，最终，将查询到的违禁词及其位置信息一起输出作为第三轮检测结果，将判断为违禁词的词语以及对应的位置信息进行字典形式的封装后输出。

其中，该替换模块305用于根据所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果对所述标准广告语料进行违禁词替换处理。该替换模块305结合前面三轮检测得到的第一轮检测结果、第二轮检测结果、第三轮检测结果，统计出所有违禁词及对应的位置信息。然后，对各个违禁词进行替换处理。可以理解地，在一些实施例中，违禁词库中不仅存储了收集的各个违禁词，还在对每一个违禁词设置了至少一个可供替换的替换词，在进行替换时，可以对该违禁词在广告语料中前后预设长度范围内的字段进行语义分析，然后结合语义分析的结果，选择对应的替换词来对该违禁词进行替换。

请同时参照图5，在一些实施例中，该替换模块305包括：第一提取单元3051、第一去重单元3052以及第一替换单元3053。该第一提取单元3051用于提取所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果中的违禁词及对应的位置信息；第一去重单元3052用于对所提取的违禁词按照位置信息进行去重处理，得到所需替换的违禁词以及对应的位置信息；第一替换单元3053用于对每一所需替换的违禁词进行分析以得到对应的替换词，并根据所述位置信息将所述标准广告语料中的违禁词替换为所述替换词。其中，第一去重单元3052将位于相同位置的相同违禁词去重仅保留一个。由于在违禁词库中，每一个违禁词都对应设置了多个可供替换的替换词，因此，在选择该违禁词的替换词时，可以对该违禁词在广告语料中的前后语境进行分析，并结合该广告语料所对应的领域，从而选择合适的替换词。

请同时参照图6，在一些实施例中，该替换模块305包括第二提取单元3054、第二判断单元3055、第三提取单元3056以及第二替换单元3057。第二提取单元3054用于分别提取所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果中的违禁词及对应的位置信息；第二判断单元3055用于根据所提取的违禁词及对应的位置信息判断各所述违禁词的位置是否存在局部重叠但整体不重叠的情况；第三提取单元3056用于若存在，则提取该局部重叠但整体不重叠的违禁词、以及其前后预设长度的字段以得到违禁字段；第二替换单元3057用于对所述违禁字段进行语义分析，并根据语义分析的结果对所述违禁字段进行替换处理。其中，实际操作中可能存在，采用不同检测方法时，所检测出的违禁词存在部分重叠但是整体不重叠的情况，如果不进行处理，在进行违禁词替换时，就会出现BUG。其中，如果不存局部重叠但是整体不重叠的情况，直接根据三轮的检测结果中的违禁词以及位置信息进行去重，然后进行对违禁词进行替换操作。

可以理解地，该第三检测模块304并未必不可少地，在一些实施例中，该违禁词处理装置是不包括该第三检测模块的，对应地，该替换模块305用于根据所述第一轮检测结果、所述第二轮检测结果对所述标准广告语料进行违禁词替换处理。

例如，对于标准广告语料“DDACFDABCADFABCDABDWWWQKLSUWQKB”，通过第一轮检测时，检测出违禁词“DAC”，但是由于在检测出违禁词“DAC”后，而“CFD”也属于违禁词，在检测出违禁词“DAC”，后续检测CFD时，会直接跳过违禁词“DAC”所在的位置，导致违禁词“DAC”无法检测出，而在第二轮检测中，由于进行的分词处理时，将DDA作为了一个分词，将CFD作为了一个分词，因此，在第二轮检测时可以检测出违禁词“CFD”，而无法检测出违禁词“DAC”，这样，第一轮检测结果和第二轮检测结果就出现了违禁词存在部分重叠但是整体不重叠的情况，很难进行直接替换。为了应对上述出现的违禁词存在部分重叠但是整体不重叠的情况，给出了具体的解决方法。可以提取违禁词的前后预设长度范围内的字段作为违禁字段，并对该违禁字段进行语义分析，从而确定出在该违禁字段实际的违禁词，在检测出实际的违禁词后，再结合该标准广告语料的应用领域以及该违禁字段的语义分析结果，从违禁词库中选择合适的替换词进行替换。

由上可知，本申请通过获取待处理的标准广告语料；基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果；将所述标准广告语料进行分词处理以得到多个分词，并基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果；根据所述第一轮检测结果以及所述第二轮检测结果对所述标准广告语料进行违禁词替换处理。本申请可以提高违禁词的检出率，避免出现漏检的情况。

请参照图7，图7为本申请实施例提供的一种电子设备的结构示意图，本申请提供一种电子设备4，包括：处理器401和存储器402，处理器401和存储器402通过通信总线403和/或其他形式的连接机构（未标出）互连并相互通讯，存储器402存储有处理器401可执行的计算机程序，当计算设备运行时，处理器401执行该计算机程序，以执行时执行上述实施例的任一可选的实现方式中的方法。

本申请实施例提供一种存储介质，所述计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random AccessMemory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable ProgrammableRead-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable ProgrammableRead Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory,简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种违禁词处理方法，其特征在于，包括以下步骤：

获取待处理的标准广告语料；

2.根据权利要求1所述的违禁词处理方法，其特征在于，还包括以下步骤：采用正则化追踪匹配算法对所述标准广告语料进行违禁词查询，以得到第三轮检测结果；

3.根据权利要求1所述的违禁词处理方法，其特征在于，所述基于预设违禁词库对所述标准广告语料进行违禁词检测，以得到第一轮检测结果的步骤包括：

4.根据权利要求1所述的违禁词处理方法，其特征在于，所述基于预设违禁词库对所述多个分词进行违禁词检测，以得到第二轮检测结果的步骤包括：

5.根据权利要求2所述的违禁词处理方法，其特征在于，所述根据所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果对所述标准广告语料进行违禁词替换处理的步骤包括：

6.根据权利要求2所述的违禁词处理方法，其特征在于，所述根据所述第一轮检测结果、所述第二轮检测结果、所述第三轮检测结果对所述标准广告语料进行违禁词替换处理的步骤包括：

7.根据权利要求1所述的违禁词处理方法，其特征在于，所述获取待处理的标准广告语料的步骤包括：

获取广告语料文件；

8.一种违禁词处理装置，其特征在于，包括：

获取模块，用于获取待处理的标准广告语料；

9.根据权利要求8所述的违禁词处理装置，其特征在于，还包括：第三检测模块，用于采用正则化追踪匹配算法对所述标准广告语料进行违禁词查询，以得到第三轮检测结果；

10.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一所述方法中的步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一所述方法中的步骤。