CN114936553A

CN114936553A - 互联网社区的敏感词的提取方法、装置及存储介质

Info

Publication number: CN114936553A
Application number: CN202210705995.6A
Authority: CN
Inventors: 刘堡萱; 文成明
Original assignee: Shenzhen Baichuan Shuan Technology Co ltd
Current assignee: Shenzhen Baichuan Shuan Technology Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-08-23

Abstract

本发明涉及数据处理技术领域，是关于一种互联网社区的敏感词的提取方法、装置及存储介质，方法包括：获取总敏感词库和历史贴评数据；使用所述总敏感词库、历史贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型；使用所述敏感词粗提取模型对人工审核后的违规贴评数据进行敏感词提取，以提取出第一目标敏感词；当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，将所述第一目标敏感词及其对应的第一目标贴评数据存储至敏感词来源贴评库中；使用所述敏感词来源贴评库中的数据和第二预设Bert模型进行训练，以得到敏感词细提取模型；使用所述敏感词细提取模型对线上全量贴评数据进行敏感词提取，以提取出第二目标敏感词。

Description

互联网社区的敏感词的提取方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种互联网社区的敏感词的提取方法、装置及存储介质。

背景技术

互联网社区产品具有一对多的特性，一个用户发出的一条信息，会被多个用户看到。基于这个特性，互联网社区产品非常容易产生黑产和垃圾信息，黑产会利用互联网技术推广违法平台，黑产发出的引流为目的的消息即为垃圾信息。互联网社区长期不对黑产和垃圾信息进行处理，会影响用户体验，降低用户留存。目前平台都是采用敏感词命中的方式来识别黑产发出的垃圾信息。平台所采用的敏感词库大多也是由人工进行提取、添加和维护的。由于互联网社区产品表达方式多样的特性，同样一种含义，可能有非常多的表达方式，因此如何持续的维护一个及时更新且覆盖面广的敏感词库对于维护互联网社区的发展至关重要。

目前平台大多使用人工来对敏感词进行提取的，然而由于人力成本的昂贵、人工提取的滞后性和黑产使用敏感词变化快的特性，使用人来对敏感词提取必然会造成一定的漏放，且不能及时的对垃圾信息加以处置，继而影响用户体验和社区氛围，降低用户的留存。还有一些方案则会使用一些规则来对目前已有的敏感词进行扩展，但是由于规则的死板，使用这种方法扩展的敏感词不够灵活，且不能随着社区新的贴评产生新的敏感词，一旦黑产有了一些新的话术和非法的推广产品，该方法并不能及时的发现垃圾信息，只能够被动的等待人去发现问题。

发明内容

为克服相关技术中存在的人工提取和规则扩展敏感词的局限性和滞后性的问题，本发明提供一种互联网社区的敏感词的提取方法、装置及存储介质，用于解决新敏感词挖掘和补充扩展的问题，还针对黑产话术迭代快的特性兼顾了关键词提取模型迭代速度快的问题，减少人工参与，提高敏感词提取速度。

根据本发明实施例的第一方面，提供一种基于互联网社区的敏感词的提取方法，用于终端设备，所述方法包括：

获取总敏感词库和历史贴评数据；

使用所述总敏感词库、历史贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型；

使用所述敏感词粗提取模型对人工审核后的违规贴评数据进行敏感词提取，以提取出第一目标敏感词；

当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，将所述第一目标敏感词及其对应的第一目标贴评数据存储至敏感词来源贴评库中；

使用所述敏感词来源贴评库中的数据和第二预设Bert模型进行训练，以得到敏感词细提取模型；

使用所述敏感词细提取模型对线上全量贴评数据进行敏感词提取，以提取出第二目标敏感词。

在一个实施例中，优选地，使用所述总敏感词库、历史贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型，包括：

根据所述总敏感词库和历史贴评数据进行BIO标注，得到标注后的第一贴评数据；

使用所述标注后的第一贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型。

在一个实施例中，优选地，所述方法还包括：

当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，通过人工确认所述第一目标敏感词是否能作为敏感词；

当通过人工确认所述第一目标敏感词能作为敏感词时，将所述第一目标敏感词补充至所述总敏感词库中；

当通过人工确认所述第一目标敏感词不能作为敏感词时，丢弃所述第一目标敏感词。

在一个实施例中，优选地，所述方法还包括：

当通过人工审核确定所述第一目标敏感词不符合敏感词提取规则时，人工从所述违规贴评数据中提取出第三目标敏感词，并将所述第三目标敏感词补充至所述总敏感词库中。

在一个实施例中，优选地，使用所述敏感词来源贴评库中的数据和第二预设Bert模型进行训练，以得到敏感词细提取模型，包括：

根据所述敏感词来源贴评库中的第一目标敏感词及其对应的第一目标贴评数据进行BIO标注，得到标注后的第二贴评数据；

使用所述标注后的第二贴评数据和第二预设Bert模型进行训练，以得到敏感词细提取模型。

在一个实施例中，优选地，所述方法还包括：

当通过人工审核确定所述第二目标敏感词符合敏感词提取规则时，通过人工确认所述第二目标敏感词是否能作为敏感词；

当通过人工确认所述第二目标敏感词能作为敏感词时，将所述第二目标敏感词补充至所述总敏感词库中；

当通过人工确认所述第二目标敏感词不能作为敏感词时，丢弃所述第二目标敏感词。

在一个实施例中，优选地，所述方法还包括：

当通过人工审核确定所述第二目标敏感词不符合敏感词提取规则时，人工从所述线上全量贴评数据中提取出第四目标敏感词，并将所述第四目标敏感词补充至所述总敏感词库中。

根据本发明实施例的第二方面，提供一种互联网社区的敏感词的提取装置，所述装置包括：

获取模块，用于获取总敏感词库和历史贴评数据；

第一训练模块，用于使用所述总敏感词库、历史贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型；

第一提取模块，用于使用所述敏感词粗提取模型对人工审核后的违规贴评数据进行敏感词提取，以提取出第一目标敏感词；

存储模块，用于当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，将所述第一目标敏感词及其对应的第一目标贴评数据存储至敏感词来源贴评库中；

第二训练模块，用于使用所述敏感词来源贴评库中的数据和第二预设Bert模型进行训练，以得到敏感词细提取模型；

第二提取模块，用于使用所述敏感词细提取模型对线上全量贴评数据进行敏感词提取，以提取出第二目标敏感词。

在一个实施例中，优选地，在一个实施例中，优选地，第一训练模块用于：

在一个实施例中，优选地，所述装置还包括：

第一确认模块，用于当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，通过人工确认所述第一目标敏感词是否能作为敏感词；

第一补充模块，用于当通过人工确认所述第一目标敏感词能作为敏感词时，将所述第一目标敏感词补充至所述总敏感词库中；

第一丢弃模块，用于当通过人工确认所述第一目标敏感词不能作为敏感词时，丢弃所述第一目标敏感词。

在一个实施例中，优选地，所述装置还包括：

第二补充模块，用于当通过人工审核确定所述第一目标敏感词不符合敏感词提取规则时，人工从所述违规贴评数据中提取出第三目标敏感词，并将所述第三目标敏感词补充至所述总敏感词库中。

在一个实施例中，优选地，第二训练模块用于：

在一个实施例中，优选地，所述装置还包括：

第二确认模块，用于当通过人工审核确定所述第二目标敏感词符合敏感词提取规则时，通过人工确认所述第二目标敏感词是否能作为敏感词；

第三补充模块，用于当通过人工确认所述第二目标敏感词能作为敏感词时，将所述第二目标敏感词补充至所述总敏感词库中；

第二丢弃模块，用于当通过人工确认所述第二目标敏感词不能作为敏感词时，丢弃所述第二目标敏感词。

在一个实施例中，优选地，所述装置还包括：

第四补充模块，用于当通过人工审核确定所述第二目标敏感词不符合敏感词提取规则时，人工从所述线上全量贴评数据中提取出第四目标敏感词，并将所述第四目标敏感词补充至所述总敏感词库中。

根据本发明实施例的第三方面，提供一种互联网社区的敏感词的提取装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取总敏感词库和历史贴评数据；

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现如第一方面的实施例中任一项所述方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，根据总敏感词库和历史上的存量贴评，对贴评数据进行自动的BIO序列标注，快速得到第一个敏感词粗提取模型，对比由人工重新标注数据，具有效率高、成本低的优点。在第一个敏感词粗提取模型的基础上，配合少量的人审工作，就能构建出第二个敏感词细提取模型的训练集，训练得到敏感词细提取模型，通过敏感词细提取模型提取敏感词，对比直接对数据集使用人工进行标注，具有人力成本低、数据获取快的特点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于互联网社区的敏感词的提取方法的流程图。

图2是根据一示例性实施例示出的一种基于互联网社区的敏感词的提取方法中步骤S102的流程图。

图3是根据一示例性实施例示出的另一种基于互联网社区的敏感词的提取方法的流程图。

图4是根据一示例性实施例示出的一种基于互联网社区的敏感词的提取方法中步骤S105的流程图。

图5是根据一示例性实施例示出的又一种基于互联网社区的敏感词的提取方法的流程图。

图6是根据一示例性实施例示出的一种基于互联网社区的敏感词的提取装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示，根据本发明实施例的第一方面，提供一种基于互联网社区的敏感词的提取方法，用于终端设备，所述方法包括：

步骤S101，获取总敏感词库和历史贴评数据；

步骤S102，使用所述总敏感词库、历史贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型；

步骤S103，使用所述敏感词粗提取模型对人工审核后的违规贴评数据进行敏感词提取，以提取出第一目标敏感词；

步骤S104，当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，将所述第一目标敏感词及其对应的第一目标贴评数据存储至敏感词来源贴评库中；

步骤S105，使用所述敏感词来源贴评库中的数据和第二预设Bert模型进行训练，以得到敏感词细提取模型；

步骤S106，使用所述敏感词细提取模型对线上全量贴评数据进行敏感词提取，以提取出第二目标敏感词。

线上全量贴评数据与人工审核后的违规贴评数据不同，因为敏感词粗提取模型是由敏感词自动标注的数据作为训练集生成的模型，受限于敏感词自动标注所带来的一些不准确的问题，其准确度达不到敏感词直接可用的水平，因此需要以人审已确认违规的数据作为输入，辅助模型能得到一个相对更准确的结果。而敏感词细提取模型是由人工确认过的正确数据作为训练集生成的模型，训练集更为准确，因此敏感词细提取模型也更为准确，因此不需要以人审确认违规的数据作为输入辅助提高结果的准确度，反而可以采用线上全量贴评作为输入，在保证结果准确的前提下，能找到一些人审漏放的数据。

在一个实施例中，优选地，上述步骤S102包括：

步骤S201，根据所述总敏感词库和历史贴评数据进行BIO标注，得到标注后的第一贴评数据；BIO标注是指将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

步骤S202，使用所述标注后的第一贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型。

如图3所示，在一个实施例中，优选地，上述方法还包括：

步骤S301，当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，通过人工确认所述第一目标敏感词是否能作为敏感词；

步骤S302，当通过人工确认所述第一目标敏感词能作为敏感词时，将所述第一目标敏感词补充至所述总敏感词库中；

步骤S303，当通过人工确认所述第一目标敏感词不能作为敏感词时，丢弃所述第一目标敏感词。

在该实施例中，通过人工审核的符合敏感词提取规则的第一目标敏感词，可以人工二次进行确认，如果确认该第一目标敏感词能作为敏感词，则可以将其补充到总敏感词库中，扩展敏感词库，反之，则直接将该第一目标敏感词丢弃。

在一个实施例中，优选地，所述方法还包括：

在该实施例中，如果确定第一目标敏感词不符合敏感词提取规则，则可以人工从违规贴评数据中提取出第三目标敏感词，并将其补充至总敏感词库中。

如图4所示，在一个实施例中，优选地，上述步骤S105包括：

步骤S401，根据所述敏感词来源贴评库中的第一目标敏感词及其对应的第一目标贴评数据进行BIO标注，得到标注后的第二贴评数据；

步骤S402，使用所述标注后的第二贴评数据和第二预设Bert模型进行训练，以得到敏感词细提取模型。

敏感词细提取模型是由人工确认过的正确数据作为训练集生成的模型，训练集更为准确，因此敏感词细提取模型也更为准确，因此不需要以人审确认违规的数据作为输入辅助提高结果的准确度，反而可以采用线上全量贴评作为输入，在保证结果准确的前提下，能找到一些人审漏放的数据。

如图5所示，在一个实施例中，优选地，所述方法还包括：

步骤S501，当通过人工审核确定所述第二目标敏感词符合敏感词提取规则时，通过人工确认所述第二目标敏感词是否能作为敏感词；

步骤S502，当通过人工确认所述第二目标敏感词能作为敏感词时，将所述第二目标敏感词补充至所述总敏感词库中；

步骤S503，当通过人工确认所述第二目标敏感词不能作为敏感词时，丢弃所述第二目标敏感词。

在一个实施例中，优选地，所述方法还包括：

通过总敏感词库的补充，解决了新敏感词挖掘和补充扩展的问题。

如图6所示，根据本发明实施例的第二方面，提供一种互联网社区的敏感词的提取装置，所述装置包括：

获取模块61，用于获取总敏感词库和历史贴评数据；

第一训练模块62，用于使用所述总敏感词库、历史贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型；

第一提取模块63，用于使用所述敏感词粗提取模型对人工审核后的违规贴评数据进行敏感词提取，以提取出第一目标敏感词；

存储模块64，用于当通过人工审核确定所述第一目标敏感词符合敏感词提取规则时，将所述第一目标敏感词及其对应的第一目标贴评数据存储至敏感词来源贴评库中；

第二训练模块65，用于使用所述敏感词来源贴评库中的数据和第二预设Bert模型进行训练，以得到敏感词细提取模型；

第二提取模块66，用于使用所述敏感词细提取模型对线上全量贴评数据进行敏感词提取，以提取出第二目标敏感词。

在一个实施例中，优选地，所述装置还包括：

在一个实施例中，优选地，第二训练模块用于：

在一个实施例中，优选地，所述装置还包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取总敏感词库和历史贴评数据；

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种互联网社区的敏感词的提取方法，其特征在于，用于终端设备，所述方法包括：

获取总敏感词库和历史贴评数据；

2.根据权利要求1所述的方法，其特征在于，使用所述总敏感词库、历史贴评数据和第一预设Bert模型进行训练，以得到敏感词粗提取模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，使用所述敏感词来源贴评库中的数据和第二预设Bert模型进行训练，以得到敏感词细提取模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种互联网社区的敏感词的提取装置，其特征在于，所述装置包括：

获取模块，用于获取总敏感词库和历史贴评数据；

9.一种互联网社区的敏感词的提取装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取总敏感词库和历史贴评数据；

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。