CN115048601A

CN115048601A - 一种内容发布方法、装置、电子设备及存储介质

Info

Publication number: CN115048601A
Application number: CN202110252218.6A
Authority: CN
Inventors: 魏国
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-09-13

Abstract

本申请公开一种内容发布方法、装置、电子设备及存储介质，属于自然语言处理技术领域，该方法包括：接收包含有文本内容的内容发布请求，对文本内容进行分词处理，得到文本内容中的分词，将每个分词与各预设词进行比对，得到各预设词中与该分词匹配的目标词，然后，获取用于表征目标词被拒绝发布的概率的预设因子，根据预设因子对应的文本过滤策略，响应内容发布请求，其中，各预设词是指定类型的词。这样，在发布文本内容之前，基于指定类型如敏感类型的各预设词对文本内容进行过滤，可以降低包含指定类型的词的文本内容的发布概率和传播概率。

Description

一种内容发布方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种内容发布方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的快速发展，网络用户也越来越多，网络用户可以很容易地发布网络信息也可以很容易地获取到他人发布的网络信息。

网络信息的易发布性和易传播性给人们的生活带来了极大的自由，但同时也带来了一些隐患。比如，一些敏感性或危害性的网络信息短时间内就可以在世界范围内传播，从而造成重大影响。因此，在网络信息发布前进行管控，防止具有敏感性和危害性的网络信息的传播，具有重大意义。

发明内容

本申请实施例提供一种内容发布方法、装置、电子设备及存储介质，用以提供一种在发布前对文本内容进行审核的方案。

第一方面，本申请实施例提供一种内容发布方法，包括：

接收内容发布请求，所述内容发布请求中包含有文本内容；

对所述文本内容进行分词处理，得到所述文本内容中的分词；

将每个分词与各预设词进行比对，得到各预设词中与所述分词匹配的目标词，其中，各预设词是指定类型的词；

获取所述目标词的预设因子，所述预设因子用于表征所述目标词被拒绝发布的概率；

根据所述预设因子对应的文本过滤策略，响应所述内容发布请求。

在一些可能的实施方式中，将每个分词与各预设词进行比对，得到各预设词中与所述分词匹配的目标词，包括：

获取所述分词的词向量；

计算所述分词的词向量与各预设词的词向量之间的相似度；

将相似度高于预设值的预设词，确定为与所述分词匹配的目标词。

在一些可能的实施方式中，根据以下步骤设置所述目标词的预设因子：

将所述目标词输入到词分类模型中进行分类处理，得到所述目标词的子类别，所述词分类模型是对属于所述指定类型的不同子类别的词的类别特征预先进行学习得到的；

将所述子类别对应的预设因子，确定为所述目标词的预设因子。

在一些可能的实施方式中，还包括：

接收设置所述目标词的预设因子的设置指令，所述设置指令中包含有预设因子；

若确定所述设置指令中的预设因子大于所述目标词的子类别对应的预设因子，则将所述设置指令中的预设因子确定为所述目标词的预设因子。

在一些可能的实施方式中，根据所述预设因子对应的文本过滤策略，响应所述内容发布请求，包括：

若确定所述预设因子对应的文本过滤策略是自动替换，则使用预设字符对所述文本中与所述目标词匹配的分词进行替换，发布替换后的文本内容；

若确定所述预设因子对应的文本过滤策略是人工审核，则将所述文本发送给审核人员进行审核，基于接收到的审核结果响应所述内容发布请求；

若确定所述预设因子对应的文本过滤策略是拒绝发布，则拒绝所述内容发布请求。

第二方面，本申请实施例提供一种内容发布装置，包括：

接收模块，用于接收内容发布请求，所述内容发布请求中包含有文本内容；

分词模块，用于对所述文本内容进行分词处理，得到所述文本内容中的分词；

比对模块，用于将每个分词与各预设词进行比对，得到各预设词中与所述分词匹配的目标词，其中，各预设词是指定类型的词；

获取模块，用于获取所述目标词的预设因子，所述预设因子用于表征所述目标词被拒绝发布的概率；

响应模块，用于根据所述预设因子对应的文本过滤策略，响应所述内容发布请求。

在一些可能的实施方式中，所述比对模块具体用于：

获取所述分词的词向量；

计算所述分词的词向量与各预设词的词向量之间的相似度；

在一些可能的实施方式中，还包括设置模块，用于根据以下步骤设置所述目标词的预设因子：

在一些可能的实施方式中，还包括设置模块，用于：

在一些可能的实施方式中，所述响应模块具体用于：

第三方面，本申请实施例提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

存储器存储有可被至少一个处理器执行的指令，该指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述内容发布方法。

第四方面，本申请实施例提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行上述内容发布方法。

本申请实施例中，接收包含有文本内容的内容发布请求，对文本内容进行分词处理，得到文本内容中的分词，将每个分词与各预设词进行比对，得到各预设词中与该分词匹配的目标词，然后，获取用于表征目标词被拒绝发布的概率的预设因子，根据预设因子对应的文本过滤策略，响应内容发布请求，其中，各预设词是指定类型的词。这样，在发布文本内容之前，基于指定类型如敏感类型的各预设词对文本内容进行过滤，可以降低包含指定类型的词的文本内容的发布概率和传播概率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种内容发布方法的流程图；

图2为本申请实施例提供的一种内容发布装置的结构示意图；

图3为本申请实施例提供的一种用于实现内容发布方法的电子设备的硬件结构示意图。

具体实施方式

为了提供一种在发布前对文本内容进行审核的方案，本申请实施例提供了一种内容发布方法、装置、电子设备及存储介质。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了便于理解本申请，本申请涉及的技术术语中：

指定类型的词，如敏感词。相应地，指定类型的不同子类别如政治敏感类、暴力敏感类、黄色敏感类等。

预设因子，如敏感指数。一般地，一个词的预设因子越大，敏感指数也越高，该词被拒绝发布的概率也越高；一个词的预设因子越小，敏感指数也越低，该词被拒绝发布的概率也越低。

本申请实施例提供的内容发布方法可以应用于即时通信场景，也可以应用于非即时通信场景，并且，本申请实施例的执行主体可以是服务器也可以是终端。在此都不做限制。

图1为本申请实施例提供的一种内容发布方法的流程图，包括以下步骤：

S101：接收内容发布请求，其中，内容发布请求中包含有文本内容。

其中，文本内容可以是即时消息发送界面中待发送的一句话，也可以是非即时消息发布界面中待发布的一段话。

S102：对文本内容进行分词处理，得到文本内容中的分词。

比如，利用汉语言处理包(Han Language Processing，HanLP)工具对文本内容进行分词处理。

S103：将每个分词与各预设词进行比对，得到各预设词中与该分词匹配的目标词，其中，各预设词是指定类型的词。

具体实施时，可以获取每个分词的词向量，然后，计算该分词的词向量与各预设词的词向量之间的相似度，进而将相似度高于预设值的预设词，确定为与该分词匹配的目标词。

实际应用中，各预设词中与该分词匹配的目标词可以有一个也可以有多个，本申请实施例对此不做限制。

S104：获取目标词的预设因子，其中，预设因子用于表征目标词被拒绝发布的概率。

具体实施时，虽然各预设词都属于指定类型，但指定类型的词还可细分为多个子类别，且可为每个子类别都设置一个预设因子，也就是说，属于同一子类别的词可以具有相同的预设因子。

因此，在一些可能的实施方式中，可以根据以下步骤设置目标词的预设因子：

将目标词输入到词分类模型中进行分类处理，得到目标词的子类别，然后，将子类别对应的预设因子，确定为目标词的预设因子，其中，词分类模型是对属于指定类型的不同子类别的词的类别特征预先进行学习得到的。

为了使目标词能够具有合适且合理的预设因子，还可开放目标词的预设因子的设置权限。

因此，在一些可能的实施方式中，还包括以下步骤：

接收设置目标词的预设因子的设置指令，该设置指令中包含有预设因子，若确定设置指令中的预设因子大于目标词的子类别对应的预设因子，则将设置指令中的预设因子确定为目标词的预设因子。

也就是说，当允许用户设置目标词的预设因子时，用户设置的预设因子大于目标词的子类别对应的预设因子，才可成功设置目标词的预设因子。当不满足该要求时，可以返回拒绝消息，且可在拒绝消息中携带拒绝原因如设置的预设因子不大于目标词的子类别对应的预设因子。

在一些可能的实施方式中，以上两种情况可以结合。

比如，用户在添加目标词时，未设置目标词的预设因子，此时，借助于词分类模型可使目标词自动具有与其所属子类别同样的预设因子。而后续，用户又想设置目标词的预设因子，则可利用设置指令重新设置目标词的预设因子。

另外，需要说明的是，当目标词有不止一个时，可以分别获取每个目标词的预设因子，然后，基于这些预设因子中最大的预设因子执行后续操作。

S105：根据预设因子对应的文本过滤策略，响应内容发布请求。

具体实施时，可以建立多种文本过滤策略，每种文本过滤策略对应一个预设因子区间，若目标词的预设因子落入某个预设因子区间，则可将该预设因子区间对应的文本过滤策略作为目标词的预设因子对应的文本过滤策略。

进一步地，若确定目标词的预设因子对应的文本过滤策略是自动替换，则可以使用预设字符对文本中与目标词匹配的分词进行替换，然后，发布替换后的文本内容。

若确定目标词的预设因子对应的文本过滤策略是人工审核，则可将文本发送给审核人员进行审核，然后，基于接收到的审核结果响应内容发布请求。比如，审核结果表示审核通过，则可以发布文本内容；再比如，审核结果表示审核不通过，则可以拒绝内容发布请求。

若确定目标词的预设因子对应的文本过滤策略是拒绝发布，则可直接拒绝内容发布请求。

这样，在发布文本内容之前，基于指定类型如敏感类型的各预设词对文本内容进行过滤，可以降低包含指定类型的词的文本内容的发布概率和传播概率。

下面以各预设词为敏感词为例对本申请实施例进行介绍。

1、构建动态分词词库，利用分词词库训练分词模型。

具体实施时，分词词库可以从网上或其他公开渠道获得。并可利用分词词库训练分词模型。后续，分词词库变更后，可重新训练分词模型，以使分词词库和分词模型保持同步。

2、构建动态敏感词库。

具体实施时，敏感词可以从网上或其他公开渠道获取，也可以手动添加或删除敏感词库中的敏感词。并且，可利用敏感词库训练对敏感词进行聚类分析的词分类模型。

后续，利用词分类模型可以将一个新增加的敏感词归类到一个敏感类别如政治敏感类、暴力敏感类或黄色敏感类中。

3、为敏感类别和敏感词设置敏感指数。

具体实施时，可为每个敏感类别设置一个敏感指数。在当前敏感类别下，未被设置敏感指数的敏感词自动具有与该敏感类别一致的敏感指数。

另外，敏感词可以被单独设置敏感指数，但所设置的敏感指数值不低于该敏感词所属敏感类别的敏感指数。

4、设置过滤策略。

具体实施时，对不同的敏感指数可设置不同的过滤策略。

比如：

1、自动替换，用特殊符号替代敏感词；

2、人工审核，将包含敏感词的文本内容发送给审核人员，由审核人员人工审查处理；

3、拒绝发布，直接通知发布人拒绝发布。

在以上准备工作的基础上，当接收到内容发布请求时，可利用分词模型，对内容发布请求中的文本内容进行分词处理，然后，调用Word2Vec工具把每个分词转换为一个词向量，计算该分词的词向量与敏感词库中各敏感词的词向量之间的相似度，得到一个根据相似度排名的敏感词列表，然后，根据预设值对敏感词列表进行筛选，若未能筛选出相似度超过预设值的敏感词，则说明该分词不是敏感内容，若筛选出相似度超过预设值的敏感词，则说明该分词是敏感内容，且该分词具有与相应敏感词同样的敏感指数。

进一步地，根据各分词的敏感指数，查找对应的过滤策略，基于查找到的过滤策略，对文本内容进行过滤处理。

比如，使用指定字符对文本内容中的敏感词进行替代，发布替代后的文本内容；再比如，将文本内容发送给审核人员进行人工审核，基于审核结果确定是否发布文本内容；再比如，直接拒绝发布文本内容。

本申请实施例中，借助自然语言处理等人工智能技术，通过合理设计处理方式，充分挖掘人工智能在处理敏感词检测方面的潜力，能够更多地减少需要人工识别的工作量，降低人工对敏感词检测管理的难度，提高敏感词检测的智能化程度，提高自动化处理的效率。

当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候，电子设备中可以包括多个功能模块，每个功能模块可以包括软件、硬件或其结合。

图2为本申请实施例提供的一种内容发布装置的结构示意图，包括接收模块201、分词模块202、比对模块203、获取模块204、响应模块205。

接收模块201，用于接收内容发布请求，所述内容发布请求中包含有文本内容；

分词模块202，用于对所述文本内容进行分词处理，得到所述文本内容中的分词；

比对模块203，用于将每个分词与各预设词进行比对，得到各预设词中与所述分词匹配的目标词，其中，各预设词是指定类型的词；

获取模块204，用于获取所述目标词的预设因子，所述预设因子用于表征所述目标词被拒绝发布的概率；

响应模块205，用于根据所述预设因子对应的文本过滤策略，响应所述内容发布请求。

在一些可能的实施方式中，所述比对模块203具体用于：

获取所述分词的词向量；

计算所述分词的词向量与各预设词的词向量之间的相似度；

在一些可能的实施方式中，还包括设置模块206，用于根据以下步骤设置所述目标词的预设因子：

在一些可能的实施方式中，还包括设置模块206，用于：

在一些可能的实施方式中，所述响应模块205具体用于：

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

图3为本申请实施例提供的一种电子设备的结构示意图，该电子设备包括收发器301以及处理器302等物理器件，其中，处理器302可以是一个中央处理单元(CentralProcessing Unit，CPU)、微处理器、专用集成电路、可编程逻辑电路、大规模集成电路、或者为数字处理单元等等。收发器301用于电子设备和其他设备进行数据收发。

该电子设备还可以包括存储器303用于存储处理器302执行的软件指令，当然还可以存储电子设备需要的一些其他数据，如电子设备的标识信息、电子设备的加密信息、用户数据等。存储器303可以是易失性存储器(Volatile Memory)，例如随机存取存储器(Random-Access Memory，RAM)；存储器303也可以是非易失性存储器(Non-VolatileMemory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(Flash Memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)、或者存储器303是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器303可以是上述存储器的组合。

本申请实施例中不限定上述处理器302、存储器303以及收发器301之间的具体连接介质。本申请实施例在图3中仅以存储器303、处理器302以及收发器301之间通过总线304连接为例进行说明，总线在图3中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器302可以是专用硬件或运行软件的处理器，当处理器302可以运行软件时，处理器302读取存储器303存储的软件指令，并在所述软件指令的驱动下，执行前述实施例中涉及的内容发布方法。

本申请实施例还提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行前述实施例中涉及的内容发布方法。

在一些可能的实施方式中，本申请提供的内容发布方法的各个方面还可以实现为一种程序产品的形式，所述程序产品中包括有程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行前述实施例中涉及的内容发布方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、闪存、光纤、光盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例中用于内容发布的程序产品可以采用CD-ROM并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络包括局域网(Local AreaNetwork，LAN)或广域网(Wide Area Network，WAN)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种内容发布方法，其特征在于，包括：

接收内容发布请求，所述内容发布请求中包含有文本内容；

2.如权利要求1所述的方法，其特征在于，将每个分词与各预设词进行比对，得到各预设词中与所述分词匹配的目标词，包括：

获取所述分词的词向量；

计算所述分词的词向量与各预设词的词向量之间的相似度；

3.如权利要求1所述的方法，其特征在于，根据以下步骤设置所述目标词的预设因子：

4.如权利要求1-3任一所述的方法，其特征在于，还包括：

5.如权利要求1所述的方法，其特征在于，根据所述预设因子对应的文本过滤策略，响应所述内容发布请求，包括：

6.一种内容发布装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述比对模块具体用于：

获取所述分词的词向量；

计算所述分词的词向量与各预设词的词向量之间的相似度；

8.如权利要求6所述的装置，其特征在于，还包括设置模块，用于根据以下步骤设置所述目标词的预设因子：

9.如权利要求6-8任一所述的装置，其特征在于，还包括设置模块，用于：

10.如权利要求6所述的装置，其特征在于，所述响应模块具体用于：

11.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5任一所述的方法。

12.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行如权利要求1-5任一所述的方法。