CN111930941A

CN111930941A - 一种辱骂内容识别方法及装置、服务器

Info

Publication number: CN111930941A
Application number: CN202010761006.6A
Authority: CN
Inventors: 张亮; 江钊; 孙中武
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-13

Abstract

本申请实施例公开了一种辱骂内容识别方法及装置、服务器，包括：判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字；若评论文本包含任一辱骂关键字，则提取评论文本的语义特征矩阵；根据评论文本的语义特征矩阵计算得到评论文本的辱骂概率；根据评论文本的语义特征矩阵和第一权重向量，得到评论文本的负面情感概率；根据辱骂概率以及负面情感概率，确定评论文本是否为辱骂评论文本。采用本申请，可以提高辱骂内容的识别准确率。

Description

一种辱骂内容识别方法及装置、服务器

技术领域

本申请涉及计算机技术领域，尤其涉及一种辱骂内容识别方法及装置、服务器。

背景技术

目前，辱骂内容识别的方案主要是利用文本分类模型来对辱骂内容进行识别，其中，文本分类模型常用的算法包括fasttext、textcnn和lstm等相关算法，但在常见社交场景下，相同的辱骂关键词，如猪，就有多种表达方式，并且，表达的辱骂含义也不一致，例如，傻猪猪真可爱，这种表达方式并不具有辱骂含义，反而是一种亲昵的表达方式，如果利用文本分类模型来对辱骂内容进行识别，会出现辱骂内容误判的情况，导致辱骂内容的识别准确率不高。

申请内容

本申请实施例提供一种辱骂内容识别方法及装置、服务器、存储介质，以期提高辱骂内容的识别准确率。

本申请实施例一方面提供了一种辱骂内容识别方法，包括：

判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字；

若所述评论文本包含所述任一辱骂关键字，则提取所述评论文本的语义特征矩阵；

根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率；

根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的负面情感概率，其中，所述第一权重向量是基于第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感分类标签训练得到，所述第一权重向量包括所述多个评论词中每个评论词的情感分类权重；

根据所述辱骂概率以及所述负面情感概率，确定所述评论文本是否为辱骂评论文本。

可选的，所述根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的负面情感概率，包括：

根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的第一文本特征向量；

将所述第一文本特征向量转化为概率序列，得到所述评论文本的负面情感概率。

可选的，所述提取评论文本的语义特征，包括：

根据所述评论文本中每个评论词在所述评论文本中的出现顺序，对所述每个评论词的初始词向量进行排序，得到所述评论文本的初始矩阵；

根据所述评论文本的初始矩阵和输入权重矩阵，得到所述评论文本的文本矩阵，其中，所述输入权重矩阵包括预设长度个预先训练的输入权重列向量；

对所述文本矩阵进行特征提取，得到所述评论文本的语义特征矩阵。

可选的，所述根据所述评论文本的初始矩阵和输入权重矩阵，得到所述评论文本的文本矩阵之前，包括：

对第二样本评论集合中每一条评论文本中每个评论词的初始词向量进行排序，得到所述每一条评论文本的初始矩阵，进而得到所述第二样本评论集合的初始矩阵，其中，所述第二样本评论集合包括评论文本a_i，所述评论文本a_i包括目标评论词b_j，其中，i为小于或等于所述第二样本评论集合对应的评论文本总数的正整数，j为小于或等于所述评论文本a_i对应的评论词总数的正整数；

根据所述第二样本评论集合的初始矩阵、初始输入权重矩阵以及初始输出权重矩阵得到所述评论文本a_i中目标评论词b_j对应的输出向量，根据所述输出向量得到所述目标评论词b_j的预测词向量；

根据所述目标评论词b_j的预测词向量和所述目标评论词b_j的初始词向量，对所述初始输入权重矩阵和所述输出权重矩阵进行调整；

当调整后的所述目标评论词b_j的预测词向量和所述目标评论词b_j的初始词向量满足第一收敛条件时，则将调整后的初始输入权重矩阵确定为所述输入权重矩阵。

可选的，所述根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率，包括：

根据所述评论文本的语义特征矩阵和第二权重向量得到第二文本特征向量，其中，所述第二权重向量包括所述多个评论词中每个评论词的辱骂识别权重，并且，所述第二权重向量中辱骂评论词所占的权重高于非辱骂评论词所占的权重；

将所述第二文本特征向量转化为概率序列，得到所述评论文本的辱骂概率。

可选的，所述根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的第一文本特征向量之前，还包括：

提取第三样本评论集合中每一条评论文本的语义特征矩阵，得到所述第三样本评论集合的语义特征矩阵；

根据所述第三样本评论集合的语义特征矩阵和第一初始权重向量，得到所述第三样本评论集合的文本特征向量；

将所述第三样本评论集合的文本特征向量转化为概率序列，得到所述第三样本评论集合中每一条评论文本的预测情感分类标签；

根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感分类标签，对所述第一初始权重向量进行调整；

当所述第三样本评论集合中评论文本的预测情感分类标签和情感分类标签满足第二收敛条件时，将所述调整后的第一初始权重向量确定为所述第一权重向量。

可选的，所述第三样本评论集合的文本特征向量包括第m个元素X_m，所述 m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数；

所述将所述第三样本评论集合的文本特征向量转化为概率序列，包括：

计算所述第m个元素X_m的概率值

其中，所述n为大于等于1，并且小于等于所述M的正整数；

根据所述概率值Sm得到所述第三样本评论集合的文本特征向量中每一个元素的概率值，根据所述每一个元素的概率值得到所述第三样本评论集合的文本特征向量对应的概率序列。

可选的，所述辱骂评论文本携带所述辱骂评论文本对应的用户账号；

所述确定所述评论文本为辱骂评论文本之后，还包括：

根据所述辱骂评论文本和所述用户账号生成上报消息，将所述上报消息发送至网络管理平台。

本申请一方面实施例提供了一种辱骂内容识别装置，包括：

判断模块，用于判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字；

确定提取模块，用于若所述评论文本包含所述任一辱骂关键字，则提取所述评论文本的语义特征矩阵；

辱骂概率计算模块，用于根据所述评论文本的语义特征矩阵计算得到所述评论文本对应的辱骂概率；

负面情感概率计算模块，用于根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的负面情感概率，其中，所述第一权重向量是基于第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感分类标签训练得到，所述第一权重向量包括所述多个评论词中每个评论词的情感分类权重；

确定模块，用于根据所述辱骂概率以及所述负面情感概率，确定所述评论文本是否为辱骂评论文本。

可选的，所述负面情感概率计算模块，具体用于：

可选的，所述确定提取模块，包括：

第一初始矩阵确定单元，用于根据所述评论文本中每个评论词在所述评论文本中的出现顺序，对所述每个评论词的初始词向量进行排序，得到所述评论文本的初始矩阵；

文本矩阵计算单元，用于根据所述评论文本的初始矩阵和输入权重矩阵，得到所述评论文本的文本矩阵，其中，所述输入权重矩阵包括预设长度个预先训练的输入权重列向量；

特征提取单元，用于对所述文本矩阵进行特征提取，得到所述评论文本的语义特征矩阵。

可选的，所述确定提取模块，还包括：

第二初始矩阵确定单元，用于对第二样本评论集合中每一条评论文本中每个评论词的初始词向量进行排序，得到所述每一条评论文本的初始矩阵，进而得到所述第二样本评论集合的初始矩阵，其中，所述第二样本评论集合包括评论文本a_i，所述评论文本a_i包括目标评论词b_j，其中，i为小于或等于所述第二样本评论集合对应的评论文本总数的正整数，j为小于或等于所述评论文本a_i对应的评论词总数的正整数；

计算单元，用于根据所述第二样本评论集合的初始矩阵、初始输入权重矩阵以及初始输出权重矩阵得到所述评论文本a_i中目标评论词b_j对应的输出向量，根据所述输出向量得到所述目标评论词b_j的预测词向量；

调整权重矩阵单元，用于根据所述目标评论词b_j的预测词向量和所述目标评论词b_j的初始词向量，对所述初始输入权重矩阵和所述输出权重矩阵进行调整；

输入权重矩阵确定单元，用于当调整后的所述目标评论词b_j的预测词向量和所述目标评论词b_j的初始词向量满足第一收敛条件时，则将调整后的初始输入权重矩阵确定为所述输入权重矩阵。

可选的，所述计算辱骂概率模块，包括：

计算第二文本特征单元，用于根据所述评论文本的语义特征矩阵和第二权重向量得到第二文本特征向量，其中，所述第二权重向量包括所述多个评论词中每个评论词的辱骂识别权重，并且，所述第二权重向量中辱骂评论词所占的权重高于非辱骂评论词所占的权重；

第二概率转化单元，用于将所述第二文本特征向量转化为概率序列，得到所述评论文本的辱骂概率。

可选的，所述装置，还包括：权重向量确定模块。

所述权重向量确定模块，包括：

提取语义特征单元，用于提取所述第三样本评论集合中每一条评论文本的语义特征矩阵，得到所述第三样本评论集合的语义特征矩阵；

文本特征计算单元，用于根据所述第三样本评论集合的语义特征矩阵和第一初始权重向量，得到所述第三样本评论集合的文本特征向量；

预测情感标签确定单元，用于将所述第三样本评论集合的文本特征向量转化为概率序列，得到所述第三样本评论集合中每一条评论文本的预测情感分类标签；

调整单元，用于根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感分类标签，对所述第一初始权重向量进行调整；

第一权重向量确定单元，用于当所述第三样本评论集合中评论文本的预测情感分类标签和情感分类标签满足第二收敛条件时，将所述调整后的第一初始权重向量确定为所述第一权重向量。

所述预测情感分类标签确定单元，包括：

概率值计算子单元，用于计算所述第m个元素X_m的概率值

其中，所述n为大于等于1，并且小于等于所述M的正整数；

概率序列确定子单元，用于根据所述概率值Sm得到所述第三样本评论集合的文本特征向量中每一个元素的概率值，根据所述每一个元素的概率值得到所述第三样本评论集合的文本特征向量对应的概率序列。

所述装置还包括：

生成发送模块，用于根据所述辱骂评论文本和所述用户账号生成上报消息，将所述上报消息发送至网络管理平台。

本申请实施例一方面提供了一种服务器，包括处理器、存储器和收发器，所述处理器、存储器和收发器相互连接，其中，所述存储器用于存储支持所述辱骂内容识别装置执行上述辱骂内容识别方法的计算机程序，所述计算机程序包括程序指令；所述处理器被配置用于调用所述程序指令，执行如上述本申请实施例一方面中所述的辱骂内容识别方法。

本申请实施例一方面提供了一种存储介质，上述存储介质存储有计算机程序，上述计算机程序包括程序指令；上述程序指令当被处理器执行时使上述处理器执行如本申请实施例一方面中上述的辱骂内容识别方法。

在本申请实施例中，辱骂内容识别平台判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字；若评论文本包含任一辱骂关键字，则提取评论文本的语义特征矩阵；根据评论文本的语义特征矩阵计算得到评论文本的辱骂概率；根据评论文本的语义特征矩阵和第一权重向量，得到评论文本的负面情感概率；根据辱骂概率以及负面情感概率，确定评论文本是否为辱骂评论文本。采用本申请，可以提高辱骂内容的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图；

图2是本申请实施例提供的一种辱骂内容识别方法的流程示意图；

图3是本申请实施例提供的一种基于word2vec+bi-lstm+attention算法的网络结构示意图；

图4是本申请实施例提供的一种辱骂内容识别方法的流程示意图；

图5是本申请实施例提供的一种辱骂内容识别装置的结构示意图；

图6是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，是本申请实施例提供的一种系统架构示意图。如图1所示，该系统构架示意图包括评论发表方及其终端、辱骂内容识别平台和网络管理平台，其中，评论发表方及其终端，如图1所示，具体可以包括评论发表方a及其所在终端、评论发表方b及其所在终端、…。

其中，辱骂内容识别平台、每个评论发表方所在终端和网络管理平台可以为计算机设备，包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID，mobile internet device)、POS(Point Of Sales，销售点) 机、可穿戴设备(例如智能手表、智能手环等)等。

进一步地，如图1所示，在具体实施辱骂内容识别方法的过程中，评论发表方a在其终端上发表评论文本，如图1中的人机交互界面100所示，辱骂内容识别平台获取该评论文本，判断该评论文本中多个评论词是否包含辱骂文本库中的任一辱骂关键词，若该评论文本中包含辱骂文本库中的任一辱骂关键词，则提取该评论文本的语义特征矩阵，根据该评论文本的语义特征矩阵计算得到目标评论文本的辱骂概率，若该辱骂概率大于第一预设阈值，则根据评论文本的语义特征矩阵和第一权重向量，得到评论文本的第一文本特征向量，将该第一文本特征向量转化为概率序列，得到评论文本的负面情感概率，若该负面情感概率大于第二预设阈值，则确定评论文本为辱骂评论文本，并根据辱骂评论文本以及辱骂评论文本携带的用户账号生成上报消息，将该上报消息发送至网络管理平台，网络管理平台对该用户账号进行相应的打击处理。

进一步地，请参见图2，是本申请实施例提供的一种辱骂内容识别方法的流程示意图。如图2所示，该方法实施例包括如下步骤：

S101，判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字。

其中，辱骂关键字为各种具有辱骂含义词语中相同的字。

具体的，辱骂内容识别平台将评论文本中的第k个字与辱骂文本库中的辱骂关键字进行对比，其中，k为小于或等于评论文本的总字数的正整数，若评论文本中的第k个字与辱骂文本库中的任一辱骂关键字一致，则确定评论文本中包含辱骂文本库中的辱骂关键字，之后执行步骤S102。

S102，若评论文本中包含任一辱骂关键字，则提取评论文本的语义特征矩阵。

可选的，所述提取评论文本的语义特征矩阵，包括：

根据所述评论文本的初始矩阵和输入权重矩阵，得到所述评论文本的文本矩阵，其中，所述输入权重矩阵包括预设值个预先训练的输入权重列向量；

具体的，辱骂内容识别平台在确定评论文本包含任一辱骂关键字后，将评论文本中的每个评论词通过One-Hot Encoder的方式将每个评论词转化为离散的符号，也就是说，评论文本中的每个评论词对应一个行向量，该行向量中只有一个值为1，其余值都为0，即每个评论词对应的行向量为该评论词的初始词向量，其中，初始词向量的维数由人为设定，这里不做限定。

之后，由于不同的评论文本中包含的评论词的个数不一样，为了使每个评论文本的初始矩阵的行列数一致，则将评论文本中的每个评论词的初始词向量，按照每个评论词在评论文本中的出现顺序进行排序，得到一个m行n列的矩阵，之后，将评论文本中包含的评论词的个数l与初始矩阵的预设行数L进行比较，若评论词的个数小于初始矩阵的预设行数，则在上述m行n列的矩阵中的第m+1 行依次向下添加(L-l)个n维零向量后，得到一个L行n列的矩阵，即评论文本的初始矩阵。示例性的，评论文本“我爱祖国妈妈”中评论词“我”、“爱”、 “祖国”和“妈妈”的初始词向量分别为x1、x2、x3和x4，则评论文本的初始矩阵为(x1,x2,x3,x4,x5,x6,…)^T，其中，向量“x5,x6,…”均为与初始词向量“x1、 x2、x3和x4”维数一致的零向量。

可以理解的，请参见图3，是本申请实施例提供的一种基于 word2vec+bi-lstm+attention算法的网络结构示意图。这里，评论文本的初始矩阵，即图3中输入层中的网络结构输入量(x₁,x₂,x₃,…,x_T)^T，其中，该网络结构输入量中的x₁,x₂,x₃,…,x_T包括评论文本中多个评论词的初始词向量，并且，该网络结构输入量的行数T为大于等于评论文本中包含的评论词总个数的整数。换句话说，该网络结构中的输入层用于将评论文本中的每个评论词转化为初始词向量。

进一步地，根据评论文本的初始矩阵和输入权重矩阵，得到评论文本的文本矩阵，由于输入权重矩阵是预先训练得到的，因此，在计算得到评论文本的文本矩阵之前，需要训练得到输入权重矩阵。

可选的，所述根据所述评论文本的初始矩阵和输入权重矩阵，得到所述文本的文本矩阵之前，包括：

其中，输入权重矩阵的行数为每个评论词的初始词向量的维度，列数为隐含层神经元个数，输入权重矩阵是用于将每个评论词的初始词向量的维度映射成固定维度的向量，从而避免每个评论词的初始词向量出现维度爆炸的情况。此外，初始输入权重矩阵与输入权重矩阵的行列数一致，初始输出权重矩阵的行数和列数分别与初始输入权重矩阵的列数和行数一致。

具体的，根据上述评论文本得到该评论文本的初始矩阵的方式得到第二样本评论集合中每一条评论文本a_i(不包含目标评论词b_j)的初始矩阵X_i，i为小于或等于第二样本评论集合中包含的评论文本总数I的正整数，j为小于或等于评论文本a_i中包含的评论词总数的正整数，从而得到第二评论样本集合的初始矩阵X＝(X₁,X₂,…,X_I)^T，将第二评论样本集合的初始矩阵X与初始输入权重矩阵 W₁相乘所得矩阵中的每一列元素值相加求平均，得到维数与初始输入权重矩阵的列数(隐含层神经元个数)一致的隐含层向量，将该隐含层向量与初始输出权重矩阵相乘，得到评论文本a_i中目标评论词b_j对应的输出向量，之后，通过激活函数softmax将目标评论词b_j对应的输出向量中的每个元素映射为0-1之间的实数，得到目标评论词b_j的预测词向量，根据评论文本a_i中目标评论词b_j的预测词向量和评论文本a_i中目标评论词b_j的初始词向量，对初始输入权重矩阵和初始输出权重矩阵进行调整，当调整后的评论文本a_i中目标评论词b_j的预测词向量和评论文本a_i中目标评论词b_j的初始词向量满足第一收敛条件，则将调整后的初始输入权重矩阵确定为输入权重矩阵。示例性的，第一收敛条件为调整后的评论文本a_i中目标评论词b_j的预测词向量中的每个元素值和评论文本a_i中目标评论词b_j的初始词向量中的每个元素值之间的误差绝对值均达到最小。

可以理解的，本申请实施例中根据第二评论样本集合以及第二样本评论集合每一条评论文本中每个评论词的初始词向量训练得到输入权重矩阵的过程，其实就是Word2vec模型中的连续词袋(Continuous bag of words，CBOW)模型，即隐含层数量为1的神经网络模型，通过每一条评论文本中除目标评论词外的其他评论词的初始词向量对目标评论词的词向量进行预测，得到目标评论词的预测词向量，通过调整CBOW模型中的初始输入权重矩阵和初始输出权重矩阵，不断减小目标评论词的预测词向量中的每个元素值与目标评论词的初始词向量中的每个元素值之间的误差，当每个元素之间的误差值均达到最小时，则将此时调整后的初始输入权重矩阵确定为输入权重矩阵。

之后，将评论文本的初始矩阵和包含预设值(隐含层神经元个数)个输入权重列向量的输入权重矩阵相乘，得到评论文本的文本矩阵。可以理解的，辱骂内容识别平台根据评论文本的初始矩阵和输入权重矩阵得到评论文本的文本矩阵的实现过程，可以通过图3所示网络结构中的嵌入层，即Embedding Layer 实现，用于将评论文本中每个评论词的初始词向量的维度映射成维度为预设值的向量。

之后，通过双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)模型对文本矩阵进行特征提取，得到第i个评论词的正向输出和反向输出分别为hi’和hi，将hi’和hi中的对应元素相加得到第i个评论词的语义特征向量，进而得到评论文本的语义特征矩阵。

可以理解的，辱骂内容识别平台根据评论文本的文本矩阵，提取得到评论文本的语义特征矩阵的实现过程，可以通过图3所示网络结构中的双向长短期记忆网络层，即Bi-lstm Layer实现，即通过Bi-LSTM模型提取每个评论词的上下文特征，根据每个评论词的上下文特征得到每个评论词的语义特征向量，从而得到评论文本的语义特征矩阵。

S103，根据评论文本的语义特征矩阵计算得到评论文本的辱骂概率。

具体的，将评论文本的语义特征矩阵输入辱骂倾向识别模型，得到目标评论文本的辱骂概率。

其中，所述辱骂倾向识别模型是基于第三样本评论集合以及所述第三样本评论集合中每一条评论文本对应的辱骂分类标签训练得到。

可选的，所述将所述评论文本的语义特征输入辱骂倾向识别模型，得到所述评论文本的辱骂概率，包括：

其中，第二权重向量为行数与步骤S102中评论文本的初始矩阵的行数一致的列向量，并且，第二权重向量为辱骂倾向识别模型的模型参数。

具体的，辱骂内容识别平台将第二权重向量的转置向量与评论文本的语义特征矩阵相乘，得到第二文本特征向量，并通过激活函数softmax将第二文本特征向量中的元素映射为0-1之间的实数，得到评论文本对应的辱骂概率。

可以理解的，这里的辱骂倾向识别模型，即图3所示网络结构中的注意力层，即Attention Layer，和输出层，其中，注意力层用于调整评论文本中每个评论词的辱骂识别权重，调整每个评论词的辱骂识别权重的实现方式可以为提高辱骂含义评论词的权重，降低无关词的权重，最终得到第二权重向量，这里，得到第二权重向量的实现过程可以参考步骤S104中得到第一权重向量的描述，此处不再赘述。之后，注意力层根据该第二权重向量对评论文本中的每个评论词的语义特征向量进行加权求和，得到评论文本的总体特征，即评论文本的第二文本特征向量。输出层用于将第二文本特征向量中的元素映射为0-1之间的实数，即评论文本对应的辱骂概率。

S104，根据评论文本的语义特征矩阵和第一权重向量，得到评论文本的负面情感概率。

具体的，辱骂内容识别平台根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的第一文本特征向量；将所述第一文本特征向量转化为概率序列，得到所述评论文本的负面情感概率。

辱骂内容识别平台根据评论文本的语义特征矩阵和第一权重向量，得到评论文本的第一文本特征向量。

其中，所述第一权重向量是基于第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感分类标签训练得到，所述第一权重向量包括所述多个评论词中每个评论词的情感分类权重。此外，每一条评论文本对应的情感分类标签为正面情感标签或负面情感标签。

在执行步骤S104之前，辱骂内容识别平台根据第二样本评论集合以及所述第二样本评论集合中每一条评论文本对应的情感分类标签训练得到第一权重向量。

具体的，根据步骤S102中提取评论文本的语义特征矩阵的方式，得到第三样本评论集合中每一条评论文本的语义特征矩阵，进而得到第三样本评论集合的语义特征矩阵，将第一初始权重向量和第三样本评论集合的语义特征矩阵相乘，得到第三样本评论集合的文本特征向量。

进一步地，辱骂内容识别平台将第三样本评论集合的文本特征向量转化为概率序列。

所述第m个元素X_m的概率值

其中，所述n为大于等于 1，并且小于等于所述M的正整数；

其中，第三样本评论集合的文本特征向量中包含的元素个数为第三样本评论集合中包含的评论文本总条数，并且，该文本特征向量中第m个元素X_m为第三样本评论集合中第m条评论文本对应的文本特征，此外，该文本特征向量中所有元素的概率值之间的和为1。

举例来说，第三样本评论集合的文本特征向量为(3,-1,2,5)，则该文本特征向量中的第1个元素3的概率值S₁＝e^3/(e^3+e^(-1)+e^2+e^5)，根据该方式可以计算该文本特征向量中第2、3和4个元素的概率值分别为S₂、S₃和S₄，则第三样本评论集合的文本特征向量对应的概率序列为S₁、S₂、S₃和S₄，即得到第三样本评论集合中每一条评论文本的负面情感概率。

示例性的，若第i评论文本的负面情感概率大于等于预设阈值，如0.6，则将第i条评论文本的预测情感分类标签确定为负面面情感标签，反之，则将第i 条评论文本的预测情感分类标签确定为正面情感标签。

之后，根据第三样本评论集合中每一条评论文本的预测情感分类标签和情感分类标签，对第一初始权重向量进行调整，当调整后的第一初始权重向量满足第二收敛条件时，将调整后的第一初始权重向量确定为所述第一权重向量，示例性的，第二收敛条件为第三样本评论集合中，满足预测情感分类标签与情感分类标签一致的评论文本条数，与第三样本评论集合中包含的评论文本的总条数之间的比例，大于等于预设比例。

进一步地，辱骂内容识别平台将第一权重向量的转置向量与评论文本的语义特征矩阵相乘，得到评论文本的第一文本特征向量。

可以理解的，根据评论文本的语义特征矩阵和第一权重向量得到评论文本的第一文本特征向量的实现过程，可以通过图3所示网络结构中的注意力层实现。

之后，辱骂内容识别平台将第一文本特征向量转化为概率序列，得到评论文本的负面情感概率。

具体的，通过激活函数softmax将第一文本特征向量中的元素映射为0-1之间的实数，得到评论文本的负面情感概率。

可以理解的，辱骂内容识别平台将第一文本特征向量转化为概率序列的实现过程，可以通过图3所示网络结构中的输出层实现。

S105，根据辱骂概率以及负面情感概率，确定评论文本是否为辱骂评论文本。

一种可能的实施方式中，若辱骂概率大于第一预设阈值，并且负面情感概率大于第二预设阈值，则确定评论文本为辱骂评论文本。

举例来说，评论文本的辱骂概率0.7和负面情感概率0.6分别大于第一预设阈值0.6和第二预设阈值0.5，则确定目标评论文本为辱骂评论文本。

另一种可能的实施方式中，按照辱骂概率和负面情感概率各自对应的预设权重系数，对辱骂概率和负面情感概率进行加权计算，得到第一概率，若第一概率大于预设阈值，则确定评论文本为辱骂评论文本。

举例来说，按照辱骂概率和负面情感概率各自对应的预设权重系数，即0.4 和0.6，对评论文本的辱骂概率0.7和负面情感概率0.6进行加权计算，得到第一概率为0.4*0.7+0.6*0.6＝0.64，大于预设阈值0.5，则确定评论文本为辱骂评论文本。

在本申请实施例中，由于辱骂内容识别平台在识别评论文本是否为辱骂评论文本时，除了根据评论文本的辱骂概率判断评论文本是否具有辱骂含义外，还计算得到评论文本的负面情感概率，并根据评论文本的负面情感概率判断评论文本是否具有负面情感，若该辱骂概率大于第一预设阈值，并且，该负面情感概率大于第二预设阈值，则确定评论文本为辱骂评论文本，因此，采用本申请可以有效避免对具有积极情感的文本内容的误判情况，提高辱骂内容的识别准确率。

请参见图4，是本申请实施例提供的一种辱骂内容识别方法的流程示意图。如图4所示，该方法实施例包括如下步骤：

S201，判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字。

具体的，辱骂内容识别平台将评论文本中的第k个字与辱骂文本库中的辱骂关键字进行对比，其中，k为小于或等于评论文本的总字数的正整数，若评论文本中的第k个字与辱骂文本库中的任一辱骂关键字一致，则确定评论文本中包含辱骂文本库中的辱骂关键字，则执行步骤S202。此外，若评论文本中的每一个字与辱骂文本库中的任一辱骂关键字均不一致，则确定评论文本中不包含辱骂文本库中的任一辱骂关键字，则执行步骤S210。

S202，提取评论文本的语义特征矩阵。

S203，根据评论文本的语义特征矩阵计算得到评论文本的辱骂概率。

这里，步骤S202-S203的具体实现方式可参考图2对应的实施例中步骤 S102-S103的描述，此处不再赘述。

S204，判断辱骂概率是否大于第一预设阈值。

具体的，若辱骂概率大于第一预设概率，则执行步骤S205，否则，执行步骤S210。

S205，根据评论文本的语义特征矩阵和第一权重向量，得到评论文本的负面情感概率。

这里，步骤S205的具体实现方式可参考图2对应的实施例中步骤S104的描述，此处不再赘述。

S206，判断负面情感概率是否大于第二预设阈值。

具体的，若负面情感概率大于第二预设阈值，则执行步骤S207，否则，执行步骤S209。

S207，确定评论文本为辱骂评论文本，辱骂评论文本携带辱骂评论文本对应的用户账号。

S208，根据辱骂评论文本和用户账号生成上报消息，将上报消息发送至网络管理平台。

具体的，辱骂内容识别平台根据辱骂评论文本和用户账号生成上报消息，将上报消息发送至网络管理平台，网络管理平台在接收到上报消息后，对该用户账号进行预设时长的禁言或者将该用户账号进行注销处理。

S209，发表评论文本。

在本申请实施例中，辱骂内容识别平台判断评论文本中是否包含任一辱骂关键字，若不包含任一辱骂关键字，则发表该评论文本；若包含任一辱骂关键字，则提取评论文本的语义特征矩阵，将该语义特征矩阵输入辱骂倾向识别模型，得到评论文本对应的辱骂概率，若该辱骂概率小于等于第一预设阈值，则发表评论文本；若该辱骂概率大于第一预设阈值，则根据评论文本的语义特征矩阵和第一权重向量，得到评论文本的第一文本特征向量，将第一文本特征向量转化为概率序列，得到评论文本对应的负面情感概率，若该负面情感概率小于等于第二预设阈值，则发表评论文本；若该负面情感概率大于第二预设阈值，则确定评论文本为辱骂评论文本。因此，采用本申请可以有效避免对具有积极情感的文本内容的误判情况，提高辱骂内容的识别准确率。

基于上述方法实施例的描述，本申请实施例还提供了一种辱骂内容识别装置，该辱骂内容识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该辱骂内容识别装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。请参见图5，是本申请实施例提供的一种辱骂内容识别装置的结构示意图。如图5所示，该辱骂内容识别装置5可以包括：判断模块51、确定提取模块52、辱骂概率计算模块53、负面情感概率计算模块54和确定模块55。

判断模块51，用于判断评论文本中的多个评论词是否包含辱骂文本库中的任一辱骂关键字；

确定提取模块52，用于若所述评论文本包含所述任一辱骂关键字，则提取所述评论文本的语义特征矩阵；

辱骂概率计算模块53，用于根据所述评论文本的语义特征矩阵得到所述评论文本的辱骂概率；

负面情感概率计算模块54，用于根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的负面情感概率，其中，所述第一权重向量是基于第一样本评论集合以及所述第一样本评论集合中每一条评论文本对应的情感分类标签训练得到，所述第一权重向量包括所述多个评论词中每个评论词的情感分类权重；

确定模块55，用于根据所述辱骂概率以及所述负面情感概率，确定所述评论文本是否为辱骂评论文本。

可选的，所述负面情感概率计算模块54，具体用于：

可选的，所述确定提取模块52，包括：

第一初始矩阵确定单元521，用于根据所述评论文本中每个评论词在所述评论文本中的出现顺序，对所述每个评论词的初始词向量进行排序，得到所述评论文本的初始矩阵；

文本矩阵计算单元522，用于根据所述评论文本的初始矩阵和输入权重矩阵，得到所述评论文本的文本矩阵，其中，所述输入权重矩阵包括预设长度个预先训练的输入权重列向量；

特征提取单元523，用于对所述文本矩阵进行特征提取，得到所述评论文本的语义特征矩阵。

可选的，所述确定提取模块52，还包括：

第二初始矩阵确定单元524，用于对第二样本评论集合中每一条评论文本中每个评论词的初始词向量进行排序，得到所述每一条评论文本的初始矩阵，进而得到所述第二样本评论集合的初始矩阵，其中，所述第二样本评论集合包括评论文本a_i，所述评论文本a_i包括目标评论词b_j，其中，i为小于或等于所述第二样本评论集合对应的评论文本总数的正整数，j为小于或等于所述评论文本a_i对应的评论词总数的正整数；

计算单元525，用于根据所述第二样本评论集合的初始矩阵、初始输入权重矩阵以及初始输出权重矩阵得到所述评论文本a_i中目标评论词b_j对应的输出向量，根据所述输出向量得到所述目标评论词b_j的预测词向量；

调整权重矩阵单元526，用于根据所述目标评论词b_j的预测词向量和所述目标评论词b_j的初始词向量，对所述初始输入权重矩阵和所述输出权重矩阵进行调整；

输入权重矩阵确定单元527，用于当调整后的所述目标评论词b_j的预测词向量和所述目标评论词b_j的初始词向量满足第一收敛条件时，则将调整后的初始输入权重矩阵确定为所述输入权重矩阵。

可选的，所述辱骂概率计算模块53，包括：

计算第二文本特征单元531，用于根据所述评论文本的语义特征矩阵和第二权重向量得到第二文本特征向量，其中，所述第二权重向量包括所述多个评论词中每个评论词的辱骂识别权重，并且，所述第二权重向量中辱骂评论词所占的权重高于非辱骂评论词所占的权重；

第二概率转化单元532，用于将所述第二文本特征向量转化为概率序列，得到所述评论文本的辱骂概率。

可选的，所述装置还包括：权重向量确定模块56。

所述权重向量确定模块56，包括：

提取语义特征单元561，用于提取第三样本评论集合中每一条评论文本的语义特征矩阵，得到所述第三样本评论集合的语义特征矩阵；

文本特征计算单元562，用于根据所述第三样本评论集合的语义特征矩阵和第一初始权重向量，得到所述第三样本评论集合的文本特征向量；

预测情感标签确定单元563，用于将所述第三样本评论集合的文本特征向量转化为概率序列，得到所述第三样本评论集合中每一条评论文本的预测情感分类标签；

调整单元564，用于根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感分类标签，对所述第一初始权重向量进行调整；

第一权重向量确定单元565，用于当所述第三样本评论集合中评论文本的预测情感分类标签和情感分类标签满足第二收敛条件时，将所述调整后的第一初始权重向量确定为所述第一权重向量。

所述预测情感标签确定单元563，包括：

概率值计算子单元5631，用于计算所述第m个元素X_m的概率值

其中，所述n为大于等于1，并且小于等于所述M的正整数；

概率序列确定子单元5632，用于根据所述概率值Sm得到所述第三样本评论集合的文本特征向量中每一个元素的概率值，根据所述每一个元素的概率值得到所述第三样本评论集合的文本特征向量对应的概率序列。

所述装置还包括：

生成发送模块57，用于根据所述辱骂评论文本和所述用户账号生成上报消息，将所述上报消息发送至网络管理平台。

可以理解的，该辱骂内容识别装置5用于实现图2和图4实施例中辱骂内容识别平台所执行的步骤。关于图5的辱骂内容识别装置5包括的功能块的具体实现方式及相应的有益效果，可参考前述图2和图4的实施例的具体介绍，这里不赘述。

上述图5所示实施例中的辱骂内容识别装置5可以以图6所示的服务器600 来实现，该辱骂内容识别装置可运行于服务器中。请参见图6，是本申请实施例提供的一种服务器的结构示意图。如图6所示，上述辱骂内容识别装置600可以包括：一个或多个处理器601、存储器602和收发器603。上述处理器601、存储器602和收发器603通过总线604连接。其中，上述收发器603用于接收或者发送数据，上述存储器602用于存储计算机程序，该计算机程序包括程序指令；处理器601用于执行存储器602存储的程序指令，执行如下操作：

根据所述评论文本的语义特征矩阵计算得到所述目标评论文本的辱骂概率；

根据所述评论文本的语义特征矩阵和第一权重向量，得到所述目标评论文本的负面情感概率，其中，所述第一权重向量是基于第二样本评论集合以及所述第二样本评论集合中每一条评论文本对应的情感分类标签训练得到，所述第一权重向量包括所述多个评论词中每个评论词的情感分类权重；

可选的，上述处理器601根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的负面情感概率，具体执行以下操作：

可选的，上述处理器601提取所述评论文本的语义特征，具体执行以下操作：

可选的，上述处理器601根据所述评论文本的初始矩阵和输入权重矩阵，得到所述评论文本的文本矩阵之前，具体执行以下操作：

可选的，上述处理器601根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率，具体执行以下操作：

可选的，上述处理器601还执行以下操作：

根据所述第三样本评论集合中每一条评论文本的预测情感分类标签和情感分类标签，对所述第一初始权重向量进行调整；其中，所述第三样本评论集合的文本特征向量包括第m个元素X_m，所述m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数；

可选的，上述处理器601将所述第三样本评论集合的文本特征向量转化为概率序列，具体执行以下操作：

计算所述第m个元素X_m的概率值

其中，所述n为大于等于1，并且小于等于所述M的正整数；

上述处理器601还执行以下操作：

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的辱骂内容识别装置5所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图2或图4对应实施例中对上述辱骂内容识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种辱骂内容识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的负面情感概率，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述评论文本的语义特征矩阵，包括：

4.根据权利要求3所述的方法，所述根据所述评论文本的初始矩阵和输入权重矩阵，得到所述文本的文本矩阵之前，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述评论文本的语义特征矩阵和第一权重向量，得到所述评论文本的第一文本特征向量之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述第三样本评论集合的文本特征向量包括第m个元素X_m，所述m为小于或等于所述第三样本评论集合对应的评论文本总数M的正整数；

计算所述第m个元素X_m的概率值

其中，所述n为大于等于1，并且小于等于所述M的整数；

8.根据权利要求1所述的方法，其特征在于，所述辱骂评论文本携带所述辱骂评论文本对应的用户账号；

所述确定所述评论文本为辱骂评论文本之后，还包括：

9.一种辱骂内容识别装置，其特征在于，包括：

辱骂概率计算模块，用于根据所述评论文本的语义特征矩阵计算得到所述评论文本的辱骂概率；

10.一种服务器，其特征在于，包括处理器、存储器和收发器，所述处理器、存储器和收发器相互连接，其中，所述收发器用于接收或发送数据，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，执行如权利要求1-8任一项所述的辱骂内容识别方法。