CN111563167B

CN111563167B - 文本分类系统及方法

Info

Publication number: CN111563167B
Application number: CN202010677644.XA
Authority: CN
Inventors: 刘兆来; 孙付伟; 周源
Original assignee: Zhizhe Sihai Beijing Technology Co Ltd
Current assignee: Zhizhe Sihai Beijing Technology Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-03
Anticipated expiration: 2040-07-15
Also published as: CN111563167A

Abstract

本公开涉及一种文本分类系统，属于自然语言处理技术领域，旨在提高文本中关于不友善内容识别的精细度、准确度和速度。该文本分类系统包括：特征提取层，用于根据接收的文本，提取其中的多个特征，分别编码生成对应的多个向量；特征拼接层，用于拼接所述多个向量生成文本特征向量；分类输出层，用于根据所述文本特征向量，产生关于不友善内容的分类结果。本公开还提供了一种用于训练该文本分类系统的训练方法。

Description

文本分类系统及方法

技术领域

本公开涉及自然语言处理技术领域，更具体地，涉及一种文本分类系统及方法。

背景技术

在互联网世界中，网友的言论通常比较自由，有些言论甚至涉及辱骂、侮辱、人身攻击，所以，如何识别这些不友善内容是互联网公司特别是问答社区产品形态的互联网公司面对的一个难题。现有技术中，常用的方法是关键词和文本分类算法相结合的策略。在自然语言处理领域，常用方案是在文本通用的预训练模型基础上，加入自己网站内数据做优化，训练不友善内容识别模型。

知乎作为问答社区，存在大量的用户交互行为，其中存在着大量的可能的不友善内容。这些可能的不友善内容有轻有重，比如有的是辱骂、有的是包含恶意的不友善、有的是较轻程度的不友好、有的则是正常内容。需要针对这些不友善内容的情节轻重程度，分别进行处理，例如删除、折叠等。因此，急需利用一种文本分类系统和方法，以提高识别不友善内容的分类精细度、准确度和速度。

发明内容

有鉴于此，本公开实施例的目的在于提供一种文本分类系统及方法，旨在提高文本中关于不友善内容识别的精细度、准确性和速度。

根据本公开的第一方面，提供了一种文本分类系统，用于识别文本中不友善的内容，包括：特征提取层，用于根据接收的文本，提取其中的多个特征，分别编码生成对应的多个向量；特征拼接层，用于拼接所述多个向量生成文本特征向量；以及分类输出层，用于根据所述文本特征向量，产生关于不友善内容的分类结果。

在一个可能的实施例中，所述特征提取层可以包括：语义特征提取层，用于提取所述文本的语义特征，生成至少一个第一向量；不友善特征提取层，用于根据所述文本中的不友善词语的统计特征和预先设定的多个规则，提取所述文本的不友善特征，生成至少一个第二向量。

在一个可能的实施例中，所述第二向量可以包括：所述文本中出现的不友善词语的权重；以及指示所述文本是否符合所述多个规则中的每个规则的表示。

在一个可能的实施例中，所述不友善词语来自于预先设置的不友善词典，所述不友善词典包括训练语料库中的分词词语、二元分词和三元分词，所述不友善词语的权重通过tf-idf方式计算。

在一个可能的实施例中，所述的文本分类系统，还可以包括预处理层，用于根据所述文本，将其中一部分词语或符号进行同义词替换，替换为标准化词语。

根据本公开的第二方面，提供用于训练所述的文本分类系统的训练方法，包括：基于以下损失函数调整所述文本分类系统的参数：

其中，

是表示样本t预测为正的概率，

是超参数。

根据本公开的第三方面，提供了一种文本分类方法，用于识别文本中不友善的内容，包括：根据接收的文本，提取其中的多个特征，分别编码生成对应的多个向量；拼接所述多个向量生成文本特征向量；以及根据所述文本特征向量，产生关于不友善内容的分类结果。

在一个可能的实施例中，所述提取其中的多个特征可以包括：提取所述文本的语义特征，生成至少一个第一向量；根据所述文本中的不友善词语的统计特征和预先设定的多个规则，提取所述文本的不友善特征，生成至少一个第二向量。

在一个可能的实施例中，所述不友善词语来自于预先设置的不友善词典，所述不友善词典包括训练预料库中的分词词语、二元分词和三元分词，所述不友善词语的权重通过tf-idf方式计算。

在一个可能的实施例中，所述的文本分类方法，还包括：

预处理所述文本，将其中一部分词语或符号进行同义词替换，替换为标准化词语。

根据本公开的第四方面，提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第三方面所述的方法。

根据本公开的第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，该指令被处理器执行时使处理器执行如第三方面所述的方法。

本公开实施例提供的文本分类系统及方法，将文本的语义特征和与文本中不友善内容相关的特征结合在一起作为文本特征向量，基于该文本特征向量对文本分类。进一步地，这些特征可以来自于预先设置的不友善词典、不友善词语的统计特征和预先设定的规则，并利用了特别优化的损失函数来训练分类模型。因此，本发明提供的文本分类系统和方法提高了关于不友善内容的分类结果的精细度、准确度和速度。

本公开的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了根据本公开实施例的典型的问答社区互动文本的示意图。

图2示出了根据本公开实施例的文本分类系统的示意图。

图3示出了根据本公开实施例的文本语义特征提取的示意图。

图4示出了根据本公开实施例的文本不友善特征索引的示意图。

图5示出了根据本公开实施例的文本不友善特征规则的示意图。

图6示出了根据本公开实施例的文本不友善特征编码的示意图。

图7示出了用于实现本公开实施例的电子设备的结构示意图。

图8示出了根据本公开实施例的典型的不友善文本的示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个（种）”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

如何识别不友善内容是互联网公司特别是问答社区产品形态的互联网公司面对的一个难题，目前业界常用的策略是关键词和文本分类算法相结合的策略。目前自然语言处理（NLP）领域公认的效果最好的文本分类模型有 BERT、ELECTRA等，因而常用方案是在BERT、ELECTRA等预训练模型基础上，直接加入自己的站内数据做微调（fine tune），训练不友善内容识别模型。

但是现有的深度学习算法主要学习到的还是词语分布的统计信息，并不能很好的理解文本语义信息，网络社区存在各种黑话和不带脏字的不友善内容，仅仅依靠深度学习算法并不能很好的解决不友善内容识别问题。比如以下几组内容：

第1组：涉及辱骂的文本，例如，包括各种辱骂词及其变型的评论。

第2组：涉及不友善的文本，例如，包含敌意，需要结合上下文理解的评论。

第3组：涉及不友好的文本，例如，包括将人称代词和动物名称放在一起的评论。

第4组：正常的文本，例如，包括客观描述的评论。

第一组评论带有明显的辱骂性质，大多数带有辱骂词，但是很多情况下用户为了逃避社区管理员的处罚，会将某些脏字用表情符、拼音或者拼音缩写、英文代替。

第二组、第三组评论，都没有明显的脏字，需要一定的语义理解能力才能理解其不友善含义。根据不友善恶劣程度，可以对这类内容做了细分，采取不同处理方式。

第四组评论，是正常评论，但从汉字统计特征看可能也有些含敏感词语，需要一定的语义理解能力才能理解其表达的意义。

知乎作为问答社区，存在大量的用户交互行为，每天产生几百万回答评论信息，粗略估计，其中约2-3万条评论是不友善评论。结合此场景，目前知乎对不友善内容处理方案是根据不友善程度采取删除、折叠方式，如下文参照图1和图8的描述。

图1和图8示出了根据本公开实施例的典型的问答社区互动文本及不友善文本的示意图。

参照图1，互动文本可以包括问题、问题的回答、以及评论区的评论内容。例如，当评论区文本中出现不友善程度较轻的内容时，例如涉及讽刺，评论会被折叠，折叠大体上是对违反内容规范的内容的一种处理方式，不同于删除，点击折叠处位置，会显示出被折叠的评论内容。如果当评论区文本的不友善的程度严重时，例如涉及脏话、侮辱、人身攻击等，评论会被删除。

如上所述，本发明可以基于问答社区中的海量数据，根据这些海量数据的特点，可以建立4层级的不友善文本分类，从程度轻到重分别是正常、不友好、不友善、辱骂。参照图8，如果评论分级是不友善，点击折叠位置，可以显示出该评论。如果分级是正常，则正常显示，用户无需任何操作，就可浏览该评论。如果分级是辱骂，则会删除该评论，用户无法浏览该评论。

有鉴于此，本发明提供了一种文本分类方法及系统，用于识别文本的不友善程度以便后续执行相应处理，例如删除辱骂类型的文本、折叠不友善、不友好的文本等等。

图2示出了根据本公开实施例的文本分类系统200的示意图。系统200的包括输入层201、预处理层202、语义特征提取层203、不友善特征提取层205、特征拼接层207、归一化层208、分类输出层209。本文中，语义特征提取层203和不友善特征提取层205有时也统称为特征提取层。

输入层201接收待分类的文本，可以来自于网站中用户的问题、回答、评论，也可以是任何其他方式获得的需要待分类的文本，也可以是对图片、视频进行识别后，提取出的文字。

在预处理层202，针对网络数据存在大量变体和汉字语义多样性问题，在预处理阶段处除了常规的去掉html，外文字母大小写转化等，还做了以下工作：

1）同义词替换，预先根据训练数据中的词语变体，建立了同义词词典，在预处理阶段，对于出现次数较少的词语变体，通过预先设定的规则和多模匹配算法替换成词典中的标准化词语；

2）数据增强,为了提高模型泛化能力，还做了数据增强，比如，有一条辱骂文本“EE（注：用英文和汉字组合的辱骂词）一个，鉴定完毕”。会根据词典，构造出以下多条相同类别标签的训练数据“YY（注：互联网上的同义词，全部是汉字表示）一个，鉴定完毕”，“ZZ（注，互联网上的同义词，全部是英文字母表示）一个，鉴定完毕”。

经过预处理后的文本将被分别输入到特征提取层中的语义特征提取层203和不友善特征提取层205。

为了更好的利用大量无标注网络文本信息，本公开使用预训练语言模型BERT模型（Bidirectional Encoder Representation from Transformers）或ELECTRA（EfficientlyLearning an Encoder that Classifies Token Replacements Accurately）模型来对文本信息进行语义特征提取处理。

图3示出了语义特征提取层的一个示例，利用了训练好的BERT模型，提取文本的语义特征。本领域技术人员应理解，可以使用任何其他的语义提取模型来提取文本的语义特征。

由于语言表达的丰富性，同一个词在不同上下文中的词性是不一样的，有的是中性词，有的则是贬义词，这也造成了问题、回答、评论必须整体对待，不能割裂。为了更充分的利用文本的信息，在本示例的BERT模型中，将评论拼接在回答之后来增强文本的上下文语义信息，各个句子通过分隔符SEP分割，最前面和最后增加两个标识符号，token表示的是文本中的字符，title token是问题，detail token是回答和评论。第一个单词是CLS，表示句子的开端，SEP是分隔符。segment_id用来区别不同的句子。模型学习不同 segment_id的整体语义表示的权重，从而有效的将各部分信息高效的聚合起来。

经过语义特征提取层203提取的文本的特征，会通过句子Embedding的方法，例如独热（onehot）编码或其他方法，映射成为文本语义向量204。

目前业界常用的汉语预训练模型是以字为单位训练的，然而汉语中，通常词（例如，可以由多个分词组成）才是表达完整意义的单位，一个字在不同语境下会有不同含义，比如“狗”，可以是骂人的，也可以是指动物，因此单独依赖现有的预训练模型并不能很好的解决这种问题。另外，互联网上广泛存在网络用语、表情符、拼音缩写等，对于这些词语预训练模型同样存在类似问题。

因此，本公开使用了不友善特征提取层205，强化文本特征提取。在不友善词典特征提取层205，首先，经过预处理层202的文本被提供到不友善特征提取层205，根据预先设置的不友善词典210，通过分词，将句子转化为词语的形式，去掉标点符号、助词、无意义词等。根据分词后的词语特征，将二元特征、三元特征抽取出来，依据词频-逆文本频数（tf-idf）的方法，得到词语的语义特征权重。将各个词语的权重按照降序排序后，选择排序靠前的多个词语，得到不友善词语特征。

其次，在得到不友善词语特征之后，在索引向量表中进行标注，在出现不友善词语特征的索引向量表的对应位置处标注为1，否则标注为0，得到不友善特征索引；

另外，根据所述预先设定的多个规则211，在规则向量表中进行标注，在符合规则的规则向量表的对应位置处标注为1，否则标注为0，得到规则向量；

最后，将所述不友善特征索引和规则向量拼接成为不友善特征向量206。

以下为示例性说明，假设不友善词典中共有10个词语，以英文字母A-J表示，通过计算得到的不友善词语特征的权重最高的分别为A、B、C、D、E，对这5个词语建立特征索引，如图4。

预先设置的规则例如有2条，分别为：

规则1：是否出现不友善词典中的词语。

规则2：是否出现人称代词，代词分别为我，你，楼主，他，人名，共5个代词。

依据如下规则进行编码，如图5：

对规则1进行编码：用10位的向量表示，如果文本中出现第 N 个词，向量的第N 位设置为1。没有出现的词，对应位置设置为0。

对规则2进行编码：用5位的向量表示，依次代表5个代词我，你，楼主，他，人名。如果句子中出现“我”，则第一位设置为1，如果出现“楼主”，则第3位设置为1。

对不友善词语特征和规则进行编码，得到特征编码，即为所述不友善特征向量，如图6所示，以“他对张三F”为例，F是不友善词语，其权重值为0.18，但不是权重最高的5个之一。索引号0-4表示5个权重最高的不友善词语特征，索引号5-14表示不友善词典中的全部词语，依据规则1编码，索引号15-19表示规则2。

需要说明的是，不友善特征提取层计算出的权重最高的多个不友善词语特征，不一定完全包含在不友善词语的词典中。

需要说明的是，建立不友善词典210的方法很多，其中一种方法可以是，训练语料数据有包含预先标注的正常、不友好、不友善、辱骂的各个类型的文本，以句子的形式输入训练系统，首先根据通用的语义词典，通过分词，将句子转化为词语的形式，去掉标点符号、助词、无意义词等。特别的，二元特征是连续的两个词，三元特征是连续的三个词。二元特征和三元特征可以更多的反应出整体语义的性质。这样，可以得到关于训练文本中不友善词语的权重，选择其中的多个权重最高的词语作为不友善词典中的词语。

建立不友善词典的方法，也可以通过词频统计等其他的方法进行，本公开不做限制。

可以理解，所述规则211，可以针对不同场景和语料的情况自行设定，例如是否包括人称代词。

接下来，在特征拼接层207，将由语义特征提取层203输出的文本语义向量204和不友善特征提取层205输出的不友善特征向量206拼接为文本特征向量。

在归一化层208，将所述文本特征向量归一化，可以采用softmax或其他方法，得到归一化向量。

在分类输出层209，根据所述归一化向量，输出分类结果。

由于语义特征提取和不友善特征提取可以是并行的处理过程，因此也进一步提高了文本分类的速度。

本公开也提供了用于训练所述的文本分类系统的训练方法，包括：基于以下损失函数调整所述文本分类系统的参数：

其中，

是表示样本t预测为正的概率，

是超参数。

在自然语言处理中，常用的损失函数是交叉熵损失categorical_crossentropy，但是在知乎问答社区中，正常内容和辱骂、不友善内容相对比较容易区分，但是不友善、不友好两个类型在词语分布上比较相似，模型更难学习到这两个类型的区别，区分难度较大。因此，本公开设计了一个损失函数，当把不友善内容被预测为不友好类型，或者不友好类型被预测为不友善内容时，加大对模型的惩罚。

模型的超参数

，需要根据模型效果选取恰当的值，

相当于惩罚项，用来控制难分样本的挖掘，当

取值增大时，易分样本的损失就会变小，难分样本的损失则相对来说较大，不友善、不友好相对更难区分，当出现这2个类型之间预测错误时，会加大损失。因此，这样训练出模型，可以更精细、准确和快速的分类出不友善、不友好的文本。

本公开还提供了一种文本分类方法。用于识别文本中不友善的内容，包括：根据接收的文本，提取其中的多个特征，分别编码生成对应的多个向量；拼接所述多个向量生成文本特征向量；以及根据所述文本特征向量，产生关于不友善内容的分类结果。所述提取其中的多个特征可以包括：提取所述文本的语义特征，生成至少一个第一向量；根据所述文本中的不友善词语的统计特征和预先设定的多个规则，提取所述文本的不友善特征，生成至少一个第二向量。所述第二向量可以包括：所述文本中出现的不友善词语的权重，以及指示所述文本是否符合所述多个规则中的每个规则的表示。所述不友善词语来自于预先设置的不友善词典，所述不友善词典包括训练预料库中的分词词语、二元分词和三元分词，所述不友善词语的权重通过tf-idf方式计算。所述的文本分类方法，还包括：预处理所述文本，将其中一部分词语或符号进行同义词替换，替换为标准化词语。

图7示出了用于实现本公开的实施例的电子设备的结构示意图。如图7所示，电子设备700包括中央处理单元（CPU）701，其可以根据存储在只读存储器（ROM）702中的程序或者从存储部分708加载到随机访问存储器（RAM）703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该指令被中央处理单元（CPU）701执行时，执行本公开中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本公开构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种文本分类系统，用于识别文本中的不友善内容，其特征在于，

包括：

特征提取层，用于根据接收的文本，提取其中的多个特征，分别编码生成对应的多个向量；

特征拼接层，用于拼接所述多个向量生成文本特征向量；以及

分类输出层，用于根据所述文本特征向量，产生关于不友善内容的分类结果;

所述特征提取层包括：

语义特征提取层，用于提取所述文本的语义特征，生成至少一个第一向量；

不友善特征提取层，用于根据所述文本中的不友善词语的统计特征和预先设定的多个规则，提取所述文本的不友善特征，生成至少一个第二向量;

所述第二向量包括：不友善特征索引和规则向量;

其中，生成不友善特征索引的方法包括：在出现不友善词语特征的索引向量表的对应位置处标注为1，否则标注为0；

生成规则向量的方法包括：用5位的向量表示，依次代表5个代词，在符合规则的地方标注为1，否则标注为0。

2.如权利要求1所述的文本分类系统，其中所述第二向量包括：

所述文本中出现的不友善词语的权重；以及

指示所述文本是否符合所述多个规则中的每个规则的表示。

3.如权利要求2所述的文本分类系统，其中，所述不友善词语来自于预先设置的不友善词典，所述不友善词典包括训练语料库中的分词词语、二元分词和三元分词，所述不友善词语的权重通过tf-idf方式计算。

4.如权利要求2所述的文本分类系统，还包括：

预处理层，用于根据所述文本，将其中一部分词语或符号进行同义词替换，替换为标准化词语。

5.一种用于训练如权利要求1所述的文本分类系统的训练方法，所述方法包括：基于以下损失函数调整所述文本分类系统的参数：

其中，

是表示样本t预测为正的概率，

是超参数。

6.一种文本分类方法，用于识别文本中的不友善内容，其特征在于，包括：

根据接收的文本，提取其中的多个特征，分别编码生成对应的多个向量；

拼接所述多个向量生成文本特征向量；以及

根据所述文本特征向量，产生关于不友善内容的分类结果;

所述提取其中的多个特征，包括：

提取所述文本的语义特征，生成至少一个第一向量；

根据所述文本中的不友善词语的统计特征和预先设定的多个规则，提取所述文本的不友善特征，生成至少一个第二向量;

所述第二向量包括：不友善特征索引和规则向量;

7.如权利要求6所述的文本分类方法，所述第二向量包括：

所述文本中出现的不友善词语的权重；以及

指示所述文本是否符合所述多个规则中的每个规则的表示。

8.如权利要求7所述的文本分类方法，其中，所述不友善词语来自于预先设置的不友善词典，所述不友善词典包括训练预料库中的分词词语、二元分词和三元分词，所述不友善词语的权重通过tf-idf方式计算。

9.如权利要求7所述的文本分类方法，还包括：

10.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求6至9中任一项所述的方法。

11.一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如权利要求6至9中任一项所述的方法。