CN116501867B

CN116501867B - 基于互信息的变体知识掌握度检测方法、系统和存储介质

Info

Publication number: CN116501867B
Application number: CN202310319844.1A
Authority: CN
Inventors: 刘苏楠
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-09-12
Anticipated expiration: 2043-03-29
Also published as: CN116501867A

Abstract

本发明公开了一种基于互信息的变体知识掌握度检测方法、系统和存储介质，包括：构建待检测文本分类模型每个中间层的初始互信息模型并进行训练，得到每个中间层的目标互信息模型；其中，目标互信息模型用于确定文本中任一有效字符在某个中间层的高维表征与任一有效字符在待检测文本分类模型中的词向量高维表征的互信息值；获取待检测变体知识的变体检测样本集，并基于待检测文本分类模型和所有目标互信息模型，得到并根据每个变体检测样本在每个中间层的互信息值，得到每个中间层对应的多个互信息平均值；基于所有互信息平均值，确定待检测文本分类模型对待检测变体知识的变体知识掌握度。本发明实现了对文本分类模型的变体知识掌握度的精准判断。

Description

基于互信息的变体知识掌握度检测方法、系统和存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于互信息的变体知识掌握度检测方法、系统和存储介质。

背景技术

互联网内容良莠不齐，为了躲避监管，不良文本常常伴随有音近、形近等多种变体。基于深度学习的文本分类模型被广泛应用于内容审核等系统，通常在训练集中加入带有变体的样本，能让模型具备变体拦截能力。

理想状态下，我们通常希望模型通过训练获得“变体知识”，即能在不同句子中区分变体的语义，判断当下变体在语义上是否代表本体。然而在具体实现中，深度学习模型很容易对变体过拟合，即不是去学习“变体知识”，而是简单地“记住变体”。此时模型虽然也能对包含变体的不良文本进行识别，但也会存在对变体严重的误杀。

因此，亟需提供一种技术方案精确判断深度学习模型对于“变体知识”的掌握程度，进而提高分类模型对于带变体的违禁内容的识别效果。

发明内容

为解决上述技术问题，本发明提供了一种基于互信息的变体知识掌握度检测方法、系统和存储介质。

本发明的基于互信息的变体知识掌握度检测方法的技术方案如下：

构建待检测文本分类模型的每个中间层分别对应的初始互信息模型并分别进行训练，得到每个中间层对应的目标互信息模型；其中，任一中间层对应的目标互信息模型用于确定输入文本中任一有效字符在该中间层的高维表征与任一有效字符在所述待检测文本分类模型中的词向量高维表征之间的互信息值；

获取待检测变体知识对应的变体检测样本集，并基于所述待检测文本分类模型和所有的目标互信息模型，得到并根据所述变体检测样本集的每个变体检测样本在每个中间层的互信息值，得到所述待检测变体知识在每个中间层对应的多个互信息平均值；

基于所有的互信息平均值，确定所述待检测文本分类模型针对所述待检测变体知识的变体知识掌握度。

本发明的基于互信息的变体知识掌握度检测方法的有益效果如下：

本发明的方法基于互信息模型衡量分类模型的中间层高维表征与模型词向量高维表征之间的非线性关联程度，并通过模型每一层的互信息值的变化判断模型的变体知识掌握度，实现了对文本分类模型的变体知识掌握度的精准判断。

在上述方案的基础上，本发明的基于互信息的变体知识掌握度检测系统还可以做如下改进。

进一步，还包括：

利用所述待检测文本分类模型，得到并根据分类任务训练集的每个分类任务训练样本对应的多个中间层高维表征和多个目标词向量高维表征，得到每个分类任务训练样本对应的多个正例训练样本；其中，任一分类任务训练样本的中间层高维表征和目标词向量高维表征的数量相同且一一对应，任一中间层高维表征与对应的目标词向量高维表征生成一个正例训练样本；

根据多个随机词向量高维表征和每个分类任务训练样本对应的多个中间层高维表征，得到每个分类任务训练样本对应的多个负例训练样本；其中，任一分类任务训练样本的中间层高维表征对应至少一个随机词向量高维表征，任一中间层高维表征与对应的每个随机词向量高维表征分别生成一个负例训练样本。

进一步，对任一中间层对应的初始互信息模型进行训练，得到该中间层对应的目标互信息模型的步骤，包括：

基于每个分类任务训练样本在所述任一中间层对应的所有正例训练样本和所有负例训练样本，对该中间层对应的初始互信息模型进行训练，得到该中间层对应的目标互信息模型。

进一步，在所述得到每个中间层对应的目标互信息模型的步骤之后，还包括：

利用所述待检测文本分类模型，获取分类任务测试集的每个分类任务测试样本分别在每个中间层对应的所有正例检测样本和所有负例检测样本；

将每个中间层对应的每个正例检测样本分别输入至对应中间层的目标互信息模型，得到每个中间层对应的多个第一检测互信息值，并将每个中间层对应的每个负例检测样本分别输入至对应中间层的目标互信息模型，得到并根据每个中间层对应的多个第二检测互信息值，得到每个中间层的第二检测互信息平均值；

判断任一中间层的每个第一检测互信息值是否均大于该中间层的第二检测互信息平均值，得到该中间层的检测判断结果，直至得到每个中间层的检测判断结果；

当所有的检测判断结果为是时，执行所述获取待检测变体知识对应的变体检测样本集的步骤。

进一步，所述变体检测样本集中包括：多个变体白样本和多个变体黑样本；基于所述待检测文本分类模型和所有的目标互信息模型，得到所述变体检测样本集的每个变体检测样本在每个中间层的互信息值的步骤，包括：

基于所述待检测文本分类模型，获取每个变体白样本对应的第一词向量高维表征、第二词向量高维表征和多个第一中间层高维表征；其中，第一词向量高维表征为：变体白样本中的变体字符在所述待检测文本分类模型中所对应的词向量高维表征；第二词向量高维表征为：变体白样本中的变体字符对应的本体字符在所述待检测文本分类模型中所对应的词向量高维表征；多个第一中间层高维表征包括：变体白样本中的变体字符在每个中间层的高维表征；

基于所述待检测文本分类模型，获取每个变体黑样本对应的第三词向量高维表征、第四词向量高维表征和多个第二中间层高维表征；其中，第三词向量高维表征为：变体黑样本中的变体字符在所述待检测文本分类模型中所对应的词向量高维表征；第四词向量高维表征为：变体黑样本中的变体字符对应的本体字符在所述待检测文本分类模型中所对应的词向量高维表征；多个第二中间层高维表征包括：变体黑样本中的变体字符在每个中间层的高维表征；

将每个变体白样本的第一词向量高维表征和多个第一中间层高维表征输入至相应的目标互信息模型，得到每个变体白样本在每个中间层的第一互信息值，并将每个变体白样本的第二词向量高维表征和多个第一中间层高维表征输入至相应的目标互信息模型，得到每个变体白样本在每个中间层的第二互信息值；

将每个变体黑样本的第三词向量高维表征和多个第二中间层高维表征输入至相应的目标互信息模型，得到每个变体黑样本在每个中间层的第三互信息值，并将每个变体黑样本的第四词向量高维表征和多个第二中间层高维表征输入至相应的目标互信息模型，得到每个变体黑样本在每个中间层的第四互信息值。

进一步，根据所述变体检测样本集的每个变体检测样本在每个中间层的互信息值，得到所述待检测变体知识在每个中间层对应的多个互信息平均值的步骤，包括：

根据每个变体白样本在任一中间层的第一互信息值，得到所述待检测变体知识在该中间层的第一互信息平均值，直至得到所述待检测变体知识在每个中间层的第一互信息平均值，并根据每个变体白样本在任一中间层的第二互信息值，得到所述待检测变体知识在该中间层的第二互信息平均值，直至得到所述待检测变体知识在每个中间层的第二互信息平均值；

根据每个变体黑样本在任一中间层的第三互信息值，得到所述待检测变体知识在该中间层的第三互信息平均值，直至得到所述待检测变体知识在每个中间层的第三互信息平均值，并根据每个变体黑样本在任一中间层的第四互信息值，得到所述待检测变体知识在该中间层的第四互信息平均值，直至得到所述待检测变体知识在每个中间层的第四互信息平均值。

进一步，所述基于所有的互信息平均值，确定所述待检测文本分类模型针对所述待检测变体知识的变体知识掌握度的步骤，包括：

判断所述待检测变体知识在任一中间层的第一互信息平均值是否大于所述待检测变体知识在该中间层的第二互信息平均值，得到所述待检测变体知识在该中间层的第一判断结果，直至得到所述待检测变体知识在每个中间层的第一判断结果；

基于预设遍历顺序，判断所述待检测变体知识对应的所有中间层中是否存在目标中间层，使该目标中间层之前的每一中间层的第四互信息平均值小于等于第三互信息平均值且该目标中间层及该目标中间层之后的每一中间层的第三互信息平均值小于第四互信息平均值，得到所述待检测变体知识的第二判断结果；

当所述待检测变体知识在每个中间层的第一判断结果均为是且所述待检测变体知识的第二判断结果为是时，确定所述待检测文本分类模型针对所述待检测变体知识的变体知识掌握度可靠。

进一步，还包括：

当所述待检测变体知识在任一中间层的第一判断结果为否时，在所述分类任务训练集中添加所述待检测变体知识对应的多个经过分类任务标注后的变体白样本，得到新的分类任务训练集，并基于所述新的分类任务训练集对所述待检测文本分类模型进行训练，得到并将重新训练的待检测文本分类模型作为所述待检测文本分类模型，并返回执行所述构建待检测文本分类模型的每个中间层分别对应的初始互信息模型并分别进行训练的步骤，直至所述重新训练的待检测文本分类模型对于所述待检测变体知识的变体知识掌握度可靠；

当所述待检测变体知识的第二判断结果为否时，在所述分类任务训练集中添加多个经过分类任务标注后的变体黑样本，得到新的分类任务训练集，并基于所述新的分类任务训练集对所述待检测文本分类模型进行训练，得到并将重新训练的待检测文本分类模型作为所述待检测文本分类模型，并返回执行所述构建待检测文本分类模型的每个中间层分别对应的初始互信息模型并分别进行训练的步骤，直至所述重新训练的待检测文本分类模型对于所述待检测变体知识的变体知识掌握度可靠。

采用上述进一步技术方案的有益效果是：当文本分类模型针对待检测变体知识的变体知识掌握度不可靠时，针对性地对数据集进行更新，以提升文本分类模型针对待检测变体知识的变体知识掌握度。

本发明的基于互信息的变体知识掌握度检测系统的技术方案如下：

包括：构建模块、处理模块和检测模块；

所述构建模块用于：构建待检测文本分类模型的每个中间层分别对应的初始互信息模型并分别进行训练，得到每个中间层对应的目标互信息模型；其中，任一中间层对应的目标互信息模型用于确定输入文本中任一有效字符在该中间层的高维表征与任一有效字符在所述待检测文本分类模型中的词向量高维表征之间的互信息值；

所述处理模块用于：获取待检测变体知识对应的变体检测样本集，并基于所述待检测文本分类模型和所有的目标互信息模型，得到并根据所述变体检测样本集的每个变体检测样本在每个中间层的互信息值，得到所述待检测变体知识在每个中间层对应的多个互信息平均值；

所述检测模块用于：基于所有的互信息平均值，确定所述待检测文本分类模型针对所述待检测变体知识的变体知识掌握度。

本发明的基于互信息的变体知识掌握度检测系统的有益效果如下：

本发明的系统基于互信息模型衡量分类模型的中间层高维表征与模型词向量高维表征之间的非线性关联程度，并通过模型每一层的互信息值的变化判断模型的变体知识掌握度，实现了对文本分类模型的变体知识掌握度的精准判断。

本发明的一种存储介质的技术方案如下：

存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的基于互信息的变体知识掌握度检测方法的步骤。

附图说明

图1示出了本发明提供的基于互信息的变体知识掌握度检测方法的实施例的流程示意图；

图2示出了本发明提供的基于互信息的变体知识掌握度检测系统的实施例的结构示意图。

具体实施方式

图1示出了本发明提供的基于互信息的变体知识掌握度检测方法的实施例的流程示意图。如图1所示，包括如下步骤：

步骤110：构建待检测文本分类模型的每个中间层分别对应的初始互信息模型并分别进行训练，得到每个中间层对应的目标互信息模型。

其中，①待检测文本分类模型为：本实施例中需要进行变体知识掌握度检测的文本分类模型，且该文本分类模型是预先训练好的文本分类模型，由多层多头自注意力模块组成(包含多个中间层)，待检测文本分类模型使用的训练数据为分类任务训练集。②初始互信息模型为：未经训练的互信息模型，互信息模型是用于估计两个随机变量之间的非线性关联程度的模型。在本实施例中，这两个随机变量为：1)中间层的高维表征；2)待检测文本分类模型中的词向量高维表征。③目标互信息模型为：经过训练的互信息模型，该互信息模型用于确定输入文本中任一有效字符在该中间层的高维表征与任一有效字符在所述待检测文本分类模型中的词向量高维表征之间的互信息值；有效字符为存在于待检测文本分类模型对应的词表中的字符。

需要说明的是，待检测文本分类模型的每个中间层均分别对应一个互信息模型。例如，当待检测文本分类模型的中间层的数量为12时，此时构建12个初始互信息模型，并分别进行训练，得到12个目标互信息模型。

步骤120：获取待检测变体知识对应的变体检测样本集，并基于所述待检测文本分类模型和所有的目标互信息模型，得到并根据所述变体检测样本集的每个变体检测样本在每个中间层的互信息值，得到所述待检测变体知识在每个中间层对应的多个互信息平均值。

其中，①待检测变体知识为：本实施例中需要进行检测的任一变体知识。②变体检测样本集为：针对待检测变体知识准备的样本集，包含多个变体白样本与多个变体黑样本。③变体白样本为：包含待检测变体知识中变体字符且变体字符为其“基本含义”的样本；变体黑样本为：包含待检测变体知识中变体字符且变体字符为其“变体含义”的样本。④互信息值为：将中间层高维表征和词向量高维表征代入目标互信息模型中进行计算所得到的值。⑤互信息平均值为：多个相关联的互信息值的平均值。

步骤130：基于所有的互信息平均值，确定所述待检测文本分类模型针对所述待检测变体知识的变体知识掌握度。

其中，变体知识掌握度为：待检测文本分类模型对于待检测变体知识的掌握程度。

较优地，还包括：

利用所述待检测文本分类模型，得到并根据分类任务训练集的每个分类任务训练样本对应的多个中间层高维表征和多个目标词向量高维表征，得到每个分类任务训练样本对应的多个正例训练样本。

其中，①分类任务训练集为：用于对文本分类模型与互信息模型训练的样本集。分类任务训练集中包括：多个分类任务训练样本。②中间层高维表征为：分类任务训练样本中每个有效字符在待检测文本分类模型的每个中间层的高维表征。③目标词向量高维表征为：分类任务训练样本中每个有效字符在待检测文本分类模型中的词向量高维表征。④任一分类任务训练样本的中间层高维表征和目标词向量高维表征的数量相同且一一对应，任一中间层高维表征与对应的目标词向量高维表征生成一个正例训练样本。

具体地，将分类任务训练集中的任一分类任务训练样本输入待检测文本分类模型，获取该分类任务训练样本中的每个有效字符分别在待检测文本分类模型的每一层中的高维表征作为中间层高维表征，直至得到每个分类任务训练样本对应的多个中间层高维表征；从待检测文本分类模型中，获取任一分类任务训练样本中的每个有效字符对应的词向量高维表征作为目标词向量高维表征，直至获取每个变体训练文本对应的多个目标词向量高维表征；将分类任务训练样本的每个有效字符对应的任一中间层的中间层高维表征与目标词向量高维表征构成一个正例样本，直至将分类任务训练集的每个有效字符在每个中间层的中间层高维表征分别与对应的目标词向量高维表征构成正例样本，得到所有的正例样本。

需要说明的是，以待检测文本分类模型的第12层中间层为例，将任意一个分类任务训练样本输入待检测文本分类模型，得到该分类任务训练样本在第12层每个有效字符的中间层高维表征x、该分类任务训练样本中的每个有效字符对应的目标词向量高维表征z，由此每个有效字符的(x，z)表征对构成一条由联合概率P(X，Z)中采样的正例样本。例如，分类任务训练样本为“你是沙子。”，以“沙”为例，第12层的中间层高维表征“x_沙”与“沙”的目标词向量高维表征“z_沙”构成一对正例样本。同理，“你是沙子。”中的每个有效字符都能构成一对正例，共5对正例(包含标点符号“。”)。

根据多个随机词向量高维表征和每个分类任务训练样本对应的多个中间层高维表征，得到每个分类任务训练样本对应的多个负例训练样本；其中，任一分类任务训练样本中任一有效字符的中间层高维表征对应至少一个随机词向量高维表征，任一中间层高维表征与对应的每个随机词向量高维表征分别生成一个负例训练样本。

其中，①随机词向量高维表征为：任一有效字符在待检测文本分类模型中的词向量高维表征。②任一分类任务训练样本的中间层高维表征对应至少一个随机词向量高维表征，任一中间层高维表征与对应的每个随机词向量高维表征分别生成一个负例样本。

具体地，将分类任务训练样本的每个有效字符对应的任一中间层的中间层高维表征与对应的每个随机词向量高维表征构成一个负例样本，直至将分类任务训练样本的每个有效字符在每个中间层的中间层高维表征分别与对应的每个随机词向量高维表征构成负例样本，得到所有的负例样本。

需要说明的是，以待检测文本分类模型的第12层中间层为例，将任意一个分类任务训练样本输入待检测文本分类模型，得到该分类任务训练样本在第12层的每个有效字符的中间层高维表征x，抽取任一有效字符在待检测文本分类模型中的词向量作为随机词向量高维表征z’，由此每个有效字符的(x，z’)表征对构成一条由两个边缘分布P(X)P(Z)中采样的负例样本。例如，分类任务训练样本为“你是沙子。”，以“沙”为例，第12层的中间层高维表征“x_沙”与任意一个不同于“沙”的有效字符(如：“砂”、“妈”、“天”等，这里以“砂”为例)在待检测文本分类模型中的词向量高维表征“z_砂”构成一对负例样本。同理，分类任务训练样本“你是沙子。”中的每个有效字符都能按照正负采样比例1：1的方式构成一对负例，共5对负例(包含标点符号“。”)。

较优地，对任一中间层对应的初始互信息模型进行训练，得到该中间层对应的目标互信息模型的步骤，包括：

具体地，通过MINE训练方式以及任一中间层对应的所有正例样本和所有负例样本，对该中间层对应的初始互信息模型进行训练，得到该中间层对应的目标互信息模型。

需要说明的是，①基于MINE训练互信息模型的过程为现有技术，在此不过多赘述。②每个中间层对应的互信息模型的训练过程相同。

较优地，在步骤110之后，还包括：

利用所述待检测文本分类模型，获取分类任务测试集的每个分类任务测试样本分别在每个中间层对应的所有正例检测样本和所有负例检测样本。

其中，①分类任务测试集用于检测互信息模型是否可靠；分类任务测试集中包含多个分类任务测试样本。②任一分类任务测试样本的中间层高维表征和目标词向量高维表征的数量相同且一一对应，任一中间层高维表征与对应的目标词向量高维表征生成一个正例检测样本。③任一分类任务测试样本的中间层高维表征对应至少一个随机词向量高维表征，任一中间层高维表征与对应的每个随机词向量高维表征分别生成一个负例检测样本。

具体地，利用待检测文本分类模型，得到并根据分类任务测试集的每个分类任务测试样本对应的多个中间层高维表征和多个目标词向量高维表征，得到每个分类任务测试样本对应的多个正例检测样本。根据多个随机词向量表征和分类任务测试集的每个分类任务测试样本对应的多个中间层高维表征，得到每个分类任务测试样本对应的多个负例检测样本。

将每个中间层对应的每个正例检测样本分别输入至对应中间层的目标互信息模型，得到每个中间层对应的多个第一检测互信息值，并将每个中间层对应的每个负例检测样本分别输入至对应中间层的目标互信息模型，得到并根据每个中间层对应的多个第二检测互信息值，得到每个中间层的第二检测互信息平均值。

具体地，将任一中间层对应的一个正例检测样本输入至该中间层的目标互信息模型中得到该中间层的一个第一检测互信息值，重复该过程，直至将每个中间层对应的每个正例检测样本分别输入至对应中间层的目标互信息模型，得到每个中间层对应的多个第一检测互信息值；将任一中间层对应的一个负例检测样本输入至该中间层的目标互信息模型中得到该中间层的一个第二检测互信息值，重复该过程，直至将每个中间层对应的每个负例检测样本分别输入至对应中间层的目标互信息模型，得到每个中间层对应的多个第二检测互信息值；根据每个中间层对应的所有的第二检测互信息值，分别得到每个中间层对应的第二检测互信息平均值。

判断任一中间层的每个第一检测互信息值是否均大于该中间层的第二检测互信息平均值，得到该中间层的检测判断结果，直至得到每个中间层的检测判断结果。

需要说明的是，当所有的检测判断结果为是时，确定每一中间层对应的目标互信息模型可靠，此时能够执行步骤120；当任一检测判断结果为否时，说明可能是目标互信息模型训练不充分，也可能是待检测文本分类模型有误。

当目标互信息模型训练不充分时，可以增加训练互信息模型时的负例样本数量；当待检测文本分类模型有误时，可以使用分类任务训练集重新训练待检测文本分类模型至收敛。

较优地，所述变体检测样本集中包括：多个变体白样本和多个变体黑样本。

基于所述待检测文本分类模型和所有的目标互信息模型，得到变体检测样本集的每个变体检测样本在每个中间层的互信息值的步骤，包括：

基于所述待检测文本分类模型，获取每个变体白样本对应的第一词向量高维表征、第二词向量高维表征和多个第一中间层高维表征。

其中，①第一词向量高维表征为：变体白样本中的变体字符在所述待检测文本分类模型中所对应的词向量高维表征。②第二词向量高维表征为：变体白样本中的变体字符对应的本体字符在所述待检测文本分类模型中所对应的词向量高维表征。③多个第一中间层高维表征包括：变体白样本中的变体字符在每个中间层的高维表征。

具体地，获取任一变体白样本中的变体字符所对应的词向量高维表征作为第一词向量高维表征，并获取任一变体白样本中的变体字符对应的本体字符所对应的词向量高维表征作为第二词向量高维表征，直至得到每个变体白样本对应的第一词向量高维表征和第二词向量高维表征。将每个变体白样本分别输入待检测文本分类模型，得到每个变体白样本中的变体字符在每个中间层的高维表征作为第一中间层高维表征。

基于所述待检测文本分类模型，获取每个变体黑样本对应的第三词向量高维表征、第四词向量高维表征和多个第二中间层高维表征。

其中，①第三词向量高维表征为：变体黑样本中的变体字符在所述待检测文本分类模型中所对应的词向量高维表征。②第四词向量高维表征为：变体黑样本中的变体字符对应的本体字符在所述待检测文本分类模型中所对应的词向量高维表征。③多个第二中间层高维表征包括：变体黑样本中的变体字符在每个中间层的高维表征。

具体地，获取任一变体黑样本中的变体字符所对应的词向量高维表征作为第三词向量高维表征，并获取任一变体黑样本中的变体字符对应的本体字符所对应的词向量高维表征作为第四词向量高维表征，直至得到每个变体黑样本对应的第三词向量高维表征和第四词向量高维表征。将每个变体黑样本分别输入待检测文本分类模型，得到每个变体黑样本中的变体字符在每个中间层的高维表征作为第二中间层高维表征。

将每个变体白样本的第一词向量高维表征和多个第一中间层高维表征输入至相应的目标互信息模型，得到每个变体白样本在每个中间层的第一互信息值，并将每个变体白样本的第二词向量高维表征和多个第一中间层高维表征输入至相应的目标互信息模型，得到每个变体白样本在每个中间层的第二互信息值。

具体地，将任一变体白样本的第一词向量高维表征和任一中间层对应的第一中间层高维表征输入至该中间层对应的目标互信息模型，得到该变体白样本在该中间层的第一互信息值，直至得到该变体白样本在每个中间层的第一互信息值；重复上述过程，得到每个变体白样本在每个中间层的第一互信息值。将任一变体白样本的第二词向量高维表征和任一中间层对应的第一中间层高维表征输入至该中间层对应的目标互信息模型，得到该变体白样本在该中间层的第二互信息值，直至得到该变体白样本在每个中间层的第二互信息值；重复上述过程，得到每个变体白样本在每个中间层的第二互信息值。

需要说明的是，以变体白样本为：“我想去海边玩沙子。”为例，将变体白样本输入待检测文本分类模型，取出“沙”对应的第12层的高维表征“x_沙”作为第一中间层高维表征，同时取出“沙”在待检测文本分类模型中的词向量高维表征“z_沙”作为第一词向量高维表征；将“x_沙”与“z_沙”输入至第12层对应的目标互信息模型，得到第12层的“x_沙”与“z_沙”之间的第一互信息值；重复上述过程计算每个变体白样本在每个中间层的第一互信息值。同理，取出“傻”在待检测文本分类模型中的词向量高维表征“z_傻”作为第二词向量高维表征；将“x_沙”与“z_傻”输入第12层对应的互信息模型，得到第12层的“x_沙”与“z_傻”之间的第二互信息值；重复上述过程计算每个变体白样本在每个中间层的第二互信息值。

具体地，将任一变体黑样本的第三词向量高维表征和任一中间层对应的第二中间层高维表征输入至该中间层对应的目标互信息模型，得到该变体黑样本在该中间层的第三互信息值，直至得到该变体黑样本在每个中间层的第三互信息值；重复上述过程，得到每个变体黑样本在每个中间层的第三互信息值。将任一变体黑样本的第四词向量高维表征和任一中间层对应的第二中间层高维表征输入至该中间层对应的目标互信息模型，得到该变体黑样本在该中间层的第四互信息值，直至得到该变体黑样本在每个中间层的第四互信息值；重复上述过程，得到每个变体黑样本在每个中间层的第四互信息值。

需要说明的是，以变体黑样本为：“你是沙子。”为例，将该变体黑样本输入待检测文本分类模型，取出“沙”对应的第12层的高维表征“x_沙”作为第二中间层高维表征，同时取出“沙”在待检测文本分类模型中的词向量高维表征“z_沙”作为第三词向量高维表征；将“x_沙”与“z_沙”输入第12层对应的互信息模型，得到第12层的“x_沙”与“z_沙”之间的第三互信息值；重复上述过程计算每个变体黑样本在每个中间层的第三互信息值。同理，取出“傻”在待检测文本分类模型中的词向量高维表征“z_傻”作为第四词向量高维表征；将“x_沙”与“z_傻”输入第12层对应的互信息模型，得到第12层的“x_沙”与“z_傻”之间的第四互信息值；重复上述过程计算每个变体黑样本在每个中间层的第四互信息值。

较优地，根据所述变体检测样本集的每个变体检测样本在每个中间层的互信息值，得到所述待检测变体知识在每个中间层对应的多个互信息平均值的步骤，包括：

根据每个变体白样本在任一中间层的第一互信息值，得到所述待检测变体知识在该中间层的第一互信息平均值，直至得到所述待检测变体知识在每个中间层的第一互信息平均值，并根据每个变体白样本在任一中间层的第二互信息值，得到所述待检测变体知识在该中间层的第二互信息平均值，直至得到所述待检测变体知识在每个中间层的第二互信息平均值。

具体地，将每个变体白样本在任一中间层的第一互信息值之间的平均值，确定为待检测变体知识在该中间层的第一互信息平均值，重复上述过程，直至得到待检测变体知识在每个中间层的第一互信息平均值。将每个变体白样本在任一中间层的第二互信息值之间的平均值，确定为待检测变体知识在该中间层的第二互信息平均值，重复上述过程，直至得到待检测变体知识在每个中间层的第二互信息平均值。

具体地，将每个变体黑样本在任一中间层的第三互信息值之间的平均值，确定为待检测变体知识在该中间层的第三互信息平均值，重复上述过程，直至得到待检测变体知识在每个中间层的第三互信息平均值。将每个变体黑样本在任一中间层的第四互信息值之间的平均值，确定为待检测变体知识在该中间层的第四互信息平均值，重复上述过程，直至得到待检测变体知识在每个中间层的第四互信息平均值。

较优地，步骤130包括：

步骤131：判断所述待检测变体知识在任一中间层的第一互信息平均值是否大于所述待检测变体知识在该中间层的第二互信息平均值，得到所述待检测变体知识在该中间层的第一判断结果，直至得到所述待检测变体知识在每个中间层的第一判断结果。

需要说明的是，当每个中间层的第一互信息平均值一直高于该中间层的第二互信息平均值时，表明待检测文本分类模型对于待检测变体知识(即“本体-变体”对，如：“傻-沙”)中变体字符(如：“沙”)的“基本含义”理解能力较好，反之则较差。

步骤132：基于预设遍历顺序，判断所述待检测变体知识对应的所有中间层中是否存在目标中间层，使该目标中间层之前的每一中间层的第四互信息平均值小于等于第三互信息平均值且该目标中间层及该目标中间层之后的每一中间层的第三互信息平均值小于第四互信息平均值，得到所述待检测变体知识的第二判断结果。

其中，预设遍历顺序是按照中间层的序号从小到大进行遍历。

具体地，假设待检测文本分类模型共有L层，存在任一中间层N(N为正整数，且N∈[1,L])，满足对于任一中间层m∈[1，N)，该中间层m的第四互信息平均值<＝第三互信息平均值，且满足对于任一中间层n∈[N，L]，该中间层n的第三互信息平均值<第四互信息平均值。如果存在这样的中间层N(定义为目标中间层)，即第二判断结果为是，否则，第二判断为否。

步骤133A：当所述待检测变体知识在每个中间层的第一判断结果均为是且所述待检测变体知识的第二判断结果为是时，确定所述待检测文本分类模型对于待检测变体知识的变体知识掌握度可靠。

需要说明的是，当待检测变体知识的第二判断结果为是时，表明待检测文本分类模型对于待检测变体知识(即“本体-变体”对，如：“傻-沙”)中变体字符(如：“沙”)的“变体含义”理解能力较好，反之则较差。如果待检测文本分类模型对于待检测变体知识的变体字符的“基本含义”与“变体含义”的理解能力均较强，则代表待检测文本分类模型对于待检测变体知识掌握程度较好，反之则较差。

较优地，还包括：

步骤133B：当所述待检测变体知识在任一中间层的第一判断结果为否时，在所述分类任务训练集中添加所述待检测变体知识对应的多个经过分类任务标注后的变体白样本，得到新的分类任务训练集，并基于所述新的分类任务训练集对所述待检测文本分类模型进行训练，得到并将重新训练的待检测文本分类模型作为所述待检测文本分类模型，并返回执行步骤110，直至所述重新训练的待检测文本分类模型对于所述待检测变体知识的变体知识掌握度可靠。

步骤133C：当所述待检测变体知识的第二判断结果为否时，在所述分类任务训练集中添加多个经过分类任务标注后的变体黑样本，得到新的分类任务训练集，并基于所述新的分类任务训练集对所述待检测文本分类模型进行训练，得到并将重新训练的待检测文本分类模型作为所述待检测文本分类模型，并返回执行步骤110，直至所述重新训练的待检测文本分类模型对于所述待检测变体知识的变体知识掌握度可靠。

需要说明的是，如果对于待检测变体知识而言，待检测文本分类模型已经具备了待检测变体知识(对应步骤133A)，则此时不需要对待检测文本分类模型做任何改进。如果待检测文本分类模型不具备待检测分类知识，则需要根据不同的情况做不同的处理：如果待检测文本分类模型对于变体字符的“基本含义”理解较差(对应步骤133B)，表明此时待检测文本分类模型倾向于将变体字符理解成其对应的“变体含义”，进而容易造成分类任务白样本的误杀；可在分类任务训练集中添加经过分类任务标注后的变体白样本；如果待检测文本分类模型对于变体字符的“变体含义”理解较差(对应步骤133C)，表明此时待检测文本分类模型欠缺将变体字符理解成其对应的“变体含义”的能力，进而容易造成分类任务黑样本的漏杀；可在分类任务训练集中添加经过分类任务标注后的变体黑样本。使用更新后的变体训练样本集，训练待检测文本分类模型，得到新的待检测文本分类模型，直到待检测文本分类模型对待检测变体知识具备较好的变体知识掌握度。

本实施例的技术方案基于互信息模型衡量分类模型的中间层高维表征与模型词向量高维表征之间的非线性关联程度，并通过模型每一层的互信息值的变化判断模型的变体知识掌握度，实现了对文本分类模型的变体知识掌握度的精准判断。

图2示出了本发明提供的基于互信息的变体知识掌握度检测系统的实施例的结构示意图。如图2所示，该系统200包括：构建模块210、处理模块220和检测模块230。

所述构建模块210用于：构建待检测文本分类模型的每个中间层分别对应的初始互信息模型并分别进行训练，得到每个中间层对应的目标互信息模型；其中，任一中间层对应的目标互信息模型用于确定输入文本中任一有效字符在该中间层的高维表征与任一有效字符在所述待检测文本分类模型中的词向量高维表征之间的互信息值；

所述处理模块220用于：获取待检测变体知识对应的变体检测样本集，并基于所述待检测文本分类模型和所有的目标互信息模型，得到并根据所述变体检测样本集的每个变体检测样本在每个中间层的互信息值，得到所述待检测变体知识在每个中间层对应的多个互信息平均值；

所述检测模块230用于：基于所有的互信息平均值，确定所述待检测文本分类模型针对所述待检测变体知识的变体知识掌握度。

上述关于本发明提供的基于互信息的变体知识掌握度检测系统200的实施例中的各参数和各个模块实现相应功能的步骤，可参考上文中提供的基于互信息的变体知识掌握度检测方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例提供的一种存储介质，包括：存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如基于互信息的变体知识掌握度检测方法的步骤，具体可参考上文中提供的基于互信息的变体知识掌握度检测方法的实施例中的各参数和步骤，在此不做赘述。

计算机存储介质例如：优盘、移动硬盘等。

所属技术领域的技术人员知道，本发明可以实现为方法、系统和存储介质。

因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于互信息的变体知识掌握度检测方法，其特征在于，包括：

2.根据权利要求1所述的基于互信息的变体知识掌握度检测方法，其特征在于，还包括：

3.根据权利要求2所述的基于互信息的变体知识掌握度检测方法，其特征在于，对任一中间层对应的初始互信息模型进行训练，得到该中间层对应的目标互信息模型的步骤，包括：

4.根据权利要求2或3所述的基于互信息的变体知识掌握度检测方法，其特征在于，在所述得到每个中间层对应的目标互信息模型的步骤之后，还包括：

5.根据权利要求4所述的基于互信息的变体知识掌握度检测方法，其特征在于，所述变体检测样本集中包括：多个变体白样本和多个变体黑样本；基于所述待检测文本分类模型和所有的目标互信息模型，得到所述变体检测样本集的每个变体检测样本在每个中间层的互信息值的步骤，包括：

6.根据权利要求5所述的基于互信息的变体知识掌握度检测方法，其特征在于，根据所述变体检测样本集的每个变体检测样本在每个中间层的互信息值，得到所述待检测变体知识在每个中间层对应的多个互信息平均值的步骤，包括：

7.根据权利要求6所述的基于互信息的变体知识掌握度检测方法，其特征在于，所述基于所有的互信息平均值，确定所述待检测文本分类模型针对所述待检测变体知识的变体知识掌握度的步骤，包括：

8.根据权利要求7所述的基于互信息的变体知识掌握度检测方法，其特征在于，还包括：

9.一种基于互信息的变体知识掌握度检测系统，其特征在于，包括：构建模块、处理模块和检测模块；

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至8中任一项所述的基于互信息的变体知识掌握度检测方法。