CN114780723B

CN114780723B - 基于向导网络文本分类的画像生成方法、系统和介质

Info

Publication number: CN114780723B
Application number: CN202210367239.7A
Authority: CN
Inventors: 黄昌勤; 汪卿; 朱佳; 舒洪吉
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-04-02
Anticipated expiration: 2042-04-08
Also published as: CN114780723A

Abstract

本发明公开了一种基于向导网络文本分类的画像生成方法、系统和介质，可广泛应用于计算机技术领域。本发明方法通过将特征提取器提取到的特征和文本标签一起输入到向导网络，以通过向导网络得到学生文本与文本标签的语义关联关系，从而可以根据该语义关联关系调节特征提取器的参数；接着在特征提取器的参数满足第一预设要求后，根据特征提取器的当前文本特征和文本标签调节排序分类器的参数；然后在排序分类器的参数满足第二预设要求后，通过满足第一预设要求的特征提取器和满足第二预设要求的排序分类器获取当前学生文本的目标标签，从而根据该目标标签即能得到更加精确的学生画像。

Description

基于向导网络文本分类的画像生成方法、系统和介质

技术领域

本发明涉及计算机技术领域，尤其是一种基于向导网络文本分类的画像生成方法、系统和介质。

背景技术

随着人工智能的崛起，分类技术被广泛应用于各种不同的下游应用之中，如广告推荐、用户画像或网络搜索。在日常教学教育之中，学生画像的精准构建是极为重要的，因为学生画像可以反映每一位学生各自的性格特点以及优缺点，以帮助老师了解学生进而针对性的为每一位学生制定更好的教育教学方法，达到因材施教的效果。然而，精准的构建学生画像要求精准且鲁棒的方法，目前现有的方法由于对问题考虑不够完善尚且不够精确和鲁棒，从而无法得到准确的学生画像。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于向导网络文本分类的画像生成方法、系统和介质，能够得到精确的学生画像。

一方面，本发明实施例提供了一种基于向导网络文本分类的画像生成方法，所述方法包括以下步骤：

获取若干个学生文本和若干个文本标签，所述学生文本包括学生的性格特征描述语句、学生评价语句和学生日常行为记录语句；

将所述学生文本输入到特征提取器，得到第一文本特征；以及将所述文本标签输入到所述特征提取器，得到标签特征；

将所述第一文本特征、所述标签特征和所述文本标签输入到向导网络，得到所述学生文本与所述文本标签的语义关联关系；

根据所述语义关联关系调节所述特征提取器的参数；

确定所述特征提取器的参数满足第一预设要求，将所述特征提取器生成的当前文本特征作为第二文本特征；

根据所述第二文本特征和所述文本标签调节排序分类器的参数；

确定所述排序分类器的参数满足第二预设要求，将当前学生文本输入到满足第一预设要求的特征提取器，得到第三文本特征；

将所述第三文本特征输入到满足第二预设要求的排序分类器，预测得到目标标签；

根据所述目标标签生成学生画像。

在一些实施例中，在所述向导网络对所述第一文本特征、所述标签特征和所述文本标签进行处理时，通过均方误差损失函数建立文本空间与标签空间的关节关系，通过二元交叉熵函数建立所述标签特征和所述文本标签的链接关系。

在一些实施例中，在所述排序分类器对所述文本标签进行分类时，根据分类损失函数计算分类损失。

在一些实施例中，所述方法还包括以下步骤：

根据所述均方误差损失函数的计算结果、所述二元交叉熵函数的计算结果和所述分类损失函数的计算结果调节所述特征提取器和所述排序分类器的参数。

在一些实施例中，所述将所述学生文本输入到特征提取器，包括：

将所述学生文本映射成数字序列；

将所述数字序列输入到所述特征提取器。

在一些实施例中，所述将所述文本标签输入到所述特征提取器，包括：

将所述文本标签转换为one-hot向量；

将所述one-hot向量输入到所述特征提取器。

在一些实施例中，所述特征提取器包括带有原始标签语义信息的特征提取器。

另一方面，本发明实施例提供了一种基于向导网络文本分类的画像生成系统，所述系统包括训练模块和应用模块；其中，

所述训练模块用于执行以下步骤：

根据所述语义关联关系调节所述特征提取器的参数；

所述应用模块用于执行以下步骤：

根据所述目标标签生成学生画像。

另一方面，本发明实施例提供了一种基于向导网络文本分类的画像生成系统，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行所述的基于向导网络文本分类的画像生成方法。

另一方面，本发明实施例提供了一种存储介质，其中存储有计算机可执行的程序，所述计算机可执行的程序被处理器执行时用于实现所述的基于向导网络文本分类的画像生成方法。

本发明实施例提供的一种基于向导网络文本分类的画像生成方法，具有如下有益效果：

本实施例通过将特征提取器提取到的特征和文本标签一起输入到向导网络，以通过向导网络得到学生文本与文本标签的语义关联关系，从而可以根据该语义关联关系调节特征提取器的参数；接着在特征提取器的参数满足第一预设要求后，根据特征提取器的当前文本特征和文本标签调节排序分类器的参数；然后在排序分类器的参数满足第二预设要求后，通过满足第一预设要求的特征提取器和满足第二预设要求的排序分类器获取当前学生文本的目标标签，从而根据该目标标签即能得到更加精确的学生画像。本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明实施例的一种基于向导网络文本分类的画像生成方法的流程图；

图2为本发明实施例的一种训练模型的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

参照图1，本发明实施例提供了一种基于向导网络文本分类的画像生成方法。本实施例的方法可在云端服务器或者平台对应的后台处理器执行。

在执行过程中，所述方法包括但不限于以下步骤：

步骤110、获取若干个学生文本和若干个文本标签，所述学生文本包括学生的性格特征描述语句、学生评价语句和学生日常行为记录语句；

步骤120、将所述学生文本输入到特征提取器，得到第一文本特征；以及将所述文本标签输入到所述特征提取器，得到标签特征；

步骤130、将所述第一文本特征、所述标签特征和所述文本标签输入到向导网络，得到所述学生文本与所述文本标签的语义关联关系；

步骤140、根据所述语义关联关系调节所述特征提取器的参数；

步骤150、确定所述特征提取器的参数满足第一预设要求，将所述特征提取器生成的当前文本特征作为第二文本特征；

步骤160、根据所述第二文本特征和所述文本标签调节排序分类器的参数；

步骤170、确定所述排序分类器的参数满足第二预设要求，将当前学生文本输入到满足第一预设要求的特征提取器，得到第三文本特征；

步骤180、将所述第三文本特征输入到满足第二预设要求的排序分类器，预测得到目标标签；

步骤190、根据所述目标标签生成学生画像。

在本申请实施例中，若干个学生文本和若干个文本标签可以看作是训练样本。该训练样本中的学生文本包括但不限于学生的性格特征描述语句、学生评价语句和学生日常行为记录语句。在训练过程中，可以通过图2所示的模型进行训练。具体地，先将训练样本输入到特征提取器中，特征提取器提取训练样本内的学生文本对应的文本特征作为第一文本特征，特征提取器提取训练样本内的文本标签对应的标签特征。接着将第一文本特征、标签特征和文本标签输入到向导网络中，以通过向导网络为学生文本和文本标签建立密切的语义关联关系，并将语义关联关系反馈给特征提取器进行参数持续优化，从而得到具有最优参数的特征提取器。在确定特征提取器的参数满足第一预设要求后，将具有最优参数的特征提取器提取到的文本特征作为第二文本特征，然后将第二文本特征和文本标签输入到排序分类器内，以通过第二文本特征和文本标签对排序分类器进行训练并优化器参数。当完成排序分类器的训练后，将具有最优参数的特征提取器和排序分类器应用于当前的画像生成系统。具体地，在应用到画像系统时，先获取当前需要生成画像的学生文本，将当前学生文本输入到具有最优参数的特征提取器内，提取得到当前学生文本对应的文本特征作为第三文本特征，将第三文本特征输入到具有最优参数的排序分类器内，得到当前学生文本对应的文本标签，从而使得画像生成系统根据该文本标签即能得到精确度较高的学生画像。

具体地，从自然语言的角度来看，文本语义和标签语义之间必然存在某种联系。然而，这些联系并没有被有效地利用。基于描述性标签语义未被充分利用来寻找潜在空间，并且传统的稀疏线性网络对于特征的提取并不鲁棒，本实施例使用深度预训练语言模型BERT从原始标签中提取特定的标签语义特征。BERT提取特征的能力已得到广泛认可，原始标签比标签one-hot向量或词袋特征Bag-Of-Words(BOW)更具语义性。因此，本实施例采用一个带有原始标签语义信息的特征提取器来进行特征提取。并且，本实施例在将学生文本输入到所述特征提取器之前，先将每个学生文本内的文字映射成数字即token，则每一句话会成一串数字序列，对于一位学生的评价及描述表示成一串数字序列。以及对于文本标签，本实施例先统计标签的数量为L，为每一个标签分配一个数字代号一个学生的标签实例则可以表示为L维的向量。具体地，存在真实标签的向量位标记为1，不存在真实标签的向量位标记为0，称该向量为one-hot向量。在本实施例中，在将所述文本标签输入到所述特征提取器之前，将文本标签转换为one-hot向量。本实施例可以通过一个函数来映射学生描述评价的数字序列与one-hot向量。其中，该函数的简单表达式为f(x_i,k)＝W_kB(x_i)，x_i表示第i个学生的描述评价，k表示第k个标签，B是特征提取器，W是分类器。

在本申请实施例中，对于图1方法所涉及到的特征提取器、向导网络和排序分类器，各个模块的执行过程如下：

对于特征提取器，本实施例通过使用BERT模型来获取特征。其中，BERT在自然语言处理任务中拥有强大的特征提取能力。同时，基于目前方法的缺陷，仅将缺少语义信息的标签单热向量作为稀疏线性网络的输入，不足以找到标签和文本之间的潜在空间。本实施例使用带有原始标签语义信息的特征提取器来帮助找到潜在空间。其中，单个BERT包括12层和768个隐藏维度，其用于提取文本特征。同时，标签与文本共享相同的BERT以获得标签特征。共享一个BERT可以显着降低模型大小和复杂度，从而加速收敛。在训练阶段异步提取文本特征和标签特征。标签描述通常比文本更短且语义信息更少，因此，本实施例将最后十层“[CLS]”标记的输出连接为标签的提取特征以丰富语义信息。特征提取器的输出是文本特征E_t和标签特征E_l。同时，本实施例使用高丢弃率(dropout)来避免过拟合。

对于向导网络，若直接依靠简单的分类网络将文本链接到标签，就像在没有向导时迷失在一个不稳定和不确定的大海中一样。因此，本实施例创建标签和文本的向导机制。也就是说，本实施例试图找到文本和标签之间的潜在空间，训练稀疏线性网络来指导分类。之前已有工作试图为文本和标签建立桥梁与向导，然而，这座桥不够坚固。该向导不够熟练，因为没有使用原始标签语义，仅简单的线性网络不足以获得良好的标签表示。因此，本实施例提出了向导网络来解决上述问题。向导网络的功能在于两个向导：第一个功能是向导网络指导BERT从文本特征中学习最具代表性的标签特征，从而可以有效地找到了文本和标签语义之间的潜在空间；第二个功能是可以直接建立标签特征和标签之间的映射关系，从而可以减轻排序分类器的压力。在本实施例中，特征损失函数L_feature和链接损失函数L_link将成为向导网络中的坚实桥梁。通过桥梁L_feature使得文本空间和标签空间可以融合，而标签和标签特征可以通过桥L_link连接起来。

其中，L_feature是均方误差损失(MSE)，由标签特征E_l和文本特征E_t计算得出，而L_link是二元交叉熵损失(BCE)，是根据真实标签y和预测标签计算得出。/>不是由文本特征产生的，而是由标签特征产生的。向导网络的总损失L_guide为L_feature与L_link之和。

在本实施例中，最小化L_guide可以使特征提取器和排序分类器最低程度的依赖向导网络。本实施例在应用阶段不再需要使用标签信息，因为在向导网络的向导下，特征提取器和排序分类器已经可以单独找到从文本到正确标签的方法。由此可知，本实施例通过设置向导网络来辅助特征提取器和排序分类的训练，以提高特征提取器和排序分类器的模型精度，使得特征提取器和排序分类器在应用过程中，可以快速且准确地确定当前学生文本对应的目标标签。

对于排序分类器，本实施例设置了一个全连接层来对分类网络进行排序并得到最终结果，从输出空间中选出召回概率最高的标签组成b个标签簇，然后从b个标签簇中选出候选标签。最终的候选集包含所有正样本和许多“硬负”样本。这种策略称为动态负采样，它不仅仅压缩了输出空间，还有效地提高了准确率。一般情况下，动态负采样之前需要进行标签聚类，本实施例采用BOW(Bag of words，一种词或字向量特征，通过统计手段计算得到)作为聚类依据，BOW可以快速有效地标注每个词的特征，进而得到每篇文本的总体特征，以此作为依据可以快速精准聚类。最终的分类损失函数L_class也是BCE损失。

在本实施例中，特征损失函数L_feature的计算公式如公式(1)所示；链接损失函数L_link的计算公式如公式(2)所示；向导网络的总损失L_guide的计算公式如公式(3)所示；分类损失函数L_class的计算公式如公式(4)所示；模型总损失L_overall的计算公式如公式(5)所示：

L_guide＝L_feature+L_link 公式(3)

L_overall＝L_guide+L_class 公式(5)

在上述公式中，L_feature表示特征损失函数，E_t表示所有文本特征的集合，E_l所有标签特征的集合，E_ti表示第i份样本的文本特征，E_li表示第i份样本的标签特征，L_link表示链接损失函数，y表示真实标签集合，表示预测标签集合，n表示总共的样本份数，L表示总共的标签个数，y_ij表示真实标签第i份样本的第j个标签，/>表示向导网络中预测标签第i份样本的第j个标签，L_guide表示向导网络的总损失函数，L_class表示分类器产生的分类损失，y_ij’表示排序分类器中预测标签第i份样本的第j个标签，L_overall表示整个模型的损失函数。

具体地，在利用特征提取器和排序分类器得到目标标签之前，对特征提取器和排序分类器进行训练。其中，训练过程包括以下步骤：

步骤一、随机预设所有网络节点参数。

步骤二、由特征提取器BERT分别获取文本特征E_t和标签特征E_l。

步骤三、由文本特征E_t和标签特征E_l计算特征损失L_feature，由标签特征E_l和标签one-hot向量计算连接损失L_link，由标签one-hot向量与预测标签向量计算分类损失L_class，将特征损失和连接损失以及分类损失三者相加计算总损失L_overall。

步骤四、更新特征提取器和排序分类器的参数。

步骤五、重复训练至少20轮或者总损失L_overall不再下降则停止训练保存模型。

本实施例在完成特征提取器和排序分类器的训练后，利用训练好的特征提取器提取当前学生文本的文本特征作为第三文本特征，然后利用训练好的排序分类器生成与第三文本特征对应的目标标签，从而可以根据目标标签生成更加精准的当前学生画像。

本发明实施例提供了一种基于向导网络文本分类的画像生成系统，所述系统包括训练模块和应用模块；其中，

所述训练模块用于执行以下步骤：

根据所述语义关联关系调节所述特征提取器的参数；

所述应用模块用于执行以下步骤：

根据所述目标标签生成学生画像。

本发明实施例提供了一种基于向导网络文本分类的画像生成系统，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行图1所示的基于向导网络文本分类的画像生成方法。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例提供了一种存储介质，其中存储有计算机可执行的程序，所述计算机可执行的程序被处理器执行时用于实现图1所示的基于向导网络文本分类的画像生成方法。

本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的基于向导网络文本分类的画像生成方法。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种基于向导网络文本分类的画像生成方法，其特征在于，所述方法包括以下步骤：

根据所述语义关联关系调节所述特征提取器的参数；

根据所述目标标签生成学生画像。

2.根据权利要求1所述的一种基于向导网络文本分类的画像生成方法，其特征在于，在所述向导网络对所述第一文本特征、所述标签特征和所述文本标签进行处理时，通过均方误差损失函数建立文本空间与标签空间的关节关系，通过二元交叉熵函数建立所述标签特征和所述文本标签的链接关系。

3.根据权利要求2所述的一种基于向导网络文本分类的画像生成方法，其特征在于，在所述排序分类器对所述文本标签进行分类时，根据分类损失函数计算分类损失。

4.根据权利要求3所述的一种基于向导网络文本分类的画像生成方法，其特征在于，所述方法还包括以下步骤：

5.根据权利要求1所述的一种基于向导网络文本分类的画像生成方法，其特征在于，所述将所述学生文本输入到特征提取器，包括：

将所述学生文本映射成数字序列；

将所述数字序列输入到所述特征提取器。

6.根据权利要求1所述的一种基于向导网络文本分类的画像生成方法，其特征在于，所述将所述文本标签输入到所述特征提取器，包括：

将所述文本标签转换为one-hot向量；

将所述one-hot向量输入到所述特征提取器。

7.根据权利要求1所述的一种基于向导网络文本分类的画像生成方法，其特征在于，所述特征提取器包括带有原始标签语义信息的特征提取器。

8.一种基于向导网络文本分类的画像生成系统，其特征在于，所述系统包括训练模块和应用模块；其中，

所述训练模块用于执行以下步骤：

根据所述语义关联关系调节所述特征提取器的参数；

所述应用模块用于执行以下步骤：

根据所述目标标签生成学生画像。

9.一种基于向导网络文本分类的画像生成系统，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1-7任一项所述的基于向导网络文本分类的画像生成方法。

10.一种存储介质，其特征在于，其中存储有计算机可执行的程序，所述计算机可执行的程序被处理器执行时用于实现如权利要求1-7任一项所述的基于向导网络文本分类的画像生成方法。