CN111177385B - 一种多层次分类模型训练方法、多层次分类方法和装置 - Google Patents

一种多层次分类模型训练方法、多层次分类方法和装置 Download PDF

Info

Publication number
CN111177385B
CN111177385B CN201911366785.3A CN201911366785A CN111177385B CN 111177385 B CN111177385 B CN 111177385B CN 201911366785 A CN201911366785 A CN 201911366785A CN 111177385 B CN111177385 B CN 111177385B
Authority
CN
China
Prior art keywords
text
layer
feature
neural network
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911366785.3A
Other languages
English (en)
Other versions
CN111177385A (zh
Inventor
孙靖文
王道广
伯仲璞
于政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911366785.3A priority Critical patent/CN111177385B/zh
Publication of CN111177385A publication Critical patent/CN111177385A/zh
Application granted granted Critical
Publication of CN111177385B publication Critical patent/CN111177385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

本发明实施例公开了一种多层次分类模型训练方法、多层次分类方法和装置,将一级标签和二级标签转换成特征向量,利用了标签的语义性,从而提高了模型训练和分类的准确性。

Description

一种多层次分类模型训练方法、多层次分类方法和装置
技术领域
本发明实施例涉及但不限于数据处理技术,尤指一种多层次分类模型训练方法、多层次分类方法和装置。
背景技术
文本的类别划分存在这种情况,将文本划分为若干个小类,某些小类可以合并成一个大类,此时,存在一个大类别和一个小类别这两个级别的标签,也就是对文本的多层次的分类。标签级别的层次能够形成树形的结构,基本多任务分类能够按照树形的层次依次得到每个层次的分类标签,而多任务学习的文本分类方法能够一次性得到这两个级别的分类标签,是基本多任务分类的改进。
目前的多层次分类模型训练方法大致包括:将文本中的句子进行分词得到词语,分别将每一个词语通过Word2Vector转换成对应的特征向量,将所有词语对应的特征向量拼接成特征矩阵;将文本对应的特征矩阵输入到神经网络模型中,得到文本的第X层特征编码,X为神经网络模型的层数,分别将两个级别的分类标签转换成对应的独热编码;根据文本的第X层特征编码和两级标签对应的独热编码计算损失函数值,根据损失函数值更新神经网络模型中的参数值,当神经网络模型中的参数值的变化值大于或等于预设阈值时,继续执行将文本对应的特征矩阵输入到更新参数值后的神经网络模型中的步骤;当神经网络模型中的参数值的变化值小于预设阈值时,确定神经网络模型中的更新后的参数值为最佳参数值。
目前的多层次分类模型训练方法中,由于分类标签采用的是独热编码来表示,独热编码只是一个标记,无法表示分类标签的具体含义,从而导致训练效果不佳。
发明内容
本发明实施例提供了一种多层次分类模型训练方法、多层次分类方法和装置,能够提高模型训练的准确性。
本发明实施例提供了一种多层次分类模型训练方法,包括:
分别将每一个第一文本转换成对应的特征矩阵,分别将每一个第一文本对应的一级标签和第二标签转换成对应的特征向量;
分别将每一个第一文本对应的特征矩阵输入到神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码;其中,X为神经网络模型的层数;
根据所有第一文本对应的第X层特征编码、第一文本对应的一级标签对应的第X层特征编码、第一文本对应的二级标签对应的第X层特征编码计算损失函数值;
根据损失函数值更新神经网络模型中的参数值,当神经网络模型中的参数值的变化量大于或等于预设阈值时,继续执行分别将每一个第一文本对应的特征矩阵输入到更新参数值后的神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码的步骤。
在本发明实施例中,当所述神经网络模型中的参数值的变化量小于预设阈值时,该方法还包括:
将所述神经网络模型中更新后的参数值作为所述神经网络模型中的最佳参数值。
在本发明实施例中,所述神经网络模型中按照公式ai=Wi×ai-1+bi计算所述第一文本对应的第i层特征编码,或所述第一文本对应的一级标签对应的第i层特征编码,或所述第一文本对应的二级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为所述第一文本对应的第i层特征编码,或所述第一文本对应的一级标签对应的第i层特征编码,或所述第一文本对应的二级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为所述第一文本对应的第(i-1)层特征编码,或所述第一文本对应的一级标签对应的第(i-1)层特征编码,或所述第一文本对应的二级标签对应的第(i-1)层特征编码;当i=1时,ai-1为所述第一文本对应的特征矩阵,或所述第一文本对应的一级标签对应的特征向量,或所述第一文本对应的二级标签对应的特征向量;
bi为第i层的偏;
更新的神经网络模型中的参数包括上述Wi和bi
在本发明实施例中,按照公式
Figure BDA0002338632960000031
更新神经网络模型中的Wi,按照公式
Figure BDA0002338632960000032
更新神经网络模型中的bi
其中,W'i为更新后的第i层的权重,Wi为更新前的第i层的权重,α为梯度下降中的学习速率,L'为损失函数值,b'i为更新后的第i层的偏,bi为第i层的偏。
在本发明实施例中,其中,按照公式
Figure BDA0002338632960000033
计算损失函数值;
其中,L'为所述损失函数值,L1j为第j个第一文本对应的第X层特征编码和第j个第一文本对应的一级标签对应的第X层特征编码之间的相似度,L2j为第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L3j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L4j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度。
本发明实施例提出了一种多层次分类模型训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种多层次分类模型训练方法。
本发明实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种多层次分类模型训练方法的步骤。
本发明实施例提出了一种多层次分类方法,包括:
将第二文本转换成对应的特征矩阵,分别将每一个一级标签转换成对应的特征向量;将第二文本对应的特征矩阵输入到训练好的神经网络模型中得到每一个第二文本对应的第X层特征编码,分别将每一个一级标签对应的特征向量输入到神经网络模型中得到每一个一级标签对应的第X层特征编码;其中,X为神经网络模型的层数;
分别计算第二文本对应的第X层特征编码和每一个一级标签对应的第X层特征编码之间的第一相似度,将第一相似度最大对应的一级标签作为第二文本的一级标签;
分别将第二文本的一级标签下的每一个二级标签转换成对应的特征向量,分别将每一个二级标签对应的特征向量输入到训练好的神经网络模型中得到每一个二级标签对应的第X层特征编码;
分别计算第二文本对应的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度,将第二相似度对应的二级标签作为第二文本的二级标签。
在本发明实施例中,该方法还包括:
对所述神经网络模型进行训练。
在本发明实施例中,在所述分别计算第二文本对应的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度之前,该方法还包括:
将所述第二文本对应的第X层特征编码经过Dropout和Dense网络层;
所述分别计算第二文本对应的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度包括:
分别计算第二文本对应的经过Dropout和Dense网络层后的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度。
本发明实施例提出了一种多层次分类装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种多层次分类方法。
本发明实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种多层次分类方法的步骤。
本发明一个实施例包括:分别将每一个第一文本转换成对应的特征矩阵,分别将每一个第一文本对应的一级标签和第二标签转换成对应的特征向量;分别将每一个第一文本对应的特征矩阵输入到神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码;其中,X为神经网络模型的层数;根据所有第一文本对应的第X层特征编码、第一文本对应的一级标签对应的第X层特征编码、第一文本对应的二级标签对应的第X层特征编码计算损失函数值;根据损失函数值更新神经网络模型中的参数值,当神经网络模型中的参数值的变化量大于或等于预设阈值时,继续执行分别将每一个第一文本对应的特征矩阵输入到更新参数值后的神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码的步骤。本发明实施例将一级标签和二级标签转换成特征向量,利用了标签的语义性,从而提高了模型训练的准确性。
本发明另一个实施例包括:将第二文本转换成对应的特征矩阵,分别将每一个一级标签转换成对应的特征向量;将第二文本对应的特征矩阵输入到训练好的神经网络模型中得到每一个第二文本对应的第X层特征编码,分别将每一个一级标签对应的特征向量输入到神经网络模型中得到每一个一级标签对应的第X层特征编码;其中,X为神经网络模型的层数;分别计算第二文本对应的第X层特征编码和每一个一级标签对应的第X层特征编码之间的第一相似度,将第一相似度最大对应的一级标签作为第二文本的一级标签;分别将第二文本的一级标签下的每一个二级标签转换成对应的特征向量,分别将每一个二级标签对应的特征向量输入到训练好的神经网络模型中得到每一个二级标签对应的第X层特征编码;分别计算第二文本对应的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度,将第二相似度对应的二级标签作为第二文本的二级标签。本发明实施例在进行分类时,将一级标签和二级标签转换成特征向量,利用了标签的语义性,从而提高了分类的准确性。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本发明实施例的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为本发明一个实施例提出的多层次分类模型训练方法的流程图;
图2为本发明另一个实施例提出的多层次分类模型训练装置的结构组成示意图;
图3为本发明另一个实施例提出的多层次分类方法的流程图;
图4为本发明另一个实施例提出的多层次分类装置的结构组成示意图。
具体实施方式
下文中将结合附图对本发明实施例进行详细说明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参见图1,本发明一个实施例提出了一种多层次分类模型训练方法,包括:
步骤100、分别将每一个第一文本转换成对应的特征矩阵,分别将每一个第一文本对应的一级标签和第二标签转换成对应的特征向量。
在一个示例性实例中,分别将每一个第一文本转换成对应的特征矩阵包括:
对于每一个第一文本,将第二文本中的每一个句子划分成词语,分别将每一个词语转换成对应的特征向量,将所有词语对应的特征向量拼接成特征矩阵。
在一个示例性实例中,可以采用Word2Vector将词语转换成对应的特征向量。由于一级标签和二级标签本身已经是词语级别的,因此可以直接转换成特征向量。
在一个示例性实例中,一级标签标示划分较广的大类,二级标签表示划分较细的小类,大类中包含了小类。例如,如表1所示,财经新闻和科技资讯是一级标签,表示的是大类;股票基金报道、财务政策报道等、电子产品发布、医学技术突破等是二级标签,表示的是小类;同时,财经新闻包括股票基金报道、财务政策报道等,科技资讯包括电子产品发布、医学技术突破等。
Figure BDA0002338632960000081
表1
步骤101、分别将每一个第一文本对应的特征矩阵输入到神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码;其中,X为神经网络模型的层数。
在一个示例性实例中,神经网络模型中按照公式ai=Wi×ai-1+bi计算第一文本对应的第i层特征编码,或第一文本对应的一级标签对应的第i层特征编码,或第一文本对应的二级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为第一文本对应的第i层特征编码,或第一文本对应的一级标签对应的第i层特征编码,或第一文本对应的二级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为第一文本对应的第(i-1)层特征编码,或第一文本对应的一级标签对应的第(i-1)层特征编码,或第一文本对应的二级标签对应的第(i-1)层特征编码;当i=1时,ai-1为第一文本对应的特征矩阵,或第一文本对应的一级标签对应的特征向量,或第一文本对应的二级标签对应的特征向量;
bi为第i层的偏。
步骤102、根据所有第一文本对应的第X层特征编码、第一文本对应的一级标签对应的第X层特征编码、第一文本对应的二级标签对应的第X层特征编码计算损失函数值。
在一个示例性实例中,按照公式
Figure BDA0002338632960000091
计算损失函数值;
其中,L'为损失函数值,L1j为第j个第一文本对应的第X层特征编码和第j个第一文本对应的一级标签对应的第X层特征编码之间的相似度,L2j为第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L3j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L4j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度。
在一个示例性实例中,按照公式
Figure BDA0002338632960000092
计算两个特征编码之间的相似度;
其中,L为两个特征编码之间的相似度,y为其中一个特征编码,
Figure BDA0002338632960000093
为另一个特征编码。
在一个示例性实例中,Dropout网络层是随机丢弃一些网络中的信息,阻止了多层次分类模型通过共同作用提高多层次分类模型的性能,当样本量不充足时,模型可能记住了所有已出现的样本,而对未出现的样本缺乏认知,Dropout网络层随机丢弃了已出现的样本的某些特征,留给未出现的样本一定的特征选择空间。
在一个示例性实例中,Dense网络层将已出现的样本的特征编码做非线性变换,增加与下一级标签的拟合能力,变换成下一级标签所需的特征编码的表达方式。
在本发明实施例中,在计算损失函数值时,考虑了二级标签对应的第X层特征编码和一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,建立了不同级别的标签的关联度;并且,考虑了一级标签对应的经过Dropout和Dense网络层后的第X层特征编码和第一文本对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,强调了对一级标签的重视,即可以将一级标签看成主分类,将二级标签看成辅助分类;并且,将第一文本或一级标签对应的第X层特征编码经过Dropout和Dense网络层后,再计算与二级标签对应的第X层特征编码之间的相似度,使得第一文本或一级标签对应的第X层特征编码与二级标签对应的第X层特征编码之间的拟合度更高,更有利于后续的分类准确度。
步骤103、根据损失函数值更新神经网络模型中的参数值,当神经网络模型中的参数值的变化量大于或等于预设阈值时,继续执行分别将每一个第一文本对应的特征矩阵输入到更新参数值后的神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码的步骤。
在本发明另一个实施例中,当神经网络模型中的参数值的变化量小于预设阈值时,将神经网络模型中更新后的参数值作为神经网络模型中的最佳参数值。
在一个示例性实例中,更新的神经网络模型中的参数包括上述Wi和bi,即神经网络模型中的每一层的权重和偏。
在一个示例性实例中,按照公式
Figure BDA0002338632960000101
更新神经网络模型中的Wi,按照公式
Figure BDA0002338632960000102
更新神经网络模型中的bi
其中,W'i为更新后的第i层的权重,Wi为更新前的第i层的权重,α为梯度下降中的学习速率,L'为损失函数值,b'i为更新后的第i层的偏,bi为第i层的偏。
本发明另一个实施例提出了一种多层次分类模型训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种多层次分类模型训练方法。
本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种多层次分类模型训练方法的步骤。
参见图2,本发明另一个实施例提出了一种多层次分类模型训练装置,包括:
第一转换模块201,用于分别将每一个第一文本转换成对应的特征矩阵,分别将每一个第一文本对应的一级标签和第二标签转换成对应的特征向量;
第一编码模块202,用于分别将每一个第一文本对应的特征矩阵输入到神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码;其中,X为神经网络模型的层数;
损失函数值计算模块203,用于根据所有第一文本对应的第X层特征编码、第一文本对应的一级标签对应的第X层特征编码、第一文本对应的二级标签对应的第X层特征编码计算损失函数值;
循环迭代模块204,用于根据损失函数值更新神经网络模型中的参数值,当神经网络模型中的参数值的变化量大于或等于预设阈值时,通知第一编码模块202继续执行分别将每一个第一文本对应的特征矩阵输入到更新参数值后的神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码的步骤。
在一个示例性实例中,第一转换模块201具体用于采用以下方式实现分别将每一个第一文本转换成对应的特征矩阵:
对于每一个第一文本,将第一文本中的每一个句子划分成词语,分别将每一个词语转换成对应的特征向量,将所有词语对应的特征向量拼接成特征矩阵。
在一个示例性实例中,第一转换模块201可以采用Word2Vector将词语转换成对应的特征向量。由于一级标签和二级标签本身已经是词语级别的,因此可以直接转换成特征向量。
在一个示例性实例中,一级标签标示划分较广的大类,二级标签表示划分较细的小类,大类中包含了小类。例如,如表1所示,财经新闻和科技资讯是一级标签,表示的是大类;股票基金报道、财务政策报道等、电子产品发布、医学技术突破等是二级标签,表示的是小类;同时,财经新闻包括股票基金报道、财务政策报道等,科技资讯包括电子产品发布、医学技术突破等。
在一个示例性实例中,第一编码模块202按照公式ai=Wi×ai-1+bi计算第一文本对应的第i层特征编码,或第一文本对应的一级标签对应的第i层特征编码,或第一文本对应的二级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为第一文本对应的第i层特征编码,或第一文本对应的一级标签对应的第i层特征编码,或第一文本对应的二级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为第一文本对应的第(i-1)层特征编码,或第一文本对应的一级标签对应的第(i-1)层特征编码,或第一文本对应的二级标签对应的第(i-1)层特征编码;当i=1时,ai-1为第一文本对应的特征矩阵,或第一文本对应的一级标签对应的特征向量,或第一文本对应的二级标签对应的特征向量;
bi为第i层的偏。
在一个示例性实例中,损失函数值计算模块203按照公式
Figure BDA0002338632960000121
计算损失函数值;
其中,L'为损失函数值,L1j为第j个第一文本对应的第X层特征编码和第j个第一文本对应的一级标签对应的第X层特征编码之间的相似度,L2j为第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L3j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L4j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度。
在一个示例性实例中,按照公式
Figure BDA0002338632960000131
Figure BDA0002338632960000132
计算两个特征编码之间的相似度;
其中,L为两个特征编码之间的相似度,y为其中一个特征编码,
Figure BDA0002338632960000133
为另一个特征编码。
在一个示例性实例中,Dropout网络层是随机丢弃一些网络中的信息,阻止了多层次分类模型通过共同作用提高多层次分类模型的性能,当样本量不充足时,模型可能记住了所有已出现的样本,而对未出现的样本缺乏认知,Dropout网络层随机丢弃了已出现的样本的某些特征,留给未出现的样本一定的特征选择空间。
在一个示例性实例中,Dense网络层将已出现的样本的特征编码做非线性变换,增加与下一级标签的拟合能力,变换成下一级标签所需的特征编码的表达方式。
在本发明另一个实施例中,循环迭代模块204还用于:当神经网络模型中的参数值的变化量小于预设阈值时,将神经网络模型中更新后的参数值作为神经网络模型中的最佳参数值。
在一个示例性实例中,更新的神经网络模型中的参数包括上述Wi和bi,即神经网络模型中的每一层的权重和偏。
在一个示例性实例中,第一循环迭代模块204按照公式
Figure BDA0002338632960000134
更新神经网络模型中的Wi,按照公式
Figure BDA0002338632960000141
更新神经网络模型中的bi
其中,W'i为更新后的第i层的权重,Wi为更新前的第i层的权重,α为梯度下降中的学习速率,L'为损失函数值,b'i为更新后的第i层的偏,bi为第i层的偏。
参见图3,本发明另一个实施例提出了一种多层次分类方法,包括:
步骤300、将第二文本转换成对应的特征矩阵,分别将每一个一级标签转换成对应的特征向量。
在一个示例性实例中,将第二文本转换成对应的特征矩阵包括:
将第二文本中的每一个句子划分成词语,分别将每一个词语转换成对应的特征向量,将所有词语对应的特征向量拼接成特征矩阵。
在一个示例性实例中,可以采用Word2Vector将词语转换成对应的特征向量。由于一级标签本身已经是词语级别的,因此可以直接转换成特征向量。
例如,将表1中的一级标签“财经新闻”“科技资讯”转换成对应的特征向量。
步骤301、将第二文本对应的特征矩阵输入到训练好的神经网络模型中得到每一个第二文本对应的第X层特征编码,分别将每一个一级标签对应的特征向量输入到神经网络模型中得到每一个一级标签对应的第X层特征编码;其中,X为神经网络模型的层数。
在一个示例性实例中,神经网络模型中按照公式ai=Wi×ai-1+bi计算第二文本对应的第i层特征编码,或一级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为第二文本对应的第i层特征编码,或一级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为第二文本对应的第(i-1)层特征编码,或一级标签对应的第(i-1)层特征编码;当i=1时,ai-1为第二文本对应的特征矩阵,或一级标签对应的特征向量;
bi为第i层的偏。
步骤302、分别计算第二文本对应的第X层特征编码和每一个一级标签对应的第X层特征编码之间的第一相似度,将第一相似度最大对应的一级标签作为第二文本的一级标签。
在一个示例性实例中,按照公式
Figure BDA0002338632960000151
Figure BDA0002338632960000152
计算两个特征编码之间的相似度;
其中,L为两个特征编码之间的相似度,y为其中一个特征编码,
Figure BDA0002338632960000153
为另一个特征编码。
步骤303、分别将第二文本的一级标签下的每一个二级标签转换成对应的特征向量,分别将每一个二级标签对应的特征向量输入到训练好的神经网络模型中得到每一个二级标签对应的第X层特征编码。
在一个示例性实例中,神经网络模型中按照公式ai=Wi×ai-1+bi计算二级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为二级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为二级标签对应的第(i-1)层特征编码;当i=1时,ai-1为二级标签对应的特征向量;
bi为第i层的偏。
例如,当第二文本的一级标签为“科技资讯”时,分别将二级标签“电子产品发布”“医学技术突破”转换成对应的特征向量。
步骤304、分别计算第二文本对应的经过Dropout和Dense网络层后的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度,将第二相似度对应的二级标签作为第二文本的二级标签。
在一个示例性实例中,Dropout网络层是随机丢弃一些网络中的信息,阻止了多层次分类模型通过共同作用提高多层次分类模型的性能,当样本量不充足时,模型可能记住了所有已出现的样本,而对未出现的样本缺乏认知,Dropout网络层随机丢弃了已出现的样本的某些特征,留给未出现的样本一定的特征选择空间。
在一个示例性实例中,Dense网络层将已出现的样本的特征编码做非线性变换,增加与下一级标签的拟合能力,变换成下一级标签所需的特征编码的表达方式。
在本发明另一个实施例中,该方法还包括:对神经网络模型进行训练。
其中,对神经网络模型的训练过程与上述多层次分类模型训练方法的具体过程相同,这里不再赘述。
本发明另一个实施例提出了一种多层次分类装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种多层次分类方法。
本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种多层次分类方法的步骤。
参见图4,本发明另一个实施例提出了一种多层次分类装置,包括:
第二转换模块401,用于将第二文本转换成对应的特征矩阵,分别将每一个一级标签转换成对应的特征向量;分别将第二文本的一级标签下的每一个二级标签转换成对应的特征向量;
第二编码模块402,用于将第二文本对应的特征矩阵输入到训练好的神经网络模型中得到每一个第二文本对应的第X层特征编码,分别将每一个一级标签对应的特征向量输入到神经网络模型中得到每一个一级标签对应的第X层特征编码;其中,X为神经网络模型的层数;分别将每一个二级标签对应的特征向量输入到训练好的神经网络模型中得到每一个二级标签对应的第X层特征编码;
分类模块403,用于分别计算第二文本对应的第X层特征编码和每一个一级标签对应的第X层特征编码之间的第一相似度,将第一相似度最大对应的一级标签作为第二文本的一级标签;分别计算第二文本对应的经过Dropout和Dense网络层后的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度,将第二相似度对应的二级标签作为第二文本的二级标签。
在一个示例性实例中,第二转换模块401具体用于采用以下方式实现将第二文本转换成对应的特征矩阵:
将第二文本中的每一个句子划分成词语,分别将每一个词语转换成对应的特征向量,将所有词语对应的特征向量拼接成特征矩阵。
在一个示例性实例中,第二转换模块401可以采用Word2Vector将词语转换成对应的特征向量。由于一级标签本身已经是词语级别的,因此可以直接转换成特征向量。
例如,将表1中的一级标签“财经新闻”“科技资讯”转换成对应的特征向量。
在一个示例性实例中,第二编码模块402按照公式ai=Wi×ai-1+bi计算第二文本对应的第i层特征编码,或一级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为第二文本对应的第i层特征编码,或一级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为第二文本对应的第(i-1)层特征编码,或一级标签对应的第(i-1)层特征编码;当i=1时,ai-1为第二文本对应的特征矩阵,或一级标签对应的特征向量;
bi为第i层的偏。
在一个示例性实例中,分类模块403按照公式
Figure BDA0002338632960000171
Figure BDA0002338632960000172
计算两个特征编码之间的相似度;
其中,L为两个特征编码之间的相似度,y为其中一个特征编码,
Figure BDA0002338632960000173
为另一个特征编码。
在一个示例性实例中,第二编码模块402按照公式ai=Wi×ai-1+bi计算二级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为二级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为二级标签对应的第(i-1)层特征编码;当i=1时,ai-1为二级标签对应的特征向量;
bi为第i层的偏。
例如,当第二文本的一级标签为“科技资讯”时,分别将二级标签“电子产品发布”“医学技术突破”转换成对应的特征向量。
在一个示例性实例中,Dropout网络层是随机丢弃一些网络中的信息,阻止了多层次分类模型通过共同作用提高多层次分类模型的性能,当样本量不充足时,模型可能记住了所有已出现的样本,而对未出现的样本缺乏认知,Dropout网络层随机丢弃了已出现的样本的某些特征,留给未出现的样本一定的特征选择空间。
在一个示例性实例中,Dense网络层将已出现的样本的特征编码做非线性变换,增加与下一级标签的拟合能力,变换成下一级标签所需的特征编码的表达方式。
在本发明另一个实施例中,还包括:模型训练模块404,用于对神经网络模型进行训练。
其中,对神经网络模型的训练过程与上述多层次分类模型训练方法的具体过程相同,这里不再赘述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种多层次分类模型训练方法,包括:
分别将每一个第一文本转换成对应的特征矩阵,分别将每一个第一文本对应的一级标签和第二标签转换成对应的特征向量;
分别将每一个第一文本对应的特征矩阵输入到神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码;其中,X为神经网络模型的层数;
根据所有第一文本对应的第X层特征编码、第一文本对应的一级标签对应的第X层特征编码、第一文本对应的二级标签对应的第X层特征编码计算损失函数值;
根据损失函数值更新神经网络模型中的参数值,当神经网络模型中的参数值的变化量大于或等于预设阈值时,继续执行分别将每一个第一文本对应的特征矩阵输入到更新参数值后的神经网络模型中得到每一个第一文本对应的第X层特征编码,分别将每一个第一文本对应的一级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的一级标签对应的第X层特征编码,分别将每一个第一文本对应的二级标签对应的特征向量输入到更新参数值后的神经网络模型中得到每一个第一文本对应的二级标签对应的第X层特征编码的步骤;
所述神经网络模型中按照公式ai=Wi×ai-1+bi计算所述第一文本对应的第i层特征编码,或所述第一文本对应的一级标签对应的第i层特征编码,或所述第一文本对应的二级标签对应的第i层特征编码;其中,i为一到X之间的任意一个整数;
其中,ai为所述第一文本对应的第i层特征编码,或所述第一文本对应的一级标签对应的第i层特征编码,或所述第一文本对应的二级标签对应的第i层特征编码;
Wi为第i层的权重;
当i大于1时,ai-1为所述第一文本对应的第(i-1)层特征编码,或所述第一文本对应的一级标签对应的第(i-1)层特征编码,或所述第一文本对应的二级标签对应的第(i-1)层特征编码;当i=1时,ai-1为所述第一文本对应的特征矩阵,或所述第一文本对应的一级标签对应的特征向量,或所述第一文本对应的二级标签对应的特征向量;
bi为第i层的偏;
更新的神经网络模型中的参数包括上述Wi和bi
其中,按照公式
Figure FDA0004006419570000021
更新神经网络模型中的Wi,按照公式
Figure FDA0004006419570000022
更新神经网络模型中的bi
其中,W'i为更新后的第i层的权重,Wi为更新前的第i层的权重,α为梯度下降中的学习速率,L'为损失函数值,b'i为更新后的第i层的偏,bi为第i层的偏。
2.根据权利要求1所述的多层次分类模型训练方法,其特征在于,当所述神经网络模型中的参数值的变化量小于预设阈值时,该方法还包括:
将所述神经网络模型中更新后的参数值作为所述神经网络模型中的最佳参数值。
3.根据权利要求1或2所述的多层次分类模型训练方法,其特征在于,其中,按照公式
Figure FDA0004006419570000023
计算损失函数值;
其中,L'为所述损失函数值,L1j为第j个第一文本对应的第X层特征编码和第j个第一文本对应的一级标签对应的第X层特征编码之间的相似度,L2j为第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L3j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的一级标签对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度,L4j为第j个第一文本对应的二级标签对应的第X层特征编码和第j个第一文本对应的经过Dropout和Dense网络层后的第X层特征编码之间的相似度。
4.一种多层次分类模型训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1~3任一项所述的多层次分类模型训练方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~3任一项所述的多层次分类模型训练方法的步骤。
6.一种多层次分类方法,使用如权利要求1~3所述多层次分类模型训练方法训练好的神经网络模型,包括:
将第二文本转换成对应的特征矩阵,分别将每一个一级标签转换成对应的特征向量;将第二文本对应的特征矩阵输入到训练好的神经网络模型中得到每一个第二文本对应的第X层特征编码,分别将每一个一级标签对应的特征向量输入到神经网络模型中得到每一个一级标签对应的第X层特征编码;其中,X为神经网络模型的层数;
分别计算第二文本对应的第X层特征编码和每一个一级标签对应的第X层特征编码之间的第一相似度,将第一相似度最大对应的一级标签作为第二文本的一级标签;
分别将第二文本的一级标签下的每一个二级标签转换成对应的特征向量,分别将每一个二级标签对应的特征向量输入到训练好的神经网络模型中得到每一个二级标签对应的第X层特征编码;
分别计算第二文本对应的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度,将第二相似度对应的二级标签作为第二文本的二级标签。
7.根据权利要求6所述的多层次分类方法,其特征在于,该方法还包括:
对所述神经网络模型进行训练。
8.根据权利要求6所述的多层次分类方法,其特征在于,在所述分别计算第二文本对应的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度之前,该方法还包括:
将所述第二文本对应的第X层特征编码经过Dropout和Dense网络层;
所述分别计算第二文本对应的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度包括:
分别计算第二文本对应的经过Dropout和Dense网络层后的第X层特征编码和每一个二级标签对应的第X层特征编码之间的第二相似度。
9.一种多层次分类装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求6~8任一项所述的多层次分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求6~8任一项所述的多层次分类方法的步骤。
CN201911366785.3A 2019-12-26 2019-12-26 一种多层次分类模型训练方法、多层次分类方法和装置 Active CN111177385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911366785.3A CN111177385B (zh) 2019-12-26 2019-12-26 一种多层次分类模型训练方法、多层次分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911366785.3A CN111177385B (zh) 2019-12-26 2019-12-26 一种多层次分类模型训练方法、多层次分类方法和装置

Publications (2)

Publication Number Publication Date
CN111177385A CN111177385A (zh) 2020-05-19
CN111177385B true CN111177385B (zh) 2023-04-07

Family

ID=70654030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911366785.3A Active CN111177385B (zh) 2019-12-26 2019-12-26 一种多层次分类模型训练方法、多层次分类方法和装置

Country Status (1)

Country Link
CN (1) CN111177385B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN110362684A (zh) * 2019-06-27 2019-10-22 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN107797985B (zh) * 2017-09-27 2022-02-25 百度在线网络技术(北京)有限公司 建立同义鉴别模型以及鉴别同义文本的方法、装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN110362684A (zh) * 2019-06-27 2019-10-22 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法

Also Published As

Publication number Publication date
CN111177385A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN110209823B (zh) 一种多标签文本分类方法及系统
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN112613308B (zh) 用户意图识别方法、装置、终端设备及存储介质
CN109948149B (zh) 一种文本分类方法及装置
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN111241814B (zh) 语音识别文本的纠错方法、装置、电子设备及存储介质
CN110362723A (zh) 一种题目特征表示方法、装置及存储介质
CN109948160B (zh) 短文本分类方法及装置
CN113627447A (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN112163092B (zh) 实体及关系抽取方法及系统、装置、介质
CN113837370A (zh) 用于训练基于对比学习的模型的方法和装置
CN109934253B (zh) 一种对抗样本生成方法及装置
CN111753878A (zh) 一种网络模型部署方法、设备及介质
CN115700515A (zh) 文本多标签分类方法及装置
WO2021223882A1 (en) Prediction explanation in machine learning classifiers
Kim et al. Adaptive compression of word embeddings
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN114995903B (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN110019784B (zh) 一种文本分类方法及装置
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN116069931A (zh) 层级标签文本分类方法、系统、设备及存储介质
CN111177385B (zh) 一种多层次分类模型训练方法、多层次分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant