CN116821781A - 分类模型的训练方法、文本分析方法及相关设备 - Google Patents
分类模型的训练方法、文本分析方法及相关设备 Download PDFInfo
- Publication number
- CN116821781A CN116821781A CN202210275092.9A CN202210275092A CN116821781A CN 116821781 A CN116821781 A CN 116821781A CN 202210275092 A CN202210275092 A CN 202210275092A CN 116821781 A CN116821781 A CN 116821781A
- Authority
- CN
- China
- Prior art keywords
- layer
- text data
- training
- classification
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 231
- 238000013145 classification model Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 109
- 238000012545 processing Methods 0.000 claims description 71
- 230000006870 function Effects 0.000 claims description 45
- 238000011176 pooling Methods 0.000 claims description 34
- 230000009466 transformation Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000005538 encapsulation Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004138 cluster model Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 7
- 230000008451 emotion Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 7
- 238000013500 data storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种分类模型的训练方法、文本分析方法及相关设备。能够利用少量的具有分类标签的文本数据训练得到分类模型,能够降低训练时间和训练成本,并且为了保证分类的准确,利用无监督句向量训练模型对大量没有标签的目标文本数据集进行训练,能够使得得到的句向量数据更加准确,将分类后打签的目标文本数据集与得到的句向量数据混合后进行聚类,这样能够保证聚类的准确性,并且由于聚类结果的多样化,能够全面进行文本分析,使得文本分析的结论更加精确。
Description
技术领域
本申请涉及数据分析技术领域,尤其涉及一种分类模型的训练方法、文本分析方法及相关设备。
背景技术
随着娱乐行业的发展,人们越来越喜欢用视频播放软件观看自己喜欢的视频,并且可以对视频发表相应的评论观点。网络视频业务会产生海量的用户评论,这些评论语言往往都比较个性化,包括比较多的网络流行语。为了更好的了解用户的感受,需要对于这些用户评论进行分类,根据分类结果确定用户的情感方向,例如,正向情绪、负向情绪或者中性情绪。
现有技术中,一般采用神经网络模型经过大量带有标签的文本数据进行学习训练,得到能够准确对评论文本进行分类的神经网络模型。
但是,这种方式需要对大量的评论文本进行标注,利用大量标注好的样本对神经网络模型进行训练,需要的训练时间较长,整体消耗的成本较大。
发明内容
有鉴于此,本申请的目的在于提出一种分类模型的训练方法、文本分析方法及相关设备以解决或部分解决上述技术问题。
基于上述目的,本申请的第一方面提供了一种分类模型的训练方法,包括:
获取分类文本数据集,其中,所述分类文本数据集中文本数据的数量小于等于预定数量,且每个文本数据均带有相应的分类标签;
构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型;
将所述分类文本数据集中的文本数据输入至所述初始分类模型中,依次经过所述语义线索训练模型层、所述最大池化层、所述变换层和所述分类层进行训练处理,通过所述分类层输出分类结果,根据所述输出分类结果与输入的文本数据对应的分类标签的差异性对所述初始分类模型进行训练调整;
响应于确定所述初始分类模型将所述分类文本数据集中的文本数据全部训练处理完成,将最终的初始分类模型作为分类模型。
在一些实施例中,所述构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型,包括:
将多个变压转换层依次叠加构建所述语义线索训练模型层;
将所述语义线索训练模型层中最后一个变压转换层的输出口与所述最大池化层的输入口连接;
在所述变换层中加入非线性变化函数,将所述变换层的输入口与所述最大池化层的输出口连接;
将所述变换层的输出口与所述分类层连接构成所述初始分类模型。
在一些实施例中,所述非线性变化函数为:其中,x为所述最大池化层的输出值。
在一些实施例中,为所述语义线索训练模型层设定第一学习率,为所述分类层设定第二学习率,其中,所述第一学习率<第二学习率。
基于同一个发明构思,本申请的第二方面提出了一种文本分析方法,包括:
获取目标文本数据集,其中,所述目标文本数据集中包括多个待分析文本数据;
将所述目标文本数据集输入至第一方面所述的分类模型的训练方法得到的分类模型中,为所述目标文本数据集中每个待分析文本数据进行分类预测并标记对应的分类标签,得到带有分类标签的目标文本数据集;
将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据;
将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,以供根据所述聚类结果进行文本分析。
在一些实施例中,所述无监督句向量训练模型包括:语义匹配训练模型层、编码层和对比学习层。
在一些实施例中,将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据,包括:
将所述目标文本数据集拆分为多个批次数据,其中,每个批次数据包括多个待分析文本数据;
将每个批次数据输入至所述语义匹配训练模型层、所述编码层和所述对比学习层进行学习训练处理,所述对比学习层将学习训练处理后得到的该批次数据对应的句向量数据进行输出。
在一些实施例中,所述将每个批次数据输入至所述语义匹配训练模型层、所述编码层和所述对比学习层进行学习训练处理,所述对比学习层将学习训练处理后得到的该批次数据对应的句向量数据进行输出,包括:
将当前处理的批次数据经过所述语义匹配训练模型层和所述编码层进行分析处理之后得到包含两个相似正样本和多个负样本的文本数据;
将所述文本数据输入至对比学习层按照预定标准的目标函数进行学习训练过程;
根据根据所述对比学习层输出的对比学习结果计算损失函数;
响应于确定所述损失函数未收敛至预定收敛值,利用所述语义匹配训练模型层和所述编码层重新对所述当前处理的批次数据进行分析处理,得到新的文本数据重复所述学习训练过程;
响应于确定所述损失函数收敛至预定收敛值,所述对比学习层将最后得到的当前处理的批次数据的句向量输出。
在一些实施例中,所述将当前处理的批次数据经过所述语义匹配训练模型层和所述编码层进行分析处理之后得到包含两个相似正样本和多个负样本的文本数据,包括:
从所述当前处理的批次数据中选择目标待分析文本数据,将所述目标待分析文本数据两次输入至所述语义匹配训练模型层和所述编码层进行封装处理得到两个相似正样本x和x+;
将所述当前处理的批次数据中的其他待分析文本数据输入至所述语义匹配训练模型层和所述编码层作为负样本x-;
将两个相似正样本x和x+和多个负样本x-作为当前处理的批次数据的文本数据。
在一些实施例中,所述目标函数f满足的预定标准为:
score(f(x),f(x+))>>score(f(x),f(x-));
其中,score()为学习训练过程中的打分值,“>>”远大于的判定标准为:score(f(x),f(x+))大于xcore(f(x),f(x-))超过预定打分值阈值。
在一些实施例中,所述损失函数的计算公式为:
其中,h表示所述编码层的输出结果,z表示封装处理结果,N表示当前处理的批次数据的数量,z’表示与z相似正样本的封装处理结果。
在一些实施例中,将所述目标文本数据集拆分为多个批次数据之前,还包括:
对所述目标文本数据集进行过滤,去除目标文本数据集中的重复数据。
在一些实施例中,将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,包括:
将所述带有分类标签的目标文本数据集与所述句向量数据均作为聚类数据输入至基于密度的聚类模型中;
在所述聚类模型中结合每个聚类数据之间的可达关系,根据预先设定的密度邻域半径和核心点阈值,对每个聚类数据进行聚类,得到至少一个聚类簇;
为每个聚类簇确定对应的聚类簇标签,对该聚类簇中的每个聚类数据标记所述聚类簇标签;
将带有聚类簇标签的聚类数据作为聚类结果输出。
基于同一个发明构思,本申请的第三方面提出了一种分类模型的训练装置,包括:
第一获取模块,用于获取分类文本数据集,其中,所述分类文本数据集中文本数据的数量小于等于预定数量,且每个文本数据均带有相应的分类标签;
模型构建模块,用于构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型;
分类训练模块,用于将所述分类文本数据集中的文本数据输入至所述初始分类模型中,依次经过所述语义线索训练模型层、所述最大池化层、所述变换层和所述分类层进行训练处理,通过所述分类层输出分类结果,根据所述输出分类结果与输入的文本数据对应的分类标签的差异性对所述初始分类模型进行训练调整;
模型确定模块,用于响应于确定所述初始分类模型将所述分类文本数据集中的文本数据全部训练处理完成,将最终的初始分类模型作为分类模型。
基于同一个发明构思,本申请的第四方面提出了一种文本分析装置,包括:
第二获取模块,用于获取目标文本数据集,其中,所述目标文本数据集中包括多个待分析文本数据;
分类预测模块,用于将所述目标文本数据集输入至第一方面所述的分类模型的训练方法得到的分类模型中,为所述目标文本数据集中每个待分析文本数据进行分类预测并标记对应的分类标签,得到带有分类标签的目标文本数据集;
无监督训练模块,用于将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据;
聚类分析模块,用于将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,以供根据所述聚类结果进行文本分析。
基于同一个发明构思,本申请的第五方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的分类模型的训练方法,或者实现第二方面所述的文本分析方法。
基于同一个发明构思,本申请的第六方面提出了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述的分类模型的训练方法,或者执行第二方面所述的文本分析方法。
从上面所述可以看出,本申请提供的分类模型的训练方法、文本分析方法及相关设备,利用少量的具有分类标签的文本数据训练得到分类模型,能够降低训练时间和训练成本,并且为了保证分类的准确,利用无监督句向量训练模型对大量没有标签的目标文本数据集进行训练,能够使得得到的句向量数据更加准确,将分类后打签的目标文本数据集与得到的句向量数据混合后进行聚类,这样能够保证聚类的准确性,并且由于聚类结果的多样化,能够全面进行文本分析,使得文本分析的结论更加精确。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的应用场景示意图;
图2A为本申请实施例的分类模型的训练方法的流程图;
图2B为本申请实施例的初始分类模型的示意图;
图2C为本申请实施例的语义线索训练模型层的内部结构示意图;
图2D为本申请实施例的变压转换层的内部结构示意图;
图2E为本申请实施例的多头注意层的内部结构示意图;
图3A为本申请实施例的文本分析方法的流程图;
图3B为本申请实施例的文本分析方法的数据走向示意图;
图3C为本申请实施例的语义匹配训练模型层的内部结构示意图;
图4为本申请实施例的分类模型的训练装置的结构框图;
图5为本申请实施例的文本分析装置的结构框图;
图6为本申请实施例的电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
一、对评论内容的情感分类
情感分类技术属于自然语言处理中以文本为对象的感情分类,一般会根据具体场景来选取标签的个数,可能是:正向情感、负向情感以及中性情感。目前文本情感分类涉及技术有如下的方案:
1、基于情感词典WordNet、sentiWordNet词打分做文本分析
该方法主要是将句子分词后,针对每个词打一个分数,最后根据公式算出总分数。
优点:
1)启发式方法,不依赖训练数据,可直接打分。
缺点:
1)非常依赖词典的丰富程度和分词算法的效果,比如在网络词汇更新快的场景,可能会无法打分。
2)多义词无法处理,词典中每个词只有同样的分数。
3)无法处理词语位置的不同而可能的情感不同。
2、基于fastText的文本分类方法
该方法将句子分词,将词语表示成稠密向量,映射到同一个向量空间,然后对一个话的所有词向量取平均后再分类。
优点:
1)相比词典打分方法,能将句子映射到高维空间向量,有一定的语义理解能力。
缺点:
1)需要大量有标注训练数据。
2)无法处理一词多义的情况。
3)无法获取词的重要性特征和词的位置特征。
3、基于词向量的LSTM(Long Short-Term Memory,长短期记忆网络)模型分类方法
模型结构组成为词向量层后接LSTM循环神经网络层,通过有监督的方法训练模型,LSTM层属于自回归模型,通过在句子特征时间维度的反向传播算法,能够解决部分长距离依赖问题。
优点:
1)拟合能力强,能学到词向量特征位置关系,非常适合于做文本分类和序列标注。
缺点:
1)需要大量有标注训练数据。
2)无法处理一词多义的情况。
二、基于聚类的文本挖掘
文本聚类算法的目的是:将无标签的相似数据划分到一类,不相似的数据划分到不同的类别。
文本聚类技术的步骤通常是:先通过将文本表示成向量,然后再利用聚类算法做聚类步骤。
1、基于词袋模型特征的聚类方法
词袋模型能够把一个句子转化为向量表示。词袋模型需要维护一个词表(vocabulary),它不关心句子中单词的顺序,只考虑词表中单词在这个句子中的出现次数。把分词后的句子表示成一个向量,这个向量的维度是维护词表的大小,向量中的每个维度表示该单词在该句中出现频次。比如一个分词后句子['我','喜欢','刷抖音',',','我','还','喜欢','拍','视频'],会被表示成形如[0,2,0,2,1,0,1,0,1,1,0,1,0,……]的向量(数值的位置和长度由词表决定)。
通过上述变换,每个句子都可以用一个向量表示,然后通过计算向量之间的距离,可以得到句子之间的相似度。但是仅用词频来代表单词的在每句话的重要性并不符合自然语言的特点,因此还会使用TFIDF(term frequency–inverse document frequency,词频-逆文本频率指数)等算法计算每个单词的权重。
优点:
1)能够根据句子中词的相似性来代表句子间相似性,较为简便和直接。
缺点:
1)依赖词表大小,未登陆词无法识别。
2)当词表非常大时(如网络评论),句特征会非常稀疏,不利于相似度计算。
3)无法计算一词多义问题,比如“苹果手机”“苹果水果”会被计算的非常相似。
4)没有语义的理解,不能计算近似词的相似性。
2、基于词嵌Word2vec特征的聚类方法
词嵌 模型是指通过将词表示成一个固定维度的向量,因此所有词都映射到同一个高维空间,可在该空间计算词向量的相似性。句子表示一般将句子中的词向量按某种方式拼接成固定维度的向量,聚类计算的时候直接计算句向量。
优点:
1)词嵌 模型可以学到词的相似性,利于聚类算法的泛化能力。
2)词嵌模型不是稀疏高维向量,便于计算。
缺点:
1)词嵌模型训练好后,词向量固定不能计算一词多义。
2)未登录词无法识别。
3)句向量无法表达词的重要程度特征。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
本申请提供了一种分类模型的训练方法、文本分析方法及相关设备,利用少量的具有分类标签的数据训练得到分类模型,能够降低训练时间和训练成本,并且为了保证分类的准确,利用无监督句向量训练模型对大量没有标签的目标文本数据集进行训练,能够使得得到的句向量数据更加准确,将分类后打签的目标文本数据集与得到的句向量数据混合后进行聚类,这样能够保证聚类的准确性,并且由于聚类结果的多样化,能够全面进行文本分析,使得文本分析的结论更加精确。
参考图1,其为本申请实施例提供的画面处理方法的应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中,终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant,PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102用于向终端设备101的用户提供文本分析处理服务,终端设备101中安装有与服务器102通信的客户端,用户可以通过客户端向服务器102发送用于进行文本分析的文本数据。服务器102利用少量的具有分类标签的文本数据训练得到分类模型。将接收到的客户端发来的目标文本数据进行汇总,将汇总的目标文本数据输入之前训练好的分类模型进行分类打签。将汇总的目标文本数据利用无监督句向量训练模型对大量没有标签的目标文本数据集进行训练,能够使得得到的句向量数据更加准确,将分类后打签的目标文本数据集与得到的句向量数据混合后进行聚类,这样能够保证聚类的准确性,并且由于聚类结果的多样化,能够全面进行文本分析,使得文本分析的结论更加精确。数据存储系统103为服务器102的工作运行提供数据存储支持,例如用于存储少量具有分类标签的文本数据集,以及大量没有标签的目标文本数据集。
下面结合图1的应用场景,来描述根据本申请示例性实施方式的分类模型的训练方法和文本分析方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
问题一、得到每条用户评论的情感倾向:正向、负向或中性。回答整体性的业务问题:比如近期评论的情感指数,比较不同类型视频的综合评价指数等。
问题二、从海量评论中,基于正向和负向情感倾向,挖掘主要的具体评论观点。比如:大部分用户喜欢什么功能或内容,用户吐槽最多的功能或内容等,作为反馈分析以给相关人员参考或改进。
传统训练模型需要大量的标注数据。该业务场景下获取大量有标注数据来训练模型的代价很大,只有少量有标签数据、通常只有几十至几百个,同时还有海量无标签数据。这种业务场景下,传统方法已经不适用。
本专利提出了一套基于小样本学习的语言处理技术和方法,满足了上述业务需求。1)分类:利用少量有标签(标注)数据,训练有监督算法,通过对用户评论的情感倾向的预测,得到评论的正向或负向情感分类;2)聚类:对于预测标签,再分别对正向或负向情感评论做文本聚类,得到每个样本的聚类标签。此外,本方案以同一类预训练网络模型为基础,通过采取了不同的训练和应用方式,实现了分类和聚类两个步骤。
举例说明,如表1。数据包括文本内容content和少部分数据的标签label。
表1
对问题一,需要通过带有标签的数据训练预测模型,预测id为3-8数据的标签,比如id为3的预测结构为正向。
对问题二,还要需要知道id为3-8的数据集中表达的具体观点,比如聚类算法将id为4、5、6的样本聚到了cluster_label为1的一类,可以看到这个类别都是在吐槽产品功能,将id为7、8的样本聚到了cluster_label为2的类别,可以看到这类在反馈bug。
本申请实施例提供了一种分类模型的训练方法,如图2A所示,训练方法包括:
步骤201,获取分类文本数据集(例如,图2B中的数据集A),其中,所述分类文本数据集中文本数据的数量小于等于预定数量,且每个文本数据均带有相应的分类标签。
具体实施时,文本数据是观众的发出的一些评论内容。如果评论内容是文字评论,不需要进行进一步处理直接获取文字评论的内容即可;如果评论内容是语音评论,可以利用语音识别系统对语音进行文字识别,将语音转换成文字,再提取文字内容作为文本数据;如果评论内容是图像评论,可以提取图像中的文字,或者根据图像中的表情对应表达的情感转换成文字语言作为文本数据,例如,用户发的是“微笑”表情,根据该表情图像,转换成“微笑”文字;如果评论内容是视频评论,分别提取其中的语音部分和每帧图像部分对应的文字,将两部分文字整合在一起,去重后整理成完整的文字内容作为文本数据。这样能够将各种形式的评论最终转换成文字内容作为文本数据进行后续的训练处理。
该预定数量相对较少,可以是几十或几百个,设定区间为10至1000,具体取值可以根据实际情况进行确定。对应的分类标签可以是:正向情绪、负向情绪、中性情绪。也可以增加其他的分类标签(例如,生气、高兴、悲伤等),具体可以根据实际情绪分类需要进行选定,并不限于上述所述的分类标签。
步骤202,构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型。
其中,如图2B所示,语义线索训练模型层为RoBERT-tiny-clue模型,最大池化层为max-pooling层,变换层为tanh层。四层结构依次连接形成初始分类模型。利用该初始分类模型能够利用少量的有标签的文本数据进行学习训练最终得到能够对文本数据进行情感分类的情感分类模型。
RoBERT-tiny-clue模型能够根据词语的上下文提取不同的特征,并且可以关注词语的重要程度,进而更好的确定词向量特征。这样经过最大池化层、变换层和分类层之后得到的分类结果能够更加准确。
步骤202包括:
步骤2021,将多个变压转换层依次叠加构建所述语义线索训练模型层。
具体实施时,变压转换层为transformer层,如图2C所示,优选采用三个transformer层,如图2D所示,每层transformer包括:
第一部分:input embedding(输入层)、positional encoding(位置编码层)、Multi-Head Attention(多头注意层)、Feed Forward(正向反馈层);
第二部分:input embedding(输入层)、positional encoding(位置编码层)、Masked MH Attention(封装层,封装Multi-Head Attention)、Multi-Head Attention(多头注意层)、Feed Forward(正向反馈层)。
文本数据会分别进入第一部分和第二部分的input embedding。在第一部分中input embedding将数据输入至positional encoding进行位置编码处理,然后经过Multi-Head Attention(多头注意力机制)进行向量处理输出向量矩阵,然后经过Feed Forward发送至第二部分的Multi-Head Attention中。第二部分中,input embedding将数据输入至positional encoding进行位置编码处理,然后再进入Masked MH Attention进行向量处理后进行Masked,然后第二部分的Multi-Head Attention将第一部分输出的向量矩阵以及第二部分中Masked后的向量矩阵一起经过Feed Forward输出。
其中,如图2E所示,每个Multi-Head Attention包括:底层由三组叠加的linear(线性处理)构成,三组linear输出至Scaled Dot-Product Attention(比例点积注意力机制)进行处理,最后经过Concat&Linear(线性合并函数)进行线性合并处理后输出至下一层处理。
语义线索训练模型层在训练过程中能够以15%的概率用封装标签(mask token)随机的对每一个训练得到的矩阵序列中的标签进行替换,然后预测出对应封装(mask)位置原有的单词,进而完成训练的过程。RoBERT-tiny-clue模型训练数据使用ClueCorpus2020的数据训练而成。
步骤2022,将所述语义线索训练模型层中最后一个变压转换层的输出口与所述最大池化层的输入口连接。
具体实施时,由于每层transformer都对数据进行向量处理,因此最后一层得到的向量矩阵代表的文字内容的特征信息更准确,将最后一层的[CLS]位置(即,句向量矩阵)依次输入至最大池化层进行卷积处理然后取局部接受域中最大的点,能够去除无关因素的影响,这样能够使得输出的句向量更加精确。
步骤2023,在所述变换层中加入非线性变化函数,将所述变换层的输入口与所述最大池化层的输出口连接。
利用变换层的非线性变化函数对最大池化层输出的数据进行非线性处理,使得最大池化层输出的数据能够更加平滑,进而更有利于少量样本进行分类训练处理。
在一些实施例中,所述非线性变化函数为:其中,x为所述最大池化层的输出值。
步骤2024,将所述变换层的输出口与所述分类层连接构成所述初始分类模型。
在一些实施例中,为所述语义线索训练模型层设定第一学习率,为所述分类层设定第二学习率,其中,所述第一学习率<第二学习率。优选为,第一学习率为2e-5,第二学习率设定为1e-4,将语义线索训练模型层和分类层的学习率设定的都相对较小,这样能够使得吃实话分类模型在训练过程中,能够优化的更加充分。
经过上述步骤能够构建完成一个初始分类模型,然后利用该初始分类模型进行如下过程的分类训练:
步骤203,将所述分类文本数据集中的文本数据输入至所述初始分类模型中,依次经过所述语义线索训练模型层、所述最大池化层、所述变换层和所述分类层进行训练处理,通过所述分类层输出分类结果,根据所述输出分类结果与输入的文本数据对应的分类标签的差异性对所述初始分类模型进行训练调整。
具体实施时,将少量标记好的分类文本数据集,分别经过语义线索训练模型层、最大池化层、变换层和分类层进行处理,处理过程与上述步骤202对应描述的过程同理,这里就不再赘述。分类层会将文本数据的分类结果进行输出,将输出的分类结果与标记的分类标签进行比对,如果相同则利用下一个文本数据进行训练,如果不同,对语义线索训练模型层和分类层的参数按照上述设定的第一学习率和第二学习率进行不断调整,直至最终输出的分类结果与分类标签相同。
通过采用分层设置学习率的方式,将分类层设置的学习率较大,使得分类层能够学习的速度更快,能够快速缩小与训练程度的差距,同时语义线索训练模型层的学习率设置的较小,训练时参数更新小,能够提高训练过程的精确度。这种方式能够加快训练速度,同时增强训练后得到的分类模型的泛化能力。
步骤204,响应于确定所述初始分类模型将所述分类文本数据集中的文本数据全部训练处理完成,将最终的初始分类模型作为分类模型。
具体实施时,将该分类模型通过相应的存储器进行存储,可以对该分类模型进行复制或者转移。
通过本实施例的上述方案,利用少量的具有分类标签的文本数据训练得到分类模型,能够降低训练时间和训练成本,保证即使在有标签的文本数据量很少的情况下,也能得到分类模型。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一个发明构思,本申请提出的文本分析方法,如图3A所示,包括:
步骤301,获取目标文本数据集(即,图3B中的数据集B),其中,所述目标文本数据集中包括多个待分析文本数据。
具体实施时,目标文本数据集包含有大量的待分析文本数据,例如,包含有一万条待分析文本数据,这些待分析文本数据都是没有对应的情感分类标签的文本数据。
对应的待分析文本数据可以是下列至少之一:文字评论、语音评论、图像评论、视频评论等。各类文本数据的也是会转换成文字内容进行后续处理,具体转换过程与上述步骤201中对应各类文本数据的转换过程同理,这里不再赘述。
步骤302,将所述目标文本数据集输入至上述实施例所述的分类模型的训练方法得到的分类模型中,为所述目标文本数据集中每个待分析文本数据进行分类预测并标记对应的分类标签,得到带有分类标签的目标文本数据集。
具体实施时,将目标文本数据集中的待分析文本数据可以按照一定的顺序依次输入至分类模型中进行分类处理;也可以划分为多组,按照分组输入至情感分类模型中进行分类处理。
具体分类处理过程中,先经过语义线索训练模型层进行语义特征分析,然后再经过最大池化层进行卷积处理然后取局部接受域中最大的点,去除无关因素的影响,再经过变换层的非线性变化函数进行非线性处理;最后输入至分类层进行分类打签,最终输出带有分类标签的待分析文本数据。将目标文本数据集中所有的待分析文本数据全部处理完成后,得到带有分类标签的目标文本数据集。
步骤303,将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据。
具体实施时,上述步骤302和303没有具体的先后顺序,具体执行的顺序可以根据实际需要选择,也可以同时执行,这里不作具体限定。
由于无监督句向量训练模型可以直接处理没有标签的文本数据,因此,对于大量(例如,超过一万条)的没有标签的的目标文本数据集,可以直接进行训练处理,训练处理完成后能够直接将其对应的句向量数据输出。
在一些实施例中,如图3B所示,所述无监督句向量训练模型包括:语义匹配训练模型层(RoBERTa-pair)、编码层(encoder output)和对比学习层(contrastive learning)。
其中,如图3C所示,语义匹配训练模型层采用RoBERTa-pair模型,每个RoBERTa-pair模型中包括三个Transformer层,将最后一个Transformer层将得到的[CLS]位置作为句向量表征,输入至编码层中进行编码处理,最后经过对比学习层进行对比学习训练,将最终训练得到的句向量数据输出。
步骤303包括:
步骤3031,将所述目标文本数据集拆分为多个批次数据,其中,每个批次数据包括多个待分析文本数据。
在一些实施例中,将所述目标文本数据集拆分为多个批次数据之前,还包括:对所述目标文本数据集进行过滤,去除目标文本数据集中的重复数据。
对目标文本数据集进行去重处理,能够保证后续拆分批次的时候,每个批次中没有相似的文本数据。
具体实施时,拆分成多个批次时,可以按照预定数量(例如,100个一批)进行拆分,这样拆分的批次数就不确定,最后一个批次的数量会低于该预定数量;也可以是设定一定量的批次数(例如,200批次),将目标文本数据集的总量除以批次数并进行取整运算得到每个批次对应的分配数量,按照这个分配数量进行拆分。
在一些实施例中,还可以是经过上述拆分处理后,对得到的多个批次数据进行过滤,去除每个批次数据中的重复数据。避免同一个批次中出现相似的文本数据。
另外,为了保证每个批次数据中相似数据的出现几率小一些,可以将每个批次数据的数量设定的小一些,例如设定50个、20个、10个或者5个等,具体根据用户的实际需要进行确定。
步骤3032,将每个批次数据输入至所述语义匹配训练模型层、所述编码层和所述对比学习层进行学习训练处理,所述对比学习层将学习训练处理后得到的该批次数据对应的句向量数据进行输出。
步骤3032包括:
步骤30321,将当前处理的批次数据经过所述语义匹配训练模型层和所述编码层进行分析处理之后得到包含两个相似正样本和多个负样本的文本数据。
具体实施时,就可以利用两个相似正样本用来训练对比学习层的相似样本的识别能力,利用正样本与负样本之间的差别来训练对比学习层的对不同样本的识别能力。
步骤30321,包括:
步骤303211,从所述当前处理的批次数据中选择目标待分析文本数据,将所述目标待分析文本数据两次输入至所述语义匹配训练模型层和所述编码层进行封装处理得到两个相似正样本x和x+。
其中,两个相似正样本x和x+可能完全相同也可能会有细微区别。
步骤303212,将所述当前处理的批次数据中的其他待分析文本数据输入至所述语义匹配训练模型层和所述编码层作为负样本x-。
具体实施时,将当前处理的批次数据中除步骤303211中输入的目标待分析文本数据之外的待分析文本数据作为其他待分析文本数据。其他待分析文本数据有多个,分别依次经过语义匹配训练模型层和编码层处理之后得到的结果作为负样本x-。
步骤303213,将两个相似正样本x和x+和多个负样本x-作为当前处理的批次数据的文本数据。
通过上述方案,将同一个待分析文本数据经过两次语义匹配训练模型层和编码层处理得到的两个正样本x和x+,相似度会比较高,这样能够更好训练对比学习层的相似样本的识别能力。并且,由于每个批次数据中没有相似的数据,其他待分析文本数据均与目标待分析文本数据差距较大,这样更能训练对比学习层的对不同样本的识别能力。
步骤30322,将所述文本数据输入至对比学习层按照预定标准的目标函数进行学习训练过程。
在一些实施例中,所述目标函数f满足的预定标准为:
score(f(x),f(x+))>>score(f(x),f(x-));其中,score()为学习训练过程中的打分值,“>>”远大于的判定标准为:score(f(x),f(x+))大于score(f(x),f(x-))超过预定打分值阈值。
通过上述方案,能够使得对比学习层更好的识别相似正样本之间的相似特性,以及正样本和负样本之间的差异特性。
步骤30323,根据根据所述对比学习层输出的对比学习结果计算损失函数。
在一些实施例中,所述损失函数的计算公式为:
其中,h表示所述编码层的输出结果,z表示封装处理结果,N表示当前处理的批次数据的数量,z’表示与z相似正样本的封装处理结果。
具体实施时,可以根据损失函数计算得到的损失值进行反向传播处理,对对比学习层进行训练,训练目标是学习得到目标函数f,使得目标函数f能够满足上述预定标准。并且训练过程中损失函数L会不断的收敛。
步骤30324,判定损失函数是否收敛至预定收敛值,否则进入步骤30325,是则进入步骤30326。
步骤30325,利用所述语义匹配训练模型层和所述编码层重新对所述当前处理的批次数据进行分析处理,得到新的文本数据返回至步骤30322。
步骤30326,所述对比学习层将最后得到的当前处理的批次数据的句向量输出。
通过上述方案,可以将各个批次数据均按照上述过程进行处理,进而得到各个批次数据对应的句向量并进行输出。经过上述方案的处理,能够准确的抓取各个待分析文本数据的相似特征以及不同特征,进而使得得到的句向量更加准确。
步骤304,将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,以供根据所述聚类结果进行文本分析。
为了提高分类的精确性,以及情感识别的类型的广度,需要对带有分类标签的目标文本数据集与句向量数据进行聚类处理。
可以选用聚类模型进行聚类处理,具体执行时,步骤304包括:
步骤3041,将所述带有分类标签的目标文本数据集与所述句向量数据均作为聚类数据输入至基于密度的聚类模型中。
步骤3042,在所述聚类模型中结合每个聚类数据之间的可达关系,根据预先设定的密度邻域半径和核心点阈值,对每个聚类数据进行聚类,得到至少一个聚类簇。
步骤3043,为每个聚类簇确定对应的聚类簇标签,对该聚类簇中的每个聚类数据标记所述聚类簇标签。
步骤3044,将带有聚类簇标签的聚类数据作为聚类结果输出。
具体实施时,如图3B所示,对应的聚类模型选用DBSCAN(Density-Based SpatialClustering of Applications with Noise,基于密度的聚类算法)算法,DBSCAN算法包括两个参数:Eps和MinPts;Eps是定义密度时的邻域半径,邻域半径是指对应类别内的话题所涵盖的范围,数值越大,聚类的簇的数量越少;MinPts为定义核心点的阈值,主要是管制主要观点,过滤掉数量很少的评论或噪声数据。
在上述方案中,能够根据各个数据之间的密度可达关系(也即密度可达距离)聚类出最大密度向量的样本集合,即最终聚类的一个簇。经过DBSCAN算法,聚类的簇里面可以有一个或多个核心点。如果只有一个核心点,则簇里其他的非核心点聚类数据都在这个核心点的Eps邻域里。如果有多个核心点,则簇里的任意一个核心点的Eps邻域中一定有一个其他的核心点,否则这两个核心点无法密度可达。这些核心点的Eps领域里所有的聚类数据的集合组成一个聚类簇。
经过DBSCAN算法之后,为每个待分析文本数据输出对应的聚类簇标签,经过参数调整后,每个聚类簇可以作为一种评论观点,用户可以根据各个聚类簇分析对应的情感观点。
本申请的方案在业务场景下的验证集评测正负向标签F1值(一种确定准确性的指标)均有不同程度的提高,达到相似效果时,使用的数据更少。具体如表2所示。
表2
模型 | 负向情感标签F1-score | 正向情感标签F1-score |
fastText | 0.29 | 0.78 |
lstm | 0.60 | 0.81 |
RoBERTa_max_pooling_tanh | 0.69 | 0.83 |
RoBERTa_max_pooling_tanh使用80%训练集 | 0.67 | 0.86 |
本申请选择在LCQMC(A Large-scale Chinese Question Matching Corpus)数据集的效果验证,LCQMC数据集是一个相似度数据集,本申请上述实施例的方法能够使得计算余弦相似度的斯皮尔曼相关系数能高0.12,如表3所示。
表3
模型 | 斯皮尔曼相关系数 |
Word2vec_mean | 0.598 |
Unsupervised_trainning_RoBERTa | 0.721 |
通过上述实施例的方案,利用少量的具有分类标签的文本数据训练得到分类模型,能够降低训练时间和训练成本,并且为了保证分类的准确,利用无监督句向量训练模型对大量没有标签的目标文本数据集进行训练,能够使得得到的句向量数据更加准确,将分类后打签的目标文本数据集与得到的句向量数据混合后进行聚类,这样能够保证聚类的准确性,并且由于聚类结果的多样化,能够全面进行文本分析,使得文本分析的结论更加精确。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例的画面处理方法相对应的,本申请还提供了一种分类模型的训练装置,参考图4,包括:
第一获取模块41,用于获取分类文本数据集,其中,所述分类文本数据集中文本数据的数量小于等于预定数量,且每个文本数据均带有相应的分类标签;
模型构建模块42,用于构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型;
分类训练模块43,用于将所述分类文本数据集中的文本数据输入至所述初始分类模型中,依次经过所述语义线索训练模型层、所述最大池化层、所述变换层和所述分类层进行训练处理,通过所述分类层输出分类结果,根据所述输出分类结果与输入的文本数据对应的分类标签的差异性对所述初始分类模型进行训练调整;
模型确定模块44,用于响应于确定所述初始分类模型将所述分类文本数据集中的文本数据全部训练处理完成,将最终的初始分类模型作为分类模型。
在一些实施例中,模型构建模块42具体用于:
将多个变压转换层依次叠加构建所述语义线索训练模型层;将所述语义线索训练模型层中最后一个变压转换层的输出口与所述最大池化层的输入口连接;在所述变换层中加入非线性变化函数,将所述变换层的输入口与所述最大池化层的输出口连接;将所述变换层的输出口与所述分类层连接构成所述初始分类模型。
在一些实施例中,所述非线性变化函数为:其中,x为所述最大池化层的输出值。
在一些实施例中,为所述语义线索训练模型层设定第一学习率,为所述分类层设定第二学习率,其中,所述第一学习率<第二学习率。
基于同一个发明构思,本实施例提出了一种文本分析装置,如图5所示,包括:
第二获取模块51,用于获取目标文本数据集,其中,所述目标文本数据集中包括多个待分析文本数据;
分类预测模块52,用于将所述目标文本数据集输入至上述实施例所述的分类模型的训练方法得到的分类模型中,为所述目标文本数据集中每个待分析文本数据进行分类预测并标记对应的分类标签,得到带有分类标签的目标文本数据集;
无监督训练模块53,用于将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据;
聚类分析模块54,用于将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,以供根据所述聚类结果进行文本分析。
在一些实施例中,所述无监督句向量训练模型包括:语义匹配训练模型层、编码层和对比学习层。
在一些实施例中,分类预测模块52包括:
拆分单元,用于将所述目标文本数据集拆分为多个批次数据,其中,每个批次数据包括多个待分析文本数据;
训练单元,用于将每个批次数据输入至所述语义匹配训练模型层、所述编码层和所述对比学习层进行学习训练处理,所述对比学习层将学习训练处理后得到的该批次数据对应的句向量数据进行输出。
在一些实施例中,训练单元,包括:
样本确定子单元,用于将当前处理的批次数据经过所述语义匹配训练模型层和所述编码层进行分析处理之后得到包含两个相似正样本和多个负样本的文本数据;
学习训练子单元,用于将所述文本数据输入至对比学习层按照预定标准的目标函数进行学习训练过程;
损失函数计算子单元,用于根据根据所述对比学习层输出的对比学习结果计算损失函数;
判断子单元,用于响应于确定所述损失函数未收敛至预定收敛值,利用所述语义匹配训练模型层和所述编码层重新对所述当前处理的批次数据进行分析处理,得到新的文本数据重复所述学习训练过程;响应于确定所述损失函数收敛至预定收敛值,所述对比学习层将最后得到的当前处理的批次数据的句向量输出。
在一些实施例中,样本确定子单元,具体用于:
从所述当前处理的批次数据中选择目标待分析文本数据,将所述目标待分析文本数据两次输入至所述语义匹配训练模型层和所述编码层进行封装处理得到两个相似正样本x和x+;将所述当前处理的批次数据中的其他待分析文本数据输入至所述语义匹配训练模型层和所述编码层作为负样本x-;将两个相似正样本x和x+和多个负样本x-作为当前处理的批次数据的文本数据。
在一些实施例中,所述目标函数f满足的预定标准为:score(f(x),f(x+))>>score(f(x),f(x-));其中,score()为学习训练过程中的打分值,“>>”远大于的判定标准为:score(f(x),f(x+))大于score(f(x),f(x-))超过预定打分值阈值。
在一些实施例中,所述损失函数的计算公式为:
其中,h表示所述编码层的输出结果,z表示封装处理结果,N表示当前处理的批次数据的数量,z’表示与z相似正样本的封装处理结果。
在一些实施例中,拆分单元,还用于在将所述目标文本数据集拆分为多个批次数据之前,对所述目标文本数据集进行过滤,去除目标文本数据集中的重复数据。
在一些实施例中,聚类分析模块54包括:
输入单元,用于将所述带有分类标签的目标文本数据集与所述句向量数据均作为聚类数据输入至基于密度的聚类模型中;
聚类单元,用于在所述聚类模型中结合每个聚类数据之间的可达关系,根据预先设定的密度邻域半径和核心点阈值,对每个聚类数据进行聚类,得到至少一个聚类簇;
聚类簇标记单元,用于为每个聚类簇确定对应的聚类簇标签,对该聚类簇中的每个聚类数据标记所述聚类簇标签;
输出单元,用于将带有聚类簇标签的聚类数据作为聚类结果输出。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的方法。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器610、存储器620、输入/输出接口630、通信接口640和总线660。其中处理器610、存储器620、输入/输出接口630和通信接口640通过总线650实现彼此之间在设备内部的通信连接。
处理器610可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口630用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口640用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线650包括一通路,在设备的各个组件(例如处理器610、存储器620、输入/输出接口630和通信接口640)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、存储器620、输入/输出接口630、通信接口640以及总线650,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的分类模型的训练方法,或者文本分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的分类模型的训练方法,或者执行如上任一实施例所述的文本分析方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (17)
1.一种分类模型的训练方法,其特征在于,包括:
获取分类文本数据集,其中,所述分类文本数据集中文本数据的数量小于等于预定数量,且每个文本数据均带有相应的分类标签;
构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型;
将所述分类文本数据集中的文本数据输入至所述初始分类模型中,依次经过所述语义线索训练模型层、所述最大池化层、所述变换层和所述分类层进行训练处理,通过所述分类层输出分类结果,根据所述输出分类结果与输入的文本数据对应的分类标签的差异性对所述初始分类模型进行训练调整;
响应于确定所述初始分类模型将所述分类文本数据集中的文本数据全部训练处理完成,将最终的初始分类模型作为分类模型。
2.根据权利要求1所述的训练方法,其特征在于,所述构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型,包括:
将多个变压转换层依次叠加构建所述语义线索训练模型层;
将所述语义线索训练模型层中最后一个变压转换层的输出口与所述最大池化层的输入口连接;
在所述变换层中加入非线性变化函数,将所述变换层的输入口与所述最大池化层的输出口连接;
将所述变换层的输出口与所述分类层连接构成所述初始分类模型。
3.根据权利要求2所述的训练方法,其特征在于,所述非线性变化函数为:其中,x为所述最大池化层的输出值。
4.根据权利要求1至3任一项所述的训练方法,其特征在于,为所述语义线索训练模型层设定第一学习率,为所述分类层设定第二学习率,其中,所述第一学习率<第二学习率。
5.一种文本分析方法,其特征在于,包括:
获取目标文本数据集,其中,所述目标文本数据集中包括多个待分析文本数据;
将所述目标文本数据集输入至权利要求1至4任一项所述的分类模型的训练方法得到的分类模型中,为所述目标文本数据集中每个待分析文本数据进行分类预测并标记对应的分类标签,得到带有分类标签的目标文本数据集;
将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据;
将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,以供根据所述聚类结果进行文本分析。
6.根据权利要求5所述的文本分析方法,其特征在于,所述无监督句向量训练模型包括:语义匹配训练模型层、编码层和对比学习层。
7.根据权利要求6所述的文本分析方法,其特征在于,将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据,包括:
将所述目标文本数据集拆分为多个批次数据,其中,每个批次数据包括多个待分析文本数据;
将每个批次数据输入至所述语义匹配训练模型层、所述编码层和所述对比学习层进行学习训练处理,所述对比学习层将学习训练处理后得到的该批次数据对应的句向量数据进行输出。
8.根据权利要求7所述的文本分析方法,其特征在于,所述将每个批次数据输入至所述语义匹配训练模型层、所述编码层和所述对比学习层进行学习训练处理,所述对比学习层将学习训练处理后得到的该批次数据对应的句向量数据进行输出,包括:
将当前处理的批次数据经过所述语义匹配训练模型层和所述编码层进行分析处理之后得到包含两个相似正样本和多个负样本的文本数据;
将所述文本数据输入至对比学习层按照预定标准的目标函数进行学习训练过程;
根据根据所述对比学习层输出的对比学习结果计算损失函数;
响应于确定所述损失函数未收敛至预定收敛值,利用所述语义匹配训练模型层和所述编码层重新对所述当前处理的批次数据进行分析处理,得到新的文本数据重复所述学习训练过程;
响应于确定所述损失函数收敛至预定收敛值,所述对比学习层将最后得到的当前处理的批次数据的句向量输出。
9.根据权利要求8所述的文本分析方法,其特征在于,所述将当前处理的批次数据经过所述语义匹配训练模型层和所述编码层进行分析处理之后得到包含两个相似正样本和多个负样本的文本数据,包括:
从所述当前处理的批次数据中选择目标待分析文本数据,将所述目标待分析文本数据两次输入至所述语义匹配训练模型层和所述编码层进行封装处理得到两个相似正样本x和x+;
将所述当前处理的批次数据中的其他待分析文本数据输入至所述语义匹配训练模型层和所述编码层作为负样本x-;
将两个相似正样本x和x+和多个负样本x-作为当前处理的批次数据的文本数据。
10.根据权利要求9所述的文本分析方法,其特征在于,所述目标函数f满足的预定标准为:score(f(x),f(x+))>>score(f(x),f(x-));
其中,score()为学习训练过程中的打分值,“>>”远大于的判定标准为:score(f(x),f(x+))大于score(f(x),f(x-))超过预定打分值阈值。
11.根据权利要求10所述的文本分析方法,其特征在于,所述损失函数的计算公式为:
其中,h表示所述编码层的输出结果,z表示封装处理结果,N表示当前处理的批次数据的数量,z’表示与z相似正样本的封装处理结果。
12.根据权利要求7所述的文本分析方法,其特征在于,将所述目标文本数据集拆分为多个批次数据之前,还包括:
对所述目标文本数据集进行过滤,去除目标文本数据集中的重复数据。
13.根据权利要求5至12任一项所述的文本分析方法,其特征在于,将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,包括:
将所述带有分类标签的目标文本数据集与所述句向量数据均作为聚类数据输入至基于密度的聚类模型中;
在所述聚类模型中结合每个聚类数据之间的可达关系,根据预先设定的密度邻域半径和核心点阈值,对每个聚类数据进行聚类,得到至少一个聚类簇;
为每个聚类簇确定对应的聚类簇标签,对该聚类簇中的每个聚类数据标记所述聚类簇标签;
将带有聚类簇标签的聚类数据作为聚类结果输出。
14.一种分类模型的训练装置,其特征在于,包括:
第一获取模块,用于获取分类文本数据集,其中,所述分类文本数据集中文本数据的数量小于等于预定数量,且每个文本数据均带有相应的分类标签;
模型构建模块,用于构建包括语义线索训练模型层、最大池化层、变换层和分类层的初始分类模型;
分类训练模块,用于将所述分类文本数据集中的文本数据输入至所述初始分类模型中,依次经过所述语义线索训练模型层、所述最大池化层、所述变换层和所述分类层进行训练处理,通过所述分类层输出分类结果,根据所述输出分类结果与输入的文本数据对应的分类标签的差异性对所述初始分类模型进行训练调整;
模型确定模块,用于响应于确定所述初始分类模型将所述分类文本数据集中的文本数据全部训练处理完成,将最终的初始分类模型作为分类模型。
15.一种文本分析装置,其特征在于,包括:
第二获取模块,用于获取目标文本数据集,其中,所述目标文本数据集中包括多个待分析文本数据;
分类预测模块,用于将所述目标文本数据集输入至权利要求1至4任一项所述的分类模型的训练方法得到的分类模型中,为所述目标文本数据集中每个待分析文本数据进行分类预测并标记对应的分类标签,得到带有分类标签的目标文本数据集;
无监督训练模块,用于将所述目标文本数据集输入至预先构建的无监督句向量训练模型中进行训练处理,所述无监督句向量训练模型输出所述目标文本数据集对应的句向量数据;
聚类分析模块,用于将所述带有分类标签的目标文本数据集与所述句向量数据进行聚类处理,得到聚类结果,以供根据所述聚类结果进行文本分析。
16.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任意一项所述的分类模型的训练方法,或者实现如权利要求5至13任意一项所述的文本分析方法。
17.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行如权利要求1至4任意一项所述的分类模型的训练方法,或者执行如权利要求5至13任意一项所述的文本分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275092.9A CN116821781A (zh) | 2022-03-18 | 2022-03-18 | 分类模型的训练方法、文本分析方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275092.9A CN116821781A (zh) | 2022-03-18 | 2022-03-18 | 分类模型的训练方法、文本分析方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821781A true CN116821781A (zh) | 2023-09-29 |
Family
ID=88120784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210275092.9A Pending CN116821781A (zh) | 2022-03-18 | 2022-03-18 | 分类模型的训练方法、文本分析方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821781A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117195891A (zh) * | 2023-11-07 | 2023-12-08 | 成都航空职业技术学院 | 一种基于数据分析的工程施工材料供应链管理系统 |
-
2022
- 2022-03-18 CN CN202210275092.9A patent/CN116821781A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117195891A (zh) * | 2023-11-07 | 2023-12-08 | 成都航空职业技术学院 | 一种基于数据分析的工程施工材料供应链管理系统 |
CN117195891B (zh) * | 2023-11-07 | 2024-01-23 | 成都航空职业技术学院 | 一种基于数据分析的工程施工材料供应链管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
WO2022022421A1 (zh) | 语言表示模型系统、预训练方法、装置、设备及介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
AU2016256764A1 (en) | Semantic natural language vector space for image captioning | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN112836487B (zh) | 一种自动评论方法、装置、计算机设备及存储介质 | |
CN110827799B (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN112085120A (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN113792537A (zh) | 一种动作生成方法以及装置 | |
CN112633394A (zh) | 一种智能用户标签确定方法、终端设备及存储介质 | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
CN117390497B (zh) | 基于大语言模型的类目预测方法、装置和设备 | |
CN112988965B (zh) | 文本数据处理方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |