CN116775880A - 一种基于标签语义和迁移学习的多标签文本分类方法及系统 - Google Patents
一种基于标签语义和迁移学习的多标签文本分类方法及系统 Download PDFInfo
- Publication number
- CN116775880A CN116775880A CN202310786159.XA CN202310786159A CN116775880A CN 116775880 A CN116775880 A CN 116775880A CN 202310786159 A CN202310786159 A CN 202310786159A CN 116775880 A CN116775880 A CN 116775880A
- Authority
- CN
- China
- Prior art keywords
- label
- head
- tail
- text
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013526 transfer learning Methods 0.000 title claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Abstract
本发明涉及一种基于标签语义和迁移学习的多标签文本分类方法及系统,属于自然语言处理技术领域。该方法具体为,获取文本数据集并预处理,整理数据集并划分为训练集、验证集和测试集;初始化文本获得文本嵌入;构建语义提取器,获取头部文档表示、尾部文档表示和测试集文档表示;构建头部分类器,获得头部分类器权重;构建标签原型机生成头标签原型、尾标签原型;通过迁移学习预测尾部分类器权重;将头部分类器权重和尾部分类器权重拼接得到用于预测标签的分类器权重并对测试集进行预测。本发明通过迁移学习解决了长尾效应,提高了多标签文本分类任务的精度的效率。
Description
技术领域
本发明属于自然语言处理技术领域,涉及一种基于标签语义和迁移学习和多标签文本分类方法及系统。
背景技术
文本数据是人们容易接受的一种数据形式,它往往包含着相当丰富的信息,无论是在日常交流还是网络上都具有举足轻重的地位。因此,如何对文本进行准确有效的管理、组织、筛选、过滤,并对文本信息高效的获取,从而为人们提供高质量的信息服务已成为当今信息科学技术领域的一个重大挑战。
文本分类是一种自然语言处理(Natural Language Processing,NLP)技术,用于将文本数据按照其内容进行分类。在文本分类任务中,文本数据被分成两个或多个类别。分类任务可以分为二分类和多分类两种类型。二分类是最简单的文本分类任务之一,它将文本数据分成两个类别。二分类任务通常用于情感分析、垃圾邮件过滤以及文本相似度等方面。多分类是另一种常见的文本分类任务,它将文本数据分成三个或更多个类别。多分类任务通常用于新闻分类、产品分类以及电影分类等方面。多分类任务的难点在于如何设计算法,以处理大量的类别和复杂的类别关系。文本分类技术已被广泛应用于各种领域,例如信息检索、社交媒体分析、舆情监测、智能客服等。在实际应用中,文本分类技术可以帮助人们更快、更准确地获取所需信息,提高工作效率和精度。
目前针对多标签文本分类的主要有两种方法:分别是基于传统机器学习的方法和基于深度学习的方法。传统的机器学习方法通常采用基于特征的方法,使用文本的词袋模型或者TF-IDF算法提取文本的特征,然后使用分类器进行分类。在多标签情况下,可以使用二元分布式分类(Binary Relevance)和多标签分类器链(Classifier Chains)等方法来处理。这些方法需要对每个标签训练一个单独的分类器,而且忽略了标签之间的依赖关系。
近年来,基于深度学习的多标签文本分类方法逐渐成为研究的热点。深度学习模型可以自动提取文本的特征,避免了手动特征工程的过程,并且可以捕获标签之间的依赖关系。其中,使用卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)的模型在多标签文本分类任务中表现出色。此外,还有一些基于注意力机制(Attention Mechanism)的模型,它们可以更加准确地捕获文本的关键信息。
但目前多标签文本分类仍存在着长尾问题,即文本中尾标签被分类为头标签,导致尾标签的泛化能力较弱,这必然影响到了多标签文本分类任务的效率以及准确性。因此,有必要针对多标签文本分类中的长尾问题进行优化研究。
发明内容
有鉴于此,本发明的目的在于提供一种基于标签语义和迁移学习的多标签文本分类方法及系统,通过提取标签语义提升多标签分类任务的效果和性能,通过迁移学习改善长尾效应,提高模型的泛化性能和效率。
为达到上述目的,本发明提供如下技术方案:
方案一、一种基于标签语义和迁移学习的多标签文本分类方法,其包括以下步骤:
S1、获取文本数据集并预处理,整理数据集并划分为训练集、验证集和测试集;
S2、初始化文本获得文本嵌入;
S3、构建语义提取器,引入标签语义嵌入,获得文档表示并将标签训练集划分的头部文档和尾部文档分别输入到语义提取器获得头部文档表示Rhead和尾部文档表示Rtail,将测试集经过语义提取器获得测试集的文档表示Rtest;
S4、构建头部分类器,将头部文档表示Rhead作为头部分类器的输入对头部分类器进行训练,得到头部分类器权重Mhead;
S5、构建标签原型机为每个头标签和尾标签分别生成头标签原型Phead和尾标签原型Ptail,再构建尾标签注意力模块捕获头尾标签依赖以获得新的尾标签原型Pnew;
S6、通过训练迁移学习模型将头标签原型Phead映射到头部分类器权重Mhead,得到训练后的参数Wtransfer,并采用训练后的迁移学习模型预测尾部分类器权重Mtail;
S7、将头部分类器权重Mhead和尾部分类器权重Mtail拼接得到用于预测标签的分类器权重M,将Rtest通过训练后的分类器对标签进行预测。
进一步地,步骤S1中,预处理包括提取文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;使用分词工具去除停用词。
进一步地,步骤S2中,利用Glove预训练嵌入模型对文本进行初始化,获得文本嵌入。
进一步地,步骤S3包括以下步骤:
S31、采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入,并计算每个单词的隐状态,以捕获每个单词的前后上下文信息,再将每个单词的隐状态串联以获得文档的整体表示H;
S32、采用自注意力机制提取最相关的文本语义信息,其中权重向量如下式:
A(s)=softmax(W2 tanh(W1H))
式中,W1表示权重矩阵,W2表示参数向量;
将文档的整体表示H与权重向量A(s)进行加权得到基于自注意力机制的文本表示r(s);
S33、引入标签嵌入,通过标签注意力机制对Bi-LSTM获得的文本表示和标签嵌入进行计算,确定单词和标签之间的语义关系r(l),以捕获隐藏在标签文本中的语义信息;
S34、使用自适应融合机制对r(s)和r(l)进行融合得到最终的文档表示R作为语义提取器的输出;
S35、将头部文档和尾部文档分别输入到语义提取器中获得头部文档表示Rhead和尾部文档表示Rtail;将测试集经过语义提取器获得测试集的文档表示Rtest。
进一步地,步骤S4具体为,将头部文档表示Rhead输入全连接层,使用sigmoid激活函数将全连接层输出转化为标签的概率;训练过程中使用二元交叉熵损失函数通过最小化损失函数训练模型学习头部分类器权重Mhead。
进一步地,步骤S5包括以下步骤:
S51、对于某个头部标签j,抽样t个文档并获得这些文档的表示对这t个文档表示求平均值得到标签j对应的头标签原型/>
通过同样的方式获得尾部标签z对应的尾标签原型
S52、引入尾标签注意模块,计算每个尾标签原型和头标签原型/>之间的注意力分数,获得尾标签注意原型,对尾标签注意原型和尾标签原型取平均即获得新的尾标签原型/>
进一步地,步骤S6具体为,通过迁移学习器来连接小样本标签原型pj和对应的多样本分类器权重mj以建立映射关系,具体地,通过最小化公式训练迁移函数将头标签原型映射到头部分类器权重/>对每个头部标签多次采样获得不同的/>以训练得到能够推广的迁移学习模型;再使用训练后的迁移学习模型来预测尾部分类器权重。
进一步地,步骤S7中,采用训练后的分类器对测试集标签进行预测如下式所示:
方案二、基于方案一所述方法提出的基于标签语义和迁移学习的多标签文本分类系统,、该系统包括依次连接的数据集构建与预处理模块、文本初始化模块、文本语义提取模块、迁移学习模块和标签预测模块。
本发明的有益效果在于:本发明通过引入标签嵌入融合文本和标签的语义信息,通过构建尾标签注意模块捕获头部标签和尾部标签的依赖,并且利用迁移学习将元知识从数据丰富的头标签转移到数据贫乏的尾标签,能够有效提升多标签文本分类效果。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明模型结构示意图;
图2为语义提取器结构示意图;
图3为本发明多标签文本分类系统示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,为本发明所提出的基于标签语义和迁移学习的多标签文本分类方法及系统。
其中多标签文本分类方法主要包括以下步骤:
S1、获取文本数据集,提取其文本内容并去除文本中的英文字符、表情和乱码,对文本进行分句;然后使用分词工具去除停用词。整理数据集后将其划分为训练集、验证集和测试集。
S2、采用Glove预训练嵌入模型对文本进行初始化,获得文本嵌入。
S3、构建语义提取器,如图2所示,引入标签语义嵌入,获得文档表示并将标签训练集划分的头部文档和尾部文档分别输入到语义提取器获得头部文档表示Rhead和尾部文档表示Rtail,将测试集经过语义提取器获得测试集的文档表示Rtest,具体如下:
S31、为捕获每个单词的前后上下文信息,采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入,并计算每个单词的隐状态,每个单词的隐状态表示由下式生成:
式中,和/>分别表示单词前后两个方向的隐状态,wi表示每个文本的词向量表示。
为获得文档的整体表示,将文档中每个单词的隐状态串联,文档的整体表示H由下式得到:
S32、生成的文档H中的单词对每个标签的贡献不同,采用自注意力机制提取最相关的文本语义信息,其中权重向量如下式所示:
A(s)=softmax(W2 tanh(W1H))
式中,W1表示权重矩阵,W2表示参数向量。
然后将文档H和权重向量A(s)进行加权得到基于自注意力机制的文本表示r(s):
式中,表示标签j对应的自注意力机制层的输出;
S33、为了捕获隐藏在标签文本中的语义信息,引入标签嵌入,通过标签注意力机制对Bi-LSTM获得的文本表示和标签嵌入进行计算,确定单词和标签之间的语义关系r(l),r(l)根据下式生成:
式中,C表示标签的词向量表示,和/>分别表示由标签注意力机制对单词前后两个方向的隐状态计算得到的注意力系数。
S34、为了最大限度地利用生成的文本语义信息和标签语义信息,使用自适应融合机制对r(s)和r(l)进行融合,得到最终的文档表示R作为语义提取器的输出,如下式所示:
β=sigmoid(r(s)W3)
γ=sigmoid(r(l)W4)
其中,W3,W4∈R2k为可训练参数,分别将r(s)和r(l)经过全连接层和sigmoid激活函数处理,得到r(s)和r(l)对应的权重系数β和γ;标签j在r(s)和r(l)上的权重系数分别为βj和γj,对βj和γj做归一化处理,是βj和γj的和为1,并对标签j对应的r(s)和r(l)进行加权合并,计算得到第j个标签融合后的文档信息表示Rj,如下式所示:
S35、将标签训练集划分的头部文档和尾部文档分别输入到由步骤S31~S34构建的语义提取器中获得头部文档表示Rhead和尾部文档表示Rtail;将测试集经过语义提取器获得测试集的文档表示Rtest。
S4、构建头部分类器,将头部文档表示Rhead作为头部分类器的输入对头部分类器进行训练,即将Rhead送入全连接层,接着使用sigmoid激活函数将全连接层输出转化为标签的概率,如下式所示:
其中Mhead为头部标签分类器的可训练参数,模型使用二元交叉熵损失函数通过最小化损失函数训练模型学习头部分类器权重Mhead,其中二元交叉熵损失函数如下:
式中,Nhead表示头部文档数量,lhead表示头部标签数量,yij和分别表示第i个实例的第j个标签的真实值和预测值。
S5、构建标签原型机为每个头标签和尾标签分别生成头标签原型Phead和尾标签原型Ptail,再构建尾标签注意力模块捕获头尾标签依赖以获得新的尾标签原型Pnew,具体如下:
S51、构建标签原型机,为每个标签生成标签原型。首先,针对某一个头部标签j,抽样t个文档并获得这些文档的表示然后对这些文档表示求平均值得到标签j对应的标签原型,如下式所示:
同理,对于一个尾部标签z,抽样t个文档并且通过语义提取器获得尾部文档表示然后对这些尾部文档表示求平均得到尾标签原型:
S52、引入尾标签注意模块,计算每个尾标签原型和头标签原型/>之间的注意力分数,获得尾标签注意原型,对尾标签注意原型和尾标签原型取平均即获得新的尾标签原型/>如下式所示:
式中,ezj表示权重参数,αzj表示头尾原型间的注意力分数,表示尾标签注意原型。
S6、通过训练迁移学习模型将头标签原型Phead映射到头部分类器权重Mhead,得到训练后的参数Wtransfer,并采用训练后的迁移学习模型预测尾部分类器权重Mtail;
具体地,通过迁移学习器来连接小样本标签原型pj和对应的多样本分类器权重mj以建立映射关系,即,通过最小化公式训练迁移函数将头标签原型映射到头部分类器权重/>其中最小化公式如下:
式中,Wtransfer∈Rd×d为迁移学习器的可训练参数。
为训练得到一个能够推广的迁移学习模型,对每个头部标签采样30次以获得不同的然后通过训练后的迁移学习模型来预测尾部分类器权重,如下式:
S7、将头部分类器权重Mhead和尾部分类器权重Mtail拼接得到用于预测标签的分类器权重M,将Rtest通过训练后的分类器对标签进行预测,具体如下:
将头部分类器权重与尾部分类器权重拼接形成完整的分类器权重,如下式:
最后将测试文档经过语义提取器得到文档表示Rtest,然后通过训练后的分类器对标签进行预测,如下式所示:
本发明提出的基于标签语义和迁移学习的多标签文本分类系统如图3所示,其包括依次连接的数据集构建与预处理模块、文本初始化模块、文本语义提取模块、迁移学习模块和标签预测模块。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于标签语义和迁移学习的多标签文本分类方法,其特征在于:该方法包括以下步骤:
S1、获取文本数据集并预处理,整理数据集并划分为训练集、验证集和测试集;
S2、初始化文本获得文本嵌入;
S3、构建语义提取器,引入标签语义嵌入,获得文档表示并将标签训练集划分的头部文档和尾部文档分别输入到语义提取器获得头部文档表示Rhead和尾部文档表示Rtail,将测试集经过语义提取器获得测试集的文档表示Rtest;
S4、构建头部分类器,将头部文档表示Rhead作为头部分类器的输入对头部分类器进行训练,得到头部分类器权重Mhead;
S5、构建标签原型机为每个头标签和尾标签分别生成头标签原型Phead和尾标签原型Ptail,再构建尾标签注意力模块捕获头尾标签依赖以获得新的尾标签原型Pnew;
S6、通过训练迁移学习模型将头标签原型Phead映射到头部分类器权重Mhead,得到训练后的参数Wtransfer,并采用训练后的迁移学习模型预测尾部分类器权重Mtail;
S7、将头部分类器权重Mhead和尾部分类器权重Mtail拼接得到用于预测标签的分类器权重M,将Rtest通过训练后的分类器对标签进行预测。
2.根据权利要求1所述的多标签文本分类方法,其特征在于:步骤S1中,所述预处理包括,提取文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;使用分词工具去除停用词。
3.根据权利要求1所述的多标签文本分类方法,其特征在于:步骤S3包括以下步骤:
S31、采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入,并计算每个单词的隐状态,以捕获每个单词的前后上下文信息,再将每个单词的隐状态串联以获得文档的整体表示H;
S32、采用自注意力机制提取最相关的文本语义信息,其中权重向量如下式:
A(s)=softmax(W2 tanh(W1H))
式中,W1表示权重矩阵,W2表示参数向量;
将文档的整体表示H与权重向量A(s)进行加权得到基于自注意力机制的文本表示r(s);
S33、引入标签嵌入,通过标签注意力机制对Bi-LSTM获得的文本表示和标签嵌入进行计算,确定单词和标签之间的语义关系r(l),以捕获隐藏在标签文本中的语义信息;
S34、使用自适应融合机制对r(s)和r(l)进行融合得到最终的文档表示R作为语义提取器的输出;
S35、将头部文档和尾部文档分别输入到语义提取器中获得头部文档表示Rhead和尾部文档表示Rtail;将测试集经过语义提取器获得测试集的文档表示Rtest。
4.根据权利要求1所述的多标签文本分类方法,其特征在于:步骤S4具体为,将头部文档表示Rhead输入全连接层,使用sigmoid激活函数将全连接层输出转化为标签的概率;训练过程中使用二元交叉熵损失函数通过最小化损失函数训练模型学习头部分类器权重Mhead。
5.根据权利要求1所述的多标签文本分类方法,其特征在于:步骤S5包括以下步骤:
S51、对于某个头部标签j,抽样t个文档并获得这些文档的表示对这t个文档表示求平均值得到标签j对应的头标签原型/>
通过同样的方式获得尾部标签z对应的尾标签原型
S52、引入尾标签注意模块,计算每个尾标签原型和头标签原型/>之间的注意力分数,获得尾标签注意原型,对尾标签注意原型和尾标签原型取平均即获得新的尾标签原型/>
6.根据权利要求1所述的多标签文本分类方法,其特征在于:步骤S6具体为,通过迁移学习器来连接小样本标签原型pj和对应的多样本分类器权重mj以建立映射关系,具体地,通过最小化公式训练迁移函数将头标签原型映射到头部分类器权重/>对每个头部标签多次采样获得不同的/>以训练得到能够推广的迁移学习模型;再使用训练后的迁移学习模型来预测尾部分类器权重。
7.根据权利要求1所述的多标签文本分类方法,其特征在于:步骤S7中,采用训练后的分类器对测试集标签进行预测如下式所示:
8.适用于权利要求1~7中任一项所述方法的基于标签语义和迁移学习的多标签文本分类系统,其特征在于:该系统包括依次连接的数据集构建与预处理模块、文本初始化模块、文本语义提取模块、迁移学习模块和标签预测模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310786159.XA CN116775880A (zh) | 2023-06-29 | 2023-06-29 | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310786159.XA CN116775880A (zh) | 2023-06-29 | 2023-06-29 | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116775880A true CN116775880A (zh) | 2023-09-19 |
Family
ID=88006124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310786159.XA Pending CN116775880A (zh) | 2023-06-29 | 2023-06-29 | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116775880A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313709A (zh) * | 2023-11-29 | 2023-12-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
-
2023
- 2023-06-29 CN CN202310786159.XA patent/CN116775880A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313709A (zh) * | 2023-11-29 | 2023-12-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
CN117313709B (zh) * | 2023-11-29 | 2024-03-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN108960073B (zh) | 面向生物医学文献的跨模态图像模式识别方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN110472003B (zh) | 基于图卷积网络的社交网络文本情感细粒度分类方法 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
Zhang et al. | Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network. | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN114896434B (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111639186A (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
CN113626589A (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
Zhang et al. | Attention pooling-based bidirectional gated recurrent units model for sentimental classification | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN115544252A (zh) | 一种基于注意力静态路由胶囊网络的文本情感分类方法 | |
CN115062727A (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |