CN112214599B - 基于统计学和预训练语言模型的多标签文本分类方法 - Google Patents

基于统计学和预训练语言模型的多标签文本分类方法 Download PDF

Info

Publication number
CN112214599B
CN112214599B CN202011121726.2A CN202011121726A CN112214599B CN 112214599 B CN112214599 B CN 112214599B CN 202011121726 A CN202011121726 A CN 202011121726A CN 112214599 B CN112214599 B CN 112214599B
Authority
CN
China
Prior art keywords
label
model
layer
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011121726.2A
Other languages
English (en)
Other versions
CN112214599A (zh
Inventor
廖伟智
周佳瑞
阴艳超
曹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011121726.2A priority Critical patent/CN112214599B/zh
Publication of CN112214599A publication Critical patent/CN112214599A/zh
Application granted granted Critical
Publication of CN112214599B publication Critical patent/CN112214599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于统计学和预训练语言模型的多标签文本分类方法,包括以下步骤:S1、对需要分类的训练语料进行预处理;S2、建立基于统计学方法和语言模型的标签获取模型;S3、对获取的标签数据进行处理;S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。本发明提出一种结合了统计学方法与预训练语言模型标签获取方法,使用ALBERT语言模型来获取文本的语义编码信息,不需要人工标注数据集,能够提高获取标签的准确度。

Description

基于统计学和预训练语言模型的多标签文本分类方法
技术领域
本发明涉及一种基于统计学和预训练语言模型的多标签文本分类方法。
背景技术
2013年以来,基于神经网络的深度学习理论取得了重大进步,已经广泛运用到图像和自然语言处理领域,衍生了许多研究与应用方向。文本分类是自然语言处理中最重要的任务之一,在现实生活中有很多应用,例如舆情监测,标签推荐,信息查找等。传统的单标签文本分类算法难以解决现实生活场景中文本的多样性问题,多标签文本分类已经成为自然语言处理文本分类任务中热门研究方向。
当前的多标签文本分类方法主要分为两类:
第一类是基于传统机器学习的多标签文本分类方法,例如:Binary relevance,Classifier chains,ML-DT,Rank-SVM和ML-KNN等,是通过提取依赖于语料库实现标签的特征提取,这类方法需要通过人工设计的特征来训练分类器,模型的质量取决于特征设计的质量。而且这类方法并没有考虑单词的语义信息及上下文信息,还会造成数据维度灾难,准确性也不高。
第二类是基于深度学习的多标签文本分类方法,这类方法将深度学习,例如全连接神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制(Attention)等应用到多标签文本分类中。使用神经网络处理文本分类弥补了传统机器学习方法的很多缺陷,比如:不需要通过人工设计特征等,但是这些方法仍未能充分的提取语义信息,且比较依赖于训练数据集的标签准确度。
上述分类方法存在以下技术缺点:
(1)基于传统机器学习的多标签文本分类方法需要人工设计特征,非常耗时耗力,并且特征的质量对分类效果的影响很大。
(2)现有的基于深度学习的方法大多采用CNN、RNN等来提取语义信息,虽然可以取得不错的效果,但相比使用预训练语言模型来提取语义信息,仍然具有一定的差距。
(3)以上两种方法都需要较大规模的已标注数据集,特别是基于深度学习的多标签文本分类方法,对训练数据集的标签准确度以及规模大小都提出了更高的要求,而对于许多应用领域,大规模高准确性的标注数据集的获取成本往往都很大。
发明内容
本发明的目的在于克服现有技术的不足,提供一种结合统计学方法与预训练语言模型标签获取方法,使用ALBERT语言模型来获取文本的语义编码信息,不需要人工标注数据集,能够提高获取标签的准确度的基于统计学和预训练语言模型的多标签文本分类方法。
本发明的目的是通过以下技术方案来实现的:基于统计学和预训练语言模型的多标签文本分类方法,包括以下步骤:
S1、对需要分类的训练语料进行预处理;
S2、建立基于统计学方法和语言模型的标签获取模型;
S3、对获取的标签数据进行处理;
S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;
S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。
进一步地,所述步骤S1具体实现方法为:获取需要标注的语料数据集OrgData,并去除停用词,然后得到NewData并保存下来。
进一步地,所述步骤S2的标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层:
关键词层:通过统计学方法得到排名靠前的k个关键词;
输入编码层:将输入转换为神经网络可识别的词向量;
预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型;
相似度分析层:本层是一个全连接层,通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后,进行相似度的计算。
进一步地,所述步骤S3具体实现方法为:对标签进行统计得到整个数据集的标签集合Lable_Set,对每个标签进行编号,得到标签集合Lable_Set对应的标签编号集合Lable_ID,再通过Lable_ID将数据集中的标签转换为对应的one-hot向量。
进一步地,所述步骤S4的多标签分类模型包括依次连接的输入编码层、预训练语言模型层、全连接层和输出层;
输入编码层:将输入转换为神经网络可识别的词向量;
预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型,输出向量选择为整个语义编码向量:
Figure BDA0002732203680000021
全连接层:将预训练语言模型层输出的语义编码向量作为全连接层的输入,得到输出bc′:
bc′=W'bc
其中W′为全连接层的权值矩阵;
输出层:对全连接层的输出bc′,通过softmax计算得到标签的概率分布yt
yt=softmax(bc′)。
进一步地,所述步骤S4的模型训练具体实现方法为:对多标签分类模型的输出概率分布向量与步骤S3中得到的真实标签的one-hot向量进行交叉熵损失函数计算,其计算公式为:
Figure BDA0002732203680000031
其中,p,q分别代表多标签分类模型的输出概率分布向量和真实标签的one-hot向量;p(xi)和q(xi)分别表示向量中第i个元素,n表示向量中元素的总数量;
采用梯度下降法(或其他优化方法)训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练。
本发明的有益效果是:本发明提出一种结合了统计学方法与预训练语言模型标签获取方法,使用ALBERT语言模型来获取文本的语义编码信息,不需要人工标注数据集,能够提高获取标签的准确度。
附图说明
图1为本发明的基于统计学和预训练语言模型的多标签文本分类方法的流程图;
图2为本发明的标签获取模型结构图;
图3为本发明的BERT模型结构图;
图4为本发明的Transformer Encoder端单元结构图;
图5为本发明多标签分类模型的结构图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于统计学和预训练语言模型的多标签文本分类方法,包括以下步骤:
S1、对需要分类的训练语料进行预处理;具体实现方法为:获取需要标注的语料数据集OrgData,并去除停用词(例如“了”、“个”等停用词和特殊符号等无意义字词),然后得到NewData并保存下来。
S2、建立基于统计学方法和语言模型的标签获取模型;标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层,如图2所示。
关键词层:通过统计学方法(如TF-IDF/TextRank/LDA等算法)得到排名靠前的k个关键词;本实施例以TF-IDF为例进行说明:
①、计算数据集中每个单段文本中每个词的词频(TF):
Figure BDA0002732203680000041
Figure BDA0002732203680000042
TFw表示第w个词条的词频;
②、计算该词对应整个语料数据集的逆文档频率IDFw
Figure BDA0002732203680000043
Figure BDA0002732203680000044
③、计算该词的词频-逆文档频率TF-IDF;
TF-IDF=TF*IDF;
④、对每个段落按照步骤(1)~(3)计算每个词的TF-IDF,并按降序进行排列,取前k个词作为该段落的关键词。
输入编码层:将输入转换为神经网络可识别的词向量,作为下一层的输入;在这一层中使用预训练的词向量Glove,将语料转化为神经网络可以处理的词向量。
以一个句子为例,其表现形式为:
Figure BDA0002732203680000045
经过输入编码层转化为
Figure BDA0002732203680000049
其中n为句子的长度,dv为词向量的维度。同样的,对于TF-IDF得到的k个关键词,其表现形式为
Figure BDA0002732203680000047
通过输入编码层转化为对应的词向量,表示为
Figure BDA0002732203680000048
将其按从左到右的顺序拼接成一个词向量编码矩阵Ht∈Rk×v,其中v为词向量的维度。
预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型;该模型是一个BERT的改进模型,下面对BERT和ALBERT模型做一个简要介绍。BERT(Bidirectional Encoder Representation from Transformers)是Google的Devlin J等于2018年10月提出的新型预训练模型,在当时11项自然语言处理任务中刷新了记录。其结构如图3所示。
BERT模型采用了双向Transformer编码器,其训练方法分为两步:一是通过随机MASK训练集中15%的词。其中被打上[MASK]标记的词有80%的概率直接替换为[MASK]标签,10%概率替换为任意单词,10%概率保留原始Token,让模型预测被MASK的单词含义;二是通过从训练文本中挑选语句对,其中包括连续的语句对和非连续的语句对,让模型来判断语句对是否呈“上下句”关系。
BERT模型中Transformer编码器具体单元结构如图4所示。在输入文本后先进行词嵌入(Embedding)编码处理,将文本词向量化,再对其进行位置信息编码(PositionalEncoding)。为了充分考虑每一个句子中不同词语之间的语义和语法联系,设计了自注意力层(Self-Attention),同时考虑到不同head(不同表示子空间)中单词的Attention(侧重点)不同,通过结合多个自注意力层形成多头(Multi-Head)机制来使模型获得更大容量。基于多头机制的自注意力层的输出会经过残差连接(Residual Connection)&层归一化(Layer Normalization)层,通过将经过位置信息编码后的输出与多头机制自注意力层的输出相加,再进行层归一化操作,这样可以做到仅关注差异部分并使模型更容易训练。残差连接&层归一化层的输出传递到前馈神经网络层(Feed Forward),再经过残差连接&层归一化层后输出。
ALBERT(A LITE BERT)是Google公司基于BERT基础上进行了一系列改造后的预训练小模型,该模型参数量相比传统BERT大幅度降低,运行速度提高,在一定程度上突破了硬件的限制,并在许多自然语言处理任务上发挥出色。
ALBERT相较于BERT的改进点主要有以下几点:
①:Factorized embedding parameterization(词嵌入因式分解):降低Embedding层的词嵌入维度,并在词嵌入和隐藏层间再添加一个project层。假设词表大小为L,隐藏层维度为H,词嵌入维度为V。那么BERT模型参数Pbert计算公式为:
Pbert=V×L
ALBERT模型参数Palbert计算公式为:
Palbert=L×V+V×H
BERT模型中词嵌入维度和隐藏层维度相同,在通常V很大,V远小于H的情况下,词嵌入因式分解后的参数量将大幅度减小。
②:Cross-Layer Parameter Sharing(跨层参数共享):在ALBERT模型中结合了Transformer两种参数共享的方式,将全连接层和attention层都实现了参数共享,达到减小参数量和提高模型训练速度的效果。
③:Inter-sentence coherence loss(句间连贯):改进了BERT模型原有的连续句二分类训练任务,提出了SOP(sentence-order prediction)的新型训练任务,让模型去识别给定两个句子的先后顺序。
④:移除dropout层。
albert_small_zh_google是ALBERT模型的一个实例,ALBERT模型全称是A LiteBERT,是Bert模型的一种轻量化改进型,Google公司针对不同语言预训练了模型的参数,并发布在GitHub上,根据隐藏层的数量分为small、base、large等,albert_small_zh_google就是其中的一种已经训练好的,针对中文语言的小型预训练语言模型。
在本层中,将句子向量
Figure BDA0002732203680000061
输入到ALBERT模型,得到n个单词的语义编码向量
Figure BDA00027322036800000611
其中dh为Albert的隐藏单元个数,此处dh=384,取
Figure BDA0002732203680000063
作为本层的输出,因为在Albert模型中,最后一层的输出将整个句子的特征信息投射到了句子第一个字的隐藏状态向量上面,因此可以将
Figure BDA0002732203680000064
作为该句子的向量表示。
相似度分析层:本层是一个全连接层,通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后,进行相似度的计算,,其计算公式为:
Figure BDA0002732203680000065
以词向量
Figure BDA0002732203680000066
与句子向量
Figure BDA0002732203680000067
为例,其实际的余弦相似度为
Figure BDA0002732203680000068
其中,W为该全连接层的权值矩阵。
同样的,计算每个词向量与该文本段的全部句子向量的余弦相似度,通过Rank计算公式计算出每个词向量的Rank值,并按降序进行排列,按照要求取前k个词作为该段文本的真实标签输出。其Rank值计算公式如下:
Figure BDA0002732203680000069
其中,wr和ur是权重参数,m是一个文本段中句子的个数。
S3、对获取的标签数据进行处理;具体实现方法为:对标签进行统计得到整个数据集的标签集合Lable_Set,对每个标签进行编号,得到标签集合Lable_Set对应的标签编号集合Lable_ID,再通过Lable_ID将数据集中的标签转换为对应的one-hot向量。
S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;多标签分类模型包括依次连接的输入编码层、预训练语言模型层、全连接层和输出层,如图5所示。
输入编码层:将输入转换为神经网络可识别的词向量;
预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型,输出向量选择为整个语义编码向量:
Figure BDA00027322036800000610
全连接层:将预训练语言模型层输出的语义编码向量作为全连接层的输入,得到输出bc′:
bc′=W′bc
其中W′为全连接层的权值矩阵;
输出层:对全连接层的输出bc′,通过softmax计算得到标签的概率分布yt
yt=softmax(bc′)。
模型训练具体实现方法为:对多标签分类模型的输出概率分布向量与步骤S3中得到的真实标签的one-hot向量进行交叉熵损失函数计算,其计算公式为:
Figure BDA0002732203680000071
其中,p,q分别代表多标签分类模型的输出概率分布向量和真实标签的one-hot向量;p(xi)和q(xi)分别表示向量中第i个元素,n表示向量中元素的总数量;
采用梯度下降法(或其他优化方法)训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练。
S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类;将预测数据中的文本进行分词、去除停用词后,然后将其输入到训练好的多标签文本分类模型中,进行文本类别的预测。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,包括以下步骤:
S1、对需要分类的训练语料进行预处理;
S2、建立基于统计学方法和语言模型的标签获取模型;标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层:
关键词层:通过统计学方法得到排名靠前的k个关键词;
输入编码层:将输入转换为神经网络可识别的词向量;
预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型;
相似度分析层:本层是一个全连接层,通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后,进行相似度的计算;
S3、对获取的标签数据进行处理;具体实现方法为:对标签进行统计得到整个数据集的标签集合Lable_Set,对每个标签进行编号,得到标签集合Lable_Set对应的标签编号集合Lable_ID,再通过Lable_ID将数据集中的标签转换为对应的one-hot向量;
S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;
S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。
2.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,所述步骤S1具体实现方法为:获取需要标注的语料数据集OrgData,并去除停用词,然后得到NewData并保存下来。
3.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,所述步骤S4的多标签分类模型包括依次连接的输入编码层、预训练语言模型层、全连接层和输出层;
输入编码层:将输入转换为神经网络可识别的词向量;
预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型,输出向量为整个语义编码向量bc
全连接层:将预训练语言模型层输出的语义编码向量作为全连接层的输入,得到输出bc′:
bc′=W′bc
其中W′为全连接层的权值矩阵;
输出层:对全连接层的输出bc′,通过softmax计算得到标签的概率分布yt
yt=softmax(bc′)。
4.根据权利要求3所述的基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,所述步骤S4的模型训练具体实现方法为:对多标签分类模型的输出概率分布向量与步骤S3中得到的真实标签的one-hot向量进行交叉熵损失函数计算,其计算公式为:
Figure FDA0003649315400000021
其中,p,q分别代表多标签分类模型的输出概率分布向量和真实标签的one-hot向量;p(xi)和q(xi)分别表示多标签分类模型的输出概率分布向量和真实标签的one-hot向量中第i个元素,n表示向量中元素的总数量;
采用梯度下降法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练。
CN202011121726.2A 2020-10-20 2020-10-20 基于统计学和预训练语言模型的多标签文本分类方法 Active CN112214599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011121726.2A CN112214599B (zh) 2020-10-20 2020-10-20 基于统计学和预训练语言模型的多标签文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011121726.2A CN112214599B (zh) 2020-10-20 2020-10-20 基于统计学和预训练语言模型的多标签文本分类方法

Publications (2)

Publication Number Publication Date
CN112214599A CN112214599A (zh) 2021-01-12
CN112214599B true CN112214599B (zh) 2022-06-24

Family

ID=74055993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011121726.2A Active CN112214599B (zh) 2020-10-20 2020-10-20 基于统计学和预训练语言模型的多标签文本分类方法

Country Status (1)

Country Link
CN (1) CN112214599B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784047B (zh) * 2021-01-25 2023-02-28 重庆邮电大学 一种基于自注意力机制的可控可解释司法文本分类方法
CN112925902B (zh) * 2021-02-22 2024-01-30 新智认知数据服务有限公司 案情文本中智能提取文本摘要的方法、系统及电子设备
CN113220874B (zh) * 2021-03-13 2023-04-07 山东师范大学 一种多标签文本分类方法及系统
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113032563B (zh) * 2021-03-22 2023-07-14 山西三友和智慧信息技术股份有限公司 一种基于人工遮掩关键词的正则化文本分类微调方法
CN113064993B (zh) * 2021-03-23 2023-07-21 南京视察者智能科技有限公司 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法
CN113139054B (zh) * 2021-04-21 2023-11-24 南通大学 一种基于Transformer的代码编程语言分类方法
CN113254613B (zh) * 2021-05-24 2024-07-19 深圳壹账通智能科技有限公司 对话问答方法、装置、设备及存储介质
CN113254617B (zh) * 2021-06-11 2021-10-22 成都晓多科技有限公司 基于预训练语言模型和编码器的消息意图识别方法及系统
CN113626589B (zh) * 2021-06-18 2023-04-18 电子科技大学 一种基于混合注意力机制的多标签文本分类方法
CN113407720B (zh) * 2021-06-25 2023-04-25 南开大学 基于预训练文本编码模型的分类体系扩展方法
CN113254599B (zh) * 2021-06-28 2021-10-08 浙江大学 一种基于半监督学习的多标签微博文本分类方法
CN113515632B (zh) * 2021-06-30 2024-03-19 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于图路径知识萃取的文本分类方法
CN113487194B (zh) * 2021-07-12 2023-11-07 贵州电网有限责任公司 一种基于文本分类的电力系统调度员等级评估系统
CN113704466B (zh) * 2021-07-26 2024-03-12 和美(深圳)信息技术股份有限公司 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113569553A (zh) * 2021-07-28 2021-10-29 广州芳禾数据有限公司 基于改进Adaboost算法的句子相似性判断方法
CN113723106B (zh) * 2021-07-29 2024-03-12 北京工业大学 基于标签扩展的零样本文本分类方法
CN113688911A (zh) * 2021-08-26 2021-11-23 安徽咪鼠科技有限公司 一种基于softmax的文本多标签分类方法
CN114186059A (zh) * 2021-11-01 2022-03-15 东风汽车集团股份有限公司 一种文章的分类方法和装置
CN113987187B (zh) * 2021-11-09 2024-06-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114398480B (zh) * 2021-11-26 2024-10-15 国新数智科技(北京)有限公司 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN114153802B (zh) * 2021-12-03 2024-09-06 西安交通大学 一种基于Bert和残差自注意力机制的政务文件主题分类方法
CN114491024B (zh) * 2021-12-31 2024-04-26 长城信息股份有限公司 一种基于小样本的特定领域多标签文本分类方法
CN114756682B (zh) * 2022-04-28 2024-06-21 华中师范大学 一种数学文本的语义分类方法
CN114861629B (zh) * 2022-04-29 2023-04-04 电子科技大学 一种文本风格的自动化评判方法
CN114580433B (zh) * 2022-05-05 2022-08-02 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN114722208B (zh) * 2022-06-08 2022-11-01 成都健康医联信息产业有限公司 一种健康医疗文本自动分类和安全等级自动分级方法
CN115730237B (zh) * 2022-11-28 2024-04-23 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN116541705B (zh) * 2023-05-06 2024-06-11 石家庄铁道大学 文本分类模型的训练方法及文本分类方法
CN116594627B (zh) * 2023-05-18 2023-12-12 湖北大学 一种基于多标签学习的群体软件开发中服务匹配方法
CN116804998A (zh) * 2023-08-22 2023-09-26 神州医疗科技股份有限公司 基于医学语义理解的医学术语检索方法和系统
CN117313709B (zh) * 2023-11-29 2024-03-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法
CN118535743A (zh) * 2024-07-25 2024-08-23 之江实验室 一种基于词权统计和预训练模型的文本分类方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798624A (zh) * 2017-10-30 2018-03-13 北京航空航天大学 一种软件问答社区中的技术标签推荐方法
CN110134789A (zh) * 2019-05-17 2019-08-16 电子科技大学 一种引入多路选择融合机制的多标签长文本分类方法
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111444340A (zh) * 2020-03-10 2020-07-24 腾讯科技(深圳)有限公司 文本分类和推荐方法、装置、设备及存储介质
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320387A1 (en) * 2010-06-28 2011-12-29 International Business Machines Corporation Graph-based transfer learning
US10878296B2 (en) * 2018-04-12 2020-12-29 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798624A (zh) * 2017-10-30 2018-03-13 北京航空航天大学 一种软件问答社区中的技术标签推荐方法
CN110134789A (zh) * 2019-05-17 2019-08-16 电子科技大学 一种引入多路选择融合机制的多标签长文本分类方法
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111444340A (zh) * 2020-03-10 2020-07-24 腾讯科技(深圳)有限公司 文本分类和推荐方法、装置、设备及存储介质
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Francesco Sovrano等.Deep Learning Based Multi-Label Text Classification of UNGA Resolutions.《https://arxiv.org/abs/2004.03455》.2020,第1-10页. *
徐香香.基于神经网络的多标签文本分类.《中国优秀硕士学位论文全文数据库信息科技辑》.2020,(第7期),第I138-1462页. *
蒋彦廷等.基于BERT模型的图书表示学习与多标签分类研究.《新世纪图书馆》.2020,(第9期),第38-44页. *

Also Published As

Publication number Publication date
CN112214599A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112214599B (zh) 基于统计学和预训练语言模型的多标签文本分类方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN112800776B (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN111177376B (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN110287323A (zh) 一种面向目标的情感分类方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN112287672A (zh) 文本意图识别方法及装置、电子设备、存储介质
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN114153973A (zh) 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN116662599A (zh) 一种基于对比学习算法的多模态商标检索方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant