CN113434683B - 文本分类方法、装置、介质及电子设备 - Google Patents
文本分类方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN113434683B CN113434683B CN202110744262.9A CN202110744262A CN113434683B CN 113434683 B CN113434683 B CN 113434683B CN 202110744262 A CN202110744262 A CN 202110744262A CN 113434683 B CN113434683 B CN 113434683B
- Authority
- CN
- China
- Prior art keywords
- classification
- model
- text data
- information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 82
- 238000013145 classification model Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000012512 characterization method Methods 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 18
- 230000008451 emotion Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及自然语言处理领域,揭示了一种文本分类方法、装置、介质及电子设备。该方法包括:获取目标文本数据;将目标文本数据输入至预先训练好的文本分类模型;通过变分信息瓶颈处理层输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值;通过分类模块根据从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息输出分类预测信息;通过分类标签生成层,根据从分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值,生成并输出所述目标文本数据对应的分类标签。此方法下,减少了过拟合现象的发生,还拓展了预训练模型的推广应用的范围。
Description
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种文本分类方法、装置、介质及电子设备。
背景技术
目前,预训练模型在下游任务中广泛得到应用,取得了很好的效果。然而,预训练模型的体量和参数非常多,一旦目标任务的样本数据量较小,直接应用这类预训练模型往往会导致其在大量与任务无关信息和目标标签之间建立错误联系而出现过拟合现象,使很难仅通过微调(fine-tuning)就学习到有效信息。同时,由于在现实应用场景里人工标注数据非常昂贵且耗时,许多下游任务的样本数据量都非常有限,这使得预训练模型的推广应用受到局限。
发明内容
在自然语言处理技术领域,为了解决上述技术问题,本公开的目的在于提供一种文本分类方法、装置、介质及电子设备。
根据本公开的一方面,提供了一种文本分类方法,所述方法包括:
获取待分类的目标文本数据;
将所述目标文本数据输入至预先训练好的文本分类模型,其中,所述文本分类模型包括变分信息瓶颈处理层、分类模块和分类标签生成层,所述分类模块与所述变分信息瓶颈处理层相连,所述分类标签生成层分别与所述分类模块及所述变分信息瓶颈处理层相连;
通过所述变分信息瓶颈处理层中的神经网络对所述目标文本数据进行特征提取,分别输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值;
通过所述分类模块中的神经网络对来自所述变分信息瓶颈处理层的所述压缩后句子表征信息进行预测,输出分类预测信息;
通过所述分类标签生成层,对从所述分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值进行矩阵运算,生成并输出所述目标文本数据对应的分类标签。
根据本公开的另一方面,提供了一种文本分类装置,所述装置包括:
获取模块,被配置为获取待分类的目标文本数据;
输入模块,被配置为将所述目标文本数据输入至预先训练好的文本分类模型,其中,所述文本分类模型包括变分信息瓶颈处理层、分类模块和分类标签生成层,所述分类模块与所述变分信息瓶颈处理层相连,所述分类标签生成层分别与所述分类模块及所述变分信息瓶颈处理层相连;
第一输出模块,被配置为通过所述变分信息瓶颈处理层中的神经网络对所述目标文本数据进行特征提取,分别输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值;
第二输出模块,被配置为通过所述分类模块中的神经网络对来自所述变分信息瓶颈处理层的所述压缩后句子表征信息进行预测,输出分类预测信息;
第三输出模块,被配置为通过所述分类标签生成层,对从所述分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值进行矩阵运算,生成并输出所述目标文本数据对应的分类标签。
根据本公开的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
对于本公开所提供的文本分类方法、装置、介质及电子设备,该方法包括如下步骤:获取待分类的目标文本数据;将所述目标文本数据输入至预先训练好的文本分类模型,其中,所述文本分类模型包括变分信息瓶颈处理层、分类模块和分类标签生成层,所述分类模块与所述变分信息瓶颈处理层相连,所述分类标签生成层分别与所述分类模块及所述变分信息瓶颈处理层相连;通过所述变分信息瓶颈处理层中的神经网络对所述目标文本数据进行特征提取,分别输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值;通过所述分类模块中的神经网络对来自所述变分信息瓶颈处理层的所述压缩后句子表征信息进行预测,输出分类预测信息;通过所述分类标签生成层,对从所述分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值进行矩阵运算,生成并输出所述目标文本数据对应的分类标签。
此方法下,通过在文本分类模型中引入变分信息瓶颈处理层,该变分信息瓶颈处理层能够输出压缩后句子表征信息和对应的期望值,最终该变分信息瓶颈处理层与分类模块和分类标签生成层共同协作完成了文本分类,利用变分信息瓶颈处理层抑制了无用信息的干扰,最大程度压缩样本信息并保留有预测性的信息,减少了过拟合现象的发生,提高了模型的泛化能力;并且,通过此方法能够在样本数据量较小的情况下保证训练得到的模型的性能,因而,还拓展了预训练模型的推广应用的范围。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种文本分类方法的系统架构示意图;
图2是根据一示例性实施例示出的一种文本分类方法的流程图;
图3是根据一示例性实施例示出的文本分类模型的训练流程示意图;
图4是根据一示例性实施例示出的情感分析小样本分类模型使用流程示意图;
图5是根据一示例性实施例示出的一种文本分类装置的框图;
图6是根据一示例性实施例示出的一种实现上述文本分类方法的电子设备示例框图;
图7是根据一示例性实施例示出的一种实现上述文本分类方法的程序产品。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本公开首先提供了一种文本分类方法。文本分类方法是根据输入的文本数据确定对应的类别的方法。本公开提供的文本分类方法可以应用于各种场景中,并对各种场景的文本数据进行类别的识别。比如,本公开提供的文本分类方法可以应用于情感分析任务或者垃圾邮件识别领域中。
本公开的实施终端可以是任何具有运算、处理以及通信功能的设备,该设备可以与外部设备相连,用于接收或者发送数据,具体可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施或者服务器集群。
可选地,本公开的实施终端可以为服务器或者云计算的物理基础设施。
图1是根据一示例性实施例示出的一种文本分类方法的系统架构示意图。如图1所示,该系统架构包括个人计算机110、服务器120和数据库130,个人计算机110和服务器120之间、服务器120和数据库130之间均通过通信链路相连,可以用于发送或接收数据。服务器120为本实施例中的实施终端,其上部署有初始文本分类模型,数据库130存储有文本数据集。当本公开提供的一种文本分类方法应用于图1所示的系统架构中时,一个过程可以是这样的:首先,服务器120从数据库130中获取文本数据集;然后,服务器120利用文本数据集对初始文本分类模型进行训练,得到预先训练好的文本分类模型,该预先训练好的文本分类模型中包含了变分信息瓶颈处理层;接着,个人计算机110向服务器120提交待分类的目标文本数据;最后,服务器120在获得了该目标文本数据之后,将该目标文本数据输入至文本分类模型中,最终得到文本分类模型的分类结果,服务器120还可以将分类结果返回至个人计算机110。
值得一提的是,图1仅为本公开的一个实施例。虽然在本实施例中的实施终端为服务器并且目标文本数据的来源终端为个人计算机,但在其他实施例中,实施终端和目标文本数据的来源终端可以为如前所述的各种终端或设备;虽然在本实施例中,目标文本数据和训练用的文本数据集均来自实施终端之外的终端设备上,但在其他实施例或者具体应用中,目标文本数据或训练用的文本数据集还可以预先存储在实施终端本地。本公开对此不作任何限定,本公开的保护范围也不应因此而受到任何限制。
图2是根据一示例性实施例示出的一种文本分类方法的流程图。本实施例提供的文本分类方法可以由服务器执行,如图2所示,包括以下步骤:
步骤210,获取待分类的目标文本数据。
目标文本数据是需要进行分类的文本数据。目标文本数据可以是任意长度的文本数据,比如可以是一个词组、一个句子或者一个段落,甚至还可以是一篇文章。
步骤220,将所述目标文本数据输入至预先训练好的文本分类模型,其中,所述文本分类模型包括变分信息瓶颈处理层、分类模块和分类标签生成层,所述分类模块与所述变分信息瓶颈处理层相连,所述分类标签生成层分别与所述分类模块及所述变分信息瓶颈处理层相连。
当文本分类模型中的两个单元相连时,其中一个单元便可以以另一个单元的输入作为输出。因此,分类模块可以将变分信息瓶颈处理层的输出作为输入,而分类标签生成层可以分别以分类模块及变分信息瓶颈处理层的输出作为输入。
预先训练好的文本分类模型可以用于情感分类、垃圾邮件分类等场景中。
步骤230,通过所述变分信息瓶颈处理层中的神经网络对所述目标文本数据进行特征提取,分别输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值。
变分信息瓶颈处理层也是由多个单元组成的,每个单元均可以包括神经网络。
在本申请的一个实施例中,所述变分信息瓶颈处理层包括:预训练好的文本处理模型中的编码器、与所述编码器相连的第一层感知器神经网络、第一线性模型、第二线性模型以及句子表征生成模块,其中,所述第一线性模型和所述第二线性模型的输入端均与所述第一层感知器神经网络相连,所述第一线性模型和所述第二线性模型的输出端与所述句子表征生成模块相连,所述第一线性模型用于生成所述压缩后句子表征信息对应的期望值,所述第二线性模型用于生成所述压缩后句子表征信息对应的方差。
句子表征生成模块根据所述压缩后句子表征信息对应的期望值和方差生成压缩后句子表征信息。
在本申请的一个实施例中,所述分类模块包括第二层感知器神经网络以及与所述第二层感知器神经网络相连的输出分类器。
输出分类器可以包括全连接层。
因此,文本分类模型包括多个单元或组件,在建立初始文本分类模型时,可以先获取各个单元,然后将各个单元按照一定方式连接到一起,形成模型。
在本申请的一个实施例中,在将所述目标文本数据输入至预先训练好的文本分类模型之前,所述方法还包括:
建立多个模型组件,并将所述多个模型组件相连接,所述多个模型组件包括第一层感知器神经网络、第一线性模型、第二线性模型、句子表征生成模块、分类模块和分类标签生成层;
获取预训练好的文本处理模型中的编码器,并将所述编码器与所述多个模型组件中的第一层感知器神经网络对接,得到初始文本分类模型;
利用文本数据集对初始文本分类模型进行训练,得到预先训练好的文本分类模型,其中,所述文本数据集包括多个文本数据以及与每一文本数据对应的标签。
文本数据对应的标签即文本数据的分类标签或者文本数据的类别。
在本申请的一个实施例中,所述文本数据集中文本数据对应的标签为情感类别标签,所述预先训练好的文本分类模型用于进行情感分类。
在情感分类场景中,文本数据是需要进行情感分类的数据,比如,文本数据可以是某篇文章的评论,文本数据对应的标签可以是评论内容属于积极内容或消极内容;在垃圾邮件识别场景中,文本数据是邮件中数据,文本数据对应的标签可以是邮件属于垃圾邮件或非垃圾邮件。
在本申请的一个实施例中,所述预训练好的文本处理模型为Bert模型,所述Bert模型基于情感分类领域之外的文本数据训练得到。
BERT(Bidirectional Encoder Representations from Transformers)模型是一个语言表示模型,其主要模型结构是多层trasnformer,内部集成了多头注意力机制。
BERT模型可以利用情感分类领域之外的各种文本数据进行自监督训练,比如可以利用网页上的百科数据等内容进行训练。
本申请实施例通过利用Bert模型作为预训练模型建立文本分类模型,Bert模型中已训练好的网络和参数权重一起迁移过来,实现了迁移学习,Bert模型可以利用大规模文本数据进行训练,可以在此基础上利用样本数据量较小的样本数据对文本分类模型进行训练,从而提高了文本分类模型的性能;然而,本申请的发明人发现直接应用这类预训练模型往往会导致其在大量与任务无关信息和目标标签之间建立错误联系而出现过拟合现象,此时训练得到的模型在训练用的文本数据集表现较好,而在对未知样本(如测试样本)进行预测时表现一般,使模型很难仅通过微调就学习到有效信息。而本申请通过引入变分信息瓶颈处理层,而在模型训练时也利用信息瓶颈原则进行训练,减少了过拟合现象的发生。
在本申请的一个实施例中,所述利用文本数据集对初始文本分类模型进行训练,得到预先训练好的文本分类模型,包括:
迭代执行模型训练步骤,直至满足预定条件,从而得到预先训练好的文本分类模型,其中,所述模型训练步骤包括:将所述文本数据集输入至所述初始文本分类模型中,并根据预设损失函数调整所述初始文本分类模型中的参数。
每当执行一次模型训练步骤,可以将文本数据集中的一个文本数据输入至初始文本分类模型中,根据模型的输出结果和该文本数据对应的标签计算损失函数值;然后根据损失函数值进行反向传播操作,调整模型的参数。
在本申请的一个实施例中,所述预定条件为迭代执行模型训练步骤的次数达到预定次数阈值或者模型收敛。
当损失函数值小于预定损失阈值时,可以认为模型收敛。
在概率论和信息论中,互信息可以用于度量一个随机变量X中所包含的另一个随机变量Y的信息量多少。在利用已有的预训练模型在下游任务数据集上进行微调(dine-tuning)时,为了防止预训练模型在X的大量重复、无关信息和Y之间建立错误联系,随机变量Z常被引用作为信息瓶颈,即先将X中的信息压缩为Z,再令模型在Z和Y之间学习建立联系。由此可知,我们的目标是学习X到压缩表示Z的映射p(X│Z),以最大化Z和Y之间的互信息同时最小化Z和X之间的互信息,从而保留Z中对预测Y有用的信息、去除Z中来自X的不相关信息。
发明人发现,可以通过最小化下式来达到上述目的:
其中,为信息瓶颈的损失函数,I(.,.)表示两个随机变量或随机向量之间的互信息,β系数控制这两个互信息之间的平衡。
但发明人还发现通过上式无法计算得到具体数值,因此,本申请提出了下面的损失函数来进一步逼近
在本申请的一个实施例中,所述预先训练好的文本分类模型根据如下损失函数训练得到:
其中,为损失函数,x为文本数据,z为压缩后句子表征信息,β为系数,/>分别表示关于变量x,z分布的期望;KL为Kullback-Leibler散度,用于表征两个概率分布之间的差异;θ为所述变分信息瓶颈处理层的参数,/>μx和μ0为维度为K的均值向量,∑x和∑0为对角协方差矩阵,/>是所述分类模块输出的分类预测信息,/>为所述分类模块的参数。
具体来说,可以是分类模块中的输出分类器输出的分类预测信息,/>可以为分类模块中输出分类器的参数;β系数控制两个互信息之间的平衡,KL也可以称为相对熵。
图3是根据一示例性实施例示出的文本分类模型的训练流程示意图。请参见图3,可以看到,文本分类模型是利用了小样本数据集D中的句子x进行训练的,其中,小样本数据集句子xi∈x,情感标签yi∈y。因此,图3中的文本分类模型实际上是进行情感分析小样本分类任务的模型,小样本指的是用于训练模型的数据集中的样本数量较少。
在图3中,句子x首先被输入至变分信息瓶颈(Variational InformationBottleneck,VIB)中,得到文本嵌入,变分信息瓶颈VIB即为变分信息瓶颈处理层。变分信息瓶颈VIB中首先包括BERT编码器,BERT编码器即为预训练好的文本处理模型中的编码器,在图3中,BERT编码器为其是由BERTBASE模型中的多个编码器组成的,BERTBASE模型为基础版本的BERT模型,其包含的参数量适中。句子x被输入至BERT编码器/>之后,句首被加上特殊分类嵌入([CLS]),表示用于执行分类任务,对应该词块的最终隐藏状态,输出文本的句子表征向量/>其中,/>为提取样本特征的BERT编码器/>所用的模型参数。
请继续参见图3,变分信息瓶颈VIB中还包括多层感知器神经网络MLP(Multi-layer Perceptron Neural Network)和两个与多层感知器神经网络MLP相连的线性模型(Linear Module),线性模型具有激活函数,线性模型中的隐含层可以包括K个节点,此处的节点为神经网络中的神经元。句子表征向量经过一个多层感知器神经网络MLP之后,再经过两个线性模型,得到输出的均值μx及方差∑x,也就是说,在图3中,位于左侧的线性模型即为第一线性模型,其输出了句子表征向量/>对应的期望值μx;位于右侧的线性模型为第二线性模型,其输出了句子表征向量/>对应的方差∑x。
请继续参见图3,变分信息瓶颈VIB中还包括句子表征生成模块,期望值μx和方差∑x进入句子表征生成模块之后,可以得到压缩后句子表征信息因此,期望值μx和方差∑x也是分别与压缩后句子表征信息相对应的,易于理解,此处的/>与图3中/>是等同的。压缩后句子表征信息Z即为文本嵌入,其是一个K维高斯分布,其与线性模型的隐含层中的K个节点相对应,Z是在pθ(z|x)分布上的随机取样。
在本申请的一个实施例中,句子表征生成模块通过进行重参数化操作生成压缩后句子表征信息。
比如,通过进行重参数化操作之后生成的压缩后句子表征信息可以为Z=μ(x)+Σ(x)⊙ε,ε~N(0,I)。通过进行重参数化操作可以使得模型可以顺利完成训练。
压缩后句子表征信息Z会被输入至分类模块。分类模块包括另一个多层感知器神经网络MLP以及与该多层感知器神经网络MLP相连的输出分类器,该多层感知器神经网络MLP即为第二层感知器神经网络。第二层感知器神经网络的输出是输出分类器的输入,输出分类器会输出这一分类预测信息。
然后,以前面所说的作为损失函数,通过根据句子x对应的情感标签y计算损失函数值,更新模型参数,以最小化/>其中,可以仅更新输出分类器的参数/>因此,利用数据进行模型训练的过程主要体现在分类模块中。当然,在本申请的其他实施例中,模型中其他部分的参数也进行训练和更新。
最后,在完成有限次的迭代之后,模型的参数得到更新优化,获得了能够进行情感分析小样本分类任务的模型。
综上所述,通过图3所示的训练流程,利用作为损失函数来估计损失,并通过最小化这个损失函数来达到针对分类任务进行迁移学习的目的,有效剔除了x中不相关、冗杂信息的影响,使得其能够在应用时达到较好的分类效果且使测试数据和训练数据的损失值相似,无严重的过拟合现象。
请继续参见图2,步骤240,通过所述分类模块中的神经网络对来自所述变分信息瓶颈处理层的所述压缩后句子表征信息进行预测,输出分类预测信息。
分类模块中也可以包括神经网络。分类模块可以对从变分信息瓶颈处理层接收到的压缩后句子表征信息进行神经网络计算,从而输出分类预测信息。
图4是根据一示例性实施例示出的情感分析小样本分类模型使用流程示意图。请参见图4,当使用此情感分析小样本分类模型时,待预测句子x将首先经过VIB处理层直接得到压缩后句子表征信息Z对应的期望值VIB处理层的输出会先通过分类模块中的多层感知器神经网络MLP,即第二层感知器神经网络,该多层感知器神经网络MLP的输出结果会作为分类模块中输出分类器的输入,输出分类器会根据输入计算得到作为分类预测信息。
步骤250,通过所述分类标签生成层,对从所述分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值进行矩阵运算,生成并输出所述目标文本数据对应的分类标签。
分类标签生成层能够利用压缩后句子表征信息对应的期望值和分类预测信息计算出预估分类标签。
请继续参见图4,分类标签生成层会利用输出分类器输出的和VIB处理层输出的压缩后句子表征信息Z对应的期望值μx计算得到预估情感标签/>
综上所述,根据图2实施例提供的文本分类方法,通过在文本分类模型中引入变分信息瓶颈处理层,该变分信息瓶颈处理层能够输出压缩后句子表征信息和对应的期望值,最终该变分信息瓶颈处理层与分类模块和分类标签生成层共同协作完成了文本分类,利用变分信息瓶颈处理层抑制了无用信息的干扰,最大程度压缩样本信息并保留有预测性的信息,减少了过拟合现象的发生,提高了模型的泛化能力;并且,在对样本量较小的下游任务数据集进行处理时,本方法的效果远好于之前其他防止过拟合的正则化(regularization)方法(如mixout,dropout等),且不依赖任何对外部资源,大大提升了在小样本分类任务进行微调(fine-tuning)以应用预训练模型的效率,由此可见,此方法能够在样本数据量较小的情况下保证训练得到的模型的性能,因而,还拓展了预训练模型的推广应用的范围。
本公开还提供了一种文本分类装置,以下是本公开的装置实施例。
图5是根据一示例性实施例示出的一种文本分类装置的框图。如图5所示,装置500包括:
获取模块510,被配置为获取待分类的目标文本数据;
输入模块520,被配置为将所述目标文本数据输入至预先训练好的文本分类模型,其中,所述文本分类模型包括变分信息瓶颈处理层、分类模块和分类标签生成层,所述分类模块与所述变分信息瓶颈处理层相连,所述分类标签生成层分别与所述分类模块及所述变分信息瓶颈处理层相连;
第一输出模块530,被配置为通过所述变分信息瓶颈处理层中的神经网络对所述目标文本数据进行特征提取,分别输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值;
第二输出模块540,被配置为通过所述分类模块中的神经网络对来自所述变分信息瓶颈处理层的所述压缩后句子表征信息进行预测,输出分类预测信息;
第三输出模块550,被配置为通过所述分类标签生成层,对从所述分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值进行矩阵运算,生成并输出所述目标文本数据对应的分类标签。
根据本公开的第三方面,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)621和/或高速缓存存储单元622,还可以进一步包括只读存储单元(ROM)623。
存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624,这样的程序模块625包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行,比如与显示单元640通信。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
根据本公开的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (8)
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类的目标文本数据;
将所述目标文本数据输入至预先训练好的文本分类模型,其中,所述文本分类模型包括变分信息瓶颈处理层、分类模块和分类标签生成层,所述分类模块与所述变分信息瓶颈处理层相连,所述分类标签生成层分别与所述分类模块及所述变分信息瓶颈处理层相连;所述变分信息瓶颈处理层包括:预训练好的文本处理模型中的编码器、与所述编码器相连的第一层感知器神经网络、第一线性模型、第二线性模型以及句子表征生成模块,其中,所述第一线性模型和所述第二线性模型的输入端均与所述第一层感知器神经网络相连,所述第一线性模型和所述第二线性模型的输出端与所述句子表征生成模块相连,所述第一线性模型用于生成压缩后句子表征信息对应的期望值,所述第二线性模型用于生成所述压缩后句子表征信息对应的方差;
通过所述变分信息瓶颈处理层中的神经网络对所述目标文本数据进行特征提取,分别输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值;
通过所述分类模块中的神经网络对来自所述变分信息瓶颈处理层的所述压缩后句子表征信息进行预测,输出分类预测信息;
通过所述分类标签生成层,对从所述分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值进行矩阵运算,生成并输出所述目标文本数据对应的分类标签;
其中,所述预先训练好的文本分类模型根据如下损失函数训练得到:
其中,为损失函数,x为文本数据,z为压缩后句子表征信息,β为系数,/>分别表示关于变量x,z分布的期望;KL为Kullback-Leibler散度,用于表征两个概率分布之间的差异;θ为所述变分信息瓶颈处理层的参数,/>μx和μ0为维度为K的均值向量,∑x和∑0为对角协方差矩阵,/>是所述分类模块输出的分类预测信息,/>为所述分类模块的参数。
2.根据权利要求1所述的方法,其特征在于,在将所述目标文本数据输入至预先训练好的文本分类模型之前,所述方法还包括:
建立多个模型组件,并将所述多个模型组件相连接,所述多个模型组件包括第一层感知器神经网络、第一线性模型、第二线性模型、句子表征生成模块、分类模块和分类标签生成层;
获取预训练好的文本处理模型中的编码器,并将所述编码器与所述多个模型组件中的第一层感知器神经网络对接,得到初始文本分类模型;
利用文本数据集对初始文本分类模型进行训练,得到预先训练好的文本分类模型,其中,所述文本数据集包括多个文本数据以及与每一文本数据对应的标签。
3.根据权利要求2所述的方法,其特征在于,所述文本数据集中文本数据对应的标签为情感类别标签,所述预先训练好的文本分类模型用于进行情感分类。
4.根据权利要求2所述的方法,其特征在于,所述利用文本数据集对初始文本分类模型进行训练,得到预先训练好的文本分类模型,包括:
迭代执行模型训练步骤,直至满足预定条件,从而得到预先训练好的文本分类模型,其中,所述模型训练步骤包括:将所述文本数据集输入至所述初始文本分类模型中,并根据预设损失函数调整所述初始文本分类模型中的参数。
5.根据权利要求4所述的方法,其特征在于,所述预定条件为迭代执行模型训练步骤的次数达到预定次数阈值或者模型收敛。
6.一种文本分类装置,其特征在于,所述装置包括:
获取模块,被配置为获取待分类的目标文本数据;
输入模块,被配置为将所述目标文本数据输入至预先训练好的文本分类模型,其中,所述文本分类模型包括变分信息瓶颈处理层、分类模块和分类标签生成层,所述分类模块与所述变分信息瓶颈处理层相连,所述分类标签生成层分别与所述分类模块及所述变分信息瓶颈处理层相连;所述变分信息瓶颈处理层包括:预训练好的文本处理模型中的编码器、与所述编码器相连的第一层感知器神经网络、第一线性模型、第二线性模型以及句子表征生成模块,其中,所述第一线性模型和所述第二线性模型的输入端均与所述第一层感知器神经网络相连,所述第一线性模型和所述第二线性模型的输出端与所述句子表征生成模块相连,所述第一线性模型用于生成压缩后句子表征信息对应的期望值,所述第二线性模型用于生成所述压缩后句子表征信息对应的方差;
第一输出模块,被配置为通过所述变分信息瓶颈处理层中的神经网络对所述目标文本数据进行特征提取,分别输出所述目标文本数据对应的压缩后句子表征信息和所述压缩后句子表征信息对应的期望值;
第二输出模块,被配置为通过所述分类模块中的神经网络对来自所述变分信息瓶颈处理层的所述压缩后句子表征信息进行预测,输出分类预测信息;
第三输出模块,被配置为通过所述分类标签生成层,对从所述分类模块接收到的所述分类预测信息和从所述变分信息瓶颈处理层接收到的所述压缩后句子表征信息对应的期望值进行矩阵运算,生成并输出所述目标文本数据对应的分类标签;
其中,所述预先训练好的文本分类模型根据如下损失函数训练得到:
其中,为损失函数,x为文本数据,z为压缩后句子表征信息,β为系数,/>分别表示关于变量x,z分布的期望;KL为Kullback-Leibler散度,用于表征两个概率分布之间的差异;θ为所述变分信息瓶颈处理层的参数,/>μx和μ0为维度为K的均值向量,∑x和∑0为对角协方差矩阵,/>是所述分类模块输出的分类预测信息,/>为所述分类模块的参数。
7.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至5中任一项所述的方法。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744262.9A CN113434683B (zh) | 2021-06-30 | 2021-06-30 | 文本分类方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744262.9A CN113434683B (zh) | 2021-06-30 | 2021-06-30 | 文本分类方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434683A CN113434683A (zh) | 2021-09-24 |
CN113434683B true CN113434683B (zh) | 2023-08-29 |
Family
ID=77758598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110744262.9A Active CN113434683B (zh) | 2021-06-30 | 2021-06-30 | 文本分类方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434683B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543371B (zh) * | 2019-08-29 | 2023-11-17 | 张浩天 | 一种远程调用接口的方法、装置、电子设备和存储介质 |
CN114360520A (zh) * | 2022-01-14 | 2022-04-15 | 平安科技(深圳)有限公司 | 语音分类模型的训练方法、装置、设备及存储介质 |
CN114722822B (zh) * | 2022-03-22 | 2024-01-19 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备和计算机可读存储介质 |
CN117851601A (zh) * | 2024-02-26 | 2024-04-09 | 海纳云物联科技有限公司 | 事件分类模型的训练方法、使用方法、装置及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109923560A (zh) * | 2016-11-04 | 2019-06-21 | 谷歌有限责任公司 | 使用变分信息瓶颈来训练神经网络 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3738080A1 (en) * | 2019-04-01 | 2020-11-18 | Google LLC | Learning compressible features |
CA3081150A1 (en) * | 2019-05-21 | 2020-11-21 | Royal Bank Of Canada | System and method for machine learning architecture with variational autoencoder pooling |
-
2021
- 2021-06-30 CN CN202110744262.9A patent/CN113434683B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109923560A (zh) * | 2016-11-04 | 2019-06-21 | 谷歌有限责任公司 | 使用变分信息瓶颈来训练神经网络 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113434683A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN113434683B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN112084327B (zh) | 在保留语义的同时对稀疏标注的文本文档的分类 | |
CN107168952B (zh) | 基于人工智能的信息生成方法和装置 | |
CN107273503B (zh) | 用于生成同语言平行文本的方法和装置 | |
CN111523640B (zh) | 神经网络模型的训练方法和装置 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN109740167B (zh) | 用于生成信息的方法和装置 | |
WO2019154411A1 (zh) | 词向量更新方法和装置 | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN116861995A (zh) | 多模态预训练模型的训练及多模态数据处理方法和装置 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN113987174A (zh) | 分类标签的核心语句提取方法、系统、设备及存储介质 | |
JP2021081713A (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
CN112214595A (zh) | 类别确定方法、装置、设备及介质 | |
CN115798661A (zh) | 临床医学领域的知识挖掘方法和装置 | |
CN113312907B (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
CN115758211B (zh) | 文本信息分类方法、装置、电子设备和存储介质 | |
CN115827865A (zh) | 一种融合多特征图注意力机制的不良文本分类方法及系统 | |
CN115858776A (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN114491030A (zh) | 技能标签的抽取、候选短语分类模型的训练方法及装置 | |
CN114117048A (zh) | 一种文本分类的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |