CN113220892A - 基于bert的自适应文本分类方法及装置 - Google Patents

基于bert的自适应文本分类方法及装置 Download PDF

Info

Publication number
CN113220892A
CN113220892A CN202110658382.7A CN202110658382A CN113220892A CN 113220892 A CN113220892 A CN 113220892A CN 202110658382 A CN202110658382 A CN 202110658382A CN 113220892 A CN113220892 A CN 113220892A
Authority
CN
China
Prior art keywords
classification
model
bert
text
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110658382.7A
Other languages
English (en)
Inventor
李寿山
陆文捷
张栋
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110658382.7A priority Critical patent/CN113220892A/zh
Publication of CN113220892A publication Critical patent/CN113220892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于BERT的自适应文本分类方法及装置,属于中文信息处理技术领域,包括:获取语料样本数据并对语料样本数据进行预处理;构建预设网络模型;将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。相较于传统的BERT模型,可在不损失精度的情况下,缩短模型推理时间。

Description

基于BERT的自适应文本分类方法及装置
技术领域
本申请涉及中文文本智能处理技术,更具体地说,本申请涉及一种基于BERT的自适应文本分类方法及装置。
背景技术
文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤、新闻分类、词性标注等。文本分类的核心方法为,首先提取分类数据的特征,然后选择最优的匹配,从而分类。文本分类问题是自然语言处理领域中一个非常经典的问题,相关研究最早可以追溯专家规则进行分类,但费时费力,覆盖的范围和准确率都非常有限。
后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了人工特征工程结合浅层分类建模流程。传统做法的文本表示的主要问题在于高纬度高稀疏,特征表示能力很弱,此外需要人工进行特征工程,成本很高。而深度学习最初在图像和语音领域取得了巨大成功,也相应推动了深度学习在NLP上的发展,使得深度学习的模型在文本分类上也取得了不错的效果。然而,大多数模型都需要建立在极强的计算力基础之上,模型分类速度慢,使得很难应用于工程化项目中。
发明内容
本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应文本分类方法,极大地提高了模型的分类速度。本申请提供如下技术方案:
第一方面,提供一种基于BERT的自适应文本分类方法,其包括:
获取语料样本数据并对语料样本数据进行预处理,得到预处理后的样本数据;
构建预设网络模型,所述预设网络模型包括主干部分和分支部分,所述主干部分由BERT-base网络和一个主干分类器构成,所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成,所述主干分类器和分支分类器可进行文本分类;
将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;
设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。
可选地,其中对所述语料样本数据进行预处理包括:
将所有语料样本中的文本序列截断为预设的最大长度;
将所述文本序列中的每条文本开头插入[CLS],结尾插入[SEP],得到所述预处理后的样本数据。
可选地,其中所述的主干分类器和分支分类器包括:多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
可选地,其中所述输出阈值控制分类结果的提前输出包括:当数据经过分支分类器时计算分类结果,并计算分类结果不确定性程度值,当不确定性程度值低于输出阈值规则时输出分类结果并停止执行。
可选地,其中所述预设的损失函数为:
Figure DEST_PATH_IMAGE001
其中,为第i个分支分类器的分类结果,pt为主干分类器的分类结果,L为所有分类器的个数。
可选地,其中所述不确定性程度值通过下述公式得出:
Figure 79388DEST_PATH_IMAGE002
其中N为分类的类别数量,为第i个分支分类器的分类结果。
第二方面,提供一种基于BERT的自适应文本分类装置,包括:
样本预处理模块,用于对语料样本数据进行预处理;
模型构建模块,用于构建基于BERT的自适应快速文本分类模型;
模型训练模块,用于训练基于BERT的自适应快速文本分类模型。
本申请的有益效果至少包括:根据设定的提前输出阈值,并根据每层分类器分类结果的不确定度程度值自适应地判断输入的待分类文本应该在网络的哪一层输出,而不必走完整个网络模型。因此,相较于传统的BERT模型,可在不损失精度的情况下,缩短模型分类时间。
本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:
图1是本申请一个实施例提供的基于BERT的自适应文本分类方法的流程图;
图2是本申请一个实施例提供的基于BERT的预设网络结构示意图;
图3是本申请一个实施例提供的基于BERT的自适应文本分类装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。
需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。
首先,对本申请涉及的若干名词进行介绍。
BERT(Bidirectional Encoder Representations from Transformers)是google在2018年提出的一种预训练语言表示的方法,他将NLP模型的建立分为预训练和微调两个阶段。预训练是为了在大量文本语料上训练一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。微调则是在具体的NLP任务上进行相应的微调学习。BERT模型结构主要采用了transformer的编码结构,其主要创新点在于其采用了以下两种训练方法:一是在训练双向语言模型时,以减少的概率把少量的词替换成Mask或者另一个随机的词;二是增加了一个预测下一句的loss,迫使模型学习到句子之间的关系。BERT自提出后,凭借Transformer强大的特征学习能力以及通过掩码语言模型实现的双向编码,其大幅地提高了各项NLP任务的基准表现。
然而,BERT预处理模型功能需要建立在极强的计算力基础之上,模型分类速度慢,使得BERT很难应用于工程化项目中。本发明提供了一种新颖的具有自适应机制的文本分类方法,在确保模型性能的前提下,极大地提高了模型的分类速度。
图1是本申请一个实施例提供的基于BERT的自适应文本分类方法的流程图。该方法至少包括以下几个步骤:
步骤S101,获取语料样本数据并对语料样本数据进行预处理,得到预处理后的样本数据。
将所有文本序列截断为预设的最大长度,并建立标签字典,将所有标签转换为数字标签。将每条文本开头插入[CLS],结尾插入[SEP],使得每条文本序列以[CLS]开头,以[SEP]结尾,最后将处理后的文本序列转换为可以输入模型的特征向量。
步骤S102,构建预设网络模型,所述预设网络模型包括主干部分和分支部分,所述主干部分由BERT-base网络和一个主干分类器构成,所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成,所述主干分类器和分支分类器可进行文本分类。
示意性地,如图2所示,预设网络模型主要由12层Transformer组成,其中Transformer包括用于获取序列特征的多头注意力层、用于非线性变换的前馈传播层和两个用于归一化的加和标准化层;在多头注意力层和前馈传播层的输出位置构建加和标准化层,前馈传播层位于多头注意力层之后,每一层Transformer网络的输出直接作为下一层Transformer网络的输入。
示意性地,如图2所示,在预设网络模型中的embedding层和前11层Transformer后都添加一个分支分类器。在最后一层Transformer添加主干分类器。主干分类器和分支分类器包括多头自注意力层,以及与多头自注意力层相连的线性分类层。
步骤S103,将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型。
训练过程包括:将预设的网络模型基于训练样本进行训练,先让主干分类器学习文本分类任务,然后使分支分类器拟合主干分类器,让网络最终收敛。预设的损失函数具体公式如下:
Figure DEST_PATH_IMAGE003
其中,
Figure 934211DEST_PATH_IMAGE004
为第i个分支分类器的分类结果,pt为主干分类器的分类结果,L为所有分类器的个数。
示意性地,在训练前用BERT预训练模型初始化参数。在训练时,将文本进行预处理后,所有文本序列被统一裁剪为长度不大于128的序列。设初始的学习率为0.00002。使用Adam(Adaptive Moment Estimation)优化器来优化网络的参数。批的大小设为32。为了防止过拟合,使用Dropout随机忽略全连接层的部分神经元。
步骤S104,设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。
输出阈值控制分类结果的提前输出过程为:当数据经过分支分类器时计算分类结果,并计算分类结果不确定性程度值,当不确定性程度值低于输出阈值规则时输出分类结果并停止执行。
不确定性程度值计算公式为:
Figure 900899DEST_PATH_IMAGE002
其中N为分类的类别数量,
Figure 296108DEST_PATH_IMAGE005
为第i个分支分类器的分类结果。
可选地,可以使用测试数据对模型进行测试,参考下表1所示为基本BERT模型与本申请结合不同提前输出阈值后的比较。在保证模型性能的前提下,本申请的分类时间至多能降低到BERT基本模型的十分之一,极大地提升了模型的分类速度。
表1
使用模型 准确率acc/% 单样本推理时间
基本BERT 97.17 4.64ms
BERT自适应模型阈值=0.3 97.33 0.79ms
BERT自适应模型阈值=0.5 97.33 0.42ms
图3是基于BERT的自适应文本分类装置的框图。该装置至少包括以下几个模块:样本预处理模块310、模型构建模块320、模型训练模块330。
样本预处理模块310:用于对语料样本数据进行预处理;
模型构建模块320:用于构建基于BERT的自适应快速文本分类模型;
模型训练模块330:用于训练基于BERT的自适应快速文本分类模型
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。
因此,本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本申请,并且存储有这样的程序产品的存储介质也构成本申请。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本申请的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (7)

1.一种基于BERT的自适应文本分类方法,其包括:
获取语料样本数据并对语料样本数据进行预处理,得到预处理后的样本数据;
构建预设网络模型,所述预设网络模型包括主干部分和分支部分,所述主干部分由BERT-base网络和一个主干分类器构成,所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成,所述主干分类器和分支分类器可进行文本分类;
将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;
设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。
2.根据权利要求1所述的方法,其中对所述语料样本数据进行预处理包括:
将所有语料样本中的文本序列截断为预设的最大长度;
将所述文本序列中的每条文本开头插入[CLS],结尾插入[SEP],得到所述预处理后的样本数据。
3.根据权利要求1所述的方法,其中所述的主干分类器和分支分类器包括:多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
4.根据权利要求1所述的方法,其中所述输出阈值控制分类结果的提前输出包括:当数据经过分支分类器时计算分类结果,并计算分类结果不确定性程度值,当不确定性程度值低于输出阈值规则时输出分类结果并停止执行。
5.根据利要求1所述的方法,其中所述预设的损失函数为:
其中,
Figure 999443DEST_PATH_IMAGE001
为第i个分支分类器的分类结果,pt为主干分类器的分类结果,L为所有分类器的个数。
6.根据权利要求1所述的方法,其中所述不确定性程度值通过下述公式得出:
Figure 821905DEST_PATH_IMAGE002
其中N为分类的类别数量,
Figure 88938DEST_PATH_IMAGE003
为第i个分支分类器的分类结果。
7.一种基于BERT的自适应文本分类装置,包括:
样本预处理模块,用于对语料样本数据进行预处理;
模型构建模块,用于构建基于BERT的自适应快速文本分类模型;
模型训练模块,用于训练基于BERT的自适应快速文本分类模型。
CN202110658382.7A 2021-06-15 2021-06-15 基于bert的自适应文本分类方法及装置 Pending CN113220892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110658382.7A CN113220892A (zh) 2021-06-15 2021-06-15 基于bert的自适应文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110658382.7A CN113220892A (zh) 2021-06-15 2021-06-15 基于bert的自适应文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN113220892A true CN113220892A (zh) 2021-08-06

Family

ID=77080328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110658382.7A Pending CN113220892A (zh) 2021-06-15 2021-06-15 基于bert的自适应文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN113220892A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886562A (zh) * 2021-10-02 2022-01-04 智联(无锡)信息技术有限公司 一种ai简历筛选方法、系统、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324744A (zh) * 2020-02-17 2020-06-23 中山大学 一种基于目标情感分析数据集的数据增强方法
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112052331A (zh) * 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN112307208A (zh) * 2020-11-05 2021-02-02 Oppo广东移动通信有限公司 长文本的分类方法、终端及计算机存储介质
CN112364926A (zh) * 2020-11-17 2021-02-12 苏州大学 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质
CN112926631A (zh) * 2021-02-01 2021-06-08 大箴(杭州)科技有限公司 金融文本的分类方法、装置及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052331A (zh) * 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN111324744A (zh) * 2020-02-17 2020-06-23 中山大学 一种基于目标情感分析数据集的数据增强方法
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112307208A (zh) * 2020-11-05 2021-02-02 Oppo广东移动通信有限公司 长文本的分类方法、终端及计算机存储介质
CN112364926A (zh) * 2020-11-17 2021-02-12 苏州大学 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质
CN112926631A (zh) * 2021-02-01 2021-06-08 大箴(杭州)科技有限公司 金融文本的分类方法、装置及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886562A (zh) * 2021-10-02 2022-01-04 智联(无锡)信息技术有限公司 一种ai简历筛选方法、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
CN110298032B (zh) 文本分类语料标注训练系统
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN111506732B (zh) 一种文本多层次标签分类方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111177376A (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN110472244B (zh) 一种基于Tree-LSTM和情感信息的短文本情感分类方法
CN116303977B (zh) 一种基于特征分类的问答方法及系统
CN113239690A (zh) 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN109284378A (zh) 一种面向知识图谱的关系分类方法
Zhao et al. Knowledge-aware bayesian co-attention for multimodal emotion recognition
CN116303966A (zh) 基于提示学习的对话行为识别系统
CN112307130A (zh) 一种文档级远程监督关系抽取方法及系统
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
Parvathi et al. Identifying relevant text from text document using deep learning
CN113220892A (zh) 基于bert的自适应文本分类方法及装置
CN114328927A (zh) 基于标签感知的门控循环采集方法
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN110609895B (zh) 一种主动选择示例以进行高效文本分类的样本自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination