CN112000809B - 一种文本类别的增量学习方法及装置、可读存储介质 - Google Patents

一种文本类别的增量学习方法及装置、可读存储介质 Download PDF

Info

Publication number
CN112000809B
CN112000809B CN202011051032.6A CN202011051032A CN112000809B CN 112000809 B CN112000809 B CN 112000809B CN 202011051032 A CN202011051032 A CN 202011051032A CN 112000809 B CN112000809 B CN 112000809B
Authority
CN
China
Prior art keywords
text
category
layer
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011051032.6A
Other languages
English (en)
Other versions
CN112000809A (zh
Inventor
杜渂
王聚全
雷霆
邱祥平
彭明喜
蔡婷婷
雷丽琪
薛魁
刘冉东
杨博
周赵云
王宇文
周桑田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ds Information Technology Co ltd
Original Assignee
Ds Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ds Information Technology Co ltd filed Critical Ds Information Technology Co ltd
Priority to CN202011051032.6A priority Critical patent/CN112000809B/zh
Publication of CN112000809A publication Critical patent/CN112000809A/zh
Application granted granted Critical
Publication of CN112000809B publication Critical patent/CN112000809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种文本类别的增量学习方法及装置、可读存储介质,包括:构建文本分类模型,所述文本分类模型包括文本特征提取层和注意力机制层,所述文本特征提取层用于获取输入文本的文本特征信息,所述注意力机制层用于获取所述输入文本的文本特征信息与文本类别信息的相似度,并根据所述相似度确定所述输入文本的文本类别;当需要扩充已训练好的文本分类模型的文本类别时,针对所述已训练好的文本分类模型,用包含新类别的新数据对其进行增量训练;在所述增量训练过程中,锁住所述文本特征提取层的参数,更新所述注意力机制层的参数。本发明通过采用增量学习,无需重复训练已训练过的数据,降低了模型更新的训练成本。

Description

一种文本类别的增量学习方法及装置、可读存储介质
技术领域
本发明涉及自然语言处理技术领域,尤指一种文本类别的增量学习方法及装置、可读存储介质。
背景技术
随着信息科技的快速发展,公安领域海量的案件信息都以文本的形式存在。如何对海量的文本信息资源进行分类,从而快速、有效、准确地挖掘有价值的线索,成为了公安文本挖掘技术领域的研究热点。公安文本分类是指按照预先定义的案由类别,为公安数据库中的每条文本确定一个类别。
在文本分类中,大部分经过充分训练的神经网络模型能够分辨不同类别的文本,并且可以达到较高的准确率,但是目前的大部分神经网络并不能识别未经训练的文本。即神经网络模型仅能对已知类别的文本做出正确判断,对于未训练的文本,神经网络模型会将该文本错误的归到已知的类别,从而导致分类的准确率下降。
为了解决上述问题,通常需要将已训练过的文本和未训练过的文本组合作为训练样本,重新对神经网络模型进行训练,从而使模型既能识别已有类别,又能识别新的类别。但随着类别的增加,数据量会不断上升,重新训练模型的时间和成本也会越来越大。
为此希望计算机能像人类一样对任务进行增量的学习。面对包含新类别的新文本,增量学习方法无需重复训练已训练过的数据,通过更新已训练好的模型,使得模型能够学习到新数据中蕴涵的信息。
发明内容
本发明提供了一种文本类别的增量学习方法及装置、可读存储介质,用于解决为了识别新类别,需要对神经网络模型重复训练已训练过的数据的问题。
本发明提供的技术方案如下:
一种文本类别的增量学习方法,包括:构建文本分类模型,所述文本分类模型包括文本特征提取层和注意力机制层,所述文本特征提取层用于获取输入文本的文本特征信息,所述注意力机制层用于获取所述输入文本的文本特征信息与文本类别信息的相似度,并根据所述相似度确定所述输入文本的文本类别;当需要扩充已训练好的文本分类模型的文本类别时,针对所述已训练好的文本分类模型,用包含新类别的新数据对其进行增量训练;在所述增量训练过程中,锁住所述文本特征提取层的参数,更新所述注意力机制层的参数。
进一步地,所述的用包含新类别的新数据对其进行增量训练,包括:用对应新类别的新数据对其进行增量训练。
进一步地,所述的更新所述注意力机制层的参数,包括:将已训练好的类别信息作为旧的类别信息,在所述注意力机制层根据所述旧的类别信息和新增类别数量构建所述文本类别信息,并通过训练得到新增类别的类别信息。
进一步地,对所述文本分类模型进行第一次训练时,所述旧的类别信息为空,所述所述新增类别数量为本次训练样本所包含的类别数。
进一步地,所述注意力机制层根据以下公式计算输入文本的文本特征信息和与文本类别信息的相似度:
其中,Q为根据所述文本特征信息得到的文本向量矩阵,K为所述文本类别信息得到的类别向量矩阵,dk为K的维度,softmax()为归一化函数。
进一步地,所述文本特征提取层包括词嵌入层、卷积层、池化层和Flatten层;在词嵌入层将输入文本转换为向量形式的文本;所述卷积层使用了多种尺寸的卷积核,对所述向量形式的文本进行特征提取;将所述卷积核提取的特征进行最大池化处理,再进行拼接;将拼接后的特征通过Flatten层降维,得到所述输入文本的文本特征信息。
本发明还提供一种文本类别的增量学习装置,包括:模型构建模块,用于构建文本分类模型,所述文本分类模型包括文本特征提取层和注意力机制层,所述文本特征提取层用于获取输入文本的文本特征信息,所述注意力机制层用于获取所述输入文本的文本特征信息与文本类别信息的相似度,并根据所述相似度确定所述输入文本的文本类别;模型增量训练模块,用于当需要扩充已训练好的文本分类模型的文本类别时,针对所述已训练好的文本分类模型,用包含新类别的新数据对其进行增量训练;所述模型增量训练模块,包括参数更新单元;所述参数更新单元,用于在所述增量训练过程中,锁住所述文本特征提取层的参数,更新所述注意力机制层的参数。
进一步地,所述参数更新单元,进一步用于将已训练好的类别信息作为旧的类别信息,在所述注意力机制层根据所述旧的类别信息和新增类别数量构建所述文本类别信息,并通过训练得到新增类别的类别信息。
进一步地,还包括:模型初次训练模块,用于对所述文本分类模型进行第一次训练时,所述旧的类别信息为空,所述所述新增类别数量为本次训练样本所包含的类别数。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的文本类别的增量学习方法的步骤。
通过本发明提供的一种文本类别的增量学习方法及装置、可读存储介质,至少能够带来以下有益效果:
1、本发明采用文本特征提取层和注意力机制层相结合的文本分类模型,在面对包含新类别的新文本时,对该模型采用增量学习,无需重复训练已训练过的数据,仅用包含新类别的新数据对其进行增量训练,从而降低了模型更新的训练成本。
2、本发明在已训练好的文本分类模型基础上,通过继承文本特征提取层的参数和已训练好的类别信息,只训练注意力机制层获取新增类别的类别信息从而降低模型更新的训练成本。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种文本类别的增量学习方法及装置、可读存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的一种文本类别的增量学习方法的一个实施例的流程图;
图2是本发明的一种文本类别的增量学习装置的一个实施例的结构示意图;
图3是文本类别的增量学习方法应用于一具体实施场景的流程示意图;
图4是图3中文本类别增量学习神经网络的结构示意图。
附图标号说明:
100.模型构建模块,200.样本数据获取模块,300.模型初次训练模块,400.模型增量训练模块,410.参数更新单元。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘制了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的一个实施例,如图1所示,一种文本类别的增量学习方法,包括:
步骤S100构建文本分类模型,所述文本分类模型包括文本特征提取层和注意力机制层,所述文本特征提取层用于获取输入文本的文本特征信息,所述注意力机制层用于获取所述输入文本的文本特征信息与文本类别信息的相似度,并根据所述相似度确定所述输入文本的文本类别。
具体地,输入文本分类模型的输入文本,先经过文本特征提取层进行输入文本的文本特征信息的提取,再将得到的文本特征信息输入注意力机制层,计算文本特征信息与各种文本类别信息的相似度,根据相似度确定输入文本的文本类别,通常选择相似度最大的文本类别信息作为输入文本的最终文本类别。
文本特征提取层可采用卷积神经网络(convolutional neural networks,CNN),比如Text-CNN,采用词嵌入层(Embedding层)+卷积层+池化层结构,利用几种不同尺寸的卷积核(kernel)进行文本特征提取,目的是从几个不同的维度捕捉一句话中的局部相关性。
文本特征提取层也可采用循环神经网络(recurrent neural network,RNN),比如LSTM或双向LSTM,LSTM可以提取文本中的长距离相关性;也可以采用CNN和LSTM相结合的方式。
注意力机制层(Attention层),用于获取文本类别信息,并计算输入文本的文本特征信息与文本类别信息的相似度,根据相似度确定输入文本的文本类别。
注意力机制层根据以下公式计算输入文本的文本特征信息和与文本类别信息的相似度:
其中,Q为根据所述文本特征信息得到的文本向量矩阵,K为所述文本类别信息得到的类别向量矩阵,dk为K的维度,softmax()为归一化函数。
整体模型的损失函数采用交叉熵,表示真实概率分布与预测概率分布之间的差异,优化目标为最小化交叉熵值,目标函数为:
其中,N代表样本数量,p(xi)代表第i个样本的真实概率分布,q(xi)表示第i个样本的预测概率分布。
步骤S200对原始文本数据进行预处理,得到用于模型训练的样本数据。
比如从公安数据库中获取原始文本数据,对原始文本数据进行预处理,比如剔除无效、重复的文本,逐条核查每条文本的文本类别是否与文本描述是否一致等。接着,确定一个最大序列长度,将每条文本都固定到这个长度上,即如果原始序列的长度大于该值就截断,如果小于该值就用“0”补齐。最后,将样本数据按照一定比例划分训练集、测试集和验证集,用于文本分类模型的训练。
可选地,将样本数据分为类别互斥的两批数据。每批数据按照一定比例划分训练集、测试集和验证集。将第一批样本数据用于文本分类模型的第一次训练,第二批样本数据用于文本分类模型的增量训练。增量训练是在上一轮已训练好的文本分类模型的基础上进行。当然也可以视样本数据量情况将样本数据分为更多批类别互斥的数据。当然也可以根据实际情况,在后续发现了新类别,收集了新类别的样本数据,用于模型的增量训练。
步骤S300根据样本数据对文本分类模型进行第一次训练。
注意力Attention层有两个参数:旧的类别信息和新增类别数量。
第一次训练时,旧的类别信息设为空,新增类别数量为本次训练样本所包含的类别数。若将全部样本数据用于第一次训练,则新增类别数量为全部样本数据所包含的类别数。若仅使用第一批样本数据用于第一次训练,则新增类别数量为第一批样本数据所包含的类别数。
因为是初始数据,则注意力Attention层的两个参数:上一轮数据类别表示向量,参数新增类别的数量,将其分别设为空,初始数据的类别数量。
在训练时,用本次训练样本中的验证集来调整超参数。在测试时,挑选在验证集上效果最好的超参来评估模型在本次训练样本测试集上的效果。
步骤S400当需要扩充已训练好的文本分类模型的文本类别时,针对所述已训练好的文本分类模型,用包含新类别的新数据对其进行增量训练;在所述增量训练过程中,锁住所述文本特征提取层的参数,更新所述注意力机制层的参数。
具体地,新增类别后,对应新类别的新数据对于已训练好的模型来说是完全未知的,为了提升模型的识别能力,需要用新数据对模型进行训练。为了降低再次训练的成本,只进行增量训练。
新数据可为前述的第二批样本数据,也可为新采集到的包含新类别的数据,将这些数据预处理后作为新数据。
增量训练是指在已训练好的模型基础上,只用包含新类别的新数据对模型进行训练,无需重复训练已训练过的数据;通过更新已训练好的模型,使得模型能够学习到新数据中蕴涵的信息。
包含新类别的新数据除了包括新类别的新数据,可能还包括旧类别(即已训练过的类别)的新数据。为了进一步降低训练样本数量,可只选择新类别的新数据对模型进行训练,这样可降低训练的时间和复杂度。
在增量训练过程中,锁住文本分类模型中文本特征提取层的参数,只更新注意力机制层的参数。锁住文本特征提取层的参数,是指继承上一轮训练后得到的文本特征提取层的参数,保持不变。
更新注意力机制层的参数,具体包括:将已训练好的类别信息作为旧的类别信息,在注意力机制层根据所述旧的类别信息和新增类别数量构建文本类别信息,并通过训练得到新增类别的类别信息。
继承上一轮已训练好的类别信息(即旧的类别信息),保存并锁住。根据新增类别数量,在旧的类别信息基础上增加新增类别的类别信息,得到扩充的文本类别信息。新增类别的类别信息初始可能是随机值,通过训练更新得到确定值。在训练过程中,仅训练更新新增类别的类别信息,不更新旧的类别信息。
在训练时,用新数据中的验证集来调整超参数。在测试时,挑选在验证集上效果最好的超参来评估模型在新测试集以及总数据测试集上的效果。
本实施例,通过采用文本特征提取层和注意力机制层相结合的文本分类模型,在面对包含新类别的新文本时,对该模型采用增量学习,无需重复训练已训练过的数据,仅用包含新类别的新数据对其进行增量训练;在已训练好的文本分类模型基础上,通过继承文本特征提取层的参数和已训练好的类别信息,只训练注意力机制层获取新增类别的类别信息,从而降低了模型更新的训练成本。
本发明的一个实施例,如图2所示,一种文本类别的增量学习装置,包括:
模型构建模块100,用于构建文本分类模型,所述文本分类模型包括文本特征提取层和注意力机制层,所述文本特征提取层用于获取输入文本的文本特征信息,所述注意力机制层用于获取所述输入文本的文本特征信息与文本类别信息的相似度,并根据所述相似度确定所述输入文本的文本类别。
具体地,输入文本分类模型的输入文本,先经过文本特征提取层进行输入文本的文本特征信息的提取,再将得到的文本特征信息输入注意力机制层,计算文本特征信息与各种文本类别信息的相似度,根据相似度确定输入文本的文本类别,通常选择相似度最大的文本类别信息作为输入文本的最终文本类别。
文本特征提取层可采用卷积神经网络(convolutional neural networks,CNN),比如Text-CNN,采用词嵌入层(Embedding层)+卷积层+池化层结构,利用几种不同尺寸的卷积核(kernel)进行文本特征提取,目的是从几个不同的维度捕捉一句话中的局部相关性。
文本特征提取层也可采用循环神经网络(recurrent neural network,RNN),比如LSTM或双向LSTM,LSTM可以提取文本中的长距离相关性;也可以采用CNN和LSTM相结合的方式。
注意力机制层(Attention层),用于获取文本类别信息,并计算输入文本的文本特征信息与文本类别信息的相似度,根据相似度确定输入文本的文本类别。
注意力机制层根据以下公式计算输入文本的文本特征信息和与文本类别信息的相似度:
其中,Q为根据所述文本特征信息得到的文本向量矩阵,K为所述文本类别信息得到的类别向量矩阵,dk为K的维度,softmax()为归一化函数。
整体模型的损失函数采用交叉熵,表示真实概率分布与预测概率分布之间的差异,优化目标为最小化交叉熵值,目标函数为:
其中,N代表样本数量,p(xi)代表第i个样本的真实概率分布,q(xi)表示第i个样本的预测概率分布。
样本数据获取模块200,用于对原始文本数据进行预处理,得到用于模型训练的样本数据。
比如从公安数据库中获取原始文本数据,对原始文本数据进行预处理,比如剔除无效、重复的文本,逐条核查每条文本的文本类别是否与文本描述是否一致等。接着,确定一个最大序列长度,将每条文本都固定到这个长度上,即如果原始序列的长度大于该值就截断,如果小于该值就用“0”补齐。最后,将样本数据按照一定比例划分训练集、测试集和验证集,用于文本分类模型的训练。
可选地,将样本数据分为类别互斥的两批数据。每批数据按照一定比例划分训练集、测试集和验证集。将第一批样本数据用于文本分类模型的第一次训练,第二批样本数据用于文本分类模型的增量训练。增量训练是在上一轮已训练好的文本分类模型的基础上进行。当然也可以视样本数据量情况将样本数据分为更多批类别互斥的数据。当然也可以根据实际情况,在后续发现了新类别,收集了新类别的样本数据,用于模型的增量训练。
模型初次训练模块300,用于根据样本数据对文本分类模型进行第一次训练。
注意力Attention层有两个参数:旧的类别信息和新增类别数量。
第一次训练时,旧的类别信息设为空,新增类别数量为本次训练样本所包含的类别数。若将全部样本数据用于第一次训练,则新增类别数量为全部样本数据所包含的类别数。若仅使用第一批样本数据用于第一次训练,则新增类别数量为第一批样本数据所包含的类别数。
因为是初始数据,则注意力Attention层的两个参数:上一轮数据类别表示向量,参数新增类别的数量,将其分别设为空,初始数据的类别数量。
在训练时,用本次训练样本中的验证集来调整超参数。在测试时,挑选在验证集上效果最好的超参来评估模型在本次训练样本测试集上的效果。
模型增量训练模块400,用于当需要扩充已训练好的文本分类模型的文本类别时,针对所述已训练好的文本分类模型,用包含新类别的新数据对其进行增量训练。
模型增量训练模块400包括参数更新单元410;
参数更新单元410,用于在增量训练过程中,锁住所述文本特征提取层的参数,更新所述注意力机制层的参数。
具体地,新增类别后,对应新类别的新数据对于已训练好的模型来说是完全未知的,为了提升模型的识别能力,需要用新数据对模型进行训练。为了降低再次训练的成本,只进行增量训练。
新数据可为前述的第二批样本数据,也可为新采集到的包含新类别的数据,将这些数据预处理后作为新数据。
增量训练是指在已训练好的模型基础上,只用包含新类别的新数据对模型进行训练,无需重复训练已训练过的数据;通过更新已训练好的模型,使得模型能够学习到新数据中蕴涵的信息。
包含新类别的新数据除了包括新类别的新数据,可能还包括旧类别(即已训练过的类别)的新数据。为了进一步降低训练样本数量,可只选择新类别的新数据对模型进行训练,这样可降低训练的时间和复杂度。
在增量训练过程中,锁住文本分类模型中文本特征提取层的参数,只更新注意力机制层的参数。锁住文本特征提取层的参数,是指继承上一轮训练后得到的文本特征提取层的参数,保持不变。
参数更新单元410,进一步用于将已训练好的类别信息作为旧的类别信息,在所述注意力机制层根据所述旧的类别信息和新增类别数量构建所述文本类别信息,并通过训练得到新增类别的类别信息。
需要说明的是,本发明提供的文本类别的增量学习装置的实施例与前述提供的文本类别的增量学习方法的实施例均基于同一发明构思,能够取得相同的技术效果。因而,文本类别的增量学习装置的实施例的其它具体内容可以参照前述文本类别的增量学习方法的实施例内容的记载。
在本发明的一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可实现如前述实施例记载的文本类别的增量学习方法。也即是,当前述本发明实施例对现有技术做出贡献的技术方案的部分或全部通过计算机软件产品的方式得以体现时,前述计算机软件产品存储在一个计算机可读存储介质中。所述计算机可读存储介质可以为任意可携带计算机程序代码实体装置或设备。譬如,所述计算机可读存储介质可以是U盘、移动磁盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器等。
本发明还提供一个具体实施场景示例,如图3所示,将本申请提供的方法和装置应用于公安文本数据分类模型中,具体步骤包括:
步骤S1,数据集预处理。
从公安数据库中收集原始公安数据集,该数据集共包含39个案由类别。其次,通过构建字典,对数据集中的文本以及标签(即对应的文本类别)进行编码,字典的大小为21100。
接着,确定最大序列长度为300,将每条文本都固定到这个长度上,即如果原始序列的长度大于300就截断,如果小于300就用“0”补齐。
最后,将总数据分为类别互斥的两批数据,第一批数据包含24个类别,第二批数据包含15个类别。每一批数据都按照9:1:1的比例划分训练集、测试集和验证集。
步骤S2,搭建基于注意力机制的文本类别的增量学习神经网络。
如图4所示,神经网络的第一层为Input层,该层输入为预处理后的文本。接着是Embedding层,将文本中每个字符的编码映射成固定大小的字向量,该层参数有输入字符数,字向量维度和输入序列长度。
输入字符数为字典的大小,将其设为21100,子向量维度设为300,输入序列长度为步骤一中确定的最大序列长度,设为300。
其次为TextCNN层,用于获取文本的向量表示。该层使用了三种尺寸的卷积核,尺寸分别是2、3、4。上述卷积过程可以看作是提取文本的n-gram特征,使用大小为2、3、4的卷积核相当于在提取文本的2-gram,3-gram,4-gram特征。
将这些卷积核提取的特征进行MaxPooling,再进行拼接。
其次为Flatten层,将TextCNN层的输出张量展平。
最后一层为注意力Attention层,用于训练类别的向量表示,并求文本表示向量和类别表示向量的相似度。
Attention的计算方式为:
其中,Q为文本向量矩阵,K为类别向量矩阵,dk为K的维度,softmax()为归一化函数。
将K转置,并与Q点乘,再除以后,经过softmax函数作为最后的输出。
Attention层创建了三个可训练的参数,分别为新增类别表示向量,Q的权重矩阵和K的权重矩阵,此外,还有四个参数,分别是上一轮数据类别表示向量,新增类别的数量,类别向量的维度,权重矩阵的维度。类别向量的维度设为300,权重矩阵的维度设为200。
整体模型的损失函数采用交叉熵,表示真实概率分布与预测概率分布之间的差异,优化目标为最小化交叉熵值,目标函数为:
其中,N代表样本数量,p(xi)代表第i个样本的真实概率分布,q(xi)表示第i个样本的预测概率分布。
步骤S3,用第一批数据训练前述增量学习神经网络。
用步骤S1中切分的第一批数据集中的训练集来训练步骤S2中搭建的模型。因为是第一批数据,则注意力Attention层的两个参数:上一轮数据类别表示向量,参数新增类别的数量,将其分别设为空,第一批数据的类别数量24。该层最终输出的张量维度为(43001,24),其中43001为第一批数据训练集的样本数,24为第一批数据的类别数量。
在训练时,用第一批数据集中的验证集来调整超参数。在测试时,挑选在验证集上效果最好的超参来评估模型在第一批数据测试集上的效果。
步骤S4,新增类别后,更新步骤S2中神经网络的参数,用第二批数据训练更新后的神经网络。
步骤一中切分的第二批数据的类别和第一批数据完全互斥,也就是说,第二批数据对于步骤三中训练好的模型来说是完全未知的。这时,将步骤三中训练好的类别向量保存并锁住,扩充类别向量矩阵,只训练更新新增的类别对应的表示向量,使得模型在记住第一批数据类别的同时也能学习到新增类别的向量表示。新增了类别后,将模型除最后一层外的其他层全部锁住,只训练最后一层注意力层的新增类别表示向量。
注意力Attention层的参数:上一轮数据类别表示向量,参数新增类别的数量,则分别设置为步骤三中训练得到的类别表示向量,第二批数据的类别数量15。最终的类别向量矩阵为步骤三中训练好的类别向量和该步骤中训练的新增类别表示向量的拼接。该层最终输出的张量维度为(15653,39),其中15653为第二批数据训练集的样本数,39为两批数据类别数量之和。
在训练时,用第二批数据集中的验证集来调整超参数。在测试时,挑选在验证集上效果最好的超参来评估模型在第二批测试集以及总数据测试集上的效果。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种文本类别的增量学习方法,其特征在于,包括:
构建文本分类模型,所述文本分类模型包括文本特征提取层和注意力机制层,所述文本特征提取层用于获取输入文本的文本特征信息,所述注意力机制层用于获取所述输入文本的文本特征信息与文本类别信息的相似度,并根据所述相似度确定所述输入文本的文本类别;
所述文本特征提取层包括词嵌入层、卷积层和池化层,所述词嵌入层将输入文本转换为向量形式的文本,所述卷积层使用了多种尺寸的卷积核,分别对所述向量形式的文本进行特征提取;将所述卷积核提取的特征进行最大池化处理,再进行拼接,得到所述输入文本的文本特征信息;
所述注意力机制层根据以下公式计算输入文本的文本特征信息和与文本类别信息的相似度:
其中,Q为根据所述文本特征信息得到的文本向量矩阵,K为所述文本类别信息得到的类别向量矩阵,dk为K的维度,softmax()为归一化函数;
当需要扩充已训练好的文本分类模型的文本类别时,针对所述已训练好的文本分类模型,只用包含新类别的新数据对其进行增量训练;在所述增量训练过程中,锁住所述文本特征提取层的参数,并在所述注意力机制层,将已训练好的类别信息作为旧的类别信息,锁住所述旧的类别信息,仅训练更新新增类别的类别信息;所述旧的类别信息和所述新增类别的类别信息构成扩充的文本类别信息。
2.根据权利要求1所述的文本类别的增量学习方法,其特征在于,所述的只用包含新类别的新数据对其进行增量训练,包括:
只用对应新类别的新数据对其进行增量训练。
3.根据权利要求1所述的文本类别的增量学习方法,其特征在于:
对所述文本分类模型进行第一次训练时,所述旧的类别信息为空。
4.根据权利要求1所述的文本类别的增量学习方法,其特征在于:
所述文本特征提取层还包括Flatten层;
将拼接后的特征通过Flatten层降维,得到所述输入文本的文本特征信息。
5.一种文本类别的增量学习装置,其特征在于,包括:
模型构建模块,用于构建文本分类模型,所述文本分类模型包括文本特征提取层和注意力机制层,所述文本特征提取层用于获取输入文本的文本特征信息,所述注意力机制层用于获取所述输入文本的文本特征信息与文本类别信息的相似度,并根据所述相似度确定所述输入文本的文本类别;
所述文本特征提取层包括词嵌入层、卷积层和池化层,所述词嵌入层将输入文本转换为向量形式的文本,所述卷积层使用了多种尺寸的卷积核,分别对所述向量形式的文本进行特征提取;将所述卷积核提取的特征进行最大池化处理,再进行拼接,得到所述输入文本的文本特征信息;
所述注意力机制层根据以下公式计算输入文本的文本特征信息和与文本类别信息的相似度:
其中,Q为根据所述文本特征信息得到的文本向量矩阵,K为所述文本类别信息得到的类别向量矩阵,dk为K的维度,softmax()为归一化函数;
模型增量训练模块,用于当需要扩充已训练好的文本分类模型的文本类别时,针对所述已训练好的文本分类模型,只用包含新类别的新数据对其进行增量训练;
所述模型增量训练模块,包括参数更新单元;
所述参数更新单元,用于在所述增量训练过程中,锁住所述文本特征提取层的参数,并在所述注意力机制层,将已训练好的类别信息作为旧的类别信息,锁住所述旧的类别信息,仅训练更新新增类别的类别信息;所述旧的类别信息和所述新增类别的类别信息构成扩充的文本类别信息。
6.根据权利要求5所述的文本类别的增量学习装置,其特征在于,还包括:
模型初次训练模块,用于对所述文本分类模型进行第一次训练时,所述旧的类别信息为空。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的文本类别的增量学习方法的步骤。
CN202011051032.6A 2020-09-29 2020-09-29 一种文本类别的增量学习方法及装置、可读存储介质 Active CN112000809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011051032.6A CN112000809B (zh) 2020-09-29 2020-09-29 一种文本类别的增量学习方法及装置、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011051032.6A CN112000809B (zh) 2020-09-29 2020-09-29 一种文本类别的增量学习方法及装置、可读存储介质

Publications (2)

Publication Number Publication Date
CN112000809A CN112000809A (zh) 2020-11-27
CN112000809B true CN112000809B (zh) 2024-05-17

Family

ID=73475027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011051032.6A Active CN112000809B (zh) 2020-09-29 2020-09-29 一种文本类别的增量学习方法及装置、可读存储介质

Country Status (1)

Country Link
CN (1) CN112000809B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111639A (zh) * 2021-04-16 2021-07-13 南京奥拓电子科技有限公司 一种通顺模型训练方法及辅助语音识别方法
CN113469090B (zh) * 2021-07-09 2023-07-14 王晓东 水质污染预警方法、装置及存储介质
CN114817526B (zh) * 2022-02-21 2024-03-29 华院计算技术(上海)股份有限公司 文本分类方法及装置、存储介质、终端
CN115408527B (zh) * 2022-11-02 2023-03-10 北京亿赛通科技发展有限责任公司 文本分类方法、装置、电子设备及存储介质
CN115774854B (zh) * 2023-01-30 2023-06-02 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3306540A1 (en) * 2016-10-10 2018-04-11 Tata Consultancy Services Limited System and method for content affinity analytics
CN110516685A (zh) * 2019-05-31 2019-11-29 沈阳工业大学 基于卷积神经网络的晶状体浑浊程度检测方法
CN111027600A (zh) * 2019-11-25 2020-04-17 腾讯科技(深圳)有限公司 图像类别预测方法和装置
CN111046175A (zh) * 2019-11-18 2020-04-21 杭州天翼智慧城市科技有限公司 基于自学习的电子案卷分类方法及装置
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111191033A (zh) * 2019-12-25 2020-05-22 华南理工大学 一种基于分类效用的开集分类方法
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11482307B2 (en) * 2017-03-02 2022-10-25 Drexel University Multi-temporal information object incremental learning software system
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
US20200175384A1 (en) * 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. System and method for incremental learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3306540A1 (en) * 2016-10-10 2018-04-11 Tata Consultancy Services Limited System and method for content affinity analytics
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム
CN110516685A (zh) * 2019-05-31 2019-11-29 沈阳工业大学 基于卷积神经网络的晶状体浑浊程度检测方法
CN111046175A (zh) * 2019-11-18 2020-04-21 杭州天翼智慧城市科技有限公司 基于自学习的电子案卷分类方法及装置
CN111027600A (zh) * 2019-11-25 2020-04-17 腾讯科技(深圳)有限公司 图像类别预测方法和装置
CN111191033A (zh) * 2019-12-25 2020-05-22 华南理工大学 一种基于分类效用的开集分类方法
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于自然言语处理与深度学习的信用贷款评估模型;赵雪峰;《系统管理学报》;正文第633页 *
深度学习论文笔记(增量学习)——large scale incremental learning;菜到怀疑人生;《https://blog.csdn.net/dhaiuda/article/details/102852694》;正文第1-9页 *
融合实体类别信息的知识图谱表示学习;金婧;《计算机工程》;正文第79-80页 *
金婧.融合实体类别信息的知识图谱表示学习.《计算机工程》.2020,正文第79-80页. *

Also Published As

Publication number Publication date
CN112000809A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112000809B (zh) 一种文本类别的增量学习方法及装置、可读存储介质
CN108733792B (zh) 一种实体关系抽取方法
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN110490081B (zh) 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN109948149B (zh) 一种文本分类方法及装置
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111177383B (zh) 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
WO2023236977A1 (zh) 一种数据处理方法及相关设备
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
WO2022001724A1 (zh) 一种数据处理方法及装置
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN111191457A (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
EP4361843A1 (en) Neural network searching method and related device
CN113434699A (zh) Bert模型的预训练方法、计算机装置和存储介质
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN115730590A (zh) 意图识别方法以及相关设备
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Du Min

Inventor after: Yang Bo

Inventor after: Zhou Zhaoyun

Inventor after: Wang Yuwen

Inventor after: Zhou Sangtian

Inventor after: Wang Juquan

Inventor after: Lei Ting

Inventor after: Qiu Xiangping

Inventor after: Peng Mingxi

Inventor after: Cai Tingting

Inventor after: Lei Liqi

Inventor after: Xue Kui

Inventor after: Liu Randong

Inventor before: Du Min

Inventor before: Yang Bo

Inventor before: Zhou Zhaoyun

Inventor before: Wang Yuwen

Inventor before: Zhou Sangtian

Inventor before: Wang Juquan

Inventor before: Lei Ting

Inventor before: Qiu Xiangping

Inventor before: Peng Mingxi

Inventor before: Caitingting

Inventor before: Lei Liqi

Inventor before: Xue Kui

Inventor before: Liu Randong

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant