CN113435308A - 文本多标签分类方法、装置、设备及存储介质 - Google Patents

文本多标签分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113435308A
CN113435308A CN202110702628.6A CN202110702628A CN113435308A CN 113435308 A CN113435308 A CN 113435308A CN 202110702628 A CN202110702628 A CN 202110702628A CN 113435308 A CN113435308 A CN 113435308A
Authority
CN
China
Prior art keywords
text
label
clustering
cluster
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110702628.6A
Other languages
English (en)
Other versions
CN113435308B (zh
Inventor
方俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110702628.6A priority Critical patent/CN113435308B/zh
Publication of CN113435308A publication Critical patent/CN113435308A/zh
Application granted granted Critical
Publication of CN113435308B publication Critical patent/CN113435308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及智能决策领域,揭露一种文本多标签分类方法,包括:提取文本集中每个文本对应的文本标签,得到文本标签集;对文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个文本标签簇构建对应的聚类标签;对聚类标签进行筛选,得到聚类标签集;过滤文本集中不属于聚类标签集中聚类标签对应的文本标签簇的文本标签,利用过滤后的文本集训练模型得到目标标签分类模型;当接收待分类文本时,利用目标标签分类模型对待分类文本进行标签分类,得到分类结果。本发明还涉及一种区块链技术,所述文本标签可以存储在区块链节点中。本发明还提出一种文本多标签分类装置、设备以及介质。本发明可以提高文本多标签分类的效率。

Description

文本多标签分类方法、装置、设备及存储介质
技术领域
本发明涉及智能决策领域,尤其涉及一种文本多标签分类方法、装置、电子设备及可读存储介质。
背景技术
大规模文本多元标签分类是从大量的标签集中寻找最相关标签的任务,目前的文本多元标签分类主要是依托深度学习模型进行分类。
但是在训练深度学习模型的过程中,因训练数据中标签种类特别多,很多标签数据稀缺,标签价值较低,导致模型训练计算量非常大,训练的模型参数较多,从而导致应用模型进行多元标签分类时速度较慢,降低了文本多标签分类的效率。
发明内容
本发明提供一种文本多标签分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高文本多标签分类的效率。
为实现上述目的,本发明提供的一种文本多标签分类方法,包括:
获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;
对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;
将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;
选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
可选地,所述对所述文本标签集进行聚类,得到一个或者多个文本标签簇,包括:
对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量;
计算任意两个所述文本标签向量的向量距离;
利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇。
可选地,所述利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,包括:
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到每个所述聚类标签对应的识别概率;
选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。
可选地,所述利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集,包括:
汇总所述识别标签,得到识别标签集;
汇总所述聚类标签,得到初始聚类标签集;
将所述识别标签集与所述初始聚类标签集进行交集运算,得到所述聚类标签集。
可选地,所述过滤所述文本集中不属于所述目标文本标签簇的文本标签,包括:
汇总所有所述目标文本标签簇中的文本标签,得到标准文本标签集;
计算所述标准文本标签集在所述文本标签集中的补集,得到过滤标签集;
利用所述过滤标签集对所述文本集中每个文本对应所有文本标签进行过滤,得到标准文本;
汇总所有标准文本得到标准文本集。
可选地,所述为每个所述文本标签簇构建对应的聚类标签,包括:
计算所有所述文本标签簇的数量;
根据所述计算的数量构建相同维度的自然数序列;
将所述自然数序列中的每个自然数与预设字符组合,得到对应的簇标签;
将所述簇标签确定为任一所述文本标签簇的聚类标签。
可选地,所述利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型之前,所述方法还包括:
利用预构建的自然语言处理模型作为基础模型;
在所述基础模型后增加全连接网络及sigmoid函数,得到所述初始分类模型。
为了解决上述问题,本发明还提供一种文本多标签分类装置,所述装置包括:
标签过滤模块,用于获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
模型训练模块,用于过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
标签分类模块,用于当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的文本多标签分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文本多标签分类方法。
本发明实施例提取所述文本集中每个文本对应的文本标签,得到文本标签集;对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签,对标签聚类降低标签数量,提高了后续模型的训练速度;将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集,对聚类标签进一步筛选,进一步降低了聚类别签的数量;选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型,将筛选后的聚类标签再还原为对应的文本标签,过滤掉了低价值聚类标签对应的文本标签,降低了文本标签的数量,从而降低了目标标签分类模型的模型参数体积,提高了模型的运行速度,进而提高了文本多标签分类的效率;当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。因此本发明实施例提出的文本多标签分类方法、装置、电子设备及可读存储介质提高了文本多标签分类的效率。
附图说明
图1为本发明一实施例提供的文本多标签分类方法的流程示意图;
图2为本发明一实施例提供的文本多标签分类方法中得到文本标签簇的流程示意图;
图3为本发明一实施例提供的文本多标签分类装置的模块示意图;
图4为本发明一实施例提供的实现文本多标签分类方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种文本多标签分类方法。所述文本多标签分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述文本多标签分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的文本多标签分类方法的流程示意图,在本发明实施例中,所述文本多标签分类方法包括:
S1、获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;
本发明实施例中的,所述文本集为包含多个文本的集合,其中每个文本标记有一个或多个文本标签。所述标签是指对文本进行归类的短文本字段,如:文本的标签可以为“劳动法”、“保障条款”等。可选地,本发明实施例中所述文本为合同文本。
进一步地,本发明实施例中,提取所述文本集中每个文本对应的文本标签,将提取到的所有所述文本标签进行文本去重处理,得到所述文本标签集。
本发明另一实施例中,所述文本标签集可以存储在区块链节点中,利用区块链高吞吐的特性,提高文本标签集中数据的取用效率。
S2、对所述文本标签集中的所有所述文本标签进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;
本发明实施例为了降低标签数量,对所述文本标签集进行聚类,得到一个或者多个文本标签簇。
详细地,参阅图2所示,本发明实施例中,所述对所述文本标签集中的所有所述文本标签进行聚类,得到一个或者多个文本标签簇,包括:
S20、对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量;
可选地,本发明实施例可利用word2vec模型对所述文本标签集中的每个文本标签进行向量化处理,将每个文本标签转化为向量,得到文本标签向量。
S21、计算任意两个所述文本标签向量的向量距离;
S22、利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇。
进一步地,本发明实施例通过构建聚类标签,大大降低标签数量,提升后续模型训练的速度。
可选地,本发明实施例中为每个所述文本标签簇构建对应的聚类标签,包括:计算所有所述文本标签簇的数量,根据计算的数量为每个所述文本标签簇构建对应的聚类标签,包括:根据所述计算的数量构建相同维度的自然数序列,例如:共有5个文本标签簇,那么可以构建包含五个自然数的自然数序列,如自然数序列为[1,2,3,4,5],将所述自然数序列中的每个自然数与预设字符组合,得到对应的簇标签,可选地,所述预设字符可以为“标签”,当自然数为1,对应的簇标签为“标签1”;将所述簇标签确定为任一所述文本标签簇的聚类标签,本发明实施例中每个文本标签簇只有一个聚类标签,不同文本标签簇对应的聚类标签不同。
S3、将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
详细地,本发明实施例中为了降低文本对应的标签数量,将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,当所述文本替换的聚类标签出现重复时,仅保留一个该聚类标签。
S4、按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
可选地,本发明实施例中所述数据分配比例为6:4,那么所述第一文本集与所述第二文本集中的文本数量的比值为6:4。
进一步地,本发明实施例中为了保证所述初始标签分类模型可以识别所有所述聚类别签,因此,所述第一文本集中包含所有聚类标签。
S5、利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
详细地,本发明实施例中利用所述第一文本集对所述第一深度学习模型进行训练之前,还包括:利用预构建的自然语言处理模型作为基础模型,在所述基础模型后增加全连接网络及sigmoid激活函数,得到所述第一深度学习模型。
可选地,本发明实施例中所述自然语言处理模型为x-transformer模型。
进一步地,本发明实施例利用所述第一文本集对预构建的所述第一深度学习模型进行迭代训练,得到所述初始标签分类模型。
S6、利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所有所述聚类标签进行筛选,得到聚类标签集;
详细地,本发明实施例中利用所述初始标签分类模型对所述第二文本集中的每个文本进行标签识别,从而识别所述第二文本集中的每个文本对应的聚类标签。具体地,本发明实施例中所述初始标签分类模型对文本进行识别得到每个所述聚类标签对应的识别概率;选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。
详细地,本发明实施例汇总所述识别标签,得到识别标签集;汇总所述聚类标签,得到初始聚类标签集;将所述识别标签集与所述初始聚类标签集进行交集运算,得到所述聚类标签集。
S7、选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
本发明实施例中为了进一步地利用所述聚类标签集对所述文本标签集做筛选,选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇。
S8、过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
可选地,本发明实施例中所述深度学习模型为XML-CNN模型。
详细地,本发明实施例中过滤所述文本集中不属于所述目标文本标签簇的文本标签,包括:
汇总所有所述目标文本标签簇中的文本标签,得到标准文本标签集;
计算所述标准文本标签集在所述文本标签集中的补集,得到过滤标签集;
进一步地,本发明实施例利用所述过滤标签集对所述文本集中每个文本对应所有文本标签进行过滤,得到标准文本;汇总所有标准文本得到标准文本集。
详细地,本发明实施例中删除所述文本集中每个文本对应所有文本标签中所述过滤标签集中包含的文本标签,得到所述标准文本。
进一步地,本发明实施例利用所述标准文本集对所述深度学习模型进行迭代训练,得到所述目标标签分类模型;
详细地,本发明实施例中,利用所述标准文本集对所述深度学习模型进行迭代训练,得到所述目标标签分类模型,包括:
步骤A:利用所述深度学习模型对所述标准文本集进行预设次数的卷积池化操作,得到特征集;
详细地,将所述标准文本集输入所述深度学习模型,进一步地,由所述深度学习模型隐含层的卷积层对所述标准文本集每个文本进行卷积,得到卷积数据集,再由池化层对所述卷积数据进行池化,得到特征数据,汇总所有所述特征数据得到所述特征集。
步骤B:利用预设的激活函数对所述特征集中的每个特征数据进行计算,得到每个特征数据对应的标签分析值;
可选地,本发明实施例中所述激活函数为Relu函数。
进一步地,本发明较佳实施例所述激活函数包括:
Figure BDA0003130081340000081
其中,μt表示所述标签分析值,s表示所述特征集中的特征数据。
步骤C:根据所述特征数据对应的文本的文本标签确认对应的标签真实值,并利用预构建的损失函数计算所述标签分析值及所述标签真实值之间的损失值;
本发明实施例中所述标签真实值由所述文本对应的文本标签确定的,如:文本甲的文本标签为“成功”标签,那么对应的标签真实值为1,文本甲的文本标签为“失败”标签,那么对应的标签真实值为0。
步骤D:若所述损失值大于或等于预设阈值,更新所述第二深度学习模型的参数,返回上述的步骤A;
步骤E:若所述损失值小于预设阈值,得到并输出所述目标标签分类模型。
详细地,所述卷积池化操作包括:卷积操作和池化操作。
进一步地,所述卷积操作通道变化为:
Figure BDA0003130081340000091
其中,ω’为卷积数据集中数据的通道数,ω为所述标准文本集中对应的文本的通道数,k为预设卷积核的大小,f为预设卷积操作的步幅,p为预设数据补零矩阵。
较佳地,本发明实施例中所述池化操作为对所述卷积数据集进行平均池化操作得到所述特征集。
S9、当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
本发明实施例中,所述待分类文本为与所述文本集中文本的类型相同内容不同没有标签的文本。
详细地,本发明实施例中将所述待分类文本输入至所述目标标签分类模型,利用所述目标标签分类模型识别所述待分类文本对应的分类标签;将所述分类标签与所述待分类文本进行关联,得到所述分类结果。
如图3所示,是本发明文本多标签分类装置的功能模块图。
本发明所述文本多标签分类装置100可以安装于电子设备中。根据实现的功能,所述文本多标签分类装置可以包括标签过滤模块101、模型训练模块102、标签分类模块103,本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述标签过滤模块101用于获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
本发明实施例中的,所述文本集为包含多个文本的集合,其中每个文本标记有一个或多个文本标签。所述标签是指对文本进行归类的短文本字段,如:文本的标签可以为“劳动法”、“保障条款”等。可选地,本发明实施例中所述文本为合同文本。
进一步地,本发明实施例中,所述标签过滤模块101提取所述文本集中每个文本对应的文本标签,将提取到的所有所述文本标签进行文本去重处理,得到所述文本标签集。
本发明另一实施例中,所述文本标签集可以存储在区块链节点中,利用区块链高吞吐的特性,提高文本标签集中数据的取用效率。
本发明实施例为了降低标签数量,所述标签过滤模块101对所述文本标签集进行聚类,得到一个或者多个文本标签簇。
详细地,本发明实施例中,所述标签过滤模块101对所述文本标签集中的所有所述文本标签进行聚类,得到一个或者多个文本标签簇,包括:
对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量;
可选地,本发明实施例可利用word2vec模型对所述文本标签集中的每个文本标签进行向量化处理,将每个文本标签转化为向量,得到文本标签向量。
计算任意两个所述文本标签向量的向量距离;
利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇。
进一步地,本发明实施例所述标签过滤模块101通过构建聚类标签,大大降低标签数量,提升后续模型训练的速度。
可选地,本发明实施例中所述标签过滤模块101为每个所述文本标签簇构建对应的聚类标签,包括:计算所有所述文本标签簇的数量,根据计算的数量为每个所述文本标签簇构建对应的聚类标签,包括:根据所述计算的数量构建相同维度的自然数序列,例如:共有5个文本标签簇,那么可以构建包含五个自然数的自然数序列,如自然数序列为[1,2,3,4,5],将所述自然数序列中的每个自然数与预设字符组合,得到对应的簇标签,可选地,所述预设字符可以为“标签”,当自然数为1,对应的簇标签为“标签1”;将所述簇标签确定为任一所述文本标签簇的聚类标签,本发明实施例中每个文本标签簇只有一个聚类标签,不同文本标签簇对应的聚类标签不同。
详细地,本发明实施例中所述标签过滤模块101为了降低文本对应的标签数量,将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,当所述文本替换的聚类标签出现重复时,仅保留一个该聚类标签。
可选地,本发明实施例中所述数据分配比例为6:4,那么所述第一文本集与所述第二文本集中的文本数量的比值为6:4。
进一步地,本发明实施例中为了保证所述初始标签分类模型可以识别所有所述聚类别签,因此,所述第一文本集中包含所有聚类标签。
详细地,本发明实施例中所述标签过滤模块101利用所述第一文本集对所述第一深度学习模型进行训练之前,还包括:利用预构建的自然语言处理模型作为基础模型,在所述基础模型后增加全连接网络及sigmoid激活函数,得到所述第一深度学习模型。
可选地,本发明实施例中所述自然语言处理模型为x-transformer模型。
进一步地,本发明实施例所述标签过滤模块101利用所述第一文本集对预构建的所述第一深度学习模型进行迭代训练,得到所述初始标签分类模型。
详细地,本发明实施例中所述标签过滤模块101利用所述初始标签分类模型对所述第二文本集中的每个文本进行标签识别,从而识别所述第二文本集中的每个文本对应的聚类标签。具体地,本发明实施例中所述初始标签分类模型对文本进行识别得到每个所述聚类标签对应的识别概率;选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。
详细地,本发明实施例所述标签过滤模块101汇总所述识别标签,得到识别标签集;汇总所述聚类标签,得到初始聚类标签集;将所述识别标签集与所述初始聚类标签集进行交集运算,得到所述聚类标签集。
本发明实施例中为了进一步地利用所述聚类标签集对所述文本标签集做筛选,所述标签过滤模块101选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇。
所述模型训练模块102用于过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
可选地,本发明实施例中所述深度学习模型为XML-CNN模型。
详细地,本发明实施例中所述模型训练模块102过滤所述文本集中不属于所述目标文本标签簇的文本标签,包括:
汇总所有所述目标文本标签簇中的文本标签,得到标准文本标签集;
计算所述标准文本标签集在所述文本标签集中的补集,得到过滤标签集;
进一步地,本发明实施例所述模型训练模块102利用所述过滤标签集对所述文本集中每个文本对应所有文本标签进行过滤,得到标准文本;汇总所有标准文本得到标准文本集。
详细地,本发明实施例中所述模型训练模块102删除所述文本集中每个文本对应所有文本标签中所述过滤标签集中包含的文本标签,得到所述标准文本。
进一步地,本发明实施例所述模型训练模块102利用所述标准文本集对所述深度学习模型进行迭代训练,得到所述目标标签分类模型;
详细地,本发明实施例中,所述模型训练模块102利用所述标准文本集对所述深度学习模型进行迭代训练,得到所述目标标签分类模型,包括:
步骤A:利用所述深度学习模型对所述标准文本集进行预设次数的卷积池化操作,得到特征集;
详细地,将所述标准文本集输入所述深度学习模型,进一步地,由所述深度学习模型隐含层的卷积层对所述标准文本集每个文本进行卷积,得到卷积数据集,再由池化层对所述卷积数据进行池化,得到特征数据,汇总所有所述特征数据得到所述特征集。
步骤B:利用预设的激活函数对所述特征集中的每个特征数据进行计算,得到每个特征数据对应的标签分析值;
可选地,本发明实施例中所述激活函数为Relu函数。
进一步地,本发明较佳实施例所述激活函数包括:
Figure BDA0003130081340000131
其中,μt表示所述标签分析值,s表示所述特征集中的特征数据。
步骤C:根据所述特征数据对应的文本的文本标签确认对应的标签真实值,并利用预构建的损失函数计算所述标签分析值及所述标签真实值之间的损失值;
本发明实施例中所述标签真实值由所述文本对应的文本标签确定的,如:文本甲的文本标签为“成功”标签,那么对应的标签真实值为1,文本甲的文本标签为“失败”标签,那么对应的标签真实值为0。
步骤D:若所述损失值大于或等于预设阈值,更新所述第二深度学习模型的参数,返回上述的步骤A;
步骤E:若所述损失值小于预设阈值,得到并输出所述目标标签分类模型。
详细地,所述卷积池化操作包括:卷积操作和池化操作。
进一步地,所述卷积操作通道变化为:
Figure BDA0003130081340000132
其中,ω’为卷积数据集中数据的通道数,ω为所述标准文本集中对应的文本的通道数,k为预设卷积核的大小,f为预设卷积操作的步幅,p为预设数据补零矩阵。
较佳地,本发明实施例中所述池化操作为对所述卷积数据集进行平均池化操作得到所述特征集。
所述标签分类模块103用于当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
本发明实施例中,所述待分类文本为与所述文本集中文本的类型相同内容不同没有标签的文本。
详细地,本发明实施例中所述标签分类模块103将所述待分类文本输入至所述目标标签分类模型,利用所述目标标签分类模型识别所述待分类文本对应的分类标签;将所述分类标签与所述待分类文本进行关联,得到所述分类结果。
如图4所示,是本发明实现文本多标签分类方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本多标签分类程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如文本多标签分类程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如文本多标签分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信总线12可以是外设部件互连标准(perIPheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的文本多标签分类程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;
对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;
将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;
选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还可以提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;
对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;
将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;
选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本多标签分类方法,其特征在于,所述方法包括:
获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;
对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;
将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;
选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
2.如权利要求1所述的文本多标签分类方法,其特征在于,所述对所述文本标签集进行聚类,得到一个或者多个文本标签簇,包括:
对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量;
计算任意两个所述文本标签向量的向量距离;
利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇。
3.如权利要求1所述的文本多标签分类方法,其特征在于,所述利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,包括:
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到每个所述聚类标签对应的识别概率;
选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。
4.如权利要求1所述的文本多标签分类方法,其特征在于,所述利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集,包括:
汇总所述识别标签,得到识别标签集;
汇总所述聚类标签,得到初始聚类标签集;
将所述识别标签集与所述初始聚类标签集进行交集运算,得到所述聚类标签集。
5.如权利要求1所述的文本多标签分类方法,其特征在于,所述过滤所述文本集中不属于所述目标文本标签簇的文本标签,包括:
汇总所有所述目标文本标签簇中的文本标签,得到标准文本标签集;
计算所述标准文本标签集在所述文本标签集中的补集,得到过滤标签集;
利用所述过滤标签集对所述文本集中每个文本对应所有文本标签进行过滤,得到标准文本;
汇总所有标准文本得到标准文本集。
6.如权利要求1所述的文本多标签分类方法,其特征在于,所述为每个所述文本标签簇构建对应的聚类标签,包括:
计算所有所述文本标签簇的数量;
根据所述计算的数量构建相同维度的自然数序列;
将所述自然数序列中的每个自然数与预设字符组合,得到对应的簇标签;
将所述簇标签确定为任一所述文本标签簇的聚类标签。
7.如权利要求1所述的文本多标签分类方法,其特征在于,所述利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型之前,所述方法还包括:
利用预构建的自然语言处理模型作为基础模型;
在所述基础模型后增加全连接网络及sigmoid函数,得到所述初始分类模型。
8.一种文本多标签分类装置,其特征在于,包括:
标签过滤模块,用于获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
模型训练模块,用于过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
标签分类模块,用于当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本多标签分类方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本多标签分类方法。
CN202110702628.6A 2021-06-24 2021-06-24 文本多标签分类方法、装置、设备及存储介质 Active CN113435308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110702628.6A CN113435308B (zh) 2021-06-24 2021-06-24 文本多标签分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110702628.6A CN113435308B (zh) 2021-06-24 2021-06-24 文本多标签分类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113435308A true CN113435308A (zh) 2021-09-24
CN113435308B CN113435308B (zh) 2023-05-30

Family

ID=77753880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110702628.6A Active CN113435308B (zh) 2021-06-24 2021-06-24 文本多标签分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113435308B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049412A (zh) * 2023-03-31 2023-05-02 腾讯科技(深圳)有限公司 文本分类方法、模型训练方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232374A (zh) * 2020-09-21 2021-01-15 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112528029A (zh) * 2020-12-29 2021-03-19 平安普惠企业管理有限公司 文本分类模型处理方法、装置、计算机设备及存储介质
CN112597300A (zh) * 2020-12-15 2021-04-02 中国平安人寿保险股份有限公司 文本聚类方法、装置、终端设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232374A (zh) * 2020-09-21 2021-01-15 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112597300A (zh) * 2020-12-15 2021-04-02 中国平安人寿保险股份有限公司 文本聚类方法、装置、终端设备及存储介质
CN112528029A (zh) * 2020-12-29 2021-03-19 平安普惠企业管理有限公司 文本分类模型处理方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
万磊 等: "基于CNN 的多标签文本分类与研究", 《现代计算机》 *
申超波等: "基于标签聚类的多标签分类算法", 《软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049412A (zh) * 2023-03-31 2023-05-02 腾讯科技(深圳)有限公司 文本分类方法、模型训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN113435308B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN112541745A (zh) 用户行为数据分析方法、装置、电子设备及可读存储介质
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN113157927B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112860905A (zh) 文本信息抽取方法、装置、设备及可读存储介质
CN112528616B (zh) 业务表单生成方法、装置、电子设备及计算机存储介质
CN112396005A (zh) 生物特征图像识别方法、装置、电子设备及可读存储介质
CN114491047A (zh) 多标签文本分类方法、装置、电子设备及存储介质
CN111309825A (zh) 数据聚类的存储方法、装置及计算机可读存储介质
CN113283446A (zh) 图像中目标物识别方法、装置、电子设备及存储介质
CN114708461A (zh) 基于多模态学习模型的分类方法、装置、设备及存储介质
CN112733551A (zh) 文本分析方法、装置、电子设备及可读存储介质
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113505273B (zh) 基于重复数据筛选的数据排序方法、装置、设备及介质
CN113435308B (zh) 文本多标签分类方法、装置、设备及存储介质
CN113268665A (zh) 基于随机森林的信息推荐方法、装置、设备及存储介质
CN113658002A (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN113157739A (zh) 跨模态检索方法、装置、电子设备及存储介质
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN113626605B (zh) 信息分类方法、装置、电子设备及可读存储介质
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质
CN114996386A (zh) 业务角色识别方法、装置、设备及存储介质
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN113704474A (zh) 银行网点设备操作指引生成方法、装置、设备及存储介质
CN113656690A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN112580505A (zh) 网点开关门状态识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant