CN115048525B - 基于多元组的文本分类、文本分类模型训练的方法及装置 - Google Patents

基于多元组的文本分类、文本分类模型训练的方法及装置 Download PDF

Info

Publication number
CN115048525B
CN115048525B CN202210971777.7A CN202210971777A CN115048525B CN 115048525 B CN115048525 B CN 115048525B CN 202210971777 A CN202210971777 A CN 202210971777A CN 115048525 B CN115048525 B CN 115048525B
Authority
CN
China
Prior art keywords
text
sample
level
sample text
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210971777.7A
Other languages
English (en)
Other versions
CN115048525A (zh
Inventor
陈莹莹
钟艺豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202210971777.7A priority Critical patent/CN115048525B/zh
Publication of CN115048525A publication Critical patent/CN115048525A/zh
Application granted granted Critical
Publication of CN115048525B publication Critical patent/CN115048525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多元组的文本分类、文本分类模型训练的方法及装置,该方法包括:将文本输入多元组文本分类网络中进行类别分析,得到文本的文本特征;确定文本所属行业对象的层级多个类别的平均文本特征,并分析文本的文本特征与其平均文本特征之间的匹配度,及根据匹配度从所有类别中,筛选最大匹配度的类别,作为文本的类别。可见,本发明通过多元组文本分类网络对文本进行多层级标签的文本特征分析,并结合文本所属行业的层级下多个类别的平均文本特征对网络分析出的文本特征进行比较,能够提高文本所属具体类别的分析准确性,得到精准的多层级标签,从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳。

Description

基于多元组的文本分类、文本分类模型训练的方法及装置
技术领域
本发明涉及文本分类技术领域,尤其涉及一种基于多元组的文本分类、文本分类模型训练的方法及装置。
背景技术
文本分类对识别文本所表达的精确含义有着重大意义。目前,通常是对文本进行单层级标签分类,即只为一段文本赋予一个单层级的标签,比如文本“xx男士皮鞋”被分类成服饰鞋包。
然而,实践发现,现有单层级标签分类方法所识别出的文本标签准确性非常低,导致分类出的标签无法精准的表达文本含义,不利于对文本进行分类归纳。因此,提出一种如何提高文本分类的准确性,从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳的技术方案显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种基于多元组的文本分类、文本分类模型训练的方法及装置,能够提高文本分类的准确性,从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳。
为了解决上述技术问题,本发明第一方面公开了一种基于多元组的文本分类方法,所述方法包括:
将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析,并获取所述多元组文本分类网络输出的分析结果,所述分析结果包括所述目标文本的文本特征;
确定所述目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征,并分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度;
根据所述目标层级下每个所述类别对应的匹配度,从所述目标层级所有所述类别中,筛选最大匹配度的所述类别,作为所述目标文本的类别。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
确定所述行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;
根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;
基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,并确定收敛后的所述多元组文本分类网络,作为预先训练出的多元组文本分类网络。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失,包括:
从所述行业对象中级别最低的层级开始,在所述样本文本集合中,选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本;
基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失;
将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本,并在所述样本文本集合中,确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本;
将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数,并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的操作,直至计算完毕所述行业对象在最后一个层级下的损失。
作为一种可选的实施方式,在本发明第一方面中,所述基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失,包括:
计算所述正样本文本与所述锚样本文本之间的距离以及所述负样本文本与所述锚样本文本之间的距离,并根据所述正样本文本对应的距离、所述负样本文本对应的距离以及所述预设正系数,计算所述行业对象在当前层级下的损失;
其中,所述行业对象在第i层级下的损失的计算公式如下:
Figure 850391DEST_PATH_IMAGE001
式中,lossi表示所述行业对象在第i个层级下的损失,ci、ci+1均为所述预设正系数,且ci+1>ci;xa1表示所述锚样本文本,xpi表示第i个所述正样本文本,xni表示第i个所述负样本文本,d(xpi,xa1)表示所述正样本文本与所述锚样本文本之间的距离,d(xni,xa1)表示所述负样本文本与所述锚样本文本之间的距离。
作为一种可选的实施方式,在本发明第一方面中,所述基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,包括:
计算所述行业对象的所有所述层级的损失之和,作为所述行业对象的层级总损失;
基于所述层级总损失训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络;
其中,所述行业对象的层级总损失的计算公式如下:
Figure 587403DEST_PATH_IMAGE002
式中,所述loss为所述行业对象的层级总损失,所述N为所述行业对象的所有层级的数量。
作为一种可选的实施方式,在本发明第一方面中,所述基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络之后,所述方法还包括:
将所述样本文本集合中所有所述样本文本输入收敛后的所述多元组文本分类网络中进行前向分析,得到每个所述样本文本的文本特征;
针对所述行业对象的任一层级的任一类别,从所有所述样本文本中每个所述样本文本的文本特征中,筛选所述类别对应的文本特征,并确定所述类别下所有所述样本文本的文本特征的平均文本特征,所述行业对象的每个所述层级每个所述类别对应的平均文本特征用于分析待分析文本的类别。
作为一种可选的实施方式,在本发明第一方面中,所述确定所述类别下所有所述样本文本的文本特征的平均文本特征,包括:
针对所述行业对象的任一类别,确定所述类别下的每个所述样本文本的文本特征的特征维度;
根据所有所述样本文本的数量、每个所述样本文本的文本特征的特征维度,计算所述类别下所有所述样本文本的文本特征的平均文本特征。
本发明第二方面公开了一种基于多元组的文本分类模型训练方法,所述方法包括:
确定行业对象对应的样本文本集合,所述样本行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;
根据所述样本文本集合中的样本文本以及预设正系数,确定所述样本行业对象在不同所述层级的损失;
基于所述样本行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,收敛后的所述多元组文本分类网络用于分析待识别文本的类别。
本发明第三方面公开了一种基于多元组的文本分类装置,所述装置包括:
分析模块,用于将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析;
获取模块,用于获取所述多元组文本分类网络输出的分析结果,所述分析结果包括所述目标文本的文本特征;
确定模块,用于确定所述目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征;
所述分析模块,用于分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度;
所述确定模块,还用于根据所述目标层级下每个所述类别对应的匹配度,从所述目标层级所有所述类别中,筛选最大匹配度的所述类别,作为所述目标文本的类别。
作为一种可选的实施方式,在本发明第三方面中,所述装置还包括:
所述确定模块,还用于确定所述行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;
所述确定模块,还用于根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;
训练模块,用于基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络;
所述确定模块,还用于确定收敛后的所述多元组文本分类网络,作为预先训练出的多元组文本分类网络。
作为一种可选的实施方式,在本发明第三方面中,所述确定模块根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失的方式具体包括:
从所述行业对象中级别最低的层级开始,在所述样本文本集合中,选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本;
基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失;
将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本,并在所述样本文本集合中,确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本;
将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数,并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的操作,直至计算完毕所述行业对象在最后一个层级下的损失。
作为一种可选的实施方式,在本发明第三方面中,所述确定模块基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的方式具体包括:
计算所述正样本文本与所述锚样本文本之间的距离以及所述负样本文本与所述锚样本文本之间的距离,并根据所述正样本文本对应的距离、所述负样本文本对应的距离以及所述预设正系数,计算所述行业对象在当前层级下的损失;
其中,所述行业对象在第i层级下的损失的计算公式如下:
Figure 422373DEST_PATH_IMAGE001
式中,lossi表示所述行业对象在第i个层级下的损失,ci、ci+1均为所述预设正系数,且ci+1>ci;xa1表示所述锚样本文本,xpi表示第i个所述正样本文本,xni表示第i个所述负样本文本,d(xpi,xa1)表示所述正样本文本与所述锚样本文本之间的距离,d(xni,xa1)表示所述负样本文本与所述锚样本文本之间的距离。
作为一种可选的实施方式,在本发明第三方面中,所述训练模块基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络的方式具体包括:
计算所述行业对象的所有所述层级的损失之和,作为所述行业对象的层级总损失;
基于所述层级总损失训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络;
其中,所述行业对象的层级总损失的计算公式如下:
Figure DEST_PATH_IMAGE003
式中,所述loss为所述行业对象的层级总损失,所述N为所述行业对象的所有层级的数量。
作为一种可选的实施方式,在本发明第三方面中,所述分析模块,还用于在所述训练模块基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络之后,将所述样本文本集合中所有所述样本文本输入收敛后的所述多元组文本分类网络中进行前向分析,得到每个所述样本文本的文本特征;
所述装置还包括:
筛选模块,用于针对所述行业对象的任一层级的任一类别,从所有所述样本文本中每个所述样本文本的文本特征中,筛选所述类别对应的文本特征;
所述确定模块,还用于确定所述类别下所有所述样本文本的文本特征的平均文本特征,所述行业对象的每个所述层级每个所述类别对应的平均文本特征用于分析待分析文本的类别。
作为一种可选的实施方式,在本发明第三方面中,所述确定模块确定所述类别下所有所述样本文本的文本特征的平均文本特征的具体方式包括:
针对所述行业对象的任一类别,确定所述类别下的每个所述样本文本的文本特征的特征维度;
根据所有所述样本文本的数量、每个所述样本文本的文本特征的特征维度,计算所述类别下所有所述样本文本的文本特征的平均文本特征。
本发明第四方面公开了一种基于多元组的文本分类模型训练装置,所述装置包括:
确定模块,用于确定所述行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;
所述确定模块,还用于根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;
训练模块,用于基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络;
所述确定模块,还用于确定收敛后的所述多元组文本分类网络,作为预先训练出的多元组文本分类网络。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析,并获取该多元组文本分类网络输出的分析结果,该分析结果包括目标文本的文本特征;确定目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征,并分析目标文本的文本特征与目标层级下每个类别的平均文本特征之间的匹配度;根据目标层级下每个类别对应的匹配度,从所有类别中,筛选最大匹配度的类别,作为目标文本的类别。可见,本发明通过多元组文本分类网络对文本进行多层级标签的文本特征分析,并结合文本所属行业的层级下多个类别的平均文本特征对网络分析出的文本特征进行比较,能够提高文本所属具体类别的分析准确性,得到精准的多层级标签,从而使得分类出的标签精准表达文本含义以及便于对文本进行精准分类归纳,有利于提高文本的可利用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于多元组的文本分类方法的流程示意图;
图2是本发明实施例公开的一种基于多元组的文本分类模型训练方法的流程示意图;
图3是本发明实施例公开的一种基于多元组的文本分类装置的结构示意图;
图4是本发明实施例公开的另一种基于多元组的文本分类装置的结构示意图;
图5是本发明实施例公开的一种基于多元组的文本分类模型训练装置的结构示意图;
图6是本发明实施例公开的一种基于多元组的文本处理装置的结构示意图;
图7是本发明实施例公开的一种基于多元组的文本分类方法的举例示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于多元组的文本分类、文本分类模型训练的方法及装置,能够通过多元组文本分类网络对文本进行多层级标签的文本特征分析,并结合文本所属行业的层级下多个类别的平均文本特征对网络分析出的文本特征进行比较,能够提高文本所属具体类别的分析准确性,得到精准的多层级标签,从而使得分类出的标签精准表达文本含义以及便于对文本进行精准分类归纳,有利于提高文本的可利用性。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于多元组的文本分类方法的流程示意图。其中,图1所描述的方法可以应用于基于多元组的文本分类装置中,如服务器、云平台等,本发明实施例不做限定。如图1所示,该基于多元组的文本分类方法可以包括以下操作:
101、将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析,并获取该多元组文本分类网络输出的分析结果,该分析结果包括目标文本的文本特征。
本发明实施例中,可选的,目标文本为任何行业对象对应的需要进行类别分析的文本。进一步的,目标文本的语言类型包括中文类型和/或非中文类型(如英文类型)。其中,行业对象包括但不限于服饰鞋包行业、餐饮行业、健身器材行业、农产品行业、化妆品行业、护肤品行业、游戏行业及母婴行业中的一种。每个行业均存在多个层级,如:服饰鞋包行业,服饰鞋包-鞋子-女鞋-女运动鞋-女童运动鞋,包含5个层级,层级1是女童运动鞋,层级2是女运动鞋,层级3是女鞋,层级4是鞋子,层级5是服饰鞋包。需要说明的是,层级数字越大并不代表层级对应类别范围就越大,也可以反过来,层级1是服饰鞋包...层级5为女童运动鞋,都可以解释本发明,此时,级别最低层级为层级5。即层级的高低通过所对应类别范围进行定义,即类别范围越小,所代表的层级越低,如:女运动鞋范围就比女童运动鞋范围大。
102、确定目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征,并分析目标文本的文本特征与目标层级下每个类别的平均文本特征之间的匹配度。
本发明实施例中,目标层级可以是目标文本所属行业对象中级别最低的层级或者其他层级,优先级别最低的层级。
103、根据目标层级下每个类别对应的匹配度,从目标层级所有类别中,筛选最大匹配度的类别,作为目标文本的类别。
可见,实施图1所描述的方法能够通过多元组文本分类网络对文本进行多层级标签的文本特征分析,并结合文本所属行业的层级下多个类别的平均文本特征对网络分析出的文本特征进行比较,能够提高文本所属具体类别的分析准确性,得到精准的多层级标签,从而使得分类出的标签精准表达文本含义以及便于对文本进行精准分类归纳,有利于提高文本的可利用性。
在一个可选的实施例中,该方法还可以包括以下步骤:
确定行业对象对应的样本文本集合,该行业对象存在多个层级,每个层级均存在对应的类别且从级别最低层级开始上一层级对应的类别范围大于下一层级对应的类型范围,该样本文本集合包含不同层级的类别对应的样本文本;
根据样本文本集合中的样本文本以及预设正系数,确定行业对象在不同层级的损失;
基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络,并确定收敛后的多元组文本分类网络,作为预先训练出的多元组文本分类网络。
该可选的实施例中,行业对象包括但不限于服饰鞋包行业、餐饮行业、健身器材行业、农产品行业、化妆品行业、护肤品行业、游戏行业及母婴行业中的一种。每个行业均存在多个层级,如:服饰鞋包行业,服饰鞋包-鞋子-女鞋-女运动鞋-女童运动鞋,包含5个层级,层级1是女童运动鞋,层级2是女运动鞋,层级3是女鞋,层级4是鞋子,层级5是服饰鞋包。需要说明的是,层级数字越大并不代表层级对应类别范围就越大,也可以反过来,层级1是服饰鞋包...层级5为女童运动鞋,都可以解释本发明,此时,级别最低层级为层级5。即层级的高低通过所对应类别范围进行定义,即类别范围越小,所代表的层级越低,如:女运动鞋范围就比女童运动鞋范围大。
该可选的实施例中,可选的,预先确定出的文本分类网络包括但不限于基于TextCNN、TextRNN、TextRNN_Att、BiLSTM、BiGRU中的一种或多种能够识别文本特征的网络在transformer架构构建的文本特征提取器。
可见,该可选的实施例通过不同层级不同类别的样本本文确定出该样本文本所属的同一行业的不同层级的损失进行文本分类网络的训练,能够文本分类网络自动学习到标签的层级观念,从而保证层级的一致性,训练出精准的多元组文本分类网络,从而有利于使用该精准的多元组文本分类网络识别文本的文本特征并进行多层级标签的精准且高效分类。
在另一个可选的实施例中,根据样本文本集合中的样本文本以及预设正系数,确定行业对象在不同层级的损失,包括:
从行业对象中级别最低的层级开始,在样本文本集合中,选择级别最低的层级的第一样本文本作为锚样本文本、与第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与第一样本文本同层级且类别不同的第三样本文本作为负样本文本;
基于锚样本文本、正样本文本、负样本文本以及预设正系数,计算行业对象在当前层级下的损失;
将已经参与计算损失的前一层级的负样本文本更新为当前层级的正样本文本,并在样本文本集合中,确定与锚样本文本同属当前层级且不同属前一层级的样本文本作为负样本文本;
将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的预设正系数,并重复执行上述的基于锚样本文本、正样本文本、负样本文本以及预设正系数,计算行业对象在当前层级下的损失的操作,直至计算完毕行业对象在最后一个层级下的损失。
该可选的实施例中,基于锚样本文本、正样本文本、负样本文本以及预设正系数,计算行业对象在当前层级下的损失,包括:计算正样本文本与锚样本文本之间的距离以及负样本文本与锚样本文本之间的距离,并根据正样本文本对应的距离、负样本文本对应的距离以及预设正系数,计算行业对象在当前层级下的损失。
该可选的实施例中,锚样本文本的选择可以是在样本文本集合中随机选取的。不同当前层级对应不同的正样本文本、负样本文本以及预设正系数。其中,该行业对象在第i层级下的损失的计算公式如下:
Figure 914534DEST_PATH_IMAGE001
式中,lossi表示行业对象在第i个层级下的损失,ci、ci+1均为预设正系数,且ci+1>ci;xa1表示锚样本文本,xpi表示第i个正样本文本,xni表示第i个负样本文本,d(xpi,xa1)表示正样本文本与锚样本文本之间的距离,d(xni,xa1)表示负样本文本与锚样本文本之间的距离。
举例来说,如图7所示,图7是本发明实施例公开的一种基于多元组的文本分类方法的举例示意图。如图7所示,有两个层级,分别为层级1、层级2,其中,层级1包含两个类别,分别为类别1(样本文本A和样本文本B)、类别2(样本文本C),层级2除了包含层级1的内容,还包含与样本文本A、样本文本B及样本文本C同属层级2但不属层级1的样本文本D。
可见,该可选的实施例通过挑选级别处于最低层级的某一样本文本作为锚样本文本,再根据不同层级不同类别依次轮询挑选对应的正负样本文本确定行业对象的每个层级下的损失,能够提高行业对象每个层级下的损失计算准确性及可靠性,从而有利于进一步提高文本分类网络的训练精准性,进而得到更精准的多元组文本分类网络。
在又一个可选的实施例中,基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络,包括:
计算行业对象的所有层级的损失之和,作为行业对象的层级总损失;
基于层级总损失训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络。
该可选的实施例中,行业对象的层级总损失的计算公式如下:
Figure 156159DEST_PATH_IMAGE004
式中,loss为行业对象的层级总损失,N为行业对象的所有层级的数量。
可见,该可选的实施例通过计算出的行业对象的总损失对文本分类网络进行训练,能够实现多元组文本分类网络的训练。
在又一个可选的实施例中,基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络之后,该方法还可以包括以下步骤:
将样本文本集合中所有样本文本输入收敛后的多元组文本分类网络中进行前向分析,得到每个样本文本的文本特征;
针对行业对象的任一层级的任一类别,从所有样本文本中每个样本文本的文本特征中,筛选类别对应的文本特征,并确定该类别下所有样本文本的文本特征的平均文本特征,行业对象的每个层级所有类别对应的平均文本特征用于分析待分析文本的类别。
可见,该可选的实施例在训练出多元组文本分类网络之后,进一步基于训练出的多元组文本分类网络对样本文本进行分析,得到精准的每个层级每个类别的平均文本特征,从而有利于提高实际应用中多元组文本分类网络的应用精准性,对文本精准分析。
该可选的实施例中,确定类别下所有样本文本的文本特征的平均文本特征,包括:
针对行业对象的任一类别,确定该类别下的每个样本文本的文本特征的特征维度;
根据所有样本文本的数量、每个样本文本的文本特征的特征维度,计算类别下所有样本文本的文本特征的平均文本特征。
可见,该可选的实施例针对任一类别,通过结合该类别的每个样本文本的特征维度、该类别下的样本文本数量计算该类别的平均文本特征,能够提高类别的平均文本特征的计算精准性,得到精准的行业对象所有层级每个类别的平均文本特征,从而进一步有利于提高实际应用中多元组文本分类网络的应用精准性,进一步对文本精准分析。
在又一个可选的实施例中,该方法还可以包括以下步骤:
当最大匹配度对应的类别的数量等于1时,执行上述的确定最大匹配度对应的类别,作为目标文本的类别的操作;
当最大匹配度对应的类别的数量等于2时,确定最大匹配度对应的一个类别为第一类别,另一个类别的第二类别,并确定第二大匹配度的第三类别,分别计算第一类别与第三类别之间的关联信息,以及计算第二类别与第三类别之间的关联信息,其中,任何一个关联信息均包括特征相似度和/或特征距离值;
分析第一类别对应的关联信息,以及第二类别对应的关联性,将特征相似度较大且特征距离值较大的其中一个类别,确定为目标文本的类别。
可见,该可选的实施例在最大匹配度的类别为2个时,通过根据每个类别与第二大匹配度的特征距离值、特征相似度,确定文本的类别,能够丰富文本的类别确定方式,以及提高了文本的类别的确定准确性及灵活性。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于多元组的文本分类模型训练方法的流程示意图。其中,图2所描述的方法可以应用于基于多元组的文本分类模型训练装置中,如服务器、云平台等,本发明实施例不做限定。如图2所示,该基于多元组的文本分类模型训练方法可以包括以下操作:
201、确定行业对象对应的样本文本集合,该行业对象存在多个层级,每个层级均存在对应的类别且从级别最低层级开始上一层级对应的类别范围大于下一层级对应的类型范围,该样本文本集合包含不同层级的类别对应的样本文本。
202、根据样本文本集合中的样本文本以及预设正系数,确定行业对象在不同层级的损失。
203、基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络,并确定收敛后的多元组文本分类网络,作为预先训练出的多元组文本分类网络。
本发明实施例中,需要说明的是,针对多元组文本分类网络训练的相关描述,请参阅实施例一中相关内容的具体描述,在此不再赘述。
可见,实施图2所描述的方法通过不同层级不同类别的样本本文确定出该样本文本所属的同一行业的不同层级的损失进行文本分类网络的训练,能够文本分类网络自动学习到标签的层级观念,从而保证层级的一致性,训练出精准的多元组文本分类网络,从而有利于使用该精准的多元组文本分类网络识别文本的文本特征并进行多层级标签的精准且高效分类。
实施例三
请参阅图3,图3是本发明实施例公开的一种基于多元组的文本分类装置的结构示意图。如图3所示,该基于多元组的文本分类装置可以包括:
分析模块301,用于将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析;
获取模块302,用于获取该多元组文本分类网络输出的分析结果,该分析结果包括目标文本的文本特征;
确定模块303,用于确定目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征;
分析模块301,用于分析目标文本的文本特征与目标层级下每个类别的平均文本特征之间的匹配度;
确定模块303,还用于根据目标层级下每个类别对应的匹配度,从目标层级所有类别中,筛选最大匹配度的所述类别,作为目标文本的类别。
可见,实施图3所描述的装置能够通过多元组文本分类网络对文本进行多层级标签的文本特征分析,并结合文本所属行业的层级下多个类别的平均文本特征对网络分析出的文本特征进行比较,能够提高文本所属具体类别的分析准确性,得到精准的多层级标签,从而使得分类出的标签精准表达文本含义以及便于对文本进行精准分类归纳,有利于提高文本的可利用性。
在一个可选的实施例中,如图4所示,训练模块303,包括:
确定模块303,还用于确定行业对象对应的样本文本集合,该行业对象存在多个层级,每个层级均存在对应的类别且从级别最低层级开始上一层级对应的类别范围大于下一层级对应的类型范围,该样本文本集合包含不同层级的类别对应的样本文本;
确定模块303,还用于根据样本文本集合中的样本文本以及预设正系数,确定行业对象在不同层级的损失;
训练模块304,用于基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络;
确定模块303,还用于确定收敛后的多元组文本分类网络,作为预先训练出的多元组文本分类网络。
可见,实施图4所描述的装置通过不同层级不同类别的样本本文确定出该样本文本所属的同一行业的不同层级的损失进行文本分类网络的训练,能够文本分类网络自动学习到标签的层级观念,从而保证层级的一致性,训练出精准的多元组文本分类网络,从而有利于使用该精准的多元组文本分类网络识别文本的文本特征并进行多层级标签的精准且高效分类。
该可选的实施例中,确定模块303根据样本文本集合中的样本文本以及预设正系数,确定行业对象在不同层级的损失的方式具体包括:
从行业对象中级别最低的层级开始,在样本文本集合中,选择级别最低的层级的第一样本文本作为锚样本文本、与第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与第一样本文本同层级且类别不同的第三样本文本作为负样本文本;
基于锚样本文本、正样本文本、负样本文本以及预设正系数,计算行业对象在当前层级下的损失;
将已经参与计算损失的前一层级的负样本文本更新为当前层级的正样本文本,并在样本文本集合中,确定与锚样本文本同属当前层级且不同属前一层级的样本文本作为负样本文本;
将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的预设正系数,并重复执行上述的基于锚样本文本、正样本文本、负样本文本以及预设正系数,计算行业对象在当前层级下的损失的操作,直至计算完毕行业对象在最后一个层级下的损失。
该可选的实施例中,确定模块303基基于锚样本文本、正样本文本、负样本文本以及预设正系数,计算行业对象在当前层级下的损失的方式具体包括:
计算正样本文本与锚样本文本之间的距离以及负样本文本与锚样本文本之间的距离,并根据正样本文本对应的距离、负样本文本对应的距离以及预设正系数,计算行业对象在当前层级下的损失;
其中,行业对象在第i层级下的损失的计算公式如下:
Figure 244332DEST_PATH_IMAGE001
式中,lossi表示行业对象在第i个层级下的损失,ci、ci+1均为预设正系数,且ci+1>ci;xa1表示锚样本文本,xpi表示第i个正样本文本,xni表示第i个负样本文本,d(xpi,xa1)表示正样本文本与锚样本文本之间的距离,d(xni,xa1)表示负样本文本与锚样本文本之间的距离。
可见,实施图4所描述的装置还能够通过挑选级别处于最低层级的某一样本文本作为锚样本文本,再根据不同层级不同类别依次轮询挑选对应的正负样本文本确定行业对象的每个层级下的损失,能够提高行业对象每个层级下的损失计算准确性及可靠性,从而有利于进一步提高文本分类网络的训练精准性,进而得到更精准的多元组文本分类网络。
在又一个可选的实施例中,训练模块304基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络的方式具体包括:
计算行业对象的所有层级的损失之和,作为行业对象的层级总损失;
基于层级总损失训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络。
该可选的实施例中,行业对象的层级总损失的计算公式如下:
Figure 887803DEST_PATH_IMAGE005
式中,loss为行业对象的层级总损失,N为行业对象的所有层级的数量。
可见,实施图4所描述的装置还能够通过计算出的行业对象的总损失对文本分类网络进行训练,能够实现多元组文本分类网络的训练。
在又一个可选的实施例中,如图4所示,分析模块301,还用于在训练模块304基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络之后,将样本文本集合中所有样本文本输入收敛后的多元组文本分类网络中进行前向分析,得到每个样本文本的文本特征;
以及,该装置还包括:
筛选模块305,用于针对行业对象的任一层级的任一类别,从所有样本文本中每个样本文本的文本特征中,筛选类别对应的文本特征;
确定模块303,还用于确定该类别下所有样本文本的文本特征的平均文本特征,行业对象的每个层级所有类别对应的平均文本特征用于分析待分析文本的类别。
可见,实施图4所描述的装置还能够在训练出多元组文本分类网络之后,进一步基于训练出的多元组文本分类网络对样本文本进行分析,得到精准的每个层级每个类别的平均文本特征,从而有利于提高实际应用中多元组文本分类网络的应用精准性,对文本精准分析。
在又一个可选的实施例中,确定模块303确定类别下所有样本文本的文本特征的平均文本特征征的具体方式包括:
针对行业对象的任一类别,确定该类别下的每个样本文本的文本特征的特征维度;
根据所有样本文本的数量、每个样本文本的文本特征的特征维度,计算类别下所有样本文本的文本特征的平均文本特征。
可见,实施图4所描述的装置还能够针对任一类别,通过结合该类别的每个样本文本的特征维度、该类别下的样本文本数量计算该类别的平均文本特征,能够提高类别的平均文本特征的计算精准性,得到精准的行业对象所有层级每个类别的平均文本特征,从而进一步有利于提高实际应用中多元组文本分类网络的应用精准性,进一步对文本精准分析。
实施例四
请参阅图5,图5是本发明实施例公开的一种基于多元组的文本分类模型训练装置的结构示意图。如图5所示,该基于多元组的文本分类模型训练装置可以包括:
确定模块401,用于确定行业对象对应的样本文本集合,该行业对象存在多个层级,每个层级均存在对应的类别且从级别最低层级开始上一层级对应的类别范围大于下一层级对应的类型范围,该样本文本集合包含不同层级的类别对应的样本文本;
确定模块401,还用于根据样本文本集合中的样本文本以及预设正系数,确定行业对象在不同层级的损失;
训练模块402,用于基于行业对象在所有层级下的损失,训练预先确定出的文本分类网络,直至文本分类网络收敛,得到收敛后的多元组文本分类网络;
确定模块401,还用于确定收敛后的多元组文本分类网络,作为预先训练出的多元组文本分类网络。
可见,实施图5所描述的装置通过不同层级不同类别的样本本文确定出该样本文本所属的同一行业的不同层级的损失进行文本分类网络的训练,能够文本分类网络自动学习到标签的层级观念,从而保证层级的一致性,训练出精准的多元组文本分类网络,从而有利于使用该精准的多元组文本分类网络识别文本的文本特征并进行多层级标签的精准且高效分类。
实施例五
请参阅图6,图6是本发明实施例公开的一种基于多元组的文本处理装置的结构示意图,该基于多元组的文本处理装置包括基于多元组的文本分类装置或者基于多元组的文本分类模型训练装置。如图6所示,该装置可以包括:
存储有可执行程序代码的存储器501;
与存储器501耦合的处理器502;
进一步的,还可以包括与处理器502耦合的输入接口503和输出接口504;
其中,处理器502调用存储器501中存储的可执行程序代码,执行本发明实施例一或实施例二所公开的基于多元组的文本处理方法中部分或全部的步骤,其中,该基于多元组的文本处理方法包括基于多元组的文本分类方法或者基于多元组的文本分类模型训练方法。
实施例六
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一所公开的基于多元组的文本分类方法中部分或全部的步骤。
实施例七
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例二所公开的基于多元组的文本分类模型训练方法中部分或全部的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于多元组的文本分类、文本分类模型训练的方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (8)

1.一种基于多元组的文本分类方法,其特征在于,所述方法包括:
将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析,并获取所述多元组文本分类网络输出的分析结果,所述分析结果包括所述目标文本的文本特征;
确定所述目标文本所属行业对象的目标层级下多个类别中每个所述类别的平均文本特征,并分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度;
根据所述目标层级下每个所述类别对应的匹配度,从所述目标层级所有所述类别中,筛选最大匹配度的所述类别,作为所述目标文本的类别;
所述方法还包括:
确定所述行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;
根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;
基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,并确定收敛后的所述多元组文本分类网络,作为预先训练出的多元组文本分类网络;
其中,所述根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失,包括:
从所述行业对象中级别最低的层级开始,在所述样本文本集合中,选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本;
基于所述锚样本文本、所述正样本文本、所述负样本文本以及预设正系数,计算所述行业对象在当前层级下的损失;
将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本,并在所述样本文本集合中,确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本;
将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数,并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的操作,直至计算完毕所述行业对象在最后一个层级下的损失。
2.根据权利要求1所述的基于多元组的文本分类方法,其特征在于,所述基于所述锚样本文本、所述正样本文本、所述负样本文本以及预设正系数,计算所述行业对象在当前层级下的损失,包括:
计算所述正样本文本与所述锚样本文本之间的距离以及所述负样本文本与所述锚样本文本之间的距离,并根据所述正样本文本对应的距离、所述负样本文本对应的距离以及预设正系数,计算所述行业对象在当前层级下的损失;
其中,所述行业对象在第i层级下的损失的计算公式如下:
Figure 935478DEST_PATH_IMAGE001
式中,lossi表示所述行业对象在第i个层级下的损失,ci、ci+1均为所述预设正系数,且ci+1>ci;xa1表示所述锚样本文本,xpi表示第i个所述正样本文本,xni表示第i个所述负样本文本,d(xpi,xa1)表示所述正样本文本与所述锚样本文本之间的距离,d(xni,xa1)表示所述负样本文本与所述锚样本文本之间的距离。
3.根据权利要求2所述的基于多元组的文本分类方法,其特征在于,所述基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,包括:
计算所述行业对象的所有所述层级的损失之和,作为所述行业对象的层级总损失;
基于所述层级总损失训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络;
其中,所述行业对象的层级总损失的计算公式如下:
Figure 715215DEST_PATH_IMAGE002
式中,所述loss为所述行业对象的层级总损失,所述N为所述行业对象的所有层级的数量。
4.根据权利要求1-3任一项所述的基于多元组的文本分类方法,其特征在于,所述基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络之后,所述方法还包括:
将所述样本文本集合中所有所述样本文本输入收敛后的所述多元组文本分类网络中进行前向分析,得到每个所述样本文本的文本特征;
针对所述行业对象的任一层级的任一类别,从所有所述样本文本中每个所述样本文本的文本特征中,筛选所述类别对应的文本特征,并确定所述类别下所有所述样本文本的文本特征的平均文本特征,所述行业对象的每个所述层级每个所述类别对应的平均文本特征用于分析待分析文本的类别。
5.根据权利要求4所述的基于多元组的文本分类方法,其特征在于,所述确定所述类别下所有所述样本文本的文本特征的平均文本特征,包括:
针对所述行业对象的任一类别,确定所述类别下的每个所述样本文本的文本特征的特征维度;
根据所有所述样本文本的数量、每个所述样本文本的文本特征的特征维度,计算所述类别下所有所述样本文本的文本特征的平均文本特征。
6.一种基于多元组的文本分类模型训练方法,其特征在于,所述方法包括:
确定行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;
根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;
基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,收敛后的所述多元组文本分类网络用于分析待识别文本的类别;
其中,所述根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失,包括:
从所述行业对象中级别最低的层级开始,在所述样本文本集合中,选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本;
基于所述锚样本文本、所述正样本文本、所述负样本文本以及预设正系数,计算所述行业对象在当前层级下的损失;
将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本,并在所述样本文本集合中,确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本;
将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数,并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的操作,直至计算完毕所述行业对象在最后一个层级下的损失。
7.一种基于多元组的文本分类装置,其特征在于,所述装置包括:
分析模块,用于将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析;
获取模块,用于获取所述多元组文本分类网络输出的分析结果,所述分析结果包括所述目标文本的文本特征;
确定模块,用于确定所述目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征,所述目标层级为所述目标文本所属行业对象中级别最低的层级;
所述分析模块,用于分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度;
所述确定模块,还用于根据所述目标层级下每个所述类别对应的匹配度,从所述目标层级所有所述类别中,筛选最大匹配度的所述类别,作为所述目标文本的类别;
所述装置还包括:
所述确定模块,还用于确定所述行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;
所述确定模块,还用于根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;
训练模块,用于基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络;
所述确定模块,还用于确定收敛后的所述多元组文本分类网络,作为预先训练出的多元组文本分类网络;
其中,所述确定模块根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失的方式具体包括:
从所述行业对象中级别最低的层级开始,在所述样本文本集合中,选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本;
基于所述锚样本文本、所述正样本文本、所述负样本文本以及预设正系数,计算所述行业对象在当前层级下的损失;
将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本,并在所述样本文本集合中,确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本;
将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数,并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的操作,直至计算完毕所述行业对象在最后一个层级下的损失。
8.一种基于多元组的文本分类装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-5任一项所述的基于多元组的文本分类方法。
CN202210971777.7A 2022-08-15 2022-08-15 基于多元组的文本分类、文本分类模型训练的方法及装置 Active CN115048525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210971777.7A CN115048525B (zh) 2022-08-15 2022-08-15 基于多元组的文本分类、文本分类模型训练的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210971777.7A CN115048525B (zh) 2022-08-15 2022-08-15 基于多元组的文本分类、文本分类模型训练的方法及装置

Publications (2)

Publication Number Publication Date
CN115048525A CN115048525A (zh) 2022-09-13
CN115048525B true CN115048525B (zh) 2022-12-13

Family

ID=83166544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210971777.7A Active CN115048525B (zh) 2022-08-15 2022-08-15 基于多元组的文本分类、文本分类模型训练的方法及装置

Country Status (1)

Country Link
CN (1) CN115048525B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN107609097B (zh) * 2017-09-11 2021-02-09 首都医科大学附属北京天坛医院 一种数据整合分类方法
CN111737474B (zh) * 2020-07-17 2021-01-12 支付宝(杭州)信息技术有限公司 业务模型的训练和确定文本分类类别的方法及装置
CN114610924A (zh) * 2020-12-03 2022-06-10 中检美亚(厦门)科技有限公司 基于多层分类识别模型的商品图片相似度匹配搜索方法和系统
CN114117038A (zh) * 2021-11-05 2022-03-01 南京卓盛云信息科技有限公司 一种文档分类方法、装置、系统及电子设备
CN114706985A (zh) * 2022-04-21 2022-07-05 平安科技(深圳)有限公司 文本分类方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法

Also Published As

Publication number Publication date
CN115048525A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
Hendricks et al. Women also snowboard: Overcoming bias in captioning models
WO2022121163A1 (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
CN106294783A (zh) 一种视频推荐方法及装置
CN108090099B (zh) 一种文本处理方法及装置
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
CN112908436B (zh) 临床试验数据结构化方法、临床试验推荐方法和装置
WO2021151295A1 (zh) 患者治疗方案的确定方法、装置、计算机设备及介质
CN106919551A (zh) 一种情感词极性的分析方法、装置及设备
CN110263854A (zh) 直播标签确定方法、装置及存储介质
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN108090098B (zh) 一种文本处理方法及装置
CN112818120A (zh) 习题标注方法、装置、存储介质及电子设备
CN107797981B (zh) 一种目标文本识别方法及装置
CN115510212A (zh) 一种文本事件抽取方法、装置、设备及存储介质
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
CN115048525B (zh) 基于多元组的文本分类、文本分类模型训练的方法及装置
CN109033078B (zh) 语句类别识别方法及装置、存储介质、处理器
CN113704471B (zh) 语句的分类方法、装置、设备和存储介质
CN115547514A (zh) 一种致病基因排序方法、装置、电子设备和介质
CN110827794B (zh) 语音识别中间结果的质量评测方法和装置
CN114707485A (zh) 基于互联网社区的文本相似度确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant