CN113435499A - 标签分类方法、装置、电子设备和存储介质 - Google Patents

标签分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113435499A
CN113435499A CN202110711706.9A CN202110711706A CN113435499A CN 113435499 A CN113435499 A CN 113435499A CN 202110711706 A CN202110711706 A CN 202110711706A CN 113435499 A CN113435499 A CN 113435499A
Authority
CN
China
Prior art keywords
data
similarity
processed
label
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110711706.9A
Other languages
English (en)
Other versions
CN113435499B (zh
Inventor
颜泽龙
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110711706.9A priority Critical patent/CN113435499B/zh
Publication of CN113435499A publication Critical patent/CN113435499A/zh
Application granted granted Critical
Publication of CN113435499B publication Critical patent/CN113435499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于自然语言处理技术领域,提供了一种标签分类方法、装置、电子设备和计算机可读存储介质。该方法包括:确定待处理数据和小样本数据集中的每个标准数据之间的第一相似度,获得待处理数据的相似度阈值;根据相似度阈值以及目标阈值,得到待处理数据的实际阈值;确定待处理数据和小样本数据集的每个标签之间的第二相似度;根据第二相似度和实际阈值,确定待处理数据具备的标签。本申请将用于第二场景标签分类的目标阈值迁移到待处理数据的所属的第一场景中,得到待处理数据的实际阈值;并根据该实际阈值确定待处理数据的标签,无需使用大量样本对待处理数据的场景进行模型训练,既降低了模型的场景迁移成本,又能保证标签分类的准确性。

Description

标签分类方法、装置、电子设备和存储介质
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种标签分类方法、装置、电子设备和计算机可读存储介质。
背景技术
多标签分类问题是自然语言处理中一个常见的问题,例如,用户的一句话里可能包含多种意图,如何确定意图的数量并准确捕获每一种意图就是多标签分类的其中一种用途。
目前,效果最理想的方法就是为每一种意图训练一个分类模型,再选取合适的阈值,如果文本在某个意图预测分类模型下的概率大于该阈值,则认为该文本包含该意图。
对于有充足样本数据的场景而言,上述方法可以取得不错的效果。但是,设置好的阈值不具备普适性,在一场景得到的阈值很难直接迁移到另一场景。上述方法就要求对于每个场景都要获得合适的阈值,为此,每个分类模型都需要大量的标注数据进行训练,而要满足多个分类模型对训练样本的需求是比较困难的。
发明内容
本申请实施例提供了一种标签分类方法、装置、电子设备和计算机可读存储介质,可以将第二场景的阈值迁移到待处理数据的第一场景中,以获得待处理数据的标签。
第一方面,本申请实施例提供了一种标签分类方法,包括:
获取待处理数据;
确定所述待处理数据和小样本数据集中的每个标准数据之间的第一相似度,所述标准数据为已标注标签且与所述待处理数据同属于第一场景的数据;
根据所述第一相似度,获得所述待处理数据的相似度阈值;
根据所述相似度阈值以及目标阈值,得到所述待处理数据的实际阈值,所述目标阈值为用于对第二场景的数据进行标签分类的阈值;
确定所述待处理数据和所述小样本数据集的每个标签之间的第二相似度;
根据所述第二相似度和所述实际阈值,确定所述待处理数据具备的标签。
进一步的,根据所述待处理数据的相似度阈值以及目标阈值,得到所述待处理数据的实际阈值之前,还包括:
获取所述第二场景的每个数据与每个标签的第三相似度;
根据所述第三相似度的数值分布,得到所述目标阈值。
示例性的,若所述第二场景的数据为文本,则获取所述第二场景的每个数据与每个标签的第三相似度,包括:
获取所述第二场景的每个标签的标签名称Yi
通过预训练语言模型分别对所述第二场景的每个文本xi和相应标签的标签名称Yi进行编码,得到文本向量表示E(xi)和标签名称向量表示E(Yi);
所述第二场景的每个标签的向量表示为:
Figure BDA0003133169270000021
其中α为预设的第一超参数;
通过所述向量表示确定所述第二场景的每个文本与每个标签的第三相似度f(xi,Yj)=Cosin(E(xi),ej)。
其中,根据所述第三相似度的数值分布,得到所述目标阈值,包括:
获取所述第三相似度的最大值max f(x,Y)和所述第三相似度的最小值min f(x,Y);
所述目标阈值为:
thresholdcommon=β*max f(x,Y)+(1-β)*min f(x,Y),其中β为预设的第二超参数。
其中,根据所述第一相似度,获得所述待处理数据的相似度阈值,包括:
根据所述第一相似度,得到所述待处理数据包含的标签数量nnew
Figure BDA0003133169270000031
获取所述待处理数据与所述小样本数据集的每个标签之间的第二相似度f(xnew,Yj)=Cosin(E(xnew),eJ);
将所有的所述第二相似度进行排序;
根据所述标签数量nnew,在排序后的所有所述第二相似度中,选择排名第(nnew+1)的数值,记录为系数snnew+1
根据所述第一相似度和所述系数,获得相似度阈值为:
Figure BDA0003133169270000032
其中,eJ为所述小样本数据集的每个标签的标签名称Yj的向量表示,E(xnew)为所述待处理数据xnew的向量表示,E(xi)为所述小样本数据集的每个标准数据xi的向量表示,Z是一个标准化参数,λ是高斯核的一个超参数,|yi|表示小样本数据集包含的标签yi的数量。
其中,根据所述待处理数据的相似度阈值以及目标阈值,得到所述待处理数据的实际阈值,包括:
所述待处理数据的实际阈值为threshold=γ*thresholdcommon+(1-γ)*thresholdspecific,其中,γ为预设的第三超参数。
其中,根据所述第二相似度和所述实际阈值,确定所述待处理数据具备的标签,包括:
若所述待处理数据与所述小样本数据集的一标签之间的所述第二相似度大于所述实际阈值,则确认所述待处理数据具备所述标签。
第二方面,本申请实施例提供了一种标签分类装置,包括:
数据获取模块,用于获取待处理数据;
相似度获取模块,用于确定所述待处理数据和小样本数据集中的每个标准数据之间的第一相似度,所述标准数据为已标注标签且与所述待处理数据同属于第一场景的数据;
阈值获取模块,用于根据所述第一相似度,获得所述待处理数据的相似度阈值;还用于根据所述相似度阈值以及目标阈值,得到所述待处理数据的实际阈值,所述目标阈值为用于对第二场景的数据进行标签分类的阈值;
所述相似度获取模块还用于确定所述待处理数据和所述小样本数据集的每个标签之间的第二相似度;
分类模块,用于根据所述第二相似度和所述实际阈值,确定所述待处理数据具备的标签。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:根据待处理数据与小样本数据集之间的相似度,确定待处理数据的相似度阈值,通过相似度阈值将用于第二场景标签分类的目标阈值,迁移到待处理数据的所属的第一场景中,得到待处理数据的实际阈值;进一步的,根据该实际阈值确定待处理数据具备的标签,无需使用大量样本针对待处理数据的场景进行模型训练,既降低了模型的场景迁移成本,又能保证对待处理数据的标签分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的标签分类方法的流程示意图;
图2是本申请另一实施例提供的标签分类方法的流程示意图;
图3是本申请一实施例提供的标签分类装置的结构示意图;
图4是本申请一实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的标签分类方法可以应用于手机、平板电脑、可穿戴设备、车载设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,还可应用于服务器、云计算平台等服务端设备上,本申请实施例对执行该方法的电子设备的具体类型不作任何限制。
图1是本实施例提供的标签分类方法的流程示意图。如图1所示,该标签分类方法包括如下步骤:
S11,获取待处理数据。
本实施例提供的标签分类方法可用于对文本、图像等数据进行多标签分类,例如,预测文本的意图、判断图像具备的特征等,不同的意图或特征通过不同的标签来表示。所述待处理数据可以是文本、图像等类型的数据,属于第一场景,本实施例中要求待处理数据、标准数据和第二场景的数据的类型均一致。
第一场景和第二场景是相应的数据产生或出现的场景,例如,关于交易意图的文本属于商品交易场景,关于运动特征的图像属于体育运动场景等。第一场景与第二场景可以是不同场景或相似场景,为达到更好的分类效果,第一场景与第二场景最好是相似场景。
S12,确定待处理数据和小样本数据集中的每个标准数据之间的第一相似度。
小样本数据集包括少量的标准数据,与待处理数据同属于第一场景;每个标准数据均已标注标签。
将待处理数据与每个标准数据用向量表示,通过高斯函数计算两个向量的相似度,得到第一相似度。
S13,根据第一相似度,获得待处理数据的相似度阈值。
根据第一相似度以及相对小样本数据集包含的标签数量,可得到待处理数据包含的标签数量。
同时,获取待处理数据与小样本数据集的每个标签之间的第二相似度。
对文本类型和图像类型的数据均适用的方法是,将待处理数据与每个标准数据用向量表示,通过计算向量之间的余弦距离获得第二相似度;对图像类型的数据,还可通过结构相似性(Structural Similarity,SSIM)、直方图、指纹信息序列等方式计算相似度;对于文本类型的数据,还可以使用欧式距离、杰卡德相似度、海明距离来进行相似度度量。
将所有的第二相似度按数值大小进行排序;根据待处理数据的标签数量,在排序后的所有第二相似度中,选择相应的数值作为系数。例如,将所有的第二相似度按降序排序,若待处理数据的标签数量为n,则取排序第n+1位的数值作为系数。该系数体现了标签数量与相似度的对应关系。
根据第一相似度和系数,获得相似度阈值。具体为:将所有第一相似度的数值累加,与标准化参数、该系数进行相应计算,得到相似度阈值。
相似度阈值体现了待处理数据所在的第一场景与第二场景相比的特异性。
S14,根据相似度阈值以及目标阈值,得到待处理数据的实际阈值。
目标阈值为用于对第二场景的数据进行标签分类的阈值,体现了第二场景的普适性。
针对第二场景,若采用样本数据对每个标签分别训练分类模型,则获取多个分类模型对第二场景的数据进行标签分类的阈值,将这些阈值综合得到目标阈值。
对于已经标注标签的第二场景的数据,还可通过计算得到目标阈值,具体为:先计算第二场景的每个数据与每个标签的第三相似度,再根据第三相似度的数值分布得到目标阈值。其中,第三相似度的计算方式与第二相似度的计算方式相同。根据第三相似度的数值分布得到目标阈值包括但不限于如下可能的实现方式:将所有第三相似度的数值取均值作为目标阈值,或者对多个第三相似度的数值进行加权计算得到目标阈值。
根据预设的超参数,将相似度阈值与目标阈值按比例相加,得到待处理数据的实际阈值。将相似度阈值与目标阈值按比例相加,充分考虑了阈值的普适性和特异性,使实际阈值更适应于第一场景。
S15,确定待处理数据和小样本数据集的每个标签之间的第二相似度。
第二相似度的计算方式见步骤S13的描述,此处不再赘述。
S16,根据第二相似度和实际阈值,确定待处理数据具备的标签。
若待处理数据与小样本数据集的一标签之间的第二相似度大于实际阈值,则确认待处理数据具备该标签。
下面以文本的标签分类为例,对上述实施例的标签分类方法进行具体说明。如图2所示,该标签分类方法包括如下步骤:
S21,获取待处理数据。
待处理数据为文本,本实施例用于对文本进行多标签分类。
S22,获取第二场景的每个数据与每个标签的第三相似度。
对于第二场景,已标注标签的数据表示为
Figure BDA0003133169270000081
其中xi表示文本,yi表示相应的标签,i根据文本的数量取值。某个标签的名字可以表示为Yi,假设该第二场景下有N个标签,数据SN中跟该标签Yi有交叉的数据为
Figure BDA0003133169270000082
则可以由以下方式生成N个向量表示分别对应这些标签:
Figure BDA0003133169270000083
其中,E(Yi)和E(xi)是通过BERT预训练模型分别对标签名称Y和文本x进行直接编码,生成的相应的向量表示。α是一个预先设置的超参数,用于平衡标签Yi本身语义和相应文本之间的重要性。
第三相似度为f(xi,Yj)=Cosin(E(xi),ej);
其中,Cosin表示计算两者的余弦相似度,j根据标签的数量取值,进而得到全部第三相似度的分布。
S23,根据第三相似度的数值分布,得到目标阈值。
获取第三相似度的最大值和第三相似度的最小值;根据预设的第二超参数β,将第三相似度的最大值和第三相似度的最小值按比例相加,得到目标阈值。
目标阈值thresholdcommon=β*max f(x,Y)+(1-β)*min f(x,Y)
其中,β根据在以往通用领域学习得到的知识得到。
S24,确定待处理数据和小样本数据集中的每个标准数据之间的第一相似度。
将待处理数据Xnew与每个标准数据Xi(i为数据的数量)用向量表示,E(xnew)和E(Xi)是通过BERT预训练语言模型分别对待处理数据Xnew和标准数据Xi进行直接编码,生成的文本相应的向量表示;通过高斯函数计算两个向量的相似度,
Figure BDA0003133169270000091
其中,λ是高斯核的一个超参数。
S25,根据第一相似度,得到待处理数据包含的标签数量nnew
Figure BDA0003133169270000092
其中,Z是一个标准化参数,λ是高斯核的一个超参数,yi表示小样本数据集的标签,|yi|表示小样本数据集包含的标签yi的数量。
S26,获取待处理数据与小样本数据集的每个标签之间的第二相似度。
第二相似度f(xnew,Yj)=Cosin(E(xnew),eJ);
其中,Cosin表示计算两者的余弦相似度,j、J为小样本数据集中标签的数量,Yj表示小样本数据集中每个标签的标签名称,eJ表示小样本数据集中每个标签的向量表示,向量表示的生成方式可参照步骤S22的描述。
S27,根据标签数量,在排序后的所有第二相似度中,选择相应的数值作为系数,根据第一相似度和该系数,获得相似度阈值。
将所有的第二相似度按降序排序,待处理数据的标签数量为nnew,则取第二相似度里排名第(nnew+1)的数值,记录为系数
Figure BDA0003133169270000093
进而可以得到跟第一场景高度相关联的相似度阈值:
Figure BDA0003133169270000094
S28,根据待处理数据的相似度阈值以及目标阈值,得到待处理数据的实际阈值。
根据预设的第三超参数γ,将相似度阈值与目标阈值按比例相加,得到待处理数据的实际阈值。
实际阈值threshold=γ*thresholdcommon+(1-γ)*thresholdspecific
S29,根据第二相似度和实际阈值,确定待处理数据具备的标签。
若待处理数据与小样本数据集的一标签之间的第二相似度大于实际阈值,则确认待处理数据具备该标签。
需要说明的是,每个步骤的公式涉及的表示数量的i、j或J等字母,在其不同公式中是独立的,相互之间没有必然关系和取值的影响。
本实施例提供的标签分类方法在文本标签分类的应用上,能够利用第一场景上少量的标准数据,综合在第二场景上的已标注数据及其标签,准确生成各个标签的向量表示和阈值,完成了阈值从第二场景到第一场景的迁移,进而准确高效的预测出待处理数据的标签数量及其标签。
以往的数据标注需要耗费大量时间和人力,而本实施例对标准数据的需求量很小,所以本实施例能够有效的降低数据标注的成本,同时加速新场景投入应用的进程。对于提高整个服务系统的服务质量,提升用户的体验,改善整个服务体系的流程,都有一定的促进作用。
对应于上文实施例所述的标签分类方法,图3示出了本申请实施例提供的标签分类装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图3,该装置包括:
数据获取模块31,用于获取待处理数据。
相似度获取模块32,用于确定待处理数据和小样本数据集中的每个标准数据之间的第一相似度,标准数据为已标注标签且与待处理数据同属于第一场景的数据。
阈值获取模块33,用于根据第一相似度,获得待处理数据的相似度阈值;还用于根据相似度阈值以及目标阈值,得到待处理数据的实际阈值,目标阈值为用于对第二场景的数据进行标签分类的阈值。
相似度获取模块32还用于确定待处理数据和小样本数据集的每个标签之间的第二相似度。
分类模块34,用于根据第二相似度和实际阈值,确定待处理数据具备的标签。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图4为本申请一实施例提供的电子设备的结构示意图。如图4所示,该实施例的电子设备包括:至少一个处理器40(图4中仅示出一个)处理器、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42,所述处理器40执行所述计算机程序42时实现上述任意各个方法实施例中的步骤。
所述电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,图4仅仅是电子设备的举例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41在一些实施例中可以是所述电子设备内部存储单元,例如硬盘或内存,也可以是外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述存储器41用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种标签分类方法,其特征在于,包括:
获取待处理数据;
确定所述待处理数据和小样本数据集中的每个标准数据之间的第一相似度,所述标准数据为已标注标签且与所述待处理数据同属于第一场景的数据;
根据所述第一相似度,获得所述待处理数据的相似度阈值;
根据所述相似度阈值以及目标阈值,得到所述待处理数据的实际阈值,所述目标阈值为用于对第二场景的数据进行标签分类的阈值;
确定所述待处理数据和所述小样本数据集的每个标签之间的第二相似度;
根据所述第二相似度和所述实际阈值,确定所述待处理数据具备的标签。
2.如权利要求1所述的标签分类方法,其特征在于,根据所述待处理数据的相似度阈值以及目标阈值,得到所述待处理数据的实际阈值之前,还包括:
获取所述第二场景的每个数据与每个标签的第三相似度;
根据所述第三相似度的数值分布,得到所述目标阈值。
3.如权利要求2所述的标签分类方法,其特征在于,若所述第二场景的数据为文本,则获取所述第二场景的每个数据与每个标签的第三相似度,包括:
获取所述第二场景的每个标签的标签名称Yi
通过预训练语言模型分别对所述第二场景的每个文本xi和相应标签的标签名称Yi进行编码,得到文本向量表示E(xi)和标签名称向量表示E(Yi);
所述第二场景的每个标签的向量表示为:
Figure FDA0003133169260000011
其中α为预设的第一超参数;
通过所述向量表示确定所述第二场景的每个文本与每个标签的第三相似度f(xi,Yj)=Cosin(E(xi),ej)。
4.如权利要求3所述的标签分类方法,其特征在于,根据所述第三相似度的数值分布,得到所述目标阈值,包括:
获取所述第三相似度的最大值max f(x,Y)和所述第三相似度的最小值min f(x,Y);
所述目标阈值为:
thresholdcommon=β*max f(x,Y)+(1-β)*min f(x,Y),其中β为预设的第二超参数。
5.如权利要求1所述的标签分类方法,其特征在于,根据所述第一相似度,获得所述待处理数据的相似度阈值,包括:
根据所述第一相似度,得到所述待处理数据包含的标签数量nnew
Figure FDA0003133169260000021
获取所述待处理数据与所述小样本数据集的每个标签之间的第二相似度f(xnew,Yj)=Cosin(E(xnew),eJ);
将所有的所述第二相似度进行排序;
根据所述标签数量nnew,在排序后的所有所述第二相似度中,选择排名第(nnew+1)的数值,记录为系数
Figure FDA0003133169260000022
根据所述第一相似度和所述系数,获得相似度阈值为:
Figure FDA0003133169260000023
其中,eJ为所述小样本数据集的每个标签的标签名称Yj的向量表示,E(xnew)为所述待处理数据xnew的向量表示,E(xi)为所述小样本数据集的每个标准数据xi的向量表示,Z是一个标准化参数,λ是高斯核的一个超参数,|yi|表示小样本数据集包含的标签yi的数量。
6.如权利要求1所述的标签分类方法,其特征在于,根据所述待处理数据的相似度阈值以及目标阈值,得到所述待处理数据的实际阈值,包括:
所述待处理数据的实际阈值为threshold=γ*thresholdcommon+(1-γ)*thresholdspecific,其中,γ为预设的第三超参数。
7.如权利要求1所述的标签分类方法,其特征在于,根据所述第二相似度和所述实际阈值,确定所述待处理数据具备的标签,包括:
若所述待处理数据与所述小样本数据集的一标签之间的所述第二相似度大于所述实际阈值,则确认所述待处理数据具备所述标签。
8.一种标签分类装置,其特征在于,包括:
数据获取模块,用于获取待处理数据;
相似度获取模块,用于确定所述待处理数据和小样本数据集中的每个标准数据之间的第一相似度,所述标准数据为已标注标签且与所述待处理数据同属于第一场景的数据;
阈值获取模块,用于根据所述第一相似度,获得所述待处理数据的相似度阈值;还用于根据所述相似度阈值以及目标阈值,得到所述待处理数据的实际阈值,所述目标阈值为用于对第二场景的数据进行标签分类的阈值;
所述相似度获取模块还用于确定所述待处理数据和所述小样本数据集的每个标签之间的第二相似度;
分类模块,用于根据所述第二相似度和所述实际阈值,确定所述待处理数据具备的标签。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202110711706.9A 2021-06-25 2021-06-25 标签分类方法、装置、电子设备和存储介质 Active CN113435499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110711706.9A CN113435499B (zh) 2021-06-25 2021-06-25 标签分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110711706.9A CN113435499B (zh) 2021-06-25 2021-06-25 标签分类方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113435499A true CN113435499A (zh) 2021-09-24
CN113435499B CN113435499B (zh) 2023-06-20

Family

ID=77755292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110711706.9A Active CN113435499B (zh) 2021-06-25 2021-06-25 标签分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113435499B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138972A (zh) * 2021-11-30 2022-03-04 深圳集智数字科技有限公司 文本类别的识别方法及装置
CN114548261A (zh) * 2022-02-18 2022-05-27 北京百度网讯科技有限公司 数据处理方法、装置、电子设备以及存储介质
CN116225338A (zh) * 2023-03-13 2023-06-06 广州朝辉智能科技有限公司 基于时序信息与存储信息的数据处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898174A (zh) * 2018-06-25 2018-11-27 Oppo(重庆)智能科技有限公司 一种场景数据采集方法、场景数据采集装置及电子设备
CN109086742A (zh) * 2018-08-27 2018-12-25 Oppo广东移动通信有限公司 场景识别方法、场景识别装置及移动终端
WO2021043140A1 (zh) * 2019-09-02 2021-03-11 华为技术有限公司 标签确定方法、装置和系统
CN112560912A (zh) * 2020-12-03 2021-03-26 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备和存储介质
CN112632278A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112784130A (zh) * 2021-01-27 2021-05-11 杭州网易云音乐科技有限公司 孪生网络模型训练、度量方法、装置、介质和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898174A (zh) * 2018-06-25 2018-11-27 Oppo(重庆)智能科技有限公司 一种场景数据采集方法、场景数据采集装置及电子设备
CN109086742A (zh) * 2018-08-27 2018-12-25 Oppo广东移动通信有限公司 场景识别方法、场景识别装置及移动终端
WO2021043140A1 (zh) * 2019-09-02 2021-03-11 华为技术有限公司 标签确定方法、装置和系统
CN112560912A (zh) * 2020-12-03 2021-03-26 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备和存储介质
CN112632278A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112784130A (zh) * 2021-01-27 2021-05-11 杭州网易云音乐科技有限公司 孪生网络模型训练、度量方法、装置、介质和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138972A (zh) * 2021-11-30 2022-03-04 深圳集智数字科技有限公司 文本类别的识别方法及装置
CN114548261A (zh) * 2022-02-18 2022-05-27 北京百度网讯科技有限公司 数据处理方法、装置、电子设备以及存储介质
CN116225338A (zh) * 2023-03-13 2023-06-06 广州朝辉智能科技有限公司 基于时序信息与存储信息的数据处理方法及装置
CN116225338B (zh) * 2023-03-13 2023-11-14 湖北华中电力科技开发有限责任公司 基于时序信息与存储信息的数据处理方法及装置

Also Published As

Publication number Publication date
CN113435499B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN109117777B (zh) 生成信息的方法和装置
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN113435499B (zh) 标签分类方法、装置、电子设备和存储介质
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN115443490A (zh) 影像审核方法及装置、设备、存储介质
CN116822651A (zh) 基于增量学习的大模型参数微调方法、装置、设备及介质
CN111444335B (zh) 中心词的提取方法及装置
CN113010785B (zh) 用户推荐方法及设备
CN115373697A (zh) 数据处理方法和数据处理装置
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
CN117217283A (zh) 模型蒸馏方法、装置、电子设备及存储介质
CN116662538A (zh) 基于多任务学习的文本摘要生成方法、装置、设备及介质
CN116701637A (zh) 一种基于clip的零样本文本分类方法、系统及介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN115618019A (zh) 知识图谱构建方法、装置及终端设备
CN115080864A (zh) 基于人工智能的产品推荐方法、装置、计算机设备及介质
CN115700555A (zh) 模型训练方法、预测方法、装置和电子设备
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备
CN110209878A (zh) 视频处理方法、装置、计算机可读介质及电子设备
CN114186023B (zh) 针对特定搜索场景的搜索处理方法、装置、设备及介质
CN115204120B (zh) 保险领域三元组抽取方法、装置、电子设备及存储介质
CN117076713B (zh) 一种视频指纹提取和检索方法
CN117392402A (zh) 一种自监督学习方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant