CN114912541A

CN114912541A - 分类方法、装置、电子设备和存储介质

Info

Publication number: CN114912541A
Application number: CN202210605666.4A
Authority: CN
Inventors: 刘晨晖; 龚建; 孙珂; 潘旭; 徐思琪; 卓泽城
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-16
Also published as: US20230386237A1

Abstract

本公开提供了一种分类方法、装置、电子设备和存储介质，涉及人工智能领域，尤其涉及自然语言处理和深度学习领域。具体实现方案为：对待分类数据进行编码处理，得到待分类编码特征；根据待分类编码特征，确定与待分类数据相似的参考分类数据的参考编码特征；根据参考编码特征和相应参考分类数据的参考类别，确定待分类数据的目标类别。本公开实施例的技术方案，降低了分类方法的复杂程度，提高了数据分类的准确度。

Description

分类方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理和深度学习技术领域，具体涉及一种分类方法、装置、电子设备和存储介质，具体可用于智慧城市和智能云场景下。

背景技术

人工智能和机器学习的发展，为各行各业的智能化和技术革新提供了基础。其中，在数据分类的场景下，通过人工智能技术和机器学习算法等为数据进行快速分类是行之有效的一种方法。

发明内容

本公开提供了一种分类方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种分类方法，包括：

对待分类数据进行编码处理，得到待分类编码特征；

根据待分类编码特征，确定与待分类数据相似的参考分类数据的参考编码特征；

根据参考编码特征和相应参考分类数据的参考类别，确定待分类数据的目标类别。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开各实施例所提供的任意一种分类方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开各实施例所提供的任意一种分类方法。

本公开实施例的技术方案，降低了分类方法的复杂程度，提高了数据分类的准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种分类方法的示意图；

图2是根据本公开实施例提供的另一种分类方法的示意图；

图3是根据本公开实施例提供的又一种分类方法的示意图；

图4是根据本公开实施例提供的一种文本分类方法的示意图；

图5是根据本公开实施例提供的一种分类装置的结构图；

图6是用来实现本公开实施例的分类方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的分类方法和分类装置，适用于对待分类数据进行分类的场景中。本公开实施例所提供的各分类方法，可以由分类装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中，该电子设备可以是计算机、服务器等，本公开对此不作任何限定。

为了便于理解，首先对分类方法进行详细说明。

图1是根据本公开实施例提供的一种分类方法的示意图，如图1所示，该方法具体包括：

S110、对待分类数据进行编码处理，得到待分类编码特征。

其中，待分类数据是需要进行分类处理的数据，可选的，待分类数据可以包括文本数据、图像数据和音视频数据等中的至少一种，从而适配文本分类、图像分类和音视频分类等应用场景。编码处理可以是对待分类数据按照预设编码方式进行的数据处理过程，预设编码方式可以根据人工经验或者实际需要进行设定，例如对于文本数据的编码处理可以通过文本向量化模型，将待分类的文本数据编码成文本向量。当然，向量化的编码处理方式仅作举例说明，本公开实施例对编码处理不作限定。

待分类编码特征可以是待分类数据经过编码后得到的含有类别表征信息的特征数据。由于待分类数据可以根据不同维度进行分类，因此将待分类数据进行编码处理后，可以得到不同维度下的包括有各种分类情况的待分类编码特征。

示例性的，以文本数据的编码处理为例，将待分类文本通过预设的文本向量化模型进行编码处理，得到待分类文本对应的待分类文本向量，该待分类文本向量中包括有可以用于对文本数据进行分类的特征数据。

S120、根据待分类编码特征，确定与待分类数据相似的参考分类数据的参考编码特征。

其中，参考分类数据可以是用于辅助待分类数据进行分类的已分类数据。其中，与待分类数据相似的参考分类数据，与待分类数据的数据类型相同(例如同属于文本数据)，并且与待分类数据相似的各参考分类数据对应的各类别是已知的(即预先经过分类的、含有类别标签的数据)。参考编码特征可以是与待分类数据相似的参考分类数据经过编码处理得到的特征数据，该参考编码特征携带有不同参考分类数据的类别表征信息。

可以理解的是，由于参考分类数据的类别已知，可以通过待分类编码特征与各参考分类数据，通过预设编码算法确定参考编码特征。其中，预设编码算法可以采用现有技术中任意一种编码算法实现，本公开实施例对此不作限定。

在一种可选实施方式中，所述根据待分类编码特征，确定与待分类数据相似的参考分类数据的参考编码特征，可以包括：根据待分类编码特征，从预设数据库的各候选分类数据中，召回与待分类数据相似的参考分类数据；将参考分类数据的编码特征作为参考编码特征；其中，预设数据库中的候选分类数据的数量较少。

其中，预设数据库可以是保存各候选分类数据的数据库。候选分类数据用于提供各参考分类数据。从保存有候选分类数据的预设数据库中，召回与待分类数据相似的参考分类数据。召回的方法可以采用现有技术中任意一种召回算法，本公开实施例不作限定。将召回的参考分类数据对应的编码特征作为参考编码特征，可想而知，该参考编码特征中携带有对应参考分类数据的类别表征信息。

可选的，对参考编码特征的确定可以是先对参考分类数据进行召回，再对参考分类数据进行编码处理，获得参考编码特征；当然，也可以是预先对各候选分类数据进行编码处理，得到各候选编码特征，再对各候选编码特征进行召回，从中获取与待分类数据相似的参考分类数据的参考编码特征。本公开实施例对参考编码特征的确定方式不作限定。

需要注意的是，预设数据库中的候选分类数据的数量可以较少。可以理解的是，对大量数据的处理虽然增加了样本数量，但不利于分类效率和分类标签的快速冷启动，因此在预设数据库中设置较少的候选分类数据，有助于应对分类标签冷启动问题。

上述可选实施方式中，在候选分类数据数量较少的预设数据库中，为待分类数据召回相似的参考分类数据。候选分类数据的样本量小，可以使召回效率提高，解决了分类标签冷启动的问题，从而整体上提高了对待分类数据进行分类处理的效率。

S130、根据参考编码特征和相应参考分类数据的参考类别，确定待分类数据的目标类别。

其中，参考类别可以是各参考分类数据对应的实际类别标签，参考类别的数量为至少一个。目标类别是待分类数据的预测类别。示例性的，可以根据将各参考编码特征中包括的各类别信息，与相应参考分类数据的参考类别进行处理，从而确定待分类数据的目标类别，该处理过程可以采用对比、聚类、相似度计算等方法，本公开实施例对此不作限定。

延续前例进行说明，在对待分类文本进行分类时，可以在所有的标注了类别的文本数据中随机、或按预设规则选出少量的各类候选文本，建立支持集数据库(对应前述预设数据库)。其中，预设规则可以由相关技术人员根据经验设定，也可以经过大量试验得到。在一个具体实现方式中，预设规则可以是从所有文本类别中各选择较少文本数据，构建包扩有全部文本类别的支持集数据库，且该支持集数据库中的文本数据的类别应标注准确。本公开对此不作限定。从该支持集数据库中，根据待分类文本和各类候选文本的相似度，确定与待分类文本相似的参考文本；对参考文本进行编码处理，得到参考文本向量；根据待分类文本向量和参考文本向量之间的相似度，确定待分类文本的目标类别。

本公开实施例的技术方案，对待分类数据进行编码处理得到可用于判断类别的待分类编码特征，根据待分类编码特征进行目标类别的判断，无需进行复杂的特征提取和深度挖掘，因此降低了分类方法的复杂程度，减少了数据运算量。另外，上述技术方案通过待分类编码特征确定相似参考分类数据的参考编码特征，并结合相应参考分类数据的参考类别，确定目标类别，通过引入参考编码特征和相应参考类别，为目标类别的确定提供了丰富的参照依据，进一步提高了分类方法的准确度。

图2是根据本公开实施例提供的另一种分类方法的示意图。在上述各技术方案的基础上，本公开还提供了一个可选实施例，在该实施例中，将目标类别的确定操作进一步细化，以提高数据分类的准确性。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例中的相关表述，在此不再赘述。

如图2所示的一种分类方法，具体包括：

S210、对待分类数据进行编码处理，得到待分类编码特征。

S220、根据待分类编码特征，确定与待分类数据相似的参考分类数据的参考编码特征。

S230、根据相同参考类别下的参考编码特征，确定相应参考类别下的融合编码特征。

其中，融合编码特征可以是同一参考类别下不同参考编码特征的融合结果。该融合编码特征可较大程度的体现了该参考类别对应的类别表征信息，提高了所携带信息的丰富性和全面性。其中，各参考编码特征的融合方法可以是现有技术中任意一种特征融合算法，本公开实施例对特征融合的方法不作限定。

需要补充说明的是，在S220中可以确定至少两种参考类别的参考分类数据，不同参考类别的参考分类数据可分别进行特征融合，得到该参考类别对应的融合编码特征，因此该融合编码特征可以从相同参考类别对应参考分类数据的共性特征维度，表征待分类数据的类别信息。

在一种可选实施方式中，所述根据相同参考类别下的参考编码特征，确定相应参考类别下的融合编码特征，可以包括：将相同参考类别下的参考编码特征进行叠加融合，得到相应参考类别下的融合编码特征。

通过叠加融合的方法，将相同参考类别下的参考编码特征进行融合，确定该参考类别下的融合编码特征。其中，叠加融合可以直接逐像素点叠加，或者采用注意力池化算法加以实现采用叠加融合方法对参考编码特征进行融合，操作便捷，算法精简，使特征融合的运算数据量小，降低了特征融合难度，从而助于提高分类的效率。

在一种可选实施方式中，所述将相同参考类别下的参考编码特征进行叠加融合，得到相应参考类别下的融合编码特征，可以包括：针对任一参考类别，分别确定该参考类别下的各参考编码特征与待分类编码特征之间的参考相似度；根据该参考类别下的各参考相似度，确定注意力权重；根据注意力权重，将该参考类别下的各参考编码特征进行叠加融合，得到该参考类别下的融合编码特征。

其中，参考相似度可以是各参考类别下参考编码特征与待分类编码特征之间的相似度参数，例如采用余弦相似计算方法，得到各参考类别下参考编码特征与待分类编码特征之间的各余弦相似度，作为相应的参考相似度。注意力权重用于表征相同参考类别下不同参考编码特征在特征融合中的重要程度。其中，注意力权重越高，表明该参考编码特征所携带的类别表征信息对该参考类别的影响越大；反之，若注意力权重越低，则表明该参考编码特征所携带的类别表征信息对该参考类别的影响越小。

上述实施方式中，引入各参考编码特征与待分类编码特征之间的参考相似度进行注意力权重确定，从而在基于注意力权重进行各参考类别下的融合编码特征的确定，能够强化参考相似度较高的参考编码特征，并弱化参考相似度较低的参考编码特征，提高了融合编码特征的准确性和合理性，有助于提高目标类别准确度。

在一个可选实施例中，可以直接将各参考编码特征的参考相似度，作为相应参考编码特征的注意力权重。

由于不同参考类别下所包含的参考编码特征的数量不同，不同参考编码特征对应的参考相似度的数值也不同，因此，直接将参考相似度作为注意力权重，进行融合编码特征确定时，将会影响参考类别间的特征差异的准确性。为了避免上述情况的发生，在另一可选实施方式中，所述根据该参考类别下的各参考编码特征与待分类编码特征的参考相似度，确定注意力权重，可以包括：对该参考类别下的各参考编码特征与待分类编码特征的参考相似度进行激活处理，得到注意力权重；其中，该参考类别下的各参考编码特征对应注意力权重之和为1。

其中，可以采用预设激活函数，对得到的相同参考类别下各参考编码特征对应的参考相似度进行归一化处理，得到各参考类别对应的注意力权重。其中，预设激活函数可以由技术人员根据需要或经验值进行设定，或通过大量试验加以确定，仅需保证确定得到的相同参考类别下的注意力权重之和为1即可。在一个具体实现方式中，激活函数可以为softmax函数。

上述实施方式中，通过激活各参考相似度得到注意力权重，并设置各参考类别的注意力权重之和为1，实现对注意力权重的量纲统一化，有助于后续对融合编码特征的标准化处理，避免了出现由于量纲不同导致不同融合编码特征的数值差异较大的情况发生，有助于提高目标类别确定结果的准确度。

S240、根据各参考类别下的融合编码特征，确定待分类数据的目标类别。

示例性地，可以根据各参考类别对应的融合编码特征以及待分类数据的待分类编码特征，对待分类数据的目标类别进行确定。

示例性地，可以分别将各融合编码特征和待分类编码特征进行对比，确定与待分类编码特征相似的融合编码特征；将相似的融合编码特征所属参考类别作为目标类别。其中，融合编码特征和待分类编码特征的相似情况，可以通过相似度进行量化表征。可选的，可以采用现有技术提供的至少一种相似度确定方式确定融合编码特征与待分类编码特征的相似度，本公开实施例对相似度确定方式不作任何限定。

本公开实施例的技术方案，根据各参考类别下的参考编码特征确定各参考类别对应的融合编码特征，按照参考类别的维度生成融合编码特征，能够增强相同参考类别下的相似特征，从而提高了不同参考类别的融合编码特征的差异性，有助于提高目标类别准确度。

图3是根据本公开实施例提供的又一种分类方法的示意图。在上述各技术方案的基础上，本公开还提供了一个可选实施例，在该实施例中，将目标类别的确定操作进一步细化，以提高数据分类的准确性。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例中的相关表述，在此不再赘述。

如图3所示的一种分类方法，具体包括：

S310、对待分类数据进行编码处理，得到待分类编码特征。

S320、根据待分类编码特征，确定与待分类数据相似的参考分类数据的参考编码特征。

S330、根据相同参考类别下的参考编码特征，确定相应参考类别下的融合编码特征。

S340、根据各参考类别下的融合编码特征和待分类编码特征，确定待分类数据属于相应参考类别的类别置信度。

需要说明的是，类别置信度反映了待分类数据属于相应参考类别的可信程度。可以理解的是，在待分类数据属于不同参考类别的可信程度不同，类别置信度越大，则表明待分类数据属于该参考类别的可能性越大，也即该类别置信度对应的参考类别被判定为目标类别的可能性越大；相反，若类别置信度越小，则表明待分类数据属于该参考类别的可能性越小，也即该类别置信度对应的参考类别被判定为目标类别的可能性越小。

示例性地，可以通过融合编码特征与待分类编码特征的关联程度，表征待分类数据属于融合编码特征相应参考类别的类别置信度。其中，关联程度可以通过相关度或不相关度等参数进行量化表征。

在一种可选实施方式中，所述根据各参考类别下的融合编码特征和待分类编码特征，确定待分类数据属于相应参考类别的类别置信度，可以包括：分别确定各参考类别下的融合编码特征与待分类编码特征之间的融合相似度；根据各融合编码特征的融合相似度，确定待分类数据属于相应参考类别的类别置信度。

其中，融合相似度可以是各参考类别下的融合编码特征和待分类编码特征之间的相似度参数，表征了待分类编码特征的类别与融合编码特征相应参考类别的关联程度。融合相似度可以通过预设的相似度算法进行确定，例如余弦相似度、杰卡德相似度等，本公开对融合相似度确定时所采用的相似度算法不作任何限定。相应的，在各参考类别对应的融合相似度的基础上，确定各参考类别对应的类别置信度。例如，可以直接将融合相似度作为类别置信度，也可以将融合相似度的数值，经过预设算法处理后得到相应的类别置信度。预设算法可以采用现有技术中任意一种置信度计算方法，例如通过激活函数(如softmax函数等)进行类别置信度的计算，本公开实施例对类别置信度的确定方法不作限定。

上述实施方式中，基于融合编码特征，从参考类别的全局角度进行融合相似度的确定，避免了随机因素的影响，提高了融合相似度确定结果的准确度和合理性，进而提高了类别置信度的准确度。

S350、根据各参考类别的类别置信度，确定待分类数据的目标类别。

根据前述步骤中确定的类别置信度，选取符合预设条件的类别置信度对用的参考类别作为目标类别。其中，预设条件可以由相关技术人员根据经验设定。在一个可选实施例中，预设条件可以包括类别置信度需满足的数值条件和目标类别的数量条件等中的至少一种。

可选的，所述根据各参考类别的类别置信度，确定待分类数据的目标类别，可以包括：根据数值较高的类别置信度对应参考类别，确定待分类数据的目标类别。

可以理解的是，待分类数据对应的各参考类别中，类别置信度的数值较高(例如最高)的参考类别，最能够体现待分类数据的类别信息，因此将该数值较高(例如最高)的类别置信度对应的参考类别，作为待分类数据的目标类别。当然，若存在至少两个数值较高的参考类别符合预设条件，则可确定该至少两个参考类别均为目标类别，本公开对目标类别的确定数量不作限定。将数值较高的类别置信度对应的参考类别作为目标类别，为目标类别的确定提供了一种具体有效的方法，避免了选择目标类别过多导致分类异常情况的发生。

在一种可选实施方式中，所述根据各参考类别的类别置信度，确定待分类数据的目标类别，可以包括：若数值最高的类别置信度小于第一预设阈值，则将待分类数据的目标类别设置为默认类别；从不小于第一预设阈值的类别置信度对应的参考类别中，选取类别置信度较高的至少一个参考类别作为目标类别。

其中，第一预设阈值可以是用于判断类别置信度对应参考类别能否作为目标类别的预设标准。可以理解的是，参考类别中数据最高的类别置信度小于第一预设阈值，能够说明待分类数据与各参考类别的关联程度均较低，因此各参考类别均不适合作为待分类数据的目标类别。因此，可以将该待分类数据的目标类别设置为默认类别，与各参考类别加以区分。当然，当类别置信度不小于第一预设阈值时，可以将该类别置信度对应参考类别作为目标类别。这样做的好处在于，可以避免出现目标类别标注错误的情况发生，为应对分类过程中存在不属于当前分类体系(也即各参考分类数据的参考类别过构建体系)的其他类别问题奠定了基础。

可选的，在分类完成后，可以将标注为默认类别的待分类数据进行人工标注，进一步准确确定待分类数据的所属类别。

由于直接采用上述方式进行目标类别确定过程中，会由于召回参考分类数据不够或其他因素的影响，导致所确定目标类别的准确度较低，因此，还可以引入一定的补偿机制，对准确度较低的目标类别进行重新确定。

在一种可选实施方式中，所述根据各参考类别的类别置信度，确定待分类数据的目标类别，可以包括：若目标类别的类别置信度小于第二预设阈值，则确定目标类别为不置信类别；其中，第二预设阈值大于第一预设阈值。

其中，第二预设阈值可以是用于判断类别置信度的可靠程度的预设阈值。在第一预设阈值之上设置第二预设阈值，并在目标类别的类别置信度小于第二预设阈值的情况下，将该目标类别设置为不置信类别，从而通过引入第二预设阈值对数据分类过程进行准确度兜底。也就是说，即使某类别置信度的数值超过了第一预设阈值，但只要该类别置信度的数值未超过第二预设阈值，仍旧无法判定为可靠的目标类别，需要借助其他手段，例如人工标注等。例如，设置第一预设阈值为0.4，第二预设阈值为0.6。若此时某类别置信度的数值为0.5，则该类别置信度对应的参考类型可以被判定为不置信类别。

上述实施方式中，引入双重阈值对目标类别进行确定，进一步筛选出可信度高的参考类别作为目标类别，避免出现分类标注错误的情况，提高了分类方法的准确度。

本公开实施例的技术方案，基于融合编码特征，从参考类别全局角度进行融合相似度的确定，避免了随机因素的影响，提高了融合相似度确定结果的准确度和合理性，进而提高了类别置信度确定的准确度，为后续对目标类别的确定提供了有力支持。

在前述各实施例技术方案的基础上，在为文本数据进行分类的场景下，本公开还提供了一种优选实施例，如图4所示的一种文本分类方法，具体如下：

基于通用文本向量化模型，对待分类文本进行编码处理，得到待分类文本向量。

标注数据数据库用于存储所有已被标注了文本类别的文本数据的数据库，预设数据库是标注数据数据库的子集，包括不同类别(图示类别数量为n)的已标注类别的文本数据。通过前述通用文本向量化模型对预设数据库中的各类别的文本数据进行编码，得到的参考文本向量，并保存至支持集数据库中。

待分类文本向量通过余弦相似度算法，从支持集数据库中召回与待分类文本相似的K条参考文本向量作为参考编码特征。该K条参考编码特征分别属于N(N≤n)个类别，K条参考编码特征按照类别维度划分为N个参考组。

针对各参考组，确定该参考组中各参考编码特征与待分类文本向量之间的余弦相似度，并基于预设激活函数(例如softmax)对该参考组中的各余弦相似度进行归一化处理，得到该参考组内各参考编码特征的注意力权重。基于注意力池化机制，也即根据该参考组内的各参考编码特征的注意力权重，对该参考组内的各参考编码特征进行加权融合，得到该参考组的融合编码特征。

进一步的，将待分类文本向量与融合编码特征进行余弦相似度计算，将N个余弦相似度组合得到一个维度为N的逻辑(logit)向量，该logit向量通过预设激活函数(如softmax)进行激活处理后，得到维度为N的概率分布向量，该概率分布向量中的每个元素可以代表待分类文本属于相应融合编码特征对应已标注的文本类别的置信度。置信度数值越高意味着待分类文本越有可能属于该置信度对应的文本类别。

进一步的，经过预设置信度阈值的筛选，得到符合预设置信度阈值的目标类别和不符合预设置信度阈值的默认类别。可以理解的是，通过默认类别的设置，能够解决目标类别的OOD(Out-of-Domain，域外)问题。其中，默认类别可以设置为“其他”类别。可以理解的是，目标类别即已经确定待分类文本所属的文本类别。由于召回参考编码特征的数量有限，可能存在目标类别分类不准确的情况发生，因此还需要从目标类别中筛选出不置信类别，采用其他方式(例如人工标注)进行类别确定。因此，可以引入主动学习机制(例如不确定性采样算法)，预先设定一个不确定性阈值，根据前述概率分布向量，判断该概率分布向量中的每个元素(即置信度)与不确定性阈值的大小，将小于不确定性阈值的置信度对应的类别定义为不置信类别。默认类别和不置信类别对应的待分类文本均可以进行人工标注，并将人工标注后的待分类文本添加至标注数据数据库中。

图5是根据本公开实施例提供的一种分类装置的结构图，如图4所示的分类装置500，可以包括：编码处理模块510、参考编码特征确定模块520和目标类别确定模块530，其中，

编码处理模块510，用于对待分类数据进行编码处理，得到待分类编码特征；

参考编码特征确定模块520，用于根据待分类编码特征，确定与待分类数据相似的参考分类数据的参考编码特征；

目标类别确定模块530，用于根据参考编码特征和相应参考分类数据的参考类别，确定待分类数据的目标类别。

本公开实施例的技术方案，对待分类数据进行编码处理得到可用于判断类别的待分类编码特征，根据待分类编码特征进行目标类别的判断，可以降低分类方法的复杂程度；通过待分类编码特征确定相似参考分类数据的参考编码特征，并结合相应参考分类数据的参考类别，确定目标类别，引入了参考编码特征和相应参考类别对目标类别的确定提供依据和辅助，进一步提高了分类方法的准确度。

在一种可选实施方式中，所述目标类别确定模块530，可以包括：

融合编码特征确定单元，用于根据相同参考类别下的参考编码特征，确定相应参考类别下的融合编码特征；

目标类别判定单元，用于根据各参考类别下的融合编码特征，确定待分类数据的目标类别。

在一种可选实施方式中，所述融合编码特征确定单元，可以具体用于：

将相同参考类别下的参考编码特征进行叠加融合，得到相应参考类别下的融合编码特征。

在一种可选实施方式中，所述融合编码特征确定单元，可以包括：

参考相似度确定子单元，用于针对任一参考类别，分别确定该参考类别下的各参考编码特征与待分类编码特征之间的参考相似度；

注意力权重确定子单元，用于根据该参考类别下的各参考相似度，确定注意力权重；

特征叠加融合子单元，用于根据注意力权重，将该参考类别下的各参考编码特征进行叠加融合，得到该参考类别下的融合编码特征。

在一种可选实施方式中，所述目标类别判定单元，可以包括：

类别置信度确定子单元，用于根据各参考类别下的融合编码特征和待分类编码特征，确定待分类数据属于相应参考类别的类别置信度；

目标类别确定子单元，用于根据各参考类别的类别置信度，确定待分类数据的目标类别。

在一种可选实施方式中，所述类别置信度确定子单元，可以包括：

融合相似度确定从单元，用于分别确定各参考类别下的融合编码特征与待分类编码特征之间的融合相似度；

类别置信度确定从单元，用于根据各融合编码特征的融合相似度，确定待分类数据属于相应参考类别的类别置信度。

默认类别确定从单元，用于若数值最高的类别置信度小于第一预设阈值，则将待分类数据的目标类别设置为默认类别；

类别选取从单元，用于从不小于第一预设阈值的类别置信度对应的参考类别中，选取类别置信度较高的至少一个参考类别作为目标类别。在一种可选实施方式中，所述目标类别确定子单元，可以具体用于：

若目标类别的类别置信度小于第二预设阈值，则确定目标类别为不置信类别；

其中，第二预设阈值大于第一预设阈值。

在一种可选实施方式中，所述参考编码特征确定模块520，可以包括：

参考分类数据召回单元，用于根据待分类编码特征，从预设数据库的各候选分类数据中召回与待分类数据相似的参考分类数据；

参考特征确定单元，用于将参考分类数据的编码特征作为参考编码特征；

其中，预设数据库中的候选分类数据的数量较少。

在一种可选实施方式中，所述待分类数据可以包括文本数据、图像数据、和音视频数据中的至少一种。

上述分类装置可执行本公开任意实施例所提供的分类方法，具备执行各分类方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的待分类数据和参考分类数据等的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如一种分类方法。例如，在一些实施例中，分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种分类方法，包括：

对待分类数据进行编码处理，得到待分类编码特征；

根据所述待分类编码特征，确定与所述待分类数据相似的参考分类数据的参考编码特征；

根据所述参考编码特征和相应参考分类数据的参考类别，确定所述待分类数据的目标类别。

2.根据权利要求1所述的方法，其中，所述根据所述参考编码特征和相应参考分类数据的参考类别，确定所述待分类数据的目标类别，包括：

根据相同参考类别下的参考编码特征，确定相应参考类别下的融合编码特征；

根据各所述参考类别下的所述融合编码特征，确定所述待分类数据的目标类别。

3.根据权利要求2所述的方法，其中，所述根据相同参考类别下的参考编码特征，确定相应参考类别下的融合编码特征，包括：

4.根据权利要求3所述的方法，其中，所述将相同参考类别下的参考编码特征进行叠加融合，得到相应参考类别下的融合编码特征，包括：

针对任一参考类别，分别确定该参考类别下的各参考编码特征与所述待分类编码特征之间的参考相似度；

根据该参考类别下的各所述参考相似度，确定注意力权重；

根据所述注意力权重，将该参考类别下的各参考编码特征进行叠加融合，得到该参考类别下的融合编码特征。

5.根据权利要求2-4任一项所述的方法，其中，所述根据各所述参考类别下的所述融合编码特征，确定所述待分类数据的目标类别，包括：

根据各所述参考类别下的所述融合编码特征和所述待分类编码特征，确定所述待分类数据属于相应参考类别的类别置信度；

根据各所述参考类别的类别置信度，确定所述待分类数据的目标类别。

6.根据权利要求5所述的方法，其中，所述根据各所述参考类别下的所述融合编码特征和所述待分类编码特征，确定所述待分类数据属于相应参考类别的类别置信度，包括：

分别确定各所述参考类别下的融合编码特征与所述待分类编码特征之间的融合相似度；

根据各所述融合编码特征的融合相似度，确定所述待分类数据属于相应参考类别的类别置信度。

7.根据权利要求5所述的方法，其中，所述根据各所述参考类别的类别置信度，确定所述待分类数据的目标类别，包括：

若数值最高的类别置信度小于第一预设阈值，则将所述待分类数据的目标类别设置为默认类别；

从不小于所述第一预设阈值的类别置信度对应的参考类别中，选取类别置信度较高的至少一个参考类别作为所述目标类别。

8.根据权利要求7所述的方法，其中，所述根据各所述参考类别的类别置信度，确定所述待分类数据的目标类别，包括：

若所述目标类别的类别置信度小于第二预设阈值，则确定所述目标类别为不置信类别；

其中，所述第二预设阈值大于所述第一预设阈值。

9.根据权利要求1-8任一项所述的方法，其中，所述根据所述待分类编码特征，确定与所述待分类数据相似的参考分类数据的参考编码特征，包括：

根据所述待分类编码特征，从预设数据库的各候选分类数据中召回与所述待分类数据相似的参考分类数据；

将所述参考分类数据的编码特征作为所述参考编码特征；

其中，所述预设数据库中的候选分类数据的数量较少。

10.根据权利要求1-9任一项所述的方法，其中，所述待分类数据包括文本数据、图像数据、和音视频数据中的至少一种。

11.一种分类装置，包括：

编码处理模块，用于对待分类数据进行编码处理，得到待分类编码特征；

参考编码特征确定模块，用于根据所述待分类编码特征，确定与所述待分类数据相似的参考分类数据的参考编码特征；

目标类别确定模块，用于根据所述参考编码特征和相应参考分类数据的参考类别，确定所述待分类数据的目标类别。

12.根据权利要求11所述的装置，其中，所述目标类别确定模块，包括：

目标类别判定单元，用于根据各所述参考类别下的所述融合编码特征，确定所述待分类数据的目标类别。

13.根据权利要求12所述的装置，其中，所述融合编码特征确定单元，具体用于：

14.根据权利要求13所述的装置，其中，所述融合编码特征确定单元，包括：

参考相似度确定子单元，用于针对任一参考类别，分别确定该参考类别下的各参考编码特征与所述待分类编码特征之间的参考相似度；

注意力权重确定子单元，用于根据该参考类别下的各所述参考相似度，确定注意力权重；

特征叠加融合子单元，用于根据所述注意力权重，将该参考类别下的各参考编码特征进行叠加融合，得到该参考类别下的融合编码特征。

15.根据权利要求12-14任一项所述的装置，其中，所述目标类别判定单元，包括：

类别置信度确定子单元，用于根据各所述参考类别下的所述融合编码特征和所述待分类编码特征，确定所述待分类数据属于相应参考类别的类别置信度；

目标类别确定子单元，用于根据各所述参考类别的类别置信度，确定所述待分类数据的目标类别。

16.根据权利要求15所述的装置，其中，所述类别置信度确定子单元，包括：

融合相似度确定从单元，用于分别确定各所述参考类别下的融合编码特征与所述待分类编码特征之间的融合相似度；

类别置信度确定从单元，用于根据各所述融合编码特征的融合相似度，确定所述待分类数据属于相应参考类别的类别置信度。

17.根据权利要求15所述的装置，其中，所述类别置信度确定子单元，包括：

默认类别确定从单元，用于若数值最高的类别置信度小于第一预设阈值，则将所述待分类数据的目标类别设置为默认类别；

类别选取从单元，用于从不小于所述第一预设阈值的类别置信度对应的参考类别中，选取类别置信度较高的至少一个参考类别作为所述目标类别。

18.根据权利要求17所述的装置，其中，所述目标类别确定子单元，具体用于：若所述目标类别的类别置信度小于第二预设阈值，则确定所述目标类别为不置信类别；

其中，所述第二预设阈值大于所述第一预设阈值。

19.根据权利要求11-18任一项所述的装置，其中，所述参考编码特征确定模块，包括：

参考分类数据召回单元，用于根据所述待分类编码特征，从预设数据库的各候选分类数据中召回与所述待分类数据相似的参考分类数据；

参考特征确定单元，用于将所述参考分类数据的编码特征作为所述参考编码特征；

其中，所述预设数据库中的候选分类数据的数量较少。

20.根据权利要求11-19任一项所述的装置，其中，所述待分类数据包括文本数据、图像数据、和音视频数据中的至少一种。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的分类方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-10中任一项所述的分类方法。

23.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-10中任一项所述分类方法的步骤。