CN112149754B

CN112149754B - 一种信息的分类方法、装置、设备及存储介质

Info

Publication number: CN112149754B
Application number: CN202011069133.6A
Authority: CN
Inventors: 罗中岩
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-06-11
Anticipated expiration: 2040-09-30
Also published as: CN112149754A

Abstract

本发明实施例公开了一种信息的分类方法、装置、设备及存储介质，该方法包括：当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取；根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第二分类模型基于所述第一分类模型生成；根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果，提升了第二分类模型针对各自分类类别的识别准确度，进而通过多层分类模型进行的多次信息识别，确保了分类结果的准确性。

Description

一种信息的分类方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种信息的分类方法、装置、设备及存储介质。

背景技术

随着人工智能技术的不断发展，深度学习技术被广泛应用于数据分析与处理中，成为了工作和生活中必不可少的数据处理方法。

现有深度学习技术中，多层神经网络需要从大量样本数据中进行学习，分类模型的精度依赖于样本数据的数量，通常越复杂的网络需要越多的样本数据参与模型训练，而对于样本数据的构建需要消耗大量的人力成本和时间成本，当样本数据不足时，便会造成分类模型的信息分类准确率降低，且现有分类模型训练方法对样本数据的利用率较低，易造成样本数据的浪费。

发明内容

本发明实施例提供了一种信息的分类方法、装置、设备及存储介质，以实现对信息的分类，提升分类结果的准确性。

第一方面，本发明实施例提供了一种媒体数据的传输方法，包括：

当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取；

根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第二分类模型基于所述第一分类模型生成；

根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果。

第二方面，本发明实施例提供了一种信息的分类装置，包括：

第一识别结果获取模块，用于当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取；

第二识别结果获取模块，用于根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第二分类模型基于所述第一分类模型生成；

第一分类结果获取模块，用于根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果。

第三方面，本发明实施例还提供了一种终端设备，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的信息的分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的信息的分类方法。

本发明实施例提供的技术方案，在通过第一分类模型获取第一识别结果后，采用第二分类模型，对第一识别结果进行二次识别，并根据至少一个第二识别结果获取最终的分类结果，其中，第二分类模型基于第一分类模型生成，提升了各第二分类模型针对各自分类类别的识别准确度，进而通过多层分类模型进行的多次信息识别，确保了分类结果的准确性。

附图说明

图1是本发明实施例一提供的一种信息的分类方法的流程图；

图2A是本发明实施例二提供的另一种信息的分类方法的流程图；

图2B是本发明实施例具体应用场景一提供的一种信息的分类系统结构图；

图3A是本发明实施例三提供的另一种信息的分类方法的流程图；

图3B是本发明实施例三提供的另一种信息的分类方法的示意图；

图4A是本发明实施例四提供的另一种信息的分类方法的流程图；

图4B是本发明实施例四提供的另一种信息的分类方法的示意图；

图5是本发明实施例五提供的一种信息的分类装置的结构框图；

图6是本发明实施例六提供的一种终端设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种信息的分类方法的流程图，本实施例可适用于通过基于神经网络的信息的分类模型，对信息进行分类的情况，该方法可以由本发明实施例中的信息的分类装置来执行，该装置可以通过软件和/或硬件实现，并集成在终端设备或服务器上，该方法具体包括如下步骤：

S110、当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取。

获取到待分类信息时，根据待分类信息的信息特征，通过基于机器学习训练完成的分类模型，提取待分类信息的信息特征，然后对已提取信息特征进行特征匹配，以最终实现对待分类信息的类别识别。机器学习中的初始分类模型可以通过多种方式构建，例如，神经网络；通过机器学习对初始分类模型进行训练，最终获取到训练完成的分类模型；神经网络包括LeNet和GoogleNet，其中，LeNet是一种卷积神经网络，具有结构简单，易于训练的特点；GoogleNet是一种深度学习结构的卷积神经网络，通过增强卷积模块功能，能在保持网络结构稀疏性的同时，利用密集矩阵的高计算性能。第一分类模型是基于原始训练样本集合，经过预先训练后的分类模型，对于输入的待分类信息具备了对信息的识别及分类能力，其输出结果，也即第一识别结果，包括待分类信息可能的类别及各类别对应的概率信息。例如，待分类信息为一张动物马的图像，经过第一分类模型识别，获取第一识别结果为：动物牛的可能概率为0.2，动物马的可能概率为0.6，动物羊的可能概率为0.2。

待分类信息包括图像信息和/或语音信息，其中，待分类信息为分类网络的初始输入信息，可以是图像信息，也可以是语音信息；图像信息主要的文件格式包括BMP，JPG(JPEG)，JPEG2000，PNG，GIF和TIFF等，获取图像的方式包括采用截图、通过摄像机拍摄、网络下载和手机拍摄等；语音信息的常见格式包括CD、WAVE、AIFF、MPEG和MP3等，获取语音的方式包括音乐播放器、在线音乐网站、网盘、影音素材网和视频音乐等。待分类信息的信息特征包括图像特征和语音特征，其中，图像特征主要包括颜色特征、纹理特征、形状特征和空间关系特征，图像特征提取方法包括Histogram of Oriented Gradient(HOG)特征提取和Local Binary Pattern(LBP)特征提取等方法；语音特征主要包括声强和声强级、响度、音高和基音周期和基音频率等，语音特征提取方法包括梅尔频率倒谱系数(MFCC)算法，线性预测系数(LPC)算法和线性预测倒谱系数(LPCC)算法等。

S120、根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第二分类模型基于所述第一分类模型生成。

根据第一识别结果，选定匹配的至少一个第二分类模型，即一个第一识别结果对应匹配至少一个第二分类模型，第一识别结果包含类别信息和对应的概率信息，每一种分类类别对应一个匹配的第二分类模型。第二识别结果为第二分类模型的输出结果，是基于第一识别结果，即第一分类模型对待分类信息进行识别完成的输出结果得到的识别结果。例如，第一识别结果为：动物牛的可能概率为0.2，动物马的可能概率为0.6，动物羊的可能概率为0.2，由于第一识别结果涉及三类动物，则需要三个对应的第二分类模型，假设经过对应一个第二分类模型的二次识别，获得一个第二识别结果为：动物马的概率为0.8，动物羊的概率为0.2。第二分类模型基于第一分类模型生成，是在获取到第一分类模型后，针对每个分类类别，对第一分类模型进行再训练获取的，而再训练时使用的训练样本可以是上述原始训练样本集合之外的新训练样本，即针对每个分类类别都获取一批该类别下的新训练样本，并分别对第一分类模型进行训练，进而获取到分别针对各分类类别的第二分类模型；而再训练时使用的训练样本也可以是上述原始训练样本集合中本身存在的原始训练样本，即将原始训练样本集合中各分类类别下的原始训练样本，分别对第一分类模型进行再次训练，以强化针对各分类类别的识别能力，并获取针对各分类类别的第二分类模型；而第二分类模型，对于输入的待分类信息同样具备了对信息的识别及分类能力，其输出结果，也即第二识别结果，同样包括待分类信息可能的类别及各类别对应的概率信息。

具体的，获取与所述第一分类模型对应的第一训练样本集合，并根据所述第一训练样本集合中各第一训练样本的标签信息，确定所述第一分类模型的分类类别；将各所述第一训练样本根据所述分类类别，划分为多个第一训练样本子集合，并在各所述第一训练样本子集合中，通过样本生成技术，对各所述第一训练样本子集合进行新样本生成处理，并根据新样本生成后的所述第一训练样本子集合，构建第二训练样本集合；根据各所述第二训练样本集合，分别对所述第一分类模型进行训练，以获取训练完成的多个第二分类模型。其中，第一训练样本集合即为上述技术方案中，对第一分类模型进行预训练时采用的原始训练样本集合，其中各第一训练样本带有各自的标签信息，标签信息为人工预先标注，表示该训练样本的分类类别；例如，一个第一训练样本的标签信息为奔跑的马，则该第一训练样本分类类别则为动物马；第二训练样本集合为对第一分类模型进行再次训练时采用的训练样本集合，是在第一训练样本集合的基础上，按照分类类别，对每个分类类别下的各第一训练样本子集合采用样本生成技术得到的。根据获取的第二训练样本集合，对初始第一分类模型进行训练，由于采用样本生成技术，扩大了训练样本数量，且没有增加原始训练样本的输入数量，此时训练得到的各第二分类模型针对各分类类别的识别及分类的准确性更高，可实现更加准确地信息分类，第二分类模型的数量与第一训练样本集合中包括的分类类别的数量相等。

具体的，根据新样本生成后的第一训练样本子集合，构建第二训练样本集合，可以是由新样本生成后的第一训练样本子集合，构建第二训练样本集合，即将新样本生成后的第一训练样本子集合直接作为第二训练样本集合，以对第一分类模型进行再训练时，强化针对该分类类别下训练样本的识别能力，进而提高各第二分类模型在各自对应类别下的识别能力；也可以是由新样本生成后的第一训练样本子集合和原始第一训练样本集合结合，构建第二训练样本集合，以对第一分类模型进行再训练时，在强化针对该分类类别的训练样本识别的同时，保证对通用训练样本(即第一训练样本集合)的识别能力，进而确保第二分类模型针对其他分类类别依然具有较好的识别能力；也可以是对新样本生成后的第一训练样本子集合进行筛选，将筛选后的新生成的第一训练样本子集合作为第二训练样本集合，例如，对新样本生成后的第一训练样本子集合根据原始第一训练样本子集合样本数量进行随机筛选，确保了第一训练样本子集合的训练样本数量与第一训练样本集合的训练样本数量相同，以使前后两次对第一分类模型进行的样本训练，基于同样数量的训练样本，进一步确保了各第二分类模型针对其对应的分类类别以及非对应分类类别，均具备较好的识别能力；也可以是对新样本生成后的第一训练样本子集合进行筛选后和原始第一训练样本集合组合，构建第二训练样本集合；在构建第二训练样本集合时，对生成样本集合类别进行检查，不区分样本类别顺序，将相同类别信息的生成样本进行合并以构建第二训练样本集合。

可选的，在本发明实施例中，所述通过第一分类模型对所述待分类信息进行识别，包括：通过第一分类模型提取所述待分类信息的信息特征，并对所述信息特征进行识别；所述通过至少一个所述第二分类模型对所述待分类信息进行识别，包括：通过至少一个所述第二分类模型对所述第一分类模型提取的所述信息特征进行识别。通过第一分类模型提取待分类信息的信息特征，例如，图像特征和语音特征，然后第一分类模型对获取的待分类信息的信息特征进行识别，给出第一识别结果；在通过至少一个第二分类模型对待分类信息进行识别时，不需要通过第二分类模型再次提取待分类信息的信息特征，而是直接使用第一分类模型已提取的信息特征作为输入信息，并进行识别，避免了对信息特征的多次提取，降低了系统复杂度，提升了系统计算效率。

S130、根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果。

具体的，根据至少一个第二识别结果，即对应的分类类别和概率信息，确定待分类信息的第一分类结果，其中，确定方法可以是第二识别结果中各分类结果的分类数量，即将各第二识别结果最大概率对应的类别作为判断类别，统计各判断类别的数量多少，选取数量最多的分类类别，作为输出最终的分类结果，即第一分类结果；也可以是对应概率累加，即将第二识别结果中各类别对应的概率进行相加，并比较对应总概率大小，选取最大总概率对应的分类类别作为最终分类结果。例如，假设存在三个第二识别结果，第一个第二识别结果为，动物马的概率为0.8，动物羊的概率为0.2；第二个第二识别结果为，动物马的概率为0.9，动物羊的概率为0.1；第三个第二识别结果为，动物马的概率为0.8，动物羊的概率为0.1，动物牛的概率为0.1；若按照各判断类别的数量多少，即三个第二识别结果均为马，则最终第一分类结果为动物马；若采用对应概率相加，则动物马对应的总概率为2.5，动物羊对应的总概率为0.4，动物牛对应的总概率为0.1，根据对应总概率大小，则最终第一分类结果为动物马。

实施例二

图2A为本发明实施例二提供的另一种信息的分类方法的流程图，本实施例在上述实施例的基础上进行具体化，在本实施例中，通过在第一训练样本集合的各第一训练样本子集合中，提取特定类型的目标第一训练样本，并通过样本生成技术以得到第二训练样本集合，该方法具体包括：

S210、将各所述第一训练样本根据所述分类类别，划分为多个第一训练样本子集合。

S220、将各所述第一训练样本输入至第一分类模型中，以获取各所述第一训练样本的第一分类结果，并根据所述第一分类结果和所述标签信息，确定各所述第一训练样本的第一分类结果是否正确。

基于各第一训练样本，通过第一分类模型中，获取各第一训练样本对应的分类类别，将分类类别与训练样本的正确标签类别信息进行对比，若两者类别一致，则表示该训练样本的第一分类结果正确，若两者不一致，则表示分类错误。

S230、在各所述第一训练样本子集合中，分别提取第一分类结果正确的难点第一训练样本，以及第一分类结果错误的错误第一训练样本，并组成与各所述第一训练样本子集合分别对应的精选训练样本集合；其中，所述难点第一训练样本的最大分类概率小于第一预设阈值，或所述难点第一训练样本的最大分类概率与次最大分类概率的差值小于第二预设阈值。

错误第一训练样本，即第一分类结果与标签信息不一致的第一训练样本；难点第一训练样本为第一分类结果与标签信息一致，但对应最大分类概率与其他类别概率信息差值较小，即识别比较困难的第一训练样本，难点第一训练样本的最大分类概率小于第一预设阈值，或难点第一训练样本的最大分类概率与次最大分类概率的差值小于第二预设阈值；例如，假设某一第一训练样本标签信息为动物马，第一分类结果为：动物羊对应概率为0.3，动物马对应概率为0.4，动物牛对应概率为0.3，此时分类正确，假设第一预设阈值为0.8，则最大分类概率即动物马对应概率0.4小于第一预设阈值0.8，或假设第二预设阈值为0.3，此时最大分类概率与次最大分类概率的差值为0.1，小于第二预设阈值0.3，由此，将该第一训练样本确定为难点第一训练样本。

具体的，在本发明实施例中，所述在各所述第一训练样本子集合中，通过样本生成技术，对各所述第一训练样本子集合进行新样本生成处理，并根据新样本生成后的所述第一训练样本子集合，构建第二训练样本集合，包括：在各所述精选训练样本集合中，通过样本生成技术，对各所述精选训练样本集合进行新样本生成处理，并根据新样本生成后的所述精选训练样本集合，构建第二训练样本集合。样本生成技术，即在现有训练样本的基础上，通过对训练样本运用对应算法进行一定改变，包括旋转、模糊以及镜像等方式，以得到新的训练样本，可扩大样本集合的数量，以提升训练模型的分类精度。

可选的，在本发明实施例中，所述在各所述精选训练样本集合中，通过样本生成技术，对各所述精选训练样本集合进行新样本生成处理，包括：在各所述精选训练样本集合中，通过对抗样本生成技术，对所述难点第一训练样本进行新样本生成处理，以及通过数据增强技术，对所述错误第一训练样本进行新样本生成处理。其中，针对精选训练样本集合中的难点第一训练样本和错误第一训练样本采取不同的样本生成技术，以获取新的训练样本；其中，通过对抗样本生成技术，对难点第一训练样本进行新样本生成处理，对抗样本生成技术，包括白盒生成方法快速梯度下降法(FGSM)、Carlini and Wagner Attacks(C&W)、迭代快速梯度下降法(BIM)等，以及黑盒生成方法One-Pixel、NES等，采用通过在原有训练样本中添加微小扰动的方法，实现了对于深度学习的对抗目的；通过数据增强技术，对错误第一训练样本进行新样本生成处理，数据增强技术，以图像数据为例，当图像数据不足时，可以对图像进行一些轻微的改变，例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等，即图像数据增强。

S240、并在各所述第一训练样本子集合中，通过样本生成技术，对各所述第一训练样本子集合进行新样本生成处理，并根据新样本生成后的所述第一训练样本子集合，构建第二训练样本集合。本发明实施例提供的技术方案，通过对第一分类结果进行分析，以提取难点第一训练样本和错误第一次训练样本组成精选训练样本集合，并通过样本生成技术，获取第二训练样本集合，实现了对难点训练样本和错误训练样本的利用，进一步提升了信息分类的准确性。

具体应用场景一

图2B是本发明具体应用场景一提供的一种信息的分类系统结构图，在本应用场景中，发送端获取拍摄物体图像信息，并对图像信息进行编码传输，同时接收端对接收图像信息并进行图像信息处理与分类，以识别被拍摄物体类别，具体的，该系统包括：

图像获取模块250，用于获取待分类图像信息；

网络传输模块260，用于对待分类图像信息进行网络传输；

人工智能服务器模块270，用于接收网络传输的待处理图像信息，对不同的人工智能算法及模型进行训练或推理执行，以获得待分类图像类别信息。

本发明实施例通过获取待处理图像信息，并通过网络传输模块对所获取的待处理图像进行传输，人工智能服务器模块对传输信息进行接收并执行分类处理实现对传输图像的识别，此外，人工智能服务器模块可实现训练样本集合的获取和各分类模型的训练生成，实现了图像信息的快速获取与准确分类。

实施例三

图3A为本发明实施例三提供的另一种信息的分类方法的流程图，本实施例在上述实施例的基础上进行具体化，在本实施例中，通过对第二分类结果进行再次识别以获取分类结果，实现了更准确的信息分类，该方法具体包括：

S310、当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取。

S320、根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第二分类模型基于所述第一分类模型生成。

S330、根据所述至少一个第二识别结果，确定所述待分类信息的第二分类结果。

第二分类结果为根据第二识别结果得到的中间过渡分类结果，并非最终分类结果，主要用于作为第三分类模型的输入，以得到更加准确的第三识别结果；根据至少一个第二识别结果确定第二分类结果，可采用少数服从多数的方法，也可采用对应概率累加的方法；第二分类结果对应的分类类别可以是一个也可以是多个，例如，两个第二识别结果分别为：第一识别结果马可能概率为0.4，羊可能概率为0.6，第二识别结果马可能概率为0.6，羊可能概率为0.4，此时，马和羊的对应概率总和相等，对应第二分类结果为马和羊，分类类别为一个的情况同理。

S340、根据所述第二分类结果，选定匹配的至少一个第三分类模型，并通过至少一个所述第三分类模型对所述待分类信息进行识别，并获取对应的至少一个第三识别结果；其中，所述第三分类模型基于所述第二分类模型生成。

具体的，根据第二分类结果，选定匹配的至少一个第三分类模型，并通过至少一个第三分类模型对待分类信息进行识别，并获取对应的至少一个第三识别结果，包括：当第二分类结果包含分类类别为多个时，选定匹配对应的多个第三分类模型，并获取多个对应的第三识别结果；当第二分类结果包含分类类别只有一个时，只选取对应的一个匹配第三分类模型，获取一个第三识别结果；例如，当第二分类结果为马时，直接调用对应马的第三分类模型，当第二分类结果为马和羊时，则需调用关于马和羊的第三分类模型；第三分类模型基于第二分类模型生成，采用全新训练样本或基于第二训练样本的扩展训练样本训练得到，可实现对第二分类结果的再次识别，获得至少一个第三识别结果。

S350、根据所述至少一个第三识别结果，确定所述待分类信息的第一分类结果。

根据至少一个第三识别结果，确定待分类信息的第一分类结果，具体示意图如图3B所述，包括：当第三识别结果仅为一个时，则其他识别结果均为空，对该第三识别结果进行分析即可直接获得最终的第一分类结果，而当第三识别结果为多个时，根据少数服从多数或对应概率相加对比的方法，获取最终第一分类结果。

本发明实施例提供的技术方案，通过至少一个第二识别结果，获取待分类信息的第二分类结果后；根据第二分类结果，选定匹配的至少一个第三分类模型，通过至少一个第三分类模型对所述待分类信息进行识别，获取对应的至少一个第三识别结果；最后根据至少一个第三识别结果，获取最终分类结果，采用对第二分类结果的再次分类，提升了各第二分类模型针对各自分类类别的识别准确度，进而通过多层分类模型进行的多次信息识别，确保了分类结果的准确性。

实施例四

图4A为本发明实施例四提供的另一种信息的分类方法的流程图，本实施例在上述实施例的基础上进行具体化，在本实施例中，通过对第二识别结果进行再识别以获取多个第三分类结果，并根据第三分类结果获取最终分类结果，实现了更准确的信息分类，该方法具体包括：

S410、当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取。

S420、根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第二分类模型基于所述第一分类模型生成。

S430、根据至少一个所述第二识别结果，选定匹配的至少一个第四分类模型，并通过至少一个所述第四分类模型对所述待分类信息进行识别，以获取与所述第二识别结果对应的至少一个第三分类结果。

根据至少一个第二识别结果，选定匹配的至少一个第四分类模型，即每一个第二识别结果对应匹配多个第四分类模型，第四分类模型是在第二分类模型的基础上，通过采用第二训练样本或通过第二训练样本扩展得到的训练样本对第二分类模型进行训练得到；通过与每一个第二识别结果对应匹配的多个第四分类模型，分别对对应的第二识别结果进行再次分类识别，分别获得与第二识别结果数量等同的第三分类结果；第三分类结果为过渡结果，为根据第二识别结果进行决策输出的决策结果，仅包含对应分类类别，不包含概率信息。

S440、根据所述至少一个第三分类结果，获取所述待分类信息的第一分类结果。

具体的，根据多个第三分类结果，通过采用少数服从多数的方法，选取对应数量最到的分类类别，作为最终的第一分类结果，本实施例信息的分类方法示意图如图4B所示。

本发明实施例提供的技术方案，通过对第二识别结果通过第四分类模型进行再次识别，以获取与第二识别结果对应的至少一个第三分类结果，并根据至少一个第三分类结果，获取待分类信息的最终第一分类结果，通过多层分类模型进行的多次信息识别，确保了分类结果的准确性。

实施例五

图5是本发明实施例五所提供的一种信息的分类装置的结构框图，该装置具体包括：第一识别结果获取模块510、第二识别结果获取模块520和第一分类结果获取模块530。

第一识别结果获取模块510，用于当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取；

第二识别结果获取模块520，用于根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第二分类模型基于所述第一分类模型生成；

第一分类结果获取模块530，用于根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果。

可选的，在上述技术方案的基础上，第一识别结果获取模块510，具体用于通过第一分类模型提取所述待分类信息的信息特征，并对所述信息特征进行识别；

第二识别结果获取模块520，具体用于通过至少一个所述第二分类模型对所述第一分类模型提取的所述信息特征进行识别。

可选的，在上述技术方案的基础上，信息的分类装置，还包括：

第一训练样本集合获取模块，用于获取与所述第一分类模型对应的第一训练样本集合，并根据所述第一训练样本集合中各第一训练样本的标签信息，确定所述第一分类模型的分类类别；

第二训练样本集合获取模块，用于将各所述第一训练样本根据所述分类类别，划分为多个第一训练样本子集合，并在各所述第一训练样本子集合中，通过样本生成技术，对各所述第一训练样本子集合进行新样本生成处理，并根据新样本生成后的所述第一训练样本子集合，构建第二训练样本集合；

第二分类模型获取模块，用于根据各所述第二训练样本集合，分别对所述第一分类模型进行训练，以获取训练完成的多个第二分类模型。

第一分类结果确定模块，用于将各所述第一训练样本输入至第一分类模型中，以获取各所述第一训练样本的第一分类结果，并根据所述第一分类结果和所述标签信息，确定各所述第一训练样本的第一分类结果是否正确；

精选训练样本集合获取模块，用于在各所述第一训练样本子集合中，分别提取第一分类结果正确的难点第一训练样本，以及第一分类结果错误的错误第一训练样本，并组成与各所述第一训练样本子集合分别对应的精选训练样本集合；其中，所述难点第一训练样本的最大分类概率小于第一预设阈值，或所述难点第一训练样本的最大分类概率与次最大分类概率的差值小于第二预设阈值。

可选的，在上述技术方案的基础上，第二训练样本集合获取模块，具体用于在各所述精选训练样本集合中，通过样本生成技术，对各所述精选训练样本集合进行新样本生成处理，并根据新样本生成后的所述精选训练样本集合，构建第二训练样本集合。

可选的，在上述技术方案的基础上，第二训练样本集合获取模块，具体还用于在各所述精选训练样本集合中，通过对抗样本生成技术，对所述难点第一训练样本进行新样本生成处理，以及通过数据增强技术，对所述错误第一训练样本进行新样本生成处理。

可选的，在上述技术方案的基础上，第一分类结果获取模块530，具体用于根据所述至少一个第二识别结果，确定所述待分类信息的第二分类结果；根据所述第二分类结果，选定匹配的至少一个第三分类模型，并通过至少一个所述第三分类模型对所述待分类信息进行识别，并获取对应的至少一个第三识别结果；其中，所述第三分类模型基于所述第二分类模型生成；根据所述至少一个第三识别结果，确定所述待分类信息的第一分类结果。

可选的，在上述技术方案的基础上，第一分类结果获取模块530，具体还用于根据至少一个所述第二识别结果，选定匹配的至少一个第四分类模型，并通过至少一个所述第四分类模型对所述待分类信息进行识别，以获取与所述第二识别结果对应的至少一个第三分类结果；根据所述至少一个第三分类结果，获取所述待分类信息的第一分类结果。

上述装置可执行本发明任意实施例所提供的信息的分类方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的方法。

实施例六

图6为本发明实施例六提供的一种终端设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备12的框图。图6显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例提供的信息的分类方法。也即：当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于神经网络构建；根据所述第一识别结果，选定匹配的至少一个第二分类模型，并通过至少一个所述第二分类模型对所述待分类信息进行识别，以获取对应的至少一个第二识别结果；其中，所述第一分类模型基于机器学习获取；根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的信息的分类方法；该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种信息的分类方法，其特征在于，包括：

当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取；所述待分类信息包括图像信息和/或语音信息；

获取与所述第一分类模型对应的第一训练样本集合，并根据所述第一训练样本集合中各第一训练样本的标签信息，确定所述第一分类模型的分类类别；

将各所述第一训练样本根据所述分类类别，划分为多个第一训练样本子集合，并在各所述第一训练样本子集合中，通过样本生成技术，对各所述第一训练样本子集合进行新样本生成处理，并根据新样本生成后的所述第一训练样本子集合，构建第二训练样本集合；

根据各所述第二训练样本集合，分别对所述第一分类模型进行训练，以获取训练完成的多个第二分类模型；

2.根据权利要求1所述的方法，其特征在于，所述通过第一分类模型对所述待分类信息进行识别，包括：

通过第一分类模型提取所述待分类信息的信息特征，并对所述信息特征进行识别；

所述通过至少一个所述第二分类模型对所述待分类信息进行识别，包括：

通过至少一个所述第二分类模型对所述第一分类模型提取的所述信息特征进行识别。

3.根据权利要求1所述的方法，其特征在于，在将各所述第一训练样本根据所述分类类别，划分为多个第一训练样本子集合后，还包括：

将各所述第一训练样本输入至第一分类模型中，以获取各所述第一训练样本的第一分类结果，并根据所述第一分类结果和所述标签信息，确定各所述第一训练样本的第一分类结果是否正确；

在各所述第一训练样本子集合中，分别提取第一分类结果正确的难点第一训练样本，以及第一分类结果错误的错误第一训练样本，并组成与各所述第一训练样本子集合分别对应的精选训练样本集合；其中，所述难点第一训练样本的最大分类概率小于第一预设阈值，或所述难点第一训练样本的最大分类概率与次最大分类概率的差值小于第二预设阈值；

所述在各所述第一训练样本子集合中，通过样本生成技术，对各所述第一训练样本子集合进行新样本生成处理，并根据新样本生成后的所述第一训练样本子集合，构建第二训练样本集合，包括：

在各所述精选训练样本集合中，通过样本生成技术，对各所述精选训练样本集合进行新样本生成处理，并根据新样本生成后的所述精选训练样本集合，构建第二训练样本集合。

4.根据权利要求3所述的方法，其特征在于，所述在各所述精选训练样本集合中，通过样本生成技术，对各所述精选训练样本集合进行新样本生成处理，并根据新样本生成后的所述精选训练样本集合，构建第二训练样本集合，包括：

在各所述精选训练样本集合中，通过对抗样本生成技术，对所述难点第一训练样本进行新样本生成处理，以及通过数据增强技术，对所述错误第一训练样本进行新样本生成处理。

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果，包括：

根据所述至少一个第二识别结果，确定所述待分类信息的第二分类结果；

根据所述第二分类结果，选定匹配的至少一个第三分类模型，并通过至少一个所述第三分类模型对所述待分类信息进行识别，并获取对应的至少一个第三识别结果；其中，所述第三分类模型基于所述第二分类模型生成；

根据所述至少一个第三识别结果，确定所述待分类信息的第一分类结果。

6.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第二识别结果，确定所述待分类信息的第一分类结果，包括：

根据至少一个所述第二识别结果，选定匹配的至少一个第四分类模型，并通过至少一个所述第四分类模型对所述待分类信息进行识别，以获取与所述第二识别结果对应的至少一个第三分类结果；

根据所述至少一个第三分类结果，获取所述待分类信息的第一分类结果。

7.一种信息的分类装置，其特征在于，包括：

第一识别结果获取模块，用于当获取到待分类信息时，通过第一分类模型对所述待分类信息进行识别，以获取第一识别结果；其中，所述第一分类模型基于机器学习获取；所述待分类信息包括图像信息和/或语音信息；

第二分类模型获取模块，用于根据各所述第二训练样本集合，分别对所述第一分类模型进行训练，以获取训练完成的多个第二分类模型；

8.一种终端设备，其特征在于，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的信息的分类方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的信息的分类方法。