CN110597985A

CN110597985A - 基于数据分析的数据分类方法、装置、终端及介质

Info

Publication number: CN110597985A
Application number: CN201910755965.4A
Authority: CN
Inventors: 杨恒
Original assignee: Chongqing Financial Assets Exchange LLC
Current assignee: Chongqing Financial Assets Exchange LLC
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-20

Abstract

本发明实施例公开了一种基于数据分析的数据分类方法、装置、终端和介质，其中，该方法包括：获取待分类的舆情数据，将舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括舆情数据所属的第一类别，获取第一舆情分类模型针对第一类别的舆情数据的分类准确率；若分类准确率低于预设准确率，则将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果，检测第一分类结果中的第一类别在第二分类结果中的分类概率是否大于预设分类概率；若是，则将舆情数据的类别确定为第一类别。通过上述方式，可以提升舆情数据分类的分类效率以及分类准确率。

Description

基于数据分析的数据分类方法、装置、终端及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于数据分析的数据分类方法、装置、终端及介质。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。具体实现中，可以根据舆情的内容将舆情分为不同的类别，如财政，财经，股票，科技，社会，时政等。

当前，对于舆情分类的主要方式为人工获取到舆情数据，然后人为判断舆情数据的类别，但随着舆情数据的不断增加，采用人工方式对舆情进行分类，效率低下，且耗费的大量的人力物力，因此，如何有效的对舆情进行分类，成为亟待解决的问题。

发明内容

本发明实施例提供一种基于数据分析的数据分类方法、装置、终端及介质，可以提升舆情数据分类的分类效率以及分类准确率。

第一方面，本发明实施例提供了一种基于数据分析的数据分类方法，所述方法包括：

获取待分类的舆情数据；

将所述舆情数据输入至第一舆情分类模型中进行处理，以获取针对所述舆情数据的第一分类结果，所述第一分类结果包括所述舆情数据所属的第一类别；

获取所述第一舆情分类模型针对所述第一类别的舆情数据的分类准确率；

若所述分类准确率低于预设准确率，则将所述舆情数据输入至第二舆情分类模型中进行处理，以获取针对所述舆情数据的第二分类结果，所述第二分类结果包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率；

检测所述第一类别在所述第二分类结果中的分类概率是否大于预设分类概率；

若是，则将所述舆情数据的类别确定为所述第一类别。

第二方面，本发明实施例提供了一种基于数据分析的数据分类装置，所述装置包括：

获取模块，用于获取待分类的舆情数据；

输入模块，用于将所述舆情数据输入至第一舆情分类模型中进行处理，以获取针对所述舆情数据的第一分类结果，所述第一分类结果包括所述舆情数据所属的第一类别；

所述获取模块，还用于获取所述第一舆情分类模型针对所述第一类别的舆情数据的分类准确率；

所述输入模块，还用于若所述分类准确率低于预设准确率，则将所述舆情数据输入至第二舆情分类模型中进行处理，以获取针对所述舆情数据的第二分类结果，所述第二分类结果包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率；

检测模块，用于检测所述第一类别在所述第二分类结果中的分类概率是否大于预设分类概率；

确定模块，用于若是，则将所述舆情数据的类别确定为所述第一类别。

第三方面，本发明实施例提供了一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

本发明实施例中，终端获取待分类的舆情数据，将舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括舆情数据所属的第一类别，终端获取第一舆情分类模型针对第一类别的舆情数据的分类准确率；若分类准确率低于预设准确率，则终端将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果，终端检测第一分类结果中的第一类别在第二分类结果中的分类概率是否大于预设分类概率；若是，则将舆情数据的类别确定为第一类别，通过上述方式，可以提升舆情分类的分类效率以及分类准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于数据分析的数据分类方法的流程示意图；

图2是本发明实施例提供的另一种基于数据分析的数据分类方法的流程示意图；

图3是本发明实施例提供的一种基于数据分析的数据分类装置的结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的图像检索方法实现于终端，所述终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。

图1是本发明实施例中一种基于数据分析的数据分类方法的流程示意图。如图所示本实施例中的基于数据分析的数据分类方法的流程可以包括：

S101、终端获取待分类的舆情数据。

本发明实施例中，舆情数据是群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。可以根据舆情数据的内容将舆情数据分为不同的类别，如财政，财经，股票，科技，社会，时政等。具体的，用户可以在终端中输入需要分类的舆情数据，终端获取用户输入的舆情数据作为待分类的舆情数据。

S102、终端将舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括第一类别。

本发明实施例中，终端获取到待分类的舆情数据之后，可以将舆情数据输入至第一舆情分类模型中进行处理，使得第一舆情分类模型采用内置的分类算法对舆情数据进行处理，得到第一分类结果，终端获取第一舆情分类模型输出的第一分类结果。其中，第一分类结果包括舆情数据关联的多种舆情类别中每种舆情类别的分类概率，以及分类概率最高的舆情类别，舆情数据关联的多种舆情类别可以为第一舆情分类模型内置的舆情类别，如财政，财经，股票，科技，社会，时政等。第一舆情分类模型内置的分类算法具体可以为CNN(Convolution Neural Networks)卷积神经网络算法、RNN(Recurrent neural network)递归神经网络算法、UPN(Unsupervised Pre-trained Networks)无监督预训练网络算法等。终端获取第一分类结果之后，将第一分类结果中分类概率最高的舆情类别确定为舆情数据所属的第一类别。

举例说明，舆情数据关联3种舆情类别，分别为财经、股票和科技，第一舆情分类模型内置的分类算法为CNN算法，即第一舆情分类模型为CNN模型，第一舆情分类模型获取到舆情数据之后，对舆情数据进行处理，得到关联的3种舆情类别中每种舆情类别的分类概率分别为：财经：90％，股票：60％，科技：30％，作为第一分类结果。终端获取到第一分类结果，并将第一分类结果中概率最高的舆情类别(即财经)作为舆情数据所属的第一类别。

需要说明的是，因第一舆情分类模型对舆情数据的输入格式存在要求，终端需在获取到舆情数据之后，可以对舆情数据进行预处理，然后将预处理后的舆情数据输入至第一舆情分类模型中，其中，预处理的过程可以包括统一长度处理和词向量处理。具体的，终端获取到第一舆情分类模型的输入数据需要满足的标准字符长度，并对获取到的舆情数据中的字符进行处理，使得舆情数据的长度与标准字符长度相匹配，其中，字符处理的具体方式可以为，若舆情数据的长度大于标准字符长度，则终端按照预设的删除规则将样本舆情数据中超出的部分进行删除，若舆情数据的长度小于标准字符长度，则终端采用预设字符对舆情数据进行填充，以使得舆情数据的长度与标准字符长度相匹配。进一步的，终端对舆情数据进行词向量化处理，得到舆情数据对应的词向量，具体实现中，终端通过字典表查询到舆情数据中每个字符在字典表中的位置，并确定该位置对应的向量，终端将舆情数据中每个字符采用其对应的向量进行表示，例如，“科”在字典表中的位置为第4位，则其对应的向量表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0…]，“学”则在字典表中的位置为第5位，则其对应的向量表示为[0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0…]。通过上述方式，可以简洁的将字符表示为向量，即为每个字符都分配了一个ID。终端将舆情数据对应的词向量输入至第一舆情分类模型中，使得第一舆情分类模型输出第一分类结果。

S103、终端获取第一舆情分类模型针对第一类别的舆情数据的分类准确率。

本发明实施例中，终端获取到第一分类结果中的第一类别之后，将获取第一舆情分类模型针对第一类别的舆情数据的分类准确率，其中，第一舆情分类模型对于每个类别的舆情数据的分类准确率可以存储于预置数据库中，终端可以从该预置数据库中提取到第一舆情分类模型对于第一类别的舆情数据的分类准确率。

在一种实现方式中，第一舆情分类模型针对第一类别的舆情数据的分类准确率的具体确定方式可以为，终端将N个样本舆情数据输入至第一舆情分类模型中，其中，样本舆情数据的舆情类别预先已知，具体可以由人工预先标准，N个样本舆情数据中包括第一数量个第一类别的样本舆情数据；进一步的，终端获取针对N个样本舆情数据的分类结果，针对N个样本舆情数据的分类结果包括每个样本舆情数据的舆情类别，以及每个舆情类别的样本舆情数据的数量；终端获取针对N个样本舆情数据的分类结果中第一类别的样本舆情数据的第二数量，计算第一数量与第二数量的差值，并根据差值确定第一舆情分类模型针对第一类别的舆情数据的分类准确率。分类准确率的具体计算公式可以为： s＝1-m/n，其中，s表示第一舆情分类模型针对第一类别的舆情数据的分类准确率，m表示第一数量与第二数量的差值的绝对值，n表示第一数量。

举例说明，终端将100个样本舆情数据输入至第一舆情分类模型中，100个样本舆情数据中包括50个财经类的样本舆情数据，30个股票类的样本舆情数据，20个科技类的样本舆情数据，第一舆情分类模型对100个样本舆情数据进行处理，得到第一分类结果为，财经：47个，股票：32个，科技：21个，终端获取到该第一分类结果，进而确定第一舆情模型针对每种类别的舆情数据的分类准确率。当第一类别为财经类时，第一数量为50，第二数量为47，则可以依据分类准确率的计算公式计算得到财经类的分类准确率为s＝1-m/n＝1-3/50＝94％。同理，当第一类别为股票类时，可以计算得到股票类的分类准确率为93.3％，第一类别为科技类时，可以计算得到科技类的分类准确率为95％。上述步骤可以在训练第一舆情分类模型时预先执行，并将第一舆情分类模型对于各个舆情类别的舆情数据的分类准确率存储于预置数据库中。

在一种实现方式中，第一舆情分类模型针对第一类别的舆情数据的分类准确率的具体确定方式也可以为，终端将N个第一类别的样本舆情数据输入第一舆情分类模型中，以获取第一舆情分类模型对于N个样本舆情数据的第一分类结果，若第一分类结果中指示第一类别的舆情数据的数量为M个，则终端将M与N的比值确定为第一舆情分类模型针对第一类别的舆情数据的分类准确率，其中，M和N均为正整数。

S104、若分类准确率低于预设准确率，则终端将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果。

本发明实施例中，终端确定第一舆情分类模型针对第一类别的舆情数据的分类准确率之后，将检测该分类准确率是否高于预设准确率，若是，则终端可以将第一类别直接确定为舆情数据的类别。若分类准确率低于预设准确率，则终端将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果。例如，预设准确率为90％，第一舆情分类模型对于舆情类别的分类准确率分别为，财经：88％，股票：93％，科技：85％，当第一类类别为股票时，终端可以将股票直接确定为舆情数据的类别，当第一类别为财经或科技时，因分类准确率低于预设准确率，终端需要将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果。其中，第二分类结果包括舆情数据关联的多种舆情类别中每种舆情类别的分类概率。例如，第二舆情分类模型接收到舆情数据之后，对舆情数据进行处理，得到关联的3种舆情类别中每种舆情类别的分类概率分别为：财经：97％，股票：50％，科技：20％，作为第二分类结果。

需要说明的是，第二舆情分类模型与第一舆情分类模型为不同的分类模型，具体不同点在于，内置的分类算法不同，或者，内置相同的算法，但算法所使用到的参数不同，如第一舆情分类模型和第二舆情分类模型都内置CNN算法，但第一舆情分类模型的卷积层数为16层，第二舆情分类模型的卷积层数为24层。

具体实现中，不同的舆情分类模型可能对于不同类别的舆情数据的分类准确率存在差异，如舆情分类模型1的对于舆情类别的分类准确率分别为，财经：90％，股票：80％，科技：70％，舆情分类模型2对于舆情类别的分类准确率分别为财经：80％，股票：70％，科技：90％。舆情分类模型3的对于舆情类别的分类准确率分别为，财经：70％，股票：90％，科技：80％。终端在选取第二舆情分类模型时，可以将针对第一类别的舆情数据的分类准确率最高的模型确定为第二舆情分类模型。例如，当第一类别为财经时，则可以将舆情分类模型1确定为第二舆情分类模型，当第一类别为科技时，则可以将舆情分类模型2确定为第二舆情分类模型。

S105、终端检测第一类别在第二分类结果中的分类概率是否大于预设分类概率。

本发明实施例中，终端获取到针对舆情数据的第二分类结果之后，将检测第一类别在第二分类结果中的分类概率是否大于预设分类概率。例如，预设分类概率为90％，第二舆情分类模型接收到舆情数据之后，对舆情数据进行处理，得到关联的3种舆情类别中每种舆情类别的分类概率分别为：财经：97％，股票：50％，科技：20％，作为第二分类结果。当第一类别为财经时，终端确定第一类别在第二分类结果中的分类概率大于预设分类概率，当第一类别为股票或科技时，终端确定第一类别在第二分类结果中的分类概率小于预设分类概率。

S106、若第一类别在第二分类结果中的分类概率大于预设分类概率，则终端将舆情数据的类别确定为第一类别。

本发明实施例中，终端检测第一类别在第二分类结果中的分类概率是否大于预设分类概率后，若第一类别在第二分类结果中的分类概率大于预设分类概率，则终端将舆情数据的类别确定为第一类别。

举例说明，终端将舆情数据输入至第一舆情分类模型中进行处理，并获取到针对舆情数据的第一分类结果，第一分类结果中关联的3种舆情类别中每种舆情类别的分类概率分别为，财经：90％，股票：60％，科技：30％，终端将财经类作为第一类别，然后获取到第一舆情分类模型对于财经类舆情数据的分类准确率为88％，低于预设准确率90％，则终端将舆情数据输入至第二舆情分类模型中进行处理，并获取到针对舆情数据的第二分类结果，第二分类结果中关联的3种舆情类别中每种舆情类别的分类概率分别为，财经：97％，股票：50％，科技：20％，预设分类概率为85％，则终端确定第一类别在第二分类结果中的分类概率大于预设分类概率，并将第一类别(财经类)确定为舆情数据的类别。

本发明实施例中，终端获取待分类的舆情数据，将舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括舆情数据所属的第一类别，终端获取第一舆情分类模型针对第一类别的舆情数据的分类准确率；若分类准确率低于预设准确率，则终端将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果，终端检测第一分类结果中的第一类别在第二分类结果中的分类概率是否大于预设分类概率；若是，则将舆情数据的类别确定为第一类别，通过上述方式，可以提升舆情分类的分类效率以及分类准确率。进一步的，相比于单一的模型对舆情数据进行分类而言，因单一模型对于不同类别的舆情数据的分类准确率可能已无法通过调整算法参数进行提升，本发明实施例采用了两个舆情分类模型对舆情数据进行综合分类，可以进一步提升舆情分类的准确率。

图2是本发明实施例中另一种基于数据分析的数据分类方法的流程示意图。如图所示本实施例中的基于数据分析的数据分类方法的流程可以包括：

S201、终端获取待分类的舆情数据。

S202、终端将所述舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括第一类别。

本发明实施例中，第一分类结果由第一舆情分类模型对舆情数据处理得到，第一分类结果包括舆情数据关联的多种舆情类别中每种舆情类别的分类概率，以及分类概率最高的舆情类别，终端将分类概率最高的舆情类别确定为第一类别。

S203、终端获取第一舆情分类模型针对第一类别的舆情数据的分类准确率。

本发明实施例中，终端获取到第一分类结果中的第一类别之后，将获取第一舆情分类模型针对第一类别的舆情数据的分类准确率，其中，第一舆情分类模型对于每个类别的舆情数据的分类准确率可以存储于预置数据库中，终端可以从该预置数据库中提取到针对第一舆情分类模型对于第一类别的舆情数据的分类准确率。

S204、若分类准确率低于预设准确率，则终端将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果，第二分类结果中包括第二类别。

本发明实施例中，第二分类结果由第二舆情分类模型对舆情数据处理得到，第二分类结果包括舆情数据关联的多种舆情类别中每种舆情类别的分类概率，以及分类概率最高的舆情类别，终端将分类概率最高的舆情类别确定为第二类别。

S205、若第一类别在第二分类结果中的分类概率小于预设分类概率，则终端将舆情数据输入至第三舆情分类模型中，以获取针对舆情数据的第三分类结果，第三分类结果中包括第三类别。

本发明实施例中，终端获取针对舆情数据的第二分类结果之后，将检测第一类别在第二分类结果中的分类概率是否大于预设分类概率，若第一类别在第二分类结果中的分类概率小于预设分类概率，则终端将舆情数据输入至第三舆情分类模型中，以获取针对舆情数据的第三分类结果。其中，第三分类结果由第三舆情分类模型对舆情数据处理得到，第三分类结果包括舆情数据关联的多种舆情类别中每种舆情类别的分类概率，以及分类概率最高的舆情类别，终端将分类概率最高的舆情类别确定为第三类别。

举例说明，终端将舆情数据输入至第一舆情分类模型中进行处理，并获取到针对舆情数据的第一分类结果，第一分类结果中关联的3种舆情类别中每种舆情类别的分类概率分别为，财经：90％，股票：60％，科技：30％，终端将财经类作为第一类别，然后获取到第一舆情分类模型对于财经类舆情数据的分类准确率为88％，低于预设准确率90％，则终端将舆情数据输入至第二舆情分类模型中进行处理，并获取到针对舆情数据的第二分类结果，第二分类结果中关联的3种舆情类别中每种舆情类别的分类概率分别为，财经：70％，股票：90％，科技：20％，终端将股票类确定为第二类别，若预设分类概率为85％，则终端确定第一类别在第二分类结果中的分类概率小于预设分类概率，终端将舆情数据输入至第三舆情分类模型中，并获取到针对舆情数据的第三分类结果，第三分类结果中关联的3种舆情类别中每种舆情类别的分类概率分别为，财经：90％，股票：60％，科技：10％，终端将财经类确定为第三类别。

S206、终端检测第一类别、第二类别和第三类别中是否存在至少两个相同的类别。

本发明实施例中，终端获取到第一分类结果中的第一类别、第二分类结果中的第二类别以及第三分类结果中的第三类别之后，将检测第一类别、第二类别和第三类别中是否存在至少两个相同的类别。

若存在，则终端将相同的类别确定为舆情数据的类别。例如，第一类别为财经，第二类别为股票，第三类别为财经，则第一类别与第三类别为相同的类别，终端将财经作为舆情数据的类别。若不存在，则执行步骤S207。

S207、若第一类别、第二类别和第三类别中不存在至少两个相同的类别，则终端根据第一分类结果、第二分类结果和第三分类结果中的每种舆情类别的分类概率确定舆情数据的类别。

本发明实施例中，若第一类别、第二类别和第三类别中不存在至少两个相同的类别，则终端将第一分类结果中舆情数据关联的多种舆情类别中每种舆情类别的分类概率作为第一参考概率；将第二分类结果中舆情数据关联的多种舆情类别中每种舆情类别的分类概率作为第二参考概率；将第三分类结果中舆情数据关联的多种舆情类别中每种舆情类别的分类概率作为第三参考概率。

进一步的，终端基于第一参考概率、第二参考概率和第三参考概率确定针对多种舆情类别中每种舆情类别的目标分类概率。具体的，终端获取第一参考概率中目标类别对应的第一概率值、第二参考概率中目标类别对应的第二概率值以及第三参考概率中目标类别对应的第三概率值，其中，目标类别为多种舆情类别中的任意一种，终端采用第一加权系数对第一概率值进行加权处理，得到第一加权概率值；终端采用第二加权系数对第二概率值进行加权处理，得到第二加权概率值；终端采用第三加权系数对第三概率值进行加权处理，得到第三加权概率值；终端对第一加权概率值、第二加权概率值和第三加权概率值进行求和处理，得到目标类别对应的目标分类概率。终端可以将目标分类最高的舆情类别确定为舆情数据的类别。

举例说明，第一分类结果中舆情数据关联的多种舆情类别中每种舆情类别的分类概率为，财经：90％，股票：80％，科技：70％，作为第一参考概率，第二分类结果中舆情数据关联的多种舆情类别中每种舆情类别的分类概率为，财经：30％，股票：70％，科技：90％，作为第二参考概率，第三分类结果中舆情数据关联的多种舆情类别中每种舆情类别的分类概率为，财经：60％，股票：90％，科技：70％，作为第三参考概率。第一加权系数为0.5，第二加权系数为0.3，第三加权系数为0.2，当目标类别为财经类时，终端对第一加权概率值、第二加权概率值和第三加权概率值进行求和处理，得到目标类别对应的目标分类概率p1＝0.5*90％+0.3*30％+0.2*60％＝61％。当目标类别为股票类时，终端对第一加权概率值、第二加权概率值和第三加权概率值进行求和处理，得到目标类别对应的目标分类概率p2＝0.5*80％+0.3*70％+0.2*90％＝79％。当目标类别为科技类时，终端对第一加权概率值、第二加权概率值和第三加权概率值进行求和处理，得到目标类别对应的目标分类概率p3＝0.5*70％+0.3*90％+0.2*70＝76％。股票类对应的目标分类概率最高，终端将舆情数据的类别确定为股票类。

需要说明的是，第一加权系数、第二加权系数和第三加权系数的具体数值可以由终端不同舆情分类模型针对目标类别的分类准确率所确定，具体的，终端获取第一舆情分类模型针对目标类别的舆情数据的第一分类准确率，并根据分类准确率与加权系数的对应关系确定第一分类准确率对应的第一加权系数；终端获取所述第二舆情分类模型针对所述目标类别的舆情数据的第二分类准确率，并根据分类准确率与加权系数的对应关系确定所述第二分类准确率对应的第二加权系数；终端获取所述第三舆情分类模型针对所述目标类别的舆情数据的第三分类准确率，并根据分类准确率与加权系数的对应关系确定所述第三分类准确率对应的第三加权系数。例如，分类准确率与加权系数的对应关系为，若分类准确率高于90％，则加权系数为0.5，若分类准确率介于70％-90％之间，则加权系数为0.3，若分类准确率低于70％，则加权系数为0.2。第一舆情分类模型对于目标类别的舆情数据的分类准确率为95％，第二舆情分类模型对于目标类别的舆情数据的分类准确率为80％，第三舆情分类模型对于目标类别的舆情数据的分类准确率为65％，则可以确定第一加权系数为0.5，第二加权系数为0.3，第三加权系数为0.2。

本发明实施例中，终端获取待分类的舆情数据，将舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括舆情数据所属的第一类别，终端获取第一舆情分类模型针对第一类别的舆情数据的分类准确率；若分类准确率低于预设准确率，则终端将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果，终端检测第一分类结果中的第一类别在第二分类结果中的分类概率是否大于预设分类概率；若第一类别在第二分类结果中的分类概率小于预设分类概率，则终端将舆情数据输入至第三舆情分类模型中，以获取针对舆情数据的第三分类结果；终端检测第一类别、第二类别和第三类别中是否存在至少两个相同的类别，若第一类别、第二类别和第三类别均不相同，则终端根据第一分类结果、第二分类结果和第三分类结果中的每种舆情类别的分类概率确定舆情数据的类别。进一步的，相比于单一的模型对舆情数据进行分类而言，因单一模型对于不同类别的舆情数据的分类准确率可能已无法通过调整算法参数进行提升，本发明实施例采用了三个舆情分类模型对舆情数据进行综合分类，可以进一步提升舆情分类的准确率。

下面将结合附图3对本发明实施例提供的基于数据分析的数据分类装置进行详细介绍。需要说明的是，附图3所示的基于数据分析的数据分类装置，用于执行本发明图1-图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，经参照本发明图1-图2所示的实施例。

请参见图3，为本发明提供的一种基于数据分析的数据分类装置的结构示意图，该基于数据分析的数据分类装置30可包括：获取模块301、输入模块302、检测模块303和确定模块304。

获取模块301，用于获取待分类的舆情数据；

输入模块302，用于将所述舆情数据输入至第一舆情分类模型中进行处理，以获取针对所述舆情数据的第一分类结果，所述第一分类结果包括所述舆情数据所属的第一类别；

所述获取模块301，还用于获取所述第一舆情分类模型针对所述第一类别的舆情数据的分类准确率；

所述输入模块302，还用于若所述分类准确率低于预设准确率，则将所述舆情数据输入至第二舆情分类模型中进行处理，以获取针对所述舆情数据的第二分类结果，所述第二分类结果包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率；

检测模块303，用于检测所述第一类别在所述第二分类结果中的分类概率是否大于预设分类概率；

确定模块304，用于若是，则将所述舆情数据的类别确定为所述第一类别。

在一种实现方式中，所述输入模块302，具体用于：

对所述舆情数据进行词向量化处理，得到所述舆情数据对应的词向量；

将所述词向量输入至所述第一舆情分类模型中，使得所述第一舆情分类模型输出第一分类结果，所述第一分类结果包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率，以及分类概率最高的舆情类别；

获取所述第一分类结果，并将所述第一分类结果中所述分类概率最高的舆情类别确定为所述舆情数据所属的第一类别。

在一种实现方式中，所述获取模块301，还用于：

将N个样本舆情数据输入至所述第一舆情分类模型中，所述N个样本舆情数据中包括第一数量个第一类别的样本舆情数据，N为正整数；

获取针对所述N个样本舆情数据的分类结果，所述针对N个样本舆情数据的分类结果包括每个样本舆情数据的舆情类别，以及每个舆情类别的样本舆情数据的数量；

获取针对所述N个样本舆情数据的分类结果中所述第一类别的样本舆情数据的第二数量；

计算所述第一数量与所述第二数量的差值，并根据所述差值确定所述第一舆情分类模型针对所述第一类别的舆情数据的分类准确率。

在一种实现方式中，所述第二分类结果还包括所述舆情数据所属的第二类别，所述输入模块302，还用于：

若否，则将所述舆情数据输入至第三舆情分类模型中进行处理，以获取针对所述舆情数据的第三分类结果，所述第三分类结果由所述第三舆情分类模型对所述舆情数据处理得到，所述第三分类结果包括所述舆情数据所属的第三类别；

检测所述第一类别、所述第二类别和所述第三类别中是否存在至少两个相同的类别；

若存在，则将所述相同的类别确定为所述舆情数据的类别。

在一种实现方式中，所述第三分类结果中还包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率，所述确定模块304，具体用于：

若所述第一类别、所述第二类别和所述第三类别中不存在至少两个相同的类别，则将所述第一分类结果中所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率作为第一参考概率；

将所述第二分类结果中所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率作为第二参考概率；

将所述第三分类结果中所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率作为第三参考概率；

基于所述第一参考概率、第二参考概率和所述第三参考概率确定针对所述多种舆情类别中每种舆情类别的目标分类概率；

将所述目标分类概率最高的舆情类别确定为所述舆情数据的类别。

在一种实现方式中，所述确定模块304，具体用于：

获取第一参考概率中目标类别对应的第一概率值、第二参考概率中目标类别对应的第二概率值以及第三参考概率中目标类别对应的第三概率值，所述目标类别为所述多种舆情类别中的任意一种；

采用第一加权系数对所述第一概率值进行加权处理，得到第一加权概率值；

采用第二加权系数对所述第二概率值进行加权处理，得到第二加权概率值；

采用第三加权系数对所述第三概率值进行加权处理，得到第三加权概率值；

对所述第一加权概率值、所述第二加权概率值和第三加权概率值进行求和处理，得到所述目标类别的目标分类概率。

在一种实现方式中，所述获取模块301，还用于：

获取所述第一舆情分类模型针对所述目标类别的舆情数据的第一分类准确率，并根据分类准确率与加权系数的对应关系确定所述第一分类准确率对应的第一加权系数；

获取所述第二舆情分类模型针对所述目标类别的舆情数据的第二分类准确率，并根据分类准确率与加权系数的对应关系确定所述第二分类准确率对应的第二加权系数；

获取所述第三舆情分类模型针对所述目标类别的舆情数据的第三分类准确率，并根据分类准确率与加权系数的对应关系确定所述第三分类准确率对应的第三加权系数。

本发明实施例中，获取模块301获取待分类的舆情数据，输入模块302将舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括舆情数据所属的第一类别，获取模块301获取第一舆情分类模型针对第一类别的舆情数据的分类准确率；若分类准确率低于预设准确率，则输入模块302将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果，检测模块303检测第一分类结果中的第一类别在第二分类结果中的分类概率是否大于预设分类概率；若是，则确定模块304将舆情数据的类别确定为第一类别。通过上述方式，可以提升舆情分类的分类效率以及分类准确率。

请参见图4，为本发明实施例提供了一种终端的结构示意图。如图4所示，该终端包括：至少一个处理器401，输入设备403，输出设备404，存储器405，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，输入设备403可以是控制面板或者麦克风等，输出设备404可以是显示屏等。其中，存储器405可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置，存储器405中存储一组程序代码，且处理器401，输入设备403，输出设备404调用存储器405中存储的程序代码，用于执行以下操作：

输入设备403，用于获取待分类的舆情数据；

处理器401，用于将所述舆情数据输入至第一舆情分类模型中进行处理，以获取针对所述舆情数据的第一分类结果，所述第一分类结果包括所述舆情数据所属的第一类别；

处理器401，用于获取所述第一舆情分类模型针对所述第一类别的舆情数据的分类准确率；

处理器401，用于若所述分类准确率低于预设准确率，则将所述舆情数据输入至第二舆情分类模型中进行处理，以获取针对所述舆情数据的第二分类结果，所述第二分类结果包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率；

处理器401，用于检测所述第一类别在所述第二分类结果中的分类概率是否大于预设分类概率；

处理器401，用于若是，则将所述舆情数据的类别确定为所述第一类别。

在一种实现方式中，处理器401，具体用于：

在一种实现方式中，处理器401，所述第二分类结果还包括所述舆情数据所属的第二类别，具体用于：

若所述第一类别、所述第二类别和所述第三类别中存在至少两个相同的类别，则将所述相同的类别确定为所述舆情数据的类别。

在一种实现方式中，所述第三分类结果中还包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率，处理器401，具体用于：

在一种实现方式中，处理器401，具体用于：

本发明实施例中，输入设备403获取待分类的舆情数据，处理器401将舆情数据输入至第一舆情分类模型中进行处理，以获取针对舆情数据的第一分类结果，第一分类结果中包括舆情数据所属的第一类别，处理器401获取第一舆情分类模型针对第一类别的舆情数据的分类准确率；若分类准确率低于预设准确率，则处理器401将舆情数据输入至第二舆情分类模型中进行处理，以获取针对舆情数据的第二分类结果，处理器401检测第一分类结果中的第一类别在第二分类结果中的分类概率是否大于预设分类概率；若是，则处理器401将舆情数据的类别确定为第一类别。通过上述方式，可以提升舆情分类的分类效率以及分类准确率。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本发明实施例中，所称处理器401可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线402可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等，该总线402可以分为地址总线、数据总线、控制总线等，为便于表示，图4仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于数据分析的数据分类方法，其特征在于，所述方法包括：

获取待分类的舆情数据；

若是，则将所述舆情数据的类别确定为所述第一类别。

2.根据权利要求1所述的方法，其特征在于，所述将所述舆情数据输入至第一舆情分类模型中进行处理，以获取针对所述舆情数据的第一分类结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述第一舆情分类模型针对所述第一类别的舆情数据的分类准确率之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述第二分类结果还包括所述舆情数据所属的第二类别，所述检测所述第一类别在所述第二分类结果中的分类概率是否大于预设分类概率之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述第三分类结果中还包括所述舆情数据关联的多种舆情类别中每种舆情类别的分类概率，所述检测所述第一类别、所述第二类别和所述第三类别中是否存在至少两个相同的类别之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一参考概率、第二参考概率和所述第三参考概率确定针对所述多种舆情类别中每种舆情类别的目标分类概率，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取第一参考概率中目标类别对应的第一概率值、第二参考概率中目标类别对应的第二概率值以及第三参考概率中目标类别对应的第三概率值之后，所述方法还包括：

8.一种基于数据分析的数据分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的舆情数据；

9.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。