CN117216248A

CN117216248A - 数据分类方法、装置、电子设备、介质、车辆及云端服务器

Info

Publication number: CN117216248A
Application number: CN202210587002.XA
Authority: CN
Inventors: 黄海涛; 庞鑫; 单乐天; 焦俊铭; 乔举义; 赵南; 杜鹏
Original assignee: Beijing Co Wheels Technology Co Ltd
Current assignee: Beijing Co Wheels Technology Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2023-12-12

Abstract

本公开提供了一种数据分类方法、装置、电子设备、介质、车辆及云端服务器，涉及数据处理技术领域，用于解决现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。该方法包括：获取待分析舆情数据；将实际标题和实际短句分别输入至预先配置的语言模型中，确定实际标题在至少一个内容分类中每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率；将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率；对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。

Description

数据分类方法、装置、电子设备、介质、车辆及云端服务器

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据分类方法、装置、电子设备、介质、车辆及云端服务器。

背景技术

现有技术中，为了获取用户对产品的口碑，需要从网络上获取大量的舆情数据如：通过对舆情数据分析，可以得到用户对产品的内容分类，如：问题、建议、咨询、好评和差评等。但是，上述结果需要人工逐一去分析舆情数据，这样就会出现不同的人在分析相同的舆情数据时，所得到的用户对产品的内容分类存在差异，导致内容分类的分析效率较低。

发明内容

为了解决上述技术问题，本公开提供了一种数据分类方法、装置、电子设备、介质、车辆及云端服务器，用于解决现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。

为达到上述目的，本公开采用如下技术方案：

第一方面，本公开提供了一种数据分类方法，包括：获取待分析舆情数据；其中，待分析舆情数据至少包括实际标题和实际正文，实际正文包括一个或者多个实际短句；将实际标题和实际短句分别输入至预先配置的语言模型中，确定实际标题在至少一个内容分类中每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率；将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率；对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。

在一些可实施的示例中，预先配置的语言模型的训练过程如下：获取训练舆情数据和训练舆情数据的标记结果；其中，训练舆情数据中至少包括训练标题和训练正文；将训练舆情数据输入至语义模型中，确定训练标题在每个内容分类上的第一预测概率，和训练正文在每个内容分类上的第二预测概率；在第一预测概率与第一标记概率不同，和/或第二预测概率与第二标记概率不同的情况下，对语义模型的网络参数进行调整，直至语义模型收敛，得到预先配置的语言模型。

在一些可实施的示例中，一个分类关键词对应一个分类概率；将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率，包括：将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上相匹配的分类关键词；根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率，确定第三概率。

在一些可实施的示例中，将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上相匹配的分类关键词，包括：对实际短句进行分词处理，确定至少一个分词；根据分类关键词对应的词向量与每个分词对应的词向量，确定每个分词与每个分类关键词之间的相似度；根据相似度，确定实际短句在每个内容分类上相匹配的分类关键词。

在一些可实施的示例中，根据相似度，确定实际短句在每个内容分类上相匹配的分类关键词，包括：针对每个内容分类，执行如下操作：将大于预设阈值的相似度对应的分类关键词，作为实际短句在内容分类上相匹配的分类关键词。

在一些可实施的示例中，根据分类关键词对应的词向量与每个分词对应的词向量，确定每个分词与每个分类关键词之间的相似度前，本公开提供的数据分类方法还包括：将分类关键词和分词分别输入至预先配置的词向量模型中，确定分类关键词对应的词向量，以及每个分词对应的词向量。

在一些可实施的示例中，根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率，确定第三概率，包括：针对每个内容分类，执行如下操作：根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率的平均值，确定第三概率。在一些可实施的示例中，对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类，包括：对第二概率和第三概率进行加权处理，确定实际短句在每个内容分类上的第四概率；对第一概率和第四概率进行融合处理，确定待分析舆情数据在每个内容分类上的融合概率；根据融合概率，确定待分析舆情数据的内容分类。

在一些可实施的示例中，根据融合概率，确定待分析舆情数据的内容分类，包括：针对每个内容分类，执行如下操作：将大于目标阈值的融合概率对应的内容分类，作为融合概率对应的实际短句的内容分类；根据每个实际短句对应的内容分类，生成待分析舆情数据的内容分类。

第二方面、本公开提供一种数据分类装置，包括：获取单元，用于获取待分析舆情数据；其中，待分析舆情数据至少包括实际标题和实际正文，实际正文包括一个或者多个实际短句；处理单元，用于将获取单元获取的实际标题和获取单元获取的实际短句分别输入至预先配置的语言模型中，确定实际标题在至少一个内容分类中每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率；处理单元，还用于将每个内容分类对应的分类关键词与获取单元获取的实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率；处理单元，还用于对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。

在一些可实施的示例中，预先配置的语言模型的训练过程如下：获取单元，还用于获取训练舆情数据和训练舆情数据的标记结果；其中，训练舆情数据中至少包括训练标题和训练正文；处理单元，还用于将获取单元获取的训练舆情数据输入至语义模型中，确定训练标题在每个内容分类上的第一预测概率，和训练正文在每个内容分类上的第二预测概率；处理单元，还用于在第一预测概率与第一标记概率不同，和/或第二预测概率与第二标记概率不同的情况下，对语义模型的网络参数进行调整，直至语义模型收敛，得到预先配置的语言模型。

在一些可实施的示例中，一个分类关键词对应一个分类概率；处理单元，具体用于将每个内容分类对应的分类关键词与获取单元获取的实际短句进行语义匹配，确定实际短句在每个内容分类上相匹配的分类关键词；处理单元，具体用于根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率，确定第三概率。

在一些可实施的示例中，处理单元，具体用于对获取单元获取的实际短句进行分词处理，确定至少一个分词；处理单元，具体用于根据分类关键词对应的词向量与每个分词对应的词向量，确定每个分词与每个分类关键词之间的相似度；处理单元，具体用于根据相似度，确定实际短句在每个内容分类上相匹配的分类关键词。

在一些可实施的示例中，处理单元，具体用于针对每个内容分类，执行如下操作：将大于预设阈值的相似度对应的分类关键词，作为实际短句在内容分类上相匹配的分类关键词。

在一些可实施的示例中，处理单元，还用于将分类关键词和分词分别输入至预先配置的词向量模型中，确定分类关键词对应的词向量，以及每个分词对应的词向量。

在一些可实施的示例中，处理单元，具体用于针对每个内容分类，执行如下操作：根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率的平均值，确定第三概率。

在一些可实施的示例中，处理单元，具体用于对第二概率和第三概率进行加权处理，确定实际短句在每个内容分类上的第四概率；处理单元，具体用于对第一概率和第四概率进行融合处理，确定待分析舆情数据在每个内容分类上的融合概率；处理单元，具体用于根据融合概率，确定待分析舆情数据的内容分类。

在一些可实施的示例中，处理单元，具体用于针对每个内容分类，执行如下操作：将大于目标阈值的融合概率对应的内容分类，作为融合概率对应的实际短句的内容分类；处理单元，具体用于根据每个实际短句对应的内容分类，生成待分析舆情数据的内容分类。

第三方面，本公开提供一种电子设备，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在执行计算机程序时，使得所述电子设备实现如上述第一方面提供的数据分类方法。

第四方面，本公开提供一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被计算设备执行时，使得所述计算设备实现如上述第一方面提供的数据分类方法。

第五方面，本公开提供一种车辆或云端服务器，包括如上述第二方面提供的数据分类装置。

在本公开中，上述数据分类装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似，属于本公开权利要求及其等同技术的范围之内。

本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

本公开提供的技术方案与现有技术相比具有如下优点：

通过预先配置的语言模型，可以确定待分析舆情数据中实际标题在每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率。之后，将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率。这样，就可以对第一概率、第二概率以及第三概率进行融合处理，为该待分析舆情数据匹配对应的内容分类。无需人工去逐一标注待分析舆情数据的内容分类，这样可以大大提高待分析舆情数据的内容分类的分析效率，解决了现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种数据分类方法的流程示意图之一；

图2为本公开实施例提供的一种数据分类方法的流程示意图之二；

图3为本公开实施例提供的一种数据分类装置的结构示意图之一；

图4为本公开实施例提供的一种数据分类装置的结构示意图之二；

图5为本公开实施例提供的一种数据分类方法的计算机程序产品的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本公开实施例中的舆情数据是指通过舆情系统获取的数据。其中，舆情系统是指对信息收集系统上报的数据进行挖掘，得到用于描述交通工具领域的具体功能(如：自动驾驶、自动泊车等)及观点(不好，体验较差等)等数据。

本公开实施例中提到的词向量(Word embedding)，又叫Word嵌入式自然语言处理(Neuro-Linguistic Programming，NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。

本公开实施例提供的数据分类方法，通过预先配置的语言模型，可以确定待分析舆情数据中实际标题在每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率。之后，将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率。这样，就可以对第一概率、第二概率以及第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。具体的实现过程如下：

本申请实施例的数据分类方法的执行主体为数据分类装置，该数据分类装置可设置于电子设备中，其中，电子设备可以包括智能手机、个人计算机、服务器以及车载终端等，本实施例对此不进行限定。当该电子设备为车载终端时，电子设备的处理器可以为车辆的控制器。

示例性的，以执行本公开实施例提供的数据分类方法的执行主体为服务器为例，服务器可以是本地，也可以是云端服务器。对本公开实施例所提供的数据分类方法进行介绍。

如图1所示，本公开实施例提供的数据分类方法包括以下步骤S11-S14的内容：

S11、获取待分析舆情数据。其中，待分析舆情数据至少包括实际标题和实际正文，实际正文包括一个或者多个实际短句。

在一些示例中，舆情数据包括用户在论坛或者社区上发布的帖子中包含的信息，和/或通过客户关系管理(Customer Relationship Management，CRM)提取的工单中包含的信息。

需要说明的是，上述示例是以舆情数据包括用户在论坛或者社区上发布的帖子中包含的信息，和/或通过CRM提取的工单中包含的信息为例进行说明的。在其他的一些示例中，舆情数据包括网络上用于描述汽车的具体功能以及观点的数据，此处不做限定。

S12、将实际标题和实际短句分别输入至预先配置的语言模型中，确定实际标题在至少一个内容分类中每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率。

在一些示例中，实际内容是对实际标题的具体解释，为了更好地对待分析舆情数据进行内容分类，本公开实施例提供的数据分类方法，通过预先配置的语言模型，对实际标题和实际内容分别进行处理，确定实际标题在每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率，无需人工去对实际标题和实际内容分别进行标注，提高了舆情数据的内容分类效率。

S13、将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率。

S14、对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。

在一些示例中，内容分类可以表示待分析舆情数据实际反馈内容的类别。如此，通过对已有的舆情数据进行分析，可以得到待分析舆情数据对应的内容分类。这样，通过收集已有的内容分类，生成预先配置的内容分类。在后续的使用过程中，可以对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。

示例性的，预先配置的内容分类如表1所示。

表1

如此，在获取到待分析舆情数据后，通过将待分析舆情数据中的实际标题和实际短句分别输入至预先配置的语言模型中，确定实际标题在至少一个内容分类中每个内容分类(如：问题、建议、咨询、好评和差评)上的第一概率，以及实际短句在每个内容分类上的第二概率。之后，将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率。最后，对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。

在一些示例中，实际标题通常为一个句子(可以认为实际标题只有1个实际短句)，实际正文中包括一个或者多个实际短句，不同的实际短句所表达的观点可能存在差异。这样，在将实际标题输入至预先配置的语言模型后，可以确定出一个第一概率。而将实际短句输入至预先配置的语言模型后，可以确定每个实际短句对应的第二概率。同时，在将每个内容分类对应的分类关键词与实际短句进行语义匹配时，可以确定每个实际短句对应的第三概率。如此，在对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类时，需要确定待分析舆情数据中包含的每个实际短句对应的第二概率和第三概率，之后根据每个实际短句对应的第二概率和第三概率，以及实际标题对应的第一概率，确定每个实际短句的内容分类。之后，通过将待分析舆情数据中每个实际短句的内容分类进行汇总，就可以得到对应该待分析舆情数据的内容分类。如，在实际正文中仅包含一个实际短句的情况下，需要确定实际标题对应的第一概率，以及该实际短句对应的第二概率和第三概率。之后，根据第一概率和该实际短句对应的第二概率和第三概率，确定该实际短句的内容分类。由于待分析舆情数据中仅包含一个实际短句，因此该待分析舆情数据对应的内容分类为该实际短句对应的内容分类。在实际正文中包含多个实际短句的情况下，该待分析舆情数据对应的内容分类为实际正文中每个实际短句对应的内容分类。由上述可知，采用本公开实施例提供的数据分类方法对待分析舆情数据进行分析时，通过预先配置的语言模型对实际短句进行分析，从而可以得到实际短句在每个内容分类上的第二概率；同时，通过将内容分类对应的分类关键词与实际短句进行语义匹配，从而可以得到实际短句在每个内容分类上的第三概率。通过上述方式对实际短句进行分析时，可以更加准确地分析出每个实际短句在每个内容分类上的概率。这样在对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类时，可以更加准确地匹配出待分析舆情数据匹配对应的内容分类。同时，由于无需人工去逐一标注待分析舆情数据的内容分类，这样可以大大提高待分析舆情数据的内容分类的分析效率，解决了现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。

在一些可实施的示例中，结合图1，如图2所示，本公开实施例提供的数据分类方法在预先配置的语言模型时包括如下S15-S17。

S15、获取训练舆情数据和训练舆情数据的标记结果。其中，训练舆情数据中至少包括训练标题和训练正文。

具体的，标记结果中包括每个训练标题的第一标记概率和每个训练正文的第二标记概率。示例性的，标记结果可以由人工标注。

S16、将训练舆情数据输入至语义模型中，确定训练标题在每个内容分类上的第一预测概率，和训练正文在每个内容分类上的第二预测概率。

具体的，语义模型可以是基于词向量的语言表征模型，如BERT(BidirectionalEncoder Representation from Transformers)、ELMO(Embedding from LanguageModels)和GPT(generative pre-train model)中的任一项。

S17、在第一预测概率与第一标记概率不同，和/或第二预测概率与第二标记概率不同的情况下，对语义模型的网络参数进行调整，直至语义模型收敛，得到预先配置的语言模型。

在一些示例中，语义模型需要对实际标题和实际短句进行预测，因此需要确定对实际标题的预测结果第一预测概率与第一标记概率是否相同，第二预测概率与第二标记概率是否相同。在第一预测概率与第一标记概率相同，且第二预测概率与第二标记概率连续相同的情况下，表示语义模型收敛，得到预先配置的语言模型。

具体的，可以基于目标损失函数对语义模型的网络参数进行调整。

在一些可实施的示例中，一个分类关键词对应一个分类概率；结合图1，如图2所示，上述S13具体可以通过下述S130和S131实现。

S130、将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上相匹配的分类关键词。

在一些示例中，实际短句中包含一个或者多个分词，而分词无法被计算设备(如计算机)直接识别，因此需要将分词转换为词向量，以使得计算机可以识别该分词。如：在将每个内容分类对应的分类关键词与实际短句进行语义匹配时，可以计算分类关键词对应的词向量与实际短句中包含的分词对应的词向量的相似度。在相似度大于预设阈值的情况下，确定实际短句中包含该相似度大于预设阈值的分类关键词。如此，可以确定出实际短句在每个内容分类上相匹配的分类关键词。其中，一个分词对应一个词向量。

具体的，每个内容分类对应的预设阈值可以相同也可以不同，此处不做限定。

具体的，在一些示例中，可以采用自然语言处理(Natural Language Processing，NLP)对实际短句进行分词处理，确定至少一个分词。

需要说明的是，上述示例是以采用NLP对实际短句进行分词处理，确定至少一个分词为例进行说明的。在其他的一些示例中，还可以采用正向最大匹配法，反向最大匹配法等对实际短句进行分词处理，确定至少一个分词，此处不做限定。

具体的，在确定实际短句包含的每个分词的词向量，以及分类关键词对应的词向量时，可以将分词以及分类关键词分别输入至预先配置的词向量模型中，确定分词对应的词向量，以及分类关键词对应的词向量。

具体的，词向量模型可以是FastText、TextCNN和TextRNN中的任一个，本公开不做限定。

具体的，可以将每个内容分类下每个分类关键词的词向量存储在服务器的存储器中。这样在后续需要使用该分类关键词的词向量时，服务器的处理器可以直接从存储器中读取该分类关键词的词向量，方便进行运算。

具体的，分类关键词对应的词向量与分词对应的词向量的相似度等于分类关键词对应的词向量与分词对应的词向量之间的余弦相似度。

需要说明的是，上述示例是以计算分类关键词对应的词向量与第分词对应的词向量之间的余弦相似度，作为分类关键词对应的词向量与分词对应的词向量的相似度为例进行说明的。在其他的一些示例中，还可以通过计算分类关键词对应的词向量与分词对应的词向量之间的目标距离，并将目标距离作为分类关键词对应的词向量与分词对应的词向量的相似度。其中，目标距离包括：欧氏距离(Euclidean)，曼哈顿距离(Manhattan distance)中的任一项。在另一些示例中，还可以通过计算分类关键词对应的词向量与第分词对应的词向量之间的皮尔逊相关系数(Pearson correlation coefficient，PC)，并将皮尔逊相关系数作为分类关键词对应的词向量与分词对应的词向量的相似度。

需要说明的是，上述示例是以将每个内容分类下每个分类关键词的词向量预先存储在服务器的存储器中为例进行说明的。在其他的一些示例中，服务器还可以在每次需要使用分类关键词对应的词向量时，确定每个分类关键词的词向量，如此可以降低对存储器的存储空间的占用。

S131、根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率，确定第三概率。

在一些示例中，对于实际短句中存在目标分类的目标关键词的情况下，第三概率等于每个目标关键词对应的分类概率的平均值。其中，目标分类为内容分类中的任一个，目标关键词为该任一个内容分类中的任一个分类关键词。如：

结合表1可知，实际短句中存在内容分类“问题”中的分类关键词1、分类关键词2和分类关键词3时，则实际短句在内容分类“问题”上的第三概率等于分类关键词1对应的分类概率、分类关键词2对应的分类概率和分类关键词3对应的分类概率三者的平均值。又或者，实际短句中存在内容分类“建议”中的分类关键词4时，则实际短句在内容分类“建议”上的第三概率等于分类关键词4对应的分类概率。

对于实际短句中不存在目标分类的目标关键词的情况下，第三概率等于0。

具体的，同一个内容分类下的每个分类关键词对应的分类概率之和等于1。

在一些示例中，同一个内容分类下的每个分类关键词对应的分类概率等于该分类关键词在该内容分类下出现的总次数与该内容分类下的每个分类关键词出现的总次数的比值。

需要说明的是，上述示例是以同一个内容分类下的每个分类关键词对应的分类概率等于该分类关键词在该内容分类下出现的总次数与该内容分类下的每个分类关键词出现的总次数的比值为例进行说明。在其他的一些示例中，分类概率可以是用户按照分类关键词的重要性设置的，此处不做限定。

在一些可实施的示例中，一个分类关键词对应一个分类概率；结合图1，如图2所示，上述S14具体可以通过下述S140-S142实现。

S140、对第二概率和第三概率进行加权处理，确定实际短句在每个内容分类上的第四概率。

在一些示例中，第四概率满足如下公式：

P₄＝a×P₂+b×P₃，公式一。

P₄＝P₂，公式二。

其中，P₄表示第四概率，P₂表示第二概率，P₃表示第三概率，a和b均为大于或等于0，且小于或等于1的常数。

在P3不为零的情况下，P4满足上述公式一。

在P3等于0的情况下，P4满足上述公式二。

S141、对第一概率和第四概率进行融合处理，确定待分析舆情数据在每个内容分类上的融合概率。

在一些示例中，融合概率满足如下公式：

P＝P₁+P₄，公式三。

其中，P表示融合概率，P₁表示第一概率，P₄表示第四概率。

如此，可以根据公式三，确定该待分析舆情数据在每个内容分类上的融合概率。

S142、根据融合概率，确定待分析舆情数据的内容分类。

具体的，融合概率越大，表示待分析舆情数据所表达的观点与内容分类的匹配程度越高。因此，在根据融合概率，确定待分析舆情数据的内容分类时，可以设置目标阈值(如：0.8)。当融合概率大于0.8时，表示待分析舆情数据所表达的观点与内容分类相同。如：待分析舆情数据的实际标题为“辅助驾驶”，实际短句为“辅助驾驶不够智能”，此时通过本公开实施例提供的数据分类方法，确定在内容分类“建议”上的融合概率大于0.8。因此，可以确定待分析舆情数据的内容分类“建议”。

又或者，待分析舆情数据的实际标题为“辅助驾驶”，实际短句为“再也不用盲区辅助了”，此时通过本公开实施例提供的数据分类方法，确定在内容分类“差评”上的融合概率大于0.8。因此，可以确定待分析舆情数据的内容分类“差评”。

又或者，待分析舆情数据实际标题为“辅助驾驶”，实际短句为“辅助驾驶不够智能，再也不用盲区辅助了”，此时通过本公开实施例提供的数据分类方法，确定实际短句“辅助驾驶不够智能”在内容分类“建议”上的融合概率大于0.8。因此，可以确定实际短句“辅助驾驶不够智能”的内容分类“建议”。同时，实际短句“再也不用盲区辅助了”在内容分类“差评”上的融合概率大于0.8。因此，可以确定实际短句“再也不用盲区辅助了”的内容分类“差评”。之后，通过对实际短句“辅助驾驶不够智能”的内容分类，以及实际短句“再也不用盲区辅助了”的内容分类进行汇总，从而可以确定待分析舆情数据实际标题为“辅助驾驶”，实际短句为“辅助驾驶不够智能，再也不用盲区辅助了”对应的内容分类为：实际短句“辅助驾驶不够智能”的内容分类“建议”，实际短句“再也不用盲区辅助了”的内容分类“差评”。

可以看出，采用本公开实施例提供的数据分类方法对待分析舆情数据进行分类时，可以准确地对每个待分析舆情数据进行分类，提高了舆情数据的分析效率。

具体的，电子设备为智能手机、个人计算机或者车载终端时执行本公开实施例所提供的数据分类方法的流程，与电子设备为服务器时执行本公开实施例所提供的数据分类方法的流程相同，此处不再赘述。

上述主要从方法的角度对本公开实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对数据分类装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图3所示，为本公开实施例提供的一种数据分类装置10的结构示意图。电子设备10用于获取待分析舆情数据；将实际标题和实际短句分别输入至预先配置的语言模型中，确定实际标题在至少一个内容分类中每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率；将每个内容分类对应的分类关键词与实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率；对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。电子设备10可以包括获取单元101和处理单元102。

获取单元101，用于获取待分析舆情数据；其中，待分析舆情数据至少包括实际标题和实际正文；其中，待分析舆情数据至少包括实际标题和实际正文，实际正文包括一个或者多个实际短句；处理单元102，用于将获取单元101获取的实际标题和获取单元101获取的实际短句分别输入至预先配置的语言模型中，确定实际标题在至少一个内容分类中每个内容分类上的第一概率，以及实际短句在每个内容分类上的第二概率；处理单元102，还用于将每个内容分类对应的分类关键词与获取单元101获取的实际短句进行语义匹配，确定实际短句在每个内容分类上的第三概率；处理单元102，还用于对第一概率、第二概率和第三概率进行融合处理，为待分析舆情数据匹配对应的内容分类。

在一些可实施的示例中，预先配置的语言模型的训练过程如下：获取单元101，还用于获取训练舆情数据和训练舆情数据的标记结果；其中，训练舆情数据中至少包括训练标题和训练正文；处理单元102，还用于将获取单元101获取的训练舆情数据输入至语义模型中，确定训练标题在每个内容分类上的第一预测概率，和训练正文在每个内容分类上的第二预测概率；处理单元102，还用于在第一预测概率与第一标记概率不同，和/或第二预测概率与第二标记概率不同的情况下，对语义模型的网络参数进行调整，直至语义模型收敛，得到预先配置的语言模型。

在一些可实施的示例中，一个分类关键词对应一个分类概率；处理单元102，具体用于将每个内容分类对应的分类关键词与获取单元101获取的实际短句进行语义匹配，确定实际短句在每个内容分类上相匹配的分类关键词；处理单元102，具体用于根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率，确定第三概率。

在一些可实施的示例中，处理单元102，具体用于对获取单元101获取的实际短句进行分词处理，确定至少一个分词；处理单元102，具体用于根据分类关键词对应的词向量与每个分词对应的词向量，确定每个分词与每个分类关键词之间的相似度；处理单元102，具体用于根据相似度，确定实际短句在每个内容分类上相匹配的分类关键词。

在一些可实施的示例中，处理单元102，具体用于针对每个内容分类，执行如下操作：将大于预设阈值的相似度对应的分类关键词，作为实际短句在内容分类上相匹配的分类关键词。

在一些可实施的示例中，处理单元102，还用于将分类关键词和分词分别输入至预先配置的词向量模型中，确定分类关键词对应的词向量，以及每个分词对应的词向量。

在一些可实施的示例中，预先配置的词向量模型包括FastText、TextCNN和TextRNN中的任一项。

在一些可实施的示例中，处理单元102，具体用于针对每个内容分类，执行如下操作：根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率的平均值，确定第三概率。

在一些可实施的示例中，处理单元102，具体用于对第二概率和第三概率进行加权处理，确定实际短句在每个内容分类上的第四概率；处理单元102，具体用于对第一概率和第四概率进行融合处理，确定待分析舆情数据在每个内容分类上的融合概率；处理单元102，具体用于根据融合概率，确定待分析舆情数据的内容分类。

在一些可实施的示例中，处理单元102，具体用于针对每个内容分类，执行如下操作：将大于目标阈值的融合概率对应的内容分类，作为融合概率对应的实际短句的内容分类；处理单元，具体用于根据每个实际短句对应的内容分类，生成待分析舆情数据的内容分类。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，其作用在此不再赘述。

当然，本公开实施例提供的数据分类装置10包括但不限于上述模块，例如数据分类装置10还可以包括存储单元103。存储单元103可以用于存储该数据分类装置10的程序代码，还可以用于存储数据分类装置10在运行过程中生成的数据，如写请求中的数据等。

图4为本公开实施例提供的一种电子设备的结构示意图，如图4所示，该电子设备可以包括：至少一个处理器51、存储器52、通信接口53和通信总线54。

下面结合图4对电子设备10的各个构成部件进行具体的介绍：

其中，处理器51是电子设备10的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器51是一个中央处理器(Central Processing Unit，CPU)，也可以是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本公开实施例的一个或多个集成电路，例如：一个或多个DSP，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)。

在具体的实现中，作为一种实施例，处理器51可以包括一个或多个CPU，例如图4中所示的CPU0和CPU1。且，作为一种实施例，电子设备10可以包括多个处理器，例如图4中所示的处理器51和处理器55。这些处理器中的每一个可以是一个单核处理器(Single-CPU)，也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器52可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器52可以是独立存在，通过通信总线54与处理器51相连接。存储器52也可以和处理器51集成在一起。

在具体的实现中，存储器52，用于存储本公开中的数据和执行本公开的软件程序。处理器51可以通过运行或执行存储在存储器52内的软件程序，以及调用存储在存储器52内的数据，执行空调器的各种功能。

通信接口53，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如无线接入网(Radio Access Network，RAN)，无线局域网(Wireless Local Area Networks，WLAN)、终端、云端等。通信接口53可以包括获取单元，以实现获取功能。

通信总线54，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

为一个示例，结合图3，数据分类装置10中的获取单元101实现的功能与图4中的通信接口53的功能相同，数据分类装置10中的处理单元102实现的功能与图4中的处理器51的功能相同，数据分类装置10中的存储单元103实现的功能与图4中的存储器52的功能相同。

本公开另一实施例还提供一种计算机可读存储介质，包括：计算机可读存储介质上存储有计算机程序，当计算机程序被计算设备执行时，使得计算设备实现上述方法实施例所示的数据分类方法。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

图5示意性地示出本公开实施例提供的计算机程序产品的概念性局部视图，所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。

在一个实施例中，计算机程序产品是使用信号承载介质410来提供的。所述信号承载介质410可以包括一个或多个程序指令，其当被一个或多个处理器运行时可以提供以上针对图1描述的功能或者部分功能。因此，例如，参考图1中所示的实施例，S11-S14的一个或多个特征可以由与信号承载介质410相关联的一个或多个指令来承担。此外，图5中的程序指令也描述示例指令。

在一些示例中，信号承载介质410可以包含计算机可读介质411，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等等。

在一些实施方式中，信号承载介质410可以包含计算机可记录介质412，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中，信号承载介质410可以包含通信介质413，诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质410可以由无线形式的通信介质413(例如，遵守IEEE 802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是，例如，计算机可执行指令或者逻辑实施指令。

在一些示例中，诸如针对图3描述的数据分类装置10可以被配置为，响应于通过计算机可读介质411、计算机可记录介质412、和/或通信介质413中的一个或多个程序指令，提供各种操作、功能、或者动作。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据分类方法，其特征在于，包括：

获取待分析舆情数据；其中，所述待分析舆情数据至少包括实际标题和实际正文，所述实际正文包括一个或者多个实际短句；

将所述实际标题和所述实际短句分别输入至预先配置的语言模型中，确定所述实际标题在所述语言模型输出的至少一个内容分类中每个所述内容分类上的第一概率，以及所述实际短句在每个所述内容分类上的第二概率；

将每个所述内容分类对应的分类关键词与所述实际短句进行语义匹配，确定所述实际短句在每个所述内容分类上的第三概率；

对所述第一概率、所述第二概率和所述第三概率进行融合处理，为所述待分析舆情数据匹配对应的内容分类。

2.根据权利要求1所述的数据分类方法，其特征在于，所述预先配置的语言模型的训练过程如下：

获取训练舆情数据和所述训练舆情数据的标记结果；其中，所述训练舆情数据中至少包括训练标题和训练正文，所述训练正文包括一个或者多个训练短句，所述标记结果包括训练标题对应的第一标记概率，以及训练短句对应的第二标记概率；

将所述训练舆情数据输入至语义模型中，确定所述训练标题在每个所述内容分类上的第一预测概率，和所述训练短句在每个所述内容分类上的第二预测概率；

在所述第一预测概率与第一标记概率不同，和/或所述第二预测概率与第二标记概率不同的情况下，对所述语义模型的网络参数进行调整，直至所述语义模型收敛，得到所述预先配置的语言模型。

3.根据权利要求1所述的数据分类方法，其特征在于，一个所述分类关键词对应一个分类概率；

所述将每个所述内容分类对应的分类关键词与所述实际短句进行语义匹配，确定所述实际短句在每个所述内容分类上的第三概率，包括：

将每个所述内容分类对应的分类关键词与所述实际短句进行语义匹配，确定所述实际短句在每个所述内容分类上相匹配的分类关键词；

根据所述实际短句在每个所述内容分类上相匹配的分类关键词对应的分类概率，确定所述第三概率。

4.根据权利要求3所述的数据分类方法，其特征在于，所述将每个所述内容分类对应的分类关键词与所述实际短句进行语义匹配，确定所述实际短句在每个所述内容分类上相匹配的分类关键词，包括：

对所述实际短句进行分词处理，确定至少一个分词；

根据所述分类关键词对应的词向量与每个所述分词对应的词向量，确定每个所述分词与每个所述分类关键词之间的相似度；

根据所述相似度，确定所述实际短句在每个所述内容分类上相匹配的分类关键词。

5.根据权利要求4所述的数据分类方法，其特征在于，所述根据所述相似度，确定所述实际短句在每个所述内容分类上相匹配的分类关键词，包括：

针对每个所述内容分类，执行如下操作：

将大于预设阈值的所述相似度对应的分类关键词，作为所述实际短句在所述内容分类上相匹配的分类关键词。

6.根据权利要求4所述的数据分类方法，其特征在于，所述根据所述分类关键词对应的词向量与每个所述分词对应的词向量，确定每个所述分词与每个所述分类关键词之间的相似度前，所述方法还包括：

将所述分类关键词和所述分词分别输入至预先配置的词向量模型中，确定所述分类关键词对应的词向量，以及每个所述分词对应的词向量。

7.根据权利要求3所述的数据分类方法，其特征在于，所述根据所述实际短句在每个所述内容分类上相匹配的分类关键词对应的分类概率，确定所述第三概率，包括：

针对每个所述内容分类，执行如下操作：

根据所述实际短句在每个所述内容分类上相匹配的分类关键词对应的分类概率的平均值，确定所述第三概率。

8.根据权利要求1所述的数据分类方法，其特征在于，所述根据所述第一概率、所述第二概率和所述第三概率，确定所述待分析舆情数据的内容分类，包括：

对所述第二概率和所述第三概率进行加权处理，确定所述实际短句在每个所述内容分类上的第四概率；

对所述第一概率和所述第四概率进行融合处理，确定所述待分析舆情数据在每个所述内容分类上的融合概率；

根据所述融合概率，确定所述待分析舆情数据的内容分类。

9.根据权利要求8所述的数据分类方法，其特征在于，所述根据所述融合概率，确定所述待分析舆情数据的内容分类，包括：

针对每个所述内容分类，执行如下操作：将大于目标阈值的所述融合概率对应的内容分类，作为所述融合概率对应的实际短句的内容分类；

根据每个所述实际短句对应的内容分类，生成所述待分析舆情数据的内容分类。

10.一种数据分类装置，其特征在于，包括：

获取单元，用于获取待分析舆情数据；其中，所述待分析舆情数据至少包括实际标题和实际正文，所述实际正文包括一个或者多个实际短句；

处理单元，用于将所述获取单元获取的所述实际标题和所述获取单元获取的所述实际短句分别输入至预先配置的语言模型中，确定所述实际标题在至少一个内容分类中每个所述内容分类上的第一概率，以及所述实际短句在每个所述内容分类上的第二概率；

所述处理单元，还用于将每个所述内容分类对应的分类关键词与所述获取单元获取的所述实际短句进行语义匹配，确定所述实际短句在每个所述内容分类上的第三概率；

所述处理单元，还用于对所述第一概率、所述第二概率和所述第三概率进行融合处理，为所述待分析舆情数据匹配对应的内容分类。

11.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在执行计算机程序时，使得所述电子设备实现权利要求1-9任一项所述的数据分类方法。

12.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被计算设备执行时，使得所述计算设备实现权利要求1-9任一项所述的数据分类方法。

13.一种车辆或云端服务器，其特征在于，包括如权利要求10所述的数据分类装置。