CN117216249A

CN117216249A - 数据分类方法、装置、电子设备、介质及车辆

Info

Publication number: CN117216249A
Application number: CN202210587006.8A
Authority: CN
Inventors: 黄海涛; 庞鑫; 单乐天; 焦俊铭; 乔举义; 赵南; 杜鹏
Original assignee: Beijing Rockwell Technology Co Ltd
Current assignee: Beijing Rockwell Technology Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2023-12-12

Abstract

本公开提供了一种数据分类方法、装置、电子设备、介质及车辆，通过预先配置的词向量模型，可以确定待分析舆情数据中每个分词的词向量。如此，就可以识别待分析舆情数据中包含的分词以及该分词对应的实际词向量。之后，将实际词向量与目标词向量进行语义匹配，确定实际词向量与每个目标词向量的相似度；由于不同的分类结果对应的目标词向量不同，根据相似度，可以确定待分析舆情数据对应的分类结果。由于，无需人工去逐一标注待分析舆情数据的分类结果，这样可以大大提高待分析舆情数据的分类结果的分析效率，解决了现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。

Description

数据分类方法、装置、电子设备、介质及车辆

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据分类方法、装置、电子设备、介质及车辆。

背景技术

现有技术中，为了获取用户对产品的口碑，需要从网络上获取大量的舆情数据。如：通过对舆情数据分析，可以得到舆情数据的分类结果，如：侧方盲区辅助失效、自适应巡航等。但是，上述结果需要人工逐一去分析舆情数据，这样就会出现不同的人在分析相同的舆情数据时，所得到的舆情数据的分类结果存在差异，导致分类结果的分析效率较低。

发明内容

为了解决上述技术问题，本公开提供了一种数据分类方法、装置、电子设备和存储介质，用于解决现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。

为达到上述目的，本公开采用如下技术方案：

第一方面，本公开提供了一种数据分类方法，包括：获取待分析舆情数据；根据预先配置的词向量模型，确定待分析舆情数据中包含的每个分词的实际词向量；将实际词向量与目标词向量进行语义匹配，确定实际词向量与目标词向量的相似度；根据相似度，确定待分析舆情数据的分类结果，其中，不同的分类结果对应的目标词向量不同。

在一些可实施的示例中，预先配置的词向量模型的训练过程如下：获取训练舆情数据；对训练舆情数据进行分词处理，确定至少一个理论分词；对理论分词进行数据预处理，确定至少一个实际分词；其中，数据预处理包括特殊字符处理、停用词处理和大小写转换中的一项或者多项，实际分词为理论分词中的任一个；将至少一个实际分词输入至文本分类模型中，确定每个实际分词的预测词向量；在预测词向量与实际分词对应的实际词向量不同的情况下，对文本分类模型的网络参数进行调整，直至文本分类模型收敛，得到词向量模型。

在一些可实施的示例中，根据预先配置的词向量模型，确定待分析舆情数据中包含的每个分词的实际词向量，包括：对待分析舆情数据进行分词，确定待分析舆情数据中包含的至少一个分词；将至少一个分词输入至预先配置的词向量模型，确定至少一个分词中每个分词的实际词向量。

在一些可实施的示例中，将实际词向量与目标词向量进行语义匹配，确定实际词向量与目标词向量的相似度，包括：根据实际词向量与每个目标词向量的余弦相似度，确定实际词向量与每个目标词向量的相似度；或根据实际词向量与每个目标词向量的之间的目标距离，确定实际词向量与每个目标词向量的相似度；其中，目标距离包括欧氏距离和曼哈顿距离中的任一项；或根据实际词向量与每个目标词向量的之间的皮尔逊相关系数，确定实际词向量与每个目标词向量的相似度。

在一些可实施的示例中，分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；根据相似度，确定待分析舆情数据的分类结果，包括：根据相似度，确定相似度中仅存在一个大于预设阈值的相似度时，确定待分析舆情数据对应的功能分类为指定分类；其中，指定分类为大于预设阈值的相似度对应的标签关键词归属的功能分类。

在一些可实施的示例中，分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；根据相似度，确定待分析舆情数据的分类结果，包括：根据相似度，确定相似度中仅存在多个大于预设阈值的相似度时，获取多个大于预设阈值的相似度中的最大相似度；确定待分析舆情数据对应的功能分类为目标分类；其中，目标分类为最大相似度对应的标签关键词归属的功能分类。

在一些可实施的示例中，分类结果包括语义观点，目标词向量包括每个语义观点对应的词向量，不同语义观点对应的目标词向量不同；获取待分析舆情数据前，本公开提供的数据分类方法还包括：获取至少一个语义观点；将每个语义观点输入至预先配置的词向量模型中，确定每个语义观点中每个分词的实际词向量；根据实际词向量，确定每个语义观点对应的目标词向量。

在一些可实施的示例中，待分析舆情数据包括至少一个短句；将实际词向量与目标词向量进行语义匹配，确定实际词向量与目标词向量的相似度，包括：根据每个短句中包含的每个分词的实际词向量，确定每个短句的理论词向量；将理论词向量与目标词向量进行语义匹配，确定每个理论词向量与目标词向量的相似度；根据相似度，确定待分析舆情数据的分类结果，包括：根据每个理论词向量与目标词向量的相似度，确定每个短句的语义观点；根据每个短句的语义观点，确定待分析舆情数据的语义观点。

第二方面、本公开提供一种数据分类装置，包括：获取单元，用于获取待分析舆情数据；处理单元，用于根据预先配置的词向量模型和获取单元获取的待分析舆情数据，确定待分析舆情数据中包含的每个分词的实际词向量；处理单元，还用于将实际词向量与目标词向量进行语义匹配，确定实际词向量与目标词向量的相似度；处理单元，还用于根据相似度，确定待分析舆情数据的分类结果其中，不同的分类结果对应的目标词向量不同。

第三方面，本公开提供一种电子设备，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在执行计算机程序时，使得所述电子设备实现如上述第一方面提供的数据分类方法。

第四方面，本公开提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被计算设备执行时，使得所述计算设备实现如上述第一方面提供的数据分类方法。

第五方面，本公开提供一种车辆，包括如第二方面提供的数据分类装置。

在本公开中，上述数据分类装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似，属于本公开权利要求及其等同技术的范围之内。

本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

本公开提供的技术方案与现有技术相比具有如下优点：

通过预先配置的词向量模型，可以确定待分析舆情数据中每个分词的词向量。如此，就可以识别待分析舆情数据中包含的分词以及该分词对应的实际词向量。之后，将实际词向量与目标词向量进行语义匹配，确定实际词向量与每个目标词向量的相似度；由于不同的分类结果对应的目标词向量不同，根据相似度，可以确定待分析舆情数据对应的分类结果。由于，无需人工去逐一标注待分析舆情数据的分类结果，这样可以大大提高待分析舆情数据的分类结果的分析效率，解决了现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种数据分类方法的流程示意图之一；

图2为本公开实施例提供的一种数据分类方法的流程示意图之二；

图3为本公开实施例提供的一种数据分类方法的流程示意图之三；

图4为本公开实施例提供的一种数据分类方法的流程示意图之四；

图5为本公开实施例提供的一种数据分类方法的流程示意图之五；

图6为本公开实施例提供的一种数据分类方法的流程示意图之六；

图7为本公开实施例提供的一种数据分类方法的流程示意图之七；

图8为本公开实施例提供的一种数据分类方法的流程示意图之八；

图9为本公开实施例提供的一种数据分类方法的流程示意图之九；

图10为本公开实施例提供的一种数据分类方法的流程示意图之十；

图11为本公开实施例提供的一种数据分类装置的结构示意图；

图12为本公开实施例提供的一种电子设备的结构示意图；

图13为本公开实施例提供的一种数据分类方法的计算机程序产品的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本公开实施例中的舆情数据是指通过舆情系统获取的数据。其中，舆情系统是指对信息收集系统上报的数据进行挖掘，得到用于描述交通工具领域的具体功能(如：自动驾驶、自动泊车等)及观点(不好，体验较差等)等数据。

本公开实施例中提到的词向量(Word embedding)，又叫Word嵌入式自然语言处理(Neuro-Linguistic Programming，NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。

本公开实施例提供的数据分类方法，通过预先配置的词向量模型，可以确定待分析舆情数据中每个分词的词向量。如此，就可以识别待分析舆情数据中包含的分词以及该分词对应的实际词向量。之后，将实际词向量与目标词向量进行语义匹配，确定实际词向量与每个目标词向量的相似度；由于不同的分类结果对应的目标词向量不同，根据相似度，可以确定待分析舆情数据对应的分类结果。具体的实现过程如下：

本申请实施例的数据分类方法的执行主体为数据分类装置，该数据分类装置可设置于电子设备中，其中，电子设备可以包括智能手机、个人计算机、服务器以及车载终端等，本实施例对此不进行限定。当该电子设备为车载终端时，电子设备的处理器可以为车辆的控制器。

示例性的，以执行本公开实施例提供的数据分类方法的电子设备为服务器为例，对本公开实施例所提供的文本数据分类方法进行介绍。如图1所示，本公开实施例提供的数据分类方法包括以下步骤S11-S14的内容：

S11、获取待分析舆情数据。

在一些示例中，舆情数据包括用户在论坛或者社区上发布的帖子中包含的信息，和/ 或通过客户关系管理(Customer Relationship Management，CRM)提取的工单中包含的信息。

需要说明的是，上述示例是以舆情数据包括用户在论坛或者社区上发布的帖子中包含的信息，和/或通过CRM提取的工单中包含的信息为例进行说明的。在其他的一些示例中，舆情数据包括网络上用于描述汽车的具体功能以及观点的数据，此处不做限定。

S12、根据预先配置的词向量模型和待分析舆情数据，确定待分析舆情数据中包含的每个分词的实际词向量。

在一些示例中，在将待分析舆情数据输入至预先配置的词向量模型时，需要先对待分析舆情数据进行分词处理，确定待分析舆情数据中包含的至少一个分词。之后，将至少一个分词输入至预先配置的词向量模型。如此，可以确定至少一个分词中每个分词的实际词向量。

需要说明的是，由于分词无法被计算设备(如计算机)直接识别，因此需要将分词转换为词向量，以使得计算机可以识别该分词。

具体的，本公开实施例中词向量由m×n个元素组成，其中m表示词向量包含的总行数， n表示词向量包含的列的总数。如：m等于1，n等于200。

S13、将实际词向量与目标词向量进行语义匹配，确定实际词向量与目标词向量的相似度。其中，不同的分类结果对应的目标词向量不同，例如，目标词向量包括功能分类对应的标签关键词的词向量，或者语义观点对应的词向量。

在一些示例中，分类结果包括功能分类，为了确定待分析舆情数据对应的功能分类，需要将实际词向量与每个功能分类对应的每个标签关键词的目标词向量进行语义匹配，这样可以确定实际词向量与每个目标词向量的相似度。之后，可以根据相似度，确定待分析舆情数据对应的功能分类。这样，在计算出每个功能分类下每个标签关键词的目标词向量后，通过将每个功能分类下每个标签关键词的目标词向量存储在服务器的存储器中。这样在后续需要使用目标词向量时，服务器的处理器可以直接从存储器中读取该目标词向量，方便进行运算。

在其他一些示例中，分类结果包括语义观点，为了确定待分析舆情数据对应的语义观点，需要将实际词向量与每个语义观点对应的目标词向量进行语义匹配，这样可以确定实际词向量与每个目标词向量的相似度。之后，可以根据相似度，确定待分析舆情数据对应的语义观点。

具体的，通过将每个语义观点的实际词向量存储在服务器的数据库中。这样在后续需要使用目标词向量时，服务器的处理器可以直接从数据库中读取该目标词向量，方便进行运算。

需要说明的是，上述示例是以将目标词向量预先存储在服务器的数据库中为例进行说明的。在其他的一些示例中，服务器还可以在每次需要使用目标词向量时，确定目标词向量，如此可以降低对存储器的存储空间的占用。

S14、根据相似度，确定待分析舆情数据的分类结果。

在一些示例中，分类结果包括功能分类，用户可以根据实际需要进行功能分类的领域划分。如：该领域为高级驾驶辅助系统(Advanced Driving Assistance System，ADAS)时，可以创建一个或者多个一级分类，每个一级分类下对应一个或者多个二级类别，一个二级类别对应一个功能分类，不同二级类别对应的标签关键词不同。

示例性的，用户可以将ADAS领域划分1个一级分类，和2个二级类别，划分后的功能分类如表1所示。

表1

如此，在设定了ADAS领域中每个一级分类下每个二级类别对应的标签关键词后，通过计算实际词向量与每个目标词向量的相似度。从而可以根据相似度，确定待分析舆情数据对应的功能分类。如，设置预设阈值，在相似度大于预设阈值时，说明二者所表达的意思相同，即待分析舆情数据对应的功能分类为该大于预设阈值的相似度对应的标签关键词所归属的功能分类。

具体的，功能分类的划分的一级分类和二级类别的数量越多，信息挖掘覆盖度越高。如：在ADAS领域，用户可以设置6个一级分类，21个二级类别，以精准定位待分析舆情数据所描述的功能，即该待分析舆情数据所归属的功能分类。

在一些示例中，待分析舆情数据包括一个或者多个短句，不同的短句所表达的意思可能存在差异。这样在根据相似度，确定待分析舆情数据对应的功能分类时，每个短句可能对应一个功能分类，如此，在根据相似度，确定待分析舆情数据对应的功能分类时，需要确定待分析舆情数据中包含的每个短句对应的功能分类，之后通过将每个短句对应的功能分类进行汇总，就可以得到对应该待分析舆情数据的功能分类。如，在待分析舆情数据中仅包含一个短句的情况下，该待分析舆情数据对应的功能分类为该短句对应的功能分类。在待分析舆情数据中包含多个短句的情况下，该待分析舆情数据对应的功能分类为每个短句对应的功能分类。

具体的，功能分类用于描述待分析舆情数据的功能倾向。如：待分析舆情数据为“车道保持不错”，此时通过本公开实施例提供的数据分类方法，确定“车道保持”对应的实际词向量与标签关键词“保持车道”对应的目标词向量之间的相似度大于预设阈值。由表1可知，标签关键词“保持车道”对应的功能分类为“ACC-车道保持”，因此待分析舆情数据为“车道保持不错”对应功能分类与该标签关键词“保持车道”对应的功能分类相同，即“ACC-车道保持”。

又或者，待分析舆情数据为“车道偏离预警效果差强人意”，此时通过本公开实施例提供的数据分类方法，确定“车道偏离预警”对应的实际词向量与标签关键词“偏离预警”对应的目标词向量之间的相似度大于预设阈值。由表1可知，标签关键词“偏离预警”对应的功能分类为“ACC-车道偏离预警”，因此待分析舆情数据为“车道保持不错”对应功能分类与该标签关键词“保持车道”对应的功能分类相同，即“ACC-车道偏离预警”。

又或者，待分析舆情数据为“车道保持不错，但车道偏离预警效果差强人意”，此时通过本公开实施例提供的数据分类方法，确定短句“车道保持不错”中的“车道保持”对应的实际词向量与标签关键词“保持车道”对应的目标词向量之间的相似度大于预设阈值。由表1可知，标签关键词“保持车道”对应的功能分类为“ACC-车道保持”，因此待分析舆情数据为“车道保持不错”对应功能分类与该标签关键词“保持车道”对应的功能分类相同，即“ACC-车道保持”。同时，通过本公开实施例提供的数据分类方法，确定短句“但车道偏离预警效果差强人意”中的“车道偏离预警”对应的实际词向量与标签关键词“偏离预警”对应的目标词向量之间的相似度大于预设阈值。由表1可知，标签关键词“偏离预警”对应的功能分类为“ACC-车道偏离预警”，因此待分析舆情数据为“车道保持不错”对应功能分类与该标签关键词“保持车道”对应的功能分类相同，即“ACC-车道偏离预警”。之后，可以确定待分析舆情数据为“车道保持不错，但车道偏离预警效果差强人意”对应的功能分类为：短句“车道保持不错”对应的功能分类为“ACC-车道保持”，短句“但车道偏离预警效果差强人意”对应的功能分类为“ACC-车道偏离预警”。

在其他一些示例中，分类结果包括语义观点，语义观点可以表示待分析舆情数据所表达的观点。如此，通过对已有的舆情数据进行分析，可以得到待分析舆情数据对应的语义观点。这样，通过收集已有的语义观点，生成预先配置的语义观点。在后续的使用过程中，可以对将实际词向量与预先配置的每个语义观点对应的目标词向量进行语义匹配，确定实际词向量与每个目标词向量的相似度。之后根据相似度，确定待分析舆情数据的语义观点，以提高对语义观点的分析效率。

示例性的，预先配置的语义观点如表2所示。

表2

如此，在获取到待分析舆情数据后，通过将待分析舆情数据输入至预先配置的词向量模型中，确定每个分词的实际词向量。之后，通过将实际词向量与预先配置的每个语义观点(如：“侧方盲区辅助失效”、“侧方雷达停止工作”、“无法启动辅助驾驶”等)对应的目标词向量进行语义匹配，确定实际词向量与每个目标词向量的相似度。之后，根据相似度，确定待分析舆情数据的语义观点。如：确定实际词向量与语义观点“侧方盲区辅助失效”对应的目标词向量的相似度大于预设阈值时，确定待分析舆情数据的语义观点为“侧方盲区辅助失效”。

在一些示例中，待分析舆情数据包括一个或者多个短句，不同的短句所表达的观点可能存在差异。这样在根据相似度，确定待分析舆情数据对应的语义观点时，每个短句可能对应一个语义观点。如此，在根据相似度，确定待分析舆情数据对应的语义观点时，需要确定待分析舆情数据中包含的每个短句对应的语义观点，之后通过将每个短句对应的语义观点进行汇总，就可以得到对应该待分析舆情数据的语义观点。如，在待分析舆情数据中仅包含一个短句的情况下，需要根据该短句中包含的每个分词的实际词向量，确定该短句对应的理论词向量。之后，将理论词向量与目标词向量进行语义匹配，确定理论词向量与目标词向量的相似度。因此，该待分析舆情数据对应的语义观点为该短句对应的语义观点。在待分析舆情数据中包含多个短句的情况下，该待分析舆情数据对应的语义观点为每个短句对应的语义观点。

具体的，相似度越大，表示待分析舆情数据所表达的观点与语义观点的匹配程度越高。因此，在根据相似度，确定待分析舆情数据的语义观点时，可以设置预设阈值(如：0.8)。当相似度大于预设阈值时，表示待分析舆情数据所表达的观点与语义观点相同。如：待分析舆情数据为“辅助驾驶不能使用”，此时通过本公开实施例提供的数据分类方法，确定“辅助驾驶不能使用”对应的理论词向量与语义观点“无法启动辅助驾驶”对应的目标词向量之间的相似度大于预设阈值。因此，可以确定待分析舆情数据为“辅助驾驶不能使用”的语义观点为“无法启动辅助驾驶”。

又或者，待分析舆情数据为“侧方盲区辅助不能用了”，此时通过本公开实施例提供的数据分类方法，确定“侧方盲区辅助不能用了”对应的理论词向量与语义观点“侧方盲区辅助失效”对应的目标词向量之间的相似度大于预设阈值。因此，可以确定待分析舆情数据为“侧方盲区辅助不能用了”的语义观点为“侧方盲区辅助失效”。

又或者，待分析舆情数据为“无法启动辅助驾驶，而且侧方盲区辅助不能用了”，此时通过本公开实施例提供的数据分类方法，确定短句“辅助驾驶不能使用”对应的理论词向量与语义观点“无法启动辅助驾驶”对应的目标词向量之间的相似度大于预设阈值。因此，可以确定短句“辅助驾驶不能使用”的语义观点为“无法启动辅助驾驶”。同时，确定短句“侧方盲区辅助不能用了”对应的理论词向量与语义观点“侧方盲区辅助失效”对应的目标词向量之间的相似度大于预设阈值。因此，可以确定短句“侧方盲区辅助不能用了”的语义观点为“侧方盲区辅助失效”。

之后，可以确定待分析舆情数据为“无法启动辅助驾驶，而且侧方盲区辅助不能用了”对应的语义观点为：短句“辅助驾驶不能使用”的语义观点为“无法启动辅助驾驶”，短句“侧方盲区辅助不能用了”的语义观点为“侧方盲区辅助失效”。

可以看出，采用本公开实施例提供的数据分类方法对待分析舆情数据进行分类时，可以准确地对每个待分析舆情数据进行分类，提高了舆情数据的分析效率。

由上述可知，采用本公开实施例提供的数据分类方法对待分析舆情数据进行分析时，无需人工去逐一标注待分析舆情数据的分类结果，这样可以大大提高待分析舆情数据的语义观点的分析效率，解决了现有技术中在对舆情数据进行分析时，需要人工逐一去分析舆情数据，这样导致舆情数据的分析效率较低的问题。

在一些可实施的示例中，结合图1，如图2所示，本公开实施例提供的数据分类方法中在执行S11前，还需执行S15-S19，已获得预先配置的词向量模型。

S15、获取训练舆情数据。

在一些示例中，训练舆情数据，可以是舆情系统采集的历史数据，由于历史数据中已人工标注了语义观点和功能分类。因此，可以用于对文本分类模型的训练。

S16、对训练舆情数据进行分词处理，确定至少一个理论分词。

在一些示例中，可以采用自然语言处理(Natural Language Processing，NLP)对训练舆情数据进行分词处理，确定至少一个理论分词。

需要说明的是，上述示例是以采用NLP对训练舆情数据进行分词处理，确定至少一个理论分词为例进行说明的。在其他的一些示例中，还可以采用正向最大匹配法，反向最大匹配法等对训练舆情数据进行分词处理，确定至少一个理论分词，此处不做限定。

S17、对理论分词进行数据预处理，确定至少一个实际分词。其中，数据预处理包括特殊字符处理、停用词处理和大小写转换中的一项或者多项，实际分词为理论分词中的任一个。

在一些示例中，由于训练舆情数据中还可能包括表情符号、标点符号、停用词等与语义观点无关的数据。因此，需要对训练舆情数据进行数据预处理，这样可以保证得到的语义观点的准确性。如：通过对理论分词进行特殊字符处理，从而可以剔除理论分词中的特殊字符。又或者，通过对理论分词进行停用词处理，从而可以剔除理论分词中的停用词。又或者，通过对理论分词进行大小写转换，从而保证输入至文本分类模型中的字符的大小写统一，保证得到的词向量模型的识别准确性。

S18、将至少一个实际分词输入至文本分类模型中，确定每个实际分词的预测词向量。

具体的，文本分类模型可以是FastText、TextCNN和TextRNN中的任一个，本公开不做限定。

S19、在预测词向量与实际分词对应的实际词向量不同的情况下，对文本分类模型的网络参数进行调整，直至文本分类模型收敛，得到词向量模型。

这样，可以直接将待分析舆情数据输入至预先配置的词向量模型中，确定每个分词的实际词向量，保证用户的体验。

具体的，可以基于目标损失函数对文本分类模型的网络参数进行调整。

在一些可实施的示例中，结合图1，如图3所示，上述S12具体可以通过下述S120和S121实现。

S120、对待分析舆情数据进行分词，确定待分析舆情数据中包含的至少一个分词。

S121、将至少一个分词输入至预先配置的词向量模型，确定至少一个分词中每个分词的实际词向量。

在一些可实施的示例中，结合图1，如图4所示，上述S13具体可以通过下述S130实现。

S130、根据实际词向量与每个目标词向量的余弦相似度(Cosine similarity)，确定实际词向量与每个目标词向量的相似度。

具体的，实际词向量与目标词向量的相似度等于实际词向量与目标词向量的余弦相似度。

在一些可实施的示例中，结合图1，如图5所示，上述S13具体可以通过下述S131实现。

S131、根据实际词向量与每个目标词向量的之间的目标距离，确定实际词向量与每个目标词向量的相似度。其中，目标距离包括欧氏距离(Euclidean)和曼哈顿距离(Manhattan distance)中的任一项。

具体的，实际词向量与目标词向量的相似度等于实际词向量与目标词向量的欧氏距离。或者，实际词向量与目标词向量的相似度等于实际词向量与目标词向量的曼哈顿距离。

在一些可实施的示例中，结合图1，如图6所示，上述S13具体可以通过下述S132实现。

S132、根据实际词向量与每个目标词向量的之间的皮尔逊相关系数，确定实际词向量与每个目标词向量的相似度。

具体的，实际词向量与目标词向量的相似度等于实际词向量与目标词向量的皮尔逊相关系数。

在一些可实施的示例中，分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；结合图1，如图7所示，上述S14具体可以通过下述S140实现。

S140、根据相似度，确定相似度中仅存在一个大于预设阈值的相似度时，确定待分析舆情数据对应的功能分类为指定分类。其中，指定分类为大于预设阈值的相似度对应的标签关键词归属的功能分类。

在一些示例中，结合上述S14给出的示例，待分析舆情数据包括一个或者多个短句，每个短句中包含一个或者多个分词。对于一个短句而言，需要确定出该短句包含的每个分词的实际词向量与每个目标词向量的相似度。当该短句中，存在一个大于预设阈值的相似度时，确定该短句的功能分类为该大于预设阈值的相似度对应的标签关键词所归属的功能分类。

在一些可实施的示例中，分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；结合图1，如图8所示，上述S14具体可以通过下述S141和S142实现。

S141、根据相似度，确定相似度中仅存在多个大于预设阈值的相似度时，获取多个大于预设阈值的相似度中的最大相似度。

在一些示例中，结合上述S14给出的示例，待分析舆情数据包括一个或者多个短句，每个短句中包含一个或者多个分词。对于一个短句而言，需要确定出该短句包含的每个分词的实际词向量与每个目标词向量的相似度。当该短句中，存在多个大于预设阈值的相似度时，需要确定多个大于预设阈值的相似度中的最大相似度。如：按照从大到小的顺序对多个大于预设阈值的相似度进行排序，从而确定最大相似度。之后，确定该短句的功能分类为该最大相似度对应的标签关键词所归属的功能分类。

S142、确定待分析舆情数据对应的功能分类为目标分类。其中，目标分类为最大相似度对应的标签关键词归属的功能分类。

在一些可实施的示例中，分类结果包括语义观点，目标词向量包括每个语义观点对应的词向量，不同语义观点对应的目标词向量不同；结合图1，如图9所示，在执行S11前，还需执行S20-S22。

S20、获取至少一个语义观点。

在一些示例中，服务器可以周期性地更新存储语义观点的数据库，这样可以保证能够对每个待分析舆情数据进行语义观点分类，保证舆情数据的分析效率。

S21、将每个语义观点输入至预先配置的词向量模型中，确定每个语义观点中每个分词的实际词向量。

S22、根据实际词向量，确定每个语义观点对应的目标词向量。

在一些示例中，一个语义观点中存在一个或者多个分词，通过将该语义观点输入至预先配置的词向量模型后，可以确定每个分词的实际词向量。由于单个分词的实际词向量并不能表示该语义观点。因此，需要根据该语义观点中每个分词的实际词向量，确定该语义观点的目标词向量。如：语义观点的目标词向量等于该语义观点中包含的每个分词的实际词向量的平均值。或者，语义观点的目标词向量等于该语义观点中包含的每个分词的实际词向量之和。

在一些可实施的示例中，待分析舆情数据包括至少一个短句；结合图1，如图10所示，上述S13具体可以通过下述S133和S134实现，上述S14具体可以通过下述S143和S144 实现。

S133、根据每个短句中包含的每个分词的实际词向量，确定每个短句的理论词向量。

具体的，理论词向量等于短句中包含的每个分词的实际词向量的平局值，或者理论词向量等于短句中包含的每个分词的实际词向量的和。

S134、将理论词向量与目标词向量进行语义匹配，确定每个理论词向量与目标词向量的相似度。

需要说明的是，将理论词向量与目标词向量进行语义匹配，确定每个理论词向量与目标词向量的相似度的过程，与将实际词向量与目标词向量进行语义匹配，确定实际词向量与目标词向量的相似度的过程相同，此处不再赘述。

S143、根据每个理论词向量与目标词向量的相似度，确定每个短句的语义观点。

S144、根据每个短句的语义观点，确定待分析舆情数据的语义观点。

具体的，电子设备为智能手机、个人计算机或者车载终端时执行本公开实施例所提供的文本数据分类方法的流程，与电子设备为服务器时执行本公开实施例所提供的文本数据分类方法的流程相同，此处不再赘述。

上述主要从方法的角度对本公开实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对数据分类装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图11所示，为本公开实施例提供的一种数据分类装置10的结构示意图。包括获取单元101和处理单元102。

获取单元，用于获取待分析舆情数据；处理单元，用于根据预先配置的词向量模型和获取单元获取的待分析舆情数据，确定待分析舆情数据中包含的每个分词的实际词向量；处理单元，还用于将实际词向量与目标词向量进行语义匹配，确定实际词向量与目标词向量的相似度；其中，不同的分类结果对应的目标词向量不同。处理单元，还用于根据相似度，确定待分析舆情数据的分类结果。

在一些可实施的示例中，预先配置的词向量模型的训练过程如下：获取单元，还用于获取训练舆情数据；其中，训练舆情数据中包括目标实体词；处理单元，还用于对获取单元获取的训练舆情数据进行分词处理，确定至少一个理论分词；处理单元，还用于对理论分词进行数据预处理，确定至少一个实际分词；其中，数据预处理包括特殊字符处理、停用词处理和大小写转换中的一项或者多项，实际分词为理论分词中的任一个；处理单元，还用于将至少一个实际分词输入至文本分类模型中，确定每个实际分词的预测词向量；处理单元，还用于在预测词向量与实际分词对应的实际词向量不同的情况下，对文本分类模型的网络参数进行调整，直至文本分类模型收敛，得到词向量模型。

在一些可实施的示例中，处理单元，具体用于对获取单元获取的待分析舆情数据进行分词，确定待分析舆情数据中包含的至少一个分词；处理单元，具体用于将至少一个分词输入至预先配置的词向量模型，确定至少一个分词中每个分词的实际词向量。

在一些可实施的示例中，处理单元，具体用于根据实际词向量与每个目标词向量的余弦相似度，确定实际词向量与每个目标词向量的相似度。

在一些可实施的示例中，处理单元，具体用于根据实际词向量与每个目标词向量的之间的目标距离，确定实际词向量与每个目标词向量的相似度；其中，目标距离包括欧氏距离和曼哈顿距离中的任一项。

在一些可实施的示例中，处理单元，具体用于根据实际词向量与每个目标词向量的之间的皮尔逊相关系数，确定实际词向量与每个目标词向量的相似度。

在一些可实施的示例中，分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；处理单元，具体用于根据相似度，确定相似度中仅存在一个大于预设阈值的相似度时，确定待分析舆情数据对应的功能分类为指定分类；其中，指定分类为大于预设阈值的相似度对应的标签关键词归属的功能分类。

在一些可实施的示例中，分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；处理单元，具体用于根据相似度，确定相似度中仅存在多个大于预设阈值的相似度时，获取多个大于预设阈值的相似度中的最大相似度；处理单元，具体用于确定待分析舆情数据对应的功能分类为目标分类；其中，目标分类为最大相似度对应的标签关键词归属的功能分类。

在一些可实施的示例中，分类结果包括语义观点，目标词向量包括每个语义观点对应的词向量，不同语义观点对应的目标词向量不同；获取单元，还用于获取至少一个语义观点；处理单元，还用于将每个获取单元获取的语义观点输入至预先配置的词向量模型中，确定每个语义观点中每个分词的实际词向量；处理单元，还用于根据实际词向量，确定每个语义观点对应的目标词向量。

在一些可实施的示例中，待分析舆情数据包括至少一个短句；处理单元，具体用于根据每个短句中包含的每个分词的实际词向量，确定每个短句的理论词向量；处理单元，具体用于将理论词向量与目标词向量进行语义匹配，确定每个理论词向量与目标词向量的相似度；处理单元，具体用于根据每个理论词向量与目标词向量的相似度，确定每个短句的语义观点；处理单元，具体用于根据每个短句的语义观点，确定待分析舆情数据的语义观点。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，其作用在此不再赘述。

当然，本公开实施例提供的数据分类装置10包括但不限于上述模块，例如数据分类装置10还可以包括存储单元103。存储单元103可以用于存储该写数据分类装置10的程序代码，还可以用于存储写数据分类装置10在运行过程中生成的数据，如写请求中的数据等。

图12为本公开实施例提供的一种电子设备20的结构示意图，如图12所示，该电子设备20可以包括：至少一个处理器51、存储器52、通信接口53和通信总线54。

下面结合图12对电子设备20的各个构成部件进行具体的介绍：

其中，处理器51是电子设备20的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器51是一个中央处理器(Central Processing Unit，CPU)，也可以是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本公开实施例的一个或多个集成电路，例如：一个或多个DSP，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)。

在具体的实现中，作为一种实施例，处理器51可以包括一个或多个CPU，例如图12中所示的CPU0和CPU1。且，作为一种实施例，电子设备20可以包括多个处理器，例如图 12中所示的处理器51和处理器55。这些处理器中的每一个可以是一个单核处理器 (Single-CPU)，也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器52可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器52可以是独立存在，通过通信总线54与处理器51相连接。存储器52也可以和处理器51集成在一起。

在具体的实现中，存储器52，用于存储本公开中的数据和执行本公开的软件程序。处理器51可以通过运行或执行存储在存储器52内的软件程序，以及调用存储在存储器52内的数据，执行空调器的各种功能。

通信接口53，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如无线接入网(Radio Access Network，RAN)，无线局域网(Wireless Local Area Networks，WLAN)、终端、云端等。通信接口53可以包括获取单元101，以实现获取功能。

通信总线54，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

为一个示例，结合图11，数据分类装置10中的获取单元101实现的功能与图12中的通信接口53的功能相同，数据分类装置10中的处理单元102实现的功能与图12中的处理器51的功能相同，数据分类装置10中的存储单元103实现的功能与图12中的存储器52 的功能相同。

本公开另一实施例还提供一种计算机可读存储介质，包括：计算机可读存储介质上存储有计算机程序，当计算机程序被计算设备执行时，使得计算设备执行上述方法实施例所示的方法。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

图13示意性地示出本公开实施例提供的计算机程序产品的概念性局部视图，所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。

在一个实施例中，计算机程序产品是使用信号承载介质410来提供的。所述信号承载介质410可以包括一个或多个程序指令，其当被一个或多个处理器运行时可以提供以上针对图1描述的功能或者部分功能。因此，例如，参考图1中所示的实施例，S11-S14的一个或多个特征可以由与信号承载介质410相关联的一个或多个指令来承担。此外，图13中的程序指令也描述示例指令。

在一些示例中，信号承载介质410可以包含计算机可读介质411，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等等。

在一些实施方式中，信号承载介质410可以包含计算机可记录介质412，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中，信号承载介质410可以包含通信介质413，诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质410可以由无线形式的通信介质413(例如，遵守IEEE 802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是，例如，计算机可执行指令或者逻辑实施指令。

在一些示例中，诸如针对图12描述的电子设备20可以被配置为，响应于通过计算机可读介质411、计算机可记录介质412、和/或通信介质413中的一个或多个程序指令，提供各种操作、功能、或者动作。

本公开的其他实施例还提供一种车辆，包括如上所述数据分类装置或电子设备，或者车辆的控制器可以用来执行如上所述的数据分类方法。作为其他实施例，上述执行的服务器可以为云端服务器。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据分类方法，其特征在于，包括：

获取待分析舆情数据；

根据预先配置的词向量模型，确定所述待分析舆情数据中包含的每个分词的实际词向量；

将所述实际词向量与目标词向量进行语义匹配，确定所述实际词向量与所述目标词向量的相似度；

根据所述相似度，确定所述待分析舆情数据的分类结果,其中，不同的分类结果对应的目标词向量不同。

2.根据权利要求1所述的数据分类方法，其特征在于，所述预先配置的词向量模型的训练过程如下：

获取训练舆情数据；

对所述训练舆情数据进行分词处理，确定至少一个理论分词；

对所述理论分词进行数据预处理，确定至少一个实际分词；其中，所述数据预处理包括特殊字符处理、停用词处理和大小写转换中的一项或者多项，所述实际分词为所述理论分词中的任一个；

将所述至少一个实际分词输入至文本分类模型中，确定每个所述实际分词的预测词向量；

在所述预测词向量与所述实际分词对应的实际词向量不同的情况下，对所述文本分类模型的网络参数进行调整，直至所述文本分类模型收敛，得到所述词向量模型。

3.根据权利要求1所述的文本数据分类方法，其特征在于，所述根据预先配置的词向量模型，确定所述待分析舆情数据中包含的每个分词的实际词向量，包括：

对所述待分析舆情数据进行分词，确定所述待分析舆情数据中包含的至少一个分词；

将所述至少一个分词输入至预先配置的词向量模型，确定所述至少一个分词中每个分词的实际词向量。

4.根据权利要求1所述的数据分类方法，其特征在于，所述将所述实际词向量与目标词向量进行语义匹配，确定所述实际词向量与所述目标词向量的相似度，包括：

根据所述实际词向量与每个所述目标词向量的余弦相似度，确定所述实际词向量与每个所述目标词向量的相似度；或

根据所述实际词向量与每个所述目标词向量的之间的目标距离，确定所述实际词向量与每个所述目标词向量的相似度；或

根据所述实际词向量与每个所述目标词向量的之间的皮尔逊相关系数，确定所述实际词向量与每个所述目标词向量的相似度。

5.根据权利要求1所述的数据分类方法，其特征在于，所述分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；

所述根据所述相似度，确定所述待分析舆情数据的分类结果，包括：

根据所述相似度，确定所述相似度中仅存在一个大于预设阈值的相似度时，确定所述待分析舆情数据对应的功能分类为指定分类；其中，所述指定分类为所述大于预设阈值的相似度对应的标签关键词归属的功能分类。

6.根据权利要求1所述的数据分类方法，其特征在于，所述分类结果包括功能分类，一个功能分类对应一个或者多个标签关键词，一个标签关键词对应一个目标词向量；

根据所述相似度，确定所述相似度中仅存在多个大于预设阈值的相似度时，获取所述多个大于预设阈值的相似度中的最大相似度；

确定所述待分析舆情数据对应的功能分类为目标分类；其中，所述目标分类为所述最大相似度对应的标签关键词归属的功能分类。

7.根据权利要求1所述的数据分类方法，其特征在于，所述分类结果包括语义观点，所述目标词向量包括每个语义观点对应的词向量，不同语义观点对应的目标词向量不同；

所述获取待分析舆情数据前，所述方法还包括：

获取至少一个语义观点；

将每个所述语义观点输入至所述预先配置的词向量模型中，确定每个所述语义观点中每个分词的实际词向量；

根据所述实际词向量，确定每个所述语义观点对应的目标词向量。

8.根据权利要求7所述的数据分类方法，其特征在于，所述待分析舆情数据包括至少一个短句；

所述将所述实际词向量与目标词向量进行语义匹配，确定所述实际词向量与所述目标词向量的相似度，包括：

根据每个所述短句中包含的每个分词的实际词向量，确定每个所述短句的理论词向量；

将所述理论词向量与目标词向量进行语义匹配，确定每个所述理论词向量与所述目标词向量的相似度；

根据每个所述理论词向量与所述目标词向量的相似度，确定每个所述短句的语义观点；

根据每个所述短句的语义观点，确定所述待分析舆情数据的语义观点。

9.一种数据分类装置，其特征在于，包括：

获取单元，用于获取待分析舆情数据；

处理单元，用于将所述获取单元获取的所述待分析舆情数据输入至预先配置的词向量模型中，确定每个分词的实际词向量；

所述处理单元，还用于将所述实际词向量与目标词向量进行语义匹配，确定所述实际词向量与每个所述目标词向量的相似度；

所述处理单元，还用于根据所述相似度，确定所述待分析舆情数据的分类结果，其中，不同的分类结果对应的目标词向量不同。

10.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在执行计算机程序时，使得所述电子设备实现权利要求1-8任一项所述的数据分类方法。

11.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被计算设备执行时，使得所述计算设备实现权利要求1-8任一项所述的数据分类方法。

12.一种车辆，其特征在于，包括如权利要求9所述的数据分类装置。