CN107958270B

CN107958270B - 类别识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN107958270B
Application number: CN201711271261.7A
Authority: CN
Inventors: 郁延书; 龚建
Original assignee: Beijing Xiaodu Information Technology Co Ltd
Current assignee: Beijing Xiaodu Information Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2020-07-31
Anticipated expiration: 2037-12-05
Also published as: CN107958270A

Abstract

本公开实施例公开了一种类别识别方法、装置、电子设备及计算机可读存储介质，所述方法包括：获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；根据所述系统对象类别识别模型对测试对象进行类别识别。本公开实施例提供的技术方案，脱离了对于人工标注的依赖，能够对于系统对象进行自动类别识别，且能够取得较高的类别识别准确率，该方案省时省力，维护成本低，准确率高，能够实现为用户提供精准服务的目标，进而增强用户体验。

Description

类别识别方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及信息处理技术领域，具体涉及一种类别识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的发展，越来越多的商户或者服务提供商通过互联网渠道来推广产品和服务，并力求在推广产品和服务的基础上争取更多的用户订单，以提升现有资源的利用率，为商户或者服务提供商创造更多的价值。为了能够为用户提供更为精准的服务，互联网平台对于其能够提供的服务均进行了分类，但目前，这些分类基本都是依靠人工标注完成，在数据量巨大且呈迅速增长趋势的情况下，这样人工分类的方式不仅耗时耗力、维护成本高，而且还存在准确率低下的缺陷，这样就不能够实现为用户提供精准服务的目标，进而还会削弱用户体验。

发明内容

本公开实施例提供一种类别识别方法、装置、电子设备及计算机可读存储介质。

第一方面，本公开实施例中提供了一种类别识别方法。

具体的，所述类别识别方法，包括：

获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；

对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；

根据所述系统对象类别识别模型对测试对象进行类别识别。

结合第一方面，本公开在第一方面的第一种实现方式中，所述获取系统对象类别训练数据集，包括：

获取第一预设历史时间段内已分类系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种；

对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；

将具有评价类别的系统对象数据作为系统对象类别训练数据，生成所述系统对象类别训练数据集。

结合第一方面，本公开在第一方面的第一种实现方式中，所述对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别，包括：

统计具有同一源属性且具有同一类别的系统对象的数量；

按照数量的大小确定相应类别的评价分值；

将评价分值高于预设评价阈值的类别确定为该源属性所有系统对象的评价类别。

结合第一方面，本公开在第一方面的第一种实现方式中，所述对系统对象类别训练数据集进行训练，得到系统对象类别识别模型，包括：

提取系统对象类别训练数据的训练特征；

根据训练数据的类型和识别结果目标类型确定分类函数；

基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。

结合第一方面，本公开在第一方面的第一种实现方式中，所述提取系统对象类别训练数据的训练特征，包括：

基于系统对象类别训练数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；

基于所有系统对象对应的训练特征向量生成所述训练特征。

结合第一方面，本公开在第一方面的第一种实现方式中，所述根据所述系统对象类别识别模型对测试对象进行类别识别，包括：

获取测试对象的特征数据；

将所述测试对象的特征数据输入至所述系统对象类别识别模型，得到对于测试对象的类别识别结果。

结合第一方面，本公开在第一方面的第一种实现方式中，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。

结合第一方面，本公开在第一方面的第一种实现方式中，所述获取测试对象的特征数据，包括：

基于测试对象数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为测试特征向量；

基于所有系统对象对应的测试特征向量生成所述测试对象的特征数据。

第二方面，本公开实施例中提供了一种类别识别装置。

具体的，所述类别识别装置，包括：

获取模块，被配置为获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；

训练模块，被配置为对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；

识别模块，被配置为根据所述系统对象类别识别模型对测试对象进行类别识别。

结合第二方面，本公开在第二方面的第一种实现方式中，所述获取模块包括：

第一获取子模块，被配置为获取第一预设历史时间段内已分类系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种；

评价子模块，被配置为对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；

生成子模块，被配置为将具有评价类别的系统对象数据作为系统对象类别训练数据，生成所述系统对象类别训练数据集。

结合第二方面，本公开在第二方面的第一种实现方式中，所述评价子模块包括：

统计单元，被配置为统计具有同一源属性且具有同一类别的系统对象的数量；

第一确定单元，被配置为按照数量的大小确定相应类别的评价分值；

第二确定单元，被配置为将评价分值高于预设评价阈值的类别确定为该源属性所有系统对象的评价类别。

结合第二方面，本公开在第二方面的第一种实现方式中，所述训练模块包括：

提取子模块，被配置为提取系统对象类别训练数据的训练特征；

第一确定子模块，被配置为根据训练数据的类型和识别结果目标类型确定分类函数；

第二确定子模块，被配置为基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。

结合第二方面，本公开在第二方面的第一种实现方式中，所述提取子模块包括：

第三确定单元，被配置为基于系统对象类别训练数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

第一提取单元，被配置为从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；

第一生成单元，被配置为基于所有系统对象对应的训练特征向量生成所述训练特征。

结合第二方面，本公开在第二方面的第一种实现方式中，所述识别模块包括：

第二获取子模块，被配置为获取测试对象的特征数据；

识别子模块，被配置为将所述测试对象的特征数据输入至所述系统对象类别识别模型，得到对于测试对象的类别识别结果。

结合第二方面，本公开在第二方面的第一种实现方式中，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。

结合第二方面，本公开在第二方面的第一种实现方式中，所述第二获取子模块包括：

第四确定单元，被配置为基于测试对象数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

第二提取单元，被配置为从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为测试特征向量；

第二生成单元，被配置为基于所有系统对象对应的测试特征向量生成所述测试对象的特征数据。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持类别识别装置执行上述第一方面中类别识别方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述类别识别装置还可以包括通信接口，用于类别识别装置与其他设备或通信网络通信。

第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储类别识别装置所用的计算机指令，其包含用于执行上述第一方面中类别识别方法为类别识别装置所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

上述技术方案，通过筛选优质类别训练数据，提取有助于进行类别识别的训练特征，训练得到有效类别识别模型，进而得到测试对象的类别识别结果。上述技术方案脱离了对于人工标注的依赖，能够对于系统对象进行自动类别识别，且能够取得较高的类别识别准确率，该方案省时省力，维护成本低，准确率高，能够实现为用户提供精准服务的目标，进而增强用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的类别识别方法的流程图；

图2示出根据图1所示实施方式的步骤S101的流程图；

图3示出根据图2所示实施方式的步骤S202的流程图；

图4示出根据图1所示实施方式的步骤S102的流程图；

图5示出根据图4所示实施方式的步骤S401的流程图；

图6示出根据图1所示实施方式的步骤S103的流程图；

图7示出根据图6所示实施方式的步骤S601的流程图；

图8示出根据本公开一实施方式的类别识别装置的结构框图；

图9示出根据图8所示实施方式的获取模块801的结构框图；

图10示出根据图9所示实施方式的评价子模块902的结构框图；

图11示出根据图8所示实施方式的训练模块802的结构框图；

图12示出根据图11所示实施方式的提取子模块1101的结构框图；

图13示出根据图8所示实施方式的识别模块803的结构框图；

图14示出根据图13所示实施方式的第二获取子模块1301的结构框图；

图15示出根据本公开一实施方式的电子设备的结构框图；

图16是适于用来实现根据本公开一实施方式的类别识别方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

本公开实施例提供的技术方案，通过筛选优质类别训练数据，提取有助于进行类别识别的训练特征，训练得到有效类别识别模型，进而得到测试对象的类别识别结果。上述技术方案脱离了对于人工标注的依赖，能够对于系统对象进行自动类别识别，且能够取得较高的类别识别准确率，该方案省时省力，维护成本低，准确率高，能够实现为用户提供精准服务的目标，进而增强用户体验。

图1示出根据本公开一实施方式的类别识别方法的流程图。如图1所示，所述类别识别方法包括以下步骤S101-S103：

在步骤S101中，获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；

在步骤S102中，对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；

在步骤S103中，根据所述系统对象类别识别模型对测试对象进行类别识别。

考虑到人工标注类别耗时耗力、维护成本高，而且还存在准确率低下的缺陷，本公开实施例提供一种能够自动识别系统对象类别的方法。在本公开一实施方式中，首先获取系统对象类别训练数据集，其中，所述系统对象可以是系统平台中为用户提供服务的对象，比如，可以是电商平台中的某些或者全部商户；然后对于所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；最后根据所述系统对象类别识别模型对测试对象进行类别识别。

本实施方式的技术方案通过训练得到的模型对系统对象的类别进行自动识别，从而脱离了对于人工标注的依赖，该方案省时省力，维护成本低，准确率高，能够实现为用户提供精准服务的目标，进而增强用户体验。

在本实施例的一个可选实现方式中，如图2所示，所述步骤S101，即获取系统对象类别训练数据集的步骤，包括步骤S201-S203：

在步骤S201中，获取第一预设历史时间段内已分类系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种；

在步骤S202中，对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；

在步骤S203中，将具有评价类别的系统对象数据作为系统对象类别训练数据，生成所述系统对象类别训练数据集。

在该实现方式中，首先获取第一预设历史时间段内已经过分类的系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种，比如，对于一个餐饮订购平台来说，系统对象就是在这个平台上能够为用户提供餐饮服务的商户；对象名称就是这个商户的具体名称，比如全聚德某分店、东来顺某分店、肯德基某分店等等；对象类别就是这个商户所提供服务的类别，比如传统小吃、家常小炒、盖饭、火锅、西餐、自助餐、速食等等；源属性即为多个系统对象所共有的属性，比如，全聚德望京店、全聚德前门店、全聚德奥运村店等这些系统对象均是全聚德，只是店面位置不同，也即全聚德望京店、全聚德前门店、全聚德奥运村店这些系统对象的源属性为全聚德；产品名称就是该商户能够出售的菜品；产品产出量就是某一菜品的销售量。

其中，所述第一预设历史时间段可根据实际应用的需要进行选择，比如可选为最近1年的时间等等，本公开对其不作具体限定。

然后，对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；最后，将具有评价类别的系统对象数据作为系统对象类别训练数据，组成所述系统对象类别训练数据集。

上述实现方式通过对于系统对象的类别进行评价，筛选出优质的类别训练数据组成系统对象类别训练数据集，从而进一步提高了系统对象类别识别模型的鲁棒性，提高了对于测试对象进行类别识别的准确率。

在本实施例的一个可选实现方式中，如图3所示，所述步骤S202，即对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别的步骤，包括步骤S301-S303：

在步骤S301中，统计具有同一源属性且具有同一类别的系统对象的数量；

在步骤S302中，按照数量的大小确定相应类别的评价分值；

在步骤S303中，将评价分值高于预设评价阈值的类别确定为该源属性所有系统对象的评价类别。

在该实现方式中，首先统计具有同一源属性且具有同一类别的系统对象的数量，然后按照数量的大小对于相应类别进行评价，最后将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别。

在统计具有同一源属性且具有同一类别的系统对象的数量时，首先统计具有同一源属性的所有系统对象的已标注类别信息，然后确定同一源属性的系统对象信息，然后基于已标注类别信息统计生成包括同一源属性且具有同一类别的系统对象的数量的已标注类别词典。

在按照数量的大小确定相应类别的评价分值时，遵循数量越大评价分值就越高的原则。

在将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别时，可选择评价分值最高的一个类别作为该源属性所有系统对象的评价类别，或者根据实际应用的需要，也可以选择评价分值最高的两个类别。

以餐饮订购平台中全聚德旗下所有分店的类别统计为例，首先统计全聚德旗下所有分店已标注类别信息，得到全聚德所有分店的类别向量C＝{c₁,c₂,...,c_m}，其中，c_i(i＝1…m)表示第i个分店的已标注类别，m表示已标注类别数量；然后确定全聚德旗下所有分店标识向量S＝{s₁,s₂,...,s_n}，其中，s_i(i＝1…n)表示第i个分店，n表示分店的数量；基于类别向量C生成全聚德已标注类别词典D＝{c₁:n₁,c₂:n₂,...,c_m:n_m}，其中，n_i(i＝1…m)表示第i个类别的数量，存在：n₁+n₂+...+n_m＝n；然后对于每个类别的数量按照从大到小的顺序进行排序，数量最大的那个类别给予最高的评价分值；最后选择评价分值最高的那个类别作为全聚德所有分店的评价类别。

其中，对于评价分值的具体取值，本领域技术人员可根据实际应用的需要进行选择，本公开对其不作具体限定。

在本实施例的一个可选实现方式中，如图4所示，所述步骤S102，即对系统对象类别训练数据集进行训练，得到系统对象类别识别模型的步骤，包括步骤S401-S403：

在步骤S401中，提取系统对象类别训练数据的训练特征；

在步骤S402中，根据训练数据的类型和识别结果目标类型确定分类函数；

在步骤S403中，基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。

在该实现方式中，在训练系统对象类别识别模型时，首先提取系统对象类别训练数据的训练特征；然后根据训练数据的类型和识别结果目标类型确定分类函数，比如，对于餐饮订购平台，由于可选的商户类别很多，因此各商户类别的识别属于一个多分类任务，那么在分类函数的选择上，应选择能够处理多分类任务的学习分类函数，比如多分类逻辑回归模型；最后基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。

在利用多分类逻辑回归模型进行分类学习时，考虑到商户的类别共有m个，因此可采用“拆解法”进行类别识别的学习，即将多分类任务拆分为m个二分类任务进行求解，也就是说，每次将训练数据集中属于m个类别中的一个类别的训练数据作为正样本，所有属于其他类别的训练数据作为负样本进行训练，这样就得到了m个二分类模型。

在本实施例的一个可选实现方式中，如图5所示，所述步骤S401，即提取系统对象类别训练数据的训练特征的步骤，包括步骤S501-S503：

在步骤S501中，基于系统对象类别训练数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

在步骤S502中，从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；

在步骤S503中，基于所有系统对象对应的训练特征向量生成所述训练特征。

在该实现方式中，首先基于系统对象类别训练数据确定包括有每一系统对象每一产品的产出数量的系统对象产出词典；然后从系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；最后将所有系统对象对应的训练特征向量组成训练特征。

以餐饮订购平台为例，首先基于之前得到的各商户的类别训练数据得到商户产出词典：

OrderDict＝{wid₁:{dish₁₁:order₁₁,dish₁₂:order₁₂,...},

wid₂:{dish₂₁:order₂₁,dish₂₂:order₂₂,...},...}，

其中，wid₁:{dish₁₁:order₁₁,dish₁₂:order₁₂,...}表示商户wid₁近一年来菜品dish₁₁的销售量为order₁₁，菜品dish₁₂的销售量为order₁₂，以此类推。

然后将商户产出词典转化为对应的训练特征向量，生成特征稀疏矩阵V＝[v₁,v₂,...]，其中v₁＝[order₁₁,order₁₂,...]由商户wid₁每个菜品的销售量组成，表示商户wid₁对应的产出字典转化得到的训练特征向量，以此类推。

在本实施例的一个可选实现方式中，如图6所示，所述步骤S103，即根据所述系统对象类别识别模型对测试对象进行类别识别的步骤，包括步骤S601-S602：

在步骤S601中，获取测试对象的特征数据；

在步骤S602中，将所述测试对象的特征数据输入至所述系统对象类别识别模型，得到对于测试对象的类别识别结果。

其中，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。

在本实施例的一个可选实现方式中，如图7所示，所述步骤S601，即获取测试对象的特征数据的步骤，包括步骤S701-S703：

在步骤S701中，基于测试对象数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

在步骤S702中，从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为测试特征向量；

在步骤S703中，基于所有系统对象对应的测试特征向量生成所述测试对象的特征数据。

依然以餐饮订购平台为例，在该实施方式中，取某一预设历史时间段内，比如近1个月内有过产品销售的商户作为测试对象，然后按照与上文中提取训练数据的训练特征类似的方式提取测试对象的测试特征，具体本公开在此不作赘述。

其中，所述第二预设历史时间段可根据实际应用的需要进行选择，本公开对其不作具体限定。

对于步骤S602，将所述测试对象的特征数据输入至之前训练得到的m个系统对象类别识别模型，比如m个二分类器模型，得到每个测试对象对于每个二分类器模型的识别置信度，选取识别置信度最大的那个类别作为该测试对象的类别识别结果。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图8示出根据本公开一实施方式的类别识别装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图8所示，所述类别识别装置包括：

获取模块801，被配置为获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；

训练模块802，被配置为对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；

识别模块803，被配置为根据所述系统对象类别识别模型对测试对象进行类别识别。

考虑到人工标注类别耗时耗力、维护成本高，而且还存在准确率低下的缺陷，本公开实施例提供一种能够自动识别系统对象类别的装置。在本公开一实施方式中，所述装置包括获取模块801、训练模块802和识别模块803，其中：获取模块801获取得到系统对象类别训练数据集，其中，所述系统对象可以是系统平台中为用户提供服务的对象，比如，可以是电商平台中的某些或者全部商户；训练模块802对于所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；识别模块803根据所述系统对象类别识别模型对测试对象进行类别识别。

在本实施例的一个可选实现方式中，如图9所示，所述获取模块801包括：

第一获取子模块901，被配置为获取第一预设历史时间段内已分类系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种；

评价子模块902，被配置为对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；

生成子模块903，被配置为将具有评价类别的系统对象数据作为系统对象类别训练数据，生成所述系统对象类别训练数据集。

在该实现方式中，第一获取子模块901获取第一预设历史时间段内已经过分类的系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种，比如，对于一个餐饮订购平台来说，系统对象就是在这个平台上能够为用户提供餐饮服务的商户；对象名称就是这个商户的具体名称，比如全聚德某分店、东来顺某分店、肯德基某分店等等；对象类别就是这个商户所提供服务的类别，比如传统小吃、家常小炒、盖饭、火锅、西餐、自助餐、速食等等；源属性即为多个系统对象所共有的属性，比如，全聚德望京店、全聚德前门店、全聚德奥运村店等这些系统对象均是全聚德，只是店面位置不同，也即全聚德望京店、全聚德前门店、全聚德奥运村店这些系统对象的源属性为全聚德；产品名称就是该商户能够出售的菜品；产品产出量就是某一菜品的销售量。

评价子模块902对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；生成子模块903将具有评价类别的系统对象数据作为系统对象类别训练数据，组成所述系统对象类别训练数据集。

在本实施例的一个可选实现方式中，如图10所示，所述评价子模块902包括：

统计单元1001，被配置为统计具有同一源属性且具有同一类别的系统对象的数量；

第一确定单元1002，被配置为按照数量的大小确定相应类别的评价分值；

第二确定单元1003，被配置为将评价分值高于预设评价阈值的类别确定为该源属性所有系统对象的评价类别。

在该实现方式中，统计单元1001统计具有同一源属性且具有同一类别的系统对象的数量，第一确定单元1002按照数量的大小对于相应类别进行评价，第二确定单元1003将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别。

在统计单元1001统计具有同一源属性且具有同一类别的系统对象的数量时，可以利用统计子单元统计具有同一源属性的所有系统对象的已标注类别信息，利用确定子单元确定同一源属性的系统对象信息，利用生成子单元基于已标注类别信息统计生成包括同一源属性且具有同一类别的系统对象的数量的已标注类别词典。

第一确定单元1002在按照数量的大小确定相应类别的评价分值时，可以遵循数量越大评价分值就越高的原则。

第二确定单元1003在将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别时，可选择评价分值最高的一个类别作为该源属性所有系统对象的评价类别，或者根据实际应用的需要，也可以选择评价分值最高的两个类别。

以餐饮订购平台中全聚德旗下所有分店的类别统计为例，统计单元1001统计全聚德旗下所有分店已标注类别信息，得到全聚德所有分店的类别向量C＝{c₁,c₂,...,c_m}，其中，c_i(i＝1…m)表示第i个分店的已标注类别，m表示已标注类别数量；然后确定全聚德旗下所有分店标识向量S＝{s₁,s₂,...,s_n}，其中，s_i(i＝1…n)表示第i个分店，n表示分店的数量；基于类别向量C生成全聚德已标注类别词典D＝{c₁:n₁,c₂:n₂,...,c_m:n_m}，其中，n_i(i＝1…m)表示第i个类别的数量，存在：n₁+n₂+...+n_m＝n；第一确定单元1002对于每个类别的数量按照从大到小的顺序进行排序，数量最大的那个类别给予最高的评价分值；第二确定单元1003选择评价分值最高的那个类别作为全聚德所有分店的评价类别。

在本实施例的一个可选实现方式中，如图11所示，所述训练模块802包括：

提取子模块1101，被配置为提取系统对象类别训练数据的训练特征；

第一确定子模块1102，被配置为根据训练数据的类型和识别结果目标类型确定分类函数；

第二确定子模块1103，被配置为基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。

在该实现方式中，在训练模块802训练系统对象类别识别模型时，利用提取子模块1101提取系统对象类别训练数据的训练特征；利用第一确定子模块1102根据训练数据的类型和识别结果目标类型确定分类函数，比如，对于餐饮订购平台，由于可选的商户类别很多，因此各商户类别的识别属于一个多分类任务，那么在分类函数的选择上，应选择能够处理多分类任务的学习分类函数，比如多分类逻辑回归模型；利用第二确定子模块1103基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。

在第一确定子模块1102和第二确定子模块1103利用多分类逻辑回归模型进行分类学习时，考虑到商户的类别共有m个，因此可采用“拆解法”进行类别识别的学习，即将多分类任务拆分为m个二分类任务进行求解，也就是说，每次将训练数据集中属于m个类别中的一个类别的训练数据作为正样本，所有属于其他类别的训练数据作为负样本进行训练，这样就得到了m个二分类模型。

在本实施例的一个可选实现方式中，如图12所示，所述提取子模块1101包括：

第三确定单元1201，被配置为基于系统对象类别训练数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

第一提取单元1202，被配置为从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；

第一生成单元1203，被配置为基于所有系统对象对应的训练特征向量生成所述训练特征。

在该实现方式中，利用第三确定单元1201基于系统对象类别训练数据确定包括有每一系统对象每一产品的产出数量的系统对象产出词典；利用第一提取单元1202从系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；利用第一生成单元1203将所有系统对象对应的训练特征向量组成训练特征。

以餐饮订购平台为例，第三确定单元1201基于之前得到的各商户的类别训练数据得到商户产出词典：

OrderDict＝{wid₁:{dish₁₁:order₁₁,dish₁₂:order₁₂,...},

wid₂:{dish₂₁:order₂₁,dish₂₂:order₂₂,...},...}，

第一提取单元1202将商户产出词典转化为对应的训练特征向量，第一生成单元1203基于训练特征向量生成特征稀疏矩阵V＝[v₁,v₂,...]，其中v₁＝[order₁₁,order₁₂,...]由商户wid₁每个菜品的销售量组成，表示商户wid₁对应的产出字典转化得到的训练特征向量，以此类推。

在本实施例的一个可选实现方式中，如图13所示，所述识别模块803包括：

第二获取子模块1301，被配置为获取测试对象的特征数据；

识别子模块1302，被配置为将所述测试对象的特征数据输入至所述系统对象类别识别模型，得到对于测试对象的类别识别结果。

在本实施例的一个可选实现方式中，如图14所示，所述第二获取子模块1301包括：

第四确定单元1401，被配置为基于测试对象数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；

第二提取单元1402，被配置为从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为测试特征向量；

第二生成单元1403，被配置为基于所有系统对象对应的测试特征向量生成所述测试对象的特征数据。

依然以餐饮订购平台为例，在该实施方式中，取某一预设历史时间段内，比如近1个月内有过产品销售的商户作为测试对象，第二获取子模块1301按照与上文中提取训练数据的训练特征类似的方式提取测试对象的测试特征，具体本公开在此不作赘述。

在识别子模块1302中，将所述测试对象的特征数据输入至之前训练得到的m个系统对象类别识别模型，比如m个二分类器模型，得到每个测试对象对于每个二分类器模型的识别置信度，选取识别置信度最大的那个类别作为该测试对象的类别识别结果。

本公开还公开了一种电子设备，图15示出根据本公开一实施方式的电子设备的结构框图，如图15所示，所述电子设备1500包括存储器1501和处理器1502；其中，

所述存储器1501用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1502执行以实现：

根据所述系统对象类别识别模型对测试对象进行类别识别。

所述一条或多条计算机指令还可被所述处理器1502执行以实现：

所述获取系统对象类别训练数据集，包括：

所述对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别，包括：

统计具有同一源属性且具有同一类别的系统对象的数量；

按照数量的大小确定相应类别的评价分值；

所述对系统对象类别训练数据集进行训练，得到系统对象类别识别模型，包括：

提取系统对象类别训练数据的训练特征；

根据训练数据的类型和识别结果目标类型确定分类函数；

所述提取系统对象类别训练数据的训练特征，包括：

基于所有系统对象对应的训练特征向量生成所述训练特征。

所述根据所述系统对象类别识别模型对测试对象进行类别识别，包括：

获取测试对象的特征数据；

所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。

所述获取测试对象的特征数据，包括：

图16适于用来实现根据本公开实施方式的类别识别方法的计算机系统的结构示意图。

如图16所示，计算机系统1600包括中央处理单元(CPU)1601，其可以根据存储在只读存储器(ROM)1602中的程序或者从存储部分1608加载到随机访问存储器(RAM)1603中的程序而执行上述图1-7所示的实施方式中的各种处理。在RAM1603中，还存储有系统1600操作所需的各种程序和数据。CPU1601、ROM1602以及RAM1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1607；包括硬盘等的存储部分1608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入存储部分1608。

特别地，根据本公开的实施方式，上文参考图1描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行图1-7的类别识别方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

本公开公开了A1、一种类别识别方法，所述方法包括：获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；根据所述系统对象类别识别模型对测试对象进行类别识别。A2、根据A1所述的方法，所述获取系统对象类别训练数据集，包括：获取第一预设历史时间段内已分类系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种；对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；将具有评价类别的系统对象数据作为系统对象类别训练数据，生成所述系统对象类别训练数据集。A3、根据A2所述的方法，所述对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别，包括：统计具有同一源属性且具有同一类别的系统对象的数量；按照数量的大小确定相应类别的评价分值；将评价分值高于预设评价阈值的类别确定为该源属性所有系统对象的评价类别。A4、根据A1所述的方法，所述对系统对象类别训练数据集进行训练，得到系统对象类别识别模型，包括：提取系统对象类别训练数据的训练特征；根据训练数据的类型和识别结果目标类型确定分类函数；基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。A5、根据A4所述的方法，所述提取系统对象类别训练数据的训练特征，包括：基于系统对象类别训练数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；基于所有系统对象对应的训练特征向量生成所述训练特征。A6、根据A1所述的方法，所述根据所述系统对象类别识别模型对测试对象进行类别识别，包括：获取测试对象的特征数据；将所述测试对象的特征数据输入至所述系统对象类别识别模型，得到对于测试对象的类别识别结果。A7、根据A1或A6所述的方法，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。A8、根据A6所述的方法，所述获取测试对象的特征数据，包括：基于测试对象数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为测试特征向量；基于所有系统对象对应的测试特征向量生成所述测试对象的特征数据。

本公开公开了B9、一种类别识别装置，所述装置包括：获取模块，被配置为获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；训练模块，被配置为对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；识别模块，被配置为根据所述系统对象类别识别模型对测试对象进行类别识别。B10、根据B9所述的装置，所述获取模块包括：第一获取子模块，被配置为获取第一预设历史时间段内已分类系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种；评价子模块，被配置为对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；生成子模块，被配置为将具有评价类别的系统对象数据作为系统对象类别训练数据，生成所述系统对象类别训练数据集。B11、根据B10所述的装置，所述评价子模块包括：统计单元，被配置为统计具有同一源属性且具有同一类别的系统对象的数量；第一确定单元，被配置为按照数量的大小确定相应类别的评价分值；第二确定单元，被配置为将评价分值高于预设评价阈值的类别确定为该源属性所有系统对象的评价类别。B12、根据B9所述的装置，所述训练模块包括：提取子模块，被配置为提取系统对象类别训练数据的训练特征；第一确定子模块，被配置为根据训练数据的类型和识别结果目标类型确定分类函数；第二确定子模块，被配置为基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。B13、根据B12所述的装置，所述提取子模块包括：第三确定单元，被配置为基于系统对象类别训练数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；第一提取单元，被配置为从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；第一生成单元，被配置为基于所有系统对象对应的训练特征向量生成所述训练特征。B14、根据B9所述的装置，所述识别模块包括：第二获取子模块，被配置为获取测试对象的特征数据；识别子模块，被配置为将所述测试对象的特征数据输入至所述系统对象类别识别模型，得到对于测试对象的类别识别结果。B15、根据B9或B14所述的装置，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。B16、根据B14所述的装置，所述第二获取子模块包括：第四确定单元，被配置为基于测试对象数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；第二提取单元，被配置为从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为测试特征向量；第二生成单元，被配置为基于所有系统对象对应的测试特征向量生成所述测试对象的特征数据。

本公开公开了C17、一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现：获取系统对象类别训练数据集，所述系统对象类别训练数据集中的系统对象数据具有评价类别；对所述系统对象类别训练数据集进行训练，得到系统对象类别识别模型；根据所述系统对象类别识别模型对测试对象进行类别识别。C18、根据C17所述的电子设备，所述获取系统对象类别训练数据集，包括：获取第一预设历史时间段内已分类系统对象数据，其中，所述系统对象数据包括：对象名称、对象类别、源属性、产品名称、产品产出量中的一种或多种；对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别；将具有评价类别的系统对象数据作为系统对象类别训练数据，生成所述系统对象类别训练数据集。C19、根据C18所述的电子设备，所述对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别，包括：统计具有同一源属性且具有同一类别的系统对象的数量；按照数量的大小确定相应类别的评价分值；将评价分值高于预设评价阈值的类别确定为该源属性所有系统对象的评价类别。C20、根据C17所述的电子设备，所述对系统对象类别训练数据集进行训练，得到系统对象类别识别模型，包括：提取系统对象类别训练数据的训练特征；根据训练数据的类型和识别结果目标类型确定分类函数；基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型。C21、根据C20所述的电子设备，所述提取系统对象类别训练数据的训练特征，包括：基于系统对象类别训练数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为训练特征向量；基于所有系统对象对应的训练特征向量生成所述训练特征。C22、根据C17所述的电子设备，所述根据所述系统对象类别识别模型对测试对象进行类别识别，包括：获取测试对象的特征数据；将所述测试对象的特征数据输入至所述系统对象类别识别模型，得到对于测试对象的类别识别结果。C23、根据C17或C22所述的电子设备，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。C24、根据C22所述的电子设备，所述获取测试对象的特征数据，包括：基于测试对象数据确定系统对象产出词典，其中，所述系统对象产出词典包括每一系统对象每一产品的产出数量；从所述系统对象产出词典中提取某一系统对象所有产品的产出数量作为测试特征向量；基于所有系统对象对应的测试特征向量生成所述测试对象的特征数据。

本公开还公开了D25、一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如A1-A8任一项所述的方法。

Claims

1.一种类别识别方法，其特征在于，所述方法包括：

根据所述系统对象类别识别模型对测试对象进行类别识别；

提取系统对象类别训练数据的训练特征；

根据训练数据的类型和识别结果目标类型确定分类函数；

基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型；

所述提取系统对象类别训练数据的训练特征，包括：

基于所有系统对象对应的训练特征向量生成所述训练特征。

2.根据权利要求1所述的方法，其特征在于，所述获取系统对象类别训练数据集，包括：

3.根据权利要求2所述的方法，其特征在于，所述对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别，包括：

统计具有同一源属性且具有同一类别的系统对象的数量；

按照数量的大小确定相应类别的评价分值；

4.根据权利要求1所述的方法，其特征在于，所述根据所述系统对象类别识别模型对测试对象进行类别识别，包括：

获取测试对象的特征数据；

5.根据权利要求1或4所述的方法，其特征在于，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。

6.根据权利要求4所述的方法，其特征在于，所述获取测试对象的特征数据，包括：

7.一种类别识别装置，其特征在于，所述装置包括：

识别模块，被配置为根据所述系统对象类别识别模型对测试对象进行类别识别；

所述训练模块包括：

第二确定子模块，被配置为基于训练数据训练确定所述分类函数的参数，得到所述系统对象类别识别模型；

所述提取子模块包括：

8.根据权利要求7所述的装置，其特征在于，所述获取模块包括：

9.根据权利要求8所述的装置，其特征在于，所述评价子模块包括：

10.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

第二获取子模块，被配置为获取测试对象的特征数据；

11.根据权利要求7或10所述的装置，其特征在于，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。

12.根据权利要求10所述的装置，其特征在于，所述第二获取子模块包括：

13.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现：

根据所述系统对象类别识别模型对测试对象进行类别识别；

提取系统对象类别训练数据的训练特征；

根据训练数据的类型和识别结果目标类型确定分类函数；

所述提取系统对象类别训练数据的训练特征，包括：

基于所有系统对象对应的训练特征向量生成所述训练特征。

14.根据权利要求13所述的电子设备，其特征在于，所述获取系统对象类别训练数据集，包括：

15.根据权利要求14所述的电子设备，其特征在于，所述对具有同一源属性的系统对象的类别进行评价，将评价分值高于预设评价阈值的类别作为该源属性所有系统对象的评价类别，包括：

统计具有同一源属性且具有同一类别的系统对象的数量；

按照数量的大小确定相应类别的评价分值；

16.根据权利要求13所述的电子设备，其特征在于，所述根据所述系统对象类别识别模型对测试对象进行类别识别，包括：

获取测试对象的特征数据；

17.根据权利要求13或16所述的电子设备，其特征在于，所述测试对象包括：第二预设历史时间段内产品产出数量高于预设数量阈值的系统对象。

18.根据权利要求16所述的电子设备，其特征在于，所述获取测试对象的特征数据，包括：

19.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如权利要求1-6任一项所述的方法。