CN108053251A

CN108053251A - 信息处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN108053251A
Application number: CN201711368757.6A
Authority: CN
Inventors: 姜谷雨
Original assignee: Beijing Xiaodu Information Technology Co Ltd
Current assignee: Beijing Xiaodu Information Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-05-18
Anticipated expiration: 2037-12-18
Also published as: CN108053251B

Abstract

本公开实施例公开了一种信息处理方法、装置、电子设备及计算机可读存储介质，所述方法包括：获取用户类别训练数据集，其中，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的；获取待测用户的待测用户数据集；对所述用户类别训练数据集进行训练，得到信息处理模型；将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测。从而不需要不断维护用户分类规则，而是只需要维护信息处理模型就可以对待测用户进行分类，因此便于维护，并且提高了待测用户分类的准确性和覆盖度。

Description

信息处理方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及数据挖掘技术领域，具体涉及一种信息处理方法、装置及电子设备。

背景技术

随着信息技术的发展，互联网已经深入到各个领域。网络上出现了众多的购物平台、外卖平台、租房平台、打车平台等信息平台。这些信息平台上的信息、产品或服务的提供方(简称为商户)会提供各种各样的信息、产品或服务。这些信息、产品或服务种类繁多，信息量大，且经常变化，若要从中挖掘出有价值的内容并非易事。

而且，信息平台对用户的个性化推荐需要依靠商户画像的刻画，而商户画像中该商户所提供的产品和服务的类别是最重要的指标之一，根据商户在信息平台上的信息，挖掘商户产品和服务的类别可以提高信息平台的用户的体验度和下单转化率。

发明内容

在实际应用中，发明人发现：相关技术中，信息平台对商户(目标用户)的产品和服务的类别挖掘主要依赖人工制定规则匹配出产品和服务的类别，对匹配的结果计数并排序，最后筛选出产品和服务的项目最多的类别为商户类别。但是，在人工制定类别匹配规则时，前期需要花大量人力收集产品和服务对应的类别映射关系并且类别匹配规则维护性不佳。此外，因为无法穷举所有产品和服务的类别匹配关系，只通过简单匹配的方式可能导致出现大量的产品和服务无法匹配成功，从而导致商户类别的准确性和覆盖度不够。

本公开实施例提供一种信息处理方法、装置及电子设备。

第一方面，本公开实施例中提供了一种信息处理方法，包括：

获取用户类别训练数据集，其中，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的；

获取待测用户的待测用户数据集；

对所述用户类别训练数据集进行训练，得到信息处理模型；

将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测。

结合第一方面，本公开在第一方面的第一种实现方式中，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

结合第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，所述获取用户类别训练数据集，包括：

获取用户数据，所述用户数据包括预设类别用户的用户数据和所述待测用户的用户数据；

获取用户类别特征数据；

关联所述用户数据与用户类别特征数据，得到用户类别训练数据集，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述获取待测用户的待测用户数据集，包括：

关联所述用户数据与用户类别特征数据，得到待测用户数据集，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

结合第一方面的第二种实现方式，本公开在第一方面的第四种实现方式中，所述获取用户类别特征数据，包括：

对所述用户数据进行分词以得到用户字典，其中，所述用户字典包括对用户数据进行分词得到的词组和词组在用户数据中的出现次数；

根据所述用户字典的内容计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。

结合第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，在所述对所述用户数据进行分词以得到用户字典之前，包括：

根据预设的与用户分类不相关的非用户分类相关词组集，去除对用户数据进行分词得到的词组中属于所述非用户分类相关词组集的词组。

结合第一方面的第四种实现方式，本公开在第一方面的第六种实现方式中，所述根据所述用户字典的内容计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据，包括：

根据所述用户字典的内容使用TF-IDF算法计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。

结合第一方面的第一种实现方式，本公开在第一方面的第七种实现方式中，所述对所述用户类别训练数据集进行训练，得到信息处理模型，包括：

对所述具有重要性权重的用户类别训练数据进行数值化；

根据预设类别中的目标类别确定分类函数；

将数值化的用户类别训练数据中的所述预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的所述待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到所述信息处理模型。

结合第一方面的第七种实现方式，本公开在第一方面的第八种实现方式中，当预设类别为2个或更多个时，所述根据预设类别中的目标类别确定分类函数，包括：

根据每一个目标类别，确定分类函数，其中，所述分类函数的数量与预设类别数量相同。

结合第一方面的第八种实现方式，本公开在第一方面的第九种实现方式中，所述将数值化的用户类别训练数据中的所述预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的所述待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到所述信息处理模型，包括：

将数值化的用户类别训练数据中的每一个目标类别的用户的用户数据作为正样本，将数值化的用户类别训练数据中的非所述目标类别的用户的用户数据作为负样本，训练确定所述目标类别的分类函数的参数，得到所述目标类别的信息处理模型，其中，所述信息处理模型的数量与预设类别数量相同。

结合第一方面的第九种实现方式，本公开在第一方面的第十种实现方式中，所述将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测，包括：

将所述待测用户数据输入至与预设类别数量相同的信息处理模型，确定所述待测用户属于每一预设类别的预测概率。

结合第一方面的第十种实现方式，本公开在第一方面的第十一种实现方式中，所述将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测，还包括：

去除预测概率小于概率阈值的待测用户的用户类别预测结果，得到剩余用户类别预测结果；

对剩余用户类别预测结果进行排序以得到概率序列；

将所述概率序列中预测概率最高的预设数量的预设类别确定待测用户的用户类别。

第二方面，本公开实施例中提供了一种信息处理装置，包括：

第一获取模块，用于获取用户类别训练数据集，其中，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的；

第二获取模块，用于获取待测用户的待测用户数据集；

训练模块，用于对所述用户类别训练数据集进行训练，得到信息处理模型；

预测模块，用于将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测。

结合第二方面，本公开在第二方面的第一种实现方式中，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

结合第二方面的第一种实现方式，本公开在第二方面的第二种实现方式中，所述第一获取模块包括：

第一获取子模块，用于获取用户数据，所述用户数据包括预设类别用户的用户数据和所述待测用户的用户数据；

第二获取子模块，用于获取用户类别特征数据；

第一关联子模块，用于关联所述用户数据与用户类别特征数据，得到用户类别训练数据集，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

结合第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述第二获取模块包括：

第二关联子模块，用于关联所述用户数据与用户类别特征数据，得到待测用户数据集，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

结合第二方面的第二种实现方式，本公开在第二方面的第四种实现方式中，所述第二获取子模块包括：

分词子模块，用于对所述用户数据进行分词以得到用户字典，其中，所述用户字典包括对用户数据进行分词得到的词组和词组在用户数据中的出现次数；

计算子模块，用于根据所述用户字典的内容计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。

结合第二方面的第四种实现方式，本公开在第二方面的第五种实现方式中，在所述分词子模块之前，包括：

第一去除子模块，用于根据预设的与用户分类不相关的非用户分类相关词组集，去除对用户数据进行分词得到的词组中属于所述非用户分类相关词组集的词组。

结合第二方面的第四种实现方式，本公开在第二方面的第六种实现方式中，所述计算子模块还用于根据所述用户字典的内容使用TF-IDF算法计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。

结合第二方面的第一种实现方式，本公开在第二方面的第七种实现方式中，所述训练模块包括：

数值化子模块，用于对所述具有重要性权重的用户类别训练数据进行数值化；

第一确定子模块，用于根据预设类别中的目标类别确定分类函数；

第一训练子模块，用于将数值化的用户类别训练数据中的所述预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的所述待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到所述信息处理模型。

结合第二方面的第七种实现方式，本公开在第二方面的第八种实现方式中，当类别为2个或更多个时，所述第一确定子模块还用于根据每一个目标类别，确定分类函数，其中，所述分类函数的数量与预设类别数量相同。

结合第二方面的第八种实现方式，本公开在第二方面的第九种实现方式中，所述第一训练子模块还用于将数值化的用户类别训练数据中的每一个目标类别的用户的用户数据作为正样本，将数值化的用户类别训练数据中的非所述目标类别的用户的用户数据作为负样本，训练确定所述目标类别的分类函数的参数，得到所述目标类别的信息处理模型，其中，所述信息处理模型的数量与预设类别数量相同。

结合第二方面的第九种实现方式，本公开在第二方面的第十种实现方式中，所述预测模块还用于将所述待测用户数据输入至与预设类别数量相同的信息处理模型，确定所述待测用户属于每一预设类别的预测概率。

结合第二方面的第十种实现方式，本公开在第二方面的第十一种实现方式中，所述预测模块包括：

第二去除子模块，用于去除预测概率小于概率阈值的待测用户的用户类别预测结果，得到剩余用户类别预测结果；

排序子模块，用于对剩余用户类别预测结果进行排序以得到概率序列；

第二确定子模块，用于将所述概率序列中预测概率最高的预设数量的预设类别确定待测用户的用户类别。

第三方面，本公开实施例中提供了一种电子设备，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一实施方式至第十一实施方式任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一实施方式至第十一实施方式任一项所述的方法。

本公开实施例提供的技术方案可以包括以下有益效果：

根据本公开实施例提供的技术方案，通过获取用户类别训练数据集，其中，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的；获取待测用户的待测用户数据集；对所述用户类别训练数据集进行训练，得到信息处理模型；将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测，从而不需要不断维护用户分类规则，而是只需要维护信息处理模型就可以对待测用户进行分类，因此便于维护，并且提高了待测用户分类的准确性和覆盖度。而且，通过利用具有重要性权重的用户类别训练数据训练信息处理模型，能够更有效率地训练信息处理模型，训练出的信息处理模型进行预测的准确性也会更好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的信息处理方法的流程图；

图2示出根据图1所示实施方式的步骤S101的一个示例的流程图；

图3示出根据图1所示实施方式的步骤S102的一个示例的流程图；

图4示出根据图2所示实施方式的步骤S202的一个示例的流程图；

图5示出根据图2所示实施方式的步骤S202的另一个示例的流程图；

图6示出根据图1所示实施方式的步骤S103的一个示例的流程图；

图7示出根据图1所示实施方式的步骤S104的一个示例的流程图；

图8示出根据本公开一实施方式的信息处理装置的结构框图；

图9示出根据图8所示实施方式的第一获取模块801的一个示例的结构框图；

图10示出根据图8所示实施方式的第二获取模块802的一个示例的结构框图；

图11示出根据图9所示实施方式的第二获取子模块902的一个示例的结构框图；

图12示出根据图9所示实施方式的第二获取子模块902的另一个示例的结构框图；

图13示出根据图8所示实施方式的训练模块803的一个示例的结构框图；

图14示出根据图8所示实施方式的预测模块804的一个示例的结构框图；

图15示出根据本公开一实施方式的电子设备的结构框图；

图16是适于用来实现根据本公开一实施方式的信息处理方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开一实施方式的信息处理方法的流程图。如图1所示，所述信息处理方法包括以下步骤S101-S104：

在步骤S101中，获取用户类别训练数据集，其中，用户类别训练数据集包括具有重要性权重的用户类别训练数据，用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

在步骤S102中，获取待测用户的待测用户数据集。

在步骤S103中，对用户类别训练数据集进行训练，得到信息处理模型。

在步骤S104中，将待测用户数据集中的待测用户数据输入至信息处理模型，对待测用户进行预设类别预测。

为了更有效地对用户进行分类，避免维护分类匹配规则带来的高成本并提高分类的准确性，本实施例采用通过训练出用于类别预测的信息处理模型对用户所属类别的预测的分类模型的方法，来预测用户所属的类别。

在本公开的实施例中，首先需要获取用户类别训练数据集，作为训练用户注册行为预测模型的数据基础。其中，用户类别训练数据集包括具有重要性权重的用户类别训练数据。用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。具有重要性权重的训练数据能够更好地用于训练出用于对用户类别进行预测的信息处理模型。在获取用户类别训练数据集时，用户类别训练数据集中可以包括已经人工验证的预设类别用户的用户数据和待测用户的用户数据。利用具有重要性权重的用户类别训练数据训练信息处理模型，能够更有效率地训练信息处理模型，训练出的信息处理模型进行预测的准确性也会更好。需要说明的是，本公开对于用户类别训练数据集的具体内容不作限定，所有对于用户类别预测有帮助的数据均可作为训练数据，也均落入本公开的保护范围内。

待测用户的待测用户数据集可被用于输入信息处理模型对待测用户属于哪种预设类别进行预测。在本公开的实施例中，信息处理模型的预测结果可以表征待测用户属于哪一种预设类别。得到了用户所述类别的预测结果，就可以准确地标识用户，并且可以供他人有针对性地选择用户。例如，在用户是外卖平台的商户，用户类别是商户主营的菜系的时候，可以将待测商户的待测用户数据集输入至信息处理模型，对待测商户的菜系进行预测。

在根据本公开的一个实施例中，待测用户数据集包括具有重要性权重的待测用户数据，待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。在信息处理模型是利用具有重要性权重的用户类别训练数据训练出的信息处理模型的情况下，当将包括具有重要性权重的待测用户数据输入至信息处理模型，对待测用户进行预设类别预测时，能够对待测用户进行更准确的分类。

图2示出根据图1所示实施方式的步骤S101的一个示例的流程图。如图2所示，步骤S101包括步骤S201、S202和S203。

在步骤S201中，获取用户数据，用户数据包括预设类别用户的用户数据和待测用户的用户数据。

在步骤S202中，获取用户类别特征数据。

在步骤S203中，关联用户数据与用户类别特征数据，得到用户类别训练数据集，用户类别训练数据集包括具有重要性权重的用户类别训练数据，用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

在本公开实施例中，用户数据可以包括用户在在信息平台上注册的全部数据以及信息平台对用户行为进行跟踪分析所获得的数据等。用户可以分为预设类别用户和待测用户。预设类别用户可以是预先确定了用户属于哪种预设类别的用户，并且预设类别用户可以是已经经过人工验证的典型用户。另外，待测用户是需要被预测其类别的用户，即，需要通过信息处理模型对其类型进行预测的用户。

在本公开实施例中，用户类别特征数据可以包括用户的名称、所在地、用户在信息平台上出售的物品名称等。用户类别特征数据的获取可采用多种方式，比如可以从用户数据中获取，当然也可以采用其他获取方式，比如从同一应用程序的其他模块或者其他应用程序积累的用户特征数据中获取等等。需要注意，根据本公开实施例的技术方案中的用户类别特征数据可以是其他特征数据，不限于前述用户的名称、所在地、用户在信息平台上出售的物品名称。

在本公开实施例中，在获得用户数据和用户类别特征数据后，根据相对应的两种数据所共同包含的数据特征将两者关联起来，形成新的数据，这里得到的多个新的数据就组成了所述用户类别训练数据集。其中，用户类别训练数据集包括具有重要性权重的用户类别训练数据，用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

根据本公开实施例提供的技术方案，通过获取用户数据，用户数据包括预设类别用户的用户数据和待测用户的用户数据；获取用户类别特征数据；关联用户数据与用户类别特征数据，得到用户类别训练数据集，用户类别训练数据集包括具有重要性权重的用户类别训练数据，用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的，从而可以有效地获取用户类别训练数据集。而且，通过利用具有重要性权重的用户类别训练数据训练信息处理模型，能够更有效率地训练信息处理模型，训练出的信息处理模型进行预测的准确性也会更好。

图3示出根据图1所示实施方式的步骤S102的一个示例的流程图。如图3所示，步骤S102包括步骤S201、S202和S301。图3中的步骤S201、S202与图2中的步骤S201、S202相同，即，在步骤S202之后，可以同时执行步骤S203和步骤S301。在此对步骤S201、S202不作赘述。

在步骤S301中，关联用户数据与用户类别特征数据，得到待测用户数据集，待测用户数据集包括具有重要性权重的待测用户数据，待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

在本公开实施例中，在获得用户数据和用户类别特征数据后，根据相对应的两种数据所共同包含的数据特征将两者关联起来，形成新的数据，这里得到的多个新的数据就组成了所述待测用户数据集。其中，待测用户数据集包括具有重要性权重的待测用户数据，待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

根据本公开实施例提供的技术方案，通过关联用户数据与用户类别特征数据，得到待测用户数据集，待测用户数据集包括具有重要性权重的待测用户数据，待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的，从而可以有效地获取待测用户数据集。而且，通过信息处理模型对具有重要性权重的待测用户数据进行预测，能够更有效率地进行预测，预测的准确性也会更好。

图4示出根据图2所示实施方式的步骤S202的一个示例的流程图。如图4所示，步骤S202包括步骤S401和S402。

在步骤S401中，对用户数据进行分词以得到用户字典，其中，用户字典包括对用户数据进行分词得到的词组和词组在用户数据中的出现次数。

在步骤S402中，根据用户字典的内容计算用户字典内的词组的重要性权重，以得到用户类别特征数据。

在本公开实施例中，可以从用户数据中获取用户类别特征数据。对用户数据进行分词以得到用户字典可以指的是将用户数据中的信息进行分词以得到用户字典。用户字典可以记录有以用户维度计算的各个词组在用户数据中的出现次数。还可以根据用户字典中的词组和各个词组在用户数据中的出现次数等信息计算用户字典内的各个词组的重要性权重，以得到所述用户类别特征数据。

例如，当用户是外卖平台上的商户时，用户数据可以包括商户名、商户所在地、商户所售卖的菜品的名称等信息。根据人工先验经验，商户的菜系(即，用户类别)与商户名和商户所售卖的菜品有强相关，所以根据商户名和在外卖平台售卖的菜品的名称进行分词以得到用户字典。以商户维度计算每一个词组出现的次数，生成商户维度的映射字典(表示词组出现次数的字典)，即用户字典。考虑到商户的菜系分类可能和商户所在地域有关系，可以加入商户的所在地信息到商户字典，根据商户字典内容计算词组的重要性权重。具有重要性权重的词组构成的字典可以被称作重要性字典。在本公开的一个实施例中，可以根据用户的重要性字典得到用户类别特征数据，进而得到用户类别训练数据集和待测用户数据集。通过利用具有重要性权重的用户类别训练数据训练信息处理模型，能够更有效率地训练信息处理模型，训练出的信息处理模型对待测用户数据集进行预测的准确性也会更好。

在本公开的一个实施例中，步骤S402可以包括：根据所述用户字典的内容使用TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文件频率)算法计算所述用户字典内的词组的重要性权重，以得到用户类别特征数据。

在本公开的一个实施例中，给出生成外卖商户的用户字典的示例：

{菜品1：(WORD1，WORD2,…)，菜品2：(WORD3，WORD4,…)}

用户字典＝{WORD1:3,WORD2:7,WORD3:32,CITY:30,…}

词组重要性＝〔WORD1:0.1,WORD2:0.2,WORD3:0.4,CITY:0.3,…〕

在上述示例中，商户所售卖的菜品1被分词为词组WORD1、WORD2等，菜品2被分词为词组WORD3、WORD4等。分词后得到的用户字典中，词组WORD1出现3次，词组WORD2出现7次，词组WORD3出现32次，作为商户所在地的词组CITY出现30次。根据用户字典的内容，计算出词组WORD1的重要性权重为0.1，词组WORD2的重要性权重为0.2，词组WORD3的重要性权重为0.4，词组CITY的重要性权重为0.3。

根据本公开实施例提供的技术方案，通过对用户数据进行分词以得到用户字典，其中，用户字典包括对用户数据进行分词得到的词组和词组在用户数据中的出现次数；根据用户字典的内容计算用户字典内的词组的重要性权重，以得到用户类别特征数据，从而可以有效地获取用户类别特征数据。

图5示出根据图2所示实施方式的步骤S202的另一个示例的流程图。图5所示的流程图与图4所示的流程图的区别在于在步骤S401之前还包括步骤S501。在此对步骤S401和步骤S402不作赘述。

在步骤S501中，根据预设的与用户分类不相关的非用户分类相关词组集，去除对用户数据进行分词得到的词组中属于非用户分类相关词组集的词组。

在本公开实施例中，可以预设与用户分类不相关的非用户分类相关词组集，并且从对用户数据进行分词得到的词组中去除非用户分类相关词组。这样能够使得用户字典中没有与获得用户类别特征不相关的词组，从而可以根据更准确的用户字典计算用户字典内的词组的重要性权重，以得到用户类别特征数据。

在本公开的一个实施例中，当用户是外卖平台上的商户时，对用户数据，例如，菜品，进行分词得到的词组中可能包括“米饭”。然而，词组“米饭”对于获得用户字典，获得用户类别特征数据，进而对商户进行分类(按菜系分类)是没有意义的。因此，在得到用户字典之前，需要去除无意义的词组“米饭”。

根据本公开实施例提供的技术方案，通过根据预设的与用户分类不相关的非用户分类相关词组集，去除对用户数据进行分词得到的词组中属于非用户分类相关词组集的词组，可以使得用户字典中没有与获得用户类别特征不相关的词组，从而可以根据更准确的用户字典计算用户字典内的词组的重要性权重，以得到用户类别特征数据。

图6示出根据图1所示实施方式的步骤S103的一个示例的流程图。如图6所示，步骤S103包括步骤S601、S602和S603。

在步骤S601中，对具有重要性权重的用户类别训练数据进行数值化。

在步骤S602中，根据预设类别中的目标类别确定分类函数。

在步骤S603中，将数值化的用户类别训练数据中的预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到信息处理模型。

在本公开的实施例中，在训练确定所述分类函数的参数时，将数值化的用户类别训练数据中的预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的待测用户的用户数据作为负样本。其中，用于对用户类别进行预测的信息处理模型的训练方法可采用多种训练方法，本公开不作具体限定，所有可行、合理的训练方法均落入本公开的保护范围内，比如支持向量机方法、逻辑回归算法等。在实际应用中，可根据训练数据的特点和对于模型结果的要求选择合适的模型和训练方法。

根据本公开实施例提供的技术方案，通过对具有重要性权重的用户类别训练数据进行数值化；根据预设类别中的目标类别确定分类函数；将数值化的用户类别训练数据中的预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到信息处理模型，能够有针对性地生成信息处理模型，以便对待测用户进行预设类别预测。

在本公开的一个实施例中，当预设类别为2个或更多个时，步骤S602包括：根据每一个目标类别，确定分类函数，其中，分类函数的数量与预设类别数量相同。例如，当用户是外卖平台的商户时，预设类别为多种菜系，可以根据每一种菜系，确定相应的分类函数。由于每一种菜系对应一个分类函数，因此分类函数的数量与预设菜系的数量相同。

在本公开的实施例中，步骤S603可以包括：将数值化的用户类别训练数据中的每一个目标类别的用户的用户数据作为正样本，将数值化的用户类别训练数据中的非目标类别的用户的用户数据作为负样本，训练确定所述目标类别的分类函数的参数，得到所述目标类别的信息处理模型，其中，信息处理模型的数量与预设类别数量相同。例如，当用户是外卖平台的商户时，预设类别为多种菜系，可以根据每一种菜系，确定相应的分类函数。进而，根据相应的分类函数得到相应的信息处理模型，因此信息处理模型的数量与预设类别数量相同。

在本公开的实施例中，当预设类别为2个或更多个时，信息处理模型的数量与预设类别数量相同。在此情况下，图1中所示的步骤S104包括：将待测用户数据输入至与预设类别数量相同的信息处理模型，确定待测用户属于每一预设类别的预测概率。例如，当用户是外卖平台的商户时，预设类别为多种菜系，可以根据每一种菜系得到一个信息处理模型，将待测用户数据输入至与预设菜系数量相同的信息处理模型，确定待测用户属于每一菜系的预测概率。

根据本公开实施例提供的技术方案，可以将多分类问题分解成2分类问题，例如，当用户是外卖平台的商户并且预设有多个商户菜系时，可以对外卖平台的商户是某一菜系与非该菜系进行模型训练，从而训练产出个分类模型。即，本公开实施例使用分类模型(Logistic Regression)对样本进行分类，因为商户菜系分类属于多类分类问题，因此简化了分类流程并提高了预测准确度。

图7示出根据图1所示实施方式的步骤S104的一个示例的流程图。如图7所示，步骤S104包括步骤S701、S702和S703。

在步骤S701中，去除预测概率小于概率阈值的待测用户的用户类别预测结果，得到剩余用户类别预测结果。

在步骤S702中，对剩余用户类别预测结果进行排序以得到概率序列。

在步骤S703中，将概率序列中预测概率最高的预设数量的预设类别确定待测用户的用户类别。

在本公开的一个实施例中，当预设类别为2个或更多个时，信息处理模型的数量与预设类别数量相同，将待测用户数据集中的待测用户数据输入至与预设类别数量相同的信息处理模型，对待测用户进行预设类别预测，可以针对每个用户得到每一预设类别的预测结果，即，得到用户属于每一预设类别的预测概率。此时，去除预测概率小于概率阈值的待测用户的用户类别预测结果，得到剩余用户类别预测结果。例如，当存在28个预设类别时，获得28个信息处理模型，对用户进行预测后得到用户属于28个预设类别中的每一类别的预测概率。此时，当概率阈值是0.3时，去除这28个预测概率中小于概率阈值0.3的预测结果。例如，当存在22个小于概率阈值0.3的预测结果时，去除这22个预测结果，还剩下6个预测概率大于等于0.3的预测结果。可以对这6个剩余的预测结果进行排序以得到概率序列。将此概率序列中预测概率最高的预设数量的预设类别确定为待测用户的用户类别。例如，当预设数量是3时，将概率序列中预测概率最高的3个预设类别确定为待测用户的用户类别。

根据本公开实施例提供的技术方案，可以在存在用户类别的多个预测结果的情况下选择出预测概率最高的预设数量的预测结果作为用户的用户类别，这样可以得到更准确的用户类别预测结果。

图8示出根据本公开一实施方式的信息处理装置的结构框图。如图8所示，所述信息处理装置包括第一获取模块801、第二获取模块802、训练模块803和预测模块804。

第一获取模块801用于获取用户类别训练数据集，其中，用户类别训练数据集包括具有重要性权重的用户类别训练数据，用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

第二获取模块802用于获取待测用户的待测用户数据集。

训练模块803用于对用户类别训练数据集进行训练，得到信息处理模型。

预测模块804用于将待测用户数据集中的待测用户数据输入至信息处理模型，对待测用户进行预设类别预测。

为了更有效地对用户进行分类，避免维护分类匹配规则带来的高成本并提高分类的准确性，本实施例采用通过训练出用于类别预测的信息处理模型对用户所属类别的预测的分类模型的装置，来预测用户所属的类别。

图9示出根据图8所示实施方式的第一获取模块801的一个示例的结构框图。如图9所示，第一获取模块801包括第一获取子模块901、第二获取子模块902和第一关联子模块903。

第一获取子模块901用于获取用户数据，用户数据包括预设类别用户的用户数据和待测用户的用户数据。

第二获取子模块902用于获取用户类别特征数据。

第一关联子模块903用于关联用户数据与用户类别特征数据，得到用户类别训练数据集，用户类别训练数据集包括具有重要性权重的用户类别训练数据，用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

图10示出根据图8所示实施方式的第二获取模块802的一个示例的结构框图。如图10所示，第二获取模块802包括第一获取子模块901、第二获取子模块902和第二关联子模块1001。图10中的第一获取子模块901、第二获取子模块902与图9中的第一获取子模块901、第二获取子模块902相同，即，在第二获取子模块902之后，可以同时具有第一关联子模块903和第二关联子模块1001。在此对第一获取子模块901、第二获取子模块902不作赘述。

第二关联子模块1001用于关联用户数据与用户类别特征数据，得到待测用户数据集，待测用户数据集包括具有重要性权重的待测用户数据，待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

图11示出根据图9所示实施方式的第二获取子模块902的一个示例的结构框图。如图11所示，第二获取子模块902包括分词子模块1101和计算子模块1102。

分词子模块1101用于对用户数据进行分词以得到用户字典，其中，用户字典包括对用户数据进行分词得到的词组和词组在用户数据中的出现次数。

计算子模块1102用于根据用户字典的内容计算用户字典内的词组的重要性权重，以得到用户类别特征数据。

在本公开的一个实施例中，计算子模块1102还可以用于根据所述用户字典的内容使用TF-IDF算法计算所述用户字典内的词组的重要性权重，以得到用户类别特征数据。

{菜品1：(WORD1，WORD2,…)，菜品2：(WORD3，WORD4,…)}

用户字典＝{WORD1:3,WORD2:7,WORD3:32,CITY:30,…}

词组重要性＝〔WORD1:0.1,WORD2:0.2,WORD3:0.4,CITY:0.3,…〕

图12示出根据图9所示实施方式的第二获取子模块902的另一个示例的结构框图。图12所示的流程图与图11所示的流程图的区别在于在分词子模块1101之前还包括步第一去除子模块1201。在此对分词子模块1101和计算子模块1102不作赘述。

第一去除子模块1201用于根据预设的与用户分类不相关的非用户分类相关词组集，去除对用户数据进行分词得到的词组中属于非用户分类相关词组集的词组。

图13示出根据图8所示实施方式的训练模块803的一个示例的结构框图。如图13所示，训练模块803包括数值化子模块1301、第一确定子模块1302和第一训练子模块1303。

数值化子模块1301用于对具有重要性权重的用户类别训练数据进行数值化。

第一确定子模块1302用于根据预设类别中的目标类别确定分类函数。

第一训练子模块1303用于将数值化的用户类别训练数据中的预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到信息处理模型。

在本公开的一个实施例中，当预设类别为2个或更多个时，第一确定子模块1302还用于根据每一个目标类别，确定分类函数，其中，分类函数的数量与预设类别数量相同。例如，当用户是外卖平台的商户时，预设类别为多种菜系，可以根据每一种菜系，确定相应的分类函数。由于每一种菜系对应一个分类函数，因此分类函数的数量与预设菜系的数量相同。

在本公开的实施例中，第一训练子模块1303还用于将数值化的用户类别训练数据中的每一个目标类别的用户的用户数据作为正样本，将数值化的用户类别训练数据中的非目标类别的用户的用户数据作为负样本，训练确定所述目标类别的分类函数的参数，得到所述目标类别的信息处理模型，其中，信息处理模型的数量与预设类别数量相同。例如，当用户是外卖平台的商户时，预设类别为多种菜系，可以根据每一种菜系，确定相应的分类函数。进而，根据相应的分类函数得到相应的信息处理模型，因此信息处理模型的数量与预设类别数量相同。

在本公开的实施例中，当预设类别为2个或更多个时，信息处理模型的数量与预设类别数量相同。在此情况下，图8中所示的预测模块804还用于将待测用户数据输入至与预设类别数量相同的信息处理模型，确定待测用户属于每一预设类别的预测概率。例如，当用户是外卖平台的商户时，预设类别为多种菜系，可以根据每一种菜系得到一个信息处理模型，将待测用户数据输入至与预设菜系数量相同的信息处理模型，确定待测用户属于每一菜系的预测概率。

根据本公开实施例提供的技术方案，可以将多分类问题分解成2分类问题，例如，当用户是外卖平台的商户并且预设有多个商户菜系时，可以对外卖平台的商户是某一菜系与非该菜系进行模型训练，从而训练产出个分类模型。即，本公开实施例使用分类模型对样本进行分类，因为商户菜系分类属于多类分类问题，因此简化了分类流程并提高了预测准确度。

图14示出根据图8所示实施方式的预测模块804的一个示例的结构框图。如图14所示，预测模块804包括第二去除子模块1401、排序子模块1402和第二确定子模块1403。

第二去除子模块1401用于去除预测概率小于概率阈值的待测用户的用户类别预测结果，得到剩余用户类别预测结果。

排序子模块1402用于对剩余用户类别预测结果进行排序以得到概率序列。

第二确定子模块1403用于将概率序列中预测概率最高的预设数量的预设类别确定待测用户的用户类别。

本公开还公开了一种电子设备，图15示出根据本公开一实施方式的电子设备的结构框图，如图15所示，所述电子设备1500包括存储器1502和处理器1501；其中，

所述存储器1502用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1501执行以实现前述各方法步骤中的全部或部分步骤。

如图16所示，计算机系统1600包括中央处理单元(CPU)1601，其可以根据存储在只读存储器(ROM)1602中的程序或者从存储部分1608加载到随机访问存储器(RAM)1603中的程序而执行上述图1-8所示的实施方式中的各种处理。在RAM1603中，还存储有系统1600操作所需的各种程序和数据。CPU1601、ROM1602以及RAM1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1607；包括硬盘等的存储部分1608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入存储部分1608。

特别地，根据本公开的实施方式，上文参考图1描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行前述信息处理方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

本公开公开了A1、一种信息处理方法，包括：获取用户类别训练数据集，其中，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的；获取待测用户的待测用户数据集；对所述用户类别训练数据集进行训练，得到信息处理模型；将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测。A2、根据A1所述的方法，其中，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。A3、根据A2所述的方法，所述获取用户类别训练数据集，包括：获取用户数据，所述用户数据包括预设类别用户的用户数据和所述待测用户的用户数据；获取用户类别特征数据；关联所述用户数据与用户类别特征数据，得到用户类别训练数据集，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。A4、根据A3所述的方法，所述获取待测用户的待测用户数据集，包括：关联所述用户数据与用户类别特征数据，得到待测用户数据集，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。A5、根据A3所述的方法，所述获取用户类别特征数据，包括：对所述用户数据进行分词以得到用户字典，其中，所述用户字典包括对用户数据进行分词得到的词组和词组在用户数据中的出现次数；根据所述用户字典的内容计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。A6、根据A5所述的方法，在所述对所述用户数据进行分词以得到用户字典之前，包括：根据预设的与用户分类不相关的非用户分类相关词组集，去除对用户数据进行分词得到的词组中属于所述非用户分类相关词组集的词组。A7、根据A5所述的方法，所述根据所述用户字典的内容计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据，包括：根据所述用户字典的内容使用TF-IDF算法计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。A8、根据A2所述的方法，所述对所述用户类别训练数据集进行训练，得到信息处理模型，包括：对所述具有重要性权重的用户类别训练数据进行数值化；根据预设类别中的目标类别确定分类函数；将数值化的用户类别训练数据中的所述预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的所述待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到所述信息处理模型。A9、根据A8所述的方法，当预设类别为2个或更多个时，所述根据预设类别中的目标类别确定分类函数，包括：根据每一个目标类别，确定分类函数，其中，所述分类函数的数量与预设类别数量相同。A10、根据A9所述的方法，所述将数值化的用户类别训练数据中的所述预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的所述待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到所述信息处理模型，包括：将数值化的用户类别训练数据中的每一个目标类别的用户的用户数据作为正样本，将数值化的用户类别训练数据中的非所述目标类别的用户的用户数据作为负样本，训练确定所述目标类别的分类函数的参数，得到所述目标类别的信息处理模型，其中，所述信息处理模型的数量与预设类别数量相同。A11、根据A10所述的方法，所述将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测，包括：将所述待测用户数据输入至与预设类别数量相同的信息处理模型，确定所述待测用户属于每一预设类别的预测概率。A12、根据A11所述的方法，所述将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测，还包括：去除预测概率小于概率阈值的待测用户的用户类别预测结果，得到剩余用户类别预测结果；对剩余用户类别预测结果进行排序以得到概率序列；将所述概率序列中预测概率最高的预设数量的预设类别确定待测用户的用户类别。

本公开公开了B13、一种信息处理装置，包括：第一获取模块，用于获取用户类别训练数据集，其中，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的；第二获取模块，用于获取待测用户的待测用户数据集；训练模块，用于对所述用户类别训练数据集进行训练，得到信息处理模型；预测模块，用于将所述待测用户数据集中的待测用户数据输入至所述信息处理模型，对待测用户进行预设类别预测。B14、根据B13所述的装置，其中，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。B15、根据B14所述的装置，所述第一获取模块包括：第一获取子模块，用于获取用户数据，所述用户数据包括预设类别用户的用户数据和所述待测用户的用户数据；第二获取子模块，用于获取用户类别特征数据；第一关联子模块，用于关联所述用户数据与用户类别特征数据，得到用户类别训练数据集，所述用户类别训练数据集包括具有重要性权重的用户类别训练数据，所述用户类别训练数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。B16、根据B15所述的装置，所述第二获取模块包括：第二关联子模块，用于关联所述用户数据与用户类别特征数据，得到待测用户数据集，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。B17、根据B15所述的装置，所述第二获取子模块包括：分词子模块，用于对所述用户数据进行分词以得到用户字典，其中，所述用户字典包括对用户数据进行分词得到的词组和词组在用户数据中的出现次数；计算子模块，用于根据所述用户字典的内容计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。B18、根据B17所述的装置，在所述分词子模块之前，包括：第一去除子模块，用于根据预设的与用户分类不相关的非用户分类相关词组集，去除对用户数据进行分词得到的词组中属于所述非用户分类相关词组集的词组。B19、根据B17所述的装置，所述计算子模块还用于根据所述用户字典的内容使用TF-IDF算法计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据。B20、根据B14所述的装置，所述训练模块包括：数值化子模块，用于对所述具有重要性权重的用户类别训练数据进行数值化；第一确定子模块，用于根据预设类别中的目标类别确定分类函数；第一训练子模块，用于将数值化的用户类别训练数据中的所述预设类别用户的用户数据作为正样本，将数值化的用户类别训练数据中的所述待测用户的用户数据作为负样本，训练确定所述分类函数的参数，得到所述信息处理模型。B21、根据B20所述的装置，当类别为2个或更多个时，所述第一确定子模块还用于根据每一个目标类别，确定分类函数，其中，所述分类函数的数量与预设类别数量相同。B22、根据B21所述的装置，所述第一训练子模块还用于将数值化的用户类别训练数据中的每一个目标类别的用户的用户数据作为正样本，将数值化的用户类别训练数据中的非所述目标类别的用户的用户数据作为负样本，训练确定所述目标类别的分类函数的参数，得到所述目标类别的信息处理模型，其中，所述信息处理模型的数量与预设类别数量相同。B23、根据B22所述的装置，所述预测模块还用于将所述待测用户数据输入至与预设类别数量相同的信息处理模型，确定所述待测用户属于每一预设类别的预测概率。B24、根据B23所述的装置，所述预测模块包括：第二去除子模块，用于去除预测概率小于概率阈值的待测用户的用户类别预测结果，得到剩余用户类别预测结果；排序子模块，用于对剩余用户类别预测结果进行排序以得到概率序列；第二确定子模块，用于将所述概率序列中预测概率最高的预设数量的预设类别确定待测用户的用户类别。

本公开公开了C25、一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如A1-A12任一项所述的方法。

本公开公开了D26、一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如A1-A12任一项所述的方法。

Claims

1.一种信息处理方法，其特征在于，包括：

获取待测用户的待测用户数据集；

对所述用户类别训练数据集进行训练，得到信息处理模型；

2.根据权利要求1所述的方法，其特征在于，其中，所述待测用户数据集包括具有重要性权重的待测用户数据，所述待测用户数据的重要性权重是根据预设类别用户的用户数据和待测用户的用户数据计算出的。

3.根据权利要求2所述的方法，其特征在于，所述获取用户类别训练数据集，包括：

获取用户类别特征数据；

4.根据权利要求3所述的方法，其特征在于，所述获取待测用户的待测用户数据集，包括：

5.根据权利要求3所述的方法，其特征在于，所述获取用户类别特征数据，包括：

6.根据权利要求5所述的方法，其特征在于，在所述对所述用户数据进行分词以得到用户字典之前，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述用户字典的内容计算所述用户字典内的词组的重要性权重，以得到所述用户类别特征数据，包括：

8.一种信息处理装置，其特征在于，包括：

第二获取模块，用于获取待测用户的待测用户数据集；

9.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如权利要求1-7任一项所述的方法。