CN105787025B

CN105787025B - 网络平台公共账号分类方法及装置

Info

Publication number: CN105787025B
Application number: CN201610102531.0A
Authority: CN
Inventors: 黎新; 陈谦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2016-02-24
Filing date: 2016-02-24
Publication date: 2021-07-09
Anticipated expiration: 2036-02-24
Also published as: CN105787025A

Abstract

本发明公开了一种网络平台公共账号分类方法及装置。其中，所述方法包括：从待分类账号的数据中，获取表征所述待分类账号类别属性的属性信息；从所述属性信息中提取分类依据特征；根据所述分类依据特征，按照预先确定的分类模型，对所述待分类账号进行分类。根据本发明实施例的网络平台公共账号分类方法和装置能够对公共账号进行合理地分类，从而使得公共账号能够得到有效的分类组织和管理。

Description

网络平台公共账号分类方法及装置

技术领域

本发明涉及互联网信息处理领域，尤其涉及一种网络平台公共账号分类方法及装置。

背景技术

为了满足商业推广、广告投放等需求，即时通讯工具、社交网站、支付平台等网络平台为企业、商家或个人用户提供了公共账号，以通过网络平台向网络平台上注册的终端用户提供如文字、图片、语音、视频的全方位沟通、互动等服务。然而，由于有的公共账号在注册的时候，网络平台并没有为其设置类目功能，导致无法对公共账号进行有效的分类组织和管理，从而不利于从公共账号中获取所需要的信息。因此，对公共账号进行分类成为迫切需要解决的问题。

发明内容

技术问题

有鉴于此，本发明要解决的技术问题是，如何对由网络平台提供的公共账号进行合理地分类，以使得公共账号得到有效的分类组织和管理。

解决方案

为了解决上述技术问题，根据本发明的一个方面，提供了一种网络平台公共账号分类方法，包括：根据用户与公共账号的交互频度，来确定用户偏好的公共账号；将所述用户偏好的公共账号作为待分类账号；当所述待分类账号属于订阅类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号发布的主题的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；其中，所述直接文本信息包括所述待分类账号的昵称、功能描述、签名描述中的至少之一，所述间接文本信息包括所述待分类账号向网络平台提供的描述文本；当所述待分类账号属于服务类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号所调用的网络平台的接口类别、所述待分类账号的菜单内容的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；从所述属性信息中提取分类依据特征；其中，当所述待分类账号属于订阅类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号发布频率的排名靠前的主题、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；当所述待分类账号属于服务类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号的服务内容、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；根据所述分类依据特征，基于一级分类模型，将所述待分类账号划分到订阅类，基于二级分类模型，将所述待分类账号划分到较所述订阅类更细粒度的类别，或，基于一级分类模型，将所述待分类账号划分到服务类，基于二级分类模型，将所述待分类账号划分到较所述服务类更细粒度的类别，以得到所述用户偏好的公共账号的分类结果；其中，所述一级分类模型或二级分类模型的分类依据特征是根据比例大于预定阈值的样本特征而确定的；所述比例为样本类别对所述样本特征的引用数相对于所有样本类别对所述样本特征的引用数的比值；基于所述分类结果为所述用户推送与所述用户偏好的公共账号的类别相同或相近的公共账号。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，从所述属性信息中提取分类依据特征包括：根据单位时段内的发布频率对所述待分类账号发布的主题进行排序；选取排序在预定阈值以前的主题作为所述分类依据特征。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，从所述属性信息中提取分类依据特征包括：对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；从所述字词序列中抽取关键词和/或n-gram语言模型片段，作为所述分类依据特征。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，从所述属性信息中提取分类依据特征包括：对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；基于所述字词序列，通过语义分析获取所述分类依据特征。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，还包括：选取感兴趣的公共账号作为所述待分类账号进行分类，以得到所述感兴趣的公共账号的分类结果；基于所述分类结果，获得所述感兴趣的公共账号的统计信息，其中所述统计信息包括所述感兴趣的公共账号的行业分布、用户分布、行业排名、行业影响力中的一个或多个。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，所述一级分类模型或所述二级分类模型通过以下方法预先确定：确定训练样本集合中的各训练样本的类别与所述分类依据特征之间的对应关系，其中，所述训练样本集合中的各训练样本为已标注有类别的公共账号；以及根据所述对应关系来确定所述一级分类模型或所述二级分类模型。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，所述一级分类模型或所述二级分类模型通过以下方法预先确定：针对多个训练样本集合，分别确定每个训练样本集合中的各训练样本的类别与分类依据特征之间的对应关系，其中，所述每个训练样本集合中的各训练样本为已标注有类别的公共账号；根据所述对应关系，来确定所述每个训练样本集合的待验证分类模型；利用验证样本集合中的验证样本对所述待验证分类模型进行验证，以得到各所述待验证分类模型的验证结果，其中，所述验证样本集合中的验证样本为已标注有类别的公共账号；以及根据所述验证结果确定所述一级分类模型或所述二级分类模型。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，确定训练样本集合中的各训练样本的类别与所述分类依据特征之间的对应关系包括：针对所述训练样本集合中的每个训练样本，进行以下步骤：从所述训练样本的数据中，获取表征所述训练样本类别属性的属性信息；从所述训练样本的属性信息中提取样本特征；统计所述训练样本的类别对所述样本特征的引用数，其中所述引用数表示被标注为所述类别的训练样本中出现所述样本特征的次数；以及针对所述训练样本集合涉及的每个类别，计算该类别对某一样本特征的引用数相对于所述训练样本集合涉及的所有类别对该样本特征的引用数的比例，在该比例大于预定阈值的情况下，将该样本特征作为确定所述类别的分类依据特征。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，统计所述训练样本的类别对所述样本特征的引用数包括：在不存在所述类别与所述样本特征之间的对应关系的情况下，记录所述类别与所述样本特征之间的对应关系，并将该类别对该样本特征的引用数设为一；在存在所述类别与所述样本特征之间的对应关系的情况下，将该类别对该样本特征的引用数加一。

对于上述网络平台公共账号分类方法，在一种可能的实现方式中，利用验证样本集合中的验证样本对所述待验证分类模型进行验证包括：从所述验证样本的数据中，获取表征所述验证样本类别属性的属性信息；从所述验证样本的属性信息中，提取所述验证样本的分类依据特征；根据所述验证样本的分类依据特征，分别按照各所述待验证分类模型，对所述验证样本进行分类；以及将分类得到的验证样本的各类别与所标注的验证样本的类别进行比较，以计算出各待验证分类模型对验证样本分类的准确度和/或召回度，以及根据所述验证结果确定所述一级分类模型包括：将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的一级分类模型；根据所述验证结果确定所述二级分类模型包括：将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的二级分类模型。

为了解决上述技术问题，根据本发明的另一个方面，提供了一种网络平台公共账号分类装置，包括：获取模块，用于根据用户与公共账号的交互频度，来确定用户偏好的公共账号；将所述用户偏好的公共账号作为待分类账号；当所述待分类账号属于订阅类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号发布的主题的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；其中，所述直接文本信息包括所述待分类账号的昵称、功能描述、签名描述中的至少之一，所述间接文本信息包括所述待分类账号向网络平台提供的描述文本；当所述待分类账号属于服务类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号所调用的网络平台的接口类别、所述待分类账号的菜单内容的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；提取模块，与所述获取模块连接，用于从所述属性信息中提取分类依据特征；其中，当所述待分类账号属于订阅类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号发布频率的排名靠前的主题、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；当所述待分类账号属于服务类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号的服务内容、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；以及分类模块，与所述提取模块连接，用于根据所述分类依据特征，基于一级分类模型，将所述待分类账号划分到订阅类，基于二级分类模型，将所述待分类账号划分到较所述订阅类更细粒度的类别，或，基于一级分类模型，将所述待分类账号划分到服务类，基于二级分类模型，将所述待分类账号划分到较所述服务类更细粒度的类别，以得到所述用户偏好的公共账号的分类结果；其中，所述一级分类模型或二级分类模型的分类依据特征是根据比例大于预定阈值的样本特征而确定的；所述比例为样本类别对所述样本特征的引用数相对于所有样本类别对所述样本特征的引用数的比值；推荐模块，用于基于所述分类结果为所述用户推送与所述用户偏好的公共账号的类别相同或相近的公共账号。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，所述装置还包括：排序模块，与所述提取模块连接，用于根据单位时段内的发布频率对所述待分类账号发布的主题进行排序；所述提取模块还用于选取排序在预定阈值以前的主题作为所述分类依据特征。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，所述装置还包括：第一预处理模块，与所述提取模块连接，用于对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；所述提取模块还用于从所述字词序列中抽取关键词和/或n-gram语言模型片段，作为所述分类依据特征。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，所述文本信息包括间接反映所述待分类账号类别属性的间接文本信息，所述装置还包括：第二预处理模块，与所述提取模块连接，用于对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；所述提取模块还用于基于所述字词序列，通过语义分析获取所述分类依据特征。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，还包括：第一选取模块，与所述获取模块连接，用于选取感兴趣的公共账号作为所述待分类账号，并依次通过所述获取模块、所述提取模块、所述分类模块对所述感兴趣的公共账号进行分类，以得到所述感兴趣的公共账号的分类结果；分析模块，与所述分类模块连接，用于基于所述分类结果，获得所述感兴趣的公共账号的统计信息，其中所述统计信息包括所述感兴趣的公共账号的行业分布、用户分布、行业排名、行业影响力中的一个或多个。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，还包括：第一对应关系确定模块，用于确定训练样本集合中的各训练样本的类别与所述分类依据特征之间的对应关系，其中，所述训练样本集合中的各训练样本为已标注有类别的公共账号；以及第一模型确定模块，与所述第一对应关系确定模块以及所述分类模块连接，用于根据所述对应关系来确定所述一级分类模型或所述二级分类模型。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，还包括：第二对应关系确定模块，用于针对多个训练样本集合，分别确定每个训练样本集合中的各训练样本的类别与分类依据特征之间的对应关系，其中，所述每个训练样本集合中的各训练样本为已标注有类别的公共账号；第二模型确定模块，与所述第二对应关系确定模块以及所述分类模块连接，用于根据所述对应关系，来确定所述每个训练样本集合的待验证分类模型；以及验证模块，与所述第二模型确定模块连接，用于利用验证样本集合中的验证样本对所述待验证分类模型进行验证，以得到各所述待验证分类模型的验证结果，其中，所述验证样本集合中的验证样本为已标注有类别的公共账号；所述第二模型确定模块还用于根据所述验证结果确定所述一级分类模型或所述二级分类模型。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，所述获取模块还用于针对所述训练样本集合中的每个训练样本，从所述训练样本的数据中，获取表征所述训练样本类别属性的属性信息；所述提取模块还用于针对所述训练样本集合中的每个训练样本，从所述训练样本的属性信息中提取样本特征；所述装置还包括统计模块，与所述提取模块和所述分类模块连接，用于统计所述训练样本的类别对所述样本特征的引用数，其中所述引用数表示被标注为所述类别的训练样本中出现所述样本特征的次数；所述第一对应关系确定模块还用于针对所述训练样本集合涉及的每个类别，计算该类别对某一样本特征的引用数相对于所述训练样本集合涉及的所有类别对该样本特征的引用数的比例，在该比例大于预定阈值的情况下，将该样本特征作为确定所述类别的分类依据特征。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，所述统计模块包括：第一引用数统计单元，用于在不存在所述类别与所述样本特征之间的对应关系的情况下，记录所述类别与所述样本特征之间的对应关系，并将该类别对该样本特征的引用数设为一；第二引用数统计单元，用于在存在所述类别与所述样本特征之间的对应关系的情况下，将该类别对该样本特征的引用数加一。

对于上述网络平台公共账号分类装置，在一种可能的实现方式中，所述获取模块还用于从所述验证样本的数据中，获取表征所述验证样本类别属性的属性信息；所述提取模块还用于从所述验证样本的属性信息中，提取所述验证样本的分类依据特征；所述分类模块还用于根据所述验证样本的分类依据特征，分别按照各所述待验证分类模型，对所述验证样本进行分类；所述验证模块还用于将分类得到的验证样本的各类别与所标注的验证样本的类别进行比较，以计算出各待验证分类模型对验证样本分类的准确度和/或召回度；所述第二模型确定模块还用于将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的一级分类模型；将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的二级分类模型。

有益效果

通过从待分类账号的数据中，获取表征所述待分类账号类别属性的属性信息，然后从所述属性信息中提取分类依据特征，最后根据所述分类依据特征，按照预先确定的分类模型，对所述待分类账号进行分类。根据本发明实施例的网络平台公共账号分类方法和装置能够对公共账号进行合理地分类，从而使得公共账号能够得到有效的分类组织和管理。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面，并且用于解释本发明的原理。

图1示出根据本发明一实施例的网络平台公共账号分类方法的流程图；

图2示出根据本发明另一实施例的网络平台公共账号分类方法的流程图；

图3示出根据本发明又一实施例的网络平台公共账号分类方法的流程图；

图4示出根据本发明又一实施例的网络平台公共账号分类方法的流程图；

图5示出用于确定本发明实施例的网络平台公共账号分类方法所使用的分类模型的方法的流程图；

图6示出用于统计类别对样本特征的引用数的方法的流程图。

图7示出用于确定本发明实施例的网络平台公共账号分类方法所使用的分类模型的另一方法的流程图；

图8示出根据本发明一实施例的网络平台公共账号分类装置的结构框图；

图9示出根据本发明另一实施例的网络平台公共账号分类装置的结构框图；

图10示出根据本发明又一实施例的网络平台公共账号分类装置的结构框图；

图11示出根据本发明又一实施例的网络平台公共账号分类装置的结构框图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

实施例1

图1示出根据本发明一实施例的网络平台公共账号分类方法的流程图。

如图1所示，该公共账号分类方法主要包括：

步骤S100、从待分类账号的数据中，获取表征所述待分类账号类别属性的属性信息。其中，所述公共账号由网络平台通过开放特定接口提供给企业、商家或个人用户，为其通过网络平台向网络平台上注册的终端用户提供如文字、图片、语音、视频的全方位沟通、互动等服务，例如转账、查询余额、获取附近商店的优惠信息等。网络平台例如可以是微信、QQ、MSN等即时通讯工具，也可以是新浪微博、豆瓣、开心网、人人网、Facebook等社交网站，也可以是支付宝、财付通、百度钱包等支付平台。以微信为例，公共账号例如可以是微信的公众号。

通常情况下，从公共账号的数据中，能够获取表征该公共账号类别属性的属性信息，所述属性信息可以包括文本信息和非文本信息。其中，非文本信息可以包括该公共账号所调用的网络平台的接口类别、该公共账号的菜单内容、以及该公共账号发布的主题中的一个或多个；文本信息可以包括直接反映该公共账号类别属性的直接文本信息、例如该公共账号的昵称、功能描述、签名描述中的一个或多个，以及间接反映该公共账号类别属性的间接文本信息、例如该公共账号向网络平台提供的描述文本。

步骤S200、从所述属性信息中提取分类依据特征。

对于一些发布文章、视频、图片等多媒体资源的订阅类的公共账号(例如微信订阅号)，其发布的文章、视频、图片等多媒体资源的主题作为非文本信息，能够较好地区分不同类别的公共账号，因此可以直接提取为分类依据特征。也可以通过进一步分析挖掘其发表的上述资源主题的分布，得到发布最频繁的排名靠前的主题来作为分类依据特征。

具体地，在这种可能的实现方式中，在步骤S100中获取的非文本信息为所述待分类账号发布的主题。则步骤S200可以包括：根据单位时段内的发布频率对所述待分类账号发布的主题进行排序；以及选取排序在预定阈值以前的主题作为所述分类依据特征。例如，在24小时内，某一待分类账号发布了10篇文章，其中，7篇文章的主题为心灵鸡汤，2篇文章的主题为幽默笑话，1篇文章的主题为科普。若将预定阈值设置为1，则将排名第1的“心灵鸡汤”作为该待分类账号的分类依据特征。本领域技术人员应能理解，单位时段不限于24小时，可以根据实际应用灵活设置，例如设置为12小时、48小时等。待分类账号发布的资源不限于文章，还可以是图片、视频、音频等。预定阈值也不限于1，可以根据该账号发布的主题的数目等因素灵活设置。

这样，由于发布的资源的主题能够很好地区分出订阅类的公共账号的类别(例如可以是心灵鸡汤、幽默笑话、体育新闻或者金融分析)，因此通过进一步挖掘公共账号发布的资源的主题，并根据主题来确定重要的分类依据特征，能够提高公共账号的分类精度。

另外，对于一些服务类型的公共账号(例如微信服务号)，其菜单内容以及其所调用的网络平台的接口类别作为非文本信息，都能够体现其服务内容，因此可以提取为该公共账号的待分类依据特征。这对尤其是一些使用英文名称或者缩写作为昵称或者功能描述的不易区分类别的公共账号来说，能够更好地挖掘出其服务内容以进行分类。

具体地，在这种可能的实现方式中，如上所述，在步骤S100中获取的非文本信息还可以包括待分类账号所调用的网络平台的接口类别或者该待分类账号的菜单内容。例如，如果菜单内容包括“转账”、“查询余额”、“话费充值”、“流量查询”等能够体现该待分类账号的服务内容的信息，则可以将这些菜单内容直接作为其待分类依据特征。再例如，某些公共账号调用了网络平台的与支付相关的接口，则可以将“支付”作为其待分类依据特征。

这样，通过这种方式进一步挖掘公共账号的服务内容，并将服务内容作为重要的分类依据特征，能解决行业分类中因为公共账号名称、描述比较模糊导致分类不准确的问题。

在另一种可能的实现方式中，在步骤S100中获取的文本信息包括直接反映所述待分类账号类别属性的直接文本信息。则步骤S200可以包括：对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；以及从所述字词序列中抽取关键词和/或n-gram片段，作为所述分类依据特征。其中，可以从所述待分类账号的昵称、功能介绍、经营范围、签名描述等所有用于描述该待分类账号的文本描述域获取其直接文本信息。下面对所述直接文本信息进行的处理进行示例性说明。

分词就是对获取到的所有直接文本信息进行划分，例如，某一待分类账号的文本描述域中有如下文本：为您提供身边的汽车保养信息和优质低价的服务。对该文本进行分词处理，可以形成如下的字词序列：“为”、“您”、“提供”、“身边的”、“汽车”、“保养”、“信息”、“和”、“优质”、“低价的”、“服务”。

去停用词就是去除一些无实际意义的词，例如英文字母、标点、数字或者“的”、“和”之类的词，如果对上述分词处理之后得到的字词序列进行去停用词处理，可以得到如下的字词序列：“提供”、“身边的”、“汽车”、“保养”、“信息”、“优质”、“低价的”、“服务”。

实体词识别就是从字词序列中获取能够对分类有意义的词、主要是动词和名词，例如，对上述去停用词处理之后得到的字词序列进行实体词识别处理，可以得到如下的字词序列：“提供”、“汽车”、“保养”、“信息”、“服务”。

文本过滤可以进一步去除可能在很多种类的公共账号中都出现的词，也即这些词对公共账号的区分度不明显，例如，对上述实体词识别处理之后得到的字词序列进行文本过滤处理，可以得到如下的字词序列：“汽车”、“保养”。

另外，可以根据预定规则，从所述字词序列中抽取关键词和/或n-gram片段，作为分类依据特征；其中，预定规则可以是基于n-gram(一种语言模型)、语义、服务内容等中的一个或多个的规则，也可以基于特殊规则来提取分类依据特征，所述特殊规则可以是根据实际应用需要而自定义的规则，例如，在字词序列中出现97.8Hz的情况下，提取出“频率”作为分类依据特征，在出现100元的情况下，提取出“价格”作为分类依据特征。所提取的分类依据特征可以是字词序列中的两个以上的相邻字词的组合，也可以只是上述字词序列中的一个词。例如，假设字词序列中包括“汽车”、“驾驶”、“培训”、“清洗”…，在选择基于n-gram和语义来提取分类依据特征的情况下，取n为2，则所提取的特征包括“汽车驾驶”“驾驶培训”“培训清洗”，根据语义，可取前两个特征作为分类依据特征。

在又一种可能的实现方式中，在步骤S100中获取的文本信息包括间接反映所述待分类账号类别属性的间接文本信息。则步骤S200可以包括：对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；以及基于所述字词序列，通过语义分析获取所述分类依据特征。其中，所述间接文本信息可以是所述待分类账号向网络平台提供的描述文本。对间接文本信息进行的处理可以与以上说明的对直接文本信息进行的处理相同，这里不再赘述。另外，在所述间接文本信息较长的情况下，也可以直接通过语义分析来从所述间接文本信息中获取该公共账号的主题特征、例如汽车销售或者篮球赛事等，作为所述分类依据特征。

步骤S300、根据所述分类依据特征，按照预先确定的分类模型，对所述待分类账号进行分类。例如，可预先确定这样的分类模型：当分类依据特征为“汽车驾驶”和“驾驶培训”时，将待分类账号分类为“汽车”类别。这样，根据分类依据特征“汽车驾驶”和“驾驶培训”，按照该预先确定的分类模型，即能够将该待分类账号划分到“汽车”这一类别，还可以对该待分类账号进一步地进行细分，例如划分到“汽车”这一类别下的“驾驶培训”这一类别中。

这样，通过从待分类账号的数据中，获取表征所述待分类账号类别属性的属性信息，其中，所述属性信息包括文本信息和非文本信息，然后从所述属性信息中提取分类依据特征，最后根据所述分类依据特征，按照预先确定的分类模型，对所述待分类账号进行分类。根据本发明实施例的网络平台公共账号分类方法能够对公共账号进行合理地分类，从而使得公共账号能够得到有效的分类组织和管理。

需要详细说明的是，可以选取感兴趣的公共账号作为所述待分类账号，其中，可以按照关注用户的数量对公共账号进行排序，并将排名靠前的公共账号作为感兴趣的公共账号。然后采用本发明上述实施例说明的方法进行分类，以得到所述感兴趣的公共账号的分类结果，从而能够基于所述分类结果，获得所述感兴趣的公共账号的统计信息、例如所述感兴趣的公共账号的行业分布、用户分布、行业排名、行业影响力中的一个或多个。这样，利用所获取的统计信息，能够为网络平台的商业化进程提供决策支持。

另外，还可以根据用户与公共账号的交互频度，来确定用户偏好的公共账号，并将所述用户偏好的公共账号作为所述待分类账号。然后采用本发明上述实施例说明的方法进行分类，以得到所述用户偏好的公共账号的分类结果，从而能够基于所述分类结果，确定所述用户偏好的公共账号的类别，以推断该用户的兴趣和状态，为用户提供个性化服务、例如为用户推荐相同或相似类别的公共账号。

当然，基于对公共账号进行分类的结果的应用不限于以上所述，还可以根据实际场景灵活应用。例如，在所述用户进行公共账号搜索的情况下，可以将所搜索的公共账号作为所述待分类账号。然后采用本发明上述实施例说明的方法进行分类，以得到所搜索的公共账号的分类结果，这样除了为所述用户推送所搜索的公共账号之外，还能够基于所述分类结果为所述用户推送与所搜索的公共账号的类别相同或相近的公共账号，以使得所推送的公共账号为用户感兴趣的公共账号。

实施例2

图2示出根据本发明另一实施例的网络平台公共账号分类方法的流程图。图2中标号与图1相同的组件具有相同的功能，为简明起见，省略对这些组件的详细说明。

如图2所示，在图1示出的实施例1的基础上，本实施例的网络平台公共账号分类方法还包括确定在步骤S300使用的分类模型的步骤，包括：步骤S400、确定训练样本集合中的各训量样本的类别与所述分类依据特征之间的对应关系，其中，所述训练样本集合中的各训练样本为已标注有类别的公共账号，例如可以通过人工来标注训练样本的类别，可以按照公共账号提供的服务在国民经济体系中所属的行业将公共账号的类别划分为“汽车”、“金融”、“房地产”等；以及步骤S500、根据所述对应关系来确定所述分类模型。

在一种可能的实现方式中，假设训练样本集合中的样本训练数量为正整数N，例如N可以为10000，如图5所示，上述步骤S500可以包括：

步骤S510、设定i＝1；其中，i为正整数。

步骤S520、从第i个训量样本的数据中，获取表征该训练样本类别属性的属性信息。

步骤S530、从第i个训练样本的属性信息中提取样本特征。其中，执行步骤S520和步骤S530的处理可以分别与执行实施例1的步骤S100和步骤S200的处理相同，具体可以参见在实施例1中对步骤S100和步骤S200的说明。

步骤S540、统计第i个训练样本的类别对在步骤S530中提取出的样本特征的引用数；其中所述引用数表示被标注为所述类别的训练样本中出现所述样本特征的次数。例如，类别“汽车”对样本特征“宝马”这一分类依据特征的引用数为60，即在类别为“汽车”的训练样本中出现“宝马”这一样本特征的次数为60。

在一种可能的实现方式中，如图6所示，步骤S540可以包括：步骤S541、判断是否存在要统计引用数的类别与所述样本特征之间的对应关系，例如，判断是否已经建立了类别“汽车”与样本特征“宝马”的对应关系；并且，在不存在所述类别与所述样本特征之间的对应关系的情况下，进行步骤S543、记录所述类别与所述样本特征之间的对应关系，以及步骤S544、将该类别对该样本特征的引用数设为一；在存在所述类别与所述样本特征之间的对应关系的情况下，进行步骤S542、将该类别对该样本特征的引用数加一。

针对训练样本集合中的第i个训练样本进行步骤S520至步骤S540的处理之后，执行步骤S550、判断i是否小于N；其中，在i小于N的情况下，说明训练样本集合中还存在未进行步骤S520至步骤S540的处理的训练样本，则接着进行步骤S551、将i+1的值赋予i，然后继续针对下一个训练样本进行步骤S520至步骤S540的处理；在i不小于N的情况下，说明训练样本集合中所有的训练样本均进行了步骤S520至步骤S540的处理，则接着进行步骤S552、针对训练样本集合涉及的每个类别，计算该类别对某一样本特征的引用数相对于训练样本集合涉及的所有类别对该样本特征的引用数的比例(以下也称为引用比例)。

步骤S553、将比例大于预定阈值的样本特征作为确定所述类别的分类依据特征；其中，预定阈值例如可以是50％，也可以是根据实际情况确定的其它值，例如30％或者70％等。例如，在10000个训练样本集合中，有1000个被标注为“汽车”这一类别的公共账号，其中，类别“汽车”对样本特征“宝马”的引用数为60，即在1000个类别为“汽车”的训练样本中出现“宝马”这一样本特征的次数为60，在训练样本集合中其它训练样本的类别对样本特征“宝马”的引用数总共为40，则类别“汽车”对样本特征“宝马”的引用数相对于训练样本集合涉及的所有类别对样本特征“宝马”的引用数的比例为60％。那么在预定阈值设置为50％的情况下，将“宝马”这一样本特征作为确定“汽车”这一类别的重要特征、即所述的分类依据特征。

再例如，类别“银行”对样本特征“查询余额”的引用数相对于训练样本集合涉及的所有类别对样本特征“查询余额”的引用数的比例为80％，对样本特征“转账汇款”的引用数相对于训练样本集合涉及的所有类别对样本特征“转账汇款”的引用数的比例为90％，那么在预定阈值设置为70％的情况下，将“转账汇款”和“查询余额”这两个样本特征作为确定“银行”这一类别的重要特征、即所述的分类依据特征。

本领域技术人员应能理解，以上所述仅为说明本实施例而举出的示例，本发明应不限于此。用户完全可根据实际应用灵活设定预定阈值，例如可以根据用于确定类别的分类依据特征的个数来设定。当然，分类依据特征的个数也不限于上述示例中列举的一个或两个，可以是更多个。另外需要说明的是，预定阈值设置得越高，则分类的正确率越高，但是分类覆盖率越低，可能存在无法对公共账号进行分类的情况，因此在设置预定阈值时，通常需要考虑分类正确率和分类覆盖率这两者的折中。

为了提高分类的效果，还可以记录各个类别对其分类依据特征的引用比例中超过上述预定阈值的部分，并在对公共账号进行分类时，考虑这部分引用比例的因素。具体地，假设针对引用比例的上述预定阈值为50％，并记录了类别“汽车”对“宝马”的引用比例为60％，类别“玩具”对“宝马”的引用比例为“55％”，则在待分类账号的分类依据特征出现“宝马”时，该待分类账号的类别可能为“汽车”和“玩具”，具体属于哪一类别，可根据所记录的引用比例的大小，选择“汽车”作为其类别，也可以通过进一步考虑该待分类账号的其它分类依据特征来确定。当然，如果待分类账号中出现了某类别对其引用比例较高(例如超过98％)的分类依据特征，为了提高分类的速度，也可以直接将该待分类账号确定为该类别，例如假设记录了类别“汽车”对“汽车维修”的引用比例为100％，则在待分类账号的分类依据特征出现“汽车维修”时，可将该待分类账号的类别直接确定为“汽车”。

以上所述的主要是根据训练样本集合中的各训量样本来确定分类模型的步骤。在确定分类模型之后，通过进行步骤S100至步骤S300的处理，能够根据确定的分类模型对公共账号进行更准确、更合理地分类，从而使得公共账号能够得到有效的分类组织和管理。然而，本领域技术人员应理解，确定分类模型的方式不限于此，本领域技术人员可根据实际情况采用其它方式确定分类模型，例如根据统计经验，或根据其它模型训练方法等，例如可以选择基于最大熵、支持向量机、决策树等发展成熟的机器学习自动分类技术来确定分类模型。

实施例3

图3示出根据本发明又一实施例的网络平台公共账号分类方法的流程图。图3中标号与图1和图2相同的组件具有相同的功能，为简明起见，省略对这些组件的详细说明。

如图3所示，在图1示出的实施例1的基础上，本实施例的网络平台公共账号分类方法还包括确定在步骤S300使用的分类模型的步骤。本实施例与图2示出的实施例2的主要区别在于，本实施例通过多个训练样本集合确定出多个待验证分类模型，然后通过验证样本集合对所确定出的待验证分类模型进行验证。具体地，本实施例的公共账号分类方法在步骤S300之前还可以包括：

步骤S600、针对多个训练样本集合，分别确定每个训练样本集合中的各训量样本的类别与分类依据特征之间的对应关系，其中，所述每个训练样本集合中的各训练样本为已标注有类别的公共账号；

步骤S700、根据所述对应关系，来确定所述每个训练样本集合的待验证分类模型；

步骤S800、利用验证样本集合中的验证样本对所述待验证分类模型进行验证，以得到各所述待验证分类模型的验证结果，其中，所述验证样本集合中的验证样本为已标注有类别的公共账号；以及

步骤S900、根据所述验证结果确定所述分类模型。

其中，针对多个训练样本集合的每个训练样本集合进行在实施例2中说明的步骤S400和步骤S500的处理，即能够实现本实施例的步骤S600和步骤S700。

在一种可能的实现方式中，假设训练样本集合的数目为正整数K，例如K可以为10，则可以确定出10个待验证分类模型，假设用于对待验证分类模型进行验证的验证样本集合中验证样本的数目为正整数M，例如M可以为2000，则如图7所示，利用验证样本集合对各个待验证分类模型进行验证的步骤S800可以包括：

步骤S810、设定j＝1、A＝0、B＝0；其中，j、A和B均为整数，A表示利用某一待验证分类模型对验证样本准确分类的数目，B表示利用某一待验证分类模型对验证样本无法分类的数目。

步骤S820、从第j个验证样本的数据中，获取表征该验证样本类别属性的属性信息；

步骤S830、从第j个验证样本的属性信息中，提取该验证样本的分类依据特征；

步骤S840、根据第j个验证样本的分类依据特征，按照第k(1≤k≤K，k为正整数)个待验证分类模型，对所述验证样本进行分类；其中，执行步骤S820至步骤S840的处理可以分别与执行实施例1的步骤S100至步骤S300的处理相同，具体可以参见在实施例1中对步骤S100至步骤S300的说明。

步骤S850、判断是否对第j个验证样本进行了分类，在没有进行分类的情况下，说明该第k个待验证分类模型不存在与第j个验证样本相匹配的类别，则进行步骤S851、将B+1的值赋予B；在进行了分类的情况下，说明该第k个待验证分类模型存在与第j个验证样本相匹配的类别，则进行步骤S852、进一步判断分类得到的第j个验证样本的类别与所标注的第j个验证样本的类别是否相同，在相同的情况下，说明第k个待验证分类模型对第j个验证样本分类正确，则接着进行步骤S853、将A+1的值赋予A；在不相同的情况下，说明第k个待验证分类模型对第j个验证样本分类不正确，则与进行步骤S851和步骤S853之后的处理一样，进行用于判断验证样本集合的所有验证样本是否均按照第k个待验证分类模型进行了分类的处理。

具体地，执行步骤S860、判断j是否小于M；其中，在j小于M的情况下，说明验证样本集合中还存在未按照第k个待验证分类模型进行分类的验证样本，则接着进行步骤S861、将j+1的值赋予j，然后针对下一个验证样本进行步骤S820至步骤S840的处理；在j不小于M的情况下，说明验证样本集合中所有的验证样本均按照第k个待验证分类模型进行了分类，则接着进行用于计算该第k个待验证分类模型分类的准确度和召回度的处理。其中，在步骤S862中计算A/M，以作为第k个待验证分类模型分类的准确度，在步骤S873中计算(M-B)/M，以作为第k个待验证分类模型分类的召回度。

针对所有K个待验证分类模型分别进行上述验证，以得到各待验证分类模型对验证样本分类的准确度和召回度，然后根据准确度和召回度来确定用于对待分类账号进行分类的分类模型。例如，可以取准确度和召回度最高的待验证分类模型作为上述分类模型。一般情况下，准确度和召回度可能无法同时实现最高，则可以根据实际应用采用对两者折中的F1值作为挑选标准。例如，F1值为准确度和召回度与其各自权重的乘积之和，可以根据实际应用来确定准确度和召回度各自的权重。可选地，也可以只选择准确度和召回度中的一个指标作为挑选标准。例如，可以只进行步骤S862和步骤S863中的一个，即只计算准确度和召回度中的一个，并基于所计算的准确度或召回度来确定分类模型。

需要说明的是，也可以采用多个验证样本集合对各个待验证分类模型进行验证，取某一待验证分类模型对各个验证样本集合分类的准确度和召回度的平均值作为挑选标准。

另外，验证样本和训练样本也可以存在重合，例如样本库有10000个样本，随机抽取8000个作为训练样本，其余2000作为验证样本，作为一组样本集合。再从样本库中重新随机抽取8000个作为训练样本(可与第一次抽取的8000个存在交叉)，其余2000作为验证样本，作为另一组样本集合。以此类推，可以根据实际应用来选择样本集合的数目。当然，也可以按照预定规则来选择作为训练样本和验证样本的数据，例如按照顺序、跳序等规则来抽取。训练样本和验证样本的数目也不限于上述的8000和2000，可以根据实际应用灵活选择。

这样，通过多重交叉验证，能够选择出最佳的分类模型，从而通过进行步骤S100至步骤S300的处理，能够根据选取的最佳分类模型对网络平台公共账号进行更准确、更合理地分类，从而使得公共账号能够得到有效的分类组织和管理。

实施例4

图4示出根据本发明又一实施例的网络平台公共账号分类方法的流程图。图4中标号与图1相同的组件具有相同的功能，为简明起见，省略对这些组件的详细说明。

如图4所示，本实施例与图1示出的实施例1的主要区别在于，本实施例的分类方法采用top-down(上层-下层)的两层分类结构。具体地，在本实施例的网络平台公共账号分类方法中，预先确定的分类模型可以包括一级分类模型和二级分类模型，步骤S300可以包括：

步骤S310、根据一级分类模型，将待分类账号划分到一级类别；以及

步骤S320、根据二级分类模型，将待分类账号划分到所述一级类别下的二级类别。

其中，可以采用在实施例2或者实施例3中所述的步骤来确定上述的一级分类模型和二级分类模型。二级分类属于较细粒度的分类，因此，在分类策略上，除了使用训练的分类模型，还可以加入人工设定的分类规则和实体词典，以减少分类模型的覆盖能力不足带来的负面影响。例如，在某个公共账号的分类依据特征没有涵盖在分类模型中的情况下，可以通过人工干预，按照设定的分类规则，基于该分类依据特征对该公共账号进行分类。也可以根据实体词典，对该分类依据特征进行同义近似，以得到能够涵盖在分类模型中的分类依据特征。

另外，也可以在二级分类的基础上进一步细分，例如根据三级分类模型，以将待分类账号划分到所述二级类别下的三级类别。

本发明实施例通过多级分类模型，将网络平台公共账号进行较细的分类，来解决公共账号缺乏分类标签的问题，同样实现了对公共账号的自动分类组织和管理，为公共账号推荐应用提供推荐依据，为商业化提供行业数据支持。另外，利用根据本发明实施例的网络平台公共账号分类方法对公共账号进行分类的结果，能够进一步实现与基于根据实施例1对公共账号进行分类的结果所进行地应用相同的应用。

实施例5

图8示出根据本发明一实施例的网络平台公共账号分类装置10的结构框图。如图8所示，该网络平台公共账号分类装置10主要包括：获取模块100、提取模块200和分类模块300。其中，获取模块100用于从待分类账号的数据中，获取表征所述待分类账号类别属性的属性信息；提取模块200与获取模块100连接，用于从所述属性信息中提取分类依据特征；分类模块300与提取模块200连接，用于根据所述分类依据特征，按照预先确定的分类模型，对所述待分类账号进行分类。获取模块100、提取模块200和分类模块300的具体实现机理可以参见实施例1和图1中对步骤S100至步骤S300的说明。

在一种可能的实现方式中，所述属性信息可以包括文本信息和非文本信息，所述非文本信息可以包括所述待分类账号所调用的网络平台的接口类别、所述待分类账号的菜单内容、以及所述待分类账号发布的主题中的一个或多个。

其中，在所述非文本信息包括所述待分类账号发布的主题的实现方式中，所述装置10还可以包括：排序模块，与提取模块200连接，用于根据单位时段内的发布频率对所述待分类账号发布的主题进行排序；提取模块200还可以用于选取排序在预定阈值以前的主题作为所述分类依据特征。

在一种可能的实现方式中，所述文本信息可以包括直接反映所述待分类账号类别属性的直接文本信息，例如，该直接文本信息可以包括所述待分类账号的昵称、功能描述、签名描述中的一个或多个。所述装置10还可以包括：第一预处理模块，与提取模块200连接，用于对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；提取模块200还可以用于从所述字词序列中抽取关键词和/或n-gram片段，作为所述分类依据特征。

在一种可能的实现方式中，所述文本信息还可以包括间接反映所述待分类账号类别属性的间接文本信息，例如，该间接文本信息可以包括所述待分类账号向网络平台提供的描述文本。所述装置10还可以包括：第二预处理模块，与提取模块200连接，用于对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；提取模块200还用于基于所述字词序列，通过语义分析获取所述分类依据特征。

在一种可能的实现方式中，所述装置10还可以包括：第一选取模块和分析模块。其中，第一选取模块与获取模块100连接，用于选取感兴趣的公共账号作为所述待分类账号，并依次通过获取模块100、提取模块200、分类模块300对所述感兴趣的公共账号进行分类，以得到所述感兴趣的公共账号的分类结果；分析模块与分类模块300连接，用于基于所述分类结果，获得所述感兴趣的公共账号的统计信息，其中所述统计信息包括所述感兴趣的公共账号的行业分布、用户分布、行业排名、行业影响力中的一个或多个。

在一种可能的实现方式中，所述装置10还可以包括：确定模块、第二选取模块和推荐模块。其中，确定模块用于根据用户与公共账号的交互频度，来确定用户偏好的公共账号；第二选取模块与确定模块和获取模块100连接，用于将所述用户偏好的公共账号作为所述待分类账号，并依次通过获取模块100、提取模块200、分类模块300对所述用户偏好的公共账号进行分类，以得到所述用户偏好的公共账号的分类结果；推荐模块与分类模块300连接，用于基于所述分类结果，确定所述用户偏好的公共账号的类别，以为用户推荐相同或相似类别的公共账号。

根据本实施例上述实现方式的网络平台公共账号分类装置能够实现与实施例1相同的效果。

在一种可能的实现方式中，在图8示出的基础上，如图9所示，根据本发明另一实施例的网络平台公共账号分类装置20还可以包括第一对应关系确定模块400和第一模型确定模块500。其中，第一对应关系确定模块400用于确定训练样本集合中的各训量样本的类别与所述分类依据特征之间的对应关系，其中，所述训练样本集合中的各训练样本为已标注有类别的公共账号；第一模型确定模块500与第一对应关系确定模块400以及分类模块300连接，用于根据所述对应关系来确定所述分类模型。

在一种可能的实现方式中，获取模块100还用于针对所述训练样本集合中的每个训练样本，从所述训量样本的数据中，获取表征所述训练样本类别属性的属性信息；提取模块200还用于针对所述训练样本集合中的每个训练样本，从所述训练样本的属性信息中提取样本特征；所述装置20还可以包括统计模块，与提取模块200和分类模块300连接，用于统计所述训练样本的类别对所述样本特征的引用数，其中所述引用数表示被标注为所述类别的训练样本中出现所述样本特征的次数；第一对应关系确定模块400还用于针对所述训练样本集合涉及的每个类别，计算该类别对某一样本特征的引用数相对于所述训练样本集合涉及的所有类别对该样本特征的引用数的比例，在该比例大于预定阈值的情况下，将该样本特征作为确定所述类别的分类依据特征。

在一种可能的实现方式中，所述统计模块可以包括：第一引用数统计单元和第二引用数统计单元。其中，第一引用数统计单元用于在不存在所述类别与所述样本特征之间的对应关系的情况下，记录所述类别与所述样本特征之间的对应关系，并将该类别对该样本特征的引用数设为一；第二引用数统计单元用于在存在所述类别与所述样本特征之间的对应关系的情况下，将该类别对该样本特征的引用数加一。

其中，第一对应关系确定模块400和第一模型确定模块500的具体实现机理可以参见实施例2、图2、图5和图6中对步骤S400和步骤S500的说明。并且，根据本实施例上述实现方式的网络平台公共账号分类装置能够实现与实施例2相同的效果。

在一种可能的实现方式中，在图8示出的基础上，如图10所示，根据本发明又一实施例的网络平台公共账号分类装置30还可以包括第二对应关系确定模块600、第二模型确定模块700和验证模块800。

具体地，第二对应关系确定模块600用于针对多个训练样本集合，分别确定每个训练样本集合中的各训量样本的类别与分类依据特征之间的对应关系，其中，所述每个训练样本集合中的各训练样本为已标注有类别的公共账号；第二模型确定模块700与第二对应关系确定模块600以及分类模块300连接，用于根据所述对应关系，来确定所述每个训练样本集合的待验证分类模型；验证模块800与第二模型确定模块700连接，用于利用验证样本集合中的验证样本对所述待验证分类模型进行验证，以得到各所述待验证分类模型的验证结果，其中，所述验证样本集合中的验证样本为已标注有类别的公共账号；第二模型确定模块700还用于根据所述验证结果确定所述分类模型。

在一种可能的实现方式中，获取模块100还用于从所述验证样本的数据中，获取表征所述验证样本类别属性的属性信息；提取模块200还用于从所述验证样本的属性信息中，提取所述验证样本的分类依据特征；分类模块300还用于根据所述验证样本的分类依据特征，分别按照各所述待验证分类模型，对所述验证样本进行分类；验证模块800还用于将分类得到的验证样本的各类别与所标注的验证样本的类别进行比较，以计算出各待验证分类模型对验证样本分类的准确度和/或召回度；第二模型确定模块700还用于将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的分类模型。

其中，第二对应关系确定模块600、第二模型确定模块700和验证模块800的具体实现机理可以参见实施例3、图3和图7中对步骤S600至步骤S900的说明。

另外，在一种可能的实现方式中，图10中示出的第二对应关系确定模块600与图9中示出的第一对应关系确定模块400的具体实现机理相同，可以将第一对应关系确定模块400还配置为与第二对应关系确定模块600相同，而省略第二对应关系确定模块600，也可以将第二对应关系确定模块600还配置为与第一对应关系确定模块400相同，而省略第一对应关系确定模块400。

同样地，图10中示出的第二模型确定模块700与图9中示出的第一分类模型确定模块500的具体实现机理相同，可以将第一分类模型确定模块500还配置为与第二分类模型确定模块700相同，而省略第二分类模型确定模块700，也可以将第二分类模型确定模块700还配置为与第一分类模型确定模块500相同，而省略第一分类模型确定模块500。

根据本实施例上述实现方式的网络平台公共账号分类装置30能够实现与实施例3相同的效果。

在一种可能的实现方式中，所述预先确定的分类模型包括一级分类模型和二级分类模型。在图8示出的基础上，如图11所示，在本发明又一实施例的网络平台公共账号分类装置40中，分类模块300包括一级分类单元310和二级分类单元320。其中，一级分类单元310与提取模块100连接，用于根据所述一级分类模型，将所述待分类账号划分到一级类别；二级分类单元320与一级分类单元310连接，用于根据所述二级分类模型，将所述待分类账号划分到所述一级类别下的二级类别。

其中，一级分类单元310和二级分类单元320的具体实现机理可以参见实施例4以及图4中对步骤S310和步骤S320的说明。并且，根据本实施例上述实现方式的网络平台公共账号分类装置能够实现与实施例4相同的效果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种网络平台公共账号分类方法，其特征在于，包括：

根据用户与公共账号的交互频度，来确定用户偏好的公共账号；

将所述用户偏好的公共账号作为待分类账号；

当所述待分类账号属于订阅类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号发布的主题的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；

其中，所述直接文本信息包括所述待分类账号的昵称、功能描述、签名描述中的至少之一，所述间接文本信息包括所述待分类账号向网络平台提供的描述文本；

当所述待分类账号属于服务类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号所调用的网络平台的接口类别、所述待分类账号的菜单内容的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；

从所述属性信息中提取分类依据特征；

其中，当所述待分类账号属于订阅类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号发布频率的排名靠前的主题、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；当所述待分类账号属于服务类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号的服务内容、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；

根据所述分类依据特征，基于一级分类模型，将所述待分类账号划分到订阅类，基于二级分类模型，将所述待分类账号划分到较所述订阅类更细粒度的类别，或，基于一级分类模型，将所述待分类账号划分到服务类，基于二级分类模型，将所述待分类账号划分到较所述服务类更细粒度的类别，以得到所述用户偏好的公共账号的分类结果；

其中，所述一级分类模型或二级分类模型的分类依据特征是根据比例大于预定阈值的样本特征而确定的；所述比例为样本类别对所述样本特征的引用数相对于所有样本类别对所述样本特征的引用数的比值；

基于所述分类结果为所述用户推送与所述用户偏好的公共账号的类别相同或相近的公共账号。

2.根据权利要求1所述的方法，其特征在于，所述从所述属性信息中提取分类依据特征包括：

根据单位时段内的发布频率对所述待分类账号发布的主题进行排序；

选取排序在预定阈值以前的主题作为所述分类依据特征。

3.根据权利要求1所述的方法，其特征在于，所述从所述属性信息中提取分类依据特征包括：

对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；

从所述字词序列中抽取关键词和/或n-gram语言模型片段，作为所述分类依据特征。

4.根据权利要求1所述的方法，其特征在于，所述从所述属性信息中提取分类依据特征包括：

对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；

基于所述字词序列，通过语义分析获取所述分类依据特征。

5.根据权利要求1所述的方法，其特征在于，还包括：

选取感兴趣的公共账号作为所述待分类账号进行分类，以得到所述感兴趣的公共账号的分类结果；

基于所述分类结果，获得所述感兴趣的公共账号的统计信息，其中所述统计信息包括所述感兴趣的公共账号的行业分布、用户分布、行业排名、行业影响力中的一个或多个。

6.根据权利要求1所述的方法，其特征在于，所述一级分类模型或所述二级分类模型通过以下方法预先确定：

确定训练样本集合中的各训练样本的类别与所述分类依据特征之间的对应关系，其中，所述训练样本集合中的各训练样本为已标注有类别的公共账号；以及

根据所述对应关系来确定所述一级分类模型或所述二级分类模型。

7.根据权利要求1所述的方法，其特征在于，所述一级分类模型或所述二级分类模型通过以下方法预先确定：

针对多个训练样本集合，分别确定每个训练样本集合中的各训练样本的类别与分类依据特征之间的对应关系，其中，所述每个训练样本集合中的各训练样本为已标注有类别的公共账号；

根据所述对应关系，来确定所述每个训练样本集合的待验证分类模型；

利用验证样本集合中的验证样本对所述待验证分类模型进行验证，以得到各所述待验证分类模型的验证结果，其中，所述验证样本集合中的验证样本为已标注有类别的公共账号；以及

根据所述验证结果确定所述一级分类模型或所述二级分类模型。

8.根据权利要求6所述的方法，其特征在于，确定训练样本集合中的各训练样本的类别与所述分类依据特征之间的对应关系包括：

针对所述训练样本集合中的每个训练样本，进行以下步骤：

从所述训练样本的数据中，获取表征所述训练样本类别属性的属性信息；

从所述训练样本的属性信息中提取样本特征；

统计所述训练样本的类别对所述样本特征的引用数，其中所述引用数表示被标注为所述类别的训练样本中出现所述样本特征的次数；以及

针对所述训练样本集合涉及的每个类别，计算该类别对某一样本特征的引用数相对于所述训练样本集合涉及的所有类别对该样本特征的引用数的比例，在该比例大于预定阈值的情况下，将该样本特征作为确定所述类别的分类依据特征。

9.根据权利要求6所述的方法，其中，统计所述训练样本的类别对所述样本特征的引用数包括：

在不存在所述类别与所述样本特征之间的对应关系的情况下，记录所述类别与所述样本特征之间的对应关系，并将该类别对该样本特征的引用数设为一；在存在所述类别与所述样本特征之间的对应关系的情况下，将该类别对该样本特征的引用数加一。

10.根据权利要求7所述的方法，其特征在于，利用验证样本集合中的验证样本对所述待验证分类模型进行验证包括：

从所述验证样本的数据中，获取表征所述验证样本类别属性的属性信息；

从所述验证样本的属性信息中，提取所述验证样本的分类依据特征；

根据所述验证样本的分类依据特征，分别按照各所述待验证分类模型，对所述验证样本进行分类；以及

将分类得到的验证样本的各类别与所标注的验证样本的类别进行比较，以计算出各待验证分类模型对验证样本分类的准确度和/或召回度，以及

根据所述验证结果确定所述一级分类模型包括：将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的一级分类模型；

根据所述验证结果确定所述二级分类模型包括：将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的二级分类模型。

11.一种网络平台公共账号分类装置，其特征在于，包括：

获取模块，用于根据用户与公共账号的交互频度，来确定用户偏好的公共账号；

将所述用户偏好的公共账号作为待分类账号；

提取模块，与所述获取模块连接，用于从所述属性信息中提取分类依据特征；

分类模块，与所述提取模块连接，用于根据所述分类依据特征，基于一级分类模型，将所述待分类账号划分到订阅类，基于二级分类模型，将所述待分类账号划分到较所述订阅类更细粒度的类别，或，基于一级分类模型，将所述待分类账号划分到服务类，基于二级分类模型，将所述待分类账号划分到较所述服务类更细粒度的类别，以得到所述用户偏好的公共账号的分类结果；

推荐模块，用于基于所述分类结果为所述用户推送与所述用户偏好的公共账号的类别相同或相近的公共账号。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：排序模块，与所述提取模块连接，用于根据单位时段内的发布频率对所述待分类账号发布的主题进行排序；

所述提取模块还用于选取排序在预定阈值以前的主题作为所述分类依据特征。

13.根据权利要求11所述的装置，其特征在于，所述装置还包括：第一预处理模块，与所述提取模块连接，用于对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；

所述提取模块还用于从所述字词序列中抽取关键词和/或n-gram语言模型片段，作为所述分类依据特征。

14.根据权利要求11所述的装置，其特征在于，所述文本信息包括间接反映所述待分类账号类别属性的间接文本信息，

所述装置还包括：第二预处理模块，与所述提取模块连接，用于对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；

所述提取模块还用于基于所述字词序列，通过语义分析获取所述分类依据特征。

15.根据权利要求11所述的装置，其特征在于，还包括：

第一选取模块，与所述获取模块连接，用于选取感兴趣的公共账号作为所述待分类账号，并依次通过所述获取模块、所述提取模块、所述分类模块对所述感兴趣的公共账号进行分类，以得到所述感兴趣的公共账号的分类结果；

分析模块，与所述分类模块连接，用于基于所述分类结果，获得所述感兴趣的公共账号的统计信息，其中所述统计信息包括所述感兴趣的公共账号的行业分布、用户分布、行业排名、行业影响力中的一个或多个。

16.根据权利要求11所述的装置，其特征在于，还包括：

第一对应关系确定模块，用于确定训练样本集合中的各训练样本的类别与所述分类依据特征之间的对应关系，其中，所述训练样本集合中的各训练样本为已标注有类别的公共账号；以及

第一模型确定模块，与所述第一对应关系确定模块以及所述分类模块连接，用于根据所述对应关系来确定所述一级分类模型或所述二级分类模型。

17.根据权利要求11所述的装置，其特征在于，还包括：

第二对应关系确定模块，用于针对多个训练样本集合，分别确定每个训练样本集合中的各训练样本的类别与分类依据特征之间的对应关系，其中，所述每个训练样本集合中的各训练样本为已标注有类别的公共账号；

第二模型确定模块，与所述第二对应关系确定模块以及所述分类模块连接，用于根据所述对应关系，来确定所述每个训练样本集合的待验证分类模型；以及

验证模块，与所述第二模型确定模块连接，用于利用验证样本集合中的验证样本对所述待验证分类模型进行验证，以得到各所述待验证分类模型的验证结果，其中，所述验证样本集合中的验证样本为已标注有类别的公共账号；

所述第二模型确定模块还用于根据所述验证结果确定所述一级分类模型或所述二级分类模型。

18.根据权利要求16所述的装置，其特征在于，

所述获取模块还用于针对所述训练样本集合中的每个训练样本，从所述训练样本的数据中，获取表征所述训练样本类别属性的属性信息；

所述提取模块还用于针对所述训练样本集合中的每个训练样本，从所述训练样本的属性信息中提取样本特征；

所述装置还包括统计模块，与所述提取模块和所述分类模块连接，用于统计所述训练样本的类别对所述样本特征的引用数，其中所述引用数表示被标注为所述类别的训练样本中出现所述样本特征的次数；

所述第一对应关系确定模块还用于针对所述训练样本集合涉及的每个类别，计算该类别对某一样本特征的引用数相对于所述训练样本集合涉及的所有类别对该样本特征的引用数的比例，在该比例大于预定阈值的情况下，将该样本特征作为确定所述类别的分类依据特征。

19.根据权利要求18所述的装置，其中，所述统计模块包括：

第一引用数统计单元，用于在不存在所述类别与所述样本特征之间的对应关系的情况下，记录所述类别与所述样本特征之间的对应关系，并将该类别对该样本特征的引用数设为一；

第二引用数统计单元，用于在存在所述类别与所述样本特征之间的对应关系的情况下，将该类别对该样本特征的引用数加一。

20.根据权利要求17所述的装置，其特征在于，

所述获取模块还用于从所述验证样本的数据中，获取表征所述验证样本类别属性的属性信息；

所述提取模块还用于从所述验证样本的属性信息中，提取所述验证样本的分类依据特征；

所述分类模块还用于根据所述验证样本的分类依据特征，分别按照各所述待验证分类模型，对所述验证样本进行分类；

所述验证模块还用于将分类得到的验证样本的各类别与所标注的验证样本的类别进行比较，以计算出各待验证分类模型对验证样本分类的准确度和/或召回度；

所述第二模型确定模块还用于将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的一级分类模型；将准确度和/或召回度最高的分类模型确定为用于对所述待分类账号进行分类的二级分类模型。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有可执行指令；所述可执行指令被处理器执行时，实现权利要求1至10任一项所述的网络平台公共账号分类方法。