CN108241867A

CN108241867A - 一种分类方法及装置

Info

Publication number: CN108241867A
Application number: CN201611220359.5A
Authority: CN
Inventors: 徐宇; 任寅姿; 孙艳; 向邦宇; 杨建伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2018-07-03
Anticipated expiration: 2036-12-26
Also published as: CN108241867B

Abstract

本文公开了一种分类方法及装置；上述分类方法包括以下步骤：获取待分类企业的预定文本，其中，预定文本指描述待分类企业的属性信息的文本，且预定文本的长度大于或等于预定值；基于每个类别的多个特征词，构建预定文本对应类别的特征向量；根据每个类别的特征向量，确定所述待分类企业是否属于所述类别。

Description

一种分类方法及装置

技术领域

本发明涉及数据处理技术，尤其涉及一种分类方法及装置。

背景技术

目前，企业服务类应用获取互联网上的海量企业数据，如招聘信息、工商登记信息、各类专利及专利转化数据等，通过整合这些分散的数据为企业构建画像。在这个过程中，需要区分企业的类别，例如，行业类别、服务类别、业务类别等。然而，目前对企业类别的划分一般需要人工判断，导致分类准确性和效率较低。

以行业类别为例，企业行业是企业聚类的天然准则。企业服务类应用包含企业名称归一、企业经济指数计算、企业发展潜力值计算、企业数据可视化等模块，这些模块的构建都依赖于企业的行业类别。比如，在计算企业发展潜力值时，一个重要的指标就是企业所属行业的发展情况；进行企业数据可视化时，以行业类别为维度进行展示。

然而，目前在互联网上的企业数据，只有少部分带有指示行业类别的行业标签，而这些行业标签可能是人工随机确定的，没有全面考虑与企业业务范畴相关的多个行业类别。另外，行业标签的粒度存在不统一的情况，比如某企业在a网站被标记为O2O(Online ToOffline，线上到线下)，在b网站被标记为电商，在c网站被标记为互联网。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种分类方法及装置，能够基于预定文本对企业进行自动分类，从而提高企业分类的准确性和实用性。

本申请实施例提供一种分类方法，包括：

获取待分类企业的预定文本，其中，预定文本指描述所述待分类企业的属性信息的文本，且所述预定文本的长度大于或等于预定值；

基于每个类别的多个特征词，构建所述预定文本对应所述类别的特征向量；

根据每个类别的特征向量，确定所述待分类企业是否属于所述类别。

其中，所述根据每个类别的特征向量，确定所述待分类企业是否属于所述类别，可以包括：

将每个类别的特征向量输入所述类别的二分类模型，得到预测结果；根据所述预测结果，确定所述待分类企业是否属于所述类别；或者，

在每个类别的特征向量满足所述类别对应的第一预定条件时，确定所述待分类企业属于所述类别。

其中，所述根据所述预测结果，确定所述待分类企业是否属于所述类别，可以包括：

当所述预测结果为1时，确定所述待分类企业属于所述类别；

当所述预测结果为0时，确定所述待分类企业不属于所述类别。

其中，所述根据每个类别的特征向量，确定所述待分类企业是否属于所述类别之前，所述分类方法还可以包括：通过以下方式分别得到每个类别的二分类模型：

建立所述类别的二分类模型；

确定训练样本；

基于所述类别的多个特征词，构建每个训练样本对应所述类别的特征向量；

以每个训练样本对应所述类别的特征向量作为输入，训练所述类别的二分类模型。

其中，所述训练所述类别的二分类模型，可以包括：周期性训练所述类别的二分类模型。

其中，所述类别对应的第一预定条件，可以包括以下至少之一：特征向量中第一数值的数目满足阈值条件、特征向量中第一数值集中分布在预定区域。

其中，所述分类方法还可以包括：通过以下方式分别提供每个类别的多个特征词：

获取多个企业的预定文本作为第一样本；

针对每个类别分别进行以下处理：

根据预设的类别映射表，将所述多个第一样本区分为第二样本和第三样本，其中，第二样本属于所述类别，第三样本不属于所述类别；

根据所述第二样本和第三样本，确定所述类别的多个特征词。

其中，所述根据所述第二样本和第三样本，确定所述类别的多个特征词，可以包括：

统计预处理后的第二样本中的词；

根据所述第二样本和所述第三样本，确定所述每个词的卡方值；

选择卡方值满足第二预定条件的词作为所述类别的特征词。

其中，所述基于每个类别的多个特征词，构建所述预定文本对应所述类别的特征向量，可以包括：

在所述类别的一个特征词出现在所述预定文本时，确定所述特征词对应的特征值为第一数值；在所述类别的一个特征词没有出现在所述预定文本时，确定所述特征词对应的特征值为第二数值；

根据所述类别的全部特征词对应的特征值，构建所述预定文本对应所述类别的特征向量。

其中，所述获取待分类企业的预定文本之后，所述分类方法还可以包括：

根据预设的类别映射表，得到所述预定文本的映射结果；

根据所述映射结果，确定所述待分类企业所属的类别；

所述根据每个的特征向量，确定所述待分类企业是否属于所述类别之后，所述分类方法还包括：

结合第一结果和第二结果，确定所述待分类企业所属的类别，其中，所述第一结果为根据预设的类别映射表确定的所述待分类企业所属的类别，所述第二结果为根据多个类别的特征向量确定的所述待分类企业所属的类别。

其中，所述结合第一结果和第二结果，确定所述待分类企业所属的类别，可以包括：

确定第一结果和第二结果的并集中的类别，作为所述待分类企业所属的类别。

其中，所述获取待分类企业的预定文本之后，所述分类方法还可以包括：通过以下方式预处理所述预定文本：

对所述预定文本进行归一化处理；

对归一化处理后的预定文本进行分词及词性标注；

过滤掉停词、非名词的词以及非动词的词，得到预处理后的预定文本。

本申请实施例还提供一种分类装置，包括：

获取模块，用于获取待分类企业的预定文本，其中，所述预定文本指描述所述待分类企业的属性信息的文本，且所述预定文本的长度大于或等于预定值；

第一处理模块，用于基于每个类别的多个特征词，构建所述预定文本对应所述类别的特征向量；

第二处理模块，用于根据每个类别的特征向量，确定所述待分类企业是否属于所述类别。

其中，所述第二处理模块，可以用于通过以下方式根据每个类别的特征向量，确定所述待分类企业是否属于所述类别：

其中，所述分类装置还可以包括：模型建立和训练模块，用于通过以下方式分别得到每个类别的二分类模型：

建立所述类别的二分类模型；

确定训练样本；

其中，所述分类装置还可以包括：

第三处理模块，用于根据预设的类别映射表，得到所述预定文本的映射结果；根据所述映射结果，确定所述待分类企业所属的类别；

第四处理模块，用于结合第一结果和第二结果，确定所述待分类企业所属的类别，其中，所述第一结果为根据预设的类别映射表确定的所述待分类企业所属的类别，所述第二结果为根据多个类别的特征向量确定的所述待分类企业所属的类别。

本申请实施例还提供一种分类装置，包括：处理器和存储器；

其中，存储器用于存储用于分类的程序；该用于分类的程序在被处理器读取执行时，执行以下操作：

获取待分类企业的预定文本；其中，所述预定文本指描述所述待分类企业的属性信息的文本，且所述预定文本的长度大于或等于预定值；基于每个类别的多个特征词，构建所述预定文本对应所述类别的特征向量；根据每个类别的特征向量，确定所述待分类企业是否属于所述类别。

本申请实施例还提供一种分类方法，包括：

预处理待分类企业的简介文本；

采用预处理后的简介文本，对所述待分类企业所属的行业类别进行识别，得到识别结果；

根据所述识别结果，标记所述待分类企业所属的行业类别。

本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述的分类方法。

本申请实施例的方案能够基于预定文本，获取更多有助于企业分类的信息进行自动分类，具有良好的抗噪声能力，提高了分类准确率；而且针对每个类别，分别进行判断，能够提高分类效率以及实用性。另外，对于业务范畴涉及多个类别的企业，本申请实施例的方案能够识别出与企业业务范畴相关的多个类别，从而满足企业服务应用的实际需求，提高企业分类的实用价值。另外，本申请实施例中，通过对二分类模型的周期性更新，可以提升模型的分类效果。

当然，实施本申请的任一产品不一定需要同时达到以上所有优点。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

图1为本申请实施例一提供的分类方法的流程图；

图2为本申请实施例一提供的分类方法的应用示意图一；

图3为本申请实施例一提供的分类方法的应用示意图二；

图4为本申请实施例二提供的分类装置的示意图；

图5为本申请实施例二提供的分类装置的示例性示意图；

图6为本申请实施例四提供的分类方法的流程图。

具体实施方式

以下结合附图对本申请实施例进行详细说明，应当理解，以下所说明的实施例仅用于说明和解释本申请，并不用于限定本申请。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

需要说明的是，如果不冲突，本申请实施例以及实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

一些实施方式中，执行分类方法的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。内存可能包括模块1，模块2，……，模块N(N为大于2的整数)。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)，快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

下面先对本申请中出现的概念进行说明。

行业：指按生产同类产品或具有相同工艺过程或提供同类劳动服务划分的经济活动种类；

其中，行业的类别可以参照《国民经济行业分类》设置，例如，标准行业大类可以包括以下20个类别：(A)农、林、牧、渔业，(B)采矿业，(C)制造业，(D)电力、热力、燃气及水生产和供应业，(E)建筑业，(F)批发和零售行业，(G)交通运输、仓储和邮政业，(H)住宿和餐饮业，(I)信息传输、软件和信息技术服务业，(J)金融业，(K)房地产业，(L)租赁和商业服务业，(M)科学研究和技术服务业，(N)水利、环境和公共设施管理业，(O)居民服务、修理和其它服务业，(P)教育，(Q)卫生和社会工作，(R)文化、体育和娱乐业，(S)公共管理、社会保障和社会组织，(T)国际组织。

当然，行业的类别也可以基于其它方案或标准设置，或自行设置。

实施例一、一种分类方法，如图1所示，包括：

步骤101：获取待分类企业的预定文本；

步骤102：基于每个类别的多个特征词，构建预定文本对应类别的特征向量；

步骤103：根据每个类别的特征向量，确定待分类企业是否属于对应的类别。

其中，预定文本指描述待分类企业的属性信息的文本，且预定文本的长度大于或等于预定值。比如，预定文本中的字符数大于或等于预设值。预定值可以根据实际情况进行设置。预定文本可以指企业的简介文本。属性信息例如可以包括企业概况、企业发展状况、企业文化、企业主要产品、企业销售业绩、产品售后服务等。

其中，待分类企业可以指待确定类别(比如行业类别)的企业。待分类企业的预定文本可以通过百度搜索获取，也可以通过爬虫技术从相关网站获取，比如从招聘网站(如拉勾网等)抓取简介文本，或者，从企业信息网站(如36氪等)抓取简介文本。

其中，类别可以是行业类别，或表征其它属性的类别。本申请对此并不限定。

其中，每个类别分别具有多个特征词。即一个类别具有一组特征词(包括多个特征词)。不同类别具有的特征词可以部分相同或完全不同。每个类别的特征词可以通过预先配置确定，或者，可以基于样本进行提取。

其中，特征向量可以体现预定文本与类别的特征词之间的差异。针对一个类别，可以为预定文本构建对应这个类别的特征向量。

本实施例提供的分类方法可以用于确定待分类企业是否属于某一类别。比如，针对一个类别，确定待分类企业的预定文本对应这个类别的特征向量，根据确定的特征向量，可以确定待分类企业与这个类别的关系(比如，属于或不属于这个类别)。本实施例提供的分类方法还可以用于确定待分类企业所属的一个或多个类别。比如，针对预设的多个类别，分别进行步骤102和步骤103的处理，可以得到待分类企业与预设的多个类别的关系，进而可以确定待分类企业所属的类别。

一些实现方式中，本实施例提供的分类方法可以应用于服务端。服务端可以指服务端计算设备(例如，服务器)或者服务端计算设备上运行的虚拟机。比如，服务端在接收到用户指令后，可以从相关网站抓取预定文本，再根据步骤102和步骤103，确定抓取的预定文本对应的待分类企业所属的类别。其中，服务端在确定预定文本对应的待分类企业所属的类别后，可以给待分类企业提供类别标签，类别标签指示这个企业所属的类别；服务端还可以将携带类别标签的企业信息存储在数据库中，例如后续可以提供给企业服务类应用使用。

一些实现方式中，本实施例提供的分类方法可以应用于服务端。服务端可以与客户端配合。其中，客户端可以指客户端计算设备或者客户端计算设备上的应用程序(APP)。客户端可以提供人机交互界面，由用户在人机交互界面输入待分类企业的预定文本。客户端将接收到的预定文本发送给服务端，服务端可以根据步骤102和步骤103，确定预定文本对应的待分类企业所属的类别，并将确定的结果保存在数据库中，或者返回给客户端，由客户端显示或告知给用户。

一些实现方式中，在步骤101之后，本实施例的分类方法还可以包括：通过以下方式预处理预定文本：

对预定文本进行归一化处理；

对归一化处理后的预定文本进行分词及词性标注；

其中，归一化处理可以包括：全角转半角、繁体转简体。一些实现方式中，还可以在去除预定文本中的不可见字符后，再进行归一化处理。

其中，停词指自身没有确切意义的词，可以包括语气助词、副词、介词、连接词等，比如，“的”、“在”等。

比如，对预定文本进行预处理后，可以得到一个词列表，这个词列表中包括具有意义的名词和动词。

一些实现方式中，步骤102之前，本实施例的分类方法还可以包括：通过以下方式分别提供每个类别的多个特征词：

获取多个企业的预定文本作为第一样本；

针对每个类别分别进行以下处理：

根据预设的类别映射表，将多个第一样本区分为第二样本和第三样本，其中，第二样本属于这个类别，第三样本不属于这个类别；

根据第二样本和第三样本，确定这个类别的多个特征词。

其中，第一样本可以包括以下一种或多种类型的文本：带有类别标签的预定文本、没有类别标签的预定文本。

其中，预设的类别映射表提供类别标签至类别的映射关系，或者，提供预定词至类别的映射关系。预设的类别映射表可以人工配置，或者，通过机器学习得到。其中，一个预定词可以映射至一个或多个类别，多个预定词可以映射至同一个类别。一个类别标签可以映射至一个或多个类别，多个类别标签可以映射至同一个类别。一些实现方式中，类别映射表可以提供非标准类别至标准类别的映射关系。

比如，在一个第一样本携带有预定词时，根据预设的类别映射表，可以确定这个第一样本属于和这个预定词存在映射关系的类别。基于此，针对每个类别，都可以将多个第一样本分成属于这个类别的文本(即第二样本)和不属于这个类别的文本(即第三样本)。换言之，针对每个类别都存在属于这个类别的一个或多个第二样本，以及不属于这个类别的一个或多个第三样本。其中，第二样本的数目和第三样本的数目之和可以等于第一样本的数目。

其中，根据第二样本和第三样本，确定一个类别的多个特征词，可以包括：

统计预处理后的第二样本中的词；

根据第二样本和第三样本，确定每个词的卡方值；

选择卡方值满足第二预定条件的词作为类别的特征词。

其中，每个类别可以具有多个特征词。不同类别对应的特征词的数目可以相同或不同。本申请对此并不限定。

其中，在确定一个类别的特征词时，预处理对应于这个类别的全部第二样本得到预处理后的第二样本，比如多组词列表。关于第二样本的预处理过程可以参照对待分类企业的预定文本的预处理过程，故于此不再赘述。

其中，统计预处理后的第二样本中的词，例如可以得到具有意义的名词和动词。根据统计到的每个词在全部第二样本的分布情况和在全部第三样本的分布情况，基于卡方检验的原理，计算每个词的卡方值。其中，计算每个词在第二样本的分布情况与在第三样本的分布情况之间的分布差异程度，此分布差异程度就决定了卡方值的大小，分布差异越大，卡方值越大。卡方值越大的词，越能体现第二样本所属的类别。因此，挑选卡方值大的词作为第二样本所属的类别的特征词。比如，在计算得到预处理后的第二样本中出现的每个词的卡方值后，从大到小选择多个词作为第二样本所属的类别的特征词，或者，选择卡方值大于或等于阈值的多个词作为第二样本所属的类别的特征词。

一些实现方式中，步骤102可以包括：

在一个类别的一个特征词出现在预定文本时，确定这个特征词对应的特征值为第一数值；在这个类别的一个特征词没有出现在这个预定文本时，确定这个特征词对应的特征值为第二数值；

根据这个类别的全部特征词对应的特征值，构建这个预定文本对应这个类别的特征向量。

其中，第一数值例如为1，第二数值例如为0。

比如，预定文本对应一个类别的特征向量可以表示为：

x＝(W1，W2，W3…)；其中，Wi表示这个类别的所有特征词中第i个词是否出现在预定文本中，或者是否出现在预定文本预处理后得到的词列表中；若出现，则记Wi＝1，若没有出现，则记Wi＝0。

比如一个类别包括500个特征词，如词1、词2、.....、词500，对于一个预定文本m，可以根据以下方式构建对应于这个类别的特征向量：如果词1出现在预定文本m中，则词1对应的特征值为1，即特征向量的第一维是1，如果词1没有出现在预定文本m中，则词1对应的特征值为0，即特征向量的第一维是0；同理，可以确定特征向量的其它维。最终，可以得到一个500维的特征向量，每一维对应每个词的特征值。

一些实现方式中，步骤103可以包括：

针对一个类别，将预定文本对应这个类别的特征向量输入这个类别的二分类模型，得到预测结果；

根据预测结果，确定待分类企业是否属于这个类别。

其中，一个类别对应存在一个二分类模型，用于确定待分类企业是否属于这个类别。

其中，当预测结果为1时，确定待分类企业属于这个类别；当预测结果为0时，确定待分类企业不属于这个类别。即二分类模型输出的预测结果为布尔类型，预测结果为1，说明待分类企业属于这个类别，预测结果为0，说明待分类企业不属于这个类别。

一些实现方式中，本实施例的分类方法还可以包括：通过以下方式分别得到每个类别的二分类模型：

建立一个类别的二分类模型；

确定训练样本；

基于这个类别的多个特征词，构建每个训练样本对应这个类别的特征向量；

以每个训练样本对应这个类别的特征向量作为输入，训练这个类别的二分类模型。

其中，可以使用支持向量机算法、朴素贝叶斯或者逻辑回归算法建立二分类模型。

其中，针对每个类别分别建立一个二分类模型，训练样本可以是获取的多个第一样本。在建立一个类别的二分类模型时，根据预设的类别映射表，将这些第一样本区分为属于这个类别的多个第二样本和不属于这个类别的多个第三样本。在训练这个类别的二分类模型时，分别以每个第二样本的特征向量和每个第三样本的特征向量作为输入，每个第二样本的输出为1，每个第三样本的输出为0。其中，关于第二样本的特征向量构建过程和第三样本的特征向量构建过程可以参照步骤102中为预定文本构建特征向量的过程，故于此不再赘述。

其中，可以周期性训练每个类别的二分类模型，即每个类别的二分类模型是周期性更新的。在周期性更新过程中，可以获取新的训练样本进行二分类模型的训练。如此，通过迭代训练的方式，利用数据累计的优势，进行周期性地更新，可以提升模型的分类效果。

一些实现方式中，在步骤101之后，本实施例的分类方法还可以包括：根据预设的类别映射表，得到预定文本的映射结果；根据映射结果，确定待分类企业所属的类别。

比如，预设的类别映射表提供预定词至类别的映射关系。其中，一个预定词可以映射至一个或多个类别，多个预定词可以映射至同一个类别。在预定文本携带有预定词时，根据预设的类别映射表，可以确定与这个预定词存在映射关系的类别，即可以确定待分类企业属于与这个预定词存在映射关系的类别。

在本实现方式中，在步骤103之后，本实施例的分类方法还可以包括：

结合第一结果和第二结果，确定待分类企业所属的类别，其中，第一结果为根据预设的类别映射表确定的待分类企业所属的类别，第二结果为根据多个类别的特征向量确定的待分类企业所属的类别。

一些实现方式中，可以确定第一结果和第二结果的并集中的类别，作为待分类企业所属的类别。

以行业类别为例，根据待分类企业m的预定文本，参照预设的类别映射表，可以确定待分类企业m属于互联网行业；根据待分类企业m的预定文本，通过不同分类的二分类模型的预测结果，可以确定待分类企业m属于互联网行业和金融行业；综合上面两个结果，可以确定待分类企业m属于互联网行业和金融行业。如此，可以为待分类企业m标记互联网行业、金融行业两个行业标签。

一些实现方式中，可以确定第一结果和第二结果的交集中的类别，作为待分类企业所属的类别。比如，第一结果为互联网行业，第二结果为互联网行业和金融行业，可以确定最终结果为互联网行业。

一些实现方式中，步骤103可以包括：

在预定文本对应一个类别的特征向量满足这个类别对应的第一预定条件时，确定待分类企业属于这个类别。

一些实现方式中，第一预定条件可以包括以下至少之一：特征向量中第一数值的数目满足阈值条件、特征向量中第一数值集中分布在预定区域。

其中，针对不同的类别，第一预定条件可以相同或不同。

如前所述，特征向量可以包括多个特征值，且特征值可以为第一数值(如1)或第二数值(如0)。

一些实现方式中，可以通过对特征向量中特定数值(比如第一数值)的数量统计来确定待分类企业与对应类别的关系。比如，针对一个类别，待分类企业的预定文本对应这个类别的特征向量包括500个特征值，在特征值为1的数目大于或等于450时，可以确定待分类企业属于这个类别。

一些实现方式中，可以根据特征向量中特定数值(比如第一数值)的分布情况来确定待分类企业与对应类别的关系。比如，针对一个类别，待分类企业的预定文本对应这个类别的特征向量为(W1，W2，W3…，W500)，且特征向量中W1至W500的重要性逐渐减弱，可以定义W1至W100为预定区域，如果在预定区域中特征值W1至W100均为1，或者一定百分比的特征值均为1，则可以确定待分类企业属于这个类别。

下面参照图2和图3，说明本实施例的分类方法的应用。其中，以确定待分类企业所属的标准行业大类为例，标准行业大类的数目为20个。即，存在20个二分类模型，分别对应20个标准行业大类，每个标准行业大类具有一组特征词。

下面举例说明一个标准行业大类A的特征词确定过程和二分类模型训练过程，其它的标准行业大类的特征词确定过程和二分类模型训练过程类似，故于此不再赘述。

标准行业大类A的特征词确定过程如下：

获取多个第一样本，根据预设的类别映射表，将第一样本区分为属于标准行业大类A的多个第二样本和不属于标准行业大类A的多个第三样本。其中，第一样本可以为多个企业的简介文本，这些简介文本中部分简介文本可以携带行业标签，或者全部简介文本携带行业标签。预设的类别映射表可以包括非标准行业标签至标准行业大类的映射关系，或者，可以包括预定词至标准行业大类的映射关系。比如非标准行业标签O2O、电商以及互联网均映射到信息传输、软件和信息技术服务业。

然后，预处理每个第二样本，得到多个词列表；针对这些词列表中的每个词，根据这个词在所有第二样本的分布情况和在所有第三样本的分布情况，计算每个词的卡方值，并按照卡方值从大到小的顺序，选择前n个卡方值对应的词，作为标准行业大类A的特征词。即，标准行业大类A具有n个特征词，n为正整数。

标准行业大类A的二分类模型训练过程如下：

确定第二样本和第三样本作为标准行业大类A的二分类模型的训练样本；根据标准行业大类A的一组特征词，构建每个第二样本的特征向量以及每个第三样本的特征向量。将每个第二样本的特征向量作为输入，1作为输出，进行二分类模型的训练；将每个第三样本的特征向量作为输入，0作为输出，进行二分类模型的训练。

如图2所示，在进行行业分类过程中，针对待分类企业的简介文本，构建对应标准行业大类A的特征向量，并将得到的特征向量输入标准行业大类A的二分类模型，得到预测结果(比如，0或1)。同理，在其他标准行业大类(比如，标准行业大类B至T)，对待分类企业的简介文本有类似的处理。如此，可以得到20个预测结果，根据这些预测结果，确定待分类企业所属的标准行业大类。即，待分类企业属于预测结果为1对应的标准行业大类。

或者，在一些应用中，仅需判断待分类企业是否属于某一个或多个标准行业大类(比如，标准行业大类T)时，针对待分类企业的简介文本，仅构建对应标准行业大类T的特征向量，并将得到的特征向量输入标准行业大类T的二分类模型，得到预测结果。根据预测结果来确定待分类企业是否属于标准行业大类T，比如预测结果为1时，属于标准行业大类T，预测结果为0时，不属于标准行业大类T。

即，在实际应用中，可以选择进行一个或多个标准行业大类的预测，从而提高实用性和分类效率。

如图3所示，在进行行业分类过程中，针对待分类企业的企业简介文本，除了根据每个标准行业大类的二分类模型得到预测结果之外，还会根据预设的类别映射表，得到映射结果；然后，结合映射结果和多个预测结果，确定待分类企业所属的标准行业大类。其中，预设的类别映射表例如可以提供预定词至标准行业大类的映射关系，在待分类企业的企业简介文本携带预定词时，可以根据类别映射表确定这个预定词对应的一个或多个标准行业大类；在待分类企业的企业简介文本没有携带预定词时，得到的映射结果可以为空。或者，预设的类别映射表可以提供非标准行业标签至标准行业大类的映射关系；根据待分类企业携带的非标准行业标签，参照类别映射表确定对应的标准行业大类。

综上所述，本实施例通过对不同类别分别进行预测，综合预测结果来确定待分类企业所属的类别，能够满足实际情况中的不同分类需求，提高分类效率。而且，本实施例通过选取长度满足预定值的预定文本用于进行企业分类，抗噪声能力强，可以获得较佳的分类准确率；将企业分类问题看成多个二分类问题，可以为企业打上和企业业务范畴相关的多个类别的标记，更适合企业服务应用的实际需求。另外，采用了迭代训练的方法，利用数据累计的优势，对模型进行周期性地更新，可以提升模型的分类效果。

实施例二、一种分类装置，如图4所示，包括：

获取模块，用于获取待分类企业的预定文本；

第一处理模块，用于基于每个类别的多个特征词，构建预定文本对应这个类别的特征向量；

第二处理模块，用于根据每个类别的特征向量，确定待分类企业是否属于这个类别。

其中，预定文本指描述待分类企业的属性信息的文本，且预定文本的长度大于或等于预定值。关于预定文本的说明可以参照实施例一所述，故于此不再赘述。

一些实现方式中，第二处理模块，可以用于通过以下方式根据每个类别的特征向量，确定待分类企业是否属于这个类别：

将预定文本对应一个类别的特征向量输入这个类别的二分类模型，得到预测结果；根据预测结果，确定待分类企业是否属于这个类别；或者，

其中，第二处理模块，可以用于通过以下方式根据预测结果，确定待分类企业是否属于一个类别，包括：

当预测结果为1时，确定待分类企业属于对应的类别；

当预测结果为0时，确定待分类企业不属于对应的类别。

一些实现方式中，如图5所示，本实施例的分类装置还可以包括：模型建立和训练模块，用于通过以下方式分别得到每个类别的二分类模型：

建立一个类别的二分类模型；

确定训练样本；

一些实现方式中，模型建立和训练模块还可以用于周期性训练每个类别的二分类模型。

一些实现方式中，如图5所示，本实施例的分类装置还可以包括：提供模块，用于通过以下方式分别提供每个类别的特征词：

获取多个企业的简介文本作为第一样本；

针对每个类别分别进行以下处理：

根据预设的类别映射表，将多个第一样本区分为第二样本和第三样本，其中，第二样本属于一个类别，第三样本不属于这个类别；

根据第二样本和第三样本，确定这个类别的多个特征词。

其中，提供模块，可以用于通过以下方式根据第二样本和第三样本，确定一个类别的多个特征词：

统计预处理后的第二样本中的词；

根据第二样本和所述第三样本，确定每个词的卡方值；

选择卡方值满足第二预定条件的词作为这个类别的特征词。

一些实现方式中，第一处理模块，用于通过以下方式基于每个类别的多个特征词，构建预定文本对应这个类别的特征向量：

在这个类别的一个特征词出现在预定文本时，确定这个特征词对应的特征值为第一数值；在这个类别的一个特征词没有出现在预定文本时，确定这个特征词对应的特征值为第二数值；

根据这个类别的全部特征词对应的特征值，构建预定文本对应这个类别的特征向量。

一些实现方式中，如图5所示，本实施例的分类装置还可以包括：

第三处理模块，用于根据预设的类别映射表，得到预定文本的映射结果；根据映射结果，确定待分类企业所属的类别；

第四处理模块，用于结合第一结果和第二结果，确定待分类企业所属的类别，其中，第一结果为根据预设的类别映射表确定的待分类企业所属的类别，第二结果为根据多个类别的特征向量确定的待分类企业所属的类别。

一些实现方式中，第四处理模块，可以确定第一结果和第二结果的并集中的类别，作为待分类企业所属的类别。

一些实现方式中，获取模块，还用于通过以下方式预处理预定文本：

对预定文本进行归一化处理；

对归一化处理后的预定文本进行分词及词性标注；

关于本实施例的装置中各个模块所执行的操作的其它细节可以参见实施例一，故于此不再赘述。

实施例三、一种分类装置，包括：处理器和存储器；

获取待分类企业的预定文本；基于每个类别的多个特征词，构建预定文本对应类别的特征向量；根据每个的特征向量，确定待分类企业是否属于对应的类别；其中，预定文本指描述待分类企业的属性信息的文本，且预定文本的长度大于或等于预定值。

本实施例中，用于分类的程序在被处理器读取执行时，所执行的操作对应于实施例一中的步骤101至步骤103；该程序所执行的操作的其它细节可参见实施例一。

实施例四、一种分类方法，如图6所示，包括：

步骤601：预处理待分类企业的简介文本；

步骤602：采用预处理后的简介文本，对待分类企业所属的行业类别进行识别，得到识别结果；

步骤603：根据识别结果，标记待分类企业所属的行业类别。

其中，简介文本可以包括企业概况、企业发展状况、企业文化、企业主要产品、企业销售业绩、产品售后服务等一项或多项内容。

本实施例中，简介文本可以通过百度搜索获取，也可以通过爬虫技术从相关网站获取，比如从招聘网站(如拉勾网等)抓取简介文本，或者，从企业信息网站(如36氪等)抓取简介文本。

其中，步骤601中简介文本的预处理过程可以参照实施例一对预定文本的预处理过程，故于此不再赘述。步骤602中采用预处理后的简介文本进行行业类别的识别过程可以参照实施例一中图2和图3的说明，故于此不再赘述。在步骤603中，根据识别出的行业类别，对待分类企业进行标记，比如，为待分类企业打上所属行业类别的标签。

关于本实施例提供的分类方法的详细描述可以参照实施例一所述，故于此不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述分类方法。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本申请不限制于任何特定形式的硬件和软件的结合。

以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制，上述实施例和说明书中描述的只是说明本申请的原理，在不脱离本申请精神和范围的前提下，本申请还会有各种变化和改进，这些变化和改进都落入要求保护的本申请范围内。

Claims

1.一种分类方法，其特征在于，包括：

获取待分类企业的预定文本，所述预定文本指描述所述待分类企业的属性信息的文本，且所述预定文本的长度大于或等于预定值；

2.根据权利要求1所述的分类方法，其特征在于，所述根据每个类别的特征向量，确定所述待分类企业是否属于所述类别，包括：

3.根据权利要求2所述的分类方法，其特征在于，所述根据所述预测结果，确定所述待分类企业是否属于所述类别，包括：

当所述预测结果为1时，确定所述待分类企业属于所述类别；

4.根据权利要求2所述的分类方法，其特征在于，所述根据每个类别的特征向量，确定所述待分类企业是否属于所述类别之前，所述分类方法还包括：通过以下方式分别得到每个类别的二分类模型：

建立所述类别的二分类模型；

确定训练样本；

5.根据权利要求4所述的分类方法，其特征在于，所述训练所述类别的二分类模型，包括：周期性训练所述类别的二分类模型。

6.根据权利要求2所述的分类方法，其特征在于，所述类别对应的第一预定条件，包括以下至少之一：特征向量中第一数值的数目满足阈值条件、特征向量中第一数值集中分布在预定区域。

7.根据权利要求1所述的分类方法，其特征在于，所述分类方法还包括：通过以下方式分别提供每个类别的多个特征词：

获取多个企业的预定文本作为第一样本；

针对每个类别分别进行以下处理：

8.根据权利要求7所述的分类方法，其特征在于，所述根据所述第二样本和第三样本，确定所述类别的多个特征词，包括：

统计预处理后的第二样本中的词；

选择卡方值满足第二预定条件的词作为所述类别的特征词。

9.根据权利要求1所述的分类方法，其特征在于，所述基于每个类别的多个特征词，构建所述预定文本对应所述类别的特征向量，包括：

10.根据权利要求1所述的分类方法，其特征在于，所述获取待分类企业的预定文本之后，所述分类方法还包括：

根据预设的类别映射表，得到所述预定文本的映射结果；

根据所述映射结果，确定所述待分类企业所属的类别；

11.根据权利要求10所述的分类方法，其特征在于，所述结合第一结果和第二结果，确定所述待分类企业所属的类别，包括：

12.根据权利要求1所述的分类方法，其特征在于，所述获取待分类企业的预定文本之后，所述分类方法还包括：通过以下方式预处理所述预定文本：

对所述预定文本进行归一化处理；

对归一化处理后的预定文本进行分词及词性标注；

13.一种分类装置，其特征在于，包括：

14.根据权利要求13所述的分类装置，其特征在于，所述第二处理模块，用于通过以下方式根据每个类别的特征向量，确定所述待分类企业是否属于所述类别：

15.根据权利要求14所述的分类装置，其特征在于，所述分类装置还包括：模型建立和训练模块，用于通过以下方式分别得到每个类别的二分类模型：

建立所述类别的二分类模型；

确定训练样本；

16.根据权利要求13所述的分类装置，其特征在于，所述分类装置还包括：

17.一种分类装置，其特征在于，包括：处理器和存储器；

18.一种分类方法，其特征在于，包括：

预处理待分类企业的简介文本；

根据所述识别结果，标记所述待分类企业所属的行业类别。