CN110309301B

CN110309301B - 企业类别的分类方法、装置及智能终端

Info

Publication number: CN110309301B
Application number: CN201910387578.XA
Authority: CN
Inventors: 陈盼; 周滢垭; 吕丹扬
Original assignee: Shanghai Tellhow Meinergy Technology Co ltd
Current assignee: Shanghai maineng chuanghao Energy Technology Co.,Ltd.
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2021-03-19
Anticipated expiration: 2039-05-09
Also published as: CN110309301A

Abstract

本发明提供了一种企业类别的分类方法、装置及智能终端，包括：获取待分类的企业描述文本；通过词嵌入算法将企业描述文本转换为描述向量；将描述向量输入至预先训练得到的多标签分类模型；其中，多标签分类模型为Mask R‑CNN模型；获取多标签分类模型针对描述向量输出的多标签分类结果。本发明可以有效缓解企业分类的缺失问题，进而可以提高企业分类质量。

Description

企业类别的分类方法、装置及智能终端

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种企业类别的分类方法、装置及智能终端。

背景技术

随着经济的发展，各类企业也随之发展起来，对企业进行分类便于区分企业所处的领域，但是，一个企业可能同时属于多个领域，即一个企业存在多个标签，现有的企业类别分类方法对企业的分类存在分类缺失的问题，从而导致企业分类质量不高。

发明内容

有鉴于此，本发明的目的在于提供一种企业类别的分类方法、装置及智能终端，可以有效缓解企业分类的缺失问题，进而可以提高企业分类质量。

第一方面，本发明实施例提供了一种企业类别的分类方法，包括：获取待分类的企业描述文本；通过词嵌入算法将企业描述文本转换为描述向量；将描述向量输入至预先训练得到的多标签分类模型；其中，多标签分类模型为Mask R-CNN模型；Mask R-CNN模型采用RELU激励函数；获取多标签分类模型针对描述向量输出的多标签分类结果。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述多标签分类模型的训练过程包括：获取训练数据；其中，训练数据添加有分词ID集和文本ID集；分词ID集和文本ID集均预先经过Mask遮罩训练；采用训练数据训练多标签分类模型，得到训练后的多标签分类模型。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述获取训练数据的步骤，包括：获取携带有分类标签的企业描述文本；通过词嵌入算法，基于预设的词库字典将携带有分类标签的企业描述文本转换为携带有分类标签的描述向量；将携带有分类标签的描述向量确定为训练数据。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述多标签分类结果包括多个分类标签；上述方法还包括：计算各分类标签的输出概率；获取预先设置的各分类标签之间的层级关系；基于输出概率和层级关系，确定目标分类标签。

第二方面，本发明实施例还提供一种企业类别的分类装置，包括：文本获取模块，用于获取待分类的企业描述文本；转换模块，用于通过词嵌入算法将企业描述文本转换为描述向量；输入模块，用于将描述向量输入至预先训练得到的多标签分类模型；其中，多标签分类模型为Mask R-CNN模型；Mask R-CNN模型采用RELU激励函数；结果获取模块，用于获取多标签分类模型针对描述向量输出的多标签分类结果。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述装置还包括：训练数据获取模块，用于获取训练数据；其中，训练数据添加有分词ID集和文本ID集；分词ID集和文本ID集均预先经过Mask遮罩训练；模型训练模块，用于采用训练数据训练多标签分类模型，得到训练后的多标签分类模型。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述训练数据获取模块还用于：获取携带有分类标签的企业描述文本；通过词嵌入算法，基于预设的词库字典将携带有分类标签的企业描述文本转换为携带有分类标签的描述向量；将携带有分类标签的描述向量确定为训练数据。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，上述多标签分类结果包括多个分类标签；上述装置还用于：计算各分类标签的输出概率；获取预先设置的各分类标签之间的层级关系；基于输出概率和层级关系，确定目标分类标签。

第三方面，本发明实施例还提供一种智能终端，包括处理器和存储器；存储器上存储有计算机程序，计算机程序在被处理器运行时执行如第一方面至第一方面的第三种可能的实施方式任一项的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述第一方面至第一方面的第三种可能的实施方式任一项的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的企业类别的分类方法、装置及智能终端，首先获取待分类的企业描述文件，然后通过词嵌入算法将上述待分类的企业描述文件转换为描述向量，再将描述向量输入至预先训练得到的多标签分类模型，以使多标签分类模型基于上述描述向量输出多标签分类结果，最后获取该多标签分类结果，其中，上述多标签分类模型为Mask R-CNN模型，并且采用RELU激励函数。本发明实施例采用的多标签分类模型为Mask R-CNN模型，可以有效提高多标签分类的准确性，从而缓解企业分类时存在的缺失问题，提高企业分类质量。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种企业类别的分类方法的流程图；

图2为本发明实施例提供的一种企业类别的分类装置的结构示意图；

图3为本发明实施例提供的另一种企业类别的分类装置的结构示意图；

图4为本发明实施例提供的一种智能终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前现有的企业类别分类方法对企业的分类存在分类缺失的问题，从而导致企业分类质量不高，基于此，本发明实施例提供的一种企业类别的分类方法、装置及智能终端，有效缓解企业分类的缺失问题，进而可以提高企业分类质量。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种企业类别的分类方法进行详细介绍，参见图1所示的一种企业类别的分类方法的流程图，该方法包括以下步骤：

步骤S102，获取待分类的企业描述文本。

其中，企业描述文本是对企业相关业务的描述，通过获取企业描述文本，通过多标签分类模型，即可识别该企业描述文本对应的企业的多个类别，也即可以得到该企业所处的多个领域。

步骤S104，通过词嵌入算法将企业描述文本转换为描述向量。

为了便于多标签分类模型对上述企业描述文本进行识别分类，需要将企业描述文本转换为描述向量。在一种实施方式中，为了克服文字长短不一和将词与词之间的联系纳入模型的困难，可以采用词嵌入算法实现文本与向量之间的转换，常见的词嵌入算法有：“Word2Vec”和“Glove”。具体的，获取预先建立的词库字典，词库字典中每个字由设定为维度组成，此时便可根据该词库字典，将上述企业描述文本转换为描述向量。

步骤S106，将描述向量输入至预先训练得到的多标签分类模型。

其中，为了提高多标签分类模型是分类质量，在对多标签分类模型进行训练时，采用mask训练方法对CNN(Convolutional Neural Networks，卷积神经网络)模型进行训练，得到Mask R-CNN模型。将转换得到的描述向量输入至预先训练得到的多标签分类模型，以使训练后的多标签分类模型基于描述向量输出多标签分类结果。

由于Mask R-CNN模型是通过对CNN模型进行mask训练得到的，所以Mask R-CNN模型的结构中包括依次连接的输入层、隐含层和输出层，其中，隐含层和输出层之间的输入输出具有函数关系，即激励函数。为了使Mask R-CNN模型输出更好的多标签分类结果，本发明实施例提供的Mask R-CNN模型采用RELU(Rectified Linear Unit，线性整流函数)激励函数。为了进一步提高Mask R-CNN模型的输出结果，设置5层卷积层，并且每层卷积层采用3*3的卷积核。

步骤S108，获取多标签分类模型针对描述向量输出的多标签分类结果。

可以获取多标签分类模型针对上述描述向量输出的所有多标签分类结果。另外，为了使分类结果更便于用户浏览，在获取到所有分类结果后，可以对各分类结果的层级进行设计。例如，获取的多标签分类结果为“发电”、“风力发电”、“风力发电设备”和“设备生产”，则用户可以设置各分类结果的层级为：“风力发电”为“发电”的子类，“风力发电设备”为“风力发电”的子类，而“设备生产”和“发电”为兄弟类。

本发明实施例提供的企业类别的分类方法，首先获取待分类的企业描述文件，然后通过词嵌入算法将上述待分类的企业描述文件转换为描述向量，再将描述向量输入至预先训练得到的多标签分类模型，以使多标签分类模型基于上述描述向量输出多标签分类结果，最后获取该多标签分类结果，其中，上述多标签分类模型为Mask R-CNN模型。本发明实施例采用的多标签分类模型为Mask R-CNN模型，可以有效提高多标签分类的准确性，从而缓解企业分类时存在的缺失问题，提高企业分类质量。

为了对上述实施例进行理解，本发明实施例还提供多标签分类模型，参见图2所示的一种企业类别的分类装置的结构示意图，首先获取企业描述文本，将其输入至分类装置中的Embeding(嵌入)层，Embeding层基于词嵌入算法将企业描述文本转换为描述向量，进而将描述向量输入至CNN/RNN(Recurrent Neural Network，循环神经网络)/Inception模型，以使模型对描述向量进行识别，然后由Classifier(分类)层输出企业类型的多标签分类结果，其中，分类层可以采用softmax层对CNN/RNN/Inception模型的输出进行分类。进一步的，可以获取概率最高的前5个类别作为该企业的多标签分类结果，也即获取前top5的类别。另外，各类别的层级可以由用户进行设置。

本发明实施例还提供了一种多标签分类模型的训练过程，首先获取训练数据，然后采用训数据训练多标签分类模型，得到训练后的多标签分类模型。进一步的，为了增强语句中关键词的识别能力，在训练数据添加有分词ID集和文本ID集，其中，分词ID集和文本ID集均预先经过Mask遮罩训练，具体实施时，在词库字典上添加Mask遮罩，并且在添加有Mask遮罩的词库字典中随机选取两个已分类的企业描述文本，并判断这两个已分类的企业描述文本之间是否有关联，当两者之间存在关联时，将这两个已分类的企业描述文本中的分词作为分词ID集中的分词ID，并将这两个已分类的企业描述文本作为文本ID集中的一个文本ID。例如，在添加有Mask遮罩的词库字典中随机选取企业描述文本A和企业描述文本B，判断企业描述文本A是否为企业描述文本B的下一段或者下一句，即判断企业描述文本A和企业描述文本B之间是否存在关联，当企业描述文本A和企业描述文本B之间存在关联时，将企业描述文本A和企业描述文本B中的分词作为分词ID集中的分词ID，并将企业描述文本A和企业描述文本B作为文本ID集中的文本ID。

进一步的，本发明实施例还提供了一种获取训练数据的方法，该方法包括以下步骤：(1)获取携带有分类标签的企业描述文本；(2)通过词嵌入算法，基于预设的词库字典将携带有分类标签的企业描述文本转换为携带有分类标签的描述向量；(3)将携带有分类标签的描述向量确定为训练数据。

可以理解的，多标签分类模型可以输出多个标签的分类结果，因此多标签分类模型为多标签分类器。

另外，多标签分类结果包括多个分类标签，本发明实施例提供的方法还包括：计算各分类标签的输出概率，并获取预先设置的各分类标签之间的层级关系，从而基于输出概率和层级关系，确定目标分类标签。其中，输出概率即为每个分类标签在所有分类标签中的出现频率，在一种实施方式中，按分类标签的出现频率从大到小进行排序，选取出现频率位于前3的分类标签，结合用户预先设置的各分类标签的层级关系，确定该企业描述文本对应的多个目标分类标签。例如，获取的多标签分类结果为“发电”、“风力发电”、“风力发电设备”和“设备生产”，概率前3的标签为“发电”、“风力发电”和“设备生产”，其中，“风力发电”为“发电”的子类，此时可以将该企业描述文本对应的目标分类标签确定为“发电”、“风力发电”和“设备生产”，并标注出“风力发电”和“发电”之间的层级关系。对于前述实施例提供的企业类别的分类方法，本发明实施例还提供了一种企业类别的分类装置，参见图3所示的另一种企业类别的分类装置的结构示意图，该装置包括以下部分：

文本获取模块302，用于获取待分类的企业描述文本。

转换模块304，用于通过词嵌入算法将企业描述文本转换为描述向量。

输入模块306，用于将描述向量输入至预先训练得到的多标签分类模型；其中，多标签分类模型为Mask R-CNN模型；Mask R-CNN模型采用RELU激励函数。

结果获取模块308，用于获取多标签分类模型针对描述向量输出的多标签分类结果。

本发明实施例提供的企业类别的分类装置，首先文本获取模块获取待分类的企业描述文件，然后转换模块通过词嵌入算法将上述待分类的企业描述文件转换为描述向量，再由输入模块将描述向量输入至预先训练得到的多标签分类模型，以使多标签分类模型基于上述描述向量输出多标签分类结果，最后结果获取模块获取该多标签分类结果，其中，上述多标签分类模型为Mask R-CNN模型。本发明实施例采用的多标签分类模型为MaskR-CNN模型，可以有效提高多标签分类的准确性，从而缓解企业分类时存在的缺失问题，提高企业分类质量。

进一步的，上述装置还包括：训练数据获取模块和模型训练模块。其中，训练数据获取模块，用于获取训练数据，训练数据添加有分词ID集和文本ID集；分词ID集和文本ID集均预先经过Mask遮罩训练；模型训练模块，用于采用训数据训练多标签分类模型，得到训练后的多标签分类模型。

进一步的，上述训练数据获取模块还用于：获取携带有分类标签的企业描述文本，然后通过词嵌入算法，基于预设的词库字典将携带有分类标签的企业描述文本转换为携带有分类标签的描述向量，最终将携带有分类标签的描述向量确定为训练数据。

进一步的，上述多标签分类结果包括多个分类标签；上述装置还用于：计算各分类标签的输出概率；获取预先设置的各分类标签之间的层级关系；基于输出概率和层级关系，确定目标分类标签。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

该设备为一种智能终端，具体的，该智能终端包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图4为本发明实施例提供的一种智能终端的结构示意图，该智能终端100包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的企业类别的分类方法、装置及智能终端的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种企业类别的分类方法，其特征在于，包括：

获取待分类的企业描述文本；

通过词嵌入算法将所述企业描述文本转换为描述向量；

将所述描述向量输入至预先训练得到的多标签分类模型；其中，所述多标签分类模型为Mask R-CNN模型；所述Mask R-CNN模型采用RELU激励函数；

获取所述多标签分类模型针对所述描述向量输出的多标签分类结果；

所述多标签分类模型的训练过程包括：获取训练数据；其中，所述训练数据添加有分词ID集和文本ID集；所述分词ID集和所述文本ID集均预先经过Mask遮罩训练；采用所述训练数据训练多标签分类模型，得到训练后的多标签分类模型；

所述获取训练数据的步骤，包括：在词库字典上添加Mask遮罩，并且在添加有Mask遮罩的词库字典中随机选取两个已分类的企业描述文本，并判断这两个已分类的企业描述文本之间是否有关联，当两者之间存在关联时，将这两个已分类的企业描述文本中的分词作为分词ID集中的分词ID，并将这两个已分类的企业描述文本作为文本ID集中的一个文本ID。

2.根据权利要求1所述的方法，其特征在于，所述获取训练数据的步骤，包括：

获取携带有分类标签的企业描述文本；

通过词嵌入算法，基于预设的词库字典将所述携带有分类标签的企业描述文本转换为携带有分类标签的描述向量；

将所述携带有分类标签的描述向量确定为训练数据。

3.根据权利要求1所述的方法，其特征在于，所述多标签分类结果包括多个分类标签；

所述方法还包括：

计算各所述分类标签的输出概率；

获取预先设置的各所述分类标签之间的层级关系；

基于所述输出概率和所述层级关系，确定目标分类标签。

4.一种企业类别的分类装置，其特征在于，包括：

文本获取模块，用于获取待分类的企业描述文本；

转换模块，用于通过词嵌入算法将所述企业描述文本转换为描述向量；

输入模块，用于将所述描述向量输入至预先训练得到的多标签分类模型；其中，所述多标签分类模型为Mask R-CNN模型；所述Mask R-CNN模型采用RELU激励函数；

结果获取模块，用于获取所述多标签分类模型针对所述描述向量输出的多标签分类结果；

所述装置还包括：训练数据获取模块，用于获取训练数据；其中，所述训练数据添加有分词ID集和文本ID集；所述分词ID集和所述文本ID集均预先经过Mask遮罩训练；模型训练模块，用于采用所述训练数据训练多标签分类模型，得到训练后的多标签分类模型；

所述训练数据获取模块，还用于：在词库字典上添加Mask遮罩，并且在添加有Mask遮罩的词库字典中随机选取两个已分类的企业描述文本，并判断这两个已分类的企业描述文本之间是否有关联，当两者之间存在关联时，将这两个已分类的企业描述文本中的分词作为分词ID集中的分词ID，并将这两个已分类的企业描述文本作为文本ID集中的一个文本ID。

5.根据权利要求4所述的装置，其特征在于，所述训练数据获取模块还用于：

获取携带有分类标签的企业描述文本；

将所述携带有分类标签的描述向量确定为训练数据。

6.根据权利要求4所述的装置，其特征在于，所述多标签分类结果包括多个分类标签；

所述装置还用于：

计算各所述分类标签的输出概率；

获取预先设置的各所述分类标签之间的层级关系；

基于所述输出概率和所述层级关系，确定目标分类标签。

7.一种智能终端，其特征在于，包括处理器和存储器；

所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至3任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至3任一项所述的方法的步骤。