CN112287075A

CN112287075A - 一种自动获取企业多层级分类训练数据的方法和装置

Info

Publication number: CN112287075A
Application number: CN202011554270.9A
Authority: CN
Inventors: 孙会峰; 邢婷; 李健诚; 易航; 魏小敏
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Innovation Zhiyuan Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-01-29
Anticipated expiration: 2040-12-25
Also published as: CN112287075B

Abstract

本发明公开了一种自动获取企业多层级分类训练数据的方法和装置。该方法包括：获取产业信息、产品名称信息和企业描述文本；根据所述产业信息生成产业层级体系；对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表；根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签；根据所述企业描述文本和企业的各层级的产业标签形成训练数据。采用该方案不仅能够根据企业公开的信息，对企业进行准确的多层级分类标注自动获取训练数据，解决了人工标注数据繁琐低效的问题；而且，有利于解决千万级别的企业多层级分类问题，提高企业多层分类的准确性。

Description

一种自动获取企业多层级分类训练数据的方法和装置

技术领域

本发明涉及数据分类技术领域，尤其涉及一种自动获取企业多层级分类训练数据的方法和装置。

背景技术

企业的行业标签是一个重要字段，而企业的数量已有千万，并且每天还在以非常快的速度在进行孵化，所以，对企业进行行业分类是一个非常重要的任务。

目前，对企业进行行业分类，通常采用的方法是：首先人工标注数据，然后根据人工标注数据运用机器学习算法进行建模，其流程一般包含文本标注、文本表达、分类器选择与训练、分类结果评价与反馈等过程。常用的企业分类算法包括k近邻、决策树、多层感知器、朴素贝叶斯、逻辑回归、支持向量机、随机森林、AdaBoost、lightGBM和xgBoost等。这些分类算法都需要大量的人工标注数据进行模型训练。

而人工标注数据繁琐低效，尤其是面对大量数据时，工作的繁重以及效率的低下尤甚，直接影响着企业的行业分类效率和准确率，远远无法满足实际应用的需要。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明提供了一种自动获取企业多层级分类训练数据的方法，包括：

获取产业信息、产品名称信息和企业描述文本；

根据所述产业信息生成产业层级体系；

对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表；

根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签；

根据所述企业描述文本和企业的各层级的产业标签形成训练数据。

优选地，所述根据所述产业信息生成产业层级体系包括：

对所述产业信息进行分词；

对分词结果利用词向量模型进行向量化处理，得到产业词语特征向量，所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本预先训练得到的；

使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类；

根据所述产业分类、GICS国际行业分类及国民经济行业分类标准，生成覆盖全产业的产业层级体系。

优选地，所述对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表包括：

根据所述产品名称信息聚类统计得到初级关键词列表；

将所述初级关键词列表与所述产业层级体系相关联；

获取初级关键词列表中各初级关键词的近义词；

所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。

优选地，所述根据所述产品名称信息聚类统计得到初级关键词列表包括：

对所述产品名称信息进行分词；

对分词结果利用所述词向量模型进行向量化处理，得到产品词语特征向量；

对所述产品词语特征向量进行聚类得到多簇聚类结果；

将每簇聚类结果中出现频率排名在预设范围内的产品词语特征向量对应的词语作为初级关键词，得到所述初级关键词列表。

优选地，所述获取初级关键词列表中各初级关键词的近义词包括：

将所述初级关键词输入所述词向量模型，获取与所述初级关键词的余弦相似度满足预设条件的产品词语，作为所述初级关键词的近义词。

优选地，所述根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签包括：

对所述企业描述文本进行分词处理；

从分词结果中获取与所述产业多层级关键词列表匹配的关键词；

计算匹配的关键词在各产业分类出现的频率；

根据属于同一产业分类的关键词频率之和的排名或者与预设阈值的比较为企业标注各层级的产业分类。

本发明另一方面提供了一种企业多层级分类的方法，包括：

利用上述方法获取的训练数据对分类算法进行训练，得到企业分类模型；

将企业描述文本输入所述企业分类模型，得到所述企业多层级的产业分类。

本发明第三方面提供了一种自动获取企业多层级分类训练数据的装置，包括：

信息获取模块，用于获取产业信息、产品名称信息和企业描述文本；

产业层级生成模块，用于根据所述产业信息生成产业层级体系；

关键词列表获取模块，用于对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表；

产业标签获取模块，用于根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签；

训练数据形成模块，用于根据所述企业描述文本和企业的各层级的产业标签形成训练数据。

本发明第四方面还提供了一种存储器，存储有多条指令，所述指令用于实现如上述的方法。

本发明第五方面还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如上述的方法。

本发明的有益效果是：本发明提供的自动获取企业多层级分类训练数据的方法和装置，首先根据产业信息生成产业层级体系；并对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表；再根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签；最后根据所述企业描述文本和企业的各层级的产业标签形成训练数据。采用该方案能够根据企业公开的信息，自动地对企业进行准确的多层级分类标注以获取训练数据，解决了人工标注数据繁琐低效的问题，而且有利于解决千万级别的企业多层级分类问题，提高企业多层分类的准确性。

附图说明

图1为本发明所述自动获取企业多层级分类训练数据的方法流程示意图；

图2为本发明所述自动获取企业多层级分类训练数据的装置结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种自动获取企业多层级分类训练数据的方法，包括：

S101、获取产业信息、产品名称信息和企业描述文本；

S102、根据所述产业信息生成产业层级体系；

S103、对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表；

S104、根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签；

S105、根据所述企业描述文本和企业的各层级的产业标签形成训练数据。

可选地，步骤S101中，利用百度百科、维基百科等公开的文本信息获取产业信息、产品名称信息和企业描述文本。例如从产业层级文件、行业划分标准、产业定义等公开信息中获取产业信息；从企业经营范围、企业产品介绍和新闻报道等公开信息中获取产品名称信息；根据企业的公司简介、营业范围、产品介绍、专利申请等公开信息生成企业描述文本。

可选地，步骤S102具体包括：

S1021、对所述产业信息进行分词。

可选地，使用jieba分词工具。

S1022、对分词结果利用词向量模型进行向量化处理，得到产业词语特征向量。

其中，所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本构建训练语料，预先进行训练得到的，可选地为word2vec模型。

S1023、使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类。

其中，所述聚类算法可选地为K-means算法。

其中，按照下述方式得到所述多个产业分类：对于每簇类别，选择距离聚类中心最近的预设数量（例如10个）产业词语特征向量对应的词，根据此预设数量的词定义产业分类的名称。

可选地，对所述产业词语特征向量进行多次聚类得到不同的产业层级和产业分类。例如通过第一次聚类得到第一产业层级的产业分类，然后对每簇类别中的产业词语特征向量再次进行聚类，得到下一产业层级的产业分类。

S1024、根据所述产业分类、GICS国际行业分类及国民经济行业分类标准，生成覆盖全产业的产业层级体系。

例如，根据步骤S1023得到的产业分类，在GICS国际行业分类和国民经济行业分类标准基础上，一级产业中增加新一代信息技术产业、半导体产业、新材料产业、人工智能产业、大数据产业、虚拟现实产业等。表1为示例性的产业层级体系的部分：

可选地，步骤S103具体包括：

S1031、根据所述产品名称信息聚类统计得到初级关键词列表。

具体地，包括：

对所述产品名称信息进行分词；

对分词结果利用上述词向量模型进行向量化处理，得到产品词语特征向量；

对所述产品词语特征向量进行聚类得到多簇聚类结果；

将每簇聚类结果中出现频率排名在预设范围内（例如排名前10）的产品词语特征向量对应的词语作为初级关键词，得到所述初级关键词列表。

S1032、将所述初级关键词列表与所述产业层级体系相关联。

可选地，由专家确定初级关键词对应的产业分类，并将产业分类加入初级关键词列表中对应的位置。

S1033、获取初级关键词列表中各初级关键词的近义词。

其中，将所述初级关键词输入所述词向量模型，获取与所述初级关键词的余弦相似度满足预设条件的产品词语，作为所述初级关键词的近义词。

由于所述词向量模型已利用所述产业信息、产品名称信息和企业描述文本构建训练语料预先进行了训练，因此模型中已包括产业信息、产品名称信息和企业描述文本中词语的向量。直接将初级关键词输入即可得到与其相似的词语列表。例如初级关键词为“衬底材料”，词向量模型输出('衬底材料'，1.0)，('外延材料'，0.80)，('半导体材料'，0.79)，('封装材料'，0.78)，('外延生长'，0.78)，('蓝宝石衬底'，0.77)等，词语之后的数值为计算的余弦相似度。

所述预设条件包括余弦相似度高于预设值（例如0.7）或者排序位于预设范围（例如前10位）。

S1034、所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。

将各初级关键词的近义词添加至所述初级关键词列表中的对应位置，例如对衬底材料计算得到近义词有蓝宝石衬底、封装材料、半导体材料、外延材料、外延生长等，将上述近义词添加至“衬底材料”之后。表2为示例性的产业多层级关键词列表的一部分：

可选地，步骤S104包括：

对所述企业描述文本进行分词处理；

计算匹配的关键词在各产业层级出现的频率；

根据属于同一产业分类的关键词频率之和的排名和/或与预设阈值的比较为企业标注各层级的产业分类。例如对属于同一产业分类的关键词频率求和并排名，排名在前的产业分类为该企业的主产业，排名在后的产业分类为该企业的次产业，或者属于同一产业分类的关键词频率大于预设阈值时，将该产业分类标注为企业的标签。由此，得到企业在各个产业层级的多个产业分类的标签。

例如，A企业的企业描述文本如下：

公司简介：A公司具有全球第一条4-8英寸兼容的全自动抛光片生产线。

营业范围：技术开发、咨询、服务、转让（新材料、电子与信息、机电一体化的技术及产品）；半导体器件、半导体材料制造；进出口业务。（国家有专项、专营规定的、按规定执行）

产品：衬底材料、硅抛光片、区熔硅单晶

专利：高平整度区熔硅抛光片的抛光工艺，8英寸轻掺硅抛光片的抛光工艺……

与所述产业多层级关键词列表匹配的关键词及其频率为：

（抛光片，4）、（衬底材料，1）、（半导体材料，1）、（半导体器件，1）。

其中，抛光片、衬底材料、半导体材料都属于“关键电子材料”产业分类，则该产业分类的关键词频率之和为6；而半导体器件属于“半导体设备”产业分类，该产业分类的关键词频率之和为1，半导体材料也属于“半导体材料”产业分类，该产业分类的关键词频率之和为1。由此，A企业的主产业标签为“新一代信息技术”和“关键电子材料”，次产业标签为“半导体”。

本发明实施例中，采用上述方法自动获取企业各层级的产业标签，形成企业分类训练数据，解决了人工标注数据繁琐低效的问题，为高效的进行企业分类提供了技术支撑。

实施例二

本发明实施例提供了一种企业多层级分类的方法，包括：

利用实施例一所述的方法获取的训练数据对分类算法进行训练，得到企业分类模型；

具体的，采用实施例一所述的方法得到训练数据后，选用BiLSTM分类算法，使用所述训练数据对BiLSTM分类算法进行训练，得到可靠的企业分类模型。

企业描述文本包括公开的企业产品、业务、经营范围及专利数据等。可选地，对所述企业描述文本进行预处理，包括特征选择、分词、去除停止词、长度填充、名词代换、向量化表示等，将预处理后的企业描述文本输入所述企业分类模型，即可得到企业所述的多个分类的标签，例如“新一代信息技术”、“关键电子材料”、“半导体”、“半导体设备”等。

可选地，对于分类结果进行校验，将正确分类的样本（企业描述文本、分类的标签等）加入训练数据，根据错误分类的数据调整分类模型，从而不断强化模型，提高准确率、召回率以及F1测量的值。

采用本实施例提供的方法，可以解决千万级别的企业多层级分类问题，提高企业多层分类的准确性。

实施例三

如图2所示，本发明还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种自动获取企业多层级分类训练数据的装置，包括：

信息获取模块201，用于获取产业信息、产品名称信息和企业描述文本；

产业层级生成模块202，用于根据所述产业信息生成产业层级体系；

关键词列表获取模块203，用于对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表；

产业标签获取模块204，用于根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签；

训练数据形成模块205，用于根据所述企业描述文本和企业的各层级的产业标签形成训练数据。

所述产业层级生成模块具体的用于：

对所述产业信息进行分词；

所述关键词列表获取模块具体的用于：

根据所述产品名称信息聚类统计得到初级关键词列表；

将所述初级关键词列表与所述产业层级体系相关联；

获取初级关键词列表中各初级关键词的近义词；

其中，所述根据所述产品名称信息聚类统计得到初级关键词列表包括：

对所述产品名称信息进行分词；

对所述产品词语特征向量进行聚类得到多簇聚类结果；

进一步地，所述获取初级关键词列表中各初级关键词的近义词包括：

所述产业标签获取模块具体的用于：

对所述企业描述文本进行分词处理；

计算匹配的关键词在各产业分类出现的频率；

该装置可通过上述实施例一提供的自动获取企业多层级分类训练数据的方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一和实施例二所述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一和实施例二所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种自动获取企业多层级分类训练数据的方法，其特征在于，包括：

获取产业信息、产品名称信息和企业描述文本；

根据所述产业信息生成产业层级体系；

2.如权利要求1所述的方法，其特征在于，所述根据所述产业信息生成产业层级体系包括：

对所述产业信息进行分词；

3.如权利要求2所述的方法，其特征在于，所述对所述产品名称信息聚类并关联所述产业层级体系，得到产业多层级关键词列表包括：

根据所述产品名称信息聚类统计得到初级关键词列表；

将所述初级关键词列表与所述产业层级体系相关联；

获取初级关键词列表中各初级关键词的近义词；

4.如权利要求3所述的方法，其特征在于，所述根据所述产品名称信息聚类统计得到初级关键词列表包括：

对所述产品名称信息进行分词；

对所述产品词语特征向量进行聚类得到多簇聚类结果；

5.如权利要求4所述的方法，其特征在于，所述获取初级关键词列表中各初级关键词的近义词包括：

6.根据权利要求5所述的方法，其特征在于，所述根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类，得到各层级的产业标签包括：

对所述企业描述文本进行分词处理；

计算匹配的关键词在各产业分类出现的频率；

7.一种企业多层级分类的方法，其特征在于，包括：

利用权利要求1-6任一项所述的方法获取的训练数据对分类算法进行训练，得到企业分类模型；

8.一种自动获取企业多层级分类训练数据的装置，其特征在于，包括：

9.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-7任一项所述的方法。

10.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-7任一项所述的方法。