CN111626331A

CN111626331A - 一种自动化行业分类装置及其工作方法

Info

Publication number: CN111626331A
Application number: CN202010325081.8A
Authority: CN
Inventors: 张嘉豪; 傅玉峰; 孙惠平; 陈钟; 虞丽; 朱俊
Original assignee: Nanjing Chenkuo Network Technology Co ltd; Peking University
Current assignee: Nanjing Chenkuo Network Technology Co ltd; Peking University
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-09-04
Anticipated expiration: 2040-04-23
Also published as: CN111626331B

Abstract

本发明属于计算机技术和智能风控信用评分应用技术领域，具体公开了一种自动化行业分类装置及其工作方法。本发明的一种自动化行业分类装置及其工作方法的有益效果在于：1、综合使用了未在其他专利中出现过且能够反映企业行业的多维数据，能够从成果、项目、人事、业务等多个方面反映企业行业范围，相比仅仅使用销售业务层面数据，能够更加准确对跨行业的企业进行准确行业分类；2、挖掘了更深层次的信息，不仅使用商品名称，更利用销售额占比来进行行业分类训练，对于企业行业分类评定更加全面和准确。

Description

一种自动化行业分类装置及其工作方法

技术领域

本发明属于计算机技术和智能风控信用评分应用技术领域，具体涉及一种自动化行业分类装置及其工作方法。

背景技术

行业分类，是指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分，可以解释行业本身所处的发展阶段及其在国民经济中的地位。在智能风控领域，行业分类对于准入、信用评分领域及授信额度评定等环节均有重要参考依据。精准快速的行业分类能够在准入环节排除政策不支持的某些行业，对于信用评分和授信额度环节，准确的行业分类能够对所属不同行业的企业进行更加准确的评分和更合理的额度审批。自动化行业分类还能够用于对一个企业进行企业画像，企业画像很重要的一个维度是企业所属行业，准确快速的行业分类能够帮助快速生成某个企业的画像，对于后续对企业的评估等都能够有所帮助。

现有传统行业分类：标准行业分类法(International Standard IndustrialClassification of All Economic Activities，SIC):为了便于汇总各国的统计资料,进行对比,联合国经济和社会事务统计局曾制定了一个《全部经济活动国际标准行业分类》(International Standard Industrial Classification of All EconomicActivities),简称《国际标准行业分类》,建议各国采用。它把国民经济划分为 10个门类，对每个门类再划分大类、中类、小类。我国也制定了了 GB/T 4754-2017《国民经济行业分类》国家标准。全球行业分类标准(Global Industry Classification Standard, GICS):该标准为全球金融业提供了一个全面的、全球统一的经济板块和行业定义。作为一个行业分类模型，GICS 已经在世界范围内得到广泛的认可，它的意义在于不仅为创造易复制的、量体裁衣的投资组合提供了坚实基础，更使得对全球范围经济板块和行业的研究更具可比性。标准普尔全球指数家族包含的所有公司都已根据GICS 进行行业分类，每一家公司都会被分到1个子行业内，同时自动的归属于相应的行业、行业组和行业板块。有 34,000 家交易活跃的公司已被分类，若包括交易不活跃的公司，则总数已超过 50,000 家。已分类的全球股票市场资产份额超过 90%。GICS 为四级分类，包括 11 个经济部门(EconomicSector),24 个行业组(Industry Group),68 个行业(Industry)和 157 个子行业(Sub-Industry)。

现有自动化行业分类：当前自动化行业分类方法一般包括如下数据来源：包括税务数据，企业名称数据，经营范围数据，主营商品数据，上游企业代码数据和下游企业代码数据中的至少一种数据，以及企业在互联网中的网页信息等企业舆情信息，同时也包括主营业务描述等内容。当前自动化行业分类方法一般使用如下一些技术：包括使用 NLP 的分词及特征词提取模块，使用聚类算法进行无监督学习，使用机器学习算法或深度学习算法进行特征分类和行业分类。其中 NLP 分词模块常用 LSTM 算法进行数据分词处理；聚类算法常用 K-means 算法或层次聚类算法进行无监督行业分类；有监督行业分类算法常见有Logistic 或 SVM 算法实现；深度学习分类算法常用的则是 RNN 神经网络进行特征训练。当前自动化行业分类方法一般用于如下一些应用场景：目前行业分类的应用场景一方面是在搜索推荐方面，如网页搜索和应用商城搜索，精准的行业分类可以根据用户的搜索关键词尽可能准确地推送用户期望的内容。自动化行业分类的另一个应用场景是用于量化交易，通过将上市企业或股票信息进行正确的行业分类，对于量化交易决策有很好的帮助

现有的技术方案：通过文献和专利检索，发现有如下三个技术方案和本提案比较接近，具体描述如下：

1. 《企业行业分类方法及其装置》通过爬虫及插件等方法获得企业名称数据，经营范围数据，主营商品数据、上游企业代码数据和下游企业代码数据，并使用上述数据进行分词处理，并删除重复数据、平滑噪声数据。使用上述数据中的至少一种进行数据进行向量化处理，处理后建立数据模型，使用 Logistics 回归，MLPC 等机器学习算法以及卷积神经网络作为第一算法得到多个数据模型，并使用第二算法对多个所属企业的行业预测分类进行综合分析，得到所属企业的行业最终分类。

2. 《一种基于自然语言处理的公司行业分类计算方法》通过爬虫网页数据，

获取包含对于预分类公司的产品或服务的文本描述的文本数据。将所有预分类公司的文本数据总和作为语料库，每个预分类公司的文本数据作为一篇文章，对预分类公司的文本数据提取特征，所述特征包括公司的产品、数据来源、TFIDF 统计和 BOW 统计。将清理后的文本数据用 GLOVE 和word2vec 作词向量训练得到词向量应用 ELMO、ULMFIT 模型和wideand deep 模型，进行训练深度学习模型。通过训练好的深度学习模型，对文本数据进行计算得到一级分类；针对每个一级分类根据数据特征的不同采用不同的模型进行单独训练，得到二级分类的分类器；根据输出的一级分类选择进入的二级分类的分类器，实现对公司的行业分类。

3. 《一种基于机器学习的行业分类方法及终端设备》使用包括经营业务信息，经人工标注的文本集合，该集合由多种行业类别的文本构成，且文本标注有对应的行业类别；对文本进行分词处理，得到文本所对应的词汇表；通过特征提取，在词汇表中获取第一预设数目的词汇作为关键词；针对获得的任一关键词，通过词向量模型得到所述关键词的词向量；将所有关键词的词向量求平均，得到第一向量；获取所有关键词的词向量中最大的词向量，得到第二向量；获取所有关键词的词向量中最小的词向量，得到第三向量；由第一向量、所述第二向量和所述第三向量，组成文本的特征向量；通过训练集训练行业分类模型；通过完成训练的行业分类模型，对待分类文本进行行业分类。行业分类模型为深度神经网络模型，包括 4 层，分别为输入层、第一隐藏层、第二隐藏层和输出层，输入层的输入为文本所对应的特征向量，第一隐藏层包括第一预设数目的节点，第二隐藏层包括第二预设数目的节点，第一隐藏层和第二隐藏层的激活函数为 relu 函数，输出层为文本的类型的概率，输出层的激活函数为 logistics 函数。

上述技术方案使用深度学习及 NLP 等方面的知识，对于企业信息进行行业分类。但是数据维度不够全面，不能全面地的反映企业的状态等信息，如企业经营范围等数据仅代表了企业经营类状况，对于公司行业分类可能存在不准确的影响。

因此，基于上述问题，本发明提供一种自动化行业分类装置及其工作方法。

发明内容

发明目的：本发明的目的是提供一种自动化行业分类装置及其工作方法，其数据的处理采用了嵌入处理，将文本类消息转为低维向量数据，并使用 RNN 进行处理，基本实现全自动，减少人工标注环节，且提高准确性。

技术方案：本发明的一方面提供一种自动化行业分类装置，由相配合使用的模块（1）、模块（2）和所属行业分类模块（3）组成；

所述模块（1），包括数据清洗模块、特征分词模块、Embedding Layer 模块，其中，模块（1）的数据清洗模块用于输入原始数据和输出数据，并进行对成果类数据和人事类数据进行清洗，去除重复信息、噪声数据，输入原始数据格式为公司名称、专利分类 1、专利分类2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别1、招聘职位类别 2、员工职业分类 1、员工职业分类 2，输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2；

模块（1）的特征分词模块用于输入数据和输出数据，并对清洗后的数据进行分词，输入数据格式为公司名称，专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2，输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类2；

模块（1）的Embedding Layer 模块用于输入数据和输出数据，并将数据的原始表示表示成模型可处理的或者是更密集的低维表示，输入数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2，输出数据格式为公司名称、[1*5 嵌入后的 vector]、[1*5 嵌入后的vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]）；

所述模块（2），包括数据清洗模块、特征分词模块、特征映射模块、特征重构模块，其中，模块（2）的数据清洗模块用于输入原始数据和输出数据，并进行对成果类数据和人事类数据进行清洗，去除重复信息、噪声数据，输入为原始数据格式为：（公司名称、[(产品 1,销售额 1)、(产品 2, 销售额 2), …]，所属行业分类标签)，输出数据格式为：(公司名称,[(产品 1,销售额 1), (产品 2, 销售额2), …]，所属行业分类标签)；

模块（2）的特征分词模块用于输入数据和输出数据，并对清洗后的数据进行分词，输入数据格式为：(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …]，所属行业分类标签)，输出数据格式为：(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …]，所属行业分类标签)；

模块（2）的特征映射模块用于输入数据和输出数据，并对分词后的产品数据进行聚类分析，聚类结果根据国家统计局发布的统计用产品分类目录标记为对应标准化产品，输入数据格式为(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …]，所属行业分类标签)，输出数据格式为：(公司名称, [(标准化产品 1,销售额 1), (标准化产品2, 销售额 2), …]，所属行业分类标签)，其中标准化产品是指国家统计局发布的统计用产品分类目录下产品名称；

模块（2）的特征重构模块用于输入数据和输出数据，并将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比，作为下一模块的输入，分类器部分使用 SVM 模型进行训练，使用特征重构模块得到的训练数据作为输入，最终得到分类结果 2，输入数据格式为：(公司名称, [(产品 1,销售额 1), (产品 2,销售额2), …]，所属行业分类标签)，输出数据格式为：(公司名称, 目录产品 1 销售额占比, 目录产品 2 销售额占比…，所属行业分类标签)，其中目录产品是指国家统计局发布的统计用产品分类目录下所有产品；

所属行业分类模块（3）用于输入数据和输出数据，其中，输入数据格式为：(公司名称,目录产品 1 销售额占比, 目录产品 2 销售额占比…，所属行业分类标签)，输出数据格式为：(公司名称，预测的行业分类)。

本发明的另一方面提供一种自动化行业分类装置的工作方法，包括以下步骤，步骤1、通过模块 1对文本数据进行分词和字嵌入处理后使用 GRU 的 RNN 神经网络及线性分类器得到分类结果 1，A)首先通过清洗模块部分对成果类数据及人事类数据进行清洗，去除重复信息、噪声数据；B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词，Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而成，通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传递，无用的信息被丢弃，并在每个时间步骤都会输出隐层状态，t表示某个时刻，由 t 时刻产生的输入词

, Cell 状态

，临时Cell 状态

, 隐层状态

，遗忘门

，记忆门

，输出门

组成，LSTM 的计算过程可以概括为，通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态

，其中遗忘，记忆与输出由通过上个时刻的隐层状态

和当前输入

计算出来的遗忘门

，记忆门

，输出门

来控制，其中

，

为该门的权重及偏移量，上述表示为公式如下：

；

C)最后，Embedding Layer模块部分是将数据的原始表示表示成模型可处理的或者是更密集的低维表示，使用 skip-gram 或 CBOW 中的一种对原始数据进行嵌入处理，经过 Embedding layer 的数据变为序列化数据，送入 GRU 神经单元，编码器部分使用了基于 GRU 的单层 RNN 神经网络，其中，基于 GRU 的 RNN 神经网络包含 2 个门控制部分，分别为更新门

和重置门

，公式表示如下：

RNN 最后的隐向量作为输入传入线性分类器得到模块 1 分类结果；

步骤2、对主营商品销售额数据采用数据清洗、特征分词、特征映射及特征

重构最终送入 SVM 分类器得到模块 2 分类结果，A)首先通过清洗模块部分对成果类数据及人事类数据进行清洗，去除重复信息、噪声数据；B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词，Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而成，通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传递，无用的信息被丢弃，并在每个时间步骤都会输出隐层状态，由 t 时刻产生的输入词

, Cell 状态

，临时Cell 状态

, 隐层状态

，遗忘门

，记忆门

，输出门

，其中遗忘，记忆与输出由通过上个时刻的隐层状态

和当前输入

计算出来的遗忘门

，记忆门

，输出门

来控制，其中

，

为该门的权重及偏移量，上述表示为公式如下：

；

C）然后再通过特征映射模块对分词后的产品数据进行聚类分析，聚类结果

根据国家统计局发布的统计用产品分类目录标记为对应标准化产品，采用的聚类算法为 DBSCAN，它假定类别可以通过样本分布的紧密程度决定，由密度可达关系导出的最大密度相连的样本集合，即为最终聚类的一个类别；D）最后再通过特征重构模块将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比，作为下一模块的输入，分类器部分使用 SVM 模型进行训练，使用特征重构模块得到的训练数据作为输入，最终得到分类结果 2；

步骤3、所属行业分类模块（3）分别接收将模块 1 分类结果、分类结果 2的数据信息，并进行行业预测分类。

本技术方案的，所述步骤2中，非线性函数将输入数据映射至高维空间后应用线性SVM 可得到非线性 SVM，是将带有约束的拉格朗日问题转化为对偶问题然后进行优化再求解；

首先对于线性可分的线性二分 SVM，主要目的就是通过学习获得一个分界线，用来分离两类对象，这个分界线可有多条，或者说要得到是一个超平面，这个超平面可表示为：

，

其中w，b分别表示超平面权值及偏移量，

而预测用的函数也就是分类决策函数表示为：

，

margin 定义为距离上述直线 f(x)最近的两类样本点所构成的平行于直线 f(x)的两条直线之间的距离，计算表示为：

，

而支持向量机要做的就是在全部分类都正确的情况下，获得最大的margin，其中

为真实值，即线性 SVM 问题可以描述为求：

。

与现有技术相比，本发明的一种自动化行业分类装置及其工作方法的有益效果在于：1、本专利综合使用了未在其他专利中出现过且能够反映企业行业的多维数据，能够从成果、项目、人事、业务等多个方面反映企业行业范围，相比仅仅使用销售业务层面数据，能够更加准确对跨行业的企业进行准确行业分类；2、对于其他方案可能用到的主营商品数据，本专利挖掘了更深层次的信息，不仅使用商品名称，更利用销售额占比来进行行业分类训练，对于企业行业分类评定更加全面和准确；3、本专利数据处理阶段对产品数据进行了特征映射和重构，并且创新性地使用主营商品销售额占比作为特征之一对企业进行行业分析，通过对主营商品数据名称的映射以及对于主营商品销售额占比的重构，能够一定程度减

少训练数据难以涵盖所有产品的问题，针对企业发展的多维性，属于不同行业分类的企业销售产品可能类似，因此本专利使用了产品销售额作为特征之一，能够很好地解决此类问题。

附图说明

图1是本发明的一种自动化行业分类装置及其工作方法的工作流程结构示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

如图1所示的本发明的一种自动化行业分类装置，由相配合使用的模块（1）、模块（2）和所属行业分类模块（3）组成；

如图1所示一种自动化行业分类装置的工作方法，包括以下步骤，步骤1、通过模块 1对文本数据进行分词和字嵌入处理后使用 GRU 的 RNN 神经网络及线性分类器得到分类结果 1，A)首先通过清洗模块部分对成果类数据及人事类数据进行清洗，去除重复信息、噪声数据；B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词， Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而成，通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传递，无用的信息被丢弃，并在每个时间步骤都会输出隐层状态，由 t 时刻产生的输入词

, Cell 状态

，临时Cell 状态

, 隐层状态

，遗忘门

，记忆门

，输出门

，其中遗忘，记忆与输出由通过上个时刻的隐层状态

和当前输入

计算出来的遗忘门

，记忆门

，输出门

来控制，其中

，

为该门的权重及偏移量，上述表示为公式如下：

；

和重置门

，公式表示如下：

, Cell 状态

，临时Cell 状态

, 隐层状态

，遗忘门

，记忆门

，输出门

，其中遗忘，记忆与输出由通过上个时刻的隐层状态

和当前输入

计算出来的遗忘门

，记忆门

，输出门

来控制，其中

，

为该门的权重及偏移量，上述表示为公式如下：

；

，

其中w，b分别表示超平面权值及偏移量，

而预测用的函数也就是分类决策函数表示为：

，

，

为真实值，即线性 SVM 问题可以描述为求：

。

实施例

目前中小微企业贷款的贷前准入环节及评级过程中都需要对申请企业进行

多维度的审核和评分，受小额贷款政策等多方面的影响，部分行业在准入环节会

被限制，因此，如何快速且准确地确定某个企业所属行业，对于中小微企业贷款

风控环节非常重要，本自动化行业分类装置所描述的自动化行业分类方法对于中小微企业贷款准入、信用评分和额度评估等方面有重要参考作用。

本自动化行业分类装置使用以下几类数据作为训练数据：

首先是成果数据，包括该公司所申请的专利、软件著作权、注册商标、发

表论文中的一个或多个研究类成果数据；项目数据，包括该公司的项目招标、项目中标中的一种或多种项目类成果数据；人事类数据，包括招聘信息、员工所属行业信息，上述三类数据作为本专利行业分类模块 1 的输入数据；

其次，本专利使用企业主营商品销售额数据，通过后续介绍算法，对销售额占比进行训练，作为行业分类的中间结果之一，主营商品名称被其他方案用来作为行业分类的评价标准之一，但是忽视了主营商品销售额包含的信息，本专利充分利用了上述信息，并使用其作为行业分类的另一个模块，提高行业分类的准确性；

对于上述几类数据，本专利包含两个行业分类模块：行业分类模块 1：首先去除噪声数据和重复数据，使用 NLP 分词技术对于成果数据及人事类数据进行分词，其中包括但不限于使用 LSTM 等方法进行词性标注等工作，使用嵌入方法(Embedding)对数据进行低维向量化处理，对于每条数据使用基于 GRU 神经单元的单层 RNN 作为进行编码器处理，最后对于产生的向量使用线性分类器最终构成行业分类模块 1；行业分类模块 2：对于主营业务数据，使用 NLP 方法进行分词且按照标准产品名称表标注处理后聚类，聚类结果根据国家统计局发布的统计用产品分类目录下的所有产品进行标记，得到特征映射模块，原始特征（产品名称-销售额占比）转换为产品中类-销售额占比格式得到特征重构模块，对于重构后的特征使用 Logistics 或其他机器学习算法对其进行分类，得到行业分类模块 2；对于行业分类模块 1 和模块 2 所产生的分类结果进行综合分析，得到最终所属行业。

本自动化行业分类装置的数据选取数据包括多个维度，分别是成果型数据（专利、软件著作权、商标）、项目型数据（项目招标、中标），人事型数据（简历、招聘信息、员工行业统计）以及经营型数据（主营业务名称及销售额）。所选取的上述维度能够更加全面地反映企业所属行业信息。

本自动化行业分类装置的特征处理，在模块 2 进行特征映射及特征重构步骤，目的是为了将多种类似的产品准确映射到标准商品中，进一步提高行业分类准确性，特征重构模块将特征转为标准化后的产品销售额占比，该模块对分类结果也会产生影响，此外，使用产品销售额占比作为行业分类特征进行分类，同时考虑到跨行业公司销售产品种类较多，两个主营商品相近甚至完全一致的企业所属行业可能完全不同，原因就是企业主营商品销售额比例不同，考虑上述情况，本专利使用主营商品销售额占比作为特征进行行业分类，对于主营商品相近但不属同一行业的企业做出更加精确的分类。

本自动化行业分类装置的分类算法，对于前两类类别型数据采用了基于 GRU 的RNN 神经网络来进行处理，并且使用字嵌入方法对于文本数据进行低维嵌入，最终生成序列化数据，这部分能够减少大量人工标注操作，最终得到的隐层输出使用了线性分类器，快速且准确度也较高。并且综合了使用类别型数据的 RNN 模型结果及使用数值型数据的SVM 算法结果得到最终的行业分类。

本自动化行业分类装置的使用场景，应用场景为小微企业贷款风控环节，自动化且准确度高的行业分类方案能够在准入环节和信用评分环节对企业申请和评分提供较大参考价值，在准入环节能够直接排除非准入行业的企业的申请，并根据不同行业辅助企业评分。

本自动化行业分类装置的及其工作方法的优点，数据选取，创新性使用了代表企业研发能力的专利、软件著作权数据以及能够反映企业项目能力的招标、中标信息以及实际反映企业人事状态的招聘信息、员工所属行业统计，通过上述对企业的多维分析，能够非常准确地定位企业所属行业分类；数据处理，特征处理阶段进行了特征映射，将属于同一种商品的不同商品名称转为国家统计局发布的标准商品类别名称，该模块能够有效降低因训练数据覆盖面不足导致的分类算法效果不好的问题；分类算法，使用了基于 GRU 的 RNN神经网络算法和 SVM 分类算法并通过综合分析得到行业分类结果。RNN 神经网络减少了大量人工标注的工作，并且通过低维嵌入操作，产生序列数据作为 GRU 的输入，对分类效果有很大提升。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种自动化行业分类装置，其特征在于：由相互配合使用的模块（1）、模块（2）

和所属行业分类模块（3）组成；

所述模块（1），包括数据清洗模块、特征分词模块、Embedding Layer 模块，

其中，模块（1）的数据清洗模块用于输入原始数据和输出数据，并进行对成果类数据和人事类数据进行清洗，去除重复信息、噪声数据，

输入原始数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别1、招聘职位类别 2、员工职业分类 1、员工职业分类 2，

输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2；

模块（1）的特征分词模块用于输入数据和输出数据，并对清洗后的数据进行分词，

输入数据格式为公司名称，专利分类 1、专利分类 2、软著分类 1、软著分类 2、

中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类1、员工职业分类 2，

模块（1）的Embedding Layer 模块用于输入数据和输出数据，并将数据的原始表示表示成模型可处理的或者是更密集的低维表示，

输入数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2，

输出数据格式为公司名称、[1*5 嵌入后的 vector]、[1*5 嵌入后的vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的vector]、[1*5 嵌入后的 vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]）；

所述模块（2），包括数据清洗模块、特征分词模块、特征映射模块、特征重构模块，

其中，模块（2）的数据清洗模块用于输入原始数据和输出数据，并进行对成果类

数据和人事类数据进行清洗，去除重复信息、噪声数据，

输入为原始数据格式为：（公司名称、[(产品 1,销售额 1)、(产品 2, 销售额

2), …]，所属行业分类标签)，

输出数据格式为：(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …]，所属行业分类标签)；

模块（2）的特征分词模块用于输入数据和输出数据，并对清洗后的数据进行分词，

输入数据格式为：(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …]，所属行业分类标签)，

模块（2）的特征映射模块用于输入数据和输出数据，并对分词后的产品数据进行聚类分析，聚类结果根据国家统计局发布的统计用产品分类目录标记为对应标准化产品，

输入数据格式为(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …]，所属行业分类标签)，

输出数据格式为：(公司名称, [(标准化产品 1,销售额 1), (标准化产品2, 销售额2), …]，所属行业分类标签)，其中标准化产品是指国家统计局发布的统计用产品分类目录下产品名称；

模块（2）的特征重构模块用于输入数据和输出数据，并将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比，作为下一模块的输入，分类器部分使用 SVM 模型进行训练，使用特征重构模块得到的训练数据作为输入，最终得到分类结果 2，