CN116451114A

CN116451114A - 基于企业多源实体特征信息的物联网企业分类系统及方法

Info

Publication number: CN116451114A
Application number: CN202310334205.2A
Authority: CN
Inventors: 赵瑾瑾; 陈赞; 吴优; 黄海量
Original assignee: SHANGHAI TELECOM TECHNOLOGY DEVELOPMENT CO LTD
Current assignee: SHANGHAI TELECOM TECHNOLOGY DEVELOPMENT CO LTD
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-18

Abstract

本发明公开一种基于企业多源实体特征信息的物联网企业分类系统及方法，系统包括：物联网企业多源信息采集模块，采集物联网企业在互联网公开领域内发表的企业多源信息；物联网企业信息实体识别算法模块，通过BiLSTM‑CRF命名实体识别模型对采集到的企业多源信息进行物联网核心实体识别，提取物联网企业的实体信息；基于物联网企业实体信息聚类的分类算法模块，将已提取的物联网企业实体信息向量化，并对得到的企业实体向量进行聚类处理；物联网企业分类标签输出模块，通过物联网实体聚类结果，计算物联网企业与核心实体之间的余弦相似度距离，为企业打上物联网分类标签。本发明提高企业在产业分类和产业节点分类问题上的效果。

Description

基于企业多源实体特征信息的物联网企业分类系统及方法

技术领域

本发明涉及物联网企业分类技术领域，尤其涉及一种基于企业多源实体特征信息的物联网企业分类系统及方法。

背景技术

物联网作为我国重点发展产业，是国民经济未来发展的重要驱动引擎和基础设施。目前，随着物联网市场的快速发展，细分领域和创新技术不断在市场中快速涌现，极大地提升了物联网产业的丰富程度。但是，由于物联网产业处于高速创新周期中，使得产业定义和边界不断扩大，市场参与主体纷繁复杂等情况，这也为物联网产业市场分析和监管提出了新的挑战。

企业是市场经济运行中重要组成部分，其在经营过程中产生的产品、专利、招聘、招投标等信息，是分析企业所在产业发展非常有效和直观的数据，对物联网产业分析和市场监管都有着重大的理论和实际意义。因此，如何有效地从众多市场主体中分离出物联网高度相关的企业主体，是实现物联网产业有效监管的重要前提。

传统企业分类技术大部分依靠企业国民经济分类标签进行，存在以下明显的不足：

分类标签单一，无法真实反映企业经营类型。物联网企业因自身发展需要，经营范围往往不局限在某一个细分领域中。而传统分类方法往往只能给企业打上单一标签，从而有极大可能缩小了企业经营范围，不利于物联网企业筛选。

判断依据有限，无法有效刻画企业画像特征。传统企业画像特征多来自于企业工商登记的经营范围，无法有效判断企业是否属于物联网产业。而物联网企业在互联网公开领域中披露的有效信息中包含了企业大量的画像特征，如忽略则极大地影响了物联网企业筛选的准确性。

存在经验性误差，无法做到分类质量统一。传统企业标签设置主要通过人工完成，在物联网专业细分领域内存在明显的经验性误差，也使得人工分类质量难以统一。

因此，亟需研究一种全新的物联网企业产业分类方法，以提高企业在产业分类和产业节点分类问题上的效果。

发明内容

针对现有技术中存在的缺陷和不足，本发明提供了一种基于企业多源实体特征信息的物联网企业分类系统及方法，以提高企业在产业分类和产业节点分类问题上的效果。

为解决上述问题，本发明提供的方案是：

一种基于企业多源实体特征信息的物联网企业分类系统，其包括：

物联网企业多源信息采集模块，用于采集物联网企业在互联网公开领域内发表的企业多源信息；

物联网企业信息实体识别算法模块，用于通过BiLSTM-CRF命名实体识别模型对采集到的所述企业多源信息进行物联网核心实体识别，提取物联网企业的实体信息；

基于物联网企业实体信息聚类的分类算法模块，用于将已提取的物联网企业实体信息向量化，并对得到的企业实体向量进行聚类处理；

物联网企业分类标签输出模块，用于通过物联网实体聚类结果，计算物联网企业与核心实体之间的余弦相似度距离，为企业打上物联网分类标签。

作为本发明系统的优选实施例，所述物联网企业多源信息采集模块采集的信息是通过对互联网信息的综合分析后选取的企业公开核心信息，包括企业工商信息、专利信息、招投标信息、招聘信息、新闻信息中的至少一种或多种组合。

作为本发明系统的优选实施例，所述物联网企业信息实体识别算法模块包括：

企业文本信息预处理单元，用于对已获取的企业多源信息进行文本预处理，为BiLSTM-CRF命名实体识别模型的训练提供样本；

实体识别模型训练单元，用于构建网络结构的BiLSTM-CRF命名实体识别模型；

企业实体信息预测单元，用于在搭建好BiLSTM-CRF命名实体识别模型后，对企业多源信息进行核心实体的识别及预测。

作为本发明系统的优选实施例，所述企业文本信息预处理单元还用于对无实体样本进行负采样操作后，将样本数据进行划分为训练集、验证集、测试集。

作为本发明系统的优选实施例，所述基于物联网企业实体信息聚类的分类算法模块包括：

企业实体信息向量化单元，用于基于BERT和word2vec的联合模型BERT_word2vec来向量化表示物联网实体；

企业实体向量聚类及噪音处理单元，用于将实体向量化后，依据向量之间的距离或相似性进行归类且聚成簇。

一种基于企业多源实体特征信息的物联网企业分类方法，其包括以下步骤：

采集物联网企业在互联网公开领域内发表的企业多源信息；

通过BiLSTM-CRF命名实体识别模型对采集到的所述企业多源信息进行物联网核心实体识别，提取物联网企业的实体信息；

将已提取的物联网企业实体信息向量化，并对得到的企业实体向量进行聚类处理；

通过物联网实体聚类结果，计算物联网企业与核心实体之间的余弦相似度距离，为企业打上物联网分类标签。

作为本发明方法的优选实施例，采集所述企业多源信息的步骤还包括：通过对互联网信息的综合分析，选取企业公开核心信息进行采集。

作为本发明方法的优选实施例，所述物联网核心实体识别的步骤包括：

企业文本信息预处理，对已获取的企业多源信息进行文本预处理，为BiLSTM-CRF命名实体识别模型的训练提供样本；

实体识别模型训练，构建网络结构的BiLSTM-CRF命名实体识别模型；

企业实体信息预测，在搭建好BiLSTM-CRF命名实体识别模型后，对企业多源信息进行核心实体的识别及预测。

作为本发明方法的优选实施例，所述企业文本信息预处理的步骤还包括对无实体样本进行负采样操作后，将样本数据进行划分为训练集、验证集、测试集。

作为本发明方法的优选实施例，所述聚类处理的步骤包括：

企业实体信息向量化，获取开源的大规模高质量中文词向量数据库，获取企业实体字词的word2vec向量表示；

企业实体向量聚类，利用K-Means算法进行企业实体信息的无监督聚类，并统计聚类结果每个簇的实体数量；

核心实体及噪音实体发现，根据聚类结果，计算每个簇内实体数量，根据实体数量的多少认定核心实体簇和非核心实体簇，将独立的实体定义为噪音。

由于采用上述技术方案，使得本发明具有以下有益效果：

(1)适用范围更广：传统企业分类算法大部分只能处理头部大型企业，而对于信息较为分散的中小企业产业分类并没有有效的方法；本发明利用企业的综合信息作为分类依据，大大扩展了可分类的企业范围，使得中小物联网企业同样可以进行产业节点的分类。

(2)可解释性更强：传统深度学习或机器学习算法往往只能输出分类结果，但对于分类结果的原因不能提供直观的解释；本发明利用实体相似度算法，不仅能够准确进行企业分类，还能直接输出分类的实体信息，极大优化了分类结果的解释性。

(3)分类准确性更高：传统企业分类方法会根据企业所有信息进行分类，而没有有效去除信息噪音的方法；本发明中利用实体聚类算法，根据聚类簇的实体数量筛选出能够有效描述企业业务的核心实体，同时去除掉非核心实体和噪音实体，有效提升了最终企业产业分类结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于企业多源实体特征信息的物联网企业分类方法的流程图。

图2是本发明实施例提供的网络结构的BiLSTM-CRF模型图。

图3是本发明实施例提供的基于BERT和word2vec的联合模型BERT_word2vec模型结构图。

图4是本发明实施例提供的企业实体信息聚类效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是一种通过物联网企业多维度信息进行企业产业分类的方法，该方法主要由以下四个部分组成：物联网企业多源信息采集、物联网企业信息实体识别算法、基于物联网企业实体信息聚类的分类算法、物理企业分类标签输出。

结合图1所示，本发明实施例提供了一种基于企业多源实体特征信息的物联网企业分类方法，其具体流程如下：

1.物联网企业多源信息采集

从宏观视角分析，物联网企业在互联网公开领域内发表了海量的企业信息。但是，由于互联网中充斥着更庞大的广告信息，使得企业核心信息识别和采集变得异常困难。通过对互联网信息的综合分析，本发明实施例选取了少量的企业公开核心信息用于物联网企业分类工作，包括：企业工商信息、专利信息、招投标信息、招聘信息、新闻信息。

1.1企业工商信息采集

企业工商信息属于企业公开信息，是所有企业都具有的公开资料，也是在进行小微企业、初创企业的产业节点匹配中能够使用的主要信息。本发明实施例中需采集的企业工商信息包括：企业名称、经营范围、注册时间、注册地址等。

1.2企业专利信息采集

企业专利信息属于企业公开信息，其中包含企业核心的产品和技术，能够详细及准确地描述企业核心技术能力。本发明实施例中需要采集的企业专利信息包括：专利名称、申请人(企业)、专利摘要、专利正文、专利申请日期。

1.3企业招中标信息采集

企业招标信息属于企业公开信息，其中包含企业在招标产品或技术产业下游存在需求。本发明实施例中需要采集的企业招标信息包括：招标标题、招标单位、招标正文、招标时间等。

企业中标信息属于企业公开信息，其中包含企业在中标产品或技术产业上游具备产品或技术能力。本发明实施例中需要采集的企业中标信息包括：中标标题、招标单位、中标单位、中标正文、中标时间、中标金额等。

1.4企业招聘信息采集

企业在招聘平台上的招聘信息属于企业公开信息，其中包含企业在特定岗位中的技术需求，从而反映企业业务属于相关技术或产品领域。本发明实施例中需要采集的企业招聘信息包括：岗位名称、岗位描述、招聘时间。

1.5企业新闻信息采集

企业在公开网络平台上的新闻信息属于企业公开信息，其中可能包含企业相关的产业信息。本发明实施例中需要采集的企业新闻信息包括：新闻标题、新闻正文、新闻时间、新闻来源。

2.物联网企业信息实体识别算法

由于物联网企业信息来源不同，信息结构不同，所包含的信息噪音不同，无法用简单的文本分类算法对多源异构的信息进行分类。因此，本发明实施例通过BiLSTM-CRF命名实体识别模型对不同信息进行物联网核心实体识别，从而有效提取物联网企业的关键信息。

2.1企业文本信息预处理

对已获取的企业相关信息进行文本预处理，包括文本分段分句，通过人工标注的方式对分句后的文本进行实体标注，为模型的训练提供样本。考虑到实体稀疏甚至无实体的语句较多，因此对无实体样本进行负采样操作后，将样本数据进行划分为训练集、验证集、测试集。

2.2实体识别模型训练

物联网企业的公开文本信息中包含大量的文字和非结构化的图片信息，因此从中抽取核心实体需要对核心实体上下文进行统一识别，从而增强对核心实体的语义理解以及提高每个实体的处理方式。

BiLSTM结构由前向和后向的两层LSTM神经网络组成，它们的输入相同，能够通过前后两个方向的LSTM进行信息的特征提取实现对整个语句或文本的上下文信息关联。CRF模型在用于序列标注问题时通过特征函数来充分考虑当前输出与上一时刻输出之间的影响，在NER中运用CRF模型能够更好地约束实体，从训练数据中获得约束性规则，使得字与字之间的标注关系相互依赖。使得标签序列预测中非法序列出现的概率大大降低，从而提高模型的识别性能。因此，本发明实施例构建了如图2所示的网络结构的BiLSTM-CRF模型，用于从物联网企业信息中抽取核心实体。

具体来看，将BiLSTM的输出作为CRF的输入，该模型包含状态转移矩阵A作为CRF层的参数，将BiLSTM的输出作为矩阵P，一个输入句子X＝(x₁,x₂,...,x_n)，预测标注序列表示为G＝(g₁,g₂,...,g_n)，则对应的预测输出分数为：

其中，A是状态转移矩阵，代表从标注g_i转移到标注g_i+1的概率。/>表示句子中第i个词被标记为第g_i个标注的概率。通过求s(X,G)的最大值就可得到最佳输出标签序列。

2.3企业实体信息预测

在搭建好实体识别模型后，将对企业多源信息进行实体识别及预测。以企业专利信息为例，经过分类模型做过滤器后剩余近80000条物联网专利文本，将文本导入BiLSTM+CRF模型，模型部分超参数设定如下：

maxlen＝160

epochs＝16

batch_size＝16

BiLSTM_layers＝6

learning_rate＝1e-5

crf_lr_multiplier＝1000

经过多次实验及查阅相关资料，结果发现，在学习率为主体学习率的100倍以上时，转移矩阵开始趋于合理(BiLSTM主体学习率为0.00001,CRF层为0.01，即1000倍)。

最大字符长度为256，共训练16波样本，一次迭代训练的样本量为16，BiLSTMlayer6层，尽可能小的BiLSTM学习率和扩大的crf层学习率。本文使用了谷歌Google中文BiLSTM中文预训练模型的chinese_L-12f1最高时保存最优模型参数。

3.基于物联网企业实体信息聚类的分类算法

3.1企业实体信息向量化

为便于后续进行企业实体向量聚类及噪音处理，需要将已提取的物联网企业实体信息转化为向量表示。本发明实施例利用了基于BERT和word2vec的联合模型BERT_word2vec来向量化表示物联网实体，其模型结构如图3所示。

BERT(Bidirectional Encoder Representations from Transformers)模型，本质是在双向Transformer编码器的基础上实现的，经过双向Transformer编码将输入向量转化为文本的向量化表示。

Word2vec作为一款将词表征为实数值向量的高效工具包，其利用深度学习的思想，可通过训练把对文本内容的处理简化为多维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。

本发明实施例采用的相似度度量方法为余弦相似度，余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，它更加注重两个向量在方向上的差异，而非距离或长度上，因此该方法更适合向量化后的数据。假设BERT模型的输出向量表示为A，word2vec训练出的词向量为B_i,i＝1,2,...,n，其表示短文本中第i个词的词向量，n为短文本中词语总数，则短文本中第i个词与短文本的相似度S_i及第i个词对应的权重w_i的计算公式如下：

接下来将每个词向量乘以其对应的权重并拼接成一个向量，再与BERT预训练出的短文本相加，得到最终的短文本向量化表示。

3.2企业实体向量聚类及噪音处理

通过企业多维度信息实体识别算法，可得到大量刻画企业产业、领域、技术、产品的实体信息。但是由于实体识别算法本身准确性问题，所得到的企业实体信息仍然存在以下两个问题：

(1)实体信息存在噪音。由于本发明实施例中使用的企业信息文本类型和格式均非常多样和复杂，导致了实体识别算法最终结果中存在较多的噪音，将会影响最终的企业产业分类结果。

(2)实体向量较为分散。由于企业业务往往会涵盖多个产业、领域、技术、产品，因此识别出的实体间往往也存在较大的差异，导致无法单独依靠实体信息来判断企业主要的业务领域。

因此，为提升最终企业产业分类效果，本发明实施例针对识别出的企业实体信息进行了聚类操作。实体聚类的基本思想是将实体向量化后，依据向量之间的距离或相似性进行归类且聚成簇。

本发明实施例中的企业实体信息聚类技术流程，主要分为企业实体信息向量化、企业实体向量聚类、核心实体及噪音实体发现三个过程。

(1)企业实体信息向量化：获取开源的大规模高质量中文词向量数据库，获取企业实体字词的word2vec向量表示；

(2)企业实体向量聚类：利用K-Means算法进行企业实体信息的无监督聚类，并统计聚类结果每个簇的实体数量；

(3)核心实体及噪音实体发现：根据聚类结果，计算每个簇内实体数量，将实体数量前3的簇定义为核心实体簇，其中的产业、领域、技术、产品实体认定为描述企业核心业务的信息。将其他簇定义为非核心实体簇，说明这些簇里的实体信息并不是企业最重要的业务信息。将独立的实体定义为噪音，说明这些实体信息并不是描述企业真实业务。聚类效果如图4所示。

4.物联网企业分类标签输出

通过物联网实体分类结果，可以计算物联网企业与核心业务之间的余弦相似度距离，进而为企业打上物联网分类标签。

本发明是一种基于企业多源实体特征信息的物联网企业分类方法，与传统企业产业分类方法相比具有以下优点：

另外，本发明中使用的企业和产业信息，亦可以在此基础上进行适当缩减或扩充，对于本发明实际分类效果不会产生巨大影响。本发明中使用的实体识别、实体向量化、实体聚类等算法，在不改变整体算法流程和核心步骤前提下，亦可以使用其他效果类似的算法进行替代。

为实现上述提到的本发明实施例的一种基于企业多源实体特征信息的物联网企业分类方法，本发明还提供了一种基于企业多源实体特征信息的物联网企业分类系统，该系统主要包括物联网企业多源信息采集模块、物联网企业信息实体识别算法模块、基于物联网企业实体信息聚类的分类算法模块和物联网企业分类标签输出模块，分别对应实现上述方法中的4个步骤：物联网企业多源信息采集、物联企业信息实体识别算法、基于物联网企业实体信息聚类的分类算法、物理企业分类标签输出。

进一步的，从宏观视角分析，物联网企业在互联网公开领域内发表了海量的企业信息。但是，由于互联网中充斥着更庞大的广告信息，使得企业核心信息识别和采集变得异常困难。因此，物联网企业多源信息采集模块可通过对互联网信息的综合分析，选取少量的企业公开核心信息用于物联网企业分类工作，包括：企业工商信息、专利信息、招投标信息、招聘信息、新闻信息。

更进一步的，由于物联网企业信息来源不同，信息结构不同，所包含的信息噪音不同，无法用简单的文本分类算法对多源异构的信息进行分类。因此，本发明实施例采用物联网企业信息实体识别算法模块通过构建BiLSTM-CRF命名实体识别模型来对不同信息进行物联网核心实体识别，从而有效提取物联网企业的关键信息，包括企业文本信息预处理单元、实体识别模型训练单元、企业实体信息预测单元。

(1)企业文本信息预处理单元。对已获取的企业相关信息进行文本预处理，包括文本分段分句，通过人工标注的方式对分句后的文本进行实体标注，为模型的训练提供样本。考虑到实体稀疏甚至无实体的语句较多，因此对无实体样本进行负采样操作后，将样本数据进行划分为训练集、验证集、测试集。

(2)实体识别模型训练单元。物联网企业的公开文本信息中包含大量的文字和非结构化的图片信息，因此从中抽取核心实体需要对核心实体上下文进行统一识别，从而增强对核心实体的语义理解以及提高每个实体的处理方式。本发明实施例构建了如图2所示的网络结构的BiLSTM-CRF模型，用于从物联网企业信息中抽取核心实体。

(3)企业实体信息预测单元。在搭建好实体识别模型后，将对企业多源信息进行实体识别及预测。以企业专利信息为例，经过分类模型做过滤器后剩余近80000条物联网专利文本，将文本导入BiLSTM+CRF模型。

更进一步的，基于物联网企业实体信息聚类的分类算法模块包括企业实体信息向量化单元和企业实体向量聚类及噪音处理单元。

(1)企业实体信息向量化单元。为便于后续进行企业实体向量聚类及噪音处理，需要将已提取的物联网企业实体信息转化为向量表示。本发明实施例利用了基于BERT和word2vec的联合模型BERT_word2vec来向量化表示物联网实体，其模型结构图如图3所示。

(2)企业实体向量聚类及噪音处理单元，通过企业多维度信息实体识别算法，可得到大量刻画企业产业、领域、技术、产品的实体信息。但是由于实体识别算法本身准确性问题，所得到的企业实体信息仍然存在以下2个问题。

1)实体信息存在噪音。由于本发明实施例中使用的企业信息文本类型和格式均非常多样和复杂，导致了实体识别算法最终结果中存在较多的噪音，将会影响最终的企业产业分类结果。

2)实体向量较为分散。由于企业业务往往会涵盖多个产业、领域、技术、产品，因此识别出的实体间往往也存在较大的差异，导致无法单独依靠实体信息来判断企业主要的业务领域。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于企业多源实体特征信息的物联网企业分类系统，其特征在于，包括：

2.根据权利要求1所述的基于企业多源实体特征信息的物联网企业分类系统，其特征在于，所述物联网企业多源信息采集模块采集的信息是通过对互联网信息的综合分析后选取的企业公开核心信息，包括企业工商信息、专利信息、招投标信息、招聘信息、新闻信息中的至少一种或多种组合。

3.根据权利要求1所述的基于企业多源实体特征信息的物联网企业分类系统，其特征在于，所述物联网企业信息实体识别算法模块包括：

4.根据权利要求2所述的基于企业多源实体特征信息的物联网企业分类系统，其特征在于，所述企业文本信息预处理单元还用于对无实体样本进行负采样操作后，将样本数据进行划分为训练集、验证集、测试集。

5.根据权利要求1所述的基于企业多源实体特征信息的物联网企业分类系统，其特征在于，所述基于物联网企业实体信息聚类的分类算法模块包括：

6.一种基于企业多源实体特征信息的物联网企业分类方法，其特征在于，包括以下步骤：

采集物联网企业在互联网公开领域内发表的企业多源信息；

7.根据权利要求6所述的基于企业多源实体特征信息的物联网企业分类方法，其特征在于，采集所述企业多源信息的步骤还包括：通过对互联网信息的综合分析，选取企业公开核心信息进行采集。

8.根据权利要求6所述的基于企业多源实体特征信息的物联网企业分类方法，其特征在于，所述物联网核心实体识别的步骤包括：

9.根据权利要求8所述的基于企业多源实体特征信息的物联网企业分类方法，其特征在于，所述企业文本信息预处理的步骤还包括对无实体样本进行负采样操作后，将样本数据进行划分为训练集、验证集、测试集。

10.根据权利要求1所述的基于企业多源实体特征信息的物联网企业分类方法，其特征在于，所述聚类处理的步骤包括：