CN111914090A

CN111914090A - 一种企业行业分类识别及其特征污染物识别的方法及装置

Info

Publication number: CN111914090A
Application number: CN202010832353.3A
Authority: CN
Inventors: 王夏晖; 黄国鑫; 朱守信; 季国华; 田梓; 卢然; 陈茜
Original assignee: Environmental Planning Institute Of Ministry Of Ecology And Environment
Current assignee: Environmental Planning Institute Of Ministry Of Ecology And Environment
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-10
Anticipated expiration: 2040-08-18
Also published as: US20220147023A1; CN111914090B

Abstract

本发明实施例提供了一种企业行业分类识别及其特征污染物识别的方法及装置，其中，企业的行业分类识别方法包括：获取目标企业的信息点数据；根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值；根据预设行业分类预测模型和特征值确定目标企业所属的行业分类。通过实施本发明，得到的特征值可以有效避免无意义词汇的干扰，从而识别得到的目标企业所属的行业分类更加准确。

Description

一种企业行业分类识别及其特征污染物识别的方法及装置

技术领域

本发明涉及土壤和地下水污染风险管控技术领域，具体涉及一种企业行业分类识别及其特征污染物识别的方法及装置。

背景技术

由于不同行业的企业会产生不同的特征污染物，因此对不同行业的企业有不同的管理措施，为了更好地对企业进行管控，需要先对企业所属行业进行判断，传统对企业所属行业的判断方式通常是人为了解企业简介中记载的所属行业或企业的经营范围，从而人为判断企业所属行业，传统方法虽然可以保证企业所属行业识别的准确性，但是这类方法需要耗费大量人力和时间。随着大数据技术的应用，可以利用互联网上获取的企业信息点(Point Of Interest，POI)数据中文本确定该企业所属的行业分类。但是，由于无法从信息点数据中准确提取能够有效识别企业所属行业分类的词汇，导致通过企业信息点确定的企业所属行业分类存在误差，致使准确性不高。另一方面，现有文本分类算法或模型存在有语义词汇库库容不足、易发生过拟合、运算速度和效率低下等缺陷，进而对土壤生态环境管理的决策支撑作用不强。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的通过企业信息点确定的企业所属行业分类存在误差、有语义词汇库库容不足、易发生过拟合、运算速度和效率低下的缺陷，从而提供一种企业行业分类识别及其特征污染物识别的方法及装置。

本发明第一方面提供了一种企业的行业分类识别方法，包括：获取目标企业的信息点数据；根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值；根据预设行业分类预测模型和特征值确定目标企业所属的行业分类。

可选地，在本发明提供的企业的行业分类识别方法中，通过以下步骤确定预设的行业分类预测模型：获取企业训练数据；根据企业训练数据、预设的有语义词汇库、预设的行业摘要信息确定企业训练数据的特征词以及特征词的特征值；根据特征值对高斯朴素贝叶斯模型的alpha平滑参数进行调参，获取最优参数；根据高斯朴素贝叶斯模型的最优参数构建预设行业分类预测模型。

可选地，在本发明提供的企业的行业分类识别方法中，确定预设的行业分类预测模型的步骤，还包括：获取企业检验数据；根据预设行业分类预测模型获取企业检验数据所属行业分类的预测结果；根据预测结果计算预设行业分类预测模型的准确率、召回率和F1值；根据准确率、召回率和F1值判断预设行业分类预测模型是否满足预设条件；若预设行业分类预测模型不满足预设条件，返回获取污染企业训练数据的步骤，重新训练预设行业分类预测模型。

可选地，在本发明提供的企业的行业分类识别方法中，根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值的步骤，包括：对信息点数据进行预处理，提取信息点数据中的多个词汇；将多个词汇中存在于预设的有语义词汇库中的词汇确定为信息点数据的特征词；根据特征词和预设的有语义词汇库计算特征词的词频；若特征词与预设的行业摘要信息相匹配，则根据词频和预设权重计算特征词的特征值；若特征词与预设的行业摘要信息不匹配，则根据词频确定特征词的特征值。

可选地，在本发明提供的企业的行业分类识别方法中，预设的有语义词汇库中包含多个企业名称以及与企业名称相对应的特征词，根据特征词和预设的有语义词汇库计算特征词的词频的步骤，包括：根据特征词在信息点数据中的数量和信息点数据中所有特征词的总数计算特征词的正向词频；根据预设的有语义词汇库内企业名称总数和预设有语义词汇库内包含特征词的企业名称的数量计算特征词的逆文本频率；根据特征词的正向词频和逆文本频率计算特征词的词频。

可选地，在本发明提供的企业的行业分类识别方法中，预设的有语义词汇库包括企业有语义词汇库，通过如下步骤获取企业有语义词汇库，获取企业数据，企业数据包含各企业的企业名称以及各企业对应的行业类别和经营范围信息；根据企业数据中各企业的行业类别和国民经济行业分类数据中行业分类的分类说明对企业数据进行分类；对企业数据进行预处理，提取企业数据中的词汇；根据各词汇中出现次数小于第一预设阈值的词汇，以及出现次数大于所述第一预设阈值且对行业分类预测有意义的词汇组建初始企业有语义词汇库；分别计算企业数据中位于初始企业有语义词汇库中的词汇在初始企业有语义词汇库中的词频；根据词频小于第二预设阈值的词汇，以及词频大于所述第二预设阈值且对行业分类预测有意义的词汇组建企业有语义词汇库。

可选地，在本发明提供的企业的行业分类识别方法中，根据预设行业分类预测模型和所述特征值确定的所述目标企业所属的行业分类为中类行业的分类，预设的有语义词汇库包括行业有语义词汇库，通过如下步骤获取行业有语义词汇库，获取国民经济行业分类数据，国民经济行业分类数据包含国民经济小类行业的行业名称、中类行业的行业名称以及各行业的分类说明；对国民经济行业分类数据进行预处理，提取国民经济行业分类数据中的词汇；根据国民经济行业分类数据中出现次数小于第三预设阈值的词汇，以及出现次数大于所述第三预设阈值且对行业分类预测有意义的词汇组建行业有语义词汇库。

可选地，在本发明提供的企业的行业分类识别方法中，通过如下步骤获取预设的行业摘要信息，分别计算国民经济行业分类数据的小类行业的行业名称和分类说明中位于行业有语义词汇库中的词汇在行业有语义词汇库中的词频；将各小类行业中大于第四预设阈值的词频对应的词汇确定为小类行业的热词；根据预设的自关联表将各小类行业中的热词聚合至所属中类行业，形成预设的行业摘要信息。

本发明第二方面提供了一种企业的特征污染物分类识别方法，包括：获取目标企业的信息点数据；根据信息点数据及如本发明第一方面提供的企业的行业分类识别方法确定目标企业所属的行业分类；根据目标企业所属的行业分类确定目标企业的特征污染物。

可选地，在本发明提供的企业的特征污染物分类识别方法中，根据目标企业所属的行业分类确定目标企业的特征污染物的步骤，包括：获取特征污染物数据，特征污染物数据包含各行业分类对应的特征污染物；根据目标企业所属的行业分类和特征污染物数据确定目标企业的特征污染物。

本发明第三方面提供了一种企业的行业分类识别装置，包括：第一数据获取模块，用于获取目标企业的信息点数据；特征值计算模块，用于根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值；第一行业预测模块，用于根据预设行业分类预测模型和特征值确定目标企业所属的行业分类，行业分类为中类行业的分类。

本发明第四方面提供了一种企业的特征污染物分类识别装置，包括：第二数据获取模块，用于获取目标企业的信息点数据；第二行业预测模块，用于根据信息点数据及如本发明第三方面提供的企业的行业分类识别装置确定目标企业所属的行业分类；特征污染物确定模块，用于根据目标企业所属的行业分类确定目标企业的特征污染物。

本发明第五方面提供了一种计算机设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，从而执行如本发明第一方面提供的企业的行业分类识别方法，或，本发明第二方面提供的企业的特征污染物分类识别方法。

本发明第六方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如本发明第一方面提供的企业的行业分类识别方法，或，本发明第二方面提供的企业的特征污染物分类识别方法。

本发明技术方案，具有如下优点：

1.本发明提供的企业的行业分类识别方法，在对企业所属的行业分类进行识别时，先获取目标企业的信息点数据，然后根据预设的有语义词汇库、预设的行业摘要信息确定信息点数据的特征词以及特征词的特征值，最后根据预设行业分类预测模型和特征值确定目标企业所属的行业分类，由于特征值是根据有语义词汇库和行业摘要信息确定的，因此本申请中得到的特征值可以有效避免无意义词汇的干扰，从而识别得到的目标企业所属的行业分类更加准确。

2.本发明提供的企业的行业分类识别方法，在确定特征词的特征值时，先根据预设的有语义词汇库确定特征词的词频，若特征词与预设的行业摘要信息相匹配，则根据预设权重确定特征词的特征值，因为当特征词与行业摘要相匹配时，表明该特征词为识别企业所属行业的重要词汇，因此为词频加权重得到的特征值，改进了高斯朴素贝叶斯模型，进而使得行业分类识别的准确率进一步提高。

3.本发明提供的企业的行业分类识别方法，在确定企业有语义词汇库时，先根据各词汇的出现次数对有语义词汇进行一次筛选，得到初始有语义词汇库，然后根据各位于初始有语义词汇库内的词汇的词频对有语义词汇进行二次筛选，得到最终的企业有语义词汇库。由于通过出现次数较多的词汇以及词频较高的词汇对企业所属行业进行识别时存在较大的干扰，因此通过本发明提供的获取有语义词汇库提取识别企业所属行业时所用的特征词，可以得到更准确的识别结果。

4.本发明提供的企业的行业分类识别方法，在确定行业摘要信息时，利用国民经济行业分类数据的小类行业的行业名称和分类说明计算位于行业有语义词汇库中的词汇的词频，然后将词频大于第四阈值的词汇确定为小类行业的热词，并将小类行业的热词聚类至中类行业，形成预设的行业摘要信息。通过本发明得到的预设的行业摘要信息中包含对各中类行业相关性较高的词汇，因此通过本发明得到的预设的行业摘要信息得到的特征值预测到的行业分类更准确。

5.本发明提供的企业的特征污染物分类识别方法，在确定企业的特征污染物时，先获取目标企业的信息点数据，然后通过本发明第一方面提供的企业的行业分类识别方法确定目标企业所属的行业分类，最后根据目标企业所属行业分类确定目标企业的特征污染物。通过本发明第一方面提供的企业的行业分类识别方法得到的行业分类较为准确，因此通过本发明提供的企业的特征污染物分类识别方法可以得到的目标企业的特征污染物也较为准确。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中企业的行业分类识别方法的一个具体示例的流程图；

图2为本发明实施例中构建预设行业分类预测模型的一个具体示例的流程图；

图3为本发明实施例中不同alpha平滑参数对高斯朴素贝叶斯模型的准确率、召回率、F1值的影响的示意图；

图4为本发明实施例中构建预设行业分类预测模型的另一具体示例的流程图；

图5为本发明实施例中企业的行业分类识别方法的具体示例的流程图；

图6为本发明实施例中不同权重对高斯朴素贝叶斯模型的准确率、召回率、F1值的影响的示意图；

图7为本发明实施例中企业的行业分类识别方法的具体示例的流程图；

图8为本发明实施例中下频率值对行业分类准确率的影响的示意图；

图9为本发明实施例中上频率值对行业分类准确率的影响的示意图；

图10为本发明实施例中构建企业有语义词汇库的一个具体示例的流程图；

图11为本发明实施例中构建行业有语义词汇库的一个具体示例的流程图；

图12为本发明实施例中构建预设的行业摘要信息的一个具体示例的流程图；

图13、14为本发明实施例中企业的特征污染物分类识别方法的一个具体示例的流程图；

图15为本发明实施例中企业的行业分类识别装置的一个具体示例的原理框图；

图16为本发明实施例中企业的特征污染物分类识别装置的一个具体示例的原理框图；

图17为本发明实施例中提供的计算机设备的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供了一种企业的行业分类识别方法，如图1所示，包括：

步骤S11：获取目标企业的信息点数据。

在本发明实施例中，目标企业的信息点数据包括该目标企业的企业名称，即，本发明实施例提供的企业的行业分类识别方法可以通过目标企业的企业名称识别目标企业所属的行业分类。

在一具体实施例中，在获取目标企业的信息点数据后，需要先对信息点数据进行预处理，然后进行中文分词处理。在本发明实施例中，对信息点进行预处理包括：剔除信息点数据中的标点符号、英文字母、数字等词汇；对目标企业的信息点数据进行分词处理是采用隐马尔可夫模型、Viterbi算法和jieba分词引擎实现的；在分词后，通过cut函数提取出现过的所有词汇。

步骤S12：根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值。

在本发明实施例中，预设的有语义词汇库是根据大量的企业数据提炼的，预设的有语义词汇库中包含有有利于确定行业分类的词汇，预设的行业摘要信息是根据各小类行业的行业名称和分类说明信息提取的，预设的行业摘要信息中包含各中类行业中的典型词汇。

步骤S13：根据预设行业分类预测模型和特征值确定目标企业所属的行业分类。在一具体实施例中，该行业分类可以为中类行业的分类，行业分类可具体包括金属加工机械制造、电子和电工机械专用设备制造、结构性金属制品制造、金属表面处理及热处理加工、铁合金冶炼、专用化学产品制造、常用有色金属冶炼、基础化学原料制造、农药制造等36个中类行业。

在一具体实施例中，预设行业分类预测模型可以采用高斯朴素贝叶斯模型、随机森林模型、XGBoost等模型中的一个，但是经过验证，随机森林、XGBoost和朴素贝叶斯等行业分类算法引起的准确率、召回率和F1值变化见下表1。准确率用于衡量算法分类结果的准确性，召回率用于衡量算法分类结果的完整性，而F1值是精确率和召回率的调和均值，F1值综合考虑准确性和完整性衡量算法分类结果的效果。由表1可知，无论从准确率还是召回率亦或F1值上看，不同算法的分类性能存在一定差异，且高斯朴素贝叶斯算法的性能优于随机森林算法和XGBoost算法，其中前者比后者在准确率上分别提高0.07和0.04、在召回率上分别提高0.08和0.07、在F1值上分别提高0.07和0.05。因此，在本发明实施例中，采用朴素贝叶斯算法进行行业分类预测。

表1

本发明提供的企业的行业分类识别方法，在对企业所属的行业分类进行识别时，先获取目标企业的信息点数据，然后根据预设的有语义词汇库、预设的行业摘要信息确定信息点数据的特征词以及特征词的特征值，最后根据预设行业分类预测模型和特征值确定目标企业所属的行业分类，由于特征值是根据有语义词汇库和行业摘要信息确定的，因此本申请中得到的特征值可以有效避免无意义词汇的干扰，从而识别得到的目标企业所属的行业分类更加准确。

在一可选实施例中，如图2所示，本发明实施例提供的企业的行业分类识别方法的识别过程中所用的预设的行业分类预测模型，可通过以下步骤来确定：

步骤S131：获取企业训练数据。

在本发明实施例中，企业训练数据中包括大量企业名称及其对应的企业经营范围和行业类别等信息。

在一具体实施例中，在获取企业训练数据后，还需要对企业训练数据进行预处理，包括：将企业训练数据根据国民经济行业分类中类行业标准进行标准化分类，对企业训练数据中企业名称及经营范围进行去重、补缺和归一化处理，并剔除标点符号、英文字母、数字等词汇；通过pynlpir辅助函数进行降噪；对企业训练数据进行中文分词，得到多个词汇。由于企业训练数据中所包含的行业类别的分类标准与所需的分类标准可能不同，因此需要统一据根据国民经济行业分类中类行业标准对企业训练数据进行标准化分类。

步骤S132：根据企业训练数据、预设的有语义词汇库、预设的行业摘要信息确定企业训练数据的特征词以及特征词的特征值。

在一具体实施例中，通过企业训练数据可以得到大量词汇，但是并不是所有的词汇都对行业识别有积极作用，因此需要先根据预设的有语义词汇库提取特征词，并且，为了使行业识别结果更加准确，需要根据预设的行业摘要信息确定各特征词的特征值。预设的行业摘要信息中包括通过大量不同行业以及分类说明提取的与不同行业相关的词汇。

步骤S133：根据特征值对高斯朴素贝叶斯模型的alpha平滑参数进行调参，获取最优参数。

在本发明实施例中，使用基于10折交叉验证的网格搜索方法调整alpha平滑参数，使用5次验证集的平均准确率最高值作为最优参数。

由于预设的有语义词汇库不可能穷举所有的特征词，故在对信息点数据向量化时仍然会损失新词汇的特征，从而会产生过度拟合现象。另外，在计算先验概率时，若信息点数据的某个特征词在训练数据集中某个行业类别中没有特征值，则会发生零概率现象。据此，在计算后验概率时，利用alpha平滑参数可以缓解过度拟合和零概率现象，具体公式为：

其中，α是alpha平滑参数，n指特征词的个数；c指某个行业类别，x₁指第i个特征词的特征值，i＝1，2，…，n，P(x₁，x₂，…，x_nc)指在已知某个样本行业类别为c条件下，该样本特征值为x₁，x₂，…，x_n的概率；N指特征值为x₁，x₂，…，x_n的样本在整个样本中个数统计，而N_c指特征值为x₁，x₂，…，x_n的样本在行业类别c中个数统计。

如图3所示，不同alpha平滑参数会引起高斯朴素贝叶斯算法的准确率、召回率和F1值变化。由图3可知，当alpha平滑参数介于1.10-1.15之间时，准确率、召回率和F1值均变化不大，分别介于0.61-0.63、0.66-0.68、0.64-0.65之间且alpha平滑参数为1.10时，识别效果最好。

步骤S134：根据高斯朴素贝叶斯模型的最优参数构建预设行业分类预测模型。

在一可选实施例中，如图4所示，本发明实施例提供的企业的行业分类识别方法中，确定预设的行业分类预测模型的步骤，还包括：

步骤S135：获取企业检验数据。在本发明实施例中，企业训练数据和企业校验数据的比例可以为9：1，也可以为8：2，具体可根据实际需求进行调整。对企业检验数据的描述以及对企业检验数据的处理过程见上述步骤S131。

步骤S136：根据预设行业分类预测模型获取企业检验数据所属行业分类的预测结果。

步骤S137：根据预测结果计算预设行业分类预测模型的准确率、召回率和F1值。

在一具体实施例中，通过如下公式计算预设行业分类预测模型的准确率：

其中，P为准确率，表示预测正确的样本占所有样本的比例；n为所有样本个数；n_c为预测正确的样本个数。

通过如下公式计算预设行业分类预测模型的召回率：

其中，R为召回率，表示预测正确的样本占某个行业所有样本的比例；n_c为预测正确的样本个数；m为某个行业所有样本个数。

通过如下公式计算预设行业分类预测模型的F1值：

其中，P为准确率；R为召回率。

步骤S138：根据准确率、召回率和F1值判断预设行业分类预测模型是否满足预设条件，若预设行业分类预测模型不满足预设条件，返回上述步骤S131，重新训练预设行业分类预测模型。

在一具体实施例中，预设条件可以根据实际需求自行设置，例如，可以为准确率、召回率和F1值分别设置阈值，当准确率、召回率和F1值都大于或等于各自的阈值时，表示预设行业分类预测模型满足预设条件，当准确率、召回率和F1值中的其中一项小于与其对应的阈值时，表示预设行业分类预测模型不满足预设条件。

在一可选实施例中，如图5所示，上述步骤S12具体包括：

步骤S121：对信息点数据进行预处理，提取信息点数据中的多个词汇。对信息点数据的预处理过程见为上述步骤S11。

步骤S122：将多个词汇中存在于预设的有语义词汇库中的词汇确定为信息点数据的特征词。因为预设的有语义词汇库中的词汇为与各行业分类有关联的词汇，因此将存在于预设的有语义词汇库中的词汇确定为特征词，能够快速且准确地获取行业分类结果。

步骤S123：根据特征词和预设的有语义词汇库计算特征词的词频。

步骤S124：分别判断各特征词是否与预设的行业摘要信息相匹配，若匹配，则根据词频和预设权重计算特征词的特征值；若不匹配，则根据词频确定特征词的特征值。

在本发明实施例中，若预设的行业摘要信息中包含某一特征值，则判定该特征值与预设的行业摘要信息相匹配。

本发明提供的企业的行业分类识别方法，在确定特征词的特征值时，先根据预设的有语义词汇库确定特征词的词频，若特征词与预设的行业摘要信息相匹配，则根据预设权重确定特征词的特征值，因为当特征词与行业摘要信息相匹配时，表明该特征词为识别企业所属行业的重要词汇，因此为词频加权重得到的特征值，可以使得行业分类识别的准确率进一步提高。

如图6所示，不同权重会引起高斯朴素贝叶斯算法的准确率、召回率和F1值变化。由图6可知，与对照组(权重为1)相比，当预设权重为1.15和1.30时，准确率、召回率和F1值均变化不大，当预设权重为1.27时三者数值则分别提高0.05、0.07和0.06，表明1.27为预设权重的最优值。显然，该最优值明显提升了具有行业分类特征的特征词的特征值，规避了训练集中各行业样本数分布不均造成高斯朴素贝叶斯算法倾向于大类、忽略小类的现象，进而提高了该算法的性能。

在一可选实施例中，在本发明提供的企业的行业分类识别方法中，预设的有语义词汇库中包含多个企业名称以及与企业名称相对应的特征词，在上述步骤S123中，通过词频-逆文本频率算法计算特征词的词频，如图7所示，具体包括：

步骤S1231：根据特征词在信息点数据中的数量和信息点数据中所有特征词的总数计算特征词的正向词频：

其中，n_i,j第i个特征词在信息点数据中的数量；∑_kn_i,j表示信息点数据中所有特征词的总数。

步骤S1232：根据预设的有语义词汇库内企业名称总数和预设有语义词汇库内包含特征词的企业名称的数量计算特征词的逆文本频率：

其中，|D|表示预设的有语义词汇库内企业名称总数；d_j表示第j个企业名称；|{j：i∈d_j}|表示包含第i个特征词的企业名称的数量。

步骤S1233：根据特征词的正向词频和逆文本频率计算特征词的词频：

tf_idf_i,j＝tf_i,j×idf_i,j。

在一具体实施例中，通过词频-逆文本频率算法计算词频时，需要对min_df下频率值和max_df上频率值两个参数调参，下频率值和上频率值会对行业分类的准确率产生影响，如图8所示为下频率选取不同的值时对行业分类准确率的影响，由图可知，当下频率值为0.15时，行业分类准确率最高，因此将下频率值确定为0.15，如图9所示为上频率选取不同的值时对行业分类准确率的影响，由图可知，当上频率值为0.90时，行业分类准确率最高，因此将下频率值确定为0.90。

在一可选实施例中，预设的有语义词汇库包括企业有语义词汇库，如图10所示，本发明实施例提供的行业分类识别方法通过如下步骤获取企业有语义词汇库：

步骤S141：获取企业数据，企业数据包含各企业的企业名称以及各企业对应的行业类别和经营范围信息。

步骤S142：对企业数据进行预处理，提取企业数据中的词汇。对企业数据进行预处理以及提取企业数据中的词汇的详细说明见上述步骤S131。

步骤S143：根据各词汇中出现次数小于第一预设阈值的词汇，以及出现次数大于第一预设阈值且对行业分类预测有意义的词汇组建初始企业有语义词汇库。第一预设阈值可以根据实际情况进行调整，例如，可以先对词汇的出现次数按从大到小的顺序进行排序，将排名为第100名的出现次数确定为第一预设阈值，根据出现次数排名在100名之后的词汇，以及排名在前100名且对行业分类预测有意义的词汇组建初始企业有语义词汇库。

在一具体实施例中，对行业分类预测有意义的词汇相对较多，并且判断某一词汇是否对行业分类预测有意义较为困难，因此在建立有语义词汇库时，可以先确定无语义词汇，将出现次数大于一定阈值且对行业分类预测无意义的词汇确定为无语义词汇，当词汇出现次数较多时，表明通过该词汇进行行业分类预测时的噪声越大，例如，“有限公司”是企业数据中出现次数较多的词汇，这种词汇几乎在所有企业数据中都会出现，因此这种词汇可以作为无语义词汇，再者，可以将地名等词汇确定为对行业分类预测无意义的词汇，这类词汇虽然出现次数不是很多，但是无法通过该类词汇确定行业分类。在将无语义词汇剔除后，将剩下的词汇确定为有语义词汇，从而组成有语义词汇库。

步骤S144：分别计算企业数据中位于初始企业有语义词汇库中的词汇在初始企业有语义词汇库中的词频。词频的计算方法见上述步骤S1231-步骤S1233。

步骤S145：根据词频小于第二预设阈值的词汇，以及词频大于第二预设阈值且对行业分类预测有意义的词汇组建企业有语义词汇库。第二预设阈值可以根据实际情况进行调整，例如，可以先根据从大到小的顺序对词频进行排序，将排名第100名的词频确定为第二预设阈值，根据词频排名在100名之后的词汇，以及词频排名在100名之前且对行业分类预测有意义的词汇组建有语义词汇库。与上述初始企业有语义词汇库相同，可以先确定无语义词汇，然后通过剔除无语义词汇的方法组建企业有语义词汇库。

本发明实施例中，建立企业有语义词汇库时，所用的数据为包含企业名称和企业名称对应的经营范围的企业数据，在一具体实施例中，也可仅用企业名称构建企业有语义词汇库，两种构建方法引起的高斯朴素贝叶斯算法的准确率、召回率和F1值变化见下表2。由表2可知，与仅采用企业名称相比，采用企业名称和经营范围构建有语义词汇库后，高斯朴素贝叶斯算法的准确率、召回率和F1值得到大幅提升，分别提高0.23、0.23和0.23，这源于经营范围扩充了有语义词汇库库容，减少了企业信息点数据向量化时新词汇特征的损失。因此，本发明实施例中采用企业名称和经营范围构建的企业有语义词汇库有效克服了仅利用企业名称构建词汇库造成库容不足的缺陷，进而使得行业分类识别的准确率进一步提高。

表2

本发明提供的企业的行业分类识别方法，在确定企业有语义词汇库时，先对根据各词汇的出现次数对有语义词汇进行一次筛选，得到初始有语义词汇库，然后根据各位于初始有语义词汇库内的词汇在初始有语义词汇库中的词频对有语义词汇进行二次筛选，得到最终的企业有语义词汇库，由于通过出现次数较多的词汇以及词频较高的词汇对企业所属行业进行识别时存在较大的干扰，因此通过本发明提供的获取有语义词汇库提取识别企业所属行业时所用的特征词，可以得到更准确的识别结果。

在一可选实施例中，本发明实施例提供的企业的行业分类识别方法，预设的有语义词汇库包括行业有语义词汇库，如图11所示，本发明实施例提供的行业分类识别方法通过如下步骤获取行业有语义词汇库：

步骤S151：获取国民经济行业分类数据，国民经济行业分类数据包含国民经济小类行业的行业名称、中类行业的行业名称以及各行业的分类说明。

步骤S152：对国民经济行业分类数据进行预处理，提取国民经济行业分类数据中的词汇。

对国民经济行业分类数据进行预处理包括：剔除行业名称和说明中标点符号、英文字母、数字等词汇；通过pynlpir辅助函数进行中文词汇降噪；利用预设的自关联表对小类名称及其分类说明分别进行自关联，将小类向上聚合至所属中类，如下表3所示为示意性的预设的自关联表：

表3

步骤S153：根据国民经济行业分类数据中出现次数小于第三预设阈值的词汇，以及出现次数大于第三预设阈值且对行业分类预测有意义的词汇组建行业有语义词汇库。第三预设阈值可以根据实际情况进行调整，例如，可以先对词汇的出现次数按从大到小的顺序进行排序，将排名为第100名的出现次数确定为第三预设阈值，根据出现次数排名在100名之后的词汇，以及出现次数在100名之前且对行业分类预测有意义的词汇组建行业有语义词汇库。

在一可选实施例中，如图12所示，在本发明实施例提供的企业的行业分类识别方法中，通过如下步骤获取预设的行业摘要信息，

步骤S161：分别计算国民经济行业分类数据的小类行业的行业名称和分类说明中位于行业有语义词汇库中的词汇在行业有语义词汇库中的词频。词频计算方法见上述步骤S1231-步骤S1233。

步骤S162：将各小类行业中大于第四预设阈值的词频对应的词汇确定为小类行业的热词。在一具体实施例中，第四预设阈值可以根据实际情况进行调整，例如，可以先根据从大到小的顺序对词频进行排序，将排名第100名的词频确定为第四预设阈值，将词频排名在100名之前的词汇确定为小类行业热词。

步骤S163：根据预设的自关联表将各小类行业中的热词聚合至所属中类行业，形成预设的行业摘要信息。

本发明提供的企业的行业分类识别方法，在确定行业摘要信息时，根据国民经济行业分类数据的小类行业的行业名称和分类说明中位于行业有语义词汇库中的词汇在行业有语义词汇库中的词频，然后将词频大于第四阈值的词汇确定为小类行业的热词，并将小类行业的热词聚类至中类行业，形成预设的行业摘要信息。通过本发明得到的预设的行业摘要信息中包含对各中类行业相关性较高的词汇，因此通过本发明得到的预设的行业摘要信息得到的特征值预测到的行业分类更准确。

在本发明实施例提供的企业的行业分类识别方法中，预设的有语义词汇库中的行业有语义词汇库以及行业摘要信息都是以国民经济行业分类数据中的中类行业的分类标准建立的，因此通过实施本发明可以对目标企业所属的中类行业类别进行识别，相较于现有技术中仅能识别到大类行业类别的缺陷，实施本发明实现了更精细的行业类别的识别，并且，通过本发明实施例对行业分类进行识别时，所采用的特征值是通过预设的有语义词汇库和行业摘要信息确定的，预设行业分类预测模型的参数也是通过预设的有语义词汇库和行业摘要信息进行优化的，因此通过实施本发明实施例对目标企业所属行业类别进行识别时得到的行业分类识别结果在更精细的基础上也更准确。

实施例2

本发明实施例提供了一种企业的特征污染物分类识别方法，如图13所示，包括：

步骤S21：获取目标企业的信息点数据。详细描述见上述方法实施例的步骤S11的相关描述。

步骤S22：根据信息点数据确定目标企业所属的行业分类，在本发明中，目标企业所属的行业分类通过上述实施例1中提供的企业的行业分类识别方法确定。

步骤S23：根据目标企业所属的行业分类确定目标企业的特征污染物。

本发明提供的企业的特征污染物分类识别方法，在确定企业的特征污染物时，先获取目标企业的信息点数据，然后通过本发明第一方面提供的企业的行业分类识别方法确定目标企业所属的行业分类，最后根据目标企业所属行业分类确定目标企业的特征污染物。通过本发明第一方面提供的企业的行业分类识别方法得到的行业分类较为准确，因此通过本发明提供的企业的特征污染物分类识别方法得到的目标企业的特征污染物也较为准确。

在一可选实施例中，如图14所示，上述步骤S23具体包括：

步骤S231：获取特征污染物数据，特征污染物数据包含各行业分类对应的特征污染物。

步骤S232：根据目标企业所属的行业分类和特征污染物数据确定目标企业的特征污染物。

在一具体实施例中，可以根据特征污染物数据建立数据库表，将不同的行业分类与其相对应的特征污染物对应存储于数据库表中，当通过上述实施例1获取目标企业所属的行业分类后，可直接通过数据库表获取与该行业分类相对应的特征污染物，将该特征污染物确定为目标企业的特征污染物。

实施例3

本发明实施例提供了一种企业的行业分类识别装置，如图15所示，包括：

第一数据获取模块11，用于获取目标企业的信息点数据，详细描述见上述实施例1中对步骤S11的描述。

特征值计算模块12，用于根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值，详细描述见上述实施例1中对步骤S12的描述。

第一行业预测模块13，用于根据预设行业分类预测模型和特征值确定目标企业所属的行业分类，行业分类为中类行业的分类，详细描述见上述实施例1中对步骤S13的描述。

本发明提供的企业的行业分类识别装置，在对企业所属的行业分类进行识别时，先获取目标企业的信息点数据，然后根据预设的有语义词汇库、预设的行业摘要信息确定信息点数据的特征词以及特征词的特征值，最后根据预设行业分类预测模型和特征值确定目标企业所属的行业分类，由于特征值是根据有语义词汇库和行业摘要信息确定的，因此本申请中得到的特征值可以有效避免无意义词汇的干扰，从而识别得到的目标企业所属的行业分类更加准确。

实施例4

本发明实施例提供了一种企业的特征污染物分类识别装置，如图16所示，包括：

第二数据获取模块21，用于获取目标企业的信息点数据，详细描述见上述实施例2中对步骤S21的描述。

第二行业预测模块22，根据信息点数据及如权利要求11的企业的行业分类识别装置确定目标企业所属的行业分类，详细描述见上述实施例2中对步骤S22的描述。

企业特征污染物确定模块23，用于根据目标企业所属的行业分类确定目标企业的特征污染物，详细描述见上述实施例2中对步骤S23的描述。

本发明提供的企业的特征污染物分类识别的装置，在确定企业的特征污染物时，先获取目标企业的信息点数据，然后通过本发明第一方面提供的企业的行业分类识别方法确定目标企业所属的行业分类，最后根据目标企业所属行业分类确定目标企业的特征污染物。通过本发明第一方面提供的企业的行业分类识别方法得到的行业分类较为准确，因此通过本发明提供的企业的特征污染物分类识别装置可以得到的目标企业的特征污染物也较为准确。

实施例5

本发明实施例提供一种计算机设备，如图17所示，该计算机设备主要包括一个或多个处理器31以及存储器32，图17中以一个处理器31为例。

该计算机设备还可以包括：输入装置33和输出装置34。

处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接，图17中以通过总线连接为例。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据企业的行业分类识别的装置，或，企业的特征污染物分类识别的装置的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至企业的行业分类识别的装置，或，企业的特征污染物行业分类识别的装置。输入装置33可接收用户输入的计算请求(或其他数字或字符信息)，以及产生与企业的行业分类识别的装置，或，企业的特征污染物分类识别的装置有关的键信号输入。输出装置34可包括显示屏等显示设备，用以输出计算结果。

实施例6

本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的企业的行业分类识别方法，或，企业的特征污染物分类识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种企业的行业分类识别方法，其特征在于，包括：

获取目标企业的信息点数据；

根据预设的有语义词汇库、预设的行业摘要信息及所述信息点数据确定所述信息点数据的特征词以及所述特征词的特征值；

根据预设行业分类预测模型和所述特征值确定所述目标企业所属的行业分类。

2.根据权利要求1所述的企业的行业分类识别方法，其特征在于，通过以下步骤确定所述预设的行业分类预测模型：

获取企业训练数据；

根据所述企业训练数据、预设的有语义词汇库、预设的行业摘要信息确定所述企业训练数据的特征词以及所述特征词的特征值；

根据所述特征值对高斯朴素贝叶斯模型的alpha平滑参数进行调参，获取最优参数；

根据所述高斯朴素贝叶斯模型的最优参数构建所述预设行业分类预测模型。

3.根据权利要求2所述的企业的行业分类识别，其特征在于，确定所述预设的行业分类预测模型的步骤，还包括：

获取企业检验数据；

根据所述预设行业分类预测模型获取所述企业检验数据所属行业分类的预测结果；

根据所述预测结果计算所述预设行业分类预测模型的准确率、召回率和F1值；

根据所述准确率、召回率和F1值判断所述预设行业分类预测模型是否满足预设条件；

若所述预设行业分类预测模型不满足预设条件，返回获取污染企业训练数据的步骤，重新训练预设行业分类预测模型。

4.根据权利要求1所述的企业的行业分类识别方法，其特征在于，根据预设的有语义词汇库、预设的行业摘要信息及所述信息点数据确定所述信息点数据的特征词以及所述特征词的特征值的步骤，包括：

对所述信息点数据进行预处理，提取所述信息点数据中的多个词汇；

将所述多个词汇中存在于所述预设的有语义词汇库中的词汇确定为所述信息点数据的特征词；

根据所述特征词和所述预设的有语义词汇库计算所述特征词的词频；

若所述特征词与所述预设的行业摘要信息相匹配，则根据所述词频和预设权重计算所述特征词的特征值；

若所述特征词与所述预设的行业摘要信息不匹配，则根据所述词频确定所述特征词的特征值。

5.根据权利要求4所述的企业的行业分类识别方法，其特征在于，所述预设的有语义词汇库中包含多个企业名称以及与所述企业名称相对应的特征词，

根据所述特征词和所述预设的有语义词汇库计算所述特征词的词频的步骤，包括：

根据所述特征词在所述信息点数据中的数量和所述信息点数据中所有特征词的总数计算所述特征词的正向词频；

根据所述预设的有语义词汇库内企业名称总数和所述预设有语义词汇库内包含所述特征词的企业名称的数量计算所述特征词的逆文本频率；

根据所述特征词的正向词频和逆文本频率计算所述特征词的词频。

6.根据权利要求3所述的企业的行业分类识别方法，其特征在于，所述预设的有语义词汇库包括企业有语义词汇库，通过如下步骤获取所述企业有语义词汇库，

获取企业数据，所述企业数据包含各企业的企业名称以及各企业对应的行业类别和经营范围信息；

对所述企业数据进行预处理，提取所述企业数据中的词汇；

根据各词汇中出现次数小于第一预设阈值的词汇，以及出现次数大于所述第一预设阈值且对行业分类预测有意义的词汇组建初始企业有语义词汇库；

分别计算企业数据中位于所述初始企业有语义词汇库中的词汇在所述初始企业有语义词汇库中的词频；

根据词频小于第二预设阈值的词汇，以及词频大于所述第二预设阈值且对行业分类预测有意义的词汇组建所述企业有语义词汇库。

7.根据权利要求3所述的企业的行业分类识别方法，其特征在于，根据预设行业分类预测模型和所述特征值确定的所述目标企业所属的行业分类为中类行业的分类，所述预设的有语义词汇库包括行业有语义词汇库，通过如下步骤获取所述行业有语义词汇库，

获取国民经济行业分类数据，所述国民经济行业分类数据包含国民经济小类行业的行业名称、中类行业的行业名称以及各行业的分类说明；

对所述国民经济行业分类数据进行预处理，提取所述国民经济行业分类数据中的词汇；

根据所述国民经济行业分类数据中出现次数小于第三预设阈值的词汇，以及出现次数大于所述第三预设阈值且对行业分类预测有意义的词汇组建行业有语义词汇库。

8.根据权利要求7所述的企业的行业分类识别方法，其特征在于，通过如下步骤获取所述预设的行业摘要信息，

分别计算国民经济行业分类数据的小类行业的行业名称和分类说明中位于所述行业有语义词汇库中的词汇在所述行业有语义词汇库中的词频；

将各小类行业中大于第四预设阈值的词频对应的词汇确定为所述小类行业的热词；

根据预设的自关联表将各小类行业中的热词聚合至所属中类行业，形成所述预设的行业摘要信息。

9.一种企业的特征污染物分类识别方法，其特征在于，包括：

获取目标企业的信息点数据；

根据所述信息点数据及如权利要求1-8中任一项所述的企业的行业分类识别方法确定所述目标企业所属的行业分类；

根据所述目标企业所属的行业分类确定所述目标企业的特征污染物。

10.根据权利要求9所述的企业的特征污染物分类识别方法，其特征在于，根据所述目标企业所属的行业分类确定所述目标企业的特征污染物的步骤，包括：

获取特征污染物数据，所述特征污染物数据包含各行业分类对应的特征污染物；

根据所述目标企业所属的行业分类和所述特征污染物数据确定所述目标企业的特征污染物。

11.一种企业的行业分类识别装置，其特征在于，包括：

第一数据获取模块，用于获取目标企业的信息点数据；

特征值计算模块，用于根据预设的有语义词汇库、预设的行业摘要信息及所述信息点数据确定所述信息点数据的特征词以及所述特征词的特征值；

第一行业预测模块，用于根据预设行业分类预测模型和所述特征值确定所述目标企业所属的行业分类，所述行业分类为中类行业的分类。

12.一种企业的特征污染物分类识别装置，其特征在于，包括：

第二数据获取模块，用于获取目标企业的信息点数据；

第二行业预测模块，根据所述信息点数据及如权利要求11所述的企业的行业分类识别装置确定所述目标企业所属的行业分类；

特征污染物确定模块，用于根据所述目标企业所属的行业分类确定所述目标企业的特征污染物。

13.一种计算机设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，从而执行如权利要求1-8中任一项所述的企业的行业分类识别方法，或，权利要求9或10所述的企业的特征污染物分类识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-8中任一项所述的企业的行业分类识别方法，或，权利要求9或10所述的企业的特征污染物分类识别方法。