CN118051612A

CN118051612A - 行业分类系统及方法

Info

Publication number: CN118051612A
Application number: CN202410106357.1A
Authority: CN
Inventors: 赵昆
Original assignee: Guojin Securities Co ltd
Current assignee: Guojin Securities Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-05-17

Abstract

本发明提供了一种行业分类方法及系统，包括：步骤S1：根据预设要求构建表征经济领域的特定资本市场行业分类框架；步骤S2：在构建的行业分类框架的基础上，基于特定资本市场上市公司的客观财务数据，将满足预设条件的主营业务数据进行映射归类，获得特定资本市场上市公司行业分类结果。本发明通过采用客观标准及自动化模块工具进行行业框架构建及个股行业分类，显著减少了行业分类过程中的人工工作量，并提供了明显更具时效性、精细度和准确度的行业分类结果。

Description

行业分类系统及方法

技术领域

本发明涉及分类方法技术领域，具体地，涉及行业分类系统及方法。

背景技术

在当前的市场中，大部分的投资型行业分类主要基于全球行业分类标准(GICS)或国际行业分类标准(ICB)等国际通用标准构建。这些标准的设计主要参考了发达经济体的产业结构，虽然便于跨国行业间的相关指标比较，但却在对特定资本市场的针对性上存在明显不足。该情况导致现存的投资行业分类系统在其底层逻辑构建上与实际产业结构并不完全吻合，因此限制了其在特定资本市场中的适用性和有效性。另一方面，由于分类人员专业能力限制、分类过程主观性较强、分类流程自动化程度较低等潜在因素，当前市场中的行业分类存在着行业框架颗粒度不足、分类结果准确性较低及分类更新滞后等问题。

为解决上述问题，本发明基于发布的国民经济行业分类框架，结合某资本市场各行业板块与产业链逻辑，以及行业内上市公司类别数量的具体情况，独立研究构建了更合理表征特定经济领域的资本市场行业分类框架。其中，一级行业框架可直接与第一产业、第二产业、第三产业划分对应，能更准确体现符合特定情形的各细分经济领域的分类动态。基于该资本市场行业分类框架及上市公司的客观财务数据，采用“营收为主、利润为辅”的客观规则作为具体上市公司行业分类的核心逻辑，逐步创建了自动化的主营业务数据映射归类汇总机制，辅以研究员的定期与不定期专业维护更新，初步实现了某资本市场上市公司精准合理、逻辑可靠的行业分类体系。该体系弥补了目前市场上投资型行业分类精细度与逻辑性不足的问题，其分类结果及相关App展示工具能帮助投资者快速理清某资本市场行业脉络，便捷定位横向行业板块与纵向产业链，能显著降低投资者对于某资本市场的研究门槛。此外，该分类体系还应用于策略指数的研发与编制，有力保障了指数化投资研究的专业性，为全市场投资者提供了金融普惠的重要基础设施。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种行业分类方法及系统。

根据本发明提供的一种行业分类方法，包括：

步骤S1：根据预设要求构建表征特定经济领域的特定资本市场行业分类框架；

步骤S2：在构建的行业分类框架的基础上，基于特定资本市场上市公司的客观财务数据，将满足预设条件的主营业务数据进行映射归类，获得上市公司行业分类结果。

优选地，所述步骤S1包括：

步骤S1.1：基于全社会行业分类框架构建一级行业框架；并将一级行业框架与第一产业、第二产业、第三产业相对应；

步骤S1.2：利用自然语言处理模型，使用无监督学习的方式进行二级行业分类框架的预分类搭建，在一级行业框架的基础上，基于预分类二级行业框架根据预设要求构建二级行业框架；

步骤S1.3：在一级行业框架、二级行业框架的基础上，根据预设要求构建三级行业框架。

优选地，所述步骤S1.2采用：

步骤S1.2.1：通过Python构建爬虫或API接口，提取特定资本市场上市公司满足预设条件的近年内所有的定期公告；通过NLP正则化表达式解析或API接口调用方式，获取定期公告中相关业务介绍形成训练语料；

步骤S1.2.2：对训练语料进行预处理，包括：分词处理、停用词去除、N-gram词语合成、文本向量变化、对词语进行词频-逆文档频率TF-IDF加权；

TF-IDF权重＝词频TF×逆文档频率IDF

步骤S1.2.3：使用自然语言处理模型，对预处理后的训练语料进行规定个数的二级行业预分类，得到预分类二级行业框架；

步骤S1.2.4：在一级行业框架的基础上，基于预分类二级行业框架结合预设要求构建二级行业框架。

优选地，所述步骤S2采用：

步骤S2.1：采集特定资本市场上市公司的财务数据，并对采集到的特定资本市场上市公司的财务数据进行预处理，得到预处理后的财务数据；

步骤S2.2：逐个建立上市公司各主营业务产品与对应三级行业的映射关系；

步骤S2.3：将映射到同一项三级行业的主营业务数据进行汇总；

步骤S2.4：基于主营业务汇总数据进行上市公司的模块化归类。

优选地，所述步骤S2.2采用：

步骤S2.2.1：基于数据库对比查询上市公司公告中提取的最新主营业务字符串是否与其历史数据存在不匹配的情况，并标记该数据；

步骤S2.2.2：在原始映射关系字典中，对新主营业务字符串进行模糊匹配，自动建立与三级行业分类的映射关系。

优选地，所述步骤S2.3采用：

优选地，所述步骤S2.4采用：

步骤S2.4.1：若对应行业A营收合计占比大于60％，则将该上市公司归类至行业A；

步骤S2.4.2：若对应行业A营收合计占比大于50％，且不存在行业B利润合计占比大于70％，则将该上市公司归类至行业A；

步骤S2.4.3：若对应行业A营收合计占比大于50％，且存在行业B利润合计占比大于70％；则若行业B营收合计占比大于40％，将该上市公司归类至行业B，否则将该上市公司归类至行业A；

步骤S2.4.4：若对应行业A营收合计占比大于40％，且不存在行业B利润合计占比相比行业A超过20％，则将该上市公司归类至行业A。

根据本发明提供的一种行业分类系统，包括：

模块M1：根据预设要求构建表征特定经济领域的特定资本市场行业分类框架；

模块M2：在构建的行业分类框架的基础上，基于特定资本市场上市公司的客观财务数据，将满足预设条件的主营业务数据进行映射归类，获得上市公司行业分类结果。

优选地，所述模块M1包括：

模块M1.1：基于全社会行业分类框架构建一级行业框架；并将一级行业框架与第一产业、第二产业、第三产业相对应；

模块M1.2：利用自然语言处理模型，使用无监督学习的方式进行二级行业分类框架的预分类搭建，在一级行业框架的基础上，基于预分类二级行业框架根据预设要求构建二级行业框架；

模块M1.3：在一级行业框架、二级行业框架的基础上，根据预设要求构建三级行业框架；

所述模块M1.2采用：

模块M1.2.1：通过Python构建爬虫或API接口，提取特定资本市场上市公司满足预设条件的近年内所有的定期公告；通过NLP正则化表达式解析或API接口调用方式，获取定期公告中相关业务介绍形成训练语料；

模块M1.2.2：对训练语料进行预处理，包括：分词处理、停用词去除、N-gram词语合成、文本向量变化、对词语进行词频-逆文档频率TF-IDF加权；

TF-IDF权重＝词频TF×逆文档频率IDF

模块M1.2.3：使用自然语言处理模型，对预处理后的训练语料进行规定个数的二级行业预分类，得到预分类二级行业框架；

模块M1.2.4：在一级行业框架的基础上，基于预分类二级行业框架结合预设要求构建二级行业框架。

优选地，所述模块M2采用：

模块M2.1：采集特定资本市场上市公司的财务数据，并对采集到的特定资本市场上市公司的财务数据进行预处理，得到预处理后的财务数据；

模块M2.2：逐个建立上市公司各主营业务产品与对应三级行业的映射关系；

模块M2.3：将映射到同一项三级行业的主营业务数据进行汇总；

模块M2.4：基于主营业务汇总数据进行上市公司的模块化归类；

所述模块M2.2采用：

模块M2.2.1：基于数据库对比查询上市公司公告中提取的最新主营业务字符串是否与其历史数据存在不匹配的情况，并标记该数据；

模块M2.2.2：在原始映射关系字典中，对新主营业务字符串进行模糊匹配，自动建立与三级行业分类的映射关系；

所述模块M2.3采用：

所述模块M2.4采用：

模块M2.4.1：若对应行业A营收合计占比大于60％，则将该上市公司归类至行业A；

模块M2.4.2：若对应行业A营收合计占比大于50％，且不存在行业B利润合计占比大于70％，则将该上市公司归类至行业A；

模块M2.4.3：若对应行业A营收合计占比大于50％，且存在行业B利润合计占比大于70％；则若行业B营收合计占比大于40％，将该上市公司归类至行业B，否则将该上市公司归类至行业A；

模块M2.4.4：若对应行业A营收合计占比大于40％，且不存在行业B利润合计占比相比行业A超过20％，则将该上市公司归类至行业A。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于更贴合实际产业结构的国民经济行业分类进行行业分类框架的构建，实现了更加完备和细致的特定资本市场产业结构表征，进而更好地适用于特定资本市场的投资研究；

2、本发明通过采用客观标准及自动化模块工具进行行业框架构建及个股行业分类，显著减少了行业分类过程中的人工工作量，并提供了明显更具时效性、精细度和准确度的行业分类结果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于主营业务汇总数据进行上市公司的模块化归类流程图。

图2为行业分类系统示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

本发明提供了一种行业分类方法，包括：

步骤S100：基于发布的国民经济行业分类框架，结合特定资本市场各行业板块与产业链逻辑，以及行业内上市公司类别数量的具体情况，构建了表征特定经济领域的特定资本市场行业分类框架。所述特定资本市场行业分类框架共包含16个一级行业、82个二级行业、411个三级行业

具体地，所述步骤S100包括：

步骤S101：基于《国民经济行业分类与代码》(GB/T 4754-2017)中的全社会行业分类框架，构建一级行业框架；另根据《三次产业划分规定》，一级行业框架可直接与第一产业、第二产业、第三产业划分对应，如表1所示，能更准确体现符合特定国情的各细分经济领域的分类动态。

表1

步骤S102：在一级行业框架的基础上，结合特定资本市场各行业板块与产业链逻辑，构建二级行业框架。以覆盖面最广的制造业为例，包含40个二级行业，如表2所示，这些也大多按一定逻辑顺序排列，例如：电子元器件制造业→集成电路制造业→电子零组件制造业→电子设备制造业。

表2

在二级行业框架构建过程中，使用自然语言处理模型NLP中的主题模型，以无监督学习的方式进行二级行业分类框架的预分类搭建，作为确定相关行业分类框架的基础。

步骤S103：基于一级、二级行业框架，结合特定资本市场各行业板块与产业链逻辑，以及行业内上市公司类别数量的具体情况，遵循适当精细平衡的原则，以投资研究应用场景为导向，制订三级行业框架。以集成电路制造业为例，包含11个三级行业，如表3所示。

表3

步骤S200：在一级、二级、三级行业分类框架构建完成的基础上，基于特定资本市场上市公司的客观财务数据，采用“营收为主、利润为辅”的客观规则作为具体上市公司行业分类的核心逻辑，创建自动化的主营业务数据映射归类汇总机制，辅以研究团队的定期与不定期专业维护更新，实现了特定资本市场上市公司精准合理、逻辑可靠的行业分类结果质量。

具体地，所述步骤S200包括：

步骤S201：对于特定资本市场上市公司的基本财务数据，基于Wind金融终端及其他公司采购的数据源，进行定期自动提取更新并交叉对比处理(过滤校正缺失数据与异常数据)，得到原始财务数据库(主要为分类别的营收利润)。

需要说明的是，公开报告中披露的具体主营业务产品类别一般较少，且营收利润占比排名靠后的业务对行业分类结果影响较小，因此仅提取占比排名前五的主营业务产品数据。

步骤S202：逐个建立上市公司各主营业务产品与对应三级行业的映射关系，对原始财务数据库进行标签化处理。

需要说明的是，该映射规则创建还涉及大量人工梳理工作，不少上市公司的主营业务产品的描述较为模糊或滞后，往往需要交叉对比公司年报或其他研报材料以辅助判断，或是人工修正单射关系。

步骤S203：将映射至同一项三级行业的主营业务数据合并加总：

步骤S204：基于主营业务汇总数据，进行上市公司的模块化归类(辅以研究团队人工判断归类并维护更新)，具体流程，如图1所示；

步骤一：若对应行业A营收合计占比大于60％，则将该上市公司归类至行业A；

步骤二：若对应行业A营收合计占比大于50％，且不存在行业B利润合计占比大于70％，则将该上市公司归类至行业A；

步骤三：若对应行业A营收合计占比大于50％，且存在行业B利润合计占比大于70％；则若行业B营收合计占比大于40％，将该上市公司归类至行业B，否则将该上市公司归类至行业A；

步骤四：若对应行业A营收合计占比大于40％，且不存在行业B利润合计占比相比行业A超过20％，则将该上市公司归类至行业A；

以上各步骤基本能处理大多数特定资本市场上市公司；对剩余无法识别处理的上市公司，则由研究团队人工判断归类并进行定期与不定期的专业维护更新。

作为对以上的总结，证券独立研发了一套Python程序系统，实现了第三方API接口调用、数据提取更新并交叉对比处理、自有数据库存储与调用、从上市公司各主营业务产品至某三级行业的单射关系集合、主营业务数据映射归类汇总、上市公司分类结果存储与调用、以及人工处理接口等功能模块。

更为具体地，在行业分类框架构建过程中，使用自然语言处理模型NLP中的主题模型(Topic Model)，以无监督学习的方式进行二级行业分类框架的预分类搭建，作为研究团队参考确定相关行业分类框架的基础。具体流程如下所示：

步骤一：通过Python构建爬虫或API接口，提取特定资本市场上市公司近年内所有的定期公告(包括年报、半年报及季报)，共收集文本6万篇；通过NLP正则化表达式解析或API接口调用等方式，获取定期公告中相关业务介绍部分形成训练语料；

步骤二：对训练语料进行数据清洗及加工，包括分词处理、停用词去除、N-gram词语合成、文本向量变化、对词语进行词频-逆文档频率(TF-IDF)加权等；其中，TF-IDF加权能有效评估特定词语对语料库中某一份文件重要程度，运用以下公式进行加权：

TF-IDF(权重)＝词频(TF)×逆文档频率(IDF)

词语在文件中出现的频次越多，其重要性就越高，但同时若该词语在整个语料库中被更多的文档包含，则其重要性就会降低；

步骤三：使用无监督的机器学习主题模型，对训练语料进行规定个数的二级行业预分类；如使用Python中Gensim模块支持的潜在狄利克雷分配模型(Latent DirichletAllocation Model)，对文本词语进行迭代Gibbs采样，直至收敛完成参数估计，获取每一个主题中包含的关键词及其出现的概率，对文档内容进行降维处理，生成预分类二级行业框架；

其中，LDA模型假设每篇文章由多个主题组成，每个主题又对应着不同的词语，且其先验分布均符合狄利克雷分布(Dirichlet Distribution)。LDA模型的公式表示如下：

P(w,z,θ,α,β)＝P(θ|α)×∏(P(z|θ))×P(w|z,β)

其中，w代表特定词语，z代表特定主题，θ代表主题分布，α代表主题分布的先验分布参数，β代表词语分布的先验分布参数；LDA模型应用Gibbs采样，采用蒙特卡洛(MonteCarlo)方法实现对参数的估计；

步骤四：通过对预分类行业框架关键词的人工分析研究，作为研究团队参考修正并确定相关行业分类框架。

更为具体地，在主营业务数据映射归类汇总机制中，针对新上市公司或主营业务披露口径发生变化的公司，使用模糊词匹配算法进行映射关系的自动初步匹配，作为研究团队参考确定上市公司具体分类的基础。具体流程如下所示：

步骤一：建立数据库对比算法，查询上市公司公告中提取的最新主营业务字符串是否与其历史数据存在不匹配的情形，并标记该数据；

步骤二：使用Python中的模糊词匹配算法模块(如FuzzyWuzzy、TheFuzz等)，基于莱文斯坦距离(Levenshtein Distance)算法，在原始映射关系字典中，对新主营业务字符串进行模糊匹配，自动建立与三级行业分类的映射关系；

其中，莱文斯坦距离表示两个字串之间，由一个转换成另一个所需的最少编辑操作次数，允许的编辑操作包括替换字符、插入字符及删除字符。

具体的，以a、b代表两个字符串，|a|、|b|对应字符串a、b的长度，则莱文斯坦距离lev_a,b(|a|,|b|)采用以下定义：

其中为一个指示函数，当a_i≠b_j时该函数值为1，其他情况下该函数值为0；lev_a,b(i,j)代表a的前i个字符与b的前j个字符之间的莱文斯坦距离；

步骤三：人工复核、修正并确定该映射关系。

本发明还提供一种行业分类系统，所述行业分类系统可以通过执行所述行业分类方法的流程步骤予以实现，即本领域技术人员可以将所述行业分类方法理解为所述行业分类系统的优选实施方式。

实施例2

实施例2是实施例1的优选例

本发明提供的一种行业分类系统，如图2所示，能帮助投资者快速理清特定资本市场行业脉络，便捷定位横向行业板块与纵向产业链，能显著降低投资者对于沪深特定资本市场的研究门槛，为全市场投资者提供金融普惠的重要基础设施。

本发明在实务操作中，用户可在行业分类信息界面中，通过关键词迅速检索相关行业(也包含名称中带有关键词的上市公司)。例如：通过选择行业名称如“锂盐加工”，进入相关三级行业页面，可以便捷查询定位行业内相关上市公司。

此外，本发明还应用于策略指数的研发与编制，有力保障了指数化投资研究的专业性。例如，“锂电20指数”基于锂电产业链的逻辑构建，包含了“锂采选”、“锂盐加工”、“电池化学品-正极材料”、“电池化学品-负极材料”、“锂电铜箔”、“锂电制造专用设备”、“动力锂电池”、“储能锂电池”等多个三级行业，轻松实现指数策略的精准可靠定位编制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种行业分类方法，其特征在于，包括：

步骤S2：在构建的行业分类框架的基础上，基于特定资本市场上市公司的客观财务数据，将满足预设条件的主营业务数据进行映射归类，获得特定资本市场上市公司行业分类结果。

2.根据权利要求1所述的行业分类方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的行业分类方法，其特征在于，所述步骤S1.2采用：

TF-IDF权重＝词频TF×逆文档频率IDF

4.根据权利要求1所述的行业分类方法，其特征在于，所述步骤S2采用：

5.根据权利要求4所述的行业分类方法，其特征在于，所述步骤S2.2采用：

6.根据权利要求4所述的行业分类方法，其特征在于，所述步骤S2.3采用：

7.根据权利要求6所述的行业分类方法，其特征在于，所述步骤S2.4采用：

8.一种行业分类系统，其特征在于，包括：

模块M2：在构建的行业分类框架的基础上，基于特定资本市场上市公司的客观财务数据，将满足预设条件的主营业务数据进行映射归类，获得特定资本市场上市公司行业分类结果。

9.根据权利要求8所述的行业分类系统，其特征在于，所述模块M1包括：

所述模块M1.2采用：

TF-IDF权重＝词频TF×逆文档频率IDF

10.根据权利要求8所述的行业分类系统，其特征在于，所述模块M2采用：

所述模块M2.2采用：

所述模块M2.3采用：

所述模块M2.4采用：