CN117708759B - 定位企业所属产业链环节的方法及装置 - Google Patents
定位企业所属产业链环节的方法及装置 Download PDFInfo
- Publication number
- CN117708759B CN117708759B CN202410153576.5A CN202410153576A CN117708759B CN 117708759 B CN117708759 B CN 117708759B CN 202410153576 A CN202410153576 A CN 202410153576A CN 117708759 B CN117708759 B CN 117708759B
- Authority
- CN
- China
- Prior art keywords
- data
- link
- enterprise
- sub
- industrial chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004458 analytical method Methods 0.000 claims abstract description 117
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 18
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000004141 dimensional analysis Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 15
- 238000007635 classification algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种定位企业所属产业链环节的方法及装置,属于产业链定位技术领域。该方法包括:获取待分析企业的经营数据;根据预定义的数据类别对经营数据进行分类,得到多组子数据;利用初步分析模型对每组子数据进行分析,得到多个第一集合,每个第一集合包括至少一个备选产业链环节;利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合;对所有第二集合进行综合分析,确定待分析企业所属的目标产业链环节集合。本方法,基于多维度的企业数据,分别进行初步产业链环节定位、联合分析模型的深入优化和最终的多维度综合分析三个过程,通过层层筛选和综合多维度分析,能够获得更准确、可靠的产业链定位结果。
Description
技术领域
本申请属于产业链定位技术领域,特别是涉及一种企业产业链定位方法及装置。
背景技术
产业链是由各个产业部门之间基于一定的技术经济关联形成的一种链条式关联关系结构,反映了不同企业在整个生产和价值创造过程中的相互依赖和协作关系。企业产业链定位是指确定企业在整个产业链中的位置,这有助于帮助企业更好地理解市场环境、优化资源配置、降低风险,进而提高竞争力,实现可持续发展。
然而,当前产业链结构缺乏统一标准,难以进行定量对齐,同时产业大数据存在企业信息缺失问题,特别是在中小企业领域,限制了产业链定位的可行性和准确性。
因此,如何设计出一种统一对企业进行产业链定位的方法成为当前亟待解决的问题。
发明内容
本申请的目的在于提供一种定位企业所属产业链环节的方法及装置,能够满足准确定位企业所属产业链环节的需要。
第一方面,本申请实施例提供了一种定位企业所属产业链环节的方法,该方法包括:获取待分析企业的经营数据;根据预定义的数据类别对经营数据进行分类,得到多组子数据;利用初步分析模型对每组子数据进行分析,得到多个第一集合,每个第一集合对应一组子数据,每个第一集合包括至少一个备选产业链环节;利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量;对所有第二集合进行综合分析,确定待分析企业所属的目标产业链环节集合,目标产业链环节集合包括至少一个目标产业链环节。
在第一方面的一种实现方式中,对所有第二集合进行综合分析,确定待分析企业所属的目标产业链环节集合,目标产业链环节集合包括至少一个目标产业链环节,方法包括:统计所有备选产业链环节在所有第二集合中出现的总次数;将出现总次数大于等于N的备选产业链环节确定为目标产业链环节,并加入到目标产业链环节集合,其中,N为大于等于1的正整数。
在第一方面的一种实现方式中,利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量,方法包括:针对每个第一集合,利用联合分析模型从该第一集合中筛选出概率值满足预设要求的备选产业链环节,并将筛选出的备选环节加入至该第一集合对应的第二集合中。
在第一方面的一种实现方式中,联合分析模型包括多个集成子模型,每个备选产业链环节的概率值是利用该备选产业链环节在多个集成子模型中所对应的集成子模型对该备选产业链环节进行分析得到的。
在第一方面的一种实现方式中,该方法还包括:针对每个备选产业链环节,将该备选产业链环节的概率值与预设阈值进行比对;当备选产业链环节的概率值大于预设阈值时,将该备选产业链环节的经营类别确定为主营类别。
在第一方面的一种实现方式中,多个集成子模型中的每个集成子模型均包括多个由不同机器学习算法训练得到的概率子模型,每个集成子模型的输出值为该集成子模型所包括的多个概率子模型的输出值的平均值。
在第一方面的一种实现方式中,预定义的数据类别包括企业基础数据、工商登记数据、产品数据、知识产权数据、招投标数据和竞品数据;知识产权数据包括专利数据、软著数据或商标数据中的至少一项。
在第一方面的一种实现方式中,初步分析模型包括多个初步分析子模型,每种预定义的数据类别对应一个初步分析子模型。
在第一方面的一种实现方式中,初步分析模型是利用多组训练数据训练得到的,每组训练数据包括数据样本和数据样本对应的产业链环节标签。
在第一方面的一种实现方式中,多个初步分析子模型中的每个初步分析子模型是由Bert模型与BiLSTM模型构造成的。
第二方面,本申请实施例提供了一种定位企业所属产业链环节的装置,该装置包括:获取模块,用于获取待分析企业的经营数据;该获取模块,还用于根据预定义的数据类别对经营数据进行分类,得到多组子数据;分析模块,用于利用初步分析模型对每组子数据进行分析,得到多个第一集合,每个第一集合对应一组子数据,每个第一集合包括至少一个备选产业链环节;该分析模块还用于,利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量;该分析模块还用于,对所有第二集合进行综合分析,确定待分析企业所属的目标产业链环节集合,目标产业链环节集合包括至少一个目标产业链环节。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当处理器执行所述计算机程序时使得计算机设备实现如上述第一方面和第二方面中任一实现方式。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当计算机程序被计算机设备执行时实现如上述第一方面和第二方面中任一实现方式。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行上述第一方面中任一项所述的实现方式。
本申请实施例与现有技术相比存在的有益效果是:
本方案,基于多维度的企业数据,分别进行初步产业链环节定位、联合分析模型的深入优化和最终的多维度综合分析三个过程,通过层层筛选和综合多维度分析,能够获得更准确、可靠的产业链定位结果,实现不同企业基于产业链的上中下游、关键环节、细分领域逐级解构和精准定位。
附图说明
图1为本申请一实施例提供的产业链结构示意图;
图2为本申请一实施例提供的定位企业所属产业链环节的方法的流程示意图;
图3为本申请一实施例提供的定位企业所属产业链环节的装置的结构示意图;
图4为本申请一实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
产业链是由多个相互关联的环节或节点组成的一种经济活动结构,每个环节都代表了产业链中的一个阶段或步骤,涉及到不同的经济主体和业务活动。
图1示出了本申请一实施例提供的某一产业的产业链结构。
从图1可以看出,该产业链具有多个层级,每个层级包括多个环节/节点,整体呈现树状结构。这种树状结构反映了产业链中的层级关系和组织结构,每个节点代表了产业链中的一个特定阶段或功能。
本申请方法旨在通过分析企业经营数据,明确其在已知、清晰定义的产业链中所属的具体环节,有助于实现数字化、智能化的产业链管理、推动企业可持续发展。
图2示出了本申请提供的定位企业所属产业链环节的方法的流程示意图。
如图2,该方法可以包括以下步骤。
S201、获取待分析企业的经营数据。
企业经营数据是指记录和反映企业经济活动和运营状况的各种数据。
S202、根据预定义的数据类别对经营数据进行分类,得到多组子数据。
在本申请中,按照预定义的数据类别对获取到的待分析企业的经营数据进行分类,得到多组子数据,每组子数据对应一种预定义类别。
换句话说,一组子数据也就是一个数据集,一个数据集中所有数据均同属一种数据类别。
在一种实现方式中,数据类别可以是根据分析维度进行预先定义的。也就是说,基于不同的分析维度,将企业数据进行分类,每个维度都对应一个特定的数据类别。
作为示例而非限定,预定义的数据类别包括但不限于企业基础数据、工商登记数据、产品数据、知识产权数据、招投标数据和竞品数据等。
企业基础数据可以包括注册资本、从业人数、注册地、行业类型和成立年限等数据。
企业知识产权数据可以包括专利数据、软著数据或商标数据中的至少一项。
该步骤根据不同的分析维度将企业数据分为多组子数据,每组子数据对应一个特定的业务或分析角度。
S203、利用初步分析模型对每组子数据进行分析,得到多个第一集合。
初步分析模型是预先训练得到的、用于根据企业数据初步定位企业所属产业链环节的模型。
将一个数据集(即一组子数据)输入初步分析模型后,初步分析模型会依次分析该数据集中每个数据所对应的产业链环节并输出该产业链环节。
第一集合即为同组子数据输出的产业链环节的集合,包括至少一个产业链环节。
也就是说,将同组子数据的模型输出结果均放入同一个第一集合当中,每个第一集合对应一组子数据。
需要说明的是,基于企业数据特征分析得到的产业链环节并非均为待分析企业所属的产业链环节,后续会结合其他限制条件从中进行筛选,所以将第一集合中的产业链环节称为备选产业链环节。
考虑到不同企业数据的公开程度和可获取性差异显著,大部分企业存在着不同程度的数据字段缺失,这就使得需要对已掌握的、有限的企业数据信息,分别构建特定数据维度下的初步分析模型,以实现企业在不同维度下的产业链环节定位信息。
因此,在一个实施例中,初步分析模型可以包括多个初步分析子模型。
在该实施例中,预先构建并训练了多个初步分析子模型,每个初步分析子模型均用于处理特定类型的一组子数据。
在一种实现方式中,初步分析模型可以包括基于基础信息的初步分析子模型、基于产品信息的初步分析子模型、基于知识产权信息的初步分析子模型、基于招投标信息的初步分析子模型、基于竞品信息的初步分析子模型。
基于基础信息的初步分析子模型用于分析企业基础数据对应的产业链环节。
基于产品信息的初步分析子模型用于分析产品数据对应的产业链环节。
基于知识产权信息的初步分析子模型用于分析知识产权数据对应的产业链环节。
基于招投标信息的初步分析子模型用于分析招投标数据对应的产业链环节。
基于竞品信息的初步分析子模型用于分析竞品数据对应的产业链环节。
该步骤针对S202得到的每组子数据,采用与该组子数据的数据类别相对应的初步分析子模型进行定位分析。这些初步分析子模型针对特定业务维度,通过学习或规则设定,能够对子数据进行初步的产业链环节定位。每个组子数据的初步定位结果即组成了一个第一集合。因此,每个第一集合都反映了一个维度的定位结果,提供了在该维度上企业所处产业链环节的初步认知。
S204、利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合。
在数据进一步分析的步骤中,引入了联合分析模型,旨在对每个第一集合进行筛选,得到相应的第二集合。每个第一集合代表了不同的维度定位结果,即初步的产业链环节定位。
联合分析模型是事先经过训练的模型,用于对第一集合中的备选产业链环节进行更深入的筛选。
在一种实现方式中,筛选的过程可以为:针对步骤S202得到的每个第一集合,利用联合分析模型从该第一集合中筛选出概率值满足预设要求的备选产业链环节,并将筛选出的备选环节加入至该第一集合对应的第二集合中。
可以理解,筛选后,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量。
在一个实施例中,联合分析模型可以包括多个集成子模型,每个集成子模型都对应着具体产业链上的一个环节。
也就是说,某一具体产业链上有多少个环节就对应构建多少个集成子模型。
当利用联合分析模型对每个第一集合进行筛选时,实际是将每个第一集合中的备选产业链环节输入对应的集成子模型进行分析,得到该备选产业链环节的概率值。即每个备选产业链环节都经过了与之对应的集成子模型的分析,得到了该备选产业链环节在其对应维度上的概率值。该概率值反映了每个备选产业链环节在对应维度上的相对强度或权重。
当集成子模型分析出某一备选产业链环节的概率值满足第一预设阈值时,输出该备选产业链环节,将其加入至对应的第二集合中。
需要说明的是,可以根据实际业务场景设置第一预设阈值设置,以确保能够全面、准确地反映每个备选环节在对应维度上的特征,本申请对此不作限制。
在该步骤中,使用联合分析模型对每个第一集合进行进一步的分析,以精炼和优化初步的产业链环节定位结果。这一步骤得到的结果即为每个第一集合对应的第二集合,它反映了在联合分析模型的进一步优化下,企业在各个维度上更精确的产业链环节定位。
S205、对所有第二集合进行综合分析,确定待分析企业所属的目标产业链环节集合。
目标产业链环节集合包括至少一个目标产业链环节。
每个第二集合代表了在联合分析模型的优化下,企业在各个维度上更为精准的产业链环节定位。
该步骤中,综合分析所有的第二集合实际是综合考虑各维度的产业链环节定位结果,以获取全局视角、确定目标产业链环节。
本方案,基于多维度的企业数据,进行初步的产业链环节定位(第一集合)、联合分析模型的深入优化(第二集合)和最终的多维度综合分析三个过程,通过层层筛选和综合多维度分析,能够获得更准确、可靠的产业链定位结果,实现不同企业基于产业链的上中下游、关键环节、细分领域逐级解构和精准定位。
在一个实施例中,步骤S205可以包括以下步骤。
S206、统计所有备选产业链环节在所有第二集合中出现的总次数。
经步骤S204得到多个第二集合后,将所有第二集合中出现的备选产业链环节进行统计,汇总每个备选产业链环节在所有第二集合中的出现总次数。
S207、将出现总次数≥N的备选产业链环节确定为目标产业链环节,并加入到目标产业链环节集合。
此处引入了一个设定的参数N(N为大于等于1的正整数),并根据出现总次数≥N的条件来确定目标产业链环节。
具体而言,当某一备选产业链环节在所有第二集合中的出现总次数达到或超过设定的N值时,该备选环节将被确定为目标产业链环节,并被加入到目标产业链环节集合中。通过合理设置N值,可以灵活调整确定目标产业链环节的条件。
该方法实质上是基于多个第二集合对应不同的分析维度,利用备选产业链环节在所有第二集合中的出现次数来量化其维度支持情况。具体来说,当某个备选环节在一个第二集合中出现时,表示该分析维度对这个备选产业链环节有一定的影响力。而当多个第二集合都出现同一备选产业链环节时,说明多个维度都在独立的分析中都强调了这个备选产业链环节,表明了这个备选产业链环节的重要性和在多个维度上的共识。通过这种方式,在设定N的取值时可以根据实际需求灵活调整,平衡准确性和效率。
在一个实施例中,步骤S204可以为:将所有第二集合的并集,确定为待分析企业所属的目标产业链环节集合。
本实施例对应N取1的情况,此时不需执行步骤S206和S207,直接将步骤S204得到的所有第二集合取并集,确定为待分析企业所属的目标产业链环节集合。
在本实施例中,备选环节只需在一个第二集合中出现,就能够被确定为目标环节。这种设定简单而高效,适用于对单一维度的分析较为倚重的情境,允许在一个分析维度上出现的备选环节即可被认定为目标环节,从而提高了整体的效率。
在一个实施例中,步骤S204可以为:统计所有备选产业链环节在所有第二集合中出现的总次数;将出现总次数≥N的备选产业链环节确定为目标产业链环节,并加入到目标产业链环节集合。
本实施例对应N取≥2的情况。
在本实施例中,要求备选产业链环节必须在至少N(N≥2)个不同的第二集合中出现,才能被确定为目标环节。这种设定更为严格,能够排除了单一维度误差大的影响,确保了目标环节的确定更具可靠性和准确性,适用于对多维度分析具有更高要求的情境,强调了在多个独立维度上的共识,提升了整体分析的精度。
在一个实施例中,第一预设阈值λ0可以根据以下公式进行设置:
其中,Yi,Yj表示企业是否属于该产业链环节,α表示训练集的权重。通过蒙特卡洛方法模拟的取值,对应每一个取值求得λ0,最后通过求取λ0的平均值即为所求的第一预设阈值λ0。
在一个实施例中,设置每个备选产业链环节的第二预设阈值。针对每个备选产业链环节,将该备选产业链环节的概率值与第二预设阈值进行比对;当备选产业链环节的概率值大于预设阈值时,将该备选产业链环节的经营类别确定为主营类别。
在一种实现方式中,可以利用自然间断点分级法(Natural Breaks)计算并设置第二预设阈值。
下面对初步分析模型的训练内容进行介绍。
初步分析模型是利用多组训练数据训练得到的,每组训练数据包括数据样本和数据样本对应的产业链环节标签。
由于企业的注册登记、专利、软著、招投标、招聘、商标、企业认定、资质、行政许可等数据中表征企业所属产业的信息主要以文本的形式存在,因此,在一种实现方式中,采用Bert模型与BiLSTM模型构造初步分析子模型。
BERT(Bidirectional Encoder Representations from Transformers)模型以Transformer为基础,能够更好地捕捉词汇之间的上下文关系,使得对文本的理解更加全局和上下文相关。
BiLSTM(Bidirectional Long Short-Term Memory)模型能够捕捉文本的双向信息。
结合两种模型得到的BERT+BiLSTM模型,可以同时考虑了词语左右两侧的上下文,有助于更全面地理解文本。同时,BERT是通过大规模无监督学习预训练的,可以用于各种NLP任务的迁移学习,BiLSTM可以在特定任务上进行有监督的微调。
作为示例而非限定,基于基础信息的初步分析子模型可以由基于企业名称信息的初步分析子模型和基于经营范围信息的初步分析子模型组成。
基于企业名称的初步分析子模型的训练过程可以包括:利用样本企业的名称作为训练集;然后,采用Bert+BiLSTM的文本分类算法实现模型的训练,首先通过Bert对企业名称和截断后企业经营范围文本的词向量进行预训练,而后通过BiLSTM模型框架对带标签的词向量进行模型微调,从而形成基于企业名称的初步分析子模型。
基于经营范围信息的初步分析子模型的训练过程可以包括:利用样本企业的经营范围作为训练集,考虑到部分企业经营范围描述较为宽泛,且为长文本,故对经营范围文本进行截断处理,只截取前80个字符;然后,采用Bert+BiLSTM的文本分类算法实现模型的训练,首先通过Bert对企业名称和截断后企业经营范围文本的词向量进行预训练,而后通过BiLSTM模型框架对带标签的词向量进行模型微调,从而形成基于经营范围信息的初步分析子模型。
其中,样本企业的名称和经营范围可以从预先构建好的企业基础特征数据库中提取而来。
作为示例而非限定,基于产品信息的初步分析子模型的训练过程可以包括:根据样本企业的产品名称及描述,通过关键词匹配的方式计算产品与产业链环节之间的文本相似性,通过设定相似度阈值,从而形成基于企业产品信息的产业定位模型。
其中,样本企业的产品名称及描述可以从预先构建好的产品数据库中提取而来。
作为示例而非限定,基于知识产权信息的初步分析子模型的训练过程可以包括:根据样本企业的专利名称和软著名称进行模型训练;采用Bert+BiLSTM的文本分类算法实现模型的训练,首先通过Bert对专利名称和软著名称的词向量进行预训练,而后通过BiLSTM模型框架对带标签的词向量进行模型微调,从而形成基于知识产权信息的初步分析子模型。
其中,样本企业的专利名称和软著名称可以从预先构建好的知识产权数据库中提取而来。
作为示例而非限定,基于招投标信息的初步分析子模型的训练过程可以包括:利用样本企业的中标公告标题作为训练集,采用Bert+BiLSTM的文本分类算法实现模型的训练,首先通过Bert对中标公告标题的词向量进行预训练,而后通过BiLSTM模型框架对带标签的词向量进行模型微调,从而形成基于招投标信息的初步分析子模型。
其中,样本企业的中标公告标题可以从预先构建好的招投标数据库中提取而来。
作为示例而非限定,可选的,基于竞品信息的初步分析子模型可以由基于竞品信息的初步分析子模型和基于企业关系信息的初步分析子模型组成。
基于竞品信息的初步分析子模型的训练过程可以包括:利用样本企业的竞品描述作为训练集,采用Bert+BiLSTM的文本分类算法实现模型的训练,首先通过Bert对竞品描述的词向量进行预训练,而后通过BiLSTM模型框架对带标签的词向量进行模型微调;从而形成基于竞品信息的初步分析子模型。
基于企业关系信息的初步分析子模型的训练过程可以包括:根据样本企业的竞品关系信息构建企业竞品关系网络,采用基于图卷积神经网络算法训练网络节点分类模型,通过输入企业的竞品关系网络拓扑结构,形成基于企业关系信息的初步分析子模型。
其中,样本企业的竞品描述和竞品关系信息可以从预先构建好的竞品数据库中提取而来。
在一个实施例中,联合分析模型的训练过程可以包括以下步骤。
S301、构建企业产业链环节定位特征向量。
基于企业的基础信息,包括企业的注册资本、从业人数、注册地、行业类型、成立年限等,结合企业在各维度产业链定位基础模型的粗定位结果,构建企业产业链定位的特征向量,形成包含53个特征的企业特征向量。
具体地,在步骤S301中,构建企业产业链环节定位特征向量的过程如下:
(1)基于预先构建的企业基础数据库,提取基础信息特征,包括企业的注册资本、从业人数、注册地、行业类型、成立年限等特征,累计形成包含17个特征的企业基础信息特征集。
(2)基于企业在产品、企业名称、经营范围、专利、软著、招投标、竞品等维度的产业链环节粗定位结果,累计形成包含17个特征的企业产业链粗定位结果特征集。
(3)基于企业在基于企业竞品关系的产业链定位基础模型中的粗定位结果,累计形成包含5个特征的企业产业链定位关系特征。
S302、利用企业产业链环节定位特征向量构建联合分析模型。
通过随机抽样的方式将样本集划分为训练集和测试集。选择多种机器学习算法,分别进行模型训练,构建基于模型融合的投票模型,来实现对企业所属的产业链环节进行精确定位。
具体地,在步骤S302中,构建联合分析模型的过程如下:
(1)按照各产业链环节依次构建模型样本集,其中样本集的正样本为某特定环节的企业样本,负样本为除该环节以外的企业样本。考虑到正负样本的数量相差较大,为保持训练集的均衡性,通过重采样的方式对正样本进行增强处理,并通过欠采样的方式对负样本进行提取,最终正负样本量的比例维持在4:6。最后,通过随机抽样的方式将样本集划分为训练集和测试集。
(2)基于构建好的训练集和测试集训练每个集成子模型。
在一种实现方式中,每个集成子模型均可以包括多个由不同机器学习算法训练得到的概率子模型,每个集成子模型的输出值为该集成子模型所包括的多个所述概率子模型的输出值的平均值。
作为示例而非限定,机器学习算法可以包括:支持向量机(Support VectorMachine,SVM)、随机森林 (Random Forest,RF)、极端梯度提升(eXtreme GradientBoosting,XGBOOST)、轻量梯度提升机(Light Gradient Boosting Machine,LightGBM)。
这种实现方式结合了集成学习和模型融合的思想,利用多个由不同机器学习算法训练得到的概率子模型,通过平均值的方式进行集成。通过集成不同算法的模型,能够有效降低过拟合风险,提高整体模型的灵活性和可扩展性。此外,通过平均值的集成方式,能够减轻个别模型的错误对整体模型的影响,提高模型的整体性能和稳定性。
上文主要结合附图对本申请实施例的一种定位企业所属产业链环节的方法进行了介绍。同时应理解,虽然如上所述的各实施例所涉及的流程图中的各个步骤依次显示,但是这些步骤并不是必然按照图中所示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。下面结合附图对本申请实施例的一种的装置进行介绍。为了简洁,在下文介绍装置时,会进行适当省略,相关内容可以参照上文的方法中的相关描述,不再重复介绍。
对应于上文实施例所述方法,图3示出了本申请一实施例提供的定位企业所属产业链环节的装置300的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图3,该装置300可以包括:
获取模块310,用于获取待分析企业的经营数据。
获取模块310还用于,根据预定义的数据类别对经营数据进行分类,得到多组子数据。
分析模块320,用于利用初步分析模型对每组子数据进行分析,得到多个第一集合。
其中,每个第一集合对应一组子数据。每个第一集合包括至少一个备选产业链环节。
分析模块320还用于,利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合。
每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量。
分析模块320还用于,对所有第二集合进行综合分析,确定待分析企业所属的目标产业链环节集合,目标产业链环节集合包括至少一个目标产业链环节。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图4为本申请一实施例提供的计算机设备的结构示意图。如图4所示,该计算机设备1000包括:至少一个处理器1003(图4中仅示出一个)、存储器1001以及存储在所述存储器1001中、可在所述处理器1003上运行的计算机程序1002。 所述处理器1003执行所述计算机程序1002时实现上述图2方法实施例中的步骤S201至S205;或者,所述处理器1003执行所述计算机程序1002时实现上述图3装置实施例中模块310至320的功能。
所称处理器1003可以是中央处理单元(Central Processing Unit,CPU),该处理器1003还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器1001在一些实施例中可以是所述计算机设备1000的内部存储单元,例如计算机设备1000的硬盘或内存。所述存储器1001在另一些实施例中也可以是所述计算机设备1000的外部存储设备,例如所述计算机设备1000上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器1001还可以既包括所述计算机设备1000的内部存储单元也包括外部存储设备。所述存储器1001用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被电子设备执行时可实现上述各个方法实施例中的步骤。
所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,当计算机程序被电子设备执行时可实现上述各个方法实施例中的步骤。所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (11)
1.一种定位企业所属产业链环节的方法,其特征在于,包括:
获取待分析企业的经营数据;
根据预定义的数据类别对所述经营数据进行分类,得到多组子数据;
利用初步分析模型对每组子数据进行分析,得到多个第一集合,每个第一集合对应一组子数据,每个第一集合包括至少一个备选产业链环节;
利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量;
对所有第二集合进行综合分析,确定所述待分析企业所属的目标产业链环节集合,所述目标产业链环节集合包括至少一个目标产业链环节;
所述对所有第二集合进行综合分析,确定所述待分析企业所属的目标产业链环节集合,所述目标产业链环节集合包括至少一个目标产业链环节,包括:
统计所有备选产业链环节在所有第二集合中出现的总次数;
将出现总次数大于等于N的备选产业链环节确定为目标产业链环节,并加入到所述目标产业链环节集合,其中,N为大于等于1的正整数;
所述利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量,包括:
针对每个第一集合,利用所述联合分析模型从该第一集合中筛选出概率值满足预设要求的备选产业链环节,并将筛选出的备选环节加入至该第一集合对应的第二集合中,所述预设要求包括第一预设阈值,所述第一预设阈值/>是利用以下公式得到的:
,
、/>表示所述待分析企业是否属于该备选产业链环节,α表示训练集的权重。
2.根据权利要求1所述的方法,其特征在于,所述联合分析模型包括多个集成子模型,每个备选产业链环节的概率值是利用该备选产业链环节在所述多个集成子模型中所对应的集成子模型对该备选产业链环节进行分析得到的。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个备选产业链环节,将该备选产业链环节的概率值与预设阈值进行比对;
当所述备选产业链环节的概率值大于所述预设阈值时,将该备选产业链环节的经营类别确定为主营类别。
4.根据权利要求3所述的方法,其特征在于,多个集成子模型中的每个集成子模型均包括多个由不同机器学习算法训练得到的概率子模型,每个集成子模型的输出值为该集成子模型所包括的多个所述概率子模型的输出值的平均值。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述预定义的数据类别包括企业基础数据、工商登记数据、产品数据、知识产权数据、招投标数据和竞品数据;所述知识产权数据包括专利数据、软著数据或商标数据中的至少一项。
6.根据权利要求5所述的方法,其特征在于,所述初步分析模型包括多个初步分析子模型,每种所述预定义的数据类别对应一个所述初步分析子模型。
7.根据权利要求6所述的方法,其特征在于,所述初步分析模型是利用多组训练数据训练得到的,每组训练数据包括数据样本和数据样本对应的产业链环节标签。
8.根据权利要求6所述的方法,其特征在于,所述多个初步分析子模型中的每个初步分析子模型是由Bert模型与BiLSTM模型构造成的。
9.一种定位企业所属产业链环节的装置,其特征在于,包括:
获取模块,用于获取待分析企业的经营数据;
所述获取模块,还用于根据预定义的数据类别对所述经营数据进行分类,得到多组子数据;
分析模块,用于利用初步分析模型对每组子数据进行分析,得到多个第一集合,每个第一集合对应一组子数据,每个第一集合包括至少一个备选产业链环节;
所述分析模块还用于,利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量;
所述分析模块还用于,对所有第二集合进行综合分析,确定所述待分析企业所属的目标产业链环节集合,所述目标产业链环节集合包括至少一个目标产业链环节;
所述分析模块还用于,所述对所有第二集合进行综合分析,确定所述待分析企业所属的目标产业链环节集合,所述目标产业链环节集合包括至少一个目标产业链环节,包括:
统计所有备选产业链环节在所有第二集合中出现的总次数;
将出现总次数大于等于N的备选产业链环节确定为目标产业链环节,并加入到所述目标产业链环节集合,其中,N为大于等于1的正整数;
所述分析模块还用于,所述利用联合分析模型对每个第一集合进行筛选,得到每个第一集合对应的第二集合,每个第二集合中的备选产业链环节的数量均小于或等于该第二集合对应的第一集合中的备选产业链环节的数量,包括:
针对每个第一集合,利用所述联合分析模型从该第一集合中筛选出概率值满足预设要求的备选产业链环节,并将筛选出的备选环节加入至该第一集合对应的第二集合中,所述预设要求包括第一预设阈值,所述第一预设阈值/>是利用以下公式得到的:
,
、/>表示所述待分析企业是否属于该备选产业链环节,α表示训练集的权重。
10.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时使得所述计算机设备实现如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被计算机设备执行时实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410153576.5A CN117708759B (zh) | 2024-02-04 | 2024-02-04 | 定位企业所属产业链环节的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410153576.5A CN117708759B (zh) | 2024-02-04 | 2024-02-04 | 定位企业所属产业链环节的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708759A CN117708759A (zh) | 2024-03-15 |
CN117708759B true CN117708759B (zh) | 2024-05-17 |
Family
ID=90161051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410153576.5A Active CN117708759B (zh) | 2024-02-04 | 2024-02-04 | 定位企业所属产业链环节的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708759B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915191A (zh) * | 2020-08-03 | 2020-11-10 | 支付宝(杭州)信息技术有限公司 | 一种产业链识别方法及装置 |
CN114372836A (zh) * | 2021-12-07 | 2022-04-19 | 神州数码信息系统有限公司 | 基于税务数据的产业链及关键企业构建方法和分析系统 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
CN115640893A (zh) * | 2022-10-20 | 2023-01-24 | 广东南方财经控股有限公司 | 一种产业链的产业数据预测方法、装置及存储介质 |
-
2024
- 2024-02-04 CN CN202410153576.5A patent/CN117708759B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915191A (zh) * | 2020-08-03 | 2020-11-10 | 支付宝(杭州)信息技术有限公司 | 一种产业链识别方法及装置 |
CN114372836A (zh) * | 2021-12-07 | 2022-04-19 | 神州数码信息系统有限公司 | 基于税务数据的产业链及关键企业构建方法和分析系统 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
CN115640893A (zh) * | 2022-10-20 | 2023-01-24 | 广东南方财经控股有限公司 | 一种产业链的产业数据预测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117708759A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN108563783B (zh) | 一种基于大数据的财务分析管理系统及方法 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN111783829A (zh) | 一种基于多标签学习的财务异常检测方法及装置 | |
CN111754317A (zh) | 一种金融投资数据测评方法及系统 | |
CN109783633A (zh) | 数据分析服务流程模型推荐方法 | |
CN114328277A (zh) | 一种软件缺陷预测和质量分析方法、装置、设备及介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN113807728A (zh) | 基于神经网络的绩效考核方法、装置、设备及存储介质 | |
CN111724241B (zh) | 基于动态边特征的图注意力网络的企业发票虚开检测方法 | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
CN117708759B (zh) | 定位企业所属产业链环节的方法及装置 | |
CN117009518A (zh) | 融合基本属性和文本内容的相似事件判断方法及其应用 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
Widad et al. | Quality Anomaly Detection Using Predictive Techniques: An Extensive Big Data Quality Framework for Reliable Data Analysis | |
CN112395478B (zh) | 一种双模型共用的数据筛选方法及系统 | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN115439079A (zh) | 项目分类方法及装置 | |
CN113379212A (zh) | 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质 | |
CN111046934A (zh) | 一种swift报文软条款识别方法及装置 | |
CN113657993B (zh) | 信用风险识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |