CN116933130A - 一种基于大数据的企业行业分类方法、系统、设备及介质 - Google Patents
一种基于大数据的企业行业分类方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116933130A CN116933130A CN202310869145.4A CN202310869145A CN116933130A CN 116933130 A CN116933130 A CN 116933130A CN 202310869145 A CN202310869145 A CN 202310869145A CN 116933130 A CN116933130 A CN 116933130A
- Authority
- CN
- China
- Prior art keywords
- industry
- enterprise
- classified
- information
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于大数据的企业行业分类方法、系统、设备及介质,涉及计算机技术领域。在该方法中,包括以下步骤:获取待分类企业的企业信息;根据企业信息提取待分类企业的企业关键词,并基于企业关键词确定待分类企业的企业关键词集;通过预置的相似度计算模型分别计算企业关键词集与各预置的行业关键词集之间的相似度;选取相似度大于相似度阈值的行业关键词集对应的行业类别作为待分类企业的备选所属行业。通过采用本申请提供的技术方案,在对待分类企业进行企业行业分类时,考虑各行业类别的多维数据,有利于提升企业行业分类的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及一种基于大数据的企业行业分类方法、系统、设备及介质。
背景技术
国民经济行业分类时指将各个行业按照其生产和经营活动的不同特征进行分类的一种标准化方法,目前,由国家统计局发布的《国民经济行业分类》是最为常用的行业分类标准。
对于每个企业而言,企业的行业标签是一个非常重要的字段,通过企业的行业标签,能够很好的反映出企业的主要经营业务。因此在一个企业数据库中,需要对企业进行行业分类以确定企业的行业标签。
目前的企业行业分类方法通常是基于单一指标或少数指标来对企业行业所属进行分类,这种方法容易受到企业自身信息的限制,进而导致企业行业分类的不准确。
发明内容
为了提升企业行业分类的准确性,本申请提供一种基于大数据的企业行业分类方法、系统、设备及介质。
第一方面,本申请提供了一种基于大数据的企业行业分类方法,所述方法包括以下步骤:
获取待分类企业的企业信息;
根据所述企业信息提取所述待分类企业的企业关键词,并基于所述企业关键词确定所述待分类企业的企业关键词集;
通过预置的相似度计算模型分别计算所述企业关键词集与预置的各行业关键词集之间的相似度;
选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业。
通过采用上述技术方案,基于待分类企业的企业信息确定待分类企业的企业关键词集,基于各行业类别的行业关键词确定各行业类别的行业关键词集,通过计算企业关键词集与行业关键词集之间的相似度确定待分类企业的备选所属行业。在进行企业关键词集与行业关键词集的确定时,考虑多维度的企业信息与行业数据,从而更加准确的对待分类企业与各行业类别进行描述,有利于提升企业行业分类的准确性。
可选的,在选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业后,还包括:
判断所述待分类企业的所述备选所属行业是否唯一;
若否,则确定所述待分类企业的关联企业,并获取各所述关联企业的关联企业信息,所述关联企业信息包括关联企业关联关系信息与关联企业行业分类信息;
根据所述关联企业信息在若干个所述备选所属行业中确定所述待分类企业的所述所属行业。
通过采用上述技术方案,待分类企业在进行企业行业分类时,可能由于待分类企业的本身属性导致其所属行业较为模糊,此时可能会出现待分类企业重组多个备选所属行业的情况,这些备选所属行业的相似度均大于相似度阈值。此时基于待分类企业的关联企业的关联企业信息对待分类企业进行进一步分类,从而进一步确定待分类企业的准确的所属行业,进一步提高企业行业分类的准确性。
可选的,在判断所述待分类企业的所述备选所属行业是否唯一后,还包括:
若是,则将所述备选所属行业作为所述待分类企业的所属行业。
通过采用上述技术方案,当待分类企业的备选所属行业唯一时,说明待分类企业具备鲜明的行业特征,此时直接将备选所属行业作为待分类企业的所属行业,完成待分类企业的企业行业分类。
可选的,在获取待分类企业的企业信息前,还包括行业关键词集创建方法,所述行业关键词集创建方法具体包括:
获取国民经济行业分类文件;
创建与国民经济行业分类文件规定的行业类别对应的多个所述行业关键词集;
获取各所述行业关键词集对应的行业类别的行业关键词;
将各行业类别的所述行业关键词分别存放至对应的所述行业关键词集中,完成各所述行业关键词集的创建。
通过采用上述技术方案,根据国民经济行业分类文件规定的行业类别完成行业关键词集的创建,从而通过行业关键词集对各个行业类别进行描述。
可选的,在获取各所述行业关键词集对应的行业类别的行业关键词中,具体包括:
对于一所述行业关键词集,根据所述国民经济行业分类文件中对所述行业关键词集对应的行业类别的行业注释获取第一行业关键词;
获取预置的企业数据库中的同行业企业的所述企业信息,所述同行业企业的所述所属行业与所述行业关键词集对应的行业类别相同;
根据所述同行业企业的所述企业信息获取第二行业关键词。
通过采用上述技术方案,国民经济行业分类文件是由国家规定的企业行业分类标准,国民经济行业分类文件中对行业关键词集对应的行业类别的行业注释用于对该行业类别的行业特征进行说明,能够较好的对该行业类别进行描述。根据行业注释获取的第一行业关键词能够从全局上对该行业类别进行解释,从而实现对行业类别的抽象化描述;但国民经济行业分类文件中对行业关键词集对应的行业类别的行业注释对于该行业类别的描述不够全面,通过同行业企业的企业信息提取该行业类别的第二行业关键词,从而对该行业类别进行进一步的描述,有利于提高行业关键词集对对应行业类别的可解释性。
可选的,在根据所述关联企业信息在若干个所述备选所属行业中确定所述待分类企业的所述所属行业中,具体包括:
根据预置的综合行业评分计算规则对所述关联企业信息与各所述备选所属行业的所述相似度进行处理,计算得出各所述备选所属行业的综合行业评分;
选取所述综合行业评分最高的所述备选所属行业作为所述待分类企业的所述所属行业。
通过采用上述技术方案,对各个备选所属行业基于综合行业评分进行评价,综合行业评分进一步反映了各个备选所属行业与待分类企业的相似程度,从而从多个备选所属行业中选取出待分类企业的所属行业,进一步提升企业行业分类的准确性。
可选的,在根据预置的综合行业评分计算规则对所述关联企业信息与各所述备选所属行业的所述相似度进行处理,计算得出各所述备选所属行业的综合行业评分中,具体包括:
对于一所述备选所属行业,将该所述备选所属行业与所述待分类企业的所述相似度作为第一行业评分;
在所述待分类企业的所述关联企业中确定与该所述备选所属行业的行业类别相同的相同行业关联企业;
根据所述相同行业关联企业的所述关联企业信息计算第二行业评分;
对所述第一行业评分与所述第二行业评分进行加权计算,完成该所述备选所属行业的所述综合行业评分的计算。
通过采用上述技术方案,综合行业评分一方面考虑备选所属行业与待分类企业的相似度,另一方面考虑各备选所属行业的相同行业关联企业,这些相同行业关联企业属于需要计算综合行业评分的备选所属行业,同时与待分类企业具有关联关系,通过相同行业关联企业可以进一步对待分类企业所属何种备选所属行业的可能性进行描述,从而使得计算出的备选所属行业的综合行业评分更具说服力。
在本申请的第二方面提供了一种基于大数据的企业行业分类系统,所述系统包括以下模块:
企业信息获取模块(301),用于获取待分类企业的企业信息;
企业关键词提取模块(302),用于根据所述企业信息提取所述待分类企业的企业关键词,并基于所述企业关键词确定所述待分类企业的企业关键词集;
相似度计算模块(303),用于通过预置的相似度计算模型分别计算所述企业关键词集与预置的各行业关键词集之间的相似度;
备选所属行业确定模块(304),用于选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业。
在本申请的第三方面提供了一种电子设备;
在本申请的第四方面提供了一种计算机可读存储介质;
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、基于待分类企业的企业信息确定待分类企业的企业关键词集,基于各行业类别的行业关键词确定各行业类别的行业关键词集,通过计算企业关键词集与行业关键词集之间的相似度确定待分类企业的备选所属行业。考虑多维度的企业信息与行业数据,从而更加准确的对待分类企业与各行业类别进行描述,有利于提升企业行业分类的准确性。
2、在确定行业关键词集时,一方面考虑国民经济行业分类文件中对行业关键词集对应的行业类别的行业注释,另一方面考虑同行业企业的企业信息,从而使得行业关键词集能够对该行业类别进行更加清晰、全面、准确的描述。
3、在待分类企业的本身行业属性较为模糊时,考虑待分类企业的关联企业,基于关联企业的关联企业信息对待分类企业进行进一步的企业行业分类,进一步提升企业行业分类的准确性。
附图说明
图1是本申请实施例提供的一种基于大数据的企业行业分类方法的流程示意图。
图2是本申请实施例提供的一种基于大数据的企业行业分类方法中第一行业评分与第二行业评分的生成示意图。
图3是本申请实施例公开的一种基于大数据的企业行业分类系统的结构示意图。
图4是本申请实施例的公开的一种电子设备的结构示意图。
附图标记说明:301、企业信息获取模块;302、企业关键词提取模块;303、相似度计算模块;304、备选所属行业确定模块;400、电子设备;401、处理器;402、通信总线;403、用户接口;404、网络接口;405、存储器。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
参照图1,本申请提供了一种基于大数据的企业行业分类方法,该方法具体包括以下步骤:
S10:获取待分类企业的企业信息;
具体的,在企业数据库中获取待分类企业的企业信息,具体来说企业信息包括企业名称信息、企业主营业务信息、企业简介信息等与待分类企业相关的工商信息。
需要说明的是,待分类企业的企业信息在待分类企业进行企业行业分类之前已录入企业数据库中,在该企业数据库中存储有大量的企业数据。企业数据库中既包含有待分类企业,同时还包含有部分已经经过企业行业分类并携带有基于企业行业分类结果生成的行业标签的已分类企业。
S20:根据企业信息提取待分类企业的企业关键词,并基于企业关键词确定待分类企业的企业关键词集;
具体的,对于获取到的企业信息的原始文本,基于NLP技术根据企业信息提取待分类企业的企业关键词,提取的企业关键词存在有多个,在完成企业关键词的提取后,根据企业关键词确定待分类企业的企业关键词集。
具体来说,基于NLP技术根据企业信息提取待分类企业的企业关键词首先需要对待分类企业的企业信息的原始文本进行文本预处理,文本预处理包括分词处理、去除停用词处理以及词性标注处理;得到文本预测处理后的文本后,可以基于各类关键词提取算法进行企业关键词的提取,这些关键词提取算法具体包括但不限于TextRank算法、LDA算法、RAKE算法、TF-IDF算法。在本申请一种可行的实施例中,企业关键词的提取具体可以使用例如NLTK、spaCy或gensim之类的自然语言处理工具包进行;在本申请另一种可行的实施例中,企业关键词的提取还可以基于深度学习的关键词提取模型进行。
企业关键词能够对待分类企业进行描述,反映了带分类企业的经营业务的主要特征,在完成企业关键词的提取后,建立待分类企业的企业关键词集。
S30:通过预置的相似度计算模型分别计算企业关键词集与预置的各行业关键词集之间的相似度;
具体的,在确定待分类企业的企业关键词集与各个行业类别的行业关键词集后,通过预置的相似度计算模型分别计算企业关键词集与各行业关键词集之间的相似度。
其中,行业关键词集在进行企业行业分类之前已经完成创建。行业关键词集用于对各个行业类别进行描述,其创建过程为:获取国民经济行业分类文件;创建与国民经济行业分类文件规定的行业类别对应的多个行业关键词集;获取各行业关键词集对应的行业类别的行业关键词;将各行业类别的行业关键词分别存放至对应的所述行业关键词集中,完成各行业关键词集的创建。
行业类别的设置具体参照由国务院在2017.6.30发布的《国民经济行业分类与代码》(GB/T 4754-2017)(以下简称为国民经济行业分类文件),国民经济行业分类文件规定了全社会的分类与代码,适用于在统计、计划、财政、税收、工商等国家中,对经济活动的分类,并用于信息处理和。在国民经济行业分类文件中将全社会的行业划分为门类、大类、中类和小类共四个层次,其中包含20个门类、97个大类、473个中类以及1380个小类。
在本申请一种可行的实施例中,将行业类别的数量与种类设置为国民经济行业分类文件中的中类的数量与种类,即设置有473个行业类别;在本申请的其他实施例中,也可以基于本领域技术人员的认知或实际业务需求自行进行行业类别的设置。
获取各个行业类别的行业关键词,基于各个行业类别的行业关键词确定各个行业类别的行业关键词集。各个行业的行业关键词集中包括有第一行业关键词与第二行业关键词,第一行业关键词与第二行业关键词均用于对其所属的行业关键词集对应的行业类别进行描述。
对于一行业类别的行业关键词集,其中包含的第一行业关键词基于国民经济行业分类文件中对该行业关键词集对应的行业类别的行业注释确定,获取该行业类别在国民经济行业分类文件中的行业注释,基于NLP技术提取第一行业关键词。
对于一行业类别的行业关键词集,其中包含的第二行业关键词基于同行业企业的所述企业信息确定,同行业企业是指所属行业与该行业类别相同的企业。在上述描述中已经说明,在企业数据库中存在有已分类企业,已分类企业的所属行业已经确定,基于已分类企业中的同行业企业的企业信息提取该行业类别的第二行业关键词,同样的,第二行业关键词的提取方法也是基于NLP技术进行。在本申请一种可行的实施例中,由于同行业企业的数量较多,若根据提取一行业类别的全部同行业企业提取第二行业关键词,会导致数据量过大,因此基于本领域技术人员的专家意见在多个同行业企业中选取若干个最具代表性的企业作为第二行业关键词的提取来源。
对于一企业关键词集与一行业关键词集,首先通过预置的相似度计算模型对企业关键词集与行业关键词集进行编码,分别得到企业关键词集的企业词集向量与行业关键词集的行业词集向量,再计算企业词集向量与行业词集向量之间的余弦相似度,将计算结果作为该企业关键词集与该行业关键词集的相似度。在本申请一种可行的实施例中,相似度计算模型可以是Bert模型,且在进行相似度计算前,相似度计算模型已经过预训练。
S40:选取相似度大于相似度阈值的行业关键词集对应的行业类别作为待分类企业的备选所属行业;
具体的,分别完成待分类企业的企业关键词集与各个行业类别的行业关键词集之间的相似度的计算后,将得出的各个相似度与预设的相似度阈值进行比较,选取相似度大于相似度阈值的行业关键词集对应的行业类别作为待分类企业的备选所属行业。
S50:判断待分类企业的备选所属行业是否唯一;
S60:若待分类企业的备选所属行业唯一,则将备选所属行业作为待分类企业的所属行业;
具体的,若待分类企业的备选所属行业唯一,则说明待分类企业的企业特点与备选所属行业具备显著的相似性,待分类企业属于该备选所属行业,那么此时即将唯一的备选所属行业作为待分类企业的所属行业。
S61:若待分类企业的备选所属行业不唯一,则确定待分类企业的关联企业,并获取各关联企业的关联企业信息;
具体的,由于设置的相似度阈值为固定值,因此可能会出现存在待分类企业的企业关键词集与多个行业关键词集之间的相似度大于设定的相似度阈值的情况,若出现企业关键词集与多个行业关键词集之间的相似度大于设定的相似度阈值的情况则说明待分类企业的业务类型较为复杂,与存在的多个备选所属行业均存在一定的相似性,此时单一的通过待分类企业的企业关键词集很难对待分类企业进行行业分类。
当待分类企业的备选所属行业不唯一时,在企业数据库中查找待分类企业的关联企业,关联企业是指与待分类企业具备合作、竞争、供应等关联关系的企业,关联企业包括有多个。确定待分类企业的关联企业后,获取各个关联企业的关联企业信息,关联企业信息包括关联企业关联关系信息、关联企业行业分类信息以及关联企业的其他企业信息。其中,关联企业关联关系信息用于说明关联企业与待分类企业之间的关联关系,关联企业行业分类信息用于说明关联企业本身的所属行业。
S70:根据关联企业信息在若干个备选所属行业中确定待分类企业的所属行业;
具体的,在确定待分类企业的关联企业并获取到各个关联企业的关联企业信息后,首先基于各个关联企业的关联企业关联关系信息对各个关联企业进行分类,确定待分类企业的多个备选所属行业对应的相同行业关联企业;再根据一个备选所属行业的相同行业关联企业的关联企业信息计算该备选所属行业的第二行业评分;同时,基于该备选所属行业与待分类企业的相似度确定该备选所属行业的第一行业评分;对第一行业评分与第二行业评分进行加权计算,最终确定该备选所属行业的综合行业评分;对于待分类企业的每个备选所属行业,均存在对应的综合行业评分,选取综合行业评分最高的备选所属行业作为待分类企业的所属行业,完成待分类企业的企业行业分类。
参照图2,图2描述了本申请提供的一种具体的可能实施例,对于一待分类企业,在进行第一次相似度阈值筛选后存在有备选所属行业A、备选所属行业B以及备选所属行业C共3个备选所属行业,对于备选所属行业A,查找待分类企业的关联企业中存在有相同行业关联企业A、相同行业关联企业B以及相同行业关联企业C共三个关联企业,根据这三个相同行业关联企业的关联企业信息计算得出备选所属行业A的第二行业评分,同时将备选所属行业A与待分类企业的相似度作为备选所属行业A的第一行业评分,通过预置的第一权重系数与第二权重系数对第一行业评分与第二行业评分进行计算,最终确定备选所属行业A的综合行业评分。依据上述步骤类推,分别得出备选所属行业B以及备选所属行业C的综合行业评分,选择最高综合行业评分的备选所属行业作为待分类企业的所属行业。
在计算第二行业评分时,具体考虑相同行业关联企业的关联企业信息,当一备选所属行业存在越多相同行业关联企业且各个相同行业关联企业与待分类企业的关联程度越紧密时,则说明待分类企业属于该备选所属行业的可能性越大,对应在第二行业评分上的表现为第二行业评分越高。
相同行业关联企业与待分类企业的关联程度可以通过相同行业关联企业的关联企业信息推测,需要说明的是,对于不同的相同行业关联企业,可能与待分类企业存在有不同的关联关系,此时相同行业关联企业与待分类企业的关联程度的确定方式不同。
例如对于相同行业关联企业A,基于相同行业关联企业A的关联企业关联关系信息可知相同行业关联企业A与待分类企业存在合作关系,那么可以基于合作关系程度评价标准评价相同行业关联企业A与待分类企业的关联程度。需要说明的是,合作关系程度评价标准基于专家知识由相关领域专家分析得出,在本申请一种可行的实施例中,合作关系程度评价标准考虑相同行业关联企业A与待分类企业之间的合作年限、合作交易额、合作项目数量共三个指标,基于这三个指标确定相同行业关联企业A与待分类企业之间的关联程度,并得到关联程度得分。根据一备选所属行业的全部相同行业关联企业的关联程度得分,可以计算得到第二行业评分。
参照图3,本申请还提供了一种基于大数据的企业行业分类系统,该系统具体包括以下模块:
企业信息获取模块301,用于获取待分类企业的企业信息;
企业关键词提取模块302,用于根据企业信息提取待分类企业的企业关键词,并基于企业关键词确定待分类企业的企业关键词集;
相似度计算模块303,用于通过预置的相似度计算模型分别计企业关键词集与预置的各行业关键词集之间的相似度;
备选所属行业确定模块304,用于选取相似度大于相似度阈值的行业关键词集对应的行业类别作为待分类企业的备选所属行业。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还公开一种电子设备400。参照图3,图3是本申请实施例的公开的一种电子设备400的结构示意图。该电子设备400可以包括:至少一个处理器401,至少一个网络接口404,用户接口403,存储器405,至少一个通信总线402。
其中,通信总线402用于实现这些组件之间的连接通信。
其中,用户接口403可以包括显示屏(Display)、摄像头(Camera),可选用户接口403还可以包括标准的有线接口、无线接口。
其中,网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器405内的指令、程序、代码集或指令集,以及调用存储在存储器405内的数据,执行服务器的各种功能和处理数据。可选的,处理器401可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。
其中,存储器405可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。参照图3,作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及一种基于大数据的企业行业分类方法的应用程序。
在图3所示的电子设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器405中存储一种基于大数据的企业行业分类方法的应用程序,当由一个或多个处理器401执行时,使得电子设备400执行如上述实施例中一个或多个所述的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器405中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器405中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器405包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (10)
1.一种基于大数据的企业行业分类方法,其特征在于,所述方法包括以下步骤:
获取待分类企业的企业信息;
根据所述企业信息提取所述待分类企业的企业关键词,并基于所述企业关键词确定所述待分类企业的企业关键词集;
通过预置的相似度计算模型分别计算所述企业关键词集与预置的各行业关键词集之间的相似度;
选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业。
2.根据权利要求1所述的基于大数据的企业行业分类方法,其特征在于,在选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业后,还包括:
判断所述待分类企业的所述备选所属行业是否唯一;
若否,则确定所述待分类企业的关联企业,并获取各所述关联企业的关联企业信息,所述关联企业信息包括关联企业关联关系信息与关联企业行业分类信息;
根据所述关联企业信息在若干个所述备选所属行业中确定所述待分类企业的所述所属行业。
3.根据权利要求2所述的基于大数据的企业行业分类方法,其特征在于,在判断所述待分类企业的所述备选所属行业是否唯一后,还包括:
若是,则将所述备选所属行业作为所述待分类企业的所属行业。
4.根据权利要求1所述的基于大数据的企业行业分类方法,其特征在于,在获取待分类企业的企业信息前,还包括行业关键词集创建方法,所述行业关键词集创建方法具体包括:
获取国民经济行业分类文件;
创建与国民经济行业分类文件规定的行业类别对应的多个所述行业关键词集;
获取各所述行业关键词集对应的行业类别的行业关键词;
将各行业类别的所述行业关键词分别存放至对应的所述行业关键词集中,完成各所述行业关键词集的创建。
5.根据权利要求4所述的基于大数据的企业行业分类方法,其特征在于,在获取各所述行业关键词集对应的行业类别的行业关键词中,具体包括:
对于一所述行业关键词集,根据所述国民经济行业分类文件中对所述行业关键词集对应的行业类别的行业注释获取第一行业关键词;
获取预置的企业数据库中的同行业企业的所述企业信息,所述同行业企业的所述所属行业与所述行业关键词集对应的行业类别相同;
根据所述同行业企业的所述企业信息获取第二行业关键词。
6.根据权利要求2所述的基于大数据的企业行业分类方法,其特征在于,在根据所述关联企业信息在若干个所述备选所属行业中确定所述待分类企业的所述所属行业中,具体包括:
根据预置的综合行业评分计算规则对所述关联企业信息与各所述备选所属行业的所述相似度进行处理,计算得出各所述备选所属行业的综合行业评分;
选取所述综合行业评分最高的所述备选所属行业作为所述待分类企业的所述所属行业。
7.根据权利要求6所述的基于大数据的企业行业分类方法,其特征在于,在根据预置的综合行业评分计算规则对所述关联企业信息与各所述备选所属行业的所述相似度进行处理,计算得出各所述备选所属行业的综合行业评分中,具体包括:
对于一所述备选所属行业,将该所述备选所属行业与所述待分类企业的所述相似度作为第一行业评分;
在所述待分类企业的所述关联企业中确定与该所述备选所属行业的行业类别相同的相同行业关联企业;
根据所述相同行业关联企业的所述关联企业信息计算第二行业评分;
对所述第一行业评分与所述第二行业评分进行加权计算,完成该所述备选所属行业的所述综合行业评分的计算。
8.一种基于大数据的企业行业分类系统,其特征在于,所述系统包括:
企业信息获取模块(301),用于获取待分类企业的企业信息;
企业关键词提取模块(302),用于根据所述企业信息提取所述待分类企业的企业关键词,并基于所述企业关键词确定所述待分类企业的企业关键词集;
相似度计算模块(303),用于通过预置的相似度计算模型分别计算所述企业关键词集与预置的各行业关键词集之间的相似度;
备选所属行业确定模块(304),用于选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业。
9.一种电子设备,其特征在于,包括处理器(401)、存储器(405)、用户接口(403)及网络接口(404),所述存储器(405)用于存储指令,所述用户接口(403)和网络接口(404)用于给其他设备通信,所述处理器(401)用于执行所述存储器(405)中存储的指令,以使所述电子设备(400)执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869145.4A CN116933130A (zh) | 2023-07-14 | 2023-07-14 | 一种基于大数据的企业行业分类方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869145.4A CN116933130A (zh) | 2023-07-14 | 2023-07-14 | 一种基于大数据的企业行业分类方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116933130A true CN116933130A (zh) | 2023-10-24 |
Family
ID=88376745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310869145.4A Pending CN116933130A (zh) | 2023-07-14 | 2023-07-14 | 一种基于大数据的企业行业分类方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933130A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117764415A (zh) * | 2023-12-22 | 2024-03-26 | 安徽省征信股份有限公司 | 基于专利信息的战略性新兴产业链自动构建方法和装置 |
-
2023
- 2023-07-14 CN CN202310869145.4A patent/CN116933130A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117764415A (zh) * | 2023-12-22 | 2024-03-26 | 安徽省征信股份有限公司 | 基于专利信息的战略性新兴产业链自动构建方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
WO2020108608A1 (zh) | 搜索结果处理方法、装置、终端、电子设备及存储介质 | |
Zhao | R and data mining: Examples and case studies | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN107767273B (zh) | 基于社交数据的资产配置方法、电子装置及介质 | |
CN112528315A (zh) | 识别敏感数据的方法和装置 | |
CN115239214B (zh) | 企业的评估处理方法、装置及电子设备 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN115129864A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN115660695A (zh) | 客服人员标签画像构建方法、装置、电子设备及存储介质 | |
CN115827994A (zh) | 一种数据处理方法、装置、设备、存储介质 | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
CN114492446A (zh) | 法律文书处理方法、装置、电子设备及存储介质 | |
CN114417860A (zh) | 一种信息检测方法、装置及设备 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN116778210A (zh) | 教学影像评价系统以及教学影像评价方法 | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
CN109787784B (zh) | 群组推荐方法、装置、存储介质和计算机设备 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
JP2021152751A (ja) | 分析支援装置及び分析支援方法 | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
CN116226297B (zh) | 数据模型的可视化搜索方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |