CN110990529A - 企业的行业明细划分方法及系统 - Google Patents
企业的行业明细划分方法及系统 Download PDFInfo
- Publication number
- CN110990529A CN110990529A CN201911188639.6A CN201911188639A CN110990529A CN 110990529 A CN110990529 A CN 110990529A CN 201911188639 A CN201911188639 A CN 201911188639A CN 110990529 A CN110990529 A CN 110990529A
- Authority
- CN
- China
- Prior art keywords
- feature
- industry
- enterprise
- words
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013145 classification model Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Library & Information Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种企业的行业明细划分方法及系统。该方法包括:提取已知二级行业类别的企业的特征描述关键词;基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配,所述特征词与所述二级行业包含的行业明细相对应;根据匹配结果,划分所述企业的行业明细。该企业的行业明细划分方法及系统,利用企业特征描述关键词与特征词进行匹配,对企业进行行业明细划分,降低了企业的行业明细划分的工作量,提高了行业明细划分的精确性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种企业的行业明细划分方法及系统。
背景技术
随着我国经济的高速发展、经济结构的不断完善,行业分类也越来越细化。研究行业的精细分类对税务、征信和国家标准化管理等领域有重要作用。由国家质量监督检验检疫总局、国家标准化管理委员会发布的《国民经济行业分类》(GB/T 4754-2017)提供了行业分类的标准,其中有20个一级行业、97个二级行业和1380个行业明细。现有的行业分类主要使用传统统计与人工的方法,工商管理部门在企业登记之初需要根据企业的经营范围等信息,依据国家标准划分其具体行业分类,这种方法在面对大量企业的行业分类任务时,容易出现较大的人为误差,行业分类结果与实际的经营范围存在较大差异。
发明内容
基于上述问题,本申请提供了一种企业的行业明细划分方法及系统,用以解决传统统计与人工划分行业明细时,人为误差较大的问题。
本申请实施例公开了如下技术方案:
本申请提供一种企业的行业明细划分方法,包括:提取已知二级行业类别的企业的特征描述关键词;基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配,所述特征词与所述二级行业包含的行业明细相对应;根据匹配结果,划分所述企业的行业明细。
可选地,在本申请的任一实施例中,所述提取已知二级行业类别的企业的关键词包括:根据已知二级行业类别的所述企业的经营范围数据提取所述企业的特征描述关键词。
可选地,在本申请的任一实施例中,所述基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配包括:若所述特征描述关键词有多个,基于预先构建的所述特征词库,对多个所述特征描述关键词按照在所述经营范围数据中出现的先后顺序,分别与所述特征词库中的多个所述特征词进行匹配。
可选地,在本申请的任一实施例中,所述根据匹配结果,划分所述企业的行业明细包括:若所述特征描述关键词匹配到所述特征词,将所述企业划分为首次与所述特征描述关键词相匹配的所述特征词对应的所述行业明细,多个所述特征词在所述特征词库中按照所述二级行业包含的行业明细的顺序排列。
可选地,在本申请的任一实施例中,所述根据匹配结果,划分所述企业的行业明细还包括:若所述特征描述关键词未匹配到所述特征词,基于预先构建的智能行业分类模型,预测所述企业的行业明细。
可选地,在本申请的任一实施例中,基于机器学习算法建立所述智能行业分类模型。
可选地,在本申请的任一实施例中,在所述基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配之前,还包括:根据所述二级行业的样本企业特征有效数据构建所述特征词库,所述样本企业特征有效数据包括样本企业名称数据、样本企业经营范围数据、以及样本企业主营商品数据中至少其一。
可选地,在本申请的任一实施例中,所述根据所述二级行业的样本企业特征有效数据构建所述特征词库包括:对所述二级行业中至少一个样本企业的所述样本企业特征有效数据进行处理,得到所述样本企业的所述特征词;对全部所述样本企业的所述特征词进行汇总,得到所述特征词库。
本申请实施例还提供一种企业的行业明细划分系统,包括:提取单元,配置为提取已知二级行业类别的企业的特征描述关键词;匹配单元,配置为基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配,所述特征词与所述二级行业包含的行业明细相对应;划分单元,配置为根据匹配结果,划分所述企业的行业明细。
可选地,在本申请的任一实施例中,还包括:词库单元,配置为根据所述二级行业的样本企业特征有效数据构建所述特征词库,所述样本企业特征有效数据包括样本企业名称数据、样本企业经营范围数据、以及样本企业主营商品数据中至少其一。
本申请实施例的技术方案中,通过提取已知二级行业类别的企业的特征描述关键词,基于预先构建的特征词库,对特征描述关键词与特征词库中的多个关键词进行匹配,根据匹配结果,划分企业的行业明细。该技术方案利用企业特征描述关键词与特征词匹配,对企业进行行业明细划分,降低了企业的行业明细划分的工作量,提高了行业明细划分的精确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请第一实施例所示的企业的行业明细划分方法的流程示意图;
图2为根据本申请第二实施例所示的构建特征词库的流程示意图;
图3为根据本申请第三实施例所示的企业的行业明细划分系统的结构示意图;
图4为根据本申请第四实施例所示的词库单元的结构示意图。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,需要说明的是,在本申请的实施例中,是对已知二级行业类别的企业进行行业明细划分。
第一实施例
图1为根据本申请第一实施例所示的企业的行业明细划分方法的流程示意图;如图1所示,该方法包括:
步骤S101、提取已知二级行业类别的企业的特征描述关键词;
特征描述关键词是对企业的描述与概括,能够准确的体现企业的类别及行业明细。具体的,根据已知二级行业类别的所述企业的经营范围数据提取所述企业的特征描述关键词。一般的,企业的经营范围数据包括企业生产和经营的商品类别、品种以及服务项目,反映了企业业务活动的内容和生产经营方向,与企业的行业明细密切相关,通过提取企业经营范围数据中的重点描述词语,作为该企业的特征描述关键词,能够更加准确的划分企业的行业明细。尤其是企业的经营范围数据中的前几项,在企业的行业明细划分时具有重要参考意义,比如,大多数企业倾向于在经营范围数据中把重点的经营内容写在前面。因而,在企业经营范围数据中,描述越靠前的词语与企业的行业明细相关性越强,对划分企业的行业明细影响越大;描述越靠后的词语与企业的行业明细相关性越弱,对划分企业的行业明细影响越小。
步骤S102、基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配,所述特征词与所述二级行业包含的行业明细相对应;
特征词与行业明细相对应,用于表征相应行业明细的明显特征,不同行业明细的特征词必互不相同;在一个二级行业中,所有行业明细的特征词的集合构成了该二级行业的特征词库。
通常情况下,企业的特征描述关键词有多个,将这多个特征描述关键词分别与特征词库中的多个特征词进行匹配。具体的,若所述特征描述关键词有多个,基于预先构建的所述特征词库,对多个所述特征描述关键词按照在所述经营范围数据中出现的先后顺序,分别与所述特征词库中的多个所述特征词进行匹配。由于在企业经营范围数据中,描述越靠前的词语与企业的行业明细相关性越强,对划分企业的行业明细影响越大,因而,按照特征描述关键词在企业的经营范围数据中出现的先后顺序,与特征词库中的特征词进行匹配,能够更为准确的划分企业的行业明细。
步骤S103、根据匹配结果,划分所述企业的行业明细。
将企业的特征描述关键词与特征词库中的特征词进行匹配,若所述特征描述关键词匹配到所述特征词,则将所述企业划分为与所述特征描述关键词相匹配的所述特征词对应的所述行业明细。
由于提取到的企业的特征描述关键词可能有多个,有可能出现多个特征描述关键词与多个特征词相匹配的情形。此时,在对多个特征描述关键词按照在经营范围数据中出现的先后顺序,与特征词进行匹配时,由于排在前面的特征描述关键词与要比排在后面的特征描述关键词与企业的行业明细相关性更强。因而,进一步的,若所述特征描述关键词匹配到所述特征词相,将所述企业划分为首次与所述特征描述关键词相匹配的所述特征词对应的所述行业明细。这样,能够更为准确的划分企业的行业明细,多个所述特征词在所述特征词库中按照所述二级行业包含的行业明细的顺序排列。由于二级行业包含的行业明细具有特定的顺序,将行业明细对应的特征词按照行业明细的顺序在特征词库中排列,在对特征描述关键词与特征词进行匹配时,能够更为准确的进行匹配,提高行业明细划分的效率。
将企业的特征描述关键词与特征词库中的特征词进行匹配时,特征描述关键词也有可能匹配不到特征词库中的特征词。若所述特征描述关键词未匹配到所述特征词,基于预先建立的智能行业分类模型,预测所述企业的行业明细。
本实施例中,基于机器学习算法建立所述智能行业分类模型。比如,可以基于TextCNN算法建立智能行业分类模型,或者基于Attention-Based Bi-LSTM算法建立智能行业分类模型,或者基于Logistic回归算法建立智能行业分类模型,或者基于SVM(SupportVector Machine)算法建立智能行业分类模型。
在基于TextCNN算法建立智能行业分类模型预测企业的行业明细过程中,基于TextCNN算法,对企业的经营范围数据进行分词、随机向量化处理,得到特征描述关键词的词向量矩阵,比如,通过one-hot编码对企业的经营范围数据进行随机向量化。然后通过卷积对该词向量矩阵提取不同的n-gram特征,比如,使用2-gram、3-gram、4-gram和5-gram四种不同尺寸的卷积核对该词向量矩阵提取n-gram特征,得到该词向量矩阵的2-gram特征、3-gram特征、4-gram特征和5-gram特征。再对得到的n-gram特征进行最大值池化操作,提取卷积核中的最大值,以使通过不同尺寸的卷积核提取的n-gram特征的维度相同;最后,将池化操作后的n-gram特征拼接在一起得到n-gram特征向量,将该特征向量输入归一化指数函数(softmax函数)中,预测企业的行业明细。
在基于Attention-Based Bi-LSTM算法建立智能行业分类模型预测企业的行业明细过程中,由于企业的经营范围数据中出现的词语的顺序在行业明细划分中具有重要意义,比如,多数企业倾向于在经营范围数据中把重点的经营内容写在前面,因此,在从企业的经营范围数据中提取到特征描述关键词后,通过计算每个特征描述关键词的权重,对所述特征描述关键词进行加权和运算后输入softmax函数中,以预测企业的行业明细。需要说明的是,可以通过在双向长短期循环神经网络(long short term memory,简称LSTM)模型与注意力模型相结合来计算企业的特征描述关键词的权重。
本申请实施例在已知企业二级行业类别的情况下,根据企业的经营范围数据,综合利用特征描述关键词与特征词匹配、以及机器学习划分企业的行业明细,极大的降低了企业的行业明细划分工作,提高了企业的行业明细划分的精确性。
本实施例的企业的行业明细划分方法中,在步骤S101之前,还可以包括:从数据库中提取企业特征原始数据,对所述企业特征原始数据进行预处理,得到所述企业特征有效数据。数据库用于储存该二级行业类别下企业经营信息的数据,其中包含有企业名称数据、企业经营范围数据、企业主营商品数据等。
由于企业特征原始数据中存在大量的与企业类别无关的描述、以及重复、异常等数据,其并不能直接用于提取企业的特征描述关键词,因而,需要对企业特征原始数据进行预处理,以减小数据冗余,保证数据的一致性。在此,通过删除企业特征原始数据中的无关数据和重复数据,对缺失、异常数据用空格代替,得到企业特征有效数据。需要说明的是,在本实施例中,并非限定根据企业的经营范围数据提取特征描述关键词,以对企业进行行业明细划分;还可以根据企业名称数据、企业主营商品数据等提取企业的特征描述关键词,以对企业进行行业明细划分。
此外,在本实施例的企业的行业明细划分方法中,还可以根据所述企业特征有效数据对构建的所述特征词库进行更新。
首先,基于行业明细词频,对所述企业特征有效数据进行筛选,得到所述企业的特征描述关键词,所述行业明细词频表示词语在所述行业明细中出现的次数。具体的,基于所述行业明细词频和词频-逆向文件频率,对所述企业特征有效数据进行筛选,得到所述企业的特征描述关键词,所述词频-逆向文件频率用于度量所述特征描述关键词在所述二级行业类别中的重要程度。通常情况下,某一词语的词频-逆向文件频率可以由所述二级行业下的企业数目除以包含该词语的企业数目,然后再对得到的商值取以10为底的对数得到。
通过将企业特征有效数据中某一词语的行业明细词频与预设第一阈值进行比较,以及将该词语的词频-逆向文件频率与预设第二阈值进行比较,若该词语的行业明细词频大于预设第一阈值以及该词语的词频-逆向文件频率大于预设第二阈值,那么将该词语作为该企业的特征描述关键词。也就是说,将企业特征有效数据中出现次数较多、出现频率较高的词语作为该企业的特征描述关键词。
然后,在得到企业的特征描述关键词后,就可以根据特征描述关键词对企业进行行业明细划分,在此不再一一赘述。若在现有的二级行业的特征词库中,缺少该企业的特征描述关键词,那么就可以将该特征描述关键词作为特征词加入该特征词库,以对特征词库进行更新。通过真实的企业特征有效数据对企业相对应的二级行业的特征词库进行不断更新,使特征词库不断的丰富完善,能够更加准确的对企业进行行业明细划分。
此外,为了使特征词能够更为准确的与行业明细相对应,还可以基于《国民经济行业分类》的描述,对基于行业明细词频和词频-逆向文件频率得到的特征描述关键词,进行进一步的筛选,得到明显属于某一行业明细的特征描述关键词,将这些特征描述关键词作为该行业明细的特征词,加入特征词库中,对特征词库进行更新。
本申请实施例中,根据实际的企业特征有效数据对特征词库进行更新,使特征词库不断的丰富完善,使对企业进行行业明细划分时更加精确。
第二实施例
图2为根据本申请第二实施例所示的构建特征词库的流程示意图;具体的,根据所述二级行业的样本企业特征有效数据构建所述特征词库,所述样本企业特征有效数据包括样本企业名称数据、样本企业经营范围数据、以及样本企业主营商品数据中至少其一。通过将每一个二级行业下的样本企业特征有效数据进行处理,就可以得到该二级行业对应的特征词库。
如图2所示,根据所述二级行业的样本企业特征有效数据构建所述特征词库包括:
步骤S201、对所述二级行业中至少一个样本企业的所述样本企业特征有效数据进行处理,得到所述样本企业的所述特征词;
本步骤中,通过挑选与此二级类别细分无关的停用词和符号,维护相应样本企业对应的二级行业类别的停用词表,然后将每个样本企业特征有效数据进行分词处理,根据分词处理结果与维护后的停用词表得到样本企业的特征词。通常情况下,利用jieba分词工具对样本企业特征有效数据进行分词处理,通过去除与二级行业类别无关的停用词、标点符号和特殊符号,对停用词表进行维护。
步骤S202、对全部所述样本企业的所述特征词进行汇总,得到所述特征词库。
在此,需要说明的是,全部所述样本企业指的是相应的二级行业中的包含的全部样本企业。样本企业的特征词表征了样本企业所属行业明细的明显特征,与行业明细相对应,不同行业明细的特征词必互不相同。在一个二级行业中,所有行业明细的特征词的集合就构成了该二级行业的特征词库。
第三实施例
图3为根据本申请第三实施例所示的企业的行业明细划分系统的结构示意图;如图3所示,该企业的行业明细划分系统包括:提取单元,配置为提取已知二级行业类别的企业的特征描述关键词;匹配单元,配置为基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配,所述特征词与所述二级行业包含的行业明细相对应;划分单元,配置为根据匹配结果,划分所述企业的行业明细。
具体的,所述提取单元,进一步配置为根据已知二级行业类别的所述企业的经营范围数据提取所述企业的特征描述关键词。
具体的,所述匹配单元,进一步配置为若所述特征描述关键词有多个,基于预先构建的所述特征词库,对多个所述特征描述关键词按照在所述经营范围数据中出现的先后顺序,分别与所述特征词库中的多个所述特征词进行匹配。
具体的,所述划分单元,进一步配置为若所述特征描述关键词匹配到所述特征词,将所述企业划分为首次与所述特征描述关键词相匹配的所述特征词对应的所述行业明细,多个所述特征词在所述特征词库中按照所述二级行业包含的行业明细的顺序排列。
具体的,所述划分单元,还可以进一步配置为若所述特征描述关键词未匹配到所述特征词,基于预先建立的智能行业分类模型,预测所述企业的行业明细。
需要说明的是,本申请实施例的执行操作可以参考上述第一实施例的方法的流程,在此不再一一赘述。
第四实施例
与上述第三实施例不同的是,本申请实施例中,企业的行业明细划分系统还包括:词库单元,配置为根据所述二级行业的样本企业特征有效数据构建特征词库,所述样本企业特征有效数据包括样本企业名称数据、样本企业经营范围数据、以及样本企业主营商品数据中至少其一。
图4为根据本申请第四实施例所示的词库单元的结构示意图;如图4所示,该词库单元包括:特征词子单元,配置为对所述二级行业中至少一个样本企业的所述样本企业特征有效数据进行处理,得到每个所述样本企业的所述特征词;词库子单元,配置为对全部所述样本企业的所述特征词进行汇总,得到所述特征词库。
需要说明的是,本申请实施例的执行操作可以参考上述第二实施例的方法的流程,在此不再一一赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种企业的行业明细划分方法,其特征在于,包括:
提取已知二级行业类别的企业的特征描述关键词;
基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配,所述特征词与所述二级行业包含的行业明细相对应;
根据匹配结果,划分所述企业的行业明细。
2.根据权利要求1所述的方法,其特征在于,所述提取已知二级行业类别的企业的关键词包括:根据已知二级行业类别的所述企业的经营范围数据提取所述企业的特征描述关键词。
3.根据权利要求2所述的方法,其特征在于,所述基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配包括:若所述特征描述关键词有多个,基于预先构建的所述特征词库,对多个所述特征描述关键词按照在所述经营范围数据中出现的先后顺序,分别与所述特征词库中的多个所述特征词进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述根据匹配结果,划分所述企业的行业明细包括:若所述特征描述关键词匹配到所述特征词,将所述企业划分为首次与所述特征描述关键词相匹配的所述特征词对应的所述行业明细,多个所述特征词在所述特征词库中按照所述二级行业包含的行业明细的顺序排列。
5.根据权利要求1所述的方法,其特征在于,所述根据匹配结果,划分所述企业的行业明细还包括:若所述特征描述关键词未匹配到所述特征词,基于预先建立的智能行业分类模型,预测所述企业的行业明细。
6.根据权利要求5所述的方法,其特征在于,基于机器学习算法建立所述智能行业分类模型。
7.根据权利要求1-6任一所述的方法,其特征在于,在所述基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配之前,还包括:根据所述二级行业的样本企业特征有效数据构建所述特征词库,所述样本企业特征有效数据包括样本企业名称数据、样本企业经营范围数据、以及样本企业主营商品数据中至少其一。
8.根据权利要求7所述的方法,其特征在于,所述根据所述二级行业的样本企业特征有效数据构建所述特征词库包括:
对所述二级行业中至少一个样本企业的所述样本企业特征有效数据进行处理,得到所述样本企业的所述特征词;
对全部所述样本企业的所述特征词进行汇总,得到所述特征词库。
9.一种企业的行业明细划分系统,其特征在于,包括:
提取单元,配置为提取已知二级行业类别的企业的特征描述关键词;
匹配单元,配置为基于预先构建的特征词库,对所述特征描述关键词与所述特征词库中的多个特征词进行匹配,所述特征词与所述二级行业包含的行业明细相对应;
划分单元,配置为根据匹配结果,划分所述企业的行业明细。
10.根据权利要求9所述的行业明细划分系统,其特征在于,还包括:词库单元,配置为根据所述二级行业的样本企业特征有效数据构建所述特征词库,所述样本企业特征有效数据包括样本企业名称数据、样本企业经营范围数据、以及样本企业主营商品数据中至少其一。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188639.6A CN110990529B (zh) | 2019-11-28 | 2019-11-28 | 企业的行业明细划分方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188639.6A CN110990529B (zh) | 2019-11-28 | 2019-11-28 | 企业的行业明细划分方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990529A true CN110990529A (zh) | 2020-04-10 |
CN110990529B CN110990529B (zh) | 2024-04-09 |
Family
ID=70087697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911188639.6A Active CN110990529B (zh) | 2019-11-28 | 2019-11-28 | 企业的行业明细划分方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990529B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347318A (zh) * | 2020-10-26 | 2021-02-09 | 杭州数智政通科技有限公司 | 划分企业所属行业类别的方法、设备及介质 |
WO2022068297A1 (zh) * | 2020-09-30 | 2022-04-07 | 深圳前海微众银行股份有限公司 | 行业标签的确定方法、装置、设备及存储介质 |
WO2022225806A1 (en) * | 2021-04-21 | 2022-10-27 | Nec Laboratories America, Inc. | Technical specification matching |
WO2023237135A1 (zh) * | 2022-06-10 | 2023-12-14 | 顺丰科技有限公司 | 关联对象识别方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779467A (zh) * | 2016-12-31 | 2017-05-31 | 成都数联铭品科技有限公司 | 基于自动信息筛选的企业行业分类系统 |
CN107169036A (zh) * | 2017-04-19 | 2017-09-15 | 畅捷通信息技术股份有限公司 | 确定企业所属行业类别的方法及系统 |
CN107169523A (zh) * | 2017-05-27 | 2017-09-15 | 鹏元征信有限公司 | 自动确定机构的所属行业类别的方法、存储设备及终端 |
CN108520041A (zh) * | 2018-04-03 | 2018-09-11 | 有米科技股份有限公司 | 文本的行业分类方法、系统、计算机设备和存储介质 |
-
2019
- 2019-11-28 CN CN201911188639.6A patent/CN110990529B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779467A (zh) * | 2016-12-31 | 2017-05-31 | 成都数联铭品科技有限公司 | 基于自动信息筛选的企业行业分类系统 |
CN107169036A (zh) * | 2017-04-19 | 2017-09-15 | 畅捷通信息技术股份有限公司 | 确定企业所属行业类别的方法及系统 |
CN107169523A (zh) * | 2017-05-27 | 2017-09-15 | 鹏元征信有限公司 | 自动确定机构的所属行业类别的方法、存储设备及终端 |
CN108520041A (zh) * | 2018-04-03 | 2018-09-11 | 有米科技股份有限公司 | 文本的行业分类方法、系统、计算机设备和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068297A1 (zh) * | 2020-09-30 | 2022-04-07 | 深圳前海微众银行股份有限公司 | 行业标签的确定方法、装置、设备及存储介质 |
CN112347318A (zh) * | 2020-10-26 | 2021-02-09 | 杭州数智政通科技有限公司 | 划分企业所属行业类别的方法、设备及介质 |
CN112347318B (zh) * | 2020-10-26 | 2022-08-02 | 杭州数智政通科技有限公司 | 划分企业所属行业类别的方法、设备及介质 |
WO2022225806A1 (en) * | 2021-04-21 | 2022-10-27 | Nec Laboratories America, Inc. | Technical specification matching |
WO2023237135A1 (zh) * | 2022-06-10 | 2023-12-14 | 顺丰科技有限公司 | 关联对象识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110990529B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
CN110990529B (zh) | 企业的行业明细划分方法及系统 | |
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN113535963B (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
CN114880486A (zh) | 基于nlp和知识图谱的产业链识别方法及系统 | |
CN113111924A (zh) | 电力客户分类方法及装置 | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN113011156A (zh) | 审核文本的质检方法、装置、介质以及电子设备 | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN115794798A (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
US20210073247A1 (en) | System and method for machine learning architecture for interdependence detection | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114580398A (zh) | 文本信息提取模型生成方法、文本信息提取方法和装置 | |
CN114861655A (zh) | 数据挖掘处理方法、系统及存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN110837544A (zh) | 事件单数据的处理方法、装置、电子设备及存储介质 | |
CN115329742B (zh) | 基于文本分析的科研项目产出评价验收方法及系统 | |
CN114722819B (zh) | 一种实体类型分类识别方法、装置、设备和介质 | |
CN117495538A (zh) | 订单融资的风险性评估方法和模型训练方法 | |
Kotepuchai et al. | Tree-based Classifiers for Smart General Ledger Code Suggestion | |
CN115471280A (zh) | 产品推荐方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |