CN117216688A - 基于层次标签树与神经网络的企业行业识别方法与系统 - Google Patents
基于层次标签树与神经网络的企业行业识别方法与系统 Download PDFInfo
- Publication number
- CN117216688A CN117216688A CN202311465129.5A CN202311465129A CN117216688A CN 117216688 A CN117216688 A CN 117216688A CN 202311465129 A CN202311465129 A CN 202311465129A CN 117216688 A CN117216688 A CN 117216688A
- Authority
- CN
- China
- Prior art keywords
- node
- data
- hierarchical label
- enterprise
- label tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 102100040401 DNA topoisomerase 3-alpha Human genes 0.000 claims description 3
- 101000611068 Homo sapiens DNA topoisomerase 3-alpha Proteins 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于层次标签树与神经网络的企业行业识别方法与系统,所述方法包括:将国民经济行业分类数据,构建为层次标签树;根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别。本发明采用了基于层次标签树与神经网络的企业行业识别方法,可以高精度的对企业进行行业识别,以便于后续对企业数据进行更为详尽的分析。
Description
技术领域
本发明涉及数据处理技术领域,特别是一种基于层次标签树与神经网络的企业行业识别方法与系统。
背景技术
统一社会信用代码库中企业的所属行业存在漏缺的情况以及其“经营范围”信息存在着不规范的问题,为针对行业的分析与统计带来困难。将某企业按照一个所属行业的划分,存在一定的局限性。在进行产业链构建的所需信息统计时,需要尽可能的完善统计信息,所以针对企业的行业划分就需要提出较高的要求;
目前市面上识别企业行业的方法有以下几种类型,《一种基于文本相似度的企业行业识别系统及识别方法》提出了基于词袋模型与同义词扩展的方法;《一种企业多种经营范围识别方法与系统》提出利用word2vec词嵌入模型结合条件概率的方法;《识别企业所属行业的方法、装置、设备和介质》提出依据与头部企业关系的密切程度结合经营范围的方法;《行业词典的建立方法和装置及行业识别方法和装置》提出依据搜索频率构建行业词典并依据词典识别的方法;《一种行业识别的方法、装置、存储介质及电子设备》提出依据用户信息的特征提取并与特定行业的行业说明进行匹配的方法。
上述发明方法并未结合完整的行业层次信息,即并未完整使用一级至四级行业信息的层次关系,故而在行业的识别上存在一定的局限性。
发明内容
鉴于此,本发明提供一种基于层次标签树与神经网络的企业行业识别方法与系统,依据一级、二级、三级、四级行业间的关系构建层次标签树,结合神经网络,采用层次标签树路径打分的形式,完成企业的行业识别。
本发明公开了基于层次标签树与神经网络的企业行业识别方法,其包括:
步骤1:将国民经济行业分类数据,构建为层次标签树;
步骤2:根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;
步骤3:根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别。
进一步地,所述步骤3包括:
步骤31:使用BERT中文向量模型作为词嵌入模块,将正例数据与反例数据输入词嵌入模块进行训练,得到神经网络识别模型;
步骤32:获取所属行业为空值的企业经营范围数据,并对获取的企业经营范围数据进行预处理,获得企业的切分经营数据;
步骤33:将层次标签树的节点名和预处理后的企业经营范围数据作为神经网络识别模型的输入特征,利用其输出向量与判定阈值,计算层次标签树的路径得分,对企业进行行业识别。
进一步地,所述步骤1包括:
生成层次标签树的根节点;生成层次标签树的一级节点,其生成依据为门类中含有数据的项,即不为空的项,一级节点名称为门类对应的类别名称;国民经济行业分类数据包括门类、大类、中类和小类四级;生成层次标签树的二级节点,其生成依据为大类中含有数据的项,二级节点名称为大类对应的类别名称;生成层次标签树的三级节点,其生成依据为中类中含有数据的项,三级节点名称为中类对应的类别名称;生成层次标签树的四级节点,其生成依据为小类中应含有数据,四级节点名称为小类对应的类别名称。
进一步地,所述步骤1还包括:
一级节点为二级节点的父节点,二级节点为三级节点的父节点,三级节点为四级节点的父节点,四级节点之间为兄弟节点;层次标签树按照根节点、一级节点、二级节点、三级节点和四级节点的顺序层层递推。
进一步地,所述步骤2包括:
层次标签树隔离根节点,即根节点不参与生成正例数据与反例数据;
父节点与子节点两两一组,形成正例数据;非父节点与子节点之间,形成反例数据。
进一步地,所述步骤31包括:
使用BERT中文向量模型作为词嵌入模块,将语料转换至向量空间;将正例数据与反例数据输入词嵌入模块,获得一组数据的两个词向量;将BERT模型中输出的一组数据的两个词向量连接;将连接后的词向量放入神经网络层进行训练,其中神经网络层由三层构成,其中第一层为全连接层,第二层为ReLU层,第三层为全连接层;模型的损失函数选择交叉熵损失函数和学习率。
进一步地,所述步骤32包括:
读取统一社会信用代码数据库,获取缺失所属行业的企业经营范围数据,并对获取的企业经营范围数据进行预处理,预处理之后的行业范围数据存入数据库中;其中,预处理包括去除企业经营范围数据中的括号以及括号内的数据。
进一步地,所述步骤33包括:
使用神经网络识别模型计算层次标签树节点分别与每个企业切分经营数据的节点分;基于每个节点分与判定阈值选择最优的层次标签树路径;通过层次标签路径得分方法计算路径得分; 基于层次标签树的路径得分判定所属行业。
进一步地,所述计算路径得分的公式为:
其中,q表示路径中的节点数,是路径中的第i个节点,/>是对于实例/>在节点/>被模型预测为真的概率,/>是节点/>的权重,其定义公式如下:
其中,表示节点标签/>在层次标签树的所在层次,即该节点的父节点层次加1,/>表示层次标签树中最长路径的长度。
进一步地,通过层次标签树路径得分判定企业所属行业的基准使用TOP3原则,即保留得分前三的路径。
本发明还公开了一种基于层次标签树与神经网络的企业行业识别系统,其包括:
第一构建模块,用于将国民经济行业分类数据,构建为层次标签树;
第二构建模块,用于根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;
计算模块,用于根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别。
由于采用了上述技术方案,本发明具有如下的优点:
1.本发明采用层次标签树与神经网络结合,通过对数据进行处理、建模、训练模型与计算,得到企业的行业识别结果。
2.本发明通过BERT模型结合神经网络,对下游任务进行进一步的训练,增加识别精度,从而能够提升预测结果。
3.本发明旨在使用无监督的方法对企业的行业进行识别,其中涉及的数据均未进行人工标注操作,均采用机器学习方法进行数据的处理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种基于层次标签树与神经网络的企业行业识别方法的流程示意图;
图2为本发明实施例的一种基于层次标签树与神经网络的企业行业识别系统示意图。
具体实施方式
结合附图和实施例对本发明作进一步说明,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
参见图1,本发明提供了一种基于层次标签树与神经网络的企业行业识别方法的实施例,其包括以下步骤:
步骤1:将国民经济行业分类数据,构建为层次标签树;
具体包括:
其中,《国民经济行业分类(GB/T 4754—2017)》数据主要构成如表1所示,第1列为门类,第2列为大类,第3列为中类,第4列为小类,第5列为类别名称,参见表1。
表1 《国民经济行业分类》数据主要构成
门类 | 大类 | 中类 | 小类 | 类别名称 |
L | 租赁和商务服务业 | |||
71 | 租赁业 | |||
711 | 机械设备经营租赁 | |||
7111 | 汽车租赁 | |||
7112 | 农业机械经营租赁 | |||
7113 | 建筑工程机械与设备经营租赁 | |||
7114 | 计算机及通讯设备经营租赁 | |||
7115 | 医疗设备经营租赁 | |||
7119 | 其他机械与设备经营租赁 | |||
712 | 文体设备和用品出租 | |||
7121 | 休闲娱乐用品设备出租 | |||
7122 | 体育用品设备出租 | |||
7112 | 农业机械经营租赁 |
步骤11:生成层次标签树的根节点root,无现实意义,仅作为必要构成;
步骤12:生成层次标签树的一级节点,其生成依据为门类中含有数据的项,即不为空的项,节点名称为对应的类别名称,如表1中第1行所示,门类列中含有数据“L”,大类、中类与小类列中数据为空,则将其类别名称“租赁和商务服务业”作为一级节点名称;
步骤13:生成层次标签树的二级节点,其生成依据为一级节点数据次行数据且其大类列中应含有数据,门类、中类与小类列中不含有数据,节点名称为对应的类别名称,如表1中第2行所示,大类列中含有数据“71”,门类列、中类列与小类列数据为空,则将其类别名称“租赁业”作为二级节点名称;
步骤14:生成层次标签树的三级节点,其生成依据为二级节点数据次行数据且其中类列中应含有数据,门类、大类与小类列中不含有数据,节点名称为对应的类别名称,如表1中第3行所示,中类列中含有数据“711”,门类列、大类列与中类列数据为空,则将其类别名称“机械设备经营租赁”作为三级节点名称;
步骤15:生成层次标签树的四级节点,其生成依据为三级节点数据词行数据且其小类项中应含有数据,门类、大类与中类项中不含有数据,节点名称为对应的类别名称,如表1中第4行所示,小类列中含有数据“7111”,门类列、大类列与小类列数据为空,则将其类别名称“汽车租赁”作为四级节点名称;
步骤16:生成层次标签树的节点间关系,其生成依据为由上至下、包含原则,即由列表第一个向下,一级节点为二级节点的父节点,二级节点为三级节点的父节点,三级节点为四级节点的父节点,四级节点之间为兄弟节点,以表2为例,一级节点“租赁和商务服务业”为二级节点“租赁业”的父节点,二级节点“租赁业”为三级节点“机械设备经营租赁”的父节点,三级节点“机械设备经营租赁”为四级节点“汽车租赁”的父节点,四级节点“汽车租赁”与四级节点“农业机械经营租赁”为兄弟节点;若出现四级节点在三级节点上方,则下方的三级节点与上方最近的三级节点之间为兄弟节点,如图2所示,三级节点“文体设备和用品出租”与三级节点“机械设备经营租赁”之间为兄弟节点关系,同样的二级节点与一级节点类似。
步骤17:整棵层次标签树按照root节点、一级节点、二级节点、三级节点、四级节点的顺序层层递推;
步骤2:根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;
具体包括:
步骤21:在步骤1构建地层次标签树中,隔离root节点,不参与训练数据生成;
步骤22:其余父节点与子节点两两一组,形成正例,如一级节点与其二级子节点、二级节点与其三级子节点等;
步骤23:非父节点与子节点之间,形成反例,如一级节点与其二级非子节点、二级节点与其三级非子节点等;
步骤3:根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别。
具体包括:
步骤31:使用BERT中文向量模型(本发明使用chinese_L-12_H-768_A-12)作为词嵌入模块,用于将语料转换至向量空间,如表2所示;
表2 词语转换至向量示例
词语 | 向量化 |
商务服务业 | 'input_ids':tensor([[0,581,7082,...]])'token_type_ids': tensor([[0, 0,0...]])'attention_mask': tensor([[1, 1,1,...]]) |
步骤32:将步骤2获得的数据输入模型,获得一组数据的两个词向量;
步骤33:将BERT模型中输出的一组数据的两个词向量连接;
步骤34:将步骤33输出的词向量放入神经网络层进行训练,其中神经网络层由三层构成,其中第一层为768*768的全连接层,第二层为ReLU层,第三层为768*2的全连接层;
步骤35:模型的损失函数选择交叉熵损失函数(CrossEntropyLoss),学习率(lr)设置为5e-4;
步骤36:从省级统一社会信用代码数据库中获取所属行业为空值的企业经营范围数据,并对获取的企业经营范围数据进行预处理,获得企业的切分经营数据;
步骤37:读取省级统一社会信用代码数据库,获取缺失所属行业的企业经营范围数据,并对获取的企业经营范围数据进行预处理,如下表3所示,第1列为预处理之前行业范围数据,第2列为预处理之后的行业范围数据;存入MySQL数据库中。
表3 企业的经营范围预处理示例
预处理之前的数据 | 预处理之后的数据 |
(以下范围不含前置许可项目,后置许可项目凭许可证或审批文件经营)房地产中介服务;商务服务业。(依法须经批准的项目,经相关部门批准后方可开展经营活动) | [“房地产中介服务”,“商务服务业”] |
步骤38:将层次标签树的节点名和预处理后的企业经营范围数据作为神经网络识别模型的输入特征,利用其输出向量与判定阈值计算层次标签树路径得分,对企业进行行业识别。
步骤38具体包括:
步骤381:结合层次标签树节点与企业切分经营数据使用神经网络识别模型计算节点分;
步骤382:基于节点分与判定阈值选择最优的层次标签树路径;
步骤383:通过层次标签路径得分方法计算路径得分;
计算路径得分的公式为:
其中,q表示路径中的节点数,是路径中的第i个节点,/>是对于实例/>在节点/>被模型预测为真的概率,/>是节点/>的权重,其定义公式如下:
其中,表示节点标签/>在层次标签树的所在层次,即该节点的父节点层次加1,/>表示层次标签树中最长路径的长度。
步骤384:基于层次标签树路径得分判定属于哪些行业;
步骤385:重复步骤381~384,逐一计算企业的所有切分经营数据;
步骤386:存储结果至数据库;
其中,步骤384中通过层次标签树路径得分判定企业所属行业的基准使用TOP3原则,即保留得分前三的路径:将识别的企业行业识别结果输入至MYSQL数据库中;企业行业识别结果,如表4所示。
表4 企业行业识别结果
图2所示,本发明提供了一种基于层次标签树与神经网络的企业行业识别系统的实施例,其包括:
第一构建模块,用于将国民经济行业分类数据,构建为层次标签树;
第二构建模块,用于根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;
计算模块,用于根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于层次标签树与神经网络的企业行业识别方法,其特征在于,包括:
步骤1:将国民经济行业分类数据,构建为层次标签树;
步骤2:根据层次标签树,构建用于神经网络识别模型训练的正例数据与反例数据;
步骤3:根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别。
2.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
步骤31:使用BERT中文向量模型作为词嵌入模块,将正例数据与反例数据输入神经网络识别模型进行训练;
步骤32:获取所属行业为空值的企业经营范围数据,并对获取的企业经营范围数据进行预处理,获得企业的切分经营数据;
步骤33:将层次标签树的节点名和企业的切分经营数据作为神经网络识别模型的输入特征,利用其输出向量与判定阈值,计算层次标签树的路径得分,对企业进行行业识别。
3.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
生成层次标签树的根节点;生成层次标签树的一级节点,其生成依据为门类中含有数据的项,即不为空的项,一级节点名称为门类对应的类别名称;国民经济行业分类数据包括门类、大类、中类和小类四级;生成层次标签树的二级节点,其生成依据为大类中含有数据的项,二级节点名称为大类对应的类别名称;生成层次标签树的三级节点,其生成依据为中类中含有数据的项,三级节点名称为中类对应的类别名称;生成层次标签树的四级节点,其生成依据为小类中应含有数据,四级节点名称为小类对应的类别名称;
一级节点为二级节点的父节点,二级节点为三级节点的父节点,三级节点为四级节点的父节点,四级节点之间为兄弟节点;层次标签树按照根节点、一级节点、二级节点、三级节点和四级节点的顺序层层递推。
4.根据权利要求1所述的方法,其特征在于,所述步骤2包括:
层次标签树隔离根节点,即根节点不参与生成正例数据与反例数据;
父节点与子节点两两一组,形成正例数据;非父节点与子节点之间,形成反例数据。
5.根据权利要求2所述的方法,其特征在于,所述步骤31包括:
使用BERT中文向量模型作为词嵌入模块,将语料转换至向量空间;将正例数据与反例数据输入词嵌入模块,获得一组数据的两个词向量;将词嵌入模块中输出的一组数据的两个词向量连接;将连接后的词向量放入神经网络层进行训练,其中神经网络层由三层构成,其中第一层为全连接层,第二层为ReLU层,第三层为全连接层;模型的损失函数选择交叉熵损失函数。
6.根据权利要求2所述的方法,其特征在于,所述步骤32包括:
读取统一社会信用代码数据库,获取缺失所属行业的企业经营范围数据,并对获取的企业经营范围数据进行预处理,预处理之后的行业范围数据存入数据库中;其中,预处理包括去除企业经营范围数据中的括号以及括号内的数据。
7.根据权利要求2所述的方法,其特征在于,所述步骤33包括:
使用神经网络识别模型计算层次标签树节点分别与每个企业切分经营数据的节点分;基于每个节点分与判定阈值选择最优的层次标签树路径;通过层次标签路径得分方法计算路径得分; 基于层次标签树的路径得分判定所属行业。
8.根据权利要求7所述的方法,其特征在于,所述计算路径得分的公式为:
其中,q表示路径中的节点数,是路径中的第i个节点,/>是对于实例/>在节点被模型预测为真的概率,/>是节点/>的权重,其定义公式如下:
其中,表示节点标签/>在层次标签树的所在层次,即该节点的父节点层次加1,/>表示层次标签树中最长路径的长度。
9.根据权利要求7所述的方法,其特征在于,通过层次标签树路径得分判定企业所属行业的基准使用TOP3原则,即保留得分前三的路径。
10.一种基于层次标签树与神经网络的企业行业识别系统,其特征在于,包括:
第一构建模块,用于将国民经济行业分类数据,构建为层次标签树;
第二构建模块,用于根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;
计算模块,用于根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311465129.5A CN117216688B (zh) | 2023-11-07 | 2023-11-07 | 基于层次标签树与神经网络的企业行业识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311465129.5A CN117216688B (zh) | 2023-11-07 | 2023-11-07 | 基于层次标签树与神经网络的企业行业识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117216688A true CN117216688A (zh) | 2023-12-12 |
CN117216688B CN117216688B (zh) | 2024-01-23 |
Family
ID=89041217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311465129.5A Active CN117216688B (zh) | 2023-11-07 | 2023-11-07 | 基于层次标签树与神经网络的企业行业识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216688B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN108733778A (zh) * | 2018-05-04 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 对象的行业类型识别方法和装置 |
CN110009364A (zh) * | 2019-01-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种行业识别模型确定方法和装置 |
CN112182223A (zh) * | 2020-10-12 | 2021-01-05 | 浙江工业大学 | 一种基于领域本体的企业行业分类方法和系统 |
CN113298352A (zh) * | 2021-04-28 | 2021-08-24 | 北京网核精策科技管理中心(有限合伙) | 企业行业信息处理方法、装置、电子设备及可读存储介质 |
CN114090736A (zh) * | 2021-11-18 | 2022-02-25 | 西南科技大学 | 一种基于文本相似度的企业行业识别系统及识别方法 |
CN115455934A (zh) * | 2022-10-25 | 2022-12-09 | 西南科技大学 | 一种企业多种经营范围识别方法与系统 |
CN116089610A (zh) * | 2023-01-29 | 2023-05-09 | 北京百分点科技集团股份有限公司 | 一种基于行业知识的标签识别方法及装置 |
CN116975743A (zh) * | 2023-06-06 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 行业信息分类方法、装置、计算机设备和存储介质 |
-
2023
- 2023-11-07 CN CN202311465129.5A patent/CN117216688B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN108733778A (zh) * | 2018-05-04 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 对象的行业类型识别方法和装置 |
CN110009364A (zh) * | 2019-01-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种行业识别模型确定方法和装置 |
WO2020143377A1 (zh) * | 2019-01-08 | 2020-07-16 | 阿里巴巴集团控股有限公司 | 一种行业识别模型确定方法和装置 |
CN112182223A (zh) * | 2020-10-12 | 2021-01-05 | 浙江工业大学 | 一种基于领域本体的企业行业分类方法和系统 |
CN113298352A (zh) * | 2021-04-28 | 2021-08-24 | 北京网核精策科技管理中心(有限合伙) | 企业行业信息处理方法、装置、电子设备及可读存储介质 |
CN114090736A (zh) * | 2021-11-18 | 2022-02-25 | 西南科技大学 | 一种基于文本相似度的企业行业识别系统及识别方法 |
CN115455934A (zh) * | 2022-10-25 | 2022-12-09 | 西南科技大学 | 一种企业多种经营范围识别方法与系统 |
CN116089610A (zh) * | 2023-01-29 | 2023-05-09 | 北京百分点科技集团股份有限公司 | 一种基于行业知识的标签识别方法及装置 |
CN116975743A (zh) * | 2023-06-06 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 行业信息分类方法、装置、计算机设备和存储介质 |
Non-Patent Citations (7)
Title |
---|
AYTUG˘ ONAN: "Hierarchical graph-based text classification framework with contextual node embedding and BERT-based dynamic fusion", 《JOURNAL OF KING SAUD UNIVERSITY – COMPUTER AND INFORMATION SCIENCES 35 (2023)》, pages 1 - 18 * |
HAIXIA ZHOU 等: "An Enterprise Service Demand Classification Method Based on One-Dimensional Convolutional Neural Network with Cross-Entropy Loss and Enterprise Portrait", 《ENTROPY》, pages 1 - 13 * |
HEXIANG HU 等: "Learning Structured Inference Neural Networks with Label Relations", 《CVPR 2016》, pages 1 - 9 * |
WEI QIAN 等: "The implementation of leisure tourism enterprise management system based on deep learning", 《INT J SYST ASSUR ENG MANAG》, vol. 12, no. 4, pages 801 - 812, XP037503608, DOI: 10.1007/s13198-021-01103-0 * |
冯海 等: "基于大数据的四川省民营企业行业识别及信用画像关键技术研究", 《万方数据》, pages 1 - 73 * |
吴青芯: "四川省民营企业特征要素分析系统设计与实现", 《万方数据》, pages 1 - 70 * |
杨春明 等: "基于BERT-BLSTM-CRF的政务领域命名实体识别方法", 《西南科技大学学报》, vol. 35, no. 3, pages 86 - 91 * |
Also Published As
Publication number | Publication date |
---|---|
CN117216688B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415953B (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
Parundekar et al. | Linking and building ontologies of linked data | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN112765358A (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
CN112463971B (zh) | 一种基于层级组合模型的电商商品分类方法及系统 | |
CN101256631B (zh) | 一种字符识别的方法、装置 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN113535959B (zh) | 面向基层治理的事件自动分拨方法 | |
CN113282764B (zh) | 一种网络安全数据知识图谱构建方法及装置 | |
CN112819162A (zh) | 一种知识图谱三元组的质检方法 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Kurniawan et al. | Indonesian twitter sentiment analysis using Word2Vec | |
CN116244446A (zh) | 社交媒体认知威胁检测方法及系统 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN109446522A (zh) | 一种试题自动分类系统及方法 | |
CN117216688B (zh) | 基于层次标签树与神经网络的企业行业识别方法与系统 | |
CN112069825A (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN115048682B (zh) | 一种土地流转信息的安全存储方法 | |
CN117112794A (zh) | 一种基于知识增强的多粒度政务服务事项推荐方法 | |
CN113312903B (zh) | 一种5g移动业务产品词库的构建方法及系统 | |
CN113222018B (zh) | 一种图像分类方法 | |
CN102436472B (zh) | 一种基于关系机制的多类别web对象抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |