CN116975743A - 行业信息分类方法、装置、计算机设备和存储介质 - Google Patents
行业信息分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116975743A CN116975743A CN202310664581.8A CN202310664581A CN116975743A CN 116975743 A CN116975743 A CN 116975743A CN 202310664581 A CN202310664581 A CN 202310664581A CN 116975743 A CN116975743 A CN 116975743A
- Authority
- CN
- China
- Prior art keywords
- information
- sub
- category
- classification
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012545 processing Methods 0.000 claims abstract description 83
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 25
- 230000003993 interaction Effects 0.000 claims description 23
- 238000005065 mining Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000007499 fusion processing Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 23
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000012512 characterization method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 241000209140 Triticum Species 0.000 description 4
- 235000021307 Triticum Nutrition 0.000 description 4
- 240000008042 Zea mays Species 0.000 description 4
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 4
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 235000005822 corn Nutrition 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000005304 optical glass Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种行业分类方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取待分类的企业对象的经营范围信息和企业对象的父层级类别信息;并确定企业对象可被分类的子类别信息伪标签;针对每一子类别信息伪标签,基于经营范围信息和父层级类别信息,进行语义匹配处理,得到语义匹配结果;基于不同子类别信息伪标签各自的语义匹配结果,从分类信息伪标签中确定企业对象的子类别行业分类结果。本实施例中,通过在经营范围信息的基础上,结合父层级类别信息和子类别信息的层级关系来进行行业分类的语义匹配处理,继而从父层级类别信息下可分的子类别信息伪标签中识别出子类别行业分类结果,有效提高行业分类的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种行业信息分类方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着国民经济的发展,出现了行业分类的细分化,行业分类,是指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分,如林业,汽车业,银行业等。行业分类可以解释行业本身所处的发展阶段及其在国民经济中的地位。目前,新的国标行业分类准则按照分层次编码方法,将国民经济行业划分为门类、大类、中类和小类四级。然而,很多企业在注册的时候并不一定完全按照国标行业四级补充信息,这往往导致了中类和小类类别的缺失,从而影响企业经营信息的分析处理。
传统技术中,对于行业分类的处理,一般通过建立文本分类模型的方法来实现分类分析,然而这种分类方法依赖于经营范围信息的文本内容,分类准确率较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升分类准确率的行业信息方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种行业分类方法。所述方法包括:
获取待分类的企业对象的经营范围信息和所述企业对象的父层级类别信息;
基于所述父层级类别信息,确定所述企业对象可被分类的子类别信息伪标签;
针对每一所述子类别信息伪标签,基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果;
基于不同子类别信息伪标签各自的语义匹配结果,从所述分类信息伪标签中确定所述企业对象的子类别行业分类结果。
第二方面,本申请还提供了一种行业分类装置。所述装置包括:
信息获取模块,用于获取待分类的企业对象的经营范围信息和所述企业对象的父层级类别信息;
伪标签查找模块,用于基于所述父层级类别信息,确定所述企业对象可被分类的子类别信息伪标签;
语义匹配模块,用于针对每一所述子类别信息伪标签,基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果;
行业分类模块,用于基于不同子类别信息伪标签各自的语义匹配结果,从所述分类信息伪标签中确定所述企业对象的子类别行业分类结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类的企业对象的经营范围信息和所述企业对象的父层级类别信息;
基于所述父层级类别信息,确定所述企业对象可被分类的子类别信息伪标签;
针对每一所述子类别信息伪标签,基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果;
基于不同子类别信息伪标签各自的语义匹配结果,从所述分类信息伪标签中确定所述企业对象的子类别行业分类结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类的企业对象的经营范围信息和所述企业对象的父层级类别信息;基于所述父层级类别信息,确定所述企业对象可被分类的子类别信息伪标签;
针对每一所述子类别信息伪标签,基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果;
基于不同子类别信息伪标签各自的语义匹配结果,从所述分类信息伪标签中确定所述企业对象的子类别行业分类结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待分类的企业对象的经营范围信息和所述企业对象的父层级类别信息;
基于所述父层级类别信息,确定所述企业对象可被分类的子类别信息伪标签;
针对每一所述子类别信息伪标签,基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果;
基于不同子类别信息伪标签各自的语义匹配结果,从所述分类信息伪标签中确定所述企业对象的子类别行业分类结果。
上述行业分类方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待分类的企业对象的经营范围信息和企业对象的父层级类别信息。首先需要获取企业对象的经营范围信息和已知的父层级类别信息来作为行业分类的基础数据,从而预测后续的分类类别,并基于父层级类别信息,确定企业对象可被分类的子类别信息伪标签;即确定当前的父层级类别信息下的可分的子类别信息伪标签,而后针对每一子类别信息伪标签,基于经营范围信息和父层级类别信息,对子类别信息伪标签进行语义匹配处理,得到子类别信息伪标签的语义匹配结果;将经营范围信息、父层级类别信息和每个子类别信息伪标签都进行语义匹配,确定各个子类别信息伪标签是否符合经营范围信息与父层级类别信息的语义要求。最后基于不同子类别信息伪标签各自的语义匹配结果,从分类信息伪标签中确定企业对象的子类别行业分类结果。即从不同子类别信息伪标签各自的语义匹配结果中,确定符合经营范围信息与父层级类别信息语义要求的子类别信息伪标签,得到子类别行业分类结果。本实施例中,通过在经营范围信息的基础上,结合父层级类别信息和子类别信息的层级关系来进行行业分类的语义匹配处理,继而从父层级类别信息下可分的子类别信息伪标签中识别出子类别行业分类结果,有效提高行业分类的准确性。
附图说明
图1为一个实施例中行业分类方法的应用环境图;
图2为一个实施例中行业分类方法的流程示意图;
图3为一个实施例中BERT模型的结构示意图;
图4为一个实施例中语义匹配模型的结构示意图;
图5为一个实施例中门控循环单元的结构示意图;
图6为一个实施例中现有方案1的模型结构示意图;
图7为一个实施例中现有方案2的模型结构示意图;
图8为另一个实施例中行业分类方法的流程示意图;
图9为一个实施例中行业分类装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
申请涉及人工智能(Artificial Intelligence,AI)技术,它是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请具体涉及人工智能技术中的自然语言处理(Nature Language processing,NLP)技术和机器学习技术(Machine Learning,ML)。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本文中,需要理解的是,所涉及的术语:
文本分类:是文本处理很重要的组成之一,目的是用计算机对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
多任务学习:是指同时学习多个属于不同领域的任务,并通过特定任务的领域信息提高泛化能力。多任务学习可以通过硬参数共享,即不同的任务共享一部分的模型参数来实现。
语义匹配:在语义上计算两段文本的相似度。
基于变换器的双向编码表征网络(Bidirectional Encoder Representationfrom Transformers,BERT):利用文本的左、右语境来预训练深度双向神经网络的表征,在微调阶段,仅需要少量标注数据即可完成特定任务的训练。
全连接层:是每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。全连接层可以作为分类起器用。
循环神经网络(Recurrent Neural Network,RNN):是一类以序列数据作为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。
门控循环单元(Gated Recurrent Unit,GRU):是RNN的一个变种,相比于RNN,更好地解决长期记忆和反向传播中的梯度等问题。
本申请实施例提供的行业分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。当终端102方的用户希望通过原始的企业对象的经营范围信息和父层级类别信息来对企业对象进行分类处理时,可以提交企业对象的经营范围信息和父层级类别信息至服务器104,以通过服务器104来进行相应的分类处理,而服务器104在获取到企业对象的经营范围信息和父层级类别信息后,会基于父层级类别信息,确定企业对象可被分类的子类别信息伪标签;对经营范围信息、父层级类别信息和子类别信息伪标签进行语义匹配处理,得到子类别信息伪标签的语义匹配结果;基于不同子类别信息伪标签各自的语义匹配结果,从分类信息伪标签中确定企业对象的子类别行业分类结果。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种行业分类方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤201,获取待分类的企业对象的经营范围信息和企业对象的父层级类别信息。
其中,企业对象是本申请行业分类方法的分类目标,本申请的行业分类方法即为按照行业分类标准,对企业对象的经营内容进行分类,得到其相应的分类结果,经营范围是指允许企业生产和经营的商品类别、品种及服务项目,反映企业业务活动的内容和生产经营方向,是企业业务活动范围的法律界限,体现企业民事权利能力和行为能力的核心内容,经营范围是企业可以从事的生产经营与服务项目,是进行公司注册申请时的必填项。此外,因为企业的企业名称也可以反映企业的经营范围,因此可以将企业名称也作为一个经营范围信息。经营范围能在一定程度上反映企业对象,而且该信息也是公司注册申请时的必填项,因此可以基于经营范围信息来对分类对象的具体行业进行分类。父层级类别信息是指在多层级的行业分类结构中更高层级的类别信息,例如对于最新的国标行业分类准则,其按照分层次编码方法,将国民经济行业划分为门类、大类、中类和小类四级。例如对于一个稻谷种植类的企业,其按照国标行业分类准则,可以分类确定为门类-农、林、牧、渔业,大类-农业,中类-谷物种植,小类-稻谷种植。因此,相对于大类,门类为父层级类别信息,相对于种类,门类和大类为父层级类别信息,相对于小类,则门类、大类和中类为父层级类别信息。
具体地,本申请的方案主要用于实现行业分类,当终端102方的用户需要对某个企业进行细致的行业分类时,可以通过本申请的行业分类方法来实现行业分类。首先,终端102可以向服务器104发送用于行业分类的已知信息,包括企业对象的经营范围信息和已知的父层级类别信息,其中企业的经营范围信息可以在得知企业名称后,查找该企业对应的经营范围得到,同时查找到的还可以包含其已经公开的父层级类别信息,例如已知企业对象的门类和大类,希望确定该企业对象的中类和小类,已知企业对象的门类、大类和中类,希望确定该企业对象的小类等。因此终端可以将包含企业名称在内的企业对象的经营范围信息、以及已经查找到的父层级类别信息提交至服务器104。而服务器104则获取企业对象的经营范围信息和父层级类别信息。在其中一个实施例中,本申请具体应用于国标行业分类准则下的行业细分,由于很多企业在注册的时候并不一定完全按照国标行业四级补充信息,这往往导致了中类和小类类别的缺失。因此可以通过本申请的行业分类方法来补充中类和小类的行业分类信息,有效地挖掘企业的经营信息。
步骤203,基于父层级类别信息,确定企业对象可被分类的子类别信息伪标签。
其中,企业对象可被分类的子类别信息伪标签指的是当前父层级类别信息下,下一级可以被分配的对象。例如对于已知的父层级类别信息为门类的情况,则其对应的子类别信息伪标签为当前门类下所有的大类。对已知的父层级类别信息为门类和大类的情况,则其对应的子类别信息伪标签为当前大类下所有的中类。
具体地,本申请的方案通过语义匹配的方法来实现行业分类,因此在分类处理的过程中,每次都需要将确定的经营范围信息、父层级类别信息和一个子类别信息伪标签进行语义匹配处理,确定该子类别信息伪标签是否符合经营范围信息和父层级类别信息的要求,因此子类别为未确定的伪标签,只有在语义匹配确定后才可以将匹配得到的子类别信息伪标签作为真正的子类别行业分类结果。例如在其中一个实施例中,按照国标行业分类准则,可以将企业对象分类确定为门类-农、林、牧、渔业,大类-农业,中类-谷物种植,此时为了确定该企业对象分类的小类,可以将谷物种植下可被分类的稻谷种植、小麦种植、玉米种植等作为子类别信息伪标签,而后依次基于这些子类别信息伪标签来进行语义匹配的处理。
步骤205,针对每一子类别信息伪标签,基于经营范围信息和父层级类别信息,对子类别信息伪标签进行语义匹配处理,得到子类别信息伪标签的语义匹配结果。
其中,语义匹配处理是自然语言处理的一种方式,其可以在语义上计算两段文本的相似度,本申请的方案中具体可以将经营范围信息和父层级类别信息的文本内容拼接为一段文本,并将子类别信息伪标签作为另一段文本,然后通过语义匹配来计算这两段文本之间的相似度。语义匹配结果则是语义匹配处理得到的结果,可以通过语义匹配结果来确定子类别信息伪标签是否为当前企业对象的分类结果。在具体的实施例中,语义匹配结果可以用0和1表示,当语义匹配结果为0时,说明当前的子类别信息伪标签与经营范围信息和父层级类别信息不匹配,无法作为企业对象的分类类别,而当语义匹配结果为1时,说明当前的子类别信息伪标签与经营范围信息和父层级类别信息匹配,可以作为企业对象的分类类别。
具体地,本申请的方案通过语义匹配的方式来实现行业分类,因此在分类过程中可以将已知的经营范围信息和父层级类别信息、和确定的各个子类别信息伪标签进行对比,从而从各个子类别信息伪标签中,确定能与企业对象的经营范围信息和父层级类别信息相匹配的一个或者多个子类别信息伪标签,从而得到针对企业对象的分类结果。在其中一个实施例中,具体可以通过训练完成的语义匹配模型来进行语义匹配的处理,而语义匹配模型则可以通过历史数据中的企业分类数据训练得到。而语义匹配模型则可以基于BERT编码器和门控循环单元实现,其中BERT编码器用于提取文本语义,而BERT编码器的下游接入不同的GRU层和分类层,达到多任务学习的目的,从而针对不同层级的父层级类别信息下的各个分级类别下的分类处理。BERT的结构可以参照图3所示。
步骤207,基于不同子类别信息伪标签各自的语义匹配结果,从分类信息伪标签中确定企业对象的子类别行业分类结果。
具体地,在对企业对象可被分类的子类别信息伪标签都进行一次语义匹配后,就可以从这些可被分类的子类别信息伪标签中,筛选出能够与经营范围信息和父层级类别信息匹配的子类别信息伪标签,并将筛选出的子类别信息伪标签作为最终的子类别行业分类结果。在其中一个实施例中,按照国标行业分类准则,基于已知的经营范围信息和父层级类别信息,可以将企业对象分类确定为门类-农、林、牧、渔业,大类-农业,中类-谷物种植。而谷物种植下可被分类的稻谷种植、小麦种植、玉米种植等作为小类的子类别信息伪标签,在通过语义匹配后,确定小麦种植和玉米种植与企业对象的已知信息匹配。此时可以确定企业对象的小类分类结果为小麦种植和玉米种植。
上述行业分类方法,通过获取待分类的企业对象的经营范围信息和企业对象的父层级类别信息。首先需要获取企业对象的经营范围信息和已知的父层级类别信息来作为行业分类的基础数据,从而预测后续的分类类别,并基于父层级类别信息,确定企业对象可被分类的子类别信息伪标签;即确定当前的父层级类别信息下的可分的子类别信息伪标签,而后针对每一子类别信息伪标签,基于经营范围信息和父层级类别信息,对子类别信息伪标签进行语义匹配处理,得到子类别信息伪标签的语义匹配结果;将经营范围信息、父层级类别信息和每个子类别信息伪标签都进行语义匹配,确定各个子类别信息伪标签是否符合经营范围信息与父层级类别信息的语义要求。最后基于不同子类别信息伪标签各自的语义匹配结果,从分类信息伪标签中确定企业对象的子类别行业分类结果。即从不同子类别信息伪标签各自的语义匹配结果中,确定符合经营范围信息与父层级类别信息语义要求的子类别信息伪标签,得到子类别行业分类结果。本实施例中,通过在经营范围信息的基础上,结合父层级类别信息和子类别信息的层级关系来进行行业分类的语义匹配处理,继而从父层级类别信息下可分的子类别信息伪标签中识别出子类别行业分类结果,有效提高行业分类的准确性。
在一个实施例中,步骤205包括:对经营范围信息、父层级类别信息和子类别信息伪标签进行特征编码处理,得到经营范围特征、分类标签特征和伪标签特征;通过门控循环单元对经营范围特征、分类标签特征和伪标签特征进行特征融合处理,得到分类融合特征;基于对分类融合特征进行全连接处理得到的输出数据,确定分类信息伪标签的语义匹配结果。
其中,特征编码处理是指将文本形式的经营范围信息和父层级类别信息转换为特征向量的处理过程,在本申请的方案中,特征编码过程具体可以通过BERT编码器实现。门控循环单元即GRU单元,本申请中考虑到行业分级过程中分类的层级关系,通过加入GRU层,对经营范围特征、分类标签特征和伪标签特征进行特征融合处理,从而建模这种分类的层级信息。全连接处理则是通过全连接层与上一层的结点相连,把前边提取到的特征综合起来处理方式,通过全连接层可以输出最终的语义匹配结果。
具体地,本申请的方案中通过机器学习的方式来实现语义匹配处理,因此先通过编码器层对经营范围信息、父层级类别信息和子类别信息伪标签进行特征编码处理,得到经营范围特征、分类标签特征和伪标签特征,在得到各类特征后,则可通过后续的门控循环单元对经营范围特征、分类标签特征和伪标签特征进行特征融合处理,得到分类融合特征,最后再通过全连接层对融合后的所有特征进行一次全连接处理得到的输出数据,确定分类信息伪标签的语义匹配结果。在其中一个实施例中,本申请的方案应用于基于国标行业分类准则的分类处理过程中,企业对象为xxx光学眼镜有限公司,编码器层通过BERT编码器实现,此时本方案的处理过程可以参照图4所示。其中,输入的“scope”、“lb1”、“lb2”、“lb3”、“lb4”分别代表了融合企业名称的营业范围、门类、大类、中类和小类。若是用于预测大类,则“lb2”为伪标签,“lb3”和“lb4”则分别用“[unused1]”和“[unused2]”占位符替代。若是用于预测中类,则“lb3”为伪标签,“lb4”用“[unused1]”占位符替代。若是用于预测小类,则“lb4”为伪标签。不同的文本将用“[SEP]”标志进行分隔,并在文本开头添加“[CLS]”标志。具体的中类伪标签和小类伪标签的输入数据形式可以参照下表1所示:
表1:语义匹配过程的数据输入格式示意表
当输入数据经过BERT编码器后即可得到隐藏层的表达,而标签空间为1/0,分别表示匹配成功/匹配失败。通过这种方式,成功将分类模型转换成语义匹配模型。此外,还可以分别对经营范围特征、分类标签特征和伪标签特征进行平均池化处理,分别对“[CLS]”、“scope”、“lb1”、“lb2”、“lb3”、“lb4”使用平均池化。而后再通过门控循环单元对平均池化处理后的经营范围特征、分类标签特征和伪标签特征进行特征融合处理,得到分类融合特征,通过平均池化来得到个特征基于跨度的表征,可以有效提高特征匹配过程的准确性。
在一个实施例中,通过门控循环单元对经营范围特征、分类标签特征和伪标签特征进行特征融合处理,得到分类融合特征包括:获取原始分类标签特征;确定分别用于输入经营范围特征、分类标签特征和伪标签特征的各门控循环单元;基于各门控循环单元依次对原始分类标签特征进行双向的特征交互处理,得到分类融合特征。
其中,门控循环单元的结构可以参照图5所示,其用门控机制控制输入、记忆等信息而在当前时间步做出预测。具体通过上一个传输下来的状态ht-1和当前节点的输入xt来获取两个门控状态,而原始分类标签特征则指的是状态h0。GRU有两个门,即一个重置门(reset gate)和一个更新门(update gate)。重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。
具体地,在通过门控循环单元对经营范围特征、分类标签特征和伪标签特征进行特征融合处理的过程中,通过双向的门控循环单元网络来实现对经营范围特征、分类标签特征和伪标签特征等各个特征的交互处理,从而进一步学习营业范围和国标行业标签的表征的交互,并且建模标签之间的层级关系。如图4所示,图4方案中的模型具体用于实现中类和小类的行业分类,因此在得到特征编码数据后,通过使用两个双向GRU层,进一步学习营业范围和国标行业标签的表征的交互,并且建模标签之间的层级关系。即在特征融合的过程中,通过经营范围特征、分类标签特征和伪标签特征对应的门控循环单元依次对原始分类标签特征进行双向的特征交互处理,得到分类交互特征;而后确定分类标签特征和伪标签特征的层级关系;在分类交互特征中融合层级关系,得到分类融合特征,在图4所示的方案中,一个双向的GRU层用于建模国标行业中类和其他表征的关系,另外一个双向的GRU层用于建模国标行业小类和其他表征的关系。因此仅需要一个模型就能实现行业分类过程中的中类分类和小类分类,相比起现有的使用不同模型实现的方式,这种利用多任务学习的方式,不仅能减少模型的数量,节约成本,而且通过在分类交互特征中融合层级关系,能利用多任务之间的有效交互,从而提升模型的泛化性能。本实施例中,通过经营范围特征、分类标签特征和伪标签特征对应的门控循环单元依次对原始分类标签特征进行双向的特征交互处理,可以有效地实现经营范围信息和各层级下行业分类信息表征的交互,从而提高行业分类过程的准确率。
在其中一个实施例中,方法还包括:基于子类别行业分类结果更新企业对象的父层级类别信息;确定更新后的父层级类别信息对应的子类别行业分类结果。
具体地,本申请的方案具体应用于多层级行业分类,当得到子类别行业分类结果后,即可更新当前企业对象的父层级类别信息,从而继续通过本申请的行业分类方法来得到更新后的父层级类别信息对应的子类别行业分类结果。例如在其中一个实施例中,本申请的方案应用于国标的行业四级分类标准下的分类处理,在已知企业对象的经营范围信息和门类类别的情况下,可以基于经营范围信息和门类类别,预测得到门类下的大类类别,而后基于大类类别更新父层级类别信息,在基于更新后的父层级类别信息结合大类类别可被分类的中类类别信息来预测中类类别。在得到中类类别后,则可再基于中类类别更新父层级类别信息,从而预测中类类别下的小类类别。本实施例中,通过父层级类别信息的更新,可以有效的在已知的经营范围信息和父层级类别信息的基础上,预测父层级类别后续各个级别的行业分类结果,从而保证分类处理的准确性。
在一个实施例中,步骤205包括:将经营范围信息、父层级类别信息和子类别信息伪标签输入语义匹配模型;通过语义匹配模型对经营范围信息、父层级类别信息和子类别信息伪标签进行语义匹配处理,得到子类别信息伪标签的语义匹配结果。
具体地,本申请的方案可以通过预先构建语义匹配模型的方式来实现行业分类处理,在构建完语义匹配模型后,可以将经营范围信息、父层级类别信息和子类别信息伪标签等文本信息输入到语义匹配模型中,通过训练完成的语义匹配模型来完成对这些信息的特征编码和特征融合等处理,最后输出子类别信息伪标签的语义匹配结果。在一个实施例中,语义匹配模型具体可以参照图4所示,包括了基于变换器的双向编码表征网络(BERT)的特征编码层、片段抽取层、循环神经单元层和全连接层。在将经营范围信息、父层级类别信息和子类别信息伪标签输入语义匹配模型后,先通过特征编码层来对这些信息进行特征编码,而后在片段抽取层中进行片段抽取并使用平均池化,得到了基于跨度的表征,而后再将这些特征信息输入到循环神经单元层中进行处理,实现经营范围信息和各个级别下行业类别信息表征的交互,并且建模各个行业类别信息之间的层级关系,最后通过全连接层综合这些信息,得到最终的预测结果。本实施例中,通过预先训练的语义匹配模型来实现行业分类过程中的语义匹配处理,可以有效保证语义匹配处理的效率与准确性。
在一个实施例中,方法还包括:获取历史数据中的各企业的经营范围信息和行业类别信息;基于历史数据中的各企业的经营范围信息和行业类别信息构建不同层级的匹配模型训练数据;通过不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型。
其中,历史数据中的各企业的行业类别信息是指基于历史信息已经确认的部分企业的行业类别信息,这部分行业类别信息是完整的信息,因此可以基于这些已知的行业类别信息来构建模型标签,实现对初始语义匹配模型的训练。不同层级的匹配模型训练数据是指基于行业分类的需求而设置的不同层级下的模型训练数据,例如对于国标行业四级分类标准,而行业分类需要针对其中的中类和小类进行分类,此时可以分别构建出中类下的匹配模型训练数据和小类下的匹配模型训练数据。
具体地,本申请的方法在通过语义匹配模型实现语义匹配处理之前,先完成对语义匹配模型的训练处理过程,这一过程需要预先构造出模型训练数据。因此,可以先获取历史数据中的各企业的经营范围信息和行业类别信息;而后根据行业分类的需求,基于历史数据中的各企业的经营范围信息和行业类别信息构建出不同层级的匹配模型训练数据。再基于这些不同层级的匹配模型训练数据来对初始语义匹配模型进行有监督的训练,得到所需的语义匹配模型。例如对于国标行业四级分类标准,如果需要训练中用于中类分类和小类分类的模型,则可以训练模型的时候,将中类标签的匹配模型训练数据和小类标签的匹配模型训练数据同步喂给模型进行训练,但是在推理过程中,由于推理小类标签的时候需要已知其中类标签,因此在推理的时候采用逐步推理的方式,即模型先预测了企业的中类标签,然后再预测企业的小类标签。在具体地训练过程中,还可以将模型训练数据分为训练集数据和测试集数据,通过训练集数据来不断的迭代更新模型,而后有测试集数据来对模型的分类效果进行判别,当模型针对测试集数据的分类准确性达到阈值要求时,即可输出最终的语义匹配模型。在一个实施例中,初始语义匹配模型的损失函数可以由子类别行业分类结果的损失权重构成,在训练过程中可以先获取不同层级的子类别行业分类结果的损失权重;基于不同层级的子类别行业分类结果的损失权重构建匹配模型损失函数;基于匹配模型损失函数,通过不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型。例如对于国标行业四级分类标准,如果需要对其中的中类和小类进行分类的话,可以对这两个分类任务的损失各自分配一定的损失权重,这个损失权重可以是学习得到的,也可以是根据先验知识得到的。例如在其中一个实施例中,采用逐步推理的方式来分配权重,即如果中类标签分类错误的情况下,小类标签也一定错误。基于此先验知识,本申请按照2:1的权重分别对中类和小类标签设置损失函数,希望给予中类错误分类更大的惩罚。因此匹配模型的损失函数可以写作:
L(W)=2*L1(W)+L2(W)
其中,L1(W)和L2(W)分别是中类和小类标签匹配任务的损失函数,L(W)是总的损失函数。再基于匹配模型损失函数,通过不同层级的匹配模型训练数据对初始语义匹配模型进行训练,即可得到最终的语义匹配模型。本实施例中,通过结合不同层级的子类别行业分类结果的损失权重来构建匹配模型损失函数,并在此基础上进行匹配模型的训练,可以有效保证所得匹配模型针对不同层级下分类任务的分类准确性。
在其中一个实施例中,方法还包括:基于企业对象的父层级类别信息和子类别行业分类结果得到企业对象的行业标签;通过包含行业标签的企业画像信息对企业对象进行信息挖掘处理,得到企业对象的挖掘信息。
其中,行业标签是指企业画像技术中为企业对象分配的标签信息,用于表征企业对象涉及的经营行业。信息挖掘即网络信息挖掘,它是数据挖掘技术在网络信息处理中的应用。网络信息挖掘是从大量训练样本的基础上得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。网络信息挖掘技术沿用了Robot、全文检索等网络信息检索中的优秀成果,同时以知识库技术为基础,综合运用人工智能、模式识别、神经网络领域的各种技术。应用网络信息挖掘技术的智能搜索引擎系统能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。
具体地,本申请的方案可以在对企业对象进行细致分类后,来为基于企业对象的父层级类别信息和子类别行业分类结果,为企业对象赋予相应的行业标签,而后通过包含行业标签的企业画像信息对企业对象进行信息挖掘处理,得到企业对象的挖掘信息,通过包含行业标签的企业画像信息对企业对象进行信息挖掘处理,相对比缺少行业标签的企业画像信息,能更有效地进行行业相关的企业信息挖掘,保证所得企业对象的挖掘信息完备性。通过提高企业行业标签的覆盖度,尤其对于信息不全的中小企业,将极大程度丰富这些企业的画像;其次,行业标签作为企业画像最重要的维度第一,每提升一点性能,都将极大地提升下游任务的准确性。本实施例中,通过行业标签来填充企业对象的企业画像信息,从而进行有效地信息挖掘处理,并保证挖掘信息的丰富度。
在一个实施例中,方法还包括:获取不同企业对象的子类别行业分类结果;基于不同企业对象的子类别行业分类结果得到子类别行业的企业信息;基于子类别行业的企业信息得到子类别行业的行业分析信息。
具体地,在得到子类别行业分类结果后,除了可以对企业对象进行信息挖掘外,还可以基于不同企业对象的子类别行业分类结果来进行相关行业的行业分析处理。首先,可以圈定一部分企业对象来进行分析,得到不同企业对象的子类别行业分类结果。而后将包含相同子类别行业的企业分配到同一类下,确定子类别行业下各个企业的企业信息。通过所有子类别行业下的企业信息即可实现该子类别行业的行业分析信息,例如不同的企业对象的市场占比、销售额占比和利润率排行。本实施例中,通过不同企业对象的子类别行业分类结果来进行相关的行业分析,可以有效地实现针对不同子类别行业的行业分析,提高行业分析的覆盖面。
本申请还提供一种应用场景,该应用场景应用上述的行业分类方法。具体地,该行业分类方法在该应用场景的应用如下:
当用户需要针对某个区域内的企业进行分析,以得到区域内企业的分析数据时,可以通过本申请的行业分类来按照四级的国标行业分类准则,对这些企业进行细致的分类。在分类时,可以先对分类模型进行训练,由于企业信息都会包含四级分类中的门类和大类,因此可以训练出针对中类和小类的语义匹配模型来进行分类处理。首先,获取历史数据中的各企业的经营范围信息和行业类别信息,行业类别信息包含了从大类到小类完整的四级分类信息。而后基于历史数据中的各企业的经营范围信息和行业类别信息构建不同层级的匹配模型训练数据,即包含中类标签的模型训练数据和小类标签的模型训练数据;而后通过这些不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型。其中,中类标签的模型训练数据和小类标签的模型训练数据对应了不同的损失权重,可以基于这两者不同的损失权重构建语义匹配模型的匹配模型损失函数,而后再由这个匹配模型损失函数来实现语义匹配模型的训练,得到可用的语义匹配模型。而后将区域内的企业作为待分类的企业对象,并获取这些待分类的企业对象的经营范围信息和企业对象的门类信息和大类信息,而后针对每个企业对象,基于其门类信息和大类信息,确定大类信息下企业对象可被分类的中类类别伪标签,针对每一中类类别伪标签,都可以通过训练完成的语义匹配模型来基于经营范围信息和和父层级类别信息,对中类类别伪标签进行语义匹配处理,得到各个中类信息伪标签的语义匹配结果,最后则可以基于中类信息伪标签的语义匹配结果,得到企业对象的中类行业分类结果,而后则可根据待分类的企业对象的经营范围信息和企业对象的门类、大类和中类,来企业对象的小类行业类别进行分类处理。
在语义匹配的过程中,具体可以通过BERT编码层对经营范围信息、门类信息、大类信息和中类信息伪标签进行特征编码处理,得到经营范围特征、门类标签特征、大类标签特征和伪标签特征。通过门控循环单元对经营范围特征、门类标签特征、大类标签特征和伪标签特征进行特征融合处理,得到分类融合特征;最后基于对分类融合特征进行全连接处理得到的输出数据,确定中类信息伪标签的语义匹配结果。
最后,针对所有企业对象的中类分类和小类分类都完成后,则可以基于分类结果来为企业对象分配行业标签,并据此对这些企业进行行业相关的分析。
通过本申请的行业分类方法可以挖掘国标行业中缺失的中类和小类信息,能够弥补信息不全的空白,从而输出企业完整的国标行业四级分类结果,包括已经包含的门类和大类类别,以及模型挖掘的中类和小类类别。具体的示例如下表,其中,下划线表示行业分类的结果。
表2:行业分类结果表
本方案对比了诸多基线模型,以及分别用两个模型训练和预测中类和小类两个任务的方案(记为“仅中类”和“仅小类”)。实验结果如下表所示,其中单位都进行了百分比转换。
表3分类模型对比结果表
本申请的行业分类方法借助于输入变换和建模方法的优势,显著好于如图6所示的直接将营业范围作为输入文本通过BERT作为编码器,全连接层作为分类器,映射到新标签的现有方案1,和如图7所示的接将经营范围作为输入文本和伪标签进行拼接,然后使用BERT作为编码器,全连接层作为分类器的现有方案2。同时,本申请利用了多任务学习,不仅能减少模型的数量,节约成本,而且能利用多任务之间的有效交互,提升模型的泛化性能。从业务层考虑,首先本申请能极大地提高企业行业标签的覆盖度,尤其对于信息不全的中小企业,将极大程度丰富这些企业的画像;其次,行业标签作为企业画像最重要的维度第一,每提升一点性能,都将极大地提升下游任务的准确性。
在一个实施例中,本申请的行业分类方法的完整流程可以参照图8所示,包括:
步骤801,获取待分类的企业对象的经营范围信息和企业对象的父层级类别信息。步骤803,基于父层级类别信息,确定企业对象可被分类的子类别信息伪标签。步骤805,针对每一子类别信息伪标签,对经营范围信息、父层级类别信息和子类别信息伪标签进行特征编码处理,得到经营范围特征、分类标签特征和伪标签特征。步骤807,获取原始分类标签特征。步骤809,确定分别用于输入经营范围特征、分类标签特征和伪标签特征的各门控循环单元。步骤811,基于各门控循环单元依次对原始分类标签特征进行双向的特征交互处理,得到分类融合特征。步骤813,基于对分类融合特征进行全连接处理得到的输出数据,确定分类信息伪标签的语义匹配结果。步骤815,基于企业对象的父层级类别信息和子类别行业分类结果得到企业对象的行业标签。步骤817,通过包含行业标签的企业画像信息对企业对象进行信息挖掘处理,得到企业对象的挖掘信息。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的行业分类方法的行业分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个行业分类装置实施例中的具体限定可以参见上文中对于行业分类方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种行业分类装置,包括:
信息获取模块902,用于获取待分类的企业对象的经营范围信息和企业对象的父层级类别信息。
伪标签查找模块904,用于基于父层级类别信息,确定企业对象可被分类的子类别信息伪标签。
语义匹配模块906,用于针对每一子类别信息伪标签,基于经营范围信息和父层级类别信息,对子类别信息伪标签进行语义匹配处理,得到子类别信息伪标签的语义匹配结果。
行业分类模块908,用于基于不同子类别信息伪标签各自的语义匹配结果,从分类信息伪标签中确定企业对象的子类别行业分类结果。
在一个实施例中,语义匹配模块906具体用于:对经营范围信息、父层级类别信息和子类别信息伪标签进行特征编码处理,得到经营范围特征、分类标签特征和伪标签特征;通过门控循环单元对经营范围特征、分类标签特征和伪标签特征进行特征融合处理,得到分类融合特征;基于对分类融合特征进行全连接处理得到的输出数据,确定分类信息伪标签的语义匹配结果。
在一个实施例中,语义匹配模块906具体用于:获取原始分类标签特征;确定分别用于输入经营范围特征、分类标签特征和伪标签特征的各门控循环单元;基于各门控循环单元依次对原始分类标签特征进行双向的特征交互处理,得到分类融合特征。
在一个实施例中,语义匹配模块906具体用于:基于各门控循环单元依次对原始分类标签特征进行双向的特征交互处理,得到分类交互特征;确定分类标签特征和伪标签特征的层级关系;在分类交互特征中融合层级关系,得到分类融合特征。
在一个实施例中,语义匹配模块906还包括池化处理单元:分别对经营范围特征、分类标签特征和伪标签特征进行平均池化处理。语义匹配模块906具体用于:通过门控循环单元对平均池化处理后的经营范围特征、分类标签特征和伪标签特征进行特征融合处理,得到分类融合特征。
在一个实施例中,还包括类别信息更新模块,用于:基于子类别行业分类结果更新企业对象的父层级类别信息;确定更新后的父层级类别信息对应的子类别行业分类结果。
在一个实施例中,语义匹配模块906具体用于:将经营范围信息、父层级类别信息和子类别信息伪标签输入语义匹配模型;通过语义匹配模型对经营范围信息、父层级类别信息和子类别信息伪标签进行语义匹配处理,得到子类别信息伪标签的语义匹配结果。
在一个实施例中,还包括模型训练模块,用于:获取历史数据中的各企业的经营范围信息和行业类别信息,行业类别信息包含至少两个层级的行业类别;基于历史数据中的各企业的经营范围信息和行业类别信息构建不同层级的匹配模型训练数据;通过不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型。
在一个实施例中,模型训练模块具体用于:获取不同层级的子类别行业分类结果的损失权重;基于不同层级的子类别行业分类结果的损失权重构建匹配模型损失函数;基于匹配模型损失函数,通过不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型。
在一个实施例中,还包括信息挖掘模块,用于:基于企业对象的父层级类别信息和子类别行业分类结果得到企业对象的行业标签;通过包含行业标签的企业画像信息对企业对象进行信息挖掘处理,得到企业对象的挖掘信息。
在一个实施例中,还包括数据分析模块,用于:获取不同企业对象的子类别行业分类结果;基于不同企业对象的子类别行业分类结果得到子类别行业的企业公开信息;基于子类别行业的企业公开信息得到子类别行业的行业分析信息。
上述行业分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储行业分类相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行业分类方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种行业分类方法,其特征在于,所述方法包括:
获取待分类的企业对象的经营范围信息和所述企业对象的父层级类别信息;
基于所述父层级类别信息,确定所述企业对象可被分类的子类别信息伪标签;
针对每一所述子类别信息伪标签,基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果;
基于不同子类别信息伪标签各自的语义匹配结果,从所述分类信息伪标签中确定所述企业对象的子类别行业分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果包括:
对所述经营范围信息、所述父层级类别信息和所述子类别信息伪标签进行特征编码处理,得到经营范围特征、分类标签特征和伪标签特征;
通过门控循环单元对所述经营范围特征、所述分类标签特征和所述伪标签特征进行特征融合处理,得到分类融合特征;
基于对所述分类融合特征进行全连接处理得到的输出数据,确定所述分类信息伪标签的语义匹配结果。
3.根据权利要求2所述的方法,其特征在于,所述通过门控循环单元对所述经营范围特征、所述分类标签特征和所述伪标签特征进行特征融合处理,得到分类融合特征包括:
获取原始分类标签特征;
确定分别用于输入所述经营范围特征、所述分类标签特征和所述伪标签特征的各门控循环单元;
基于各所述门控循环单元依次对所述原始分类标签特征进行双向的特征交互处理,得到分类融合特征。
4.根据权利要求3所述的方法,其特征在于,所述基于各所述门控循环单元依次对所述原始分类标签特征进行双向的特征交互处理,得到分类融合特征包括:
基于各所述门控循环单元依次对所述原始分类标签特征进行双向的特征交互处理,得到分类交互特征;
确定所述分类标签特征和所述伪标签特征的层级关系;
在所述分类交互特征中融合所述层级关系,得到分类融合特征。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
分别对所述经营范围特征、所述分类标签特征和所述伪标签特征进行平均池化处理;
所述通过门控循环单元对所述经营范围特征、所述分类标签特征和所述伪标签特征进行特征融合处理,得到分类融合特征包括:
通过门控循环单元对平均池化处理后的所述经营范围特征、所述分类标签特征和所述伪标签特征进行特征融合处理,得到分类融合特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述子类别行业分类结果更新所述企业对象的父层级类别信息;
确定更新后的所述父层级类别信息对应的子类别行业分类结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果包括:
将所述经营范围信息、所述父层级类别信息和所述子类别信息伪标签输入语义匹配模型;
通过所述语义匹配模型对所述经营范围信息、所述父层级类别信息和所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取历史数据中的各企业的经营范围信息和行业类别信息,所述行业类别信息包含至少两个层级的行业类别;
基于所述历史数据中的各企业的经营范围信息和行业类别信息构建不同层级的匹配模型训练数据;
通过所述不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型。
9.根据权利要求8所述的方法,其特征在于,所述通过所述不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型包括:
获取不同层级的子类别行业分类结果的损失权重;
基于所述不同层级的子类别行业分类结果的损失权重构建匹配模型损失函数;
基于所述匹配模型损失函数,通过所述不同层级的匹配模型训练数据对初始语义匹配模型进行训练,得到语义匹配模型。
10.根据权利要求1至9任意一项所述的方法,其特征在于,所述方法还包括:
基于所述企业对象的父层级类别信息和子类别行业分类结果得到所述企业对象的行业标签;
通过包含所述行业标签的企业画像信息对所述企业对象进行信息挖掘处理,得到所述企业对象的挖掘信息。
11.根据权利要求1至9任意一项所述的方法,其特征在于,所述方法还包括:
获取不同企业对象的子类别行业分类结果;
基于所述不同企业对象的子类别行业分类结果得到子类别行业的企业公开信息;
基于所述子类别行业的企业公开信息得到所述子类别行业的行业分析信息。
12.一种行业分类装置,其特征在于,所述装置包括:
信息获取模块,用于获取待分类的企业对象的经营范围信息和所述企业对象的父层级类别信息;
伪标签查找模块,用于基于所述父层级类别信息,确定所述企业对象可被分类的子类别信息伪标签;
语义匹配模块,用于针对每一所述子类别信息伪标签,基于所述经营范围信息和所述父层级类别信息,对所述子类别信息伪标签进行语义匹配处理,得到所述子类别信息伪标签的语义匹配结果;
行业分类模块,用于基于不同子类别信息伪标签各自的语义匹配结果,从所述分类信息伪标签中确定所述企业对象的子类别行业分类结果。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310664581.8A CN116975743A (zh) | 2023-06-06 | 2023-06-06 | 行业信息分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310664581.8A CN116975743A (zh) | 2023-06-06 | 2023-06-06 | 行业信息分类方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975743A true CN116975743A (zh) | 2023-10-31 |
Family
ID=88478595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310664581.8A Pending CN116975743A (zh) | 2023-06-06 | 2023-06-06 | 行业信息分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975743A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216688A (zh) * | 2023-11-07 | 2023-12-12 | 西南科技大学 | 基于层次标签树与神经网络的企业行业识别方法与系统 |
-
2023
- 2023-06-06 CN CN202310664581.8A patent/CN116975743A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216688A (zh) * | 2023-11-07 | 2023-12-12 | 西南科技大学 | 基于层次标签树与神经网络的企业行业识别方法与系统 |
CN117216688B (zh) * | 2023-11-07 | 2024-01-23 | 西南科技大学 | 基于层次标签树与神经网络的企业行业识别方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Multiscale feature extraction and fusion of image and text in VQA | |
Varma et al. | Snuba: Automating weak supervision to label training data | |
Zhou et al. | Personalized learning full-path recommendation model based on LSTM neural networks | |
Chen et al. | Deep reinforcement learning in recommender systems: A survey and new perspectives | |
Guo et al. | Supplier selection based on hierarchical potential support vector machine | |
CN116888602A (zh) | 可解释转导器变换器 | |
CN114048331A (zh) | 一种基于改进型kgat模型的知识图谱推荐方法及系统 | |
Bagherzadeh et al. | A review of various semi-supervised learning models with a deep learning and memory approach | |
Wang et al. | Learning performance prediction via convolutional GRU and explainable neural networks in e-learning environments | |
Zhao et al. | Deep multi-task learning with relational attention for business success prediction | |
CN113590863A (zh) | 图像聚类方法、装置及计算机可读存储介质 | |
CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
Srinivas et al. | A comprehensive survey of techniques, applications, and challenges in deep learning: A revolution in machine learning | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
Yu et al. | A graph attention network under probabilistic linguistic environment based on Bi-LSTM applied to film classification | |
Nathani et al. | Foundations of Machine Learning | |
CN116974554A (zh) | 代码数据处理方法、装置、计算机设备和存储介质 | |
CN111552827B (zh) | 标注方法和装置、行为意愿预测模型训练方法和装置 | |
CN114357177A (zh) | 知识超图的生成方法、装置、终端设备及存储介质 | |
Zhang et al. | Worst Perception Scenario Search via Recurrent Neural Controller and K-Reciprocal Re-Ranking | |
CN113886602A (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
Qu et al. | The application of interactive methods under swarm computing and artificial intelligence in image retrieval and personalized analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |