CN109783818B - 一种企业行业分类方法 - Google Patents

一种企业行业分类方法 Download PDF

Info

Publication number
CN109783818B
CN109783818B CN201910045591.7A CN201910045591A CN109783818B CN 109783818 B CN109783818 B CN 109783818B CN 201910045591 A CN201910045591 A CN 201910045591A CN 109783818 B CN109783818 B CN 109783818B
Authority
CN
China
Prior art keywords
enterprise
industry
word
label
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910045591.7A
Other languages
English (en)
Other versions
CN109783818A (zh
Inventor
余伟萍
叶林
刘晶
刘海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolphin Xingyun Shanghai Technology Co ltd
Shanghai 30wish Information Security Co ltd
Original Assignee
Shanghai 30wish Information Security Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai 30wish Information Security Co ltd filed Critical Shanghai 30wish Information Security Co ltd
Priority to CN201910045591.7A priority Critical patent/CN109783818B/zh
Publication of CN109783818A publication Critical patent/CN109783818A/zh
Application granted granted Critical
Publication of CN109783818B publication Critical patent/CN109783818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种企业行业多标签分类方法,本发明根据行业关键词的提取,企业的经营范围涉及到多个行业的关键词的交叉情况下,并利用半监督和聚类的方法更新词库,利用深度学习的方法进行多行业标签分类。本发明利用了基于图的排序算法,K‑means的聚类的方法、嵌入的词向量模型提取企业关键词,然后使用了双层的循环神经网络构建多层行业标签的自动标签模型,并借此使用半监督和聚类的方法更新行业关键词库,得到四层的级联行业标签体系,有利于解决人工标注的繁琐低效问题。

Description

一种企业行业分类方法
技术领域
本发明涉及文本多标签的分类方法技术领域,具体为一种企业行业分类方法。
背景技术
随着科学技术的飞速发展,人工智能的大潮流,冲击着每一个行业的行业结构和技术。新的技术和模式下,每天都大量的新科技企业诞生孵化出来,而如何对这些企业进行行业标签分类就成了一个重要的问题了。而在2017年的国家统计局发布的国民经济行业分类中一共有20个一级行业分类,97个二级行业分类,而二级行业分类附属还有众多的三级行业分类。而三级行业分类综合起来的行业标签字段达到了千万级别的量级了。而且随着企业的综合性发展,一个企业跨多个行业的现象越来越多,对一个企业单行业标签的描述不能满足实际的需求。而传统的人工分类的方法,不仅需要大量的背景知识,而且标注的速度慢并异常的繁琐,不能很好的再实际应用场景中使用,这迫切的需要自动学习的行业标签分类的方法。
文本多标签的分类属于自然语言处理的范畴。常用的分类方法有很多,比如支持向量机、逻辑回归、人工神经网络,决策树、自适应增强、K紧邻、朴素贝叶斯模型等方法。其中决策树的方法分类的速度较快而且解释性强,但是容易形成过拟合。支持向量机算法能在小数据的情况下有良好的效果,对于较大的数据分类训练速度较慢,而且对数据缺失较为敏感;KNN算法简单有效,但是它要求的计算时间和存储空间都非常大。而自适应的方法是将多个弱分类器通过不断降低它的误分率组合成强的分类器。深度学习的神经网络,由于它较好的学习能力、准确率,并可以不断的叠加神经层数,在其他领域取得了突破的进展,在自然语言处理处理中也有非常多的应用,本发明就是采用双层的循环神经网络进行多标签的行业分类方法。所以一个能快速分类、并且准确率高的多标签的文本分类器有这非常重要的意义。
发明内容
本发明的目的在于提供一种企业行业分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种企业行业多标签分类方法,包括步骤如下:
S1:基于规则和图排序的算法,并利用嵌入词向量聚类和主题模型聚类,综合结果,剔除噪音词,构建企业标签词库;
S2:利用得到的标签词库,训练不同层级的标签模型,并利用它对企业进行自动标注多个层级的行业标签。
2、根据权利要求1所述的一种企业行业多标签分类方法,其特征在于,包括以下步骤:
S101:基于大规模的企业经营范围语料,训练对应的词向量模型;
S201:基于语义规则,并结合基于图排序算法,提取行业标签的关键词;
S301:构建词向量,分别采用聚类和主题模型的方法,提取企业的经营范围关键词,并剔除噪音词;
S401:利用主题模型,提取企业的主题词,并使用聚类的方法,构建多个行业的关键词库;
S501:根据主题词,利用得到的类标签库匹配,得到多个行业关键词标签的训练样本;
S601:使用两层的双向循环神经网络进行建模构建多行业标签的分类模型;
S701:对新的企业信息自动提取关键词,并自动构建更新标签库。
优选的,所述步骤S101中,从工商企业的信息,包括企业经营范围、企业简介信息等,训练得到词向量模型。
优选的,所述步骤S201中,基于语义规则提取关键词的步骤,主要是构建规则模板,分句后对企业简介的特定位置,,然后抽取特定的词性的词语或者组合的短语,作为候选的关键词企业标签,然后使用基于图排序的算法,选取权重大于某一个阈值的词语作为企业标签词,然后使用词聚类的方法。
优选的,所述步骤S301中,构建词向量之后,应用k-means聚类,聚类的距离采用了嵌入式词向量的欧式距离,聚类后通过人工干预的方法,划分为关键词标签和噪音词这两类,对噪音词归集起来构建出噪音词库。重复的使用聚类的方法,找出属于距离噪音词类近的词前N个词,不断的扩充噪音词库,一直到找不到为止。
优选的,所述步骤S401中,利用主题模型,抽取每一个企业主题词,并使用K-means聚类的方法,聚类出多个类别的关键词,通过人工干预,确定出行业的类别的个数,构建多个类别的行业标签库。
优选的,所述步骤S501中,根据每一个主题词,利用得到的类标签库匹配,得到多个行业关键词标签的训练样本。在这基础上,利用多个类别的标签库,对单标签样本进行匹配补全,得到多标签的企业训练样本,在此基础上,利用国民经济行业标签的三层对应关系,求得企业对应的一级和二级行业门类。
优选的,所述步骤S601中,采用企业中含有的关键词标签训练,训练嵌入的词向量,并使用两层的双向循环神经网络进行建模构建多行业标签的分类模型。
优选的,所述步骤S701中,对企业的信息自动提取关键词,构建关键词的标签库的步骤包括:
a:使用textrank的方法,在新的企业信息中提取词权重前N的关键词,并使用前面构建的噪音词库对抽取的词进行过滤。使用的前面k类的关键词库,对提取出来的新的词进行去重,剩下一些新的关键词;
b:重复权利要求1中步骤S3的方法,对词进行聚类,人工干预划分关键词标签库和噪音词库,并补充噪音词库;
c:使用权利要求1中步骤S6得到的多行业标签分类模型,利用半监督的方法,对得到的企业简介自动得到新的行业类别;
d:对企业的新的关键词,计算它和对应企业标签库中所有词的欧式距离并取得平均数作为标准距离,标准距离最小的类,则把该对应的关键词标签划分到该类别下面,这样就更新了关键词库了。
与现有技术相比,本发明的有益效果是:
1、本发明通过聚类得到的关键词库,得到了多行业标签,相对于传统的企业单行业标签有巨大的优势;
2、本发明利用了基于图的排序算法,K-means的聚类的方法、嵌入的词向量模型提取企业关键词,然后使用了双层的循环神经网络构建多层行业标签的自动标签模型,并借此使用半监督和聚类的方法更新行业关键词库,得到四层的级联行业标签体系,有利于解决人工标注的繁琐低效问题;
3、双层循环神经网络构建的多行业标签具有较高的学习能力和准确率,能很好的解决千万级别的多标签分类问题。
附图说明
图1为本实例当中从企业信息抽取关键词,并得到关键词库的流程图;
图2为本实例当中更新关键词词库的流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种企业行业多标签分类方法,包括步骤如下:
S1:基于规则和图排序的算法,并利用嵌入词向量聚类和主题模型聚类,综合结果,剔除噪音词,构建企业标签词库;
S2:利用得到的标签词库,训练不同层级的标签模型,并利用它对企业进行自动标注多个层级的行业标签。
企业行业多标签分类方法,包括以下步骤:
S101:基于大规模的企业经营范围语料,训练对应的词向量模型;
S201:基于语义规则,并结合基于图排序算法,提取行业标签的关键词;
S301:构建词向量,分别采用聚类和主题模型的方法,提取企业的经营范围关键词,并剔除噪音词;
S401:利用主题模型,提取企业的主题词,并使用聚类的方法,构建多个行业的关键词库;
S501:根据主题词,利用得到的类标签库匹配,得到多个行业关键词标签的训练样本;
S601:使用两层的双向循环神经网络进行建模构建多行业标签的分类模型;
S701:对新的企业信息自动提取关键词,并自动构建更新标签库。
优选的,所述步骤S101中,从工商企业的信息,包括企业经营范围、企业简介信息等,训练得到词向量模型。
优选的,所述步骤S201中,基于语义规则提取关键词的步骤,主要是构建规则模板,分句后对企业简介的特定位置,,然后抽取特定的词性的词语或者组合的短语,作为候选的关键词企业标签,然后使用基于图排序的算法,选取权重大于某一个阈值的词语作为企业标签词,然后使用词聚类的方法。
优选的,所述步骤S301中,构建词向量之后,应用k-means聚类,聚类的距离采用了嵌入式词向量的欧式距离,聚类后通过人工干预的方法,划分为关键词标签和噪音词这两类,对噪音词归集起来构建出噪音词库。重复的使用聚类的方法,找出属于距离噪音词类近的词前N个词,不断的扩充噪音词库,一直到找不到为止。
优选的,所述步骤S401中,利用主题模型,抽取每一个企业主题词,并使用K-means聚类的方法,聚类出多个类别的关键词,通过人工干预,确定出行业的类别的个数,构建多个类别的行业标签库。
优选的,所述步骤S501中,根据每一个主题词,利用得到的类标签库匹配,得到多个行业关键词标签的训练样本。在这基础上,利用多个类别的标签库,对单标签样本进行匹配补全,得到多标签的企业训练样本,在此基础上,利用国民经济行业标签的三层对应关系,求得企业对应的一级和二级行业门类。
优选的,所述步骤S601中,采用企业中含有的关键词标签训练,训练嵌入的词向量,并使用两层的双向循环神经网络进行建模构建多行业标签的分类模型。
优选的,所述步骤S701中,对企业的信息自动提取关键词,构建关键词的标签库的步骤包括:
a:使用textrank的方法,在新的企业信息中提取词权重前N的关键词,并使用前面构建的噪音词库对抽取的词进行过滤。使用的前面k类的关键词库,对提取出来的新的词进行去重,剩下一些新的关键词;
b:重复权利要求1中步骤S3的方法,对词进行聚类,人工干预划分关键词标签库和噪音词库,并补充噪音词库;
c:使用权利要求1中步骤S6得到的多行业标签分类模型,利用半监督的方法,对得到的企业简介自动得到新的行业类别;
d:对企业的新的关键词,计算它和对应企业标签库中所有词的欧式距离并取得平均数作为标准距离,标准距离最小的类,则把该对应的关键词标签划分到该类别下面,这样就更新了关键词库了。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种企业行业多标签分类方法,其特征在于,包括步骤如下:
S1:基于规则和图排序的算法,并利用嵌入词向量聚类和主题模型聚类,综合结果,剔除噪音词,构建企业标签词库;
S2:利用得到的标签词库,训练不同层级的标签模型,并利用它对企业进行自动标注多个层级的行业标签;
还包括以下步骤:
S101:基于大规模的企业经营范围语料,训练对应的词向量模型;
S201:基于语义规则,并结合基于图排序算法,提取行业标签的关键词;
S301:构建词向量,分别采用聚类和主题模型的方法,提取企业的经营范围关键词,并剔除噪音词;
S401:利用主题模型,提取企业的主题词,并使用聚类的方法,构建多个行业的关键词库;
S501:根据主题词,利用得到的类标签库匹配,得到多个行业关键词标签的训练样本;
S601:使用两层的双向循环神经网络进行建模构建多行业标签的分类模型;
S701:对新的企业信息自动提取关键词,并自动构建更新标签库。
2.根据权利要求1所述的一种企业行业分类方法,其特征在于,所述步骤S1中,从工商企业的信息,包括企业经营范围、企业简介信息,训练得到词向量模型。
3.根据权利要求1所述的一种企业行业分类方法,其特征在于,所述步骤S201中,基于语义规则提取关键词的步骤,构建规则模板,分句后对企业简介的特定位置,然后抽取特定的词性的词语或者组合的短语,作为候选的关键词企业标签,然后使用基于图排序的算法,选取权重大于某一个阈值的词语作为企业标签词,然后使用词聚类的方法。
4.根据权利要求1所述的一种企业行业分类方法,其特征在于,所述步骤S301中,构建词向量之后,应用k-means聚类,聚类的距离采用了嵌入式词向量的欧式距离,聚类后通过人工干预的方法,划分为关键词标签和噪音词这两类,对噪音词归集起来构建出噪音词库,重复的使用聚类的方法,找出属于距离噪音词类近的词前N个词,不断的扩充噪音词库,一直到找不到为止。
5.根据权利要求1所述的一种企业行业分类方法,其特征在于,所述步骤S401中,利用主题模型,抽取每一个企业主题词,并使用K-means聚类的方法,聚类出多个类别的关键词,通过人工干预,确定出行业的类别的个数,构建多个类别的行业标签库。
6.根据权利要求1所述的一种企业行业分类方法,其特征在于,所述步骤S501中,根据每一个主题词,利用得到的类标签库匹配,得到多个行业关键词标签的训练样本, 在这基础上,利用多个类别的标签库,对单标签样本进行匹配补全,得到多标签的企业训练样本,在此基础上,利用国民经济行业标签的三层对应关系,求得企业对应的一级和二级行业门类。
7.根据权利要求1所述的一种企业行业分类方法,其特征在于,所述步骤S601中,采用企业中含有的关键词标签训练,训练嵌入的词向量,并使用两层的双向循环神经网络进行建模构建多行业标签的分类模型。
8.根据权利要求1所述的一种企业行业分类方法,其特征在于,所述步骤S701中,对企业的信息自动提取关键词,构建关键词的标签库的步骤包括:
a:使用textrank的方法,在新的企业信息中提取词权重前N的关键词,并使用前面构建的噪音词库对抽取的词进行过滤, 使用的前面k类的关键词库,对提取出来的新的词进行去重,剩下一些新的关键词;
b:重复权利要求1中步骤S3的方法,对词进行聚类,人工干预划分关键词标签库和噪音词库,并补充噪音词库;
c:使用权利要求1中步骤S6得到的多行业标签分类模型,利用半监督的方法,对得到的企业简介自动得到新的行业类别;
d:对企业的新的关键词,计算它和对应企业标签库中所有词的欧式距离并取得平均数作为标准距离,标准距离最小的类,则把该对应的关键词标签划分到该类别下面,这样就更新了关键词库了。
CN201910045591.7A 2019-01-17 2019-01-17 一种企业行业分类方法 Active CN109783818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910045591.7A CN109783818B (zh) 2019-01-17 2019-01-17 一种企业行业分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910045591.7A CN109783818B (zh) 2019-01-17 2019-01-17 一种企业行业分类方法

Publications (2)

Publication Number Publication Date
CN109783818A CN109783818A (zh) 2019-05-21
CN109783818B true CN109783818B (zh) 2023-04-07

Family

ID=66501635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910045591.7A Active CN109783818B (zh) 2019-01-17 2019-01-17 一种企业行业分类方法

Country Status (1)

Country Link
CN (1) CN109783818B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及系统
CN112579730A (zh) * 2019-09-11 2021-03-30 慧科讯业有限公司 高扩展性、多标签的文本分类方法和装置
CN110781955A (zh) * 2019-10-24 2020-02-11 中国银联股份有限公司 无标签对象的分类和检测套码的方法、装置及计算机可读存储介质
CN110929124A (zh) * 2019-11-07 2020-03-27 上海融贷通金融信息服务有限公司 基于自然语言的企业资讯信息推荐方法及系统
CN111090763B (zh) * 2019-11-22 2024-04-05 北京视觉大象科技有限公司 一种图片自动标签方法及装置
CN110910175B (zh) * 2019-11-26 2023-07-28 上海景域文化传播股份有限公司 一种旅游门票产品画像生成方法
CN111191001A (zh) * 2019-12-23 2020-05-22 浙江大胜达包装股份有限公司 一种面向纸包装及其相关行业的企业多元标签标识方法
CN111209397B (zh) * 2019-12-30 2020-09-08 中伯伦(北京)信息技术有限公司 一种确定企业产业类别的方法
CN111274404B (zh) * 2020-02-12 2023-07-14 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN111353045B (zh) * 2020-03-18 2023-12-22 智者四海(北京)技术有限公司 构建文本分类体系的方法
CN112115995B (zh) * 2020-09-11 2023-04-07 北京邮电大学 一种基于半监督学习的图像多标签分类方法
CN112347318B (zh) * 2020-10-26 2022-08-02 杭州数智政通科技有限公司 划分企业所属行业类别的方法、设备及介质
CN112417150A (zh) * 2020-11-16 2021-02-26 建信金融科技有限责任公司 行业分类模型训练、使用方法、装置、设备及介质
CN112632980B (zh) * 2020-12-30 2022-09-30 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN112765358B (zh) * 2021-02-23 2023-04-07 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
CN113722483B (zh) * 2021-08-31 2023-08-22 平安银行股份有限公司 话题分类方法、装置、设备及存储介质
CN113836307B (zh) * 2021-10-15 2024-02-20 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN115391519A (zh) * 2022-07-21 2022-11-25 吉林省吉林祥云信息技术有限公司 一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109358A1 (en) * 2015-10-15 2017-04-20 Krishna Kishore Dhara Method and system of determining enterprise content specific taxonomies and surrogate tags

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法

Also Published As

Publication number Publication date
CN109783818A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109783818B (zh) 一种企业行业分类方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
Al-Amin et al. Sentiment analysis of Bengali comments with Word2Vec and sentiment information of words
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111104510B (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN105389379A (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN113407660B (zh) 非结构化文本事件抽取方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN113516198A (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN112860889A (zh) 一种基于bert的多标签分类方法
CN112732872A (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
CN114491024A (zh) 一种基于小样本的特定领域多标签文本分类方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN111597811A (zh) 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN113298253B (zh) 用于命名实体识别的模型训练方法、识别方法及装置
Parvathi et al. Identifying relevant text from text document using deep learning
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN116304064A (zh) 一种基于抽取式的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240102

Address after: Room 203, 333 Hongqiao Road, Xuhui District, Shanghai

Patentee after: Shanghai 30wish Information Security Co.,Ltd.

Patentee after: Dolphin Xingyun (Shanghai) Technology Co.,Ltd.

Address before: Room 203, 333 Hongqiao Road, Xuhui District, Shanghai

Patentee before: Shanghai 30wish Information Security Co.,Ltd.

TR01 Transfer of patent right