CN115599910A - 一种企业三级行业多标签分类方法 - Google Patents
一种企业三级行业多标签分类方法 Download PDFInfo
- Publication number
- CN115599910A CN115599910A CN202211070363.3A CN202211070363A CN115599910A CN 115599910 A CN115599910 A CN 115599910A CN 202211070363 A CN202211070363 A CN 202211070363A CN 115599910 A CN115599910 A CN 115599910A
- Authority
- CN
- China
- Prior art keywords
- industry
- class
- representing
- operation range
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract 1
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种企业三级行业多标签分类方法,该方法利用TextRank算法获得企业经营范围关键词;利用K‑means算法,对企业经营范围关键词进行主题词提取;将主题词语义相近的聚为一类;将主题词类词向量与国民经济行业类别向量进行相似度计算;根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配,解决了企业经营范围数据集标注问题。又根据国民经济三级行业标签的层次化结构的特征,将标注好的数据集,输入到层次多标签分类模型HFT‑ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。本发明的优点在于,解决了企业经营范围数据集标注问题,并利用层次多标签分类模型,有效地实现了企业行业的三级行业多标签分类。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及企业文本数据集标注,以及利用层次多标签分类模型,对企业进行国民经济行业三级行业分类方法。
背景技术
目前,市面上各大企业信息查询系统对企业的行业划分不够准确,过于笼统,因此产学研相关工作人员无法有效地参照所查询的企业行业信息,对企业进行行业划分,他们往往通过人工方式,判别企业的行业属性,这极大地降低了工作效率。为了解决人工分类的繁琐问题,同时更好地表征企业的多个行业属性,需要采用多标签分类算法对企业进行行业分类。此外由于企业经营范围文本中隐含行业细分信息,它是由企业拟定,由当地市场监督局参照《国民经济行业分类代码表》核定的文本,对企业的行业类型判断具有很强的参考价值。因此根据企业经营范围,利用多标签分类算法,对企业进行国民经济行业多标签分类具有重要研究意义。
企业行业分类是文本分类领域中一个重要应用。常见的分类方法有传统机器学习方法和深度学习方法,其中机器学习方法有支持向量机、决策树、ML-KNN等,深度学习方法有TextCNN、LSTM、SGM、Bert等模型;采用机器学习方法分类准确率不高,且需要人工参与;采用深度学习方法,由于没有充分考虑行业标签的层次化特征,分类准确率并没有明显提升。
根据国家统计局在2017年颁布的《国民经济行业分类》得知,行业类别一共有20个一级行业,细分为97个二级行业,又细分为473个三级行业,其中一个一级行业包含若干个二级行业,一个二级行业又包括若干个三级行业,行业类别呈层次化结构。为了更好地利用这一特征,采用层次多标签分类HFT-ONLSTM模型,实现企业的三级行业多标签分类,有效地提高了企业行业分类的准确率。
发明内容
本发明的目的在于首先提出了一种用于企业经营范围数据集自动化标注方法;然后利用层次多标签分类算法,对企业进行国民经济行业三级行业多标签,以解决上述背景技术中提及的现有技术,没有充分考虑行业标签的层次化结构特征,造成分类准确率不高问题。
为了实现上述目的,本发明提供如下技术方案:一种企业三级行业多标签分类方法,包括以下步骤:
步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类;
步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;
步骤3:将标注好的数据集,输入层次多标签分类模型HFT-ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。
优选的,步骤1所述利用TextRank算法获得企业经营范围关键词:
利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:keyp=[wp,1,wp,2,…,wp,m]
其中,keyp表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],wp,m表示第p级的国民经济行业类别的第m个关键词。
步骤1所述根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类:
读取企业经营范围关键词词向量[x1,x2,…,xm],并随机初始化K个聚类中心;
根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;
根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和,记为SSE:
其中k表示类别数,cv表示第v个类,Uv表示cv的聚类中心。
从聚类结果可以看出能将各个语义相近的企业经营范围关键词聚为一类,比如“宠物美容,康复训练,康复保健”都和卫生医疗相关,“货物道路运输,铁路客运,物流服务”都和交通运输有关。
优选的,步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:
主题词类集合为C={c1,c2,…,cm},某类cv下主题词为:
对应的词向量记为:
该主题词类向量记为:
同理,可以计算国民经济行业类别向量,记为:
计算主题词类向量与国民经济行业类别向量之间相似度,记为:
步骤2所述根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配:
通过计算每个主题词类与国民经济行业类别之间的相似度对两者进行匹配,根据计算结果设置匹配阈值为0.7;
将与主题词相似度高于0.7的国民经济行业类别,选择相似度最高的作为该主题词对应的行业类别。
至此,实现了企业经营范围数据集自动化标注工作。
优选的,步骤3所述将企业经营范围词向量输入层次多标签分类模型HFT-ONLSTM中进行模型训练:
由于国民经济行业的一个一级行业类别包含若干个二级行业类别,一个二级行业类别又包含若干个三级行业类别,行业类别标签呈树状的层次化结构;
定义zi,j表示主题词类xi在第j层上的行业类别,zi,j记为:
采用分层微调技术,将某些层的训练参数从较高层向相应的较低层过渡,由于国民经济行业各层类别层次化特征,且预训练和目标任务之间存在高度相关性;
分层训练是通过子类层训练过程中重用父类层训练的网络参数,以加快训练速度和提高分层分类性能。
表示输入序列在t时刻第j层行业类别的隐藏状态,其中,表示在t时刻第j层行业类别的权重参数,表示上一时刻t-1第j层行业类别的网络隐藏状态,表示ONLSTM模型在分类j-1层行业类别时的权重参数,即将上层训练的ONLSTM层权重参数传递到相邻下层ONLSTM层作为初始参数。
进一步可计算第j层的当前单元状态dj和第j层的输出行业类别yj,其中dj为:
yj记为:
yj=sof tmax(wjdj+bj)
其中,wjdj表示第j层的行业类别,bj表示第j层的初始单元状态。
预测类别和真实类别损失值可计算为:
本发明具有如下有益效果:
本发明首先提出一种用于企业经营范围数据集自动化标注的方法,解决了企业领域文本标注问题;然后根据国民经济行业标签呈层次化结构,利用层次多标签分类HFT-ONLSTM模型,根据企业经营范范围,将企业划分到三级行业下,有效地实现了企业行业的三级行业多标签分类问题。其包含如下优点:
(1)利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,该步骤利用现有库极容易实现;利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类,该步骤原理简单也容易实现;
(2)结合国民经济行业层层次化结构的特征,找到了符合解决问题的模型,即层次多标签分类HFT-ONLSTM模型,可以实现企业的三级行业多标签分类问题,并提高分类准确率,有效地解决了人工分类的繁琐问题和现有技术分类准确率不高问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明整体框架图;
图2为层次多标签分类HFT-ONLSTM型结构图;
图3为HFT-ONLSTM模型实验结果对比图。
具体实施方式
附图仅用于示例性说明,并不能理解为本发明的限制;为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实际案例对本发明进一步详细阐述,此处所述的实施案例仅用于说明和解释本发明,并不用于限定本发明。
下面结合附图具体的说明本发明所提供的一种企业三级行业多标签分类方法的具体方案。
一种企业三级行业多标签分类方法实施例:
如图1所示,本实施例提出了一种企业三级行业多标签分类方法,包括以下步骤:
步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类;
步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;
步骤3:将标注好的数据集,输入层次多标签分类模型HFT-ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。
如图2所示,层次多标签分类HFT-ONLSTM型结构图;
步骤1所述利用TextRank算法获得企业经营范围关键词:
利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:
keyp=[wp,1,wp,2,…,wp,m]
其中,keyp表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],wp,m表示第p级的国民经济行业类别的第m个关键词。
步骤1所述根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类:
读取企业经营范围关键词词向量[x1,x2,…,xm],并随机初始化K个聚类中心;根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和。
记为SSE:
其中k表示类别数,cv表示第v个类,Uv表示cv的聚类中心。
从聚类结果可以看出能将各个语义相近的企业经营范围关键词聚为一类,比如“宠物美容,康复训练,康复保健”都和卫生医疗相关,“货物道路运输,铁路客运,物流服务”都和交通运输有关。
步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:
主题词类集合为C={c1,c2,…,cm},某类cv下主题词为:
对应的词向量记为:
该主题词类向量记为:
同理,可以计算国民经济行业类别向量,记为:
计算主题词类向量与国民经济行业类别向量之间相似度,记为:
步骤2所述根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配:
通过计算每个主题词类与国民经济行业类别之间的相似度对两者进行匹配,根据计算结果设置匹配阈值为0.7,将与主题词相似度高于0.7的国民经济行业类别,选择相似度最高的作为该主题词对应的行业类别。至此,实现了企业经营范围数据集自动化标注工作。
步骤3所述将企业经营范围词向量输入层次多标签分类模型HFT-ONLSTM中进行模型训练:
由于国民经济行业的一个一级行业类别包含若干个二级行业类别,一个二级行业类别又包含若干个三级行业类别,行业类别标签呈树状的层次化结构,于是定义表示企业经营范围主题词类xi对应的各层行业类别总和,表示主题词类xi对应某一层上的行业标签类别,定义zi,j表示主题词类xi在第j层上的行业类别,zi,j记为:
采用分层微调技术,将某些层的训练参数从较高层向相应的较低层过渡,由于国民经济行业各层类别层次化特征,且预训练和目标任务之间存在高度相关性,分层训练是通过子类层训练过程中重用父类层训练的网络参数,以加快训练速度和提高分层分类性能。
表示输入序列在t时刻,第j层行业类别的隐藏状态,其中,表示在t时刻第j层行业类别的权重参数,表示上一时刻t-1第j层行业类别的网络隐藏状态,表示ONLSTM模型在分类j-1层行业类别时的权重参数,即将上层训练的ONLSTM层权重参数传递到相邻下层ONLSTM层作为初始参。
进一步可计算第j层的当前单元状态dj和第j层的输出行业类别yj,其中dj为:
yj记为:
yj=sof tmax(wjdj+bj)
其中,wjdj表示第j层的行业类别,bj表示第j层的初始单元状态。
预测类别和真实类别损失值可计算为:
最后,为说明本发明的实验效果,本发明与其他方法进行了实验对比,实验结果如附图3,证明了本发明的可行性与准确性。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施案例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均属于本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种企业三级行业多标签分类方法,其特征在于,包括以下步骤:
步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类;
步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;
步骤3:将标注好的数据集,输入层次多标签分类模型HFT-ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。
2.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:
步骤1所述利用TextRank算法获得企业经营范围关键词:
利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:
keyp=[wp,1,wp,2,…,wp,m]
其中,keyp表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],wp,m表示第p级的国民经济行业类别的第m个关键词;
步骤1所述根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类:
读取企业经营范围关键词词向量[x1,x2,…,xm],并随机初始化K个聚类中心;
根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和,记为SSE:
其中k表示类别数,cv表示第v个类,Uv表示cv的聚类中心。
3.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:
步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:
主题词类集合为C={c1,c2,…,cm},某类cv下主题词为:
对应的词向量记为:
该主题词类向量记为:
计算国民经济行业类别向量,记为:
计算主题词类向量与国民经济行业类别向量之间相似度,记为:
步骤2所述根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配:
通过计算每个主题词类与国民经济行业类别之间的相似度对两者进行匹配,根据计算结果设置匹配阈值为0.7,将与主题词相似度高于0.7的国民经济行业类别,选择相似度最高的作为该主题词对应的行业类别。
4.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:
步骤3所述将企业经营范围词向量输入层次多标签分类模型HFT-ONLSTM中进行模型训练:
表示输入序列在t时刻第j层行业类别的隐藏状态,其中,表示在t时刻第j层行业类别的权重参数,表示上一时刻t-1第j层行业类别的网络隐藏状态,表示ONLSTM模型在分类j-1层行业类别时的权重参数,即将上层训练的ONLSTM层权重参数传递到相邻下层ONLSTM层作为初始参;
进一步计算第j层的当前单元状态dj和第j层的输出行业类别yj,其中dj为:
yj记为:
yj=softmax(wjdj+bj)
其中,wjdj表示第j层的行业类别,bj表示第j层的初始单元状态;
预测类别和真实类别损失值计算为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070363.3A CN115599910A (zh) | 2022-09-02 | 2022-09-02 | 一种企业三级行业多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070363.3A CN115599910A (zh) | 2022-09-02 | 2022-09-02 | 一种企业三级行业多标签分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115599910A true CN115599910A (zh) | 2023-01-13 |
Family
ID=84843717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211070363.3A Withdrawn CN115599910A (zh) | 2022-09-02 | 2022-09-02 | 一种企业三级行业多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599910A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541810A (zh) * | 2023-11-17 | 2024-02-09 | 粤港澳大湾区(广东)国创中心 | 三维特征提取方法、装置、电子设备以及可读存储介质 |
-
2022
- 2022-09-02 CN CN202211070363.3A patent/CN115599910A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541810A (zh) * | 2023-11-17 | 2024-02-09 | 粤港澳大湾区(广东)国创中心 | 三维特征提取方法、装置、电子设备以及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783818B (zh) | 一种企业行业分类方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN111666406B (zh) | 基于自注意力的单词和标签联合的短文本分类预测方法 | |
US10083403B2 (en) | Data driven classification and data quality checking method | |
CN113378913A (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN114579739B (zh) | 文本数据流的话题检测与追踪方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN112685504A (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索系统及方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN111460097A (zh) | 一种基于tpn的小样本文本分类方法 | |
CN112686043A (zh) | 一种基于词向量的企业所属新兴产业分类方法 | |
CN111651597A (zh) | 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 | |
CN115599910A (zh) | 一种企业三级行业多标签分类方法 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
CN118013038A (zh) | 一种基于原型聚类的文本增量关系抽取方法 | |
CN114138971A (zh) | 一种基于遗传算法的极大多标签分类方法 | |
CN113569048A (zh) | 一种基于企业经营范围自动划分所属行业的方法及系统 | |
CN117056510A (zh) | 一种多元社会矛盾纠纷信息自动归集方法 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
CN116401338A (zh) | 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
CN111859924B (zh) | 一种基于word2vec模型构建词网的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230113 |