CN115599910A - 一种企业三级行业多标签分类方法 - Google Patents

一种企业三级行业多标签分类方法 Download PDF

Info

Publication number
CN115599910A
CN115599910A CN202211070363.3A CN202211070363A CN115599910A CN 115599910 A CN115599910 A CN 115599910A CN 202211070363 A CN202211070363 A CN 202211070363A CN 115599910 A CN115599910 A CN 115599910A
Authority
CN
China
Prior art keywords
industry
class
representing
operation range
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211070363.3A
Other languages
English (en)
Inventor
刘文达
杨焕晨
董帅杰
马光严
李微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanluoxuan Big Data Technology Kunshan Co ltd
Original Assignee
Sanluoxuan Big Data Technology Kunshan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanluoxuan Big Data Technology Kunshan Co ltd filed Critical Sanluoxuan Big Data Technology Kunshan Co ltd
Priority to CN202211070363.3A priority Critical patent/CN115599910A/zh
Publication of CN115599910A publication Critical patent/CN115599910A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种企业三级行业多标签分类方法,该方法利用TextRank算法获得企业经营范围关键词;利用K‑means算法,对企业经营范围关键词进行主题词提取;将主题词语义相近的聚为一类;将主题词类词向量与国民经济行业类别向量进行相似度计算;根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配,解决了企业经营范围数据集标注问题。又根据国民经济三级行业标签的层次化结构的特征,将标注好的数据集,输入到层次多标签分类模型HFT‑ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。本发明的优点在于,解决了企业经营范围数据集标注问题,并利用层次多标签分类模型,有效地实现了企业行业的三级行业多标签分类。

Description

一种企业三级行业多标签分类方法
技术领域
本发明属于自然语言处理技术领域,具体涉及企业文本数据集标注,以及利用层次多标签分类模型,对企业进行国民经济行业三级行业分类方法。
背景技术
目前,市面上各大企业信息查询系统对企业的行业划分不够准确,过于笼统,因此产学研相关工作人员无法有效地参照所查询的企业行业信息,对企业进行行业划分,他们往往通过人工方式,判别企业的行业属性,这极大地降低了工作效率。为了解决人工分类的繁琐问题,同时更好地表征企业的多个行业属性,需要采用多标签分类算法对企业进行行业分类。此外由于企业经营范围文本中隐含行业细分信息,它是由企业拟定,由当地市场监督局参照《国民经济行业分类代码表》核定的文本,对企业的行业类型判断具有很强的参考价值。因此根据企业经营范围,利用多标签分类算法,对企业进行国民经济行业多标签分类具有重要研究意义。
企业行业分类是文本分类领域中一个重要应用。常见的分类方法有传统机器学习方法和深度学习方法,其中机器学习方法有支持向量机、决策树、ML-KNN等,深度学习方法有TextCNN、LSTM、SGM、Bert等模型;采用机器学习方法分类准确率不高,且需要人工参与;采用深度学习方法,由于没有充分考虑行业标签的层次化特征,分类准确率并没有明显提升。
根据国家统计局在2017年颁布的《国民经济行业分类》得知,行业类别一共有20个一级行业,细分为97个二级行业,又细分为473个三级行业,其中一个一级行业包含若干个二级行业,一个二级行业又包括若干个三级行业,行业类别呈层次化结构。为了更好地利用这一特征,采用层次多标签分类HFT-ONLSTM模型,实现企业的三级行业多标签分类,有效地提高了企业行业分类的准确率。
发明内容
本发明的目的在于首先提出了一种用于企业经营范围数据集自动化标注方法;然后利用层次多标签分类算法,对企业进行国民经济行业三级行业多标签,以解决上述背景技术中提及的现有技术,没有充分考虑行业标签的层次化结构特征,造成分类准确率不高问题。
为了实现上述目的,本发明提供如下技术方案:一种企业三级行业多标签分类方法,包括以下步骤:
步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类;
步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;
步骤3:将标注好的数据集,输入层次多标签分类模型HFT-ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。
优选的,步骤1所述利用TextRank算法获得企业经营范围关键词:
利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:keyp=[wp,1,wp,2,…,wp,m]
其中,keyp表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],wp,m表示第p级的国民经济行业类别的第m个关键词。
步骤1所述根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类:
读取企业经营范围关键词词向量[x1,x2,…,xm],并随机初始化K个聚类中心;
根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;
根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和,记为SSE:
Figure BDA0003829806790000021
其中k表示类别数,cv表示第v个类,Uv表示cv的聚类中心。
从聚类结果可以看出能将各个语义相近的企业经营范围关键词聚为一类,比如“宠物美容,康复训练,康复保健”都和卫生医疗相关,“货物道路运输,铁路客运,物流服务”都和交通运输有关。
优选的,步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:
主题词类集合为C={c1,c2,…,cm},某类cv下主题词为:
Figure BDA0003829806790000022
对应的词向量记为:
Figure BDA0003829806790000023
该主题词类向量记为:
Figure BDA0003829806790000031
其中n表示主题词类v下有n个主题词,
Figure BDA0003829806790000032
表示第v个主题词类下第j个主题词向量。
同理,可以计算国民经济行业类别向量,记为:
Figure BDA0003829806790000033
其中,
Figure BDA0003829806790000034
表示国民经济行业类别对应的词向量。
计算主题词类向量与国民经济行业类别向量之间相似度,记为:
Figure BDA0003829806790000035
其中,
Figure BDA0003829806790000036
表示经过聚类后的主题类词向量,
Figure BDA0003829806790000037
表示国民经济行业类别对应的词向量。
步骤2所述根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配:
通过计算每个主题词类与国民经济行业类别之间的相似度对两者进行匹配,根据计算结果设置匹配阈值为0.7;
将与主题词相似度高于0.7的国民经济行业类别,选择相似度最高的作为该主题词对应的行业类别。
至此,实现了企业经营范围数据集自动化标注工作。
优选的,步骤3所述将企业经营范围词向量输入层次多标签分类模型HFT-ONLSTM中进行模型训练:
由于国民经济行业的一个一级行业类别包含若干个二级行业类别,一个二级行业类别又包含若干个三级行业类别,行业类别标签呈树状的层次化结构;
于是定义
Figure BDA0003829806790000038
表示企业经营范围主题词类xi对应的各层行业类别总和,
Figure BDA0003829806790000039
表示主题词类xi对应某一层上的行业标签类别;
定义zi,j表示主题词类xi在第j层上的行业类别,zi,j记为:
Figure BDA00038298067900000310
采用分层微调技术,将某些层的训练参数从较高层向相应的较低层过渡,由于国民经济行业各层类别层次化特征,且预训练和目标任务之间存在高度相关性;
分层训练是通过子类层训练过程中重用父类层训练的网络参数,以加快训练速度和提高分层分类性能。
将企业经营范围主题词向量xi输入HFT-ONLSTM模型中,利用上述微调技术进行分层训练,可以计算
Figure BDA0003829806790000041
记为:
Figure BDA0003829806790000042
Figure BDA0003829806790000043
表示输入序列在t时刻第j层行业类别的隐藏状态,其中,
Figure BDA0003829806790000044
表示在t时刻第j层行业类别的权重参数,
Figure BDA0003829806790000045
表示上一时刻t-1第j层行业类别的网络隐藏状态,
Figure BDA0003829806790000046
表示ONLSTM模型在分类j-1层行业类别时的权重参数,即将上层训练的ONLSTM层权重参数传递到相邻下层ONLSTM层作为初始参数。
进一步可计算第j层的当前单元状态dj和第j层的输出行业类别yj,其中dj为:
Figure BDA0003829806790000047
其中,
Figure BDA0003829806790000048
表示t时刻第j层行业类别的单元状态,bj-1表示上一网络层的初始单元状态。
yj记为:
yj=sof tmax(wjdj+bj)
其中,wjdj表示第j层的行业类别,bj表示第j层的初始单元状态。
预测类别和真实类别损失值可计算为:
Figure BDA0003829806790000049
其中,cj表示第j层的行业类别,
Figure BDA00038298067900000410
表示训练样本为N的预测概率,
Figure BDA00038298067900000411
表示训练样本为N的实际类别数。
本发明具有如下有益效果:
本发明首先提出一种用于企业经营范围数据集自动化标注的方法,解决了企业领域文本标注问题;然后根据国民经济行业标签呈层次化结构,利用层次多标签分类HFT-ONLSTM模型,根据企业经营范范围,将企业划分到三级行业下,有效地实现了企业行业的三级行业多标签分类问题。其包含如下优点:
(1)利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,该步骤利用现有库极容易实现;利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类,该步骤原理简单也容易实现;
(2)结合国民经济行业层层次化结构的特征,找到了符合解决问题的模型,即层次多标签分类HFT-ONLSTM模型,可以实现企业的三级行业多标签分类问题,并提高分类准确率,有效地解决了人工分类的繁琐问题和现有技术分类准确率不高问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明整体框架图;
图2为层次多标签分类HFT-ONLSTM型结构图;
图3为HFT-ONLSTM模型实验结果对比图。
具体实施方式
附图仅用于示例性说明,并不能理解为本发明的限制;为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实际案例对本发明进一步详细阐述,此处所述的实施案例仅用于说明和解释本发明,并不用于限定本发明。
下面结合附图具体的说明本发明所提供的一种企业三级行业多标签分类方法的具体方案。
一种企业三级行业多标签分类方法实施例:
如图1所示,本实施例提出了一种企业三级行业多标签分类方法,包括以下步骤:
步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类;
步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;
步骤3:将标注好的数据集,输入层次多标签分类模型HFT-ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。
如图2所示,层次多标签分类HFT-ONLSTM型结构图;
步骤1所述利用TextRank算法获得企业经营范围关键词:
利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:
keyp=[wp,1,wp,2,…,wp,m]
其中,keyp表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],wp,m表示第p级的国民经济行业类别的第m个关键词。
步骤1所述根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类:
读取企业经营范围关键词词向量[x1,x2,…,xm],并随机初始化K个聚类中心;根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和。
记为SSE:
Figure BDA0003829806790000061
其中k表示类别数,cv表示第v个类,Uv表示cv的聚类中心。
从聚类结果可以看出能将各个语义相近的企业经营范围关键词聚为一类,比如“宠物美容,康复训练,康复保健”都和卫生医疗相关,“货物道路运输,铁路客运,物流服务”都和交通运输有关。
步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:
主题词类集合为C={c1,c2,…,cm},某类cv下主题词为:
Figure BDA0003829806790000062
对应的词向量记为:
Figure BDA0003829806790000063
该主题词类向量记为:
Figure BDA0003829806790000064
其中n表示主题词类v下有n个主题词,
Figure BDA0003829806790000065
表示第v个主题词类下第j个主题词向量。
同理,可以计算国民经济行业类别向量,记为:
Figure BDA0003829806790000066
其中,
Figure BDA0003829806790000067
表示国民经济行业类别对应的词向量。
计算主题词类向量与国民经济行业类别向量之间相似度,记为:
Figure BDA0003829806790000071
其中,
Figure BDA0003829806790000072
表示经过聚类后的主题类词向量,
Figure BDA0003829806790000073
表示国民经济行业类别对应的词向量。
步骤2所述根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配:
通过计算每个主题词类与国民经济行业类别之间的相似度对两者进行匹配,根据计算结果设置匹配阈值为0.7,将与主题词相似度高于0.7的国民经济行业类别,选择相似度最高的作为该主题词对应的行业类别。至此,实现了企业经营范围数据集自动化标注工作。
步骤3所述将企业经营范围词向量输入层次多标签分类模型HFT-ONLSTM中进行模型训练:
由于国民经济行业的一个一级行业类别包含若干个二级行业类别,一个二级行业类别又包含若干个三级行业类别,行业类别标签呈树状的层次化结构,于是定义
Figure BDA0003829806790000074
表示企业经营范围主题词类xi对应的各层行业类别总和,
Figure BDA0003829806790000075
表示主题词类xi对应某一层上的行业标签类别,定义zi,j表示主题词类xi在第j层上的行业类别,zi,j记为:
Figure BDA0003829806790000076
采用分层微调技术,将某些层的训练参数从较高层向相应的较低层过渡,由于国民经济行业各层类别层次化特征,且预训练和目标任务之间存在高度相关性,分层训练是通过子类层训练过程中重用父类层训练的网络参数,以加快训练速度和提高分层分类性能。
将企业经营范围主题词向量xi输入HFT-ONLSTM模型中,利用上述微调技术进行分层训练,可以计算
Figure BDA0003829806790000077
记为:
Figure BDA0003829806790000078
表示输入序列在t时刻,第j层行业类别的隐藏状态,其中,
Figure BDA0003829806790000079
表示在t时刻第j层行业类别的权重参数,
Figure BDA00038298067900000710
表示上一时刻t-1第j层行业类别的网络隐藏状态,
Figure BDA00038298067900000711
表示ONLSTM模型在分类j-1层行业类别时的权重参数,即将上层训练的ONLSTM层权重参数传递到相邻下层ONLSTM层作为初始参。
进一步可计算第j层的当前单元状态dj和第j层的输出行业类别yj,其中dj为:
Figure BDA0003829806790000081
yj记为:
yj=sof tmax(wjdj+bj)
其中,wjdj表示第j层的行业类别,bj表示第j层的初始单元状态。
预测类别和真实类别损失值可计算为:
Figure BDA0003829806790000082
其中cj表示第j层的行业类别,
Figure BDA0003829806790000083
表示训练样本为N的预测概率,
Figure BDA0003829806790000084
表示训练样本为N的实际类别数。
最后,为说明本发明的实验效果,本发明与其他方法进行了实验对比,实验结果如附图3,证明了本发明的可行性与准确性。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施案例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均属于本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种企业三级行业多标签分类方法,其特征在于,包括以下步骤:
步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类;
步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;
步骤3:将标注好的数据集,输入层次多标签分类模型HFT-ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。
2.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:
步骤1所述利用TextRank算法获得企业经营范围关键词:
利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:
keyp=[wp,1,wp,2,…,wp,m]
其中,keyp表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],wp,m表示第p级的国民经济行业类别的第m个关键词;
步骤1所述根据企业经营范围关键词利用K-means算法,将语义相近的若干关键词聚为一类形成主题词类:
读取企业经营范围关键词词向量[x1,x2,…,xm],并随机初始化K个聚类中心;
根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和,记为SSE:
Figure FDA0003829806780000011
其中k表示类别数,cv表示第v个类,Uv表示cv的聚类中心。
3.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:
步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:
主题词类集合为C={c1,c2,…,cm},某类cv下主题词为:
Figure FDA0003829806780000012
对应的词向量记为:
Figure FDA0003829806780000013
该主题词类向量记为:
Figure FDA0003829806780000021
其中n表示主题词类v下有n个主题词,
Figure FDA0003829806780000022
表示第v个主题词类下第j个主题词向量;
计算国民经济行业类别向量,记为:
Figure FDA0003829806780000023
其中,
Figure FDA0003829806780000024
表示国民经济行业类别对应的词向量;
计算主题词类向量与国民经济行业类别向量之间相似度,记为:
Figure FDA0003829806780000025
其中,
Figure FDA0003829806780000026
表示经过聚类后的主题类词向量,
Figure FDA0003829806780000027
表示国民经济行业类别对应的词向量;
步骤2所述根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配:
通过计算每个主题词类与国民经济行业类别之间的相似度对两者进行匹配,根据计算结果设置匹配阈值为0.7,将与主题词相似度高于0.7的国民经济行业类别,选择相似度最高的作为该主题词对应的行业类别。
4.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:
步骤3所述将企业经营范围词向量输入层次多标签分类模型HFT-ONLSTM中进行模型训练:
定义
Figure FDA0003829806780000028
表示企业经营范围主题词类xi对应的各层行业类别总和,
Figure FDA0003829806780000029
表示主题词类xi对应某一层上的行业标签类别,定义zi,j表示主题词类xi在第j层上的行业类别,zi,j记为:
Figure FDA00038298067800000210
将企业经营范围主题词向量xi输入HFT-ONLSTM模型中,利用微调技术进行分层训练计算
Figure FDA00038298067800000211
记为:
Figure FDA00038298067800000212
Figure FDA00038298067800000213
表示输入序列在t时刻第j层行业类别的隐藏状态,其中,
Figure FDA00038298067800000214
表示在t时刻第j层行业类别的权重参数,
Figure FDA0003829806780000031
表示上一时刻t-1第j层行业类别的网络隐藏状态,
Figure FDA0003829806780000032
表示ONLSTM模型在分类j-1层行业类别时的权重参数,即将上层训练的ONLSTM层权重参数传递到相邻下层ONLSTM层作为初始参;
进一步计算第j层的当前单元状态dj和第j层的输出行业类别yj,其中dj为:
Figure FDA0003829806780000033
其中,
Figure FDA0003829806780000034
表示t时刻第j层行业类别的单元状态,bj-1表示上一网络层的初始单元状态;
yj记为:
yj=softmax(wjdj+bj)
其中,wjdj表示第j层的行业类别,bj表示第j层的初始单元状态;
预测类别和真实类别损失值计算为:
Figure FDA0003829806780000035
其中,cj表示第j层的行业类别,
Figure FDA0003829806780000036
表示训练样本为N的预测概率,
Figure FDA0003829806780000037
表示训练样本为N的实际类别数。
CN202211070363.3A 2022-09-02 2022-09-02 一种企业三级行业多标签分类方法 Withdrawn CN115599910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211070363.3A CN115599910A (zh) 2022-09-02 2022-09-02 一种企业三级行业多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211070363.3A CN115599910A (zh) 2022-09-02 2022-09-02 一种企业三级行业多标签分类方法

Publications (1)

Publication Number Publication Date
CN115599910A true CN115599910A (zh) 2023-01-13

Family

ID=84843717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211070363.3A Withdrawn CN115599910A (zh) 2022-09-02 2022-09-02 一种企业三级行业多标签分类方法

Country Status (1)

Country Link
CN (1) CN115599910A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Similar Documents

Publication Publication Date Title
CN109783818B (zh) 一种企业行业分类方法
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
US10083403B2 (en) Data driven classification and data quality checking method
CN113378913A (zh) 一种基于自监督学习的半监督节点分类方法
CN114579739B (zh) 文本数据流的话题检测与追踪方法
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN112685504A (zh) 一种面向生产过程的分布式迁移图学习方法
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索系统及方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN111460097A (zh) 一种基于tpn的小样本文本分类方法
CN112686043A (zh) 一种基于词向量的企业所属新兴产业分类方法
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN115599910A (zh) 一种企业三级行业多标签分类方法
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN118013038A (zh) 一种基于原型聚类的文本增量关系抽取方法
CN114138971A (zh) 一种基于遗传算法的极大多标签分类方法
CN113569048A (zh) 一种基于企业经营范围自动划分所属行业的方法及系统
CN117056510A (zh) 一种多元社会矛盾纠纷信息自动归集方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN115204179A (zh) 基于电网公共数据模型的实体关系预测的方法及装置
CN111859924B (zh) 一种基于word2vec模型构建词网的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230113