CN107944480B - 一种企业行业分类方法 - Google Patents

一种企业行业分类方法 Download PDF

Info

Publication number
CN107944480B
CN107944480B CN201711137533.4A CN201711137533A CN107944480B CN 107944480 B CN107944480 B CN 107944480B CN 201711137533 A CN201711137533 A CN 201711137533A CN 107944480 B CN107944480 B CN 107944480B
Authority
CN
China
Prior art keywords
industry
words
classifier
keywords
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711137533.4A
Other languages
English (en)
Other versions
CN107944480A (zh
Inventor
陈开冉
吴璐璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tungee Technology Co ltd
Original Assignee
Guangzhou Tungee Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tungee Technology Co ltd filed Critical Guangzhou Tungee Technology Co ltd
Priority to CN201711137533.4A priority Critical patent/CN107944480B/zh
Publication of CN107944480A publication Critical patent/CN107944480A/zh
Application granted granted Critical
Publication of CN107944480B publication Critical patent/CN107944480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明公开了一种企业行业分类方法,该方法利用半监督学习的图分裂聚类算法有效地提取了企业的主营业务关键词,并基于梯度提升决策树使用提取的关键词作为特征,训练级联分类器将企业按行业分类,解决了人工分类的繁琐问题。具体方法为:1)利用词向量和半监督图分裂聚类算法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;2)将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业分类,未分类的企业按下一级的分类器分类。本发明不仅能自动构建更新并分类关键词,而且解决了千万级别的企业行业分类问题,能有效地解决了人工标注的问题。

Description

一种企业行业分类方法
技术领域
本发明涉及数据分类方法研究领域,更具体的是,涉及行业关键词提取,在企业经营范围与多个行业描述均有交叉的情况下,融合半监督图分裂聚类和级联梯度提升决策树的企业行业分类方法。
背景技术
中华人民共和国国家统计局在2013年发布的行业分类标准中,一共分为20个一级行业,细分为96个二级行业。企业的行业标签是一个重要字段,而全国已有企业达千万级别,并且每天有不少企业孵化,如何快速对企业按行业分类是个重要问题。在以往的行业划分规范中,企业所属行业由企业的经营范围描述而得。但是,由于企业的经营范围描述往往涉及到多个行业的描述,人工分类的工作存在着更多的困难。为了解决人工分类工作繁琐的问题,需要提出企业行业分类方法。
企业行业分类是自然语言处理领域的一个重要应用。首先,在文本特征表示上,有词向量和词袋模型两种。由于行业描述大部分是专有名词,词向量不适用于此场景。并且,如何提取企业描述中的业务关键词,成为了主要问题之一。
其次,常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机(Support Vector Machine,SVM)可用于小数据分类,而对于大数据分类难以实施,训练模型速度极慢,难以拟合。决策树(Decision Tree,DT)可对样本快速分类,但是由于对特征决策较为绝对,容易出现过拟合。传统神经网络需要拟合的参数量较大,训练过程极慢,不适用于大数据处理。逻辑回归(Logic Regression,LR)与传统神经网络类似,而k邻近值(K-Nearest Neighbors,KNN)计算复杂,需要大存储量。自适应增强方法(AdaBoost)将多个弱分类器组成强分类器,在分类效果上,略差于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)。除此之外,单个分类器模型过分依赖于样本描述的覆盖率,当对一个从未出现过的描述的新样本分类时,准确率较低。
为此,提供一种分类识别速度快、准确率高的企业行业分类方法具有重要的研究意义和实用价值。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种企业行业分类方法,该方法融合半监督图分裂聚类和级联梯度提升决策树,综合并有效利用了词频逆文档词频(Term Frequency-Inverse Document Frequency,TFIDF)方法、图的分裂聚类方法、k均值聚类方法、词向量和词袋模型、梯度提升决策树等方法,可对企业描述提取主营业务关键词,半监督构建关键词库和自动更新关键词库,并以级联的方式对企业按行业分类。
本发明的目的通过以下的技术方案实现:一种企业行业分类方法,包括步骤:利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业进行分类,未分类的企业按下一级的分类器分类。
具体的,包括步骤:
(1)构造语料库,训练词向量模型;
(2)基于文本中每个词的权重初步提取企业关键词;
(3)用词向量和聚类方法提取企业的主营业务关键词,剔除垃圾词,训练词类模型,得到词类模型分类器;
(4)细聚类筛选出的关键词,构造关键词库;
(5)处理特征输入,训练层次分类器和级联分类器,其中层次分类器由一级行业分类器和二级行业分类器组成,级联分类器由多个层次分类器组成;
(6)提取新关键词并自动更新关键词库。
优选的,所述步骤(1)中,从企业简介、企业专利、企业招聘信息、企业经营范围等描述中获取文本,训练N维的词向量模型。
优选的,所述步骤(2)初步提取企业关键词的步骤是:首先对文本描述分词,其次剔除停用词,再筛选特定词性的词语,最后根据词频逆词频计算每篇文档中每个词的权重,删除权重值低于预设值的词,剩下的即为初步提取的企业关键词。
优选的,所述步骤(3)中,对多篇已提取的关键词使用词向量和k-means聚类,以词向量计算两个词之间的欧式距离;聚类后,人工干预对k个类按主营业务关键词和垃圾词划分为两类,使用梯度提升决策树对垃圾词和关键词训练词类模型。
优选的,所述步骤(4)中,细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分,得到多个类别的关键词,构造出每个类别对应的关键词库。如:服饰相关的词语聚为一类,零件相关词语聚为一类等等。
优选的,所述步骤(5)的具体步骤是:
(5-1)对企业经营范围描述使用TFIDF算法提取关键词,使用关键词库对未能提取的关键词匹配进行补充;将训练样本中所有经营范围描述所提取的关键词组成词袋,即每个词对应一个词ID;使用词袋模型向量化企业经营范围的描述;
(5-2)训练层次分类器的步骤是:层次分类器由一级行业分类器和二级行业分类器组成,一级行业分类器由M个模型组成,代表M个一级行业;在第i个模型中,以行业i的描述作为正样本,其他行业j的描述作为负样本,j≠i,使用梯度提升决策树算法训练模型;
二级行业分类器的模型数为P,代表P个二级行业,其中,每个一级行业下有相关的二级行业分类模型;训练一级行业下的二级行业分类器与一级行业分类器同理,如批发零售业下细分为批发业和零售业,则该一级行业下有两个二级行业分类模型。若样本被一级行业分类器预测为批发零售业,则使用批发业和零售业的二级行业分类模型对样本再次预测,得到该样本的二级行业类别;
(5-3)训练级联分类器的步骤是:级联分类器由多个层次分类器组成,假设总分类器由多级分类器A、B、C等组成,首先使用A级分类器对样本分类,若未能分类,则继续使用下一级分类器分类;若能分类则输出结果。
更进一步的,在一级行业分类器中,本发明选取概率最高的行业类别作为一级行业类别,在二级行业分类器中,考虑到一个企业可属多个行业或行业描述有重合的情况,选取概率值超过0.5的行业类别作为该企业的二级行业类别。
优选的,所述步骤(6)提取新关键词并自动更新关键词库的步骤包括:
(6-1)基于步骤(3)、(4)得到的词类模型分类器和关键词库,对新文本描述分词,使用垃圾词库对分词结果匹配,剔除垃圾词;使用TFIDF方法提取前n个关键词,并且使用关键词库对分词结果匹配,找出在库中的关键词,和前n个不在库中的关键词;
(6-2)对前n个不在库中的关键使用词类模型分类器分类,若分为垃圾词则对垃圾词库补充,若为关键词则进入步骤(6-3)下一步验证;
(6-3)对词类模型分类的关键词计算每个词到每个关键词类的平均距离,归类到最短距离的关键词类;然后对该关键词类进行2-means划分,使用强弱团体判别是否满足分裂条件,并统计分裂后的词数是否大于2,更新关键词库和关键词类;最后将在库的关键词和提取的新关键词作为样本的关键词标签。
更进一步的,所述步骤(6-3)中,使用强弱团体判别是否满足分裂条件,步骤是:
(6-3-1)强弱团体的定义如下:
强团体:若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值,则称此集合为强团体,用公式表示为:
Figure GDA0002583122180000041
弱团体:若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值,则称此集合为弱团体,用公式表示为:
Figure GDA0002583122180000042
(6-3-2)若子类p1,p2中有一个子类既不满足强团体,也不满足弱团体,则不分裂;否则分裂,并统计p1、p2中每个类的词数是否大于2:
若某个类中词数小于2,代表此类中的词可能是垃圾词,则删除此类和原始类p,并删除相关新词;
反之,保留子类,添加新词到关键词库,删除原始类p。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明综合并有效利用了词频逆文档词频方法、图的分裂聚类方法、k均值聚类方法、词向量和词袋模型、梯度提升决策树等方法,可对企业描述提取主营业务关键词,半监督构建关键词库和自动更新关键词库,并以级联的方式对企业按行业分类,解决了人工分类的繁琐问题。
2、本发明不仅能自动构建更新并分类关键词,而且解决了千万级别的企业行业分类问题,有效地解决了人工标注的问题。
附图说明
图1是本实施例初步提取关键词的前期准备流程图。
图2是本实施例提取并更新关键词库的流程图。
图3(a)是本实施例级联分类器的流程图。
图3(b)是本实施例层次分类器的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明一种企业行业分类方法主要创新点在于利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业进行分类,未分类的企业按下一级的分类器分类。其中提取关键词包括提取关键词、半监督构建并自动更新关键词库;行业分类包括一级行业分类和二级行业分类。下面结合附图1-3具体说明本发明的各个步骤。
步骤1:构造语料库,训练词向量模型
本发明从企业简介、企业专利、企业招聘信息、企业经营范围等描述中共获取了172万篇文本,训练300维的词向量模型。
步骤2:初步提取企业关键词
提取企业的关键词时首先对文本描述分词,其次剔除停用词,再筛选特定词性的词语。最后根据词频逆词频计算每篇文档中每个词的权重,权重的计算公式为:
Figure GDA0002583122180000051
Figure GDA0002583122180000052
TFIDF(i,j)=TF(i,j)×IDF(i)
TF(i,j)表示词i在文档j中出现的次数n占该文档的词数的比重,IDF(i)表示包含词i的文档数的倒数×总文档数|D|的对数值,最后描述一个词的关键程度为TF×IDF。
步骤3:筛选关键词和垃圾词,训练词类模型
将多篇已提取的关键词使用词向量和k-means聚类,以词向量计算两个词之间的欧式距离。聚类后,人工干预对k个类按主营业务关键词和垃圾词划分为两类,使用梯度提升决策树对垃圾词和关键词训练词类模型。
步骤4:细聚类筛选出的关键词
从步骤3中,已筛选出初步的关键词和垃圾词。接下来,对已筛选出的关键词再次进行k-means聚类细分,得到多个类别的关键词,如:服饰相关的词语聚为一类,零件相关词语聚为一类等等。
上述步骤1-4为初步提取关键词的前期准备流程,流程图参见图1。
步骤5:处理特征输入,训练层次和级联企业行业分类器
对企业经营范围描述使用TFIDF方法提取关键词,使用关键词库对未能提取的关键词匹配进行补充。将训练样本中所有经营范围描述所提取的关键词组成词袋,即每个词对应一个词ID。使用词袋模型向量化企业经营范围的描述。
由于在行业划分标准中,多个行业的描述可能具有重叠性,因此本发明使用层次分类器训练一级行业分类器和二级行业分类器,参见图3(b)。一级行业分类器由20个模型组成,代表20个一级行业。在第i个模型中,以行业i的描述作为正样本,其他行业j(j≠i)的描述作为负样本,使用梯度提升决策树方法训练模型。二级行业分类器的模型数为96,代表96个二级行业,其中,每个一级行业下有相关的二级行业分类模型。训练一级行业下的二级行业分类器与一级行业分类器同理,如批发零售业下细分为批发业和零售业,则该一级行业下有两个二级行业分类模型。若样本被一级行业分类器预测为批发零售业,则使用批发业和零售业的二级行业分类模型对样本再次预测,得到该样本的二级行业类别。
在一级行业分类器中,本发明选取概率最高的行业类别作为一级行业类别,在二级行业分类器中,考虑到一个企业可属多个行业或行业描述有重合的情况,选取概率值超过0.5的行业类别作为该企业的二级行业类别。
级联分类器由多个层次分类器组成,参见图3(a),假设总分类器由多级分类器A、B、C等组成,若A级分类器对样本无预测结果,则继续使用下一级分类器(如B级分类器)分类。
步骤6:提取新关键词并自动更新关键词库
关键词库的构造与更新是个迭代的过程,实际应用中不可过分依赖于一次性提取的关键词。因此,本发明中增加了自动更新并分类关键词的过程。步骤3,4已得出词类模型分类器以及细分的关键词类。对新文本描述分词,提取前n个关键词,对所有分词结果与关键词库匹配,保留已在关键词库中出现的词。对于前n个不在关键词库中出现的词,使用词类模型分类器分类:若为垃圾词,则剔除;若为关键词,则保留亟待下一轮的验证。
接下来对保留的关键词验证:假设文本描述提取的前n个不在关键词库中并且被初步分类为关键词的词集合为m,首先计算m中每个词分别与每个细分的关键词类的平均距离,记录与新词平均距离最短的关键词类;对与新词的平均距离最短的关键词类添加对应的新词后进行2-means聚类,判断该关键词类是否符合分裂的条件。假设添加新词后的关键词类为p,重新聚类得到两个子类分别为p1、p2,以强弱团体的定义判断是否满足分裂要求,强弱团体的定义如下:
强团体:若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值,则称此集合为强团体。用公式表示为:
Figure GDA0002583122180000071
弱团体:若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值,则称此集合为弱团体。用公式表示为:
Figure GDA0002583122180000072
若子类p1,p2中有一个子类既不满足强团体,也不满足弱团体,则不分裂;否则分裂,并统计p1、p2中每个类的词数是否大于2。若某个类中词数小于2,代表此类中的词可能是垃圾词,则删除此类和原始类p,并删除相关新词;反之保留子类,添加新词到关键词库,删除原始类p。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种企业行业分类方法,其特征在于,包括步骤:
(1)构造语料库,训练词向量模型;
(2)根据词频逆词频计算每篇文档中每个词的权重,基于文本中每个词的权重初步提取企业关键词;
(3)用词向量和聚类方法提取企业的主营业务关键词,剔除垃圾词,训练词类模型,得到词类模型分类器;所述步骤(3)中,对多篇已提取的关键词使用词向量和k-means聚类,以词向量计算两个词之间的欧式距离;聚类后,人工干预对k个类按主营业务关键词和垃圾词划分为两类,使用梯度提升决策树对垃圾词和关键词训练词类模型;
(4)细聚类筛选出的关键词,构造关键词库;
(5)处理特征输入,训练层次分类器和级联分类器,其中层次分类器由一级行业分类器和二级行业分类器组成,级联分类器由多个层次分类器组成;
(6)提取新关键词并自动更新关键词库,步骤包括:
(6-1)基于步骤(3)、(4)得到的词类模型分类器和关键词库,对新文本描述分词,使用垃圾词库对分词结果匹配,剔除垃圾词;使用TFIDF方法提取前n个关键词,并且使用关键词库对分词结果匹配,找出在库中的关键词,和前n个不在库中的关键词;
(6-2)对前n个不在库中的关键使用词类模型分类器分类,若分为垃圾词则对垃圾词库补充,若为关键词则进入步骤(6-3)下一步验证;
(6-3)对词类模型分类的关键词计算每个词到每个关键词类的平均距离,归类到最短距离的关键词类;然后对该关键词类进行2-means划分,使用强弱团体判别是否满足分裂条件,并统计分裂后的词数是否大于2,更新关键词库和关键词类;最后将在库的关键词和提取的新关键词作为样本的关键词标签;
强团体:若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值,则称此集合为强团体;
弱团体:若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值,则称此集合为弱团体。
2.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(1)中,从企业简介、企业专利、企业招聘信息、企业经营范围描述中获取文本,训练N维的词向量模型。
3.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(2)初步提取企业关键词的步骤是:首先对文本描述分词,其次剔除停用词,再筛选特定词性的词语,最后根据词频逆词频计算每篇文档中每个词的权重,删除权重值低于预设值的词,剩下的即为初步提取的企业关键词。
4.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(4)中,细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分,得到多个类别的关键词,构造出每个类别对应的关键词库。
5.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(5)的具体步骤是:
(5-1)对企业经营范围描述使用TFIDF算法提取关键词,使用关键词库对未能提取的关键词匹配进行补充;将训练样本中所有经营范围描述所提取的关键词组成词袋,即每个词对应一个词ID;使用词袋模型向量化企业经营范围的描述;
(5-2)训练层次分类器的步骤是:层次分类器由一级行业分类器和二级行业分类器组成,一级行业分类器由M个模型组成,代表M个一级行业;在第i个模型中,以行业i的描述作为正样本,其他行业j的描述作为负样本,j≠i,使用梯度提升决策树算法训练模型;
二级行业分类器的模型数为P,代表P个二级行业,其中,每个一级行业下有相关的二级行业分类模型;训练一级行业下的二级行业分类器与一级行业分类器同理,若样本被一级行业分类器预测为该一级行业,则使用该一级行业下相关的二级行业分类模型对样本再次预测,得到该样本的二级行业类别;
(5-3)训练级联分类器的步骤是:级联分类器由多个层次分类器组成,假设总分类器由多级分类器A、B、C组成,首先使用A级分类器对样本分类,若未能分类,则继续使用下一级分类器分类;若能分类则输出结果。
6.根据权利要求5所述的企业行业分类方法,其特征在于,在一级行业分类器中,选取概率最高的行业类别作为一级行业类别,在二级行业分类器中,选取概率值超过0.5的行业类别作为该企业的二级行业类别。
7.根据权利要求1所述的企业行业分类方法,其特征在于,所述步骤(6-3)中,使用强弱团体判别是否满足分裂条件,步骤是:
(6-3-1)强弱团体的定义如下:
强团体用公式表示为:
Figure FDA0002598468450000031
弱团体用公式表示为:
Figure FDA0002598468450000032
(6-3-2)若子类p1,p2中有一个子类既不满足强团体,也不满足弱团体,则不分裂;否则分裂,并统计p1、p2中每个类的词数是否大于2:
若某个类中词数小于2,代表此类中的词可能是垃圾词,则删除此类和原始类p,并删除相关新词;
反之,保留子类,添加新词到关键词库,删除原始类p。
CN201711137533.4A 2017-11-16 2017-11-16 一种企业行业分类方法 Active CN107944480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711137533.4A CN107944480B (zh) 2017-11-16 2017-11-16 一种企业行业分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711137533.4A CN107944480B (zh) 2017-11-16 2017-11-16 一种企业行业分类方法

Publications (2)

Publication Number Publication Date
CN107944480A CN107944480A (zh) 2018-04-20
CN107944480B true CN107944480B (zh) 2020-11-24

Family

ID=61931520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711137533.4A Active CN107944480B (zh) 2017-11-16 2017-11-16 一种企业行业分类方法

Country Status (1)

Country Link
CN (1) CN107944480B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615124B (zh) * 2018-05-11 2022-02-01 北京窝头网络科技有限公司 基于词频分析的企业评价方法及系统
CN108897833B (zh) * 2018-06-22 2019-05-03 龙马智芯(珠海横琴)科技有限公司 企业间相关性的分析方法、装置和存储介质
CN109102164B (zh) * 2018-07-20 2021-09-14 广东省科技基础条件平台中心 平台评估方法、装置、计算机设备和存储介质
CN109034248B (zh) * 2018-07-27 2022-04-05 电子科技大学 一种基于深度学习的含噪声标签图像的分类方法
CN109522415B (zh) * 2018-10-17 2021-06-01 厦门快商通信息技术有限公司 一种语料标注方法及装置
CN109597901B (zh) * 2018-11-15 2021-11-16 韶关学院 一种基于生物数据的数据分析方法
CN109657947B (zh) * 2018-12-06 2021-03-16 西安交通大学 一种面向企业行业分类的异常检测方法
CN109801118A (zh) * 2018-12-24 2019-05-24 航天信息股份有限公司 识别指定行业的制造业企业的方法、装置、介质和设备
CN109710768B (zh) * 2019-01-10 2020-07-28 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN109783818B (zh) * 2019-01-17 2023-04-07 上海三零卫士信息安全有限公司 一种企业行业分类方法
CN109902178A (zh) * 2019-02-28 2019-06-18 云孚科技(北京)有限公司 一种多级文本分类方法及系统
CN110032631B (zh) * 2019-03-26 2021-07-02 腾讯科技(深圳)有限公司 一种信息反馈方法、装置和存储介质
CN110110044B (zh) * 2019-04-11 2020-05-05 广州探迹科技有限公司 一种企业信息组合筛选的方法
CN110134759A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种获取企业的行业信息的方法
CN110134779A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种企业名称处理的方法
CN110188357B (zh) * 2019-05-31 2023-06-20 创新先进技术有限公司 对象的行业识别方法及装置
CN110781955A (zh) * 2019-10-24 2020-02-11 中国银联股份有限公司 无标签对象的分类和检测套码的方法、装置及计算机可读存储介质
CN111062198A (zh) * 2019-12-10 2020-04-24 重庆撼地大数据有限公司 一种基于大数据的企业类别分析方法及相关设备
CN111191001A (zh) * 2019-12-23 2020-05-22 浙江大胜达包装股份有限公司 一种面向纸包装及其相关行业的企业多元标签标识方法
CN111209397B (zh) * 2019-12-30 2020-09-08 中伯伦(北京)信息技术有限公司 一种确定企业产业类别的方法
CN111538837A (zh) * 2020-04-27 2020-08-14 北京同邦卓益科技有限公司 用于分析企业经营范围信息的方法和装置
CN112115277A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 一种基于知识图谱的集成电路产业链识别方法及系统
CN112182223A (zh) * 2020-10-12 2021-01-05 浙江工业大学 一种基于领域本体的企业行业分类方法和系统
CN112215288B (zh) * 2020-10-13 2024-04-30 中国光大银行股份有限公司 目标企业的类别确定方法及装置、存储介质、电子装置
CN112347318B (zh) * 2020-10-26 2022-08-02 杭州数智政通科技有限公司 划分企业所属行业类别的方法、设备及介质
CN112632980B (zh) * 2020-12-30 2022-09-30 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN112883191B (zh) * 2021-02-05 2023-03-24 山东麦港数据系统有限公司 一种农业实体自动识别的分类方法及装置
CN113298352A (zh) * 2021-04-28 2021-08-24 北京网核精策科技管理中心(有限合伙) 企业行业信息处理方法、装置、电子设备及可读存储介质
CN113420145B (zh) * 2021-05-11 2023-05-23 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN115239214B (zh) * 2022-09-23 2022-12-27 建信金融科技有限责任公司 企业的评估处理方法、装置及电子设备
CN117216688B (zh) * 2023-11-07 2024-01-23 西南科技大学 基于层次标签树与神经网络的企业行业识别方法与系统
CN117725515A (zh) * 2024-02-07 2024-03-19 北京肿瘤医院(北京大学肿瘤医院) 一种药物临床试验质量分类方法、系统、存储介质及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN106682217A (zh) * 2016-12-31 2017-05-17 成都数联铭品科技有限公司 一种基于自动信息筛选学习的企业二级行业分类方法
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及系统
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN106682217A (zh) * 2016-12-31 2017-05-17 成都数联铭品科技有限公司 一种基于自动信息筛选学习的企业二级行业分类方法
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及系统
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置

Also Published As

Publication number Publication date
CN107944480A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107944480B (zh) 一种企业行业分类方法
CA3007723C (en) Systems and/or methods for automatically classifying and enriching data records imported from big data and/or other sources to help ensure data integrity and consistency
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN110413780B (zh) 文本情感分析方法和电子设备
CN109783818B (zh) 一种企业行业分类方法
CN109933670B (zh) 一种基于组合矩阵计算语义距离的文本分类方法
CN112632980B (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN107798033B (zh) 一种公安领域案件文本的分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
Bouguelia et al. A stream-based semi-supervised active learning approach for document classification
CN102289522A (zh) 一种对于文本智能分类的方法
Dang et al. Framework for retrieving relevant contents related to fashion from online social network data
CN108596637B (zh) 一种电商服务问题自动发现系统
Hadwan et al. Arabic sentiment analysis of users’ opinions of governmental mobile applications
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
WO2023065642A1 (zh) 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN111831822A (zh) 一种基于文本多分类混合式均分聚类采样算法的不平衡数据集文本多分类方法
Jayady et al. Theme Identification using Machine Learning Techniques
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
RU2546555C1 (ru) Способ автоматической классификации формализованных документов в системе электронного документооборота
Wang et al. Discriminant mutual information for text feature selection
CN115827871A (zh) 互联网企业分类的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant