CN106779467A - 基于自动信息筛选的企业行业分类系统 - Google Patents
基于自动信息筛选的企业行业分类系统 Download PDFInfo
- Publication number
- CN106779467A CN106779467A CN201611270135.5A CN201611270135A CN106779467A CN 106779467 A CN106779467 A CN 106779467A CN 201611270135 A CN201611270135 A CN 201611270135A CN 106779467 A CN106779467 A CN 106779467A
- Authority
- CN
- China
- Prior art keywords
- vector
- enterprise
- neural network
- neutral net
- business scope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息处理领域,特别涉及基于自动信息筛选的企业行业分类系统;结合循环神经网络和门限控制的方法构造行业分类神经网络模型,根据企业的经营范围信息和企业名称信息,实现现对企业的二级行业的自动分类判断。本发明利用深度学习技术,使用GRU循环神经网络,自动对文本数据进行特征提取,通过加入门限控制的神经网络,实现了基于公司名对经营范围的自动信息筛选过滤,在很难区分的不同的二级行业分类之间,自动筛选出关键的信息,实现了高效精准的二级行业类别的预测。弥补了单独使用一个循环神经网络的不足,同时也发挥了神经网络的特征自动提取,无需人工干预的优势。
Description
技术领域
本发明涉及信息处理领域,特别涉及基于自动信息筛选的企业行业分类系统。
背景技术
随着社会的进步和市场的繁荣和发展,中国经济一直处于高速的发展轨道上,企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况,发现潜在经营风险。企业的二级行业类别较多,如果人工对海量的企业进行分类,将耗费大量的人力。
通常会借助机器学习的手段进行数据挖掘,自动完成行业分类。主流的方法分有两种:一种是使用传统的机器学习方法,首先人工提取特征,再利用经典的分类算法,比如SVM,朴素贝叶斯等分类器完成行业分类。另一种是利用深度学习技术,比如循环神经网络完成自动的特征提取和分类任务。二级行业分类相比一级行业分类,在经营范围的描述上,不同行业之间存在更多的相似性,这导致利用常规方法很难发现这种微小的差异,进而较难作出正确的判断。如果使用传统的机器学习方法,需要做大量的特征工程,比如TF-IDF,N-GRAM等方法提取重要的特征组成高维向量放入不同的分类器算法中进行试验和调参,工作量大而繁重,并且都是凭借人的一些经验和猜想在进行的尝试,很可能花费了很大的精力最终效果却不显著。即便使用深度学习的方法,比如循环神经网络,虽然免去了一些人工的特征提取的工作,但是由于经营范围的描述信息通常很分散,包含了多个行业的内容,单从经营范围无法确定哪些信息对判断行业类别是有效的。比如,XX酿酒有限公司的经营范围描述是“白酒酿造,批发零售五金、日用品、饲料、建筑材料”。该描述中包含了多个行业类别,很难确定哪些内容是需要重点关注的,哪些内容是无用的,应该忽略。针对该类问题,如果人工进行判定,通常会先看一下公司名包含了“酿酒”,会将经营范围的描述重点放在“白酒酿造”,忽略其他无关的描述,最终确定该企业属于“酒、饮料和精制茶制造业”。基于人脑的这种信息处理方式的启发,本发明结合循环神经网络和门限控制的方法,构建了一个能够基于公司名自动进行信息筛选的神经网络,用于企业的二级行业分类。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供基于自动信息筛选的企业行业分类系统,构造行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,以实现对待分类企业二级行业的自动分类判断。
为了实现上述发明目的,本发明提供了以下技术方案:基于自动信息筛选的企业行业分类系统,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。
具体的,所采用行业分类神经网络模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;
GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;
f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;
b是另一个全连接的神经网络得到的预测向量,该全连接神经网络的输入向量为sT、f和hT,激活函数为tanh,由完成信息筛选,W为sT的参数,U为的参数;
y为通过本神经网络的最终的每个类别的分类概率分布向量,由向量b通过一个softmax层得到。
进一步的本发明系统包含以下实现步骤:
(1)将待分类企业的企业名称和经营范围进行分词处理,建立经营范围的词语库,将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不同的固定长度的随机向量;
(2)将二级行业分类中的所有类别进行编码,并将编码号转化成对应的向量,一个编码号对应一个向量;
(3)在待分类企业中随机选取一定数量的样本,进行标注;在标注后中样划分为训练样本和开发样本;
(4)将训练样本的二级行业分类向量、企业经营范围的词向量序列和企业名称的词向量序列输入行业分类神经网络模型中,通过神经网络的向前算法和误差反向传播,自动调节神经网络的权重参数,直到模型收敛;
(5)将待分类企业的企业经营范围的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第一循环神经网络中,将对应企业名称的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第二循环神经网络中;通过所述行业分类神经网络预测出待分类企业的二级行业分类结果。
进一步的,所述行业分类神经网络模型的向前传播包含以下实现过程:
①、将待分类企业经营范围的词向量序列输入GRU1,生成表征经营范围的向量;
②、将待分类企业名称的词向量序列输入GRU2,生成表征企业名的向量;
③、将表征经营范围的向量和表征公司名的向量送入全连接的神经网络生成信息筛选门控制向量;
④、通过信息筛选门控制向量过滤表征经营范围的向量生成筛选后的经营范围向量;
⑤、将筛选后的经营范围向量和表征公司名的向量送入全连接的神经网络生成预测向量,再通过softmax层生成二级行业类别的概率分布。
进一步的,所述系统为加载有上述企业行业分类功能程序的计算机或者服务器。
与现有技术相比,本发明的有益效果:本发明提供基于自动信息筛选的企业行业分类系统,本发明利用深度学习技术,使用GRU循环神经网络,自动对文本数据进行特征提取,通过加入门限控制的神经网络,实现了基于公司名对经营范围的自动信息筛选过滤,在很难区分的不同的二级行业分类之间,自动筛选出关键的信息,实现了高效精准的二级行业类别的预测。弥补了单独使用一个循环神经网络的不足,同时也发挥了神经网络的特征自动提取,无需人工干预的优势。
附图说明:
图1为本基于自动信息筛选的企业行业分类系统的实现步骤图。
图2为语料库的编号已经向量映射关系示意图。
图3为本发明系统中行业分类神经网络模型的向前算法过程示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
基于自动信息筛选的企业行业分类系统,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。
具体的,所采用行业分类神经网络模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1和GRU2是两个GRU循环神经网络(GRU1为第一循环神经网络,GRU2为第二循环神经网络),GRU将忘记门和输入门合成了一个单一的更新门,同时还混合了细胞状态和隐藏状态。最终的模型比标准的LSTM模型要简单,效果跟LSTM不相上下。与LSTM一样,GRU用于处理序列数据,比如一段文字描述可以作为由词组成的序列输入到GRU中,该方法在自然语言处理领域中被广泛的运用。
本文的神经网络前向算法中,GRU1的输入是每一个样本的经营范围词向量序列,也就是在步骤3中处理好的经营范围的词序列所对应的词向量序列。xj是输入序列中第j个词的词向量,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,hT是最后一个词输入后生成的隐藏层状态向量,表征当前企业的经营范围。同理,GRU2的输入是每一个样本的公司名词向量序列,zj是输入序列中第j个词的词向量,sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,表征当前企业的公司名。f是用于信息筛选的控制门向量,由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示。信息筛选由完成,通过点乘运算将hT中的无用的杂乱信息丢弃,得到有效的信息,再结合公司名向量sT,通过另一个全连接的神经网络得到最后的预测向量b,其神经网络的参数分别为W和U,激活函数是tanh。向量b通过一个softmax层得到最终的每个类别的概率分布向量y。向量y中的每一维的值对应了相应类别的概率,通常选择概率值最大的类别作为最后的预测类别。
进一步的,本发明系统的待分类企业的行业预测包含如图1所示的以下实现步骤:
(1)将待分类企业的企业名称和经营范围进行分词处理,并去除标点符号和停用词等无意义的词;将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不同的固定长度的随机向量。比如经营范围的描述是“啤酒、白酒饮料、纯净水的生产、销售”,分词处理后为“啤酒 白酒 饮料 纯净水 生产 销售”。将分词后的所有的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,比如啤酒索引是1,白酒索引是3,饮料的索引是9。最后将所有的词的索引值映射到不同的固定长度的随机向量。也就是说每一个词用都用不同的固定长度的词向量进行表示。如图2所示。公司名和经营范围在分词处理后的词序列所对应的词向量序列将作为神经网络的输入。
(2)将二级行业分类中的所有类别进行编码,并将编码号转化成对应的向量,一个编码号对应一个向量。
收集大量企业公司名和相对应的经营范围描述的数据,随机筛选其中的部分数据m条作为样本。根据经营范围对每条样本进行人工标注,标记它所属的二级行业类别。比如,XXX酒业有限责任公司的经营范围的描述是:“啤酒、白酒饮料、纯净水的生产、销售”。则将该条样本标记为“酒、饮料和精制茶制造业”。“酒、饮料和精制茶制造业”是二级行业分类的其中一个类别,二级行业分类拥有很多类别,比如:农业、林业、畜牧业、煤炭开采和洗选业、石油和天然气开采业、黑色金属矿采选业、有色金属矿采选业、非金属矿采选业、通用设备制造业、专用设备制造业、汽车制造业、酒、饮料和精制茶制造业等。(2)将二级行业分类中的所有类别进行编码,转换成计算机可识别的整数。比如整数1对应的是农业,整数15对应的是酒、饮料和精制茶制造业。再将每个类别编码转换成one-hot向量,向量的维度是总的二级行业分类类别数量,比如,农业的编码是1,向量的第一个维度的元素值为1,其余为0。如“1000000…”。该向量将作为神经网络目标变量的输入。
(3)在待分类企业中随机选取一定数量的样本,进行标注;在标注后中样划分为训练样本和开发样本;通常70%的样本作为训练样本,30%的样本作为开发样本。
(4)将训练样本的二级行业分类向量、企业经营范围的词向量序列和企业名称的词向量序列输入行业分类神经网络模型中,通过神经网络的向前算法和误差反向传播,自动调节神经网络的权重参数,直到模型收敛。
在训练样本中将步骤(2)中处理的表征样本所属类别的one-hot向量和步骤3中处理的公司名和经营范围的词向量序列输入到行业分类神经网络模型中。模型首先会根据公司名和经营范围的词向量序列完成前向运算,然后通过样本的真实类别(步骤(2)中的one-hot向量)进行误差的反向传播,这个过程会自动的去修正神经网络中的权重参数。模型训练过程中,记录每一轮迭代在开发样本和训练样本上的准确率,当训练样本上的准确率不断的提升,开发样本上的准确率没有太大的变化(或者达到设置的准确率阈值)时,可以认为模型已经收敛并停止模型的训练,保存开发样本上准确率最高的一轮迭代结果对应的权重参数作为最终的预测模型。
(5)将待分类企业的企业经营范围的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第一循环神经网络中,将对应企业名称的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第二循环神经网络中;通过所述行业分类神经网络预测出待分类企业的二级行业分类结果。
进一步的,所述行业分类神经网络模型的向前传播包含如图3所示的以下实现过程:
①、将待分类企业经营范围的词向量序列输入GRU1,生成表征经营范围的向量;
②、将待分类企业名称的词向量序列输入GRU2,生成表征企业名的向量;
③、将表征经营范围的向量和表征公司名的向量送入全连接的神经网络生成信息筛选门控制向量;
④、通过信息筛选门控制向量过滤表征经营范围的向量生成筛选后的经营范围向量;
⑤、将筛选后的经营范围向量和表征公司名的向量送入全连接的神经网络生成预测向量,再通过softmax层生成二级行业类别的概率分布。
进一步的,所述系统为加载有上述企业行业分类功能程序的计算机或者服务器。将训练好的行业分类神经网络模型加载于计算机或者服务器中,使用时用户只需要将待分类企业名称信息和企业经营范围信息输入到行业分类神经网络模型中就能得到对应企业的二级行业分类结果。
Claims (6)
1.基于自动信息筛选的企业行业分类系统,其特征在于,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。
2.如权利要求1所述的系统,其特征在于,采用的所述行业分类神经网络模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;
GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;
f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;
b是另一个全连接的神经网络得到的预测向量,该全连接神经网络的输入向量为sT、f和hT,激活函数为tanh,由完成信息筛选,W为sT的参数,U为的参数;
y为通过本神经网络的最终的每个类别的分类概率分布向量,由向量b通过一个softmax层得到。
3.如权利要求1所述的系统,其特征在于,包含以下实现步骤:
(1)将待分类企业的企业名称和经营范围进行分词处理,将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不同的固定长度的随机向量;
(2)将二级行业分类中的所有类别进行编码,并将编码号转化成对应的向量,一个编码号对应一个向量;
(3)在待分类企业中随机选取一定数量的样本,进行标注;在标注后中样划分为训练样本和开发样本;
(4)将训练样本的二级行业分类向量、企业经营范围的词向量序列和企业名称的词向量序列输入行业分类神经网络模型中,通过神经网络的向前算法和误差反向传播,自动调节神经网络的权重参数,直到模型收敛;
(5)将待分类企业的企业经营范围的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第一循环神经网络中,将对应企业名称的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第二循环神经网络中;通过所述行业分类神经网络预测出待分类企业的二级行业分类结果。
4.如权利要求3所述的系统,其特征在于,所述行业分类神经网络模型的向前传播包含以下实现过程:
①、将待分类企业经营范围的词向量序列输入GRU1,生成表征经营范围的向量;
②、将待分类企业名称的词向量序列输入GRU2,生成表征企业名的向量;
③、将表征经营范围的向量和表征公司名的向量送入全连接的神经网络生成信息筛选门控制向量;
④、通过信息筛选门控制向量过滤表征经营范围的向量生成筛选后的经营范围向量;
⑤、将筛选后的经营范围向量和表征公司名的向量送入全连接的神经网络生成预测向量,再通过softmax层生成二级行业类别的概率分布。
5.如权利要求4所述的系统,其特征在于,所述步骤(1)和步骤(2)的顺序可以调换。
6.如权利要求5所述的系统,其特征在于,所述系统为加载有如权利要求1至5之一所述企业行业分类功能程序的计算机或者服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611270135.5A CN106779467A (zh) | 2016-12-31 | 2016-12-31 | 基于自动信息筛选的企业行业分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611270135.5A CN106779467A (zh) | 2016-12-31 | 2016-12-31 | 基于自动信息筛选的企业行业分类系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106779467A true CN106779467A (zh) | 2017-05-31 |
Family
ID=58951791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611270135.5A Pending CN106779467A (zh) | 2016-12-31 | 2016-12-31 | 基于自动信息筛选的企业行业分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106779467A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682217A (zh) * | 2016-12-31 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
CN107704455A (zh) * | 2017-10-30 | 2018-02-16 | 成都市映潮科技股份有限公司 | 一种信息处理方法及电子设备 |
CN108090686A (zh) * | 2017-12-29 | 2018-05-29 | 北京大学 | 一种医疗事件风险评估分析方法及系统 |
CN108171276A (zh) * | 2018-01-17 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109710768A (zh) * | 2019-01-10 | 2019-05-03 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN109710906A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市标准技术研究院 | 经营范围辅助填报方法、装置、终端设备及存储介质 |
CN109726266A (zh) * | 2018-12-21 | 2019-05-07 | 珠海市小源科技有限公司 | 短信签名处理方法、设备及计算机可读存储介质 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
CN110245226A (zh) * | 2018-10-23 | 2019-09-17 | 爱信诺征信有限公司 | 企业行业分类方法及其装置 |
CN110532996A (zh) * | 2017-09-15 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 视频分类的方法、信息处理的方法以及服务器 |
CN110888982A (zh) * | 2019-11-22 | 2020-03-17 | 成都市映潮科技股份有限公司 | 一种高精度的农产品分类方法及系统 |
CN110990529A (zh) * | 2019-11-28 | 2020-04-10 | 爱信诺征信有限公司 | 企业的行业明细划分方法及系统 |
CN111538837A (zh) * | 2020-04-27 | 2020-08-14 | 北京同邦卓益科技有限公司 | 用于分析企业经营范围信息的方法和装置 |
CN112487263A (zh) * | 2020-11-26 | 2021-03-12 | 杭州安恒信息技术股份有限公司 | 一种信息处理方法、系统、设备及计算机可读存储介质 |
CN113869639A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 长江流域企业筛选方法、装置、电子设备及存储介质 |
US11900475B1 (en) * | 2017-07-20 | 2024-02-13 | American Express Travel Related Services Company, Inc. | System to automatically categorize |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880934A (zh) * | 2012-09-07 | 2013-01-16 | 中国标准化研究院 | 一种食品企业诚信评价方法 |
US20150066496A1 (en) * | 2013-09-02 | 2015-03-05 | Microsoft Corporation | Assignment of semantic labels to a sequence of words using neural network architectures |
CN104615767A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 搜索排序模型的训练方法、搜索处理方法及装置 |
CN105956011A (zh) * | 2016-04-21 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN105956529A (zh) * | 2016-04-25 | 2016-09-21 | 福州大学 | 一种基于lstm型rnn的中国手语识别方法 |
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN105975457A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于全自动学习的信息分类预测系统 |
CN105975987A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于全自动学习的企业行业分类方法 |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及系统 |
CN105975456A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种企业实体名称分析识别系统 |
CN106682217A (zh) * | 2016-12-31 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
-
2016
- 2016-12-31 CN CN201611270135.5A patent/CN106779467A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880934A (zh) * | 2012-09-07 | 2013-01-16 | 中国标准化研究院 | 一种食品企业诚信评价方法 |
US20150066496A1 (en) * | 2013-09-02 | 2015-03-05 | Microsoft Corporation | Assignment of semantic labels to a sequence of words using neural network architectures |
CN104615767A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 搜索排序模型的训练方法、搜索处理方法及装置 |
CN105956011A (zh) * | 2016-04-21 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN105956529A (zh) * | 2016-04-25 | 2016-09-21 | 福州大学 | 一种基于lstm型rnn的中国手语识别方法 |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及系统 |
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN105975457A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于全自动学习的信息分类预测系统 |
CN105975987A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于全自动学习的企业行业分类方法 |
CN105975456A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种企业实体名称分析识别系统 |
CN106682217A (zh) * | 2016-12-31 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
Non-Patent Citations (2)
Title |
---|
JIA LI等: "Tweet Modeling with LSTM Recurrent Neural Networks for Hashtag Recommendation", 《2016 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 * |
山世光 等: "深度学习:多层神经网络的复兴与变革", 《科技导报》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682217A (zh) * | 2016-12-31 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
US11900475B1 (en) * | 2017-07-20 | 2024-02-13 | American Express Travel Related Services Company, Inc. | System to automatically categorize |
US10956748B2 (en) | 2017-09-15 | 2021-03-23 | Tencent Technology (Shenzhen) Company Limited | Video classification method, information processing method, and server |
CN110532996B (zh) * | 2017-09-15 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 视频分类的方法、信息处理的方法以及服务器 |
CN110532996A (zh) * | 2017-09-15 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 视频分类的方法、信息处理的方法以及服务器 |
CN107704455A (zh) * | 2017-10-30 | 2018-02-16 | 成都市映潮科技股份有限公司 | 一种信息处理方法及电子设备 |
CN108090686B (zh) * | 2017-12-29 | 2022-01-25 | 北京大学 | 一种医疗事件风险评估分析方法及系统 |
CN108090686A (zh) * | 2017-12-29 | 2018-05-29 | 北京大学 | 一种医疗事件风险评估分析方法及系统 |
CN108171276B (zh) * | 2018-01-17 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108171276A (zh) * | 2018-01-17 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110245226A (zh) * | 2018-10-23 | 2019-09-17 | 爱信诺征信有限公司 | 企业行业分类方法及其装置 |
CN109710906A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市标准技术研究院 | 经营范围辅助填报方法、装置、终端设备及存储介质 |
CN109726266A (zh) * | 2018-12-21 | 2019-05-07 | 珠海市小源科技有限公司 | 短信签名处理方法、设备及计算机可读存储介质 |
CN109710768B (zh) * | 2019-01-10 | 2020-07-28 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN109710768A (zh) * | 2019-01-10 | 2019-05-03 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
CN109783818B (zh) * | 2019-01-17 | 2023-04-07 | 上海三零卫士信息安全有限公司 | 一种企业行业分类方法 |
CN110888982A (zh) * | 2019-11-22 | 2020-03-17 | 成都市映潮科技股份有限公司 | 一种高精度的农产品分类方法及系统 |
CN110990529A (zh) * | 2019-11-28 | 2020-04-10 | 爱信诺征信有限公司 | 企业的行业明细划分方法及系统 |
CN110990529B (zh) * | 2019-11-28 | 2024-04-09 | 爱信诺征信有限公司 | 企业的行业明细划分方法及系统 |
CN111538837A (zh) * | 2020-04-27 | 2020-08-14 | 北京同邦卓益科技有限公司 | 用于分析企业经营范围信息的方法和装置 |
CN112487263A (zh) * | 2020-11-26 | 2021-03-12 | 杭州安恒信息技术股份有限公司 | 一种信息处理方法、系统、设备及计算机可读存储介质 |
CN113869639A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 长江流域企业筛选方法、装置、电子设备及存储介质 |
CN113869639B (zh) * | 2021-08-26 | 2023-11-07 | 中国环境科学研究院 | 长江流域企业筛选方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106779467A (zh) | 基于自动信息筛选的企业行业分类系统 | |
CN106682217A (zh) | 一种基于自动信息筛选学习的企业二级行业分类方法 | |
Paula et al. | Deep learning anomaly detection as support fraud investigation in brazilian exports and anti-money laundering | |
Revathy et al. | Sentiment analysis using machine learning: Progress in the machine intelligence for data science | |
Chitra et al. | Data mining techniques and its applications in banking sector | |
Nune et al. | Novel artificial neural networks and logistic approach for detecting credit card deceit | |
West et al. | Intelligent financial fraud detection practices: an investigation | |
Chen et al. | A hybrid approach of stepwise regression, logistic regression, support vector machine, and decision tree for forecasting fraudulent financial statements | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
CN108108744A (zh) | 用于辐射图像辅助分析的方法及其系统 | |
CN112967063B (zh) | 一种面向以太坊平台的庞氏骗局检测方法 | |
Deng et al. | Evaluating economic opportunities for product recycling via the Sherwood principle and machine learning | |
CN112182152B (zh) | 基于深度学习的新浪微博用户情感影响力分析方法 | |
CN106681989A (zh) | 一种预测微博转发概率的方法 | |
Udeze et al. | Application of machine learning and resampling techniques to credit card fraud detection | |
Zhou et al. | Generative ai, human creativity, and art | |
CN110414626A (zh) | 一种猪只品种识别方法、装置和计算机可读存储介质 | |
CN108846128A (zh) | 一种基于自适应噪音降噪编码器的跨领域文本分类方法 | |
CN110555007A (zh) | 盗号行为判别方法、装置、计算设备及存储介质 | |
Kumar et al. | A recurrent neural network model for spam message detection | |
Ling et al. | A two-level stacking model for detecting abnormal users in Wechat activities | |
Jan et al. | Detection of fraudulent financial statements using decision tree and artificial neural network | |
Lopes et al. | Identification of North American softwoods via machine-learning | |
CN114202387B (zh) | 一种基于大规模进化算法的商品推荐方法 | |
CN117009883B (zh) | 对象分类模型构建方法、对象分类方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |
|
WD01 | Invention patent application deemed withdrawn after publication |