CN105975457A - 基于全自动学习的信息分类预测系统 - Google Patents

基于全自动学习的信息分类预测系统 Download PDF

Info

Publication number
CN105975457A
CN105975457A CN201610286695.3A CN201610286695A CN105975457A CN 105975457 A CN105975457 A CN 105975457A CN 201610286695 A CN201610286695 A CN 201610286695A CN 105975457 A CN105975457 A CN 105975457A
Authority
CN
China
Prior art keywords
neural network
recurrent neural
enterprise
classification
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610286695.3A
Other languages
English (en)
Inventor
刘世林
何宏靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201610286695.3A priority Critical patent/CN105975457A/zh
Publication of CN105975457A publication Critical patent/CN105975457A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,特别涉及基于全自动学习的信息分类预测系统,所述系统包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块,其中所述数据存储模块用于存储基础数据;所述词典映射表将待分类信息文本中的词映射成向量数据后输入对应时刻递归神经网络中;所述递归神经网络在递归结束后预测出待分类信息的分类概率。本发明系统打破了自然语言与神经网络技术的领域壁垒,实现基于自然语言分析的企业行业自动分类;不需要进行手动的特征选取,避免了传统方法中手动选取特征偏离具体样本的缺陷,使用了递归神经网络,更长的序列特征可以被模型所捕获,提升行业分类的准确性,为相关数据分析提供快速可靠的行业分类工具。

Description

基于全自动学习的信息分类预测系统
技术领域
本发明涉及自然语言处理领域,特别涉及基于全自动学习的信息分类预测系统。
背景技术
随着社会的进步和市场的繁荣和发展,中国经济一直处于高速的发展轨道上,企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况,发现潜在经营风险。而对企业主体的分析离不开对对行业归属的界定,不同行业的企业有着某些共同的行业特点和行业属性;经济、金融学家在计算国家经济指标的时候通常也希望了解各个行业分别的情况。如今我们国家已经有了数千万家的工商注册的企业,一般来讲,工商管理部门在企业注册的时候都会强制要求其注明经营范围,但是从分散的经营范围中并不能直观的得出该企业的行业归属,除了上市公司会在网上公开自己的行业类别以外,其他大部分企业的行业类别都是未公开告知的。面对千万级数量的企业进行手动的分类标注,将耗费大量的人力和物力,为了解决这个问题,可以使用自然语言处理和机器学习的方式对经营范围进行数据挖掘。
传统的自然语言处理和机器学习的方法常常采用的是手动提取特征,比如词频(TF),逆向文件频率(IDF),互信息(Mutual Information),多阶语言模型(N-gram)等,然后将多个特征串联起来组成一个高维度的特征向量,之后便可以使用传统的机器学习的各种分类器,比如支持向量机(SVM),贝叶斯网络(BN),智能神经网络(ANN)等。但是这些传统的基于自然语言分类方法的实现都是通过手动设计的特征,特征的选取和分析方式复杂,需要耗费较多的成本,并且这些特征都是针对常规文本分类问题提出的,而不存在对具体问题的依赖,这就会造成前端特征与后端任务的脱节,导致前端花费大量精力去构思出来的特征可能根本与指定的任务不相关。
从另外一个角度来看,自然语言存在强烈的序列依赖关系,比如“计算机硬件研发”,这里的三个关键词就不能拆开来看,否则将无法准确表达这个是与计算机相关的硬件研发,而不是计算机研发(一般都包括了软、硬件)或者其他比如机械的硬件研发。传统的特征提取的方法很难捕获这样的序列依赖特征,这是因为当N比较大的时候,N-gram的语言模型规模过于庞大(即词典大小的N次方),直接导致提取出来的特征维度无法进行后续的分类任务。
基于上述原因和现状急需一种高效率、适应性强的企业行业自动分类工具。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供基于全自动学习的信息分类预测系统。本发明系统使用递归神经网络对待分类的企业经营范围进行全自动特征学习,通过对自然语言的基本单元,比如字、词、标点符号等进行特征的全自动学习,从而打破了自然语言与神经网络技术的领域壁垒,以实现基于自然语言分析的企业行业分类的目的。
为了实现上述发明目的,本发明提供了以下技术方案:
基于全自动学习的信息分类预测系统,包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块,其中所述数据存储模块用于存储需要进行分类的基础数据;
所述词典映射表将待分类信息文本中的词映射成向量数据后依次输入到对应时刻的所述递归神经网络中;
所述递归神经网络的输入信号即包括当前时刻向量化的字词信号,还包括上一时刻递归神经网络的输出信号,所述递归神经网络在递归结束后预测出待分类信息的分类概率。所述系统根据待分类企业的工商登记信息自动预测出该企业的行业分类。
具体的,所述递归神经网络模块中递归神经网络采用如下向前算法公式:
a h t = Σ i I w i h x i t + Σ h ′ H w h ′ h b h ′ t - 1
b h t = θ ( a h t )
a k T = Σ h H w h k b h T
y k T = exp ( a k T ) Σ k ′ k exp ( a k ′ T )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为自然语言向量化后的特征数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;为序列最后时刻递归神经网络输出层神经元的输入;为最后时刻递归神经网络隐含层神经元的输出;为序列最后时刻递归神经网络输出层神经元的输出。
进一步的,所述系统实现的企业行业自动分类包含以下步骤:
(1)在待分类企业中随机选择数量为X的企业进行行业分类的人工标注,并在标注样本集中随机选取70%的样本作为训练样本,选取30%的样本为开发样本;
(2)将训练样本输入到所述递归神经网络中,训练所述递归神经网络;
(3)当所述递归神经网络训练完毕,将待分类的企业工商注册信息中的自然语言序列经过词典映射表模块转换成向量数据后输入到所述递归神经网络中,由所述递归神经网络自动预测出待分类企业的行业归属。
进一步的,还包括分词模块,所述分词模块将待处理文本转换成字、词序列后输入词典映射表中进行向量转换。
进一步的,所述步骤(3)包含以下实现步骤:
(3-1)构造词典映射表,将自然语言转化成向量数据;
(3-2)将训练样本中的企业经营范围自然语言序列经过所述词典映射表转化成对应的向量数据后,依次输入到每个时刻的递归神经网络中;
(3-3)所述递归神经网络隐含层神经元的输出信号包括本时刻的向量化的输入信号以及上一时刻的递归神经网络隐含层神经元的输出信号;
依次递归,直到该样本中的企业经营范围输入完毕后,停止递归,由最后时所述递归神经网络输出层神经元的最大输出值对应的分类为目标企业的行业分类。
进一步的,所述递归神经网络模块为加载有上述递归神经网络程序功能的计算机、服务器或者移动智能终端。
进一步的,所述系统为加载有上述程序功能的计算机、服务器或者移动智能终端。
与现有技术相比,本发明的有益效果:本发明提供基于全自动学习的信息分类预测系统,系统使用递归神经网络根据企业工商注册信息中的经营范围所包含的自然语言来进行行业归属的自动预测。本发明使用词典映射表将自然语言信息转换成为向量信息,向量化的自然语言就可以应用于神经网络的训练和学习中,从而打破了自然语言与神经网络技术之间的壁垒,为自然语言的自动处理开辟了全新道路。此外,本发明中使用递归神经网络来进行企业行业的自动分类,在使用中每个时刻递归神经网络的输入信息除了包含向量化的自然语言的输入信号以外,还包括上一时刻的递归神经网络输出信息,这样每个后一时刻的递归神经网络的输入信息都包含先前时刻的输出信号,相应的行业预测结果的依据包含该时刻之前的所有的经营范围信息,巧妙的应用了自然语言的序列依赖性的特点,依据更加全面,预测结果更加合理准确;同时还解决了长序列的自然语言的自动处理问题,无需手动设置特征,处理过程简单方便,处理效率较传统的方式显著提高。
总之本发明系统,系统克服了手动设计的数据特征与具体任务目标相互独立的缺点,使得开发者更加关注于任务本身和数据储备,提升了工作效率,又由于使用了递归神经网络,更长的序列特征可以被模型所捕获,从而可以大幅度提升行业分类的准确性,为企业、金融分析提供简单可靠的行业分类工具。
附图说明:
图1为本基于全自动学习的信息分类预测系统的模块连接关系示意图。
图2为本基于全自动学习的信息分类预测系统步骤(3)的具体实现过程示意图。
图3为本基于全自动学习的信息分类预测系统实现企业行业分类的信号流向示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供基于全自动学习的信息分类预测系统,本发明系统使用递归神经网络对待分类的企业经营范围进行全自动特征学习,通过对自然语言的基本单元,比如字、词、标点符号等,进行特征的全自动学习,从而打破了自然语言与神经网络技术的领域壁垒,以实现基于自然语言分析的企业行业分类的目的。
本发明系统如图1所示,包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块,其中所述数据存储模块用于存储需要进行分类的基础数据;
所述词典映射表将待分类信息文本中的词映射成向量数据后依次输入到对应时刻的所述递归神经网络中;
所述递归神经网络的输入信号既包括当前时刻向量化的字词信号,也包括上一时刻递归神经网络的输出信号,所述递归神经网络在递归结束后预测出待分类信息的分类概率,所述系统根据待分类企业的工商登记信息自动预测出该企业的行业分类。
具体的,所述递归神经网络模块中递归神经网络采用如下向前算法公式:
a h t = Σ i I w i h x i t + Σ h ′ H w h ′ h b h ′ t - 1
b h t = θ ( a h t )
a k T = Σ h H w h k b h T
y k T = exp ( a k T ) Σ k ′ k exp ( a k ′ T )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为自然语言向量化后的特征数据,为当前时刻自然语言向量化后的特征数据在该维度的值,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出(特别的b0=0),θ()为的函数;wih、wh′h对应的权重参数,在一次向前算法传递过程中,参数wih、wh′h均是跨时序共享的,所谓跨时序共享是指递归神经网络在一次信号正向传递过程中,各个时刻wih、wh′h的值保持不变(并非wih=wh′h),不同时刻RNN的wih、wh′h值相同,降低了模型参数的复杂程度,也避免了模型复杂度的线性增长而可能导致的过拟合。为序列最后时刻递归神经网络输出层神经元的输入;为最后时刻递归神经网络隐含层神经元的输出;whk为输出层各神经元对应的权重;为序列最后时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例,一般情况下,将选择值最大的输出神经元对应的行业类别为该时刻递归神经网络的预测结果。
进一步的,所述系统实现的企业行业自动分类包含以下步骤:
(1)在待分类企业中随机选择数量为X的企业进行行业分类的人工标注,比如在千万家的企业中选取X=2000家的企业来进行行业分类的人工标注,在进行人工标注时,根据该企业的工商登记信息中的经营范围所记载的自然语言来界定,比如在企业经营范围中包含“计算机”“网络服务”“通信服务”等则可以将其企业行业标注为“信息传输、软件和信息技术服务业”。
具体的,本发明系统在进行模型训练标注训练样本时,根据企业登记营业范围将企业行业范围划分为设定的行业,比如说:“采矿业”、“制造业”、“租赁和商业服务业”、“科学研究和技术服务业”、“水利、环境和公共实施管理业”、“居民服务、修理和其他服务业”、“住宿和餐饮业”、“信息传输、软件和信息技术服务业”、“金融业”、“房地产业”、“国际组织”、“卫生”、“教育”、“公共管理、社会保障和社会组织”、“文化、体育和娱乐业”、“财务企业”和“其他”。
值得注意的是为了使得递归神经网络的训练方向更加合理,根据行业种类的划分情况,在递归神经网络训练过程中,通过开发样本来检测递归神经网络的训练程度,当在开发样本上的分类准确率达到设定的阈值时,就可以认为递归神经网络的训练完成,在训练过程中仅保留在开发集上分类准确率最高的递归神经网络模型。
具体的,在标注样本集中随机选取70%的样本作为训练样本,选取30%的样本为开发样本;这样能够保证开发集与训练集的一致性,排出无关干扰因素,使得验证的效果更加准确、直观。
(2)将训练样本输入到所述递归神经网络中,训练所述递归神经网络;将人工标注的训练样本输入到所述递归神经网络中,训练所述递归神经网络;本发明采用上述向前算法在递归神经网络中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进而修正各神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改各个神经元的权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达到设定的阈值,停止训练,此时可认为所述递归神经网络模型已经训练完成。
(3)当所述递归神经网络训练完毕,将数据存储模块中存储的待分类企业注册信息的自然语言序列转换成向量数据后输入到所述递归神经网络中,由所述递归神经网络自动预测出待分类企业的行业归属。
进一步的,所述步骤(3)包含如图2所示的以下实现步骤:
(3-1)构造词典映射表,所述词典映射表为一个二维矩阵,行数为词典的大小,列数(行向量的维度)根据词典的大小和数据的规模来设定,词典映射表的目的为将企业经营范围中包含的字(或词)特征化,向量化,简单说来,词典映射表就是一个二维矩阵,其中每一个行向量对应一个字或者一个词,而这种行向量与字词的对应关系是在构建这个词典映射表时设置的;比如说将“计算机”映射为“00000010000000”,将“硬件”映射为“00000000000010”,将“研发”映射为“01000000000000”……特别的,为了使训练和识别的过程简洁在构建词典映射表时,对高频词比如说“的”、“了”进行过滤处理。
(3-2)将训练样本中的企业经营范围中包含的自然语言序列经过所述词典映射表转化成对应的向量数据后,依次输入到每个时刻的递归神经网络中;
(3-3)所述递归神经网络根据本时刻的输入信号以及上一时刻的递归神经网络的输出信号计算出本时刻的该企业的行业分类预测;
依次递归,直到该样本中的企业经营范围中包含的自然语言序列输入完毕后,停止递归,并将该时刻递归神经网络预测的行业分类,作为该企业样本的行业分类结果,本系统实现企业行业分类自动预测的信号流程如图3所示,其中“V1”、“V2”、“V3”、“V4”、“V5”、“V6”、“V7”、“V8”、“V9”、“V10”、“V11”、“V12”、“V13”、“V14”、“V15”为词典映射表中对应的行向量。
进一步的,本发明系统还包括分词模块,所述分词模块将待处理文本转换成字、词序列后输入词典映射表中进行向量转换。比如说将“生产通信设备”分词成“生产/通信/设备”,或者将“光通信交换设备的技术开发”分词成“光通信/交换设备/的/技术开发”等等,本分词方式根据用户的需要来设置,适当的分词有利于将超长的自然语言分解为具有独立语言含义的单元,有利于自然语言的语义提取和相应处理,在本发明中,适当的分词也有利于根据分词结果构建对应的词典映射表。
具体的,本分词方法应该与词典映射表的映射关系相对应,具体的,当“生产通信设备”分词成“生产/通信/设备”,而“光通信交换设备的技术开发”分词成“光通信/交换设备/的/技术开发”。那么在构建词典映射表中就应该包含词语:“生产”、“通信”、“设备”、“光通信”、“交换设备”、“的”、“技术开发”等词语的对应的向量映射关系。
进一步的,所述递归神经网络模块为加载有上述递归神经网络程序功能的计算机、服务器或者移动智能终端。
进一步的,所述系统为加载有上述程序功能的计算机、服务器或者移动智能终端;所述计算机、服务器或者移动智能终端为本发明系统功能的实现提供硬件支持。

Claims (8)

1.基于全自动学习的信息分类预测系统,其特征在于,包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块,其中所述数据存储模块用于存储需要进行分类的基础数据;
所述词典映射表将待分类信息文本中的词映射成向量数据后,依次输入到对应时刻的所述递归神经网络模块中;
所述递归神经网络模块的输入信号即包括当前时刻向量化的字词信号,还包括上一时刻递归神经网络的输出信号,所述递归神经网络在递归结束后预测出待分类信息的分类概率。
2.如权利要求1所述的系统,其特征在于:所述系统根据待分类企业的工商登记信息自动预测出该企业的行业分类。
3.如权利要求2所示的系统,其特征在于:所述递归神经网络模块中递归神经网络采用如下向前算法公式:
a h t = Σ i I w i h x i t + Σ h ′ H w h ′ h b h ′ t - 1
b h t = θ ( a h t )
a k T = Σ h H w h k b h T
y k T = exp ( a k T ) Σ k ′ k exp ( a k ′ T )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为自然语言向量化后的特征数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;为序列最后时刻递归神经网络输出层神经元的输入;为最后时刻递归神经网络隐含层神经元的输出;为序列最后时刻递归神经网络输出层神经元的输出。
4.如权利要求1至3之一所述的系统,其特征在于:所述系统实现的企业行业自动分类包含以下步骤:
(1)在待分类企业中随机选择数量为X的企业进行行业分类的人工标注,并在标注样本集中随机选取70%的样本作为训练样本,选取30%的样本为开发样本;
(2)将训练样本输入到所述递归神经网络中,训练所述递归神经网络;
(3)当所述递归神经网络训练完毕,将待分类的企业注册信息中的自然语言序列经过词典映射表模块转换成向量数据后输入到所述递归神经网络中,由所述递归神经网络自动预测出待分类企业的行业归属。
5.如权利要求4所述的系统,其特征在于:还包括分词模块,所述分词模块将待处理文本转换成字、词序列后输入词典映射表中进行向量转换。
6.如权利要求5所述的系统,其特征在于,所述步骤(3)包含以下实现步骤:
(3-1)构造词典映射表,将自然语言转化成向量数据;
(3-2)将训练样本中的企业经营范围自然语言序列经过所述词典映射表转化成对应的向量数据后,依次输入到每个时刻的递归神经网络中;
(3-3)所述递归神经网络隐含层神经元的输出信号包括本时刻的向量化的输入信号以及上一时刻的递归神经网络隐含层神经元的输出信号;
依次递归,直到该样本中的企业经营范围输入完毕后,停止递归,由最后时所述递归神经网络输出层神经元的最大输出值对应的分类为目标企业的行业分类。
7.如权利要求6所述的系统,其特征在于,所述递归神经网络模块为加载有如权利要求1至4之一所述递归神经网络程序功能的计算机、服务器或者移动智能终端。
8.如权利要求7所述的系统,其特征在于,所述系统为加载有权利要求1至6之一所述程序功能的计算机、服务器或者移动智能终端。
CN201610286695.3A 2016-05-03 2016-05-03 基于全自动学习的信息分类预测系统 Pending CN105975457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610286695.3A CN105975457A (zh) 2016-05-03 2016-05-03 基于全自动学习的信息分类预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610286695.3A CN105975457A (zh) 2016-05-03 2016-05-03 基于全自动学习的信息分类预测系统

Publications (1)

Publication Number Publication Date
CN105975457A true CN105975457A (zh) 2016-09-28

Family

ID=56994308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610286695.3A Pending CN105975457A (zh) 2016-05-03 2016-05-03 基于全自动学习的信息分类预测系统

Country Status (1)

Country Link
CN (1) CN105975457A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
CN108182470A (zh) * 2018-01-17 2018-06-19 深圳市唯特视科技有限公司 一种基于注意模块的递归神经网络的用户识别方法
CN108197657A (zh) * 2018-01-04 2018-06-22 成都寻道科技有限公司 一种基于校园数据的学生经济状况预测方法
CN109697049A (zh) * 2018-12-28 2019-04-30 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
CN109710768A (zh) * 2019-01-10 2019-05-03 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法
CN110059692A (zh) * 2019-04-16 2019-07-26 厦门商集网络科技有限责任公司 一种识别企业所属行业的方法及终端
CN110321549A (zh) * 2019-04-09 2019-10-11 广州数说故事信息科技有限公司 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
JP2020516897A (ja) * 2017-04-14 2020-06-11 清華大学Tsinghua University 検査方法及び検査設備
CN114389688A (zh) * 2022-01-04 2022-04-22 烽火通信科技股份有限公司 一种光模块性能预测的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梁军 等: "基于极性转移和LSTM递归网络的情感分析", 《中文信息学报》 *
胡新辰: "基于LSTM的语义关系分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
JP2020516897A (ja) * 2017-04-14 2020-06-11 清華大学Tsinghua University 検査方法及び検査設備
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法
CN108197657A (zh) * 2018-01-04 2018-06-22 成都寻道科技有限公司 一种基于校园数据的学生经济状况预测方法
CN108182470A (zh) * 2018-01-17 2018-06-19 深圳市唯特视科技有限公司 一种基于注意模块的递归神经网络的用户识别方法
CN109697049A (zh) * 2018-12-28 2019-04-30 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
CN109710768A (zh) * 2019-01-10 2019-05-03 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN109710768B (zh) * 2019-01-10 2020-07-28 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN110321549A (zh) * 2019-04-09 2019-10-11 广州数说故事信息科技有限公司 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN110059692A (zh) * 2019-04-16 2019-07-26 厦门商集网络科技有限责任公司 一种识别企业所属行业的方法及终端
CN114389688A (zh) * 2022-01-04 2022-04-22 烽火通信科技股份有限公司 一种光模块性能预测的方法和装置
CN114389688B (zh) * 2022-01-04 2023-06-13 烽火通信科技股份有限公司 一种光模块性能预测的方法和装置

Similar Documents

Publication Publication Date Title
CN105975457A (zh) 基于全自动学习的信息分类预测系统
CN105975987A (zh) 一种基于全自动学习的企业行业分类方法
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN107368468A (zh) 一种运维知识图谱的生成方法及系统
CN107832400A (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN107122416A (zh) 一种中文事件抽取方法
CN106445919A (zh) 一种情感分类方法及装置
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN105976056A (zh) 基于双向rnn的信息提取系统
CN104346440A (zh) 一种基于神经网络的跨媒体哈希索引方法
CN112732915A (zh) 情感分类方法、装置、电子设备及存储介质
CN105975555A (zh) 一种基于双向递归神经网络的企业简称提取方法
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
CN112800229B (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN106484813A (zh) 一种大数据分析系统及方法
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN105574213A (zh) 一种基于数据挖掘技术的微博推荐方法及装置
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
Jia et al. Representation of job-skill in artificial intelligence with knowledge graph analysis
WO2023108985A1 (zh) 绿色资产的占比的识别方法及相关产品
Wang et al. Convolutional recurrent neural networks for knowledge tracing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160928

WD01 Invention patent application deemed withdrawn after publication