CN111626331A - 一种自动化行业分类装置及其工作方法 - Google Patents

一种自动化行业分类装置及其工作方法 Download PDF

Info

Publication number
CN111626331A
CN111626331A CN202010325081.8A CN202010325081A CN111626331A CN 111626331 A CN111626331 A CN 111626331A CN 202010325081 A CN202010325081 A CN 202010325081A CN 111626331 A CN111626331 A CN 111626331A
Authority
CN
China
Prior art keywords
classification
data
module
industry
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010325081.8A
Other languages
English (en)
Other versions
CN111626331B (zh
Inventor
张嘉豪
傅玉峰
孙惠平
陈钟
虞丽
朱俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Chenkuo Network Technology Co ltd
Peking University
Original Assignee
Nanjing Chenkuo Network Technology Co ltd
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Chenkuo Network Technology Co ltd, Peking University filed Critical Nanjing Chenkuo Network Technology Co ltd
Priority to CN202010325081.8A priority Critical patent/CN111626331B/zh
Publication of CN111626331A publication Critical patent/CN111626331A/zh
Application granted granted Critical
Publication of CN111626331B publication Critical patent/CN111626331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机技术和智能风控信用评分应用技术领域,具体公开了一种自动化行业分类装置及其工作方法。本发明的一种自动化行业分类装置及其工作方法的有益效果在于:1、综合使用了未在其他专利中出现过且能够反映企业行业的多维数据,能够从成果、项目、人事、业务等多个方面反映企业行业范围,相比仅仅使用销售业务层面数据,能够更加准确对跨行业的企业进行准确行业分类;2、挖掘了更深层次的信息,不仅使用商品名称,更利用销售额占比来进行行业分类训练,对于企业行业分类评定更加全面和准确。

Description

一种自动化行业分类装置及其工作方法
技术领域
本发明属于计算机技术和智能风控信用评分应用技术领域,具体涉及一种自动化行业分类装置及其工作方法。
背景技术
行业分类,是指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分,可以解释行业本身所处的发展阶段及其在国民经济中的地位。在智能风控领域,行业分类对于准入、信用评分领域及授信额度评定等环节均有重要参考依据。精准快速的行业分类能够在准入环节排除政策不支持的某些行业,对于信用评分和授信额度环节,准确的行业分类能够对所属不同行业的企业进行更加准确的评分和更合理的额度审批。自动化行业分类还能够用于对一个企业进行企业画像,企业画像很重要的一个维度是企业所属行业,准确快速的行业分类能够帮助快速生成某个企业的画像,对于后续对企业的评估等都能够有所帮助。
现有传统行业分类:标准行业分类法(International Standard IndustrialClassification of All Economic Activities,SIC):为了便于汇总各国的统计资料,进行对比,联合国经济和社会事务统计局曾制定了一个《全部经济活动国际标准行业分类》(International Standard Industrial Classification of All EconomicActivities),简称《国际标准行业分类》,建议各国采用。它把国民经济划分为 10个门类,对每个门类再划分大类、中类、小类。我国也制定了了 GB/T 4754-2017《国民经济行业分类》国家标准。全球行业分类标准(Global Industry Classification Standard, GICS):该标准为全球金融业提供了一个全面的、全球统一的经济板块和行业定义。作为一个行业分类模型,GICS 已经在世界范围内得到广泛的认可,它的意义在于不仅为创造易复制的、量体裁衣的投资组合提供了坚实基础,更使得对全球范围经济板块和行业的研究更具可比性。标准普尔全球指数家族包含的所有公司都已根据GICS 进行行业分类,每一家公司都会被分到1个子行业内,同时自动的归属于相应的行业、行业组和行业板块。有 34,000 家交易活跃的公司已被分类,若包括交易不活跃的公司,则总数已超过 50,000 家。已分类的全球股票市场资产份额超过 90%。GICS 为四级分类,包括 11 个经济部门(EconomicSector),24 个行业组(Industry Group),68 个行业(Industry)和 157 个子行业(Sub-Industry)。
现有自动化行业分类:当前自动化行业分类方法一般包括如下数据来源:包括税务数据,企业名称数据,经营范围数据,主营商品数据,上游企业代码数据和下游企业代码数据中的至少一种数据,以及企业在互联网中的网页信息等企业舆情信息,同时也包括主营业务描述等内容。当前自动化行业分类方法一般使用如下一些技术:包括使用 NLP 的分词及特征词提取模块,使用聚类算法进行无监督学习,使用机器学习算法或深度学习算法进行特征分类和行业分类。其中 NLP 分词模块常用 LSTM 算法进行数据分词处理;聚类算法常用 K-means 算法或层次聚类算法进行无监督行业分类;有监督行业分类算法常见有Logistic 或 SVM 算法实现;深度学习分类算法常用的则是 RNN 神经网络进行特征训练。当前自动化行业分类方法一般用于如下一些应用场景:目前行业分类的应用场景一方面是在搜索推荐方面,如网页搜索和应用商城搜索,精准的行业分类可以根据用户的搜索关键词尽可能准确地推送用户期望的内容。自动化行业分类的另一个应用场景是用于量化交易,通过将上市企业或股票信息进行正确的行业分类,对于量化交易决策有很好的帮助
现有的技术方案:通过文献和专利检索,发现有如下三个技术方案和本提案比较接近,具体描述如下:
1. 《企业行业分类方法及其装置》通过爬虫及插件等方法获得企业名称数据,经营范围数据,主营商品数据、上游企业代码数据和下游企业代码数据,并使用上述数据进行分词处理,并删除重复数据、平滑噪声数据。使用上述数据中的至少一种进行数据进行向量化处理,处理后建立数据模型,使用 Logistics 回归,MLPC 等机器学习算法以及卷积神经网络作为第一算法得到多个数据模型,并使用第二算法对多个所属企业的行业预测分类进行综合分析,得到所属企业的行业最终分类。
2. 《一种基于自然语言处理的公司行业分类计算方法》通过爬虫网页数据,
获取包含对于预分类公司的产品或服务的文本描述的文本数据。将所有预分类公司的文本数据总和作为语料库,每个预分类公司的文本数据作为一篇文章,对预分类公司的文本数据提取特征,所述特征包括公司的产品、数据来源、TFIDF 统计和 BOW 统计。将清理后的文本数据用 GLOVE 和word2vec 作词向量训练得到词向量应用 ELMO、ULMFIT 模型和wideand deep 模型,进行训练深度学习模型。通过训练好的深度学习模型,对文本数据进行计算得到一级分类;针对每个一级分类根据数据特征的不同采用不同的模型进行单独训练,得到二级分类的分类器;根据输出的一级分类选择进入的二级分类的分类器,实现对公司的行业分类。
3. 《一种基于机器学习的行业分类方法及终端设备》使用包括经营业务信息,经人工标注的文本集合,该集合由多种行业类别的文本构成,且文本标注有对应的行业类别;对文本进行分词处理,得到文本所对应的词汇表;通过特征提取,在词汇表中获取第一预设数目的词汇作为关键词;针对获得的任一关键词,通过词向量模型得到所述关键词的词向量;将所有关键词的词向量求平均,得到第一向量;获取所有关键词的词向量中最大的词向量,得到第二向量;获取所有关键词的词向量中最小的词向量,得到第三向量;由第一向量、所述第二向量和所述第三向量,组成文本的特征向量;通过训练集训练行业分类模型;通过完成训练的行业分类模型,对待分类文本进行行业分类。行业分类模型为深度神经网络模型,包括 4 层,分别为输入层、第一隐藏层、第二隐藏层和输出层,输入层的输入为文本所对应的特征向量,第一隐藏层包括第一预设数目的节点,第二隐藏层包括第二预设数目的节点,第一隐藏层和第二隐藏层的激活函数为 relu 函数,输出层为文本的类型的概率,输出层的激活函数为 logistics 函数。
上述技术方案使用深度学习及 NLP 等方面的知识,对于企业信息进行行业分类。但是数据维度不够全面,不能全面地的反映企业的状态等信息,如企业经营范围等数据仅代表了企业经营类状况,对于公司行业分类可能存在不准确的影响。
因此,基于上述问题,本发明提供一种自动化行业分类装置及其工作方法。
发明内容
发明目的:本发明的目的是提供一种自动化行业分类装置及其工作方法,其数据的处理采用了嵌入处理,将文本类消息转为低维向量数据,并使用 RNN 进行处理,基本实现全自动,减少人工标注环节,且提高准确性。
技术方案:本发明的一方面提供一种自动化行业分类装置,由相配合使用的模块(1)、模块(2)和所属行业分类模块(3)组成;
所述模块(1),包括数据清洗模块、特征分词模块、Embedding Layer 模块,其中,模块(1)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类数据和人事类数据进行清洗,去除重复信息、噪声数据,输入原始数据格式为公司名称、专利分类 1、专利分类2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2;
模块(1)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,输入数据格式为公司名称,专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类2;
模块(1)的Embedding Layer 模块用于输入数据和输出数据,并将数据的原始表示表示成模型可处理的或者是更密集的低维表示,输入数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,输出数据格式为公司名称、[1*5 嵌入后的 vector]、[1*5 嵌入后的vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]);
所述模块(2),包括数据清洗模块、特征分词模块、特征映射模块、特征重构模块,其中,模块(2)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类数据和人事类数据进行清洗,去除重复信息、噪声数据,输入为原始数据格式为:(公司名称、[(产品 1,销售额 1)、(产品 2, 销售额 2), …],所属行业分类标签),输出数据格式为:(公司名称,[(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签);
模块(2)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,输入数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签),输出数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签);
模块(2)的特征映射模块用于输入数据和输出数据,并对分词后的产品数据进行聚类分析,聚类结果根据国家统计局发布的统计用产品分类目录标记为对应标准化产品,输入数据格式为(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签),输出数据格式为:(公司名称, [(标准化产品 1,销售额 1), (标准化产品2, 销售额 2), …],所属行业分类标签),其中标准化产品是指国家统计局发布的统计用产品分类目录下产品名称;
模块(2)的特征重构模块用于输入数据和输出数据,并将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比,作为下一模块的输入,分类器部分使用 SVM 模型进行训练,使用特征重构模块得到的训练数据作为输入,最终得到分类结果 2,输入数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2,销售额2), …],所属行业分类标签),输出数据格式为:(公司名称, 目录产品 1 销售额占比, 目录产品 2 销售额占比…, 所属行业分类标签),其中目录产品是指国家统计局发布的统计用产品分类目录下所有产品;
所属行业分类模块(3)用于输入数据和输出数据,其中,输入数据格式为:(公司名称,目录产品 1 销售额占比, 目录产品 2 销售额占比…,所属行业分类标签), 输出数据格式为:(公司名称,预测的行业分类)。
本发明的另一方面提供一种自动化行业分类装置的工作方法,包括以下步骤,步 骤1、通过模块 1对文本数据进行分词和字嵌入处理后使用 GRU 的 RNN 神经网络及线性 分类器得到分类结果 1,A)首先通过清洗模块部分对成果类数据及人事类数据进行清洗, 去除重复信息、噪声数据;B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的 数据进行分词,Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而成,通过对 Cell 状态中信 息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传递,无用的信息被丢弃,并 在每个时间步骤都会输出隐层状态,t表示某个时刻,由 t 时刻产生的输入词
Figure 619869DEST_PATH_IMAGE001
, Cell 状 态
Figure DEST_PATH_IMAGE002
,临时Cell 状态
Figure 209114DEST_PATH_IMAGE003
, 隐层状态
Figure DEST_PATH_IMAGE004
,遗忘门
Figure 454763DEST_PATH_IMAGE005
,记忆门
Figure 318814DEST_PATH_IMAGE002
,输出门
Figure DEST_PATH_IMAGE006
组成,LSTM 的计算 过程可以概括为,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用 的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态
Figure 602027DEST_PATH_IMAGE004
,其中遗忘, 记忆与输出由通过上个时刻的隐层状态
Figure 893331DEST_PATH_IMAGE007
和当前输入
Figure 425944DEST_PATH_IMAGE001
计算出来的遗忘门
Figure 828106DEST_PATH_IMAGE005
,记忆门
Figure 762564DEST_PATH_IMAGE002
,输出门
Figure 224770DEST_PATH_IMAGE006
来控制,其中
Figure DEST_PATH_IMAGE008
Figure 447941DEST_PATH_IMAGE009
为该门的权重及偏移量,上述表示为公式如下:
Figure DEST_PATH_IMAGE010
C)最后,Embedding Layer模块部分是将数据的原始表示表示成模型可处理的或者是 更密集的低维表示,使用 skip-gram 或 CBOW 中的一种对原始数据进行嵌入处理,经过 Embedding layer 的数据变为序列化数据,送入 GRU 神经单元,编码器部分使用了基于 GRU 的单层 RNN 神经网络,其中,基于 GRU 的 RNN 神经网络包含 2 个门控制部分,分别 为更新门
Figure 857056DEST_PATH_IMAGE011
和重置门
Figure DEST_PATH_IMAGE012
,公式表示如下:
Figure 114862DEST_PATH_IMAGE013
RNN 最后的隐向量作为输入传入线性分类器得到模块 1 分类结果;
步骤2、对主营商品销售额数据采用数据清洗、特征分词、特征映射及特征
重构最终送入 SVM 分类器得到模块 2 分类结果,A)首先通过清洗模块部分对成果类 数据及人事类数据进行清洗,去除重复信息、噪声数据;B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词,Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而 成,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传 递,无用的信息被丢弃,并在每个时间步骤都会输出隐层状态,由 t 时刻产生的输入词
Figure 747969DEST_PATH_IMAGE001
, Cell 状态
Figure 255174DEST_PATH_IMAGE002
,临时Cell 状态
Figure 999139DEST_PATH_IMAGE003
, 隐层状态
Figure 845872DEST_PATH_IMAGE004
,遗忘门
Figure 446618DEST_PATH_IMAGE005
,记忆门
Figure 378802DEST_PATH_IMAGE002
,输出门
Figure 926458DEST_PATH_IMAGE006
组成,LSTM 的计算过程可以概括为,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计 算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态
Figure 690014DEST_PATH_IMAGE004
,其 中遗忘,记忆与输出由通过上个时刻的隐层状态
Figure 664924DEST_PATH_IMAGE007
和当前输入
Figure 81474DEST_PATH_IMAGE001
计算出来的遗忘门
Figure 229558DEST_PATH_IMAGE005
, 记忆门
Figure 785305DEST_PATH_IMAGE002
,输出门
Figure 196694DEST_PATH_IMAGE006
来控制,其中
Figure 900208DEST_PATH_IMAGE008
Figure 524088DEST_PATH_IMAGE009
为该门的权重及偏移量,上述表示为公式如下:
Figure 465499DEST_PATH_IMAGE010
C)然后再通过特征映射模块对分词后的产品数据进行聚类分析,聚类结果
根据国家统计局发布的统计用产品分类目录标记为对应标准化产品,采用的聚类算法为 DBSCAN,它假定类别可以通过样本分布的紧密程度决定,由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个类别;D)最后再通过特征重构模块将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比,作为下一模块的输入,分类器部分使用 SVM 模型进行训练,使用特征重构模块得到的训练数据作为输入,最终得到分类结果 2;
步骤3、所属行业分类模块(3)分别接收将模块 1 分类结果、分类结果 2的数据信息,并进行行业预测分类。
本技术方案的,所述步骤2中,非线性函数将输入数据映射至高维空间后应用线性SVM 可得到非线性 SVM,是将带有约束的拉格朗日问题转化为对偶问题然后进行优化再求解;
首先对于线性可分的线性二分 SVM,主要目的就是通过学习获得一个分界线,用来分离两类对象,这个分界线可有多条,或者说要得到是一个超平面,这个超平面可表示为:
Figure DEST_PATH_IMAGE014
其中w,b分别表示超平面权值及偏移量,
而预测用的函数也就是分类决策函数表示为:
Figure 47790DEST_PATH_IMAGE015
margin 定义为距离上述直线 f(x)最近的两类样本点所构成的平行于直线 f(x)的两条直线之间的距离,计算表示为:
Figure 441862DEST_PATH_IMAGE016
而支持向量机要做的就是在全部分类都正确的情况下,获得最大的margin,其中
Figure DEST_PATH_IMAGE018
为真实值,即线性 SVM 问题可以描述为求:
Figure 135012DEST_PATH_IMAGE019
与现有技术相比,本发明的一种自动化行业分类装置及其工作方法的有益效果在于:1、本专利综合使用了未在其他专利中出现过且能够反映企业行业的多维数据,能够从成果、项目、人事、业务等多个方面反映企业行业范围,相比仅仅使用销售业务层面数据,能够更加准确对跨行业的企业进行准确行业分类;2、对于其他方案可能用到的主营商品数据,本专利挖掘了更深层次的信息,不仅使用商品名称,更利用销售额占比来进行行业分类训练,对于企业行业分类评定更加全面和准确;3、本专利数据处理阶段对产品数据进行了特征映射和重构,并且创新性地使用主营商品销售额占比作为特征之一对企业进行行业分析,通过对主营商品数据名称的映射以及对于主营商品销售额占比的重构,能够一定程度减
少训练数据难以涵盖所有产品的问题,针对企业发展的多维性,属于不同行业分类的企业销售产品可能类似,因此本专利使用了产品销售额作为特征之一,能够很好地解决此类问题。
附图说明
图1是本发明的一种自动化行业分类装置及其工作方法的工作流程结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
如图1所示的本发明的一种自动化行业分类装置,由相配合使用的模块(1)、模块(2)和所属行业分类模块(3)组成;
所述模块(1),包括数据清洗模块、特征分词模块、Embedding Layer 模块,其中,模块(1)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类数据和人事类数据进行清洗,去除重复信息、噪声数据,输入原始数据格式为公司名称、专利分类 1、专利分类2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2;
模块(1)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,输入数据格式为公司名称,专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类2;
模块(1)的Embedding Layer 模块用于输入数据和输出数据,并将数据的原始表示表示成模型可处理的或者是更密集的低维表示,输入数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,输出数据格式为公司名称、[1*5 嵌入后的 vector]、[1*5 嵌入后的vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]);
所述模块(2),包括数据清洗模块、特征分词模块、特征映射模块、特征重构模块,其中,模块(2)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类数据和人事类数据进行清洗,去除重复信息、噪声数据,输入为原始数据格式为:(公司名称、[(产品 1,销售额 1)、(产品 2, 销售额 2), …],所属行业分类标签),输出数据格式为:(公司名称,[(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签);
模块(2)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,输入数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签),输出数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签);
模块(2)的特征映射模块用于输入数据和输出数据,并对分词后的产品数据进行聚类分析,聚类结果根据国家统计局发布的统计用产品分类目录标记为对应标准化产品,输入数据格式为(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签),输出数据格式为:(公司名称, [(标准化产品 1,销售额 1), (标准化产品2, 销售额 2), …],所属行业分类标签),其中标准化产品是指国家统计局发布的统计用产品分类目录下产品名称;
模块(2)的特征重构模块用于输入数据和输出数据,并将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比,作为下一模块的输入,分类器部分使用 SVM 模型进行训练,使用特征重构模块得到的训练数据作为输入,最终得到分类结果 2,输入数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2,销售额2), …],所属行业分类标签),输出数据格式为:(公司名称, 目录产品 1 销售额占比, 目录产品 2 销售额占比…, 所属行业分类标签),其中目录产品是指国家统计局发布的统计用产品分类目录下所有产品;
所属行业分类模块(3)用于输入数据和输出数据,其中,输入数据格式为:(公司名称,目录产品 1 销售额占比, 目录产品 2 销售额占比…,所属行业分类标签), 输出数据格式为:(公司名称,预测的行业分类)。
如图1所示一种自动化行业分类装置的工作方法,包括以下步骤,步骤1、通过模块 1对文本数据进行分词和字嵌入处理后使用 GRU 的 RNN 神经网络及线性分类器得到分类 结果 1,A)首先通过清洗模块部分对成果类数据及人事类数据进行清洗,去除重复信息、噪 声数据;B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词, Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而成,通过对 Cell 状态中信息遗忘和记忆新 的信息是的对后续时刻计算有用的信息得以传递,无用的信息被丢弃,并在每个时间步骤 都会输出隐层状态,由 t 时刻产生的输入词
Figure 665350DEST_PATH_IMAGE001
, Cell 状态
Figure 215280DEST_PATH_IMAGE002
,临时Cell 状态
Figure 96649DEST_PATH_IMAGE003
, 隐层 状态
Figure 327910DEST_PATH_IMAGE004
,遗忘门
Figure 775072DEST_PATH_IMAGE005
,记忆门
Figure 433586DEST_PATH_IMAGE002
,输出门
Figure 536671DEST_PATH_IMAGE006
组成,LSTM 的计算过程可以概括为,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传递,而无用的信息 被丢弃,并在每个时间步都会输出隐层状态
Figure 368361DEST_PATH_IMAGE004
,其中遗忘,记忆与输出由通过上个时刻的 隐层状态
Figure 873292DEST_PATH_IMAGE007
和当前输入
Figure 702707DEST_PATH_IMAGE001
计算出来的遗忘门
Figure 355406DEST_PATH_IMAGE005
,记忆门
Figure 194049DEST_PATH_IMAGE002
,输出门
Figure 296696DEST_PATH_IMAGE006
来控制,其中
Figure 562592DEST_PATH_IMAGE008
Figure 437007DEST_PATH_IMAGE009
为该门的权重及偏移量,上述表示为公式如下:
Figure 813762DEST_PATH_IMAGE010
C)最后,Embedding Layer模块部分是将数据的原始表示表示成模型可处理的或者是 更密集的低维表示,使用 skip-gram 或 CBOW 中的一种对原始数据进行嵌入处理,经过 Embedding layer 的数据变为序列化数据,送入 GRU 神经单元,编码器部分使用了基于 GRU 的单层 RNN 神经网络,其中,基于 GRU 的 RNN 神经网络包含 2 个门控制部分,分别 为更新门
Figure 293285DEST_PATH_IMAGE011
和重置门
Figure 526820DEST_PATH_IMAGE012
,公式表示如下:
Figure 826214DEST_PATH_IMAGE013
RNN 最后的隐向量作为输入传入线性分类器得到模块 1 分类结果;
步骤2、对主营商品销售额数据采用数据清洗、特征分词、特征映射及特征
重构最终送入 SVM 分类器得到模块 2 分类结果,A)首先通过清洗模块部分对成果类 数据及人事类数据进行清洗,去除重复信息、噪声数据;B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词,Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而 成,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传 递,无用的信息被丢弃,并在每个时间步骤都会输出隐层状态,由 t 时刻产生的输入词
Figure 6660DEST_PATH_IMAGE001
, Cell 状态
Figure 137427DEST_PATH_IMAGE002
,临时Cell 状态
Figure 479546DEST_PATH_IMAGE003
, 隐层状态
Figure 531816DEST_PATH_IMAGE004
,遗忘门
Figure 47111DEST_PATH_IMAGE005
,记忆门
Figure 235647DEST_PATH_IMAGE002
,输出门
Figure 14247DEST_PATH_IMAGE006
组成,LSTM 的计算过程可以概括为,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计 算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态
Figure 350550DEST_PATH_IMAGE004
,其 中遗忘,记忆与输出由通过上个时刻的隐层状态
Figure 607219DEST_PATH_IMAGE007
和当前输入
Figure 712579DEST_PATH_IMAGE001
计算出来的遗忘门
Figure 662080DEST_PATH_IMAGE005
, 记忆门
Figure 157784DEST_PATH_IMAGE002
,输出门
Figure 280460DEST_PATH_IMAGE006
来控制,其中
Figure 443588DEST_PATH_IMAGE008
Figure 298412DEST_PATH_IMAGE009
为该门的权重及偏移量,上述表示为公式如下:
Figure 609308DEST_PATH_IMAGE010
C)然后再通过特征映射模块对分词后的产品数据进行聚类分析,聚类结果
根据国家统计局发布的统计用产品分类目录标记为对应标准化产品,采用的聚类算法为 DBSCAN,它假定类别可以通过样本分布的紧密程度决定,由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个类别;D)最后再通过特征重构模块将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比,作为下一模块的输入,分类器部分使用 SVM 模型进行训练,使用特征重构模块得到的训练数据作为输入,最终得到分类结果 2;
步骤3、所属行业分类模块(3)分别接收将模块 1 分类结果、分类结果 2的数据信息,并进行行业预测分类。
本技术方案的,所述步骤2中,非线性函数将输入数据映射至高维空间后应用线性SVM 可得到非线性 SVM,是将带有约束的拉格朗日问题转化为对偶问题然后进行优化再求解;
首先对于线性可分的线性二分 SVM,主要目的就是通过学习获得一个分界线,用来分离两类对象,这个分界线可有多条,或者说要得到是一个超平面,这个超平面可表示为:
Figure 473358DEST_PATH_IMAGE014
其中w,b分别表示超平面权值及偏移量,
而预测用的函数也就是分类决策函数表示为:
Figure 222484DEST_PATH_IMAGE015
margin 定义为距离上述直线 f(x)最近的两类样本点所构成的平行于直线 f(x)的两条直线之间的距离,计算表示为:
Figure 576105DEST_PATH_IMAGE016
而支持向量机要做的就是在全部分类都正确的情况下,获得最大的margin,其中
Figure 311980DEST_PATH_IMAGE018
为真实值,即线性 SVM 问题可以描述为求:
Figure 714142DEST_PATH_IMAGE019
实施例
目前中小微企业贷款的贷前准入环节及评级过程中都需要对申请企业进行
多维度的审核和评分,受小额贷款政策等多方面的影响,部分行业在准入环节会
被限制,因此,如何快速且准确地确定某个企业所属行业,对于中小微企业贷款
风控环节非常重要,本自动化行业分类装置所描述的自动化行业分类方法对于中小微企业贷款准入、信用评分和额度评估等方面有重要参考作用。
本自动化行业分类装置使用以下几类数据作为训练数据:
首先是成果数据,包括该公司所申请的专利、软件著作权、注册商标、发
表论文中的一个或多个研究类成果数据;项目数据,包括该公司的项目招标、项目中标中的一种或多种项目类成果数据;人事类数据,包括招聘信息、员工所属行业信息,上述三类数据作为本专利行业分类模块 1 的输入数据;
其次,本专利使用企业主营商品销售额数据,通过后续介绍算法,对销售额占比进行训练,作为行业分类的中间结果之一,主营商品名称被其他方案用来作为行业分类的评价标准之一,但是忽视了主营商品销售额包含的信息,本专利充分利用了上述信息,并使用其作为行业分类的另一个模块,提高行业分类的准确性;
对于上述几类数据,本专利包含两个行业分类模块:行业分类模块 1:首先去除噪声数据和重复数据,使用 NLP 分词技术对于成果数据及人事类数据进行分词,其中包括但不限于使用 LSTM 等方法进行词性标注等工作,使用嵌入方法(Embedding)对数据进行低维向量化处理,对于每条数据使用基于 GRU 神经单元的单层 RNN 作为进行编码器处理,最后对于产生的向量使用线性分类器最终构成行业分类模块 1;行业分类模块 2:对于主营业务数据,使用 NLP 方法进行分词且按照标准产品名称表标注处理后聚类,聚类结果根据国家统计局发布的统计用产品分类目录下的所有产品进行标记,得到特征映射模块,原始特征(产品名称-销售额占比)转换为产品中类-销售额占比格式得到特征重构模块,对于重构后的特征使用 Logistics 或其他机器学习算法对其进行分类,得到行业分类模块 2;对于行业分类模块 1 和模块 2 所产生的分类结果进行综合分析,得到最终所属行业。
本自动化行业分类装置的数据选取数据包括多个维度,分别是成果型数据(专利、软件著作权、商标)、项目型数据(项目招标、中标),人事型数据(简历、招聘信息、员工行业统计)以及经营型数据(主营业务名称及销售额)。所选取的上述维度能够更加全面地反映企业所属行业信息。
本自动化行业分类装置的特征处理,在模块 2 进行特征映射及特征重构步骤,目的是为了将多种类似的产品准确映射到标准商品中,进一步提高行业分类准确性,特征重构模块将特征转为标准化后的产品销售额占比,该模块对分类结果也会产生影响,此外,使用产品销售额占比作为行业分类特征进行分类,同时考虑到跨行业公司销售产品种类较多,两个主营商品相近甚至完全一致的企业所属行业可能完全不同,原因就是企业主营商品销售额比例不同,考虑上述情况,本专利使用主营商品销售额占比作为特征进行行业分类,对于主营商品相近但不属同一行业的企业做出更加精确的分类。
本自动化行业分类装置的分类算法,对于前两类类别型数据采用了基于 GRU 的RNN 神经网络来进行处理,并且使用字嵌入方法对于文本数据进行低维嵌入,最终生成序列化数据,这部分能够减少大量人工标注操作,最终得到的隐层输出使用了线性分类器,快速且准确度也较高。并且综合了使用类别型数据的 RNN 模型结果及使用数值型数据的SVM 算法结果得到最终的行业分类。
本自动化行业分类装置的使用场景,应用场景为小微企业贷款风控环节,自动化且准确度高的行业分类方案能够在准入环节和信用评分环节对企业申请和评分提供较大参考价值,在准入环节能够直接排除非准入行业的企业的申请,并根据不同行业辅助企业评分。
本自动化行业分类装置的及其工作方法的优点,数据选取,创新性使用了代表企业研发能力的专利、软件著作权数据以及能够反映企业项目能力的招标、中标信息以及实际反映企业人事状态的招聘信息、员工所属行业统计,通过上述对企业的多维分析,能够非常准确地定位企业所属行业分类;数据处理,特征处理阶段进行了特征映射,将属于同一种商品的不同商品名称转为国家统计局发布的标准商品类别名称,该模块能够有效降低因训练数据覆盖面不足导致的分类算法效果不好的问题;分类算法,使用了基于 GRU 的 RNN神经网络算法和 SVM 分类算法并通过综合分析得到行业分类结果。RNN 神经网络减少了大量人工标注的工作,并且通过低维嵌入操作,产生序列数据作为 GRU 的输入,对分类效果有很大提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进也应视为本发明的保护范围。

Claims (3)

1.一种自动化行业分类装置,其特征在于:由相互配合使用的模块(1)、模块(2)
和所属行业分类模块(3)组成;
所述模块(1),包括数据清洗模块、特征分词模块、Embedding Layer 模块,
其中,模块(1)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类数据和人事类数据进行清洗,去除重复信息、噪声数据,
输入原始数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,
输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2;
模块(1)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,
输入数据格式为公司名称,专利分类 1、专利分类 2、软著分类 1、软著分类 2、
中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类1、员工职业分类 2,
输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2;
模块(1)的Embedding Layer 模块用于输入数据和输出数据,并将数据的原始表示表示成模型可处理的或者是更密集的低维表示,
输入数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别 1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,
输出数据格式为公司名称、[1*5 嵌入后的 vector]、[1*5 嵌入后的vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的 vector]、[1*5 嵌入后的vector]、[1*5 嵌入后的 vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]);
所述模块(2),包括数据清洗模块、特征分词模块、特征映射模块、特征重构模块,
其中,模块(2)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类
数据和人事类数据进行清洗,去除重复信息、噪声数据,
输入为原始数据格式为:(公司名称、[(产品 1,销售额 1)、(产品 2, 销售额
2), …],所属行业分类标签),
输出数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签);
模块(2)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,
输入数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签),
输出数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签);
模块(2)的特征映射模块用于输入数据和输出数据,并对分词后的产品数据进行聚类分析,聚类结果根据国家统计局发布的统计用产品分类目录标记为对应标准化产品,
输入数据格式为(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签),
输出数据格式为:(公司名称, [(标准化产品 1,销售额 1), (标准化产品2, 销售额2), …],所属行业分类标签),其中标准化产品是指国家统计局发布的统计用产品分类目录下产品名称;
模块(2)的特征重构模块用于输入数据和输出数据,并将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比,作为下一模块的输入,分类器部分使用 SVM 模型进行训练,使用特征重构模块得到的训练数据作为输入,最终得到分类结果 2,
输入数据格式为:(公司名称, [(产品 1,销售额 1), (产品 2, 销售额2), …],所属行业分类标签),
输出数据格式为:(公司名称, 目录产品 1 销售额占比, 目录产品 2 销售额占比…,所属行业分类标签),其中目录产品是指国家统计局发布的统计用产品分类目录下所有产品;
所属行业分类模块(3)用于输入数据和输出数据,其中,输入数据格式为:(公司名称,目录产品 1 销售额占比, 目录产品 2 销售额占比…,所属行业分类标签), 输出数据格式为:(公司名称,预测的行业分类)。
2.根据权利要求1所述的一种自动化行业分类装置的工作方法,其特征在于:包括
以下步骤,
步骤1、通过模块 1对文本数据进行分词和字嵌入处理后使用 GRU 的 RNN 神经网络及线性分类器得到分类结果 1,
A)首先通过清洗模块部分对成果类数据及人事类数据进行清洗,去除重复信息、噪声数据;
B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词,
Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而成,通过对 Cell 状态中信息遗忘和记 忆新的信息是的对后续时刻计算有用的信息得以传递,无用的信息被丢弃,并在每个时间 步骤都会输出隐层状态,t代表不同时刻,由 t 时刻产生的输入词
Figure 339943DEST_PATH_IMAGE001
, Cell 状态
Figure 753606DEST_PATH_IMAGE002
,临时 Cell 状态
Figure 637249DEST_PATH_IMAGE003
, 隐层状态
Figure 845376DEST_PATH_IMAGE004
,遗忘门
Figure 814469DEST_PATH_IMAGE005
,记忆门
Figure 500665DEST_PATH_IMAGE002
,输出门
Figure 238814DEST_PATH_IMAGE006
组成,LSTM 的计算过程可以 概括为,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得 以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态
Figure 883422DEST_PATH_IMAGE004
,其中遗忘,记忆与输 出由通过上个时刻的隐层状态
Figure 74232DEST_PATH_IMAGE007
和当前输入
Figure 829699DEST_PATH_IMAGE001
计算出来的遗忘门
Figure 156775DEST_PATH_IMAGE005
,记忆门
Figure 706705DEST_PATH_IMAGE002
,输出门
Figure 650390DEST_PATH_IMAGE006
来控制,其中
Figure 943968DEST_PATH_IMAGE008
Figure 391130DEST_PATH_IMAGE009
为该门的权重及偏移量,上述表示为公式如下:
Figure 111961DEST_PATH_IMAGE010
C)最后,Embedding Layer模块部分是将数据的原始表示表示成模型可处理的或者是 更密集的低维表示,使用 skip-gram 或 CBOW 中的一种对原始数据进行嵌入处理,经过 Embedding layer 的数据变为序列化数据,送入 GRU 神经单元,编码器部分使用了基于 GRU 的单层 RNN 神经网络,其中,基于 GRU 的 RNN 神经网络包含 2 个门控制部分,分别 为更新门
Figure 277363DEST_PATH_IMAGE011
和重置门
Figure 374632DEST_PATH_IMAGE012
,公式表示如下:
Figure 941880DEST_PATH_IMAGE013
RNN 最后的隐向量作为输入传入线性分类器得到模块 1 分类结果;
步骤2、对主营商品销售额数据采用数据清洗、特征分词、特征映射及特征重构最终送入 SVM 分类器得到模块 2 分类结果,
A)首先通过清洗模块部分对成果类数据及人事类数据进行清洗,去除重复信息、噪声数据;
B)然后通过特征分词模块部分使用 Bi-LSTM 网络对于清洗后的数据进行分词,
Bi-LSTM 是由前向 LSTM 与后向 LSTM 组合而成,通过对 Cell 状态中信息遗忘和记 忆新的信息是的对后续时刻计算有用的信息得以传递,无用的信息被丢弃,并在每个时间 步骤都会输出隐层状态,由 t 时刻产生的输入词
Figure 576822DEST_PATH_IMAGE001
, Cell 状态
Figure 495100DEST_PATH_IMAGE002
,临时Cell 状态
Figure 130481DEST_PATH_IMAGE003
, 隐层状态
Figure 286655DEST_PATH_IMAGE004
,遗忘门
Figure 614869DEST_PATH_IMAGE005
,记忆门
Figure 489284DEST_PATH_IMAGE002
,输出门
Figure 928355DEST_PATH_IMAGE006
组成,LSTM 的计算过程可以概括为,通过对 Cell 状态中信息遗忘和记忆新的信息是的对后续时刻计算有用的信息得以传递,而无用 的信息被丢弃,并在每个时间步都会输出隐层状态
Figure 470195DEST_PATH_IMAGE004
,其中遗忘,记忆与输出由通过上个 时刻的隐层状态
Figure 703730DEST_PATH_IMAGE007
和当前输入
Figure 65441DEST_PATH_IMAGE001
计算出来的遗忘门
Figure 308204DEST_PATH_IMAGE005
,记忆门
Figure 438971DEST_PATH_IMAGE002
,输出门
Figure 843408DEST_PATH_IMAGE006
来控制, 其中
Figure 957994DEST_PATH_IMAGE008
Figure 473289DEST_PATH_IMAGE009
为该门的权重及偏移量,上述表示为公式如下:
Figure 724142DEST_PATH_IMAGE010
C)然后再通过特征映射模块对分词后的产品数据进行聚类分析,聚类结果根据国家统计局发布的统计用产品分类目录标记为对应标准化产品,采用的聚类算法为 DBSCAN,它假定类别可以通过样本分布的紧密程度决定,由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个类别;
D)最后再通过特征重构模块将最后行业分类的特征重构为国家统计局发布的统计
用产品分类目录下的所有产品在公司中的销售额占比,作为下一模块的输入,分类器部分使用 SVM 模型进行训练,使用特征重构模块得到的训练数据作为输入,最终得到分类结果 2;
步骤3、所属行业分类模块(3)分别接收将模块 1 分类结果、分类结果 2的数据
信息,并进行行业预测分类。
3.根据权利要求2所述的一种自动化行业分类装置的工作方法,其特征在于:所述
步骤2中,非线性函数将输入数据映射至高维空间后应用线性 SVM 可得到非线性SVM,是将带有约束的拉格朗日问题转化为对偶问题然后进行优化再求解;
首先对于线性可分的线性二分 SVM,主要目的就是通过学习获得一个分界线,用来分离两类对象,这个分界线可有多条,或者说要得到是一个超平面,这个超平面可表示为:
Figure 565059DEST_PATH_IMAGE014
其中,w为SVM超平面权值,b表示偏移量,x表示输入,
而预测用的函数也就是分类决策函数表示为:
Figure 901362DEST_PATH_IMAGE015
margin 定义为距离上述直线 f(x)最近的两类样本点所构成的平行于直线 f(x)的两条直线之间的距离,计算表示为:
Figure 220348DEST_PATH_IMAGE016
而支持向量机要做的就是在全部分类都正确的情况下,获得最大的margin,其中
Figure DEST_PATH_IMAGE017
为真实值,即线性 SVM 问题可以描述为求:
Figure 856866DEST_PATH_IMAGE018
CN202010325081.8A 2020-04-23 2020-04-23 一种自动化行业分类装置及其工作方法 Active CN111626331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010325081.8A CN111626331B (zh) 2020-04-23 2020-04-23 一种自动化行业分类装置及其工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010325081.8A CN111626331B (zh) 2020-04-23 2020-04-23 一种自动化行业分类装置及其工作方法

Publications (2)

Publication Number Publication Date
CN111626331A true CN111626331A (zh) 2020-09-04
CN111626331B CN111626331B (zh) 2023-10-20

Family

ID=72270815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010325081.8A Active CN111626331B (zh) 2020-04-23 2020-04-23 一种自动化行业分类装置及其工作方法

Country Status (1)

Country Link
CN (1) CN111626331B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560433A (zh) * 2020-12-15 2021-03-26 北京百炼智能科技有限公司 一种信息处理的方法及装置
CN116701633A (zh) * 2023-06-14 2023-09-05 上交所技术有限责任公司 一种基于专利大数据的行业分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253648A1 (en) * 2017-03-01 2018-09-06 Synaptics Inc Connectionist temporal classification using segmented labeled sequence data
CN108960772A (zh) * 2018-06-27 2018-12-07 北京窝头网络科技有限公司 基于深度学习的企业评审辅助方法及系统
CN110148043A (zh) * 2019-03-01 2019-08-20 安徽省优质采科技发展有限责任公司 基于知识图谱的招标采购信息推荐系统及推荐方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253648A1 (en) * 2017-03-01 2018-09-06 Synaptics Inc Connectionist temporal classification using segmented labeled sequence data
CN108960772A (zh) * 2018-06-27 2018-12-07 北京窝头网络科技有限公司 基于深度学习的企业评审辅助方法及系统
CN110148043A (zh) * 2019-03-01 2019-08-20 安徽省优质采科技发展有限责任公司 基于知识图谱的招标采购信息推荐系统及推荐方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560433A (zh) * 2020-12-15 2021-03-26 北京百炼智能科技有限公司 一种信息处理的方法及装置
CN112560433B (zh) * 2020-12-15 2024-04-19 北京百炼智能科技有限公司 一种信息处理的方法及装置
CN116701633A (zh) * 2023-06-14 2023-09-05 上交所技术有限责任公司 一种基于专利大数据的行业分类方法

Also Published As

Publication number Publication date
CN111626331B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Alaparthi et al. Bidirectional Encoder Representations from Transformers (BERT): A sentiment analysis odyssey
CN109739844B (zh) 基于衰减权重的数据分类方法
CN112070543B (zh) 一种电商网站中评论质量的检测方法
Choudhury et al. A machine learning approach to identify potential customer based on purchase behavior
CN114119058A (zh) 用户画像模型的构建方法、设备及存储介质
Tsai et al. A comparative study of hybrid machine learning techniques for customer lifetime value prediction
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
CN115906842A (zh) 一种政策信息识别方法
Nabi et al. Unleashing Deep Learning: Transforming E-commerce Profit Prediction with CNNs
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
Darena et al. Machine learning-based analysis of the association between online texts and stock price movements
Aue et al. Predicting Companies' ESG Ratings from News Articles Using Multivariate Timeseries Analysis
CN117076672A (zh) 文本分类模型的训练方法、文本分类方法及装置
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
Bag et al. Stock price trend prediction and recommendation using cognitive process
CN111008861A (zh) 基于智能预测的商品在线交易系统及方法
CN116385151A (zh) 基于大数据进行风险评级预测的方法及计算设备
CN114049165B (zh) 一种采购系统的商品比价方法、装置、设备和介质
Anastasopoulos et al. Computational text analysis for public management research: An annotated application to county budgets
Nimje et al. Prediction on stocks using data mining
Zhao A dynamic pricing mechanism model based on sentiments analysis
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
Özsürünç The role of data mining in digital transformation
Wang et al. Use product segmentation to enhance the competitiveness of enterprises in the IoT
Vaca et al. Board of Directors' Profile: A Case for Deep Learning as a Valid Methodology to Finance Research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant