CN114444504A - 一种企业业务分类编码方法、装置、设备及可读存储介质 - Google Patents

一种企业业务分类编码方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114444504A
CN114444504A CN202210371122.6A CN202210371122A CN114444504A CN 114444504 A CN114444504 A CN 114444504A CN 202210371122 A CN202210371122 A CN 202210371122A CN 114444504 A CN114444504 A CN 114444504A
Authority
CN
China
Prior art keywords
enterprise
business
classifier
text
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210371122.6A
Other languages
English (en)
Other versions
CN114444504B (zh
Inventor
刘思婧
王鸿鉴
李国旗
刘强
吴博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Pilot Free Trade Zone Tongyu Park Operation Co ltd
Southwest Jiaotong University
Original Assignee
Sichuan Pilot Free Trade Zone Tongyu Park Operation Co ltd
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Pilot Free Trade Zone Tongyu Park Operation Co ltd, Southwest Jiaotong University filed Critical Sichuan Pilot Free Trade Zone Tongyu Park Operation Co ltd
Priority to CN202210371122.6A priority Critical patent/CN114444504B/zh
Publication of CN114444504A publication Critical patent/CN114444504A/zh
Application granted granted Critical
Publication of CN114444504B publication Critical patent/CN114444504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种企业业务分类编码方法、装置、设备及可读存储介质,涉及计算机技术领域,包括获取至少一个待分类企业的信息和数据集;对数据集内所有的经营范围进行编号并扩展向量化得到每个经营范围对应的向量数据集;建立基于深度学习算法的两级分类编码数学模型,并根据向量数据集训练两级分类编码数学模型;将所有待分类企业的企业经营范围向量化后输入到两级分类编码数学模型,并求解模型得到每个待分类企业的业务对应的编号,本发明通过获取得到经营范围通过三种不同向量方式表示,其目的在于充分提取文本特征并改变现有技术中仅单一向量表示而可能忽略词语在不同位置的含义区别,更能解决文本中差异化用语习惯给文本含义带来的影响。

Description

一种企业业务分类编码方法、装置、设备及可读存储介质
技术领域
本发明涉及计算机技术领域,具体而言,涉及企业业务分类编码方法、装置、设备及可读存储介质。
背景技术
目前,我国企业的经营业务存在大量重复、相似以及错误等信息,若是想面对企业进行研究,通过现有企业经营业务数据判断企业所属行业是具有偏差的,因此经营业务数据亟待进行标准化以提升数据质量,并让政府部门更便于管理和维护,但是现有算法尚未有一种能对企业经营业务进行自动化分类并编码。
发明内容
本发明的目的在于提供一种企业业务分类编码方法、装置、设备及可读存储介质,以改善上述问题。为了实现上述目的,本发明采取的技术方案如下:
第一方面,本申请提供了一种企业业务分类编码方法,包括:获取至少一个待分类企业的信息和数据集,所述待分类企业的信息包括待分类企业名称和待分类企业经营范围,所述数据集包括至少两条企业经营范围;对所述数据集内所有的所述经营范围进行编号并扩展向量化得到每个所述经营范围对应的向量数据集,所述向量数据集包括的第一文本向量、第二文本向量、第三文本向量和编号;建立基于深度学习算法的两级分类编码数学模型,并根据所述向量数据集训练所述两级分类编码数学模型;将所有所述待分类企业的待分类企业经营范围向量化后输入到所述两级分类编码数学模型,并求解所述两级分类编码数学模型得到每个所述待分类企业的业务对应的编号。
第二方面,本申请还提供了一种企业业务分类编码装置,包括:获取单元,用于获取至少一个待分类企业的信息和数据集,所述待分类企业的信息包括待分类企业名称和待分类企业经营范围,所述数据集包括至少两条企业经营范围;预处理单元,用于对所述数据集内所有的所述经营范围进行编号并扩展向量化得到每个所述经营范围对应的向量数据集,所述向量数据集包括的第一文本向量、第二文本向量、第三文本向量和编号;模型建立单元,用于建立基于深度学习算法的两级分类编码数学模型,并根据所述向量数据集训练所述两级分类编码数学模型;企业业务分类单元,用于将所有所述待分类企业的待分类企业经营范围向量化后输入到所述两级分类编码数学模型,并求解所述两级分类编码数学模型得到每个所述待分类企业的业务对应的编号。
第三方面,本申请还提供了一种企业业务分类编码设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述企业业务分类编码方法的步骤。
第四方面,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于企业业务分类编码方法的步骤。
本发明的有益效果为:
本发明通过获取得到的企业信息中的经营范围通过三种不同的向量方式表示,其目的在于改变现有技术中仅仅通过单一的向量表示方法而无法充分提取文本特征以及并且可能忽略了一些词语在不同位置的含义区别,通过采用三种文本向量表示的方法,最大的解决文本中差异化用语习惯给文本含义带来的影响,依次达到提升在神经网络在文本特征时的效果,提升本方法整体的泛化性和鲁棒性。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中所述的企业业务分类编码方法流程示意图;
图2为本发明实施例中所述的企业业务分类编码装置结构示意图;
图3为本发明实施例中所述的颠倒扩展单元结构示意图;
图4为本发明实施例中所述的企业业务分类编码设备结构示意图。
图中标记:1、获取单元;2、预处理单元;21、拆分单元;22、编号单元;23、扩展单元;231、标注单元;232、替换单元;233、颠倒扩展单元;2331、遍历替换单元;2332、第一逻辑单元;2333、第二逻辑单元;24、向量化单元;241、第一转化单元;242、第二转化单元;243、第三转化单元;3、模型建立单元;31、第一构建单元;32、第二构建单元;4、企业业务分类单元;800、企业业务分类编码设备;801、处理器;802、存储器;803、多媒体组件;804、I/O接口;805、通信组件。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本申请所提及的BERT数学模型的全称为BidirectionalEncoder Representation from Transformers,是一个预训练的语言表征模型。Word2vec数学模型是一群用来产生词向量的相关模型。
实施例1:
本实施例提供了一种企业业务分类编码方法。
参见图1,图中示出了本方法包括步骤S100、步骤S200、步骤S300和步骤S400。
S100、获取至少一个待分类企业的信息和数据集,待分类企业的信息包括待分类企业名称和待分类企业经营范围,所述数据集包括至少两条企业经营范围。
具体而言,在本申请中待分类企业的信息和数据集均可以由国家企业信用信息公示系统上采集。
S200、对数据集内所有的经营范围进行编号并扩展向量化得到每个经营范围对应的向量数据集,向量数据集包括的第一文本向量、第二文本向量、第三文本向量和编号。
具体而言,在本申请中,第一文本向量、第二文本向量和第三文本向量三者互不相同,且第一文本向量由TF-IDF 算法提取得到,第二文本向量由Word2Vec数学模型提取得到,第三文本向量由BERT数学模型提取得到。而编号信息是由《国民经济行业分类》2017版的定义得到的编号。
可以理解的是,在本申请中的数据集也是经过上述相同处理得到的数据。
S300、建立基于深度学习算法的两级分类编码数学模型,并根据向量数据集训练两级分类编码数学模型。
需要说明的是,模型的训练过程为现有技术中,本申请中不在赘述。
S400、将所有待分类企业的待分类企业经营范围向量化后输入到两级分类编码数学模型,并求解两级分类编码数学模型得到每个待分类企业的业务对应的编号。
在本申请中对于获取得到的待分类企业的信息中的经营范围通过三种不同的向量方式表示,其目的在于改变现有技术在仅仅通过单一的向量表示方法无法充分提取文本特征以及可能忽略词语在不同位置的含义区别。在本申请中通过采用三种文本向量表示的方法,最大的解决文本中同义词、多义词、词语位置等给文本含义带来的影响,依次达到提升在神经网络在文本特征时的效果。提升本方法整体的泛化性和鲁棒性,能够有效地根据《国民经济行业分类》(GB/T 4754—2017)对经营业务进行分类和四位码编码,解决现有企业经营业务杂乱的问题,为企业经营业务代码化管理提供支撑。
具体而言,在本申请中为了进一步实现文本向量化包括步骤S210、步骤S220、步骤S230和步骤S240。
S210、对经营范围进行拆分得到至少一条单一经营业务。
可以理解的是,在本申请中利用Excel中的数据分列功能,将经营范围数据拆分为单一经营业务。同时对于本领域技术人员也可以通过其他方法实现,本申请中做出具体的限制。
S220、根据预设规则对每个单一经营业务进行编号。
在步骤中通过根据《国民经济行业分类》(GB/T 4754—2017)中的小类别四位码对经营业务进行人工编码。
S230、对每个单一经营业务进行语义扩展得到至少一个扩展文本,其中,扩展数据包括同义词替换和语序颠倒操作。
S240、对每个单一经营业务和每个扩展文本均进行数据清洗并向量化为文本数据集。
需要说明的是,在本步骤中所提的数据清洗包括采用Python编程语言中的re、pandas、jieba等工具库,对数据进行去除重复文本、清除符号,去除停用词及分词处理,最终获得由词组构成的经营业务数据集。
在本申请中通过在步骤S200中增加了通过对词组的同义词替换和语序颠倒操作,使得原本所用的数据库得以增加,提升后期神经网络算法识别分类准确率。
具体而言,在本申请中步骤S230中包括步骤S231和步骤S232。
S231、对单一经营业务进行分词并进行词性标注得到第一信息,第一信息包括单一经营业务内的至少两个分词和每个分词对应的词性。
具体而言,在本申请中利用python中的Jieba工具进行分词,并进行词性标注。
S232、对每个分词进行遍历,并在预设的数据库进行查找替换判断,若分词具有同义词或缩写词,则替换分词为数据库内的同义词或缩写词并作为一个扩展文本。
需要说明的是,在本申请中预设的数据库即为同义词和缩写词数据库。通过循环遍历每个一个分词,若是在数据库有该分词的同义词或者缩写词,就通过替换分词构成一个扩展文本。举例说明,原始句为ABC,若是A分词具有同义词a以及缩写词b,那么就生成aBC和bBC这两个扩展文本。
进一步而言,在本步骤中还包括步骤S233。
S233、对第一信息内的分词进行语序颠倒扩展得到至少一个扩展文本。
需要说明的是,即,本步骤为:对单一经营业务内进行语序颠倒扩展得到至少一个扩展文本。
具体而言,在本申请中,步骤S233包括步骤S2331、步骤S2332和步骤S2333。
步骤S2331、对第一信息进行遍历并判断是否存在连续名词组、连续形容词组或连续动词组,若存在,则随机对连续名词内的分词进行排序得到至少一个排序组,将排序组作为一个扩展文本,排序组不同于连续名词组、连续形容词组或连续动词组,连续名词组为连续两个或两个以上的名词,连续形容词组为连续两个或两个以上的形容词;连续动词组为连续两个或两个以上的动词。
为了便于理解,本申请中给出如下例子说明:
①“机动车 机电设备 家电 工程机械 维修”→“机电设备 家电 机动车 工程机械 维修”;“汽车 机械 设备 租赁” →“汽车 设备 机械 租赁”。
②“国际 航空 海上 陆路 货运 代理” →“国际 海上 陆路 航空 陆路 货运 代理”;
③“物流 软件 技术 研究 设计 应用 咨询” →“物流 软件 技术 应用 咨询 研究 设计”;“设计 制作 代理 发布 国内 各类 户外 广告 ” →“代理 发布 制作 设计 国内 各类 户外 广告 ”。
在本申请中通过对由词性相同并相邻的分词进行随机组合构成排序组,实现一种词序颠倒,在降低词序颠倒的同时也能最大可能性的符合语法规则,达到数据库扩大的目的。
步骤S2332、对每个分词的词性进行遍历并判断是否存在双重词性并判断分词的词性,若分词的词性为双重词性并且在分词在单一经营业务内的词性为动词,则颠倒分词与第一词组的顺序并作为一个扩展文本,第一词组与分词相接并位于分词后方。
步骤S2333、若分词的词性为双重词性并且在分词在单一经营业务内的词性为名词,则颠倒分词与第二词组的顺序并作为一个扩展文本,第二词组与分词相接并位于分词前方,第一词组和第二词组为名词组或形容词词组,名词组包括至少一个词性为名词的分词,形容词词组包括至少一个词性为形容词的分词。
在本申请中通过颠倒具有双重词性的分词,实现了一种词序颠倒,双重词性词语颠倒位置后使经营业务语序颠倒,但仍然表达相同意思,且可达到数据库扩大的目的。
在步骤S233中虽然处理中尽可能符合语法规则的进行颠倒。但是仍然有可能存在出现部分违反语法的扩展文本,其为不符合时间语法标准甚至于不符合行为习惯,但是由于在实际的经营业务文本中,由于缺少填报标准和填报造成了标准和填报的随意性,现实中即存在违反语法的文本,通过上述语序颠倒不会对神经网络的分类编码的训练以及应用造成负面影响,反而因为最主要的数据量提升对最后的分类效果带来正面影响,进而提升本方法的准确率。
在一些具体的实施例中,步骤S240中包括步骤S241、步骤S242和步骤S243。
S241、将数据清洗后的每个单一经营业务和每个扩展文本经过预设的TF-IDF数学模型处理得到第一文本向量。
S242、将数据清洗后的每个单一经营业务和每个扩展文本经过预设的Word2Vec数学模型处理得到第二文本向量。
S243、将数据清洗后的每个单一经营业务和每个扩展文本经过预设的BERT数学模型处理得到第三文本向量。
在一些具体的实施例中,步骤S300中包括步骤S310和步骤S320。
S310、构建基于全连接神经网络的第一子分类器、构建基于卷积神经网络的第二子分类器和构建基于双向长短时记忆神经网络的第三子分类器,第一子分类器的输入信息为第一文本向量,第二子分类器的输入信息为第二文本向量,第三子分类器的输入信息为第三文本向量。
需要说明的是,通过TF-IDF算法与全连接神经网络算法结合,通过TF-IDF能够从关键词的角度提取文本特征,即一个词在一个经营业务中频繁出现而在其他经营业务中很少出现,则认为该词具有良好的区分能力,利用TF-IDF算法处理后的权重就越大。经TF-IDF转化后的数据为非序列特征权重数据(例词库中词总个数为500,某一经营业务文本经TF-IDF算法转化后得到的向量数据形状为(1,500),每一列为词的权重值,而全连接神经网络(FCNN)参数众多,非线性拟合能力很强,能够充分考虑输入的每个特征,利用FCNN处理经TF-IDF算法处理TF-IDF算法转化的向量数据,达到所有特征均覆盖的目的,提升整体的泛化能力,考虑每个分词对总体贡献。
同时,Word2vec与双向长短期记忆神经网络结合,通过Word2Vec模型能够将文本词语映射到向量空间中,以词向量表示文本,意思相近的词在向量空间中的距离更近(例如设置向量空间维数为300维,一个由5个词语组成的经营业务文本转化后得到词向量矩阵形状为(5,300),矩阵每一行对应文本中的每一个词)。因此经转化后的词向量矩阵数据保留了文本词语的前后信息,为序列数据。双向长短期记忆神经网络(BiLSTM)结构是适应于处理序列数据任务,具有访问数据上下文的能力,能够理解词向量矩阵中词语的前后关系。利用BiLSTM处理经Word2vec模型处理后的词向量数据能理解分词在文本的相互位置关系中的前后相邻关系。
而,BERT模型在将文本词语映射到向量空间的基础上,为每一词语加入了动态的位置信息,使得同一词语在文本中的向量表示是具有一定区别的(例“提供普通货物运输、运输普通小型机械设备等服务”文本中的“普通、运输”两次在词向量矩阵中对应的词向量不同,一定程度上能够理解词语的词性和多义词)。同时,经BERT模型转化后的词向量矩阵数据也保留了文本词语的前后信息,为序列数据。卷积神经网络(CNN)在进行卷积过程中,会利用卷积核对词向量矩阵数据按顺序进行卷积计算,过程符合人们从前往后阅读文本时的逻辑,同时CNN能够结合词语位置信息,提取文本中的局部信息,更好的理解文本意思,本申请中利用CNN处理经BERT模型处理后的词向量数据能结合每个分词在整体句式中具体所处位置关系,提升整体的分类效果。
S320、构建二级分类器,二级分类器包括依次连接的融合层和至少两个全连接层,每两个全连接层间设有dropout层,位于信息末端的全连接层作为输出层并由Softmax函数激活,其余全连接层由tanh函数激活,二级分类器的输入信息包括第一子分类器、第二子分类器和第三子分类器的输出信息,二级分类器的输出信息为企业的业务所对应的四位编码。
具体而言,在本申请中优选全连接层为2层结构,由于第一级已经进行收敛性的分类,若是再进一步增加全连接层会造成过度拟合,降低正确率以及F1值。其中需要说明的是,在本步骤中所提及的二级分类器中损失函数选用稀疏交叉熵,使用Adam优化,直到损失函数值不再下降并趋于稳定。
本方法可用于对现有的企业经营业务文本数据进行编码处理,增强数据的可应用性和易维护性。同时能够与填报系统相结合,保障在缺乏填报标准的情况下,输入经营业务文本的同时转化为代码录入,从根本上解决经营业务杂乱的问题。
实施例2:
如图2和图3所示,本实施例中提供了一种企业业务分类编码装置,装置包括:
获取单元1,用于获取至少一个待分类企业的信息和数据集,待分类企业的信息包括待分类企业名称和待分类企业经营范围,所述数据集包括至少两条企业经营范围。
预处理单元2,用于对所述数据集内所有的经营范围进行编号并扩展向量化得到每个经营范围对应的向量数据集,向量数据集包括的第一文本向量、第二文本向量、第三文本向量和编号。
模型建立单元3,用于建立基于深度学习算法的两级分类编码数学模型,并根据向量数据集训练两级分类编码数学模型。
企业业务分类单元4,用于将所有所述待分类企业的待分类企业经营范围向量化后输入到所述两级分类编码数学模型,并求解所述两级分类编码数学模型得到每个所述待分类企业的业务对应的编号。
在一些具体的实施例中,预处理单元2包括:
拆分单元21,用于对经营范围进行拆分得到至少一条单一经营业务。
编号单元22,用于根据预设规则对每个单一经营业务进行编号。
扩展单元23,用于对每个单一经营业务进行语义扩展得到至少一个扩展文本,其中,扩展数据包括同义词替换和语序颠倒操作。
向量化单元24,用于对每个单一经营业务和每个扩展文本均进行数据清洗并向量化为向量数据集。
在一些具体的实施例中,扩展单元23包括:
标注单元231,用于对单一经营业务进行分词并进行词性标注得到第一信息,第一信息包括单一经营业务内的至少两个分词和每个分词对应的词性。
替换单元232,用于对每个分词进行遍历,并在预设的数据库进行查找替换判断,若分词具有同义词或缩写词,则替换分词为数据库内的同义词或缩写词并作为一个扩展文本。
在一些具体的实施例中,扩展单元23包括:
颠倒扩展单元233,用于对第一信息内的分词进行语序颠倒扩展得到至少一个扩展文本。
在一些具体的实施例中,颠倒扩展单元233包括:
遍历替换单元2331,用于对第一信息进行遍历并判断是否存在连续名词组、连续形容词组或连续动词组,若存在,则随机对连续名词内的分词进行排序得到至少一个排序组,将排序组作为一个扩展文本,排序组不同于连续名词组、连续形容词组或连续动词组,连续名词组为连续两个或两个以上的名词,连续形容词组为连续两个或两个以上的形容词。连续动词组为连续两个或两个以上的动词。
在一些具体的实施例中,颠倒扩展单元233还包括:
第一逻辑单元2332,用于对每个分词的词性进行遍历并判断是否存在双重词性并判断分词的词性,若分词的词性为双重词性并且在分词在单一经营业务内的词性为动词,则颠倒分词与第一词组的顺序并作为一个扩展文本,第一词组与分词相接并位于分词后方。
第二逻辑单元2333,用于若分词的词性为双重词性并且在分词在单一经营业务内的词性为名词,则颠倒分词与第二词组的顺序并作为一个扩展文本,第二词组与分词相接并位于分词前方,第一词组和第二词组为名词组或形容词词组,名词组包括至少一个词性为名词的分词,形容词词组包括至少一个词性为形容词的分词。
在一些具体的实施例中,向量化单元24还包括:
第一转化单元241,用于将数据清洗后的每个单一经营业务和每个扩展文本经过预设的TF-IDF数学模型处理得到第一文本向量。
第二转化单元242,用于将数据清洗后的每个单一经营业务和每个扩展文本经过预设的Word2Vec数学模型处理得到第二文本向量。
第三转化单元243,用于将数据清洗后的每个单一经营业务和每个扩展文本经过预设的BERT数学模型处理得到第三文本向量。
在一些具体的实施例中,模型建立单元3还包括:
第一构建单元31,用于构建基于全连接神经网络的第一子分类器、构建基于双向长短时记忆神经网络的第二子分类器和构建基于卷积神经网络的第三子分类器,第一子分类器的输入信息为第一文本向量,第二子分类器的输入信息为第二文本向量,第三子分类器的输入信息为第三文本向量。
第二构建单元32,用于构建二级分类器,二级分类器包括依次连接的融合层和至少两个全连接层,每两个全连接层间设有dropout层,位于信息末端的全连接层作为输出层并由Softmax函数激活,其余全连接层由tanh函数激活,二级分类器的输入信息包括第一子分类器、第二子分类器和第三子分类器的输出信息,二级分类器的输出信息为企业的业务所对应的四位编码。
需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例3:
相应于上面的方法实施例,本实施例中还提供了一种企业业务分类编码设备,下文描述的一种企业业务分类编码设备与上文描述的一种企业业务分类编码方法可相互对应参照。
图4是根据示例性实施例示出的一种企业业务分类编码设备800的框图。如图4所示,该企业业务分类编码设备800可以包括:处理器801,存储器802。该企业业务分类编码设备800还可以包括多媒体组件803,I/O接口804,以及通信组件805中的一者或多者。
其中,处理器801用于控制该企业业务分类编码设备800的整体操作,以完成上述的企业业务分类编码方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该企业业务分类编码设备800的操作,这些数据例如可以包括用于在该企业业务分类编码设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该企业业务分类编码设备800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,企业业务分类编码设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal ProcessingDevice,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的企业业务分类编码方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的企业业务分类编码方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器802,上述程序指令可由企业业务分类编码设备800的处理器801执行以完成上述的企业业务分类编码方法。
实施例4:
相应于上面的方法实施例,本实施例中还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种企业业务分类编码方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的企业业务分类编码方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种企业业务分类编码方法,其特征在于,包括:
获取至少一个待分类企业的信息和数据集,所述待分类企业的信息包括待分类企业名称和待分类企业经营范围,所述数据集包括至少两条企业经营范围;
对所述数据集内所有的所述经营范围进行编号并扩展向量化得到每个所述经营范围对应的向量数据集,所述向量数据集包括的第一文本向量、第二文本向量、第三文本向量和编号;
建立基于深度学习算法的两级分类编码数学模型,并根据所述向量数据集训练所述两级分类编码数学模型;
将所有所述待分类企业的待分类企业经营范围向量化后输入到所述两级分类编码数学模型,并求解所述两级分类编码数学模型得到每个所述待分类企业的业务对应的编号。
2.根据权利要求1所述的企业业务分类编码方法,其特征在于,所述对所述数据集内所有所述经营范围进行编号并扩展向量化得到每个所述经营范围对应的向量数据集,包括:
对所述经营范围进行拆分得到至少一条单一经营业务;
根据预设规则对每个所述单一经营业务进行编号;
对每个所述单一经营业务进行语义扩展得到至少一个扩展文本,其中,所述扩展数据包括同义词替换和语序颠倒操作;
对每个所述单一经营业务和每个所述扩展文本均进行数据清洗并向量化为向量数据集。
3.根据权利要求2所述的企业业务分类编码方法,其特征在于,所述对每个所述单一经营业务进行语义扩展得到至少一个扩展文本,包括:
对所述单一经营业务进行分词并进行词性标注得到第一信息,所述第一信息包括所述单一经营业务内的至少两个分词和每个所述分词对应的词性;
对所述第一信息内的所述分词进行语序颠倒扩展得到至少一个扩展文本。
4.根据权利要求1所述的企业业务分类编码方法,其特征在于,建立基于深度学习算法的两级分类编码数学模型,包括:
构建基于全连接神经网络的第一子分类器、构建基于双向长短时记忆神经网络的第二子分类器和构建基于卷积神经网络的第三子分类器,所述第一子分类器的输入信息为第一文本向量,所述第二子分类器的输入信息为第二文本向量,所述第三子分类器的输入信息为第三文本向量;
构建二级分类器,所述二级分类器包括依次连接的融合层和至少两个全连接层,每两个所述全连接层间设有dropout层,位于信息末端的全连接层作为输出层并由Softmax函数激活,其余全连接层由tanh函数激活,所述二级分类器的输入信息包括所述第一子分类器、所述第二子分类器和所述第三子分类器的输出信息,所述二级分类器的输出信息为企业的业务所对应的四位编码。
5.一种企业业务分类编码装置,其特征在于,包括:
获取单元,用于获取至少一个待分类企业的信息和数据集,所述待分类企业的信息包括待分类企业名称和待分类企业经营范围,所述数据集包括至少两条企业经营范围;
预处理单元,用于对所述数据集内所有的所述经营范围进行编号并扩展向量化得到每个所述经营范围对应的向量数据集,所述向量数据集包括的第一文本向量、第二文本向量、第三文本向量和编号;
模型建立单元,用于建立基于深度学习算法的两级分类编码数学模型,并根据所述向量数据集训练所述两级分类编码数学模型;
企业业务分类单元,用于将所有所述待分类企业的待分类企业经营范围向量化后输入到所述两级分类编码数学模型,并求解所述两级分类编码数学模型得到每个所述待分类企业的业务对应的编号。
6.根据权利要求5所述的企业业务分类编码装置,其特征在于,所述预处理单元包括:
拆分单元,用于对所述经营范围进行拆分得到至少一条单一经营业务;
编号单元,用于根据预设规则对每个所述单一经营业务进行编号;
扩展单元,用于对每个所述单一经营业务进行语义扩展得到至少一个扩展文本,其中,所述扩展数据包括同义词替换和语序颠倒操作;
向量化单元,用于对每个所述单一经营业务和每个所述扩展文本均进行数据清洗并向量化为向量数据集。
7.根据权利要求6所述的企业业务分类编码装置,其特征在于,所述扩展单元包括:
标注单元,用于对所述单一经营业务进行分词并进行词性标注得到第一信息,所述第一信息包括所述单一经营业务内的至少两个分词和每个所述分词对应的词性;
颠倒扩展单元,用于对所述第一信息内的所述分词进行语序颠倒扩展得到至少一个扩展文本。
8.根据权利要求5所述的企业业务分类编码装置,其特征在于,所述模型建立单元还包括:
第一构建单元,用于构建基于全连接神经网络的第一子分类器、构建基于双向长短时记忆神经网络的第二子分类器和构建基于卷积神经网络的第三子分类器,所述第一子分类器的输入信息为第一文本向量,所述第二子分类器的输入信息为第二文本向量,所述第三子分类器的输入信息为第三文本向量;
第二构建单元,用于二级分类器包括依次连接的融合层和至少两个全连接层,每两个所述全连接层间设有dropout层,位于信息末端的全连接层作为输出层并由Softmax函数激活,其余全连接层由tanh函数激活,所述二级分类器的输入信息包括所述第一子分类器、所述第二子分类器和所述第三子分类器的输出信息,所述二级分类器的输出信息为企业的业务所对应的四位编码。
9.一种企业业务分类编码设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述企业业务分类编码方法的步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述企业业务分类编码方法的步骤。
CN202210371122.6A 2022-04-11 2022-04-11 一种企业业务分类编码方法、装置、设备及可读存储介质 Active CN114444504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371122.6A CN114444504B (zh) 2022-04-11 2022-04-11 一种企业业务分类编码方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371122.6A CN114444504B (zh) 2022-04-11 2022-04-11 一种企业业务分类编码方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114444504A true CN114444504A (zh) 2022-05-06
CN114444504B CN114444504B (zh) 2022-08-05

Family

ID=81359655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371122.6A Active CN114444504B (zh) 2022-04-11 2022-04-11 一种企业业务分类编码方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114444504B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407387A (zh) * 2016-09-18 2017-02-15 华南师范大学 一种针对医疗诊断文本的概念连接方法
CN108399204A (zh) * 2018-01-31 2018-08-14 合肥和钧正策信息技术有限公司 一种基于人才大数据的企业职位匹配系统及方法
CN108399161A (zh) * 2018-03-06 2018-08-14 平安科技(深圳)有限公司 广告图片鉴定方法、电子装置及可读存储介质
US20180260873A1 (en) * 2017-03-13 2018-09-13 Fmr Llc Automatic Identification of Issues in Text-based Transcripts
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
CN109684636A (zh) * 2018-12-20 2019-04-26 郑州轻工业学院 一种基于深度学习的用户情感分析方法
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置
CN112182223A (zh) * 2020-10-12 2021-01-05 浙江工业大学 一种基于领域本体的企业行业分类方法和系统
CN113569048A (zh) * 2021-07-31 2021-10-29 长春市万易科技有限公司 一种基于企业经营范围自动划分所属行业的方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407387A (zh) * 2016-09-18 2017-02-15 华南师范大学 一种针对医疗诊断文本的概念连接方法
US20180260873A1 (en) * 2017-03-13 2018-09-13 Fmr Llc Automatic Identification of Issues in Text-based Transcripts
CN108399204A (zh) * 2018-01-31 2018-08-14 合肥和钧正策信息技术有限公司 一种基于人才大数据的企业职位匹配系统及方法
CN108399161A (zh) * 2018-03-06 2018-08-14 平安科技(深圳)有限公司 广告图片鉴定方法、电子装置及可读存储介质
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
CN109684636A (zh) * 2018-12-20 2019-04-26 郑州轻工业学院 一种基于深度学习的用户情感分析方法
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置
CN112182223A (zh) * 2020-10-12 2021-01-05 浙江工业大学 一种基于领域本体的企业行业分类方法和系统
CN113569048A (zh) * 2021-07-31 2021-10-29 长春市万易科技有限公司 一种基于企业经营范围自动划分所属行业的方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
RAFAEL MENESES SANTOS 等: "Evaluating a LSTM Neural Network and a Word2vec Model in the Classification of Self-admitted Technical Debts and Their Types in Code Comments", 《ICEIS 2020: ENTERPRISE INFORMATION SYSTEMS》 *
RAFAEL MENESES SANTOS 等: "Evaluating a LSTM Neural Network and a Word2vec Model in the Classification of Self-admitted Technical Debts and Their Types in Code Comments", 《ICEIS 2020: ENTERPRISE INFORMATION SYSTEMS》, 31 December 2021 (2021-12-31), pages 542 *
杨明昕: "基于网游评论的游戏产品画像构建和情感分析研究", 《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》 *
杨明昕: "基于网游评论的游戏产品画像构建和情感分析研究", 《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》, no. 2022, 15 February 2022 (2022-02-15), pages 143 - 20 *
王艳 等: "基于多特征融合的中文文本分类研究", 《数据分析与知识发现》 *
王艳 等: "基于多特征融合的中文文本分类研究", 《数据分析与知识发现》, vol. 5, no. 10, 31 December 2021 (2021-12-31), pages 1 - 14 *

Also Published As

Publication number Publication date
CN114444504B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN106991085B (zh) 一种实体的简称生成方法及装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN113032545B (zh) 基于无监督对话预训练的对话理解与答案配置方法及系统
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN114020936B (zh) 多模态事理图谱的构建方法、系统和可读存储介质
CN113157931B (zh) 一种融合图谱构建方法及装置
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN114281957A (zh) 自然语言数据查询方法、装置、电子设备及存储介质
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN111143507A (zh) 一种基于复合式问题的阅读理解方法
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN113988071A (zh) 一种基于金融知识图谱的智能对话方法及装置、电子设备
CN111507108B (zh) 别名生成方法、装置、电子设备及计算机可读存储介质
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114444504B (zh) 一种企业业务分类编码方法、装置、设备及可读存储介质
Ouamane et al. Deep Reinforcement Learning Applied to NLP: A Brief Survey
CN115952266A (zh) 问题生成方法、装置、计算机设备和存储介质
CN115357711A (zh) 一种方面级情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant