CN114637842A - 企业行业分类方法、装置、存储介质及电子设备 - Google Patents

企业行业分类方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114637842A
CN114637842A CN202011480351.9A CN202011480351A CN114637842A CN 114637842 A CN114637842 A CN 114637842A CN 202011480351 A CN202011480351 A CN 202011480351A CN 114637842 A CN114637842 A CN 114637842A
Authority
CN
China
Prior art keywords
enterprise
industry
classification
commodity
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011480351.9A
Other languages
English (en)
Inventor
苗璐
王志刚
林文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011480351.9A priority Critical patent/CN114637842A/zh
Publication of CN114637842A publication Critical patent/CN114637842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种企业行业分类方法、装置、存储介质及电子设备,解决了现有企业的行业类别信息更新不及时,分类过程中速度慢、工作量大、准确率不可靠的技术问题。该方法包括:通过企业发票获取所述企业的经营信息;根据所述经营信息确定主营商品,通过所述主营商品获取企业特征词表;将所述企业特征词表输入到分类模型中,以得到所述企业的行业类别以及每个行业类别的概率。本公开根据企业特征词采用不同的方式得到确定企业的行业类别及每个行业类别的概率,提高了分类结果的准确性和可靠性,通过分类模型实现分类,提高了分类速度、分类精度。

Description

企业行业分类方法、装置、存储介质及电子设备
技术领域
本公开涉及信息处理技术领域,具体地,涉及一种企业行业分类方法、装置、存储介质及电子设备。
背景技术
企业现有的行业类别是企业注册时,在工商管理部门人工标注的,但存在部分企业不会公开其行业类别信息,在该部分企业的实际经营项目发生改变时,企业类别信息不会及时更新,会导致基于行业类别的企业分析产生误差。且传统的分类方式中的行业标注方式是人工标注,存在速度慢、工作量大、准确率难以保证等缺陷。
发明内容
本公开的目的是提供一种企业行业分类方法、装置、存储介质及电子设备,以解决现有企业的行业类别信息更新不及时,分类过程中速度慢、工作量大、准确率不可靠的技术问题。
为了实现上述目的,根据本公开实施例的第一方面,本公开提供一种企业行业分类方法,所述方法包括:
通过企业发票获取所述企业的经营信息;
根据所述经营信息确定主营商品,通过所述主营商品获取企业特征词表;
将所述企业特征词表输入到分类模型中,以得到所述企业的行业类别以及每个行业类别的概率。
可选地,所述经营信息包括商品名称以及各商品的销售金额,所述根据所述经营信息确定主营商品,包括:
将所述商品名称一致的商品整理为同一类,并计算每一类所述商品名称对应的销售总金额;
对所述销售总金额进行排序,获取所述销售总金额超过所述企业的总金额一半的商品作为主营商品。
可选的,所述经营信息包括所述企业的经营范围、企业名称、商品名称,所述通过所述主营商品获取企业特征词表,包括:
在所述企业包括多项主营商品且存在所述主营商品为精准商品的情况下,对所述商品名称进行分词处理,得到企业特征词表;
在所述企业包括多项主营商品且不存在所述主营商品为精准商品的情况下,对所述经营范围、所述企业名称以及所述商品名称进行分词处理,得到企业特征词表;
在所述企业包括一项主营商品的情况下,对所述商品名称进行分词处理,得到企业特征词表。
可选的,所述方法还包括:
获取行业关键词,根据词频阈值对得到的所述行业关键词进行初步筛选;
根据预设分类条件对所述行业关键词进行筛选,将得到的行业关键词汇总为行业关键词表。
可选的,所述方法还包括:
将所述企业特征词表与所述行业关键词表进行匹配;
在所述企业特征词表中的所有企业特征词均能在所述行业关键词表查询到情况下,根据所述行业关键词表输出所述企业的行业类别。
可选的,所述方法还包括:
将所述企业特征词表与所述行业关键词表进行匹配;
在所述企业特征词表中的部分企业特征词能在所述行业关键词表查询到情况下,根据所述部分企业特征词在所述行业关键词表得到所述企业的第一部分行业类别、第一部分行业类别的概率;
将未在所述行业关键词表查询到企业特征词输入到所述分类模型、以得到所述企业的第二部分行业类别以及第二部分行业类别的概率;
结合所述第一部分行业类别、所述第一部分行业类别的概率、所述第二部分行业类别及所述第二部分行业类别的概率,得到所述企业的行业类别以及每个行业类别的概率。
可选的,所述方法还包括:
响应于用户对所述企业的行业类别的选择结果,更新所述企业特征词表和所述行业关键词表;
通过更新后的所述企业特征词表对所述分类模型进行微调。
根据本公开实施例的第二方面,本公开提供一种企业行业分类装置,所述装置包括:
获取模块,被配置成用于获取企业的经营信息;
处理模块,被配置成用于根据所述经营信息确定主营商品,通过所述主营商品获取企业特征词表;
执行模块,被配置成用于将所述企业特征词表输入到分类模型中,以得到所述企业的行业类别以及每个行业类别的概率。
根据本公开实施例的第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的企业行业分类方法的步骤
根据本公开实施例的第四方面,本公开提供一种电子设备,所述电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述的企业行业分类方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:本公开通过企业发票获取企业的经营信息,并确定企业的主营商品,获取企业特征词,通过分类模型根据企业特征词得到企业的行业类别及每个行业类别的概率。本公开通过企业的经营信息挖掘企业特征词,提高了分类结果的准确性和可靠性,且本公开通过神经网络模型分类模型实现分类,速度快,分类结果精度高。在企业实际经营项目发生改变时,可及时对企业类别信息进行更新。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种企业行业分类方法的流程图。
图2是根据一示例性实施例示出的一种企业行业分类方法的另一流程图。
图3是根据一示例性实施例示出的一种企业行业分类装置的框图。
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。
需要说明的是,在本公开中,说明书和权利要求书以及附图中的术语“S101”、“S102”等用于区别步骤,而不必理解为按照特定的顺序或先后次序执行方法步骤。
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在介绍本公开实施例提供的一种企业行业分类方法、装置、存储介质及电子设备之前,首先对本公开的应用场景进行介绍,本公开提供的企业行业分类方法可以应用于电子设备,该电子设备可以为个人电脑。
本公开提供一种企业行业分类方法,可通过三种方式得到企业的行业类别以及每个行业类别的概率;
第一种方式:通过企业发票获取企业的经营信息并确定企业的主营商品,获取多个企业特征词构成企业特征词表,通过分类模型根据企业特征词表得到企业的行业类别及每个行业类别的概率;
第二种方式:统计行业关键词,对行业关键词进行筛选以得到行业关键词表,将企业特征词表与行业关键词表进行匹配,根据匹配结果得到企业的行业类别及每个行业类别的概率;
第三种方式:通过企业特征词表与行业关键词表的匹配结果得到企业的第一部分行业类别及第一部分行业类别的概率,通过分类模型根据企业特征词表得到企业的第二部分行业类别及第二行业类别的概率,结合第一部分行业类别、第一部分行业类别的概率、第二部分行业类别及第二部分行业类别的概率,得到企业的行业类别以及每个行业类别的概率。
本公开基于企业的主营商品获取企业特征词,根据企业特征词采用不同的方式得到确定企业的行业类别及每个行业类别的概率,提高了分类结果的准确性和可靠性,通过分类模型实现分类,提高了分类速度、分类精度。人机交互,根据用户的反馈信息更新企业特征词表和行业关键词表,以及微调分类模型,可不断提高分类结果的精度以及可靠度。在企业实际经营项目发生改变时,可及时对企业类别信息进行更新。
以该方法应用于个人电脑为例,图1是根据一示例性实施例示出的一种企业行业分类方法的流程图,如图1所示,该方法包括以下步骤。
在步骤S101中,通过企业发票获取企业的经营信息。
在步骤S102中,根据经营信息确定主营商品,通过主营商品获取企业特征词表。
在步骤S103中,将企业特征词表输入到分类模型中,以得到企业的行业类别以及每个行业类别的概率。
其中,企业发票中包含了企业的销项商品、各商品的销售金额、企业名称以及经营范围等数据,其中,销项商品、企业名称及经营范围为中文文本信息,各商品的销售金额为数字信息。
具体的,在步骤S101中,通过企业发票获取企业的经营信息,可以包括:
从企业发票中提取企业的销项商品、各商品的销售金额、企业名称以及经营范围等数据,并删除重复,对缺失数据、异常的数据进行数据预处理,得到企业的经营信息,其中,预处理包括采样、过滤、标准化,本公开对此不作具体限定。
可选的,在经营信息包括商品名称以及各商品的销售金额的情况下,在步骤S102中,根据经营信息确定主营商品,可以包括:
将商品名称一致的商品整理为同一类,并计算每一类商品名称对应的销售总金额;
对销售总金额进行排序,获取销售总金额超过企业的总金额一半的商品作为主营商品。
具体的,企业主营商品主要指在企业经济活动占50%以上的商品。则根据经营信息得到主营商品可以包括:将获取的经营信息中商品名称一致的商品合并到一起,计算每个商品名称对应的销售总金额,将销售总金额按从大到小进行排序,根据排序顺序从前往后获取销售总金额占比超过总金额一半的商品,作为主营商品集。
在企业包括的主营商品类别繁多时,为了更好的获取企业特征词表,需对确定主营商品的类型,再通过主营商品获取企业特征词表。
具体的,确定主营商品的类型的步骤可以包括:对主营商品的商品名称进行数据清洗,如去除商品名称中的型号、英文、字母等;或者将主营商品的商品名称输入商品分类编码系统,得到商品的上级商品分类编码和商品名称。然后根据商品名称和编码将商品分为两类,一类为精准商品,另一类为模糊商品。
其中,精准商品可直接通过商品名称得到企业的行业类别;而模糊商品的商品名称的用语比较宽泛、不够精确,如咨询、服务类商品,无法直接通过商品名称得到企业行业类别,需要结合企业名称、经营范围等辅助信息得到企业的行业类别。
可选的,在经营信息包括
企业的经营范围、企业名称、商品名称的情况下,在步骤S102中,通过主营商品获取企业特征词表,可以包括:
在企业包括多项主营商品且存在主营商品为精准商品的情况下,对商品名称进行分词处理,得到企业特征词表;
在企业包括多项主营商品且不存在主营商品为精准商品的情况下,对经营范围、企业名称以及商品名称进行分词处理,得到企业特征词表;
在企业包括一项主营商品的情况下,对商品名称进行分词处理,得到企业特征词表。
其中,分词处理为现有技术,本公开对此不再赘述。
具体的,在企业包括多项主营商品且存在主营商品为精准商品的情况下,可直接对精准商品的商品名称进行分词处理,去除分词处理后的信息中的停用词、标点和特殊符号,得到企业特征词表。
具体的,在企业包括多项主营商品且不存在主营商品为精准商品的情况下,需对企业的经营范围、企业名称以及模糊商品的商品名称进行分词处理,去除分词处理后的信息中的停用词、标点和特殊符号,得到企业特征词表。
具体的,在企业包括一项主营商品的情况下,直接对该主营商品的商品名称进行分词处理,去除分词处理后的信息中的停用词、标点和特殊符号,得到企业特征词表。
在步骤S103中的分类模型可以为Chunk-max pooling TextCNN(块最大池文本分类)模型,基于卷积神经网络CNN实现,其中,Chunk-max pooling TextCNN包括嵌入层、卷积层、Chunk-max pooling池化层和输出层。
具体的,嵌入层用于将输入的企业特征词表转化为向量,卷积层用于提取向量中的特征向量,Chunk-max pooling池化层将卷积层的所有特征向量进行分段,切割成若干段后,在每个分段里各取一个最大特征值,输出层根据特征值输出企业的行业类别以及每个行业类别的概率。
其中,由于卷积层中使用了高度不同的卷积核,数据通过卷积层后得到的向量维度会不一致,所以在Chunk-max pooling池化层中我们要降低卷积层输出结果的维度,保留显著特征,且由于Chunk-max pooling池化层是先划分块Chunk再分别取最大值,保留了多个局部最大特征值的相对顺序信息,和比较粗粒度的模糊位置信息,提升了分类结果的精准度。
其中,输出层设置有多个全连接层,第一层用relu(Rectified Linear Unit,线性整流函数)作为激活函数可根据特征值得到行业类别,第二层则使用softmax(Normalizedexponential function,归一化指数函数)激活函数可根据特征值得到每个行业类别的概率。
举例说明,将企业特征词表输入到Chunk-max pooling TextCNN模型中,嵌入层将输入的企业特征词表转化为向量;卷积层选取宽度为向量维度、高度分别为2、3、4的卷积核来提取向量中上下文词语的特征向量;Chunk-max pooling池化层将特征向量切成4个Chunk(块),然后在每个Chunk里取最大值,获得4个特征值;输出层的第一层根据4个特征值得到企业的行业类别,第二层根据4个特征值得到每个行业类别的概率,输出企业的行业类别及每个行业类别的概率。
可选的,本方法还可以包括:
获取行业关键词,根据词频阈值对得到的行业关键词进行初步筛选;
根据预设分类条件对行业关键词进行筛选,将得到的行业关键词汇总为行业关键词表。
其中,词频阈值可以根据实际企业行业类别分类进行预设,预设分类条件可以通过《国民经济行业分类》中关于行业类别的分类描述进行预设的,本公开对此不作具体限定。
具体的,通过TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数的统计方法)统计行业中占比超过30%的M个行业作为重点行业,获取重点行业的行业关键词,初步筛选出词频超过行业关键词总数量的30%的行业关键词,然后根据预设分类条件进一步筛选,将得到的行业关键词汇总为行业关键词。其中M可根据分类结果进行预设,本公开对此不作具体限定。
可选的,本方法还可以包括:
将企业特征词表与行业关键词表进行匹配;
在企业特征词表中的所有企业特征词均能在行业关键词表查询到情况下,根据行业关键词表输出企业的行业类别。
举例说明,行业关键词表中所有行业关键词均与企业特征词表中的所有企业特征词匹配的情况下,根据行业关键词表输出企业的行业类别。
可选的,本方法还可以包括:
将企业特征词表与行业关键词表进行匹配;
在企业特征词表中的部分企业特征词能在行业关键词表查询到情况下,根据部分企业特征词在行业关键词表得到企业的第一部分行业类别、第一部分行业类别的概率;
将未在行业关键词表查询到企业特征词输入到分类模型、以得到企业的第二部分行业类别以及第二部分行业类别的概率;
结合第一部分行业类别、第一部分行业类别的概率、第二部分行业类别及第二部分行业类别的概率,得到企业的行业类别以及每个行业类别的概率。
举例说明,行业关键词表中的部分行业关键词与企业特征词表中的部分企业特征词匹配的情况下,根据行业关键词表中匹配的部分行业关键词得到企业的第一部分行业类别以及第一部分行业类别的概率;将企业特征词表中与行业关键词表未匹配的部分企业特征词作为企业特征词表输入到Chunk-max pooling TextCNN模型中,得到企业的第二部分行业类别以及第二部分行业类别的概率;根据第一部分行业类别、第一部分行业类别的概率、第二部分行业类别、第二部分行业类别的概率得到企业的行业类别以及每个行业类别的概率。
将得到企业的行业类别以及每个行业类别的概率结合《国民经济行业分类》中对该行业类别的描述通过交互模块提供给用户,以供用户从行业类别中选择出了一个行业类别,在得到的企业的行业类别以及每个行业类别的概率中没有用户的选择的情况下,用户可通过提供的“其他”选项,选择行业类别,“其他”选项提供分层行业类别及其描述。其中,交互模块可以为触摸屏,本公开对此不作具体限定。
举例说明,在触摸屏上显示有行业类别、每个行业类别的概率以及《国民经济行业分类》中对该行业类别的描述、以及“其他”选项,在用户在点击“其他”选项的情况下,触摸屏将门类信息展示给用户,在用户选择门类后,根据大类在门类中占比排名展示对应该门类的大类,同理对大类中的中类,中类中的小类进行展示。
在用户选择从小类展示页面选择出适合的行业类别后,将用户在“其他”选项选择的结果反馈到系统,系统管理员对该结果进行审核,审核通过后,将用户的选择结果作为新增数据存放到新增数据库中,在新增数据数量超过数量阈值的情况下,需要对企业特征词表和行业关键词表进行更新,并对分类模型进行微调,其中数量阈值可根据用户的使用需要进行预设,本公开对此不作具体限定。
可选的,本方法还可以包括:
响应于用户对企业的行业类别的选择结果,更新企业特征词表和行业关键词表;
通过更新后的企业特征词表对分类模型进行微调。
具体的,响应于用户对企业的行业类别的选择结果获取新增数据,根据新增数据对企业特征词表中的企业特征词和行业关键词表中的行业关键词进行添加、更改,以实现对企业特征词表和行业关键词表的更新。
具体的,将更新后的企业特征词表输入到Chunk-max pooling TextCNN模型中,固定Chunk-max pooling TextCNN模型的嵌入层、卷积层和池化层参数,仅训练输出层,实现对Chunk-max pooling TextCNN模型的微调。模型微调能节约大量的模型训练时间,提高分类模型分类结果的准确性。
具体的,可在每达到预设时,对Chunk-max pooling TextCNN模型的微调,保证分类结果的准确性。
响应于用户对企业的行业类别的选择结果对企业特征词表和行业关键词表更新,可自动更新失效的企业行业分类数据,提供更准确的行业分类建议;根据用户实时的选择结果对分类模型微调,自动调整分类模型的参数,减小了分类模型的更新难度。
以图2为例对本方法进行举例说明。如图2所示,第一阶段:从企业发票数据中提取企业的销项商品、各商品的销售金额、企业名称以及经营范围等初始数据。第二阶段:进行数据预处理,对初始数据进行采样、过滤、标准化处理;同时通过主营商品计算工具根据初始数据确定主营商品。第三阶段:对数据预处理后的初始数据进行特征变换处理,如去除超低频词汇,自定义分词减少分词个数,得到第一企业特征词表;同时根据商业类型规则将主营商品分为,同时获取模糊商品的,根据精准商品、模糊商品和辅助信息得到第二企业特征词表,合并第一企业特征词表和第二企业特征词表得到企业特征词表。
第四阶段包括三种情况:
第一种:通过TF-IDF获取行业关键词,将行业关键词与企业特征词表进行匹配,在行业关键词表中所有行业关键词均与企业特征词表中的所有企业特征词匹配的情况下,根据行业关键词表输出企业的行业类别。
第二种:将企业特征词表输入到Chunk-max pooling TextCNN深度学习预测模型种,得到企业的行业类别以及每个行业类别的概率。
第三种:在行业关键词表中的部分行业关键词与企业特征词表中的部分企业特征词匹配的情况下,根据行业关键词表中匹配的部分行业关键词得到企业的第一部分行业类别以及第一部分行业类别的概率;将企业特征词表中与行业关键词表未匹配的部分企业特征词作为企业特征词表输入到Chunk-max pooling TextCNN模型中,得到企业的第二部分行业类别以及第二部分行业类别的概率;根据第一部分行业类别、第一部分行业类别的概率、第二部分行业类别、第二部分行业类别的概率得到企业的行业类别以及每个行业类别的概率。
第五阶段:进对企业的行业类别、每个行业类别的概率以及“其他”选项进行展示,响应于用户对企业的行业类别的选择结果获取新增数据,根据新增数据合并到初始数据中,以对企业特征词表中的企业特征词和行业关键词表中的行业关键词进行添加、更改,实现对企业特征词表和行业关键词表的更新,并通过更新后的企业特征词表对Chunk-maxpooling TextCNN模型进行微调。
图3是根据一示例性实施例示出的一种企业行业分类装置的框图,如图3所示,该企业行业分类装置1300包括:获取模块1301、处理模块1302以及执行模块1303。
其中,获取模块1301被配置成用于获取企业的经营信息。
处理模块1302被配置成用于根据经营信息确定主营商品,通过主营商品获取企业特征词表。
执行模块1303被配置成用于将企业特征词表输入到分类模型中,以得到企业的行业类别以及每个行业类别的概率。
本公开提供一种企业行业分类装置,可通过三种方式得到企业的行业类别以及每个行业类别的概率;
第一种方式:通过企业发票获取企业的经营信息并确定企业的主营商品,获取多个企业特征词构成企业特征词表,通过分类模型根据企业特征词表得到企业的行业类别及每个行业类别的概率;
第二种方式:统计行业关键词,对行业关键词进行筛选以得到行业关键词表,将企业特征词表与行业关键词表进行匹配,根据匹配结果得到企业的行业类别及每个行业类别的概率;
第三种方式:通过企业特征词表与行业关键词表的匹配结果得到企业的第一部分行业类别及第一部分行业类别的概率,通过分类模型根据企业特征词表得到企业的第二部分行业类别及第二行业类别的概率,结合第一部分行业类别、第一部分行业类别的概率、第二部分行业类别及第二部分行业类别的概率,得到企业的行业类别以及每个行业类别的概率。
本公开基于企业的主营商品获取企业特征词,根据企业特征词采用不同的方式得到确定企业的行业类别及每个行业类别的概率,提高了分类结果的准确性和可靠性,通过分类模型实现分类,提高了分类速度、分类精度。人机交互,根据用户的反馈信息更新企业特征词表和行业关键词,以及微调分类模型,可不断提高分类结果的精度以及可靠度。在企业实际经营项目发生改变时,可及时对企业类别信息进行更新。
可选的,在经营信息包括商品名称以及各商品的销售金额的情况下,处理模块1302被配置成用于将商品名称一致的商品整理为同一类,并计算每一类商品名称对应的销售总金额;
对销售总金额进行排序,获取销售总金额超过企业的总金额一半的商品作为主营商品。
可选的,在经营信息包括企业的经营范围、企业名称、商品名称的情况下,处理模块1302被配置成用于在企业包括多项主营商品且存在主营商品为精准商品的情况下,对商品名称进行分词处理,得到企业特征词表;
在企业包括多项主营商品且不存在主营商品为精准商品的情况下,对经营范围、企业名称以及商品名称进行分词处理,得到企业特征词表;
在述企业包括一项主营商品的情况下,对商品名称进行分词处理,得到企业特征词表。
可选的,该企业行业分类装置1300还包括第二获取模块,第二获取模块被配置成用于获取行业关键词,根据词频阈值对得到的行业关键词进行初步筛选;
根据预设分类条件对行业关键词进行筛选,将得到的行业关键词汇总为行业关键词表。
可选的,执行模块1303被配置成用于将企业特征词表与行业关键词表进行匹配;
在企业特征词表中的所有企业特征词均能在行业关键词表查询到情况下,根据行业关键词表输出企业的行业类别。
可选的,执行模块1303被配置成用于将企业特征词表与行业关键词表进行匹配;
在企业特征词表中的部分企业特征词能在行业关键词表查询到情况下,根据部分企业特征词在行业关键词表得到企业的第一部分行业类别以及第一部分行业类别的概率;
将未在行业关键词表查询到企业特征词输入到分类模型、以得到企业的第二部分行业类别以及第二部分行业类别的概率;
结合第一部分行业类别、第一部分行业类别的概率、第二部分行业类别及第二部分行业类别的概率,得到企业的行业类别以及每个行业类别的概率。
可选的,该企业行业分类装置1300还包括更新模块,更新模块被配置成用于响应于用户对企业的行业类别的选择结果,更新企业特征词表和行业关键词表;
通过更新后的企业特征词表对分类模型进行微调。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现本公开提供的企业行业分类方法的步骤。
具体的,该计算机可读存储介质可以是闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器等等。
关于上述实施例中的计算机可读存储介质,其上存储的计算机程序被执行时的企业行业分类方法步骤已将在有关该方法的实施例中进行了详细描述,此处不做详细阐述。
本公开还提供一种电子设备,该电子设备包括:
储器,其上存储有计算机程序;
处理器,用于执行存储器中的计算机程序,以实现上述的企业行业分类方法的步骤。
本公开提供一种电子设备,可通过三种方式得到企业的行业类别以及每个行业类别的概率;
第一种方式:通过企业发票获取企业的经营信息并确定企业的主营商品,获取多个企业特征词构成企业特征词表,通过分类模型根据企业特征词表得到企业的行业类别及每个行业类别的概率;
第二种方式:统计行业关键词,对行业关键词进行筛选以得到行业关键词表,将企业特征词表与行业关键词表进行匹配,根据匹配结果得到企业的行业类别及每个行业类别的概率;
第三种方式:通过企业特征词表与行业关键词表的匹配结果得到企业的第一部分行业类别及第一部分行业类别的概率,通过分类模型根据企业特征词表得到企业的第二部分行业类别及第二行业类别的概率,结合第一部分行业类别、第一部分行业类别的概率、第二部分行业类别及第二部分行业类别的概率,得到企业的行业类别以及每个行业类别的概率。
本公开基于企业的主营商品获取企业特征词,根据企业特征词采用不同的方式得到确定企业的行业类别及每个行业类别的概率,提高了分类结果的准确性和可靠性,通过分类模型实现分类,提高了分类速度、分类精度。人机交互,根据用户的反馈信息更新企业特征词表和行业关键词表,以及微调分类模型,可不断提高分类结果的精度以及可靠度。在企业实际经营项目发生改变时,可及时对企业类别信息进行更新。
图4是根据一示例性实施例示出的一种电子设备700的框图。如图4所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的企业行业分类方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如企业的销项商品、各商品的销售金额、企业名称以及经营范围等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。
I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(NearField Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的企业行业分类方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的企业行业分类方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种企业行业分类方法,其特征在于,所述方法包括:
通过企业发票获取所述企业的经营信息;
根据所述经营信息确定主营商品,通过所述主营商品获取企业特征词表;
将所述企业特征词表输入到分类模型中,以得到所述企业的行业类别以及每个行业类别的概率。
2.根据权利要求1所述的方法,其特征在于,所述经营信息包括商品名称以及各商品的销售金额,所述根据所述经营信息确定主营商品,包括:
将所述商品名称一致的商品整理为同一类,并计算每一类所述商品名称对应的销售总金额;
对所述销售总金额进行排序,获取所述销售总金额超过所述企业的总金额一半的商品作为主营商品。
3.根据权利要求1所述的方法,其特征在于,所述经营信息包括所述企业的经营范围、企业名称、商品名称,所述通过所述主营商品获取企业特征词表,包括:
在所述企业包括多项主营商品且存在所述主营商品为精准商品的情况下,对所述商品名称进行分词处理,得到企业特征词表;
在所述企业包括多项主营商品且不存在所述主营商品为精准商品的情况下,对所述经营范围、所述企业名称以及所述商品名称进行分词处理,得到企业特征词表;
在所述企业包括一项主营商品的情况下,对所述商品名称进行分词处理,得到企业特征词表。
4.根据权利要求1任一项所述的方法,其特征在于,所述方法还包括:
获取行业关键词,根据词频阈值对得到的所述行业关键词进行初步筛选;
根据预设分类条件对所述行业关键词进行筛选,将得到的行业关键词汇总为行业关键词表。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述企业特征词表与所述行业关键词表进行匹配;
在所述企业特征词表中的所有企业特征词均能在所述行业关键词表查询到情况下,根据所述行业关键词表输出所述企业的行业类别。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述企业特征词表与所述行业关键词表进行匹配;
在所述企业特征词表中的部分企业特征词能在所述行业关键词表查询到情况下,根据所述部分企业特征词在所述行业关键词表得到所述企业的第一部分行业类别以及第一部分行业类别的概率;
将未在所述行业关键词表查询到企业特征词输入到所述分类模型、以得到所述企业的第二部分行业类别以及第二部分行业类别的概率;
结合所述第一部分行业类别、所述第一部分行业类别的概率、所述第二部分行业类别及所述第二部分行业类别的概率,得到所述企业的行业类别以及每个行业类别的概率。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
响应于用户对所述企业的行业类别的选择结果,更新所述企业特征词表和所述行业关键词表;
通过更新后的所述企业特征词表对所述分类模型进行微调。
8.一种企业行业分类装置,其特征在于,所述装置包括:
获取模块,被配置成用于获取企业的经营信息;
处理模块,被配置成用于根据所述经营信息确定主营商品,通过所述主营商品获取企业特征词表;
执行模块,被配置成用于将所述企业特征词表输入到分类模型中,以得到所述企业的行业类别以及每个行业类别的概率。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的企业行业分类方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述的企业行业分类方法的步骤。
CN202011480351.9A 2020-12-15 2020-12-15 企业行业分类方法、装置、存储介质及电子设备 Pending CN114637842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011480351.9A CN114637842A (zh) 2020-12-15 2020-12-15 企业行业分类方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011480351.9A CN114637842A (zh) 2020-12-15 2020-12-15 企业行业分类方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114637842A true CN114637842A (zh) 2022-06-17

Family

ID=81944822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011480351.9A Pending CN114637842A (zh) 2020-12-15 2020-12-15 企业行业分类方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114637842A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809887A (zh) * 2022-12-09 2023-03-17 蔷薇大树科技有限公司 一种基于发票数据确定企业主要经营范围的方法和装置
CN116361726A (zh) * 2023-04-03 2023-06-30 全拓科技(杭州)股份有限公司 一种基于多维大数据分析的数据处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809887A (zh) * 2022-12-09 2023-03-17 蔷薇大树科技有限公司 一种基于发票数据确定企业主要经营范围的方法和装置
CN115809887B (zh) * 2022-12-09 2023-10-10 蔷薇大树科技有限公司 一种基于发票数据确定企业主要经营范围的方法和装置
CN116361726A (zh) * 2023-04-03 2023-06-30 全拓科技(杭州)股份有限公司 一种基于多维大数据分析的数据处理方法
CN116361726B (zh) * 2023-04-03 2024-03-29 全拓科技(杭州)股份有限公司 一种基于多维大数据分析的数据处理方法

Similar Documents

Publication Publication Date Title
US11704325B2 (en) Systems and methods for automatic clustering and canonical designation of related data in various data structures
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
EP3617952A1 (en) Information search method, apparatus and system
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
US20170061156A1 (en) Personal information anonymization method, recording medium, and information processing apparatus
CN111814472B (zh) 文本识别方法、装置、设备及存储介质
CN110990529B (zh) 企业的行业明细划分方法及系统
CN111680165B (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN114637842A (zh) 企业行业分类方法、装置、存储介质及电子设备
CN113268971B (zh) 演示报告智能生成方法、装置、计算机设备及存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN113761334A (zh) 一种可视化推荐方法、装置、设备和存储介质
CN108563786B (zh) 文本分类和展示方法、装置、计算机设备及存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN113361240A (zh) 用于生成目标文章的方法、装置、设备和可读存储介质
EP3489838A1 (en) Method and apparatus for determining an association
CN111241274A (zh) 刑事法律文书处理方法和装置、存储介质和电子设备
CN115718807A (zh) 人员关系分析方法、装置、设备及存储介质
CN112307134B (zh) 实体信息处理方法、装置、电子设备及存储介质
CN111931065A (zh) 基于lstm模型的商机推荐方法、系统、电子设备及介质
CN113806526A (zh) 特征抽取方法、设备和存储介质
CN112016975A (zh) 产品筛选方法、装置、计算机设备及可读存储介质
CN111353087A (zh) 热词统计方法及装置、存储介质、电子终端
CN110807646A (zh) 数据分析方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination