CN113901223A - 企业分类模型的生成方法、装置、计算机设备、存储介质 - Google Patents
企业分类模型的生成方法、装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN113901223A CN113901223A CN202111389393.6A CN202111389393A CN113901223A CN 113901223 A CN113901223 A CN 113901223A CN 202111389393 A CN202111389393 A CN 202111389393A CN 113901223 A CN113901223 A CN 113901223A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- classification
- characteristic information
- classification model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 348
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 229910052799 carbon Inorganic materials 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种企业分类模型的生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待分类企业的企业特征信息,通过预训练的第一分类模型对企业特征信息进行分类,得到待分类企业的目标企业分类结果;从多个数据块中确定与目标企业分类结果对应的数据块,将企业特征信息更新至与目标企业分类结果对应的数据块中;采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型;根据第一分类模型和第二分类模型,确定后续对企业进行分类的企业分类模型。采用本方法能够根据持续更新的企业数据动态地训练企业分类模型,从而提高企业分类模型的分类准确率。
Description
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种企业分类模型的生成方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着国内经济下行压力的持续加大和经济转型升级的不断深入,个别企业在企业经营方面出现了风险问题。而存在风险问题的异常企业严重威胁着其他企业的生存与发展。因此,如何从众多企业中确定存在风险问题的异常企业,提前对异常企业进行风险防范,对于企业的健康发展有重要意义。
传统技术中,可以通过获取企业的企业信息,采用词向量模型生成与企业信息对应的特征向量,将特征向量输入机器学习模型中得到企业为正常企业还是异常企业的分类结果。但是,由于企业信息会随着时间的变化而发生难以预测的变化,容易导致机器学习模型的分类结果不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高模型的分类准确率的企业分类模型的生成方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种企业分类模型的生成方法。所述方法包括:
获取待分类企业的企业特征信息,通过预训练的第一分类模型对所述企业特征信息进行分类,得到所述待分类企业的目标企业分类结果;
从多个数据块中确定与所述目标企业分类结果对应的数据块,将所述企业特征信息更新至与所述目标企业分类结果对应的数据块中,其中,每个所述数据块用于存储预设数量个的企业分类结果下的原有企业特征信息,所述第一分类模型是采用所述数据块中原有企业特征信息进行训练得到的;
采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型;
根据所述第一分类模型和所述第二分类模型,确定企业分类模型,所述企业分类模型用于后续对企业进行分类。
在其中一个实施例中,所述将所述企业特征信息更新至与所述目标企业分类结果对应的数据块中,包括:
将所述企业特征信息添加至与所述目标企业分类结果对应的数据块中,并根据所述数据块中原有企业特征信息的更新时间,从所述数据块中删除预设数量个的所述原有企业特征信息,所述预设数量与所述企业特征信息的数量相等。
在其中一个实施例中,所述采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练之前,还包括:
确定每个所述数据块中的原有企业特征信息被删除完毕。
在其中一个实施例中,所述第一分类模型的数量为多个;
所述通过预训练的第一分类模型对所述企业特征信息进行分类,得到所述待分类企业的目标企业分类结果,包括:
通过每个所述第一分类模型对所述企业特征信息进行分类,得到每个所述第一分类模型输出的企业分类结果;
根据多个所述第一分类模型输出的企业分类结果,确定所述待分类企业的目标企业分类结果。
在其中一个实施例中,所述根据所述第一分类模型和所述第二分类模型,确定企业分类模型,包括:
当所述第一分类模型的数量小于第一阈值时,将所述第一分类模型和所述第二分类模型作为所述企业分类模型;
当所述第一分类模型的数量等于第一阈值时,通过每个所述第一分类模型对更新后的每个所述数据块中的企业特征信息进行分类,根据得到的分类结果生成每个所述第一分类模型的模型评价结果;
筛选得到所述模型评价结果符合预设条件的第一分类模型,将筛选得到的第一分类模型和所述第二分类模型作为所述企业分类模型。
在其中一个实施例中,所述获取待分类企业的企业特征信息,包括:
获取所述待分类企业的企业数据,所述企业数据包括非标识类的企业文本数据;
对所述企业文本数据进行分词处理,得到多个分词,以及每个所述分词的出现次数;
根据多个所述分词的出现次数之和以及第二阈值,确定分组参数;
按照每个所述分词的出现次数对多个所述分词进行排序,根据所述分组参数对排序后的多个所述分词进行分组,得到多个词分组,每个所述词分组中分词的出现次数之和大于所述分组参数;
根据每个所述词分组中的分词,以及与所述分词对应的出现次数,生成所述企业特征信息。
在其中一个实施例中,所述采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练,包括:
确定更新后的多个所述数据块中,两两企业特征信息之间的第一相关性参数,以及所述企业特征信息与企业分类结果之间的第二相关性参数;
根据所述企业特征信息对应的所述第一相关性参数以及所述第二相关性参数,确定所述企业特征信息的权重;
根据所述权重对所述企业特征信息进行降维处理,生成与所述企业特征信息对应的模型训练数据;
采用所述模型训练数据对所述初始第二分类模型进行训练。
在其中一个实施例中,所述确定更新后的多个所述数据块中,两两企业特征信息之间的第一相关性参数,以及所述企业特征信息与企业分类结果之间的第二相关性参数,包括:
根据更新后的多个所述数据块中,两两企业特征信息之间的第一互信息量,以及每个所述企业分类结果下的两两企业特征信息之间的类内距离,确定所述第一相关性参数;
根据更新后的多个所述数据块中,所述企业特征信息与企业分类结果之间的第二互信息量,以及所述企业特征信息与第一企业分类结果之间的类间距离,确定所述第二相关性参数,所述第一企业分类结果为所述企业分类结果中除与所述企业特征信息对应的企业分类结果以外的企业分类结果。
第二方面,本申请还提供了一种企业分类模型的生成装置。所述装置包括:
企业分类模块,用于获取待分类企业的企业特征信息,通过预训练的第一分类模型对所述企业特征信息进行分类,得到所述待分类企业的目标企业分类结果;
数据块更新模块,用于从多个数据块中确定与所述目标企业分类结果对应的数据块,将所述企业特征信息更新至与所述目标企业分类结果对应的数据块中,其中,每个所述数据块用于存储预设数量个的企业分类结果下的原有企业特征信息,所述第一分类模型是采用所述数据块中原有企业特征信息进行训练得到的;
分类模型训练模块,用于采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型;
分类模型确定模块,用于根据所述第一分类模型和所述第二分类模型,确定企业分类模型,所述企业分类模型用于后续对企业进行分类。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的企业分类模型的生成方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的企业分类模型的生成方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项实施例所述的企业分类模型的生成方法。
上述企业分类模型的生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待分类企业的企业特征信息,采用预训练的第一分类模型对企业特征信息进行分类,确定待分类企业的目标企业分类结果,按照目标企业分类结果将企业特征信息更新至对应的数据块中,采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型,根据第一分类模型和第二分类模型,确定后续对企业进行分类的企业分类模型,能够根据获取的持续更新的待分类企业的企业特征信息,动态地训练企业分类模型,从而提高企业分类模型的分类准确率。此外,本申请通过设置多个数据块,每个数据块用于存储预设数量个的企业特征信息,能够达到平衡正常企业样本与异常企业样本的效果。进一步的,将本申请中的技术方案应用于异常企业的检测场景时,能够提高对异常企业的检测准确率。
附图说明
图1为一个实施例中企业分类模型的生成方法的流程示意图;
图2为一个实施例中目标企业分类结果确定步骤的流程示意图;
图3为一个实施例中企业分类模型确定步骤的流程示意图;
图4为一个实施例中企业特征信息生成步骤的流程示意图;
图4a为一个实施例中企业特征信息生成步骤的示意图;
图4b为另一个实施例中企业特征信息生成步骤的示意图;
图5为一个实施例中对企业特征信息进行降维处理步骤的流程示意图;
图6a为一个实施例中企业分类模型的生成方法的流程示意图;
图6b为另一个实施例中企业分类模型的生成方法的流程示意图;
图7为一个实施例中企业分类模型的生成装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种企业分类模型的生成方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例中,该方法包括以下步骤:
步骤S102,获取待分类企业的企业特征信息,通过预训练的第一分类模型对企业特征信息进行分类,得到待分类企业的目标企业分类结果。
其中,待分类企业可以用于表征需要通过分类模型确定目标企业分类结果的企业。目标企业分类结果可以用于表征与企业的经营状况对应的企业所属分类。一个示例中,通过分类模型确定待分类企业A的目标企业分类结果为正常企业(经营正常的企业);或者,通过分类模型确定待分类企业B的目标企业分类结果为异常企业(经营存在风险的企业)。
企业特征信息可以根据与企业相关的多维数据生成。一个示例中,企业特征信息可以根据企业的注册资本、企业的规模、企业的注册时间、企业的实缴资本、企业的变更备案次数、企业的所在省市区、企业的官网信息等生成。
第一分类模型可以用于表征根据机器学习分类算法生成的模型。一个示例中,第一分类模型可以是支持向量机模型、逻辑回归模型、随机森林模型、梯度下降树模型等机器分类模型中的任一种。第一分类模型为已经通过离线预训练或者在线预训练,并满足在线分类要求的模型。
具体地,服务器上预先部署了通过预训练的第一分类模型。服务器响应于对待分类企业的分类请求,获取待分类企业的企业特征信息。服务器将待分类企业的企业特征信息输入至第一分类模型,得到待分类企业的目标企业分类结果。其中,对待分类企业的分类请求可以是用户手动触发的,例如用户在页面上点击相应的分类按键,触发对待分类企业的分类请求;也可以是服务器自动触发的,例如服务器检测到存在待分类企业的企业特征信息,自动触发对待分类企业的分类请求,获取待分类企业的企业特征信息。
步骤S104,从多个数据块中确定与目标企业分类结果对应的数据块,将企业特征信息更新至与目标企业分类结果对应的数据块中。
其中,数据块可以用于表征存储预设数量个的企业分类结果下的原有企业特征信息的数据集合。数据块与企业分类结果一一对应,企业分类结果可以包括但不仅限于正常企业和异常企业。一个示例中,数据块A用于存储五千条企业分类结果为正常企业的原有企业特征信息,数据块B用于存储五千条企业分类结果为异常企业的原有企业特征信息。
原有企业特征信息可以用于表征已确定对应的企业分类结果的企业特征信息。原有企业特征信息可以用于对未训练的第一分类模型进行训练,得到通过预训练的第一分类模型。
具体地,服务器根据待分类企业的目标企业分类结果,从多个数据块中确定与目标企业分类结果对应的数据块,将待分类企业的企业特征信息更新至与目标企业分类结果对应的数据块中。例如,服务器中预先存储了数据块A和数据块B,数据块A用于存储五千条企业分类结果为正常企业的原有企业特征信息,数据块B用于存储五千条企业分类结果为异常企业的原有企业特征信息。服务器通过预训练的第一分类模型确定待分类企业X的目标企业分类结果为正常企业。服务器根据待分类企业X的目标企业分类结果将待分类企业X的企业特征信息存储值数据块A中。
步骤S106,采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型。
其中,初始第二分类模型可以用于表征未训练的第二分类模型。一个示例中,第二分类模型可以为支持向量机模型、逻辑回归模型、随机森林模型、梯度下降树模型等机器分类模型中的任意一个。
具体地,服务器将更新后的多个数据块中的企业特征信息作为模型训练数据输入至初始第二分类模型进行训练,得到第二分类模型。
一个示例中,以采用支持向量机模型为例进行说明第二分类模型的训练方法:
首先,服务器获取更新后的多个数据块中的企业特征信息,根据每个企业特征信息对应的企业分类结果生成与每个企业特征信息对应的分类标签。服务器将每个企业特征信息以及每个企业特征信息对应的分类标签作为模型训练数据输入至初始第二分类模型。服务器通过初始第二分类模型确定模型训练数据的预测值,根据模型训练数据的预测值以及模型训练数据的分类标签确定初始第二分类模型的准确率。对初始第二分类模型的参数进行调整,直至,初始第二分类模型的准确率满足预设的准确率标准,得到第二分类模型。
步骤S108,根据第一分类模型和第二分类模型,确定企业分类模型。
具体地,服务器中预先存储量企业分类模型确定逻辑。服务器按照企业分类模型确定逻辑从第一分类模型和第二分类模型中确定企业分类模型。其中,企业分类模型确定逻辑可以但不仅限于采用更新后的多个数据块中的企业特征信息作为测试数据分别输入第一分类模型以及第二分类模型,得到第一分类模型的准确率以及第二分类模型的准确率,将准确率高的分类模型作为企业分类模型;或者,将准确率满足企业分类模型阈值的分类模型作为企业分类模型;或者,对第一分类模型的数量进行判断,当第一分类模型的数量小于分类模型阈值时,将第一分类模型以及第二分类模型作为企业分类模型,当第一分类模型的数量大于或等于分类模型阈值时,根据第一分类模型的准确率对第一分类模型进行筛选,将筛选后的第一分类模型以及第二分类模型作为企业分类模型。
上述企业分类模型的生成方法中,通过获取待分类企业的企业特征信息,采用预训练的第一分类模型对企业特征信息进行分类,确定待分类企业的目标企业分类结果,按照目标企业分类结果将企业特征信息更新至对应的数据块中,采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型,根据第一分类模型和第二分类模型,确定后续对企业进行分类的企业分类模型,能够根据获取的持续更新的待分类企业的企业特征信息,动态地训练企业分类模型,从而提高企业分类模型的分类准确率。此外,本申请通过设置多个数据块,每个数据块用于存储预设数量个的企业特征信息,能够达到平衡正常企业样本与异常企业样本的效果。进一步的,将本申请中的技术方案应用于异常企业的检测场景时,能够提高对异常企业的检测准确率。
在一个实施例中,步骤S104,从多个数据块中确定与目标企业分类结果对应的数据块,将企业特征信息更新至与目标企业分类结果对应的数据块中,包括:将企业特征信息添加至与目标企业分类结果对应的数据块中,并根据数据块中原有企业特征信息的更新时间,从数据块中删除预设数量个的原有企业特征信息,预设数量与企业特征信息的数量相等。
具体地,服务器将待分类企业的企业特征信息添加至与待分类企业的目标企业分类结果对应的数据块中,同时从企业特征信息存储的数据块中确定更新时间距离当前时间最远的、与企业特征信息数量相同的原有企业特征信息,删除所确定的与企业特征信息数量相同的原有企业特征信息。
本实施例,通过将企业特征信息添加至与目标企业分类结果对应的数据块中,同时从数据块中删除与企业特征信息的数量相等的原有企业特征信息,能够避免由于企业特征信息发生变化导致的企业分类模型准确率低的问题。
在一个实施例中,在步骤S106,采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型之前,包括:确定每个数据块中的原有企业特征信息被删除完毕。即,每个数据块中的原有企业特征信息都替换为通过步骤S102得到的企业特征信息。
本实施例,通过将原有企业特征信息被删除完毕的数据块作为更新后的数据块,采用更新后的多个数据块中的企业特征信息训练初始第二分类模型,能够增加初始第二分类模型的模型训练数据的数据量,从而提高得到的第二分类模型的分类准确率。
在一个实施例中,第一分类模型的数量为多个,如图2所示,步骤S102,获取待分类企业的企业特征信息,通过预训练的第一分类模型对企业特征信息进行分类,得到待分类企业的目标企业分类结果,包括:
步骤S202,通过每个第一分类模型对企业特征信息进行分类,得到每个第一分类模型输出的企业分类结果。
步骤S204,根据多个第一分类模型输出的企业分类结果,确定待分类企业的目标企业分类结果。
具体地,服务器上预先部署了多个通过预训练的第一分类模型。服务器通过每个第一分类模型对待分类企业的企业特征信息进行分类,得到每个第一分类模型输出的待分类企业的企业分类结果。服务器根据与每个企业分类结果对应的第一分类模型的个数,将与企业分类结果对应的第一分类模型的个数最多的企业分类结果作为待分类企业的目标企业分类结果。一个示例中,服务器上预先存储了十个通过预训练的第一分类模型,服务器通过每个第一分类模型对待分类企业的企业特征信息进行分类,得到七个第一分类模型输出的待分类企业的企业分类结果为异常企业,三个第一分类模型输出的待分类企业的企业分类结果为正常企业,确定待分类企业的目标企业分类结果为异常企业。
本实施例中,通过多个第一分类模型对待分类企业的企业特征信息进行分类,根据每个第一分类模型输出的企业分类结果,确定待分类企业的目标企业分类结果,能够提高目标企业分类结果的准确率。
在一个实施例中,如图3所示,步骤S108,根据第一分类模型和第二分类模型,确定企业分类模型,包括:
步骤S302,将第一分类模型的数量与第一阈值进行比较。
其中,第一阈值可以为第一分类模型数量的上限阈值。
具体地,服务器获取第一分类模型的数量,将第一分类模型的数量与第一阈值进行比较。当第一分类模型的数量小于第一阈值时,执行步骤S304;当第一分类模型的数量等于第一阈值时,执行步骤S306至步骤S308。
步骤S304,将第一分类模型和第二分类模型作为企业分类模型。
具体地,服务器将第一分类模型和第二分类模型作为企业分类模型。
步骤S306,通过每个第一分类模型对更新后的每个数据块中的企业特征信息进行分类,根据得到的分类结果生成每个第一分类模型的模型评价结果。
具体地,服务器将更新后的每个数据块中的企业特征信息作为测试数据输入每个第一分类模型,得到每个第一分类模型输出的与企业特征信息对应的分类结果。服务器根据第一分类模型输出的与企业特征信息对应的分类结果,以及与企业特征信息对应的目标企业分类结果,生成每个第一分类模型的模型评价结果。
步骤S308,筛选得到模型评价结果符合预设条件的第一分类模型,将筛选得到的第一分类模型和第二分类模型作为企业分类模型。
具体地,服务器根据每个第一分类模型的模型评价结果对多个第一分类模型进行筛选,得到模型评价结果符合预设条件的第一分类模型,将筛选得到的第一分类模型和第二分类模型作为企业分类模型。其中,预设条件可以但不仅限于为模型评价结果大于或等于模型评价结果阈值;或者,为根据第一分类模型的模型评价结果对多个第一分类模型进行排序,从第一分类模型中删除模型评价结果较低的若干个第一分类模型,直至删除后的第一分类模型的数量与第二分类模型的数量之和等于第一阈值。
本实施例中,通过将第一分类模型的数量与第一阈值进行比较,当第一分类模型的数量小于预设阈值时,直接将第一分类模型和第二分类模型作为企业分类模型;当第一分类模型的数量等于预设阈值时,根据预设条件对第一分类模型进行筛选,将筛选得到的第一分类模型和第二分类模型作为企业分类模型,能够提高企业分类模型的分类准确率。
在一个实施例中,如图4所示,步骤S102,获取待分类企业的企业特征信息,通过预训练的第一分类模型对企业特征信息进行分类,得到待分类企业的目标企业分类结果,包括:
步骤S402,获取待分类企业的企业数据。
其中,企业数据可以包括但不仅限于数值型的企业数据、标识类的企业文本数据以及非标识类的企业文本数据。一个示例中,数值型的企业数据可以为企业的注册资本、企业的规模、企业的注册时间、企业的实缴资本、企业的变更备案次数。一个示例中,标识类的企业文本数据可以为企业的所在省市区。一个示例中,非标识类的企业文本数据可以为企业的官网信息。
具体地,服务器通过爬虫技术获取待分类企业的企业数据。服务器对待分类企业的数值型的企业数据进行处理,生成数值型企业数据维度对应的企业特征信息;服务器对标识类的企业文本数据进行处理,生成标识类企业文本数据维度对应的企业特征信息。
一个示例中,数值型企业数据维度对应的企业特征信息可以根据数值型的企业数据直接生成。例如,企业的注册时间为YYYY年MM月DD日,企业的注册时间维度对应的企业特征信息可以为[YYYY,MM,DD]。
一个示例中,由于标识类的企业文本数据对应的标识是有限数量个的,因此标识类企业文本数据维度对应的企业特征信息可以根据企业文本数据对应的标识生成。例如,根据Z国省份的数量生成与每个省份对应的省份标识号,根据每个省份下的城市的数量生成与每个城市对应的城市标识号,根据每个城市下的区的数量生成与每个区对应的区标识号。企业的所在省市区为J省(对应的省份标识号为08),S市(对应的城市标识号为25),G区(对应的区标识号为01),企业所在省市区维度对应的企业特征信息为[08,25,01]。
步骤S404,对企业文本数据进行分词处理,得到多个分词,以及每个分词出现的次数。
步骤S406,根据多个分词的出现次数之和以及第二阈值,确定分组参数。
具体地,服务器对非标识类的企业文本数据进行分词处理,得到多个分词以及每个分词出现的次数。服务器根据每个分词出现的次数,确定多个分词的出现次数之和。服务器根据多个分词的出现次数之和以及第二阈值,确定分组参数,可以通过以下公式得到分组参数:
K=Total/N
其中,Total为多个分词的出现次数之和,N为第二阈值,K为分组参数。
步骤S408,按照每个分词的出现次数对多个分词进行排序,根据分组参数对排序后的多个分词进行分组,得到多个词分组。
具体地,服务器按照每个分词的出现次数从高到低对多个分词进行排序,根据分组参数对排序后的多个分词进行分组,将排序后的多个分词中相邻的若干个分词分为一组,得到多个词分组。每个词分组中若干个分词的出现次数之和等于分组参数。
步骤S410,根据每个词分组中的分词,以及与分词对应的出现次数,生成企业特征信息。
具体地,服务器根据每个词分组中的分词生成每个词分组的分词词表,根据每个词分组中分词的出现次数之和确定每个词分组的出现次数。服务器根据每个词分组的分词词表以及每个词分组的出现次数,生成非标识类企业文本数据维度对应的企业特征信息。服务器将数值型企业数据维度对应的企业特征信息,标识类企业文本数据维度对应的企业特征信息,以及非标识类企业文本数据维度对应的企业特征信息作为企业特征信息。
一个示例中,非标识类企业文本数据维度对应的企业特征信息可以根据非标识类的企业文本数据分词处理后得到的每个分词出现的次数生成。例如,如图4a所示,对企业的官网信息进行分词处理,去掉停用词(如“的”、“了”、标点符号等不重要的词),得到分词处理后的分词序列为AAAERFQ…,根据分词序列中出现的分词生成分词词表,获取每个分词出现的次数。将每个分词作为企业官网信息维度对应的一列企业特征信息的行属性,根据分词词表以及每个分词出现的次数生成企业官网信息维度对应的企业特征信息[3,0,0,0,1,1,…]。
一个示例中,由于与非标识类的企业文本数据对应的分词词表数据量过大,容易导致生成的非标识类企业文本数据维度的企业特征信息长度过大且十分稀疏,占用过多存储空间,从而使得企业分类模型的分类效率低。因此,本实施例提出了一种阶梯归并算法,对分词词表中的分词进行归并处理。阶梯归并算法首先设定了企业特征信息的特征长度,特征长度远小于分词词表的数据量。根据每个分词的出现次数之和,以及企业特征信息的特征长度确定阶梯的高度。按照每个分词的出现次数对多个分词从高到低进行排序,根据阶梯的高度将排序后的多个分词中相邻的若干分词分为一组,使得每组中的分词的出现次数之和等于阶梯的高度。例如,根据设定的企业特征信息的特征长度为3,以及每个分词的出现次数之和为240,确定阶梯的高度为80,如图4b所示,非标识类的企业文本数据对应的分词序列为ABCDACDEF…,确定分词序列中每个分词出现的次数。根据每个分词的出现次数对多个分词进行排序,根据阶梯高度对排序后的多个分词进行分组,使得每个词分组中分词的出现之和等于80,得到了三个词分组,词分组1对应的分词词表中存储有分词A,词分组2对应的分词词表中存储有分词B和C,词分组3对应的分词词表中存储有分词D、E、F和G。采用与分词对应的词分组的标识替换企业文本数据对应的分词序列中的分词,得到词分组标识序列,确定词分组标识序列中每个词分组标识出现的次数。根据每个词分组对应的分词词表,以及每个词分组标识出现的次数,生成非标识类企业文本数据维度的企业特征信息。
本实施例,通过对非标识类的企业文本数据进行分词处理,根据分组参数对多个分词进行分组,根据每个词分组中的分词,以及与分词对应的出现次数,生成企业特征信息,能够缩小企业特征信息的长度,减少企业特征信息占用的存储空间,从而提高企业分类模型的分类效率。
在一个实施例中,如图5所示,步骤S106,采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型,包括:
步骤S502,确定更新后的多个数据块中,两两企业特征信息之间的第一相关性参数,以及企业特征信息与企业分类结果之间的第二相关性参数。
其中,第一相关性参数可以用于表征两两企业特征信息之间的相关性。第二相关性参数可以用于表征企业特征信息与企业分类结果之间的相关性。
具体地,服务器将更新后的多个数据块中的企业特征信息进行合并,得到存储每个企业特征信息的待降维数据块。服务器确定待降维数据块中两两企业特征信息之间的第一相关性参数,以及待降维数据块中企业特征信息与企业分类结果之间的第二相关性参数。
一个示例中,服务器根据待降维数据块中两两企业特征信息之间的第一互信息量,以及每个企业分类结果下的两两企业特征信息之间的类内距离,确定与企业特征信息对应的第一相关性参数。
一个示例中,服务器根据待降维数据块中企业特征信息与企业分类结果之间的第二互信息量,以及企业特征信息与第一企业分类结果之间的类间距离,确定与企业特征信息对应的第二相关性参数。其中,第一企业分类结果为企业分类结果中除与企业特征信息对应的企业分类结果之外的企业分类结果。
一个示例中,服务器采用互信息法确定待降维数据块中两两企业特征信息之间的第一互信息量,以及企业特征信息与企业分类结果之间的第二互信息量。
互信息是用来度量两个变量之间的统计相关性的重要方法,也是目前特征选择中普遍运用的评价准则。可以参照以下计算公式得到互信息量:
I(X,Y)=H(X)+H(Y)-H(X,Y)
其中,I(X,Y)为变量X和变量Y之间的互信息量,H(X)为变量集合X的信息熵,H(Y)为变量集合Y的信息熵,H(X,Y)为变量集合X和变量集合Y之间的联合熵,n为变量集合中变量的个数,xi为变量集合X中的第i个变量,p(xi)为变量xi的边缘概率,yi为变量集合Y中的第i个变量,p(xi,yi)为变量xi和变量yi的联合概率。
可以参照以下计算公式得到两两企业特征信息之间的第一互信息量:
I(fi,fj)=H(fi)+H(fj)-H(fi,fj)
其中,fi为待降维数据块中的第i维企业特征信息,fj为待降维数据块中的第j维企业特征信息,I(fi,fj)为企业特征信息fi和企业特征信息fj之间的第一互信息量,H(fi)为企业特征信息fi的信息熵,H(fj)为企业特征信息fj的信息熵,H(fi,fj)为企业特征信息fi和企业特征信息fj之间的联合熵。
可以参照以下计算公式得到企业特征信息与企业分类结果之间的第二互信息量:
I(C,fi)=H(C)+H(fi)-H(C,fi)
其中,C为企业分类结果,fi为待降维数据块中的第i维企业特征信息,I(C,fi)为企业特征信息fi与企业分类结果C之间的第二互信息量,H(C)为企业分类结果的信息熵,H(fi)为企业特征信息fi的信息熵,H(C,fi)为企业特征信息fi与企业分类结果C之间的联合熵。
一个示例中,服务器通过类别可分性度量确定每个企业分类结果下的两两企业特征信息之间的类内距离,以及企业特征信息与第一企业分类结果之间的类间距离。
类别可分性度量:对于有监督分类,不同类别间距越大类别的相似程度越低,可区分的概率越大,相同类别之间距离越小相似性越大,可区分性越小,分类准确率越高。基于距离度量的特征子集评价能有效提高小样本与线性不可分数据集上特征选择的能力。特征降维时应该选择类间间距大且类内间距小的特征。可以参照以下计算公式得到第j维企业特征信息的特征均值:
其中,N为第j维企业特征信息fj中的企业特征信息数量,xi(j)为第j维企业特征信息fj中的第i个企业特征信息,avg(j)为第j维企业特征信息fj的特征均值。
可以参照以下计算公式得到每个企业分类结果下的两两企业特征信息之间的类内距离:
其中,c′为企业分类结果,M为企业分类结果c′下第j维企业特征信息fj中的企业特征信息的数量,为企业分类结果c′下第j维企业特征信息fj中第t个企业特征信息,avgc′(j)为企业分类结果c′下第j维企业特征信息fj的特征均值,σc′(j)为企业分类结果c′下的第j维企业特征信息fj中两两企业特征信息之间的类内距离。
可以参照以下计算公式得到企业特征信息与第一企业分类结果之间的类间距离:
其中,m为企业分类结果的数量,t为企业分类结果中的第t个企业分类结果,avg(j)为第j维企业特征信息fj的特征均值,avgc′(j)为企业分类结果c′下第j维企业特征信息fj的特征均值,σ类间为第j维企业特征信息fj与第一企业分类结果(企业分类结果中除与企业特征信息fj对应的企业分类结果c′外的企业分类结果)之间的类间距离。
步骤S504,根据企业特征信息对应的第一相关性参数以及第二相关性参数,确定企业特征信息的权重。
具体地,服务器根据企业特征信息对应的第一相关性参数中的类内距离,以及第二相关性参数中的类间距离,确定企业特征信息的权重。
一个示例中,服务器采用类别可分性度量确定企业特征信息的权重,可以参照以下计算公式得到第j维企业特征信息的权重:
其中,W(fj)为第j维企业特征信息fj的权重,σ类间(j)为第j维企业特征信息fj的类间距离,σc′(j)为企业分类结果c′下的第j维企业特征信息fj中两两企业特征信息之间的类内距离,c′为企业分类结果,m为企业分类结果的数量。可以采用W(fj)来衡量特征向量的分类能力,W(fj)越大,表示企业特征信息fj的分类准确率越高。
步骤S506,根据权重对企业特征信息进行降维处理,生成与企业特征信息对应的模型训练数据。
具体地,服务器根据企业特征信息的权重以及企业特征信息的第一相关性参数中的第一互信息量,以及第二相关性参数中的第二互信息量,对待降维数据块中的企业特征信息进行降维处理,生成与企业特征信息对应的模型训练数据。
一个示例中,服务器通过互信息法和类别可分性度量获取待降维数据块中企业特征信息的第一互信息量、第二互信息量以及均值权重。首先,根据企业特征信息的第二互信息量,从待降维数据块中删除第二互信息量为零(即企业特征信息与企业分类结果之间不相关)的企业特征信息,得到企业特征信息子集U。从企业特征信息子集U中选择若干个均值权重较大的企业特征信息添加至初始空集Q中,直至初始空集Q中的企业特征信息维度等于预设维度阈值,可以参照以下计算公式选择第一个添加至初始空集Q中的企业特征信息:
对于企业特征信息子集U中未被选取的企业特征信息fi,取任意企业特征信息gi,当企业特征信息fi与企业特征信息gi满足以下公式时,确定企业特征信息fi与企业特征信息gi完全冗余,从企业特征信息子集U中删除企业特征信息fi:
H(fi)=H(gi)=H(fi,gi)
其中,H(fi)为企业特征信息fi的信息熵,H(gi)为企业特征信息gi的信息熵,H(fi,gi)为企业特征信息fi与企业特征信息gi之间的联合熵。
当企业特征信息fi与企业特征信息gi不是完全冗余时,确定企业特征信息fi与添加至集合Q中的企业特征信息gi之间最大互信息量Imax(fi,gi),将最大互信息量Imax(fi,gi)作为企业特征信息fi与集合Q的冗余度。按照最大相关最小冗余的评估标准评估企业特征信息的重要性,可以参照以下计算公式选择第二个至若干个添加至集合Q中的企业特征信息:
gl=argmax1≤l≤n{J(fi)}
其中,J(fi)为企业特征信息fi的重要性参数,为企业特征信息fi的均值权重,Imax(fi,gi)为企业特征信息fi与集合Q的冗余度,gl为集合Q中的第l个企业特征信息,n为企业特征信息子集U中的企业特征信息数量。
步骤S508,采用模型训练数据对初始第二分类模型进行训练。
具体地,服务器采用模型训练数据对初始第二分类模型进行训练,具体的初始第二分类模型的训练过程可以参照上述实施例中提供的方法实现,在此不做具体阐述。
本实施例中,通过确定企业特征信息的第一相关性参数、第二相关性参数以及权重对更新后的多个数据块中的企业特征信息进行降维处理,生成模型训练数据对初始第二分类模型进行训练,能够提高初始第二分类模型的训练效率,提高第二分类模型的分类准确率。
在一个实施例中,确定更新后的多个数据块中,两两企业特征信息之间的第一相关性参数,以及企业特征信息与企业分类结果之间的第二相关性参数,包括:根据更新后的多个数据块中,两两企业特征信息之间的第一互信息量,以及每个企业分类结果下的两两企业特征信息之间的类内距离,确定第一相关性参数;根据更新后的多个数据块中,企业特征信息与企业分类结果之间的第二互信息量,以及企业特征信息与第一企业分类结果之间的类间距离,确定第二相关性参数。
其中,第一企业分类结果为企业分类结果中除与企业特征信息对应的企业分类结果以外的企业分类结果。
具体地,服务器采用互信息法确定更新后的多个数据块中,两两企业特征信息之间的第一互信息量,以及企业特征信息与每个企业分类结果之间的第二互信息量。具体的确定第一互信息量和第二互信息量的操作可以参照上述实施例中提供的方法实现,在此不做具体阐述。服务器采用类别可分性度量确定更新后的多个数据块中,每个企业分类结果下的两两企业特征信息之间的类内距离,以及企业特征信息与第一企业分类结果之间的类间距离。具体的确定类内距离和类间距离的操作可以参照上述实施例中提供的方法实现,在此不做具体阐述。服务器将更新后的多个数据块中,两两企业特征信息之间的第一互信息量,以及每个企业分类结果下的两两企业特征信息之间的类内距离,作为第一相关性参数。服务器将更新后的多个数据块中,企业特征信息与企业分类结果之间的第二互信息量,以及企业特征信息与第一企业分类结果之间的类间距离,作为第二相关性参数。
本实施例中,通过互信息和类别可分性度量确定企业特征信息的第一相关性参数和第二相关性参数,能够确定两两企业特征信息之间的非线性相关性,以及企业特征信息与企业分类结果之间的非线性相关性,从而提高后续得到的第二分类模型的分类准确率。
在一个实施例中,如图6a所示,提供了一种企业分类模型的生成方法,包括:
步骤S602,获取待分类企业的企业数据。
具体地,服务器通过爬虫技术获取待分类企业的企业数据。服务器对待分类企业的数值型的企业数据进行处理,生成数值型企业数据维度对应的企业特征信息;服务器对标识类的企业文本数据进行处理,生成标识类企业文本数据维度对应的企业特征信息。具体的数值型企业数据维度对应的企业特征信息的生成操作以及标识类企业文本数据维度对应的企业特征信息的生成操作可以参照上述实施例中提供的方法实现,在此不做具体阐述。
步骤S604,对企业文本数据进行分词处理,得到多个分词,以及每个分词的出现次数,根据多个分词的出现次数之和以及第二阈值,确定分组参数。
步骤S606,根据分组参数对排序后的分词进行分组,得到多个词分组,根据每个词分组中的分词,以及与分词对应的出现次数,生成企业特征信息。
具体地,服务器对非标识类的企业文本数据进行分词处理,根据多个分词,以及每个分词的出现次数对分词进行排序。根据多个分词的出现次数之和以及第二阈值,确定分组参数。采用分组参数对排序后的分词进行分组,得到多个词分组,根据每个词分组中的分词,以及与分词对应的出现次数,生成非标识类的企业文本数据维度的企业特征信息。具体的非标识类的企业文本数据维度的企业特征信息的生成操作可以参照上述实施例中提供的方法实现,在此不做具体阐述。
步骤S608,通过预训练的多个第一分类模型对企业特征信息进行分类,确定待分类企业的目标企业分类结果。
步骤S610,将企业特征信息更新至与目标企业分类结果对应的数据块中,并根据数据块中原有企业特征信息的更新时间,从数据块中删除预设数量个的原有企业特征信息,直至确定每个数据块中的原有企业特征信息被删除完毕。
具体地,服务器通过预训练的多个第一分类模型对企业特征信息进行分类,得到每个第一分类模型输出的企业分类结果。将输出的企业分类结果中对应的第一分类模型数量最多的企业分类结果,作为待分类企业的目标企业分类结果。根据目标企业分类结果将待分类企业的企业特征信息更新至与目标企业分类结果对应的数据块中,并删除对应的数据块中与待分类企业的企业特征信息的数量相同的原有企业特征信息,直至确定每个数据块中的原有企业特征信息被删除完毕。
步骤S612,对更新后多个的数据块中的企业特征信息进行降维处理,生成与企业特征信息对应的模型训练数据,采用模型训练数据对初始第二分类模型进行训练。
具体地,服务器采用互信息和类别可分性度量确定更新后多个的数据块中的企业特征信息的第一相关性参数以及第二相关性参数。根据企业特征信息的第一相关性参数以及第二相关性参数,确定企业特征信息的权重,对更新后多个的数据块中的企业特征信息进行降维处理,生成与企业特征信息对应的模型训练数据,采用模型训练数据对初始第二分类模型进行训练。具体的降维处理操作以及对初始第二分类模型的训练操作可以参照上述实施例中提供的方法实现,在此不做具体阐述。
步骤S614,将第一分类模型的数量与第一阈值进行比较,根据比较结果从第一分类模型和第二分类模型中,确定企业分类模型。
具体地,服务器确定第一分类模型的数量,将第一分类模型的数量与第一阈值进行比较,当第一分类模型的数量小于第一阈值时,将第一分类模型和第二分类模型作为企业分类模型;当第一分类模型的数量等于第一阈值时,根据第一分类模型和第二分类模型确定企业分类模型,具体的企业分类模型确定操作可以参照上述实施例中提供的方法实现,在此不做具体阐述。
一个示例中,如图6b所示,企业分类模型的生成方法包括:
离线训练阶段:对携带企业分类结果的多个维度的原有企业数据进行处理,生成定长的原有企业特征信息。按照原有企业特征信息对应的企业分类结果将原有企业特征信息存储在数据块A和数据块B中,数据块A和数据块B的数据容量相等,且为预设的固定值。将数据块A和数据块B的数据合并为待降维数据块,对待降维数据块中的原有企业特征信息进行降维处理。采用降维处理后的原有企业特征信息训练得到多个第一分类模型,将多个第一分类模型存储在分类器库中,分类器库的容量为固定的预设容量阈值。
在线预测以及在线学习阶段:对待分类企业多个维度的企业数据进行处理,得到定长的企业特征信息。在通过分类器库中的每个第一分类模型对待分类企业的企业特征信息进行分类之前,采用训练每个第一分类模型时对应的训练数据对待分类企业的企业特征信息进行特征选择。根据分类器库中多个第一分类模型输出的企业分类结果,确定待分类企业的目标企业分类结果。按照待分类企业的目标企业分类结果,将待分类企业的企业特征信息更新至对应数据块A/数据块B中,并根据数据块A/数据块B中原有企业特征信息的更新时间,从数据块A/数据块B中删除与待分类企业的企业特征信息的数量相等的原有企业特征信息。当数据块A/数据块B中原有企业特征信息删除完毕后,对当前的数据块A和数据块B进行降维处理,生成模型训练数据。采用模型训练数据对初始第二分类模型进行训练,得到第二分类模型。当分类器库中的第一分类模型的数量小于容量阈值时,将第二分类模型添加至分类器库中;当分类器库中的第一分类模型的数量等于容量阈值时,按照预设条件从第一分类模型中删除部分第一分类模型,将第二分类模型添加至分类器库中。后续采用分类器库中的每个分类模型作为企业分类模型对待分类企业的企业数据进行分类。
本实施例中,通过获取待分类企业的企业特征信息,采用预训练的第一分类模型对企业特征信息进行分类,确定待分类企业的目标企业分类结果,按照目标企业分类结果将企业特征信息更新至对应的数据块中,采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型,根据第一分类模型和第二分类模型,确定后续对企业进行分类的企业分类模型,能够根据获取的持续更新的待分类企业的企业特征信息,动态地训练企业分类模型,从而提高企业分类模型的分类准确率。此外,本申请通过设置多个数据块,每个数据块用于存储预设数量个的企业特征信息,能够达到平衡正常企业样本与异常企业样本的效果。进一步的,将本申请中的技术方案应用于异常企业的检测场景时,能够提高对异常企业的检测准确率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的企业分类模型的生成方法的企业分类模型的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个企业分类模型的生成装置实施例中的具体限定可以参见上文中对于企业分类模型的生成方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种企业分类模型的生成装置700,包括:企业分类模块702、数据块更新模块704、分类模型训练模块706和分类模型确定模块708,其中:
企业分类模块702,用于获取待分类企业的企业特征信息,通过预训练的第一分类模型对企业特征信息进行分类,得到待分类企业的目标企业分类结果。
数据块更新模块704,用于从多个数据块中确定与目标企业分类结果对应的数据块,将企业特征信息更新至与目标企业分类结果对应的数据块中,其中,每个数据块用于存储预设数量个的企业分类结果下的原有企业特征信息,第一分类模型是采用数据块中原有企业特征信息进行训练得到的。
分类模型训练模块706,用于采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型。
分类模型确定模块708,用于根据第一分类模型和第二分类模型,确定企业分类模型,企业分类模型用于后续对企业进行分类。
在一个实施例中,数据块更新模块704还用于:将企业特征信息添加至与目标企业分类结果对应的数据块中,并根据数据块中原有企业特征信息的更新时间,从数据块中删除预设数量个的原有企业特征信息,预设数量与企业特征信息的数量相等。
在一个实施例中,采用更新后的多个数据块中的企业特征信息对初始第二分类模型进行训练之前,还包括:确定每个数据块中的原有企业特征信息被删除完毕。
在一个实施例中,第一分类模型的数量为多个;企业分类模块702包括:企业分类结果输出单元,用于通过每个第一分类模型对企业特征信息进行分类,得到每个第一分类模型输出的企业分类结果;目标企业分类结果确定单元,用于根据多个第一分类模型输出的企业分类结果,确定待分类企业的目标企业分类结果。
在一个实施例中,分类模型确定模块708还用于:当第一分类模型的数量小于第一阈值时,将第一分类模型和第二分类模型作为企业分类模型;当第一分类模型的数量等于第一阈值时,通过每个第一分类模型对更新后的每个数据块中的企业特征信息进行分类,根据得到的分类结果生成每个第一分类模型的模型评价结果;筛选得到模型评价结果符合预设条件的第一分类模型,将筛选得到的第一分类模型和第二分类模型作为企业分类模型。
在一个实施例中,企业分类模块702包括:企业数据获取单元,用于获取待分类企业的企业数据,企业数据包括非标识类的企业文本数据;分词处理单元,用于对企业文本数据进行分词处理,得到多个分词,以及每个分词的出现次数;分组参数确定单元,用于根据多个分词的出现次数之和以及第二阈值,确定分组参数;分词分组单元,用于按照每个分词的出现次数对多个分词进行排序,根据分组参数对排序后的多个分词进行分组,得到多个词分组,每个词分组中分词的出现次数之和大于分组参数;企业特征信息生成单元,用于根据每个词分组中的分词,以及与分词对应的出现次数,生成企业特征信息。
在一个实施例中,分类模型训练模块706包括:参数确定单元,用于确定更新后的多个数据块中,两两企业特征信息之间的第一相关性参数,以及企业特征信息与企业分类结果之间的第二相关性参数;权重确定单元,用于根据企业特征信息对应的第一相关性参数以及第二相关性参数,确定企业特征信息的权重;降维处理单元,用于根据权重对企业特征信息进行降维处理,生成与企业特征信息对应的模型训练数据;模型训练单元,用于采用模型训练数据对初始第二分类模型进行训练。
在一个实施例中,参数确定单元包括:第一相关性参数确定单元,用于根据更新后的多个数据块中,两两企业特征信息之间的第一互信息量,以及每个企业分类结果下的两两企业特征信息之间的类内距离,确定第一相关性参数;第二相关性参数确定单元,用于根据更新后的多个数据块中,企业特征信息与企业分类结果之间的第二互信息量,以及企业特征信息与第一企业分类结果之间的类间距离,确定第二相关性参数,第一企业分类结果为企业分类结果中除与企业特征信息对应的企业分类结果以外的企业分类结果。
上述企业分类模型的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原有企业特征信息、第一阈值、第二阈值、数据块的容量参数。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业分类模型的生成方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (12)
1.一种企业分类模型的生成方法,其特征在于,所述方法包括:
获取待分类企业的企业特征信息,通过预训练的第一分类模型对所述企业特征信息进行分类,得到所述待分类企业的目标企业分类结果;
从多个数据块中确定与所述目标企业分类结果对应的数据块,将所述企业特征信息更新至与所述目标企业分类结果对应的数据块中,其中,每个所述数据块用于存储预设数量个的企业分类结果下的原有企业特征信息,所述第一分类模型是采用所述数据块中原有企业特征信息进行训练得到的;
采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型;
根据所述第一分类模型和所述第二分类模型,确定企业分类模型,所述企业分类模型用于后续对企业进行分类。
2.根据权利要求1所述的方法,其特征在于,所述将所述企业特征信息更新至与所述目标企业分类结果对应的数据块中,包括:
将所述企业特征信息添加至与所述目标企业分类结果对应的数据块中,并根据所述数据块中原有企业特征信息的更新时间,从所述数据块中删除预设数量个的所述原有企业特征信息,所述预设数量与所述企业特征信息的数量相等。
3.根据权利要求2所述的方法,其特征在于,所述采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练之前,还包括:
确定每个所述数据块中的原有企业特征信息被删除完毕。
4.根据权利要求1所述的方法,其特征在于,所述第一分类模型的数量为多个;
所述通过预训练的第一分类模型对所述企业特征信息进行分类,得到所述待分类企业的目标企业分类结果,包括:
通过每个所述第一分类模型对所述企业特征信息进行分类,得到每个所述第一分类模型输出的企业分类结果;
根据多个所述第一分类模型输出的企业分类结果,确定所述待分类企业的目标企业分类结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一分类模型和所述第二分类模型,确定企业分类模型,包括:
当所述第一分类模型的数量小于第一阈值时,将所述第一分类模型和所述第二分类模型作为所述企业分类模型;
当所述第一分类模型的数量等于第一阈值时,通过每个所述第一分类模型对更新后的每个所述数据块中的企业特征信息进行分类,根据得到的分类结果生成每个所述第一分类模型的模型评价结果;
筛选得到所述模型评价结果符合预设条件的第一分类模型,将筛选得到的第一分类模型和所述第二分类模型作为所述企业分类模型。
6.根据权利要求1所述的方法,其特征在于,所述获取待分类企业的企业特征信息,包括:
获取所述待分类企业的企业数据,所述企业数据包括非标识类的企业文本数据;
对所述企业文本数据进行分词处理,得到多个分词,以及每个所述分词的出现次数;
根据多个所述分词的出现次数之和以及第二阈值,确定分组参数;
按照每个所述分词的出现次数对多个所述分词进行排序,根据所述分组参数对排序后的多个所述分词进行分组,得到多个词分组,每个所述词分组中分词的出现次数之和大于所述分组参数;
根据每个所述词分组中的分词,以及与所述分词对应的出现次数,生成所述企业特征信息。
7.根据权利要求1所述的方法,其特征在于,所述采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练,包括:
确定更新后的多个所述数据块中,两两企业特征信息之间的第一相关性参数,以及所述企业特征信息与企业分类结果之间的第二相关性参数;
根据所述企业特征信息对应的所述第一相关性参数以及所述第二相关性参数,确定所述企业特征信息的权重;
根据所述权重对所述企业特征信息进行降维处理,生成与所述企业特征信息对应的模型训练数据;
采用所述模型训练数据对所述初始第二分类模型进行训练。
8.根据权利要求7所述的方法,其特征在于,所述确定更新后的多个所述数据块中,两两企业特征信息之间的第一相关性参数,以及所述企业特征信息与企业分类结果之间的第二相关性参数,包括:
根据更新后的多个所述数据块中,两两企业特征信息之间的第一互信息量,以及每个所述企业分类结果下的两两企业特征信息之间的类内距离,确定所述第一相关性参数;
根据更新后的多个所述数据块中,所述企业特征信息与企业分类结果之间的第二互信息量,以及所述企业特征信息与第一企业分类结果之间的类间距离,确定所述第二相关性参数,所述第一企业分类结果为所述企业分类结果中除与所述企业特征信息对应的企业分类结果以外的企业分类结果。
9.一种企业分类模型的生成装置,其特征在于,所述装置包括:
企业分类模块,用于获取待分类企业的企业特征信息,通过预训练的第一分类模型对所述企业特征信息进行分类,得到所述待分类企业的目标企业分类结果;
数据块更新模块,用于从多个数据块中确定与所述目标企业分类结果对应的数据块,将所述企业特征信息更新至与所述目标企业分类结果对应的数据块中,其中,每个所述数据块用于存储预设数量个的企业分类结果下的原有企业特征信息,所述第一分类模型是采用所述数据块中原有企业特征信息进行训练得到的;
分类模型训练模块,用于采用更新后的多个所述数据块中的企业特征信息对初始第二分类模型进行训练,得到第二分类模型;
分类模型确定模块,用于根据所述第一分类模型和所述第二分类模型,确定企业分类模型,所述企业分类模型用于后续对企业进行分类。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389393.6A CN113901223B (zh) | 2021-11-19 | 2021-11-19 | 企业分类模型的生成方法、装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389393.6A CN113901223B (zh) | 2021-11-19 | 2021-11-19 | 企业分类模型的生成方法、装置、计算机设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901223A true CN113901223A (zh) | 2022-01-07 |
CN113901223B CN113901223B (zh) | 2024-01-26 |
Family
ID=79194829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111389393.6A Active CN113901223B (zh) | 2021-11-19 | 2021-11-19 | 企业分类模型的生成方法、装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901223B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
US20170116536A1 (en) * | 2015-10-27 | 2017-04-27 | Pulse Energy Inc. | Dictionary reduction technique for business name categorization |
CN109902722A (zh) * | 2019-01-28 | 2019-06-18 | 北京奇艺世纪科技有限公司 | 分类器、神经网络模型训练方法、数据处理设备及介质 |
CN113327037A (zh) * | 2021-05-31 | 2021-08-31 | 平安国际智慧城市科技股份有限公司 | 基于模型的风险识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-11-19 CN CN202111389393.6A patent/CN113901223B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170116536A1 (en) * | 2015-10-27 | 2017-04-27 | Pulse Energy Inc. | Dictionary reduction technique for business name categorization |
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
CN109902722A (zh) * | 2019-01-28 | 2019-06-18 | 北京奇艺世纪科技有限公司 | 分类器、神经网络模型训练方法、数据处理设备及介质 |
CN113327037A (zh) * | 2021-05-31 | 2021-08-31 | 平安国际智慧城市科技股份有限公司 | 基于模型的风险识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113901223B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263265B (zh) | 用户标签生成方法、装置、存储介质和计算机设备 | |
Chávez et al. | Effective proximity retrieval by ordering permutations | |
CN102567464B (zh) | 基于扩展主题图的知识资源组织方法 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
US20060085405A1 (en) | Method for analyzing and classifying electronic document | |
CN112732883A (zh) | 基于知识图谱的模糊匹配方法、装置和计算机设备 | |
CN110674636B (zh) | 一种用电行为分析方法 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN110276382A (zh) | 基于谱聚类的人群分类方法、装置及介质 | |
CN110232154B (zh) | 基于随机森林的产品推荐方法、装置及介质 | |
Jha et al. | Criminal behaviour analysis and segmentation using k-means clustering | |
CN116522003B (zh) | 基于嵌入表压缩的信息推荐方法、装置、设备和介质 | |
CN114385808A (zh) | 文本分类模型构建方法与文本分类方法 | |
CN113901223B (zh) | 企业分类模型的生成方法、装置、计算机设备、存储介质 | |
CN115827864A (zh) | 一种公告自动化分类的处理方法 | |
CN115762667A (zh) | 化学反应类型的识别方法、装置、计算机设备 | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
Shaji et al. | Weather Prediction Using Machine Learning Algorithms | |
Xiong et al. | L-RBF: A customer churn prediction model based on lasso+ RBF | |
Karimi et al. | An improved K-Means with artificial bee colony algorithm for clustering crimes | |
Amalya et al. | Implementation of Naive Bayes for classification and potentially MSMEs analysis | |
Chen et al. | Study a text classification method based on neural network model | |
Saraswathi et al. | Effective Search Engine Spam Classification | |
CN116894112A (zh) | 数据分类方法、装置、计算机设备及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000 Applicant after: Qichacha Technology Co.,Ltd. Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province Applicant before: Qicha Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |