CN114298427B - 企业属性数据预测方法、装置、电子设备及存储介质 - Google Patents
企业属性数据预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114298427B CN114298427B CN202111658180.9A CN202111658180A CN114298427B CN 114298427 B CN114298427 B CN 114298427B CN 202111658180 A CN202111658180 A CN 202111658180A CN 114298427 B CN114298427 B CN 114298427B
- Authority
- CN
- China
- Prior art keywords
- attribute data
- structured
- feature vector
- enterprise
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 193
- 238000000605 extraction Methods 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 230000000873 masking effect Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000006440 Open Bite Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种企业属性数据预测方法、装置、电子设备及计算机存储介质,主要包括获取企业对象的给定属性;并根据给定属性,利用属性数据预测模型预测企业对象的缺失属性,其中,给定属性和缺失属性之间存在关联关系,属性数据预测模型是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的。借此,本申请可提高企业对象的数据画像的完整度。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种企业属性数据预测方法、装置、电子设备及计算机存储介质。
背景技术
工商信息、知识产权、司法文书等数据是企业的数字化投影,行业专家可以从这些数据中预测企业的能力与风险。然而,在实际应用中,常常存在企业的部分属性信息缺失的问题,导致无法针对企业的能力与风险进行客观地、全面地评估。
若能将行业专家的知识经验和判断逻辑构建成计算机模型,将可提高企业数据挖掘的效率,并降低企业间合作的不透明度。
在目前的建模方案中,需要由行业专家将知识经验梳理成统计指标,并将判断逻辑编写成规则文本,再由开发人员转义成程序运行,此种方式主要存在以下问题:
其一是建模过程复杂,从专家知识到计算机模型需要多个部门协同工作,不利于敏捷开发模型。
其二是模型的应用效果较差,在专家总结和转义规则的过程中存在信息损失。
有鉴于此,如何降低模型构建成本并提高模型的预测准确性,即为本申请待解决的技术课题。
发明内容
有鉴于此,本申请实施例提供一种企业属性数据预测方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种企业属性数据预测方法,其包括针获取企业对象的给定属性;以及根据所述给定属性,利用属性数据预测模型预测所述企业对象的缺失属性,其中,所述给定属性和所述缺失属性之间存在关联关系,所述属性数据预测模型是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的。
根据本申请实施例的第二方面,提供了一种企业属性数据预测装置,其包括:获取模块,用于获取企业对象的给定属性;以及预测模块,用于根据所述给定属性,利用属性数据预测模型预测所述企业对象的缺失属性,其中,所述给定属性与所述缺失属性之间存在关联关系,所述属性数据预测模型是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的。
根据本申请实施例的第三方面,提供了一种电子设备,其包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述第一方面所述的企业属性数据预测方法对应的操作。
根据本申请实施例的第四方面,提供了计算机存储介质,其上存储有计算机程序,该程序被处理器执行时,可实现如上述第一方面所述的企业属性数据预测方法。
综上所述,本申请实施例提供的企业属性数据预测方案,可基于企业对象的给定属性,预测企业对象与给定属性存在关联关系的缺失属性,从而可提高企业对象的数据画像的完整度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请第一实施例的企业属性数据预测方法的流程示意图。
图2为本申请第二实施例的企业属性数据预测方法的流程示意图。
图3为本申请第三实施例的企业属性数据预测方法的流程示意图。
图4示出了结构化属性数据的示例性分箱编码映射表。
图5为本申请第四实施例的企业属性数据预测方法的流程示意图。
图6为本申请第五实施例的企业属性数据预测装置的架构示意图。
图7为本申请第六实施例的企业属性数据预测装置的架构示意图。
图8为本申请第七实施例的电子设备的架构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
由于企业的属性数据繁多,且没有统一、直观的评价标准,导致很难标注样本以构建有监督的模型训练任务,有鉴于此,本申请提供了一种自监督的模型训练方法,通过构建具有统一标准的各属性数据,以供模型可自监督地学习样本企业的各属性数据之间的内在联系,使得训练好的模型可针对缺失的属性数据进行预测,借以提高样本企业的数据画像的完整度。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
第一实施例
图1示出了本申请第一实施例的企业属性数据预测方法的流程示意图。如图所示,本实施例主要包括以下步骤:
步骤S102,获取企业对象的给定属性。
可选地,可从一个或多个开源数据库中收集企业对象的相关属性数据,包括但不限于企业年报信息、企业股东及出资信息、企业涉案信息(例如企业作为被告的相关案由、涉案金额等信息)、企业信用信息(例如企业是否被列为失信被执行人)、企业财产信息(例如企业有无财产处置)等。
可选地,企业对象的给定属性可包括企业对象的各非结构化企业属性数据,或者包括企业对象的各非结构化企业属性数据与至少一个结构化企业属性数据。
于本实施例中,企业对象的各结构化属性数据可包括但不限于企业对象的注册资本、参保人数、成立时间等信息数据,样本企业的各非结构化属性数据可包括但不限于企业简介、经营范围等信息数据。
步骤S104,根据给定属性,利用属性数据预测模型预测企业对象的缺失属性,其中,给定属性和缺失属性之间存在关联关系,属性数据预测模型是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的。
可选地,属性数据预测模型所预测的缺失属性可包括企业对象的至少一个结构化企业属性数据。
于本实施例中,企业对象的给定属性和缺失属性之间存在关联关系。
例如,给定属性可包括企业对象的注册资本,缺失属性可包括企业对象的参保人数,其中,当注册资本越高时,则参保人数也相应越多。
综上所述,本实施例的属性数据预测方法,可基于企业对象的给定属性,针对企业对象的缺失属性执行预测,借以提高企业画像的完整度,并降低企业间合作的不透明度。
第二实施例
图2示出了本申请第二实施例的企业属性数据预测方法的流程示意图。本实施例主要示出了属性数据预测模型的示例性训练方案。如图所示,本实施例主要包括以下步骤:
步骤S202,针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集。
于本实施例中,可从一个或多个开源数据库中收集企业对象的相关属性数据,包括但不限于企业年报信息、企业股东及出资信息、企业涉案信息(例如企业作为被告的相关案由、涉案金额等信息)、企业信用信息(例如企业是否被列为失信被执行人)、企业财产信息(例如企业有无财产处置)等。
可选地,样本企业的各结构化属性数据可包括但不限于样本企业的注册资本、参保人数、成立时间等信息数据,样本企业的各非结构化属性数据可包括但不限于企业简介、经营范围等信息数据。
于本实施例中,特征向量集中的各结构化特征向量与各非结构化特征向量具有相同的向量长度,以提供统一的评价标准,从而便于属性数据预测模型学习各结构化属性数据与各非结构化属性数据之间的关系。
步骤S204,针对特征向量集中的至少一个结构化特征向量执行遮蔽操作,确定特征向量集的未遮蔽属性和遮蔽属性。
可选地,参见表1,可针对特征向量集中的至少一个结构化特征向量执行遮蔽操作(即,不是针对所有的结构化特征向量执行遮蔽操作),并基于被遮蔽的至少一个结构化特征向量,生成特征向量集的遮蔽属性,且基于未被遮蔽的至少一个结构化特征向量与所有非结构化特征向量,生成特征向量集的未遮蔽属性。
注册资本 | 参保人数 | 成立时间 | ... | |
企业属性遮蔽前 | 4700万 | 275 | 1998年 | ... |
遮蔽前分箱编码 | 32 | 74 | 103 | ... |
企业属性遮蔽后 | 4700万 | [MASK] | 1998年 | ... |
遮蔽后分箱编码 | 32 | [MASK] | 103 | ... |
表1
可选地,可针对特征向量集中的所有结构化特征向量执行遮蔽操作,并基于被遮蔽的所有结构化特征向量,生成特征向量集的遮蔽属性,且基于所有非结构化特征向量,生成特征向量集的未遮蔽属性。
步骤S206,构建属性数据预测模型,将未遮蔽属性作为输入,并将遮蔽属性作为输出,以训练属性数据预测模型。
具体地,属性数据预测模型可根据输入的未遮蔽属性,针对遮蔽属性执行预测,并根据属性数据预测模型输出的预测结果与真实的遮蔽属性的比对结果,优化更新属性数据预测模型,并重复本步骤以迭代更新属性数据预测模型,直至属性数据预测模型的训练任务完成。
可选地,可利用随机梯度下降算法迭代更新属性数据预测模型,以完成属性数据预测模型的训练任务,借以提高属性数据预测模型针对遮蔽属性的预测结果的准确度。
综上所述,本实施例的企业属性数据预测方法,通过提取样本企业的各属性数据,以生成样本企业的特征向量集,并通过遮蔽特征向量集中的部分特征向量,以供属性数据预测模型基于未遮蔽属性针对遮蔽属性执行预测。因此,借由本实施例的方法所训练的属性数据预测模型,可在无需人工标注样本标签的前提下,自监督地学习样本企业的各属性数据之间的内在联系,具有建模周期短,建模成本低的优点。
第三实施例
图3示出了本申请第三实施例的企业属性数据预测方法的流程示意图。本实施例主要示出了上述步骤S202的具体实施方案。如图所示,本实施例主要包括以下步骤:
步骤S302,基于预设结构化特征提取规则,针对各结构化属性数据执行特征提取,获取各结构化特征向量。
可选地,可根据结构化属性数据对应的各候选分箱编码,针对结构化属性数据执行分箱处理,从各候选分箱编码中确定结构化属性数据的真实分箱编码,再根据预设特征映射规则,将真实分箱编码映射为结构化特征向量。
于本实施例中,所采用的分箱处理方法可包括但不限于:人工指定规则分箱、等频或等距分箱、聚类算法分箱等。
于本实施例中,结构化属性数据的真实分箱编码包括整数型编码。
可选地,可建立结构化属性数据与分箱编码的映射表,以将结构化属性数据转换为真实分箱编码。
请配合参阅图4所示的注册资本分箱编码映射表,所述映射表将企业对象的注册资本属性数据分成4个类别,并针对每个类别分配了对应的候选分箱编码,于一实施例中,倘若企业对象的实际注册资本为100万,则可将其对应的候选分箱编码,即“1”确定为企业对象的注册资本属性数据的真实分箱编码。
可选地,可利用神经网络的嵌入层(Embedding层)基于预设特征映射规则,将真实分箱编码映射为结构化特征向量。
于本实施例中,预设特征映射规则表示为:
其中,x表示结构化属性数据的真实分箱编码,表示结构化特征向量。
步骤S304,基于预设非结构化特征提取规则,针对各非结构化属性数据执行特征提取,获取各非结构化特征向量。
于本实施例中,样本企业的非结构化属性数据是指由关键词或短语构成的本文数据,有鉴于此,可利用自注意力机制的语言模型识别非结构化属性数据,以将非结构化属性数据(文本数据)转换为对应的非结构化特征向量。
于本实施例中,自注意力机制的语言模型可包括但不限于:BERT模型、RoBERTa模型、T5模型等。
于本实施例中,自注意力机制可表示为:
其中,Q表示Query向量,K表示Key向量,V表示Value向量,所述Q,K,V三个向量均由非结构化属性数据(文本数据)所获得。具体地,可将非结构化属性数据(文本数据)转换为嵌入向量,再将嵌入向量分别映射为Q,K,V三个向量,由于基于自注意力机制的上下文特征提取技术属于本领域的公知常识,亦非本申请的技术重点,故本文不再针对其技术原理进行赘述。
于本实施例中,可获取CLS为的特征向量作为非结构化属性数据的非结构化特征向量。具体地,若非结构化属性数据包含有K个字符,则所获取的非结构化特征向量的向量长度为K+1(其中一位为CLS位)。
于本实施例中,步骤S302和步骤S304的执行顺序不分先后,可按需求进行任意调整。
于本实施例中,基于步骤S302所获取的各结构化属性数据的各结构化特征向量与基于步骤S304所获取的各非结构化属性数据的各非结构化特征向量均具有相同的向量长度(例如n维的特征向量)。
步骤S306,根据各结构化特征向量与各非结构化特征向量,生成样本企业的特征矩阵。
于本实施例中,可将样本企业的各结构化特征向量与各非结构化特征向量拼接为m*n的特征矩阵,其中,m表示样本企业的结构化特征向量与非结构化特征向量的总数量,n为每一个特征向量(即各结构化特征向量与各非结构化特征向量)的向量表示。
综上所述,本实施例的企业属性数据预测方法,通过将样本企业的各属性数据转换为具有统一标准的各特征向量,可有利于属性数据预测模型自监督地学习样本企业的各属性数据之间的内在联系,进而提高模型预测结果的准确性。
第四实施例
图5示出了本申请第四实施例的企业属性数据预测方法的流程示意图。如图所示,本实施例主要示出了上述步骤S206的具体实施方案。如图所示,本实施例主要包括以下步骤:
步骤S502,利用属性数据预测模型,基于未遮蔽属性针对遮蔽属性中被遮蔽的结构化特征向量执行预测,获得被遮蔽的结构化特征向量的预测特征向量。
具体地,属性数据预测模型可根据特征矩阵中的未遮蔽属性,针对遮蔽属性中被遮蔽的每一个结构化特征向量分别执行预测,获得被遮蔽的所述结构化特征向量的预测特征向量。
步骤S504,根据预测特征向量与被遮蔽的结构化特征向量的各候选分箱编码对应的各结构化特征向量,计算预测特征向量与各候选分箱编码之间的相似度,获得各候选分箱编码对应的各相似值。
于一实施例中,假设被遮蔽的结构化特征向量为企业对象的注册资本特征向量,根据图4所示的注册资本分箱编码映射表可知,其包括有4个候选分箱编码,则可将属性数据预测模型输出的预测特征向量与各候选分箱编码对应的各结构化特征向量分别进行点积计算,以获取各候选分箱编码对应的各相似值。
步骤S506,根据各候选分箱编码对应的各相似值,确定被遮蔽的结构化特征向量的预测分箱编码。
于本实施例中,可根据各候选分箱编码对应的各相似值,将相似值最高的一个候选分箱编码确定为被遮蔽的结构化特征向量(例如注册资本特征向量)的预测分箱编码。
步骤S508,根据被遮蔽的结构化特征向量的真实分箱编码与预测分箱编码,优化属性数据预测模型。
可选地,可根据被遮蔽的结构化特征向量(例如注册资本特征向量)的真实分箱编码与预测分箱编码,获取属性数据预测模型的损失函数,并基于损失函数迭代优化属性数据预测模型,直至损失函数满足预设收敛条件。
于本实施例中,属性数据预测模型的损失函数可表示为:
其中,表示损失函数;y表示被遮蔽的结构化特征向量(例如注册资本特征向量)的真实分箱编码;/>表示被遮蔽的所述结构化特征向量(例如注册资本特征向量)的预测分箱编码。
再者,n表示被遮蔽的结构化特征向量包含的候选分箱编码的类别数量,例如,假设被遮蔽的所述结构化特征向量为企业对象的注册资本特征向量,则其包含的候选分箱编码的类别数量n即为4。
可选地,可当损失函数的损失值满足预设收敛值时,停止属性数据预测模型的迭代更新,以结束属性数据预测模型的训练任务。
综上所述,本实施例的企业属性数据预测方法,通过随机梯度下降算法迭代优化属性数据预测模型,可提高模型对于遮蔽属性的预测结果的准确性。
第五实施例
图6示出了本申请第五实施例的企业属性数据预测装置的架构示意图。如图所示,本实施例的企业属性数据预测装置600主要包括获取模块602、预测模块604。
获取模块602用于获取企业对象的给定属性。
可选地,所述给定属性包括所述企业对象的各所述非结构化企业属性数据,或包括所述企业对象的各所述非结构化企业属性数据与至少一个结构化企业属性数据;所述缺失属性包括所述企业对象的至少一个所述结构化企业属性数据。
预测模块604用于根据所述给定属性,利用属性数据预测模型606预测所述企业对象的缺失属性,其中,所述给定属性与所述缺失属性之间存在关联关系,所述属性数据预测模型606是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的。
第六实施例
图7示出了本申请第六实施例的企业属性数据预测装置的架构示意图。如图所示,本实施例的企业属性数据预测装置600除包含上述第五实施例所述的各模块之外,还包括有模型训练模块608。
模型训练模块608用于针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集;针对所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作,以确定所述特征向量集的所述未遮蔽属性和所述遮蔽属性;以及构建属性数据预测模型606,将所述未遮蔽属性作为输入,并将所述遮蔽属性作为输出,以训练所述属性数据预测模型606。
可选地,模型训练模块608还包括基于预设结构化特征提取规则,针对各所述结构化属性数据执行特征提取,获取各所述结构化特征向量:基于预设非结构化特征提取规则,针对各所述非结构化属性数据执行特征提取,获取各所述非结构化特征向量;根据各所述结构化特征向量与各所述非结构化特征向量,生成所述样本企业的特征矩阵。
可选地,模型训练模块608还包括根据所述结构化属性数据对应的各候选分箱编码,从各所述候选分箱编码中确定所述结构化属性数据的真实分箱编码;根据预设特征映射规则,将所述真实分箱编码映射为所述结构化特征向量。
可选地,模型训练模块608还包括利用自注意力机制的语言模型识别所述非结构化属性数据,获取所述非结构化属性数据的所述非结构化特征向量。
可选地,所述语言模型包括BERT模型、RoBERTa模型、T5模型中的一个。
可选地,各所述结构化特征向量与各所述非结构化特征向量具有相同的向量长度。
可选地,模型训练模块608还包括针对所述特征向量集中的各所述结构化特征向量中的至少一个执行遮蔽操作,以基于被遮蔽的至少一个所述结构化特征向量,生成所述遮蔽属性,且基于未被遮蔽的至少一个所述结构化特征向量与所有所述非结构化特征向量,生成所述未遮蔽属性;或者,针对所述特征向量集中的所有所述结构化特征向量执行遮蔽操作,以基于被遮蔽的所有所述结构化特征向量,生成所述遮蔽属性,且基于所有所述非结构化特征向量,生成所述未遮蔽属性。
可选地,模型训练模块608还包括还包括利用所述属性数据预测模型606基于所述未遮蔽属性针对所述遮蔽属性中被遮蔽的所述结构化特征向量执行预测,获得被遮蔽的所述结构化特征向量的预测特征向量;根据所述预测特征向量与被遮蔽的所述结构化特征向量的各所述候选分箱编码对应的各所述结构化特征向量,计算所述预测特征向量与各所述候选分箱编码之间的相似度,获得各所述候选分箱编码对应的各相似值;根据各所述候选分箱编码对应的各所述相似值,确定被遮蔽的所述结构化特征向量的预测分箱编码;根据被遮蔽的所述结构化特征向量的所述真实分箱编码与所述预测分箱编码,优化所述属性数据预测模型608。
可选地,模型训练模块608还包括根据被遮蔽的所述结构化特征向量的所述真实分箱编码与所述预测分箱编码,获取所述属性数据预测模型606的损失函数;基于所述损失函数迭代优化所述属性数据预测模型606,直至所述损失函数满足预设收敛条件;其中,所述损失函数表示为:
其中,所述表示所述损失函数;所述y表示被遮蔽的所述结构化特征向量的所述真实分箱编码;所述/>表示被遮蔽的所述结构化特征向量的所述预测分箱编码;所述n表示被遮蔽的所述结构化特征向量包含的所述候选分箱编码的类别数量。
可选地,模型训练模块608还包括利用随机梯度下降算法迭代更新所述属性数据预测模型606,以训练所述属性数据预测模型606。
再者,本实施例的企业属性数据预测装置还可用于实现前述多个方法实施例中相应的企业属性数据预测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
第七实施例
本申请第七实施例提供了一种电子设备,其主要包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一实施例至第四实施例中任一实施例所述的企业属性数据预测方法对应的操作。
图8示出了本发明的电子设备800的示意性架构图,如图所示,本实施例的电子设备800,其可包括处理器(processer)802、通信接口(communication interface)804、存储器(memory)806。
处理器802、通信接口804、以及存储器806可通过通信总线808完成相互间的通信。
通信接口804用于与其它电子设备如终端设备或服务器进行通信。
处理器802,用于执行计算机程序810,具体可以执行上述各方法实施例中的相关步骤,亦即,执行如第一实施例至第四实施例中任一实施例所述的企业属性数据预测方法中的各步骤。
具体地,计算机程序810可以包括程序代码,该程序代码包括计算机操作指令。
处理器802可以是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器806,用于存放计算机程序810。存储器806可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
第八实施例
本申请第八实施例提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时,可实现第一实施例至第四实施例中任一实施例所述的企业属性数据预测方法。
综上所述,本申请各实施例提供的企业属性数据预测方法、装置、电子设备及计算机存储介质,可训练属性数据预测模型在无需人工标注样本标签的前提下,无监督地学习各属性数据之间的内在联系,以准确地预测出训练样本中的隐藏属性,具有建模周期短、建模成本低、且模型训练效果佳的优点。
再者,本申请可利用训练好的属性数据预测模型准确地预测企业对象的缺失属性,以描绘完整的企业画像,可提高企业数据挖掘的效率,并降低企业间合作的不透明度。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的企业属性数据预测方法。此外,当通用计算机访问用于实现在此示出的企业属性数据预测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的企业属性数据预测方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (11)
1.一种企业属性数据预测方法,其特征在于,包括:
获取企业对象的给定属性;以及
根据所述给定属性,利用属性数据预测模型预测所述企业对象的缺失属性,其中,所述给定属性和所述缺失属性之间存在关联关系,所述属性数据预测模型是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的;
其中,通过以下步骤训练所述属性数据预测模型:
针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集;
针对所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作,以确定所述特征向量集的所述未遮蔽属性和所述遮蔽属性;以及
构建属性数据预测模型,将所述未遮蔽属性作为输入,并将所述遮蔽属性作为输出,以训练所述属性数据预测模型;
其中,所述针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集包括:
基于预设结构化特征提取规则,针对各所述结构化属性数据执行特征提取,获取各所述结构化特征向量:
基于预设非结构化特征提取规则,针对各所述非结构化属性数据执行特征提取,获取各所述非结构化特征向量;
根据各所述结构化特征向量与各所述非结构化特征向量,生成所述样本企业的特征矩阵;
其中,所述基于预设结构化特征提取规则,针对各所述结构化属性数据执行特征提取,获取各所述结构化特征向量包括:
根据所述结构化属性数据对应的各候选分箱编码,从各所述候选分箱编码中确定所述结构化属性数据的真实分箱编码;
根据预设特征映射规则,将所述真实分箱编码映射为所述结构化特征向量;
其中,所述将所述未遮蔽属性作为输入,并将所述遮蔽属性作为输出,以训练所述属性数据预测模型包括:
利用所述属性数据预测模型,基于所述未遮蔽属性针对所述遮蔽属性中被遮蔽的所述结构化特征向量执行预测,获得被遮蔽的所述结构化特征向量的预测特征向量;
根据所述预测特征向量与被遮蔽的所述结构化特征向量的各所述候选分箱编码对应的各所述结构化特征向量,计算所述预测特征向量与各所述候选分箱编码之间的相似度,获得各所述候选分箱编码对应的各相似值;
根据各所述候选分箱编码对应的各所述相似值,确定被遮蔽的所述结构化特征向量的预测分箱编码;
根据被遮蔽的所述结构化特征向量的所述真实分箱编码与所述预测分箱编码,优化所述属性数据预测模型。
2.根据权利要求1所述企业属性数据预测方法,其特征在于,
所述给定属性包括所述企业对象的各所述非结构化企业属性数据,或包括所述企业对象的各所述非结构化企业属性数据与至少一个结构化企业属性数据;
所述缺失属性包括所述企业对象的至少一个所述结构化企业属性数据。
3.根据权利要求1所述的企业属性数据预测方法,其特征在于,所述基于预设非结构化特征提取规则,针对各所述非结构化属性数据执行特征提取,获取各所述非结构化特征向量包括:
利用自注意力机制的语言模型识别所述非结构化属性数据,获取所述非结构化属性数据的所述非结构化特征向量。
4.根据权利要求3所述的企业属性数据预测方法,其特征在于,所述语言模型包括BERT模型、RoBERTa模型、T5模型中的一个。
5.根据权利要求1至4中任一项所述的企业属性数据预测方法,其特征在于,各所述结构化特征向量与各所述非结构化特征向量具有相同的向量长度。
6.根据权利要求1至4中任一项所述的企业属性数据预测方法,其特征在于,所述针对所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作,以确定所述特征向量集的未遮蔽属性和遮蔽属性包括:
针对所述特征向量集中的各所述结构化特征向量中的至少一个执行遮蔽操作,以基于被遮蔽的至少一个所述结构化特征向量,生成所述遮蔽属性,且基于未被遮蔽的至少一个所述结构化特征向量与所有所述非结构化特征向量,生成所述未遮蔽属性;或者,
针对所述特征向量集中的所有所述结构化特征向量执行遮蔽操作,以基于被遮蔽的所有所述结构化特征向量,生成所述遮蔽属性,且基于所有所述非结构化特征向量,生成所述未遮蔽属性。
7.根据权利要求1所述的企业属性数据预测方法,其特征在于,所述方法还包括:
根据被遮蔽的所述结构化特征向量的所述真实分箱编码与所述预测分箱编码,获取所述属性数据预测模型的损失函数;
基于所述损失函数迭代优化所述属性数据预测模型,直至所述损失函数满足预设收敛条件;
其中,所述损失函数表示为:
其中,所述表示所述损失函数;所述y表示被遮蔽的所述结构化特征向量的所述真实分箱编码;所述/>表示被遮蔽的所述结构化特征向量的所述预测分箱编码;所述n表示被遮蔽的所述结构化特征向量包含的所述候选分箱编码的类别数量。
8.根据权利要求1所述的企业属性数据预测方法,其特征在于,所述方法还包括:
利用随机梯度下降算法迭代更新所述属性数据预测模型,以训练所述属性数据预测模型。
9.一种企业属性数据预测装置,其特征在于,包括:
获取模块,用于获取企业对象的给定属性;以及
预测模块,用于根据所述给定属性,利用属性数据预测模型预测所述企业对象的缺失属性,其中,所述给定属性与所述缺失属性之间存在关联关系,所述属性数据预测模型是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的;
其中,通过以下步骤训练所述属性数据预测模型:
针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集;
针对所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作,以确定所述特征向量集的所述未遮蔽属性和所述遮蔽属性;以及
构建属性数据预测模型,将所述未遮蔽属性作为输入,并将所述遮蔽属性作为输出,以训练所述属性数据预测模型;
其中,所述针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集包括:
基于预设结构化特征提取规则,针对各所述结构化属性数据执行特征提取,获取各所述结构化特征向量:
基于预设非结构化特征提取规则,针对各所述非结构化属性数据执行特征提取,获取各所述非结构化特征向量;
根据各所述结构化特征向量与各所述非结构化特征向量,生成所述样本企业的特征矩阵;
所述基于预设结构化特征提取规则,针对各所述结构化属性数据执行特征提取,获取各所述结构化特征向量包括:
根据所述结构化属性数据对应的各候选分箱编码,从各所述候选分箱编码中确定所述结构化属性数据的真实分箱编码;
根据预设特征映射规则,将所述真实分箱编码映射为所述结构化特征向量;
其中,所述将所述未遮蔽属性作为输入,并将所述遮蔽属性作为输出,以训练所述属性数据预测模型包括:
利用所述属性数据预测模型,基于所述未遮蔽属性针对所述遮蔽属性中被遮蔽的所述结构化特征向量执行预测,获得被遮蔽的所述结构化特征向量的预测特征向量;
根据所述预测特征向量与被遮蔽的所述结构化特征向量的各所述候选分箱编码对应的各所述结构化特征向量,计算所述预测特征向量与各所述候选分箱编码之间的相似度,获得各所述候选分箱编码对应的各相似值;
根据各所述候选分箱编码对应的各所述相似值,确定被遮蔽的所述结构化特征向量的预测分箱编码;
根据被遮蔽的所述结构化特征向量的所述真实分箱编码与所述预测分箱编码,优化所述属性数据预测模型。
10.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的企业属性数据预测方法对应的操作。
11.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时,可实现如权利要求1-8中任一所述的企业属性数据预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658180.9A CN114298427B (zh) | 2021-12-30 | 2021-12-30 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658180.9A CN114298427B (zh) | 2021-12-30 | 2021-12-30 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114298427A CN114298427A (zh) | 2022-04-08 |
CN114298427B true CN114298427B (zh) | 2024-04-19 |
Family
ID=80974461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111658180.9A Active CN114298427B (zh) | 2021-12-30 | 2021-12-30 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298427B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019110428A1 (en) * | 2017-12-04 | 2019-06-13 | Koninklijke Philips N.V. | Imputing an outcome attribute to a pers record missing an outcome attribute using a structured situation string or unstructured case note text associated with the record |
CN110909167A (zh) * | 2019-11-29 | 2020-03-24 | 重庆邮电大学 | 一种微博文本分类系统 |
CN112529679A (zh) * | 2020-12-25 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
KR20210094810A (ko) * | 2020-01-22 | 2021-07-30 | 주식회사 솔루게이트 | 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법 |
CN113268595A (zh) * | 2021-05-24 | 2021-08-17 | 中国电子科技集团公司第二十八研究所 | 一种基于实体关系抽取的结构化机场警报处理方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636036B (zh) * | 2018-12-12 | 2021-03-26 | 亿企赢网络科技有限公司 | 一种企业发票数量预测的方法、系统及设备 |
CN110310012B (zh) * | 2019-06-04 | 2023-07-28 | 平安科技(深圳)有限公司 | 数据分析方法、装置、设备及计算机可读存储介质 |
CN112446744B (zh) * | 2020-12-14 | 2023-08-08 | 成都航天科工大数据研究院有限公司 | 基于工业产品供需平台构建企业画像的方法、系统及介质 |
-
2021
- 2021-12-30 CN CN202111658180.9A patent/CN114298427B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019110428A1 (en) * | 2017-12-04 | 2019-06-13 | Koninklijke Philips N.V. | Imputing an outcome attribute to a pers record missing an outcome attribute using a structured situation string or unstructured case note text associated with the record |
CN110909167A (zh) * | 2019-11-29 | 2020-03-24 | 重庆邮电大学 | 一种微博文本分类系统 |
KR20210094810A (ko) * | 2020-01-22 | 2021-07-30 | 주식회사 솔루게이트 | 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법 |
CN112529679A (zh) * | 2020-12-25 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
CN113268595A (zh) * | 2021-05-24 | 2021-08-17 | 中国电子科技集团公司第二十八研究所 | 一种基于实体关系抽取的结构化机场警报处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114298427A (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取系统 | |
CN113505244B (zh) | 基于深度学习的知识图谱构建方法、系统、设备及介质 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN114818708B (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN116501898B (zh) | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN112559885A (zh) | 地图兴趣点的训练模型确定方法、装置及电子设备 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN115062617A (zh) | 基于提示学习的任务处理方法、装置、设备及介质 | |
CN115099233A (zh) | 一种语义解析模型的构建方法、装置、电子设备及存储介质 | |
CN113837307A (zh) | 数据相似度计算方法、装置、可读介质及电子设备 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
US20160004976A1 (en) | System and methods for abductive learning of quantized stochastic processes | |
CN114298427B (zh) | 企业属性数据预测方法、装置、电子设备及存储介质 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN115761770A (zh) | 实体识别模型的训练方法、图像识别方法、装置及设备 | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
CN114969371A (zh) | 一种联合知识图谱的热度排序方法及装置 | |
CN115062126A (zh) | 一种语句分析方法、装置、电子设备及可读存储介质 | |
CN114491030A (zh) | 技能标签的抽取、候选短语分类模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |