CN112132367A

CN112132367A - 一种用于企业经营管理风险识别的建模方法及装置

Info

Publication number: CN112132367A
Application number: CN201910489326.8A
Authority: CN
Inventors: 周振华; 黄晶
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; 4Paradigm Beijing Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; 4Paradigm Beijing Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2020-12-25

Abstract

本发明实施例公开一种用于企业经营管理风险识别的建模方法及装置，涉及计算机技术领域，能够有效提高模型预测的准确性。所述方法包括：从企业风险数据源中获取目标数据，所述目标数据包括字符型数据和/或知识图谱型数据；根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码；其中，所述目标特征编码将每个所述目标数据用一个多维向量表示，所述多维向量的维度数小于预设阈值；按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型；其中，所述时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码。本发明适用于企业风险预测。

Description

一种用于企业经营管理风险识别的建模方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于企业经营管理风险识别的建模方法及装置。

背景技术

企业的经营管理风险蕴含于与企业相关的多种数据中，如何从这些庞大的数据中识别出企业可能面对的风险，对企业自身以及与企业相关的实体具有重要意义。

由于企业风险相关的数据具有数据源复杂、数据格式多样化的特点，当利用数学模型进行企业风险识别时，难以提取出有效的特征，更难以利用提取出的特征进行模型训练。

发明内容

有鉴于此，本发明实施例提供一种用于企业经营管理风险识别的建模方法、装置、电子设备及存储介质，能够大大降低了特征提取的工作量和盲目性，有效提高了模型预测的准确性。

第一方面，本发明的实施例提供一种用于企业经营管理风险识别的建模方法，包括：从企业风险数据源中获取目标数据，所述目标数据包括字符型数据和/或知识图谱型数据；根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码；其中，所述目标特征编码将每个所述目标数据用一个多维向量表示，所述多维向量的维度数小于预设阈值；按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型；其中，所述时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码；以所述时序特征编码的特征为输入，以企业发生风险的概率为输出进行模型训练，以得到用于企业经营管理风险识别的模型。

可选的，所述从企业风险数据源中获取目标数据包括：对企业风险数据源中的非结构化数据进行分词和关键信息提取，以使每个所述关键信息形成一个字符型数据；和/或将企业风险数据源中的结构化数据转化为知识图谱型数据。

可选的，所述目标数据包括字符型数据；所述根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码包括：按照预设规则，构造各字符型数据之间的相邻关系；根据所述相邻关系，对所述字符型数据进行向量化，以形成所述目标特征编码。

可选的，所述按照预设规则，构造各字符型数据之间的相邻关系包括：根据预设规则，构造每个企业中每类职位的人之间的相邻关系；所述根据所述相邻关系，对所述字符型数据进行向量化，以形成所述目标特征编码包括：将每类职位中的人的身份标识进行向量化并求平均值，得到此类职位的平均身份特征编码；将各类职位的平均身份特征编码拼接起来，以形成所述目标特征编码。

可选的，所述目标数据包括知识图谱型数据；所述根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码包括：基于知识图谱型数据中企业与企业之间的关系，利用pagerank算法确定每个企业的影响力特征编码；基于知识图谱型数据中企业与企业之间的关系，利用label propagation算法确定每个企业的风险特征编码；基于知识图谱型数据中企业与人之间的关系，利用deepwalk算法确定每个企业中与人相关的特征编码；将所述影响力特征编码、所述风险特征编码和所述与人相关的特征编码相拼接，以形成所述目标特征编码。

可选的，所述按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型包括：将同一预设时段内产生的所述目标数据所对应的目标特征编码分为一组；以前N-1个预设时段对应的N-1组目标特征编码为输入，以第N个预设时段对应的目标特征编码为输出，训练所述时间演化模型，其中，N为大于1的整数。

可选的，所述目标数据包括字符型数据和知识图谱型数据；所述根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码包括：根据所述目标数据之间的相邻关系，分别对字符型数据和知识图谱型数据进行向量化，以形成字符特征编码和图谱特征编码；将所述字符特征编码和所述图谱特征编码进行拼接，以形成所述目标特征编码。

第二方面，本发明的实施例还提供一种用于企业经营管理风险识别的建模装置，包括：获取单元，用于从企业风险数据源中获取目标数据，所述目标数据包括字符型数据和/或知识图谱型数据；编码单元，用于根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码；其中，所述目标特征编码将每个所述目标数据用一个多维向量表示，所述多维向量的维度数小于预设阈值；第一训练单元，用于按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型；其中，所述时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码；第二训练单元，用于以所述时序特征编码的特征为输入，以企业发生风险的概率为输出进行模型训练，以得到用于企业经营管理风险识别的模型。

可选的，所述获取单元包括：第一获取模块，用于对企业风险数据源中的非结构化数据进行分词和关键信息提取，以使每个所述关键信息形成一个字符型数据；和/或第二获取模块，用于将企业风险数据源中的结构化数据转化为知识图谱型数据。

可选的，所述目标数据包括字符型数据；所述编码单元包括：构造模块，用于按照预设规则，构造各字符型数据之间的相邻关系；向量化模块，用于根据所述相邻关系，对所述字符型数据进行向量化，以形成所述目标特征编码。

可选的，所述构造模块，具体用于根据预设规则，构造每个企业中每类职位的人之间的相邻关系；所述向量化模块，具体用于：将每类职位中的人的身份标识进行向量化并求平均值，得到此类职位的平均身份特征编码；将各类职位的平均身份特征编码拼接起来，以形成所述目标特征编码。

可选的，所述目标数据包括知识图谱型数据；所述编码单元包括：第一编码模块，用于基于知识图谱型数据中企业与企业之间的关系，利用pagerank算法确定每个企业的影响力特征编码；第二编码模块，用于基于知识图谱型数据中企业与企业之间的关系，利用label propagation算法确定每个企业的风险特征编码；第三编码模块，用于基于知识图谱型数据中企业与人之间的关系，利用deepwalk算法确定每个企业中与人相关的特征编码；拼接模块，用于将所述影响力特征编码、所述风险特征编码和所述与人相关的特征编码相拼接，以形成所述目标特征编码。

可选的，所述第一训练单元，具体用于：将同一预设时段内产生的所述目标数据所对应的目标特征编码分为一组；以前N-1个预设时段对应的N-1组目标特征编码为输入，以第N个预设时段对应的目标特征编码为输出，训练所述时间演化模型，其中，N为大于1的整数。

可选的，所述目标数据包括字符型数据和知识图谱型数据；所述编码单元具体用于：根据所述目标数据之间的相邻关系，分别对字符型数据和知识图谱型数据进行向量化，以形成字符特征编码和图谱特征编码；将所述字符特征编码和所述图谱特征编码进行拼接，以形成所述目标特征编码。

第三方面，本发明的实施例还提供一种电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行本发明的实施例提供的任一种用于企业经营管理风险识别的建模方法。

第四方面，本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本发明的实施例提供的任一种用于企业经营管理风险识别的建模方法。

本发明的实施例提供的用于企业经营管理风险识别的建模方法及装置，能够从企业风险数据源中获取目标数据，根据目标数据之间的相邻关系，对所述目标数据进行编码，得到目标特征编码。由于目标特征编码可以将每个目标数据用一个多维向量表示，且多维向量的维度数小于预设阈值，这样就可以将字符型数据和/或知识图谱型数据都统一用一组稠密的多维向量表示，有利于特征提取和模型训练。接着按照目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型，得到目标数据的时序特征编码，从而进一步将企业风险的时间属性也引入模型体系中，从而有效提高了模型预测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的实施例提供的用于企业经营管理风险识别的建模方法的一种流程图；

图2为本发明的实施例提供的用于企业经营管理风险识别的建模方法中的一种特征拼接示意图；

图3为本发明的实施例中的一种编码方法示意图；

图4为本发明的实施例提供的用于企业经营管理风险识别的建模方法中的另一种特征拼接示意图；

图5为本发明的实施例提供的用于企业经营管理风险识别的建模装置的一种结构示意图；

图6为本发明的实施例提供的电子设备的一种结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

第一方面，本发明的实施例提供一种用于企业经营管理风险识别的建模方法，能够对企业风险相关的特征进行特征编码并利用编码后的特征进行模型训练，从而大大降低了特征提取的工作量和盲目性，有效提高了模型预测的准确性。

如图1所示，本发明的实施例提供的用于企业经营管理风险识别的建模方法，具体可以包括：

S11，从企业风险数据源中获取目标数据，所述目标数据包括字符型数据和/或知识图谱型数据。

其中，企业风险数据源可以包括与企业相关的任何信息，例如工商企业基本信息、上市企业财务信息、全国中小企业经营状况信息、法院判决信息、税务评级信息、法院公告信息、法院执行信息、商标数据、专利信息、软件/作品著作权信息、企业招投标信息以及涉及企业的媒体报道信息等。这些信息的载体可以包括各种数据库、公告文件、期刊杂志等，信息的格式也有很大差别。本步骤中，可以从这些企业风险数据源中将所需要的信息进行整合，以便得到目标数据。

可选的，在本发明的一个实施例中，目标数据的数据类型可以包括字符型数据，或知识图谱型数据，或者二者的结合。当企业风险数据源中的数据不是字符型数据或知识图谱型数据时，也可以先将企业风险源数据转化成这两种数据中的一种，再进行进一步处理。

其中，字符型数据例如可以包括ID类数据。ID类数据是类目型数据的一种，相比传统的类目型数据，ID类特征存在取值空间巨大的特点，如企业ID，企业法人ID，分词后的词ID等。可选的，企业ID的取值空间可以等于企业的个数，企业法人ID取值空间等于所有的人数；一段新闻经过分词后，词ID组成的空间规模更加巨大。知识图谱型数据可以指通过知识图谱的三元组结构构造的图来反映企业内部结构或企业外部关系的数据。鉴于字符型数据和知识图谱型数据一般较为庞大和复杂，为了便于特征提取和利用提取出的特征进行模型训练，本发明的实施例对这两种数据进行下面的进一步处理。

S12，根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码；其中，所述目标特征编码将每个所述目标数据用一个多维向量表示，所述多维向量的维度数小于预设阈值。

本步骤中，可以根据目标数据彼此之间的相邻关系对目标数据进行编码，得到目标特征编码。通过上述编码，可以将目标数据中的一个个具体的特征变为用向量表示的特征，从而便于进行模型训练和预测。在本发明的一个实施例中，该向量的维度可以小于预设阈值，例如小于200或小于500等，从而使特征可以被更为集中地表示，有效提高了模型效率。而至于每个目标数据具体如何由向量表示，可以根据需求进行训练。

S13，按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型；其中，所述时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码；

前述步骤仅仅考虑了目标数据本身的内容或结构而对目标数据进行编码，如果对目标数据加上时间要素的话，也就相当于对某个固定时点的数据进行编码。但本发明的实施例不限于此。在本发明的另一些实施例中，可以在上述编码特征基础上，将企业经营数据随时间变化的规律考虑在内，构造出带有时间变化规律的特征，从而使企业的风险识别更为准确和客观。

为此，在本发明的一个实施例中，可以将一段时间内产生的目标数据归为一组，例如一月份的企业经营数据归为group1，二月份的企业经营数据归为group2，三月份的企业经营数据归为group3、四月份的企业经营数据归为group4等。利用多组数据之间的演化规律训练出特征的时间演化模型，例如，可以从group1、group2、group3、group4中的数据之间寻找变化规律，得到时间演化模型。时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码。

S14，以所述时序特征编码的特征为输入，以企业发生风险的概率为输出进行模型训练，以得到用于企业经营管理风险识别的模型。

本步骤中，目标数据可以被时序特征编码重新编码成一组带有时间参数的特征，即时序特征编码的特征。以该时序特征编码的特征为输入，以企业发生风险的概率为输出进行模型训练，从而可以得到用于企业经营管理风险识别的模型。

本发明的实施例提供的用于企业经营管理风险识别的建模方法，能够从企业风险数据源中获取目标数据，根据目标数据之间的相邻关系，对所述目标数据进行编码，得到目标特征编码。由于目标特征编码可以将每个目标数据用一个多维向量表示，且多维向量的维度数小于预设阈值，这样就可以将字符型数据和/或知识图谱型数据都统一用一组稠密的多维向量表示，有利于特征提取和模型训练。接着按照目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型，得到目标数据的时序特征编码，从而进一步将企业风险的时间属性也引入模型体系中，从而有效提高了模型预测的准确性。

可选的，在步骤S11种，根据数据类型的不同，从企业风险数据源中获取目标数据的处理方式也可以不同。例如，对企业风险数据源中的非结构化数据，可以进行分词和关键信息提取，以使每个所述关键信息形成一个字符型数据；对于企业风险数据源中的结构化数据，则可以将企业风险数据源中的结构化数据转化为知识图谱型数据。

例如对于媒体的一段报道这类非结构化数据，可以对这段报道进行分词，提取中其中的关键信息，每个关键信息形成一个字符型数据，例如“世园会”、“开幕”等。又例如，对于一个班的中考成绩这类结构化数据，可以按照学号、姓名、科目、分数等形成知识图谱型数据。

获得了字符型或者知识图谱型的目标数据之后，即可以在步骤S12中根据目标数据之间的相邻关系，对目标数据进行编码。下面对字符型数据的编码以及知识图谱型数据的编码分别进行说明。

可选的，在本发明的一个实施例中，从企业风险数据源中获得的目标数据包括字符型数据；则在步骤S12中根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码可以包括：

按照预设规则，构造各字符型数据之间的相邻关系；

根据所述相邻关系，对所述字符型数据进行向量化，以形成所述目标特征编码。

举例说明，在本发明的一个实施例中，有两个ID，A和B，如果A和B存在某种关系，则可以为A和B连一条有向边，这样A和B就相邻了。例如，假设A和B都是某企业X的法人，A在B之前先成为企业法人，则A和B之间具有关系“A、B都是企业X的法人且A在B之前”，那么可以按照这种关系定义其他ID之间是否可以连一条边，如果两个ID之间连了边，则两个ID就有了相邻关系。当然，在本发明的其他实施例中，各字符型数据之间的相邻关系也可以由其他联系来定义，本发明的实施例对此不做限定。

构造出各字符型数据之间的相邻关系后，就可以按照这种相邻关系，将各字符型数据用一组向量表示。通过将字符型数据用向量来表示，可以大大降低字符型数据的数据量，有效提升模型效率。

举例而言，在本发明的一个实施例中，以每个企业为一个单元，可以根据高管关系构建“一篇paragraph”Pi＝{C_i1，C_i2，C_i3......C_ini}。

其中，Pi表示第i个企业构建的“paragraph”，Cij表示第i个企业的第j个高管的1-hot编码。将高管看作是一个词，取前n个高管的1-hot编码为n个输入向量，后一个高管的1-hot编码为输出向量，构造深度学习模型，并以Pi构成的所有“paragraph”数据进行训练。将训练出来的模型的输入层和隐藏层的第一层节点之间的系数矩阵作为embedding的参数，对各C_ini的1-hot编码嵌入一个稠密向量空间。

进一步的，上述实施例中，基于Pi构建的相邻关系仅仅体现了企业中与人相关的ID特征。鉴于企业经营风险是以企业为单位，因此在本发明的一个实施例中，还可以将与人相关的ID类特征拼接成企业维度的特征。

具体而言，在本发明的一个实施例中，针对企业而言，按照预设规则，构造各字符型数据之间的相邻关系可以包括：

根据预设规则，构造每个企业中每类职位的人之间的相邻关系；

所述根据所述相邻关系，对所述字符型数据进行向量化，以形成所述目标特征编码包括：将每类职位中的人的身份标识进行向量化并求平均值，得到此类职位的平均身份特征编码；

将各类职位的平均身份特征编码拼接起来，以形成所述目标特征编码。

例如，对于任何一类职位(即维度k(如高管、中层或普通员工等))，找出符合该维度的第j个人(一共有J个人)，记该类职位的人的特征编码为：

对于每个维度k，构成一个固定长度的特征向量，不同维度特征向量的长度可以相同或不同。如图2所示，将这些特征向量拼接起来，即可以得到针对该企业的ID类特征。

对知识图谱型数据而言，在本发明的一个实施例中，从企业风险数据源中获得的目标数据包括知识图谱型数据，则根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码具体可以包括：

基于知识图谱型数据中企业与企业之间的关系，利用pagerank算法确定每个企业的影响力特征编码；

基于知识图谱型数据中企业与企业之间的关系，利用label propagation算法确定每个企业的风险特征编码；

基于知识图谱型数据中企业与人之间的关系，利用deepwalk算法确定每个企业中与人相关的特征编码；

将所述影响力特征编码、所述风险特征编码和所述与人相关的特征编码相拼接，以形成所述目标特征编码。

具体而言，在知识图谱型数据中，企业与企业之间的关系可以被模拟成知识图谱中节点之间的关系。企业的影响力大小可以通过与代表该企业的节点相连的节点数量和/质量确定。

本发明的实施例中你，Pagerank算法将企业A模拟为知识图谱型数据中的一个节点，而这个节点的“出链”看做是指向其他节点的一条“有向边”，而“入链”则是其他节点指向这个节点的有向边。整个知识图谱可以形成一个有向图。

可选的，企业影响力的评估可以遵循以下两个原则：

数量假设：一个节点的入度(即被链接数)越大，则该节点代表的企业的影响力越高；例如，节点A1的入度为3，节点A2的入度为6，则节点A2所代表的企业的影响力大于节点A1所代表的企业的影响力。

质量假设：一个节点的入度的来源节点的影响力越大，则该节点代表的企业的影响力越大。例如，节点A3的入度的来源节点B1的影响力大于节点A4的入度的来源节点B2的影响力，则节点A3所代表的企业的影响力大于节点A4所代表的企业的影响力。可选的，在本发明的一个实施例中，入度的来源节点的影响力也可以表示为该入度的来源节点的入度，基于此，节点B1的影响力可以表示为节点B1的入度。

可以采用数学中随机过程的“随机游走模型”在该有向图中游走，来表示各企业的影响力。随机游走模型指的是事物当前的状态只与其上一个状态有关，而与其再之前的状态无关。假设初始状态，用户游走所有页面的概率都是等大的，而每次游走过后，用户会依照此时该页面中给出的链接以相等概率游走到链接所指向的页面，通过对这种随机游走的概率分析，就能得到用户停留在哪一个节点上的概率要大一些，概率越大的，表示其影响力越高。

在确定了企业的影响力后，在本发明的一个实施例中，可以利用labelpropagation算法进一步确定每个企业的风险特征编码。这样，企业的影响力越大，一旦企业出现风险特征，则该企业发生风险的概率也较大，而企业的影响力越小，当出现风险特征时，该企业发生风险的概率也相对较小。

具体而言，Label propagation是一种半监督的学习算法，它的核心思想是相似的数据应该具有相同的label(标签)。可以认为label propagation倾向于将一个节点的邻居节点的标签中数量最多的标签作为该节点自身的标签。可选的，这些标签既可以是表征不同类型风险的标签，也可以是表征不同程度风险的标签。基于此，如果企业的所有邻居节点中大部分节点都被标记了风险标签R1，则该企业也会被标记风险标签R1。

在企业关系的知识图谱中，企业之间的股权投资关系和担保关系比较容易引发企业风险。在本发明的一个实施例中，可以对具有这两类关系的企业进行风险特征编码。例如，如果企业A为企业B做了担保，则企业A和企业B之间连接一条有向边。确定了联系关系后，采用pagerank和label propagation可以得到知识图谱中每个企业的风险编码值。

通过pagerank和label propagation算法确定了企业与企业之间的关系对企业风险的影响后，在本发明的实施例中，还可以根据知识图谱中企业与人之间的关系确定企业中与人相关的特征编码。

基于知识图谱型数据中企业与人之间的关系，利用deepwalk算法确定每个企业中与人相关的特征编码

在企业和人之间关系中，可以通过人的关系来刻画企业风险，采用deepwalk的思路来进行特征编码。Deepwalk算法也是类比于word2vec的方法，deepwalk通过在图上均匀选取网络节点，生成固定长度的随机游走序列，并将其类比为自然语言中的序列，使用DNN模型来得到特征编码方式。

如图3所示，在本发明的一个实施例中，采用公司和高管关系来组建公司和人的网络关系。图3的左图中的1-6的六个节点可以代表企业或者高管，节点之间的连线代表各节点之间的联系。可以根据Deepwalk的思想，沿着这些连线在各节点之间随机游走，形成若干序列(参见图3的中间图)。将序列关系类比自然语言中的序列，通过给定一个节点，预测附近节点训练得到一个模型(参见图3的右图)。该模型的输入层和隐藏层的第一层节点之间的系数矩阵即为该企业在企业与人的关系中的特征编码。

得到了上述特征编码后，如图4所示，可以将基于pagerank、基于labelpropagation以及基于Deepwalk得到的不同的特征编码“拼接”在一起，共同构成表征企业知识图谱的特征编码。

以上实施例分别对字符型数据和知识图谱型数据的特征编码进行了详细说明，但本发明不限于此。在本发明的一个实施例中，目标数据可以包括字符型数据和知识图谱型数据，则在步骤S12中根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码具体可以包括：

根据所述目标数据之间的相邻关系，分别对字符型数据和知识图谱型数据进行向量化，以形成字符特征编码和图谱特征编码；

将所述字符特征编码和所述图谱特征编码进行拼接，以形成所述目标特征编码。

也就是说，得到了字符型数据的特征编码以及知识图谱型数据的特征编码后，可以将这两种特征编码拼接在一起，从而形成目标特征编码。

进一步的，目标特征编码是针对同一时间节点的企业风险特征编码，当考虑到时间因素对风险特征的影响时，可以对该目标特征编码进行进一步处理。具体而言，在步骤S14中，按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型可以包括：

将同一预设时段内产生的所述目标数据所对应的目标特征编码分为一组；

以前N-1个预设时段对应的N-1组目标特征编码为输入，以第N个预设时段对应的目标特征编码为输出，训练所述时间演化模型，其中，N为大于1的整数。

举例而言，在本发明的一个实施例中，记企业i在j时刻的特征编码为x_ij，取时间间隔n，其中n为超参数，结合企业风险的数据变化特点，n为1周，既保证了企业数据在不同的周期内存在一定的变化，同时，相比一个月，这样的时间周期能创造更多的训练样本。

企业i的时间序列按照n切成m-n+1个样本：

(x_i1，x_i2，…，x_in-1)-＞(x_in)

(x_i2，x_i3，…，x_in)-＞(x_in+1)

…

(x_im-n+1，x_i3，…，x_im-1)-＞(x_im)

将所有企业的数据合并在一起构成训练样本，训练得到一个DNN模型。

训练结束后，输入层和隐藏层的共享权重乘以输入层作为最后的特征编码输入。

为了验证有效性，在本发明的一个实施例中，在如下构造的一维时间序列数据集合上做了简单的尝试，可以看到该方法的有效性。

设X_n＝0.5*X_n-1+0.2*X_n-2

这里的X_n可以看作是企业的一维特征编码，取时间切片参数为2，即通过构建X_n关于X_n-2和X_n-1的深度学习模型来学习特征编码方式。在这种简单的时间演化公式中，隐层的特征如果能学到时间演化规律，即表达式X_n＝0.5*X_n-1+0.2*X_n-2，则说明隐层特征可以很好的表征时间演化规律。当n取足够大(10万数据的时候)，隐层特征为一个神经元时，可以看到该特征和X_n-1，X_n-2的链接层系数为0.4899和0.1998，即X_n＝0.4899*X_n-1+0.1998*X_n-2，充分说明了该特征编码可以有效的学到时间演化规律。

为了验证模型的有效性，本发明的实施例选取了历史上共计430,430条企业申请贷款的数据，其中，共计5,209笔贷款最终出现了逾期，整体贷款逾期率为：5,209/430,430＝1.21％。

利用上述样本数据建立了两个版本的模型。其中，Baseline-Model和4P-Model都基于机器学习的gbdt算法建立，其两者区别在于：Baseline-Model的特征来源于业务专家的总结，该方法严重依赖于建模人员的个人经验与对业务场景的理解；而4P-Model除了加入业务专家总结的经验特征外，还大量采用了基于深度学习的经营管理风险编码技术产生的嵌入特征。

基于以上两个版本的模型，在实验集数据上分别应用两版模型进行了离线验证，最终实验结果的AUC、准确率与召回率对比请分别见表1和表2：

表1

模型版本	AUC	K-S	LIFT
				Baseline	0.909	0.647	12.976
4PModel	0.846	0.55	13.895

表2

由以上两表可见，通过在GBDT算法中结合深度学习的经营管理风险编码技术产生的嵌入特征，能够显著的提升模型的性能指标，从而使模型对于企业的风险与偿债结果具有更强的区分能力。

以表2的实验数据为例，若同样针对风险最高的头部30％企业用户进行风险干预——即对贷款申请进行拒绝处理，则基于传统特征技术的GBDT模型能够拦截77.1％的风险客户，而4P-Model由于具备了更强的风险识别能力，能够拦截90.48％的风险客户，这意味着在拦截30％申请的情况下，实验组相比于对照组能够召回13.4％——在实验集中涉及接近700个违约客户，以每个小微客户平均贷款50万元计算，该模型能够为银行多拦截3个多亿潜在的小微企业逾期贷款金额。

另外，通过4P-Model识别的风险客户，在头部20％客户的风险客户召回数量几乎接近于通过传统模型在头部30％客户的风险召回，这也就意味着在风险指标几乎不变的情况下，通过4P-Model可以多审批通过接近10％的客户贷款申请(约4万笔)，以每个小微客户平均50万元贷款金额计算，该模型能够直接为银行带来额外的200亿左右的贷款规模。

第二方面，本发明的实施例还提供一种用于企业经营管理风险识别的建模装置，能够对企业风险相关的特征进行特征编码并利用编码后的特征进行模型训练，从而大大降低了特征提取的工作量和盲目性，有效提高了模型预测的准确性。

如图5所示，本发明的实施例提供的用于企业经营管理风险识别的建模装置，具体可以包括：

获取单元31，用于从企业风险数据源中获取目标数据，所述目标数据包括字符型数据和/或知识图谱型数据；

编码单元32，用于根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码；其中，所述目标特征编码将每个所述目标数据用一个多维向量表示，所述多维向量的维度数小于预设阈值；

第一训练单元33，用于按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型；其中，所述时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码；

第二训练单元34，用于以所述时序特征编码的特征为输入，以企业发生风险的概率为输出进行模型训练，以得到用于企业经营管理风险识别的模型。

本发明的实施例提供的用于企业经营管理风险识别的建模装置，能够从企业风险数据源中获取目标数据，根据目标数据之间的相邻关系，对所述目标数据进行编码，得到目标特征编码。由于目标特征编码可以将每个目标数据用一个多维向量表示，且多维向量的维度数小于预设阈值，这样就可以将字符型数据和/或知识图谱型数据都统一用一组稠密的多维向量表示，有利于特征提取和模型训练。接着按照目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型，得到目标数据的时序特征编码，从而进一步将企业风险的时间属性也引入模型体系中，从而有效提高了模型预测的准确性。

可选的，获取单元31可以包括：第一获取模块，用于对企业风险数据源中的非结构化数据进行分词和关键信息提取，以使每个所述关键信息形成一个字符型数据；和/或第二获取模块，用于将企业风险数据源中的结构化数据转化为知识图谱型数据。

可选的，所述目标数据包括字符型数据；编码单元32可以包括：构造模块，用于按照预设规则，构造各字符型数据之间的相邻关系；向量化模块，用于根据所述相邻关系，对所述字符型数据进行向量化，以形成所述目标特征编码。

如图6所示，本发明的实施例提供的电子设备，可以包括：壳体51、处理器52、存储器53、电路板54和电源电路55，其中，电路板54安置在壳体51围成的空间内部，处理器52和存储器53设置在电路板54上；电源电路55，用于为上述电子设备的各个电路或器件供电；存储器53用于存储可执行程序代码；处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一实施例提供的用于企业经营管理风险识别的建模方法。

处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤，可以参见前述实施例的描述，在此不再赘述。

上述电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

相应的，本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述实施例提供的任一种用于企业经营管理风险识别的建模方法，因此也能实现相应的技术效果，前文已经进行了详细说明，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于企业经营管理风险识别的建模方法，其特征在于，包括：

从企业风险数据源中获取目标数据，所述目标数据包括字符型数据和/或知识图谱型数据；

根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码；其中，所述目标特征编码将每个所述目标数据用一个多维向量表示，所述多维向量的维度数小于预设阈值；

按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型；其中，所述时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码；

以所述时序特征编码的特征为输入，以企业发生风险的概率为输出进行模型训练，以得到用于企业经营管理风险识别的模型。

2.根据权利要求1所述的方法，其特征在于，所述从企业风险数据源中获取目标数据包括：

对企业风险数据源中的非结构化数据进行分词和关键信息提取，以使每个所述关键信息形成一个字符型数据；

和/或

将企业风险数据源中的结构化数据转化为知识图谱型数据。

3.根据权利要求1所述的方法，其特征在于，所述目标数据包括字符型数据；

所述根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码包括：

按照预设规则，构造各字符型数据之间的相邻关系；

4.根据权利要求3所述的方法，其特征在于，所述按照预设规则，构造各字符型数据之间的相邻关系包括：

所述根据所述相邻关系，对所述字符型数据进行向量化，以形成所述目标特征编码包括：

将每类职位中的人的身份标识进行向量化并求平均值，得到此类职位的平均身份特征编码；

5.根据权利要求1所述的方法，其特征在于，所述目标数据包括知识图谱型数据；

6.根据权利要求1所述的方法，其特征在于，所述按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标数据包括字符型数据和知识图谱型数据；

8.一种用于企业经营管理风险识别的建模装置，其特征在于，包括：

获取单元，用于从企业风险数据源中获取目标数据，所述目标数据包括字符型数据和/或知识图谱型数据；

编码单元，用于根据所述目标数据之间的相邻关系，对所述目标数据进行编码，以得到目标特征编码；其中，所述目标特征编码将每个所述目标数据用一个多维向量表示，所述多维向量的维度数小于预设阈值；

第一训练单元，用于按照所述目标数据的产生时间，对所述目标特征编码进行时序分组，并训练各组目标特征编码之间的时间演化模型；其中，所述时间演化模型的输入层节点与隐藏层的第一层节点之间的系数矩阵为时序特征编码；

第二训练单元，用于以所述时序特征编码的特征为输入，以企业发生风险的概率为输出进行模型训练，以得到用于企业经营管理风险识别的模型。

9.一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述权利要求1-7中任一项所述的用于企业经营管理风险识别的建模方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述权利要求1至7中任一项所述的用于企业经营管理风险识别的建模方法。