CN109472277A

CN109472277A - 借贷方分类的方法、装置以及存储介质

Info

Publication number: CN109472277A
Application number: CN201710808021.XA
Authority: CN
Inventors: 齐佳音; 李蕾; 冯彦杰; 傅湘玲; 罗晓芃; 吕月
Original assignee: Shanghai University Of Foreign Trade And Economics; Beijing University of Posts and Telecommunications
Current assignee: Shanghai University Of Foreign Trade And Economics; Beijing University of Posts and Telecommunications
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2019-03-15

Abstract

本公开涉及一种借贷方分类的方法、装置以及存储介质，包括：获取多个借贷方的数据样本对应多个预设类型在不同维度下的第一待确定向量，从多个数据样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据第二待确定向量训练预设分类模型得到第一分类结果、特征向量和特征向量对应的第一目标分类模型，且从第一分类结果中获取特征向量对应的第二分类结果，根据第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练预设分类模型得到第二目标分类模型，获取待分类借贷方的目标数据，将目标数据作为第一目标分类模型的输入得到待确定分类结果，并将待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

Description

借贷方分类的方法、装置以及存储介质

技术领域

本公开涉及数据分类领域，具体地，涉及一种借贷方分类的方法、装置以及存储介质。

背景技术

网络借贷作为近年来新兴的金融商业模式，实现了借贷过程中的借入借出资金、签订合约等手续通过网络借贷平台即可操作，从而给用户提供了便捷，但是，随着网络借贷的快速发展，诸多风险逐渐暴露，例如，网络借贷方出现跑路、提现困难、经侦介入以及歇业等问题，这样，给投资人造成了经济损失。

在相关技术中，可以对网络借贷方进行评估以避免或者减少投资人的经济损失，在网络大数据时代，由于网络借贷方包含的数据量较大，采用传统的数据收集和评估方法耗时费力且可能出现人为错误。

发明内容

为了解决上述问题，本公开提出了一种借贷方分类的方法、装置以及存储介质。

根据本公开的第一方面，提供一种借贷方分类的方法，所述方法包括：获取多个借贷方的数据样本；获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量，所述不同维度是根据所述每个数据样本中提取的文本特征得到的；从多个数据样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据所述第二待确定向量训练预设分类模型得到第一分类结果，并根据所述第一分类结果确定特征向量和所述特征向量对应的第一目标分类模型，且从所述第一分类结果中获取所述特征向量对应的第二分类结果；根据所述第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练所述预设分类模型得到第二目标分类模型；所述目标分类集合包括多个预设类型的特征向量对应的第二分类结果；获取待分类借贷方的目标数据，将所述目标数据作为第一目标分类模型的输入得到待确定分类结果，并将所述待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

可选地，在所述获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量之前，还包括：

对所述每个数据样本进行分词处理得到多个词语；

所述获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量。

可选地，所述根据所述第二待确定向量训练预设分类模型得到第一分类结果包括：通过十折交叉验证方法将所述第二待确定向量输入至所述预设分类模型进行训练得到所述第一分类结果。

可选地，所述根据所述第一分类结果确定特征向量包括：根据所述第一分类结果确定所述第二待确定向量的分类准确度；根据所述分类准确度从所述第二待确定向量中确定特征向量。

可选地，所述第一待确定向量包括关键词向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：计算所述多个词语对应的第一信息增益；根据所述第一信息增益对所述多个词语进行排序；从排序后的多个词语中获取关键词；根据所述关键词确定所述每个数据样本在不同维度下的关键词向量。

可选地，所述第一待确定向量包括主题向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：确定所述多个词语中包含的主题类型；计算所述不同主题类型对应的第二信息增益；根据所述第二信息增益对所述不同主题类型进行排序；从排序后的不同主题类型中获取目标主题类型；根据所述目标主题类型确定所述每个数据样本在不同维度下的主题向量。

可选地，所述第一待确定向量包括段向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：将所述每个数据样本中的多个词语进行段落标记；将段落标记后的多个词语输入至预设神经网络模型得到所述每个数据样本在不同维度下的段向量。

可选地，所述第一待确定向量包括依存关系向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：获取所述多个词语之间的依存关系；计算所述不同依存关系对应的第三信息增益；根据所述第三信息增益对所述不同依存关系进行排序；从排序后的不同依存关系中获取目标依存关系；根据所述目标依存关系确定所述每个数据样本在不同维度下的依存关系向量。

可选地，所述第一待确定向量包括句法结构向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：获取所述多个词语之间的句法结构；计算所述不同句法结构对应的第四信息增益；根据所述第四信息增益对所述不同句法结构进行排序；从排序后的不同句法结构中获取目标句法结构；根据所述目标句法结构确定所述每个数据样本在不同维度下的句法结构向量。

根据本公开的第二方面，提供一种借贷方分类的装置，所述装置包括：第一获取模块，用于获取多个借贷方的数据样本；第二获取模块，用于获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量，所述不同维度是根据所述每个数据样本中提取的文本特征得到的；计算模块，用于从多个数据样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据所述第二待确定向量训练预设分类模型得到第一分类结果，并根据所述第一分类结果确定特征向量和所述特征向量对应的第一目标分类模型，且从所述第一分类结果中获取所述特征向量对应的第二分类结果；处理模块，用于根据所述第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练所述预设分类模型得到第二目标分类模型；所述目标分类集合包括多个预设类型的特征向量对应的第二分类结果；分类模块，用于获取待分类借贷方的目标数据，将所述目标数据作为第一目标分类模型的输入得到待确定分类结果，并将所述待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

可选地，还包括：分词模块，用于对所述每个数据样本进行分词处理得到多个词语；所述第二获取模块，用于根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量。

可选地，所述计算模块，用于通过十折交叉验证方法将所述第二待确定向量输入至所述预设分类模型进行训练得到所述第一分类结果。

可选地，所述计算模块包括：第一确定子模块，用于根据所述第一分类结果确定所述第二待确定向量的分类准确度；第二确定子模块，用于根据所述分类准确度从所述第二待确定向量中确定特征向量。

可选地，所述第一待确定向量包括关键词向量，所述第二获取模块，用于计算所述多个词语对应的第一信息增益；根据所述第一信息增益对所述多个词语进行排序；从排序后的多个词语中获取关键词；根据所述关键词确定所述每个数据样本在不同维度下的关键词向量。

可选地，所述第一待确定向量包括主题向量，所述第二获取模块，用于确定所述多个词语中包含的主题类型；计算所述不同主题类型对应的第二信息增益；根据所述第二信息增益对所述不同主题类型进行排序；从排序后的不同主题类型中获取目标主题类型；根据所述目标主题类型确定所述每个数据样本在不同维度下的主题向量。

可选地，所述第一待确定向量包括段向量，所述第二获取模块，用于将所述每个数据样本中的多个词语进行段落标记；将段落标记后的多个词语输入至预设神经网络模型得到所述每个数据样本在不同维度下的段向量。

可选地，所述第一待确定向量包括依存关系向量，所述第二获取模块，用于获取所述多个词语之间的依存关系；计算所述不同依存关系对应的第三信息增益；根据所述第三信息增益对所述不同依存关系进行排序；从排序后的不同依存关系中获取目标依存关系；根据所述目标依存关系确定所述每个数据样本在不同维度下的依存关系向量。

可选地，所述第一待确定向量包括句法结构向量，所述第二获取模块，用于获取所述多个词语之间的句法结构；计算所述不同句法结构对应的第四信息增益；根据所述第四信息增益对所述不同句法结构进行排序；从排序后的不同句法结构中获取目标句法结构；根据所述目标句法结构确定所述每个数据样本在不同维度下的句法结构向量。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

根据本公开的第四方面，提供一种借贷方分类的装置，包括：上述第三方面中所述的计算机可读存储介质；以及一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。

在上述技术方案中，可以通过获取多个借贷方的数据样本，并获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量，所述不同维度是根据所述每个数据样本中提取的文本特征得到的；从多个数据样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据所述第二待确定向量训练预设分类模型得到第一分类结果，并根据所述第一分类结果确定特征向量和所述特征向量对应的第一目标分类模型，且从所述第一分类结果中获取所述特征向量对应的第二分类结果；根据所述第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练所述预设分类模型得到第二目标分类模型；所述目标分类集合包括多个预设类型的特征向量对应的第二分类结果；获取待分类借贷方的目标数据，将所述目标数据作为第一目标分类模型的输入得到待确定分类结果，并将所述待确定分类结果作为第二目标分类模型的输入得到目标分类结果，这样，与传统的数据收集和分析方法相比，可以通过第一目标分类模型和第二目标分类模型自动获取待分类借贷方的目标数据对应的目标分类结果，并且通过元学习构建的第二目标分类模型可以将多个预设类型的特征向量的待确定分类结果融合，从而可以提高了借贷方分类的准确率和效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是示例性实施例示出的一种借贷方分类的方法的流程图；

图2是示例性实施例示出的另一种借贷方分类的方法的流程图；

图3是示例性实施例示出的第一种借贷方分类的装置的框图；

图4是示例性实施例示出的第二种借贷方分类的装置的框图；

图5是示例性实施例示出的第三种借贷方分类的装置的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

本发明可以应用于网络借贷的场景，在该场景下，投资人可以在借贷平台上进行借贷操作，但是，当借贷方出现风险(如跑路、提现困难、经侦介入和歇业等)时，与该借贷方存在借贷关系的投资人将产生经济损失，为了减少投资人的经济损失，本公开可以通过将多个借贷方的数据样本分别表示为多个预设类型的特征向量，并将相同预设类型的特征向量作为预设分类模型的输入得到对应的待确定分类结果(相当于本公开中的第二分类结果)和第一目标分类模型，根据该待确定分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练该预设分类模型得到第二目标分类模型，这样，与传统的数据收集和分析方法相比，可以通过第一目标分类模型和第二目标分类模型自动获取待分类借贷方的目标数据对应的目标分类结果，并且通过元学习构建的第二目标分类模型可以将多个预设类型的特征向量的待确定分类结果融合，从而可以提高了借贷方分类的准确率和效率。

以下对本公开的具体实施方式进行详细说明。

图1是根据示例性实施例示出的一种借贷方分类的方法的流程图，如图1所示，该方法包括：

S101、获取多个借贷方的数据样本。

由于借贷方在网络借贷平台上注册时，需要填写借贷方的高管的基本信息，基于此，该数据样本可以包括获取的借贷方的高管的基本信息，示例地，借贷方的高管的基本信息可以包括年龄、性别、文化水平、工作情况(如从事行业和工作年限等)和资产情况(如购房状况、购车状况和工资收入等)等，上述示例只是举例说明，本公开对此不作限定。

S102、获取该每个数据样本对应多个预设类型在不同维度下的第一待确定向量。

其中，该不同维度是根据该每个数据样本中提取的文本特征得到的，示例地，该文本特征可以包括关键词、主题类型、段落、依存关系以及句法结构等，基于此，该预设类型的第一待确定向量可以为关键词向量、主题向量、段向量、依存关系向量以及句法结构向量，例如，当该文本特征为关键词时，该第一待确定向量为关键词向量，这样，可以根据选定的关键词数量确定该关键词向量对应的维度，例如，若选定的关键词数量为10个，则该关键词向量为10维度的向量，因此，可以根据选定的关键词数量构建不同维度的关键词向量，上述示例只是举例说明，本公开对此不作限定。

S103、从多个数据将样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据该第二待确定向量训练预设分类模型得到第一分类结果，并根据该第一分类结果确定特征向量和该特征向量对应的第一目标分类模型，且从该第一分类结果中获取该特征向量对应的第二分类结果。

需要说明的是，该多个借贷方的数据样本为已知分类结果的样本，如该借贷方为正常企业或者非正常企业(如处于停业、提现困难、经侦介入和跑路等状态的企业)，由于SVM(Support Vector Machine，支持向量机)分类器是一种二类分类模型，因此，在本公开中，该预设分类模型可以采用SVM分类器。

在本步骤中，可以通过十折交叉验证方法将该第二待确定向量输入至该SVM分类器中进行训练得到第一分类结果，将该第一分类结果与已知分类结果进行比较确定该第二待确定向量的分类准确度，从而可以根据该分类准确度从该第二待确定向量中确定特征向量，例如，当该第二待确定向量为每个数据样本对应的5维度的关键词向量时，对应的分类准确度为0.8232，当该第二待确定向量为每个数据样本对应的13维度的关键词向量时，对应的分类准确度为0.8268，根据比较该分类准确度可以确定该关键词向量对应的特征向量为13维度的关键词向量，同理，可以获取其他预设类型对应的特征向量，不再赘述。

另外，由于获取的特征向量为预设类型的向量，因此，对于每一预设类型的特征向量，可以分别获取到对应预设类型的第一目标分类模型。

S104、根据该第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练该预设分类模型得到第二目标分类模型。

其中，该目标分类集合包括多个预设类型的特征向量对应的第二分类结果。

S105、获取待分类借贷方的目标数据，将该目标数据作为第一目标分类模型的输入得到待确定分类结果，并将该待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

采用上述方法，与传统的数据收集和分析方法相比，可以通过第一目标分类模型和第二目标分类模型自动获取待分类借贷方的目标数据对应的目标分类结果，并且通过元学习构建的第二目标分类模型可以将多个预设类型的特征向量的待确定分类结果融合，从而可以提高了借贷方分类的准确率和效率。

图2是根据示例性实施例示出的一种借贷方分类的方法的流程图，如图2所示，该方法包括：

S201、获取多个借贷方的数据样本。

由于借贷方在网络借贷平台上注册时，需要填写借贷方高管的基本信息，基于此，该数据样本可以包括获取的借贷方高管的基本信息，示例地，借贷方高管的基本信息可以包括年龄、性别、文化水平、工作情况(如从事行业和工作年限等)和资产情况(如购房状况、购车状况和工资收入等)等，上述示例只是举例说明，本公开对此不作限定。

在本公开中，该数据样本选取的为2016年4月“网贷之家”中的数据，其中，共获取到3109家借贷方的数据样本，该多个借贷方的数据样本为已知分类结果的样本，如该借贷方为正常企业或者非正常企业(该非正常企业可以包括处于停业、提现困难、经侦介入和跑路等状态的企业)，该正常企业对应的数据样本的分类结果即可表示为0，该非正常企业对应的数据样本的分类结果即可表示为1。

S202、对该每个数据样本进行分词处理得到多个词语。

其中，分词处理即将该每个数据样本拆分成词语，在本步骤中，可采用本领域的技术人员公知的分词处理方法来对该每个数据样本进行分词处理，如jieba词语工具、SCWS(简易中文词语系统)以及ICTCLAS(汉语词法分析系统)等，示例地，以上述数据样本是2016年4月的“网贷之家”中的数据为例进行说明，若该数据样本包括：“叶海兵从事投资行业多年”，则可以通过jieba词语工具对该数据样本进行分词处理，得到该数据样本对应的多个词语为：“叶海兵”、“从事”、“投资”、“行业”以及“多年”，上述示例只是举例说明，本公开对此不作限定。

S203、根据该多个词语获取该每个数据样本对应多个预设类型在不同维度下的第一待确定向量。

在本步骤中，该不同维度是根据该每个数据样本中提取的文本特征得到的，示例地，该文本特征可以包括关键词、主题类型、段落、依存关系以及句法结构等，基于此，该预设类型的第一待确定向量可以为关键词向量、主题向量、段向量、依存关系向量以及句法结构向量，例如，当该文本特征为关键词时，该第一待确定向量为关键词向量，这样，可以根据选定的关键词数量确定该关键词向量对应的维度，例如，若选定的关键词数量为10个，则该关键词向量为10维度的向量，因此，可以根据选定的关键词数量构建不同维度的关键词向量，上述示例只是举例说明，本公开对此不作限定。

以下将详细叙述获取每个数据样本对应多个预设类型在不同维度下的第一待确定向量：

若该文本特征为关键词，则该第一待确定向量即为关键词向量，可以通过以下步骤获取该每个数据样本在不同维度下的关键词向量：

S11、计算该多个词语对应的第一信息增益。

其中，该第一信息增益表示该多个词语对该数据样本的分类结果的重要程度，若该第一信息增益越大，则对该分类结果的影响越大，相反，若该第一信息增益越小，则对该分类结果的影响越小。

在本步骤中，可以计算该多个词语对应的信息熵，具体地，可以获取该多个词语分别对应的概率，示例地，若该多个词语中包括“工作”的数量为8，该多个词语对应的总词语量为200，则“工作”对应的概率为1/25，这样，当该多个词语包括{X₁，X₂，…，X_n}，且该多个词语对应的概率依次为P₁，P₂，…P_n时，该多个词语对应的信息熵为并分别计算该多个词语中的每一个词语对应的条件熵，从而可以获取到该多个词语中的每个词语对应的第一信息增益为IG(X_i)＝H(X)-H(C|X_i)，其中，H(X)表示该多个词语所对应的信息熵，H(C|X_i)表示在确定X为X_i时对应的条件熵，IG(X_i)表示X为X_i时对应的第一信息增益。

S12、根据该第一信息增益对该多个词语进行排序。

在一种可能的实现方式中，可以按照该多个词语对应的第一信息增益从大到小的顺序将该多个词语进行排序，示例地，若获取到“金融”的第一信息增益为0.27641048，“经验”的第一信息增益为0.26448881，“管理”的第一信息增益为0.25672832，“年”的第一信息增益为0.23169588，“互联网”的第一信息增益为0.19568608，“曾”的第一信息增益为0.19500294，“公司”的第一信息增益为0.18974424，则可以按照第一信息增益从大到小的顺序得到该多个词语的排序结果为“金融”>“经验”>“管理”>“年”>“互联网”>“曾”>“公司”。

S13、从排序后的多个词语中获取关键词。

其中，可以按照该第一信息增益从大到小的顺序依次获取第一数量的词语作为关键词，此时，若确定该第一数量为5，则该关键词包括“金融”、“经验”、“管理”、“年”和“互联网”，上述示例只是举例说明，本公开对此不作限定。

S14、根据该关键词确定该每个数据样本在不同维度下的关键词向量。

需要说明的是，若在步骤S13中获取的关键词为“金融”、“经验”、“管理”、“年”和“互联网”，则关键词模型可以表示为[a，b，c，d，e]；若获取的关键词为“金融”、“经验”、“管理”、“年”、“互联网”、“曾”和“公司”，则关键词模型可以表示为[a，b，c，d，e，f，g]，其中，a表示“金融”，b表示“经验”，c表示“管理”，d表示“年”，e表示“互联网”，f表示“曾”，g表示“公司”，因此，可以通过获取不同数量的关键词以获取到不同维度的关键词模型。

在本步骤中，基于该关键词模型获取该关键词向量，其中，将该关键词模型中的每一维度替换为该维度对应的关键词是否在该数据样本中出现，在一种可能的实现方式中，若该关键词在该数据样本中出现，则可以表示为1，若该关键词在该数据样本中未出现，则可以表示为0，继续以上述关键词包括“金融”、“经验”、“管理”、“年”和“互联网”为例进行说明，若“金融”、“年”和“互联网”在该数据样本中出现，“经验”和“管理”在该数据样本中未出现，则该数据样本对应的关键词向量可以表示为(1，0，0，1，1)，上述确定关键词向量的方法只是举例说明，本公开对此不作限定。

若该文本特征为主题类型，则该第一待确定向量即为主题向量，可以通过以下步骤获取每个数据样本在不同维度下的主题向量：

S21、确定该多个词语中包含的主题类型。

其中，LDA((潜在狄利克雷分配，Latent Dirichlet Allocation)主题模型可以用于识别大规模的文档集或语料库中包括的主题类型，基于此，本实施例中可通过LDA主题模型获取该多个词语中包含的主题类型，示例地，若获取到该多个词语包括“管理”、“公司”、“业务”、“毕业”、“本科学历”“岗位”等，则可以根据该多个词语获取到该主题类型包括“工作”和“学历”，且“管理”、“公司”、“业务”、和“岗位”属于主题“工作”，“毕业”、和“本科学历”属于主题“学历”，上述示例只是举例说明，本公开对此不作限定。

S22、计算不同主题类型对应的第二信息增益。

在本步骤中，可以从该多个词语中获取属于每一主题类型的词语量M，且获取该多个词语所包含的总词语量N，则可以通过计算M和N的比值得到每个主题类型的概率，示例地，若该多个词语中属于主题类型为“工作”的词语有8个，且该多个词语所包含的总词语量为100，则可以确定主题类型为“工作”对应的概率是2/25，这样，可以通过获取的每个主题类型的概率计算不同主题类型对应的第二信息增益，具体计算方法可以参考S11中获取第一信息增益的过程，不再赘述。

S23、根据该第二信息增益对该不同主题类型进行排序。

在一种可能的实现方式中，可以按照该不同主题类型对应的第二信息增益从大到小的顺序将该不同主题类型进行排序。

S24、从排序后的不同主题类型中获取目标主题类型。

在本步骤中，可以按照该第二信息增益从大到小的顺序依次获取第二数量的主题类型作为目标主题类型。

S25、根据该目标主题类型确定该每个数据样本在不同维度下的主题向量。

在本公开中，若在步骤S24中获取的目标主题类型的数量为W个，则主题模型可以表示为[Y1，Y2，...，Yw]，且Y1，Y2，...，Yw分别表示对应的目标主题类型，这样，可以根据获取的目标主题类型的数量确定主题模型的维度，并基于主题模型获取每个数据样本对应的主题向量，即将主题模型中每一维度分别替换为该数据样本属于该主题类型的概率。

若该文本特征为段落，则该第一待确定向量即为段向量，可以通过以下步骤获取该每个数据样本在不同维度下的段向量：

S31、将每个数据样本中的多个词语进行段落标记。

S32、将段落标记后的多个词语输入至预设神经网络模型得到每个数据样本在不同维度下的段向量。

示例地，可以将段落标记后的多个词语输入至预设神经网络模型，从而生成不同维度的段向量，上述示例只是举例说明，本公开对此不作限定。

若该文本特征为依存关系，则该第一待确定向量即为依存关系向量，可以通过以下步骤获取该每个数据样本在不同维度下的依存关系向量：

S41、获取该多个词语之间的依存关系。

其中，该依存关系可以是该数据样本中每句话中词语之间的关系，示例地，若该数据样本中的某一句话为“从事投资行业多年”，则对应的依存关系为root(ROOT-0，从事-1)，nn(多年-4，投资-2)，nn(多年-4，行业-3)，dobj(从事-1，多年-4)，上述示例只是举例说明，本公开对此不作限定。

S42、计算不同依存关系对应的第三信息增益。

在本步骤中，可以分别计算不同依存关系的概率，示例地，若获取到所有依次关系的总数量为90个，且依存关系为nn(多年-4，投资-2)的数量有10个，则可以确定依存关系为nn(多年-4，投资-2)所对应的概率为1/9，这样，可以根据获取的不同依存关系的概率计算该第三信息增益，具体方法可以参考S11中获取第一信息增益的过程，不再赘述。

S43、根据该第三信息增益对不同依存关系进行排序。

其中，可以按照该依存关系对应的第三信息增益从大到小的顺序将该不同类型的依存关系进行排序。

S44、从排序后的不同依存关系中获取目标依存关系。

在一种可能的实现方式中，可以按照该第三信息增益从大到小的顺序依次获取第三数量的依存关系作为目标依存关系。

S45、根据该目标依存关系确定每个数据样本在不同维度下的依存关系向量。

在本公开中，若在S44中获取的目标依存关系的数量为k个，则依存关系模型可以表示为[Z1，Z2，...，Zk]，且Z1，Z2，...，Zk分别表示对应的目标依存关系，这样，可以根据获取的目标依存关系的数量确定依存关系模型的维度，并基于依存关系模型获取每个数据样本对应的依存关系向量，即将依存关系模型中每一维度分别替换为该维度对应的依存关系是否在该数据样本中出现，在一种可能的实现方式中，若该依存关系在该数据样本中出现，则可以表示为1，若该依存关系在该数据样本中未出现，则可以表示为0。

若该文本特征为句法结构，则该第一待确定向量即为句法结构向量，可以通过以下步骤获取该每个数据样本在不同维度下的句法结构向量：

S51、获取该多个词语之间的句法结构。

其中，该句法结构可以根据该数据样本中的每个句子的结构获得，示例地，若该数据样本中的句子为“从事投资行业多年”，则可以获取到该句子中的句法结构有VP-VV-NP，NP-NN-NN-NN，其中，VP表示动词性短语，VV表示动词，NP表示名词性短语，NN表示名词，上述示例只是举例说明，本公开对此不作限定。

S52、计算不同句法结构对应的第四信息增益。

在本步骤中，可以分别计算不同句法结构的概率，示例地，若获取到所有句法结构的总数量为80个，且句法结构为VP-VV-NP的数量有10个，则可以确定句法结构为VP-VV-NP所对应的概率为1/8，这样，可以根据获取的不同句法结构的概率计算该第四信息增益，具体方法可以参考S11中获取第一信息增益的过程，不再赘述。

S53、根据该第四信息增益对不同句法结构进行排序。

在一种可能的实现方式中，可以按照该句法结构对应的第四信息增益从大到小的顺序将不同句法结构进行排序。

S54、从排序后的不同句法结构中获取目标句法结构。

可以按照该第四信息增益从大到小的顺序依次获取第四数量的句法结构作为目标句法结构。

S55、根据该目标句法结构确定每个数据样本在不同维度下的句法结构向量。

在本公开中，若在S54中获取的目标句法结构的数量为p个，则句法结构模型可以表示为[Q1，Q2，...，Qp]，且Q1，Q2，...，Qp分别表示对应的目标句法结构，这样，可以根据获取的目标句法结构的数量确定句法结构模型的维度，并基于句法结构模型获取每个数据样本对应的句法结构向量，即将句法结构模型中每一维度分别替换为该维度对应的句法结构是否在该数据样本中出现，在一种可能的实现方式中，若该句法结构在该数据样本中出现，则可以表示为1，若该句法结构在该数据样本中未出现，则可以表示为0。

S204、从多个数据将样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量。

其中，该第二待确定向量可以是每个数据样本对应的相同维度的关键词向量，或者每个数据样本对应的相同维度的主题向量，或者每个数据样本对应的相同维度的段向量，或者每个数据样本对应的相同维度的依存关系向量，或者每个数据样本对应的相同维度的句法结构向量。

S205、通过十折交叉验证方法将该第二待确定向量输入至预设分类模型进行训练得到第一分类结果。

在本步骤中，该预设分类模型可以为SVM(Support Vector Machine，支持向量机)分类器，其中，可以将获取的第二待确定向量等分成10份，轮流将其中的9份作为训练数据以对该预设分类模型进行训练，剩余的1份作为测试数据以对训练后的预设分类模型进行验证，这样，通过进行10次训练得到该第二待确定向量的10次的第一分类结果，上述训练过程只是举例说明，本公开对此不作限定。

S206、根据该第一分类结果确定该第二待确定向量的分类准确度。

由于该借贷方的数据样本为已知评估结果的样本，如该借贷方为正常企业或者非正常企业(如处于停业、提现困难、经侦介入和跑路等状态的企业)，因此，可以将S205中的10次的第一分类结果依次与已知评估结果进行比较得到对应的单次分类准确度，计算该单次分类准确度的平均值得到该第二待确定向量对应的分类准确度。

需要说明的是，以该文本特征为关键词为例进行说明，由获取的第一分类结果可以得到：在关键词数量不同(即第二待确定向量的维度不同)时，分类结果的准确率也不同，从而可以获取准确率最高时对应的关键词数量，并以该关键词数量作为特征向量的维度，具体过程参考S207。

S207、根据该分类准确度从第二待确定向量中确定特征向量和该特征向量对应的第一目标分类模型，且从该第一分类结果中获取该特征向量对应的第二分类结果。

在本步骤中，在该分类准确度为最大值时对应的第二待确定向量即为特征向量，示例地，若该第二待确定向量为不同维度的关键词向量，则可以根据步骤S206获取到不同维度的关键词向量的分类准确度，如在确定L维度的关键词向量对应的准确度为最大值时，则L维度的关键词向量即为特征向量，例如，当该第二待确定向量包括每个数据样本对应的5维度的关键词向量时，对应的分类准确度为0.8232，当该第二待确定向量包括每个数据样本对应的13维度的关键词向量时，对应的分类准确度为0.8268，这样，可以确定在分类准确度为0.8268时所对应的第二待确定向量为该特征向量，获取其他预设类型的特征向量的方法与关键词的特征向量相同，不再赘述，上述示例只是举例说明，本公开对此不作限定。

其中，通过该特征向量训练该预设分类模型即可得到该第一目标分类模型，需要说明的是，对于每一预设类型的特征向量，可以获取到该每一预设类型对应的第一目标分类模型，示例地，若存在关键词的特征向量，主题类型的特征向量，段落的特征向量，依存关系的特征向量以及句法关系的特征向量，则依次可以获取到关键词对应的第一目标分类模型，主题类型对应的第一目标分类模型，段落对应的第一目标分类模型，依存关系对应的第一目标分类模型，句法关系对应的第一目标分类模型，上述示例只是举例说明，本公开对此不作限定。

S208、根据该第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练该预设分类模型得到第二目标分类模型。

在本步骤中，该目标分类集合包括多个预设类型的特征向量对应的第二分类结果，示例地，若通过步骤S207可以分别获取到每一数据样本对应的5种预设类型的特征向量，并将该5种预设类型的特征向量输入至对应预设类型的第一目标分类模型，从而可以得到对应预设类型的第二分类结果，这样，该目标分类集合可以包括该5种预设类型的第二分类结果，例如，某一数据样本对应的目标分类集合可以表示为{1，0，1，0，0}，其中，0表示该数据样本对应的借贷方为正常企业，1表示该数据样本对应的借贷方为非正常企业。

示例地，该数据样本选取的为2016年4月“网贷之家”中的数据，共获取到3109家借贷方的数据样本，经过上述分类，若文本特征为关键词，则数据样本经过第一目标分类模型的分类准确率为82.68％；若文本特征为主题类型，则数据样本经过第一目标分类模型的分类准确率为82.65％；若文本特征为段落，则数据样本经过第一目标分类模型的分类准确率为80.36％；若文本特征为依存关系，则数据样本经过第一目标分类模型的分类准确率为82.9％；若文本特征为句法结构，则数据样本经过第一目标分类模型的分类准确率为82.81％；通过元学习将第一分类结果进行再学习(即第一分类结果经过第二目标分类模型)得到的分类准确率可以达到90.258％，另外，由于部分借贷方的数据样本中没有内容，在另一种可能的实现方式中，可以将没有内容的数据样本剔除，从而只对包含内容的数据样本进行分类，其中，若文本特征为关键词，则数据样本经过第一目标分类模型的分类准确率为65.73％；若文本特征为主题类型，则数据样本经过第一目标分类模型的分类准确率为56.56％；若文本特征为段落，则数据样本经过第一目标分类模型的分类准确率为75.52％；若文本特征为依存关系，则数据样本经过第一目标分类模型的分类准确率为59.58％；若文本特征为句法结构，则数据样本经过第一目标分类模型的分类准确率为62.08％；通过元学习将第一分类结果进行再学习得到的分类准确率可以达到75.521％，由实验数据可知，无论该数据样本中是否包含内容，与单一预设类型的第一目标分类模型的分类结果(相当于本公开中的第二分类结果)相比，通过元学习将多个预设类型的第一目标分类模型的分类结果进行了再学习，使得该多个预设类型的第一目标分类模型的性能进行了融合，基于多个预设类型的第一目标分类模型之间具有互补性，从而数据样本的分类结果更加准确。

S209、获取待分类借贷方的目标数据，将该目标数据作为第一目标分类模型的输入得到待确定分类结果，并将待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

其中，可以分别获取该目标数据对应的多个预设类型的特征向量，并将该多个预设类型的特征向量分别输入至对应的预设类型的第一目标分类模型得到对应预设类型的待确定分类结果，将该多个预设类型的待确定分类结果生成目标数据对应的目标分类集合，将该目标数据对应的目标分类集合输入至第二目标分类模型得到目标分类结果。

图3是示例性实施例示出的一种借贷方分类的装置的框图，如图3所示，该装置包括：

第一获取模块301，用于获取多个借贷方的数据样本；

第二获取模块302，用于获取该每个数据样本对应多个预设类型在不同维度下的第一待确定向量，该不同维度是根据该每个数据样本中提取的文本特征得到的；

计算模块303，用于从多个数据样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据该第二待确定向量训练预设分类模型得到第一分类结果，并根据该第一分类结果确定特征向量和该特征向量对应的第一目标分类模型，且从该第一分类结果中获取该特征向量对应的第二分类结果；

处理模块304，用于根据该第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练该预设分类模型得到第二目标分类模型；该目标分类集合包括多个预设类型的特征向量对应的第二分类结果；

分类模块305，用于获取待分类借贷方的目标数据，将该目标数据作为第一目标分类模型的输入得到待确定分类结果，并将该待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

图4是示例性实施例示出的一种借贷方分类的装置的框图，如图4所示，还包括：

分词模块306，用于对该每个数据样本进行分词处理得到多个词语；

该第二获取模块302，用于根据该多个词语获取该每个数据样本对应多个预设类型在不同维度下的第一待确定向量。

可选地，该计算模块303，用于通过十折交叉验证方法将该第二待确定向量输入至该预设分类模型进行训练得到该第一分类结果。

图5是示例性实施例示出的一种借贷方分类的装置的框图，如图5所示，该计算模块303包括：

第一确定子模块3031，用于根据该第一分类结果确定该第二待确定向量的分类准确度；

第二确定子模块3032，用于根据该分类准确度从该第二待确定向量中确定特征向量。

可选地，该第一待确定向量包括关键词向量，该第二获取模块302，用于计算该多个词语对应的第一信息增益；根据该第一信息增益对该多个词语进行排序；从排序后的多个词语中获取关键词；根据该关键词确定该每个数据样本在不同维度下的关键词向量。

可选地，该第一待确定向量包括主题向量，该第二获取模块302，用于确定该多个词语中包含的主题类型；计算该不同主题类型对应的第二信息增益；根据该第二信息增益对该不同主题类型进行排序；从排序后的不同主题类型中获取目标主题类型；根据该目标主题类型确定该每个数据样本在不同维度下的主题向量。

可选地，该第一待确定向量包括段向量，该第二获取模块302，用于将该每个数据样本中的多个词语进行段落标记；将段落标记后的多个词语输入至预设神经网络模型得到该每个数据样本在不同维度下的段向量。

可选地，该第一待确定向量包括依存关系向量，该第二获取模块302，用于获取该多个词语之间的依存关系；计算该不同依存关系对应的第三信息增益；根据该第三信息增益对该不同依存关系进行排序；从排序后的不同依存关系中获取目标依存关系；根据该目标依存关系确定该每个数据样本在不同维度下的依存关系向量。

可选地，该第一待确定向量包括句法结构向量，该第二获取模块302，用于获取该多个词语之间的句法结构；计算该不同句法结构对应的第四信息增益；根据该第四信息增益对该不同句法结构进行排序；从排序后的不同句法结构中获取目标句法结构；根据该目标句法结构确定该每个数据样本在不同维度下的句法结构向量。

采用上述装置，与传统的数据收集和分析方法相比，可以通过第一目标分类模型和第二目标分类模型自动获取待分类借贷方的目标数据对应的目标分类结果，并且通过元学习构建的第二目标分类模型可以将多个预设类型的特征向量的待确定分类结果融合，从而可以提高了借贷方分类的准确率和效率。

示例地，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述借贷方分类的方法的步骤。

示例地，本公开还一种借贷方分类的装置，包括：上述所述的计算机可读存储介质；以及一个或者多个处理器，用于执行该计算机可读存储介质中的程序。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种借贷方分类的方法，其特征在于，所述方法包括：

获取多个借贷方的数据样本；

获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量，所述不同维度是根据所述每个数据样本中提取的文本特征得到的；

从多个数据样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据所述第二待确定向量训练预设分类模型得到第一分类结果，并根据所述第一分类结果确定特征向量和所述特征向量对应的第一目标分类模型，且从所述第一分类结果中获取所述特征向量对应的第二分类结果；

根据所述第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练所述预设分类模型得到第二目标分类模型；所述目标分类集合包括多个预设类型的特征向量对应的第二分类结果；

获取待分类借贷方的目标数据，将所述目标数据作为第一目标分类模型的输入得到待确定分类结果，并将所述待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

2.根据权利要求1所述的方法，其特征在于，在所述获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量之前，还包括：

对所述每个数据样本进行分词处理得到多个词语；

所述获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：

根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二待确定向量训练预设分类模型得到第一分类结果包括：

通过十折交叉验证方法将所述第二待确定向量输入至所述预设分类模型进行训练得到所述第一分类结果。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一分类结果确定特征向量包括：

根据所述第一分类结果确定所述第二待确定向量的分类准确度；

根据所述分类准确度从所述第二待确定向量中确定特征向量。

5.根据权利要求2所述的方法，其特征在于，所述第一待确定向量包括关键词向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：

计算所述多个词语对应的第一信息增益；

根据所述第一信息增益对所述多个词语进行排序；

从排序后的多个词语中获取关键词；

根据所述关键词确定所述每个数据样本在不同维度下的关键词向量。

6.根据权利要求2所述的方法，其特征在于，所述第一待确定向量包括主题向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：

确定所述多个词语中包含的主题类型；

计算所述不同主题类型对应的第二信息增益；

根据所述第二信息增益对所述不同主题类型进行排序；

从排序后的不同主题类型中获取目标主题类型；

根据所述目标主题类型确定所述每个数据样本在不同维度下的主题向量。

7.根据权利要求2所述的方法，其特征在于，所述第一待确定向量包括段向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：

将所述每个数据样本中的多个词语进行段落标记；

将段落标记后的多个词语输入至预设神经网络模型得到所述每个数据样本在不同维度下的段向量。

8.根据权利要求2所述的方法，其特征在于，所述第一待确定向量包括依存关系向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：

获取所述多个词语之间的依存关系；

计算所述不同依存关系对应的第三信息增益；

根据所述第三信息增益对所述不同依存关系进行排序；

从排序后的不同依存关系中获取目标依存关系；

根据所述目标依存关系确定所述每个数据样本在不同维度下的依存关系向量。

9.根据权利要求2所述的方法，其特征在于，所述第一待确定向量包括句法结构向量，所述根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量包括：

获取所述多个词语之间的句法结构；

计算所述不同句法结构对应的第四信息增益；

根据所述第四信息增益对所述不同句法结构进行排序；

从排序后的不同句法结构中获取目标句法结构；

根据所述目标句法结构确定所述每个数据样本在不同维度下的句法结构向量。

10.一种借贷方分类的装置，其特征在于，所述装置包括：

第一获取模块，用于获取多个借贷方的数据样本；

第二获取模块，用于获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量，所述不同维度是根据所述每个数据样本中提取的文本特征得到的；

计算模块，用于从多个数据样本对应的第一待确定向量中确定相同类型和相同维度的第二待确定向量，根据所述第二待确定向量训练预设分类模型得到第一分类结果，并根据所述第一分类结果确定特征向量和所述特征向量对应的第一目标分类模型，且从所述第一分类结果中获取所述特征向量对应的第二分类结果；

处理模块，用于根据所述第二分类结果得到每个数据样本的目标分类集合，并通过每个目标分类集合训练所述预设分类模型得到第二目标分类模型；所述目标分类集合包括多个预设类型的特征向量对应的第二分类结果；

分类模块，用于获取待分类借贷方的目标数据，将所述目标数据作为第一目标分类模型的输入得到待确定分类结果，并将所述待确定分类结果作为第二目标分类模型的输入得到目标分类结果。

11.根据权利要求10所述的装置，其特征在于，还包括：

分词模块，用于对所述每个数据样本进行分词处理得到多个词语；

所述第二获取模块，用于根据所述多个词语获取所述每个数据样本对应多个预设类型在不同维度下的第一待确定向量。

12.根据权利要求10所述的装置，其特征在于，所述计算模块，用于通过十折交叉验证方法将所述第二待确定向量输入至所述预设分类模型进行训练得到所述第一分类结果。

13.根据权利要求10所述的装置，其特征在于，所述计算模块包括：

第一确定子模块，用于根据所述第一分类结果确定所述第二待确定向量的分类准确度；

第二确定子模块，用于根据所述分类准确度从所述第二待确定向量中确定特征向量。

14.根据权利要求11所述的装置，其特征在于，所述第一待确定向量包括关键词向量，所述第二获取模块，用于计算所述多个词语对应的第一信息增益；根据所述第一信息增益对所述多个词语进行排序；从排序后的多个词语中获取关键词；根据所述关键词确定所述每个数据样本在不同维度下的关键词向量。

15.根据权利要求11所述的装置，其特征在于，所述第一待确定向量包括主题向量，所述第二获取模块，用于确定所述多个词语中包含的主题类型；计算所述不同主题类型对应的第二信息增益；根据所述第二信息增益对所述不同主题类型进行排序；从排序后的不同主题类型中获取目标主题类型；根据所述目标主题类型确定所述每个数据样本在不同维度下的主题向量。

16.根据权利要求11所述的装置，其特征在于，所述第一待确定向量包括段向量，所述第二获取模块，用于将所述每个数据样本中的多个词语进行段落标记；将段落标记后的多个词语输入至预设神经网络模型得到所述每个数据样本在不同维度下的段向量。

17.根据权利要求11所述的装置，其特征在于，所述第一待确定向量包括依存关系向量，所述第二获取模块，用于获取所述多个词语之间的依存关系；计算所述不同依存关系对应的第三信息增益；根据所述第三信息增益对所述不同依存关系进行排序；从排序后的不同依存关系中获取目标依存关系；根据所述目标依存关系确定所述每个数据样本在不同维度下的依存关系向量。

18.根据权利要求11所述的方法，其特征在于，所述第一待确定向量包括句法结构向量，所述第二获取模块，用于获取所述多个词语之间的句法结构；计算所述不同句法结构对应的第四信息增益；根据所述第四信息增益对所述不同句法结构进行排序；从排序后的不同句法结构中获取目标句法结构；根据所述目标句法结构确定所述每个数据样本在不同维度下的句法结构向量。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。

20.一种借贷方分类的装置，其特征在于，包括：

权利要求19中所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。