CN113159921A

CN113159921A - 一种逾期预测方法、装置、电子设备及存储介质

Info

Publication number: CN113159921A
Application number: CN202110443917.9A
Authority: CN
Inventors: 文芷晴; 刘慈文
Original assignee: Shanghai Xiaotu Network Technology Co ltd
Current assignee: Shanghai Xiaotu Network Technology Co ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23

Abstract

本申请提供了一种逾期预测方法、装置、电子设备及存储介质，属于大数据技术领域。本申请通过获取对象预设时间段内的第一信息数据；基于预设分词数据库对所述第一信息数据进行分词处理，得到与所述第一信息数据对应的第一分词集合；将所述第一分词集合划分为多组第一子集合和第二子集合，将每组所述第一子集合和所述第二子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一子集合对应的第一词向量；基于所述第一词向量和预设主题模型，构建与所述第一信息数据对应的主题向量；将所述主题向量输入至预设逾期预测模型，以使所述预设逾期预测模型输出与所述对象对应的预测结果。从而提高逾期预测的效率。

Description

一种逾期预测方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及一种逾期预测方法、装置、电子设备及存储介质。

背景技术

贷款是银行或其他金融机构按一定利率和必须归还等条件出借货币资金的一种信用活动形式。随着用户消费习惯的逐渐改变，贷款量不断增长，贷款的逾期风险也在不断增加。因此，提供贷款的一方需要对贷款逾期风险进行管控。

目前，当用户提出消费信贷申请时，通常由工作人员对该用户的一系列个人信息进行审核，然后分析该用户的信用情况和还款能力，从而完成消费信贷申请前的逾期风险预测。

然而，通过工作人员对贷款用户的信息数据进行审核，得到逾期预测的结果，审核过程效率低下。

发明内容

本申请实施例的目的在于提供一种逾期预测方法、装置、电子设备及存储介质，以解决通过工作人员对贷款用户进行逾期预测，效率低下的问题。具体技术方案如下：

第一方面，提供了一种逾期预测方法，所述方法包括：

获取对象预设时间段内的第一信息数据；

基于预设分词数据库对所述第一信息数据进行分词处理，得到与所述第一信息数据对应的第一分词集合；

将所述第一分词集合划分为多组第一子集合和第二子集合，将每组所述第一子集合和所述第二子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一子集合对应的第一词向量，得到多个第一词向量，所述第一子集合包括所述第一分词集合中的任意一个第一分词，所述第二子集合包括所述第一分词集合中除所述第一子集合外的全部第一分词；

基于所述第一词向量和预设主题模型，构建与所述第一信息数据对应的主题向量；

将所述主题向量输入至预设逾期预测模型，以使所述预设逾期预测模型输出与所述对象对应的预测结果。

在一个可能的实施方式中，所述分词数据库通过以下方式构建：

获取第一文本数据和多个历史用户的第二信息数据，所述第一文本数据为所述逾期预测模型对应的行业文本数据；

基于所述第一文本数据和所述第二信息数据中的标点符号，对所述第一文本数据和所述第二信息数据进行分句处理，得到多个分句；

针对每个分句，基于预设分词规则对所述分句进行分词处理，得到多个第二分词；

基于所述多个第二分词构建所述分词数据库。

在一个可能的实施方式中，所述基于预设分词规则对所述分句进行分词处理，得到多个第二分词，包括：

利用分词器对每个分句进行分词，得到第二分词集合；

针对每个分句，计算所述分句中每个第一字符块与其相邻的第一文字的互信息，所述字符块包括至少一个文字；

若所述互信息大于或等于预设阈值，则将所述第一字符块和所述第一文字组成第二字符块；

若所述互信息小于预设阈值，则确定所述第一字符块为候选第二分词。

在一个可能的实施方式中，所述基于所述多个第二分词构建所述分词数据库，包括：

计算每个候选第二分词的左邻接熵值和右邻接熵值；

将左邻接熵值大于或等于预设左邻接阈值且右邻接熵值大于或等于预设右邻接阈值的候选第二分词，确定为第一目标分词；

基于所述第二分词集合和所述第一目标分词，构建分词数据库。

在一个可能的实施方式中，所述第二分词集合中包括：多个第二分词，所述基于所述第二分词集合和所述第一目标分词，构建分词数据库，包括：

在所述第一目标分词中，将字符长度大于或等于二的第一目标分词，确定为第二目标分词；

在所述第二目标分词中，将与所述第二分词不同的第二目标分词，确定为第三目标分词；

基于所述第二分词集合和所述第三目标分词，构建分词数据库。

在一个可能的实施方式中，所述逾期预测模型通过以下方式进行训练：

获取多个历史用户的样本信息数据；

针对每个样本信息数据，基于预设分词数据库对所述样本信息数据进行分词处理，得到与所述样本信息数据对应的样本分词集合；

将所述样本分词集合划分为多组第一样本子集合和第二样本子集合，将每组所述第一样本子集合和所述第二样本子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一样本子集合对应的样本词向量，得到多个样本词向量，所述第一样本子集合包括所述样本分词集合中的任意一个样本分词，所述第二子集合包括所述样本分词集合中除所述第一子集合外的全部样本分词；

针对每个样本信息数据，基于所述样本信息数据对应的多个样本词向量和主题模型，构建与所述样本信息数据对应的样本主题向量；

利用所述样本主题向量训练逾期预测模型，直至模型收敛。

在一个可能的实施方式中，所述基于所述样本信息数据对应的多个样本词向量和主题模型，构建与所述样本信息数据对应的样本主题向量之前，还包括：

利用预设聚类规则对多个样本词向量聚类，得到至少一个类别ID；

基于所述类别ID设置所述主题模型初始化词向量的主题。

第二方面，提供了一种逾期预测装置，所述装置包括：

获取模块，用于获取对象预设时间段内的第一信息数据；

分词模块，用于基于预设分词数据库对所述第一信息数据进行分词处理，得到与所述第一信息数据对应的第一分词集合；

第一输入模块，用于将所述第一分词集合划分为多组第一子集合和第二子集合，将每组所述第一子集合和所述第二子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一子集合对应的第一词向量，得到多个第一词向量，所述第一子集合包括所述第一分词集合中的任意一个第一分词，所述第二子集合包括所述第一分词集合中除所述第一子集合外的全部第一分词；

构建模块，用于基于所述第一词向量和预设主题模型，构建与所述第一信息数据对应的主题向量；

第二输入模块，用于将所述主题向量输入至预设逾期预测模型，以使所述预设逾期预测模型输出与所述对象对应的预测结果。

在一个可能的实施方式中，所述装置还包括：

数据获取模块，用于获取第一文本数据和多个历史用户的第二信息数据，所述第一文本数据为所述逾期预测模型对应的行业文本数据；

分句处理模块，用于基于所述第一文本数据和所述第二信息数据中的标点符号，对所述第一文本数据和所述第二信息数据进行分句处理，得到多个分句；

分词处理模块，用于针对每个分句，基于预设分词规则对所述分句进行分词处理，得到多个第二分词；

分词数据库构建模块，用于基于所述多个第二分词构建所述分词数据库。

在一个可能的实施方式中，所述分词处理模块，包括：

分词单元，用于利用分词器对每个分句进行分词，得到第二分词集合；

计算单元，用于针对每个分句，计算所述分句中每个第一字符块与其相邻的第一文字的互信息，所述字符块包括至少一个文字；

组合单元，用于若所述互信息大于或等于预设阈值，则将所述第一字符块和所述第一文字组成第二字符块；

确定单元，用于若所述互信息小于预设阈值，则确定所述第一字符块为候选第二分词。

在一个可能的实施方式中，所述分词数据库构建模块，包括：

邻接熵值计算单元，用于计算每个候选第二分词的左邻接熵值和右邻接熵值；

第一目标分词确定单元，用于将左邻接熵值大于或等于预设左邻接阈值且右邻接熵值大于或等于预设右邻接阈值的候选第二分词，确定为第一目标分词；

分词数据库构建单元，用于基于所述第二分词集合和所述第一目标分词，构建分词数据库。

在一个可能的实施方式中，所述第二分词集合中包括：多个第二分词，所述分词数据库构建单元，包括：

第一确定子单元，用于在所述第一目标分词中，将字符长度大于或等于二的第一目标分词，确定为第二目标分词；

第二确定子单元，用于在所述第二目标分词中，将与所述第二分词不同的第二目标分词，确定为第三目标分词；

分词数据库构建子单元，用于基于所述第二分词集合和所述第三目标分词，构建分词数据库。

在一个可能的实施方式中，所述装置还包括：

样本信息数据获取模块，用于获取多个历史用户的样本信息数据；

样本信息数据分词模块，用于针对每个样本信息数据，基于预设分词数据库对所述样本信息数据进行分词处理，得到与所述样本信息数据对应的样本分词集合；

样本词向量得到模块，用于将所述样本分词集合划分为多组第一样本子集合和第二样本子集合，将每组所述第一样本子集合和所述第二样本子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一样本子集合对应的样本词向量，得到多个样本词向量，所述第一样本子集合包括所述样本分词集合中的任意一个样本分词，所述第二子集合包括所述样本分词集合中除所述第一子集合外的全部样本分词；

样本主题向量构建模块，用于针对每个样本信息数据，基于所述样本信息数据对应的多个样本词向量和主题模型，构建与所述样本信息数据对应的样本主题向量；

模型训练模块，用于利用所述样本主题向量训练逾期预测模型，直至模型收敛。

在一个可能的实施方式中，所述装置还包括：

聚类模块，用于利用预设聚类规则对多个样本词向量聚类，得到至少一个类别ID；

设置模块，用于基于所述类别ID设置所述主题模型初始化词向量的主题。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的逾期预测方法。

本申请实施例有益效果：

本申请实施例提供了一种逾期预测方法、装置、电子设备及存储介质，本申请通过预设分词数据库对对象预设时间段内的第一信息数据进行分词处理，得到与所述第一信息数据对应的第一分词集合；然后，基于第一分词集合生成多个第一词向量；再基于所述第一词向量和预设主题模型，构建与所述第一信息数据对应的主题向量；最后，将所述主题向量输入至预设逾期预测模型，以使所述预设逾期预测模型输出与所述对象对应的预测结果。通过本申请，获取消费信贷用户预设时间段内的信息数据后，即可根据该信息数据自动生成与该用户对应的逾期预测结果，无需通过工作人员人为分析审核，提高了预测效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种逾期预测方法的流程图；

图2为本申请另一实施例提供的一种逾期预测方法的流程图；

图3为本申请另一实施例提供的一种逾期预测方法的流程图；

图4为本申请另一实施例提供的一种逾期预测方法的流程图；

图5为本申请实施例提供的一种逾期预测装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图；

图7为本申请实施例提供的一种LDA模型处理流程的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于目前，当用户提出信贷申请时，通常由工作人员对该用户的一系列个人信息进行审核，然后分析该用户的信用情况和还款能力，审核流程效率低下。为此，本申请实施例提供了一种逾期预测方法，可以应用于消费信贷系统。

下面将结合具体实施方式，对本申请实施例提供的一种逾期预测方法进行详细的说明，如图1所示，具体步骤如下：

S101，获取对象预设时间段内的第一信息数据。

本申请实施例提供的逾期预测方法可以应用于提供消费信贷服务的一方的消费信贷系统，例如银行或提供消费信贷服务的金融公司等。对象可以是消费信贷用户，第一信息数据可以是消费信贷用户授权的文本数据，该文本数据可以是银行或提供消费信贷服务的金融公司发送给该消费信贷用户的通知消息，预设时间段可以是用户本次提出消费信贷申请之前的一段时间，例如三个月或六个月等。用户在各大平台进行消费信贷时都会收到相应平台的消费信贷风险提醒或消费信贷催收等相关通知消息，这些通知消息对于评估个人信用，预测用户是否有逾期风险具有十分重要的作用。因此，可以通过获取对象预设时间段内的第一信息数据，评估该用户是否会逾期。

S102，基于预设分词数据库对所述第一信息数据进行分词处理，得到与所述第一信息数据对应的第一分词集合。

在本申请实施例中，系统中预先设置了分词数据库，利用预设分词数据库对第一信息数据进行分词处理，可以得到与第一信息数据对应的第一分词集合。

S103，将所述第一分词集合划分为多组第一子集合和第二子集合，将每组所述第一子集合和所述第二子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一子集合对应的第一词向量，得到多个第一词向量，所述第一子集合包括所述第一分词集合中的任意一个第一分词，所述第二子集合包括所述第一分词集合中除所述第一子集合外的全部第一分词。

在本申请实施例中，第一子集合包括第一分词集合中的任意一个第一分词，第二子集合包括第一分词集合中除第一子集合外的全部第一分词。每一组第一子集合和第二子集合中，第二子集合表示第一子集合的上下文信息。预设词向量模型可以是词向量模型(word2vec)框架下包含的连续词袋模型(continuous bag of words，简称CBOW)，将每组第一子集合和第二子集合输入至CBOW模型，可以得到与每个第一子集合对应的第一词向量，得到多个第一词向量。CBOW模型的学习目标函数定义为最大化log似然函数，具体如下：

其中，w_i表示第一子集合，w_context表示第二子集合，M表示第一子集合的个数。

S104，基于所述第一词向量和预设主题模型，构建与所述第一信息数据对应的主题向量。

在本申请实施例中，预设主题模型可以是隐含狄利克雷分布Latent DirichletAllocation,LDA)模型，基于第一信息数据对应的第一词向量，利用LDA模型对第一信息数据进行主题建模，得到第一信息数据对应的主题向量。

S105，将所述主题向量输入至预设逾期预测模型，以使所述预设逾期预测模型输出与所述对象对应的预测结果。

在本申请实施例中，预设逾期预测模型为预先训练好的机器学习模型，可以包括但不限于逻辑回归模型、支持向量机模型或随机森林模型。得到第一信息数据对应的主题向量后，将主题向量输入至预设逾期预测模型，可以得到该用户对应的预测结果。

本申请实施例中，通过预设分词数据库对用户预设时间段内的第一信息数据进行分词处理，得到与所述第一信息数据对应的第一分词集合；然后，基于第一分词集合生成多个第一词向量；再基于所述第一词向量和预设主题模型，构建与所述第一信息数据对应的主题向量；最后，将所述主题向量输入至预设逾期预测模型，以使所述预设逾期预测模型输出与所述对象对应的预测结果。通过本申请，获取用户预设时间段内的信息数据后，即可根据该信息数据自动生成与该用户对应的逾期预测结果，无需人工分析审核，提高了预测效率。

由于，目前已有的分词系统大多是基于通用领域，对于一些行业特有的词汇无法准确分词，从而导致下游任务评估效果差。为此，在本申请的又一实施例中，如图2所示，所述方法还可以包括以下步骤：

S201，获取第一文本数据和多个历史用户的第二信息数据，所述第一文本数据为所述逾期预测模型对应的行业文本数据。

在本申请实施例中，第一文本数据为逾期预测模型对应的行业文本数据，例如，本申请实施例中逾期预测模型对应的行业是金融业，因此第一文本数据为金融行业的文本数据。可以在互联网上的金融、财经相关网站上获取行业文本数据，例如财经新闻或财经快讯等。第二信息数据指已经完成消费信贷申请的历史用户授权的文本数据。

S202，基于所述第一文本数据和所述第二信息数据中的标点符号，对所述第一文本数据和所述第二信息数据进行分句处理，得到多个分句。

在本申请实施例中，系统可以基于第一文本数据和第二信息数据中的标点符号，对第一文本数据和第二信息数据进行分句处理，得到多个分句，多个分句构成一个语料库，语料库中每个分句为一个语料。

S203，针对每个分句，基于预设分词规则对所述分句进行分词处理，得到多个第二分词。

在本申请实施例中，得到语料库之后，针对每个分句，基于预设分词规则对分句进行分词处理，得到多个第二分词。

S204，基于所述多个第二分词构建所述分词数据库。

在本申请实施例中，系统可以基于多个第二分词构建分词数据库。

本申请实施例中，通过逾期预测模型对应的行业文本数据和历史用户的信息数据构建分词数据库，可以使得到的分词数据库针对其所对应的行业领域的文本时，分词更加准确，进而提升下游任务的性能。

在本申请的又一实施例中，所述S203，具体可以包括以下步骤：

步骤一，利用分词器对每个分句进行分词，得到第二分词集合。

在本申请实施例中，分词器一般为中文分词器，例如结巴(jieba)分词器，系统可以利用分词器对每个分句进行分词得到第二分词集合。

步骤二，针对每个分句，计算所述分句中每个第一字符块与其相邻的第一文字的互信息，所述字符块包括至少一个文字。

在本申请实施例中，词语作为一个可以独立存在的语言单元，词语的各个字存在一定的相关性，字与字或词与词之间的相关性越大，说明其成词的概率也就越大，互信息可以计算两个物体相互依赖的程度，互信息越大，说明两个物体的依赖程度也就越大，即可以通过计算互信息确定成词概率。

第一字符块至少包括一个文字，也即第一字符块可以是一个文字也可以是一个词，第一文字一般为第一字符块的右邻接字。针对每个分句，通过计算第一字符块与其相邻的第一文字的互信息，即可知道第一字符块与其相邻的第一文字的关联程度。互信息计算公式如下：

其中，MI(x,y)表示x和y的互信息，p(x)表示第一字符块x独自出现在语料中的概率，p(y)表示第一文字y独自出现在语料中的概率，p(x,y)表示x和y共同在语料中出现的概率。

步骤三，若所述互信息大于或等于预设阈值，则将所述第一字符块和所述第一文字组成第二字符块。

在本申请实施例中，若第一字符块与其右邻接字的互信息大于或等于预设阈值，表示第一字符块与其右邻接字成词概率高，则将第一字符块和其右邻接字组成第二字符块，继续计算第二字符块与其右邻接字的互信息，直至某一字符块与其右邻接字的互信息小于预设阈值时，停止计算。

步骤四，若所述互信息小于预设阈值，则确定所述第一字符块为候选第二分词。

在本申请实施例中，若第一字符块与其右邻接字的互信息小于预设阈值，表示第一字符块与其相邻的第一文字成词概率低，因此可以确定第一字符块为候选第二分词。

本申请实施例中，可以通过分词器对每个分句进行分词得到第二分词集合，并且可以通过计算每个分句中每个第一字符块与其相邻的第一文字的互信息，挖掘新词，也就是候选第二分词，可以提高分词数据库分词的准确度。

在本申请的又一实施例中，所述S204，具体可以包括以下步骤：

S301，计算每个候选第二分词的左邻接熵值和右邻接熵值。

在本申请实施例中，邻接熵可以权衡候选新词的左右邻接字的可变性，其可变性越大，证明邻接字包含的信息越多，其成词的概率就越高。可以通过左邻接熵公式和右邻接熵公式计算每个候选第二分词的左邻接熵值和右邻接熵值。

左邻接熵公式具体如下：

右邻接熵公式具体如下：

其中，w_l是候选第二分词w的左邻接字集合，w_r是候选第二分词w的右邻接字集合，P(w_l|w)表示w_l是候选第二分词w的左邻接字的条件概率，P(w_r|w)表示w_r是候选第二分词w的右邻接字的条件概率，其中P(w_l|w)和P(w_r|w)的计算公式为：

其中，N(w_l,w)表示w_l和w共同出现的次数，N(w)表示w出现的次数；N(w_r,w)表示w_r和w共同出现的次数。

S302，将左邻接熵值大于或等于预设左邻接阈值且右邻接熵值大于或等于预设右邻接阈值的候选第二分词，确定为第一目标分词。

在本申请实施例中，将左邻接熵值小于预设左邻接阈值或右邻接熵值小于预设右邻接阈值的候选第二分词删除，将左邻接熵值大于或等于预设左邻接阈值且右邻接熵值大于或等于预设右邻接阈值的候选第二分词，确定为第一目标分词。

S303，基于所述第二分词集合和所述第一目标分词，构建分词数据库。

在本申请实施例中，确定第一目标分词后，基于第二分词集合和第一目标分词，构建分词数据库。

本申请实施例中，通过将左邻接熵值大于或等于预设左邻接阈值且右邻接熵值大于或等于预设右邻接阈值的候选第二分词，确定为第一目标分词，可以删除成词概率低的候选第二分词，使构建的分词数据库中的分词更加准确，进而提高分词数据库分词的准确度。

在本申请的又一实施例中，所述S303，具体可以包括以下步骤：

步骤一，在所述第一目标分词中，将字符长度大于或等于二的第一目标分词，确定为第二目标分词；

在本申请实施例中，确定第一目标分词后，删除字符长度小于二的第一目标分词，将字符长度大于或等于二的第一目标分词，确定为第二目标分词。

步骤二，在所述第二目标分词中，将与所述第二分词不同的第二目标分词，确定为第三目标分词；

在本申请实施例中，第二分词集合中包括多个第二分词，删除与第二分词相同的第二目标分词，将与第二分词不同的第二目标分词，确定为第三目标分词。

步骤三，基于所述第二分词集合和所述第三目标分词，构建分词数据库。

在本申请实施例中，基于第二分词集合和第三目标分词，构建分词数据库，分词数据库中包括第二分词集合中的所有第二分词和所有第三目标分词。

本申请实施例中，通过删除字符长度小于二的第一目标分词，将字符长度大于或等于二的第一目标分词，确定为第二目标分词，使分词数据库中的分词更加准确；通过删除与第二分词相同的第二目标分词，将与第二分词不同的第二目标分词，确定为第三目标分词；减少分词数据库中重复词，节省存储和计算资源。

在本申请的又一实施例中，所述方法还可以包括以下步骤：

S401，获取多个历史用户的样本信息数据。

在本申请实施例中，样本信息数据是指：针对每个历史用户，将该用户的预设时间段内的文本数据合并成一个文本，并根据该历史用户的历史消费信贷数据对该文本进行标注，标注的标签包括逾期和非逾期。系统可以获取多个历史用户的样本信息数据，优选的，逾期的样本信息数据和非逾期的样本信息数据的比例为1：1。

S402，针对每个样本信息数据，基于预设分词数据库对所述样本信息数据进行分词处理，得到与所述样本信息数据对应的样本分词集合。

在本申请实施例中，预设分词数据库是预先根据：逾期预测模型对应的行业文本数据和多个历史用户的第二信息数据构建而成的，针对每个样本信息数据，基于预设分词数据库对样本信息数据进行分词处理，得到与样本信息数据对应的样本分词集合。

S403，将所述样本分词集合划分为多组第一样本子集合和第二样本子集合，将每组所述第一样本子集合和所述第二样本子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一样本子集合对应的样本词向量，得到多个样本词向量，所述第一样本子集合包括所述样本分词集合中的任意一个样本分词，所述第二子集合包括所述样本分词集合中除所述第一子集合外的全部样本分词。

在本申请实施例中，第一子样本集合包括样本分词集合中的任意一个样本分词，第二样本子集合包括样本分词集合中除第一样本子集合外的全部第一分词。每一组第一样本子集合和第二样本子集合中，第二子样本集合表示第一样本子集合的上下文信息。预设词向量模型可以是Word2Vec框架下的CBOW模型，将每组第一样本子集合和第二样本子集合输入至CBOW模型，可以得到与每个第一子集合对应的第一词向量，得到多个第一词向量。

S404，针对每个样本信息数据，基于所述样本信息数据对应的多个样本词向量和主题模型，构建与所述样本信息数据对应的样本主题向量。

在本申请实施例中，针对每个样本信息数据，基于样本信息数据对应的多个样本词向量和主题模型，构建与样本信息数据对应的样本主题向量。

预设主题模型可以是隐含狄利克雷分布Latent Dirichlet Allocation,LDA)模型，基于样本信息数据对应的样本词向量，采用深度神经网络和主题模型生成与样本信息数据对应的样本主题向量。

S405，利用所述样本主题向量训练逾期预测模型，直至模型收敛。

在本申请实施例中，逾期预测模型为机器学习模型，可以包括但不限于逻辑回归模型、支持向量机模型或随机森林模型。得到样本主题向量后，将样本主题向量划分训练集和测试集，其中，划分过程中保证每一条数据划分到训练集或测试集的概率是一致的，且保证训练集和测试集中都有逾期及非逾期的数据。利用训练集训练逾期预测模型，利用测试集对训练的逾期预测模型进行评估，最终得到可以使用的逾期预测模型。

本申请实施例中，通过基于样本分词的上下文信息生成样本词向量，因此基于该样本词向量训练出的逾期预测模型，在逾期预测过程中可以参考文本中词汇的语序关系，从而提高逾期预测模型预测的精确度。

在本申请的又一实施例中，所述方法还可以包括以下步骤：

步骤一，利用预设聚类规则对多个样本词向量聚类，得到至少一个类别ID。

在本申请实施例中，预设聚类规则可以是k均值聚类算法(k-means clusteringalgorithm)。如图7所示，构建与样本信息数据对应的样本主题向量之前，可以先利用K-Means聚类算法对样本词向量进行聚类，得到至少一个类别ID，其中，K-Means的参数m设置为主题模型的主题个数。

其中，K为所有文本隐含的主题个数；M为样本总数(一个用户的所有文本数据为一个样本)；N为第m个样本的词总数；β为每个主题词下的多项式分布的狄利克雷函数(Dirichlet)先验参数；α为每个样本下主题的多项式分布的Dirichlet先验参数；Z为第m个样本的第n个词的主题；Φ为主题－词分布矩阵，β为Φ的超参数；θ为文本-主题分布矩阵，α为θ的超参数；w表示词，Z为w所属的主题。

步骤二，基于所述类别ID设置所述主题模型初始化词向量的主题。

在本申请实施例中，主题模型为LDA模型，LDA模型在初始化词向量的主题阶段，将主题设置为聚类得到的类别ID。相比较LDA模型随机初始化主题，根据聚类得到的类别ID设置主题的LDA模型，其构建的样本主题向量更加精确，进而提高逾期预测模型预测的精确度。

基于相同的技术构思，本申请实施例还提供了一种逾期预测装置，如图5所示，该装置包括：

获取模块501，用于获取对象预设时间段内的第一信息数据；

分词模块502，用于基于预设分词数据库对所述第一信息数据进行分词处理，得到与所述第一信息数据对应的第一分词集合；

第一输入模块503，用于将所述第一分词集合划分为多组第一子集合和第二子集合，将每组所述第一子集合和所述第二子集合输入至预设词向量模型，以使所述预设词向量模型输出与每个所述第一子集合对应的第一词向量，得到多个第一词向量，所述第一子集合包括所述第一分词集合中的任意一个第一分词，所述第二子集合包括所述第一分词集合中除所述第一子集合外的全部第一分词；

构建模块504，用于基于所述第一词向量和预设主题模型，构建与所述第一信息数据对应的主题向量；

第二输入模块505，用于将所述主题向量输入至预设逾期预测模型，以使所述预设逾期预测模型输出与所述对象对应的预测结果。

在一个可能的实施方式中，所述装置还包括：

在一个可能的实施方式中，所述分词处理模块，包括：

在一个可能的实施方式中，所述装置还包括：

基于相同的技术构思，本申请实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

获取对象预设时间段内的第一信息数据；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一逾期预测方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一逾期预测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种逾期预测方法，其特征在于，所述方法包括：

获取对象预设时间段内的第一信息数据；

2.根据权利要求1所述的方法，其特征在于，所述分词数据库通过以下方式构建：

基于所述多个第二分词构建所述分词数据库。

3.根据权利要求2所述的方法，其特征在于，所述基于预设分词规则对所述分句进行分词处理，得到多个第二分词，包括：

利用分词器对每个分句进行分词，得到第二分词集合；

4.根据权利要求3所述的方法，其特征在于，所述基于所述多个第二分词构建所述分词数据库，包括：

计算每个候选第二分词的左邻接熵值和右邻接熵值；

5.根据权利要求4所述的方法，其特征在于，所述第二分词集合中包括：多个第二分词，所述基于所述第二分词集合和所述第一目标分词，构建分词数据库，包括：

6.根据权利要求1所述的方法，其特征在于，所述逾期预测模型通过以下方式进行训练：

获取多个历史用户的样本信息数据；

利用所述样本主题向量训练逾期预测模型，直至模型收敛。

7.根据权利要求6所述的方法，其特征在于，所述基于所述样本信息数据对应的多个样本词向量和主题模型，构建与所述样本信息数据对应的样本主题向量之前，还包括：

基于所述类别ID设置所述主题模型初始化词向量的主题。

8.一种逾期预测装置，其特征在于，所述装置包括：

获取模块，用于获取对象预设时间段内的第一信息数据；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。