CN110443236A

CN110443236A - 贷后文本要点信息提取方法及装置

Info

Publication number: CN110443236A
Application number: CN201910721453.6A
Authority: CN
Inventors: 谢超; 郭锐鹏; 唐杰聪; 杨卜菘
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-12
Anticipated expiration: 2039-08-06
Also published as: CN110443236B

Abstract

本发明公开了一种贷后文本要点信息提取方法及装置，该方法包括：获取贷后文本的文本数据；确定所述贷后文本的细化业务类型；将所述文本数据发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中的要点信息，其中，所述要点提取模型为根据预设的机器学习算法和训练样本训练得出，所述要点提取模型的训练样本为在与所述细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出所述细化业务类型对应的要点信息形成的训练样本。本发明解决了现有技术人工对贷后文本中的要点进行识别出现的效率低、准确性差的技术问题。

Description

贷后文本要点信息提取方法及装置

技术领域

本发明涉及银行信贷领域，具体而言，涉及一种贷后文本要点信息提取方法及装置。

背景技术

贷后管理是确保银行贷款安全和安静防控的重要手段。目前，银行业务人员需根据贷后管理要求书(贷后文本)上的要点对可能影响贷款个人或企业还款的因素进行追踪、监测、反馈和分析，以及时发现风险预警信号。传统的贷后管理依靠人工阅读贷后管理要求书(贷后文本)，总结要点并对各个要点做出监测追踪。现有的人工识别管理要求书(贷后文本)中的要点的方法耗费大量的人力成本且容易发生错漏。

为了解决上述技术问题中的至少一个，本发明提供了一种贷后文本要点信息提取方法及装置。

发明内容

本发明的主要目的在于提供一种贷后文本要点信息提取方法及装置，以解决现有技术人工对贷后文本中的要点进行识别出现的效率低、准确性差的技术问题。

为了实现上述目的，根据本发明的一个方面，提供了一种贷后文本要点信息提取方法，该方法包括：

获取贷后文本的文本数据；

确定所述贷后文本的细化业务类型；

将所述文本数据发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中的要点信息，其中，所述要点提取模型为根据预设的机器学习算法和训练样本训练得出，所述要点提取模型的训练样本为在与所述细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出所述细化业务类型对应的要点信息形成的训练样本。

可选的，所述确定所述贷后文本的细化业务类型，包括：

将所述文本数据发送到训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在用于模型训练的贷后文本的文本数据上标注出细化业务类型形成的训练样本。

可选的，所述确定所述贷后文本的细化业务类型，包括：

获取所述贷后文本的业务分类，其中，每个业务分类对应多个细化业务类型；

将所述文本数据发送到与所述业务分类对应的训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在与所述业务分类对应的用于模型训练的贷后文本的文本数据上标注出与所述业务分类对应的细化业务类型形成的训练样本。

可选的，该方法还包括：

将提取出的要点信息添加到与所述细化业务类型对应的调度队列；

周期性的从所述调度队列中提取要点信息，并将所述要点信息发送到与所述细化业务类型对应的处理人员服务器或客户端。

可选的，该方法还包括：

获取采集的贷后文本的文本影像，并通过OCR识别方法提取出所述文本影像中的文本信息；

对所述文本信息进行数据处理及格式转换，得到所述贷后文本的文本数据，其中，所述数据处理包括：分词、停用词、N-gram、词性标注，word2vec中的至少一种；所述格式转换包括：转换为词列表或向量列表。

可选的，所述将所述文本数据发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中的要点信息，包括：

将所述文本数据以及需要的要点类型发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中与所述需要的要点类型对应的要点信息，其中，所述要点提取模型的训练样本中还标注出要点信息的要点类型。

可选的，该方法还包括：

获取各细化业务类型对应的用于模型训练的贷后文本的文本数据；

获取各细化业务类型对应的要点信息集合；

根据所述要点信息集合在各细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出要点信息，生成各细化业务类型对应的训练样本；

根据预设的机器学习算法以及各细化业务类型对应的训练样本训练出各细化业务类型对应的要点提取模型。

可选的，该方法还包括：

获取用于模型训练的贷后文本的文本数据；

在所述文本数据上标注出文本数据对应的贷后文本的细化业务类型，生成训练样本；

根据预设的文本分类算法和所述训练样本训练出所述文本分类模型。

可选的，该方法还包括：

获取各业务分类对应的用于模型训练的贷后文本的文本数据；

获取各业务分类对应的细化业务类型集合；

根据所述细化业务类型集合在各业务分类对应的用于模型训练的贷后文本的文本数据上标注出细化业务类型，生成各业务分类对应的训练样本；

根据预设的文本分类算法和各业务分类对应的训练样本训练出各业务分类对应的文本分类模型。

为了实现上述目的，根据本发明的另一方面，提供了一种贷后文本要点信息提取装置，该装置包括：

文本数据获取单元，用于获取贷后文本的文本数据；

细化业务类型确定单元，用于确定所述贷后文本的细化业务类型；

要点提取单元，用于将所述文本数据发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中的要点信息，其中，所述要点提取模型为根据预设的机器学习算法和训练样本训练得出，所述要点提取模型的训练样本为在与所述细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出所述细化业务类型对应的要点信息形成的训练样本。

可选的，所述细化业务类型确定单元，包括：

第一细化业务类型识别模块，用于将所述文本数据发送到训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在用于模型训练的贷后文本的文本数据上标注出细化业务类型形成的训练样本。

可选的，所述细化业务类型确定单元，包括：

业务分类模块，用于获取所述贷后文本的业务分类，其中，每个业务分类对应多个细化业务类型；

第二细化业务类型识别模块，用于将所述文本数据发送到与所述业务分类对应的训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在与所述业务分类对应的用于模型训练的贷后文本的文本数据上标注出与所述业务分类对应的细化业务类型形成的训练样本。

可选的，该装置还包括：

任务添加单元，用于将提取出的要点信息添加到与所述细化业务类型对应的调度队列；

任务分发单元，用于周期性的从所述调度队列中提取要点信息，并将所述要点信息发送到与所述细化业务类型对应的处理人员服务器或客户端。

可选的，该装置还包括：

影像提取单元，用于获取采集的贷后文本的文本影像，并通过OCR识别方法提取出所述文本影像中的文本信息；

数据处理及格式转换单元，用于对所述文本信息进行数据处理及格式转换，得到所述贷后文本的文本数据，其中，所述数据处理包括：分词、停用词、N-gram、词性标注，word2vec中的至少一种；所述格式转换包括：转换为词列表或向量列表。

可选的，所述要点提取单元，还用于将所述文本数据以及需要的要点类型发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中与所述需要的要点类型对应的要点信息，其中，所述要点提取模型的训练样本中还标注出要点信息的要点类型。

可选的，该装置还包括：

第一训练文本数据获取单元，用于获取各细化业务类型对应的用于模型训练的贷后文本的文本数据；

要点信息集合获取单元，用于获取各细化业务类型对应的要点信息集合；

第一训练样本生成单元，用于根据所述要点信息集合在各细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出要点信息，生成各细化业务类型对应的训练样本；

第一模型训练单元，用于根据预设的机器学习算法以及各细化业务类型对应的训练样本训练出各细化业务类型对应的要点提取模型。

可选的，该装置还包括：

第二训练文本数据获取单元，用于获取用于模型训练的贷后文本的文本数据；

第二训练样本生成单元，用于在所述文本数据上标注出文本数据对应的贷后文本的细化业务类型，生成训练样本；

第二模型训练单元，用于根据预设的文本分类算法和所述训练样本训练出所述文本分类模型。

可选的，该装置还包括：

第三训练文本数据获取单元，用于获取各业务分类对应的用于模型训练的贷后文本的文本数据；

细化业务类型集合获取单元，用于获取各业务分类对应的细化业务类型集合；

第三训练样本生成单元，用于根据所述细化业务类型集合在各业务分类对应的用于模型训练的贷后文本的文本数据上标注出细化业务类型，生成各业务分类对应的训练样本；

第三模型训练单元，用于根据预设的文本分类算法和各业务分类对应的训练样本训练出各业务分类对应的文本分类模型。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述贷后文本要点信息提取方法中的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述贷后文本要点信息提取方法中的步骤。

本发明的有益效果为：本发明实施例通过对贷后文本中的要点进行总结，并采用机器学习算法训练出要点提取模型，进而可以自动对贷后文本中的要点信息进行识别，具有识别效率高、识别准确性高的优点。此外本发明实施例根据不同的细化业务类型训练出多个要点提取模型，使要点提取模型能更针对各细化业务类型进行要点识别，进一步提高了要点识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例贷后文本要点信息提取方法的流程图；

图2是本发明实施例确定贷后文本的细化业务类型的方法第一流程图；

图3是本发明实施例确定贷后文本的细化业务类型的方法第二流程图；

图4是本发明实施例贷后任务分发的流程图；

图5是本发明实施例生成贷后文本的文本数据的流程图；

图6是本发明实施例训练要点提取模型的流程图；

图7是本发明实施例训练文本分类模型的第一流程图；

图8是本发明实施例训练文本分类模型的第二流程图；

图9是本发明实施例贷后文本要点信息提取装置的第一结构框图；

图10是本发明实施例细化业务类型确定单元的第一结构框图；

图11是本发明实施例细化业务类型确定单元的第二结构框图；

图12是本发明实施例贷后文本要点信息提取装置的第二结构框图；

图13是本发明实施例贷后文本要点信息提取装置的第三结构框图；

图14是本发明实施例贷后文本要点信息提取装置的第四结构框图；

图15是本发明实施例贷后文本要点信息提取装置的第五结构框图；

图16是本发明实施例贷后文本要点信息提取装置的第六结构框图；

图17是本发明实施例计算机设备示意图；

图18是本发明实施例贷后文本要点信息提取系统示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是本发明实施例贷后文本要点信息提取方法的流程图，如图1所示，本实施例的贷后文本要点信息提取方法包括步骤S101至步骤S103。

步骤S101，获取贷后文本的文本数据。

在本发明实施例中，该贷后文本可以为纸质的贷后文本或电子贷后文本。纸质的文本需要先通过摄像头等装置扫描成电子形式的图片文档，图片格式包含不限于JPG、PNG、JPEG,以便将实体文本转化为电子数据格式，便于在信息系统中识别处理。

在本发明实施例中，在获取电子贷后文本或扫描出的图片格式的贷后文本后，可以根据现有技术的图像识别技术(例如OCR识别方法)识别出贷后文本中的文本信息，进而对文本信息进行数据处理和格式转换，形成便于处理的文本数据。在本发明实施例中，生成贷后文本的文本数据的具体步骤可以参见以下步骤S502。

步骤S102，确定所述贷后文本的细化业务类型。

在本发明实施例中，确定贷后文本的细化业务类型可以采用多种方法，例如用户在上传贷后文本时标注出贷后文本的细化业务类型，也可以采用OCR识别的技术识别出贷后文本的业务类型特征，进而确定出贷后文本的细化业务类型。

在本发明实施例中，贷后文本可以被分为对公和个人两个业务分类，其中，每个业务分类对应多个细化业务类型，对公业务分类的细化业务类型可以包括：供应链贷款、抵押贷款等；个人业务分类的细化业务类型可以包括：信用卡、消费贷款、房贷、汽车贷款等。

步骤S103，将所述文本数据发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中的要点信息，其中，所述要点提取模型为根据预设的机器学习算法和训练样本训练得出，所述要点提取模型的训练样本为在与所述细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出所述细化业务类型对应的要点信息形成的训练样本。

在本发明实施例中，由于贷后文本的每个细化业务类型关注的要点不同，因此本发明可以针对每个细化业务类型均训练出对应的要点提取模型，以实现对各细化业务类型关注的要点进行准确的提取。

在本发明的可选实施例中，上述步骤S103还可以为：将所述文本数据以及需要的要点类型发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中与所述需要的要点类型对应的要点信息。其中，在训练要点提取模型时，要点提取模型的训练样本中还标注出要点信息的要点类型。

在本发明的实施例中，要点提取模型的训练过程可以参见步骤S601至步骤S604。

由以上描述可以看出，本发明实施例通过对贷后文本中的要点进行总结，并采用机器学习算法训练出要点提取模型，进而可以自动对贷后文本中的要点信息进行识别，具有识别效率高、识别准确性高的优点。此外本发明实施例根据不同的细化业务类型训练出多个要点提取模型，使要点提取模型能更针对各细化业务类型进行要点识别，进一步提高了要点识别的准确性。

图2是本发明实施例确定贷后文本的细化业务类型的方法第一流程图，如图2所示，本发明实施例确定贷后文本的细化业务类型的方法包括步骤S201和步骤S202。

步骤S201，获取贷后文本的文本数据。

步骤S202，将所述文本数据发送到训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在用于模型训练的贷后文本的文本数据上标注出细化业务类型形成的训练样本。

在本发明的实施例中，上述步骤S102确定所述贷后文本的细化业务类型，具体可以通过训练出文本分类模型，进而根据文本分类模型来识别出贷后文本的细化业务类型。通过将贷后文本的文本数据输入到训练好的文本分类模型，自动识别出贷后文本的细化业务类型，

在本发明实施例中，步骤S202中的文本分类模型的具体训练过程可以参见以下步骤S701至步骤S703。

图3是本发明实施例确定贷后文本的细化业务类型的方法第二流程图，如图3所示，在本发明另一实施例的确定贷后文本的细化业务类型的方法包括步骤S301和步骤S302。

步骤S301，获取所述贷后文本的业务分类，其中，每个业务分类对应多个细化业务类型。

在本发明实施例中，贷后文本的业务分类包括对公和个人两个业务分类。该业务分类可以在用户上传贷后文本时同时录入，或者可以根据贷后文本上的业务分类特征来确定。

步骤S302，将所述文本数据发送到与所述业务分类对应的训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在与所述业务分类对应的用于模型训练的贷后文本的文本数据上标注出与所述业务分类对应的细化业务类型形成的训练样本。

在本发明的实施例中，上述步骤S102确定所述贷后文本的细化业务类型，具体可以通过训练出文本分类模型，进而根据文本分类模型来识别出贷后文本的细化业务类型。由于不同的业务分类对应有不同的细化业务类型，例如对公业务分类的细化业务类型可以包括：供应链贷款、抵押贷款等；个人业务分类的细化业务类型可以包括：信用卡、消费贷款、房贷、汽车贷款等，本发明为了更精确的识别贷后文本的细化业务类型，分别针对各业务类型训练出了对应的文本分类模型。在本发明实施例中，步骤S302中各业务类型对应的文本分类模型的训练方法可以参见以下步骤S801至S804。

图4是本发明实施例贷后任务分发的流程图，如图4所示，本发明实施例的贷后任务分发的流程包括步骤S401和步骤S402。

步骤S401，将提取出的要点信息添加到与所述细化业务类型对应的调度队列。

步骤S402，周期性的从所述调度队列中提取要点信息，并将所述要点信息发送到与所述细化业务类型对应的处理人员服务器或客户端。

在本发明实施例中，在提取出贷后文本中的要点信息后，还需要将要点信息发送到对应的处理人员进行要点监测、追踪等处理，即贷后任务分发。

在本发明实施例中，在进行贷后任务分发时可以先将提取出的要点信息按照特定的格式打包形成数据流形成该要点信息的文本任务，采用的数据格式可以包含JSON、XML等形式。

在本发明实施例中，在进行贷后任务分发时采取了按照时间频度异步调度控制机制，每种细化业务类型都在后台按照1:1的比例建立独立且并行的调度队列，在提取出贷后文本中的要点信息后将该文本任务推送到对应调度队列中。通过设置了定时扫描任务，如每2分钟或者5分钟扫描各类型调度队列，若发现队列中有任务则依次将序列靠前的任务向对应的处理人员作分发。这样可保障系统分发性能和效率，节省系统资源开销。

在本发明实施例中，在进行贷后任务分发时可以在生成的要点信息的数据流上打上业务分类、细化业务类型标签，进而在任务分发时自动将要点信息的数据流发送到业务分类或细化业务类型对应的预设处理人员处进行处理。如：要点信息属于对公贷后管理类型，在贷后管理任务分发系统中提前预置了该类型的N个处理人员，分发时将文本任务按照特定算法随机分发给N个处理人员中的其中一个。处理人员在领取分发的文本任务后，可根据信贷业务规则进行审查或者进一步业务处理。此举措可保证文本任务分发处理时的公平性和均衡性。

在本发明的其他可选实施例中，也可以根据要点类型进行贷后任务分发，例如系统针对某一个要点类型预置了N个处理人员，分发时将该要点类型的文本任务随机分发给N个处理人员中的其中一个进行处理。

图5是本发明实施例生成贷后文本的文本数据的流程图，如图5所示，本发明实施例的生成贷后文本的文本数据的流程包括步骤S501和步骤S502。

步骤S501，获取采集的贷后文本的文本影像，并通过OCR识别方法提取出所述文本影像中的文本信息。

步骤S502，对所述文本信息进行数据处理及格式转换，得到所述贷后文本的文本数据，其中，所述数据处理包括：分词、停用词、N-gram、词性标注，word2vec中的至少一种；所述格式转换包括：转换为词列表或向量列表。

本发明实施例中用于进行识别的以及用于模型训练的贷后文本的文本数据均为经过数据处理及格式转换形成特定格式的文本数据。数据处理方式主要包括：分词、停用词、N-gram、词性标注，word2vec等。转换的格式可以按需选择，主要有BOW编码或one-hot编码的词列表、word2vec转换得到的向量列表等。

图6是本发明实施例训练要点提取模型的流程图，如图6所示，本发明实施例的训练要点提取模型的流程包括步骤S601至步骤S604。

步骤S601，获取各细化业务类型对应的用于模型训练的贷后文本的文本数据。

步骤S602，获取各细化业务类型对应的要点信息集合。

步骤S603，根据所述要点信息集合在各细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出要点信息，生成各细化业务类型对应的训练样本。

在本发明实施例中，对要点进行标注时需要对文本总的每一个文字进行标注。其中，非要点信息的文本标注为O，要点信息的第一个字标注为B，要点信息的最后一个字标注为E，其他要点信息的文字标注为I。在本发明实施例中，由于要点的类型多样，对于类型为X的要点文本标注应为：第一个字标注为X_B，最后一个字标注为X_E，其他文字标注为X_I。

在本发明实施例中，根据细化业务类型的不同，贷后管理有不同类型的关注要点，要点类型包含但不限于生产经营状况、偿债能力、履行借款合同情况、抵押物现状及价值变化情况。在本发明的可选实施例中，可以对于每一种类型的关注要点都训练一个独立的模型进行该类型要点的抽取。其中，对于X类型要点抽取模型，预先标注中不为X_B、X_I、X_E在训练时都被认为标注为O。进而在对贷后文本的文本数据进行要点提取时，可以根据需要的要点类型采用对应的要点提取模型对文本数据中的该类要点进行提取。当然本发明也可以采用全类要点的要点提取模型对文本数据中的所有要点进行提取。

步骤S604，根据预设的机器学习算法以及各细化业务类型对应的训练样本训练出各细化业务类型对应的要点提取模型。

在本发明实施例中，上述机器学习算法可以采用支持向量机(Support VectorMachine，SVM)回归算法、卷积神经网络(Convolutional Neural Networks，CNN)、分层注意网络(Hierarchic Attention Network，HAN)、回归算法、随机森林(RandomForest)回归算法、GBDT(Gradient Boosting Decision Tree)回归算法、xgboost回归算法、长短期记忆网络(Long Short-Term Memory，LSTM)算法等。

在本发明的可选实施例中，上述机器学习算法采用双向长短期记忆网络(Bidirectional Long Short-Term Memory，Bi-LSTM)算法与条件随机场(Conditionalrandom fields，CRFs)算法结合的组合算法。

在本发明实施例中，在进行模型训练时可以根据要点特点设置模型的输入长度k个词语，对于训练样本中的每个词语需预先进行向量编码，可选择但不限于使用word2vec、Bi-LSTM或其他神经网络算法。其中，使用神经网络算法时需要与要点抽取的神经网络进行联合训练，而word2vec算法无需进行联合训练。向量编码可以使用多种算法，一般的组合方法是编码后对编码结果进行拼接。最终，要点提取模型以k个编码后的词语向量作为输入，以预先标注的要点信息作为输出。对于每一组连续的k个词语作为一组训练数据，进行要点提取模型的训练。

图7是本发明实施例训练文本分类模型的第一流程图，如图7所示，本发明一实施例的训练文本分类模型的流程包括步骤S701至步骤S703。

步骤S701，获取用于模型训练的贷后文本的文本数据。

步骤S702，在所述文本数据上标注出文本数据对应的贷后文本的细化业务类型，生成训练样本。

在本发明实施例中，本步骤具体可以为在文本数据上打上对应的细化业务类型的标签。

步骤S703，根据预设的文本分类算法和所述训练样本训练出所述文本分类模型。

在本发明实施例中，文本分类算法可以采用支持向量机(Support VectorMachine，SVM)回归算法、卷积神经网络(Convolutional Neural Networks，CNN)、分层注意网络(Hierarchic Attention Network，HAN)、回归算法、随机森林(RandomForest)回归算法、GBDT(Gradient Boosting Decision Tree)回归算法、xgboost回归算法、长短期记忆网络(Long Short-Term Memory，LSTM)算法等。

图8是本发明实施例训练文本分类模型的第二流程图，如图8所示，本发明另一实施例的训练文本分类模型的流程包括步骤S801至步骤S804。

步骤S801，获取各业务分类对应的用于模型训练的贷后文本的文本数据。

步骤S802，获取各业务分类对应的细化业务类型集合。

步骤S803，根据所述细化业务类型集合在各业务分类对应的用于模型训练的贷后文本的文本数据上标注出细化业务类型，生成各业务分类对应的训练样本。

步骤S804，根据预设的文本分类算法和各业务分类对应的训练样本训练出各业务分类对应的文本分类模型。

在本发明实施例中，为了实现上述贷后文本要点信息提取方法本发明还提供了一种贷后文本要点信息提取系统。图18是本发明实施例贷后文本要点信息提取系统示意图，如图18所示，本发明实施例贷后文本要点信息提取系统包括：作业录入平台21、文本扫描器设备22和贷后管理任务分发系统23。

作业录入平台21，负责与操作用户、文本扫描器设备22、贷后管理任务分发系统23的交互，以及贷后文本任务信息的采集、请求和结果接收。作业录入平台21可以采用基于Web浏览、移动智能设备方式向操作用户提供可视化交互界面，移动智能设备包含不限于移动手机、平板电脑。

文本扫描器设备22，一种文本读取和影像生成硬件设备，主要通过特定的摄像头扫描贷后文本将其转化为电子形式的图片文档，图片格式包含不限于JPG、PNG、JPEG,以便将实体文本转化为电子数据格式，便于在信息系统中识别处理。

贷后管理任务分发系统23，用于对贷后文本数据进行接收、处理、分类训练，运用机器学习模型抽取文本中符合分类规则的要点，按照一定的流程和逻辑进行智能分发给处理人员，同时返回处理结果返回到作业录入平台。

在本发明实施例中，贷后文本数据在文本作业录入平台21、贷后管理任务分发系统23的流转过程中可以通过TSL协议在对应网络中传输，数据到达分发系统时再进行解密、验证，处理完毕再和下一处理系统建立TSL通信传输数据信息，从而保障信息流在传输过程中的保密性和完整性。

在本发明实施例中，作业录入平台21具体可以包括以下组成部分：

文本任务处理申请单元，以可视化的形式和操作人员交互，负责获取待处理贷后文本任务信息，其中，任务信息要素包括但不限于文本任务类别、业务类型(业务分类)、客户信息、有效期、渠道标签。

文本信息转换单元，负责将已被文本扫描器生成的文本影像图片转换成可读的电子数据信息，可采用的转换模式包括不限于OCR识别技术。

文本任务请求单元，用于将待处理文本任务信息按照特定统一的报文格式打包传输到贷后管理任务分发系统23进行文本提取和分发处理。

文本任务处理结果接收单元，负责将贷后管理任务分发系统23返回的文本分发处理结果以可见的消息形式通知或者可视化展现给任务发起用户。

在本发明实施例中，作业录入平台贷后管理任务分发系统23具体可以包括以下组成部分：

文本任务接收和返回单元，负责从作业录入平台21接收贷后文本任务信息，按照统一的指令拆分报文得到文本任务信息和业务数据。转发至其他处理单元处理后将最终的结果返回至作业录入平台21。

分类训练单元，负责按照文本任务中的业务类型(业务分类)、细化业务类型进行机器分类训练处理。

文本要点抽取单元，负责将分类完毕的文本按照业务类型或要点类型进行文本要点抽取。

文本任务请求分发单元，负责将抽取的要点信息按照特定的格式打包形成数据流智能分发至对应的操作用户处。分发处理时采用的数据格式包含不限于JSON、XML形式，最终以列表的格式显示在后续处理操作用户交互界面。

业务处理单元，处理人员在领取分发的文本任务后，可根据信贷业务规则进行审查或者进一步业务处理。

由以上实施例可以看出，本发明实施例的贷后文本要点信息提取方法利用文本提取技术快速分析总结贷后管理书(贷后文本)中的要点，并自动录入贷后管理任务系统进行任务分发。一方面，用技术手段替代重复性的阅读工作有效提升工作效率。另一方面，任务分发系统自动完成细粒度的工作任务分发，确保了人员工作量相对平均。为银行贷后管理提供更智能、更精准、更高效的管理手段。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种贷后文本要点信息提取装置，可以用于实现上述实施例所描述的贷后文本要点信息提取方法，如下面的实施例所述。由于贷后文本要点信息提取装置解决问题的原理与贷后文本要点信息提取方法相似，因此贷后文本要点信息提取装置的实施例可以参见贷后文本要点信息提取方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图9是本发明实施例贷后文本要点信息提取装置的第一结构框图，如图9所示，本发明实施例贷后文本要点信息提取装置包括：文本数据获取单元1、细化业务类型确定单元2、要点提取单元3。

文本数据获取单元1，用于获取贷后文本的文本数据。

细化业务类型确定单元2，用于确定所述贷后文本的细化业务类型。

要点提取单元3，用于将所述文本数据发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中的要点信息，其中，所述要点提取模型为根据预设的机器学习算法和训练样本训练得出，所述要点提取模型的训练样本为在与所述细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出所述细化业务类型对应的要点信息形成的训练样本。

在本发明实施例中，所述要点提取单元3，还用于将所述文本数据以及需要的要点类型发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中与所述需要的要点类型对应的要点信息，其中，所述要点提取模型的训练样本中还标注出要点信息的要点类型。

图10是本发明实施例细化业务类型确定单元的第一结构框图，如图10所示，本发明实施例的细化业务类型确定单元2包括：第一细化业务类型识别模块201。

第一细化业务类型识别模块201，用于将所述文本数据发送到训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在用于模型训练的贷后文本的文本数据上标注出细化业务类型形成的训练样本。

图11是本发明实施例细化业务类型确定单元的第二结构框图，如图11所示，本发明实施例的细化业务类型确定单元2还包括：业务分类模块202和第二细化业务类型识别模块203。

业务分类模块202，用于获取所述贷后文本的业务分类，其中，每个业务分类对应多个细化业务类型。

第二细化业务类型识别模块203，用于将所述文本数据发送到与所述业务分类对应的训练好的文本分类模型，识别出所述文本数据对应的细化业务类型，其中，所述文本分类模型为根据预设的文本分类算法和训练样本训练得出，所述文本分类模型的训练样本为在与所述业务分类对应的用于模型训练的贷后文本的文本数据上标注出与所述业务分类对应的细化业务类型形成的训练样本。

图12是本发明实施例贷后文本要点信息提取装置的第二结构框图，如图12所示，本发明实施例的贷后文本要点信息提取装置还包括：任务添加单元4和任务分发单元5。

任务添加单元4，用于将提取出的要点信息添加到与所述细化业务类型对应的调度队列。

任务分发单元5，用于周期性的从所述调度队列中提取要点信息，并将所述要点信息发送到与所述细化业务类型对应的处理人员服务器或客户端。

图13是本发明实施例贷后文本要点信息提取装置的第三结构框图，如图13所示，本发明实施例的贷后文本要点信息提取装置还包括：影像提取单元6和数据处理及格式转换单元7。

影像提取单元6，用于获取采集的贷后文本的文本影像，并通过OCR识别方法提取出所述文本影像中的文本信息。

数据处理及格式转换单元7，用于对所述文本信息进行数据处理及格式转换，得到所述贷后文本的文本数据，其中，所述数据处理包括：分词、停用词、N-gram、词性标注，word2vec中的至少一种；所述格式转换包括：转换为词列表或向量列表。

图14是本发明实施例贷后文本要点信息提取装置的第四结构框图，如图14所示，本发明实施例的贷后文本要点信息提取装置还包括：第一训练文本数据获取单元8、要点信息集合获取单元9、第一训练样本生成单元10和第一模型训练单元11。

第一训练文本数据获取单元8，用于获取各细化业务类型对应的用于模型训练的贷后文本的文本数据。

要点信息集合获取单元9，用于获取各细化业务类型对应的要点信息集合。

第一训练样本生成单元10，用于根据所述要点信息集合在各细化业务类型对应的用于模型训练的贷后文本的文本数据上标注出要点信息，生成各细化业务类型对应的训练样本。

第一模型训练单元11，用于根据预设的机器学习算法以及各细化业务类型对应的训练样本训练出各细化业务类型对应的要点提取模型。

图15是本发明实施例贷后文本要点信息提取装置的第五结构框图，如图15所示，本发明实施例的贷后文本要点信息提取装置还包括：第二训练文本数据获取单元12、第二训练样本生成单元13和第二模型训练单元14。

第二训练文本数据获取单元12，用于获取用于模型训练的贷后文本的文本数据。

第二训练样本生成单元13，用于在所述文本数据上标注出文本数据对应的贷后文本的细化业务类型，生成训练样本。

第二模型训练单元14，用于根据预设的文本分类算法和所述训练样本训练出所述文本分类模型。

图16是本发明实施例贷后文本要点信息提取装置的第六结构框图，如图16所示，本发明实施例的贷后文本要点信息提取装置还包括：第三训练文本数据获取单元15、细化业务类型集合获取单元16、第三训练样本生成单元17和第三模型训练单元18。

第三训练文本数据获取单元15，用于获取各业务分类对应的用于模型训练的贷后文本的文本数据。

细化业务类型集合获取单元16，用于获取各业务分类对应的细化业务类型集合。

第三训练样本生成单元17，用于根据所述细化业务类型集合在各业务分类对应的用于模型训练的贷后文本的文本数据上标注出细化业务类型，生成各业务分类对应的训练样本。

第三模型训练单元18，用于根据预设的文本分类算法和各业务分类对应的训练样本训练出各业务分类对应的文本分类模型。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图17所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述贷后文本要点信息提取方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种贷后文本要点信息提取方法，其特征在于，包括：

获取贷后文本的文本数据；

确定所述贷后文本的细化业务类型；

2.根据权利要求1所述的贷后文本要点信息提取方法，其特征在于，所述确定所述贷后文本的细化业务类型，包括：

3.根据权利要求1所述的贷后文本要点信息提取方法，其特征在于，所述确定所述贷后文本的细化业务类型，包括：

4.根据权利要求1所述的贷后文本要点信息提取方法，其特征在于，还包括：

5.根据权利要求1所述的贷后文本要点信息提取方法，其特征在于，还包括：

6.根据权利要求1所述的贷后文本要点信息提取方法，其特征在于，所述将所述文本数据发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中的要点信息，包括：

7.根据权利要求1所述的贷后文本要点信息提取方法，其特征在于，还包括：

获取各细化业务类型对应的要点信息集合；

8.根据权利要求2所述的贷后文本要点信息提取方法，其特征在于，还包括：

获取用于模型训练的贷后文本的文本数据；

9.根据权利要求3所述的贷后文本要点信息提取方法，其特征在于，还包括：

获取各业务分类对应的细化业务类型集合；

10.一种贷后文本要点信息提取装置，其特征在于，包括：

文本数据获取单元，用于获取贷后文本的文本数据；

11.根据权利要求10所述的贷后文本要点信息提取装置，其特征在于，所述细化业务类型确定单元，包括：

12.根据权利要求10所述的贷后文本要点信息提取装置，其特征在于，所述细化业务类型确定单元，包括：

13.根据权利要求10所述的贷后文本要点信息提取装置，其特征在于，还包括：

14.根据权利要求10所述的贷后文本要点信息提取装置，其特征在于，还包括：

15.根据权利要求10所述的贷后文本要点信息提取装置，其特征在于，所述要点提取单元，还用于将所述文本数据以及需要的要点类型发送到与所述细化业务类型对应的训练好的要点提取模型，提取出所述文本数据中与所述需要的要点类型对应的要点信息，其中，所述要点提取模型的训练样本中还标注出要点信息的要点类型。

16.根据权利要求10所述的贷后文本要点信息提取装置，其特征在于，还包括：

17.根据权利要求11所述的贷后文本要点信息提取装置，其特征在于，还包括：

18.根据权利要求12所述的贷后文本要点信息提取装置，其特征在于，还包括：

19.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一项方法中的步骤。

20.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序在计算机处理器中执行时实现如权利要求1至9任意一项方法中的步骤。