CN117116251A

CN117116251A - 一种基于催收录音的还款概率评估方法和装置

Info

Publication number: CN117116251A
Application number: CN202311103596.3A
Authority: CN
Inventors: 徐维; 陈希; 段祖宁
Original assignee: Jiangsu Suning Bank Co Ltd
Current assignee: Jiangsu Suning Bank Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-24

Abstract

本发明提出了一种基于催收录音的还款概率评估方法和装置，该方法包括如下步骤：获取线上产生的催收录音；调用翻译模型API接口将所述催收录音转换为催收录音文本；对所述催收录音文本进行清洗，并利用大语言模型对催收录音文本中的长文本进行摘要，获得录音摘要文本；利用历史催收录音和还款数据，并基于大语言模型进行训练，获得定制大语言模型；使用定制大语言模型对所述录音摘要文本进行预测，获得评估结果，并应用在催收策略中。本发明可以对金融机构催收业务中积累的非结构化的催收录音数据进行挖掘，更加准确的识别出用户的还款概率，优化催收策略，提高整体催收效率，降低催收成本。

Description

一种基于催收录音的还款概率评估方法和装置

技术领域

本发明涉及计算机信息处理技术领域，具体而言，涉及一种基于催收录音的还款概率评估方法和装置。

背景技术

贷后催收是金融机构管理风险和保障资产质量的重要手段，也是保证金融机构资金流动性和经济效益的重要保障。

传统的电话催收方式效率低下、成本高昂，并且容易产生一定程度的纠纷和不满。因此，近年来，越来越多的机构开始采用基于人工智能技术的催收方式，以提高催收效率和回款率。例如：目前普遍采用的基于传统NLP(例如word2vec、Bert)等语言模型。但是，由于传统NLP语言模型不能直接输入原始的录音数据，且需要对文本进行预处理，这无疑提高了文本数据预处理的成本。此外，传统语言模型中难以解决长文本依赖的问题，造成模型效果的预测准确率较低。

发明内容

鉴于上述问题，本发明提供了一种基于催收录音的还款概率评估方法和装置，可以对金融机构催收业务中积累的非结构化的催收录音数据进行挖掘，更加准确的识别出用户的还款概率，优化催收策略，提高整体催收效率，降低催收成本。

为解决上述技术问题，本发明采用的技术方案是：一种基于催收录音的还款概率评估方法，包括如下步骤：获取线上产生的催收录音；调用翻译模型API接口将所述催收录音转换为催收录音文本；对所述催收录音文本进行清洗，并利用大语言模型对催收录音文本中的长文本进行摘要，获得录音摘要文本；利用历史催收录音和还款数据，并基于大语言模型进行训练，获得定制大语言模型；使用定制大语言模型对所述录音摘要文本进行预测，获得评估结果，并应用在催收策略中。

作为优选方案，所述基于大语言模型进行训练，包括如下步骤：准备历史催收录音样本和还款记录，对所述催收录音样本进行初筛；将所述初筛后的催收录音样本与还款记录进行关联，并根据还款记录时间对所述催收录音样本打上正负标签；利用翻译模型批量将所述催收录音样本转化成催收录音文本；利用大语言模型对所述催收录音文本的内容进行摘要，生成录音摘要文本；将所述录音摘要文本与正负标签关联，并添加对应的提示词后生成标准格式的训练样本；利用所述训练样本对大语言模型进行P-tuning微调，生成定制大语言模型。

作为优选方案，对所述催收录音样本进行初筛，具体为：剔除未接通或时长小于30秒的催收录音样本。

作为优选方案，根据还款记录时间对所述催收录音样本打上正负标签，包括：将在录音时间后3天内进行还款客户关联的催收录音样本打上正标签，将在录音时间后超过15天未还款客户关联的催收录音样本打上负标签。

作为优选方案，利用翻译模型批量将所述催收录音样本转化成催收录音文本，包括：在本地将所述催收录音样本输入至预训练模型whisper，并指定翻译语言为中文，输出催收录音文本；在本地将所述催收录音样本输入至预训练模型pyannote，对录音中的讲话人进行识别，区分出催收员和客户的讲话并关联到相应的催收录音文本。

作为优选方案，利用所述训练样本对大语言模型进行P-tuning微调，包括：保持大语言模型的结构不变，仅改变大语言模型prompt的空间映射关系；将所述训练样本分为训练集和验证集，使用训练集进行训练，验证集用来评估效果。

作为优选方案，所述调用翻译模型API接口将所述催收录音转换为催收录音文本，包括：将所述催收录音输入至预训练模型whisper，并指定翻译语言为中文，输出催收录音文本；将所述催收录音输入至预训练模型pyannote，对录音中的讲话人进行识别，区分出催收员和客户的讲话并关联到相应的催收录音文本。

作为优选方案，所述利用大语言模型对录音文本中的长文本进行摘要，包括：选用chatglm2模型在需摘要的录音文本前添加提示词，即使用短文本对录音文本中的长文本进行总结。

本发明还提供了一种基于催收录音的还款概率评估装置，包括：录音获取模块，用于获取线上产生的催收录音；翻译模块，调用翻译模型API接口将所述催收录音转换为催收录音文本；摘要模块，用于对所述催收录音文本进行清洗，并利用大语言模型对催收录音文本中的长文本进行摘要，获得录音摘要文本；预训练模块，利用历史催收录音和还款数据，并基于大语言模型进行训练，获得定制大语言模型；预测评估模块，使用定制大语言模型对所述录音摘要文本进行预测，获得评估结果，并应用在催收策略中。

与现有技术相比，本发明的有益效果包括：本申请提供的技术方案为智能语音识别、大语言模型项目在金融领域的针对性应用优化，是金融领域大模型应用的创新尝试。通过使用whisper工具把催收录音转成文本并借助讲话人识别技术区分催收人员和用户，可以提升下游大语言模型的识别准确性。基于历史催收录音和还款数据对大语言模型使用P-tuning技术进行模型微调，微调后的定制模型可以端到端的识别录音中用户的还款概率。针对催收录音过长超出大语言模型输入限制的情况下，对录音内容进行摘要后再使用预训练大语言模型进行预测，可以解决大语言模型输入限制的瓶颈。定制的大语言模型的输出结果是相对固定，而非使用原始模型具有一定的发散和随机性，输出结果可以直接用在催收策略调整中，也可作为催收录音的特征应用到催收模型中。此外，本申请采用的模型训练和部署预测均可在单块GPU上完成，降低了大语言模型在催收业务中的使用门槛。本发明通过把大语言模型技术应用到催收录音的分析中，可以帮助催收人员更加准确地判断客户的还款概率，并制定相应的催收策略，不仅可以提高催收效率和回款率，还可以减少催收人员的工作量和客户的不满情绪，从而实现双方的共赢。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明实施例基于催收录音的还款概率评估方法的流程示意图；

图2为本发明实施例基于催收录音的还款概率评估方法的另一形式流程示意图；

图3为本发明实施例基于大语言模型进行训练的流程示意图；

图4为本发明实施例基于催收录音的还款概率评估装置的结构示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

根据本发明的一实施方式结合图1-3示出。一种基于催收录音的还款概率评估方法，包括如下步骤：

S101，获取线上产生的催收录音。

S102，调用翻译模型API接口将催收录音转换为催收录音文本。

具体的，上述调用翻译模型API接口将催收录音转换为催收录音文本，包括：将催收录音输入至预训练模型whisper，并指定翻译语言为中文，输出催收录音文本；将催收录音输入至预训练模型pyannote，对录音中的讲话人进行识别，区分出催收员和客户的讲话并关联到相应的催收录音文本。

S103，对催收录音文本进行清洗，并利用大语言模型对催收录音文本中的长文本进行摘要，获得录音摘要文本。

本发明实施例中，利用大语言模型对录音文本中的长文本进行摘要，包括：选用chatglm2模型在需摘要的录音文本前添加提示词，即使用短文本对录音文本中的长文本进行总结。

S104，利用历史催收录音和还款数据，并基于大语言模型进行训练，获得定制大语言模型。

S105，使用定制大语言模型对录音摘要文本进行预测，获得评估结果，并应用在催收策略中。

使用通过调用定制的大语言模型API对录音摘要文本进行预测，得到录音文本对应的用户是高概率还款还是低概率还款的结果。将评估结果应用在催收策略中，例如：根据还款概率高低调整跟进电话的频率或进行催收案件的重新分案，也可以把结果作为催收录音的一个综合特征应用在催收模型中提高催收模型的准确性。

本申请中录音语音识别和大语言模型都是开源模型，模型准确性都达到业界先进水平，并且模型参数相对较小，模型训练和推理均可在A10 GPU单卡上完成，推理速度快，可支持生产快速部署应用。

参见图3，上述步骤S104中，基于大语言模型进行训练，包括如下步骤：

S1041，准备历史催收录音样本和还款记录，对催收录音样本进行初筛。

对催收录音样本进行初筛，具体为：剔除未接通或时长小于30秒的催收录音样本。

S1042，将初筛后的催收录音样本与还款记录进行关联，并根据还款记录时间对催收录音样本打上正负标签。

具体的，根据还款记录时间对催收录音样本打上正负标签，包括：将在录音时间后3天内进行还款客户关联的催收录音样本打上正标签，将在录音时间后超过15天未还款客户关联的催收录音样本打上负标签。

S1043，利用翻译模型批量将催收录音样本转化成催收录音文本。

具体的，利用翻译模型批量将催收录音样本转化成催收录音文本，包括：在本地将催收录音样本输入至预训练模型whisper，并指定翻译语言为中文，输出催收录音文本；在本地将催收录音样本输入至预训练模型pyannote，对录音中的讲话人进行识别，区分出催收员和客户的讲话并关联到相应的催收录音文本。

例如：使用开源的whisper模型批量把催收录音样本转化成催收录音文本，具体使用的预训练模型为whisper-large-v2，指定翻译语言为中文，并使用pyannote对录音中的讲话人进行识别，区分出催收员和客户的讲话并关联到相应的文本。

whisper和pyannote都是预训练模型，可直接输入原始的录音文件(wav或mp3)然后输出转化后的文本，不需要预处理步骤。转化后的文本的结构如下：

催收员：【文本1】

客户：【文本2】

催收员：【文本3】

...........

该步骤操作把录音的长文本拆解成多轮对话，区分了催收员和客户的讲话文本，可以更精确的识别客户的还款意愿。

S1044，利用大语言模型对催收录音文本的内容进行摘要，生成录音摘要文本。摘要是针对大语言模型的操作，是对一段较长文本使用较短文本进行总结。使用方法是在需总结文本前添加提示词，如：“给出以下文本的摘要：【需摘要的文本】”。

具体的，本发明实施例中，大语言模型选用chatglm2，此模型是目前效果较好的可处理较长文本的大语言模型，使用chatglm2针对第二步中转化后的文本结构针对每条对话分别进行摘要操作。经过本次处理后文本结构变成：

催收员：【文本1总结】

客户：【文本2总结】

催收员：【文本3总结】

...........

如果对话轮数较多可以对摘要后的文本汇总后再进行一次摘要总结操作。最终摘要后的文本长度都比较接近。

S1045，将录音摘要文本与正负标签关联，并添加对应的提示词后生成标准格式的训练样本。

例如：定义录音后3天内还款的用户为“高概率还款”，录音后15天内未还款的用户为“低概率还款”。可以设置提示词为“根据以下催收录音摘要，判断用户的还款概率，使用‘高概率还款’和‘低概率还款’来回答：”并附加在录音文本摘要之前。

标准格式的训练样本，样例如下：

{“input”：“根据以下催收录音摘要，判断用户的还款概率，使用‘高概率还款’和‘低概率还款’来回答：’催收员：【文本1总结】

客户：【文本2总结】

催收员：【文本3总结】

’”

.......，

“output”:“高概率还款”}

S1046，利用训练样本对大语言模型进行P-tuning微调，生成定制大语言模型。该定制大语言模型部署在生产环境，可供催收系统通过API的方式进行调用。

具体的，利用训练样本对大语言模型进行P-tuning微调，包括：在预训练的大语言模型的基础上，保持预训练的模型结构不变，p-tuning只改变Prompt-Encoder层中的模型结构，相当于仅改变prompt的空间映射关系，参数量比改变整个大模型参数大大减少。具体步骤为：将样本结构准备数千条样本，分为训练集和验证集，使用训练集进行训练，验证集用来评估效果。数千条样本，一次训练在A10单GPU上需要20个小时左右。配置训练的主要参数如下：

本发明实施例中，微调采用P-tuning的技术，不改变预训练大语言模型中的基础参数值，仅针对大语言模型中提示词embedding层进行微调训练，因可训练参数较少，可以在单卡GPU上完成。经过P-tuning的定制模型可以输出针对催收录音预测还款概率，模型输出稳定性和准确性比仅使用预训练模型有大幅提升。

参见图4，本发明还提供了一种基于催收录音的还款概率评估装置，包括：

录音获取模块101，用于获取线上产生的催收录音；

翻译模块102，调用翻译模型API接口将催收录音转换为催收录音文本；

摘要模块103，用于对催收录音文本进行清洗，并利用大语言模型对催收录音文本中的长文本进行摘要，获得录音摘要文本；

预训练模块104，利用历史催收录音和还款数据，并基于大语言模型进行训练，获得定制大语言模型；

预测评估模块105，使用定制大语言模型对录音摘要文本进行预测，获得评估结果，并应用在催收策略中。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，本发明的有益效果包括：本申请提供的技术方案为智能语音识别、大语言模型项目在金融领域的针对性应用优化，是金融领域大模型应用的创新尝试。通过使用whisper工具把催收录音转成文本并借助讲话人识别技术区分催收人员和用户，可以提升下游大语言模型的识别准确性。基于历史催收录音和还款数据对大语言模型使用P-tuning技术进行模型微调，微调后的定制模型可以端到端的识别录音中用户的还款概率。针对催收录音过长超出大语言模型输入限制的情况下，对录音内容进行摘要后再使用预训练大语言模型进行预测，可以解决大语言模型输入限制的瓶颈。定制的大语言模型的输出结果是相对固定，而非使用原始模型具有一定的发散和随机性，输出结果可以直接用在催收策略调整中，也可作为催收录音的特征应用到催收模型中。此外，本申请采用的模型训练和部署预测均可在单块GPU上完成，降低了大语言模型在催收业务中的使用门槛。本发明通过把大语言模型技术应用到催收录音的分析中，可以帮助催收人员更加准确地判断客户的还款概率，并制定相应的催收策略，不仅可以提高催收效率和回款率，还可以减少催收人员的工作量和客户的不满情绪，从而实现双方的共赢。

本发明提供的一种基于催收录音的还款概率评估方法和装置，相对于现有基于传统NLP(例如word2vec、Bert)等语言模型，使用whisper可直接输入原始的录音数据，使用chatglm2也可以直接对原始文本进行摘要而不需要传统NLP模型中需要的对文本的预处理。使用chatglm2模型降低了文本数据预处理的成本，并且使用摘要技术解决了传统语言模型中难解决的长文本依赖的问题，可以直接处理更长的录音文本，并且模型效果的预测准确率更高。在实际的数据测试中，本申请中的大语言定制模型的准确率(即判断客户是否正常还款)可以达到73％-80％。大大降低了人工干预成本。

应理解，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.一种基于催收录音的还款概率评估方法，其特征在于，包括如下步骤：

获取线上产生的催收录音；

调用翻译模型API接口将所述催收录音转换为催收录音文本；

对所述催收录音文本进行清洗，并利用大语言模型对催收录音文本中的长文本进行摘要，获得录音摘要文本；

利用历史催收录音和还款数据，并基于大语言模型进行训练，获得定制大语言模型；

使用定制大语言模型对所述录音摘要文本进行预测，获得评估结果，并应用在催收策略中。

2.根据权利要求1所述的基于催收录音的还款概率评估方法，其特征在于，所述基于大语言模型进行训练，包括如下步骤：

准备历史催收录音样本和还款记录，对所述催收录音样本进行初筛；

将所述初筛后的催收录音样本与还款记录进行关联，并根据还款记录时间对所述催收录音样本打上正负标签；

利用翻译模型批量将所述催收录音样本转化成催收录音文本；

利用大语言模型对所述催收录音文本的内容进行摘要，生成录音摘要文本；

将所述录音摘要文本与正负标签关联，并添加对应的提示词后生成标准格式的训练样本；

利用所述训练样本对大语言模型进行P-tuning微调，生成定制大语言模型。

3.根据权利要求2所述的基于催收录音的还款概率评估方法，其特征在于，对所述催收录音样本进行初筛，具体为：剔除未接通或时长小于30秒的催收录音样本。

4.根据权利要求2所述的基于催收录音的还款概率评估方法，其特征在于，根据还款记录时间对所述催收录音样本打上正负标签，包括：将在录音时间后3天内进行还款客户关联的催收录音样本打上正标签，将在录音时间后超过15天未还款客户关联的催收录音样本打上负标签。

5.根据权利要求2所述的基于催收录音的还款概率评估方法，其特征在于，利用翻译模型批量将所述催收录音样本转化成催收录音文本，包括：

在本地将所述催收录音样本输入至预训练模型whisper，并指定翻译语言为中文，输出催收录音文本；

在本地将所述催收录音样本输入至预训练模型pyannote，对录音中的讲话人进行识别，区分出催收员和客户的讲话并关联到相应的催收录音文本。

6.根据权利要求2所述的基于催收录音的还款概率评估方法，其特征在于，利用所述训练样本对大语言模型进行P-tuning微调，包括：保持大语言模型的结构不变，仅改变大语言模型prompt的空间映射关系；将所述训练样本分为训练集和验证集，使用训练集进行训练，验证集用来评估效果。

7.根据权利要求1所述的基于催收录音的还款概率评估方法，其特征在于，所述调用翻译模型API接口将所述催收录音转换为催收录音文本，包括：

将所述催收录音输入至预训练模型whisper，并指定翻译语言为中文，输出催收录音文本；

将所述催收录音输入至预训练模型pyannote，对录音中的讲话人进行识别，区分出催收员和客户的讲话并关联到相应的催收录音文本。

8.根据权利要求1所述的基于催收录音的还款概率评估方法，其特征在于，所述利用大语言模型对录音文本中的长文本进行摘要，包括：

选用chatglm2模型在需摘要的录音文本前添加提示词，即使用短文本对录音文本中的长文本进行总结。

9.一种基于催收录音的还款概率评估装置，其特征在于，包括：

录音获取模块，用于获取线上产生的催收录音；

翻译模块，调用翻译模型API接口将所述催收录音转换为催收录音文本；

摘要模块，用于对所述催收录音文本进行清洗，并利用大语言模型对催收录音文本中的长文本进行摘要，获得录音摘要文本；

预训练模块，利用历史催收录音和还款数据，并基于大语言模型进行训练，获得定制大语言模型；

预测评估模块，使用定制大语言模型对所述录音摘要文本进行预测，获得评估结果，并应用在催收策略中。