CN111091460A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN111091460A
CN111091460A CN201911155084.5A CN201911155084A CN111091460A CN 111091460 A CN111091460 A CN 111091460A CN 201911155084 A CN201911155084 A CN 201911155084A CN 111091460 A CN111091460 A CN 111091460A
Authority
CN
China
Prior art keywords
user
users
call
feature
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911155084.5A
Other languages
English (en)
Other versions
CN111091460B (zh
Inventor
蔡远航
郑少杰
易剑韬
彭明
杨波
范增虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911155084.5A priority Critical patent/CN111091460B/zh
Publication of CN111091460A publication Critical patent/CN111091460A/zh
Priority to PCT/CN2020/129121 priority patent/WO2021098652A1/zh
Application granted granted Critical
Publication of CN111091460B publication Critical patent/CN111091460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例涉及金融科技(Fintech)技术领域,公开了一种数据处理方法及装置,接收到第一名单后,使用第一模型确定第一名单中各用户的用户类别,并根据各用户的用户类别确定完成第一名单中的催收任务的时长,若确定无法在设定时长内完成第一名单中的催收任务,则使用第二模型确定出各个用户的催收成功率,如此,在确定催收任务无法完成时可以优先向催收成功率较高的用户拨打催收电话,提高催收效果。

Description

一种数据处理方法及装置
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。随着语音对话技术的不断成熟,金融科技领域也开始将智能机器人应用于催收场景中,这类机器人称为催收机器人。催收机器人可以自动拨打催收电话来提醒客户还款,并可以记录客户的还款意愿,以便于后续跟进客户的还款进度。相比于人工催收的方式来说,采用催收机器人来催收不仅能大幅降低催收成本,还可以高效地完成催收任务;且,催收机器人在与客户的对话过程中也不会出现情绪波动,从而还能够提升客户的体验。
现阶段,催收机器人接收到各个网贷公司发送的催收名单后,直接按照接收各个催收名单的时间顺序对催收名单中的各个用户进行催收;然而,在实际的业务场景中,催收机器人每天接待的网贷公司的数量是不固定的,且每个网贷公司给出的待催收的用户数量也是不固定的,从而导致催收机器人每天待催收的用户总数量不确定,由于该种方式采用先到先服务的方式依次对各个用户拨打催收电话,因此可能由于某天待催收的用户总数量较多导致当天的催收任务无法完成,从而催收效果不好。
综上,目前亟需一种数据处理方法,用以解决现有技术采用先到先服务的方式依次拨打催收电话所导致的催收效果不好的技术问题。
发明内容
本发明实施例提供一种数据处理方法及装置,用以解决现有技术采用先到先服务的方式依次拨打催收电话所导致的催收效果不好的技术问题。
第一方面,本发明实施例提供的一种数据处理方法,所述数据处理方法应用于催收系统,所述方法包括:
获取第一名单,并使用第一模型确定第一名单中各用户的用户类别;所述第一名单中包括多个未执行预设行为的用户,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话;进一步地,统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长;若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。
在上述实现方式中,在接收到第一名单后,通过先使用第一模型预测出第一名单中的各个用户是否会接听电话(即用户类别),并确定完成催收任务的时间,再在确定无法完成催收任务时使用第二模型确定出催收成功概率较高的用户,从而可以在确定催收任务无法完成时优先向催收成功率较高的用户拨打催收电话,提高催收效果。
在一种可能的实现方式中,所述各用户的用户类别中还包括第二用户类别,所述第二用户类别表征用户不会接听所述催收系统拨打的电话;所述基于所述数量确定第一时长,包括:获取第一用户类别对应的第一通话时长和第二用户类别对应的第二通话时长;所述第一通话时长是根据历史时段内向接听电话的各个用户拨打电话的通话时长确定的;所述第二通话时长是根据向用户拨打电话后等待接听的通话时长确定的;进一步地,根据所述第一名单中属于第一用户类别的用户的数量和所述第一通话时长、所述第一名单中属于第二用户类别的用户的数量和所述第二通话时长,确定向所述第一名单中的全部用户拨打电话的总通话时长,基于所述总通话时长和可用的电话号码的数量,确定所述第一时长。
在上述实现方式中,通过使用历史时段内向用户拨打催收电话的通话时长确定接听电话的用户的第一通话时长,使得第一通话时长结合了历史拨打信息的特征,从而能够准确标识每个接听电话的用户的通话时长,相应地,第二通话时长为等待接听的通话时长,从而能够准确标识每个不接听电话的用户的通话时长;如此,基于第一通话时长和第一模型预测出的接听电话的用户数量可以确定向第一名单中接听电话的用户拨打催收电话所需的总通话时长,通过第二通话和第一模型预测出的不接听电话的用户数量可以确定第一名单中不接听电话的用户拨打催收电话所需的总通话时长,从而预判出向第一名单中的全部用户拨打电话的总通话时长,该种方式基于历史数据进行分析,从而更加满足实际的业务情况,使得预判出的第一时长更为准确。
在一种可能的实现方式中,所述可用的电话号码通过如下方式确定:针对预先在运营商申请的多个电话号码,基于所述总通话时长和所述多个电话号码的数量,得到预测时长,确定所述多个电话号码在所述预测时长内下线的概率,将概率不大于第一预设阈值的电话号码作为所述可用的电话号码。
在上述实现方式中,在确定完成催收任务所需的预测时长后,通过判断预测时长内各个电话号码下线的概率,可以预先判断出在催收任务执行时段内可能会下线的电话号码的数量,如此,通过使用不会下线的电话号码的数量确定第一时长,可以提前预判到电话号码下线的风险,保证催收任务完成的准确性。
在一种可能的实现方式中,在所述使用第一模型确定所述第一名单中各用户的用户类别的同时,还包括:根据所述第一名单中各用户的联系方式,使用所述可用的电话号码向所述各用户拨打电话。
在上述实现方式中,通过设置对第一名单中的催收任务进行风险判断的过程与实际拨打电话的过程并行执行,可以将风险判断作为帮助正常业务执行的辅助手段,而无需占用催收机器人正常拨打催收电话的时间,从而降低风险判断过程对正常业务的影响。
在一种可能的实现方式中,在所述第一时长未超过所述设定时长时,若在所述第一时长内接收到处理第三名单的请求消息,则基于所述第一模型确定向所述第三名单中的全部用户拨打电话所需的第二时长,若所述第一时长和所述第二时长之和超过所述设定时长,则拒绝接收所述第三名单。
在上述实现方式中,当接收新的第三名单时,通过预先判断对第一名单和第三名单中的全部用户拨打催收电话的总通话时长,并在总通话时长超过设定时长时拒绝接收第三名单,可以避免接受无法完成的催收任务,降低客户的损失。
在一种可能的实现方式中,所述第一模型为分类模型,所述第一模型通过如下方式得到:获取多个用户在各个特征下的特征值;针对于任一特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述特征的每个特征值对应的用户的数量、每个特征值对应的用户中接听电话的用户的数量和每个特征值对应的用户中未接听电话的用户的数量,确定所述特征与用户是否接听电话的行为的关联程度;进一步地,将与用户是否接听电话的行为的关联程度大于或等于第二预设阈值的特征作为强相关特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述强相关特征的各个特征值对应的用户的数量、所述强相关特征的各个特征值对应的用户中接听电话的用户的数量和所述强相关特征的各个特征值对应的用户中未接听电话的用户的数量,训练得到所述第一模型。
在上述实现方式中,通过确定每个特征与接听电话的行为的关联程度,可以仅基于关联程度较高的特征训练得到第一模型,如此,参与训练的数据量较少,训练模型的效率较高;且,由于使用的训练数据更集中在与接听电话的行为强相关的特征数据上,因此第一模型的训练过程更为聚合,模型效果更好。
在一种可能的实现方式中,每个特征与用户是否接听电话的行为的关联程度满足如下条件:
Figure BDA0002284585940000041
其中,X为任一特征,R(X)为X特征的特征值集合,包括X特征的各个特征值,x为特征X的任一特征值;Y为用户是否接听电话的行为,R(Y)为用户是否接听电话的行为集合,包括用户接听电话的行为和用户未接听电话的行为,y为用户接听电话的行为或用户未接听电话的行为;I(X,Y)为特征X与用户是否接听电话的行为的关联程度,P(x,y)为特征值x对应的用户中执行了y行为的用户的数量占用户总数量的比例,P(x)为特征值x对应的用户占用户总数量的比例,P(y)为执行了y行为的用户的数量占用户总数量的比例。
在上述实现方式中,通过使用某一特征的每个特征值与接听电话的行为相关的概率得到每个特征与接听电话的行为相关的关联程度,使得该关联程度综合了各个特征值的相关信息,由于使用的信息更为丰富,从而可以使得关联程度更为准确。
在一种可能的实现方式中,所述第二模型为神经网络模型,所述第二模型通过如下方式得到:获取多个用户在各个特征下的特征值,针对于任一用户,根据所述用户在每个特征下的特征值和所述每个特征的各个特征值构建所述用户在所述每个特征下的特征向量,拼接所述用户在各个特征下的特征向量,得到所述用户对应的第一特征向量;根据所述用户是否执行所述预设行为得到所述用户对应的第二特征向量;进一步地,将所述多个用户对应的第一特征向量作为模型输入,得到所述多个用户执行所述预设行为的预测结果,基于所述多个用户的第二特征向量和所述多个用户执行所述预设行为的预测结果调整模型参数,得到所述第二模型。
在上述实现方式中,通过确定用户在每个特征下的特征向量,并拼接用户在各个特征下的特征向量值得到用户的特征向量,使得用户的特征向量能够综合每个特征的各个特征值的特征信息,信息更为全面,且表现形式更为简洁,如此,基于信息丰富且形式简洁的模型输入训练的得到的模型的效果更好,训练效率更高。
在一种可能的实现方式中,每个特征的各个特征值通过如下方式得到:若所述特征属于离散特征,则统计所述多个用户在所述特征下的各个值,将所述各个值作为所述特征的各个特征值;若所述特征属于连续特征,则统计所述多个用户在所述特征下的取值范围,将所述取值范围划分为多个取值范围区间,为每个取值范围区间设置一个对应的特征值,得到所述特征的各个特征值。
在上述实现方式中,通过对连续特征的取值进行离散,可以使得各个特征(包括连续特征和离散特征)具有相同的离散的表现形式,从而在训练模型时可以使用各个离散的特征值作为训练数据,而无需对连续特征拟合概率分布函数,从而可以提高数据处理的效率。
第二方面,本发明实施例提供的一种数据处理装置,所述装置包括:
获取模块,用于获取第一名单;所述第一名单中包括多个未执行预设行为的用户;
确定模块,用于使用第一模型确定第一名单中各用户的用户类别,其中,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话;
处理模块,用于统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长;若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。
在一种可能的实现方式中,所述各用户的用户类别中还包括第二用户类别,所述第二用户类别表征用户不会接听所述催收系统拨打的电话;
所述获取模块还用于:获取第一用户类别对应的第一通话时长和第二用户类别对应的第二通话时长;所述第一通话时长是根据历史时段内向接听电话的各个用户拨打电话的通话时长确定的;所述第二通话时长是根据向用户拨打电话后等待接听的通话时长确定的;
所述确定模块具体用于:根据所述第一名单中属于第一用户类别的用户的数量和所述第一通话时长、所述第一名单中属于第二用户类别的用户的数量和所述第二通话时长,确定向所述第一名单中的全部用户拨打电话的总通话时长;基于所述总通话时长和可用的电话号码的数量,确定所述第一时长。
在一种可能的实现方式中,所述确定模块通过如下方式确定所述可用的电话号码:针对预先在运营商申请的多个电话号码,基于所述总通话时长和所述多个电话号码的数量,得到预测时长,确定所述多个电话号码在所述预测时长内下线的概率,将概率不大于第一预设阈值的电话号码作为所述可用的电话号码。
在一种可能的实现方式中,所述装置还包括拨打模块,在所述确定模块使用第一模型确定所述第一名单中各用户的用户类别的同时,所述拨打模块用于:根据所述第一名单中各用户的联系方式,使用所述可用的电话号码向所述各用户拨打电话。
在一种可能的实现方式中,所述处理模块还用于:在所述第一时长未超过所述设定时长时,若在所述第一时长内接收到处理第三名单的请求消息,则基于所述第一模型确定向所述第三名单中的全部用户拨打电话所需的第二时长;进一步地,若所述第一时长和所述第二时长之和超过所述设定时长,则拒绝接收所述第三名单。
在一种可能的实现方式中,所述第一模型为分类模型;所述处理模块还用于:获取多个用户在各个特征下的特征值,针对于任一特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述特征的每个特征值对应的用户的数量、每个特征值对应的用户中接听电话的用户的数量和每个特征值对应的用户中未接听电话的用户的数量,确定所述特征与用户是否接听电话的行为的关联程度;进一步地,将与用户是否接听电话的行为的关联程度大于或等于第二预设阈值的特征作为强相关特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述强相关特征的各个特征值对应的用户的数量、所述强相关特征的各个特征值对应的用户中接听电话的用户的数量和所述强相关特征的各个特征值对应的用户中未接听电话的用户的数量,训练得到所述第一模型。
在一种可能的实现方式中,每个特征与用户是否接听电话的行为的关联程度满足如下条件:
Figure BDA0002284585940000081
其中,X为任一特征,R(X)为X特征的特征值集合,包括X特征的各个特征值,x为特征X的任一特征值;Y为用户是否接听电话的行为,R(Y)为用户是否接听电话的行为集合,包括用户接听电话的行为和用户未接听电话的行为,y为用户接听电话的行为或用户未接听电话的行为;I(X,Y)为特征X与用户是否接听电话的行为的关联程度,P(x,y)为特征值x对应的用户中执行了y行为的用户的数量占用户总数量的比例,P(x)为特征值x对应的用户占用户总数量的比例,P(y)为执行了y行为的用户的数量占用户总数量的比例。
在一种可能的实现方式中,所述第二模型为神经网络模型,所述处理模块还用于:获取多个用户在各个特征下的特征值,针对于任一用户,根据所述用户在每个特征下的特征值和所述每个特征的各个特征值构建所述用户在所述每个特征下的特征向量,拼接所述用户在各个特征下的特征向量,得到所述用户对应的第一特征向量;根据所述用户是否执行所述预设行为得到所述用户对应的第二特征向量;进一步地,将所述多个用户对应的第一特征向量作为模型输入,得到所述多个用户执行所述预设行为的预测结果,基于所述多个用户的第二特征向量和所述多个用户执行所述预设行为的预测结果调整模型参数,得到所述第二模型。
在一种可能的实现方式中,所述处理模块还用于通过如下方式得到每个特征的各个特征值:若所述特征属于离散特征,则统计所述多个用户在所述特征下的各个值,将所述各个值作为所述特征的各个特征值;若所述特征属于连续特征,则统计所述多个用户在所述特征下的取值范围,将所述取值范围划分为多个取值范围区间,为每个取值范围区间设置一个对应的特征值,得到所述特征的各个特征值。
第三方面,本发明实施例提供的一种计算设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述第一方面任意所述的数据处理方法。
第四方面,本发明实施例提供的一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行上述第一方面任意所述的数据处理方法。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种催收系统的架构示意图;
图2为本发明实施例提供的一种数据处理方法的流程示意图;
图3为本发明实施例提供的一种一维元胞模型的结构示意图;
图4为本发明实施例提供的一种数据处理装置的结构示意图;
图5为本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例中,预设行为可以是指任意行为,比如广告推广领域中的购物行为、信用卡推广领域中的开卡行为、催收领域中的还款行为等,为了便于理解,本发明的下列实施例以催收领域为例描述本发明实施例中的数据处理方法。
图1为本发明实施例提供的一种催收系统的架构示意图,如图1所示,催收系统中可以设置有催收机器人110和至少一个客户端,比如客户端121、客户端122和客户端123;其中,客户端可以为金融科技领域中向用户提供贷款的任意网贷客户端,比如设置在商业银行的网贷客户端、设置在财务公司的网贷客户端、设置在信托公司的网贷客户端等,不作限定。
如图1所示,催收系统中还可以设置有至少一个用户端,比如用户端131、用户端132和用户端133;其中,用户端可以为具有通话功能的任意终端设备,比如老年机、智能手机、滑盖手机等,不作限定。
本发明实施例中,催收机器人110可以分别与至少一个客户端和至少一个用户端连接,比如可以通过有线方式连接,或者也可以通过无线方式连接,具体不作限定。
基于图1所示意的系统架构,图2为本发明实施例提供的一种数据处理系统的流程示意图,该方法应用于催收机器人110,该方法包括:
步骤201,获取第一名单,所述第一名单中包括多个未执行预设行为的用户。
在一个示例中,第一名单中可以包括未执行预设行为的各个用户的联系方式,在催收领域,即为向网贷机构贷款后逾期未还款的各个用户的联系方式。
在一种可能的实现方式中,催收系统中还可以设置有预处理装置(图1未进行示意),预处理装置可以设置在至少一个客户端与催收机器人110之间,或者也可以设置在催收机器人110的内部。具体实施中,预处理装置可以接收每个客户端发送的催收名单,并根据设定拨打策略对各个催收名单中的待催收用户进行排序,得到第一名单;其中,设定拨打策略可以为根据业务需求设置的拨打策略,比如可以为按照接收催收名单的时间顺序对各个催收名单中的待催收用户进行排序,或者也可以为按照各个催收名单对应的各个客户端的优先级对各个催收名单中的待催收用户进行排序,或者还可以为根据各个催收名单所属的网贷产品的优先级对各个催收名单中的待催收用户进行排序,或者还可以为根据各个催收名单对应的各个客户端所在的城市的优先级对各个催收名单中的待催收用户进行排序,或者还可以为上述多种拨打策略的组合形式,等等,具体不作限定。
举例来说,预处理装置可以为基于全球广域网(World Wide Web,web)技术的web服务器,客户端可以为设置有web浏览器的客户端,如此,当网贷机构存在催收需求时,可以通过其客户端的web浏览器访问预处理装置提供的web服务界面,由于网贷机构可能对多款网贷产品均存在催收需求,因此网贷公司可以将每个网贷产品对应的待催收的用户信息(包括用户的年龄、性别、学历信息、婚姻信息、职业信息、本次贷款信息和历史贷款信息等)打包成一份催收名单,并进行上传;且,网贷结构还可以在web服务界面上选择催收的终止时间,以使催收机器人110在催收的终止时间之前反馈催收结果。
相应地,预处理装置在接收到各个客户端发送的各个网贷产品的催收名单后,可以先根据各个网贷产品的优先级对每个客户端的各个催收名单进行初次排序,然后再根据各个客户端的优先级对初次排序后的各个客户端的催收名单进行排序,得到第一名单,或者,也可以先根据各个客户端的优先级对各个客户端的催收名单进行初次排序,然后再根据各个网贷产品的优先级对每个客户端的各个催收名单进行排序,得到第一名单,不作限定。比如,当客户端121的优先级>客户端123的优先级>客户端122的优先级,且网贷产品2的优先级>网贷产品1的优先级时,若客户端121的催收名单包括网贷产品1对应的待催收用户1和待催收用户2,客户端122的催收名单包括网贷产品1对应的待催收用户3、网贷产品2对应的待催收用户4和待催收用户5,客户端123的催收名单包括网贷产品2对应的待催收用户6,则第一名单可以为:待催收用户1、待催收用户2、待催收用户6、待催收用户4、待催收用户5、待催收用户3,或者也可以为:待催收用户6、待催收用户4、待催收用户5、待催收用户1、待催收用户2、待催收用户3。
本发明实施例中,若预处理装置不为催收机器人110中的装置,则预处理装置可以将第一名单发送给催收机器人110,可以也可以由催收机器人110通过文件传输协议从预处理装置中获取第一名单;若预处理装置为催收机器人110中的装置(比如预处理进程),则预处理装置可以直接将第一名单存储在催收机器人110的存储器中,以使催收机器人110调用处理进程对第一名单中的各个用户进行催收拨打。
需要说明的是,本发明实施例不限定各个客户端发送催收名单的时间,比如各个客户端可以在执行催收的前一天就将催收名单发送给预处理装置,或者也可以在执行催收的当天将催收名单发送给预处理装置;相应地,本发明实施例也不限定客户端发送催收名单的设备,比如客户端也可以将催收名单直接发送给预处理装置,也可以将催收名单发送给催收机器人110,再由催收机器人110转发给预处理装置,具体不作限定。
步骤202,使用第一模型确定第一名单中各用户的用户类别,其中,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话。
在一种可能的实现方式中,催收机器人110获取到第一名单后,可以先确定当前时刻与催收机器人110的启动催收时刻的时间差,若时间差大于或等于第一预设时间差(大于或等于确定出催收策略所需的时间),则催收机器人110可以先分析第一名单中的催收任务是否能够在各个客户端设置的催收终止时间点之前完成,并根据能否完成的分析结果设置对应的催收策略,然后再在催收机器人110的启动催收时刻时按照对应的催收策略开始对第一名单中的各个用户进行催收;若时间差小于等于第二预设时间差(为小于或等于0的任意数值),则可以直接调用拨打线程按照第一名单中的各个用户的顺序对各个用户进行催收拨打,并在催收拨打的同时调用并行的处理线程分析第一名单中的催收任务是否能够在各个客户端设置的催收终止时间点之前完成,根据能否完成的结果设置对应的催收策略后,控制拨打线程按照对应的催收策略开始对第一名单中的各个用户进行催收。
相应地,若时间差小于第一预设时间差且大于第二预设时间差,则催收机器人110可以先调用处理进程分析第一名单中的催收任务是否能够在各个客户端设置的催收终止时间点之前完成,并根据能否完成的分析结果设置对应的催收策略,同时,在分析的过程中若监测到已到达催收机器人110的启动催收时刻,则调用并行的拨打进程按照第一名单中的各个用户的顺序对第一名单中的各个用户进行催收拨打,并在得到对应的催收策略后,控制并行的拨打进程按照对应的催收策略对第一名单中的各个用户进行催收拨打。
其中,第一预设时间差可以由本领域技术人员根据经验进行设置,或者也可以根据历史时段内确定出各次催收任务对应的催收策略的时长确定,比如为确定出各次催收任务对应的催收策略的平均时长,或者为确定出各次催收任务对应的催收策略的中位数时长,或者为确定出各次催收任务对应的催收策略的加权平均时长,催收任务越接近本次催收任务,则催收任务的权重越大,等等。
从硬件实现角度来说,催收机器人110的内部可以设置有线上生产环境和仿真环境两个环境,当获取到第一名单后,催收机器人110可以将第一名单同时推送到线上生产环境和仿真环境;线上生产环境用于执行正常的拨打流程,比如检测到到达催收机器人110的启动催收时间(比如8:00)时,即按照第一名单(或仿真环境发送的催收策略)中各个用户的顺序对各个用户依次拨打催收电话,并记录电话信息和用户的还款意愿(比如用户结束通话时的催收阶段),将每个用户的拨打结果发送给网贷机构对应的客户端,以使网贷机构执行跟进用户后续的还款情况。其中,催收阶段可以包括询问对方是否为本人、说明逾期情况、询问何时能还款、确认还款日期、结束这5个阶段。
相应地,仿真环境用于对第一名单对应的催收任务进行分析,确定对应的催收策略,并将对应的催收策略发送到线上生产环境,以使线上生产环境按照对应的催收策略执行催收任务。且,线上生产环境还可以将执行催收任务得到的各个用户的催收结果发送给仿真环境,以使仿真环境更新内部的各个参数,比如第一通话时长、第一模型参数、第二模型参数、历史时段内平均每小时发生电话号码下线的次数等。
在上述实现方式中,通过控制风险判断的过程与实际催收拨打的过程的并行执行,可以将风险判断作为辅助正常催收任务执行的手段,避免风险判断占用催收机器人正常拨打催收电话的时间,从而降低风险判断对正常催收任务的影响。
下面描述根据第一名单中的各个用户分析得到催收策略的具体实现过程。
具体实施中,催收机器人110在获取到第一名单后,可以使用第一模型对第一名单中的每个用户进行预测,从而确定出每个用户的用户类别;用户的用户类别可以包括第一用户类别,或者也可以包括第一用户类别和第二用户类别,若某一用户的用户类别为第一用户类别,则说明该用户会接听催收机器人拨打的催收电话,若某一用户的用户类别为第二用户类别,则说明该用户不会接听催收机器人拨打的催收电话。
步骤203,统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长。
在一种可能的实现方式中,当使用第一模型对第一名单中的全部用户预测结束后,催收机器人110可以统计预测结果中属于第一用户类别和第二用户类别的用户的数量,然后根据第一名单中属于第一用户类别的用户的数量和第一用户类别对应的第一通话时长、第一名单中属于第二用户类别的用户的数量和第二用户类别对应的第二通话时长,确定向第一名单中的全部用户拨打电话所需的第一时长。其中,第一通话时长用于标识每个接听电话的用户可能会耗费的通话时长,第二通话时长用于标识每个不接听电话的用户可能会耗费的通话时长,第一通话时长和第二通话时长可以由本领域技术人员根据经验进行设置,也可以根据业务需要进行设置,具体不作限定。
在一个示例中,第一通话时长可以根据历史时段内向接听电话的各个用户拨打电话所需的时长确定,而第二通话时长可以根据向用户拨打电话后等待接听的时长确定。举例来说,若历史时段为最近2周,则催收机器人110可以先从统计数据库中获取记录的最近2周内接听了催收机器人110拨打的催收电话的所有用户的通话时长(每个用户的通话时长是指从拨号开始到结束通话的总通话时长),然后取这些用户的通话时长的中位数作为第一通话时长,或者取这些用户的通话时长的平均值作为第一通话时长,等等;相应地,第二通话时长是指催收机器人110等待对方接听的等待时长,其根据设置的响铃次数而定,比如若设置等待8次电话声响后对方还未接听,则挂掉通话,则第二通话时长可以为这8次电话声响的总通话时长,由于每个未接听催收电话的用户的等待时长均相同,因此催收机器人110可以将第二通话时长设置为历史时段内任一个未接听催收电话的用户的等待时长。
在上述示例中,通过使用历史时段内向用户拨打催收电话的通话时长确定接听电话的用户的第一通话时长,使得第一通话时长结合了历史拨打信息的特征,从而能够准确标识每个接听电话的用户的通话时长,相应地,第二通话时长为等待接听的通话时长,从而能够准确标识每个不接听电话的用户的通话时长;如此,基于第一通话时长和第一模型预测出的接听电话的用户数量可以确定向第一名单中接听电话的用户拨打催收电话所需的总通话时长,通过第二通话和第一模型预测出的不接听电话的用户数量可以确定第一名单中不接听电话的用户拨打催收电话所需的总通话时长,从而预判出向第一名单中的全部用户拨打电话的总通话时长,该种方式基于历史数据进行分析,从而更加满足实际的业务情况,使得预判出的第一时长更为准确。
本发明实施例中,催收机器人110可以预先在运营商中申请多个电话号码,并使用多个电话号码共同对第一名单中的各个用户拨打催收电话,如此,催收机器人110在得到第一模型对第一名单中的全部用户的预测结果后,可以先根据属于第一用户类别的用户的数量和第一通话时长、属于第二用户类别的用户的数量和第二通话时长,确定向第一名单中的全部用户拨打电话的总通话时长,然后根据多个预先申请的电话号码和总通话时长确定第一时长。
相应地,催收机器人110可以直接将总通话时长与多个电话号码的数量的比值作为第一时长,然而,在实际拨打催收电话的过程中,电话号码随着拨打时长的增加会存在下线的可能,因此,若直接将总通话时长与多个电话号码的数量的比值作为第一时长,则可能会由于某些电话号码下线导致第一时长不准确。
基于此,作为一种可能的确定方式,催收机器人110可以按照如下方式确定第一时长:
具体实施中,催收机器人110可以先根据总通话时长与多个电话号码的数量确定向第一名单中的全部用户拨打电话所需的预测时长,并分析每个电话号码在预测时长内下线的概率,其中,每个电话号码下线的概率可以基于概率学理论确定,由于每个电话号码在开始拨打催收电话到下线的时间间隔t服从参数为λ的指数分布F(t),因此时间间隔t对应的概率密度函数f(t)为:
f(t)=λe^(-λt),t≥0
相应地,时间间隔t对应的指数分布F(t)可以为:
F(t)=1-e^(-λt),t≥0
其中,λ可以为设置为历史时段内平均每小时发生电话号码下线的次数,历史时段可以由本领域技术人员根据经验进行设置,比如可以为最近2周,如此,λ的值可以随着时间断更新。
如此,根据时间间隔t对应的指数分布F(t)可知,若预测时长Δt,则每个电话号码在预测时长内下线的概率可以为1-e^(-λΔt)。
进一步地,在确定每个电话号码下线的概率后,可以将下线的概率不大于第一预设阈值的电话号码作为可用的电话号码,如此,催收机器人110再根据总通话时长与可用的电话号码的数量确定向第一名单中的全部用户拨打电话所需的第一时长。若第一时长小于或等于设定时长,则说明即使在拨打过程中存在部分电话号码下线,催收机器人110也可以完成第一名单对应的催收任务,从而催收机器人110可以按照第一名单中的用户顺序继续拨打催收电话。相应地,若第一时长大于设定时长,说明若在拨打过程中存在部分电话号码下线,催收机器人110无法完成第一名单对应的催收任务,如此,催收机器人110可以再判断预测时长是否大于设定时长,若预测时长小于或等于设定时长,说明当拨打过程中不存在电话号码下线时,催收机器人110可以完成第一名单对应的催收任务,此时,若运营商支持催收机器人110申请备用电话号码,则催收机器人110可以向运营商申请备用电话号码,备用电话号码的数量可以大于或等于下线的概率大于第一预设阈值的电话号码的数量,若运营商不支持催收机器人110申请备用电话号码,催收机器人110可以从第一名单中获取催收成功率较高的部分用户组成第二名单。相应地,若预测时长大于设定时长,说明即使拨打过程中不存在电话号码下线,催收机器人110也无法完成第一名单对应的催收任务,此时,催收机器人110也可以根据运营商的支持情况确定申请备用电话号码或确定第二名单。
需要说明的是,上述仅是一种示例性的说明,并不构成对本方案的限定,具体实施中,当运营商支持催收机器人申请备用电话号码时,催收机器人也可以在申请备用电话号码的同时,从第一名单中获取催收成功率较高的部分用户组成第二名单,或者当运营商支持催收机器人申请备用电话号码时,催收机器人也可以不申请备用电话号码,而是从第一名单中获取催收成功率较高的部分用户组成第二名单,实现的方式可以由本领域技术人员根据需要进行设置,具体不作限定。
在上述确定方式中,通过判断第一时长内各个电话号码下线的概率,可以预先判断出在催收任务执行时段内可能会下线的电话号码的数量,如此,通过使用不会下线的电话号码的数量重新确定第一时长,可以提前预判到电话号码下线的风险,保证催收任务完成的准确性。
从硬件实现角度来说,仿真环境可以基于元胞模型的方式确定第一时长,仿真环境中可以设置有一维元胞模型,一维元胞模型用于存储第一名单中的全部用户,图3为本发明实施例提供的一种一维元胞模型的结构示意图,每个元胞用于标识一个用户,每个元胞具有左邻元胞和/或右邻元胞,比如元胞A为元胞B的左邻元胞,元胞C为元胞B的右邻元胞。且,每个元胞可以存在三种不同的状态,状态可以由颜色来标识,白色标识未拨打状态,灰色标识已拨打但未接听状态,黑色标识已拨打且已接听状态。
如此,当元胞的颜色由白色转换为灰色或黑色时,说明催收机器人110已对该元胞对应的用户进行了拨打催收,因此,元胞在从白色状态进入黑色状态时,可以停留第一通话时长,从白色状态进入灰色状态时停留第二通话时长,如此,每使用第一模型预测出一个元胞对应的用户的用户类别后,若用户属于第一用户类别,则可以等待第一通话时长(为了节省时间,也可以按照比例设置为小于第一通话时长的值)后将该元胞的颜色由白的更新为黑色,若用户属于第二用户类别,则可以等待第二通话时长(为了节省时间,也可以按照比例设置为小于第二通话时长的值,比例与第一通话时长所使用的比例相同)后将该元胞的颜色由白的更新为灰色,且该过程根据可用的电话号码的数量并行执行。当一维元胞模型中各个元胞的颜色均发生变化后,统计所执行的时长,从而根据比例确定第一时长。
步骤204,若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。
本发明实施例中,若第一时长超过设定时长,说明催收机器人110在设定时长内无法完成对第一名单的催收任务,如此,催收机器人110可以至少针对预测结果中会接听电话的每个用户,使用第二模型确定每个用户的还款概率,并根据每个用户的还款概率对各个用户进行排序,得到第二名单,从而使得催收机器人110按照第二名单对各个用户拨打催收电话。
在一个示例中,催收机器人110可以只使用第二模型确定预测结果中会接听电话的每个用户的还款概率,然后对会接听电话的各个用户按照还款概率由大到小(或由小到大)的顺序进行排序,得到第二名单;如此,当确定无法对全部用户进行催收拨打时,催收机器人110可以只对会接听电话且还款概率高的用户进行催收拨打,而无需对不会接听电话或会接听电话但还款概率低的用户进行催收拨打,从而提高催收拨打的效果,且可以降低催收机器人110的数据处理量,提高催收效率。
在另一个示例中,催收机器人110可以使用第二模型确定第一名单中的每个用户的还款概率,并对第一名单的各个用户按照还款概率由大到小(或由小到大)的顺序进行排序,得到第二名单;如此,当确定无法对全部用户进行催收拨打时,催收机器人110可以按照还款概率由高到低的顺序对第一名单中的各个用户进行催收拨打,从而能够尽可能的拨打更多的用户,且避免遗漏预测不会接听电话但实际会接听电话的用户,从而提高催收拨打的准确性。
相应地,若第一时长未超过设定时长,说明催收机器人110在设定时长内可以完成对第一名单的催收任务,如此,催收机器人110可以继续按照第一名单中各个用户的顺序对各个用户拨打催收电话。
在一种可能的风险场景中,虽然催收机器人110可以在设定时长内可以完成对第一名单的催收任务,但是催收机器人110在第一时长内拨打催收电话时又接收到了处理第三名单的催收任务的请求,如此,催收机器人110可以基于第一模型再确定向第三名单中的全部用户拨打电话所需的第二时长,若第一时长和第二时长之和超过设定时长,说明催收机器人110无法在设定时长内完成对第一名单和第三名单中的全部用户的催收任务,如此,催收机器人110可以拒绝接收第三名单。
在上述示例中,当接收到处理第三名单的催收任务的请求时,预先判断对第一名单和第三名单中的全部用户拨打催收电话的总通话时长,并在总通话时长超过设定时长时拒绝接收第三名单,可以避免接受无法完成的催收任务,降低客户的损失。
在另一种可能的风险场景中,虽然催收机器人110可以在设定时长内可以完成对第一名单的催收任务,但是催收机器人110在第一时长内存在某些电话号码突然下线,如此,催收机器人110可以基于总通话时长和未下线的电话号码的数量确定新的第一时长,或者,若催收机器人110已对第一名单中的部分用户拨打了催收电话,则催收机器人110可以基于第一模型确定对第一名单中未拨打催收电话的剩余用户拨打催收电话的总通话时长,然后基于总通话时长和未下线的电话号码的数量确定新的第一时长;进一步地,若新的第一时长小于设定时长,则说明催收机器人110使用未下线的电话号码无法在设定时长内完成对第一名单中的全部用户的催收任务,如此,催收机器人110可以向运维人员发送第一指示信息,以使运维人员确定是否向运营商申请备用电话号码。
本发明实施例中,在接收到第一名单后,通过先使用第一模型预测出第一名单中会接听电话的用户和不会接听电话的用户,并确定完成催收任务的时间,再在确定无法完成催收任务时使用第二模型确定出催收成功概率较高的用户,从而可以在确定催收任务无法完成时优先向催收成功率较高的用户拨打催收电话,提高催收效果。
上述过程描述了使用第一模型和第二模型确定催收策略的过程,下面分别描述训练得到第一模型和第二模型的过程。
第一模型
由于第一模型用于预测每个用户是否会接听电话,从而确定每个用户的用户类别,因此可以设置第一模型为分类模型。
具体实施中,催收机器人110可以先获取多个用户在各个特征下的特征值,然后针对于任一特征,根据多个用户中接听电话的用户的数量、未接听电话的用户的数量、特征的每个特征值对应的用户的数量、每个特征值对应的用户中接听电话的用户的数量和每个特征值对应的用户中未接听电话的用户的数量,确定特征与用户是否接听电话的行为的关联程度;进一步地,可以将与用户是否接听电话的行为的关联程度大于或等于第二预设阈值的特征作为强相关特征,然后根据多个用户中接听电话的用户的数量、未接听电话的用户的数量、强相关特征的各个特征值对应的用户的数量、强相关特征的各个特征值对应的用户中接听电话的用户的数量和强相关特征的各个特征值对应的用户中未接听电话的用户的数量,训练得到第一模型。
为了便于理解,下面举一个具体的示例描述第一模型的训练过程,在该示例中,第一模型基于朴素贝叶斯算法训练得到,由于朴素贝叶斯算法能够实时地根据增量数据更新模型参数,因此基于朴素贝叶斯算法训练第一模型可以提高训练和更新的效率。
具体实施中,可以先获取催收机器人110在历史时段中拨打过催收电话的多个(比如20000个)用户的数据,每个用户的数据包括用户在各个特征下的值,比如用户的性别、年龄、学历、职业、婚姻状态、常住城市、本次贷款数额、本次欠款数额、本次贷款逾期天数、历史贷款次数和历史贷款逾期次数等,还包括向该用户拨打催收电话时用户是否接听了催收电话的类别特征值。
显然地,由于上述各个特征中包括连续特征和离散特征,导致上述的各个特征无法用一个统一的评判标准进行统一化数据,因此,在一个示例中,针对于各个特征中的任一特征,若该特征属于离散特征,则统计多个用户在该特征下的各个值,并将各个值作为该特征的各个特征值;若该特征属于连续特征,则统计多个用户在该特征下的取值范围,并将取值范围划分为多个取值范围区间,为每个取值范围区间设置一个对应的特征值,从而得到该特征的各个特征值。如此,通过对连续特征的取值进行离散,可以使得各个特征(包括连续特征和离散特征)具有相同的离散的表现形式,从而在训练模型时可以使用各个离散的特征值作为训练数据,而无需对连续特征拟合概率分布函数,从而可以提高数据处理的效率。
举例来说,由于上述所述的性别、学历、职业、婚姻状态和常住城市的取值均为固定多个,因此这些特征为离散特征,用户在这些离散特征下的各个值即为这些离散特征的各个特征值;相应地,年龄、本次贷款数额、本次欠款数额、本次贷款逾期天数、历史贷款次数和历史贷款逾期次数的取值均为无限多个,因此这些特征为连续特征,如此,可以将这些连续特征中的连续的取值调整为离散取值。
比如,将年龄特征离散化为特征值1、特征值2、……、特征值7,特征值1至特征值7依次代表年龄(单位为岁)位于以下7个年龄区间:[0,15)、[15,25)、[25,35),[35,45),[45,55),[55,65),[65,∞);将本次贷款数额特征离散化为特征值1、特征值2、……、特征值5,特征值1至特征值5依次代表贷款数额(单位为万元)位于以下5个贷款数额区间:[0,0.5),[0.5,1.5),[1.5,3.5),[3.5,5),[5,∞);将本次欠款数额特征离散化为特征值1、特征值2、……、特征值5,特征值1至特征值5依次代表欠款数额(单位为万元)位于以下5个欠款数额区间:[0,0.5),[0.5,1.5),[1.5,3.5),[3.5,5),[5,∞);将本次贷款逾期天数特征离散化为特征值1、特征值2、……、特征值5,特征值1至特征值5依次代表逾期天数(单位为天)位于以下5个逾期天数区间:[0,1),[1,3),[3,5),[5,7),[7,∞);将历史贷款次数特征离散化为特征值1、特征值2、……、特征值5,特征值1至特征值5依次代表历史贷款次数(单位为次)位于以下5个历史贷款次数区间:[0,1),[1,2),[2,3),[3,5),[5,∞);将历史贷款逾期次数特征离散化特征值1、特征值2、……、特征值5,特征值1至特征值5依次代表历史贷款逾期次数(单位为次)位于以下5个历史贷款逾期次数区间:[0,1),[1,2),[2,3),[3,5),[5,∞)。
进一步地,针对于各个特征中的任一特征,可以计算该与类别特征之间的关联程度,关联程度可以由互信息表示,互信息是指一个随机变量包含另一个随机变量的信息的度量,互信息的值越大,表示这两个随机变量之间的耦合性越强,关联程度越大。其中,每个特征与用户是否接听电话的行为的类别特征的互信息可以满足如下条件:
Figure BDA0002284585940000221
其中,X为任一特征,R(X)为X特征的特征值集合,包括X特征的各个特征值,x为特征X的任一特征值;Y为用户是否接听电话的行为,R(Y)为用户是否接听电话的行为集合,包括用户接听电话的行为和用户未接听电话的行为,y为用户接听电话的行为或用户未接听电话的行为;I(X,Y)为特征X与用户是否接听电话的行为的关联程度,P(x,y)为特征值x对应的用户中执行了y行为的用户的数量占用户总数量的比例,P(x)为特征值x对应的用户占用户总数量的比例,P(y)为执行了y行为的用户的数量占用户总数量的比例。
以年龄特征为例,随机变量X表示年龄特征,随机变量Y表示电话是否被接听的类别特征,R(X)表示随机变量X的值域,由于年龄特征的各个特征值为特征值1~特征值7,因此R(X)={1,2,3,4,5,6,7},R(Y)表示随机变量Y的值域,由于电话是否被接听的类别特征的各个特征值为是或否,因此R(Y)={是,否}。针对于随机变量X的值域R(X)中的任一特征值(即x),P(x)表示年龄特征的特征值为x的用户数量占20000个用户数量的比例,针对于随机变量Y的值域R(Y)中的任一特征值(即y),P(y)表示类别特征的特征值为y的用户数量占20000个用户数量的比例,P(x,y)表示年龄特征的特征值为x且类别特征的特征值为y的用户数量占20000个用户数量的比例。
在上述实现方式中,通过使用某一特征的每个特征值与接听电话的行为相关的概率得到每个特征与接听电话的行为相关的关联程度,使得该关联程度综合了各个特征值的相关信息,由于使用的信息更为丰富,从而可以使得关联程度更为准确。
当确定出每个特征与用户是否接听电话的类别特征的互信息后,可以将互信息大于第三预设阈值的特征作为强相关特征,其中,第三预设阈值可以由本领域技术人员根据经验进行设置,比如可以为0.5,或者也可以为0.8,具体不作限定。
为了便于理解,假设强相关特征包括X1,X2,X3,…,Xn
进一步地,本发明实施例可以基于朴素贝叶斯使用20000个用户在强相关特征下的特征值训练得到第一模型,具体地说,针对于各个强相关特征的每个特征值(比如特征值组合为x1、x2、x3、……、xn,分别为强相关特征X1、强相关特征X2、强相关特征X3、……、强相关特征Xn的某个特征值)组合得到的样本数据,该样本数据是否会接听电话的类别
Figure BDA0002284585940000241
的取值可以为:
Figure BDA0002284585940000242
其中,P(xi|y)为后验概率,xi为特征值组合为x1、x2、x3、……、xn得到的样本数据。
基于概率学公式,P(xi|y)可以表示为:
Figure BDA0002284585940000243
当不考虑分母时,上式可以简化为:
Figure BDA0002284585940000244
由于某些特征值对应的样本数量可能为0,因此,为了避免计算过程中出现分母为0的情况,可以基于拉普拉斯平滑算法将上述公式中的P(y)和P(xi|y)改写为:
P(y)=(Ny+1)/(N+2)
P(xi│y)=(Ny,xi+1)/(Ny+Lxi)
其中,N为20000个用户的数量,Ny为类别特征的特征值为y的用户的数量,Ny,xi为类别特征的特征值为y且特征Xi的特征值为xi的用户的数量,Lxi为特征Xi的值域的大小,即特征值xi可能取值的数量。
如此,第一模型可以由上述各个公式标识,当预测任一用户在行为特征下的值时,可以使用
Figure BDA0002284585940000245
确定该用户在行为特征下的特征值为是的概率和该用户在行为特征下的特征值为否的概率,若该用户在行为特征下的特征值为是的概率大于该用户在行为特征下的特征值为否的概率,则确定该用户为会接听电话的用户,该用户的用户类别为第一用户类别,若该用户在行为特征下的特征值为否的概率大于该用户在行为特征下的特征值为是的概率,则确定该用户为不会接听电话的用户,该用户的用户类别为第二用户类别。
在一个示例中,在使用新的数据更新第一模型时,可以先根据新的数据中的全部用户在各个连续特征(即年龄,本次贷款数额,本次欠款数额,本次贷款逾期天数,历史贷款次数和历史贷款逾期次数)下的值对各个连续特征进行离散化,然后统计新的数据中接听电话的用户的数量和未接听电话的用户的数量,并以此更新第一模型对应的公式中的Ny以及Ny,xi,进而基于更新后的Ny以及Ny,xi更新Py与P(xi│y),从而完成对这第一模型的更新。
显然地,通过设置第一模型为分类模型,且由各个公式表示第一模型,使得第一模型能够快速且实时的完成更新,从而第一模型的更新效率较好;且,通过确定每个特征与接听电话的行为的关联程度,可以仅基于关联程度较高的特征训练得到第一模型,如此,参与训练的数据量较少,训练模型的效率较高;且,由于使用的训练数据更集中在与接听电话的行为强相关的特征数据上,因此第一模型的训练过程更为聚合,模型效果更好。
第二模型
本发明实施例中,第二模型可以为神经网络模型。
具体实施中,获取多个用户在各个特征下的特征值,每个特征的各个特征值由各个数值标识,针对于任一用户,根据该用户在每个特征下的特征值和每个特征的各个特征值构建得到该用户在每个特征下的特征向量,拼接该用户在各个特征下的特征向量,得到该用户对应的第一特征向量,相应的,根据该用户在是否还款的类别特征下的特征值值得到该用户对应的第二特征向量;如此,可以将多个用户对应的第一特征向量作为模型输入,得到多个用户还款的预测向量结果,并基于多个用户的第二特征向量和多个用户还款的预测向量结果调整第二模型的模型参数,得到优化的第二模型。
为了便于理解,下面举一个具体的示例描述第二模型的训练过程,在该示例中,第二模型可以包括输入层、隐含层和输出层,输入层、隐含层和输出层采用全连接结构,隐含层可以设置10个神经元节点,输出层可以设置2个神经元节点,隐含层的激活函数采用ReLU函数,输出层的激活函数采用Softmax函数,表示用户还款的概率值。
具体实施中,可以先获取催收机器人110在历史时段中拨打过催收电话的多个(比如50000个)用户的数据,每个用户的数据包括用户在各个特征下的值,比如用户的性别、年龄、学历、职业、婚姻状态、常住城市、本次贷款数额、本次欠款数额、本次贷款逾期天数、历史贷款次数和历史贷款逾期次数等,还包括向该用户拨打催收电话时用户是否还款的类别特征下的值。其中,用于训练第二模型的用户与用于训练第一模型的用户可以部分相同,也可以完全不同,具体不作限定。
进一步地,可以按照训练第一模型时的离散方法对各个连续特征进行离散化,然后使用one-hot编码将每个特征的各个特征值转化为数值形式;举例来说,由于性别特征存在有2个特征值(男,女),因此one-hot编码可以将性别特征的2个特征值转化为1行2列的向量,若某一用户的性别为男,则该用户在性别特征下的特征向量为(1,0);由于婚姻状态特征存在有4个特征值(未婚,已婚,丧偶,离婚),因此one-hot编码可以将婚姻状态特征的4个特征值转化为1行4列的向量,若某一用户的婚姻状态为丧偶,则该用户在婚姻状态特征下的特征向量为(0,0,1,0);相应地,one-hot编码可以将学历特征的11个特征值(小学,初中,高中,中专,职校,中技,专科,本科,硕士研究生,博士研究生,博士后)转化为1行11列的向量,将职业特征的13个特征值(农林牧渔水利业,工业,地质普查和勘探业,建筑业,交通运输业、邮电通信业,商业、公共饮食业、物资供应和仓储业,房地产管理、公用事业、居民服务和咨询服务业,卫生、体育和社会福利事业,教育、文化艺术和广播电视业,科学研究和综合技术服务业,金融、保险业,国家机关、党政机关和社会团体,其他行业)转化为1行13列的向量,将常住城市特征的338个特征值(337个主要城市,其他城市)转化为1行338列的向量,将年龄特征的7个特征值转化为1行7列的向量,将本次贷款数额特征的5个特征值转化为1行5列的向量,将本次欠款数额特征的5个特征值转化为1行5列的向量,将本次贷款逾期天数特征的5个特征值转化为1行5列的向量,将历史贷款次数特征的5个特征值转化为1行5列的向量,将历史贷款逾期次数特征的5个特征值转化为1行5列的向量。
如此,针对于任一用户,根据该用户在每个特征下的特征值确定该用户在每个特征下的特征向量,然后将该用户在各个特征下的特征向量首尾拼接,得到该用户对应的第一特征向量;根据上述分析可以,用户对应的第一特征向量可以为1行400列的一维向量。相应地,根据该用户在是否还款的类别特征下的特征值确定用户对应的第二特征向量,用户对应的第二特征向量可以为1行2列的一维向量,比如,若用户已还款,则该用户对应的第二特征向量可以为[1,0],若用户未还款,则该用户对应的第二特征向量可以为[0,1]。
进一步地,在得到50000个用户对应的特征向量(包括第一特征向量和第二特征向量)后,可以将这50000个特征向量划分为训练特征向量、测试特征向量和验证特征向量;其中,划分时可以按照随机比例进行划分,或者也可以按照预设比例划分,不作限定。假设将这50000个特征向量划分为35000个训练特征向量、10000个测试特征向量和5000个验证特征向量,则可以将35000个训练特征向量中的第一特征向量输入神经网络模型,以使神经网络模型输出35000个第二预测特征向量,然后基于这35000个第二预测特征向量和35000个训练特征向量中的第二特征向量调整神经网络模型的参数,得到第二模型。
相应地,10000个测试特征向量可以用于测试第二模型的模型效果,5000个验证特征向量可以用于验证第二模型的测试效果是否达到预设效果,10000个测试特征向量和5000个验证特征向量也可以用于优化第二模型的模型参数。
本发明实施例中,通过确定用户在每个特征下的特征向量,并拼接用户在各个特征下的特征向量值得到用户的特征向量,使得用户的特征向量能够综合每个特征的各个特征值的特征信息,信息更为全面,且表现形式更为简洁,如此,基于信息丰富且形式简洁的模型输入训练的得到的模型的效果更好,训练效率更高。
本发明的上述实施例中,获取第一名单,并使用第一模型确定第一名单中各用户的用户类别,所述第一名单中包括多个未执行预设行为的用户,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话;进一步地,统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长,若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。本发明实施例中,在接收到第一名单后,通过先使用第一模型预测出第一名单中的各用户是否会接听电话,并确定完成催收任务的时间,再在确定无法完成催收任务时使用第二模型确定出催收成功概率较高的用户,从而可以在确定催收任务无法完成时优先向催收成功率较高的用户拨打催收电话,提高催收效果。
针对上述方法流程,本发明实施例还提供一种数据处理装置,该装置的具体内容可以参照上述方法实施。
图4为本发明实施例提供的一种数据处理装置的结构示意图,包括:
获取模块401,用于获取第一名单;所述第一名单中包括多个未执行预设行为的用户;
确定模块402,用于使用第一模型确定第一名单中各用户的用户类别,其中,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话;
处理模块403,用于统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长;若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。
可选地,所述各用户的用户类别中还包括第二用户类别,所述第二用户类别表征用户不会接听所述催收系统拨打的电话;
所述获取模块401还用于:获取第一用户类别对应的第一通话时长和第二用户类别对应的第二通话时长;所述第一通话时长是根据历史时段内向接听电话的各个用户拨打电话的通话时长确定的;所述第二通话时长是根据向用户拨打电话后等待接听的通话时长确定的;
所述确定模块402具体用于:根据所述第一名单中属于第一用户类别的用户的数量和所述第一通话时长、所述第一名单中属于第二用户类别的用户的数量和所述第二通话时长,确定向所述第一名单中的全部用户拨打电话的总通话时长;基于所述总通话时长和可用的电话号码的数量,确定所述第一时长。
可选地,所述确定模块402通过如下方式确定所述可用的电话号码:
针对预先在运营商申请的多个电话号码,基于所述总通话时长和所述多个电话号码的数量,得到预测时长,确定所述多个电话号码在所述预测时长内下线的概率,将概率不大于第一预设阈值的电话号码作为所述可用的电话号码。
可选地,所述装置还包括拨打模块404,在所述确定模块402使用第一模型确定所述第一名单中的各用户的用户类别的同时,所述拨打模块404用于:
根据所述第一名单中各用户的联系方式,使用所述可用的电话号码向所述各用户拨打电话。
可选地,所述处理模块403还用于:
在所述第一时长未超过所述设定时长时,若在所述第一时长内接收到处理第三名单的请求消息,则基于所述第一模型确定向所述第三名单中的全部用户拨打电话所需的第二时长;
若所述第一时长和所述第二时长之和超过所述设定时长,则拒绝接收所述第三名单。
可选地,所述第一模型为分类模型;所述处理模块403还用于:
获取多个用户在各个特征下的特征值;
针对于任一特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述特征的每个特征值对应的用户的数量、每个特征值对应的用户中接听电话的用户的数量和每个特征值对应的用户中未接听电话的用户的数量,确定所述特征与用户是否接听电话的行为的关联程度;
将与用户是否接听电话的行为的关联程度大于或等于第二预设阈值的特征作为强相关特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述强相关特征的各个特征值对应的用户的数量、所述强相关特征的各个特征值对应的用户中接听电话的用户的数量和所述强相关特征的各个特征值对应的用户中未接听电话的用户的数量,训练得到所述第一模型。
可选地,每个特征与用户是否接听电话的行为的关联程度满足如下条件:
Figure BDA0002284585940000301
其中,X为任一特征,R(X)为X特征的特征值集合,包括X特征的各个特征值,x为特征X的任一特征值;Y为用户是否接听电话的行为,R(Y)为用户是否接听电话的行为集合,包括用户接听电话的行为和用户未接听电话的行为,y为用户接听电话的行为或用户未接听电话的行为;I(X,Y)为特征X与用户是否接听电话的行为的关联程度,P(x,y)为特征值x对应的用户中执行了y行为的用户的数量占用户总数量的比例,P(x)为特征值x对应的用户占用户总数量的比例,P(y)为执行了y行为的用户的数量占用户总数量的比例。
可选地,所述第二模型为神经网络模型,所述处理模块403还用于:
获取多个用户在各个特征下的特征值;
针对于任一用户,根据所述用户在每个特征下的特征值和所述每个特征的各个特征值构建所述用户在所述每个特征下的特征向量,拼接所述用户在各个特征下的特征向量,得到所述用户对应的第一特征向量;根据所述用户是否执行所述预设行为得到所述用户对应的第二特征向量;
将所述多个用户对应的第一特征向量作为模型输入,得到所述多个用户执行所述预设行为的预测结果,基于所述多个用户的第二特征向量和所述多个用户执行所述预设行为的预测结果调整模型参数,得到所述第二模型。
可选地,所述处理模块403还用于通过如下方式得到每个特征的各个特征值:
若所述特征属于离散特征,则统计所述多个用户在所述特征下的各个值,将所述各个值作为所述特征的各个特征值;若所述特征属于连续特征,则统计所述多个用户在所述特征下的取值范围,将所述取值范围划分为多个取值范围区间,为每个取值范围区间设置一个对应的特征值,得到所述特征的各个特征值。
从上述内容可以看出:本发明的上述实施例中,获取第一名单,并使用第一模型确定第一名单中各用户的用户类别,所述第一名单中包括多个未执行预设行为的用户,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话;进一步地,统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长,若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。本发明实施例中,在接收到第一名单后,通过先使用第一模型预测出第一名单中的各用户是否会接听电话,并确定完成催收任务的时间,再在确定无法完成催收任务时使用第二模型确定出催收成功概率较高的用户,从而可以在确定催收任务无法完成时优先向催收成功率较高的用户拨打催收电话,提高催收效果。
基于同一发明构思,本发明实施例还提供了一种计算设备,如图5所示,包括至少一个处理器501,以及与至少一个处理器连接的存储器502,本发明实施例中不限定处理器501与存储器502之间的具体连接介质,图5中处理器501和存储器502之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本发明实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前述的数据处理方法中所包括的步骤。
其中,处理器501是计算设备的控制中心,可以利用各种接口和线路连接计算设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据,从而实现数据处理。可选的,处理器501可包括一个或多个处理单元,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理下发指令。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合数据处理实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read OnlyMemory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行图2任意所述的数据处理方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种数据处理方法,其特征在于,所述数据处理方法应用于催收系统,所述方法包括:
获取第一名单;所述第一名单中包括多个未执行预设行为的用户;
使用第一模型确定第一名单中各用户的用户类别,其中,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话;
统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长;
若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。
2.根据权利要求1所述的方法,其特征在于,所述各用户的用户类别中还包括第二用户类别,所述第二用户类别表征用户不会接听所述催收系统拨打的电话;
所述基于所述数量确定第一时长,包括:
获取第一用户类别对应的第一通话时长和第二用户类别对应的第二通话时长;所述第一通话时长是根据历史时段内向接听电话的各个用户拨打电话的通话时长确定的;所述第二通话时长是根据向用户拨打电话后等待接听的通话时长确定的;
根据所述第一名单中属于第一用户类别的用户的数量和所述第一通话时长、所述第一名单中属于第二用户类别的用户的数量和所述第二通话时长,确定向所述第一名单中的全部用户拨打电话的总通话时长;
基于所述总通话时长和可用的电话号码的数量,确定所述第一时长。
3.根据权利要求2所述的方法,其特征在于,所述可用的电话号码通过如下方式确定:
针对预先在运营商申请的多个电话号码,基于所述总通话时长和所述多个电话号码的数量,得到预测时长,确定所述多个电话号码在所述预测时长内下线的概率,将概率不大于第一预设阈值的电话号码作为所述可用的电话号码。
4.根据权利要求3所述的方法,其特征在于,在所述使用第一模型确定第一名单中各用户的用户类别的同时,还包括:
根据所述第一名单中各用户的联系方式,使用所述可用的电话号码向所述各用户拨打电话。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
在所述第一时长未超过所述设定时长时,若在所述第一时长内接收到处理第三名单的请求消息,则基于所述第一模型确定向所述第三名单中的全部用户拨打电话所需的第二时长;
若所述第一时长和所述第二时长之和超过所述设定时长,则拒绝接收所述第三名单。
6.根据权利要求1所述的方法,其特征在于,所述第一模型为分类模型,所述第一模型通过如下方式得到:
获取多个用户在各个特征下的特征值;针对于任一特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述特征的每个特征值对应的用户的数量、每个特征值对应的用户中接听电话的用户的数量和每个特征值对应的用户中未接听电话的用户的数量,确定所述特征与用户是否接听电话的行为的关联程度;
将与用户是否接听电话的行为的关联程度大于或等于第二预设阈值的特征作为强相关特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述强相关特征的各个特征值对应的用户的数量、所述强相关特征的各个特征值对应的用户中接听电话的用户的数量和所述强相关特征的各个特征值对应的用户中未接听电话的用户的数量,训练得到所述第一模型。
7.根据权利要求6所述的方法,其特征在于,每个特征与用户是否接听电话的行为的关联程度满足如下条件:
Figure FDA0002284585930000031
其中,X为任一特征,R(X)为X特征的特征值集合,包括X特征的各个特征值,x为特征X的任一特征值;Y为用户是否接听电话的行为,R(Y)为用户是否接听电话的行为集合,包括用户接听电话的行为和用户未接听电话的行为,y为用户接听电话的行为或用户未接听电话的行为;I(X,Y)为特征X与用户是否接听电话的行为的关联程度,P(x,y)为特征值x对应的用户中执行了y行为的用户的数量占用户总数量的比例,P(x)为特征值x对应的用户占用户总数量的比例,P(y)为执行了y行为的用户的数量占用户总数量的比例。
8.根据权利要求1所述的方法,其特征在于,所述第二模型为神经网络模型,所述第二模型通过如下方式得到:
获取多个用户在各个特征下的特征值;
针对于任一用户,根据所述用户在每个特征下的特征值和所述每个特征的各个特征值构建所述用户在所述每个特征下的特征向量,拼接所述用户在各个特征下的特征向量,得到所述用户对应的第一特征向量;根据所述用户是否执行所述预设行为得到所述用户对应的第二特征向量;
将所述多个用户对应的第一特征向量作为模型输入,得到所述多个用户执行所述预设行为的预测结果,基于所述多个用户的第二特征向量和所述多个用户执行所述预设行为的预测结果调整模型参数,得到所述第二模型。
9.根据权利要求6至8中任一项所述的方法,其特征在于,每个特征的各个特征值通过如下方式得到:
若所述特征属于离散特征,则统计所述多个用户在所述特征下的各个值,将所述各个值作为所述特征的各个特征值;若所述特征属于连续特征,则统计所述多个用户在所述特征下的取值范围,将所述取值范围划分为多个取值范围区间,为每个取值范围区间设置一个对应的特征值,得到所述特征的各个特征值。
10.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一名单;所述第一名单中包括多个未执行预设行为的用户;
确定模块,用于使用第一模型确定第一名单中各用户的用户类别,其中,所述各用户的用户类别中包括第一用户类别,所述第一用户类别表征用户会接听所述催收系统拨打的电话;
处理模块,用于统计所述第一名单中属于各个用户类别的用户的数量,并基于所述数量确定第一时长,所述第一时长表征向所述第一名单中的全部用户拨打电话所需的时长;若所述第一时长超过设定时长,则使用第二模型确定属于所述第一用户类别的每个用户执行所述预设行为的概率,并根据所述概率确定第二名单;所述第二名单用于指示在当前时刻之后需拨打电话的用户。
11.根据权利要求10所述的装置,其特征在于,所述各用户的用户类别中还包括第二用户类别,所述第二用户类别表征用户不会接听所述催收系统拨打的电话;
所述获取模块还用于:获取第一用户类别对应的第一通话时长和第二用户类别对应的第二通话时长;所述第一通话时长是根据历史时段内向接听电话的各个用户拨打电话的通话时长确定的;所述第二通话时长是根据向用户拨打电话后等待接听的通话时长确定的;
所述确定模块具体用于:根据所述第一名单中属于第一用户类别的用户的数量和所述第一通话时长、所述第一名单中属于第二用户类别的用户的数量和所述第二通话时长,确定向所述第一名单中的全部用户拨打电话的总通话时长;基于所述总通话时长和可用的电话号码的数量,确定所述第一时长。
12.根据权利要求11所述的装置,其特征在于,所述确定模块通过如下方式确定所述可用的电话号码:
针对预先在运营商申请的多个电话号码,基于所述总通话时长和所述多个电话号码的数量,得到预测时长,确定所述多个电话号码在所述预测时长内下线的概率,将概率不大于第一预设阈值的电话号码作为所述可用的电话号码。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括拨打模块,在所述确定模块使用第一模型确定第一名单中各用户的用户类别的同时,所述拨打模块用于:
根据所述第一名单中各用户的联系方式,使用所述可用的电话号码向各用户拨打电话。
14.根据权利要求10至13中任一项所述的装置,其特征在于,所述处理模块还用于:
在所述第一时长未超过所述设定时长时,若在所述第一时长内接收到处理第三名单的请求消息,则基于所述第一模型确定向所述第三名单中的全部用户拨打电话所需的第二时长;
若所述第一时长和所述第二时长之和超过所述设定时长,则拒绝接收所述第三名单。
15.根据权利要求10所述的装置,其特征在于,所述第一模型为分类模型;所述处理模块还用于:
获取多个用户在各个特征下的特征值;
针对于任一特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述特征的每个特征值对应的用户的数量、每个特征值对应的用户中接听电话的用户的数量和每个特征值对应的用户中未接听电话的用户的数量,确定所述特征与用户是否接听电话的行为的关联程度;
将与用户是否接听电话的行为的关联程度大于或等于第二预设阈值的特征作为强相关特征,根据所述多个用户中接听电话的用户的数量、未接听电话的用户的数量、所述强相关特征的各个特征值对应的用户的数量、所述强相关特征的各个特征值对应的用户中接听电话的用户的数量和所述强相关特征的各个特征值对应的用户中未接听电话的用户的数量,训练得到所述第一模型。
16.根据权利要求15所述的装置,其特征在于,每个特征与用户是否接听电话的行为的关联程度满足如下条件:
Figure FDA0002284585930000061
其中,X为任一特征,R(X)为X特征的特征值集合,包括X特征的各个特征值,x为特征X的任一特征值;Y为用户是否接听电话的行为,R(Y)为用户是否接听电话的行为集合,包括用户接听电话的行为和用户未接听电话的行为,y为用户接听电话的行为或用户未接听电话的行为;I(X,Y)为特征X与用户是否接听电话的行为的关联程度,P(x,y)为特征值x对应的用户中执行了y行为的用户的数量占用户总数量的比例,P(x)为特征值x对应的用户占用户总数量的比例,P(y)为执行了y行为的用户的数量占用户总数量的比例。
17.根据权利要求10所述的装置,其特征在于,所述第二模型为神经网络模型,所述处理模块还用于:
获取多个用户在各个特征下的特征值;
针对于任一用户,根据所述用户在每个特征下的特征值和所述每个特征的各个特征值构建所述用户在所述每个特征下的特征向量,拼接所述用户在各个特征下的特征向量,得到所述用户对应的第一特征向量;根据所述用户是否执行所述预设行为得到所述用户对应的第二特征向量;
将所述多个用户对应的第一特征向量作为模型输入,得到所述多个用户执行所述预设行为的预测结果,基于所述多个用户的第二特征向量和所述多个用户执行所述预设行为的预测结果调整模型参数,得到所述第二模型。
18.根据权利要求15至17中任一项所述的装置,其特征在于,所述处理模块还用于通过如下方式得到每个特征的各个特征值:
若所述特征属于离散特征,则统计所述多个用户在所述特征下的各个值,将所述各个值作为所述特征的各个特征值;若所述特征属于连续特征,则统计所述多个用户在所述特征下的取值范围,将所述取值范围划分为多个取值范围区间,为每个取值范围区间设置一个对应的特征值,得到所述特征的各个特征值。
19.一种计算设备,其特征在于,包括至少一个处理器以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~9任一权利要求所述的方法。
20.一种计算机可读存储介质,其特征在于,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行权利要求1~9任一权利要求所述的方法。
CN201911155084.5A 2019-11-22 2019-11-22 一种数据处理方法及装置 Active CN111091460B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911155084.5A CN111091460B (zh) 2019-11-22 2019-11-22 一种数据处理方法及装置
PCT/CN2020/129121 WO2021098652A1 (zh) 2019-11-22 2020-11-16 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911155084.5A CN111091460B (zh) 2019-11-22 2019-11-22 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111091460A true CN111091460A (zh) 2020-05-01
CN111091460B CN111091460B (zh) 2024-07-02

Family

ID=70393812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911155084.5A Active CN111091460B (zh) 2019-11-22 2019-11-22 一种数据处理方法及装置

Country Status (2)

Country Link
CN (1) CN111091460B (zh)
WO (1) WO2021098652A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098652A1 (zh) * 2019-11-22 2021-05-27 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN113837861A (zh) * 2021-09-22 2021-12-24 平安银行股份有限公司 基于用户分组的催收方法、装置、存储介质及设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144507B (zh) * 2019-12-30 2021-06-08 北京百度网讯科技有限公司 情感分析模型预训练方法、装置及电子设备
CN115297212B (zh) * 2022-06-25 2024-09-27 上海浦东发展银行股份有限公司 基于机器学习的语音机器人催收方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952155A (zh) * 2017-03-08 2017-07-14 深圳前海纵腾金融科技服务有限公司 一种基于信用评分的催收方法及装置
CN109559221A (zh) * 2018-11-20 2019-04-02 中国银行股份有限公司 基于用户数据的催收方法、装置和存储介质
WO2019091024A1 (zh) * 2017-11-13 2019-05-16 平安科技(深圳)有限公司 一种电话催收方法、装置、电子设备及介质
CN110475033A (zh) * 2019-08-21 2019-11-19 深圳前海微众银行股份有限公司 智能拨号方法、装置、设备与计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6680663B2 (ja) * 2016-11-09 2020-04-15 ヤフー株式会社 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム
CN109214936B (zh) * 2018-09-03 2024-07-30 中国平安人寿保险股份有限公司 一种费用催收方法、系统及终端设备
CN109685336A (zh) * 2018-12-10 2019-04-26 深圳市小牛普惠投资管理有限公司 催收任务分配方法、装置、计算机设备及存储介质
CN111091460B (zh) * 2019-11-22 2024-07-02 深圳前海微众银行股份有限公司 一种数据处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952155A (zh) * 2017-03-08 2017-07-14 深圳前海纵腾金融科技服务有限公司 一种基于信用评分的催收方法及装置
WO2019091024A1 (zh) * 2017-11-13 2019-05-16 平安科技(深圳)有限公司 一种电话催收方法、装置、电子设备及介质
CN109559221A (zh) * 2018-11-20 2019-04-02 中国银行股份有限公司 基于用户数据的催收方法、装置和存储介质
CN110475033A (zh) * 2019-08-21 2019-11-19 深圳前海微众银行股份有限公司 智能拨号方法、装置、设备与计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098652A1 (zh) * 2019-11-22 2021-05-27 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN113837861A (zh) * 2021-09-22 2021-12-24 平安银行股份有限公司 基于用户分组的催收方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111091460B (zh) 2024-07-02
WO2021098652A1 (zh) 2021-05-27

Similar Documents

Publication Publication Date Title
CN111091460B (zh) 一种数据处理方法及装置
CN107844915B (zh) 一种基于话务预测的呼叫中心的自动排班方法
US7328218B2 (en) Constrained tree structure method and system
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
CN106952159B (zh) 一种不动产抵押品风险控制方法、系统及存储介质
CN111444952A (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN109816483B (zh) 信息推荐方法及装置、可读存储介质
CN111275491A (zh) 一种数据处理方法及装置
CN110288350A (zh) 用户价值预测方法、装置、设备及存储介质
CN111061948A (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN111695084A (zh) 模型生成方法、信用评分生成方法、装置、设备及存储介质
CN112785089A (zh) 坐席业务配置方法、装置、电子设备及存储介质
CN115423578A (zh) 基于微服务容器化云平台的招投标方法和系统
CN109146667B (zh) 一种基于量化统计的外部接口综合应用模型的构建方法
CN113191880A (zh) 银行柜员终端加钞建议确定方法及装置
CN113450158A (zh) 银行活动信息推送方法及装置
CN117575773A (zh) 业务数据的确定方法、装置、计算机设备、存储介质
CN117196630A (zh) 交易风险预测方法、装置、终端设备以及存储介质
CN116645134A (zh) 一种信用卡分期的推荐方法、装置、设备及介质
CN115099934A (zh) 一种高潜客户识别方法、电子设备和存储介质
CN116502173A (zh) 一种状态识别方法、装置、存储介质及设备
CN118586997A (zh) 构建零售信用风险预测模型的方法和零售信贷Scoresigmam2b模型
Li et al. Deep neural networks: predictive research on customer turnover caused by enterprise marketing problems
CN118200393A (zh) 一种消息推送方法和装置
CN117236506A (zh) 基于遗传算法的银行外呼资源的分配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant