CN110599324A - 一种用于回款率预测的方法和装置 - Google Patents

一种用于回款率预测的方法和装置 Download PDF

Info

Publication number
CN110599324A
CN110599324A CN201910678998.3A CN201910678998A CN110599324A CN 110599324 A CN110599324 A CN 110599324A CN 201910678998 A CN201910678998 A CN 201910678998A CN 110599324 A CN110599324 A CN 110599324A
Authority
CN
China
Prior art keywords
call
text
model
features
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910678998.3A
Other languages
English (en)
Inventor
李盟
陈森盛
孙烨麒
向彪
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910678998.3A priority Critical patent/CN110599324A/zh
Publication of CN110599324A publication Critical patent/CN110599324A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种用于回款率预测的方法和装置。该方法包括对贷款逾期客户和客服之间的通话语音建立声学模型和语言模型;将通话语音识别成通话文本;对通话文本进行文本挖掘以标识逾期客户的逾期原因、还款能力、还款意愿、特殊需求等多维度信息;利用通话文本挖掘的信息以及通话行为信息对回款率建模;以及预测用户未来的回款率以使得能够进行差异化催收。

Description

一种用于回款率预测的方法和装置
技术领域
本公开涉及信息处理和应用,尤其涉及一种用于回款率预测的方法和装置。
背景技术
2015年开始随着互金和现金贷的兴起,导致催收市场发生了翻天腹地的变化。对于很多新兴金融公司来讲,回收率已经取代合规成为了排在第一位的指标,行业准入门槛大幅度降低,并且由于互金及现金贷逾期体量较大,导致市场对催收的需求急剧增加。
然而,用于催收的传统回款率模型忽视通话内容和通话行为信息。传统回款率模型主要利用客户贷前的个人信息和逾期情况等对回款率进行建模。在客户逾期之后,尤其是逾期时间较长的情况下,客户在贷前的个人信息和逾期情况对于回款率的区分度并不高,无法有效的预测回款率。
在传统的回款率预测流程中,客服通常在通话之后采取人工方式提炼客户信息,这具有以下缺点:
(1)客服在和客户通话之后需要额外进行客户信息提炼和记录的工作,降低了客服的工作效率;
(2)客服从通话中提炼客户信息是一个主观的任务,很难保证人工打标签的准确率和一致性;
(3)客户在通话过程中所表达的信息是丰富且多维度的,客服很难将所有有效的信息全部记录,极容易出现有效信息遗漏丢失的情况;以及
(4)为了保证客服从通话中提炼客户信息的准确性和一致性,需要对客服安排岗前培训,还可能需要增加人工质检的环节,这些都增加了成本。
因此,对传统的回款率预测方法和流程进行改进是合乎需要的。
发明内容
提供本发明内容来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明正是针对上述技术问题而做出的。具体而言,本发明通过机器学习算法有效利用通话信息以及通话行为来全链路、自动化地实现逾期客户的回款率预测。在本发明的各实施例中,通过语音转文本模型、文本挖掘模型和回款率预测模型来自动、实时地完成贷后客户的回款率预测,从而赋能差异化催收策略。
当贷款客户产生逾期行为之后,客服会和逾期客户进行电话沟通,来提醒客户还款、了解用户的逾期原因和经济状况等。这些通话内容中蕴含大量有关客户的社会属性、逾期原因、还款能力、还款意愿、特殊需求等多维度的信息,并且这些信息是随着时间推移不断变化和累积的信息。
这些信息对于后续的回款率预测具有很强的可解释性。例如:有些用户在通话中提到“忘还了”、“不记得”等说法的时候,体现的是用户的一种非故意的逾期原因,在实际数据中可以发现,有类似信息的用户的还款率要显著高于平均水平。又比如有些用户在通话中提到“不想还”、“拒绝”等说法的时候,体现的是还款意愿较差,在实际数据中可以发现,有类似信息的用户的还款率要显著低于平均水平。这些信息可以有效用于预测客户后续的回款率。同时客服和客户之间的通话行为,如通话次数、时间、接通率等信息,也会对客户的回款率有一定的区分作用。
本发明利用传统催收方法中容易被忽略的贷后通话信息,包括通话内容以及通话行为这两方面的信息,对逾期客户,尤其是逾期时间较长的客户的后续回款率有更强的预测力。
在本发明的一个实施例中,提供了一种用于回款率预测的方法,该方法包括:
通过声学模型和语言模型来将通话语音转换成通话文本;
从所述通话文本中提取文本特征;
对所述通话文本打标以生成客户标签;
使用所述客户标签和所述文本特征来训练文本挖掘模型;
使用经训练的文本挖掘模型来将所述通话文本识别为客户标识信息;
从通话行为中提取通话行为特征;
使用所述客户标识信息、所述通话行为特征以及作为标注的所述通话行为后不同周期的回款率来训练回款率预测模型;以及
使用所述回款率预测模型来预测回款率。
在本发明的另一个实施例中,提供了一种用于回款率预测的系统,该系统包括:
用于通过声学模型和语言模型来将通话语音转换成通话文本的装置;
用于从所述通话文本中提取文本特征的装置;
用于对所述通话文本打标以生成客户标签的装置;
用于使用所述客户标签和所述文本特征来训练文本挖掘模型的装置;
用于使用经训练的文本挖掘模型来将所述通话文本识别为客户标识信息的装置;
用于从通话行为中提取通话行为特征的装置;
用于使用所述客户标识信息、所述通话行为特征以及作为标注的所述通话行为后不同周期的回款率来训练回款率预测模型的装置;以及
用于使用所述回款率预测模型来预测回款率的装置。
在本发明的又一实施例中,提供了一种存储用于回款率预测的指令的计算机可读存储介质,所述指令包括:
用于通过声学模型和语言模型来将通话语音转换成通话文本的指令;
用于从所述通话文本中提取文本特征的指令;
用于对所述通话文本打标以生成客户标签的指令;
用于使用所述客户标签和所述文本特征来训练文本挖掘模型的指令;
用于使用经训练的文本挖掘模型来将所述通话文本识别为客户标识信息的指令;
用于从通话行为中提取通话行为特征的指令;
用于使用所述客户标识信息、所述通话行为特征以及作为标注的所述通话行为后不同周期的回款率来训练回款率预测模型的指令;以及
用于使用所述回款率预测模型来预测回款率的指令。
在结合附图研读了下文对本发明的具体示例性实施例的描述之后,本发明的其他方面、特征和实施例对于本领域普通技术人员将是明显的。尽管本发明的特征在以下可能是针对某些实施例和附图来讨论的,但本发明的全部实施例可包括本文所讨论的有利特征中的一个或多个。换言之,尽管可能讨论了一个或多个实施例具有某些有利特征,但也可以根据本文讨论的本发明的各种实施例使用此类特征中的一个或多个特征。以类似方式,尽管示例性实施例在下文可能是作为设备、系统或方法实施例进行讨论的,但是应当领会,此类示例性实施例可以在各种设备、系统、和方法中实现。
附图说明
为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中阐示。然而应该注意,附图仅阐示了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。
图1、2A和2B示出了其中可实现本发明的各实施例的各种用户计算设备。
图3示出了根据本发明的一个实施例的其中可实现本发明的各实施例的服务器计算设备。
图4示出了根据本发明的一个实施例的智能催收模块的框图。
图5示出了根据本发明的一个实施例的语音转文本组件的框图。
图6示出了根据本发明的一个实施例的文本挖掘组件的框图。
图7示出了根据本发明的一个实施例的回款率预测组件的框图。
图8示出了根据本发明的一个实施例的用于智能催收的方法的流程图。
图9示出了根据本发明的一个实施例的Skip-gram的网络结构。
图10示出了根据本发明的一个实施例的GBDT与LR的组合模型。
具体实施方式
以下将参考形成本发明一部分并示出各具体示例性实施例的附图更详尽地描述各个实施例。然而,各实施例可以以许多不同的形式来实现,并且不应将其解释为限制此处所阐述的各实施例;相反地,提供这些实施例以使得本公开变得透彻和完整,并且将这些实施例的范围完全传达给本领域普通技术人员。各实施例可按照方法、系统或设备来实施。因此,这些实施例可采用硬件实现形式、全软件实现形式或者结合软件和硬件方面的实现形式。因此,以下具体实施方式并非是局限性的。
各流程图中的步骤可通过硬件(例如,处理器、引擎、存储器、电路)、软件(例如,操作系统、应用、驱动器、机器/处理器可执行指令)或其组合来执行。如本领域普通技术人员将理解的,各实施例可以包括比示出的更多或更少的步骤。
图1、2A、2B、3及相关联的描述提供了本文描述的智能催收模块可在其中实现的各种操作环境的讨论。然而,关于图1-3所示出和讨论的设备和系统是用于示例和说明的目的,而非对可被用于实施本文所述的本发明的各实施例的大量计算设备配置的限制。
图1是示出可用来实施本发明的各实施例的台式计算设备100的示例物理组件的框图。以下描述的计算设备组件可适用于上述计算设备。在一基本配置中,台式计算设备100可以包括至少一个处理单元102和系统存储器104。取决于计算设备的配置和类型,系统存储器104可以包括,但不限于,易失性存储器(例如,随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM))、闪存或任何组合。系统存储器104可以包括操作系统105、一个或多个程序模块106,且可以包括web浏览器应用120。例如,操作系统105 可适用于控制台式计算设备100的操作。在一个实施例中,程序模块106可包括安装在台式计算设备100上的智能催收模块26。应注意,智能催收模块26 可以作为单独的模块或者作为另一模块中的子模块来实现。此外,本发明的各实施方式可以结合图形库、其他操作系统、或任何其他应用程序来实践,且不限于任何特定应用程序或系统。该基本配置在图1中由虚线108内的那些组件示出。
台式计算设备100可具有附加特征或功能。例如,台式计算设备100还可包括附加数据存储设备(可移动和/或不可移动),诸如例如,磁盘、光盘、或磁带。这些附加存储由可移动存储109和不可移动存储110示出。
如上所述,可以在系统存储器104中存储包括操作系统105在内的多个程序模块和数据文件。当在处理单元102上执行时,程序模块106可执行各个过程,包括与如下所述的方法有关的操作。下述过程是示例,且处理单元102可执行其他过程。根据本发明的各实施方式可以使用的其他程序模块可以包括电子邮件和联系人应用、字处理应用、电子数据表应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。
一般而言,根据本发明的各实施方式,程序模块可以包括可以执行特定任务或可以实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本发明的各实施方式可用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的各实施方式也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。
此外,本发明的各实施方式可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实现。例如,可以通过片上系统(SOC)来实施本发明的各实施例,其中,可以将图1中示出的每个或许多组件集成到单个集成电路上。这样的 SOC设备可包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能,所有这些都被集成到(或“烧录到”)芯片基板上作为单个集成电路。当通过SOC操作时,在此所述的关于管理器26的功能可以通过与计算设备/系统100的其他组件一起集成在单个集成电路(芯片)上的应用专用逻辑来操作。本发明的各实施方式还可以使用能够执行诸如,例如,AND (与)、OR(或)和NOT(非)等逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的各实施方式可以在通用计算机或任何其他电路或系统中实现。
例如,本发明的各实施方式可被实现为计算机进程(方法)、计算系统或诸如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机系统可读并编码了用于执行计算机进程的指令的计算机程序的计算机存储介质。
如这里所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器104、可移动存储109和不可移动存储110都是计算机存储介质(即,存储器存储)的示例。计算机存储介质可以包括,但不限于,RAM、 ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或可用于存储信息且可以由台式计算设备100访问的任何其他介质。任何这样的计算机存储介质都可以是设备100的一部分。台式计算设备100还可以具有输入设备112,如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可包括诸如显示器、扬声器、打印机等输出设备114。上述设备是示例且可以使用其他设备。
相机和/或某种其他传感设备可操作来记录一个或多个用户以及捕捉计算设备的用户作出的运动和/或姿势。传感设备还可操作来捕捉诸如通过话筒口述的单词和/或捕捉来自用户的诸如通过键盘和/或鼠标(未描绘)的其他输入。传感设备可包括能够检测用户的移动的任何运动检测设备。
如这里所使用的术语计算机可读介质还包括通信介质。通信介质由诸如载波或其他传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据来体现,并包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。
图2A和2B示出可用来实施本发明的各实施例的合适的移动计算环境,例如移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图2A,示出了用于实现各实施例的示例移动计算设备200。在一基本配置中,移动计算设备200是具有输入元件和输出元件两者的手持式计算机。输入元件可包括允许用户将信息输入到移动计算设备200中的触摸屏显示器205和输入按钮 210。移动计算设备200还可结合允许进一步的用户输入的可选的侧面输入元件215。可选的侧面输入元件215可以是旋转开关、按钮、或任何其他类型的手动输入元件。在替代实施例中,移动计算设备200可结合更多或更少的输入元件。例如,在某些实施例中,显示器205可以不是触摸屏。在又一替代实施例中,移动计算设备是便携式电话系统,如具有显示器205和输入按钮210的蜂窝电话。移动计算设备200还可包括可选的小键盘235。可选的小键盘235 可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。
移动计算设备200结合输出元件,如可显示图形用户界面(GUI)的显示器205。其他输出元件包括扬声器225和LED 220。另外,移动计算设备200 可包含振动模块(未示出),该振动模块使得移动计算设备200振动以将事件通知给用户。在又一实施例中,移动计算设备200可结合耳机插孔(未示出),用于提供另一手段来提供输出信号。
尽管此处组合移动计算设备200来描述,但在替代实施例中,本发明还可组合任何数量的计算机系统来被使用,如在台式环境中、膝上型或笔记本计算机系统、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机等。本发明的实施例也可在分布式计算环境中实践,其中任务由分布式计算环境中通过通信网络链接的远程处理设备来执行;程序可位于本机和远程存储器存储设备中。总而言之,具有多个环境传感器、向用户提供通知的多个输出元件和多个通知事件类型的任何计算机系统可结合本发明的实施例。
图2B是示出在一个实施例中使用的诸如图2A中所示的计算设备之类的移动计算设备的组件的框图。即,移动计算设备200可结合系统202以实现某些实施例。例如,系统202可被用于实现可运行与台式或笔记本计算机的应用类似的一个或多个应用的“智能电话”,这些应用例如演示文稿应用、浏览器、电子邮件、日程安排、即时消息收发、以及媒体播放器应用。在某些实施例中,系统202被集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
一个或多个应用266可被加载到存储器262中并在操作系统264上或与操作系统264相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、 PIM(个人信息管理)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息通信程序等等。系统202还包括存储器268内的非易失性存储262。非易失性存储268可被用于存储在系统202断电时不会丢失的持久信息。应用 266可使用信息并将信息存储在非易失性存储268中,如电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)也可驻留在系统202上并被编程为与驻留在主机计算机上的对应同步应用进行交互,以保持存储在非易失性存储268中的信息与存储在主机计算机上的对应信息相同步。如应被理解的,其他应用可被加载到存储器262中且在设备200上运行,包括智能催收模块26。应注意,智能催收模块26可以作为单独的模块或者作为另一模块中的子模块来实现。
系统202具有可被实现为一个或多个电池的电源270。电源270还可包括外部功率源,如补充电池或对电池重新充电的AC适配器或加电对接托架。
系统202还可包括执行发射和接收无线电频率通信的功能的无线电272。无线电272通过通信运营商或服务供应商方便了系统202与“外部世界”之间的无线连接。来往无线电272的传输是在操作系统264的控制下进行的。换言之,无线电272接收的通信可通过操作系统264传播到应用266,反之亦然。
无线电272允许系统202例如通过网络与其他计算设备通信。无线电272 是通信介质的一个示例。通信介质由诸如载波或其他传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据来体现,并包括任何信息传递介质。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。
系统202的该实施例是以两种类型的通知输出设备来示出的:可被用于提供视觉通知的LED 220,以及可被用于扬声器225提供音频通知的音频接口 274。这些设备可直接耦合到电源270,使得当被激活时,即使为了节省电池功率而可能关闭处理器260和其他组件,它们也在一段由通知机制指示的持续时间保持通电。LED 220可被编程为无限地保持通电,直到用户采取行动指示该设备的通电状态。音频接口274用于向用户提供听觉信号并从用户接收听觉信号。例如,除被耦合到扬声器225以外,音频接口274还可被耦合到话筒以接收听觉输入,诸如便于电话对话。根据各本发明的各实施例,话筒也可充当音频传感器来便于对通知的控制,如下文将描述的。系统202可进一步包括允许板载相机230的操作来记录静止图像、视频流等的视频接口276。
移动计算设备实现系统202可具有附加特征或功能。例如,该设备还可包括附加数据存储设备(可移动的/或不可移动的),诸如磁盘、光盘或磁带。此类附加存储在图2B中由存储268示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。
设备200生成或捕捉的且经系统202存储的数据/信息可如上所述本地存储在设备200上,或数据可被存储在可由设备通过无线电272或通过设备200 和与设备200相关联的分开的计算设备之间的有线连接访问的任何数量的存储介质上,该分开的计算设备如例如因特网之类的分布式计算网络中的服务器计算机。如应理解的,此类数据/信息可经设备200、经无线电272或经分布式计算网络来被访问。类似地,这些数据/信息可根据已知的数据/信息传送和存储手段来容易地在计算设备之间传送以存储和使用,这些手段包括电子邮件和协作数据/信息共享系统。
图3示出了根据本发明的一个实施例的其中可实现本发明的各实施例的服务器计算设备300。各实现可实现在各种市售的服务器设备中的任何服务器设备上,诸如图3中示出的服务器计算设备300。在图3中,服务器计算设备300包括耦合至易失性存储器302和大容量非易失性存储器(诸如盘驱动器303)的处理器301。服务器计算设备300还可包括耦合至处理器301 的软盘驱动器、压缩碟(CD)或DVD碟驱动器306。服务器计算设备300 还可包括耦合至处理器301的用于建立与网络(诸如耦合至其他广播系统计算机和服务器或耦合至因特网的局域网)的数据连接307的网络接入端口304。应注意,本文描述的智能催收模块的功能可以在服务器计算设备 300中单独实现,也可以在用户计算设备中单独实现,或者可以分布在用户计算设备和服务器计算设备两者上。
图4示出了根据本发明的一个实施例的智能催收模块402的框图。在该实施例中,智能催收模块402包括语音转文本组件404、文本挖掘组件406、回款率预测组件408、以及催收策略制定组件410。智能催收模块402被主存在服务器418中,服务器的示例可以是图3所示的服务器计算设备300。
用户412使用蜂窝设备414并通过网络416连接到服务器418及其中的智能催收模块402。当用户412经由蜂窝设备414与客服通话时,智能催收模块 402中的语音转文本组件404将用户412的语音转换成文字。具体而言,语音转文本组件404从用户412接收到一段语音信号,找出一个文字序列(由词或字组成),使得它与所接收到的语音信号的匹配程度最高。这通过语言模型和声学模型来完成。
对于语言模型,一般利用链式法则(本公开不限于此),把一个句子的概率拆解成其中每个词的概率之积。最常见的做法是认为每个词的概率分布只依赖于历史中最后的若干个词。这样的语言模型称为n-gram模型,在n-gram模型中,每个词的概率分布只依赖于前面n-1个词,整句的概率就是各个词出现概率的乘积。常用的是二元的Bi-Gram和三元的Tri-Gram。n-gram模型中的n 越大,需要的训练数据就越多。语言模型训练子组件504利用人工标注的通话文本训练n-gram语言模型。
对于声学模型,其任务是计算P(X/W),即给定文字W后,发出这段语音X的概率。首先通过词典来定义每个单词的发音以用于将单词串转换成音素串。词典中会遇到一词多音的问题,这可通过上述语言模型来预测出对应于哪一个单词。
此外,为了计算语音与音素串的匹配程度,还需要知道每个音素的起止时间。这是通过动态规划算法来进行的。利用动态规则算法,可以高效地找到音素的分界点,使得每一段语音与音素的匹配程度(用概率表示)之积最大。
语音转文本组件404利用人工标注的通话语音和文本来训练声学模型。然后通过经训练的语言模型和经训练的声学模型来将通话语音转换成通话文本,以供文本挖掘组件406使用。
文本挖掘组件406从由语音转文本组件404生成的通话文本中提取特征。具体而言,文本挖掘组件406从客户与客服的通话文本中选取一部分(诸如实质性对话内容,而不是问候语等通话文本)作为训练集,利用结巴分词工具或其它类似工具来对所选择的通话文本进行分词。
随后,文本挖掘组件406使用通话文本分词结果来分别在客户和客服两个维度构建特征,例如针对客户和客服两个不同的语料库。特征包括分词结果的 unigram特征、bigram特征和平均嵌入(average embedding)特征。unigram特征和bigram特征分别通过对分词结果中的单个词和相邻两个词做one-hot编码得到。平均嵌入特征通过对文本中所有单个词的词向量嵌入求平均得到,词向量可通过训练word2vec模型来获取。具体地,可通过对大量的通话文本按句子粒度分词,对分词后的词序列训练word2vec模型,并保存单词到向量的映射关系来得到文本中的各句句子中的每个词的词向量。
自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。从基于统计的建模方法得到的自然语言模型称为统计语言模型。有许多统计语言建模技术,包括n-gram、神经网络以及log_linear模型等。在对自然语言进行建模的过程中,会出现维数灾难、词语相似性、模型泛化能力以及模型性能等问题。寻找上述问题的解决方案是推动统计语言模型不断发展的内在动力。 Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用和研究提供了新的方法和工具。
Word2vec可分成以下两种语言模型:
如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做 Skip-gram模型;
如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是CBOW 模型;
以下将Skip-gram模型作为示例,但如本领域技术人员理解的,本公开的保护范围不限于此。
在Word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后, Word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
假定y是x的上下文,所以y只取上下文里一个词语的时候,语言模型就变成:用当前词x预测它的下一个词y。一般的数学模型只接受数值型输入,因此采用x的一个原始输入形式,即one-hot编码。
所谓one-hot编码,其思想跟特征工程里处理类别变量的one-hot一样,本质上是用一个只含一个1、其他都是0的向量来唯一表示词语。
例如,假设全世界所有的词语总共有V个,这V个词语有自己的先后顺序,假设“我”这个词是第1个词,“忘记”这个单词是第2个词,那么“我”就可以表示为一个V维全零向量、把第1个位置的0变成1,而“忘记”同样表示为V维全零向量、把第2个位置的0变成1。这样,每个词语都可以找到属于自己的唯一表示。
如以下的Skip-gram的网络结构所示,x就是上面提到的one-hot编码形式的输入,y是在这V个词上输出的概率。
隐藏层的激活函数其实是线性的,相当于没做任何处理,需要训练这个神经网络,用反向传播算法,本质上是链式求导,因为这是本领域内公知的,因此在此不再赘述。
当模型训练完后,最后得到的其实是神经网络的权重,比如现在输入一个 x的one-hot编码:[1,0,0,…,0],对应刚说的那个词语“我”,则在输入层到隐含层的权重里,只有对应1这个位置的权重被激活,这些权重的个数,跟隐含层节点数是一致的,从而这些权重组成一个向量Vx来表示x,而因为每个词语的one-hot编码里面1的位置是不同的,所以这个向量Vx就可以用来唯一表示x。
输出y也是用V个节点表示的,对应V个词语,所以其实,我们把输出节点置成[1,0,0,…,0],它也能表示“我”这个单词,但是激活的是隐藏层到输出层的权重,这些权重的个数,跟隐藏层一样,也可以组成一个向量Vy,跟上面提到的Vx维度一样,并且可以看做是词语“我”的另一种词向量。而这两种词向量Vx和Vy。
需要注意的是,这个词向量的维度(与隐藏层节点数一致)一般情况下要远远小于词语总数V的大小,所以Word2vec本质上是一种降维操作——把词语从one-hot编码形式的表示降维到Word2vec形式的表示。
如上所述,Word2vec本质上是一个语言模型,它的输出节点数是V个,对应了V个词语,本质上是一个多分类问题,但实际当中,词语的个数非常非常多,会给计算造成很大困难,所以需要用技巧来加速训练。
在本公开的一个实施例中,采用以下两种方法来进行训练,但本公开的保护范围不限于此。
1)Hierarchical Softmax,其本质是把N分类问题变成log(N)次二分类;
2)Negative Sampling,其本质是预测总体类别的一个子集。
具体的训练过程是本领域内公知的,因此在此不再赘述。
综上,在NLP(自然语言处理)中,f(x)->y,把x看做一个句子里的一个词语,y是这个词语的上下文词语,那么这里的f,便是NLP中经常出现的语言模型,这个模型的目的,就是判断(x,y)这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。
Word2vec正是来源于这个思想,但它的最终目的,不是要把f训练得多么完美,而是只关心模型训练完后的副产物—模型参数(这里特指神经网络的权重),并将这些参数,作为输入x的某种向量化的表示,这个向量即词向量。
在Word2vec中采用分布式表征,在向量维数比较大的情况下,每一个词都可以用元素的分布式权重来表示,因此,向量的每一维都表示一个特征向量,作用于所有的单词,而不是简单的元素和值之间的一一映射。这种方式抽象的表示了一个词的“意义”。
回到图4,文本挖掘组件406随后使用根据历史通话文本和领域常识定义客户不同维度的状态和属性,如客户的社会属性、还款能力、还款意愿、逾期原因、特殊意愿等。然后这些属性又会细分为更细粒度的概念,以形成完整的分类体系。随后按需在该分类体系下对通话文本打标以生成客户标签。
然后,文本挖掘组件406使用通过Word2vec获取的文本特征以及上述客户标签通过GBDT来训练文本挖掘模型。
最后,文本挖掘组件406使用通过GBDT训练的文本预测模型来将通话文本识别为客户标识信息,并将该客户标识信息传送到回款率预测组件408,以供基于通话文本来进行回款率预测。
回款率预测组件408首先从客户的通话行为中提取通话行为特征,包括但不限于客户在不同周期(诸如3天、7天和31天等)内的通话次数、通话时间、通话接通率等特征。
然后,回款率预测组件408基于来自文本挖掘组件406的客户标识信息、所提取的通话行为特征以及作为标注的通话时间后不同周期(诸如3天、7天和31天等)的客户回款率,通过GBDT来训练回款率预测模型。
最后,回款率预测组件408使用经训练的回款率预测模型,基于客服与客户的通话来预测客户的回款率以用于指导后续的差异化催收。
下文将针对每个组件进行详细描述。
图5示出了根据本发明的一个实施例的语音转文本组件404的框图。参照图5,语音转文本组件404包括声学模型训练子组件502、语言模型训练子组件504以及文本预测子组件506。语音转文本组件404的目的是把语音转换成文字。具体而言,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。这个匹配程度,一般是用概率表示的。用X表示语音信号,W表示文字序列,则要求解的是下面这个问题:
一般认为,语音是由文字产生的(可以理解成人们先想好要说的词,再把它们的音发出来),通过有贝叶斯公式,可以将上式转换成:
上述步骤省略分母是因为我们要优化的是W,而P(X)不含W,是常数。上述等式表示对W求解以使得P(W)和P(X/W)都大。P(W)表示一个文字序列本身的概率,也就是这一串词或字本身有多“像话”;P(X/W)表示给定文字后语音信号的概率,即这句话有多大的可能发成这串音。计算上述两项的值,就是语言模型和声学模型各自的任务。
对于语言模型,一般利用链式法则,把一个句子的概率拆解成其中每个词的概率之积。设W是由w1,w2,...,wn组成的,则P(W)可以拆成:
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1)
每一项都是在已知之前所有词的条件下,当前词的概率。不过,当条件太长的时候,概率就不好估计了,所以最常见的做法是认为每个词的概率分布只依赖于历史中最后的若干个词。这样的语言模型称为n-gram模型,在n-gram 模型中,每个词的概率分布只依赖于前面n-1个词,整句的概率就是各个词出现概率的乘积。常用的是二元的Bi-Gram和三元的Tri-Gram。n-gram模型中的 n越大,需要的训练数据就越多。语言模型训练子组件504利用人工标注的通话文本训练n-gram语言模型。
对于声学模型,其任务是计算P(X/W),即给定文字后,发出这段语音的概率。首先通过词典来定义每个单词的发音以用于将单词串转换成音素串。词典中会遇到一词多音的问题,这可通过上述语言模型来预测出对应于哪一个单词。
此外,为了计算语音与音素串的匹配程度,还需要知道每个音素的起止时间。这是通过动态规划算法来进行的。利用动态规则算法,可以高效地找到音素的分界点,使得每一段语音与音素的匹配程度(用概率表示)之积最大。实际使用的算法包括Viterbi算法,它不仅仅考虑了每一段语音与音素的匹配程度,还考虑了在各个音素之间转换的概率,后者是通过隐马尔可夫模型(HMM) 估计出来的。如本领域技术人员能够理解的,也可使用其它类似算法来找到音素的分界点。
声学模型训练子组件502利用人工标注的通话语音和文本来训练声学模型。然后文本预测子组件506通过经训练的语言模型和经训练的声学模型来将通话语音转换成通话文本。
返回到图4,当语音转文本组件404生成通话文本时,该语音转文本组件将所生成的通话文本传递给文本挖掘组件406。
图6示出了根据本发明的一个实施例的文本挖掘组件406的框图。参照图 6,文本挖掘组件406包括文本特征提取子组件602、客户标签生成子组件604、文本挖掘模型训练子组件606以及客户标识信息子组件608。
文本特征提取子组件602从由语音转文本组件404生成的通话文本中提取特征。具体而言,文本特征提取子组件602从客户与客服的通话文本中选取一部分(诸如实质性对话内容,而不是问候语等通话文本)作为训练集,利用结巴分词工具或其它类似工具来对所选择的通话文本进行分词。
随后,文本特征提取子组件602使用通话文本分词结果来分别在客户和客服两个维度构建特征,例如针对客户和客服两个不同的语料库。特征包括分词结果的unigram特征、bigram特征和平均嵌入(average embedding)特征。unigram 特征和bigram特征分别通过对分词结果中的单个词和相邻两个词做one-hot编码得到。平均嵌入特征通过对文本中所有单个词的词向量嵌入求平均得到,词向量可通过训练word2vec模型来获取。具体地,可通过对大量的通话文本按句子粒度分词,对分词后的词序列训练word2vec模型,并保存单词到向量的映射关系来得到文本中的各句句子中的每个词的词向量。
客户标签生成子组件604构建分类体系并进行数据打标。客户标签生成子组件604首先根据历史通话文本和领域常识定义客户不同维度的状态和属性,如客户的社会属性、还款能力、还款意愿、逾期原因、特殊意愿等。然后这些属性又会细分为更细粒度的概念,如社会属性又会细分为在校学生、有工作、待业等等,又如逾期原因又可以细分为工资未发,他人欠钱、家人生病等等。最后需要根据分类体系对通话文本打标以生成客户标签。
文本挖掘模型训练子组件606使用来自文本特征提取子组件602的文本特征以及来自客户标签生成子组件604的客户标签通过GBDT(Gradient Boost Decision Tree,梯度提升决策树)来训练文本挖掘模型。
如本领域技术人员能够理解的,文本挖掘模型可包括但不限于逻辑回归 (LR)模型。实际上,文本挖掘模型很容易并行化,能够处理上亿条训练样本,但文本挖掘模型的学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,从而间接增强文本挖掘模型的非线性学习能力。因此,输入到文本挖掘模型中的特征组合很关键。但这又无法直接通过特征笛卡尔积解决,只能依靠人工经验,耗时耗力同时并不一定会带来效果提升。因此,如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短文本挖掘模型的特征实验周期,是本发明中的基于通话文本生成客户标识信息的关键所在。
GBDT是一种常用的非线性模型,它基于集成学习中的boosting思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合,特征决定模型性能上限,例如深度学习方法也是将数据如何更好的表达为特征。如果能够将数据表达成为线性可分的数据,那么使用简单的线性模型就可以取得很好的效果。GBDT构建新的特征使特征更好地表达或解释数据。
用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,构造的新特征向量可通过one-hot编码取值0/1,向量的每个元素对应于 GBDT模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上,那么在新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0。新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和。
由此,决策树的结果或路径可以直接作为文本挖掘模型的输入特征使用,省去了人工寻找特征、特征组合的步骤。应注意,GBDT的实现细节和相关算法在本领域内是公知的,因此在此不再赘述。
随后,客户标识信息子组件608使用通过GBDT训练的文本预测模型来将通话文本识别为客户标识信息,并将该客户标识信息传送到回款率预测组件 408。
图7示出了根据本发明的一个实施例的回款率预测组件408的框图。参照图7,回款率预测组件408包括通话行为特征提取子组件702、回款率预测模型训练子组件704以及回款率预测子组件706。
通话行为特征提取子组件702从客户的通话行为中提取通话行为特征,包括但不限于客户在不同周期(诸如3天、7天和31天等)内的通话次数、通话时间、通话接通率等特征。
回款率预测模型训练子组件704基于来自文本挖掘组件406的客户标识信息、来自通话行为特征提取子组件702的通话行为特征以及作为标注的通话时间后不同周期(诸如3天、7天和31天等)的客户回款率,通过GBDT训练回款率预测模型。该回款率预测模型可以包括但不限于逻辑回归(LR)模型,其使用Logit变换将函数值映射到0~1区间,映射后的函数值就是客户的预期回款率。下文将具体描述用于回款率预测模型的GBDT与LR模型(仅仅作为示例)的组合,如下图所示。
具体而言,在本公开的一个实施例中,将带标签样本数据输入到GBDT。作为示例而非限制,上图中的树1和树2是通过GBDT模型训练和学习得到的两颗树,x为带标签样本数据。通过GBDT模型,即GBDT树,对带标签样本数据进行特征变换。在本公开的另一实施例中,经变换特征的生成还可以通过专家经验来进行补充以获得更多的强区分性特征组合。
具体而言,带标签样本数据x遍历两棵树后,带标签样本数据x分别落到两颗树的叶子节点上,每个单独树的输出被视为线性分类器(即,LR)的分类输入特征,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR输入特征。
具体而言,作为示例而非限制,左树有三个叶子节点,右树有两个叶子节点,对于输入x,假设x落在左树第一个节点,编码[1,0,0],落在右树第二个节点则编码[0,1],所以整体的编码为[1,0,0,0,1],最终的特征即为五维的特征向量。
由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对更有区分性,效果理论上不会亚于人工经验的处理方式,甚至具备人类未必能感知到的区分特征组合。
如本领域技术人员可以理解的,上述GBDT中的树、节点和路径分叉的各种设定并非是限制性的,而是可由信用评估者根据自身需求来设定以得到区分性更佳且可解释性更强的特征向量,并且GBDT的实现细节和相关算法在本领域内是公知的,因此在此不再赘述。
随后将经变换的特征向量传递至线性分类器,即将经变换的特征向量输入到线性分类模型(LR)中以进行分类和收敛以便预测客户的回款率。特征具有相应的权重(w),这取决于该特征对于最终回款率的重要性。如本领域技术人员可以理解的,上述权重可由回款率预测方基于自身的需求或者对信用水平的定义来自行设定。
在本公开的一个实施例中,线性分类器使用所述逻辑回归算法可以学习出每个GBDT算法得出的结果值,当代入逻辑回归公式后,可以预测用户回款率,其范围在(0,1)之间(仅仅作为示例,而非限制)。
逻辑回归算法对应的公式如下:
在上式中,Fi指的是每一个GBDT算法模型的结果值,是权重值,θ值是偏移量,sigmoid函数是当然,使用逻辑回归算法来确定最终用户回款率并不限于上述描述。所属领域技术人员在本公开的技术精髓启示下,还可能做出其他的变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。另外,如本领域内公知的,回款率预测组件408也可采用各种其他监督学习算法来预测客户的回款率。
应注意,用于确定客户回款率的方法不限于上述LR模型。所属领域技术人员在本发明的技术精髓启示下,还可能做出其他的变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。另外,如本领域内公知的,也可采用各种其它监督、半监督或无监督学习算法来预测客户回款率。
最后,回款率预测子组件706使用经训练的回款率预测模型来预测客户的回款率以用于指导后续的差异化催收。
回到图4,催收策略指定组件410从回款率预测组件408接收到所预测的客户回款率,并基于接收到的客户回款率来制定相应的催收策略。具体而言,作为示例而非限制,当所预测的客户回款率高于某一阈值(诸如80%等)时,可通过短信类催收或者APP推送,就能够触达客户并得到响应,并得到很好的催收效果。针对预期回款率较低的客户,可再用短信或人工电话催收,若仍无响应则委托专业的贷后管理的公司催收。
图8示出了根据本发明的一个实施例的用于智能催收的方法800的流程图。在802,通过声学模型和语言模型来将通话语音转换成通话文本。语言模型可以是n-gram语言模型,也可以是其他语言模型,并且该语言模型利用人工标注的通话文本来训练。声学模型利用人工标注的通话语音和文本来训练。
在804,从该通话文本中提取文本特征。首先利用结巴分词工具或其它类似工具来对所选择的通话文本进行分词,然后使用通话文本分词结果来分别在客户和客服两个维度构建特征,包括分词结果的unigram特征、bigram特征和平均嵌入特征。
在806,对该通话文本打标以生成客户标签。首先根据历史通话文本和领域常识定义客户不同维度的状态和属性,然后将这些属性细分为更细粒度的概念,最后根据分类体系对通话文本打标以生成客户标签。
在808,使用该客户标签和文本特征来训练文本挖掘模型。该文本挖掘模型使用所提取的文本特征以及所生成的客户标签通过GBDT来训练。
在810,使用经训练的文本挖掘模型来将该通话文本识别为客户标识信息。
在812,从通话行为中提取通话行为特征。该通话行为特征从客户的通话行为中提取,并且包括但不限于客户在不同周期(诸如3天、7天和31天等) 内的通话次数、通话时间、通话接通率等特征。
在814,使用该客户标识信息、该通话行为特征以及该作为标注的通话行为后不同周期的回款率来训练回款率预测模型。该回款率预测模型通过GBDT 来训练。
在816,使用该回款率预测模型来预测回款率以指导后续差异化催收。
以上参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/ 或操作说明描述了本发明的实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的次序来执行。
以上说明、示例和数据提供了对本发明的组成部分的制造和使用的全面描述。因为可以在不背离本发明的精神和范围的情况下做出本发明的许多实施例,所以本发明落在所附权利要求的范围内。

Claims (17)

1.一种用于回款率预测的方法,包括:
将通话语音转换成通话文本;
使用文本挖掘模型来将所述通话文本识别为客户标识信息;
从通话行为中提取通话行为特征;
使用所述客户标识信息、所述通话行为特征以及作为标注的所述通话行为后的回款率来训练回款率预测模型;以及
使用所述回款率预测模型来预测回款率。
2.如权利要求1所述的方法,其特征在于,所述通话语音通过声学模型和语言模型来转换成所述通话文本。
3.如权利要求1所述的方法,其特征在于,进一步包括:
从所述通话文本中提取文本特征;
对所述通话文本打标以生成客户标签;以及
使用所述客户标签和所述文本特征来训练所述文本挖掘模型。
4.如权利要求3所述的方法,其特征在于,所述文本特征通过利用结巴分词工具来对所述通话文本进行分词以及使用通话文本分词结果来分别在客户和客服两个维度构建特征来生成,并且所述文本特征包括所述通话文本分词结果的unigram特征、bigram特征和平均嵌入特征。
5.如权利要求4所述的方法,其特征在于,所述平均嵌入特征通过对所述通话文本中所有单个词的词向量嵌入求平均得到,所述词向量可通过训练word2vec模型来获取。
6.如权利要求3所述的方法,其特征在于,所述文本挖掘模型通过GBDT来训练。
7.如权利要求1所述的方法,其特征在于,所述通话行为特征包括客户在不同周期内的通话次数、通话时间、通话接通率。
8.如权利要求1所述的方法,其特征在于,所述回款率预测模型通过GBDT和逻辑回归模型的组合来训练,并且所预测的回款率被用来指导后续差异化催收。
9.一种用于回款率预测的系统,包括:
用于将通话语音转换成通话文本的装置;
用于使用文本挖掘模型来将所述通话文本识别为客户标识信息的装置;
用于从通话行为中提取通话行为特征的装置;
用于使用所述客户标识信息、所述通话行为特征以及作为标注的所述通话行为后的回款率来训练回款率预测模型的装置;以及
用于使用所述回款率预测模型来预测回款率的装置。
10.如权利要求9所述的系统,其特征在于,所述通话语音通过声学模型和语言模型来转换成所述通话文本。
11.如权利要求9所述的系统,其特征在于,进一步包括:
用于从所述通话文本中提取文本特征的装置;
用于对所述通话文本打标以生成客户标签的装置;以及
用于使用所述客户标签和所述文本特征来训练所述文本挖掘模型的装置。
12.如权利要求11所述的系统,其特征在于,所述文本特征通过利用结巴分词工具来对所述通话文本进行分词以及使用通话文本分词结果来分别在客户和客服两个维度构建特征来生成,并且所述文本特征包括所述通话文本分词结果的unigram特征、bigram特征和平均嵌入特征。
13.如权利要求12所述的系统,其特征在于,所述平均嵌入特征通过对所述通话文本中所有单个词的词向量嵌入求平均得到,所述词向量可通过训练word2vec模型来获取。
14.如权利要求11所述的系统,其特征在于,所述文本挖掘模型通过GBDT来训练。
15.如权利要求9所述的系统,其特征在于,所述通话行为特征包括客户在不同周期内的通话次数、通话时间、通话接通率。
16.如权利要求9所述的系统,其特征在于,所述回款率预测模型通过GBDT和逻辑回归模型的组合来训练,并且所预测的回款率被用来指导后续差异化催收。
17.一种存储用于回款率预测的指令的计算机可读存储介质,所述指令在被执行时执行如权利要求1-8中的任一项所述的方法。
CN201910678998.3A 2019-07-25 2019-07-25 一种用于回款率预测的方法和装置 Pending CN110599324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910678998.3A CN110599324A (zh) 2019-07-25 2019-07-25 一种用于回款率预测的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910678998.3A CN110599324A (zh) 2019-07-25 2019-07-25 一种用于回款率预测的方法和装置

Publications (1)

Publication Number Publication Date
CN110599324A true CN110599324A (zh) 2019-12-20

Family

ID=68852908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910678998.3A Pending CN110599324A (zh) 2019-07-25 2019-07-25 一种用于回款率预测的方法和装置

Country Status (1)

Country Link
CN (1) CN110599324A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111294468A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种客服中心呼叫用语音质检分析系统
CN111369336A (zh) * 2020-02-21 2020-07-03 四川新网银行股份有限公司 银行催收借款的方法
CN111401845A (zh) * 2020-03-17 2020-07-10 支付宝(杭州)信息技术有限公司 业务处理方法及装置
CN111539808A (zh) * 2020-04-27 2020-08-14 中国银行股份有限公司 信用值处理方法及装置
CN111553574A (zh) * 2020-04-16 2020-08-18 上海诚收信息科技有限公司 案件分配方法及其装置、电子设备和计算机可读存储介质
CN111882422A (zh) * 2020-06-30 2020-11-03 安徽信晨通信技术有限公司 一种机器人对话催收评分系统
CN112200664A (zh) * 2020-10-29 2021-01-08 上海畅圣计算机科技有限公司 基于ernie模型和dcnn模型的还款预测方法
US11436618B2 (en) * 2014-05-20 2022-09-06 [24]7.ai, Inc. Method and apparatus for providing customer notifications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815489A (zh) * 2019-01-02 2019-05-28 深圳壹账通智能科技有限公司 催收信息生成方法、装置、计算机设备和存储介质
CN110009480A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 司法催收路径的推荐方法、装置、介质、电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815489A (zh) * 2019-01-02 2019-05-28 深圳壹账通智能科技有限公司 催收信息生成方法、装置、计算机设备和存储介质
CN110009480A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 司法催收路径的推荐方法、装置、介质、电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11436618B2 (en) * 2014-05-20 2022-09-06 [24]7.ai, Inc. Method and apparatus for providing customer notifications
CN111294468A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种客服中心呼叫用语音质检分析系统
CN111369336A (zh) * 2020-02-21 2020-07-03 四川新网银行股份有限公司 银行催收借款的方法
CN111401845A (zh) * 2020-03-17 2020-07-10 支付宝(杭州)信息技术有限公司 业务处理方法及装置
CN111401845B (zh) * 2020-03-17 2022-07-08 支付宝(杭州)信息技术有限公司 业务处理方法及装置
CN111553574A (zh) * 2020-04-16 2020-08-18 上海诚收信息科技有限公司 案件分配方法及其装置、电子设备和计算机可读存储介质
CN111539808A (zh) * 2020-04-27 2020-08-14 中国银行股份有限公司 信用值处理方法及装置
CN111882422A (zh) * 2020-06-30 2020-11-03 安徽信晨通信技术有限公司 一种机器人对话催收评分系统
CN112200664A (zh) * 2020-10-29 2021-01-08 上海畅圣计算机科技有限公司 基于ernie模型和dcnn模型的还款预测方法

Similar Documents

Publication Publication Date Title
CN110599324A (zh) 一种用于回款率预测的方法和装置
WO2022100045A1 (zh) 分类模型的训练方法、样本分类方法、装置和设备
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
CN111680159B (zh) 数据处理方法、装置及电子设备
US12002276B2 (en) Document distinguishing based on page sequence learning
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质
CN110827040A (zh) 一种消费者诉求解决方法和系统
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN114611521B (zh) 一种实体识别方法、装置、设备及存储介质
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN111309849B (zh) 一种基于联合学习模型的细粒度数值信息抽取方法
CN116578671A (zh) 一种情感-原因对提取方法及装置
CN115859989A (zh) 基于远程监督的实体识别方法及系统
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置
CN113420559A (zh) 一种警情信息分层要素识别方法和计算机
Kusal et al. Understanding the performance of AI algorithms in Text-Based Emotion Detection for Conversational Agents
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN113486167A (zh) 文本补全方法、装置、计算机设备和存储介质
Baziyad et al. On the Linguistic Limitations of ChatGPT: An Experimental Case Study
CN115146589A (zh) 文本处理方法、装置、介质以及电子设备
Li Textual Data Mining for Financial Fraud Detection: A Deep Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220

RJ01 Rejection of invention patent application after publication