CN110288191B

CN110288191B - 数据匹配方法、装置、计算机设备及存储介质

Info

Publication number: CN110288191B
Application number: CN201910430535.5A
Authority: CN
Inventors: 顾宝宝
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2023-06-23
Anticipated expiration: 2039-05-22
Also published as: CN110288191A

Abstract

本发明公开了一种数据匹配方法、装置、计算机设备及存储介质。该方法包括：接收客户端发送的待分配客户数据，将待分配客户数据输入到客户等级识别模型中，获取待分配客户数据对应的客户等级；并获取与客户等级相对应的目标客户名单；接收客户端发送的待识别坐席数据，待识别坐席数据包括待识别坐席特征；将待识别坐席特征输入到坐席等级识别模型中，获取坐席等级识别模型输出的坐席等级；基于坐席等级对待识别坐席数据进行划分，获取与坐席等级相对应的等级坐席名单；根据分配逻辑，对每一目标客户名单和等级坐席名单建立映射关系，获取数据匹配结果，并将数据匹配结果反馈给对应的客户端，保证数据匹配的合理性和准确性，提高匹配效率，实现智能匹配。

Description

数据匹配方法、装置、计算机设备及存储介质

技术领域

本发明涉及智能决策领域，尤其涉及一种数据匹配方法、装置、计算机设备及存储介质。

背景技术

为了提高产品服务，各产品销售公司(如保险公司、理财公司等)都设置了熟悉公司产品和服务的工作人员(如坐席)，方便与客户进行沟通。在咨询高峰期，由于咨询产品客户量过大，现有的坐席匹配流程主要以人工匹配为主，依赖人工经验，匹配流程复杂，工作量较大，准确度不高。

发明内容

本发明实施例提供一种数据匹配方法、装置、计算机设备及存储介质，以解决人工对坐席和客户进行数据匹配时出现的匹配不合理的问题。

一种数据匹配方法，包括：

接收客户端发送的待分配客户数据，将所述待分配客户数据输入到基于随机森林生成的客户等级识别模型中，获取所述待分配客户数据对应的客户等级；

按照所述客户等级对所述待分配客户数据进行划分，获取与所述客户等级相对应的目标客户名单；

接收客户端发送的待识别坐席数据，所述待识别坐席数据包括待识别坐席特征；

将所述待识别坐席特征输入到基于梯度提升决策树生成的坐席等级识别模型中，获取所述坐席等级识别模型输出的坐席等级；基于所述坐席等级对所述待识别坐席数据进行划分，获取与所述坐席等级相对应的等级坐席名单；

根据分配逻辑，对每一所述目标客户名单和所述等级坐席名单建立映射关系，获取数据匹配结果，并将所述数据匹配结果反馈给对应的客户端。

一种数据匹配装置，包括：

客户等级获取模块，用于接收客户端发送的待分配客户数据，将所述待分配客户数据输入到基于随机森林生成的客户等级识别模型中，获取所述待分配客户数据对应的客户等级；

目标客户名单获取模块，用于按照所述客户等级对所述待分配客户数据进行划分，获取与所述客户等级相对应的目标客户名单；

待识别坐席数据获取模块，用于接收客户端发送的待识别坐席数据，所述待识别坐席数据包括待识别坐席特征；

坐席等级获取模块，用于将所述待识别坐席特征输入到基于梯度提升决策树生成的坐席等级识别模型中，获取所述坐席等级识别模型输出的坐席等级；基于所述坐席等级对所述待识别坐席数据进行划分，获取与所述坐席等级相对应的等级坐席名单；

数据匹配结果获取模块，用于根据分配逻辑，对每一所述目标客户名单和所述等级坐席名单建立映射关系，获取数据匹配结果，并将所述数据匹配结果反馈给对应的客户端。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据匹配方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据匹配方法。

上述数据匹配方法、装置、计算机设备及存储介质，通过客户等级识别模型对待分配客户数据进行识别，获取待分配客户数据中每个待分配客户信息对应的客户等级，然后根据客户等级，将同一客户等级的待分配客户信息划分为一个目标客户名单，方便后续根据客户等级匹配对应的坐席等级的坐席与客户进行沟通。将待识别坐席数据输入到坐席等级识别模型中，获取待识别坐席数据对应的坐席等级，提高坐席等级的识别准确率和效率。最后根据分配逻辑对目标客户名单和等级坐席名单建立映射关系，使得每一客户等级的客户都可以分配到对应的坐席等级的坐席，不需要人工干预，实现了智能匹配，保证了数据匹配的准确性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中数据匹配方法的一应用环境示意图；

图2是本发明一实施例中数据匹配方法的一流程图；

图3是图2中步骤S50的一具体流程图；

图4是图3中步骤S51的一具体流程图；

图5是图3中步骤S55的一具体流程图；

图6是本发明一实施例中数据匹配方法的另一流程图；

图7是本发明一实施例中数据匹配方法的另一流程图；

图8是本发明一实施例中数据匹配装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的数据匹配方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种数据匹配方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：接收客户端发送的待分配客户数据，将待分配客户数据输入到基于随机森林生成的客户等级识别模型中，获取待分配客户数据对应的客户等级。

其中，待分配客户数据指需要分配客户等级的数据。本实施例中的待分配客户数据中包括至少一个待分配客户信息，该待分配客户信息包括但不限于客户姓名、身份证号、客户地址和客户属性。其中，本实施例中的客户属性包括但不限于客户的出险次数、保费缴纳金额、和是否好沟通等信息。

具体地，服务器在获取客户端发送的待分配客户数据后，将待分配客户数据输入到基于随机森林生成的客户等级识别模型中，客户等级识别模型对每一待分配客户信息中的客户属性进行识别，输出待分配客户数据中每一待分配客户信息对应的客户等级。本实施例中的客户等级识别模型指预先训练好的用于识别客户等级的模型。通过客户等级识别模型获取待分配客户数据中每一待分配客户信息对应的客户等级，提高了识别客户等级的准确率和效率。

S20：按照客户等级对待分配客户数据进行划分，获取与客户等级相对应的目标客户名单。

具体地，在对待分配客户数据中每一待分配客户信息分配完客户等级后，服务器会基于每一待分配客户信息对应的客户等级，对待分配客户数据进行划分，将属于同一客户等级的待分配客户数据归为一个目标客户名单。其中，目标客户名单指记录属于同一客户等级的待分配客户信息的名单。将属于同一客户等级的待分配客户信息记录在一张名单中，方便后续根据目标客户名单分配对应的坐席。

S30：接收客户端发送的待识别坐席数据，待识别坐席数据包括待识别坐席特征。

其中，待识别坐席数据指与需要分配坐席等级的坐席相关的数据。本实施例中的待识别坐席数据包括至少一个待识别坐席特征。该待识别坐席特征包括但不限于坐席人员的等级、续保率、机构信息和历史业绩。

S40：将待识别坐席特征输入到基于梯度提升决策树生成的坐席等级识别模型中，获取坐席等级识别模型输出的坐席等级；基于坐席等级对待识别坐席数据进行划分，获取与坐席等级相对应的等级坐席名单。

具体地，获取待识别坐席特征后，将待识别坐席特征输入到基于梯度提升决策树生成的坐席等级识别模型中，获取待识别坐席特征对应的坐席等级，提高坐席等级的识别效率和准确率，使得每个待识别坐席数据都对应一个坐席等级。然后基于坐席等级对待识别坐席数据进行划分，将属于同一个坐席等级的待识别坐席数据存储在一个名单中，形成等级坐席名单。其中，该坐席等级反映了坐席人员的等级。通过获取坐席等级便于后续步骤根据坐席等级分配与坐席等级对应的目标客户名单。

S50：根据分配逻辑，对每一目标客户名单和等级坐席名单建立映射关系，获取数据匹配结果，并将数据匹配结果反馈给对应的客户端。

其中，分配逻辑指根据坐席等级和客户等级进行分配的逻辑方式。该分配逻辑将坐席等级和客户等级一一对应，坐席等级越高，匹配的客户等级也越高。

具体地，在获取等级坐席名单和目标客户名单后，根据分配逻辑对目标客户名单和等级坐席名单建立映射关系，使得每个坐席按照坐席等级匹配到对应客户等级的客户，即获取数据匹配结果，并将数据匹配结果反馈给对应的客户端，以实现坐席和客户的合理分配，提高分配效率。

步骤S10-步骤S50，通过客户等级识别模型对待分配客户数据进行识别，获取待分配客户数据中每个待分配客户信息对应的客户等级，然后根据客户等级，将同一客户等级的待分配客户信息划分为一个目标客户名单，方便后续根据客户等级匹配对应的坐席等级的坐席与客户进行沟通。将待识别坐席数据输入到坐席等级识别模型中，获取待识别坐席数据对应的坐席等级，提高坐席等级的识别准确率和效率。最后根据分配逻辑对目标客户名单和等级坐席名单建立映射关系，使得每一客户等级的客户都可以分配到对应的坐席等级的坐席，不需要人工干预，实现了智能匹配，保证了数据匹配的准确性和效率。

在一实施例中，目标客户名单中包括客户地址，如图3所示，步骤S50，根据分配逻辑，对每一目标客户名单和等级坐席名单建立映射关系，获取数据匹配结果，具体包括如下步骤：

S51：基于客户地址对目标客户名单进行区域划分，确定区域等级客户名单，一区域等级客户名单对应一区域类型。

具体地，在获取客户地址后，根据客户地址对目标客户名单进行区域划分，将目标客户名单中属于一个区域的客户划分到同一个名单中，形成区域等级客户名单。其中，区域等级客户名单指属于同一等级同一区域的待分配客户数据。本实施例中的区域划分指按照我国的方言区进行划分的方法，其中，中国的方言区包括北方方言、吴方言、赣方言、湘方言、闽方言、粤方言和客家方言。各方言对应的区域具体为：

(1)北方方言，也叫北方话(以北京话为代表)，分布在长江以北广大地区，长江以南的镇江以上、九江以下的沿江地带，还有湖北、四川、云南、贵州等地。

(2)吴方言，也叫江浙话、吴语，分布在江苏的南部和浙江、上海。

(3)赣方言，也叫江西话，分布在江西大部分和湖北的东南角。

(4)湘方言，也叫湖南话，分布在湖南一带。

(5)粤方言，也叫广东话，分布在广东的中西部和广西的一部分，还有香港和澳门地区。

(6)闽方言，也叫福建话，福建、台湾、海南、和广东的潮汕、惠州、汕尾一带。

(7)客家方言，也叫客家话，集中分布在两广、江西、福建、台湾等地。

对目标客户名单进行区域划分，确定区域等级客户名单，可以方便坐席和一些不会讲普通话的客户进行有效沟通，提高沟通效率。

S52：基于区域等级客户名单的区域类型选取对应的目标语言，根据目标语言对等级坐席名单进行划分，获取有效坐席名单。

其中，目标语言指与区域类型对应的方言。本实施例中的待识别坐席数据还包括每一个坐席涉及的语言类型。具体地，在获取区域等级客户名单后，根据区域等级客户名单中的区域类型确定该区域类型对应的目标语言，然后根据目标语言查询坐席语言表，获取目标语言对应的有效坐席。其中，坐席语言表指存储坐席ID和坐席熟悉的语言的表。有效坐席名单指与目标语言符合的坐席名单。

进一步地，为了更好地满足客户需求，本实施例中的坐席语言表包括普通话和目标方言。当客户表示可以直接用普通不话沟通时，对应的坐席就使用普通话与该客户进行沟通；当客户表示需要使用方言沟通，对应的坐席则使用方言与该客户进行沟通。

S53：根据等级划分逻辑，对区域等级客户名单和有效坐席名单建立映射关系，获取等级匹配结果。

其中，等级划分逻辑指根据客户等级和坐席等级将区域等级客户名单中的客户划分给有效坐席名单中的坐席的逻辑，本实施例中的等级划分逻辑具体为将等级高的区域等级客户名单划分给等级高的有效坐席名单。如将一等级对应区域等级客户名单划分给A等级对应的有效坐席名单。

具体地，在根据目标语言确定有效坐席名单后，服务器根据等级划分逻辑，对区域等级客户名单和有效坐席名单建立映射关系，获取等级匹配结果。其中，等级匹配结果指按照等级划分逻辑对区域等级客户名单和有效坐席名单建立映射关系的结果。

S54：确定有效坐席名单中每一坐席的当前客户处理量，根据当前客户处理量生成坐席序列。

具体地，在确定等级匹配结果后，为了更合理地将区域等级客户名单中的客户分配给对应的坐席，避免出现由于坐席的当前客户处理量过大使得用户在线等待时间过长无法得到回复的问题，还需要确定有效坐席名单中每一坐席的当前客户处理量，并根据当前客户处理量的多少生成坐席序列，以方便步骤S55调取坐席序列的顺序数据，建立区域等级客户名单与坐席序列中每一坐席的映射关系。本实施例中的坐席序列可以根据实际情况按照当前客户处理量由多到少排列，也可以按照当前客户处理量由少到多排列，这里不作限制。

S55：调取坐席序列的顺序数据，建立区域等级客户名单与坐席序列中每一坐席的映射关系，获取数据匹配结果。

具体地，在获取坐席序列后，调取坐席序列的顺序数据，建立区域等级客户名单与坐席序列中每一坐席的映射关系，获取数据匹配结果。该数据匹配结果指将区域等级客户名单中的每一待分配客户信息分配给对应的坐席的结果。

步骤S51-步骤S55，通过客户地址对目标客户名单进行区域划分，使得属于同一区域的目标客户名单划分为一个区域等级客户名单。然后根据区域等级客户名单中的区域类型选取该区域对应的目标语言，将熟悉同一种目标语言的等级坐席名单划分为一个有效坐席名单，方便坐席服务该区域类型对应的不擅长讲普通话的客户。最后，根据等级划分逻辑和有效坐席名单中每一坐席的当前客户处理量，对区域等级客户名单中的每一位客户进行分配，获取数据匹配结果，提高匹配的合理性。

在一实施例中，如图4所示，步骤S51，基于客户地址对目标客户名单进行区域划分，确定区域等级客户名单，具体包括如下步骤：

S511：对客户地址进行标准化处理，获取标准地址。

其中，标准地址指精确到“区”或者“县”的地址。具体地，由于根据客户地址进行区域划分只需要知道客户地址中的“区”或者“县”，因此，在获取客户地址后，若客户地址为“XX省XX市XX区XX街道XX小区XX单元”、“XX省XX市XX县XX街道XX号”或者“XX省XX市XX县XX镇XX村”时，需要对客户地址进行标准化处理，获取标准地址。其中，标准化处理指对申请人的联系地址进行处理，删除“XX街道XX小区XX单元”、“XX街道XX号”或者XX镇XX村”等信息，只保留客户地址中的省、市、区和县等信息的处理方法。对客户地址进行标准化处理，可以实现后续步骤对区域进行自主划分，不需要人工处理。

S512：对标准地址进行区域划分，获取标准地址对应的区域类型。

具体地，在获取标准地址后，根据预先设置的区域划分规则对标准地址进行划分，获取标准地址对应的区域类型。本实施例中的区域划分规则指按照方言区对标准地址进行划分的规则。区域类型指方言区对应的区域类型。

S513：基于区域类型对目标客户名单进行区域划分，获取区域等级客户名单。

具体地，在获取区域类型后，根据区域类型选取与区域类型符合的目标语言。然后根据目标语言查询坐席语言表，将目标客户名单中属于同一目标语言的坐席划分到一个名单中，形成区域等级客户名单，方便坐席和一些不会讲普通话的客户进行有效沟通，提高沟通效率。

步骤S511-步骤S513，通过对客户地址进行标准化处理，获取标准地址，后续步骤对区域进行自主划分，不需要人工处理。然后根据标准地址确定对应的区域类型，并按照区域类型对目标客户名单进行区域划分，使得属于同一目标语言的坐席划分到一个名单中，获取区域等级客户名单，方便后续步骤实现数据匹配。

在一实施例中，如图5所示，步骤S55，调取坐席序列的顺序数据，建立区域等级客户名单与坐席序列中每一坐席的映射关系，获取数据匹配结果，具体包括如下步骤：

S551：获取每一坐席等级对应的坐席序列中所有坐席的可接待客户数量。

其中，可接待客户数量指坐席可以承接的客户数量。本实施例中的可接待客户数量是根据标准接待客户数量和当前接待客户数量的差值得到的。标准接待客户数量指对每一坐席等级对应的坐席预先设定好的接待客户数量，本实施例中不同坐席等级对应的标准接待客户数量不同，同一坐席等级对应的标准接待客户数量相同。当前接待客户数量指坐席当前需要处理的客户数量。如设定A等级坐席对应标准接待客户数量为8个/天；A等级中的A1坐席的当前接待客户数量为3个，则A1坐席的可接待客户数量为5个；A2坐席的当前接待客户数量为4个，则A2坐席的可接待客户数量为4个；A3坐席的当前接待客户数量为5个，则A3坐席的可接待客户数量为3个，该坐席等级对应的坐席序列中所有坐席的可接待客户数量为12个。

S552：若区域等级客户名单的客户数量不大于坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量建立区域等级客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果。

具体地，如区域等级客户名单的客户数量为10个，A为12个，该A坐席等级对应的坐席序列的顺序“A1、A2、A3”，A1坐席的可接待客户数量为5个，A2坐席的可接待客户数量为4个，A3坐席的可接待客户数量为3个，调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量建立区域等级客户名单与坐席序列中每一坐席的映射关系，即A1坐席分配5个区域等级客户名单中的客户，A2坐席分配4个区域等级客户名单中的客户，A3坐席分配1个区域等级客户名单中的客户。

S553：若区域等级客户名单的客户数量大于坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量初次建立区域等级客户名单与坐席等级对应的坐席序列中每一坐席的映射关系。

具体地，如区域等级客户名单的客户数量为15个，A为12个，该A坐席等级对应的坐席序列的顺序“A1、A2、A3”，A1坐席的可接待客户数量为5个，A2坐席的可接待客户数量为4个，A3坐席的可接待客户数量为3个，调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量建立区域等级客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，即A1坐席分配5个区域等级客户名单的客户，A2坐席分配4个区域等级客户名单的客户，A3坐席分配3个区域等级客户名单的客户，区域等级客户名单中还剩余3个客户没有分配，则执行步骤S554。

S554：基于区域等级客户名单的客户数量与坐席等级对应的坐席序列中所有坐席的可接待客户数量，获取剩余客户名单，基于剩余客户名单查询坐席等级是否存在备选坐席。

其中，剩余客户名单指区域等级客户名单中没分配对应的坐席剩余的名单。如区域等级客户名单中还剩余3个客户没有分配，则基于该剩余客户名单查询该坐席等级是否存在备选坐席。该备选坐席指为了防止出现坐席不够的情况，提前预备的坐席。

S555：若不存在备选坐席，则调取坐席序列的顺序数据，二次建立剩余客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果。

若该坐席等级不存在备选坐席，则调取坐席序列的顺序数据，二次建立剩余客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果。如将剩余3个客户，则调取坐席序列的顺序数据，二次将这3个客户分配给A1坐席、A2坐席和A3坐席，获取数据匹配结果。

S556：若存在备选坐席，则获取备选坐席的目标客户处理量，若备选坐席的目标处理总数大于剩余客户名单的数量，则按照备选坐席的目标客户处理量建立剩余客户名单与备选坐席的映射关系，获取数据匹配结果。

其中，目标客户处理量指一个备选坐席可以处理的客户数量。本实施例中的备选坐席可以是一个也可以是多个，若备选坐席是一个，则目标处理总数指一个备选坐席可以处理的客户数量；若备选坐席是多个，则目标处理总数指多个备选坐席可以处理的客户数量。

如备选坐席有两个即B1和B2，其各自对应的目标客户处理量是2个，目标处理总数是4个，大于剩余客户名单的数量(如3个)，则将剩余客户名单中的3个客户按备选坐席的目标客户处理量分配两个给B1，一个给B2。

S557：若备选坐席的目标处理总数不大于剩余客户名单的数量，则按照备选坐席的目标客户处理量将剩余客户名单分配给备选坐席后，调取坐席序列的顺序数据，三次建立剩余的客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果。

具体地，承接步骤S553的示例进行说明，如备选坐席有两个即B1和B2，其各自对应的目标客户处理量是1个，目标处理总数是2个，不大于剩余客户名单的数量(如3个)，则将剩余客户名单中的3个客户按备选坐席的目标客户处理量分配一个给B1，一个给B2后，调取坐席序列的顺序数据，三次建立剩余的客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，将最后一个分配给坐席序列中的A1。

步骤S551-步骤S557，通过获取每一坐席等级对应的坐席序列中所有坐席的可接待客户数量和区域等级客户名单的客户数量确定数据匹配结果，若区域等级客户名单的客户数量大于坐席等级对应的坐席序列中所有坐席的可接待客户数量，则需要通过备选坐席完成客户分配，以使数据匹配结果更加合理。

在一实施例中，如图6所示，在步骤S10，获取客户名单之前，数据匹配方法还包括：

S011：获取待训练客户名单，待训练客户名单携带有原始客户等级，在待训练客户名单中随机抽取K个样本集，基于K个样本集生成对应的随机森林。

其中，待训练客户名单指用于训练客户等级识别模型的客户名单。该客户名单中存储有客户姓名、身份证号、客户地址和客户属性等信息。其中，本实施例中的客户属性包括但不限于客户的出险次数、保费缴纳金额和是否好沟通等信息。在获取待训练客户名单后，从待训练客户名单中随机抽取部分待训练客户名单，将该部分待训练客户名单分为K个样本集，一个样本集对应一棵决策树，K个样本集对应生成K棵决策树，形成一个随机森林。每个样本集中的待训练客户名单包括有M个客户属性。

为了验证随机森林的准确性，待训练客户名单携带有原始客户等级，该原始客户等级指开发人员根据待训练客户名单的真实情况确定的客户等级。具体地，基于K个样本集生成对应的随机森林步骤包括：(1)对于每个样本集，从M个属性中选取m个属性(一般地，m为M的均方根)。从这m个属性中采用某种策略(包括但不限于信息增益、信息增益比和基尼指数)选择其中的一个属性作为构建第一棵决策树的分裂点；(2)对剩下的m-1个属性重复执行步骤(1)，直到不能够再分裂为止(如果下一次该节点选出来的那一个属性刚好是其父节点分裂时用过的属性，则该节点已经达到了叶子节点，表示无须继续分裂)，得到决策树；(3)将生成的多棵子决策树组成随机森林。

S012：将没有抽取的待训练客户名单输入到随机森林中，将随机森林的输出结果作为待训练客户名单的训练等级。

具体地，在待训练客户名单抽取完K个样本集后，将剩余的待训练客户名单，即没有抽取到的待训练客户名单输入到随机森林中，随机森林对每棵决策树的输出结果进行投票，将投票最多的输出结果作为随机森林的输出结果。在得到随机森林的输出结果后，将随机森林对应的输出结果作为待训练客户名单的训练等级。通过随机森林获取训练等级提高了数据训练的速度。例如：随机森林中有100棵子决策树，80棵子决策树的分类结果是A级客户名单，20棵子决策树树的分类结果是B级客户名单，通过投票，该随机森林的输出结果是A级客户名单，该A级客户名单则为待训练客户名单通过随机森林得到的训练等级。

S013：将训练等级与原始客户等级进行对比，当训练等级与原始客户等级匹配，则将随机森林作为客户等级识别模型。

具体地，在获取训练等级后，将训练等级与原始客户等级进行对比，当训练等级与原始客户等级匹配，则表示将随机森林训练成功，可以将该随机森林作为客户等级识别模型。

步骤S011-步骤S013，通过获取待训练客户名单生成随机森林，并根据随机森林得到的训练等级与原始客户等级进行对比，获取客户等级识别模型，提高客户等级识别的准确性。

在一实施例中，如图7所示，在步骤S10，获取客户名单之前，数据匹配方法还包括：

S021：获取待训练坐席数据，待训练坐席数据包括待训练特征，每一待训练坐席数据对应的一坐席标签。

其中，待训练坐席数据指用于训练模型的数据。待训练特征指待训练坐席数据对应的特征，包括但不限于坐席人员的等级、续保率、机构信息和历史业绩等特征。坐席标签指对坐席划分的等级标签。

S022：将待训练坐席数据划分为训练集和测试集。

具体地，在获取待训练坐席数据后，将待训练坐席数据划分为训练集和测试集，用于训练坐席等级识别模型，并且测试训练好的坐席等级识别模型是否准确。其中，训练集(training set)是用于训练坐席等级识别模型的待训练坐席数据的集合。测试集(testset)是用于测试训练好的坐席等级识别模型是否准确的待训练坐席数据的集合。

S023：初始化原始梯度提升决策树模型中的模型参数，模型参数包括最大深度和最大迭代次数。

本实施例中的坐席等级识别模型是通过训练原始梯度提升决策树模型得到的。其中，梯度提升决策树(Gradient Boosting Decision Tree，以下简称GBDT)是一种迭代的决策树算法，该算法由多棵决策树组成，所有决策树的结果累加起来作为最终预测结果。

具体地，在对原始GBDT模型进行训练之前，首先需要对原始GBDT模型中的模型参数进行初始化设置。本实施例中的模型参数包括原始GBDT的最大深度和最大迭代次数。根据实验数据表示，原始GBDT的最大深度设置为20，最大迭代次数设置为100，效果最好，本实施例中初始化设置其最大深度为20，最大迭代次数为100。对原始GBDT模型的模型参数进行初始化设置可以在后续训练原始GBDT模型时，缩短训练时间，提高识别准确率。

S024：使用原始梯度提升决策树模型对训练集进行训练，当原始梯度提升决策树模型中的训练深度达到最大深度且迭代次数达到最大迭代次数，则停止训练原始梯度提升决策树模型，获取有效梯度提升决策树模型。

具体地，在对原始GBDT模型进行初始化设置后，将训练集中的待训练坐席数据输入到原始GBDT模型中，原始GBDT模型会在待训练坐席数据对应的待训练特征中选择一个特征作为第一个分叉点，并获取训练集中待训练坐席数据在该分叉点的残差，然后将待训练特征中剩余的特征进行再次分叉，将第一个分叉点对应的残差作为第二个决策树的输入，不断迭代，当原始GBDT模型中的训练深度达到最大深度且迭代次数达到最大迭代次数，则停止训练原始GBDT模型，获取有效GBDT模型。原始GBDT模型训练过程中，为了使GBDT模型损失达到最小，GBDT模型会自动调整参数，使得输入GBDT模型的待训练特征携带有对应的重要程度。

S025：将测试集输入到有效梯度提升决策树模型中，计算测试集在有效梯度提升决策树模型中的误差损失，当误差损失最小时，则将有效梯度提升决策树模型确定为坐席等级识别模型。

具体地，在获取有效GBDT模型后，使用测试集中的待训练坐席数据对有效梯度提升决策树模型进行测试，当有效梯度提升决策树模型中计算的误差损失最小时，则表示有效GBDT模型的迭代次数和最大深度为有效GBDT模型中的一组最优参数，该组最优参数对应的有效GBDT模型作为坐席等级识别模型，用于后续坐席等级的识别。

步骤S021-步骤S025，通过训练原始GBDT模型获取坐席等级识别模型，使得坐席等级识别模型的训练过程无需人工干预，可以通过算法自动实现，提高了坐席等级识别模型的训练效率和准确性。

本发明提供的数据匹配方法，通过客户等级识别模型对待分配客户数据进行识别，获取待分配客户数据中每个待分配客户信息对应的客户等级，然后根据客户等级，将同一客户等级的待分配客户信息划分为一个目标客户名单，方便后续根据客户等级匹配对应的坐席等级的坐席与客户进行沟通。将待识别坐席数据输入到坐席等级识别模型中，获取待识别坐席数据对应的坐席等级，提高坐席等级的识别准确率和效率。最后根据分配逻辑对目标客户名单和等级坐席名单建立映射关系，若区域等级客户名单的客户数量大于坐席等级对应的坐席序列中所有坐席的可接待客户数量，则需要通过备选坐席完成客户分配，使得每一客户等级的客户都可以分配到对应的坐席等级的坐席，不需要人工干预，实现了智能匹配，保证了数据匹配的准确性和效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种数据匹配装置，该数据匹配装置与上述实施例中数据匹配方法一一对应。如图8所示，该数据匹配装置包括客户等级获取模块10、目标客户名单获取模块20、待识别坐席数据获取模块30、坐席等级获取模块40和数据匹配结果获取模块50。各功能模块详细说明如下：

客户等级获取模块10，用于接收客户端发送的待分配客户数据，将待分配客户数据输入到基于随机森林生成的客户等级识别模型中，获取待分配客户数据对应的客户等级。

目标客户名单获取模块20，用于按照客户等级对待分配客户数据进行划分，获取与客户等级相对应的目标客户名单。

待识别坐席数据获取模块30，用于接收客户端发送的待识别坐席数据，待识别坐席数据包括待识别坐席特征。

坐席等级获取模块40，用于将待识别坐席特征输入到基于梯度提升决策树生成的坐席等级识别模型中，获取坐席等级识别模型输出的坐席等级；基于坐席等级对待识别坐席数据进行划分，获取与坐席等级相对应的等级坐席名单。

数据匹配结果获取模块50，用于根据分配逻辑，对每一目标客户名单和等级坐席名单建立映射关系，获取数据匹配结果，并将数据匹配结果反馈给对应的客户端。

进一步地，数据匹配结果获取模块50包括区域等级客户名单获取单元51、有效坐席名单获取单元52、等级匹配结果获取单元53、坐席序列获取单元54和数据匹配结果获取单元55。

区域等级客户名单获取单元51，用于基于客户地址对目标客户名单进行区域划分，确定区域等级客户名单，一区域等级客户名单对应一区域类型。

有效坐席名单获取单元52，用于基于区域等级客户名单的区域类型选取对应的目标语言，根据目标语言对等级坐席名单进行划分，获取有效坐席名单。

等级匹配结果获取单元53，用于根据等级划分逻辑，对区域等级客户名单和有效坐席名单建立映射关系，获取等级匹配结果。

坐席序列获取单元54，用于确定有效坐席名单中每一坐席的当前客户处理量，根据当前客户处理量生成坐席序列。

数据匹配结果获取单元55，用于调取坐席序列的顺序数据，建立区域等级客户名单与坐席序列中每一坐席的映射关系，获取数据匹配结果。

进一步地，区域等级客户名单获取单元51包括客户地址处理单元、区域划分单元和目标客户名单划分单元。

客户地址处理单元，用于对客户地址进行标准化处理，获取标准地址。

区域划分单元，用于对标准地址进行区域划分，获取标准地址对应的区域类型。

目标客户名单划分单元，用于基于区域类型对目标客户名单进行区域划分，获取区域等级客户名单。

进一步地，数据匹配结果获取单元55包括可接待客户数量确定单元、第一匹配处理单元、第二匹配处理单元、备选坐席确定单元、第三匹配处理单元、第四匹配处理单元和第五匹配处理单元。

可接待客户数量确定单元，用于获取每一坐席等级对应的坐席序列中所有坐席的可接待客户数量。

第一匹配处理单元，用于若区域等级客户名单的客户数量不大于坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量建立区域等级客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果。

第二匹配处理单元，用于若区域等级客户名单的客户数量大于坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量初次建立区域等级客户名单与坐席等级对应的坐席序列中每一坐席的映射关系。

备选坐席确定单元，用于基于区域等级客户名单的客户数量与坐席等级对应的坐席序列中所有坐席的可接待客户数量，获取剩余客户名单，基于剩余客户名单查询坐席等级是否存在备选坐席。

第三匹配处理单元，用于若不存在备选坐席，则调取坐席序列的顺序数据，二次建立剩余客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果。

第四匹配处理单元，用于若存在备选坐席，则获取备选坐席的目标客户处理量，若备选坐席的目标处理总数大于剩余客户名单的数量，则按照备选坐席的目标客户处理量建立剩余客户名单与备选坐席的映射关系，获取数据匹配结果。

第五匹配处理单元，用于若备选坐席的目标处理总数不大于剩余客户名单的数量，则按照备选坐席的目标客户处理量将剩余客户名单分配给备选坐席后，调取坐席序列的顺序数据，三次建立剩余的客户名单与坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果。

进一步地，数据匹配装置还包括随机森林生成模块、训练等级获取模块和客户等级识别模型获取模块。

随机森林生成模块，用于获取待训练客户名单，待训练客户名单携带有原始客户等级，在待训练客户名单中随机抽取K个样本集，基于K个样本集生成对应的随机森林。

训练等级获取模块，用于将没有抽取的待训练客户名单输入到随机森林中，将随机森林的输出结果作为待训练客户名单的训练等级。

客户等级识别模型获取模块，用于将训练等级与原始客户等级进行对比，当训练等级与原始客户等级匹配，则将随机森林作为客户等级识别模型。

进一步地，数据匹配装置还包括待训练坐席数据获取模块、待训练坐席数据划分模块、参数初始化模块、决策树模型训练模块和决策树模型测试模块。

待训练坐席数据获取模块，用于获取待训练坐席数据，待训练坐席数据包括待训练特征，每一待训练坐席数据对应的一坐席标签。

待训练坐席数据划分模块，用于将待训练坐席数据划分为训练集和测试集。

参数初始化模块，用于初始化原始梯度提升决策树模型中的模型参数，模型参数包括最大深度和最大迭代次数。

决策树模型训练模块，用于使用原始梯度提升决策树模型对训练集进行训练，当原始梯度提升决策树模型中的训练深度达到最大深度且迭代次数达到最大迭代次数，则停止训练原始梯度提升决策树模型，获取有效梯度提升决策树模型。

决策树模型测试模块，用于将测试集输入到有效梯度提升决策树模型中，计算测试集在有效梯度提升决策树模型中的误差损失，当误差损失最小时，则将有效梯度提升决策树模型确定为坐席等级识别模型。

关于数据匹配装置的具体限定可以参见上文中对于数据匹配方法的限定，在此不再赘述。上述数据匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据匹配方法涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据匹配方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现实施例中的数据匹配方法，例如图2所示步骤S10-步骤S50，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现数据匹配装置这一实施例中的各模块/单元的功能，例如图8所示各模块/单元的功能，为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的数据匹配方法，例如图2所示步骤S10-步骤S50，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，计算机程序被处理器执行时实现数据匹配装置这一实施例中的各模块/单元的功能，例如图8所示各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据匹配方法，其特征在于，包括：

按照所述客户等级对所述待分配客户数据进行划分，获取与所述客户等级相对应的目标客户名单；所述目标客户名单中包括客户地址；

对所述客户地址进行标准化处理，获取标准地址；

对所述标准地址进行区域划分，获取所述标准地址对应的区域类型；

基于所述区域类型对所述目标客户名单进行区域划分，获取区域等级客户名单，一区域等级客户名单对应一区域类型；

基于所述区域等级客户名单的区域类型选取对应的目标语言，根据所述目标语言对所述等级坐席名单进行划分，获取有效坐席名单；

根据等级划分逻辑，对所述区域等级客户名单和所述有效坐席名单建立映射关系，获取等级匹配结果；

确定所述有效坐席名单中每一坐席的当前客户处理量，根据所述当前客户处理量生成坐席序列；

获取每一所述坐席等级对应的坐席序列中所有坐席的可接待客户数量；

若所述区域等级客户名单的客户数量不大于所述坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取所述坐席序列的顺序数据，依次按照每个坐席的可接待客户数量建立所述区域等级客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果；

若所述区域等级客户名单的客户数量大于所述坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量初次建立所述区域等级客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系；

基于区域等级客户名单的客户数量与所述坐席等级对应的坐席序列中所有坐席的可接待客户数量，获取剩余客户名单，基于所述剩余客户名单查询所述坐席等级是否存在备选坐席；

若不存在备选坐席，则调取所述坐席序列的顺序数据，二次建立所述剩余客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果；

若存在备选坐席，则获取备选坐席的目标客户处理量，若备选坐席的目标处理总数大于剩余客户名单的数量，则按照所述备选坐席的目标客户处理量建立所述剩余客户名单与所述备选坐席的映射关系，获取数据匹配结果；

若备选坐席的目标处理总数不大于剩余客户名单的数量，则按照所述备选坐席的目标客户处理量将剩余客户名单分配给备选坐席后，调取坐席序列的顺序数据，三次建立剩余的客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果，并将所述数据匹配结果反馈给对应的客户端。

2.如权利要求1所述的数据匹配方法，其特征在于，在所述接收客户端发送的待分配客户数据之前，所述数据匹配方法还包括：

获取待训练客户名单，所述待训练客户名单携带有原始客户等级，在待训练客户名单中随机抽取K个样本集，基于K个样本集生成对应的随机森林；

将没有抽取的所述待训练客户名单输入到随机森林中，将随机森林的输出结果作为所述待训练客户名单的训练等级；

将所述训练等级与所述原始客户等级进行对比，当所述训练等级与所述原始客户等级匹配，则将所述随机森林作为客户等级识别模型。

3.如权利要求1所述的数据匹配方法，其特征在于，在所述接收客户端发送的待分配客户数据之前，所述数据匹配方法还包括：

获取待训练坐席数据，所述待训练坐席数据包括待训练特征，每一待训练坐席数据对应的一坐席标签；

将所述待训练坐席数据划分为训练集和测试集；

初始化原始梯度提升决策树模型中的模型参数，所述模型参数包括最大深度和最大迭代次数；

使用所述原始梯度提升决策树模型对所述训练集进行训练，当所述原始梯度提升决策树模型中的训练深度达到最大深度且迭代次数达到最大迭代次数，则停止训练原始梯度提升决策树模型，获取有效梯度提升决策树模型；

将所述测试集输入到所述有效梯度提升决策树模型中，计算测试集在所述有效梯度提升决策树模型中的误差损失，当误差损失最小时，则将有效梯度提升决策树模型确定为坐席等级识别模型。

4.一种数据匹配装置，其特征在于，包括：

目标客户名单获取模块，用于按照所述客户等级对所述待分配客户数据进行划分，获取与所述客户等级相对应的目标客户名单；所述目标客户名单中包括客户地址；

数据匹配结果获取模块，用于对所述客户地址进行标准化处理，获取标准地址；对所述标准地址进行区域划分，获取所述标准地址对应的区域类型；基于所述区域类型对所述目标客户名单进行区域划分，获取区域等级客户名单，一区域等级客户名单对应一区域类型；基于所述区域等级客户名单的区域类型选取对应的目标语言，根据所述目标语言对所述等级坐席名单进行划分，获取有效坐席名单；根据等级划分逻辑，对所述区域等级客户名单和所述有效坐席名单建立映射关系，获取等级匹配结果；确定所述有效坐席名单中每一坐席的当前客户处理量，根据所述当前客户处理量生成坐席序列；获取每一所述坐席等级对应的坐席序列中所有坐席的可接待客户数量；若所述区域等级客户名单的客户数量不大于所述坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取所述坐席序列的顺序数据，依次按照每个坐席的可接待客户数量建立所述区域等级客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果；若所述区域等级客户名单的客户数量大于所述坐席等级对应的坐席序列中所有坐席的可接待客户数量，则调取坐席序列的顺序数据，依次按照每个坐席的可接待客户数量初次建立所述区域等级客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系；基于区域等级客户名单的客户数量与所述坐席等级对应的坐席序列中所有坐席的可接待客户数量，获取剩余客户名单，基于所述剩余客户名单查询所述坐席等级是否存在备选坐席；若不存在备选坐席，则调取所述坐席序列的顺序数据，二次建立所述剩余客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果；若存在备选坐席，则获取备选坐席的目标客户处理量，若备选坐席的目标处理总数大于剩余客户名单的数量，则按照所述备选坐席的目标客户处理量建立所述剩余客户名单与所述备选坐席的映射关系，获取数据匹配结果；若备选坐席的目标处理总数不大于剩余客户名单的数量，则按照所述备选坐席的目标客户处理量将剩余客户名单分配给备选坐席后，调取坐席序列的顺序数据，三次建立剩余的客户名单与所述坐席等级对应的坐席序列中每一坐席的映射关系，获取数据匹配结果，并将所述数据匹配结果反馈给对应的客户端。

5.如权利要求4所述的数据匹配装置，其特征在于，所述数据匹配结果获取模块包括：

区域等级客户名单获取单元，用于基于所述客户地址对所述目标客户名单进行区域划分，确定区域等级客户名单，所述一区域等级客户名单对应一区域类型；

有效坐席名单获取单元，用于基于所述区域等级客户名单的区域类型选取对应的目标语言，根据所述目标语言对所述等级坐席名单进行划分，获取有效坐席名单；

等级匹配结果获取单元，用于根据等级划分逻辑，对所述区域等级客户名单和所述有效坐席名单建立映射关系，获取等级匹配结果；

坐席序列获取单元，用于确定所述有效坐席名单中每一坐席的当前客户处理量，根据所述当前客户处理量生成坐席序列；

数据匹配结果获取单元，用于调取所述坐席序列的顺序数据，建立所述区域等级客户名单与所述坐席序列中每一坐席的映射关系，获取数据匹配结果。

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述数据匹配方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述数据匹配方法。