CN111861610A

CN111861610A - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN111861610A
Application number: CN201910367655.5A
Authority: CN
Inventors: 周畅; 韩冰; 王洋
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30

Abstract

本申请公开一种数据处理方法、装置、电子设备及存储介质，属于数据处理技术领域。该数据处理方法包括：获取针对服务订单的客服工单；对客服工单中记录的文本进行分词，得到分词数组；利用预设的向量转换模型将分词数组映射为对应的词向量序列；将词向量序列中的各个向量按照在文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到服务订单的危险系数。本申请实施例中，通过对待处理的客服工单进行分词和词向量转换处理，并将得到的各个向量按照在文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，从而实现对服务订单的危险系数的预测，降低人工客服的时间成本，提高判断效率，同时能减少人工判断的主观性。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本申请属于数据处理技术领域，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着科技的进步和社会网络的复杂化，衍生了很多负责为用户提供便利的服务平台(例如网约车平台、外卖平台)。服务平台作为连接服务请求方和服务提供方的关联者，平台不仅需要为多元用户提供便利的服务，同时也肩负着保障用户利益的重大责任。复杂的社会关系和难以预测的突发状况都为平台服务和管控用户带来了巨大的困难，因此，服务平台几乎都设立有负责处理各种投诉订单的客服人员。而客服是连接平台、服务请求方和服务提供方这三方关系的重要纽带，作为三方信息的中转站，从客服这个节点切入解决安全问题显得尤为重要。

目前服务订单安全问题主要是通过人工客服升级处理和客户端问答处理，比如客服根据用户进线内容人工判断是否需要升级为安全问题，但是存在以下问题：1)客服人员有限，不能及时处理2)待判断事件积压量与响应速度呈反比，在待判断事件存在积压时，也会降低其效率。

发明内容

鉴于此，本申请的目的在于提供一种数据处理方法、装置、电子设备及存储介质，以改善现有判断方式存在的判断效率低下和存在主观性导致判断结果不准确的问题。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供了一种数据处理方法，包括：获取针对服务订单的客服工单；对所述客服工单中记录的文本进行分词，得到分词数组；利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列；将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。

本申请实施例中，通过对待处理的客服工单进行分词和词向量转换处理，使其转换为循环神经网络模型可识别的数字向量，并将得到的各个向量按照在文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，从而实现对服务订单的危险系数的预测，降低人工客服的时间成本，提高判断效率，同时能减少人工判断的主观性。

结合第一方面实施例，在一种可能的实施方式中，对所述客服工单中记录的文本进行分词，得到分词数组，包括：对所述客服工单中记录的文本进行预处理，所述预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息；对预处理后的文本进行分词，得到分词数组。本申请实施例中，在对客服工单中记录的文本进行分词时，先对文本进行预处理，如删除重复记录、删除客服话术、规范标点符号、删除冗余信息，然后再对预处理后的文本进行分词处理，以减少无用信息的干扰，提高预测结果的准确性，同时由于删除到了无用的信息，还可以提高处理效率。

结合第一方面实施例，在一种可能的实施方式中，在得到所述服务订单的危险系数之后，所述方法还包括：判断所述危险系数是否大于预设危险阈值；在所述危险系数大于所述预设危险阈值时，将所述危险系数和所述文本发送至负责处理危险事件的客服组对应的终端，以使客服人员对所述客服工单进行处理。本申请实施例中，在得到危险系数后，将其与预设危险阈值进行比较，在危险系数大于述预设危险阈值时，将危险系数和对饮的文本发送至负责处理危险事件的客服组对应的终端，以使客服人员对该客服工单及时进行处理，以提高处理的效率。

结合第一方面实施例，在一种可能的实施方式中，所述方法还包括：获取当前时刻能处理危险事件的客服人员数量；根据所述客服人员数量更新所述预设危险阈值。本申请实施例中，通过获取当前时刻能处理危险事件的客服人员数量来更改预设危险阈值，以协调负责处理危险事件的客服人员与待处理的危险事件之间的平衡性。

结合第一方面实施例，在一种可能的实施方式中，将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数，包括：将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的词向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。本申请实施例中，利用循环神经网络模型来计算输入的词向量序列与训练得到的向量参数之间的相似度，进而能快速、准确的得到服务订单的危险系数。

结合第一方面实施例，在一种可能的实施方式中，将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数，包括：计算所述词向量序列与预设的业务关键词对应的词向量之间的余弦相似度；在所述词向量序列的首位插入所述余弦相似度，得到更新后的词向量序列；将所述更新后的词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的词向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。本申请实施例中，通过在词向量序列的首位插入计算得到的词向量序列与预设的业务关键词对应的词向量之间的余弦相似度，得到更新后的词向量序列，再利用循环神经网络模型来计算输入的词向量序列与训练得到的向量参数之间的相似度，进而能进一步提高预测到的服务订单的危险系数的准确性。

结合第一方面实施例，在一种可能的实施方式中，在获取针对服务订单的客服工单之前，所述方法还包括：获取所述服务订单之前的第一预设时间段内的历史服务订单的历史客服工单；对每个所述历史客服工单中记录的文本进行分词，得到分词数组；利用每个所述历史客服工单对应的分词数组对初始的向量转换模型进行训练，得到所述训练好的向量转换模型。

结合第一方面实施例，在一种可能的实施方式中，在获取针对服务订单的客服工单之前，所述方法还包括：获取所述服务订单之前的第二预设时间段内的历史服务订单的历史客服工单；对每个所述历史客服工单中记录的文本依次进行分词、词向量转换处理，得到每个所述历史客服工单对应的词向量序列；利用每个所述历史客服工单对应的词向量序列对初始的循环神经网络模型进行训练，得到所述训练好的循环神经网络模型。

结合第一方面实施例，在一种可能的实施方式中，对每个所述历史客服工单中记录的文本进行分词、词向量转换处理，包括：对每个所述历史客服工单中记录的文本进行预处理，所述预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息；对预处理后的每个所述历史客服工单中记录的文本进行分词、词向量转换处理。

第二方面，本申请实施例还提供了一种数据处理装置，包括：第一获取模块、分词模块、转换模块以及处理模块；第一获取模块，用于获取针对服务订单的客服工单；分词模块，用于对所述客服工单中记录的文本进行分词，得到分词数组；转换模块，用于利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列；处理模块，用于将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。

结合第二方面实施例，在一种可能的实施方式中，所述分词模块，用于：对所述客服工单中记录的文本进行预处理，所述预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息；对预处理后的文本进行分词，得到分词数组。

结合第二方面实施例，在一种可能的实施方式中，所述装置还包括：判断模块以及发送模块；判断模块，用于判断所述危险系数是否大于预设危险阈值；发送模块，用于在所述危险系数大于所述预设危险阈值时，将所述危险系数和所述文本发送至负责处理危险事件的客服组对应的终端，以使客服人员对所述客服工单进行处理。

结合第二方面实施例，在一种可能的实施方式中，所述装置还包括：第二获取模块以及更新模块，第二获取模块，用于获取当前时刻能处理危险事件的客服人员数量；更新模块，用于根据所述客服人员数量更新所述预设危险阈值。

结合第二方面实施例，在一种可能的实施方式中，所述处理模块，用于：将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。

结合第二方面实施例，在一种可能的实施方式中，所述处理模块，还用于：计算所述词向量序列与预设的业务关键词对应的词向量之间的余弦相似度；在所述词向量序列的首位插入所述余弦相似度，得到更新后的词向量序列；将所述更新后的词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的词向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。

结合第二方面实施例，在一种可能的实施方式中，所述装置还包括：第一训练模块，所述第一获取模块，还用于获取所述服务订单之前的第一预设时间段内的历史服务订单的历史客服工单；所述分词模块，还用于对每个所述历史客服工单中记录的文本进行分词，得到分词数组；所述第一训练模块，用于利用每个所述历史客服工单对应的分词数组对初始的向量转换模型进行训练，得到所述训练好的向量转换模型。

结合第二方面实施例，在一种可能的实施方式中，所述装置还包括：第二训练模块，所述第一获取模块，还用于获取所述服务订单之前的第二预设时间段内的历史服务订单的历史客服工单；所述分词模块，还用于对每个所述历史客服工单中记录的文本进行分词；所述转换模块，还用于利用事先训练好的向量转换模型对分词后的每个所述历史客服工单中记录的文本进行词向量转换处理，得到每个所述历史客服工单对应的词向量序列；

所述第二训练模块，用于利用每个所述历史客服工单对应的词向量序列以及对应的标签，对初始的循环神经网络模型进行训练，得到所述训练好的循环神经网络模型。

结合第二方面实施例，在一种可能的实施方式中，所述分词模块，还用于：对每个所述历史客服工单中记录的文本进行预处理，所述预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息；对预处理后的每个所述历史客服工单中记录的文本进行分词处理。

第三方面，本申请实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器，用于存储程序；所述处理器，用于调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的所述的方法。

第四方面，本申请实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的所述的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种数据处理方法的流程示意图。

图2示出了本申请实施例提供的一种基于循环神经网络模型预测服务订单危险系数的示意图。

图3示出了本申请实施例提供的又一种基于循环神经网络模型预测服务订单危险系数的示意图。

图4示出了本申请实施例提供的又一种数据处理方法的流程示意图。

图5示出了本申请实施例提供的一种数据处理装置的功能模块示意图。

图6示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

请参阅图1，为本申请实施例提供的一种应用于电子设备的数据处理方法，下面将结合图1对其所包含的步骤进行说明。

步骤S101：获取针对服务订单的客服工单。

获取待处理的针对服务订单的客服工单。其中，该客服工单可以是客服人员根据用户进线的内容记录生成的，也即客服人员对进线用户描述的事件进行记录保存得到该客服工单。此外，该客服工单也可以是根据用户在客户端上填写的内容获得，例如，以线上购物为例，可以是基于用户对所购商品的评论内容获得该客服工单；又例如，以网约打车为例，可以是基于乘客或司机对应的服务订单的评论内容获得该客服工单；又例如，以外卖为例，可以是基于点餐者对所点外卖的评论内容获得该客服工单。

步骤S102：对所述客服工单中记录的文本进行分词，得到分词数组。

在获取到待处理的客服工单后，基于分词算法或分词工具对客服工单中记录的文本进行分词处理，得到分词数组。例如可以是基于jieba、SnowNLP、THULAC、NLPIR等分词工具对客服工单中记录的文本进行分词。也可以是基于目前常用的主流分词方法(即基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法)对客服工单中记录的文本进行分词，该部分内容为本领域技术人员所熟知的内容，为了说明书的简洁，所以在此不再赘述。

考虑到由于针对同一服务订单可能会有不同用户进线，造成不同人工客服不止一遍的对事件进行记录和描述，因此，作为又一种实施方式，对客服工单中记录的文本进行分词可以是：首先对客服工单中记录的文本进行预处理，然后对预处理后的文本进行分词。其中，上述的预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息。也就是说，该实施方式下，不再是直接对客服工单中记录的文本进行分词，而是对预处理后的文本进行分词。

步骤S103：利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列。

在得到分词数组后，利用事先训练好的向量转换模型将得到的分词数组映射为对应的词向量序列X＝(x1，x2，x3，……，xn)，也即利用训练好的向量转换模型将文本数据转化为循环神经网络模型可识别的数字向量，从而实现通过循环神经网络模型来预测服务订单是否需要升级为危险事件，以降低人工客服的时间成本，提高判断效率，同时能减少人工判断的主观性。其中，该词向量序列X可以是256维的，即n为256。

其中，上述的向量转换模型可以为训练好的word2vec模型、Fasttext模型或GloVe模型。也即在获取针对服务订单的客服工单之前，可以使用大量的历史客服工单数据对word2vec模型、Fasttext模型或GloVe模型进行训练，为后续将文本转化为循环神经网络模型学习模型可以识别的数字向量做准备。

其中，在对上述的向量转换模型进行训练时，获取所述服务订单之前的第一预设时间段内的历史服务订单的历史客服工单；对每个所述历史客服工单中记录的文本进行分词，得到分词数组；利用每个所述历史客服工单对应的分词数组对初始的向量转换模型进行训练，即可得到训练好的向量转换模型。此外，考虑到由于针对同一服务订单可能会有不同用户进线，造成不同人工客服不止一遍的对事件进行记录和描述，因此，在获取到服务订单之前的第一预设时间段内的历史服务订单的历史客服工单后，可以对其进行预处理，然后再对预处理后的每个历史客服工单中记录的文本进行分词。其中，预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息。也就是说，在对每个历史客服工单中记录的文本进行分词时，可以是直接基于每个历史客服工单中记录的文本依次进行分词，也可以是对预处理后的每个历史客服工单中记录的文本进行分词。

其中，上述的第一预设时间段的长短可以根据处理的客服工单的日均量来决定，例如，可以是1个月、2个月、3个月等时间段。若处理的客服工单的日均量大，则该时间段可以相对短一点，若处理的客服工单的日均量小，则该时间段应相对长一点，以保证获取的训练数据足够。

通过上述的训练过程，可以让初始的向量转换模型学习到服务订单所涉及的业务领域中各个分词的向量，所以在步骤S103中使用时，训练后的向量转换模型可以将步骤S102中得到的分词数组分别转换为各个分词对应的数字向量(词向量)。

可选的，还可以将得到的各个数字向量按照分词在文本中的语序拼接成一个有序的词向量序列，以便于在后续直接按照该词向量序列的顺序对词向量进行处理，例如步骤S104中的处理。当然，在实际运用中，也可以不将各个分词的数字向量进行有序拼接，而是在执行步骤S104时，再按照分词在文本中的语序依次一次将各个数字向量输入到事先训练好的循环神经网络模型中。

具体的，步骤S104：将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。

在将文本数据转换为词向量序列后，将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，即可得到所述服务订单的危险系数。也即，将从文本数据得到的数据向量根据时间先后顺序顺次输入到事先训练好的循环神经网络模型中进行处理，即可得到所述服务订单的危险系数。

作为一种实施方式，将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数的过程可以是：将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的词向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。为了便于理解，可以结合图2所示的示意图对该过程进行说明，如图2所示，将词向量序列X中的各个向量按照在文本中的语序顺次输入到事先训练好的循环神经网络模型(Recurrent NeuralNetwork,RNN)中，即按照x1、x2、x3……xn的顺序将各个向量输入到RNN中，通过RNN计算输入的词向量序列X与训练得到的向量参数之间的相似度，输出相似度y，该相似度即为服务订单的危险系数。

作为又一种实施方式，将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数的过程可以是：计算所述词向量序列与预设的业务关键词对应的词向量之间的余弦相似度；在所述词向量序列的首位插入所述余弦相似度，得到更新后的词向量序列；将所述更新后的词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的词向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。为了便于理解，可以结合图3所示的示意图对该过程进行说明，如图3所示，将向量序列X’中的各个向量按照在文本中的语序顺次输入到事先训练好的RNN中，即按照s1、x1、x2、x3……xn的顺序将各个向量输入到RNN中，通过RNN计算输入的词向量序列X’与训练得到的向量参数之间的相似度，输出相似度y，该相似度即为服务订单的危险系数。其中，s1为词向量序列X＝(x1，x2，x3，……，xn)与预设的业务关键词对应的词向量之间的余弦相似度。也即在计算得到所述词向量序列与预设的业务关键词对应的词向量之间的余弦相似度s1后，在所述词向量序列X的首位插入所述余弦相似度s1，得到更新后的词向量序列X’。

其中，上述的循环神经网络模型是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。具体的，本实施例中可以采用的循环神经网络例如可以是长短期记忆(LongShort－TermMemory，LSTM)网络、门控循环单元(GatedRecurrentUnit，GRU)网络以及这两个网络的变形网络。

其中，上述中预设的业务关键词即为特定应用领域中出现的高频率词语，比如网约车出行领域中的“安全”、“事故”、“性骚扰”、“抢劫”等均属于这类词语。其中，不同的应用领域下对应的业务关键词不同。业务关键词对应的词向量可以是利用事先训练好的向量转换模型对预设的业务关键词进行词向量转换而获得，即利用事先训练好的向量转换模型将所述业务关键词映射为对应的词向量。

在获取针对服务订单的客服工单之前，可以使用历史客服工单数据对初始的循环神经网络模型进行训练，为后续预测服务订单的危险系数做准备。

其中，在对初始的循环神经网络模型进行训练时，获取所述服务订单之前的第二预设时间段内的历史服务订单的历史客服工单；对每个所述历史客服工单中记录的文本依次进行分词、词向量转换处理，得到每个所述历史客服工单对应的词向量序列；利用每个所述历史客服工单对应的词向量序列以及对应的标签，对初始的循环神经网络模型进行训练，得到所述训练好的循环神经网络模型。此外，考虑到由于针对同一服务订单可能会有不同用户进线，造成不同人工客服不止一遍的对事件进行记录和描述，因此，在获取到服务订单之前的第二预设时间段内的历史服务订单的历史客服工单后，可以对其进行预处理，然后再对预处理后的每个历史客服工单中记录的文本依次进行分词、词向量转换处理。其中，预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息。也就是说，在对每个历史客服工单中记录的文本依次进行分词、词向量转换处理时，可以是直接基于每个历史客服工单中记录的文本依次进行分词、词向量转换处理，也可以是对预处理后的每个历史客服工单中记录的文本依次进行分词、词向量转换处理。其中，标签用于表征历史客服工单对应的事件是否为危险事件。

其中，在训练循环神经网络模型时，可以是将多个历史客服工单对应的词向量序列按照一定的比例(如4:2:1)将其划分为训练集、交叉验证集和测试集，然后对初始的循环神经网络模型进行训练，使得循环神经网络能根据输入的内容，进行选择性记忆，从而使模型学习到针对特定应用领域(例如网约车出行领域或者外卖领域)的业务关键词对应的词向量。也就是说，对循环神经网络模型进行训练的过程就是学习记忆特定应用领域中出现的高频率词语的过程。其中，交叉验证验证集，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

其中，上述的第二预设时间段的长短可以根据处理的客服工单的日均量来决定，例如，可以是1个月、2个月、3个月等时间段。若处理的客服工单的日均量大，则该时间段可以相对短一点，若处理的客服工单的日均量小，则该时间段应相对长一点，以保证获取的训练数据足够。此外，作为一种实施方式，该第二预设时间段可以小于第一预设时间段，使得训练向量转换模型所需的数据要多于训练循环神经网络模型所需的数据，以便于学习到足够的针对本业务场景环境的业务词表。

请参阅图4，为本申请实施例提供的又一种应用于电子设备的数据处理方法，下面将结合图4对其所包含的步骤进行说明。

步骤S201：获取针对服务订单的客服工单。

该步骤与上述的步骤S101相同，其具体细节请参阅上述的步骤S101。

步骤S202：对所述客服工单中记录的文本进行分词，得到分词数组。

该步骤与上述的步骤S102相同，其具体细节请参阅上述的步骤S102。

步骤S203：利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列。

该步骤与上述的步骤S103相同，其具体细节请参阅上述的步骤S103。

步骤S204：将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。

该步骤与上述的步骤S104相同，其具体细节请参阅上述的步骤S104。

步骤S205：判断所述危险系数是否大于预设危险阈值。

在得到服务订单的危险系数之后，判断危险系数是否大于预设危险阈值，在危险系数大于预设危险阈值时，执行步骤S206，在危险系数小于等于预设危险阈值时，则不作进一步处理。

步骤S206：将所述危险系数和所述文本发送至负责处理危险事件的客服组对应的终端，以使客服人员对所述客服工单进行处理。

在危险系数大于预设危险阈值时，说明事态紧急，需要立即处理，因此会将该危险系数和对应的文本发送至负责处理危险事件的客服组对应的终端，以使客服人员对该客服工单进行进一步处理。

其中，上述的预设危险阈值为事先根据需要设定，例如，以1分制为例，其预设危险阈值可以根据实际需要设定为0.6、0.65、0.7、0.8等数值。考虑到负责处理危险事件的客服组的客服人员有时处理的危险事件不是固定的，有时比较多，有时比较少，因此，作为一种实施方式，该预设危险阈值可以是不固定的，例如，可以是获取当前时刻能处理危险事件的客服人员数量；根据所述客服人员数量更新所述预设危险阈值。即可以负责处理危险事件的客服组的客服人员来设定，即当客服人员比较充裕时，也即待处理的危险事件较少时，其危险阈值可以相对小一点，当客服人员比较少时，也即待处理的危险事件较多时，其危险阈值可以相对大一点。例如，原始预设危险阈值为0.8，若当前时刻能处理危险事件的客服人员数量较多，则可以将该危险阈值设定为小一点，例如更新0.7；若当前时刻能处理危险事件的客服人员数量较少，则可以将该危险阈值设定为大一点，例如更新为0.85。

如图5所示，本申请实施例还提供了一种数据处理装置200，该数据处理装置200包括：第一获取模块210、分词模块220、转换模块230、处理模块240。

第一获取模块210，用于获取针对服务订单的客服工单。

分词模块220，用于对所述客服工单中记录的文本进行分词，得到分词数组。可选地，所述分词模块220，用于：对所述客服工单中记录的文本进行预处理，所述预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息；对预处理后的文本进行分词，得到分词数组。

转换模块230，用于利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列。

处理模块240，用于将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。可选地，所述处理模块240，用于：将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。可选地，所述处理模块240，用于：计算所述词向量序列与预设的业务关键词对应的词向量之间的余弦相似度；在所述词向量序列的首位插入所述余弦相似度，得到更新后的词向量序列；将所述更新后的词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；通过所述循环神经网络模型计算输入的词向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。

可选地，该数据处理装置200还包括：第一训练模块。此时，所述第一获取模块，还用于获取所述服务订单之前的第一预设时间段内的历史服务订单的历史客服工单。所述分词模块，还用于对每个所述历史客服工单中记录的文本进行分词，得到分词数组。所述第一训练模块，用于利用每个所述历史客服工单对应的分词数组对初始的向量转换模型进行训练，得到所述训练好的向量转换模型。

可选地，该数据处理装置200还包括：第二训练模块。此时，所述第一获取模块，还用于获取所述服务订单之前的第二预设时间段内的历史服务订单的历史客服工单。所述分词模块，还用于对每个所述历史客服工单中记录的文本进行分词。可选地，所述分词模块，还用于：对每个所述历史客服工单中记录的文本进行预处理，所述预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息；对预处理后的每个所述历史客服工单中记录的文本进行分词处理。所述转换模块，还用于利用事先训练好的向量转换模型对分词后的每个所述历史客服工单中记录的文本进行词向量转换处理，得到每个所述历史客服工单对应的词向量序列。

其中，所述第二训练模块，用于利用每个所述历史客服工单对应的词向量序列以及对应的标签，对初始的循环神经网络模型进行训练，得到所述训练好的循环神经网络模型。作为一种实施方式，该数据处理装置200还包括：判断模块以及发送模块。

其中，判断模块，用于判断所述危险系数是否大于预设危险阈值。

发送模块，用于在所述危险系数大于所述预设危险阈值时，将所述危险系数和所述文本发送至负责处理危险事件的客服组对应的终端，以使客服人员对所述客服工单进行处理。

作为一种实施方式，该数据处理装置200还包括：第二获取模块以及更新模块。

其中，第二获取模块，用于获取当前时刻能处理危险事件的客服人员数量；

更新模块，用于根据所述客服人员数量更新所述预设危险阈值。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例所提供的数据处理装置110，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

如图6所示，图6示出了一种可执行本发明实施例提供的数据处理方法的电子设备100的结构框图。所述电子设备100包括：至少一个收发器110，至少一个处理器120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。收发器110用于接收和发送数据。存储器130可以是高速随机存取存储器(RandomAccess Memory,RAM)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。其中，存储器130中存储有计算机可读取指令，如存储有图5中所示的软件功能模块，即数据处理装置200。其中，数据处理装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器130中或固化在所述电子设备110的操作系统(operating system，OS)中的软件功能模块。所述处理器120，用于执行存储器130中存储的可执行模块，例如所述数据处理装置200包括的软件功能模块或计算机程序。例如处理器120，用于获取针对服务订单的客服工单；所述处理器120，还用于所述客服工单中记录的文本进行分词，得到分词数组；处理器120，还用于利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列；处理器120，还用于将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。

其中，上述处理器140可能是一种集成电路芯片，具有信号的处理能力。该处理器140可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器140也可以是任何常规的处理器等。

其中，图5所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。

其中，在本发明实施例中，所述电子设备100可以是，但不限于网络服务器、数据库服务器、云端服务器等。

本申请实施例还提供了一种非易失性计算机可读存储介质(以下简称存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述如图1或图4所述的数据处理方法的步骤。具体实现可参见方法实施例，在此不再赘述。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的程序代码被运行时，能够执行上述实施例示出的数据处理方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取针对服务订单的客服工单；

对所述客服工单中记录的文本进行分词，得到分词数组；

利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列；

将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。

2.根据权利要求1所述的方法，其特征在于，对所述客服工单中记录的文本进行分词，得到分词数组，包括：

对所述客服工单中记录的文本进行预处理，所述预处理包括以下中的至少一种：删除重复记录、删除客服话术、规范标点符号、删除冗余信息；

对预处理后的文本进行分词，得到分词数组。

3.根据权利要求1所述的方法，其特征在于，在得到所述服务订单的危险系数之后，所述方法还包括：

判断所述危险系数是否大于预设危险阈值；

在所述危险系数大于所述预设危险阈值时，将所述危险系数和所述文本发送至负责处理危险事件的客服组对应的终端，以使客服人员对所述客服工单进行处理。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取当前时刻能处理危险事件的客服人员数量；

根据所述客服人员数量更新所述预设危险阈值。

5.根据权利要求1所述的方法，其特征在于，将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数，包括：

计算所述词向量序列与预设的业务关键词对应的词向量之间的余弦相似度；

在所述词向量序列的首位插入所述余弦相似度，得到更新后的词向量序列；

将所述更新后的词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中；

通过所述循环神经网络模型计算输入的词向量序列与训练得到的向量参数之间的相似度，并根据所述相似度得到所述服务订单的危险系数。

6.根据权利要求1-5中任一项所述的方法，其特征在于，在获取针对服务订单的客服工单之前，所述方法还包括：

获取所述服务订单之前的第一预设时间段内的历史服务订单的历史客服工单；

对每个所述历史客服工单中记录的文本进行分词，得到分词数组；

利用每个所述历史客服工单对应的分词数组对初始的向量转换模型进行训练，得到所述训练好的向量转换模型。

7.根据权利要求1-5中任一项所述的方法，其特征在于，在获取针对服务订单的客服工单之前，所述方法还包括：

获取所述服务订单之前的第二预设时间段内的历史服务订单的历史客服工单；

对每个所述历史客服工单中记录的文本依次进行分词、词向量转换处理，得到每个所述历史客服工单对应的词向量序列；

利用每个所述历史客服工单对应的词向量序列以及对应的标签，对初始的循环神经网络模型进行训练，得到所述训练好的循环神经网络模型。

8.一种数据处理装置，其特征在于，包括：

第一获取模块，用于获取针对服务订单的客服工单；

分词模块，用于对所述客服工单中记录的文本进行分词，得到分词数组；

转换模块，用于利用事先训练好的向量转换模型将所述分词数组映射为对应的词向量序列；

处理模块，用于将所述词向量序列中的各个向量按照在所述文本中的语序顺次输入到事先训练好的循环神经网络模型中进行处理，得到所述服务订单的危险系数。

9.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器连接；

所述存储器，用于存储程序；

所述处理器，用于调用存储于所述存储器中的程序，以执行如权利要求1-7中任一项所述的方法。

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1-7中任一项所述的方法。