CN112860877B

CN112860877B - 客服作业处理方法、装置、电子设备及存储介质

Info

Publication number: CN112860877B
Application number: CN202110354843.1A
Authority: CN
Inventors: 李宁; 陈永录; 王密
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2024-02-02
Anticipated expiration: 2041-03-31
Also published as: CN112860877A

Abstract

本发明公开了一种客服作业处理方法、装置、电子设备及存储介质，涉及人工智能领域，该方法包括：接收用户客服请求，请求包括：作业信息和客服请求类型；响应于根据作业信息确定客服请求为自助服务且客服请求类型为人工服务，触发虚拟客服操作，显示虚拟客服形象；获取用户的包含作业信息的音视频信息，根据作业信息获取预设的与该作业信息相应的处理方案信息；基于语音合成技术将处理方案信息通过虚拟客服形象播放给用户，以便于该用户执行相应的操作；响应于根据音视频信息检测到用户情绪超出预设范围，触发人工服务操作，以便于帮助该用户完成相应的操作。通过本发明，可以降低培养坐席人员成本，提升业务办理效率，还可以提升用户的体验感。

Description

客服作业处理方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，具体涉及一种客服作业处理方法、装置、电子设备及存储介质。

背景技术

随着市场经济及科学技术的进一步发展，越来越多的企业除了在关注业绩之外，对服务质量也愈加重视起来。金融行业作为服务性质较强的行业，客户的去留很大程度上由客服质量决定。为了更好的为客户服务，金融行业采用了语音、文字、视频等多种客服渠道，一方面为客户提供7*24小时的业务咨询、辅助交易、疑难问题解答、外呼营销、客户关怀等，另一方面，对于无法在线解决的客户咨询、建议、投诉，及时提交工作联系单转后台处理，并跟踪处理情况，及时回复客户。

当前金融服务行业的呼叫中心客服系统，包括以下几种：

电话客服，客户通过电话、手机等移动通信设备进行呼叫客服的请求操作，电话客服系统的智能呼叫平台经过一系列操作连接系统服务坐席进行服务响应。单一的电话客服，往往会存在客户不耐烦等待及优先权等问题。

自助语音服务，客户来电后通过预设的语音导航进行按键操作，自助快速获取多种较为简单的服务，降低客户忙音等待时间，提高呼入接听率及客户满意度，同时帮助人工坐席节约更多的时间与精力处理其他复杂需求。

文字客服，为语音沟通障碍或不方便语音沟通的客户，提供了更好的服务方式，但其效率较低，且由于文字的概括性较高、感情传达较少，往往会产生歧义理解，造成误会或冲突。

多渠道客服系统，该系统缓解了转人工压力，但仍存在部分客户简单问题转人工操作，在一定程度上造成了人工坐席处理简单、重复类工作，降低了人工作业的效率，增加了企业运营和管理成本。

发明内容

有鉴于此，本发明提供一种客服作业处理方法、装置、电子设备及存储介质，以解决上述提及的至少一个问题。

根据本发明的第一方面，提供一种客服作业处理方法，所述方法包括：

接收用户客服请求，所述请求包括：作业信息和客服请求类型；

响应于根据所述作业信息确定所述客服请求为自助服务且所述客服请求类型为人工服务，触发虚拟客服操作，显示虚拟客服形象；

获取用户的包含作业信息的音视频信息，根据所述作业信息获取预设的与该作业信息相应的处理方案信息；

基于语音合成技术将所述处理方案信息通过所述虚拟客服形象播放给用户，以便于该用户执行相应的操作；

响应于根据所述音视频信息检测到用户情绪超出预设范围，触发人工服务操作，以便于帮助该用户完成相应的操作。

根据本发明的第二方面，提供一种客服作业处理装置，所述装置包括：

请求接收单元，用于接收用户客服请求，所述请求包括：作业信息和客服请求类型；

虚拟客服触发单元，用于响应于根据所述作业信息确定所述客服请求为自助服务且所述客服请求类型为人工服务，触发虚拟客服操作，显示虚拟客服形象；

处理方案获取单元，用于获取用户的包含作业信息的音视频信息，根据所述作业信息获取预设的与该作业信息相应的处理方案信息；

处理方案播放单元，用于基于语音合成技术将所述处理方案信息通过所述虚拟客服形象播放给用户，以便于该用户执行相应的操作；

人工服务触发单元，用于响应于根据所述音视频信息检测到用户情绪超出预设范围，触发人工服务操作，以便于帮助该用户完成相应的操作。

根据本发明的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

由上述技术方案可知，当根据接收到的用户客服请求确定请求为自助服务但是用户要求进行人工服务时，触发虚拟客服操作，显示虚拟客服形象，随后获取用户的音视频信息，并获取预设的与该作业信息相应的处理方案信息，并基于语音合成技术将处理方案信息通过虚拟客服形象播放给用户，以便于用户执行相应的操作，而当检测到用户情绪超出预设范围时，触发人工服务操作，以便于通过人工服务帮助用户完成相应的操作，相比于现有技术，本技术方案通过触发虚拟客服，可以建立用户与虚拟客服面对面交流的场景，既可以通过预设流程自动引导用户办理简单业务，也可以通过后台视频引导用户，这降低了企业培养坐席人员成本，提升了业务办理效率，而当用户出现情绪问题时，触发人工服务操作，可以及时处理用户的作业问题，从而可以较好地提高用户的满意度，提升用户的体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的客服作业处理方法的流程图；

图2是根据本发明实施例的客服作业处理方法的详细流程图；

图3是根据本发明实施例的步骤7的详细流程图；

图4是根据本发明实施例的步骤9的详细流程图；

图5是根据本发明实施例的客服作业处理装置的结构框图；

图6为本发明实施例的电子设备600的系统构成的示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的多渠道客服系统存在可自助办理的业务却转人工服务的问题，使得人工坐席处理简单、重复类工作，这降低了人工作业的效率，也增加了企业运营和管理成本。基于此，本发明实施例提供一种客服作业处理方案，该方案基于虚拟客服，建立了客户与虚拟客服面对面交流的场景，既可以通过预设流程自动引导客户办理简单业务，也可以通过后台视频引导客户，降低了企业培养坐席人员成本，提升业务办理效率，提高了客户满意度。以下结合附图来详细描述本发明实施例。

图1是根据本发明实施例的客服作业处理方法的流程图，如图1所示，该方法包括：

步骤101，接收用户(也可以称为客户)客服请求，所述请求包括：作业信息和客服请求类型。

在实际操作中，通过作业信息可以明确该请求预设的服务流程为自助服务流程还是人工服务流程。

这里的客服请求类型为用户要求的服务类型：自助服务或者人工服务。

步骤102，响应于根据所述作业信息确定所述客服请求为自助服务且所述客服请求类型为人工服务，触发虚拟客服操作，显示虚拟客服形象。

步骤103，获取用户的包含作业信息的音视频信息，根据所述作业信息获取预设的与该作业信息相应的处理方案信息。

在一个实施例中，根据获取的音视频信息，可以调整虚拟客服形象的转移角度，以使虚拟客服形象面向该用户，提高用户的体验感。

步骤104，基于语音合成技术将所述处理方案信息通过所述虚拟客服形象播放给用户，以便于该用户执行相应的操作。

具体地，可以基于所述语音合成技术将所述处理方案信息转换为处理方案语音信息；之后基于语音驱动唇形同步算法(例如，基于级联卷积LSTM的语音驱动唇形同步算法)和所述处理方案语音信息渲染所述虚拟客服形象，合成唇形同步虚拟客户人脸视频并播放该处理方案语音信息。

这里涉及到的语音合成技术可以采用现有技术中的语音合成技术，本发明对此不作限制。

步骤105，响应于根据所述音视频信息检测到用户情绪超出预设范围，触发人工服务操作，以便于帮助该用户完成相应的操作。

由以上描述可知，当根据接收到的用户客服请求确定请求为自助服务但是用户要求进行人工服务时，触发虚拟客服操作，显示虚拟客服形象，随后获取用户的音视频信息，并获取预设的与该作业信息相应的处理方案信息，并基于语音合成技术将处理方案信息通过虚拟客服形象播放给用户，以便于用户执行相应的操作，而当检测到用户情绪超出预设范围时，触发人工服务操作，以便于通过人工服务帮助用户完成相应的操作，相比于现有技术，本发明实施例通过触发虚拟客服，可以建立用户与虚拟客服面对面交流的场景，既可以通过预设流程自动引导用户办理简单业务，也可以通过后台视频引导用户，这降低了企业培养坐席人员成本，提升了业务办理效率，而当用户出现情绪问题时，触发人工服务操作，可以及时处理用户的作业问题，从而可以较好地提高用户的满意度，提升用户的体验感。

在一个实施例中，上述步骤105中的检测用户情绪，可以通过将所述音视频信息输入至预先训练的情绪检测模型来检测与所述音视频信息相应的情绪信息，以此检测用户情绪。

该情绪检测模型可以是神经网络模型，例如，基于LSTM(Long Short-TermMemory，长短期记忆网络)的神经网络模型。

该模型可以通过如下方式来训练：先获取历史音视频信息，该历史音视频信息包括：历史用户音视频信息、历史作业信息；之后根据所述历史音视频信息，基于人脸面部特征提取算法(例如，基于landmarks关键点获取人脸面部几何特征提取算法)、语音情感特征提取算法(例如，基于Opensmile进行语言情感特征提取算法)来训练该神经网络模型。

在一个实施例中，上述情绪检测模型可以包括：语音情绪检测模型和视频情绪检测模型，其中，语音情绪检测模型用于进行语音情绪检测操作，视频情绪检测模型用于进行视频情绪检测操作。

具体地，通过将周期性(例如，10ms)获取的音频信息进行分帧处理，并将分帧处理后的音频信息输入至所述语音情绪检测模型，进行语音情绪检测操作；将周期性获取的视频信息的最后一帧图像输入至所述视频情绪检测模型，进行视频情绪检测操作。

在步骤105触发人工服务操作之后，还可以获取客服人员的音视频信息；根据获取的客服人员的音视频信息，基于所述情绪检测模型检测客服人员的情绪，如此，当发现客服人员出现较差情绪或感情特征超出特定范围时，可以立即做出提醒，提醒客服人员做好情绪管理并及时调整情绪状态。如此，可以提高用户的满意度，提高用户的体验感。

为了更好地理解本发明，以下结合图2所示的基于虚拟客服的客服服务流程来详细描述本发明实施例。

如图2所示，该基于虚拟客服的客服服务流程包括：

步骤1：客户通过通信设备发起咨询或业务办理请求，根据预设的路径进行按键或语音操作。

步骤2：客服系统终端设备持续获取客户按键或语音操作数据。

步骤3：判断客户需求是否可通过自助流程完成办理，若客户的咨询请求预先设置有自助引导流程，则判断可以通过自助流程完成，则进入步骤4，否则进入步骤9，将客户语音/按键操作发送给人工客服，转人工坐席处理。

步骤4：根据客户请求，检测客户是否提出人工客服请求，若是，则进入步骤6，否则进入步骤5。

步骤5：根据客户操作，确定客户想要咨询的内容或者要办理的业务，从数据库获取预设应对方案，生成回复语音、文字，引导客户完成咨询或者业务办理。

步骤6：将客户操作数据传递给虚拟客服。

步骤7：通过麦克风和摄像头获取客户语音及视频图像，虚拟客服根据客户语音或按键操作，生成虚拟人客服并结合从数据库获取到的预设应对方案，通过终端设备同步播放，引导客户完成业务咨询或业务办理。

图3是该步骤7的详细流程图，如图3所示，该流程包括：

步骤71：选取包含愤怒、中性、高兴等多种情绪特征的远程客服作业视频及多场景对话视频的人脸标准图，使用landmarks关键点获取人脸面部几何特征，构建LSTM神经网络模型；

步骤72：选取包含愤怒、中性、高兴等多种情绪特征的远程客户作业录音文件，结合汉语情感语录库，使用Praat(语音学习软件)、Opensmile(用于信号处理和机器学习的特征提取器)等工具进行语言情感特征提取，构建LSTM神经网络模型；

步骤73：录制客服人员作业面部表情为微笑表情、眼睛直视前方，作为虚拟客服对客形象，作业视频作为底板视频；

步骤74：获取客户摄像头权限，根据客户面部角度，调整虚拟人转移角度，并持续获取客户对话语音及对话视频；

步骤75：以10～30ms为单位，对音频信号进行分帧处理，根据步骤72构建的模型进行语音情绪检测；并选择每个时间段内的最后一帧图像作为数据源，根据步骤71构建的模型进行视频情绪检测；

步骤76：根据客户操作，从数据库中获取预设方案，采用语音合成技术，将文本信息转换为自然、流畅的语言，采用级联卷积LSTM语音驱动唇形同步算法，渲染虚拟客服合成唇形同步人脸视频；

步骤77：终端设备播放渲染后的视频及合成语音，引导客户完成业务办理；

步骤78：当出现虚拟客服无法完成请求以及音、视频情绪检测中的某一种发现客户出现较差情绪或感情特征超出特定范围时，立即进行转人工操作，并进行日志记录；

步骤79：管理员对日志记录进行分析，发现预设方案覆盖不足之处，从而有针对性的对LSTM神经网络模型、预设方案等进行补充、修正。

步骤8：如果客户需求较为复杂，虚拟客服未完成客户服务，或在服务过程中监测到客户有明显情绪波动，则进入步骤9，将客户语音/按键操作发送给人工客服，转人工坐席处理。

步骤9：通过麦克风和摄像头获取客服人员语音及视频图像，客服人员根据客户语音或按键操作进行相应答复，通过终端设备同步播放图像及原始语音，引导客户完成咨询或者业务办理；若客服人员在服务过程中出现明显情绪波动，则提醒客服人员做好情绪管理并及时调整情绪状态。

图4是该步骤9的详细流程图，如图4所示，该流程包括：

步骤91：选取包含愤怒、中性、高兴等多种情绪特征的远程客服作业视频及多场景对话视频的人脸标准图，使用landmarks关键点获取人脸面部几何特征，构建LSTM神经网络模型，该模型可以是上述步骤71中的模型；

步骤92：选取包含愤怒、中性、高兴等多种情绪特征的远程客户作业录音文件，结合汉语情感语录库，使用Praat等工具进行语言情感特征提取，构建LSTM神经网络模型，该模型可以是上述步骤72中的模型；

步骤93：获取客服人员摄像头权限，持续获取对话语音及对话视频；

步骤94：以10～30ms为单位，对音频信号进行分帧处理，根据步骤92构建的模型进行语音情绪检测；并选择每个时间段内的最后一帧图像作为数据源，根据步骤91构建的模型进行视频情绪检测；

步骤95：终端设备同步播放客服作业视频，引导客户完成业务办理；

步骤96：当音、视频情绪检测中的某一种发现客服人员出现较差情绪或感情特征超出特定范围时，立即做出提醒，提醒客服人员做好情绪管理并及时调整情绪状态。

本发明实施例在客户请求转人工坐席之前加入了虚拟客服，避免了可自助办理的业务转人工，减少了坐席处理简单、重复类工作，减轻了人工压力，降低了运营成本，本发明实施例结合语音合成技术及图像处理技术，给客户以面对面交流体验，向用户展现较好的服务形象，同时结合情绪识别技术，通过对客户或客服人员进行情绪监控，及时调整服务策略或服务态度，从而较大程度地提高了客户满意度，提升了客户的体验感。

基于相似的发明构思，本发明实施例还提供一种客服作业处理装置，优选地，该装置可以用于实现上述方法实施例中的流程。

图5是该客服作业处理装置的结构框图，如图5所示，该客服作业处理装置包括：请求接收单元51、虚拟客服触发单元52、处理方案获取单元53、处理方案播放单元54和人工服务触发单元55，其中：

请求接收单元51，用于接收用户客服请求，所述请求包括：作业信息和客服请求类型。

虚拟客服触发单元52，用于响应于根据所述作业信息确定所述客服请求为自助服务且所述客服请求类型为人工服务，触发虚拟客服操作，显示虚拟客服形象。

处理方案获取单元53，用于获取用户的包含作业信息的音视频信息，根据所述作业信息获取预设的与该作业信息相应的处理方案信息。

处理方案播放单元54，用于基于语音合成技术将所述处理方案信息通过所述虚拟客服形象播放给用户，以便于该用户执行相应的操作。

具体地，该处理方案播放单元包括：转换模块和处理方案播放模块，其中：

转换模块，用于基于所述语音合成技术将所述处理方案信息转换为处理方案语音信息；

处理方案播放模块，用于基于语音驱动唇形同步算法和所述处理方案语音信息渲染所述虚拟客服形象，合成唇形同步虚拟客户人脸视频并播放该处理方案语音信息。

人工服务触发单元55，用于响应于根据所述音视频信息检测到用户情绪超出预设范围，触发人工服务操作，以便于帮助该用户完成相应的操作。

在一个实施例中，上述装置还包括：用户情绪检测单元，用于根据所述音视频信息检测到用户情绪。具体地，该用户情绪检测单元将所述音视频信息输入至预先训练的情绪检测模型，检测与所述音视频信息相应的情绪信息，以此检测用户情绪。

如上所述，当虚拟客服触发单元52根据请求接收单元51接收到的用户客服请求确定请求为自助服务但是用户要求进行人工服务时，触发虚拟客服操作，显示虚拟客服形象，随后处理方案获取单元53获取用户的音视频信息，并获取预设的与该作业信息相应的处理方案信息，处理方案播放单元54基于语音合成技术将处理方案信息通过虚拟客服形象播放给用户，以便于用户执行相应的操作，而当检测到用户情绪超出预设范围时，人工服务触发单元55触发人工服务操作，以便于通过人工服务帮助用户完成相应的操作，相比于现有技术，本发明实施例通过触发虚拟客服，可以建立用户与虚拟客服面对面交流的场景，既可以通过预设流程自动引导用户办理简单业务，也可以通过后台视频引导用户，这降低了企业培养坐席人员成本，提升了业务办理效率，而当用户出现情绪问题时，触发人工服务操作，可以及时处理用户的作业问题，从而可以较好地提高用户的满意度，提升用户的体验感。

在一个实施例中，上述装置还包括：角度调整单元，用于根据获取的用户的音视频信息，调整所述虚拟客服形象的转移角度，以使所述虚拟客服形象面向该用户。通过该角度调整单元，可以提高用户的体验感。

在一个实施例中，上述装置还包括：模型训练单元，用于训练所述情绪检测模型，所述情绪检测模型可以是神经网络模型。

具体地，模型训练单元包括：历史信息获取模块和模型训练模块，其中：

历史信息获取模块，用于获取历史音视频信息，该历史音视频信息包括：历史用户音视频信息、历史作业信息；

模型训练模块，用于根据所述历史音视频信息，基于人脸面部特征提取算法、语音情感特征提取算法来训练该神经网络模型。

在具体实施过程中，情绪检测模型可以包括：语音情绪检测模型和视频情绪检测模型，分别用于语音情绪检测操作和视频情绪检测操作。

相应地，上述用户情绪检测单元包括：语音情绪检测模块和视频情绪检测模块，其中：

语音情绪检测模块，用于将周期性获取的音频信息进行分帧处理，并将分帧处理后的音频信息输入至所述语音情绪检测模型，进行语音情绪检测操作；

视频情绪检测模块，用于将周期性获取的视频信息的最后一帧图像输入至所述视频情绪检测模型，进行视频情绪检测操作。

在一个实施例中，上述装置还包括：客服信息获取单元和客服情绪检测单元，其中：

客服信息获取单元，用于获取客服人员的音视频信息；

客服情绪检测单元，用于根据获取的客服人员的音视频信息，基于所述情绪检测模型检测客服人员的情绪。

通过客服信息获取单元和客服情绪检测单元，可以及时发现客服人员在服务过程中出现的明显情绪波动，及时提醒客服人员做好情绪管理并及时调整情绪状态，从而可以提高服务质量，提升用户的满意度和体验感。

上述各单元、各模块的具体执行过程，可以参见上述方法实施例中的描述，此处不再赘述。

在实际操作中，上述各单元、各模块可以组合设置、也可以单一设置，本发明不限于此。

本实施例还提供一种电子设备，该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照上述方法实施例进行实施及客服作业处理装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图6为本发明实施例的电子设备600的系统构成的示意框图。如图6所示，该电子设备600可以包括中央处理器100和存储器140；存储器140耦合到中央处理器100。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，客服作业处理功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

从上述描述可知，本申请实施例提供的电子设备，当根据接收到的用户客服请求确定请求为自助服务但是用户要求进行人工服务时，触发虚拟客服操作，显示虚拟客服形象，随后获取用户的音视频信息，并获取预设的与该作业信息相应的处理方案信息，并基于语音合成技术将处理方案信息通过虚拟客服形象播放给用户，以便于用户执行相应的操作，而当检测到用户情绪超出预设范围时，触发人工服务操作，以便于通过人工服务帮助用户完成相应的操作，相比于现有技术，本发明实施例通过触发虚拟客服，可以建立用户与虚拟客服面对面交流的场景，既可以通过预设流程自动引导用户办理简单业务，也可以通过后台视频引导用户，这降低了企业培养坐席人员成本，提升业务办理效率，而当用户出现情绪问题时，触发人工服务操作，可以及时处理用户的作业问题，从而可以较好地提高用户的满意度，提升用户的体验感。

在另一个实施方式中，客服作业处理装置可以与中央处理器100分开配置，例如可以将客服作业处理装置配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现客服作业处理功能。

如图6所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图6中所示的所有部件；此外，电子设备600还可以包括图6中没有示出的部件，可以参考现有技术。

如图6所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现上述客服作业处理方法的步骤。

综上所述，本发明实施例在客户请求转人工坐席之前加入了虚拟客服，避免了可自助办理的业务转人工，减少了坐席处理简单、重复类工作，减轻了人工压力，降低了运营成本；同时结合语音合成技术及图像处理技术，给客户以面对面交流体验，向用户展现较好的服务形象；结合情绪识别技术，通过对客户或客服人员进行情绪监控，及时调整服务策略或服务态度，从而较大程度地提高了客户满意度。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的，因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外，由于本领域的技术人员容易想到很多修改和改变，因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作，而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种客服作业处理方法，其特征在于，所述方法包括：

响应于根据所述音视频信息检测到用户情绪超出预设范围，触发人工服务操作，以便于帮助该用户完成相应的操作；

其中，基于语音合成技术将所述处理方案信息通过所述虚拟客服形象播放给用户包括：

基于所述语音合成技术将所述处理方案信息转换为处理方案语音信息；

基于语音驱动唇形同步算法和所述处理方案语音信息渲染所述虚拟客服形象，合成唇形同步虚拟客户人脸视频并播放该处理方案语音信息；

其中，根据所述音视频信息检测到用户情绪包括：

将所述音视频信息输入至预先训练的情绪检测模型，检测与所述音视频信息相应的情绪信息，以此检测用户情绪；

其中，所述情绪检测模型为神经网络模型，所述情绪检测模型通过如下方式训练：

获取历史音视频信息，该历史音视频信息包括：历史用户音视频信息、历史作业信息；

根据所述历史音视频信息，基于人脸面部特征提取算法、语音情感特征提取算法来训练该神经网络模型；

其中，所述音视频信息包括：音频信息和视频信息，所述情绪检测模型包括：语音情绪检测模型和视频情绪检测模型，将所述音视频信息输入至预先训练的情绪检测模型包括：

将周期性获取的音频信息进行分帧处理，并将分帧处理后的音频信息输入至所述语音情绪检测模型，进行语音情绪检测操作；

将周期性获取的视频信息的最后一帧图像输入至所述视频情绪检测模型，进行视频情绪检测操作。

2.根据权利要求1所述的方法，其特征在于，在显示虚拟客服形象之后，所述方法还包括：

根据获取的用户的音视频信息，调整所述虚拟客服形象的转移角度，以使所述虚拟客服形象面向该用户。

3.根据权利要求1所述的方法，其特征在于，在触发人工服务操作之后，所述方法还包括：

获取客服人员的音视频信息；

根据获取的客服人员的音视频信息，基于所述情绪检测模型检测客服人员的情绪。

4.一种客服作业处理装置，其特征在于，所述装置包括：

人工服务触发单元，用于响应于根据所述音视频信息检测到用户情绪超出预设范围，触发人工服务操作，以便于帮助该用户完成相应的操作；

其中，所述处理方案播放单元包括：

处理方案播放模块，用于基于语音驱动唇形同步算法和所述处理方案语音信息渲染所述虚拟客服形象，合成唇形同步虚拟客户人脸视频并播放该处理方案语音信息；

其中，所述装置还包括：

用户情绪检测单元，用于根据所述音视频信息检测到用户情绪，

该用户情绪检测单元具体用于：将所述音视频信息输入至预先训练的情绪检测模型，检测与所述音视频信息相应的情绪信息，以此检测用户情绪；

其中，所述装置还包括：

模型训练单元，用于训练所述情绪检测模型，所述情绪检测模型为神经网络模型，

所述模型训练单元包括：

模型训练模块，用于根据所述历史音视频信息，基于人脸面部特征提取算法、语音情感特征提取算法来训练该神经网络模型；

其中，所述音视频信息包括：音频信息和视频信息，所述情绪检测模型包括：语音情绪检测模型和视频情绪检测模型，所述用户情绪检测单元包括：

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

角度调整单元，用于根据获取的用户的音视频信息，调整所述虚拟客服形象的转移角度，以使所述虚拟客服形象面向该用户。

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：

客服信息获取单元，用于获取客服人员的音视频信息；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至3中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。