CN115426434B

CN115426434B - 数据处理方法、设备及存储介质

Info

Publication number: CN115426434B
Application number: CN202210975089.8A
Authority: CN
Inventors: 金晓波; 彭程; 李斌; 林小斐; 张强
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2023-10-31
Anticipated expiration: 2042-08-15
Also published as: CN115426434A

Abstract

本公开关于一种数据处理方法、设备及存储介质，涉及计算机技术领域。本公开可以使用户对通话详情的回溯更加方便、快捷。该方法包括：响应于会话详情查询操作显示待显示会话的会话页面；待显示会话包括多个会话片段；会话页面展示有多个会话片段中各会话片段的通话文本和会话片段播放控件；响应于一个会话片段播放控件的点击操作，播放一个会话片段播放控件对应的一个会话片段的通话录音。

Description

数据处理方法、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理方法、设备及存储介质。

背景技术

随着语音识别技术的进步，客户对于呼叫中心客服的体验要求也越来越高，传统的按键选择式的客服系统菜单不再满足客户需求，客服行业逐渐开始部署语音智能客服替代传统呼叫中心客服。通常，语音智能客服是将传统的客服电话菜单变成语音对应的语音客服菜单，用户在拨打客服电话时，通过语音说话就能够在客服服务器识别用户所要的服务项，通过识别语音服务项跳转到指定功能执行操作。

但是，目前的呼叫中心在通话录音方面只能收集整个通话的完整录音，终端设备在播放录音时也只能播放整个通话的完整录音，即现有的录音处理方法无法实现对用户语音以及人工智能语音进行分批录制、单独播放，这对用户后期通话详情回溯带了极大的不便。

发明内容

本公开提供一种数据处理方法、设备及存储介质，可以使用户对通话详情的回溯更加方便、快捷。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种数据处理方法，应用于终端设备，方法包括：响应于会话详情查询操作显示待显示会话的会话页面；待显示会话包括多个会话片段；会话页面展示有多个会话片段中各会话片段的通话文本和会话片段播放控件；响应于一个会话片段播放控件的点击操作，播放一个会话片段播放控件对应的一个会话片段的通话录音。

可选的，会话页面还包括录音播放控件；方法还包括：响应于录音播放控件的点击操作，播放待显示会话的完整录音。

根据本公开实施例的第二方面，提供一种数据处理方法，应用于第一服务器，方法包括：获取多个待匹配会话片段中各待匹配会话片段的会话片段标识，得到多个会话片段标识；向第二服务器发送包括多个会话片段标识的通话录音请求；第二服务器用于基于通话录音请求得到多个会话片段标识中各会话片段标识对应的通话录音地址，并返回至第一服务器；将预先存储的各会话片段标识对应的通话文本与各会话片段标识对应的通话录音地址进行绑定，并将绑定结果进行存储。

可选的，方法还包括：响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话文本，并存储会话片段的会话片段标识以及会话片段的通话文本；会话片段为任意一个会话中的任意一个会话片段。

可选的，确定会话片段的通话文本，包括：获取会话片段并确定会话片段对应的会话阶段；会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段；根据会话阶段确定通话文本。

可选的，根据会话阶段确定通话文本，包括：在通话阶段为会话开始阶段的情况下，将预设通话文本确定为通话文本；在通话阶段为用户通话阶段的情况下，接收用户语音对应的通话文本，并将接收到的用户语音对应的通话文本确定为通话文本；在通话阶段为智能通话阶段的情况下，确定待识别文本，并根据待识别文本生成通话文本。

可选的，将预先存储的各会话片段标识对应的通话文本与各会话片段标识对应的通话录音地址进行绑定，包括：根据第一会话片段标识从预先存储的通话文本中确定第一通话文本，以及，根据第一会话片段标识从多个通话录音地址中确定第一通话录音地址；第一会话片段标识为多个会话片段标识中的任意一个；将第一通话录音地址与第一通话文本进行绑定。

可选的，方法还包括：响应于第二服务器发送的定时任务请求，根据预设的匹配标记，从会话片段集合中确定多个待匹配会话片段；会话片段集合中包括多个已匹配会话片段以及多个待匹配会话片段。

根据本公开实施例的第三方面，提供一种数据处理方法，应用于第二服务器，方法包括：接收第一服务器发送的包括多个会话片段标识的通话录音请求；根据多个会话片段标识中各会话片段标识，确定各会话片段标识对应的通话录音；将各会话片段标识对应的通话录音进行格式转换，得到多个会话片段标识中各会话片段标识对应的通话录音地址，并向IVR服务器发送多个会话片段标识中各会话片段标识对应的通话录音地址。

可选的，方法还包括：响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话录音，并存储会话片段的会话片段标识以及会话片段的通话录音；会话片段为任意一个会话中的任意一个会话片段。

可选的，确定会话片段的通话录音，包括：获取会话片段并确定会话片段对应的会话阶段；会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段；根据会话阶段确定通话录音。

可选的，根据会话阶段确定通话录音，包括：在通话阶段为会话开始阶段的情况下，将预设通话文本进行转换，得到通话录音；在通话阶段为用户通话阶段的情况下，接收用户语音，并将接收到的用户语音确定为通话录音；在通话阶段为智能通话阶段的情况下，接收通话文本，将通话文本进行转换，得到通话录音。

可选的，方法还包括：按照预设周期向第一服务器发送定时任务请求；定时任务请求用于指示第一服务器根据预设的匹配标记，从会话片段集合中确定多个待匹配会话片段；会话片段集合中包括多个已匹配会话片段以及多个待匹配会话片段。

根据本公开实施例的第四方面，提供一种数据处理装置，应用于终端设备，数据处理装置包括显示单元以及播放单元；显示单元，用于响应于会话详情查询操作显示待显示会话的会话页面；待显示会话包括多个会话片段；会话页面展示有多个会话片段中各会话片段的通话文本和会话片段播放控件；播放单元，用于响应于一个会话片段播放控件的点击操作，播放一个会话片段播放控件对应的一个会话片段的通话录音。

可选的，会话页面还包括录音播放控件；播放单元还用于：响应于录音播放控件的点击操作，播放待显示会话的完整录音。

根据本公开实施例的第五方面，提供一种数据处理装置，应用于第一服务器，数据处理装置包括获取单元、发送单元以及处理单元；获取单元，用于获取多个待匹配会话片段中各待匹配会话片段的会话片段标识，得到多个会话片段标识；发送单元，用于向第二服务器发送包括多个会话片段标识的通话录音请求；第二服务器用于基于通话录音请求得到多个会话片段标识中各会话片段标识对应的通话录音地址，并返回至第一服务器；处理单元，用于将预先存储的各会话片段标识对应的通话文本与各会话片段标识对应的通话录音地址进行绑定，并将绑定结果进行存储。

可选的，数据处理装置还包括确定单元，确定单元用于：响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话文本，并存储会话片段的会话片段标识以及会话片段的通话文本；会话片段为任意一个会话中的任意一个会话片段。

可选的，确定单元，具体用于：获取会话片段并确定会话片段对应的会话阶段；会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段；根据会话阶段确定通话文本。

可选的，确定单元，具体用于：在通话阶段为会话开始阶段的情况下，将预设通话文本确定为通话文本；在通话阶段为用户通话阶段的情况下，接收用户语音对应的通话文本，并将接收到的用户语音对应的通话文本确定为通话文本；在通话阶段为智能通话阶段的情况下，确定待识别文本，并根据待识别文本生成通话文本。

可选的，处理单元，具体用于：根据第一会话片段标识从预先存储的通话文本中确定第一通话文本，以及，根据第一会话片段标识从多个通话录音地址中确定第一通话录音地址；第一会话片段标识为多个会话片段标识中的任意一个；将第一通话录音地址与第一通话文本进行绑定。

可选的，确定单元还用于：响应于第二服务器发送的定时任务请求，根据预设的匹配标记，从会话片段集合中确定多个待匹配会话片段；会话片段集合中包括多个已匹配会话片段以及多个待匹配会话片段。

根据本公开实施例的第六方面，提供一种数据处理装置，应用于第二服务器，数据处理装置包括接收单元、确定单元以及处理单元；接收单元，用于接收第一服务器发送的包括多个会话片段标识的通话录音请求；确定单元，用于根据多个会话片段标识中各会话片段标识，确定各会话片段标识对应的通话录音；处理单元，用于将各会话片段标识对应的通话录音进行格式转换，得到多个会话片段标识中各会话片段标识对应的通话录音地址，并向IVR服务器发送多个会话片段标识中各会话片段标识对应的通话录音地址。

可选的，确定单元还用于：响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话录音，并存储会话片段的会话片段标识以及会话片段的通话录音；会话片段为任意一个会话中的任意一个会话片段。

可选的，确定单元具体用于：获取会话片段并确定会话片段对应的会话阶段；会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段；根据会话阶段确定通话录音。

可选的，确定单元具体用于：在通话阶段为会话开始阶段的情况下，将预设通话文本进行转换，得到通话录音；在通话阶段为用户通话阶段的情况下，接收用户语音，并将接收到的用户语音确定为通话录音；在通话阶段为智能通话阶段的情况下，接收通话文本，将通话文本进行转换，得到通话录音。

可选的，数据处理装置还包括发送单元，发送单元用于：按照预设周期向第一服务器发送定时任务请求；定时任务请求用于指示第一服务器根据预设的匹配标记，从会话片段集合中确定多个待匹配会话片段；会话片段集合中包括多个已匹配会话片段以及多个待匹配会话片段。

根据本公开实施例的第七方面，提供一种电子设备，包括：处理器、用于存储处理器可执行的指令的存储器；其中，处理器被配置为执行指令，以实现上述第一方面的处理数据方法或者上述第二方面的处理数据方法或者上述第三方面的处理数据方法。

根据本公开实施例的第八方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面的处理数据方法或者上述第二方面的处理数据方法或者上述第三方面的处理数据方法。

根据本公开实施例的第九方面，提供一种计算机程序产品，计算机程序产品包括计算机指令，当计算机指令被处理器执行时，实现如上述第一方面的处理数据方法或者上述第二方面的处理数据方法或者上述第三方面的处理数据方法。

本公开提供的技术方案至少带来以下有益效果：终端设备响应于会话详情查询操作显示待显示会话的会话页面，其中，待显示会话包括多个会话片段。由于会话页面展示有多个会话片段中各会话片段的通话文本和会话片段播放控件，因此，用户通过会话页面可以清晰看到各会话片段的通话文本。进一步的，终端设备响应于一个会话片段播放控件的点击操作，播放一个会话片段播放控件对应的一个会话片段，这样一来，用户在看到各会话片段的通话文本的同时，还可以通过会话片段播放控件来单独播放各会话片段的通话录音，极大方便了用户对通话详情的回溯。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种电话语音客服系统的结构示意图；

图2是根据一示例性实施例示出的一种数据处理方法的流程示意图之一；

图3是根据一示例性实施例示出的一种显示效果示意图；

图4是根据一示例性实施例示出的一种数据处理方法的流程示意图之二；

图5是根据一示例性实施例示出的一种数据处理方法的流程示意图之三；

图6是根据一示例性实施例示出的一种数据处理方法的流程示意图之四；

图7是根据一示例性实施例示出的一种数据处理方法的流程示意图之五；

图8是根据一示例性实施例示出的一种数据处理方法的流程示意图之六；

图9是根据一示例性实施例示出的一种各服务器之间的流程交互图；

图10是根据一示例性实施例示出的一种数据处理方法的流程示意图之七；

图11是根据一示例性实施例示出的一种数据处理方法的流程示意图之八；

图12是根据一示例性实施例示出的各会话阶段的具体流程；

图13是根据一示例性实施例示出的MRCP服务器进行TTS转换时的具体流程；

图14是根据一示例性实施例示出的MRCP服务器进行ASR转换时的具体流程；

图15是根据一示例性实施例示出的一种终端设备的结构示意图；

图16是根据一示例性实施例示出的一种IVR服务器的结构示意图；

图17是根据一示例性实施例示出的一种MRCP服务器的结构示意图；

图18是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

另外，在本公开实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开实施例的描述中，“多个”是指两个或多于两个。

需要说明的，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于程序代码等)，均为经用户授权或者经过各方充分授权的信息和数据。

在对本公开实施例进行详细地解释说明之前，先对本公开实施例涉及到的一些相关技术术语以及相关技术进行介绍。

呼叫中心(call center，CC)：呼叫中心，又称客户服务中心，最初是把用户的呼叫转移到应答台或者专家处。此后，随着要转移的呼叫和应答增多，开始建立起交互式语音应答系统，这种系统能把客户部分常见问题的应答实现由机器“自动话务员”来应答和处理。

互动式语音应答(interactive voice response，IVR)：用户只须用电话即可进入服务中心，可以根据操作提示收听手机娱乐产品，也可以根据用户输入的内容播放有关的信息。

自动语音识别技术(automatic speech recognition，ASR)：ASR是一种将人的语音转换为文本的技术。

从文本到语音(Text To Speech，TTS)：TTS是Text To Speech的缩写，即“从文本到语音”，是人机对话的一部分，让机器能够说话。

媒体资源控制协议(media resource control protocol，MRCP)：MRCP是一种计算机网络应用层的通讯协议，用于语音服务器向客户端提供各种语音服务。在智能IVR场景中MRCP一般用作连接ASR/TTS使用。

ES(Elasticsearch)：Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。

语音活性检测(voice activity detection，VAD)：语音活性检测又称语音端点检测,语音边界检测，通常用来判断语音的完整性。

电话语音客服广泛用于向其客户提供产品售后支持或信息查询的服务。近年来，随着人工智能技术的爆发，新技术逐渐渗入人们日常生活中的各行各业里面，以机器人来代替人工处理繁重的任务变得普遍。智能语音识别(ASR)、文本转语音(TTS)和自然语言处理(natural language processing，NLP)是呼叫中心在人工智能领域应用得较早的技术之一，将传统人工和智能电话语音机器人相结合，不仅能更好提高效率，也能更好服务各种人群。总的来说，智能呼叫中心系统的使用可以更好的管理您的客户，快速地为用户提供满意的客诉诉求所对应的问题解决方案，极大地提升服务质量和服务效率。语音智能客服不仅能代替传统按键式的服务，更多的是减少传统人工电话客服的人力，原先需要转接传统人工电话客服的一些咨询可以尝试用智能语音客服解决，不能解决的也可以收集到相关信息后再转接人工客服进一步解决。

但是，目前的呼叫中心在通话录音方面只能收集整个通话的完整录音，终端设备在播放录音时也只能播放整个通话的完整录音，即现有的录音处理方法无法实现对用户语音以及人工智能语音进行分批录制、单独播放，这对用户后期通话详情回溯、用户侧的录音质检、用户侧语音标注都带了极大的不便。

本公开实施例提供的数据处理方法，用于解决相关技术中存在的上述技术问题，使得用户对通话详情的回溯更加方便、快捷。本公开实施例提供的数据处理方法可以适用于电话语音客服系统，图1示出了该电话语音客服系统的一种结构示意图。如图1所示，电话语音客服系统10包括终端设备11、呼叫中心服务器12、IVR服务器13、MRCP服务器14以及存储服务器15。其中，终端设备11分别与呼叫中心服务器12以及存储服务器15有线或无线连接，呼叫中心服务器12分别与IVR服务器13以及MRCP服务器14有线或无线连接，IVR服务器13与存储服务器15有线或无线连接。

终端设备11可以为各种支持语音通话功能的电子设备，例如智能手机、智能手表等。终端设备11可以通过呼叫中心服务器12接入电话语音客服系统，进行语音通话。终端设备11还可以从存储服务器15中获取待显示会话的多个匹配结果，并根据多个匹配结果以及多个会话片段的会话时间，显示待显示会话的会话页面。

呼叫中心服务器12，即客户服务中心服务器，用于接入终端设备11的呼叫。IVR服务器13即具有IVR功能的服务器。MRCP服务器14即具有MRCP功能的服务器。存储服务器15即具有存储功能的服务器。

图2是根据一些示例性实施例示出的一种数据处理方法的流程示意图。在一些实施例中，上述数据处理方法可以应用到如图1所示的终端设备，也可以应用到其他类似设备。

如图2所示，本公开实施例提供的数据处理方法，包括下述S201-S202。

S201、终端设备响应于会话详情查询操作显示待显示会话的会话页面。

其中，待显示会话包括多个会话片段；会话页面展示有多个会话片段中各会话片段的通话文本和会话片段播放控件。

作为一种可能的实现方式，终端设备接收用户的会话详情查询操作，并从会话详情查询操作中确定待显示会话的会话标识。进一步的，终端设备根据待显示会话的标识从存储服务器中获取待显示会话的显示内容(显示内容包括各会话片段的标识、通话文本和通话录音地址)。终端设备根据待显示会话的显示内容，显示各会话片段的通话文本和会话片段播放控件(一个会话片段播放控件对应一个通话录音地址)。终端设备按照各会话片段的会话时间的先后顺序，将各会话片段对应的通话文本和会话片段播放控件显示在待显示会话的会话页面中。

需要说明的，每通会话都具有唯一的会话标识。一通会话中包括多个会话片段。一个会话片段可以表示一句完整的话，例如，“你好，我是***。”则可以作为一个会话片段。在实际应用中，可以利用VAD技术来划分一通会话中的会话片段，通过sessionId来表示一通完整的会话，以及通过不同的requestId来表示不同的会话片段。通话录音地址则用于表示通话录音对应的资源链接，例如，通话录音地址可以为统一资源定位系统(uniformresource locator，URL)地址。终端设备通过访问URL地址，则可以获取到相应的通话录音资源。

会话详情查询操作可以为用户在终端设备上的输入操作，也可以为用户在终端设备上的点击操作。例如，终端设备响应于用户在会话详情显示页面中所点击的会话，将该会话确定为待显示会话，并获取该会话的sessionId。进一步的，终端设备根据该会话的sessionId从存储服务器中获取该会话的多个会话片段。如该会话包会话片段1：requestId1，会话片段2：requestId2，会话片段3：requestId3，则终端设备获取到的待显示会话的显示内容为requestId1-通话文本1-通话录音地址1、requestId2-通话文本2-通话录音地址2、requestId3-通话文本3-通话录音地址3。

作为另一种可能的实现方式，终端设备确定各会话片段的会话时间以及会话片段标识。终端设备根据各会话片段的会话片段标识以及预设的标识类型，将会话片段分为用户会话类型以及人工智能语音类型(也称机器人语音类型)。进一步的，终端设备按照各会话片段的会话时间的先后顺序以及各会话片段的类型，将各会话片段的通话文本以及通话播放控件显示在待显示会话的会话页面中。其中，同一类型的会话片段位于会话页面中的同一侧。

需要说明的，通过预设的标识规则设置会话片段标识，可以达到区分会话片段类型的目的(即区别会话片段是用户会话类型还是人工智能语音类型)。例如，会话片段标识以0开头，则代表该会话片段为用户会话类型，即该会话片段为用户说的话；会话片段标识以1开头，则代表该会话片段为人工智能语音类型，即该会话片段为人工智能说的话。

示例性的，如图3所示，示出了待显示会话的会话页面的一种显示效果。在该会话页面中，包括多个会话片段，左侧是用户侧的会话片段，右侧是机器人侧的会话片段。每个会话片段都以一条通话文本和一个通话播放控件呈现，每条通话文本都可以通过点击对应的通话播放控件进行播放。可见，该会话页面中各会话片段可以清楚的区分(用户语音以及人工智能语音同样可以区分)，且每个会话片段都可以单独播放，相较于相关技术只能播放完整的通话录音，本公开使用户对通话详情的回溯更加方便、快捷。另外，在该会话页面中，对于完整的通话录音，也可以点击下方的播放按钮进行播放。

S202、终端设备响应于一个会话片段播放控件的点击操作，播放一个会话片段播放控件对应的一个会话片段的通话录音。

其中，一个会话片段播放控件对应于一个通话录音地址。

作为一种可能的实现方式，终端设备响应于用户对会话页面中一个会话片段播放控件的点击操作，访问该会话片段播放控件对应的通话录音地址，以获取该会话片段的通话录音资源，并播放该会话片段的通话录音。

在一种设计中，会话页面还包括录音播放控件，终端设备还可以响应于用户对会话页面中录音播放控件的点击操作，播放待显示会话的完整录音。如图3所示，对于完整的通话录音，也可以点击图3页面下方的播放按钮进行播放。

图4是根据一些示例性实施例示出的一种数据处理方法的流程示意图。在一些实施例中，本公开的数据处理方法可以应用于第一服务器，其中，第一服务器可以为如图1所示的IVR服务器，也可以为其他类似的服务器。

如图4所示，本公开实施例提供的数据处理方法，包括下述S301-S303。

S301、第一服务器获取多个待匹配会话片段中每个待匹配会话片段的会话片段标识，得到多个会话片段标识。

作为一种可能的实现方式，第一服务器从存储服务器中获取多个待匹配会话片段中每个待匹配会话片段的会话片段标识，得到多个会话片段标识。

作为一种可能的实现方式，第一服务器响应于MRCP服务器发送的定时任务请求，从存储服务器中获取多个待匹配会话片段中每个待匹配会话片段的会话片段标识，得到多个会话片段标识。

需要说明的，待匹配会话片段为只包括会话片段标识与通话文本，而不包括通话录音地址的会话片段。

S302、第一服务器向第二服务器发送包括多个会话片段标识的通话录音请求。

其中，第二服务器用于基于通话录音请求得到多个会话片段标识中各会话片段标识对应的通话录音地址，并返回至第一服务器。第一服务器可以为如图1所示的MRCP服务器，也可以为其他类似的服务器。

作为一种可能的实现方式，第一服务器向第二服务器发送包括多个会话片段标识的通话录音请求。进一步的，第一服务器接收第二服务器发送的多个会话片段标识中各会话片段标识对应的通话录音地址，得到多个通话录音地址。

S303、第一服务器将预先存储的各会话片段标识对应的通话文本与各会话片段标识对应的通话录音地址进行绑定，并将绑定结果进行存储。

作为一种可能的实现方式，第一服务器将具有相同会话片段标识的通话文本与通话录音地址进行绑定，得到各会话片段标识对应的绑定结果。进一步的，第一服务器将各会话片段标识对应的绑定结果存储到存储服务器中。

在一种设计中，为了得到各会话片段标识对应的通话文本，如图5所示，本公开实施例提供的数据处理方法还包括下述S401。

S401、第一服务器响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话文本，并存储会话片段的会话片段标识以及会话片段的通话文本。

其中，会话片段为任意一个会话中的任意一个会话片段。

作为一种可能的实现方式，对于任意一个会话，每产生一个会话片段，会话中心服务器将向IVR服务器发送一个会话片段的请求。相应的，IVR服务器响应于会话片段的请求，生成一个会话片段标识。进一步的，IVR服务器确定当前会话片段的通话文本，并将当前会话片段的会话片段标识和通话文本作为一个待匹配文件，存储到存储服务器中。

可以理解的，每产生一个会话片段，IVR服务器都会记录该会话片段的会话片段标识以及该会话片段的通话文本，形成一个待匹配文件，为后续待匹配文件的更新做铺垫。

在一种设计中，为了确定通话文本，如图6所示，上述S401具体包括S4011-S4012:

S4011、IVR服务器接收会话片段的请求，根据会话片段的请求确定会话片段对应的会话阶段。

其中，会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段。

作为一种可能的实现方式，IVR服务器接收会话片段的请求，并解析会话片段的请求的内容信息，从内容信息中确定会话片段对应的会话阶段。

例如，会话开始时，呼叫中心服务器向IVR服务器发送一个内容信息为会话开始的请求，IVR服务器确定当前会话片段对应的会话阶段为会话开始阶段。

S4012、IVR服务器根据会话阶段确定通话文本。

作为一种可能的实现方式，IVR服务器确定出会话片段对应的会话阶段之后，在通话阶段为会话开始阶段的情况下，IVR服务器将预设通话文本确定为通话文本；在通话阶段为用户通话阶段的情况下，IVR服务器接收用户语音对应的通话文本，并将接收到的用户语音对应的通话文本确定为通话文本；在通话阶段为智能通话阶段的情况下，IVR服务器确定待识别文本，并根据待识别文本生成通话文本。

需要说明的，在会话开始阶段，IVR服务器将按照运维人员的设置的生成固定的通话文本，并将该通话文本通过呼叫中心服务器转发至MRCP服务器。相应的，MRCP服务器将该通话文本转换为通话录音，在由呼叫中心服务器向用户播放该通话录音。例如，会话开始阶段对应于电话语音客服系统的欢迎语阶段，用户接入电话语音客服系统后，首先进入欢迎语阶段，即电话语音客服系统向用户播放欢迎语(如“您好，欢迎来到**服务平台，我是您的客服经理小Q，请问有什么可以帮助您的”)，该欢迎语的文本即为会话开始阶段的预设通话文本。

用户通话阶段则代表当前会话片段为用户侧的会话片段，此时用户在讲话(即用户语音)，呼叫中心服务器将用户语音转发至MRCP服务器。相应的，MRCP服务器将该用户语音转换为通话文本，在由呼叫中心服务器将通话文本转发至IVR服务器。

智能通话阶段则代表当前会话片段为机器人侧的会话片段，此时电话语音客服系统向用户播放语音，该播放语音为用户提出的问题对应的解决方案。具体的，在用户通话阶段之后，IVR服务器以明确了用户语音，将该用户语音确定为待识别文本，并根据待识别文本所反映的问题，生成解决方案(即智能通话阶段的通话文本)。

在一种设计中，为了得到各会话片段的绑定结果，如图7所示，上述S303具体包括S3031-S3032:

S3031、IVR服务器根据第一会话片段标识从预先存储的通话文本中确定第一通话文本，以及，根据第一会话片段标识从多个通话录音地址中确定第一通话录音地址。

其中，第一会话片段标识为多个会话片段标识中的任意一个。

作为一种可能的实现方式，IVR服务器根据第一会话片段标识从多个预先存储的通话文本中确定具有第一会话片段标识的第一通话文本。进一步的，IVR服务器根据第一会话片段标识从多个通话录音地址中确定第一会话片段标识对应的第一通话录音地址。

S3032、IVR服务器将第一通话录音地址与第一通话文本进行绑定。

作为一种可能的实现方式，IVR服务器确定到第一通话录音地址和第一通话文本之后，将第一通话录音地址与第一通话文本进行绑定，得到第一会话片段标识对应的绑定结果。

图8是根据一些示例性实施例示出的一种数据处理方法的流程示意图。在一些实施例中，本公开的数据处理方法可以应用于第二服务器。其中，第二服务器可以为如图1所示的MRCP服务器，也可以为其他类似的服务器。

如图8所示，本公开实施例提供的数据处理方法，包括下述S501-S503。

S501、MRCP服务器接收IVR服务器发送的包括多个会话片段标识的通话录音请求。

作为一种可能的实现方式，MRCP服务器向IVR服务器按照预设周期发送定时任务请求，以接收IVR服务器响应于该定时任务请求向MRCP服务器发送的包括多个会话片段标识的通话录音请求。

需要说明的，定时任务请求为运维人员预先在MRCP服务器上设置的，例如，定时任务请求可以为运维人员可以预先在MRCP服务器上设置的定时任务脚本。

S502、MRCP服务器根据多个会话片段标识中各会话片段标识，确定各会话片段标识对应的通话录音。

作为一种可能的实现方式，MRCP服务器根据各会话片段标识，从MRCP服务器本地的存储器中查询各会话片段标识对应的通话录音，得到多个会话片段标识中各会话片段标识对应的通话录音。

S503、MRCP服务器将多个会话片段标识中各会话片段标识对应的通话录音进行格式转换，得到多个会话片段标识中各会话片段标识对应的通话录音地址，并向IVR服务器发送多个会话片段标识中各会话片段标识对应的通话录音地址。

作为一种可能的实现方式，MRCP服务器将确定到各会话片段标识对应的通话录音按照预设的协议进行格式转换(例如压缩转换、链接转换等协议)，得到多个会话片段标识中各会话片段标识对应的通话录音地址，并向IVR服务器发送多个会话片段标识中各会话片段标识对应的通话录音地址。

作为另一种可能的实现方式，MRCP服务器将确定到各会话片段标识对应的通话录音发送至对象存储服务器，得到对象存储服务器反馈的各会话片段标识对应的通话录音地址。进一步的，MRCP服务器向IVR服务器发送多个会话片段标识中各会话片段标识对应的通话录音地址。

在实际应用中，通话录音地址可以为通话录音对应的URL，对象存储服务器可以为任意一个网络云服务器。MRCP服务器将确定到各会话片段标识对应的通话录音发送至对象存储服务器，相当于将各会话片段标识对应的通话录音上传至网络，因此，MRCP服务器可以得到各会话片段标识对应的通话录音对应的URL。

示例性的，如图9所示，示出了MRCP服务器部署定时任务脚本后，各服务器之间的流程交互图。其中，MRCP服务器首先向IVR服务器发送定时任务请求(参考上述S501)。响应于定时任务请求，IVR服务器从存储服务器中获取多个待匹配会话片段中每个待匹配会话片段的会话片段标识，得到多个会话片段标识(参考上述S301)。可选的，IVR服务器还可以将多个会话片段标识中响应超时的标识过滤掉，以减轻数据处理压力。IVR服务器向MRCP服务器发送包括多个会话片段标识的通话录音请求(参考上述S302)。MRCP服务器将多个会话片段标识中各会话片段标识对应的通话录音进行格式转换(通过对象存储服务器)，得到多个会话片段标识中各会话片段标识对应的通话录音地址，并向IVR服务器发送多个会话片段标识中各会话片段标识对应的通话录音地址(参考上述S503)。IVR服务器将各会话片段标识对应的通话录音地址更新至各会话片段标识对应的待匹配文件中，得到各待匹配会话片段的匹配结果，并存储各待匹配会话片段的匹配结果(参考上述S303)。

在一种设计中，为了得到会话片段的通话录音，如图10所示，本公开实施例提供的数据处理方法还包括下述S601。

S601、MRCP服务器响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话录音，并存储会话片段的会话片段标识以及会话片段的通话录音。

其中，会话片段为任意一个会话中的任意一个会话片段。

作为一种可能的实现方式，对于任意一个会话，每产生一个会话片段，呼叫中心服务器将向MRCP服务器发送一个会话片段的请求。相应的，MRCP服务器响应于会话片段的请求，生成一个会话片段标识。进一步的，MRCP服务器确定当前会话片段的通话录音，并将当前会话片段的会话片段标识和通话录音进行存储。

需要说明的，针对同一会话片段的请求，MRCP服务器与IVR服务器生成的会话片段标识相同。且在一个会话开始后，MRCP服务器与IVR服务器均先确定该会话的标识(sessionId)，然后在该sessionId下生成多个会话片段标识(requestId)。可选的，会话的标识(sessionId)以及会话片段标识(requestId)也可以为IVR服务器确定后，通过呼叫中心服务器发送给MRCP服务器的。

可以理解的，每产生一个会话片段，MRCP服务器都会记录该会话片段的会话片段标识以及该会话片段的通话录音，为后续待匹配文件的更新做铺垫。

在一种设计中，为了确定通话录音，如图11所示，上述S601具体包括S6011-S6012。

S6011、MRCP服务器接收会话片段的请求，根据会话片段的请求确定会话片段对应的会话阶段。

作为一种可能的实现方式，MRCP服务器接收会话片段的请求，并解析会话片段的请求的内容信息，从内容信息中确定会话片段对应的会话阶段。

例如，会话开始时，呼叫中心服务器向MRCP服务器发送一个内容信息为会话开始的请求，MRCP服务器确定当前会话片段对应的会话阶段为会话开始阶段。

S6012、MRCP服务器根据会话阶段确定通话录音。

作为一种可能的实现方式，MRCP服务器确定出会话片段对应的会话阶段之后，在通话阶段为会话开始阶段的情况下，MRCP服务器将预设通话文本进行转换，得到通话录音；在通话阶段为用户通话阶段的情况下，MRCP服务器接收用户语音，并将接收到的用户语音确定为通话录音；在通话阶段为智能通话阶段的情况下，MRCP服务器接收通话文本，将通话文本进行转换，得到通话录音。

需要说明的，在会话开始阶段，IVR服务器将按照运维人员的设置的生成固定的通话文本，并将该通话文本通过呼叫中心服务器转发至MRCP服务器。相应的，MRCP服务器将该通话文本转换为通话录音，在由呼叫中心服务器向用户播放该通话录音。例如，会话开始阶段对应于电话语音客服系统的欢迎语阶段，用户接入电话语音客服系统后，首先进入欢迎语阶段，即电话语音客服系统向用户播放欢迎语(如“您好，欢迎来到**服务平台，我是您的客服经理小Q，请问有什么可以帮助您的”)，该欢迎语的语音即为会话开始阶段的通话录音。

智能通话阶段则代表当前会话片段为机器人侧的会话片段，此时电话语音客服系统向用户播放语音，该播放语音为用户提出的问题对应的解决方案。具体的，在用户通话阶段之后，IVR服务器以明确了用户语音，将该用户语音确定为待识别文本，并根据待识别文本所反映的问题，生成解决方案(即智能通话阶段的通话文本)。进一步的，IVR服务器通过呼叫中心服务器将该通话文本转发至MRCP服务器。相应的，MRCP服务器将该通话文本进行转换，得到通话录音。

示例性的，如图12所示，示出了用户和人工智能通话时各会话阶段的具体流程，包括欢迎语阶段(相当于会话开始阶段)、ASR阶段(相当于用户通话阶段)、TTS阶段(相当于智能通话阶段)以及挂机阶段。

欢迎语阶段：电话接通后IVR服务器返回接通后的欢迎语文本，并携带requestId给呼叫中心，呼叫中心收到后将欢迎语文本和对应的requestId转发至MRCP服务器。相应的，MRCP服务器将接收到的欢迎语文本转换为音频数据，并在本地存储该音频数据以及会话片段的requestId、会话的sessionId。MRCP服务器将音频数据反馈至呼叫中心服务器，呼叫中心服务器接收到音频数据后，播放音频。播放结束后，IVR服务器将欢迎语文本以及会话片段的requestId存储到存储服务器。

ASR阶段：IVR服务器确定进入ASR阶段后，将当前会话片段的requestId发送给呼叫中心服务器，呼叫中心服务器将requestId以及用户语音发送至MRCP服务器。相应的，MRCP服务器将接收到的用户语音转换为通话文本，并将通话文本反馈至呼叫中心服务器。MRCP服务器在本地存储该用户语音的音频数据以及会话片段的requestId、会话的sessionId。呼叫中心服务器接收到通话文本后，将该通话文本转发至IVR服务器。IVR服务器接收到该通话文本后，则将该通话文本以及会话片段的requestId存储到存储服务器。

对话TTS阶段：同欢迎语阶段，此处不再赘述。

挂机阶段：呼叫中心检测到用户正式挂断电话后，给IVR服务器返回挂断请求，智能IVR取出缓存的数据进行还原完整会话记录。

在一些实施例中，如图13所示，呼叫中心服务器又称MRCP-CLIENT，MRCP服务器又称MRCP-SERVER，二者之间通过会话初始协议(session initialization protocol，SIP)传输控制信令(如会话片段的请求)，通过实时传输协议(real-time transport protocol，RTP)传输语音媒体数据(如音频数据或通话文本等)。对于通话文本，MRCP-SERVER可以请求TTS算法服务，向TTS服务器发送文本和相应的合成参数后返回音频的语音流，MRCP-SERVER收到完整流后存储到本地文件，音频名称为sessionId+requestId(便于定时任务获取对通话的音频)。MRCP-CLIENT收到MRCP-SERVER的音频流后实时播报，播报结束后返回播报结束，携带requestId参数，IVR服务器收到后缓存下来。

在一些实施例中，如图14所示，MRCP-SERVER可以请求ASR算法服务，向ASR服务器发送用户语音，ASR服务器返回翻译文本。MRCP-SERVER将用户语音存储到本地文件，并将翻译文本反馈给MRCP-CLIENT，MRCP-CLIENT收到翻译文本后将该翻译文本转发至IVR服务器，IVR服务器收到后缓存下来。

上述实施例主要从装置(设备)的角度对本公开实施例提供的方案进行了介绍。可以理解的是，为了实现上述方法，装置或设备包含了执行各个方法流程相应的硬件结构和/或软件模块，这些执行各个方法流程相应的硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对装置或设备进行功能模块的划分，例如，装置或设备可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图15是根据一示例性实施例示出的一种数据处理装置的结构示意图。参照图15所示，本公开实施例提供的数据处理装置70，应用于终端设备，数据处理装置70包括显示单元701以及播放单元702。

显示单元701，用于响应于会话详情查询操作显示待显示会话的会话页面；待显示会话包括多个会话片段；会话页面展示有多个会话片段中各会话片段的通话文本和会话片段播放控件；播放单元702，用于响应于一个会话片段播放控件的点击操作，播放一个会话片段播放控件对应的一个会话片段的通话录音。

可选的，会话页面还包括录音播放控件；播放单元702还用于：响应于录音播放控件的点击操作，播放待显示会话的完整录音。

图16是根据一示例性实施例示出的一种数据处理装置的结构示意图。参照图16所示，本公开实施例提供的数据处理装置80，应用于第一服务器，数据处理装置80包括获取单元801、发送单元802以及处理单元803。

获取单元801，用于获取多个待匹配会话片段中各待匹配会话片段的会话片段标识，得到多个会话片段标识；发送单元802，用于向第二服务器发送包括多个会话片段标识的通话录音请求；第二服务器用于基于通话录音请求得到多个会话片段标识中各会话片段标识对应的通话录音地址，并返回至第一服务器；处理单元803，用于将预先存储的各会话片段标识对应的通话文本与各会话片段标识对应的通话录音地址进行绑定，并将绑定结果进行存储。

可选的，数据处理装置80还包括确定单元804，确定单元804用于：响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话文本，并存储会话片段的会话片段标识以及会话片段的通话文本；会话片段为任意一个会话中的任意一个会话片段。

可选的，确定单元804，具体用于：获取会话片段并确定会话片段对应的会话阶段；会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段；根据会话阶段确定通话文本。

可选的，确定单元804，具体用于：在通话阶段为会话开始阶段的情况下，将预设通话文本确定为通话文本；在通话阶段为用户通话阶段的情况下，接收用户语音对应的通话文本，并将接收到的用户语音对应的通话文本确定为通话文本；在通话阶段为智能通话阶段的情况下，确定待识别文本，并根据待识别文本生成通话文本。

可选的，处理单元803，具体用于：根据第一会话片段标识从预先存储的通话文本中确定第一通话文本，以及，根据第一会话片段标识从多个通话录音地址中确定第一通话录音地址；第一会话片段标识为多个会话片段标识中的任意一个；将第一通话录音地址与第一通话文本进行绑定。

可选的，确定单元804还用于：响应于第二服务器发送的定时任务请求，根据预设的匹配标记，从会话片段集合中确定多个待匹配会话片段；会话片段集合中包括多个已匹配会话片段以及多个待匹配会话片段。

图17是根据一示例性实施例示出的一种数据处理装置的结构示意图。参照图17所示，本公开实施例提供的数据处理装置90，应用于第二服务器，数据处理装置90包括接收单元901、确定单元902以及处理单元903。

接收单元901，用于接收第一服务器发送的包括多个会话片段标识的通话录音请求；确定单元902，用于根据多个会话片段标识中各会话片段标识，确定各会话片段标识对应的通话录音；处理单元903，用于将各会话片段标识对应的通话录音进行格式转换，得到多个会话片段标识中各会话片段标识对应的通话录音地址，并向IVR服务器发送多个会话片段标识中各会话片段标识对应的通话录音地址。

可选的，确定单元902还用于：响应于会话片段的请求，确定会话片段的会话片段标识以及会话片段的通话录音，并存储会话片段的会话片段标识以及会话片段的通话录音；会话片段为任意一个会话中的任意一个会话片段。

可选的，确定单元902具体用于：获取会话片段并确定会话片段对应的会话阶段；会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段；根据会话阶段确定通话录音。

可选的，确定单元902具体用于：在通话阶段为会话开始阶段的情况下，将预设通话文本进行转换，得到通话录音；在通话阶段为用户通话阶段的情况下，接收用户语音，并将接收到的用户语音确定为通话录音；在通话阶段为智能通话阶段的情况下，接收通话文本，将通话文本进行转换，得到通话录音。

可选的，数据处理装置还包括发送单元904，发送单元904用于：按照预设周期向第一服务器发送定时任务请求；定时任务请求用于指示第一服务器根据预设的匹配标记，从会话片段集合中确定多个待匹配会话片段；会话片段集合中包括多个已匹配会话片段以及多个待匹配会话片段。

图18是本公开提供的一种电子设备的结构示意图。如图18，该电子设备100可以包括至少一个处理器1001以及用于存储处理器可执行指令的存储器1002其中，处理器1001被配置为执行存储器1002中的指令，以实现上述实施例中的数据处理方法。

另外，电子设备100还可以包括通信总线1003以及至少一个通信接口1004。

处理器1001可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线1003可包括一通路，在上述组件之间传送信息。

通信接口1004，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器1002可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1002用于存储执行本公开方案的指令，并由处理器1001来控制执行。处理器1001用于执行存储器1002中存储的指令，从而实现本公开数据处理方法中的功能。

作为一个示例，结合图15，数据处理装置70中的显示单元701以及播放单元702实现的功能与图18中的处理器1001的功能相同。

作为又一个示例，结合图16，数据处理装置80中的获取单元801、发送单元802以及处理单元803实现的功能与图18中的处理器1001的功能相同。

作为再一个示例，结合图17，数据处理装置90中的接收单元901、确定单元902以及处理单元903实现的功能与图18中的处理器1001的功能相同。

在具体实现中，作为一种实施例，处理器1001可以包括一个或多个CPU，例如图18中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备100可以包括多个处理器，例如图18中的处理器1001和处理器1007。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备100还可以包括输出设备1005和输入设备1006。输出设备1005和处理器1001通信，可以以多种方式来显示信息。例如，输出设备1005可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emittingdiode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备1006和处理器1001通信，可以以多种方式接受用户对象的输入。例如，输入设备1006可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，图18中示出的结构并不构成对电子设备100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

另外，本公开还提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述实施例所提供的数据处理方法。

另外，本公开还提供一种计算机程序产品，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上述实施例所提供的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种数据处理方法，其特征在于，应用于第一服务器，所述方法包括：

获取多个待匹配会话片段中各所述待匹配会话片段的会话片段标识，得到多个会话片段标识；

向第二服务器发送包括所述多个会话片段标识的通话录音请求；所述第二服务器用于基于所述通话录音请求得到所述多个会话片段标识中各所述会话片段标识对应的通话录音地址，并返回至所述第一服务器；

将预先存储的各所述会话片段标识对应的通话文本与各所述会话片段标识对应的通话录音地址进行绑定，并将绑定结果进行存储；其中，一个会话片段标识对应的通话录音地址用于通过语音的形式播放该会话片段标识对应的通话文本。

2.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

响应于会话片段的请求，确定所述会话片段的会话片段标识以及所述会话片段的通话文本，并存储所述会话片段的会话片段标识以及所述会话片段的通话文本；所述会话片段为任意一个会话中的任意一个会话片段。

3.根据权利要求2所述的数据处理方法，其特征在于，所述确定所述会话片段的通话文本，包括：

获取所述会话片段并确定所述会话片段对应的会话阶段；所述会话阶段包括会话开始阶段、用户通话阶段以及智能通话阶段；

根据所述会话阶段确定所述通话文本。

4.根据权利要求3所述的数据处理方法，其特征在于，所述根据所述会话阶段确定所述通话文本，包括：

在所述通话阶段为所述会话开始阶段的情况下，将预设通话文本确定为所述通话文本；

在所述通话阶段为所述用户通话阶段的情况下，接收用户语音对应的通话文本，并将接收到的所述用户语音对应的通话文本确定为所述通话文本；

在所述通话阶段为所述智能通话阶段的情况下，确定待识别文本，并根据所述待识别文本生成所述通话文本。

5.根据权利要求1所述的数据处理方法，其特征在于，所述将预先存储的各所述会话片段标识对应的通话文本与各所述会话片段标识对应的通话录音地址进行绑定，包括：

根据第一会话片段标识从所述预先存储的通话文本中确定第一通话文本，以及，根据所述第一会话片段标识从多个通话录音地址中确定第一通话录音地址；所述第一会话片段标识为所述多个会话片段标识中的任意一个；

将所述第一通话录音地址与所述第一通话文本进行绑定。

6.根据权利要求1-5中任一项所述的数据处理方法，其特征在于，所述方法还包括：

响应于所述第二服务器发送的定时任务请求，根据预设的匹配标记，从会话片段集合中确定所述多个待匹配会话片段；所述会话片段集合中包括多个已匹配会话片段以及所述多个待匹配会话片段。

7.一种数据处理方法，其特征在于，应用于第二服务器，所述方法包括：

接收第一服务器发送的包括多个会话片段标识的通话录音请求；

根据所述多个会话片段标识中各所述会话片段标识，确定各所述会话片段标识对应的通话录音；

将各所述会话片段标识对应的通话录音进行格式转换，得到所述多个会话片段标识中各所述会话片段标识对应的通话录音地址，并向第一服务器发送所述多个会话片段标识中各所述会话片段标识对应的通话录音地址。

8.根据权利要求7所述的数据处理方法，其特征在于，所述方法还包括：

响应于会话片段的请求，确定所述会话片段的会话片段标识以及所述会话片段的通话录音，并存储所述会话片段的会话片段标识以及所述会话片段的通话录音；所述会话片段为任意一个会话中的任意一个会话片段。

9.根据权利要求8所述的数据处理方法，其特征在于，所述确定所述会话片段的通话录音，包括：

根据所述会话阶段确定所述通话录音。

10.根据权利要求9所述的数据处理方法，其特征在于，所述根据所述会话阶段确定所述通话录音，包括：

在所述通话阶段为所述会话开始阶段的情况下，将预设通话文本进行转换，得到所述通话录音；

在所述通话阶段为所述用户通话阶段的情况下，接收用户语音，并将接收到的所述用户语音确定为所述通话录音；

在所述通话阶段为所述智能通话阶段的情况下，接收通话文本，将所述通话文本进行转换，得到所述通话录音。

11.根据权利要求7-10中任一项所述的数据处理方法，其特征在于，所述方法还包括：

按照预设周期向所述第一服务器发送定时任务请求；所述定时任务请求用于指示所述第一服务器根据预设的匹配标记，从会话片段集合中确定多个待匹配会话片段；所述会话片段集合中包括多个已匹配会话片段以及所述多个待匹配会话片段。

12.一种数据处理装置，其特征在于，应用于第一服务器，所述数据处理装置包括获取单元、发送单元以及处理单元；

所述获取单元，用于获取多个待匹配会话片段中各所述待匹配会话片段的会话片段标识，得到多个会话片段标识；

所述发送单元，用于向第二服务器发送包括所述多个会话片段标识的通话录音请求；所述第二服务器用于基于所述通话录音请求得到所述多个会话片段标识中各所述会话片段标识对应的通话录音地址，并返回至所述第一服务器；

所述处理单元，用于将预先存储的各所述会话片段标识对应的通话文本与各所述会话片段标识对应的通话录音地址进行绑定，并将绑定结果进行存储；其中，一个会话片段标识对应的通话录音地址用于通过语音的形式播放该会话片段标识对应的通话文本。

13.一种数据处理装置，其特征在于，应用于第二服务器，所述数据处理装置包括接收单元、确定单元以及处理单元；

所述接收单元，用于接收第一服务器发送的包括多个会话片段标识的通话录音请求；

所述确定单元，用于根据所述多个会话片段标识中各所述会话片段标识，确定各所述会话片段标识对应的通话录音；

所述处理单元，用于将各所述会话片段标识对应的通话录音进行格式转换，得到所述多个会话片段标识中各所述会话片段标识对应的通话录音地址，并向第一服务器发送所述多个会话片段标识中各所述会话片段标识对应的通话录音地址。

14.一种电子设备，其特征在于，包括：处理器、用于存储所述处理器可执行的指令的存储器；其中，所述处理器被配置为执行指令，以实现权利要求1-11中任一项所述的数据处理方法。

15.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-11中任一项所述的数据处理方法。