CN114242073A

CN114242073A - 一种实现实时语音人机对话的方法及系统

Info

Publication number: CN114242073A
Application number: CN202111506364.3A
Authority: CN
Inventors: 余文芳; 曾文佳; 陈新月; 宋成业; 冯梦盈; 梁鹏斌; 李航; 韩亚昕
Original assignee: Lingxi Beijing Technology Co Ltd
Current assignee: Lingxi Beijing Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-25

Abstract

本申请一些实施例提供一种实现实时语音人机对话的方法及系统，包括：用户服务器端、语音服务器以及坐席服务器端，其中，语音服务器与用户服务器端建立第一长连接，且与坐席服务器端建立第二长连接；用户服务器端可以按照设定的字节阈值读取用户的语音，获取语音信息；通过所述第一长连接将所述语音信息发送至语音服务器后再转发到所述坐席服务器端；坐席服务器端可以按照设定的字节阈值读取所述客服语音，获取客服语音信息；通过所述第二长连接将所述客服语音信息发送至所述语音服务器后再转发到用户服务器端。本实施例实现了语音的实时转发交互，避免用户和坐席人员在交互的过程中出现卡顿和通信断连的情况，提升了通话质量。

Description

一种实现实时语音人机对话的方法及系统

技术领域

本申请涉及智能交互技术领域，具体而言，涉及一种实现实时语音人机对话的方法及系统。

背景技术

随着智能交互领域的发展，人机对话技术逐渐被应用到各种交互场景。

目前，在较大规模的交互领域中，用户的数量较多，当用户与坐席人员直接进行语音交互时，在语音流的转发过程中容易出现语音流播放卡顿和网络信号断连的情况，导致通话质量较差，工作效率较低。

因此，如何提升人机对话的通话质量成为亟需解决的技术问题。

发明内容

本申请一些实施例的目的在于提供一种实现实时语音人机对话的方法及系统，通过本申请的实施例的技术方案可以避免用户和坐席人员在交互的过程中出现卡顿和网络断连的情况，进而提升了双方的通话质量。

第一方面，本申请一些实施例提供了一种实现实时语音人机对话的方法，应用于用户服务器端，包括：接听用户的语音；按照设定的字节阈值读取所述语音，获取语音信息；将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；接收所述语音服务器发送的所述坐席服务器端的客服语音。

本申请一些实施例将用户服务器端通过设定的字节阈值读取的用户的语音通过语音服务器转发至坐席服务器端，实现了用户语音流的实时转发，同时按照设定的字节阈值读取用户的语音，能够保证用户和坐席人员顺畅交流，避免出现语音信号卡顿的情况，此外本申请的一些实施例还借助于语音服务器来实现与坐席端的通信进一步提升了通话质量和用户体验。

在一些实施例，通过如下方法设定所述字节阈值：基于所述用户服务器端的服务器配置参数，设定所述用户服务器端的缓冲参数，将所述缓存参数作为所述字节阈值。

本申请一些实施例通过针对不同的服务器设定服务器的缓存参数的大小作为字节阈值，可以保证坐席服务器端接收到的语音信息的流畅度和清晰度。

在一些实施例，在所述按照设定的字节阈值读取所述语音，获取语音信息之前，所述方法还包括：向所述语音服务器发送建立长连接的请求；接收所述语音服务器发送的建立成功标识，以使所述用户服务器端与所述语音服务器建立长连接。

本申请一些实施例将用户服务器端与语音服务器建立长连接，实现了服务器之间连接的稳定性，可以为通话质量提供保障。

在一些实施例，在所述用户服务器端与所述语音服务器建立长连接的期间内，所述方法还包括：按照设定的时间周期，向所述语音服务器发送心跳包；若在设定的时间周期内接收到所述语音服务器发送的连接正常标识，则确认所述用户服务器端与所述语音服务器连接正常；若在设定的时间周期内未接收到所述语音服务器发送的连接正常标识，则向所述语音服务器重新发送建立长连接请求并接收所述语音服务器发送的建立成功标识，以使所述用户服务器端与所述语音服务器重新建立长连接。

本申请一些实施例的用户服务器端每隔一定的时间周期向语音服务器发送心跳包实时检测两者之间的连接情况，避免在交互过程中发生连接中断的情况，同时对于中断的情况还可以实现实时重新建立连接。

第二方面，本申请一些实施例提供了一种实现实时语音人机对话的方法，应用于坐席服务器端，包括：接收语音服务器发送的用户的语音信息；获取与所述语音信息对应的客服语音；按照设定的字节阈值读取所述客服语音，获取客服语音信息；将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。

本申请一些实施例将坐席服务器端通过设定的字节阈值读取的坐席人员的客服语音通过语音服务器转发至用户服务器端，实现了客服语音流的实时转发，同时按照设定的字节阈值读取坐席人员的语音，能够保证坐席人员和用户之间的顺畅交流，避免出现语音信号卡顿的情况，提升了通话质量和用户体验，进而提升了沟通效率。

在一些实施例，通过如下方法设定所述字节阈值：基于所述坐席服务器端的服务器配置参数，设定所述坐席服务器端的缓冲参数，将所述缓存参数作为所述字节阈值。

本申请一些实施例通过针对不同的坐席服务器设定不同的缓存参数来作为字节阈值的大小，能够保证用户服务器端接收到的客服语音信息的流畅度和清晰度，进而保障了沟通效果。

在一些实施例，在所述接收语音服务器发送的用户的语音信息之前，所述方法还包括：向所述语音服务器发送建立长连接的请求；接收所述语音服务器发送的建立成功标识，以使所述坐席服务器端与所述语音服务器建立长连接。

本申请一些实施例通过将坐席服务器端与语音服务器建立长连接，实现了坐席服务器端与语音服务器之间连接的稳定性，可以为通话质量提供保障。

在一些实施例，在所述坐席服务器端与所述语音服务器建立长连接的期间内，所述方法还包括：按照设定的时间周期，向所述语音服务器发送心跳包；若在设定的时间周期内接收到所述语音服务器发送的连接正常标识，则确认所述坐席服务器端与所述语音服务器连接正常；若在设定的时间周期内未接收到所述语音服务器发送的连接正常标识，则向所述语音服务器重新发送建立长连接请求并接收所述语音服务器发送的建立成功标识，以使所述坐席服务器端与所述语音服务器重新建立长连接。

本申请一些实施例的坐席服务器端每隔一定的时间周期向语音服务器发送心跳包实时检测两者之间的连接情况，避免在语音信息交互过程中发生连接中断的情况，同时对于中断的情况还可以实现实时重新建立连接。

在一些实施例，在所述获取与所述语音信息对应的客服语音之前，所述方法还包括：根据语音转接率在所述坐席服务器端配备相应的坐席人员；将所述语音信息分配至对应的所述坐席人员。

本申请一些实施例通过语音转接率配备足够的坐席人员，用户与坐席人员匹配交互时不需要排队等待，提升了用户体验和沟通效率。

第三方面，本申请一些实施例提供了一种实现实时语音人机对话的方法，应用于语音服务器，包括：接收第一服务器端发送的建立长连接请求，其中，所述第一服务器端至少用于接听用户的语音，或者至少用于根据用户的语音信息获取客服语音信息；向所述第一服务器端发送建立成功标识，以使所述第一服务器端与所述语音服务器建立第一长连接；至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端。

本申请一些实施例的语音服务器通过与第一服务器端建立长连接，实现了语音信息的实时转发，通过长连接可以实现第一服务器端和第二服务器端的实时交互，并且可以稳定、清晰以及流畅的传输语音信息，提升了通话效率和质量。

在一些实施例，所述第一服务器端为用户服务器端，所述第二服务器端为坐席服务器端；所述方法还包括：建立所述坐席服务器端与所述语音服务器的第二长连接；其中，所述至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端，包括：通过所述第一长连接和所述第二长连接将来自于所述用户服务器端的用户的语音发送至所述坐席服务器端，以使所述坐席服务器端获取所述语音。

本申请一些实施例将第一服务器端设定为用户服务器端，第二服务器端设定为坐席服务器端，两者分别与语音服务器建立第一长连接和第二长连接，以使用户服务器端接听到的语音实时稳定地传输至坐席服务器端，保障通话沟通效果。

在一些实施例，所述第一服务器端为坐席服务器端，且所述第二服务器端为用户服务器端；所述方法还包括：建立所述用户服务器端与所述语音服务器的第二长连接；其中，所述至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端，包括：通过所述第一长连接和所述第二长连接将来自于所述坐席服务器端的客服语音发送至所述用户服务器端，以使所述用户服务器端获取所述客服语音。

本申请一些实施例将第一服务器端设定为坐席服务器端，第二服务器端设定为用户服务器端，两者分别与语音服务器建立第一长连接和第二长连接，以使坐席服务器端接听到的客服语音实时稳定地传输至用户服务器端，保障通话沟通效果。

在一些实施例，在所述第一服务器端与所述语音服务器建立第一长连接的期间内，所述方法还包括：若在设定的时间周期内接收到所述第一服务器端发送的心跳包，则向所述第一服务器端发送连接正常标识，其中，所述连接正常标识用于表征所述语音服务器与所述第一服务器端网络连接正常；若在设定的时间周期内未接收到所述第一服务器端发送的心跳包，则接收所述第一服务器端重新发送的建立长连接请求并向所述第一服务器端发送建立成功标识，以使所述语音服务器与所述第一服务器端重新建立长连接。

本申请一些实施例通过在规定的时间周期内是否接收到心跳包来检测第一服务器端与语音服务器的长连接的连接质量，避免出现断开连接的异常情况，当断连时可以第一时间检测到，并可以及时重新建立长连接，使得语音通话可以实时转发，为通话质量提供有效保障。

第四方面，本申请一些实施例提供了一种用户服务器端，包括：监听模块，被配置为接听用户的语音；读取模块，被配置为按照设定的字节阈值读取所述语音，获取语音信息；发送模块，被配置为将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；信息接收模块，被配置为接收所述语音服务器发送的所述坐席服务器端的客服语音。

第五方面，本申请一些实施例提供了一种坐席服务器端，包括：接收模块，被配置为接收语音服务器发送的用户的语音信息；获取模块，被配置为获取与所述语音信息对应的客服语音；语音读取模块，被配置为按照设定的字节阈值读取所述客服语音，获取客服语音信息；信息发送模块，被配置为将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。

第六方面，本申请一些实施例提供了一种语音服务器，包括：请求接收模块，被配置为接收第一服务器端发送的建立长连接请求，其中，所述第一服务器端至少用于接听用户的语音，或者至少用于根据用户的语音信息获取客服语音信息；请求确认模块，被配置为向所述第一服务器端发送建立成功标识，以使所述第一服务器端与所述语音服务器建立第一长连接；信息转发模块，被配置为至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端。

第七方面，本申请一些实施例提供了一种实现实时语音人机对话的系统，包括：用户服务器端、语音服务器以及坐席服务器端，其中，所述语音服务器与所述用户服务器端建立第一长连接，且与所述坐席服务器端建立第二长连接；所述用户服务器端，被配置为：接听用户的语音；按照设定的字节阈值读取所述语音，获取语音信息；通过所述第一长连接将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；接收所述语音服务器发送的所述坐席服务器端的客服语音；所述坐席服务器端，被配置为：接收语音服务器发送的用户的语音信息；获取与所述语音信息对应的客服语音；按照设定的字节阈值读取所述客服语音，获取客服语音信息；通过所述第二长连接将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。

第八方面，本申请一些实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的程序，其中，所述处理器执行所述程序时可实现第一方面、第二方面或者第三方面中的任意实施例所述的方法。

第九方面，本申请一些实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现第一方面、第二方面或者第三方面中的任意实施例所述的方法。

附图说明

为了更清楚地说明本申请一些实施例的技术方案，下面将对本申请一些实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一些实施例提供的一种实现实时语音人机对话的系统的结构图；

图2为本申请一些实施例提供的一种实现实时语音人机对话的方法的流程图之一；

图3为本申请一些实施例提供的一种实现实时语音人机对话的方法的流程图之二；

图4为本申请一些实施例提供的一种实现实时语音人机对话的方法的流程图之三；

图5为本申请一些实施例提供的用户服务器端100、坐席服务器端200和语音服务器300的交互流程图；

图6为本申请一些实施例提供的一种用户服务器端的组成框图；

图7为本申请一些实施例提供的一种坐席服务器端的组成框图；

图8为本申请一些实施例提供的一种语音服务器的组成框图。

具体实施方式

下面将结合本申请一些实施例中的附图，对本申请一些实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

相关技术例中，由于人机交互的便捷性，在服务型领域(例如，银行系统、保险系统或售后系统等等)均涉及到人机交互。现有的技术的用户和坐席人员两端在直接进行通信的时，连接不稳定时，容易造成卡顿或者断连的问题。

鉴于此，本申请一些实施例提供了一种实现实时语音人机对话的方法及系统，避免了用户和坐席人员在交互的过程中出现卡顿和网络断连的情况发生，提升了通话质量的同时提升了用户体验，并且保证了工作效率。

下面示例性介绍本申请一些实施例提供的一种实现实时语音人机对话的方法。

如图1所示，本申请的一些实施例提供了一种实现实时语音人机对话的系统的结构图。图1的转发系统的结构图包括用户服务器端100、坐席服务器端200和语音服务器300。

与相关技术中，由用户服务器端100和坐席服务器端200直接通信带来的诸多技术缺陷的技术方案相比，本申请的一些实施例引入了语音服务器，通过该语音服务器在满足信息转发需求的基础上还可以即时探测长连接状态，有效避免了现有技术在通话中存在的卡顿问题。

图1的语音服务器300与用户服务器端100建立第一长连接，且与坐席服务器端200建立第二长连接，也就是说，在本申请的一些实施例中，用户服务器端100与坐席服务器端200均可以通过长连接与语音服务器300双向传输数据信息。

图1的用户服务器端100可以向语音服务器300发送建立长连接的请求、用户语音或者用于检测网络是否断连的心跳包。图1的坐席服务器端200可以向语音服务器300发送建立长连接的请求、客服语音或者用于检测网络是否断连的心跳包。相应的语音服务器300可以向用户服务器端100与坐席服务器端200分别发送是否建立成功连接的标识，还可以将用户语音转发至坐席服务器端200，也可以将客服语音转发至用户服务器端100。

需要说明的是，用户服务器端100可以部署在终端设备上，使得该终端设备具有获取用户语音的功能。坐席服务器端200可以部署在坐席端设备上，使得该坐席端设备具有获取坐席人员语音的功能。终端设备与坐席端设备均可以与通过无线网络设备和有线网络设备与语音服务器300建立长连接实现数据传输。

可以理解的是，用户服务器端100与坐席服务器端200既可以部署在移动终端设备上，也可以部署在非便携的电脑终端。语音服务器300也可以是部署在非便携计算机或者便携终端等。本申请不限定具体设备类型。

下面示例性阐述图1的各单元的相关功能。

在本申请的一些实施例中，所述语音服务器300与所述用户服务器端100建立第一长连接，且与所述坐席服务器端200建立第二长连接。

在本申请的一些实施例中，用户服务器端100至少被配置为：接听用户的语音；按照设定的字节阈值读取所述语音，获取语音信息；通过所述第一长连接将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；接收所述语音服务器发送的所述坐席服务器端的客服语音。

在本申请的一些实施例中，坐席服务器端200至少被配置为：接收语音服务器发送的用户的语音信息；获取与所述语音信息对应的客服语音；按照设定的字节阈值读取所述客服语音，获取客服语音信息；通过所述第二长连接将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。

下面结合附图2具体阐述图1中用户服务器端100执行的实现实时语音人机对话的方法的实现过程。

请参见附图2，本申请一些实施例提供的用户服务器端100执行的实现实时语音人机对话的方法可以包括：S210，接听用户的语音；S220，按照设定的字节阈值读取所述语音，获取语音信息；S230，将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；S240，接收所述语音服务器发送的所述坐席服务器端的客服语音。

下面示例性阐述上述过程。

为了保证用户服务器端的语音信息的传输质量，本申请一些实施例在执行图2中的步骤S220时，需要基于所述用户服务器端的服务器配置参数，设定所述用户服务器端的缓冲参数，将所述缓存参数作为所述字节阈值。

例如，在本申请的一些实施例中，可以根据服务器的基本配置性能，通过提前人工测试语音传输的清晰度、流畅度以及延迟性能，不断调整用户服务器端的缓存块(也就是缓冲参数)的大小，直至语音能够清晰、流畅以及满足延迟需求的实时传输至坐席端。作为本申请的一个示例，用户服务器端的音频采样频率可以设为8000Hz，缓存块大小可以设为1280帧/次，即在设定的音频采样频率下每次读取用户的语音中的1280帧音频数据进行传输。

在本申请一些实施例中，为了保证语音信息的稳定传输，在执行S210之前，该方法还包括向所述语音服务器发送建立长连接的请求；接收所述语音服务器发送的建立成功标识，以使所述用户服务器端与所述语音服务器建立长连接。

例如，为了保证长连接的质量，用户服务器端在向语音服务器发送请求后，语音服务器会向用户服务器端反馈是否成功建立连接的标识信息，确保两者成功建立连接。

在本申请的一些实施例中，为了保证在用户和坐席人员的交互过程中出现网络断连的情况，在所述用户服务器端与所述语音服务器建立长连接的期间内，所述方法还包括：按照设定的时间周期，向所述语音服务器发送心跳包；若在设定的时间周期内接收到所述语音服务器发送的连接正常标识，则确认所述用户服务器端与所述语音服务器连接正常；若在设定的时间周期内未接收到所述语音服务器发送的连接正常标识，则向所述语音服务器重新发送建立长连接请求并接收所述语音服务器发送的建立成功标识，以使所述用户服务器端与所述语音服务器重新建立长连接。

例如，由于用户和坐席人员之间的交互时长不确定，在通话时间较长时可能会出现用户服务器端与语音服务器断开连接的情况，因此需要每隔一段时间向语音服务器发送心跳包，检测连接质量，避免出现断连的情况。当发生断连时能够及时重新建立连接，保证通话继续进行。

下面结合附图3具体阐述图1中坐席服务器端200执行的实现实时语音人机对话的方法的实现过程。

请参见附图3，本申请一些实施例提供的坐席服务器端200执行的实现实时语音人机对话的方法可以包括：S310，接收语音服务器发送的用户的语音信息；S320，获取与所述语音信息对应的客服语音；S330，按照设定的字节阈值读取所述客服语音，获取客服语音信息；S340，将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。

下面示例性阐述上述过程。

为了保证语音通话质量，在本申请一些实施例中，坐席服务器端200在执行S330时，可以基于所述坐席服务器端的服务器配置参数，设定所述坐席服务器端的缓冲参数，将所述缓存参数作为所述字节阈值。

例如，在本申请的一些实施例中，可以根据坐席服务器端的基本配置性能的参数，通过提前人工测试语音传输的清晰度、流畅度以及延迟性能，不断调整坐席服务器端的缓存块(也就是缓冲参数)的大小，直至语音能够清晰、流畅以及满足延迟需求的实时传输至用户端。作为本申请的一个示例，坐席服务器端的音频采样频率可以设为8000Hz，缓存块大小可以设为1280帧/次，即在设定的音频采样频率下每次读取坐席人员的语音中的1280帧音频数据进行传输。

在本申请一些实施例中，为了保证语音信息的稳定传输，在执行S310之前，该方法还包括向所述语音服务器发送建立长连接的请求；接收所述语音服务器发送的建立成功标识，以使所述坐席服务器端与所述语音服务器建立长连接。

在本申请的一些实施例中，为了避免通话期间出现异常情况或者在出现异常时能够及时发起补救措施，在所述坐席服务器端与所述语音服务器建立长连接的期间内，所述方法还包括：按照设定的时间周期，向所述语音服务器发送心跳包；若在设定的时间周期内接收到所述语音服务器发送的连接正常标识，则确认所述坐席服务器端与所述语音服务器连接正常；若在设定的时间周期内未接收到所述语音服务器发送的连接正常标识，则向所述语音服务器重新发送建立长连接请求并接收所述语音服务器发送的建立成功标识，以使所述坐席服务器端与所述语音服务器重新建立长连接。

在本申请的一些实施例中，为了提升用户体验，在执行S320之前，该方法还包括：根据语音转接率在所述坐席服务器端配备相应的坐席人员；将所述语音信息分配至对应的所述坐席人员。

例如，根据不同的交互场景可以承接的机器人坐席数量，结合进线接通率和转坐席人工率配备合适的坐席人员数量，使得用户在需要坐席服务时不需要排队等待，提升通话效率。其中，通过如下方法获取坐席人员数量：坐席人员数量＝(机器人席数*平均每小时呼入的电话数量*进线接通率*平均每通电话的通话时长)/座席每小时设定的通话时长。其中，进线接通率为接通电话数量与用户呼入总数量的比值。转坐席人工率为转人工的电话数量与接通电话数量的比值。

下面结合附图4具体阐述图1中语音服务器300执行的实现实时语音人机对话的方法的实现过程。

请参见附图4，本申请一些实施例提供的语音服务器300执行的实现实时语音人机对话的方法可以包括：S410，接收第一服务器端发送的建立长连接请求，其中，所述第一服务器端至少用于接听用户的语音，或者至少用于根据用户的语音信息获取客服语音信息；S420，向所述第一服务器端发送建立成功标识，以使所述第一服务器端与所述语音服务器建立第一长连接；S430，至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端。

需要说明的是，第一服务器端可以是用户服务器端或者坐席服务器端。当第一服务器端是用户服务器端时，第二服务器端是坐席服务器端。当第一服务器端是坐席服务器端，第二服务器端是用户服务器端。

下面示例性阐述上述过程。

在本申请一些实施例中，将第一服务器端设为用户服务器端，第二服务器端设为坐席服务器端；上述的方法还包括：建立所述坐席服务器端与所述语音服务器的第二长连接；其中，语音服务器300执行的S430包括：通过所述第一长连接和所述第二长连接将来自于所述用户服务器端的用户的语音发送至所述坐席服务器端，以使所述坐席服务器端获取所述语音。

例如，用户服务器端与语音服务器建立第一长连接，坐席服务器端与语音服务器建立第二长连接，通过长连接可以实现用户语音实时转发至坐席服务器端，供坐席人员获取用户需求。

在本申请另一些实施例中，第一服务器端设为坐席服务器端，且第二服务器端设为用户服务器端；所述方法还包括：建立所述用户服务器端与所述语音服务器的第二长连接；其中，语音服务器300执行的S430还可以包括：通过所述第一长连接和所述第二长连接将来自于所述坐席服务器端的客服语音发送至所述用户服务器端，以使所述用户服务器端获取所述客服语音。

例如，坐席服务器端与语音服务器建立第一长连接，用户服务器端与语音服务器建立第二长连接，通过长连接可以实现坐席人员的客服语音实时转发至用户服务器端供用户接听客服回复的语音信息。

在本申请一些实施例中，为了使得语音服务器有效的实现第一服务器端的语音实时转发，避免出现中断的情况，在所述第一服务器端与所述语音服务器建立第一长连接的期间内，所述方法还包括：若在设定的时间周期内接收到所述第一服务器端发送的心跳包，则向所述第一服务器端发送连接正常标识，其中，所述连接正常标识用于表征所述语音服务器与所述第一服务器端网络连接正常；若在设定的时间周期内未接收到所述第一服务器端发送的心跳包，则接收所述第一服务器端重新发送的建立长连接请求并向所述第一服务器端发送建立成功标识，以使所述语音服务器与所述第一服务器端重新建立长连接。

需要说明的是，上述第一服务器端可以是用户服务器端，也可以是坐席服务器端，两者均可以实现实时检测长连接质量的问题。

下面结合图5示例性的阐述图1中用户服务器端100、坐席服务器端200和语音服务器300的交互过程，通过实现语音的实时转发，提升通话质量。

S1，用户服务器端100和坐席服务器端200均向语音服务器300发送建立长连接的请求。

例如，在接听用户来电的同时，图5中的语音客户端(作为用户服务器端100的一个具体示例)和语音客服端(作为坐席服务器端200的一个具体示例)均会向语音服务器发送建立长连接的请求。

需要说明的是，用户服务器端100和坐席服务器端200均设置有虚拟声卡来存储用户或者坐席人员的语音。

S2，语音服务器300向用户服务器端100和坐席服务器端200均发送建立成功标识，确认成功建立通信连接。

例如，在本申请一些实施例中，在用户服务器端100与语音服务器300建立长连接的期间，用户服务器端100按照设定的时间周期(例如，时间周期可以是3ms或者5cm等等，可以依据实际情况设定合适的周期，在此不做限定)，向语音服务器300发送心跳包；若用户服务器端100在设定的时间周期内接收到语音服务器300发送的连接正常标识，则确认用户服务器端100与语音服务器300连接正常。若用户服务器端100在设定的时间周期内未接收到语音服务器300发送的连接正常标识，则用户服务器端100向语音服务器300重新发送建立长连接请求并接收语音服务器300发送的建立成功标识，以使用户服务器端100与语音服务器300重新建立长连接。

应理解的是，坐席服务器端200也会按设定的时间周期向语音服务器300发送心跳包检测坐席服务器端200与语音服务器300的长连接质量。其具体的检测过程与上述的用户服务器端100与语音服务器300的检测过程相似，为避免重复，在此省略详细描述。

S3，用户服务器端100接听用户的语音。

例如，在本申请一些实施例中，用户服务器端100通过内设的虚拟声卡存储用户的语音。

S4，用户服务器端100按照设定的字节阈值读取所述语音，获取语音信息。

例如，为了保证获取到的语音信息的文字清晰和语速流畅，在本申请一些实施例可以设定单次读取的字节阈值来读取虚拟声卡上的用户的语音，获取用户的语音信息。作为本申请的一个示例，可以设定音频采样频率为8000Hz，PyAudio的缓存块大小为1280帧/次的环境下读取用户的语音。

S5，用户服务器端100将S4的语音信息通过长连接通道发送至语音服务器300。

S6，语音服务器300通过长连接通道将用户服务器端100的语音信息转发至坐席服务器端200。

S7，坐席服务器端200接收到语音信息后，坐席人员会针对该语音信息进行回复，坐席服务器端200获取到客服语音。

例如，在本申请一些实施例中，坐席服务器端200内设的虚拟声卡存储坐席人员的语音，即客服语音。

S8，坐席服务器端200按照设定的字节阈值读取所述客服语音，获取客服语音信息。

例如，为了保证获取到的客服语音信息的文字清晰和语速流畅，在本申请一些实施例可以设定单次读取的字节阈值来读取虚拟声卡上的客服语音，获取客服语音信息。作为本申请的一个示例，可以设定音频采样频率为8000Hz，PyAudio的缓存块大小为1280帧/次的环境下读取客服语音。

S9，坐席服务器端200将S8的客服语音信息通过长连接通道发送至语音服务器300。

S10，语音服务器300通过长连接通道将坐席服务器端200的客服语音信息转发至用户服务器端100。

可以理解的是，如果用户需要与坐席人员进行多轮交互，每轮交互的方法实现流程与S1～S10的流程相同，为了避免重复，在此不做赘述。

S11，用户服务器端100监测到用户挂断电话。

S12，用户服务器端100或者坐席服务器端200向语音服务器300发送断开长连接的请求。

S13，语音服务器300与用户服务器端100和坐席服务器端200均断开长连接。

需要说明的是，在本申请一些实施例中用户服务器端100和坐席服务器端200中的任一端只要向语音服务器300发送断开长连接的请求，用户服务器端100和坐席服务器端200分别可以与语音服务器300断开长连接。

可以理解的是，在本申请一些实施例中采用用户服务器端100和坐席服务器端200交互时与语音服务器300建立长连接，交互结束时断开长连接，可以有效避免由于用户服务器端100和坐席服务器端200与语音服务器300一直处于连接状态导致的语音卡顿和连接质量较差的问题。

另外，在本申请另外一些实施例中，由于语音服务器300的可承载的转发数据的内存有限，可以根据实际的应用场景需求设置多个语音服务器300。当单个语音服务器300的内存达到最大上限时，用户服务器端100和坐席服务器端200可以自动匹配到未达到内存上限的其它的语音服务器300并建立长连接，避免通话出现卡顿的异常情况，保证通话质量和沟通效率。

请参考图6，图6示出了本申请一些实施例提供的一种用户服务器端的组成框图。应理解，该用户服务器端与上述图2方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该用户服务器端的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

图6的用户服务器端包括至少一个能以软件或固件的形式存储于存储器中或固化在用户服务器端中的软件功能模块，该用户服务器端包括：监听模块610，被配置为接听用户的语音；读取模块620，被配置为按照设定的字节阈值读取所述语音，获取语音信息；发送模块630，被配置为将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；信息接收模块640，被配置为接收所述语音服务器发送的所述坐席服务器端的客服语音。

请参考图7，图7示出了本申请一些实施例提供的一种坐席服务器端的组成框图。应理解，该坐席服务器端与上述图3方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该坐席服务器端的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

图7的坐席服务器端包括至少一个能以软件或固件的形式存储于存储器中或固化在坐席服务器端中的软件功能模块，该坐席服务器端包括：接收模块710，被配置为接收语音服务器发送的用户的语音信息；获取模块720，被配置为获取与所述语音信息对应的客服语音；语音读取模块730，被配置为按照设定的字节阈值读取所述客服语音，获取客服语音信息；信息发送模块740，被配置为将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。

请参考图8，图8示出了本申请一些实施例提供的一种语音服务器的组成框图。应理解，该语音服务器与上述图4方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该语音服务器的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

图8的语音服务器包括至少一个能以软件或固件的形式存储于存储器中或固化在语音服务器中的软件功能模块，该语音服务器包括：请求接收模块810，被配置为接收第一服务器端发送的建立长连接请求，其中，所述第一服务器端至少用于接听用户的语音，或者至少用于根据用户的语音信息获取客服语音信息；请求确认模块820，被配置为向所述第一服务器端发送建立成功标识，以使所述第一服务器端与所述语音服务器建立第一长连接；信息转发模块830，被配置为至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端。

本申请的一些实施例还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的程序，其中，所述处理器执行所述程序时可实现图2、图3或者图4中的任意实施例所述的方法。

本申请一些实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现图2、图3或者图4中的任意实施例所述的方法。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种实现实时语音人机对话的方法，其特征在于，应用于用户服务器端，包括：

接听用户的语音；

按照设定的字节阈值读取所述语音，获取语音信息；

将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；

接收所述语音服务器发送的所述坐席服务器端的客服语音。

2.如权利要求1所述的方法，其特征在于，通过如下方法设定所述字节阈值：

基于所述用户服务器端的服务器配置参数，设定所述用户服务器端的缓冲参数，将所述缓存参数作为所述字节阈值。

3.如权利要求1所述的方法，其特征在于，在所述按照设定的字节阈值读取所述语音，获取语音信息之前，所述方法还包括：

向所述语音服务器发送建立长连接的请求；

接收所述语音服务器发送的建立成功标识，以使所述用户服务器端与所述语音服务器建立长连接。

4.如权利要求3所述的方法，其特征在于，在所述用户服务器端与所述语音服务器建立长连接的期间内，所述方法还包括：

按照设定的时间周期，向所述语音服务器发送心跳包；

若在设定的时间周期内接收到所述语音服务器发送的连接正常标识，则确认所述用户服务器端与所述语音服务器连接正常；

若在设定的时间周期内未接收到所述语音服务器发送的连接正常标识，则向所述语音服务器重新发送建立长连接请求并接收所述语音服务器发送的建立成功标识，以使所述用户服务器端与所述语音服务器重新建立长连接。

5.一种实现实时语音人机对话的方法，其特征在于，应用于坐席服务器端，包括：

接收语音服务器发送的用户的语音信息；

获取与所述语音信息对应的客服语音；

按照设定的字节阈值读取所述客服语音，获取客服语音信息；

将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。

6.如权利要求5所述的方法，其特征在于，通过如下方法设定所述字节阈值：

基于所述坐席服务器端的服务器配置参数，设定所述坐席服务器端的缓冲参数，将所述缓存参数作为所述字节阈值。

7.如权利要求5所述的方法，其特征在于，在所述接收语音服务器发送的用户的语音信息之前，所述方法还包括：

向所述语音服务器发送建立长连接的请求；

接收所述语音服务器发送的建立成功标识，以使所述坐席服务器端与所述语音服务器建立长连接。

8.如权利要求7所述的方法，其特征在于，在所述坐席服务器端与所述语音服务器建立长连接的期间内，所述方法还包括：

按照设定的时间周期，向所述语音服务器发送心跳包；

若在设定的时间周期内接收到所述语音服务器发送的连接正常标识，则确认所述坐席服务器端与所述语音服务器连接正常；

若在设定的时间周期内未接收到所述语音服务器发送的连接正常标识，则向所述语音服务器重新发送建立长连接请求并接收所述语音服务器发送的建立成功标识，以使所述坐席服务器端与所述语音服务器重新建立长连接。

9.如权利要求5所述的方法，其特征在于，在所述获取与所述语音信息对应的客服语音之前，所述方法还包括：

根据语音转接率在所述坐席服务器端配备相应的坐席人员；

将所述语音信息分配至对应的所述坐席人员。

10.一种实现实时语音人机对话的方法，其特征在于，应用于语音服务器，包括：

接收第一服务器端发送的建立长连接请求，其中，所述第一服务器端至少用于接听用户的语音，或者至少用于根据用户的语音信息获取客服语音信息；

向所述第一服务器端发送建立成功标识，以使所述第一服务器端与所述语音服务器建立第一长连接；

至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端。

11.如权利要求10所述的方法，其特征在于，所述第一服务器端为用户服务器端，所述第二服务器端为坐席服务器端；

所述方法还包括：建立所述坐席服务器端与所述语音服务器的第二长连接；

其中，

所述至少通过所述第一长连接将来自于所述第一服务器端的信息发送至第二服务器端，包括：

通过所述第一长连接和所述第二长连接将来自于所述用户服务器端的用户的语音发送至所述坐席服务器端，以使所述坐席服务器端获取所述语音。

12.如权利要求10所述的方法，其特征在于，所述第一服务器端为坐席服务器端，且所述第二服务器端为用户服务器端；

所述方法还包括：建立所述用户服务器端与所述语音服务器的第二长连接；

其中，

通过所述第一长连接和所述第二长连接将来自于所述坐席服务器端的客服语音发送至所述用户服务器端，以使所述用户服务器端获取所述客服语音。

13.如权利要求10所述的方法，其特征在于，在所述第一服务器端与所述语音服务器建立第一长连接的期间内，所述方法还包括：

若在设定的时间周期内接收到所述第一服务器端发送的心跳包，则向所述第一服务器端发送连接正常标识，其中，所述连接正常标识用于表征所述语音服务器与所述第一服务器端网络连接正常；

若在设定的时间周期内未接收到所述第一服务器端发送的心跳包，则接收所述第一服务器端重新发送的建立长连接请求并向所述第一服务器端发送建立成功标识，以使所述语音服务器与所述第一服务器端重新建立长连接。

14.一种实现实时语音人机对话的系统，其特征在于，包括：用户服务器端、语音服务器以及坐席服务器端，其中，

所述语音服务器与所述用户服务器端建立第一长连接，且与所述坐席服务器端建立第二长连接；

所述用户服务器端，被配置为：

接听用户的语音；按照设定的字节阈值读取所述语音，获取语音信息；通过所述第一长连接将所述语音信息发送至语音服务器，其中，所述语音服务器将所述语音信息转发至坐席服务器端，以使所述坐席服务器端获取所述语音；接收所述语音服务器发送的所述坐席服务器端的客服语音；

所述坐席服务器端，被配置为：

接收语音服务器发送的用户的语音信息；获取与所述语音信息对应的客服语音；按照设定的字节阈值读取所述客服语音，获取客服语音信息；通过所述第二长连接将所述客服语音信息发送至所述语音服务器，其中，所述语音服务器将所述客服语音信息转发至用户服务器端，以使所述用户服务器端获取所述客服语音。