CN111885341A

CN111885341A - 视频通话过程语音采集方法、装置、计算机设备及介质

Info

Publication number: CN111885341A
Application number: CN202010728116.2A
Authority: CN
Inventors: 余强
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-03

Abstract

本发明公开了一种视频通话过程语音采集方法、装置、计算机设备及介质，该方法包括基于视频通话请求创建用户终端和虚拟形象平台之间的与终端ID关联的专用通信通道；接收用户终端的通话媒体流数据，将目标坐席ID和终端ID关联存储，获取与音频媒体流数据对应的响应话术文本；将响应话术文本和目标坐席ID发送给虚拟形象平台；与媒体流处理平台建立MRCP连接，将响应话术文本关联的目标坐席ID发送给媒体流处理平台；接收到媒体流处理平台发送的目标坐席ID对应的目标虚拟坐席的话术播报结束通知，则关闭与媒体流处理平台的MRCP连接，根据目标坐席ID启动语音识别平台采集音频媒体流数据，重复执行接收用户终端生成的通话媒体流数据，以排除杂音，准确收音。

Description

视频通话过程语音采集方法、装置、计算机设备及介质

技术领域

本发明涉及通信技术领域，尤其涉及一种视频通话过程语音采集方法、装置、计算机设备及介质。

背景技术

随着技术的不断发展，针对媒体资源处理的协议亦在不断地规划化，利用规范的媒体资源处理协议可以实现人机对话的场景，即视频通话系统中实现人机视频通话以便用户与虚拟坐席实现面对面交谈，例如，MRCP协议就是针对媒体资源处理的标准协议。其中，MRCP是指Media Resource Control Protocol，即媒体资源控制协议，是一种通讯协议，用于语音服务器向用户终端提供各种语音服务，例如语音识别和语音合成等，依赖于SIP协议、TCP/IP协议等。

在基于MRCP v2协议的视频通话系统使用时，由于对话过程中所使用的协议是MRCPv2协议，控制平台与虚拟形象平台不能使用HTTP接口回调，使得控制平台无法知道虚拟坐席播报结束的时间，现有技术中采用的是设置固定的时间开始收集用户的语音数据，这种方法所采集到的语音数据包含了用户和虚拟坐席的语音，不利于后续的语音识别，严重影响用户与虚拟坐席对话的准确性。

发明内容

本发明实施例提供一种视频通话过程语音采集方法、装置、计算机设备及存储介质，以解决基于MRCP v2协议的视频通话系统中无法准确采集用户终端的当前语音数据的问题。

一种视频通话过程语音采集方法，包括：

获取用户终端发送的携带终端ID的视频通话请求，基于所述视频通话请求创建用户终端和虚拟形象平台之间的与所述终端ID关联的专用通信通道，所述虚拟形象平台包括原始虚拟坐席和与所述原始虚拟坐席对应的原始坐席ID；

接收所述用户终端的通话媒体流数据，所述通话媒体流数据包括目标坐席ID、音频媒体流数据和终端ID，将所述目标坐席ID和所述终端ID关联存储，获取与所述音频媒体流数据对应的响应话术文本；

将所述响应话术文本和所述目标坐席ID发送给虚拟形象平台，将与所述目标坐席ID相匹配的所述原始坐席ID对应的所述原始虚拟坐席确定为目标虚拟坐席，以使所述目标虚拟坐席通过所述专用通信通道播报所述响应话术文本对应的响应语音数据；

与所述媒体流处理平台建立MRCP连接，将所述响应话术文本关联的所述目标坐席ID发送给所述媒体流处理平台；

若接收到媒体流处理平台发送的所述目标坐席ID对应的目标虚拟坐席的话术播报结束通知，则关闭与所述媒体流处理平台的MRCP连接，根据所述目标坐席ID启动语音识别平台采集音频媒体流数据。

一种视频通话过程语音采集装置，包括：

专用通信通道创建模块，用于获取用户终端发送的携带终端ID的视频通话请求，基于所述视频通话请求创建用户终端和虚拟形象平台之间的与所述终端ID关联的专用通信通道，所述虚拟形象平台包括原始虚拟坐席和与所述原始虚拟坐席对应的原始坐席ID；

响应话术文本获取模块，用于接收所述用户终端的通话媒体流数据，所述通话媒体流数据包括目标坐席ID、音频媒体流数据和终端ID，将所述目标坐席ID和所述终端ID关联存储，获取与所述音频媒体流数据对应的响应话术文本；

响应语音数据播报模块，用于将所述响应话术文本和所述目标坐席ID发送给虚拟形象平台，将与所述目标坐席ID相匹配的所述原始坐席ID对应的所述原始虚拟坐席确定为目标虚拟坐席，以使所述目标虚拟坐席通过所述专用通信通道播报所述响应话术文本对应的响应语音数据；

MRCP连接建立模块，用于与所述媒体流处理平台建立MRCP连接，将所述响应话术文本关联的所述目标坐席ID发送给所述媒体流处理平台；

MRCP连接关闭模块，用于若接收到媒体流处理平台发送的所述目标坐席ID对应的目标虚拟坐席的话术播报结束通知，则关闭与所述媒体流处理平台的MRCP连接，根据所述目标坐席ID启动语音识别平台采集音频媒体流数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述视频通话过程语音采集方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述视频通话过程语音采集方法的步骤。

上述视频通话过程语音采集方法、装置、计算机设备及存储介质，获取用户终端发送的携带终端ID的视频通话请求，基于所述视频通话请求创建用户终端和虚拟形象平台之间的与所述终端ID关联的专用通信通道，该专用通信通道中没有其他用户终端的干扰，并提高了通信速度，确保通信顺畅，避免出现两个用户终端同时与所述虚拟形象平台创建联系时，造成混淆。接收所述用户终端的通话媒体流数据，所述通话媒体流数据包括目标坐席ID、音频媒体流数据和终端ID，将所述目标坐席ID和终端ID关联存储，获取与所述音频媒体流数据对应的响应话术文本，将所述目标坐席ID和终端ID关联存储以便控制平台后续启动语音视频平台采集终端ID对应的用户的音频媒体流数据。将所述响应话术文本和所述目标坐席ID发送给虚拟形象平台，以使与所述目标坐席ID对应的目标虚拟坐席通过所述专用通信通道播报所述响应话术文本对应的响应语音数据，以告知媒体流处理平台当前进行通话的是目标坐席ID对应的目标虚拟坐席与所述终端ID对应的用户终端。与所述媒体流处理平台建立MRCP连接，将所述响应话术文本关联的所述目标坐席ID发送给所述媒体流处理平台，由于媒体流处理平台可以接收虚拟形象平台的目标虚拟坐席的话术播报结束通知，控制平台与媒体流处理平台建立MRCP连接，以便后续控制平台接收由媒体流处理平台发送的话术播报结束通知。若接收到媒体流处理平台发送的所述目标坐席ID对应的目标虚拟坐席的话术播报结束通知，则关闭与所述媒体流处理平台的MRCP连接，根据所述目标坐席ID启动语音识别平台采集当前通话媒体流数据，可以确保收集到音频媒体流数据仅采集了用户的声音，不存在目标虚拟坐席等杂音。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中视频通话过程语音采集方法的一应用环境示意图；

图2是本发明一实施例中视频通话过程语音采集方法的一流程图；

图3是本发明一实施例中视频通话过程语音采集方法的另一流程图；

图4是本发明一实施例中视频通话过程语音采集方法的另一流程图；

图5是本发明一实施例中视频通话过程语音采集方法的另一流程图；

图6是本发明一实施例中视频通话过程语音采集方法的另一流程图；

图7是本发明一实施例中视频通话过程语音采集方法的另一流程图；

图8是本发明一实施例中视频通话过程语音采集装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的视频通话过程语音采集方法，该视频通话过程语音采集方法可应用如图1所示的应用环境中。具体地，该视频通话过程语音采集方法应用在视频通话过程语音采集系统中，该视频通话过程语音采集系统包括如图1所示的服务器和与所述服务器连接的用户终端、控制平台、虚拟形象平台、媒体流处理平台和语音识别平台，以实现用户终端、控制平台、虚拟形象平台、媒体流处理平台和语音识别平台之间的通信。其中，用户终端是指与服务器相对应,为客户提供本地服务的程序。用户终端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。虚拟形象平台是用于生成原始虚拟坐席与用户进行交互的平台。控制平台是用于控制媒体流数据交互的平台。媒体流处理平台是用于与控制平台和虚拟形象平台进行交互，并传递信息的平台。语音识别平台是用于采集用户的音频媒体流数据的平台。

在一实施例中，如图2所示，提供一种视频通话过程语音采集方法，该方法应用在图1中的服务器，包括控制平台执行的如下步骤：

S201：获取用户终端发送的携带终端ID的视频通话请求，基于视频通话请求创建用户终端和虚拟形象平台之间的与终端ID关联的专用通信通道，虚拟形象平台包括原始虚拟坐席和与原始虚拟坐席对应的原始坐席ID。

其中，终端ID是用于唯一识别用户终端的标识，终端ID可以是用户终端的IP地址、用户登录名称和手机号码等。

视频通话请求是指用户终端发起的，希望与虚拟形象平台进行视频通话的请求，以便用户观看直播或者办理业务等。该视频通信请求是请求建立用户终端与虚拟形象平台之间的专用通信通道的携带有终端ID的HTTP协议。其中，HTTP协议即超文本传输协议，是一个基于请求与响应模式的、无状态的、应用层的协议。

虚拟形象平台是指用于生成原始虚拟坐席与用户进行视频通话的平台，通过虚拟形象平台可以为用户提供快速且便捷的服务。原始虚拟坐席是指通过AI技术产生虚拟的形象，与用户进行面对面交互的坐席，例如，原始虚拟坐席可以是虚拟的客服或者虚拟的主播等。本实施例中，虚拟形象平台上多个原始虚拟坐席，每一原始虚拟坐席对应有原始坐席ID和该原始虚拟坐席可以处理的业务类型，用户在虚拟形象平台上根据自己的需求或者喜好选择对应的原始虚拟坐席，以便为用户提供不同的业务帮助，将原始虚拟坐席对应的原始坐席ID作为目标坐席ID发动给控制平台，以便控制平台将该目标坐席ID发送给虚拟形象平台，从而启动目标虚拟坐席与用户进行视频通话。

专用通信通道是指通过视频通话请求连接起用户终端与虚拟形象平台的通信通道。该专用通信通道与终端ID关联，可以确保该专用通信通道是终端ID对应的用户终端与虚拟形象平台唯一连接通道，该专用通信通道中没有其他用户终端的干扰，可以提高通信速度，确保通信顺畅，避免出现两个用户终端同时与虚拟形象平台创建联系时，造成混淆。

具体地，用户在用户终端上通过点击网络上的虚拟形象平台的链接地址或者在用户终端上通过点击应用程序的虚拟形象平台的链接地址，生成建立专用通信通道请求，并发送给控制平台，以便控制平台接收用户的通话媒体流数据，并对其中的音频媒体流数据发送给语音识别平台进行识别，确定与音频媒体流数据对应的响应话术文本，控制平台根据链接地址建立用户终端和虚拟形象平台之间的专用通信通道，以使虚拟形象平台显示在用户终端上，实现用户与目标虚拟坐席面对面交谈。

S202：接收用户终端的通话媒体流数据，通话媒体流数据包括目标坐席ID、音频媒体流数据和终端ID，将目标坐席ID和终端ID关联存储，获取与音频媒体流数据对应的响应话术文本。

其中，通话媒体流数据是指用户终端与虚拟形象平台的专用通信通道创建后，实时采集用户的音频媒体流数据的所形成的数据。音频媒体流数据是用户用于确认用户终端是否与虚拟形象平台连接成功的数据，例如，音频媒体流数据可以是“你好”、和“你好，001”等语音数据。目标坐席ID是用于唯一识别目标虚拟坐席的标识，例如，目标坐席ID可以是坐席001。目标虚拟坐席是指用户在虚拟形象平台上根据自己的需求或者喜好选择对应的虚拟坐席。

响应话术文本是指对回复音频媒体流数据的文本，形成用户与目标虚拟坐席一问一答的视频通话过程。例如，响应话术文本可以是“你好”等打招呼的话术文本。需要说明的是，此时的通话媒体流数据中的音频媒体流数据用户用于与虚拟形象平台的目标虚拟坐席打招呼的语音。

具体地，当建立专用通信通道时，则将虚拟形象平台显示在用户终端的显示界面上，用户在虚拟形象平台上根据自己的需求或者喜好选择对应的原始虚拟坐席，将原始虚拟坐席对应的原始坐席ID作为目标坐席ID发动给控制平台，以便控制平台将该目标坐席ID发送给虚拟形象平台，从而启动目标虚拟坐席与用户进行视频通话，控制平台将目标坐席ID和终端ID关联存储，以便后续将目标坐席ID发送给媒体流处理平台，并在接收到媒体流处理平台的话术播报结束通知时，启动语言识别平台采集终端ID对应的用户终端的用户的音频媒体流数据，确定目标虚拟坐席后，用户开始与目标虚拟坐席讲话，后续通过目标虚拟坐席对响应话术文本对应的响应语音数据进行播报。

S203：将响应话术文本和目标坐席ID发送给虚拟形象平台，将与目标坐席ID相匹配的原始坐席ID对应的原始虚拟坐席确定为目标虚拟坐席，以使目标虚拟坐席通过专用通信通道播报响应话术文本对应的响应语音数据。

其中，响应语音数据是指基于响应话术文本生成的语音数据，即目标虚拟坐席需要通过专用通信通道向用户终端播报的语音数据。

具体地，将响应话术文本和目标坐席ID发送给虚拟形象平台，虚拟形象平台采用TTS技术将响应话术文本转化为响应语音数据，以便与目标坐席ID对应的目标虚拟坐席通过与专用通信通道播报响应语音数据，实现用户与目标虚拟坐席面对面通话。其中，TTS技术是指语音合成技术，是将文本转化为语音输出的过程。

S204：与媒体流处理平台建立MRCP连接，将响应话术文本关联的目标坐席ID发送给媒体流处理平台。

具体地，控制平台将响应话术文本发送给虚拟形象平台后，控制平台就与媒体流处理平台建立MRCP连接，即控制平台发送建立MRCP连接的邀请给媒体流处理平台，其中，该建立MRCP连接的邀请是通过SIP协议发送的邀请。媒体流处理平台接收到建立MRCP连接的邀请并返回与邀请相对应的响应信息，确认控制平台和媒体流处理平台创建连接，其中，该响应信息是通过SIP协议发送的。控制平台也发送确定信息给媒体流处理平台，确认控制平台和媒体流处理平台创建连接。然后，控制平台发送携带有目标坐席ID的消息给媒体流处理平台，以告知媒体流处理平台当前进行通话的是目标坐席ID对应的目标虚拟坐席与终端ID对应的用户终端，后续媒体流处理平台接收到目标虚拟坐席的话术播报结束通知时，则可将该话术播报结束通知发送给控制平台，以便控制平台启动语音识别平台进行采集音频媒体流数据，实现在虚拟形象平台播报响应语音数据结束之后及时采集音频媒体流数据，并生成通话媒体流数据，解决现有技术地固定的时间收集到的语音数据不仅包含用户的音频媒体流数据、还包括虚拟坐席的响应语音数据和其他杂音的问题。可以理解地，若语音识别平台采集到的存在杂音的音频媒体流数据将导致后续生成的响应话术文本不准确，使得用户与虚拟坐席的交互不成功。

S205：若接收到媒体流处理平台发送的目标坐席ID对应的目标虚拟坐席的话术播报结束通知，则关闭与媒体流处理平台的MRCP连接，根据目标坐席ID启动语音识别平台采集音频媒体流数据。

其中，话术播报结束通知是指目标虚拟坐席的响应语音数据播报结束的通知。本示例中，虚拟形象平台与媒体流处理平台通过通信连接，虚拟形象平台通过HTTP协议将携带有目标坐席ID的话术播报结束通知回调给媒体流处理平台，媒体流处理平台将话术播报结束发送给控制平台，从而使得控制平台知道目标坐席ID的话术播报结束通知，解决由于对话过程中所使用的协议是MRCPv2协议，控制平台与虚拟形象平台不能使用HTTP接口回调使得控制平台不能确定目标虚拟坐席的话术播报结束的时间的问题。其中，语音识别平台是指用于采集音频媒体流数据，并将音频媒体流数据转化为对应的文本的平台，以便后续生成回复音频媒体流数据的响应话术文本。

具体地，当媒体流处理平台接收到虚拟形象平台回调的目标坐席ID对应的目标虚拟坐席的话术播报结束通知，此时，控制平台关闭与媒体流处理平台的MRCP连接。可以理解地，一次对话结束时，则重复执行步骤S202-S205，因此，在同一次视频通话中，会重复建立控制平台与媒体流处理平台的MRCP连接，即建立一次MRCP连接则识别一次音频媒体流数据，直到在预设时间段内，没有接收到所述用户终端生成的通话媒体流数据，则断开用户终端和虚拟形象平台之间的专用通信通道。实现用户与目标虚拟坐席一问一答的面对面交谈，并将目标坐席ID对应的目标虚拟坐席的话术播报结束通知发送给媒体流处理平台，以使媒体流处理平台将语音播报结束通知发送给控制平台，以便后续控制平台启动语音识别平台对于目标坐席关联的终端ID对应的用户终端进行实时采集音频媒体流数据，确保可以准确地收集用户终端的语音数据。控制平台根据接收到的话术播放结束通知之后，控制语音识别平台采集音频媒体流数据，实现准确收音的效果，可解决现有技术中，由于无法知道虚拟坐席播报结束的时间，通过设定固定时间收集用户终端的语音数据，而导致所收集到的语音数据包含有虚拟坐席的响应播报语音等杂音，对后续进行语音识别生成响应话术文本具有较大的干扰。

本示例中，控制平台通过目标坐席ID可以确定与目标虚拟坐席进行通话的终端ID对应的用户终端，然后，启动语音识别平台实时采集与终端ID对应的用户终端生成的音频媒体流数据，以便基于音频媒体流数据生成对应的响应话术文本。可以理解地，本实施例在目标虚拟坐席播报结束后才启动语音识别平台采集音频媒体流数据，可以确保收集到音频媒体流数据仅采集用户的声音，不存在目标虚拟坐席的播报声音等杂音，有效地解决了现有技术中由于无法确定虚拟坐席说话结束的时间，而导致将虚拟坐席的语音数据与用户终端的语音数据一起采集，以使采集到的音频媒体流数据中存在杂音，对进行语音识别生成响应话术文本具有较大的干扰的问题。

本实施例所提供的视频通话过程语音采集方法中，获取用户终端发送的携带终端ID的视频通话请求，基于视频通话请求创建用户终端和虚拟形象平台之间的与终端ID关联的专用通信通道，该专用通信通道中没有其他用户终端的干扰，并提高了通信速度，确保通信顺畅，避免出现两个用户终端同时与虚拟形象平台创建联系时，造成混淆。接收用户终端的通话媒体流数据，通话媒体流数据包括目标坐席ID、音频媒体流数据和终端ID，将目标坐席ID和终端ID关联存储，获取与音频媒体流数据对应的响应话术文本，将目标坐席ID和终端ID关联存储以便控制平台后续启动语音视频平台采集终端ID对应的用户的音频媒体流数据。将响应话术文本和目标坐席ID发送给虚拟形象平台，以使与目标坐席ID对应的目标虚拟坐席通过专用通信通道播报响应话术文本对应的响应语音数据，以告知媒体流处理平台当前进行通话的是目标坐席ID对应的目标虚拟坐席与终端ID对应的用户终端。与媒体流处理平台建立MRCP连接，将响应话术文本关联的目标坐席ID发送给媒体流处理平台，由于媒体流处理平台可以接收虚拟形象平台的目标虚拟坐席的话术播报结束通知，控制平台与媒体流处理平台建立MRCP连接，以便后续控制平台接收由媒体流处理平台发送的话术播报结束通知。若接收到媒体流处理平台发送的目标坐席ID对应的目标虚拟坐席的话术播报结束通知，则关闭与媒体流处理平台的MRCP连接，根据目标坐席ID启动语音识别平台采集当前通话媒体流数据，可以确保收集到音频媒体流数据仅采集了用户的声音，不存在目标虚拟坐席等杂音。

在一实施例中，如图3所示，步骤S203，即获取与音频媒体流数据对应的响应话术文本，包括：

S301：启动语音识别平台识别音频媒体流数据，将音频数据转化成用户请求文本。

其中，用户请求文本是指与将音频媒体流数据转化为文字所形成的文本。

具体地，控制平台与语音识别平台通过MRCP协议连接，以便控制平台通知语音识别平台采集用户终端的通话媒体流数据，使用ASR技术将通话媒体流数据快速转化为对应的用户请求文本。本实施例，通过ASR技术将通话媒体流数据转化为用户请求文本，具有快速、高效的特点。其中，ASR技术是Automatic Speech Recognition技术的缩写，意为自动语音识别技术，ASR技术是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

S302：接收语音识别平台发送的用户请求文本，采用响应话术模型对用户请求文本进行识别，生成与用户请求文本对应的响应话术文本。

具体地，语音识别平台将生成的用户请求文本发送给控制平台，控制平台根据用户请求文本中的问题或者关键字生成发送给虚拟形象平台进行播报的响应话术文本，为实现虚拟形象平台与用户实时通话提供技术支持，节省人力资源。

本实施例所提供的视频通话过程语音采集方法，启动语音识别平台识别音频媒体流数据，将音频媒体流数据转化成对应的用户请求文本，具有快速、高效的特点，为实现虚拟形象平台与用户实时通话提供技术支持。采用响应话术模型生成与用户请求文本对应的响应话术文本，为实现虚拟形象平台与用户实时通话提供技术支持，节省人力资源。

在一实施例中，如图4所示，步骤S302，即采用响应话术模型对用户请求文本进行识别，生成与用户请求文本对应的响应话术文本，包括：

S401：采用关键字匹配算法对用户请求文本进行关键字提取，获取文本关键字。

其中，关键字匹配算法包括但不限于朴素匹配算法、哈希检索算法和KMP算法等。文本关键字是指用户请求文本中用户说的关键的文字。

具体地，控制平台采用关键字匹配算法对预设关键字与用户请求文本中的文字进行匹配，将用户请求文本中所有与预设关键字相匹配的文字，确定为文本关键字。例如，预设关键字可以是“使用规则”、“地址”、“办理业务”和“使用期限”等。本实施例中，采用关键字匹配算法可以快速地获取文本关键字。

S402：将文本关键字输入预先训练好的响应话术模型，生成与用户请求文本对应的响应话术文本。

其中，响应话术模型是用于自动化生成响应话术文本的模型，该响应话术模型可以根据文本关键字确定与文本关键字对应的话术。本实施例中，将文本关键字输入响应话术模型中，即可生成与用户请求文本对应的响应话术文本，效率较高。

本实施例所提供的视频通话过程语音采集方法，采用关键字匹配算法对用户请求文本进行关键字提取，获取文本关键字，采用关键字匹配算法可以快速地获取文本关键字，确保用户与目标虚拟坐席交互顺畅。将文本关键字输入预先训练好的响应话术模型，生成与用户请求文本对应的响应话术文本，效率较高。

在一实施例中，如图5所示，在步骤S202之前，即在接收用户终端生成的通话媒体流数据之前，视频通话过程语音采集方法还包括：

S501：在专用通信通道创建之后的预设时间段内，判断是否接收到语音识别平台采集用户终端的通话媒体流数据。

其中，预设时间段是指预先设定的时间段，例如，预设时间段可以是30秒和1分钟等。

具体地，判断预设时间段内是否接收到语音识别平台采集用户终端的通话媒体流数据，以便根据实际情况进行相应处理，避免出现用户断线仍占用通信信道的问题。

S502：若在预设时间段内，接收到用户终端生成的通话媒体流数据，则触发将目标坐席ID和终端ID关联存储，获取与音频媒体流数据对应的响应话术文本。

具体地，在预设时间段内接收到用户终端生成的通话媒体流数据，则说明用户在线，此时，控制平台将目标坐席ID和终端ID关联存储，以便后续控制平台根据目标坐席ID确定对应的终端ID，同时控制平台可以根据通话音频媒体流数据获取对应的响应话术文本，并发送响应话术文本给虚拟形象平台，以便后续目标虚拟坐席与用户进行交谈。

S503：若在预设时间段内，没有接收到用户终端生成的携带终端ID的通话媒体流数据，则断开用户终端和虚拟形象平台之间的专用通信通道。

可以理解地，若在预设时间段内，没有获取用户终端生成的携带终端ID的通话媒体流数据，则说明用户可能是暂时想看虚拟直播或者不需要办理业务，则断开用户终端和虚拟形象平台之间的专用通信通道，以合理利用通信资源，避免用户断线后占用通信资源。

本实施例所提供的视频通话过程语音采集方法，在专用通信通道创建之后的预设时间段内，若接收到用户终端生成的通话媒体流数据，则触发将目标坐席ID和终端ID关联存储，获取与音频媒体流数据对应的响应话术文本，以便后续目标虚拟坐席与用户进行交谈。若没有接收到用户终端生成的携带终端ID的通话媒体流数据，则断开用户终端和虚拟形象平台之间的专用通信通道，以合理利用通信资源，避免用户断线后占用通信资源。

在一实施例中，步骤S206，即将响应话术文本关联的目标坐席ID发送给媒体流处理平台，包括：控制平台生成携带有目标坐席ID的MRCP协议报文，将MRCP协议报文进行封装并发送给媒体流处理平台，以使媒体流处理平台获取MRCP协议报文所携带的目标坐席ID。

其中，MRCP协议报文是指包含有目标坐席ID的信令信息。MRCP协议报文是控制平台用来通知媒体流处理平台目标坐席ID，以便后续接收到虚拟形象平台发送的目标坐席ID对应的目标虚拟坐席的话术播报结束通知时，媒体流处理平台将话术播报结束通知发送给控制平台，控制平台及时启动语音识别平台采集通话媒体流数据。

控制平台将包含有目标坐席ID的MRCP协议报文进行封装，以便媒体流处理平台可以识别MRCP协议报文中的目标坐席ID，以使媒体流处理平台在接收到目标坐席ID对应的目标虚拟坐席播报结束，进而利用MRCP协议发送话术播报结束通知给控制平台，以通知控制平台该目标坐席ID对应的目标虚拟坐席播报结束。由于媒体流处理平台可以与虚拟形象平台连接通过HTTP连接，媒体流处理平台与控制平台可以通过MPCR连接，当虚拟形象平台的目标虚拟坐席播报结束对应的响应语音数据，将携带有目标坐席ID的话术播报结束通知发送给媒体流处理平台，即媒体流处理平台可以回调HTTP得知目标坐席ID对应的目标虚拟坐席播报结束，进而利用MRCP协议发送话术播报结束通知给控制平台，以通知控制平台目标坐席ID对应的目标虚拟坐席播报结束，以便控制平台准确知道目标虚拟坐席播报结束的时间，并启动语音识别平台采集与目标坐席ID对应的终端ID对应的音频媒体流数据。从而解决了现有技术中，控制平台无法获知目标虚拟坐席播报结束的准确时间，而设定固定的时间采集用户终端的音频媒体流数据，造成将目标虚拟坐席的声音收集进去的问题，即造成了杂音，影响后续的识别，使得智能交互效果不佳的问题。

具体地，在控制平台与媒体流处理平台的交互过程中，控制平台通过发送携带有目标坐席ID的MRCP协议报文给媒体流处理平台，媒体流处理平台通过解析MRCP协议报文，以确定MRCP协议报文中坐席ID，当媒体流处理平台接收到虚拟形象平台的坐席ID是目标坐席ID时，则说明目标坐席ID对应的目标虚拟坐席播报结束并通知控制平台，确保后续可以收集到仅包含用户的音频媒体流数据。

在一实施例中，如图6所示，提供一种视频通话过程语音采集方法，该方法应用在图1中的服务器，包括虚拟形象平台执行的如下步骤：

S601：创建用户终端和虚拟形象平台之间的与终端ID关联的专用通信通道。

具体地，用户在用户终端上通过点击网络上的虚拟形象平台的链接地址或者在用户终端上通过点击应用程序的虚拟形象平台的链接地址，生成请求建立专用通信通道的携带有终端ID的HTTP协议，即形成视频通信请求给控制平台。控制平台根据视频通话请求中的链接地址将请求建立专用通信通道的HTTP协议给虚拟形象平台，以便为虚拟形象平台和用户终端建立专用通信通道，在用户终端上显示虚拟形象平台，以实现用户与虚拟坐席智能面谈。

S602：接收响应话术文本，基于响应话术文本获取响应语音数据，控制目标虚拟坐席通过专用通信通道播报响应话术文本对应的响应语音数据。

具体地，将响应话术文本和目标坐席ID发送给虚拟形象平台，虚拟形象平台采用TTS技术将响应话术文本转化为响应语音数据，以便用户与目标坐席ID对应的目标虚拟坐席通过与专用通信通道播报响应语音数据，以实现用户与虚拟坐席进行面对面通话。

S603：在响应语音数据播报结束时，生成携带目标坐席ID的话术播报结束通知，将话术播报结束通知发送给媒体流处理平台。

具体地，虚拟形象平台通过调用HTTP协议将话术播报结束通知发送给媒体流处理平台，以使媒体流处理平台将话术播报结束通知发送给控制平台，以使控制平台了解目标坐席ID对应的目标虚拟坐席播报结束，解决了现有技术中，由于MRCPv2协议在收音这个过程中不能使用HTTP接口，使得控制平台无法确定目标虚拟坐席播报结束的时间。

本实施例所提供的视频通话过程语音采集方法，创建用户终端和虚拟形象平台之间的与终端ID关联的专用通信通道，在用户终端上显示虚拟形象平台，以实现用户与虚拟坐席智能面谈。接收响应话术文本，基于响应话术文本获取响应语音数据，控制目标虚拟坐席通过专用通信通道播报响应话术文本对应的响应语音数据，以实现用户与虚拟坐席面对面通话。在响应语音数据播报结束时，生成携带目标坐席ID的话术播报结束通知，将话术播报结束通知发送给媒体流处理平台，以使媒体流处理平台转发给控制平台，使得控制平台了解目标坐席ID对应的目标虚拟坐席播报结束，启动语音识别平台采集目标坐席ID对应的终端ID对应的用户终端的音频媒体流数据。

在一实施例中，如图6所示，步骤S603，即在响应语音数据播报结束时，生成携带目标坐席ID的话术播报结束通知，包括：

S701：启动监控程序对目标虚拟坐席播报响应语音数据进行监控，并生成播报状态标识，播报状态标识包括播报标识和停止标识。

其中，监控程序是用于对虚拟形象平台的目标虚拟坐席的播报状态进行监控的程序，以便了解目标虚拟坐席的播报状态。可以理解地，监控程序可以同时监控虚拟形象平台的多个虚拟坐席的播报状态。

播报状态标识是虚拟坐席播报话术响应文本对应的话术响应语音的状态。播报标识是指表示虚拟坐席在播报响应语音数据的标识。停止标识是指表示虚拟坐席播报响应语音数据已经结束的标识。

S702：若监控程序监控到播报状态标识为停止标识，则生成携带与目标虚拟坐席对应的目标坐席ID的话术播报结束通知。

具体地，当监控到目标虚拟坐席的播报状态标识为停止标识，则说明目标虚拟坐席播报结束，生成携带与目标虚拟坐席对应的目标坐席ID的话术播报结束通知，并发送给媒体流处理平台，以便媒体流处理平台通知控制平台目标虚拟坐席已经播报结束的信息，实现准确地收集用户终端的音频媒体流数据。

本实施例所提供的视频通话过程语音采集方法，启动监控程序对目标虚拟坐席播报响应语音数据进行监控，以便了解目标虚拟坐席的播报状态。当监控程序监控到播报状态标识为停止标识，则生成携带与目标虚拟坐席对应的目标坐席ID的话术播报结束通知，以便媒体流处理平台通知控制平台目标虚拟坐席已经播报结束的信息，并发送给媒体流处理平台，实现准确地收集用户终端的音频媒体流数据。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种视频通话过程语音采集装置，该视频通话过程语音采集装置与上述实施例中视频通话过程语音采集方法一一对应。如图8所示，该视频通话过程语音采集装置包括专用通信通道创建模块801、响应话术文本获取模块802、响应语音数据播报模块803、MRCP连接建立模块804、和MRCP连接关闭模块805。各功能模块详细说明如下：

专用通信通道创建模块801，用于获取用户终端发送的携带终端ID的视频通话请求，基于视频通话请求创建用户终端和虚拟形象平台之间的与终端ID关联的专用通信通道，虚拟形象平台包括原始虚拟坐席和与原始虚拟坐席对应的原始坐席ID。

响应话术文本获取模块802，用于接收用户终端的通话媒体流数据，通话媒体流数据包括目标坐席ID、音频媒体流数据和终端ID，将目标坐席ID和终端ID关联存储，获取与音频媒体流数据对应的响应话术文本。

响应语音数据播报模块803，用于将响应话术文本和目标坐席ID发送给虚拟形象平台，将与目标坐席ID相匹配的原始坐席ID对应的原始虚拟坐席确定为目标虚拟坐席，以使目标虚拟坐席通过专用通信通道播报响应话术文本对应的响应语音数据。

MRCP连接建立模块804，用于与媒体流处理平台建立MRCP连接，将响应话术文本关联的目标坐席ID发送给媒体流处理平台。

MRCP连接关闭模块805，用于若接收到媒体流处理平台发送的目标坐席ID对应的目标虚拟坐席的话术播报结束通知，则关闭与媒体流处理平台的MRCP连接，根据目标坐席ID启动语音识别平台采集音频媒体流数据。

优选地，在判断模块802之后，视频通话过程语音采集装置还包括专用通信通道断开模块。

用通信通道断开模块，用于若在预设时间段内，没有获取到用户终端生成的携带终端ID的通话媒体流数据，则断开用户终端和虚拟形象平台之间的专用通信通道。

优选地，响应话术文本获取模块803，包括：用户请求文本获取单元和响应话术文本生成单元。

用户请求文本获取单元，用于启动语音识别平台识别音频媒体流数据，将音频数据转化成对应的用户请求文本。

响应话术文本生成单元，用于接收语音识别平台发送的用户请求文本，采用响应话术模型对用户请求文本进行识别，生成与用户请求文本对应的响应话术文本。

优选地，响应话术文本生成单元，包括：文本关键字获取子单元和响应话术文本获取子单元。

文本关键字获取子单元，用于采用关键字匹配算法对用户请求文本进行关键字提取，获取文本关键字。

响应话术文本获取子单元，用于将文本关键字输入预先训练好的响应话术模型，生成与用户请求文本对应的响应话术文本。

优选地，在响应话术文本获取模块802之前，视频通话过程语音采集装置还包括：判断模块、触发模块和断开模块。

判断模块，用于在专用通信通道创建之后的预设时间段内，判断是否接收到语音识别平台采集用户终端的通话媒体流数据。

触发模块，用于若在预设时间段内，接收到用户终端生成的通话媒体流数据，则触发将目标坐席ID和终端ID关联存储，获取与音频媒体流数据对应的响应话术文本。

断开模块，用于若在预设时间段内，没有接收到用户终端生成的通话媒体流数据，则断开用户终端和虚拟形象平台之间的专用通信通道。

优选地，MRCP连接建立模块804，包括目标坐席ID获取单元。

目标坐席ID获取单元，用于控制平台生成携带有目标坐席ID的MRCP协议报文，将MRCP协议报文进行封装并发送给媒体流处理平台，以使媒体流处理平台获取MRCP协议报文所携带的目标坐席ID。

优选地，一种视频通话过程语音采集装置，该视频通话过程语音采集装置与上述实施例中视频通话过程语音采集方法一一对应。该视频通话过程语音采集装置包括：专用通信通道创建模块、响应话术文本接收模块和话术播报结束通知生成模块。

各功能模块详细说明如下：

专用通信通道创建模块，用于创建用户终端和虚拟形象平台之间的与终端ID关联的专用通信通道。

响应话术文本接收模块，用于接收响应话术文本，基于响应话术文本获取响应语音数据，控制目标虚拟坐席通过专用通信通道播报响应话术文本对应的响应语音数据。

话术播报结束通知生成模块，用于在响应语音数据播报结束时，生成携带目标坐席ID的话术播报结束通知，将话术播报结束通知发送给媒体流处理平台。

优选地，话术播报结束通知生成模块，包括：监控程序单元和话术播报结束通知生成单元。

监控程序单元，用于启动监控程序对目标虚拟坐席播报响应语音数据进行监控，并生成播报状态标识，播报状态标识包括播报标识和停止标识。

话术播报结束通知生成单元，用于若监控程序监控到播报状态标识为停止标识，则生成携带与目标虚拟坐席对应的目标坐席ID的话术播报结束通知。

关于视频通话过程语音采集装置的具体限定可以参见上文中对于视频通话过程语音采集方法的限定，在此不再赘述。上述视频通话过程语音采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储终端ID和目标坐席ID。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频通话过程语音采集方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中视频通话过程语音采集方法的步骤，例如图2所示的步骤S201-S205，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现视频通话过程语音采集装置这一实施例中的各模块/单元的功能，例如图8所示的执行专用通信通道创建模块801、响应话术文本获取模块802、响应语音数据播报模块803、MRCP连接建立模块804、和MRCP连接关闭模块805的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中视频通话过程语音采集方法的步骤，例如图2所示的步骤S201-S205，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现视频通话过程语音采集装置这一实施例中的各模块/单元的功能，例如图8所示的执行专用通信通道创建模块801、响应话术文本获取模块802、响应语音数据播报模块803、MRCP连接建立模块804、和MRCP连接关闭模块805，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种视频通话过程语音采集方法，其特征在于，包括控制平台执行的如下步骤：

2.如权利要求1所述的视频通话过程语音采集方法，其特征在于，所述获取与所述音频媒体流数据对应的响应话术文本，包括：

启动语音识别平台识别所述音频媒体流数据，将所述音频数据转化成用户请求文本；

接收所述语音识别平台发送的所述用户请求文本，采用响应话术模型对所述用户请求文本进行识别，生成与所述用户请求文本对应的响应话术文本。

3.如权利要求2所述的视频通话过程语音采集方法，其特征在于，所述采用响应话术模型对所述用户请求文本进行识别，生成与所述用户请求文本对应的响应话术文本，包括：

采用关键字匹配算法对所述用户请求文本进行关键字提取，获取文本关键字；

将所述文本关键字输入预先训练好的响应话术模型，生成与所述用户请求文本对应的响应话术文本。

4.如权利要求1所述的视频通话过程语音采集方法，其特征在于，在所述接收所述用户终端的通话媒体流数据之前，所述视频通话过程语音采集方法还包括：

在所述专用通信通道创建之后的预设时间段内，判断是否接收到所述语音识别平台采集所述用户终端的通话媒体流数据；

若在预设时间段内，接收到所述用户终端生成的通话媒体流数据，则触发将所述目标坐席ID和终端ID关联存储，获取与所述音频媒体流数据对应的响应话术文本；

若在预设时间段内，没有接收到所述用户终端生成的通话媒体流数据，则断开用户终端和虚拟形象平台之间的专用通信通道。

5.如权利要求1所述的视频通话过程语音采集方法，其特征在于，所述将所述响应话术文本关联的所述目标坐席ID发送给所述媒体流处理平台，包括：

所述控制平台生成携带有目标坐席ID的MRCP协议报文，将所述MRCP协议报文进行封装并发送给所述媒体流处理平台，以使所述媒体流处理平台获取所述MRCP协议报文所携带的目标坐席ID。

6.一种视频通话过程语音采集方法，其特征在于，包括虚拟形象平台执行的如下步骤：

创建用户终端和虚拟形象平台之间的与所述终端ID关联的专用通信通道；

接收响应话术文本，基于所述响应话术文本获取响应语音数据，控制目标虚拟坐席通过所述专用通信通道播报所述响应话术文本对应的响应语音数据；

在所述响应语音数据播报结束时，生成携带目标坐席ID的话术播报结束通知，将所述话术播报结束通知发送给媒体流处理平台。

7.如权利要求6所述的视频通话过程语音采集方法，其特征在于，所述在所述响应语音数据播报结束时，生成携带目标坐席ID的话术播报结束通知，包括：

启动监控程序对目标虚拟坐席播报所述响应语音数据进行监控，并生成播报状态标识，所述播报状态标识包括播报标识和停止标识；

若所述监控程序监控到所述播报状态标识为停止标识，则生成携带与所述目标虚拟坐席对应的目标坐席ID的话术播报结束通知。

8.一种视频通话过程语音采集装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述视频通话过程语音采集方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频通话过程语音采集方法的步骤。