CN113709402A

CN113709402A - 基于人工智能的音视频对话方法、装置、设备及存储介质

Info

Publication number: CN113709402A
Application number: CN202111012054.6A
Authority: CN
Inventors: 黄良斌
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26
Anticipated expiration: 2041-08-31
Also published as: CN113709402B

Abstract

本申请涉及人工智能技术领域，揭示了一种基于人工智能的音视频对话方法、装置、设备及存储介质，其中方法包括：通过第一聊天客户端响应对话开始请求得到目标浏览器；调用目标浏览器根据目标对话邀请链接加载第一会客厅页面；通过第一会客厅页面，将用户输入的第一音视频数据发送给会议服务端，会议服务端用于将第一音视频数据发送给目标聊天客户端的第二会客厅页面，将第一音视频数据更新到音视频对话数据库中；通过第一会客厅页面，从会议服务端获取与第二会客厅页面对应的第二音视频数据进行展示。采用聊天客户端调用浏览器加载的会客厅页面与会议服务端通信进行音视频对话，将音视频数据发送给会议服务端，有利于企业进行音视频数据的存档。

Description

基于人工智能的音视频对话方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种基于人工智能的音视频对话方法、装置、设备及存储介质。

背景技术

随着公用聊天工具的技术发展，各个公司已经开始利用聊天工具实现公司、员工、客户的三端互联，一方面可以有效地帮助公司管理员工，在灵活打卡、高效会议、离职继承等方面更便捷地进行管理，另一方面辅助员工以企业身份提供客户服务以实现客户触达和客户转化。公用聊天工具虽然开放了语音通话、视频通话、会议、直播等音视频功能，但是无法将音视频数据同步给企业，不利于企业进行音视频数据的存档，采用通用聊天工具进行客户服务无法适用于注重信息存档及安全合规的企业。

发明内容

本申请的主要目的为提供一种基于人工智能的音视频对话方法、装置、设备及存储介质，旨在解决采用通用聊天工具进行客户服务的方法，无法将音视频数据同步给企业，不利于企业进行音视频数据的存档，无法适用于注重信息存档及安全合规的企业的技术问题。

为了实现上述发明目的，本申请提出一种基于人工智能的音视频对话方法，所述方法包括：

通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接；

通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器；

调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面；

通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中；

通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示。

本申请还提出了一种基于人工智能的音视频对话装置，所述装置包括：

请求获取模块，用于通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接；

目标浏览器确定模块，用于通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器；

第一会客厅页面确定模块，用于调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面；

音视频数据上传模块，用于通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中；

音视频数据展示模块，用于通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于人工智能的音视频对话方法、装置、设备及存储介质，其中方法首先通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接，通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器，调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面，然后通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中，通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示，实现了采用聊天客户端调用浏览器加载的会客厅页面与会议服务端通信进行音视频对话，并且将音视频数据发送给会议服务端，有利于企业通过会议服务端进行音视频数据的存档，从而使采用通用聊天工具进行客户服务的方法适用于注重信息存档及安全合规的企业。

附图说明

图1为本申请一实施例的基于人工智能的音视频对话方法的流程示意图；

图2为本申请一实施例的基于人工智能的音视频对话装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种基于人工智能的音视频对话方法，所述方法包括：

S1：通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接；

S2：通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器；

S3：调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面；

S4：通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中；

S5：通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示。

本实施例首先通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接，通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器，调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面，然后通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中，通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示，实现了采用聊天客户端调用浏览器加载的会客厅页面与会议服务端通信进行音视频对话，并且将音视频数据发送给会议服务端，有利于企业通过会议服务端进行音视频数据的存档，从而使采用通用聊天工具进行客户服务的方法适用于注重信息存档及安全合规的企业。

对于S1，用户在所述第一聊天客户端中点击所述目标对话邀请链接，触发所述对话开始请求，触发所述对话开始请求时，将所述目标对话邀请链接作为所述对话开始请求的参数。

所述第一聊天客户端，也就是需要进行音视频对话的聊天工具的客户端。

所述聊天工具的客户端包括但不限于：企业微信的客户端、个人微信的客户端。

所述对话开始请求，是进行音视频对话的请求。

所述目标对话邀请链接包括：会客厅链接地址和会客厅信息。所述会客厅信息包括但不限于：对话主题、对话开始时间、会客厅标识和会客厅密码。会客厅标识可以是会客厅ID、会客厅名称等唯一标识一个会客厅的数据。可以理解的是，用户在所述第一聊天客户端中点击所述会客厅链接地址将触发所述对话开始请求。

对于S2，通过所述第一聊天客户端，在接收到所述对话开始请求时启动浏览器，将启动的浏览器作为目标浏览器。

对于S3，基于WebRtc(源自网页即时通信)技术，通过所述第一聊天客户端调用所述目标浏览器，加载所述目标对话邀请链接的会客厅链接地址，根据会客厅链接地址从会议服务端获取会客厅客户端资源，对会客厅客户端资源进行加载得到安装了会客厅客户端插件的目标浏览器，然后采用安装了会客厅客户端插件的目标浏览器根据所述目标对话邀请链接中的会客厅标识及会客厅密码进行会客厅页面的加载，将加载得到的会客厅页面作为第一会客厅页面。

对于S4，所述会议服务端，是用于进行会议管理的服务端。

通过所述第一会客厅页面调用会客厅客户端插件，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端；所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面；第二会客厅页面用于将收到的所述第一音视频数据进行展示，从而实现了音视频对话。

目标聊天客户端，也就是聊天工具的客户端。

其中，所述会议服务端将所述第一音视频数据更新到音视频对话数据库中，从而实现了对所述第一音视频数据进行备份，有利于注重信息存档及安全合规的企业进行音视频数据的存档，符合了注重信息存档及安全合规的要求。

注重信息存档及安全合规的企业包括但不限于：保险公司、银行。

可以理解的是，第二会客厅页面可以是其他用户通过其他电子设备的第一聊天客户端加载的会客厅页面。

对于S5，通过所述第一会客厅页面，实时从所述会议服务端获取音视频数据作为第二音视频数据，将所述第二音视频数据的视频通过本地设备的屏幕进行展示，将所述第二音视频数据的音频通过本地设备的扬声器进行播放，其中，第二音视频数据是所述第二会客厅页面发送给会议服务端的音视频数据，从而实现了第一会客厅页面和第二会客厅页面之间的音视频对话。

可以理解的是，持续执行步骤S4和步骤S5，直至获取到对话结束请求。

可以理解的是，所述第一聊天客户端可以是配置有会议终端的聊天工具的客户端，也可以没有配置会议终端的聊天工具的客户端。

会议终端，是会议管理的客户端。

在一个实施例中，上述通过第一聊天客户端，获取对话开始请求的步骤之前，还包括：

S11：通过第二聊天客户端调用会议终端，获取对话预约请求，所述对话预约请求携带有对话配置数据；

S12：通过所述会议终端，根据所述对话配置数据生成会客厅预约创建请求，将所述会客厅预约创建请求发送给所述会议服务端；

S13：通过所述会议终端，获取所述会议服务端根据所述对话配置数据发送的所述目标对话邀请链接；

S14：通过所述会议终端，将所述目标对话邀请链接发送给所述第二聊天客户端的消息对话框，其中，所述目标对话邀请链接用于通过所述第二聊天客户端发送给所述目标聊天客户端对应的消息对话框。

本实施例通过第二聊天客户端调用会议终端进行对话预约和目标对话邀请链接的生成，最后通过第二聊天客户端将目标对话邀请链接发送给目标聊天客户端对应的消息对话框，实现了基于通用聊天工具的客户端进行对话预约和目标对话邀请链接的分享，提高了采用通用聊天工具进行客户服务的效率。

对于S11，通过第二聊天客户端调用会议终端，获取用户输入的对话预约请求。

所述对话预约请求，是进行会客厅预约的请求。

所述对话配置数据包括但不限于：对话主题、对话开始时间、客户名称和客户标识。客户标识可以是客户ID，用于唯一标识一个客户。

所述第二聊天客户端，也就是需要进行会议预约的聊天工具的客户端。

其中，所述第二聊天客户端中装载有会议终端。

会议终端，是根据所述第二聊天客户端的应用对接规范开发的第三方应用。会议终端被配置到所述第二聊天客户端的聊天工具栏中。被授权的用户可以在所述第二聊天客户端的会议终端中进行对话预约、音视频对话、对话数据存档、对话总结等功能操作。

可以理解的是，所述会议终端是基于WebRtc技术开发得到的应用。

可以理解的是，第二聊天客户端采用步骤S1至步骤S5描述的加载会客厅页面进行音视频对话。也就是说，第一会客厅页面还可以是用户通过第二聊天客户端加载的会客厅页面，第二会客厅页面还可以是用户通过第二聊天客户端加载的会客厅页面。

对于S12，通过所述会议终端，生成会客厅预约创建请求，在生成所述会客厅预约创建请求时，将所述对话配置数据作为所述会客厅预约创建请求的参数；所述会议终端通过与所述会议服务端的通信连接，将所述会客厅预约创建请求发送给所述会议服务端。

会客厅预约创建请求，是预约创建会客厅的请求。

可以理解的是，所述会议服务端根据所述客厅预约创建请求携带的所述对话配置数据进行会客厅的预约创建及目标对话邀请链接的生成，得到会客厅预约记录和所述目标对话邀请链接。

所述会客厅预约记录包括但不限于：对话主题、对话开始时间、会客厅标识、客户名称、客户标识和对话发起人标识。对话发起人标识是对话预约请求对应的用户标识。

对于S13，所述会议终端通过与所述会议服务端的通信连接，获取所述会议服务端根据所述对话配置数据发送的所述目标对话邀请链接。

对于S14，通过所述会议终端，将所述目标对话邀请链接发送给所述第二聊天客户端的消息对话框，从而将所述目标对话邀请链接同步到了所述第二聊天客户端。通过所述第二聊天客户端与所述目标聊天客户端的通信连接，用户在所述第二聊天客户端的消息对话框中通过分享功能将所述目标对话邀请链接发送给所述第二聊天客户端中的目标用户标识对应的消息对话框；所述目标对话邀请链接将在所述目标用户标识对应的所述目标聊天客户端对应的消息对话框中进行展示。

在一个实施例中，上述通过所述会议终端，根据所述对话配置数据生成会客厅预约创建请求，将所述会客厅预约创建请求发送给所述会议服务端的步骤之后，还包括：

S121：通过所述会议终端，获取所述会议服务端发送的所述会客厅预约记录，根据所述会客厅预约记录更新会客厅预约记录表；

S122：通过所述会议终端，根据所述会客厅预约记录表获取会客厅启动请求，所述会客厅启动请求携带有目标会客厅标识，所述目标会客厅标识与所述目标对话邀请链接中的会客厅标识相同；

S123：通过所述会议终端，将所述会客厅启动请求发送给所述会议服务端，其中，所述会议服务端根据所述会客厅启动请求中的所述目标会客厅标识启动会客厅，得到目标会客厅；

S124：通过所述会议终端，加载所述目标会客厅对应的页面，得到所述会议终端对应的会客厅页面；

所述调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面的步骤，包括：

S12:5：调用所述目标浏览器，根据所述目标对话邀请链接加载所述目标会客厅对应的页面，得到所述第一会客厅页面。

本实施例实现了通过所述会议终端获取会客厅启动请求确定目标会客厅，从而为快速的召开音视频对话的会议提供了支持，进一步提高了采用通用聊天工具进行客户服务的效率。

对于S121，所述会议终端通过与所述会议服务端的通信连接，获取所述会议服务端根据所述会议终端对应的用户标识发送的所述会客厅预约记录，将所述会客厅预约记录更新到所述会议终端的会客厅预约记录表中。

对于S122，用户在所述会议终端的所述会客厅预约记录表中点击目标会客厅标识对应的“发起会议”按钮，以实现一键式启动会客厅；目标会客厅标识对应的“发起会议”按钮被点击时将触发会客厅启动请求，并且将目标会客厅标识作为会客厅启动请求的参数。

对于S123，所述会议终端通过与所述会议服务端的通信连接，将所述会客厅启动请求发送给所述会议服务端，以向所述会议服务端请求启动会客厅；所述会议服务端中接收到所述会客厅启动请求时，将根据所述会客厅启动请求中的所述目标会客厅标识启动会客厅，将创建的会客厅作为目标会客厅，并且生成会客厅启动完成信号。

在另一个实施例中，所述会议服务端可以根据会客厅主动开启条件和所述目标会客厅标识对应的所述会客厅预约记录中的对话开始时间进行会客厅的启动，将启动的会客厅作为所述目标会客厅。比如，所述会客厅主动开启条件为提前10分钟开启，在此举例不做具体限定。

对于S124，所述会议终端通过与所述会议服务端的通信连接，获取所述会议服务端发送的会客厅启动完成信号，根据所述会客厅启动完成信号加载所述目标会客厅对应的页面，将加载的页面作为所述会议终端对应的会客厅页面。从而使用户可以通过所述会议终端对应的会客厅页面与第一会客厅页面、第二会客厅页面进行音视频对话。

对于S125，调用所述目标浏览器，根据所述目标对话邀请链接加载所述目标会客厅对应的页面，将加载得到的页面作为所述第一会客厅页面。

在一个实施例中，上述调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面的步骤，包括：

S31：调用所述目标浏览器，根据所述目标对话邀请链接中的会客厅链接地址生成资源获取请求，将所述资源获取请求发送给所述会议服务端；

S32：调用所述目标浏览器，获取所述会议服务端根据所述资源获取请求发送的会客厅客户端资源；

S33：调用所述目标浏览器，根据所述会客厅客户端资源进行会客厅客户端插件加载；

S34：调用所述目标浏览器执行所述会客厅客户端插件，根据所述目标对话邀请链接中的会客厅标识及会客厅密码进行会客厅页面的加载，得到所述第一会客厅页面。

本实施例调用所述目标浏览器所述目标对话邀请链接加载会客厅客户端插件，然后采用加载了会客厅客户端插件的所述目标浏览器根据会客厅标识及会客厅密码进行会客厅页面的加载，从而实现了自动化的进行会客厅客户端插件的加载和会客厅的加载，减少了客户的操作，提高了用户体验，进一步提高了采用通用聊天工具进行客户服务的效率。

对于S31，调用所述目标浏览器加载所述目标对话邀请链接中的会客厅链接地址，根据会客厅链接地址生成资源获取请求，然后所述目标浏览器通过与所述会议服务端的通信连接，将所述资源获取请求发送给所述会议服务端。

其中，所述会议服务端在收到所述资源获取请求时，通过与所述目标浏览器的通信连接，将所述资源获取请求对应的会客厅客户端资源发送给所述目标浏览器。

所述会客厅客户端资源包括但不限于：音视频模块资源。

所述目标浏览器基于WebRtc技术提供了进行实时语音对话和/或视频对话的API，根据所述会客厅客户端资源进行会客厅客户端插件加载，从而完成了对音视频模块的加载，页面通过调用加载了会客厅客户端插件的所述目标浏览器调用音视频模块进行实时语音对话和/或视频。

对于S32，调用所述目标浏览器，通过与所述会议服务端的通信连接，获取所述会议服务端根据所述资源获取请求发送的会客厅客户端资源。

可以理解的是，所述会客厅客户端资源还包括资源，比如CSS文件、JS文件，在此举例不做具体限定。

对于S33，调用所述目标浏览器，根据所述会客厅客户端资源进行会客厅客户端插件加载，会客厅客户端插件中包括音视频模块(也就是音视频模块资源安装得到的模块)，其中，所述目标浏览器基于WebRtc技术提供了进行实时语音对话和/或视频对话的API，因此所述目标浏览器调用音视频模块进行实时语音对话和/或视频对话。

对于S34，调用所述目标浏览器执行所述会客厅客户端插件，根据所述目标对话邀请链接中的会客厅标识及会客厅密码进行会客厅页面的加载，将加载得到的会客厅页面作为所述第一会客厅页面，其中，在加载的会客厅页面的过程中，通过执行所述会客厅客户端插件的会客厅信息录入模块，在会客厅页面中自动填入会客厅标识及会客厅密码，实现了自动化进行会客厅的加载，减少了用户的操作，提高了用户体验。

在一个实施例中，上述通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端的步骤，包括：

S51：通过所述第一会客厅页面，获取用户输入的待处理的音视频数据；

S52：通过所述第一会客厅页面调用所述会客厅客户端插件，对所述待处理的音视频数据分别进行去噪处理及回声消除处理，得到待编码的音视频数据；

S53：通过所述第一会客厅页面调用所述会客厅客户端插件，获取预设编码模式确定规则；

S54：通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述待编码的音视频数据和所述预设编码模式确定规则进行编码模式确定，得到目标编码模式；

S55：通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述目标编码模式的编码规则，对所述待编码的音视频数据进行编码，得到所述第一音视频数据；

S56：通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述目标编码模式的传输通道标识，将所述第一音视频数据发送给所述会议服务端。

本实施例先对所述待处理的音视频数据分别进行去噪处理及回声消除处理，然后通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述待编码的音视频数据和所述预设编码模式确定规则进行编码模式确定，最后根据确定的编码模式对音视频数据进行编码及将编码后的数据发送给会议服务端，通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述待编码的音视频数据和所述预设编码模式确定规则进行编码模式确定，使确定的编码模式更符合实际需求，提高了音视频对话的流畅性，提高了采用通用聊天工具进行客户服务的效果。

对于S51，通过所述第一会客厅页面调用所述会客厅客户端插件的音视频模块，获取用户通过所述第一会客厅页面所在的电子设备的摄像头和/或麦克风输入的音视频数据，将获取的音视频数据作为待处理的音视频数据。

对于S52，通过所述第一会客厅页面调用所述会客厅客户端插件的音视频模块，对所述待处理的音视频数据先进行去噪处理，得到去噪后的音视频数据，然后对去噪后的音视频数据进行回声消除处理，得到待编码的音视频数据，从而提高了待编码的音视频数据的质量，有利于提高采用通用聊天工具进行客户服务的效果，也有利于提高音视频数据存档的质量。

对于S53，通过所述第一会客厅页面调用所述会客厅客户端插件执行音视频模块，从所述会客厅客户端插件的存储空间中获取预设编码模式确定规则。

其中，预设编码模式确定规则包括：模式确定规则和编码模式。所述模式确定规则包括：数据量范围。

所述数据量范围包括：数据量的开始值和数据量的结束值。数据量，是指音视频数据的大小。

所述编码模式包括：编码规则和传输通道标识。当所述编码规则是窄带编码规则时，传输通道标识可以是窄带标识。当所述编码规则是宽带编码规则时，传输通道标识可以是宽带标识。

可以理解的是，预设编码模式确定规则的所述模式确定规则还可以采用其他规则，比如，所述模式确定规则包括：数据量范围和网络参数范围，在此不做具体限定。

对于S54，通过所述第一会客厅页面调用所述会客厅客户端插件执行音视频模块，根据所述待编码的音视频数据的数据量，在所述预设编码模式确定规则的数据量范围中进行匹配，将匹配到的数据量范围对应的编码模式作为所述目标编码模式。

对于S55，通过所述第一会客厅页面调用所述会客厅客户端插件执行音视频模块，采用所述目标编码模式的编码规则，对所述待编码的音视频数据进行编码，将编码得到的数据作为所述第一音视频数据。

对于S56，通过所述第一会客厅页面调用所述会客厅客户端插件执行音视频模块，采用所述目标编码模式的传输通道标识对应的传输通道，将所述第一音视频数据发送给所述会议服务端。

在一个实施例中，上述调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面的步骤之后，还包括：

S611：通过所述第一会客厅页面，获取屏幕共享请求，将所述屏幕共享请求发送给所述会议服务端，获取所述会议服务端根据所述屏幕共享请求发送的屏幕共享开始信号；

S612：通过所述第一会客厅页面，响应所述屏幕共享开始信号获取预设截屏配置数据；

S613：通过所述第一会客厅页面调用会客厅客户端插件的截屏模块，根据所述预设截屏配置数据进行截屏，得到第i次的截屏图像；

S614：调用所述会客厅客户端插件，获取第i-1次的截屏图像；

S615：调用所述会客厅客户端插件的图像处理模块，根据所述第i次的截屏图像和所述第i-1次的截屏图像进行图像差异数据获取，得到待加密的图像差异数据；

S616：调用所述会客厅客户端插件的对称加密模块，对所述待加密的图像差异数据进行对称加密，得到第i次的图像差异数据和对称加密密钥；

S617：调用所述会客厅客户端插件的非对称加密模块，对所述对称加密密钥进行非对称加密，得到目标加密密钥；

S618：通过所述第一会客厅页面，将所述第i次的图像差异数据和所述目标加密密钥发送给所述会议服务端。

本实施例通过调用会客厅客户端插件的截屏模块进行屏幕共享，并且通过对称加密模块对图像差异数据进行对称加密和通过非对称加密模块对对称加密密钥进行非对称加密，通过传输图像差异数据减少了传输的数据量，提高了屏幕共享的实时性，通过对称加密和非对称加密的结合，提高了屏幕共享的数据的安全性，从而进一步使本申请适用于注重信息存档及安全合规的企业。

对于S611，通过所述第一会客厅页面，获取用户输入的屏幕共享请求；所述第一会客厅页面通过与所述会议服务端的通信连接，将所述屏幕共享请求发送给所述会议服务端，并且获取所述会议服务端根据所述屏幕共享请求发送的屏幕共享开始信号。

其中，所述会议服务端根据所述屏幕共享请求，向处于同一会客厅的各个会客厅页面发送屏幕共享开始信号。

对于S612，通过所述第一会客厅页面调用会客厅客户端插件的截屏模块，在收到所述屏幕共享开始信号时，从会客厅客户端插件的存储空间中获取预设截屏配置数据。

预设截屏配置数据包括但不限于：截屏间隔时长。

对于S613，通过所述第一会客厅页面调用会客厅客户端插件的截屏模块，根据所述预设截屏配置数据进行截屏，将第i次截屏得到的图像作为第i次的截屏图像。

对于S614，调用所述会客厅客户端插件的截屏模块，从缓存中获取第i-1次的截屏图像。

第i-1次的截屏图像，是截屏模块第i-1次截屏得到的图像。

对于S615，调用所述会客厅客户端插件的图像处理模块，从所述第i次的截屏图像中获取与所述第i-1次的截屏图像的图像差异数据，将获取的图像差异数据作为待加密的图像差异数据。

对于S616，调用所述会客厅客户端插件的对称加密模块，对所述待加密的图像差异数据进行对称加密，将加密后的图像差异数据作为第i次的图像差异数据，将对称加密对应的密钥作为对称加密密钥。

对于S617，调用所述会客厅客户端插件的非对称加密模块，对所述对称加密密钥进行非对称加密，将加密得到的数据作为目标加密密钥。

对于S618，所述第一会客厅页面通过与所述会议服务端的通信连接，将所述第i次的图像差异数据和所述目标加密密钥发送给所述会议服务端。

所述会议服务端将所述第i次的图像差异数据和所述目标加密密钥发送给其他会客厅页面，其中，其他会客厅页面，首先将对所述目标加密密钥进行非对称解密，得到解密后的加密密钥，然后采用解密后的加密密钥对所述第i次的图像差异数据进行解密，将解密后的图像差异数据进行视频的差位更新。

可以理解的是，在另一个实施例中，所述调用所述会客厅客户端插件，获取第i-1次的截屏图像的步骤之后，包括：用所述会客厅客户端插件的图像处理模块，根据所述第i次的截屏图像和所述第i-1次的截屏图像进行图像差异数据获取，得到待发送的图像差异数据；通过所述第一会客厅页面，将所述待发送的图像差异数据发送给所述会议服务端。

在一个实施例中，当所述第一聊天客户端配置有会议终端时，所述调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面的步骤之后，还包括：

S71：通过所述第一会客厅页面调用所述会议终端的对话助手，获取实时画像请求；

S72：通过所述对话助手，根据所述实时画像请求携带的画像配置数据从所述会议服务端中获取数据，得到待画像的数据；

S73：通过所述对话助手调用预设用户画像模型，根据所述待画像的数据进行画像，得到目标画像结果；

S74：通过所述对话助手，将所述目标画像结果发送给所述第一会客厅页面；

S75：通过所述第一会客厅页面，将所述目标画像结果进行展示。

本实施例通过会议终端的对话助手对客户进行画像，从而辅助了企业员工进行客户服务，进一步提高了客户服务的效果。

对于S71，通过所述第一会客厅页面调用所述会议终端的对话助手，获取用户输入的实时画像请求。

实时画像请求，是对会客厅中的人员进行人员画像的请求。

对于S72，通过所述对话助手，根据所述实时画像请求携带的画像配置数据从所述会议服务端中获取数据，将获取的数据作为待画像的数据。

画像配置数据包括但不限于：用户标识。用户标识可以是用户名称、用户ID等唯一标识一个用户(可以是员工，也可以是客户)的数据。

待画像的数据包括但不限于：用户基本信息、历史购买产品信息。用户基本信息包括但不限于：用户标识、姓名、年龄。历史购买产品信息包括但不限于：购买时间、产品标识、购买数量、购买金额。产品标识可以是产品名称、产品ID等唯一标识一个产品的数据。

对于S73，通过所述对话助手调用预设用户画像模型，根据所述待画像的数据进行画像，将画像得到的数据作为目标画像结果。

预设用户画像模型，是基于卷积神经网络训练得到的模型，具体训练方法在此不做赘述。

对于S74，通过所述对话助手，将所述目标画像结果发送给与所述对话助手对应的所述第一会客厅页面，为快速的将所述目标画像结果展示给用户提供了基础。

对于S75，通过所述第一会客厅页面，采用预设的画像展示规则，将所述目标画像结果进行展示，从而将目标画像结果展示给用户，实现辅助企业员工进行客户服务。

在一个实施例中，当所述第一聊天客户端配置有会议终端时，通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据的步骤之后，还包括：

S811：通过所述会议终端调用的对话助手，将所述第二音视频数据进行文本转换，得到待分析的文本数据；

S812：通过所述对话助手调用预设客户意图识别模型，对所述待分析的文本数据进行客户意图识别，得到客户意图识别结果；

S813：通过所述对话助手，根据所述客户意图识别结果从话术知识库中获取话术，得到备选话术集合；

S814：通过所述对话助手，采用预设的话术筛选规则，从所述备选话术集合中进行话术筛选，得到目标话术；

S815：通过所述对话助手，将所述目标话术发送给所述第一会客厅页面；

S816：通过所述第一会客厅页面，将所述目标话术进行展示。

本实施例通过对第二音视频数据进行话术匹配，并将匹配到的话术在第一会客厅页面进行展示，有利于企业员工快速有效的进行客户服务，进一步提高了客户服务的效果。

对于S811，通过所述会议终端调用的对话助手，采用ASR技术，对所述第二音视频数据进行语音转换文本，将转换得到的文本作为待分析的文本数据。

ASR技术，语音识别技术。

对于S812，通过所述对话助手调用预设客户意图识别模型，对所述待分析的文本数据进行客户意图识别，将意图识别的结果作为客户意图识别结果。

预设客户意图识别模型，是基于分类模型得到的意图识别模型。

对于S813，通过所述对话助手，根据所述客户意图识别结果在话术知识库中进行话术匹配，将匹配到的各个话术作为备选话术集合。

话术知识库包括：意图集合和话术。

对于S814，通过所述对话助手，采用预设的话术筛选规则，从所述备选话术集合中进行话术筛选，将筛选的话术作为目标话术。目标话术可以有1个，也可以有多个。

预设的话术筛选规则设置为：预设数量的使用频率最高的话术。

对于S815，通过所述对话助手，将各个所述目标话术发送给所述第一会客厅页面，为快速的将各个所述目标话术展示给用户提供了基础。

对于S816，通过所述第一会客厅页面，采用预设的话术展示规则，将各个所述目标话术进行展示，从而将各个所述目标话术展示给用户，实现辅助企业员工进行客户服务。

S821：通过所述会议终端调用对话助手，获取用户专注度分析请求；

S822：通过所述对话助手，根据所述用户专注度分析请求携带的专注度配置数据从所述会议服务端中获取数据，得到待分析的数据；

S823：通过所述对话助手调用预设专注度预测模型，根据所述待分析的数据进行专注度分析，得到专注度预测结果；

S824：通过所述对话助手，将所述专注度预测结果发送给所述第一会客厅页面；

S825：通过所述第一会客厅页面，将所述专注度预测结果进行展示。

本实施例通过会议终端的对话助手对客户进行专注度分析，从而辅助了企业员工进行客户服务，进一步提高了客户服务的效果。

对于S821，通过所述第一会客厅页面调用所述会议终端的对话助手，获取用户输入的用户专注度分析请求。

用户专注度分析请求，是对会客厅中的人员进行专注度分析的请求。

对于S822，通过所述对话助手，根据所述用户专注度分析请求携带的专注度配置数据从所述会议服务端中获取数据，将获取的数据作为待分析的数据。

专注度配置数据包括但不限于：用户标识、分析时间范围。

待分析的数据包括但不限于：用户标识、分析时间范围对应的沟通文本数据。沟通文本数据是会议服务端根据音视频数据中的音频转换得到的文本。

对于S823，通过所述对话助手调用预设专注度预测模型，根据所述待分析的数据进行专注度分析，将专注度分析得到的数据作为专注度预测结果。

预设专注度预测模型，可以从现有技术中选择根据沟通文本进行专注度预测的模型，在此不做赘述。

专注度预测结果，是一个多维向量，用于描述用户对产品的关注度指数和对沟通的关注度指数。关注度指数，体现质量的衡量指标。

对于S824，通过所述对话助手，将所述专注度预测结果发送给与所述对话助手对应的所述第一会客厅页面，为快速的所述专注度预测结果展示给用户提供了基础。

对于S825，通过所述第一会客厅页面，采用预设的专注度展示规则，将所述专注度预测结果进行展示，从而所述专注度预测结果展示给用户，实现辅助企业员工进行客户服务。

参照图2，本申请还提出了一种基于人工智能的音视频对话装置，所述装置包括：

请求获取模块100，用于通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接；

目标浏览器确定模块200，用于通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器；

第一会客厅页面确定模块300，用于调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面；

音视频数据上传模块400，用于通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中；

音视频数据展示模块500，用于通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的音视频对话方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的音视频对话方法。所述基于人工智能的音视频对话方法，包括：通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接；通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器；调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面；通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中；通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于人工智能的音视频对话方法，包括步骤：通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接；通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器；调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面；通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中；通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示。

上述执行的基于人工智能的音视频对话方法，首先通过第一聊天客户端，获取对话开始请求，所述对话开始请求携带有目标对话邀请链接，通过所述第一聊天客户端，响应所述对话开始请求进行浏览器启动，得到目标浏览器，调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面，然后通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端，其中，所述会议服务端用于将所述第一音视频数据发送给目标聊天客户端的第二会客厅页面，并且将所述第一音视频数据更新到音视频对话数据库中，通过所述第一会客厅页面，从所述会议服务端获取与所述第二会客厅页面对应的第二音视频数据，将所述第二音视频数据进行展示，实现了采用聊天客户端调用浏览器加载的会客厅页面与会议服务端通信进行音视频对话，并且将音视频数据发送给会议服务端，有利于企业通过会议服务端进行音视频数据的存档，从而使采用通用聊天工具进行客户服务的方法适用于注重信息存档及安全合规的企业。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于人工智能的音视频对话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于人工智能的音视频对话方法，其特征在于，所述通过第一聊天客户端，获取对话开始请求的步骤之前，还包括：

通过第二聊天客户端调用会议终端，获取对话预约请求，所述对话预约请求携带有对话配置数据；

通过所述会议终端，根据所述对话配置数据生成会客厅预约创建请求，将所述会客厅预约创建请求发送给所述会议服务端；

通过所述会议终端，获取所述会议服务端根据所述对话配置数据发送的所述目标对话邀请链接；

通过所述会议终端，将所述目标对话邀请链接发送给所述第二聊天客户端的消息对话框，其中，所述目标对话邀请链接用于通过所述第二聊天客户端发送给所述目标聊天客户端对应的消息对话框。

3.根据权利要求2所述的基于人工智能的音视频对话方法，其特征在于，所述通过所述会议终端，根据所述对话配置数据生成会客厅预约创建请求，将所述会客厅预约创建请求发送给所述会议服务端的步骤之后，还包括：

通过所述会议终端，获取所述会议服务端发送的所述会客厅预约记录，根据所述会客厅预约记录更新会客厅预约记录表；

通过所述会议终端，根据所述会客厅预约记录表获取会客厅启动请求，所述会客厅启动请求携带有目标会客厅标识，所述目标会客厅标识与所述目标对话邀请链接中的会客厅标识相同；

通过所述会议终端，将所述会客厅启动请求发送给所述会议服务端，其中，所述会议服务端根据所述会客厅启动请求中的所述目标会客厅标识启动会客厅，得到目标会客厅；

通过所述会议终端，加载所述目标会客厅对应的页面，得到所述会议终端对应的会客厅页面；

调用所述目标浏览器，根据所述目标对话邀请链接加载所述目标会客厅对应的页面，得到所述第一会客厅页面。

4.根据权利要求1所述的基于人工智能的音视频对话方法，其特征在于，所述调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面的步骤，包括：

调用所述目标浏览器，根据所述目标对话邀请链接中的会客厅链接地址生成资源获取请求，将所述资源获取请求发送给所述会议服务端；

调用所述目标浏览器，获取所述会议服务端根据所述资源获取请求发送的会客厅客户端资源；

调用所述目标浏览器，根据所述会客厅客户端资源进行会客厅客户端插件加载；

调用所述目标浏览器执行所述会客厅客户端插件，根据所述目标对话邀请链接中的会客厅标识及会客厅密码进行会客厅页面的加载，得到所述第一会客厅页面。

5.根据权利要求4所述的基于人工智能的音视频对话方法，其特征在于，所述通过所述第一会客厅页面，获取用户输入的第一音视频数据，将所述第一音视频数据发送给会议服务端的步骤，包括：

通过所述第一会客厅页面，获取用户输入的待处理的音视频数据；

通过所述第一会客厅页面调用所述会客厅客户端插件，对所述待处理的音视频数据分别进行去噪处理及回声消除处理，得到待编码的音视频数据；

通过所述第一会客厅页面调用所述会客厅客户端插件，获取预设编码模式确定规则；

通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述待编码的音视频数据和所述预设编码模式确定规则进行编码模式确定，得到目标编码模式；

通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述目标编码模式的编码规则，对所述待编码的音视频数据进行编码，得到所述第一音视频数据；

通过所述第一会客厅页面调用所述会客厅客户端插件，根据所述目标编码模式的传输通道标识，将所述第一音视频数据发送给所述会议服务端。

6.根据权利要求1所述的基于人工智能的音视频对话方法，其特征在于，所述调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面的步骤之后，还包括：

通过所述第一会客厅页面，获取屏幕共享请求，将所述屏幕共享请求发送给所述会议服务端，获取所述会议服务端根据所述屏幕共享请求发送的屏幕共享开始信号；

通过所述第一会客厅页面，响应所述屏幕共享开始信号获取预设截屏配置数据；

通过所述第一会客厅页面调用会客厅客户端插件的截屏模块，根据所述预设截屏配置数据进行截屏，得到第i次的截屏图像；

调用所述会客厅客户端插件，获取第i-1次的截屏图像；

调用所述会客厅客户端插件的图像处理模块，根据所述第i次的截屏图像和所述第i-1次的截屏图像进行图像差异数据获取，得到待加密的图像差异数据；

调用所述会客厅客户端插件的对称加密模块，对所述待加密的图像差异数据进行对称加密，得到第i次的图像差异数据和对称加密密钥；

调用所述会客厅客户端插件的非对称加密模块，对所述对称加密密钥进行非对称加密，得到目标加密密钥；

通过所述第一会客厅页面，将所述第i次的图像差异数据和所述目标加密密钥发送给所述会议服务端。

7.根据权利要求1所述的基于人工智能的音视频对话方法，其特征在于，当所述第一聊天客户端配置有会议终端时，所述调用所述目标浏览器，根据所述目标对话邀请链接加载会客厅页面，得到第一会客厅页面的步骤之后，还包括：

通过所述第一会客厅页面调用所述会议终端的对话助手，获取实时画像请求；

通过所述对话助手，根据所述实时画像请求携带的画像配置数据从所述会议服务端中获取数据，得到待画像的数据；

通过所述对话助手调用预设用户画像模型，根据所述待画像的数据进行画像，得到目标画像结果；

通过所述对话助手，将所述目标画像结果发送给所述第一会客厅页面；

通过所述第一会客厅页面，将所述目标画像结果进行展示。

8.一种基于人工智能的音视频对话装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。