CN113395580A

CN113395580A - 一种基于视频通信的音视频同步方法

Info

Publication number: CN113395580A
Application number: CN202110596398.XA
Authority: CN
Inventors: 刘风华
Original assignee: Individual
Current assignee: Gxcom Technology Guangzhou Co ltd
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2021-09-14
Anticipated expiration: 2040-10-08
Also published as: CN113395579A; CN113395579B; CN113395580B; CN112153448A; CN112153448B

Abstract

本申请提供的一种基于视频通信的音视频同步方法，涉及音频处理技术领域。首先，在预设的音频处理方法集合包括的多个音频处理方式中，基于第二视频通信终端在所述第一时间之前发送的至少一个第二已处理音频数据包的音频属性信息确定出目标音频处理方式；其次，基于所述目标音频处理方式对所述第一待处理音频数据包中的第一待处理语音信息进行处理，得到第一已处理语音信息；然后，基于所述第一已处理语音信息和所述第一时间戳信息，得到所述第一待处理音频数据包对应的第一已处理音频数据包，并发送给所述第二视频通信终端。通过上述方法，可以改善现有的视频通信中对音频数据的处理存在不合理的问题。

Description

一种基于视频通信的音视频同步方法

技术领域

本申请涉及音频处理技术领域，具体而言，涉及一种基于视频通信的音视频同步方法。

背景技术

音频处理技术的发展，使得其应用范围得到不断的扩展，例如，可以应用于视频通信中。但是，经发明人研究发现，在现有的视频通信中，依旧存在着对音频数据的处理存在不合理的问题。

发明内容

有鉴于此，本申请的目的在于提供一种基于视频通信的音视频同步方法，以改善现有的视频通信中对音频数据的处理存在不合理的问题。

为实现上述目的，本申请实施例采用如下技术方案：

一种视频通信中的音频处理方法，包括：

获得第一视频通信终端在第一时间发送的第一待处理音频数据包，其中，该第一待处理音频数据包包括第一待处理语音信息和该第一待处理语音信息对应的第一时间戳信息；

获得第二视频通信终端在所述第一时间之前发送的至少一个第二已处理音频数据包的音频属性信息；

在预设的音频处理方法集合包括的多个音频处理方式中，基于所述音频属性信息确定出目标音频处理方式；

基于所述目标音频处理方式对所述第一待处理音频数据包中的第一待处理语音信息进行处理，得到第一已处理语音信息；

基于所述第一已处理语音信息和所述第一时间戳信息，得到所述第一待处理音频数据包对应的第一已处理音频数据包；

将所述第一已处理音频数据包发送给所述第二视频通信终端，以使该第二视频通信终端基于该第一已处理音频数据包中的第一时间戳信息和获取到的视频数据包中的第二时间戳信息，将该第一已处理音频数据包中的第一已处理语音信息与该视频数据包中的视频信息进行同步播放处理。

本申请实施例还提供了一种视频通信中的音频处理系统，包括：

待处理音频数据包获得模块，用于获得第一视频通信终端在第一时间发送的第一待处理音频数据包，其中，该第一待处理音频数据包包括第一待处理语音信息和该第一待处理语音信息对应的第一时间戳信息；

音频属性信息获得模块，用于获得第二视频通信终端在所述第一时间之前发送的至少一个第二已处理音频数据包的音频属性信息；

音频处理方式确定模块，用于在预设的音频处理方法集合包括的多个音频处理方式中，基于所述音频属性信息确定出目标音频处理方式；

待处理语音信息处理模块，用于基于所述目标音频处理方式对所述第一待处理音频数据包中的第一待处理语音信息进行处理，得到第一已处理语音信息；

已处理音频数据包获得模块，用于基于所述第一已处理语音信息和所述第一时间戳信息，得到所述第一待处理音频数据包对应的第一已处理音频数据包；

已处理音频数据包发送模块，用于将所述第一已处理音频数据包发送给所述第二视频通信终端，以使该第二视频通信终端基于该第一已处理音频数据包中的第一时间戳信息和获取到的视频数据包中的第二时间戳信息，将该第一已处理音频数据包中的第一已处理语音信息与该视频数据包中的视频信息进行同步播放处理。

本申请提供的视频通信中的音频处理方法及系统，通过基于已经处理的音频数据的属性信息在多个音频处理方式中选择出目标音频处理方式，对待处理的音频数据进行处理，使得对音频数据的处理方式适应性更好，如此，可以改善现有的视频通信中对音频数据的处理存在不合理的问题。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本申请实施例提供的视频通信系统的系统框图。

图2为本申请实施例提供的视频通信中的音频处理方法包括的各流程的流程示意图。

图3为本申请实施例提供的视频通信中的音频处理系统包括的各功能模块的方框示意图。

图标：10-视频通信系统；20-第一视频通信终端；30-第二视频通信终端；40-视频通信服务器；100-视频通信中的音频处理系统；110-待处理音频数据包获得模块；120-音频属性信息获得模块；130-音频处理方式确定模块；140-待处理语音信息处理模块；150-已处理音频数据包获得模块；160-已处理音频数据包发送模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本申请的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例提供了一种视频通信系统10。其中，该视频通信系统10可以包括第一视频通信终端20、第二视频通信终端30和视频通信服务器40。

详细地，所述视频通信服务器40可以分别与所述第一视频通信终端20和所述第二视频通信终端30通信连接，用于将所述第一视频通信终端20发送的音视频数据进行处理之后发送给所述第二视频通信终端30，以及将所述第二视频通信终端30发送的音视频数据进行处理之后发送给所述第一视频通信终端20。如此，可以实现所述第一视频通信终端20与所述第二视频通信终端30之间的音视频数据的交互，使得该第一视频通信终端20对应的第一用户与该第二视频通信终端30对应的第二用户之间的视频通信。

其中，所述第一视频通信终端20和所述第二视频通信终端30，可以是手机等移动设备。

结合图2，本申请实施例还提供一种视频通信中的音频处理方法，可应用于上述的视频通信服务器40。其中，该视频通信中的音频处理方法有关的流程所定义的方法步骤，可以由所述视频通信服务器40实现。下面将对图2所示的具体流程，进行详细阐述。

步骤S110，获得第一视频通信终端20在第一时间发送的第一待处理音频数据包。

在本实施例中，所述视频通信服务器40可以先获得第一视频通信终端20在第一时间发送的第一待处理音频数据包。

其中，所述第一待处理音频数据包可以包括第一待处理语音信息和该第一待处理语音信息对应的第一时间戳信息（例如，该第一时间戳信息可以为该第一待处理语音信息的形成时间）。

步骤S120，获得第二视频通信终端30在所述第一时间之前发送的至少一个第二已处理音频数据包的音频属性信息。

在本实施例中，在基于步骤S110获得所述第一待处理音频数据包之后，为了能够具有适应性的对该第一待处理音频数据包进行处理，所述视频通信服务器40还可以获得至少一个第二已处理音频数据包的音频属性信息。

其中，所述至少一个第二已处理音频数据包可以是，基于对第二视频通信终端30（与所述第一视频通信终端20进行视频通信的终端）在所述第一时间之前发送的第二待处理音频数据包进行处理得到。

步骤S130，在预设的音频处理方法集合包括的多个音频处理方式中，基于所述音频属性信息确定出目标音频处理方式。

在本实施例中，在基于步骤S120获得所述音频属性信息之后，所述视频通信服务器40，可以基于该音频属性信息，在预设的音频处理方法集合包括的多个音频处理方式中，确定出目标音频处理方式。

步骤S140，基于所述目标音频处理方式对所述第一待处理音频数据包中的第一待处理语音信息进行处理，得到第一已处理语音信息。

在本实施例中，在基于步骤S130确定出所述目标音频处理方式之后，所述视频通信服务器40可以基于该目标音频处理方式，对所述第一待处理音频数据包中的第一待处理语音信息进行处理，得到第一已处理语音信息。

步骤S150，基于所述第一已处理语音信息和所述第一时间戳信息，得到所述第一待处理音频数据包对应的第一已处理音频数据包。

在本实施例中，在基于步骤S140得到所述第一已处理语音信息之后，所述视频通信服务器40可以基于该第一已处理语音信息和所述第一时间戳信息（如打包、编码压缩处理等），得到所述第一待处理音频数据包对应的第一已处理音频数据包。

步骤S160，将所述第一已处理音频数据包发送给第二视频通信终端30。

在本实施例中，在基于步骤S150得到所述第一已处理音频数据包之后，所述视频通信服务器40可以将该第一已处理音频数据包，发送给所述第二视频通信终端30。如此，该第二视频通信终端30可以基于该第一已处理音频数据包中的第一时间戳信息和获取到的视频数据包中的第二时间戳信息，将该第一已处理音频数据包中的第一已处理语音信息与该视频数据包中的视频信息进行同步播放处理。

基于此，可以实现所述第一视频通信终端20的第一用户与所述第二视频通信终端30的第二用户之间的视频通信。

其中，由于用于对第一视频通信终端20的第一待处理音频数据包进行处理的处理方式，是基于之前第二视频通信终端30的第二已处理音频数据包的音频属性信息确定，使得可以通过基于已经处理的音频数据的属性信息在多个音频处理方式中选择出目标音频处理方式，对待处理的音频数据进行处理，从而保证对音频数据的处理方式在当前的视频通信中适应性更好，进而改善现有的视频通信中对音频数据的处理存在不合理的问题。

在上述各步骤中，对于步骤S120需要说明的是，获得所述音频属性信息的具体方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，所述第二视频通信终端30可以在获得所述第二待处理音频数据包时，响应第二用户的操作生成该第二待处理音频数据包的音频属性信息，并将该音频属性信息和该第二待处理音频数据包一并发送给所述视频通信服务器40。

如此，所述视频通信服务器40可以将与所述第二待处理音频数据包一起接收到的音频属性信息，作为该第二待处理音频数据包对应的第二已处理音频数据包的音频属性信息。

又例如，在另一种可以替代的示例中，步骤S120可以包括子步骤11-15。

子步骤11，获得基于第二视频通信终端30在第一时间之前发送的至少一个第二待处理音频数据包进行处理得到的至少一个第二已处理音频数据包。

在本实施例中，可以先确定所述第二视频通信终端30在所述第一时间之前（即在所述第一视频通信终端20发送所述第一待处理音频数据包之前）已经发送的至少一个第二待处理音频数据包，然后，获得对该至少一个第二待处理音频数据包进行处理得到的至少一个第二已处理音频数据包。

子步骤12，基于所述至少一个第二已处理音频数据包对目标数据库进行遍历处理，得到该至少一个第二已处理音频数据包对应的第一遍历结果。

在本实施例中，在基于子步骤11得到所述至少一个第二已处理音频数据包之后，可以在目标数据库（如与所述视频通信服务器40通信连接的数据库服务器）中，基于该至少一个第二已处理音频数据包进行遍历，以得到对应的第一遍历结果。

其中，所述第一遍历结果中具有目标第一音频属性信息。并且，每一个第二已处理音频数据包对应有一个第一遍历结果，如此，可以得到至少一个第一遍历结果。

子步骤13，基于所述第一遍历结果中的目标第一音频属性信息在本地数据库的音频属性关联关系中进行关联查找处理，得到所述目标第一音频属性信息对应的目标第二音频属性信息。

在本实施例中，在基于子步骤12得到所述第一遍历结果之后，可以在所述视频通信服务器40的本地数据库包括的音频属性关联关系中，基于该第一遍历结果中的目标第一音频属性信息进行关联查找，从而得到该目标第一音频属性信息对应的目标第二音频属性信息。

其中，所述音频属性关联关系中的每一条信息关联子关系包括第一音频属性子信息集合和对应的第二音频属性信息。并且，该音频属性关联关系包括多条信息关联子关系。如此，可以先基于目标第一音频属性信息关联到目标第一音频属性子信息集合，在基于目标第一音频属性子信息集合关联到目标第二音频属性信息。

子步骤14，基于所述目标第二音频属性信息对所述第一遍历结果中的所述目标第一音频属性信息进行更新处理，得到第二遍历结果。

在本实施例中，在基于子步骤13得到所述目标第二音频属性信息之后，可以对所述第一遍历结果中的所述目标第一音频属性信息进行更新处理，其更新的依据可以为该目标第二音频属性信息，如此，可以得到第二遍历结果。例如，可以直接通过该目标第二音频属性信息替换所述第一遍历结果，得到第二遍历结果；也可以将该第一遍历结果中的所述目标第一音频属性信息替换为所述目标第二音频属性信息（在该示例中，该第一遍历结果还可以包括其它信息，如所述第二已处理音频数据包的标识信息）。

子步骤15，将所述第二遍历结果作为所述至少一个第二已处理音频数据包的音频属性信息。

在本实施例中，在基于子步骤14得到所述第二遍历结果（为至少一个）之后，可以将该第二遍历结果作为所述至少一个第二已处理音频数据包的音频属性信息。

可选地，子步骤12中得到第一遍历结果的具体方式不受限制，例如，在一种示例中，子步骤12可以包括：

首先，可以确定多个依次递减的采样值；

其次，可以在多个所述第二已处理音频数据包中，按照时间从早到晚的方向，依次间隔每一个所述采样值获取一个目标第二已处理数据包（例如，可以先间隔3个第二已处理音频数据包采集得到一个目标第二已处理数据包，如此进行3次，然后，再间隔2个第二已处理音频数据包采集得到一个目标第二已处理数据包，如此进行2次，之后，再间隔1个第二已处理音频数据包采集得到一个目标第二已处理数据包，如此进行1次，最后，若还有第二已处理数据包，则全部作为目标第二已处理数据包）；

然后，可以基于所述目标第二已处理音频数据包对目标数据库进行遍历处理，得到所述至少一个第二已处理音频数据包对应的第一遍历结果。

进一步地，考虑到在上述的子步骤13中需要基于音频属性关联关系进行关联查找，因此，所述视频通信中的音频数据处理方法还包括可以生成所述音频属性关联关系的步骤。其中，在一种可以替代的示例中，该步骤可以包括子步骤21-31。

子步骤21，获取至少一条音频属性对应关系。

在本实施例中，可以先获取至少一条音频属性对应关系（如响应用户的操作生成，或接收通信连接的其它设备发送）。

其中，每一条所述音频属性对应关系可以包括第一音频属性信息和对应的第二音频属性信息。如此，可以获得至少一对第一音频属性信息和第二音频属性信息。

子步骤22，针对每一条所述音频属性对应关系，对该音频属性对应关系包括的信息内容进行格式校验处理，以基于该格式校验处理的结果确定该音频属性对应关系包括的信息内容的格式是否规范。

在本实施例中，在基于子步骤21获得所述至少一条音频属性信息对应关系之后，针对每一条所述音频属性对应关系，可以先获得该音频属性对应关系包括的信息内容，然后，在对信息内容进行格式校验处理，从而基于该格式校验处理的结果确定该音频属性对应关系包括的信息内容的格式是否规范。例如，该在音频属性对应关系中，是否包括两种维度的信息，该两种维度的信息是否属于不同的音频属性信息，即第一音频属性信息和第二音频属性信息等。

子步骤23，针对每一条所述音频属性对应关系，若该音频属性对应关系包括的信息内容的格式规范，则在历史音频属性对应关系集合中对将该音频属性对应关系进行比较处理，以基于比较处理的结果确定该音频属性对应关系是否属于重复音频属性对应关系。

在本实施例中，在基于子步骤22确定获得的音频属性对应关系的信息内容的格式属于规范格式之后，可以将该音频属性对应关系与历史音频属性对应关系集合（历史上获取的或生成的音频属性对应关系的集合）进行比较处理，从而根据比较处理的结果，确定该音频属性对应关系是否属于重复音频属性对应关系（如在所述历史音频属性对应关系集合中，不具有与该音频属性对应关系相同的历史音频属性对应关系，则该音频属性对应关系不属于重复音频属性对应关系）。

子步骤24，针对每一条所述音频属性对应关系，若该音频属性对应关系在所述历史音频属性对应关系集合中不属于重复音频属性对应关系，则基于获取该音频属性对应关系的时间信息确定的目标数量从所述历史音频属性对应关系集合中抽取至少部分音频属性对应关系。

在本实施例中，在基于子步骤23对所述音频属性对应关系是否属于重复音频属性对应关系进行确定之后，若该音频属性对应关系不属于重复音频属性对应关系，可以先确定获取到该音频属性对应关系的时间信息，然后，基于该时间信息确定一个目标数量，如此，可以基于该目标数量在所述历史音频属性对应关系集合中抽取出至少部分的音频属性对应关系（如抽取出该目标数量的音频属性对应关系，或不少于该目标数量的音频属性对应关系）。

其中，所述时间信息越晚，所述目标数量可以越大。

子步骤25，针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，将该音频属性对应关系中的第一音频属性信息在所述至少部分音频属性对应关系的第一音频属性信息包括的各部分信息内容中进行第一校验处理。

在本实施例中，在基于子步骤24得到所述至少部分音频属性信息对应关系之后，可以针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，先获得该音频属性对应关系的第一音频属性信息，然后，可以基于所述至少部分音频属性对应关系的第一音频属性信息包括的各部分信息内容，对该第一音频属性信息进行第一校验处理（如校验双反的第一音频属性信息是否相同）。

子步骤26，针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，若该音频属性对应关系中的第一音频属性信息在所述至少部分音频属性对应关系的第一音频属性信息包括的各部分信息内容的校验结果满足预设条件，则判定该音频属性对应关系通过所述第一校验。

在本实施例中，在基于子步骤25对每一条不属于重复音频属性对应关系的所述音频属性对应关系的第一音频属性信息进行第一校验处理之后，可以将该第一音频属性信息对应的校验结果与预设条件进行比较，然后在该第一音频属性信息对应的校验结果满足预设条件（如校验结果为校验双反的第一音频属性信息完全不同或至少部分不同）时，可以判定该音频属性对应关系通过所述第一校验。

子步骤27，针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，若该音频属性对应关系通过所述第一校验，则对该音频属性对应关系中的第一音频属性信息进行分解处理，得到第一音频属性子信息集合。

在本实施例中，在基于子步骤27确定所述音频属性对应关系通过所述第一校验之后，可以对该第一音频属性信息进行分解处理，以得到多个第一音频属性子信息，从而形成第一音频属性子信息集合（该第一音频属性子信息集合至少包括该多个第一音频属性子信息中的部分多个）。

子步骤28，针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，基于该音频属性对应关系对应的第一音频属性子信息集合和对应的所述第二音频属性信息生成信息关联子关系。

在本实施例中，在基于子步骤27得到所述第一音频属性子信息集合之后，可以基于该第一音频属性子信息集合和该第一音频属性子信息集合对应的第一音频属性信息对应的第二音频属性信息，生成信息关联子关系。

也就是说，一条信息关联子关系中包括，对应的第一音频属性子信息集合和第二音频属性信息。

子步骤29，针对每一条所述信息关联子关系，对该信息关联子关系进行关联关系验证处理。

在本实施例中，在基于子步骤28生成所述信息关联子关系之后，可以对每一条所述信息关联子关系分别进行关联关系验证处理。

子步骤30，针对每一条所述信息关联子关系，获得该信息关联子关系的关联关系验证结果，并基于该关联关系验证结果确定该信息关联子关系是否通过所述关联关系验证。

在本实施例中，在基于子步骤29对所述信息关联子关系进行关联关系验证处理之后，可以先获得进行关联关系验证处理的关联关系验证结果，然后，基于该关联关系验证结果确定对应的信息关系子关系是否通过所述关联关系验证。

子步骤31，针对每一条所述信息关联子关系，若该信息关联子关系通过所述关联关系验证，则基于该信息关联子关系得到音频属性关联关系。

在本实施例中，在基于子步骤30对所述信息关联子关系是否通过所述关联关系验证之后，若通过该关联关系验证，可以基于该信息关联子关系得到所述音频属性关联关系。

也就是说，可以将通过所述关联关系验证的每一条信息关联子关系作为所述音频属性关联关系的一部分。

在上述示例中，基于子步骤29进行关联关系验证处理的具体方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，子步骤29可以包括：

第一步，针对每一条所述信息关联子关系，从所述历史音频属性对应关系集合中抽取至少部分的音频属性对应关系，得到每一条所述信息关联子关系对应的第一音频属性对应关系组（如此，针对多条信息关联子关系，可以得到多个第一音频属性信息对应关系组），其中，每一个所述第一音频属性对应关系组中包括多条音频属性对应关系；

第二步，针对每一条所述信息关联子关系，基于该信息关联子关系对应的第一音频属性对应关系组中的每一条音频属性对应关系对该信息关联子关系进行第一关联验证处理，得到该信息关联子关系的第一关联准确度；

第三步，针对每一条所述信息关联子关系，判断该信息关联子关系的第一关联准确度是否大于第一预设关联准确度（例如，若所述第一音频属性对应关系组中存在一条音频属性对应关系的第一音频属性信息，包含该信息关联子关系的第一音频属性子信息集合中全部第一音频属性子信息，则认为该信息关联子关系的第一关联准确度大于第一预设关联准确度）；

第四步，针对每一条所述信息关联子关系，若该信息关联子关系的第一关联准确度大于所述第一预设关联准确度，则从所述历史音频属性对应关系集合中，抽取至少部分获取的时间信息与获取该信息关联子关系对应的音频属性对应关系的时间信息相关联的音频属性对应关系（在一种示例中，时间信息相关联可以是指，时间信息之间的差值大于预设时长），得到每一条所述信息关联子关系对应的第二音频属性对应关系组（如此，针对多条信息关联子关系，可以得到多个第二音频属性信息对应关系组），其中，每一个所述第二音频属性对应关系组中包括多条音频属性对应关系（在一种示例中，同一条信息关联子关系对应的第一音频属性信息对应关系组中的音频属性对应关系的数量，小于对应的第二音频属性信息对应关系组中的音频属性对应关系的数量）；

第五步，针对每一条所述信息关联子关系，基于该信息关联子关系对应的第二音频属性对应关系组中的每一条音频属性对应关系对该信息关联子关系进行第二关联验证处理，得到该信息关联子关系的第二关联准确度；

第六步，针对每一条所述信息关联子关系，判断该信息关联子关系的第二关联准确度是否大于第二预设关联准确度（例如，若所述第二音频属性对应关系组中存在一条音频属性对应关系的第一音频属性信息，包含该信息关联子关系的第一音频属性子信息集合中全部第一音频属性子信息，则认为该信息关联子关系的第二关联准确度大于第二预设关联准确度）；

第七步，针对每一条所述信息关联子关系，若该信息关联子关系的第二关联准确度大于所述第二预设关联准确度，则判定该信息关联子关系通过验证。

在上述示例中，基于子步骤27对所述第一音频属性信息进行分解处理的具体方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，子步骤27可以包括：

针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，若该音频属性对应关系通过所述第一校验，则获取该音频属性对应关系中的第一音频属性信息，其中，该第一音频属性信息包括多种类型的音频属性子信息，该音频属性子信息至少包括语音能量范围值、语音速度范围值、语音时长范围值和目标关键词覆盖信息（如说话快点、说话慢点等）；

针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，获取该音频属性对应关系中的第一音频属性信息包括的部分音频属性子信息，并基于该部分音频属性子信息形成到第一音频属性子信息集合。

在上述示例中，基于子步骤21获取至少一条音频属性对应关系的具体方式也不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，子步骤21可以包括：

响应目标用户的至少一次第一操作生成至少一个第一信息组，其中，每一个所述第一信息组包括多种类型的音频属性子信息；

响应目标用户的至少一次第二操作生成至少一个第二信息组，其中，每一个所述第二信息组包括多个音频属性层级信息；

响应目标用户的至少一次第三操作，将所述至少一个第一信息组和所述至少一个第二信息组进行一一对应处理，得到至少一条音频属性对应关系，其中，每一条所述音频属性信息对应关系中的多个音频属性层级信息用于进行计算，得到用于确定目标音频处理方式的音频属性信息。

详细地，在一种具体的应用示例中，一个第一信息组包括语音能量范围值A1、语音速度范围值B1、语音时长范围值C1，一个第二信息组包括第一个音频属性层级信息A2（用于A1对应的层级信息）、第二个音频属性层级信息B2（用于B1对应的层级信息）、第三个音频属性层级信息C2（用于C1对应的层级信息）。其中，能量值越大、速度越大、时长越长，则对应的层级越高。

然后，根据实际需求，可以为每一种类型的音频属性子信息对应的频属性层级信息赋值权重系数，例如，目标关键词对应的属性层级信息的权重系数大于语音速度对应的属性层级信息的权重系数，语音速度对应的属性层级信息的权重系数大于语音时长对应的属性层级信息的权重系数，语音时长对应的属性层级信息的权重系数大于语音能量对应的属性层级信息。如此，可以加权计算出对应的用于确定目标音频处理方式的音频属性信息。

在上述各步骤中，对于步骤S130需要说明的是，确定出所述目标音频处理方式的具体方式不受限制，可以根据实际应用需求进行选择。

例如，在一种示例中，步骤S130可以包括子步骤41-42。

子步骤41，基于预设的第一对应关系，得到所述音频属性信息对应的音频处理效率信息，其中，所述第一对应关系中具有一一对应的多种音频属性信息和多种音频处理效率信息（例如，在所述音频属性信息基于上述的层级信息进行表示时，层级信息越高，对应的效率信息也就越高）；

子步骤42，在预设的音频处理方法集合包括的多个音频处理方式中，根据各所述音频处理方式对待处理语音信息的处理效率和所述音频处理效率信息，确定出目标音频处理方式。

可以理解的是，所述音频处理方式可以是指基于预设的神经网络模型对待处理语音信息进行处理，如语音增加模型、语音去噪模型等。并且，不同的音频处理方式中包括的神经网络模型的数量可以不同，不同的音频处理方式中包括的相同类型的神经网络模型在训练过程中训练样本的数量可以不同、迭代次数也可以不同。例如，处理效率最低的音频处理方式可以包括数量最多的神经网络模型，且其中的神经网络模型的训练样本最多、迭代次数也最多。

在上述示例中，基于子步骤42以确定出目标音频处理方式的具体方式也不受限制，可以根据实际应用需求进行选择。

例如，在一种示例中，子步骤42可以包括：

首先，可以对所述至少一个第二已处理音频数据包包括的第二已处理语音信息进行语义识别处理，确定所述第二视频通信终端30对应的第二用户是否有表示请求所述第一视频通信终端20对应的第一用户进行重新陈述（例如，刚才说的话麻烦重新说一遍）；

其次，若所述第二视频通信终端30对应的第二用户是有表示请求所述第一视频通信终端20对应的第一用户进行重新陈述，则对所述音频处理效率信息进行效率值降低处理，得到新的音频处理效率信息；

然后，可以在预设的音频处理方法集合包括的多个音频处理方式中，根据各所述音频处理方式对待处理语音信息的处理效率和所述新的音频处理效率信息，确定出目标音频处理方式。

结合图3，本申请实施例还提供一种视频通信中的音频处理系统100，可应用于上述的视频通信服务器40。其中，所述视频通信中的音频处理系统100可以包括待处理音频数据包获得模块110、音频属性信息获得模块120、音频处理方式确定模块130、待处理语音信息处理模块140、已处理音频数据包获得模块150和已处理音频数据包发送模块160。

所述待处理音频数据包获得模块110，用于获得第一视频通信终端20在第一时间发送的第一待处理音频数据包，其中，该第一待处理音频数据包包括第一待处理语音信息和该第一待处理语音信息对应的第一时间戳信息。在本实施例中，所述待处理音频数据包获得模块110可用于执行图2所示的步骤S110，关于所述待处理音频数据包获得模块110的相关内容可以参照前文对步骤S110的描述。

所述音频属性信息获得模块120，用于获得第二视频通信终端30在所述第一时间之前发送的至少一个第二已处理音频数据包的音频属性信息。在本实施例中，所述音频属性信息获得模块120可用于执行图2所示的步骤S120，关于所述音频属性信息获得模块120的相关内容可以参照前文对步骤S120的描述。

所述音频处理方式确定模块130，用于在预设的音频处理方法集合包括的多个音频处理方式中，基于所述音频属性信息确定出目标音频处理方式。在本实施例中，所述音频处理方式确定模块130可用于执行图2所示的步骤S130，关于所述音频处理方式确定模块130的相关内容可以参照前文对步骤S130的描述。

所述待处理语音信息处理模块140，用于基于所述目标音频处理方式对所述第一待处理音频数据包中的第一待处理语音信息进行处理，得到第一已处理语音信息。在本实施例中，所述待处理语音信息处理模块140可用于执行图2所示的步骤S140，关于所述待处理语音信息处理模块140的相关内容可以参照前文对步骤S140的描述。

所述已处理音频数据包获得模块150，用于基于所述第一已处理语音信息和所述第一时间戳信息，得到所述第一待处理音频数据包对应的第一已处理音频数据包。在本实施例中，所述已处理音频数据包获得模块150可用于执行图2所示的步骤S150，关于所述已处理音频数据包获得模块150的相关内容可以参照前文对步骤S150的描述。

所述已处理音频数据包发送模块160，用于将所述第一已处理音频数据包发送给所述第二视频通信终端30，以使该第二视频通信终端30基于该第一已处理音频数据包中的第一时间戳信息和获取到的视频数据包中的第二时间戳信息，将该第一已处理音频数据包中的第一已处理语音信息与该视频数据包中的视频信息进行同步播放处理。在本实施例中，所述已处理音频数据包发送模块160可用于执行图2所示的步骤S160，关于所述已处理音频数据包发送模块160的相关内容可以参照前文对步骤S160的描述。

综上所述，本申请提供的视频通信中的音频处理方法及系统，通过基于已经处理的音频数据的属性信息在多个音频处理方式中选择出目标音频处理方式，对待处理的音频数据进行处理，使得对音频数据的处理方式适应性更好，如此，可以改善现有的视频通信中对音频数据的处理存在不合理的问题。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于视频通信的音视频同步方法，其特征在于，包括：

在预设的音频处理方法集合包括的多个音频处理方式中，基于所述音频属性信息确定出目标音频处理方式，其中，所述音频处理方式是指基于预设的神经网络模型对待处理语音信息进行处理，不同的音频处理方式中包括的神经网络模型的数量不同，和/或，不同的音频处理方式中包括的相同类型的神经网络模型在训练过程中训练样本的数量和迭代次数不同；

2.根据权利要求1所述的基于视频通信的音视频同步方法，其特征在于，所述获得第二视频通信终端在所述第一时间之前发送的至少一个第二已处理音频数据包的音频属性信息的步骤，包括：

获得基于第二视频通信终端在所述第一时间之前发送的至少一个第二待处理音频数据包进行处理得到的至少一个第二已处理音频数据包；

基于所述至少一个第二已处理音频数据包对目标数据库进行遍历处理，得到该至少一个第二已处理音频数据包对应的第一遍历结果；

基于所述第一遍历结果中的目标第一音频属性信息在本地数据库的音频属性关联关系中进行关联查找处理，得到所述目标第一音频属性信息对应的目标第二音频属性信息，其中，所述音频属性关联关系中的每一条信息关联子关系包括第一音频属性子信息集合和对应的第二音频属性信息，该第一音频属性子信息集合至少包括多个第一音频属性子信息中的部分多个，该多个第一音频属性子信息基于对第一音频属性信息进行分解处理得到；

基于所述目标第二音频属性信息对所述第一遍历结果中的所述目标第一音频属性信息进行更新处理，得到第二遍历结果；

将所述第二遍历结果作为所述至少一个第二已处理音频数据包的音频属性信息。

3.根据权利要求2所述的基于视频通信的音视频同步方法，其特征在于，该方法还包括生成所述音频属性关联关系的步骤，该步骤包括：

获取至少一条音频属性对应关系，其中，每一条所述音频属性对应关系包括第一音频属性信息和对应的第二音频属性信息，所述至少一条音频属性对应关系基于响应用户的操作生成，或接收通信连接的其它设备发送的音频属性对应关系得到；

针对每一条所述音频属性对应关系，对该音频属性对应关系包括的信息内容进行格式校验处理，以基于该格式校验处理的结果确定该音频属性对应关系包括的信息内容的格式是否规范；

针对每一条所述音频属性对应关系，若该音频属性对应关系包括的信息内容的格式规范，则在历史音频属性对应关系集合中对将该音频属性对应关系进行比较处理，以基于比较处理的结果确定该音频属性对应关系是否属于重复音频属性对应关系；

针对每一条所述音频属性对应关系，若该音频属性对应关系在所述历史音频属性对应关系集合中不属于重复音频属性对应关系，则基于获取该音频属性对应关系的时间信息确定的目标数量从所述历史音频属性对应关系集合中抽取至少部分音频属性对应关系，其中，所述时间信息越晚，所述目标数量越大；

针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，在所述至少部分音频属性对应关系的第一音频属性信息包括的各部分信息内容中，对该音频属性对应关系中的第一音频属性信息进行第一校验处理，其中，所述第一校验处理包括校验双方的第一音频属性信息是否相同；

针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，若在所述至少部分音频属性对应关系的第一音频属性信息包括的各部分信息内容中，该音频属性对应关系中的第一音频属性信息的校验结果满足预设条件，则判定该音频属性对应关系通过所述第一校验；

针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，若该音频属性对应关系通过所述第一校验，则对该音频属性对应关系中的第一音频属性信息进行分解处理，得到第一音频属性子信息集合；

针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，基于该音频属性对应关系对应的第一音频属性子信息集合和对应的所述第二音频属性信息生成信息关联子关系；

针对每一条所述信息关联子关系，对该信息关联子关系进行关联关系验证处理；

针对每一条所述信息关联子关系，获得该信息关联子关系的关联关系验证结果，并基于该关联关系验证结果确定该信息关联子关系是否通过所述关联关系验证；

针对每一条所述信息关联子关系，若该信息关联子关系通过所述关联关系验证，则基于该信息关联子关系得到音频属性关联关系。

4.根据权利要求3所述的基于视频通信的音视频同步方法，其特征在于，所述所述针对每一条所述信息关联子关系，对该信息关联子关系进行关联关系验证处理的步骤，包括：

针对每一条所述信息关联子关系，从所述历史音频属性对应关系集合中抽取至少部分的音频属性对应关系，得到每一条所述信息关联子关系对应的第一音频属性对应关系组，其中，每一个所述第一音频属性对应关系组中包括多条音频属性对应关系；

针对每一条所述信息关联子关系，若该信息关联子关系对应的第一音频属性对应关系组中存在一条音频属性对应关系的第一音频属性信息，包含该信息关联子关系的第一音频属性子信息集合中全部第一音频属性子信息，则认为该信息关联子关系的第一关联准确度大于第一预设关联准确度；

针对每一条所述信息关联子关系，若该信息关联子关系的第一关联准确度大于所述第一预设关联准确度，则从所述历史音频属性对应关系集合中，抽取至少部分获取的时间信息与获取该信息关联子关系对应的音频属性对应关系的时间信息相关联的音频属性对应关系，得到每一条所述信息关联子关系对应的第二音频属性对应关系组，其中，每一个所述第二音频属性对应关系组中包括多条音频属性对应关系；

针对每一条所述信息关联子关系，若该信息关联子关系对应的第二音频属性对应关系组中存在一条音频属性对应关系的第一音频属性信息，包含该信息关联子关系的第一音频属性子信息集合中全部第一音频属性子信息，则认为该信息关联子关系的第二关联准确度大于第二预设关联准确度；

针对每一条所述信息关联子关系，若该信息关联子关系的第二关联准确度大于所述第二预设关联准确度，则判定该信息关联子关系通过验证。

5.根据权利要求3所述的基于视频通信的音视频同步方法，其特征在于，所述针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，若该音频属性对应关系通过所述第一校验，则对该音频属性对应关系中的第一音频属性信息进行分解处理，得到第一音频属性子信息集合的步骤，包括：

针对每一条不属于重复音频属性对应关系的所述音频属性对应关系，若该音频属性对应关系通过所述第一校验，则获取该音频属性对应关系中的第一音频属性信息，其中，该第一音频属性信息包括多种类型的音频属性子信息，该音频属性子信息至少包括语音能量范围值、语音速度范围值、语音时长范围值和目标关键词覆盖信息；

6.根据权利要求3所述的基于视频通信的音视频同步方法，其特征在于，所述获取至少一条音频属性对应关系的步骤，包括：

响应目标用户的至少一次第三操作，将所述至少一个第一信息组和所述至少一个第二信息组进行一一对应处理，得到至少一条音频属性对应关系，其中，每一条所述音频属性信息对应关系中的多个音频属性层级信息用于进行根据赋值的权重系数加权计算，得到用于确定目标音频处理方式的音频属性信息。

7.根据权利要求6所述的基于视频通信的音视频同步方法，其特征在于，所述第一信息组包括语音能量范围值、语音速度范围值、语音时长范围值，所述第二信息组包括语音能量范围值对应的第一个音频属性层级信息、语音速度范围值对应的第二个音频属性层级信息、语音时长范围值对应的第三个音频属性层级信息，其中，能量值越大、速度越大、时长越长，对应的层级越高。

8.根据权利要求6所述的基于视频通信的音视频同步方法，其特征在于，所述音频属性子信息至少包括语音能量范围值、语音速度范围值、语音时长范围值和目标关键词覆盖信息；

其中，目标关键词对应的属性层级信息的权重系数大于语音速度对应的属性层级信息的权重系数，语音速度对应的属性层级信息的权重系数大于语音时长对应的属性层级信息的权重系数，语音时长对应的属性层级信息的权重系数大于语音能量对应的属性层级信息。