CN112270919A

CN112270919A - 视频会议自动补音的方法、系统、存储介质及电子设备

Info

Publication number: CN112270919A
Application number: CN202010962350.1A
Authority: CN
Inventors: 李璐; 陈洪浩; 冯文澜
Original assignee: Suirui Technology Group Co Ltd
Current assignee: Shenzhen Suirui Audio Visual Technology Co ltd; Suirui Technology Group Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2021-01-26
Anticipated expiration: 2040-09-14
Also published as: CN112270919B

Abstract

本发明公开了一种视频会议自动补音的方法、系统、存储介质及电子设备，其中视频会议自动补音的方法包括：发送端麦克风拾音形成音频流数据包；发送端开启语音识别功能，将音频流数据包转为文字信息包；接收端同时接收音频流数据包及文字信息包；接收端对音频流数据包进行检测，判断音频流数据包是否丢包；当发生丢包时，接收端将已接收的音频流数据包的时间戳与已接收的文字信息包的时间戳进行比对，找到音频流数据包丢包区域相对应的文字信息包；接收端开启语音合成功能，将与丢包区域相对应的文字信息包生成音频数据。借此，本发明的视频会议自动补音的方法、系统、存储介质及电子设备，可以对丢失音频智能还原，且自动补全。

Description

视频会议自动补音的方法、系统、存储介质及电子设备

技术领域

本发明是关于视频多媒体通信技术领域，特别是关于一种视频会议自动补音的方法、系统、存储介质及电子设备。

背景技术

视频会议、指挥调度过程中，目前基于网络变化导致音频丢失情况，主要采用音频前向纠错，加到音频冗余等算法，保障在一定网络损伤的情况下保障音频质量。

以上方案号称支持网络丢包率30％的情况下音频能够保持流畅。但是存在对带宽要求高，而往往丢包率高的环境，带宽普遍偏低无法满足音频流畅的需求。

现有技术方案主要侧重点在于尽可能的通过智能算法自动补充部分音频数据或者发送更多的音频数据，确保即使丢失部分也不影响整体效果。智能算法自动补充只能解决丢失一两个数据包的情况，而发送更多冗余包的做法会增加网络带宽，对带宽要求高。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种视频会议自动补音的方法、系统、存储介质及电子设备，其能够对丢失音频智能还原，且自动补全。

为实现上述目的，本发明一方面提供了一种视频会议自动补音的方法、系统、存储介质及电子设备，其中视频会议自动补音的方法包括：发送端麦克风拾音形成音频流数据包；发送端开启语音识别功能，将音频流数据包转为文字信息包；接收端同时接收音频流数据包及文字信息包；接收端对音频流数据包进行检测，判断音频流数据包是否丢包；当发生丢包时，接收端将已接收的音频流数据包的时间戳与已接收的文字信息包的时间戳进行比对，找到音频流数据包丢包区域相对应的文字信息包；接收端开启语音合成功能，将与丢包区域相对应的文字信息包生成音频数据；将音频数据补充至丢包的音频流数据包相对应的时间戳中。

在本发明的一实施方式中，接收端对所述音频流数据包进行检测，判断所述音频流数据包是否丢包包括：预设时间内未收到音频流数据包，则判断音频流数据包发生预设丢包；预设时间内接收到音频流数据包，当音频流数据包的丢包数量超过丢包预设值时，则判断音频流数据包发生预设丢包。

在本发明的一实施方式中，音频流数据包的丢包预设值为三个。

在本发明的一实施方式中，生成音频数据的时间范围小于丢包起始时间，大于丢包结束时间。

在本发明的一实施方式中，将音频数据补充至丢包的音频流数据包相对应的时间戳中包括：截取生成音频数据中与丢包的音频流数据包相对应的音频数据，补充至丢包的音频流数据包相对应的时间戳中。

本发明另一方面提供了一种视频会议自动补音的系统，包括发送端以及接收端。发送端包括音频流模块、语音识别模块及发送模块。音频流模块用以通过麦克风拾音形成音频流数据包；语音识别模块用以将音频流数据包转为文字信息包。接收端包括接收模块、检测判断模块、对比模块、语音合成模块及音频数据补充模块。接收模块用以接收发送端的发送模块发送的音频流数据包和文字信息包；检测判断模块用以对音频流数据包进行检测，并判断音频流数据包是否丢包；当发生丢包时，对比模块用以将已接收的音频流数据包的时间戳与已接收的文字信息包的时间戳进行比对，找到音频流数据包丢包区域相对应的文字信息包；语音合成模块用以将与丢包区域相对应的文字信息包生成音频数据；音频数据补充模块用以将音频数据补充至丢包的音频流数据包相对应的时间戳中。

在本发明的一实施方式中，检测判断模块对音频流数据包进行检测，并判断音频流数据包是否丢包包括：预设时间内未收到音频流数据包，则判断音频流数据包发生预设丢包；预设时间内接收到音频流数据包，当音频流数据包的丢包数量超过丢包预设值时，则判断音频流数据包发生预设丢包。

与现有技术相比，根据本发明的视频会议自动补音的方法、系统、存储介质及电子设备，针对会议的使用场景，当网络状态、或其它原因不稳定时，可通过语音识别，联合语音合成对丢失音频智能还原并自动补全，确保发言人说话连续、清晰，且对网络带宽要求更低，还支持网络丢包更大的网络环境。

附图说明

图1是根据本发明一实施方式的视频会议自动补音的方法的流程示意图；

图2是根据本发明一实施方式的视频会议自动补音的系统的结构示意图；

图3是根据本发明一实施方式的用于执行视频会议自动补音的方法的电子设备的结构示意图；

图4是根据本发明一实施方式的视频会议自动补音的方法的一示例的参考示意图；

图5是根据本发明一实施方式的视频会议自动补音的方法的一具体实施例的流程示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

图1是根据本发明一实施方式的视频会议自动补音的方法的流程示意。如图1所示，第一方面，根据本发明优选实施方式的一种视频会议自动补音的方法，包括步骤S1至S10：S1，会议开始。S2，发送端麦克风拾音形成音频流数据包；S3，发送端开启语音识别功能；S4，将音频流数据包转为文字信息包；S5，接收端同时接收音频流数据包及文字信息包；S6，接收端对音频流数据包进行检测，判断音频流数据包是否发生预设丢包；S7，当发生预设丢包时，接收端将已接收的音频流数据包的时间戳与已接收的文字信息包的时间戳进行比对，找到音频流数据包丢包区域相对应的文字信息包；S8，接收端开启语音合成功能，将与丢包区域相对应的文字信息包生成音频数据； S9，将音频数据补充至丢包的音频流数据包相对应的时间戳中；S10，播放音频。

在本发明的一实施方式中，接收端对所述音频流数据包进行检测，判断所述音频流数据包是否发生预设丢包包括：预设时间内未收到音频流数据包，则判断音频流数据包发生预设丢包；预设时间内接收到音频流数据包，当音频流数据包的丢包数量超过丢包预设值时，则判断音频流数据包发生预设丢包。音频流数据包的丢包预设值为三个。生成音频数据的时间范围小于丢包起始时间，大于丢包结束时间。将音频数据补充至丢包的音频流数据包相对应的时间戳中包括：截取生成音频数据中与丢包的音频流数据包相对应的音频数据，补充至丢包的音频流数据包相对应的时间戳中。

图2是根据本发明一实施方式的视频会议自动补音的系统的结构示意图。如图2所示，第二方面，本发明另一方面提供了一种视频会议自动补音的系统，包括发送端1以及接收端2。发送端1包括音频流模块3、语音识别模块 4及发送模块5。音频流模块3用以通过麦克风拾音形成音频流数据包；语音识别模块4用以将音频流数据包转为文字信息包。接收端2包括接收模块6、检测判断模块7、对比模块8、语音合成模块9及音频数据补充模块10。接收模块6用以接收发送端1的发送模块5发送的音频流数据包和文字信息包；检测判断模块7用以对音频流数据包进行检测，并判断音频流数据包是否丢包；当发生丢包时，对比模块8用以将已接收的音频流数据包的时间戳与已接收的文字信息包的时间戳进行比对，找到音频流数据包丢包区域相对应的文字信息包；语音合成模块9用以将与丢包区域相对应的文字信息包生成音频数据；音频数据补充模块10用以将音频数据补充至丢包的音频流数据包相对应的时间戳中。

在本发明的一实施方式中，检测判断模块7对音频流数据包进行检测，并判断音频流数据包是否丢包包括：预设时间内未收到音频流数据包，则判断音频流数据包丢包；预设时间内接收到音频流数据包，当音频流数据包的丢包数量超过丢包预设值时，则判断音频流数据包丢包。音频流数据包的丢包预设值为三个。

第三方面，本发明实施例还提供了一种存储介质，存储介质存储有计算机可执行指令，计算机可执行指令用于执行上述的视频会议自动补音的方法。

其中，存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、 EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

图3是根据本发明一实施方式的用于执行视频会议自动补音的方法的电子设备的结构示意图。第四方面，图3示出了本发明的另一个实施例的一种电子设备的结构框图。电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。

该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信，其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU，或者是专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110 执行，以使处理器1110能够执行上述任意方法实施例中的视频会议自动补音的方法。

在实际应用中，本发明的视频会议自动补音的方法、系统、存储介质及电子设备主要分为语音识别、语音合成及音频数据补充三个部分。首先会议过程中，发言人方(发送端)开启语音识别功能，通过语音识别功能将语音内容转为文字，该文字内容信息基于单个字或词语记录时间戳，发送到接收方。同时会议音频流走媒体传输通道也传输到接收方(接收端)。接收方将收到发言人的音频流和语音识别的文字结果。当接收音频流后，对音频流数据进行检测，如预设时间内未收到数据包或预设时间内收到数据包，且发现连续丢包(数据包丢失低于3个不会出现明显的卡顿)3个，则认为出现了音频丢失，需要查看已接收数据的时间戳，根据时间戳，比对文字的时间戳，找到对应的的文字内容，确认文字内容后根据内容使用语音合成技术，生成音频数据，然后将音频数据补充到音频流中，确保音频流完整。

图4是根据本发明一实施方式的视频会议自动补音的方法的一示例的参考示意图。如图4所示，举例：于2020年6月30下午组织召开2019年度业务总结。首先由销售运营一部总结，一部负责人刘某通过视频接入会议：例如正在叙述的以下内容：“向各位领导汇报，运营一部2019度***为5500万，实际合同额4800万，完成率为87％。其中新开发客户有两家南京**、合肥**” 此时，由于网络不好造成了其它与会人员并未听清具体内容，造成了失音的问题。而此方案通过本发明的视频会议自动补音的方法，当刘某发言时，自动开启语音识别功能，将语音识别内容转为文字，并将已转换的带有时间戳的文字内容发送到接收方。同时音频流检测，当收到数据包序号1～10000后，突然收到了10005的数据包，说明音频发生了丢失，此时查询10000序号的数据包，查询包结束时间戳为00:15:10,003，查询10005的开始时间戳为 00:15:10,081；根据10.003比对文字内容时间戳，发现“完成”两个字的时间戳为00:15:09,981～00:15:10,153(差值172ms)。

假设“完成”两个字的原始数据包围a2，此时将“完成”两个字生成音频数据b2。将00:15:09,981～00:15:10,153(大于丢失音频时间段)之间的音频 a2(00:15:09,981～00:15:10,153之间的原始音频数据包)全部替换为根据文字生成的音频数据b2。

作为一例，为了使替换的音频不突兀，将“完成”两个字生成音频数据 b2。之后截取音频数据b2时间戳为00:15:10,003～00:15:10,081(差值75ms) 的音频数据b1(即与丢失时间段完全相应时间段的数据)，将音频数据b1替换原始音频a1，与音频流进行合并播放。从而参会方听到了完整的音频。使得“完成”二字并非完全是文字转音频的播放，而是与原始音频的合成，使播放出来的音频更为自然地过渡。因为音频数据会比视频数据快200ms左右，音频的补充是在这段时间内完成，使用该技术不会导致音视频延时加大。

图5是根据本发明一实施方式的视频会议自动补音的方法的一具体实施例的流程示意图。如图5所示，会议开启后：

S101：对音频流进行检测；

S102：是否开始接收到音频流数据包？

若是进入下一步S103；

若否返回S101继续检测。

S103：检测上一包起第一预设时间内是否接收到下一包？

若是进入下一步S104；

若否进入S106进行第一次补音(预设时间内未接到下一包说明丢包已远远超过3包，(结束会议除外))(此时采用对上一包起至预设时间为止进行补音)。

S104：从上一包起第一预设时间内是否存在丢包？

若是进入S105判断丢包数；

若否返回S103继续检测收到下一包的情况。

S105：丢包数是否超过第一预设包数？

若是进入S106进行一次补音；

若否返回S103继续检测收到下一包的情况。

S106：从上一个包结束时刻起至下一包开始时刻(或经过第一预设时间) 为止进行补音。

其中，接到下一包时采用补音至下一个包，未接到时补第一预设时长的音。

S107：从上一个包结束时刻起第二预设时间内是否收到下一包？

若是收到下一包说明补音后重新开始收到包，可以返回S104继续监控丢包情况。

若否说明一直在丢包，在采用现有技术修补包的情况外，本发明采用两次补音。即进入S109进行二次补音。

S108-是否结束会议，该流程应该是一直在监控的，若结束会议，一切程序结束。

若否；

S109：从上一个补音结束时刻起至第二预设时间结束时刻为止进行二次补音。

结束补音后进入S107步骤继续监控补音后是否接收到下一包。

如上述流程中，其中，第一预设包数为2个包，第一预时间小于200ms，优选70s-180s之间的数字，例如可以是100s，以保证在相应视频数据播放前完成补音。

其中，第二预设时间可以与第一预设时间相同，但由于第二预设时间是前面未接收到包，而一直在丢包的状态下进行的，因此第二预设时间优选小于第二预设时间，如可以是80s。

总之，本发明的视频会议自动补音的方法、系统、存储介质及电子设备，针对会议的使用场景，当网络状态、或其它原因不稳定时，可通过语音识别，联合语音合成对丢失音频智能还原并自动补全，确保发言人说话连续、清晰，且对网络带宽要求更低，还支持网络丢包更大的网络环境。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种视频会议自动补音的方法，其特征在于，包括：

发送端麦克风拾音形成音频流数据包；

所述发送端开启语音识别功能，将所述音频流数据包转为文字信息包；

接收端同时接收所述音频流数据包及所述文字信息包；

所述接收端对所述音频流数据包进行检测，判断所述音频流数据包是否丢包；

当发生丢包时，所述接收端将已接收的所述音频流数据包的时间戳与已接收的所述文字信息包的时间戳进行比对，找到所述音频流数据包丢包区域相对应的所述文字信息包；

所述接收端开启语音合成功能，将与丢包区域相对应的所述文字信息包生成音频数据；以及

将所述音频数据补充至丢包的所述音频流数据包相对应的时间戳中。

2.如权利要求1所述的视频会议自动补音的方法，其特征在于，所述接收端对所述音频流数据包进行检测，判断所述音频流数据包是否丢包包括：

预设时间内未收到所述音频流数据包，则判断所述音频流数据包发生预设丢包；以及

预设时间内接收到所述音频流数据包，当所述音频流数据包的丢包数量超过丢包预设值时，则判断所述音频流数据包发生预设丢包。

3.如权利要求2所述的视频会议自动补音的方法，其特征在于，所述音频流数据包的所述丢包预设值为三个。

4.如权利要求1所述的视频会议自动补音的方法，其特征在于，所述生成音频数据的时间范围小于丢包起始时间，大于丢包结束时间。

5.如权利要求4所述的视频会议自动补音的方法，其特征在于，将所述音频数据补充至丢包的所述音频流数据包相对应的时间戳中包括：

截取所述生成音频数据中与丢包的所述音频流数据包相对应的音频数据，补充至丢包的所述音频流数据包相对应的时间戳中。

6.一种视频会议自动补音的系统，其特征在于，包括：

发送端，包括：

音频流模块，用以通过麦克风拾音形成音频流数据包；

语音识别模块，用以将所述音频流数据包转为文字信息包；及

发送模块；以及

接收端，包括：

接收模块，用以接收所述发送端的所述发送模块发送的所述音频流数据包和所述文字信息包；

检测判断模块，用以对所述音频流数据包进行检测，并判断所述音频流数据包是否丢包；

对比模块，当发生丢包时，所述对比模块用以将已接收的所述音频流数据包的时间戳与已接收的所述文字信息包的时间戳进行比对，找到所述音频流数据包丢包区域相对应的所述文字信息包；

语音合成模块，用以将与丢包区域相对应的所述文字信息包生成音频数据；及

音频数据补充模块，用以将所述音频数据补充至丢包的所述音频流数据包相对应的时间戳中。

7.如权利要求6所述的视频会议自动补音的系统，其特征在于，所述检测判断模块对所述音频流数据包进行检测，并判断所述音频流数据包是否丢包包括：

8.如权利要求7所述的视频会议自动补音的系统，其特征在于，所述音频流数据包的丢包预设值为三个。

9.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-5任意一项所述的视频会议自动补音的方法。

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5任意一项所述的视频会议自动补音的方法。