CN116527840A

CN116527840A - 一种基于云边协同的直播会议智能字幕显示方法和系统

Info

Publication number: CN116527840A
Application number: CN202310816499.2A
Authority: CN
Inventors: 郑伟平; 李海平
Original assignee: Aspire Technologies Shenzhen Ltd
Current assignee: Aspire Technologies Shenzhen Ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-08-01
Anticipated expiration: 2043-07-05
Also published as: CN116527840B

Abstract

本发明公开了一种基于云边协同的直播会议智能字幕显示方法和系统，若干视频会议终端用户将用户侧的声音、视频和图像发送至云端处理服务器，根据在线会议的不同场景分别在近用户的边缘侧和云端（具体）进行音视频处理，识别语音并转化为文本，然后切换为字幕再合并回视频，并推送带有字幕的视频流给在线会议的参与方；从而实现实时的字幕显示，让不同与会者在任何环境中都可以实时了解会议的内容，提高会议沟通效率。

Description

一种基于云边协同的直播会议智能字幕显示方法和系统

技术领域

本发明属于线上会议通讯技术领域，具体涉及一种基于云边协同的直播会议智能字幕显示方法和系统。

背景技术

近年来，传统的线下办公方式离我们渐行渐远，全球经济正迅速向“移动办公”转变；某些特殊事件的持续发展及其反复带来的是工作场景和工作模式的变化，而办公离散化需要依靠移动办公能力的技术支持，随着办公能力互动性和沟通效率的持续改善，用户远程线上办公习惯已养成。

移动办公场景应用最多的是多人在线视频会议，其能够实现多人同时在网络上进行面对面的会议，通过传输线路及手机或PC设备，将声音、影像及文件资料互传，实现即时且互动的沟通。与传统线下面对面开会最大的区别，是远程线上会议拉近了不同时空的人的距离。现有技术方案可以保障移动办公的音视频的同步和高质量播放，但是不能提供实时字幕；对于不便外放视频声音的公共场景，诸如公交、地铁、仪式现场等嘈杂环境中，或者使用对象为听障群体时，在缺乏字幕的情况下，依靠声音获得信息，是一个巨大的挑战。

传统字幕制作需要人工听写音频、翻译、切分时间轴、校对、制作以及压制等步骤，存在效率低下、时效性差等问题，不能满足当前视频会议实时字幕的需求。由于某些特殊事件的催化，移动办公非常普遍，虽然现有的在线会议系统解决了办公场景下员工刚性协作需求，但依然存在信息沟通不畅、音视频内容理解有偏差，以及沟通社交有限等短板。因此需要拓展将智能字幕应用到移动办公场合中的技术，有效弥补传统云办公的“弱理解”短板。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种基于云边协同的直播会议智能字幕显示方法和系统，实现实时的字幕显示，让不同与会者在任何环境中都可以实时了解会议的内容，提高会议沟通效率。

本发明所采用的技术方案为：

一种基于云边协同的直播会议智能字幕显示系统，包括有云端处理服务器、边缘处理器和若干个视频会议终端用户；

所述云端处理服务器用于接收用户侧的声音、视频和图像，并实时响应生成对应的直播互动音视频画面；

所述边缘处理器用于利用AI技术对直播互动音视频画面进行处理形成智能字幕，并回传至每个所述视频会议终端用户；

每个所述视频会议终端用户用于向云端处理服务器发送用户侧的声音、视频和图像；并接收边缘处理器回传的智能字幕后，进行解码展示。

进一步地，所述边缘处理器设置有编解码处理模块、语音识别处理模块和字幕处理模块；编解码处理模块分为编码处理模块和解码处理模块；

所述编码处理模块用于对处理好的字幕重新加入到视频中；

所述解码处理模块用于针对流媒体进行音视频分离；

所述语音识别处理模块用于针对解码后的音频数据调用ASR技术进行语音转文本处理；

所述字幕处理模块用于调用NLP对文本内容进行人工智能的内容微调，并形成字幕内容后推送给编码模块。

进一步地，所述云端处理服务器还设置有云备份模块，所述云备份模块用于记录保存用户侧的原始声音、视频和图像信息；以及边缘处理器形成智能的字幕信息。

进一步地，所述边缘处理器对直播互动音视频画面通过识别视频类型、画面内容，对直播互动音视频画面进行智能识别语音分区，去除噪音，根据图谱热词、智能纠错、语义分析、音纹处理，实现语音听写、翻译、切分时间轴，从而对直播互动音视频画面进行编码压缩生成音视频流数据。

进一步地，所述边缘处理器对直播互动音视频画面进行智能字幕处理包括以下内容：

音频降噪和识别人声。

进一步地，所述边缘处理器通过音频降噪去除会议场景的会议背景音、杂音和会议室空调音；

所述边缘处理器识别人声包括以下内容：

采用特征提取、声学模型、语言模型和编码器进行信号处理，从直播流中识别语音。

进一步地，每个所述视频会议终端用户接收边缘处理器回传的智能字幕的同时合并视频源站，进行解码展示。

本发明还涉及一种基于云边协同的直播会议智能字幕显示方法，使用上述基于云边协同的直播会议智能字幕显示系统，包括有以下步骤：

S01，所有视频会议终端用户将在线会议音视频信息流输入至云端处理服务器；

S02，云端处理服务器收集所有视频会议终端用户的在线会议音视频输入信息流；

S03，云端处理服务器对在线会议音视频信息流进行转码、编码、压缩处理，生成对应的直播互动音视频画面；

S04，云端处理服务器将处理后的直播互动音视频画面通过网络传输至边缘处理器；

S05，边缘处理器进行智能字幕处理；

S06，边缘处理器对智能字幕与直播互动音视频画面进行混编，自动对齐直播互动音视频画面的时间轴；

S07，将混编有智能字幕的直播互动音视频画面传输返回至所有视频会议终端用户；

S08，根据在线会议的不同场景分别在近用户的边缘侧和云端进行音视频处理，识别语音并转化为文本，然后切换为字幕再合并回视频，并推送带有字幕的视频流给在线会议的参与方。

再进一步地，所述步骤S05中包括有以下内容：

边缘处理器对直播互动音视频画面进行音频分享，识别视频中的人声，并基于机器学习，获得文本结果，生成智能字幕。

再进一步地，所述步骤S05中包括有以下内容：

所述边缘处理器包括有遍布全国的若干个边缘计算节点；

所述边缘处理器通过若干个边缘计算节点将智能语音识别转写文字、自动解析语音并即时切分时间轴、NMT神经网络机器翻译三项核心技术放置边端处理，对讲话者停顿、上下文关系进行实时判断并完成断句，依据断句对时间轴智能切分，最终将字幕逐句、完整显示在对应的时间戳。

本发明的有益效果为：

一种基于云边协同的直播会议智能字幕显示系统和方法，若干视频会议终端用户将用户侧的声音、视频和图像发送至云端处理服务器，根据在线会议的不同场景分别在近用户的边缘侧和云端（具体）进行音视频处理，识别语音并转化为文本，然后切换为字幕再合并回视频，并推送带有字幕的视频流给在线会议的参与方；从而实现实时的字幕显示，让不同与会者在任何环境中都可以实时了解会议的内容，提高会议沟通效率。

附图说明

图1是本发明基于云边协同的直播会议智能字幕显示系统的架构示意图；

图2是本发明基于云边协同的直播会议智能字幕显示方法的简介示意图；

图3是本发明基于云边协同的直播会议智能字幕显示方法的原理示意图；

图4是本发明基于云边协同的直播会议智能字幕显示方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1～4所示，为解决现有技术中普遍存在的问题，本发明提供一种基于云边协同的直播会议智能字幕显示方法和系统，整体策划方案为：

通过云边协同，根据在线会议的不同场景分别在近用户的边缘侧和云端进行音视频处理，识别语音并转化为文本，然后切换为字幕再合并回视频，并推送带有字幕的视频流给在线会议的参与方。

实时会议画面和语音的智能文本识别并提供字幕处理技术，是随处办公这种新形态在线会议的特点。未来移动办公的一个重要能力特征就是提供实时直播智能字幕技术。

智能字幕技术是利用AI技术，通过对视频中的语音进行智能识别，将视频内的语音转为文字，并以字幕的形式呈现在会议终端屏幕上。语音转文字功能都内嵌在视频中，通过AI算法让会议各方“看见”声音。

1、在线会议音视频处理运行在云端 GPU 机器上，运行的结果在云端进行

2、边缘端服务对音视频进行编码压缩生成音视频流数据，边缘在处理的过程中通过识别视频类型、画面内容，对直播视频智能识别语音分区，去除噪音，根据图谱热词、智能纠错、语义分析、音纹处理等智能手段，实现语音听写、翻译、切分时间轴等工作

3、字幕合并回源视频流，传送到用户终端，终端完成解码展示

4、视频会议终端用户互动过程中，向云端发送各种声音、图像，云端收到用户侧音视频后，云端实时响应生成对应的互动视频画面，然后再继续在边缘端对直播互动视频智能字幕处理后传回到用户终端，从而达成互动体验的一种新型模式，解决处于静音或噪杂环境下“听不见、听不清、听不准”的难题

算法的核心思想：云边协同的语音智能识别和直播会议字幕合成。

1.人声智能识别和转换

实时智能字幕是实时处理直播会议中音视频中的人声，自动转成字幕。核心在于音频降噪和识别人声。由于会议场景通常都比较复杂，有会议背景音、杂音、会议室空调音等干扰，通过引入降噪技术，可以有效降低噪音对语音转写的干扰，并依托信号处理和特征提取、声学模型、语言模型、编码器从直播流中识别语音。

2.云边协同，利用边缘算力实现实时字幕翻译

直播会议智能字幕能力从“端”到“云”和“边”，利用遍布全国的边缘计算节点，进行实现算力的高效合理利用和分配，将智能语音识别转写文字、自动解析语音并即时切分时间轴、NMT神经网络机器翻译三项核心技术放置边端处理，能快速实现自动解析语音并即时切分时间轴，实现对讲话者停顿、上下文关系的实时判断并完成断句。同时，依据断句对时间轴智能切分，最终实现字幕逐句、完整显示在对应的时间戳，最终呈现直播会议可以实施看到字幕的最佳效果。

具体地，首先提供一种基于云边协同的直播会议智能字幕显示系统，包括有云端处理服务器、边缘处理器和若干个视频会议终端用户；所述云端处理服务器用于接收用户侧的声音、视频和图像，并实时响应生成对应的直播互动音视频画面；

边缘处理器用于利用AI技术对直播互动音视频画面进行处理形成智能字幕，并回传至每个所述视频会议终端用户；

利用AI技术，先进行自动语音识别ASR处理（ Automatic Speech Recognition，ASR），实现语音转文本。再针对文本，利用AI的NLP自然语言处理( Natural LanguageProcessing, NLP)进行机器翻译。

每个视频会议终端用户用于向云端处理服务器发送用户侧的声音、视频和图像；并接收边缘处理器回传的智能字幕后，进行解码展示。

进一步地，边缘处理器设置有编解码处理模块、语音识别处理模块和字幕处理模块；编解码处理模块分为编码处理模块和解码处理模块；

编码处理模块：对处理好的字幕重新加入到视频中；解码处理模块：针对流媒体进行音视频分离；语音识别处理模块，针对解码后的音频数据调用ASR技术进行语音转文本处理；字幕处理模块，调用NLP对文本内容进行人工智能的内容微调，确保文本内容和语音内容是相匹配，并形成字幕内容后推送给编码模块。

进一步地，云端处理服务器还设置云备份模块，云备份模块用于记录保存用户侧的原始声音、视频和图像信息；以及边缘处理器形成智能的字幕信息。

进一步地，边缘处理器对直播互动音视频画面通过识别视频类型、画面内容，对直播互动音视频画面进行智能识别语音分区，去除噪音，根据图谱热词、智能纠错、语义分析、音纹处理，实现语音听写、翻译、切分时间轴，从而对直播互动音视频画面进行编码压缩生成音视频流数据。

视频内容识别使用 AI 对视频内容进行智能识别。对视频执行内容识别后，执行结果将给出识别到的视频画面中的文字，以及语音中的文字。根据视频内容识别的结果，结合时间轴，生成字幕流，再将字幕流和直播流重新编码后推流回客户端。智能识别语音分区，去除噪音，根据图谱热词、智能纠错、语义分析、音纹处理具体包括：1、对视频的语音内容转化后的文本做数据分析；2、排查语音中的敏感词，进行去除；3、检索语音中提到的特定关键词（如热词，进行内容填补，如社恐，那么在字幕的时候，就打上社恐（社交恐惧症））；智能纠错，因为中文是拼音法，所以包括了同音词纠错、模糊音纠错、多字纠错、少字纠错等。例如，同音词纠错。是针对比较容易出现同音词，通过知识图谱和先验概率数学理论，来找到出现概率较大的词语，比如“失误”和“食物”，那如果是在赛事直播中，基本上就是“失误”，而不是“食物”。知识图谱，主要围绕一些关键的人物、内容，进行。声纹识别是指人类在说话时，其状态相对稳定的。但受到场景、情绪的影响，声纹特型会出现变化。比如虽然都是同一个人，正常的对话的访谈音频和唱歌的歌曲音频，两种情况下的发声方式会有较大区别，经过样本训练后可以识别出场景，便于后续字幕内容的正确率提升。

进一步地，边缘处理器对直播互动音视频画面进行智能字幕处理包括以下内容：

音频降噪和识别人声。

进一步地，边缘处理器通过音频降噪去除会议场景的会议背景音、杂音和会议室空调音。

使用回声消除技术，使用DSP 数字信号处理技术对平稳的噪声建模，找到音频中的噪音的规律将其去除。例如闹钟的敲打声、下雨的滴答声。同时利用机器学习对主讲人的声音进行建模，采用复杂性较低的 CNN（卷积神经网络）将其他所有声音如敲打键盘的声音、麦克风的电干扰声当作噪音抹去。

进一步地，边缘处理器识别人声包括以下内容：

采用特征提取、声学模型、语言模型和编码器进行信号处理和特征提取，从直播流中识别语音。

语音识别包括输入和输出两部分。输入：对一段声音文件进行播放的序列。输出：一段文本序列。处理过程包括：声学模型、语音模型、语音解码和语义特征提取。根据声学模型，以及语音模型，语义特征进行说啥，构建的搜索空间，找到最合适的路径。解码完成后最终输出文本。

整个处理过程需要对流媒体进行音视频分流，对音频进行处理，其中声学识别模型是对语音到音节的计算，而语言理解模型是音节到字的计算。整体包括特征提取、声学模型、语言模型和解码器这四个主要部分。特征提取通过静音处理、噪音处理、语音增强等方法，消除外部环境对语音的影响，去除多余信息，保留能够反映语音本质特征的关键信息。声学模型是对声音进行建模，对音频波形进行声学特征提取，提取关键信息和表达语言含义的特征信息，把语音输入转换为声学表示的输出。语言模型是用来计算出一个句子出现概率的模型，通过计算来判断句子在语法上是否正确的概率。采用的是统计语法的语音模型、语义和语法结构命令语言模型为主，对语法和语义进行分析，减少搜索空间，提高系统识别。解码器就是指语音技术中的识别过程。语音识别的本质就是一种模式识别的过程，将未知的语音模式与已知的语音模式进行对比，最佳匹配的参考模式就被视为识别结果。

视频源站就是指原始视频，也称视频源站。原始视频是不带字幕的，经过云边处理后，将字幕加入到视频中，形成带字幕的新视频。

在边缘完成上述语音识别处理后生成字幕流，再与源直播流合并。这样视频会议终端用户就可以看到带有字幕的直播视频流。

解码为正常的客户端视频会议终端的视频解码，例如H.265的解码等。

S05，边缘处理器进行智能字幕处理；

S07，将混编有智能字幕的直播互动音视频画面传输返回至所有视频会议终端用户。

S08，根据在线会议的不同场景分别在近用户的边缘侧和云端进行音视频处理，识别语音并转化为文本，然后切换为字幕再合并回视频，并推送带有字幕的视频流给在线会议的参与方；

具体按客户访问的IP地址进行划分。

再进一步地，步骤S05中包括以下内容：

再进一步地，步骤S05中还包括以下内容：

边缘处理器包括有遍布全国的若干个边缘计算节点；

边缘处理器通过若干个边缘计算节点将智能语音识别转写文字、自动解析语音并即时切分时间轴、NMT神经网络机器翻译三项核心技术放置边端处理，对讲话者停顿、上下文关系进行实时判断并完成断句，依据断句对时间轴智能切分，最终将字幕逐句、完整显示在对应的时间戳。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于云边协同的直播会议智能字幕显示系统，其特征在于：包括有云端处理服务器、边缘处理器和若干个视频会议终端用户；

2.根据权利要求1所述基于云边协同的直播会议智能字幕显示系统，其特征在于：所述边缘处理器设置有编解码处理模块、语音识别处理模块和字幕处理模块；编解码处理模块分为编码处理模块和解码处理模块；

所述编码处理模块用于对处理好的字幕重新加入到视频中；

所述解码处理模块用于针对流媒体进行音视频分离；

3.根据权利要求1所述基于云边协同的直播会议智能字幕显示系统，其特征在于：所述云端处理服务器还设置有云备份模块，所述云备份模块用于记录保存用户侧的原始声音、视频和图像信息；以及边缘处理器形成智能的字幕信息。

4.根据权利要求1所述基于云边协同的直播会议智能字幕显示系统，其特征在于：

所述边缘处理器对直播互动音视频画面通过识别视频类型、画面内容，对直播互动音视频画面进行智能识别语音分区，去除噪音，根据图谱热词、智能纠错、语义分析、音纹处理，实现语音听写、翻译、切分时间轴，从而对直播互动音视频画面进行编码压缩生成音视频流数据。

5.根据权利要求4所述基于云边协同的直播会议智能字幕显示系统，其特征在于：所述边缘处理器对直播互动音视频画面进行智能字幕处理包括以下内容：

音频降噪和识别人声。

6.根据权利要求5所述基于云边协同的直播会议智能字幕显示系统，其特征在于：

所述边缘处理器通过音频降噪去除会议场景的会议背景音、杂音和会议室空调音；

所述边缘处理器采用特征提取、声学模型、语言模型和编码器进行信号处理，从直播流中识别语音。

7.根据权利要求6所述基于云边协同的直播会议智能字幕显示系统，其特征在于：

每个所述视频会议终端用户接收边缘处理器回传的智能字幕的同时合并视频源站，进行解码展示。

8.一种基于云边协同的直播会议智能字幕显示方法，其特征在于：使用权利要求1～7之一所述基于云边协同的直播会议智能字幕显示系统，包括有以下步骤：

S05，边缘处理器进行智能字幕处理；

9.根据权利要求8所述基于云边协同的直播会议智能字幕显示方法，其特征在于：所述步骤S05中包括有以下内容：

10.根据权利要求8所述基于云边协同的直播会议智能字幕显示方法，其特征在于：所述步骤S05中包括有以下内容：

所述边缘处理器包括有遍布全国的若干个边缘计算节点；