CN116647710B

CN116647710B - 一种基于社交群聊的直播方法、系统及存储介质

Info

Publication number: CN116647710B
Application number: CN202310655255.0A
Authority: CN
Inventors: 王芗琦; 蒙智莉
Original assignee: Meiqi Jiacheng Network Technology Co ltd
Current assignee: Meiqi Jiacheng Network Technology Co ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2024-01-26
Anticipated expiration: 2043-06-05
Also published as: CN116647710A

Abstract

本发明公开了一种基于社交群聊的直播方法、系统及存储介质，基于社交网络状况数据，分析用户群体网络状况，并生成不同用户的用户网络状况信息；计算分析用户直播视频数据中的数据完整度，结合用户网络状况信息生成不同用户的网络传输方案；基于网络传输方案与所述数据完整度对用户直播视频数据进行数据修复并得到修正直播视频数据；将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据；将修正直播视频数据与实时字幕数据发送至接收方用户终端设备。通过本发明，能够有效提高多人社交直播时画面的完整度与连续性、并基于本发明方法，能够有效提高直播系统对多用户终端下与多种网络环境下的适应能力。

Description

一种基于社交群聊的直播方法、系统及存储介质

技术领域

本发明涉及直播数据处理领域，更具体的，涉及一种基于社交群聊的直播方法、系统及存储介质。

背景技术

网络直播是可以同一时间透过网络系统在不同的交流平台观看影片的一种网络视频体现形式，是一种新兴的网络社交方式，网络直播平台也成为了一种崭新的社交媒体。主要分为实时直播游戏、电影或电视剧，介绍产品知识及销售产品等。另外，直播的发展也促进在会议、电商等领域的高速发展。

新时代背景下，网络直播作为新兴的传播形式，网络直播能量巨大。唯有借力技术，拓展领域，加强管理，不断创新，更多更好地激发其经济价值和社会价值，网络直播行业才能更加稳步健康地发展，为社会做出更大贡献。

但是，受制于网络波动与硬件资源等条件，社交直播依然存在视频数据传输速率慢、直播画面卡顿、画面失真、实时字幕缺失等问题，从而大大降低了用户体验。

发明内容

本发明克服了现有技术的缺陷，提出了一种基于社交群聊的直播方法、系统及存储介质。

本发明第一方面提供了一种基于社交群聊的直播方法，包括：

实时获取发送方的用户直播视频数据；

基于社交网络状况数据，分析用户群体网络状况，并生成不同用户的用户网络状况信息；

计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案；

基于网络传输方案与所述数据完整度对用户直播视频数据进行数据修复并得到修正直播视频数据；

从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据；

将修正直播视频数据与实时字幕数据发送至接收方用户终端设备。

本方案中，所述基于社交网络状况数据，分析用户群体网络状况，并生成不同用户的用户网络状况信息，具体为：

从社交网络状况数据中提取出网络波动信息、网络丢包率、网络平均延迟信息；

基于所述网络波动信息、网络丢包率、网络平均延迟信息，对每个用户生成对应的用户网络状况信息。

本方案中，所述计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案，之前包括：

将用户直播视频数据进行数据标准化与数据解压预处理，得到中间视频数据；

对中间视频数据进行关键帧提取，得到关键图像帧数据；

基于关键图像帧数据进行人物区域与背景区域识别，并基于人物区域与背景区域进行特征提取，得到人物图像特征与背景图像特征；

分析并计算人物图像特征与背景图像特征的特征连续度与完整度，基于所述特征连续度与完整度进行分析得到整个用户直播视频数据的数据完整度。

本方案中，所述计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案，包括：

获取中间视频数据的数据量并得到整体数据量；

基于人物图像特征与背景图像特征的特征连续度与完整度进行修复数据量计算，得到修复数据量与视频修复数据区域；

获取系统硬件资源信息、基于系统硬件资源信息、修复数据量、所述整体数据量进行实时修复时间预估分析，得到多段数据的修复时间；

将所述多段数据的修复时间进行均值计算得到时间均值，将所述时间均值作为主动延迟时间；

基于主动延迟时间、修复数据量、视频修复数据区域、用户网络状况信息生成不同用户对应的网络传输方案。

本方案中，所述基于网络传输方案与所述数据完整度对用户直播视频数据进行数据修复并得到修正直播视频数据，具体为：

获取用户直播视频数据中的关键图像帧数据；

从关键图像帧数据中进行随机图像帧提取，得到选取图像帧；

判断选取图像帧中的人物轮廓特征与人物色彩特征的完整度是否小于预设完整度，若是，则循环进行随机图像帧提取，直至选取图像帧中对应的人物轮廓特征与人物色彩特征的完整度均大于预设完整度；

从选取图像帧中进行人物特征提取得到修复人物特征信息；

将网络传输方案中的主动延迟时间作为背景更新周期；

基于背景更新周期，从关键图像帧数据中获取对应周期内的图像帧，得到选取背景图像帧；

从选取背景图像帧中进行背景特征提取并得到修复背景特征信息；

基于网络传输方案中的视频修复数据区域，从所述人物图像特征与背景图像特征提取出待修复人物特征与待修复背景特征；

将修复人物特征信息与待修复人物特征进行特征融合修复，得到修正人物特征；

将修复背景特征信息与待修复背景特征进行特征融合修复，得到修正背景特征；

基于修正人物特征与修正背景特征，对用户直播视频数据进行数据覆盖修正，得到修正直播视频数据。

本方案中，所述从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据，之前包括：

获取所有用户的历史用户直播数据；

从所述历史用户直播数据进行音频数据数据提取并得到历史用户音频数据；

选定一个当前用户，从历史用户音频数据提取出当前用户历史音频数据与对应音频文字数据；

将当前用户历史音频数据进行音频数据标准化处理，将处理后的数据标记为音频数据集；

将音频数据集与音频文字数据进行整合得到语音训练数据；

构建基于CNN的语音分析模型；

将语音训练数据导入语音分析模型进行语义识别训练与音频特征分析，得到当前用户音频特征数据；

将音频文字数据导入语音分析模型进行语义分割，得到词汇数据；

对词汇数据进行词汇频率计算，筛选出高于预设频率值的词汇得到高频词汇数据；

基于高频词汇数据从当前用户音频特征数据中获取对应的高频音频数据；

将高频词汇数据与高频音频数据进行关联映射，并得到高频语音关联数据；

对其他用户对应的用户历史音频数据与对应音频文字数据进行分析并得到其他用户对应的用户音频特征数据与高频语音关联数据；

将所有用户对应的用户音频特征数据与高频语音关联数据导入语音数据库中。

本方案中，所述从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据，具体为：

获取直播用户信息；

基于直播用户信息从语音数据库中提取出对应用户的用户音频特征数据与高频语音关联数据；

将所述用户音频特征数据与高频语音关联数据标记为预加载语音数据；

从修正直播视频数据中提取直播音频数据，将预加载语音数据与直播音频数据导入语音分析模型进行语音分析与语义识别并得到实时字幕数据。

本发明第二方面还提供了一种基于社交群聊的直播系统，该系统包括：存储器、处理器，所述存储器中包括基于社交群聊的直播程序，所述基于社交群聊的直播程序被所述处理器执行时实现如下步骤：

实时获取发送方的用户直播视频数据；

对中间视频数据进行关键帧提取，得到关键图像帧数据；

附图说明

图1示出了本发明一种基于社交群聊的直播方法的流程图；

图2示出了本发明获取用户网络状况信息流程图；

图3示出了本发明获取网络传输方案流程图；

图4示出了本发明一种基于社交群聊的直播系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于社交群聊的直播方法的流程图。

如图1所示，本发明第一方面提供了一种基于社交群聊的直播方法，包括：

S102，实时获取发送方的用户直播视频数据；

S104，基于社交网络状况数据，分析用户群体网络状况，并生成不同用户的用户网络状况信息；

S106，计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案；

S108，基于网络传输方案与所述数据完整度对用户直播视频数据进行数据修复并得到修正直播视频数据；

S110，从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据；

S112，将修正直播视频数据与实时字幕数据发送至接收方用户终端设备。

需要说明的是，所述用户终端设备包括计算机终端设备与移动终端设备。

图2示出了本发明获取用户网络状况信息流程图。

根据本发明实施例，所述基于社交网络状况数据，分析用户群体网络状况，并生成不同用户的用户网络状况信息，具体为：

S202，从社交网络状况数据中提取出网络波动信息、网络丢包率、网络平均延迟信息；

S204，基于所述网络波动信息、网络丢包率、网络平均延迟信息，对每个用户生成对应的用户网络状况信息。

根据本发明实施例，所述计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案，之前包括：

对中间视频数据进行关键帧提取，得到关键图像帧数据；

需要说明的是，所述特征连续度具体为图像特征中图像轮廓与色彩过渡的连续度，能够有效反映对应的图像是否存在缺失与失真问题，所述特征完整度具体为反映图像特征的缺失率。

图3示出了本发明获取网络传输方案流程图。

根据本发明实施例，所述计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案，包括：

S302，获取中间视频数据的数据量并得到整体数据量；

S304，基于人物图像特征与背景图像特征的特征连续度与完整度进行修复数据量计算，得到修复数据量与视频修复数据区域；

S306，获取系统硬件资源信息、基于系统硬件资源信息、修复数据量、所述整体数据量进行实时修复时间预估分析，得到多段数据的修复时间；

S308，将所述多段数据的修复时间进行均值计算得到时间均值，将所述时间均值作为主动延迟时间；

S310，基于主动延迟时间、修复数据量、视频修复数据区域、用户网络状况信息生成不同用户对应的网络传输方案。

需要说明的是，所述多段数据的修复时间中，由于视频修复数据区域一般存在多段区域，因此存在多段数据的修复时间。所述主动延迟时间一般为1～5秒。由于不同用户对应的用户网络状况信息不同，因此，对应得到的网络传输方案也存在区别，值得一提的是，每个用户对应的主动延迟时间也存在差异。所述人物图像特征与背景图像特征包括关键图像帧数据中所有图像帧提取得到的特征。

另外，在社交直播过程中，由于受每个用户的网络波动，硬件资源、网络资源等影响，有可能会出现直播画面卡顿、不连续、缺失等情况，大大影响了直播社交用户体验，本发明通过分析当前用户直播视频数据中需要修复的数据量，并结合系统硬件资源信息等计算出主动延迟时间，系统可以通过设置主动延迟时间，对直播视频数据进行主动延迟，在延迟时间内，系统对视频数据进行相应的数据修复与字幕生成，从而在适当提高延迟的情况下，大大增加用户直播画面的连续性，有效提高直播体验感，在进行多人同时社交直播环境下作用尤为明显，进而有效提高直播系统对多用户终端下与多种网络环境下的适应能力。

根据本发明实施例，所述基于网络传输方案与所述数据完整度对用户直播视频数据进行数据修复并得到修正直播视频数据，具体为：

获取用户直播视频数据中的关键图像帧数据；

从选取图像帧中进行人物特征提取得到修复人物特征信息；

将网络传输方案中的主动延迟时间作为背景更新周期；

需要说明的是，所述将网络传输方案中的主动延迟时间作为背景更新周期中，由于社交直播应用中，直播画面的背景一般为次要因素，而人物画面为主要特征，因此，在一个用户的网络传输方案中，将对应主动延迟时间作为背景更新周期，基于更新周期对用户直播视频数据进行背景特征提取，并对相应待修复数据进行修正，即周期性的背景修正，从而减少直播时视频数据的传输量，并且在保证不损失用户画面内容的情况下有效提高和面流畅度，进而提高用户直播体验。所述判断选取图像帧中的人物轮廓特征与人物色彩特征的完整度是否小于预设完整度中，作用主要为选取出具有高质量的人物特征信息，从而作为修复信息对后续人物特征进行修复。

根据本发明实施例，所述从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据，之前包括：

获取所有用户的历史用户直播数据；

将音频数据集与音频文字数据进行整合得到语音训练数据；

构建基于CNN的语音分析模型；

需要说明的是，在社交直播中，每个用户的语音特征存在较大差异，且每个用户有特定的言语习惯，本发明通过提前对每个用户的语音数据进行收集训练与分析得到对应的语音特征数据，基于每个用户的语音特征数据，能够在后续进行语音语义识别中提高识别速度与准确率，另外，本发明通过对用户出现过的高频词汇与语音数据进行提取并与数据关联，形成每个用户特定的高频语音关联数据，从而有效提高后续对某个用户进行语音语义识别与字幕生成时的效率，进而提高直播体验。所述语音分析模型具体为一种通过CNN(卷积神经网络)搭建得到的语音分析识别模型，通过该模型能够对语音数据与文字数据进行语音训练、语义识别、语音特征分析等。所述语音分析模型包括语音分析模型与语义分析模型。

根据本发明实施例，所述从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据，具体为：

获取直播用户信息；

需要说明的是，所述直播用户信息包括一次社交直播中的所有用户，在数据传输层面，则包括发送方用户与接收方用户。

根据本发明实施例，还包括：

获取直播主题信息；

基于直播主题信息从互联网大数据中进行相关数据检索，得到主题关联大数据；

将直播主题信息进行语义分析，得到主题语义特征；

基于主题语义特征，从主题关联大数据进行关联词获取，并基于关联词与主题语义特征的相关性进行分类，得到一级关联词数据、二级关联词数据、三级关联词数据；

基于预设比例，从一级关联词数据、二级关联词数据、三级关联词数据中提取出相应的关联词并进行整合得到结果关联词；

将用户音频特征数据与结果关联词导入语音分析模型进行用户音频模拟并生成结果关联词所对应的关联音频特征数据；

将结果关联词与关联音频特征数据进行关联映射并形成主题语音关联数据；

将主题语音关联数据作为补充数据并入预加载语音数据中，将预加载语音数据导入语音分析模型。

需要说明的是，在进行实时语音数据分析与字幕生成的过程中，由于该过程需要较高的实时性，因此，本发明通过提前对直播主题的关联词分析，并进一步基于关联词模拟出当前直播用户对应的关联音频特征数据，基于关联音频特征数据，大大提高了后续语音识别与字幕生成的效率，进一步提高用户直播体验。

另外，所述一级关联词数据与主题的相关性最高、二级关联词数据次之、三级关联词数据最低。所述预设比例一般7:2:1，即最后提取出的结果关联词数据中，一级、二级、三级关联词数据所占比例为7:2:1。

图4示出了本发明一种基于社交群聊的直播系统的框图。

本发明第二方面还提供了一种基于社交群聊的直播系统4，该系统包括：存储器41、处理器42，所述存储器中包括基于社交群聊的直播程序，所述基于社交群聊的直播程序被所述处理器执行时实现如下步骤：

实时获取发送方的用户直播视频数据；

对中间视频数据进行关键帧提取，得到关键图像帧数据；

获取中间视频数据的数据量并得到整体数据量；

获取用户直播视频数据中的关键图像帧数据；

从选取图像帧中进行人物特征提取得到修复人物特征信息；

将网络传输方案中的主动延迟时间作为背景更新周期；

获取所有用户的历史用户直播数据；

将音频数据集与音频文字数据进行整合得到语音训练数据；

构建基于CNN的语音分析模型；

获取直播用户信息；

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于社交群聊的直播方法，其特征在于，包括：

实时获取发送方的用户直播视频数据；

将修正直播视频数据与实时字幕数据发送至接收方用户终端设备；

其中，所述计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案，之前包括：

对中间视频数据进行关键帧提取，得到关键图像帧数据；

分析并计算人物图像特征与背景图像特征的特征连续度与完整度，基于所述特征连续度与完整度进行分析得到整个用户直播视频数据的数据完整度；

其中，所述计算分析用户直播视频数据中的数据完整度，根据所述数据完整度与用户网络状况信息生成不同用户的网络传输方案，包括：

获取中间视频数据的数据量并得到整体数据量；

基于主动延迟时间、修复数据量、视频修复数据区域、用户网络状况信息生成不同用户对应的网络传输方案；

其中，所述基于网络传输方案与所述数据完整度对用户直播视频数据进行数据修复并得到修正直播视频数据，具体为：

获取用户直播视频数据中的关键图像帧数据；

从选取图像帧中进行人物特征提取得到修复人物特征信息；

将网络传输方案中的主动延迟时间作为背景更新周期；

2.根据权利要求1所述的一种基于社交群聊的直播方法，其特征在于，所述基于社交网络状况数据，分析用户群体网络状况，并生成不同用户的用户网络状况信息，具体为：

3.根据权利要求1所述的一种基于社交群聊的直播方法，其特征在于，所述从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据，之前包括：

获取所有用户的历史用户直播数据；

将音频数据集与音频文字数据进行整合得到语音训练数据；

构建基于CNN的语音分析模型；

4.根据权利要求3所述的一种基于社交群聊的直播方法，其特征在于，所述从修正直播视频数据中提取直播音频数据，将直播音频数据导入语音分析模型进行语义识别并生成实时字幕数据，具体为：

获取直播用户信息；

5.一种基于社交群聊的直播系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括基于社交群聊的直播程序，所述基于社交群聊的直播程序被所述处理器执行时实现如下步骤：

实时获取发送方的用户直播视频数据；

对中间视频数据进行关键帧提取，得到关键图像帧数据；

获取中间视频数据的数据量并得到整体数据量；

获取用户直播视频数据中的关键图像帧数据；

从选取图像帧中进行人物特征提取得到修复人物特征信息；

将网络传输方案中的主动延迟时间作为背景更新周期；

6.根据权利要求5所述的一种基于社交群聊的直播系统，其特征在于，所述基于社交网络状况数据，分析用户群体网络状况，并生成不同用户的用户网络状况信息，具体为：