CN115190314A

CN115190314A - 视频录制编码参数的调整方法及相关设备

Info

Publication number: CN115190314A
Application number: CN202210724837.5A
Authority: CN
Inventors: 杜春华; 江泽龙
Original assignee: Afirstsoft Co Ltd
Current assignee: Afirstsoft Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-14

Abstract

本发明提供了一种视频录制编码参数的调整方法及相关设备，本发明的视频录制编码参数的调整方法利用预先训练好的场景分类模型、语音识别模型和语义识别模型对视频录制起始阶段预设时长的源视频数据中的视频帧数据和音频帧数据进行场景类型的判断，当获得了源视频数据当前所属的场景后，将源视频数据当前所属的场景作为视频录制的场景；再根据确定的场景从视频编码参数数据库的频编码参数集合中，获得视频录制的推荐编码器和推荐编码参数；最后利用推荐编码器和推荐编码参数对预设时长之后录制得到的后续视频数据进行编码。本发明的视频录制编码参数的调整方法实现了无需人工设置即可以实现不同场景类型下视频录制编码参数的自适应。

Description

视频录制编码参数的调整方法及相关设备

技术领域

本发明涉及视屏编码技术领域，尤其涉及一种视频录制编码参数的调整方法及相关设备。

背景技术

目前，在视频录制中，一般都是采用由用户尝试确定视频编码参数，进行视频数据的压缩，而对于不同的视频场景采用不同的编码器可能需要多次尝试才能得出比较好的压缩和质量效果，通过人工的方式确定视频编码参数的方式效率低，难以满足用户需求。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的旨在解决现有技术通过人工确定视频录制编码参数的方式效率低的技术问题。

本发明第一方面提供了一种视频录制编码参数的调整方法，所述视频录制编码参数的调整方法包括：

获取视频录制起始阶段预设时长的源视频数据；

利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测，获得所述源视频数据所属场景的第一概率分布；

利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别，获得所述源视频数据所属场景的第二概率分布；

对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布；

从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景；

判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合；

若存在，则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数；

利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。

在本发明第一方面一种可选的实施方式中，所述利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测，获得所述源视频数据所属场景的第一概率分布包括：

利用预先训练好的场景分类模型从所述视频帧数据中随机抽取若干的视频帧；

对每一所述视频帧进行分类特征提取；

收集提取到的所有所述分类特征，确定每个所述分类特征对应的场景类型；

统计得到的所有场景类型并计算每种场景类型所占的比例，得到所述源视频数据所属场景的第一概率分布。

在本发明第一方面一种可选的实施方式中，所述利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别，获得所述源视频数据所属场景的第二概率分布包括：

利用预先训练好的语音识别模型对所述源视频数据中的音频帧数据进行文本转换获得文本数据；

利用预先训练好的语义识别模型对所述文本数据进行词组拆分获得若干的关键词；

根据预设的推理逻辑对每个所述关键词进行语义推理，得到与每个所述关键词相关的场景类型；

统计得到的所有场景类型并计算每种场景类型所占的比例，得到所述源视频数据所属场景的第二概率分布。

在本发明第一方面一种可选的实施方式中，所述对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布包括：

对所述第一概率分布中每种场景类型的概率值乘以第一权重系数；

对所述第二概率分布中每种场景类型的概率值乘以第二权重系数；

以及对乘以所述第一比例系数后所述第一概率分布中和乘以所述第二比例系数后所述第二概率分布中的同种场景类型的运算后概率值进行相加；

汇总计算后得到的所有场景类型的运算后概率值，获得所述源视频数据所属场景的合计概率分布。

在本发明第一方面一种可选的实施方式中，所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之前包括：

构建不同场景类型的测试样本视频集；

采用不同的编码器和编码参数对不同场景类型的所述测试样本视频集进行编码测试；

根据编码后测试样本视频的数据大小和视频质量是否符合预设的要求确定每种场景类型下的推荐编码器和推荐编码参数；

将每种场景类型及其对应的所述推荐编码器和所述推荐编码参数组合集合保存到视频编码参数数据库中。

在本发明第一方面一种可选的实施方式中，所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。

在本发明第一方面一种可选的实施方式中，所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之后还包括：

若不存在，继续以用户设置的编码器和编码参数对所述预设时长之后录制得到的后续视频数据进行编码。

本发明第二方面提供了一种视频录制编码参数的调整装置，所述视频录制编码参数的调整装置包括：

获取模块，用于获取视频录制起始阶段预设时长的源视频数据；

第一概率分布计算模块，用于利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测，获得所述源视频数据所属场景的第一概率分布；

第二概率分布计算模块，用于利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别，获得所述源视频数据所属场景的第二概率分布；

权重运算模块，用于对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布；

选择模块，用于从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景；

判断模块，用于判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合；

解析模块，用于若存在，则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数；

编码模块，用于利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。

本发明第三方面提供了一种视频录制编码参数的调整设备，所述视频录制编码参数的调整设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频录制编码参数的调整设备执行如上述任一项所述的视频录制编码参数的调整方法。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的视频录制编码参数的调整方法。

有益效果：本发明提供了一种视频录制编码参数的调整方法及相关设备，本发明的视频录制编码参数的调整方法利用预先训练好的场景分类模型、语音识别模型和语义识别模型对视频录制起始阶段预设时长的源视频数据中的视频帧数据和音频帧数据进行场景类型的判断，当获得了源视频数据当前所属的场景后，将源视频数据当前所属的场景作为视频录制的场景；再根据确定的场景从视频编码参数数据库的频编码参数集合中，获得视频录制的推荐编码器和推荐编码参数；最后利用推荐编码器和推荐编码参数对预设时长之后录制得到的后续视频数据进行编码。本发明的视频录制编码参数的调整方法实现了无需人工设置即可以实现不同场景类型下视频录制编码参数的自适应。

附图说明

图1为本发明一种视频录制编码参数的调整方法的一个实施例示意图；

图2为本发明一种视频录制编码参数的调整装置的一个实施例示意图；

图3为本发明一种视频录制编码参数的调整设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种视频录制编码参数的调整方法及相关设备。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参阅图1，本发明第一方面提供了一种视频录制编码参数的调整方法，所述视频录制编码参数的调整方法包括：

S100、获取视频录制起始阶段预设时长的源视频数据；在本发明中，调整视频录制的编码参数之前需要先以默认的编码器和编码参数录制一段预设时长的源视频数据，然后根据预设时长的源视频数据来获得视频录制所属的场景类型；

S200、利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测，获得所述源视频数据所属场景的第一概率分布；在本发明中，场景分类模型使用机器学习模型，场景分类模型可以使用VGG网络结构，场景分类模型是基于对象的场景分类，以对象为识别单位，根据场景中出现的特定对象来区分不同的场景，基于视觉的场景分类方法大部分都是以对象为单位的，也就是说，通过识别一些有代表性的对象来确定自然界的位置，典型的基于对象的场景分类方法有以下的中间步骤，特征提取、重组和对象识别；在本发明中，其中一个重要的步骤就是基于源视频数据中的视频帧数据来获得视频录制当前所处的场景类型；所述场景类型包括动画，自然风景，体育运动，或者是混合类型等等；

S300、利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别，获得所述源视频数据所属场景的第二概率分布；在本发明中，除了根据源视频数据的视频帧数据判断场景之外，还会根据源视频数据的音频帧数据来判断视频录制的当前场景，最后结合两个得到场景概率确定最终视频录制所处的场景，从而便于确定视频录制较佳的编码参数；

S400、对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布；在本发明中，对获得基于源视频数据的视频帧数据确定的第一概率分布和基于源视频数据的音频帧数据确定的第二概率分布分配了不同的权重，这样做的好处在于可以使得最终确定的场景类型具有更高的准确性；

S500、从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景；在本发明中，在获得了合计概率分布之后，场景类型的概率越大，其也就更符合当前视频录制的场景类型，所以在本发明中以概率最大的场景类型作为所述源视频数据的所属场景；

S600、判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合；在本发明中，在确定好了视频录制的当前的场景类型之后，就可以通过从视频编码参数数据库找到与其适配的视频编码参数集合；

S700、若存在，则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数；当视频编码参数数据库中存在包括有包含所述源视频数据的所属场景的视频编码参数集合后，就可以从该视频编码参数集合获得对于该种场景类型更好的编码器和编码参数；

S800、利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。在获得了推荐编码器和推荐编码参数之后，运用推荐编码器和推荐编码参数对录制的视频数据进行编码就可以获得更好的压缩效果和更好的视频压缩质量。

利用预先训练好的场景分类模型从所述视频帧数据中随机抽取若干的视频帧；在本发明中所使用的场景分类模型需要预先通过测试视频合集进行训练，所使用的测试视频合集带有视频所属的场景类型标签，将场景分类模型判断的得到场景类型结果与实际的场景类型进行比较，调整场景分类模型内的网络参数，直至场景类型结果中概率最大的场景类型与实际的场景类型相同，且概率最大的场景类型的概率值大于预设的阈值；

对每一所述视频帧进行分类特征提取；在本实施例中，所述分类特征就是视频帧图像里面包括的各种元素，例如人物，自然环境等等；

收集提取到的所有所述分类特征，确定每个所述分类特征对应的场景类型；在本实施例中，例如提取到的人物分类特征，判断出该人物为动漫人物，则判定当前录制的场景可能是动画之类的，当然的一个分类特征对应的场景类型可能有多种；

统计得到的所有场景类型并计算每种场景类型所占的比例(即每种场景类型的概率)，得到所述源视频数据所属场景的第一概率分布。在本实施例中，例如通过对提取到的所述分类特征的识别，获得了场景类型可能是场景类型 1，场景类型2、场景类型3、场景类型4和场景类型5，在该步骤中，根据统计结果，获得了场景类型1出现了1次，场景类型2出现了4次，场景类型3 出现了2次，场景类型5出现了5，则场景类型1的概率为1/(1+4+2+5)，场景类型2的概率为4/(1+4+2+5)，其他场景类型的概率依次类推。

利用预先训练好的语音识别模型对所述源视频数据中的音频帧数据进行文本转换获得文本数据；在本发明中，语音识别模型可以采用speech To Text 模型转换成文本数据；

利用预先训练好的语义识别模型对所述文本数据进行词组拆分获得若干的关键词；在本发明中，文本数据一般长的句子或段落，为了更好的理解出文本数据的意思，所以需要对文本数据进行拆分；

根据预设的推理逻辑对每个所述关键词进行语义推理，得到与每个所述关键词相关的场景类型；在本实施例中，再对关键词进行语义推理时，一般采用语义联想的方式来获得其可能所属的类型，举例来说，获取到米老鼠这个关键词，可以很容易联想到其为卡通人物，也就是说这个词可以确定的一种类型为动画；

统计得到的所有场景类型并计算每种场景类型所占的比例，得到所述源视频数据所属场景的第二概率分布。在本实施例中，在根据关键词得到所有的场景类型之后，根据第一概率分布的方式计算得到第二概率分布。

对所述第一概率分布中每种场景类型的概率值乘以第一权重系数；在本发明中，例如第一概率分布中包括有场景类型1，概率值0.1；场景类型2，概率值0.3；场景类型3，概率值0.1；场景类型4，概率值0.1；场景类型5，概率值0.4；在该步骤中就是将第一概率分布中所有的概率值均乘以第一权重系数(例如0.7)，得到第一概率分布中不同场景类型的运算后概率值；

对所述第二概率分布中每种场景类型的概率值乘以第二权重系数；在本发明中，例如第二概率分布中包括有场景类型2，概率值0.1；场景类型3，概率值0.3；场景类型5，概率值0.1；场景类型6，概率值0.1；场景类型7，概率值0.3；在该步骤中就是将第二概率分布中所有的概率值均乘以第二权重系数(例如0.3)，得到第二概率分布中不同场景类型的运算后概率值；

以及对乘以所述第一比例系数后所述第一概率分布中和乘以所述第二比例系数后所述第二概率分布中的同种场景类型的运算后概率值进行相加；在该步骤中，就是将上述第一概率分布中和第二概率分布中相同的场景类型3 和场景类型5运算后概率值相加；

汇总计算后得到的所有场景类型的运算后概率值，获得所述源视频数据所属场景的合计概率分布。在本发明中，就是汇总得到场景类型1、场景类型 2、场景类型3、场景类型4、场景类型5、场景类型6、场景类型7经过加权和合并计算后的运算后概率值，从而得到源视频数据所属场景的合计概率分布。在获得了所有场景类型的运算后概率值，挑选出运算后概率值最大的所述场景类型作为源视频数据所属场景(即当前视频录制所属的场景)。

构建不同场景类型的测试样本视频集；在本发明中，测试样本视频集中各个测试样本视频的场景类型可以是人工判断得出的场景类型；

采用不同的编码器和编码参数对不同场景类型的所述测试样本视频集进行编码测试；在本发明中，对于每一种场景类型的测试样本视频，可以设置多组不同的编码器和编码参数组合对测试样本视频进行编码测试，这里使用到的编码器和编码参数组合应尽可能多，从而便于得到更优的编码器、编码参数和场景类型组合；

根据编码后测试样本视频的数据大小和视频质量是否符合预设的要求确定每种场景类型下的推荐编码器和推荐编码参数；在本发明中，视频编码后的数据大小越小，视频质量的越高，证明所使用的编码器和编码参数更佳，对于每一种场景类型，最后从其测试的所有的编码器和编码参数组合中选出最优的编码器和编码参数作为推荐编码器和推荐编码参数；

在本发明第一方面一种可选的实施方式中，所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。在本发明中，视频质量采用客观评价指标，即计算生成视频的峰值信噪比(Peak signal noise ratio, PSNR)和结构相似度(Structure similarity Index,SSIM)，PSNR单位为DB，值越大，就代表失真越少，SSIM的值是0到1之间的小数，数值越高说明画面的质量越好。通过比较结果数值((psnr x ssim)/数据大小)，确定一个最优解。

PSNR通过对原始图像和失真图像进行像素的逐点对比，计算两幅图像像素点之间的误差，并由这些误差最终确定失真图像的质量评分。计算MSE， MSE表示编码后图像与原始图像的均方差(方差的平均数)

I(i,j)为原始图像，K(i,j)为重建后图像。

n为每像素的二进制位数，

SSIM(x，y)＝l(x，y)·c(x，y)·s(x，y)

l(x,y)为原始图像与重建后图像的亮度相似度，c(x,y)为原始图像与重建后图像对比度相似度，

S(x,y)为结构相似度。

Ux为原始图像平均亮度，Uy为重建图像的平均亮度，C1为常数项。

σ_x为原始图像的亮度标准差，σ_y为重建图像的亮度标准差,C2为常数项目

σ_xy为x和y的协方差。

每次计算的时候都从图片上取一个NXN的窗口，然后不断滑动窗口进行计算，最后取平均值作为全局的SSIM。

若不存在，继续以用户设置的编码器和编码参数对所述预设时长之后录制得到的后续视频数据进行编码。在本发明中，当视频编码参数数据库中不存在包括有包含所述源视频数据的所属场景的视频编码参数集合，则弹窗提示用户手动输入选择编码器和编码参数进行后续视频数据的编码，如果用户手动输入，则保存所述视频类型、用户手动输入选择编码器和编码参数作为新的组合存储到视频编码参数数据库中，如果用户未输入，则以默认的编码器和编码参数对后续视频数据进行编码。

参见图2，本发明第二方面提供了一种视频录制编码参数的调整装置，所述视频录制编码参数的调整装置包括：

获取模块10，用于获取视频录制起始阶段预设时长的源视频数据；

第一概率分布计算模块20，用于利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测，获得所述源视频数据所属场景的第一概率分布；

第二概率分布计算模块30，用于利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别，获得所述源视频数据所属场景的第二概率分布；

权重运算模块40，用于对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布；

选择模块50，用于从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景；

判断模块60，用于判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合；

解析模块70，用于若存在，则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数；

编码模块80，用于利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。

在本发明第二方面一种可选的实施方式中，所述第一概率分布计算模块 20包括：

视频帧抽取单元，用于利用预先训练好的场景分类模型从所述视频帧数据中随机抽取若干的视频帧；

特征提取单元，用于对每一所述视频帧进行分类特征提取；

第一场景类型确定单元，用于收集提取到的所有所述分类特征，确定每个所述分类特征对应的场景类型；

第一统计单元，用于统计得到的所有场景类型并计算每种场景类型所占的比例，得到所述源视频数据所属场景的第一概率分布。

在本发明第二方面一种可选的实施方式中，所述第二概率分布计算模块 30包括：

语音识别单元，用于利用预先训练好的语音识别模型对所述源视频数据中的音频帧数据进行文本转换获得文本数据；

语义识别单元，用于利用预先训练好的语义识别模型对所述文本数据进行词组拆分获得若干的关键词；

第二场景类型确定单元，用于根据预设的推理逻辑对每个所述关键词进行语义推理，得到与每个所述关键词相关的场景类型；

第二统计单元，用于统计得到的所有场景类型并计算每种场景类型所占的比例，得到所述源视频数据所属场景的第二概率分布。

在本发明第二方面一种可选的实施方式中，所述权重运算模块40包括：

第一权重计算单元，用于对所述第一概率分布中每种场景类型的概率值乘以第一权重系数；

第二权重计算单元，用于对所述第二概率分布中每种场景类型的概率值乘以第二权重系数；

概率合并单元，以及对乘以所述第一比例系数后所述第一概率分布中和乘以所述第二比例系数后所述第二概率分布中的同种场景类型的运算后概率值进行相加；

汇总单元，用于汇总计算后得到的所有场景类型的运算后概率值，获得所述源视频数据所属场景的合计概率分布。

在本发明第二方面一种可选的实施方式中，所述视频录制编码参数的调整装置还包括：

构建模块，用于构建不同场景类型的测试样本视频集；

测试模块，用于采用不同的编码器和编码参数对不同场景类型的所述测试样本视频集进行编码测试；

编码参数确定模块，用于根据编码后测试样本视频的数据大小和视频质量是否符合预设的要求确定每种场景类型下的推荐编码器和推荐编码参数；

存储模块，用于将每种场景类型及其对应的所述推荐编码器和所述推荐编码参数组合集合保存到视频编码参数数据库中。

在本发明第二方面一种可选的实施方式中，所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。

在本发明第二方面一种可选的实施方式中，所述编码模块还用于若不存在，继续以用户设置的编码器和编码参数对所述预设时长之后录制得到的后续视频数据进行编码。

图3是本发明实施例提供的一种视频录制编码参数的调整设备的结构示意图，该视频录制编码参数的调整设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器90(central processing units，CPU)(例如，一个或一个以上处理器)和存储器100，一个或一个以上存储应用程序或数据的存储介质110(例如一个或一个以上海量存储设备)。其中，存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对视频录制编码参数的调整设备中的一系列指令操作。更进一步地，处理器可以设置为与存储介质通信，在视频录制编码参数的调整设备上执行存储介质中的一系列指令操作。

本发明视频录制编码参数的调整设备还可以包括一个或一个以上电源 120，一个或一个以上有线或无线网络接口130，一个或一个以上输入输出接口140，和/或，一个或一个以上操作系统，例如Windows Serve，Mac OS X， Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3示出的视频录制编码参数的调整设备结构并不构成对本发明视频录制编码参数的调整设备的具体限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述的视频录制编码参数的调整方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频录制编码参数的调整方法，其特征在于，所述视频录制编码参数的调整方法包括：

获取视频录制起始阶段预设时长的源视频数据；

2.根据权利要求1所述的视频录制编码参数的调整方法，其特征在于，所述利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测，获得所述源视频数据所属场景的第一概率分布包括：

对每一所述视频帧进行分类特征提取；

3.根据权利要求1所述的视频录制编码参数的调整方法，其特征在于，所述利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别，获得所述源视频数据所属场景的第二概率分布包括：

4.根据权利要求1所述的视频录制编码参数的调整方法，其特征在于，所述对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布包括：

5.根据权利要求1所述的视频录制编码参数的调整方法，其特征在于，所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之前包括：

构建不同场景类型的测试样本视频集；

6.根据权利要求5所述的视频录制编码参数的调整方法，其特征在于，所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。

7.根据权利要求1-6任一项所述的视频录制编码参数的调整方法，其特征在于，所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之后还包括：

8.一种视频录制编码参数的调整装置，其特征在于，所述视频录制编码参数的调整装置包括：

9.一种视频录制编码参数的调整设备，其特征在于，所述视频录制编码参数的调整设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频录制编码参数的调整设备执行如权利要求1-7中任一项所述的视频录制编码参数的调整方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频录制编码参数的调整方法。