CN115190314A - 视频录制编码参数的调整方法及相关设备 - Google Patents

视频录制编码参数的调整方法及相关设备 Download PDF

Info

Publication number
CN115190314A
CN115190314A CN202210724837.5A CN202210724837A CN115190314A CN 115190314 A CN115190314 A CN 115190314A CN 202210724837 A CN202210724837 A CN 202210724837A CN 115190314 A CN115190314 A CN 115190314A
Authority
CN
China
Prior art keywords
scene
video
probability distribution
video data
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210724837.5A
Other languages
English (en)
Inventor
杜春华
江泽龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Afirstsoft Co Ltd
Original Assignee
Afirstsoft Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Afirstsoft Co Ltd filed Critical Afirstsoft Co Ltd
Priority to CN202210724837.5A priority Critical patent/CN115190314A/zh
Publication of CN115190314A publication Critical patent/CN115190314A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供了一种视频录制编码参数的调整方法及相关设备,本发明的视频录制编码参数的调整方法利用预先训练好的场景分类模型、语音识别模型和语义识别模型对视频录制起始阶段预设时长的源视频数据中的视频帧数据和音频帧数据进行场景类型的判断,当获得了源视频数据当前所属的场景后,将源视频数据当前所属的场景作为视频录制的场景;再根据确定的场景从视频编码参数数据库的频编码参数集合中,获得视频录制的推荐编码器和推荐编码参数;最后利用推荐编码器和推荐编码参数对预设时长之后录制得到的后续视频数据进行编码。本发明的视频录制编码参数的调整方法实现了无需人工设置即可以实现不同场景类型下视频录制编码参数的自适应。

Description

视频录制编码参数的调整方法及相关设备
技术领域
本发明涉及视屏编码技术领域,尤其涉及一种视频录制编码参数的调整方法及相关设备。
背景技术
目前,在视频录制中,一般都是采用由用户尝试确定视频编码参数,进行视频数据的压缩,而对于不同的视频场景采用不同的编码器可能需要多次尝试才能得出比较好的压缩和质量效果,通过人工的方式确定视频编码参数的方式效率低,难以满足用户需求。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的旨在解决现有技术通过人工确定视频录制编码参数的方式效率低的技术问题。
本发明第一方面提供了一种视频录制编码参数的调整方法,所述视频录制编码参数的调整方法包括:
获取视频录制起始阶段预设时长的源视频数据;
利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布;
利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布;
对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布;
从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景;
判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合;
若存在,则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数;
利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
在本发明第一方面一种可选的实施方式中,所述利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布包括:
利用预先训练好的场景分类模型从所述视频帧数据中随机抽取若干的视频帧;
对每一所述视频帧进行分类特征提取;
收集提取到的所有所述分类特征,确定每个所述分类特征对应的场景类型;
统计得到的所有场景类型并计算每种场景类型所占的比例,得到所述源视频数据所属场景的第一概率分布。
在本发明第一方面一种可选的实施方式中,所述利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布包括:
利用预先训练好的语音识别模型对所述源视频数据中的音频帧数据进行文本转换获得文本数据;
利用预先训练好的语义识别模型对所述文本数据进行词组拆分获得若干的关键词;
根据预设的推理逻辑对每个所述关键词进行语义推理,得到与每个所述关键词相关的场景类型;
统计得到的所有场景类型并计算每种场景类型所占的比例,得到所述源视频数据所属场景的第二概率分布。
在本发明第一方面一种可选的实施方式中,所述对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布包括:
对所述第一概率分布中每种场景类型的概率值乘以第一权重系数;
对所述第二概率分布中每种场景类型的概率值乘以第二权重系数;
以及对乘以所述第一比例系数后所述第一概率分布中和乘以所述第二比例系数后所述第二概率分布中的同种场景类型的运算后概率值进行相加;
汇总计算后得到的所有场景类型的运算后概率值,获得所述源视频数据所属场景的合计概率分布。
在本发明第一方面一种可选的实施方式中,所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之前包括:
构建不同场景类型的测试样本视频集;
采用不同的编码器和编码参数对不同场景类型的所述测试样本视频集进行编码测试;
根据编码后测试样本视频的数据大小和视频质量是否符合预设的要求确定每种场景类型下的推荐编码器和推荐编码参数;
将每种场景类型及其对应的所述推荐编码器和所述推荐编码参数组合集合保存到视频编码参数数据库中。
在本发明第一方面一种可选的实施方式中,所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。
在本发明第一方面一种可选的实施方式中,所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之后还包括:
若不存在,继续以用户设置的编码器和编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
本发明第二方面提供了一种视频录制编码参数的调整装置,所述视频录制编码参数的调整装置包括:
获取模块,用于获取视频录制起始阶段预设时长的源视频数据;
第一概率分布计算模块,用于利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布;
第二概率分布计算模块,用于利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布;
权重运算模块,用于对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布;
选择模块,用于从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景;
判断模块,用于判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合;
解析模块,用于若存在,则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数;
编码模块,用于利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
本发明第三方面提供了一种视频录制编码参数的调整设备,所述视频录制编码参数的调整设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述视频录制编码参数的调整设备执行如上述任一项所述的视频录制编码参数的调整方法。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的视频录制编码参数的调整方法。
有益效果:本发明提供了一种视频录制编码参数的调整方法及相关设备,本发明的视频录制编码参数的调整方法利用预先训练好的场景分类模型、语音识别模型和语义识别模型对视频录制起始阶段预设时长的源视频数据中的视频帧数据和音频帧数据进行场景类型的判断,当获得了源视频数据当前所属的场景后,将源视频数据当前所属的场景作为视频录制的场景;再根据确定的场景从视频编码参数数据库的频编码参数集合中,获得视频录制的推荐编码器和推荐编码参数;最后利用推荐编码器和推荐编码参数对预设时长之后录制得到的后续视频数据进行编码。本发明的视频录制编码参数的调整方法实现了无需人工设置即可以实现不同场景类型下视频录制编码参数的自适应。
附图说明
图1为本发明一种视频录制编码参数的调整方法的一个实施例示意图;
图2为本发明一种视频录制编码参数的调整装置的一个实施例示意图;
图3为本发明一种视频录制编码参数的调整设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种视频录制编码参数的调整方法及相关设备。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参阅图1,本发明第一方面提供了一种视频录制编码参数的调整方法,所述视频录制编码参数的调整方法包括:
S100、获取视频录制起始阶段预设时长的源视频数据;在本发明中,调整视频录制的编码参数之前需要先以默认的编码器和编码参数录制一段预设时长的源视频数据,然后根据预设时长的源视频数据来获得视频录制所属的场景类型;
S200、利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布;在本发明中,场景分类模型使用机器学习模型,场景分类模型可以使用VGG网络结构,场景分类模型是基于对象的场景分类,以对象为识别单位,根据场景中出现的特定对象来区分不同的场景,基于视觉的场景分类方法大部分都是以对象为单位的,也就是说,通过识别一些有代表性的对象来确定自然界的位置,典型的基于对象的场景分类方法有以下的中间步骤,特征提取、重组和对象识别;在本发明中,其中一个重要的步骤就是基于源视频数据中的视频帧数据来获得视频录制当前所处的场景类型;所述场景类型包括动画,自然风景,体育运动,或者是混合类型等等;
S300、利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布;在本发明中,除了根据源视频数据的视频帧数据判断场景之外,还会根据源视频数据的音频帧数据来判断视频录制的当前场景,最后结合两个得到场景概率确定最终视频录制所处的场景,从而便于确定视频录制较佳的编码参数;
S400、对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布;在本发明中,对获得基于源视频数据的视频帧数据确定的第一概率分布和基于源视频数据的音频帧数据确定的第二概率分布分配了不同的权重,这样做的好处在于可以使得最终确定的场景类型具有更高的准确性;
S500、从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景;在本发明中,在获得了合计概率分布之后,场景类型的概率越大,其也就更符合当前视频录制的场景类型,所以在本发明中以概率最大的场景类型作为所述源视频数据的所属场景;
S600、判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合;在本发明中,在确定好了视频录制的当前的场景类型之后,就可以通过从视频编码参数数据库找到与其适配的视频编码参数集合;
S700、若存在,则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数;当视频编码参数数据库中存在包括有包含所述源视频数据的所属场景的视频编码参数集合后,就可以从该视频编码参数集合获得对于该种场景类型更好的编码器和编码参数;
S800、利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。在获得了推荐编码器和推荐编码参数之后,运用推荐编码器和推荐编码参数对录制的视频数据进行编码就可以获得更好的压缩效果和更好的视频压缩质量。
在本发明第一方面一种可选的实施方式中,所述利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布包括:
利用预先训练好的场景分类模型从所述视频帧数据中随机抽取若干的视频帧;在本发明中所使用的场景分类模型需要预先通过测试视频合集进行训练,所使用的测试视频合集带有视频所属的场景类型标签,将场景分类模型判断的得到场景类型结果与实际的场景类型进行比较,调整场景分类模型内的网络参数,直至场景类型结果中概率最大的场景类型与实际的场景类型相同,且概率最大的场景类型的概率值大于预设的阈值;
对每一所述视频帧进行分类特征提取;在本实施例中,所述分类特征就是视频帧图像里面包括的各种元素,例如人物,自然环境等等;
收集提取到的所有所述分类特征,确定每个所述分类特征对应的场景类型;在本实施例中,例如提取到的人物分类特征,判断出该人物为动漫人物,则判定当前录制的场景可能是动画之类的,当然的一个分类特征对应的场景类型可能有多种;
统计得到的所有场景类型并计算每种场景类型所占的比例(即每种场景类型的概率),得到所述源视频数据所属场景的第一概率分布。在本实施例中,例如通过对提取到的所述分类特征的识别,获得了场景类型可能是场景类型 1,场景类型2、场景类型3、场景类型4和场景类型5,在该步骤中,根据统计结果,获得了场景类型1出现了1次,场景类型2出现了4次,场景类型3 出现了2次,场景类型5出现了5,则场景类型1的概率为1/(1+4+2+5),场景类型2的概率为4/(1+4+2+5),其他场景类型的概率依次类推。
在本发明第一方面一种可选的实施方式中,所述利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布包括:
利用预先训练好的语音识别模型对所述源视频数据中的音频帧数据进行文本转换获得文本数据;在本发明中,语音识别模型可以采用speech To Text 模型转换成文本数据;
利用预先训练好的语义识别模型对所述文本数据进行词组拆分获得若干的关键词;在本发明中,文本数据一般长的句子或段落,为了更好的理解出文本数据的意思,所以需要对文本数据进行拆分;
根据预设的推理逻辑对每个所述关键词进行语义推理,得到与每个所述关键词相关的场景类型;在本实施例中,再对关键词进行语义推理时,一般采用语义联想的方式来获得其可能所属的类型,举例来说,获取到米老鼠这个关键词,可以很容易联想到其为卡通人物,也就是说这个词可以确定的一种类型为动画;
统计得到的所有场景类型并计算每种场景类型所占的比例,得到所述源视频数据所属场景的第二概率分布。在本实施例中,在根据关键词得到所有的场景类型之后,根据第一概率分布的方式计算得到第二概率分布。
在本发明第一方面一种可选的实施方式中,所述对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布包括:
对所述第一概率分布中每种场景类型的概率值乘以第一权重系数;在本发明中,例如第一概率分布中包括有场景类型1,概率值0.1;场景类型2,概率值0.3;场景类型3,概率值0.1;场景类型4,概率值0.1;场景类型5,概率值0.4;在该步骤中就是将第一概率分布中所有的概率值均乘以第一权重系数(例如0.7),得到第一概率分布中不同场景类型的运算后概率值;
对所述第二概率分布中每种场景类型的概率值乘以第二权重系数;在本发明中,例如第二概率分布中包括有场景类型2,概率值0.1;场景类型3,概率值0.3;场景类型5,概率值0.1;场景类型6,概率值0.1;场景类型7,概率值0.3;在该步骤中就是将第二概率分布中所有的概率值均乘以第二权重系数(例如0.3),得到第二概率分布中不同场景类型的运算后概率值;
以及对乘以所述第一比例系数后所述第一概率分布中和乘以所述第二比例系数后所述第二概率分布中的同种场景类型的运算后概率值进行相加;在该步骤中,就是将上述第一概率分布中和第二概率分布中相同的场景类型3 和场景类型5运算后概率值相加;
汇总计算后得到的所有场景类型的运算后概率值,获得所述源视频数据所属场景的合计概率分布。在本发明中,就是汇总得到场景类型1、场景类型 2、场景类型3、场景类型4、场景类型5、场景类型6、场景类型7经过加权和合并计算后的运算后概率值,从而得到源视频数据所属场景的合计概率分布。在获得了所有场景类型的运算后概率值,挑选出运算后概率值最大的所述场景类型作为源视频数据所属场景(即当前视频录制所属的场景)。
在本发明第一方面一种可选的实施方式中,所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之前包括:
构建不同场景类型的测试样本视频集;在本发明中,测试样本视频集中各个测试样本视频的场景类型可以是人工判断得出的场景类型;
采用不同的编码器和编码参数对不同场景类型的所述测试样本视频集进行编码测试;在本发明中,对于每一种场景类型的测试样本视频,可以设置多组不同的编码器和编码参数组合对测试样本视频进行编码测试,这里使用到的编码器和编码参数组合应尽可能多,从而便于得到更优的编码器、编码参数和场景类型组合;
根据编码后测试样本视频的数据大小和视频质量是否符合预设的要求确定每种场景类型下的推荐编码器和推荐编码参数;在本发明中,视频编码后的数据大小越小,视频质量的越高,证明所使用的编码器和编码参数更佳,对于每一种场景类型,最后从其测试的所有的编码器和编码参数组合中选出最优的编码器和编码参数作为推荐编码器和推荐编码参数;
将每种场景类型及其对应的所述推荐编码器和所述推荐编码参数组合集合保存到视频编码参数数据库中。
在本发明第一方面一种可选的实施方式中,所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。在本发明中,视频质量采用客观评价指标,即计算生成视频的峰值信噪比(Peak signal noise ratio, PSNR)和结构相似度(Structure similarity Index,SSIM),PSNR单位为DB,值越大,就代表失真越少,SSIM的值是0到1之间的小数,数值越高说明画面的质量越好。通过比较结果数值((psnr x ssim)/数据大小),确定一个最优解。
PSNR通过对原始图像和失真图像进行像素的逐点对比,计算两幅图像像素点之间的误差,并由这些误差最终确定失真图像的质量评分。计算MSE, MSE表示编码后图像与原始图像的均方差(方差的平均数)
Figure RE-GDA0003802369920000111
I(i,j)为原始图像,K(i,j)为重建后图像。
Figure RE-GDA0003802369920000112
n为每像素的二进制位数,
SSIM(x,y)=l(x,y)·c(x,y)·s(x,y)
l(x,y)为原始图像与重建后图像的亮度相似度,c(x,y)为原始图像与重建后图像对比度相似度,
S(x,y)为结构相似度。
Figure RE-GDA0003802369920000113
Ux为原始图像平均亮度,Uy为重建图像的平均亮度,C1为常数项。
Figure RE-GDA0003802369920000121
σx为原始图像的亮度标准差,σy为重建图像的亮度标准差,C2为常数项目
Figure 1
σxy为x和y的协方差。
每次计算的时候都从图片上取一个NXN的窗口,然后不断滑动窗口进行计算,最后取平均值作为全局的SSIM。
在本发明第一方面一种可选的实施方式中,所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之后还包括:
若不存在,继续以用户设置的编码器和编码参数对所述预设时长之后录制得到的后续视频数据进行编码。在本发明中,当视频编码参数数据库中不存在包括有包含所述源视频数据的所属场景的视频编码参数集合,则弹窗提示用户手动输入选择编码器和编码参数进行后续视频数据的编码,如果用户手动输入,则保存所述视频类型、用户手动输入选择编码器和编码参数作为新的组合存储到视频编码参数数据库中,如果用户未输入,则以默认的编码器和编码参数对后续视频数据进行编码。
参见图2,本发明第二方面提供了一种视频录制编码参数的调整装置,所述视频录制编码参数的调整装置包括:
获取模块10,用于获取视频录制起始阶段预设时长的源视频数据;
第一概率分布计算模块20,用于利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布;
第二概率分布计算模块30,用于利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布;
权重运算模块40,用于对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布;
选择模块50,用于从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景;
判断模块60,用于判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合;
解析模块70,用于若存在,则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数;
编码模块80,用于利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
在本发明第二方面一种可选的实施方式中,所述第一概率分布计算模块 20包括:
视频帧抽取单元,用于利用预先训练好的场景分类模型从所述视频帧数据中随机抽取若干的视频帧;
特征提取单元,用于对每一所述视频帧进行分类特征提取;
第一场景类型确定单元,用于收集提取到的所有所述分类特征,确定每个所述分类特征对应的场景类型;
第一统计单元,用于统计得到的所有场景类型并计算每种场景类型所占的比例,得到所述源视频数据所属场景的第一概率分布。
在本发明第二方面一种可选的实施方式中,所述第二概率分布计算模块 30包括:
语音识别单元,用于利用预先训练好的语音识别模型对所述源视频数据中的音频帧数据进行文本转换获得文本数据;
语义识别单元,用于利用预先训练好的语义识别模型对所述文本数据进行词组拆分获得若干的关键词;
第二场景类型确定单元,用于根据预设的推理逻辑对每个所述关键词进行语义推理,得到与每个所述关键词相关的场景类型;
第二统计单元,用于统计得到的所有场景类型并计算每种场景类型所占的比例,得到所述源视频数据所属场景的第二概率分布。
在本发明第二方面一种可选的实施方式中,所述权重运算模块40包括:
第一权重计算单元,用于对所述第一概率分布中每种场景类型的概率值乘以第一权重系数;
第二权重计算单元,用于对所述第二概率分布中每种场景类型的概率值乘以第二权重系数;
概率合并单元,以及对乘以所述第一比例系数后所述第一概率分布中和乘以所述第二比例系数后所述第二概率分布中的同种场景类型的运算后概率值进行相加;
汇总单元,用于汇总计算后得到的所有场景类型的运算后概率值,获得所述源视频数据所属场景的合计概率分布。
在本发明第二方面一种可选的实施方式中,所述视频录制编码参数的调整装置还包括:
构建模块,用于构建不同场景类型的测试样本视频集;
测试模块,用于采用不同的编码器和编码参数对不同场景类型的所述测试样本视频集进行编码测试;
编码参数确定模块,用于根据编码后测试样本视频的数据大小和视频质量是否符合预设的要求确定每种场景类型下的推荐编码器和推荐编码参数;
存储模块,用于将每种场景类型及其对应的所述推荐编码器和所述推荐编码参数组合集合保存到视频编码参数数据库中。
在本发明第二方面一种可选的实施方式中,所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。
在本发明第二方面一种可选的实施方式中,所述编码模块还用于若不存在,继续以用户设置的编码器和编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
图3是本发明实施例提供的一种视频录制编码参数的调整设备的结构示意图,该视频录制编码参数的调整设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器90(central processing units,CPU)(例如,一个或一个以上处理器)和存储器100,一个或一个以上存储应用程序或数据的存储介质110(例如一个或一个以上海量存储设备)。其中,存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对视频录制编码参数的调整设备中的一系列指令操作。更进一步地,处理器可以设置为与存储介质通信,在视频录制编码参数的调整设备上执行存储介质中的一系列指令操作。
本发明视频录制编码参数的调整设备还可以包括一个或一个以上电源 120,一个或一个以上有线或无线网络接口130,一个或一个以上输入输出接口140,和/或,一个或一个以上操作系统,例如Windows Serve,Mac OS X, Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的视频录制编码参数的调整设备结构并不构成对本发明视频录制编码参数的调整设备的具体限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述的视频录制编码参数的调整方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种视频录制编码参数的调整方法,其特征在于,所述视频录制编码参数的调整方法包括:
获取视频录制起始阶段预设时长的源视频数据;
利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布;
利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布;
对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布;
从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景;
判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合;
若存在,则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数;
利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
2.根据权利要求1所述的视频录制编码参数的调整方法,其特征在于,所述利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布包括:
利用预先训练好的场景分类模型从所述视频帧数据中随机抽取若干的视频帧;
对每一所述视频帧进行分类特征提取;
收集提取到的所有所述分类特征,确定每个所述分类特征对应的场景类型;
统计得到的所有场景类型并计算每种场景类型所占的比例,得到所述源视频数据所属场景的第一概率分布。
3.根据权利要求1所述的视频录制编码参数的调整方法,其特征在于,所述利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布包括:
利用预先训练好的语音识别模型对所述源视频数据中的音频帧数据进行文本转换获得文本数据;
利用预先训练好的语义识别模型对所述文本数据进行词组拆分获得若干的关键词;
根据预设的推理逻辑对每个所述关键词进行语义推理,得到与每个所述关键词相关的场景类型;
统计得到的所有场景类型并计算每种场景类型所占的比例,得到所述源视频数据所属场景的第二概率分布。
4.根据权利要求1所述的视频录制编码参数的调整方法,其特征在于,所述对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布包括:
对所述第一概率分布中每种场景类型的概率值乘以第一权重系数;
对所述第二概率分布中每种场景类型的概率值乘以第二权重系数;
以及对乘以所述第一比例系数后所述第一概率分布中和乘以所述第二比例系数后所述第二概率分布中的同种场景类型的运算后概率值进行相加;
汇总计算后得到的所有场景类型的运算后概率值,获得所述源视频数据所属场景的合计概率分布。
5.根据权利要求1所述的视频录制编码参数的调整方法,其特征在于,所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之前包括:
构建不同场景类型的测试样本视频集;
采用不同的编码器和编码参数对不同场景类型的所述测试样本视频集进行编码测试;
根据编码后测试样本视频的数据大小和视频质量是否符合预设的要求确定每种场景类型下的推荐编码器和推荐编码参数;
将每种场景类型及其对应的所述推荐编码器和所述推荐编码参数组合集合保存到视频编码参数数据库中。
6.根据权利要求5所述的视频录制编码参数的调整方法,其特征在于,所述视频质量通过计算编码后测试样本视频图像的峰值信噪比和结构相似度来判定。
7.根据权利要求1-6任一项所述的视频录制编码参数的调整方法,其特征在于,所述判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合之后还包括:
若不存在,继续以用户设置的编码器和编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
8.一种视频录制编码参数的调整装置,其特征在于,所述视频录制编码参数的调整装置包括:
获取模块,用于获取视频录制起始阶段预设时长的源视频数据;
第一概率分布计算模块,用于利用预先训练好的场景分类模型对所述源视频数据中的视频帧数据进行场景检测,获得所述源视频数据所属场景的第一概率分布;
第二概率分布计算模块,用于利用预先训练好的语音识别模型和语义识别模型对所述源视频数据中的音频帧数据进行文本转换和语义识别,获得所述源视频数据所属场景的第二概率分布;
权重运算模块,用于对所述第一概率分布和所述第二概率分布进行权重运算获得所述源视频数据所属场景的合计概率分布;
选择模块,用于从所述合计概率分布中选出概率最大的场景类型作为所述源视频数据的所属场景;
判断模块,用于判断视频编码参数数据库中是否存在包括有包含所述源视频数据的所属场景的视频编码参数集合;
解析模块,用于若存在,则从所述视频编码参数集合中获得视频录制的推荐编码器和推荐编码参数;
编码模块,用于利用所述推荐编码器和所述推荐编码参数对所述预设时长之后录制得到的后续视频数据进行编码。
9.一种视频录制编码参数的调整设备,其特征在于,所述视频录制编码参数的调整设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述视频录制编码参数的调整设备执行如权利要求1-7中任一项所述的视频录制编码参数的调整方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频录制编码参数的调整方法。
CN202210724837.5A 2022-06-23 2022-06-23 视频录制编码参数的调整方法及相关设备 Pending CN115190314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210724837.5A CN115190314A (zh) 2022-06-23 2022-06-23 视频录制编码参数的调整方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210724837.5A CN115190314A (zh) 2022-06-23 2022-06-23 视频录制编码参数的调整方法及相关设备

Publications (1)

Publication Number Publication Date
CN115190314A true CN115190314A (zh) 2022-10-14

Family

ID=83516152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210724837.5A Pending CN115190314A (zh) 2022-06-23 2022-06-23 视频录制编码参数的调整方法及相关设备

Country Status (1)

Country Link
CN (1) CN115190314A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116800976A (zh) * 2023-07-17 2023-09-22 武汉星巡智能科技有限公司 伴睡婴幼儿时音视频压缩和还原方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116800976A (zh) * 2023-07-17 2023-09-22 武汉星巡智能科技有限公司 伴睡婴幼儿时音视频压缩和还原方法、装置及设备
CN116800976B (zh) * 2023-07-17 2024-03-12 武汉星巡智能科技有限公司 伴睡婴幼儿时音视频压缩和还原方法、装置及设备

Similar Documents

Publication Publication Date Title
CN111026915B (zh) 视频分类方法、视频分类装置、存储介质与电子设备
US20040172411A1 (en) Method and device for producing a fingerprint and method and method and device for identifying an audio signal
JPH1055444A (ja) Dctをベースとするフィーチャー・ベクトルを使った顔の認識
JP2000311180A (ja) 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
CN111147862B (zh) 一种基于目标编码的端到端图像压缩方法
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN104661037B (zh) 压缩图像量化表篡改的检测方法和系统
JPH1125127A (ja) 文書分類方法及び文書分類装置
CN115063326B (zh) 基于图像压缩的红外夜视图像高效通讯方法
CN116910752B (zh) 一种基于大数据的恶意代码检测方法
WO2023071609A1 (zh) 一种翻拍图像识别方法及其相关设备
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN115190314A (zh) 视频录制编码参数的调整方法及相关设备
CN111860407A (zh) 一种视频中人物的表情识别方法、装置、设备及存储介质
CN103067713A (zh) 一种位图jpeg压缩检测的方法及系统
CN1734466A (zh) 用于识别图像中的字符的字符识别装置和字符识别方法
CN111967331A (zh) 基于融合特征和字典学习的人脸表示攻击检测方法及系统
CN112200275B (zh) 人工神经网络的量化方法及装置
CN111143619B (zh) 视频指纹生成方法、检索方法、电子设备及介质
CN114155198A (zh) 一种去雾图像的质量评价方法和装置
CN112908331A (zh) 一种基于大数据的视频文件处理方法和装置
CN112927700A (zh) 一种盲音频水印嵌入和提取方法及系统
CN110958417A (zh) 一种基于语音线索的视频通话类视频去除压缩噪声的方法
Feng et al. Noise Classification Speech Enhancement Generative Adversarial Network
US20240112079A1 (en) Machine-learning techniques for carbon footprint optimization from improved organization of media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination