CN113656643B

CN113656643B - 一种使用ai分析观影心情的方法

Info

Publication number: CN113656643B
Application number: CN202110960694.3A
Authority: CN
Inventors: 王宇廷; 白志勇; 李梦雪; 陈鹏飞
Original assignee: Zhuhai Jiusong Technology Co ltd
Current assignee: Zhuhai Jiusong Technology Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-05-03
Anticipated expiration: 2041-08-20
Also published as: CN113656643A

Abstract

本发明公开了观影技术领域的一种使用AI分析观影心情的方法，包括以下步骤：S1、视频标签分类库：按照科室、医生、疾病、问题类型、疾病人群对视频打上标签；使用人工智能替代了人工，在速度上处于绝对领先；人工剪辑存在「人」因素，不同的剪辑人员，出品的质量是不一样的，能力和审美不同，出品有高有低，而人工智能不断学习大量的样本，大大降低出错率的同时，也能提升质量，最终不断趋近于最高限；基于上述两点，可以降低平均成本；更好的保护隐私，因为不需要直接获取观众的隐私数据；提升视频的艺术价值。

Description

一种使用AI分析观影心情的方法

技术领域

本发明涉及观影技术领域，具体为一种使用AI分析观影心情的方法。

背景技术

影视艺术是时间艺术与空间艺术的复合体，它既像时间艺术那样，在延续时间中展示画面，构成完整的银幕形象，又像空间艺术那样，在画面空间上展开形象，使作品获得多手段、多方式的表现力。影视艺术包括电影、电视、及两者所表达的艺术效果。电影是影视艺术的起源，电视是影视艺术的衍生物之一；

当前的电影电视的后期剪辑，可以通过人工，根据电影情节的发展，推测观众情绪，匹配对应的音乐、出现烘托气氛的特效，短视频行业也是一样，需要剪辑人员来处理，这种方式对人员的要求比较高（审美、专业能力等），耗费的时间也比较长。

已经商业化的技术手段，包括通过现场捕捉观众的声音、面部表情，来分析判断观众的观影感受，但这种方式不适用于尚未播放，仍在制作中的视频，而且获取观众的声音和面部表情存在侵犯隐私的风险。

现在还没有使用人工智能提前分析和预判情节和观众情绪的实践方法，如果能够提前预判，人工智能就可以给对应的情节推荐适合的背景音乐、音效、视频特效和视频素材，为此，我们提出一种使用AI分析观影心情的方法。

发明内容

本发明的目的在于提供一种使用AI分析观影心情的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种使用AI分析观影心情的方法，包括以下步骤：

S1、视频标签分类库：按照科室、医生、疾病、问题类型、疾病人群对视频打上标签；

S2、素材标签分类库：所有的素材，包括视频片段、音频、背景音频、图片、动态图片GIF等全部打标签；标签类别和第一步的视频一样，同时素材还要有自己的情绪标签（如：舒缓、欢快、治愈等情绪标签，便于素材推荐方法判断和取用）；

S3、视频片段检索方法：开始正式处理视频，通过视频片段检索方法，把视频分割为若干片段，并且针对每个片段做内容分析；

S4、情绪推理方法：根据视频素材建立多模态数据，并通过情绪模型进行情感计算、情绪评估，最终输出情绪，并通过多模态数据建立推导出每个片段对应的情绪是什么；

S5、素材推荐方法：对步骤S4中输出的情绪进行干预，使用素材推荐方法，从素材库里找到合适的素材，插入到视频中；

S6、合成渲染技术：对视频片段进行渲染合成，合成时方法会考虑情绪的衔接，音乐的淡入淡出指标（时间0.3-1秒），素材合理位置等情况，最终得到成片。

优选的，所述步骤S4中，多模态数据建立包括：视频视觉形态、语音形态、文本形态的提取、识别与分析进行分类。

优选的，所述步骤S4中：

情绪模型包括：离散模型（Ekman模型）、维度模型（PAD三维情感模型、普拉提克情绪锥球模型）、成分模型（Plutchik模型）；

情感计算包括：模型拟合、模型验证。

优选的，所述步骤S3中，视频片段检索方法为：提取视频的音频内容，对音频内容进行语音识别得到视频字幕信息；基于百度ERNIE-GEN模型训练得到文本摘要提取模型，对每一句字幕信息进行摘要提取得到字幕句子摘要。

优选的，所述基于百度ERNIE-NLP模型训练得到文本语音匹配模型，通过文本语义匹配计算关键词与素材库的标签的相似度，得到相似度最高的素材标签。

优选的，所述步骤S4中，情绪推理方法为：基于百度ERNIE-NLP模型训练得到情绪识别模型，对每一句字幕进行情绪识别计算得到每一句的情绪值，取权重最高的情绪值作为视频的整体情绪。

优选的，所述步骤S5中，素材推荐方法为素材库的图像和音乐等，按内容、情绪值等标签进行归类保存；先通过语义匹配找到素材内容标签，再通过情绪值匹配到对应的推荐素材。

与现有技术相比，本发明的有益效果是：

使用人工智能替代了人工，在速度上处于绝对领先；

人工剪辑存在「人」因素，不同的剪辑人员，出品的质量是不一样的，能力和审美不同，出品有高有低，而人工智能不断学习大量的样本，大大降低出错率的同时，也能提升质量，最终不断趋近于最高限；

基于上述两点，可以降低平均成本；

更好的保护隐私，因为不需要直接获取观众的隐私数据；

五、提升视频的艺术价值。

附图说明

图1为本发明整体流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：

一种使用AI分析观影心情的方法，包括以下步骤：

请参阅图1，所述步骤S4中，多模态数据建立包括：视频视觉形态、语音形态、文本形态的提取、识别与分析进行分类；

请参阅图1，所述步骤S4中：

情感计算包括：模型拟合、模型验证；

请参阅图1，所述步骤S3中，视频片段检索方法为：提取视频的音频内容，对音频内容进行语音识别得到视频字幕信息；基于百度ERNIE-GEN模型训练得到文本摘要提取模型，对每一句字幕信息进行摘要提取得到字幕句子摘要；

请参阅图1，所述基于百度ERNIE-NLP模型训练得到文本语音匹配模型，通过文本语义匹配计算关键词与素材库的标签的相似度，得到相似度最高的素材标签；

请参阅图1，所述步骤S4中，情绪推理方法为：基于百度ERNIE-NLP模型训练得到情绪识别模型，对每一句字幕进行情绪识别计算得到每一句的情绪值，取权重最高的情绪值作为视频的整体情绪；

请参阅图1，所述步骤S5中，素材推荐方法为素材库的图像和音乐等，按内容、情绪值等标签进行归类保存；先通过语义匹配找到素材内容标签，再通过情绪值匹配到对应的推荐素材；

工作原理：视频标签分类库：按照科室、医生、疾病、问题类型、疾病人群对视频打上标签；素材标签分类库：所有的素材，包括视频片段、音频、背景音频、图片、动态图片GIF等全部打标签；标签类别和第一步的视频一样，同时素材还要有自己的情绪标签（如：舒缓、欢快、治愈等情绪标签，便于素材推荐方法判断和取用）；视频片段检索方法：开始正式处理视频，通过视频片段检索方法，把视频分割为若干片段，并且针对每个片段做内容分析；情绪推理方法：根据视频素材建立多模态数据，并通过情绪模型进行情感计算、情绪评估，最终输出情绪，并通过多模态数据建立推导出每个片段对应的情绪是什么；素材推荐方法：对步骤S4中输出的情绪进行干预，使用素材推荐方法，从素材库里找到合适的素材，插入到视频中；合成渲染技术：对视频片段进行渲染合成，合成时方法会考虑情绪的衔接，音乐的淡入淡出指标（时间0.3-1秒），素材合理位置等情况，最终得到成片。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种使用AI分析观影心情的方法，其特征在于，包括以下步骤：

S2、素材标签分类库：所有的素材，包括视频片段、音频、背景音频、图片、动态图片GIF等全部打标签；标签类别和第一步的视频一样，同时素材还要有自己的情绪标签；

S3、视频片段检索方法：开始正式处理视频，通过提取视频的音频内容，对音频内容进行语音识别得到视频字幕信息；基于百度ERNIE-GEN模型训练得到文本摘要提取模型，对每一句字幕信息进行摘要提取得到字幕句子摘要，把视频分割为若干片段，并且针对每个片段做内容分析；

S4、情绪推理方法：根据视频素材建立多模态数据，并通过情绪模型进行情感计算、情绪评估，最终输出情绪，并通过多模态数据建立推导出每个片段对应的情绪是什么；其中情绪模型包括：Ekman模型、维度模型、Plutchik模型；情感计算包括：模型拟合、模型验证；

S5、素材推荐方法：对步骤S4中输出的情绪进行干预，使用素材库的图像和音乐等，按内容、情绪值等标签进行归类保存；先通过语义匹配找到素材内容标签，再通过情绪值匹配到对应的推荐素材，从素材库里找到合适的素材，插入到视频中；

S6、合成渲染技术：对视频片段进行渲染合成，合成时方法会考虑情绪的衔接，音乐的淡入淡出指标按时间0.3-1秒，素材合理位置等情况，最终得到成片。

2.根据权利要求1所述的一种使用AI分析观影心情的方法，其特征在于：所述步骤S4中，多模态数据建立包括：视频视觉形态、语音形态、文本形态的提取、识别与分析进行分类。

3.根据权利要求1所述的一种使用AI分析观影心情的方法，其特征在于：所述基于百度ERNIE-NLP模型训练得到文本语音匹配模型，通过文本语义匹配计算关键词与素材库的标签的相似度，得到相似度最高的素材标签。

4.根据权利要求1所述的一种使用AI分析观影心情的方法，其特征在于：所述步骤S4中，情绪推理方法为：基于百度ERNIE-NLP模型训练得到情绪识别模型，对每一句字幕进行情绪识别计算得到每一句的情绪值，取权重最高的情绪值作为视频的整体情绪。