CN113656643B - 一种使用ai分析观影心情的方法 - Google Patents

一种使用ai分析观影心情的方法 Download PDF

Info

Publication number
CN113656643B
CN113656643B CN202110960694.3A CN202110960694A CN113656643B CN 113656643 B CN113656643 B CN 113656643B CN 202110960694 A CN202110960694 A CN 202110960694A CN 113656643 B CN113656643 B CN 113656643B
Authority
CN
China
Prior art keywords
emotion
video
model
analyzing
moods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110960694.3A
Other languages
English (en)
Other versions
CN113656643A (zh
Inventor
王宇廷
白志勇
李梦雪
陈鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Jiusong Technology Co ltd
Original Assignee
Zhuhai Jiusong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Jiusong Technology Co ltd filed Critical Zhuhai Jiusong Technology Co ltd
Priority to CN202110960694.3A priority Critical patent/CN113656643B/zh
Publication of CN113656643A publication Critical patent/CN113656643A/zh
Application granted granted Critical
Publication of CN113656643B publication Critical patent/CN113656643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了观影技术领域的一种使用AI分析观影心情的方法,包括以下步骤:S1、视频标签分类库:按照科室、医生、疾病、问题类型、疾病人群对视频打上标签;使用人工智能替代了人工,在速度上处于绝对领先;人工剪辑存在「人」因素,不同的剪辑人员,出品的质量是不一样的,能力和审美不同,出品有高有低,而人工智能不断学习大量的样本,大大降低出错率的同时,也能提升质量,最终不断趋近于最高限;基于上述两点,可以降低平均成本;更好的保护隐私,因为不需要直接获取观众的隐私数据;提升视频的艺术价值。

Description

一种使用AI分析观影心情的方法
技术领域
本发明涉及观影技术领域,具体为一种使用AI分析观影心情的方法。
背景技术
影视艺术是时间艺术与空间艺术的复合体,它既像时间艺术那样,在延续时间中展示画面,构成完整的银幕形象,又像空间艺术那样,在画面空间上展开形象,使作品获得多手段、多方式的表现力。影视艺术包括电影、电视、及两者所表达的艺术效果。电影是影视艺术的起源,电视是影视艺术的衍生物之一;
当前的电影电视的后期剪辑,可以通过人工,根据电影情节的发展,推测观众情绪,匹配对应的音乐、出现烘托气氛的特效,短视频行业也是一样,需要剪辑人员来处理,这种方式对人员的要求比较高(审美、专业能力等),耗费的时间也比较长。
已经商业化的技术手段,包括通过现场捕捉观众的声音、面部表情,来分析判断观众的观影感受,但这种方式不适用于尚未播放,仍在制作中的视频,而且获取观众的声音和面部表情存在侵犯隐私的风险。
现在还没有使用人工智能提前分析和预判情节和观众情绪的实践方法,如果能够提前预判,人工智能就可以给对应的情节推荐适合的背景音乐、音效、视频特效和视频素材,为此,我们提出一种使用AI分析观影心情的方法。
发明内容
本发明的目的在于提供一种使用AI分析观影心情的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种使用AI分析观影心情的方法,包括以下步骤:
S1、视频标签分类库:按照科室、医生、疾病、问题类型、疾病人群对视频打上标签;
S2、素材标签分类库:所有的素材,包括视频片段、音频、背景音频、图片、动态图片GIF等全部打标签;标签类别和第一步的视频一样,同时素材还要有自己的情绪标签(如:舒缓、欢快、治愈等情绪标签,便于素材推荐方法判断和取用);
S3、视频片段检索方法:开始正式处理视频,通过视频片段检索方法,把视频分割为若干片段,并且针对每个片段做内容分析;
S4、情绪推理方法:根据视频素材建立多模态数据,并通过情绪模型进行情感计算、情绪评估,最终输出情绪,并通过多模态数据建立推导出每个片段对应的情绪是什么;
S5、素材推荐方法:对步骤S4中输出的情绪进行干预,使用素材推荐方法,从素材库里找到合适的素材,插入到视频中;
S6、合成渲染技术:对视频片段进行渲染合成,合成时方法会考虑情绪的衔接,音乐的淡入淡出指标(时间0.3-1秒),素材合理位置等情况,最终得到成片。
优选的,所述步骤S4中,多模态数据建立包括:视频视觉形态、语音形态、文本形态的提取、识别与分析进行分类。
优选的,所述步骤S4中:
情绪模型包括:离散模型(Ekman模型)、维度模型(PAD三维情感模型、普拉提克情绪锥球模型)、成分模型(Plutchik模型);
情感计算包括:模型拟合、模型验证。
优选的,所述步骤S3中,视频片段检索方法为:提取视频的音频内容,对音频内容进行语音识别得到视频字幕信息;基于百度ERNIE-GEN模型训练得到文本摘要提取模型,对每一句字幕信息进行摘要提取得到字幕句子摘要。
优选的,所述基于百度ERNIE-NLP模型训练得到文本语音匹配模型,通过文本语义匹配计算关键词与素材库的标签的相似度,得到相似度最高的素材标签。
优选的,所述步骤S4中,情绪推理方法为:基于百度ERNIE-NLP模型训练得到情绪识别模型,对每一句字幕进行情绪识别计算得到每一句的情绪值,取权重最高的情绪值作为视频的整体情绪。
优选的,所述步骤S5中,素材推荐方法为素材库的图像和音乐等,按内容、情绪值等标签进行归类保存;先通过语义匹配找到素材内容标签,再通过情绪值匹配到对应的推荐素材。
与现有技术相比,本发明的有益效果是:
使用人工智能替代了人工,在速度上处于绝对领先;
人工剪辑存在「人」因素,不同的剪辑人员,出品的质量是不一样的,能力和审美不同,出品有高有低,而人工智能不断学习大量的样本,大大降低出错率的同时,也能提升质量,最终不断趋近于最高限;
基于上述两点,可以降低平均成本;
更好的保护隐私,因为不需要直接获取观众的隐私数据;
五、提升视频的艺术价值。
附图说明
图1为本发明整体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:
一种使用AI分析观影心情的方法,包括以下步骤:
S1、视频标签分类库:按照科室、医生、疾病、问题类型、疾病人群对视频打上标签;
S2、素材标签分类库:所有的素材,包括视频片段、音频、背景音频、图片、动态图片GIF等全部打标签;标签类别和第一步的视频一样,同时素材还要有自己的情绪标签(如:舒缓、欢快、治愈等情绪标签,便于素材推荐方法判断和取用);
S3、视频片段检索方法:开始正式处理视频,通过视频片段检索方法,把视频分割为若干片段,并且针对每个片段做内容分析;
S4、情绪推理方法:根据视频素材建立多模态数据,并通过情绪模型进行情感计算、情绪评估,最终输出情绪,并通过多模态数据建立推导出每个片段对应的情绪是什么;
S5、素材推荐方法:对步骤S4中输出的情绪进行干预,使用素材推荐方法,从素材库里找到合适的素材,插入到视频中;
S6、合成渲染技术:对视频片段进行渲染合成,合成时方法会考虑情绪的衔接,音乐的淡入淡出指标(时间0.3-1秒),素材合理位置等情况,最终得到成片。
请参阅图1,所述步骤S4中,多模态数据建立包括:视频视觉形态、语音形态、文本形态的提取、识别与分析进行分类;
请参阅图1,所述步骤S4中:
情绪模型包括:离散模型(Ekman模型)、维度模型(PAD三维情感模型、普拉提克情绪锥球模型)、成分模型(Plutchik模型);
情感计算包括:模型拟合、模型验证;
请参阅图1,所述步骤S3中,视频片段检索方法为:提取视频的音频内容,对音频内容进行语音识别得到视频字幕信息;基于百度ERNIE-GEN模型训练得到文本摘要提取模型,对每一句字幕信息进行摘要提取得到字幕句子摘要;
请参阅图1,所述基于百度ERNIE-NLP模型训练得到文本语音匹配模型,通过文本语义匹配计算关键词与素材库的标签的相似度,得到相似度最高的素材标签;
请参阅图1,所述步骤S4中,情绪推理方法为:基于百度ERNIE-NLP模型训练得到情绪识别模型,对每一句字幕进行情绪识别计算得到每一句的情绪值,取权重最高的情绪值作为视频的整体情绪;
请参阅图1,所述步骤S5中,素材推荐方法为素材库的图像和音乐等,按内容、情绪值等标签进行归类保存;先通过语义匹配找到素材内容标签,再通过情绪值匹配到对应的推荐素材;
工作原理:视频标签分类库:按照科室、医生、疾病、问题类型、疾病人群对视频打上标签;素材标签分类库:所有的素材,包括视频片段、音频、背景音频、图片、动态图片GIF等全部打标签;标签类别和第一步的视频一样,同时素材还要有自己的情绪标签(如:舒缓、欢快、治愈等情绪标签,便于素材推荐方法判断和取用);视频片段检索方法:开始正式处理视频,通过视频片段检索方法,把视频分割为若干片段,并且针对每个片段做内容分析;情绪推理方法:根据视频素材建立多模态数据,并通过情绪模型进行情感计算、情绪评估,最终输出情绪,并通过多模态数据建立推导出每个片段对应的情绪是什么;素材推荐方法:对步骤S4中输出的情绪进行干预,使用素材推荐方法,从素材库里找到合适的素材,插入到视频中;合成渲染技术:对视频片段进行渲染合成,合成时方法会考虑情绪的衔接,音乐的淡入淡出指标(时间0.3-1秒),素材合理位置等情况,最终得到成片。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种使用AI分析观影心情的方法,其特征在于,包括以下步骤:
S1、视频标签分类库:按照科室、医生、疾病、问题类型、疾病人群对视频打上标签;
S2、素材标签分类库:所有的素材,包括视频片段、音频、背景音频、图片、动态图片GIF等全部打标签;标签类别和第一步的视频一样,同时素材还要有自己的情绪标签;
S3、视频片段检索方法:开始正式处理视频,通过提取视频的音频内容,对音频内容进行语音识别得到视频字幕信息;基于百度ERNIE-GEN模型训练得到文本摘要提取模型,对每一句字幕信息进行摘要提取得到字幕句子摘要,把视频分割为若干片段,并且针对每个片段做内容分析;
S4、情绪推理方法:根据视频素材建立多模态数据,并通过情绪模型进行情感计算、情绪评估,最终输出情绪,并通过多模态数据建立推导出每个片段对应的情绪是什么;其中情绪模型包括:Ekman模型、维度模型、Plutchik模型;情感计算包括:模型拟合、模型验证;
S5、素材推荐方法:对步骤S4中输出的情绪进行干预,使用素材库的图像和音乐等,按内容、情绪值等标签进行归类保存;先通过语义匹配找到素材内容标签,再通过情绪值匹配到对应的推荐素材,从素材库里找到合适的素材,插入到视频中;
S6、合成渲染技术:对视频片段进行渲染合成,合成时方法会考虑情绪的衔接,音乐的淡入淡出指标按时间0.3-1秒,素材合理位置等情况,最终得到成片。
2.根据权利要求1所述的一种使用AI分析观影心情的方法,其特征在于:所述步骤S4中,多模态数据建立包括:视频视觉形态、语音形态、文本形态的提取、识别与分析进行分类。
3.根据权利要求1所述的一种使用AI分析观影心情的方法,其特征在于:所述基于百度ERNIE-NLP模型训练得到文本语音匹配模型,通过文本语义匹配计算关键词与素材库的标签的相似度,得到相似度最高的素材标签。
4.根据权利要求1所述的一种使用AI分析观影心情的方法,其特征在于:所述步骤S4中,情绪推理方法为:基于百度ERNIE-NLP模型训练得到情绪识别模型,对每一句字幕进行情绪识别计算得到每一句的情绪值,取权重最高的情绪值作为视频的整体情绪。
CN202110960694.3A 2021-08-20 2021-08-20 一种使用ai分析观影心情的方法 Active CN113656643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110960694.3A CN113656643B (zh) 2021-08-20 2021-08-20 一种使用ai分析观影心情的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110960694.3A CN113656643B (zh) 2021-08-20 2021-08-20 一种使用ai分析观影心情的方法

Publications (2)

Publication Number Publication Date
CN113656643A CN113656643A (zh) 2021-11-16
CN113656643B true CN113656643B (zh) 2024-05-03

Family

ID=78480522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110960694.3A Active CN113656643B (zh) 2021-08-20 2021-08-20 一种使用ai分析观影心情的方法

Country Status (1)

Country Link
CN (1) CN113656643B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115396715B (zh) * 2022-08-18 2024-01-30 咪咕数字传媒有限公司 桌游互动方法、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284787A (ja) * 1997-07-29 2000-10-13 Daiichikosho Co Ltd カラオケ装置用のムード映像編集方法
CN102752540A (zh) * 2011-12-30 2012-10-24 新奥特(北京)视频技术有限公司 一种基于人脸识别技术的自动编目方法
CN108090698A (zh) * 2018-01-08 2018-05-29 聚影汇(北京)影视文化有限公司 一种电影测评服务系统及方法
CN110515846A (zh) * 2019-08-20 2019-11-29 上海云扩信息科技有限公司 一种关于用户体验测试的数据自动化处理分析系统、方法
CN111259109A (zh) * 2020-01-10 2020-06-09 杭州慧川智能科技有限公司 一种基于视频大数据的音频转视频的方法
CN111860237A (zh) * 2020-07-07 2020-10-30 中国科学技术大学 一种视频情感片段的识别方法及装置
CN112423023A (zh) * 2020-12-09 2021-02-26 珠海九松科技有限公司 一种智能化视频自动混剪的方法
CN112969035A (zh) * 2021-01-29 2021-06-15 新华智云科技有限公司 一种可视化视频制作方法及制作系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2503878A (en) * 2012-07-09 2014-01-15 Nds Ltd Generating interstitial scripts for video content, based on metadata related to the video content
CN103793593B (zh) * 2013-11-15 2018-02-13 吴一兵 一种获取大脑状态客观定量指标的方法
US10049263B2 (en) * 2016-06-15 2018-08-14 Stephan Hau Computer-based micro-expression analysis
CN107169430B (zh) * 2017-05-02 2020-12-01 哈尔滨工业大学深圳研究生院 基于图像处理语义分析的阅读环境音效增强系统及方法
TWI716033B (zh) * 2019-07-15 2021-01-11 李姿慧 影像配樂智能系統
KR102321789B1 (ko) * 2019-08-28 2021-11-05 엘지전자 주식회사 감정 정보 기반의 음성 합성 방법 및 장치

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284787A (ja) * 1997-07-29 2000-10-13 Daiichikosho Co Ltd カラオケ装置用のムード映像編集方法
CN102752540A (zh) * 2011-12-30 2012-10-24 新奥特(北京)视频技术有限公司 一种基于人脸识别技术的自动编目方法
CN108090698A (zh) * 2018-01-08 2018-05-29 聚影汇(北京)影视文化有限公司 一种电影测评服务系统及方法
CN110515846A (zh) * 2019-08-20 2019-11-29 上海云扩信息科技有限公司 一种关于用户体验测试的数据自动化处理分析系统、方法
CN111259109A (zh) * 2020-01-10 2020-06-09 杭州慧川智能科技有限公司 一种基于视频大数据的音频转视频的方法
CN111860237A (zh) * 2020-07-07 2020-10-30 中国科学技术大学 一种视频情感片段的识别方法及装置
CN112423023A (zh) * 2020-12-09 2021-02-26 珠海九松科技有限公司 一种智能化视频自动混剪的方法
CN112969035A (zh) * 2021-01-29 2021-06-15 新华智云科技有限公司 一种可视化视频制作方法及制作系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
人工智能技术在视频编辑中的应用实践;谭乐娟;;中国传媒科技;20200815(08);全文 *
影视后期制作中剪辑艺术探讨;陈明;;传播力研究;20181010(29);全文 *

Also Published As

Publication number Publication date
CN113656643A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
CN109756751B (zh) 多媒体数据处理方法及装置、电子设备、存储介质
US7920761B2 (en) Multimodal identification and tracking of speakers in video
US11270123B2 (en) System and method for generating localized contextual video annotation
CN108307229B (zh) 一种影音数据的处理方法及设备
US11749241B2 (en) Systems and methods for transforming digitial audio content into visual topic-based segments
Zlatintsi et al. COGNIMUSE: A multimodal video database annotated with saliency, events, semantics and emotion with application to summarization
CN106021496A (zh) 视频搜索方法及视频搜索装置
US20160004911A1 (en) Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
US20120263433A1 (en) Detecting Key Roles and Their Relationships from Video
CN108595477B (zh) 一种视频数据的处理方法和装置
JP2002251197A (ja) オーディオビジュアルサマリ作成方法
CN112004138A (zh) 一种智能视频素材搜索匹配的方法及装置
CN113656643B (zh) 一种使用ai分析观影心情的方法
US11942116B1 (en) Method and system for generating synthetic video advertisements
CN115580758A (zh) 视频内容生成方法及装置、电子设备、存储介质
Knight et al. HeadTalk, HandTalk and the corpus: Towards a framework for multi-modal, multi-media corpus development
Gagnon et al. Towards computer-vision software tools to increase production and accessibility of video description for people with vision loss
CN112637620A (zh) 一种对音视频流中物品和语言实时识别分析的方法与装置
JP6603929B1 (ja) 動画編集サーバおよびプログラム
Koutras et al. Exploring cnn-based architectures for multimodal salient event detection in videos
CN116132711A (zh) 用于生成视频模板的方法、装置和电子设备
CN115917647A (zh) 自动非线性编辑风格转移
JP2020129357A (ja) 動画編集サーバおよびプログラム
Ionescu et al. Tackling action-based video abstraction of animated movies for video browsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant