CN115205725A

CN115205725A - 一种视频情景分析方法、装置、存储介质及程序产品

Info

Publication number: CN115205725A
Application number: CN202210161993.5A
Authority: CN
Inventors: 杜达亮
Original assignee: Guangzhou Yunzhidachuang Technology Co ltd
Current assignee: Guangzhou Yunzhidachuang Technology Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-10-18
Anticipated expiration: 2042-02-22
Also published as: CN115205725B

Abstract

本发明适用视频情景内容分析技术领域，提供了一种视频情景分析方法、装置、存储介质及程序产品，包括；获取音视频图像；分离出音视频图像中的音频信息和视频信息；分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景；对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配，若匹配一致则生成一个或多个情景关键字词；根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内；还包括：将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件；从而提高了对视频情景分析的全面性及准确率，极大的提高了品牌方检索达人的效率，提高了用户体验。

Description

一种视频情景分析方法、装置、存储介质及程序产品

技术领域

本发明属于视频情景内容分析技术领域，尤其涉及一种视频情景分析方法、装置、存储介质及程序产品。

背景技术

现有的视频分析技术已经可以实现对于短视频内容进行拆解分析为内容或物体的关键字词，但想真正做到“视频内容匹配”，只是对视频的语音、字母的拆解分析还是远远达不到；

因此亟需一种能够从视频内容的场景层面、人物特征层面，行为事件等层面进行“编译”，将视频内容转化为文字化的特征表现形式。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种视频情景分析方法、装置、存储介质及程序产品，旨在解决由于现有技术无法提供一种有效的视频情景分析方法，导致对视频里的情景分析不全面、用户体验不佳的问题。

一方面，本发明提供了一种视频情景分析方法，所述方法包括下述步骤：

获取音视频图像；

分离出所述音视频图像中的音频信息和视频信息；

分析出所述音频信息中出现的多个第一词语、和所述视频信息中出现的多个情景；

对在所述音视频图像中的同一时间/段内出现的一个或多个所述第一词语和一个或多个所述情景进行一致性匹配，若匹配一致则生成一个或多个情景关键字词；

根据多个所述情景关键字词所表达的情景、将所述音视频图像归类至对应的情景类别内。

进一步地，所述方法还包括：

获取所述音视频图像的封面，提取所述封面中的文字或和情景；

根据所述封面中的文字或和情景与所述音视频图像中的多个所述第一词语或和多个所述情景进行匹配；

匹配一致则判定所述音视频图像的封面与所述音视频内容对应；

根据多个相近的所述情景关键字词所表达的情景生成所述情景类别。

进一步优选地，所述方法还包括：

从所述视频信息中的字幕中提取出多个第二词语，对在所述音视频图像中的同一时间段内出现的多个所述第一词语和多个所述第二词语进行一致性匹配，若匹配一致则输出多个语言关键字词。

进一步优选地，所述方法还包括：

将所述语言关键字词与所述情景关键字词基于语法进行语句连贯组合判断出所述音视频图像中所发生的事件；

基于所述音视频图像中所发生的多个相近的所述事件生成事件类别；

还包括：将所述音视频图像打上与所述事件类别对应的事件标签。

进一步地，分析出所述视频信息中出现的多个情景包括：从所述视频信息的每一帧图片或连续的多帧图片中识别分析出物体、人物、物体的运动、人体的行为中的一种或多种。

进一步优选地，所述情景包括：场景情景、人物情景、事件情景中的一种或多种；

所述场景情景包括：达人视频中出现的一个或多个物体、人物、物体的运动、人体的行为中的一种或多种；

所述事件情景包括：达人视频的主要内容；

所述人物情景包括：达人视频中达人所表现出的表情特征和穿着打扮。

优选地，在所述分析出所述视频信息中出现的多个情景之前：

识别所述视频信息是否为纯照片视频，若为是则滤除所述视频信息对应的音视频图像并归类至图文分享类别内；

根据所述封面中的文字或和情景与所述音视频图像中的多个所述第一词语或和多个所述情景进行匹配还包括：

在匹配不一致时滤除所述音视频图像。

另一方面，本发明还提供了一种视频情景分析装置，所述装置包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的视频情景分析方法。

另一方面，本发明还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的视频情景分析方法。

另一方面，本发明还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使所述处理器执行上述的视频情景分析方法。

本发明的有益效果在于：获取音视频图像；分离出音视频图像中的音频信息和视频信息；分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景；对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配，若匹配一致则生成一个或多个情景关键字词；根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内；还包括：将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件；从而提高了对视频情景分析的全面性及准确率，极大的提高了品牌方检索达人的效率，提高了用户体验。

附图说明

图1是本发明实施例一提供的视频情景分析方法的实现流程图；

图2是本发明实施例二提供的视频情景分析装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的视频情景分析方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，获取音视频图像；

在本发明的实施例中，还可以由用户上传音视频图像进行视频情景分析。

在步骤S102中，分离出音视频图像中的音频信息和视频信息；

在本发明的实施例中，以进行多维识别分析提高视频内容分析的准确率及全面性。

在步骤S103中，分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景；

在本发明的实施例中，在分析出视频信息中出现的多个情景之前：

识别视频信息是否为纯照片视频，若为是则滤除视频信息对应的音视频图像并归类至图文分享类别内；或者可以对图文分析/讲解类的视频进行统一归类，不进一步地分析该类视频，有效降低资源利用率，降低服务器的处理负荷。

进一步地，分析出视频信息中出现的多个情景包括：从视频信息的每一帧图片或连续的多帧图片中识别分析出物体、人物、物体的运动、人体的行为中的一种或多种；

其中，情景包括：场景情景、人物情景、事件情景中的一种或多种；

场景情景包括：达人视频中出现的一个或多个物体、人物、物体的运动、人体的行为中的一种或多种；例如：根据吧台、咖啡、面包、咖啡机、餐桌判断出视频事件场景为咖啡厅；

事件情景包括：达人视频的主要内容；例如：根据咖啡厅的场景、并在第二词语或第一词语谈及“工资”“年龄”“婚姻观”的描述时，判断出该事件是相亲；

人物情景包括：达人视频中达人所表现出的表情特征和穿着打扮；例如：染发且穿着大衣的女性、手提公文包拿着文件的白领，头戴耳机身着紧身衣的健身教练。

在步骤S104中，对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配，若匹配一致则生成一个或多个情景关键字词；

在本发明的实施例中，以判断音视频图像中的图像内容是否与音频描述相对应；以选取出优质的视频。

在步骤S105中，根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内；

在本发明的实施例中，方法还包括：根据多个相近的情景关键字词所表达的情景生成情景类别；

优选地，还包括：从视频信息中的字幕中提取出多个第二词语，对在音视频图像中的同一时间段内出现的多个第一词语和多个第二词语进行一致性匹配，若匹配一致则输出多个语言关键字词；同时进行语音识别和字幕识别能保持内容的完整性与准确性；

进一步优选地，还包括：将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件；

例如：某一位达人的视频中包含了护肤场景，视频中包含了如“干燥”“原液”“面霜”“爽肤水”等关键词，系统会综合图片、语音识别，得出该视频事件类型属于皮肤管理场景；

基于音视频图像中所发生的多个相近的事件生成事件类别；

还包括：将音视频图像打上与事件类别对应的事件标签；进行分类归类更佳便于检索达人及达人视频；

进一步地，方法还包括：获取音视频图像的封面，提取封面中的文字或和情景；

根据封面中的文字或和情景与音视频图像中的多个第一词语或和多个情景进行匹配；

匹配一致则判定音视频图像的封面与音视频内容对应；其中，根据封面中的文字或和情景与音视频图像中的多个第一词语或和多个情景进行匹配还包括：在匹配不一致时滤除音视频图像。

在本发明的实施例中，获取音视频图像；分离出音视频图像中的音频信息和视频信息；分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景；对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配，若匹配一致则生成一个或多个情景关键字词；根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内；还包括：将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件；从而提高了对视频情景分析的全面性及准确率，极大的提高了品牌方检索达人的效率，提高了用户体验。

实施例二：

图2示出了本发明实施例二提供的一种视频情景分析装置，如图2所示，装置10包括：

一个或多个处理器110以及存储器120，图2中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图2中以通过总线连接为例。

处理器110用于完成装置10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的视频情景分析方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行装置10的各种功能应用以及数据处理，即实现上述方法实施例中的视频情景分析方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据装置10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中视频情景分析方法，例如，执行以上描述的图1中的方法步骤S101至步骤S105。

实施例三：

本发明实施例三提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S101至步骤S105。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

实施例四：

本发明实施例四提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使所述处理器执行上述方法实施例的视频情景分析方法。例如，执行以上描述的图1中的方法步骤S101至步骤S105。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机电子设备(可以是个人计算机，服务器，或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地不旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有学生输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供一种视频情景分析方法、装置、存储介质及程序产品的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种视频情景分析方法，其特征在于，所述方法包括下述步骤：

获取音视频图像；

分离出所述音视频图像中的音频信息和视频信息；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，分析出所述视频信息中出现的多个情景包括：从所述视频信息的每一帧图片或连续的多帧图片中识别分析出物体、人物、物体的运动、人体的行为中的一种或多种。

6.如权利要求5所述的方法，其特征在于，所述情景包括：场景情景、人物情景、事件情景中的一种或多种；

所述事件情景包括：达人视频的主要内容；

7.如权利要求1所述的方法，其特征在于，在所述分析出所述视频信息中出现的多个情景之前：

在匹配不一致时滤除所述音视频图像。

8.一种视频情景分析装置，其特征在于，所述装置包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的视频情景分析方法。

9.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述视频情景分析方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使所述处理器执行权利要求1-7任一项所述的视频情景分析方法。