CN115205725A - 一种视频情景分析方法、装置、存储介质及程序产品 - Google Patents

一种视频情景分析方法、装置、存储介质及程序产品 Download PDF

Info

Publication number
CN115205725A
CN115205725A CN202210161993.5A CN202210161993A CN115205725A CN 115205725 A CN115205725 A CN 115205725A CN 202210161993 A CN202210161993 A CN 202210161993A CN 115205725 A CN115205725 A CN 115205725A
Authority
CN
China
Prior art keywords
video
audio
scene
scenes
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210161993.5A
Other languages
English (en)
Other versions
CN115205725B (zh
Inventor
杜达亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yunzhidachuang Technology Co ltd
Original Assignee
Guangzhou Yunzhidachuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yunzhidachuang Technology Co ltd filed Critical Guangzhou Yunzhidachuang Technology Co ltd
Priority to CN202210161993.5A priority Critical patent/CN115205725B/zh
Publication of CN115205725A publication Critical patent/CN115205725A/zh
Application granted granted Critical
Publication of CN115205725B publication Critical patent/CN115205725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Abstract

本发明适用视频情景内容分析技术领域,提供了一种视频情景分析方法、装置、存储介质及程序产品,包括;获取音视频图像;分离出音视频图像中的音频信息和视频信息;分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景;对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配,若匹配一致则生成一个或多个情景关键字词;根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内;还包括:将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件;从而提高了对视频情景分析的全面性及准确率,极大的提高了品牌方检索达人的效率,提高了用户体验。

Description

一种视频情景分析方法、装置、存储介质及程序产品
技术领域
本发明属于视频情景内容分析技术领域,尤其涉及一种视频情景分析方法、装置、存储介质及程序产品。
背景技术
现有的视频分析技术已经可以实现对于短视频内容进行拆解分析为内容或物体的关键字词,但想真正做到“视频内容匹配”,只是对视频的语音、字母的拆解分析还是远远达不到;
因此亟需一种能够从视频内容的场景层面、人物特征层面,行为事件等层面进行“编译”,将视频内容转化为文字化的特征表现形式。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种视频情景分析方法、装置、存储介质及程序产品,旨在解决由于现有技术无法提供一种有效的视频情景分析方法,导致对视频里的情景分析不全面、用户体验不佳的问题。
一方面,本发明提供了一种视频情景分析方法,所述方法包括下述步骤:
获取音视频图像;
分离出所述音视频图像中的音频信息和视频信息;
分析出所述音频信息中出现的多个第一词语、和所述视频信息中出现的多个情景;
对在所述音视频图像中的同一时间/段内出现的一个或多个所述第一词语和一个或多个所述情景进行一致性匹配,若匹配一致则生成一个或多个情景关键字词;
根据多个所述情景关键字词所表达的情景、将所述音视频图像归类至对应的情景类别内。
进一步地,所述方法还包括:
获取所述音视频图像的封面,提取所述封面中的文字或和情景;
根据所述封面中的文字或和情景与所述音视频图像中的多个所述第一词语或和多个所述情景进行匹配;
匹配一致则判定所述音视频图像的封面与所述音视频内容对应;
根据多个相近的所述情景关键字词所表达的情景生成所述情景类别。
进一步优选地,所述方法还包括:
从所述视频信息中的字幕中提取出多个第二词语,对在所述音视频图像中的同一时间段内出现的多个所述第一词语和多个所述第二词语进行一致性匹配,若匹配一致则输出多个语言关键字词。
进一步优选地,所述方法还包括:
将所述语言关键字词与所述情景关键字词基于语法进行语句连贯组合判断出所述音视频图像中所发生的事件;
基于所述音视频图像中所发生的多个相近的所述事件生成事件类别;
还包括:将所述音视频图像打上与所述事件类别对应的事件标签。
进一步地,分析出所述视频信息中出现的多个情景包括:从所述视频信息的每一帧图片或连续的多帧图片中识别分析出物体、人物、物体的运动、人体的行为中的一种或多种。
进一步优选地,所述情景包括:场景情景、人物情景、事件情景中的一种或多种;
所述场景情景包括:达人视频中出现的一个或多个物体、人物、物体的运动、人体的行为中的一种或多种;
所述事件情景包括:达人视频的主要内容;
所述人物情景包括:达人视频中达人所表现出的表情特征和穿着打扮。
优选地,在所述分析出所述视频信息中出现的多个情景之前:
识别所述视频信息是否为纯照片视频,若为是则滤除所述视频信息对应的音视频图像并归类至图文分享类别内;
根据所述封面中的文字或和情景与所述音视频图像中的多个所述第一词语或和多个所述情景进行匹配还包括:
在匹配不一致时滤除所述音视频图像。
另一方面,本发明还提供了一种视频情景分析装置,所述装置包括至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的视频情景分析方法。
另一方面,本发明还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的视频情景分析方法。
另一方面,本发明还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使所述处理器执行上述的视频情景分析方法。
本发明的有益效果在于:获取音视频图像;分离出音视频图像中的音频信息和视频信息;分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景;对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配,若匹配一致则生成一个或多个情景关键字词;根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内;还包括:将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件;从而提高了对视频情景分析的全面性及准确率,极大的提高了品牌方检索达人的效率,提高了用户体验。
附图说明
图1是本发明实施例一提供的视频情景分析方法的实现流程图;
图2是本发明实施例二提供的视频情景分析装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的视频情景分析方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,获取音视频图像;
在本发明的实施例中,还可以由用户上传音视频图像进行视频情景分析。
在步骤S102中,分离出音视频图像中的音频信息和视频信息;
在本发明的实施例中,以进行多维识别分析提高视频内容分析的准确率及全面性。
在步骤S103中,分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景;
在本发明的实施例中,在分析出视频信息中出现的多个情景之前:
识别视频信息是否为纯照片视频,若为是则滤除视频信息对应的音视频图像并归类至图文分享类别内;或者可以对图文分析/讲解类的视频进行统一归类,不进一步地分析该类视频,有效降低资源利用率,降低服务器的处理负荷。
进一步地,分析出视频信息中出现的多个情景包括:从视频信息的每一帧图片或连续的多帧图片中识别分析出物体、人物、物体的运动、人体的行为中的一种或多种;
其中,情景包括:场景情景、人物情景、事件情景中的一种或多种;
场景情景包括:达人视频中出现的一个或多个物体、人物、物体的运动、人体的行为中的一种或多种;例如:根据吧台、咖啡、面包、咖啡机、餐桌判断出视频事件场景为咖啡厅;
事件情景包括:达人视频的主要内容;例如:根据咖啡厅的场景、并在第二词语或第一词语谈及“工资”“年龄”“婚姻观”的描述时,判断出该事件是相亲;
人物情景包括:达人视频中达人所表现出的表情特征和穿着打扮;例如:染发且穿着大衣的女性、手提公文包拿着文件的白领,头戴耳机身着紧身衣的健身教练。
在步骤S104中,对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配,若匹配一致则生成一个或多个情景关键字词;
在本发明的实施例中,以判断音视频图像中的图像内容是否与音频描述相对应;以选取出优质的视频。
在步骤S105中,根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内;
在本发明的实施例中,方法还包括:根据多个相近的情景关键字词所表达的情景生成情景类别;
优选地,还包括:从视频信息中的字幕中提取出多个第二词语,对在音视频图像中的同一时间段内出现的多个第一词语和多个第二词语进行一致性匹配,若匹配一致则输出多个语言关键字词;同时进行语音识别和字幕识别能保持内容的完整性与准确性;
进一步优选地,还包括:将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件;
例如:某一位达人的视频中包含了护肤场景,视频中包含了如“干燥”“原液”“面霜”“爽肤水”等关键词,系统会综合图片、语音识别,得出该视频事件类型属于皮肤管理场景;
基于音视频图像中所发生的多个相近的事件生成事件类别;
还包括:将音视频图像打上与事件类别对应的事件标签;进行分类归类更佳便于检索达人及达人视频;
进一步地,方法还包括:获取音视频图像的封面,提取封面中的文字或和情景;
根据封面中的文字或和情景与音视频图像中的多个第一词语或和多个情景进行匹配;
匹配一致则判定音视频图像的封面与音视频内容对应;其中,根据封面中的文字或和情景与音视频图像中的多个第一词语或和多个情景进行匹配还包括:在匹配不一致时滤除音视频图像。
在本发明的实施例中,获取音视频图像;分离出音视频图像中的音频信息和视频信息;分析出音频信息中出现的多个第一词语、和视频信息中出现的多个情景;对在音视频图像中的同一时间/段内出现的一个或多个第一词语和一个或多个情景进行一致性匹配,若匹配一致则生成一个或多个情景关键字词;根据多个情景关键字词所表达的情景、将音视频图像归类至对应的情景类别内;还包括:将语言关键字词与情景关键字词基于语法进行语句连贯组合判断出音视频图像中所发生的事件;从而提高了对视频情景分析的全面性及准确率,极大的提高了品牌方检索达人的效率,提高了用户体验。
实施例二:
图2示出了本发明实施例二提供的一种视频情景分析装置,如图2所示,装置10包括:
一个或多个处理器110以及存储器120,图2中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图2中以通过总线连接为例。
处理器110用于完成装置10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。
存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的视频情景分析方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行装置10的各种功能应用以及数据处理,即实现上述方法实施例中的视频情景分析方法。
存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储根据装置10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中视频情景分析方法,例如,执行以上描述的图1中的方法步骤S101至步骤S105。
实施例三:
本发明实施例三提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S101至步骤S105。
作为示例,非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制,RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
实施例四:
本发明实施例四提供了一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被处理器执行时,使所述处理器执行上述方法实施例的视频情景分析方法。例如,执行以上描述的图1中的方法步骤S101至步骤S105。
以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。
除了其他之外,诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地不旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有学生输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
已经在本文中在本说明书和附图中描述的内容包括能够提供一种视频情景分析方法、装置、存储介质及程序产品的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims (10)

1.一种视频情景分析方法,其特征在于,所述方法包括下述步骤:
获取音视频图像;
分离出所述音视频图像中的音频信息和视频信息;
分析出所述音频信息中出现的多个第一词语、和所述视频信息中出现的多个情景;
对在所述音视频图像中的同一时间/段内出现的一个或多个所述第一词语和一个或多个所述情景进行一致性匹配,若匹配一致则生成一个或多个情景关键字词;
根据多个所述情景关键字词所表达的情景、将所述音视频图像归类至对应的情景类别内。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述音视频图像的封面,提取所述封面中的文字或和情景;
根据所述封面中的文字或和情景与所述音视频图像中的多个所述第一词语或和多个所述情景进行匹配;
匹配一致则判定所述音视频图像的封面与所述音视频内容对应;
根据多个相近的所述情景关键字词所表达的情景生成所述情景类别。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
从所述视频信息中的字幕中提取出多个第二词语,对在所述音视频图像中的同一时间段内出现的多个所述第一词语和多个所述第二词语进行一致性匹配,若匹配一致则输出多个语言关键字词。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
将所述语言关键字词与所述情景关键字词基于语法进行语句连贯组合判断出所述音视频图像中所发生的事件;
基于所述音视频图像中所发生的多个相近的所述事件生成事件类别;
还包括:将所述音视频图像打上与所述事件类别对应的事件标签。
5.如权利要求1所述的方法,其特征在于,分析出所述视频信息中出现的多个情景包括:从所述视频信息的每一帧图片或连续的多帧图片中识别分析出物体、人物、物体的运动、人体的行为中的一种或多种。
6.如权利要求5所述的方法,其特征在于,所述情景包括:场景情景、人物情景、事件情景中的一种或多种;
所述场景情景包括:达人视频中出现的一个或多个物体、人物、物体的运动、人体的行为中的一种或多种;
所述事件情景包括:达人视频的主要内容;
所述人物情景包括:达人视频中达人所表现出的表情特征和穿着打扮。
7.如权利要求1所述的方法,其特征在于,在所述分析出所述视频信息中出现的多个情景之前:
识别所述视频信息是否为纯照片视频,若为是则滤除所述视频信息对应的音视频图像并归类至图文分享类别内;
根据所述封面中的文字或和情景与所述音视频图像中的多个所述第一词语或和多个所述情景进行匹配还包括:
在匹配不一致时滤除所述音视频图像。
8.一种视频情景分析装置,其特征在于,所述装置包括至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一项所述的视频情景分析方法。
9.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行权利要求1-7任一项所述视频情景分析方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使所述处理器执行权利要求1-7任一项所述的视频情景分析方法。
CN202210161993.5A 2022-02-22 2022-02-22 一种视频情景分析方法、装置、存储介质 Active CN115205725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210161993.5A CN115205725B (zh) 2022-02-22 2022-02-22 一种视频情景分析方法、装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210161993.5A CN115205725B (zh) 2022-02-22 2022-02-22 一种视频情景分析方法、装置、存储介质

Publications (2)

Publication Number Publication Date
CN115205725A true CN115205725A (zh) 2022-10-18
CN115205725B CN115205725B (zh) 2023-10-27

Family

ID=83573797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210161993.5A Active CN115205725B (zh) 2022-02-22 2022-02-22 一种视频情景分析方法、装置、存储介质

Country Status (1)

Country Link
CN (1) CN115205725B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015260A (ja) * 2008-07-01 2010-01-21 Sony Corp 情報処理方法及び情報処理装置
US20160133154A1 (en) * 2013-05-13 2016-05-12 Mango IP Holdings, LLC System and method for language learning through film
CN109800326A (zh) * 2019-01-24 2019-05-24 广州虎牙信息科技有限公司 一种视频处理方法、装置、设备和存储介质
US20190259388A1 (en) * 2018-02-21 2019-08-22 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
CN110688526A (zh) * 2019-11-07 2020-01-14 山东舜网传媒股份有限公司 基于关键帧识别和音频文本化的短视频推荐方法及系统
CN110769178A (zh) * 2019-12-25 2020-02-07 北京影谱科技股份有限公司 自动生成足球比赛射门集锦的方法、装置及设备及计算机可读存储介质
CN110895861A (zh) * 2018-09-13 2020-03-20 杭州海康威视数字技术股份有限公司 异常行为预警方法、装置、监控设备和存储介质
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN111597381A (zh) * 2020-04-16 2020-08-28 国家广播电视总局广播电视科学研究院 内容生成方法、装置以及介质
CN111738210A (zh) * 2020-07-20 2020-10-02 平安国际智慧城市科技股份有限公司 基于音视频的学生心理状态分析方法、装置、终端及介质
CN112069970A (zh) * 2020-08-31 2020-12-11 首都师范大学 课堂教学事件分析方法及装置
CN112163122A (zh) * 2020-10-30 2021-01-01 腾讯科技(深圳)有限公司 确定目标视频的标签的方法、装置、计算设备及存储介质
CN112200078A (zh) * 2020-10-10 2021-01-08 济南浪潮高新科技投资发展有限公司 一种基于视频智能分析的语料数据集生成方法及系统
US10999566B1 (en) * 2019-09-06 2021-05-04 Amazon Technologies, Inc. Automated generation and presentation of textual descriptions of video content
CN112992148A (zh) * 2021-03-03 2021-06-18 中国工商银行股份有限公司 视频内的语音识别方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015260A (ja) * 2008-07-01 2010-01-21 Sony Corp 情報処理方法及び情報処理装置
US20160133154A1 (en) * 2013-05-13 2016-05-12 Mango IP Holdings, LLC System and method for language learning through film
US20190259388A1 (en) * 2018-02-21 2019-08-22 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
CN110895861A (zh) * 2018-09-13 2020-03-20 杭州海康威视数字技术股份有限公司 异常行为预警方法、装置、监控设备和存储介质
CN109800326A (zh) * 2019-01-24 2019-05-24 广州虎牙信息科技有限公司 一种视频处理方法、装置、设备和存储介质
US10999566B1 (en) * 2019-09-06 2021-05-04 Amazon Technologies, Inc. Automated generation and presentation of textual descriptions of video content
CN110688526A (zh) * 2019-11-07 2020-01-14 山东舜网传媒股份有限公司 基于关键帧识别和音频文本化的短视频推荐方法及系统
CN110769178A (zh) * 2019-12-25 2020-02-07 北京影谱科技股份有限公司 自动生成足球比赛射门集锦的方法、装置及设备及计算机可读存储介质
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN111597381A (zh) * 2020-04-16 2020-08-28 国家广播电视总局广播电视科学研究院 内容生成方法、装置以及介质
CN111738210A (zh) * 2020-07-20 2020-10-02 平安国际智慧城市科技股份有限公司 基于音视频的学生心理状态分析方法、装置、终端及介质
CN112069970A (zh) * 2020-08-31 2020-12-11 首都师范大学 课堂教学事件分析方法及装置
CN112200078A (zh) * 2020-10-10 2021-01-08 济南浪潮高新科技投资发展有限公司 一种基于视频智能分析的语料数据集生成方法及系统
CN112163122A (zh) * 2020-10-30 2021-01-01 腾讯科技(深圳)有限公司 确定目标视频的标签的方法、装置、计算设备及存储介质
CN112992148A (zh) * 2021-03-03 2021-06-18 中国工商银行股份有限公司 视频内的语音识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIZHE CHEN ET AL.: "Fine-Graned Video-Text Retrieval With Hierarchical Graph Reasoning", 《CVPR 2020》, pages 10638 - 10647 *
张随雨 等: "基于多模态融合的全媒体新闻智能编目系统设计", 《广播与电视技术》, vol. 49, pages 62 - 65 *

Also Published As

Publication number Publication date
CN115205725B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
CN109862397B (zh) 一种视频分析方法、装置、设备和存储介质
CN111507099A (zh) 文本分类方法、装置、计算机设备及存储介质
CN108182714B (zh) 图像处理方法及装置、存储介质
WO2020007129A1 (zh) 基于语音交互的上下文获取方法及设备
JP7242848B2 (ja) 深層学習を使用して個人用の製品推奨を提供するためのシステムおよび方法
CN109218629A (zh) 视频生成方法、存储介质和装置
CN113870133B (zh) 多媒体显示及匹配方法、装置、设备及介质
WO2020011001A1 (zh) 图像处理方法、装置、存储介质和计算机设备
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
US9678960B2 (en) Methods and systems of dynamic content analysis
CN114268747A (zh) 基于虚拟数字人的访谈业务处理方法及相关装置
KR20200065832A (ko) 문서 데이터내 사진 이미지의 캡셔닝 자동 생성 시스템 및 방법
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
US20230029505A1 (en) Image synthesis for personalized facial expression classification
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN111611505B (zh) 电子书中多媒体资源的访问方法、计算设备及存储介质
CN115205725A (zh) 一种视频情景分析方法、装置、存储介质及程序产品
CN111063006A (zh) 基于图像的文学作品生成方法、装置、设备及存储介质
CN109829388A (zh) 基于微表情的视频数据处理方法、装置和计算机设备
CN115659078A (zh) 基于人工智能的网络信息安全监控方法及系统
CN114969544A (zh) 基于热点数据的推荐内容生成方法、装置、设备及介质
CN112785681B (zh) 宠物的3d形象生成方法及装置
CN114449310A (zh) 视频剪辑方法、装置、计算机设备及存储介质
CN110309517B (zh) 表情文案处理方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant