CN114786033A - 一种基于人工智能的视听数据智能分析管理系统 - Google Patents
一种基于人工智能的视听数据智能分析管理系统 Download PDFInfo
- Publication number
- CN114786033A CN114786033A CN202210715777.0A CN202210715777A CN114786033A CN 114786033 A CN114786033 A CN 114786033A CN 202210715777 A CN202210715777 A CN 202210715777A CN 114786033 A CN114786033 A CN 114786033A
- Authority
- CN
- China
- Prior art keywords
- video
- analyzed
- sub
- audio
- live video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 60
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000007726 management method Methods 0.000 claims description 18
- 238000013500 data storage Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于人工智能的视听数据智能分析管理系统,涉及视频视听数据分析技术领域,本发明通过获取待分析直播视频内各子视频段的视听数据,处理得到待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度和视听数据连贯度,评估得到待分析直播视频的视听数据匹配指数和视听数据连贯指数,进而分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理,从而实现对直播视频视听数据进行智能化和全面化的分析管理,在极大程度上保证直播视频质量分析结果的精准性和可靠性,进而提高用户的直播视频观看体验感和满意度。
Description
技术领域
本发明涉及视频视听数据分析技术领域,涉及到一种基于人工智能的视听数据智能分析管理系统。
背景技术
随着多媒体技术的发展和互联网的普及,观看直播视频已逐渐成为人们日常娱乐消费的一部分,而直播视频质量直接影响着用户观看体验。因此,对直播视频视听数据质量进行分析管理具有重要的意义。
目前,现有技术中的直播视频视听数据质量分析方式主要采用人员主观评测,即通过评测人员观看录制好的直播视频,再凭借主观感受评测出直播视频质量的好坏。该方式虽然简单,但是存在着弊端:
1、由于评测人员只能单方面对直播视频的画面或声音进行主观评测,却无法对直播视频的画面数据、语音数据和手语画面数据进行同步分析,从而导致现有技术存在一定的局限性,无法评测直播视频视听数据之间的匹配度,进而不能保证直播视频质量分析结果的精准性和整体可靠性;
2、通过评测人员主观评测只能大致分析直播视频视听数据的整体流畅度,无法精确判断直播视频内视频帧数画面和视频时间间隔的连贯度,从而导致直播视频的视听数据质量无法达到预期要求,进一步使得直播视频观看用户的视觉效果和听觉效果受到影响,在极大程度上降低用户的直播视频观看体验感和满意度,进而降低用户对直播视频的兴趣度和积极性。
发明内容
针对上述问题,本发明提出了一种基于人工智能的视听数据智能分析管理系统,实现对直播视频的视听数据进行智能分析管理的功能。
本发明解决其技术问题采用的技术方案是:
本发明提供一种基于人工智能的视听数据智能分析管理系统,包括:
视听数据截取模块用于对待分析直播视频进行划分,截取待分析直播视频内各子视频段的视听数据,其中视听数据包括视频画面数据、视频语音数据和手语画面数据;
视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理,得到待分析直播视频内各子视频段的视听数据对应关联信息;
视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度;
视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数;
视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,获得待分析直播视频内各子视频段的视听数据连贯度;
视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中,得到待分析直播视频的视听数据连贯指数;
综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理;
视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。
在上述实施例的基础上,所述视听数据截取模块中对待分析直播视频进行划分,具体划分方式包括:
在上述实施例的基础上,所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息,具体包括:
获取待分析直播视频内各子视频段的视频画面数据,按照视频播放顺序依次提取待分析直播视频内各子视频段的视频画面数据中各视频帧图像,并采用图像定位技术对待分析直播视频内各子视频段的视频画面数据中各视频帧图像进行定位处理,得到待分析直播视频内各子视频段的视频画面数据中各视频帧图像对应人物口型图像,记为待分析直播视频内各子视频段的视频画面数据对应各人物口型图像;
获取待分析直播视频内各子视频段的视频语音数据,采用语音识别技术对待分析直播视频内各子视频段的视频语音数据进行识别处理,得到待分析直播视频内各子视频段的视频语音数据对应文本信息,并对待分析直播视频内各子视频段的视频语音数据对应文本信息按照预设顺序进行分词处理,得到待分析直播视频内各子视频段的视频语音数据对应各文本词汇;
获取待分析直播视频内各子视频段的手语画面数据,并采用图像分割技术对待分析直播视频内各子视频段的手语画面数据进行处理,得到待分析直播视频内各子视频段的手语画面数据中各视频帧画面对应人物手语图像,并记为待分析直播视频内各子视频段的手语画面数据对应各人物手语图像。
在上述实施例的基础上,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析包括:
提取视听数据存储库中存储的各预设文本词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的视频语音数据对应各文本词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的视频语音数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度记为。
在上述实施例的基础上,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设人物手语图像对应的基本表达含义,对比筛选待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义,将待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义进行语句汇总,得到待分析直播视频内各子视频段的手语画面数据对应表达语句,并通过分词处理得到待分析直播视频内各子视频段的手语画面数据对应各表达词汇,构成待分析直播视频内各子视频段的手语画面数据对应表达词汇集合,表示为待分析直播视频内第i个子视频段的手语画面数据对应第j个表达词汇,,;
根据待分析直播视频内各子视频段的手语画面数据对应表达词汇集合和各子视频段的视频语音数据对应文本词汇集合,分析待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度记为。
在上述实施例的基础上,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设表达词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的手语画面数据对应各表达词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的手语画面数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的手语画面数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度记为。
在上述实施例的基础上,所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数,具体评估方式为:
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度、各子视频段对应手语画面数据与其视频语音数据的匹配度和各子视频段对应视频画面数据与其手语画面数据的匹配度代入视听数据匹配指数评估公式,得到待分析直播视频的视听数据匹配指数,其中分别表示为预设的视频画面数据与视频语音数据的匹配影响因子、手语画面数据与视频语音数据的匹配影响因子和视频画面数据与手语画面数据的匹配影响因子,且。
在上述实施例的基础上,所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度,具体获得方式为:
获取待分析直播视频内各子视频段的视频语音数据对应各文本词汇,提取待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间,分析待分析直播视频内各子视频段的视频语音数据连贯度,将待分析直播视频内各子视频段的视频语音数据连贯度标记为;
在上述实施例的基础上,所述视听数据连贯指数评估模块中得到待分析直播视频的视听数据连贯指数,具体包括:
将待分析直播视频内各子视频段的视频画面数据连贯度、各子视频段的视频语音数据连贯度和各子视频段的手语画面数据连贯度代入视听数据连贯指数分析公式,得到待分析直播视频的视听数据连贯指数,其中分别表示为预设的视频画面数据连贯度影响因子、视频语音数据连贯度影响因子和手语画面数据连贯度影响因子,其中。
在上述实施例的基础上,所述综合视听数据质量系数模块中分析待分析直播视频的综合视听数据质量系数,具体分析方式为:
相对于现有技术,本发明所述的一种基于人工智能的视听数据智能分析管理系统以下有益效果:
本发明提供的一种基于人工智能的视听数据智能分析管理系统,通过获取待分析直播视频内各子视频段的视听数据,处理得到待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度,并根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数,从而确保能够对直播视频的视频画面数据、语音数据和手语画面数据进行同步分析,打破现有技术对直播视频视听数据分析的局限性,进而实现对直播视频视听数据匹配度进行智能化和全面化的分析管理,在极大程度上保证直播视频质量分析结果的精准性和整体可靠性。
本发明提供的一种基于人工智能的视听数据智能分析管理系统,通过获取待分析直播视频内各子视频段的视听数据连贯度,评估得到待分析直播视频的视听数据连贯指数,从而能够精确判断直播视频内视频帧数画面和视频时间间隔的连贯度,确保后期直播视频的视听数据质量能够达到预期要求,同时基于待分析直播视频的视听数据连贯指数和视听数据匹配指数,分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理,从而避免直播视频观看用户的视觉效果和听觉效果受到影响,在极大程度上提高用户的直播视频观看体验感和满意度,进而增加用户对直播视频的兴趣度和积极性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统模块连接图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明提供一种基于人工智能的视听数据智能分析管理系统,包括视听数据截取模块、视听数据预处理模块、视听信息匹配度分析模块、视听数据匹配指数评估模块、视听数据连贯度获取模块、视听数据连贯指数评估模块、综合视听数据质量系数分析模块和视听数据存储库。
所述视听数据截取模块和视听数据预处理模块连接,所述视听数据预处理模块分别与视听信息匹配度分析模块和视听数据连贯度获取模块连接,所述视听信息匹配度分析模块分别与视听数据匹配指数评估模块和视听数据存储库连接,所述视听数据连贯度获取模块与视听数据连贯指数评估模块连接,所述综合视听数据质量系数分析模块分别与视听数据匹配指数评估模块和视听数据连贯指数评估模块连接。
所述视听数据截取模块用于对待分析直播视频进行划分,截取待分析直播视频内各子视频段的视听数据,其中视听数据包括视频画面数据、视频语音数据和手语画面数据。
作为一种优选方案,所述视听数据截取模块中对待分析直播视频进行划分,具体划分方式包括:
所述视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理,得到待分析直播视频内各子视频段的视听数据对应关联信息。
作为一种优选方案,所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息,具体包括:
获取待分析直播视频内各子视频段的视频画面数据,按照视频播放顺序依次提取待分析直播视频内各子视频段的视频画面数据中各视频帧图像,并采用图像定位技术对待分析直播视频内各子视频段的视频画面数据中各视频帧图像进行定位处理,得到待分析直播视频内各子视频段的视频画面数据中各视频帧图像对应人物口型图像,记为待分析直播视频内各子视频段的视频画面数据对应各人物口型图像;
获取待分析直播视频内各子视频段的视频语音数据,采用语音识别技术对待分析直播视频内各子视频段的视频语音数据进行识别处理,得到待分析直播视频内各子视频段的视频语音数据对应文本信息,并对待分析直播视频内各子视频段的视频语音数据对应文本信息按照预设顺序进行分词处理,得到待分析直播视频内各子视频段的视频语音数据对应各文本词汇;
获取待分析直播视频内各子视频段的手语画面数据,并采用图像分割技术对待分析直播视频内各子视频段的手语画面数据进行处理,得到待分析直播视频内各子视频段的手语画面数据中各视频帧画面对应人物手语图像,并记为待分析直播视频内各子视频段的手语画面数据对应各人物手语图像。
所述视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度。
作为一种优选方案,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析包括:
提取视听数据存储库中存储的各预设文本词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的视频语音数据对应各文本词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的视频语音数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度记为。
进一步地,上述中分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,具体分析方式为:
将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像按照顺序构成各子视频段的视频画面数据对应人物口型图像集合,并根据待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像,构成各子视频段的视频语音数据对应标准人物口型图像集合;
将待分析直播视频内各子视频段的视频画面数据对应人物口型图像集合与其视频语音数据对应标准人物口型图像集合进行对比,得到待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的各相同人物口型图像,并统计待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的相同人物口型图像数量,将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的相同人物口型图像数量标记为;
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的各相同人物口型图像记为各子视频段对应的各相同人物口型图像,提取各子视频段对应的各相同人物口型图像在人物口型图像集合中所处位置和在标准人物口型图像集合中所处位置,将各子视频段对应的各相同人物口型图像在人物口型图像集合中所处位置与其在标准人物口型图像集合中所处位置进行对比,得到各子视频段对应视频画面数据与其视频语音数据的人物口型图像所处位置相同数量,将各子视频段对应视频画面数据与其视频语音数据的人物口型图像所处位置相同数量标记为;
分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,其中分别表示为预设的人物口型图像相同数量比例和人物口型图像所处位置相同数量比例对应的匹配影响因子,表示为第i个子视频段的视频画面数据对应人物口型图像数量,表示为第i个子视频段的视频语音数据对应人物口型图像数量。
作为一种优选方案,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设人物手语图像对应的基本表达含义,对比筛选待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义,将待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义进行语句汇总,得到待分析直播视频内各子视频段的手语画面数据对应表达语句,并通过分词处理得到待分析直播视频内各子视频段的手语画面数据对应各表达词汇,构成待分析直播视频内各子视频段的手语画面数据对应表达词汇集合,表示为待分析直播视频内第i个子视频段的手语画面数据对应第j个表达词汇,,;
根据待分析直播视频内各子视频段的手语画面数据对应表达词汇集合和各子视频段的视频语音数据对应文本词汇集合,分析待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度记为。
作为一种优选方案,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设表达词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的手语画面数据对应各表达词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的手语画面数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的手语画面数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度记为。
进一步地,所述待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度采用上述中待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度分析方式进行分析。
所述视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数。
作为一种优选方案,所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数,具体评估方式为:
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度、各子视频段对应手语画面数据与其视频语音数据的匹配度和各子视频段对应视频画面数据与其手语画面数据的匹配度代入视听数据匹配指数评估公式,得到待分析直播视频的视听数据匹配指数,其中分别表示为预设的视频画面数据与视频语音数据的匹配影响因子、手语画面数据与视频语音数据的匹配影响因子和视频画面数据与手语画面数据的匹配影响因子,且。
需要说明的是,本发明通过获取待分析直播视频内各子视频段的视听数据,处理得到待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度,并根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数,从而确保能够对直播视频的视频画面数据、语音数据和手语画面数据进行同步分析,打破现有技术对直播视频视听数据分析的局限性,进而实现对直播视频视听数据匹配度进行智能化和全面化的分析管理,在极大程度上保证直播视频质量分析结果的精准性和整体可靠性。
所述视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,获得待分析直播视频内各子视频段的视听数据连贯度。
作为一种优选方案,所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度,具体获得方式为:
获取待分析直播视频内各子视频段的视频语音数据对应各文本词汇,提取待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间,分析待分析直播视频内各子视频段的视频语音数据连贯度,将待分析直播视频内各子视频段的视频语音数据连贯度标记为;
进一步地,所述待分析直播视频内各子视频段的视频画面数据连贯度分析方式为:
将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像进行对比,统计待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像的相似度,将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像的相似度标记为,其中,f表示为第f个人物口型图像;
分析待分析直播视频内各子视频段的视频画面数据连贯度,其中k表示为人物口型图像总数量,e表示为常数,,表示为预设的视频画面数据连贯影响因子,表示为预设的人物口型图像与其下一相邻人物口型图像的相似度阈值。
进一步地,所述待分析直播视频内各子视频段的视频语音数据连贯度分析方式为:
将待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间代入公式,得到待分析直播视频内各子视频的视频语音数据连贯度,其中表示为预设的视频语音数据连贯影响因子,u表示为文本词汇数量,表示为待分析直播视频内第i个子视频段的视频语音数据对应第r+1个文本词汇的视频时间,表示为待分析直播视频内第i个子视频段的视频语音数据对应第r个文本词汇的视频时间,表示为预设的直播视频语音中文本词汇之间的允许时间间隔差值。
进一步地,所述待分析直播视频内各子视频段的手语画面数据连贯度分析方式与上述待分析直播视频内各子视频段的视频画面数据连贯度分析方式一致,这里就不具体详细表述。
所述视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中,得到待分析直播视频的视听数据连贯指数。
作为一种优选方案,所述视听数据连贯指数评估模块中得到待分析直播视频的视听数据连贯指数,具体包括:
将待分析直播视频内各子视频段的视频画面数据连贯度、各子视频段的视频语音数据连贯度和各子视频段的手语画面数据连贯度代入视听数据连贯指数分析公式,得到待分析直播视频的视听数据连贯指数,其中分别表示为预设的视频画面数据连贯度影响因子、视频语音数据连贯度影响因子和手语画面数据连贯度影响因子,其中。
所述综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理。
作为一种优选方案,所述综合视听数据质量系数模块中分析待分析直播视频的综合视听数据质量系数,具体分析方式为:
进一步地,所述综合视听数据质量系数模块中根据对比结果进行对应的处理,具体包括:
将待分析直播视频的综合视听数据质量系数与预设的合格视听数据质量系数阈值进行对比,若待分析直播视频的综合视听数据质量系数小于预设的合格视听数据质量系数阈值,表明待分析直播视频的综合视听数据质量不合格,则通知直播管理人员对待分析直播视频进行剪辑处理。
所述视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。
需要说明的是,本发明通过获取待分析直播视频内各子视频段的视听数据连贯度,评估得到待分析直播视频的视听数据连贯指数,从而能够精确判断直播视频内视频帧数画面和视频时间间隔的连贯度,确保后期直播视频的视听数据质量能够达到预期要求,同时基于待分析直播视频的视听数据连贯指数和视听数据匹配指数,分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理,从而避免直播视频观看用户的视觉效果和听觉效果受到影响,在极大程度上提高用户的直播视频观看体验感和满意度,进而增加用户对直播视频的兴趣度和积极性。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (8)
1.一种基于人工智能的视听数据智能分析管理系统,其特征在于,包括:
视听数据截取模块用于对待分析直播视频进行划分,截取待分析直播视频内各子视频段的视听数据,其中视听数据包括视频画面数据、视频语音数据和手语画面数据;
所述视听数据截取模块中对待分析直播视频进行划分,具体划分方式包括:
视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理,得到待分析直播视频内各子视频段的视听数据对应关联信息;
视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度;
视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数;
所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数,具体评估方式为:
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度、各子视频段对应手语画面数据与其视频语音数据的匹配度和各子视频段对应视频画面数据与其手语画面数据的匹配度代入视听数据匹配指数评估公式,得到待分析直播视频的视听数据匹配指数,其中分别表示为预设的视频画面数据与视频语音数据的匹配影响因子、手语画面数据与视频语音数据的匹配影响因子和视频画面数据与手语画面数据的匹配影响因子,且;
视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,获得待分析直播视频内各子视频段的视听数据连贯度;
视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中,得到待分析直播视频的视听数据连贯指数;
综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理;
视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。
2.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息,具体包括:
获取待分析直播视频内各子视频段的视频画面数据,按照视频播放顺序依次提取待分析直播视频内各子视频段的视频画面数据中各视频帧图像,并采用图像定位技术对待分析直播视频内各子视频段的视频画面数据中各视频帧图像进行定位处理,得到待分析直播视频内各子视频段的视频画面数据中各视频帧图像对应人物口型图像,记为待分析直播视频内各子视频段的视频画面数据对应各人物口型图像;
获取待分析直播视频内各子视频段的视频语音数据,采用语音识别技术对待分析直播视频内各子视频段的视频语音数据进行识别处理,得到待分析直播视频内各子视频段的视频语音数据对应文本信息,并对待分析直播视频内各子视频段的视频语音数据对应文本信息按照预设顺序进行分词处理,得到待分析直播视频内各子视频段的视频语音数据对应各文本词汇;
获取待分析直播视频内各子视频段的手语画面数据,并采用图像分割技术对待分析直播视频内各子视频段的手语画面数据进行处理,得到待分析直播视频内各子视频段的手语画面数据中各视频帧画面对应人物手语图像,并记为待分析直播视频内各子视频段的手语画面数据对应各人物手语图像。
3.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析包括:
4.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设人物手语图像对应的基本表达含义,对比筛选待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义,将待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义进行语句汇总,得到待分析直播视频内各子视频段的手语画面数据对应表达语句,并通过分词处理得到待分析直播视频内各子视频段的手语画面数据对应各表达词汇,构成待分析直播视频内各子视频段的手语画面数据对应表达词汇集合,表示为待分析直播视频内第i个子视频段的手语画面数据对应第j个表达词汇,,;
5.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
6.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度,具体获得方式为:
获取待分析直播视频内各子视频段的视频语音数据对应各文本词汇,提取待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间,分析待分析直播视频内各子视频段的视频语音数据连贯度,将待分析直播视频内各子视频段的视频语音数据连贯度标记为;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210715777.0A CN114786033B (zh) | 2022-06-23 | 2022-06-23 | 一种基于人工智能的视听数据智能分析管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210715777.0A CN114786033B (zh) | 2022-06-23 | 2022-06-23 | 一种基于人工智能的视听数据智能分析管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114786033A true CN114786033A (zh) | 2022-07-22 |
CN114786033B CN114786033B (zh) | 2022-10-21 |
Family
ID=82422312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210715777.0A Active CN114786033B (zh) | 2022-06-23 | 2022-06-23 | 一种基于人工智能的视听数据智能分析管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114786033B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109168067A (zh) * | 2018-11-02 | 2019-01-08 | 深圳Tcl新技术有限公司 | 视频时序矫正方法、矫正终端及计算机可读存储介质 |
CN109769099A (zh) * | 2019-01-15 | 2019-05-17 | 三星电子(中国)研发中心 | 通话人物异常的检测方法和装置 |
CN109951652A (zh) * | 2019-03-20 | 2019-06-28 | 合肥科塑信息科技有限公司 | 一种人像语音视频同步校准装置及系统 |
CN111091824A (zh) * | 2019-11-30 | 2020-05-01 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
CN111639766A (zh) * | 2020-05-26 | 2020-09-08 | 上海极链网络科技有限公司 | 样本数据的生成方法以及装置 |
US20210160580A1 (en) * | 2019-11-25 | 2021-05-27 | Dish Network L.L.C. | Methods and systems for sign language interpretation of media stream data |
CN112911192A (zh) * | 2021-01-28 | 2021-06-04 | 维沃移动通信有限公司 | 视频处理方法、装置和电子设备 |
CN113902992A (zh) * | 2021-10-09 | 2022-01-07 | 全球能源互联网研究院有限公司 | 一种视频质量评估方法、装置及存储介质 |
CN114187259A (zh) * | 2021-12-10 | 2022-03-15 | 北京达佳互联信息技术有限公司 | 视频质量分析引擎的创建方法、视频质量分析方法及设备 |
CN114519809A (zh) * | 2022-02-14 | 2022-05-20 | 复旦大学 | 一种基于多尺度语义网络的视听视频解析装置及方法 |
-
2022
- 2022-06-23 CN CN202210715777.0A patent/CN114786033B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109168067A (zh) * | 2018-11-02 | 2019-01-08 | 深圳Tcl新技术有限公司 | 视频时序矫正方法、矫正终端及计算机可读存储介质 |
CN109769099A (zh) * | 2019-01-15 | 2019-05-17 | 三星电子(中国)研发中心 | 通话人物异常的检测方法和装置 |
CN109951652A (zh) * | 2019-03-20 | 2019-06-28 | 合肥科塑信息科技有限公司 | 一种人像语音视频同步校准装置及系统 |
US20210160580A1 (en) * | 2019-11-25 | 2021-05-27 | Dish Network L.L.C. | Methods and systems for sign language interpretation of media stream data |
CN111091824A (zh) * | 2019-11-30 | 2020-05-01 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
CN111639766A (zh) * | 2020-05-26 | 2020-09-08 | 上海极链网络科技有限公司 | 样本数据的生成方法以及装置 |
CN112911192A (zh) * | 2021-01-28 | 2021-06-04 | 维沃移动通信有限公司 | 视频处理方法、装置和电子设备 |
CN113902992A (zh) * | 2021-10-09 | 2022-01-07 | 全球能源互联网研究院有限公司 | 一种视频质量评估方法、装置及存储介质 |
CN114187259A (zh) * | 2021-12-10 | 2022-03-15 | 北京达佳互联信息技术有限公司 | 视频质量分析引擎的创建方法、视频质量分析方法及设备 |
CN114519809A (zh) * | 2022-02-14 | 2022-05-20 | 复旦大学 | 一种基于多尺度语义网络的视听视频解析装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114786033B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Dynamic captioning: video accessibility enhancement for hearing impairment | |
CN110020437B (zh) | 一种视频和弹幕相结合的情感分析及可视化方法 | |
Oh et al. | Speech2face: Learning the face behind a voice | |
Yang et al. | LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild | |
CN111488487B (zh) | 一种面向全媒体数据的广告检测方法及检测系统 | |
Albanie et al. | Bbc-oxford british sign language dataset | |
KR20100107036A (ko) | 웃음 탐지기 및 미디어 프리젠테이션에 대한 감정 반응을 추적하기 위한 시스템 및 방법 | |
Ellis et al. | Why we watch the news: a dataset for exploring sentiment in broadcast video news | |
CN110505504B (zh) | 视频节目处理方法、装置、计算机设备及存储介质 | |
CN110516266A (zh) | 视频字幕自动翻译方法、装置、存储介质及计算机设备 | |
CN109151499A (zh) | 视频审核方法及装置 | |
CN109714608A (zh) | 视频数据处理方法、装置、计算机设备和存储介质 | |
CN112287175A (zh) | 一种视频高亮片段预测方法和系统 | |
CN110781346A (zh) | 基于虚拟形象的新闻生产方法、系统、装置和存储介质 | |
CN116567351B (zh) | 一种视频处理方法、装置、设备及介质 | |
CN114786033B (zh) | 一种基于人工智能的视听数据智能分析管理系统 | |
CN114125506A (zh) | 语音审核方法及装置 | |
WO2023142590A1 (zh) | 手语视频的生成方法、装置、计算机设备及存储介质 | |
Pham et al. | An audio-based deep learning framework for BBC television programme classification | |
CN116088675A (zh) | 虚拟形象交互方法及相关装置、设备、系统和介质 | |
CN115273856A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
Xu et al. | Gabor based lipreading with a new audiovisual mandarin corpus | |
CN111681680B (zh) | 视频识别物体获取音频方法、系统、装置及可读存储介质 | |
CN113490027A (zh) | 一种短视频制作生成处理方法、设备及计算机存储介质 | |
Sundaram et al. | Towards evaluation of example-based audio retrieval system using affective dimensions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |