CN114786033A - 一种基于人工智能的视听数据智能分析管理系统 - Google Patents

一种基于人工智能的视听数据智能分析管理系统 Download PDF

Info

Publication number
CN114786033A
CN114786033A CN202210715777.0A CN202210715777A CN114786033A CN 114786033 A CN114786033 A CN 114786033A CN 202210715777 A CN202210715777 A CN 202210715777A CN 114786033 A CN114786033 A CN 114786033A
Authority
CN
China
Prior art keywords
video
analyzed
sub
audio
live video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210715777.0A
Other languages
English (en)
Other versions
CN114786033B (zh
Inventor
罗鑫凯
王新勇
杨柳
单鑫
张雅妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Entertainment Technology Qingdao Co ltd
Original Assignee
Chinese Translation Entertainment Technology Qingdao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Entertainment Technology Qingdao Co ltd filed Critical Chinese Translation Entertainment Technology Qingdao Co ltd
Priority to CN202210715777.0A priority Critical patent/CN114786033B/zh
Publication of CN114786033A publication Critical patent/CN114786033A/zh
Application granted granted Critical
Publication of CN114786033B publication Critical patent/CN114786033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于人工智能的视听数据智能分析管理系统,涉及视频视听数据分析技术领域,本发明通过获取待分析直播视频内各子视频段的视听数据,处理得到待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度和视听数据连贯度,评估得到待分析直播视频的视听数据匹配指数和视听数据连贯指数,进而分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理,从而实现对直播视频视听数据进行智能化和全面化的分析管理,在极大程度上保证直播视频质量分析结果的精准性和可靠性,进而提高用户的直播视频观看体验感和满意度。

Description

一种基于人工智能的视听数据智能分析管理系统
技术领域
本发明涉及视频视听数据分析技术领域,涉及到一种基于人工智能的视听数据智能分析管理系统。
背景技术
随着多媒体技术的发展和互联网的普及,观看直播视频已逐渐成为人们日常娱乐消费的一部分,而直播视频质量直接影响着用户观看体验。因此,对直播视频视听数据质量进行分析管理具有重要的意义。
目前,现有技术中的直播视频视听数据质量分析方式主要采用人员主观评测,即通过评测人员观看录制好的直播视频,再凭借主观感受评测出直播视频质量的好坏。该方式虽然简单,但是存在着弊端:
1、由于评测人员只能单方面对直播视频的画面或声音进行主观评测,却无法对直播视频的画面数据、语音数据和手语画面数据进行同步分析,从而导致现有技术存在一定的局限性,无法评测直播视频视听数据之间的匹配度,进而不能保证直播视频质量分析结果的精准性和整体可靠性;
2、通过评测人员主观评测只能大致分析直播视频视听数据的整体流畅度,无法精确判断直播视频内视频帧数画面和视频时间间隔的连贯度,从而导致直播视频的视听数据质量无法达到预期要求,进一步使得直播视频观看用户的视觉效果和听觉效果受到影响,在极大程度上降低用户的直播视频观看体验感和满意度,进而降低用户对直播视频的兴趣度和积极性。
发明内容
针对上述问题,本发明提出了一种基于人工智能的视听数据智能分析管理系统,实现对直播视频的视听数据进行智能分析管理的功能。
本发明解决其技术问题采用的技术方案是:
本发明提供一种基于人工智能的视听数据智能分析管理系统,包括:
视听数据截取模块用于对待分析直播视频进行划分,截取待分析直播视频内各子视频段的视听数据,其中视听数据包括视频画面数据、视频语音数据和手语画面数据;
视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理,得到待分析直播视频内各子视频段的视听数据对应关联信息;
视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度;
视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数;
视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,获得待分析直播视频内各子视频段的视听数据连贯度;
视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中,得到待分析直播视频的视听数据连贯指数;
综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理;
视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。
在上述实施例的基础上,所述视听数据截取模块中对待分析直播视频进行划分,具体划分方式包括:
将待分析直播视频按照预设视频帧数划分方式进行划分,得到待分析直播视频内各子视频段,并按照视频播放时间先后顺序依次对待分析直播视频内各子视频段进行编号,将待分析直播视频内各子视频段的编号分别记为
Figure 840934DEST_PATH_IMAGE001
在上述实施例的基础上,所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息,具体包括:
获取待分析直播视频内各子视频段的视频画面数据,按照视频播放顺序依次提取待分析直播视频内各子视频段的视频画面数据中各视频帧图像,并采用图像定位技术对待分析直播视频内各子视频段的视频画面数据中各视频帧图像进行定位处理,得到待分析直播视频内各子视频段的视频画面数据中各视频帧图像对应人物口型图像,记为待分析直播视频内各子视频段的视频画面数据对应各人物口型图像;
获取待分析直播视频内各子视频段的视频语音数据,采用语音识别技术对待分析直播视频内各子视频段的视频语音数据进行识别处理,得到待分析直播视频内各子视频段的视频语音数据对应文本信息,并对待分析直播视频内各子视频段的视频语音数据对应文本信息按照预设顺序进行分词处理,得到待分析直播视频内各子视频段的视频语音数据对应各文本词汇;
获取待分析直播视频内各子视频段的手语画面数据,并采用图像分割技术对待分析直播视频内各子视频段的手语画面数据进行处理,得到待分析直播视频内各子视频段的手语画面数据中各视频帧画面对应人物手语图像,并记为待分析直播视频内各子视频段的手语画面数据对应各人物手语图像。
在上述实施例的基础上,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析包括:
提取视听数据存储库中存储的各预设文本词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的视频语音数据对应各文本词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的视频语音数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度记为
Figure 217689DEST_PATH_IMAGE002
在上述实施例的基础上,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设人物手语图像对应的基本表达含义,对比筛选待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义,将待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义进行语句汇总,得到待分析直播视频内各子视频段的手语画面数据对应表达语句,并通过分词处理得到待分析直播视频内各子视频段的手语画面数据对应各表达词汇,构成待分析直播视频内各子视频段的手语画面数据对应表达词汇集合
Figure 556266DEST_PATH_IMAGE003
Figure 993064DEST_PATH_IMAGE004
表示为待分析直播视频内第i个子视频段的手语画面数据对应第j个表达词汇,
Figure 682671DEST_PATH_IMAGE005
Figure 863117DEST_PATH_IMAGE006
根据待分析直播视频内各子视频段的视频语音数据对应各文本词汇,构成待分析直播视频内各子视频段的视频语音数据对应文本词汇集合
Figure 993884DEST_PATH_IMAGE007
Figure 726216DEST_PATH_IMAGE008
表示为待分析直播视频内第i个子视频段的视频语音数据对应第r个文本词汇,
Figure 512907DEST_PATH_IMAGE009
根据待分析直播视频内各子视频段的手语画面数据对应表达词汇集合和各子视频段的视频语音数据对应文本词汇集合,分析待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度记为
Figure 621677DEST_PATH_IMAGE010
在上述实施例的基础上,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设表达词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的手语画面数据对应各表达词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的手语画面数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的手语画面数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度记为
Figure 606950DEST_PATH_IMAGE011
在上述实施例的基础上,所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数,具体评估方式为:
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度
Figure 385551DEST_PATH_IMAGE012
、各子视频段对应手语画面数据与其视频语音数据的匹配度
Figure 49750DEST_PATH_IMAGE010
和各子视频段对应视频画面数据与其手语画面数据的匹配度
Figure 306419DEST_PATH_IMAGE011
代入视听数据匹配指数评估公式
Figure 739675DEST_PATH_IMAGE013
,得到待分析直播视频的视听数据匹配指数
Figure 485914DEST_PATH_IMAGE014
,其中
Figure 512775DEST_PATH_IMAGE015
分别表示为预设的视频画面数据与视频语音数据的匹配影响因子、手语画面数据与视频语音数据的匹配影响因子和视频画面数据与手语画面数据的匹配影响因子,且
Figure 697769DEST_PATH_IMAGE016
在上述实施例的基础上,所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度,具体获得方式为:
获取待分析直播视频内各子视频段的视频画面数据对应各人物口型图像,对比分析待分析直播视频内各子视频段的视频画面数据连贯度,将待分析直播视频内各子视频段的视频画面数据连贯度标记为
Figure 595318DEST_PATH_IMAGE017
获取待分析直播视频内各子视频段的视频语音数据对应各文本词汇,提取待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间,分析待分析直播视频内各子视频段的视频语音数据连贯度,将待分析直播视频内各子视频段的视频语音数据连贯度标记为
Figure 105934DEST_PATH_IMAGE018
获取待分析直播视频内各子视频段的手语画面数据对应各人物手语图像,对比分析待分析直播视频内各子视频段的手语画面数据连贯度,将待分析直播视频内各子视频段的手语画面数据连贯度标记为
Figure 151250DEST_PATH_IMAGE019
在上述实施例的基础上,所述视听数据连贯指数评估模块中得到待分析直播视频的视听数据连贯指数,具体包括:
将待分析直播视频内各子视频段的视频画面数据连贯度
Figure 15301DEST_PATH_IMAGE017
、各子视频段的视频语音数据连贯度
Figure 423149DEST_PATH_IMAGE018
和各子视频段的手语画面数据连贯度
Figure 714453DEST_PATH_IMAGE019
代入视听数据连贯指数分析公式
Figure 778224DEST_PATH_IMAGE020
,得到待分析直播视频的视听数据连贯指数
Figure 570599DEST_PATH_IMAGE021
,其中
Figure 708319DEST_PATH_IMAGE022
分别表示为预设的视频画面数据连贯度影响因子、视频语音数据连贯度影响因子和手语画面数据连贯度影响因子,其中
Figure 295159DEST_PATH_IMAGE023
在上述实施例的基础上,所述综合视听数据质量系数模块中分析待分析直播视频的综合视听数据质量系数,具体分析方式为:
将待分析直播视频的视听数据匹配指数
Figure 518329DEST_PATH_IMAGE014
和视听数据连贯指数
Figure 916993DEST_PATH_IMAGE021
代入公式
Figure 627329DEST_PATH_IMAGE024
,得到待分析直播视频的综合视听数据质量系数
Figure 244124DEST_PATH_IMAGE025
,其中
Figure 344804DEST_PATH_IMAGE026
分别表述为预设的视听数据匹配指数影响权重因子和视听数据连贯指数影响权重因子。
相对于现有技术,本发明所述的一种基于人工智能的视听数据智能分析管理系统以下有益效果:
本发明提供的一种基于人工智能的视听数据智能分析管理系统,通过获取待分析直播视频内各子视频段的视听数据,处理得到待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度,并根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数,从而确保能够对直播视频的视频画面数据、语音数据和手语画面数据进行同步分析,打破现有技术对直播视频视听数据分析的局限性,进而实现对直播视频视听数据匹配度进行智能化和全面化的分析管理,在极大程度上保证直播视频质量分析结果的精准性和整体可靠性。
本发明提供的一种基于人工智能的视听数据智能分析管理系统,通过获取待分析直播视频内各子视频段的视听数据连贯度,评估得到待分析直播视频的视听数据连贯指数,从而能够精确判断直播视频内视频帧数画面和视频时间间隔的连贯度,确保后期直播视频的视听数据质量能够达到预期要求,同时基于待分析直播视频的视听数据连贯指数和视听数据匹配指数,分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理,从而避免直播视频观看用户的视觉效果和听觉效果受到影响,在极大程度上提高用户的直播视频观看体验感和满意度,进而增加用户对直播视频的兴趣度和积极性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统模块连接图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明提供一种基于人工智能的视听数据智能分析管理系统,包括视听数据截取模块、视听数据预处理模块、视听信息匹配度分析模块、视听数据匹配指数评估模块、视听数据连贯度获取模块、视听数据连贯指数评估模块、综合视听数据质量系数分析模块和视听数据存储库。
所述视听数据截取模块和视听数据预处理模块连接,所述视听数据预处理模块分别与视听信息匹配度分析模块和视听数据连贯度获取模块连接,所述视听信息匹配度分析模块分别与视听数据匹配指数评估模块和视听数据存储库连接,所述视听数据连贯度获取模块与视听数据连贯指数评估模块连接,所述综合视听数据质量系数分析模块分别与视听数据匹配指数评估模块和视听数据连贯指数评估模块连接。
所述视听数据截取模块用于对待分析直播视频进行划分,截取待分析直播视频内各子视频段的视听数据,其中视听数据包括视频画面数据、视频语音数据和手语画面数据。
作为一种优选方案,所述视听数据截取模块中对待分析直播视频进行划分,具体划分方式包括:
将待分析直播视频按照预设视频帧数划分方式进行划分,得到待分析直播视频内各子视频段,并按照视频播放时间先后顺序依次对待分析直播视频内各子视频段进行编号,将待分析直播视频内各子视频段的编号分别记为
Figure 338037DEST_PATH_IMAGE001
所述视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理,得到待分析直播视频内各子视频段的视听数据对应关联信息。
作为一种优选方案,所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息,具体包括:
获取待分析直播视频内各子视频段的视频画面数据,按照视频播放顺序依次提取待分析直播视频内各子视频段的视频画面数据中各视频帧图像,并采用图像定位技术对待分析直播视频内各子视频段的视频画面数据中各视频帧图像进行定位处理,得到待分析直播视频内各子视频段的视频画面数据中各视频帧图像对应人物口型图像,记为待分析直播视频内各子视频段的视频画面数据对应各人物口型图像;
获取待分析直播视频内各子视频段的视频语音数据,采用语音识别技术对待分析直播视频内各子视频段的视频语音数据进行识别处理,得到待分析直播视频内各子视频段的视频语音数据对应文本信息,并对待分析直播视频内各子视频段的视频语音数据对应文本信息按照预设顺序进行分词处理,得到待分析直播视频内各子视频段的视频语音数据对应各文本词汇;
获取待分析直播视频内各子视频段的手语画面数据,并采用图像分割技术对待分析直播视频内各子视频段的手语画面数据进行处理,得到待分析直播视频内各子视频段的手语画面数据中各视频帧画面对应人物手语图像,并记为待分析直播视频内各子视频段的手语画面数据对应各人物手语图像。
所述视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度。
作为一种优选方案,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析包括:
提取视听数据存储库中存储的各预设文本词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的视频语音数据对应各文本词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的视频语音数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度记为
Figure 309404DEST_PATH_IMAGE012
进一步地,上述中分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,具体分析方式为:
将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像按照顺序构成各子视频段的视频画面数据对应人物口型图像集合,并根据待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像,构成各子视频段的视频语音数据对应标准人物口型图像集合;
将待分析直播视频内各子视频段的视频画面数据对应人物口型图像集合与其视频语音数据对应标准人物口型图像集合进行对比,得到待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的各相同人物口型图像,并统计待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的相同人物口型图像数量,将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的相同人物口型图像数量标记为
Figure 28924DEST_PATH_IMAGE027
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的各相同人物口型图像记为各子视频段对应的各相同人物口型图像,提取各子视频段对应的各相同人物口型图像在人物口型图像集合中所处位置和在标准人物口型图像集合中所处位置,将各子视频段对应的各相同人物口型图像在人物口型图像集合中所处位置与其在标准人物口型图像集合中所处位置进行对比,得到各子视频段对应视频画面数据与其视频语音数据的人物口型图像所处位置相同数量,将各子视频段对应视频画面数据与其视频语音数据的人物口型图像所处位置相同数量标记为
Figure 882479DEST_PATH_IMAGE028
分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度
Figure 351506DEST_PATH_IMAGE029
,其中
Figure 583905DEST_PATH_IMAGE030
分别表示为预设的人物口型图像相同数量比例和人物口型图像所处位置相同数量比例对应的匹配影响因子,
Figure 949027DEST_PATH_IMAGE031
表示为第i个子视频段的视频画面数据对应人物口型图像数量,
Figure 102928DEST_PATH_IMAGE032
表示为第i个子视频段的视频语音数据对应人物口型图像数量。
作为一种优选方案,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设人物手语图像对应的基本表达含义,对比筛选待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义,将待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义进行语句汇总,得到待分析直播视频内各子视频段的手语画面数据对应表达语句,并通过分词处理得到待分析直播视频内各子视频段的手语画面数据对应各表达词汇,构成待分析直播视频内各子视频段的手语画面数据对应表达词汇集合
Figure 578908DEST_PATH_IMAGE003
Figure 196972DEST_PATH_IMAGE004
表示为待分析直播视频内第i个子视频段的手语画面数据对应第j个表达词汇,
Figure 608361DEST_PATH_IMAGE005
Figure 639771DEST_PATH_IMAGE006
根据待分析直播视频内各子视频段的视频语音数据对应各文本词汇,构成待分析直播视频内各子视频段的视频语音数据对应文本词汇集合
Figure 263651DEST_PATH_IMAGE007
Figure 329696DEST_PATH_IMAGE008
表示为待分析直播视频内第i个子视频段的视频语音数据对应第r个文本词汇,
Figure 911987DEST_PATH_IMAGE009
根据待分析直播视频内各子视频段的手语画面数据对应表达词汇集合和各子视频段的视频语音数据对应文本词汇集合,分析待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度记为
Figure 102797DEST_PATH_IMAGE010
进一步地,所述待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度分析方式为
Figure 920580DEST_PATH_IMAGE033
,其中
Figure 185339DEST_PATH_IMAGE010
表示为待分析直播视频内第i个子视频段对应手语画面数据与其视频语音数据的匹配度。
作为一种优选方案,所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设表达词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的手语画面数据对应各表达词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的手语画面数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的手语画面数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度记为
Figure 63165DEST_PATH_IMAGE011
进一步地,所述待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度采用上述中待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度分析方式进行分析。
所述视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数。
作为一种优选方案,所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数,具体评估方式为:
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度
Figure 741271DEST_PATH_IMAGE012
、各子视频段对应手语画面数据与其视频语音数据的匹配度
Figure 566008DEST_PATH_IMAGE010
和各子视频段对应视频画面数据与其手语画面数据的匹配度
Figure 13170DEST_PATH_IMAGE011
代入视听数据匹配指数评估公式
Figure 406105DEST_PATH_IMAGE013
,得到待分析直播视频的视听数据匹配指数
Figure 899403DEST_PATH_IMAGE014
,其中
Figure 731093DEST_PATH_IMAGE015
分别表示为预设的视频画面数据与视频语音数据的匹配影响因子、手语画面数据与视频语音数据的匹配影响因子和视频画面数据与手语画面数据的匹配影响因子,且
Figure 501603DEST_PATH_IMAGE016
需要说明的是,本发明通过获取待分析直播视频内各子视频段的视听数据,处理得到待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度,并根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数,从而确保能够对直播视频的视频画面数据、语音数据和手语画面数据进行同步分析,打破现有技术对直播视频视听数据分析的局限性,进而实现对直播视频视听数据匹配度进行智能化和全面化的分析管理,在极大程度上保证直播视频质量分析结果的精准性和整体可靠性。
所述视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,获得待分析直播视频内各子视频段的视听数据连贯度。
作为一种优选方案,所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度,具体获得方式为:
获取待分析直播视频内各子视频段的视频画面数据对应各人物口型图像,对比分析待分析直播视频内各子视频段的视频画面数据连贯度,将待分析直播视频内各子视频段的视频画面数据连贯度标记为
Figure 455652DEST_PATH_IMAGE017
获取待分析直播视频内各子视频段的视频语音数据对应各文本词汇,提取待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间,分析待分析直播视频内各子视频段的视频语音数据连贯度,将待分析直播视频内各子视频段的视频语音数据连贯度标记为
Figure 46034DEST_PATH_IMAGE018
获取待分析直播视频内各子视频段的手语画面数据对应各人物手语图像,对比分析待分析直播视频内各子视频段的手语画面数据连贯度,将待分析直播视频内各子视频段的手语画面数据连贯度标记为
Figure 9310DEST_PATH_IMAGE019
进一步地,所述待分析直播视频内各子视频段的视频画面数据连贯度分析方式为:
将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像进行对比,统计待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像的相似度,将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像的相似度标记为
Figure 165485DEST_PATH_IMAGE034
,其中
Figure 431382DEST_PATH_IMAGE035
,f表示为第f个人物口型图像;
分析待分析直播视频内各子视频段的视频画面数据连贯度
Figure 633693DEST_PATH_IMAGE036
,其中k表示为人物口型图像总数量,e表示为常数,
Figure 10448DEST_PATH_IMAGE037
Figure 620464DEST_PATH_IMAGE038
表示为预设的视频画面数据连贯影响因子,
Figure 853999DEST_PATH_IMAGE039
表示为预设的人物口型图像与其下一相邻人物口型图像的相似度阈值。
进一步地,所述待分析直播视频内各子视频段的视频语音数据连贯度分析方式为:
将待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间代入公式
Figure 418972DEST_PATH_IMAGE040
,得到待分析直播视频内各子视频的视频语音数据连贯度
Figure 458472DEST_PATH_IMAGE041
,其中
Figure 792502DEST_PATH_IMAGE042
表示为预设的视频语音数据连贯影响因子,u表示为文本词汇数量,
Figure 524835DEST_PATH_IMAGE043
表示为待分析直播视频内第i个子视频段的视频语音数据对应第r+1个文本词汇的视频时间,
Figure 373842DEST_PATH_IMAGE044
表示为待分析直播视频内第i个子视频段的视频语音数据对应第r个文本词汇的视频时间,
Figure 92399DEST_PATH_IMAGE045
表示为预设的直播视频语音中文本词汇之间的允许时间间隔差值。
进一步地,所述待分析直播视频内各子视频段的手语画面数据连贯度分析方式与上述待分析直播视频内各子视频段的视频画面数据连贯度分析方式一致,这里就不具体详细表述。
所述视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中,得到待分析直播视频的视听数据连贯指数。
作为一种优选方案,所述视听数据连贯指数评估模块中得到待分析直播视频的视听数据连贯指数,具体包括:
将待分析直播视频内各子视频段的视频画面数据连贯度
Figure 671148DEST_PATH_IMAGE017
、各子视频段的视频语音数据连贯度
Figure 512065DEST_PATH_IMAGE018
和各子视频段的手语画面数据连贯度
Figure 176265DEST_PATH_IMAGE019
代入视听数据连贯指数分析公式
Figure 495250DEST_PATH_IMAGE020
,得到待分析直播视频的视听数据连贯指数
Figure 725244DEST_PATH_IMAGE021
,其中
Figure 924013DEST_PATH_IMAGE022
分别表示为预设的视频画面数据连贯度影响因子、视频语音数据连贯度影响因子和手语画面数据连贯度影响因子,其中
Figure 13191DEST_PATH_IMAGE023
所述综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理。
作为一种优选方案,所述综合视听数据质量系数模块中分析待分析直播视频的综合视听数据质量系数,具体分析方式为:
将待分析直播视频的视听数据匹配指数
Figure 994923DEST_PATH_IMAGE014
和视听数据连贯指数
Figure 97000DEST_PATH_IMAGE021
代入公式
Figure 76458DEST_PATH_IMAGE024
,得到待分析直播视频的综合视听数据质量系数
Figure 184091DEST_PATH_IMAGE025
,其中
Figure 172776DEST_PATH_IMAGE026
分别表述为预设的视听数据匹配指数影响权重因子和视听数据连贯指数影响权重因子。
进一步地,所述综合视听数据质量系数模块中根据对比结果进行对应的处理,具体包括:
将待分析直播视频的综合视听数据质量系数与预设的合格视听数据质量系数阈值进行对比,若待分析直播视频的综合视听数据质量系数小于预设的合格视听数据质量系数阈值,表明待分析直播视频的综合视听数据质量不合格,则通知直播管理人员对待分析直播视频进行剪辑处理。
所述视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。
需要说明的是,本发明通过获取待分析直播视频内各子视频段的视听数据连贯度,评估得到待分析直播视频的视听数据连贯指数,从而能够精确判断直播视频内视频帧数画面和视频时间间隔的连贯度,确保后期直播视频的视听数据质量能够达到预期要求,同时基于待分析直播视频的视听数据连贯指数和视听数据匹配指数,分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理,从而避免直播视频观看用户的视觉效果和听觉效果受到影响,在极大程度上提高用户的直播视频观看体验感和满意度,进而增加用户对直播视频的兴趣度和积极性。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (8)

1.一种基于人工智能的视听数据智能分析管理系统,其特征在于,包括:
视听数据截取模块用于对待分析直播视频进行划分,截取待分析直播视频内各子视频段的视听数据,其中视听数据包括视频画面数据、视频语音数据和手语画面数据;
所述视听数据截取模块中对待分析直播视频进行划分,具体划分方式包括:
将待分析直播视频按照预设视频帧数划分方式进行划分,得到待分析直播视频内各子视频段,并按照视频播放时间先后顺序依次对待分析直播视频内各子视频段进行编号,将待分析直播视频内各子视频段的编号分别记为
Figure 817378DEST_PATH_IMAGE001
视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理,得到待分析直播视频内各子视频段的视听数据对应关联信息;
视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,分析待分析直播视频内各子视频段的视听信息匹配度;
视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度,评估待分析直播视频的视听数据匹配指数;
所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数,具体评估方式为:
将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度
Figure 30054DEST_PATH_IMAGE002
、各子视频段对应手语画面数据与其视频语音数据的匹配度
Figure 156142DEST_PATH_IMAGE003
和各子视频段对应视频画面数据与其手语画面数据的匹配度
Figure 214097DEST_PATH_IMAGE004
代入视听数据匹配指数评估公式
Figure 820658DEST_PATH_IMAGE005
,得到待分析直播视频的视听数据匹配指数
Figure 673077DEST_PATH_IMAGE006
,其中
Figure 692985DEST_PATH_IMAGE007
分别表示为预设的视频画面数据与视频语音数据的匹配影响因子、手语画面数据与视频语音数据的匹配影响因子和视频画面数据与手语画面数据的匹配影响因子,且
Figure 898839DEST_PATH_IMAGE008
视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息,获得待分析直播视频内各子视频段的视听数据连贯度;
视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中,得到待分析直播视频的视听数据连贯指数;
综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数,并与预设的合格视听数据质量系数阈值进行对比,根据对比结果进行对应的处理;
视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。
2.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息,具体包括:
获取待分析直播视频内各子视频段的视频画面数据,按照视频播放顺序依次提取待分析直播视频内各子视频段的视频画面数据中各视频帧图像,并采用图像定位技术对待分析直播视频内各子视频段的视频画面数据中各视频帧图像进行定位处理,得到待分析直播视频内各子视频段的视频画面数据中各视频帧图像对应人物口型图像,记为待分析直播视频内各子视频段的视频画面数据对应各人物口型图像;
获取待分析直播视频内各子视频段的视频语音数据,采用语音识别技术对待分析直播视频内各子视频段的视频语音数据进行识别处理,得到待分析直播视频内各子视频段的视频语音数据对应文本信息,并对待分析直播视频内各子视频段的视频语音数据对应文本信息按照预设顺序进行分词处理,得到待分析直播视频内各子视频段的视频语音数据对应各文本词汇;
获取待分析直播视频内各子视频段的手语画面数据,并采用图像分割技术对待分析直播视频内各子视频段的手语画面数据进行处理,得到待分析直播视频内各子视频段的手语画面数据中各视频帧画面对应人物手语图像,并记为待分析直播视频内各子视频段的手语画面数据对应各人物手语图像。
3.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析包括:
提取视听数据存储库中存储的各预设文本词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的视频语音数据对应各文本词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的视频语音数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度记为
Figure 9840DEST_PATH_IMAGE009
4.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设人物手语图像对应的基本表达含义,对比筛选待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义,将待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义进行语句汇总,得到待分析直播视频内各子视频段的手语画面数据对应表达语句,并通过分词处理得到待分析直播视频内各子视频段的手语画面数据对应各表达词汇,构成待分析直播视频内各子视频段的手语画面数据对应表达词汇集合
Figure 642947DEST_PATH_IMAGE010
Figure 212468DEST_PATH_IMAGE011
表示为待分析直播视频内第i个子视频段的手语画面数据对应第j个表达词汇,
Figure 18750DEST_PATH_IMAGE012
Figure 131063DEST_PATH_IMAGE013
根据待分析直播视频内各子视频段的视频语音数据对应各文本词汇,构成待分析直播视频内各子视频段的视频语音数据对应文本词汇集合
Figure 794125DEST_PATH_IMAGE014
Figure 991888DEST_PATH_IMAGE015
表示为待分析直播视频内第i个子视频段的视频语音数据对应第r个文本词汇,
Figure 664178DEST_PATH_IMAGE016
根据待分析直播视频内各子视频段的手语画面数据对应表达词汇集合和各子视频段的视频语音数据对应文本词汇集合,分析待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度,将待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度记为
Figure 427735DEST_PATH_IMAGE017
5.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度,具体分析还包括:
提取视听数据存储库中存储的各预设表达词汇对应的各标准人物口型图像,对比筛选待分析直播视频内各子视频段的手语画面数据对应各表达词汇的各标准人物口型图像,并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的手语画面数据对应各标准人物口型图像,根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的手语画面数据对应各标准人物口型图像,分析待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度,将待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度记为
Figure 402644DEST_PATH_IMAGE004
6.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度,具体获得方式为:
获取待分析直播视频内各子视频段的视频画面数据对应各人物口型图像,对比分析待分析直播视频内各子视频段的视频画面数据连贯度,将待分析直播视频内各子视频段的视频画面数据连贯度标记为
Figure 212337DEST_PATH_IMAGE018
获取待分析直播视频内各子视频段的视频语音数据对应各文本词汇,提取待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间,分析待分析直播视频内各子视频段的视频语音数据连贯度,将待分析直播视频内各子视频段的视频语音数据连贯度标记为
Figure 298105DEST_PATH_IMAGE019
获取待分析直播视频内各子视频段的手语画面数据对应各人物手语图像,对比分析待分析直播视频内各子视频段的手语画面数据连贯度,将待分析直播视频内各子视频段的手语画面数据连贯度标记为
Figure 244064DEST_PATH_IMAGE020
7.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述视听数据连贯指数评估模块中得到待分析直播视频的视听数据连贯指数,具体包括:
将待分析直播视频内各子视频段的视频画面数据连贯度
Figure 452191DEST_PATH_IMAGE021
、各子视频段的视频语音数据连贯度
Figure 358968DEST_PATH_IMAGE019
和各子视频段的手语画面数据连贯度
Figure 107481DEST_PATH_IMAGE020
代入视听数据连贯指数分析公式
Figure 48892DEST_PATH_IMAGE022
,得到待分析直播视频的视听数据连贯指数
Figure 490238DEST_PATH_IMAGE023
,其中
Figure 681047DEST_PATH_IMAGE024
分别表示为预设的视频画面数据连贯度影响因子、视频语音数据连贯度影响因子和手语画面数据连贯度影响因子,其中
Figure 374197DEST_PATH_IMAGE025
8.根据权利要求1所述的一种基于人工智能的视听数据智能分析管理系统,其特征在于:所述综合视听数据质量系数模块中分析待分析直播视频的综合视听数据质量系数,具体分析方式为:
将待分析直播视频的视听数据匹配指数
Figure 29169DEST_PATH_IMAGE026
和视听数据连贯指数
Figure 782362DEST_PATH_IMAGE027
代入公式
Figure 788364DEST_PATH_IMAGE028
,得到待分析直播视频的综合视听数据质量系数
Figure 816363DEST_PATH_IMAGE029
,其中
Figure 466787DEST_PATH_IMAGE030
分别表述为预设的视听数据匹配指数影响权重因子和视听数据连贯指数影响权重因子。
CN202210715777.0A 2022-06-23 2022-06-23 一种基于人工智能的视听数据智能分析管理系统 Active CN114786033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210715777.0A CN114786033B (zh) 2022-06-23 2022-06-23 一种基于人工智能的视听数据智能分析管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210715777.0A CN114786033B (zh) 2022-06-23 2022-06-23 一种基于人工智能的视听数据智能分析管理系统

Publications (2)

Publication Number Publication Date
CN114786033A true CN114786033A (zh) 2022-07-22
CN114786033B CN114786033B (zh) 2022-10-21

Family

ID=82422312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210715777.0A Active CN114786033B (zh) 2022-06-23 2022-06-23 一种基于人工智能的视听数据智能分析管理系统

Country Status (1)

Country Link
CN (1) CN114786033B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109168067A (zh) * 2018-11-02 2019-01-08 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质
CN109769099A (zh) * 2019-01-15 2019-05-17 三星电子(中国)研发中心 通话人物异常的检测方法和装置
CN109951652A (zh) * 2019-03-20 2019-06-28 合肥科塑信息科技有限公司 一种人像语音视频同步校准装置及系统
CN111091824A (zh) * 2019-11-30 2020-05-01 华为技术有限公司 一种语音匹配方法及相关设备
CN111639766A (zh) * 2020-05-26 2020-09-08 上海极链网络科技有限公司 样本数据的生成方法以及装置
US20210160580A1 (en) * 2019-11-25 2021-05-27 Dish Network L.L.C. Methods and systems for sign language interpretation of media stream data
CN112911192A (zh) * 2021-01-28 2021-06-04 维沃移动通信有限公司 视频处理方法、装置和电子设备
CN113902992A (zh) * 2021-10-09 2022-01-07 全球能源互联网研究院有限公司 一种视频质量评估方法、装置及存储介质
CN114187259A (zh) * 2021-12-10 2022-03-15 北京达佳互联信息技术有限公司 视频质量分析引擎的创建方法、视频质量分析方法及设备
CN114519809A (zh) * 2022-02-14 2022-05-20 复旦大学 一种基于多尺度语义网络的视听视频解析装置及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109168067A (zh) * 2018-11-02 2019-01-08 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质
CN109769099A (zh) * 2019-01-15 2019-05-17 三星电子(中国)研发中心 通话人物异常的检测方法和装置
CN109951652A (zh) * 2019-03-20 2019-06-28 合肥科塑信息科技有限公司 一种人像语音视频同步校准装置及系统
US20210160580A1 (en) * 2019-11-25 2021-05-27 Dish Network L.L.C. Methods and systems for sign language interpretation of media stream data
CN111091824A (zh) * 2019-11-30 2020-05-01 华为技术有限公司 一种语音匹配方法及相关设备
CN111639766A (zh) * 2020-05-26 2020-09-08 上海极链网络科技有限公司 样本数据的生成方法以及装置
CN112911192A (zh) * 2021-01-28 2021-06-04 维沃移动通信有限公司 视频处理方法、装置和电子设备
CN113902992A (zh) * 2021-10-09 2022-01-07 全球能源互联网研究院有限公司 一种视频质量评估方法、装置及存储介质
CN114187259A (zh) * 2021-12-10 2022-03-15 北京达佳互联信息技术有限公司 视频质量分析引擎的创建方法、视频质量分析方法及设备
CN114519809A (zh) * 2022-02-14 2022-05-20 复旦大学 一种基于多尺度语义网络的视听视频解析装置及方法

Also Published As

Publication number Publication date
CN114786033B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
Hong et al. Dynamic captioning: video accessibility enhancement for hearing impairment
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
Oh et al. Speech2face: Learning the face behind a voice
Yang et al. LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild
CN111488487B (zh) 一种面向全媒体数据的广告检测方法及检测系统
Albanie et al. Bbc-oxford british sign language dataset
KR20100107036A (ko) 웃음 탐지기 및 미디어 프리젠테이션에 대한 감정 반응을 추적하기 위한 시스템 및 방법
Ellis et al. Why we watch the news: a dataset for exploring sentiment in broadcast video news
CN110505504B (zh) 视频节目处理方法、装置、计算机设备及存储介质
CN110516266A (zh) 视频字幕自动翻译方法、装置、存储介质及计算机设备
CN109151499A (zh) 视频审核方法及装置
CN109714608A (zh) 视频数据处理方法、装置、计算机设备和存储介质
CN112287175A (zh) 一种视频高亮片段预测方法和系统
CN110781346A (zh) 基于虚拟形象的新闻生产方法、系统、装置和存储介质
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
CN114786033B (zh) 一种基于人工智能的视听数据智能分析管理系统
CN114125506A (zh) 语音审核方法及装置
WO2023142590A1 (zh) 手语视频的生成方法、装置、计算机设备及存储介质
Pham et al. An audio-based deep learning framework for BBC television programme classification
CN116088675A (zh) 虚拟形象交互方法及相关装置、设备、系统和介质
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
Xu et al. Gabor based lipreading with a new audiovisual mandarin corpus
CN111681680B (zh) 视频识别物体获取音频方法、系统、装置及可读存储介质
CN113490027A (zh) 一种短视频制作生成处理方法、设备及计算机存储介质
Sundaram et al. Towards evaluation of example-based audio retrieval system using affective dimensions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant