CN114786033A

CN114786033A - 一种基于人工智能的视听数据智能分析管理系统

Info

Publication number: CN114786033A
Application number: CN202210715777.0A
Authority: CN
Inventors: 罗鑫凯; 王新勇; 杨柳; 单鑫; 张雅妮
Original assignee: Chinese Translation Entertainment Technology Qingdao Co ltd
Current assignee: Chinese Translation Entertainment Technology Qingdao Co ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-07-22
Anticipated expiration: 2042-06-23
Also published as: CN114786033B

Abstract

本发明公开一种基于人工智能的视听数据智能分析管理系统，涉及视频视听数据分析技术领域，本发明通过获取待分析直播视频内各子视频段的视听数据，处理得到待分析直播视频内各子视频段的视听数据对应关联信息，分析待分析直播视频内各子视频段的视听信息匹配度和视听数据连贯度，评估得到待分析直播视频的视听数据匹配指数和视听数据连贯指数，进而分析待分析直播视频的综合视听数据质量系数，并与预设的合格视听数据质量系数阈值进行对比，根据对比结果进行对应的处理，从而实现对直播视频视听数据进行智能化和全面化的分析管理，在极大程度上保证直播视频质量分析结果的精准性和可靠性，进而提高用户的直播视频观看体验感和满意度。

Description

一种基于人工智能的视听数据智能分析管理系统

技术领域

本发明涉及视频视听数据分析技术领域，涉及到一种基于人工智能的视听数据智能分析管理系统。

背景技术

随着多媒体技术的发展和互联网的普及，观看直播视频已逐渐成为人们日常娱乐消费的一部分，而直播视频质量直接影响着用户观看体验。因此，对直播视频视听数据质量进行分析管理具有重要的意义。

目前，现有技术中的直播视频视听数据质量分析方式主要采用人员主观评测，即通过评测人员观看录制好的直播视频，再凭借主观感受评测出直播视频质量的好坏。该方式虽然简单，但是存在着弊端：

1、由于评测人员只能单方面对直播视频的画面或声音进行主观评测，却无法对直播视频的画面数据、语音数据和手语画面数据进行同步分析，从而导致现有技术存在一定的局限性，无法评测直播视频视听数据之间的匹配度，进而不能保证直播视频质量分析结果的精准性和整体可靠性；

2、通过评测人员主观评测只能大致分析直播视频视听数据的整体流畅度，无法精确判断直播视频内视频帧数画面和视频时间间隔的连贯度，从而导致直播视频的视听数据质量无法达到预期要求，进一步使得直播视频观看用户的视觉效果和听觉效果受到影响，在极大程度上降低用户的直播视频观看体验感和满意度，进而降低用户对直播视频的兴趣度和积极性。

发明内容

针对上述问题，本发明提出了一种基于人工智能的视听数据智能分析管理系统，实现对直播视频的视听数据进行智能分析管理的功能。

本发明解决其技术问题采用的技术方案是：

本发明提供一种基于人工智能的视听数据智能分析管理系统，包括：

视听数据截取模块用于对待分析直播视频进行划分，截取待分析直播视频内各子视频段的视听数据，其中视听数据包括视频画面数据、视频语音数据和手语画面数据；

视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理，得到待分析直播视频内各子视频段的视听数据对应关联信息；

视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息，分析待分析直播视频内各子视频段的视听信息匹配度；

视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度，评估待分析直播视频的视听数据匹配指数；

视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息，获得待分析直播视频内各子视频段的视听数据连贯度；

视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中，得到待分析直播视频的视听数据连贯指数；

综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数，并与预设的合格视听数据质量系数阈值进行对比，根据对比结果进行对应的处理；

视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。

在上述实施例的基础上，所述视听数据截取模块中对待分析直播视频进行划分，具体划分方式包括：

将待分析直播视频按照预设视频帧数划分方式进行划分，得到待分析直播视频内各子视频段，并按照视频播放时间先后顺序依次对待分析直播视频内各子视频段进行编号，将待分析直播视频内各子视频段的编号分别记为

。

在上述实施例的基础上，所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息，具体包括：

获取待分析直播视频内各子视频段的视频画面数据，按照视频播放顺序依次提取待分析直播视频内各子视频段的视频画面数据中各视频帧图像，并采用图像定位技术对待分析直播视频内各子视频段的视频画面数据中各视频帧图像进行定位处理，得到待分析直播视频内各子视频段的视频画面数据中各视频帧图像对应人物口型图像，记为待分析直播视频内各子视频段的视频画面数据对应各人物口型图像；

获取待分析直播视频内各子视频段的视频语音数据，采用语音识别技术对待分析直播视频内各子视频段的视频语音数据进行识别处理，得到待分析直播视频内各子视频段的视频语音数据对应文本信息，并对待分析直播视频内各子视频段的视频语音数据对应文本信息按照预设顺序进行分词处理，得到待分析直播视频内各子视频段的视频语音数据对应各文本词汇；

获取待分析直播视频内各子视频段的手语画面数据，并采用图像分割技术对待分析直播视频内各子视频段的手语画面数据进行处理，得到待分析直播视频内各子视频段的手语画面数据中各视频帧画面对应人物手语图像，并记为待分析直播视频内各子视频段的手语画面数据对应各人物手语图像。

在上述实施例的基础上，所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度，具体分析包括：

提取视听数据存储库中存储的各预设文本词汇对应的各标准人物口型图像，对比筛选待分析直播视频内各子视频段的视频语音数据对应各文本词汇的各标准人物口型图像，并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像，根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的视频语音数据对应各标准人物口型图像，分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度，将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度记为

。

在上述实施例的基础上，所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度，具体分析还包括：

提取视听数据存储库中存储的各预设人物手语图像对应的基本表达含义，对比筛选待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义，将待分析直播视频内各子视频段的手语画面数据对应各人物手语图像的基本表达含义进行语句汇总，得到待分析直播视频内各子视频段的手语画面数据对应表达语句，并通过分词处理得到待分析直播视频内各子视频段的手语画面数据对应各表达词汇，构成待分析直播视频内各子视频段的手语画面数据对应表达词汇集合

，

表示为待分析直播视频内第i个子视频段的手语画面数据对应第j个表达词汇，

，

；

根据待分析直播视频内各子视频段的视频语音数据对应各文本词汇，构成待分析直播视频内各子视频段的视频语音数据对应文本词汇集合

，

表示为待分析直播视频内第i个子视频段的视频语音数据对应第r个文本词汇，

；

根据待分析直播视频内各子视频段的手语画面数据对应表达词汇集合和各子视频段的视频语音数据对应文本词汇集合，分析待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度，将待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度记为

。

提取视听数据存储库中存储的各预设表达词汇对应的各标准人物口型图像，对比筛选待分析直播视频内各子视频段的手语画面数据对应各表达词汇的各标准人物口型图像，并按照文本词汇排列顺序依次排列统计待分析直播视频内各子视频段的手语画面数据对应各标准人物口型图像，根据待分析直播视频内各子视频段的视频画面数据对应各人物口型图像和各子视频段的手语画面数据对应各标准人物口型图像，分析待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度，将待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度记为

。

在上述实施例的基础上，所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数，具体评估方式为：

将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度

、各子视频段对应手语画面数据与其视频语音数据的匹配度

和各子视频段对应视频画面数据与其手语画面数据的匹配度

代入视听数据匹配指数评估公式

，得到待分析直播视频的视听数据匹配指数

，其中

分别表示为预设的视频画面数据与视频语音数据的匹配影响因子、手语画面数据与视频语音数据的匹配影响因子和视频画面数据与手语画面数据的匹配影响因子，且

。

在上述实施例的基础上，所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度，具体获得方式为：

获取待分析直播视频内各子视频段的视频画面数据对应各人物口型图像，对比分析待分析直播视频内各子视频段的视频画面数据连贯度，将待分析直播视频内各子视频段的视频画面数据连贯度标记为

；

获取待分析直播视频内各子视频段的视频语音数据对应各文本词汇，提取待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间，分析待分析直播视频内各子视频段的视频语音数据连贯度，将待分析直播视频内各子视频段的视频语音数据连贯度标记为

；

获取待分析直播视频内各子视频段的手语画面数据对应各人物手语图像，对比分析待分析直播视频内各子视频段的手语画面数据连贯度，将待分析直播视频内各子视频段的手语画面数据连贯度标记为

。

在上述实施例的基础上，所述视听数据连贯指数评估模块中得到待分析直播视频的视听数据连贯指数，具体包括：

将待分析直播视频内各子视频段的视频画面数据连贯度

、各子视频段的视频语音数据连贯度

和各子视频段的手语画面数据连贯度

代入视听数据连贯指数分析公式

，得到待分析直播视频的视听数据连贯指数

，其中

分别表示为预设的视频画面数据连贯度影响因子、视频语音数据连贯度影响因子和手语画面数据连贯度影响因子，其中

。

在上述实施例的基础上，所述综合视听数据质量系数模块中分析待分析直播视频的综合视听数据质量系数，具体分析方式为：

将待分析直播视频的视听数据匹配指数

和视听数据连贯指数

代入公式

，得到待分析直播视频的综合视听数据质量系数

，其中

分别表述为预设的视听数据匹配指数影响权重因子和视听数据连贯指数影响权重因子。

相对于现有技术，本发明所述的一种基于人工智能的视听数据智能分析管理系统以下有益效果：

本发明提供的一种基于人工智能的视听数据智能分析管理系统，通过获取待分析直播视频内各子视频段的视听数据，处理得到待分析直播视频内各子视频段的视听数据对应关联信息，分析待分析直播视频内各子视频段的视听信息匹配度，并根据待分析直播视频内各子视频段的视听信息匹配度，评估待分析直播视频的视听数据匹配指数，从而确保能够对直播视频的视频画面数据、语音数据和手语画面数据进行同步分析，打破现有技术对直播视频视听数据分析的局限性，进而实现对直播视频视听数据匹配度进行智能化和全面化的分析管理，在极大程度上保证直播视频质量分析结果的精准性和整体可靠性。

本发明提供的一种基于人工智能的视听数据智能分析管理系统，通过获取待分析直播视频内各子视频段的视听数据连贯度，评估得到待分析直播视频的视听数据连贯指数，从而能够精确判断直播视频内视频帧数画面和视频时间间隔的连贯度，确保后期直播视频的视听数据质量能够达到预期要求，同时基于待分析直播视频的视听数据连贯指数和视听数据匹配指数，分析待分析直播视频的综合视听数据质量系数，并与预设的合格视听数据质量系数阈值进行对比，根据对比结果进行对应的处理，从而避免直播视频观看用户的视觉效果和听觉效果受到影响，在极大程度上提高用户的直播视频观看体验感和满意度，进而增加用户对直播视频的兴趣度和积极性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的系统模块连接图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明提供一种基于人工智能的视听数据智能分析管理系统，包括视听数据截取模块、视听数据预处理模块、视听信息匹配度分析模块、视听数据匹配指数评估模块、视听数据连贯度获取模块、视听数据连贯指数评估模块、综合视听数据质量系数分析模块和视听数据存储库。

所述视听数据截取模块和视听数据预处理模块连接，所述视听数据预处理模块分别与视听信息匹配度分析模块和视听数据连贯度获取模块连接，所述视听信息匹配度分析模块分别与视听数据匹配指数评估模块和视听数据存储库连接，所述视听数据连贯度获取模块与视听数据连贯指数评估模块连接，所述综合视听数据质量系数分析模块分别与视听数据匹配指数评估模块和视听数据连贯指数评估模块连接。

所述视听数据截取模块用于对待分析直播视频进行划分，截取待分析直播视频内各子视频段的视听数据，其中视听数据包括视频画面数据、视频语音数据和手语画面数据。

作为一种优选方案，所述视听数据截取模块中对待分析直播视频进行划分，具体划分方式包括：

。

所述视听数据预处理模块用于对待分析直播视频内各子视频段的视听数据进行预处理，得到待分析直播视频内各子视频段的视听数据对应关联信息。

作为一种优选方案，所述视听数据预处理模块中得到待分析直播视频内各子视频段的视听数据对应关联信息，具体包括：

所述视听信息匹配度分析模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息，分析待分析直播视频内各子视频段的视听信息匹配度。

作为一种优选方案，所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度，具体分析包括：

。

进一步地，上述中分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度，具体分析方式为：

将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像按照顺序构成各子视频段的视频画面数据对应人物口型图像集合，并根据待分析直播视频内各子视频段的视频语音数据对应各标准人物口型图像，构成各子视频段的视频语音数据对应标准人物口型图像集合；

将待分析直播视频内各子视频段的视频画面数据对应人物口型图像集合与其视频语音数据对应标准人物口型图像集合进行对比，得到待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的各相同人物口型图像，并统计待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的相同人物口型图像数量，将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的相同人物口型图像数量标记为

；

将待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的各相同人物口型图像记为各子视频段对应的各相同人物口型图像，提取各子视频段对应的各相同人物口型图像在人物口型图像集合中所处位置和在标准人物口型图像集合中所处位置，将各子视频段对应的各相同人物口型图像在人物口型图像集合中所处位置与其在标准人物口型图像集合中所处位置进行对比，得到各子视频段对应视频画面数据与其视频语音数据的人物口型图像所处位置相同数量，将各子视频段对应视频画面数据与其视频语音数据的人物口型图像所处位置相同数量标记为

；

分析待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度

，其中

分别表示为预设的人物口型图像相同数量比例和人物口型图像所处位置相同数量比例对应的匹配影响因子，

表示为第i个子视频段的视频画面数据对应人物口型图像数量，

表示为第i个子视频段的视频语音数据对应人物口型图像数量。

作为一种优选方案，所述视听信息匹配度分析模块中分析待分析直播视频内各子视频段的视听信息匹配度，具体分析还包括：

，

，

；

，

；

。

进一步地，所述待分析直播视频内各子视频段对应手语画面数据与其视频语音数据的匹配度分析方式为

，其中

表示为待分析直播视频内第i个子视频段对应手语画面数据与其视频语音数据的匹配度。

。

进一步地，所述待分析直播视频内各子视频段对应视频画面数据与其手语画面数据的匹配度采用上述中待分析直播视频内各子视频段对应视频画面数据与其视频语音数据的匹配度分析方式进行分析。

所述视听数据匹配指数评估模块用于根据待分析直播视频内各子视频段的视听信息匹配度，评估待分析直播视频的视听数据匹配指数。

作为一种优选方案，所述视听数据匹配指数评估模块中评估待分析直播视频的视听数据匹配指数，具体评估方式为：

、各子视频段对应手语画面数据与其视频语音数据的匹配度

和各子视频段对应视频画面数据与其手语画面数据的匹配度

代入视听数据匹配指数评估公式

，得到待分析直播视频的视听数据匹配指数

，其中

。

需要说明的是，本发明通过获取待分析直播视频内各子视频段的视听数据，处理得到待分析直播视频内各子视频段的视听数据对应关联信息，分析待分析直播视频内各子视频段的视听信息匹配度，并根据待分析直播视频内各子视频段的视听信息匹配度，评估待分析直播视频的视听数据匹配指数，从而确保能够对直播视频的视频画面数据、语音数据和手语画面数据进行同步分析，打破现有技术对直播视频视听数据分析的局限性，进而实现对直播视频视听数据匹配度进行智能化和全面化的分析管理，在极大程度上保证直播视频质量分析结果的精准性和整体可靠性。

所述视听数据连贯度获取模块用于根据待分析直播视频内各子视频段的视听数据对应关联信息，获得待分析直播视频内各子视频段的视听数据连贯度。

作为一种优选方案，所述视听数据连贯度获取模块中获得待分析直播视频内各子视频段的视听数据连贯度，具体获得方式为：

；

；

。

进一步地，所述待分析直播视频内各子视频段的视频画面数据连贯度分析方式为：

将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像进行对比，统计待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像的相似度，将待分析直播视频内各子视频段的视频画面数据对应各人物口型图像与其下一相邻人物口型图像的相似度标记为

，其中

，f表示为第f个人物口型图像；

分析待分析直播视频内各子视频段的视频画面数据连贯度

，其中k表示为人物口型图像总数量，e表示为常数，

，

表示为预设的视频画面数据连贯影响因子，

表示为预设的人物口型图像与其下一相邻人物口型图像的相似度阈值。

进一步地，所述待分析直播视频内各子视频段的视频语音数据连贯度分析方式为：

将待分析直播视频内各子视频段的视频语音数据对应各文本词汇的视频时间代入公式

，得到待分析直播视频内各子视频的视频语音数据连贯度

，其中

表示为预设的视频语音数据连贯影响因子，u表示为文本词汇数量，

表示为待分析直播视频内第i个子视频段的视频语音数据对应第r+1个文本词汇的视频时间，

表示为待分析直播视频内第i个子视频段的视频语音数据对应第r个文本词汇的视频时间，

表示为预设的直播视频语音中文本词汇之间的允许时间间隔差值。

进一步地，所述待分析直播视频内各子视频段的手语画面数据连贯度分析方式与上述待分析直播视频内各子视频段的视频画面数据连贯度分析方式一致，这里就不具体详细表述。

所述视听数据连贯指数评估模块用于将待分析直播视频内各子视频段的视听数据连贯度代入视听数据连贯指数评估公式中，得到待分析直播视频的视听数据连贯指数。

作为一种优选方案，所述视听数据连贯指数评估模块中得到待分析直播视频的视听数据连贯指数，具体包括：

将待分析直播视频内各子视频段的视频画面数据连贯度

、各子视频段的视频语音数据连贯度

和各子视频段的手语画面数据连贯度

代入视听数据连贯指数分析公式

，得到待分析直播视频的视听数据连贯指数

，其中

。

所述综合视听数据质量系数分析模块用于分析待分析直播视频的综合视听数据质量系数，并与预设的合格视听数据质量系数阈值进行对比，根据对比结果进行对应的处理。

作为一种优选方案，所述综合视听数据质量系数模块中分析待分析直播视频的综合视听数据质量系数，具体分析方式为：

将待分析直播视频的视听数据匹配指数

和视听数据连贯指数

代入公式

，得到待分析直播视频的综合视听数据质量系数

，其中

进一步地，所述综合视听数据质量系数模块中根据对比结果进行对应的处理，具体包括：

将待分析直播视频的综合视听数据质量系数与预设的合格视听数据质量系数阈值进行对比，若待分析直播视频的综合视听数据质量系数小于预设的合格视听数据质量系数阈值，表明待分析直播视频的综合视听数据质量不合格，则通知直播管理人员对待分析直播视频进行剪辑处理。

所述视听数据存储库用于存储各预设文本词汇对应的各标准人物口型图像、各预设人物手语图像对应的基本表达含义和各预设表达词汇对应的各标准人物口型图像。

需要说明的是，本发明通过获取待分析直播视频内各子视频段的视听数据连贯度，评估得到待分析直播视频的视听数据连贯指数，从而能够精确判断直播视频内视频帧数画面和视频时间间隔的连贯度，确保后期直播视频的视听数据质量能够达到预期要求，同时基于待分析直播视频的视听数据连贯指数和视听数据匹配指数，分析待分析直播视频的综合视听数据质量系数，并与预设的合格视听数据质量系数阈值进行对比，根据对比结果进行对应的处理，从而避免直播视频观看用户的视觉效果和听觉效果受到影响，在极大程度上提高用户的直播视频观看体验感和满意度，进而增加用户对直播视频的兴趣度和积极性。

以上内容仅仅是对本发明的构思所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的构思或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。