CN116863955A - 一种基于音视频运维的疲劳状态的检测方法、装置及系统 - Google Patents

一种基于音视频运维的疲劳状态的检测方法、装置及系统 Download PDF

Info

Publication number
CN116863955A
CN116863955A CN202310841200.9A CN202310841200A CN116863955A CN 116863955 A CN116863955 A CN 116863955A CN 202310841200 A CN202310841200 A CN 202310841200A CN 116863955 A CN116863955 A CN 116863955A
Authority
CN
China
Prior art keywords
video
audio
fatigue
data
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310841200.9A
Other languages
English (en)
Inventor
苏海洋
谷文宽
游晋澜
王飞鹏
李宁宁
赵立军
王琢
胡志康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bohai Bank Co ltd
Original Assignee
Bohai Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bohai Bank Co ltd filed Critical Bohai Bank Co ltd
Priority to CN202310841200.9A priority Critical patent/CN116863955A/zh
Publication of CN116863955A publication Critical patent/CN116863955A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/182Level alarms, e.g. alarms responsive to variables exceeding a threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

本申请提供了一种基于音视频运维的疲劳状态的检测方法、装置及系统,检测方法包括:获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对音频数据进行特征提取,得到音频参数,并对视频数据进行特征提取,得到视频参数;利用音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数,若疲劳指数达到预设阈值,则将目标对象确定为疲劳状态,并生成提示信息进行风险报警。采用本申请提供的技术方案能够实现对音视频运维人员的疲劳检测,及时发现疲劳风险,避免发生视频播放事故,提高了运维效率。

Description

一种基于音视频运维的疲劳状态的检测方法、装置及系统
技术领域
本申请涉及音视频技术领域,尤其是涉及一种基于音视频运维的疲劳状态的检测方法、装置及系统。
背景技术
音频和视频的发展几乎是同时的,留声机、磁带、唱片机、电话等一一而来,视频从默片走向有声,从黑白走向彩色,从模糊走向超清,技术更新迭代,创造了全新的音视频产业。短视频、在线会议、线上教育、直播等都依赖于音视频行业的发展。
目前,在音视频行业中,通常需要专业的运维人员负责各会议展厅等重要场所的视频播放与日常运维工作,但是当长时间进行视频播放时,运维人员可能出现疲劳现象,在遇到直播异常等突发情况时,可能影响运维效率,导致更严重的视频播放事故;因此,如何对音视频运维人员进行疲劳检测,成为了亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种基于音视频运维的疲劳状态的检测方法、装置及系统,能够通过将音视频流处理为音频数据和视频数据,分别对音频数据和视频数据进行处理,得到音视参数和视频参数,通过对音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数,从而确定目标对象的疲劳状态,实现了对音视频运维人员的疲劳检测,能够及时发现疲劳风险,避免发生视频播放事故,提高了运维效率。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供了一种基于音视频运维的疲劳状态的检测方法,所述检测方法包括:
获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;
对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;
利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
进一步的,所述对所述音频数据进行特征提取,得到音频参数的步骤,包括:
对所述音频数据进行特征提取,得到音频特征集;
将所述音频特征集中输入至音频检测模型中进行音频情感检测,得到基于所述音频特征集的音频参数;其中,所述音频参数包括音频情感值、音频特征值以及声门状态值。
进一步的,所述获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据的步骤,包括:
获取针对目标对象的原始视频,对所述原始视频进行数据检测,确定所述原始视频中是否检测到音视频流;
若未检测到音视频流,则生成未检测到音视频流的提示信息;
若检测到音视频流,则确定所述音视频流的输入格式是否正确;
若不正确,则生成所述音视频流输入格式错误的提示信息;
若正确,则对所述音视频流进行音视频分离,得到音频数据和视频数据。
进一步的,所述对所述视频数据进行特征提取,得到视频参数的步骤,包括:
对所述视频数据进行特征提取,得到视频特征集;
将所述视频特征集中输入至视频检测模型中进行视频情感检测,得到基于所述视频特征集的视频参数;其中,所述视频参数包括视频情感值、视频特征值以及表情指数值。
进一步的,所述利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数的步骤,包括:
将所述音频参数中的音频情感值、音频特征值以及声门状态值与所述视频参数中的视频情感值、视频特征值以及表情指数值,输入至疲劳检测模型中,得到所述目标对象的疲劳指数。
第二方面,本申请实施例还提供了一种基于音视频运维的疲劳状态的检测装置,所述检测装置包括:
数据处理模块,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;
特征提取模块,用于对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;
疲劳检测模块,用于利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
第三方面,本申请实施例还提供了一种基于音视频运维的疲劳状态的检测系统,所述检测系统包括如第二方面所述的检测装置和显示装置,其中:
所述检测装置,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警;将所述疲劳指数发送给所述显示装置;
所述显示装置,用于接收所述检测装置发送的疲劳指数,将所述疲劳指数按照时间以动态曲线的方式进行展示。
进一步的,所述检测系统还包括:管理装置;所述管理装置与所述显示装置连接;
所述管理装置,用于管理对应模块的信息,并将所述信息发送给所述显示装置进行显示。
第四方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的基于音视频运维的疲劳状态的检测方法的步骤。
第五方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的基于音视频运维的疲劳状态的检测方法的步骤。
本申请实施例提供的一种基于音视频运维的疲劳状态的检测方法、装置及系统,所述检测方法包括:获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
这样,采用本申请提供的技术方案能够通过将音视频流处理为音频数据和视频数据,分别对音频数据和视频数据进行处理,得到音视参数和视频参数,通过对音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数,从而确定目标对象的疲劳状态,实现了对音视频运维人员的疲劳检测,能够及时发现疲劳风险,避免发生视频播放事故,提高了运维效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种基于音视频运维的疲劳状态的检测方法的流程图;
图2示出了本申请实施例所提供的另一种基于音视频运维的疲劳状态的检测方法的流程图;
图3示出了本申请实施例所提供的一种音视频运维人员疲劳状态的检测流程的示意图;
图4示出了本申请实施例所提供的一种基于音视频运维的疲劳状态的检测装置的结构示意图;
图5示出了本申请实施例所提供的一种基于音视频运维的疲劳状态的检测系统的结构示意图之一;
图6示出了本申请实施例所提供的一种基于音视频运维的疲劳状态的检测系统的结构示意图之二;
图7示出了本申请实施例所提供的一种电子设备的结构示意图。
图标:410-检测装置;411-数据处理模块;412-特征提取模块;413-疲劳检测模块;500-检测系统;510-显示装置;520-管理装置;521-用户管理模块;522-文件管理模块;523-模式管理模块;524-类型管理模块;525-配置管理模块;700-电子设备;710-处理器;720-存储器;730-总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“基于音视频运维的疲劳状态的检测”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、系统、电子设备或计算机可读存储介质可以应用于任何需要检测音视频运维人员疲劳状态的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的一种基于音视频运维的疲劳状态的检测方法、装置及系统的方案均在本申请保护范围内。
值得注意的是,音频和视频的发展几乎是同时的,留声机、磁带、唱片机、电话等一一而来,视频从默片走向有声,从黑白走向彩色,从模糊走向超清,技术更新迭代,创造了全新的音视频产业。短视频、在线会议、线上教育、直播等都依赖于音视频行业的发展。
目前,在音视频行业中,通常需要专业的运维人员负责各会议展厅等重要场所的视频播放与日常运维工作,但是当长时间进行视频播放时,运维人员可能出现疲劳现象,在遇到直播异常等突发情况时,可能影响运维效率,导致更严重的视频播放事故;因此,如何对音视频运维人员进行疲劳检测,成为了亟待解决的问题。
基于此,本申请提出了一种基于音视频运维的疲劳状态的检测方法、装置及系统,所述检测方法包括:获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
这样,采用本申请提供的技术方案能够通过将音视频流处理为音频数据和视频数据,分别对音频数据和视频数据进行处理,得到音视参数和视频参数,通过对音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数,从而确定目标对象的疲劳状态,实现了对音视频运维人员的疲劳检测,能够及时发现疲劳风险,避免发生视频播放事故,提高了运维效率。
为便于对本申请进行理解,下面将结合具体实施例对本申请提供的技术方案进行详细说明。
请参阅图1,图1为本申请实施例所提供的一种基于音视频运维的疲劳状态的检测方法的流程图,如图1中所示,所述检测方法包括:
S101、获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;
该步骤中,检测方法应用于基于音视频运维的疲劳状态的检测系统,该系统在运维人员使用生产终端工作时,可以实时检测运维人员的疲劳状态,如发现注意力不在生产终端或较为疲劳时,系统提示风险信息。
需要说明的是,获取针对目标对象的原始视频,对原始视频进行数据处理,得到音频数据和视频数据的步骤,包括:
S1011、获取针对目标对象的原始视频,对所述原始视频进行数据检测,确定所述原始视频中是否检测到音视频流;
S1012、若未检测到音视频流,则生成未检测到音视频流的提示信息;
S1013、若检测到音视频流,则确定所述音视频流的输入格式是否正确;
S1014、若不正确,则生成所述音视频流输入格式错误的提示信息;
S1015、若正确,则对所述音视频流进行音视频分离,得到音频数据和视频数据。
在步骤S1011至步骤S1015中,对原始的输入数据(原始视频)进行数据检测,如果音视频流输入格式识别有误或者没有检测到音视频流,则提示无输入信息,请检查;若音视频流格式检测正常,则进行音视频分离,对分离之后的音视频数据流分别进行处理。
S102、对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;
该步骤中,音频参数包括音频情感值、音频特征值以及声门状态值;视频参数包括视频情感值、视频特征值以及表情指数值。
需要说明的是,得到音频参数的步骤请参阅图2,图2为本申请实施例所提供另一种基于音视频运维的疲劳状态的检测方法的流程图,如图2中所示,对音频数据进行特征提取,得到音频参数的步骤,包括:
S201、对所述音频数据进行特征提取,得到音频特征集;
S202、将所述音频特征集中输入至音频检测模型中进行音频情感检测,得到基于所述音频特征集的音频参数。
在步骤S201中,对经过数据处理的音频进行相应的特征提取,这里提取的主要特征例如可以为音频的IS2010特征集。然后在步骤S202中,可以调用预先建立的音频情感检测的动态链接库,来实现将音频特征集输入至音频检测模型中进行音频情感检测,以得到音频特征集的音频参数。
这里,音频情感检测模型用于表征音频特征与音频参数之间的对应关系。音频情感检测模型可以是各种回归模型,例如可以是支持向量机。
需要说明的是,对视频数据进行特征提取,得到视频参数的步骤,包括:
1)、对所述视频数据进行特征提取,得到视频特征集;
2)、将所述视频特征集中输入至视频检测模型中进行视频情感检测,得到基于所述视频特征集的视频参数。
在上述步骤1)至2)中,得到视频参数的方式与得到音频参数的方式一致,对经过数据处理的视频进行相应的特征提取,这里提取的主要特征例如可以为视频的VGGFace特征集,然后调用预先建立的视频情感检测的动态链接库,来实现将所述视频特征集中输入至视频检测模型中进行视频情感检测,以得到视频特征集的视频参数。
这里,视频情感检测模型用于表征视频特征与视频参数之间的对应关系。视频情感检测模型可以是各种回归模型,例如可以是支持向量机。
S103、利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
需要说明的是,利用音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数的步骤,可以包括:
一、将所述音频参数中的音频情感值、音频特征值以及声门状态值与所述视频参数中的视频情感值、视频特征值以及表情指数值,输入至疲劳检测模型中,得到所述目标对象的疲劳指数。
该步骤中,具体可以通过调用预先建立的基于音视频的疲劳检测动态链接库(即疲劳检测模型)后,来实现得到最终的疲劳指数,最后按照时间顺序以动态曲线的方式输出疲劳指数,这里也可以分别按照时间顺序以动态曲线的方式输出音频情感值、音频特征值、声门状态值、视频情感值、视频特征值以及表情指数值。
这里,疲劳检测模型用于表征音频参数和视频参数二者与疲劳指数之间的对应关系。疲劳检测模型可以是各种回归模型,例如可以是Transformer模型。
示例性的,请参阅图3,图3为本申请实施例所提供的一种音视频运维人员疲劳状态的检测流程的示意图,如图3中所示,检测流程主要分为三部分:数据处理、特征提取以及运维疲劳检测分析。在数据处理中,首先检测获取到的数据流是否正常(例如,检测数据流是否是音视频流,音视频流的输入格式是否正确等),若否,则提示数据流错误;若是,则将音视频数据流分离,得到音频数据和视频数据,分别对音频数据和视频数据进行处理。在特征提取中,同步在音频数据中提取音频特征,在视频数据中提取视频特征,之后基于提取的音频特征调用音频情感检测动态库,进入运维疲劳检测分析流程,同时基于提取的视频特征调用视频情感检测动态库,也进入运维疲劳检测分析流程。在运维疲劳检测分析流程中,调用音频情感检测动态库后,得到音频情感值、音频特征值以及声门状态值,调用视频情感检测动态库后,得到视频情感值、视频特征值以及表情指数值,之后调用疲劳检测动态库(即疲劳检测模型),得到音视频运维疲劳检测值(即疲劳指数),将疲劳指数、音频情感值、音频特征值、声门状态值、视频情感值、视频特征值以及表情指数值分别按照时间顺序以动态曲线的方式进行展示;实时监测疲劳指数,当疲劳指数达到预设的告警阈值时,输出告警提示信息。
这里,基于音视频运维的疲劳状态的检测方法可以在Windows10平台上进行的全部开发工作,采用C++作为基本设计语言,使用深度学习算法Transformer训练的注意力检测模型,在VS(Visual Studio 2015)上进行算法集成并进行改进,得到基于音视频运维的疲劳检测模型,并生成相应的动态库DLL文件,然后在QT(Qt Designer 5.11.2)上进行算法调用、系统前后端开发等工作。
作为示例,可以使用AVEC2017提供的多模态音视频数据集进行相关实验。AVEC2017数据集使用的语料库是SEWA数据集的子集。该数据集是由对象的自然行为组成的音频和视频数据集。可以使用网络摄像头和麦克风在受试者家中的计算机上收集所有数据。对象的年龄可以在18至60岁之间,并且每个记录中只有一个人的数据。因此,实验数据减少了对音频特征的干扰,提高了对音频特征的影响。在数据集的注释过程中,注释者根据激活,效价和支配这三个维度对生活,工作或其他讨论内容进行注释,并根据特定算法将情感维度转化为疲劳检测维度。整个注释过程可以由6位注释者(例如3位女性,3位男性)进行,年龄可以在20-24岁之间,并且会说德语。在本次算法模型中,从该子数据集中选择训练集和开发集作为实验数据,共有48个音频和48个对应的视频,为了使实验结果更加准确,在实验开始前,对数据集进行了三种分类方式,分别记作标签1、标签2和标签3,每种标签选择音视频的根据完全随机,其中每种标签的34个音频和视频用作训练集,14个音频和视频用作测试集,录制时间范围从46秒到3分钟。本实验在Windows10下对数据进行预处理,并进行特征提取、模型训练以及运维疲劳检测值输出。在Windows10环境下使用Visual Studio2015平台编写的C++语言对原始视频进行逐帧人脸识别,并生成人脸检测照片,然后筛选出正确识别的脸部照片,剔除检测失败的照片。最后使用Openface对预处理的照片进行面部提取,并保存标签生成NPY文件。对于基于音频的运维疲劳检测算法模型,对音频数据进行特征提取,得到IS2010音频特征集,之后再将音频特征分别放入到SVM模型中进行音频情感检测,获取基于IS2010音频特征集的音频情感值、音频特征值以及声门状态值。对于基于视频的运维疲劳检测算法模型,对原始视频提取的帧图像通过VGG-CNN进行情感特征集提取,得到VGGFace视频特征集,之后再将视频特征分别放入到SVM模型中进行视频情感检测,获取基于VGGFace视频特征集的视频情感值、视频特征值以及表情指数值。在得到音频特征(IS2010)和视频特征(VGGFace)之后,进行特征信息的时序池化。然后对音频特征、视频特征的疲劳信息进行串联组合,作为Transformer模型的输入进行疲劳检测模型训练,然后经过均池化之后得到最终的疲劳指数。
本申请实施例提供的一种基于音视频运维的疲劳状态的检测方法,所述检测方法包括:获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
这样,采用本申请提供的技术方案能够通过将音视频流处理为音频数据和视频数据,分别对音频数据和视频数据进行处理,得到音视参数和视频参数,通过对音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数,从而确定目标对象的疲劳状态,实现了对音视频运维人员的疲劳检测,能够及时发现疲劳风险,避免发生视频播放事故,提高了运维效率。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供一种基于音视频运维的疲劳状态的检测方法对应的一种基于音视频运维的疲劳状态的检测装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例一种基于音视频运维的疲劳状态的检测方法相似,因此应用显示装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4,图4为本申请实施例所提供的一种基于音视频运维的疲劳状态的检测装置的结构示意图,如图4中所示,所述检测装置410包括:
数据处理模块411,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;
特征提取模块412,用于对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;
疲劳检测模块413,用于利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
可选的,所述特征提取模块412在用于对所述音频数据进行特征提取,得到音频参数时,所述特征提取模块412具体用于:
对所述音频数据进行特征提取,得到音频特征集;
将所述音频特征集中每个音频特征输入至音频检测模型中进行音频情感检测,得到基于所述音频特征集的音频参数;其中,所述音频参数包括音频情感值、音频特征值以及声门状态值。
可选的,所述数据处理模块411具体用于:
获取针对目标对象的原始视频,对所述原始视频进行数据检测,确定所述原始视频中是否检测到音视频流;
若未检测到音视频流,则生成未检测到音视频流的提示信息;
若检测到音视频流,则确定所述音视频流的输入格式是否正确;
若不正确,则生成所述音视频流输入格式错误的提示信息;
若正确,则对所述音视频流进行音视频分离,得到音频数据和视频数据。
可选的,所述特征提取模块412在用于对所述视频数据进行特征提取,得到视频参数时,所述特征提取模块412具体用于:
对所述视频数据进行特征提取,得到视频特征集;
将所述视频特征集中输入至视频检测模型中进行视频情感检测,得到基于所述视频特征集的视频参数;其中,所述视频参数包括视频情感值、视频特征值以及表情指数值。
可选的,所述疲劳检测模块413在用于利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数时,所述疲劳检测模块413具体用于:
将所述音频参数中的音频情感值、音频特征值以及声门状态值与所述视频参数中的视频情感值、视频特征值以及表情指数值,输入至疲劳检测模型中,得到所述目标对象的疲劳指数。
本申请实施例提供的一种基于音视频运维的疲劳状态的检测装置,所述检测装置包括:数据处理模块,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;特征提取模块,用于对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;疲劳检测模块,用于利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
这样,采用本申请提供的技术方案能够通过将音视频流处理为音频数据和视频数据,分别对音频数据和视频数据进行处理,得到音视参数和视频参数,通过对音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数,从而确定目标对象的疲劳状态,实现了对音视频运维人员的疲劳检测,能够及时发现疲劳风险,避免发生视频播放事故,提高了运维效率。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供一种基于音视频运维的疲劳状态的检测方法对应的一种基于音视频运维的疲劳状态的检测系统,由于本申请实施例中的系统解决问题的原理与本申请上述实施例一种基于音视频运维的疲劳状态的检测方法相似,因此检测系统的实施可以参见方法的实施,重复之处不再赘述。
请参阅图5、图6,图5为本申请实施例所提供的一种基于音视频运维的疲劳状态的检测系统的结构示意图之一,图6为本申请实施例所提供的一种基于音视频运维的疲劳状态的检测系统的结构示意图之二,如图5所示,检测系统500包括上述所述的检测装置410,还包括显示装置510。
进一步的,所述检测装置410,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警;将所述疲劳指数发送给所述显示装置510;所述显示装置510,用于接收所述检测装置发送的疲劳指数,将所述疲劳指数按照时间以动态曲线的方式进行展示。
作为示例,进行校准并开始检测后,显示页面左边上部分可以为参数设置区域,中部分可以为检测过程中的时间区间、疲劳程度(数值)、风险等级,下部分可以为本次检测的相关文件格式;右边可以为动态曲线展示部分,分别为情感状态(基于音频和视频)、音频特征(0-1数值)、视频特征(0-1数值)、声门状态(0-1数值)、表情指数(0-1数值)以及疲劳指数(0-1数值)。在检测过程中,如果疲劳指数达到设定的告警阈值后,则左边的风险等级将会提示“高度风险”字样,防止运维人员在终端运维过程中因疲劳导致操作失误等问题而影响投产、变更等操作。
进一步的,如图6所示,所述检测系统500还包括:管理装置520;所述管理装置520与所述显示装置510连接;所述管理装置520,用于管理对应模块的信息,并将所述信息发送给所述显示装置510进行显示。
进一步的,如图6所示,所述管理装置520包括用户管理模块521、文件管理模块522、模式管理模块523、类型管理模块524以及配置管理模块525。
具体的,在系统集成开发过程中,遵循高内聚、低耦合的原则,方便后续对系统的功能模块进行添加、修改和删除,实现系统的可移植性,因此,基于音视频运维的疲劳状态的检测系统采用模块化设计思路,包括用户管理模块521、文件管理模块522、模式管理模块523、类型管理模块524以及配置管理模块525等。用户管理模块521,用于为不同人员配置用户登录相关信息;该系统已将相关运维人员的域账号录入系统数据中。文件管理模块522,用于记录本地相关的音频文件、视频文件、报表文件,同时通过离线模式可以进行回放、查看等,以便用于后续的监管审计等。模式管理模块523,主要分为离线模式和在线模式,离线模式用于对历史的音频文件、视频文件或音视频文件进行运维疲劳检测,在线模式用于实时对当前终端的操作者进行运维疲劳检测,在实际应用中,在线模式也是本系统主要模式。类型管理模块524,用于管理数据源类型,如离线模式的音频文件、视频文件或音视频文件,在线模式的音频文件、视频文件或音视频文件。配置管理模块525,用于对不同的音视频采样率进行初始配置,主要分为8KHZ、16KHZ、44.1KHZ。
本申请实施例提供的一种基于音视频运维的疲劳状态的检测系统,所述检测系统包括:上述所述的检测装置,还包括:显示装置;所述检测装置,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警;将所述疲劳指数发送给所述显示装置;所述显示装置,用于接收所述检测装置发送的疲劳指数,将所述疲劳指数按照时间以动态曲线的方式进行展示。
这样,采用本申请提供的技术方案能够通过将音视频流处理为音频数据和视频数据,分别对音频数据和视频数据进行处理,得到音视参数和视频参数,通过对音频参数与视频参数进行运维疲劳检测分析,得到疲劳指数,从而确定目标对象的疲劳状态,实现了对音视频运维人员的疲劳检测,能够及时发现疲劳风险,避免发生视频播放事故,提高了运维效率。
请参阅图7,图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括处理器710、存储器720和总线730。
所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图1以及图2所示方法实施例中的基于音视频运维的疲劳状态的检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的基于音视频运维的疲劳状态的检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于音视频运维的疲劳状态的检测方法,其特征在于,所述检测方法包括:
获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;
对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;
利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
2.根据权利要求1所述的检测方法,其特征在于,所述对所述音频数据进行特征提取,得到音频参数的步骤,包括:
对所述音频数据进行特征提取,得到音频特征集;
将所述音频特征集输入至音频检测模型中进行音频情感检测,得到基于所述音频特征集的音频参数;其中,所述音频参数包括音频情感值、音频特征值以及声门状态值。
3.根据权利要求1所述的检测方法,其特征在于,所述获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据的步骤,包括:
获取针对目标对象的原始视频,对所述原始视频进行数据检测,确定所述原始视频中是否检测到音视频流;
若未检测到音视频流,则生成未检测到音视频流的提示信息;
若检测到音视频流,则确定所述音视频流的输入格式是否正确;
若不正确,则生成所述音视频流输入格式错误的提示信息;
若正确,则对所述音视频流进行音视频分离,得到音频数据和视频数据。
4.根据权利要求1所述的检测方法,其特征在于,所述对所述视频数据进行特征提取,得到视频参数的步骤,包括:
对所述视频数据进行特征提取,得到视频特征集;
将所述视频特征集中输入至视频检测模型中进行视频情感检测,得到基于所述视频特征集的视频参数;其中,所述视频参数包括视频情感值、视频特征值以及表情指数值。
5.根据权利要求1所述的检测方法,其特征在于,所述利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数的步骤,包括:
将所述音频参数中的音频情感值、音频特征值以及声门状态值与所述视频参数中的视频情感值、视频特征值以及表情指数值,输入至疲劳检测模型中,得到所述目标对象的疲劳指数。
6.一种基于音视频运维的疲劳状态的检测装置,其特征在于,所述检测装置包括:
数据处理模块,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;
特征提取模块,用于对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;
疲劳检测模块,用于利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警。
7.一种基于音视频运维的疲劳状态的检测系统,其特征在于,所述检测系统包括如权利要求6中所述的检测装置和显示装置,其中:
所述检测装置,用于获取针对目标对象的原始视频,对所述原始视频进行数据处理,得到音频数据和视频数据;对所述音频数据进行特征提取,得到音频参数,并对所述视频数据进行特征提取,得到视频参数;利用所述音频参数与所述视频参数进行运维疲劳检测分析,得到疲劳指数,若所述疲劳指数达到预设阈值,则将所述目标对象确定为疲劳状态,并生成提示信息进行风险报警;将所述疲劳指数发送给所述显示装置;
所述显示装置,用于接收所述检测装置发送的疲劳指数,将所述疲劳指数按照时间以动态曲线的方式进行展示。
8.根据权利要求7所述的检测系统,其特征在于,所述检测系统还包括:管理装置;所述管理装置与所述显示装置连接;
所述管理装置,用于管理对应模块的信息,并将所述信息发送给所述显示装置进行显示。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至5任一所述的基于音视频运维的疲劳状态的检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的基于音视频运维的疲劳状态的检测方法的步骤。
CN202310841200.9A 2023-07-10 2023-07-10 一种基于音视频运维的疲劳状态的检测方法、装置及系统 Pending CN116863955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310841200.9A CN116863955A (zh) 2023-07-10 2023-07-10 一种基于音视频运维的疲劳状态的检测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310841200.9A CN116863955A (zh) 2023-07-10 2023-07-10 一种基于音视频运维的疲劳状态的检测方法、装置及系统

Publications (1)

Publication Number Publication Date
CN116863955A true CN116863955A (zh) 2023-10-10

Family

ID=88235452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310841200.9A Pending CN116863955A (zh) 2023-07-10 2023-07-10 一种基于音视频运维的疲劳状态的检测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN116863955A (zh)

Similar Documents

Publication Publication Date Title
US11151892B2 (en) Internet teaching platform-based following teaching system
US20200286396A1 (en) Following teaching system having voice evaluation function
CN106971009B (zh) 语音数据库生成方法及装置、存储介质、电子设备
CN111723784B (zh) 一种风险视频识别方法、装置和电子设备
CN110457673B (zh) 一种自然语言转换为手语的方法及装置
CN111417014B (zh) 基于在线教育的视频生成方法、系统、设备及存储介质
CN112685672B (zh) 页面会话行为轨迹的回溯方法、装置及电子设备
CN110675674A (zh) 一种基于大数据分析的在线教育方法及在线教育平台
CN108521612A (zh) 视频摘要的生成方法、装置、服务器及存储介质
CN114095782A (zh) 一种视频处理方法、装置、计算机设备及存储介质
CN114120969A (zh) 智能终端的语音识别功能测试方法、系统、电子设备
CN112511818A (zh) 视频播放质量检测方法、装置
CN110546678A (zh) 儿童教育系统中计算导出的评估
CN109858005A (zh) 基于语音识别的文档更新方法、装置、设备及存储介质
CN111698529B (zh) 直播监控方法、装置、设备以及计算机可读存储介质
CN116863955A (zh) 一种基于音视频运维的疲劳状态的检测方法、装置及系统
US11526669B1 (en) Keyword analysis in live group breakout sessions
US11048920B2 (en) Real-time modification of presentations based on behavior of participants thereto
CN115250375B (zh) 一种基于固定话术的音视频内容合规性检测方法及装置
CN111556372A (zh) 为视音频节目实时添加字幕的方法和装置
CN111327943A (zh) 信息管理方法及装置、系统、计算机设备、存储介质
KR102656262B1 (ko) 이미지를 이용한 중국어 연상학습 콘텐츠 제공 방법 및 장치
WO2022181287A1 (ja) 画像蓄積装置、方法及び非一時的なコンピュータ可読媒体
US12100424B2 (en) Information processing method, information processing apparatus, program, and information processing system
US20230186952A1 (en) Information processing method, information processing apparatus, program, and information processing system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination