CN113888598A - 数字人视频的异常检测方法及相关装置 - Google Patents
数字人视频的异常检测方法及相关装置 Download PDFInfo
- Publication number
- CN113888598A CN113888598A CN202111212334.1A CN202111212334A CN113888598A CN 113888598 A CN113888598 A CN 113888598A CN 202111212334 A CN202111212334 A CN 202111212334A CN 113888598 A CN113888598 A CN 113888598A
- Authority
- CN
- China
- Prior art keywords
- action
- initial
- track
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了数字人视频的异常检测方法及相关装置,该方法包括:获取数字人物模型在多个时间点的初始动作图像;在检测到当前帧的动作姿态异常后,对初始动作总轨迹进行调整以得到目标动作总轨迹,并根据目标动作总轨迹得到数字人物模型的所有目标动作图像,以避免生成观感不佳的数字人视频,影响数字人物模型的播报形象和用户体验感。
Description
技术领域
本申请实施例涉及互联网技术领域,尤其涉及数字人视频的异常检测方法及相关装置。
背景技术
随着信息生活的不断发展,人机交互技术渗透到日常生活的方方面面,其中,数字人(文中可称为机器人、虚拟人或数字人物模型)的应用也越来越广泛。数字人,是利用虚拟现实技术、人机交互、高精度三维人像模拟、人工智能、动作捕捉和面部表情捕捉等技术制作而成的虚拟三维人,可替换真人进行高拟真度的业务指引和问题应答等工作,降低人工客服成本。
实际应用过程中,完成训练的数字人常会根据文本输入和/或动作名输入,生成相应的播报台词和/或播报姿态以渲染其形象,使得数字人能模拟真人以视频交互的形式呈现到用户面前。具体可以理解为,一帧就是一个画面、一个动作姿态,连续的帧就可以组成一条动作轨迹,例如动画片就是很多的帧组成的。但不可忽视的是,数字人生成的动作姿态可能在训练数据中未出现过,使得视频帧易存在异常,例如,因某时刻的动作幅度过大或不规范(与存在的训练数据相差较大),导致视频播放到某帧时数字人的肢体有马赛克等图像瑕疵。因此,若不对生成的视频帧进行效果检测处理,容易影响到数字人形象和用户观感,降低用户体验感。
发明内容
本申请实施例提供了数字人视频的异常检测方法及相关装置,用以避免数字人物模型播放异常视频帧。
本申请实施例第一方面提供一种数字人视频的异常检测方法,包括:
获取数字人物模型在多个时间点的初始动作图像,其中,每个时间点对应一帧初始动作图像,每帧所述初始动作图像用于表示所述数字人物模型在不同时间点的动作姿态,所有帧所述初始动作图像的动作姿态组成初始动作总轨迹;
检测当前帧的动作姿态是否异常,所述当前帧为任意一帧所述初始动作图像;
若是,对所述初始动作总轨迹进行调整以得到目标动作总轨迹,并根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像,所述目标动作图像用作输出给用户的所述数字人物模型的视频组成帧。
可选地,所述检测当前帧的动作姿态是否异常包括:
确定所述当前帧中动作姿态对应的像素存在瑕疵的总概率,所述总概率用于表示所述当前帧的动作姿态出现异常的可能性大小;
检测所述总概率是否超出预设概率。
可选地,所述确定所述当前帧中动作姿态对应的像素存在瑕疵的总概率包括:
将所述当前帧划分为N个像素子区域;
通过分类模型检测每个所述像素子区域中动作姿态对应的像素存在瑕疵的子概率;
根据所有所述子概率统计所述当前帧中动作姿态对应的像素存在瑕疵的总概率。
可选地,所述确定所述当前帧中动作姿态对应的像素存在瑕疵的总概率包括:
将所述当前帧、前m个帧的初始动作图像和后m个帧的初始动作图像中的每帧初始动作图像分别划分为N个像素子区域;
通过分类模型分别检测每个所述像素子区域中动作姿态对应的像素存在瑕疵的子概率;
根据所有所述子概率统计所述当前帧中动作姿态对应的像素存在瑕疵的总概率。
可选地,所述对所述初始动作总轨迹进行调整以得到目标动作总轨迹,包括:
确定所述当前帧的最近一历史正常动作姿态,其中,所述最近一历史正常动作姿态表示于所述当前帧之前的一历史帧所述初始动作图像;
沿初始动作子轨迹反向生成目标动作子轨迹,所述初始动作子轨迹为所述初始动作总轨迹中包括所述最近一历史正常动作姿态的历史动作轨迹;
将所述初始动作总轨迹中所述初始动作子轨迹之后的动作轨迹更新为所述目标动作子轨迹,以形成目标动作总轨迹。
可选地,所述根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像包括:
根据所述目标动作子轨迹生成对应的目标动作图像,以得到包括所述初始动作子轨迹对应的初始动作图像以及所述目标动作子轨迹对应的目标动作图像的数字人视频。
可选地,所述根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像包括:
根据所述目标动作总轨迹对应生成所述数字人物模型的所有目标动作图像。
可选地,所述检测当前帧的动作姿态是否异常之后,所述方法还包括:
若否,通知所述数字人物模型所述当前帧的动作姿态正常,所述当前帧用作输出给用户的所述数字人物模型的视频组成帧。
可选地,所述检测当前帧的动作姿态是否异常之后,所述方法还包括:
若是,通知所述数字人物模型所述当前帧的动作姿态异常,所述当前帧用作输出给用户的所述数字人物模型的视频组成帧。
可选地,所述初始动作图像和所述目标动作图像由所述数字人物模型的动作姿态关键点生成。
可选地,所述总概率包括图像黑斑概率和马赛克概率中的一种概率或多种概率。
本申请实施例第二方面提供一种数字人视频的异常检测装置,包括:
获取模块,用于获取数字人物模型在多个时间点的初始动作图像,其中,每个时间点对应一帧初始动作图像,每帧所述初始动作图像用于表示所述数字人物模型在不同时间点的动作姿态,所有帧所述初始动作图像的动作姿态组成初始动作总轨迹;
异常检测模块,用于检测当前帧的动作姿态是否异常,所述当前帧为任意一帧所述初始动作图像;
动作处理模块,用于对所述初始动作总轨迹进行调整以得到目标动作总轨迹;
图像生成模块,用于根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像,所述目标动作图像用作输出给用户的所述数字人物模型的视频组成帧。
可选地,所述异常检测模块具体用于:
确定所述当前帧中动作姿态对应的像素存在瑕疵的总概率,所述总概率用于表示所述当前帧的动作姿态出现异常的可能性大小;
检测所述总概率是否超出预设概率。
可选地,所述异常检测模块具体用于:
将所述当前帧划分为N个像素子区域;
通过分类模型检测每个所述像素子区域中动作姿态对应的像素存在瑕疵的子概率;
根据所有所述子概率统计所述当前帧中动作姿态对应的像素存在瑕疵的总概率。
可选地,所述异常检测模块具体用于:
将所述当前帧、前m个帧的初始动作图像和后m个帧的初始动作图像中的每帧初始动作图像分别划分为N个像素子区域;
通过分类模型分别检测每个所述像素子区域中动作姿态对应的像素存在瑕疵的子概率;
根据所有所述子概率统计所述当前帧中动作姿态对应的像素存在瑕疵的总概率。
可选地,所述动作处理模块具体用于:
确定所述当前帧的最近一历史正常动作姿态,其中,所述最近一历史正常动作姿态表示于所述当前帧之前的一历史帧所述初始动作图像;
沿初始动作子轨迹反向生成目标动作子轨迹,所述初始动作子轨迹为所述初始动作总轨迹中包括所述最近一历史正常动作姿态的历史动作轨迹;
将所述初始动作总轨迹中所述初始动作子轨迹之后的动作轨迹更新为所述目标动作子轨迹,以形成目标动作总轨迹。
可选地,图像生成模块,具体用于根据所述目标动作子轨迹生成对应的目标动作图像,以得到包括所述初始动作子轨迹对应的初始动作图像以及所述目标动作子轨迹对应的目标动作图像的数字人视频。
可选地,图像生成模块,具体用于根据所述目标动作总轨迹对应生成所述数字人物模型的所有目标动作图像。
可选地,还包括输出模块,用于通知所述数字人物模型所述当前帧的动作姿态正常,所述当前帧用作输出给用户的所述数字人物模型的视频组成帧。
可选地,还包括输出模块,用于通知所述数字人物模型所述当前帧的动作姿态异常,所述当前帧用作输出给用户的所述数字人物模型的视频组成帧。
本申请实施例第三方面提供一种数字人视频的异常检测装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例的数字人视频的异常检测方法,包括:获取数字人物模型在多个时间点的初始动作图像;在检测到当前帧的动作姿态异常后,对初始动作总轨迹进行调整以得到目标动作总轨迹,并根据目标动作总轨迹得到数字人物模型的所有目标动作图像,以避免生成观感不佳的数字人视频,影响数字人物模型的播报形象和用户体验感。
附图说明
图1A为本申请实施例的一个应用环境示意图;
图1B为本申请实施例数字人视频的异常检测方法的一个总体架构图;
图2为本申请实施例数字人视频的异常检测方法的一个流程示意图;
图3为本申请实施例数字人视频的异常检测方法的另一流程示意图;
图4为本申请实施例数字人视频的异常检测装置的一个结构示意图;
图5为本申请实施例数字人视频的异常检测装置的另一结构示意图。
具体实施方式
请参阅图1A,图1A示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的数字人视频的异常检测方法可以应该用于如图1A所示的交互系统100。交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不作具体限定。
其中,终端设备101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的,数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像等,还可以是基于终端设备101上安装有的手势识别模块,使得用户可以实现手势输入等交互方式。
其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信,具体的,服务器102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音信息或图像信息等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
在一些实施方式中,客户端应用程序可以用于向用户提供客户服务,与用户进行客服沟通,客户端应用程序可以基于虚拟机器人与用户进行交互。具体的,客户端应用程序可以接收用户输入的信息,并基于虚拟机器人对该信息作出应答。其中,虚拟机器人是基于可视化图形的软件程序,该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人,例如根据用户自身或其他人的形态建立的形似真人的机器人,也可以是动漫效果式的机器人,例如动物形态或卡通人物形态的机器人。
在一些实施方式中,终端设备101在获取与用户输入的信息对应的回复信息后,可以在终端设备101的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像。作为一种方式,在播放虚拟机器人图像的同时,可以通过终端设备101的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频,还可以在终端设备101的显示屏上显示与该回复信息对应的文字或图形,实现在图像、语音、文字等多个方面上与用户的多态交互。
在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互,此时交互系统100可以只包括终端设备101。
上述的应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
请参阅图1B,输入数字人物模型需要应答的预设播报文本和动作名(例如挥手)后,通过文本转语音TTS(TTS,text to speech)软件和嘴形参数模型可得到数字人物模型的嘴形关键点(关键点可以理解为关于嘴形的特征坐标点),通过动作生成模块(也可理解为动作处理模块)则可得到数字人物模型的动作参数即动作关键点(可理解为关于肢体的特征坐标点);由嘴形关键点和动作关键点组成的全量关键点经过图像生成模型(可加载在图像生成模块中)可形成用于表示数字人物模型在不同时间点动作姿态的图像帧,而多帧图像经过视频编码器则可最终形成数字人会话系统的音视频流,使得数字人能以视频的形式与用户进行信息交互,例如应用于数字人客服场景;其中,异常检测模块的使用能检测生成的各帧图像是否异常,即可用于检测数字人的动作姿态是否异常,异常的相应表现包括图像上的肢体动作出现黑斑或马赛克等瑕疵状况。需要说明的是,图像上数字人身体以外的地方是透明的,且生成图像瑕疵主要是肢体动作导致,而嘴形一般不会产生图像瑕疵,故本申请主要以对数字人的肢体动作做异常检测和处理进行实例说明。本申请中,图像中动作姿态表现正常的这类图像或简称为正常帧,相应地,动作姿态异常的这类图像或简称为异常帧。
请参阅图1B和图2,本申请第一方面提供一种数字人视频的异常检测方法的一个实施例,包括:
201、获取数字人物模型在多个时间点的初始动作图像。
获取数字人物模型在多个时间点的初始动作图像,其中,因初始动作图像由动作生成模块输出的动作姿态关键点生成,故此处获取初始动作图像也可理解为包括获取动作姿态关键点,每个时间点对应一帧初始动作图像,每帧初始动作图像用于表示数字人物模型在不同时间点的动作姿态,所有帧初始动作图像的动作姿态组成初始动作总轨迹。
202、检测当前帧的动作姿态是否异常。
检测当前帧的动作姿态是否异常,可以理解为,即检测图像中数字人的动作姿态是否表现出黑斑和/或马赛克等图像瑕疵,此处当前帧为任意一帧初始动作图像;实际应用中,每一帧初始动作图像都应该进行异常检测,因视频播放的动作姿态是按时间顺序连贯进行的,故示例性地,每帧的检测结果应当顺序输出,即某一帧进行异常检测时其前一帧的检测结果是已知的,以便进行后续的异常动作调整处理。
203、进行异常动作姿态调整处理。
当检测到当前帧的动作姿态异常时,需要进行异常动作姿态调整处理,此处理具体操作可以包括,对初始动作总轨迹进行调整以得到目标动作总轨迹,从而避免数字人最终呈现在用户面前的动作姿态不连贯或不清晰。
204、生成目标动作图像。
根据目标动作总轨迹生成数字人物模型的目标动作图像,此处的目标动作图像会用作输出给用户的数字人物模型的视频组成帧。
请参阅图1B和图3,本申请提供一种数字人视频的异常检测方法的另一个实施例,包括:
301、获取数字人物模型在多个时间点的初始动作图像。
302、检测当前帧的动作姿态是否异常。
在确定当前帧中动作姿态对应的像素存在瑕疵的总概率后,通过检测总概率是否超出预设概率,可以判断出当前帧的动作姿态是否异常,其中,总概率用于表示当前帧的动作姿态出现异常的可能性大小。
在一个具体实施方式中,确定当前帧中动作姿态对应的像素存在瑕疵的总概率,具体可以为以下任一种操作:
(1)将当前帧划分为N个像素子区域;通过分类模型检测每个像素子区域中动作姿态对应的像素存在瑕疵的子概率;根据所有子概率统计当前帧中动作姿态对应的像素存在瑕疵的总概率。此处直接对当前帧进行划区域检测异常概率的方式,同样适用于首帧和末帧这种缺少某侧相邻帧的图像。
(2)将当前帧、前m个帧的初始动作图像和后m个帧的初始动作图像中的每帧初始动作图像分别划分为N个像素子区域;通过分类模型分别检测每个像素子区域中动作姿态对应的像素存在瑕疵的子概率;根据所有子概率统计当前帧中动作姿态对应的像素存在瑕疵的总概率。此处对当前帧进行划区域检测异常概率时,同样检测前m个帧和后m个帧的初始动作图像的检测区域(检测窗口为m+1+m帧),有利于在分类模型中体现出更准确的检测效果,可以理解为,将前m个帧和后m个帧做参考帧可使得对当前帧的检测更准确。
实际应用中,总概率包括图像黑斑概率和马赛克概率中的一种概率或多种概率,可理解为,可以对每个像素子区域进行存在黑斑和/或马赛克的概率检测;分类模型具体可以是SVM或KNN分类模型。
303、进行异常动作姿态调整处理。
所进行的异常动作姿态调整处理可为以下任一种操作:
(303.1)、通知动作生成模块当前帧存在瑕疵,应立即将动作返回至安全姿态范围,并重新规划新的安全动作路径:在一个具体实施方式中,当检测到当前帧的动作姿态异常(例如,总概率超出预设概率)时,应对初始动作总轨迹进行调整以得到目标动作总轨迹,包括:确定当前帧的最近一历史正常动作姿态,最近一历史正常动作姿态表示于当前帧之前的一历史帧初始动作图像;沿初始动作子轨迹反向生成目标动作子轨迹,初始动作子轨迹为初始动作总轨迹中包括最近一历史正常动作姿态的历史动作轨迹;将初始动作总轨迹中初始动作子轨迹之后的动作轨迹更新为目标动作子轨迹,以形成目标动作总轨迹。
示例性地,当生成的挥手角度超过一定安全姿态范围(安全姿态可理解为,训练数据中已存在的动作姿态或动作轨迹)时,对应地,在某一帧初始动作图像中数字人的手动作区域会显现出马赛克(其之前的帧因在安全姿态范围内故为正常帧,即动作姿态正常),则可以沿着挥手至此角度的轨迹反向运动找到不存在马赛克的最近一历史帧(最近的一历史正常帧),可理解为找到反向轨迹中最近的一个安全点,并重新规划出安全动作路径——对应表现为让手臂收回(可以通过通知动作生成模块重新生成接续的动作关键点实现,或通知动作生成模块将最近的一正常历史帧及其之前的动作关键点序列反向调整实现),使得数字人前后挥手的动作幅度都在安全姿态范围内。
(303.2)、通知(数字人会话系统)存在异常图像帧:在一个具体实施方式中,当检测到当前帧的动作姿态异常(例如,总概率超出预设概率)时,通知数字人物模型当前帧的动作姿态异常,而当前帧也可以用作数字人物模型的视频组成帧输出给用户;这是因为,1秒视频一般对应有几十帧图像,这使得每帧图像出现的时间很短,而人肉眼对于这种快速变化是难以感觉到的,即难以感知视频帧存在异常,所以有异常的图像也可以输出;但这种情况,一般也要能保证后续的动作帧不会产生瑕疵才可输出,否则易影响观感。
304、生成目标动作图像。
在一个具体实施方式中,根据目标动作总轨迹生成数字人物模型的目标动作图像,具体可以为以下任一种操作:
(1)根据目标动作子轨迹生成对应的目标动作图像,以得到包括初始动作子轨迹对应的初始动作图像以及目标动作子轨迹对应的目标动作图像的数字人视频。此处,可理解为最后输出的数字人视频组成为:前部分的正常初始动作图像加上后部分更新生成的正常目标动作图像(简称为正常帧),即前部分初始的正常图像保留使用,只生成后部分的接续动作图像,且后生成的正常帧会替换掉初始动作总轨迹后部分对应的那些异常图像作为后续的动作视频帧输出。
(2)根据目标动作总轨迹对应生成数字人物模型的所有目标动作图像,此种视频帧处理方式可理解为直接重新生成全新的一整段视频帧。
305、进行正常动作姿态处理。
当检测到当前帧的动作姿态正常(例如,总概率不超出预设概率)时,通知数字人物模型当前帧的动作姿态正常,使得当前帧可以用作数字人物模型的视频组成帧输出给用户。
步骤301至304与步骤201至204分别类似,具体此处不再赘述。
请参阅图4,本申请实施例第二方面提供一种数字人视频的异常检测装置,包括:
获取模块401,用于获取数字人物模型在多个时间点的初始动作图像,其中,每个时间点对应一帧初始动作图像,每帧初始动作图像用于表示数字人物模型在不同时间点的动作姿态,所有帧初始动作图像的动作姿态组成初始动作总轨迹;
异常检测模块402,用于检测当前帧的动作姿态是否异常,当前帧为任意一帧初始动作图像;
动作处理模块403,用于对初始动作总轨迹进行调整以得到目标动作总轨迹;
图像生成模块404,用于根据目标动作总轨迹生成数字人物模型的目标动作图像,目标动作图像用作数字人物模型的视频组成帧输出给用户。
本申请实施例中,数字人视频的异常检测装置各模块所执行的操作与第一方面或第一方面的任一具体方法实施例所描述的操作类似),具体不再赘述。
请参阅图5,本申请实施例的数字人视频的异常检测装置500可以包括一个或一个以上中央处理器CPU(CPU,central processing units)501和存储器505,该存储器505中存储有一个或一个以上的应用程序或数据。
其中,存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块,每个模块可以包括对数字人视频的异常检测装置中的一系列指令操作。更进一步地,中央处理器501可以设置为与存储器505通信,在数字人视频的异常检测装置500上执行存储器505中的一系列指令操作。
数字人视频的异常检测装置500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器501可以执行前述第一方面或第一方面的任一具体方法实施例所执行的操作,具体不再赘述。
可以理解的是,在本申请的各种实施例中,各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统或装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,业务服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种数字人视频的异常检测方法,其特征在于,包括:
获取数字人物模型在多个时间点的初始动作图像,其中,每个时间点对应一帧初始动作图像,每帧所述初始动作图像用于表示所述数字人物模型在不同时间点的动作姿态,所有帧所述初始动作图像的动作姿态组成初始动作总轨迹;
检测当前帧的动作姿态是否异常,所述当前帧为任意一帧所述初始动作图像;
若是,对所述初始动作总轨迹进行调整以得到目标动作总轨迹,并根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像,所述目标动作图像用作输出给用户的所述数字人物模型的视频组成帧。
2.根据权利要求1所述的数字人视频的异常检测方法,其特征在于,所述检测当前帧的动作姿态是否异常包括:
确定所述当前帧中动作姿态对应的像素存在瑕疵的总概率,所述总概率用于表示所述当前帧的动作姿态出现异常的可能性大小;
检测所述总概率是否超出预设概率。
3.根据权利要求2所述的数字人视频的异常检测方法,其特征在于,所述确定所述当前帧中动作姿态对应的像素存在瑕疵的总概率包括:
将所述当前帧划分为N个像素子区域;
通过分类模型检测每个所述像素子区域中动作姿态对应的像素存在瑕疵的子概率;
根据所有所述子概率统计所述当前帧中动作姿态对应的像素存在瑕疵的总概率。
4.根据权利要求2所述的数字人视频的异常检测方法,其特征在于,所述确定所述当前帧中动作姿态对应的像素存在瑕疵的总概率包括:
将所述当前帧、前m个帧的初始动作图像和后m个帧的初始动作图像中的每帧初始动作图像分别划分为N个像素子区域;
通过分类模型分别检测每个所述像素子区域中动作姿态对应的像素存在瑕疵的子概率;
根据所有所述子概率统计所述当前帧中动作姿态对应的像素存在瑕疵的总概率。
5.根据权利要求1所述的数字人视频的异常检测方法,其特征在于,所述对所述初始动作总轨迹进行调整以得到目标动作总轨迹,包括:
确定所述当前帧的最近一历史正常动作姿态,其中,所述最近一历史正常动作姿态表示于所述当前帧之前的一历史帧所述初始动作图像;
沿初始动作子轨迹反向生成目标动作子轨迹,所述初始动作子轨迹为所述初始动作总轨迹中包括所述最近一历史正常动作姿态的历史动作轨迹;
将所述初始动作总轨迹中所述初始动作子轨迹之后的动作轨迹更新为所述目标动作子轨迹,以形成目标动作总轨迹。
6.根据权利要求5所述的数字人视频的异常检测方法,其特征在于,所述根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像包括:
根据所述目标动作子轨迹生成对应的目标动作图像,以得到包括所述初始动作子轨迹对应的初始动作图像以及所述目标动作子轨迹对应的目标动作图像的数字人视频。
7.根据权利要求1或5所述的数字人视频的异常检测方法,其特征在于,所述根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像包括:
根据所述目标动作总轨迹对应生成所述数字人物模型的所有目标动作图像。
8.一种数字人视频的异常检测装置,其特征在于,包括:
获取模块,用于获取数字人物模型在多个时间点的初始动作图像,其中,每个时间点对应一帧初始动作图像,每帧所述初始动作图像用于表示所述数字人物模型在不同时间点的动作姿态,所有帧所述初始动作图像的动作姿态组成初始动作总轨迹;
异常检测模块,用于检测当前帧的动作姿态是否异常,所述当前帧为任意一帧所述初始动作图像;
动作处理模块,用于对所述初始动作总轨迹进行调整以得到目标动作总轨迹;
图像生成模块,用于根据所述目标动作总轨迹生成所述数字人物模型的目标动作图像,所述目标动作图像用作输出给用户的所述数字人物模型的视频组成帧。
9.一种数字人视频的异常检测装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212334.1A CN113888598A (zh) | 2021-10-18 | 2021-10-18 | 数字人视频的异常检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212334.1A CN113888598A (zh) | 2021-10-18 | 2021-10-18 | 数字人视频的异常检测方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113888598A true CN113888598A (zh) | 2022-01-04 |
Family
ID=79003579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111212334.1A Pending CN113888598A (zh) | 2021-10-18 | 2021-10-18 | 数字人视频的异常检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113888598A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782284A (zh) * | 2022-06-17 | 2022-07-22 | 广州三七极耀网络科技有限公司 | 动作数据修正方法、装置、设备及存储介质 |
-
2021
- 2021-10-18 CN CN202111212334.1A patent/CN113888598A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782284A (zh) * | 2022-06-17 | 2022-07-22 | 广州三七极耀网络科技有限公司 | 动作数据修正方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489959B2 (en) | Generating a layered animatable puppet using a content stream | |
US11379996B2 (en) | Deformable object tracking | |
CN110390704B (zh) | 图像处理方法、装置、终端设备及存储介质 | |
CN112379812B (zh) | 仿真3d数字人交互方法、装置、电子设备及存储介质 | |
CN111294665B (zh) | 视频的生成方法、装置、电子设备及可读存储介质 | |
CN110555507B (zh) | 虚拟机器人的交互方法、装置、电子设备及存储介质 | |
US11373373B2 (en) | Method and system for translating air writing to an augmented reality device | |
US20150241984A1 (en) | Methods and Devices for Natural Human Interfaces and for Man Machine and Machine to Machine Activities | |
CN111368137A (zh) | 视频的生成方法、装置、电子设备及可读存储介质 | |
CN112673400A (zh) | 化身动画 | |
CN110837294A (zh) | 一种基于眼球追踪的面部表情控制方法及系统 | |
US20150293589A1 (en) | Method for controlling triggering of human-computer interaction operation and apparatus thereof | |
CN113867531A (zh) | 交互方法、装置、设备及计算机可读存储介质 | |
CN112181141A (zh) | Ar定位的方法、装置、电子设备及存储介质 | |
Mattos et al. | Improving CNN-based viseme recognition using synthetic data | |
CN113888598A (zh) | 数字人视频的异常检测方法及相关装置 | |
Turk | Moving from guis to puis | |
Mattos et al. | Multi-view mouth renderization for assisting lip-reading | |
Krinidis et al. | Facial expression analysis and synthesis: A survey. | |
CN113706709A (zh) | 文本特效生成方法及相关装置、设备、存储介质 | |
CN110719415B (zh) | 一种视频图像处理方法、装置、电子设备及计算机可读介质 | |
US11169603B2 (en) | Electronic apparatus and method for recognizing view angle of displayed screen thereof | |
CN112714337A (zh) | 视频处理方法、装置、电子设备和存储介质 | |
US20230326092A1 (en) | Real-time visualization of head mounted display user reactions | |
CA3101001A1 (en) | Machine interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |