CN109492124A - 选择性注意线索指导的不良主播检测方法、装置及电子设备 - Google Patents

选择性注意线索指导的不良主播检测方法、装置及电子设备 Download PDF

Info

Publication number
CN109492124A
CN109492124A CN201811397237.2A CN201811397237A CN109492124A CN 109492124 A CN109492124 A CN 109492124A CN 201811397237 A CN201811397237 A CN 201811397237A CN 109492124 A CN109492124 A CN 109492124A
Authority
CN
China
Prior art keywords
feature
video
measured
coupling
live streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811397237.2A
Other languages
English (en)
Other versions
CN109492124B (zh
Inventor
张菁
王立元
李晨豪
张辉
李嘉锋
卓力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811397237.2A priority Critical patent/CN109492124B/zh
Publication of CN109492124A publication Critical patent/CN109492124A/zh
Application granted granted Critical
Publication of CN109492124B publication Critical patent/CN109492124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本申请实施例提供一种选择性注意线索指导的不良主播检测方法、装置及电子设备,该方法包括:获取待测直播音视频;基于所述待测直播音视频生成第二耦合特征;计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与所述第一耦合特征相同的方式生成;将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型,并输出。由此,可靠地检测出直播音视频的类型。

Description

选择性注意线索指导的不良主播检测方法、装置及电子设备
技术领域
本申请涉及直播技术领域,具体而言,涉及一种选择性注意线索指导 的不良主播检测方法、装置及电子设备。
背景技术
随着互联网技术的飞速发展,直播受到了越来越多人的喜好,越来越 频繁的出现在大众的生活中。然而,随着直播的受众群体越来越庞大,直 播类型也多种多样,且不同类型的直播其内容相差甚远。因而,对直播音 视频进行监控和管理越来越有必要。
发明内容
有鉴于此,本申请实施例提供了一种选择性注意线索指导的不良主播 检测方法、装置及电子设备,通过对直播音视频进行分类,所分的类型包 括不良类型。通过检测直播音视频是否为不良类型的直播音视频,进一步 将发出不良类型直播音视频的主播判定为与各不良类型对应的不良主播。
第一方面,本申请实施例提供了一种选择性注意线索指导的不良主播 检测方法,所述方法包括:
获取待测直播音视频。
基于所述待测直播音视频生成第二耦合特征。
计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合 特征之间的汉明距离。其中,所述第二耦合特征采用与所述第一耦合特征 相同的方式生成。
将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所 对应的影音数据的类型判定为所述待测直播音视频的类型,并输出。
可选地,在本申请实施例中,所述第一耦合特征通过以下步骤生成:
针对预存的每种类型的影音数据,采用设定的直播检测模型的第一子 网络对该类型的影音数据进行特征提取,以获取与该类型的影音数据对应 的第一子特征。
采用所述直播检测模型的第二子网络对该类型的影音数据进行特征 提取,以获取与该类型的影音数据对应的第二子特征。
采用所述直播检测模型的第三子网络对该类型的影音数据进行特征 提取,以获取与该类型的影音数据对应的第三子特征。
对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所 述第三子特征进行特征耦合处理,以生成第一耦合特征。
所述第二耦合特征通过以下步骤生成:
将所述待测直播音视频输入到所述直播检测模型。
采用所述第一子网络对所述待测直播音视进行特征提取,以获取第一 待测特征。
采用所述第二子网络对所述待测直播音视进行特征提取,以获取第二 待测特征。
采用所述第三子网络对所述待测直播音视进行特征提取,以获取第三 待测特征。
对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特 征耦合处理,以生成第二耦合特征。
可选地,在本申请实施例中,对同一类型的影音数据对应的所述第一 子特征、所述第二子特征和所述第三子特征进行特征耦合处理的步骤,包 括:
采用所述直播检测模型的注意力机制,对同一类型的影音数据对应的 所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理。
对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特 征耦合处理的步骤,包括:
采用所述直播检测模型的注意力机制,对所述第一待测特征、所述第 二待测特征和所述第三待测特征进行特征耦合处理。
可选地,在本申请实施例中,采用所述直播检测模型的注意力机制, 对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第 三子特征进行特征耦合处理的步骤,包括:
采用所述直播检测模型的注意力机制,基于同一类型的影音数据对应 的所述第一子特征生成第一注意力线索,基于同一类型的影音数据对应的 所述第二子特征生成第二注意力线索,基于同一类型的影音数据对应的所 述第三子特征生成第三注意力线索。
基于所述第一注意力线索、所述第二注意力线索以及所述第三注意力 线索进行特征耦合。
采用所述直播检测模型的注意力机制,对所述第一待测特征、所述第 二待测特征和所述第三待测特征进行特征耦合处理的步骤,包括:
基于所述第一注意力线索、所述第二注意力线索以及所述第三注意力 线索进行特征耦合。
可选地,在本申请实施例中,在生成第一耦合特征之后,所述方法还 包括:对不同类型的影音数据对应的第一耦合特征进行运算,将运算后的 各第一耦合特征进行存储以得到哈希特征库。
计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合 特征之间的汉明距离的步骤,包括:
获取所述哈希特征库中运算后的各第一耦合特征。
对所述第二耦合特征进行运算,获得运算后的第二耦合特征,对所述 第二耦合特征进行的运算与对所述第一耦合特征进行的运算一致。
计算运算后的第二耦合特征与运算后的各第一耦合特征之间的汉明 距离,以获得所述第二耦合特征与各第一耦合特征之间的汉明距离。
可选地,在本申请实施例中,所述第一子特征和所述第一待测特征为 视频特征,所述第二子特征和所述第二待测特征为音频特征,所述第三子 特征和所述第三待测特征为文本特征。
第二方面,本申请实施例还提供了一种选择性注意线索指导的不良主 播检测装置,应用于电子设备,所述选择性注意线索指导的不良主播检测 装置包括:
处理模块,用于获取待测直播音视频,并基于所述待测直播音视频生 成第二耦合特征。
第一执行模块,用于计算所述第二耦合特征与预存的各类型的影音数 据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与 所述第一耦合特征相同的方式生成。
第二执行模块,用于将与所述第二耦合特征的汉明距离小于预设阈值 的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的 类型,并输出。
可选地,在本申请实施例中,所述处理模块通过以下步骤生成所述第 一耦合特征。
针对预存的每种类型的影音数据,采用设定的直播检测模型的第一子 网络对该类型的影音数据进行特征提取,以获取与该类型的影音数据对应 的第一子特征。
采用所述直播检测模型的第二子网络对该类型的影音数据进行特征 提取,以获取与该类型的影音数据对应的第二子特征。
采用所述直播检测模型的第三子网络对该类型的影音数据进行特征 提取,以获取与该类型的影音数据对应的第三子特征。
对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所 述第三子特征进行特征耦合处理,以生成第一耦合特征。
所述处理模块通过以下步骤生成所述第二耦合特征:
将所述待测直播音视频输入到所述直播检测模型。
采用所述第一子网络对所述待测直播音视进行特征提取,以获取第一 待测特征。
采用所述第二子网络对所述待测直播音视进行特征提取,以获取第二 待测特征。
采用所述第三子网络对所述待测直播音视进行特征提取,以获取第三 待测特征。
对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特 征耦合处理,以生成第二耦合特征。
第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括:
存储器;
处理器;以及
选择性注意线索指导的不良主播检测装置,所述装置存储于所述存储 器中并包括由所述处理器执行的软件功能模块,所述装置包括:
处理模块,用于获取待测直播音视频,并基于所述待测直播音视频生 成第二耦合特征。
第一执行模块,用于计算所述第二耦合特征与预存的各类型的影音数 据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与 所述第一耦合特征相同的方式生成。
第二执行模块,用于将与所述第二耦合特征的汉明距离小于预设阈值 的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的 类型,并输出。
第四方面,本申请实施例还提供了一种可读存储介质,所述可读存储 介质中存储有计算机程序,所述计算机程序被执行时实现上述选择性注意 线索指导的不良主播检测方法。
本申请实施例提供的选择性注意线索指导的不良主播检测方法、装置 及电子设备,通过获取待测直播音视频,基于所述待测直播音视频生成第 二耦合特征。计算所述第二耦合特征与预存的各类型的影音数据对应的第 一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与所述第一耦 合特征相同的方式生成。将与所述第二耦合特征的汉明距离小于预设阈值 的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的 类型,并输出。由此,更为准确、可靠地判定并输出待测直播音视频的类 型,以便监管者对直播音视频进行监控和管理。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附 图。
图1为本申请实施例提供的一种选择性注意线索指导的不良主播检 测方法的流程示意图。
图2为本申请实施例提供的另一种选择性注意线索指导的不良主播 检测方法的流程示意图。
图3为本申请实施例提供的又一种选择性注意线索指导的不良主播 检测方法的流程示意图。
图4为本申请实施例提供的再一种选择性注意线索指导的不良主播 检测方法的流程示意图。
图5为本申请实施例提供的用于实现上述选择性注意线索指导的不 良主播检测方法的一种电子设备的方框示意图。
图标:100-电子设备;110-存储器;120-处理器;200-选择性注意线 索指导的不良主播检测装置;210-处理模块;220-第一执行模块;220-第 二执行模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进 行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而 不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件 可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限 制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本 申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其它实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释。
随着互联网技术的飞速发展,直播受到了越来越多人的喜好,网络直 播迅速成为人们常使用的互联网应用之一。另一方面,由于各个直播平台 竞争激烈,直播类型越来越丰富,部分用户通过传播含有不良信息的直播 音视频来增加平台收视率。并且,这些不良信息呈现出时间短、内容多样、 隐蔽性高等特点,增加了对这些信息进行甄别的难度。
传统的对不良信息检测方法主要是提取图像的肤色、纹理、敏感器官 等特征与分类器相结合进行图像、视频的识别和过滤。尽管传统方法在网 络敏感内容识别上取得了不错的结果,但是面对网络直播这种新型媒体, 特别是持续时间短、内容隐晦且复杂的不良信息进行识别,其准确性和鲁 棒性急剧下降,实时性也难以满足处理需求。
部分直播检测方法利用深度学习网络在图像的检测和识别领域取得 了成果。深度网络可以提取图像中具有更强表达能力的深度特征,同时可 以对音频,文本等内容进行有效的处理。但是,网络直播视频具有拍摄场 景复杂、主播不良行为多变等特点,采用深度学习技术处理网络直播视频 时,鲁棒性、准确性、实时性仍难以尽如人意。亟需针对网络视频直播的 具体特点和需求,设计新的不良直播检测处理架构和策略。
针对上述问题,本申请实施例提供了一种选择性注意线索指导的不良 主播检测方法、装置及电子设备。本申请实施例提供的检测方法、装置及 电子设备,通过对直播音视频进行分类,所分的类型包括不良类型。检测 直播音视频是否为不良类型的直播音视频,进而将发出该不良类型的直播 音视频的主播判定为对应的不良主播,以实现对不良主播的检测。
请结合参阅图1,为本申请实施例提供的一种选择性注意线索指导的 不良主播检测方法的流程示意图,所应说明的是,本申请实施例提供的视 频特征学习方法不以图1及以下所述的具体顺序为限制。所述方法可以通 过如下步骤实现:
为了实现本申请,本申请实施例提供了一种选择性注意线索指导的不 良主播检测模型,该直播检测模型包括多个子网络。
步骤S10,获取待测直播音视频。
步骤S20,基于所述待测直播音视频生成第二耦合特征。
请结合参阅图2和图3,作为一种可实施方式,步骤S20可通过以下 方式实现。
步骤S201,将所述待测直播音视频输入到所述直播检测模型。
步骤S202,采用所述第一子网络对所述待测直播音视进行特征提取, 以获取第一待测特征。
步骤S203,采用所述第二子网络对所述待测直播音视进行特征提取, 以获取第二待测特征。
步骤S204,采用所述第三子网络对所述待测直播音视进行特征提取, 以获取第三待测特征。
步骤S205,对所述第一待测特征、所述第二待测特征和所述第三待 测特征进行特征耦合处理,以生成第二耦合特征。
详细地,生成第二耦合特征所用的直播检测模型为已经完成训练的。 进一步地,在生成所述第二耦合特征之前,所述直播检测模型中已经存储 有第一耦合特征,且所述第二耦合特征采用与所述第一耦合特征相同的方 式生成。
步骤S30,计算所述第二耦合特征与预存的各类型的影音数据对应的 第一耦合特征之间的汉明距离。
作为一种可实施方式,所述第二耦合特征通过以下步骤生成:
步骤S301,针对预存的每种类型的影音数据,采用设定的直播检测 模型的第一子网络对该类型的影音数据进行特征提取,以获取与该类型的 影音数据对应的第一子特征。
进一步地,本申请实施例提供了多个直播的影音数据,并从视频中提 取出多种子特征分别进行保存。其中,影音数据包括了不同着装、不同场 景、不同性别、不同成像质量的影音数据,且含有不良信息的直播约占总 影音数据中的一半,以达到充分训练该直播检测模型的目的。
可选地,本申请实施例提供的所述第一子网络为基卷积神经网络(Convolutional Neural Network,CNN)和长短期记忆模型(Long-Short Term Memory,LSTM)的特征提取子网络,使用Tensor flow实现,包括 一个基于CNN的Inception层,一个池化层,两个LSTM层,一个全连接 层。输入影音数据S后,首先经过Inception网络提取深度第一子特征vi, 之后将得到的特征vi输入池化层降低特征维度,得到vi'。池化层采用最大值池化(Max Pooling),窗口大小为3×3。之后将第一子特征vi'输入LSTM 层捕捉时序信息,最后利用全连接层得到视觉深度特征。Inception层使用 Inception_V3网络,这是一个被广泛使用的CNN网络,深度达到46层, 基于Image Net数据集训练,其中使用小卷积核代替大卷积核,表达能力 没有减弱,但是参数量却大大减少。LSTM是一种循环神经网络模型,在 梯度消失问题面前有着良好的表现,其提出的细胞机制,可以有效的保存 长期记忆数据,并且由控制门来选择那些信息需要被保存。控制门有三种, 分别是输入门、输出门、遗忘门,主要是利用sigmoid函数和点乘操作来 进行控制。两个LSTM层结构相同,时间步数为16,学习率为0.001,单 元大小为256,LSTM层基于自循环的思想,可以缓解梯度消失问题,并 捕捉时序信息。LSTM细胞状态单元计算公式如下:
其中,代表t时刻、细胞c的状态单元,j代表循环累加次数,σ代 表sigmoid函数,它将权重投影到(0,1)之间。xt当前输入向量,ht-1表 示所有LSTM细胞的输出。
LSTM细胞的遗忘门的计算公式如下:
其中,表示遗忘门,分别代表对应偏置、输入权重 和遗忘门循环权重。
LSTM细胞的输入门的计算公式如下:
其中,分别代表对应偏置、输入权重和遗忘门循环权 重。
LSTM细胞的输出的计算公式如下:
其中,为输出门,可以控制细胞输出。输出门的计算公式如下:
分别表示偏置、输入权重和遗忘门循环权重。
LSTM层与带有sigmoid函数的全连接层相连接,输出第一子特征v, 所述第一子特征v可为但不限于300维向量。
步骤S302,采用所述直播检测模型的第二子网络对该类型的影音数 据进行特征提取,以获取与该类型的影音数据对应的第二子特征。
可选地,在本实施例中,将对第二子特征进行采样的采样频率调整为 16kHz,使用25ms的帧长、15ms的帧移对其进行分帧,使用汉明窗函数 处理分帧结果,使帧与帧之间更加平滑,汉明窗函数公式如下:
其中,时间窗t的范围为(0,T),T为采样周期。
对处理后所得的结果做傅里叶变换,从而得到声谱图。将声谱映射到 64阶梅尔滤波器中得到梅尔声谱并组帧,得到最终的第二样本ad。将理 后的第二样本ad将输入第二子网络提取特征,第二子网络对第二样本ad进行处理,输出第二子特征a,所述第二子特征a可为但不限于300维向 量。
进一步地,本申请实施例提供的第二子网络为VGGish网络。
步骤S303,采用所述直播检测模型的第三子网络对该类型的影音数 据进行特征提取,以获取与该类型的影音数据对应的第三子特征。
从所述影音数据中提取第三样本n,利用word2Vec模型将第三样本n 进行预处理得到n'。将预处理得到的n'输入到第三子网络,经过第三子网 络处理后得到第三子特征t,所述第三子特征t可为但不限于300维向量。
可选地,本申请实施例提供的第三子网络包括两个卷积层,一个池化 层和一个全连接层。其中,第三子网络的卷积核大小可以是但不限于3, 5和8,优选为3。第三子网络的特征图可以是但不限于20。池化层采用 最大值池化,窗口大小为2。全连接层包括300个神经元,并使用线性整 流函数(Rectified Linear Unit,ReLU)作为激活函数。
步骤S304,对同一类型的影音数据对应的所述第一子特征、所述第 二子特征和所述第三子特征进行特征耦合处理,以生成第一耦合特征。
请结合参阅图4,作为一种可实施方式,对同一类型的影音数据对应 的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处 理,以生成第一耦合特征,可以通过以下方式实现:
步骤S3041,采用所述直播检测模型的注意力机制,基于同一类型的 影音数据对应的所述第一子特征生成第一注意力线索。
详细地,所述影音数据包括多段影音视频,每一段影音视频包括N 帧,可以根据每一个帧获得一个对应的第一子特征v向量。
在本申请实施例中,第一注意力线索的生成可通过以下方式实现:
对所述第一子特征v进行转置并与所述直播检测模型的神经网络参 数w求内积,再将内积后的结果与所述直播检测模型超参数a进行乘积, 然后将乘积后的结果输入到归一化指数函数(softmax函数),求出不同 帧对应的权值θ,计算函数如下式所示:
θ=softnlax(α·wvT)
应当说明的是,在所述直播检测模型进行运算和处理的过程中,神经 网络参数w和超参数a将不断进行调整,以获得性能最优的直播检测模 型。
将N个v向量合并,组成一个矩阵x,用所述矩阵x来表征该段影音 视频。对矩阵x和与组成所述矩阵x的各帧对应的权值θ进行如下列式子 的计算:
其中,a和b是神经网络可学习标量参数,获得的at为所求的第一线 索向量,且为维向量。将每段影音视频的N帧均进行上述计算,得到N 个第一线索向量,将N个第一线索向量构建获得第一线索矩阵A,矩阵A 进行连接进而转化为向量,再将连接得到的向量进行正则化,得到第一注 意力线索vn
步骤S3042,采用所述直播检测模型的注意力机制,基于同一类型的 影音数据对应的所述第二子特征生成第二注意力线索。
其中,所述第二注意力线索an的生成方式,与上述第一注意力线索 vn生成的方式一致。
步骤S3043,采用所述直播检测模型的注意力机制,基于同一类型的 影音数据对应的所述第三子特征生成第三注意力线索。
其中,所述第三注意力线索tn的生成方式,与上述第一注意力线索 vn生成的方式一致
步骤S3044,基于所述第一注意力线索、所述第二注意力线索以及所 述第三注意力线索进行特征耦合。
在本申请实施例中,步骤S3044可通过以下方式实现:
对所述第一注意力线索vn、所述第二注意力线索an以及所述第三注 意力线索tn进行元素积,获得第一耦合特征l。计算公式如下:
l=aR⊙vn⊙tn
可选地,所述第一耦合特征还可以通过以下方式生成:
根据所述第一子特征v、所述第二子特征a和所述第三子特征t映射 得到第一耦合特征l,映射公式如下:
l=[v;a;t]
其中,v代表视觉深度特征,a代表音频深度特征,t代表文本深度特 征。
应当说明的是,当所述第一耦合特征通过映射得到时,所述第二耦合 特征也通过同样的映射方式生成。
在本申请实施例中,获得第一耦合特征之后,所述方法还包括,利用 所述直播检测模型对所述第一耦合特征进行分类处理,可通过如下方式实 现:
对预存的直播音视频进行预处理,获得数据集,所述数据集包括多个 不同类型的数据样本;
将所述第一耦合特征输入所述直播检测模型的输出端,求损失函数, 函数公式如下:
其中,loss为所求的损失,C代表数据集的类型数,N代表每个类型 下数据样本的数量,yi,j为数据集中第j类型的第i个样本,为与yi,j对应的分类预测值。
对所述直播检测模型进行训练,直到计算得到的loss数值最小时,记 录此时的与yi,j对应的分类预测值将与设定值的误差小于预设阈值的 各对应的第一耦合特征划分到同一类型,从而获得不同类型的影音数 据,并将所述影音数据存储于所述直播检测模型。
进一步地,对所述第二耦合特征也将进行相同的分类处理。
详细地,在本申请实施例中,数据集的类型可包括但不限于色情低俗、 暴力惊悚、封建迷信和其他,进一步检测出的直播音视频的类型也可包括 但不限于色情低俗、暴力惊悚、封建迷信和其他,再进一步地判定发出各 类型的直播音视频的各主播为对应的主播并输出,以实现对不良主播的检 测。
进一步地,在本实施例中,计算所述第二耦合特征与预存的各类型的 影音数据对应的第一耦合特征之间的汉明距离,通过以下方式实现:
使用激活函数sigmoid将上述处理后的第一耦合特征l投影到0和1 之间,得到二值化激活值进行哈希运算得到lhash,运算公式如下:
对计算得到的lhash进行如下列公式所示的哈希编码处理,并将处理后 得到的yr进行存储以得到哈希特征库。
yr=sgn(σ(Wr*xr+br))
其中,xr为哈希编码输入,hr为哈希编码层的激活值,yr为最终哈希 编码结果,sgn(.)和σ(.)分别是阶跃函数和Sigmoid函数,g(.)为惩罚函数, t(.)、r(.)、o(.)分别为所述直播检测模型的参数hr、Wr、br的正则项,α、 β、η为所述直播检测模型编码过程中的超参数。
进一步的,对所述第二耦合特征,也将进行相同的映射处理和相同的 哈希编码处理,以获得与所述第二耦合特征对应的哈希编码结果。
对第一耦合特征的哈希编码结果和第二耦合特征的哈希编码结果进 行异或计算,异或计算得到的结果为所求的汉明距离。
步骤S40,将与所述第二耦合特征的汉明距离小于预设阈值的第一耦 合特征所对应的影音数据的类型判定为所述待测直播音视频的类型,并输 出。
请结合参阅图5,为本申请实施例提供的用于实现上述选择性注意线 索指导的不良主播检测方法的电子设备100的方框示意图。在本实施例 中,所述电子设备100可以是,但不限于,智能手机、个人电脑(Personal Computer,PC)、笔记本电脑、监控设备、服务器等具备直播检测及处 理能力的计算机设备。
所述电子设备100还包括选择性注意线索指导的不良主播检测装置 200、存储器110以及处理器120。本申请实施例中,选择性注意线索指 导的不良主播检测装置200包括至少一个可以软件或固件(Firmware)的 形式存储于所述存储器110中或固化在所述电子设备100的操作系统 (Operating System,OS)中的软件功能模块。所述处理器120用于执行所述存储器110中存储的可执行软件模块,例如,所述选择性注意线索指 导的不良主播检测装置200所包括的软件功能模块及计算机程序等。本实 施例中,所述选择性注意线索指导的不良主播检测装置200也可以集成于 所述操作系统中,作为所述操作系统的一部分。具体地,所述选择性注意 线索指导的不良主播检测装置200包括:
处理模块210,用于获取待测直播音视频,并基于所述待测直播音视 频生成第二耦合特征。
第一执行模块220,用于计算所述第二耦合特征与预存的各类型的影 音数据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采 用与所述第一耦合特征相同的方式生成。
第二执行模块220,用于将与所述第二耦合特征的汉明距离小于预设 阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视 频的类型,并输出。
可以理解的是,本实施例中的各功能模块的具体操作方法可参照上述 方法实施例中相应步骤的详细描述,在此不再重复赘述。
综上所述,本申请实施例提供一种选择性注意线索指导的不良主播检 测方法、装置及电子设备,通过获取待测直播音视频,基于所述待测直播 音视频生成第二耦合特征。计算所述第二耦合特征与预存的各类型的影音 数据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用 与所述第一耦合特征相同的方式生成。将与所述第二耦合特征的汉明距离 小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测 直播音视频的类型,并输出。由此,能够更为准确、可靠地判定并输出待 测直播音视频的类型,进而判定发出各类型的直播音视频的各主播为对应 的主播并输出,以实现检测目的。以便监管者对含有不良信息的直播音视 频进行监控和管理,通用性较强,降低资源和成本消耗,并且可以适应于 广泛的视频场景。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也 可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性 的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上, 流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分, 所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所 标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的 方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这 依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、 以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的 专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合 来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它 变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、 物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素, 或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更 多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括 所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细 节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体 形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性 的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限 定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括 在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要 求。

Claims (10)

1.一种选择性注意线索指导的不良主播检测方法,其特征在于,包括:
获取待测直播音视频;
基于所述待测直播音视频生成第二耦合特征;
计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与所述第一耦合特征相同的方式生成;
将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型,并输出。
2.根据权利要求1所述的选择性注意线索指导的不良主播检测方法,其特征在于,
所述第一耦合特征通过以下步骤生成:
针对预存的每种类型的影音数据,采用设定的直播检测模型的第一子网络对该类型的影音数据进行特征提取,
以获取与该类型的影音数据对应的第一子特征;
采用所述直播检测模型的第二子网络对该类型的影音数据进行特征提取,以获取与该类型的影音数据对应的第二子特征;以及
采用所述直播检测模型的第三子网络对该类型的影音数据进行特征提取,以获取与该类型的影音数据对应的第三子特征;
对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理,以生成第一耦合特征;
所述第二耦合特征通过以下步骤生成:
将所述待测直播音视频输入到所述直播检测模型;
采用所述第一子网络对所述待测直播音视进行特征提取,以获取第一待测特征;
采用所述第二子网络对所述待测直播音视进行特征提取,以获取第二待测特征;以及
采用所述第三子网络对所述待测直播音视进行特征提取,以获取第三待测特征;
对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理,以生成第二耦合特征。
3.根据权利要求2所述的选择性注意线索指导的不良主播检测方法,其特征在于,
对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理的步骤,包括:
采用所述直播检测模型的注意力机制,对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理;
对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理的步骤,包括:
采用所述直播检测模型的注意力机制,对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理。
4.根据权利要求3所述的选择性注意线索指导的不良主播检测方法,其特征在于,
采用所述直播检测模型的注意力机制,对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理的步骤,包括:
采用所述直播检测模型的注意力机制,基于同一类型的影音数据对应的所述第一子特征生成第一注意力线索,基于同一类型的影音数据对应的所述第二子特征生成第二注意力线索,基于同一类型的影音数据对应的所述第三子特征生成第三注意力线索;
基于所述第一注意力线索、所述第二注意力线索以及所述第三注意力线索进行特征耦合;
采用所述直播检测模型的注意力机制,对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理的步骤,包括:
基于所述第一注意力线索、所述第二注意力线索以及所述第三注意力线索进行特征耦合。
5.根据权利要求2所述的选择性注意线索指导的不良主播检测方法,其特征在于,
在生成第一耦合特征之后,所述方法还包括:对不同类型的影音数据对应的第一耦合特征进行运算,将运算后的各第一耦合特征进行存储以得到哈希特征库;
计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离的步骤,包括:
获取所述哈希特征库中运算后的各第一耦合特征;
对所述第二耦合特征进行运算,获得运算后的第二耦合特征,对所述第二耦合特征进行的运算与对所述第一耦合特征进行的运算一致;
计算运算后的第二耦合特征与运算后的各第一耦合特征之间的汉明距离,以获得所述第二耦合特征与各第一耦合特征之间的汉明距离。
6.根据权利要求2所述的选择性注意线索指导的不良主播检测方法,其特征在于,所述第一子特征和所述第一待测特征为视频特征,所述第二子特征和所述第二待测特征为音频特征,所述第三子特征和所述第三待测特征为文本特征。
7.一种选择性注意线索指导的不良主播检测装置,应用于电子设备,其特征在于,所述选择性注意线索指导的不良主播检测装置包括:
处理模块,用于获取待测直播音视频,并基于所述待测直播音视频生成第二耦合特征;
第一执行模块,用于计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与所述第一耦合特征相同的方式生成;
第二执行模块,用于将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型,并输出。
8.根据权利要求7所述的选择性注意线索指导的不良主播检测装置,其特征在于,
所述处理模块通过以下步骤生成所述第一耦合特征:
针对预存的每种类型的影音数据,采用设定的直播检测模型的第一子网络对该类型的影音数据进行特征提取,以获取与该类型的影音数据对应的第一子特征;
采用所述直播检测模型的第二子网络对该类型的影音数据进行特征提取,以获取与该类型的影音数据对应的第二子特征;以及
采用所述直播检测模型的第三子网络对该类型的影音数据进行特征提取,以获取与该类型的影音数据对应的第三子特征;
对同一类型的影音数据对应的所述第一子特征、所述第二子特征和所述第三子特征进行特征耦合处理,以生成第一耦合特征;
所述处理模块通过以下步骤生成所述第二耦合特征:
将所述待测直播音视频输入到所述直播检测模型;
采用所述第一子网络对所述待测直播音视进行特征提取,以获取第一待测特征;
采用所述第二子网络对所述待测直播音视进行特征提取,以获取第二待测特征;以及
采用所述第三子网络对所述待测直播音视进行特征提取,以获取第三待测特征;
对所述第一待测特征、所述第二待测特征和所述第三待测特征进行特征耦合处理,以生成第二耦合特征。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器;
处理器;以及
选择性注意线索指导的不良主播检测装置,所述装置存储于所述存储器中并包括由所述处理器执行的软件功能模块,所述装置包括:
处理模块,用于获取待测直播音视频,并基于所述待测直播音视频生成第二耦合特征;
第一执行模块,用于计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与所述第一耦合特征相同的方式生成;
第二执行模块,用于将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型,并输出。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-6中任意一项所述的选择性注意线索指导的不良主播检测方法。
CN201811397237.2A 2018-11-22 2018-11-22 选择性注意线索指导的不良主播检测方法、装置及电子设备 Active CN109492124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811397237.2A CN109492124B (zh) 2018-11-22 2018-11-22 选择性注意线索指导的不良主播检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811397237.2A CN109492124B (zh) 2018-11-22 2018-11-22 选择性注意线索指导的不良主播检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109492124A true CN109492124A (zh) 2019-03-19
CN109492124B CN109492124B (zh) 2022-03-25

Family

ID=65697384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811397237.2A Active CN109492124B (zh) 2018-11-22 2018-11-22 选择性注意线索指导的不良主播检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109492124B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659390A (zh) * 2019-07-30 2020-01-07 广东工业大学 一种基于深度卷积网络的视频内容检索方法
CN111428032A (zh) * 2020-03-20 2020-07-17 北京小米松果电子有限公司 内容质量评价方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217211A (zh) * 2014-08-07 2014-12-17 哈尔滨工程大学 基于最优判别耦合投影的多视角步态识别方法
WO2015067203A1 (zh) * 2013-11-07 2015-05-14 华为终端有限公司 语音通话的建立方法和装置
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106897667A (zh) * 2017-01-17 2017-06-27 桂林电子科技大学 一种人脸检索方法和系统
CN107027047A (zh) * 2017-05-16 2017-08-08 武汉斗鱼网络科技有限公司 视频直播监控方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015067203A1 (zh) * 2013-11-07 2015-05-14 华为终端有限公司 语音通话的建立方法和装置
CN104217211A (zh) * 2014-08-07 2014-12-17 哈尔滨工程大学 基于最优判别耦合投影的多视角步态识别方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106897667A (zh) * 2017-01-17 2017-06-27 桂林电子科技大学 一种人脸检索方法和系统
CN107027047A (zh) * 2017-05-16 2017-08-08 武汉斗鱼网络科技有限公司 视频直播监控方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659390A (zh) * 2019-07-30 2020-01-07 广东工业大学 一种基于深度卷积网络的视频内容检索方法
CN111428032A (zh) * 2020-03-20 2020-07-17 北京小米松果电子有限公司 内容质量评价方法及装置、电子设备、存储介质
CN111428032B (zh) * 2020-03-20 2024-03-29 北京小米松果电子有限公司 内容质量评价方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN109492124B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
Pandey et al. Deep learning techniques for speech emotion recognition: A review
Li et al. Unified spatio-temporal attention networks for action recognition in videos
Baveye et al. Deep learning vs. kernel methods: Performance for emotion prediction in videos
Ortega et al. Multimodal fusion with deep neural networks for audio-video emotion recognition
CN111294646B (zh) 一种视频处理方法、装置、设备及存储介质
Chen et al. Building occupancy estimation with environmental sensors via CDBLSTM
Afshar et al. Investigation of event-based surfaces for high-speed detection, unsupervised feature extraction, and object recognition
CN111738243A (zh) 人脸图像的选择方法、装置、设备及存储介质
CN113239914B (zh) 课堂学生表情识别及课堂状态评估方法、装置
Xue et al. Attention‐based spatial–temporal hierarchical ConvLSTM network for action recognition in videos
CN110210540A (zh) 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN109492124A (zh) 选择性注意线索指导的不良主播检测方法、装置及电子设备
Lu Multifeature fusion human motion behavior recognition algorithm using deep reinforcement learning
Tang et al. Transound: Hyper-head attention transformer for birds sound recognition
Tian et al. Multi‐cue combination network for action‐based video classification
Khan et al. Advanced sequence learning approaches for emotion recognition using speech signals
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
Bodini Sound classification and localization in service robots with attention mechanisms
Garg et al. A roadmap to deep learning: a state-of-the-art step towards machine learning
Segarceanu et al. Environmental acoustics modelling techniques for forest monitoring
Wang et al. A recursive ensemble learning approach with noisy labels or unlabeled data
Zhengfeng Accurate recognition method of continuous sports action based on deep learning algorithm
Kamada et al. A Video Recognition Method by using Adaptive Structural Learning of Long Short Term Memory based Deep Belief Network
Inoue et al. q-Gaussian mixture models for image and video semantic indexing
Zhao Research on athlete behavior recognition technology in sports teaching video based on deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant