CN111818356A

CN111818356A - 一种基于场景识别的高危作业直播中断的智能方法

Info

Publication number: CN111818356A
Application number: CN202010665812.3A
Authority: CN
Inventors: 沈之锐; 曹纯
Original assignee: Shaoguan Qizhi Information Technology Co ltd
Current assignee: Shaoguan Qizhi Information Technology Co ltd
Priority date: 2020-07-12
Filing date: 2020-07-12
Publication date: 2020-10-23

Abstract

本发明涉及一种基于场景识别的高危作业直播中断的智能方法，利用直播时的摄像机和收音设备对直播时的现场场景信息进行采集，利用直播网络将场景信息实时传输至直播应用程序后台的分析服务器，利用深度学习目标检测模型和声音识别模型，对获得的场景信息进进行识别，进而获取图像中包含的对象和声音中包含的信息，利用分类器对当前场景是否适宜直播进行判断，若当前直播为高危作业直播，即场景不适宜直播，则利用关键词检索确定当前直播是否提前向有关部门报备且通过审查，若高危作业直播并未报备或未通过审查，则分析服务器发出中断指令，进而中断直播。

Description

一种基于场景识别的高危作业直播中断的智能方法

技术领域

本发明涉及直播管理系统技术领域，尤其涉及一种基于场景识别的高危作业直播中断的智能方法。

背景技术

近年来，网络直播行业蓬勃发展，直播平台越来越多，主播队伍不断壮大，各年龄层的直播观众增长显著。依托于网页或者客户端技术的支持，主播可以基于视频直播技术在网络平台上进行表演、创作和自由展示，同时主播与用户之间也可以进行互动打赏等活动。

然而，现有的直播平台参差不齐，同时在直播行业的发展中也暴露出各种问题，例如：直播用户认证随意，低素质直播用户频现；审核粗略，不宜直播的内容仍有播出等等。因此，为了确保直播质量，需要对具有不良影响和引导性的直播及时叫停或切断。

现有直播平台通过增加人手进行直播审核，这种方法增加了成本开销。中国专利CN201710637551.2公开了一种直播暂停方法，但该方法是由主播发出暂停请求，而非在直播过程中由后台叫停，即无法在直播过程中引入审核。目前尚无专门的根据直播过程审核结果，在直播过程中实时中断的方法，因此，针对直播过程进行实时审查，进而实现对高危作业直播的及时中断，是亟待解决的技术问题。

发明内容

有鉴于此，本发明提供一种基于场景识别的高危作业直播中断的智能方法，旨在实现直播过程中的审查和高危作业直播的中断。

为了实现上述目的，本发明提供了一种基于场景识别的高危作业直播中断的智能方法，针对直播现场的环境进行识别和监管，及时中断具有危险性或不良引导性的在高危作业的同时进行直播，其包括

场景信息采集：在主播直播过程中，利用传感器采集主播的直播现场信息；

场景信息传输：传感器采集到的信息传输到直播应用程序的后台分析服务器；

场景信息识别：在分析服务器上，对主播直播的场景进行识别；

直播中断判别：依据场景识别结果，判断当前场景是否为高危作业直播，若是高危作业直播，则输出当前场景不适宜直播的结果；

直播备案检索：若当前直播为高危作业直播，则在直播应用程序的数据库检索当前直播是否已向有关部门备案，且通过审查，若当前直播未向有关部门备案，或未能通过有关部门审查，则后台将发出中断指令，进而中断当前直播，反之则直播继续；

其中，方案中所述的场景信息采集，是利用传感器获得直播现场的场景信息；场景信息采集的方法包括：

1）利用直播摄像头采集直播现场的图像信息；

2）利用直播收音设备采集直播现场的声音信息；

具体地，在直播时，主播可事先利用摄像头专门拍摄直播场景的图像，也可在直播时，对主播进行拍摄时将周围场景拍入镜头中；

类似地，在直播时，主播可事先利用收音设备专门录制直播场景的声音，也可在直播时，对主播进行收音时将周围声音收录到收音设备中；

其中，方案中所述的场景信息传输，用于将传感器采集到的直播场景信息，传输到直播应用平台的后台分析服务器；

具体地，场景信息利用直播网络进行传输；

进一步地，场景信息可以在直播过程中进行实时传输；

较佳地，场景信息传输速率取决于直播网络速率；

其中，方案中所述的场景信息识别，是根据传输得到的场景信息，在分析服务器上，利用深度学习模型，对直播的场景进行识别；

所述的场景信息识别包括：

1）利用目标检测模型对摄像头采集到的图像进行分析；

2）利用声音识别模型对收音设备采集到的声音进行分析；

进一步地，所述的目标检测模型的工作原理为：

1）利用现场摄像机拍摄的主播视角下的直播场景图像，制作成图像样本，图像样本中的检测对象包括人员、话筒、背景等所有可能出现在直播现场的物体；

2）对图像样本中包含的对象进行标注，并制作成为检测样本；

3）利用检测样本训练目标检测模型，进而得到目标检测器；

4）训练后的目标检测器可用于对摄像头拍摄的视频中包含的对象进行检测；

具体地，目标检测器可采用逐帧或跳帧的方式检测图像中的对象；

进一步地，所述的声音识别模型的工作原理为：

1）采集直播现场场景的声音信息，声音信息中包括人说话的声音、设备启动声音、背景声音等所有可能出现在直播现场的声音信息；

2）对现场收录到的声音信息进行分离和标注，并制作成为音频样本；

3）利用音频样本对声音识别模型进行训练，进而得到音频识别器；

4）训练后的音频识别器可用于对收音设备实时采集的声音中包含的内容进行识别；

具体地，音频识别器可采用逐帧或跳帧的方式识别声音信息中的内容；

其中，方案中所述的直播中断判别，是利用目标检测器和音频识别器的识别结果，判断当前直播场景是否不适宜直播，若不适宜直播，则后台发出中断直播的指令；

具体地，目标检测器和音频识别器的识别结果输入到分类器中，对当前主播的直播场景进行分类；

较佳地，分类器输出结果包含两种，即适宜直播和不适宜直播；

依据分类结果，若主播正在从事需要注意力高度集中的工作（如驾驶车辆）或具有较高危险性的特种作业（如高空玻璃清洁），则为高危作业直播，此时的场景不适宜直播，分类器输出不适宜直播；

其中，方案中所述的直播备案检索，是利用数据库检索的方法，在后台分析服务器的数据库里通过关键词（如直播名称，主播名字等）检索当前直播；

其中，若当前直播被分类为不适宜直播，该直播涉及的场景、内容等已提前向有关部门报备，且已经通过审核，则当前直播继续；

若当前直播被分类为不适宜直播，该直播涉及的场景、内容等已并未提前向有关部门报备，或未通过审核，则分析服务器发出中断指令；

若当前直播被分类为适宜直播，则无需进行直播备案检索，直播继续进行，则间隔一定时间后再次重复上述步骤。

与现有技术相比，本发明具有以下的有益效果：

本发明通过直播时所用的摄像机和收音设备对直播时的现场场景信息进行采集；利用直播网络对场景信息进行实时传输，使采集到的信息传输至直播应用程序后台的分析服务器；利用深度学习目标检测模型和声音识别模型，对获得的场景信息进进行识别，进而获取图像中包含的对象和声音中包含的信息；利用分类器对当前场景是否是高危作业直播进行判断，若当前直播未高危作业直播，则场景不适宜直播；通过数据库检索功能，检索当前直播是否提前报备有关部门且已通过审核，若未报备或未通过审核，则分析服务器发出中断指令，进而中断当前直播。与现有技术相比，本发明所示的技术方案利用直播现有的传感器摄像头和收音设备进行采集，实时获取直播场景，利用深度学习方法，识别图像和声音中包含的信息，从而确定当前直播场景是否适宜直播，并及时中断不适宜的直播。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明仅用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为一种基于场景识别的高危作业直播中断的智能方法步骤示意图；

图2为场景信息采集所用传感器示意图；

1-摄像头，2-麦克风。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明的具体实施方式是为了便于对本发明的构思、所解决的技术问题、构成技术方案的技术特征和带来的技术效果有更进一步的说明。需要说明的是，对于这些实施方式的说明并不构成对本发明的限定。此外，下面所述的本发明的实施方式中涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于场景识别的高危作业直播中断的智能方法，其包括的步骤如下：

步骤S1为场景信息采集；

如图2所示，在本实施例中，场景信息采集的方法包括：

1）利用直播摄像头1采集直播现场的图像信息，具体包括主播正脸、周围物体和背景等；

2）利用直播话筒2采集直播现场的声音信息，具体包括主播说话声音、设备声音和背景声音等；

具体地，在直播时，主播通过摄像头1进行拍摄时，也同时对周围场景进行拍摄；主播通过话筒2进行交流时，也同时对现场声音进行收录；

步骤S2为场景信息传输；

在本实施例中，摄像头1和话筒2采集的到的图像信息和声音信息为场景信息，通过直播网络传输到直播应用平台的后台分析服务器；

进一步地，场景信息在直播进行中实时传输，其传输速率为当前直播网络速率；

步骤S3为场景信息识别模型训练；

在本实施例中，首先对场景信息识别模型进行训练，方法为采取深度学习网络；

其中，本实施例采用SSD（Wei Liu, et al., SSD: Single Shot MultiBox Detector）目标检测模型和Deep-FSMN（Shiliang Zhang, et al., Deep-FSMN for LargeVocabulary Continuous Speech Recognition）声音识别模型；

具体地，针对SSD目标检测模型，通过输入预先采集的图像样本，对目标检测模型进行训练，其步骤包括：

1）利用摄像头1拍摄的主播视角下的直播场景图像，制作成图像样本，图像样本中的检测对象包括人、话筒、背景等所有可能出现在直播现场的物体；

3）利用检测样本训练目标检测模型，进而得到目标检测器；

4）训练完成后的目标检测器可用于对摄像头1拍摄的视频中包含的对象进行检测；

进一步地，目标检测器可采用逐帧或跳帧的方式检测图像中的对象；

类似地，针对Deep-FSMN声音识别模型，通过输入预先采集的音频样本，对声音识别模型进行训练，其步骤包括：

1）利用话筒2采集直播现场场景的声音信息，声音信息中包括人说话的声音、设备启动声音、背景声音等所有可能出现在直播现场的声音信息；

4）训练完成后的音频识别器可用于对话筒2实时采集的声音中包含的内容进行识别；

进一步地，音频识别器可采用逐帧或跳帧的方式识别声音信息中的内容；

步骤S4为场景信息识别；

在本实施例中，利用训练完成的目标检测器和音频识别器分别对摄像头1和话筒2采集到的图像和声音信息进行识别；

步骤S5为场景分类模型训练；

在本实施例中，依据目标检测器和音频识别器的识别结果，采用Softmax分类器进行直播场景分类；

具体地，针对Softmax分类器，其输出结果设定为两种，分别为适宜直播的场景和不适宜直播的场景；

在本实施例中，不适宜直播的场景主要包括需要注意力高度集中的工作（如驾驶车辆）或具有较高危险性的特种作业（如高空玻璃清洁）；

除不适宜直播的场景以外，其余场景为适宜直播的场景；

通过输入目标检测器和音频识别器的识别结果作为样本，对Softmax分类器进行训练；

例如，当目标检测器检测到的对象包括驾驶员视角下的车内方向盘和仪表盘，且音频识别器识别出的声音包括车辆加速时的发动机振动，风噪和胎噪，则当前场景为不适宜直播的场景；

步骤S6为直播中断判别；

在本实施例中，依据目标检测器和音频识别器的识别结果，利用训练完成的Softmax分类器进行直播场景分类；

Softmax分类器输出当前直播场景是否为适宜直播的场景；

若Softmax分类器的输出结果为不适宜直播的场景，则进入步骤S7；

步骤S7为直播备案检索；

依据Softmax分类器的输出结果，若当前输出结果为不适宜直播的场景，则通过关键词检索方法自动在分析服务器的数据库检索当前直播是否提前报备有关部门，是否已经审核通过；

在本实施例中，所述的关键词检索方法为完全匹配算法，关键词为当前直播的名字和主播名字；

在本实施例中，所述的数据库为调用有关部门提供的直播审核通过数据库，审核的方式及标准由有关部门确定；

进一步地，若当前直播被分类为不适宜直播，该直播已提前向有关部门报备，且已经通过审核，如用于教学等，则当前直播继续；

若当前直播被分类为不适宜直播，该直播并未提前向有关部门报备，或未通过审核，则进入步骤S8。

步骤S8为发出中断指令；

依据Softmax分类器的输出结果和关键词检索结果，若当前直播为高危作业直播，不适宜直播，且并未提前向有关部门报备，或未通过审核，则分析服务器发出直播中断指令，提示主播和用户将中断当前直播，若主播未自行中断直播，则分析服务器发出指令强制中断该直播；

进一步地，在本实时例中，依据Softmax分类器的输出结果和关键词检索结果，若当前直播非高危作业直播，或是已向有关部门报备且通过审核的高危作业直播，即适宜直播，则直播继续进行，间隔300s后再次重复步骤S1至S8。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于场景识别的高危作业直播中断的智能方法，其特征在于，包括：

直播中断判别：依据场景识别结果，判断当前直播是否是高危作业直播，及当前场景是否是适宜直播；

直播备案检索：若当前直播为高危作业直播，则在分析服务器的数据库检索当前直播是否已通过有关部门审查备案，若当前直播未能通过有关部门审查，则后台将发出中断指令，进而中断当前直播，反之则直播继续。

2.如权利要求1所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，所述的场景信息采集包括：

利用直播摄像头采集直播现场的图像信息；

利用直播收音设备采集直播现场的声音信息。

3.如权利要求1所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，所述的场景信息传输，是利用直播网络将传感器采集到的场景信息，传输到直播应用平台的后台分析服务器。

4.如权利要求1所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，所述的场景信息识别，是根据传输得到的场景信息，在分析服务器上，利用深度学习模型，对直播的场景进行识别；

所述的场景信息识别包括：

利用目标检测模型对摄像头采集到的图像进行分析；

利用声音识别模型对收音设备采集到的声音进行分析。

5.如权利要求1和4所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，所述的目标检测模型的工作原理为：

3）利用检测样本训练目标检测模型，进而得到目标检测器；

所述的目标检测器可采用逐帧或跳帧的方式检测图像中的对象。

6.如权利要求1和4所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，所述的声音识别模型的工作原理为：

所述的音频识别器可采用逐帧或跳帧的方式识别声音信息中的内容。

7.如权利要求1所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，所述的直播中断判别，是基于目标检测器和音频识别器的识别结果，在分类器中对当前直播场景是否不适宜直播进行分类；

若分类结果为当前场景不适宜直播，即为危险作业直播，例如主播正在从事需要注意力高度集中的工作（如驾驶车辆）或具有较高危险性的特种作业（如高空玻璃清洁）等，反之则当前场景为适宜直播的场景，即为非高危作业直播。

8.如权利要求1所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，所述的直播备案检索，是依据分类器识别结果，利用关键词检索方法，检索当前高危作业直播是否已通过有关部门审查备案；

若当前直播为高危作业直播，则在分析服务器的数据库检索当前直播是否已向有关部门备案，且通过审查，若当前直播未向有关部门备案，或未能通过有关部门审查，则后台将发出中断指令，进而中断当前直播。

9.如权利要求1所述的一种基于场景识别的高危作业直播中断的智能方法，其特征在于，依据分类器识别结果和直播备案检索，若当前直播是非高危作业直播，或是已通过有关部门备案审查的高位作业直播，则直播继续进行，则间隔一定时间后再次重复上述步骤。