CN116886956A

CN116886956A - 基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法、存储介质及装置

Info

Publication number: CN116886956A
Application number: CN202310998670.6A
Authority: CN
Inventors: 吴思远; 程克非; 阳小龙
Original assignee: Chongqing Edgar Data Technology Co ltd
Current assignee: Chongqing Edgar Data Technology Co ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-10-13

Abstract

本发明属于音视频智能处理技术领域，涉及一种基于非干预式终端显示信号采集的音视频和文本一体化情景智能监测与分析方法、存储介质及装置，包括：将用户终端音视频流输入到解码器，得到视频流数据和音频流数据；将视频流数据输入到视频流分析模块，得到视频分析结果；将音频流数据输入到音频流分析模块，得到音频分析结果；确定视频分析结果和音频分析结果中是否包含敏感信息，若不包含敏感信息，则终端用户为正常使用行为，若包含敏感信息，则终端用户为非正常使用行为，并对该用户的终端进行封禁管理；本发明通过对用户终端显示信号的采集及情景监测处理，能够及时确定终端用户使用行为与情景是否正常，能够实现高效、实时的终端使用情景监测。

Description

基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法、存储介质及装置

技术领域

本发明属于监控技术领域，具体涉及一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法、存储介质及装置。

背景技术

随着电竞产业的快速发展，电竞酒店已经成为了一个重要的娱乐场所。在电竞酒店中，为了确保酒店业务运营和电竞业务的合规与安全，同时不影响客户的游戏体验并保护客户隐私，需要一种能够对电脑终端显示信号进行非干预式采集并对终端用户使用情景监测分析的技术，对电竞产业中存在违法行进行实时监测与取证。

目前，对电竞产业中存在违法行为进行监控的方法包括专业的视频监测软件可以对镜像输出的信号进行分析和录制，并提供实时预览和回放功能；但是，上述方法还存在有以下缺陷：1.现有的电脑监测软件或硬件设备需要在电脑上安装对应的软件或硬件设备，使得监控成本高，维护难度大，且消耗电脑的计算资源；2.通过视频监测软件进行监控时，是对主机终端显示输出信号进行录制，但是该方法有一定的时延，无法保障业务运营的安全；3.通过分流器或者转换器对数据进行分路处理，从而实现监控的目的，但是设备无法让显示信号在局域网或广域网等网络环境中自由远距离传输，无法实现高效、实时的信号分析和监测。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，该方法包括：

S1：采用多终端输出信号采集装置获取监测数据，该数据包括视频流数据和音频数据；

S2：将视频流数据转换为连续的图像序列；对连续的图像序列进行间隔提取；

S3：对经过间隔提取后的图像进行预处理，将预处理后的图像输入到改进的Inception-V3网络中，得到视频数据的检测结果；

S4：构建敏感语音模板库以及敏感文本分类模型；

S5：对音频数据进行端点检测，得到待检测音频片段；

S6：提取待检测音频片段的频谱特征，将提取的频谱特征输入到训练好的神经网络模型中，得到特征向量；

S7：将特征向量与敏感语音模板库中的特征向量进行距离匹配，将匹配后的音频片段输入到语音识别模型中，得到文字信息；

S8：将文字信息输入到敏感文本分类模型中，得到音频数据检测结果；

S9：根据视频数据检测结果和音频数据检测结果确定待监测对象是否要求。

优选的，多终端输出信号采集装置包括HDMI接口、DP接口、DVI接口、VGA接口、音频接口、解码器、编码选择器、视频编码器、音频编码器以及视频编码器；其中HDMI接口、DP接口与解码器连接，解码器分别与音频解码器以及编码选择器连接；音频接口与音频编码器连接；DVI接口、VGA接口与编码选择器连接；视频编码器以及音频编码器分别将数据输入高速网络接口以及HDMI接口，实现编码音视频数据的远距离网络传输。

优选的，采用改进的Inception-V3网络对图像进行处理的过程包括：

步骤1：将输入图像进行尺寸缩放，得到299×299的尺寸的图像，并对图像进行归一化处理；

步骤2：将归一化后的图像输入到多个Inception-ResNet模块中，提取不同尺度的特征；

步骤3：将不同尺度特征进行聚合，并对聚合后的特征进行降维，得到一维聚合特征向量，将一维聚合特征向量作为全局特征向量；

步骤4：将全局特征向量输入到全连接层中，得到分类结果。

进一步的，分类器采用改进的NetVLAD网络对特征向量进行聚合分类，具体过程包括：初始化聚类中心，将所有的特征向量划分到k不同的簇；计算每个特征向量与聚类中心之间的相似度得分，将相似度得分作为对应特征向量的权重；根据权重对所有的特征向量进行加权求和，得到聚合后的特征向量；对聚合后的特征向量进行L2归一化处理，得到最终的分类结果。

优选的，构建敏感语音模板库的过程包括：获取敏感音频数据，提取每个敏感音频数据的频谱特征；将敏感音频数据的频谱特征输入到神经网络模型中，得到特征向量；将每个敏感音频数据提取到的特征向量与音频信息对应，并存储到向量数据库中，得到敏感语音模板库。

优选的，提取待检测音频片段的频谱特征的过程包括：对待检测音频片段进行分帧处理，根据数梅尔频谱图对分帧后的音频信号进行声学特征提取，得到待检测音频频谱特征。

优选的，采用敏感文本分类模型对文件信息进行处理的过程包括：使用预训练词向量对待分类的文本的文件信息进行预训练，得到文本的初始表示信息；将文本的初始表示信息输入到文本分类模型中，输出文本分类标签；根据文本分类标签确定待检测音频的情节，得到音频数据检测结果。

为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现任一上述基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法。

为实现上述目的，本发明还提供一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析装置，包括处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析装置执行任一上述基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法。

本发明的有益效果：

本发明通过将终端输出信号采集及终端使用情景监测分析处理，能够及时确定用户使用行为与情景内容敏感与否，不需要在电脑上安装专门的软件或硬件设备，也不需要增加额外的硬件设备，能够实现高效、实时的终端使用情景监测和分析。

附图说明

图1为本发明的多终端输出信号采集装置结构图；

图2为本发明的视频、音频解码框图；

图3为本发明的视频情景分析流程图；

图4为本发明的音频情景分析流程图；

图5为本发明的音视频流整体监测流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，如图5所示，该方法包括：获取音视频流，将音视频流输入到解码器中，得到视频流数据和音频流数据；将视频流数据输入到视频流分析模块中，得到视频分析结果；将音频流数据输入到音频流分析模块中，得到音频分析结果；确定视频分析结果和音频分析结果中是否包含敏感信息，若不包含敏感信息，则终端用户为正常使用行为，若包含敏感信息，则终端用户为非正常使用行为，并对该用户终端进行封禁管理。

一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法的具体实时方式，该方法包括：

S4：构建敏感语音模板库以及敏感文本分类模型；

S5：对音频数据进行端点检测，得到待检测音频片段；

本实施例中，如图1所示，多终端输出信号采集装置包括HDMI接口、DP接口、DVI接口、VGA接口、音频接口、解码器、编码选择器、视频编码器、音频编码器以及视频编码器；其中HDMI接口、DP接口与解码器连接，解码器分别与音频解码器以及编码选择器连接；音频接口与音频编码器连接；DVI接口、VGA接口与编码选择器连接；视频编码器以及音频编码器分别将数据输入高速网络接口以及HDMI接口，实现编码音视频数据的远距离网络传输。

由于HDMI接口信号和DP接口信号同时包含有视频以及音频双路信号，分别利用HDMI、DP解码器对编码数据流解码重构为相应的音视频信号，以实现高质量的视频和音频远距离网络传输。

DVI接口、VGA接口的输入数据仅包含视频信号，通过编码选择器，分别进行DVI编码、VGA编码。

音频接口用于连接音频输入设备，经过音频编码器将数字信号以MP3编码格式进行压缩传输，实现较小的数据量和较高的音质。

高速网络接口为一种高速数据传输设备，利用光纤或万兆以太网等技术将数据通过网络信号的形式进行传输，其中光纤网络具有较高的传输速度、大带宽及抗干扰能力，因此更适用于远距离网络传输高清视频流。

音频编码器支持PCM编码、MP3编码、AAC编码、FLAC编码格式。

视频编码器支持H.264、H.265、MPEG-4、VP9、AV1、WMV、FLV、MOV编码格式并支持以SRT、RTMP、HLS、UDP、RTP、RTSP、NDI、Onvif、SIP、GB-T28181协议传输，支持视频信号720p/1080p输出。

在本实施例中，如图3所示，对视频流数据进行情景分析的过程包括：

步骤1：获取视频流。

编码数据流经由网络远距离传输，从高速网络接口输出，经由相应解码器进行解封装，将视频数据和音频数据分离出来。以图2所示方法，将数据流解码成相应视频流以及音频流。该解码器包括拨码处理模块，通过对不同输入源的EDID实现不同分辨率的视频信号的输出，拨码模块根据实际需求设定。

步骤2：将视频流转换为连续的图像序列。接收到视频流后，使用视频解码器(如FFmpeg、VLC)进行解码，将视频流转换为一系列图像帧。每一帧包含一张静态图片。

步骤3：对图像序列进行间隔提取。具体的，为了降低计算复杂度和提高处理速度，对图像序列进行间隔提取，使得本发明只需要处理部分的图像。其中间隔提取的具体方法可以是固定间隔、基于运动信息的自适应间隔等，此处选择短片段长度(1帧/秒)为基准，按照时间序列提取图片。

采用基于运动信息的自适应间隔的健康数据进行处理的过程包括：首先需要计算连续帧之间的距离。可以使选择合适的距离度量方法来衡量帧之间的差异。距离的计算可以基于像素级的差异如灰度差异计算、颜色差异计算。也可以考虑使用特征提取方法，如光流法。

灰度差异计算则是将相邻帧的像素转换为灰度值(或将彩色像素转换为灰度)，然后比较对应像素之间的灰度差异。常见的计算方法是使用像素之间的差异的绝对值或平方差作为灰度差异的度量。对于彩色图像，可以将每个通道的差异分别计算，然后将其合并为一个综合的差异度量。

颜色差异计算则是比较彩色图片相邻帧中对应像素的颜色差异。这可以通过计算像素之间的颜色差异度量，如欧几里得距离、巴氏距离或其他颜色空间中的距离度量方法来实现。

光流法(Optical Flow)是一种计算图像序列中像素运动的方法。它基于一种假设：相邻帧之间的像素亮度不会发生显著变化。光流法通过分析图像中像素的亮度变化来估计它们的运动方向和速度。在光流法中，假设相邻帧之间的像素亮度变化可以通过像素在空间上的位移来解释。光流法的目标是估计这些位移，即计算每个像素在图像中的运动矢量。常见的光流方法包括基于亮度的光流法和基于特征点的光流法。基于亮度的光流法假设图像中的每个像素都参与运动，它尝试通过最小化相邻帧之间亮度差异的误差来计算光流。基于特征点的光流法选择一些显著的特征点，并追踪它们在图像序列中的运动。

根据帧间距离，计算帧间差距，设定阈值。可以使用平均帧间距离或帧间距离方差来计算帧间差距，较大的平均距离或方差通常表示较大的运动强度，而较小的值则表示较小的运动强度。再设置一个阈值来决定自适应间隔的选择，阈值的选择可以基于经验，也可以通过试验和调整来确定。该阈值可以用于评估帧间距离的大小，以确定运动强度的级别。

根据运动强度和阈值，选择适当的自适应间隔。可以通过与预定义的间隔值进行比较，或者根据一定的计算规则如线性调整规则、指数调整规则来调整间隔。如果运动强度超过阈值，选择较小的间隔以捕捉更多细节；如果运动强度低于阈值，选择较大的间隔以减少计算负荷。

步骤4：对图像进行预处理。具体过程包括：将对选定的帧进行数据标注，对经过标注后的图像对应的变换，该变换包括调整图像尺寸、归一化像素值、数据增强、转换颜色空间等。格式化处理后的图像分别划分为训练集、测试集、验证集；其中训练集作为训练网络模型的输入，验证集用于模型选择和调参的数据集，测试集用于评估模型的泛化能力和性能的数据集。

数据标注，需要对日常行为数据以及不合法操作数据进行数据标注，包括鼠标动作，行为、场景、事件等，将标注结果转化为机器可读的格式，如XML、JSON、CSV等格式，并进行格式校验和数据清洗等操作。

调整图像尺寸，将原始图像进行切割，得到299×299的输入图像。由于Inception-ResNet-v2是设计用于图像分类和识别任务的深度卷积神经网络，它需要从输入图像中提取出尽可能多的特征信息以进行分类，因此，输入图像的大小应该足够大。其次，该网络结构采用了多个Inception-ResNet模块，这些模块中包含了多个卷积和池化层，可以更加充分地提取图像的特征信息。这些模块需要足够的输入大小，才能够在图像的不同层次上提取出有意义的特征。最后，299x299的输入大小也是由Inception-v3网络提出的，Inception-ResNet-v2是在Inception-v3的基础上进行改进的。在Inception-v3中，299x299的输入大小已经被证明可以在许多图像分类和识别任务中取得良好的结果，因此本发明采用299x299的输入大小图像。

颜色空间转换，为了将视频中的不同颜色空间转化为模型所需的颜色空间，以便于模型的处理和计算。由于视频通常使用不同的颜色空间进行编码，如RGB、YUV等。常见的颜色空间转换包括RGB到YUV、RGB到HSV等，可以通过矩阵变换和颜色空间变换公式实现。

数据增强是指在训练过程中对图像进行随机变换，如旋转、翻转、平移、缩放等，以增加数据的多样性和丰富性，提高模型的泛化能力。数据增强是为了提高模型的泛化能力和防止过拟合，以便于模型的训练和测试。常见的数据增强技术包括随机旋转、随机缩放、随机翻转、随机裁剪等。这些技术可以通过图像处理算法进行实现。

步骤5：提取图片特征，建立训练模型。

本发明采用同改进的Inception-V3网络提取图片特征，在对提取的特征进行聚合过程中，其聚合网络采用NetVLAD模块，在特征聚合模块后增加一个批量规范化(BN)层、全局平均汇聚层，以及全连接层，连接到一个逻辑函数分类器完成语义预测，最后使用BLEU、ROUGE等自然语言处理(NLP)评估指标来评估模型输出的还原情节的语义准确度。该部分采用一种混合结构方法，用于增强单个模型的表达能力。该方法结合了知识蒸馏的思想，通过融合多个模型的特征来提高模型的性能和泛化能力。

Inception-V3网络采用了Inception模块和辅助分类器等技术，可以在保持较高准确率的同时，大幅度减少了网络参数和计算量。该网络主要由Inception模块和全局平均池化层组成。其中，Inception模块是网络的核心，可以有效地提取不同尺度的特征，包括1x1卷积、3x3卷积、5x5卷积和3x3最大池化等操作。全局平均池化层可以将特征图压缩为一个向量，以便于进行分类。

在本实施例中，Inception-ResNet-v2网络采用了Inception模块和辅助分类器等技术，可以在保持较高准确率的同时，大幅度减少了网络参数和计算量。该网络架构同时结合了ResNet思想，通过添加跨层连接来缓解梯度消失和模型退化的问题，在训练过程中可以更加稳定和快速收敛。该Inception-ResNet-v2网络主要由Stem模块、Inception-ResNet-A模块、Reduction-A模块、Inception-ResNet-B模块、Reduction-B模块、Inception-ResNet-C模块组成。其中，Inception-ResNet-A、Inception-ResNet-B和Inception-ResNet-C模块是由多个分支和残差块组成的，可以更加充分地提取图像的特征信息，同时使用了批量归一化、随机深度和辅助分类器等技术，提高了模型的性能和鲁棒性。整个网络包括了17个Inception-ResNet模块，每个模块都包含了多个卷积和池化层，可以更加充分地提取图像的特征信息，从而提高模型的分类速度以及准确性。

采用改进的Inception-V3网络对图像进行处理的过程包括：

步骤4：将全局特征向量输入到全连接层中，得到分类结果。

视频流情景及语义分析方法采用NetVLAD作为特征聚合算法。这些算法的目的是将多个视频帧的特征向量xi聚合为一个特征向量。NetVLAD模块对数据进行聚类的过程包括：初始化聚类中心，将所有的特征向量划分到k不同的簇；计算每个特征向量与聚类中心之间的相似度得分，将相似度得分作为对应特征向量的权重；根据权重对所有的特征向量进行加权求和，得到聚合后的特征向量；对聚合后的特征向量进行归一化处理，得到最终的分类结果。在聚合过程中通过降低全连接层的计算量，可以有效提高计算速度和加速计算。除此之外，该部分还采用了平均池化和最大池化的方法来聚合多个特征向量，结合ResNet的思想，将多组输出特征向量拼接在一起。

改进的NetVLAD网络相较于传统特征聚合算法拥有以下优势：(1)NetVLAD引入了多分支结构，在聚合过程中可以同时利用不同的卷积特征，提高了特征的多样性和表示能力。相比于传统的特征聚合算法，NetVLAD可以更好地捕捉图像中的不同尺度、不同方向和不同形状的特征。(2)NetVLAD引入了残差连接，可以更好地传递梯度和提高模型的训练效率。相比于传统的特征聚合算法，NetVLAD可以更好地避免梯度消失和梯度爆炸的问题，提高了训练的稳定性和收敛速度。(3)NetVLAD在保持聚合效果的同时，具有较高的计算效率。相比于传统的特征聚合算法，NetVLAD可以在保持聚合效果的同时，减少计算量和内存占用，适合于在移动设备等资源受限的环境中使用。(4)NetVLAD具有很好的可拓展性，可以在不同的任务上进行微调，从而更好地适应不同的应用场景。相比于传统的特征聚合算法，NetVLAD可以更加灵活地适应不同的任务需求，具有更好的通用性和实用性。

自然语言处理(NLP)评估指标包括F1-Score、ROUGE、Perplexity。其中F1-Score是一种用于评估分类和标注任务的指标，主要基于精确度和召回率两个指标，取值范围为0到1，值越高表示模型效果越好。ROUGE是用于评估文本摘要和自动生成摘要的NLP任务的指标。ROUGE指标同样基于n-gram匹配度和惩罚项，常用的ROUGE指标包括ROUGE-1、ROUGE-2和ROUGE-L，取值范围为0到1，值越高表示模型效果越好。Perplexity是一种用于评估语言模型的指标，主要基于模型对新句子的预测能力。Perplexity越小表示模型越好。

步骤6：依据训练模型检测违法行为，还原情节语义。提取测试集中数据，对训练模型依据评估指标检测在测试集上的准确率，对模型参数进行微调，提升准确率，降低过拟合风险，优化模型的性能和泛化能力。

在本实施例中，公开了一种音频流敏感词监测方法，如图4所示，该方法包括：

步骤201：注册敏感语音模板库并建立敏感文本分类模型。

注册敏感语音模板库：收集敏感音频数据，提取每个敏感音频数据的音高类轮廓或频谱特征，将敏感音频数据的音高类轮廓或频谱特征输入特征向量提取神经网络模型提取特征向量，将每个敏感音频数据提取到的特征向量与音频信息对应地存入向量数据库中，得到敏感语音模板库。

特征向量提取神经网络模型包括但不限于CNN(Convolutional NeuralNetworks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、LSTM(LongShort-Term Memory，长短期记忆循环神经网络)、Transformer等，具体的可以是AlexNet、VGGNet或ResNet。

在本实施例中，音乐的频谱特征可以是频谱图、梅尔频谱图、梅尔倒频谱以及梅尔频率倒谱系数。

构建敏感文本分类模型包括：收集样本数据集，样本数据集中包含有文本的描述信息以及文本标注；对样本数据集中的文本的描述信息进行预处理，转化为固定长度的单词集合；使用预训练词向量对样本数据集中的文本的描述信息对应的单词集合进行预训练，确定样本数据集中的文本的初始表示信息。使用样本数据集中的文本的初始表示信息对文本分类模型进行训练。

预训练词向量可以包括Word2Vec、GloVe、BERT等，通过预训练词向量，可以对文本的描述信息文本的描述信息，得到文本的初始表示信息。

文本分类模型可以包括但不限于CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、GCN(graph convolutionalnetwork，图卷积神经网络)等，具体的可以是TextCNN、TextRNN、TextGCN等。

步骤S202：获取音频流。

数据流经由以太网传输，从高速网络接口输出，经由相应解码器进行解封装，将视频数据和音频数据分离出来。以图2所示方法，将数据流解码重构为相应视频流以及音频流。该解码器包括拨码处理模块，通过对不同输入源的EDID实现不同分辨率的视频信号的输出，拨码模块根据实际需求设定。

步骤S203：取音频流中有效的待检测音频片段。

对原始语音信号进行音频端点检测。通过该检测切除语音音频的首尾端的静音或背景噪音，以降低对后续步骤的干扰。具体来说，通过对原始语音信号的幅度、能量、过零率和基频等信息进行检测，去除静音段和噪声段，截取有效语音片段，从而减小静音段和噪声段对识别结果的影响，得到待检测音频片段。

步骤S204：提取待检测音频片段的频谱特征。

将待检测音频片段进行分帧处理，将待检测音频片段分为多段，每一段音频信号都称为一帧，帧长取10ms至30ms，依次提取每一帧音乐信号的频谱特征，即多帧语音信号。由于波形在时域上没有描述能力，因此必须将波形作变换。本发明使用的变换方法为通过对数梅尔频谱图(Logarithmic Mel Spectrogram)进行声学特征提取，得到待检测音频频谱特征。该待检测音频频谱特征可以频谱图、梅尔频谱图、梅尔倒频谱以及梅尔频率倒谱系数中的一种或多种来描述。

步骤S205：将待检测的音频特征输入经训练的神经网络模型提取特征向量。

将待检测的音频特征输入特征向量提取神经网络模型提取特征向量，所述特征向量提取神经网络模型与步骤S201的神经网络模型是同一个。提取的特征向量能够有效地代表该音频的特征，如果两个音频片段相似，则所提取的特征向量也会相似。

步骤S206：对待检测特征向量进行基于向量距离的模板匹配。

将步骤S205中得到的待识别特征向量在敏感语音模板库中进行基于向量距离的相似度检索，并根据向量距离对检索结果从小到大进行排序，取向量距离最小的结果为候选检索结果，若向量距离小于阈值，则可以认为该候选结果可信。本方法中设定的相似度距离阈值是0.1，也可以根据情况进行调整。其中向量距离计算公式为：

其中，d(x,y)表示x和y之间的欧式距离，x和y分别表示提取窗口音乐子片段的第一特征向量和音频向量库中的特征向量，n表示向量长度，xi表示向量x中的第i个元素，yi表示向量y中的第i个元。

步骤207：匹配成功的待检测音频片段输入语音识别模型，得到语音对应的文字信息。其中语音识别为一般的语音识别模型，即将语音识别为文字的模型。

步骤208：对待检测文字信息进行文本分类，综合判断待检测音频的情节。具体过程包括：使用预训练词向量对待分类的文本的描述信息进行预训练，确定待分类的文本的初始表示信息。将待分类的文本的初始表示信息输入文本分类模型，并获取文本分类模型输出的标签确定待检测音频的情节。

可选的，预训练词向量对待分类的文本进行预处理时，可以使用诸如word2vec、GloVe、fastText等预训练词向量模型。这些预训练模型基于大规模语料库进行训练，可以有效地提取文本中的语义和上下文信息，为后续的文本分类任务提供有用的特征。

可选的，文本分类模型包括但不限于CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-TermMemory，长短期记忆循环神经网络)、Transformer等模型，具体的可以是BERT、GPT或XLNet。

于本发明一实施例中，本发明还包括一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一所述基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析装置，包括处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析装置执行任一上述基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法。

具体地，所述存储器包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

优选地，所述处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，其特征在于，该方法包括：

S4：构建敏感语音模板库以及敏感文本分类模型；

S5：对音频数据进行端点检测，得到待检测音频片段；

2.根据权利要求1所述的一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，其特征在于，多终端输出信号采集装置包括HDMI接口、DP接口、DVI接口、VGA接口、音频接口、解码器、编码选择器、视频编码器、音频编码器以及视频编码器；其中HDMI接口、DP接口与解码器连接，解码器分别与音频解码器以及编码选择器连接；音频接口与音频编码器连接；DVI接口、VGA接口与编码选择器连接；视频编码器以及音频编码器分别将数据输入高速网络接口以及HDMI接口，实现编码音视频数据的远距离网络传输。

3.根据权利要求1所述的一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，其特征在于，采用改进的Inception-V3网络对图像进行处理的过程包括：

步骤4：将全局特征向量输入到全连接层中，得到分类结果。

4.根据权利要求3所述的一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，其特征在于，分类器采用改进的NetVLAD网络对特征向量进行聚合分类，具体过程包括：初始化聚类中心，将所有的特征向量划分到k不同的簇；计算每个特征向量与聚类中心之间的相似度得分，将相似度得分作为对应特征向量的权重；根据权重对所有的特征向量进行加权求和，得到聚合后的特征向量；对聚合后的特征向量进行L2归一化处理，得到最终的分类结果。

5.根据权利要求1所述的一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，其特征在于，构建敏感语音模板库的过程包括：获取敏感音频数据，提取每个敏感音频数据的频谱特征；将敏感音频数据的频谱特征输入到神经网络模型中，得到特征向量；将每个敏感音频数据提取到的特征向量与音频信息对应，并存储到向量数据库中，得到敏感语音模板库。

6.根据权利要求1所述的一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，其特征在于，提取待检测音频片段的频谱特征的过程包括：对待检测音频片段进行分帧处理，根据数梅尔频谱图对分帧后的音频信号进行声学特征提取，得到待检测音频频谱特征。

7.根据权利要求1所述的一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法，其特征在于，采用敏感文本分类模型对文件信息进行处理的过程包括：使用预训练词向量对待分类的文本的文件信息进行预训练，得到文本的初始表示信息；将文本的初始表示信息输入到文本分类模型中，输出文本分类标签；根据文本分类标签确定待检测音频的情节，得到音频数据检测结果。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行，以实现权利要求1至7中任一项基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法。

9.一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析装置，其特征在于，包括处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述一种基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析装置执行权利要求1至7中任一项基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法。