CN117998114A - 一种基于Mesh架构处理音视频的方法 - Google Patents
一种基于Mesh架构处理音视频的方法 Download PDFInfo
- Publication number
- CN117998114A CN117998114A CN202410401281.5A CN202410401281A CN117998114A CN 117998114 A CN117998114 A CN 117998114A CN 202410401281 A CN202410401281 A CN 202410401281A CN 117998114 A CN117998114 A CN 117998114A
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- node
- code stream
- random number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 title claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 19
- 230000007613 environmental effect Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004806 packaging method and process Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 9
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000005538 encapsulation Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000011946 reduction process Methods 0.000 claims 2
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000007726 management method Methods 0.000 description 31
- 230000009467 reduction Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005291 chaos (dynamical) Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及音视频处理技术领域,具体涉及一种基于Mesh架构处理音视频的方法。本申请的方案采用Mesh架构和转发机制,该方案确保庭审过程中一个视频源对于专有云始终只占用一路带宽,从而高效利用带宽资源。当Ⅱ级用户需要从视频源获取视频流时,它们通过负载最低的Ⅰ级用户进行转发,而不是直接从专有云获取,这大大减少了带宽的占用。根据庭审过程中的角色必要性,将用户分为Ⅰ级和Ⅱ级。这种分类允许系统更灵活地管理用户权限和访问级别,确保只有授权的用户才能访问庭审视频源。
Description
技术领域
本发明涉及音视频处理技术领域,具体涉及一种基于Mesh架构处理音视频的方法。
背景技术
随着信息技术的飞速发展,流媒体技术在法庭系统中的应用日益广泛。传统的科技法庭主要依赖于庭审主机进行录音录像,而现代的智慧法庭则更加强调数据的IP化、高清化和智能化。云化架构的引入,使得法庭系统得以跨网系、跨地域、跨终端地应用,从而极大地提升了庭审的效率和便利性。
然而,在这种云化集中式的架构中,存在一个明显的问题:随着法庭终端数量的不断增多,专有云的带宽消耗迅速上升,成为了制约系统扩展的瓶颈。此外,由于音视频流的转发路径过长,导致了端到端的播放时延增加,影响了法庭的庭审体验。更为关键的是,当法庭系统建设完成后,由于专有云的带宽限制和系统开销的增加,法庭终端设备的扩展变得相对困难。
因此,如何在保障服务质量的前提下,降低专有云的带宽消耗,减少音视频流的转发路径,提高庭审体验,并使得法庭终端设备易于扩展,成为了当前亟待解决的问题。
发明内容
为解决上述问题,本发明公开了一种基于Mesh架构处理音视频的方法。
本申请提供了一种基于Mesh架构处理音视频的方法,该方法具体包括以下步骤:
依据预设的规则,授权Ⅰ类用户登录的节点,从庭审业务管理节点获取庭审视频源的地址,并允许其直接访问音频源和视频源;以及,在确定存在Ⅰ类用户时,从已授权的Ⅰ类用户登录的节点中选择一个作为音视频转发节点,为登录的Ⅱ类用户提供音视频转发服务;
根据指令确定录像节点,将录像节点作为Ⅱ类用户,并分配音视频转发节点,通过该音视频转发节点与庭审业务管理节点建立通信连接;
所述Ⅰ类用户登录的节点、Ⅱ类用户登录的节点、录像节点与庭审业务管理节点之间以mesh方式组网,且Ⅰ类用户登录的节点通过一个链路与庭审业务管理节通信连接。
具体的,所述庭审业务管理节点向Ⅰ类用户登录的节点传输音视频前,进一步对该音视频进行音视频码流复用处理,所述处理的方法包括:
对法庭庭审中产生的音视频码流进行码流分析;
根据预设规则将音视频码流分为基础层和增强层,以适应不同的传输和播放需求;
根据预设封装格式对分层后的音视频码流进行封装,添加头信息和同步信息,以此将基础层码流与增强层码流,合并成一个复合码流;
所述庭审业务管理节点向Ⅰ类用户登录的节点传输音视频数据时,基于当前网络状况,以及接收端的解码能力,动态选择发送哪些质量层。
在具体的方案中,所述预设封装格式包括:包头、包体、时间戳字段、同步信息以及校验码,其中包头用于标识码流类型和参数,包体包含实际的音视频数据。
根据预设封装格式对分层后的音视频码流进行封装时,进一步为每个质量层分配唯一标识符,以便于进行音视频码流的识别。
其中,为每个质量层分配唯一标识符的方法包括:
分析音视频码流的固有属性,以采集音视频码流的编码格式、分辨率、帧率、码率和音频采样率;
获取码流生成或开始传输的精确时间戳;
对应音视频码流生成唯一随机数;
将采集的固有属性、时间戳和随机数进行组合,以得到唯一标识符。
上述方案中,所述唯一随机数通过随机数发生器生成;所述随机数发生器生成随机数时,预先生成预设长度的随机数文件,所述唯一标识符中的随机数从所述随机数文件中顺序选取。
此外,所述录像节点用于向庭审业务管理节点发送音视频文件,所述录像节点处理所述音视频文件时,进一步对音视频文件进行降噪处理,所述降噪处理的方法包括:
在各噪声区域部署收音节点,将各收音节点与中心控制单元通信连接;
通过麦克风节点在法庭内采集预设时间的环境噪音,得到环境噪音样本;
对预先采集的环境噪音样本进行声纹特征提取,所述特征包括频率、振幅和波形特征;
根据法庭环境的噪音特性,使用自适应滤波算法或深度学习模型,并利用预先采集的法庭环境噪音样本进行模型的构建和训练;
实时采集现场音频数据,并将音频数据传输至中心控制单元,所述中心控制单元利用预先构建的噪音抵消模型,对实时采集的音频数据进行处理,以抵消其中的环境噪音成分。
在具体的方案中,所述模型的构建和训练方法包括:
将噪音样本转换为数字信号,进行分帧处理,并提取频谱特征,进行归一化操作;
使用提取的特征和对应的标签训练噪音抵消模型,通过调整模型参数和结构优化模型性能。
为了提高音视频数据传输过程中的安全性,所述方法进一步包括:
实时采集现场噪音数据,将所述噪音数据作为预设加密算法的输入,生成加密随机数;
通过所述加密随机数加密所述录像节点采集到的音视频数据,得到音视频数据密文;
所述庭审业务管理节点根据接收的现场噪音数据,将其作为预设解密算法的输入生成解密随机数,以此解密从所述录像节点发送的音视频数据密文。
其中,所述噪音数据生成加密随机数的方法具体包括:
采集并预处理采集到的噪音数据,将其转换成用于数字处理的WAV格式;
使用音频数据的特征作为洛吉斯蒂克映射的初始条件和参数,以生成随机数序列;
对得到的随机数序列进行二值化处理,以得到加密随机数。
本申请的方案采用Mesh架构和转发机制,该方案确保庭审过程中一个视频源对于专有云始终只占用一路带宽,从而高效利用带宽资源。当Ⅱ级用户需要从视频源获取视频流时,它们通过负载最低的Ⅰ级用户进行转发,而不是直接从专有云获取,这大大减少了带宽的占用。根据庭审过程中的角色必要性,将用户分为Ⅰ级和Ⅱ级。这种分类允许系统更灵活地管理用户权限和访问级别,确保只有授权的用户才能访问庭审视频源。
附图说明
图1为本申请实施例1中的用户节点连接示意图;
图2为本申请实施例1的方法流程示意图;
图3为本申请实施例2的方法流程示意图;
图4为本申请实施例3的方法流程示意图;
图5为本申请实施例4中的一种方法流程示意图;
图6为本申请实施例4中的另一种方法流程示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述,意指覆盖不排他的包含,如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。
实施例1:参见图2,一种基于Mesh架构处理音视频的方法,该方法具体包括以下步骤:
S101:依据预设的规则,授权Ⅰ类用户登录的节点,从庭审业务管理节点获取庭审视频源的地址,并允许其直接访问音频源和视频源;以及,在确定存在Ⅰ类用户时,从已授权的Ⅰ类用户登录的节点中选择一个作为音视频转发节点,为登录的Ⅱ类用户提供音视频转发服务;具体可以基于负载和网络状况进行分配,优先分配低负载和网络质量好的节点;
S102:根据指令确定录像节点,将录像节点作为Ⅱ类用户,并分配音视频转发节点,通过该音视频转发节点与庭审业务管理节点建立通信连接;
S103:所述Ⅰ类用户登录的节点、Ⅱ类用户登录的节点、录像节点与庭审业务管理节点之间以mesh方式组网,且Ⅰ类用户登录的节点通过一个链路与庭审业务管理节通信连接。
如图1所示,在一种可能的实施方式中,上述方案通过一套IP云化的庭审系统来实现,该系统包括:庭审业务管理节点、媒体管理节点、庭审软客户端;庭审业务管理节点和媒体节点分别部署在专有云上,庭审软件客户端安装在各法庭的终端上;庭审业务管理节点负责管理控制庭审软件客户端,并根据庭审排期进行任务分发;媒体服务则负责提供音视频转发、存储以及管理服务;庭审软客户端按照不同的角色按期进行庭审活动,通过音视频方式完成交互过程,并辅以笔录等方式进行记录。
依据庭审过程,每个庭审软客户端均以不同的角色进行参与,如民事类庭审中,角色可分为法官、书记员、原告、被告、原告律师、被告律师等。其中,法官(审判长)和书记员是固定参与者。根据案件复杂程度,还可增加审判员、人民陪审员。同时,原被告方也可能有多名人员参与。此外,法庭一般配有旁听席大屏终端供案件观摩。因此,按照角色必要性,可以将审判长和书记员设定为Ⅰ级用户,而非必要性角色如审判员、原告、被告、律师等则设定为Ⅱ级用户。
具体的方法步骤包括:
S201:庭审软客户端按照用户名登录后获取系统分配的角色,分为Ⅰ、Ⅱ类用户。设定当Ⅰ类用户未进入庭审交互前,Ⅱ类用户进入时,无需观看到庭审视频画面;
S202:A用户(书记员)进入庭审后,庭审业务管理节点根据当前排期判断并授权其为Ⅰ级用户,然后向媒体节点获取庭审视频源的地址。通过源地址和目的地址的匹配判断,将视频源的直接访问地址交由A用户;
S203:B用户(原告)进入庭审后,同样进行授权判定。在向媒体节点获取播放地址时,从当前庭审会话中的Ⅰ级用户中选择负载最低的用户,并叠加上转发地址,即视频源经A用户再转发给B用户,同时A用户的负载增加1点;
S204:同样的,若C用户(审判长)进入庭审后,按照授权判定,若是Ⅰ级用户,则选择从视频源直接获取;若是Ⅱ级用户,则通过已授权的Ⅰ级用户进行音视频转发。
本实施例中,通过Mesh架构和转发机制,该方案确保庭审过程中一个视频源对于专有云始终只占用一路带宽,从而高效利用带宽资源。当Ⅱ级用户需要从视频源获取视频流时,它们通过负载最低的Ⅰ级用户进行转发,而不是直接从专有云获取,这大大减少了带宽的占用。根据庭审过程中的角色必要性,将用户分为Ⅰ级和Ⅱ级。这种分类允许系统更灵活地管理用户权限和访问级别,确保只有授权的用户才能访问庭审视频源。
实施例2:如图3所示,为了进一步降低音视频码流传输过程中的带宽占用,提高传输效率,本实施例对音视频码流进行了复用处理和优化封装。在所述庭审业务管理节点向Ⅰ类用户登录的节点传输音视频前,进一步对该音视频进行音视频码流复用处理,所述处理的方法包括:
S301:对法庭庭审中产生的音视频码流进行码流分析;
本实施例中,具体识别音视频码流码的分辨率、帧率、码率、编码格式等关键参数;示例性的,在采集到某一音视频码流码时,通过分析并识别到该音视频码流的分辨率为1080p,帧率为30fps,码率为5Mbps,采用H.264编码格式,音频为AAC格式,采样率为48kHz;
通过对码流的深入分析,可以准确了解码流的特性,为后续的分层策略制定提供数据支持;这些关键参数的识别有助于后续对音视频码流进行准确的分层和封装处理;
S302:根据预设规则将音视频码流分为基础层和增强层,以适应不同的传输和播放需求;
在一种可能的实施方式中,采用三层分层策略:基础层,增强层和高层;基础层设定为720p分辨率、20fps帧率、2Mbps码率,确保在低带宽环境下也能流畅传输和播放;增强层则保留原始的1080p分辨率、30fps帧率和剩余的3Mbps码率,为高质量观看提供可能;高层作为本方案中的最高质量层级,进一步提升视频的各项指标。例如,它可以采用更高的分辨率(如4K或更高)、更高的帧率(如60fps或更高)以及更高的码率;
通过上述的分层策略,可以灵活应对不同的网络带宽和设备性能,同时保证音视频的基本质量和高质量观看体验;
S303:根据预设封装格式对分层后的音视频码流进行封装,添加头信息和同步信息,以此将基础层码流与增强层码流,合并成一个复合码流;
所述庭审业务管理节点向Ⅰ类用户登录的节点传输音视频数据时,基于当前网络状况,以及接收端的解码能力,动态选择发送哪些质量层。例如在网络带宽充足时发送更多层,反之则减少层数。
同样的Ⅰ类用户登录的节点中作为转发节点向Ⅱ类用户提供音视频转发服务时,也基于当前网络状况,以及接收端的解码能力,动态选择发送哪些质量层。例如在网络带宽充足时发送更多层,反之则减少层数。
通过对分层后的音视频码流进行封装,将基础层码流与增强层码流合并成一个复合码流,实现了码流的统一管理和高效传输。这种封装方式可以减少传输过程中的数据分割和重组,从而降低传输开销和延时。
动态选择发送质量层策略,能够根据当前网络带宽的状况,实时调整发送的码流层数。在网络带宽充足时,可以发送更多的质量层,提供更高质量的音视频服务;而在网络带宽受限时,则减少层数,确保基本的音视频流畅传输。这种灵活性能够极大地提升用户体验,特别是在网络环境不稳定的情况下。
通过动态选择发送哪些质量层,可以确保即使解码能力有限的接收端也能正常接收和播放音视频数据,而解码能力较强的接收端则可以获得更高质量的音视频体验。这种对不同解码能力的适配,进一步增强了方案的通用性和实用性。
在转发节点向Ⅱ类用户提供音视频转发服务时,同样采用基于网络状况和解码能力的动态选择策略,这不仅可以保证Ⅱ类用户的观看体验,还能有效地利用网络资源,避免资源的浪费。特别是在多用户同时请求服务的情况下,这种策略可以确保资源的合理分配和高效利用。
在一种可能的实施方式中,上述预设封装格式包括:包头、包体、时间戳字段、同步信息以及校验码,其中包头用于标识码流类型和参数,包体包含实际的音视频数据;
示例性的,用于封装的具体协议可以采用如下方式:
字段定义:
MuxHeader:复合码流包头,包含版本信息、码流类型、总长度等字段。
version:协议版本号,用于兼容性检查。
streamType:码流类型标识,如视频、音频或复合码流。
totalLength:当前复合码流包的总长度。
LayerInfo:层信息字段,描述每个质量层的参数和属性。
layerId:质量层唯一标识符。
resolution:视频分辨率(仅对视频层有效)。
bitrate:该层的码率。
dependencyId:依赖层标识符,用于标识当前层依赖的其他层(如果有的话)。
Payload:负载字段,包含实际的音视频数据。
timestamp:时间戳信息,用于同步播放。
data:音视频编码数据。
MuxFooter:复合码流包尾,包含校验码等字段。
checksum:校验码,用于错误检测。
举例说明:
一个复合码流包可能如下所示:
MuxHeader
version = 1
streamType = video
totalLength = 1500 bytes
LayerInfo
layerId = 0 (基础层)
resolution = 640x480
bitrate = 500 kbps
dependencyId = None
Payload
timestamp = 1000 ms
data = [编码后的视频数据]
LayerInfo
layerId = 1 (增强层)
resolution = 1280x720
bitrate = 1 Mbps
dependencyId = 0 (依赖于基础层)
Payload
timestamp = 1000 ms
data = [编码后的增强层视频数据]
MuxFooter
checksum = 0xABCD (CRC校验码)
时间戳与同步信息
实施例:在每个Payload字段中插入PTS(Presentation Time Stamp)时间戳。
字段定义:
Payload.timestamp:32位无符号整数,表示该负载数据的播放时间(以毫秒为单位)。
举例说明:
在封装过程中,对于每个音视频帧或数据包,都会计算其应该播放的时间戳,并将其插入到相应的Payload字段中。接收端在解封装时会读取这些时间戳,并根据它们进行同步播放。
上述封装格式的设计旨在确保码流在传输过程中的完整性和同步性,同时便于接收端进行解码和播放。
为了便于识别分层后的各音视频码流,还进一步对分层后的音视频码流进行唯一标识;
其中,为每个质量层分配唯一标识符的方法包括:
分析音视频码流的固有属性,以采集音视频码流的编码格式、分辨率、帧率、码率和音频采样率;
获取码流生成或开始传输的精确时间戳;
对应音视频码流生成唯一随机数;
将采集的固有属性、时间戳和随机数进行组合,以得到唯一标识符。
示例性的,假设某一个音视频码流,其分辨率为1920x1080,帧率为30fps,码率为5Mbps,编码格式为H.264,音频采样率为48kHz。码流开始传输的时间戳为2023-04-25 10:00:00.123 UTC。则可以按照以下方式生成唯一标识符(记为UID):
UID="H264_1920x1080_30fps_5Mbps_48kHz_20230425100000123_ABC123"
其中,"H264_1920x1080_30fps_5Mbps_48kHz" 表示码流的基本信息,"20230425100000123" 是时间戳的简化表示(去除了分隔符),"ABC123" 是一个随机生成的字符串用于增加UID的唯一性。
通过组合码流的固有属性和动态生成的时间戳、随机数等信息,可以确保每个UID在全局范围内是唯一的;UID中包含了码流的基本信息,方便后续对码流进行追踪和管理;UID的生成方法可以根据实际需求进行定制和调整,以适应不同的应用场景和码流特性;
在一种可能的实施方式中,所述唯一随机数通过随机数发生器生成;所述随机数发生器生成随机数时,预先生成预设长度的随机数文件,所述唯一标识符中的随机数从所述随机数文件中顺序选取。
具体在生成时,首先确定随机数的预设长度和格式。例如,可以是固定长度的数字串或字母数字组合。可以使用随机数发生器(如基于密码学安全的随机数生成器)生成大量随机数,并保存到一个文件中。这个文件可以加密存储,以增强安全性。
当需要获取一个唯一标识符时,从预生成的随机数文件中顺序选取一个随机数。为了确保唯一性,可以采用一种机制来避免重复选取同一个随机数,例如,每次选取一个随机数后将其从文件中删除或标记为已使用。如果随机数文件中的所有随机数都已被使用,系统可以触发警告或自动重新生成一个新的随机数文件。
通过预生成随机数文件,减少了实时生成随机数所需的计算资源,从而提高了系统的响应速度。利用顺序选取和避免重复使用的机制,确保了生成的每个唯一标识符都是独一无二的。
实施例3:如图4所示,所述录像节点用于向庭审业务管理节点发送音视频文件,所述录像节点处理所述音视频文件时,进一步对音视频文件进行降噪处理,所述降噪处理的方法包括:
S401:在各噪声区域部署收音节点,将各收音节点与中心控制单元通信连接;
其中,识别法庭内可能产生噪音的区域,如门口、窗户、空调出风口等;
在这些区域分别安装收音节点,每个节点配备高灵敏度的麦克风,用于捕捉环境噪音;通过有线或无线方式,将这些收音节点与中心控制单元连接起来,确保数据传输的稳定性和实时性;
S402:通过麦克风节点在法庭内采集预设时间的环境噪音,得到环境噪音样本;
具体设定一个预设时间,如每天开庭前的一个小时;在这个时间段内,通过部署在法庭内的麦克风节点持续采集环境噪音;采集的噪音数据保存为环境噪音样本,用于后续的模型训练;
S403:对预先采集的环境噪音样本进行声纹特征提取,所述特征包括频率、振幅和波形特征;
利用音频处理软件或专门的声纹特征提取工具,例如Audacity和Kaldi,对采集的环境噪音样本进行处理;提取的特征包括频率、振幅和波形特征等,这些特征能够反映噪音的独特性和可识别性;提取的特征数据保存为数字格式,方便后续处理和分析;
S404:根据法庭环境的噪音特性,使用自适应滤波算法或深度学习模型,并利用预先采集的法庭环境噪音样本进行模型的构建和训练;
例如最小均方(LMS)算法或归一化最小均方(NLMS)算法;使用提取的环境噪音特征作为输入,通过算法迭代调整滤波器参数,使得输出信号中的噪音成分最小化。
深度学习模型:
搭建一个深度学习模型,如卷积神经网络(CNN)或循环神经网络(RNN),用于处理音频信号。将噪音样本转换为数字信号,进行分帧处理,并提取频谱特征。对提取的特征进行归一化操作,使其符合模型的输入要求。使用提取的特征和对应的标签(噪音/非噪音)训练模型,通过调整模型参数和结构优化模型性能。
S405:实时采集现场音频数据,并将音频数据传输至中心控制单元,所述中心控制单元利用预先构建的噪音抵消模型,对实时采集的音频数据进行处理,以抵消其中的环境噪音成分;
具体的,可在法庭开庭期间,通过部署的麦克风节点实时采集现场音频数据将采集的音频数据传输至中心控制单元进行处理;中心控制单元利用预先构建的噪音抵消模型(自适应滤波器或深度学习模型),对实时采集的音频数据进行处理;处理后的音频数据中的环境噪音成分被有效抵消,提高了音频的清晰度和可听性。
本实施例中,中心控制单元可以是计算机或服务器等计算处理设备。
实施例4:如图5所示,为了提高音视频数据传输过程中的安全性,所述方法进一步包括:
S501:实时采集现场噪音数据,将所述噪音数据作为预设加密算法的输入,生成加密随机数;
具体可通过部署在庭审现场的音频采集设备(如麦克风)实时捕获环境噪音;这些设备可以设置为连续采集模式,确保不间断地捕获噪音数据;加密算法可以采用基于混沌理论的算法,如Logistic映射或Henon映射等,这类算法具有高度的敏感性和不可预测性,适合用于生成加密随机数;
S502:通过所述加密随机数加密所述录像节点采集到的音视频数据,得到音视频数据密文;
使用生成的加密随机数作为密钥,采用对称加密算法(如AES算法)或非对称加密算法(如RSA算法)对音视频数据进行加密;加密后的音视频数据形成密文,通过网络传输到庭审业务管理节点;
S503:所述庭审业务管理节点根据接收的现场噪音数据,将其作为预设解密算法的输入生成解密随机数,以此解密从所述录像节点发送的音视频数据密文;
庭审业务管理节点接收到加密的音视频数据密文后,需要使用相应的解密随机数进行解密;为了生成解密随机数,庭审业务管理节点同样需要接收并处理现场噪音数据。处理过程与生成加密随机数的过程相同,即使用相同的预设加密算法将噪音数据转换成解密随机数;庭审业务管理节点使用生成的解密随机数作为密钥,采用与加密过程相对应的解密算法对接收到的音视频数据密文进行解密。解密后的音视频数据恢复为原始的可播放格式,供庭审业务管理节点进行后续的处理和展示。
如图6所示,在一种可能的实施方式中,所述噪音数据生成加密随机数的方法具体包括:
S601:采集并预处理采集到的噪音数据,将其转换成用于数字处理的WAV格式;
接收到原始的噪音数据后,使用音频编解码器将其转换为WAV格式;WAV格式是一种标准的数字音频文件格式,适合用于数字信号处理;
S602:使用音频数据的特征作为洛吉斯蒂克映射的初始条件和参数,以生成随机数序列;
将转换后的WAV格式噪音数据输入到预设的洛吉斯蒂克映射算法中;洛吉斯蒂克映射是一种非线性动态系统,可以通过调整其参数和初始条件来生成看似随机的序列;在这里,音频数据的特征(如振幅、频率等)被用作洛吉斯蒂克映射的初始条件和参数。通过迭代计算,生成一串随机数序列;
示例性的,本步骤的具体方法包括:
步骤一:确定洛吉斯蒂克映射的参数和初始值;
选择参数 r(生长率):洛吉斯蒂克映射的关键参数是生长率 r,它控制了系统的动态行为;当 r 在特定范围内时(通常是 3.57 到 4);
设置初始值 x0:选择一个在 0 到 1 之间的初始种群比例 x0;这个初始值会影响迭代序列的起始点,但不会影响混沌行为的长期特性;
步骤二:迭代洛吉斯蒂克映射;
使用以下公式进行迭代:
[ x_{n+1} = r \cdot x_n \cdot (1 - x_n) ]
其中,( x_n ) 是当前迭代步骤的种群比例,( x_{n+1} ) 是下一个迭代步骤的种群比例;
重复迭代:从上一步计算出的 ( x_{n+1} ) 开始,重复应用上述公式,生成一系列的 ( x ) 值;
步骤三:从映射中提取随机数;
可以选择不同的方法来从映射序列中提取随机数。例如,可以每隔一定数量的迭代步骤提取一个值,或者直接使用连续的映射输出;
S603:对得到的随机数序列进行二值化处理,以得到加密随机数;
对生成的随机数序列进行二值化,即将其转换为由0和1组成的二进制序列;可以通过设定一个阈值来实现,例如,将大于阈值的随机数转换为1,小于阈值的随机数转换为0。
使用生成的加密随机数(二进制序列)对录像节点采集到的音视频数据进行加密。其中,加密可以采用异或操作或其他对称加密算法。加密后的音视频数据密文通过网络发送到庭审业务管理节点。庭审业务管理节点接收到音视频数据密文后,使用相同的方法根据接收到的现场噪音数据生成解密随机数。然后,使用这个解密随机数对音视频数据密文进行解密,还原出原始的音视频数据。
本实施例的方案通过利用现场噪音数据生成加密随机数,增加了加密的随机性和不可预测性,从而提高了音视频数据传输过程中的安全性。各个步骤都是实时进行的,确保了音视频数据的实时加密和解密,适用于对实时性要求高的场景。使用洛吉斯蒂克映射生成随机数序列的方法具有一定的灵活性,可以通过调整映射的参数和初始条件来适应不同的环境和安全需求。由于加密随机数是基于现场噪音数据生成的,因此即使在存在噪声干扰的情况下,也能保证加密的有效性。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于Mesh架构处理音视频的方法,其特征在于,包括以下步骤:
依据预设的规则,授权Ⅰ类用户登录的节点,从庭审业务管理节点获取庭审视频源的地址,并允许其直接访问音频源和视频源;以及,在确定存在Ⅰ类用户时,从已授权的Ⅰ类用户登录的节点中选择一个作为音视频转发节点,为登录的Ⅱ类用户提供音视频转发服务;
根据指令确定录像节点,将录像节点作为Ⅱ类用户,并分配音视频转发节点,通过该音视频转发节点与庭审业务管理节点建立通信连接;
所述Ⅰ类用户登录的节点、Ⅱ类用户登录的节点、录像节点与庭审业务管理节点之间以mesh方式组网,且Ⅰ类用户登录的节点通过一个链路与庭审业务管理节通信连接。
2.根据权利要求1所述的方法,其特征在于,所述庭审业务管理节点向Ⅰ类用户登录的节点传输音视频前,进一步对该音视频进行音视频码流复用处理,所述处理的方法包括:
对法庭庭审中产生的音视频码流进行码流分析;
根据预设规则将音视频码流分为基础层和增强层,以适应不同的传输和播放需求;
根据预设封装格式对分层后的音视频码流进行封装,添加头信息和同步信息,以此将基础层码流与增强层码流,合并成一个复合码流;
所述庭审业务管理节点向Ⅰ类用户登录的节点传输音视频数据时,基于当前网络状况,以及接收端的解码能力,动态选择发送哪些质量层。
3.根据权利要求2所述的方法,其特征在于,所述预设封装格式包括:包头、包体、时间戳字段、同步信息以及校验码,其中包头用于标识码流类型和参数,包体包含实际的音视频数据。
4.根据权利要求2所述的方法,其特征在于,根据预设封装格式对分层后的音视频码流进行封装时,进一步为每个质量层分配唯一标识符,以便于进行音视频码流的识别。
5.根据权利要求4所述的方法,其特征在于,为每个质量层分配唯一标识符的方法包括:
分析音视频码流的固有属性,以采集音视频码流的编码格式、分辨率、帧率、码率和音频采样率;
获取码流生成或开始传输的精确时间戳;
对应音视频码流生成唯一随机数;
将采集的固有属性、时间戳和随机数进行组合,以得到唯一标识符。
6.根据权利要求5所述的方法,其特征在于,所述唯一随机数通过随机数发生器生成;所述随机数发生器生成随机数时,预先生成预设长度的随机数文件,所述唯一标识符中的随机数从所述随机数文件中顺序选取。
7.根据权利要求1所述的方法,其特征在于,所述录像节点用于向庭审业务管理节点发送音视频文件,所述录像节点处理所述音视频文件时,进一步对音视频文件进行降噪处理,所述降噪处理的方法包括:
在各噪声区域部署收音节点,将各收音节点与中心控制单元通信连接;
通过麦克风节点在法庭内采集预设时间的环境噪音,得到环境噪音样本;
对预先采集的环境噪音样本进行声纹特征提取,所述特征包括频率、振幅和波形特征;
根据法庭环境的噪音特性,使用自适应滤波算法或深度学习模型,并利用预先采集的法庭环境噪音样本进行模型的构建和训练;
实时采集现场音频数据,并将音频数据传输至中心控制单元,所述中心控制单元利用预先构建的噪音抵消模型,对实时采集的音频数据进行处理,以抵消其中的环境噪音成分。
8.根据权利要求7所述的方法,其特征在于,所述模型的构建和训练方法包括:
将噪音样本转换为数字信号,进行分帧处理,并提取频谱特征,进行归一化操作;
使用提取的特征和对应的标签训练噪音抵消模型,通过调整模型参数和结构优化模型性能。
9.根据权利要求7所述的方法,其特征在于,所述方法进一步包括:
实时采集现场噪音数据,将所述噪音数据作为预设加密算法的输入,生成加密随机数;
通过所述加密随机数加密所述录像节点采集到的音视频数据,得到音视频数据密文;
所述庭审业务管理节点根据接收的现场噪音数据,将其作为预设解密算法的输入生成解密随机数,以此解密从所述录像节点发送的音视频数据密文。
10.根据权利要求9所述的方法,其特征在于,所述噪音数据生成加密随机数的方法具体包括:
采集并预处理采集到的噪音数据,将其转换成用于数字处理的WAV格式;
使用音频数据的特征作为洛吉斯蒂克映射的初始条件和参数,以生成随机数序列;
对得到的随机数序列进行二值化处理,以得到加密随机数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410401281.5A CN117998114B (zh) | 2024-04-03 | 2024-04-03 | 一种基于Mesh架构处理音视频的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410401281.5A CN117998114B (zh) | 2024-04-03 | 2024-04-03 | 一种基于Mesh架构处理音视频的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117998114A true CN117998114A (zh) | 2024-05-07 |
CN117998114B CN117998114B (zh) | 2024-06-11 |
Family
ID=90902338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410401281.5A Active CN117998114B (zh) | 2024-04-03 | 2024-04-03 | 一种基于Mesh架构处理音视频的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117998114B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101917415A (zh) * | 2010-07-30 | 2010-12-15 | 北京华夏电通科技有限公司 | 一种用于远程庭审的数字法庭系统 |
EP2701364A1 (en) * | 2012-08-24 | 2014-02-26 | La Citadelle Inzenjering d.o.o. | Method and apparatus for providing content delivery over a wireless mesh network |
US20160351189A1 (en) * | 2015-06-01 | 2016-12-01 | Sinclair Broadcast Group, Inc. | Content segmentation and time reconciliation |
CN106851127A (zh) * | 2016-12-25 | 2017-06-13 | 重庆警蜂科技有限公司 | 巡回法庭用多角度摄录终端 |
CN111970476A (zh) * | 2020-10-22 | 2020-11-20 | 江苏怀业信息技术股份有限公司 | 应用在Mesh自组网的视频会议系统的数据传输方法 |
CN113038064A (zh) * | 2021-05-24 | 2021-06-25 | 北京电信易通信息技术股份有限公司 | 一种移动终端会议系统 |
CN113411538A (zh) * | 2020-03-16 | 2021-09-17 | 阿里巴巴集团控股有限公司 | 视频会话处理方法、装置及电子设备 |
-
2024
- 2024-04-03 CN CN202410401281.5A patent/CN117998114B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101917415A (zh) * | 2010-07-30 | 2010-12-15 | 北京华夏电通科技有限公司 | 一种用于远程庭审的数字法庭系统 |
EP2701364A1 (en) * | 2012-08-24 | 2014-02-26 | La Citadelle Inzenjering d.o.o. | Method and apparatus for providing content delivery over a wireless mesh network |
US20160351189A1 (en) * | 2015-06-01 | 2016-12-01 | Sinclair Broadcast Group, Inc. | Content segmentation and time reconciliation |
CN106851127A (zh) * | 2016-12-25 | 2017-06-13 | 重庆警蜂科技有限公司 | 巡回法庭用多角度摄录终端 |
CN113411538A (zh) * | 2020-03-16 | 2021-09-17 | 阿里巴巴集团控股有限公司 | 视频会话处理方法、装置及电子设备 |
CN111970476A (zh) * | 2020-10-22 | 2020-11-20 | 江苏怀业信息技术股份有限公司 | 应用在Mesh自组网的视频会议系统的数据传输方法 |
CN113038064A (zh) * | 2021-05-24 | 2021-06-25 | 北京电信易通信息技术股份有限公司 | 一种移动终端会议系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117998114B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110545405B (zh) | 一种基于视联网的视频传输方法及系统 | |
CN108965040B (zh) | 一种视联网的业务监控方法和装置 | |
CN110502259B (zh) | 服务器版本升级方法、视联网系统、电子设备及存储介质 | |
CN104219500A (zh) | 监控视频直播的装置和方法 | |
CN108877820B (zh) | 一种音频数据混合方法和装置 | |
CN110572607A (zh) | 一种视频会议方法、系统及装置和存储介质 | |
CN110809026B (zh) | 一种文件处理方法、装置、电子设备及存储介质 | |
CN109191808B (zh) | 一种基于视联网的报警方法及系统 | |
CN113301295A (zh) | 多画面视频数据处理方法、装置、计算机设备和存储介质 | |
EP1470690A2 (fr) | Procede et dispositif de transmission de message de gestion de titre d'acces | |
CN109544879B (zh) | 一种报警数据的处理方法和系统 | |
CN109803119B (zh) | 一种监控信息传输的方法和装置 | |
CN109302384B (zh) | 一种数据的处理方法和系统 | |
CN117998114B (zh) | 一种基于Mesh架构处理音视频的方法 | |
CN101754024B (zh) | 一种复用装置及复用方法 | |
CN110769297A (zh) | 一种音视频数据的处理方法和系统 | |
CN113542906A (zh) | 一种基于rtsp视频的网页无插件播放方法 | |
CN110392227B (zh) | 数据处理方法、装置及存储介质 | |
CN110086773B (zh) | 一种音视频数据的处理方法和系统 | |
CN110392275B (zh) | 一种文稿演示的共享方法、装置及视联网软终端 | |
CN102833524B (zh) | 一种对本地音频及呼叫方音频同时录像的控制方法 | |
CN109698859B (zh) | 一种基于视联网的数据存储方法和装置 | |
CN110620936B (zh) | 一种视联网视频的备份方法及装置、电子设备和存储介质 | |
CN110536148B (zh) | 一种基于视联网的直播方法和设备 | |
CN110474934B (zh) | 一种数据处理方法和视联网监控平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |