CN115695708A

CN115695708A - 一种具有无线麦克风智能跟踪功能的音视频控制方法

Info

Publication number: CN115695708A
Application number: CN202211324931.8A
Authority: CN
Inventors: 陈炳佐; 黄文玲
Original assignee: Shenzhen Aoni Electronic Co ltd
Current assignee: Shenzhen Aoni Electronic Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-02-03
Also published as: WO2024087641A1

Abstract

本发明公开了一种具有无线麦克风智能跟踪功能的音视频控制方法，包括以下过程：步骤S100：音视频控制系统获取无线麦克风所在空间的音频信息和视频信息，音频信息包括第一音频信息和第二音频信息，视频信息包括全局人物图像信息和局部人物图像信息；步骤S200：将第一音频信息进行解析得到第一音频属性，将区分后的音频属性与全局人物图像信息进行匹配；步骤S300：根据第二音频信息和局部人物图像信息对不同人员的位置进行定位；步骤S400：监控所有位置数据上对应人员的第二音频信息是否更新，发送人员的位置数据并将人员对应的局部人物图像信息进行全局放大得到对应人员的音视频监控信息。

Description

一种具有无线麦克风智能跟踪功能的音视频控制方法

技术领域

本发明涉及音视频控制技术领域，具体为一种具有无线麦克风智能跟踪功能的音视频控制方法。

背景技术

目前，音频或者视频会议主机系统主要采用麦克风和扬声器作为声音信号传输的载体；其中视频会议，是指位于两个或多个地点的人们，通过通信设备和网络，进行面对面交谈的会议，根据参会地点数目不同，视频会议可分为点对点会议和多点会议，日常生活中的个人，对谈话内容安全性、会议质量、会议规模没有要求，可以采用视频软件来进行视频聊天，而政府机关、企业事业单位的商务视频会议，要求有稳定安全的网络、可靠的会议质量、正式的会议环境等条件，则需要使用专业的视频会议设备，组建专门的视频会议系统，由于这样的视频会议系统都要用到电视来显示，也被称为电视会议、视讯会议；

但是，大多企业在进行视频会议的时候，往往多组部门进行同时召开，但是每一组部门又存在多位会议参加人员，在会议过程中需要人员之间的相互探讨，导致麦克风在拾音过程中难以将收录的音频信息与实际的人物对应起来，且进行会议的空间环境各不相同，人员固定的位置也不相同，导致无法快速高效的确定每个在场人员的位置，以及智能麦克风的摄像功能无法精准找到正在发言人员的视频图像。

发明内容

本发明的目的在于提供一种具有无线麦克风智能跟踪功能的音视频控制方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种具有无线麦克风智能跟踪功能的音视频控制方法，包括以下具体过程：

步骤S100：音视频控制系统获取无线麦克风所在空间的音频信息和视频信息，音频信息包括第一音频信息和第二音频信息，视频信息包括全局人物图像信息和局部人物图像信息；

步骤S200：基于步骤S100中的音频信息，将第一音频信息进行解析得到第一音频属性，对不同属性的音频进行区分；根据区分后的音频属性与全局人物图像信息进行结合分析，匹配音频信息中不同属性的音频对应的全局人物图像信息中具体的人物信息；

步骤S300：在匹配完成后，根据第二音频信息和局部人物图像信息对不同人员的位置进行定位，并给音视频控制系统发送每个人的位置数据；

步骤S400：当音视频控制系统接收所有人的位置数据后，监控所有位置数据上对应人员的第二音频信息是否更新，当音视频控制系统监控到更新第二音频信息的人员，发送人员的位置数据并将人员对应的局部人物图像信息进行全局放大得到对应人员的音视频监控信息。

进一步的，音频控制系统包含调试模式和会议模式；调试模式用于采集第一音频信息和全局人物图像信息，会议模式用于采集第二音频信息和局部人物图像信息；

调试模式用于放置无线麦克风，无线麦克风接通音视频会议主机的电源，无线麦克风设有麦克风的电源按键并在接通电源时无目标的上下左右摇头获取全局人物图像信息和局部人物图像信息；当音频控制系统分析到具体人员时，无线麦克风上的摄像头会对准参会人员并获取人员的位置地址并将位置地址发送给音视频控制系统；重复定位，无线麦克风将每个人的地址记录到音视频控制系统中，完成系统的初步定位；

会议模式用于参会人员发言时依据音视频系统中已经确认的位置信息，将摄像头转向位置信息对应的参会人员并放大参会人员的第二音频信息和局部人物图像信息。

进一步的，第一音频信息和第二音频信息的划分包括以下过程：

步骤S110：音视频控制系统获取音频采集阶段的音频信息，将音频信息转化为数字信号，获取相邻数字信号之间的总时间间隔t0以及数字信号的总信息长度p0，计算数字信号的整体发声波动频率指数w＝p0/t0；时间间隔反应出在声音采集阶段会包含的两种情况，一种是所有声音杂乱无章没有规律，另一种则是在规划完成后声音有规律的发声；将这两种情况进行分辨开来是为了区分在很多声音监控场景中适用的声音变化规律；而发生波动频率指数表示在整个声音采集阶段中的平均变化；

步骤S120：基于步骤S110的发声波动频率指数，音视频控制系统从声音采集阶段的第一个数字信号进行遍历，获取第一个数字信号与相邻数字信号的发声波动频率，并将第一个数字信号的发声波动频率与整体发声波动频率指数做差值得到频率波动差；频率波动差表示随着时间的发展，在监控场景中声音波动频率与平均波动频率指数的偏差程度；且声音的变化会有一个临界点进行划分，且这里并不界定临界点前和后的频率波动差的大小关系，能够包容更多场景声音变化的规律，如：有时声音采集前阶段频率波动较大，有时声音采集前阶段频率波动较小的情况；

步骤S130：依次获取声音采集阶段中相邻数字信号的发声波动频率并标记转折数字信号，转折数字信号为前相邻数字信号的频率波动差与后相邻数字信号的频率波动差做商为负值对应的数字信号，且转折数字信号后所有数字信号的频率波动差的正负均与转折数字信号对应的频率波动差的正负相同；

步骤S140：基于步骤S130的判断规则，音视频控制系统将转折数字信号前的音频信息划分为第一音频信息，转折数字信号后的音频信息划分为第二音频信息。

进一步的，步骤S200包括以下过程：

步骤S210：将第一音频属性对应的数字信号进行频率相似度的区分，将频率相似度大于95％的数字信号对应的音频属性归为一类，并记作u_j，j＝{1,2，...k}，j表示不同种类第一音频属性的个数，u_j表示第j种第一音频属性；且记录每次音频的分贝特征为v_js，s为任意不为0的自然数，s表示区分后的第j种第一音频属性在声音采集阶段出现的次数，v_js表示第j种第一音频属性的第s次出现的分贝特征；

频率反应声音的特质，每个人的声音频率都不相同，先通过频率划分监控到的人数，再分别对每个人进行分析分贝的特征，因为分贝的大小受接收端和产生端距离的影响；

步骤S220：将不同种第一音频属性以及对应的分贝特征记作一个集合A，分别计算集合A中第j种第一音频属性对应的分贝特征随时间变化的平均分贝差值比例G_j＝∑v_js′/n，其中v_js′表示在第j中第一音频属性中相邻两种分贝特征的差值，n表示分贝特征差值的个数，n至少1；计算集合A中不同种第一音频属性的整体偏差指数Q＝(maxG_j-minG_j)/∑G_j；

步骤S230：对全局人物图像信息中不同人物的全局图像进行分类得到第j种全局人物图像h_j，将不同种全局人物图像的人物比例记作一个集合B，分别计算集合B中第j种全局人物图像随时间变化对应的平均人物图像比例差值D_j＝∑h_j′/m；其中h_j′表示第j种全局人物图像中相邻两个图像的人物图像比例差值，m表示人物图像比例差值的个数，m至少为1；计算集合B中不同种全局人物图像的整体偏差指数Z＝(maxD_j-minD_j)/∑D_j；

整体偏差指数反应在监控的所有人中分贝大小的跨度和图像反映距离的跨度，如果这两种跨度基本一致，可以说明分贝的变化和距离存在联系；

步骤S240：基于步骤S220的整体偏差指数Q和步骤S230中的整体偏差指数Z，计算偏差指数相似度T＝Q/Z，如果偏差指数相似度大于相似度阈值，则说明人员分贝的变化与全局图像中人员位置的移动相关，并对集合A中平均分贝差值比例和集合B中的平均人物图像比例差值进行相似度大于99％的一一对应，获取全局人物图像信息中不同人对应的音频属性。在说明分贝的变化与距离具有关联性时，再进一步分析每种类型音频属性的分贝变化规律和全局图像的变化规律，进行对应后则可匹配是哪个人发出的哪种频率。

进一步的，步骤S300包括以下过程：

基于步骤S240中一一对应后的数据，以第二音频信息中首次发声的人员为起始人员，并获取局部人物图像信息中所有人物图像的人物比例，将人物比例从大到小进行排序，设置最小的人物比例图像中对应的位置坐标为起始坐标；

当监控中任意人员发声时，以此时发声人员在局部人物图像中对应的人物比例和起始人员的人物比例大小关系为依据，在起始坐标上进行扇形适配得到第二为人员的位置坐标；扇形适配表示以起始坐标为扇形的圆心，发声人员的人物比例与起始人员的人物比例关系转化为数学数据，并以数据为半径进行同方向估值。因为在无线麦克风监控过程中，人员在稳定状态下的分布存在多种位置可能，比如矩阵分布、圆形分布等等，且在获取人物图像时，先进行一个机位的所有人员图像的获取，可以得出每个人在图像中的比例关系，因为每个人的位置不同，图像获取的位置不变的情况下人物图像比例也将会是不同的，利用扇形适配可以增大位置坐标的包容性。

进一步的，音视频控制方法包括音视频控制系统，音视频控制系统包括空间信息获取模块、空间信息解析模块、位置数据获取模块和监控数据放大模块；

空间信息获取模块用于获取无线麦克风所处空间的数据信息，并将数据信息传输给空间信息解析模块；空间信息解析模块用于解析来自空间信息获取模块的数据信息；位置数据获取模块用于根据解析完成后的数据信息判断空间内人员的位置信息；监控数据放大模块用于在空间信息获取模块增加新的数据信息时，对新数据信息中的人物进行全局放大得到对应人员的音视频监控信息。

进一步的，空间信息获取模块包括音频信息获取模块和视频信息获取模块；音频信息获取模块获取音频信息，音频信息包括第一音频信息和第二音频信息；视频信息获取模块获取视频信息，视频信息获取模块包括全局人物图像信息获取模块和局部人物图像信息获取模块；

音频信息获取模块包括数字信号转化模块、发声波动频率指数计算模块、转折数字信号标记模块和音频信息划分模块；

数字信号转化模块用于将音频信息转化为数字信号，发生波动频率指数计算模块获取相邻数字信号之间的总时间间隔t0以及数字信号的总信息长度p0，计算数字信号的整体发声波动频率指数w＝p0/t0；

转折数字信号标记模块遍历第一个数字信号与相邻数字信号的发声波动频率，并将第一个数字信号的发声波动频率与整体发声波动频率指数做差值得到频率波动差；依次获取声音采集阶段中相邻数字信号的发声波动频率并标记转折数字信号，转折数字信号为前相邻数字信号的频率波动差与后相邻数字信号的频率波动差做商为负值对应的数字信号，且转折数字信号后所有数字信号的频率波动差的正负均与转折数字信号对应的频率波动差的正负相同；

音频信息划分模块用于将将转折数字信号前的音频信息划分为第一音频信息，转折数字信号后的音频信息划分为第二音频信息。

进一步的，空间信息解析模块包括音频信息分析模块、视频信息分析模块和人物匹配模块；音频信息分析模块包括音频属性分类模块、平均分贝差值比例计算模块、音频属性偏差指数计算模块；视频信息分析模块包括全局人物图像分类模块、人物图像比例差值计算模块和全局人物图像偏差指数计算模块；人物匹配模块包括偏差指数相似度计算模块和人物音频属性对应模块；

音频属性分析模块将不同音频属性进行分类，平均分贝差值比例计算模块用于记录每次音频的分贝特征并将不同种第一音频属性以及对应的分贝特征记作一个集合A，分别计算集合A中第j种第一音频属性对应的分贝特征随时间变化的平均分贝差值比例；音频属性偏差指数计算模块用于计算集合A中不同种第一音频属性的整体偏差指数；

全局人物图像分类模块用于将全局人物图像信息获取模块中的人物图像进行分类，并将不同人物图像对应的人物图像比例记作集合B；人物图像比例差值计算模块用于计算集合B中不同种全局人物图像随时间变化的平均人物图像比例差值，全局人物图像偏差指数计算模块用于计算不同种全局人物图像的整体偏差指数；

偏差指数相似度计算模块用于比较全局人物图像偏差指数计算模块和音频属性偏差指数计算模块中的数值相似度大小，在大于相似度阈值时说明人员分贝的变化与全局图像中人员位置的移动相关；人物音频属性对应模块对集合A中平均分贝差值比例和集合B中的平均人物图像比例差值进行相似度大于99％的一一对应，获取全局人物图像信息中不同人对应的音频属性。

进一步的，位置数据获取模块包括人物图像比例排序模块、起始坐标设定模块和扇形适配模块；

人物图像比例排序模块用于以第二音频信息中首次发声的人员为起始人员，并获取局部人物图像信息中所有人物图像的人物比例，将人物比例从大到小进行排序；起始坐标设定模块设定最小的人物比例图像中对应的位置坐标为起始坐标；

扇形适配模块用于当监控中任意人员发声时，以此时发声人员在局部人物图像中对应的人物比例和起始人员的人物比例大小关系为依据，在起始坐标上进行扇形适配得到第二为人员的位置坐标。

与现有技术相比，本发明所达到的有益效果是：本发明解决了在适用于无线麦克风智能跟踪的场景中由于人员的繁杂不能简单高效的辨析声音的来源与人物的具体对应，以至于在监控时捕捉到声音的发出却不能明确声音的位置，且本发明适应麦克风监控的所有环境进行可调整的定位，利用音频信息和视频信息相互结合分析的方法判断空间声音位置的关联性，进而获取声音与人的对应关系，本发明使得在不同环境中均可辨析人发出的声音和人位置的实时关系，提高系统识别人物的效率；且本发明通过图像比例确定坐标增大了位置坐标所处场景的包容性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种具有无线麦克风智能跟踪功能的音视频控制方法的系统结构图；

图2是本发明一种具有无线麦克风智能跟踪功能的音视频控制方法的步骤图。

图3是本发明一种具有无线麦克风智能跟踪功能的音视频控制方法的音视频控制原理框图；

图4是本发明一种具有无线麦克风智能跟踪功能的音视频控制方法的会议麦克风原理框图；

图5是本发明一种具有无线麦克风智能跟踪功能的音视频控制方法的会摄像设备主机原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图5，本发明提供技术方案：一种具有无线麦克风智能跟踪功能的音视频控制方法，包括以下具体过程：

如实施例图3所示，音视频控制系统包含摄像设备主机以及多个会议麦克风，各个会议麦克风与摄像设备主机通过无线通讯的方式连接；

如图4所示，会议麦克风包括麦克风控制主晶片、麦克风输入电路、第一2.4G收发电路、按键电路、麦克风电源供应电路，麦克风输入电路、第一2.4G收发电路、按键电路分别连接麦克风控制主晶片，麦克风电源供应电路给麦克风控制主晶片、麦克风输入电路、第一2.4G收发电路、按键电路供电；

如图5所示，摄像设备主机具有摄像头以及喇叭；摄像设备主机的电路结构包括摄像设备主机晶片、音频输出电路、主机按键、第二2.4G收发电路、喇叭输出电路、USB接口电路、摄像头、轨道控制电路、电源供应电路；摄像设备主机晶片连接轨道控制电路，轨道控制电路连接摄像头；摄像设备主机晶片同时电连接USB接口电路，USB接口电路同时接于摄像头；摄像设备主机晶片电连接音频输出电路，该音频输出电路连接音频通讯设备；摄像设备主机晶片电连接喇叭输出电路，该喇叭输出电路用于连接喇叭；摄像设备主机晶片还电连接第二2.4G收发电路；

麦克风控制主晶片和摄像设备主机晶片为蓝牙5.3LE Audio芯片；

音频控制系统包含调试模式和会议模式；调试模式用于采集第一音频信息和全局人物图像信息，会议模式用于采集第二音频信息和局部人物图像信息；

如实施例：摄像设备主机具有XYZ三轴，通过XYZ三轴驱动摄像头；

摄像设备主机启动连接摄像头后，XYZ轴轨道做扫描，当摄像头对到会议麦克风方向时，此时会议麦克风会发出命令至摄像设备主机，摄像设备主机此时会记录对应此支会议麦克风的XYZ轴轨道的位置；

会议麦克风会利用无线讯号送出一组控制码给摄像设备主机，摄像设备主机收到后会把这支会议麦克风的XYZ轴轨道的位置资料控制摄像头转向这支会议麦克风的方向；

会议麦克风将收到的音频讯号经过LE Audio LC3,LC3+的编解码技术把形成的语音包利用TDMA多时分工技术无线发射至摄像设备主机。

第一音频信息和第二音频信息的划分包括以下过程：

步骤S200包括以下过程：

例如：现场有3类第一音频属性u₁、u₂、u₃，且每一类音频属性包含三种分贝特征，对应为v₁₁、v₁₂、v₁₃、v₂₁、v₂₂、v₂₃、v₃₁、v₃₂、v₃₃，则集合A表示为{v₁₁＝40，v₁₂＝60，v₁₃＝90，v₂₁＝30，v₂₂＝70，v₂₃＝85，v₃₁＝35，v₃₂＝60，v₃₃＝85}，G₁＝∑v_js′/n＝(20+30)/2＝25，G₂＝27.5，G₃＝20；则Q＝(maxG₂-minG₃)/∑G_j＝(27.5-20)/72.5≈0.103；

有3种全局人物图像，则集合B为{h₁＝5％→10％→20％，h₂＝6％→15％→20％，h₃＝4％→13％→18％}，则D₁＝∑h_j′/m＝(5+10)/2＝7.5％，D₂＝7％，D₃＝7％，Z＝(maxD₁-minD₂)/∑D_j＝(7.5-7)/21.5≈0.023；

一一对应的过程就是比较分别依次比较集合A中{v₁₁＝40，v₁₂＝60，v₁₃＝90}、{v₂₁＝30，v₂₂＝70，v₂₃＝85}、{v₃₁＝35，v₃₂＝60，v₃₃＝85}与集合B中{h₁＝5％→10％→20％}、{h₂＝6％→15％→20％}、{h₃＝4％→13％→18％}的相似度。

步骤S300包括以下过程：

音视频控制方法包括音视频控制系统，音视频控制系统包括空间信息获取模块、空间信息解析模块、位置数据获取模块和监控数据放大模块；

空间信息获取模块包括音频信息获取模块和视频信息获取模块；音频信息获取模块获取音频信息，音频信息包括第一音频信息和第二音频信息；视频信息获取模块获取视频信息，视频信息获取模块包括全局人物图像信息获取模块和局部人物图像信息获取模块；

空间信息解析模块包括音频信息分析模块、视频信息分析模块和人物匹配模块；音频信息分析模块包括音频属性分类模块、平均分贝差值比例计算模块、音频属性偏差指数计算模块；视频信息分析模块包括全局人物图像分类模块、人物图像比例差值计算模块和全局人物图像偏差指数计算模块；人物匹配模块包括偏差指数相似度计算模块和人物音频属性对应模块；

位置数据获取模块包括人物图像比例排序模块、起始坐标设定模块和扇形适配模块；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于，包括以下具体过程：

步骤S100：音视频控制系统获取无线麦克风所在空间的音频信息和视频信息，所述音频信息包括第一音频信息和第二音频信息，所述视频信息包括全局人物图像信息和局部人物图像信息；

步骤S200：基于所述步骤S100中的音频信息，将第一音频信息进行解析得到第一音频属性，对不同属性的音频进行区分；根据区分后的音频属性与全局人物图像信息进行结合分析，匹配音频信息中不同属性的音频对应的全局人物图像信息中具体的人物信息；

步骤S400：当所述音视频控制系统接收所有人的位置数据后，监控所有位置数据上对应人员的第二音频信息是否更新，当所述音视频控制系统监控到更新第二音频信息的人员，发送人员的位置数据并将人员对应的局部人物图像信息进行全局放大得到对应人员的音视频监控信息。

2.根据权利要求1所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：所述音频控制系统包含调试模式和会议模式；所述调试模式用于采集第一音频信息和全局人物图像信息，所述会议模式用于采集第二音频信息和局部人物图像信息；

所述调试模式用于放置无线麦克风，所述无线麦克风接通音视频会议主机的电源，所述无线麦克风设有麦克风的电源按键并在接通电源时无目标的上下左右摇头获取全局人物图像信息和局部人物图像信息；当所述音频控制系统分析到具体人员时，所述无线麦克风上的摄像头会对准参会人员并获取人员的位置地址并将位置地址发送给音视频控制系统；重复定位，所述无线麦克风将每个人的地址记录到音视频控制系统中，完成系统的初步定位；

所述会议模式用于参会人员发言时依据音视频系统中已经确认的位置信息，将摄像头转向位置信息对应的参会人员并放大参会人员的第二音频信息和局部人物图像信息。

3.根据权利要求1所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：第一音频信息和第二音频信息的划分包括以下过程：

步骤S110：音视频控制系统获取音频采集阶段的音频信息，将所述音频信息转化为数字信号，获取相邻数字信号之间的总时间间隔t0以及数字信号的总信息长度p0，计算数字信号的整体发声波动频率指数w＝p0/t0；

步骤S120：基于步骤S110的发声波动频率指数，音视频控制系统从声音采集阶段的第一个数字信号进行遍历，获取第一个数字信号与相邻数字信号的发声波动频率，并将第一个数字信号的发声波动频率与整体发声波动频率指数做差值得到频率波动差；

步骤S130：依次获取声音采集阶段中相邻数字信号的发声波动频率并标记转折数字信号，所述转折数字信号为前相邻数字信号的频率波动差与后相邻数字信号的频率波动差做商为负值对应的数字信号，且转折数字信号后所有数字信号的频率波动差的正负均与所述转折数字信号对应的频率波动差的正负相同；

4.根据权利要求2所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：所述步骤S200包括以下过程：

步骤S240：基于步骤S220的整体偏差指数Q和步骤S230中的整体偏差指数Z，计算偏差指数相似度T＝Q/Z，如果所述偏差指数相似度大于相似度阈值，则说明人员分贝的变化与全局图像中人员位置的移动相关，并对集合A中平均分贝差值比例和集合B中的平均人物图像比例差值进行相似度大于99％的一一对应，获取全局人物图像信息中不同人对应的音频属性。

5.根据权利要求3所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：所述步骤S300包括以下过程：

基于步骤S240中一一对应后的数据，以第二音频信息中首次发声的人员为起始人员，并获取局部人物图像信息中所有人物图像的人物比例，将所述人物比例从大到小进行排序，设置最小的人物比例图像中对应的位置坐标为起始坐标；

当监控中任意人员发声时，以此时发声人员在局部人物图像中对应的人物比例和起始人员的人物比例大小关系为依据，在起始坐标上进行扇形适配得到第二为人员的位置坐标；所述扇形适配表示以起始坐标为扇形的圆心，发声人员的人物比例与起始人员的人物比例关系转化为数学数据，并以数据数据为半径进行同方向估值。

6.根据权利要求1所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：所述音视频控制方法包括音视频控制系统，所述音视频控制系统包括空间信息获取模块、空间信息解析模块、位置数据获取模块和监控数据放大模块；

所述空间信息获取模块用于获取无线麦克风所处空间的数据信息，并将所述数据信息传输给所述空间信息解析模块；所述空间信息解析模块用于解析来自所述空间信息获取模块的数据信息；所述位置数据获取模块用于根据解析完成后的数据信息判断空间内人员的位置信息；所述监控数据放大模块用于在空间信息获取模块增加新的数据信息时，对新数据信息中的人物进行全局放大得到对应人员的音视频监控信息。

7.根据权利要求5所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：所述空间信息获取模块包括音频信息获取模块和视频信息获取模块；所述音频信息获取模块获取音频信息，所述音频信息包括第一音频信息和第二音频信息；所述视频信息获取模块获取视频信息，所述视频信息获取模块包括全局人物图像信息获取模块和局部人物图像信息获取模块；

所述音频信息获取模块包括数字信号转化模块、发声波动频率指数计算模块、转折数字信号标记模块和音频信息划分模块；

所述数字信号转化模块用于将音频信息转化为数字信号，所述发生波动频率指数计算模块获取相邻数字信号之间的总时间间隔t0以及数字信号的总信息长度p0，计算数字信号的整体发声波动频率指数w＝p0/t0；

所述转折数字信号标记模块遍历第一个数字信号与相邻数字信号的发声波动频率，并将第一个数字信号的发声波动频率与整体发声波动频率指数做差值得到频率波动差；依次获取声音采集阶段中相邻数字信号的发声波动频率并标记转折数字信号，所述转折数字信号为前相邻数字信号的频率波动差与后相邻数字信号的频率波动差做商为负值对应的数字信号，且转折数字信号后所有数字信号的频率波动差的正负均与所述转折数字信号对应的频率波动差的正负相同；

所述音频信息划分模块用于将将转折数字信号前的音频信息划分为第一音频信息，转折数字信号后的音频信息划分为第二音频信息。

8.根据权利要求6所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：所述空间信息解析模块包括音频信息分析模块、视频信息分析模块和人物匹配模块；所述音频信息分析模块包括音频属性分类模块、平均分贝差值比例计算模块、音频属性偏差指数计算模块；所述视频信息分析模块包括全局人物图像分类模块、人物图像比例差值计算模块和全局人物图像偏差指数计算模块；所述人物匹配模块包括偏差指数相似度计算模块和人物音频属性对应模块；

所述音频属性分析模块将不同音频属性进行分类，所述平均分贝差值比例计算模块用于记录每次音频的分贝特征并将不同种第一音频属性以及对应的分贝特征记作一个集合A，分别计算集合A中第j种第一音频属性对应的分贝特征随时间变化的平均分贝差值比例；所述音频属性偏差指数计算模块用于计算集合A中不同种第一音频属性的整体偏差指数；

所述全局人物图像分类模块用于将全局人物图像信息获取模块中的人物图像进行分类，并将不同人物图像对应的人物图像比例记作集合B；所述人物图像比例差值计算模块用于计算集合B中不同种全局人物图像随时间变化的平均人物图像比例差值，所述全局人物图像偏差指数计算模块用于计算不同种全局人物图像的整体偏差指数；

所述偏差指数相似度计算模块用于比较所述全局人物图像偏差指数计算模块和所述音频属性偏差指数计算模块中的数值相似度大小，在大于相似度阈值时说明人员分贝的变化与全局图像中人员位置的移动相关；所述人物音频属性对应模块对集合A中平均分贝差值比例和集合B中的平均人物图像比例差值进行相似度大于99％的一一对应，获取全局人物图像信息中不同人对应的音频属性。

9.根据权利要求6所述的一种具有无线麦克风智能跟踪功能的音视频控制方法，其特征在于：所述位置数据获取模块包括人物图像比例排序模块、起始坐标设定模块和扇形适配模块；

所述人物图像比例排序模块用于以第二音频信息中首次发声的人员为起始人员，并获取局部人物图像信息中所有人物图像的人物比例，将所述人物比例从大到小进行排序；所述起始坐标设定模块设定最小的人物比例图像中对应的位置坐标为起始坐标；

所述扇形适配模块用于当监控中任意人员发声时，以此时发声人员在局部人物图像中对应的人物比例和起始人员的人物比例大小关系为依据，在起始坐标上进行扇形适配得到第二为人员的位置坐标。