CN116437038A - 语音激励终端的确定方法、装置和存储介质 - Google Patents

语音激励终端的确定方法、装置和存储介质 Download PDF

Info

Publication number
CN116437038A
CN116437038A CN202210007479.6A CN202210007479A CN116437038A CN 116437038 A CN116437038 A CN 116437038A CN 202210007479 A CN202210007479 A CN 202210007479A CN 116437038 A CN116437038 A CN 116437038A
Authority
CN
China
Prior art keywords
video conference
terminal
determining
volume
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210007479.6A
Other languages
English (en)
Inventor
阎江
任志强
陈宇恒
杨书茂
李大伟
涂泾伦
冯杨森
金鑫
王颂阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile IoT Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile IoT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile IoT Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202210007479.6A priority Critical patent/CN116437038A/zh
Publication of CN116437038A publication Critical patent/CN116437038A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种语音激励终端的确定方法、装置和存储介质,语音激励终端的确定方法包括:获取视频会议终端对应的音量参考值,其中,音量参考值为预设采样周期内,视频会议终端采集到的音频的最大音量值;根据视频会议终端对应的至少两个音量参考值,确定视频会议终端对应的音量代表值;根据各个视频会议终端对应音量代表值,确定当前时刻对应的语音激励终端。本申请通过多个预设采样周期内的音量参考值确定视频会议终端的音量代表值,然后,再根据音量代表值确定语音激励终端,如此,提高了确定激励终端的准确性,从而提高了视频画面切换的流畅性。

Description

语音激励终端的确定方法、装置和存储介质
技术领域
本申请涉及视频通信技术领域,尤其涉及一种语音激励终端的确定方法、装置和存储介质。
背景技术
随着社会的发展,视频会议应用越来越广泛,同时对音视频质量、灵活易用性、易管理性的要求也越来越严格。远程视频会议为了解决异地会议的问题,支持多种入会方式,如PC、手机、Pad等。但是,传统视频会议系统缺少对会议发言人视频画面的管理,当有多人参数视频会议时,由于语音识别率低,导致激励终端识别准确性低,从而使视频画面切换延时。
发明内容
本申请实施例通过提供一种语音激励终端的确定方法、装置和存储介质,旨在解决激励终端识别准确性低,导致视频画面切换延时的问题。
为实现上述目的,本申请一方面提供一种语音激励终端的确定方法,所述方法包括:
获取视频会议终端对应的音量参考值,其中,所述音量参考值为预设采样周期内,所述视频会议终端采集到的音频的最大音量值;
根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值;
根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端。
可选地,所述根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值的步骤,包括:
获取各个所述音量参考值对应的平均值;
将所述平均值作为每个所述视频会议终端对应的音量代表值。
可选地,所述根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值的步骤,还包括:
获取各个所述音量参考值对应的权重值;
根据所述权重值对所述音量参考值进行加权求和得到和值,将所述和值作为每个所述视频会议终端对应的音量代表值。
可选地,所述根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端的步骤包括:
比对各个所述视频会议终端的音量代表值,得到比对结果;
根据所述比对结果确定最大的音量代表值,将所述最大的音量参考值对应的视频会议终端确定为当前时刻对应的语音激励终端;
其中,在确定所述语音激励终端时,将所述语音激励终端的视频画面切换至主界面。
可选地,所述比对各个所述视频会议终端的音量代表值,得到比对结果的步骤之后,包括:
根据所述比对结果确定各个所述视频会议终端的麦克风音频通道的优先级;
根据所述优先级切换所述麦克风音频通道。
可选地,所述根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端的步骤,还包括:
当至少两个所述视频会议终端的音量代表值相同时,获取各个所述视频会议终端在预设采样周期内首次采集到的音频的时间点;
根据所述时间点确定当前时刻对应的语音激励终端。
可选地,所述获取视频会议终端对应的音量参考值的步骤之前,包括:
获取各个所述视频会议终端采集到的音频;
提取所述音频的音频特征,根据所述音频特征获取所述音频的频谱特征;
在所述频谱特征与设定频谱特征一致时,根据所述音频确定各个视频会议终端对应的音量参考值。
此外,为实现上述目的,本申请另一方面还提供一种语音激励终端的确定装置,所述语音激励终端的确定装置包括获取模块、第一确定模块和第二确定模块,其中:
所述获取模块,用于获取视频会议终端对应的音量参考值,其中,所述音量参考值为预设采样周期内,所述视频会议终端采集到的音频的最大音量值;
所述第一确定模块,用于根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值;
所述第二确定模块,用于根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端。
此外,为实现上述目的,本申请另一方面还提供一种语音激励终端的确定装置,所述装置包括存储器、处理器及存储在存储器上并在所述处理器上运行语音激励终端的确定程序,所述语音激励终端的确定程序被处理器执行时实现如上所述语音激励终端的确定方法的步骤。
此外,为实现上述目的,本申请另一方面还提供一种存储介质,所述存储介质上存储有语音激励终端的确定程序,所述语音激励终端的确定程序被处理器执行时实现如上所述语音激励终端的确定方法的步骤。
本申请提出一种语音激励终端的确定方法,通过获取视频会议终端对应的音量参考值,其中,音量参考值为预设采样周期内,视频会议终端采集到的音频的最大音量值;根据视频会议终端对应的至少两个音量参考值,确定视频会议终端对应的音量代表值;根据各个视频会议终端对应音量代表值,确定当前时刻对应的语音激励终端。本申请通过多个预设采样周期内的音量参考值确定视频会议终端的音量代表值,然后,再根据音量代表值确定语音激励终端,如此,提高了确定激励终端的准确性,从而提高了视频画面切换的流畅性。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本申请语音激励终端的确定方法第一实施例的流程示意图;
图3为本申请语音激励终端的确定方法第一实施例中步骤S10之前的流程示意图;
图4为本申请语音激励终端的确定方法第一实施例中步骤S30的细化流程示意图;
图5为本申请语音激励终端的确定方法的模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
基于视频会议系统的现状,目前主要存在两种通过语音激励技术切换视频画面的方案:基于硬件终端采集模块、声音编码器语音激励和逻辑控制装置方案;基于语音识别算法模型识别发言人方案。如此,至少存在以下问题:
第一、基于硬件终端采集模块、声音编码器语音激励和逻辑控制装置方案:传统硬件终端会议系统的语音激励设备包括声音采集模块、声音编码器、会议控制器、声音解码器、声音播放模块及声音控制开关等控制模块,视频效果好,性能稳定,但投资成本大。基于硬件的视频会议系统可以提供高质量的服务,但是其成本高昂,无法大规模部署,维护成本较高。
第二,基于语音识别算法模型识别发言人方案:网络视频会议系统通过网络通信技术实现虚拟视频会议,支持远距离进行实时交流与共享,开展协同工作的应用系统,不受地理位置影响,随时随地进入会议。视频会议系统通过采集协作成员音频信息,通过语音识别算法模型,识别当前发言人,并将视频画面切换为发言人画面,极大的保障会议沟通的流畅性。但该方法受噪声、网络等因素影响,声音识别度成功率不是太高,画面切换延迟。
基于此,本申请提出以下各个实施例,通过语音激励算法模型识别出当前发言人,在多方远程视频会议中,将发言人的视频画面会切换至主界面,实现视频画面对应的数字编号,麦克音频通道优先权的设定,满足在会议过程中,对现场发言人进行视频画面的自动切换,使会议视频画面切换更加灵活,挺高了会议进行的流畅性。
如图1所示,图1为本申请实施例方案涉及的硬件运行环境的终端结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括语音激励终端的确定程序。
在图1所示的终端中,网络接口1004主要用于与后台服务器进行数据通信;用户接口1003主要用于与客户端(用户端)进行数据通信;处理器1001可以用于调用存储器1005中语音激励终端的确定程序,并执行以下操作:
获取视频会议终端对应的音量参考值,其中,所述音量参考值为预设采样周期内,所述视频会议终端采集到的音频的最大音量值;
根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值;
根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端。
参考图2,图2为本申请语音激励终端的确定方法第一实施例的流程示意图。
本申请实施例提供了一种语音激励终端的确定方法,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例的语音激励终端的确定方法,包括以下步骤:
步骤S10,获取视频会议终端对应的音量参考值,其中,所述音量参考值为预设采样周期内,所述视频会议终端采集到的音频的最大音量值;
本实施例中,在采集到各个视频会议终端的音频后,基于该音频确定视频会议终端对应的音量参考值,其中,音量参考值为预设采样周期内,视频会议终端采集到的音频的最大音量值,例如,预设采样周期为20s,如果在20s内采集到视频会议终端A的最大音量值为90db,则将90db作为视频会议终端A的音量参考值。
步骤S20,根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值;
本实施例中,在确定各个视频会议终端在每个采样周期内对应的音量代表值后,根据视频会议终端对应的至少两个音量参考值,确定视频会议终端对应的音量代表值。
可选地,获取各个音量参考值对应的平均值,然后,将平均值作为每个视频会议终端对应的音量代表值。例如,以连续阈值个采样周期为一采集周期,并对该采集周期内的各音量参考值取平均,以该平均值作为对应视频会议终端的音量代表值。
可选地,获取各个音量参考值对应的权重值,然后根据权重值对音量参考值进行加权求和得到和值,再将和值作为每个视频会议终端对应的音量代表值。例如,假设在A、B、C、D四个连续的采样周期内,某一视频会议终端的音量参考值为90db、80db、40db、20db,由此可知,在后面一段时间内,发言人的声音越来越小,此时,可基于每个采样周期内的最大音量值确定每个音量参考值的权重值,如采样周期A的权重值为40%,采样周期B的权重值为30%,采样周期C的权重值为20%,采样周期D的权重值为10%,那么视频会议终端的音量代表值为:90db*40%+80db*30%+40db*20%+20db*10%。
可选地,还可以基于采样周期的时间信息确定每个音量参考值的权重值,例如,假设A、B、C、D为四个连续的采样周期,基于采样时间的先后顺序确定每个音量参考值的权重值,其中,时间越大,权重值越大,如A、B、C、D四个采样周期分别对应的权重值为10%、20%、30%、40%。
步骤S30,根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端。
在确定各个视频会议终端对应的音量代表值后,基于该音量代表值确定当前时刻对应的语音激励终端。一实施例中,比对各个视频会议终端的音量代表值,得到比对结果,然后,根据比对结果确定最大的音量代表值,将最大的音量参考值对应的视频会议终端确定为当前时刻对应的语音激励终端,同时,将该语音激励终端的视频画面切换至主界面。
可选地,在确定各个音量代表值的比较结果后,根据比对结果确定各个视频会议终端的麦克风音频通道的优先级,根据优先级切换麦克风音频通道。例如,音量代表值越大,对应的麦克风音频通道的优先级越高,可以理解的是,语音激励终端对应的麦克风音频通道的优先级最高,在切换语音激励终端的视频画面至主界面的同时,也需要将当前的麦克风音频通道切换至语音激励终端对应的麦克风音频通道。
可选地,在确定各个音量代表值的比较结果后,还可以基于比对结果对每个视频会议终端的视频画面进行数字编号,其中,音量代表值越大,数字编号越小,如视频会议终端A的音量代表值为90db,视频会议终端B的音量代表值为60db,那么,视频会议终端A的视频画面的数字编号为1,视频会议终端B的视频画面的数字编号为2,然后,将数字编号为1的视频画面切换至主界面。
可选地,为了防止不必要的干扰引起的切换,可以设置声音切换的时间间隔,如切换时间门限值为5s,即最短切换时长不低于5s。
进一步地,参考图4,步骤S30,还包括:
步骤S31,当至少两个所述视频会议终端的音量代表值相同时,获取各个所述视频会议终端在预设采样周期内首次采集到的音频的时间点;
步骤S32,根据所述时间点确定当前时刻对应的语音激励终端。
本实施例中,如果检测到至少两个视频会议终端的音量代表值相同,此时,需要获取各个视频会议终端在预设采样周期内首次采集到的音频的时间点,然后,根据时间点确定当前时刻对应的语音激励终端,例如,将最早采集到音频的视频会议终端作为语音激励终端。
本实施例通过设定采样周期,以该采样周期采样各视频会议终端的音频,以采样点中最大绝对值的音量值作为视频会议终端的音量参考值,连续采集视频会议终端的音量参考值,判断采集次数是否达到阈值(如4次),若达到,则将采集到的音量参考值取平均值作为该视频会议终端的音量代表值,对比采集到的视频会议终端的采样数据,将当前采样周期内最大音量代表值的视频会议终端为当前发言人,并将该发言人的视频画面切换主界面中,其他视频会议终端订阅该发言人的视频流画面,实现视频画面自动化识别切换。基于此,通过语音激励算法可以稳定码率,减少重复订阅流,降低网络带宽,同时,还可以提高视频画面的稳定性以及视频画面切换的流畅性。
进一步地,参考图3,图3为本申请语音激励终端的确定方法第二实施例的流程示意图。
本申请语音激励终端的确定方法第二实施例与第一实施例的区别在于,所述步骤S10之前包括:
步骤S11,获取各个所述视频会议终端采集到的音频;
步骤S12,提取所述音频的音频特征,根据所述音频特征获取所述音频的频谱特征;
步骤S13,在所述频谱特征与设定频谱特征一致时,根据所述音频确定各个视频会议终端对应的音量参考值。
可选地,本实施例可通过中控平台采集各个视频会议终端对应的音频,或者通过某一视频会议终端采集其他视频会议终端对应的音频,又或者由各个视频会议终端采集各自终端对应的音频。
噪声频谱和语音频谱的差异比较大,且以波峰和波谷的形式呈现,基于此,可通过频谱特征确定采集到的音频是否为用户发出的语音。一实施例中,获取各个视频会议终端采集到的音频,提取音频的音频特征,然后,根据音频特征获取音频的频谱特征,如果频谱特征与设定频谱特征一致,则根据音频确定各个视频会议终端对应的音量参考值。
可选地,本实施例基于VAD算法模型为基础实现检测语音,VAD(Voice ActivityDetection)算法的作用是检测语音,其中,基于VAD算法模型检测语音包括以下步骤:
(1)设置采样周期:假设输入信号为50Hz(周期为20ms),初步确定1周期为1000个采样点(一周期最少采20个点,即采样率最少为1k),每2个采样点间隔为20ms/1000=20us,通道采样时间设置为239.5周期,则采样周期一周期大小为20us/239.5,ADC时钟频率约为12MHz。
(2)设置VAD激进模式:共四种模式,用数字0~3来区分,激进程度与数值大小正相关,包括0:Normal,1:low Bitrate,2:Aggressive;3:Very Aggressive。
(3)设置高斯分布:高斯分布又称为正态分布。若随机变量X服从一个数学期望为μ,标准差为σ^2的高斯分布,则:
X~N(μ,σ2)
其概率密度函数为:
Figure BDA0003455461450000091
高斯在语音识别中的使用:
Figure BDA0003455461450000092
其中,x_k是选取的特征向量,x_k是指六个子带能量(子带是80~250Hz,250~500Hz,500Hz~1K,1~2K,2~3K,3~4KHz,变量feature_vector用于存放子带能量序列),r_k是均值u_z和方差σ的参数结合,这两个参数决定了高斯分布的概率。Z=0情况是计算噪声的概率,Z=1是计算是语音的概率。
(4)帧长设置:共有三种帧长设置,分别是80/10ms,160/20ms,240/30ms,其它采样率的48k,32k,24k,16k会重采样到8k来计算VAD。采用上述三种帧长度的目的是:由于语音信号是短时平稳信号,其在10ms~30ms之间可看成平稳信号,而高斯马尔科夫等信号处理方法基于的前提是信号是平稳的。
(5)高斯模型中特征向量选取:VAD算法采用了聚类的思想,包括两个类,一个类是语音,一个类是噪声,计算对每帧信号是语音和噪声的概率,然后,根据该概率进行聚类。同时,为避免一帧带来的误差,需要在算法里采用统计量判决,在多麦克风场景里,基于多麦克风的VAD算法,从时域上,两者都是时变信号,且短时信号变化率比较小。
高通滤波器的作用有两点:滤除直流分量和提升高频成分。计算流程的高斯模型有两个参数H0和H1,它们分表示的是噪声和语音,判决测试使用LRT,在超过3阶后,零点全零,极点数值较小,此时,适当增大第三个数值,达到减少计算次数的目的。在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax),采样之后的数字信号完整地保留原始信号中的信息,保证采样频率为信号最高频率的5~10倍。
可选地,在远程语音交互场景中,VAD面临着两个难题:
第一、如何成功检测到最低能量的语音(灵敏度)。
第二、如何在多噪环境下成功检测(漏检率和虚检率)。
漏检率表示原本是语音信号但没有检测出来,而虚检率表示不是语音信号而被检测成语音信号的概率。本实施例通过对输入的音频流进行分析,确定客户说话的起点和终点的处理过程对语音进行检测,一旦检测到客户开始说话,语音开始流向识别引擎,直到检测到客户说话结束。其中,终端检测过程包括:
基于语音信号的特征,使用能量,过零率,熵,音高等参数以及衍生参数,来判断信号流中的语音/非语音信号。
在信号流中检测到语音信号后,判断此处是否为语句的起点或终点,由于信号多变的背景和自然对话模式而更容易使得句中有停顿(非语音),特别是在爆发声母前总会有无声间隙,而本实施例能够使得识别引擎在客户说话的同时开始进行识别,做到最大限度的即时处理。
本实施例通过获取各个视频会议终端采集到的音频,提取音频的音频特征,根据音频特征获取音频的频谱特征,然后基于频谱特征确定是否为用户在说话,如此,提高了语音检测的准确性,进一步提高了语音激励终端确定的准确性。
此外,本申请还提供一种语音激励终端的确定装置,所述装置包括存储器、处理器及存储在存储器上并在所述处理器上运行的语音激励终端的确定程序,所述装置获取视频会议终端对应的音量参考值,其中,音量参考值为预设采样周期内,视频会议终端采集到的音频的最大音量值;根据视频会议终端对应的至少两个音量参考值,确定视频会议终端对应的音量代表值;根据各个视频会议终端对应音量代表值,确定当前时刻对应的语音激励终端。本申请通过多个预设采样周期内的音量参考值确定视频会议终端的音量代表值,然后,再根据音量代表值确定语音激励终端,如此,提高了确定激励终端的准确性,从而提高了视频画面切换的流畅性。
进一步地,参考图5,图5为本申请语音激励终端的确定方法的模块示意图。
所述语音激励终端的确定装置100包括获取模块10、第一确定模块20和第二确定模块30,其中:
所述获取模块10,用于获取视频会议终端对应的音量参考值,其中,所述音量参考值为预设采样周期内,所述视频会议终端采集到的音频的最大音量值;
所述第一确定模块20,用于根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值;
所述第二确定模块30,用于根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端。
进一步地,所述第一确定模块20包括第一获取单元和第一确定单元;
所述第一获取单元,用于获取各个所述音量参考值对应的平均值;
所述第一确定单元,用于将所述平均值作为每个所述视频会议终端对应的音量代表值。
进一步地,所述第一获取单元,还用于获取各个所述音量参考值对应的权重值;
所述第一确定单元,还用于根据所述权重值对所述音量参考值进行加权求和得到和值,将所述和值作为每个所述视频会议终端对应的音量代表值。
进一步地,所述第二确定模块30包括比对单元和第二确定单元;
所述比对单元,用于比对各个所述视频会议终端的音量代表值,得到比对结果;
所述第二确定单元,用于根据所述比对结果确定最大的音量代表值,将所述最大的音量参考值对应的视频会议终端确定为当前时刻对应的语音激励终端;
其中,在确定所述语音激励终端时,将所述语音激励终端的视频画面切换至主界面。
进一步地,所述第二确定模块30还包括切换单元;
所述第二确定单元,还用于根据所述比对结果确定各个所述视频会议终端的麦克风音频通道的优先级;
所述切换单元,用于根据所述优先级切换所述麦克风音频通道。
进一步地,所述第二确定模块30还包括第二获取单元;
所述第二获取单元,用于当至少两个所述视频会议终端的音量代表值相同时,获取各个所述视频会议终端在预设采样周期内首次采集到的音频的时间点;
所述第二确定单元,还用于根据所述时间点确定当前时刻对应的语音激励终端。
进一步地,所述获取模块10包括获取单元、提取单元和确定单元;
所述获取单元,用于获取各个所述视频会议终端采集到的音频;
所述提取单元,用于提取所述音频的音频特征,根据所述音频特征获取所述音频的频谱特征;
所述确定单元,用于在所述频谱特征与设定频谱特征一致时,根据所述音频确定各个视频会议终端对应的音量参考值。
上述的语音激励终端的确定装置各个模块功能的实现与上述方法实施例中的过程相似,在此不再一一赘述。
此外,本申请还提供一种存储介质,该存储介质上存储有语音激励终端的确定方法程序,语音激励终端的确定方法程序被处理器执行时实现如上语音激励终端的确定方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种语音激励终端的确定方法,其特征在于,所述方法包括:
获取视频会议终端对应的音量参考值,其中,所述音量参考值为预设采样周期内,所述视频会议终端采集到的音频的最大音量值;
根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值;
根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端。
2.如权利要求1所述的语音激励终端的确定方法,其特征在于,所述根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值的步骤,包括:
获取各个所述音量参考值对应的平均值;
将所述平均值作为每个所述视频会议终端对应的音量代表值。
3.如权利要求1所述的语音激励终端的确定方法,其特征在于,所述根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值的步骤,还包括:
获取各个所述音量参考值对应的权重值;
根据所述权重值对所述音量参考值进行加权求和得到和值,将所述和值作为每个所述视频会议终端对应的音量代表值。
4.如权利要求1所述的语音激励终端的确定方法,其特征在于,所述根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端的步骤包括:
比对各个所述视频会议终端的音量代表值,得到比对结果;
根据所述比对结果确定最大的音量代表值,将所述最大的音量参考值对应的视频会议终端确定为当前时刻对应的语音激励终端;
其中,在确定所述语音激励终端时,将所述语音激励终端的视频画面切换至主界面。
5.如权利要求4所述的语音激励终端的确定方法,其特征在于,所述比对各个所述视频会议终端的音量代表值,得到比对结果的步骤之后,包括:
根据所述比对结果确定各个所述视频会议终端的麦克风音频通道的优先级;
根据所述优先级切换所述麦克风音频通道。
6.如权利要求1所述的语音激励终端的确定方法,其特征在于,所述根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端的步骤,还包括:
当至少两个所述视频会议终端的音量代表值相同时,获取各个所述视频会议终端在预设采样周期内首次采集到的音频的时间点;
根据所述时间点确定当前时刻对应的语音激励终端。
7.如权利要求1所述的语音激励终端的确定方法,其特征在于,所述获取视频会议终端对应的音量参考值的步骤之前,包括:
获取各个所述视频会议终端采集到的音频;
提取所述音频的音频特征,根据所述音频特征获取所述音频的频谱特征;
在所述频谱特征与设定频谱特征一致时,根据所述音频确定各个视频会议终端对应的音量参考值。
8.一种语音激励终端的确定装置,其特征在于,所述语音激励终端的确定装置包括获取模块、第一确定模块和第二确定模块,其中:
所述获取模块,用于获取视频会议终端对应的音量参考值,其中,所述音量参考值为预设采样周期内,所述视频会议终端采集到的音频的最大音量值;
所述第一确定模块,用于根据所述视频会议终端对应的至少两个所述音量参考值,确定所述视频会议终端对应的音量代表值;
所述第二确定模块,用于根据各个所述视频会议终端对应所述音量代表值,确定当前时刻对应的语音激励终端。
9.一种语音激励终端的确定装置,其特征在于,所述装置包括存储器、处理器及存储在存储器上并在所述处理器上运行语音激励终端的确定程序,所述处理器执行所述语音激励终端的确定程序时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有语音激励终端的确定程序,所述语音激励终端的确定程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN202210007479.6A 2022-01-04 2022-01-04 语音激励终端的确定方法、装置和存储介质 Pending CN116437038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210007479.6A CN116437038A (zh) 2022-01-04 2022-01-04 语音激励终端的确定方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210007479.6A CN116437038A (zh) 2022-01-04 2022-01-04 语音激励终端的确定方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN116437038A true CN116437038A (zh) 2023-07-14

Family

ID=87084226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210007479.6A Pending CN116437038A (zh) 2022-01-04 2022-01-04 语音激励终端的确定方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN116437038A (zh)

Similar Documents

Publication Publication Date Title
CN108597498B (zh) 一种多麦克风语音采集方法及装置
CN108922538B (zh) 会议信息记录方法、装置、计算机设备及存储介质
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
US10540979B2 (en) User interface for secure access to a device using speaker verification
CN105161093B (zh) 一种判断说话人数目的方法及系统
CN103578470B (zh) 一种电话录音数据的处理方法及系统
US9412371B2 (en) Visualization interface of continuous waveform multi-speaker identification
EP2898510B1 (en) Method, system and computer program for adaptive control of gain applied to an audio signal
CN105118522B (zh) 噪声检测方法及装置
JP2006079079A (ja) 分散音声認識システム及びその方法
JPH06332492A (ja) 音声検出方法および検出装置
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN106548786B (zh) 一种音频数据的检测方法及系统
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
CN112151055B (zh) 音频处理方法及装置
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
CN112767955A (zh) 音频编码方法及装置、存储介质、电子设备
CN110265038B (zh) 一种处理方法及电子设备
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
CN116437038A (zh) 语音激励终端的确定方法、装置和存储介质
CN114495907B (zh) 自适应的语音活动检测方法、装置、设备以及存储介质
WO2022068675A1 (zh) 发声者语音抽取方法、装置、存储介质及电子设备
CN105551504A (zh) 一种基于哭声触发智能移动终端功能应用的方法及装置
CN112927680B (zh) 一种基于电话信道的声纹有效语音的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination