CN116471263B - 一种视讯系统的实时音频择路方法 - Google Patents
一种视讯系统的实时音频择路方法 Download PDFInfo
- Publication number
- CN116471263B CN116471263B CN202310533844.1A CN202310533844A CN116471263B CN 116471263 B CN116471263 B CN 116471263B CN 202310533844 A CN202310533844 A CN 202310533844A CN 116471263 B CN116471263 B CN 116471263B
- Authority
- CN
- China
- Prior art keywords
- audio
- volume
- audio data
- value
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000004913 activation Effects 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/752—Media network packet handling adapting media to network capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种视讯系统的实时音频择路方法,属于音频处理技术领域,方法包括:步骤一、设置音频择路最大激活路数K;步骤二、媒体服务从网络接收数据,并解析为RTP音频数据;步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口;步骤四、判断当前激活的音频路数是否超过设置的最大激活路数K,若为否,则将RTP音频数据直接投递到音频管道。本发明实时对输入的每路语音进行择路,选择出音量最大的k路语音流送到端上,这种方案首先节省了语音混流对服务器大量资源的消耗,其次送到端上的流都是独立的,较为容易做音画同步,使用户获取的声音更加流畅真实。
Description
技术领域
本发明属于音频处理技术领域,具体涉及一种视讯系统的实时音频择路方法。
背景技术
视频会议系统是一种现代化的办公系统,它可以使不同会场的实时现场场景和语音互连起来,同时向与会者提供分享听觉和视觉的空间,使各与会方有“面对面”交谈的感觉。随着社会的发展,视频会议的应用越来越广泛,同时对其视频音频质量、灵活性以及易用性、可靠性和易管理性的要求也越来越严格。随着计算机硬件技术和网络技术的发展,视频会议系统同时百人在线已经变成一个常规需求,但是大方会议还是存在不少技术难题,比如在大方会议用户同时开麦的场景中,可能会出现的卡顿,丢字,听不清问题,大量的语音输入还会占用用户大量的带宽及系统资源。现有主流方案解决方案是通过服务端混流,原理是将所有的音频数据发送到服务端,由服务端对语音数据解码,重采样然后混成一路或多路流发送给客户端,这些处理流程会消耗服务器大量CPU资源,语音流路数越多资源消耗也越多,由于是多路语音混流,还可能会引入音画不同步问题。
发明内容
本发明的目的在于提供一种视讯系统的实时音频择路方法,用以解决上述背景技术中所面临的问题。
本发明的目的可以通过以下技术方案实现:
一种视讯系统的实时音频择路方法,所述方法包括:
步骤一、设置音频择路最大激活路数K;
步骤二、媒体服务从网络接收数据,并解析为RTP音频数据;
步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口;
步骤四、判断当前激活的音频路数是否超过设置的最大激活路数K,若为否,则将RTP音频数据直接投递到音频管道,否则进行步骤五;
步骤五、对每路语音的滑动窗口求和,使用TOP-K算法选出K路,判断当前输入源是否属于K,若为是,则将音频数据输入音频管道,否则丢弃;
步骤六、将输入音频管道的音频数据进行音量处理后传输到广播播报系统进行播报。
进一步地,所述步骤二中解析的RTP音频数据是按照SDP协商约定解析成携带Audiolevel扩展的RTP音频数据。
进一步地,所述步骤三中的处理方法为:
先将RTP数据透传到音频通道预创建好的音频过滤器内,并读取RTP数据中的Audiolevel字段;
然后用127减去Audiolevel字段得到音频的能量值;
将获取的能量值通过滤波器进行滤波平滑处理。
进一步地,所述滤波器处理的方法包括静态滤波处理以及动态滤波处理,所述动态滤波处理系数根据发言者所处环境变化而变化,所述静态滤波处理系数根据设备历史数据获取。
进一步地,所述步骤六中音量处理的方法为:
获取每段音频数据的音频波形图,根据音频波形图来获取音频数据的响度值以及音调值,根据响度值以及音调值的变化来求得该段音频数据的质量波动值,从而根据质量波动值的大小来相应的调整整段音频数据的音量。
进一步地,所述音频管道内还设有提醒单元,所述提醒单元用于每隔T时间段采集系统内的平均音量,并与系统预设音量进行比较:
若平均音量大于预设音量,则进行降音提醒;
若平均音量小于预设音量,则进行升音提醒;
若平均音量与预设音量一致,则不提醒。
本发明的有益效果:
本发明实时对输入的每路语音进行择路,选择出音量最大的k路语音流送到端上,这种方案首先节省了语音混流对服务器大量资源的消耗,其次送到端上的流都是独立的,较为容易做音画同步,使用户获取的声音更加流畅真实。
本发明可从播报处来调整发言者的音量大小,从而使播报系统播报出的语音能够在合适大小,既不过小,也不过大,以便于用户读听,同时还设有提醒单元,可从语音源头处来调整音量大小,从而更加方便用户读听,以保证用户能够清楚听到播报内容。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在一个实施例中,如图1所示,公开了一种视讯系统的实时音频择路方法,该方法包括:
步骤一、设置音频择路最大激活路数K;
步骤二、媒体服务从网络接收数据,并解析为RTP音频数据;
步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口;
步骤四、判断当前激活的音频路数是否超过设置的最大激活路数K,若为否,则将RTP音频数据直接投递到音频管道,否则进行步骤五;
步骤五、对每路语音的滑动窗口求和,使用TOP-K算法选出K路,判断当前输入源是否属于K,若为是,则将音频数据输入音频管道,否则丢弃;
步骤六、将输入音频管道的音频数据进行音量处理后传输到广播播报系统进行播报。
通过上述技术方案,本实施例提供了一种音频择路的方法,为了避免多路语音流路同时输入造成语音混流,资源过多消耗的问题,本方案先将音频数据进行汇集,实时对输入的每路语音进行择路,通过滤波器滤波、滑动窗口以及TOP-K等算法处理,选择出音量最大的k路语音流送到端上,这里,K的取值可为3,这种方案首先节省了语音混流对服务器大量资源的消耗,其次送到端上的流都是独立的,较为容易做音画同步,同时为了使用户能够清楚的听到发言者的语音,还对即将播报的语音音量进行自动调整到合适大小,从而使用户体验感得到提升。
作为本发明的一种优选方案,步骤二中解析的RTP音频数据是按照SDP协商约定解析成携带audio-level扩展的RTP音频数据。
通过上述技术方案,在大型会议中,会有多个音频流,将RTP音频数据解析成携带audio-level扩展的RTP音频数据,可以用此来调整音频混流的策略,通过该解析扩展,音频包的发送者可以指示包的有效负载的音频级别,从而减少服务器的处理负载。
作为本发明的一种优选方案,步骤三中的处理方法为:
先将RTP数据透传到音频通道预创建好的音频过滤器内,并读取RTP数据中的Audiolevel字段;
然后用127减去Audiolevel字段得到音频的能量值;
将获取的能量值通过滤波器进行滤波平滑处理。
通过上述技术方案,将RTP数据解析成携带audio-level扩展的RTP音频数据后,读取数据汇总的Audiolevel字段,Audiolevel字段指的是当前音频的输入电平大小,127为音量电平最大值,通过127减去Audiolevel字段得到该音频的能量值,为了避免获得能量值有杂音干扰,采用滤波器进行滤波处理,使得到的该段能力值更平滑。
作为本发明的一种优选方案,滤波器处理的方法包括静态滤波处理以及动态滤波处理,动态滤波处理系数根据发言者所处环境变化而变化,静态滤波处理系数根据设备历史数据获取。
通过上述技术方案,静态滤波处理以及动态滤波处理均采用归一化最小均方算法进行处理,归一化最小均方算法采用参考信号对输入的音频信号进行处理,从而实现回声消除等滤波操作。在本实施例中,静态滤波处理的滤波系数根据设备历史数据获取,通过对设备历史数据的分析,从而估计设备当前所处的声场传递函数,从而获取相应的滤波系数,而动态滤波处理系数根据发言者所处环境变化而变化,当发言者所处的环境杂音大,其系数相应也大,通过静态滤波处理和动态滤波处理输出的音频,从而可消除杂音或者回音感染,使得到的音频更加流畅平滑。
作为本发明的一种优选方案,步骤六中音量处理的方法为:
获取每段音频数据的音频波形图,根据音频波形图来获取音频数据的响度值以及音调值,根据响度值以及音调值的变化来求得该段音频数据的质量波动值,从而根据质量波动值的大小来相应的调整整段音频数据的音量。
通过上述技术方案,由于每段音频的音量波动大小是不一样的,而且由于设备自身原因,所传递出的音频音量大小也不一样,因此获取每段音频数据的音量波动随时间变化的波形图,为了便于获取分析,同时将音频波形图等距分为n段长度,获取每段长度内的波谷值Bmax以及波峰值Bmin,从而通过公式Xi=Bmax-Bmin求出每段长度的波频起伏值Xi;因为每段长度内的波频起伏值Xi越大,则说明该长度内的音频响度越大,同时通过公式 求出该段音频数据的响度值Loudness,在式中/>为该段音频数据的平均波频起伏值,通过该公式可以看出当Xi越大,其响度值也越大,而/>也能看出整段音频数据的整体波动值状况,从而利于分析整段音频数据的质量波动情况;
同时获取每段长度内的波点个数Mi,通过公式求出该段音频数据的音调值Key,由于每段长度内的波点数越多,表示波峰之间的距离越短,其相应的音调也越大,从而可以分析出整段音频数据内的音调大小,再通过公式/>求出该段音频数据的质量波动值Y,α与β分别为各自的权重系数,YO为预设的标准阈值,其均可根据大数据中相关历史数据分析拟合得出,在此不过多叙述,当Y不为1时,说明整段音频数据的质量不佳,则对该音频数据的音量值进行调整,具体调整为,当Y>1时,表明音频音量过大,则可相应的将音频音量减少(Y-1)*&1个音量,当Y<1时,表明音频音量过小,则可相应的将音频音量增加(1-Y)*&2个音量,其中&1、&2为转化系数,进而播放给用户,使用户听起来更加的清楚,传达内容也更加准确。
作为本发明的一种优选方案,音频管道内还设有提醒单元,提醒单元用于每隔T时间段采集系统内的平均音量,并与系统预设音量进行比较:
若平均音量大于预设音量,则进行降音提醒;
若平均音量小于预设音量,则进行升音提醒;
若平均音量与预设音量一致,则不提醒。
通过上述技术方案,由于发言者在发言时,可能发言声音在变化,比如随着发言时间变长,声音会变小,而自身又无法察觉,从而影响用户获取;因此本方案在音频管道内设置提醒单元,每隔一段时间来统计发言者的在本段时间内的平均音量大小,并与系统预设音量进行比较,这里的一段时间可根据人为进行设定,当本段时间内的平均音量大于系统预设音量,说明发言者的音量较大,则相应的在下阶段提醒发言者进行降音,当平均音量小于预设音量,说明发言者的音量较小,则相应的在下阶段提醒发言者进行升音,当平均音量与预设音量一致,则说明发言者的音量合适,不需要调整,因此不用产生提醒,这样可以更好从源头对音量进行调节控制,从而使用户能够清楚的听到内容,给予用户更好的体验感。
本发明实时对输入的每路语音进行择路,选择出音量最大的k路语音流送到端上,这种方案首先节省了语音混流对服务器大量资源的消耗,其次送到端上的流都是独立的,较为容易做音画同步,使用户获取的声音更加流畅真实。
本发明可从播报处来调整发言者的音频大小,从而使播报系统播报出的语音能够在合适大小,既不过小,也不过大,以便于用户读听,同时还设有提醒单元,可从语音源头处来调整音频大小,更加方便用户读听,以保证用户能够清楚听到播报内容。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (5)
1.一种视讯系统的实时音频择路方法,其特征在于,所述方法包括:
步骤一、设置音频择路最大激活路数K;
步骤二、媒体服务从网络接收数据,并解析为RTP音频数据;
步骤三、将获得的RTP音频数据进行处理后插入到滑动窗口;
步骤四、判断当前激活的音频路数是否超过设置的最大激活路数K,若为否,则将RTP音频数据直接投递到音频管道,否则进行步骤五;
步骤五、对每路语音的滑动窗口求和,使用TOP-K算法选出K路,判断当前输入源是否属于K,若为是,则将音频数据输入音频管道,否则丢弃;
步骤六、将输入音频管道的音频数据进行音量处理后传输到广播播报系统进行播报;
所述步骤六中音量处理的方法为:
获取每段音频数据的音频波形图,根据音频波形图来获取音频数据的响度值以及音调值,根据响度值以及音调值的变化来求得该段音频数据的质量波动值,从而根据质量波动值的大小来相应的调整整段音频数据的音量;
具体为:获取每段音频数据的音量波动随时间变化的波形图,将音频波形图等距分为n段长度,获取每段长度内的波谷值Bmax以及波峰值Bmin,通过公式Xi=Bmax-Bmin求出每段长度的波频起伏值Xi;
通过公式 求出该段音频数据的响度值Loudness;
获取每段长度内的波点个数Mi,通过公式求出该段音频数据的音调值Key;
通过公式求出该段音频数据的质量波动值Y,α与β分别为各自的权重系数,YO为预设的标准阈值;
当Y不为1时,则对该音频数据的音量值进行调整,其调整方法为:
当Y>1时,表明音频音量过大,则可相应的将音频音量减少(Y-1)*&1个音量;
当Y<1时,表明音频音量过小,则可相应的将音频音量增加(1-Y)*&2个音量;
其中&1、&2为转化系数。
2.根据权利要求1所述的一种视讯系统的实时音频择路方法,其特征在于,所述步骤二中解析的RTP音频数据是按照SDP协商约定解析成携带Audiolevel扩展的RTP音频数据。
3.根据权利要求1所述的一种视讯系统的实时音频择路方法,其特征在于,所述步骤三中的处理方法为:
先将RTP数据透传到音频通道预创建好的音频过滤器内,并读取RTP数据中的Audiolevel字段;
然后用127减去Audiolevel字段得到音频的能量值;
将获取的能量值通过滤波器进行滤波平滑处理。
4.根据权利要求3所述的一种视讯系统的实时音频择路方法,其特征在于,所述滤波器处理的方法包括静态滤波处理以及动态滤波处理,所述动态滤波处理系数根据发言者所处环境变化而变化,所述静态滤波处理系数根据设备历史数据获取。
5.根据权利要求1所述的一种视讯系统的实时音频择路方法,其特征在于,所述音频管道内还设有提醒单元,所述提醒单元用于每隔T时间段采集系统内的平均音量,并与系统预设音量进行比较:
若平均音量大于预设音量,则进行降音提醒;
若平均音量小于预设音量,则进行升音提醒;
若平均音量与预设音量一致,则不提醒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310533844.1A CN116471263B (zh) | 2023-05-12 | 2023-05-12 | 一种视讯系统的实时音频择路方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310533844.1A CN116471263B (zh) | 2023-05-12 | 2023-05-12 | 一种视讯系统的实时音频择路方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116471263A CN116471263A (zh) | 2023-07-21 |
CN116471263B true CN116471263B (zh) | 2024-02-13 |
Family
ID=87177134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310533844.1A Active CN116471263B (zh) | 2023-05-12 | 2023-05-12 | 一种视讯系统的实时音频择路方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116471263B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167210A (zh) * | 2014-08-21 | 2014-11-26 | 华侨大学 | 一种轻量级的多方会议混音方法和装置 |
CN108711435A (zh) * | 2018-05-30 | 2018-10-26 | 中南大学 | 一种面向响度的高效音频控制方法 |
CN109510905A (zh) * | 2018-12-06 | 2019-03-22 | 中通天鸿(北京)通信科技股份有限公司 | 多路语音的混音方法及系统 |
CN111277784A (zh) * | 2018-12-05 | 2020-06-12 | 中兴通讯股份有限公司 | 一种音量自动控制方法、装置、终端及可读存储介质 |
CN112104836A (zh) * | 2020-11-23 | 2020-12-18 | 全时云商务服务股份有限公司 | 一种音频服务器混音方法、系统、存储介质及设备 |
CN112885329A (zh) * | 2021-02-02 | 2021-06-01 | 广州广哈通信股份有限公司 | 一种提高混音音质的控制方法、装置及存储介质 |
CN113727061A (zh) * | 2021-11-01 | 2021-11-30 | 江苏怀业信息技术股份有限公司 | 用于视频会议系统的音视频同步方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140369528A1 (en) * | 2012-01-11 | 2014-12-18 | Google Inc. | Mixing decision controlling decode decision |
-
2023
- 2023-05-12 CN CN202310533844.1A patent/CN116471263B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167210A (zh) * | 2014-08-21 | 2014-11-26 | 华侨大学 | 一种轻量级的多方会议混音方法和装置 |
CN108711435A (zh) * | 2018-05-30 | 2018-10-26 | 中南大学 | 一种面向响度的高效音频控制方法 |
CN111277784A (zh) * | 2018-12-05 | 2020-06-12 | 中兴通讯股份有限公司 | 一种音量自动控制方法、装置、终端及可读存储介质 |
CN109510905A (zh) * | 2018-12-06 | 2019-03-22 | 中通天鸿(北京)通信科技股份有限公司 | 多路语音的混音方法及系统 |
CN112104836A (zh) * | 2020-11-23 | 2020-12-18 | 全时云商务服务股份有限公司 | 一种音频服务器混音方法、系统、存储介质及设备 |
CN112885329A (zh) * | 2021-02-02 | 2021-06-01 | 广州广哈通信股份有限公司 | 一种提高混音音质的控制方法、装置及存储介质 |
CN113727061A (zh) * | 2021-11-01 | 2021-11-30 | 江苏怀业信息技术股份有限公司 | 用于视频会议系统的音视频同步方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116471263A (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8687820B2 (en) | Stereo microphone processing for teleconferencing | |
US6501739B1 (en) | Participant-controlled conference calling system | |
US9237238B2 (en) | Speech-selective audio mixing for conference | |
JP4231698B2 (ja) | 多地点マルチメディア/音声システムの制御ユニット | |
CN101502089B (zh) | 进行音频会议的方法、音频会议装置和编码器之间的切换方法 | |
EP1763241A2 (en) | Spatially correlated audio in multipoint videoconferencing | |
US9628630B2 (en) | Method for improving perceptual continuity in a spatial teleconferencing system | |
TW201236468A (en) | Video switching system and method | |
Gong | Multipoint audio and video control for packet-based multimedia conferencing | |
WO2015180330A1 (zh) | 音量调节方法及装置、多点控制单元 | |
US7945006B2 (en) | Data-driven method and apparatus for real-time mixing of multichannel signals in a media server | |
CN109819129B (zh) | 一种基于声音评价的会议舒适噪音混音系统及其方法 | |
US8515039B2 (en) | Method for carrying out a voice conference and voice conference system | |
CN116471263B (zh) | 一种视讯系统的实时音频择路方法 | |
CN111951813A (zh) | 语音编码控制方法、装置及存储介质 | |
CN109714316B (zh) | 一种视联网的混音处理方法和一种视联网系统 | |
KR102069695B1 (ko) | 분산 텔레프레즌스 서비스 제공 방법 및 장치 | |
CN111951821B (zh) | 通话方法和装置 | |
Baskaran et al. | Audio mixer with automatic gain controller for software based multipoint control unit | |
US20220201252A1 (en) | Method and system for real time audio in multi-point video conferencing | |
KR20170013860A (ko) | 오브젝트-기반 원격 회의 프로토콜 | |
JPH0698030A (ja) | 通信会議方式および装置 | |
CN118233591A (zh) | 减少音频上行带宽方法及其系统 | |
Kim et al. | A main speaker decision for a distributed telepresence system | |
CN117998055A (zh) | 声像同位方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |