CN115086280A - 音频传输方法、系统及装置 - Google Patents
音频传输方法、系统及装置 Download PDFInfo
- Publication number
- CN115086280A CN115086280A CN202210651636.7A CN202210651636A CN115086280A CN 115086280 A CN115086280 A CN 115086280A CN 202210651636 A CN202210651636 A CN 202210651636A CN 115086280 A CN115086280 A CN 115086280A
- Authority
- CN
- China
- Prior art keywords
- audio
- conversation
- target
- transmission
- uplink
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种音频传输方法、系统及装置,该方法包括:获取来自于不同发送方客户端的至少两路会话音频;根据当前会话场景,确定对应的目标筛选策略;按照目标筛选策略从至少两路所述会话音频中筛选出目标会话音频;将目标会话音频发送给接听方客户端。通过将筛选后的目标会话音频发送给接听方客户端,实现对筛选的目标会话音频的传输。其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低语音在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种音频传输方法、系统及装置。
背景技术
随着计算机技术的快速发展,设备的运算能力得到了提升,例如,在语音通话过程中,可以将多个用户的音频信息进行混合,并将混合后的音频信息发送给接收方用户,供接收方用户能够同时接收多个用户的音频信息。
但是,随着语音通话过程中用户数量的增多,音频信息的传输为负载和带宽都带来了巨大的挑战,影响语音通话的质量。
发明内容
本申请实施例提供一种音频传输方法、系统及装置,可以提升语音通话的质量,提升用户体验。
第一方面,本申请实施例提供了一种音频传输方法,包括:
获取来自于不同发送方客户端的至少两路会话音频;
根据当前会话场景,确定对应的目标筛选策略;
按照所述目标筛选策略从至少两路所述会话音频中筛选出目标会话音频;
将所述目标会话音频发送给接听方客户端。
第二方面,本申请实施例还提供了一种音频传输系统,该系统包括发送方客户端,选路服务器和接听方客户端,其中,
所述发送方客户端用于向所述选路服务器传输会话音频;
所述选路服务器用于根据当前会话场景,确定对应的目标筛选策略;以及按照所述目标筛选策略从来自于不同发送方客户端的至少两路会话音频中筛选出目标会话音频;以及将所述目标会话音频发送至所述接听方客户端;
所述接听方客户端用于接收所述选路服务器发送的目标会话音频。
第三方面,本申请实施例还提供了一种音频传输装置,包括:
获取模块,用于获取来自于不同发送方客户端的至少两路会话音频;
确定模块,用于根据当前会话场景,确定对应的目标筛选策略;
选路模块,用于按照所述目标筛选策略从至少两路所述会话音频中筛选出目标会话音频;
发送模块,用于将所述目标会话音频发送给接听方客户端。
其中,在本申请的一些实施例中,发送模块包括:
第一确定单元,用于若所述目标会话音频包括不同用户的至少两个音频分量时,从至少两个所述音频分量中确定出目标音频分量;
处理单元,用于对所述目标音频分量进行过渡处理,得到处理后的目标会话音频;
第一发送单元,用于将所述处理后的目标会话音频发送给接听方客户端。
其中,在本申请的一些实施例中,处理单元包括:
第一处理子单元,用于从至少两个所述音频分量中提取出所述目标音频分量,并根据所述目标音频分量构建会话音频,得到处理后的目标会话音频。
其中,在本申请的一些实施例中,处理单元包括:
第二处理子单元,用于对所述目标会话音频中的所述目标音频分量进行增强处理,得到处理后的目标会话音频。
其中,在本申请的一些实施例中,处理单元包括:
第三处理子单元,用于根据所述目标音频分量从所述目标会话音频中确定非目标音频分量,并对所述非目标音频分量进行抑制处理,得到处理后的目标会话音频。
其中,在本申请的一些实施例中,第一确定单元包括:
确定子单元,用于根据所述音频分量的能量信息,从至少两个所述音频分量中确定出目标音频分量。
其中,在本申请的一些实施例中,确定子单元用于:
确定所述音频分量对应的用户身份标签信息;
获取音频数据传输记录;
根据所述音频数据传输记录确定所述用户身份标签信息对应的音频传输频率;
根据所述能量信息和所述音频传输频率,从至少两个所述音频分量中确定出目标音频分量。
其中,在本申请的一些实施例中,确定子单元用于:
根据所述用户身份标签信息确定所述音频分量的音频传输等级;
根据所述能量信息、所述音频传输频率和所述音频传输等级,从至少两个所述音频分量中确定出目标音频分量。
其中,在本申请的一些实施例中,确定模块包括:
第二确定单元,用于当所述当前会话场景为会议场景时,将筛选的会话音频的音频能量满足预设条件作为所述会议场景对应的目标筛选策略。
其中,在本申请的一些实施例中,获取模块包括:
获取单元,用于从至少两个上行引擎服务器获取至少两路会话音频;
其中,针对每路会话音频,所述会话音频由所述上行引擎服务器对来自于至少两个上行透传服务器的原始会话音频进行修正处理后得到,所述原始会话音频由至少两个所述上行透传服务器分别通过上行传输链路从发送方客户端获取;
所述修正处理包括对所述至少两路上行传输链路传输的原始会话音频进行汇聚操作和去重操作。
其中,在本申请的一些实施例中,发送模块包括:
第二发送单元,用于通过下行引擎服务器,将所述目标会话音频发送至接听方客户端;
其中,所述目标会话音频通过所述下行引擎服务器分别发送给至少两个下行透传服务器,并由所述下行透传服务器通过下行传输链路分别发送至所述接听方客户端。
第四方面,本申请实施例还提供了一种电子设备,电子设备包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的音频传输方法中的步骤。
第五方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的音频传输方法中的步骤。
其中,本申请实施例通过获取来自于不同发送方客户端发送的多路会话音频,根据当前会话场景确定对应的目标筛选策略,并根据目标筛选策略从多路会话音频中筛选出目标会话音频,将筛选的目标会话音频发送给接听方客户端,实现对会话音频的筛选和传输。其中,根据会话场景确定会话音频对应的筛选策略,并基于筛选策略对会话音频的筛选,实现基于会话场景对会话音频的筛选。其中,通过将筛选后的目标会话音频发送给接听方客户端,实现对筛选的目标会话音频的传输。其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低了会话音频在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频传输方法的场景示意图;
图2是本申请实施例提供的音频传输方法的流程示意图;
图3是本申请实施例提供的会议场景中音频传输方法的流程示意图;
图4是本申请实施例提供的音频传输系统的框架结构图;
图5是本申请实施例提供的选路服务器结构示意图;
图6是本申请实施例提供的音频数据从发送方客户端传输到选路服务器的流程示意图;
图7是本申请实施例提供的音频数据从选路服务器发送给接听方客户端的流程示意图;
图8是本申请实施例提供的音频数据从选路服务器发送给接听方客户端的传输控制流程示意图;
图9是本申请实施例提供的音频传输装置的结构示意图;
图10是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种音频传输方法、系统及装置。具体地,本申请实施例提供适用于电子设备的音频传输装置,其中,电子设备包括终端(如用户终端)或者服务器等设备,其中,终端包括但不限于手机、电脑、平板、智能语音交互设备、智能家电或者车载终端等,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器,服务器可以通过有线或无线通信方式进行直接或间接地连接。
本申请实施例可以单独由终端设备执行音频传输方法,或者可以单独由服务器执行音频传输方法,或者由终端和服务器共同执行音频传输方法,请参阅图1,以终端设备和服务器共同执行音频传输方法为例,其中,音频传输方法的具体执行过程如下:
服务器10获取来自于不同发送方客户端11的至少两路会话音频,根据当前会话场景,确定对应的目标筛选策略,并根据目标筛选策略从至少两路会话音频中筛选出目标会话音频,将筛选的目标会话音频发送给接听方客户端12。
其中,在本申请实施例中,可以同时由多个用户进行会话,因此,会话过程中可以从多个发送方客户端获取多路会话音频。例如,在会议过程中,同时有多个用户参与,且同时有多个用户针对会议内容或者会议主体进行发声,并且,不同用户可以对应不同的发送方客户端,即,每个用户基于单个发送方客户端进行会话,或者多个用户处于同一个发送方客户端所在的环境,即多个用户基于同一个发送方客户端进行会话,因此,多个用户的会话场景,存在多路会话音频需要传输的情况。
其中,在本申请实施例中,可以根据会话的场景确定会话音频的筛选策略,其中,会话场景可以根据会话音频的内容进行识别得到,或者,根据会话的主题等信息识别得到本次会话的场景。其中,在本申请实施例中,会话场景可以包括会议场景、局域网内多用户通信、多用户群聊或者多用户视频通话等。
其中,本申请实施例通过获取来自于不同发送方客户端发送的多路会话音频,根据当前会话场景确定对应的目标筛选策略,并根据目标筛选策略从多路会话音频中筛选出目标会话音频,将筛选的目标会话音频发送给接听方客户端,实现对会话音频的筛选和传输。其中,根据会话场景确定会话音频对应的筛选策略,并基于筛选策略对会话音频的筛选,实现基于会话场景对会话音频的筛选。其中,通过将筛选后的目标会话音频发送给接听方客户端,实现对筛选的目标会话音频的传输。其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低了会话音频在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
请参阅图2,图2为本申请实施例提供的音频传输方法的流程示意图。该音频传输方法的具体流程可以如下:
101、获取来自于不同发送方客户端的至少两路会话音频。
其中,在本申请实施例中,发送方客户端指接收用户的发声,并将用户的发声以编码等形式传输给接听方客户端的设备。其中,通过获取多个发送方客户端传输的会话音频,可以得到多路会话音频。
其中,在本申请实施例中,每个发送方客户端可以对应一个用户,即每个用户可以通过单个发送方客户端进行发声通话,例如,单个用户个人通过手机或者个人计算机与其他用户进行通话;或者,每个发送方客户端可以对应多个用户,即多个用户通过单个发送方客户端进行发声通话,例如,在会议场景下,多个用户通过会议室的影音系统设备进行通话。
其中,在本申请实施例中,每个发送方客户端可以对应一路会话音频,每路会话音频中可以包括单个用户的会话数据流或者多个用户的会话数据流。
其中,在本申请实施例中,可以接收由上行引擎服务器传输的会话音频,通过上行引擎服务器实现对发送方客户端会话音频的获取,即,可选的,在本申请的一些实施例中,步骤“获取来自于不同发送方客户端的至少两路会话音频”,包括:
从至少两个上行引擎服务器获取至少两路会话音频;
其中,针对每路会话音频,会话音频由上行引擎服务器对来自于至少两个上行透传服务器的原始会话音频进行修正处理后得到,原始会话音频由至少两个上行透传服务器分别通过上行传输链路从发送方客户端获取;
修正处理包括对至少两路上行传输链路传输的原始会话音频进行汇聚操作和去重操作。
其中,在本申请实施例中,上行引擎服务器具备音频数据处理和转发能力,通过对发送方客户端发送的原始会话音频的修正处理,确保从上行引擎服务器接收的会话音频与发送方客户端发送的会话音频保持一下,避免音频数据接收过程中因数据丢失、缺失或者数据出错造成的影响,提升音频数据的传输质量。
其中,在本申请实施例中,上行透传服务器具备音频数据透传转发的能力,上行透传服务器用于对接收到的发送方客户端发送的音频数据进行透传,例如,将接收到的发送方客户端发送的原始音频传输透传转发给上行引擎服务器。
其中,通过至少两个上行传输链路传输原始会话音频,使得可以通过多个上行透传服务器获取到多个原始会话音频,进而在多个上行透传服务器分别将获取的原始会话音频传输给上行引擎服务器后,使得上行引擎服务器可以通过多个链路获取到原始会话音频。
其中,在上行引擎服务器根据多个传输链路获取到原始会话音频后,为避免传输链路在音频传输过程中出现数据丢失等问题,可以根据多个原始会话音频对音频数据进行修正,得到修正后的会话音频,其中,在本申请实施例中,可以通过对多个上行传输链路获取的多个原始会话音频进行汇聚、去重等操作,实现原始会话音频的修正,得到发送方客户端发送的会话音频数据。
102、根据当前会话场景,确定对应的目标筛选策略。
其中,在本申请实施例中,会话场景包括会话所处的场景,例如,会话场景可以包括会议场景、局域网内多用户通信、多用户群聊或者多用户视频通话等。
其中,在本申请实施例中,筛选策略包括筛选会话音频的策略,其中,基于不同的筛选策略,从多路会话音频中筛选出不同的会话音频。其中,在本申请实施例中,筛选出的会话音频可以包括单个用户的数据流或者包括多个用户的数据流或者包括多个用户的多个数据流。
其中,根据会话场景确定筛选会话音频的策略,使得会话音频的筛选能够满足当前场景的需求或者用户的需求。
其中,在本申请实施例中,当会话场景为会议场景时,则可以将会话音频的音频能力满足预设条件作为筛选策略,基于该筛选策略筛选目标会话音频,即,可选的,在本申请的一些实施例中,步骤“根据当前会话场景,确定对应的目标筛选策略”,包括:
当当前会话场景为会议场景时,将筛选的会话音频的音频能量满足预设条件作为会议场景对应的目标筛选策略。
其中,通过会议场景下音频能量满足预设条件的会话音频的筛选,使得筛选的会话音频能够满足音频能量的需求,通过对满足音频能量的会话音频的传输,提升会议过程中的会话质量。
其中,在本申请实施例中,针对会议场景,还可以设置通话人数,根据通话人数选取会话音频,即,可选的,在本申请实施例中,还可以将通过人数满足预设阈值作为会话音频的筛选条件。例如,筛选出三人及三人以内的会话音频,作为目标会话音频。其中,当每个发送方客户端对应一个发声用户时,则可以选取三个或者三个以内的发送方客户端的会话音频作为目标会话音频,当每个发送方客户端对应多个发声用户时,则可以从多个发声用户中选取三个或者三个以内的发声用户的会话音频,作为目标会话音频。
103、按照目标筛选策略从至少两路会话音频中筛选出目标会话音频。
其中,根据筛选策略对会话音频的筛选,使得筛选出的会话音频能够满足相应的需求。其中,通过从多路会话音频中筛选出目标会话音频,使得目标会话音频对应的数据量能够小于筛选前的多路会话音频,减少了后续发送给接听方客户端的数据量,降低会话音频在传输过程中对负载和带宽的压力,提升语音通话质量。
104、将目标会话音频发送给接听方客户端。
其中,通过将筛选的目标会话音频发送给接听方客户端,使得目标会话音频能够被接听方客户端解码和播放,实现对目标会话音频的传输。
其中,在本申请实施例中,发送方客户端和接听方客户端可以是同一类型的通话设备,基于用户发声的需求以及听音的需求,将通话设备分为发送方客户端或者接听方客户端。
其中,在本申请实施例中,由于单个发送方客户端的会话音频中可以包含多个用户的发声信息,因此,每个会话音频中还包含有多个用户发声的音频分量,因此,还可以对筛选出的会话音频中的音频分量进行筛选,进一步优化音频的传输过程,即,可选的,在本申请的一些实施例中,步骤“将目标会话音频发送给接听方客户端”,包括:
若目标会话音频包括不同用户的至少两个音频分量时,从至少两个音频分量中确定出目标音频分量;
对目标音频分量进行过渡处理,得到处理后的目标会话音频;
将处理后的目标会话音频发送给接听方客户端。
其中,在本申请实施例中,音频分量指用户独立发声后形成的音频数据,多个用户的音频分量组合形成会话音频。其中,在本申请实施例中,每个音频分量可以对应一个发声的数据流,多条数据流的汇合形成会话音频。
其中,通过从会话音频的多个音频分量中确定出目标音频分量,以及对目标音频分量的过渡处理,突出目标音频分量在目标会话音频中的影响程度,提升目标音频分量的发声效果。
其中,在本申请实施例中,对目标音频分量的过渡处理包括对目标音频分量的提取、增强处理或者抑制处理等,通过对目标音频分量的过渡处理,提升目标音频分量在目标会话音频中的影响程度,即,可选的,在本申请的一些实施例中,步骤“对目标音频分量进行过渡处理,得到处理后的目标会话音频”,包括:
从至少两个音频分量中提取出目标音频分量,并根据目标音频分量构建会话音频,得到处理后的目标会话音频,或,
对目标会话音频中的目标音频分量进行增强处理,得到处理后的目标会话音频,或,
根据目标音频分量从目标会话音频中确定非目标音频分量,并对非目标音频分量进行抑制处理,得到处理后的目标会话音频。
其中,通过从目标会话音频的多个音频分量中提取出目标音频分量,并基于目标音频分量构建会话音频,得到处理后的目标会话音频,使得处理后的目标会话音频中仅包含有目标音频分量,当该处理后目标音频分量被发送给接听方客户端时,接听方客户端可播放出仅包含目标音频分量的用户发声,提升相应用户的发声效果。
其中,在本申请实施例中,多个音频分量可以通过汇总、聚合等音频处理方式构建会话音频。
其中,通过对目标音频分量的增强处理,提升目标音频分量在目标会话音频中的影响程度,提升目标音频分量对应的语音的发声效果。其中,在本申请实施例中,音频分量的增强处理包括对音频分量进行降噪、提升能量、音量等处理。
其中,通过对非目标音频分量的抑制处理,降低非目标音频分量在会话音频中的影响程度,侧面提升目标音频分量在会话音频中的影响程度,其中,非目标音频分量为会话音频中除目标音频分量以外的音频分量。
其中,在本申请实施例中,可以根据每个音频分量的能量信息从目标会话音频中筛选出目标音频分量,即,可选的,在本申请的一些实施例中,步骤“从至少两个音频分量中确定出目标音频分量”,包括:
根据音频分量的能量信息,从至少两个音频分量中确定出目标音频分量。
其中,音频分量的能量信息指音频分量对应的声音的能量信息。声音的能量越高,说明声音在会话音频中的影响越大,因此,可以筛选出对会话音频影响较大的音频分量作为目标音频分量。例如,在本申请实施例中,可以筛选出声音音量较大的音频分量,作为目标音频分量。
其中,在本申请实施例中,还可以根据每个用户的发声频率来筛选音频分量,即,可选的,在本申请的一些实施例中,步骤“根据音频分量的能量信息,从至少两个音频分量中确定出目标音频分量”,包括:
确定音频分量对应的用户身份标签信息;
获取音频数据传输记录;
根据音频数据传输记录确定用户身份标签信息对应的音频传输频率;
根据能量信息和音频传输频率,从至少两个音频分量中确定出目标音频分量。
其中,在本申请实施例中,用户身份标签信息用于标识用户的身份,每个用户对应一个唯一的身份标签。
其中,通过对音频数据传输记录的分析,可以得到每个用户的音频传输频率,其中,用户的音频传输频率越高,说明该用户的发声越多,相应的,该用户在会话过程中的重要性越高,将该重要性较高的用户的音频分量传输给接听方客户端,可提升会话过程中音频传输的准确性。其中,将重要性较低的音频分量抑制或者隐藏处理,可实现将与会话无关的声音的过滤,例如,将会议会话过程中无效交流、私下沟通的语音过滤,确保语音会议沟通的流畅性。
其中,通过音频分量的能量信息和音频分量对应的用户的音频传输频率筛选目标音频分量,实现对重要程度较高的音频分量的筛选,确保会话的质量,同时,减少传输的会话数据量,降低会话数据的传输对负载、带宽的压力。
其中,在本申请实施例中,在会话过程中,还可以针对每个用户设置音频传输等级,根据音频传输等级筛选待传输的目标音频分量,即,可选的,在本申请的一些实施例中,步骤“根据能量信息和音频传输频率,从至少两个音频分量中确定出目标音频分量”,包括:
根据用户身份标签信息确定音频分量的音频传输等级;
根据能量信息、音频传输频率和音频传输等级,从至少两个音频分量中确定出目标音频分量。
其中,在本申请实施例中,音频传输等级指音频分量的传输等级,其中,音频传输等级越高,音频分量待传输的需求越高,其中,在本申请实施例中,每个音频分量的音频传输等级可以根据用户身份标签来获取,例如,根据用户身份标签信息与音频传输等级的映射关系,得到每个用户身份标签信息对应的音频传输等级,进而得到每个音频分量对应的音频传输等级。
其中,通过音频分量的能量信息、音频分量对应的用户的音频传输频率以及音频传输等级筛选目标音频分量,实现对重要程度较高的音频分量的筛选,确保会话的质量,同时,减少传输的会话数据量,降低会话数据的传输对负载、带宽的压力。
其中,在本申请实施例中,可以通过下行引擎服务器将目标会话音频发送至接听方客户端,即,可选的,在本申请的一些实施例中,步骤“将目标会话音频发送给接听方客户端”,包括:
通过下行引擎服务器,将目标会话音频发送至接听方客户端;
其中,目标会话音频通过下行引擎服务器分别发送给至少两个下行透传服务器,并由下行透传服务器通过下行传输链路分别发送至接听方客户端。
其中,在本申请实施例中,下行引擎服务器具备音频数据处理和转发的能力,利用下行引擎服务器将筛选的目标会话音频发送至接听方客户端。
其中,在本申请实施例中,下行透传服务器具备数据透传转发的能力,下行引擎服务器通过将目标会话音频发送给下行透传服务器,通过下行透传服务器将目标会话音频发送至接听方客户端。
其中,在本申请实施例中,通过将目标会话音频分别发送给多个下行透传服务器,并通过多个下行透传服务器分别基于下行传输链路发送给接听方客户端,实现接听方客户端通过多个传输链路获取目标会话音频,其中,在本申请实施例中,接听方客户端在根据多个传输链路获取到目标会话音频后,可以根据多个目标会话音频对会话音频进行修正,得到根据筛选策略筛选后的目标会话音频,通过对会话音频的修正,提升了会话音频获取的准确性,提升音频通话传输的准确性,便于接听方客户端接收并播放准确的会话音频。
其中,在本申请实施例中,对接收到的会话音频进行修正的方式还可以包括获取冗余包的方式来实现,其中,通过添加会话音频的冗余包,可利用该冗余包完成会话音频的修正、或者丢包恢复等。其中,在本申请实施例中,还可以通过重新发起音频数据获取请求的方式,重新获取会话音频,实现音频数据部分丢失后的数据恢复或者丢包恢复等。
其中,在本申请实施例中,还可以根据上行引擎服务器的音频数据接收质量调节发送方客户端会话音频的发送频率,或者,根据接听方客户端的音频数据接收质量调节下行引擎服务器目标会话音频的发送频率。其中,通过接收质量对发送频率的调整,提升音频传输的质量,提升语音通话的质量。
其中,本申请实施例通过获取来自于不同发送方客户端发送的多路会话音频,根据当前会话场景确定对应的目标筛选策略,并根据目标筛选策略从多路会话音频中筛选出目标会话音频,将筛选的目标会话音频发送给接听方客户端,实现对会话音频的筛选和传输。其中,根据会话场景确定会话音频对应的筛选策略,并基于筛选策略对会话音频的筛选,实现基于会话场景对会话音频的筛选。其中,通过将筛选后的目标会话音频发送给接听方客户端,实现对筛选的目标会话音频的传输。其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低了会话音频在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。
其中,针对会议场景,当同时存在多个用户在会议过程中发声时,则形成多个用户语音需要传输的情形,针对这种情形,如果发声用户数量较多,会话音频的传输会造成负载和带宽的压力,进而影响会话质量,因此,在本申请实施例中,针对多用户通话场景,可以对会话音频进行筛选,仅选取部分关键音频进行传输,降低音频传输对负载和带宽的压力。
例如,请参阅图3,图3是本申请实施例提供的会议场景中音频传输方法的流程示意图,其中,该会议场景中音频传输方法的具体流程包括:
111、获取至少两个用户的会议场景中来自于不同发送方通话设备的至少两路会话音频;
其中,在本申请实施例中,会议场景中的发送方通话设备包括手机、计算机或者会议室内的影音系统设备等。
其中,在本申请实施例中,会话音频包括参与会议的多个用户的语音信息,其中,用户的语音信息通过通信设备传输,因此,每一路会话音频对应一个通话设备发送的会话数据,多个用户在会议过程中通过多个通话设备传递音频声音,形成多路会话音频。
112、根据会议场景的需求,从多路会话音频中筛选出能量信息满足预设条件的若干目标会话音频,其中,若干目标会话音频的数量小于或者等于多路会话音频的数量;
113、针对若干目标会话音频对应的多个音频分量,根据每个音频分量对应的能量信息、音频分量对应的用户语音的音频传输频率或者用户语音的音频传输等级,从多个音频分量中筛选出若干目标音频分量,其中,若干目标音频分量的数量小于或者等于若干目标会话音频对应的多个音频分量;
114、对筛选出的若干目标音频分量进行过渡处理,得到处理后的目标会话音频,其中,过渡处理包括提取出目标音频分量,基于目标音频分量构建新的目标会话音频(处理后目标会话音频),或者,对目标会话音频中的目标音频分量进行增强处理,或者,对目标会话音频中的非目标音频分量进行抑制处理;
115、将处理后的目标会话音频发送给接听方通话设备。
其中,通过在多人会议场景下,根据会话音频的能量信息从多个用户的会话音频中选取目标会话音频,并根据能量信息、音频传输频率或者音频传输等级对目标会话音频进行过渡处理,实现对传输的会话音频的优化处理。其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低了会话音频在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。其中,通过对会话音频的过渡处理,提升了目标音频分量在会话音频中的影响程度,提升了会议过程中的通话效果。
其中,针对参数会议人数越多的会议场景,本方案中筛选出部分会话音频后,将该部分会话音频发送给接听方通话设备,供接听方通话设备播放部分会话音频对应的语音,提升这部分语音的播放效果。
其中,在本申请实施例中,还可以通过其他方式从多路会话音频中选取目标会话音频。
请参阅图4,图4为本申请实施例提供的音频传输系统的框架结构图。该音频传输系统可以包括:
发送方客户端201,用于向选路服务器传输会话音频;
选路服务器202,用于根据当前会话场景,确定对应的目标筛选策略;以及按照目标筛选策略从来自于不同发送方客户端201的至少两路会话音频中筛选出目标会话音频;以及将目标会话音频发送至接听方客户端203;
接听方客户端203,用于接收选路服务器202发送的目标会话音频。
其中,在本申请实施例中,选路服务器用于根据选取条件,从多路会话音频中选择部分会话音频进行传输,以降低音频传输对负载和带宽的压力,具体的,请参阅图5,图5是本申请实施例提供的选路服务器结构示意图,其中,选路服务器包括:
传输层211,用于接收不同发送方客户端发送的多路音频数据包;
缓存器212,用于将多路音频数据包保存在缓存器中;
定时器213,用于对缓存器中的音频数据包进行计时,其中,缓存器中仅保留一定时长的音频数据包;
选择器214,用于根据从缓存器中选取能量信息满足需求的三个目标会话音频。
其中,在本申请实施例中,缓存器用来缓存通话中一定时间内的数据包,缓存时间不宜过长。选择器每经过一个发包间隔后,就会执行一次选路策略:当通话人数超过N(比如N=3)人时,每次选路选择其中N个通话成员的数据包。当通话人数小于N人时,选择全部通话成员的数据包。
其中,在本申请实施例中,选路服务器的功能就是从多路数据流中选择其中关键的几路,这样不仅可以减缓下行带宽的压力,也可以同时降低数据服务器和客户端处理大量媒体数据带来的性能压力。
其中,在本申请的一些实施例中,该系统还包括上行引擎服务器204,具体包括:
发送方客户端201,用于向上行引擎服务器204发送原始会话音频;
上行引擎服务器204,用于接收发送方客户端201发送的原始会话音频,并对原始会话音频进行修正处理,得到会话音频,并将会话音频传输至选路服务器202;
选路服务器202,用于接收上行引擎服务器204传输的会话音频。
其中,在本申请的一些实施例中,该系统还包括至少两个上行透传服务器205,具体包括:
发送方客户端201,用于将原始会话音频分别通过每一上行传输链路传输至每一上行透传服务器205;
上行透传服务器205,用于将获取的至少两个原始会话音频传输至上行引擎服务器204;
上行引擎服务器204,用于根据接收到的至少两个原始会话音频进行修正处理,得到会话音频,并将会话音频传输至选路服务器202;
其中,同一上行引擎服务器204对应的至少两个上行透传服务器205中,不同上行透传服务器所连接的上行传输链路的传输类型不同。
相应的,请参阅图6,图6是本申请实施例提供的音频数据从发送方客户端传输到选路服务器的流程示意图,本申请实施例中,音频数据从发送方客户端传输到选路服务器的流程包括:
221、发送方客户端与上行透传服务器建立单链路或者双链路连接(本申请实施例以双链路为例),并结合发送方客户端上行传输链路的传输质量,为采集处理后音视频数据添加冗余包(传输质量差,则冗余比例高),并通过两条链路发送给相应的上行透传服务器;
222、上行透传服务器做数据透传,将两路媒体数据转发给该发送方客户端的上行引擎服务器;
223、上行引擎服务器对两路媒体数据做丢包恢复和双链路数据去重,然后将恢复后的数据包发送到选路服务器;
224、选路服务器接收上行引擎服务器发送的数据包。
其中,在本申请实施例中,发送方客户端的音频数据包到达选路服务器后,和通话中其他用户的数据包一起,由选路服务器做选择。
其中,在本申请实施例中,双链路可以包括4G链路和Wi-Fi链路,用户在加入通话时,由客户端将终端活跃网卡信息带到信令后台,信令后台为每个活跃网卡分配最优的透传服务器,客户端可以建立与活跃网卡数相同的链路数进行上下行数据传输,上行或者下行的两条链路传输的数据是完全相同的。这样,即使其中一条链路的数据因为网络问题产生了丢包,也可以从另一条链路传输的数据包中恢复。上行双链路数据在引擎服务器的上行引擎中进行去重,下行双链路数据在客户端的音视频引擎中进行去重。
其中,客户端和信令后台协同进行双链路管理,当用户开关网络的时候,由客户端通知给信令后台进行双链路状态更新(创建链路、激活链路、灭活链路、链路数据超时触发重定向等)。
其中,在本申请实施例中,客户端上行数据在上行引擎服务器的上行引擎中做丢包恢复。第一种方式是利用客户端添加的冗余包进行恢复;第二种方式是检测到丢包之后,向客户端发起自动重传请求(ARQ);第三种方式是多链路数据包去重,如果用户使用了上行双链路,那么4G链路和Wi-Fi链路的数据会在上行引擎处做汇聚,并由上行引擎去重,即使其中一条链路的数据因为网络问题产生了丢包,也可以从另一条链路传输的数据包中恢复。上行引擎的丢包恢复保障了媒体数据上行的传输质量。
其中,在本申请的一些实施例中,该系统还包括下行引擎服务器206,具体包括:
选路服务器202,用于对目标会话音频进行过渡处理,得到处理后的目标会话音频,并将处理后的目标会话音频传输至下行引擎服务器206;
下行引擎服务器206,用于接收选路服务器202发送的处理后的目标会话音频,并将处理后的目标会话音频传输至接听方客户端203。
其中,在本申请的一些实施例中,该系统还包括至少两个下行透传服务器207,具体包括:
下行引擎服务器206,用于将处理后的目标会话音频分别传输至至少两个下行透传服务器207;
至少两个下行透传服务器207,用于分别通过每一下行传输链路将处理后的目标会话音频传输至接听方客户端203;
其中,同一下行引擎服务器206对应的至少两个下行透传服务器207中,不同下行透传服务器207所连接的下行传输链路的传输类型不同。
相应的,请参阅图7,图7是本申请实施例提供的音频数据从选路服务器发送给接听方客户端的流程示意图,本申请实施例中,音频数据从选路服务器发送给接听方客户端的流程包括:
231、选路服务器按照会话音频的能量信息,从通话中的若干路数据流中选择出某几路关键流,并将数据包转发给通话中接听方客户端(所有其他用户)的下行引擎服务器(比如选出用户A的数据包就不用转发给A的下行引擎服务器);
232、接听方客户端的下行引擎服务器收到其他通话用户的数据包之后,结合接听方客户端下行传输链路的传输质量,为下行数据添加冗余包(传输质量差,则冗余比例高),并将数据包和冗余包转发给接听方客户端的两个下行透传服务器;
233、接听方客户端的下行透传服务器做数据透传,将两路媒体数据发送给接听方客户端;
234、接听方客户端收到两路媒体数据后做丢包恢复和双链路数据的去重,并进行播放。
其中,在本申请实施例中,发送方客户端和接听方客户端为用户参与音视频通话的硬件设备,运行着搭载音视频引擎的通话应用。终端具备媒体数据采集能力、发送能力、接收能力和播放能力,音视频引擎具体媒体数据的处理能力。同时,终端可以根据活跃网卡的数量,选择使用单条链路或者双条链路发送和接收媒体数据。
其中,在本申请实施例中,上行引擎服务器或者下行引擎服务器用于部署类似客户端音视频引擎的服务器,使数据服务器具备处理媒体数据的能力。上行引擎服务器用来处理上行透传服务器透传过来的媒体数据,主要做丢包恢复和双链路的数据去重。下行引擎服务器用来处理将要发送给下行透传服务器的媒体数据,主要用来给下行媒体数据加冗余数据包(FEC,前向纠错),便于接听方客户端做丢包恢复。
其中,在本申请实施例中,上行透传服务器或者下行透传服务器用于透传媒体数据,在数据服务器与用户终端进行端到端媒体数据通信中起到门户的作用。上行透传服务器或者下行透传服务器也叫接入服务器,接入服务器的选择与用户所处的地域、运营商类型等信息密切相关,选择最优的接入点对提升通信质量有很大的帮助作用。
其中,在本申请实施例中,选路服务器可以按照一定的条件,从通话中的若干路数据流中选择出某几路关键流进行转发的服务器,是一个通话中所有媒体数据的最终汇聚点。选路的标准不是唯一的,可以根据不同的需求制定不同的方案,比如会议场景可以根据声音的能量来筛选。
其中,在本申请的一些实施例中,该系统还包括至少传输控制服务器208,具体包括:
上行引擎服务器204,用于生成发送会话音频对应的上行传输质量结果,并将上行传输质量结果发送给传输控制服务器208;
接听方客户端203,用于生成接收目标会话音频的下行传输质量结果,并将下行传输质量结果发送给传输控制服务器208;
传输控制服务器208,用于根据上行传输质量结果调整发送方客户端201发送原始会话音频的发送策略,以及根据下行传输质量结果调整下行引擎服务器206发送目标会话音频的发送策略。
其中,在本申请实施例中,传输控制服务器可以实时调节上下行数据传输策略的服务器。调控的原则是:根据接收质量调节发送策略。其中,在本申请实施例中,发送策略包括对音频数据传输过程中传输速率、单次传输的数据量大小的控制策略。
其中,请参阅图4,上行引擎服务器统计用户上行链路传输质量,通过上行引擎服务器与传输控制服务器之间的点对点通信技术同步给传输控制服务器,传输控制服务器根据用户上行链路传输质量信息制定上行传输调控策略,并通过传输控制服务器与发送方客户端之间的点对点通信技术同步给发送方客户端,由发送方客户端根据上行传输调控策略调整原始音频数据的发送策略;以及,接听方客户端统计用户下行链路传输质量,通过接听方客户端与传输控制服务器之间的点对点通信技术发送给传输控制服务器,传输控制服务器根据下行链路传输质量信息制定下行传输调控策略,并通过传输控制服务器与下行引擎服务器之间的点对点通信技术发送给下行引擎服务器,由下行引擎服务器根据下行传输调控策略调整目标会话音频的发送策略。
其中,在本申请实施例中,下行引擎服务器的作用是处理选路后的数据包,便于客户端做丢包恢复。此时下行引擎服务器作为数据的发送端,有两种方式可以用作抗丢包策略。第一种是前向纠错(FEC),在本发明介绍的架构中,下行冗余的调控都是以用户为粒度的,即每个用户的下行引擎为该用户单独设置冗余信息。如图8所示,图8是本申请实施例提供的音频数据从选路服务器发送给接听方客户端的传输控制流程示意图,其中,一个通话有A、B、C、D四个用户,用户B、C、D的下行引擎在收到选路服务器发送过来的用户A的数据包时,设置冗余信息的依据主要来自于传输控制服务器的决策,每个用户下行传输链路的传输质量不同,冗余信息就是不同的。以用户B为例,下行链路的调控-传输-再调控形成了一个闭环,这样针对性加冗余包的方式可以最大化保证数据在客户端得到正常恢复。第二种方式是响应客户端的自动重传请求。
其中,上述引擎服务器中的丢包恢复策略,提升了传输可靠性,对通话质量的提升也是显著的。
其中,本申请实施例通过获取来自于不同发送方客户端发送的多路会话音频,根据当前会话场景确定对应的目标筛选策略,并根据目标筛选策略从多路会话音频中筛选出目标会话音频,将筛选的目标会话音频发送给接听方客户端,实现对会话音频的筛选和传输。
其中,根据会话场景确定会话音频对应的筛选策略,并基于筛选策略对会话音频的筛选,实现基于会话场景对会话音频的筛选。其中,通过将筛选后的目标会话音频发送给接听方客户端,实现对筛选的目标会话音频的传输,为大规模音视频通话应用提供了可靠的多方流媒体数据通信方案。
其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低了会话音频在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。同时,引入引擎服务器对音频数据进行丢包恢复等处理,显著改善音视频的丢包和卡顿问题。
其中,通过传输控制服务器的设置,调节了会话音频在传输过程中的发送策略,实现对传输过程的控制,提升传输质量。
为便于更好的实施本申请的音频传输方法,本申请还提供一种基于上述音频传输方法的音频传输装置。其中第三目标词语的含义与上述音频传输方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图9,图9为本申请提供的音频传输装置的结构示意图,其中,该音频传输装置可以包括:
获取模块301,用于获取来自于不同发送方客户端的至少两路会话音频;
确定模块302,用于根据当前会话场景,确定对应的目标筛选策略;
选路模块303,用于按照目标筛选策略从至少两路会话音频中筛选出目标会话音频;
发送模块304,用于将目标会话音频发送给接听方客户端。
其中,在本申请的一些实施例中,发送模块304包括:
第一确定单元,用于若目标会话音频包括不同用户的至少两个音频分量时,从至少两个音频分量中确定出目标音频分量;
处理单元,用于对目标音频分量进行过渡处理,得到处理后的目标会话音频;
第一发送单元,用于将处理后的目标会话音频发送给接听方客户端。
其中,在本申请的一些实施例中,处理单元包括:
第一处理子单元,用于从至少两个音频分量中提取出目标音频分量,并根据目标音频分量构建会话音频,得到处理后的目标会话音频。
其中,在本申请的一些实施例中,处理单元包括:
第二处理子单元,用于对目标会话音频中的目标音频分量进行增强处理,得到处理后的目标会话音频。
其中,在本申请的一些实施例中,处理单元包括:
第三处理子单元,用于根据目标音频分量从目标会话音频中确定非目标音频分量,并对非目标音频分量进行抑制处理,得到处理后的目标会话音频。
其中,在本申请的一些实施例中,第一确定单元包括:
确定子单元,用于根据音频分量的能量信息,从至少两个音频分量中确定出目标音频分量。
其中,在本申请的一些实施例中,确定子单元用于:
确定音频分量对应的用户身份标签信息;
获取音频数据传输记录;
根据音频数据传输记录确定用户身份标签信息对应的音频传输频率;
根据能量信息和音频传输频率,从至少两个音频分量中确定出目标音频分量。
其中,在本申请的一些实施例中,确定子单元用于:
根据用户身份标签信息确定音频分量的音频传输等级;
根据能量信息、音频传输频率和音频传输等级,从至少两个音频分量中确定出目标音频分量。
其中,在本申请的一些实施例中,确定模块302包括:
第二确定单元,用于当当前会话场景为会议场景时,将筛选的会话音频的音频能量满足预设条件作为会议场景对应的目标筛选策略。
其中,在本申请的一些实施例中,获取模块301包括:
获取单元,用于从至少两个上行引擎服务器获取至少两路会话音频;
其中,针对每路会话音频,会话音频由上行引擎服务器对来自于至少两个上行透传服务器的原始会话音频进行修正处理后得到,原始会话音频由至少两个上行透传服务器分别通过上行传输链路从发送方客户端获取;
修正处理包括对至少两路上行传输链路传输的原始会话音频进行汇聚操作和去重操作。
其中,在本申请的一些实施例中,发送模块304包括:
第二发送单元,用于通过下行引擎服务器,将目标会话音频发送至接听方客户端;
其中,目标会话音频通过下行引擎服务器分别发送给至少两个下行透传服务器,并由下行透传服务器通过下行传输链路分别发送至接听方客户端。
本申请实施例由获取模块301获取来自于不同发送方客户端的至少两路会话音频,接着,由确定模块302根据当前会话场景,确定对应的目标筛选策略,然后,由选路模块303按照目标筛选策略从至少两路会话音频中筛选出目标会话音频,最后,由发送模块304将目标会话音频发送给接听方客户端。
其中,本申请实施例通过获取来自于不同发送方客户端发送的多路会话音频,根据当前会话场景确定对应的目标筛选策略,并根据目标筛选策略从多路会话音频中筛选出目标会话音频,将筛选的目标会话音频发送给接听方客户端,实现对会话音频的筛选和传输。其中,根据会话场景确定会话音频对应的筛选策略,并基于筛选策略对会话音频的筛选,实现基于会话场景对会话音频的筛选。其中,通过将筛选后的目标会话音频发送给接听方客户端,实现对筛选的目标会话音频的传输。其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低了会话音频在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。
此外,本申请还提供一种电子设备,如图10所示,其示出了本申请所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图10中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、对象界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现本申请所提供的任一种音频传输方法中的步骤。
本申请实施例通过获取来自于不同发送方客户端发送的多路会话音频,根据当前会话场景确定对应的目标筛选策略,并根据目标筛选策略从多路会话音频中筛选出目标会话音频,将筛选的目标会话音频发送给接听方客户端,实现对会话音频的筛选和传输。其中,根据会话场景确定会话音频对应的筛选策略,并基于筛选策略对会话音频的筛选,实现基于会话场景对会话音频的筛选。其中,通过将筛选后的目标会话音频发送给接听方客户端,实现对筛选的目标会话音频的传输。其中,由于筛选的会话音频的数量少于筛选前接收到的会话音频的总数量,因此,减少了发送给接听方客户端会话音频的数据量,降低了会话音频在传输过程中对负载和带宽的压力,提升了会话音频的传输质量,提升语音通话的质量,提升用户体验。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请所提供的任一种音频传输方法中的步骤。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请所提供的任一种音频传输方法中的步骤,因此,可以实现本申请所提供的任一种音频传输方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请所提供的一种音频传输方法、系统及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
其中,可以理解的是,在本申请的具体实施方式中,涉及到用户信息、用户身份标签信息、用户发声后的音频信息、应用使用数据以及用户终端设备的传输质量等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
Claims (15)
1.一种音频传输方法,其特征在于,包括:
获取来自于不同发送方客户端的至少两路会话音频;
根据当前会话场景,确定对应的目标筛选策略;
按照所述目标筛选策略从至少两路所述会话音频中筛选出目标会话音频;
将所述目标会话音频发送给接听方客户端。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标会话音频发送给接听方客户端,包括:
若所述目标会话音频包括不同用户的至少两个音频分量时,从至少两个所述音频分量中确定出目标音频分量;
对所述目标音频分量进行过渡处理,得到处理后的目标会话音频;
将所述处理后的目标会话音频发送给接听方客户端。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标音频分量进行过渡处理,得到处理后的目标会话音频,包括:
从至少两个所述音频分量中提取出所述目标音频分量,并根据所述目标音频分量构建会话音频,得到处理后的目标会话音频,或,
对所述目标会话音频中的所述目标音频分量进行增强处理,得到处理后的目标会话音频,或,
根据所述目标音频分量从所述目标会话音频中确定非目标音频分量,并对所述非目标音频分量进行抑制处理,得到处理后的目标会话音频。
4.根据权利要求2所述的方法,其特征在于,所述从至少两个所述音频分量中确定出目标音频分量,包括:
根据所述音频分量的能量信息,从至少两个所述音频分量中确定出目标音频分量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述音频分量的能量信息,从至少两个所述音频分量中确定出目标音频分量,包括:
确定所述音频分量对应的用户身份标签信息;
获取音频数据传输记录;
根据所述音频数据传输记录确定所述用户身份标签信息对应的音频传输频率;
根据所述能量信息和所述音频传输频率,从至少两个所述音频分量中确定出目标音频分量。
6.根据权利要求1所述的方法,其特征在于,所述根据当前会话场景,确定对应的目标筛选策略,包括:
当所述当前会话场景为会议场景时,将筛选的会话音频的音频能量满足预设条件作为所述会议场景对应的目标筛选策略。
7.根据权利要求1所述的方法,其特征在于,所述获取来自于不同发送方客户端的至少两路会话音频,包括:
从至少两个上行引擎服务器获取至少两路会话音频;
其中,针对每路会话音频,所述会话音频由所述上行引擎服务器对来自于至少两个上行透传服务器的原始会话音频进行修正处理后得到,所述原始会话音频由至少两个所述上行透传服务器分别通过上行传输链路从发送方客户端获取;
所述修正处理包括对所述至少两路上行传输链路传输的原始会话音频进行汇聚操作和去重操作。
8.根据权利要求1所述的方法,其特征在于,所述将所述目标会话音频发送给接听方客户端,包括:
通过下行引擎服务器,将所述目标会话音频发送至接听方客户端;
其中,所述目标会话音频通过所述下行引擎服务器分别发送给至少两个下行透传服务器,并由所述下行透传服务器通过下行传输链路分别发送至所述接听方客户端。
9.一种音频传输系统,其特征在于,包括发送方客户端,选路服务器和接听方客户端,其中,
所述发送方客户端用于向所述选路服务器传输会话音频;
所述选路服务器用于根据当前会话场景,确定对应的目标筛选策略;以及按照所述目标筛选策略从来自于不同发送方客户端的至少两路会话音频中筛选出目标会话音频;以及将所述目标会话音频发送至所述接听方客户端;
所述接听方客户端用于接收所述选路服务器发送的目标会话音频。
10.根据权利要求9所述的音频传输系统,其特征在于,所述音频传输系统还包括上行引擎服务器,其中,
所述发送方客户端用于向所述上行引擎服务器发送原始会话音频;
所述上行引擎服务器用于接收所述发送方客户端发送的原始会话音频,并对所述原始会话音频进行修正处理,得到会话音频,并将所述会话音频传输至所述选路服务器;
所述选路服务器用于接收所述上行引擎服务器传输的会话音频。
11.根据权利要求10所述的音频传输系统,其特征在于,所述音频传输系统还包括至少两个上行透传服务器,其中,
所述发送方客户端用于将所述原始会话音频分别通过每一上行传输链路传输至每一所述上行透传服务器;
所述上行透传服务器用于将获取的至少两个所述原始会话音频传输至所述上行引擎服务器;
所述上行引擎服务器用于根据接收到的至少两个所述原始会话音频进行修正处理,得到会话音频,并将所述会话音频传输至所述选路服务器;
其中,同一上行引擎服务器对应的至少两个上行透传服务器中,不同所述上行透传服务器所连接的上行传输链路的传输类型不同。
12.根据权利要求11所述的音频传输系统,其特征在于,所述音频传输系统还包括下行引擎服务器,其中,
所述选路服务器用于对所述目标会话音频进行过渡处理,得到处理后的目标会话音频,并将所述处理后的目标会话音频传输至所述下行引擎服务器;
所述下行引擎服务器用于接收所述选路服务器发送的所述处理后的目标会话音频,并将所述处理后的目标会话音频传输至所述接听方客户端。
13.根据权利要求12所述的音频传输系统,其特征在于,所述音频传输系统还包括至少两个下行透传服务器,其中,
所述下行引擎服务器用于将所述处理后的目标会话音频分别传输至所述至少两个下行透传服务器;
所述至少两个下行透传服务器用于分别通过每一下行传输链路将所述处理后的目标会话音频传输至所述接听方客户端;
其中,同一下行引擎服务器对应的至少两个下行透传服务器中,不同所述下行透传服务器所连接的下行传输链路的传输类型不同。
14.根据权利要求13所述的音频传输系统,其特征在于,所述音频传输系统还包括传输控制服务器,其中,
所述上行引擎服务器用于生成发送所述会话音频对应的上行传输质量结果,并将所述上行传输质量结果发送给所述传输控制服务器;
所述接听方客户端用于生成接收所述目标会话音频的下行传输质量结果,并将所述下行传输质量结果发送给所述传输控制服务器;
所述传输控制服务器用于根据所述上行传输质量结果调整所述发送方客户端发送所述原始会话音频的发送策略,以及根据所述下行传输质量结果调整所述下行引擎服务器发送所述目标会话音频的发送策略。
15.一种音频传输装置,其特征在于,包括:
获取模块,用于获取来自于不同发送方客户端的至少两路会话音频;
确定模块,用于根据当前会话场景,确定对应的目标筛选策略;
选路模块,用于按照所述目标筛选策略从至少两路所述会话音频中筛选出目标会话音频;
发送模块,用于将所述目标会话音频发送给接听方客户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210651636.7A CN115086280A (zh) | 2022-06-09 | 2022-06-09 | 音频传输方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210651636.7A CN115086280A (zh) | 2022-06-09 | 2022-06-09 | 音频传输方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115086280A true CN115086280A (zh) | 2022-09-20 |
Family
ID=83250595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210651636.7A Pending CN115086280A (zh) | 2022-06-09 | 2022-06-09 | 音频传输方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115086280A (zh) |
-
2022
- 2022-06-09 CN CN202210651636.7A patent/CN115086280A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2176987B1 (en) | Multi-point to multi-point intercom system | |
US9661270B2 (en) | Multiparty communications systems and methods that optimize communications based on mode and available bandwidth | |
US7577110B2 (en) | Audio chat system based on peer-to-peer architecture | |
US20070237099A1 (en) | Decentralized architecture and protocol for voice conferencing | |
US8547856B2 (en) | Communication system with state dependent parameters | |
CN113114688B (zh) | 多媒体会议管理方法及装置、存储介质、电子设备 | |
CN111585776B (zh) | 数据传输方法、装置、设备及计算机可读存储介质 | |
CN111049792B (zh) | 音频传输方法、装置、终端设备和存储介质 | |
CN114025389B (zh) | 数据传输方法、装置、计算机设备及存储介质 | |
CN112449208B (zh) | 语音处理方法及其装置 | |
KR20150026405A (ko) | 음성 패킷 송수신 방법 및 이를 구현하는 전자 장치 | |
US11388464B2 (en) | Increasing video bit rates while maintaining video quality | |
US20230146871A1 (en) | Audio data processing method and apparatus, device, and storage medium | |
CN115086280A (zh) | 音频传输方法、系统及装置 | |
CN113038064B (zh) | 一种移动终端会议系统 | |
CN113301350A (zh) | 一种分布式的音视频任务管理与分发系统及实现方法 | |
CN101904152B (zh) | 通信方法、设备和装置 | |
CN111432160A (zh) | 一种实现多人通话的方法、装置、服务器和存储介质 | |
US11632404B2 (en) | Data stream prioritization for communication session | |
US11601478B2 (en) | Media server management for communication session | |
WO2024027272A9 (zh) | 多媒体资源的传输方法、装置、电子设备及存储介质 | |
CN114448588B (zh) | 音频传输方法、装置、电子设备及计算机可读存储介质 | |
CN111385516A (zh) | 多媒体资源的传输方法、装置、系统和可读存储介质 | |
Prasad et al. | Multiparty Audioconferencing on Wireless Networks................... and R. Muralishankar |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40073681 Country of ref document: HK |