CN118118465A - 语音处理方法、装置、芯片及存储介质 - Google Patents
语音处理方法、装置、芯片及存储介质 Download PDFInfo
- Publication number
- CN118118465A CN118118465A CN202410372190.3A CN202410372190A CN118118465A CN 118118465 A CN118118465 A CN 118118465A CN 202410372190 A CN202410372190 A CN 202410372190A CN 118118465 A CN118118465 A CN 118118465A
- Authority
- CN
- China
- Prior art keywords
- sub
- voice packet
- voice
- packets
- packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 68
- 230000006854 communication Effects 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims 1
- 239000000758 substrate Substances 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 21
- 238000001228 spectrum Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本申请提供一种语音处理方法、装置、芯片及存储介质。该方法包括:发送端终端设备生成语音包并发送所述语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息。接收端终端设备接收所述语音包,并根据所述编码信息对所述语音包进行解码。本申请的方法,能够精确地识别大时长语音包中的静音部分,提升大时长语音包的编码效率和传输效率。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种语音处理方法、装置、芯片及存储介质。
背景技术
目前,在语音通话领域中,为节约编码和传输资源,通常将语音信号区分为静音帧和非静音帧。静音帧在语音信号中能量较低,对语音内容的贡献较小,因此在编码过程中,静音帧通常会被分配较少的编码比特,以节省编码资源。在长期演进语音承载(Voice overLong-Term Evolution,VoLTE)等系统中,通常以20ms为单位进行静音帧判别,以提升语音传输效率。但在大时延语音通话系统(例如非地面网络语音通信系统(Voice over Non-Terrestrial Network Communication System,VoNTN))中,则通常采用500ms的大时长语音包。然而,目前识别大时长语音包中的静音帧较为困难,导致编码效率和传输效率较低的问题。
因此,如何提升大时延语音通话系统的编码效率和传输效率是亟需解决的问题。
发明内容
本申请提供一种语音处理方法、装置、芯片及存储介质,用以提升大时延语音通话系统的编码效率和传输效率。
第一方面,本申请提供一种语音处理方法,所述方法包括:
生成语音包;
发送所述语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息。
可选的,所述第一信息包括第一子信息,所述第一子信息用于指示所述语音包的类型,所述语音包的类型用于指示所述语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
可选的,所述语音包的类型包括:静音语音包、非静音语音包、混合语音包;所述子语音包的类型包括:静音子语音包、非静音子语音包;其中,所述混合语音包中包括至少一个静音子语音包和至少一个非静音子语音包。
可选的,所述混合语音包中的非静音子语音包对应的编码速率与下述至少一项信息相关:所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
可选的,所述混合语音包中的非静音子语音包对应的编码速率小于参考编码速率;所述参考编码速率与下述至少一项信息相关:所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
可选的,所述混合语音包中的非静音子语音包对应的编码速率为编码速率集合中小于所述参考编码速率的一编码速率。
可选的,所述混合语音包中的非静音子语音包对应的编码速率为所述编码速率集合中小于所述参考编码速率的最大编码速率。
可选的,所述方法还包括:接收第二信息,所述第二信息用于指示所述编码速率集合。
可选的,所述第一信息还包括第二子信息,所述第二子信息用于指示所述非静音子语音包对应的编码速率。
可选的,所述静音子语音包对应的编码速率为预设编码速率。
可选的,所述子语音包的包头包括第三信息,所述第三信息用于指示所述子语音包的类型。
可选的,所述生成语音包,包括:
获取初始语音包;
将所述初始语音包划分为多个初始子语音包;
识别所述初始子语音包的类型;
根据所述初始子语音包的类型,以及,所述初始子语音包的类型对应的编码速率,对所述初始子语音包进行编码处理,得到所述语音包。
可选的,所述第一信息还用于指示所述语音包包括的子语音包数量;或者,发送第四信息,所述第四信息用于指示所述语音包包括的子语音包数量。
第二方面,本申请提供一种语音处理方法,所述方法包括:接收语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息;根据所述编码信息对所述语音包进行解码。
可选的,所述第一信息包括第一子信息,所述第一子信息用于指示所述语音包的类型,所述语音包的类型用于指示所述语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
可选的,所述语音包的类型包括:静音语音包、非静音语音包、混合语音包;所述子语音包的类型包括:静音子语音包、非静音子语音包;其中,所述混合语音包中包括至少一个静音子语音包和至少一个非静音子语音包。
可选的,所述混合语音包中的非静音子语音包对应的编码速率与下述至少一项信息相关:所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
可选的,所述混合语音包中的非静音子语音包对应的编码速率小于参考编码速率;所述参考编码速率与下述至少一项信息相关:所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
可选的,所述混合语音包中的非静音子语音包对应的编码速率为编码速率集合中小于所述参考编码速率的一编码速率。
可选的,所述混合语音包中的非静音子语音包对应的编码速率为所述编码速率集合中小于所述参考编码速率的最大编码速率。
可选的,所述第一信息还包括第二子信息,所述第二子信息用于指示所述非静音子语音包对应的编码速率。
可选的,所述静音子语音包对应的编码速率为预设编码速率。
可选的,所述子语音包的包头包括第三信息,所述第三信息用于指示所述子语音包的类型。
可选的,所述第一信息还用于指示所述语音包包括的子语音包数量;或者,接收第四信息,所述第四信息用于指示所述语音包包括的子语音包数量。
可选的,所述语音包为混合语音包,所述根据所述编码信息对所述语音包进行解码,包括:
根据所述编码信息获取所述语音包的解码速率;
根据所述语音包的解码速率对所述语音包中的非静音子语音包进行解码,并根据预设解码速率对所述语音包中的静音子语音包进行解码。
第三方面,本申请提供一种语音处理装置,所述装置包括:
处理模块,用于生成语音包;
发送模块,用于发送所述语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息。
第四方面,本申请提供一种语音处理装置,所述装置包括:
接收模块,用于接收语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息;
处理模块,用于根据所述编码信息对所述语音包进行解码。
第五方面,本申请提供一种语音处理装置,包括:处理器、通信接口,以及存储器;所述处理器分别与所述通信接口和所述存储器通信连接;
所述存储器存储计算机执行指令;
所述通信接口与外部设备进行通信交互;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面或第二方面中任一方面所述的方法。
第六方面,本申请提供一种芯片,所述芯片上存储有计算机程序,在所述计算机程序被所述芯片执行时,实现如第一方面或第二方面中任一方面所述的方法。
第七方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被计算机执行时用于实现如第一方面或第二方面中任一方面所述的方法。
第八方面,本申请提供一种计算机程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。通信设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得通信设备实施上述第一方面或第二方面中任一方面所述的方法。
与现有技术相比,本申请技术方案具有以下有益效果:
本申请提供的语音处理方法、装置、芯片及存储介质,通过将大时长语音包划分为多个时长较小的子语音包,并在语音包中携带指示每个子语音包的编码信息的第一信息,根据该第一信息确定该语音包的编解码方式,以将静音帧所在的子语音包根据静音帧的编解码方式进行编解码,将非静音帧所在的子语音包根据非静音帧的编解码方式进行编解码,从而精确地识别大时长语音包中的静音部分,提升大时长语音包的编码效率和传输效率。
附图说明
图1为本申请实施例应用的一种大时延语音通话系统的架构示意图;
图2为本申请实施例提供的一种语音处理方法的流程示意图;
图3为本申请实施例提供的另一种语音处理方法的流程示意图;
图4为本申请实施例提供的又一种语音处理方法的流程示意图;
图5为本申请实施例提供的一种语音处理装置的结构示意图;
图6为本申请实施例提供的另一种语音处理装置的结构示意图;
图7为本申请实施例提供的又一种语音处理装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请中“等于”可以与“小于”连用,也可以与“大于”连用,但不同时与“小于”和“大于”连用。当“等于”与“小于”连用时,适用于“小于”所采用的技术方案。当“等于”与“大于”连用时,适用于“大于”所采用的技术方案。
为了便于理解,首先对目前的多路径通信系统的架构进行说明:
图1为本申请实施例应用的一种大时延语音通话系统的架构示意图。如图1所示,该系统包括:发送端终端设备、接收端终端设备和网络设备。其中,大时延实时语音通话系统通常指的是在通信过程中存在显著延迟的实时语音通信解决方案。这些系统可能由于网络带宽限制、信号传输距离过长、设备性能不足或复杂的通信协议等因素而产生大时延。该大时延实时语音通话系统例如可以是跨国视频会议系统、卫星电话系统、偏远地区通信系统等。
该发送端终端设备用于捕获和处理发送端用户的语音信号,并将编码后的语音数据通过网络发送给接收端终端设备。接收端终端设备用于接收并处理从网络传输过来的语音数据,以将语音数据转换为声音,使接收端用户能够听到对方的语音。网络设备在大时延实时语音通话系统中扮演着桥梁的角色。它负责将发送端终端设备发送的语音数据可靠地传输到接收端终端设备。
本申请实施例对该系统中包括的发送端终端设备、接收端终端设备和网络设备的数量不做限定。另外,应理解,图1只是示意图,该系统中还可以包括其它网络设备,本申请对此不进行限定,在图1中未画出。
其中,网络设备通常可以是无线接入网设备。无线接入网设备通常是终端设备通过无线方式接入到该通信系统中的接入设备,或者说,将终端设备接入到无线网络的无线接入网(radio access network,RAN)节点(或设备),可以是演进型节点B(evolved NodeB,eNB)、无线网络控制器(Radio Network Controller,RNC)、节点B(Node B,NB)、基站控制器(Base Station Controller,BSC)、基站收发台(Base Transceiver Station,BTS)、家庭基站(例如,Home evolved NodeB,或Home Node B,HNB)、基带单元(BaseBand Unit,BBU),无线保真(Wireless Fidelity,WIFI)系统中的接入点(Access Point,AP)、无线中继节点、无线回传节点、传输点(transmission point,TP)或者发送接收点(transmission andreception point,TRP)等,还可以为5G(如新无线电(new radio,NR))系统中的网络设备或传输点(TRP或TP),或者,5G系统中的基站的一个或一组(包括多个天线面板)天线面板,或者,还可以为构成网络设备或传输点的网络节点,如基带单元(BBU),或,分布式单元(distributed unit,DU)等,本申请的实施例对无线接入网设备所采用的具体技术和具体设备形态不做限定。在本申请实施例中,无线接入网设备也可以简称网络设备或者基站,如果无特殊说明,在本申请实施例中,网络设备均指无线接入网设备。
终端设备通常是指向用户提供语音和/或数据连通性的设备,也可以称为终端Terminal、用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality,VR)终端设备、增强现实(AugmentedReality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(selfdriving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。
作为示例而非限定,在本申请实施例中,该终端设备还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备,是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,例如:智能手表或智能眼镜等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。
无线接入网设备和终端设备可以部署在陆地上,包括室内或室外、手持或车载;也可以部署在水面上;还可以部署在空中的飞机、气球和人造卫星上等。终端设备可以是固定位置的,也可以是可移动的。
无线接入网设备和终端设备之间以及终端设备和终端设备之间可以通过授权频谱(licensed spectrum)进行通信,也可以通过免授权频谱(unlicensed spectrum)进行通信,也可以同时通过授权频谱和免授权频谱进行通信。无线接入网设备和终端设备之间以及终端设备和终端设备之间可以通过6吉兆赫(gigahertz,GHz)以下的频谱进行通信,也可以通过6GHz以上的频谱进行通信,还可以同时使用6GHz以下的频谱和6GHz以上的频谱进行通信。本申请的实施例对无线接入网设备和终端设备之间所使用的频谱资源不做限定。
应理解,图1所示的通信系统例如可以是5G通信系统,也可以是下一代无线局域网系统,也可以是未来其他通信系统等,在此不作限制。另外,在本申请实施例中,术语5G和新无线电(new radio,NR)可以等同。
继续参照图1,以NR通信系统为例,NR通信架构包含两种通信接口,分别为PC5接口和Uu接口。PC5接口是终端设备之间直连通信接口,即,终端设备之间利用PC5接口,可以使用网络设备配置的资源,通过直通链路直接进行通信,不需要经过网络设备中转。该直连通信链路也可以称为侧链路或侧链(sidelink,SL)。终端设备之间通过直通链路直接进行通信也可以称为SL通信。Uu接口是终端设备接入到网络设备的通信接口。
在本申请实施例中,终端设备或网络设备包括硬件层、运行在硬件层之上的操作系统层,以及运行在操作系统层上的应用层。该硬件层包括中央处理器(centralprocessing unit,CPU)、内存管理单元(memory management unit,MMU)和内存(也称为主存)等硬件。该操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统,例如,Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包含浏览器、通讯录、文字处理软件、即时通信软件等应用。并且,本申请实施例并未对本申请实施例提供的方法的执行主体的具体结构特别限定,只要能够通过运行记录有本申请实施例的提供的方法的代码的程序,以根据本申请实施例提供的方法进行通信即可,例如,本申请实施例提供的方法的执行主体可以是终端设备或网络设备,或者,是终端设备或网络设备中能够调用程序并执行程序的功能模块。
目前,在VoLTE等实时语音通信系统中,语音包的长度通常为20ms。由于静音帧的持续时长通常较短,在以20ms为单位进行静音帧判别时,静音帧的持续时长通常不会超过几帧,因此能够更精确地捕捉到这些静音帧。对于静音帧,可以采用低比特率编码或无编码,以减少传输的数据量。在VOLTE中,由于网络带宽通常较为充裕,且实时性要求高,所以使用较短的静音帧判别时长(如20ms)可以更快地识别并处理静音帧,从而提高整体编码效率。
然而,在大时延语音通话系统(例如VoNTN)中,由于带宽资源有限,为提高语音的有效载荷比,往往采用500ms的大时长语音包,以减少传输过程中的开销,比如信令和头部信息,从而更有效地利用有限的带宽资源。在这种情况下,由于静音判别通常是在整个语音包级别进行的,因此对于500ms以下的静音时长,终端设备可能无法及时识别并处理。例如,即使大时长语音包中只有短暂的静音部分(例如50ms),但终端设备无法识别到该大时长语音包中存在静音帧,可能会将整个500ms的大时长语音包中的帧均视为非静音帧,并进行完整的编码和传输。从而导致编码效率和传输效率较低的问题。
因此,如何在大时延语音通话系统中提升编码效率和传输效率是亟需解决的问题。
有鉴于此,本申请提供了一种语音处理方法,通过将大时长语音包划分为多个时长较小的子语音包,并在语音包中携带指示每个子语音包的编码信息的第一信息,根据该第一信息确定该语音包的编解码方式,以将静音帧所在的子语音包根据静音帧的编解码方式进行编解码,将非静音帧所在的子语音包根据非静音帧的编解码方式进行编解码,从而精确地识别大时长语音包中的静音部分,提升了混合语音包中非静音帧的编码率,进而提升了大时长语音包的编码效率和传输效率。
本申请实施例中涉及的网络设备为前述所说的网络设备中的任意一种,接收端终端设备和发送端终端设备为前述所说的终端设备中的任意一种。其中,接收端终端设备、发送端终端设备、以及网络设备除了可以是电子设备,还可以是实现其对应功能的装置、芯片等。本申请实施例中以接收端终端设备、发送端终端设备、以及网络设备均为电子设备为例进行介绍。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种语音处理方法的流程示意图。如图2所示,该方法可以包括:
S201、发送端终端设备生成语音包。
其中,该语音包为大时长语音包,例如可以是时长为500ms的大时长语音包,或者可以是其他时长的大时长语音包。该语音包中包括至少两个子语音包。
可选的,该语音包中包括的子语音包的数量可以是协议预定义的,该语音包中包括的子语音包的时长可以是平均分配的。或者,该语音包中包括的子语音包的数量可以是发送端终端设备根据实际的业务需求确定的,发送端终端设备可以根据不同的业务需求,确定每个语音包中包括的子语音包数量。例如,业务需求与子语音包数量存在映射关系,发送端终端设备可以根据该映射关系与业务需求,确定子语音包数量。
例如,该语音包为时长为500ms的大时长语音包,该子语音包的数量为20个,则每个子语音包的时长为25ms。
发送端终端设备根据接收到的语音,生成包括至少两个子语音包的语音包。
S202、发送端终端设备发送语音包。
相应的,接收端终端设备接收语音包。
其中,该语音包的包头中包括第一信息,该第一信息用于指示语音包中包括的至少两个子语音包的编码信息。该编码信息用于表征该子语音包的编码方式和/或解码方式,该编码信息例如可以包括子语音包的编码速率。
一种可能的实现方式,该第一信息中可以包括每个子语音包的编码信息。示例性的,语音包中包括5个子语音包,则第一信息中包括5个编码信息,每个编码信息对应一个子语音包。
另一种可能的实现方式,该第一信息中可以包括不同类型的子语音包的编码信息,以使接收端终端设备可以根据子语音包的类型,以及,该类型对应的编码信息,确定每个子语音包的编码方式和/或解码方式。例如,可以包括全部是静音帧的子语音包的编码信息,用于表征全部是静音帧的子语音包的编码方式和/或解码方式;还可以包括全部是非静音帧的子语音包的编码信息,用于表征全部是非静音帧的子语音包的编码方式和/或解码方式。
S203、接收端终端设备根据编码信息对语音包进行解码。
接收端终端设备根据第一信息中包括的编码信息,对该编码信息对应的子语音包进行解码。例如,根据第一信息中包括的编码速率,对该编码信息对应的子语音包以该编码速率进行解码。
在完成所有的子语音包的解码后,接收端终端设备可以将解码后的子语音包进行合并,生成解码后的语音包,以向接收端用户输出该语音包对应的语音内容。
本申请实施例提供的方法,通过将大时长语音包划分为多个时长较小的子语音包,并在语音包中携带指示子语音包的编码信息的第一信息,根据该第一信息确定该语音包的编解码方式,以将静音帧所在的子语音包根据静音帧的编解码方式进行编解码,将非静音帧所在的子语音包根据非静音帧的编解码方式进行编解码,从而精确地识别大时长语音包中的静音部分,提升大时长语音包的编码效率和传输效率。
下面,以不同类型的子语音包对应的编码信息不同为例,对语音包中包括子语音包的编码信息的具体方式进行介绍。
方式1:语音包中包括语音包的类型,语音包的类型指示子语音包的类型。
一种可能的实现方式,第一信息包括第一子信息。该第一子信息用于指示所述语音包的类型,语音包的类型用于指示语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
其中,该语音包的类型包括:静音语音包、非静音语音包、混合语音包。该子语音包的类型包括:静音子语音包、非静音子语音包。若该语音包中的子语音包均为静音子语音包,则该语音包的类型为静音语音包;若该语音包中的子语音包均为非静音子语音包,则该语音包的类型为非静音语音包;若该语音包中的子语音包中包括至少一个静音子语音包和至少一个非静音子语音包,则该语音包的类型为混合语音包。
该第一子信息可以是语音包类型的标识。示例性的,静音语音包对应的标识为0、非静音语音包对应的标识为1,混合语音包对应的标识为2。一种可能的实现方式,该语音包的包头中可以增加一位指示位,以存储该第一子信息。应理解,本申请对于语音包类型对应的具体标识不做限定,只要是能够区分不同类型的语音包类型即可。
对于静音语音包和非静音语音包,其对应的编解码速率可以参照现有的处理方式对应的编解码速率。即,静音语音包按照静音语音包对应的编解码速率进行编解码。例如,静音语音包的编码速率可以是最低编码速率,或者可以是其他的预设编码速率。非静音语音包按照非静音语音包对应的编解码速率进行编解码。此处可以参照现有技术,此处不进行赘述。
对于混合语音包,其对应的编解码速率可以根据混合语音包中的子语音包的类型确定。对于混合语音包中的静音子语音包,其编码速率可以是最低编码速率,或者可以是其他的预设编码速率。对于混合语音包中的非静音子语音包的编码速率,可以根据该混合语音包的信息计算获取。
可选的,第一信息中还可以包括第二子信息,该第二子信息用于指示非静音子语音包对应的编码速率。该非静音子语音包对应的编码速率可以用于指示终端设备通过该编码速率编码或解码静音语音包中的非静音子语音包、混合语音包中的非静音子语音包。
由于如何编码或解码子语音包,需要根据子语音包的类型确定。因此,可选的,该子语音包的包头可以包括第三信息,该第三信息用于指示子语音包的类型。例如,第三信息为第一值(例如0)时,子语音包为静音子语音包,第三信息为第二值(例如1)时,子语音包为非静音子语音包。
另一种可能的实现方式,语音包的包头中包括第五信息,该第五信息用于指示语音包的类型,语音包的类型用于指示语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
应了解,该实现方式中仅指示语音包的类型的第五信息与上一种实现方式中指示语音包的类型的第一子信息在语音包中的存储方式不同,即第一种实现方式中第一子信息包括在第一信息中,第一信息存储在语音包的包头中。而该实现方式下第五信息和第一信息相同,均存储在语音包的包头中。
方式2:语音包中直接包括子语音包的类型。
在该实现方式下,语音包的包头中可以直接包括该语音包中所有子语音包的类型,以及,子语音包的类型与子语音包的映射关系。根据该映射关系,以及,子语音包,确定每个子语音包的类型。根据每个子语音包的类型,以及,与该子语音包的类型对应的编码信息,确定每个子语音包的编码速率和/或解码速率,以对每个子语音包进行编解码操作。
本申请实施例提供的方法,通过对语音包的类型的划分、子语音包的类型的划分,确定不同类型的语音包的编解码方式,以及,编码速率和解码速率,以便于终端设备对不同类型的语音包通过对应的编解码方式,以及,编码速率和解码速率,执行编解码操作,从而精确地识别大时长语音包中的静音部分,提升大时长语音包的编码效率和传输效率。
下面,首先以发送端终端设备生成语音包的编码过程为例,对前述步骤S201中发送端终端设备如何生成语音包进行详细介绍。图3为本申请实施例提供的另一种语音处理方法的流程示意图。如图3所示,该方法可以包括:
S301、发送端终端设备获取初始语音包。
其中,该初始语音包为完整的大时长语音包。
该初始语音包可以是发送端终端设备根据用户输入的语音生成的,也可以是从其他设备中获取的,例如可以是从与该发送端终端设备连接的语音输入设备获取的等。
S302、发送端终端设备将初始语音包划分为多个初始子语音包。
初始语音包中的多个初始子语音包可以是发送端终端设备根据子语音包时长划分的,或者根据子语音包的数量划分的。示例性的,当根据子语音包时长划分时,假设初始语音包的时长为500ms,该子语音包时长为20ms,则该初始语音包中包括25个时长为20ms的子语音包。当根据子语音包的数量划分时,假设初始语音包的时长为500ms,子语音包的数量为25个,则该初始语音包中包括25个时长为20ms的子语音包。
以根据子语音包时长划分为例,该子语音包时长可以是协议预定义的,也可以是发送端终端设备从网络设备获取的。例如,该子语音包时长可以是网络设备下发给发送端终端设备的,或者可以是网络设备响应于发送端终端设备的请求将子语音包时长发送给发送端终端设备的。再或者,可以是网络设备向发送端终端设备发送空口语音包时长(即初始语音包的时长),发送端终端设备根据实际需求确定子语音包的数量,并根据空口语音包时长和子语音包的数量计算获取子语音包时长等。其中,该子语音包时长的具体时长可以是根据实际需求确定的,例如可以是网络设备根据业务情况确定的,本申请对此不做限制。其中,该空口语音包时长可以是接收端终端设备从网络设备下发的从窄带语音(Voice ofnarrow band,VONB)协议栈获取的信息中提取获得的。
S303、发送端终端设备识别初始子语音包的类型。
发送端终端设备可以通过对初始子语音包的能量检测确定该子语音包的类型,或者,发送端终端设备可以通过其他识别初始子语音包的类型的方式确定初始子语音包的类型,本申请对此不做限制。
以发送端终端设备通过对初始子语音包的能量检测确定该子语音包的类型为例,静音子语音包的能量较低,非静音子语音包的能量较高。因此,发送端终端设备可以检测初始子语音包中的样本点的能量,通过这些样本点的能量,计算该初始子语音包的能量值。
若初始子语音包的能量值小于或等于预设能量阈值,则该初始子语音包为静音子语音包;若初始子语音包的能量值大于预设能量阈值,则该初始子语音包为非静音子语音包。其中,该预设能力阈值可以根据实际需求或者通过实验来确定,本申请对此不做限制。
可选的,在确定初始子语音包的类型后,可以在该初始子语音包的包头中添加用于指示该初始子语音包的类型的指示位,在该指示位中可以存储初始子语音包的类型标识。例如,当该指示位为第一值(例如为0)时,表示该初始子语音包为静音子语音包;当该指示位为第二值(例如为1)时,表示该初始子语音包为非静音子语音包等。
S304、发送端终端设备根据初始子语音包的类型,以及,初始子语音包的类型对应的编码速率,对初始子语音包进行编码处理,得到语音包。
发送端终端设备对初始语音包中的所有初始子语音包进行编码处理,以生成编码处理后的初始语音包,即前述方法中所说的语音包。
其中,不同初始子语音包的类型对应不同的编码速率。当初始子语音包为静音子语音包时,其编码速率可以为前述所说的预设编码速率;当初始子语音包为非静音子语音包时,其编码速率可以为现有方法中处理非静音子语音包的编码速率,也可以根据初始语音包的类型确定非静音子语音包的编码速率。下面以根据初始语音包的类型确定非静音子语音包的编码速率进行介绍。
当初始语音包的类型为非静音语音包时,其编码速率为现有方法中处理非静音子语音包的编码速率。
当初始语音包的类型为混合语音包时,混合语音包中的非静音子语音包的编码速率与下述至少一项信息相关:语音包的编码速率、语音包中包括的静音子语音包的个数、静音子语音包的编码速率、子语音包的时长、语音包中包括的非静音子语音包的个数、语音包的时长。
其中,语音包的编码速率为该语音包不划分为多个子语音包时使用的编码速率。静音子语音包的编码速率为该语音包中静音子语音包所使用的预设编码速率。子语音包的时长可以是协议预定义的,或者是根据语音包的时长和子语音包的数量计算获得的。语音包的时长可以是根据业务需求确定的,或者是网络设备下发给终端设备的等。
在该实现方式下,可选的,可以通过上述至少一项信息与混合语音包中的非静音子语音包的编码速率映射关系,以及,对应的上述至少一项信息,确定该非静音子语音包的编码速率。可选的,还可以通过上述至少一项信息获取参考编码速率,根据参考编码率确定非静音子语音包对应的编码速率。
例如,可以通过获取语音包的编码速率、语音包中包括的静音子语音包的个数、静音子语音包的编码速率、子语音包的时长、语音包中包括的非静音子语音包的个数、语音包的时长,综合考虑获取混合语音包中的非静音子语音包的编码速率。或者,可以仅获取上述信息中的一项或多项,剩余的其他项信息由协议预定义,综合考虑获取混合语音包中的非静音子语音包的编码速率。
示例性的,以通过上述至少一项信息获取参考编码速率,根据参考编码率确定非静音子语音包对应的编码速率为例,该非静音子语音包对应的编码速率小于参考编码速率,该参考编码速率与下述至少一项信息相关:语音包的编码速率、语音包中包括的静音子语音包的个数、静音子语音包的编码速率、子语音包的时长、语音包中包括的非静音子语音包的个数、语音包的时长。
可选的,下述公式(1)为本申请提供的一种参考编码速率的计算方法,该计算方法如公式(1)所示:
R参考=(R语音包×T语音包-N静音子包×R静音子包×T子语音包)/N非静音子包/T子语音包 (1)
其中,R参考为参考编码速率,R语音包为语音包的编码速率,T语音包为语音包时长,例如可以是500ms,N静音子包为静音子语音包的个数,R静音子包为静音子语音包的编码速率,T子语音包为子语音包时长,N非静音子包为非静音子语音包的个数。
一种可能的实现方式,非静音子语音包对应的编码速率为小于该参考编码速率的任一编码速率。
另一种可能的实现方式,非静音子语音包对应的编码速率为编码速率集合中小于参考编码速率的一编码速率。其中,该编码速率集合可以是包括多个编码速率的预设集合,可以从该集合中选择任意一个小于参考编码速率的编码速率作为该非静音子语音包对应的编码速率。
在该实现方式下,可选的,非静音子语音包对应的编码速率可以为编码速率集合中小于参考编码速率的最大编码速率。即非静音子语音包对应的编码速率为小于参考编码速率且与参考编码速率最接近的编码速率。示例性的,该非静音子语音包对应的编码速率的确定方式可以如下公式(2)所示:
Rsubvoice=max(Ri)
其中,Ri<R参考,且Ri∈R。Rsubvoice为非静音子语音包对应的编码速率,Ri为编码速率集合中第i个编码速率,R为编码速率集合。
本申请的方法,通过选择集合中小于参考编码速率的最大编码速率,能够在确保编码速率符合要求的同时,提升语音包的编码效率。并且,相较于现有技术中混合语音包中静音帧与非静音帧均使用相同的编码率,本方法通过将混合语音包中静音帧按照最低编码率进行编码,为混合语音包中的非静音帧的编码提供了空间,提高了混合语音中的非静音帧编码率,从而提升了语音传输的效率,提高了用户体验。
可选的,在根据编码速率集合确定混个语音包中非静音子语音包对应的编码速率时,该编码速率集合可以是预存储在终端设备中的,也可以是终端设备从其他设备中提前接收的,例如可以是从网络设备接收的。当编码速率集合是终端设备从其他设备中提前接收的时,该方法还包括发送端终端设备接收第二信息,该第二信息用于指示编码速率集合。例如,第二信息可以指示编码速率集合的标识,以指示发送端终端设备从预存储的多个集合中确定需要使用的编码速率集合;或者,第二信息可以直接指示该编码速率集合的内容,例如第二信息中携带有编码速率集合等。
下面,以接收端终端设备接收混合语音包后的解码过程为例,对前述步骤S203中接收端终端设备如何根据编码信息对语音包进行解码进行详细介绍。图4为本申请实施例提供的又一种语音处理方法的流程示意图。如图4所示,前述步骤S203可以包括:
S401、接收端终端设备根据编码信息获取语音包的解码速率。
接收端终端设备可以根据语音包的包头中包括的第一信息,确定该语音包的类型。若该语音包为静音语音包或非静音语音包,则可以使用现有的处理静音语音包或非静音语音包的方式处理该语音包。
若该语音包为混合语音包,则接收端终端设备可以根据编码信息获取该语音包的解码速率。
其中,该混合语音包的解码速率可以包括不同类型的子语音包对应的解码速率。例如,混合语音包中的静音子语音包的解码速率可以为前述所说的预设编码速率对应的解码速率;混合语音包中的非静音子语音包的解码速率可以为根据前述的公式(1)和公式(2)对应的计算方式计算获得的编码速率对应的解码速率。
或者,由于静音子语音包的解码速率为预设的解码速率,因此该混合语音包的解码速率也可以为混合语音包中的非静音子语音包对应的解码速率。
S402、接收端终端设备根据语音包的解码速率对语音包中的非静音子语音包进行解码,并根据预设解码速率对语音包中的静音子语音包进行解码。
接收端终端设备可以进一步获取混合语音包中每个子语音包的类型,根据该子语音包的类型,确定解码该子语音包的方式。
当接收端终端设备判断子语音包为静音子语音包时,使用预设的解码速率解码该静音子语音包;当接收端终端设备判断子语音包为非静音子语音包时,根据语音包的解码速率(即根据前述的公式(1)和公式(2)对应的计算方式计算获得的编码速率对应的解码速率)对语音包中的非静音子语音包进行解码。
本申请实施例提供的方法,通过对语音包的类型的划分、子语音包的类型的划分,确定不同类型的语音包的解码方式,以及,解码速率,以便于终端设备对不同类型的语音包通过对应的解码方式,以及,解码速率,执行解码操作,从而精确地识别大时长语音包中的静音部分,提升大时长语音包的编码效率和传输效率。
可选的,该方法还可以包括发送端终端设备与接收端终端设备交互语音包中包括的子语音包数量的方法。示例性的,该交互语音包中包括的子语音包数量的方法可以通过下述几种实现方式实现:
一种可能的实现方式,通过语音包中的第一信息指示子语音包数量。在该实现方式下,该第一信息还用于指示语音包包括的子语音包数量。例如,在语音包的包头中新增数量标识位,以存储语音包包括的子语音包数量。
另一种可能的实现方式,发送端终端设备额外发送第四信息指示子语音包数量。其中,该第四信息用于指示语音包包括的子语音包数量。发送端终端设备可以在发送语音包之前发送该第四信息,也可以和语音包同时发送该第四信息,或者可以在语音包发送后立即发送该第四信息。接收端终端设备在接收到第四信息和语音包后,再根据第四信息和语音包对语音包进行解码过程。
再一种可能的实现方式,协议预定义每个语音包中包括的子语音包数量。
本申请实施例提供的方法,通过使发送端终端设备与接收端终端设备交互语音包中包括的子语音包数量,以使接收端终端设备能够在对子语音包进行解码时,避免遗漏语音包中子语音包,降低解码失败的可能,提高该语音处理方法的稳定性。
图5为本申请实施例提供的一种语音处理装置的结构示意图。可以理解的是,该语音处理装置可以对应实现前述各个方法实施例中对应发送端终端设备的操作或者步骤。该语音处理装置可以是发送端终端设备或者可以是可配置于发送端终端设备的部件,例如芯片,芯片模组等。如图5所示,该语音处理装置可以包括:处理模块501、发送模块502。在一种可能的实现方式下,还可以包括:接收模块503。可选的,发送模块502和接收模块503可以集成在收发模块,也可以分离。
处理模块501,用于生成语音包。
发送模块502,用于发送该语音包,该语音包的包头中包括第一信息,该第一信息用于指示该语音包中包括的至少两个子语音包的编码信息。
可选的,该第一信息包括第一子信息,该第一子信息用于指示该语音包的类型,该语音包的类型用于指示该语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
可选的,该语音包的类型包括:静音语音包、非静音语音包、混合语音包。该子语音包的类型包括:静音子语音包、非静音子语音包。其中,该混合语音包中包括至少一个静音子语音包和至少一个非静音子语音包。
可选的,该混合语音包中的非静音子语音包对应的编码速率与下述至少一项信息相关:该语音包的编码速率、该语音包中包括的静音子语音包的个数、该静音子语音包的编码速率、该子语音包的时长、该语音包中包括的非静音子语音包的个数、该语音包的时长。
可选的,该混合语音包中的非静音子语音包对应的编码速率小于参考编码速率。该参考编码速率与下述至少一项信息相关:该语音包的编码速率、该语音包中包括的静音子语音包的个数、该静音子语音包的编码速率、该子语音包的时长、该语音包中包括的非静音子语音包的个数、该语音包的时长。
可选的,该混合语音包中的非静音子语音包对应的编码速率为编码速率集合中小于该参考编码速率的一编码速率。
可选的,该混合语音包中的非静音子语音包对应的编码速率为该编码速率集合中小于该参考编码速率的最大编码速率。
可选的,接收模块503,用于接收第二信息,该第二信息用于指示该编码速率集合。
可选的,该第一信息还包括第二子信息,该第二子信息用于指示该非静音子语音包对应的编码速率。
可选的,该静音子语音包对应的编码速率为预设编码速率。
可选的,该子语音包的包头包括第三信息,该第三信息用于指示该子语音包的类型。
可选的,处理模块501,具体用于获取初始语音包。将该初始语音包划分为多个初始子语音包。识别该初始子语音包的类型。根据该初始子语音包的类型,以及,该初始子语音包的类型对应的编码速率,对该初始子语音包进行编码处理,得到该语音包。
可选的,该第一信息还用于指示该语音包包括的子语音包数量。或者,发送模块502,还用于发送第四信息,该第四信息用于指示该语音包包括的子语音包数量。
本实施例提供的语音处理装置,可以执行前述方法实施例中发送端终端设备的动作,其实现原理和技术效果类似,在此不再赘述。
图6为本申请实施例提供的另一种语音处理装置的结构示意图。可以理解的是,该语音处理装置可以对应实现前述各个方法实施例中对应接收端终端设备的操作或者步骤。该语音处理装置可以是接收端终端设备或者可以是可配置于接收端终端设备的部件,例如芯片,芯片模组等。如图6所示,该语音处理装置可以包括:接收模块601,处理模块602。可选的,接收模块601和发送模块可以集成在收发模块,也可以分离。
接收模块601,用于接收语音包,该语音包的包头中包括第一信息,该第一信息用于指示该语音包中包括的至少两个子语音包的编码信息。
处理模块602,用于根据该编码信息对该语音包进行解码。
可选的,该第一信息包括第一子信息,该第一子信息用于指示该语音包的类型,该语音包的类型用于指示该语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
可选的,该语音包的类型包括:静音语音包、非静音语音包、混合语音包。该子语音包的类型包括:静音子语音包、非静音子语音包。其中,该混合语音包中包括至少一个静音子语音包和至少一个非静音子语音包。
可选的,该混合语音包中的非静音子语音包对应的编码速率与下述至少一项信息相关:该语音包的编码速率、该语音包中包括的静音子语音包的个数、该静音子语音包的编码速率、该子语音包的时长、该语音包中包括的非静音子语音包的个数、该语音包的时长。
可选的,该混合语音包中的非静音子语音包对应的编码速率小于参考编码速率。该参考编码速率与下述至少一项信息相关:该语音包的编码速率、该语音包中包括的静音子语音包的个数、该静音子语音包的编码速率、该子语音包的时长、该语音包中包括的非静音子语音包的个数、该语音包的时长。
可选的,该混合语音包中的非静音子语音包对应的编码速率为编码速率集合中小于该参考编码速率的一编码速率。
可选的,该混合语音包中的非静音子语音包对应的编码速率为该编码速率集合中小于该参考编码速率的最大编码速率。
可选的,该第一信息还包括第二子信息,该第二子信息用于指示该非静音子语音包对应的编码速率。
可选的,该静音子语音包对应的编码速率为预设编码速率。
可选的,该子语音包的包头包括第三信息,该第三信息用于指示该子语音包的类型。
可选的,该第一信息还用于指示该语音包包括的子语音包数量。或者,接收模块601,还用于接收第四信息,该第四信息用于指示该语音包包括的子语音包数量。
可选的,处理模块602,具体用于根据该编码信息获取该语音包的解码速率。根据该语音包的解码速率对该语音包中的非静音子语音包进行解码,并根据预设解码速率对该语音包中的静音子语音包进行解码。
本实施例提供的语音处理装置,可以执行前述方法实施例中接收端终端设备的动作,其实现原理和技术效果类似,在此不再赘述。
可选的,上述语音处理装置中还可以包括至少一个存储模块,该存储模块可以包括数据和/或指令,语音处理装置中的其他模块(例如接收模块、发送模块、处理模块等)可以读取存储模块中的数据和/或指令,实现对应的方法。
需要说明的是,应理解以上各个实施例中发送模块实际实现时可以为发送器,接收模块实际实现时可以为接收器,或者,发送模块和接收模块通过收发器实现,或者,发送模块和接收模块通过通信端口实现。而处理模块可以以软件通过处理元件调用的形式实现;也可以以硬件的形式实现。例如,处理模块可以为至少一个单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块的功能。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所说的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个专用集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调用程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
图7为本申请实施例提供的又一种语音处理装置的结构示意图。如图7所示,该语音处理装置700可以包括:至少一个处理器701、存储器702和收发器703。其中,处理器701、收发器703和存储器702通过内部连接通路互相通信,该存储器702用于存储指令,该处理器701用于执行该存储器702存储的指令,以控制该收发器703发送反馈信息和/或接收反馈信息。
其中,该语音处理装置例如可以为前述所说的发送端终端设备、也可以是前述所说的接收端终端设备。
应理解,该语音处理装置可以对应于上述方法实施例中的发送端终端设备,也可以对应于上述方法实施例中的接收端终端设备。并且可以用于执行上述方法实施例中发送端终端设备、或者接收端终端设备执行的各个步骤和/或流程。可选地,该存储器702可以包括只读存储器和随机存取存储器,并向处理器701提供指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。存储器702可以是一个单独的器件,也可以集成在处理器701中。该处理器701可以用于执行存储器702中存储的指令,并且当该处理器701执行存储器中存储的指令时,该处理器701用于执行上述方法实施例的各个步骤和/或流程。
其中,收发器703可以包括发射机和接收机。收发器703还可以进一步包括天线,天线的数量可以为一个或多个。该处理器701和存储器702与收发器703可以是集成在不同芯片上的器件。如,处理器701和存储器702可以集成在基带芯片中,收发器703可以集成在射频芯片中。该处理器701和存储器702与收发器703也可以是集成在同一个芯片上的器件。本申请对此不作限定。
可选地,该语音处理装置是配置在发送端终端设备、或者接收端终端设备中的部件,如芯片、芯片系统等。
其中,收发器703也可以是通信接口,如输入接口和/或输出接口、电路等。该收发器703与处理器701和存储器702都可以集成在同一个芯片中,如集成在基带芯片中。
应理解,上述语音处理装置可以是一个或多个芯片。例如,该语音处理装置可以是现场可编程门阵列(field programmable gate array,FPGA),可以是专用集成芯片(application specific integrated circuit,ASIC),还可以是系统芯片(system onchip,SoC),还可以是中央处理器(central processor unit,CPU),还可以是网络处理器(network processor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logic device,PLD)或其他集成芯片。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例还提供一种大时延语音通话系统,该大时延语音通话系统包括前述实施例中的发送端终端设备、接收端终端设备,以及,网络设备。
本申请还提供了一种芯片,该芯片上存储有计算机程序,在该计算机程序被该芯片执行时,实现上述实施例中的方法。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令被执行时上述实施例中的方法被实现。
本申请还提供一种计算机程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。通信设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得通信设备实施上述的各种实施方式提供的语音处理方法被实现。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (30)
1.一种语音处理方法,其特征在于,所述方法包括:
生成语音包;
发送所述语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息。
2.根据权利要求1所述的方法,其特征在于,所述第一信息包括第一子信息,所述第一子信息用于指示所述语音包的类型,所述语音包的类型用于指示所述语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
3.根据权利要求2所述的方法,其特征在于,
所述语音包的类型包括:静音语音包、非静音语音包、混合语音包;
所述子语音包的类型包括:静音子语音包、非静音子语音包;
其中,所述混合语音包中包括至少一个静音子语音包和至少一个非静音子语音包。
4.根据权利要求3所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率与下述至少一项信息相关:
所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
5.根据权利要求4所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率小于参考编码速率;所述参考编码速率与下述至少一项信息相关:
所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
6.根据权利要求5所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率为编码速率集合中小于所述参考编码速率的一编码速率。
7.根据权利要求6所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率为所述编码速率集合中小于所述参考编码速率的最大编码速率。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
接收第二信息,所述第二信息用于指示所述编码速率集合。
9.根据权利要求4所述的方法,其特征在于,所述第一信息还包括第二子信息,所述第二子信息用于指示所述非静音子语音包对应的编码速率。
10.根据权利要求3所述的方法,其特征在于,所述静音子语音包对应的编码速率为预设编码速率。
11.根据权利要求2所述的方法,其特征在于,所述子语音包的包头包括第三信息,所述第三信息用于指示所述子语音包的类型。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述生成语音包,包括:
获取初始语音包;
将所述初始语音包划分为多个初始子语音包;
识别所述初始子语音包的类型;
根据所述初始子语音包的类型,以及,所述初始子语音包的类型对应的编码速率,对所述初始子语音包进行编码处理,得到所述语音包。
13.根据权利要求1-11任一项所述的方法,其特征在于,所述第一信息还用于指示所述语音包包括的子语音包数量;
或者,
发送第四信息,所述第四信息用于指示所述语音包包括的子语音包数量。
14.一种语音处理方法,其特征在于,所述方法包括:
接收语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息;
根据所述编码信息对所述语音包进行解码。
15.根据权利要求14所述的方法,其特征在于,所述第一信息包括第一子信息,所述第一子信息用于指示所述语音包的类型,所述语音包的类型用于指示所述语音包包括的子语音包的类型,不同类型的子语音包对应的编码速率不同。
16.根据权利要求15所述的方法,其特征在于,
所述语音包的类型包括:静音语音包、非静音语音包、混合语音包;
所述子语音包的类型包括:静音子语音包、非静音子语音包;
其中,所述混合语音包中包括至少一个静音子语音包和至少一个非静音子语音包。
17.根据权利要求16所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率与下述至少一项信息相关:
所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
18.根据权利要求17所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率小于参考编码速率;所述参考编码速率与下述至少一项信息相关:
所述语音包的编码速率、所述语音包中包括的静音子语音包的个数、所述静音子语音包的编码速率、所述子语音包的时长、所述语音包中包括的非静音子语音包的个数、所述语音包的时长。
19.根据权利要求18所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率为编码速率集合中小于所述参考编码速率的一编码速率。
20.根据权利要求19所述的方法,其特征在于,所述混合语音包中的非静音子语音包对应的编码速率为所述编码速率集合中小于所述参考编码速率的最大编码速率。
21.根据权利要求18所述的方法,其特征在于,所述第一信息还包括第二子信息,所述第二子信息用于指示所述非静音子语音包对应的编码速率。
22.根据权利要求17所述的方法,其特征在于,所述静音子语音包对应的编码速率为预设编码速率。
23.根据权利要求15所述的方法,其特征在于,所述子语音包的包头包括第三信息,所述第三信息用于指示所述子语音包的类型。
24.根据权利要求14-23任一项所述的方法,其特征在于,所述第一信息还用于指示所述语音包包括的子语音包数量;
或者,
接收第四信息,所述第四信息用于指示所述语音包包括的子语音包数量。
25.根据权利要求14-23任一项所述的方法,其特征在于,所述语音包为混合语音包,所述根据所述编码信息对所述语音包进行解码,包括:
根据所述编码信息获取所述语音包的解码速率;
根据所述语音包的解码速率对所述语音包中的非静音子语音包进行解码,并根据预设解码速率对所述语音包中的静音子语音包进行解码。
26.一种语音处理装置,其特征在于,所述装置包括:
处理模块,用于生成语音包;
发送模块,用于发送所述语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息。
27.一种语音处理装置,其特征在于,所述装置包括:
接收模块,用于接收语音包,所述语音包的包头中包括第一信息,所述第一信息用于指示所述语音包中包括的至少两个子语音包的编码信息;
处理模块,用于根据所述编码信息对所述语音包进行解码。
28.一种语音处理装置,其特征在于,所述装置包括:处理器、收发器,以及存储器;所述处理器分别与所述收发器和所述存储器通信连接;
所述存储器存储计算机执行指令;
所述收发器与外部设备进行通信交互;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-25中任一项所述的方法。
29.一种芯片,其特征在于,所述芯片上存储有计算机程序,在所述计算机程序被所述芯片执行时,实现如权利要求1-25任一项所述的方法。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被计算机执行时用于实现如权利要求1至25任一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410372190.3A CN118118465A (zh) | 2024-03-28 | 2024-03-28 | 语音处理方法、装置、芯片及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410372190.3A CN118118465A (zh) | 2024-03-28 | 2024-03-28 | 语音处理方法、装置、芯片及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118118465A true CN118118465A (zh) | 2024-05-31 |
Family
ID=91221288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410372190.3A Pending CN118118465A (zh) | 2024-03-28 | 2024-03-28 | 语音处理方法、装置、芯片及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118118465A (zh) |
-
2024
- 2024-03-28 CN CN202410372190.3A patent/CN118118465A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2710207C1 (ru) | Способ и устройство беспроводной связи | |
TWI716594B (zh) | 設備間通信的方法和裝置 | |
CN113950019A (zh) | 一种资源调度方法、通信装置及系统 | |
US11800508B2 (en) | Method and device for transmitting and receiving uplink data | |
US20220070892A1 (en) | Wireless communication method, terminal device, and network device | |
CN111034249A (zh) | 传输数据的方法、终端设备和网络设备 | |
CN109672510A (zh) | 通信方法和通信装置 | |
US20200296620A1 (en) | Method for transmitting data, terminal device and network device | |
WO2021042362A1 (zh) | 一种无线通信资源分配的方法和装置以及通信设备 | |
WO2019154090A1 (zh) | 信号传输的方法和装置 | |
WO2020164075A1 (zh) | 无线通信的方法、终端设备和网络设备 | |
US20220330130A1 (en) | Method for reporting csi of multi-hop path and related apparatus | |
CN110663278B (zh) | 设备对设备通信的方法和终端设备 | |
CN118118465A (zh) | 语音处理方法、装置、芯片及存储介质 | |
US11108597B2 (en) | Data transmission method and apparatus | |
CN113810949A (zh) | 数据传输方法和装置 | |
WO2020107396A1 (zh) | 蓝牙定位方法和蓝牙设备 | |
WO2019062096A1 (zh) | 生成数据的方法、配置逻辑信道的方法、终端设备和芯片 | |
WO2021037014A1 (zh) | 一种数据传输方法以及装置 | |
CN114731210B (zh) | 一种通信方法及装置 | |
WO2023207417A1 (zh) | 发送和接收定位参考信号的方法及相关装置 | |
US20220272613A1 (en) | Information indication method and apparatus, terminal device, and network device | |
WO2022110072A1 (zh) | 无线通信的方法、终端设备和网络设备 | |
WO2024016942A1 (zh) | 通信方法、装置、设备以及存储介质 | |
WO2024060985A1 (zh) | 一种通信方法、网络设备和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |