CN116682440A - 多路语音重建方法、系统、装置、电子设备和存储介质 - Google Patents
多路语音重建方法、系统、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116682440A CN116682440A CN202310520262.XA CN202310520262A CN116682440A CN 116682440 A CN116682440 A CN 116682440A CN 202310520262 A CN202310520262 A CN 202310520262A CN 116682440 A CN116682440 A CN 116682440A
- Authority
- CN
- China
- Prior art keywords
- code stream
- stream data
- voice
- path
- paths
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000004927 fusion Effects 0.000 claims abstract description 223
- 238000012545 processing Methods 0.000 claims abstract description 102
- 230000009466 transformation Effects 0.000 claims abstract description 87
- 238000004590 computer program Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 177
- 238000012216 screening Methods 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 20
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 abstract description 13
- 230000001360 synchronised effect Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/762—Media network packet handling at the source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/764—Media network packet handling at the destination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开关于一种多路语音重建方法、系统、装置、电子设备、存储介质和计算机程序产品,该方法包括:获取多路语音信号对应的多路码流数据;码流数据为对语音信号的语音特征进行编码处理后的编码码流;对多路码流数据进行码流解码处理,得到多路码流数据各自对应的语音特征;基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;基于目标融合策略,融合目标数量的的语音特征,得到融合语音特征;对融合语音特征进行线性逆变换处理,得到多路语音信号对应的重建语音信号。上述方案,能够在语音交互时降低需处理的数据量和减少解码的复杂度,提升多人同步语音交互时的流畅性。
Description
技术领域
本公开涉及互联网技术领域,尤其涉及一种多路语音重建方法、多路语音重建系统、多路语音重建装置、电子设备、存储介质和计算机程序产品。
背景技术
随着多终端设备互联技术的普及和高速网络传输技术的进步,语音数据在网络教学、音视频会议等场景下,针对于用户端与服务器、用户端与用户端之间关于语音数据的传输和应用具有越来越重要的作用。
目前,通常是由发送端将语音数据进行编码压缩,然后向接收端发送编码压缩后的语音数据,由接收端对语音数据进行解码,从而得到语音数据。
但是在现有的对多路语音信号进行编码和解码的方法中,在面对多人不同步语音交互时,语音信号的解码端往往需要处理的数据量压力较大,解码的复杂度也较高,从而对解码端的性能要求很高,不能满足在特殊场景下(如,语音信号的输入路径数量较大、通信网络较弱等)用户较为流畅的进行多人同步语音交互。
发明内容
本公开提供一种多路语音重建方法、多路语音重建系统、多路语音重建装置、电子设备、存储介质和计算机程序产品,以至少解决相关技术中语音交互时需处理的数据量大和解码的复杂度高的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种多路语音重建方法,包括:
获取多路语音信号对应的多路码流数据;所述码流数据为对所述语音信号的语音特征进行编码处理后的编码码流,所述语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征;
对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征;
基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;
基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;
对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
在一示例性实施例中,所述对所述融合后的语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号,包括:
对所述融合后的语音特征进行时频解码处理,得到对应时频解码处理后的时频域数据;所述时频域数据用于表征所述融合后的语音特征的时域性质和频域性质;
对所述时频域数据进行时频逆变换处理,得到所述融合后的语音特征的语音信号,并将所述融合后的语音特征的语音信号作为所述多路语音信号对应的重建语音信。
在一示例性实施例中,各路所述语音信号的语音特征基于对应的特征向量表达;所述码流数据为基于矢量编码策略或者标量编码策略编码得到的编码码流;
所述对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征,包括:
基于各路所述码流数据的编码策略所对应的解码策略,分别对各路所述码流数据进行码流解码处理,得到所述多路码流数据的解码特征向量,并将所述多路码流数据的解码特征向量作为对应所述多路码流数据各自对应的语音特征;
其中,所述码流数据的编码策略所对应的解码策略包括对应于所述矢量编码策略的矢量解码策略或者对应于所述标量编码策略的标量解码策略。
在一示例性实施例中,所述基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略,包括:
在所述比对结果为所述多路码流数据对应的路径数量小于或者等于所述预设融合路径数量的情况下,确定预设的第一融合策略为目标融合策略;所述第一融合策略用于指示融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量;或者
在所述比对结果为所述多路码流数据对应的路径数量大于所述预设融合路径数量的情况下,确定预设的第二融合策略为目标融合策略;所述第二融合策略用于指示基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量。
在一示例性实施例中,所述融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量,包括:
在所述比对结果为所述多路码流数据的路径数量等于所述预设融合路径数量的情况下,融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量;或者
在所述比对结果为所述多路码流数据的路径数量小于所述预设融合路径数量的情况下,将所述多路码流数据各自对应的解码特征向量与第一路径数量的零向量进行融合,得到融合特征向量;
其中,所述第一路径数量为所述预设融合路径数量与所述多路码流数据对应的路径数量之间的差值数量,所述零向量与所述解码特征向量的维度相同。
在一示例性实施例中,所述基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量,包括:
将所述多路码流数据按照各路所述码流数据对应的能量值由大到小进行排序,得到排序结果;所述各路所述码流数据对应的能量值为所述码流数据的语音信号的能量值;
将所述排序结果中前第一预设数量个码流数据确定为筛选码流数据;所述第一预设数量等于所述预设融合路径数量;
融合所述预设数量个筛选码流数据各自对应的解码特征向量,得到融合特征向量。
在一示例性实施例中,所述基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量,包括:
将所述多路码流数据按照各路所述码流数据对应的能量值由大到小进行排序,得到排序结果;所述各路所述码流数据对应的能量值为所述码流数据的语音信号的能量值;
将所述排序结果中前第二预设数量个码流数据确定为筛选码流数据;所述第二预设数量小于所述预设融合路径数量;
在所述多路码流数据中,融合其余码流数据各自对应的解码特征向量,得到子类融合特征向量;所述其余码流数据为多路所述码流数据中不属于所述筛选码流数据的码流数据;
融合所述筛选码流数据各自对应的解码特征向量和所述子类融合特征向量,得到融合特征向量。
根据本公开实施例的第二方面,提供一种多路语音重建系统,包括多个编码端设备,与所述多个编码端设备分别通信连接的解码端设备,其中:
每个所述编码端设备,被配置为执行获取一路语音信号;以及,对所述语音信号进行线性变换处理,得到对应线性变换处理后的语音信号;以及,提取所述线性变换处理后的语音信号中的语音特征,并对所述语音特征进行编码处理得到对应的一路码流数据;
所述解码端设备,被配置为执行获取来自所述多个编码端设备的多路码流数据;以及,对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征,并基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;以及,基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;以及,对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
根据本公开实施例的第三方面,提供一种多路语音重建装置,包括:
数据获取单元,被配置为执行获取多路语音信号对应的多路码流数据;所述码流数据为对所述语音信号的语音特征进行编码处理后的编码码流,所述语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征;
码流解码单元,被配置为执行对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征;
策略判断单元,被配置为执行基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;
特征融合单元,被配置为执行基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;
信号重建单元,被配置为执行对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
根据本公开实施例的第四方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如上述任一项所述的多路语音重建方法。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,当所述计算机程序由电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的多路语音重建方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括程序指令,所述程序指令被电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的多路语音重建方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
该方法先通过获取多路语音信号对应的多路码流数据;其中,码流数据为对语音信号的语音特征进行编码处理后的编码码流,语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征;然后,再对多路码流数据进行码流解码处理,得到多路码流数据各自对应的语音特征;然后,再基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;然后,再基于目标融合策略,融合目标数量的的语音特征,得到融合语音特征;其中,目标数量为根据目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;最后,对对融合语音特征进行线性逆变换处理,得到多路语音信号对应的重建语音信号。这样,一方面,利用经过线性变换处理后的语音信号来对语音特征进行编解码,以及利用线性逆变换处理的方式将编解码后的融合语音特征重建为语音信号,能够有效避免在语音信号的编解码和重建的过程中数据丢包和数据失真的现象,从而优化了语音信号重建的流程,提升了重建的语音信号的音频质量;另一方面,参考与预设融合路径数量之间的大小关系,按照对应的融合策略对至少部分路径的语音特征进行融合,以根据融合后的语音特征来重建语音信号,从而在语音交互时减少了需处理的数据量和降低了解码过程的复杂度,提升多人同步语音交互时的流畅性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种多路语音重建方法的应用环境图。
图2是根据一示例性实施例示出的一种多路语音重建方法的流程图。
图3是根据一示例性实施例示出的一种融合至少部分路径数量的码流数据步骤的界面图。
图4是根据一示例性实施例示出的另一种融合至少部分路径数量的码流数据步骤的流程示意图。
图5是根据一示例性实施例示出的一种重建语音信号步骤的流程图。
图6为根据另一示例性实施例示出的一种多路语音重建方法的流程图。
图7是根据一示例性实施例示出的一种多路语音重建方法的模块图。
图8是根据一示例性实施例示出的一种多路语音重建系统框图。
图9为根据另一示例性实施例示出的一种多路语音重建装置框图。
图10是根据一示例性实施例示出的一种用于多路语音重建的电子设备的框图。
图11是根据一示例性实施例示出的一种用于多路语音重建的计算机可读存储介质的框图。
图12是根据一示例性实施例示出的一种用于多路语音重建的计算机程序产品的框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是:当用在本说明书中时,“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,本申请中尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种元件或各种应用或各种指令或各种数据)等,不过这些操作(或元件或应用或指令或数据)不应受这些术语的限制。这些术语只是用于区分一个操作(或元件或应用或指令或数据)和另一个操作(或元件或应用或指令或数据)。例如,第一路语音信号可以被称为第二路语音信号,第二路语音信号也可以被称为第一路语音信号,仅仅是其两者所包括的范围不同,而不脱离本申请的范围,第一路语音信号和第二路语音信号都是由对应的采集设备采集的语音信号的集合,只是二者并不是相同的采集设备采集的语音信号而已。
本申请实施例提供的多路语音重建方法,可以应用于如图1所示的应用环境中。其中,对端终端102a和本端终端102b通过通信网络与服务器104进行通信。数据存储系统可以将处理的数据存储在服务器104中,或者将存储在服务器104中的处理数据发送至终端102。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
在一些实施例中,参考图1,本端终端102b首先获取多路语音信号对应的多路码流数据;其中,码流数据为对端终端102a对语音信号的语音特征进行编码处理后的编码码流,语音特征为对端终端102a从对应经过线性变换处理后的语音信号中提取出的信号特征;然后,本端终端102b再对多路码流数据进行码流解码处理,得到多路码流数据各自对应的语音特征;以及,基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;以及,基于目标融合策略,融合目标数量的的语音特征,得到融合语音特征;其中,目标数量为根据目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;最后,本端终端102b再对融合语音特征进行线性逆变换处理,得到多路语音信号对应的重建语音信号。
在一些实施例中,对端终端102a和/或本端终端102b(如移动终端、固定终端)可以以各种形式来实施。其中,对端终端102a和本端终端102b可为包括诸如移动电话、智能电话、笔记本电脑、便携式手持式设备、个人数字助理(PDA,Personal Digital Assistant)、平板电脑(PAD)等等的可以根据多路语音信号的语音特征,编码得到对应的多路码流数据,以及,对多路码流数据进行解码,并将解码后的语音特征融合为对应的重建语音信号的移动终端,对端终端102a和/或本端终端102b也可以是自动柜员机(Automated TellerMachine,ATM)、自动一体机、数字TV、台式计算机、固式计算机等等的可以根据多路语音信号的语音特征,编码得到对应的多路码流数据,以及,对多路码流数据进行解码,并将解码后的语音特征融合为对应的重建语音信号的固定终端。
下面,假设对端终端102a和/或本端终端102b是固定终端。然而,本领域技术人员将理解的是,若有特别用于移动目的的操作或者元件,根据本申请公开的实施方式的构造也能够应用于移动类型的对端终端102a和/或本端终端102b。
在一些实施例中,对端终端102a和/或本端终端102b运行的数据处理组件可以加载正在被执行的可以包括各种附加服务器应用和/或中间层应用中的任何一种,如包括HTTP(超文本传输协议)、FTP(文件传输协议)、CGI(通用网关界面)、RDBMS(关系型数据库管理系统)等。
在一些实施例中,对端终端102a和/或本端终端102b可以用独立的数据处理器或者是多个数据处理器组成的数据处理集群来实现。对端终端102a和/或本端终端102b可以适于运行提供前述公开中描述的各种附加服务器应用和/或中间层应用的一个或多个应用服务或软件组件。
在一些实施例中,应用服务可以包括向用户提供语音信号融合的服务界面(例如,用于用户选取需要融合语音信号的多个采集路径的操作界面、用于向用户播放多路语音信号在进行重建后的展示界面),以及对应程序服务等等。其中,软件组件可以包括例如具有对语音特征的编码码流进行编码解码,以及对语音特征进行融合和重建功能的应用程序(SDK)或者客户端(APP)。
在一些实施例中,对端终端102a和/或本端终端102b所提供的具有对语音特征的编码码流进行编码解码,以及对语音特征进行融合和重建功能的应用程序或者客户端包括一个在前台向用户提供一对一应用服务的门户端口和多个位于后台进行数据处理的业务系统,以将语音编解码、语音特征的融合和重建的功能应用扩展到APP或者客户端,从而用户能够在任何时间任何地点进行语音编解码、语音特征的融合和重建功能的使用和访问。
在一些实施例中,APP或者客户端的资源转移功能可为运行在用户模式以完成某项或多项特定工作的计算机程序,其可以与用户进行交互,且具有可视的用户界面。其中,APP或者客户端可以包括两部分:图形用户接口(GUI)和引擎(engine),利用这两者能够以用户界面的形式向用户提供多种应用服务的数字化客户系统。
在一些实施例中,用户可以通过对端终端102a和/或本端终端102b中的输入装置向APP或者客户端输入相应的代码数据或者控制参数,以执行服务器104中的计算机程序的应用服务,以及显示用户界面中的应用服务。
作为一种示例,当用户需要在电子设备的本端终端102b中播放由多路语音信号之间对应融合重建后的一路语音信号时,则用户可以通过本端终端102b中的输入装置向服务器104输入获取多路语音信号的服务信息,在服务器104基于用户输入的服务信息获取到由多个对端终端102a生成的多路语音信号对应的多路码流数据之后,本端终端102b基于预设的网络通信协议获取该多路语音信号对应的多路码流数据,并对其进行融合和重建的计算机处理,以将最终处理得到的重建语音信号展示在本端终端102b的播放器中,以向用户实时地展示该多路语音信号对应重建后的一路混合语音信号。可选地,输入装置所对应的输入方式可以为触屏输入、按键输入、语音输入或相关控制程序输入等等。
在一些实施例中,APP或者客户端运行的操作系统可以包括各种版本的MicrosoftApple/>和/或Linux操作系统、各种商用或类/>操作系统(包括但不限于各种GNU/Linux操作系统、Google/>OS等)和/或移动操作系统,诸如/>Phone、/>OS、/>OS、/>OS操作系统,以及其它在线操作系统或者离线操作系统,在这里不做具体的限制。
在一些实施例中,如图2所示,提供了一种多路语音重建方法,以该方法应用于图1中的对端终端102a和/或本端终端102b为例进行说明,该方法包括以下步骤:
步骤S11,获取多路语音信号对应的多路码流数据。
在一实施例中,码流数据为对语音信号的语音特征进行编码处理后的编码码流,语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征。
在一些实施例中,语音信号为基于搭载在对端终端(即,编码终端)上的语音采集设备实时采集的语音发声源的信号。
其中,对端终端可以有一个也可以有多个,并且每一对端终端配置有一用于采集一路语音发声源信号的语音采集设备。
例如,本端终端获取到有X路语音信号对应的X路码流数据,则表明对端终端共有X个,并且其对应X个语音采集设备共采集有X个语音发声源的信号。其中,X≥1。
在一些实施例中,对端终端在采集到对应多路语音发声源的信号数据后,先分别对该多路信号数据进行线性变换处理,再从线性变换处理后的多路信号数据中提取出各路的语音特征,最后分别将各路的语音特征进行特征编码处理,以生成多路语音信号对应的多路码流数据。
其中,线性变换(linear transformation)是指数据在经过线性空间到其自身的线性映射之后,其输出的变换数据与输入的原始数据之间的线性质不变。
在一些实施例中,对端终端对语音信号进行线性变换处理的方式可以包括快速傅立叶变换、(改进的)离散余弦变换、小波变换等,这里不做具体限定。
在一些实施例中,对端终端利用预先训练的神经网络模型对各路语音信号进行特征提取,以得到各路语音信号的语音特征。其中,预先训练的神经网络模型可以包括基于RNN改进的Gated recurrent unit(GRU)神经网络、基于CNN改进的残差网络(如,ResNet、Wide ResNet-34)等,这里不做具体限定。
在一些实施例中,语音信号的语音特征包括语音数据的长时语音特征和短时语音特征,短时语音特征包括如以单个语音帧为单位所表达的语音信号的音色信息、音调信息、节奏信息等低层次语音特征,长时语音特征包括如多个连续语音帧为单位所表达的语音信号的人声内容特征等,人声内容特征属于说话人的信息,其是对语音信号的音色信息、音调信息、节奏信息等低层次语音特征进行处理后得到的包含特征上下文等更多信息的高层次语音特征。
在某些实施例中,高层次语音特征为高维的隐层特征,高层次音频特征可以包括如针对语音信号的音频冲击波的梅尔频谱特征(MelS pectrogram)来体现语音信号的节奏强度,或者还可以提取其谐波的MFCC特征来体现语音信号的音色变化,或者针对语音信号的音频谐波的色谱恒Q变换特征(constant Q transform)来体现音高的变化。
在一些实施例中,对端终端可以根据特征编码的形式、码率需求、音质需求等,来选择对应的特征编码网络,分别对各路语音信号的语音特征进行特征编码,以生成多路语音信号对应的多路码流数据。
在一些实施例中,对端终端预先准备的特征编码网络包括矢量编码网络、标量编码网络等。
其中,矢量编码网络用于对特征向量进行矢量变换,来编码成特征码流;标量编码网络用于对特征向量进行标量变换,来编码成特征码流。
在一些实施例中,本端终端预先与对端终端建立通信网络(通信协议)连接,在本端终端响应于开始执行本语音编解码方法时,本端终端通过连接的通信网络(通信协议),以接收到对端终端发送的多路语音信号对应的多路码流数据。
在一些实施例中,本端终端和对端终端之间支持的通信网络(通信协议)可为包括如以太网、蓝牙、Zigbee、Z-Wave或者支持IPv6网络的智能家居工作组标准(即ProjectConnected Home over IP)、VoIP协议(Voice over Internet Protocol,基于网际协议的语音传输)等。
步骤S12:对多路码流数据进行码流解码处理,得到多路码流数据各自对应的语音特征。
在一些实施例中,本端终端利用预先准备的特征解码网络对接收到的多路码流数据进行码流解码处理,以得到各路码流数据各自对应码流解码后的语音特征。其中,特征解码网络包括对应于矢量编码网络的矢量解码网络、对应于标量编码网络的标量解码网络等。
其中,本端终端在对各路码流数据进行码流解码之前,需要先识别各路的特征码流对应的编码方式,再选择与编码方法相匹配的特征解码网络的解码方式。即,若特征码流对应的编码方式为矢量编码,则特征解码网络需要为对应的矢量解码网络,并应用矢量解码网络所对应的矢量解码方式对特征码流解码;或者,若特征码流对应的编码方式为标量编码,则特征解码网络需要为对应的标量解码网络,并应用标量解码网络所对应的标量解码方式对特征码流解码。
步骤S13:基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略。
在一些实施例中,本端终端根据多路码流数据对应的路径数量与预设融合路径数量之间的大小比对结果,在预设的多个融合策略中,确定出目标融合策略。
在一些实施例中,预设融合路径数量为开发工程师在本端终端中设置的最大路径数的语音信号融合限值。即,在本端终端中一次只能融合不超过预设融合路径数量的语音信号。
在一些实施例中,融合策略用于指示本端终端将多路码流数据中的至少部分路径数量的码流数据的语音特征进行融合。其中,融合的码流数据路径和码流数据数量与对应的融合策略相关。
步骤S14:基于目标融合策略,融合目标数量的的语音特征,得到融合语音特征。
其中,目标数量为根据目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量。
例如,多路码流数据对应的路径数量与预设融合路径数量之间的大小比对结果为结果X,以及在预设的多个融合策略中,对应于结果X的目标融合策略为策略Y,该策略Y用于指示本端终端将多路码流数据中的P路码流数据的语音特征进行融合。其中,P路码流数据为该多路码流数据中,对应于策略Y的某P条码流数据路径。其中,该某P条码流数据路径即为对应于策略Y的目标数量。
在一具体实施场景中,本端终端获取到M路的语音信号对应码流解码后的语音特征,本端终端设置的预设融合路径数量为L路。若M≤L,则本端终端基于对应的目标融合策略利用预设的特征融合网络将M路的语音信号对应码流解码后的语音特征进行融合,得到融合后的一路混合语音特征。若M>L,则本端终端基于对应的目标融合策略在M路对应码流解码后的语音特征中,先选择出L路(即对应于目标融合策略的目标数量)的语音特征,再基于预设的特征融合网络对该选择的L路语音特征进行融合,得到融合后的一路混合语音特征。
步骤S15:基于融合语音特征进行线性逆变换处理,得到多路语音信号对应的重建语音信号。
在一些实施例中,本端终端首先对融合后的一路语音特征进行线性解码处理,得到该路语音特征的语音信号,再对线性解码后的语音信号进行线性逆变换处理,得到融合有多路语音信号的重建语音信号。其中,该重建语音信号即为本端终端向用户播放的输出语音信号,在该输出语音信号中混合有融合的多路语音信号对应的语音特征。
在一些实施例中,本端终端对线性解码后的语音信号进行线性逆变换处理需要与对端终端对待融合的多路语音信号的线性变换的方式相匹配。
例如,若对端终端对待融合的多路语音信号进行快速傅立叶变换处理,则,本端终端对融合的且线性解码后的语音信号进行快速傅立叶反变换处理;或者,若对端终端对待融合的多路语音信号进行(改进的)离散余弦变换处理,则本端终端对融合的且线性解码后的语音信号进行(改进的)离散余弦反变换处理;或者,若对端终端对待融合的多路语音信号进行小波变换处理,则本端终端对融合的且线性解码后的语音信号进行小波反变换处理。
在本实施例提供的语音编解码方法中,可应用于任一处理语音数据的场景下。
例如,传输语音数据的场景,包括语音通话场景、视频通话场景、多人语音会议场景以及多人视频会议场景等。其中,本实施例中的终端可以包括本端终端和对端终端,并且对端终端可以包括一个或者多个终端设备,以及本端终端也可以包括一个或者多个终端设备。
在一些实施例中,本端终端和对端终端中均运行有服务器提供的应用客户端,应用客户端中存储有服务器训练的多种语音编码模型(包括各种卷积神经网络模型、深度学习神经网络模型和特征编码网络模型)和语音解码模型(包括各种卷积神经网络模型、深度学习神经网络模型和特征解码网络模型),该应用客户端具有语音通话的功能。
在进行多人的同步语音通话时,对端终端通过应用客户端调用语音编码模型,对采集的语音数据进行编码,然后向本端终端发送编码得到的语音特征。本端终端通过应用客户端调用语音解码模型,对接收到的语音特征进行解码和融合,得到最终向用户输出的语音信息,从而实现对端终端和本端终端之间的语音数据的传输和重建。
上述的语音编解码过程中,终端首先获取多路语音信号对应的多路码流数据;其中,码流数据为对语音信号的语音特征进行编码处理后的编码码流,语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征;然后,再对多路码流数据进行码流解码处理,得到多路码流数据各自对应的语音特征;然后,再基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;然后,再基于目标融合策略,融合目标数量的的语音特征,得到融合语音特征;其中,目标数量为根据目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;最后,对对融合语音特征进行线性逆变换处理,得到多路语音信号对应的重建语音信号。这样,一方面,利用经过线性变换处理后的语音信号来对语音特征进行编解码,以及利用线性逆变换处理的方式将编解码后的融合语音特征重建为语音信号,能够有效避免在语音信号的编解码和重建的过程中数据丢包和数据失真的现象,从而优化了语音信号重建的流程,提升了重建的语音信号的音频质量;另一方面,参考与预设融合路径数量之间的大小关系,按照对应的融合策略对至少部分路径的语音特征进行融合,以根据融合后的语音特征来重建语音信号,从而在语音交互时减少了需处理的数据量和降低了解码过程的复杂度,提升多人同步语音交互时的流畅性。
本领域技术人员可以理解地,在具体实施方式的上述方法中,所揭露的方法可以通过更为具体的方式以实现。例如,以上所描述的基于多路码流数据对应的路径数量与预设融合路径数量之间的大小关系,融合至少部分路径数量的码流数据对应码流解码后的语音特征,得到融合语音特征的实施方式仅仅是示意性的。
示例性地,终端基于语音信号线性变换后得到的信号中提取出语音特征的方式;或者基于融合后的语音特征进行线性逆变换处理的方式等等,其仅仅为一种集合的方式,实际实现时可以有另外的变换方式,例如原始的多路语音信号、重建得语音信号之间可以结合或者可以集合到另一个系统中,或一些特征可以忽略,或不执行。
在一实施例中,各路语音信号的语音特征对应构成一特征向量。
在一些实施例中,对端终端通过对从各路语音信号中提取出的语音特征进行量化处理,或者说是对语音特征进行离散化处理,来降低语音特征的维度。即,在对端终端对多路语音信号的语音特征进行特征编码之前,需要先对语音特征进行压缩,从而降低语音特征的码率。
例如,第二路径的语音信号的语音特征为H={h1,h2,…,hT},该语音特征包括多个语音特征向量,通过对语音特征进行量化处理,将相邻的多个语音特征向量量化为相同的特征向量,最终得到量化后的一路语音特征Q={q1,q2,…,qT}。其中,在对语音特征进行特征编码之前,对语音特征进行离散化,能够达到低码率编码的目的。
在一实施例中,码流数据为基于矢量编码策略或者标量编码策略编码得到的编码码流。
在一些实施例中,开发工程师根据各路语音特征的编码形式、码率需求、音质需求等,来配置针对于码流数据的编码策略。在对端终端对语音特征进行编码时,利用对应于编码策略的特征编码网络来执行语音特征的编码。
其中,特征编码网络包括VQ(Vector Quantization,矢量编码)网络、SQ(ScalarQuantization,标量编码)网络等。
在一些实施例中,VQ网络用于对语音特征的特征向量进行矢量变换,来编码成特征码流;SQ网络用于对语音特征的特征向量进行标量变换,来编码成特征码流。
其中,VQ网络优势是压缩率高、码率需求低、可用于数据量大的场景;其缺点是各个特征向量之间不能独立编码,要求特征向量之间具有共性,并且由于VQ网络压缩率高,在高并发的语音数据处理场景下,会导致语音特征丢失的较多,音质变低。
其中,SQ网络缺点是压缩率低、码率需求高、可用于数据量小的场景;其优势是将一个数字向量用多个比特表示,即每一维度的特征向量相当于一个数可以用于独立编码,其不需要语音特征之间具有共性。
在一实施例中,终端对多路码流数据进行码流解码处理,得到多路码流数据各自对应的语音特征的过程,具体可以包括:基于各路码流数据的编码策略所对应的解码策略,分别对各路码流数据进行码流解码处理,得到多路码流数据的解码特征向量,并将多路码流数据的解码特征向量作为对应多路码流数据各自对应的语音特征。
在一些实施例中,开发工程师在配置针对于码流数据的编码策略之后,还需要配置与编码策略相匹配的解码策略,以使本端终端在对码流数据进行解码处理时,利用对应于解码策略的特征解码网络来执行码流数据的解码处理。
在一些实施例中,特征解码网络包括VQ(矢量解码)网络、SQ(标量解码)网络等。
其中,本端终端在对各路码流数据进行码流解码之前,需要先识别各路的特征码流对应的编码方式,再选择与编码方法相匹配的特征解码网络的解码方式。即,若特征码流对应的编码方式为矢量编码,则特征解码网络需要为对应的矢量解码网络,并应用矢量解码网络所对应的矢量解码方式对特征码流解码;或者,若特征码流对应的编码方式为标量编码,则特征解码网络需要为对应的标量解码网络,并应用标量解码网络所对应的标量解码方式对特征码流解码。
在一种实施例中,终端基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略,包括:在比对结果为多路码流数据对应的路径数量小于或者等于预设融合路径数量的情况下,确定预设的第一融合策略为目标融合策略。
其中,第一融合策略用于指示融合多路码流数据各自对应的解码特征向量,得到融合特征向量。
具体地,若本端终端获取的多路码流数据对应的路径数量小于或者等于预设融合路径数量,则第一融合策略用于指示本端终端将该多路码流数据各自对应的解码特征向量一齐融合为一路特征向量。
在第一种融合方式中,本端终端融合多路码流数据各自对应的解码特征向量,得到融合特征向量,包括:在比对结果为多路码流数据的路径数量等于预设融合路径数量的情况下,融合多路码流数据各自对应的解码特征向量,得到融合特征向量。
在第二种融合方式中,本端终端融合多路码流数据各自对应的解码特征向量,得到融合特征向量,包括:在比对结果为多路码流数据的路径数量小于预设融合路径数量的情况下,将多路码流数据各自对应的解码特征向量与第一路径数量的零向量进行融合,得到融合特征向量。
其中,第一路径数量为预设融合路径数量与多路码流数据对应的路径数量之间的差值数量,零向量与解码特征向量的维度相同。
作为一示例,若本端终端获取的多路码流数据对应的第一路径数量为M路,预设融合路径数量为L路,且M路小于L路,则本端终端生成对应L-M路的零向量,并将该L-M路的零向量填充到获取的多路码流数据对应的解码特征向量中,然后,本端终端再将多路码流数据对应的解码特征向量与填充的L-M路的零向量一齐融合为一路特征向量。
在另一种实施例中,终端基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略,包括:在比对结果为多路码流数据对应的路径数量大于预设融合路径数量的情况下,确定预设的第二融合策略为目标融合策略。
其中,第二融合策略用于指示基于多路码流数据的语音信号所对应的多个能量值之间的排序结果,在多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量。
在第三种融合方式中,参阅图3,图3为本申请中融合至少部分路径数量的码流数据一实施例的流程示意图。在步骤S14中,终端基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略的过程,具体可以通过以下方式实现:
步骤S141,将多路码流数据按照各路码流数据对应的能量值由大到小进行排序,得到排序结果。
其中,各路码流数据对应的能量值为码流数据的语音信号的能量值。
在一些实施例中,在对端终端获取到采集的多路语音信号之后,对端终端根据各路语音信号的功率、信号周期等信号参数计算出各路语音信号的能量值,然后,对端终端再将包含各路语音信号的能量值的语音信息(如各路语音信号的码流数据)发送至本端终端,从而本端终端根据各路码流数据对应的各路语音信号的能量值,将多路码流数据按照各路码流数据对应的能量值由大到小进行排序,得到排序结果。
步骤S142:将排序结果中前第一预设数量个码流数据确定为筛选码流数据。
在一些实施例中,第一预设数量等于预设融合路径数量。
作为一示例,若本端终端获取的多路码流数据对应的路径数量为M路,预设融合路径数量为L路,且M路大于L路,则本端终端将该M路语音信号的能量值进行排序,得到对应的排序结果,然后将排序结果中前L个码流数据确定为筛选码流数据。
步骤S143,融合预设数量个筛选码流数据各自对应的解码特征向量,得到融合特征向量。
在一些实施例中,本端终端将选取出的第一预设数量个的筛选码流数据各自对应的解码特征向量一齐融合为一路特征向量,得到融合特征向量。
在第四种融合方式中,参阅图4,图4为本申请中融合至少部分路径数量的码流数据另一实施例的流程示意图。在步骤S14中,终端基于多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略的过程,具体可以通过以下方式实现:
步骤S144,将多路码流数据按照各路码流数据对应的能量值由大到小进行排序,得到排序结果。
其中,该步骤S144与上述实施例中的步骤S141相似,这里不再赘述。
步骤S145,将排序结果中前第二预设数量个码流数据确定为筛选码流数据。
在一些实施例中,第二预设数量小于预设融合路径数量。例如,第二预设数量等于预设融合路径数量减一。
作为一示例,若本端终端获取的多路码流数据对应的路径数量为M路,预设融合路径数量为L路,且M路大于L路,则本端终端将该M路语音信号的能量值进行排序,得到对应的排序结果,然后将排序结果中前L-1个码流数据确定为筛选码流数据。
步骤S146,在多路码流数据中,融合其余码流数据各自对应的解码特征向量,得到子类融合特征向量。
在一实施例中,其余码流数据为多路码流数据中不属于筛选码流数据的码流数据。
在一些实施例中,本端终端将多路码流数据中不属于筛选码流数据的码流数据融合为一路特征向量,并将该路融合的特征向量作为对应于多路码流数据的子类融合特征向量。
步骤S127,融合筛选码流数据各自对应的解码特征向量和子类融合特征向量,得到融合特征向量。
在一些实施例中,本端终端将选取出的第二预设数量个的筛选码流数据各自对应的解码特征向量与多路码流数据的子类融合特征向量一齐融合为一路特征向量。
在一实施例中,语音信号的语音特征基于语音信号时频变换后得到的第一时频域数据中提取。
在一些实施例中,对端终端在获取到采集的语音信号之后,对端终端对语音信号进行时频变换处理,以形成变换后的时频域信号,对端终端再基于预设的特征提取网络从时频域信号中提取出语音特征。
其中,时频变换的处理方法包括快速傅立叶变换、(改进的)离散余弦变换、小波变换等。
在一些实施例中,对端终端在对变换后的时频域信号进行特征提取之前,还可以先将时频域信号按照语音信号对应的时间顺序进行切片处理,得到多个语音切片数据,然后基于预设的特征提取网络从时频域信号中提取出语音特征。
在示例性实施例中,参阅图5,图5为本申请中重建语音信号一实施例的流程示意图。在步骤S15中,终端对融合语音特征进行线性逆变换处理,得到多路语音信号对应的重建语音信号的过程,具体可以通过以下方式实现:
步骤S151,对融合后的语音特征进行时频解码处理,得到对应时频解码处理后的时频域数据。
在一些实施例中,该时频域数据用于表征该融合后的语音特征的语音特征的时域性质和频域性质。
在一些实施例中,该时频域数据为该融合后的语音特征对应的一路时频域信号(即融合生成的一路语音信号)。在该路时频域信号中可以表征所融合的各路语音特征的时域性质和频域性质。
步骤S152,对时频域数据进行时频逆变换处理,得到融合后的语音特征的语音信号,并将融合后的语音特征的语音信号作为多路语音信号对应的重建语音信号。
在一些实施例中,本端终端对时频域数据进行时频逆变换处理需要与对端终端对待融合的多路语音信号的时频变换处理的方式相匹配。
例如,若对端终端对待融合的多路语音信号进行快速傅立叶变换处理,则本端终端对融合的且时频解码后的时频域数据进行快速傅立叶反变换处理;或者,若对端终端对待融合的多路语音信号进行(改进的)离散余弦变换处理,则本端终端对融合的且时频解码后的时频域数据进行(改进的)离散余弦反变换处理;或者,若对端终端对待融合的多路语音信号进行小波变换处理,则本端终端对融合的且时频解码后的时频域数据进行小波反变换处理。
为了更清晰阐明本公开实施例提供的多路语音重建方法,以下以一个具体的实施例对该多路语音重建方法进行具体说明。在一示例性实施例中,参考图6和图7,图6为根据另一示例性实施例示出的一种多路语音重建方法的流程图,图7为根据另一示例性实施例示出的一种多路语音重建方法的模块图,该多路语音重建方法用于对端终端102a和/或本端终端102b中,具体包括如下内容:
步骤S21:在多人通话的场景中,发送端获取语音采集设备采集的M路语音信号。
其中,发送端可以为多个终端设备,如多台智能手机、平板电脑等。且在每一终端设备中配置有一语音采集设备(包括摄影机、录音机等)。
作为一示例,在10人在线通话的场景中,对应有10台智能手机通过其自带的语音采集设备实时的采集其对应语音路径的语音信号,以获取到10路语音信号。
步骤S22:发送端将M路语音信号进行时频变换,得到变换后M路的时频域信号。
其中,时频变换的步骤:每一个发送端基于预设的第一时频变换网络,先将对应采集到的一路信号分解为多个信号帧,再对每一个信号帧进行时频变换,得到多个信号帧在变换后的时频域信号,记作:TF(n)。
其中,时频变换网络进行时频变换的方法包括快速傅立叶变换、(改进的)离散余弦变换、小波变换等。
其中,时频变换的方法均为线性变换,因为在对语音信号进行线性变换的情况下,能够满足语音信号在经过后续的语音特征的叠加、相乘等操作之后不变化的性质,有利于后续的多路信号融合、单路解码。
步骤S23:发送端将M路的时频域信号输入深度学习网络中进行特征提取,得到M路的语音特征向量。
其中,深度学习网络为每一个发送端预设的特征提取网络,特征提取网络的网络结构有CNN、GRU等的组合形式。
其中,深度学习网络对每一信号帧的时频域信号进行深层特征提取,得到高度压缩的语音特征,记作:TFfeature(n),其为一个特征向量。
其中,语音特征是以特征向量的形式来表达,这些特征向量用于表征MFCC等音频特征。
其中,高度压缩的语音特征是指:每一路时频域信号有P1个数据(例如,P1=320,即语音采集设备最初设置有320个采样点,采样得到320个数据),深度学习网络对P1个数据进行压缩成为P2个数据(例如,P2=60,即深度学习网络对时频域信号进行下采样,降低通道数量)。其中,P1>P2。
步骤S24:发送端根据预设的编码网络,将M路的语音特征向量进行特征编码,得到M路的特征码流。
其中,发送端根据特征编码的形式、码率需求、音质需求等,来选择对应的特征编码网络。
其中,特征编码网络包括VQ(矢量编码)网络、SQ(标量编码)网络等。
其中,VQ网络用于对特征向量进行矢量变换,来编码成特征码流,记作:TFQ(n);SQ网络用于对特征向量进行标量变换,来编码成特征码流,记作:TFQ(n)。
其中,VQ优势是压缩率高、码率需求低、可用于数据量大的场景;缺点是各个特征之间不能独立编码,要求特征之间具有共性,并且由于VQ压缩率高,导致特征丢失的更多,音质变低。
其中,SQ缺点是压缩率低、码率需求高、可用于数据量小的场景;优势是将一个数字用多个比特表示,每一维度的特征相当于每一个数可以独立编码,不需要有共性。
步骤S25:发送端通过预设的网络协议将M路的特征码流分别发送到接收端。
其中,发送端将TFQ(n)通过网络进行传输,需要注意,由于在多人通话过程中有多方的特征码流都会发送到接收端,所以将不同路的特征码流分别记作:TFQ1(n)、TFQ2(n)…TFQM(n)。
其中,预设的网络协议为VoIP(Voice over Internet Protocol,基于网际协议的语音传输)。
步骤S26:接收端根据预设的解码网络,将M路的特征码流进行特征解码,得到解码后的M路的语音特征向量。
其中,接收端可以为单个终端设备,如多台智能手机、平板电脑等。
其中,接收端中预设有特征解码网络,特征解码网络包括VQ(矢量解码)网络、SQ(标量解码)网络等。
其中,接收端根据获取的M路的特征码流对应的编码方式选择对应匹配的特征解码网络。即,若特征码流对应的编码方式为矢量编码,则特征解码网络需要为对应的矢量解码网络;或者,若特征码流对应的编码方式为标量编码,则特征解码网络需要为对应的标量解码网络。
其中,特征解码网络将TFQ1(n)、TFQ2(n)…TFQM(n)进行特征解码,得到解码后的多路特征,记作:TFDQ1(n)、TFDQ2(n)…TFDQM(n)。
步骤S27:接收端将解码后的M路的语音特征向量输入深度学习网络中进行特征融合,得到融合后的1路语音特征向量。
其中,深度学习网络为一种特征融合网络,特征融合网络的网络结构有CNN、GRU等的组合形式。
其中,深度学习网络是将M路的语音特征向量相加,以得到融合后的1路混合语音特征向量。
其中,深度学习网络是将M路的语音特征向量(即,TFDQ1(n)、TFDQ2(n)…TFDQM(n))融合为与多路音频等价的一路混音语音特征,记作:MergedTFDQ(n)。
其中,接收端预设有最大融合路数L,即接收端一次只能融合L路的语音特征向量。
在一种方式中,当M≤L时,接收端在M路中将不属于L路的输入信号按照全零特征进行补齐。
在另一种方式中,当M>L时,接收端将M路信号的能量排序,对前L路的语音特征向量进行特征融合,其余舍弃。例如,L的推荐数字为10,一般大于10路语音信号同时发生对于接收端的收听这来说已经是难以分辨内容的,因此大于10路信号的接收码流同时解码对于实际应用的作用并不高。
在另一种方式中,当M>L时,接收端先将M路信号的能量排序,将第L路-第M路的语音特征向量输入深度学习网络中进行特征融合,得到第M+1路的语音特征向量;再将第1路-第L-1路和第M+1路的语音特征向量输入深度学习网络中进行特征融合,得到最终1路的语音特征向量。
步骤S28:接收端将融合后的1路语音特征向量输入时频语音解码网络中进行时频变换,得到变换后的1路时频域信号。
其中,接收端预设有时频语音解码网络,时频语音解码网络将1路语音特征向量MergedTFDQ(n)进行时频变换,得到变换后的1路时频域信号记作:TF’(n),该TF’(n)信号与TF(n)信号相似。
步骤S29:接收端将变换后的1路时频域信号进行时频反变换,得到反变换后的1路语音信号。
其中,时频反变换的步骤:接收端基于预设的时频反变换网络,先将对应采集到的多个信号帧的1路时频域信号组合为一个信号帧的1路时频域信号,再对该1路时频域信号进行时频反变换,得到变换后的时频域信号。
其中,反变换后的1路语音信号即为最终向用户输出的时域语音信号。
其中,时频反变换网络需要与时频变换网络相匹配。即,若时频变换网络用于对语音信号进行快速傅立叶变换,则时频反变换网络用于对1路时频域信号进行快速傅立叶反变换;或者,若时频变换网络用于对语音信号进行(改进的)离散余弦变换,则时频反变换网络用于对1路时频域信号进行(改进的)离散余弦反变换;或者,若时频变换网络用于对语音信号进行小波变换,则时频反变换网络用于对1路时频域信号进行小波反变换。
其中,时频变换网络、特征提取网络、特征编码网络、特征解码网络、特征融合网络、时频语音解码网络、时频反变换网络均为对应的网络模型构成。
其中,每一个网络模型对应的损失函数可以为:(改进的)尺度不变信噪比、频谱距离、时域波形距离等。
其中,每一个网络模型对应的损失函数用来描述其输入数据和输出数据之间的相似度。
例如,时频变换模块的输入数据为采集的语音信号,输出数据为变换后的时频域信号,损失函数为时域波形距离,若该时域波形距离越大,则输入数据和输出数据之间的相似度越小,若该时域波形距离越小,则输入数据和输出数据之间的相似度越大。
其中,在训练每一个网络模型的过程中:通过每一个网络模型的损失函数的测试值和引入的对抗网络来优化各个模型的,即通过损失函数和抗网络训练出合格的模型(输出的相似度符合要求)。
上述方案,一方面,利用经过线性变换处理后的语音信号来对语音特征进行编解码,以及利用线性逆变换处理的方式将编解码后的融合语音特征重建为语音信号,能够有效避免在语音信号的编解码和重建的过程中数据丢包和数据失真的现象,从而优化了语音信号重建的流程,提升了重建的语音信号的音频质量;另一方面,参考与预设融合路径数量之间的大小关系,按照对应的融合策略对至少部分路径的语音特征进行融合,以根据融合后的语音特征来重建语音信号,从而在语音交互时减少了需处理的数据量和降低了解码过程的复杂度,提升多人同步语音交互时的流畅性。
应该理解的是,虽然图2-图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
图8是本申请实施例提供的一种多路语音重建系统框图。参照图8,该多路语音重建系统10包括:包括多个编码端设备11,基于通信网络13与多个编码端设备11分别通信连接的解码端设备12。
其中,每个编码端设备11被配置为执行获取一路语音信号;以及,对语音信号进行时频变换处理,得到对应线性变换处理后的语音信号;以及,提取线性变换处理后的语音信号中的语音特征,并对语音特征进行编码处理得到对应的一路码流数据。
如图8所示,在该示例性实施例中的编码端设备11有三个,分别为设备A、设备B和设备C,其在得到各自对应的一路码流数据之后,通过预设的通信网络13将对应的三路码流数据发送至解码端设备12。
在一些实施例中,通信网络13(通信协议)可为包括如以太网、蓝牙、Zigbee、Z-Wave或者支持IPv6网络的智能家居工作组标准(即Project Connected Home over IP)、VoIP协议(Voice over Internet Protocol,基于网际协议的语音传输)等。
其中,解码端设备12被配置为执行获取来自多个编码端设备的多路码流数据;以及,对多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征,并基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;以及,基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;以及,对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
图9是本申请实施例提供的一种多路语音重建装置框图。参照图9,该多路语音重建装置20包括:数据获取单元21、码流解码单元22、策略判断单元23、特征融合单元24、和信号重建单元25。
其中,该数据获取单元21,被配置为执行获取多路语音信号对应的多路码流数据;所述码流数据为对所述语音信号的语音特征进行编码处理后的编码码流,所述语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征。
其中,该码流解码单元22,被配置为执行对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征。
其中,该策略判断单元23,被配置为执行基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略。
其中,该特征融合单元24,被配置为执行基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量。
其中,该信号重建单元25,被配置为执行对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
在一些实施例中,在对所述融合后的语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号的方面,该信号重建单元25具体用于:
对所述融合后的语音特征进行时频解码处理,得到对应时频解码处理后的时频域数据;所述时频域数据用于表征所述融合后的语音特征的时域性质和频域性质;
对所述时频域数据进行时频逆变换处理,得到所述融合后的语音特征的语音信号,并将所述融合后的语音特征的语音信号作为所述多路语音信号对应的重建语音信号。
在一些实施例中,各路所述语音信号的语音特征基于对应的特征向量表达;所述码流数据为基于矢量编码策略或者标量编码策略编码得到的编码码流;在对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征的方面,该码流解码单元22具体用于:
基于各路所述码流数据的编码策略所对应的解码策略,分别对各路所述码流数据进行码流解码处理,得到所述多路码流数据的解码特征向量,并将所述多路码流数据的解码特征向量作为对应所述多路码流数据各自对应的语音特征;
其中,所述码流数据的编码策略所对应的解码策略包括对应于所述矢量编码策略的矢量解码策略或者对应于所述标量编码策略的标量解码策略。
在一些实施例中,在基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略的方面,该策略判断单元23具体用于:
在所述比对结果为所述多路码流数据对应的路径数量小于或者等于所述预设融合路径数量的情况下,确定预设的第一融合策略为目标融合策略;所述第一融合策略用于指示融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量;或者
在所述比对结果为所述多路码流数据对应的路径数量大于所述预设融合路径数量的情况下,确定预设的第二融合策略为目标融合策略;所述第二融合策略用于指示基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量。
在一些实施例中,在融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量的方面,该特征融合单元24具体还用于:
在所述比对结果为所述多路码流数据的路径数量等于所述预设融合路径数量的情况下,融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量;或者
在所述比对结果为所述多路码流数据的路径数量小于所述预设融合路径数量的情况下,将所述多路码流数据各自对应的解码特征向量与第一路径数量的零向量进行融合,得到融合特征向量;
其中,所述第一路径数量为所述预设融合路径数量与所述多路码流数据对应的路径数量之间的差值数量,所述零向量与所述解码特征向量的维度相同。
在一些实施例中,在基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量的方面,该特征融合单元24具体还用于:
将所述多路码流数据按照各路所述码流数据对应的能量值由大到小进行排序,得到排序结果;所述各路所述码流数据对应的能量值为所述码流数据的语音信号的能量值;
将所述排序结果中前第一预设数量个码流数据确定为筛选码流数据;所述第一预设数量等于所述预设融合路径数量;
融合所述预设数量个筛选码流数据各自对应的解码特征向量,得到融合特征向量。
在一些实施例中,在基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量的方面,该特征融合单元24具体还用于:
将所述多路码流数据按照各路所述码流数据对应的能量值由大到小进行排序,得到排序结果;所述各路所述码流数据对应的能量值为所述码流数据的语音信号的能量值;
将所述排序结果中前第二预设数量个码流数据确定为筛选码流数据;所述第二预设数量小于所述预设融合路径数量;
在所述多路码流数据中,融合其余码流数据各自对应的解码特征向量,得到子类融合特征向量;所述其余码流数据为多路所述码流数据中不属于所述筛选码流数据的码流数据;
融合所述筛选码流数据各自对应的解码特征向量和所述子类融合特征向量,得到融合特征向量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是本申请实施例提供的一种电子设备的框图。例如,电子设备30可以为一种服务器、电子组件或者服务器阵列等等。参照图10,电子设备30包括处理器31,其进一步处理器31可以为处理器集合,其可以包括一个或多个处理器,以及电子设备30包括由存储器32所代表的存储器资源,其中,存储器32上存储有计算机程序,例如应用程序。在存储器32中存储的计算机程序可以包括一个或一个以上的每一个对应于一组可执行指令的模块。此外,处理器31被配置为执行计算机程序时实现如上述的多路语音重建方法。
在一些实施例中,电子设备30为服务器,该服务器中的计算系统可以运行一个或多个操作系统,包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该电子设备30还可以运行各种附加服务器应用和/或中间层应用中的任何一种,包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关界面)服务器、超级服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。
在一些实施例中,处理器31通常控制电子设备30的整体操作,诸如与显示、数据处理、数据通信操作相关联的操作。处理器31可以包括一个或多个处理器来执行计算机程序,以完成上述的方法的全部或部分步骤。此外,处理器31可以包括一个或多个模块,便于处理器31和其他组件之间的交互。例如,处理器31可以包括多媒体模块,以方便利用多媒体组件控制用户电子设备30和处理器31之间的交互。
在一些实施例中,处理器31中的处理器组件还可以称为CPU(Central ProcessingUnit,中央处理单元)。处理器组件可能是一种电子芯片,具有信号的处理能力。处理器组件还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器组件也可以是任何常规的处理器等。另外,处理组件可以由集成电路芯片共同实现。
在一些实施例中,存储器32被配置为存储各种类型的数据以支持在电子设备30的操作。这些数据的示例包括用于在电子设备30上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器32可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
在一些实施例中,存储器32可以为内存条、TF卡等,可以存储电子设备30中的全部信息,包括都保存在存储器32中的输入的原始数据、计算机程序、中间运行结果和最终运行结果。
在一些实施例中,存储器32根据处理器31指定的位置存入和取出信息。在一些实施例中,有了存储器32,电子设备30才有记忆功能,才能保证正常工作。
在一些实施例中,电子设备30的存储器32按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在一些实施例中,电子设备30还可以包括:电源组件33被配置为执行电子设备30的电源管理,有线或无线网络接口34被配置为将电子设备30连接到网络,和输入输出(I/O)接口35。电子设备30可以操作基于存储在存储器32的操作系统,例如Windows Server,MacOS X,Unix,Linux,FreeBSD或类似。
在一些实施例中,电源组件33为电子设备30的各种组件提供电力。电源组件33可以包括电源管理系统,一个或多个电源,及其他与为电子设备30生成、管理和分配电力相关联的组件。
在一些实施例中,有线或无线网络接口34被配置为便于电子设备30和其他设备之间有线或无线方式的通信。电子设备30可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。
在一些实施例中,有线或无线网络接口34经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,有线或无线网络接口34还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在一些实施例中,输入输出(I/O)接口35为处理组件31和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
图11是本申请实施例提供的一种计算机可读存储介质40的框图。该计算机可读存储介质40上存储有计算机程序41,其中,计算机程序41被电子设备的处理器执行时实现如上述的多路语音重建方法。
在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质40中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质40在一个计算机程序41中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如MP3、MP4等,也可以是手机、平板电脑、可穿戴设备等智能终端,也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。
图12是本申请实施例提供的一种计算机程序产品50的框图。该计算机程序产品50中包括程序指令51,该程序指令51可由电子设备的处理器执行以实现如上述的多路语音重建方法。
本领域内的技术人员应明白,本申请的实施例可提供有多路语音重建方法、多路语音重建系统10、多路语音重建装置20、电子设备30、计算机可读存储介质40或计算机程序产品50。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机程序指令51(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品50的形式。
本申请是参照根据本申请实施例中多路语音重建方法、多路语音重建系统10、多路语音重建装置20、电子设备30、计算机可读存储介质40或计算机程序产品50的流程图和/或方框图来描述的。应理解可由计算机程序产品50实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序产品50到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令51产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序产品50也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机程序产品50中的程序指令51产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些程序指令51也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令51提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的,上述的各种方法、装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种多路语音重建方法,其特征在于,包括:
获取多路语音信号对应的多路码流数据;所述码流数据为对所述语音信号的语音特征进行编码处理后的编码码流,所述语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征;
对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征;
基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;
基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;
对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述融合后的语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号,包括:
对所述融合后的语音特征进行时频解码处理,得到对应时频解码处理后的时频域数据;所述时频域数据用于表征所述融合后的语音特征的时域性质和频域性质;
对所述时频域数据进行时频逆变换处理,得到所述融合后的语音特征的语音信号,并将所述融合后的语音特征的语音信号作为所述多路语音信号对应的重建语音信号。
3.根据权利要求1所述的方法,其特征在于,各路所述语音信号的语音特征基于对应的特征向量表达;所述码流数据为基于矢量编码策略或者标量编码策略编码得到的编码码流;
所述对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征,包括:
基于各路所述码流数据的编码策略所对应的解码策略,分别对各路所述码流数据进行码流解码处理,得到所述多路码流数据的解码特征向量,并将所述多路码流数据的解码特征向量作为对应所述多路码流数据各自对应的语音特征;
其中,所述码流数据的编码策略所对应的解码策略包括对应于所述矢量编码策略的矢量解码策略或者对应于所述标量编码策略的标量解码策略。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略,包括:
在所述比对结果为所述多路码流数据对应的路径数量小于或者等于所述预设融合路径数量的情况下,确定预设的第一融合策略为目标融合策略;所述第一融合策略用于指示融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量;或者
在所述比对结果为所述多路码流数据对应的路径数量大于所述预设融合路径数量的情况下,确定预设的第二融合策略为目标融合策略;所述第二融合策略用于指示基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量。
5.根据权利要求4所述的方法,其特征在于,所述融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量,包括:
在所述比对结果为所述多路码流数据的路径数量等于所述预设融合路径数量的情况下,融合所述多路码流数据各自对应的解码特征向量,得到融合特征向量;或者
在所述比对结果为所述多路码流数据的路径数量小于所述预设融合路径数量的情况下,将所述多路码流数据各自对应的解码特征向量与第一路径数量的零向量进行融合,得到融合特征向量;
其中,所述第一路径数量为所述预设融合路径数量与所述多路码流数据对应的路径数量之间的差值数量,所述零向量与所述解码特征向量的维度相同。
6.根据权利要求4所述的方法,其特征在于,所述基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量,包括:
将所述多路码流数据按照各路所述码流数据对应的能量值由大到小进行排序,得到排序结果;所述各路所述码流数据对应的能量值为所述码流数据的语音信号的能量值;
将所述排序结果中前第一预设数量个码流数据确定为筛选码流数据;所述第一预设数量等于所述预设融合路径数量;
融合所述预设数量个筛选码流数据各自对应的解码特征向量,得到融合特征向量。
7.根据权利要求4所述的方法,其特征在于,所述基于所述多路码流数据的语音信号所对应的多个能量值之间的排序结果,在所述多路码流数据所对应的路径数量中筛选至少部分路径的码流数据,并融合筛选的所述至少部分路径的码流数据各自对应的解码特征向量,得到融合特征向量,包括:
将所述多路码流数据按照各路所述码流数据对应的能量值由大到小进行排序,得到排序结果;所述各路所述码流数据对应的能量值为所述码流数据的语音信号的能量值;
将所述排序结果中前第二预设数量个码流数据确定为筛选码流数据;所述第二预设数量小于所述预设融合路径数量;
在所述多路码流数据中,融合其余码流数据各自对应的解码特征向量,得到子类融合特征向量;所述其余码流数据为多路所述码流数据中不属于所述筛选码流数据的码流数据;
融合所述筛选码流数据各自对应的解码特征向量和所述子类融合特征向量,得到融合特征向量。
8.一种多路语音重建系统,其特征在于,包括多个编码端设备,与所述多个编码端设备分别通信连接的解码端设备,其中:
每个所述编码端设备,被配置为执行获取一路语音信号;以及,对所述语音信号进行线性变换处理,得到对应线性变换处理后的语音信号;以及,提取所述线性变换处理后的语音信号中的语音特征,并对所述语音特征进行编码处理得到对应的一路码流数据;
所述解码端设备,被配置为执行获取来自所述多个编码端设备的多路码流数据;以及,对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征,并基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;以及,基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;以及,对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
9.一种多路语音重建装置,其特征在于,包括:
数据获取单元,被配置为执行获取多路语音信号对应的多路码流数据;所述码流数据为对所述语音信号的语音特征进行编码处理后的编码码流,所述语音特征为从对应经过线性变换处理后的语音信号中提取出的信号特征;
码流解码单元,被配置为执行对所述多路码流数据进行码流解码处理,得到所述多路码流数据各自对应的语音特征;
策略判断单元,被配置为执行基于所述多路码流数据对应的路径数量与预设融合路径数量之间的比对结果,确定目标融合策略;
特征融合单元,被配置为执行基于所述目标融合策略,融合目标数量的的语音特征,得到融合语音特征;所述目标数量为根据所述目标融合策略,融合对应至少部分路径的语音特征所对应的路径数量;
信号重建单元,被配置为执行对所述融合语音特征进行线性逆变换处理,得到所述多路语音信号对应的重建语音信号。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如权利要求1至7中任一项所述的多路语音重建方法。
11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的计算机程序由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的多路语音重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520262.XA CN116682440A (zh) | 2023-05-09 | 2023-05-09 | 多路语音重建方法、系统、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520262.XA CN116682440A (zh) | 2023-05-09 | 2023-05-09 | 多路语音重建方法、系统、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116682440A true CN116682440A (zh) | 2023-09-01 |
Family
ID=87782706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310520262.XA Pending CN116682440A (zh) | 2023-05-09 | 2023-05-09 | 多路语音重建方法、系统、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682440A (zh) |
-
2023
- 2023-05-09 CN CN202310520262.XA patent/CN116682440A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147806B (zh) | 基于深度学习的语音音质增强方法、装置和系统 | |
WO2016007374A1 (en) | Systems and methods for manipulating and/or concatenating videos | |
CN108028044A (zh) | 使用多个识别器减少延时的语音识别系统 | |
CN112750444B (zh) | 混音方法、装置及电子设备 | |
CN111276152A (zh) | 一种音频处理方法、终端及服务器 | |
Ciaramella et al. | Packet loss recovery in audio multimedia streaming by using compressive sensing | |
CN101715643B (zh) | 多地点连接装置、信号分析以及装置、其方法及程序 | |
Jiang et al. | Cross-scale vector quantization for scalable neural speech coding | |
WO2023241254A1 (zh) | 音频编解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN114333893A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN113571044A (zh) | 语音信息处理方法、装置和电子设备 | |
CN112751820B (zh) | 使用深度学习实现数字语音丢包隐藏 | |
CN116682440A (zh) | 多路语音重建方法、系统、装置、电子设备和存储介质 | |
CN113539281A (zh) | 音频信号编码方法和装置 | |
CN113593587B (zh) | 语音分离方法及装置、存储介质、电子装置 | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN111857901A (zh) | 数据处理方法、生成会话背景的方法、电子设备和介质 | |
CN114842857A (zh) | 语音处理方法、装置、系统、设备及存储介质 | |
Purnhagen et al. | Speeding up HILN-MPEG-4 parametric audio encoding with reduced complexity | |
CN114283837A (zh) | 一种音频处理方法、装置、设备及存储介质 | |
CN109040116B (zh) | 一种基于云端服务器的视频会议系统 | |
CN102436822A (zh) | 信号控制装置及其方法 | |
CN111079854A (zh) | 信息识别方法、设备及存储介质 | |
WO2022012554A1 (zh) | 多声道音频信号编码方法和装置 | |
US20230075562A1 (en) | Audio Transcoding Method and Apparatus, Audio Transcoder, Device, and Storage Medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |