具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例进行详细描述。
实施例一
请参阅图1,图1为本发明一种语音信号的处理方法的流程图,该方法包括以下步骤:
步骤101:根据为参加会议的会场所设置的方位信息,在最大N方会场中,确定每个时刻每个频段上能量最大的会场的方位信息;
上述步骤中,需要先将最大N方会场的语音信号进行时频变换,将时域下的语音信号转换为频域下的语音信号,然后计算每个时刻每个频段上的能量值,获得每个时刻每个频段上能量最大的会场,最后根据为参加会议的会场所设置的方位信息,确定每个频段上能量最大的会场的方位信息。其中,可以通过两种方法确定每个时刻每个频段上,最大N方会场中能量最大的会场的方位信息。其中,一种确定方法为:根据参加会议的各个会场的入会顺序,预先为入会的会场设置方位。当通过比较最大N方会场的语音信号在每个频段的能量值而获得每个时刻每个频段上最大N方会场中能量最大的会场后,判断所述能量最大的会场是否在多画面中,如果是,将所述能量最大的会场的方位信息设置为多画面方位信息,如果否,将所述能量最大的会场的方位信息设置为所述预设方位信息。例如,在一个视讯系统中,参加会议的会场有十个,第一个入会的会场编号为1,第二入会的会场的编号为2,依次类推,第十个入会的会场编号为10。根据十个会场的入会顺序,将会场1-3的方位设置为左上方,将会场4-6的方位设置为右上方,将会场7-8的方位设置为左下方,将会场9-10的方位设置为右下方,请参阅图2-a,图2-a为10个入会会场的方位示意图。其中,会场1-4为最大4方会场,并且,在某一时刻的某一个频段下,会场1为最大4方会场中能量最大的会场,则判断会场1是否在多画面中,当会场1在多画面中时,将会场1在多画面中的方位信息设置为会场1的方位信息,例如,会场1在多画面中的右下方,请参阅图2-b,图2-b为多画面中4个会场的方位示意图,则会场1的方位信息为右下方;当会场1不在多画面中时,根据对入会会场方位的设定可以获得,会场1的方位信息为左上方。
另一种确定方法为:在确定最大N方会场后,根据最大N方会场的入会顺序,预先为最大N方会场设置方位,得到最大N方会场的方位信息。当通过比较最大N方会场的语音信号在每个时刻每个频段的能量值而获得每个时刻每个频段上最大N方会场中能量最大的会场后,判断所述能量最大的会场是否在多画面中,当能量最大的会场在多画面中时,将所述能量最大的会场的方位信息设置为所述能量最大的会场在多画面中的方位信息,如果否,将所述能量最大的会场的方位信息设置为所述预设的最大N方会场的方位信息。以上述十个会场之间进行视讯通信为例,其中,会场1-4为最大4方会场,根据会场1-4的入会顺序,将会场1的方位设置为左上方,将会场2的方位设置为右上方,将会场3的方位设置为左下方,将会场4的方位设置为右下方,请参阅图3-a,图3-a为4个最大4方会场的方位示意图。当通过比较能量值得知,在某一个时刻某一个频段下,会场1为最大4方会场中能量最大的会场时,则判断会场1是否在多画面中,当会场1在多画面中时,将会场1在多画面中的方位信息设置为会场1的方位信息,例如,会场1在多画面中的右下方,请参阅图3-b,图3-b为多画面中4个会场的方位示意图,则会场1的方位信息为右下方;当会场1不在多画面中时,根据对最大4方会场预先设置的方位可以获得,会场1的方位信息为左上方。
上述两种确定方法中,当能量最大的会场在多画面中的方位发生变化时,能量最大的会场的方位信息也会随着方位的变化而相应地发生变化。
仍然以上述是个会场之间进行视讯通信为例,其中,会场1-4为最大4方会场,根据会场1-4的入会顺序,将会场1的方位设置为左上方,将会场2的方位设置为右上方,将会场3的方位设置为左下方,将会场4的方位设置为右下方。并且,在某个时刻的某一个频段下,会场1即是最大4方会场中能量最大的会场,也在多画面中,则会场1的方位信息为会场1在多画面中的方位信息,假设会场1在多画面中的方位为左上方,则会场1的方位信息为左上方,当会场1在多画面中的方位被切换为右上方时,且此时会场1仍然为最大4方会场中能量最大的会场时,则会场1的方位信息也就相应地变化为右上方。需要说明的是,本实施例并不限定对最大N方会场中能量最大的会场的方位信息的设置方法,方位信息也不限定为左上方、右上方、左下方和右下方四种方位。
当多画面的画面个数大于方位个数时,多画面中的会场不能够完全对应任何一个方位。例如,多画面的个数为16,方位的个数为4,多画面中的会场不能够完全对应任何一个方位,则为多画面中的会场取一个最近似的方位,请参阅图4,图4为多画面个数为16,方位个数为4时方位的设置方法,根据近似原则,将图中会场7的方位设置为右上方。
步骤102:将最大N方会场的混音信号和所述每个时刻每个频段上能量最大的会场的方位信息进行发送。
上述步骤中,可以先将最大N方会场的混音信号和每个时刻每个频段上能量最大的会场的方位信息进行编码,分别得到混音码流和方位信息码流,然后将混音码流和方位信息码流发送给参加会议的会场终端;或者,也可以只将最大N方会场的混音信号进行编码,得到混音码流,然后将混音码流和每个时刻每个频段上能量最大的会场的方位信息发送给参加会议的会场终端。例如,目的会场属于最大N方会场,则发送给该会场的混音信号是除了该会场以外的最大N-1会场的混音信号。
其中,在将所述能量最大的会场的方位信息进行编码时,以不同于混音信号的编码方式进行编码。例如,当混音信号按照传统的编码协议G.722进行编码时,则所述最大N方会场中能量最大的会场的方位信息可以采用Huffman的方式接进行编码。请参阅图5,图5为本发明中语音信号的处理示意图。
当将每个时刻每个频段上能量最大的会场的方位信息进行发送时,一个优选的方式是:
将最大N方会场中能量最大的会场的会场编号和最大N方会场的方位信息一并进行发送,从而由接收端根据会场编号从最大N方会场的方位信息中确定最大N方会场中能量最大的会场的方位信息。
实施例二
与上述一种语音信号的处理方法相对应,本发明实施例还提供了一种语音信号的处理装置。请参阅图6,图6为本发明一种语音信号的处理装置的结构图,该装置包括方位确定单元601和发送单元602。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
方位确定单元601,用于根据为参加会议的会场所设置的方位信息,在最大N方会场中,确定每个时刻每个频段上能量最大的会场的方位信息;
发送单元602,用于将最大N方会场的混音信号和所述每个时刻每个频段上能量最大的会场的方位信息进行发送。
其中,所述方位确定单元601包括:第一方位预设单元603,用于根据入会顺序,依次为所述参加会议的会场预先设置方位,得到预设方位信息;比较单元604,用于比较最大N方会场的语音信号在每个频段的能量值,获得每个时刻每个频段上能量最大的会场;第一设置单元605,用于当所述能量最大的会场不在多画面中时,根据预设方位信息设置能量最大的会场的方位信息;第二设置单元606,用于当所述能量最大的会场在多画面中时,根据多画面方位信息设置能量最大的会场的方位信息。
所述方位确定单元601还可以包括:第二方位预设单元,用于根据入会顺序,依次为最大N方会场预先设置方位,得到最大N方会场的预设方位信息;比较单元,用于比较最大N方会场的语音信号在每个时刻每个频段的能量值,获得每个时刻每个频段上能量最大的会场;第三设置单元,用于当所述能量最大的会场不在多画面中时,根据预设方位信息设置能量最大的会场的方位信息;第四设置单元,用于当所述能量最大的会场在多画面中时,根据多画面方位信息设置能量最大的会场的方位信息。
所述发送单元602包括:第一发送单元607和/或第二发送单元608,
第一发送单元607,用于将所述混音信号和所述每个时刻每个频段上能量最大的会场的方位信息进行编码,分别得到混音码流和方位信息码流,将所述混音码流和方位信息码流发送给参加会议的会场终端;
第二发送单元608,用于将所述混音信号进行编码,得到混音码流,将所述混音码流和所述每个时刻每个频段上能量最大的会场的方位信息发送给参加会议的会场终端。
实施例三
请参阅图7,图7为本发明一种语音信号的播放方法的流程图,该方法包括以下步骤:
步骤701:获取最大N方会场的混音信号和每个时刻每个频段上能量最大的会场的方位信息;
上述步骤中若接收到最大N方会场中能量最大的会场的会场编号和最大N方会场的方位信息,则首先根据会场编号从最大N方会场的方位信息中确定最大N方会场中能量最大的会场的方位信息。
上述步骤中,当接收到的数据为混音码流和方位信息码流时,通过对所述混音码流和方位信息码流进行解码,得到所述混音信号和每个时刻每个频段上能量最大的会场的方位信息;当接收到的数据为混音信号码流和每个时刻每个频段上能量最大的会场的方位信息时,通过对所述混音码流进行解码,得到所述混音信号,最终获得混音信号和每个频段上能量最大的会场的方位信息。
步骤702:根据播放设备的听觉空间参数与方位信息之间的对应关系,获得与每个时刻每个频段上所述能量最大的会场的方位信息相对应的播放设备的听觉空间参数;
上述步骤中,播放设备的听觉空间参数包括电平参数和延时参数。步骤902的具体实现过程可以为:首先为播放设备预先设置与方位信息相对应的电平参数和延时参数,当在步骤701中获取到每个时刻每个频段上能量最大的会场的方位信息后,查询预先为播放设备设置的方位信息与电平参数和延时参数之间的对应关系,得到与每个时刻每个频段上能量最大的会场的方位信息相对应的播放设备的电平参数和延时参数。
例如,在会场由两个扬声器作为播放设备,所获取的某个频段上能量最大的会场的方位信息为左上方,则可以得到两个扬声器的电平参数和延时参数为:1)扬声器1左上方的电平参数;2)扬声器2左上方的电平参数;3)扬声器1左上方的延时参数;4)扬声器2左上方的延时参数。
步骤703:利用所述播放设备的听觉空间参数调整所述混音信号,以便对调整后的混音信号进行播放。
其中,需要先将混音信号进行时频变换,将时域下的混音信号转换为频域下的混音信号,当获得与每个频段上所述能量最大的会场的方位信息相对应的播放设备的听觉空间参数后,分别在每个频段上,利用播放设备的听觉空间参数对频域下的混音信号的电平和延时进行调整。请参阅图8,图8为各频段下播放设备的听觉空间参数调整示意图。当对每个频段上的混音信号进行调整后,将调整后的混音信号进行时频反变换,把频域下的混音信号转换为时域下的混音信号,最后将时域下的混音信号通过播放设备进行播放。
实施例四
与上述一种语音信号的播放方法相对应,本发明实施例还提供了一种语音信号的播放装置。请参阅图9,图9为本发明一种语音信号的播放装置的结构图,该装置包括获取单元901、空间参数获得单元902和调整单元903。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
获取单元901,用于获取最大N方会场的混音信号和每个时刻每个频段上能量最大的会场的方位信息;
空间参数获得单元902,用于根据播放设备的听觉空间参数与方位信息之间的对应关系,获得与每个时刻每个频段上所述能量最大的会场的方位信息相对应的播放设备的听觉空间参数;
调整单元903,用于利用所述播放设备的听觉空间参数调整所述混音信号,以便对调整后的混音信号进行播放。
其中,获取单元901包括:
第一接收单元904,用于接收混音码流和方位信息码流;
第一解码单元905,用于对所述混音码流和方位信息码流进行解码,得到所述混音信号和每个时刻每个频段上能量最大的会场的方位信息。
上述第一接收单元904可以替换为第二接收单元,用于接收混音码流和所述每个时刻每个频段上能量最大的会场的方位信息;第一解码单元905可以替换为第二解码单元,用于对所述混音码流进行解码,得到所述混音信号。
在本实施例中,获取单元901还可以同时包括第一接收单元、第一解码单元和第二接收单元、第二解码单元。
空间参数获得单元902包括:
听觉空间参数预设单元906,用于为播放设备预先设置与方位信息相对应的电平参数和延时参数;
查询单元907,用于查询所述方位信息与电平参数和延时参数之间的对应关系,得到与所述每个时刻每个频段上能量最大的会场的方位信息相对应的电平参数和延时参数。
由上述本发明的实施例可以看出,在对语音信号进行处理时,预先为参加会议的所有会场设置方位信息,并在最大N方会场中,确定在每个频段上能量最大的会场的方位信息,将所述方位信息与混音信号一起发送。在对语音信号进行播放时,根据接收的方位信息以及方位信息的播放设备空间参数之间的对应关系,得到播放端每个播放设备的空间参数,利用播放设备的空间参数来调整混音信号,在将调整后的混音信号播放时,可以在会场重构音源的听觉空间,使最大N方会场的声音在播放时具有空间的立体感觉,用户能够听清楚每个最大N方会场的声音,更增加了用户的临场体验感觉。
此外,当能量最大的会场在多画面中时,能量最大的会场的方位信息会随着它在多画面中方位的变化而相应地发生变化,从而在对语音信号播放时,使音源的方位与图像的方位相一致,进一步增加了用户的临场体验感觉。
以上对本发明所提供的一种语音信号的处理、播放方法和装置进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。