CN107659888A - 识别伪立体声音频的方法、装置及存储介质 - Google Patents
识别伪立体声音频的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN107659888A CN107659888A CN201710721409.6A CN201710721409A CN107659888A CN 107659888 A CN107659888 A CN 107659888A CN 201710721409 A CN201710721409 A CN 201710721409A CN 107659888 A CN107659888 A CN 107659888A
- Authority
- CN
- China
- Prior art keywords
- shape information
- sound wave
- correlation
- degree
- pseudostereo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000012634 fragment Substances 0.000 claims abstract description 155
- 230000000630 rising effect Effects 0.000 claims abstract description 118
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种识别伪立体声音频的方法、装置及存储介质,通过获取当前音频的左声道波形信息和右声道波形信息;将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;计算各第一声波片段与对应的第二声波片段之间的第一相关度;根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;根据所述第二相关度判断所述当前音频是否为伪立体声音频,从而在保证判断的准确率的同时增加了可识别的伪立体声音频的数量。
Description
技术领域
本发明涉及音频识别领域,尤其涉及一种识别伪立体声音频的方法、装置及存储介质。
背景技术
听歌已经成为人们娱乐生活的重要组成部分,在互联网及移动通信高速发展的今天,人们对听歌的需求已经不仅仅在于聆听前方一定范围的声音,而对还原声音的真实感和现场感提出了更高的要求,希望听到环绕周围的声音,这种三维化的声音即称为立体声。人耳能感知声源的不同定位并产生对声源的空间印象主要是由双耳时间差和双耳强度差决定,即双耳效应。立体声就是利用人耳的双耳效应,改变空间声像位置,还原声源声场,使听众有身临其境的听觉感受。所以一般现在的歌曲音频都是双声道音频,利用左右声道的信息差异使得歌曲听起来有立体感。但是有些音频虽然是双声道音频,但是听起来却干巴巴的完全没有立体感,这就是所谓的伪立体声音频。
现有的技术往往是只比较左右声道的波形信息是否一致来判断是否是伪立体声,这样虽然准确,但是由于对比波形信息的一致性,条件太严格,只有左右声道的波形信息完全一致才能将音频判断为伪立体声音频,使得可识别出的伪立体声音频的数量很少。
上述信息仅用于辅助理解本发明的技术方案,并不代表承认上述信息是现有技术。
发明内容
本发明的主要目的在于提供一种识别伪立体声音频的方法、装置及存储介质,旨在解决上述可识别出的伪立体声音频数量少的技术问题。
为实现上述目的,本发明提供一种识别伪立体声音频的方法,所述识别伪立体声音频的方法包括以下步骤:
获取当前音频的左声道波形信息和右声道波形信息;
将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;
将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;
计算各第一声波片段与对应的第二声波片段之间的第一相关度;
根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;
根据所述第二相关度判断所述当前音频是否为伪立体声音频。
优选地,所述根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度,具体包括:
计算所述第一相关度的平均值,将所述平均值的绝对值作为所述第二相关度。
优选地,所述根据所述第二相关度判断所述当前音频是否为伪立体声音频,具体包括:
判断所述第二相关度是否大于预设阈值,在所述第二相关度大于所述预设阈值时,认定所述当前音频为伪立体声音频。
优选地,所述计算各第一声波片段与对应的第二声波片段之间的第一相关度,具体包括:
对所述第一声波片段进行遍历,将遍历到的第一声波片段作为当前声波片段;
计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
优选地,所述计算所述当前声波片段与对应的第二声波片段之间的第一相关度,具体包括:
对所述当前声波片段进行采样,获得第二预设数量的第一采样点波形信息;
对与所述当前声波片段对应的第二声波片段进行采样,获得所述第二预设数量的第二采样点波形信息;
根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
优选地,所述根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度,具体包括:
根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差;
根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
优选地,所述根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差,具体包括:
根据所述第二预设数量及所述第一采样点波形信息,计算所述当前声波片段的第一波形均值;
根据所述第二预设数量及所述第二采样点波形信息,计算所述对应的第二声波片段的第二波形均值;
根据所述第二预设数量、所述第一采样点波形信息及所述第一波形均值,计算所述当前声波片段的第一波形方差;
根据所述第二预设数量、所述第二采样点波形信息及所述第二波形均值,计算所述对应的第二声波片段的第二波形方差;
根据所述第二预设数量、所述第一采样点波形信息、所述第一波形均值、所述第二采样点波形信息及所述第二波形均值,计算所述当前声波片段与对应的第二声波片段之间的协方差。
优选地,所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度之前,所述方法还包括:
判断所述第一波形方差和所述第二波形方差是否不等于零,所述协方差的绝对值是否小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积;
在所述第一波形方差和所述第二波形方差都不等于零且所述协方差的绝对值小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积时,执行所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度的步骤。
此外,为实现上述目的,本发明还提出一种识别伪立体声音频的装置,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的识别伪立体声音频程序,所述识别伪立体声音频程序配置为实现如上文所述识别伪立体声音频的方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有识别伪立体声音频程序,所述识别伪立体声音频程序被处理器执行时实现如上文所述的识别伪立体声音频的方法的步骤。
本发明通过获取当前音频的左声道波形信息和右声道波形信息;将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;计算各第一声波片段与对应的第二声波片段之间的第一相关度;根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;根据所述第二相关度判断所述当前音频是否为伪立体声音频,从而在保证判断的准确率的同时增加了可识别的伪立体声音频的数量。
附图说明
图1为本发明一种识别伪立体声音频的方法实施例方案涉及的硬件运行环境的识别伪立体声音频的装置结构示意图;
图2为本发明一种识别伪立体声音频的方法第一实施例的流程示意图;
图3为本发明一种识别伪立体声音频的方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的识别伪立体声音频的装置结构示意图。
如图1所示,该识别伪立体声音频的装置可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对识别伪立体声音频的装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及识别伪立体声音频程序。
在图1所示的识别伪立体声音频的装置中,网络接口1004主要用于连接服务器,与服务器进行数据通信;用户接口1003主要用于接收用户输入的指令,所述识别伪立体声音频的装置通过处理器1001调用存储器1005中存储的识别伪立体声音频程序,并执行以下操作:
获取当前音频的左声道波形信息和右声道波形信息;
将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;
将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;
计算各第一声波片段与对应的第二声波片段之间的第一相关度;
根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;
根据所述第二相关度判断所述当前音频是否为伪立体声音频。
进一步地,处理器1001可以调用存储器1005中存储的识别伪立体声音频程序,还执行以下操作:
计算所述第一相关度的平均值,将所述平均值的绝对值作为所述第二相关度。
进一步地,处理器1001可以调用存储器1005中存储的识别伪立体声音频程序,还执行以下操作:
判断所述第二相关度是否大于预设阈值,在所述第二相关度大于所述预设阈值时,认定所述当前音频为伪立体声音频。
进一步地,处理器1001可以调用存储器1005中存储的识别伪立体声音频程序,还执行以下操作:
对所述第一声波片段进行遍历,将遍历到的第一声波片段作为当前声波片段;
计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
进一步地,处理器1001可以调用存储器1005中存储的识别伪立体声音频程序,还执行以下操作:
对所述当前声波片段进行采样,获得第二预设数量的第一采样点波形信息;
对与所述当前声波片段对应的第二声波片段进行采样,获得所述第二预设数量的第二采样点波形信息;
根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
进一步地,处理器1001可以调用存储器1005中存储的识别伪立体声音频程序,还执行以下操作:
根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差;
根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
进一步地,处理器1001可以调用存储器1005中存储的识别伪立体声音频程序,还执行以下操作:
根据所述第二预设数量及所述第一采样点波形信息,计算所述当前声波片段的第一波形均值;
根据所述第二预设数量及所述第二采样点波形信息,计算所述对应的第二声波片段的第二波形均值;
根据所述第二预设数量、所述第一采样点波形信息及所述第一波形均值,计算所述当前声波片段的第一波形方差;
根据所述第二预设数量、所述第二采样点波形信息及所述第二波形均值,计算所述对应的第二声波片段的第二波形方差;
根据所述第二预设数量、所述第一采样点波形信息、所述第一波形均值、所述第二采样点波形信息及所述第二波形均值,计算所述当前声波片段与对应的第二声波片段之间的协方差。
进一步地,处理器1001可以调用存储器1005中存储的识别伪立体声音频程序,还执行以下操作:
判断所述第一波形方差和所述第二波形方差是否不等于零,所述协方差的绝对值是否小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积;
在所述第一波形方差和所述第二波形方差都不等于零且所述协方差的绝对值小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积时,执行所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度的步骤。
本实施例上述方案,通过获取当前音频的左声道波形信息和右声道波形信息;将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;计算各第一声波片段与对应的第二声波片段之间的第一相关度;根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;根据所述第二相关度判断所述当前音频是否为伪立体声音频,从而在保证判断的准确率的同时增加了可识别的伪立体声音频的数量。
基于上述硬件结构,提出本发明一种识别伪立体声音频的方法第一实施例。
参照图2,提出本发明一种识别伪立体声音频的方法实施例。
在本实施例中,所述识别伪立体声音频的方法包括以下步骤:
步骤S10,获取当前音频的左声道波形信息和右声道波形信息;
应理解的是,通常歌曲音频都是双声道音频,利用左右声道的信息差异使得歌曲听起来有立体感。有些音频虽然是双声道音频,但是听起来却干巴巴的完全没有立体感,这就是所谓的伪立体声音频,要如何识别出伪立体声音频,就需通过左右声道的波形信息来判断,所以首先要获取音频的左声道的波形信息和右声道的波形信息。
步骤S20,将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;
可理解的是,所述预设划分规则可以是预选设置每一段的长度,对所述左声道波形信息进行划分,还可以是根据所述左声道波形信息的长度,对所述左声道波形信息进行均分,还可以是其他划分规则,本实施例对此不加以限制。
例如:假设获取的当前音频的左声道和右声道的波形信息的长度为L,以窗口长度W将所述左声道的波形信息进行均分,获得W/L个声波片段,即所述第一预设数量为W/L,均分获得的声波片段即所述第一声波片段。
步骤S30,将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;
应理解的是,所述预设划分规则可以是预选设置每一段的长度,对所述右声道波形信息进行划分,还可以是根据所述右声道波形信息的长度,对所述右声道波形信息进行均分,还可以是其他划分规则,本实施例对此不加以限制。
比如:假设获取的当前音频的左声道和右声道的波形信息的长度为L,以窗口长度W将所述右声道的波形信息进行均分,获得W/L个声波片段,即所述第一预设数量为W/L,均分获得的声波片段即所述第二声波片段。
步骤S40,计算各第一声波片段与对应的第二声波片段之间的第一相关度;
可理解的是,需要计算每一段第一声波片段与对应的第二声波片段之间的第一相关度,才能通过多个所述第一相关度计算出左声道波形信息和右声道波形信息之间的相关度。假设获取的当前音频的左声道和右声道的波形信息的长度为L,以窗口长度W将所述左声道的波形信息进行均分,获得m(m=W/L)个声波片段,即所述第一预设数量为m(m=W/L),均分获得的声波片段即所述第一声波片段;以窗口长度W将所述右声道的波形信息进行均分,获得m(m=W/L)个声波片段,即所述第一预设数量为m(m=W/L),均分获得的声波片段即所述第二声波片段。左声道波形信息中的每一个第一声波片段,在右声道波形信息中对应位置都有一个对应的第二声波片段,通过计算第一声波片段与对应的第二声波片段的第一相关度,可进一步获得左声道波形信息与由声道波形信息的相关度。例如:左声道波形信息按顺序被均分为x1、x3、x5、......、x2m-1共m个第一声波片段,右声道波形信息按顺序被均分为x2、x4、x6、......、x2m共m个第二声波片段,则分别计算x1与x2之间的第一相关度,x3与x4之间的第一相关度,x5与x6之间的第一相关度,......,x2m-1与x2m之间的第一相关度。
步骤S50,根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;
应理解的是,所述第一相关度是所述第一声波片段与所述第二声波片段之间的相关度,而当前音频是否为伪立体声,需根据左声道波形信息与右声道波形信息之间的相关度进行判断,则再根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度。
需要说明的是,计算的各第一声波片段与对应的第二声波片段之间的各第一相关度的平均值,可反映所述左声道波形信息和右声道波形信息之间的第二相关度,计算的第一相关度有可能会出现负值,但实际判断时只需考虑偏离的程度,则可对计算出的第一相关度的平均值取绝对值,本实施例中,所述根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度,具体包括:计算所述第一相关度的平均值,将所述平均值的绝对值作为所述第二相关度。
步骤S60,根据所述第二相关度判断所述当前音频是否为伪立体声音频。
可理解的是,计算出左声道波形信息和右声道波形信息之间的第二相关度,则可根据所述第二相关度来判断所述当前音频是否为伪立体声,在左声道波形信息和右声道波形信息越接近,也就是所述第二相关度越接近1,则当前音频为伪立体声的可能性越大。根据实际测试情况可知,当所述第二相关度大于一定值时,可认定所述当前音频为伪立体声音频,故根据所述第二相关度可判断所述当前音频是否为伪立体声音频。
本实施例上述方案,通过获取当前音频的左声道波形信息和右声道波形信息;将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;计算各第一声波片段与对应的第二声波片段之间的第一相关度;根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;根据所述第二相关度判断所述当前音频是否为伪立体声音频,从而在保证判断的准确率的同时增加了可识别的伪立体声音频的数量。
进一步地,如图3所示,基于第一实施例提出本发明一种识别伪立体声音频的方法第二实施例。
本实施例中,所述步骤S40,具体包括:
步骤S401,对所述第一声波片段进行遍历,将遍历到的第一声波片段作为当前声波片段;
可理解的是,假设左声道波形信息和右声道波形信息分别被均分成m段,即所述第一声波片段与对应的第二声波片段形分别为m段,遍历各第一声波片段,获取遍历到的一个第一声波片段,作为当前声波片段,获取与遍历到的第一声波片段对应的第二声波片段,计算所述当前声波片段与所述对应的第二声波片段之间的第一相关度。直至遍历所有m段的第一声波片段,计算完成所有第一声波片段与对应的第二声波片段之间的第一相关度,获得m个第一相关度。
步骤S402,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
需要说明的是,为了准确计算出各第一声波片段与对应的第二声波片段之间的第一相关度,本实施例中,所述计算所述当前声波片段与对应的第二声波片段之间的第一相关度,具体包括:对所述当前声波片段进行采样,获得第二预设数量的第一采样点波形信息;对与所述当前声波片段对应的第二声波片段进行采样,获得所述第二预设数量的第二采样点波形信息;根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
可理解的是,所述当前声波片段与对应的第二声波片段之间的第一相关度可通过各个时刻的波形信息来体现,将所述当前声波片段与对应的第二声波片段进行采样,为了充分采样出声波片段的波形信息,将一个声波片段进行第二预设数量的采样,例如:所述第二预设数量可取值为1024个,即对所述当前声波片段进行1024个第一采样点的采样,获得当前声波片段的1024个采样点波形信息;对所述对应的第二声波片段进行1024个采样点的采样,获得对应的第二声波片段的1024个第二采样点波形信息。当然,所述第二预设数量还可以取其他的值,可根据实际计算准确度来进行相应的调整,本实施例对此不加以限制。根据获得的各采样点波形信息,则可计算出所述当前声波片段与所述对应的第二声波片段之间的第一相关度。
应理解的是,方差用来表示每一个采样点波形信息与相应的波形片段的各采样点波形信息的均值之间的差异,协方差用于衡量第一声波片段与第二声波片段的总体误差,则可通过当前声波片段的方差、对应的第二声波片段的方差及当前声波片段和对应的第二声波片段之间的协方差来计算所述第一相关度,本实施例中,所述根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度,具体包括:根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差;根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
需要说明的是,方差用来表示每一个采样点波形信息与相应的波形片段的各采样点波形信息的均值之间的差异,协方差用于衡量第一声波片段与第二声波片段的总体误差,所以,要计算方差或协方差,首先要计算均值,本实施例中,所述根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差,具体包括:根据所述第二预设数量及所述第一采样点波形信息,计算所述当前声波片段的第一波形均值;根据所述第二预设数量及所述第二采样点波形信息,计算所述对应的第二声波片段的第二波形均值;根据所述第二预设数量、所述第一采样点波形信息及所述第一波形均值,计算所述当前声波片段的第一波形方差;根据所述第二预设数量、所述第二采样点波形信息及所述第二波形均值,计算所述对应的第二声波片段的第二波形方差;根据所述第二预设数量、所述第一采样点波形信息、所述第一波形均值、所述第二采样点波形信息及所述第二波形均值,计算所述当前声波片段与对应的第二声波片段之间的协方差。
可理解的是,通常相关度是大于等于-1且小于等于1的数,当出现异常情况时,不进行所述第一相关度的计算,本实施例中,所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度之前,所述方法还包括:判断所述第一波形方差和所述第二波形方差是否不等于零,所述协方差的绝对值是否小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积;在所述第一波形方差和所述第二波形方差都不等于零且所述协方差的绝对值小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积时,执行所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度的步骤。
例如:假设所述当前声波片段为x1,所述对应的第二声波片段为x2,对所述当前声波片段和所述对应的第二声波片段进行采样,采样点数量W为1024个,则所述当前声波片段的1024个第一采样点波形信息用x1i(i=1,2,3,...,1023,1024)表示,所述对应的第二声波片段的1024个第二采样点波形信息用x2i(i=1,2,3,...,1023,1024)表示。W也就是是窗口长度,以W的窗口长度对左声道波形片段进行均分,获得m个第一声波片段,以W的窗口长度对右声道波形片段进行均分,获得m个第二声波片段。计算当前声波片段x1与对应的第二声波片段x2的均值μ1与μ2的计算公式为:
再分别计算出当前声波片段x1的第一波形方差Cxx、对应的第二声波片段x2的第二波形方差Cyy以及当前声波片段x1与对应的第二声波片段x2之间的协方差Cxy的计算公式为:
再根据计算出的当前声波片段x1的第一波形方差Cxx、对应的第二声波片段x2的第二波形方差Cyy以及当前声波片段x1和对应的第二声波片段x2之间的协方差Cxy,计算当前声波片段x1与对应的第二声波片段x2的之间的第一相关度R1为:
通过如上所述的计算公式,可计算出各第一声波片段与对应的第二声波片段之间的第一相关度:Ri(i=1,2,3,...,N),所述N为各第一声波片段与对应的第二声波片段之间的第一相关度的个数,但当遍历到的当前声波片段与对应的第二声波片段不满足Cxx≠0,条件时,不计算所述第一相关度Ri,故所述N小于等于所述m,将计算获得的所有第一相关度求平均值,将所述平均值的绝对值作为所述第二相关度Rc,则Rc的计算公式为为:
则,根据通过上述计算公式获得的第二相关度,可判断所述当前音频是否为立体声音频。
本实施例中,所述步骤S60,具体包括:
步骤S601,判断所述第二相关度是否大于预设阈值,在所述第二相关度大于所述预设阈值时,认定所述当前音频为伪立体声音频。
需要说明的是,所述预设阈值为保证判断的准确率的前提下而设置的,例如所述预设阈值可为0.98,也就是说,在所述第二相关度大于0.98时,认定所述当前音频时伪立体声音频。在保证准确率的前提下,所述预设阈值可做适当调整,例如还可取值为0.95或0.9等,可根据实际情况而定,本实施例对此不加以限定。
本实施例上述方案,通过对所述第一声波片段进行遍历,将遍历到的第一声波片段作为当前声波片段,计算所述当前声波片段与对应的第二声波片段之间的第一相关度,从而能够通过所述第一相关度准确的计算出左声道波形信息与右声道波形信息之间的第二相关度;在所述第二相关度大于所述预设阈值时,认定所述当前音频为伪立体声音频,所述预设阈值为通过多次验证而设置的,在保证判断的准确性的前提下,提高了可识别的伪立体声音频的数量。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有识别伪立体声音频程序,所述识别伪立体声音频程序被处理器执行时实现如下操作:
获取当前音频的左声道波形信息和右声道波形信息;
将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;
将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;
计算各第一声波片段与对应的第二声波片段之间的第一相关度;
根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;
根据所述第二相关度判断所述当前音频是否为伪立体声音频。
进一步地,所述识别伪立体声音频程序被处理器执行时还实现如下操作:
计算所述第一相关度的平均值,将所述平均值的绝对值作为所述第二相关度。
进一步地,所述识别伪立体声音频程序被处理器执行时还实现如下操作:
判断所述第二相关度是否大于预设阈值,在所述第二相关度大于所述预设阈值时,认定所述当前音频为伪立体声音频。
进一步地,所述识别伪立体声音频程序被处理器执行时还实现如下操作:
对所述第一声波片段进行遍历,将遍历到的第一声波片段作为当前声波片段;
计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
进一步地,所述识别伪立体声音频程序被处理器执行时还实现如下操作:
对所述当前声波片段进行采样,获得第二预设数量的第一采样点波形信息;
对与所述当前声波片段对应的第二声波片段进行采样,获得所述第二预设数量的第二采样点波形信息;
根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
进一步地,所述识别伪立体声音频程序被处理器执行时还实现如下操作:
根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差;
根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
进一步地,所述识别伪立体声音频程序被处理器执行时还实现如下操作:
根据所述第二预设数量及所述第一采样点波形信息,计算所述当前声波片段的第一波形均值;
根据所述第二预设数量及所述第二采样点波形信息,计算所述对应的第二声波片段的第二波形均值;
根据所述第二预设数量、所述第一采样点波形信息及所述第一波形均值,计算所述当前声波片段的第一波形方差;
根据所述第二预设数量、所述第二采样点波形信息及所述第二波形均值,计算所述对应的第二声波片段的第二波形方差;
根据所述第二预设数量、所述第一采样点波形信息、所述第一波形均值、所述第二采样点波形信息及所述第二波形均值,计算所述当前声波片段与对应的第二声波片段之间的协方差。
进一步地,所述识别伪立体声音频程序被处理器执行时还实现如下操作:
判断所述第一波形方差和所述第二波形方差是否不等于零,所述协方差的绝对值是否小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积;
在所述第一波形方差和所述第二波形方差都不等于零且所述协方差的绝对值小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积时,执行所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度的步骤。
本实施例上述方案,通过获取当前音频的左声道波形信息和右声道波形信息;将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;计算各第一声波片段与对应的第二声波片段之间的第一相关度;根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;根据所述第二相关度判断所述当前音频是否为伪立体声音频,从而在保证判断的准确率的同时增加了可识别的伪立体声音频的数量。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本文中,单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图信息所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种识别伪立体声音频的方法,其特征在于,所述方法包括以下步骤:
获取当前音频的左声道波形信息和右声道波形信息;
将所述左声道波形信息按照预设划分规则分成第一预设数量的第一声波片段;
将所述右声道波形信息按照所述预设划分规则分成所述第一预设数量的第二声波片段;
计算各第一声波片段与对应的第二声波片段之间的第一相关度;
根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度;
根据所述第二相关度判断所述当前音频是否为伪立体声音频。
2.如权利要求1所述识别伪立体声音频的方法,其特征在于,所述根据所述第一相关度计算所述左声道波形信息和右声道波形信息之间的第二相关度,具体包括:
计算所述第一相关度的平均值,将所述平均值的绝对值作为所述第二相关度。
3.如权利要求1或2所述识别伪立体声音频的方法,其特征在于,所述根据所述第二相关度判断所述当前音频是否为伪立体声音频,具体包括:
判断所述第二相关度是否大于预设阈值,在所述第二相关度大于所述预设阈值时,认定所述当前音频为伪立体声音频。
4.如权利要求1或2所述识别伪立体声音频的方法,其特征在于,所述计算各第一声波片段与对应的第二声波片段之间的第一相关度,具体包括:
对所述第一声波片段进行遍历,将遍历到的第一声波片段作为当前声波片段;
计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
5.如权利要求4所述识别伪立体声音频的方法,其特征在于,所述计算所述当前声波片段与对应的第二声波片段之间的第一相关度,具体包括:
对所述当前声波片段进行采样,获得第二预设数量的第一采样点波形信息;
对与所述当前声波片段对应的第二声波片段进行采样,获得所述第二预设数量的第二采样点波形信息;
根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
6.如权利要求4所述识别伪立体声音频的方法,其特征在于,所述根据所述第二预设数量、所述第一采样点波形信息与所述第二采样点波形信息,计算所述当前声波片段与对应的第二声波片段之间的第一相关度,具体包括:
根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差;
根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度。
7.如权利要求6所述识别伪立体声音频的方法,其特征在于,所述根据所述第二预设数量、所述第一采样点波形信息及所述第二采样点波形信息,计算所述当前声波片段的第一波形方差、所述对应的第二声波片段的第二波形方差及所述当前声波片段与对应的第二声波片段之间的协方差,具体包括:
根据所述第二预设数量及所述第一采样点波形信息,计算所述当前声波片段的第一波形均值;
根据所述第二预设数量及所述第二采样点波形信息,计算所述对应的第二声波片段的第二波形均值;
根据所述第二预设数量、所述第一采样点波形信息及所述第一波形均值,计算所述当前声波片段的第一波形方差;
根据所述第二预设数量、所述第二采样点波形信息及所述第二波形均值,计算所述对应的第二声波片段的第二波形方差;
根据所述第二预设数量、所述第一采样点波形信息、所述第一波形均值、所述第二采样点波形信息及所述第二波形均值,计算所述当前声波片段与对应的第二声波片段之间的协方差。
8.如权利要求6所述识别伪立体声音频的方法,其特征在于,所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度之前,所述方法还包括:
判断所述第一波形方差和所述第二波形方差是否不等于零,所述协方差的绝对值是否小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积;
在所述第一波形方差和所述第二波形方差都不等于零且所述协方差的绝对值小于等于所述第一波形方差的开方与所述第二波形方差的开方的乘积时,执行所述根据所述第一波形方差、所述第二波形方差及所述协方差,计算所述当前声波片段与对应的第二声波片段之间的第一相关度的步骤。
9.一种识别伪立体声音频的装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的识别伪立体声音频程序,所述识别伪立体声音频程序配置为实现如权利要求1至8中任一项所述的识别伪立体声音频的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有识别伪立体声音频程序,所述识别伪立体声音频程序被处理器执行时实现如权利要求1至8中任一项所述的识别伪立体声音频的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710721409.6A CN107659888A (zh) | 2017-08-21 | 2017-08-21 | 识别伪立体声音频的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710721409.6A CN107659888A (zh) | 2017-08-21 | 2017-08-21 | 识别伪立体声音频的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107659888A true CN107659888A (zh) | 2018-02-02 |
Family
ID=61128644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710721409.6A Pending CN107659888A (zh) | 2017-08-21 | 2017-08-21 | 识别伪立体声音频的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107659888A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962268A (zh) * | 2018-07-26 | 2018-12-07 | 广州酷狗计算机科技有限公司 | 确定单声道的音频的方法和装置 |
CN110232931A (zh) * | 2019-06-18 | 2019-09-13 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置、计算设备及存储介质 |
CN113903343A (zh) * | 2021-11-01 | 2022-01-07 | 航天信息股份有限公司 | 语音认证方法及其装置、存储介质、电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT338011B (de) * | 1975-09-30 | 1977-07-25 | Akg Akustische Kino Geraete | Anordnung zur drahtlosen ubertragung von niederfrequenzsignalen |
JPS6419848A (en) * | 1987-07-14 | 1989-01-23 | Clarion Co Ltd | False stereo signal processor for am receiver |
CN1926608A (zh) * | 2004-03-01 | 2007-03-07 | 弗兰霍菲尔运输应用研究公司 | 多声道信号处理设备和方法 |
CN101518100A (zh) * | 2006-09-14 | 2009-08-26 | Lg电子株式会社 | 对话增强技术 |
CN102484763A (zh) * | 2009-07-22 | 2012-05-30 | 斯托明瑞士有限责任公司 | 用于优化立体声或伪立体声音频信号的设备和方法 |
CN102687432A (zh) * | 2010-02-15 | 2012-09-19 | 三菱电机株式会社 | Fm广播接收装置 |
CN104021151A (zh) * | 2014-05-19 | 2014-09-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104050964A (zh) * | 2014-06-17 | 2014-09-17 | 公安部第三研究所 | 音频信号还原度检测方法及系统 |
CN104982042A (zh) * | 2013-04-19 | 2015-10-14 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN106302905A (zh) * | 2016-07-29 | 2017-01-04 | 努比亚技术有限公司 | 麦克风模式切换方法及移动终端 |
CN106328168A (zh) * | 2016-08-30 | 2017-01-11 | 成都普创通信技术股份有限公司 | 一种语音信号相似度检测方法 |
-
2017
- 2017-08-21 CN CN201710721409.6A patent/CN107659888A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT338011B (de) * | 1975-09-30 | 1977-07-25 | Akg Akustische Kino Geraete | Anordnung zur drahtlosen ubertragung von niederfrequenzsignalen |
JPS6419848A (en) * | 1987-07-14 | 1989-01-23 | Clarion Co Ltd | False stereo signal processor for am receiver |
CN1926608A (zh) * | 2004-03-01 | 2007-03-07 | 弗兰霍菲尔运输应用研究公司 | 多声道信号处理设备和方法 |
CN101518100A (zh) * | 2006-09-14 | 2009-08-26 | Lg电子株式会社 | 对话增强技术 |
CN102484763A (zh) * | 2009-07-22 | 2012-05-30 | 斯托明瑞士有限责任公司 | 用于优化立体声或伪立体声音频信号的设备和方法 |
CN102687432A (zh) * | 2010-02-15 | 2012-09-19 | 三菱电机株式会社 | Fm广播接收装置 |
CN104982042A (zh) * | 2013-04-19 | 2015-10-14 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN104021151A (zh) * | 2014-05-19 | 2014-09-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104050964A (zh) * | 2014-06-17 | 2014-09-17 | 公安部第三研究所 | 音频信号还原度检测方法及系统 |
CN106302905A (zh) * | 2016-07-29 | 2017-01-04 | 努比亚技术有限公司 | 麦克风模式切换方法及移动终端 |
CN106328168A (zh) * | 2016-08-30 | 2017-01-11 | 成都普创通信技术股份有限公司 | 一种语音信号相似度检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962268A (zh) * | 2018-07-26 | 2018-12-07 | 广州酷狗计算机科技有限公司 | 确定单声道的音频的方法和装置 |
CN110232931A (zh) * | 2019-06-18 | 2019-09-13 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置、计算设备及存储介质 |
CN110232931B (zh) * | 2019-06-18 | 2022-03-22 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置、计算设备及存储介质 |
CN113903343A (zh) * | 2021-11-01 | 2022-01-07 | 航天信息股份有限公司 | 语音认证方法及其装置、存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10038967B2 (en) | Augmented reality headphone environment rendering | |
US8768496B2 (en) | Method for selecting perceptually optimal HRTF filters in a database according to morphological parameters | |
Stitt et al. | Auditory accommodation to poorly matched non-individual spectral localization cues through active learning | |
CN105578379B (zh) | 用于产生具有至少两个输出通道的输出信号的装置和方法 | |
JP2019518373A (ja) | 没入型オーディオ再生システム | |
Geronazzo et al. | Do we need individual head-related transfer functions for vertical localization? The case study of a spectral notch distance metric | |
CN112017687B (zh) | 一种骨传导设备的语音处理方法、装置及介质 | |
CN103563402A (zh) | 基于盲源分离的空间滤波 | |
CN105723459B (zh) | 用于改进声频信号的感知的设备和方法 | |
CN107659888A (zh) | 识别伪立体声音频的方法、装置及存储介质 | |
US9936328B2 (en) | Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program | |
CN109032470A (zh) | 截图方法、装置、终端及计算机可读存储介质 | |
CN110544532A (zh) | 一种基于app的声源空间定位能力检测系统 | |
CN108966113A (zh) | 基于角度的声场重建方法、音频设备、存储介质及装置 | |
JP2024096996A (ja) | 頭部伝達関数を生成するシステム及び方法 | |
Poirier-Quinot et al. | On the improvement of accommodation to non-individual HRTFs via VR active learning and inclusion of a 3D room response | |
CN116721670A (zh) | 分段音频信号的滤波方法、装置、设备及存储介质 | |
US10743128B1 (en) | System and method for generating head-related transfer function | |
CN108111908A (zh) | 音频品质确定方法、设备及计算机可读存储介质 | |
WO2022006806A1 (zh) | 双声道设备的立体声效果检测方法 | |
Otani et al. | Auditory artifacts due to switching head-related transfer functions of a dynamic virtual auditory display | |
Xu et al. | Identification of anthropometric measurements for individualization of head-related transfer functions | |
EP4408030A1 (en) | Apparatus and methods for communication audio grouping and positioning | |
EP4135349A1 (en) | Immersive sound reproduction using multiple transducers | |
Voong et al. | Influence of individual HRTF preference on localization accuracy–a comparison between regular and bone conducting headphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 510000 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17 Applicant after: Guangzhou KuGou Networks Co., Ltd. Address before: 510000 Guangzhou City, Guangzhou, Guangdong Province, Tianhe District Ke Yun Road, No. 16 self compiled 2 rooms (the residence limit for this residence) Applicant before: Guangzhou KuGou Networks Co., Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |