CN107689228B - 一种信息处理方法及终端 - Google Patents
一种信息处理方法及终端 Download PDFInfo
- Publication number
- CN107689228B CN107689228B CN201610632872.9A CN201610632872A CN107689228B CN 107689228 B CN107689228 B CN 107689228B CN 201610632872 A CN201610632872 A CN 201610632872A CN 107689228 B CN107689228 B CN 107689228B
- Authority
- CN
- China
- Prior art keywords
- signal
- value
- frame
- signals
- echo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 14
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 70
- 238000001914 filtration Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000005540 biological transmission Effects 0.000 claims abstract description 12
- 230000002452 interceptive effect Effects 0.000 claims abstract description 3
- 238000001228 spectrum Methods 0.000 claims description 98
- 238000000605 extraction Methods 0.000 claims description 62
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000005070 sampling Methods 0.000 claims description 32
- 238000005314 correlation function Methods 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000009825 accumulation Methods 0.000 claims description 12
- 230000002238 attenuated effect Effects 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 36
- 238000010295 mobile communication Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 21
- 230000003595 spectral effect Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 230000000644 propagated effect Effects 0.000 description 8
- 230000001629 suppression Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种信息处理方法及终端,其中,所述方法包括:将从远端获取的参考信号通过语音播放单元进行播放,所述参考信号为多帧第一信号;采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号;对所述多帧第一信号进行预处理,得到多帧第一信号的特征值;对所述多帧第二信号进行预处理,得到多帧第二信号的特征值;对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数;根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
Description
技术领域
本发明涉及通信技术,尤其涉及一种信息处理方法及终端。
背景技术
随着互联网技术的发展,信息交互的方式多种多样。智能终端的易用性,功能完善使得其在信息交互中起到越来越重要的作用。语音功能是智能终端中的一项重要功能,比如,语音识别、语音通话、录音等等,都是用户日常常用的功能。然而,声音在传播的过程中是有损耗的,会有噪声干扰等等问题,会影响到实现上述语音功能的语音音质重放或精确识别的处理效果。
为了解决这些问题,引入了回声时延检测技术,回声时延检测技术是声学回声消除算法的预处理环节,在回声消除处理前,先计算参考信号(扬声器播放的信号)与其采集得到的回声信号或称采集信号(麦克风采集的信号)间的时间差,即回声时延,以便后续根据该回声时延来进行自适应滤波回声消除及非线性回声抑制处理,从而提高语音功能的上述处理效果。然而,相关技术中,计算回声时延的方法,由于是对当前帧信号的处理,当前帧信号并不能全面评估出整体的声音变化状态,导致计算精确度并不高。目前,对于这个问题,尚无有效解决方案。
发明内容
有鉴于此,本发明实施例提供了一种信息处理方法及终端,至少解决了现有技术存在的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例的一种信息处理方法,所述方法包括:
将从远端获取的参考信号通过语音播放单元进行播放,所述参考信号为多帧第一信号;
采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号;
对所述多帧第一信号进行预处理,得到多帧第一信号的特征值;
对所述多帧第二信号进行预处理,得到多帧第二信号的特征值;
对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数;
根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
上述方案中,对所述多帧第一信号进行预处理,得到多帧第一信号的特征值,包括:
按照预处理策略,对所述多帧第一信号进行快速傅立叶变换fft后进行特征提取处理。
上述方案中,对所述多帧第一信号进行fft后进行特征提取处理包括:
获取对所述多帧第一信号进行fft变换得到的第一fft参数;
获取第一采样频率值;
根据所述第一fft参数、所述第一采样频率值、第一频点参数值得到各帧第一信号对应的第一功率谱并进行提取;
根据各帧第一信号对应的第一功率谱得到第一功率谱的平滑值并进行提取。
上述方案中,所述方法还包括:
将提取的所述各帧第一信号对应的第一功率谱与提取的所述第一功率谱的平滑值进行数据二值化处理;
如果所述各帧第一信号对应的第一功率谱大于所述第一功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第一信号的二值化数据;
对所述对应各帧第一信号的二值化数据进行多帧合并,得到多帧第一信号的二值数据合并值,将所述多帧第一信号的二值数据合并值确定为所述多帧第一信号的特征值。
上述方案中,对所述多帧第二信号进行预处理,得到多帧第二信号的特征值,包括:
按照预处理策略,对所述多帧第二信号进行fft后进行特征提取处理。
上述方案中,对所述多帧第二信号进行fft后进行特征提取处理包括:
获取对所述多帧第二信号进行fft变换得到的第二fft参数;
获取第二采样频率值;
根据所述第二fft参数、所述第二采样频率值、第二频点参数值得到各帧第二信号对应的第二功率谱并进行提取;
根据各帧第二信号对应的第二功率谱得到第二功率谱的平滑值并进行提取。
上述方案中,所述方法还包括:
将提取的所述各帧第二信号对应的第二功率谱与提取的所述第二功率谱的平滑值进行数据二值化处理;
如果所述各帧第二信号对应的第二功率谱大于所述第二功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第二信号的二值化数据;
对所述对应各帧第二信号的二值化数据进行多帧合并,得到多帧第二信号的二值数据合并值,将所述多帧第二信号的二值数据合并值确定为所述多帧第二信号的特征值。
上述方案中,对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数,包括:
从缓存中提取出所述多帧第一信号的特征值,将所述多帧第一信号的特征值与所述多帧第二信号的特征值进行异或累加处理,得到互相关函数,将所述互相关函数作为用于描述信号相关度特征的所述互相关参数。
上述方案中,根据所述互相关参数进行跟踪滤波运算,得到滤波结果,将所述滤波结果作为回声时延值,包括:
根据所述互相关参数和滤波系数进行加权平滑处理,得到滤波结果;
所述滤波结果中包含多个数值,从所述多个数值中根据最小原则选出候选时延值;
如果候选时延值符合经验值,则将符合经验值的候选时延值作为所述回声时延值。
本发明实施例的一种终端,所述终端包括:
语音播放单元,用于将从远端获取的参考信号进行播放,所述参考信号为多帧第一信号;
语音采集单元,用于采集回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号;
第一预处理单元,用于对所述多帧第一信号进行预处理,得到多帧第一信号的特征值;
第二预处理单元,用于对所述多帧第二信号进行预处理,得到多帧第二信号的特征值;
相关度计算单元,用于对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数;
滤波及回声消除单元,用于根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
上述方案中,所述第一预处理单元,进一步用于:
按照预处理策略,对所述多帧第一信号进行快速傅立叶变换fft后进行特征提取处理。
上述方案中,所述第一预处理单元,进一步用于:
对所述多帧第一信号进行fft后进行特征提取处理包括:
获取对所述多帧第一信号进行fft变换得到的第一fft参数;
获取第一采样频率值;
根据所述第一fft参数、所述第一采样频率值、第一频点参数值得到各帧第一信号对应的第一功率谱并进行提取;
根据各帧第一信号对应的第一功率谱得到第一功率谱的平滑值并进行提取。
上述方案中,所述第一预处理单元,进一步用于:
将提取的所述各帧第一信号对应的第一功率谱与提取的所述第一功率谱的平滑值进行数据二值化处理;
如果所述各帧第一信号对应的第一功率谱大于所述第一功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第一信号的二值化数据;
对所述对应各帧第一信号的二值化数据进行多帧合并,得到多帧第一信号的二值数据合并值,将所述多帧第一信号的二值数据合并值确定为所述多帧第一信号的特征值。
上述方案中,所述第二预处理单元,进一步用于:
按照预处理策略,对所述多帧第二信号进行fft后进行特征提取处理。
上述方案中,所述第二预处理单元,进一步用于:
获取对所述多帧第二信号进行fft变换得到的第二fft参数;
获取第二采样频率值;
根据所述第二fft参数、所述第二采样频率值、第二频点参数值得到各帧第二信号对应的第二功率谱并进行提取;
根据各帧第二信号对应的第二功率谱得到第二功率谱的平滑值并进行提取。
上述方案中,所述终端还包括:二值化处理单元,用于:
将提取的所述各帧第二信号对应的第二功率谱与提取的所述第二功率谱的平滑值进行数据二值化处理;
如果所述各帧第二信号对应的第二功率谱大于所述第二功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第二信号的二值化数据;
对所述对应各帧第二信号的二值化数据进行多帧合并,得到多帧第二信号的二值数据合并值,将所述多帧第二信号的二值数据合并值确定为所述多帧第二信号的特征值。
上述方案中,所述相关度计算单元,进一步用于:
从缓存中提取出所述多帧第一信号的特征值,将所述多帧第一信号的特征值与所述多帧第二信号的特征值进行异或累加处理,得到互相关函数,将所述互相关函数作为用于描述信号相关度特征的所述互相关参数。
上述方案中,所述滤波及回声消除单元,进一步用于:
根据所述互相关参数和滤波系数进行加权平滑处理,得到滤波结果;
所述滤波结果中包含多个数值,从所述多个数值中根据最小原则选出候选时延值;
如果候选时延值符合经验值,则将符合经验值的候选时延值作为所述回声时延值。
本发明实施例的信息处理方法包括:将从远端获取的参考信号通过语音播放单元进行播放,所述参考信号为多帧第一信号;采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号,所述回声信号为多帧第二信号;对所述多帧第一信号进行预处理,得到多帧第一信号的特征值;对所述多帧第二信号进行预处理,得到多帧第二信号的特征值;对所述多帧第三信号和所述多帧第四信号进行互相关运算,得到互相关参数;根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
采用本发明实施例,参考信号和回声信号都是多帧信号,对二者进行预处理后,针对多帧的参考信号和多帧的回声信号进行互相关运算,由于是对相隔一定间隔的多帧信号的处理,从而能全面评估出整体的声音变化状态,提高回声时延值的计算精度。而回声时延值的计算精度提高了,随之回声消除的准确度也提高了,对于诸如语音识别、语音通话、录音等等语音功能的处理效果就会越来越好。
附图说明
图1为实现本发明各个实施例的移动终端一个可选的硬件结构示意图;
图2为如图1所示的移动终端的通信系统示意图;
图3为本发明实施例中终端执行处理逻辑的示意图;
图4为本发明实施例中服务器执行处理逻辑过程中与终端进行交互的各方硬件实体的示意图;
图5为本发明实施例一的实现流程示意图;
图6为本发明实施例二的实现流程示意图;
图7为本发明实施例三的实现流程示意图;
图8为应用本发明实施例四的终端组成结构示意图;
图9为应用本发明实施例一应用场景中回声消除算法的实现模块示意图;
图10为应用本发明实施例一应用场景中回声时延产生的相关环节实现流程图;
图11为现有回声时延的计算流程图;
图12为现有互相关计算的单帧结构示意图;
图13为现有回声时延的跟踪计算流程图;
图14为应用本发明实施例一应用场景中互相关计算的多帧结构示意图;
图15为应用本发明实施例一应用场景中回声时延的跟踪计算流程图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明实施例的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
在下面的详细说明中,陈述了众多的具体细节,以便彻底理解本发明。不过,对于本领域的普通技术人员来说,显然可在没有这些具体细节的情况下实践本发明。在其他情况下,没有详细说明公开的公知方法、过程、组件、电路和网络,以避免不必要地使实施例的各个方面模糊不清。
另外,本文中尽管多次采用术语“第一”、“第二”等来描述各种元件(或各种阈值或各种应用或各种指令或各种操作)等,不过这些元件(或阈值或应用或指令或操作)不应受这些术语的限制。这些术语只是用于区分一个元件(或阈值或应用或指令或操作)和另一个元件(或阈值或应用或指令或操作)。例如,第一操作可以被称为第二操作,第二操作也可以被称为第一操作,而不脱离本发明的范围,第一操作和第二操作都是操作,只是二者并不是相同的操作而已。
本发明实施例中的步骤并不一定是按照所描述的步骤顺序进行处理,可以按照需求有选择的将步骤打乱重排,或者删除实施例中的步骤,或者增加实施例中的步骤,本发明实施例中的步骤描述只是可选的顺序组合,并不代表本发明实施例的所有步骤顺序组合,实施例中的步骤顺序不能认为是对本发明的限制。
本发明实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是:当用在本说明书中时,“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。
本发明实施例的智能终端(如移动终端)可以以各种形式来实施。例如,本发明实施例中描述的移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA,Personal Digital Assistant)、平板电脑(PAD)、便携式多媒体播放器(PMP,Portable Media Player)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的移动终端一个可选的硬件结构示意图。
移动终端100可以包括通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、第一预处理单元140、第二预处理单元141、相关度计算单元142、滤波及回声消除单元143、输出单元150、显示单元151、存储单元160、接口单元170、处理单元180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。
通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信(如果将移动终端用固定终端代替,也可以通过有线方式进行电通信)。例如,通信单元具体为无线通信单元时可以包括广播接收单元111、移动通信单元112、无线互联网单元113、短程通信单元114和位置信息单元115中的至少一个,这些单元是可选的,根据不同需求可以增删。
广播接收单元111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且,广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供,并且在该情况下,广播相关信息可以由移动通信单元112来接收。广播信号可以以各种形式存在,例如,其可以以数字多媒体广播(DMB,Digital Multimedia Broadcasting)的电子节目指南(EPG,Electronic Program Guide)、数字视频广播手持(DVB-H,Digital Video Broadcasting-Handheld)的电子服务指南(ESG,Electronic Service Guide)等等的形式而存在。广播接收单元111可以通过使用各种类型的广播系统接收信号广播。特别地,广播接收单元111可以通过使用诸如多媒体广播-地面(DMB-T,Digital Multimedia Broadcasting-Terrestrial)、数字多媒体广播-卫星(DMB-S,Digital Multimedia Broadcasting-Satellite)、数字视频广播手持(DVB-H),前向链路媒体(MediaFLO,Media Forward Link Only)的数据广播系统、地面数字广播综合服务(ISDB-T,Integrated Services Digital Broadcasting-Terrestrial)等等的数字广播系统接收数字广播。广播接收单元111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收单元111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。
移动通信单元112将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网单元113支持移动终端的无线互联网接入。该单元可以内部或外部地耦接到终端。该单元所涉及的无线互联网接入技术可以包括无线局域网络(Wi-Fi,WLAN,Wireless Local Area Networks)、无线宽带(Wibro)、全球微波互联接入(Wimax)、高速下行链路分组接入(HSDPA,High Speed Downlink Packet Access)等等。
短程通信单元114是用于支持短程通信的单元。短程通信技术的一些示例包括蓝牙、射频识别(RFID,Radio Frequency Identification)、红外数据协会(IrDA,InfraredData Association)、超宽带(UWB,Ultra Wideband)、紫蜂等等。
位置信息单元115是用于检查或获取移动终端的位置信息的单元。位置信息单元的典型示例是全球定位系统(GPS,Global Positioning System)。根据当前的技术,GPS单元115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法,从而根据经度、纬度和高度准确地计算三维当前位置信息。当前,用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外,GPS单元115能够通过实时地连续计算当前位置信息来计算速度信息。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储单元160(或其它存储介质)中或者经由通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信单元112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、鼠标、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。
语音播放单元,也可以称为音频输出单元,如图1所示,音频输出单元152具体可以为扬声器,用于播放语音信号,所述语音信号作为参考信号进行传播,所述参考信号为多帧第一信号;语音采集单元,如图1所示,其一个具体实现为麦克风122,用于采集回声信号,所述回声信号为所述参考信号经传播过程中的衰减和/或噪音干扰后得到的信号,所述回声信号为多帧第二信号。如图1所示,第一预处理单元140,用于对所述多帧第一信号进行预处理,得到多帧第一信号的特征值;第二预处理单元141,用于对所述多帧第二信号进行预处理,得到多帧第二信号的特征值;相关度计算单元142,用于对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数;滤波及回声消除单元143,用于根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别单元的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别单元可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别单元(UIM,User Identify Module)、客户识别单元(SIM,Subscriber Identity Module)、通用客户识别单元(USIM,Universal SubscriberIdentity Module)等等。另外,具有识别单元的装置(下面称为"识别装置")可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。
另外,当移动终端100与外部底座连接时,接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出单元152等等。
显示单元151可以显示在移动终端100中处理的信息。例如,移动终端100可以显示相关用户界面(UI,User Interface)或图形用户界面(GUI,Graphical User Interface)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD,LiquidCrystal Display)、薄膜晶体管LCD(TFT-LCD,Thin Film Transistor-LCD)、有机发光二极管(OLED,Organic Light-Emitting Diode)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为透明有机发光二极管(TOLED)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出单元152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出单元152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元152可以包括扬声器、蜂鸣器等等。
存储单元160可以存储由处理单元180执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储单元160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储单元160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM,Random AccessMemory)、静态随机访问存储器(SRAM,Static Random Access Memory)、只读存储器(ROM,Read Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically ErasableProgrammable Read Only Memory)、可编程只读存储器(PROM,Programmable Read OnlyMemory)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储单元160的存储功能的网络存储装置协作。
处理单元180通常控制移动终端的总体操作。例如,处理单元180执行与语音通话、数据通信、视频通话等等相关的控制和处理。又如,处理单元180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元190在处理单元180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC,Application Specific Integrated Circuit)、数字信号处理器(DSP,DigitalSignal Processing)、数字信号处理装置(DSPD,Digital Signal Processing Device)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件单元来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。
至此,己经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明实施例的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA,Frequency Division Multiple Access)、时分多址(TDMA,Time Division Multiple Access)、码分多址(CDMA,Code Division MultipleAccess)和通用移动通信系统(UMTS,Universal Mobile Telecommunications System)(特别地,长期演进(LTE,Long Term Evolution))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS,BaseStation)270、基站控制器(BSC,Base Station Controller)275和移动交换中心(MSC,Mobile Switching Center)280。MSC280被构造为与公共电话交换网络(PSTN,PublicSwitched Telephone Network)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。
每个BS 270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS 270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS 270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS 270也可以被称为基站收发器子系统(BTS,Base Transceiver Station)或者其它等效术语。在这样的情况下,术语“基站”可以用于笼统地表示单个BSC275和至少一个BS 270。基站也可以被称为“蜂窝站”。或者,特定BS 270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT,Broadcast Transmitter)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收单元111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个卫星300,例如可以采用全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的位置信息单元115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS 270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS 270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS 270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS 270以将正向链路信号发送到移动终端100。
移动终端中通信单元110的移动通信单元112基于移动终端内置的接入移动通信网络(如2G/3G/4G等移动通信网络)的必要数据(包括用户识别信息和鉴权信息)接入移动通信网络为移动终端用户的网页浏览、网络多媒体播放等业务传输移动通信数据(包括上行的移动通信数据和下行的移动通信数据)。
通信单元110的无线互联网单元113通过运行无线热点的相关协议功能而实现无线热点的功能,无线热点支持多个移动终端(移动终端之外的任意移动终端)接入,通过复用移动通信单元112与移动通信网络之间的移动通信连接为移动终端用户的网页浏览、网络多媒体播放等业务传输移动通信数据(包括上行的移动通信数据和下行的移动通信数据),由于移动终端实质上是复用移动终端与通信网络之间的移动通信连接传输移动通信数据的,因此移动终端消耗的移动通信数据的流量由通信网络侧的计费实体计入移动终端的通信资费,从而消耗移动终端签约使用的通信资费中包括的移动通信数据的数据流量。
采用本发明实施例,其处理逻辑10可以由终端设备执行,即:由终端设备对多帧参考信号和多帧回声信号做互相关运算等具体处理逻辑,也可以由服务器执行,即:将终端播放的多帧参考信号和终端采集的多帧回声信号上报给服务器,由服务器对多帧参考信号和多帧回声信号做互相关运算等具体处理逻辑。处理逻辑10包括:S1、将通过语音播放单元播放的语音信号作为参考信号进行传播,所述参考信号为多帧第一信号;S2、采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经传播过程中的衰减和/或噪音干扰后得到的信号,所述回声信号为多帧第二信号;S3、对所述多帧第一信号进行预处理,得到多帧第三信号;S4、对所述多帧第二信号进行预处理,得到多帧第四信号;S5、对所述多帧第三信号和所述多帧第四信号进行互相关运算,得到互相关参数;S6、根据所述互相关参数进行跟踪滤波运算,得到滤波结果,将所述滤波结果作为回声时延值,在通话中采用所述回声时延值进行回声消除。
需要指出的是:由服务器执行的处理逻辑中,可以是针对终端上报的多帧参考信号和多帧采集信号进行处理,也可以是针对多帧参考信号提取特征后的特征结果和针对多帧采集信号提取特征后的特征结果进行处理。
图3为由终端设备对多帧参考信号和多帧回声信号做互相关运算等具体处理逻辑的示意图,图3中,包括终端设备21-24,任一个终端设备都可以执行该具体处理逻辑。图4为由服务器执行互相关运算等具体处理逻辑的示意图,涉及信息交互的各方硬件实体。图4中,包括终端设备21-24、服务器11、终端设备21-24通过有线网络或者无线网络与服务器进行信息交互,终端设备包括手机、台式机、PC机、一体机等类型。
采用本发明实施例,参考信号和回声信号都是多帧信号,对二者进行预处理后,针对多帧的参考信号和多帧的回声信号进行互相关运算,由于是对相隔一定间隔的多帧信号的处理,从而能全面评估出整体的声音变化状态,提高回声时延值的计算精度。而回声时延值的计算精度提高了,随之回声消除的准确度也提高了,对于诸如语音识别、语音通话、录音等等语音功能的处理效果就会越来越好。
上述图3-图4的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图3所述的系统结构,基于上述图1所述的移动终端100硬件结构、图2所述的通信系统及图3所述的系统架构,提出本发明方法各个实施例。
实施例一:
本发明实施例的一种信息处理方法,如图5所示,所述方法包括:
步骤101、将从远端获取的参考信号通过语音播放单元进行播放,所述参考信号为多帧第一信号。
这里,语音播放单元可以为扬声器,一个示例为将扬声器播放的语音信号作为参考信号进行传播,一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述参考信号,选取的是多帧信号,简称为多帧第一信号或多帧参考信号。
步骤102、采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号。
这里,语音采集单元可以为麦克风,一个示例为通过麦克风采集回声信号,所述回声信号为所述参考信号经传播过程中的衰减和/或噪音干扰后得到的信号。其中,相对于麦克风而言,由扬声器播放的参考信号可以称为远端信号,而由麦克风采集的回声信号(或称为采集信号)可以称为近端信号。
这里,本文中描述的“回声信号”,包括语音采集单元能采集到的所有声音信号,不仅限于回声信号,本文中的回声信号也可以称为采集信号。
一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述回声信号,选取的是多帧信号,简称为多帧第二信号或多帧回声信号。
步骤103、对所述多帧第一信号进行预处理,得到多帧第一信号的特征值。
这里,预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第一信号(或称为多帧参考信号)的特征值,以用于后续的互相关运算。
步骤104、对所述多帧第二信号进行预处理,得到多帧第二信号的特征值。
这里,预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第二信号(或称为多帧回声信号)的特征值,以用于后续的互相关运算。
步骤103和步骤104中进行特征提取的策略可以是相同的,也可以是不同的,在策略相同的情况下,只是针对的运算参数有所不同。
步骤105、对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数。
这里,进行互相关运算得到的互相关参数的一个示例为互相关函数,通过该互相关函数可以比对多帧参考信号和多帧回声信号所提取的特征值之间的相关性。本发明实施例是采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案。其中,远端指:扬声器播放端,近端指:麦克风采集端。一个示例为:近端使用间隔分别为D1(D1=10)和D2(D2=20)的三帧信号,当然也可以取大于3帧的信号,这里设计的间隔值在整个回声时延跟踪过程可以是固定不变的,好处是:可以后续与经验值进行比对,因为经验值是与固定间隔相关的,如果间隔不固定,经验值的选取就不一定精确。固定间隔是一种静态的选取方式,也可以是非固定间隔这种动态的选取方式,这种会使得差异性更大,更有利于避免信号比对的过于相似,从而使得回声时延值的计算更加准确,但是,经验值的选取会增加处理成本。
本发明实施例新增多帧二值数据的合并环节,互相关计算均以多帧合并值(多帧二值化数据)进行异或累加计算。
步骤106、根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
这里,通过上述步骤,在回声消除处理之前实现了精确的回声时延检测,从所述滤波结果中选取出符合经验值需求的目标值作为回声时延值。回声时延检测中,先计算参考信号(扬声器播放信号)与其回声信号的时间差,即回声时延,以便后续进行自适应滤波回声消除及非线性回声抑制处理。
采用本发明实施例,是采用采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案,而现有技术是将近端的一帧信号与远端的一帧信号做互相关统计,进而得到回声时延值,由于现有技术是仅用一帧信号对远端信号做对比,可能出现与远端连续多帧相邻帧的互相关值都是接近甚至相同值,太相似,所以,找不出区别,这样运算得到的互相关参数并不利用后续的回声消除。而采用本发明实施例,需要让其不要太相似,因此,采用多帧信号的处理,由于多帧信号有间隔,从而具备差异性,这样运算得到的互相关参数可以更好的进行后续的回声消除。
实施例二:
本发明实施例的一种信息处理方法,如图6所示,所述方法包括:
步骤201、将从远端获取的参考信号通过语音播放单元进行播放,所述参考信号为多帧第一信号。
这里,语音播放单元可以为扬声器,一个示例为将扬声器播放的语音信号作为参考信号进行传播,一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述参考信号,选取的是多帧信号,简称为多帧第一信号或多帧参考信号。
步骤202、采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号。
这里,语音采集单元可以为麦克风,一个示例为通过麦克风采集回声信号,所述回声信号为所述参考信号经传播过程中的衰减和/或噪音干扰后得到的信号。其中,相对于麦克风而言,由扬声器播放的参考信号可以称为远端信号,而由麦克风采集的回声信号(或称为采集信号)可以称为近端信号。
一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述回声信号,选取的是多帧信号,简称为多帧第二信号或多帧回声信号。
步骤203、按照预处理策略,对所述多帧第一信号进行fft后进行特征提取处理。
这里,预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第一信号(或称为多帧参考信号)的特征值,以用于后续的互相关运算。
本步骤的特征提取处理过程中,获取对所述多帧第一信号进行fft变换得到的第一fft参数;获取第一采样频率值;根据所述第一fft参数、所述第一采样频率值、第一频点参数值得到各帧第一信号对应的第一功率谱并进行提取;根据各帧第一信号对应的第一功率谱得到第一功率谱的平滑值并进行提取。
步骤204、按照预处理策略,对所述多帧第二信号进行fft后进行特征提取处理。
这里,预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第二信号(或称为多帧回声信号)的特征值,以用于后续的互相关运算。
本步骤的特征提取处理过程中,获取对所述多帧第二信号进行fft变换得到的第二fft参数;获取第二采样频率值;根据所述第二fft参数、所述第二采样频率值、第二频点参数值得到各帧第二信号对应的第二功率谱并进行提取;根据各帧第二信号对应的第二功率谱得到第二功率谱的平滑值并进行提取。
步骤203和步骤204中进行特征提取的策略可以是相同的,也可以是不同的,在策略相同的情况下,只是针对的运算参数有所不同。
步骤205、对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数。
这里,进行互相关运算得到的互相关参数的一个示例为互相关函数,通过该互相关函数可以比对多帧参考信号和多帧回声信号所提取的特征值之间的相关性。本发明实施例是采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案。其中,远端指:扬声器播放端,近端指:麦克风采集端。一个示例为:近端使用间隔分别为D1(D1=10)和D2(D2=20)的三帧信号,当然也可以取大于3帧的信号,这里设计的间隔值在整个回声时延跟踪过程可以是固定不变的,好处是:可以后续与经验值进行比对,因为经验值是与固定间隔相关的,如果间隔不固定,经验值的选取就不一定精确。固定间隔是一种静态的选取方式,也可以是非固定间隔这种动态的选取方式,这种会使得差异性更大,更有利于避免信号比对的过于相似,从而使得回声时延值的计算更加准确,但是,经验值的选取会增加处理成本。
本发明实施例新增多帧二值数据的合并环节,互相关计算均以多帧合并值(多帧二值化数据)进行异或累加计算。
步骤206、根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
这里,通过上述步骤,在回声消除处理之前实现了精确的回声时延检测,从所述滤波结果中选取出符合经验值需求的目标值作为回声时延值。回声时延检测中,先计算参考信号(扬声器播放信号)与其回声信号的时间差,即回声时延,以便后续进行自适应滤波回声消除及非线性回声抑制处理。
采用本发明实施例,是采用采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案,而现有技术是将近端的一帧信号与远端的一帧信号做互相关统计,进而得到回声时延值,由于现有技术是仅用一帧信号对远端信号做对比,可能出现与远端连续多帧相邻帧的互相关值都是接近甚至相同值,太相似,所以,找不出区别,这样运算得到的互相关参数并不利用后续的回声消除。而采用本发明实施例,需要让其不要太相似,因此,采用多帧信号的处理,由于多帧信号有间隔,从而具备差异性,这样运算得到的互相关参数可以更好的进行后续的回声消除。
实施例三:
本发明实施例的一种信息处理方法,如图7所示,所述方法包括:
步骤301、将从远端获取的参考信号通过语音播放单元进行播放,所述参考信号为多帧第一信号。
这里,语音播放单元可以为扬声器,一个示例为将扬声器播放的语音信号作为参考信号进行传播,一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述参考信号,选取的是多帧信号,简称为多帧第一信号或多帧参考信号。
步骤302、采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号。
这里,语音采集单元可以为麦克风,一个示例为通过麦克风采集回声信号,所述回声信号为所述参考信号经传播过程中的衰减和/或噪音干扰后得到的信号。其中,相对于麦克风而言,由扬声器播放的参考信号可以称为远端信号,而由麦克风采集的回声信号(或称为采集信号)可以称为近端信号。
一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述回声信号,选取的是多帧信号,简称为多帧第二信号或多帧回声信号。
步骤303、按照预处理策略,对所述多帧第一信号进行fft后进行特征提取处理。
这里,预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第一信号(或称为多帧参考信号)的特征值,以用于后续的互相关运算。
本步骤的特征提取处理过程中,获取对所述多帧第一信号进行fft变换得到的第一fft参数;获取第一采样频率值;根据所述第一fft参数、所述第一采样频率值、第一频点参数值得到各帧第一信号对应的第一功率谱并进行提取;根据各帧第一信号对应的第一功率谱得到第一功率谱的平滑值并进行提取。
在特征提取过程中,还可以包括:将提取的所述各帧第一信号对应的第一功率谱与提取的所述第一功率谱的平滑值进行数据二值化处理;如果所述各帧第一信号对应的第一功率谱大于所述第一功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第一信号的二值化数据,对所述对应各帧第一信号的二值化数据进行多帧合并,得到多帧第一信号的二值数据合并值,将所述多帧第一信号的二值数据合并值确定为所述多帧第一信号的特征值,将多帧第一信号的特征值先存入缓存,以便后续在执行步骤305中,与多帧第二信号的特征值进行互相关度计算所使用。其中,该二值数据合并值,由当前帧和当前帧之前的至少一个帧所构成。
步骤304、按照预处理策略,对所述多帧第二信号进行fft后进行特征提取处理。
这里,预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第二信号(或称为多帧回声信号)的特征值,以用于后续的互相关运算。
本步骤的特征提取处理过程中,获取对所述多帧第二信号进行fft变换得到的第二fft参数;获取第二采样频率值;根据所述第二fft参数、所述第二采样频率值、第二频点参数值得到各帧第二信号对应的第二功率谱并进行提取;根据各帧第二信号对应的第二功率谱得到第二功率谱的平滑值并进行提取。
在特征提取过程中,还可以包括:将提取的所述各帧第二信号对应的第二功率谱与提取的所述第二功率谱的平滑值进行数据二值化处理;如果所述各帧第二信号对应的第二功率谱大于所述第二功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第二信号的二值化数据。对所述对应各帧第二信号的二值化数据进行多帧合并,得到多帧第二信号的二值数据合并值,将所述多帧第二信号的二值数据合并值确定为所述多帧第二信号的特征值。其中,该二值数据合并值,由当前帧和当前帧之前的至少一个帧所构成。
步骤303和步骤304中进行特征提取的策略可以是相同的,也可以是不同的,在策略相同的情况下,只是针对的运算参数有所不同。
步骤305、从缓存中提取出多帧第一信号的特征值,将多帧第一信号的特征值与多帧第二信号的特征值进行异或累加处理,得到互相关函数,将所述互相关函数作为用于描述信号相关度特征的互相关参数。
这里,进行互相关运算得到的互相关参数的一个示例为互相关函数,通过该互相关函数可以比对多帧参考信号和多帧回声信号所提取的特征值之间的相关性。本发明实施例是采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案。其中,远端指:扬声器播放端,近端指:麦克风采集端。一个示例为:近端使用间隔分别为D1(D1=10)和D2(D2=20)的三帧信号,当然也可以取大于3帧的信号,这里设计的间隔值在整个回声时延跟踪过程可以是固定不变的,好处是:可以后续与经验值进行比对,因为经验值是与固定间隔相关的,如果间隔不固定,经验值的选取就不一定精确。固定间隔是一种静态的选取方式,也可以是非固定间隔这种动态的选取方式,这种会使得差异性更大,更有利于避免信号比对的过于相似,从而使得回声时延值的计算更加准确,但是,经验值的选取会增加处理成本。
本发明实施例新增多帧二值数据的合并环节,互相关计算均以多帧合并值(多帧二值化数据)进行异或累加计算。
步骤306、根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
本步骤的一个具体处理过程包括:根据所述互相关参数和滤波系数进行加权平滑处理,得到滤波结果;所述滤波结果中包含多个数值,从所述多个数值中根据最小原则选出候选时延值;如果候选时延值符合经验值,则将符合经验值的候选时延值作为所述回声时延值。
这里,通过上述步骤,在回声消除处理之前实现了精确的回声时延检测,从所述滤波结果中选取出符合经验值需求的目标值作为回声时延值。回声时延检测中,先计算参考信号(扬声器播放信号)与其回声信号的时间差,即回声时延,以便后续进行自适应滤波回声消除及非线性回声抑制处理。
采用本发明实施例,是采用采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案,而现有技术是将近端的一帧信号与远端的一帧信号做互相关统计,进而得到回声时延值,由于现有技术是仅用一帧信号对远端信号做对比,可能出现与远端连续多帧相邻帧的互相关值都是接近甚至相同值,太相似,所以,找不出区别,这样运算得到的互相关参数并不利用后续的回声消除。而采用本发明实施例,需要让其不要太相似,因此,采用多帧信号的处理,由于多帧信号有间隔,从而具备差异性,这样运算得到的互相关参数可以更好的进行后续的回声消除。
实施例四:
本发明实施例的一种终端,如图8所示,所述终端11包括:语音播放单元111,用于将从远端获取的参考信号进行播放,所述参考信号为多帧第一信号;语音采集单元112,用于采集回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号;第一预处理单元113,用于对所述多帧第一信号进行预处理,得到多帧第一信号的特征值;第二预处理单元114,用于对所述多帧第二信号进行预处理,得到多帧第二信号的特征值;相关度计算单元115,用于对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数;滤波及回声消除单元116,用于根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据所述滤波结果获取回声时延值,在通话中采用所述回声时延值进行回声消除。
一个实际应用中,语音播放单元可以为扬声器,一个示例为将扬声器播放的语音信号作为参考信号进行传播,一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述参考信号,选取的是多帧信号,简称为多帧第一信号或多帧参考信号。语音采集单元可以为麦克风,一个示例为通过麦克风采集回声信号,所述回声信号为所述参考信号经传播过程中的衰减和/或噪音干扰后得到的信号。其中,相对于麦克风而言,由扬声器播放的参考信号可以称为远端信号,而由麦克风采集的回声信号(或称为采集信号)可以称为近端信号。一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,如果只用一帧信号进行后续的比对,并不能全面反映出整体的声音变化状态,因为,特征提取必须有所区别,才会更容易的计算出精确的回声时延值,以用于最终的回声消除处理,所以,本发明实施例中,用于后续特征提取的所述回声信号,选取的是多帧信号,简称为多帧第二信号或多帧回声信号。
通过第一预处理单元执行的预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第一信号(或称为多帧参考信号)的特征值,以用于后续的互相关运算。通过第二预处理单元执行的预处理过程也可以称为特征提取过程,在特征提取过程中需要得到多帧第二信号(或称为多帧回声信号)的特征值,以用于后续的互相关运算。不同预处理单元进行特征提取的策略可以是相同的,也可以是不同的,在策略相同的情况下,只是针对的运算参数有所不同。
通过相关度计算单元进行互相关运算得到的互相关参数的一个示例为互相关函数,通过该互相关函数可以比对多帧参考信号和多帧回声信号所提取的特征值之间的相关性。本发明实施例是采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案。其中,远端指:扬声器播放端,近端指:麦克风采集端。一个示例为:近端使用间隔分别为D1(D1=10)和D2(D2=20)的三帧信号,当然也可以取大于3帧的信号,这里设计的间隔值在整个回声时延跟踪过程可以是固定不变的,好处是:可以后续与经验值进行比对,因为经验值是与固定间隔相关的,如果间隔不固定,经验值的选取就不一定精确。固定间隔是一种静态的选取方式,也可以是非固定间隔这种动态的选取方式,这种会使得差异性更大,更有利于避免信号比对的过于相似,从而使得回声时延值的计算更加准确,但是,经验值的选取会增加处理成本。本发明实施例新增多帧二值数据的合并环节,互相关计算均以多帧合并值(多帧二值化数据)进行异或累加计算。
在回声消除处理之前实现了精确的回声时延检测,从所述滤波结果中选取出符合经验值需求的目标值作为回声时延值。回声时延检测中,先计算参考信号(扬声器播放信号)与其回声信号的时间差,即回声时延,以便后续进行自适应滤波回声消除及非线性回声抑制处理。采用本发明实施例,是采用采取远端、近端多帧特征合并计算互相关函数的方法求回声时延值的方案,而现有技术是将近端的一帧信号与远端的一帧信号做互相关统计,进而得到回声时延值,由于现有技术是仅用一帧信号对远端信号做对比,可能出现与远端连续多帧相邻帧的互相关值都是接近甚至相同值,太相似,所以,找不出区别,这样运算得到的互相关参数并不利用后续的回声消除。而采用本发明实施例,需要让其不要太相似,因此,采用多帧信号的处理,由于多帧信号有间隔,从而具备差异性,这样运算得到的互相关参数可以更好的进行后续的回声消除。
在本发明实施例一实施方式中,所述第一预处理单元,进一步用于:按照预处理策略,对所述多帧第一信号进行fft后进行特征提取处理,具体的,获取对所述多帧第一信号进行fft变换得到的第一fft参数;获取第一采样频率值;根据所述第一fft参数、所述第一采样频率值、第一频点参数值得到各帧第一信号对应的第一功率谱并进行提取;根据各帧第一信号对应的第一功率谱得到第一功率谱的平滑值并进行提取。
在本发明实施例一实施方式中,所述第一预处理单元,进一步用于:将提取的所述各帧第一信号对应的第一功率谱与提取的所述第一功率谱的平滑值进行数据二值化处理;如果所述各帧第一信号对应的第一功率谱大于所述第一功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第一信号的二值化数据。对所述对应各帧第一信号的二值化数据进行多帧合并,得到多帧第一信号的二值数据合并值,将所述多帧第一信号的二值数据合并值确定为所述多帧第一信号的特征值。
在本发明实施例一实施方式中,所述第二预处理单元,进一步用于:按照预处理策略,对所述多帧第二信号进行fft后进行特征提取处理。具体的,获取对所述多帧第二信号进行fft变换得到的第二fft参数;获取第二采样频率值;根据所述第二fft参数、所述第二采样频率值、第二频点参数值得到各帧第二信号对应的第二功率谱并进行提取;根据各帧第二信号对应的第二功率谱得到第二功率谱的平滑值并进行提取。
在本发明实施例一实施方式中,所述终端还包括:二值化处理单元,用于:将提取的所述各帧第二信号对应的第二功率谱与提取的所述第二功率谱的平滑值进行数据二值化处理;如果所述各帧第二信号对应的第二功率谱大于所述第二功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第二信号的二值化数据。对所述对应各帧第二信号的二值化数据进行多帧合并,得到多帧第二信号的二值数据合并值,将所述多帧第二信号的二值数据合并值确定为所述多帧第二信号的特征值。
在本发明实施例一实施方式中,所述相关度计算单元,进一步用于:从缓存中提取出所述多帧第一信号的特征值,将所述多帧第一信号的特征值与所述多帧第二信号的特征值进行异或累加处理,得到互相关函数,将所述互相关函数作为用于描述信号相关度特征的所述互相关参数。
在本发明实施例一实施方式中,所述滤波及回声消除单元,进一步用于:根据所述互相关参数和滤波系数进行加权平滑处理,得到滤波结果;所述滤波结果中包含多个数值,从所述多个数值中根据最小原则选出候选时延值;如果候选时延值符合经验值,则将符合经验值的候选时延值作为所述回声时延值。
对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Singnal Processor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)实现;对于存储介质来说,包含操作指令,该操作指令可以为计算机可执行代码,通过所述操作指令来实现上述本发明实施例信息处理方法流程中的各个步骤。
这里需要指出的是:以上涉及终端和服务器项的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。对于本发明终端和服务器实施例中未披露的技术细节,请参照本发明方法流程描述的实施例所描述内容。
以一个现实应用场景为例对本发明实施例阐述如下:
本应用场景是针对回声消除处理中的回声时延值检测,采用本发明实施例,具体是一种基于多帧互相关的回声时延跟踪方案。
先介绍下何谓回声时延检测,回声时延检测是声学回声消除算法的预处理环节,在回声消除处理前先计算参考信号(扬声器播放信号)与其回声信号的时间差,即回声时延,以便后续进行自适应滤波回声消除及非线性回声抑制处理。如图9所示为回声时延检测的一个示意图,包括回声消除模块,在回声消除模块中还包括:时延检测模块,自适应滤波模块和自然语言处理(NLP)模块,通过扬声器播放参考信号,经传播至麦克风,麦克风采集回声信号,在回声消除模块中各个模块的处理下得到最终的传送信号。如图9所示,回声是声音参考信号从通话设备的扬声器通过空气传播后经麦克风采取回去而产生的,如图10所示,由于回声信号需要经过播放端和采集端的应用层、系统层、固件器件底层的各级缓存,这些缓存必然带来较大的时延,再加上声音在空气中传播过程,都会导致参考信号需要经过较大的时延后才到采集信号端,对于回声消除模块必须通过时延检测模块将上述时延进行准确检测后,把去除时延进而时间轴对齐的双端信号进行回声消除。
针对上述的应用场景,现有技术主要是基于远近端信号的互相关函数计算,搜索相关度最大值,该值对应的远近端两帧信号的时间差为回声时延值。如图11所示,包括:
步骤401、远近端信号做fft频域变换,得到远近端功率谱。
步骤402、计算远端信号与近端信号功率谱在当前帧的互相关函数。
步骤403、对互相关函数进行跟踪滤波。
步骤404、滤波结果的峰值作为回声时延值。
如图12所示,实现上述现有方案的互相关计算使用的是远近端单帧信号。单帧信号对应的频谱二值化数据。
图13给出一个现有回声时延跟踪算法的具体实例,包括两个分支的处理流程。
第一分支的处理流程是针对参考信号而言的,包括:
步骤5011-5012、对当前帧参考信号进行fft变换。
步骤5013、求功率谱Ref(j),j=m1~m2。
其中,m1=INT(M*500)/fs*2;m2=INT(M*1200)/fs*2;M为fft点数的一半,fs为采样频率值。
步骤5014、计算各频点Ref(j)的平均值。
采用的公式为:Refsm(j)=0.98*Refsm(j)+0.02*Ref(j)。
步骤5015、二值化处理。
其中,Ref(j)与Refsm(j)数值比较,大则为1,否则为0,得到Refb(j)的二值化数组。
步骤5016、缓存当前帧之前n帧二值化数据。
其中,保存Ref(j)到Refsm(i)(j)数组,i=0~n-1,该数组的大小为n*m。
第二分支的处理流程是针对回声信号(或称采集信号)而言的,包括:
步骤5021-5022、对当前帧采集信号进行fft变换。
步骤5023、求功率谱Capf(j),j=m1~m2。
其中,m1=INT(M*500)/fs*2;m2=INT(M*1200)/fs*2;M为fft点数的一半,fs为采样频率值。
步骤5024、计算各频点Cap(j)的平均值。
采用的公式为:Capsm(j)=0.98*Capsm(j)+0.02*Ref(j)。
步骤5025、二值化处理。
其中,Cap(j)与Capsm(j)数值比较,大则为1,否则为0,得到Capb(j)的二值化数组。
将上述两个分支最终得到的处理结果进行互相关运算,包括:
步骤5031、异或累加处理。
为减少干扰,还需对异或累加值进行平滑处理,采用的公式为:
CxorRsm(i)=(1-a)*CxorRsm(i)+CxorR(i),a为滤波系数。
步骤5032、以n个CxorRsm(i)值中的最小值对应的i值为候选时延值。
步骤5033、候选时延值满足以下条件则判为最终的回声时延值。
需要与经验值进行比对,符合以下三个条件才判别为最终的回声时延值:
1.n个CxorRsm(i)值的峰谷差距大于5.5;
2.CxorRsm(i)最小值须小于17.5;
3.候选值在K帧内持续不变。
由于,现有方案的回声时延搜索是使用近端的一帧信号与远端的一帧信号做互相关统计,进而得到回声时延值。但由于语音信号具有短时平稳的特性,即一个语音音素可能覆盖数帧信号,而这数帧信号的频谱特征是非常相近的,即相邻多帧信号的频谱二值化数据可能比较相似,所以现有方案仅用一帧信号对远端信号做对比,可能出现与远端连续多帧相邻帧的互相关值都是接近甚至相同值,这样继续计算下去可能得到多个数组相邻的候选时延值,需要经过较长时间计算收敛才能从相邻候选值中提取最准确的一个,不利于快速获得唯一且准确的回声时延值。
针对上述应用场景,采用本发明实施例,与现有方案的主要区别在于本发明采用近端多帧信号与远端的多帧信号进行互相关计算。如图14给出一个实例,近端使用间隔分别为D1(D1=10)和D2(D2=20)的三帧信号(可以取大于3帧的信号),这里设计的间隔值在整个回声时延跟踪过程是固定不变的,其目的是利用有一定间隔的多帧数据避免了单帧数据无法较好表征语音音素特征的缺点,利用“多线特征”代表“面特征”的方式能够更准更快地跟踪到回声时延值。如图15实例所示,在现有方案基础上加入了多帧二值数据合并环节,而后继的互相关计算均以多帧合并值进行计算。
图15给出一个本发明回声时延跟踪算法的具体实例,包括两个分支的处理流程。
第一分支的处理流程是针对参考信号而言的,包括:
步骤6011-6012、对当前帧参考信号进行fft变换。
步骤6013、求功率谱Ref(j),j=m1~m2。
其中,m1=INT(M*500)/fs*2;m2=INT(M*1200)/fs*2;M为fft点数的一半,fs为采样频率值。
步骤6014、计算各频点Ref(j)的平均值。
采用的公式为:Refsm(j)=0.98*Refsm(j)+0.02*Ref(j)。
步骤6015、二值化处理。
其中,Ref(j)与Refsm(j)数值比较,大则为1,否则为0,得到Refb(j)的二值化数组。
步骤6016、多帧组合。
其中,基于固定帧数间隔k帧的二值数据合并得到Refcomb(l),l=0~k*(m2-m1)-1。
步骤6017、缓存当前帧之前n帧二值化数据。
其中,保存Refcomb(l)到Refcombbuf(i)(j)数组,i=0~n-1,l=0~k*(m2-m1)-1,该数组的大小为n*(m2-m1)*k,k为合并帧数。
第二分支的处理流程是针对回声信号(或称采集信号)而言的,包括:
步骤6021-6022、对当前帧采集信号进行fft变换。
步骤6023、求功率谱Capf(j),j=m1~m2。
其中,m1=INT(M*500)/fs*2;m2=INT(M*1200)/fs*2;M为fft点数的一半,fs为采样频率值。
步骤6024、计算各频点Cap(j)的平均值。
采用的公式为:Capsm(j)=0.98*Capsm(j)+0.02*Ref(j)。
步骤6025、二值化处理。
其中,Cap(j)与Capsm(j)数值比较,大则为1,否则为0,得到Capb(j)的二值化数组。
步骤6026、多帧组合。
其中,基于固定帧数间隔k帧的二值数据合并得到Capcomb(l),l=0~k*(m2-m1)-1。
将上述两个分支最终得到的处理结果进行互相关运算,包括:
步骤6031、异或累加处理。
步骤6032、为减少干扰,还需对异或累加值进行平滑处理,采用的公式为:CxorRsm(i)=(1-a)*CxorRsm(i)+aCxorR(i),a为滤波系数。
步骤6033、以n个CxorRsm(i)值中的最小值对应的i值为候选时延值
步骤6034、候选时延值满足以下条件则判为最终的回声时延值。
需要与经验值进行比对,符合以下三个条件才判别为最终的回声时延值:
1.n个CxorRsm(i)值的峰谷差距大于0.17*(k*(m2-m1)-1);
2.CxorRsm(i)最小值须小于0.55*(k*(m2-m1)-1)。
需要指出的是,本文提及的经验值比对,所涉及的经验值都是源于经验所得,在实际操作中可以根据实际处理过程进行相应的调整,并不限于本文所描述的经验值的范围限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种信息处理方法,其特征在于,所述方法包括:
将从远端获取的参考信号通过语音播放单元进行播放,所述参考信号为多帧第一信号;
采集传播回语音采集单元的回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号;
对所述多帧第一信号进行预处理,得到多帧第一信号的特征值,所述多帧第一信号的特征值为对所述多帧第一信号的二值化数据进行多帧合并,得到的所述多帧第一信号的二值数据合并值;
对所述多帧第二信号进行预处理,得到多帧第二信号的特征值,所述多帧第二信号的特征值为对所述多帧第二信号的二值化数据进行多帧合并,得到的所述多帧第二信号的二值数据合并值;
对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数;
根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据最小原则从所述滤波结果中选出候选时延值,以确定回声时延值,在通话中采用所述回声时延值进行回声消除。
2.根据权利要求1所述的方法,其特征在于,对所述多帧第一信号进行预处理,得到多帧第一信号的特征值,包括:
按照预处理策略,对所述多帧第一信号进行快速傅立叶变换fft后进行特征提取处理。
3.根据权利要求2所述的方法,其特征在于,对所述多帧第一信号进行fft后进行特征提取处理包括:
获取对所述多帧第一信号进行fft变换得到的第一fft参数;
获取第一采样频率值;
根据所述第一fft参数、所述第一采样频率值、第一频点参数值得到各帧第一信号对应的第一功率谱并进行提取;
根据各帧第一信号对应的第一功率谱得到第一功率谱的平滑值并进行提取。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将提取的所述各帧第一信号对应的第一功率谱与提取的所述第一功率谱的平滑值进行数据二值化处理;
如果所述各帧第一信号对应的第一功率谱大于所述第一功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第一信号的二值化数据;
对所述对应各帧第一信号的二值化数据进行多帧合并,得到多帧第一信号的二值数据合并值,将所述多帧第一信号的二值数据合并值确定为所述多帧第一信号的特征值。
5.根据权利要求1至4任一项所述的方法,其特征在于,对所述多帧第二信号进行预处理,得到多帧第二信号的特征值,包括:
按照预处理策略,对所述多帧第二信号进行fft后进行特征提取处理。
6.根据权利要求5所述的方法,其特征在于,对所述多帧第二信号进行fft后进行特征提取处理包括:
获取对所述多帧第二信号进行fft变换得到的第二fft参数;
获取第二采样频率值;
根据所述第二fft参数、所述第二采样频率值、第二频点参数值得到各帧第二信号对应的第二功率谱并进行提取;
根据各帧第二信号对应的第二功率谱得到第二功率谱的平滑值并进行提取。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将提取的所述各帧第二信号对应的第二功率谱与提取的所述第二功率谱的平滑值进行数据二值化处理;
如果所述各帧第二信号对应的第二功率谱大于所述第二功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第二信号的二值化数据;
对所述对应各帧第二信号的二值化数据进行多帧合并,得到多帧第二信号的二值数据合并值,将所述多帧第二信号的二值数据合并值确定为所述多帧第二信号的特征值。
8.根据权利要求7所述的方法,其特征在于,对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数,包括:
从缓存中提取出所述多帧第一信号的特征值,将所述多帧第一信号的特征值与所述多帧第二信号的特征值进行异或累加处理,得到互相关函数,将所述互相关函数作为用于描述信号相关度特征的所述互相关参数。
9.根据权利要求8所述的方法,其特征在于,根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据最小原则从所述滤波结果中选出候选时延值,以确定回声时延值,包括:
根据所述互相关参数和滤波系数进行加权平滑处理,得到滤波结果;
所述滤波结果中包含多个数值,从所述多个数值中根据最小原则选出候选时延值;
如果候选时延值符合经验值,则将符合经验值的候选时延值作为所述回声时延值。
10.一种终端,其特征在于,所述终端包括:
语音播放单元,用于将从远端获取的参考信号进行播放,所述参考信号为多帧第一信号;
语音采集单元,用于采集回声信号,所述回声信号为所述参考信号经所述语音播放单元进行播放、在语音传播过程中经过衰减和噪音干扰后得到的信号,所述回声信号为多帧第二信号;
第一预处理单元,用于对所述多帧第一信号进行预处理,得到多帧第一信号的特征值,所述多帧第一信号的特征值为对所述多帧第一信号的二值化数据进行多帧合并,得到的所述多帧第一信号的二值数据合并值;
第二预处理单元,用于对所述多帧第二信号进行预处理,得到多帧第二信号的特征值,所述多帧第二信号的特征值为对所述多帧第二信号的二值化数据进行多帧合并,得到的所述多帧第二信号的二值数据合并值;
相关度计算单元,用于对所述多帧第一信号的特征值和所述多帧第二信号的特征值进行互相关运算,得到互相关参数;
滤波及回声消除单元,用于根据所述互相关参数进行跟踪滤波运算,得到滤波结果,根据最小原则从所述滤波结果中选出候选时延值,以确定回声时延值,在通话中采用所述回声时延值进行回声消除。
11.根据权利要求10所述的终端,其特征在于,所述第一预处理单元,进一步用于:
按照预处理策略,对所述多帧第一信号进行快速傅立叶变换fft后进行特征提取处理。
12.根据权利要求11所述的终端,其特征在于,所述第一预处理单元,进一步用于:
对所述多帧第一信号进行fft后进行特征提取处理包括:
获取对所述多帧第一信号进行fft变换得到的第一fft参数;
获取第一采样频率值;
根据所述第一fft参数、所述第一采样频率值、第一频点参数值得到各帧第一信号对应的第一功率谱并进行提取;
根据各帧第一信号对应的第一功率谱得到第一功率谱的平滑值并进行提取。
13.根据权利要求12所述的终端,其特征在于,所述第一预处理单元,进一步用于:
将提取的所述各帧第一信号对应的第一功率谱与提取的所述第一功率谱的平滑值进行数据二值化处理;
如果所述各帧第一信号对应的第一功率谱大于所述第一功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第一信号的二值化数据;
对所述对应各帧第一信号的二值化数据进行多帧合并,得到多帧第一信号的二值数据合并值,将所述多帧第一信号的二值数据合并值确定为所述多帧第一信号的特征值。
14.根据权利要求10至13任一项所述的终端,其特征在于,所述第二预处理单元,进一步用于:
按照预处理策略,对所述多帧第二信号进行fft后进行特征提取处理。
15.根据权利要求14所述的终端,其特征在于,所述第二预处理单元,进一步用于:
获取对所述多帧第二信号进行fft变换得到的第二fft参数;
获取第二采样频率值;
根据所述第二fft参数、所述第二采样频率值、第二频点参数值得到各帧第二信号对应的第二功率谱并进行提取;
根据各帧第二信号对应的第二功率谱得到第二功率谱的平滑值并进行提取。
16.根据权利要求15所述的终端,其特征在于,所述终端还包括:二值化处理单元,用于:
将提取的所述各帧第二信号对应的第二功率谱与提取的所述第二功率谱的平滑值进行数据二值化处理;
如果所述各帧第二信号对应的第二功率谱大于所述第二功率谱的平滑值时,则将当前数值记为1;否则,将当前数值记为0,由1和0的组合构成对应各帧第二信号的二值化数据;
对所述对应各帧第二信号的二值化数据进行多帧合并,得到多帧第二信号的二值数据合并值,将所述多帧第二信号的二值数据合并值确定为所述多帧第二信号的特征值。
17.根据权利要求16所述的终端,其特征在于,所述相关度计算单元,进一步用于:
从缓存中提取出所述多帧第一信号的特征值,将所述多帧第一信号的特征值与所述多帧第二信号的特征值进行异或累加处理,得到互相关函数,将所述互相关函数作为用于描述信号相关度特征的所述互相关参数。
18.根据权利要求17所述的终端,其特征在于,所述滤波及回声消除单元,进一步用于:
根据所述互相关参数和滤波系数进行加权平滑处理,得到滤波结果;
所述滤波结果中包含多个数值,从所述多个数值中根据最小原则选出候选时延值;
如果候选时延值符合经验值,则将符合经验值的候选时延值作为所述回声时延值。
19.一种终端,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述可执行指令时,实现如权利要求1至9任一项所述的信息处理方法。
20.一种存储介质,其特征在于,存储有可执行指令,所述可执行指令被执行时,用于实现如权利要求1至9任一项所述的信息处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610632872.9A CN107689228B (zh) | 2016-08-04 | 2016-08-04 | 一种信息处理方法及终端 |
PCT/CN2017/092079 WO2018006856A1 (zh) | 2016-07-07 | 2017-07-06 | 一种回声消除的方法及终端、计算机存储介质 |
US16/198,167 US10771633B2 (en) | 2016-07-07 | 2018-11-21 | Echo cancellation method and terminal, computer storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610632872.9A CN107689228B (zh) | 2016-08-04 | 2016-08-04 | 一种信息处理方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107689228A CN107689228A (zh) | 2018-02-13 |
CN107689228B true CN107689228B (zh) | 2020-05-12 |
Family
ID=61150933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610632872.9A Active CN107689228B (zh) | 2016-07-07 | 2016-08-04 | 一种信息处理方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107689228B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9947337B1 (en) * | 2017-03-21 | 2018-04-17 | Omnivision Technologies, Inc. | Echo cancellation system and method with reduced residual echo |
CN110972032B (zh) * | 2018-09-28 | 2021-08-20 | 原相科技股份有限公司 | 消除声音的方法及执行该方法的电子装置 |
CN109087662B (zh) * | 2018-10-25 | 2021-10-08 | 科大讯飞股份有限公司 | 一种回声消除方法及装置 |
CN111210837B (zh) * | 2018-11-02 | 2022-12-06 | 北京微播视界科技有限公司 | 音频处理方法和装置 |
CN109817235B (zh) * | 2018-12-12 | 2024-05-24 | 深圳市潮流网络技术有限公司 | 一种VoIP设备的回声消除方法 |
CN110136735B (zh) * | 2019-05-13 | 2021-09-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频修复方法、设备及可读存储介质 |
CN112216295B (zh) * | 2019-06-25 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | 一种声源定位方法、装置及设备 |
CN110992973A (zh) * | 2019-11-29 | 2020-04-10 | 维沃移动通信有限公司 | 一种信号时延的确定方法和电子设备 |
CN113012722B (zh) * | 2019-12-19 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 采样率处理方法、装置、系统、存储介质和计算机设备 |
CN111402868B (zh) * | 2020-03-17 | 2023-10-24 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
CN111881820B (zh) * | 2020-07-27 | 2024-06-07 | 成都大公博创信息技术有限公司 | 一种同频信号的同源检测和识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6434235B1 (en) * | 2000-08-01 | 2002-08-13 | Lucent Technologies Inc. | Acoustic echo canceler |
CN101321201B (zh) * | 2007-06-06 | 2011-03-16 | 联芯科技有限公司 | 回声消除装置、通信终端及确定回声时延的方法 |
CN103312913B (zh) * | 2013-07-03 | 2015-12-23 | 苏州科达科技股份有限公司 | 一种消除回声的系统及方法 |
CN104902116B (zh) * | 2015-03-27 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 一种音频数据与参考信号的时间对齐方法及装置 |
CN105472191B (zh) * | 2015-11-18 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 一种跟踪回声时延的方法和装置 |
-
2016
- 2016-08-04 CN CN201610632872.9A patent/CN107689228B/zh active Active
Non-Patent Citations (1)
Title |
---|
DELMAS,Jean Pierre.ON THE CRAMER RAO BOUND AND MAXIMUM LIKELIHOOD IN PASSIVE TIME DELAY.《International Conference on Acoustics, Speech and Signal Processing (ICASSP)》.2012,第3541-3544页. * |
Also Published As
Publication number | Publication date |
---|---|
CN107689228A (zh) | 2018-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107689228B (zh) | 一种信息处理方法及终端 | |
CN105718027B (zh) | 后台应用程序的管理方法及移动终端 | |
US10771633B2 (en) | Echo cancellation method and terminal, computer storage medium | |
CN105468158B (zh) | 颜色调整方法及移动终端 | |
CN106131319A (zh) | 一种信息处理方法及装置、终端 | |
CN106603931A (zh) | 一种双目拍摄方法及装置 | |
CN105100308B (zh) | 移动终端及其测试方法 | |
CN106713573B (zh) | 一种终端设备的性能测试装置和方法 | |
CN105763847A (zh) | 一种监控方法及监控终端 | |
CN106851113A (zh) | 一种基于双摄像头的拍照方法及移动终端 | |
CN106373110A (zh) | 一种图像融合的方法及装置 | |
CN105049916B (zh) | 一种视频录制方法及装置 | |
CN106454074A (zh) | 移动终端及拍摄处理方法 | |
CN105227716A (zh) | 移动终端及其音频信号处理方法 | |
CN107241497B (zh) | 移动终端及响度输出调整方法 | |
CN106791567B (zh) | 一种切换方法及终端 | |
CN107071275B (zh) | 一种图像合成方法及终端 | |
CN106785419A (zh) | 一种终端天线的频段扩展结构 | |
CN106709882A (zh) | 一种图像融合的方法及装置 | |
CN105974437A (zh) | 一种提升终端应用性能的方法、装置和终端 | |
CN106131942A (zh) | 通信方法以及终端 | |
CN105898158A (zh) | 一种数据处理方法及电子设备 | |
CN106649753B (zh) | 一种数据处理方法及电子设备 | |
CN105975228A (zh) | 一种控制方法及电子设备 | |
CN106909395B (zh) | 一种界面调用方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |