CN112750449B - 回声消除方法、装置、终端、服务器及存储介质 - Google Patents
回声消除方法、装置、终端、服务器及存储介质 Download PDFInfo
- Publication number
- CN112750449B CN112750449B CN202010959682.4A CN202010959682A CN112750449B CN 112750449 B CN112750449 B CN 112750449B CN 202010959682 A CN202010959682 A CN 202010959682A CN 112750449 B CN112750449 B CN 112750449B
- Authority
- CN
- China
- Prior art keywords
- signal
- echo
- sample
- voice
- proportion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 230000006854 communication Effects 0.000 claims abstract description 41
- 238000004891 communication Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000002156 mixing Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例公开了一种回声消除方法、装置、终端、服务器及存储介质,属于语音处理技术领域。该方法包括:获取第一语音信号,获取所述第一语音信号对应的非回声比例,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。该方法减少了需要处理的数据量,提高了处理效率,从而降低了通信延迟。
Description
技术领域
本申请实施例涉及语音处理技术领域,特别涉及一种回声消除方法、装置、终端、服务器及存储介质。
背景技术
随着语音处理技术的发展,用户对语音信号的播放质量要求也越来越高。而在至少两个用户进行语音通信的过程中,任一用户上传的语音信号中不仅包含该用户自己发出的语音信号,还可能会包括与该用户进行语音通信的其他用户的回声信号,这会影响语音信号的质量,因此需要消除语音信号中的回声信号。
目前,通常会调用神经网络模型,消除语音信号中的回声信号,但是在语音通信过程中会采集到每个终端发送的语音信号,则需要对每个终端发送的语音信号进行回声消除,处理的数据量较大,耗费的时间较长,导致语音信号的通信延迟较高。
发明内容
本申请实施例提供了一种回声消除方法、装置、终端、服务器及存储介质,降低了通信延迟。所述技术方案如下:
一方面,提供了一种回声消除方法,所述方法包括:
获取第一语音信号,所述第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号;
获取所述第一语音信号对应的非回声比例,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;
根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;
响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。
另一方面,提供了一种回声消除装置,所述装置包括:
信号获取模块,用于获取第一语音信号,所述第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号;
比例获取模块,用于获取所述第一语音信号对应的非回声比例,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;
回声检测模块,用于根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;
回声消除模块,用于响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。
在一种可能实现方式中,所述回声检测模块,包括:
比例确定单元,用于根据所述非回声比例,确定所述第一语音信号对应的回声比例,所述回声比例表示所述第一语音信号中回声信号所占的比例;
回声特征获取单元,用于将所述回声比例与第一语音特征相乘,得到所述回声信号的回声特征,所述第一语音特征为所述第一语音信号对应的特征;
能量确定单元,用于确定所述第一语音特征对应的第一频谱能量和所述回声特征对应的第二频谱能量;
参数确定单元,用于将所述第二频谱能量与所述第一频谱能量的比值,确定为所述检测参数。
在另一种可能实现方式中,所述能量确定单元,用于:
将所述第一语音特征中多个特征值之和,作为所述第一频谱能量;
将所述回声特征中多个特征值之和,作为所述第二频谱能量。
在另一种可能实现方式中,所述回声消除模块,包括:
特征获取单元,用于响应于所述检测参数大于参考参数,将所述非回声比例与第一语音特征相乘,得到第二语音特征,所述第一语音特征为所述第一语音信号对应的特征;
特征转换单元,用于将所述第二语音特征转换为对应的第二语音信号。
在另一种可能实现方式中,所述非回声比例包括多个频带对应的比例,所述比例表示所述第一语音信号在对应频带上的非回声信号所占的比例;
所述第一语音特征包括所述多个频带对应的特征值,所述特征值表示所述第一语音信号在对应频带上的语音特征;
所述特征获取单元,用于将同一频带对应的比例与特征值相乘,得到非回声语音特征,将所述多个频带对应的非回声语音特征,构成所述第二语音特征。
在另一种可能实现方式中,所述比例获取模块,包括:
特征提取单元,用于对所述第一语音信号进行特征提取,得到所述第一语音信号对应的第一语音特征;
比例获取单元,用于对所述第一语音特征进行处理,得到所述非回声比例。
在另一种可能实现方式中,所述比例获取单元,用于调用比例获取模型,对所述第一语音特征进行处理,得到所述非回声比例。
在另一种可能实现方式中,所述比例获取模型的训练过程包括:
分别对样本回声信号和样本原始信号进行特征提取,得到所述样本回声信号对应的样本回声特征和所述样本原始信号对应的样本原始特征;
将所述样本回声特征和所述样本原始特征进行混合处理,得到样本混合特征;
根据所述样本原始特征与所述样本混合特征,确定所述样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
在另一种可能实现方式中,所述比例获取模型的训练过程包括:
对样本原始信号和样本回声信号进行混合处理,得到样本混合信号;
分别对所述样本混合信号和所述样本原始信号进行特征提取,得到所述样本混合信号对应的样本混合特征和所述样本原始信号对应的样本原始特征;
根据所述样本原始特征与所述样本混合特征,确定所述样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
在另一种可能实现方式中,所述比例获取模型的训练过程包括:
调用所述比例获取模型,对样本混合信号的样本混合特征进行处理,得到所述样本混合信号的预测比例,所述样本混合信号中包括样本回声信号和样本原始信号;
获取所述样本混合信号的样本混合特征与所述预测比例的乘积,将所述乘积作为预测原始特征;
将所述预测原始特征与所述样本原始信号的样本原始特征的差值,作为所述样本混合信号对应的损失值;
根据所述损失值,调整所述比例获取模型。
在另一种可能实现方式中,所述信号获取模块,用于:
获取所述任一终端采集的语音信号;
从所述语音信号中提取至少一帧语音信号;
将提取的语音信号作为所述第一语音信号,执行所述获取所述第一语音信号对应的非回声比例的步骤。
另一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如上述方面所述的回声消除方法中所执行的操作。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如上述方面所述的回声消除方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述方面所述的回声消除方法中所执行的操作。
另一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的回声消除方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方法,在进行回声消除时,只需获取待消除回声信号的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率,从而降低了通信延迟。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种回声消除方法的流程图;
图3是本申请实施例提供的另一种回声消除方法的流程图;
图4是本申请实施例提供的一种模型训练方法的流程图;
图5是本申请实施例提供的一种模型训练和使用过程的示意图;
图6是本申请实施例提供的一种回声消除装置的结构示意图;
图7是本申请实施例提供的另一种回声消除装置的结构示意图;
图8是本申请实施例提供的一种终端的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一语音信号称为第二语音信号,将第二语音信号称为第一语音信号。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个语音信号包括3个语音信号帧,而每个语音信号是指这3个语音信号中的每一个语音信号,任一是指这3个语音信号中的任意一个,可以是第一个,可以是第二个,也可以是第三个。
为了便于理解本申请实施例,先对本申请实施例涉及到的关键词进行解释:
回声信号:在语音通信过程中,其他终端发送的语音信号通过终端扬声器播放,在封闭或半封闭环境中经过多次反射,然后被麦克风采集,从而形成回声信号。
例如,对于语音通信过程中的第一用户和第二用户,第一用户的语音信号由第一终端的麦克风采集,然后发送给第二终端,第二终端通过扬声器播放第一用户的语音信号。第二终端的麦克风在采集第二用户的语音信号时,也会采集到播放的第一用户的语音信号,从而第二终端发送给第一终端的语音信号中,会包括第一用户的语音信号,对于第一用户而言,听到的语音信号中存在回声信号。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉技术或机器学习等技术,具体通过下述实施例进行说明。
本申请实施例提供的回声消除方法,能够应用于语音通信场景下。
例如,应用于多人会议场景下。多个员工在参加语音会议时,不同员工所在的房间不同,对于任一员工,该任一员工通过终端的扬声器播放其他员工的语音信号,语音信号会在房间中进行多次反射,再次被终端的麦克风采集到,产生回声信号,此时能够采用本申请实施例提供的回声消除方法,消除产生的回声信号,使其他员工通过其他终端播放语音信号时,不会听到回声信号。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括多个终端101(图1中以2个为例)和服务器102。终端101和服务器102之间通过无线或者有线网络连接。
多个终端101为语音通信中的多个终端,任一终端101在语音通信过程中,能够采集用户发出的语音信号,并发送给其他终端,从而实现多个终端之间的语音通信。服务器102为多个终端101提供语音通信服务。
其中,终端101为电脑、手机、平板电脑或者其他终端。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一种可能实现方式中,终端101上安装由服务器102提供服务的目标应用,终端101能够通过该目标应用实现语音通信功能。其中,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用。
在实时通信会议中,为了提高语音信号的质量,需要对采集的语音信号进行处理,包括噪音消除(Acoustic Noise Cancellation,ANC)、自动增益控制(Automatic GainControl,AGC)以及回声消除(Acoustic Echo Cancellation,AEC)等。其中,噪音消除是为了消除语音信号中的噪音,自动增益控制是为了保证输出的语音信号为平稳的语音信号,回声消除是为了消除语音信号中的回声信号。
回声消除是语音信号处理中的重要部分,通过下述实施例对回声消除方法进行说明。
图2是本申请实施例提供的一种回声消除方法的流程图。本申请实施例的执行主体为服务器,参见图2,该方法包括以下步骤:
201、服务器获取第一语音信号。
在语音通信过程中,每个终端会采集语音信号,将采集到的语音信号发送给其他终端,从而实现语音通信,为了提高语音信号的质量,需要消除语音信号中的回声信号。
本申请实施例中,任一终端将采集的语音信号发送给服务器,由服务器对接收到的语音信号进行处理,以消除语音信号中的回声信号,然后服务器将消除回声信号后的语音信号发送给语音通信中的其他终端。其中,任一终端会采集产生的回声信号和用户发出的语音信号,从而得到包含回声信号的语音信号。
本申请实施例以采集到第一语音信号为例,第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号。
202、服务器获取第一语音信号对应的非回声比例。
服务器获取到第一语音信号之后,对第一语音信号进行处理,得到第一语音信号对应的非回声比例。其中,非回声比例表示第一语音信号中非回声信号所占的比例,该非回声比例为一个数值或者是由多个数值组成的一个矩阵,如果该非回声比例是由多个数值组成的一个矩阵,每个数值为第一语音信号在对应频带上的非回声信号所占的比例。其中,每个数值的取值范围为0到1。
例如,该非回声比例为(0.65,0.7,0.65),表示第一语音信号在第一个维度上非回声信号所占的比例为0.65,在第二个维度上非回声信号所占的比例为0.7,在第三个维度上非回声信号所占的比例为0.65。
203、服务器根据非回声比例,对第一语音信号进行回声检测,得到检测参数。
为了避免对不包含回声信号的第一语音信号进行回声消除,影响第一语音信号的质量,需要对第一语音信号进行回声检测,以确定第一语音信号中是否包含回声信号,对于包含回声信号的第一语音信号,执行后续的回声消除操作,对于不包含回声信号的第一语音信号,则不需要执行回声消除操作。
根据非回声比例能够确定第一语音信号中回声信号所占的比例,即回声比例,根据回声比例的大小能够初步检测该第一语音信号中是否包含回声信号,但是由于回声比例包括多个维度上的数值,不同维度上的数值不统一,因此需要对回声比例进行进一步处理,得到检测参数,该检测参数指示第一语音信号中包含回声信号的可能性,即第一语音信号中包含回声信号的概率。
其中,检测参数为大于0小于1的任一数值,例如,检测参数为0.6、0.7等数值。
204、服务器响应于检测参数满足目标条件,对第一语音信号进行回声消除,得到第二语音信号。
其中,目标条件是指检测参数大于参考参数,如果检测参数满足目标条件即表示第一语音信号中包含回声信号,对第一语音信号进行回声消除,得到第二语音信号。如果检测参数不大于参考参数,则表示第一语音信号中不包含回声,不需要对第一语音信号进行回声消除,第一语音信号即为第二语音信号。其中,参考参数为大于0小于1的任一数值,例如,参考参数为0.5、0.6等数值。
需要说明的是,本申请实施例仅是以服务器为执行主体为例进行说明,在另一实施例中,由终端执行回声消除方法,该终端为采集第一语音信号的终端,或者为播放消除回声后得到的第二语音信号的终端。
如果执行上述步骤的终端是采集第一语音信号的终端,则终端对采集的第一语音信号进行回声消除之后,发送给服务器,由服务器发送给进行语音通信的其他终端,由其他终端播放消除回声后得到的第二语音信号;如果执行上述步骤的终端是播放第二语音信号的终端,则采集第一语音信号的终端将第一语音信号发送给服务器,服务器将第一语音信号发送给终端,终端对接收到的第一语音信号进行回声消除之后,播放消除回声后得到的第二语音信号。
本申请实施例提供的方法,在进行回声消除时,只需获取待消除回声信号的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率,从而降低了通信延迟。
图3是本申请实施例提供的另一种回声消除方法的流程图。本申请实施例的执行主体为服务器,参见图3,该方法包括以下步骤:
301、服务器获取第一语音信号。
终端在采集语音信号时,采集多帧语音信号,对于不同帧的语音信号,可能部分帧的语音信号中包含回声信号,另一部分帧的语音信号中不包含回声信号,且随着时间的增长,语音信号在环境中经过多次反射得到的回声信号也会逐渐减小直至消失。因此在对采集的多帧语音信号进行回声消除时,部分帧的语音信号是不需要进行回声消除的,因此需要分别针对每帧语音信号进行回声消除。
本申请实施例中,第一语音信号为采集的任一帧语音信号。在一种可能实现方式中,服务器获取任一终端采集的语音信号,该采集的语音信号中包含至少一帧语音信号,服务器从该语音信号中提取至少一帧语音信号,将提取的语音信号作为第一语音信号。
在一种可能实现方式中,服务器对采集的语音信号进行分帧处理,将语音信号分为多个片段,但是由于分帧后相邻的任两个片段之间不能够存在重叠部分,在分帧时相邻的两个片段之间会存在间断,分帧越多间断也会越多,导致分帧后的语音信号与分帧前的语音信号之间的差别也越大,为了避免这种情况,还会进行加窗处理,保证分帧后的语音信号仍然是连续的。
302、服务器对第一语音信号进行特征提取,得到第一语音信号对应的第一语音特征。
其中,第一语音特征用于描述第一语音信号,该第一语音特征为多维特征,包括多个特征值,每个特征值表示对应的维度上的语音信号。
在一种可能实现方式中,服务器对第一语音信号进行傅里叶变换,得到该第一语音信号的频谱能量分布,对该频谱能量分布求取平方并求取对数,得到对数能量频谱特征,作为第一语音信号对应的第一语音特征。或者,服务器还能够采用离散小波变换、线性预测系数、梅尔倒谱系数等方式对第一语音信号进行特征提取。
303、服务器调用比例获取模型,对第一语音特征进行处理,得到非回声比例。
本申请实施例中,服务器将第一语音特征输入至比例获取模型,调用比例获取模型对该第一语音特征进行处理,得到非回声比例。
其中,第一语音特征为多维特征,得到的非回声比例与第一语音特征维数相同。例如,第一语音特征为三维特征,那么非回声比例也为三维比例,每个维度对应的比例数值与同一维度的语音特征对应。
在一种可能实现方式中,比例获取模型为服务器训练并存储的,或者是由其他服务器或终端训练,然后发送给服务器的。
在使用比例获取模型之前,需要训练该比例获取模型,比例获取模型的训练过程参见下述图4所示的实施例,在此不再赘述。
304、服务器根据非回声比例,对第一语音信号进行回声检测,得到检测参数。
服务器首先根据非回声比例,确定第一语音信号对应的回声比例,即1减去非回声比例即为回声比例,如果非回声比例为多维的,则1分别减去每个维度上的数值,得到回声比例。其中,回声比例表示第一语音信号中回声信号所占的比例。然后服务器将回声比例与第一语音特征相乘,得到回声信号的回声特征,确定第一语音特征对应的第一频谱能量和回声特征对应的第二频谱能量,将第二频谱能量与第一频谱能量的比值,确定为检测参数。其中,回声特征用于描述回声信号。
在一种可能实现方式中,确定第一语音特征对应的第一频谱能量和回声特征对应的第二频谱能量,包括:将第一语音特征中多个特征值之和,作为第一频谱能量;将回声特征中多个特征值之和,作为第二频谱能量。
例如,采用下述公式获取检测参数:
其中,Secho(w)为第二频谱能量,Secho+clean(w)为第一频谱能量,N表示N维,p为非回声比例,Yecjo+clean(wn)为第一语音特征。
305、服务器响应于检测参数大于参考参数,将非回声比例与第一语音特征相乘,得到第二语音特征。
306、服务器将第二语音特征转换为对应的第二语音信号。
如果检测参数大于参考参数,表示第一语音信号中包含回声信号,需要进行回声消除,则将非回声比例与第一语音特征相乘,即可得到第二语音特征,该第二语音特征即为非回声信号的特征。对得到的第二语音特征进行傅里叶反变换,得到第二语音信号。
在一种可能实现方式中,非回声比例包括多个频带对应的比例,比例表示第一语音信号在对应频带上的非回声信号所占的比例;第一语音特征包括多个频带对应的特征值,特征值表示第一语音信号在对应频带上的语音特征;将非回声比例与第一语音特征相乘,包括:将同一频带对应的比例与特征值相乘,得到非回声语音特征,将多个频带对应的非回声语音特征,构成第二语音特征,即第二语音特征包括多个频带对应的非回声语音特征。
例如,非回声比例为一个比例矩阵,比例矩阵中的每个元素表示一个频带上的非回声信号所占的比例,第一语音特征为一个特征矩阵,特征矩阵中的每个元素表示一个频带上的语音特征,将比例矩阵与特征矩阵相乘,得到第二语音特征对应的特征矩阵。
如果检测参数不大于参考参数,表示第一语音信号中不包含回声信号,无需进行回声消除,不对第一语音信号进行回声消除,保留原来的第一语音信号即可。或者,将非回声比例中的每个数值设置为1,得到新的非回声比例,将该新的非回声比例与第一语音特征相乘。
在一种可能实现方式中,服务器得到第二语音信号之后,将第二语音信号发送给语音通信中除采集第一语音信号的终端之外的其他终端,由其他终端播放该第二语音信号。
需要说明的一点是,本申请实施例仅是以多帧语音信号中的第一语音信号为例进行说明,对于采集的语音信号中的每帧语音信号能够采用与上述实施方式类似的实施方式进行回声消除。
需要说明的另一点是,本申请实施例仅是以将第一语音信号对应的第一语音特征作为比例获取模型的输入为例进行说明,在另一实施例中,能够将第一语音信号作为比例获取模型的输入,由比例获取模型对第一语音信号进行特征提取得到对应的第一语音特征。
本申请实施例提供的方法,在进行回声消除时,只需获取待消除回声信号的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率,从而降低了通信延迟。
并且,对于不包含回声信号的语音信号,不需要进行处理,减少了需要处理的数据量的同时,还能够保证最大程度的保留原来的语音信号,不对原来的语音信号的质量造成影响。且将回声信号当作一种噪音,而不是语音信号,对于硬件设备处理回声信号之后得到的残留回声信号,也能够进行回声消除。
另外,相关技术中,采用传统信号处理,基于自适应滤波算法消除回声。该方法使用不同的自适应滤波算法来调整滤波器的权重,估计近似的回声路径模拟真实环境中的回声路径,从而得到估计的回声信号,将回声信号从语音信号中消除,实现回声消除。但是这种方式需要采集完整的回声信号,如果多个用户同时说话,则无法采用这种方式进行回声消除,并且如果回声路径发生了变化,例如用户从一个房间移动至另一个房间,这两个房间中对语音信号的反射不完全相同,导致回声路径发生变化,原来的回声路径不再适用,导致无法进行回声消除。
而本申请实施例提供方法,与相关技术中的传统信号处理方式相比,能够应用于任意语音通信场景下,不会受通信环境的影响,且能够对任意回声信号进行消除,扩展了应用范围。
在使用比例获取模型获取非回声比例之前,需要对比例获取模型进行训练。下面对比例获取模型的训练过程进行说明。
图4是本申请实施例提供的一种模型训练方法的流程图。本申请实施例的执行主体为服务器,参见图4,该方法包括以下步骤:
401、服务器获取样本回声信号和样本原始信号。
获取样本回声信号的过程包括:多个终端进行语音通信,由其中任一终端向其他终端发送语音信号,其他终端处于安静的环境中,采用扬声器播放接收到的语音信号,此时其他终端的麦克风采集到的语音信号即为回声信号,将该回声信号作为样本回声信号,发送给服务器。
样本原始信号为任一语音信号。例如,样本原始信号为不同的用户发出的语音信号。
402、服务器对样本回声信号和样本原始信号进行混合处理,得到样本混合信号。
将采集到的样本回声信号与样本原始信号在时域上进行叠加,生成样本混合信号。其中,能够将同一样本回声信号与不同的样本原始信号进行混合,得到不同的样本混合信号,或者将不同的样本回声信号与同一样本原始信号进行混合,得到不同的样本混合信号,或者将不同的样本回声信号与不同的样本原始信号进行混合,得到不同的样本混合信号。
403、服务器对样本混合信号和样本原始信号进行特征提取,得到样本混合信号对应的样本混合特征和样本原始信号对应的样本原始特征。
特征提取的实施方式与上述步骤302的实施方式类似,在此不再赘述。
404、服务器根据样本原始特征和样本混合特征,确定样本比例。
将样本原始特征与样本混合特征的比值作为样本比例。例如,参见下述公式:
其中,为样本比例,Xclean(w)为样本原始特征,Yecho+clean(w)为样本混合特征。
405、服务器根据样本混合特征和样本比例,训练比例获取模型。
服务器将样本混合特征输入至待训练的比例获取模型,比例获取模型输出比例,对比预测比例与样本比例之间的差异,调整比例获取模型的各项参数,以减小差异,使比例获取模型学习到根据语音信号的语音特征确定非回声比例的能量。
在一种可能实现方式中,调用比例获取模型,对语音特征进行处理得到非回声比例之后,还能够重复执行上述训练过程,继续对比例获取模型进行训练。
上述实施例仅是一种训练比例获取模型的方法,在另一实施例中,不需要获取样本混合信号,能够直接对分别对样本回声信号和样本原始信号进行特征提取,得到样本回声信号对应的样本回声特征和样本原始信号对应的样本原始特征;将样本回声特征和样本原始特征进行混合处理,得到样本混合特征,然后获取样本比例,根据样本混合特征和样本比例,训练比例获取模型。
在一种可能实现方式中,采用下述公式确定样本比例:
其中,为样本比例,Xclean(w)为样本原始特征,Zecho(w)为样本回声特征,样本原始特征与样本回声特征之和为样本混合特征。其中,在进行求和时,将样本原始特征与样本回声特征对应维度的特征值相加,得到样本混合特征。
在另一实施例中,服务器还能够采用损失函数训练比例获取模型。
服务器调用比例获取模型,对样本混合信号的样本混合特征进行处理,得到样本混合信号的预测比例,其中,样本混合信号中包括样本回声信号和样本原始信号;获取样本混合信号的样本混合特征与预测比例的乘积,将乘积作为预测原始特征;将预测原始特征与样本原始信号的样本原始特征的差值,作为样本混合信号对应的损失值;根据损失值,调整比例获取模型。
在一种可能实现方式中,根据该损失值的大小调整比例获取模型的模型参数,以使调整后的比例获取模型得到的损失值减小,直至损失值逐渐减小至最小值,完成对比例获取模型的训练。其中,最小值为0。
在一种可能实现方式中,得到预测原始特征与样本原始信号的样本原始特征的差值之后,将该差值的平方作为样本混合信号对应的损失值。例如,参见下述损失函数:
Loss=(Yclean+echo(w)Hmod el_coef(w)-Xclean(w))2;
其中,Loss为损失值,Yclean+echo(w)为样本混合信号对应的样本混合特征,Hmod el_coef(w)为预测比例,Xclean(w)为样本原始信号对应的样本原始特征。
需要说明的是,上述实施例仅是以服务器为执行主体为例进行说明,在另一实施例中,由终端训练比例获取模型,训练过程的实施方式与上述实施方式类似。
上述进行模型训练和回声消除的过程,参见图5,首先获取样本回声信号,然后构建包括样本回声信号和样本原始信号的样本混合信号,对样本混合信号进行特征提取,得到样本混合特征,作为待训练的比例获取模型的输入,训练比例获取模型,得到训练完成的比例获取模型之后,对待消除回声的第一语音信号进行特征提取,得到对应的第一语音特征,输入至比例获取模型得到非回声比例,然后进行回声检测,如果确定第一语音信号中包含回声信号,则将非回声比例与第一语音特征进行相乘,得到最终的第二语音信号。
图6是本申请实施例提供的一种回声消除装置的结构示意图。参见图6,该装置包括:
信号获取模块601,用于获取第一语音信号,第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号;
比例获取模块602,用于获取第一语音信号对应的非回声比例,非回声比例表示第一语音信号中非回声信号所占的比例;
回声检测模块603,用于根据非回声比例,对第一语音信号进行回声检测,得到检测参数,检测参数指示第一语音信号中包含回声信号的可能性;
回声消除模块604,用于响应于检测参数满足目标条件,对第一语音信号进行回声消除,得到第二语音信号。
本申请实施例提供的装置,在进行回声消除时,只需获取待消除回声信号的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率,从而降低了通信延迟。
在一种可能实现方式中,参见图7,回声检测模块603,包括:
比例确定单元6031,用于根据非回声比例,确定第一语音信号对应的回声比例,回声比例表示第一语音信号中回声信号所占的比例;
回声特征获取单元6032,用于将回声比例与第一语音特征相乘,得到回声信号的回声特征,第一语音特征为第一语音信号对应的特征;
能量确定单元6033,用于确定第一语音特征对应的第一频谱能量和回声特征对应的第二频谱能量;
参数确定单元6034,用于将第二频谱能量与第一频谱能量的比值,确定为检测参数。
在一种可能实现方式中,参见图7,能量确定单元6033,用于:
将第一语音特征中多个特征值之和,作为第一频谱能量;
将回声特征中多个特征值之和,作为第二频谱能量。
在一种可能实现方式中,参见图7,回声消除模块604,包括:
特征获取单元6041,用于响应于检测参数大于参考参数,将非回声比例与第一语音特征相乘,得到第二语音特征,第一语音特征为第一语音信号对应的特征;
特征转换单元6042,用于将第二语音特征转换为对应的第二语音信号。
在另一种可能实现方式中,所述非回声比例包括多个频带对应的比例,所述比例表示所述第一语音信号在对应频带上的非回声信号所占的比例;
所述第一语音特征包括所述多个频带对应的特征值,所述特征值表示所述第一语音信号在对应频带上的语音特征;
所述特征获取单元6041,用于将同一频带对应的比例与特征值相乘,得到非回声语音特征,将所述多个频带对应的非回声语音特征,构成所述第二语音特征。
在一种可能实现方式中,参见图7,比例获取模块602,包括:
特征提取单元6021,用于对第一语音信号进行特征提取,得到第一语音信号对应的第一语音特征;
比例获取单元6022,用于对第一语音特征进行处理,得到非回声比例。
在一种可能实现方式中,参见图7,比例获取单元6022,用于调用比例获取模型,对第一语音特征进行处理,得到非回声比例。
在一种可能实现方式中,比例获取模型的训练过程包括:
分别对样本回声信号和样本原始信号进行特征提取,得到样本回声信号对应的样本回声特征和样本原始信号对应的样本原始特征;
将样本回声特征和样本原始特征进行混合处理,得到样本混合特征;
根据样本原始特征与样本混合特征,确定样本比例;
根据样本混合特征和样本比例,训练比例获取模型。
在一种可能实现方式中,比例获取模型的训练过程包括:
对样本原始信号和样本回声信号进行混合处理,得到样本混合信号;
分别对样本混合信号和样本原始信号进行特征提取,得到样本混合信号对应的样本混合特征和样本原始信号对应的样本原始特征;
根据样本原始特征与样本混合特征,确定样本比例;
根据样本混合特征和样本比例,训练比例获取模型。
在一种可能实现方式中,比例获取模型的训练过程包括:
调用比例获取模型,对样本混合信号对应的样本混合特征进行处理,得到样本混合信号的预测比例,样本混合信号中包括样本回声信号和样本原始信号;
获取样本混合信号对应的样本混合特征与预测比例的乘积,将乘积作为预测原始特征;
将预测原始特征与样本原始信号对应的样本原始特征的差值,作为样本混合信号对应的损失值;
根据损失值,调整比例获取模型。
在一种可能实现方式中,信号获取模块601,用于:
获取任一终端采集的语音信号;
从语音信号中提取至少一帧语音信号;
将提取的语音信号作为第一语音信号,执行获取第一语音信号对应的非回声比例的步骤。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的回声消除装置在回声消除时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器或终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的回声消除装置与回声消除方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8是本申请实施例提供的一种终端800的结构示意图。该终端800可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一条程序代码,该至少一条程序代码用于被处理器801所执行以实现本申请中方法实施例提供的回声消除方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807和电源808中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置在终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在另一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
电源808用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源808包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器809。该一个或多个传感器809包括但不限于:加速度传感器810、陀螺仪传感器811、压力传感器812、光学传感器813以及接近传感器814。
加速度传感器810可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器810可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器810采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器810还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器811可以检测终端800的机体方向及转动角度,陀螺仪传感器811可以与加速度传感器810协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器811采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器812可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器812设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器812采集的握持信号进行左右手识别或快捷操作。当压力传感器812设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器813用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器813采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器813采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器814,也称距离传感器,设置在终端800的前面板。接近传感器814用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器814检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器814检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)901和一个或一个以上的存储器902,其中,存储器902中存储有至少一条程序代码,该至少一条程序代码由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器900可以用于执行上述回声消除方法中服务器所执行的步骤。
本申请实施例还提供了一种终端,该终端包括处理器和存储器,存储器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的回声消除方法中所执行的操作。
本申请实施例还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的回声消除方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的回声消除方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。终端或服务器的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得终端或服务器实现上述实施例的回声消除方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (19)
1.一种回声消除方法,其特征在于,所述方法包括:
获取第一语音信号,所述第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号;
对所述第一语音信号进行特征提取,得到所述第一语音信号对应的第一语音特征;
调用比例获取模型,对所述第一语音特征进行处理,得到所述第一语音信号对应的非回声比例,所述比例获取模型由样本回声信号和样本原始信号之间的比例训练得到,所述样本回声信号通过采集扬声器播放的语音通信中接收到的语音信号得到,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;
根据所述非回声比例,确定所述第一语音信号对应的回声比例,所述回声比例表示所述第一语音信号中回声信号所占的比例;
将所述回声比例与第一语音特征相乘,得到所述回声信号的回声特征,所述第一语音特征为所述第一语音信号对应的特征;
确定所述第一语音特征对应的第一频谱能量和所述回声特征对应的第二频谱能量;
将所述第二频谱能量与所述第一频谱能量的比值,确定为检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;
响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一语音特征对应的第一频谱能量和所述回声特征对应的第二频谱能量,包括:
将所述第一语音特征中多个特征值之和,作为所述第一频谱能量;
将所述回声特征中多个特征值之和,作为所述第二频谱能量。
3.根据权利要求1所述的方法,其特征在于,所述响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号,包括:
响应于所述检测参数大于参考参数,将所述非回声比例与第一语音特征相乘,得到第二语音特征,所述第一语音特征为所述第一语音信号对应的特征;
将所述第二语音特征转换为对应的第二语音信号。
4.根据权利要求3所述的方法,其特征在于,所述非回声比例包括多个频带对应的比例,所述比例表示所述第一语音信号在对应频带上的非回声信号所占的比例;
所述第一语音特征包括所述多个频带对应的特征值,所述特征值表示所述第一语音信号在对应频带上的语音特征;
所述将所述非回声比例与第一语音特征相乘,得到第二语音特征,包括:
将同一频带对应的比例与特征值相乘,得到非回声语音特征,将所述多个频带对应的非回声语音特征,构成所述第二语音特征。
5.根据权利要求1所述的方法,其特征在于,所述比例获取模型的训练过程包括:
分别对样本回声信号和样本原始信号进行特征提取,得到所述样本回声信号对应的样本回声特征和所述样本原始信号对应的样本原始特征;
将所述样本回声特征和所述样本原始特征进行混合处理,得到样本混合特征;
根据所述样本原始特征与所述样本混合特征,确定样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
6.根据权利要求1所述的方法,其特征在于,所述比例获取模型的训练过程包括:
对样本原始信号和样本回声信号进行混合处理,得到样本混合信号;
分别对所述样本混合信号和所述样本原始信号进行特征提取,得到所述样本混合信号对应的样本混合特征和所述样本原始信号对应的样本原始特征;
根据所述样本原始特征与所述样本混合特征,确定样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
7.根据权利要求1所述的方法,其特征在于,所述比例获取模型的训练过程包括:
调用所述比例获取模型,对样本混合信号对应的样本混合特征进行处理,得到所述样本混合信号的预测比例,所述样本混合信号中包括样本回声信号和样本原始信号;
获取所述样本混合信号对应的样本混合特征与所述预测比例的乘积,将所述乘积作为预测原始特征;
将所述预测原始特征与所述样本原始信号对应的样本原始特征的差值,作为所述样本混合信号对应的损失值;
根据所述损失值,调整所述比例获取模型。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述获取第一语音信号,包括:
获取所述任一终端采集的语音信号;
从所述语音信号中提取至少一帧语音信号;
将提取的语音信号作为所述第一语音信号,执行获取所述第一语音信号对应的非回声比例的步骤。
9.一种回声消除装置,其特征在于,所述装置包括:
信号获取模块,用于获取第一语音信号,所述第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号;
比例获取模块,用于对所述第一语音信号进行特征提取,得到所述第一语音信号对应的第一语音特征;
调用比例获取模型,对所述第一语音特征进行处理,得到所述第一语音信号对应的非回声比例,所述比例获取模型由样本回声信号和样本原始信号之间的比例训练得到,所述样本回声信号通过采集扬声器播放的语音通信中接收到的语音信号得到,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;
回声检测模块,用于根据所述非回声比例,确定所述第一语音信号对应的回声比例,所述回声比例表示所述第一语音信号中回声信号所占的比例;将所述回声比例与第一语音特征相乘,得到所述回声信号的回声特征,所述第一语音特征为所述第一语音信号对应的特征;确定所述第一语音特征对应的第一频谱能量和所述回声特征对应的第二频谱能量;将所述第二频谱能量与所述第一频谱能量的比值,确定为检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;
回声消除模块,用于响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。
10.根据权利要求9所述的装置,其特征在于,所述回声检测模块,用于:
将所述第一语音特征中多个特征值之和,作为所述第一频谱能量;
将所述回声特征中多个特征值之和,作为所述第二频谱能量。
11.根据权利要求9所述的装置,其特征在于,所述回声消除模块,包括:
特征获取单元,用于响应于所述检测参数大于参考参数,将所述非回声比例与第一语音特征相乘,得到第二语音特征,所述第一语音特征为所述第一语音信号对应的特征;
特征转换单元,用于将所述第二语音特征转换为对应的第二语音信号。
12.根据权利要求11所述的装置,其特征在于,所述非回声比例包括多个频带对应的比例,所述比例表示所述第一语音信号在对应频带上的非回声信号所占的比例;
所述第一语音特征包括所述多个频带对应的特征值,所述特征值表示所述第一语音信号在对应频带上的语音特征;
所述特征获取单元,用于将同一频带对应的比例与特征值相乘,得到非回声语音特征,将所述多个频带对应的非回声语音特征,构成所述第二语音特征。
13.根据权利要求9所述的装置,其特征在于,所述比例获取模型的训练过程包括:
分别对样本回声信号和样本原始信号进行特征提取,得到所述样本回声信号对应的样本回声特征和所述样本原始信号对应的样本原始特征;
将所述样本回声特征和所述样本原始特征进行混合处理,得到样本混合特征;
根据所述样本原始特征与所述样本混合特征,确定样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
14.根据权利要求9所述的装置,其特征在于,所述比例获取模型的训练过程包括:
对样本原始信号和样本回声信号进行混合处理,得到样本混合信号;
分别对所述样本混合信号和所述样本原始信号进行特征提取,得到所述样本混合信号对应的样本混合特征和所述样本原始信号对应的样本原始特征;
根据所述样本原始特征与所述样本混合特征,确定样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
15.根据权利要求9所述的装置,其特征在于,所述比例获取模型的训练过程包括:
调用所述比例获取模型,对样本混合信号的样本混合特征进行处理,得到所述样本混合信号的预测比例,所述样本混合信号中包括样本回声信号和样本原始信号;
获取所述样本混合信号的样本混合特征与所述预测比例的乘积,将所述乘积作为预测原始特征;
将所述预测原始特征与所述样本原始信号的样本原始特征的差值,作为所述样本混合信号对应的损失值;
根据所述损失值,调整所述比例获取模型。
16.根据权利要求9-15任一项所述的装置,其特征在于,所述信号获取模块,用于获取所述任一终端采集的语音信号;从所述语音信号中提取至少一帧语音信号;将提取的语音信号作为所述第一语音信号,执行获取所述第一语音信号对应的非回声比例的步骤。
17.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至8任一权利要求所述的回声消除方法中所执行的操作。
18.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至8任一权利要求所述的回声消除方法中所执行的操作。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至8任一权利要求所述的回声消除方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959682.4A CN112750449B (zh) | 2020-09-14 | 2020-09-14 | 回声消除方法、装置、终端、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959682.4A CN112750449B (zh) | 2020-09-14 | 2020-09-14 | 回声消除方法、装置、终端、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112750449A CN112750449A (zh) | 2021-05-04 |
CN112750449B true CN112750449B (zh) | 2024-02-20 |
Family
ID=75645417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010959682.4A Active CN112750449B (zh) | 2020-09-14 | 2020-09-14 | 回声消除方法、装置、终端、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750449B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744748A (zh) * | 2021-08-06 | 2021-12-03 | 浙江大华技术股份有限公司 | 一种网络模型的训练方法、回声消除方法及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6606595B1 (en) * | 2000-08-31 | 2003-08-12 | Lucent Technologies Inc. | HMM-based echo model for noise cancellation avoiding the problem of false triggers |
CN1510891A (zh) * | 2002-10-25 | 2004-07-07 | �ż��� | 回声的检测和监视 |
KR100647826B1 (ko) * | 2005-06-02 | 2006-11-23 | 한국과학기술원 | 측정된 잡음을 고려한 암묵 반향제거 모델 및 그 유도방법 |
CN102227905A (zh) * | 2008-12-02 | 2011-10-26 | 高通股份有限公司 | 用于恶劣声学环境中的双方通话检测的系统及方法 |
CN105791611A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 回声消除方法及装置 |
CN106576205A (zh) * | 2014-08-13 | 2017-04-19 | 三菱电机株式会社 | 回声消除装置 |
US9653060B1 (en) * | 2016-02-09 | 2017-05-16 | Amazon Technologies, Inc. | Hybrid reference signal for acoustic echo cancellation |
CN109286730A (zh) * | 2017-07-20 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 一种回声检测的方法、装置及系统 |
WO2020042706A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN111161752A (zh) * | 2019-12-31 | 2020-05-15 | 歌尔股份有限公司 | 回声消除方法和装置 |
CN111179957A (zh) * | 2020-01-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种语音通话的处理方法以及相关装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050971A (zh) * | 2013-03-15 | 2014-09-17 | 杜比实验室特许公司 | 声学回声减轻装置和方法、音频处理装置和语音通信终端 |
-
2020
- 2020-09-14 CN CN202010959682.4A patent/CN112750449B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6606595B1 (en) * | 2000-08-31 | 2003-08-12 | Lucent Technologies Inc. | HMM-based echo model for noise cancellation avoiding the problem of false triggers |
CN1510891A (zh) * | 2002-10-25 | 2004-07-07 | �ż��� | 回声的检测和监视 |
KR100647826B1 (ko) * | 2005-06-02 | 2006-11-23 | 한국과학기술원 | 측정된 잡음을 고려한 암묵 반향제거 모델 및 그 유도방법 |
CN102227905A (zh) * | 2008-12-02 | 2011-10-26 | 高通股份有限公司 | 用于恶劣声学环境中的双方通话检测的系统及方法 |
CN106576205A (zh) * | 2014-08-13 | 2017-04-19 | 三菱电机株式会社 | 回声消除装置 |
US9653060B1 (en) * | 2016-02-09 | 2017-05-16 | Amazon Technologies, Inc. | Hybrid reference signal for acoustic echo cancellation |
CN105791611A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 回声消除方法及装置 |
CN109286730A (zh) * | 2017-07-20 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 一种回声检测的方法、装置及系统 |
WO2020042706A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN111161752A (zh) * | 2019-12-31 | 2020-05-15 | 歌尔股份有限公司 | 回声消除方法和装置 |
CN111179957A (zh) * | 2020-01-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种语音通话的处理方法以及相关装置 |
Non-Patent Citations (1)
Title |
---|
基于BLSTM神经网络的回声和噪声抑制算法;王冬霞;张伟;于玲;刘孟美;;信号处理(06);第205-214页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112750449A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445901B (zh) | 音频数据获取方法、装置、电子设备及存储介质 | |
CN111986691B (zh) | 音频处理方法、装置、计算机设备及存储介质 | |
CN112614500B (zh) | 回声消除方法、装置、设备及计算机存储介质 | |
CN111863020B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
CN111739517B (zh) | 语音识别方法、装置、计算机设备及介质 | |
CN111933167B (zh) | 电子设备的降噪方法、装置、存储介质及电子设备 | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN112870697B (zh) | 基于虚拟关系养成程序的交互方法、装置、设备及介质 | |
CN112750449B (zh) | 回声消除方法、装置、终端、服务器及存储介质 | |
CN113409805B (zh) | 人机交互方法、装置、存储介质及终端设备 | |
CN115168643B (zh) | 音频处理方法、装置、设备及计算机可读存储介质 | |
CN111554314A (zh) | 噪声检测方法、装置、终端及存储介质 | |
CN115331689A (zh) | 语音降噪模型的训练方法、装置、设备、存储介质及产品 | |
CN113012064B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN115334413B (zh) | 语音信号处理方法、系统、装置及电子设备 | |
CN117998166B (zh) | 视频生成模型的训练方法、装置、设备、存储介质和产品 | |
CN114283827B (zh) | 音频去混响方法、装置、设备和存储介质 | |
CN110141860B (zh) | 竞技行为确定方法、装置、计算机设备及存储介质 | |
CN116935824B (zh) | 音频数据的滤波方法、装置、设备和存储介质 | |
CN116704080B (zh) | 眨眼动画生成方法、装置、设备及存储介质 | |
CN110795465B (zh) | 用户规模预估方法、装置、服务器及存储介质 | |
CN117763232A (zh) | 资源推荐方法、装置、设备及计算机可读存储介质 | |
CN117524227A (zh) | 语音控制方法、装置、设备及计算机可读存储介质 | |
CN117998166A (zh) | 视频生成模型的训练方法、装置、设备、存储介质和产品 | |
CN116939431A (zh) | 处理人声音频的方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043558 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |