CN112750449A - 回声消除方法、装置、终端、服务器及存储介质 - Google Patents

回声消除方法、装置、终端、服务器及存储介质 Download PDF

Info

Publication number
CN112750449A
CN112750449A CN202010959682.4A CN202010959682A CN112750449A CN 112750449 A CN112750449 A CN 112750449A CN 202010959682 A CN202010959682 A CN 202010959682A CN 112750449 A CN112750449 A CN 112750449A
Authority
CN
China
Prior art keywords
echo
signal
voice
sample
proportion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010959682.4A
Other languages
English (en)
Other versions
CN112750449B (zh
Inventor
夏咸军
朱鸿宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010959682.4A priority Critical patent/CN112750449B/zh
Publication of CN112750449A publication Critical patent/CN112750449A/zh
Application granted granted Critical
Publication of CN112750449B publication Critical patent/CN112750449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例公开了一种回声消除方法、装置、终端、服务器及存储介质,属于语音处理技术领域。该方法包括:获取第一语音信号,获取所述第一语音信号对应的非回声比例,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。该方法减少了需要处理的数据量,提高了处理效率,从而降低了通信延迟。

Description

回声消除方法、装置、终端、服务器及存储介质
技术领域
本申请实施例涉及语音处理技术领域,特别涉及一种回声消除方法、装置、 终端、服务器及存储介质。
背景技术
随着语音处理技术的发展,用户对语音信号的播放质量要求也越来越高。 而在至少两个用户进行语音通信的过程中,任一用户上传的语音信号中不仅包 含该用户自己发出的语音信号,还可能会包括与该用户进行语音通信的其他用 户的回声信号,这会影响语音信号的质量,因此需要消除语音信号中的回声信 号。
目前,通常会调用神经网络模型,消除语音信号中的回声信号,但是在语 音通信过程中会采集到每个终端发送的语音信号,则需要对每个终端发送的语 音信号进行回声消除,处理的数据量较大,耗费的时间较长,导致语音信号的 通信延迟较高。
发明内容
本申请实施例提供了一种回声消除方法、装置、终端、服务器及存储介质, 降低了通信延迟。所述技术方案如下:
一方面,提供了一种回声消除方法,所述方法包括:
获取第一语音信号,所述第一语音信号为进行语音通信的多个终端中的任 一终端采集的语音信号;
获取所述第一语音信号对应的非回声比例,所述非回声比例表示所述第一 语音信号中非回声信号所占的比例;
根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数, 所述检测参数指示所述第一语音信号中包含回声信号的可能性;
响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除, 得到第二语音信号。
另一方面,提供了一种回声消除装置,所述装置包括:
信号获取模块,用于获取第一语音信号,所述第一语音信号为进行语音通 信的多个终端中的任一终端采集的语音信号;
比例获取模块,用于获取所述第一语音信号对应的非回声比例,所述非回 声比例表示所述第一语音信号中非回声信号所占的比例;
回声检测模块,用于根据所述非回声比例,对所述第一语音信号进行回声 检测,得到检测参数,所述检测参数指示所述第一语音信号中包含回声信号的 可能性;
回声消除模块,用于响应于所述检测参数满足目标条件,对所述第一语音 信号进行回声消除,得到第二语音信号。
在一种可能实现方式中,所述回声检测模块,包括:
比例确定单元,用于根据所述非回声比例,确定所述第一语音信号对应的 回声比例,所述回声比例表示所述第一语音信号中回声信号所占的比例;
回声特征获取单元,用于将所述回声比例与第一语音特征相乘,得到所述 回声信号的回声特征,所述第一语音特征为所述第一语音信号对应的特征;
能量确定单元,用于确定所述第一语音特征对应的第一频谱能量和所述回 声特征对应的第二频谱能量;
参数确定单元,用于将所述第二频谱能量与所述第一频谱能量的比值,确 定为所述检测参数。
在另一种可能实现方式中,所述能量确定单元,用于:
将所述第一语音特征中多个特征值之和,作为所述第一频谱能量;
将所述回声特征中多个特征值之和,作为所述第二频谱能量。
在另一种可能实现方式中,所述回声消除模块,包括:
特征获取单元,用于响应于所述检测参数大于参考参数,将所述非回声比 例与第一语音特征相乘,得到第二语音特征,所述第一语音特征为所述第一语 音信号对应的特征;
特征转换单元,用于将所述第二语音特征转换为对应的第二语音信号。
在另一种可能实现方式中,所述非回声比例包括多个频带对应的比例,所 述比例表示所述第一语音信号在对应频带上的非回声信号所占的比例;
所述第一语音特征包括所述多个频带对应的特征值,所述特征值表示所述 第一语音信号在对应频带上的语音特征;
所述特征获取单元,用于将同一频带对应的比例与特征值相乘,得到非回 声语音特征,将所述多个频带对应的非回声语音特征,构成所述第二语音特征。
在另一种可能实现方式中,所述比例获取模块,包括:
特征提取单元,用于对所述第一语音信号进行特征提取,得到所述第一语 音信号对应的第一语音特征;
比例获取单元,用于对所述第一语音特征进行处理,得到所述非回声比例。
在另一种可能实现方式中,所述比例获取单元,用于调用比例获取模型, 对所述第一语音特征进行处理,得到所述非回声比例。
在另一种可能实现方式中,所述比例获取模型的训练过程包括:
分别对样本回声信号和样本原始信号进行特征提取,得到所述样本回声信 号对应的样本回声特征和所述样本原始信号对应的样本原始特征;
将所述样本回声特征和所述样本原始特征进行混合处理,得到样本混合特 征;
根据所述样本原始特征与所述样本混合特征,确定所述样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
在另一种可能实现方式中,所述比例获取模型的训练过程包括:
对样本原始信号和样本回声信号进行混合处理,得到样本混合信号;
分别对所述样本混合信号和所述样本原始信号进行特征提取,得到所述样 本混合信号对应的样本混合特征和所述样本原始信号对应的样本原始特征;
根据所述样本原始特征与所述样本混合特征,确定所述样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
在另一种可能实现方式中,所述比例获取模型的训练过程包括:
调用所述比例获取模型,对样本混合信号的样本混合特征进行处理,得到 所述样本混合信号的预测比例,所述样本混合信号中包括样本回声信号和样本 原始信号;
获取所述样本混合信号的样本混合特征与所述预测比例的乘积,将所述乘 积作为预测原始特征;
将所述预测原始特征与所述样本原始信号的样本原始特征的差值,作为所 述样本混合信号对应的损失值;
根据所述损失值,调整所述比例获取模型。
在另一种可能实现方式中,所述信号获取模块,用于:
获取所述任一终端采集的语音信号;
从所述语音信号中提取至少一帧语音信号;
将提取的语音信号作为所述第一语音信号,执行所述获取所述第一语音信 号对应的非回声比例的步骤。
另一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器 中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行, 以实现如上述方面所述的回声消除方法中所执行的操作。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存 储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并 执行,以实现如上述方面所述的回声消除方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中 存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实 现如上述方面所述的回声消除方法中所执行的操作。
另一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产 品或所述计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机 可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机 程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述 方面所述的回声消除方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方法,在进行回声消除时,只需获取待消除回声信号 的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否 包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包 含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率, 从而降低了通信延迟。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种回声消除方法的流程图;
图3是本申请实施例提供的另一种回声消除方法的流程图;
图4是本申请实施例提供的一种模型训练方法的流程图;
图5是本申请实施例提供的一种模型训练和使用过程的示意图;
图6是本申请实施例提供的一种回声消除装置的结构示意图;
图7是本申请实施例提供的另一种回声消除装置的结构示意图;
图8是本申请实施例提供的一种终端的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对 本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种 概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个 概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将 第一语音信号称为第二语音信号,将第二语音信号称为第一语音信号。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包 括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中 的每一个,任一是指多个中的任意一个。举例来说,多个语音信号包括3个语 音信号帧,而每个语音信号是指这3个语音信号中的每一个语音信号,任一是 指这3个语音信号中的任意一个,可以是第一个,可以是第二个,也可以是第 三个。
为了便于理解本申请实施例,先对本申请实施例涉及到的关键词进行解释:
回声信号:在语音通信过程中,其他终端发送的语音信号通过终端扬声器 播放,在封闭或半封闭环境中经过多次反射,然后被麦克风采集,从而形成回 声信号。
例如,对于语音通信过程中的第一用户和第二用户,第一用户的语音信号 由第一终端的麦克风采集,然后发送给第二终端,第二终端通过扬声器播放第 一用户的语音信号。第二终端的麦克风在采集第二用户的语音信号时,也会采 集到播放的第一用户的语音信号,从而第二终端发送给第一终端的语音信号中, 会包括第一用户的语音信号,对于第一用户而言,听到的语音信号中存在回声 信号。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最 佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的 一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似 的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与 实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有 软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、 云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。 人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技 术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、 统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样 模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结 构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智 能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包 括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技 术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用, 例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人 驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的 发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉技术或机器学习等技 术,具体通过下述实施例进行说明。
本申请实施例提供的回声消除方法,能够应用于语音通信场景下。
例如,应用于多人会议场景下。多个员工在参加语音会议时,不同员工所 在的房间不同,对于任一员工,该任一员工通过终端的扬声器播放其他员工的 语音信号,语音信号会在房间中进行多次反射,再次被终端的麦克风采集到, 产生回声信号,此时能够采用本申请实施例提供的回声消除方法,消除产生的 回声信号,使其他员工通过其他终端播放语音信号时,不会听到回声信号。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境 包括多个终端101(图1中以2个为例)和服务器102。终端101和服务器102 之间通过无线或者有线网络连接。
多个终端101为语音通信中的多个终端,任一终端101在语音通信过程中, 能够采集用户发出的语音信号,并发送给其他终端,从而实现多个终端之间的 语音通信。服务器102为多个终端101提供语音通信服务。
其中,终端101为电脑、手机、平板电脑或者其他终端。服务器102可以 是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式 系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、 云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network, 内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一种可能实现方式中,终端101上安装由服务器102提供服务的目标应 用,终端101能够通过该目标应用实现语音通信功能。其中,目标应用为终端 101操作系统中的目标应用,或者为第三方提供的目标应用。
在实时通信会议中,为了提高语音信号的质量,需要对采集的语音信号进 行处理,包括噪音消除(Acoustic Noise Cancellation,ANC)、自动增益控制 (Automatic GainControl,AGC)以及回声消除(Acoustic Echo Cancellation,AEC) 等。其中,噪音消除是为了消除语音信号中的噪音,自动增益控制是为了保证 输出的语音信号为平稳的语音信号,回声消除是为了消除语音信号中的回声信 号。
回声消除是语音信号处理中的重要部分,通过下述实施例对回声消除方法 进行说明。
图2是本申请实施例提供的一种回声消除方法的流程图。本申请实施例的 执行主体为服务器,参见图2,该方法包括以下步骤:
201、服务器获取第一语音信号。
在语音通信过程中,每个终端会采集语音信号,将采集到的语音信号发送 给其他终端,从而实现语音通信,为了提高语音信号的质量,需要消除语音信 号中的回声信号。
本申请实施例中,任一终端将采集的语音信号发送给服务器,由服务器对 接收到的语音信号进行处理,以消除语音信号中的回声信号,然后服务器将消 除回声信号后的语音信号发送给语音通信中的其他终端。其中,任一终端会采 集产生的回声信号和用户发出的语音信号,从而得到包含回声信号的语音信号。
本申请实施例以采集到第一语音信号为例,第一语音信号为进行语音通信 的多个终端中的任一终端采集的语音信号。
202、服务器获取第一语音信号对应的非回声比例。
服务器获取到第一语音信号之后,对第一语音信号进行处理,得到第一语 音信号对应的非回声比例。其中,非回声比例表示第一语音信号中非回声信号 所占的比例,该非回声比例为一个数值或者是由多个数值组成的一个矩阵,如 果该非回声比例是由多个数值组成的一个矩阵,每个数值为第一语音信号在对 应频带上的非回声信号所占的比例。其中,每个数值的取值范围为0到1。
例如,该非回声比例为(0.65,0.7,0.65),表示第一语音信号在第一个维 度上非回声信号所占的比例为0.65,在第二个维度上非回声信号所占的比例为 0.7,在第三个维度上非回声信号所占的比例为0.65。
203、服务器根据非回声比例,对第一语音信号进行回声检测,得到检测参 数。
为了避免对不包含回声信号的第一语音信号进行回声消除,影响第一语音 信号的质量,需要对第一语音信号进行回声检测,以确定第一语音信号中是否 包含回声信号,对于包含回声信号的第一语音信号,执行后续的回声消除操作, 对于不包含回声信号的第一语音信号,则不需要执行回声消除操作。
根据非回声比例能够确定第一语音信号中回声信号所占的比例,即回声比 例,根据回声比例的大小能够初步检测该第一语音信号中是否包含回声信号, 但是由于回声比例包括多个维度上的数值,不同维度上的数值不统一,因此需 要对回声比例进行进一步处理,得到检测参数,该检测参数指示第一语音信号 中包含回声信号的可能性,即第一语音信号中包含回声信号的概率。
其中,检测参数为大于0小于1的任一数值,例如,检测参数为0.6、0.7 等数值。
204、服务器响应于检测参数满足目标条件,对第一语音信号进行回声消除, 得到第二语音信号。
其中,目标条件是指检测参数大于参考参数,如果检测参数满足目标条件 即表示第一语音信号中包含回声信号,对第一语音信号进行回声消除,得到第 二语音信号。如果检测参数不大于参考参数,则表示第一语音信号中不包含回 声,不需要对第一语音信号进行回声消除,第一语音信号即为第二语音信号。 其中,参考参数为大于0小于1的任一数值,例如,参考参数为0.5、0.6等数 值。
需要说明的是,本申请实施例仅是以服务器为执行主体为例进行说明,在 另一实施例中,由终端执行回声消除方法,该终端为采集第一语音信号的终端, 或者为播放消除回声后得到的第二语音信号的终端。
如果执行上述步骤的终端是采集第一语音信号的终端,则终端对采集的第 一语音信号进行回声消除之后,发送给服务器,由服务器发送给进行语音通信 的其他终端,由其他终端播放消除回声后得到的第二语音信号;如果执行上述 步骤的终端是播放第二语音信号的终端,则采集第一语音信号的终端将第一语 音信号发送给服务器,服务器将第一语音信号发送给终端,终端对接收到的第 一语音信号进行回声消除之后,播放消除回声后得到的第二语音信号。
本申请实施例提供的方法,在进行回声消除时,只需获取待消除回声信号 的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否 包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包 含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率, 从而降低了通信延迟。
图3是本申请实施例提供的另一种回声消除方法的流程图。本申请实施例 的执行主体为服务器,参见图3,该方法包括以下步骤:
301、服务器获取第一语音信号。
终端在采集语音信号时,采集多帧语音信号,对于不同帧的语音信号,可 能部分帧的语音信号中包含回声信号,另一部分帧的语音信号中不包含回声信 号,且随着时间的增长,语音信号在环境中经过多次反射得到的回声信号也会 逐渐减小直至消失。因此在对采集的多帧语音信号进行回声消除时,部分帧的 语音信号是不需要进行回声消除的,因此需要分别针对每帧语音信号进行回声 消除。
本申请实施例中,第一语音信号为采集的任一帧语音信号。在一种可能实 现方式中,服务器获取任一终端采集的语音信号,该采集的语音信号中包含至 少一帧语音信号,服务器从该语音信号中提取至少一帧语音信号,将提取的语 音信号作为第一语音信号。
在一种可能实现方式中,服务器对采集的语音信号进行分帧处理,将语音 信号分为多个片段,但是由于分帧后相邻的任两个片段之间不能够存在重叠部 分,在分帧时相邻的两个片段之间会存在间断,分帧越多间断也会越多,导致 分帧后的语音信号与分帧前的语音信号之间的差别也越大,为了避免这种情况, 还会进行加窗处理,保证分帧后的语音信号仍然是连续的。
302、服务器对第一语音信号进行特征提取,得到第一语音信号对应的第一 语音特征。
其中,第一语音特征用于描述第一语音信号,该第一语音特征为多维特征, 包括多个特征值,每个特征值表示对应的维度上的语音信号。
在一种可能实现方式中,服务器对第一语音信号进行傅里叶变换,得到该 第一语音信号的频谱能量分布,对该频谱能量分布求取平方并求取对数,得到 对数能量频谱特征,作为第一语音信号对应的第一语音特征。或者,服务器还 能够采用离散小波变换、线性预测系数、梅尔倒谱系数等方式对第一语音信号 进行特征提取。
303、服务器调用比例获取模型,对第一语音特征进行处理,得到非回声比 例。
本申请实施例中,服务器将第一语音特征输入至比例获取模型,调用比例 获取模型对该第一语音特征进行处理,得到非回声比例。
其中,第一语音特征为多维特征,得到的非回声比例与第一语音特征维数 相同。例如,第一语音特征为三维特征,那么非回声比例也为三维比例,每个 维度对应的比例数值与同一维度的语音特征对应。
在一种可能实现方式中,比例获取模型为服务器训练并存储的,或者是由 其他服务器或终端训练,然后发送给服务器的。
在使用比例获取模型之前,需要训练该比例获取模型,比例获取模型的训 练过程参见下述图4所示的实施例,在此不再赘述。
304、服务器根据非回声比例,对第一语音信号进行回声检测,得到检测参 数。
服务器首先根据非回声比例,确定第一语音信号对应的回声比例,即1减 去非回声比例即为回声比例,如果非回声比例为多维的,则1分别减去每个维 度上的数值,得到回声比例。其中,回声比例表示第一语音信号中回声信号所 占的比例。然后服务器将回声比例与第一语音特征相乘,得到回声信号的回声 特征,确定第一语音特征对应的第一频谱能量和回声特征对应的第二频谱能量, 将第二频谱能量与第一频谱能量的比值,确定为检测参数。其中,回声特征用 于描述回声信号。
在一种可能实现方式中,确定第一语音特征对应的第一频谱能量和回声特 征对应的第二频谱能量,包括:将第一语音特征中多个特征值之和,作为第一 频谱能量;将回声特征中多个特征值之和,作为第二频谱能量。
例如,采用下述公式获取检测参数:
Figure BDA0002680038080000111
其中,Secho(w)为第二频谱能量,Secho+clean(w)为第一频谱能量,N表示N 维,p为非回声比例,Yecho+clean(wn)为第一语音特征。
305、服务器响应于检测参数大于参考参数,将非回声比例与第一语音特征 相乘,得到第二语音特征。
306、服务器将第二语音特征转换为对应的第二语音信号。
如果检测参数大于参考参数,表示第一语音信号中包含回声信号,需要进 行回声消除,则将非回声比例与第一语音特征相乘,即可得到第二语音特征, 该第二语音特征即为非回声信号的特征。对得到的第二语音特征进行傅里叶反 变换,得到第二语音信号。
在一种可能实现方式中,非回声比例包括多个频带对应的比例,比例表示 第一语音信号在对应频带上的非回声信号所占的比例;第一语音特征包括多个 频带对应的特征值,特征值表示第一语音信号在对应频带上的语音特征;将非 回声比例与第一语音特征相乘,包括:将同一频带对应的比例与特征值相乘, 得到非回声语音特征,将多个频带对应的非回声语音特征,构成第二语音特征, 即第二语音特征包括多个频带对应的非回声语音特征。
例如,非回声比例为一个比例矩阵,比例矩阵中的每个元素表示一个频带 上的非回声信号所占的比例,第一语音特征为一个特征矩阵,特征矩阵中的每 个元素表示一个频带上的语音特征,将比例矩阵与特征矩阵相乘,得到第二语 音特征对应的特征矩阵。
如果检测参数不大于参考参数,表示第一语音信号中不包含回声信号,无 需进行回声消除,不对第一语音信号进行回声消除,保留原来的第一语音信号 即可。或者,将非回声比例中的每个数值设置为1,得到新的非回声比例,将该 新的非回声比例与第一语音特征相乘。
在一种可能实现方式中,服务器得到第二语音信号之后,将第二语音信号 发送给语音通信中除采集第一语音信号的终端之外的其他终端,由其他终端播 放该第二语音信号。
需要说明的一点是,本申请实施例仅是以多帧语音信号中的第一语音信号 为例进行说明,对于采集的语音信号中的每帧语音信号能够采用与上述实施方 式类似的实施方式进行回声消除。
需要说明的另一点是,本申请实施例仅是以将第一语音信号对应的第一语 音特征作为比例获取模型的输入为例进行说明,在另一实施例中,能够将第一 语音信号作为比例获取模型的输入,由比例获取模型对第一语音信号进行特征 提取得到对应的第一语音特征。
本申请实施例提供的方法,在进行回声消除时,只需获取待消除回声信号 的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否 包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包 含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率, 从而降低了通信延迟。
并且,对于不包含回声信号的语音信号,不需要进行处理,减少了需要处 理的数据量的同时,还能够保证最大程度的保留原来的语音信号,不对原来的 语音信号的质量造成影响。且将回声信号当作一种噪音,而不是语音信号,对 于硬件设备处理回声信号之后得到的残留回声信号,也能够进行回声消除。
另外,相关技术中,采用传统信号处理,基于自适应滤波算法消除回声。 该方法使用不同的自适应滤波算法来调整滤波器的权重,估计近似的回声路径 模拟真实环境中的回声路径,从而得到估计的回声信号,将回声信号从语音信 号中消除,实现回声消除。但是这种方式需要采集完整的回声信号,如果多个 用户同时说话,则无法采用这种方式进行回声消除,并且如果回声路径发生了 变化,例如用户从一个房间移动至另一个房间,这两个房间中对语音信号的反 射不完全相同,导致回声路径发生变化,原来的回声路径不再适用,导致无法 进行回声消除。
而本申请实施例提供方法,与相关技术中的传统信号处理方式相比,能够 应用于任意语音通信场景下,不会受通信环境的影响,且能够对任意回声信号 进行消除,扩展了应用范围。
在使用比例获取模型获取非回声比例之前,需要对比例获取模型进行训练。 下面对比例获取模型的训练过程进行说明。
图4是本申请实施例提供的一种模型训练方法的流程图。本申请实施例的 执行主体为服务器,参见图4,该方法包括以下步骤:
401、服务器获取样本回声信号和样本原始信号。
获取样本回声信号的过程包括:多个终端进行语音通信,由其中任一终端 向其他终端发送语音信号,其他终端处于安静的环境中,采用扬声器播放接收 到的语音信号,此时其他终端的麦克风采集到的语音信号即为回声信号,将该 回声信号作为样本回声信号,发送给服务器。
样本原始信号为任一语音信号。例如,样本原始信号为不同的用户发出的 语音信号。
402、服务器对样本回声信号和样本原始信号进行混合处理,得到样本混合 信号。
将采集到的样本回声信号与样本原始信号在时域上进行叠加,生成样本混 合信号。其中,能够将同一样本回声信号与不同的样本原始信号进行混合,得 到不同的样本混合信号,或者将不同的样本回声信号与同一样本原始信号进行 混合,得到不同的样本混合信号,或者将不同的样本回声信号与不同的样本原 始信号进行混合,得到不同的样本混合信号。
403、服务器对样本混合信号和样本原始信号进行特征提取,得到样本混合 信号对应的样本混合特征和样本原始信号对应的样本原始特征。
特征提取的实施方式与上述步骤302的实施方式类似,在此不再赘述。
404、服务器根据样本原始特征和样本混合特征,确定样本比例。
将样本原始特征与样本混合特征的比值作为样本比例。例如,参见下述公 式:
Figure BDA0002680038080000141
其中,Hmodelcoef(w)为样本比例,Xclean(w)为样本原始特征,Yecho+clean(w) 为样本混合特征。
405、服务器根据样本混合特征和样本比例,训练比例获取模型。
服务器将样本混合特征输入至待训练的比例获取模型,比例获取模型输出 比例,对比预测比例与样本比例之间的差异,调整比例获取模型的各项参数, 以减小差异,使比例获取模型学习到根据语音信号的语音特征确定非回声比例 的能量。
在一种可能实现方式中,调用比例获取模型,对语音特征进行处理得到非 回声比例之后,还能够重复执行上述训练过程,继续对比例获取模型进行训练。
上述实施例仅是一种训练比例获取模型的方法,在另一实施例中,不需要 获取样本混合信号,能够直接对分别对样本回声信号和样本原始信号进行特征 提取,得到样本回声信号对应的样本回声特征和样本原始信号对应的样本原始 特征;将样本回声特征和样本原始特征进行混合处理,得到样本混合特征,然 后获取样本比例,根据样本混合特征和样本比例,训练比例获取模型。
在一种可能实现方式中,采用下述公式确定样本比例:
Figure BDA0002680038080000142
其中,Hmodelcoef(w)为样本比例,Xclean(w)为样本原始特征,Zecho(w)为 样本回声特征,样本原始特征与样本回声特征之和为样本混合特征。其中,在 进行求和时,将样本原始特征与样本回声特征对应维度的特征值相加,得到样 本混合特征。
在另一实施例中,服务器还能够采用损失函数训练比例获取模型。
服务器调用比例获取模型,对样本混合信号的样本混合特征进行处理,得 到样本混合信号的预测比例,其中,样本混合信号中包括样本回声信号和样本 原始信号;获取样本混合信号的样本混合特征与预测比例的乘积,将乘积作为 预测原始特征;将预测原始特征与样本原始信号的样本原始特征的差值,作为 样本混合信号对应的损失值;根据损失值,调整比例获取模型。
在一种可能实现方式中,根据该损失值的大小调整比例获取模型的模型参 数,以使调整后的比例获取模型得到的损失值减小,直至损失值逐渐减小至最 小值,完成对比例获取模型的训练。其中,最小值为0。
在一种可能实现方式中,得到预测原始特征与样本原始信号的样本原始特 征的差值之后,将该差值的平方作为样本混合信号对应的损失值。例如,参见 下述损失函数:
Loss= (Yclean+echo(w)Hmodel_coef(w)- Xclean(w))2
其中,Loss为损失值,Yclean+echo(w)为样本混合信号 对应的样本混合特征,Hmodel_coef(w)为预测比例, Xclean(w)为样本原始信号对应的样本原始特征。
需要说明的是,上述实施例仅是以服务器为执行主体为例进行说明,在另 一实施例中,由终端训练比例获取模型,训练过程的实施方式与上述实施方式 类似。
上述进行模型训练和回声消除的过程,参见图5,首先获取样本回声信号, 然后构建包括样本回声信号和样本原始信号的样本混合信号,对样本混合信号 进行特征提取,得到样本混合特征,作为待训练的比例获取模型的输入,训练 比例获取模型,得到训练完成的比例获取模型之后,对待消除回声的第一语音 信号进行特征提取,得到对应的第一语音特征,输入至比例获取模型得到非回 声比例,然后进行回声检测,如果确定第一语音信号中包含回声信号,则将非 回声比例与第一语音特征进行相乘,得到最终的第二语音信号。
图6是本申请实施例提供的一种回声消除装置的结构示意图。参见图6,该 装置包括:
信号获取模块601,用于获取第一语音信号,第一语音信号为进行语音通信 的多个终端中的任一终端采集的语音信号;
比例获取模块602,用于获取第一语音信号对应的非回声比例,非回声比例 表示第一语音信号中非回声信号所占的比例;
回声检测模块603,用于根据非回声比例,对第一语音信号进行回声检测, 得到检测参数,检测参数指示第一语音信号中包含回声信号的可能性;
回声消除模块604,用于响应于检测参数满足目标条件,对第一语音信号进 行回声消除,得到第二语音信号。
本申请实施例提供的装置,在进行回声消除时,只需获取待消除回声信号 的第一语音信号,无需依赖于其他语音信号,且能够检测第一语音信号中是否 包含回声信号,对包含回声信号的第一语音信号进行回声消除,避免了对不包 含回声信号的语音信号进行处理,减少了需要处理的数据量,提高了处理效率, 从而降低了通信延迟。
在一种可能实现方式中,参见图7,回声检测模块603,包括:
比例确定单元6031,用于根据非回声比例,确定第一语音信号对应的回声 比例,回声比例表示第一语音信号中回声信号所占的比例;
回声特征获取单元6032,用于将回声比例与第一语音特征相乘,得到回声 信号的回声特征,第一语音特征为第一语音信号对应的特征;
能量确定单元6033,用于确定第一语音特征对应的第一频谱能量和回声特 征对应的第二频谱能量;
参数确定单元6034,用于将第二频谱能量与第一频谱能量的比值,确定为 检测参数。
在一种可能实现方式中,参见图7,能量确定单元6033,用于:
将第一语音特征中多个特征值之和,作为第一频谱能量;
将回声特征中多个特征值之和,作为第二频谱能量。
在一种可能实现方式中,参见图7,回声消除模块604,包括:
特征获取单元6041,用于响应于检测参数大于参考参数,将非回声比例与 第一语音特征相乘,得到第二语音特征,第一语音特征为第一语音信号对应的 特征;
特征转换单元6042,用于将第二语音特征转换为对应的第二语音信号。
在另一种可能实现方式中,所述非回声比例包括多个频带对应的比例,所 述比例表示所述第一语音信号在对应频带上的非回声信号所占的比例;
所述第一语音特征包括所述多个频带对应的特征值,所述特征值表示所述 第一语音信号在对应频带上的语音特征;
所述特征获取单元6041,用于将同一频带对应的比例与特征值相乘,得到 非回声语音特征,将所述多个频带对应的非回声语音特征,构成所述第二语音 特征。
在一种可能实现方式中,参见图7,比例获取模块602,包括:
特征提取单元6021,用于对第一语音信号进行特征提取,得到第一语音信 号对应的第一语音特征;
比例获取单元6022,用于对第一语音特征进行处理,得到非回声比例。
在一种可能实现方式中,参见图7,比例获取单元6022,用于调用比例获 取模型,对第一语音特征进行处理,得到非回声比例。
在一种可能实现方式中,比例获取模型的训练过程包括:
分别对样本回声信号和样本原始信号进行特征提取,得到样本回声信号对 应的样本回声特征和样本原始信号对应的样本原始特征;
将样本回声特征和样本原始特征进行混合处理,得到样本混合特征;
根据样本原始特征与样本混合特征,确定样本比例;
根据样本混合特征和样本比例,训练比例获取模型。
在一种可能实现方式中,比例获取模型的训练过程包括:
对样本原始信号和样本回声信号进行混合处理,得到样本混合信号;
分别对样本混合信号和样本原始信号进行特征提取,得到样本混合信号对 应的样本混合特征和样本原始信号对应的样本原始特征;
根据样本原始特征与样本混合特征,确定样本比例;
根据样本混合特征和样本比例,训练比例获取模型。
在一种可能实现方式中,比例获取模型的训练过程包括:
调用比例获取模型,对样本混合信号对应的样本混合特征进行处理,得到 样本混合信号的预测比例,样本混合信号中包括样本回声信号和样本原始信号;
获取样本混合信号对应的样本混合特征与预测比例的乘积,将乘积作为预 测原始特征;
将预测原始特征与样本原始信号对应的样本原始特征的差值,作为样本混 合信号对应的损失值;
根据损失值,调整比例获取模型。
在一种可能实现方式中,信号获取模块601,用于:
获取任一终端采集的语音信号;
从语音信号中提取至少一帧语音信号;
将提取的语音信号作为第一语音信号,执行获取第一语音信号对应的非回 声比例的步骤。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在 此不再一一赘述。
需要说明的是:上述实施例提供的回声消除装置在回声消除时,仅以上述 各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分 配由不同的功能模块完成,即将服务器或终端的内部结构划分成不同的功能模 块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的回声消除 装置与回声消除方法实施例属于同一构思,其具体实现过程详见方法实施例, 这里不再赘述。
图8是本申请实施例提供的一种终端800的结构示意图。该终端800可以 是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放 器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、 膝上型终端、台式终端等其他名称。
终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理 器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA (Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可 以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理 的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于 对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801 可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示 屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI (Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学 习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储 介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失 性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中, 存储器802中的非暂态的计算机可读存储介质用于存储至少一条程序代码,该 至少一条程序代码用于被处理器801所执行以实现本申请中方法实施例提供的 回声消除方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个 外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信 号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803 相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、 音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少 一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、 存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实 施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以 在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电 磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。 射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号 转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多 个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块 卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。 该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络 (2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网 络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication, 近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、 文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示 屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸 信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以 用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中, 显示屏805可以为一个,设置在终端800的前面板;在另一些实施例中,显示 屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在另 一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上 或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形 屏。显示屏805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置 摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终 端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深 摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像 头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR (Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中, 摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双 色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声 波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路 804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别 设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。 扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器 可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬 声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为 人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以 包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS (LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的 GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的 伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、 直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电 电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电 的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于 支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个 传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器 813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加 速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上 的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制 显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还 可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感 器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器 801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根 据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当 压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持 信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快 捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用 户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操 作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814 采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识 别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户 执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、 支付及更改设置等。指纹传感器814可以被设置在终端800的正面、背面或侧 面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理 按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以 根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地, 当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调 低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传 感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,设置在终端800的前面板。接近传感器 816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感 器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控 制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终 端800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状 态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定, 可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件 布置。
图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因 配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)901和一个或一个以上的存储器902,其中,存储器902 中存储有至少一条程序代码,该至少一条程序代码由处理器901加载并执行以 实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线 网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可 以包括其他用于实现设备功能的部件,在此不做赘述。
服务器900可以用于执行上述回声消除方法中服务器所执行的步骤。
本申请实施例还提供了一种终端,该终端包括处理器和存储器,存储器中 存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现 上述实施例的回声消除方法中所执行的操作。
本申请实施例还提供了一种服务器,该服务器包括处理器和存储器,存储 器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以 实现上述实施例的回声消除方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质 中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实 现上述实施例的回声消除方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算 机程序代码,该计算机程序代码存储在计算机可读存储介质中。终端或服务器 的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机 程序代码,使得终端或服务器实现上述实施例的回声消除方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种 计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘 等。
以上仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在 本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应 包含在本申请的保护范围之内。

Claims (15)

1.一种回声消除方法,其特征在于,所述方法包括:
获取第一语音信号,所述第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号;
获取所述第一语音信号对应的非回声比例,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;
根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;
响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数,包括:
根据所述非回声比例,确定所述第一语音信号对应的回声比例,所述回声比例表示所述第一语音信号中回声信号所占的比例;
将所述回声比例与第一语音特征相乘,得到所述回声信号的回声特征,所述第一语音特征为所述第一语音信号对应的特征;
确定所述第一语音特征对应的第一频谱能量和所述回声特征对应的第二频谱能量;
将所述第二频谱能量与所述第一频谱能量的比值,确定为所述检测参数。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一语音特征对应的第一频谱能量和所述回声特征对应的第二频谱能量,包括:
将所述第一语音特征中多个特征值之和,作为所述第一频谱能量;
将所述回声特征中多个特征值之和,作为所述第二频谱能量。
4.根据权利要求1所述的方法,其特征在于,所述响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号,包括:
响应于所述检测参数大于参考参数,将所述非回声比例与第一语音特征相乘,得到第二语音特征,所述第一语音特征为所述第一语音信号对应的特征;
将所述第二语音特征转换为对应的第二语音信号。
5.根据权利要求4所述的方法,其特征在于,所述非回声比例包括多个频带对应的比例,所述比例表示所述第一语音信号在对应频带上的非回声信号所占的比例;
所述第一语音特征包括所述多个频带对应的特征值,所述特征值表示所述第一语音信号在对应频带上的语音特征;
所述将所述非回声比例与第一语音特征相乘,得到第二语音特征,包括:
将同一频带对应的比例与特征值相乘,得到非回声语音特征,将所述多个频带对应的非回声语音特征,构成所述第二语音特征。
6.根据权利要求1所述的方法,其特征在于,所述获取所述第一语音信号对应的非回声比例,包括:
对所述第一语音信号进行特征提取,得到所述第一语音信号对应的第一语音特征;
对所述第一语音特征进行处理,得到所述非回声比例。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一语音特征进行处理,得到所述非回声比例,包括:
调用比例获取模型,对所述第一语音特征进行处理,得到所述非回声比例。
8.根据权利要求7所述的方法,其特征在于,所述比例获取模型的训练过程包括:
分别对样本回声信号和样本原始信号进行特征提取,得到所述样本回声信号对应的样本回声特征和所述样本原始信号对应的样本原始特征;
将所述样本回声特征和所述样本原始特征进行混合处理,得到样本混合特征;
根据所述样本原始特征与所述样本混合特征,确定所述样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
9.根据权利要求7所述的方法,其特征在于,所述比例获取模型的训练过程包括:
对样本原始信号和样本回声信号进行混合处理,得到样本混合信号;
分别对所述样本混合信号和所述样本原始信号进行特征提取,得到所述样本混合信号对应的样本混合特征和所述样本原始信号对应的样本原始特征;
根据所述样本原始特征与所述样本混合特征,确定所述样本比例;
根据所述样本混合特征和所述样本比例,训练所述比例获取模型。
10.根据权利要求7所述的方法,其特征在于,所述比例获取模型的训练过程包括:
调用所述比例获取模型,对样本混合信号对应的样本混合特征进行处理,得到所述样本混合信号的预测比例,所述样本混合信号中包括样本回声信号和样本原始信号;
获取所述样本混合信号对应的样本混合特征与所述预测比例的乘积,将所述乘积作为预测原始特征;
将所述预测原始特征与所述样本原始信号对应的样本原始特征的差值,作为所述样本混合信号对应的损失值;
根据所述损失值,调整所述比例获取模型。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述获取第一语音信号,包括:
获取所述任一终端采集的语音信号;
从所述语音信号中提取至少一帧语音信号;
将提取的语音信号作为所述第一语音信号,执行所述获取所述第一语音信号对应的非回声比例的步骤。
12.一种回声消除装置,其特征在于,所述装置包括:
信号获取模块,用于获取第一语音信号,所述第一语音信号为进行语音通信的多个终端中的任一终端采集的语音信号;
比例获取模块,用于获取所述第一语音信号对应的非回声比例,所述非回声比例表示所述第一语音信号中非回声信号所占的比例;
回声检测模块,用于根据所述非回声比例,对所述第一语音信号进行回声检测,得到检测参数,所述检测参数指示所述第一语音信号中包含回声信号的可能性;
回声消除模块,用于响应于所述检测参数满足目标条件,对所述第一语音信号进行回声消除,得到第二语音信号。
13.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至11任一权利要求所述的回声消除方法中所执行的操作。
14.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至11任一权利要求所述的回声消除方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至11任一权利要求所述的回声消除方法中所执行的操作。
CN202010959682.4A 2020-09-14 2020-09-14 回声消除方法、装置、终端、服务器及存储介质 Active CN112750449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010959682.4A CN112750449B (zh) 2020-09-14 2020-09-14 回声消除方法、装置、终端、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010959682.4A CN112750449B (zh) 2020-09-14 2020-09-14 回声消除方法、装置、终端、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN112750449A true CN112750449A (zh) 2021-05-04
CN112750449B CN112750449B (zh) 2024-02-20

Family

ID=75645417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010959682.4A Active CN112750449B (zh) 2020-09-14 2020-09-14 回声消除方法、装置、终端、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112750449B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744748A (zh) * 2021-08-06 2021-12-03 浙江大华技术股份有限公司 一种网络模型的训练方法、回声消除方法及设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606595B1 (en) * 2000-08-31 2003-08-12 Lucent Technologies Inc. HMM-based echo model for noise cancellation avoiding the problem of false triggers
CN1510891A (zh) * 2002-10-25 2004-07-07 �ż��� 回声的检测和监视
KR100647826B1 (ko) * 2005-06-02 2006-11-23 한국과학기술원 측정된 잡음을 고려한 암묵 반향제거 모델 및 그 유도방법
CN102227905A (zh) * 2008-12-02 2011-10-26 高通股份有限公司 用于恶劣声学环境中的双方通话检测的系统及方法
US20160019909A1 (en) * 2013-03-15 2016-01-21 Dolby Laboratories Licensing Corporation Acoustic echo mitigation apparatus and method, audio processing apparatus and voice communication terminal
CN105791611A (zh) * 2016-02-22 2016-07-20 腾讯科技(深圳)有限公司 回声消除方法及装置
CN106576205A (zh) * 2014-08-13 2017-04-19 三菱电机株式会社 回声消除装置
US9653060B1 (en) * 2016-02-09 2017-05-16 Amazon Technologies, Inc. Hybrid reference signal for acoustic echo cancellation
CN109286730A (zh) * 2017-07-20 2019-01-29 阿里巴巴集团控股有限公司 一种回声检测的方法、装置及系统
WO2020042706A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN111161752A (zh) * 2019-12-31 2020-05-15 歌尔股份有限公司 回声消除方法和装置
CN111179957A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 一种语音通话的处理方法以及相关装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606595B1 (en) * 2000-08-31 2003-08-12 Lucent Technologies Inc. HMM-based echo model for noise cancellation avoiding the problem of false triggers
CN1510891A (zh) * 2002-10-25 2004-07-07 �ż��� 回声的检测和监视
KR100647826B1 (ko) * 2005-06-02 2006-11-23 한국과학기술원 측정된 잡음을 고려한 암묵 반향제거 모델 및 그 유도방법
CN102227905A (zh) * 2008-12-02 2011-10-26 高通股份有限公司 用于恶劣声学环境中的双方通话检测的系统及方法
US20160019909A1 (en) * 2013-03-15 2016-01-21 Dolby Laboratories Licensing Corporation Acoustic echo mitigation apparatus and method, audio processing apparatus and voice communication terminal
CN106576205A (zh) * 2014-08-13 2017-04-19 三菱电机株式会社 回声消除装置
US9653060B1 (en) * 2016-02-09 2017-05-16 Amazon Technologies, Inc. Hybrid reference signal for acoustic echo cancellation
CN105791611A (zh) * 2016-02-22 2016-07-20 腾讯科技(深圳)有限公司 回声消除方法及装置
CN109286730A (zh) * 2017-07-20 2019-01-29 阿里巴巴集团控股有限公司 一种回声检测的方法、装置及系统
WO2020042706A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN111161752A (zh) * 2019-12-31 2020-05-15 歌尔股份有限公司 回声消除方法和装置
CN111179957A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 一种语音通话的处理方法以及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王冬霞;张伟;于玲;刘孟美;: "基于BLSTM神经网络的回声和噪声抑制算法", 信号处理, no. 06, pages 205 - 214 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744748A (zh) * 2021-08-06 2021-12-03 浙江大华技术股份有限公司 一种网络模型的训练方法、回声消除方法及设备

Also Published As

Publication number Publication date
CN112750449B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN109299315B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN111445901B (zh) 音频数据获取方法、装置、电子设备及存储介质
CN109887494B (zh) 重构语音信号的方法和装置
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
CN111986691B (zh) 音频处理方法、装置、计算机设备及存储介质
CN108320756B (zh) 一种检测音频是否是纯音乐音频的方法和装置
CN111863020B (zh) 语音信号处理方法、装置、设备及存储介质
CN111696532A (zh) 语音识别方法、装置、电子设备以及存储介质
CN112233689B (zh) 音频降噪方法、装置、设备及介质
CN112614500A (zh) 回声消除方法、装置、设备及计算机存储介质
CN112967730A (zh) 语音信号的处理方法、装置、电子设备及存储介质
CN111107357A (zh) 一种图像处理的方法、装置及系统
CN113409805A (zh) 人机交互方法、装置、存储介质及终端设备
CN115168643B (zh) 音频处理方法、装置、设备及计算机可读存储介质
CN112750449B (zh) 回声消除方法、装置、终端、服务器及存储介质
CN111341307A (zh) 语音识别方法、装置、电子设备及存储介质
CN115331689A (zh) 语音降噪模型的训练方法、装置、设备、存储介质及产品
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN115206305A (zh) 语义文本的生成方法、装置、电子设备及存储介质
CN113012064B (zh) 图像处理方法、装置、设备及存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN111698512B (zh) 视频处理方法、装置、设备及存储介质
CN111982293B (zh) 体温测量方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043558

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant