CN107689227A - 一种基于数据融合的语音降噪方法及系统 - Google Patents
一种基于数据融合的语音降噪方法及系统 Download PDFInfo
- Publication number
- CN107689227A CN107689227A CN201710727554.5A CN201710727554A CN107689227A CN 107689227 A CN107689227 A CN 107689227A CN 201710727554 A CN201710727554 A CN 201710727554A CN 107689227 A CN107689227 A CN 107689227A
- Authority
- CN
- China
- Prior art keywords
- voice
- curve
- noising
- neural network
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
本申请实施例公开了一种语音降噪方法及系统,涉及智能终端技术领域。所述方法包括:通过智能神经网络,获取多条语音降噪信号曲线;利用加权平均算法,得到一条平均曲线;确定一条偏差最大的曲线;删除所述偏差最大的曲线;生成新的语音降噪信号曲线集;通过数据融合技术,确定一条优化的降噪曲线。本申请的语音降噪方法及系统,通过智能神经网络以及数据融合技术,确定一条优化的降噪曲线,实现语音降噪,改善用户体验。
Description
技术领域
本申请涉及智能终端技术领域,尤其涉及语音降噪方法及系统。
背景技术
随着通信技术的飞速发展,人们使用智能终端(例如,电子设备)或通过移动终端进行通信,实现信息交互。目前,信息交互形式多样,其中,语音消息、语音通话、音视频等语音信息作为主要形式之一,备受用户青睐。因此,为获取高质量的语音信号,需要持续开发语音降噪技术,然而,传统降噪技术降噪粗糙、稳定性差,往往达不降噪优化的效果。此外,使用单一智能降噪技术,造成人工智能的泛化性弱,达到局部的最优解,却无法实现全局优化。
因此,期望提供一种语音降噪方法及系统,通过智能神经网络以及数据融合技术,确定一条优化的降噪曲线,实现语音降噪,改善用户体验。
发明内容
根据本申请的一些实施例的第一方面,提供了一种语音降噪方法,应用于终端(例如,电子设备等)中,所述方法可以包括:通过智能神经网络,获取多条语音降噪信号曲线;利用加权平均算法,得到一条平均曲线;确定一条偏差最大的曲线;删除所述偏差最大的曲线;生成新的语音降噪信号曲线集;通过数据融合技术,确定一条优化的降噪曲线。
在一些实施例中,所述确定一条偏差最大的曲线进一步包括:将所述多条语音降噪信号曲线分别与所述平均曲线作差,查找偏差最大的曲线。
在一些实施例中,所述方法可以进一步包括:获取智能神经网络,以及多条语音信号曲线;向所述智能神经网络输入所述多条语音信号曲线;输出多条语音降噪信号曲线。
在一些实施例中,所述方法可以进一步包括:获取所述新的语音降噪信号曲线集中的k条曲线,和相应的k条期望降噪曲线;确定所述k条曲线的分布值与所述k条期望降噪曲线的分布值之间的偏移值;判断所述偏移值是否在预设阈值之内;删除偏移值在预设阈值之外的所述k条曲线的分布值;线性插补所述删除的分布值;获取平滑系数;生成平滑处理后的语音降噪信号。
在一些实施例中,所述方法可以进一步包括:将所述k条曲线分别与相应的所述k条期望降噪曲线作差,求解绝对平均值。
在一些实施例中,所述获取平滑系数进一步包括:通过所述绝对平均值,求解绝对误差;
通过新的语音降噪后的第二曲线集分别与相应的期望降噪值,求解残差;通过所述绝对误差与所述残差,求解平滑系数。
在一些实施例中,所述获取智能神经网络进一步包括:创建智能神经网络系统;获取语音信号;利用所述语音信号,训练所述智能神经网络;判断是否达到系统稳定误差;若是,生成用于语音降噪的智能神经网络。
在一些实施例中,所述智能神经网络包括输入层、输出层、一个或多个隐含层,进一步包括:所述输入层输入所述语音信号;所述隐含层调整所述语音信号;所述输出层输出语音降噪信号。
在一些实施例中,所述方法可以进一步包括:确定语音降噪结果与期望结果的偏差;反向传递所述偏差;调整所述输入层、隐含层、输出层之间的关联强度,以减小所述智能神经网络的误差。
根据本申请的一些实施例的第二方面,提供了一个系统,包括:一个存储器,被配置为存储数据及指令;一个与存储器建立通信的处理器,其中,当执行存储器中的指令时,所述处理器被配置为:通过智能神经网络,获取多条语音降噪信号曲线;利用加权平均算法,得到一条平均曲线;确定一条偏差最大的曲线;删除所述偏差最大的曲线;生成新的语音降噪信号曲线集;通过数据融合技术,确定一条优化的降噪曲线。
因此,根据本申请的一些实施例的语音降噪方法及系统,通过智能神经网络以及数据融合技术,确定一条优化的降噪曲线,实现语音降噪,改善用户体验。
附图说明
为更好地理解并阐述本申请的一些实施例,以下将结合附图参考实施例的描述,在这些附图中,同样的数字编号在附图中指示相应的部分。
图1是根据本申请的一些实施例提供的网络环境系统的示例性示意图。
图2是根据本申请的一些实施例提供的电子设备功能配置的示例性单元示意图。
图3是根据本申请的一些实施例提供的生成智能神经网络系统方法的示例性流程图。
图4是根据本申请的一些实施例提供的语音降噪方法的示例性流程图。
图5是根据本申请的一些实施例提供的生成语音降噪信号的示例性流程图。
具体实施方式
以下参考附图的描述为便于综合理解由权利要求及其等效内容所定义的本申请的各种实施例。这些实施例包括各种特定细节以便于理解,但这些仅被视为示例性的。因此,本领域技术人员可以理解对在此描述的各种实施例进行各种变化和修改而不会脱离本申请的范围和精神。另外,为简要并清楚地描述本申请,本申请将省略对公知功能和结构的描述。
在以下说明书和权利要求书中使用的术语和短语不限于字面含义,而是仅为能够清楚和一致地理解本申请。因此,对于本领域技术人员,可以理解,提供对本申请各种实施例的描述仅仅是为说明的目的,而不是限制所附权利要求及其等效定义的本申请。
下面将结合本申请一些实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一”、“一个”、“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个相绑定的列出项目的任何或所有可能组合。表达“第一”、“第二”、“所述第一”和“所述第二”是用于修饰相应元件而不考虑顺序或者重要性,仅仅被用于区分一种元件与另一元件,而不限制相应元件。
根据本申请一些实施例的终端可以是电子设备,该电子设备可以包括智能手机、个人电脑(PC,例如平板电脑、台式电脑、笔记本、上网本、掌上电脑PDA)、移动电话、电子书阅读器、便携式多媒体播放器(PMP)、音频/视频播放器(MP3/MP4)、摄像机、虚拟现实设备(VR)和可穿戴设备等中的一种或几种的组合。根据本申请的一些实施例,所述可穿戴设备可以包括附件类型(例如手表、戒指、手环、眼镜、或头戴式装置(HMD))、集成类型(例如电子服装)、装饰类型(例如皮肤垫、纹身或内置电子装置)等,或几种的组合。在本申请的一些实施例中,所述电子设备可以是灵活的,不限于上述设备,或者可以是上述各种设备中的一种或几种的组合。在本申请中,术语“用户”可以指示使用电子设备的人或使用电子设备的设备(例如人工智能电子设备)。
本申请实施例提供了一种语音降噪方法。为了便于理解本申请实施例,以下将参考附图对本申请实施例进行详细描述。
图1是根据本申请的一些实施例提供的网络环境系统100的示例性示意图。如图1所示,网络环境系统100可以包括电子设备110、网络120和服务器130等。电子设备110可以包括总线111、处理器112、存储器113、输入/输出模块114、显示器115、通信模块116和物理键117等。在本申请的一些实施例中,电子设备110可以省略一个或多个元件,或者可以进一步包括一个或多个其它元件。
总线111可以包括电路。所述电路可以互连电子设备110内的一个或多个元件(例如,总线111、处理器112、存储器113、输入/输出模块114、显示器115、通信模块116和物理键117)。所述电路也可以在电子设备110内的一个或多个元件之间实现通信(例如,获取和/或发送信息)。
处理器112可以包括一个或多个协处理器(Co-processor)、应用处理器(AP,Application Processor)和通信处理器(Communication Processor)。作为示例,处理器112可以执行与电子设备110的一个或多个元件的控制和/或数据处理(例如,启动语音降噪等操作)。
存储器113可以存储数据。所述数据可以包括与电子设备110中的一个或多个其它元件相关的指令或数据。例如,所述数据可以包括处理器112处理前的原始数据,中间数据和/或处理后的数据。存储器113可以包括非永久记忆性存储器和/或永久记忆性存储器。作为示例,存储器113可以存储终端运动的历史数据等。
根据本申请的一些实施例,存储器113可以存储软件和/或程序。所述程序可以包括内核、中间件、应用编程接口(API,Application Programming Interface)和/或应用程序(或“应用”)。
所述内核、所述中间件或所述应用编程接口的至少一部分可以包括操作系统(OS,Operating System)。作为示例,所述内核可以控制或管理用于执行其他程序(例如,中间件、应用编程接口和应用程序)中实现的操作或功能的系统资源(例如,总线111、处理器112、存储器113等)。此外,所述内核可以提供接口。所述接口可以通过所述中间件、所述应用编程接口或所述应用程序访问电子设备110的一个或多个元件以控制或管理系统资源。
所述中间件可以作为数据传输的中间层。所述数据传输可以允许应用编程接口或应用程序与所述内核通信用以交换数据。作为示例,所述中间件可以处理从所述应用程序获取的一个或多个任务请求。例如,所述中间件可以向一个或多个应用程序分配电子设备110的系统资源(例如,总线111、处理器112、存储器113等)的优先级,以及处理所述一个或多个任务请求。所述应用编程接口可以是所述应用程序用于控制从所述内核或所述中间件提供功能的接口。所述应用编程接口也可以包括一个或多个接口或功能(例如,指令)。所述功能可以用于启动控制、数据通道控制、安全控制、通信控制、文件控制、窗口控制、文本控制、图像处理、信息处理等。
输入/输出模块114可以向电子设备110的其他元件发送从用户或外部设备输入的指令或数据。输入/输出模块114也可以将从电子设备110的其他元件获取的指令或数据输出给用户或外部设备。在一些实施例中,输入/输出模块114可以包括输入单元,用户可以通过所述输入单元输入信息或指令。
显示器115可以显示内容。所述内容可以向用户显示各种类型(例如,文本、图像、视频、图标和/或符号等,或几种的组合)。显示器115可以包括液晶显示器(LCD,LiquidCrystal Display)、发光二极管(LED,Light-Emitting Diode)显示器、有机发光二极管(OLED,Organic Light Emitting Diode)显示器、微型机电系统(MEMS,Micro ElectroMechanical Systems)显示器或电子纸显示器等,或几种的组合。显示器115可以包括显示屏、触摸屏等。所述显示屏可以显示终端的运动轨迹。在一些实施例中,显示器115可以显示虚拟键。所述触摸屏可以获取所述虚拟键的输入。显示器115可以通过所述触摸屏获取输入。所述输入可以包括触摸输入、手势输入、动作输入、接近输入、电子笔或用户身体部分的输入(例如,悬停输入)。
通信模块116可以配置设备之间的通信。在一些实施例中,网络环境系统100可以进一步包括电子设备140。作为示例,所述设备之间的通信可以包括电子设备110和其他设备(例如,服务器130或电子设备140)之间的通信。例如,通信模块116可以通过无线通信或有线通信连接到网络120,与其他设备(例如,服务器130或电子设备140)实现通信。
所述无线通信可以包括微波通信和/或卫星通信等。所述无线通信可以包括蜂窝通信(例如,全球移动通信(GSM,Global System for Mobile Communications)、码分多址(CDMA,Code Division Multiple Access)、第三代移动通信(3G,The 3rd GenerationTelecommunication)、第四代移动通信(4G)、第五代移动通信(5G)、长期演进技术(LTE,Long Term Evolution)、长期演进技术升级版(LTE-A,LTE-Advanced)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、通用移动通信系统(UMTS,Universal Mobile Telecommunications System)、无线宽带(WiBro,WirelessBroadband)等,或几种的组合。根据本申请的一些实施例,所述无线通信可以包括无线局域网(WiFi,Wireless Fidelity)、蓝牙、低功耗蓝牙(BLE,Bluetooth Low Energy)、紫蜂协议(ZigBee)、近场通讯(NFC,Near Field Communication)、磁安全传输、射频和体域网(BAN,Body Area Network)等,或几种的组合。根据本申请的一些实施例,所述有线通信可以包括全球导航卫星系统(Glonass/GNSS,Global Navigation Satellite System)、全球定位系统(GPS,Global Position System)、北斗导航卫星系统或伽利略(欧洲全球卫星导航系统)等。所述有线通信可以包括通用串行总线(USB,Universal Serial Bus)、高清多媒体接口(HDMI,High-Definition Multimedia Interface)、推荐标准232(RS-232,RecommendStandard 232)、和/或简易老式电话服务(POTS,Plain Old Telephone Service)等,或几种的组合。
物理键117可以用于用户交互。物理键117可以包括一个或多个实体键。在一些实施例中,用户可以自定义物理键117的功能。作为示例,物理键117可以发送指令。所述指令可以包括启动语音降噪等。
在一些实施例中,电子设备110可以进一步包括传感器。所述传感器可以包括但不限于光敏传感器、声敏传感器、气敏传感器、化学传感器、压敏传感器、温敏传感器、流体传感器、生物传感器、激光传感器、霍尔传感器、智能传感器等,或几种的组合。
在一些实施例中,电子设备110可以进一步包括红外设备、图像采集设备等。作为示例,所述红外设备可以通过红外线投射方式,以及眨眼识别、注视识别等技术获取眼睛的信息。例如,所述红外设备通过采集用户的眨眼动作来认证用户信息。作为示例,所述图像采集设备可以包括摄像头、虹膜装置等。所述摄像头可以实现眼球追踪等功能。所述虹膜装置可以利用虹膜识别技术进行身份认证(例如,认证用户信息)。所述虹膜装置可以包括虹膜摄像头,所述虹膜摄像头可以获取虹膜信息,所述虹膜信息可以存储在存储器113中。
网络120可以包括通信网络。所述通信网络可以包括计算机网络(例如,局域网(LAN,Local Area Network)或广域网(WAN,Wide Area Network))、互联网和/或电话网络等,或几种的组合。网络120可以向网络环境系统100中的其他设备(例如,电子设备110、服务器130、电子设备140等)发送信息。
服务器130可以通过网络120连接网络环境系统100中的其他设备(例如,电子设备110、电子设备140等)。例如,服务器130可以通过网络120向电子设备110发送启动语音降噪指令等。在一些实施例中,服务器130可以通过网络120向电子设备发送启动语音降噪指令,电子设备110可以通过网络120向服务器130发送语音降噪信号。
电子设备140可以与电子设备110相同或不同的类型。根据本申请的一些实施例,在电子设备110中执行的部分或全部操作可以在另一设备或多个设备(例如,电子设备140和/或服务器130)中执行。在一些实施例中,当电子设备110自动或响应于请求执行一种或多种功能和/或服务时,电子设备110可以请求其他设备(例如,电子设备140和/或服务器130)替代执行功能和/或服务。在一些实施例中,电子设备110除执行功能或服务外,进一步执行与其相关的一种或多种功能。在一些实施例中,其他设备(例如,电子设备140和/或服务器130)可以执行所请求的功能或其它相关的一种或多种功能,可以将执行结果发送给电子设备110。电子设备110可以重复执行结果或进一步处理执行结果,以提供所请求的功能或服务。作为示例,电子设备110可以使用云计算、分布式技术和/或客户端-服务端计算计算等,或几种的组合。在一些实施例中,根据云计算服务性质的不同,所述云计算可以包括公有云、私有云和混合云等。例如,电子设备110可以向电子设备140发送语音数据等。
需要说明的是,以上对于网络环境系统100的描述,仅为描述方便,并不能把本申请限制在所举实施例的范围之内。可以理解,对于本领域技术人员,基于本系统的原理,可能在不背离该原理的前提下,对各个元件进行任意组合,或者构成子系统与其他元件连接,对实施上述方法和系统的应用领域进行形式和细节上的各种修正和改变。例如,网络环境系统100可以进一步包括数据库等。又例如,电子设备110可以不包括物理键117等。诸如此类的变形,均在本申请的保护范围之内。
图2是根据本申请的一些实施例提供的电子设备功能配置的示例性单元框图。如图2所示,处理器112可以包括处理模块200,所述处理模块200可以包括获取单元210,处理单元220,确定单元230,生成单元240,控制单元250。
根据本申请的一些实施例,获取单元210可以获取信息。在一些实施例中,所述信息可以包括但不限于文本、图片、音频、视频、动作、手势、声音、眼睛(例如,虹膜信息等)、气息、光等,或几种的组合。在一些实施例中,所述信息可以包括但不限于输入信息、系统信息和/或通信信息等。作为示例,获取单元210可以通过输入/输出模块114、显示器115的触摸屏、物理键117和/或传感器获取电子设备110的输入信息。所述输入信息可以包括其他设备(例如,电子设备140)和/或用户的输入,例如,按键输入、触控输入、手势输入、动作输入、远程输入、传输输入、眼睛输入、声音输入、气息输入、光输入等,或几种的组合。所述输入信息的获取部件可以包括但不限于红外设备、图像采集设备、传感器等,或几种的组合。作为示例,获取单元210可以通过传感器(例如,声敏传感器等)获取语音数据等。
在一些实施例中,获取单元210可以通过网络120获取通信信息。所述通信信息可以包括应用软件信息、通讯信号(例如,语音信号、视频信号等)、短消息等。在一些实施例中,获取单元210可以通过网络120、存储器113和/或传感器获取系统信息。所述系统信息可以包括但不限于电子设备110的系统状态、预设信息、存储器113存储的信息(例如,虹膜认证信息等)等,或几种的组合。
在一些实施例中,所述信息可以包括指令。所述指令包括用户指令和/或系统指令等,或几种的组合。所述指令可以包括触发指令、认证指令、填写指令等,或几种的组合。所述认证指令可以包括认证用户信息、启动语音降噪指令等。作为示例,当用户按下物理键(例如,快捷键等)时,电子设备110可以启动语音降噪等。
根据本申请的一些实施例,处理单元220可以处理数据。在一些实施例中,处理单元220可以处理语音数据,例如,语音信号。作为示例,处理单元220可以处理神经网络系统的输入数据。例如,处理单元220可以预处理语音数据为神经网络系统的适配数据等。又例如,处理单元220可以后处理神经网络系统的输出数据等。在一些实施例中,处理单元220可以对语音信号进行降噪处理等。
根据本申请的一些实施例,确定单元230可以确定信息。在一些实施例中,确定单元230可以根据系统误差的变化趋势确定是否为系统稳定误差。又例如,确定单元230可以确定智能神经网络的训练次数。再例如,确定单元230可以确定智能神经网络的训练次数是否达到预设训练次数。在一些实施例中,确定单元230可以确定语音信号曲线的分布值与期望降噪曲线的分布值之间的偏移值。
根据本申请的一些实施例,生成单元240可以生成数据。在一些实施例中,生成单元240可以生成智能神经网络系统。作为示例,生成单元240可以通过语音数据训练智能神经网络生成用于语音降噪的智能神经网络系统。在一些实施例中,生成单元240可以根据平滑系数生成平滑处理后的语音降噪信号。
根据本申请的一些实施例,控制单元250可以控制电子设备。在一些实施例中,控制单元250可以利用语音数据训练智能神经网络等。在一些实施例中,控制单元250可以利用智能神经网络执行语音降噪。
需要说明的是,以上对于处理模块200中的单元描述,仅为描述方便,并不能把本申请限制在所举实施例的范围之内。可以理解,对于本领域技术人员,基于本系统的原理,可能在不背离该原理的前提下,对各个单元进行任意组合,或者构成子模块与其他单元连接,对实施上述模块和单元的功能进行形式和细节上的各种修正和改变。例如,处理模块200可以不包括确定单元230和/或生成单元240,可以通过分析单元和/或其它单元实现相应的功能。又例如,处理模块200可以进一步包括存储单元,所述存储单元可以存储语音数据。诸如此类的变形,均在本申请的保护范围之内。
图3是根据本申请的一些实施例提供的生成智能神经网络系统方法的示例性流程图。如图3所示,流程300可以通过处理模块200实现。
在301,创建智能神经网络系统。操作301可以通过处理模块200的生成单元240实现。在一些实施例中,生成单元240可以创建智能神经网络系统。所示智能神经网络系统可以包括一个输入层、一个输出层、一个或多个隐含层(或中间层)。作为示例,生成单元240可以创建三层智能神经网络,所述三层智能神经网络可以包括一个输入层、一个输出层和一个隐含层。所述输入层、所述输出层、或所述隐含层可以包括一个或多个神经元;在一些实施例中,所述输入层可以包括m个神经元,所述输出层可以包括n个神经元,所述隐含层可以包括个神经元。作为示例,m=2,n=2,
在302,获取语音信号。操作302可以通过处理模块200的获取单元210实现。在一些实施例中,获取单元210可以通过传感器或存储器获取语音信号。
在303,处理所述语音信号,得到所述智能神经网络的适配数据。操作303可以通过处理模块200的处理单元220实现。在一些实施例中,处理单元220可以预处理所述语音信号,以得到所述智能神经网络的适配数据。在一些实施例中,所述智能神经网络的敏感度区间为[0,1]。作为示例,处理单元220可以预处理所述智能神经网络的输入数据(例如,语音信号)为所述智能神经网络的适配数据。所述智能神经网络的适配数据可以包括预处理后的所述语音信号在所述智能神经网络的敏感度区间之内。
在304,训练所述智能神经网络。操作304可以通过处理模块200的控制单元250实现。在一些实施例中,控制单元250可以利用所述历史运动数据训练所述智能神经网络。作为示例,所述训练所述智能神经网络可以包括初始化所述神经元之间的网络连接的权重,所述隐含层神经元通过输出层输出结果数据,反向传递网络训练误差,根据所述误差,修正隐含层神经元与输出层神经元之间的网络连接的权重,以及输入层神经元与隐含层神经元之间的网络连接的权重(例如,修正隐含层与输出层的权重Tjk及输入层与隐含层的权重Wij层)。所述误差可以包括所述语音降噪结果与期望结果的偏差。所述反向传递包括从输出层经隐含层向输入层的传递。
在305,判断是否为系统稳定误差。操作305可以通过处理模块200的确定单元230实现。在一些实施例中,确定单元230可以通过所述智能神经网络系统的误差变化趋势确定是否为系统稳定误差。作为示例,确定单元230可以判断所述智能神经网络系统误差是否趋于稳定,所述趋于稳定的系统误差为系统稳定误差。
若未达到系统稳定误差,进入操作306,在306,判断是否达到预设训练次数。操作306可以通过处理模块200的确定单元230实现。在一些实施例中,确定单元230可以通过对比当前训练次数与预设训练次数,确定是否达到预设训练次数。在一些实施例中,所述预设训练次数可以包括500、1000、5000、10000等。
若未达到预设训练次数,返回操作304,在304,训练所述智能神经网络。操作304可以通过处理模块200的控制单元250实现。
若达到系统稳定误差,进入操作307,在307,生成最优智能神经网络系统。操作307可以通过处理模块200的生成单元240实现。在一些实施例中,生成单元240可以生成达到系统稳定误差的智能神经网络为用于语音降噪的智能神经网络。
若达到预设训练次数,进入操作307,在307,生成用于语音降噪的智能神经网络。操作307可以通过处理模块200的生成单元240实现。在一些实施例中,生成单元240可以生成达到预设训练次数的智能神经网络为用于语音降噪的智能神经网络。
根据本申请的一些实施例,智能神经网络Ii为输入向量,Hj为隐层输出向量,Yk为输出向量,Wij为第i个输入层到第j个隐含层之间的联接权值,Tjk为第j个隐含层到第k个输出层之间的联接权值。F为非线性神经元函数,θ为神经单元阀值。
Hj=F(∑Wij*Ii-θj) (公式1)
Yk=F(∑Tjk*Pj-θk) (公式2)
激励函数是反映下层输入对上层节点刺激脉冲强度的函数又称刺激函数,一般取为(0,1)内连续取值S型函数。
F(x)=1/(1+e-x) (公式3)
误差计算模型是反映神经网络期望输出与计算输出之间误差大小的函数,Tpi为节点的期望输出值;Hpi为节点输出值。
Ep=1/2*∑(Tpi-Hpi) (公式4)
智能神经网络的训练过程,即连接下层节点和上层节点之间的权重矩阵Wij的设定和误差修正过程。自学习模型中η为学习因子,Фi为输出节点i的计算误差,Hj为输出节点j的计算输出,ɑ为动量因子。
ΔWij(n+1)=η*φi*Hj+a*ΔWij(n) (公式5)
需要说明的是,以上对于流程300的描述,仅为描述方便,并不能把本申请限制在所举实施例的范围之内。可以理解,对于本领域技术人员,基于本系统的原理,可能在不背离该原理的前提下,对各个操作进行任意组合,或者构成子流程与其它操作组合,对实施上述流程和操作的功能进行形式和细节上的各种修正和改变。例如,流程300可以不执行操作306;又例如,流程300可以进一步包括反向传递训练误差等操作。诸如此类的变形,均在本申请的保护范围之内。
图4是根据本申请的一些实施例提供的语音降噪方法的示例性流程图。如图4所示,流程400可以通过处理模块200实现。在一些实施例中,所述语音降噪方法可以自动启动或通过指令启动。所述指令可以包括用户指令、系统指令、动作指令等,或几种的组合。作为示例,所述系统指令可以通过传感器获取的信息生成。所述用户指令可以包括语音、手势、动作、物理键117和/或虚拟键等,或几种的组合。
在401,通过智能神经网络,获取多条语音降噪信号曲线。操作401可以通过处理模块200的获取单元210实现。在一些实施例中,所述智能神经网络系统可以包括达到系统稳定误差的的智能神经网络或达到预设训练次数的智能神经网络。作为示例,所述多条语音降噪信号曲线可以包括S(1),S(2),S(3),...,S(n)。
在402,利用加权平均算法,得到一条平均曲线。操作402可以通过处理模块200的处理单元220实现。在一些实施例中,处理单元220可以利用加权平均算法,将所述多条语音降噪信号曲线进行加权平均,得到一条平均曲线。作为示例,所述平均曲线可以为S(ɑ),S(ɑ)可以通过如下公式6计算得到。
在403,确定一条偏差最大的曲线。操作403可以通过处理模块200的确定单元230实现。在一些实施例中,确定单元230可以通过对比所述多条语音降噪信号曲线与所述平均曲线,确定一条偏差最大的曲线。作为示例,所述偏差最大的曲线可以为S(j)。
在404,删除所述偏差最大的曲线。操作404可以通过处理模块200的控制单元250实现。在一些实施例中,控制单元250可以在所述多条语音降噪信号曲线中删除所述偏差最大的曲线。
在405,生成新的语音降噪曲线集。操作405可以通过处理模块200的生成单元240实现。在一些实施例中,生成单元240可以生成新的语音降噪曲线集,所述语音降噪曲线集可以包括删除所述偏差最大曲线后的多条语音降噪曲线。作为示例,所述新的语音降噪曲线集可以包括S(1),S(2),...,S(n-j)。
在406,通过数据融合技术,确定一条优化的降噪曲线。操作406可以通过处理模块200的处理单元220、确定单元230实现。在一些实施例中,处理单元220可以利用数据融合技术,对所述新的语音降噪曲线集进行加权平均。在一些实施例中,确定单元230可以通过所述新的语音降噪曲线集加权平均后,确定一条优化的降噪曲线。作为示例,所述优化的降噪曲线可以为L,曲线L可以通过如下公式7计算得到。
需要说明的是,以上对于流程400的描述,仅为描述方便,并不能把本申请限制在所举实施例的范围之内。可以理解,对于本领域技术人员,基于本系统的原理,可能在不背离该原理的前提下,对各个操作进行任意组合,或者构成子流程与其它操作组合,对实施上述流程和操作的功能进行形式和细节上的各种修正和改变。例如,流程400可以进一步包括获取语音数据、训练智能神经网络等操作。诸如此类的变形,均在本申请的保护范围之内。
图5是根据本申请的一些实施例提供的生成语音降噪信号的示例性流程图。如图5所示,流程500可以通过处理模块200实现。
在501,获取新的语音降噪信号曲线集中的k条曲线,和相应的k条期望降噪曲线。操作501可以通过处理模块200的获取单元210实现。在一些实施例中,获取单元210可以获取新的语音降噪信号曲线集中的k条曲线,以及所述k条曲线相应的k条期望降噪曲线。作为示例,所述新的语音降噪信号曲线集(S集)中的k条曲线可以包括S1,S2,...,Sk,所述k条期望降噪曲线(T集)可以包括T1,T2,...,Tk。
在502,计算所述k条曲线的分布值与所述k条期望降噪曲线的分布值之间的偏移值。操作502可以通过处理模块200的处理单元220实现。在一些实施例中,处理单元220可以通过将所述k条曲线的分布值与所述k条期望降噪曲线的分布值作差,计算所述分布值之间的偏移值。在一些实施例中,处理单元220可以将S集的k条曲线分别与T集的k条曲线作差,并求解绝对平均值AV,如公式8所示,i取1,2,...,k。
在503,判断所述偏移值是否在预设阈值之内。操作503可以通过处理模块200的确定单元230实现。在一些实施例中,确定单元230可以通过对比所述偏移值与预设阈值,判断所述偏移值是否在预设阈值的范围内。作为示例,所述偏移值可以包括正偏移值、负偏移值,确定单元230可以判断所述偏移值的绝对值是否在所述预设阈值之内。
在504,删除偏移值在预设阈值之外的所述k条曲线的分布值。操作504可以通过处理模块200的控制单元250实现。在一些实施例中,控制单元250可以删除偏移值在预设阈值之外的所述k条曲线的分布值。
在505,线性插补所述删除的分布值。操作505可以通过处理模块200的控制单元250实现。在一些实施例中,控制单元250可以对所述k条曲线的分布值线性插补所述删除的分布值。
在506,获取平滑系数。操作506可以通过处理模块200的获取单元210、处理单元220实现。在一些实施例中,获取单元210可以通过处理单元220获取平滑系数。在一些实施例中,平滑系数可以为平滑的权重,作为示例,Ri表示第i条曲线的平滑系数。
根据本申请的一些实施例,平滑系数可以通过公式9-12获取,其中,Bi表示Ti与Si的残差Ei所占绝对误差E的比例程度;h为比例程度系数,取10-n,n实验经验值。
Ri=1+Bi (公式9)
Ei=Ti-Si (公式11)
E=k*AV (公式12)
在507,生成平滑处理后的语音降噪信号。操作507可以通过处理模块200的生成单元240实现。在一些实施例中,生成单元240可以根据所述平滑系数,生成平滑处理后的语音降噪信号。作为示例,所述平滑后的语音降噪信号Hi,可以通过如下公式13获取。
Hi=Ri*Si (公式13)
需要说明的是,以上对于流程500的描述,仅为描述方便,并不能把本申请限制在所举实施例的范围之内。可以理解,对于本领域技术人员,基于本系统的原理,可能在不背离该原理的前提下,对各个操作进行任意组合,或者构成子流程与其它操作组合,对实施上述流程和操作的功能进行形式和细节上的各种修正和改变。例如,流程500可以进一步包括预处理运动状态数据、后处理经纬度数据等操作。诸如此类的变形,均在本申请的保护范围之内。
综上所述,根据本申请实施例的语音降噪方法及系统,通过智能神经网络以及数据融合技术,确定一条优化的降噪曲线,实现语音降噪,改善用户体验。
需要注意的是,上述的实施例仅仅是用作示例,本申请不限于这样的示例,而是可以进行各种变化。
需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序指令相关的硬件来完成,所述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请一些优选的实施例,不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种语音降噪方法,其特征在于,包括:
通过智能神经网络,获取多条语音降噪信号曲线;
利用加权平均算法,得到一条平均曲线;
确定一条偏差最大的曲线;
删除所述偏差最大的曲线;
生成新的语音降噪信号曲线集;
通过数据融合技术,确定一条优化的降噪曲线。
2.根据权利要求1所述的语音降噪方法,其特征在于,所述确定一条偏差最大的曲线进一步包括:
将所述多条语音降噪信号曲线分别与所述平均曲线作差,查找偏差最大的曲线。
3.根据权利要求1所述的语音降噪方法,其特征在于,进一步包括:
获取智能神经网络,以及多条语音信号曲线;
向所述智能神经网络输入所述多条语音信号曲线;
输出多条语音降噪信号曲线。
4.根据权利要求1所述的语音降噪方法,其特征在于,进一步包括:
获取所述新的语音降噪信号曲线集中的k条曲线,和相应的k条期望降噪曲线;
确定所述k条曲线的分布值与所述k条期望降噪曲线的分布值之间的偏移值;
判断所述偏移值是否在预设阈值之内;
删除偏移值在预设阈值之外的所述k条曲线的分布值;
线性插补所述删除的分布值;
获取平滑系数;
生成平滑处理后的语音降噪信号。
5.根据权利要求4所述的语音降噪方法,其特征在于,进一步包括:
将所述k条曲线分别与相应的所述k条期望降噪曲线作差,求解绝对平均值。
6.根据权利要求4所述的语音降噪方法,其特征在于,所述获取平滑系数进一步包括:
通过所述绝对平均值,求解绝对误差;
通过新的语音降噪后的第二曲线集分别与相应的期望降噪值,求解残差;
通过所述绝对误差与所述残差,求解平滑系数。
7.根据权利要求1所述的语音降噪方法,其特征在于,所述获取智能神经网络进一步包括:
创建智能神经网络系统;
获取语音信号;
利用所述语音信号,训练所述智能神经网络;
判断是否达到系统稳定误差;
若是,生成用于语音降噪的智能神经网络。
8.根据权利要求7所述的语音降噪方法,其特征在于,所述智能神经网络包括输入层、输出层、一个或多个隐含层,进一步包括:
所述输入层输入所述语音信号;
所述隐含层调整所述语音信号;
所述输出层输出语音降噪信号。
9.根据权利要求8所述的语音降噪方法,其特征在于,进一步包括:
确定语音降噪结果与期望结果的偏差;
反向传递所述偏差;
调整所述输入层、隐含层、输出层之间的关联强度,以减小所述智能神经网络的误差。
10.一个系统,其特征在于,包括:
一个存储器,被配置为存储数据及指令;
一个与存储器建立通信的处理器,其中,当执行存储器中的指令时,所述处理器被配置为:
通过智能神经网络,获取多条语音降噪信号曲线;
利用加权平均算法,得到一条平均曲线;
确定一条偏差最大的曲线;
删除所述偏差最大的曲线;
生成新的语音降噪信号曲线集;
通过数据融合技术,确定一条优化的降噪曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710727554.5A CN107689227A (zh) | 2017-08-23 | 2017-08-23 | 一种基于数据融合的语音降噪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710727554.5A CN107689227A (zh) | 2017-08-23 | 2017-08-23 | 一种基于数据融合的语音降噪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107689227A true CN107689227A (zh) | 2018-02-13 |
Family
ID=61153599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710727554.5A Pending CN107689227A (zh) | 2017-08-23 | 2017-08-23 | 一种基于数据融合的语音降噪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107689227A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108923809A (zh) * | 2018-06-13 | 2018-11-30 | Oppo广东移动通信有限公司 | 一种耳道杂物提示方法及相关产品 |
CN108962241A (zh) * | 2018-06-27 | 2018-12-07 | Oppo广东移动通信有限公司 | 位置提示方法、装置、存储介质及电子设备 |
CN112053421A (zh) * | 2020-10-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 信号降噪处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157293A (zh) * | 2014-08-28 | 2014-11-19 | 福建师范大学福清分校 | 一种增强声环境中目标语音信号拾取的信号处理方法 |
CN105225018A (zh) * | 2015-11-04 | 2016-01-06 | 上海斐讯数据通信技术有限公司 | 基于bp神经网络的手机流量的预测方法及预测装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN106782497A (zh) * | 2016-11-30 | 2017-05-31 | 天津大学 | 一种基于便携式智能终端的智能语音降噪算法 |
-
2017
- 2017-08-23 CN CN201710727554.5A patent/CN107689227A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157293A (zh) * | 2014-08-28 | 2014-11-19 | 福建师范大学福清分校 | 一种增强声环境中目标语音信号拾取的信号处理方法 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN105225018A (zh) * | 2015-11-04 | 2016-01-06 | 上海斐讯数据通信技术有限公司 | 基于bp神经网络的手机流量的预测方法及预测装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN106782497A (zh) * | 2016-11-30 | 2017-05-31 | 天津大学 | 一种基于便携式智能终端的智能语音降噪算法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108923809A (zh) * | 2018-06-13 | 2018-11-30 | Oppo广东移动通信有限公司 | 一种耳道杂物提示方法及相关产品 |
CN108923809B (zh) * | 2018-06-13 | 2020-03-06 | Oppo广东移动通信有限公司 | 一种耳道杂物提示方法及相关产品 |
CN108962241A (zh) * | 2018-06-27 | 2018-12-07 | Oppo广东移动通信有限公司 | 位置提示方法、装置、存储介质及电子设备 |
CN112053421A (zh) * | 2020-10-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 信号降噪处理方法、装置、设备及存储介质 |
CN112053421B (zh) * | 2020-10-14 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 信号降噪处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10862836B2 (en) | Automatic response suggestions based on images received in messaging applications | |
CN106104673B (zh) | 深度神经网络的低资源占用适配和个性化 | |
CN108536416A (zh) | 处理用户输入的电子设备和处理用户输入的方法 | |
CN110832511A (zh) | 具有数据相关可用性的分布式设备上学习的系统和方法 | |
US10467778B2 (en) | Method and apparatus for realizing color tween animation | |
CN107637025A (zh) | 用于输出消息的电子装置及其控制方法 | |
CN108806669A (zh) | 用于提供语音识别服务的电子装置及其方法 | |
CN108334947A (zh) | 一种智能优化的sgd训练方法及系统 | |
CN107425579A (zh) | 一种智能充电方法及系统 | |
WO2021238599A1 (zh) | 对话模型的训练方法、装置、计算机设备及存储介质 | |
CN109636401A (zh) | 一种基于用户微表情的支付方法及系统 | |
CN107689227A (zh) | 一种基于数据融合的语音降噪方法及系统 | |
CN107707766A (zh) | 基于行程安排的充电提醒方法 | |
CN105677697A (zh) | 提供兴趣点的方法及其电子装置 | |
US20190294983A1 (en) | Machine learning inference routing | |
CN107786979A (zh) | 一种多终端共享通信方法及系统 | |
CN107423585A (zh) | 一种应用的隐秘使用方法及系统 | |
CN107566978A (zh) | 一种基于智能神经网络的终端跟踪方法及系统 | |
CN107862518A (zh) | 一种基于终端位置的支付方法及系统 | |
CN107483969A (zh) | 一种基于pca的数据传输方法及系统 | |
CN208673193U (zh) | 一种智能多媒体系统 | |
CN108293175A (zh) | 装置和用于提供其切换的方法 | |
CN107623736A (zh) | 一种设备连接方法及系统 | |
CN107592398A (zh) | 一种智能信息存储方法及系统 | |
CN107395866A (zh) | 通话自动答录方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180213 |
|
WD01 | Invention patent application deemed withdrawn after publication |