CN103680513A - 语音信号处理方法、装置及服务器 - Google Patents

语音信号处理方法、装置及服务器 Download PDF

Info

Publication number
CN103680513A
CN103680513A CN201310681217.9A CN201310681217A CN103680513A CN 103680513 A CN103680513 A CN 103680513A CN 201310681217 A CN201310681217 A CN 201310681217A CN 103680513 A CN103680513 A CN 103680513A
Authority
CN
China
Prior art keywords
signal
voice signal
weight
cross
talk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310681217.9A
Other languages
English (en)
Other versions
CN103680513B (zh
Inventor
马跃
胡建强
张帆
刘丽
成家雄
宋思超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN201310681217.9A priority Critical patent/CN103680513B/zh
Publication of CN103680513A publication Critical patent/CN103680513A/zh
Priority to PCT/CN2014/093656 priority patent/WO2015085946A1/zh
Application granted granted Critical
Publication of CN103680513B publication Critical patent/CN103680513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音信号处理方法、装置及服务器,属于通信技术领域。所述方法包括:获取多个通道的原始语音信号,该原始语音信号为数字语音信号;对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,该第一语音信号的频率属于预设频率范围;对于每一个通道的第一语音信号,获取该第一语音信号中每段子信号的响度;根据该第一语音信号中每段子信号的响度以及该多个通道的同一段子信号的响度和,获取该第一语音信号中每段子信号的第一权重;按照该多个通道的第一语音信号中每段子信号的第一权重和该多个通道的第一语音信号,得到处理后的语音信号。本发明通过信号的权重对信号进行处理,提高了语音辨识度。

Description

语音信号处理方法、装置及服务器
技术领域
本发明涉及通信技术领域,特别涉及一种语音信号处理方法、装置及服务器。
背景技术
随着通信技术的日益发展,在即时通讯应用中常常会遇到多个用户同时进行语音通话的情况,而在进行多方语音通信时,需要将多个通道的语音信号进行混音处理。
在对多个通道的语音信号进行混音处理时,一般直接将多个通道的语音信号进行简单叠加。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
在对多个通道的语音信号进行直接叠加时,语音信号中所包含的无用信号也被叠加起来,使得叠加后的语音噪声较大,造成语音信号的辨识度较低,用户很难从叠加后的语音中进行辨识。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种语音信号处理方法、装置及服务器。所述技术方案如下:
第一方面,提供了一种语音信号处理方法,所述方法包括:
获取多个通道的原始语音信号,所述原始语音信号为数字语音信号;
对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,所述第一语音信号的频率属于预设频率范围;
对于每一个通道的第一语音信号,获取所述第一语音信号中每段子信号的响度;
根据所述第一语音信号中每段子信号的响度以及所述多个通道的同一段子信号的响度和,获取所述第一语音信号中每段子信号的第一权重;
按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号。
可选地,按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号包括:
根据所述多个通道的第一权重的最大值,确定指定阈值;
对于每一个通道的第一语音信号,将第一权重小于所述指定阈值的子信号的第二权重设置为0,根据所述第一语音信号中每段子信号的响度和所述多个通道的第一语音信号中同一段子信号中除已将第二权重设置为0的子信号以外子信号的响度和,获取所述第一语音信号中第一权重不小于所述指定阈值的子信号的第二权重;
对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,获取所述第一语音信号中每段子信号的第三权重;
对于每一个通道的原始语音信号,根据所述第一语音信号中每段子信号的第三权重调整所述原始语音信号中对应的子信号;
将所述多个通道中调整后的每段子信号对应叠加,得到处理后的语音信号。
可选地,对于每一个通道的原始语音信号,根据所述第一语音信号中每段子信号的第三权重调整所述原始语音信号中对应的子信号包括:
对于每一段子信号,将所述子信号的第三权重与所述原始语音信号中所述子信号的幅值相乘,得到调整后的子信号。
可选地,根据所述第一语音信号中每段子信号的第二权重,获取所述第一语音信号中每段子信号的第三权重包括:
对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,对所述第一语音信号中每段子信号的权重进行平滑处理,得到所述第一语音信号中每段子信号的第三权重。
可选地,将所述多个通道中调整后的每段子信号叠加,得到处理后的语音信号之后,所述方法还包括:
当所述处理后的语音信号的幅值大于预设阈值时,对所述处理后的语音信号进行非线性映射,得到输出语音信号。
第二方面,提供了一种语音信号处理装置,所述装置包括:
原始语音信号获取模块,用于获取多个通道的原始语音信号,所述原始语音信号为数字语音信号;
滤波模块,用于对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,所述第一语音信号的频率属于预设频率范围;
响度获取模块,用于对于每一个通道的第一语音信号,获取所述第一语音信号中每段子信号的响度;
权重获取模块,用于根据所述第一语音信号中每段子信号的响度以及所述多个通道的同一段子信号的响度和,获取所述第一语音信号中每段子信号的第一权重;
语音信号处理模块,用于按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号。
可选地,所述语音信号处理模块包括:
指定阈值确定单元,用于根据所述多个通道的第一权重的最大值,确定指定阈值;
权重获取单元,用于对于每一个通道的第一语音信号,将第一权重小于所述指定阈值的子信号的第二权重设置为0,根据所述第一语音信号中每段子信号的响度和所述多个通道的第一语音信号中同一段子信号中除已将第二权重设置为0的子信号以外子信号的响度和,获取所述第一语音信号中第一权重不小于所述指定阈值的子信号的第二权重;
所述权重获取单元还用于对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,获取所述第一语音信号中每段子信号的第三权重;
所述语音信号处理模块还包括:调整单元,用于对于每一个通道的原始语音信号,根据所述第一语音信号中每段子信号的第三权重调整所述原始语音信号中对应的子信号;
语音信号处理单元,用于将所述多个通道中调整后的每段子信号对应叠加,得到处理后的语音信号。
可选地,所述调整单元还用于对于每一段子信号,将所述子信号的第三权重与所述原始语音信号中所述子信号的幅值相乘,得到调整后的子信号。
可选地,所述权重获取单元还用于对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,对所述第一语音信号中每段子信号的权重进行平滑处理,得到所述第一语音信号中每段子信号的第三权重。
可选地,所述装置还包括:
语音信号输出模块,用于当所述处理后的语音信号的幅值大于预设阈值时,对所述处理后的语音信号进行非线性映射,得到输出语音信号。
第三方面,提供了一种服务器,所述服务器包括:处理器和存储器,所述处理器与所述存储器相连接,
所述处理器,用于获取多个通道的原始语音信号,所述原始语音信号为数字语音信号;
所述处理器还用于对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,所述第一语音信号的频率属于预设频率范围;
所述处理器还用于对于每一个通道的第一语音信号,获取所述第一语音信号中每段子信号的响度;
所述处理器还用于根据所述第一语音信号中每段子信号的响度以及所述多个通道的同一段子信号的响度和,获取所述第一语音信号中每段子信号的第一权重;
所述处理器还用于按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号。
本发明实施例提供的技术方案带来的有益效果是:
通过对多个通道的数字语音信号进行滤波,去掉不包含人正常发声的语音信号,得到每一个通道的第一语音信号,并根据该第一语音信号中每段子信号的响度,对该多个通道的第一语音信号进行处理,得到处理后的语音信号,有效的去除了语音信号中响度较低的无用信号,使得处理后的语音噪声减少,语音信号的辨识度提高,便于从处理后的语音信号中进行辨识。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音信号处理方法流程图;
图2是本发明实施例提供的一种语音信号处理方法流程图;
图3是本发明实施例提供的一种语音信号处理装置结构示意图;
图4是本发明实施例提供的一种服务器结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种语音信号处理方法流程图。参见图1,该实施例的执行主体为服务器,该方法包括:
101、获取多个通道的原始语音信号,该原始语音信号为数字语音信号。
102、对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,该第一语音信号的频率属于预设频率范围。
103、对于每一个通道的第一语音信号,获取该第一语音信号中每段子信号的响度。
104、根据该第一语音信号中每段子信号的响度以及该多个通道的同一段子信号的响度和,获取该第一语音信号中每段子信号的第一权重。
105、按照该多个通道的第一语音信号中每段子信号的第一权重和该多个通道的第一语音信号,得到处理后的语音信号。
本发明实施例提供的方法,通过对多个通道的数字语音信号进行滤波,去掉不包含人正常发声的语音信号,得到每一个通道的第一语音信号,并根据该第一语音信号中每段子信号的响度,对该多个通道的第一语音信号进行处理,得到处理后的语音信号,有效的去除了语音信号中响度较低的无用信号,使得处理后的语音噪声减少,语音信号的辨识度提高,便于从处理后的语音信号中进行辨识。
图2是本发明实施例提供的一种语音信号处理方法流程图。参见图2,该实施例的执行主体为服务器,该方法流程包括:
201、服务器获取多个通道的原始语音信号,该原始语音信号为数字语音信号。
该服务器用于对语音信号进行处理,该服务器可以为即时通信应用的服务器、会议服务器等。以即时通信应用的服务器为例,当用户通过即时通信应用与多个联系人进行语音通信,或用户在即时通信应用的群组中进行语音通信时,服务器在同一时间段内可能会接收到多个用户的语音信号,以每个用户的语音信号作为一个通道的语音信号,为了输出语音信号,服务器需要将多个通道的语音信号进行步骤201~211的叠加过程。
服务器接收多个通道发送的原始语音信号,该原始语音信号的传输为一帧一帧进行,也即是原始语音信号中包括多个在时间上连续的帧,为了便于描述和理解,本发明实施例的后续步骤中仅以子信号来代替帧。其中,原始语音信号为数字语音信号。
202、服务器对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,该第一语音信号的频率属于预设频率范围。
由于该多个通道的数字语音信号中不仅包含用户需要的语音信号,还包含大量无用信号,如噪声等,为了简化后续的语音处理过程,需要从该多个通道的原始语音信号中过滤出人正常发声的频率的语音信号。该步骤202具体为:服务器根据预设频率范围,对每一个通道中的数字信号进行滤波,过滤掉频率不在预设频率范围内的数字语音信号,得到处于预设频率范围内的数字语音信号,服务器将该处于预设频率范围内的数字语音信号作为第一语音信号。
其中,预设频率范围可以由技术人员在开发时设置,也可以由用户在使用的过程中调整,本发明实施例对此不做限定。该预设频率范围具体可以为100Hz~4KHz,也可以为其他频率范围。而且,本发明实施例中是以人正常发声时的声音频率来确定预设频率范围,当然,还可以是以其他声音的频率来确定该预设频率范围,本发明实施对如何确定预设频率范围不做限定。
203、服务器对于每一个通道的第一语音信号,获取该第一语音信号中每段子信号的响度。
在语音通信过程中,可以根据响度区分有用信号和无用信号,用户的声音一般要比背景音的响度大,因此,可以通过响度确定信号中需要去除的部分。
该步骤203具体为:服务器根据预设响度算法,计算每一个通道的第一语音信号中每段子信号的响度。其中,预设响度算法可以有技术人员在开发时设置,也可以在用户使用的过程中调整,本发明实施例对此不做限定。该预设响度算法具体可以为Zwicker响度量测模型,当然也可以是其它响度算法,本发明实施例中以适用于人声的Zwicker响度量测模型为例进行详细说明。
204、服务器根据该第一语音信号中每段子信号的响度以及该多个通道的同一段子信号的响度和,获取该第一语音信号中每段子信号的第一权重。
子信号的响度在同一段子信号的响度和中所占的比例可以直接影响到该子信号在叠加后的语音信号中的辨识度,因此,可以通过步骤204确定所有通道中每段子信号的第一权重。
具体地,服务器将该第一语音信号中同一段子信号的响度进行相加,得到该多个通道的同一段子信号的响度和,服务器将该第一语音信号中每段子信号的响度与该多个通道的同一段子信号的响度和相除,得到该第一语音信号中每段子信号的第一权重。
例如,如果接收语音信号的通道数为2,分别为通道1和通道2,每一个通道的第一语音信号包括3段子信号,分别为子信号1、子信号2和子信号3,且通道1中的子信号1的响度为1、子信号2的响度为3、子信号3的响度为4,通道2中的子信号1的响度为2、子信号2的响度为5、子信号3的响度为7,则两个通道的第一语音信号的响度和分别为3、8、11,通道1中的子信号1的第一权重为1/3、子信号2的第一权重为3/8、子信号3的第一权重为4/11,通道2中的子信号1的第一权重为2/3,子信号2的第一权重为5/8,子信号3的第一权重为7/11。
205、服务器根据该多个通道的第一权重的最大值,确定指定阈值。
为了过滤掉第一权重较小的子信号,服务器需要根据多个通道的第一权重来确定指定阈值。该步骤205具体为:服务器通过对比该第一语音信号中每段子信号的第一权重,得到该多个通道的第一权重的最大值,根据人耳听觉能够清晰分辨的语音信号权重、该多个通道的第一权重的最大值以及通道环境,确定指定阈值。
需要说明的是,该指定阈值具体可以为该多个通道的第一权重的最大值的0.1倍等,当然该指定阈值也可以是有其他表示方式,本发明实施例对此不做限定。
206、对于每一个通道的第一语音信号,服务器将第一权重小于该指定阈值的子信号的第二权重设置为0,根据该第一语音信号中每段子信号的响度和该多个通道的第一语音信号中同一段子信号中除已将第二权重设置为0的子信号以外子信号的响度和,获取该第一语音信号中第一权重不小于该指定阈值的子信号的第二权重。
具体地,服务器将第一权重小于指定阈值的子信号的第二权重设置为0,并计算多个通道的第一语音信号中同一段子信号除已将第二权重设置为0的子信号以外子信号的响度和,服务器利用第一语音信号中每段子信号的响度与多个通道的第一语音信号中同一段子信号除已将第二权重设置为0的子信号以外子信号的响度和相除,得到该第一语音信号中第一权重不小于该指定阈值的子信号的第二权重。
需要说明的是,上述步骤206的过程,也可以是:服务器将该第一权重小于指定阈值的子信号的响度设置为0,根据该第一语音信号中每段子信号的响度和多个通道的同一段子信号的响度和,获取该第一语音信号中每段子信号的第二权重。其中,对于第一权重小于指定阈值的子信号,由于该子信号的响度为0,因此,第一权重小于指定阈值的子信号的第二权重也为0。
基于步骤204的示例,两个通道的第一权重的最大值为2/3,如果指定阈值为0.35,则服务器将通道1中的子信号1的第二权重设置为0,根据步骤206,计算通道1中的子信号2、子信号3和通道2中的子信号1、子信号2、子信号3的响度和,并根据通道1中的子信号2、子信号3和通道2中的子信号1、子信号2、子信号3的响度,获取通道1中的子信号2、子信号3和通道2中的子信号1、子信号2、子信号3的第二权重。
其中,为了简化响度的计算过程,服务器在得到第一语音信号中每段子信号的响度后,可以将第一语音信号中每段子信号设置信号标识,并将每段子信号的信号标识与该段子信号的响度对应存储,当服务器执行步骤206的过程时,服务器获取该第一语音信号中每段子信号的信号标识,并根据该段子信号的信号标识从已存储的响度中得到该段子信号的响度。其中,信号标识可以根据通道标号和子信号的标号进行表示,基于步骤204的示例,通道1中的子信号2的信号标识可以表示为12,通道2中的子信号3的信号标识可以表示为23等,当然,该信号标识还可以通过其他方式表示,本发明实施例对此不做限定。
207、对于每一个通道的第一语音信号,服务器根据该第一语音信号中每段子信号的第二权重,获取该第一语音信号中每段子信号的第三权重。
为了均衡子信号的声音效果,对于一段子信号来说,当获取到该段子信号的第二权重时,可以通过服务器中的二阶低通滤波模块对该段子信号的权重进行处理。该步骤207具体为:对于每一个通道的第一语音信号中第m段子信号,服务器根据该第一语音信号中第m段子信号的第二权重和第m-1段子信号的第三权重,对该第一语音信号中第m段子信号的权重进行平滑处理,得到该第一语音信号中第m段子信号的第三权重,该第m段子信号的第三权重作为该通道中第m+1段子信号的第三权重初值,并根据该第一语音信号中第m+1段子信号的第二权重,对该第m+1段子信号的权重进行平滑处理,得到该第m+1段子信号的第三权重。依据上述过程进行迭代,得到该第一语音信号中每段子信号的第三权重。其中,平滑处理可以是将较大的权重和较小的权重中和,得到一个中间值,该中间值可以通过插值等算法获取。
需要说明的是,对于每一个通道的第1段子信号,服务器根据该第1段子信号的第二权重,获取该第1段子信号的第三权重的过程可以为:服务器根据该第1段子信号的第二权重和预设初值,对该第1段子信号的权重进行平滑处理,得到该第1段子信号的第三权重,相应地,该第1段子信号的第三权重作为第2段子信号的第三权重初值,以此获取该第2段子信号的第三权重。该预设初值可以由技术人员在开发时设置,也可以由用户在使用的过程中调整,本发明实施例对此不做限定。
基于步骤204的示例,通道2中的子信号1的第一权重为2/3,当经过步骤206后,通道2中的子信号1的第二权重为1,服务器中的二阶低通滤波模块的配置参数可以为0.7和0.3,预设初值为0.6,则根据通道2中的子信号1预设初值和该第二权重对通道2中的子信号1的权重进行平滑处理,具体可以为该预设初值乘以0.7,该第二权重乘以0.3,并将两个结果相加,将得到的结果作为通道2中的子信号1的第三权重,该第三权重为0.72。该通道2中的子信号1的第三权重0.72作为该通道2中的子信号2的第三权重初值,服务器根据该通道2中的子信号2的第二权重5/8,计算得到该通道2中的子信号2第三权重为0.6915,并将通道2中的子信号2的第三权重0.6915作为该通道2中的子信号3的第三权重初值,通过上述过程,得到该通道2中的子信号3的第三权重。
当然,服务器对该第一语音信号中每段子信号的权重进行平滑处理的方式,还可以是除上述方式以外的其它方式,本发明实施例对服务器使用何种方式对子信号的权重进行平滑处理不做限定。
208、对于每一个通道的原始语音信号,服务器根据该第一语音信号中每段子信号的第三权重调整该原始语音信号中对应的子信号。
由于原始语音信号中每段子信号为数字语音信号,对于每一段子信号,将该子信号的第三权重与该原始语音信号中该子信号的幅值相乘,得到调整后的子信号。
其中,幅值可以用于表示原始语音信号的频率或信号强度,根据模数转换时所采用的采样参数不同而变化,当然,该幅值还可以由其它参数表示,本发明实施例对此不做限定。
如果接收语音信号的通道数为2,分别为通道1和通道2,每一个通道的第一语音信号包括3段子信号,分别为子信号1、子信号2和子信号3,通道1中的子信号2包含100个数据,其中第51个数据为10,若通道1中的子信号2的第三权重为0.2,则将通道1中子信号2的第51个数据10乘以0.2,得到调整后的子信号2的第51个数据为2。
209、服务器将该多个通道中调整后的每段子信号对应叠加,得到处理后的语音信号。
具体地,服务器将多个通道中同一时间段接收到的经过权重调整的原始语音信号进行叠加,也即是同一时间段中多个通道的每段子信号根据接收时间对应叠加,得到处理后的语音信号。
当该处理后的语音信号的幅值超过了数字域所能表征的幅值时,服务器需要对该处理后的语音信号进行进一步处理,防止该处理后的语音中出现破音的现象,则服务器还可以执行如下步骤210:
210、当该处理后的语音信号的幅值大于预设阈值时,服务器对该处理后的语音信号进行非线性映射,得到输出语音信号。
具体地,服务器根据处理后的语音信号的幅值,确定该处理后的语音信号的幅值是否大于预设阈值,当该处理后的语音信号的幅值大于预设阈值时,服务器将该处理后的语音信号的幅值大于预设阈值的语音信号映射到指定范围内,使得输出语音信号的最大幅值不会超出数字域所能表征的范围。
例如,数字域的16比特能表示的范围是-32768~32767,如果预设阈值为27000,处理后的语音信号的幅值范围为-40000~40000,服务器需要将幅值范围在-40000~-27000及27000~40000的语音信号进行非线性映射,服务器将语音信号根据预设规则映射到指定区域-32768~32767内。其中,预设规则可以是某一个函数,也可以是其它方法,本发明实施例对此不做限定。
其中,该预设阈值没有处于数字域能表征的范围内,该预设阈值可以由技术人员在开发时设置,也可以由用户在使用的过程中调整,本发明实施例对此不做限定。
本发明实施例是以执行主体为服务器为例进行说明,当然,该过程还可以在终端设备上执行。
本发明实施例提供的方法,通过对多个通道的数字语音信号进行滤波,去掉不包含人正常发声的语音信号,得到每一个通道的第一语音信号,并根据该第一语音信号中每段子信号的响度,对该多个通道的第一语音信号进行处理,得到处理后的语音信号,有效的去除了语音信号中响度较低的无用信号,使得处理后的语音噪声减少,语音信号的辨识度提高,便于从处理后的语音信号中进行辨识。进一步地,通过计算每段子信号的第二权重,并根据每段子信号的第二权重,得到每段子信号的第三权重,从而根据该第三权重对语音信号进行叠加,大大降低了处理后语音信号中所包含的噪音信号,语音信号的辨识度大大提高,而且对处理后的语音信号进行非线性处理,防止了输出语音出现破音现象。
图3是本发明实施例提供的一种语音信号处理装置结构示意图。参见图3,该装置包括:原始语音信号获取模块301、滤波模块302、响度获取模块303、权重获取模块304和语音信号处理模块305。其中,原始语音信号获取模块301,用于获取多个通道的原始语音信号,该原始语音信号为数字语音信号;模数转换模块301与滤波模块302相连接,该滤波模块302,用于对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,该第一语音信号的频率属于预设频率范围;滤波模块302与响度获取模块303相连接,该响度获取模块303,用于对于每一个通道的第一语音信号,获取该第一语音信号中每段子信号的响度;响度获取模块303与权重获取模块304相连接,该权重获取模块304,用于根据该第一语音信号中每段子信号的响度以及该多个通道的同一段子信号的响度和,获取该第一语音信号中每段子信号的第一权重;权重获取模块304与语音信号处理模块305相连接,该语音信号处理模块305,用于按照该多个通道的第一语音信号中每段子信号的第一权重和该多个通道的第一语音信号,得到处理后的语音信号。
可选地,该语音信号处理模块305包括:
指定阈值确定单元,用于根据该多个通道的第一权重的最大值,确定指定阈值;
权重获取单元,用于对于每一个通道的第一语音信号,将第一权重小于该指定阈值的子信号的第二权重设置为0,根据该第一语音信号中每段子信号的响度和该多个通道的第一语音信号中同一段子信号中除已将第二权重设置为0的子信号以外子信号的响度和,获取该第一语音信号中第一权重不小于该指定阈值的子信号的第二权重;
该权重获取单元还用于对于每一个通道的第一语音信号,根据该第一语音信号中每段子信号的第二权重,获取该第一语音信号中每段子信号的第三权重;
该语音信号处理模块还包括:调整单元,用于对于每一个通道的原始语音信号,根据该第一语音信号中每段子信号的第三权重调整该原始语音信号中对应的子信号;
语音信号处理单元,用于将该多个通道中调整后的每段子信号对应叠加,得到处理后的语音信号。
可选地,该调整单元还用于对于每一段子信号,将该子信号的第三权重与该原始语音信号中该子信号的幅值相乘,得到调整后的子信号。
可选地,该权重获取单元还用于对于每一个通道的第一语音信号,根据该第一语音信号中每段子信号的第二权重,对该第一语音信号中每段子信号的权重进行平滑处理,得到该第一语音信号中每段子信号的第三权重。
可选地,该装置还包括:
语音信号输出模块,用于当该处理后的语音信号的幅值大于预设阈值时,对该处理后的语音信号进行非线性映射,得到输出语音信号。
综上所述,本发明实施例提供的装置,通过对多个通道的数字语音信号进行滤波,去掉不包含人正常发声的语音信号,得到每一个通道的第一语音信号,并根据该第一语音信号中每段子信号的响度,对该多个通道的第一语音信号进行处理,得到处理后的语音信号,有效的去除了语音信号中响度较低的无用信号,使得处理后的语音噪声减少,语音信号的辨识度提高,便于从处理后的语音信号中进行辨识。
需要说明的是:上述实施例提供的语音信号处理装置在对语音信号处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音信号处理装置与语音信号处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本发明实施例提供的一种服务器结构示意图。参见图4,该服务器包括:处理器401和存储器402,该处理器401与该存储器402相连接,
该处理器401,用于获取多个通道的原始语音信号,该原始语音信号为数字语音信号;
该处理器401还用于对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,该第一语音信号的频率属于预设频率范围;
该处理器401还用于对于每一个通道的第一语音信号,获取该第一语音信号中每段子信号的响度;
该处理器401还用于根据该第一语音信号中每段子信号的响度以及该多个通道的同一段子信号的响度和,获取该第一语音信号中每段子信号的第一权重;
该处理器401还用于按照该多个通道的第一语音信号中每段子信号的第一权重和该多个通道的第一语音信号,得到处理后的语音信号。
可选地,该处理器401还用于按照该多个通道的第一语音信号指定阈值确定单元,用于根据该多个通道的第一权重的最大值,确定指定阈值;对于每一个通道的第一语音信号,将第一权重小于该指定阈值的子信号的第二权重设置为0,根据该第一语音信号中每段子信号的响度和该多个通道的第一语音信号中同一段子信号中除已将第二权重设置为0的子信号以外子信号的响度和,获取该第一语音信号中第一权重不小于该指定阈值的子信号的第二权重;对于每一个通道的第一语音信号,根据该第一语音信号中每段子信号的第二权重,获取该第一语音信号中每段子信号的第三权重;对于每一个通道的原始语音信号,根据该第一语音信号中每段子信号的第三权重调整该原始语音信号中对应的子信号;将该多个通道中调整后的每段子信号对应叠加,得到处理后的语音信号。
可选地,该处理器401还用于对于每一段子信号,将该子信号的第三权重与该原始语音信号中该子信号的幅值相乘,得到调整后的子信号。
可选地,该处理器401还用于对于每一个通道的第一语音信号,根据该第一语音信号中每段子信号的第二权重,对该第一语音信号中每段子信号的权重进行平滑处理,得到该第一语音信号中每段子信号的第三权重。
可选地,该处理器401还用于当该处理后的语音信号的幅值大于预设阈值时,对该处理后的语音信号进行非线性映射,得到输出语音信号。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种语音信号处理方法,其特征在于,所述方法包括:
获取多个通道的原始语音信号,所述原始语音信号为数字语音信号;
对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,所述第一语音信号的频率属于预设频率范围;
对于每一个通道的第一语音信号,获取所述第一语音信号中每段子信号的响度;
根据所述第一语音信号中每段子信号的响度以及所述多个通道的同一段子信号的响度和,获取所述第一语音信号中每段子信号的第一权重;
按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号。
2.根据权利要求1所述的方法,其特征在于,按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号包括:
根据所述多个通道的第一权重的最大值,确定指定阈值;
对于每一个通道的第一语音信号,将第一权重小于所述指定阈值的子信号的第二权重设置为0,根据所述第一语音信号中每段子信号的响度和所述多个通道的第一语音信号中同一段子信号中除已将第二权重设置为0的子信号以外子信号的响度和,获取所述第一语音信号中第一权重不小于所述指定阈值的子信号的第二权重;
对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,获取所述第一语音信号中每段子信号的第三权重;
对于每一个通道的原始语音信号,根据所述第一语音信号中每段子信号的第三权重调整所述原始语音信号中对应的子信号;
将所述多个通道中调整后的每段子信号对应叠加,得到处理后的语音信号。
3.根据权利要求2所述的方法,其特征在于,对于每一个通道的原始语音信号,根据所述第一语音信号中每段子信号的第三权重调整所述原始语音信号中对应的子信号包括:
对于每一段子信号,将所述子信号的第三权重与所述原始语音信号中所述子信号的幅值相乘,得到调整后的子信号。
4.根据权利要求2所述的方法,其特征在于,根据所述第一语音信号中每段子信号的第二权重,获取所述第一语音信号中每段子信号的第三权重包括:
对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,对所述第一语音信号中每段子信号的权重进行平滑处理,得到所述第一语音信号中每段子信号的第三权重。
5.根据权利要求2或3所述的方法,其特征在于,将所述多个通道中调整后的每段子信号叠加,得到处理后的语音信号之后,所述方法还包括:
当所述处理后的语音信号的幅值大于预设阈值时,对所述处理后的语音信号进行非线性映射,得到输出语音信号。
6.一种语音信号处理装置,其特征在于,所述装置包括:
原始语音信号获取模块,用于获取多个通道的原始语音信号,所述原始语音信号为数字语音信号;
滤波模块,用于对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,所述第一语音信号的频率属于预设频率范围;
响度获取模块,用于对于每一个通道的第一语音信号,获取所述第一语音信号中每段子信号的响度;
权重获取模块,用于根据所述第一语音信号中每段子信号的响度以及所述多个通道的同一段子信号的响度和,获取所述第一语音信号中每段子信号的第一权重;
语音信号处理模块,用于按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号。
7.根据权利要求6所述的装置,其特征在于,所述语音信号处理模块包括:
指定阈值确定单元,用于根据所述多个通道的第一权重的最大值,确定指定阈值;
权重获取单元,用于对于每一个通道的第一语音信号,将第一权重小于所述指定阈值的子信号的第二权重设置为0,根据所述第一语音信号中每段子信号的响度和所述多个通道的第一语音信号中同一段子信号中除已将第二权重设置为0的子信号以外子信号的响度和,获取所述第一语音信号中第一权重不小于所述指定阈值的子信号的第二权重;
所述权重获取单元还用于对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,获取所述第一语音信号中每段子信号的第三权重;
所述语音信号处理模块还包括:调整单元,用于对于每一个通道的原始语音信号,根据所述第一语音信号中每段子信号的第三权重调整所述原始语音信号中对应的子信号;
语音信号处理单元,用于将所述多个通道中调整后的每段子信号对应叠加,得到处理后的语音信号。
8.根据权利要求7所述的装置,其特征在于,所述调整单元还用于对于每一段子信号,将所述子信号的第三权重与所述原始语音信号中所述子信号的幅值相乘,得到调整后的子信号。
9.根据权利要求7所述的装置,其特征在于,所述权重获取单元还用于对于每一个通道的第一语音信号,根据所述第一语音信号中每段子信号的第二权重,对所述第一语音信号中每段子信号的权重进行平滑处理,得到所述第一语音信号中每段子信号的第三权重。
10.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
语音信号输出模块,用于当所述处理后的语音信号的幅值大于预设阈值时,对所述处理后的语音信号进行非线性映射,得到输出语音信号。
11.一种服务器,其特征在于,所述服务器包括:处理器和存储器,所述处理器与所述存储器相连接,
所述处理器,用于获取多个通道的原始语音信号,所述原始语音信号为数字语音信号;
所述处理器还用于对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,所述第一语音信号的频率属于预设频率范围;
所述处理器还用于对于每一个通道的第一语音信号,获取所述第一语音信号中每段子信号的响度;
所述处理器还用于根据所述第一语音信号中每段子信号的响度以及所述多个通道的同一段子信号的响度和,获取所述第一语音信号中每段子信号的第一权重;
所述处理器还用于按照所述多个通道的第一语音信号中每段子信号的第一权重和所述多个通道的第一语音信号,得到处理后的语音信号。
CN201310681217.9A 2013-12-13 2013-12-13 语音信号处理方法、装置及服务器 Active CN103680513B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310681217.9A CN103680513B (zh) 2013-12-13 2013-12-13 语音信号处理方法、装置及服务器
PCT/CN2014/093656 WO2015085946A1 (zh) 2013-12-13 2014-12-12 语音信号处理方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310681217.9A CN103680513B (zh) 2013-12-13 2013-12-13 语音信号处理方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN103680513A true CN103680513A (zh) 2014-03-26
CN103680513B CN103680513B (zh) 2016-11-02

Family

ID=50317866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310681217.9A Active CN103680513B (zh) 2013-12-13 2013-12-13 语音信号处理方法、装置及服务器

Country Status (2)

Country Link
CN (1) CN103680513B (zh)
WO (1) WO2015085946A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104409079A (zh) * 2014-11-03 2015-03-11 北京有恒斯康通信技术有限公司 一种音频叠加的方法和装置
WO2015085946A1 (zh) * 2013-12-13 2015-06-18 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
CN105469806A (zh) * 2014-09-12 2016-04-06 联想(北京)有限公司 一种声音处理方法、装置及系统
CN108417208A (zh) * 2018-03-26 2018-08-17 宇龙计算机通信科技(深圳)有限公司 一种语音输入方法和装置
WO2020073564A1 (zh) * 2018-10-12 2020-04-16 北京字节跳动网络技术有限公司 用于检测音频信号的响度的方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113596771B (zh) * 2021-08-23 2023-11-17 国能包神铁路集团有限责任公司 一种机车无线通信设备及其控制方法、装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039203B2 (en) * 1995-09-06 2006-05-02 Apple Computer, Inc. Reduced complexity audio mixing apparatus
CN1946029A (zh) * 2006-10-30 2007-04-11 北京中星微电子有限公司 一种处理音频信号的方法及其系统
CN1953488A (zh) * 2006-11-01 2007-04-25 华为技术有限公司 一种多路语音信号的混音方法及装置
US7379961B2 (en) * 1997-04-30 2008-05-27 Computer Associates Think, Inc. Spatialized audio in a three-dimensional computer-based scene
US20080304673A1 (en) * 2007-06-11 2008-12-11 Fujitsu Limited Multipoint communication apparatus
CN101356571A (zh) * 2005-10-12 2009-01-28 弗劳恩霍夫应用研究促进协会 多声道音频信号的时间与空间成形
CN101674450A (zh) * 2008-09-10 2010-03-17 深圳市邦彦信息技术有限公司 视频指挥调度系统中的混音方法
CN103188595A (zh) * 2011-12-31 2013-07-03 展讯通信(上海)有限公司 处理多声道音频信号的方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2284968A (en) * 1993-12-18 1995-06-21 Ibm Audio conferencing system
JPH1013556A (ja) * 1996-06-21 1998-01-16 Oki Electric Ind Co Ltd テレビ会議システム
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
CN103680513B (zh) * 2013-12-13 2016-11-02 广州华多网络科技有限公司 语音信号处理方法、装置及服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039203B2 (en) * 1995-09-06 2006-05-02 Apple Computer, Inc. Reduced complexity audio mixing apparatus
US7379961B2 (en) * 1997-04-30 2008-05-27 Computer Associates Think, Inc. Spatialized audio in a three-dimensional computer-based scene
CN101356571A (zh) * 2005-10-12 2009-01-28 弗劳恩霍夫应用研究促进协会 多声道音频信号的时间与空间成形
CN1946029A (zh) * 2006-10-30 2007-04-11 北京中星微电子有限公司 一种处理音频信号的方法及其系统
CN1953488A (zh) * 2006-11-01 2007-04-25 华为技术有限公司 一种多路语音信号的混音方法及装置
US20080304673A1 (en) * 2007-06-11 2008-12-11 Fujitsu Limited Multipoint communication apparatus
CN101674450A (zh) * 2008-09-10 2010-03-17 深圳市邦彦信息技术有限公司 视频指挥调度系统中的混音方法
CN103188595A (zh) * 2011-12-31 2013-07-03 展讯通信(上海)有限公司 处理多声道音频信号的方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015085946A1 (zh) * 2013-12-13 2015-06-18 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
CN105469806A (zh) * 2014-09-12 2016-04-06 联想(北京)有限公司 一种声音处理方法、装置及系统
CN105469806B (zh) * 2014-09-12 2020-02-21 联想(北京)有限公司 一种声音处理方法、装置及系统
CN104409079A (zh) * 2014-11-03 2015-03-11 北京有恒斯康通信技术有限公司 一种音频叠加的方法和装置
CN108417208A (zh) * 2018-03-26 2018-08-17 宇龙计算机通信科技(深圳)有限公司 一种语音输入方法和装置
CN108417208B (zh) * 2018-03-26 2020-09-11 宇龙计算机通信科技(深圳)有限公司 一种语音输入方法和装置
WO2020073564A1 (zh) * 2018-10-12 2020-04-16 北京字节跳动网络技术有限公司 用于检测音频信号的响度的方法和装置
CN111045633A (zh) * 2018-10-12 2020-04-21 北京微播视界科技有限公司 用于检测音频信号的响度的方法和装置

Also Published As

Publication number Publication date
CN103680513B (zh) 2016-11-02
WO2015085946A1 (zh) 2015-06-18

Similar Documents

Publication Publication Date Title
CN103680513A (zh) 语音信号处理方法、装置及服务器
CN103871421B (zh) 一种基于子带噪声分析的自适应降噪方法与系统
EP0919096B1 (fr) Procede d'annulation d'echo acoustique multi-voies et annuleur d'echo acoustique multi-voies
CN102800323B (zh) 移动终端语音降噪的方法及装置
KR101552750B1 (ko) 파라미트릭 스테레오 변환 시스템 및 방법
CN108028049A (zh) 麦克风信号融合
CN101370322A (zh) 麦克风增益调节的方法及通信设备
CN104980337A (zh) 一种音频处理的性能提升方法及装置
CN102811267B (zh) 近端语音干扰消除系统及移动通信终端
CN105228056B (zh) 一种消除麦克风啸叫的方法及系统
CN104796836B (zh) 双耳声源增强
CN109817238A (zh) 音频信号采集装置、音频信号处理方法和装置
CN107426651B (zh) 多通道的混音方法及装置
US20200365174A1 (en) Method and system for generating mixed voice data
US10602275B2 (en) Audio enhancement via beamforming and multichannel filtering of an input audio signal
CN112309414A (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
CN108494952A (zh) 语音通话处理方法及相关设备
CN103812462A (zh) 响度控制方法及装置
CN103077725B (zh) 语音处理的方法及装置
EP3414889B1 (en) Bi-magnitude processing framework for nonlinear echo cancellation in mobile devices
CN101867853B (zh) 基于传声器阵列的语音信号处理方法及装置
CN106796782A (zh) 信息处理装置、信息处理方法以及计算机程序
CN101859567B (zh) 一种语音背景噪声的消除方法和装置
CN101699837A (zh) 一种电话语音输出增益调节的方法、装置和通信终端
CN113870871A (zh) 音频处理方法、装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140326

Assignee: All kinds of fruits garden, Guangzhou network technology company limited

Assignor: Guangzhou Huaduo Network Technology Co., Ltd.

Contract record no.: 2015990000265

Denomination of invention: Method and device for processing voice signal with noise, and server

License type: Exclusive License

Record date: 20150504

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CB02 Change of applicant information

Address after: 511446 Guangzhou City, Guangdong Province, Panyu District, South Village, Huambo Business District Wanda Plaza, block B1, floor 28

Applicant after: Guangzhou Huaduo Network Technology Co., Ltd.

Address before: 510655, Guangzhou, Whampoa Avenue, No. 2, creative industrial park, building 3-08,

Applicant before: Guangzhou Huaduo Network Technology Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140326

Assignee: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Assignor: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

Contract record no.: X2021980000101

Denomination of invention: Voice signal processing method, device and server

Granted publication date: 20161102

License type: Common License

Record date: 20210106